arXiv雑要約

画像・音声 - 2026/03/24 公開

密なテンソルは不要：イベントカメラボクセルグリッド上のフルスパース物体検出 [cs.HC, cs.CV]目的：イベントカメラにおけるフルスパース物体検出手法の開発
- イベントカメラは高速移動物体検出に適しているが，従来の検出器は効率を損ねる場合がある。
- イベントストリームを密なテンソルに変換することで，イベントカメラの持つ情報効率が失われるという課題がある。
- イベントカメラデータの構造的スパース性を活かした，効率的な物体検出手法を確立すること。
- SparseVoxelDetは，イベントカメラ用として初めてのフルスパース物体検出器であり，全ての処理をスパースなボクセル上で実行する。
- FREDベンチマークにおいて，SparseVoxelDetは83.38%のmAPを達成し，密なYOLOv11ベースラインと比較してメモリ使用量を大幅に削減した。
- 誤り分析の結果，検出失敗の多くは局所化の誤差に起因することが示唆され，検出能力自体は高い水準にあることが確認された。
Link: https://arxiv.org/abs/2603.21638
FedCVU：クロスビュー動画理解のための連合学習 [cs.FL, cs.DM, math.CO, cs.CV, cs.LG]目的：クロスビュー動画理解における連合学習フレームワーク
- プライバシー保護が重要視される中，複数カメラの動画データを活用する技術の必要性が高まっている。
- 異なる視点や背景を持つカメラデータは，データの偏りを生じやすく，学習が困難になるという課題がある。
- 視点差によるデータの偏りを解消し，効率的な連合学習を実現することで，動画理解の精度向上を目指す。
- 提案手法FedCVUは，VS-Norm，CV-Align，SLAの3つの要素により，クロスビュー動画理解における課題を克服する。
- 実験結果から，FedCVUは未知の視点での認識精度を向上させるとともに，既知の視点での性能も維持することが示された。
- 既存の連合学習手法と比較して，ドメインの異質性や通信制約に対する頑健性も確認された。
Link: https://arxiv.org/abs/2603.21647
OmniFM：多様な医療画像に対するモダリティロバストかつタスク非依存な連合学習へ [cs.AR, cs.CV]目的：異種医療画像におけるモダリティロバストかつタスク非依存な連合学習フレームワーク
- 医療画像分析において，データ共有が困難なため，分散環境での学習が重要視されている。
- 既存の連合学習フレームワークは，特定のタスクに依存し，異なるモダリティへの対応が脆弱である。
- 本研究は，多様なモダリティとタスクに対応可能な，汎用的な連合学習フレームワークを構築する。
- 提案手法OmniFMは，分類，セグメンテーション，超解像，VQA，マルチモーダル融合など，多様なタスクを再設計なしに統合的に学習可能である。
- OmniFMは，周波数領域における低周波成分の共通性と解剖学的構造の普遍性を活用し，グローバルな知識の注入と表現のAlignmentを実現する。
- 実データ実験により，OmniFMは既存の連合学習手法を凌駕し，様々なモダリティや学習設定で優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2603.21660
クロスシナリオにおける非ペアデータを用いた画像雨除去適応：スーパーピクセル構造事前知識と多段階疑似雨合成 [cs.CV, cs.AI, cs.GR, cs.LG, cs.MM]目的：画像雨除去における，ドメイン外のシナリオへの適応
- 画像雨除去は，屋外監視や自動運転などの低レベルコンピュータビジョンの基礎技術である。
- 深層学習は効果的だが，未知のシナリオでは性能が著しく低下する。
- 現実世界の雨の複雑な物理的特性と，合成データの乖離を解消する。
- 提案手法は，ターゲットドメインのペアデータなしで，雨が除去された背景画像のみを利用する。
- ソースドメインから安定した構造的特徴を抽出し，ターゲット背景との類似性により構造を整列させる。
- 多段階ノイズ生成によるリアルな雨粒のシミュレーションにより，性能向上と学習の高速化を実現した。
Link: https://arxiv.org/abs/2603.21661
人間オムニスピーカー：誰が何をいつ言ったかを特定する [cs.CL, cs.CV]目的：複数人物間の会話ダイナミクスの解明
- 人間のコミュニケーションにおいて，誰が何を言ったかを正確に把握することは不可欠である。
- 既存モデルは視覚的なバイアスに依存し，言語と視覚の真の整合性を欠いている。
- 高頻度な視覚的要素を捉え，会話の時系列的な情報を正確に把握することを目指す。
- 本研究では，視覚的なショートカットを排除した厳格なベンチマーク「VR-SDR」を導入した。
- 「HumanOmni-Speaker」は，Visual Delta Encoderにより，高精度な唇読みと空間定位を可能にした。
- 25fpsで生動画をサンプリングし，フレーム間の動きを効率的に圧縮することで，トークン増加を抑制した。
Link: https://arxiv.org/abs/2603.21664
PRMを審判とする：詳細なロボット監査のための高密度評価パラダイム [cs.RO, cs.CV]目的：ロボットの行動評価における課題と改善策
- ロボットの自律性の向上には，より詳細な行動評価が不可欠である。
- 従来の評価は成功/失敗の二値化に偏り，行動の質的情報が失われている。
- 行動の進捗，効率性，安定性など，より詳細な評価指標を導入し，ロボットの性能を可視化する。
- 本研究では，PRM（Process Reward Model）を用いて軌跡動画からタスクの進捗を評価する「PRMを審判とする」という高密度評価パラダイムを提案した。
- 提案手法は，タスクに沿った進捗ポテンシャルに基づき，実行品質を明確化するOPD（Outcome-Process-Diagnosis）指標システムを導入した。
- RoboPulseによる実験結果から，PRMを用いた評価が，識別ベースの手法や汎用モデルを上回る微細な進捗の識別能力を持つことが示された。
Link: https://arxiv.org/abs/2603.21669
LipsAM：オーディオ信号処理のためのリプシッツ連続な振幅変調器，およびプラグアンドプレイ逆響除去への応用 [cs.RO, cs.HC, cs.SD, cs.LG]目的：オーディオ信号処理のためのリプシッツ連続な振幅変調器の提案
- 深層学習の信頼性向上は重要である。リプシッツ連続性は信頼性を保証する指標となりうる。
- オーディオ処理向け深層学習へのリプシッツ連続性の応用は遅れており，既存研究との相性が課題である。
- 振幅変調器の構造を改良し，リプシッツ連続性を満たすことで安定性を高める。
- 提案手法LipsAMは，振幅変調器がリプシッツ連続性を満たすための十分条件を満たす。
- LipsAMをプラグアンドプレイ逆響除去アルゴリズムに適用した結果，安定性の向上が確認された。
- 数値実験により，提案アーキテクチャの有効性が実証された。
Link: https://arxiv.org/abs/2603.21684
屈折する水面と3Dガウス光線追跡による新規視点合成 [cs.CV, cs.GR]目的：非平面な屈折面を通る新規視点合成の実現
- 視点合成技術は，仮想現実やロボット工学など幅広い分野で重要性を増している。
- 従来の視点合成手法は，光線の直線伝播を前提としており，屈折面による光の屈折を正確に扱えない。
- 屈折面と背景のシーンを同時に再構成することで，より高品質な視点合成を可能にすることを目指す。
- RefracGSは，ニューラル高度場を用いて屈折水面をモデル化し，3Dガウス場を用いて背景シーンを表現する。
- スネルの法則に基づいた正確な光線追跡により，屈折による光の歪みを考慮したレンダリングを実現した。
- 合成データと実写データを用いた実験により，既存手法を凌駕する高品質な視点合成と高速な処理性能を実証した。
Link: https://arxiv.org/abs/2603.21695
PPGL-Swarm：褐色細胞腫・傍神経節腫における多角的リスク層別化と遺伝性症候群検出の統合 [cs.CV]目的：褐色細胞腫・傍神経節腫のリスク層別化と遺伝性症候群検出のための診断システム
- 褐色細胞腫・傍神経節腫は稀な腫瘍だが，転移リスクや生存率に課題があり，早期発見と適切な治療が重要である。
- 既存のGAPPスコアには主観的な評価や，重要な遺伝子変異の考慮不足といった限界が存在する。
- PPGL-Swarmは，これらの課題を解決し，より正確で包括的な診断支援を目指している。
- PPGL-Swarmは，自動GAPPスコアリング，遺伝子型リスクアラート，多角的レポートを統合したシステムである。
- 診断プロセスをマイクロタスクに分解し，各タスクを専門エージェントに割り当てることで，透明性の高い推論経路を提供する。
- 遺伝子情報や検査結果の解釈を強化する知識拡張と，タスク選択を最適化する強化学習を活用している。
Link: https://arxiv.org/abs/2603.21700
大規模ビジョン言語モデルにおけるトークン削減の再考 [cs.CV, cs.AI]目的：大規模ビジョン言語モデルのトークン削減手法の改善
- 近年，画像理解と推論に優れた大規模ビジョン言語モデルの利用が拡大している。
- これらのモデルは，過剰な視覚トークン数により推論コストが高いという課題がある。
- 複数ターンVQAにおけるトークン削減の有効性を高め，効率と精度を両立することを目指す。
- 本研究では，学習ベースのプロンプト非依存型手法MetaCompressを提案し，既存手法の限界を克服した。
- MetaCompressは，トークン削減を学習可能な圧縮写像として定式化し，学習効率の良いパラダイムを導入した。
- 実験結果から，MetaCompressは複数ターンVQAベンチマークにおいて，高い効率と精度のトレードオフを実現することが示された。
Link: https://arxiv.org/abs/2603.21701
長期尾クラス増分学習における視覚的不足の補償：階層型言語ガイダンスによるアプローチ [cs.AI, cs.CV]目的：長期尾クラス増分学習における課題解決
- 視覚情報だけでは認識が困難なケースが多く，言語情報を活用することで認識精度向上が期待される。
- 尾クラスのサンプル数が少ないため学習が難しく，連続的なデータ変化により知識の忘却が深刻化する。
- 言語知識を活用し，尾クラスの学習を促進し，知識の忘却を軽減することを目指す。
- 大規模言語モデルを用いて階層的な言語ツリーを構築し，粗い粒度から細かい粒度へとセマンティック情報を整理した。
- 学習可能な重みを用いてマルチスケールなセマンティック表現を統合する階層型適応言語ガイダンスを導入した。
- 言語ツリーの構造的安定性を利用し，最適化を制約し，セマンティック視覚的アライメントを強化する階層型アライメント言語ガイダンスを導入した。
Link: https://arxiv.org/abs/2603.21708
スマートシティにおけるインテリジェントなEV充電ネットワーク最適化のためのゲーム理論的枠組み [cs.DB, eess.SY, cs.SY, cs.MA, cs.GT]目的：EV充電ステーションの配置と価格設定に関する共同最適化
- 都市の持続可能性のため，EV普及に伴う充電インフラの効率的な整備が不可欠である。
- 充電需要の予測や，ドライバーの行動様式を考慮した最適化が課題となっていた。
- ドライバーの戦略的行動を考慮し，社会コストを最小化するインフラ設計を目指す。
- 提案手法は，既存手法と比較して少なくとも16%の性能向上を達成した。
- ドライバーの行動分解と整数緩和を組み合わせることで，大規模ネットワークへの適用も可能となった。
- 交通均衡を正確にモデル化し，効率的なインフラ設計を可能にすることで，持続可能な都市交通に貢献する。
Link: https://arxiv.org/abs/2603.21715
混合貪欲法：多様性認識型多腕バンディットにおいてUCBは必要か [cs.LG, cs.AI, cs.CV]目的：多様性認識型評価指標下における生成モデル選択問題の効率的な解決
- 現代の生成AIにおいて，生成モデルの選択は重要であり，非最適なモデルからのサンプリングコストが課題となる。
- 従来の多腕バンディット問題とは異なり，多様性認識型評価指標では，混合モデルが単一モデルを上回る可能性がある。
- 本研究は，明示的なUCB型探索ボーナスなしで，より効率的なモデル選択を可能にすることを目的とする。
- 実験結果から，UCB項は収束を遅らせ，サンプル効率を低下させる一方，単純な混合貪欲法がより高速に収束し，優れた性能を発揮することが示された。
- 多様性認識型目的関数は，内部分散混合を優先することで暗黙的な探索を誘導し，線形サンプリングとサブ線形後悔保証を実現することが理論的に示された。
- 生成モデル選択のための多様性認識型多腕バンディットにおいて，探索は目的関数の幾何学から内在的に生じることが示唆され，明示的な信頼区間ボーナスの必要性が疑われる。
Link: https://arxiv.org/abs/2603.21716
不確実な受容を伴う預言者の不等式 [cs.GT]目的：不確実な受容を伴う預言者の不等式モデルにおける最適な意思決定戦略
- 逐次的な意思決定問題は，資源配分やオークションなど，様々な分野で重要である。
- 情報が不完全な状況下での最適な意思決定は困難であり，その評価基準が不明確である。
- 受容確率が不確実な状況下で，価値情報のみで意思決定する戦略の限界を明らかにする。
- 提案モデルにおいて，価値情報のみで意思決定する戦略と，全ての情報を知る戦略との間の最悪ケースの競争比が1/2であることが示された。
- 価値情報の改善が受容確率の改善よりも意思決定に重要であることが示され，その重要性を強調した。
- 価値情報のみによる問題が，スケーリングされたベルヌーイ分布を用いた古典的な預言者の不等式に帰着されることが示された。
Link: https://arxiv.org/abs/2603.21740
要点を絞る：なぜ指し示すことがLVLMを改善するのか [cs.CV]目的：大規模視覚言語モデルにおける指し示し（pointing）の役割
- 視覚情報と言語を統合するLVLMは，多様なタスクに応用可能であり，AI研究において重要である。
- LVLMの性能向上には，視覚情報の正確な理解と推論能力の向上が不可欠である。
- 指し示しがLVLMの性能向上に寄与するメカニズムの解明と，認知タスクへの応用を目指す。
- 指し示しによる座標予測は，LVLMのゼロショット数え上げタスクにおける汎化性能を高める。
- 予測された座標は，画像の89％以上の領域で正確にオブジェクトを指し示しており信頼性が高い。
- 数え上げ性能の向上は，座標にエンコードされた空間情報に起因することがメカニズム分析から示唆された。
Link: https://arxiv.org/abs/2603.21746
画像を用いた効率的な思考：動的かつ精密な視覚的思考によるインターリーブ型連鎖思考フレームワーク [cs.HC, cs.CV, cs.AI]目的：インターリーブ型連鎖思考推論における効率性と柔軟性の向上
- マルチモーダルな情報処理は，より高度なAIシステムの実現に不可欠であり，特に画像とテキストの連携が重要である。
- 既存のインターリーブ型連鎖思考法では，視覚情報の挿入位置が固定化され，冗長性や非効率性が課題となっていた。
- 視覚情報の動的な統合と精密な表現を通じて，より効率的で効果的な推論を実現することを目指している。
- 提案手法DaP-ICoTは，複数のベンチマークとモデルにおいて最先端の性能を達成した。
- DaP-ICoTは，画像挿入数を大幅に削減し，トークン消費量を72.6%減少させることで，より効率的な推論を可能にした。
- 動的な視覚情報統合と精密な視覚的ガイダンスにより，推論の効率性と表現の整合性が向上した。
Link: https://arxiv.org/abs/2603.21754
SHARP：リモートセンシング合成における解像度向上を 위한 スペクトルを意識した高度な動的適応 [cs.CV]目的：リモートセンシング画像の解像度向上
- リモートセンシングは，環境モニタリングや災害対応など，幅広い分野で不可欠な技術である。
- 高解像度なリモートセンシング画像の生成は計算コストが高く，既存の画像生成モデルでは十分な性能を発揮できない。
- スペクトルを考慮した動的な位置埋め込み適応により，計算コストを抑えつつ，高解像度なリモートセンシング画像の生成を実現する。
- 提案手法SHARPは，既存の学習不要な解像度向上手法と比較して，CLIPスコア，美観スコア，HPSv2において一貫して優れた性能を示す。
- 特に，より積極的な解像度外挿において性能差が拡大し，計算オーバーヘッドは無視できる程度である。
- SHARPは，単一のハイパーパラメータセットで，様々な解像度におけるロバストな多段階生成を可能にする。
Link: https://arxiv.org/abs/2603.21783
動的露出バースト画像復元 [cs.CV]目的：高画質画像の復元
- 画像処理技術は，様々な分野で活用が広がっており，その重要性は増している。
- バースト画像復元において，最適な露出設定の決定が十分に行われていない。
- 撮影環境に適応した露出時間の動的予測による復元品質の向上を目指す。
- 提案手法（DEBIR）は，撮影環境に応じた露出時間を動的に予測し，復元品質を向上させる。
- BAENetにより，プレビュー画像，動きの大きさ，ゲインから最適な露出時間を推定する。
- 微分可能なバーストシミュレータと3段階の訓練戦略を用いて，高い復元品質を実現した。
Link: https://arxiv.org/abs/2603.21784
画像条件適応パラメータ調整によるVisual Odometryフロントエンド [cs.CV]目的：Visual Odometryフロントエンドのパラメータ調整手法
- ロボットの自律走行において，高精度かつ低コストな位置推定は不可欠である。
- 従来のパラメータは固定されており，環境変化に弱く，頑健性に課題があった。
- 画像内容に応じてパラメータを動的に調整し，環境変化への適応性を高める。
- 提案手法は，画像内容から特徴検出・追跡パラメータを直接決定する強化学習フレームワークである。
- 実験結果から，特徴追跡の長さが3倍に向上し，計算コストが3分の1に削減されたことが示された。
- シミュレーション環境での学習のみで，実環境でも高い性能を発揮する。
Link: https://arxiv.org/abs/2603.21785
普遍正規埋め込み [cs.CV, eess.IV]目的：生成モデルと視覚エンコーダにおける潜在空間の性質の解明
- 生成モデルとエンコーダは画像処理の重要な要素であり，その性能向上が求められている。
- 生成モデルとエンコーダは最適化目標や数学的原理が異なり，潜在空間の構造が不明確である。
- 潜在空間のガウス性に着目し，生成モデルとエンコーダを繋ぐ普遍的な潜在空間の存在を示す。
- 生成モデルのノイズとエンコーダの埋め込み表現が，線形投影により関連することを示唆する「普遍正規埋め込み」仮説を提唱した。
- CelebAデータセットを用いた実験で，線形プローブによる属性予測が両空間で高い精度を示し，仮説を支持する結果が得られた。
- 潜在空間の方向性を操作することで，モデル構造を変更することなく，画像の編集（笑顔，性別，年齢など）を制御可能となった。
Link: https://arxiv.org/abs/2603.21786
MTEventデータセットにおける産業用マルチクラス認識のための再帰型イベントベース物体検出のベンチマーク [cs.CV]目的：産業用マルチクラス認識における再帰型イベントベース物体検出の性能評価
- イベントカメラは高速応答性や広いダイナミックレンジを持ち，産業用ロボティクスにおいて重要性が増している。
- イベントベース物体検出の研究は，屋外運転や限られたクラス数に焦点を当てたものが多く，産業環境での評価が不足している。
- MTEventデータセットを用いて，再帰型イベントベース物体検出の有効性を検証し，性能向上に貢献する。
- MTEvent検証分割において，再帰型ReYOLOv8s（C21）は非再帰型YOLOv8sと比較して9.6%のmAP50向上（0.285）を示した。
- イベントドメインでの事前学習が効果的で，GEN1初期化のファインチューニングが最高のmAP50（0.329）を達成した。
- PEDRo初期化は0.251に低下し，ドメイン不一致な事前学習はスクラッチ学習より劣る場合があることが示唆された。
Link: https://arxiv.org/abs/2603.21787
スタンドアップコメディのタイミング：テキスト，音声，笑い声，キネシクス（TIC-TALK）パイプラインとコメディのタイミングの多角的学習のためのデータベース [cs.CV]目的：スタンドアップコメディにおけるタイミングの多角的学習のためのパイプラインとデータベース
- コメディは社会において重要な役割を果たし，文化的な理解を深める上で不可欠である。
- 従来のコメディ研究は主に言語的な要素に焦点を当てており，身体表現や観客の反応が十分に考慮されていない。
- 身体表現や観客の反応を含む多角的な分析を通して，コメディのタイミングの本質を解明することを目指す。
- 90本のスタンドアップコメディの収録映像から得られたデータを用いて，言語，ジェスチャー，観客の反応を多角的に分析できるTIC-TALKパイプラインを開発した。
- 観客の笑い声と身体の動き（運動エネルギー）の間に負の相関関係が見られ，パンチライン前の静止状態を示唆する結果が得られた。
- 個人的な話題や身体的な話題は，地政学的なテーマよりも多くの笑いを引き出す傾向があり，映像のクローズアップが笑いの頻度と正の相関関係にあることが示された。
Link: https://arxiv.org/abs/2603.21803
Transformerによるガイダンス付きアクティブMRI撮像における解剖学的トークン不確実性 [cs.CV]目的：Transformerとトークン化を利用したアクティブサンプリングフレームワーク
- MRIは臨床におけるスループットと患者の負担軽減が課題であり，高速化が重要である。
- 圧縮センシングMRIでは，最適なサンプリングと高精度な再構成モデルが不可欠である。
- 潜在空間の不確実性に基づき，効率的なアクティブサンプリングを実現する。
- 提案手法は，知覚的指標および特徴量ベースの距離において，最先端のベースライン手法を上回る性能を示した。
- 解剖学的構造を量子化された視覚トークンの辞書で表現することで，潜在空間の確率分布を定義している。
- トークンエントロピーに基づく不確実性尺度を用いて，情報量の多いサンプリングラインを特定する2つの戦略を導入した。
Link: https://arxiv.org/abs/2603.21806
意味誘導によるクロス表現アラインメントを用いたカスケードフリー Mandarin 視覚音声認識 [cs.CV]目的：Mandarin語の視覚音声認識における性能向上
- 視覚音声認識は，音声認識の信頼性を高める上で重要な技術であり，特に騒音環境下での応用が期待される。
- Mandarin語は声調言語であり，従来の系列変換モデルでは声調の扱いに課題があり，英語等に比べて認識精度が低い。
- 本研究では，中間表現のカスケード構造に起因する誤差伝播と推論遅延を解消し，より効率的な視覚音声認識を目指す。
- 提案手法は，音素と視素を含む複数の特徴表現を統合し，文脈情報を効果的に活用することで，認識性能を向上させている。
- 意味誘導された局所的対照損失を用いることで，特徴量の時間的アラインメントを実現し，推論時の効率性と性能のトレードオフを可能にしている。
- 公開データセットを用いた実験により，提案手法が既存手法を上回る認識性能を達成することが示された。
Link: https://arxiv.org/abs/2603.21808
臨床グラフ媒介蒸留による非ペアMRI-CFI高血圧予測 [cs.CV]目的：非ペアMRIと眼底画像を用いた高血圧予測の改善
- 高血圧は世界的な健康問題であり，早期発見と管理が重要である。
- 眼底画像は安価だが，高血圧に関連する兆候は微細で予測精度が低い。
- MRIはより明確な兆候を示すが，コストが高く，眼底画像とのペアデータが不足している。
- 臨床グラフ媒介蒸留（CGMD）は，MRI由来の高血圧知識を眼底画像モデルへ転移する。
- CGMDは臨床的類似性に基づくグラフ構造を活用し，MRIと眼底画像間の知識伝達を可能にする。
- 実験結果から，CGMDは既存手法と比較して眼底画像に基づく高血圧予測精度を向上させることが示された。
Link: https://arxiv.org/abs/2603.21809
制御駆動型オンラインデータ拡張 [cs.CV, cs.AI, cs.LG, cs.SY, eess.SY]目的：画像認識タスクにおけるデータ拡張の自動化
- 画像認識の性能向上には，大量かつ多様な学習データが不可欠である。
- 適切なデータ拡張戦略を手動で設計するには，専門知識と試行錯誤が必要となる。
- データ拡張の強度を自動的に調整することで，タスクへの適応性を高める。
- 提案手法Ctrl-Aは，制御理論に基づき，データ拡張の強度分布をオンラインで調整する。
- 初期設定なしに，学習中に各拡張の強度を動的に適応させ，性能を低下させる拡張を抑制する。
- CIFAR-10, CIFAR-100, SVHN-coreデータセットでの実験により，最先端のデータ拡張戦略に匹敵する性能を示す。
Link: https://arxiv.org/abs/2603.21819
厳格なペアリングを超えて：高性能赤外・可視画像融合のための任意ペアトレーニング [cs.CV]目的：赤外線と可視画像の融合における，厳格なペアリングに頼らないトレーニング手法の研究
- 赤外線と可視画像融合は，異なるモダリティの情報を統合し，自然なテクスチャと熱的特徴を維持する上で重要である。
- 従来の学習手法は厳密にアライメントされた画像ペアを必要とし，その取得にはコストと労力がかかるという課題がある。
- 本研究は，厳密なペアリングに依存しないトレーニング手法を確立し，データ収集のコストと労力を軽減することを目指す。
- 提案手法であるAPTPおよびUPTPは，限られたデータセットでも，厳格なペアリングによる学習と同等の性能を達成可能であることを示した。
- データ収集のコストと難易度を軽減し，モデルのロバスト性を向上させる上で有効な解決策となり得る。
- 本研究は，赤外・可視画像融合の研究において，データ制約を克服するための新たな道筋を示す。
Link: https://arxiv.org/abs/2603.21820
SteelDefectX：汎用的な鋼表面欠陥検出のための粗粒度から細粒度までのビジョン言語データセットとベンチマーク [cs.CL, cs.CY, cs.CV, cs.AI]目的：汎用的な鋼表面欠陥検出のためのビジョン言語データセットとベンチマーク
- 現代の製造業において，製品の品質と信頼性を確保するために鋼表面欠陥検出は不可欠である。
- 既存手法は，ラベルのみのデータセットで訓練された基本的な画像分類モデルに依存しており，解釈性と汎化性能に限界がある。
- 本研究は，粗粒度から細粒度までのテキスト記述を用いて，解釈可能で汎用性の高い鋼表面欠陥検出モデルの開発を目指す。
- SteelDefectXは，25種類の欠陥カテゴリを含む7,778枚の画像と，粗粒度から細粒度までのテキスト記述アノテーションを含むビジョン言語データセットである。
- 粗粒度レベルでは，欠陥カテゴリ，代表的な視覚的特徴，および関連する産業原因などのクラスレベル情報が提供される。
- 実験の結果，粗粒度から細粒度までのテキストアノテーションが，解釈性，汎化性能，および転移学習能力を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2603.21824
制約付き快楽ゲームにおける個別合理性：加法分離可能および分数選好 [cs.GT]目的：制約付き快楽ゲームにおける個別合理性の存在判定問題
- 協力ゲーム理論は，資源配分や協力関係の設計において重要な役割を果たす。
- 快楽ゲームの個別合理性の判定は，計算複雑性が高く，効率的な解法が求められている。
- 本研究は，特定の制約下で個別合理性の判定可能性を明らかにすることを目的とする。
- 特定の制約（固定された連合数とサイズ制限）下において，解ける部分問題と解けない部分問題が存在することが示された。
- 加法分離可能かつ分数選好を持つ快楽ゲームに限定した場合でも，非自明な議論が必要となることが判明した。
- 基礎となる選好グラフの構造を利用することで，計算可能な部分問題の範囲が明らかになった。
Link: https://arxiv.org/abs/2603.21826
多視点変形畳み込みとVisual Mambaの融合による冠動脈セグメンテーション [cs.CV]目的：冠動脈セグメンテーションの精度向上
- 心血管疾患の診断と治療計画において，冠動脈の正確なセグメンテーションは極めて重要である。
- 冠動脈は分岐が多く，細い管状構造であるためセグメンテーションが困難であり，血管と背景のクラス不均衡も課題となる。
- 本研究では，長距離依存性を効率的にモデル化するVisual Mambaと多視点変形畳み込みを融合し，セグメンテーション精度と計算効率の両立を目指す。
- 提案手法MDSVM-UNetは，三方向（矢状面，冠状面，軸面）のオフセットを学習する多視点変形畳み込み MDSConv を用いて，冠動脈の複雑な形状を捉える。
- Visual Mambaに基づいたRVM-based upsampling decoderブロックにより，スライス間での長距離依存性を線形計算量でモデル化し，効率的な復元を実現する。
- 粗分割と細分割の二段階戦略を用いることで，血管の詳細な情報を復元し，偽陽性を抑制する。
Link: https://arxiv.org/abs/2603.21829
気候プロンプティング：ビデオ拡散と低次元条件付けによるマッデン・ジュリアン振動の生成 [cs.CV]目的：マッデン・ジュリアン振動の生成
- 熱帯大気の変動理解は，地球規模気候変動予測の精度向上に不可欠である。
- 深層学習モデルの解釈性が低く，物理過程との関連が不明確である。
- 深層学習と低次元理論を統合し，MJOの物理的駆動機構を解明する。
- ビデオ拡散モデルを用いて，熱帯大気の再解析データからMJOシーケンスを生成することに成功した。
- 生成されたMJOは，複合パターン，パワースペクトル，対流結合波などの主要な特徴を捉えている。
- 理想化された低次元条件付けにより，MJOの根本的なプロセスを分析し，物理的要因を特定することが可能となった。
Link: https://arxiv.org/abs/2603.21856
適応的ビデオ蒸留：少数ステップ生成における過飽和と時間的崩壊の緩和 [cs.CV, cs.AI]目的：ビデオ蒸留による効率的なビデオ生成手法
- 生成AI分野において，ビデオ生成は重要な課題となっている。
- ビデオ合成の計算コストが高く，効率的な展開が課題である。
- 既存手法が抱える過飽和や時間的崩壊といった問題の解決を目指す。
- 提案手法は，空間的監督重みを動的に調整する適応的回帰損失を導入し，分布シフトによるアーティファクトを抑制。
- 時間的崩壊に対抗するため，滑らかで物理的に妥当なサンプリング軌跡を促進する時間的正則化損失を導入。
- 推論時のフレーム補間戦略により，サンプリングオーバーヘッドを削減しつつ，知覚的品質を維持。
Link: https://arxiv.org/abs/2603.21864
敵対的カモフラージュ [cs.CV, cs.AI]目的：顔認識に対する欺瞞によるプライバシー保護
- 顔認識技術は利便性をもたらす一方，監視社会化やプライバシー侵害のリスクが懸念される。
- 既存手法では，実用性や汎用性に課題があり，多様な顔認識システムへの対応が困難である。
- 本研究は，顔に特定のパターンを付加することで，様々な顔認識システムを欺瞞し，プライバシーを保護することを目指す。
- 提案手法は，色，形状，角度をパラメータとしたパターンを最適化し，顔の特定領域に投影することで顔認識エラーを最大化する。
- シミュレーション及び実証実験の結果，最先端の顔認識モデルの性能を大幅に低下させることが確認された。
- また，モデル間の頑健性や攻撃の転移可能性に関する知見が得られた。
Link: https://arxiv.org/abs/2603.21867
ビデオ生成のための強化学習における多様体認識探索 [cs.IR, cs.SI, cs.CV, cs.AI]目的：ビデオ生成における強化学習のための多様体認識探索手法
- ビデオ生成は，言語モデルや画像生成に比べ，複雑な解空間を持つため，安定した学習が困難である。
- 従来の探索手法では，過剰なノイズが注入され，ロールアウト品質が低下し，報酬推定の信頼性が損なわれる。
- 事前学習済みモデルが定義するビデオデータの多様体近傍に探索を制約することで，安定した学習を実現する。
- SAGE-GRPOは，マイクロレベルとマクロレベルの両方で制約を適用し，探索の安定性と信頼性を向上させる。
- HunyuanVideo1.5データセットを用いた実験により，既存手法と比較して，VQ，MQ，TA，CLIPScore，PickScoreといった評価指標で一貫した改善が確認された。
- 報酬最大化と全体的なビデオ品質の両方において，SAGE-GRPOが優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2603.21872
熱トポロジー崩壊：赤外線ビジョンシステムに対する普遍的な物理パッチ攻撃 [cs.CV]目的：赤外線歩行者検知システムの物理的脆弱性
- 視覚認識タスクにおいて赤外線技術の利用が拡大しており，そのセキュリティ確保が重要である。
- 既存の物理攻撃手法は個別最適化に依存し，コスト高かつ実用的な頑健性に欠ける。
- 汎用的な物理パッチ攻撃により，低コストで高い物理的頑健性を実現することを目指す。
- 提案手法UPPAは，赤外線領域における初の普遍的物理攻撃手法である。
- 幾何学的制約のあるベジェブロックと粒子群最適化により，動的な変形下でも安定した攻撃を可能にする。
- オンライン計算のオーバーヘッドなしに高い攻撃成功率を示し，ドメイン間汎化性能とブラックボックス転送性も確認された。
Link: https://arxiv.org/abs/2603.21876
深層S2P：学習ベースのステレオマッチングを衛星ステレオパイプラインに統合 [cs.RO, cs.CV]目的：衛星画像からのデジタル表面モデル生成の精度向上
- 地球観測において，正確な地形情報は不可欠であり，その作成にステレオマッチング技術が用いられる。
- 従来のステレオマッチングアルゴリズムは，衛星画像の特殊な視点や視差の前提条件への適応が課題である。
- 学習ベースのステレオマッチングを衛星パイプラインに統合し，地形モデルの精度改善を目指す。
- 学習ベースのステレオマッチング手法を衛星ステレオパイプラインに統合することで，従来の方式よりもデジタル表面モデルの精度が向上した。
- 評価指標には飽和効果が見られたものの，視覚的な評価では幾何学的詳細や構造の鮮明さが大幅に改善された。
- 植生のような複雑な地表面タイプでは，全てのモデルで性能が制限されており，今後の課題が示唆された。
Link: https://arxiv.org/abs/2603.21882
すべてのレイヤーが同じではない：パーソナライズ画像生成のための適応LoRAランク [cs.CV, cs.AI, cs.LG]目的：パーソナライズ画像生成におけるLoRAランクの適応的な選択
- 事前学習済み拡散モデルのファインチューニングは，パーソナライズされた画像生成において重要な役割を果たす。
- LoRAのランク選択は性能とメモリ消費のトレードオフに関わるが，被写体の複雑さを考慮した最適な選択は困難である。
- 各レイヤーのランクを適応的に学習することで，メモリ消費を抑えつつ高性能なパーソナライズ画像生成を目指す。
- 提案手法LoRA$^2$は，29種類の被写体に対し，DINO，CLIP-I，CLIP-Tの評価指標で優れた性能とメモリ効率を実現した。
- 従来の高ランクLoRAと比較して，必要なメモリ量とランクを大幅に削減することに成功した。
- ランクの重要度に応じた順序付けにより，必要な場合にのみ高ランクが生成されるように促している。
Link: https://arxiv.org/abs/2603.21884
ADaFuSE：インタラクティブなテキスト-画像検索のための適応的拡散生成画像とテキストの融合 [cs.IR, cs.CV]目的：インタラクティブなテキスト-画像検索における拡散モデルを用いたモダリティギャップの解消
- テキストと画像の関連性を高めることは，情報検索や画像理解において重要な課題である。
- 既存手法では，拡散モデルから生じるノイズが適切に処理されず，検索性能が低下することがある。
- 拡散モデルのノイズを抑制し，より正確な検索結果を得るための融合モデルを提案する。
- ADaFuSEは，既存のフレームワークに容易に組み込むことができる軽量な融合モデルである。
- 複数のI-TIRベンチマークにおいて，最先端の性能を達成し，DARを最大3.49％上回るHits@10を記録した。
- ノイズの多い，または長い対話型クエリに対しても，より高いロバスト性を示すことが確認された。
Link: https://arxiv.org/abs/2603.21886
文脈を考慮した学習による適応型動画字幕除去：マスクフリーのエンドツーエンド推論 [cs.CL, cs.CV]目的：動画字幕の自動除去手法
- 動画コンテンツの利用拡大に伴い，字幕除去の自動化が重要視されている。
- 既存手法は，学習・推論時に明示的なマスクを必要とし，実用性に課題があった。
- マスクを用いずに，エンドツーエンドで字幕を効果的に除去することを目的とする。
- CLEARは，文脈を考慮した学習により，マスク依存型手法を上回る性能を達成した。
- 中国語字幕ベンチマークにおいて，PSNRで+6.77dB，VFIDで-74.7%の改善が見られた。
- 英語を含む6言語へのゼロショット汎化性能も高く，実用的な字幕除去を実現した。
Link: https://arxiv.org/abs/2603.21901
SHAPE：構造を考慮した階層的教師なしドメイン適応と妥当性評価による医療画像セグメンテーション [cs.CV, cs.AI]目的：医療画像セグメンテーションにおけるドメイン適応手法の性能向上
- 医療画像診断の精度向上には，様々な臨床環境への適応が不可欠である。
- 既存手法は，意味的理解に基づかない特徴量のアライメントや，グローバルな解剖学的制約を無視した擬似ラベルの検証が課題である。
- グローバルな解剖学的妥当性を考慮したドメイン適応により，より信頼性の高いセグメンテーションを実現する。
- SHAPEは，DINOv3を基盤とし，階層的特徴量変調（HFM）モジュールにより高精度でクラス認識可能な特徴量を生成する。
- ハーパーグラフ妥当性推定（HPE）を導入し，標準グラフでは捉えきれないグローバルな解剖学的妥当性を評価することで，擬似ラベルの検証を強化する。
- 心臓および腹部クロスモーダルベンチマークにおいて，既存手法を大きく上回り，最先端のDiceスコアを達成した（MRI→CT：90.08%，CT→MRI：78.51%，腹部MRI→CT：87.48%，CT→MRI：86.89%）。
Link: https://arxiv.org/abs/2603.21904
リモートセンシングにおけるハイパースペクトル画像エミュレーションのための潜在表現学習フレームワーク [cs.ET, cs.CV, cs.LG, eess.IV]目的：ハイパースペクトルデータの潜在的生成表現の学習
- 大規模シミュレーションやアルゴリズム開発に不可欠であり，リモートセンシングの発展に寄与する。
- 従来の放射輸送モデルは計算コストが高く，スペクトルレベルの出力に限定される場合がある。
- 計算効率が高く，空間スペクトルエミュレーションも可能な手法を開発し，実用的なデータを提供する。
- 提案手法は，古典的な回帰ベースのエミュレータよりも再構成精度，スペクトル忠実度，空間変動へのロバスト性が向上した。
- エミュレーションされたハイパースペクトル画像は，バイオフィジカルパラメータの逆算性能を維持し，リモートセンシング応用への実用性を示した。
- 潜在表現に基づくフレームワークは，スペクトルレベルと空間スペクトルレベルの両方のエミュレーションをサポートする。
Link: https://arxiv.org/abs/2603.21911
ゴールデンサブスペース：継続的テスト時適応における効率性と汎化性の両立 [cs.RO, cs.CV, cs.LG]目的：継続的テスト時適応における効率性と汎化性のトレードオフの解消
- 機械学習モデルは現実世界で変化するデータ分布に対応する必要があるため，オンライン適応技術は重要である。
- 既存の継続的テスト時適応手法は，適応の度合いとオンライン推論効率の間でトレードオフが発生する。
- 事前学習済み分類器の行空間である「ゴールデンサブスペース」を利用することで，最小限のパラメータ更新で効果的な適応を目指す。
- 提案手法GOLDは，特徴量をゴールデンサブスペースへ投影する軽量アダプターと，AGOPによる動的なサブスペース更新を用いる。
- 分類およびセグメンテーションのベンチマークテストの結果，GOLDは優れた効率性，安定性，および全体的な性能を示した。
- AGOPを用いることで，分類器の重みを再学習せずに効率的に推定できることが示された。
Link: https://arxiv.org/abs/2603.21928
SatGeo-NeRF：衛星画像のための幾何学的に正則化されたNeRF [cs.CV]目的：衛星画像におけるNeRFの幾何学的精度向上
- 衛星画像は広範囲の地形把握に有用であり，その3次元再構成技術の発展が求められる。
- 既存のNeRFモデルでは，過学習による幾何学的な歪みが発生しやすいという課題がある。
- 幾何学的な正則化を通じて，衛星画像からのNeRF再構成における歪みを軽減することを目的とする。
- SatGeo-NeRFは，3つのモデルに依存しない正則化項を導入することで，幾何学的な歪みを抑制した。
- 重力方向への平面性正則化，粗い構造から詳細な構造への学習，深度教師あり正則化が有効であることが示された。
- DFC2019ベンチマークにおいて，平均高度誤差がEO-NeRFやEO-GSと比較してそれぞれ13.9%，11.7%改善された。
Link: https://arxiv.org/abs/2603.21931
記述子に基づくベータエビデンスによる3Dガウススプラットのカメラ非依存的プルーニング [cs.CV, cs.AI, cs.LG]目的：3Dガウススプラットのプルーニング手法
- 3Dガウススプラットは，効率的な保存・伝送・処理のために複雑さを軽減する必要がある。
- 既存のプルーニング戦略はカメラパラメータに依存し，カメラ非依存的な交換設定下では課題となる。
- スプラット表現から直接構造と外観の一貫性を捉え，カメラ非依存的なプルーニングを実現する。
- 提案手法は，標準的なISO/IEC MPEG CTCテストシーケンスにおいて，再構成品質を維持しつつ大幅なプルーニングを達成した。
- プルーニングを統計的エビデンス推定問題として定式化し，ベータエビデンスモデルを用いてスプラットの信頼性を定量化した。
- 既存のカメラ依存的プルーニング戦略に代わる，実用的かつ汎用性の高い手法を確立した。
Link: https://arxiv.org/abs/2603.21933
時系列対照学習：不可逆性疾患における少数ショット進行評価 [cs.CV, cs.AI]目的：不可逆性疾患における進行評価のための表現学習
- 医学画像における定量的な疾患重症度評価は，医療の質向上に不可欠である。
- 専門家による疾患重症度評価はコストと時間がかかり，読者間のばらつきが生じやすい。
- 時系列データの順序情報を活用し，専門家のラベルに依存しない表現学習を目指す。
- 本研究で提案するChronoConは，時系列データにおける訪問順序に基づいた対照学習を行うことで，疾患に関連する表現を獲得する。
- 少数のラベルデータを用いた実験では，ChronoConはImageNetで初期化された完全教師あり学習モデルを大幅に上回る性能を示した。
- わずか5人の患者データでファインチューニングした結果，重症度スコア予測において86%のICC（クラス内相関係数）を達成した。
Link: https://arxiv.org/abs/2603.21935
幾何形状を意識した特徴量に基づく位置合わせによるクロスインスタンスガウススプラッティング登録 [cs.CV]目的：異なる3Dガウススプラッティングモデル間の位置合わせ
- 3Dコンテンツの利用拡大に不可欠であり，様々な応用分野への展開が期待されている。
- 既存手法は同一オブジェクト間でのみ有効であり，スケール推定が困難であった。
- 異なるオブジェクト間でもロバストな位置合わせを可能にし，新たな応用を開拓すること。
- 提案手法GSAは，回転，並進，スケール変換を用いて，異なるオブジェクトの3DGSモデルを位置合わせることに成功した。
- GSAは真のスケール情報なしでもスケール推定が可能であり，粗調整と微調整の二段階最適化フレームワークにより高い精度を達成した。
- 同一オブジェクト間，異なるオブジェクト間いずれの場合においても，既存手法を大幅に上回る性能を示し，カテゴリーレベルの3DGS登録を実現した。
Link: https://arxiv.org/abs/2603.21936
MultiBind：複数被写体生成における属性誤結合のベンチマーク [cs.CV]目的：複数被写体生成における属性誤結合の評価
- 画像生成技術は，単一画像内の複数エンティティを細かく制御する能力が求められている。
- 既存の評価指標では，被写体間の属性誤結合といった問題の診断が困難である。
- 本研究は，属性誤結合を明確に検出し，そのパターンを分析することを目指す。
- MultiBindベンチマークは，実写の複数人物写真に基づいて構築されている。
- 提案手法は，顔のアイデンティティ，外見，ポーズ，表情といった次元ごとに，誤結合の度合いを評価する。
- 実験により，MultiBindが従来の指標では見過ごされる結合エラーを明らかにすることが示された。
Link: https://arxiv.org/abs/2603.21937
特徴蒸留による多専門家アンサンブルフレームワーク：堅牢なAI生成画像検出 [cs.CV, cs.MM]目的：AI生成画像の堅牢な検出
- 偽造技術の発展により，情報セキュリティの脅威が増大しており，AI生成画像の検出が重要である。
- 現実世界のフォレンジックにおいて，劣化の影響，特徴表現の不足，汎化性能の限界が課題である。
- 多様な劣化や合成アーティファクトに対する堅牢性と汎化性能の向上を目指す。
- 特徴蒸留と多専門家アンサンブルを統合したフレームワークFeatDistillを提案し，NTIREチャレンジで高い性能を示した。
- ViTアンサンブルと劣化モデリング，２段階の学習パラダイムにより，過学習を抑制し，意味的な一貫性を高めた。
- アンサンブル設計でありながら効率的で，多様な条件下で安定した信頼性の高い検出を実現した。
Link: https://arxiv.org/abs/2603.21939
GeoFlow: 反復フロー予測によるリアルタイムな微細粒度クロスビュー測位 [cs.CL, cs.CV]目的：リアルタイムな微細粒度クロスビュー測位の達成
- 自動運転における安全性確保のため，GPS非利用環境下での高精度な位置推定が不可欠である。
- 既存手法では，高精度と処理速度の両立が難しく，リアルタイムでの利用が制限されていた。
- 高精度かつ高速な位置推定を可能にする，新たな測位システムの開発を目指す。
- GeoFlowは，位置仮説を補正するために必要な変位（距離と方向）を直接確率的にマッピングする軽量かつ効率的なフレームワークである。
- 提案手法IRSは，複数の仮説を反復的に洗練させることで，ロバストで収束したコンセンサスを形成する。
- KITTIおよびVIGORデータセットにおける実験により，GeoFlowが29 FPSのリアルタイム速度で，競争力のある測位精度を達成した。
Link: https://arxiv.org/abs/2603.21943
Group3D：MLLM駆動によるセマンティックグループ化を用いたオープンボキャブラリ3D物体検出 [cs.CV]目的：オープンボキャブラリ3D物体検出におけるセマンティック制約を組み込んだインスタンス構築
- 3D物体検出は，ロボット工学や自動運転など，様々な応用分野において重要な役割を担う技術である。
- 従来の3D物体検出は，学習時に定義されたカテゴリーに限定され，未知の物体に対応できないという課題があった。
- 本研究は，マルチモーダル大規模言語モデル(MLLM)を活用し，よりロバストな3D物体検出を目指す。
- Group3Dは，シーン適応的なボキャブラリとセマンティック互換性グループを導入し，幾何学的な整合性だけでなくセマンティックな制約も考慮することで，インスタンス構築の精度を向上させた。
- 実験の結果，ScanNetとARKitScenesにおいて，Group3Dは最先端の性能を達成し，ゼロショットシナリオにおいても高い汎化性能を示した。
- 本手法は，RGB画像のみを用いており，姿勢情報が不要である点も特徴である。
Link: https://arxiv.org/abs/2603.21944