arXiv雑要約

画像・音声 - 2026/03/02 公開

Hello-Chat：リアルなソーシャルオーディオインタラクションに向けて [cs.SD, cs.AI, cs.CL, eess.AS]目的：リアルなソーシャルシナリオに適したオーディオ言語モデルの実現
- 対話型AIの発展には，人間らしい自然な音声表現が不可欠である。
- 既存のオーディオ言語モデルは，感情や抑揚が乏しく，機械的な話し方になりがちである。
- 人間らしい自然な音声生成と，感情に寄り添うAIエージェントの開発を目指す。
- Hello-Chatは，大規模な会話データとモダリティインターリーブ学習により，人間らしい音声生成を達成した。
- 音声理解タスクにおいて最先端の性能を発揮し，既存モデルを上回る自然さと感情的な一致を実現した。
- 共感的なAIエージェントの実現に向けた道を開く成果である。
Link: https://arxiv.org/abs/2602.23387
タスクレンズ：低リソースインド言語におけるクロス・タスク有用性に基づく音声データセットプロファイリング [cs.CL, cs.AI, cs.SD, eess.AS]目的：低リソースインド言語における音声データセットのクロス・タスク有用性プロファイリング
- 包括的な音声技術の需要増加に伴い，NLP研究のための多言語データセットの必要性が高まっている。
- 低リソース言語における既存のタスク固有リソースの認知度が低く，研究の妨げとなっている。
- 既存データセットのクロス・タスク活用を評価し，データ不足の課題を緩和することを目指す。
- 50のインドの音声データセット（26言語）を9つの下流タスクに対して評価するクロス・タスク調査「Task-Lens」を提案した。
- 多くのデータセットには，複数のタスクをサポート可能な未活用メタデータが含まれていることが判明した。
- クロス・タスクの繋がりとギャップを明らかにすることで，既存データセットの応用範囲を拡大し，データ作成の優先順位付けを支援する。
Link: https://arxiv.org/abs/2602.23388
大規模マルチモーダルモデルを用いた音声・映像のディープフェイク検出：パイロット研究 [cs.SD, cs.CV]目的：音声・映像のディープフェイク検出
- 現代の生成技術により精巧な偽造が可能になり，その検出が重要性を増している。
- 既存のマルチモーダル検出器は小規模で特定のタスクに特化し，汎化性能が低い。
- 大規模モデルを用いて，より汎用的なディープフェイク検出手法を確立すること。
- 本研究で開発したAV-LMMDetectは，FakeAVCelebおよびMavos-DDデータセットにおいて，既存手法と同等以上の性能を示す。
- 特にMavos-DDデータセットにおいては，新たな最高性能を達成した。
- 大規模マルチモーダルモデルをプロンプトによる二値分類に適用することで，効果的なディープフェイク検出が可能となった。
Link: https://arxiv.org/abs/2602.23393
ロボット操作方策における行動空間設計の解明 [cs.RO, cs.CV]目的：ロボット操作方策における行動空間設計の影響と，その最適化
- ロボットの学習は，高度な自動化を可能にし，様々な産業への応用が期待されている。
- 行動空間の設計が経験則に頼る部分が多く，最適な設計方法が不明確である。
- 行動空間設計の構造的分析と，性能・安定性への影響評価を行う。
- 差分表現による行動予測は，絶対表現と比較して，一貫して性能が向上する傾向にある。
- 関節空間とタスク空間の表現は，それぞれ制御の安定性と汎化性能において補完的な強みを持つ。
- 行動空間設計は，方策学習の学習可能性と制御安定性に複雑な影響を与えることが大規模な実験で確認された。
Link: https://arxiv.org/abs/2602.23408
DesignSense：グラフィックレイアウト生成のための人間の選好データセットと報酬モデリングフレームワーク [cs.HC, cs.SI, math.DS, nlin.AO, physics.soc-ph, cs.CV, cs.AI]目的：グラフィックレイアウト評価のための人間の選好データセットと報酬モデル
- 視覚コミュニケーションにおいて，グラフィックレイアウトは重要な役割を担う。そのため，高品質なレイアウト生成が求められる。
- 既存のレイアウト生成モデルは，人間の微妙な美的判断に合致しない場合が多く，汎用的なモデルでは十分な性能が得られない。
- 人間の選好に基づいた，より高品質なグラフィックレイアウト生成を可能にするためのデータセットと報酬モデルを開発すること。
- DesignSense-10kは，10,235組の人間の選好ペアを含む大規模なデータセットである。
- DesignSenseは，既存のオープンソースおよびプロプライエタリモデルを大幅に上回り，Macro F1で最良のプロプライエタリベースラインより54.6％向上した。
- DesignSenseを報酬モデルとして利用することで，レイアウト生成器の勝率が約3％向上し，推論時のスケーリングでさらに3.6％改善された。
Link: https://arxiv.org/abs/2602.23438
ニューロモルフィックデータセットのモデル化とシミュレーション：コンピュータビジョンにおける異常検知への応用 [cs.CV, cs.AI, cs.LG]目的：コンピュータビジョンにおける異常検知のためのニューロモルフィックデータセットのモデル化とシミュレーション
- 脳型コンピュータビジョンは，低消費電力かつ高速処理が可能であり，リアルタイムな画像処理への応用が期待される。
- 動視覚センサー(DVS)の入手が困難であり，ニューロモルフィックビジョン研究の進展を妨げている。
- 既存のデータセットのサンプル数やシナリオの少なさを解消し，多様なデータセットを生成可能にすること。
- 本研究では，Unityエンジンを用いて，抽象的で設定可能な3Dシーンをシミュレーションする「ANTShapes」を開発した。
- ANTShapesは，オブジェクトの動きや回転といった属性をランダムに生成し，異常な動作をするオブジェクトを統計的にラベル付けする。
- これにより，研究者は目的に応じたカスタムデータセットを容易に作成でき，データ不足の問題を克服できる。
Link: https://arxiv.org/abs/2602.23514
ディープフェイク検出，改ざん局所化，および出所追跡の一体化：堅牢なランドマーク-IDウォーターマークによる包括的アプローチ [cs.CV]目的：ディープフェイク検出，改ざん局所化，出所追跡を統合的に行うためのフレームワーク
- ディープフェイク技術の急速な発展により，プライバシー侵害や社会不安が深刻化している。
- 既存手法では，ディープフェイク対策を個別に扱っており，包括的な解決策が不足している。
- ディープフェイクの検出，改ざん箇所特定，および出所追跡を同時に解決することを目指す。
- 提案手法では，顔のランドマークと固有の識別子を構造的に組み合わせた152次元のLIDMarkウォーターマークを使用する。
- Factorized-Head Decoder (FHD) という新しい構造を設計し，ウォーターマークをロバストに抽出する。
- 実験結果から，LIDMarkフレームワークがディープフェイクコンテンツの検出，局所化，追跡において，統一的で堅牢かつ不可視なソリューションとなることが示された。
Link: https://arxiv.org/abs/2602.23523
V-MORALS：学習された潜在空間における吸引領域の推定を視覚的なモルグラフで支援 [cs.RO, cs.CV, cs.LG]目的：ロボット工学における安全な状態と危険な状態の識別
- ロボットの安全性を保証するためには，到達可能性解析が不可欠である。
- 既存手法は，システムダイナミクスや大規模データセットが必要，計算コストが高い，状態情報の完全な把握が前提となる。
- センサーデータのみから吸引領域を推定し，状態情報の制約を克服すること。
- V-MORALSは，画像ベースの軌跡データから潜在空間を学習し，到達可能性解析を可能にする。
- 学習された潜在空間上でモルグラフを生成し，様々なシステムやコントローラに対する吸引領域を計算する。
- V-MORALSは，状態情報に依存せず，高レベルなセンサーデータのみを用いて，従来のMORALSと同等の機能を提供する。
Link: https://arxiv.org/abs/2602.23524
合成Visual Genome 2：動画からの大規模時空間シーングラフの抽出 [cs.CV]目的：大規模な時空間シーングラフデータセットの構築
- 動画理解において，シーンの構成要素とそれらの関係性を把握することは重要である。
- 既存の時空間シーングラフデータセットは，規模や多様性の点で十分ではない。
- より大規模で多様なデータセットを用いて，動画のシーングラフ生成の性能向上を目指す。
- 本研究では，636K以上の動画，6.6Mのオブジェクト，52.0Mの属性，6.7Mの関係を含む大規模データセットSVG2を構築した。
- TRaSERというシーングラフ生成モデルを開発し，既存のオープンソースベースラインと比較して，関係検出で+15〜20％，オブジェクト予測で+30〜40％の改善を達成した。
- TRaSERが生成したシーングラフをVLMに利用することで，動画質問応答の精度が+1.5〜4.6％向上し，時空間シーングラフの有効性を示した。
Link: https://arxiv.org/abs/2602.23543
LE-NeuS：適応的時系列検証による低遅延なニューロシンボリック動画理解 [cs.CV]目的：長編動画の質問応答におけるニューロシンボリックアプローチの低遅延化
- 動画理解は，様々な応用において重要な役割を果たす技術である。近年，長編動画の理解が求められている。
- 従来のニューロシンボリック手法は，高い精度を誇るものの，遅延が大きいため実用化が難しいという課題がある。
- 動画の冗長性を活用し，効率的なフレームサンプリングとバッチ処理により，遅延を大幅に削減することを目的とする。
- 提案手法LE-NeuSは，既存手法と比較して，動画理解の精度を維持しつつ，推論遅延を大幅に削減することに成功した。
- LongVideoBenchおよびVideo-MMEベンチマークにおいて，LE-NeuSは遅延の差を90倍から約10倍に短縮し，複雑なクエリに対する精度を10%以上向上させた。
- 動画長，命題の複雑さ，サンプリング密度に応じて遅延の理論的上限を導出し，効率的な遅延削減の条件を明らかにした。
Link: https://arxiv.org/abs/2602.23553
較正不要，深度不要，問題なし：3D整合性を用いたクロスセンサービュー合成 [cs.CV]目的：異なるモダリティ間のクロスセンサービュー合成
- RGB-Xデータはロボット工学や拡張現実など幅広い分野で重要であり，環境理解に不可欠である。
- RGB-Xデータの利用には，センサー間の正確な較正が必須だが，その作業は非常に手間がかかる。
- 様々なRGB-Xセンサーの煩雑な較正を不要とし，クロスセンサー学習の普及を目指す。
- 提案手法では，RGB-X画像のマッチングと点群の密化を行い，3D Gaussian Splatting (3DGS)を用いてビュー合成を実現する。
- Xセンサーには3D事前知識を用いず，RGBには低コストなCOLMAPのみを仮定することで，スケーラブルな解決策を提供する。
- 本手法は，大規模な実世界のRGB-Xデータ収集におけるボトルネックを解消し，クロスセンサー学習の可能性を広げる。
Link: https://arxiv.org/abs/2602.23559
証拠に基づくニューラル放射場 [cs.CV, cs.AI, cs.LG]目的：三次元シーンモデリングにおける不確実性の理解
- 安全性が求められる応用において，三次元シーンの正確な理解は不可欠である。
- 既存のニューラル放射場は高い精度を持つが，不確実性の推定が欠如している。
- 本研究は，アレオリック不確実性とエピステミック不確実性の両方を定量化することを目指す。
- 提案手法は，ニューラル放射場のレンダリングプロセスにシームレスに統合され，単一のフォワードパスで両方の不確実性を直接定量化する。
- 標準的なベンチマーク３つにおいて，提案手法は最先端のシーン再構成精度と不確実性推定品質を示す。
- 既存の不確実性定量化手法と比較して，レンダリング品質を損なうことなく計算コストも抑えられる。
Link: https://arxiv.org/abs/2602.23574
サイクルBEV：ビューサイクル整合性によるビュー変換ネットワークの正則化 [cs.CV, cs.AI]目的：鳥瞰視点セマンティックセグメンテーションのためのビュー変換ネットワークの正則化
- 自動運転における環境認識の精度向上は，安全な走行に不可欠である。
- 透視図から鳥瞰図への変換は，深度曖昧性とオクルージョンにより困難である。
- サイクル整合性損失を用いて，ビュー変換ネットワークの学習を安定化させる。
- 提案手法サイクルBEVは，既存のビュー変換モデルの性能を向上させる。
- nuScenesデータセットを用いた実験で，可航可能領域，車両，歩行者クラスにおいてそれぞれ最大0.74，4.86，3.74 mIoUの改善が見られた。
- 推論時の計算コストは増加せず，学習時のみ逆変換ネットワークを使用する。
Link: https://arxiv.org/abs/2602.23575
凍結された言語・画像モデルの超次元クロスモーダルアライメント：効率的な画像キャプション生成のために [cs.CV, cs.AI, cs.LG]目的：効率的な画像キャプション生成のためのクロスモーダルアライメント手法
- 画像と言語の分野では，大規模な基盤モデルが高度な意味構造を学習している。それらを統合することで，より高度なタスクが実現可能となる。
- 既存のクロスモーダルアライメントは，計算コストが高く，事前学習された表現を損なう可能性がある。大規模なパラメータ更新が必要となる。
- 事前学習済みモデルのパラメータを修正せずにクロスモーダルアライメントを実現し，効率的な画像キャプション生成を可能とする。
- HDFLIMは，凍結された言語・画像モデル間のクロスモーダルマッピングを確立する新しいフレームワークである。
- HDFLIMは，単一のデータパスで，軽量な記号演算を用いて関連するクロスモーダル表現を構築する。
- 実験の結果，HDFLIMはエンドツーエンドの学習方法と同等の性能を達成し，より意味的に整合性の高いキャプションを生成することが示された。
Link: https://arxiv.org/abs/2602.23588
マルチモーダルモデルにおける図理解のための疑似対照学習 [cs.CV, cs.AI]目的：図理解能力の向上
- 画像と言語の連携が重要視される中で，図の構造理解は高度な課題である。
- 既存モデルは，図のような微細な視覚的差異が意味を大きく左右する場合に弱点がある。
- 図構造のわずかな違いを捉え，より正確な意味理解を可能にすることを目的とする。
- 提案手法では，図生成器を用いて疑似対照サンプルを作成し，モデルの構造認識能力を向上させた。
- フローチャートのデータセットを用いた評価で，標準的なCLIPやハードネガティブCLIPよりも高い性能を示した。
- 画像とテキストのマッチング，および視覚的質問応答において，顕著な改善が確認された。
Link: https://arxiv.org/abs/2602.23589
効率的かつ正確な視覚異常検知のための漸進的次元削減 [cs.CV]目的：視覚異常検知における効率と精度向上
- 画像認識技術は発展しているが，大量データへの適用が課題である
- 深層学習で抽出された特徴量の高次元性が計算コストを増大させている
- 特徴量の次元削減を通じて，大規模データへの対応を目指す
- 本手法は，特徴量に対しバッチ単位でTruncated SVDを適用する
- 各バッチの計算結果を逐次的に更新し，メモリ消費量を抑制する
- 最新の異常検知アルゴリズムの学習を高速化し，高い精度を維持する
Link: https://arxiv.org/abs/2602.23595
拡張現実（XR）：教育の次のフロンティア [cs.CY, cs.CV]目的：教育における拡張現実（XR）の可能性
- 教育の質向上には，学習者の能動的な参加と体験学習が不可欠である。
- XR導入にはコストや技術的な課題，プライバシー保護の懸念が存在する。
- XR教育のイノベーションとアクセシビリティ，倫理とのバランスを模索する。
- XRは没入型学習環境を提供し，学生の学習意欲，体験学習，スキル開発を促進する可能性を秘めている。
- XR導入の障壁として，高額な導入コスト，技術的複雑さ，倫理的懸念が挙げられる。
- GDPRやFERPA等の規制遵守と，学習者データの保護のためのサイバーセキュリティ対策が重要である。
Link: https://arxiv.org/abs/2602.23601
強化学習による大規模多Modalモデルの高解像度視覚推論：アノテーションフリーアプローチ [cs.CV]目的：高解像度画像入力に対する視覚推論能力の向上
- 近年，画像とテキストを扱う大規模多Modalモデルの応用が拡大しており，その性能向上が求められている。
- 高解像度画像の場合，画像トークン数が急増し，冗長性や無関係な情報が増加する点が課題であった。
- 追加のアノテーションなしに，モデル自身が重要な領域を特定し，推論を効率化することを目指す。
- HARTは，モデルが画像内の重要な領域に焦点を当て，自己検証を行うクローズドループフレームワークである。
- AP-GRPOアルゴリズムにより，重要な領域の正確な局所化が促進され，推論経路の説明可能性が向上する。
- Qwen2.5-VL-7Bへの適用により，Qwen2.5-VL-72BやLLaVA-OneVision-72Bなどの大規模モデルを上回る性能が示された。
Link: https://arxiv.org/abs/2602.23615
一人称視点における可視性認識を考慮した人体姿勢推定 [cs.CV]目的：一人称視点における人体姿勢推定の精度向上
- VR/AR応用において，人体姿勢推定は没入感向上の鍵となる技術である。
- 既存のデータセットには可視性の情報がなく，推定時に不可視箇所を考慮していない。
- 可視性情報を活用し，人体姿勢推定の精度を向上させることを目指す。
- 大規模な可視性アノテーション付きデータセットEva-3Mを新たに構築した。
- 既存のEMHIデータセットにも可視性アノテーションを追加し，研究を促進する。
- 可視性情報を明示的に考慮するEvaPoseを提案し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2602.23618
DLEBench：指示に基づく画像編集モデルにおける小規模オブジェクト編集能力の評価 [cs.IR, cs.CV, cs.AI]目的：指示に基づく画像編集モデルにおける小規模オブジェクト編集能力の評価
- 画像編集技術は，現実および生成された画像の精密な局所編集や詳細の調整に不可欠である。
- 既存の評価基準では，小規模オブジェクトの編集能力が十分に検証されていない。
- 小規模オブジェクト編集に特化したベンチマークを通じて，当該能力の向上を目指す。
- 本研究では，小規模オブジェクト編集能力に特化した初のベンチマークDLEBenchを提案した。
- DLEBenchは，複雑なシナリオを含む1889サンプルで構成され，モデルの性能ギャップを明らかにした。
- 客観的な評価プロトコルを導入し，LMM-as-a-Judgeと人間の判断のずれに対処した。
Link: https://arxiv.org/abs/2602.23622
BuildAnyPoint：多様な点群からの3D建物構造抽象化 [cs.CV]目的：多様な点群からの3D建物構造抽象化
- 都市計画や自動運転等の分野で，3D建物モデルの需要は高い。
- 点群データからの建物構造の抽出は，データのノイズや疎性により困難である。
- ノイズや疎な点群から，高精度な建物構造を生成することを目的とする。
- 提案手法BuildAnyPointは，ノイズや疎な点群から高品質な3D建物モデルを生成できる。
- Loosely Cascaded Diffusion Transformer (Loca-DiT) を用いることで，点群分布の復元とメッシュ生成を効率的に行う。
- 生成された点群は，建物点群補完ベンチマークにおいて高い性能を示し，表面精度と分布の均一性が向上している。
Link: https://arxiv.org/abs/2602.23645
AudioCapBench：音，音楽，音声における音声キャプション評価の迅速化 [cs.RO, cs.SD, cs.AI]目的：大規模マルチモーダルモデルの音声キャプション能力の評価
- 音声理解は，人間と機械のコミュニケーションにおいて重要な役割を担う。
- 既存の評価方法では，多様な音声ドメインを網羅的に評価することが困難である。
- 多様な音声ドメインに対応した，迅速かつ再現性のある評価手法の確立。
- Geminiモデルは全体的なキャプション品質においてOpenAIモデルを上回る傾向が示された。
- Gemini 3 Proが最高の総合スコア（6.00/10）を達成したが，OpenAIモデルは幻覚の発生率が低い。
- 全てのモデルは音声キャプションにおいて最も高い性能を示し，音楽キャプションにおいて最も低い性能を示した。
Link: https://arxiv.org/abs/2602.23649
MRIマルチオルガン異常検出のための3Dモダリティ認識事前学習 [cs.CV, cs.AI]目的：MRIマルチオルガン異常検出におけるビジョン言語モデルの性能向上
- 医療画像診断において，複雑な診断タスクにビジョン言語モデルの応用が期待されている。
- マルチオルガン医療画像では，モダリティ特有の視覚-言語対応と，クロスモダリティ特徴融合が課題となる。
- 3D MRIにおける視覚-言語表現学習を強化し，マルチオルガン異常検出の精度向上を目指す。
- 提案手法MedMAPは，モダリティ認識エンコーダにより視覚的・テキスト表現のAlignmentを向上させる。
- 大規模MRIデータセットMedMoM-MRI3Dを用いて実験を行った結果，既存のVLMを大幅に上回る性能を示した。
- 事前学習済みの視覚エンコーダを固定されたテキストエンコーダと共にファインチューニングすることで，高い検出精度を実現した。
Link: https://arxiv.org/abs/2602.23652
ProtoDCS：Vision-Languageモデルのロバストかつ効率的なテスト時適応に向けたオープンセットアプローチ [cs.CV, cs.AI]目的：Vision-Languageモデルのオープンセットにおけるテスト時適応のロバスト性と効率性の向上
- 大規模なVision-Languageモデルは実世界での応用が期待されるが，分布シフトの影響を受けやすい。
- 既存のテスト時適応手法はクローズドセットを前提としており，未知のデータに対する対応が課題である。
- 本研究は，分布シフト下で共変量シフトされたデータと分布外データを識別し，安全かつ効率的な適応を実現する。
- 提案手法ProtoDCSは，確率的ガウス混合モデルによる検証を用いることで，脆い閾値処理を回避し，データ分離のロバスト性を向上させる。
- 不確実性を考慮した損失関数とプロトタイプレベルの効率的な更新により，過信を抑制し，計算コストを削減する。
- CIFAR-10/100-CおよびTiny-ImageNet-Cにおける実験により，ProtoDCSが最新技術を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2602.23653
大規模3D地理空間データのためのウェブマップライブラリの表示性能評価と比較 [cs.CY, cs.GR, cs.HC]目的：大規模3D地理空間データに対するウェブマップライブラリの表示性能評価
- デジタル社会インフラの発展において，大規模3D地理空間データの可視化は不可欠である。
- 既存のウェブマップライブラリでは，大規模3Dデータの効率的な表示が課題となっていた。
- データ規模や利用目的に応じた適切な技術選択の指針を提示することを目指す。
- MapLibre GL JSによるMVT形式の建物可視化が，最適性能（FCP 0.8s，TBT 0ms）を示す。
- 大規模ポイントクラウド処理においては，deck.glと組み合わせたMapLibre GL JSが優れている（TBT: 3ms，CesiumJS: 21,357ms）。
- WebGPUやOGC 3D Tiles 1.1標準化時代に対応した，再現性のある性能評価フレームワークを確立する。
Link: https://arxiv.org/abs/2602.23660
放射線科レポート生成における過去比較によるハルシネーション抑制：意味的に分離された潜在的操舵による手法 [cs.RO, cs.SY, eess.SY, cs.IR, cs.CV]目的：放射線科レポート生成における過去比較ハルシネーションの抑制
- 医療画像診断支援の自動化は，医師の負担軽減と診断精度の向上に不可欠である。
- 画像とテキストを組み合わせたモデルは，過去の症例情報を誤って現在の診断に反映するハルシネーションを起こしやすい。
- 過去の比較情報を分離し，現在の画像に基づいた正確なレポート生成を可能にすること。
- 提案手法であるSDLSは，学習を必要とせず，推論時にハルシネーションを抑制しつつ，臨床的正確性を維持する。
- MIMIC-CXRデータセットを用いた評価で，ハルシネーションの確率が大幅に低減し（FilBERTスコアが0.2373から0.1889へ），臨床ラベルの忠実性が向上した（CheXpert macro-F1が0.2242から0.3208へ）。
- CheXpert PlusやIU-Xrayへのゼロショット転移評価でも，本手法の頑健性が確認された。
Link: https://arxiv.org/abs/2602.23676
マルチドメイン作物・雑草セグメンテーションのための視覚と言語の意味的連携 [cs.CV]目的：精密農業における標的除草剤散布を可能にするための，高精度な作物・雑草セグメンテーション
- 精密農業の発展には，作物の生育状況に応じた効率的な農薬散布が不可欠である。
- 既存の深層学習モデルは，特定のデータセットに依存するため，多様な農業環境への汎化が課題である。
- 視覚と言語の意味的連携により，ドメインに依存しない表現を獲得し，汎化性能を向上させる。
- 提案手法VL-WSは，４つのベンチマークデータセットで平均Dice係数91.64%を達成し，CNNベースラインを4.98%上回った。
- 特に難易度の高い雑草クラスにおいて，VL-WSはDice係数80.45%を達成し，ベースラインを15.42%改善した。
- ターゲットドメインの教師データが限られた状況下でも，VL-WSは安定した雑草セグメンテーション性能を維持し，汎化性とデータ効率に優れている。
Link: https://arxiv.org/abs/2602.23677
あらゆるモデル，あらゆる場所，あらゆる時点：リモートセンシング基盤モデルの埋め込み表現をオンデマンドで取得 [cs.CV, cs.LG]目的：リモートセンシング基盤モデル埋め込み表現のオンデマンド取得手法
- リモートセンシング分野では，多様なタスクにおいて高性能な基盤モデルの活用が期待されている。
- モデルの公開形式やプラットフォーム，入力データ仕様のばらつきが，利用と公平な比較を困難にしている。
- 様々なモデル，場所，時間範囲に対する埋め込み表現の取得コストを削減し，ベンチマークを容易にすること。
- rs-embedライブラリを開発し，単一行のコードで様々なモデルから埋め込み表現を取得可能にした。
- 対象領域（ROI）を中心とした統一的なインターフェースを提供することで，利用者の負担を軽減した。
- 大規模な埋め込み表現の生成と評価を可能にする効率的なバッチ処理機能を実装した。
Link: https://arxiv.org/abs/2602.23678
ソースを考慮した初期ノイズ摂動によるオブジェクトスワップ [cs.CV]目的：オブジェクトスワップの性能向上
- 画像編集技術の発展は，現実世界の様々な応用を可能にする重要な研究分野である。
- 既存手法は，オブジェクトごとに微調整が必要，またはペアデータに依存し，汎用性に課題がある。
- 追加データなしに，オブジェクト間の正確なアライメントを学習し，汎用的なスワップを実現すること。
- 提案手法SourceSwapは，初期ノイズ空間での周波数分離摂動により，高品質な疑似ペアを生成する。
- これにより，オブジェクトのポーズや形状を維持しつつ外観を変化させ，動画やマルチビューデータも不要とする。
- 実験結果から，SourceSwapは既存手法よりも高い忠実度，シーンの保存，自然な調和を実現することが示された。
Link: https://arxiv.org/abs/2602.23697
HiDrop：MLLMにおける遅延注入，凹型ピラミッドプルーニング，早期終了による階層的視覚トークン削減 [cs.CV, cs.CL]目的：マルチモーダル大規模言語モデルにおける効率的な視覚トークン削減手法
- マルチモーダル大規模言語モデルは強力だが，計算コストが高いことが課題。
- 既存のトークン削減法は，浅層の機能を誤解し，柔軟性の低いスケジュールで効率が不十分。
- MLLMの階層構造に合わせたトークン削減により，性能を維持しつつ計算効率を向上させる。
- HiDropは，約90%の視覚トークンを削減しながら，元の性能を維持し，学習を1.72倍高速化。
- 遅延注入と凹型ピラミッドプルーニング，早期終了の組み合わせが，効率的な削減を実現。
- この研究は，マルチモーダル融合の階層的性質に関する洞察を提供し，新しい効率的なMLLMの学習・推論の基準を設定。
Link: https://arxiv.org/abs/2602.23699
デュアルモード自己教師あり音声モデルにおけるオンラインレジスタ：未来コンテキスト欠如の緩和 [cs.SD]目的：デュアルモード自己教師あり音声モデルのストリーミングシナリオにおける注意の不一致の軽減
- 音声認識技術は，人間と機械のコミュニケーションにおいて不可欠であり，その性能向上は重要な課題である。
- 従来の自己教師あり学習は，オフラインモードで未来の文脈を活用するのに対し，オンラインモードではその制限を受けるという課題がある。
- この研究は，オンラインモードにおいて未来の文脈を補完し，オフラインモードとの性能差を縮小することを目的とする。
- オンラインレジスタは，オンラインモードの各チャンクに付加される学習可能なトークンであり，未来のフレームの仮想的なプレースホルダーとして機能する。
- 未来予測損失を導入することで，レジスタが未来の情報を効果的に保持するように誘導し，性能向上を実現した。
- LibriSpeechおよび異種データセットにおける実験により，オンラインレジスタがオフラインモードとオンラインモード間の性能差を一貫して縮小することが示された。
Link: https://arxiv.org/abs/2602.23702
AR技術を用いた信頼性の高い屋内ナビゲーションシステム [cs.RO, cs.CV]目的：屋内ナビゲーションシステムの信頼性向上
- 屋内での移動は，施設利用の利便性向上に不可欠であり，生活や業務の効率化に貢献する。
- 従来の案内表示やフロアマップは煩雑で時間がかかり，屋内ナビゲーションのニーズに応えられていない。
- AR技術と経路探索アルゴリズムを統合し，直感的かつ効率的な屋内ナビゲーションを実現する。
- ARオーバーレイとリアルタイム処理の組み合わせにより，環境変化に即応した直感的な誘導が可能となった。
- A*アルゴリズムは，Dijkstra法と比較して，小規模な探索空間で約2～3倍速く解を導き出すことが示された。
- 実験結果から，本システムは従来のナビゲーション手法と比較して，ナビゲーション精度，ユーザビリティ，効率が大幅に向上することが確認された。
Link: https://arxiv.org/abs/2602.23706
EgoGraph：一人称視点ビデオ理解のための時間的知識グラフ [cs.CV]目的：一人称視点ビデオにおける長期的なエンティティ間の依存関係の符号化
- 一人称視点ビデオは，現実世界の活動理解に不可欠であり，その応用範囲は広い。
- 既存手法は，局所的な処理と限定的な時間的モデリングに依存し，長時間のビデオの理解が困難。
- 本研究は，長期的な依存関係を明示的に符号化し，複雑な時間的推論を可能にするフレームワークを提案。
- EgoGraphは，訓練不要で動的な知識グラフ構築フレームワークであり，多様なエンティティ間の長期的な関係を捉える。
- EgoLifeQAおよびEgoR1-benchのベンチマークにおいて，最先端の性能を達成し，その有効性が確認された。
- 本研究は，一人称視点ビデオ理解のための新たなパラダイムを提示する。
Link: https://arxiv.org/abs/2602.23709
統合生成・理解モデルは異なる出力形式間で意味的同等性を維持できるか？ [cs.CV]目的：異なる出力形式間における意味的同等性の維持
- 近年，大規模言語モデルが多種多様なデータ形式を扱えるようになり，その能力評価が重要となっている。
- 既存の研究では，テキストと画像といった異なる出力形式間での意味の一貫性が十分に検証されていない。
- 本研究は，統一されたマルチモーダル大規模言語モデルにおける意味的同等性の問題を明らかにすることを目的とする。
- 現在のU-MLLMはテキスト推論は高い性能を示すものの，同じ結果を画像形式で表現する際に意味的同等性を維持できないことが判明した。
- VGUBenchというフレームワークを用いて詳細な診断を行った結果，生成の忠実度ではなく，クロスモーダルな意味的整合性の欠如が原因であることが示唆された。
- テキスト理解や画像レンダリングの性能は高いにも関わらず，質問に対する画像生成の性能が著しく低下するという結果が得られた。
Link: https://arxiv.org/abs/2602.23711
StemVLA：未来3D空間幾何知識と4D履歴表現を持つオープンソースの視覚-言語-行動モデル [cs.RO, cs.CV]目的：ロボット行動予測のための視覚情報と言語指示の統合
- ロボットの自律的なタスク実行において，視覚情報と言語指示を理解する能力は不可欠である。
- 従来のVLAモデルは2D画像から直接行動を予測するため，空間推論や長期的な意思決定に限界がある。
- 3D空間知識と時間的動的な世界表現を明示的にモデル化し，ロボットの操作能力を向上させる。
- StemVLAは，未来の3D空間幾何知識を予測することで，シーンの変化を予測し，より適切な行動を選択する。
- 過去の画像フレームから抽出した4Dの時空間表現を用いることで，一貫性のある行動計画を立てることが可能となる。
- シミュレーション実験の結果，StemVLAはCALVIN ABC-Dベンチマークにおいて最先端の性能を達成し，長期タスクの成功率が大幅に向上した。
Link: https://arxiv.org/abs/2602.23721
AI生成画像の検出における差分の差法 [cs.CV]目的：AI生成画像の検出
- AI技術の発展により，現実と区別のつかない画像が生成可能となり，悪用が懸念されている。
- 既存の検出器は再構成誤差に依存するが，AI生成画像の進化により識別が困難になっている。
- 再構成誤差の差分の差を用いることで，検出精度向上と汎化性能の向上を目指す。
- 本研究では，再構成誤差の一階微分ではなく，二階微分である差分の差を用いる手法を提案した。
- 実験結果から，提案手法は高い汎化性能を示し，生成AI時代のAI生成画像検出において信頼性のある検出が可能であることが示された。
- 差分の差を用いることで，再構成誤差の変動を抑制し，検出精度が向上することが確認された。
Link: https://arxiv.org/abs/2602.23732
UTPTrack：視覚追跡のためのシンプルで統一されたトークンプルーニングへ [cs.CV, cs.CL]目的：視覚追跡におけるトークンプルーニングによる効率化
- 視覚追跡は，自動運転やロボティクスなど多くの応用分野で不可欠な技術である。
- Transformerベースの追跡器は計算コストが高く，リアルタイム処理が困難であるという課題がある。
- 既存のプルーニング手法は個別に行われるため，コンポーネント間の依存関係が考慮されていない。
- UTPTrackは，検索領域，動的テンプレート，静的テンプレートのトークンを統合的にプルーニングする。
- RGBベースの追跡において，ビジョン・トークンの65.4%をプルーニングしつつ，ベースライン性能の99.7%を維持する。
- 統一追跡においても，67.5%のトークンをプルーニングし，100.5%のベースライン性能を維持する。
Link: https://arxiv.org/abs/2602.23734
U-Mind：リアルタイム多Modalインタラクションのための統一フレームワーク [cs.CV]目的：リアルタイム多Modalインタラクションの実現
- 自然なコミュニケーションを実現する知能化された具現化されたエージェント構築において重要である。
- 既存システムは単一Modal生成に限定されるか，推論能力やModal間アラインメントが不十分である。
- 一貫性のある知覚に基づいたインタラクションを可能にする。
- U-Mindは，言語，音声，動作，ビデオ合成を単一のインタラクティブループで統合的にモデル化する。
- セグメントごとのアラインメント戦略と，Rehearsal-Driven Learningにより，Modal間同期と推論能力を強化する。
- 質問応答，指示実行，動作生成など，様々なタスクで最先端の性能を達成している。
Link: https://arxiv.org/abs/2602.23739
形状と文脈：曖昧な日本語文字認識における人間とAIのギャップの検証 [cs.HC, cs.CV]目的：曖昧な日本語文字認識における人間とAIの意思決定パターンの差異
- 視覚と言語を扱うAIの性能向上は，人間らしい認知能力の実現に不可欠である。
- AIは高い認識性能を示す一方，人間の意思決定プロセスとの乖離が課題となっている。
- AIと人間の文字認識の意思決定境界を比較し，そのずれを明らかにすること。
- 単一文字認識において，人間とVLMの意思決定境界が異なることが示された。
- 文脈を考慮することで，一部の状況下で人間とVLMの認識の整合性が向上した。
- これらの結果は，AIと人間の行動の違いを明らかにし，今後のAI評価基準策定に貢献する。
Link: https://arxiv.org/abs/2602.23746
ニューラル画像空間テッセレーション [cs.HC, cs.CL, cs.GR, cs.CV]目的：テッセレーションされた形状の視覚効果を生み出す画像空間ポスト処理手法
- リアルタイムレンダリングにおいて，高品質な表現と処理速度の両立が重要である。
- 従来のテッセレーションは計算コストが高く，大規模なシーンでの利用が困難であった。
- 画像空間でのポスト処理により，テッセレーション効果を効率的に実現すること。
- 本手法は，従来のテッセレーションと同等の滑らかで視覚的に一貫性のあるシルエットを生成する。
- 計算コストは一定であり，幾何学的複雑さに依存しないため，大規模なリアルタイムレンダリングに適している。
- テッセレーションを事前処理からポスト処理へと変えることで，新たなアプローチを提示した。
Link: https://arxiv.org/abs/2602.23754
自己教師あり学習による正確なセグメンテーションの学習 [cs.DC, cs.CV]目的：正確なセグメンテーション手法
- 画像認識において，物体の正確なセグメンテーションは重要な課題である。
- 手動アノテーションに依存したセグメンテーションはコストが高く，時間もかかる。
- ラベルなし画像から，自己教師あり学習を用いてセグメンテーションを可能にすること。
- 提案手法Selfmentは，手動アノテーションや事前学習モデルなしで，前景物体をセグメンテーション可能である。
- ECSSD，HKUIS，PASCAL-Sなどのベンチマークにおいて，既存の非教師ありサリエンシー検出手法を大幅に上回る性能を示した。
- カモフラージュ物体検出タスクにおいても，事前学習なしで既存の非教師あり手法や一部の教師あり手法に匹敵する性能を示した。
Link: https://arxiv.org/abs/2602.23759
物理駆動型エージェントフレームワークによる自動光学的設計 [cs.LG, cs.CV]目的：自動光学的設計のための物理駆動型エージェントフレームワーク
- 光学的設計は高精度なイメージングに不可欠であり，高度な専門知識が求められる。
- 従来の設計手法は非凸最適化問題を抱え，人的な経験と知識に依存する傾向が強い。
- 大規模言語モデルの知識を活用し，専門知識を持たないユーザーでも光学的設計を可能にする。
- 提案手法は，従来の最適化アルゴリズムや他の言語モデルと比較して，優れた性能を示すことが実験的に確認された。
- OptiDesignQAという包括的なデータセットを構築し，古典的なレンズ系と自動設計による新規構成を含めることで学習と評価を可能にした。
- 物理法則に基づいた報酬システムと，レンズの完全化を通じて，言語モデルに光学的専門知識を注入した。
Link: https://arxiv.org/abs/2602.23761
DashengTokenizer：統一された音声理解と生成に1層で十分 [cs.CC, cs.SD, eess.AS]目的：音声理解と生成の両タスクで使用可能な連続音声トークナイザー
- 音声処理技術は，人間と機械のコミュニケーションにおいて不可欠であり，その重要性は増している。
- 既存の音声トークナイザーは，理解と生成で異なるアプローチを取り，統合が課題であった。
- 固定された意味特徴を利用し，音響情報を注入することで，効率的な音声処理を実現すること。
- DashengTokenizerは，22の多様なタスクで従来の音声コーデックやエンコーダーを大幅に上回る性能を示した。
- 特に，感情認識，音楽理解，音響シーン分類などのタスクにおいて，音響情報の注入が性能向上に貢献している。
- テキストから音声/音楽への変換，音声強調などの生成タスクにおいても，従来のVAEベースの手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2602.23765
拡散プローブ：CNNプローブによる生成画像結果予測 [cs.CV]目的：生成画像品質の早期予測手法
- テキストから画像を生成する技術は，試行錯誤の繰り返しを伴い，計算コストが高いという課題がある。
- 拡散モデルでは，生成初期段階での品質評価が難しく，効率的な改善策が求められている。
- 拡散過程の初期段階におけるクロスアテンション分布を用いて，画像品質を効率的に予測すること。
- 拡散プローブは，初期段階のクロスアテンションマップを予測信号として利用するフレームワークである。
- 多様な評価指標において，高い相関（PCC > 0.7）と分類性能（AUC-ROC > 0.9）を達成した。
- プロンプト最適化や強化学習などのワークフローにおいて，計算コストの削減と出力品質の向上に貢献する。
Link: https://arxiv.org/abs/2602.23783
リモートセンシングにおける方向性オブジェクト検出のためのフーリエ角度アライメント [cs.CV]目的：リモートセンシング画像における方向性オブジェクト検出の精度向上
- リモートセンシングは広範囲の情報を収集できるため，防災や環境監視に不可欠である。
- 既存手法は，検出器のネックにおける方向性の不整合と，検出ヘッドにおけるタスクの競合に課題がある。
- フーリエ変換の回転不変性を活用し，方向性オブジェクト検出におけるこれらの問題を解決することを目指す。
- 提案手法FAA（Fourier Angle Alignment）は，特徴マップの角度情報を周波数スペクトルで解析し，主要方向を特定の方位にアライメントする。
- DOTA-v1.0データセットにおいて，従来の最先端手法を上回り，mAP78.72%という新たな最高性能を達成した。
- DOTA-v1.5データセットにおいてもmAP72.28%を記録し，リモートセンシングにおけるオブジェクト検出の有効性を実証した。
Link: https://arxiv.org/abs/2602.23790
感情的推論のための反射的強化学習：マルチモーダル大規模言語モデルにおけるEMO-R3 [cs.AI, cs.CV]目的：マルチモーダル大規模言語モデルにおける感情的推論能力の向上
- 人間の感情は複雑であり，その理解はAIにとって不可欠な課題である。
- 既存手法では，感情の主観性や文脈を捉えきれず，汎化性能が低い。
- 視覚情報とテキストの一貫性に基づいた，感情的推論の再評価メカニズムを確立する。
- EMO-R3は，構造化された感情的思考を通じて，モデルの段階的な感情推論を支援する。
- 反射的な感情的報酬により，モデルは視覚とテキストの一貫性に基づいて推論を再評価する。
- 複数の感情理解ベンチマークにおいて，EMO-R3は解釈可能性と感情知能を大幅に向上させた。
Link: https://arxiv.org/abs/2602.23802
見る，行動する，適応する：パーソナライズされたVLM誘導エージェントによる教師なしクロスドメイン視覚適応のための能動的知覚 [cs.FL, cs.CV, cs.AI]目的：教師なしクロスドメイン視覚適応のための能動的知覚パラダイム
- 汎用画像ドメインで高性能な知覚モデルは，屋内シーンのような新しい環境では性能が低下する。
- 従来のファインチューニングは，既存知識の破棄や高コストなアノテーションを必要とする。
- 知覚モジュール自体を適応させるのではなく，エージェントの展開方法を適応させることで問題を解決する。
- 提案手法Sea$^2$は，知覚モジュールを固定し，ダウンストリームのラベルを必要とせず，スカラー知覚フィードバックを用いてエージェントを情報のある視点へと導く。
- VLMを2段階の学習パイプラインで低レベルの姿勢制御器に変換し，屋内シーンの探索を体系的に行う。
- 視覚的接地，セグメンテーション，3Dボックス推定タスクにおいて，それぞれ13.54%，15.92%，27.68%の性能向上をReplicaCADデータセットで示した。
Link: https://arxiv.org/abs/2602.23806
双腕操作のための3D幾何学的事前知識を用いた行動・幾何予測 [cs.CV]目的：双腕操作における行動と3D幾何変化の予測
- ロボットによる複雑な作業を自動化する上で，高度な操作能力は不可欠である。
- 既存手法は2D特徴に依存し，空間認識が限定的，または点群の取得が困難である。
- RGB画像からの高速かつロバストな3D再構成技術を活用し，空間理解と予測能力を高める。
- 提案手法は，3D幾何学的事前知識を活用し，双腕操作における成功率を向上させた。
- 2D特徴や点群に基づく既存手法と比較して，優れた性能を示した。
- シミュレーションと実機実験の両方で，高い操作成功率と空間予測精度を達成した。
Link: https://arxiv.org/abs/2602.23814
フットプリント誘導型エグゼンプラーフリー継続ヒストパソロジーレポート生成 [cs.CV]目的：全ギガピクセルWSI画像からの病理レポート生成
- 病理診断の効率化と精度向上に貢献する，画像と自然言語の融合研究。
- 新たな組織，施設，報告様式への適応が困難であり，記憶喪失が生じやすい。
- ドメイン固有の変化に対応しつつ，過去のデータを保持せずに継続学習を実現する。
- フットプリントと呼ばれるコンパクトなドメイン表現を用いることで，エグゼンプラーを保持せずに継続学習が可能となった。
- ドメイン固有の形態学的混合を合成する生成リプレイにより，既存手法よりも優れた性能を示した。
- スライド信号から最適なスタイル記述子を識別し，ドメインに依存しないレポート生成を実現した。
Link: https://arxiv.org/abs/2602.23817
ノイズ除去強化YOLOによるロバストなSAR船舶検出 [cs.CV]目的：SAR画像における船舶検出の精度向上
- 海洋監視や安全確保において，SAR画像による船舶検出は重要な役割を担う。
- SAR画像特有のノイズやクラッタの影響で，誤検出や小型船舶の見逃しが発生しやすい。
- ノイズ除去と特徴抽出の強化により，複雑な環境下での検出性能を向上させる。
- 提案手法CPN-YOLOは，YOLOv8をベースに，ノイズ除去モジュール，PPAアテンション機構，Gaussian類似損失を導入。
- SSDDデータセットにおいて，CPN-YOLOはYOLOv8を上回り，精度97.0%，再現率95.1%，mAP98.9%を達成。
- 既存の深層学習ベースの検出器と比較しても，全体的な性能において優れていることが確認された。
Link: https://arxiv.org/abs/2602.23820