arXiv雑要約

画像・音声 - 2026/03/09 公開

視覚的物語のための具現化された仲間 [cs.HC, cs.AI, cs.GR, cs.RO]目的：視覚的物語の共同創造
- AI技術の発展は，芸術分野における新たな表現の可能性を拓く。
- 従来のAIは自律性を重視する傾向があり，アーティストとの協調性が課題だった。
- AIと人間の相互作用による，より創造的な芸術表現の実現を目指す。
- 本システムは，大規模言語モデルと描画ロボットを統合し，双方向の対話を通じて視覚的物語の共同創造を可能にした。
- 芸術専門家による評価の結果，本システムが生み出す作品は独特な審美性を持ち，展示価値があることが確認された。
- AIが高度な芸術コラボレーターとして機能する可能性を示唆する。
Link: https://arxiv.org/abs/2603.05511
CoEditor++：認知的な推論による指示に基づく画像編集 [cs.HC, cs.CV]目的：指示に基づいた画像編集の実現
- 画像編集技術は，創造性や表現の幅を広げ，様々な分野で活用が期待されている。
- 既存の手法は，曖昧な指示や複雑な指示に対して，高度な意味推論や視覚的な一貫性を保つことが困難である。
- 曖昧かつ複雑な指示に対しても，堅牢かつ詳細で解釈可能な編集を可能にすることを目指す。
- CoEditor++は，追加の学習や微調整を必要とせず，オープンソースの構成要素のみで構築されている。
- SmartEditおよびAltBearのベンチマークにおいて，CoEditor++は最先端の性能を達成し，特に視覚的な一貫性が高いことが示された。
- Nano Banana ProやGPT-4oといったクローズドソースモデルと比較しても，指示への追従性は同等でありながら，視覚的な一貫性で大幅に上回る。
Link: https://arxiv.org/abs/2603.05518
RoboLayout：具現化されたエージェントのための微分可能な3Dシーン生成 [cs.AI, cs.CV, cs.LG, cs.RO]目的：具現化されたエージェントが相互作用可能な3Dシーンの生成
- 近年のVLMsの進歩により，空間推論や3Dシーンレイアウト生成が可能になった。
- 相互作用可能性を考慮した，物理制約のある屋内環境でのレイアウト生成が課題である。
- エージェントの到達可能性を考慮したレイアウト生成により，実用的な環境デザインを目指す。
- RoboLayoutは，LayoutVLMを拡張し，エージェントを考慮した推論と最適化の安定性を向上させた。
- 微分可能なレイアウト最適化プロセスに到達可能性制約を組み込み，ナビゲート可能で実行可能なレイアウトを生成する。
- 様々な物理能力を持つエージェントに対応可能であり，環境設計の汎用性が高い。
Link: https://arxiv.org/abs/2603.05522
オムニC：異種モダリティを単一の密なエンコーダに圧縮 [cs.MM, cs.AI, cs.CL, cs.CV, cs.SD, eess.AS]目的：異種モダリティ間の共有表現の学習
- マルチモーダル学習は，多様な情報を統合し，より高度なAIシステムを実現する上で重要である。
- 従来のマルチモーダルシステムは，モダリティごとに専門エンコーダを用いるため，計算コストが増大する。
- パラメータ効率の良い単一エンコーダにより，スケーラブルなマルチモーダル学習を実現する。
- オムニCは，画像，音声，テキストといった異種モダリティ間で競争力のある共有表現を学習できる。
- MoEアーキテクチャのような専門家やルーティングを必要とせず，メモリ使用量を大幅に削減する。
- 単一エンコーダでありながら，様々なタスクにおいて専門家モデルと同等の性能を発揮する。
Link: https://arxiv.org/abs/2603.05528
エッジだけで十分：ラベルフリー構造によるロバストな歩行者識別 [cs.RO, cs.CV, eess.IV]目的：歩行者識別のための新たな視覚的モダリティおよびフレームワークの提案
- 歩行者識別はセキュリティ用途で利用される非侵襲的な生体認証技術であり，その重要性は高い。
- 従来の歩行者識別はシルエットや解析に基づく表現に偏っており，識別能力に限界がある。
- ラベルに依存しないエッジ情報に基づく新たな表現を導入し，ロバストな歩行者識別を実現することを目指す。
- 提案手法SKETCHは，RGB画像からエッジベースの検出器を用いて高周波構造的特徴を直接抽出する。
- SKETCHとラベル付き解析は意味的に分離され，構造的に補完的であることが示された。
- SUSTech1KおよびCCPGデータセットでの実験により，SKETCHGAITが優れた識別性能を発揮することが確認された。
Link: https://arxiv.org/abs/2603.05537
AI時代の人間・データ相互作用，探索，可視化：課題と機会 [cs.DB, cs.AI, cs.ET, cs.GR, cs.MM]目的：AI時代における人間・データ相互作用の課題と機会
- AI技術の進化は，人間中心システムに大きな影響を与え，データ分析のあり方を変えつつある。
- 大規模，異種，マルチモーダルのデータの取り扱いの複雑化，AIモデルの不確実性が課題となっている。
- AI時代のデータ分析における人間と機械の役割を再定義し，人間中心のシステム構築を目指す。
- AIの進展は，データ分析における遅延，スケーラビリティ，既存の相互作用の限界といった課題を露呈させている。
- 従来の効率性やスケーラビリティの指標を超え，認知，知覚，デザイン原則を取り入れたアプローチが求められる。
- 本研究は，AI技術の進歩がユーザーのデータとの関わり方に及ぼす影響を調査し，今後の研究方向性を示す。
Link: https://arxiv.org/abs/2603.05542
都市部交差点における車線遵守軌跡予測のためのデジタルツイン損失 [cs.RO, cs.CV]目的：都市部交差点における多エージェントの運動予測
- 高度な自動運転や協調型交通システムの実現に不可欠な技術分野である。
- 複雑な交通状況下での安全かつ正確な軌跡予測が困難である。
- デジタルツインを活用し，交通ルール遵守と安全性向上を目指す。
- 提案手法では，Bi-LSTMベースの生成器と，MSE損失と新規のツイン損失を組み合わせた学習目的関数を用いる。
- ツイン損失は，インフラ制約，衝突回避，予測モードの多様性，交通ルールを考慮し，より現実的な予測を促す。
- 実データを用いた実験により，提案手法は重大な違反を大幅に削減しつつ，予測精度とリアルタイム性能を維持できることが示された。
Link: https://arxiv.org/abs/2603.05546
AutothinkRAG：画像とテキストの相互作用のための検索拡張推論の複雑度を意識した制御 [cs.IR, cs.CV]目的：情報集約型文書質疑応答における推論の精度向上
- 画像とテキストを組み合わせたVLMsは，多様なタスクで高い性能を示す重要な技術である。
- 長文脈や情報過多により，VLMsの精密な推論が妨げられるという課題が存在する。
- クエリの複雑度に応じて適切な推論経路を選択し，VLMsのボトルネックを解消することを目指す。
- AutoThinkRAGは，クエリの複雑度を分析し，複数のモデルの能力を組み合わせることで文書理解を強化する。
- 小規模VLMによる高精度な視覚情報のテキスト化と，LLMによる論理的推論を分離することで，効率的な推論を実現する。
- DocBenchおよびMMLongBenchにおける実験で，推論コストを削減しつつ，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.05551
コープマン正則化深層音声分離による話者検証 [cs.RO, cs.SD, cs.LG]目的：話者検証のための音声内容と話者特性の分離
- 話者検証は，個人認証が重要な応用において不可欠な技術であるため，その重要性が増している。
- 既存手法はラベル付きデータや大規模な事前学習モデルに依存し，拡張性や実用性に課題がある。
- コープマン演算子とインスタンス正規化を組み合わせ，効率的かつ原理的な話者表現学習を目指す。
- 提案手法DKSD-AEは，複数のデータセットで最先端のベースラインと同等以上の話者検証性能を達成した。
- 同時に，高い内容EERを維持し，効果的な分離が確認された。
- DKSD-AEは，パラメータ数を大幅に削減し，テキストによる教師なしで安定した性能を発揮する。
Link: https://arxiv.org/abs/2603.05577
バイアスを伴わないサブネットワークの発見：バニラモデルにおけるバイアスの問題 [cs.LG, cs.CV]目的：既存のバニラモデルから，公平でバイアスに依存しないサブネットワークの抽出
- 深層学習におけるアルゴリズムのバイアス問題は重要であり，公平性の確保が求められる。
- 従来のバイアス軽減手法は複雑な学習やデータ操作を必要とし，コストが高いという課題がある。
- 追加データや再学習なしに，既存モデル内に潜むバイアスフリーなサブネットワークを抽出する。
- 提案手法BISEにより，事前学習済みのバニラモデルからバイアスに依存しないサブネットワークを抽出可能。
- 抽出されたサブネットワークは，パラメータの変更なしに，バイアスに影響されにくい特徴量のみで高い性能を維持する。
- BISEは，データや再学習に依存する高コストな戦略とは異なり，構造的な適応による効率的なバイアス軽減を実現する。
Link: https://arxiv.org/abs/2603.05582
物理世界ビデオ推論のための空間コードによる思考 [cs.CV]目的：物理世界における視覚的質疑応答のための，明示的で時間的に一貫性のある3次元表現へのビデオ変換
- 現実世界の理解はAIの重要な課題であり，ロボット工学や自動運転などの応用を可能にする。
- 既存の視覚言語モデルは，空間的な推論能力に乏しく，複雑な物理的状況の理解が困難である。
- ビデオから3次元空間コードを抽出し，言語モデルが幾何学的な情報を活用できるようにすること。
- 提案手法は，動画を構造化された空間コード（3次元bounding boxと意味ラベル）に変換可能であり，大規模言語モデルの推論能力を向上させる。
- 空間的な報酬関数を用いた強化学習により，視点に依存した幾何学的に根拠のある推論を促す。
- VSI-Benchにおいて，既存の視覚言語モデルを凌駕し，新たな最先端性能を達成した。
Link: https://arxiv.org/abs/2603.05591
デカップリングからカップリングへ：学習ベースのキーポイント検出に対するロバスト性検証と共同仕様 [cs.CV, cs.LG, cs.RO]目的：学習ベースのキーポイント検出におけるロバスト性
- キーポイント検出は，姿勢推定や3D再構成など多くのビジョンタスクの基盤技術である。
- ニューラルモデルは入力の微小な摂動に対して脆弱であり，形式的なロバスト性検証が不足している。
- キーポイント間の依存関係を考慮した，より正確なロバスト性検証手法を確立すること。
- 本研究では，ヒートマップに基づくキーポイント検出器に対し，全てのキーポイントにわたる偏差を束縛する初のカップリングされたロバスト性検証フレームワークを提案した。
- 提案手法は，各キーポイントを独立して検証するデカップリング手法と比較して，より高い検証率を達成し，厳しい誤差閾値下でも有効である。
- 検証をMILP問題として定式化し，モデルがロバストと認定された場合，その保証の正当性を証明した。
Link: https://arxiv.org/abs/2603.05604
DreamCAD：微分可能なパラメトリックサーフェスを用いたマルチモーダルCAD生成のスケーリング [cs.CV, cs.AI]目的：マルチモーダルCAD生成の規模拡大
- CADは設計において不可欠であり，その自動化は生産性向上に繋がる。
- 既存の生成手法は，注釈付きデータセットの少なさやCAD特有のラベルの必要性に課題がある。
- 大規模な3Dデータセットを活用し，編集可能なCADモデルを生成することを目指す。
- DreamCADは，CAD固有の注釈なしに，点レベルの指示から編集可能なBRepsを直接生成する。
- DreamCADはパラメトリックパッチでBRepsを表現し，微分可能なテッセレーションを用いて大規模な学習を可能にする。
- ABCとObjaverseのベンチマークで最先端の性能を示し，ユーザの75%以上から好まれる結果を得た。
Link: https://arxiv.org/abs/2603.05607
ハイスループットセルスクリーニングにおけるバッチ効果補正のための敵対的バッチ表現拡張 [cs.CV, cs.AI]目的：ハイスループットセルスクリーニングにおけるバッチ効果の軽減
- ハイスループットセルスクリーニングは，細胞の表現型プロファイリングに不可欠である。大規模データが生み出されるため，その品質管理が重要となる。
- 実験条件のばらつきがバッチ効果を引き起こし，機械学習モデルの汎化性能を低下させるという課題がある。
- 未知のバッチに対しても効果を発揮する，バッチ効果を抑制する新たな手法の開発が求められている。
- 敵対的バッチ表現拡張（ABRA）は，バッチ間の統計的変動を構造化された不確実性としてモデル化する。
- 表現空間における最悪のバッチ擾乱を生成することで，微細なクラス識別能力を維持しつつ，バッチ効果を軽減する。
- RxRx1およびRxRx1-WILDSベンチマークにおいて，ABRAはsiRNA擾乱分類において最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.05622
ロバストなマルチモーダル3D検出のための後処理段階での鳥瞰図特徴安定化 [cs.CV, cs.AI]目的：マルチモーダル3D検出におけるロバスト性の向上
- 自動運転技術において，正確な3D物体検出は重要な要素である。
- 鳥瞰図融合検出器は，ドメインシフトやセンサー故障に弱く，実用性に課題がある。
- 既存の検出器に組み込みやすく，ロバスト性を高めるモジュールの開発。
- 提案手法PFSは，既存の検出器の中間表現に作用し，特徴マップを改善することでロバスト性を実現する。
- PFSは，ドメインシフト下での特徴統計量の安定化，センサー故障領域の抑制，残差補正による弱体化キューの復元を行う。
- nuScenesベンチマークにおいて，カメラドロップアウトに対するロバスト性を+1.2%，低照度環境下での性能を+4.4% mAP向上させた。
Link: https://arxiv.org/abs/2603.05623
コンセプトボトルネックモデルの再考：落とし穴から解決策へ [cs.CV]目的：コンセプトボトルネックモデルにおける課題解決と性能向上
- AIの説明可能性は重要であり，人間が理解できる形で予測根拠を示すことが求められている。
- 既存のコンセプトボトルネックモデルは，概念の妥当性評価や線形性の問題，精度不足に課題がある。
- 概念選択の妥当性評価指標を導入し，非線形層を加えることで，モデルの解釈性と精度を向上させる。
- CBM-Suiteという手法フレームワークを開発し，既存の課題に体系的に対処した。
- 提案手法により，コンセプトボトルネックモデルの精度を向上させ，解釈可能性に関する知見を得た。
- エントロピーに基づく指標で概念セットの適合性を評価し，蒸留損失によって精度を改善した。
Link: https://arxiv.org/abs/2603.05629
拡散生成FID予測のための再構成FIDの改良 [cs.CV, cs.LG]目的：拡散生成モデルのFID（generation FID）との相関性向上
- 生成モデルの評価は重要であり，FIDはその主要指標の一つである。
- VAEの再構成FID（rFID）は拡散生成FID（gFID）との相関が低いという問題がある。
- rFIDの改良により，拡散生成モデルの評価精度向上を目指す。
- 提案手法iFIDは，rFIDの改良版であり，gFIDとの強い相関を示すことが確認された。
- rFIDは拡散モデルの改良段階のサンプル品質と相関し，iFIDはナビゲーション段階のサンプル品質と相関する。
- iFIDがgFIDと高い相関を示す理由を，拡散モデルの汎化と幻覚に関連付けて説明した。
Link: https://arxiv.org/abs/2603.05630
評価基準が機能しない場合：参照なし強化学習の後学習におけるエラー列挙を報酬として [cs.CV, cs.AI, cs.LG]目的：参照なし強化学習における報酬メカニズムの改善
- 強化学習は，現実世界の複雑なタスクへの応用が期待されるが，報酬設計が困難である。
- 従来の評価基準に基づく報酬設定は，理想的な正解が存在しない場合に有効性を発揮しない。
- 複数の有効な出力が存在するタスクにおいて，エラーの列挙を通じて報酬を生成することを目指す。
- 提案手法であるImplicit Error Counting (IEC) は，タスクに関連する軸に沿ってエラーを列挙し，重み付けスコアを適用することで報酬を生成する。
- 仮想試着(VTO)の事例研究では，IECは既存のRubrics as Rewards(RaR)を上回り，より細かい服装のエラーを捉えることが示された。
- 新たな評価指標であるCascaded Error Counting (CEC)と，属性ミスマッチを最大化するベンチマークMDressBenchを導入し，IECの有効性を検証した。
Link: https://arxiv.org/abs/2603.05659
証拠の連鎖を維持：ビデオの時間的グラウンディングのためのトレーニング不要トークン刈り込みにおける意味的証拠の割り当て [eess.SY, cs.SY, cs.CV]目的：ビデオの時間的グラウンディングにおける効率性と精度を両立するためのトークン刈り込み手法
- ビデオの時間的グラウンディングは，長尺動画から関連する瞬間を特定する重要な技術である。
- 既存の動画・言語モデルは計算コストが高く，効率的な処理が課題となっている。
- 時間的グラウンディングに特化したトークン刈り込みによって，計算コストを削減しつつ精度を維持することを目指す。
- 提案手法SemVIDは，トークン予算をフレームごとに配分し，クエリ関連性やフレーム間変動のバランスを取ることで，過剰な刈り込みを防ぐ。
- SemVIDは，対象物，動き，背景のトークンを選択し，意味的に補完的なトークンサブセットを構築することで，高い精度と効率性を実現する。
- 実験結果から，SemVIDは最大95.4%のmIoUを維持しつつ，12.5%のトークン数で最大5.8倍の高速化を達成し，既存手法を上回る。
Link: https://arxiv.org/abs/2603.05663
運動中の機械知覚に対する新しいアプローチ：OWL [cs.ET, cs.AR, cs.SI, cs.CV]目的：運動中の3次元知覚における複雑な課題に対処するための知覚関連関数OWL
- ロボット工学や自動運転において，周囲環境の3次元情報をリアルタイムで把握することが不可欠である。
- 既存手法では，環境やカメラの動きに関する事前知識が必要となる場合が多く，汎用性に課題がある。
- 視覚運動情報のみから，環境の3次元再構成を可能にし，リアルタイムな意思決定を支援すること。
- OWLは，視覚運動情報から直接計算される値を用いることで，3次元オブジェクトの幾何学的安定性を時間経過を通じて維持する。
- OWLは，環境，移動物体，カメラの動きに関する事前知識なしに，3次元シーンのスケール付き再構成を可能にする。
- OWLは，理論的概念と実際の応用を結びつけ，次世代の自律システムの構築に貢献する可能性を秘めている。
Link: https://arxiv.org/abs/2603.05686
MultiHaystack：4万件の画像，動画，ドキュメントにおけるマルチモーダル検索と推論のベンチマーク [cs.CV]目的：マルチモーダル検索と推論の性能評価
- 現実世界のタスクでは，大規模なマルチモーダルデータからの関連証拠の検索が重要である。
- 既存のベンチマークは検索範囲が狭く，実用的なシステム全体の信頼性を過大評価している。
- 大規模かつ多様なデータセットを用いた，検索と推論の包括的な評価を目指す。
- MultiHaystackは，46,000件以上のマルチモーダル候補と747件の質問から構成される。
- モデルは証拠が与えられた場合は高い性能を示すが，自力で証拠を検索すると性能が大幅に低下する。
- 最先端の検索器やMLLMにおいても，検索性能がボトルネックとなり，推論精度が低下することが示された。
Link: https://arxiv.org/abs/2603.05697
視覚・聴覚情報を用いた解釈可能な地理位置推定 [cs.CV]目的：視覚・聴覚情報の解釈と推論による地理位置推定の実現
- 画像認識技術の進歩はあるものの，地理位置の特定は曖昧さを抱える課題であり，精度向上が求められている。
- 視覚情報だけでは曖昧になりやすく，聴覚情報の活用が十分でない点が課題であった。
- 音響情報を分解し，視覚情報と統合することで，地理位置推定の精度を向上させることを目指す。
- 提案手法は，音響情報を「音響原子」に分解し，視覚特徴と統合することで，地理位置推定の精度を向上させた。
- 大規模な地理位置推定ベンチマークであるAVGを構築し，その有効性を示した。
- 音響情報の解釈可能な知覚が，マルチモーダル推論と組み合わされることで，高精度な地理位置推定に貢献することが明らかになった。
Link: https://arxiv.org/abs/2603.05708
Any to Full: 深さ情報を一切含むことなく，単一段階で深さ補完を行う [cs.CV]目的：ロボット認識のための高精度な深さ情報推定
- ロボットの環境認識において，正確な深さ情報は不可欠であり，その重要性は増している。
- 汎用的なセンサーでは，ハードウェアの制約により，深さ情報の測定が疎になりがちである。
- 様々な深さパターンに対応可能な，汎用的な深さ補完手法を確立すること。
- Any2Fullは，既存のRGBD融合深さ補完手法が持つドメイン汎化性能の限界を克服する。
- 本手法は，二段階の統合戦略に起因する計算コストと歪みを回避し，単一段階での処理を実現する。
- 実験により，Any2Fullが既存手法（OMNI-DC，PriorDA等）と比較して，精度と効率の両面で優れていることが示された。
Link: https://arxiv.org/abs/2603.05711
ImageNetの多物体性を解放：自動大規模マルチラベルアノテーション [cs.CV]目的：ImageNetトレーニングセットをマルチラベルデータセットへの変換
- 画像認識の性能向上には，より現実的な学習データの重要性が認識されている。
- ImageNetは単一ラベルを前提としており，複数の物体を含む画像に対応できない。
- マルチラベルアノテーションを用いて，画像認識モデルの表現学習能力を高める。
- 本研究で作成したマルチラベルアノテーションは，人間による判断と高い一致性を示した。
- 従来の単一ラベル方式と比較して，ReaLで最大2.0%，ImageNet-V2で最大1.5%のtop-1精度が向上した。
- COCOやVOCといったダウンストリームタスクにおいても，高い転移学習性能を示した。
Link: https://arxiv.org/abs/2603.05729
フェーズ接地から知的な外科ナラティブへ [cs.CV]目的：外科手術のタイムラインとナラティブの自動生成
- 手術支援技術の進歩に伴い，手術記録の質と効率性が重要視されている。
- 術後報告は曖昧になりがちで，手動アノテーションは時間と労力を要する。
- 手術映像から自動的にタイムラインとナラティブを生成し，負担を軽減する。
- 提案手法は，CLIPベースのマルチモーダルフレームワークを用いて，手術映像とジェスチャー記述を関連付ける。
- 視覚的特徴とテキスト情報を共有埋め込み空間にマッピングし，モデルを微調整することで精度を向上させている。
- これにより，手術のタイムラインを構築し，外科医による手動レビューやアノテーションの必要性を低減する。
Link: https://arxiv.org/abs/2603.05732
画像ベースライティングのためのフルダイナミックレンジ空モデル [cs.RO, cs.CL, cs.RO, cs.HC, cs.RO, cs.RO, cs.CV, cs.GR, cs.LG]目的：画像ベースライティングにおける，フルダイナミックレンジの空のモデル化
- リアルな環境描写は，芸術，VR，科学技術など広範な分野で不可欠である。
- 既存の空モデルは，高解像度環境下で太陽光領域の再現に課題を抱えている。
- フルダイナミックレンジの空を学習し，より正確なライティングを実現すること。
- 本研究で提案するIcarusは，フルダイナミックレンジの屋外画像を学習可能な空モデルである。
- Icarusは，太陽や雲の位置を直感的に操作でき，大気表現のテクスチャ制御も可能である。
- 評価実験により，Icarusが既存モデルや実測データと同等の，高精度なライティングを実現することが示された。
Link: https://arxiv.org/abs/2603.05758
部分空間を意識したモデルのマージによるドメイン間の橋渡し [cs.DC, cs.CE, math.OC, cs.RO, cs.LG, cs.AI, cs.CV]目的：複数のタスク固有モデルを統合した単一のモデルの汎化性能向上
- モデルマージは，効率的な知識集約と計算資源の節約に貢献する重要な技術である。
- ドメイン外のデータに対する汎化性能は，モデルマージにおける未解決の問題として残されている。
- 異なるドメインで学習したモデルのマージにおける部分空間の競合を軽減し，汎化性能を向上させる。
- 本研究では，タスク行列の特異値分解により，ドメインシフトが異なるモデルのマージが，従来のマルチタスク学習よりも強い部分空間の競合を引き起こすことを示した。
- 提案手法SCOREは，すべてのモデルの主要な特異ベクトルを連結し，共有の直交基底を計算することで，そのような部分空間の競合を緩和する。
- 実験の結果，SCOREは様々なアーキテクチャとモデル規模において，既存のマージ手法を上回り，ドメイン汎化性能において有効性とスケーラビリティを示すことができた。
Link: https://arxiv.org/abs/2603.05768
テキスト画像生成における拡散Transformerの層別インスタンスバインディングによる領域およびオクルージョン制御 [cs.CV]目的：テキスト画像生成における領域制御とオクルージョン制御の精度向上
- 画像生成技術は，創造的な応用の可能性を広げ，様々な分野で活用が期待されている。
- 既存手法は，データバイアスや画質の低下，オクルージョン順序の制御困難性といった課題を抱えている。
- これらの課題を解決し，より実用的な領域・オクルージョン制御を実現することを目指す。
- 提案手法LayerBindは，学習を必要とせず，既存の拡散Transformerに容易に組み込むことができる。
- LayerBindは，早期段階の潜在構造を再構成することで，領域とオクルージョンの制御を可能にする。
- 実験結果から，LayerBindが領域制御とオクルージョン制御において高い効果を発揮し，創造的な応用への可能性を示すことが示された。
Link: https://arxiv.org/abs/2603.05769
ビジュアルワードとBM25：画像検索のためのスパース・オートエンコーダ・ビジュアルワードスコアリング [cs.CV, cs.AI]目的：画像検索におけるビジュアルワードのスコアリング手法
- 画像検索は，大量の画像データから目的の画像を効率的に見つけ出すために不可欠である。
- 高密度な画像検索は精度が高いものの，計算コストが高く，解釈性に乏しいという課題がある。
- スパースな表現を用いた高速かつ解釈可能な画像検索手法を確立すること。
- 本研究では，Vision Transformerの特徴量から得られるスパースなビジュアルワードに対してBM25スコアリングを適用する手法BM25-Vを提案する。
- BM25-Vは，高い再現率（Recall@200 ≥ 0.993）で候補画像を高速に絞り込み，その後の高精度なランキング処理を可能にする。
- ImageNet-1Kで学習したSAEは，追加のファインチューニングなしに7つのファインチューニング済みベンチマークにゼロショットで転移可能であり，BM25-Vの検索決定は特定のビジュアルワードに起因する。
Link: https://arxiv.org/abs/2603.05781
2Dから3Dシーン再構成における特徴アップサンプラのスペクトルプロービング [cs.CV]目的：2D-to-3Dシーン再構成における特徴アップサンプラの特性評価
- マルチビュー画像からの3D再構成は，コンピュータービジョン分野における重要な課題である。
- 特徴アップサンプラは再構成の精度に影響を与えるが，その3D認識能力への影響は不明な点が多い。
- スペクトル解析により，アップサンプラの特性を評価し，3D再構成への影響を明らかにすることを試みる。
- 構造スペクトルの一貫性が，NVS品質の最も強い予測因子となることが示された。
- 高周波スペクトル傾斜の変化は，再構成性能と負の相関があり，高周波の詳細化だけでは精度向上につながらない。
- 学習型アップサンプラは，古典的な補間法よりも優れた再構成品質を必ずしも示さず，その有効性は再構成モデルに依存する。
Link: https://arxiv.org/abs/2603.05787
協調のギャップ：多エージェント「元恋人の戦い」における時間的ダイナミクスのための交互性指標 [cs.DC, cs.MA, cs.GT, cs.LG]目的：多エージェント協調における時間構造と集団ダイナミクスを捉える指標の開発
- 多エージェントシステムは現実世界の多くの問題をモデル化でき，協調は重要である。
- 従来の評価指標は時間的構造を考慮せず，協調の質を正確に評価できない。
- 時間的ダイナミクスに敏感な新規指標を導入し，協調の質を評価することを試みる。
- 従来の指標では高い報酬が得られても，実際には時間的な協調が不十分な場合があることが示された。
- 提案する交互性指標を用いることで，学習されたポリシーがランダムなポリシーよりも最大81%劣ることが明らかになった。
- 多エージェントゲームにおける協調分析には，時間的情報を考慮した評価指標とランダムポリシーの基準が不可欠である。
Link: https://arxiv.org/abs/2603.05789
EventGeM: イベントベースのビジュアルプレース認識におけるグローバル-ローカル特徴量マッチング [cs.CV]目的：イベントベースのビジュアルプレース認識のためのグローバルからローカルへの特徴量融合パイプライン
- ロボット工学とコンピュータビジョンの分野において，イベントカメラの利用が急速に拡大している。
- 従来のカメラでは困難な高速な位置推定や省電力化が課題となっていた。
- イベントカメラを用いた高精度な場所認識を実現し，ロボットの自律走行を支援する。
- 提案手法EventGeMは，イベントヒストグラム画像からグローバル特徴を抽出し，初期マッチングの精度向上に貢献する。
- MaxViTバックボーンによるローカル特徴量の検出と，RANSACを用いた2Dホモグラフィに基づく再ランキングにより，ロバスト性を高める。
- 深度推定に基づく構造的類似性の比較により，さらなる再ランキングの洗練化を行い，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.05807
注意回復を用いた学習不要な潜在フレーム間プルーニング [cs.CV]目的：ビデオ生成における計算遅延の低減
- ビデオ生成技術は応用範囲が広いが，計算コストが課題となっている。
- 既存モデルは計算遅延が大きく，リアルタイム処理が困難である。
- 潜在的な冗長性を活用し，効率的な処理を実現することを目指す。
- 提案手法（LIPAR）は，重複する潜在パッチの再計算を省略する。
- 注意回復機構により，プルーニングによる視覚的なアーティファクトを抑制する。
- NVIDIA A6000上で平均1.45倍の処理速度向上（12.2 FPSから8.4 FPSへ）を確認した。
Link: https://arxiv.org/abs/2603.05811
マージンと一貫性に基づく監視による，キャリブレーションとロバストなビジョンモデル [cs.CV, cs.AI, cs.LG]目的：キャリブレーションとロバスト性を備えたビジョンモデルの構築
- 深層学習による画像認識は高い精度を達成する一方で，汎化性能やロバスト性に課題が残る。
- 既存モデルは，分布のわずかな変化に弱く，信頼性の低い予測を行う可能性がある。
- ロジット空間での分離と局所的な予測安定性を同時に強化することで，モデルの性能向上を目指す。
- MaCSは，既存のクロスエントロピー損失関数に，マージンペナルティと一貫性正則化項を追加するシンプルな手法である。
- 複数の画像分類ベンチマークにおいて，MaCSはキャリブレーションとロバスト性を改善し，同時にトップ1精度を維持または向上させた。
- 本手法は追加データやアーキテクチャ変更を必要とせず，推論時のオーバーヘッドも無視できるほど小さく，容易に導入可能である。
Link: https://arxiv.org/abs/2603.05812
どのデータが重要か：音声認識のための埋め込みベースのデータ選択 [cs.RO, cs.CL, cs.SD]目的：音声認識のためのデータ選択戦略
- 現代の音声認識システムは大規模データで訓練されるため，その品質が性能に大きく影響する。
- 特定のドメインに特化したモデルでは，利用可能な全てのデータから学習できないという課題がある。
- ターゲットドメインにおける性能最適化のため，関連性の高いデータサブセットを選択することを目指す。
- 埋め込み表現を用いてデータの関連性と多様性を分析し，データ選択戦略を検討した。
- 5%の戦略的に選択されたデータセットで，フルデータセットで訓練した場合を最大36.8%上回る相対的なWER削減を達成した。
- 話者属性，音響内容，意味内容を捉えた埋め込みが，データ選択において重要な役割を果たすことが示された。
Link: https://arxiv.org/abs/2603.05819
深層アンサンブル学習を用いたリモートセンシング画像分類 [cs.RO, cs.CV, cs.AI]目的：リモートセンシング画像分類のための融合モデル
- リモートセンシングは多岐にわたる応用分野で重要であり，正確な画像分類技術が不可欠である。
- CNNは局所特徴抽出に優れるが，グローバルな文脈情報の把握が課題であった。
- CNNとViTの長所を組み合わせ，冗長な特徴表現による性能ボトルネックを解消する。
- 提案手法は，UC Merced，RSSCN7，MSRSIデータセットにおいてそれぞれ98.10%，94.46%，95.45%の精度を達成した。
- この結果は既存手法を上回り，提案手法の有効性を示している。
- 特に，学習時の計算資源効率が良い点が特徴である。
Link: https://arxiv.org/abs/2603.05844
Cog2Gen3D：3Dセマンティック・幾何学的認知の彫刻による3D生成 [cs.CV]目的：3D生成のための3Dセマンティック・幾何学的認知
- 2D画像生成は進歩したが，3D生成は空間的制約の欠如により困難である。
- 既存手法は相対的な関係性しかモデル化できず，絶対的な幾何学の一貫性に問題がある。
- セマンティック情報と絶対幾何学に基づく3D認知により，制御可能な3D生成を目指す。
- 提案手法Cog2Gen3Dは，セマンティック・幾何学的表現を組み合わせた3D認知グラフを用いて3D生成を制御する。
- 3D認知グラフは，生成される3Dモデルの物理的妥当性と構造的合理性を保証する。
- Marble World Labsのデータセットを用いた実験により，既存手法を大きく上回る性能を示す。
Link: https://arxiv.org/abs/2603.05845
VS3R：深層3D再構成によるロバストなフルフレームビデオ安定化 [cs.CY, cs.HC, cs.CV]目的：ビデオ安定化のための新たなフレームワーク
- ビデオの品質向上に不可欠であり，視聴体験を大きく左右する技術である。
- 従来の技術では，安定性とフレーム全体の整合性の両立が困難であった。
- 極端な動き下でも安定し，高品質なフルフレームビデオを実現すること。
- VS3Rは，フィードフォワード3D再構成と生成ビデオ拡散を組み合わせたフレームワークである。
- カメラパラメータ，深度，マスクを同時に推定することで，あらゆる状況下での信頼性を確保する。
- Dual-Stream Video Diffusion Modelにより，隠れた領域を復元し，アーティファクトを修正することで，高画質を実現する。
Link: https://arxiv.org/abs/2603.05851
現在の音声ディープフェイク検出手法は現実世界でどの程度汎化するか [cs.SD]目的：音声ディープフェイク検出手法の現実世界での汎化性能評価
- 音声合成技術の進歩により，偽造音声の自然性が向上し，識別が困難になっている。
- SNS上の圧縮や伝送処理が偽造音声の痕跡を隠蔽し，検出を複雑にしている。
- 現実環境における信頼性の高い検出を可能にする評価基準の必要性に対応する。
- 多言語対応のデータセットML-ITWを構築し，14言語，7プラットフォーム，180人の著名人を含む。
- 既存の検出手法は，多様な言語や現実世界の音響条件下で性能が大幅に低下することが示された。
- 本研究で構築したML-ITWデータセットは公開されており，今後の研究に貢献する。
Link: https://arxiv.org/abs/2603.05852
経験に基づく自己スキル発見による医療画像診断支援エージェントの進化 [cs.AI, cs.CV]目的：医療画像診断支援エージェントにおける自己スキル発見と進化のメカニズム
- 医療画像診断は，専門知識とツールを組み合わせた多段階プロセスであり，高度なAI支援が求められている。
- 従来のAIシステムはツールや手順が固定されており，現実世界の変動や多様な診断ニーズに対応しにくい。
- 本研究では，経験に基づき自動的に有用なツールシーケンスを発見・合成し，自己進化するエージェントを提案する。
- 提案手法MACROは，実行履歴から有効なツールシーケンスを自律的に発見し，再利用可能な複合ツールとして登録する。
- 画像特徴メモリとGRPO様の学習ループにより，複合ツールの信頼性の高い実行を強化し，自己改善を実現する。
- 多様な医療画像データセットにおける実験により，提案手法が既存手法を上回り，汎化性能が向上することが示された。
Link: https://arxiv.org/abs/2603.05860
TumorChain：臨床腫瘍分析のための相互接続マルチモーダルChain-of-Thought推論 [cs.HC, cs.CV]目的：臨床腫瘍分析における，発見から印象，病理予測に至るまでの推論プロセス
- 腫瘍分析は，早期発見や精密な病変特性評価に不可欠であり，診断と治療計画を左右する。
- 画像所見から臨床的印象，病理学的結論への解釈において，透明性と誤診のリスク軽減が課題である。
- マルチモーダル推論を通じて，腫瘍分析の信頼性と解釈可能性を高めることを目指す。
- TumorCoTという大規模データセットを構築し，画像，テキスト，病理データの整合性を評価可能とした。
- TumorChainは，3D画像エンコーダ，臨床テキスト理解，視覚言語アライメントを統合し，反復的な推論を実現した。
- 病変検出，印象生成，病理分類において，既存手法を上回る性能を示し，汎化能力も確認された。
Link: https://arxiv.org/abs/2603.05867
PatchCue：パッチベースの視覚的手がかりによる視覚言語モデルの推論能力の向上 [cs.RO, cs.CV]目的：視覚言語モデルの推論能力向上
- 視覚言語モデルは，マルチモーダルな理解と推論において目覚ましい進歩を遂げている。
- 従来のCoTなどの推論方法は，テキスト情報に依存し，視覚的手がかりを十分に活用できていない。
- パッチレベルでの視覚的手がかりを提供することで，より効果的な視覚的推論を可能にすること。
- PatchCueは，画像をパッチに分割し，パッチレベルで手がかりを表現することで，人間の知覚習慣と整合性がある。
- PatchCueは，様々な視覚言語モデルとベンチマークで性能が向上し，特にパッチレベルの視覚的手がかりは，ピクセルレベルや点ベースの手がかりよりも優れていることが示された。
- 二段階の学習アプローチ（教師ありファインチューニングと強化学習）により，PatchCueは中間的な視覚的推論ステップを効果的に誘導する。
Link: https://arxiv.org/abs/2603.05869
重み空間からメモリ空間への適応シフト：医療画像セグメンテーションのためのメモリ拡張エージェント [cs.CV]目的：医療画像セグメンテーションにおける適応能力の向上
- 医療画像セグメンテーションは臨床ワークフローにおいて不可欠であり，診断精度向上に貢献する。
- 単一のデータセットで学習したモデルは，異なる機関や患者間での汎化性能が課題となる。
- 本研究は，重み更新ではなくメモリ更新により適応を実現し，汎化性能と効率性を高める。
- 提案手法MemSeg-Agentは，固定されたバックボーンに軽量なメモリを組み込み，エージェントコントローラーで動的に構成する。
- 分散学習においては，モデルパラメータではなくコンパクトなメモリユニットを更新することで，通信オーバーヘッドを大幅に削減する。
- 実験結果から，静的メモリのみで既存手法と同等以上の性能を示し，テスト時メモリにより更なる性能向上が確認された。
Link: https://arxiv.org/abs/2603.05873
ビデオ場所認識のための新規視点合成の系統的評価 [cs.CV, cs.RO]目的：ビデオ場所認識における新規視点合成の効果検証
- ロボットナビゲーションにおいて，環境理解と位置推定の精度向上が重要である。
- 異なる視点からの画像データが不足しており，場所認識のロバスト性が低いという課題がある。
- 新規視点合成によって，既存の画像データに多様性を加え，場所認識の性能向上を目指す。
- 少量の新規視点合成画像を追加することで，ビデオ場所認識の精度が向上することが示された。
- 大量に追加する場合，視点変化の大きさよりも，追加画像の数やデータセットの特性が重要であることが分かった。
- ５つの公開VPRデータベースと７つの画像類似度評価手法を用いて系統的な評価を行った。
Link: https://arxiv.org/abs/2603.05876
CylinderSplat：円筒状三平面を用いたパノラマ新規視点合成のための3Dガウススプラッティング [cs.CL, cs.CV]目的：パノラマ画像からの新規視点合成
- 没入感のあるVR/AR体験実現に不可欠であり，コンテンツ制作の効率化に貢献する。
- 少ない視点からのパノラマ画像では，オクルージョン解消が難しく，品質劣化が生じやすい。
- 円筒状三平面表現を用いることで，パノラマ画像の構造に適合し，歪みやエイリアシングを軽減する。
- CylinderSplatは，単一視点および複数視点パノラマ新規視点合成において，最先端の結果を達成した。
- 従来の方式よりも再構成の品質と幾何学的精度が向上した。
- 円筒状三平面表現は，パノラマデータとマンハッタンワールドの仮定に適合する。
Link: https://arxiv.org/abs/2603.05882
PixARMesh：自己回帰的メッシュネイティブ単一視点シーン再構成 [cs.CV, cs.GR, cs.LG]目的：単一のRGB画像からの完全な3D屋内シーンメッシュの再構成
- 3Dシーンの理解は，ロボット工学や拡張現実など，幅広い分野で重要である。
- 従来の再構成手法は，暗黙的な符号付き距離場に依存し，後処理が必要であった。
- 単一画像から高品質なメッシュを効率的に生成し，ダウンストリームアプリケーションに活用すること。
- PixARMeshは，オブジェクトのレイアウトとジオメトリを統合的に予測することで，一貫性のある高品質なメッシュを生成する。
- ポイントクラウドエンコーダにピクセルアライメントされた画像特徴とクロスアテンションを導入することで，単一画像からの空間推論を可能にした。
- 合成データセットと実世界データセットにおいて，最先端の再構成品質と軽量なメッシュ生成を達成した。
Link: https://arxiv.org/abs/2603.05888
InnoAds-Composer: Eコマースポスター生成のための効率的な条件合成 [cs.HC, cs.CL, cs.CV]目的：Eコマース製品ポスター生成における効率的な条件合成手法
- Eコマース市場の競争激化に伴い，製品の視覚的な訴求力向上が重要課題となっている。
- 既存手法では，製品，テキスト，スタイルを同時に制御することが難しく，品質や効率に課題がある。
- 製品，テキスト，スタイルを効率的に制御し，高品質なポスターを生成することを目指す。
- InnoAds-Composerは，単一の段階で製品，テキスト，スタイルを制御する効率的なフレームワークである。
- 重要度分析に基づき，条件を最適な位置にのみ適用することで，計算コストを削減している。
- 中国語テキストのレンダリング精度を向上させるためのText Feature Enhancement Module (TFEM)を導入した。
Link: https://arxiv.org/abs/2603.05898
公平かつ解釈可能な画像分類のためのコンセプトボトルネックモデルにおけるバイアス軽減 [cs.CV, cs.LG]目的：画像分類におけるバイアス軽減
- 画像認識技術の社会実装が進む中で，公平性の確保は重要な課題である。
- コンセプトボトルネックモデルは解釈性を高めるものの，バイアスが残存する可能性がある。
- コンセプトボトルネックモデルのバイアスを軽減し，公平性と解釈性の両立を目指す。
- 提案手法は，既存手法と比較して，公平性と性能のトレードオフにおいて優れている。
- トップkコンセプトフィルタ，バイアス概念の除去，敵対的デバイアスが，バイアス軽減に効果的である。
- 本研究は，公平かつ解釈可能な画像分類に向けた重要な一歩となる。
Link: https://arxiv.org/abs/2603.05899
UAV向け小物体検出のためのクロススケールビジョンによる協調マルチバックボーン [cs.CV]目的：UAV画像における小物体検出の精度向上
- UAVの活用拡大に伴い，高解像度画像からの効率的な物体検出が不可欠である。
- 小物体はスケール変化や構造情報の劣化により，従来の検出手法では精度が低下しやすい。
- 構造情報の保持と異種特徴の整合性を重視し，軽量かつ高精度な検出モデルを開発すること。
- 提案手法CollabODは，構造詳細の保持，クロスパス特徴の整合，そして軽量設計により，従来のUAV検出モデルを最適化している。
- これにより，特徴表現の安定性を高め，効率的な推論を維持しつつ，位置推定の頑健性を向上させている。
- 詳細を考慮した統一的な検出ヘッドは，追加の導入コストを発生させることなく回帰のロバスト性を改善する。
Link: https://arxiv.org/abs/2603.05905
幾何学を超えて：没入型2D-to-3Dのための芸術的差異合成 [cs.CV]目的：芸術的に整合性のある奥行き合成
- 映画の臨場感を高める３Ｄ変換技術の重要性が増している。
- 従来の２Ｄ-to-３Ｄ変換は，芸術的な意図を無視し，不自然な結果になりがちである。
- 映画のような芸術的な奥行き効果を再現する新たな手法を提案する。
- 提案手法Art3Dは，大域的な奥行きパラメータと局所的な芸術効果を分離する二重経路アーキテクチャを採用している。
- プロの３Ｄ映画データを用いた間接的な学習により，奥行き合成の精度が向上する。
- 実験の結果，画面外効果の再現や映画の奥行きスタイルへの適合において，有効性が示された。
Link: https://arxiv.org/abs/2603.05906