arXiv雑要約

画像・音声 - 2026/05/12 公開

  • ファインチ grained 画像検索のための生成的な外観事前知識の整合学習 [cs.CV]目的:ファインチ grained 画像検索における汎化性能向上
    • 画像検索は,大量の画像データから目的の画像を効率的に見つけ出す上で重要。
    • 既存手法は,学習済みのカテゴリに偏り,未知のカテゴリへの汎化性能が低い。
    • 外観モデリングを通して,未知カテゴリへの汎化性能を高めることを目指す。
    • 提案手法GAPanは,正規化フローに基づいた可逆密度モデルを使用し,リッチな外観情報を保持。
    • 学習済みのカテゴリの外観事前知識からアンカーを生成し,それを用いて検索埋め込みを整合。
    • 複数のベンチマークにおいて,最先端の性能を達成し,有効性が確認された。

    Link: https://arxiv.org/abs/2605.09859

  • 災害状況のきめ細かい評価のための損傷認識を意識したセグメンテーション手法:DA-SegFormer [cs.CV, cs.LG]目的:自然災害後の迅速かつ正確な被害状況の評価
    • 自然災害発生後の緊急対応において,迅速な被害状況把握は不可欠である。
    • UAV画像における,微細な損傷レベルの識別が困難であり,テクスチャ劣化やクラス不均衡が課題である。
    • 高解像度な災害画像に対応し,損傷認識の精度向上を目指す。
    • DA-SegFormerは,RescueNetデータセットにおいて74.61%のmIoUを達成し,ベースラインを2.55%上回る性能を示した。
    • 特に,軽微な損傷クラスで+11.7%,重大な損傷クラスで+21.3%と,重要な損傷クラスで大幅な改善が見られた。
    • クラスアウェアサンプリングやOHEMとDice Lossの統合により,希少な損傷特徴への露出を保証し,未表現クラスに焦点を当てている。

    Link: https://arxiv.org/abs/2605.09864

  • ConsistNav:意味的実行制御によるゼロショット物体ナビゲーションにおける行動一貫性のギャップの解消 [cs.RO, cs.CV]目的:ゼロショット物体ナビゲーションにおける行動一貫性のギャップの解消
    • ロボットナビゲーションは,実世界での自律的な行動を可能にする基盤技術である。
    • 既存手法では,物体検出後も探索と追跡が不安定になり,成功寸前に放棄される問題がある。
    • 意味的な証拠の一貫性を維持し,持続的なコミットメントを促すことで,ナビゲーションの成功率向上を目指す。
    • ConsistNavは,意味的実行制御に基づき,有限状態機械,持続的候補メモリ,安定性重視のアクション制御を統合する。
    • HM3DおよびMP3Dにおける実験で,既存のゼロショット物体ナビゲーション手法を上回り,MP3DでSRを11.4%,SPLを7.9%改善した。
    • 提案する実行機構の有効性と堅牢性は,消去実験および実世界での展開実験によって実証された。

    Link: https://arxiv.org/abs/2605.09869

  • EgoMemReason:長時間の主観視点ビデオ理解のための記憶駆動型推論ベンチマーク [cs.CV, cs.AI, cs.CL]目的:長期にわたる主観視点ビデオ理解における記憶駆動型推論の評価
    • 次世代のビジュアルアシスタント実現には,長時間の視覚情報処理が不可欠である。
    • 既存の長期ビデオベンチマークは,推論よりも知覚・認識タスクに重点が置かれている。
    • 数日規模の長期記憶を必要とする推論能力の評価と向上を目指す。
    • EgoMemReasonは,エンティティ記憶,イベント記憶,行動記憶の3つの記憶タイプを評価するベンチマークである。
    • 17の既存モデルの評価の結果,全体的な正答率は39.6%にとどまり,長期記憶の課題が残ることが示された。
    • 記憶タイプによって失敗の理由が異なり,証拠期間が長くなるほど性能が低下することが明らかになった。

    Link: https://arxiv.org/abs/2605.09874

  • デカルトの近道:極座標空間における視覚的推論の再評価 [cs.CV, cs.AI]目的:視覚的推論におけるデカルト座標系への依存性
    • 視覚的推論は,AIの知能を測る上で重要な課題である。特に,マルチモーダル大規模言語モデルの性能評価において重要性が増している。
    • 既存の視覚的推論ベンチマークは,直交座標系に偏っており,モデルがテキストによる推論に頼りやすいという問題がある。
    • 極座標系を用いた新たなベンチマークを構築し,モデルがテキストに頼らずに純粋な視覚的推論能力を評価すること。
    • 現在の最先端マルチモーダル大規模言語モデルは,直交座標系のベンチマークで高いスコアを出すが,極座標系では大幅に性能が低下する。
    • 性能低下は,論理的等価性が保たれていても発生し,モデルが直交座標系特有の情報を利用していることが示唆される。
    • これらの結果は,現在のモデルがトポロジー不変な視覚的推論能力を欠いていることを示している。

    Link: https://arxiv.org/abs/2605.09883

  • 双曲線蒸留:ロバストな3D物体検出のための幾何学誘導型クロスモーダル転移 [cs.CV, cs.AI]目的:3D物体検出におけるクロスモーダル知識蒸留による性能向上
    • 3D知覚技術は,自動運転やロボティクスなど幅広い分野で不可欠である。
    • 点群と画像の特徴を効果的に統合することが,クロスモーダル蒸留の課題となっている。
    • モダリティ間の不均一性,空間的ずれ,多次元表現の損失を軽減することを目指す。
    • 提案手法HGC-Detは,画像と点群の特徴を効率的に融合する新しいフレームワークである。
    • 双曲線幾何学に基づき,高次元画像特徴と低次元点群特徴間のセマンティック損失を緩和する。
    • SUN RGB-D,ARKitScenes,KITTI,nuScenes等のデータセットで,検出精度と計算コストのバランスが向上した。

    Link: https://arxiv.org/abs/2605.09899

  • VLMsにおける難題:図式的な結び目推論を困難なベンチマークとして [cs.AI, cs.CL, cs.CV]目的:視覚言語モデルの結び目図形に対する推論能力の評価
    • 視覚言語モデルの発展は,画像とテキストの理解を統合する上で重要である。
    • 現在の視覚言語モデルは,図形を認識できても,その構造に基づいた推論が苦手である。
    • 結び目図形という複雑な構造を用いて,視覚言語モデルの推論能力の限界を明らかにする。
    • KnotBenchは1951種類の結び目図形から生成された858,318枚の画像データセットである。
    • Claude Opus 4.7とGPT-5に対して,14種類のタスクを用いて評価を行った結果,多くのケースでランダムベースラインを下回った。
    • 思考モードによる推論は,モデル全体の精度を向上させたものの,パフォーマンスのギャップを大幅に縮小するには至らなかった。

    Link: https://arxiv.org/abs/2605.09900

  • プログレッシブ解像度処理と適応的特徴量アラインメントによるMLLMに対する敵対的攻撃 [cs.CV]目的:マルチモーダル大規模言語モデル(MLLM)の堅牢性評価
    • 自動運転や医療診断など安全性が重要な場面で,MLLMの誤認識は深刻なリスクをもたらすため,その堅牢性を検証することは不可欠である。
    • 既存の転移ベース攻撃法は,最終層の特徴量に依存し,解像度の異なるターゲット画像への適用が困難であり,転移性とロバスト性に課題がある。
    • 中間層の特徴量アラインメントとプログレッシブ解像度処理により,MLLMの転移性とロバスト性を向上させる。
    • 提案手法PRAF-Attackは,複数スケールのグローバルな意味的ガイダンスと,ロバストな中間層ローカルアラインメントを統合した転移ベース攻撃フレームワークである。
    • 適応的な中間層選択メカニズムとパッチレベル最適化戦略により,転移可能な特徴量を効率的に活用し,高い相関を持つローカル領域を保持する。
    • 多様なMLLM(オープンソース6モデル,商用API6種)における実験で,PRAF-Attackは既存の最先端攻撃手法と比較して,優れた転移性を示した。

    Link: https://arxiv.org/abs/2605.09902

  • TOC-Bench:ビデオ大規模言語モデルのための時間的オブジェクト一貫性ベンチマーク [cs.CV]目的:ビデオ大規模言語モデルにおける時間的オブジェクト一貫性の評価
    • ビデオ理解の分野は,現実世界の複雑な状況を扱う上で不可欠であり,AIの応用範囲を広げる。
    • 既存のベンチマークでは,オブジェクトの特定や時間的な連続性の維持という,より詳細な評価が不足している。
    • 時間的オブジェクト一貫性の問題を診断し,ビデオ大規模言語モデルの弱点を明らかにすること。
    • TOC-Benchは,オブジェクトの軌跡と時間的イベントタイムラインに基づいた,時間的オブジェクト一貫性評価に特化したベンチマークである。
    • ベンチマーク構築のために,言語的な先入観や単一フレームの情報に依存しないよう,時間的必要性フィルタリングプロトコルを導入した。
    • 実験の結果,現在のビデオ大規模言語モデルは,イベント数,順序,オブジェクト識別,幻覚への対応において課題を抱えていることが示された。

    Link: https://arxiv.org/abs/2605.09904

  • まず分離し,後で融合する:オーディオビジュアルLLMの推論におけるクロスモーダル干渉の軽減 [cs.AI, cs.SD]目的:オーディオビジュアル質問応答におけるクロスモーダル干渉の軽減
    • 聴覚と視覚は互いに補完的な情報を提供する。複雑な推論や判断には両方の情報が不可欠である。
    • 現在のオーディオビジュアルLLMでは,一方のモダリティの情報が他方の解釈を誤らせるクロスモーダル干渉が問題となっている。
    • モダリティ固有の思考連鎖を適用し,干渉を抑制することで,より正確でロバストな推論を実現する。
    • 提案手法SFFLは,モダリティごとに独立した思考連鎖を生成し,段階的に情報を統合することでクロスモーダル干渉を軽減する。
    • 強化学習を用いてモダリティの優先度を学習させ,入力に応じて適切なモダリティの情報を活用する。
    • AVQAベンチマークにおいて,平均相対的な性能向上率が5.16%であり,クロスモーダルな幻覚ベンチマークでは11.17%の向上が確認された。

    Link: https://arxiv.org/abs/2605.09906

  • うつ病と不安症の音声バイオマーカー [cs.LG, cs.AI, cs.SD]目的:うつ病と不安症の検出における深層学習モデルの開発
    • 精神疾患の早期発見・診断は,患者のQOL向上と医療費削減に不可欠である。
    • 従来の音声分析は特徴量エンジニアリングに依存し,高精度なバイオマーカー抽出が困難であった。
    • 大規模データを用いた深層学習により,よりロバストで臨床的に有用なバイオマーカーを抽出すること。
    • 提案モデルは,内容に依存しないバイオマーカー情報を抽出可能であり,音声からの語彙特徴量と組み合わせることで予測性能が向上する。
    • 約5000人の被験者を用いた評価において,感度と特異度ともに71%の性能を達成した。
    • 本研究で開発したモデルをHuggingFaceで公開し,精神保健評価研究の発展に貢献する。

    Link: https://arxiv.org/abs/2605.09908

  • SAMを用いた周波数アダプターによる汎化医療画像セグメンテーション [cs.CL, cs.CV]目的:汎化医療画像セグメンテーションの性能向上
    • 医療画像セグメンテーションは,診断と治療計画において不可欠なタスクである。
    • 異なるデータセット間でのドメインシフトが問題となり,モデルの汎化性能を低下させている。
    • 周波数領域の特徴表現を取り入れ,ドメインシフトの影響を軽減し,汎化性能を高めることを目指す。
    • 提案手法FSAMは,効率的なファインチューニングと周波数アダプターを統合し,SAMのセグメンテーションのロバスト性を向上させる。
    • FSAMは,ドメイン不変な高周波特徴を抽出し,周波数に関連するドメインシフトを軽減する。
    • 実験結果から,FSAMが既存のDG手法およびSAMベースのDG手法よりも優れた汎化性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.09925

  • 紛争制約下における公平な割り当て [cs.GT]目的:紛争制約下における分割不可能なアイテムの公平かつ効率的な割り当て
    • 資源配分は,社会や経済における基本的な課題であり,公平性と効率性の両立が重要である。
    • アイテム間に制約がある状況下での公平な割り当ては,困難な問題である。
    • 本研究は,アイテム間の紛争制約を考慮した公平な割り当ての実現可能性と計算複雑性を明らかにする。
    • 2人のエージェントの場合,単調な評価関数に対しては,常に最大かつEF1を満たす割り当てが存在することが示された。
    • エージェント数が3人以上の場合,同一の単調な評価関数であっても,最大かつEF1を満たす割り当てが存在しないことが示された。
    • 同一の非単調な加法評価関数とパスグラフにおいては,最大かつEF[1,1]を満たす割り当てが常に存在することが示された。

    Link: https://arxiv.org/abs/2605.09930

  • 不確実性に基づいたアクティブ学習による合成顔検出のためのエビデンスに基づく決定モデリング [cs.CL, cs.CL, cs.CV, cs.CR]目的:合成顔検出における信頼性と汎化性能の向上
    • 深層生成モデルの発展に伴い,合成顔画像による不正利用が深刻化しているため,高精度な検出技術が求められる。
    • 既存手法はSoftmax関数に依存し,未知の画像に対して過信傾向があり,不確実性の評価が困難である。
    • 不確実性を考慮したモデル構築と,アクティブ学習によるアノテーションコスト削減を通じて,検出性能と汎化性能を向上させる。
    • 提案手法EMSFDは,Dirichlet分布を用いてクラスエビデンスをモデル化し,予測過程にモデルの不確実性を明示的に組み込む。
    • 推定された不確実性を活用し,アノテーションの優先順位付けを行うことで,ラベルコストを削減し,モデルの汎化性能を向上させる。
    • 実験結果から,提案手法は最先端手法と比較して15%の精度向上を示し,合成顔検出の解釈可能性を高めることが示された。

    Link: https://arxiv.org/abs/2605.09935

  • 都市イメージネット:都市空間知覚のための大規模マルチモーダルデータセットと評価フレームワーク [cs.CV, cs.IR, cs.LG]目的:都市空間知覚に関する大規模なマルチモーダルデータセット及び評価基準
    • 都市の形態や機能は社会活動に影響を与え,都市計画や社会科学の研究において重要である。
    • 既存のデータセットは都市空間の多様性や社会的な文脈を十分に捉えられていない場合が多い。
    • 都市空間に関するAIの知覚能力を評価し,都市研究に貢献できる基盤を構築すること。
    • 本研究では,200万人以上のソーシャルメディア画像とテキストを含む「Urban-ImageNet」を構築した。
    • 構築したデータセットを用いて,画像認識,画像とテキストの関連付け,インスタンスセグメンテーションの3つのタスクを評価した。
    • 大規模なデータセットを用いることで,AIモデルの都市空間知覚能力が向上することを示した。

    Link: https://arxiv.org/abs/2605.09936

  • 戦略的相互作用と不確実性リスクに配慮したゲームによるロバストな選好学習 [cs.GT]目的:大規模言語モデルの選好に基づくファインチューニングにおけるロバスト性の向上
    • 言語モデルの性能向上には,人間のフィードバックが不可欠であり,その効率的な活用が求められている。
    • 従来の選好学習手法は,平均的なパフォーマンスに偏重し,特定のデータ分布における潜在的な脆弱性を見過ごす可能性がある。
    • 不確実性リスクを考慮したゲーム理論的アプローチにより,データ分布全体でのロバスト性を実現することを目指す。
    • リスク感度のある選好ゲームを導入し,選好損失のリスク尺度を最適化することで,モデルの安定性と性能を向上させた。
    • リスク尺度変換の構造的バイアス,リスク推定の統計的バイアス,リスクに特化した集中化への同時的な制御が,効率的な学習に重要であることが示された。
    • 提案手法は,データ層間でロバストであり,リスク選択に対して安定しており,リスク中立的なパフォーマンスと同等またはそれ以上の結果を達成した。

    Link: https://arxiv.org/abs/2605.09946

  • LoopVLA:ビジョン言語行動モデルにおける反復的な洗練による十分性の学習 [cs.AI, cs.CV, cs.RO]目的:ビジョン言語行動モデルにおける表現の洗練,行動予測,および十分性の推定の同時学習
    • ロボット操作は精密な制御に不可欠な幾何学的情報を含むため,効率的な計算が重要である。
    • 既存モデルは,深層表現を最適とみなすため,低レベルの情報を失い,無駄な計算となる場合がある。
    • 表現が行動予測に十分であるかを判断し,不要な計算を削減すること。
    • LoopVLAは,マルチモーダルトークンを反復的に洗練し,各ステップで行動候補と十分性スコアを出力する。
    • パラメータを45%削減し,推論スループットを最大1.7倍向上させながら,タスク成功率を既存モデルと同等または上回る。
    • 十分性の学習に直接的な教師信号がないため,中間的な信頼度スコアをアクション品質に合わせる自己教師あり分布整合目的を導入する。

    Link: https://arxiv.org/abs/2605.09948

  • JODA:関節を持つ物体の構成可能な関節動力学 [cs.RO, cs.CV]目的:関節を持つ物体の動力学的挙動の生成と制御
    • シミュレーションや具現化されたAIにおいて,現実的な挙動を再現するには,動力学的効果が重要である。
    • 従来のシミュレーションでは,詳細な動力学構造が考慮されておらず,表現力に限界があった。
    • JODAは,多様な関節挙動をモデル化するための統合的なインターフェースを提供する。
    • JODAは,関節の自由度に対する構造化された三チャンネル場として関節レベルの動力学を生成するフレームワークである。
    • 視覚的観察と関節の文脈に基づいて,ビジョン言語モデルが構造化された動力学的プリミティブを提案し,それらを統合する。
    • その結果,直接操作と勾配ベースの改良の両方をサポートし,多様な関節挙動のモデル化を可能にする。

    Link: https://arxiv.org/abs/2605.09954

  • SDTalk:構造化された顔面事前知識と二分岐モーションフィールドによる汎用的なガウス型トークングヘッド合成 [cs.CL, cs.CV, cs.AI]目的:汎用的なガウス型トークングヘッド合成のための手法
    • リアルタイムなトークングヘッド合成は,コンピュータビジョンの重要な課題である。
    • 既存手法は特定の個人に依存するため,個人を跨いだ汎化性能が低い。
    • 未知の個人に対しても,個別学習や微調整なしに適用可能な手法を開発する。
    • SDTalkは,構造化された顔面事前知識と二分岐モーションフィールドを導入することで,高画質かつ効率的なトークングヘッド合成を実現した。
    • 提案手法は,単一画像からの完全な頭部再構成と,詳細な表情および唇の同期性を向上させた。
    • 実験により,SDTalkが既存手法よりも優れた視覚品質と推論効率を示すことが確認された。

    Link: https://arxiv.org/abs/2605.09956

  • 「どこ」の知覚学習:ロバストな自己教師あり学習のための空間的仮定タスク [cs.CV]目的:視覚シーンにおける空間構造とオブジェクト部分の関連性の学習
    • 画像認識の性能向上には,オブジェクトの本質的な特徴だけでなく,それらの空間的な配置が重要である。
    • 既存の自己教師あり学習手法は,オブジェクト不変な表現に偏りがちで,空間構造の理解が不足している。
    • 視覚シーンの構成構造を捉え,よりロバストな表現学習を可能にするための空間的推論能力の獲得。
    • 提案手法Spatial Prediction (SP) は,画像内の部分間の相対的な位置とスケールを予測することで,空間的な依存関係を捉える。
    • SPは様々な自己教師あり学習フレームワークに容易に組み込むことができ,画像認識,セマンティックセグメンテーション等の多様なタスクで性能向上を示した。
    • 空間推論タスクにおける高い性能は,SPが空間構造と幾何学的認識能力を向上させることを示唆している。

    Link: https://arxiv.org/abs/2605.09963

  • 汎用型ゲームプレイヤーへ向けて:ゲームマルチバースにおける基盤モデルの調査 [cs.CV]目的:汎用型ゲームプレイヤーの育成と評価に関する基盤モデルの可能性
    • 人間は単一の物理法則のもとで,多様なルールを持つゲームに応用できる。その能力は汎用知能の重要な特徴である。
    • 現在のAIは特定のゲームに特化しやすく,異なるゲームへの汎用性に課題がある。
    • ゲームマルチバースを舞台に,単一ゲームの習熟からゲーム世界創造まで可能な汎用エージェントの実現を目指す。
    • 本研究は,データセット,モデル,ハarness,ベンチマークの4つの要素から汎用型ゲームプレイヤーのライフサイクルを包括的に捉えている。
    • 現在のシステムを制約する5つのトレードオフを打破するための進歩を分析し,単一ゲームの習熟から創造段階への5段階のロードマップを提示する。
    • ゲームマルチバースにおけるあらゆる課題を克服できる,汎用的なエージェントへの道筋を示すことで,AGI実現に貢献する。

    Link: https://arxiv.org/abs/2605.09965

  • HiDrive:高度自律運転のための閉ループベンチマーク [cs.RO, cs.CV]目的:高度自律運転のためのベンチマーク開発
    • 自動運転技術は社会実装へ向かっているが,安全性評価は不可欠である。
    • 既存ベンチマークは性能飽和しており,実世界での課題を十分に評価できていない。
    • HiDriveは,珍しい状況や高度な判断能力を評価することで,この課題を解決する。
    • HiDriveは,多様な珍しい物体と交通状況を含む新しい閉ループベンチマークである。
    • 評価項目を,基本的な運転スキルから交通ルール遵守,倫理的判断,緊急時の対応へと拡張した。
    • 高度な物理エンジンにより,現実的な環境で自律運転システムの性能を評価できる。

    Link: https://arxiv.org/abs/2605.09972

  • OZ-TAL:オンラインゼロショット時系列行動定位 [cs.CV]目的:未学習の行動のオンライン時系列定位
    • 動画理解において,行動認識は重要な課題であり,監視やロボット工学などに応用が期待される。
    • 既存手法は特定のドメインに特化し,未知の行動や動画への汎化性能が低いという課題がある。
    • 未知の行動であっても,オンラインで正確に定位できる手法を開発し,汎化性能の向上を目指す。
    • 本研究では,Vision-Language Modelsを活用した学習不要なフレームワークを提案し,視覚表現の強化とバイアスの軽減を実現した。
    • THUMOS14とActivityNet-1.3を用いた実験により,提案手法が既存手法を大幅に上回る性能を示すことを実証した。
    • オフラインおよびオンラインのゼロショット設定において,最先端の結果を達成した。

    Link: https://arxiv.org/abs/2605.09976

  • INFANiTE:臨床用厚切断MRIからの高解像度胎児脳時空間アトラス学習のための暗黙的ニューラル表現 [cs.CV]目的:高解像度胎児脳時空間アトラスの構築
    • 胎児期の神経発達を理解し,先天性異常を検出する上で,時空間アトラスは不可欠である。
    • 従来法では,スライスからボリュームへの再構成やボリューム登録に多大な時間を要し,大規模コホートでのアトラス構築が困難であった。
    • 高解像度アトラスを迅速に構築し,大規模な胎児脳解析を可能にすること。
    • INFANiTEは,従来の3Dボリュームベースパイプラインと比較して,アトラス構築時間を日数から数時間に短縮した。
    • 既存手法と比較して,主観間一貫性,参照忠実度,内在的品質,生物学的妥当性において優れた性能を示した。
    • 特に,データが乏しい場合でも,高い性能を維持することが確認された。

    Link: https://arxiv.org/abs/2605.09977

  • ERASE:適応型二段階トークン刈り込みによる冗長な視覚トークンの排除 [cs.CV]目的:視覚トークンの冗長性排除
    • 画像と言語を連携するモデルの高性能化には高解像度画像の処理が不可欠である。
    • 高解像度画像処理に伴い,視覚トークン数が増加し,計算コストが課題となっている。
    • 画像の内容に応じて刈り込み戦略を適応的に調整することで,計算コストを削減する。
    • ERASEは,画像複雑度に応じた適応的な二段階トークン刈り込みにより,視覚トークンを大幅に削減する。
    • Qwen2.5-VL-7Bにおいて,85%のトークン刈り込み率で,元のモデル精度の89.46%を維持する。
    • 既存手法と比較して,精度劣化を抑制し,高い性能を示す。

    Link: https://arxiv.org/abs/2605.09982

  • 幾何学的4次元スティッチングによる,実世界に基づく4次元生成 [cs.CV, cs.AI, cs.LG]目的:実世界に基づく4次元生成における幾何学的整合性の向上
    • 4次元生成は,現実世界のシーンを再現する上で重要であり,新たな視点からの体験を可能にする。
    • 既存手法では,生成されたコンテンツに幾何学的な不整合が生じやすく,最適化にもコストがかかる。
    • 幾何学的な整合性を明示的に確保し,効率的な4次元シーン生成を実現することを目指す。
    • 提案手法である幾何学的4次元スティッチングは,不足している幾何学的領域を特定し,幾何学的に整合性の取れた4次元スティッチングで補完する。
    • 単一のNVIDIA RTX 5090 GPUで,ワンステップのシーン拡張に10分未満で4次元シーン表現を構築できる。
    • この明示的な4次元スティッチングは,4次元メッシュの反復的な拡張や,4次元シーンの編集をサポートする。

    Link: https://arxiv.org/abs/2605.09984

  • 資源配分ゲームとその均衡戦略 [cs.GT]目的:資源配分における均衡戦略の解析
    • 資源配分は,経済学,経営学,社会科学において基本的な課題であり,効率的な資源利用に不可欠である。
    • 既存の研究では,プレイヤーの戦略が固定されている場合が多く,動的な戦略変化に対応できない場合がある。
    • 本研究では,プレイヤーの需要に応じて戦略が変化するような,より現実的な資源配分ゲームを分析する。
    • 2人ゲームにおいて,均衡戦略は,恒等関数,共通のスイッチポイントを持つAIF関数,あるいは1つと3つのスイッチポイントを持つAIF関数として特定された。
    • 大規模ゲームでは,平均場近似とガウス近似を用いて均衡戦略関数を導出した。一次近似では,1つのスイッチポイントを持つAIF関数が得られた。
    • ガウス近似では,勾配衝突条件が発生した場合,プレイヤーが連続的に戦略を変化させるチャタリング領域が存在することが示された。

    Link: https://arxiv.org/abs/2605.09988

  • ステレオポリシー:ステレオ視覚によるロボット操作ポリシーの改善 [cs.RO, cs.CV]目的:ロボット操作ポリシーの改善
    • ロボットの視覚による模倣学習の進展は目覚ましいが,奥行き情報の欠如が課題である。
    • 単眼視覚では,奥行きや空間認識が不十分であり,複雑な環境下での正確な操作が困難である。
    • ステレオ視覚を活用することで,3次元幾何学的理解を強化し,ロボット操作の精度向上を目指す。
    • ステレオポリシーは,ステレオ画像ペアを直接活用し,3D再構成やキャリブレーションを必要としない。
    • シミュレーションベンチマーク(RoboMimic,RoboCasa,OmniGibson)において,RGB,RGB-D等の既存手法を上回る性能を示した。
    • 実機実験においても,卓上操作や二足歩行操作を含む多様なタスクで有効性が確認された。

    Link: https://arxiv.org/abs/2605.09989

  • オムニペルソナ:多種多様なモデルの体系的なベンチマークと改善 [cs.CL, cs.CV]目的:多種多様なモデルのパーソナライズに関する包括的なベンチマーク
    • テキスト,画像,音声を含む多種多様なモデルの活用が重要視されている。
    • 多種多様なモデルにおけるパーソナライズ研究は,画像とテキストに偏っており,厳密な評価方法が不足している。
    • テキスト,画像,音声を含む多種多様なモデルのパーソナライズにおける課題を明確化し,改善を促す。
    • 本研究で開発された「オムニペルソナ」ベンチマークにより,オープンソースモデルの音声と画像におけるグラウンディングのギャップが明らかになった。
    • 回答可能なリコールやパラメータ規模だけでは十分な評価とはならず,キャリブレーションが独立した評価軸として重要であることが示された。
    • SFTは大規模な注釈付きデータの構築に制約される一方,RLVRは結果レベルでの検証可能なフィードバックにより,より一貫して汎化するものの,保守的な行動と生成品質の低下が見られた。

    Link: https://arxiv.org/abs/2605.09996

  • Med-StepBench:医療画像と言語モデルにおける幻覚評価のための階層的推論フレームワーク [cs.CV]目的:医療画像と言語モデルにおける幻覚検出の段階的評価
    • 医療現場におけるAIの活用が進む中,診断精度と安全性の確保が不可欠である。
    • 既存の評価指標では,画像局在と異常認識の妥当性を十分に検証できていない。
    • 多段階の臨床推論における幻覚の原因を特定し,より安全なモデル開発を促進する。
    • Med-StepBenchは,3D PET/CT画像と2D画像を含む12,000以上の画像と100万以上の画像-文ペアから構成される大規模なベンチマークである。
    • 汎用および医療VLMsの段階レベルの評価を実施した結果,既存モデルが臨床的に妥当な説明に影響されやすいことが明らかになった。
    • 本研究は,多段階の臨床推論における根拠付けの限界を明らかにし,安全で信頼性の高い医療VLMs開発のための厳格な評価基準を提示する。

    Link: https://arxiv.org/abs/2605.10002

  • Hystar:ハイパーネットワーク駆動によるスタイル適応型検索 - 動的SVD変調による [cs.CV]目的:多様なクエリスタイルに対応した画像検索の性能向上
    • 画像検索は,コンテンツベースの画像アクセスにおいて重要な役割を担う。
    • 既存手法は,未知のクエリスタイルに対する分布シフトに弱く,汎化性能が課題である。
    • クエリのスタイルに応じてモデルを動的に適応させ,ロバストな画像検索を実現すること。
    • Hystarは,ハイパーネットワークを用いて注意層の特異値摂動を生成し,入力ごとに柔軟な適応を行う。
    • MLP層には静的な特異値オフセットを適用することで,スタイル間の安定性を確保する。
    • StyleNCE損失関数により,異なるスタイル間でのセマンティックな混乱を軽減し,検索精度を向上させている。

    Link: https://arxiv.org/abs/2605.10009

  • 元素錬金術師:抽象レベルに応じたパーティクルシステムの意味的制御のための生成インタフェース [cs.HC, cs.GR]目的:パーティクルシステムの意味的編集のための文脈化された制御
    • デジタルストーリーテリングにおいてVFX編集は不可欠であり,視覚的な魅力を高める上で重要である。
    • 多次元性のため,パーティクルシステムは制御が難しく,芸術的な意図を反映した結果を得ることが困難である。
    • ユーザーの意図を反映した制御を可能にし,パーティクルシステムのパラメータ調整を支援することを目的とする。
    • 本システムは,シーンの文脈に基づいてツールを生成する文脈的ブラシパレットと,関連する技術パラメータを提示する生成的制御パネルを導入する。
    • 評価の結果,初心者および熟練VFXアーティストの両方が,本システムを用いて高レベルな創造的目標をパーティクルシステムパラメータに変換できることが示された。
    • これにより,ユーザーはパラメータの体系的な理解なしに,パーティクルシステムを意図通りに編集できるようになった。

    Link: https://arxiv.org/abs/2605.10014

  • MUSDA:複数ソース・複数モダリティを用いた教師なしドメイン適応による自律走行用3D物体検出 [cs.CV]目的:複数ソース・複数モダリティにおける3D物体検出のためのドメイン適応
    • 自動運転技術の発展に伴い,高精度な物体検出が不可欠である。
    • 既存のドメイン適応手法は単一ソースまたは単一モダリティに限定され,実用性に課題がある。
    • 複数ソース・複数モダリティデータを活用し,注釈コストを削減する。
    • 提案手法は,カメラとLiDARの情報を統合し,複数のソースドメインからの予測を効果的に融合する。
    • Waymo,nuScenes,Lyftのデータセットで,最先端手法を上回る性能を実証した。
    • 階層的空間条件付きドメイン分類器とプロトタイプグラフ重み付き多ソース融合戦略が有効である。

    Link: https://arxiv.org/abs/2605.10026

  • AlphaEarth Foundationsを用いたスラム検出と密度マッピング:12都市における表現学習の評価 [cs.CV]目的:スラム検出とサブピクセル密度推定
    • 都市のスラムの存在は,貧困,健康問題,社会不安と密接に関連し,持続可能な都市開発の重要な課題である。
    • 従来のスラムマッピングは,都市間での汎化性,連続的な密度推定,グローバルな比較可能性に課題があった。
    • 本研究は,AlphaEarth Foundationsの有効性を評価し,スラムモニタリングにおける潜在能力と課題を明らかにすることを目指す。
    • 同一都市の年次間での学習が最適な結果を示し,空間的F1スコアの中央値は0.616,R^2は0.466であった。
    • 回帰のR^2は,ゼロ/非ゼロ境界の識別によって主に駆動され,ピクセル内密度勾配のモデリング能力には限界があることが示された。
    • POI特徴量は最大の密度向上をもたらし(Delta R^2 = +0.064),デュアルタスクの有用性閾値を満たす6都市で,2017年から2024年までの全AOI推論においてスラムクラスター構造が維持された。

    Link: https://arxiv.org/abs/2605.10029

  • 一度だけ学習:不確実性を考慮した顔認証真偽判定のためのワンクラス学習 [cs.CV]目的:顔認証における真偽判定
    • 生成技術の進歩により,精巧な偽画像が容易に作成可能となり,なりすましや偽情報拡散のリスクが増大している。
    • 既存手法は二値分類問題を前提としており,未知の生成モデルによる偽造画像に対して性能が低下しやすい。
    • 本研究は,ワンクラス分類という新たなアプローチにより,汎用的な顔偽造検出フレームワークを確立する。
    • FADNetは,本物の顔データのみを用いて学習することで,その特徴表現を捉え,逸脱した画像を偽造と判定する。
    • Evidential Deep Learningにより予測の不確実性を定量化し,疑似偽造画像生成器を用いて本物データの識別境界を強化する。
    • DF40およびASFDベンチマークにおいて,FADNetは既存最先端手法を凌駕し,平均精度96.63%と平均適合率98.83%を達成した。

    Link: https://arxiv.org/abs/2605.10040

  • 段階認識RoPEリマッピングによる視覚自己回帰モデルにおける解像度外挿 [cs.CV]目的:視覚自己回帰モデルにおける解像度外挿の課題解決
    • 画像生成において,拡散モデルに代わる有力な手法として視覚自己回帰モデルが注目されている。
    • 視覚自己回帰モデルは学習時の解像度に制限されており,高解像度画像を直接生成することが困難である。
    • 段階認識RoPEリマッピングにより,解像度外挿時の反復,局所的な反復,詳細の劣化を抑制する。
    • 本研究では,各周波数帯に段階特有のリマッピング規則を適用する訓練不要な戦略を提案した。
    • 画像解像度の上昇に伴い,注意機構が系統的に分散することを確認し,その分散度を定量化する手法を開発した。
    • 提案手法は,構造の一貫性と詳細の忠実度において,既存の外挿手法よりも優れた性能を示すことが実験的に確認された。

    Link: https://arxiv.org/abs/2605.10045

  • ピクセルフローキャスト:潜在空間を用いないピクセル平均フローによる短期降水予測 [cs.CV, cs.LG, cs.MA]目的:短期降水予測の精度と推論効率の向上
    • 気象災害の早期警戒に不可欠であり,高精度な予測が求められている。
    • 拡散モデルは推論に時間がかかり,実用化が困難である。
    • 潜在空間圧縮を用いず,高精度かつ高速な降水予測を実現すること。
    • ピクセルフローキャストは,既存手法と比較して予測精度と推論効率の両方で優れている。
    • 特に長期間の予測において,その効果が顕著に示された。
    • 提案手法は,実運用への導入可能性が高いことが示唆された。

    Link: https://arxiv.org/abs/2605.10046

  • EchoPrune:冗長性を時間的残響と解釈する効率的なVideoLLM [cs.CV]目的:動画LLMにおける効率的な処理
    • 動画理解はLLMの重要な応用分野であり,その発展は多様なタスクの実現に不可欠である。
    • 動画のフレーム間冗長性が高く,高解像度なフレームサンプリングは計算コストを増大させる。
    • 時間的冗長性を考慮したトークン削減により,計算コストを抑えつつ動画理解の性能向上を目指す。
    • 提案手法EchoPruneは,過去フレームからの再構成誤差に基づき冗長なトークンを削減し,時間分解能を維持する。
    • EchoPruneは,LLaVA-OV,Qwen2.5VL,Qwen3VLにおいて,フレーム処理数を最大20倍に向上させた。
    • Qwen2.5VL-7Bでは,性能が8.6%向上し,プレフィリング速度が5.6倍に高速化された。

    Link: https://arxiv.org/abs/2605.10050

  • 生体医用画像における解釈可能性向上のための説明に基づいた学習 [cs.CV]目的:生体医用画像の解釈可能性向上
    • 医療画像診断は重要であり,AIの活用が期待される一方,その判断根拠の透明性が課題である。
    • 既存の深層学習モデルは高い精度を示すものの,根拠不明な特徴に依存し,信頼性が低い場合がある。
    • 学習時に説明可能性を考慮することで,臨床的に意味のある領域への注意を促し,信頼性を高める。
    • 説明損失を学習に組み込むアプローチを提案し,損失の設計や強度と予測性能・説明の忠実性の関係を分析した。
    • アノテーションカバレッジとサリエンス精度という2つの評価指標を導入し,解釈可能性を定量的に評価した。
    • 説明損失係数と説明の質の間にはトレードオフが存在し,統計分析により説明の整合性が向上することが示された。

    Link: https://arxiv.org/abs/2605.10054

  • 拡散合成顔偽装検出と局在化のためのマルチドメインファインチ grained視覚言語再構成 [cs.NI, cs.CV]目的:汎化性能の高い拡散合成顔偽装検出と局在化
    • フォトリアリスティックな顔生成技術の急速な進歩により,社会や学術界で顔偽装検出の重要性が増している。
    • 既存研究では,画像モダリティに焦点を当て,詳細なテキストモダリティの活用が不十分であり,汎化性能が制限されている。
    • 拡散モデルで生成された顔偽装を検出し,局在化するための新しい手法を開発し,汎化性能の向上を目指す。
    • 提案手法であるMFVLRは,言語誘導の顔偽装表現学習を通じて,多様な視覚的偽装痕跡を捉え,優れた性能を発揮する。
    • ファインチ grainedな言語トランスフォーマーとマルチドメイン視覚エンコーダーにより,顔偽装のパターンを効果的に学習する。
    • 様々な評価設定(クロスジェネレーター,クロス偽装,クロスデータセット)において,最先端技術を上回る成果が得られた。

    Link: https://arxiv.org/abs/2605.10071

  • SocialDirector:複数人動画生成のための学習不要な社会的相互作用制御 [eess.SY, cs.SY, cs.CV]目的:複数人動画における社会的相互作用の制御
    • 動画生成技術の発展に伴い,より複雑な社会的相互作用を伴う動画の需要が高まっている。
    • 既存の動画生成モデルでは,誰がどのような行動をとるか,対象は誰かといった相互作用の制御が困難である。
    • SocialDirectorは,動画生成モデルに対し,クロスアテンションマップを調整することで相互作用を制御し,精度の向上を目指す。
    • SocialDirectorは,学習を必要とせずに,既存の動画生成モデルの性能を向上させることが示された。
    • Social Actor Maskingにより,行動主体と行動の不一致や,社会的なダイナミクスの乱れを防ぐことができた。
    • Directional Reweightingにより,行動が意図した対象に向かうよう誘導され,相互作用の正確性が向上した。

    Link: https://arxiv.org/abs/2605.10079

  • 非言語的合図を用いた人間ロボットインタラクションのインタラクション開始検出フレームワーク [cs.HC, cs.RO, cs.CV]目的:人間ロボットインタラクションにおけるインタラクション開始の検出
    • ロボットとの自然なコミュニケーション実現のため,人間が意図するインタラクション開始を正確に捉えることが重要である。
    • 従来のシステムはキーワードに依存しており,より自然なインタラクション開始検出が課題となっていた。
    • 非言語的合図に基づき,キーワードに依存しないインタラクション開始検出フレームワークを構築し,その有効性を検証すること。
    • 提案フレームワークは,音声と視覚センサを融合し,安定した人間検出と追跡を実現する。
    • 話し手とロボットの視線が交わる場合,または一定時間ロボットを見続ける場合にインタラクション開始を検出できる。
    • モバイルロボットを用いた実験により,提案フレームワークの有効性が確認された。

    Link: https://arxiv.org/abs/2605.10087

  • HYPERPOSE:3D人体姿勢推定のための双曲運動学的位相空間アテンション [cs.NI, cs.SY, eess.SY, cs.IR, eess.SY, cs.SY, cs.CV, cs.AI]目的:3D人体姿勢推定のための新しいフレームワーク
    • 人体構造理解は,ロボット工学やVR/ARなどに応用され,重要性が増している。
    • 既存手法はユークリッド空間で処理するため,人体骨格の階層構造を歪曲しやすい。
    • 双曲空間を用いることで,骨格構造の歪みを抑制し,幾何学的な精度を向上させる。
    • HYPERPOSEは,双曲空間内で時空間推論を行うことで,人体構造の一貫性を大幅に改善した。
    • 骨長や速度の一貫性に関する物理的な制約を導入し,学習の安定化にも貢献している。
    • Human3.6MおよびMPI-INF-3DHPデータセットにおいて,最先端の精度を達成した。

    Link: https://arxiv.org/abs/2605.10100

  • ViSRA:マルチモーダル大規模言語モデルのためのビデオベース空間推論エージェント [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルの空間推論機構の探求
    • 近年,3D空間に関する知能を持つマルチモーダル大規模言語モデルが注目されている。
    • 既存研究は,構築されたベンチマークでの後学習に偏っており,推論時のアプローチは未解明である。
    • 本研究は,後学習コストをかけずに,モデルの空間推論能力を引き出すことを目指す。
    • ViSRAは,既存モデルに組み込むことで,一貫して性能向上を示すことが確認された。
    • 既存ベンチマークにおいて最大15.6%,未学習の空間推論タスクにおいて最大28.9%の改善が見られた。
    • ViSRAは,タスク固有の過学習を避け,汎用的な3D理解を可能にする。

    Link: https://arxiv.org/abs/2605.10106

  • CFSPMNet:脳卒中患者におけるMI-EEG運動イメージデコーディングのためのフーリエガイド型空間パッチマンバネットワーク [cs.IR, cs.AR, cs.LG, cs.AI, cs.CV]目的:脳卒中患者のMI-EEGを用いた運動イメージデコーディングの精度向上
    • 脳卒中後のリハビリテーションにおいて,非侵襲的なMI-EEGデコーディングは重要な役割を果たす。
    • 患者ごとの神経再編成により,EEGダイナミクスが変化し,患者外での汎用性が課題となっている。
    • 患者固有のEEGの変化に対応し,未知の患者に対しても高いデコーディング精度を実現すること。
    • 提案手法CFSPMNetは,既存のCNN,Transformer,Mambaなどの手法と比較して,XW-Strokeデータセットで平均68.23%の正解率を達成した。
    • 2019-Strokeデータセットにおいても,平均73.33%の正解率を達成し,最も優れた既存手法を5.63〜8.25%上回った。
    • フーリエ変換を用いたトークン状態の再編成と,精度の高い擬似ラベル更新が,その性能向上に寄与していることが示唆された。

    Link: https://arxiv.org/abs/2605.10111

  • 必要に応じて思考:幾何学駆動型適応知覚による自動運転 [cs.CV, cs.AI]目的:自動運転のための,幾何学的な複雑さに応じた知覚処理の適応的制御
    • 自動運転技術は,交通効率の向上や事故削減に不可欠であり,安全性確保が重要である。
    • 従来の3D検出モデルは,全てのフレームに固定の計算資源を割り当てており,非効率である。
    • 幾何学的複雑さに応じて処理経路を切り替えることで,計算資源の効率的な利用を目指す。
    • 提案手法Enhanced HOPEは,LiDARフレームの幾何学的複雑さを統計的に推定し,浅いか深い処理経路を選択する。
    • 既存手法の二次時間計算量を線形時間へと削減し,計算資源を節約することで,過去の物体情報を保持する。
    • nuScenesとCARLAのベンチマークにおいて,レイテンシを38%削減し,稀なケースで平均精度を2.7ポイント向上させた。

    Link: https://arxiv.org/abs/2605.10117

  • MicroWorld:マルチモーダル大規模言語モデルによる顕微鏡的ドメインギャップの解消とマルチモーダル属性グラフの活用 [cs.CV, cs.AI]目的:マルチモーダル属性グラフ
    • 科学的推論における大規模言語モデルの可能性。特に,専門領域への応用が期待される。
    • 顕微鏡検査などの専門分野では,ドメイン固有の学習データ不足が課題となる。
    • ドメイン知識の符号化の困難さを克服し,推論能力を向上させることを目指す。
    • MicroWorldは,大規模な画像-キャプションコーパスからマルチモーダル属性グラフを構築し,ドメイン固有のファインチューニングなしで,推論時にMLLMの推論を強化する。
    • MicroVQAベンチマークにおいて,Qwen3-VL-8B-Instructの推論性能を37.5%向上させ,GPT-5を13.0%上回る最先端の結果を達成した。
    • MicroBenchベンチマークにおいても6.0%の性能向上を示し,MicroWorldによって導入された汎化能力の強化が実証された。

    Link: https://arxiv.org/abs/2605.10120

  • Fashion130K:アウトフィット生成のための統一マルチモーダル条件付きEコマースファッションデータセット [cs.CV]目的:Eコマースにおけるアウトフィット生成のための大規模データセットおよびマルチモーダル条件の活用
    • ファッション分野におけるアウトフィット生成は,消費者の多様なニーズに応える上で重要である。
    • 既存の研究では,データセットの規模やマルチモーダル情報の効果的な活用が不十分である。
    • 本研究は,高品質なデータセットと,テキストと画像の情報を統合する新たなフレームワークを提案する。
    • 本研究で構築したFashion130Kデータセットは,多様な場面,モデル,衣服タイプを含む大規模なEコマースデータセットである。
    • 提案手法であるUMCは,テキストと画像の情報を統合し,生成モデルにおける一貫性を向上させる。
    • 実験結果から,UMCが最先端手法と比較して視覚的な一貫性において優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2605.10127

  • Thermal-Det:言語誘導によるクロスモーダル知識蒸留を用いたオープンボキャブラリ熱画像物体検出 [eess.SY, cs.SY, cs.CL, cs.CV]目的:オープンボキャブラリ熱画像物体検出の実現
    • 熱画像は,RGB画像とは異なる特性を持ち,様々な分野で重要な役割を果たす。
    • 既存のオープンボキャブラリ検出器はRGB画像に特化しており,熱画像への汎化が困難である。
    • 熱画像特有の課題に対処し,言語駆動による物体検出を可能にすること。
    • Thermal-Detは,大規模な合成データセットを用いて熱画像に特化したLLMによるオープンボキャブラリ検出器である。
    • RGB教師モデルからの知識蒸留により,ラベルなしのRGB-熱画像ペアに対する学習を実現している。
    • 公開ベンチマークにおいて,既存の検出器と比較してAPが2-4%向上し,高性能を実証した。

    Link: https://arxiv.org/abs/2605.10130

  • ビジョンモデルのスケールアップは,局所化に基づく説明品質を一貫して向上させない [cs.CV, cs.AI]目的:ポストホック説明の品質とモデルのスケールとの関係性
    • AIの信頼性向上には,予測精度だけでなく,その根拠の説明が不可欠であるため。
    • モデルの規模を拡大しても,説明の質が必ずしも向上するとは限らないという課題がある。
    • モデルのスケールアップが説明品質に与える影響を定量的に評価し,説明の質の指標を明確にすること。
    • ResNet,DenseNet,Vision Transformerモデル群を用いた実験により,モデルの複雑化やパラメータ数の増加が必ずしも説明品質向上につながらないことが示された。
    • 事前学習は予測性能を向上させるものの,局所化のスコアを一貫して向上させるわけではない。
    • 予測性能が高いモデルでも,局所化精度が低い場合があり,性能指標だけでは説明の信頼性を判断できない可能性が示唆された。

    Link: https://arxiv.org/abs/2605.10142