arXiv雑要約

画像・音声 - 2026/05/15 公開

  • MRIラディオミクスにおけるマルチビューパラダイムシフト:グリオブラストーマにおけるMGMTメチル化予測 [cs.CV, cs.AI]目的:グリオブラストーマにおけるMGMTプロモーターメチル化状態の予測
    • グリオブラストーマ治療において,MGMTメチル化状態は予後や治療効果に重要な影響を与えるため,非侵襲的な予測が重要である。
    • 従来のラディオミクスアプローチは,特徴量の冗長性やモダリティ固有情報の不完全なモデリングにより,予測性能が制限される場合がある。
    • 本研究は,異なるMRIモダリティ情報を効果的に統合し,MGMTメチル化状態の予測精度向上を目指す。
    • 提案手法であるマルチビューVAEとランダムフォレスト分類器の組み合わせは,テストAUCにおいて0.77という良好な結果を示した。
    • これは,ベースラインモデル(AUC = 0.54)やハイパーパラメータ調整モデル(AUC = 0.64)を大幅に上回る性能である。
    • マルチビュー確率的エンコーディングが,相補的なMRI情報の統合を促進し,予測性能の向上に貢献していることが示唆される。

    Link: https://arxiv.org/abs/2512.22331

  • SyncLight:シングルエディットによる多視点照明調整 [cs.CV, cs.GR]目的:複数視点の未較正画像における照明源の一貫性のあるパラメータ制御
    • 映像制作において,多視点からのリアルな表現は重要性が増しており,照明の制御はその鍵となる。
    • 既存の生成手法では,多視点映像における厳密な照明の一貫性を維持することが困難であった。
    • 単一の参照編集に基づいて,多視点映像全体の照明強度と色を正確に制御することを目指す。
    • SyncLightは,単一の推論ステップで画像セット全体を高忠実度で再照明することを可能にする。
    • 潜在ブリッジマッチングを用いた多視点拡散トランスフォーマーを活用し,ゼロショットでの汎化性能を実現する。
    • カメラの姿勢情報が不要であり,多視点キャプチャシステムにおける実用的な再照明ワークフローを可能にする。

    Link: https://arxiv.org/abs/2601.16981

  • Any3D-VLA:多様な点群によるVLAの堅牢性向上 [cs.CV, cs.RO]目的:VLAの性能向上とドメインギャップの緩和
    • 複雑なシーンにおける空間理解は,ロボット工学やコンピュータビジョンの重要な課題である。
    • 既存のVLAモデルは2D画像に依存しており,3次元空間の理解が不十分である。
    • 3次元情報を活用し,多様な点群を学習することでVLAの汎化性能を高める。
    • Any3D-VLAは,シミュレータ,センサー,モデル推定による点群を統合した学習パイプラインを構築した。
    • 多様な入力データを生成し,ドメインに依存しない3次元表現を学習することで,性能が向上した。
    • シミュレーションと実世界実験により,Any3D-VLAの有効性が確認された。

    Link: https://arxiv.org/abs/2602.00807

  • Video-OPD:時系列動画 grounding のための,オンポリシー蒸留によるマルチモーダル大規模言語モデルの効率的なポストトレーニング [cs.CV]目的:時系列動画 grounding のための,マルチモーダル大規模言語モデルの効率的なポストトレーニング手法
    • 動画理解は,AI研究において重要な課題であり,様々な応用への展開が期待されている。
    • 従来の強化学習ベースの手法は,疎な報酬信号と計算コストの高さが課題となっていた。
    • オンポリシー蒸留による効率的なポストトレーニングを通じて,この問題を解決することを目指す。
    • 提案手法Video-OPDは,既存のGRPO手法を上回り,より速い収束と低い計算コストを実現した。
    • オンポリシー蒸留は,従来の強化学習に代わる効果的な選択肢となりうることを示した。
    • Teacher-Validated Disagreement Focusing (TVDF)は,学習効率の向上に貢献した。

    Link: https://arxiv.org/abs/2602.02994

  • CC-Pan:チャネル方向圧縮に基づく効率的なパンシャープニング拡散 [cs.CV]目的:効率的なパンシャープニングのための拡散モデル
    • リモートセンシング分野において,高空間分解能と高分光分解能の画像融合は重要である。
    • 従来のパンシャープニング手法は,計算コストが高く,センサー固有の制約がある。
    • 異なるセンサー間で汎用性の高い,高速なパンシャープニング手法を開発する。
    • 提案手法CC-Panは,センサーに依存せず,高速な推論が可能な拡散モデルである。
    • バンドごとのVAEにより,様々なバンド数のMS画像を効率的に処理できる。
    • GaoFen-2, QuickBird, WorldView-3の実験で,最先端手法を凌駕する性能を示した。

    Link: https://arxiv.org/abs/2602.04473

  • ImmuVis:イメージング質量分析におけるハイパー畳み込み基盤モデル [cs.CV]目的:イメージング質量分析のための効率的な基盤モデル
    • 組織の空間的プロファイリングは,疾患理解や治療法の開発に不可欠である。
    • 従来の画像処理モデルは固定されたチャンネル空間を前提とするため,多様なマーカーセットに対応できない。
    • 異なるマーカーセットに対応可能な柔軟なモデルを開発し,計算コストを削減する。
    • ImmuVisは,学習されたマーカー埋め込みから畳み込みカーネルを生成するマーカー適応型ハイパー畳み込みを導入した。
    • IMC17Mデータセットを用いて自己教師あり学習による事前学習を行い,最新のベースラインモデルを凌駕した。
    • 不確実性の較正された推定が可能であり,実用的なIMCモデリングフレームワークとなる。

    Link: https://arxiv.org/abs/2602.04585

  • TRIO:推論目的誘導によるトークン削減:効率的な視覚言語モデルのために [cs.CV]目的:視覚言語モデルにおける冗長な視覚トークンの削減
    • 視覚言語モデルは多様なタスクで高性能だが,計算コストが大きいという課題がある。
    • 既存手法はヒューリスティックに頼るため,圧縮性能や実用的な展開に限界がある。
    • 推論目的の観点からトークン圧縮を行い,出力結果の不変性を保つことで問題を解決する。
    • TRIOは訓練を必要とせず,FlashAttentionとも互換性があり,実用的な応用展開に優しい。
    • LLaVA-Next-7Bにおいて,視覚トークンの11.1%を保持しつつ,元の性能の97.2%を維持した。
    • これにより,prefill速度が2.75倍,推論速度が2.14倍向上し,FLOPsが6.22倍,KV Cacheのオーバーヘッドが6.05倍削減された。

    Link: https://arxiv.org/abs/2602.04657

  • VLRS-Bench:リモートセンシングのための視覚言語推論ベンチマーク [cs.CV, cs.AI]目的:リモートセンシングにおける複雑な推論能力の評価
    • リモートセンシング技術は,地球観測や資源管理など,多岐にわたる分野で不可欠である。
    • 既存のベンチマークは,物体認識などの知覚タスクに偏っており,高度な推論能力を評価できていない。
    • リモートセンシングにおける複雑な推論能力を評価するための新たなベンチマークを構築し,MLLMの性能向上を目指す。
    • VLRS-Benchは,認知,意思決定,予測の3つの側面から構成され,14のタスクと最大8つの時間段階を含む。
    • ベンチマークは,リモートセンシング固有の知識と専門知識を組み込んだ特殊なパイプラインによって構築されており,地理空間的な現実性と推論の複雑性を確保している。
    • 実験結果から,既存の最先端MLLMには大きなボトルネックが存在することが明らかになり,リモートセンシング分野におけるマルチモーダル推論の進歩に貢献する。

    Link: https://arxiv.org/abs/2602.07045

  • Iskra: 逆幾何処理のためのシステム [cs.GR, cs.CV, cs.LG]目的:逆幾何処理問題に対する解を微分すること
    • 幾何処理は,コンピュータグラフィックス,CAD,シミュレーションなど,幅広い分野で不可欠である。
    • 既存の幾何処理アルゴリズムの微分は困難であり,機械学習との統合を妨げていた。
    • 既存アルゴリズムを容易に微分可能にし,機械学習を用いた逆幾何処理への応用を促進すること。
    • 本システムは,ローカルグローバル法やADMMソルバーなどの既存の高速な幾何処理手法を活用し,多様な幾何アルゴリズムの微分を可能にする。
    • 平均曲率流,スペクトル共形パラメータ化,測地距離計算,剛体変形などへの適用を通して,使いやすさと性能を検証した。
    • 本システムは,アルゴリズムの再構成を必要とせず,低実装労力,高速実行時間,低メモリ消費を実現する。

    Link: https://arxiv.org/abs/2602.12105

  • 領域正則化強化学習によるコンテンツ一貫性のある画像編集 [cs.CV]目的:画像編集におけるコンテンツの一貫性確保
    • 画像編集技術は,大規模生成モデルの発展により目覚ましい進歩を遂げている。
    • 既存モデルは意図した領域の編集に集中し,意図しない領域への影響が課題である。
    • 意図しない領域への影響を抑制し,編集品質とコンテンツの一貫性を両立させる。
    • CoCoEditは,領域正則化強化学習を用いたポストトレーニングフレームワークである。
    • 編集データセットを拡充し,高品質な学習セットを構築することで編集精度を向上させた。
    • ピクセルレベルの類似性報酬と領域ベースの正則化により,コンテンツの一貫性を大幅に改善した。

    Link: https://arxiv.org/abs/2602.14068

  • MALLVI:汎用ロボット操作のためのマルチエージェント統合フレームワーク [cs.RO, cs.AI, cs.CV, cs.LG]目的:大規模言語モデルを用いたロボット操作タスク計画における,マルチエージェントによる統合フレームワークの提案
    • ロボットの汎用的な操作能力向上は,製造業やサービス業における自動化の鍵となる。
    • 従来のLLMを用いたロボット操作は,環境変化に弱く,汎化性能が低いという課題があった。
    • 本研究は,環境からのフィードバックループを組み込み,ロバストな操作を実現する。
    • MALLVIは,Decomposer,Localizer,Thinker,Reflectorといった専門エージェントの協調により,知覚,位置特定,推論,計画を効率的に行う。
    • シミュレーションと実環境実験の結果,反復的なクローズドループによるマルチエージェント協調が,ゼロショット操作タスクの汎化性能と成功率を向上させることを示した。
    • Reflectorは,エラー検出と復旧のために関連エージェントのみを再活性化し,計画全体の再実行を回避することで,効率性を高めている。

    Link: https://arxiv.org/abs/2602.16898

  • 線形感度不整合下における戦略的ガウス信号 [cs.GT, cs.IT, cs.SY, eess.SY, math.IT]目的:線形感度不整合下におけるStackelbergガウス信号ゲームの均衡構造
    • 情報伝達において,送信者と受信者の間には必ず何らかの認識のずれが存在する。
    • 従来のモデルでは,認識のずれは単純なバイアスとして扱われてきたが,より複雑な線形変換として捉える必要がある。
    • 線形感度不整合が情報伝達に与える影響を明らかにし,有効な信号伝達の条件を導出する。
    • ノイズのない場合,均衡はスペクトル特性を持つ。送信者は,不整合行列の負の固有値に対応する固有空間に沿ってのみ情報を伝達する。
    • ノイズのある場合,有益な信号伝達のための解析的な閾値が得られた。感度不整合や伝送コストがチャネル依存の閾値を超えると,通信は破綻する。

    Link: https://arxiv.org/abs/2602.19292

  • マルチモーダルテスト時適応における安定性と可塑性の分離 [cs.CV, cs.AI]目的:マルチモーダルテスト時適応のための安定性と可塑性の分離
    • 事前学習済みモデルを現実世界の変動するデータ分布に適応させることは重要である。
    • 既存手法では,偏りのないモダリティでの負の転移や,偏ったモダリティでの破滅的忘却が発生しやすい。
    • DASPは,モダリティ間の潜在空間の差異に着目し,非対称な適応戦略を提案することでこの問題を解決する。
    • 提案手法DASPは,診断と緩和を組み合わせた新たなフレームワークであり,多様なマルチモーダルベンチマークにおいて最先端手法を凌駕する性能を示す。
    • 偏ったモダリティでは可塑性を,偏りのないモダリティでは安定性を重視する非対称な適応メカニズムを採用している。
    • 各モダリティ固有のアダプターを安定コンポーネントと可塑コンポーネントに分割し,モダリティごとに異なる更新戦略を用いる。

    Link: https://arxiv.org/abs/2603.00574

  • ローカルマッチからグローバルマスクへ:テンプレート誘導によるオープンワールドシーンにおけるインスタンス検出とセグメンテーション [cs.CV, cs.RO]目的:オープンワールドシーンにおける新規オブジェクトインスタンスの検出とセグメンテーション
    • ロボットが現実世界で動作するためには,未知の環境下での物体認識が不可欠である。
    • 既存手法は,提案の質に左右されやすく,閉塞や背景のノイズに弱いという課題がある。
    • テンプレート画像のみを用いて,複雑なシーンから特定のオブジェクトを正確に検出し,セグメンテーションすること。
    • 提案手法L2G-Detは,明示的なオブジェクト提案を回避し,テンプレートと入力画像間の密なパッチレベルマッチングを利用する。
    • ローカルにマッチしたパッチは候補点を生成し,候補選択モジュールで誤検出が抑制される。
    • フィルタリングされた点を用いてSAMをプロンプトすることで,信頼性の高いインスタンスマスクを再構築できる。

    Link: https://arxiv.org/abs/2603.03577

  • WikiCLIP:オープン領域視覚エンティティ認識のための効率的なコントラスト学習ベースライン [cs.CL, cs.CV]目的:オープン領域視覚エンティティ認識のための効率的かつ強力なベースラインの確立
    • 画像と知識ベースを結びつけることで,視覚情報に基づいた知識獲得の可能性が広がる。
    • 既存の生成モデルは高性能だが,計算コストが高く,実用化が困難である。
    • 計算効率を改善しつつ,高性能なオープン領域視覚エンティティ認識を実現すること。
    • WikiCLIPは,OVENの難易度の高いunseenセットにおいて,16%の性能向上を達成した。
    • WikiCLIPは,最先端の生成モデルAutoVERと比較して,推論遅延をほぼ100倍削減した。
    • 大規模言語モデルの埋め込みとVision-Guided Knowledge Adaptor (VGKA) を活用することで,テキストと視覚情報の整合性を高めている。

    Link: https://arxiv.org/abs/2603.09921

  • V2M-Zero:ペアなし時系列ビデオから音楽生成 [cs.CV, cs.AI, cs.LG, cs.MM, cs.SD]目的:ビデオと音楽の時系列的な同期
    • 映像と音楽の融合は,エンターテイメントや表現において重要な役割を担う分野である。
    • 既存のテキストから音楽生成モデルは,細粒度な時間的制御が難しく,映像イベントとの同期が課題である。
    • ペアなしデータを用いて,時間的同期と意味的制御を両立したビデオから音楽生成を実現すること。
    • V2M-Zeroは,ビデオと音楽のペアなしデータで学習し,最先端の性能を達成した。
    • 時間的同期,意味的整合性,ビート同期において,既存手法を大きく上回る結果が得られた。
    • モダリティ内での特徴量を利用することで,時間的アラインメントと音楽スタイルの独立した制御が可能になった。

    Link: https://arxiv.org/abs/2603.11042

  • ニューラル場熱トモグラフィ:非破壊検査のための微分可能な物理フレームワーク [cs.LG, cond-mat.mtrl-sci, cs.AI, cs.CV, physics.ins-det]目的:非破壊検査のための,微分可能な物理フレームワークによる逆熱伝導問題の解決
    • 熱伝導問題は,材料の特性評価や欠陥検出など,工学分野において不可欠である。
    • 従来の逆熱伝導問題は,数値的不安定性が高く,高精度な解を得ることが困難である。
    • ニューラル場を用いたフレームワークにより,より安定かつ高精度な逆熱伝導問題の解法を確立する。
    • 提案手法NeFTYは,ソフト制約型PINNやボクセルグリッドベースラインと比較して,ラベルなし3Dベンチマークにおいて大幅な性能向上を示した。
    • NeFTYは,実熱画像データにも適用可能であり,欠陥セグメンテーションと深さ推定において従来の信号処理ベースラインを上回る性能を発揮した。
    • NeFTYは,微分可能な陰解法熱ソルバーを用いることで,PDEを厳密に満たす解を得ることを可能とした。

    Link: https://arxiv.org/abs/2603.11045

  • AutoMoT:非同期Mixture-of-Transformersを用いた統合ビジョン-言語-行動モデルによるエンドツーエンド自動運転 [cs.CV, cs.RO]目的:エンドツーエンド自動運転システムにおけるビジョン-言語モデル統合の性能向上
    • 自動運転は,交通安全の向上や移動の効率化に不可欠であり,社会実装が期待されている。
    • 既存のビジョン-言語モデル統合戦略は,推論と行動空間のずれ,事前学習済みモデルの能力活用不足,推論遅延といった課題を抱えている。
    • AutoMoTは,推論と行動生成を統合し,高速かつ効率的な自動運転を実現することで,これらの課題解決を目指す。
    • AutoMoTは,複数のベンチマークにおいて最先端手法と同等の性能を達成した。
    • 事前学習済みビジョン-言語モデルは,セマンティックプロンプティングのみで高度なシーン理解が可能であることが示された。
    • 意思決定や軌道計画といった行動レベルのタスクには,自動運転向けファインチューニングが不可欠である。

    Link: https://arxiv.org/abs/2603.14851

  • VGGT-360:幾何学的に整合性の高いゼロショット全天球深度推定 [cs.CV]目的:ゼロショット全天球深度推定の新たなフレームワーク
    • 仮想現実や拡張現実の発展には,周囲環境の正確な3次元把握が不可欠である。
    • 既存手法では,全天球画像からの深度推定において,視点間の整合性が課題となっていた。
    • VGGT-360は,幾何学的な整合性を重視し,学習を必要としないゼロショットでの高精度な深度推定を実現する。
    • VGGT-360は,3Dモデルに基づく全天球画像の再投影を通して,視点に依存しない深度推定を可能にした。
    • 不確実性に基づく適応的投影,構造的強調注意機構,相関重み付き3Dモデル補正の3つのモジュールを統合している。
    • 複数の解像度とデータセットにおいて,既存の学習済みおよび学習不要な最先端手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2603.18943

  • FlowInOne:画像入力,画像出力フローマッチングによるマルチモーダル生成の統合 [cs.CV]目的:マルチモーダル生成の統合
    • 画像生成において,テキストからの制御が主流だが,テキストだけでは視覚的な推論や創造性に限界がある。
    • 異なるモダリティ間の整合性確保が課題であり,タスクごとに異なるアーキテクチャが必要となる。
    • すべてのモダリティを視覚表現に統一することで,生成プロセスを簡素化し,性能向上を目指す。
    • FlowInOneは,テキスト,レイアウト,編集指示などの入力を視覚プロンプトに変換し,単一のフローマッチングモデルで画像生成を行う。
    • VisPrompt-5Mという大規模な視覚プロンプトデータセットと,VP-Benchというベンチマークを新たに開発した。
    • テキストから画像生成,レイアウトに基づく編集,視覚的指示への応答など,統合された生成タスクにおいて最先端の性能を達成した。

    Link: https://arxiv.org/abs/2604.06757

  • PinpointQA:屋内動画における小物体を中心とした空間理解のためのデータセットとベンチマーク [cs.CV, cs.AI]目的:屋内動画における小物体を中心とした空間理解の評価
    • 物体検索や支援アプリケーションなど,実用的な価値が高いため,マルチモーダル大規模言語モデルにおける空間理解能力の向上が重要である。
    • 既存のベンチマークは動画の空間知能を向上させてきたが,物体を正確に特定し,その位置を表現できるか評価するものがなかった。
    • 小物体を中心とした空間理解能力を評価するためのデータセットとベンチマークを構築し,モデルの課題を明確にすること。
    • PinpointQAは,ScanNet++とScanNet200を基に構築された,屋内動画における小物体を中心とした空間理解のための最初のデータセットおよびベンチマークである。
    • 実験の結果,代表的なMLLMは,難易度の高いタスクにおいて能力に差があることが示され,特に構造化空間予測(SSP)が困難であることがわかった。
    • PinpointQAによる教師ありファインチューニングは,より難しいタスクにおいて顕著な改善をもたらし,診断ベンチマークおよび効果的な訓練データセットとしての有用性を示した。

    Link: https://arxiv.org/abs/2604.08991

  • GeRM:物理的に現実的なものからフォトリアリスティックなものへの生成レンダリングモデル [cs.CV]目的:物理ベースレンダリングからフォトリアリスティックレンダリングへの変換
    • 現実世界の表現を目指す上で,物理シミュレーションと高品質な画像生成の融合が重要である。
    • フォトリアリスティックレンダリングは,時間と労力を要し,現実世界の複雑さを捉えるのが困難である。
    • 物理ベースレンダリングからフォトリアリスティックレンダリングへの効率的な変換手法を確立すること。
    • GeRMは,物理ベースレンダリング画像を,G-バッファ,テキストプロンプト,強調領域の指示に基づいてフォトリアリスティックな画像へと変換する。
    • 残差知覚転送メカニズムにより,テキストプロンプトと変更領域の関連性を明確化し,画像生成の制御性を向上させている。
    • P2P-50Kデータセットを用いた実験により,GeRMが既存手法と比較して高品質で制御可能な画像を生成することが示された。

    Link: https://arxiv.org/abs/2604.09304

  • EFX 分配の存在しない反例:n≧3エージェント,m≧n+5アイテム,部分加法的な評価関数 [cs.GT, cs.DS]目的:EFX分配の非存在性
    • 公正な資源配分は,社会科学,経済学,計算機科学において重要な課題である。
    • EFX分配の存在性は長年の未解決問題であり,特定の条件下での存在が保証されていなかった。
    • 本研究は,EFX分配が存在しない具体的な事例を示すことで,この問題に答える。
    • エージェント数が3人以上,アイテム数がエージェント数+5個以上の場合,EFX分配が存在しない反例が発見された。
    • エージェント数が3人でアイテム数が7個の場合には,EFX分配が常に存在することが証明された。
    • エージェント数が3人の場合,EFX分配が存在しないとしても,tEFX,EF1,EEFXのいずれかの緩和された分配が存在することが示された。

    Link: https://arxiv.org/abs/2604.18216

  • 画像生成器は汎用的な視覚学習者である [cs.CV, cs.AI]目的:画像生成モデルの汎用的な視覚表現学習
    • 画像認識は,ロボット工学や自動運転など,多くの分野で不可欠な技術である。
    • 既存の画像認識モデルは,特定のタスクに特化し,汎用性に欠ける場合が多い。
    • 画像生成による事前学習が,汎用的な視覚理解能力を向上させる可能性を探る。
    • 画像生成モデルは,言語モデルと同様に,生成的な事前学習を通じて視覚的理解能力を獲得する。
    • Vision Bananaは,軽量な指示調整により,様々な視覚タスクで最先端の性能を達成した。
    • 画像生成は,テキスト生成と同様に,視覚タスクの統一的なインターフェースとなり得る。

    Link: https://arxiv.org/abs/2604.20329

  • 方向性の誤認が,人間と機械の視覚におけるレート歪み幾何学を通して異なる誘導的バイアスを明らかにする [cs.CV, cs.IT, math.IT, q-bio.NC]目的:人間と機械の視覚における誘導的バイアスの違いの定量化
    • 視覚は知覚において重要であり,人間と機械の視覚システムの理解を深めることが求められている。
    • 既存の評価指標では,人間と機械の視覚システムの内部的なバイアスの違いを捉えきれない場合がある。
    • 誤認の方向性に着目することで,従来の評価指標では見過ごされていた誘導的バイアスを明らかにすること。
    • 人間は多くのクラスペアで弱い非対称性を示すが,深層視覚モデルは少数の支配的なカテゴリに強く崩壊する。
    • ロバストネス学習は全体の非対称性を軽減するものの,人間のような分散構造を再現できない。
    • 誤認の方向性の構造は,精度ベースの評価では捉えられない誘導的バイアスの繊細で解釈可能なシグナルである。

    Link: https://arxiv.org/abs/2604.21909

  • 聖ヨハネ大聖堂の大規模フォトグラメトリ計測:文化遺産保存のためのワークフロー [cs.DB, cs.HC, cs.GR]目的:聖ヨハネ大聖堂の大規模フォトグラメトリ計測に関するワークフロー
    • 文化遺産は人類共通の財産であり,記録・保存は後世への重要な責務である。
    • バロック建築のような複雑な空間や反射面は,デジタル記録において課題となる。
    • 複雑な文化遺産のデジタル記録における課題解決と,効率的なワークフローの確立。
    • 聖ヨハネ大聖堂において,DSLRカメラ,ドローン,LiDARスキャンを組み合わせた大規模なデータ収集を行った。
    • 250億~300億個の三角形を含む高精細な3D再構成を生成し,文化遺産保存のためのデジタルアーカイブを構築した。
    • 反射面などの課題に対し,AI支援によるノイズ除去や手動介入を組み合わせたワークフローを確立し,再現性を担保した。

    Link: https://arxiv.org/abs/2604.24316

  • SIEVES:視覚的証拠のスコアリングによる選択的予測の汎化 [eess.SY, cs.SY, cs.RO, cs.CV, cs.AI]目的:視覚的証拠の品質を明示的に学習する選択子による選択的予測の改善
    • マルチモーダル大規模言語モデルは視覚言語タスクで高性能化しているが,実世界での信頼性確保が課題。
    • 既存の選択的予測手法は内部信号に依存し,クローズドソースモデルには適用できない場合がある。
    • 汎用的な視覚的証拠のスコアリングにより,未知のデータに対する選択的予測の性能向上を目指す。
    • SIEVESは,困難なOODベンチマークにおいて,従来のベースラインと比較してカバレッジを最大3倍に向上させる。
    • モデルの重みやlogitsへのアクセスなしに,o3やGemini-3-Proなどのプロプライエタリな推論器への転移が可能である。
    • SIEVESは,テストしたすべてのOODベンチマークと推論モデルで汎化し,特定のベンチマークや推論器に特化した訓練や適応は不要である。

    Link: https://arxiv.org/abs/2604.25855

  • MoCapAnything V2: 任意の骨格に対するエンドツーエンドモーションキャプチャ [cs.CL, cs.CV]目的:任意の骨格からのモーションキャプチャ手法
    • モーションキャプチャは,アニメーション制作や人間行動解析において不可欠な技術である。
    • 既存手法は,関節位置と回転を分離して処理するため,関節の回転の曖昧性が問題となる。
    • エンドツーエンド学習により,関節位置から直接回転を予測し,曖昧性を解消することを目指す。
    • 本研究では,ビデオから関節位置を予測し,その位置から関節回転を直接学習する,初の完全なエンドツーエンドフレームワークを提案する。
    • ターゲットアセットからの参照ポーズとレストポーズを用いることで,回転予測の曖昧性を解決し,より正確な回転を推定する。
    • Truebones ZooとObjaverseを用いた実験により,既存手法と比較して回転誤差を大幅に削減し,推論速度を向上させることを示した。

    Link: https://arxiv.org/abs/2604.28130

  • 効率的な自己回帰型動画生成のためのモーション認識キャッシュ [cs.CV, cs.AI]目的:自己回帰型動画生成における効率化
    • 動画生成は,コンテンツ制作やデータ拡張など,幅広い分野で重要性を増している。
    • 逐次的な反復ノイズ除去の計算コストが大きく,実用上の制約となっている。
    • ピクセルレベルの動きを考慮したキャッシュ戦略により,計算効率を改善する。
    • MotionCacheは,SkyReels-V2で最大6.28倍,MAGI-1で1.64倍の高速化を実現した。
    • 生成品質の低下は,VBenchでそれぞれ1%と0.01%以内に抑えられている。
    • フレーム間差分を利用し,動きに応じてキャッシュの更新頻度を調整する。

    Link: https://arxiv.org/abs/2605.01725

  • オープンセット教師あり異常検知のための混合プロトタイプフローマッチング [cs.CV, cs.LG]目的:オープンセットにおける異常検知手法の性能向上
    • 異常検知は,製造,セキュリティ,医療など,幅広い分野で重要である。
    • 既存手法は正常データの多峰性を捉えきれず,識別境界が曖昧になりやすい。
    • 正常データの分布を捉え,異常と正常の分離を最大化することを目指す。
    • 提案手法MPFMは,正常データの分布をガウス混合モデルプロトタイプ空間に変換する。
    • MPFMはモードを意識した分布輸送と意味的に一貫性のある変形を可能にする。
    • MIMRによりプロトタイプの崩壊を防ぎ,正常-異常の分離性を高めることが示された。

    Link: https://arxiv.org/abs/2605.02438

  • InterMesh: 明示的な相互作用を考慮したエンドツーエンド多人物間メッシュ復元 [cs.CV]目的:多人物間の人間メッシュ復元における精度向上
    • 人間は常に周囲と相互作用するため,その理解はコンピュータビジョンの重要な課題である。
    • 既存手法では,人間同士や物体との相互作用が暗黙的にしかモデル化されていない。
    • 人間と環境,人間同士の相互作用を明示的に考慮することで,より正確な復元を目指す。
    • 提案手法InterMeshは,人間と物体の相互作用検出器を活用し,クエリ表現を構造化された相互作用情報で強化する。
    • 軽量なモジュールを導入することで,既存のHMRアーキテクチャへの統合を容易にし,オーバーヘッドを最小限に抑える。
    • 実験の結果,CMU PanopticとHi4DにおいてMPJPEが大幅に低減され,複雑な相互作用シーンでの有効性が示された。

    Link: https://arxiv.org/abs/2605.04554

  • MobileEgo Anywhere:汎用ハードウェア上の長時間の自己視点データのためのオープンな基盤 [cs.CV, cs.CL]目的:長時間の自己視点データの収集を可能にするフレームワーク
    • ロボットの複雑なタスク遂行には,時間の経過に伴う依存関係の把握が不可欠である。
    • 既存のデータセットは,収録時間が短く,複雑なタスクに必要な長期的な依存関係を捉えきれていない。
    • 安価なモバイル機器で,長時間の自己視点データを容易に収集できる環境を提供する。
    • MobileEgo Anywhere は,持続的な状態追跡を備えた200時間の多様な自己視点データセットを公開した。
    • 誰でも自己視点データを記録できるモバイルアプリケーションをオープンソースとして提供した。
    • 生のモバイルキャプチャを,Vision Language Actionモデルの研究に利用可能な形式に変換する処理パイプラインを提供した。

    Link: https://arxiv.org/abs/2605.05945

  • 放射線科医による因果概念ボトルネックモデル:胸部X線写真の解釈 [cs.RO, cs.CV]目的:胸部X線写真の解釈におけるモデルの解釈性向上
    • 医療画像診断において,AIの判断根拠の明確化が不可欠である。
    • 既存の概念ボトルネックモデルは,病理ラベルの識別子として概念を扱うに留まる。
    • 臨床的な因果関係に基づき,より解釈可能で信頼性の高いモデルを構築する。
    • XpertCausalは,病理から概念への関係性を確率的noisy-ORモデルで表現した。
    • 従来のCBMや因果構造を持たないモデルと比較して,AUROC,キャリブレーション,説明品質が向上した。
    • 学習された概念-病理関係が,放射線科医の知識とより一致することが示された。

    Link: https://arxiv.org/abs/2605.07785

  • 1フレーム1トークン:VLAポリシーのためのワールドモデルにおける視覚的帯域幅の再検討 [cs.CV, cs.AI]目的:VLAポリシーにおけるワールドモデルの視覚的帯域幅の削減と性能向上
    • VLAモデルは長期的な計画に不可欠だが,そのパラメータ化方法には未解決な課題が多い。
    • 既存手法では,視覚的帯域幅が高く,アクション予測とワールドモデルの連携が不十分である。
    • 本研究は,視覚的帯域幅を削減しつつ,長期的なタスク遂行能力を維持・向上させることを目指す。
    • 提案手法OneWM-VLAは,各フレームの視覚情報を単一のセマンティックトークンに圧縮するAdaptive Attention Poolingを用いる。
    • 1471万パラメータのLoRAで学習したOneWM-VLAは,MetaWorld MT50で成功率を47.9%から61.3%に向上させた。
    • また,LIBERO-LongとFold Clothタスクにおいても,既存モデルを大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2605.07931

  • Flow-OPD:フローマッチングモデルのためのオンポリシー蒸留 [cs.CV, cs.AI]目的:フローマッチングモデルにおけるマルチタスクアラインメントの改善
    • 画像生成AIの進化は目覚ましいが,多様なタスクへの対応と高品質な画像生成を両立することが課題である。
    • 従来のフローマッチングモデルでは,報酬の希薄性と目的関数の干渉が問題となり,性能向上が阻害されている。
    • 本研究では,オンポリシー蒸留を導入することで,多様な専門知識を統合し,高品質な画像生成を実現することを目指す。
    • Flow-OPDは,2段階のアラインメント戦略を採用し,専門性の高い教師モデルを育成する。
    • Stable Diffusion 3.5 Mediumを基盤として,GenEvalスコアを63から92へ,OCR精度を59から94へ向上させた。
    • Flow-OPDは,従来のGRPOと比較して約10ポイントの全体的な改善を達成し,教師モデルを超える効果も示された。

    Link: https://arxiv.org/abs/2605.08063

  • 任意のバックボーンに対する正規化不変性:画像ノイズ除去への応用 [cs.CV, cs.AI]目的:画像処理における分布シフトへのロバスト性向上
    • 画像処理において,現実世界の多様なデータに対応できる汎化性能が重要である。
    • 分布シフトが発生すると,モデルの性能が著しく低下する問題がある。
    • 正規化不変性を活用し,分布シフトに対するロバスト性を高める手法を提案する。
    • 提案手法であるWNEは,既存のアーキテクチャにオーバーヘッドなく適用可能である。
    • CNNおよびTransformerアーキテクチャにおいて,ノイズレベルの不一致に対するロバスト性が向上した。
    • WNEは正規化不変関数を完全にパラメータ化する。

    Link: https://arxiv.org/abs/2605.08193

  • スーパーサンプリングStable Diffusionとその先:一般的な補間手法を用いたニューラルネットワークのスケーリングに関する,トレーニングフリーのアプローチ [cs.CL, cs.CV, cs.LG]目的:高解像度画像生成のための,トレーニング不要なStable Diffusionのスケーリング手法
    • 画像生成AIの発展は,高品質な画像生成を可能にする一方で,計算コストが課題であった。
    • Stable Diffusion等のモデルは,学習時の解像度以上の画像を生成する際に,物体重複などの問題が発生しやすい。
    • カーネル補間により,学習を伴わずにStable Diffusionの高解像度画像生成を可能にすること。
    • 提案手法は,定数係数を乗算することでカーネルの正確なスケーリングを数学的に保証し,実証実験でも良好な結果を示した。
    • トレーニングを行わずにStable Diffusionの高解像度画像生成を可能にするだけでなく,他の深層ニューラルネットワークにも適用可能であることを示した。
    • 本手法を用いることで,ニューラルネットワークのトレーニングに必要なメモリフットプリントを最大で4倍削減できる可能性を示唆した。

    Link: https://arxiv.org/abs/2605.08698

  • 表現レベルの時間集約とモデルレベルのハイパーグラフ推論によるイベントベース物体検出の再考 [cs.CV]目的:イベントベース物体検出における,表現とモデルの課題解決
    • 高速動作や厳しい照明下での知覚に強みを持つイベントカメラの活用が重要である。
    • 既存手法では,時間情報の表現が間接的で冗長,あるいは断片的なイベント応答の集約が困難である。
    • コンパクトな時間表現とハイパーグラフ推論により,効率的かつ高精度な物体検出を目指す。
    • 提案手法Ev-DTADは,イベントカメラのデータを用いて,効率的かつ高精度な物体検出を実現した。
    • HTAというコンパクトな時間表現により,イベントデータの時間情報を明示的に組み込んだ。
    • FHTFというハイパーグラフ推論により,疎なイベント応答下での検出性能を向上させた。

    Link: https://arxiv.org/abs/2605.08825

  • エントロピー最適輸送を用いた冠動脈造影における幾何学的制約付き狭窄症編集 [cs.CV, cs.AI, cs.LG]目的:冠動脈造影における狭窄症検出の精度向上
    • 冠動脈疾患の診断において,造影検査は重要な役割を担う。
    • 狭窄症の自動検出には高品質な画像データが不可欠だが,そのデータが不足している。
    • 合成データを用いて学習データを拡充し,検出精度と汎化性能の向上を目指す。
    • 提案手法であるOT-Bridge Editorは,幾何学的情報を活用することで,狭窄症の編集における精度と構造保持を強化する。
    • 公開ベンチマークARCADEにおいて,狭窄症検出精度が相対的に27.8%向上した。
    • 多施設データセットにおいても23.0%の精度向上が確認され,定性的評価もそれを裏付けている。

    Link: https://arxiv.org/abs/2605.08851

  • DocScope:信頼性の高い長文書理解のための検証可能な推論のベンチマーク [cs.CL, cs.CV]目的:長文書に対する信頼性のある検証可能な推論の評価基準
    • 大量の文書データを処理する能力が求められるため,情報検索や知識獲得の分野において重要である。
    • 大規模言語モデルは,長文書中の根拠を特定し,論理的な推論を行うことが難しい場合がある。
    • 長文書の理解におけるモデルの推論過程を検証し,信頼性を評価する手段を提供する。
    • DocScopeは,長文書QAを構造化された推論経路予測問題として定式化するベンチマークである。
    • 評価プロトコルは,ページ特定,領域グラウンディング,事実抽出,回答検証の4段階で構成される。
    • 回答の正確性だけでは不十分であり,推論経路レベルの評価が不可欠であることが示された。

    Link: https://arxiv.org/abs/2605.08888

  • M$^2$E-UAV:機上モーション・オン・モーションイベントベース小型UAV検出のためのベンチマークと解析 [cs.CV]目的:機上イベントカメラを用いたモーション・オン・モーション環境下における小型UAV検出
    • UAV技術の発展に伴い,小型UAVの安全利用とセキュリティ確保が重要になっている。
    • 機上視点でのイベントカメラによるUAV検出は,背景イベントの影響を受けやすく,課題が多い。
    • モーション・オン・モーション環境下における小型UAV検出のベンチマーク構築とその性能評価を目指す。
    • 新たに,機上UAV視点でのモーション・オン・モーションイベントベースデータセットM$^2$E-UAVを構築した。
    • 本データセットは,イベントストリームとIMU計測データ,およびUAV前景ラベルを含み,計10万件以上のサンプルを提供する。
    • 既存のベースライン手法は,疎なターゲットと高密度な背景イベントにおいて限界があることが示された。

    Link: https://arxiv.org/abs/2605.10496

  • ダイナミクス盲目性の克服:VLAモデルのためのトレーニング不要なペースと経路補正 [cs.RO, cs.AI, cs.CV, cs.LG]目的:VLAモデルにおけるダイナミクスへの対応
    • 視覚,言語,行動を統合したVLAモデルは,従来の制御パラダイムを超える柔軟性と汎用性を持つため重要である。
    • 既存のVLAモデルは単一フレームの観察に基づき,時間的なダイナミクスを捉えきれていないという課題がある。
    • 本研究は,VLAモデルの時間的ダイナミクスへの盲目性を,トレーニングなしで補正することを目指す。
    • 提案手法であるペースと経路補正は,既存のVLAモデルをラップし,推論時にダイナミクスを吸収する。
    • MoveBenchを用いた評価により,提案手法が最先端のトレーニング不要な手法や動的適応手法を上回ることが示された。
    • ダイナミクスのみの環境,および静的・ダイナミクスの混合環境において,成功率が最大28.8%と25.9%向上した。

    Link: https://arxiv.org/abs/2605.11459

  • オムニモーダル言語モデルの強化:視覚的バイアス除去評価による段階的ポストトレーニング [cs.MM, cs.AI, cs.CV]目的:オムニモーダル言語モデルの性能向上
    • 音声,視覚,言語を統合的に理解するモデルは,人間らしいAI実現に不可欠である。
    • 既存の評価指標は,視覚情報のみで回答可能な問題を含むため,真の統合理解を測れない。
    • 視覚的バイアスを除去した評価により,モデルの能力を正確に評価し,改善を目指す。
    • 視覚情報のみで解ける問題を排除した評価データセット「OmniClean」を構築した。
    • Qwen2.5-Omni-3Bを基盤とした段階的ポストトレーニング手法「OmniBoost」が有効であることを示した。
    • OmniBoostにより,3BモデルはQwen3-Omni-30B-A3B-Instructに匹敵する性能を達成した。

    Link: https://arxiv.org/abs/2605.12034

  • BioSEN:動物の鳴き声のためのバイオ音響信号強調ネットワーク [cs.SD, cs.LG, q-bio.NC]目的:動物の鳴き声の音響信号強調
    • 生物多様性のモニタリングや保全において,音響データの利用は不可欠である。
    • 従来の音響強調技術は人間の音声に偏っており,動物の鳴き声への適用が困難であった。
    • 動物の鳴き声に特化した信号強調技術を開発し,音響データの解析精度向上を目指す。
    • BioSENは,既存の音声強調モデルと同等以上の性能を示すことが確認された。
    • 特に計算コストが低く,実用的なバイオ音響信号強調システムとして期待される。
    • 本研究は,生物多様性のモニタリングと保全への貢献が期待される。

    Link: https://arxiv.org/abs/2605.12534

  • ストリーミングされた意図からの行動創発 [cs.RO, cs.CV]目的:エンドツーエンドの自律運転における行動創発
    • 自動運転技術は,移動の安全性と効率性を高める上で不可欠である。
    • 既存手法では,未知の交通状況への対応が困難である。
    • シーン理解に基づく合理的な意図に基づいた行動創発を目指す。
    • 本研究では,ストリーミングされた意図(Streaming Intent)というメカニズムを提案した。
    • 提案手法SIは,Waymo End-to-Endベンチマークにおいて競争力のある性能を示した (RFSスコア: 検証セットで7.96,テストセットで7.74)。
    • SIは,データ駆動型学習のみによって,意図に忠実な制御可能性を実現した。

    Link: https://arxiv.org/abs/2605.12622

  • MindVLA-U1:統合ストリーミングアーキテクチャにより,VLAがVAを凌駕する自律運転 [cs.RO, cs.CV]目的:自律運転のための統一ストリーミングVLAアーキテクチャの開発
    • 自律運転はモジュール型パイプラインからエンドツーエンド統合へと進化しており,VLAモデルはその自然な拡張である。
    • 既存のVLAモデルは,VAモデルと比較して計画の質が低い傾向があり,その原因はモデルの規模だけではない。
    • VLAモデルの構築方法に起因する問題を解決し,VLAの潜在能力を引き出すことを目指す。
    • MindVLA-U1は,WOD-E2Eベンチマークにおいて,熟練した人間のドライバーを初めて上回る性能(8.20 RFS vs. 8.13 GT RFS)を達成した。
    • 既存のVA/VLAモデルと比較して,計画のADE(平均二乗誤差)を大幅に改善し,VAモデルと同等の低遅延(16 FPS)を実現した。
    • 言語による制御パスを計測可能にし,言語指示が継続的な行動計画を導く分類子フリーガイダンス(CFG)を導入した。

    Link: https://arxiv.org/abs/2605.12624

  • 運転意図が計画指向型強化学習を増強する [cs.RO, cs.CV]目的:運転行動の強化学習における,多様な運転意図の活用
    • 自動運転技術の発展には,多様な状況に対応できる運転ポリシーの学習が不可欠である。
    • 単一の模範運転データに基づく強化学習では,行動の多様性が失われ,性能が限界に達しやすい。
    • 運転意図を明示的に考慮することで,行動の多様性を確保し,強化学習の性能向上を目指す。
    • DIALは,運転意図を条件としたフローマッチングにより,行動分布の多様性を拡大し,模範運転データに起因するモード崩壊を抑制する。
    • DIALは,マルチインテントGRPOにより,好みのモードへの過度な適応を防ぎ,保持性能を向上させる。
    • DIALは,既存手法と比較して,人間の運転性能を上回る結果を示し,強化学習における行動分布の拡大と維持の重要性を示唆する。

    Link: https://arxiv.org/abs/2605.12625

  • インタラクティブ物理シミュレーションのための階層型Transformer事前条件付け [cs.GR, cs.DC, cs.LG, cs.NA, math.NA]目的:リアルタイム物理シミュレーションのためのニューラル事前条件付け手法
    • 物理シミュレーションは,工学,科学,エンターテイメントなど広範な分野で不可欠な技術である。
    • 従来の事前条件付け手法は,長距離の相互作用を効率的に捉えることが困難である。
    • Transformerを用いて,効率的かつ高精度な事前条件付けを実現し,シミュレーション速度を向上させる。
    • 提案手法は,弱許容性H行列分割に基づき,O(N)のスケーリングで近似逆計算を実現する。
    • コサイン・ハッチンソンプローブ目的関数により,収束に重要なスペクトル部分空間における作用を学習し,条件数を改善する。
    • 密度比100:1,N=1,024-16,384の剛性のある多相ポアソンシステムにおいて,GPU JacobiやIC/DILUと比較して大幅な高速化を達成した。

    Link: https://arxiv.org/abs/2605.13343

  • 距離空間における憲法による統治 [cs.MA, cs.AI, cs.DC, cs.GT, econ.TH]目的:デジタルコミュニティおよび組織の憲法による統治の包括的解決策
    • 社会選択理論は民主的な意思決定の基礎であり,公平な集約方法が重要視されている。
    • 既存の研究では,集約,熟議,修正,合意形成が個別に扱われ,包括的な統治プロセスが欠けていた。
    • 距離空間における憲法による統治を通じて,これらの段階を統合し,効率的な意思決定プロセスを確立すること。
    • 本研究では,距離空間における憲法による統治という新しい枠組みを提案し,その有効性を示した。
    • 一般化された中央値の有用性を示し,多数決における戦略的な虚偽申告の優位性がないことを証明した。
    • 選挙,料金設定,予算配分など,7つの典型的な設定における適用可能性を実証した。

    Link: https://arxiv.org/abs/2605.13362

  • R-DMesh:動画誘導による3Dアニメーション - 修正された動的メッシュフロー [cs.CV, cs.GR, cs.LG]目的:動画誘導による高精度な4Dメッシュ生成
    • コンテンツ作成において,直感的かつ精密な動的アセット制御の重要性が高まっている
    • 初期ポーズの不一致が,幾何学的歪みやアニメーション失敗の大きな原因となっている
    • 入力メッシュのポーズを動画の初期状態に自動的に変換し,アライメント問題を解決すること
    • R-DMeshは,入力メッシュを動画のコンテキストに合わせて「修正」する統一的なフレームワークである
    • VAEを用いて,ベースメッシュ,相対的な運動軌跡,そして初期状態へのオフセットを分離して学習する
    • 大規模データセットVideo-RDMeshを構築し,ポーズの不一致をシミュレートすることで,ロバストな性能を実証した

    Link: https://arxiv.org/abs/2605.13838