arXiv雑要約

画像・音声 - 2026/03/19 公開

  • 幾何学的模倣から包括的生成へ:都市形態合成のための文脈情報を考慮したマルチモーダル拡散モデル [cs.CV, cs.AI]目的:都市形態の包括的な生成
    • 都市の機能性や活力を決定する都市形態の研究は,都市計画や設計において不可欠である。
    • 既存のシミュレーション手法は,都市のセマンティクスや地理的文脈の理解が不十分で,幾何学的な問題として単純化されがちである。
    • 本研究は,マルチモーダル情報の融合を通じて,より高度な都市形態の生成を目指す。
    • ControlCityは,画像,テキスト,メタデータ,建築物のフットプリントを組み合わせたデータセットを活用し,多様な情報を統合的に制御条件として利用する。
    • 実験結果から,提案手法は,既存手法と比較して,形態の忠実度と空間的重複度において顕著な改善が見られた (FID: -71.01%, MIoU: +38.46%)。
    • 本研究は,マルチモーダル融合が「幾何学的模倣」から「理解に基づく包括的生成」への転換において重要であることを示唆する。

    Link: https://arxiv.org/abs/2409.17049

  • Den-TP:軌跡予測のための密度バランス型データキュレーションと評価フレームワーク [cs.LG, cs.AI, cs.CV]目的:軌跡予測のための密度を考慮したデータセットのキュレーションと評価
    • 自動運転の安全性向上には,多様な運転シナリオを網羅した高品質な学習データが不可欠である。
    • 既存のデータセットは,シナリオの密度に大きな偏りがあり,特に高密度な危険な状況が不足している。
    • シナリオ密度を考慮し,データセットを再構築することで,モデルの頑健性を向上させる。
    • 提案手法Den-TPは,データセットのサイズを50%削減しつつ,全体的な性能を維持する。
    • 高密度なシナリオにおいて,従来の評価指標では見過ごされていた課題を明らかにする。
    • Argoverse 1および2の実験結果から,軌跡予測の精度はデータ量だけでなく,シナリオ密度のバランスに依存することが示された。

    Link: https://arxiv.org/abs/2409.17385

  • 効率的な拡散による低照度画像強調 [cs.CV, cs.AI]目的:低照度画像強調のための効率化手法
    • 画像処理分野において,低照度画像強調は,視覚的な品質向上や様々な応用において重要である。
    • 拡散モデルは高性能だが,反復計算に時間がかかり,実用上のボトルネックとなっている。
    • 拡散モデルの効率化を図りつつ,性能劣化を抑制すること。
    • 本研究では,誤ったスコア関数の線形外挿と,残差空間へのガウスフローのシフトにより,性能低下を抑制するRATRモジュールを提案した。
    • 提案手法ReDDiTは,既存の拡散モデルと同等の性能を2ステップで実現し,8ステップ,4ステップでもSOTAを達成した。
    • 10のベンチマークデータセットでの実験により,提案手法が既存のSOTA手法を上回ることが確認された。

    Link: https://arxiv.org/abs/2410.12346

  • Mamba2D:視覚タスクのためのネイティブな多次元状態空間モデル [cs.CV]目的:視覚タスクにおける多次元状態空間モデルの提案
    • Transformerの代替として効率的なモデルが求められている。
    • 既存の視覚SSMは自然言語処理由来のバイアスを抱えている。
    • 多次元データをネイティブに処理するSSMを開発し,性能向上を目指す。
    • ImageNet-1K分類において,M2D-Tは27Mパラメータで84.0%のトップ1精度を達成した。
    • M2D-Sは85.3%を達成し,SSMベースのアーキテクチャにおいて最先端の結果を確立した。
    • MS-COCOの物体検出やADE20Kのセグメンテーションにおいても高い汎化性能と効率性を示した。

    Link: https://arxiv.org/abs/2412.16146

  • 繰り返し一次価格オークションにおける共同価値推定と入札 [cs.LG, cs.GT, cs.IT, math.IT, stat.ME, stat.ML]目的:繰り返し一次価格オークションにおける後悔最小化
    • オンライン広告など,入札結果のみから価値を推定する必要性が高まっている
    • 価値推定の精度が低く,最適な入札戦略を立てることが困難である
    • 観測可能な特徴量に基づき,価値推定と入札戦略を同時に最適化する
    • 本研究では,因果推論を取り入れ,最高他者入札額(HOB)のフィードバックタイプに応じたアルゴリズムを提案した
    • 提案アルゴリズムは,完全情報フィードバックと二値フィードバックの両方において,ほぼ最適な後悔限界を達成する
    • 本フレームワークは,治療効果が単純な依存性を持つ場合に,オーバーラップ条件を必要としないという特徴を持つ

    Link: https://arxiv.org/abs/2502.17292

  • 連続トークンを用いた周波数自己回帰画像生成 [eess.SY, cs.SY, cs.CV, cs.AI]目的:画像生成のための周波数漸進的自己回帰パラダイム
    • 画像生成分野では,言語モデルの成功に触発された自己回帰モデルが主流である。
    • 画像とテキストのモダリティギャップが大きく,既存モデルの性能向上が課題である。
    • 周波数に基づく漸進的な回帰により,効率的な画像生成を目指す。
    • 本研究では,周波数スペクトル依存性を自己回帰モデルの回帰方向として採用した。
    • 高周波成分が低周波成分上に構築され,段階的に完全な画像を生成する。
    • ImageNetデータセットでの実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2503.05305

  • テスト時の3次元占有率予測 [cs.CV]目的:テスト時の3次元占有率予測フレームワーク
    • 自動運転においては,周囲環境の正確な理解が不可欠であり,3次元占有率予測はその重要な要素である。
    • 従来の3次元占有率予測は,高コストなアノテーションや,モデルの再学習を必要とする柔軟性の欠如が課題であった。
    • 本研究は,学習不要かつ柔軟なテスト時予測により,これらの課題を解決することを目指す。
    • 提案手法TT-Occは,実行時にビジョンファウンデーションモデルを活用し,時間情報を考慮した3次元ガウス関数を動的に構築・最適化する。
    • これにより,任意の解像度でのボクセル化が可能となり,学習データに依存しない汎用的な物体認識を実現した。
    • Occ3D-nuScenesおよびnuCraftベンチマークにおける実験で,既存手法を大きく上回る性能が確認された。

    Link: https://arxiv.org/abs/2503.08485

  • コンピューター断層撮影を用いたマルチモーダル3D姿勢・形状推定 [eess.SY, cs.SY, cs.CV]目的:周術期における患者の3D姿勢・形状推定
    • 周術期医療において,正確な患者姿勢・形状把握は,手術計画の最適化やナビゲーションの精度向上に不可欠である。
    • 従来のRGB-D等では,寝具による遮蔽や複雑な患者体位により,推定精度が低下し臨床結果に影響を与える場合がある。
    • 本研究は,遮蔽された領域の再構成と,姿勢・形状推定精度の向上を目指す。
    • 詳細な幾何学的特徴をCTスキャンから抽出し,深度マップと融合する新しいネットワークmPSE-CTを提案した。
    • mPSE-CTは,従来の最高性能手法と比較して,姿勢推定で23%,形状推定で49.16%の性能向上を示した。
    • この結果は,困難な周術期環境下での臨床結果改善に貢献する可能性を示唆する。

    Link: https://arxiv.org/abs/2503.19405

  • 腹腔鏡手術ビデオにおける相乗的な出血領域と出血点検出 [cs.CV]目的:腹腔鏡手術ビデオにおける出血領域と出血点の検出
    • 腹腔鏡手術中の出血は,術野を迅速に遮断し,術後合併症のリスクを高めるため,対策が重要である。
    • 出血領域の定量的な評価や出血源の特定は困難であり,迅速な止血を妨げる要因となっている。
    • 出血領域と出血点を同時に検出することで,術中の意思決定を支援し,手術の成功率向上を目指す。
    • 本研究では,出血領域と出血点の注釈付きデータセット「SurgBlood」を構築し,リアルワールドの腹腔鏡手術ビデオを活用した。
    • 提案手法BlooDetは,Segment Anything Model 2を基盤とし,適応的なエッジと点プロンプト埋め込みを用いた出血領域検出と,マスクメモリを活用した出血点検出を同時に行う。
    • 実験結果から,BlooDetは13種類の既存手法と比較して,出血検出において優れた性能を示した。

    Link: https://arxiv.org/abs/2503.22174

  • ID制約による顔条件付けを用いた高精度拡散顔入れ替え [cs.CV]目的:拡散モデルを用いた顔入れ替えにおける高精度化
    • 顔認識技術の発展に伴い,顔画像処理の応用範囲が広がり,顔入れ替え技術の重要性が増している。
    • 既存手法では,入れ替え元のIDとターゲットの属性を両立させることが難しく,特にIDの保持が課題となっていた。
    • IDを優先的に保持しつつ,ターゲットの属性との整合性を高めることで,より自然な顔入れ替えを実現する。
    • 本研究では,ID制約と属性調整を分離したフレームワークを導入し,IDの保持と属性整合性の両立に成功した。
    • 実験結果から,提案手法は既存手法と比較して,ID類似性と属性の一貫性において優れた性能を示すことが確認された。
    • 高精度な顔入れ替えを可能にし,本分野における新たな最先端技術を確立した。

    Link: https://arxiv.org/abs/2503.22179

  • ニストローム超勾配を用いた二段階ポリシー最適化 [cs.LG, cs.AI, cs.GT]目的:アクター・クリティック法における二段階最適化の構造を考慮した新しいアルゴリズムの開発
    • 強化学習において,アクターとクリティックの相互依存性は重要な課題である。
    • アクター・クリティック法の学習は,計算不安定性や収束性の問題に直面しやすい。
    • ニストローム法を用いて超勾配を効率的に計算し,学習の安定性と収束性を向上させる。
    • 提案手法BLPOは,強化学習における二段階最適化の構造をネスト化によって適切に扱う。
    • BLPOは,ニストローム法を用いて超勾配を計算することで,計算コストと安定性の問題を軽減する。
    • 理論的にも,BLPOが多項式時間で強スタケルベルグ均衡点に収束することが証明されている。

    Link: https://arxiv.org/abs/2505.11714

  • 自律走行のためのエコー計画:現在の観測から未来の軌跡へ,そして再び現在へ [cs.CV, cs.RO]目的:将来の軌跡予測とシーンの整合性を高める自己修正フレームワークの開発
    • 自動運転技術は,安全性と効率性を向上させ,交通渋滞の緩和に貢献する重要な分野である。
    • 既存の自動運転システムは,予測軌跡とシーン変化の一貫性を保つ機構が不足している。
    • 予測誤差の累積を防ぎ,長期的計画の安定化を目指す。
    • 提案手法「エコー計画」は,現在のシーンから未来の軌跡を予測し,さらにその軌跡から現在のシーンを再構築するサイクルを確立する。
    • サイクル損失によって,元のシーンと再構築されたシーンの一貫性を強制することで,物理的に不自然な軌跡を抑制する。
    • nuScenesデータセットを用いた実験で,L2誤差が0.04m減少し,衝突率が0.12%低下することが示された。

    Link: https://arxiv.org/abs/2505.18945

  • 内視鏡手術画像修復のベンチマークとそれ以上のもの [cs.CV]目的:内視鏡手術における画像劣化問題への取り組み
    • 内視鏡手術では,正確な術中判断に鮮明な視界が不可欠である。
    • 手術中の煙,レンズの曇り,血液や組織液の付着により,視界が著しく悪化する。
    • 臨床的ニーズを満たす画像修復アルゴリズム開発の余地が大きい。
    • 本研究では,内視鏡環境に対応したオープンソースのSurgCleanデータセットを構築した。
    • SurgCleanを用いて,22種の画像修復手法の性能を評価し,臨床要件との乖離が確認された。
    • 手術画像と自然画像の構造的・意味的差異を分析し,ドメイン特化型修復研究の知見を提供する。

    Link: https://arxiv.org/abs/2505.19161

  • ドメインおよびタスクに焦点を当てた,データ効率的なコントラスト医療画像セグメンテーションのための事例選択 [cs.CV]目的:データ効率的なコントラスト医療画像セグメンテーションのための事例選択手法
    • 医療画像解析において,セグメンテーションは画像に基づく意思決定に不可欠であり,その精度が重要である。
    • ピクセルレベルの注釈はコストと時間がかかり,エラーも発生しやすいため,大規模なデータセットの作成が課題となる。
    • 限られたラベル付きデータから効率的に学習し,セグメンテーションの性能を向上させることを目指す。
    • 提案手法PolyCLは,ラベルなしデータと限られた注釈を用いたコントラスト学習により,医療画像セグメンテーションを実現した。
    • PolyCLは,画像間の内在的な関係を利用し,タスクに関連する文脈を考慮した識別特徴を学習・転移する。
    • Segment Anything Model (SAM)を組み込むことで,粗い出力からのbounding boxプロンプトによるマスクの精度向上,および2Dスライスからの3Dセグメンテーションの生成を可能にした。

    Link: https://arxiv.org/abs/2505.19208

  • HyperMotionX:DiTベースの姿勢誘導による複雑な人体動作の画像アニメーションのためのデータセットとベンチマーク [cs.CV]目的:複雑な人体動作における姿勢誘導型画像アニメーションのデータセットおよびベンチマーク
    • 拡散モデルの発展により,条件付き動画生成技術が飛躍的に向上。特に,姿勢誘導による人体画像アニメーションの精度向上が期待される。
    • 既存手法では,複雑な人体動作や動的なシーンにおいて,高品質で時間的に一貫性のあるアニメーション生成が困難である。
    • 複雑な人体動作に対する高品質な評価データセットと,その改善を促すベンチマークの提供を目的とする。
    • DiTベースの姿勢誘導画像アニメーション生成基盤を提案し,低周波数空間特徴モデリングを強化するRoPEモジュールを開発した。
    • 提案手法は,高度な動的動作シーケンスにおいて,構造的安定性と外観の一貫性を大幅に向上させることを実証した。
    • Open-HyperMotionXデータセットとHyperMotionXベンチマークは,複雑な人体動作における画像アニメーションモデルの評価と改善に貢献する。

    Link: https://arxiv.org/abs/2505.22977

  • 体積関数マップ [cs.GR, cs.CG]目的:3D形状間の体積対応付け
    • 医療や産業応用の重要なツールであり,3D形状解析の基礎となる。
    • 体積データに対する関数マップの構築手法は未発達であり,表面ベースの手法に限定される。
    • 体積データに対する高品質な信号伝送を可能にする関数空間の確立と編集手法の提供。
    • 体積ラプラス演算子の固有関数が,高品質な信号伝送に適した関数空間を定義することを示した。
    • 表面ベースの手法を体積領域に移植し,セグメンテーション転送,メッシュ接続性転送,ソリッドテクスチャリングなどの実用的な応用例を示した。
    • 体積スペクトルは,表面のみのスペクトル法と比較して,形状マッチングタスクの精度を大幅に向上させることを示した。

    Link: https://arxiv.org/abs/2506.13212

  • 拡散モデルのメカニズム解釈:回路レベル分析と因果的検証 [cs.CV]目的:拡散モデルにおける計算経路とメカニズム原理の解明
    • 生成モデルの発展は,画像生成をはじめとする多様な応用を可能にする重要な研究分野である。
    • 拡散モデルの内部動作は複雑であり,そのメカニズムの理解が十分に進んでいない。
    • 拡散モデルの回路レベルでの動作を分析し,そのメカニズムを解明することを目指す。
    • 拡散モデルは,合成データと自然なデータの処理において,アルゴリズム的に明確な違いを示すことが明らかになった。
    • 実世界の顔画像処理には,より複雑な回路が必要であり,注意機構の専門化パターンも異なることが示された。
    • 特定機能を持つ8つの注意機構(エッジ検出,テクスチャ分析,意味理解等)が特定され,介入実験によりその機能が検証された。

    Link: https://arxiv.org/abs/2506.17237

  • 融合前に確認せよ:ロバストな3D検出のための2D誘導クロスモーダルアラインメント [cs.CV, cs.AI]目的:LiDARとカメラ入力のクロスモーダルアラインメントによる3D検出の精度向上
    • 自動運転車の3D知覚能力向上には,LiDARとカメラ情報の統合が不可欠である。
    • 既存手法は,LiDARとカメラの特徴間の空間的ずれに起因する誤った深度学習や融合誤差に悩まされている。
    • 2D検出器で信頼性の高い物体境界を検出し,クロスモーダル特徴を事前にアラインメントすることで,この問題を解決する。
    • 提案手法Prior Guided Depth Calibration (PGDC)により,クロスモーダル特徴のアラインメント精度が向上し,正しい特徴ペアが保持された。
    • Discontinuity Aware Geometric Fusion (DAGF)により,PGDCからの残差ノイズが抑制され,物体境界での鮮明な深度遷移が強化された。
    • nuScenes検証データセットにおいて,mAP 71.5%,NDS 73.6%を達成し,最先端の性能を示した。Argoverse 2でもmAP 41.7%を獲得した。

    Link: https://arxiv.org/abs/2507.16861

  • 忘却の逆予測による知識過多重みの予測 [cs.LG, cs.AI, cs.CV]目的:知識過多重みの予測
    • 事前学習済み重みは,深層学習の効率的な知識転移に不可欠である。
    • 既存の事前学習では,与えられたデータセット以上の知識を組み込むことが難しい。
    • 構造化された忘却とその逆転を利用し,より知識豊富な重みを予測する。
    • 段階的にデータセットを縮小しながらファインチューニングすることで,構造的な忘却過程を誘導する。
    • 忘却過程をモデル化し,逆転させることで,より大規模なデータセットで学習したかのような重みを回復する。
    • 提案手法KNOWNは,重みの一般的な進化を学習し,汎化性能の高い重みを予測する。

    Link: https://arxiv.org/abs/2508.05059

  • タスクを認識し行動する:ロボット操作のためのタスク認識型仮想視点探索 [cs.RO, cs.CV]目的:ロボット操作におけるタスク関連の仮想カメラ視点選択と動的再レンダリング
    • ロボットの汎用的な操作能力向上は,人手不足や危険な作業環境への対応に不可欠である。
    • 従来のVLAモデルは,固定されたカメラ設定や共有の視覚エンコーダに依存し,隠蔽やタスク間の転移に課題がある。
    • タスクに応じた視点探索により,隠蔽された物体への対応や,異なるタスクへの適応を可能にすることを目指す。
    • 提案手法TVVEは,既存のベースラインよりも高い成功率を達成し,分布シフトに対するロバスト性を示す。
    • タスク認識型混合エキスパート(TaskMoE)を用いることで,マルチタスク学習における干渉を軽減する。
    • 実機ロボット実験により,視覚的な妨害や未知の指示に対する頑健性が確認された。

    Link: https://arxiv.org/abs/2508.05186

  • 包括的なコミュニケーションに向けて:手話,唇,音声からの音声言語生成のための統一的フレームワーク [cs.CV, cs.MM, eess.AS, eess.IV]目的:手話,唇,音声の多様な組み合わせに対応可能な音声言語テキスト生成のための統一的フレームワーク
    • 音声は主要なコミュニケーション手段であり,音声認識技術の発展を牽引してきた。
    • 音声中心のシステムは,聴覚障害者を排除してしまうという課題がある。
    • 手話,唇,音声の統合的な処理を通して,より包括的なコミュニケーションを実現する。
    • 本研究のフレームワークは,手話翻訳,視覚音声認識,音声認識,オーディオビジュアル音声認識において,タスク固有の最先端モデルと同等以上の性能を達成した。
    • 唇の動きを独立したモダリティとして明示的にモデル化することで,手話翻訳の性能が大幅に向上することが示された。
    • 唇の動きは,手話理解における非言語的な手がかりとして重要な役割を果たしていることが明らかになった。

    Link: https://arxiv.org/abs/2508.20476

  • OccTENS:時間的次スケール予測による3D occupancyワールドモデル [cs.RO, cs.CV]目的:3D occupancyワールドモデルの生成と制御
    • 自動運転やロボティクスにおいて,周囲環境の3D理解は不可欠である。リアルタイムかつ高精度な環境認識が求められる。
    • 既存手法は,計算コストが高い,長期間の予測で精度が低下する,制御性が低いといった課題を抱えている。
    • 時間的次スケール予測により,効率的かつ高精度な長期予測と制御性を実現することを目指す。
    • OccTENSは,空間スケールごとの生成と時間的なシーンごとの予測に分解することで,効率的な予測を可能にする。
    • TensFormerを用いることで,occupancyシーケンスの時間的因果関係と空間的関係を柔軟かつスケーラブルに管理できる。
    • 提案手法は,最新手法と比較して,occupancy品質と推論速度の両方で優れた性能を示す。

    Link: https://arxiv.org/abs/2509.03887

  • EdiVal-Agent: マルチターン編集の自動的かつ詳細な評価のためのオブジェクト中心フレームワーク [cs.CV, cs.AI, cs.LG]目的:マルチターン編集の自動的かつ詳細な評価
    • 画像編集技術は進歩しているが,その性能を客観的に評価する方法が課題となっている。
    • 既存の評価手法は,参照画像への依存や,ゼロショットVLMの精度不足といった問題を抱えている。
    • オブジェクト中心のアプローチを用いて,マルチターン編集の評価精度向上を目指す。
    • EdiValは,画像を入力として意味のあるオブジェクトに分解し,編集指示を生成することで評価を行う。
    • EdiVal-IF,EdiVal-CC,EdiVal-VQという3つの評価指標を新たに提案し,マルチターン編集の評価を実現した。
    • EdiVal Benchというベンチマークを構築し,様々な編集モデルの性能評価を行い,課題を特定した。

    Link: https://arxiv.org/abs/2509.13399

  • MLLMがどこに着目し,何に依存しているか:自己回帰トークン生成の説明 [cs.CL, cs.RO, cs.CV]目的:マルチモーダル大規模言語モデルにおける自己回帰トークン生成の説明
    • 画像と自然言語を連携させるMLLMは注目されている。その仕組みの理解が不可欠である。
    • 生成されたトークンが視覚情報にどれだけ依存しているか不明確であり,解釈性と信頼性に課題がある。
    • MLLMのトークン生成における視覚情報の寄与度を定量化し,解釈性を向上させることを目指す。
    • EAGLEは,軽量なブラックボックスフレームワークであり,視覚領域への注意と,言語事前知識と視覚的証拠の相対的影響を定量化する。
    • EAGLEは,既存手法よりも忠実性,局在化,幻覚診断において優れており,GPUメモリ消費量も少ないことが示された。
    • この結果は,MLLMの解釈性を進める上でのEAGLEの有効性と実用性を示唆している。

    Link: https://arxiv.org/abs/2509.22496

  • M3DLayout:3D屋内レイアウトと構造化記述の大規模マルチソースデータセット [cs.CV, cs.AI]目的:3D屋内レイアウト生成のためのデータセット
    • テキストによる3Dシーン生成において,レイアウトは重要な中間表現であり,物理的妥当性とセマンティック制御を可能にする。
    • 既存のデータセットは規模,多様性,注釈の質が限られており,3D屋内レイアウト生成モデルの学習能力を制約している。
    • 多様なデータソースと高品質な注釈を通じて,複雑な空間・意味的パターンを学習可能なデータセットを構築する。
    • M3DLayoutは,21,367のレイアウトと433k以上のオブジェクトインスタンスを含む大規模なマルチソースデータセットである。
    • 実験結果から,本データセットはレイアウト生成モデルの学習基盤として有効であることが示された。
    • 特にInf3DLayoutサブセットは,詳細な小オブジェクト情報を持ち,より複雑なシーン生成を可能にする。

    Link: https://arxiv.org/abs/2509.23728

  • 大規模な自己改善型デモンストレーションによる目標指向型視覚言語ナビゲーション学習 [cs.CV]目的:目標指向型視覚言語ナビゲーションにおける自己改善型デモンストレーションの学習
    • 実環境でのロボットナビゲーション実現には,視覚情報と自然言語指示を理解する能力が不可欠である。
    • 既存手法は最短経路に偏りがちで,未知環境での効果的な探索戦略が不足している。
    • 自己改善サイクルを通じて,より探索能力が高く,汎化性能に優れたナビゲーションエージェントを開発する。
    • 提案手法SIDは,最短経路データで初期エージェントを学習し,そのエージェントによる探索軌跡を生成する。
    • 生成された軌跡をデモンストレーションとして活用し,エージェントを反復的に改善するサイクルを構築した。
    • SIDは,REVERIE,SOON等のベンチマークで最先端の性能を達成し,SOONの未知検証データで50.9%の成功率を記録した。

    Link: https://arxiv.org/abs/2509.24910

  • LMOD+: 眼科におけるマルチモーダル大規模言語モデルの開発・評価のための包括的マルチモーダルデータセットおよびベンチマーク [cs.RO, cs.CV]目的:眼科領域におけるマルチモーダル大規模言語モデルの開発と評価のためのデータセットおよびベンチマーク
    • 眼疾患は世界的な健康問題であり,早期診断が重要である。
    • 眼科領域に特化した,生成モデルを評価するための包括的なベンチマークデータセットが不足している。
    • 眼科AI応用の発展と,視覚障害による負担軽減を目指す。
    • 本研究では,12種類の眼科疾患と5種類の画像モダリティを含む32,633件の大規模データセットを構築した。
    • 最先端のMLLM 24モデルを評価した結果,ゼロショット設定での疾患スクリーニングの精度は約58%であった。
    • 疾患の段階評価などの難しいタスクでは,性能が十分ではないことが示された。

    Link: https://arxiv.org/abs/2509.25620

  • 微分可能な運動軌跡によるベクター スケッチ アニメーション生成 [cs.GR, cs.AI, cs.CV]目的:ベクター スケッチ アニメーションの自動生成
    • 視覚表現の簡便性から,スケッチは重要な手段である。
    • 動画スケッチ生成は,時間的な一貫性維持が難題である。
    • フレーム間のちらつきを抑制し,安定した生成を目指す。
    • 微分可能な運動軌跡(DMT)表現により,複数フレーム間で意味的な勾配伝播が可能となった。
    • DMTは,ポリノミアルベースの軌跡を用いて制御点移動を記述し,時間的な一貫性を向上させる。
    • DAVISおよびLVOSデータセットでの評価で,最先端手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2509.25857

  • ガウススプラッティングによるデータセット蒸留のパラメータ化 [cs.CL, cs.CV, cs.AI]目的:データセット蒸留のためのガウススプラッティングに基づく,簡潔で効果的なデータセットパラメータ化手法
    • 現代のモデル訓練では大規模データセットへの依存度が高いが,データセット蒸留はその負担を軽減しうる。
    • 既存手法は複雑な追加モジュールを必要とするか,表現力と効率のバランスを取れていない。
    • 限られた保存容量内で,より多様で高性能な蒸留データセットを実現すること。
    • 提案手法GSDDは,CUDAベースのスプラッティング演算子を活用し,並列処理による高品質なレンダリングを低コストで実現する。
    • ガウスプリミティブは,重要な訓練特徴を効果的に捉え,疎でありながら表現力豊かな画像表現を可能にする。
    • ImageNet-1Kなどの大規模データセットや動画蒸留タスクにおいて,競争力のある結果と性能向上を達成した。

    Link: https://arxiv.org/abs/2509.26219

  • CoT-PL:オープンボキャブラリ物体検出のための思考連鎖擬似ラベリング [cs.CV]目的:オープンボキャブラリ物体検出における擬似ラベリングのフレームワーク
    • 物体検出は,画像認識の根幹技術であり,多様な応用分野で重要である。
    • 既存手法は,画像とテキストの一致に依存し,複雑な視覚的文脈の推論が不十分である。
    • 思考連鎖による推論を擬似ラベリングに組み込み,複雑なシーン理解を可能にする。
    • CoT-PLは,OV-COCOにおいて新規クラスに対するAP50を9.4ポイント改善した。
    • OV-LVISにおいて,bounding boxとmaskの平均精度(APr)をそれぞれ3.2と2.2ポイント向上させた。
    • CoT-PLは,既存の強力なベースラインと比較して,優れた擬似ラベリング効率を達成した。

    Link: https://arxiv.org/abs/2510.14792

  • 衛星画像からの没入型3D都市シーンの合成:Skyfall-GS [cs.CV]目的:大規模で探索可能な3D都市シーンの合成
    • 没入型アプリケーションや具現化されたアプリケーションにおいて,現実的な3D環境は不可欠である。
    • 汎用的な生成モデルを訓練するための大規模で高品質な3Dスキャンデータが不足している。
    • 衛星画像と拡散モデルを用いて,コストのかかる3Dアノテーションなしで3D都市シーンを生成する。
    • Skyfall-GSは,衛星画像による粗い形状と拡散モデルによる高品質な近接表現を組み合わせることで,都市ブロック規模の3Dシーンを生成する。
    • カリキュラム駆動型の反復洗練戦略により,幾何学的な完全性とフォトリアリスティックなテクスチャを段階的に向上させる。
    • 実験の結果,Skyfall-GSは最先端の手法と比較して,より一貫性のある形状とリアルなテクスチャを提供する。

    Link: https://arxiv.org/abs/2510.15869

  • 選好に基づく学習のためのVCGメカニズムによる真実性の高いフィードバックの誘引 [cs.GT]目的:選好に基づく学習における真実性の高いフィードバック誘引
    • 資源配分は,経済活動や社会システムにおいて不可欠であり,効率的な資源利用に貢献する。
    • エージェントのコスト関数が不明確である場合や,戦略的な虚偽申告が行われる可能性がある。
    • 真実を申告するインセンティブを与えるメカニズムを設計し,効率的な資源配分を実現する。
    • 提案手法は,D-最適設計による情報的選好クエリ選択,最尤推定によるコストパラメータ推定,VCG配分と支払計算を組み合わせる。
    • 一回限りの設定では,提案メカニズムは近似的に真実性,個別合理性,効率性を満たすことが証明された。
    • オンライン設定では,Tラウンド後,$\tilde{\mathcal O}(T^{2/3})$のレートで漸近的にこれらの保証が成立し,亜線形後悔を示す。

    Link: https://arxiv.org/abs/2510.17285

  • OCRとYOLOv8を用いたクリケット動画における自動ウィケット奪取配達区分と軌跡に基づくアウトゾーン分析 [cs.CV, cs.AI]目的:クリケット動画におけるウィケット奪取配達の識別,ピッチとボールの検出,そしてボール軌跡のモデル化
    • クリケットは豊富な視覚情報と文脈情報を提供するが,戦術分析は依然として遅く主観的な手作業に依存している。
    • クリケットの戦術分析は,手作業による時間と労力を要し,客観性に課題がある。
    • クリケット動画の分析を自動化し,データ駆動型のアウトゾーン分析とバッティングの弱点評価を可能にする。
    • 提案システムは,スコアカード情報とウィケットイベントを抽出するOCRと画像処理技術を組み合わせている。
    • ピッチ検出モデルはmAP50 99.5%を,ボール検出モデルはmAP50 99.18%をそれぞれ達成した。
    • 検出結果に基づき,ボール軌跡をモデル化し,ウィケット奪取に関連するアウトゾーンを明らかにした。

    Link: https://arxiv.org/abs/2510.18405

  • 敵対的自己蒸留によるワンステップ因果ビデオ生成 [cs.CL, cs.SI, math.OC, cs.CV]目的:効率的な因果ビデオ生成手法の開発
    • ビデオ生成技術は,コンテンツ制作やデータ拡張など,様々な応用分野で重要性を増している。
    • 既存のハイブリッドビデオ生成モデルは,逐次的な処理により,エラーの蓄積や推論時間の長期化が課題であった。
    • 本研究は,蒸留に基づくフレームワークを用いて,少ないステップ数で高品質なビデオ生成を実現する。
    • 敵対的自己蒸留(ASD)戦略により,学生モデルのnステップと(n+1)ステップの出力を分布レベルで整合させることで,生成品質を向上させた。
    • First-Frame Enhancement(FFE)戦略により,初期フレームに重点的にデノイジングステップを割り当てることで,エラー伝播を抑制した。
    • VBenchを用いた実験により,ワンステップおよびツーステップのビデオ生成において,最先端の手法を上回る性能が示された。

    Link: https://arxiv.org/abs/2511.01419

  • 生成的なヒント [cs.RO, cs.CV, cs.AI]目的:入力分布における既知の関数的不変性を直接強制すること
    • 画像認識において,モデルの汎化性能を高めるためにデータ拡張が広く用いられている。
    • データ拡張は不変性を間接的に捉えるだけで,学習関数への明示的な制約とならない。
    • データ拡張では捉えきれない不変性を,生成モデルを用いて直接学習することを目指す。
    • 生成的なヒントは,標準的なデータ拡張と比較して,ファインチューングレインの画像分類ベンチマークで最大2.10%の精度向上を達成した。
    • また,CheXpert医療画像データセットでは平均1.29%の精度向上を示した。
    • この手法は,複数のデータセット,アーキテクチャ,不変性タイプ,損失関数に対して一貫して良好な結果を示している。

    Link: https://arxiv.org/abs/2511.02933

  • ロヒンギャ難民キャンプにおけるWASHアクセス評価のための半教師ありシェルターマッピング [cs.CV]目的:ロヒンギャ難民キャンプにおけるシェルターの分布とWASHアクセス状況の変化
    • 難民キャンプでは人口密度が高く,感染症の蔓延リスクが高いため,WASH(水,衛生,保健)へのアクセス確保が重要である。
    • 既存のシェルターマッピング手法では,密集したキャンプ環境での正確な検出が課題となっていた。
    • リモートセンシングとAIを用いて,WASHアクセス状況の評価と改善に資する証拠を生成すること。
    • Segment Anything Model (SAM)を用いた半教師ありセグメンテーションにより,シェルター検出精度が向上した。
    • 2020年以降のシェルター拡張は安定化したが,人口増加により一人当たりの居住スペースは2020年から2025年の間に約14%減少した。
    • WASHへのアクセス性は2022年から2025年にかけて低下し,特に女性のアクセス性は男性に比べて約27%低かった。

    Link: https://arxiv.org/abs/2511.07231

  • ドラフトと洗練:視覚専門家との協調 [eess.SY, cs.SY, cs.CV]目的:大規模視覚言語モデルの視覚情報利用度定量化と,それに基づく応答の改善
    • 近年,視覚と言語を組み合わせたAI研究が盛んであり,その応用範囲は広い。
    • 大規模言語モデルは言語情報に偏りやすく,視覚的根拠に基づかない応答を生み出すことがある。
    • 視覚情報利用度を定量化し,視覚専門家のフィードバックにより,モデルの応答精度と信頼性を高める。
    • 提案手法「Draft and Refine (DnR)」は,視覚情報利用度を指標として,エージェントが視覚専門家からフィードバックを受けながら応答を洗練させる。
    • 視覚的根拠に基づいた応答選択により,VQAやキャプション生成のベンチマークにおいて,精度向上とハルシネーションの低減が確認された。
    • 視覚情報利用度の測定が,解釈可能で根拠に基づいたマルチモーダルAIシステムの構築に貢献することが示唆された。

    Link: https://arxiv.org/abs/2511.11005

  • Neighbor GRPO:コントラスト的ODE方策最適化がフローモデルを整合させる [cs.CL, cs.CV, cs.LG, eess.IV]目的:画像・動画生成モデルと人間の嗜好の整合
    • 生成モデルの性能向上には,人間の意図との整合性が不可欠である。
    • ODEを用いたフローマッチングモデルへのGRPO適用は困難であった。
    • SDEを介さずに,ODEの特性を活かした効率的な整合手法を開発する。
    • 本研究では,初期ノイズ条件を摂動させることで多様な候補軌跡を生成するNeighbor GRPOを提案した。
    • 距離ベースの代替方策を用いることで,SDE変換の必要性を回避し,効率的な学習を実現した。
    • 実験により,Neighbor GRPOがSDEベースの手法よりも学習コスト,収束速度,生成品質において優れていることが示された。

    Link: https://arxiv.org/abs/2511.16955

  • DSeq-JEPA:識別的シーケンシャル結合埋め込み予測アーキテクチャ [cs.CV]目的:識別的シーケンシャルプロセスと結合埋め込み予測アーキテクチャの統合
    • 視覚表現学習は,画像認識等の多様なタスクにおいて高い性能を発揮するため,重要性が増している。
    • 既存手法では,予測対象領域を並列に処理するため,視覚的注意の段階的な性質を捉えきれていない。
    • 視覚的重要性に基づいた識別的シーケンシャル予測により,より汎化性能の高い表現学習を実現する。
    • DSeq-JEPAは,I-JEPAと比較して,画像分類,ファインチューン分類,物体検出,セマンティックセグメンテーション等の様々なタスクで,より識別的かつ汎化性能の高い表現を学習することが示された。
    • DSeq-JEPAは,アテンション由来のサリエンシーマップを用いて主要な識別領域を特定し,それらの領域を優先的に予測することで,視覚的注意の段階的な性質を模倣している。
    • この識別的シーケンシャルプロセスは,事前学習において主要なキューから二次的なキューへと意味的な進行を誘導し,表現学習の質を向上させている。

    Link: https://arxiv.org/abs/2511.17354

  • 拡散モデルの少数ステップ少数ショット画像生成のための統一的蒸留と適応 [cs.RO, cs.CV, cs.AI]目的:拡散モデルの蒸留と適応を統合した画像生成手法
    • 拡散モデルは高品質な画像を生成するが,新しい領域への適応には計算コストが高いという課題がある。
    • 既存の蒸留モデルは教師モデルの領域に限定され,未知の領域への高速かつ高品質な生成が困難である。
    • 本研究は,拡散モデルの蒸留と適応を同時に行い,高速かつ高品質な画像生成を実現することを目的とする。
    • Uni-DADは,ソース教師とターゲット教師の両方の分布に学生モデルを近づける蒸留損失と,ターゲット領域のリアリズムを高めるGAN損失を組み合わせる。
    • ソース領域の知識を保持しつつ,GAN損失により過学習を抑制することで,少数ショット環境下でも安定した学習を可能にする。
    • FSIGおよびSDPのベンチマークで最先端手法と同等またはそれ以上の性能を示し,特に少ないサンプリングステップ数で高品質な画像を生成する。

    Link: https://arxiv.org/abs/2511.18281

  • MagicWorld:インタラクティブなビデオ世界探索における長期的安定性に向けて [cs.CV]目的:インタラクティブなビデオ世界における長期的安定性の実現
    • ビデオ世界のモデル化は,没入型体験やシミュレーションの可能性を広げる重要な分野である。
    • 複雑な環境下では,モーションのずれやエラーの蓄積が,現実的なシーン進化を妨げる課題となっている。
    • モーションのずれを抑制し,長期的視点でのエラー蓄積を軽減することで安定したビデオ世界を実現する。
    • MagicWorldは,フロー誘導によるモーション維持制約により,動的対象物のモーションのずれを軽減し,現実的な相互作用を促進する。
    • 過去の生成結果を検索する履歴キャッシュ戦略と,二重報酬重み付けを用いた集約蒸留によるインタラクティブ学習戦略によって,長期的な安定性を向上させる。
    • RealWM120Kデータセットを構築し,動的な知覚と長期的な世界モデリングをサポートすることで,実験的に有効性を示す。

    Link: https://arxiv.org/abs/2511.18886

  • WPT:オンラインワールドモデル蒸留による世界からポリシーへの転移 [cs.CV]目的:ワールドモデルを用いたポリシー転移手法の開発
    • 環境との相互作用を学習するワールドモデルは,ロボット工学や強化学習において重要性を増している。
    • 従来のワールドモデルは,リアルタイム性能やエンドツーエンドでの最適化が困難という課題があった。
    • 本研究は,オンライン蒸留により,効率的かつ安全なポリシー学習を実現することを目指す。
    • WPTは,エンドツーエンドのワールドモデルの指針のもとでオンライン蒸留を可能にする新たな学習パラダイムである。
    • オープンループベンチマークで0.11の衝突率,クローズドループベンチマークで79.23の運転スコアを達成し,高い精度と安全性を実現した。
    • 軽量な学生ポリシーは,推論速度を最大4.9倍向上させながら,教師ポリシーの性能を維持する。

    Link: https://arxiv.org/abs/2511.20095

  • SO-Bench:マルチモーダルLLMの構造化出力評価 [cs.CV, cs.AI, cs.CL, cs.RO]目的:マルチモーダルLLMにおける構造化出力の評価
    • マルチモーダルLLMは現実世界で利用が増加しており,正確性だけでなく,データ構造への適合性も重要である。
    • 視覚入力に対する構造化情報抽出・推論を体系的に評価するベンチマークが存在しなかった。
    • 視覚入力に基づいた構造化出力能力の課題を明らかにし,改善策を探る。
    • SO-Benchは,UIスクリーン,自然画像,ドキュメント,チャートを含む4つの視覚ドメインを網羅し,高品質な画像とスキーマのペアを1.8K組提供する。
    • 実験の結果,既存のオープンソースおよびプロプライエタリモデルは,正確かつスキーマに準拠した出力を予測する上で課題が残ることが示された。
    • 追加の学習実験により,モデルの構造化出力能力を大幅に向上させることができた。

    Link: https://arxiv.org/abs/2511.21750

  • SimScale:大規模な実世界シミュレーションによる運転学習 [cs.CV, cs.RO]目的:自動運転システムの学習
    • 自動運転技術の発展は,安全性向上や交通効率化に不可欠である。
    • 実世界データでは,危険な状況や異常事態のデータが不足しがちである。
    • シミュレーションによるデータ拡張で,実世界データの不足を補うことを目指す。
    • 大規模シミュレーションにより,既存の運転ログから多様な状態を合成できる。
    • 実世界データとシミュレーションデータの共同学習により,頑健性と汎化性能が向上する。
    • シミュレーションデータ量の増加のみで性能向上が期待でき,実世界データの追加は必須ではない。

    Link: https://arxiv.org/abs/2511.23369

  • TALO:3Dビジョン基礎モデルをグローバルに一貫したオンライン再構成へ [cs.CV]目的:3Dビジョン基礎モデルにおける時間的一貫性維持
    • 自動運転などリアルタイムな3D再構成の重要性が高まっている。
    • 従来のオンライン再構成手法は,ノイズや局所的な整合性不足に課題があった。
    • 空間的に変動する不整合を修正し,ロバストな3D再構成を実現すること。
    • 提案手法TALOは,Thin Plate Splineを用いた高自由度な長期整合フレームワークを採用した。
    • グローバルに伝播する制御点により,空間的に変動する不整合を効果的に修正できる。
    • 多様な3D基礎モデルやカメラ構成において,一貫性のあるジオメトリと低い軌道誤差を達成した。

    Link: https://arxiv.org/abs/2512.02341

  • 視覚から幾何学へ:逐次的な具現化されたMLLM推論と探索のための3D空間記憶 [cs.CV]目的:逐次的な具現化されたタスクにおける空間知識の再利用
    • 現実世界でのロボット応用のためには,環境理解と空間推論能力が不可欠である。
    • 既存研究は単独の目標に焦点を当てており,一連のタスクにおける知識の再利用が課題となっている。
    • 過去の探索で得られた空間知識を,後続の推論と探索に活用する手法を開発する。
    • 提案手法3DSPMRは,視野角に基づいた幾何学的制約を導入することで,エージェントの記憶,推論,探索能力を向上させる。
    • 新しいベンチマークSEER-Benchは,実現可能なタスクと不可能なタスクの両方を含み,厳密な評価を可能にする。
    • 実験により,3DSPMRが逐次的なEQAおよびEMNタスクの両方で著しい性能向上を達成することが確認された。

    Link: https://arxiv.org/abs/2512.02458

  • PubTables-v2:フルページおよび複数ページ表抽出のための新しい大規模データセット [cs.SI, cs.CE, cs.CL, cs.HC, cs.CV]目的:フルページおよび複数ページ表抽出のための大規模データセット
    • 視覚的文書理解において,表抽出は重要な課題であり,情報へのアクセスを容易にする。
    • 既存のデータセットの規模が小さく,複数ページにわたる表構造認識のベンチマークが不足している。
    • 複数ページ表構造認識を含む,様々な表抽出タスクにおけるモデルの性能向上を目指す。
    • PubTables-v2は,フルページおよび複数ページ表抽出タスクをサポートする新しい大規模データセットである。
    • 複数ページ表認識は,現在のモデルの重要な課題であり,性能向上の余地が大きい。
    • ページを跨ぐ表の結合を予測する画像分類器の導入が,性能を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2512.10888

  • キーフレームFace:意味的キーフレームによる言語駆動型顔アニメーション [cs.CV]目的:言語による顔アニメーション生成のための,解釈可能なキーフレーム表現
    • CG業界において,顔アニメーションはデジタルキャラクター制作の重要な要素である。
    • 既存手法は,言語から直接連続フレームを生成するため,意図と動作が混在し,制御や編集が困難である。
    • 本研究は,アニメーション制作のキーフレームパラダイムに着想を得て,言語から解釈可能なキーフレームを生成する。
    • 提案手法KeyframeFaceは,ARKitベースの顔制御空間において,意味的なキーフレーム系列としてアニメーションを表現する。
    • 大規模言語モデルを活用し,文脈や感情に合致したキーフレームを生成することで,表情の再現性と意味的整合性を向上させる。
    • 表情スクリプトと動画,ARKit係数,意味的キーフレームを含むマルチモーダルデータセットを構築し,有効性を検証した。

    Link: https://arxiv.org/abs/2512.11321

  • Aion:時間的フローダイナミクスを持つ階層的4Dシーングラフへ [cs.RO, cs.CV]目的:動的な環境における自律航行のための空間表現の構築
    • ロボットの自律航行には,環境の構造と時間変化を捉えた空間表現が不可欠である。
    • 既存の動的環境表現は,個々の物体に焦点を当てているか,あるいはスケーラビリティに課題がある。
    • シーングラフに時間的フローダイナミクスを組み込み,航行計画とインタラクションを改善すること。
    • Aionは,時間的フローダイナミクスを階層的3DSGに埋め込むフレームワークである。
    • グラフベースの疎なMoD表現を用いることで,任意の時間間隔における運動フローを捉える。
    • これにより,より解釈可能でスケーラブルな予測が可能になり,複雑な動的環境での計画とインタラクションが改善される。

    Link: https://arxiv.org/abs/2512.11903

  • TechImage-Bench:技術画像生成の評価ルブリック [cs.CV]目的:技術画像生成の評価基準
    • 科学技術分野では,正確な図表が知識伝達に不可欠である。
    • 既存の画像生成AIは,見た目の美しさ重視で,科学的正確性に欠ける場合がある。
    • 科学技術図表の正確性を客観的に評価し,生成AIの改善に役立てること。
    • TechImage-Benchは,生物学的図解,工学図面,一般的な技術図表を評価するための基準を提示する。
    • 既存のテキスト-画像モデルは,このベンチマークにおいて,科学的正確性に大きな課題があることが示された。
    • 評価基準を改善サイクルに組み込むことで,AIによる科学的正確性の高い画像生成が可能になることが示唆された。

    Link: https://arxiv.org/abs/2512.12220