arXiv雑要約

画像・音声 - 2026/05/15 公開

  • TurboVGGT:適応的交互注意による高速視覚幾何再構成 [cs.CV]目的:高速多視点3D再構成のための効率的な視覚幾何変換器
    • 3D再構成技術は,ロボット工学,AR/VRなど幅広い分野で重要性が増している。
    • 既存手法は,再構成品質と計算効率の両立が難しく,大規模データへの適用が課題である。
    • フレーム間・フレーム内の情報を効率的に捉え,高品質な再構成を高速に実現することを目指す。
    • TurboVGGTは,適応的スパースグローバル注意とフレーム注意を組み合わせることで,高速な多視点3D再構成を実現した。
    • フレームごとに重要度の異なる代表的なトークンを学習し,グローバルな幾何形状を効率的にモデリングしている。
    • 複数の3D再構成ベンチマークにおいて,最先端手法と同等の再構成品質を維持しつつ,高速な処理を実現した。

    Link: https://arxiv.org/abs/2605.14315

  • D2-CDIG:DEMと雲霧の二重事前知識による制御拡散リモートセンシング画像生成 [cs.CV]目的:リモートセンシング画像生成の制御メカニズム
    • リモートセンシングの発展は,大規模モデルや応用分野において信頼性の高いデータ基盤を必要とする。
    • 既存手法は地形や大気条件の活用が不十分で,複雑な環境下での生成画像に精度と自然さが欠ける。
    • DEMと雲霧情報を二重事前知識として統合し,地形と大気現象を精密に制御することを目指す。
    • 提案手法D2-CDIGは,拡散モデルと二重事前知識制御メカニズムを統合した新しいフレームワークである。
    • 地形と大気現象の生成プロセスを独立して制御し,雲霧スライダーで雲の厚さと分布を調整可能である。
    • 分割やエッジ検出に基づく従来手法と比較し,画像品質,詳細度,リアリズムが大幅に向上した。

    Link: https://arxiv.org/abs/2605.14326

  • InsightTok:自己回帰型画像生成における離散トークン化のテキストと顔の忠実度向上 [cs.CY, cs.CV]目的:自己回帰型画像生成のための離散トークン化におけるテキストと顔の忠実度向上
    • 画像生成において,テキストや顔は重要な要素であり,その品質が実用性に大きく影響する。
    • 従来の離散トークナイザーは,テキストの可読性や顔の特徴を捉えきれず,細部の構造が失われるという課題があった。
    • 本研究では,テキストと顔の忠実度を重視したトークナイザーを開発し,画像生成の品質向上を目指す。
    • InsightTokは,16kのコンパクトなコードブックと16倍のダウンサンプリング率で,従来のトークナイザーよりもテキストと顔の再構成において優れた性能を発揮する。
    • この性能向上は,自己回帰型画像生成モデルInsightARに一貫して転移し,より鮮明なテキストと忠実な顔の詳細を持つ画像を生成する。
    • 本研究の結果は,トークナイザーの学習における特殊な教師データの有効性を示唆している。

    Link: https://arxiv.org/abs/2605.14333

  • 照明誘導拡散モデルによる複雑な夜間シーン復元 [cs.CV]目的:複雑な夜間シーンの復元手法
    • 夜間環境下での視認性は重要であり,人や機械の活動に影響を与えるため。
    • 既存手法は単一の劣化にしか対応できず,悪天候と低照度など複雑な夜間シーンへの対応が課題である。
    • 低照度環境における複合的な劣化問題に対し,照明誘導モジュールを組み込むことで解決を目指す。
    • 提案手法は,拡散モデルに照明誘導モジュールを統合し,照明復元プロセスを効果的に誘導する。
    • これにより,低照度環境下における様々な劣化に対し,テクスチャの忠実性を維持しながら復元が可能となる。
    • 複雑な夜間シーンをシミュレーションしたデータセットを新たに構築し,手法の有効性を検証した。

    Link: https://arxiv.org/abs/2605.14337

  • LLMベースASRにおけるテキストのみドメイン適応のための擬似音声プロンプトの精緻化 [cs.NI, cs.SD]目的:LLMベース自動音声認識におけるテキストのみドメイン適応のための擬似音声プロンプト生成手法
    • LLMと音声エンコーダを組み合わせたASRは高性能だが,ペアデータ不足が課題。
    • テキストのみの適応では,音声情報が無視されるか,表現力に限界がある。
    • 音声とテキストの対応を明示的にモデル化し,表現力豊かな擬似音声プロンプトを生成する。
    • 提案手法は,既存のテキストのみ適応手法と比較して,全体的なエラー率および語彙外語の網羅率を改善した。
    • 音声とテキストの対応関係を考慮することで,擬似音声プロンプトの表現力を向上させ,ドメイン適応を効果的に実現した。
    • 効率的に擬似音声プロンプトを生成し,データが少ない状況でも高い適応性能を発揮する。

    Link: https://arxiv.org/abs/2605.14340

  • AnyBand-Diff:スペクトル事前知識を用いた統一的なリモートセンシング画像生成・バンド修復フレームワーク [cs.CV]目的:リモートセンシング画像の生成とバンド修復のためのフレームワーク
    • 地球観測において,高精度な画像生成はデータ分析や環境モニタリングに不可欠である。
    • 既存の拡散モデルは物理法則を無視し,スペクトル歪曲や放射振る舞いの不整合を引き起こす。
    • 物理的に妥当なリモートセンシング画像を生成し,正確なスペクトル再構成を実現すること。
    • AnyBand-Diffは,マスク付き条件付き拡散バックボーンと二重確率的マスキング戦略により,任意のバンド部分集合から完全なスペクトル情報を復元する。
    • 物理モデルの勾配を活用した物理誘導サンプリングメカニズムにより,ノイズ除去軌跡を物理的にあり得る解の多様体へと導く。
    • マルチスケール物理損失を導入することで,ピクセル,領域,グローバルレベルで厳密な制約を同時に適用する。

    Link: https://arxiv.org/abs/2605.14341

  • セマンティック事前知識を用いた学習:階層的知識蒸留による赤外線微小ターゲット検出の安定化 [cs.CV]目的:赤外線微小ターゲット検出におけるセマンティック事前知識の活用
    • 赤外線微小ターゲット検出は,背景のノイズが多い状況下で微小なターゲットを検出する重要な技術である。
    • ピクセル単位のアノテーションは高コストであり,軽量CNN検出器は十分なセマンティクスに欠けるため,擬似マスクのノイズや最適化の不安定化が生じる。
    • 本研究は,事前知識を活用し,擬似ラベルのノイズを軽減し,学習の安定性を向上させることを目指す。
    • 凍結されたVision Foundation Model (VFM) を活用した階層的知識蒸留フレームワークを提案し,点による教師あり学習を改良した。
    • 検証データに基づいた知識伝達と,Semantic-Conditioned Affine Modulation (SCAM) により,CNNの特徴表現にVFMのセマンティクスを注入した。
    • 複数のバックボーンで実験を行い,検出精度と学習の安定性の両方において,一貫した改善が確認された。

    Link: https://arxiv.org/abs/2605.14346

  • 不完全情報ゲームにおける自己対戦探索の加速のためのデータ拡張型ゲーム開始戦略 [cs.LG, cs.AI, cs.GT, cs.MA]目的:不完全情報ゲームにおける自己対戦探索の加速
    • 大規模なゲームにおいて,最適戦略を見つけることは計算資源の制約から困難である。
    • 報酬が疎であり,長期間にわたる探索が難しいため,効率的な探索手法が求められている。
    • 熟練者のプレイデータを用いて探索を効率化し,より迅速に均衡状態に近づくことを目指す。
    • データ拡張型ゲーム開始戦略(DAGS)により,限られた計算資源で,より低いエクスプロイタビリティを実現した。
    • ゲーム開始状態の分布を拡張することで,偏った均衡状態が生じる可能性があるが,その緩和策も提示した。
    • 既存のOpenSpielゲームにおいて,探索の難易度と状態数を大幅に増加させたベンチマーク環境を公開した。

    Link: https://arxiv.org/abs/2605.14379

  • デルタ強制:インタラクティブ自己回帰型動画生成のためのトラストリージョン制御 [cs.CV, cs.GR, cs.MM]目的:インタラクティブなリアルタイム自己回帰型動画生成
    • 動画生成技術は,コンテンツ作成やワールドモデリングなど,動的に変化する状況に対応可能なビジュアルコンテンツの生成に不可欠である。
    • 既存手法では,条件変化後にドリフトが持続的に発生する問題があり,反応性と安定性の両立が難しい。
    • 条件付きバイアスを抑制し,一貫性とイベントへの反応性を両立させることを目指す。
    • デルタ強制は,教師データの信頼性の低い指導を適応的なトラストリージョン内に制限するシンプルな枠組みである。
    • 潜在的な教師と生成器の軌跡間のデルタから推測される遷移の一貫性を利用し,教師の指導と単調な連続性目的とのバランスをとる。
    • 実験結果から,デルタ強制は一貫性を大幅に向上させつつ,イベントへの反応性を維持することが示された。

    Link: https://arxiv.org/abs/2605.14382

  • 忠実性と知覚のバランスを考慮した画像圧縮のための二重潜在的協調デコーディング [cs.CV]目的:忠実性と知覚のバランスを両立した画像圧縮手法
    • 画像圧縮は,データ容量削減に不可欠であり,高品質な画像伝送・保存を可能にする。
    • 既存手法では,単一の潜在表現が複数の役割を担い,忠実性と知覚のバランスが課題。
    • 異なる潜在パラダイムの利点を組み合わせ,両者の協調により課題を解決する。
    • 提案手法MoDEは,忠実性重視の枝と知覚重視の枝を設け,それぞれの特徴を活かす。
    • 専門家特有の強化(ESE)と,相互専門家変調(CEM)により,効果的な協調を実現した。
    • 広範囲なビットレートにおいて,既存手法よりも優れた忠実性と知覚のバランスを達成した。

    Link: https://arxiv.org/abs/2605.14391

  • 類推的軌跡変換 [cs.CV]目的:異なる3D環境間における,意味的に類似した位置への運動軌跡の変換
    • AR/VRやロボティクスなど,空間推論能力は,機械に高度なタスクを実行させる上で重要である。
    • シーンの配置,スケール,レイアウトの違いから,単純な意味の一致では衝突や幾何学的歪みが生じやすい。
    • 意味と機能を維持し,軌跡の破断や衝突を防ぐ,効率的な軌跡変換手法の開発。
    • シーンをオブジェクト中心のクラスタに分割し,階層的な滑らかなマップ予測を通じてクロスシーンマッピングを推定する。
    • クラスタごとのマップを組み合わせ,衝突や歪みを解消することで,空間的に一貫性のある軌跡変換を実現する。
    • 本手法は学習を必要とせず,LLMやVLMなどの既存手法を上回り,高速な実行時間(約0.6秒)を達成した。

    Link: https://arxiv.org/abs/2605.14393

  • 条件付き拡散によるオンライン地図構築における意味的攻撃の体系的発見 [cs.CV, cs.CR, cs.LG, cs.RO]目的:オンライン地図構築における意味的攻撃の体系的な発見
    • 自動運転の安全性確保に不可欠な高精度地図作成技術の信頼性向上は喫緊の課題である。
    • 既存の画像摂動攻撃は防御されやすく,意味レベルでの攻撃に対する脆弱性が課題となっていた。
    • 拡散モデルを利用し,現実的な環境変化を装った意味的攻撃による地図誤認識を誘発する手法を開発する。
    • MIRAGEは,既存の防御策を回避し,道路境界の検出を57.7%抑制し,96%の計画軌道を誤らせる境界削除攻撃に成功した。
    • 境界注入攻撃は,他の攻撃手法(pixel PGD, AdvPatch)が失敗する中で,架空の境界を注入することに成功した。
    • 生成された攻撃画像は,VLMによる判断で80-84%の確率で現実的と判定され,既存手法よりも高いリアリティを実現した。

    Link: https://arxiv.org/abs/2605.14396

  • SceneForge:3D介入による構造化されたワールドからの教師あり学習 [cs.CV, cs.GR]目的:編集,視点,シーンレベルの介入を通して一貫性を保つ教師データの生成
    • マルチモーダル学習において,編集や視点変更に強いロバストな教師データが不可欠である。
    • 既存の観測レベルのデータセットは,シーンの状態や変化の伝播を捉えきれないという課題がある。
    • 編集可能な3Dワールド状態から構造化された教師データを生成することで,この課題を解決する。
    • SceneForgeは,シーンのセマンティック,幾何学的,物理的依存関係を表現する持続的なワールドとしてシーンをモデル化する。
    • 明示的な介入(オブジェクトの削除やカメラの変更など)を適用し,シーンの依存関係を通してその効果を伝播させることで,一貫性のある教師データを生成する。
    • 実験の結果,SceneForgeを用いた教師データは,オブジェクト削除およびシーン削除の性能を向上させることが示された。

    Link: https://arxiv.org/abs/2605.14399

  • 皮膚科画像解析のための自己反省型エージェントシステム:多角的推論と追跡可能な意思決定 [cs.CV]目的:皮膚科画像に対する多角的推論と追跡可能な意思決定を行う自己反省型エージェントシステムの開発
    • 皮膚疾患の診断は,視覚的知見と専門知識の統合が不可欠であり,その精度向上が重要である。
    • 既存のマルチモーダル大規模言語モデルは,皮膚科領域特有の知識が不足しており,誤った情報を生成する可能性がある。
    • 皮膚科領域特有の知識を組み込み,誤情報の生成を抑制することで,診断精度と信頼性を向上させる。
    • DermAgentは,皮膚科の5つのベンチマークにおいて,最先端のMLLMや医療エージェントの性能を上回る結果を示した。
    • 特に,皮膚疾患の診断精度においてGPT-4oを17.6%上回り,キャプション生成のROUGE-Lスコアでも3.15%の改善が見られた。
    • DermAgentは,Plan-Execute-Reflectの枠組みと,7つの専門モジュールを組み合わせることで,段階的かつ追跡可能な診断推論を実現する。

    Link: https://arxiv.org/abs/2605.14403

  • GeoViSTA:マルチモーダル環境表現のための空間視覚・表形式Transformer [cs.LG, cs.CV]目的:大規模地球観測画像による自然環境と都市環境の表現
    • 地球観測技術の発展により,環境変化の理解が不可欠となっている。
    • 既存のモデルは,表形式データの構造化された社会経済的要因を直接モデル化していない。
    • 画像データと表形式データを統合し,環境に関する総合的な推論を可能にすること。
    • GeoViSTAは,画像と表形式データの双方から統一された空間埋め込みを学習する。
    • 双方向クロスアテンションと地理的認識アテンションメカニズムによって,異なるモダリティ間の情報交換を実現。
    • GeoViSTAは,疾患特異的死亡率や火災発生頻度の予測において,既存モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2605.14406

  • 身体が動き出す前に:言語条件付きヒューマノイド制御のための予測的な関節意図の学習 [cs.RO, cs.CV]目的:言語条件付きヒューマノイド制御における予測的な関節意図
    • ヒューマノイドロボットの直感的な操作に言語が重要。複雑な動作を実現するには,将来の動きを予測する制御が不可欠。
    • 既存システムは,反応的な修正が必要か,接触変化やバランス調整の予測が不十分である。
    • 言語と制御の間に,将来の動きを予測する関節意図を学習するインターフェースを構築すること。
    • DAJIは,言語と閉ループ制御の間に予測的な関節意図インターフェースを学習する階層的フレームワークである。
    • DAJI-Actは,教師あり学習を用いて,展開可能な拡散行動ポリシーを学習する。
    • 実験により,DAJIはHumanML3DやBABELで高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.14417

  • エンドツーエンド音声認識における語彙サイズの決定のための微積分に基づくフレームワーク [cs.CL, cs.SD]目的:エンドツーエンド音声認識における最適な語彙サイズの推定
    • 音声認識は,人間と機械間の自然なコミュニケーションを可能にする重要な技術である。
    • エンドツーエンド音声認識では,語彙サイズが性能に大きく影響するが,その決定方法は確立されていない。
    • 本研究は,微積分の原理を用いて語彙サイズの最適値を理論的に推定することを試みる。
    • 学習データの曲線当てはめと,微分の原理を用いることで,語彙サイズを決定する。
    • 標準的なLibrispeechコーパスを用いた実験により,本手法の有効性を検証した。
    • 最適な語彙サイズを用いることで,音声認識の性能を向上させることが示された。

    Link: https://arxiv.org/abs/2605.14427

  • 必要に応じて思考する:デュアルLoRAアーキテクチャを用いた適応的推論駆動型マルチモーダル埋め込み [cs.CV, cs.CL, cs.IR]目的:マルチモーダル埋め込みの品質向上と効率化
    • マルチモーダル大規模言語モデルは,マルチモーダルタスクにおいて重要な役割を担う。
    • 既存手法は,推論コストが高く,パラメータ数が多いという課題がある。
    • 入力に応じて推論を適応的に行うことで,効率と性能の向上を目指す。
    • 提案手法TWNは,デュアルLoRAアーキテクチャにより,既存手法よりもパラメータ効率が良い。
    • 自己教師ありルーティングゲートにより,不要な推論を回避し,推論コストを削減する。
    • MMEB-V2の78タスクにおいて,最先端の埋め込み品質を達成し,効率性も向上した。

    Link: https://arxiv.org/abs/2605.14448

  • 拡散モデルにおける物体除去のためのインタラクティブなオープンソースツール ClickRemoval [cs.CV]目的:拡散モデルを用いた物体除去ツール
    • 画像編集の効率化が求められており,専門知識がなくても高品質な編集が可能となることが重要。
    • 既存のツールは,正確な除去に手間がかかる,または自然な背景生成が難しいといった課題がある。
    • ユーザーのクリック操作のみで,高精度な物体除去と自然な背景復元を実現することを目的とする。
    • ClickRemovalは,追加学習や手動マスク,テキスト記述なしで,クリック操作のみで物体を除去できる。
    • 自己注意機構の変調により,対象物体を特定し,背景を復元することで,競争力のある結果が得られた。
    • ソフトウェアパッケージはApache-2.0ライセンスのもとで公開されており,誰でも利用可能である。

    Link: https://arxiv.org/abs/2605.14461

  • HOIにおけるReal2Sim:単眼動画からの物理的に妥当なHOI再構成に向けて [cs.CV]目的:物理的に妥当な4D HOIアニメーションの再構成
    • HOIの認識は,3Dコンテンツ作成,具現化されたAI,シミュレーション学習など幅広い分野で重要である。
    • 既存手法では,一貫性のある軌跡は生成されるものの,安定した接触や物理的な妥当性が課題である。
    • 単眼動画から,単なる追跡ではなく,一貫性のある相互作用を再現することを目指す。
    • 提案手法HA-HOIは,人間の動きを基準とし,物体を相対的に再構成・調整することで,HOIの整合性を向上させる。
    • HA-HOIは,既存手法と比較して,人間と物体の位置合わせ,接触の一貫性,時間的安定性,シミュレーションへの適用性が改善される。
    • 本研究は,視覚的な妥当性だけでなく,物理的に根ざした相互作用アニメーションの実現に貢献する。

    Link: https://arxiv.org/abs/2605.14462

  • GeoVista:超高解像度リモートセンシング理解のための視覚的根拠に基づいた能動的知覚 [cs.CV]目的:超高解像度リモートセンシング画像におけるグローバルな文脈を維持し,効率的な探索を行うための能動的知覚フレームワーク
    • リモートセンシング技術は,地球観測や環境モニタリング等,幅広い分野で重要性が増している。
    • 既存モデルは,探索経路が単一になりがちで,広範囲なシーンにおける重要な情報を網羅できない場合がある。
    • 本研究は,計画に基づいた探索により,超高解像度リモートセンシング画像の理解精度と効率を向上させることを目指す。
    • GeoVistaは,グローバルな探索計画を構築し,複数の候補領域を検証することで,文脈を維持しつつ効率的に探索する。
    • APEX-GROと呼ばれる新しいデータセットを導入し,多様なタスクをグローバル・領域・物体間のインタラクティブな推論として定式化した。
    • RSHR-Bench,XLRS-Bench,LRS-VQAの実験により,GeoVistaが最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2605.14475

  • AI生成画像検出におけるアーティファクトバイアスの軽減 [cs.CV]目的:AI生成画像の汎化性能向上のためのアーティファクトバイアス低減
    • AI生成画像の悪用が増加しており,汎用的な検出技術の必要性が高まっている。
    • 既存手法は,コンテンツ,サイズ,フォーマットのバイアスを減らすものの,多様な生成パターンに対応できていない。
    • 再構成ベースの手法にGANベースの手法を組み合わせ,より多様なアーティファクトパターンを学習する。
    • 提案手法であるSEFは,再構成ベースとアップサンプリングベースの偽画像から相補的なアーティファクト情報を抽出する。
    • ドメイン固有の専門家をLoRA適応により訓練し,ゲートネットワークによる分離融合を行うことで,知識の干渉を抑制する。
    • 13のベンチマークにおいて高い性能を示し,幅広い生成手法への汎化性能が向上することを確認した。

    Link: https://arxiv.org/abs/2605.14486

  • ヘッド強制:ヘッドの異質性による長尺自己回帰型ビデオ生成 [cs.CV, cs.AI]目的:長尺ビデオ生成におけるエラー蓄積と文脈消失
    • ビデオ生成技術は,現実世界の表現を可能にする重要な分野であり,その進化が求められている。
    • 自己回帰型ビデオ拡散モデルは,長尺の生成においてエラーの蓄積や文脈の消失といった課題を抱えている。
    • アテンションヘッドの役割分担を最適化し,長尺かつ高品質なビデオ生成を可能にすることを目的とする。
    • 提案手法「ヘッド強制」は,学習を必要とせずに,ビデオ生成時間を5秒から数分に延長することに成功した。
    • 各ヘッドタイプに最適化されたKVキャッシュ戦略を適用することで,メモリ効率と生成品質を向上させた。
    • マルチプロンプトによるインタラクティブな生成にも対応し,既存手法を上回る性能を実証した。

    Link: https://arxiv.org/abs/2605.14487

  • 物理ベースiOCTソニフィケーションによる網膜下注射におけるリアルタイム相互作用認識 [cs.SD, cs.HC, eess.IV]目的:網膜下注射時のリアルタイム相互作用認識のためのソニフィケーションフレームワーク
    • 網膜下注射は高度な手技であり,熟練した技術と精密な空間認識が求められる。
    • iOCT画像解釈には注意が必要であり,認知負荷の増大や術者の負担が課題である。
    • iOCT情報を聴覚フィードバックに変換し,術者の負担軽減と手技向上を目指す。
    • 提案するソニフィケーションは,網膜層の識別精度と網膜変形イベントの検出において,既存手法を大きく上回った。
    • 特に,注射による網膜変形の検出において顕著な改善が認められ,臨床応用への可能性を示唆した。
    • 専門家による評価では,本手法の臨床的有用性と実用性が確認された。

    Link: https://arxiv.org/abs/2605.14500

  • HASTE:ヘッドごとの適応的疎な注意による,学習不要の動画拡散加速 [cs.CV, cs.AI]目的:動画拡散モデルの高速化手法
    • 動画生成技術は進歩しているが,計算コストが課題となっている。
    • 既存の疎な注意機構は,マスク予測や閾値設定にコストがかかる。
    • ヘッドごとの適応的調整により,高速化と品質維持を両立する。
    • 提案手法は,Wan2.1-1.3BとWan2.1-14Bにおいて,XAttentionとSVG2の速度を最大1.93倍に向上させた。
    • 動画品質と類似性指標を維持しつつ,高速化を実現している。
    • Temporal Mask ReuseとError-guided Budgeted Calibrationの2つのコンポーネントが有効であることが示された。

    Link: https://arxiv.org/abs/2605.14513

  • ArcGate:適応逆正接関数ゲート活性化関数 [cs.CV, cs.LG]目的:深層ネットワークにおける活性化関数の最適化
    • 深層学習の性能は活性化関数に大きく依存し,その重要性は高い。
    • 従来の活性化関数は形状が固定されており,データやタスクへの適応性に課題がある。
    • データ分布や特徴階層に合わせて非線形性を最適化する活性化関数を開発する。
    • ArcGateはPatternNetにおいて99.67%の最高精度を達成し,既存の活性化関数を上回った。
    • ArcGateはノイズ環境下でReLUと比較して26.65%高い性能を維持し,構造的な堅牢性を示した。
    • 学習されたパラメータの分析から,深い層ほどゲートの強度が強まり,信号伝播が向上することが示唆された。

    Link: https://arxiv.org/abs/2605.14518

  • 疎から密へ:DenseWarperによる多視点3Dヒューマンポーズ推定のための時空間融合 [cs.CV]目的:多視点画像を用いた3Dヒューマンポーズ推定における,時空間情報を活用した性能向上
    • 3Dヒューマンポーズ推定は,モーションキャプチャや行動認識など,様々な応用分野において重要である。
    • 従来の多視点アプローチは空間情報を捉えるには有効だが,隣接フレーム間の時間的依存関係の活用が不十分である。
    • 本研究は,時間的に分散した多視点画像を用いて,時間的制約を克服し,より高精度なポーズ推定を実現する。
    • 提案手法は,従来の密な多視点入力アプローチと比較して,優れた性能を示すことがHuman3.6MおよびMPI-INF-3DHPデータセットの実験で確認された。
    • 本手法は,カメラ数N倍の出力ポーズフレームレートを理論的に実現し,単一視点からのフレームレート制限を打破し,時間分解能を向上させる。
    • 利用するフレームを疎にすることでデータ冗長性を低減し,計算効率を向上させながら,より高い性能を達成する。

    Link: https://arxiv.org/abs/2605.14525

  • DiffPhD:弾性力学における異種材料の統一的な微分可能ソルバー - 接触豊富なGPUアクセラレーション [cs.GR, cs.DC, cs.NA, cs.RO, math.NA]目的:異種材料における弾性力学の微分可能シミュレーション手法
    • ソフトボディのシミュレーションは,システム同定,軌道最適化,Real2Sim転送の基盤となるため重要である。
    • 既存手法は,極端な剛性差,大規模変形下での超弾性,接触の多い相互作用といった異種材料の取り扱いに課題があった。
    • 本研究は,異種材料におけるこれらの課題を同時に解決することを目指している。
    • DiffPhDは,異種材料に対応した統一的なGPUアクセラレーション微分可能Projective Dynamicsフレームワークである。
    • 本手法は,従来のPDソルバーが不安定になる場合でも,最大100倍の剛性差に対して収束性を維持する。
    • これにより,これまでソルバーの脆弱性や計算コストによってボトルネックとなっていた,複合的なオブジェクトやロボットマニピュレーションなどの最適化が可能となる。

    Link: https://arxiv.org/abs/2605.14526

  • 大規模拡散ビジョン言語モデルにおけるマスク事前分布のドリフトと位置注意の崩壊の緩和 [cs.CV]目的:大規模拡散ビジョン言語モデルの反復生成と視覚的根拠付けの低下
    • ビジョン言語モデルは,画像とテキストの理解において重要な役割を果たし,多様な応用を可能にする。
    • 既存のモデルでは,長文生成時に反復的な生成や視覚的根拠付けの低下といった問題が生じている。
    • マスク事前分布のドリフトと位置注意の崩壊という根本的な原因に対処し,モデルの性能を改善することを目指す。
    • 提案手法であるマスク事前分布の抑制と単調RoPEスケーリングは,追加の学習を必要とせず,多様なLDVLMアーキテクチャに適用可能である。
    • 一般的なマルチモーダルベンチマークと視覚的根拠付けタスクにおいて,ベースラインLDVLMと比較して性能が向上した。
    • 特に,長文記述ベンチマークにおいて堅牢な改善が確認された。

    Link: https://arxiv.org/abs/2605.14530

  • PROVE:視覚メディアのための知覚的除去一貫性ベンチマーク [cs.CL, cs.CV, cs.AI, cs.MM]目的:画像および動画におけるオブジェクト除去の一貫性評価
    • 視覚メディアの編集技術は高度化しており,その品質評価が重要となっている。
    • 既存の評価指標は人間の知覚と一致せず,不自然な結果を高く評価する傾向がある。
    • 人間の知覚に合致する,より正確なオブジェクト除去の評価指標を開発すること。
    • 提案手法RC(Removal Coherence)は,空間一貫性(RC-S)と時間一貫性(RC-T)を測定する。
    • RCは,既存の評価プロトコルよりも人間の判断との相関が大幅に向上した。
    • PROVE-Benchという二段階のベンチマーク(PROVE-MとPROVE-H)を新たに導入した。

    Link: https://arxiv.org/abs/2605.14534

  • 頑健な歩行者認識のための局所時空間畳み込みネットワーク [cs.CV]目的:歩行者認識における頑健性の向上
    • 歩行者認識は,非侵襲性,遠距離での識別能力,変装への耐性を持つ有望な生体認証技術である。
    • 動画データの複雑さや視点,服装,持ち物などの外的要因により,歩行パターンを正確に捉えることが困難である。
    • 既存手法の計算コストや学習の複雑さを軽減しつつ,歩行パターンを効果的に学習する手法を開発する。
    • 局所時空間畳み込みネットワーク(LSTCN)を提案し,従来の2次元畳み込みネットワークに時間情報を組み込むことで,歩行パターン認識能力を高めた。
    • 水平・垂直方向のストリップ状の局所表現に空間特徴を分解するGlobal Bidirectional Spatial Pooling(GBSP)機構により,時間次元を2次元畳み込みに活用した。
    • 非対称畳み込みカーネルを用いることで,時間,空間,時空間領域を独立して学習し,特徴表現を豊かにした。

    Link: https://arxiv.org/abs/2605.14548

  • LiWi:ワイルドな環境におけるレイヤー化 [cs.CV]目的:自然画像の高品質な分解
    • 画像生成技術の進歩により,印象的なレイヤー化画像生成が可能になった。実世界への応用が期待される。
    • 実世界の画像のレイヤー化は未開拓の課題であり,詳細な編集や応用を制限している。
    • 大規模なレイヤー化データセットの構築と,自然画像における物体間の相互作用のモデリングを目指す。
    • 提案手法は,大規模データセットLiWi-100kを構築し,高品質な自然画像分解を実現した。
    • 影を考慮した学習と劣化・復元による境界修正により,光度およびアルファ境界の精度を向上させた。
    • RGB L1およびAlpha IoUの指標において,既存モデルを上回る最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.14552

  • ブレイク・ザ・ビート!制御可能なMIDI-to-ドラム音響合成 [cs.SD, cs.AI]目的:ドラムMIDIと参照オーディオの音色を用いたドラム音響のレンダリング
    • デジタル音楽制作において,ドラムループの作成は不可欠であり,その効率化が求められている。
    • 既存手法では,サンプルやリサンプリングに手間がかかる上,生成モデルは制御性に欠ける。
    • 高解像度MIDIに基づく高品質なドラム音響生成を通じて,制作ワークフローを改善すること。
    • 提案手法「ブレイク・ザ・ビート!」は,MIDI情報と参照音源の音色を組み合わせ,ドラム音響を合成可能である。
    • 事前学習済みのテキストtoオーディオモデルをファインチューニングし,コンテンツエンコーダとハイブリッド条件付け機構を導入した。
    • 音質,リズム精度,ビートの連続性に関する評価において,高い性能が確認された。

    Link: https://arxiv.org/abs/2605.14555

  • SpectraFlow: 構造的事前学習と周波数適応の統合による医用画像セグメンテーション [cs.CV]目的:医用画像セグメンテーションのための構造認識表現学習と境界指向デコーディングの統合フレームワーク
    • 医用画像解析は,疾患診断や治療計画において不可欠であり,高精度なセグメンテーションが求められる。
    • 限られたアノテーションデータでは,汎化性能が低く,曖昧な境界や微細構造の欠落が問題となる。
    • データ不足下でのセグメンテーション精度向上と,境界の鮮明化を目指す。
    • 提案手法では,構造を意識した表現学習と境界指向のデコーディングを組み合わせた二段階フレームワークを採用。
    • Mixed-Domain MeanFlow Pretrainingにより,画像とバイナリマスクを共有潜在空間で整列させ,構造的ガイダンスを活用。
    • ISIC-2016, Kvasir-SEG, GlaSの実験結果は,最先端手法と比較して一貫した性能向上と,低データ環境でのロバスト性の向上を示した。

    Link: https://arxiv.org/abs/2605.14566

  • 脳と意味論の架け橋:意味情報を用いたfMRIから動画再構成のための階層的フレームワーク [cs.CV]目的:fMRIデータからの動画再構成の精度向上
    • 脳機能の解明には,視覚的体験を神経活動から復元する技術が不可欠である。
    • 既存手法は,fMRI信号と動画コンテンツ間の意味的ギャップが大きく,再構成精度が低い。
    • 動画特有の情報や事前知識を取り込み,意味的ギャップを埋めることで再構成精度を向上させる。
    • 提案手法CineNeuronは,テキスト,画像,行動,物体のカテゴリを包括的に捉える豊富な埋め込み空間を構築する。
    • CineNeuronは,過去のデータから関連する「記憶」を動的に選択し,fMRI埋め込みと融合させることで動画再構成を改善する。
    • 2つのfMRI-to-videoベンチマークにおいて,CineNeuronは最先端手法を様々な指標で上回る結果を示した。

    Link: https://arxiv.org/abs/2605.14569

  • Med-DisSeg:分散駆動による表現学習を用いた高精度な医用画像セグメンテーション [cs.CV]目的:医用画像の細粒度セグメンテーションのための表現学習と解剖学的輪郭抽出の改善
    • 精密医療において,正確な医用画像セグメンテーションは不可欠であり,診断・治療の精度向上に貢献する。
    • ターゲットと周囲組織の類似性から,セグメンテーションが曖昧になり,信頼性の低い分離が生じる場合がある。
    • 表現の崩壊と,多スケールにおける微細な解剖学的構造の正確な抽出という課題を解決することを目指す。
    • 提案手法Med-DisSegは,分散損失と適応的注意機構を組み合わせることで,表現学習と解剖学的輪郭抽出を同時に改善する。
    • 分散損失は,バッチ内の潜在表現を負のペアとして扱うことでサンプル間のマージンを拡大し,境界を意識した埋め込みを生成する。
    • 5つのデータセットでの実験により,最先端の性能が確認され,マルチオルガンCTセグメンテーションにおいても良好な結果が得られた。

    Link: https://arxiv.org/abs/2605.14579

  • 一枚の絵は千の言葉に値するのか? 視覚的金融文書検索のための集約戦略に関する実証研究 [cs.CV, cs.AI, cs.IR]目的:視覚的金融文書検索における集約戦略の影響評価
    • 金融文書検索は,投資判断やリスク管理において重要な役割を担う。
    • 従来の検索方法では,複雑な金融文書の意味を正確に捉えられない場合がある。
    • 視覚的特徴を用いた検索において,集約による情報損失を軽減する。
    • 単一ベクトルへの集約が,金融文書における重要な情報を喪失することが示された。
    • 集約により,類似した文書がほぼ同一のベクトルに収束し,識別が困難になることが確認された。
    • グローバルテクスチャ優位性が,情報損失の根本原因であることが特定された。

    Link: https://arxiv.org/abs/2605.14581

  • FedStain:計算病理における連合ドメイン汎化のための高次染色統計のモデル化 [cs.CL, cs.CV]目的:計算病理における連合ドメイン汎化のための高次染色統計のモデル化
    • 病理画像解析は医療診断に不可欠であり,より正確な解析が求められている。
    • 染色方法のばらつきが画像解析の精度を低下させる要因となっている。
    • 高次染色統計を考慮することで,染色ばらつきの影響を軽減し,汎化性能を向上させる。
    • 提案手法FedStainは,高次染色モーメント(歪度と尖度)を連合最適化時に交換することで,染色ばらつきを捉える。
    • FedStainは,Camelyon17およびMvMidog-Fedベンチマークにおいて,最先端の既存手法を最大3.9%上回る精度を達成した。
    • FedStainは,高次染色統計を明示的にモデル化する初の連合ドメイン汎化アプローチである。

    Link: https://arxiv.org/abs/2605.14590

  • TOPOS:高忠実度かつ効率的な産業用3Dヘッド生成 [cs.CV, cs.GR]目的:単一画像からの3Dヘッド生成におけるジオメトリとアピアランスの同時復元
    • 映画,アニメーション,ゲーム業界において,高品質な3Dヘッド生成は不可欠である。
    • 既存の3D生成モデルは,一貫性のないトポロジーと多数の頂点を持つメッシュを生成し,再利用を困難にしている。
    • 産業標準のトポロジーに基づいた3Dヘッド生成により,リギングやアニメーションの効率化を目指す。
    • TOPOSは,スタジオ標準の固定トポロジーを持つ高品質な3Dヘッドメッシュを生成する。
    • 提案するTOPOS-VAEとTOPOS-DiTにより,単一画像から効率的に高忠実度なヘッドメッシュを生成することが可能になった。
    • TOPOS-Textureは,画像から再照明可能なUVテクスチャマップを生成し,生成されたテクスチャはメッシュジオメトリと整合性が高い。

    Link: https://arxiv.org/abs/2605.14594

  • 降水ナウキャストのための粗細段階マルチソースデータ融合フレームワーク VMU-Diff [cs.CV, cs.CE, cs.MM]目的:降水ナウキャストのための粗細段階マルチソースデータ融合フレームワーク
    • 気象学において,降水予測は重要な課題であり,防災や農業などへの応用が期待される。
    • 従来の降水ナウキャストは,レーダーデータのみに依存しており,予測の精度向上に限界がある。
    • 本研究は,レーダーと衛星データを融合し,予測精度と効率を向上させるフレームワークを提案する。
    • 提案手法VMU-Diffは,粗予測段階でレーダーと衛星データを融合し,大局的な動きを予測する。
    • 細予測段階では,残差拡散モデルを用いて詳細な予測を生成し,予測精度を向上させる。
    • 江蘇省SWANデータセットを用いた実験により,提案手法が最先端手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.14597

  • 正確な単一パノラマ3D検出に向けた:セマンティックガウス中心アプローチ [cs.CL, cs.CV]目的:パノラマ画像における3次元物体の検出
    • 広範囲なシーン理解には不可欠であり,自動運転やロボティクス等の応用が期待される分野である。
    • 2D特徴量を3Dに正確にマッピングすることが難しく,離散的な3Dグリッドへの投影による表現効率の低下が課題である。
    • 連続的なセマンティック3Dガウス表現を用いて,3D検出の精度向上と効率化を目指す。
    • 提案手法PanoGSDetは,連続的なセマンティック3Dガウス表現に基づいた単眼パノラマ3D検出フレームワークである。
    • パノラマ深度推定とセマンティックガウス成分で構成され,球状特徴量を3Dセマンティックガウスに投影し,最適化する。
    • Structured3Dデータセットでの実験により,既存手法と比較して顕著な性能向上が確認された。

    Link: https://arxiv.org/abs/2605.14601

  • MambaRain:0-3時間降水ナウキャストのためのマルチスケールMamba-Attentionフレームワーク [cs.CV]目的:0-3時間の降水ナウキャストの精度向上
    • 災害軽減やオペレーション判断には,精度の高い降水予測が不可欠である。
    • 既存手法は長距離の時空間相関を捉えにくく,90分以上の予測で性能が低下する。
    • MambaとAttention機構を組み合わせ,長時間の予測精度を向上させる。
    • MambaRainは,Mambaの長距離時間モデリングと自己注意機構を統合した新しいアーキテクチャである。
    • Mambaブロックが時間的ダイナミクスを効率的にモデル化し,自己注意モジュールが空間相関を明示的に特徴付ける。
    • スペクトル損失の導入により,予測画像のぼやけを抑制し,詳細な動きを保持する。

    Link: https://arxiv.org/abs/2605.14606

  • ViMU:ビデオにおける比喩的理解のベンチマーク [cs.CV, cs.CY]目的:ビデオにおける比喩的理解能力の評価
    • 映像メディアは単なる情報伝達手段を超え,感情や社会的意味を表現する。その理解は重要である。
    • 既存のモデルは文字通りの視覚的理解に偏っており,比喩や皮肉といった潜在的な意味の理解が不足している。
    • ビデオの潜在的な意味を推論し,多角的な証拠に基づいた解釈を可能にするモデルの評価を目指す。
    • ViMUは,最先端モデルのビデオにおける潜在的な意味理解能力を体系的に評価するための初のベンチマークである。
    • ViMUは,モデルが文字通りの認識を超えて暗黙の意味を推論できるかを,多岐にわたる証拠に基づいて検証する。
    • 提示される質問はヒントを含まず,モデルが事前に重要な情報を得ないように設計されている。

    Link: https://arxiv.org/abs/2605.14607

  • 識別的特徴学習による深層画像セグメンテーション [cs.CV, cs.LG]目的:深層画像セグメンテーションにおける識別的特徴学習
    • 画像認識の精度向上は,コンピュータビジョンの重要な課題であり,様々な応用分野で求められている。
    • 既存手法では,セグメンテーション境界の曖昧さや精度が課題であり,鮮明な境界生成が難しい。
    • 識別的特徴学習を通して,セグメンテーションの精度,境界の鮮明さ,モデルの信頼性を向上させる。
    • 提案手法であるDDAは,クラス間分散を最大化し,クラス内分散を最小化することで,特徴分布を明確化する。
    • DIS5Kベンチマークにおける評価により,DDAが様々なアーキテクチャにおいてセグメンテーション精度を向上させることが示された。
    • 識別的分析を組み込むことは,より堅牢なセグメンテーションモデル構築への有効な手段となる。

    Link: https://arxiv.org/abs/2605.14609

  • CalibAnyView: 野外環境における単一視点カメラキャリブレーションの限界を超える [cs.CV]目的:野外環境における信頼性の高い幾何学的知覚のためのカメラキャリブレーション手法
    • 幾何学的知覚の信頼性は,カメラキャリブレーションに大きく依存する。実世界での応用には不可欠である。
    • 従来のキャリブレーション手法は制御された環境下でのみ有効であり,実環境での利用が困難である。
    • 複数の視点からの幾何学的整合性を考慮した,実環境下で利用可能なキャリブレーション手法を開発する。
    • CalibAnyViewは,任意の数の入力視点($N \geq 1$)に対応する統一的なフレームワークを提案している。
    • 大規模なマルチビュービデオデータセットを構築し,多様な現実世界のシナリオを網羅している。
    • 実験の結果,CalibAnyViewは最先端の手法を凌駕し,3D再構成やロボット知覚などの下流タスクにおいて堅牢な基盤を提供する。

    Link: https://arxiv.org/abs/2605.14615

  • 幻覚の軽減に外部ツールは本当に必要か? SIRA:帰属のための共有接頭辞による内部再構成 [cs.CE, cs.CV, cs.AI, cs.CL]目的:大規模視覚言語モデルにおける幻覚軽減
    • 視覚情報が弱く曖昧な場合に,言語事前知識が優位になり幻覚が発生しやすい。
    • 既存手法は外部からの摂動画像を用いるため,不自然な結果や計算コストが増加する。
    • モデル内部で対照的な参照を生成し,幻覚を軽減する。
    • SIRAは,追加の学習や外部ツールなしに,既存手法と同等以上の幻覚軽減効果を示す。
    • SIRAは,マルチモーダルTransformerの情報フローを利用し,モデル内部で対照的な参照を生成する。
    • SIRAは,計算コストを抑えつつ,記述的な網羅性を維持する。

    Link: https://arxiv.org/abs/2605.14621

  • UniTriGen:RGB-Tセマンティックセグメンテーションのための整列Visible-Infrared-Label三つ組の一体化生成 [cs.CV]目的:少数のRGB-Tセマンティックセグメンテーションのための,整列したVisible-Infrared-Label三つ組の生成
    • RGB-Tセマンティックセグメンテーションは,現実世界における様々な応用において重要である。多様な環境下での認識精度向上が求められている。
    • 現実のシナリオでは,厳密に整列したVIS-IR-Label三つ組のデータが不足しているという課題が存在する。
    • 本研究は,VIS, IR, Label間の空間的・意味的な一貫性を保ちながら,高品質な三つ組データを生成することを目指す。
    • UniTriGenは,テキストプロンプトのガイダンスの下,空間的に整列し,意味的に一貫性があり,モダリティ補完的なVIS-IR-Label三つ組を直接生成する。
    • 提案手法では,VIS, IR, Labelを共有潜在空間に統合し,拡散過程を適用することで,グローバルなクロスモダリティの一貫性を強制する。
    • 実験により,UniTriGenが限られた実データから高品質な三つ組を生成し,様々なRGB-Tセマンティックセグメンテーションモデルの性能向上に貢献することが示された。

    Link: https://arxiv.org/abs/2605.14626

  • 行動に着想を得た生成モデル [cs.HC, cs.LG, cs.AI, cs.CV]目的:生成モデルの品質向上
    • 生成モデルは多様な応用を持つため,その性能向上が重要である。
    • 既存のブリッジマッチング法は,構造的に意味のある経路とそうでない経路を区別していない。
    • 学習可能なポテンシャルを用いて,重要な経路を識別し,生成品質を向上させる。
    • 軽量な学習ポテンシャル$V_\phi$を導入することで,輸送経路の重要度をオンラインで評価し,ドリフト目標を調整する。
    • このポテンシャルは,主要なドリフトネットワークのパラメータ数のわずか1.4%であり,推論グラフにオーバーヘッドを追加しない。
    • 実験の結果,学習ポテンシャルによる不要な輸送経路の抑制が,生成品質の一貫した向上につながることが示された。

    Link: https://arxiv.org/abs/2605.14631

  • MultiEmo-Bench:マルチモーダル大規模言語モデル向け多ラベル視覚感情分析ベンチマーク [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルの画像による感情喚起予測能力の包括的評価
    • 画像認識技術と自然言語処理の融合は,人間とコンピュータのより自然なコミュニケーションを可能にする。
    • 既存の感情分析データセットは,単一の感情候補に基づいたアノテーションのため,多面的な感情表現を捉えきれていない。
    • マルチモーダル大規模言語モデルの感情分析能力をより正確に評価するための,多ラベル形式の新しいベンチマークデータセットを構築する。
    • 本研究で構築したMultiEmo-Benchは,10,344枚の画像と236,998件の投票データを含み,多様な感情の分布を反映している。
    • Qwen3-VL,GPT,Gemini,Claudeなどの最新モデルの評価を行った結果,モデルの性能向上は認められるものの,改善の余地は大きいことが示された。
    • LLMを評価者として用いる方法は,主観的な視覚感情分析タスクにおいては一貫した性能向上をもたらさなかった。

    Link: https://arxiv.org/abs/2605.14635

  • CAMの評価と改良方法 [cs.CV, cs.AI]目的:CAMの評価基準と改良手法
    • 深層学習の解釈性は,モデルの信頼性と応用範囲を拡大する上で不可欠である。
    • 既存のCAM評価指標は,正解データがないため,信頼性の評価が困難である。
    • CAMの評価方法の改善と,高解像度CAM生成手法の開発。
    • 本研究では,正解アトリビューションを持つ合成データセットを導入し,既存の評価指標を厳密に比較した。
    • 新規指標ARCCは,より信頼性の高い説明を識別することが示された。
    • 提案手法RefineCAMは,複数層のCAMを統合することで高解像度アトリビューションマップを生成し,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.14641