arXiv雑要約

画像・音声 - 2026/03/17 公開

  • 運動の脈動:視覚的ダイナミクスからの物理フレームレートの計測 [cs.IR, cs.SY, eess.SY, cs.CV, cs.AI]目的:物理フレームレートの推定
    • 現実世界の物理シミュレーションには,空間と時間の両方の理解が不可欠である。
    • 既存の生成モデルはフレームレートのばらつきに起因する時間的な曖昧さを抱える。
    • 視覚的ダイナミクスから物理フレームレートを推定し,時間的な一貫性を確立すること。
    • 提案手法Visual Chronometerは,入力動画の視覚的ダイナミクスから物理フレームレートを予測する。
    • 実験により,最先端の動画生成モデルはフレームレートのずれと不安定性を抱えていることが明らかになった。
    • 物理フレームレートの補正を適用することで,AI生成動画の自然さを大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2603.14375

  • 高ダイナミックレンジビデオ再構成のための長期間協調的注意フレームワーク [cs.CV]目的:高ダイナミックレンジビデオ再構成における新しいフレームワークの提案
    • 高ダイナミックレンジ(HDR)ビデオは,現実世界の映像を忠実に再現するために不可欠である。
    • 従来のHDR再構成手法は,正確な位置合わせに依存し,複雑なシーンでゴーストやちらつきが発生しやすい。
    • 位置合わせに依存しない,ロバストなHDRビデオ再構成手法の開発。
    • 本研究では,LoCAtionという長期間協調的注意フレームワークを提案し,HDRビデオ生成を位置合わせ不要の協調的特徴ルーティング問題として再定義した。
    • 連続的な中間露出バックボーンを基準とし,協調的注意メカニズムによって信頼性の高い照射情報を動的に収集・活用する。
    • 学習されたグローバルシーケンスソルバーにより,ビデオ全体の一貫性を確保し,ジッターを抑制することで,最先端の視覚品質と時間的安定性を実現した。

    Link: https://arxiv.org/abs/2603.14377

  • StAR:あらゆるセグメンテーションの推論器 [cs.CV]目的:画像と暗黙的なクエリに対する対象の局所化
    • AIが複雑な現実環境に統合される中で,包括的な推論能力が重要となる。
    • 既存の推論セグメンテーション手法は,基盤モデルの視覚的推論能力を十分に引き出せていない。
    • 基盤モデルの潜在的な推論能力を活性化し,詳細な評価基準を確立すること。
    • StARは,パラメータ調整,報酬関数,学習戦略,回答形式など,複数の視点から設計空間を改良した包括的なフレームワークである。
    • テスト時の並列処理をセグメンテーションタスクに初めて導入し,性能限界を押し上げた。
    • わずか5,000件の学習サンプルで,既存の基盤モデルを大幅に上回る成果を,広範なベンチマークで示せた。

    Link: https://arxiv.org/abs/2603.14382

  • OCRA:3Dおよび触覚事前知識を用いた物体中心学習による人間からロボットへの行動転移 [cs.RO, cs.CV]目的:人間によるデモンストレーション動画からのロバストな操作学習
    • ロボットによる複雑なタスク実行には,人間からの知識転移が不可欠である。
    • 従来のロボット学習は背景ノイズに弱く,汎化性能に課題がある。
    • タスクに関連する物体と相互作用に焦点を当て,ロバストな行動学習を実現する。
    • OCRAは,RGB動画,3Dモデル,触覚データを利用し,物体中心の3D点群を再構成する。
    • 3Dおよび触覚事前知識をマルチモーダルモジュールで融合し,拡散ポリシーを用いて操作行動を生成する。
    • 視覚情報のみ,および視覚と触覚情報を用いた実験で,既存手法を大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2603.14401

  • 病理的歩行条件付きGANによる人間歩行合成 [eess.SY, cs.SY, cs.CV, cs.AI]目的:病理的歩行の合成
    • 歩行分析は,医療診断やリハビリテーションにおいて重要な役割を担う。
    • 臨床データが限られており,多様な歩行異常のモデリングが困難である。
    • 病理に特化した歩行データを合成し,データ拡張による分析の精度向上を目指す。
    • 提案手法PGcGANは,3D姿勢キーポイントデータから病理特有の歩行パターンを合成する。
    • PCAやt-SNE分析,視覚的確認により,合成データと実データの高い一致性が確認された。
    • 合成データを加えることで,病理的歩行認識の精度が向上し,データ拡張の有効性が示された。

    Link: https://arxiv.org/abs/2603.14409

  • G-ZAP:任意のスケールパンシャープニングのための汎化ゼロショットフレームワーク [cs.CL, eess.SY, cs.SY, cs.CV]目的:任意のスケールのパンシャープニング処理の汎化性能向上
    • 高解像度画像生成は,リモートセンシングや画像処理において不可欠な技術である。
    • 既存の深層学習モデルは,大規模な事前学習に依存し,未知の画像ペアへの汎化性能が低い。
    • 異なる解像度,シーン,センサー間での汎化性能を持つパンシャープニング手法の開発。
    • G-ZAPは,特徴量に基づく暗黙的ニューラル表現(INR)を用いた融合ネットワークを基盤としている。
    • マルチスケール半教師あり学習スキームにより,頑健な汎化性能を実現している。
    • 実世界の複数データセットにおいて,PANスケール融合で最先端の結果を達成し,ペアごとの再学習と同等の性能を維持しながら,重みの再利用が可能であることを示した。

    Link: https://arxiv.org/abs/2603.14412

  • Histo-MExNet:現実世界,クロス倍率,信頼性の高い乳がん組織病理診断のための統合フレームワーク [cs.CV]目的:乳がん組織病理画像分類のためのスケーリンバリアントかつ不確実性認識型の分類モデル
    • 乳がん診断において,正確な組織病理画像分類は不可欠であり,病理医の負担軽減に貢献する。
    • 既存の深層学習モデルは倍率の変化に敏感であり,解釈可能性に課題がある。
    • 本研究は,倍率に依存せず,不確実性を考慮した信頼性の高い分類を実現する。
    • Histo-MExNetは,BreaKHisデータセットにおいて96.97%の精度を達成した。
    • 未知の倍率レベルに対する汎化性能が,単一エキスパートモデルと比較して向上した。
    • 予測不確実性の推定により,分布外サンプルを特定し,過信誤りを削減することが可能となった。

    Link: https://arxiv.org/abs/2603.14416

  • 多施設前立腺病変セグメンテーションのための階層型潜在ラベルモデリングによる深層EM [cs.CV, cs.AI]目的:多施設データにおける前立腺病変のセグメンテーション性能向上
    • 前立腺癌の早期発見と治療には,正確な病変の検出とセグメンテーションが不可欠である。
    • 多施設データでは,施設ごとの輪郭決定プロトコルの違いにより,セグメンテーションネットワークが局所的なスタイルに過剰適合し,汎化性能が低下する。
    • 施設間でのセグメンテーションのばらつきを考慮し,より汎化性能の高いモデルを構築することを目指す。
    • 提案手法は,既存手法と比較して,クロスサイト汎化性能を向上させる。
    • プールデータ評価では,施設ごとの平均DSCが29.50%から39.69%の範囲で示され,leave-one-site-out汎化評価では27.91%から32.67%の範囲となった(p<0.039)。
    • 施設ごとの潜在的なラベル品質の推定値も得られ,クロスサイトアノテーションのばらつきの分析に役立つ。

    Link: https://arxiv.org/abs/2603.14418

  • GenState-AI:AI生成動画におけるテキストと動画の検索のための状態認識データセット [cs.CV, cs.IR, cs.MM]目的:AI生成動画におけるテキストと動画の検索のための状態認識データセット
    • 動画検索技術は,情報検索の重要な手段であり,その精度向上は学術的・産業的に重要である。
    • 既存の動画検索ベンチマークは,静的な映像に偏っており,時間的な推論や最終状態の正確な把握が課題である。
    • 最終状態の変化に焦点を当てたデータセットを構築し,時間的・意味的な理解能力を評価すること。
    • GenState-AIは,制御された状態遷移に焦点を当てたAI生成ベンチマークであり,時間的および意味的な混同を区別する。
    • 評価実験の結果,既存のMLLMベースラインは,最終状態の誤った動画と混同することが多く,最終状態への十分な理解が不足していることが示唆された。
    • 提案データセットと診断分析により,時間的・意味的な失敗の原因を明確化し,より高度な検索技術の開発を支援する。

    Link: https://arxiv.org/abs/2603.14426

  • Affectron:情動と文脈に沿った非言語性発声による感情豊かな音声合成 [cs.CL, cs.SD]目的:感情豊かな音声合成のための,情動と文脈に沿った非言語性発声の生成
    • 音声合成において,感情表現は重要であり,非言語性発声はその鍵となる要素である。
    • 非言語性発声のデータは限られており,文脈に合わせた適切な生成が難しいという課題がある。
    • 多様で文脈に合った非言語性発声を生成し,感情豊かな音声合成を実現することを目指す。
    • Affectronは,小規模なデータセットを用い,非言語性発声の種類と挿入位置を拡張する学習戦略を導入した。
    • 事前に言語性音声で学習された基盤モデルに,非言語性発声構造のマスキングを取り入れ,多様で自然な生成を可能にした。
    • 実験結果から,Affectronは基盤モデルと比較して,より表現豊かで多様な非言語性発声を生成し,言語性音声の自然さを維持することが示された。

    Link: https://arxiv.org/abs/2603.14432

  • リアルタイム4D HOI再構成のためのエンドツーエンド空間-時間Transformer [cs.CV]目的:単眼RGB動画からの4D人間-物体インタラクション再構成
    • 人間と物体のインタラクション理解は,ロボティクスやコンピュータビジョンの重要な課題である。
    • 単眼動画からの深度推定の曖昧さや遮蔽が,正確な再構成を困難にしている。
    • リアルタイム性と精度を両立した4D HOI再構成手法の確立を目指す。
    • 提案手法THOは,空間-時間Transformerを用いて人間と物体の動きを直接予測する。
    • 空間的priorにより,遮蔽された物体の特徴を人間の情報から推論し,時間的priorによりフレーム間の物理的な一貫性を高める。
    • THOは,従来の最適化手法と比較して600倍以上の速度向上を達成し,31.5 FPSで動作する。

    Link: https://arxiv.org/abs/2603.14435

  • Uni-MDTrack:全モダリティにおけるパラメータ効率の良いビジュアルトラッキングのための,分離されたメモリと動的状態の学習 [cs.HC, eess.SY, cs.SY, cs.CV]目的:パラメータ効率の良いビジュアルトラッキング手法の開発
    • 画像認識技術は,自動運転やロボット工学など,幅広い分野で不可欠であり,その精度向上が求められている。
    • 既存のトラッキング手法は,文脈活用が不十分であったり,計算コストが高く,効率性に課題があった。
    • 本研究は,メモリと動的状態を効果的に活用し,計算コストを抑えたトラッキング手法を提案することで,この課題を解決する。
    • Uni-MDTrackは,メモリ圧縮プロンプト(MCP)と動的状態融合(DSF)という2つの主要なコンポーネントで構成される。
    • MCPは,メモリの特徴量を効率的に圧縮し,バックボーン全体との相互作用を深めることで,性能を向上させる。
    • 実験の結果,Uni-MDTrackは10のデータセットで最先端の結果を達成し,わずか30%の学習パラメータで大幅な性能向上を実現した。

    Link: https://arxiv.org/abs/2603.14452

  • PARSA-Bench:包括的なペルシア語音声言語モデルベンチマーク [cs.CL, cs.SD]目的:ペルシア語音声言語モデルの評価のためのベンチマーク
    • 音声理解技術は,多言語対応と文化理解において重要である。
    • 既存のベンチマークでは,ペルシア語特有の音声文化に対応できていない。
    • ペルシア語の音声と文化に関する言語モデルの性能評価を可能にする。
    • PARSA-Benchは,音声理解,副言語分析,文化音声理解の16種類のタスクで構成される。
    • テキストのみのベースラインが音声モデルを上回り,音声特有の情報活用が課題であることが示唆された。
    • 特に,古典詩の韻律認識では,全てのモデルがほぼランダムな結果となり,韻律の理解が困難であることが示された。

    Link: https://arxiv.org/abs/2603.14456

  • 知的・発達障害のある人々のグループインタラクションにおける視線行動予測のための包括的AI [cs.HC, cs.CV, cs.LG]目的:知的・発達障害のある人々の視線行動の検出と分析
    • 人間とAIの協調は,ウェルビーイング向上や治療介入など,様々な場面で重要な役割を担う。
    • 既存のAIモデルは,神経発達が典型的な人々を対象に学習されているため,多様な人々への対応が課題である。
    • 知的・発達障害のある人々の視線行動の特性を捉え,より包括的なAIシステムの開発を目指す。
    • 新たなデータセット「MIDD」を構築し,知的・発達障害のある人々の視線行動パターンを詳細に記録した。
    • MIDDと神経発達が典型的な人々とのデータセットを比較分析した結果,クラスの不均衡や視線分布に違いが見られた。
    • MIDDを用いてモデルをファインチューニングすることで,性能が向上するものの,課題が残ることを示した。

    Link: https://arxiv.org/abs/2603.14460

  • LongVidSearch:長尺動画における多段証拠検索計画のベンチマーク [cs.CV, cs.IR]目的:長尺動画におけるエージェントによる多段証拠検索計画の評価
    • 長尺動画の質問応答は,高度な推論能力が求められ,その性能評価が重要である。
    • 既存のベンチマークは,多段検索の必要性を厳密に強制しておらず,評価の標準化が不十分である。
    • 多段証拠検索計画能力を正確に評価するための標準化されたベンチマークを確立すること。
    • LongVidSearchは,エージェントが厳密なアクセス制約下で多段証拠検索計画を行う能力を評価するベンチマークである。
    • このベンチマークでは,各質問に対し,正確にk個の必要な証拠クリップが存在し,一つでも欠けると解答不能となる。
    • GPT-5が最も高い精度(42.43%)を示したが,依然として50%を下回っており,多段検索計画の難しさを示している。

    Link: https://arxiv.org/abs/2603.14468

  • Wi-Spike:スパイクニューラルネットワークを用いた低消費電力WiFiヒューマンマルチアクション認識モデル [cs.CV]目的:WiFi環境下における人間のアクション認識
    • 人々の生活空間を非侵襲的に認識するため,WiFiベースの行動認識技術が重要視されている。
    • 既存研究では認識精度向上に注力する一方,消費電力やエネルギー効率は十分な議論がなされていない。
    • 本研究では,低消費電力なスパイクニューラルネットワークを用いて,効率的かつ正確な行動認識を目指す。
    • Wi-Spikeは,WiFi CSI信号を用いて,空間・時間的特徴抽出と識別表現の強化を実現した。
    • 3つのベンチマークデータセットで,単一アクション認識およびマルチアクション認識において競争力のある精度を達成した。
    • Wi-Spikeは,既存手法と比較してエネルギーコストを少なくとも半分に削減し,95.83%の認識精度を維持した。

    Link: https://arxiv.org/abs/2603.14475

  • V-JEPA 2.1:ビデオ自己教師あり学習における高密度特徴の解き放ち [cs.CV]目的:ビデオおよび画像の高密度で高品質な視覚表現学習
    • 視覚情報の理解は,ロボット工学や自動運転など,様々な応用分野において不可欠である。
    • 従来の学習方法は,局所的な特徴に偏りやすく,シーン全体の理解が困難であった。
    • 空間的・時間的な構造を捉え,より高度な視覚理解を可能にする表現学習を目指す。
    • V-JEPA 2.1は,Ego4Dにおける短期オブジェクトインタラクション予測で7.71 mAPを達成し,最先端の性能を示した。
    • EPIC-KITCHENSにおける高レベル行動予測で40.8 Recall@5を達成,また,V-JEPA-2 ACと比較してロボット把持成功率が20ポイント向上した。
    • ロボットナビゲーション,深度推定,グローバル認識においても優れた性能を示し,高密度視覚理解とワールドモデリングの進歩に貢献する。

    Link: https://arxiv.org/abs/2603.14482

  • マルチモーダル大規模言語モデルのファインチューニングにおける忘却の緩和は意外と容易である [cs.CV, cs.CL, cs.LG]目的:マルチモーダル大規模言語モデルのファインチューニングにおける忘却現象の緩和策
    • マルチモーダル大規模言語モデルは,画像とテキストを統合的に理解する能力を持ち,多様な応用が期待される。
    • ファインチューニングを行うと,新しいタスクに特化しすぎて,以前学習した能力を忘れてしまう(破滅的忘却)という課題がある。
    • 本研究は,単純なファインチューニング手法の調整によって,この忘却現象を効果的に抑制することを目指す。
    • 適切な正則化(学習パラメータ数の制限や低学習率の採用)により,分布外画像に対する忘却を効果的に抑制できることが示された。
    • 分布内画像と分布外テキストの組み合わせでは,タスク固有の過学習による忘却が発生することが明らかになった。
    • データハイブリッド学習戦略を導入することで,この過学習を抑制し,継続学習においても既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2603.14493

  • 言語指示による3D医療セグメンテーションの改良 [cs.CV, cs.LG]目的:3D医療セグメンテーションの精度向上
    • 臨床診断や手術計画において,正確な3D解剖学的セグメンテーションは不可欠である。
    • 学習データ不足やラベル品質の低さ,分布のずれなどにより,自動モデルの形状予測が不十分になりがちである。
    • 言語指示を用いた形状の反復的な修正によるセグメンテーション精度の改善を目指す。
    • 本研究では,制御可能な合成的な解剖学的エラーと対応する修正指示を含むベンチマークCoWTalkを提案した。
    • ベクトル集合として3D形状を表現し,テキスト指示と対話的に形状を更新する反復的な改良モデルを構築した。
    • 実験結果から,提案手法は破損した入力やベースラインと比較して有意な改善を示し,言語駆動型の臨床家介入による3D医療形状モデリングの実現可能性を実証した。

    Link: https://arxiv.org/abs/2603.14496

  • WorldVLM:ワールドモデル予測とビジョン言語推論の統合 [cs.CV, cs.RO]目的:ワールドモデル予測とビジョン言語推論を統合したハイブリッドアーキテクチャ
    • 自動運転には,高度なシーン理解と環境の予測が不可欠であり,安全性と効率性が求められる。
    • 既存のビジョン言語モデルは,空間的理解に限界があり,完全な自動運転システムとしての性能を制約する。
    • 文脈に基づいた意思決定と予測を組み合わせることで,自動運転における汎化性能と動的な予測能力を向上させる。
    • WorldVLMは,ビジョン言語モデルが高レベルな行動指示を生成し,ワールドモデルを制御するハイブリッド構造を実現した。
    • これにより,解釈可能で文脈を考慮した行動が可能となり,より安全で信頼性の高い自動運転に貢献する。
    • 実験を通して,条件付け戦略やハイブリッド設計における課題に関する知見を得た。

    Link: https://arxiv.org/abs/2603.14497

  • R3DP:具現化された操作のためのリアルタイム3D認識ポリシー [cs.RO, cs.CV]目的:具現化された操作における3D認識に基づくポリシーの構築
    • ロボットが現実世界でタスクを実行するには,対象物の3D理解が不可欠である。
    • 大規模3Dビジョンモデルは計算コストが高く,リアルタイム制御には不向きである。
    • 3D認識の精度を維持しつつ,リアルタイム性を実現するポリシーを開発する。
    • R3DPは,大規模3Dモデルをリアルタイムで活用する非同期高速・低速協調モジュールを導入した。
    • 過去のデータを活用し,時間的な相関を利用するTFPNetにより,タスクの成功率を向上させている。
    • R3DPは既存手法と比較して,平均成功率を最大51.4%向上させ,推論時間を44.8%削減した。

    Link: https://arxiv.org/abs/2603.14498

  • 物理に基づいた拡散モデルによるダークマタークラスターのマッピング [cs.CV, astro-ph.CO]目的:ダークマタークラスターの表面質量密度再構成手法
    • 銀河クラスターは,重力レンズ効果を通じて宇宙論研究に不可欠である。ダークマターの分布を把握することは重要。
    • 大規模サーベイから得られる大量のクラスターデータを処理できるスケーラブルな質量再構成手法が不足している。
    • 新たな手法により,迅速かつ高精度な質量再構成と不確実性の評価を可能とする。
    • 大規模データセットDarkClusters-15k (15,000個のシミュレーションクラスター) を構築し,ベンチマークとして公開した。
    • 物理に基づいた拡散モデルを訓練し,質量と光の統計的関係を学習させた。これにより,レンズ効果の観測制約に基づいた再構成が可能となった。
    • 専門家によるチューニングなしで,MACS 1206クラスターの再構成精度と同等以上の結果を得た。計算時間も大幅に短縮された。

    Link: https://arxiv.org/abs/2603.14503

  • 拡散モデルとフローモデルのアライメントのためのトラストリージョンノイズサーチ [cs.LG, cs.AI, cs.CV]目的:拡散モデルとフローモデルのアライメント手法
    • 生成モデルの性能向上は,画像生成や分子設計など多岐にわたる応用分野で重要である。
    • 報酬モデルが微分不可能であったり,計算コストが高い場合,モデルのアライメントが困難である。
    • 報酬モデルの種類を問わず,効率的に生成モデルをアライメントすることを可能にする。
    • 提案手法であるトラストリージョンノイズサーチ(TRS)は,事前学習済みの生成モデルと報酬モデルをブラックボックスとして扱い,ノイズのみを最適化する。
    • TRSは,テキスト画像生成,分子設計,タンパク質設計タスクにおいて,既存手法を上回る性能を達成した。
    • TRSは,汎用性が高く,様々な生成設定や報酬モデルへの適応が容易であり,ハイパーパラメータの調整も最小限で済む。

    Link: https://arxiv.org/abs/2603.14504

  • 潜在キャンバスの解放:LLMにおける象徴的な視覚表現の誘発とベンチマーク [cs.CV]目的:LLMにおける象徴的な視覚表現の誘発と評価
    • 近年,LLMの能力向上に伴い,視覚情報処理への応用が期待されている。
    • 既存手法では,画像生成に外部プロセスを頼るため,LLM本来の視覚表現能力が活かされていない。
    • LLMのテキスト空間内での視覚表現能力を引き出し,その性能を評価する枠組みを構築すること。
    • ASCIIアートを用いることで,LLM内に潜在する視覚表現能力を効率的に引き出すことを可能にした。
    • 生成と理解の相互強化関係が確認され,生成能力の向上が視覚的理解力の向上に繋がることが示された。
    • 高品質なデータセット「ASCIIArt-7K」とベンチマーク「ASCIIArt-Bench」を公開し,今後の研究の基盤を提供する。

    Link: https://arxiv.org/abs/2603.14505

  • ミリ波データセット拡張:ラベルなしデータとLiDARデータを用いた人体姿勢推定 [cs.CV]目的:人体姿勢推定のためのミリ波データセットの拡張
    • ミリ波を用いた姿勢推定は,プライバシー保護や悪天候下での利用に有効であり,注目されている。
    • 既存のミリ波データセットはデータ量が少なく,姿勢や環境の多様性が不足している点が課題である。
    • ラベルなしミリ波データとLiDARデータを用いて,データセットの多様性と量を増やし,汎化性能を向上させる。
    • 提案手法EMDULにより,ラベルなしミリ波データに擬似ラベルを付与し,LiDARデータをミリ波データに変換することで,データセットを拡張した。
    • 拡張されたデータセットを用いることで,姿勢推定モデルの性能が大幅に向上し,in-domainで15.1%,out-of-domainで18.9%の誤差が減少した。
    • EMDULは,データ不足という課題を克服し,姿勢推定の汎化性能を高める有効な手法であることが示された。

    Link: https://arxiv.org/abs/2603.14507

  • VLA-Thinker:画像を用いた思考推論による視覚言語行動モデルの性能向上 [cs.RO, cs.CV, cs.AI, cs.RO]目的:視覚言語行動モデルにおける思考推論の強化
    • ロボットの自律的な行動を可能にするため,視覚,言語,行動を統合したモデルが重要である。
    • 既存モデルは静的な視覚情報を扱うため,長期間のタスクにおいて曖昧さを解消しきれない。
    • 動的に視覚情報を活用する思考推論フレームワークを構築し,ロボットの操作性能を向上させる。
    • VLA-Thinkerは,視覚情報を動的に活用する思考推論フレームワークを提案し,ロボットの操作性能を大幅に向上させた。
    • LIBEROベンチマークにおいて97.5%という高い成功率を達成し,長期間のロボットタスクにおいても顕著な改善が見られた。
    • 構造化された推論とツール使用を促進するため,キュレーションされた視覚Chain-of-Thoughtデータを用いたSFTと,GRPOベースの強化学習による学習パイプラインを採用した。

    Link: https://arxiv.org/abs/2603.14523

  • LatSearch:潜在報酬による探索によるビデオ拡散のより高速な推論時スケーリング [cs.CV]目的:ビデオ拡散における推論時スケーリングの高速化
    • ビデオ拡散モデルの性能向上は,高品質な動画生成において不可欠である。
    • 既存手法は,初期ノイズの最適化や最終的な動画の評価に依存し,計算コストが高い。
    • 潜在報酬を用いた探索により,計算効率を高め,動画生成の質と制御性を向上させる。
    • 潜在報酬モデルは,部分的にノイズ除去された潜在表現の品質,動き,テキストとの整合性を評価する。
    • LatSearchは,Reward-Guided ResamplingとPruning(RGRP)により効率的な探索を実現する。
    • VBench-2.0ベンチマークにおいて,LatSearchはWan2.1と比較して,複数の評価指標で一貫して動画生成品質を向上させる。

    Link: https://arxiv.org/abs/2603.14526

  • Interp3R:フレームとイベントを用いた連続時間3D形状推定 [cs.CV, cs.RO]目的:フレームとイベントデータを利用した3D形状およびカメラ姿勢の連続時間推定
    • 3Dシーン理解はロボット工学や自動運転などに応用され,その重要性は高い。
    • 既存手法は離散的なフレーム単位での形状推定に限定され,フレーム間の動的な変化を捉えきれない。
    • フレーム間における形状変化を捉え,時間的に連続的な3D表現を実現することを目的とする。
    • Interp3Rは,イベントデータを用いてフレームベースモデルの点群を補間することで,任意の時間における深度とカメラ姿勢を推定する。
    • 合成データのみで学習しているにもかかわらず,様々な合成データおよび実データベンチマークで優れた汎化性能を示す。
    • 既存の2段階パイプライン方式と比較して,大幅な性能向上を実証している。

    Link: https://arxiv.org/abs/2603.14528

  • 潜在多様体の蒸留:変分オートエンコーダによる解像度外挿 [cs.CV]目的:変分オートエンコーダによる潜在多様体の蒸留と解像度外挿のメカニズム解明
    • 生成モデルにおいて,変分オートエンコーダは重要な役割を果たすが,計算コストが高い。
    • 蒸留モデルは,訓練データ分布に近いサンプルで良好に機能するが,未知のデータ分布では性能が低下する傾向がある。
    • 低解像度で蒸留されたエンコーダの高解像度画像再構成能力向上を目指す。
    • 低解像度で蒸留されたエンコーダが,ネイティブ解像度では再構成性能が低いにも関わらず,より高い解像度で顕著に改善されるという逆説的な現象が確認された。
    • 蒸留されたエンコーダは,訓練されていない高解像度入力に対しても効果的に汎化し,教師モデルの解像度嗜好を部分的に受け継ぐことが示された。
    • 入力解像度を変換する単純な手法(アップサンプリングとダウンサンプリング)が,PSNR,MSE,SSIM,LPIPS,rFIDなどの評価指標で顕著な改善をもたらすことが明らかになった。

    Link: https://arxiv.org/abs/2603.14536

  • 効率的なLVLM推論のための注意シフトを考慮したプルーニング手法:ASAP [cs.CV, cs.LG]目的:大規模ビジョン言語モデルの効率的な推論
    • 近年,マルチモーダルな能力を持つ大規模モデルの利用が拡大しており,計算資源の効率化が重要である。
    • 高解像度な画像トークンの処理コストが高く,推論速度のボトルネックとなっている。
    • 注意メカニズムの特性を考慮し,トークンの冗長性を削減することで,計算コストを削減することを目指す。
    • 提案手法ASAPは,訓練不要でKVキャッシュ互換性を持つプルーニング手法であり,計算コストを大幅に削減できる。
    • 動的な双方向ソフトアテンションマスクを用いることで,注意シフトの影響を軽減し,より重要なトークンを選択する。
    • 意味的に類似したトークンを統合することで,冗長性を削減し,元のLLaVA-NeXT-7Bの性能をほぼ維持しながらFLOPsを約80%削減する。

    Link: https://arxiv.org/abs/2603.14549

  • 内視鏡における潰瘍性大腸炎スコアリングのための包括的なマルチモーダルデータセットとベンチマーク [cs.CV, cs.AI, cs.IR]目的:潰瘍性大腸炎のスコアリングに関するデータセットとベンチマークの開発
    • 潰瘍性大腸炎は,大腸がんリスクを高める慢性疾患であり,内視鏡検査による経過観察が重要である。
    • 既存のスコアリングは専門家の主観に依存し,自動化のための十分なデータセットとベンチマークが存在しない。
    • 複数の医療機関のデータを用いて,より客観的で汎用性の高いスコアリングシステムの開発を目指す。
    • 専門家によるMESおよびUCEISスコア,臨床記述を含むマルチモーダルデータセットを構築し,公開した。
    • 構築したデータセットを用いて,畳み込みニューラルネットワーク,ビジョントランスフォーマー等の性能をベンチマークした。
    • 本研究は,臨床的に有用なマルチモーダルアルゴリズム開発の新たな可能性を開くものである。

    Link: https://arxiv.org/abs/2603.14559

  • 共分散誘導型リソース適応学習による効率的なエッジ推論 [cs.DC, cs.CV]目的:エッジデバイスにおける効率的な推論のためのリソース最適化手法
    • 深層学習は様々な応用で活用されるが,エッジデバイスでの利用には電力消費量が課題となる。
    • 同じ処理能力でも電力消費にばらつきがあり,最適なハードウェア設定の探索が困難である。
    • オフラインプロファイリングなしで,オンラインに最適な設定を発見し,電力と処理能力を両立する。
    • CORALは,距離共分散を用いてハードウェア設定と性能指標の非線形な依存関係を統計的に捉える。
    • 単一目標シナリオでは,網羅的探索で得られた最適な性能の96%~100%を達成する。
    • 制約条件が厳しい場合でも,CORALはオンラインで適切な設定を効率的に見つけることができた。

    Link: https://arxiv.org/abs/2603.14577

  • セマンティックサンプリングによる医療画像空間的グラウンディング [cs.CV, cs.LG]目的:医療画像における解剖学的構造の空間的グラウンディング能力の評価と改善
    • 医療画像解析は,疾患の診断や治療計画において重要な役割を担う。
    • 医療画像特有の三次元構造や専門用語が,視覚言語モデルの空間的グラウンディングを困難にしている。
    • 視覚言語モデルの脆弱性を評価し,空間的グラウンディング能力を向上させる方法を模索する。
    • 本研究では,医療画像空間的グラウンディングのベンチマークであるMIS-Groundを開発し,公開した。
    • MIS-SemSamという低コストな最適化手法を提案し,視覚言語モデルの空間的グラウンディング能力を向上させた。
    • 提案手法MIS-SemSamは,Qwen3-VL-32BのMIS-Groundにおける精度を13.06%向上させた。

    Link: https://arxiv.org/abs/2603.14579

  • テクセルスプラッティング:視点安定な3Dピクセルアート [cs.CV]目的:3Dピクセルアートにおける視点安定性の実現
    • ゲームやビジュアル表現において,レトロなピクセルアートは依然として重要な位置を占めている
    • 従来のカメラグリッドスナップでは,視点投影においてピクセルが安定せず,歪みが生じる
    • テクセルスプラッティングを用いて,視点変化に安定した3Dピクセルアート表現を可能にする
    • シーンジオメトリをワールド空間のクアッドとしてスクリーンにスプラッティングすることで,視点変化に強い表現を実現した
    • キューブマップインデックスにより回転不変性を,グリッドスナップにより並進不変性を確保している
    • 固定された原点では全てのジオメトリを捉えきれないという制約が残る

    Link: https://arxiv.org/abs/2603.14587

  • 視覚言語行動モデルにおける触覚モダリティ融合 [cs.RO, cs.RO, cs.CV, cs.LG]目的:視覚言語行動モデルへの触覚情報の統合
    • ロボットの複雑な操作には触覚情報が不可欠であり,より高度なロボット制御を実現するため,その活用が重要である。
    • 既存の視覚言語行動モデルは視覚情報に依存しており,接触を伴う操作における力覚や摩擦などの情報を捉えきれない。
    • 触覚情報を効率的に統合し,接触を伴う操作の成功率,性能,安定性を向上させることを目指す。
    • 提案手法TacFiLMは,既存の視覚言語行動モデルに触覚情報を追加する軽量なアプローチであり,計算コストを抑えつつ性能向上を実現する。
    • 実験結果から,TacFiLMは挿入タスクにおいて,成功率,直接挿入性能,完了時間,および力安定性のすべてで改善が確認された。
    • これらの結果は,TacFiLMが接触を伴う操作の性能を向上させるための有効な手法であることを示唆している。

    Link: https://arxiv.org/abs/2603.14604

  • GroundSet:ベクトルデータを用いた空間理解のための測量図根拠データセット [cs.CV]目的:地球観測における精密な空間理解の実現
    • 都市計画,環境モニタリング,災害管理など,重要な応用分野において,空中画像の解析が不可欠である。
    • 既存のデータセットが限られており,リモートセンシングにおけるマルチモーダル大規模言語モデルの空間理解能力が不十分である。
    • 測量図を基盤とした大規模データセットにより,高精度な空間的根拠付けを可能にすることを目指す。
    • 380万件のアノテーションを含む大規模データセットGroundSetを構築し,135の細分化された意味カテゴリを網羅した。
    • 7つの空間推論タスクを通じてデータセットを検証し,標準的なLLaVAアーキテクチャを用いて堅牢なベースラインを確立した。
    • 既存の専門モデルや商用モデルがゼロショット設定で苦戦する一方,高精度な教師データがそのギャップを埋め,標準アーキテクチャでも高精度な空間的根拠付けが可能となった。

    Link: https://arxiv.org/abs/2603.14609

  • 分類器における意味不変量の分析:SINGの提案 [cs.CV, eess.IV]目的:分類器における意味不変量の解釈
    • 深層学習モデルの解釈性は重要であり,その動作原理の理解を深める必要がある。
    • 既存手法では,分類器のnull空間に潜む意味不変量の具体的な内容を把握することが困難である。
    • 本研究は,null空間の幾何学的構造に着目し,意味的な解釈を可能とする手法を提案する。
    • 提案手法SINGは,ネットワークにとって等価な画像を生成し,その変動に意味的な解釈を付与する。
    • ResNet50は意味的な属性をnull空間に漏洩する一方,DinoViTは不変空間でのクラス意味をより維持することが示された。
    • SINGは単一画像への適用や,クラスレベル,モデルレベルでの統計的分析を可能とする。

    Link: https://arxiv.org/abs/2603.14610

  • 胸部CT画像を用いた多施設COVID-19分類のための異種アンサンブル [cs.CV]目的:多施設におけるCOVID-19の分類
    • COVID-19パンデミックは診断の遅れや誤診を露呈したため,迅速かつ正確な診断法の確立が重要である。
    • 病院やスキャナの違いにより,単一モデルでは性能が低下するドメインシフトが課題となっている。
    • 異種モデルと校正により,多施設間の画像分類の頑健性を向上させることを目指す。
    • 異種アンサンブルは,単一モデルよりも高い平均マクロF1スコア(0.9280)を達成した。
    • Focal Loss,Mixup,ドメイン対応拡張により,過学習を抑制し,モデルの汎化性能を高めた。
    • ソースを考慮した校正により,異なる施設間での性能差を軽減し,ロバスト性を向上させた。

    Link: https://arxiv.org/abs/2603.14621

  • 合成指紋検出のための継続的少サンプル適応 [cs.CV, cs.IT, math.IT]目的:合成指紋検出における適応能力の向上
    • 指紋認証は広く利用されており,その安全性確保が重要であるため。
    • 生成AIの進化により,現実と区別のつかない合成指紋が生成可能になっている。
    • 未知の生成AIで生成された合成指紋に対する検出能力を向上させる。
    • 提案手法は,様々なDNNバックボーンとデータセットで,未知の合成スタイルに対する迅速な適応と,既知のスタイルへの忘却の抑制という良好なトレードオフを達成した。
    • 継続的少サンプル適応のため,二値クロスエントロピー損失と教師あり対照損失を組み合わせ,過去のスタイルからの少数のサンプルをリプレイすることで,破滅的忘却を緩和する。
    • 従来のDNNモデルでは,学習データに過剰適合し,未知の生成AIで生成された合成指紋に対して汎化性能が低下する傾向がある。

    Link: https://arxiv.org/abs/2603.14632

  • 隠れた状態を促す:大規模オーディオ言語モデルにおける思考連鎖推論のための学習不要モデル操縦 [cs.SD, cs.AI, cs.CL, eess.AS]目的:大規模オーディオ言語モデルにおける思考連鎖推論の改善
    • 近年の大規模言語モデルの発展は,複雑なタスクの解決に貢献している。
    • 思考連鎖推論は効果的だが,学習なしで性能を向上させるのは困難である。
    • 学習を伴わずに思考連鎖推論を強化するための手法を確立すること。
    • 推論時のモデル操縦により,CoTプロンプティングと比較して最大4.4%の精度向上を確認した。
    • 少数のテキストサンプルから得られた操縦ベクトルが,音声ベースの推論を効果的に誘導するクロスモーダル転移を明らかにした。
    • これらの手法の堅牢性を理解するため,ハイパーパラメータ感度に関する調査を行った。

    Link: https://arxiv.org/abs/2603.14636

  • 展開場所の選定:空中から地上への隠れた空間点検のためのメトリックRGBベースの通過可能性解析 [cs.RO, cs.CV]目的:空中と地上協調による隠れた空間点検のための展開領域選定
    • 社会インフラ老朽化が課題であり,点検作業の効率化・省力化が求められている。
    • 従来の点検方法は,アクセス困難な隠れた空間の状況把握が難しいという問題がある。
    • 空中からの視覚情報を用いて,効率的な展開場所を特定し,点検作業を支援することを目的とする。
    • RGB画像と自己位置推定情報を用いて,高精度な3次元再構成と通過可能性マップを生成した。
    • LiDARを使用せずに,メトリックなスケール復元を実現し,展開場所の選定に必要な計測を可能にした。
    • 実機実験により,提案手法が隠れた空間における展開領域の特定において高い信頼性を持つことが示された。

    Link: https://arxiv.org/abs/2603.14639

  • スペクトルマッチング:潜在拡散における優れた拡散可能性に関する統一的視点 [cs.CV]目的:潜在拡散における変分オートエンコーダ(VAE)の拡散可能性の解明
    • 画像生成モデルの性能向上には,潜在空間の表現の質が不可欠である。
    • VAEの潜在空間が,学習の偏りを持ち,高品質な画像を生成できない場合がある。
    • 潜在空間のスペクトル特性を制御することで,拡散可能性を向上させることを目指す。
    • スペクトルマッチングは,潜在空間の電力スペクトル密度を自然画像に近づけることで,生成品質を向上させる。
    • エンコーディングスペクトルマッチング(ESM)とデコーディングスペクトルマッチング(DSM)の組み合わせが有効であることが示された。
    • CelebAおよびImageNetデータセットにおいて,既存手法を上回る生成性能を達成した。

    Link: https://arxiv.org/abs/2603.14645

  • 医用画像のためのトポロジカルコントラスト学習:TopoCL [cs.CV, cs.AI]目的:医用画像分析における表現学習
    • 医療画像分析において,画像の特徴抽出は診断精度に直結するため重要である。
    • 既存のコントラスト学習は視覚的特徴に偏り,トポロジー構造の活用が不十分である。
    • 医療画像分析において重要なトポロジー構造を明示的に活用し,表現学習の性能向上を目指す。
    • 提案手法TopoCLは,既存のコントラスト学習法に組み込むことが可能である。
    • 5つの代表的なコントラスト学習法と5つの医用画像データセットで評価した結果,TopoCLは一貫して性能向上を示した。
    • 線形プローブ分類精度において平均+3.26%の改善が見られ,統計的に有意な結果が得られた。

    Link: https://arxiv.org/abs/2603.14647

  • 人間とAIの連携が,低~中画質の動画におけるディープフェイク検出を向上させる [cs.RO, cs.CV, cs.AI]目的:ディープフェイク検出における人間とAI検出器の性能比較および,人間とAIの連携による検出精度の向上
    • ディープフェイクは社会に悪影響を及ぼす可能性があり,その検出技術の確立が急務である。
    • 既存のAI検出器は,現実的な条件下では必ずしも高い性能を発揮できない場合がある。
    • 特に低画質動画においては,AI検出器の性能が低下するため,人間との協調が重要となる。
    • 人間は,標準的なベンチマークデータセットDF40と,新しいデータセットCharadesDFの両方において,AI検出器よりも高い性能を示した。
    • 特にCharadesDFでは,AI検出器の精度が大幅に低下する一方,人間は高い性能を維持しており,その差が顕著になった。
    • 人間とAIの誤りは補完的であり,人間とAIを組み合わせたアンサンブル手法を用いることで,誤検出を減少させることができた。

    Link: https://arxiv.org/abs/2603.14658

  • VisionCoach:視覚知覚プロンプトによる根拠に基づいた動画推論の強化 [cs.CV, cs.AI]目的:動画推論における根拠に基づいた視覚的理解の強化
    • 動画理解は,多様な応用分野において不可欠であり,その重要性は増している。
    • 動画中の関連証拠の正確な位置特定と追跡は困難であり,推論の信頼性を損なう。
    • 学習時の視覚プロンプトによる誘導を通じて,推論過程における空間・時間的な根拠付けを改善する。
    • VisonCoachは,選択的な視覚プロンプト適用と自己蒸留により,動画推論の性能を向上させる。
    • 推論時には外部ツールを必要とせず,効率的な推論経路を維持しながら,最先端の性能を達成した。
    • 学習中の視覚プロンプトが根拠に基づいた動画推論を改善し,自己蒸留が推論時のプロンプト不要化を可能にする。

    Link: https://arxiv.org/abs/2603.14659

  • EviATTA:医学的セグメンテーションのための積極的テスト時適応 [cs.CV]目的:医学的セグメンテーションモデルのテスト時適応における信頼性向上
    • 医療画像解析の精度向上は,診断支援や治療計画において不可欠である。
    • テスト時適応は分布シフトの影響を受けやすく,信頼性の高い教師信号を得ることが困難である。
    • 不確実性推定の改善と,限られたアノテーションの効率的な活用を目指す。
    • EviATTAは,ディリクレ分布に基づくエビデンスモデリングを用いて予測不確実性を分解する。
    • 分布不確実性に基づいたサンプル選択と,距離を考慮したデータ不確実性に基づいたピクセルアノテーションを行う。
    • プロンプトの一貫性正則化と,特徴量の一貫性正則化により,少ないアノテーションでも適応を安定化させる。

    Link: https://arxiv.org/abs/2603.14666

  • 拡散モデルを用いたMRI超解像のための3D畳み込みと2.5Dスライス条件U-Netアーキテクチャの比較分析 [cs.CV, cs.AI]目的:脳MRI超解像のための拡散モデルの有効性検証
    • 高額な高磁場スキャナに代わる手段として,計算機的に低解像度画像を高品質化するMRI超解像技術が注目されている。
    • 3D畳み込みと2.5Dスライス条件U-Netアーキテクチャの性能比較が十分でなく,最適なアーキテクチャ選択が課題となっている。
    • 脳MRI超解像において,3D畳み込みと2.5Dスライス条件U-Netアーキテクチャの優位性を明らかにする。
    • 3D畳み込みU-Netは,PSNR 37.75 dB,SSIM 0.997,LPIPS 0.020を達成し,既存のEDSRベースラインや2.5D変種を上回った。
    • 2.5Dスライス条件U-Netは,3D畳み込みU-Netと比較して,PSNR,SSIM,LPIPSの全ての指標で劣る結果となった。
    • 3D畳み込みU-Netが,脳MRI超解像においてより有効なアーキテクチャである可能性が示唆された。

    Link: https://arxiv.org/abs/2603.14667

  • E2EGS:イベントからエッジへのガウススプラッティングによる姿勢推定不要の3D再構成 [cs.CV]目的:イベントストリームのみを用いた姿勢推定不要な3D再構成手法
    • ノベルビュー合成は,多様な視点からの画像生成を可能にし,仮想現実やロボット工学等の分野で重要である。
    • 既存手法はRGB画像と正確な姿勢情報に依存し,高速なカメラ移動や悪条件下の照明に弱いという課題がある。
    • エッジ情報に着目し,姿勢情報を必要とせず,ロバストな3D再構成を実現する。
    • E2EGSは,イベントストリームからエッジ情報を抽出し,構造を意識したガウス初期化と損失関数に活用することで,高精度な再構成を可能にした。
    • 提案手法は,合成データセットと実データセットの両方において,従来のイベントベース手法を上回る再構成品質と軌跡精度を達成した。
    • 本研究は,姿勢推定を必要としないイベントベース3D再構成の新たなパラダイムを確立した。

    Link: https://arxiv.org/abs/2603.14684

  • MVHOI:3D基礎モデルを介したマルチビュー条件と複雑な人間-物体相互作用ビデオの再現 [cs.CV, cs.AI]目的:複雑な人間と物体の相互作用ビデオの再現
    • デジタルヒューマンの表現力向上には,現実的な動作の再現が不可欠である。
    • 従来の技術は,平面的な動きに限定され,非平面的な操作の再現が困難である。
    • マルチビュー条件と3D基礎モデルを活用し,複雑な物体の操作を再現することを目指す。
    • 提案手法MVHOIは,マルチビューの参照条件とビデオ基礎モデルを3D基礎モデルを介して接続する。
    • 3D基礎モデルは,新しい視点からの潜在的な動作動学に基づき,一貫性のある物体形状を生成する。
    • 実験により,特に複雑な3D物体操作を含むHOIにおいて,既存手法を大幅に上回る性能が示された。

    Link: https://arxiv.org/abs/2603.14686

  • クロス災害環境におけるドメイン適応を用いた堅牢な建物被害検出 [cs.CV, cs.AI, cs.LG]目的:クロス災害環境下での建物被害検出手法
    • 災害対応において,迅速な被害状況把握は不可欠であり,リモートセンシング技術が重要な役割を担う。
    • 学習データと実際のデータ分布の不一致(ドメインシフト)により,既存モデルの汎化性能が低下する。
    • ドメインシフトの影響を軽減し,信頼性の高い自動被害検出システムの実現を目指す。
    • 教師ありドメイン適応(SDA)を組み込んだ二段階アンサンブルアプローチを提案し,建物被害の分類精度を向上させた。
    • SDAを適用しない場合,被害検出は完全に失敗することから,SDAの重要性が示された。
    • シャープネス強調されたRGB画像をSDAと組み合わせることで,Macro-F1スコア0.5552という堅牢な性能を達成した。

    Link: https://arxiv.org/abs/2603.14694