arXiv雑要約

画像・音声 - 2026/03/06 公開

  • FC-VFI:高FPSスローモーション動画生成のための忠実かつ一貫性のある動画フレーム補間 [cs.CV]目的:高忠実度なスローモーション動画生成のための動画フレーム補間手法
    • 動画編集や映像制作において,高画質かつ滑らかなスローモーション効果は重要なニーズである。
    • 既存のフレーム補間手法は,生成されるフレームの品質や,時間的な一貫性に課題が残る場合がある。
    • 始端フレームの詳細を維持しつつ,時間的に一貫性のある高品質なフレームを生成することを目指す。
    • 提案手法FC-VFIは,潜在空間での時間モデリングにより,始端フレームの情報を活用し,忠実度の高いフレームを生成する。
    • セマンティックマッチングラインを用いることで,構造を考慮したモーションガイダンスを実現し,時間的一貫性を向上させる。
    • 時間差損失関数を導入することで,時間的な不整合を軽減し,様々なシーンで優れた性能と構造的整合性を実現する。

    Link: https://arxiv.org/abs/2603.04899

  • AdaIAT:生成テキストへの注意を適応的に高めることで,LVLMにおける幻覚を軽減する [cs.CV]目的:大規模ビジョン言語モデルにおける幻覚の軽減
    • 近年の画像とテキストを扱うモデルの発展は目覚ましいが,その応用には幻覚が大きな障壁となっている。
    • 既存の手法では,幻覚を減らすために画像への注意を高めるものの,繰り返し記述が生じやすいという課題がある。
    • 生成テキストに含まれる情報を活用し,幻覚を抑制しつつ自然な文章生成を目指す。
    • 提案手法AdaIATは,幻覚を大幅に抑制しつつ,繰り返し記述を回避することに成功した。
    • LLaVA-1.5における評価で,幻覚率C_SとC_Iをそれぞれ35.8%と37.1%削減した。
    • 言語性能や予測能力を維持しつつ,優れたトレードオフを実現している。

    Link: https://arxiv.org/abs/2603.04908

  • パッチを超えて:視点整合的3D敵対的オブジェクトによる視覚運動ポリシーの脆弱性探求 [cs.RO, cs.CV]目的:ロボットの視覚運動ポリシーの脆弱性
    • ロボットの操作能力向上には,視覚情報に基づく正確な制御が不可欠である。
    • 既存の2D敵対的パッチは視点変化に弱く,動的な環境下での有効性が低い。
    • 3Dオブジェクトに対する視点整合的な敵対的テクスチャを生成し,頑健性を評価すること。
    • 提案手法は,様々な環境条件下で有効であることが実験的に示された。
    • ブラックボックス環境下での転移性も確認され,実世界での応用可能性が示唆された。
    • 距離依存的な周波数特性を活用し,カメラとオブジェクトの距離変化に強いテクスチャを生成した。

    Link: https://arxiv.org/abs/2603.04913

  • 天井クレーン搭載LiDARによる人物検出と追跡 [cs.DB, cs.DC, cs.PF, cs.CV, cs.LG, cs.RO]目的:産業用屋内作業空間における人物検出と追跡
    • 労働安全確保のため,作業空間における人物の位置把握は重要である。
    • 既存のLiDARデータセットは車両中心であり,天井からの俯瞰視点に適していない。
    • 天井クレーンからのLiDARデータを用いて,人物検出・追跡の実現を目指す。
    • 専用データセットを構築し,既存の3D検出器を適合させた結果,最高でAP 0.84を達成。
    • 1.0m範囲ではAP 0.97と,より高い精度が得られ,VoxelNeXtとSECONDが最も信頼性が高いバックボーンとして機能。
    • 本研究は標準的な運転データセットと天井からのセンシング間のドメインギャップを埋める貢献をする。

    Link: https://arxiv.org/abs/2603.04938

  • ターゲット話者抽出のための学習ダイナミクスを考慮した多要素カリキュラム学習 [cs.SD]目的:ターゲット話者抽出における性能向上
    • 音響信号処理分野において,複数話者からの特定話者分離は重要な課題である。
    • 既存手法では,様々な要因が相互に影響し合う状況下で性能が低下しやすい。
    • 学習ダイナミクスに基づいたカリキュラム学習により,複雑な状況下での性能改善を目指す。
    • 提案手法では,SNR,話者数,重複率,合成/実データ比率を同時に調整する多要素カリキュラム学習を導入した。
    • TSE-Datamapという可視化フレームワークにより,学習ダイナミクスに基づいたカリキュラム設計を可能にした。
    • 困難な複数話者シナリオにおいて,ランダムサンプリングと比較して大幅な性能向上を達成した。

    Link: https://arxiv.org/abs/2603.04943

  • 前立腺癌の適応的プロトタイプに基づく解釈可能なグレード分類 [cs.NI, cs.CL, cs.CL, cs.CV]目的:前立腺癌のグレード分類における解釈可能性の向上
    • 前立腺癌は男性で頻繁に診断される悪性腫瘍であり,病理医の負担軽減が求められている。
    • 深層学習は性能面で進歩しているが,解釈性の低さが臨床応用における課題となっている。
    • 既存の解釈手法では,重要領域がなぜ重要なのかを明らかにすることが難しい点を解決する。
    • 本研究では,組織病理画像から前立腺癌のグレードを解釈可能に分類するための,プロトタイプに基づく弱教師ありフレームワークを提案した。
    • このフレームワークは,病理医の臨床例との比較というワークフローを模倣した明示的な推論手順を持つため,信頼性が高い。
    • PANDAとSICAPデータセットでの評価により,本フレームワークが病理医の診断ワークフローを支援する信頼できるツールとなり得ることを確認した。

    Link: https://arxiv.org/abs/2603.04947

  • TimeWarp: 過去のウェブを再現してウェブエージェントを評価する [cs.AI, cs.CL, cs.CV, cs.LG]目的:ウェブデザインの変化に対するウェブエージェントの脆弱性の評価
    • ウェブエージェントはますます重要になっているが,その性能はウェブの変化に左右される可能性が高い。
    • 現在のベンチマークでは,ウェブの変化に対するエージェントの頑健性が十分に評価されていない。
    • ウェブのデザイン変化に対応できるエージェントの汎化性能向上を目指す。
    • TimeWarpベンチマークは,UI,デザイン,レイアウトが変化するウェブ環境を再現し,ウェブエージェントの脆弱性を明らかにした。
    • 行動模倣(BC)は,単一バージョンの軌跡では限界があることが示された。
    • 複数のバージョンにわたる軌跡を収集する計画蒸留に基づくTimeTrajにより,Qwen-3 4Bで20.4%から37.7%,Llama-3.1 8Bで0%から27.0%という大幅な性能向上が達成された。

    Link: https://arxiv.org/abs/2603.04949

  • 医療画像差分視覚質問応答のための位置情報認識型事前学習 [cs.CV, cs.AI]目的:医療画像差分視覚質問応答における性能向上
    • 画像診断支援において,複数の画像比較が不可欠であり,その精度向上は医療の質の向上に繋がる。
    • 既存の画像エンコーダは,微細な視覚的変化を捉えきれず,病状の変化と画像取得の違いを区別できない場合がある。
    • 位置情報に着目した事前学習により,微細な視覚情報を捉え,差分VQAの精度を向上させる。
    • 位置情報認識型事前学習フレームワークを導入し,自動参照表現,接地キャプション,条件付き自動参照表現タスクを活用した。
    • 提案手法は,胸部X線画像における臨床的に重要な変化の検出と推論において,最先端の性能を達成した。
    • 位置情報を考慮することで,従来の事前学習方法では見過ごされがちな詳細な空間的情報を学習できるようになった。

    Link: https://arxiv.org/abs/2603.04950

  • VisionPangu:17億パラメータのコンパクトで詳細なマルチモーダルアシスタント [cs.CV, cs.CL]目的:詳細な画像キャプション生成の改善
    • 視覚と言語の理解において,大規模マルチモーダルモデルは高い性能を示す。
    • 既存のアプローチは大規模なアーキテクチャと粗い教師あり学習に依存し,詳細な画像キャプションの生成が課題。
    • 効率的なマルチモーダルアライメントと高品質な教師あり学習により,詳細な画像キャプション生成能力の向上を目指す。
    • VisionPanguは,InternVL由来の画像エンコーダとOpenPangu-Embedded言語バックボーンを組み合わせることで,コンパクトながらも競争力のある性能を実現。
    • DOCCIデータセットの密な人間による記述を取り入れることで,意味の一貫性と記述の詳細度を向上。
    • コンパクトなマルチモーダルモデルでも,構造化され詳細なキャプションを生成可能であることを示す。

    Link: https://arxiv.org/abs/2603.04957

  • 単眼3Dモルファブルモデル回帰のための古い視点投影の再検討 [cs.CV, cs.GR]目的:単眼画像からの3Dモルファブルモデル回帰における視点歪み効果の捉え方
    • 映像制作において,3Dモルファブルモデルへの適合は重要な技術である。
    • 従来の正射影法は近距離の顔画像における視点歪みを捉えられない。
    • 近距離映像に適応可能な,安定した視点投影法の拡張を目指す。
    • 新しい縮小パラメータを導入することで,疑似的な視点効果を正射影に組み込んだ。
    • 既存モデルの微調整手法を提示し,ヘッドマウントカメラで記録されたデータセットを用いて効果を検証した。
    • 提案手法は,定量・定性の両面で良好な結果を示し,近距離映像への適用可能性を示唆する。

    Link: https://arxiv.org/abs/2603.04958

  • BiEvLight:タスク認識型イベントリファインメントによる低照度画像強調 [cs.CL, cs.CV]目的:低照度画像強調のためのイベントカメラ活用における,イベントと画像のノイズ結合問題の解決
    • イベントカメラは高ダイナミックレンジ特性を持ち,低照度環境下での画像処理に新たな可能性をもたらす。
    • イベントと画像のノイズ結合が,既存手法の性能向上を阻害する要因となっている。
    • イベントカメラと画像間の勾配相関を活用し,タスクに応じたイベントデノイジングを実現する。
    • 提案手法BiEvLightは,イベントデノイジングと画像強調を協調的に最適化する階層的フレームワークである。
    • 勾配ガイド付きイベントデノイジングにより,ノイズが多い領域でも十分なデノイジングが可能となる。
    • 実験の結果,BiEvLightは既存の最先端手法を凌駕し,PSNR,PSNR*,SSIMでそれぞれ平均1.30dB,2.03dB,0.047の改善を達成した。

    Link: https://arxiv.org/abs/2603.04975

  • 3D-RFT:ビデオに基づく3次元シーン理解のための強化学習によるファインチューニング [cs.CV, cs.AI]目的:ビデオに基づく3次元シーン理解のための強化学習によるファインチューニング手法の開発
    • 大規模言語モデルの推論能力向上は,様々な分野で重要性を増しており,特に3次元シーン理解への応用が期待される。
    • 既存手法は教師ありファインチューニングに依存しており,評価指標と最適化目標の乖離が課題となっていた。
    • 本研究は,強化学習を用いてこの乖離を解消し,3次元シーン理解の性能向上を目指す。
    • 提案手法3D-RFTは,3次元IoUやF1スコアといった評価指標を直接最適化することで,従来のSFTよりも効果的な学習を実現した。
    • 実験の結果,3D-RFT-4Bは,3次元ビデオ検出,3次元視覚的グラウンディング,空間推論などのタスクで最先端の性能を達成した。
    • 特に,より大規模なモデル(VG LLM-8Bなど)と比較しても,優れた性能を示しており,その有効性と堅牢性が確認された。

    Link: https://arxiv.org/abs/2603.04976

  • 熟考,そして検証:長編ビデオ理解のための仮説検証型マルチエージェントフレームワーク [cs.CV]目的:長編ビデオ理解のための仮説検証プロセス
    • 長編ビデオ理解は,視覚的な冗長性や時間的な依存関係から課題が多い。
    • 既存手法では,意味のずれや相関に基づく誤りが蓄積しやすい。
    • ビデオの質問応答を,検証可能な仮説のプロセスとして解決する。
    • 提案手法VideoHV-Agentは,3つの長編ビデオ理解ベンチマークで最先端の精度を達成した。
    • これにより,解釈可能性の向上,論理的な妥当性,計算コストの削減が実現した。
    • モデルはまず,各候補回答に対してビデオ内で真であるべきことを明確にする。

    Link: https://arxiv.org/abs/2603.04977

  • 理解,生成,編集を統合するシンプルなベースライン:バニラ次トークン予測による [cs.AR, cs.CV]目的:マルチモーダル理解,画像生成,編集の統合
    • 近年のAI研究は,多様なデータを統合し,より人間らしい知能を構築することを目指している。
    • 既存のモデルは,特定のタスクに特化している場合が多く,汎用性に欠ける。
    • 単一モデルで複数のタスクを効率的に処理し,汎用的なAIの実現に貢献すること。
    • Wallarooは,次トークン予測を用いて,マルチモーダル理解,画像生成,編集を統合したシンプルなベースラインである。
    • マルチ解像度画像入力,および中国語と英語のバイリンガル対応をサポートしている。
    • 様々なベンチマークにおいて,競合するモデルと同等またはそれ以上の性能を示し,自己回帰モデルの可能性を示唆している。

    Link: https://arxiv.org/abs/2603.04980

  • TAPFormer:フレームとイベントの過渡的非同期融合によるロバストな任意の点追跡 [eess.SY, cs.SY, cs.CV]目的:フレームとイベントを用いた任意の点追跡手法の開発
    • コンピュータビジョンにおいて,高精度かつ長期間のモーション推論を伴う点追跡は重要な課題である。
    • 従来のフレームとイベントの融合は同期型または非適応的であり,時間的なずれや片方のモダリティの失敗時に性能が低下する。
    • フレームとイベントの非同期融合により,時間的なずれを解消し,ロバストな点追跡を実現することを目指す。
    • TAPFormerは,フレームとイベントを過渡的非同期融合するTransformerベースのフレームワークである。
    • 提案手法は,フレームとイベント間の時間的変化を明示的にモデル化し,低フレームレートと高イベントレート間のギャップを埋めている。
    • 新しいフレーム-イベントTAPデータセットで評価した結果,既存手法を大幅に上回り,平均ピクセル誤差を28.2%改善した。

    Link: https://arxiv.org/abs/2603.04989

  • MultiGO++:単眼画像からの幾何・テクスチャ協調による3D衣服着人形再構成 [cs.CL, cs.CV]目的:単眼画像からのリアルな3D衣服着人形モデルの生成
    • 3Dヒューマンモデリングは,バーチャルリアリティやアバター作成など,幅広い分野で重要性が増している。
    • 既存手法は多視点データに依存し,単眼画像からの再構成精度が課題となっていた。
    • 本研究は,幾何・テクスチャの協調学習により,単眼画像からの高精度な3D再構成を目指す。
    • 本研究では,大規模な3Dテクスチャ付き人体スキャンを合成し,テクスチャ品質の推定性能を向上させた。
    • また,領域認識形状抽出モジュールとフーリエ幾何エンコーダにより,幾何情報の学習効率を高めた。
    • 提案手法MultiGO++は,既存手法と比較して,ベンチマークデータセットおよび実環境データにおいて優れた再構成性能を示した。

    Link: https://arxiv.org/abs/2603.04993

  • モバイル光学における盲目収差復元のための物理整合型深層学習 [cs.CV]目的:モバイル光学における盲目収差復元
    • モバイル写真の品質向上は重要であり,レンズ収差の補正は不可欠である。
    • 従来の盲目デコンボリューションは不安定であり,深層学習モデルは物理モデルを欠く。
    • 物理に基づいた深層学習フレームワークにより,安定した収差復元を実現する。
    • 提案手法Lens2Zernikeは,単一のぼやけた画像から物理的な光学パラメータを盲目的に復元する。
    • 従来の深層学習手法と比較して,回帰誤差が大幅に低減された。
    • 復元されたパラメータを用いて,非盲目デコンボリューションによる画像復元が安定して行われた。

    Link: https://arxiv.org/abs/2603.04999

  • 生成画像復元はどこまで進んだか:その能力,限界,および評価手法に関する研究 [cs.CV]目的:生成画像復元モデルの能力,限界,評価手法に関する包括的な分析
    • 画像復元は,古い写真の修復や低解像度画像の高解像度化など,幅広い分野で重要な技術である。
    • 従来の画像復元手法では,生成された画像の品質やリアリティに課題があった。
    • 生成画像復元モデルの性能差を明らかにし,今後の発展に向けた方向性を示す。
    • 生成画像復元は,知覚的なリアリズムにおいて目覚ましい進歩を遂げているが,その実用的な能力は以前の方法と比較してどこまで進んでいるのかを大規模に評価した。
    • 詳細,鮮明さ,意味的正確性,全体的な品質といった多次元評価パイプラインを用いた分析により,多様なアーキテクチャ間の重要な性能差が明らかになった。
    • 失敗モードの変化から,知覚に基づいた低レベルビジョンの分野におけるパラダイムシフトが示唆され,詳細不足から詳細品質と意味的制御への課題が変化している。

    Link: https://arxiv.org/abs/2603.05010

  • Tell2Adapt:視覚基盤モデルを用いたソースフリー教師なしドメイン適応のための統一的フレームワーク [eess.SY, cs.SY, cs.CV]目的:ソースフリー教師なしドメイン適応の統一的フレームワーク
    • 深層学習モデルの多様な臨床環境への展開は重要である。そのため,ドメイン適応技術が不可欠となる。
    • 既存手法は特定のドメインシフトに特化しており,汎用性に欠ける。複数のモダリティやターゲットを扱う統一的な枠組みが存在しない。
    • 汎用的な視覚基盤モデルを活用し,多様な臨床データへの適応を可能にする。
    • Tell2Adaptは,文脈を考慮したプロンプト正則化により,視覚基盤モデルの知識を最大限に活用する。
    • Visual Plausibility Refinementにより,予測の信頼性を向上させ,誤検出を抑制する。
    • 10のドメイン適応方向と22の解剖学的ターゲットにおける評価で,既存手法を凌駕する最先端の結果を示した。

    Link: https://arxiv.org/abs/2603.05012

  • 多様な歴史地図コレクションの汎用的な多重スケールセグメンテーション [cs.CV]目的:歴史地図のセマンティックセグメンテーションモデル及びオントロジー
    • 歴史地図は歴史地理研究の重要な一次資料であり,その活用が求められている。
    • 既存の地図認識モデルは,特定の地図シリーズに特化しており,多様な歴史地図への適用が困難である。
    • 多様な歴史地図コレクションに対して汎用的に適用可能なセグメンテーション手法を開発し,活用を促進する。
    • 新たなベンチマークデータセットSemapを構築し,歴史地図の多様性を反映した手動アノテーションパッチ1,439枚を提供した。
    • 手続き型データ合成と多重スケール統合を組み合わせたセグメンテーションフレームワークを提案し,HCMSSD及びSemapデータセットで最先端の性能を達成した。
    • 多様性を重視したアプローチが有効であり,地図コレクション,スケール,地域,出版コンテキストに左右されにくいセグメンテーション性能を示した。

    Link: https://arxiv.org/abs/2603.05037

  • 光学コヒーレンストモグラフィーにおける中間再構成の活用:テスト時適応型医用画像セグメンテーション [cs.CV]目的:テスト時適応型医用画像セグメンテーションのための,中間再構成の活用
    • 低コスト画像装置はスクリーニングで普及している。診断精度向上のため,高度な再構成アルゴリズムが重要である。
    • 再構成の最終画像のみ評価されることが多く,再構成過程で得られる有用な中間表現が無視されている。
    • 中間表現を活用し,テスト時にダウンストリームネットワークを適応させることで,セグメンテーション性能を向上させる。
    • 提案手法IRTTAは,再構成のタイムスケールに応じてダウンストリームネットワークの正規化層パラメータを調整する。
    • タイムステップごとのセグメンテーションの変動を利用し,追加コストなしで不確実性推定を実現する。
    • 再構成プロセスやダウンストリームモデルを変更することなく,セグメンテーション性能と意味のある不確実性推定を向上させる。

    Link: https://arxiv.org/abs/2603.05041

  • CoIn3D: 設定不変なマルチカメラ3D物体検出の再検討 [cs.CV, cs.RO]目的:マルチカメラ3D物体検出における設定間の汎化性能向上
    • ロボットや自動運転車など,マルチセンサー物理エージェントの普及に伴い,3D物体検出の重要性が増している。
    • 既存のMC3Dモデルは,新しいカメラ設定のプラットフォームへの汎化が難しいという課題がある。
    • 異なるカメラ設定における空間的な事前知識の差異を解消し,汎化性能を向上させることを目指す。
    • CoIn3Dは,焦点距離,地面深度,勾配,Plücker座標等の空間情報を特徴量に組み込む空間認識特徴量変調(SFM)を導入する。
    • また,訓練不要な動的新規視点画像合成スキームによるカメラ認識データ拡張(CDA)により,観測データの多様性を向上させる。
    • NuScenes,Waymo,Lyft等のデータセットにおいて,BEVDepth,BEVFormer,PETR等の主要なMC3Dパラダイムで優れたクロス設定性能を示す。

    Link: https://arxiv.org/abs/2603.05042

  • 曖昧なラベルを用いたCLIP駆動型ゼロショット学習 [cs.CV]目的:曖昧なラベルが存在する状況下におけるゼロショット学習の性能向上
    • 画像認識の分野において,未学習クラスの識別は重要な課題である。
    • 従来のゼロショット学習は,学習データのラベル精度に依存し,ノイズや曖昧なラベルに弱い。
    • ラベルの曖昧さに対処し,よりロバストなゼロショット学習を実現すること。
    • 本研究では,CLIPを用いてインスタンス特徴とラベル特徴を抽出し,それらを融合するセマンティックマイニングブロックを提案した。
    • 提案手法は,インスタンスとラベルの関連度に基づいた重みを付与する部分的なゼロショット損失関数を導入し,セマンティックミスマッチを最小化する。
    • 実験結果から,提案手法CLIP-PZSLが既存手法と比較して優位性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.05053

  • 色注意機構付きRT-DETRを用いたABLDatasetによる青色緊急灯検出360度マルチカメラシステム [cs.CV, cs.AI, eess.IV]目的:青色緊急灯の検出システム
    • 交通事故削減のため,緊急車両の早期発見が不可欠である。
    • 悪天候や地理的条件により,緊急車両の検出精度が低下しやすい。
    • 多様な条件下で高精度な緊急車両の青色灯検出を実現すること。
    • 本研究では,色注意機構を組み込んだRT-DETRモデルが,テストセットにおいて94.7%の精度と94.1%のリコールを達成した。
    • 実地試験では,最大70メートル先の緊急車両を検出可能であり,実用性が示された。
    • 緊急車両の接近角度を推定する幾何学的変換も実装され,ADASへの統合に貢献する。

    Link: https://arxiv.org/abs/2603.05058

  • 運動に触発された運動統合による移動赤外微小ターゲット検出の強力なベースライン:MI-DETR [cs.RO, cs.CV]目的:移動赤外微小ターゲット検出における性能向上
    • 赤外線画像における微小ターゲットの検出は,監視やセキュリティにおいて重要である。
    • 背景の複雑さや動きにより,微小ターゲットが識別困難であるという課題がある。
    • 生物学的な視覚システムに着想を得た手法で,この検出課題を解決することを目指す。
    • 提案手法MI-DETRは,3つの主要なベンチマークデータセットで優れた性能を発揮した。
    • 特にIRDST-Hにおいて,既存のマルチフレームベースラインを大幅に上回るmAP@50を達成した。
    • 視覚経路の統合を生物学的に模倣することで,効率的な運動・外観特徴の抽出を実現した。

    Link: https://arxiv.org/abs/2603.05071

  • UniM:統一されたあらゆるもの間を相互に織り交ぜたマルチモーダルベンチマーク [cs.CV]目的:あらゆるもの間を相互に織り交ぜたマルチモーダル学習の能力の評価
    • 実世界では,多様なメディアを組み合わせた入力と出力が求められるため,その評価基準が必要である。
    • 既存のベンチマークは,特定の組み合わせに偏っており,汎用的な能力評価が困難である。
    • 多様なメディアを組み合わせたタスクを網羅的に評価し,より高度なマルチモーダルモデルの開発を促進する。
    • UniMベンチマークは,テキスト,画像,音声など7つのメディアタイプと30のドメインを網羅する31,000件の高品質なデータセットである。
    • 評価スイートは,意味の正確性,応答構造,メディア間の整合性という3つの側面からモデルを評価する。
    • 提案されたUniMAモデルは,構造化されたメディア生成のための追跡可能な推論を備えており,UniMの難易度を実証している。

    Link: https://arxiv.org/abs/2603.05075

  • MoRe:モーションを考慮した4D再構成Transformer [cs.CV]目的:動的4Dシーンの再構成
    • 現実世界の理解やAR/VRへの応用において,動的シーンの正確な3D再構成は不可欠である。
    • 移動物体が存在する場合,カメラ姿勢推定が困難となり,再構成精度が低下する。
    • 計算コストを抑えつつ,動的シーンを効率的に再構成する手法を確立すること。
    • MoReは,静的再構成を基盤とし,アテンション強制戦略を用いて動的モーションと静的構造を分離する。
    • グループ化された因果的アテンションにより,フレーム間の時間的依存関係を捉え,再構成の整合性を高める。
    • 複数のベンチマークにおいて,MoReは高品質かつ効率的な動的シーン再構成を実現した。

    Link: https://arxiv.org/abs/2603.05078

  • 位置エンコーディングを超えて:5次元空間方向ハッシュエンコーディング [cs.GR]目的:空間と方向の両方で全周波数信号をサポートする,コンパクトで効率的な空間方向ニューラルエンコーディング
    • 高頻度信号の空間領域表現に有効なCartesian座標系に依存する既存手法の課題克服が重要である。
    • 方向領域への単純な適用は歪みや不連続性を引き起こし,表現力が制限されている。
    • 空間と方向の両方で高頻度信号を効果的に表現可能な新しいエンコーディング手法を提案し,性能向上を目指す。
    • 提案手法は,空間および方向エンコーディングにおいて,他のハッシュベースの手法を大幅に上回る性能を示す。
    • ニューラルパスガイディングの文脈において,提案手法は最先端技術を最大で2倍の分散削減率で上回る。
    • 方向エンコーディングは,Müllerらのハッシュグリッドアプローチを方向領域に一般化し,階層的な測地グリッドを用いる。

    Link: https://arxiv.org/abs/2603.05079

  • 4D生成のための直交時空間分布転移 [cs.CV]目的:4Dコンテンツ生成における空間・時間的特徴の転移と活用
    • AI生成の発展に伴い,高品質な4Dコンテンツの需要が高まっている。
    • 大規模な4Dデータセットの不足が,4D生成モデルの学習を妨げている。
    • 既存の3D/動画拡散モデルからの知識転移により,4D生成の質を向上させる。
    • 提案手法は,3D拡散モデルと動画拡散モデルから空間的・時間的情報を転移させることで,4D合成を強化する。
    • 空間・時間的に分離された潜在空間を用いたSTD-4D拡散モデルと,特徴転移機構であるOrsterを開発した。
    • 実験結果から,提案手法が既存手法を凌駕し,優れた空間・時間的一貫性と高品質な4D合成を達成することが示された。

    Link: https://arxiv.org/abs/2603.05081

  • 公理的オンマニフォールドシャプレイ値:最適生成フローによるアプローチ [cs.LG, cs.AI, cs.CV]目的:オンマニフォールドシャプレイ値の理論的根拠と計算手法
    • 説明可能なAI(XAI)の重要性が増しており,特徴量の寄与度を評価する手法が求められている。
    • 従来のシャプレイ値に基づく手法は,オフマニフォールドアーティファクトという問題に直面している。
    • 生成モデルを活用し,幾何学的な効率性と離散化誤差を抑制したオンマニフォールドシャプレイ値を確立する。
    • 最適な生成フローを用いることで,効率性と幾何学的性質を満たすシャプレイ値の表現定理を証明した。
    • 運動エネルギー最小化Wasserstein-2測地線を選択し,古典的なシャプレイ値との整合性および安定性を保証した。
    • 実験結果から,Flow Consistency Errorの低減とStructure-Aware Total Variationによるセマンティックアラインメントの向上を確認した。

    Link: https://arxiv.org/abs/2603.05093

  • TW-Sound580K:検証に基づいたキュレーションによる地域音響言語モデリングのための地域音声-テキストデータセット [cs.SD]目的:台湾の音声-テキスト命令データセットの開発と,それを用いた地域音響言語モデルの性能向上
    • 大規模言語モデルの音声認識性能は,地域訛りや方言への対応が課題となっている。
    • 地域特有の音声データセットの不足が,地域言語モデルの性能向上を妨げている。
    • 高品質な地域音声データセットを構築し,音声認識における地域格差の解消を目指す。
    • TW-Sound580Kは,58万組の高品質な音声-テキスト命令ペアで構成される。
    • Tai-LALMは,TW-Sound580Kでファインチューニングすることで,TAU Benchmarkにおいて6.5%の性能向上を達成した。
    • 厳格なキュレーションと動的二重ASRアービトレーションが,地域音声認識性能の向上に貢献する。

    Link: https://arxiv.org/abs/2603.05094

  • GEM-TFL:EM誘導分解と時間的洗練による弱学習と完全学習の架け橋 [cs.CV, cs.AI]目的:動画や音声ストリーム内の改ざんされたセグメントの正確な特定
    • マルチメディアフォレンジックとセキュリティにおいて,改ざん検知は重要な役割を担う
    • 従来のWS-TFL手法は,学習と推論の目的の不一致や,バイナリラベルからの制約を受けやすい
    • 学習と推論のギャップを埋め,より正確でロバストな改ざん局所化を目指す
    • GEM-TFLは,グラフベースのEMを活用した二段階の分類・回帰フレームワークである。
    • EMベースの最適化により,バイナリラベルから多次元潜在属性への変換を通じて,弱学習の有効性を高めている。
    • 提案ベースのグラフ構造による時間的・意味的関係のモデリングで,一貫性のある信頼度推定を実現した。

    Link: https://arxiv.org/abs/2603.05095

  • Diff-ES:進化戦略による段階的構造拡散プルーニング [cs.CV]目的:拡散モデルの段階的なスパースネススケジュール最適化
    • 拡散モデルは高品質な画像生成に成功しているが,計算コストが高い。
    • 既存の構造化プルーニングは,高速化と画像品質維持のバランスが難しい。
    • 進化戦略により,モデル複製なしで最適なプルーニングスケジュールを探索する。
    • Diff-ESは,拡散過程を複数の段階に分割し,進化戦略を用いて最適なスパースネススケジュールを自動的に発見する。
    • 実験の結果,DiTとSDXLにおいて,生成品質の低下を最小限に抑えつつ,実行速度の大幅な向上を達成した。
    • 本手法は,既存の構造化プルーニング手法と自然に統合でき,最先端の性能を確立する。

    Link: https://arxiv.org/abs/2603.05105

  • BLINK:NK細胞傷害活性の行動潜在的モデリング [cs.RO, cs.CV, cs.LG]目的:NK細胞と腫瘍細胞の相互作用から潜在的な動態学習と細胞傷害性アウトカムの予測
    • 細胞挙動の理解に機械学習が貢献しうる。特に,NK細胞の細胞傷害性は重要な研究対象である。
    • 単一フレームの分類だけでは,時間経過に伴う細胞相互作用から細胞傷害性アウトカムを正確に推測することは困難である。
    • NK細胞と腫瘍細胞の相互作用の潜在的動態を学習し,細胞傷害性アウトカムを高精度に予測することを目指す。
    • BLINKは,NK細胞と腫瘍細胞の相互作用系列から潜在的な動態を学習し,アポトーシス増加量を予測する。
    • 長期の時間経過観察記録を用いた実験により,細胞傷害性アウトカムの検出精度が向上し,将来のアウトカムの予測が可能となった。
    • 潜在表現は,NK細胞の行動モードや時間的な相互作用段階を構造化して表現し,解釈可能性を提供する。

    Link: https://arxiv.org/abs/2603.05110

  • 歩行者属性認識のための統一的フレームワーク UniPAR [cs.CV, cs.AI]目的:歩行者属性認識の統一的フレームワーク
    • 歩行者属性認識は,監視映像における人物検索や小売分析など,様々な応用を支える重要なコンピュータビジョン技術である。
    • 既存研究は,データセットごとにモデルを構築する傾向があり,モダリティ,属性定義,環境などのドメイン間の差異に対応できていない。
    • UniPARは,多様なデータセットとモダリティを統合し,ドメイン間の汎化性能とロバスト性を向上させることを目指す。
    • UniPARは,RGB画像,動画,イベントストリームといった異種モダリティのデータを同時に処理できる統一的なTransformerベースのフレームワークである。
    • MSP60K,DukeMTMC,EventPARなどのベンチマークデータセットで,UniPARは専門的な最先端手法と同等の性能を達成した。
    • 複数のデータセットを用いた共同学習により,モデルのドメイン間の汎化性能と,低照度やモーションブラーなどの極限環境における認識ロバスト性が大幅に向上した。

    Link: https://arxiv.org/abs/2603.05114

  • SRasP:クロスドメイン少数ショット学習のための自己再指向敵対的スタイル摂動 [cs.CV, cs.LG]目的:クロスドメイン少数ショット学習における汎化性能の向上
    • モデルの頑健性や転移学習能力を測る上で重要な指標となる分野である。
    • 既存のスタイル摂動法は勾配の不安定性や,鋭い極小値への収束が課題となっていた。
    • 勾配の安定化と,より平坦で汎化性能の高い解への収束を目指す。
    • 提案手法SRasPは,グローバルなセマンティックガイダンスを用いて非一貫なクロップを特定し,再指向と集約を行う。
    • 視覚的な差異を最大化しつつ,グローバル,クロップ,敵対的特徴間のセマンティック一貫性を保つ多目的最適化関数を導入した。
    • 複数のCD-FSLベンチマークで,最先端手法と比較して一貫した改善が確認された。

    Link: https://arxiv.org/abs/2603.05135

  • 行動,思考,または抑制:複雑さを考慮した視覚-言語-行動モデルの適応推論 [cs.CV, cs.RO]目的:視覚-言語-行動モデルにおける複雑さに応じた適応推論の枠組み
    • 視覚と言語と行動を統合したモデルは,ロボット工学や人間-ロボットインタラクションにおいて重要である。
    • 既存手法は計算コストが増大し,推論速度が遅延する問題がある。また,不確実性の推定が不十分である。
    • 入力の複雑さに応じて推論経路を動的に切り替えることで,効率性と安全性を向上させる。
    • 視覚埋め込みのみでタスクの複雑さを推定する構成が,言語よりも優れていることが示された。
    • LIBEROおよびLIBERO-PROベンチマーク,実機ロボットを用いた評価で,高い性能を発揮した。
    • 訓練データのわずか5%でF1スコア80%を達成し,信頼性の高いタスク複雑度検出器であることを示した。

    Link: https://arxiv.org/abs/2603.05147

  • SSR-GS:ガウシアン スプラッティングにおける鏡面反射の分離による光沢面再構成 [cs.CV, cs.AI, cs.GR]目的:光沢面再構成のための鏡面反射モデリング
    • 3Dコンテンツ作成において,写実的な質感表現は不可欠であり,特に鏡面反射の正確な再現が重要である。
    • 複雑な照明下では,強い鏡面反射や多重反射の影響で,高品質な3D再構成が困難となるという課題が存在する。
    • 本研究は,ガウシアン スプラッティングの性能を向上させ,より正確な光沢面の再構成を実現することを目的とする。
    • 提案手法SSR-GSは,直接鏡面反射を効率的にモデル化するプリフィルタリングされたMip-Cubemapと,間接鏡面反射を捉えるIndiASGモジュールを導入する。
    • 反射を考慮した視覚的事前知識と幾何学的事前知識を組み合わせるVisual Geometry Priors (VGP)により,反射の影響を受けやすい領域の photometric loss を抑制する。
    • 合成データと実データを用いた実験により,SSR-GSが光沢面再構成において最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2603.05152

  • 胸部X線画像診断における前処理方法が人種エンコーディングとモデルの頑健性に与える影響 [cs.CV, cs.LG, eess.IV]目的:胸部X線画像における人種ショートカット学習の軽減
    • 医療における公平性の確保は重要であり,特に人種による診断の偏りは看過できない。
    • 深層学習モデルが胸部X線画像から人種を高い精度で識別し,診断に影響を及ぼす可能性がある。
    • 前処理方法による人種情報の抑制と診断精度の維持を両立し,偏りを軽減することを目指す。
    • 肺領域の切り出し(cropping)が,診断性能を維持しつつ,人種ショートカット学習を効果的に低減することが示された。
    • 公平性と精度を両立させることは可能であり,従来のトレードオフの考え方を覆す結果となった。
    • 肺マスクやCLAHEといった他の前処理方法も検討されたが,切り出しほど効果的ではなかった。

    Link: https://arxiv.org/abs/2603.05157

  • ぼやけた画像を用いた汎用カメラキャリブレーション [cs.CV, eess.IV]目的:汎用カメラモデルのキャリブレーション手法
    • 3Dビジョンの基礎技術であり,高精度な計測や認識に不可欠である。
    • 汎用カメラはパラメータ数が多く,従来のキャリブレーションでは多数の画像が必要となる。
    • モーションブラーの影響を軽減し,現実的な条件下でのキャリブレーションを実現する。
    • 幾何学的制約と局所的なパラメトリック照明モデルを用いて,特徴点位置と点像拡散関数を同時に推定する。
    • 画像復元において通常考慮されない並進の曖昧さを解消する手法を提案した。
    • 実験結果は,提案手法の有効性を示すものである。

    Link: https://arxiv.org/abs/2603.05159

  • 大規模言語モデルによるマルチモーダルグラフ推論:Mario [cs.DL, cs.DB, cs.CV]目的:マルチモーダルグラフにおける大規模言語モデルを用いた推論の実現
    • 現実世界のデータは関係性を持ち,それを活用することが重要である。
    • 既存手法は画像とテキストを独立に処理し,関係性を考慮していない。
    • グラフ構造を維持しつつ,大規模言語モデルでマルチモーダル信号を処理する。
    • Marioは,グラフ構造に基づいた視覚・テキスト特徴の洗練と,ノードおよび近傍に対する最適なモダリティ構成の提示を行う。
    • 提案手法は,ノード分類とリンク予測のベンチマークにおいて,最先端のグラフモデルを上回る性能を示した。
    • 教師あり学習とゼロショットの両方のシナリオで一貫した性能が確認された。

    Link: https://arxiv.org/abs/2603.05181

  • Logi-PAR:微分可能規則を用いた論理的患者活動認識 [cs.CV, cs.AI]目的:患者活動認識における論理的推論の導入
    • 臨床現場での患者の安全とケアの質向上に,活動データの活用が不可欠である。
    • 既存モデルは活動の識別のみに終始し,視覚情報の論理的な解釈が不十分である。
    • 視覚情報からリスク要因を論理的に推論し,明示的な規則に基づいた活動認識を実現する。
    • Logi-PARは,視覚情報と文脈情報を統合し,微分可能な規則を学習する初のフレームワークである。
    • 学習された規則は,活動認識の根拠を説明可能にし,反事実介入によるリスク軽減効果も示唆する。
    • VASTおよびOmniFallの臨床ベンチマークにおいて,最先端の性能を達成し,既存モデルを大幅に上回った。

    Link: https://arxiv.org/abs/2603.05184

  • 半教師あり医療画像セグメンテーションにおけるセマンティッククラス分布学習によるバイアス軽減 [cs.CV]目的:医療画像セグメンテーションにおけるバイアス軽減のための手法
    • 医療画像セグメンテーションは,コンピュータ支援診断において不可欠な技術である。
    • 医療データセットはクラス間の不均衡が深刻であり,少数クラスの識別が困難である。
    • 少数クラスの識別性能向上と,セグメンテーションの信頼性向上を目指す。
    • 提案手法SCDLは,クラス条件付き特徴分布を学習することで,教師ありおよび表現のバイアスを軽減する。
    • SynapseおよびAMOSデータセットを用いた実験により,SCDLが全体およびクラスレベルの指標においてセグメンテーション性能を大幅に向上させることが示された。
    • 特に少数クラスにおいて顕著な性能向上を達成し,最先端の結果を確立した。

    Link: https://arxiv.org/abs/2603.05202

  • SPyCer:衛星画像からの近地表気温推定のための半教師あり物理制約付き文脈注意機構 [cs.CV, cs.AI]目的:衛星画像からの近地表気温推定
    • 地球観測において,地表の特性把握は重要である。しかし,人間や生態系に影響を与える現象は,地表付近の大気中で発生する。
    • 地上センサーは正確な計測を提供するが,空間的に疎であり,連続的な空間計測が困難である。
    • 衛星画像と物理モデルを活用し,空間的に連続的な近地表気温推定を実現する。
    • SPyCerは,物理的性質に基づいた学習を可能にする半教師ありネットワークである。
    • SPyCerは,地表面エネルギー収支と伝播拡散反応偏微分方程式に基づく物理制約付き正則化を用いる。
    • 実験結果から,SPyCerは既存手法よりも高い精度,汎化性能,物理過程との整合性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.05219

  • デジタルツイン駆動による繊維の分類と異物検知:自動選別システムへの応用 [cs.CV, cs.RO]目的:繊維の分類と異物検知に関する自動選別システムの実現
    • 持続可能な繊維リサイクルの需要増加に伴い,繊維処理の自動化が不可欠となっている。
    • 変形しやすい衣類の取り扱いと,混雑した環境下での異物検知が課題であった。
    • セマンティックVLM推論とデジタルツイン技術を組み合わせ,スケーラブルな自動選別を実現する。
    • Qwenモデルファミリーが,最高87.9%の全体精度を達成し,異物検知性能に優れていた。
    • Gemma3などの軽量モデルは,エッジ展開に適した速度と精度のトレードオフを提供する。
    • デジタルツインとMoveItの組み合わせにより,衝突回避経路計画と3D点群の統合が可能となり,操作の信頼性が向上した。

    Link: https://arxiv.org/abs/2603.05230

  • テスト時強化学習による音声・テキスト意味的報酬を用いたASRのロバスト性向上 [cs.SD, cs.AI, cs.LG]目的:実世界の未知データに対するASRシステムのロバスト性向上
    • 近年,ASRは精度が向上しているが,現実環境における多様なデータへの対応が課題である。
    • 既存のテスト時適応手法は,擬似ラベルやエントロピー最小化に依存し,誤った自信を高める可能性がある。
    • 因果介入に着想を得た強化学習により,ASRシステムの適応能力を向上させることを目指す。
    • 提案手法ASR-TRAは,LibriSpeechとL2 Arcticのデータセットで,既存手法よりも高い精度を達成した。
    • 音声と言語に基づく報酬を組み合わせることで,安定性と解釈性が向上することが確認された。
    • 実世界の過酷な条件下でのASRシステム展開に対する,実用的かつ堅牢な解決策を提供する。

    Link: https://arxiv.org/abs/2603.05231

  • CATNet:協調的知覚のための協調整列・変換ネットワーク [cs.RO, cs.FL, cs.DM, cs.CV]目的:多主体からの補完的な情報を統合することでシーン理解を向上させること
    • 自動運転やロボット工学において,周囲の状況を正確に把握することは安全性を確保する上で不可欠である。
    • 現実世界のマルチソースデータ統合には,時間遅延やノイズといった課題が存在し,知覚性能を低下させている。
    • 時間遅延とノイズを効果的に補償し,よりロバストで適応性の高い協調知覚システムを構築すること。
    • 提案手法CATNetは,時間遅延とノイズを補償する適応的なフレームワークであり,実験により既存手法を凌駕することが示された。
    • STSyncモジュールは,非同期の特徴ストリームを整列させ,時間的・空間的に統一された表現空間を確立する。
    • WTDenとAdpSelモジュールは,ノイズ抑制と重要特徴の選択により,ロバストな融合を実現している。

    Link: https://arxiv.org/abs/2603.05255

  • 知識ベースVQAのためのデータとサンプリングカリキュラムによるマルチモーダル推論の促進:Wiki-R1 [cs.CV]目的:知識ベースVQAにおけるマルチモーダル大規模言語モデルの推論能力向上
    • 知識ベースVQAは,画像と外部知識を統合し質問に答える必要があり,高度な推論能力が求められる。
    • 知識ベースのノイズや構造的な複雑さが,事前学習済みモデルの適応を困難にしている。
    • モデルの能力進化に合わせた訓練分布を構築し,知識ベースVQAへの適応を円滑化することを目指す。
    • 提案手法Wiki-R1は,データ生成に基づくカリキュラム強化学習フレームワークであり,KB-VQAにおけるモデルの推論を体系的に促進する。
    • Wiki-R1は,Encyclopedic VQAで正答率を35.5\%から37.1\%へ,InfoSeekで40.1\%から44.1\%へ向上させ,最新の最先端の結果を達成した。
    • 難易度を制御したデータ生成とカリキュラムサンプリング戦略により,学習効率を高め,より正確な回答を可能にする。

    Link: https://arxiv.org/abs/2603.05256

  • SarcasmMiner:堅牢な音声・視覚的皮肉推論のための二重トラックポストトレーニングフレームワーク [cs.MM, cs.CL, cs.SD]目的:多Modal皮肉検出におけるロバストな推論
    • 近年のマルチモーダル研究の発展に伴い,音声や画像といった多様な情報を統合する技術が重要になっている。
    • 皮肉の検出は,文脈や話し手の意図を理解する必要があり,既存手法ではその解釈に課題が残されている。
    • 本研究は,基礎モデルを用いた皮肉推論の精度向上と,誤った推論を防ぐための手法を開発することを目的とする。
    • SarcasmMinerは,強化学習に基づき,多Modal推論における幻覚を抑制するポストトレーニングフレームワークである。
    • MUStARD++データセットにおいて,F1スコアを59.83%(ゼロショット),68.23%(教師ありファインチューニング)から70.22%に向上させた。
    • 推論を意識した報酬モデリングが,性能向上と多Modalのグラウンディング強化に貢献することが示唆された。

    Link: https://arxiv.org/abs/2603.05275

  • 層ごとに,モジュールごとに:ViTのOODプローブの最適化 [cs.RO, cs.SY, eess.SY, cs.CV, cs.LG, stat.ML]目的:ViTにおける中間層の性能評価と,分布シフトに対する最適なプローブ手法の特定
    • 近年,大規模モデルの中間層が最終層よりも識別能力が高いことが示されており,そのメカニズム解明が重要である。
    • 事前学習データと下流タスクのデータの分布シフトが,モデル性能低下の主要因となっている。
    • 分布シフトの度合いに応じて,最適なプローブ対象となるモジュールを特定し,性能向上を目指す。
    • 分布シフトが大きい場合,フィードフォワードネットワーク内の活性化をプローブすることが最も効果的である。
    • 分布シフトが小さい場合,マルチヘッド自己注意モジュールの正規化出力をプローブすることが最適である。
    • 層ごとに,さらにモジュールごとにプローブ手法を選択することで,OOD汎化性能を最大限に引き出すことができる。

    Link: https://arxiv.org/abs/2603.05280