arXiv雑要約

画像・音声 - 2026/03/25 公開

  • 車両安全システムのためのタイポグラフィに基づく単眼距離推定フレームワーク [cs.CV]目的:車両間距離の推定
    • 高度な運転支援システムや自動運転技術において,正確な距離推定は不可欠である。
    • LiDARやレーダーは高精度だが高価であり,広く普及する障壁となっている。
    • 標準化されたナンバープレートのタイポグラフィを利用し,低コストで高精度な距離推定を実現する。
    • 文字の高さ計測とピンホールカメラモデルにより,距離を推定する幾何学的モジュールを開発した。
    • 実験により,文字の高さの変動係数が2.3%,平均絶対誤差が7.7%で,高い精度が確認された。
    • ナンバープレート幅に基づく手法と比較して,文字ベースの測距により標準偏差が35%低減された。

    Link: https://arxiv.org/abs/2603.22781

  • Know3D:ビジョン言語モデルからの知識を用いた3D生成のプロンプティング [cs.CV]目的:3D生成における知識の活用
    • 3D生成技術は発展しているが,データ不足により未観測領域の制御が課題である。
    • 単一視点からの曖昧性,および限られた3Dデータによる構造的知識の欠如が問題である。
    • ビジョン言語モデルの知識を注入し,3D生成の制御性と実現可能性を高める。
    • 提案手法Know3Dは,マルチモーダル大規模言語モデルの知識を3D生成プロセスに組み込む。
    • これにより,テキストによる指示に基づいた3Dアセットの背面生成を制御可能にした。
    • 抽象的な指示と幾何学的再構成のギャップを埋め,確率的な背面領域の生成を制御可能にした。

    Link: https://arxiv.org/abs/2603.22782

  • 曝露時間に基づいたベッドおよび椅子からの転倒率:継続的AIモニタリングによる評価 [cs.CV, cs.AI, cs.LG]目的:ベッドおよび椅子からの転倒率の算出
    • 高齢化社会において,転倒は重篤な健康問題を引き起こすため,その予防は重要である。
    • 従来の転倒率の算出方法は,患者のベッド滞在日数に依存しており,実際の曝露時間を考慮していなかった。
    • AIモニタリングを用いて曝露時間を考慮することで,より正確な転倒リスク評価を目指す。
    • 椅子への曝露時間あたり1,000時間で17.8件,ベッドへの曝露時間あたり1,000時間で4.3件の転倒率が推定された。
    • 椅子の転倒率とベッドの転倒率の比は2.35であり,統計的な有意差は認められなかった(p=0.0907)。
    • 直接的な椅子からの転倒の多くは,フットレストの位置調整の失敗に関連していた。

    Link: https://arxiv.org/abs/2603.22785

  • ガウススプラッティングにおける予測光度不確実性:新規視点合成への応用 [cs.CV]目的:新規視点合成のためのガウススプラッティングにおける予測光度不確実性の推定
    • 自律エージェントや安全性が重要なアプリケーションにおいて,空間マップの信頼性は不可欠である。
    • 既存のガウススプラッティングはレンダリング精度は高いが,不確実性の情報が不足している。
    • ガウススプラッティングの表現における不確実性を定量化し,信頼性の高い空間マップを構築すること。
    • 提案手法は,再構成残差に対するベイズ正則化線形最小二乗法最適化に基づき,軽量かつ汎用的な不確実性推定フレームワークを実現した。
    • 得られた不確実性情報は,アクティブ視点選択,シーン変化検出,異常検出といった下流タスクの性能向上に貢献する。
    • 本研究により,ガウススプラッティングは信頼性の高い空間マップとして活用可能となる。

    Link: https://arxiv.org/abs/2603.22786

  • 周期性と方向性:バーストフリッカー除去のための二重奏 [cs.CV]目的:フリッカーアーティファクトの除去
    • 短時間露出写真において,不安定な照明や露出の不均一によるフリッカーが画質劣化の大きな原因となっている。
    • 既存の汎用的な復元手法ではフリッカー特有の空間・時間的なパターンに対応できず,十分な除去効果が得られない。
    • フリッカーが持つ周期性と方向性を捉え,ゴーストの発生を抑制しつつ,効果的なフリッカー除去を実現する。
    • 提案手法Flickerformerは,位相に基づく特徴融合,自己相関フィードフォワードネットワーク,ウェーブレットに基づく方向性注意機構により,フリッカーを除去する。
    • 位相相関によりフレーム間特徴を適応的に集約し,自己相関によりフレーム内構造の規則性を活用することで,空間的に繰り返されるパターンを効果的に捉える。
    • ウェーブレット変換により高周波成分を解析し,フリッカーの方向性を考慮した低周波領域の復元を行うことで,精度の高いフリッカー除去を実現する。

    Link: https://arxiv.org/abs/2603.22794

  • PhotoAgent:空間と美的な理解を有するロボット写真家 [cs.CV, cs.AI, cs.RO]目的:美的目標に基づいた高品質な写真撮影
    • 写真撮影は,ロボットが現実世界で活動するための重要な課題であり,創造的なタスクの自動化に繋がる。
    • 高レベルな指示と幾何学的な制御の間の意味の隔たりが,ロボット写真の実現を妨げていた。
    • LMMを活用し,幾何学的制約を導き出すことで,高品質な写真撮影を可能にすること。
    • PhotoAgentは,LMMによる推論と新たな制御パラダイムを統合することで,空間的推論と画像品質において優れた性能を発揮する。
    • 主観的な美的目標を幾何学的な制約に変換し,分析的なソルバーで初期視点を計算することで,効果的な写真撮影を実現する。
    • 3D Gaussian Splattingを用いた内部世界モデルによる「精神的シミュレーション」により,試行錯誤のコストを削減し,迅速な収束を可能にする。

    Link: https://arxiv.org/abs/2603.22796

  • 焦点を絞れ,剪定するな:情報豊富な画像理解のための命令関連領域の特定 [cs.CC, cs.CV, cs.AI]目的:情報豊富な画像理解のための命令関連領域の特定
    • 画像とテキストを組み合わせたタスクは,LLMの推論能力を活用し高い性能を示す。
    • 複雑な画像では大量の視覚トークンが必要となり,計算コストが課題となっている。
    • 命令に基づいて関連領域を特定し,効率的な推論と計算コストの削減を目指す。
    • 提案手法PinPointは,既存手法と比較して高い精度を達成した。
    • PinPointは,無関係な視覚トークンを最小限に抑え,計算コストを削減する。
    • InfographicVQA等のベンチマークにおいて,命令関連領域に関するより詳細なアノテーションを新たに導入した。

    Link: https://arxiv.org/abs/2603.22815

  • テーブル構造と内容を意識した学習とセルレベルの視覚的アライメントによるEnd-to-Endテーブル認識の改善 [cs.CV, cs.AI]目的:End-to-Endテーブル認識の改善
    • 文書内のテーブルは重要であり,その認識は文書分析の基本的な課題である。
    • 既存の手法は複雑で,大規模なデータが必要であり,データが少ない場合には性能が低下する。
    • テーブル構造と内容を意識した学習とセルレベルのアライメントにより,データ制約下での性能向上を目指す。
    • 提案手法TDATRは,「知覚して融合」戦略を採用し,テーブル構造と内容を同時に学習する。
    • 複数のタスクを通してモデルのロバスト性を高め,少ないデータでも効率的なテーブル認識を可能にする。
    • 7つのベンチマークにおいて,ファインチューニングなしで最先端または非常に競争力のある性能を達成した。

    Link: https://arxiv.org/abs/2603.22819

  • マスク化されたマルチモーダル異種グラフ対照学習による空間遺伝子発現推論のためのクロススライス知識転移 [cs.CL, cs.CV]目的:空間遺伝子発現推論の精度向上
    • 組織内での遺伝子発現理解に貢献する空間トランスクリプトミクスは,コスト高が課題である。
    • 既存手法では,複雑なスライド間空間関係の把握が困難である。
    • 病理画像から空間遺伝子発現を予測し,コストを抑えつつ精度を向上させる。
    • 提案手法SpaHGCは,9つの最先端手法と比較して,全ての評価指標において有意に優れた性能を示した。
    • SpaHGCは,組織画像から抽出された埋め込み表現を用いてスライド間の知識転移を実現している。
    • 予測結果は,複数の癌関連経路において有意に強化されており,生物学的妥当性が高い。

    Link: https://arxiv.org/abs/2603.22821

  • MVRD-Bench:遮蔽下における動的リモート・フォトプレチスモグラフィーのためのマルチビュー学習とベンチマーク [cs.CV]目的:遮蔽下における動的リモート・フォトプレチスモグラフィーの性能向上
    • リモート・フォトプレチスモグラフィーは非接触で生理信号を計測でき,医療・福祉分野での応用が期待されている。
    • 顔の動きや遮蔽があると,既存のリモート・フォトプレチスモグラフィーの精度が低下するという課題がある。
    • マルチビュー映像を活用し,動きや遮蔽による影響を抑制することで,よりロバストな計測を目指す。
    • 本研究では,3つの視点からの同期した顔動画を含む高品質なデータセットMVRDを新たに構築した。
    • 提案手法MVRD-rPPGは,適応的な時間的光学補正モジュール,リズム・視覚二重ストリームネットワーク,マルチビュー相関認識注意機構などを統合し,ロバストな顔面皮膚カバレッジを実現した。
    • MVRDの運動シナリオにおいて,MVRD-rPPGはMAE 0.90,ピアソン相関係数R 0.99を達成し,優位性を示した。

    Link: https://arxiv.org/abs/2603.22826

  • MultiCam: 既知の物体における時空間的重複を利用した動的な複数カメラ姿勢推定 [cs.CE, q-fin.MF, cs.CL, cs.CV]目的:複数カメラの姿勢推定による拡張現実(AR)アプリケーションの実現
    • 複数カメラを用いたARは,各カメラの情報を統合し,よりリアルな体験を提供する上で重要である。
    • 従来のカメラ姿勢推定は,初期キャリブレーションやマーカーに依存しており,柔軟性に欠ける。
    • 既知の物体における時空間的重複を利用し,マーカーレスで動的なカメラ姿勢推定を実現する。
    • 本研究では,物体検出器を拡張し,時空間シーングラフを更新することで,視野が重ならないカメラ間でも関係性を構築する。
    • 提案手法は,YCB-VおよびT-LESSデータセットにおいて,カメラ姿勢の推定精度で最先端技術を上回る性能を示した。
    • 新規に作成した複数カメラ・複数物体姿勢推定データセットにおいても有効性が確認され,マーカーレスARアプリケーションへの貢献が期待される。

    Link: https://arxiv.org/abs/2603.22839

  • URA-Net:不確実性統合異常知覚・復元注意ネットワークによる教師なし異常検出 [cs.CV, cs.AI]目的:教師なし異常検出のための新たなネットワークアーキテクチャ
    • 産業欠陥検査や医療画像解析において,異常検出は重要な役割を担う。
    • 既存手法は過剰一般化を起こしやすく,異常をうまく再構成してしまうため,検出性能が低下する。
    • 異常パターンを対応する正常状態に復元することで,異常検出性能の向上を目指す。
    • 本研究では,事前学習済みの畳み込みニューラルネットワークを用いて多層的な意味特徴を抽出する。
    • ベイズニューラルネットワークに基づく不確実性統合異常知覚モジュールにより,異常領域と曖昧な境界の推定を実現した。
    • 提案手法は,MVTec AD,BTAD,OCT-2017データセットで有効性を示し,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2603.22840

  • UAV-DETR:対ドローン標的検出のためのDETR [cs.CV, cs.AI]目的:小型ドローン検出における精度と効率の向上
    • セキュリティ向上やドローン対策において,ドローン検出は不可欠な技術である。
    • 既存手法は,複雑な背景下での小型ドローン検出において,特徴表現と計算効率の両立が課題である。
    • 本研究は,小型ドローン検出における精度と計算効率のトレードオフを改善することを目指す。
    • UAV-DETRは,WTConv基盤とSWSA-IFIエンコーダにより,小型ドローンの高周波構造詳細を捉えつつ,パラメータ数を大幅に削減する。
    • ECFRFNを用いて背景ノイズを抑制し,マルチスケールセマンティクスを集約することで,検出精度を向上させている。
    • カスタムデータセットおよびDUT-ANTI-UAVベンチマークにおいて,既存のRT-DETRを大幅に上回り,精度と効率の優れたトレードオフを実現した。

    Link: https://arxiv.org/abs/2603.22841

  • 最小全域木ゲームのシャプレイ値を近似する:セービングゲームに対するFPRAS [cs.GT]目的:最小全域木ゲームにおけるシャプレイ値の計算
    • ネットワーク設計や資源配分など,様々な応用において重要な概念である。
    • シャプレイ値の厳密な計算は,計算量が膨大になり,現実的な規模の問題には適用困難である。
    • セービングゲームへの変換を通して,シャプレイ値の近似計算を可能にすること。
    • セービングゲームという枠組みを用いることで,シャプレイ値の近似計算の構造的性質が明らかになった。
    • 最小全域木ゲームをセービングゲームに変換し,乗法的近似アルゴリズムを構築した。
    • シャプレイ値に対する,完全多項式時間乱数近似スキーム(FPRAS)を開発した。

    Link: https://arxiv.org/abs/2603.22843

  • マルチモーダルChain-of-Thoughtにおけるトークンレベルのポリシー最適化の再考 [cs.CV]目的:マルチモーダルChain-of-Thought推論におけるトークンレベルのポリシー最適化
    • 視覚と言語を組み合わせた推論は,AIの複雑な問題解決能力の向上に不可欠である。
    • 既存手法はCoT推論を粗視しており,視覚的根拠の重要度を区別できていない。
    • トークンレベルでの分析に基づき,視覚的根拠と探索的推論を考慮した最適化を目指す。
    • 本研究では,隠れ状態の類似性に基づく知覚事前分布とトークンエントロピーを組み合わせるPEPOを提案した。
    • PEPOは既存のRLVRフレームワークに容易に統合でき,追加の教師信号や補助ブランチは不要である。
    • 多様なマルチモーダルベンチマークにおいて,強力なRLベースラインに対する一貫した改善が確認された。

    Link: https://arxiv.org/abs/2603.22847

  • UniQueR:クエリに基づく統一的なフィードフォワード3D再構成 [cs.MM, cs.CV, cs.AI]目的:未ポーズ画像からの効率的かつ正確な3D再構成
    • 3D再構成は,ロボット工学やAR/VRなど多様な分野で重要な役割を担う技術である。
    • 既存手法は2.5D表現に留まり,隠れた領域の幾何学的な情報を捉えることが困難である。
    • 本研究は,隠れた領域を含むシーン構造を効率的に再構成することを目指す。
    • UniQueRは,3Dアンカーポイントをクエリとして活用し,1回のフォワードパスでシーン構造を推論する。
    • マルチビュー特徴間の統一的なクエリ相互作用とデカップルドクロスアテンション設計により,高い幾何学的表現力を実現する。
    • Mip-NeRF 360やVR-NeRFにおける実験で,UniQueRは最先端手法を凌駕するレンダリング品質と幾何学的精度を達成した。

    Link: https://arxiv.org/abs/2603.22851

  • Gau-Occ:幾何構造を完成させたガウス関数によるマルチモーダル3D occupancy予測 [cs.CV]目的:マルチモーダル3D occupancy予測のための幾何構造完成ガウス関数
    • 自動運転においては,周囲環境の3D理解が不可欠であり,occupancy予測はその重要な要素である。
    • 既存手法は計算コストが高く,リアルタイム処理が課題となっている。
    • ガウス関数を用いることで,効率的な3D表現と高精度な予測を両立することを目指す。
    • Gau-Occは,密なボクセルやBEVテンソル処理を回避し,シーンをコンパクトな3Dガウス関数群としてモデル化する。
    • LiDAR Completion Diffuser (LCD) により,疎なLiDARデータから欠損構造を補完し,ロバストなガウスアンカーを初期化する。
    • Gaussian Anchor Fusion (GAF) により,幾何学的に整列した2Dサンプリングとクロスモーダルアライメントを通じて,マルチビュー画像セマンティクスを効率的に統合する。

    Link: https://arxiv.org/abs/2603.22852

  • 普遍的な教師なし異常検知のための特徴シャッフルと復元戦略 [cs.RO, cs.SI, cs.CV]目的:産業分野における異常検知の汎用モデルの確立
    • 産業分野において,異常検知は品質管理や安全確保に不可欠であり,その重要性は高い。
    • 再構成ベースの手法は単純で効果的だが,正常データと異常データ両方をうまく再構成してしまい,異常を識別できない場合がある。
    • 異なる環境下でも安定した性能を発揮する,汎用的な異常検知モデルを開発し,既存手法の課題を克服する。
    • 提案手法FSRは,多スケール特徴を再構成ターゲットとし,特徴ブロックをシャッフル・復元することで,局所的な情報に偏らず,全体的な文脈情報を重視する。
    • シャッフルレートを導入することで,タスクの複雑さを調整し,様々な環境下での識別能力を高めることに成功した。
    • ネットワーク構造と相互情報という2つの視点から,FSRの有効性に関する理論的な根拠を提示し,実験結果によってその優位性と効率性が検証された。

    Link: https://arxiv.org/abs/2603.22861

  • 忘れるように設計する:アンラーニングのための深層半パラメトリックモデル [cs.CV]目的:アンラーニングのための深層半パラメトリックモデルの設計
    • 機械学習モデルのプライバシー保護の重要性が高まっており,データ削除技術が求められている。
    • 既存のモデルはアンラーニングが難しく,効率的なデータ削除法の開発が課題となっている。
    • アンラーニング性能に優れたモデル構造を提案し,効率的なデータ削除を実現することを目指す。
    • 提案手法である深層半パラメトリックモデル(SPM)は,画像分類・生成タスクにおいて,既存のパラメトリックモデルと同等の性能を示す。
    • SPMは,ImageNet分類において,再学習と比較して予測ギャップを11%削減し,アンラーニング速度を10倍以上向上させた。
    • SPMは,訓練サンプルの情報を統合するモジュールを使用することで,モデルパラメータを変更せずに特定のサンプルを削除できる。

    Link: https://arxiv.org/abs/2603.22870

  • ForeSea:マルチモーダルクエリによるビデオ監視のためのAIフォレンジック検索 [cs.CV]目的:ビデオ監視におけるAIフォレンジック検索の性能向上
    • 監視映像の分析は,安全保障や犯罪捜査において重要な役割を担う。
    • 既存手法は,手動によるフィルタリングが必要で,詳細な属性や時間的推論が困難である。
    • マルチモーダルクエリに対応し,時間的精度を備えたフォレンジック検索システムを構築する。
    • ForeSeaQAという,画像とテキストクエリを用いたビデオQAのための新しいベンチマークを提案した。
    • ForeSeaは,既存のVideoRAGモデルと比較して,精度を3.5%,時間的IoUを11.0%向上させた。
    • マルチモーダルクエリと正確な時間的ロケーションに対応した最初のベンチマークとシステムである。

    Link: https://arxiv.org/abs/2603.22872

  • テンプレートに基づく特徴集約ネットワークによる産業異常検知 [cs.CV]目的:産業異常検知のための特徴集約モデル
    • 製品品質管理において,異常検知は不可欠である。製造業における品質向上に貢献する。
    • 既存の特徴再構成法は,異常な特徴の不要な再構成を引き起こすショートカット学習に課題がある。
    • テンプレートに基づく特徴集約により,異常な特徴のフィルタリングと再構成の改善を目指す。
    • 提案手法TFA-Netは,テンプレート特徴への特徴集約を通じて,異常特徴を効果的にフィルタリングする。
    • テンプレート特徴に正常な特徴を融合させることで,入力特徴の詳細を洗練し,再構成特徴マップを取得する。
    • 入力と再構成の特徴の差を比較することで,欠陥領域を特定し,様々な実世界の産業データセットで最先端の性能を発揮する。

    Link: https://arxiv.org/abs/2603.22874

  • TreeTeaming:ビジョン言語モデルの自律的脆弱性評価のための階層的戦略探索 [eess.SY, cs.SY, math.OC, cs.LG, cs.CV]目的:ビジョン言語モデルの安全性脆弱性の評価
    • AIモデルの安全性確保は,社会実装において不可欠であり,脆弱性評価は重要な課題である。
    • 既存の脆弱性評価手法は,事前に定義された戦略に限定され,新たな脆弱性の発見が困難である。
    • 本研究は,階層的な戦略探索により,多様な攻撃経路を自律的に発見し,評価することを目指す。
    • TreeTeamingは,12種類の主要なビジョン言語モデルにおいて,既存手法を上回る攻撃成功率を11モデルで達成した。
    • 特にGPT-4oにおいては,最高87.60%の攻撃成功率を記録し,その有効性が示された。
    • 生成された攻撃は,平均して23.09%の毒性低下を示し,潜伏性と巧妙性が高いことが確認された。

    Link: https://arxiv.org/abs/2603.22882

  • グループ編集:一括での複数画像編集 [cs.CV]目的:関連する画像群に対する一貫性のある統一的な変更
    • 画像編集技術は,コンテンツ制作や画像加工において不可欠であり,その効率化が求められている。
    • 複数の画像間で視点や配置が異なる場合,一貫性のある編集が困難であるという課題がある。
    • 異なる視点を持つ画像群に対して,意味的に整合性のある編集を可能にすることを目的とする。
    • 提案手法GroupEditingは,明示的な幾何学的対応と,事前学習済み動画モデルによる潜在的な関係性の両方を利用する。
    • VGGTを用いた幾何学的対応を抽出し,画像群を疑似動画として捉えることで,時間的な一貫性を活用する。
    • 新しいデータセットGroupEditDataとベンチマークGroupEditBenchを構築し,編集品質,クロスビューの一貫性,意味的整合性の向上を実験的に示した。

    Link: https://arxiv.org/abs/2603.22883

  • 動的シーンのためのストリーミングおよび言語対応再構成モデルSLARM [cs.CV]目的:動的シーン再構成,意味理解,リアルタイムストリーミング推論の統合
    • 動的なシーンの理解は,ロボット工学,自動運転,拡張現実など多くの分野で重要である。
    • 従来の動的シーン再構成は,フロー推定への依存や計算コストの高さが課題となっていた。
    • 言語によるクエリ可能な,高精度かつロバストな動的シーン再構成を実現すること。
    • SLARMは,微分可能なレンダリングのみを用いて,高次の運動モデリングにより複雑な運動を捉える。
    • LSegから意味特徴を抽出することで,言語に対応した表現を獲得し,意味クエリを可能にする。
    • ウィンドウベースの因果注意機構により,安定した低遅延ストリーミング推論を実現し,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2603.22893

  • サブネットワーク修正を用いた二重教師蒸留によるブラックボックスドメイン適応 [cs.CV, cs.LG]目的:ブラックボックスドメイン適応における性能向上
    • 実用的なドメイン適応の課題であり,教師データやモデルが利用できない状況下での学習が重要である。
    • 既存手法はノイズの多い教師信号や,ViLの潜在的な情報活用不足により,適応性能が制限されている。
    • ブラックボックスモデルとViLを統合し,信頼性の高い疑似ラベル生成と過学習の抑制を目指す。
    • 提案手法DDSRは,ブラックボックスモデルとViLの知識を組み合わせることで,より信頼性の高い疑似ラベルを生成する。
    • サブネットワーク駆動型正則化により,ノイズの多い教師信号による過学習を抑制し,汎化性能を向上させる。
    • ターゲット予測の反復的な改善により,疑似ラベルとViLプロンプトの両方を強化し,より正確な適応を実現する。

    Link: https://arxiv.org/abs/2603.22908

  • ForestPrune:空間・時間的森林モデリングによるビデオマルチモーダル大規模言語モデルの高比率視覚トークン圧縮 [cs.CL, cs.CV, cs.AI]目的:ビデオマルチモーダル大規模言語モデルにおける高比率の視覚トークン圧縮
    • マルチモーダル大規模言語モデルの発展に伴い,計算資源の効率化が重要視されている。
    • 既存のビデオ向けトークン圧縮手法は,高比率圧縮が困難である。
    • 空間・時間的な情報を考慮した森林モデリングにより,高比率な圧縮を可能にすること。
    • 提案手法ForestPruneは,空間・時間的制約に基づきトークン森林を構築し,効率的なトークン削減を実現した。
    • LLaVA-OneVisionにおいて,トークン数を90%削減しつつ,平均精度を95.8%を維持することに成功した。
    • MLVUベンチマークでは,FrameFusionと比較して10.1%高い精度,81.4%短縮された圧縮時間を実現した。

    Link: https://arxiv.org/abs/2603.22911

  • AVSRとビデオ会議:データセット,劣化,パフォーマンス低下の裏にあるメカニズム [cs.CL, cs.CV]目的:ビデオ会議におけるAVSRモデルの性能低下とそのメカニズムの解明
    • ビデオ会議は普及が拡大しており,音声と映像の両方を活用したAVSR技術の重要性が増している。
    • 既存のAVSRモデルはオフライン環境では高い性能を示すが,実際のビデオ会議環境での頑健性は未検証である。
    • ビデオ会議特有の劣化要因を考慮したデータセットと,それを用いたモデルの改善により,AVSRの頑健性を高める。
    • ビデオ会議プラットフォームにおいて,既存のAVSRモデルが著しい性能劣化を示すことが明らかになった。
    • 性能劣化の主な原因は,伝送による歪みと,発話者の過剰な表現(ロンバード効果)であることが判明した。
    • 新たに構築したデータセットMLD-VCを用いてAVSRモデルをファインチューニングすることで,平均17.5%のCER削減を実現した。

    Link: https://arxiv.org/abs/2603.22915

  • エンドツーエンド動画エージェントのための効率的な強化学習:EVA [cs.IR, cs.HC, cs.CV, cs.AI, cs.CL]目的:動画理解のための効率的な強化学習フレームワーク
    • 動画理解は,多様な応用において重要であり,その精度向上が求められている。
    • 既存手法は,動画の冗長性や時間的依存関係を効率的に処理できていない。
    • 動画内で注視すべき箇所を自律的に決定し,効率的な理解を目指す。
    • EVAは,計画に基づいた知覚を行うことで,効率的な動画理解を実現した。
    • SFT,KTO,GRPOを含む学習パイプラインにより,安定した学習が可能となった。
    • 6つの動画理解ベンチマークにおいて,既存手法を6-12%上回る性能を示した。

    Link: https://arxiv.org/abs/2603.22918

  • FixationFormer:胸部X線画像分類のための専門家の視線軌跡の直接利用 [cs.CV, cs.LG]目的:胸部X線画像分類における専門家の視線軌跡の直接的な利用方法
    • 放射線医学において,専門家の視線情報は診断推論の重要な手がかりとなりうる。
    • 従来のCNNベースの手法では,視線情報の時間的・空間的な特性を十分に活かせなかった。
    • 視線情報をシーケンスとして扱い,Transformerアーキテクチャに組み込むことで,診断精度向上を目指す。
    • 提案手法FixationFormerは,視線軌跡をトークン列として表現し,画像特徴量と共同で学習することで,視線データのスパース性や変動性を克服する。
    • 画像と視線のトークン列間のクロスアテンション機構により,専門家の診断手がかりをより直接的かつ詳細に統合する。
    • 3つの公開データセットでの評価により,最先端の分類性能を達成し,シーケンスとしての視線表現の有効性を示す。

    Link: https://arxiv.org/abs/2603.22939

  • プロンプト学習と意味的融合による東巴絵画のキャプション生成 [cs.HC, cs.CV]目的:東巴絵画の自動的なテキスト記述
    • 東巴絵画はナシ族の貴重な文化遺産であり,その保存と理解のためには自動記述技術が重要である。
    • 既存のキャプション生成モデルは,ドメインのずれにより東巴絵画に対しては十分な性能を発揮できない。
    • 文化的な背景知識に基づいた,より適切なキャプション生成手法を開発すること。
    • 本研究では,プロンプト学習と意味的融合を組み合わせたPVGF-DPCという新しいフレームワークを提案した。
    • PVGF-DPCは,画像の特徴と文化的に適切なラベルを融合することで,より正確なキャプション生成を実現する。
    • 東巴絵画に特化したデータセットを構築し,提案手法の有効性を検証した。

    Link: https://arxiv.org/abs/2603.22946

  • クラスタ化された時空間マスクによる効率的なビデオ-言語事前学習 [cs.CV]目的:効率的なビデオ-言語事前学習のための戦略
    • マルチモーダルタスクの汎化性能向上に不可欠な大規模事前学習の計算コスト問題
    • 高いマスク率での視覚情報の損失と,フレーム間相関による時間情報の漏洩
    • 視覚情報の損失を抑えつつ,時間情報の漏洩を防ぐことによる効率的な学習
    • 提案手法ClusterSTMは,フレーム内クラスタリングとクラスタごとのマスク戦略により,ビデオの包括的な内容を維持しつつ,時間相関を強化する。
    • ビデオ-テキスト関連性の再構成目的関数を導入し,従来の視覚再構成を超えたマルチモーダル意味の整合性を実現する。
    • 複数のベンチマークにおいて,ビデオ-テキスト検索,ビデオ質疑応答,ビデオキャプション生成タスクで最先端の性能を達成する。

    Link: https://arxiv.org/abs/2603.22953

  • アイデンティティ注入と保存による少サンプル生成モデルの適応 [cs.CV]目的:少サンプル生成モデル適応における生成品質の向上
    • 生成モデルは多様なデータから学習するが,データ不足は性能低下の大きな要因となる。
    • 既存手法では,ターゲットドメインへの適応時に,元のドメインの知識を忘却しやすい。
    • 本研究は,元のドメインの知識を保持しつつ,ターゲットドメインへの適応を可能とする。
    • 提案手法I$^2$Pは,アイデンティティ注入と整合性アライメントにより,元のドメイン知識を維持する。
    • アイデンティティ注入モジュールは,元のドメインの知識をターゲットドメインの潜在空間に統合する。
    • 実験結果から,提案手法は複数のデータセットと評価指標において,最先端手法を大きく上回る性能を示す。

    Link: https://arxiv.org/abs/2603.22965

  • 周波数とコントラスト学習を用いた弱学習迷彩物体検出:FCL-COD [cs.CV]目的:迷彩物体検出における弱学習手法の性能向上
    • 迷彩物体検出は,軍事,監視,生物学など,多岐にわたる分野で重要な役割を担う。
    • 従来の迷彩物体検出は,アノテーションにコストがかかり,弱学習手法では精度が低い。
    • 弱学習環境下での迷彩物体検出における課題を解決し,より高精度な検出を目指す。
    • 提案手法FCL-CODは,周波数情報を活用し,SAMに迷彩シーンの知識を組み込むことで,非迷彩物体の誤検出を抑制する。
    • 勾配を考慮したコントラスト学習により,前景と背景の境界を明確化し,局所的な応答や極端な応答の問題を克服する。
    • マルチスケール周波数表現学習戦略により,より精緻な境界のモデリングを可能にし,検出精度を向上させる。

    Link: https://arxiv.org/abs/2603.22969

  • メッシュ条件画像拡散による航行可能な多部屋3Dシーン生成:WorldMesh [cs.CV]目的:大規模3Dシーン生成のための構造的構成と写実的な外観合成
    • 3Dシーン生成は,仮想現実やロボット工学など,多様な応用分野において重要である。
    • 既存の画像生成技術では,大規模な環境においてシーン・オブジェクトの一貫性を維持することが困難である。
    • メッシュ構造を基盤として,大規模かつ一貫性のある3Dシーン生成を可能にすること。
    • 本研究では,まずテキスト記述から環境の幾何構造を捉えるメッシュを構築する。
    • 次に,画像合成,セグメンテーション,オブジェクト再構成を用いて,メッシュ構造にオブジェクトを配置する。
    • このアプローチにより,高いオブジェクトの多様性と写実性を備えた,スケーラブルな3Dシーンの生成が可能となる。

    Link: https://arxiv.org/abs/2603.22972

  • VLA-IAP:相互作用アラインメントによる視覚トークン剪定(訓練不要,視覚言語行動モデル向け) [cs.CV]目的:視覚言語行動モデルにおける視覚トークン剪定手法
    • ロボットによる複雑なタスク実行を可能にする視覚言語行動モデルの重要性が高まっている。
    • モデルの規模拡大に伴い,リソース制約のある環境での実用化における推論コストが課題となっている。
    • 相互作用の重要性に着目し,ロバスト性と効率性を両立した剪定手法を提案する。
    • 提案手法VLA-IAPは,訓練を必要とせず,幾何学的事前知識と動的スケジュール戦略を用いることで,初期段階の不安定性を抑制しつつ,効率的な剪定を実現した。
    • LIBEROベンチマークにおいて97.8%の成功率,1.25倍の高速化を達成し,元のモデルと同等の性能を維持しながら最大1.54倍の高速化を実現した。
    • 様々なモデルやシミュレーション環境,実機ロボットでの実験により,高い汎化性能と実用性を示した。

    Link: https://arxiv.org/abs/2603.22991

  • VQ-Jarvis:鮮明な視覚と迅速な思考を備えた検索拡張型ビデオ修復エージェント [eess.SY, cs.RO, cs.SY, eess.SP, cs.CV]目的:異質性の高い劣化に耐性を持つビデオ修復手法
    • 現実世界のビデオは多様な劣化の影響を受け,高品質な修復が求められる。
    • 既存の静的なアーキテクチャや固定推論パイプラインは,汎化性能に課題がある。
    • 劣化の正確な認識と効率的な修復経路探索による,ビデオ修復性能の向上。
    • VQ-Jarvisは,劣化を正確に認識し,修復結果の微妙な違いを識別する能力を備えている。
    • 7種類の劣化,11種類の修復演算子を網羅する大規模データセットVSR-Compareを構築し,エージェントの意思決定をガイドするモデルを学習した。
    • 難易度に応じて修復経路を最適化する階層的な演算子スケジュール戦略により,効率性と精度を両立している。

    Link: https://arxiv.org/abs/2603.22998

  • テキスト反転によるゼロショットオブジェクト個別化 [cs.CV]目的:テキスト反転埋め込みの予測
    • 画像生成AIの進歩は目覚ましいが,実用的な個別化処理の高速化が課題である。
    • 既存手法は人物に特化しており,一般的な物体への応用が難しい。
    • 汎用的な物体に対し,学習不要で迅速な個別化を実現すること。
    • 提案手法は,学習済みのネットワークを用いてオブジェクト固有のテキスト反転埋め込みを予測する。
    • この埋め込みを拡散モデルに統合することで,多様なオブジェクトの個別化を高速に実現する。
    • 実験の結果,提案手法は柔軟性と拡張性に優れた個別化を可能にすることが示された。

    Link: https://arxiv.org/abs/2603.23010

  • 自然災害管理におけるセグメンテーションと検出モデルの概念に基づく説明 [cs.CV, cs.AI]目的:自然災害管理におけるセグメンテーションと検出モデルの説明可能性の向上
    • 自然災害管理において,迅速かつ正確な状況把握が不可欠であり,深層学習モデルが重要な役割を担う。
    • 深層学習モデルの判断根拠が不透明であるため,緊急時における人間の信頼を得ることが困難である。
    • 深層学習モデルの意思決定プロセスを可視化し,人間が理解しやすい形で説明することで,信頼性を高める。
    • 提案手法は,PIDNetおよびYOLOアーキテクチャに対する説明可能性フレームワークを提供し,モデルの予測根拠を概念レベルで理解することを可能にする。
    • 特に,シグモイドゲート素子ごとの融合層に対する新しい再分配戦略を導入し,LRPの説明を拡張することに成功した。
    • 公開されている洪水データセットを用いた実験により,提案手法が信頼性と解釈可能性の高い説明を生成し,リアルタイム推論能力を維持することが示された。

    Link: https://arxiv.org/abs/2603.23020

  • Cog3DMap:3D認知マップを用いたマルチビュー Vision-Language 推論 [cs.CV]目的:マルチビュー画像からの空間推論能力の向上
    • マルチモーダルLLMの性能向上には,画像と言語を組み合わせた空間理解が不可欠である。
    • 既存のLLMは,幾何学的な情報を欠いており,複雑な空間推論が困難である。
    • 3D認知マップを構築し,LLMが直接空間構造を推論できるようにすること。
    • Cog3DMapは,マルチビュー画像から明示的な3Dメモリを再帰的に構築する。
    • 各トークンは3D空間に配置され,意味的・幾何学的情報を併せ持つ。
    • このフレームワークは,空間的構造化された3Dマップ上での直接的な推論を可能にし,空間推論ベンチマークで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.23023

  • 窓の外を見る:訓練不要のオープンボキャブラリセマンティックセグメンテーションのためのグローバル・ローカルアラインドCLIP [cs.SI, cs.CV, cs.AI]目的:訓練不要のオープンボキャブラリセマンティックセグメンテーションの性能向上
    • 画像認識技術は,自動運転や医療画像解析など,多様な分野で不可欠な技術である。
    • 既存のCLIPモデルは高解像度画像を処理する能力に限界があり,セグメンテーション精度が低下する。
    • ウィンドウ間のセマンティックな不整合を解消し,より高精度なセグメンテーションを実現すること。
    • 提案手法GLA-CLIPは,ウィンドウ間の情報交換を促進することで,セグメンテーション性能を向上させる。
    • ウィンドウ外のトークンへの注意が偏る問題を,プロキシアンカーによって軽減する。
    • 動的正規化スキームにより,小物体のセグメンテーション精度も向上する。

    Link: https://arxiv.org/abs/2603.23030

  • 基礎モデルとのアラインメントによる生成イベント事前学習 [cs.CV, cs.RO]目的:イベントデータと画像データ間の意味的知識の転移と,イベント特有の時系列ダイナミクスの学習
    • イベントカメラは高速動作や困難な照明条件下でもロバストな視覚信号を提供するため,様々な応用が期待されている。
    • イベントカメラの特殊なセンシング特性とラベル付きデータの不足が,汎用的な視覚モデルの学習を困難にしている。
    • インターネット規模の画像データセットから学習した知識をイベントデータに転移し,イベントモデルの性能向上を目指す。
    • 提案手法であるGEPは,画像データから学習した基礎モデルとのアラインメントを通じて,イベント特徴を意味的に豊かにする。
    • イベントと画像を組み合わせた系列データに対する自己回帰的な事前学習により,イベント特有の時系列構造を効果的に捉える。
    • 様々な下流タスクにおいて,既存のイベント事前学習手法を上回り,汎化性能の高さを示す。

    Link: https://arxiv.org/abs/2603.23032

  • 自動運転における交通標識認識:データセット,ベンチマーク,そしてフィールド実験 [cs.CV]目的:交通標識認識の性能評価と改善
    • 自動運転技術の発展において,交通標識の正確な認識は安全性確保に不可欠である。
    • 既存のデータセットでは,地域差,少数クラス問題,意味曖昧性への対応が不十分である。
    • より現実的な環境下での交通標識認識モデルの課題を明確にし,その解決策を提示する。
    • 本研究では,454カテゴリー,100万枚以上の画像を含む大規模データセットTS-1Mを公開した。
    • TS-1Mを用いたベンチマークにより,モデルの地域間認識,少数クラス識別,低解像度画像へのロバスト性などが評価された。
    • 実験の結果,セマンティックな意味理解が地域間汎化性能や少数クラス認識に重要であることが示された。

    Link: https://arxiv.org/abs/2603.23034

  • 解釈可能な物体検出と信頼性の高いマルチモーダルAIのためのYOLOv10,コルモゴロフ・アーノルドネットワーク,およびビジョン・言語基盤モデル [cs.CV, cs.AI, cs.CL, cs.LG, cs.RO]目的:解釈可能な物体検出のためのコルモゴロフ・アーノルドネットワークフレームワークの検証
    • 自動運転車など,コンピュータビジョンの信頼性は重要。特に,信頼性の低い検出に対する対処が課題。
    • 既存システムは,視覚的に劣化した状況下での信頼度スコアの根拠が不明確。
    • 信頼度を評価し,不確実な検出を特定することで,リスク軽減に貢献。
    • 提案手法は,ぼかし,遮蔽,低テクスチャなどの条件下で,信頼性の低い予測を高精度に識別。
    • コルモゴロフ・アーノルドネットワークの加法スプライン構造により,各特徴量の影響を可視化。
    • BLIPモデルを用いた軽量なマルチモーダルインターフェースにより,透明性を維持したままシーンの記述を生成。

    Link: https://arxiv.org/abs/2603.23037

  • HUydra:複数HU間隔生成モデリングによる肺CT合成 [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG]目的:肺CT画像の合成手法
    • 医療画像診断支援システムの開発・検証には大量のデータが必要不可欠である。
    • 肺がん診断において,データ不足は診断の遅延や患者への影響を引き起こす可能性がある。
    • HU全範囲の肺CTスキャンという複雑な分布に対処し,計算負荷を軽減する。
    • 提案手法は,従来の2Dフルレンジベースラインを大幅に上回り,FIDで6.2%の改善を達成した。
    • MMD,Precision,Recallにおいても,全HU間隔で優れた結果を示した。
    • マルチヘッドVQVAEが最高の性能を発揮し,視覚的な忠実度と多様性の向上,モデルの複雑さの軽減が可能となった。

    Link: https://arxiv.org/abs/2603.23041

  • MSR-HuBERT:多様なサンプリングレートへの適応のための自己教師あり事前学習 [cs.SD, cs.AI]目的:多様なサンプリングレートデータへの適応
    • 音声処理技術は,人間と機械のコミュニケーションにおいて不可欠であり,その重要性は増している。
    • 既存の自己教師あり学習法は単一のサンプリングレートに依存し,異なるレートのデータ混合に課題がある。
    • 異なるサンプリングレートの音声データを統合的に処理できる事前学習手法の開発。
    • MSR-HuBERTは,HuBERTの単一レートダウンサンプリングCNNを,多様なレートに対応するCNNに置き換えた。
    • これにより,リサンプリングなしで異なるレートの波形を共有の時間分解能にマッピングし,統一的な事前学習とファインチューニングを可能にした。
    • 実験の結果,MSR-HuBERTは16kHzから48kHzの範囲で,HuBERTよりも音声認識とフルバンド音声再構成で優れていた。

    Link: https://arxiv.org/abs/2603.23048

  • 階層型ホールスライド画像理解のためのマルチモーダル大規模言語モデル MLLM-HWSI [cs.CV]目的:ホールスライド画像の階層構造に基づいた理解
    • 病理診断は細胞レベルから組織全体の構造まで,多階層的な情報を統合する必要がある。
    • 従来のマルチモーダル大規模言語モデルは画像を単一の埋め込みに圧縮するため,詳細な根拠に基づいた解釈が困難である。
    • 本研究は,多階層的な視覚的証拠と言語を整合させることで,より解釈可能で正確な診断支援を目指す。
    • MLLM-HWSIは,細胞,パッチ,領域,WSIという4つの異なるスケールで視覚的特徴と病理言語を整合させる。
    • 階層的コントラスト損失とクロススケール一貫性損失を用いることで,細胞レベルからWSI全体までの意味的な一貫性を保つ。
    • 13のWSIレベルのベンチマークで,6つの病理タスクにおいて最先端の結果を達成した。

    Link: https://arxiv.org/abs/2603.23067

  • PolarAPP:偏光応用に向けた偏光デモザイクの限界を超える [cs.CV]目的:偏光デモザイクと後続タスクの同時最適化フレームワーク
    • 偏光イメージングは,表面・材料の相互作用を捉え,法線推定や反射除去などの高度な視覚応用を可能にする。
    • 既存のデータセットは,分割焦点面センサーのrawデータを単純に再構成したものであり,適切なデモザイク処理が行われていない。
    • 後続タスクの性能を制限する,不完全な再構成データを改善し,タスクに特化したデモザイク手法を開発する。
    • PolarAPPは,メタ学習を通じてデモザイクと後続タスクの表現を意味的に整列させる特徴量整列メカニズムを導入している。
    • デモザイク学習には,等価なイメージング制約が用いられ,物理的に意味のある出力への直接回帰が可能となっている。
    • 実験結果から,PolarAPPは既存手法よりもデモザイク品質と後続タスクの性能において優れていることが示された。

    Link: https://arxiv.org/abs/2603.23071

  • 自己回帰型画像モデルにおける,インスタンスおよび分布レベルの報酬を用いたポリシーベースのチューニング [cs.LG, cs.CV]目的:自己回帰型画像モデルのサンプル品質と多様性の向上
    • 画像生成において,自己回帰モデルは高い有効性を示す。品質と多様性の直接的な最適化が課題である。
    • 強化学習による拡散モデルの調整は,出力多様性の崩壊を引き起こしやすい。自己回帰モデルも同様の問題を抱える。
    • 分布レベルの報酬を導入し,サンプル多様性を明示的に促進し,モード崩壊を防ぐ。
    • 提案手法では,グループ相対ポリシー最適化(GRPO)を用いて,トークンベースの自己回帰合成をマルコフ決定過程として定式化する。
    • Leave-One-Out FID (LOO-FID)という新規の分布レベル報酬を導入し,特徴モーメントの指数移動平均を活用することで,サンプル多様性を促進する。
    • LlamaGenとVQGANを用いた実験により,標準的な品質および多様性の指標において,わずか数百回のチューニング反復で明確な改善が示された。

    Link: https://arxiv.org/abs/2603.23086

  • 同期型オーディオ・ビジュアルマルチビューキャプチャシステム [cs.CV]目的:オーディオ・ビジュアルマルチビューキャプチャシステムの構築
    • 人間の動きを制御された環境下で記録する研究において,マルチビューキャプチャシステムは重要な役割を担う。
    • 既存システムは主に映像に焦点を当てており,音声の取得や厳密なオーディオ・ビデオの同期に関するサポートが不十分である。
    • 会話におけるタイミング,重なり,プロソディ等の分析に必要な高精度なオーディオ・ビデオ同期を実現する。
    • 本システムは,マルチカメラパイプラインと多チャンネルマイク録音を統合し,統一的なタイミングアーキテクチャを提供する。
    • キャリブレーション,取得,品質管理のための実用的なワークフローを確立し,再現性のある大規模記録を可能とする。
    • 実験により,本システムが会話行動の細かな分析やデータ駆動型モデリングを支援できる十分な時間的整合性を持つことが確認された。

    Link: https://arxiv.org/abs/2603.23089

  • NeuroSegとDINOv3の融合:DINOv3初期化による2D自己教師あり視覚事前知識の3Dニューロンセグメンテーションへの転移 [eess.SY, cs.SY, cs.CV]目的:3Dニューロンセグメンテーションの精度向上
    • 脳科学研究において,正確なニューロン構造の再構築は,神経回路の機能理解に不可欠である。
    • 高品質な3Dニューロン画像データの取得やアノテーション作成の難しさから,3D事前学習モデルが不足している。
    • 2D事前学習モデルの知識を3Dセグメンテーションに転移することで,データ効率と構造の忠実性を高める。
    • DINOv3で学習した2D視覚表現を3Dモデルに適用するインフレーションベースのアダプション戦略を提案した。
    • グラフベースのニューロン構造再構築において,トポロジーを考慮した損失関数を導入し,構造的忠実性を高めた。
    • BigNeuron,NeuroFly,CWMBSを含む4つのニューロン画像データセットで,最先端手法と比較して平均2.9〜3.8%の精度向上を示した。

    Link: https://arxiv.org/abs/2603.23104