arXiv雑要約

画像・音声 - 2026/03/20 公開

  • FILT3R:ストリーミング3D再構成のための潜在状態適応カルマンフィルター [cs.CV, cs.AI, cs.LG]目的:ストリーミング3D再構成における潜在状態の更新規則の改善
    • 3D再構成は,ロボット工学や自動運転など,様々な分野で重要な役割を果たす。
    • 既存手法では,状態更新の積極性と保守性のバランスが難しく,長期的な安定性が課題である。
    • 本研究は,潜在状態の更新を適応的に制御し,長期的な安定性を向上させることを目指す。
    • FILT3Rは,トークン空間における確率的状態推定として,再帰的な状態更新を捉えることで,学習不要な潜在フィルタリング層を提供する。
    • FILT3Rは,トークンごとの分散を維持し,カルマンフィルター様のゲインを計算することで,メモリ保持と新しい観測のバランスを適応的に調整する。
    • 実験の結果,FILT3Rは,奥行き,姿勢,3D再構成において既存手法よりも長期的な安定性が向上することが示された。

    Link: https://arxiv.org/abs/2603.18493

  • NymeriaPlus:追加注釈とデータによるNymeriaデータセットの拡充 [cs.CV]目的:大規模なウェアラブルデバイスを用いた人間活動データセットの拡張
    • 現実世界の人間行動理解は,ロボット工学やAIの発展に不可欠である。
    • 既存のデータセットは注釈の不足や多角的情報の統合不足が課題であった。
    • 多様な情報を統合し,より高度な行動理解を可能にするデータセットを構築する。
    • NymeriaPlusは,モーションキャプチャデータや3D点群の精度向上を実現した。
    • 屋内オブジェクトや構造要素に対する詳細な3D/2Dバウンディングボックス注釈を追加した。
    • 基盤地図,音声,リストバンド動画など,追加のモダリティを提供することで,多感覚学習を支援する。

    Link: https://arxiv.org/abs/2603.18496

  • ビデオ圧縮のための疎な情報伝送による効率的なビデオ拡散 [cs.CV, cs.AI]目的:ビデオ圧縮における再構成品質と知覚品質の最大化
    • ビデオ圧縮は,限られた帯域幅で高品質な映像伝送を実現するために不可欠である。
    • 超低ビットレートでは,従来の圧縮モデルは知覚的に質の低いぼやけた画像を生成しやすい。
    • 時間的な一貫性を保ちつつ,超低ビットレートでの知覚品質を向上させることを目指す。
    • 提案手法Diff-SITは,疎な時間符号化モジュール(STEM)とワンステップビデオ拡散モジュール(ODFTE)から構成される。
    • STEMにより元のフレーム系列を情報豊かな中間系列に疎に符号化し,ビットレートを大幅に削減する。
    • ODFTEは時間相関を活用し,フレームタイプ埋め込み(FTE)により,フレームタイプに応じた適応的な再構成を行うことで全体的な品質を最適化する。

    Link: https://arxiv.org/abs/2603.18501

  • HOMEY:強化YOLOによるヒューリスティックな物体マスキングを用いた不動産保険リスク検知 [cs.CV]目的:不動産保険リスクに関わる物体の検知
    • 不動産,引受,保険業務への応用が期待され,コンピュータビジョンの重要な未開拓分野である。
    • 背景が複雑な状況下での微弱なリスク信号の検出や,クラスの偏り,重症度に応じた損失の調整が課題である。
    • ヒューリスティックな物体マスキングとリスクを考慮した損失関数調整により,高精度なリスク検知を目指す。
    • HOMEYは,標準的なYOLOモデルと比較して,より高い検出精度と信頼性を示すことが実証された。
    • HOMEYは,解釈可能性が高く,費用対効果の高いリスク分析を可能にし,スケーラブルなAI駆動型保険業務の基盤となる。
    • HOMEYは,17種類の不動産リスクに関連するクラス(構造的損傷,メンテナンス不足,賠償責任の危険性など)を検出するように訓練されている。

    Link: https://arxiv.org/abs/2603.18502

  • スナップショットから交響曲へ:静的構造から生成ダイナミクスおよび多modalな相互作用へのタンパク質予測の進化 [cs.CV]目的:タンパク質科学におけるAI駆動型パラダイムシフトの系統的な検討
    • タンパク質の機能解明は,生命現象の理解に不可欠であり,創薬やバイオテクノロジーへの応用が期待されている。
    • 従来のタンパク質構造予測は,静的な構造に偏っており,タンパク質の動的な挙動や複雑な相互作用を捉えきれていない。
    • AIを活用し,タンパク質の動的アンサンブルや多modalな相互作用を予測することで,生命現象の理解を深める。
    • AIがタンパク質科学に構造解析ツールから,動的な生命の言語を理解し書き換える汎用シミュレーターへと変貌を遂げている。
    • 配列,幾何学,テキスト情報を統合したunified multimodal表現が,予測精度向上に貢献している。
    • 拡散モデルやフローマッチングなどの生成フレームワークにより,熱力学的に整合性のあるコンフォメーション分布の予測が可能となった。

    Link: https://arxiv.org/abs/2603.18505

  • 自動車保険における人工知能の基礎とアーキテクチャ [cs.CV, cs.AI]目的:自動車保険のための人工知能の基礎とアーキテクチャ
    • 自動車保険業界における効率化やリスク管理の高度化が求められている
    • 従来のシステムでは,複雑な損害評価や査定に手間とコストがかかる
    • AIを活用し,損害分析,評価,引き受け業務を自動化し,効率化を図る
    • 本研究は,知覚,マルチモーダル推論,および運用基盤を統合する,垂直統合型AIパラダイムを提案する
    • ドメイン適応型Transformerアーキテクチャを開発し,車両損傷分析,保険金評価,引受業務の自動化を可能にする
    • 機械学習アルゴリズムとMLOpsプラクティスの共同進化を重視し,信頼性の高い実運用システムを構築する枠組みを確立する

    Link: https://arxiv.org/abs/2603.18508

  • OnlinePG:3Dガウススプラッティングによるオンラインオープンボキャブラリ全景マッピング [cs.CV]目的:オンラインオープンボキャブラリ全景マッピングの実現
    • ロボット工学において,環境の知覚と相互作用は重要であり,そのためには全景マッピングが不可欠である。
    • 既存手法はオフライン処理が中心であり,リアルタイムなインスタンスレベル理解が困難である。
    • リアルタイム性と高精度なインスタンス認識を両立するオンライン全景マッピングシステムの構築。
    • 提案手法OnlinePGは,3Dガウススプラッティングを用いて,オンラインで幾何学的再構成とオープンボキャブラリ知覚を統合する。
    • 効率的なローカル-グローバルパラダイムとスライディングウィンドウを用いることで,オンライン全景マッピングを実現。
    • 実験結果から,提案手法はオンラインアプローチの中で優れた性能とリアルタイム効率を両立していることが示された。

    Link: https://arxiv.org/abs/2603.18510

  • CAFlow:効率的な病理組織超解像のための適応的深さ単段フローマッチング [cs.CV, cs.AI]目的:病理組織の超解像処理における効率化
    • デジタル病理画像はギガピクセルを超えるため,計算資源が必要であり,実用化が課題。
    • 既存の超解像技術は計算コストが高く,日常的な運用には不向きな場合が多い。
    • 計算コストを抑えつつ,高い超解像画質を維持することを目指す。
    • CAFlowは,画像タイルを適切な深さのネットワークへルーティングすることで,計算量を削減。
    • x4超解像では,フル深度モデルと同等のPSNRを達成しつつ,計算量を削減することに成功。
    • 最小限の画質低下(-0.02dB)で,未知の組織への汎化性能も確認された。

    Link: https://arxiv.org/abs/2603.18513

  • 回路の数え上げ:大規模ビジョン言語モデルにおける視覚的推論のメカニズム解釈 [cs.IR, cs.RO, cs.CV, cs.AI]目的:大規模ビジョン言語モデルにおける視覚的推論メカニズムの解明
    • 視覚的推論は,AIの重要な能力であり,人間レベルの知能を実現する上で不可欠である。
    • 大規模言語モデルの視覚的推論メカニズムはブラックボックスであり,その内部動作が不明確である。
    • 視覚的推論の基本要素である数え上げ能力を分析し,そのメカニズムを解明すること。
    • 大規模ビジョン言語モデルは,小規模な数では正確に数え上げられ,大規模な数ではノイズの影響を受けるという,人間と同様の数え上げ行動を示すことが明らかになった。
    • Visual Activation PatchingとHeadLensという新しい解釈手法により,様々な視覚的推論タスクで共有される「数え上げ回路」が発見された。
    • 数え上げに特化した微調整によって,合成データだけでなく,分布外のデータや複雑な視覚的推論タスクにおいても性能が向上することが示された。

    Link: https://arxiv.org/abs/2603.18523

  • 3DreamBooth:高精度3D主導型ビデオ生成モデル [cs.CV]目的:3D主導型のビデオ生成に関する研究
    • 没入型VR/AR,バーチャルプロダクション,次世代ECなど,多様な応用分野でカスタマイズされた被写体の動的かつ視点一貫性のあるビデオ生成が求められている。
    • 既存手法は被写体を2Dエンティティとして扱う傾向があり,3D形状の再構成に必要な空間的知識が欠如している。そのため,未知の視点からの生成時に詳細が恣意的に変化する。
    • 3DreamBoothと3Dapterを導入し,1フレームの最適化により空間形状と時間的動きを分離することで,3D事前知識をモデルに組み込むことを目指す。
    • 3DreamBoothは,空間表現の更新を制限することで,広範なビデオベースの学習を必要とせずに,堅牢な3D事前知識をモデルに組み込むことに成功した。
    • 3Dapterは,視点固有の幾何学的ヒントを最小限の参照セットから動的に選択的にルーティングする非対称な条件付け戦略を採用することで,微細なテクスチャを強化し,収束を加速する。
    • 本研究は,限られたマルチビュービデオデータセットでも,真に3Dを意識したカスタマイズを実現する可能性を示した。

    Link: https://arxiv.org/abs/2603.18524

  • ターゲットドメインの乱視を是正する:クロスコープ少ショット物体検出 [cs.CV]目的:クロスコープ少ショット物体検出における適応性能の向上
    • 物体検出は,画像認識の基盤技術であり,自動運転やロボティクスなど,様々な応用分野で不可欠である。
    • クロスコープ少ショット物体検出では,ドメイン間のずれとデータ不足が大きな課題となっている。
    • 本研究は,ターゲットドメインにおける注意機構の乱れ(乱視)を是正し,物体検出の精度向上を目指す。
    • 本研究では,人間の視覚システムに着想を得て,中心部・周辺部注意洗練フレームワークを提案した。
    • 提案手法は,ターゲットドメインにおける注意を集中させ,物体検出の精度を大幅に向上させることを実証した。
    • 6つのベンチマークデータセットにおいて,最先端の結果を達成し,クロスコープ少ショット物体検出の性能向上に貢献する。

    Link: https://arxiv.org/abs/2603.18541

  • CoDA:医療画像・言語モデルに対する分布攻撃と事後トークン空間修復の探求 [cs.SI, cs.CV, cs.AI]目的:医療画像・言語モデルの脆弱性評価とロバスト性向上
    • 医療現場でのAI活用拡大に伴い,画像認識モデルの信頼性確保が重要課題となっている。
    • 既存研究では,臨床現場で起こりうる画像劣化や処理の変化を考慮した評価が不足している。
    • 臨床現場で現実的に起こりうる画像劣化を再現し,モデルの脆弱性を明らかにすることを目指す。
    • 提案手法CoDAにより,医療画像・言語モデルの性能が著しく低下することが示された。
    • 複数の画像処理段階を組み合わせることで,単一の処理よりも大きな影響を与えることが確認された。
    • トークン空間の事後修復により,CoDAで劣化させた画像に対する精度向上が期待できることが示された。

    Link: https://arxiv.org/abs/2603.18545

  • HiMu:長編ビデオ質疑応答のための階層的マルチモーダルフレーム選択 [cs.RO, cs.IR, cs.CL, cs.CV, cs.AI]目的:長編ビデオ質疑応答におけるフレーム選択の効率と精度向上
    • 長編ビデオの理解には,時間的コンテキストの把握が不可欠であり,フレーム選択は重要な要素である。
    • 既存手法では,速度と情報の損失,あるいは計算コストの高さというトレードオフが存在する。
    • テキストLLMを活用し,効率的かつ高精度なフレーム選択を可能にすることを目指す。
    • HiMuは,テキストLLMによるクエリの階層的分解と,各要素に対する軽量な専門家モデルの適用により,既存手法の課題を克服する。
    • Video-MME,LongVideoBench,HERBench-Liteにおける評価で,HiMuは他のフレーム選択手法を凌駕する性能を示した。
    • 特にQwen3-VL 8BとGPT-4oの組み合わせにおいて,計算コストを大幅に削減しながら,高い精度を実現した。

    Link: https://arxiv.org/abs/2603.18558

  • 因果VAD:因果的介入によるエンドツーエンド自動運転の脱混乱 [cs.RO, cs.CV, cs.LG]目的:因果的介入による自動運転モデルの脱混乱フレームワーク
    • 自動運転技術は,交通安全の向上や移動の効率化に不可欠であり,社会実装が期待されている。
    • エンドツーエンドの自動運転モデルは,データセットの偏りを学習し,複雑な状況で誤った判断をする可能性がある。
    • 因果的介入を通じて,モデルがデータセットの偏りに惑わされず,真の因果関係に基づいて行動できるようにすること。
    • 提案手法CausalVADは,nuScenesベンチマークにおいて,最先端の計画精度と安全性を達成した。
    • SCIS(Sparse Causal Intervention Scheme)は,ニューラルネットワークにおける因果推論の理論を実装するための軽量なモジュールである。
    • CausalVADは,データバイアスやノイズに対する頑健性が向上し,因果的混乱を誘発する状況下でも優れた性能を発揮する。

    Link: https://arxiv.org/abs/2603.18561

  • HAViT: 歴史的注意ビジョンTransformer [cs.CE, cs.CV]目的:Transformerにおける層間情報伝達の効率化
    • 画像認識分野において,Transformerは重要な役割を果たしている。
    • Transformerの各層が独立して注意機構を扱うため,情報伝達が限定的である。
    • 過去の注意行列を活用し,層間情報伝達を改善することで性能向上を目指す。
    • 提案手法HAViTは,CIFAR-100においてViTの精度を75.74%から77.07%に向上させた。
    • TinyImageNetにおいても,57.82%から59.07%へと,精度が1.25%向上した。
    • 様々なTransformer構造で同様の改善が見られ,最適なハイパーパラメータはα=0.45であった。

    Link: https://arxiv.org/abs/2603.18585

  • 彩度・明度類似度に基づくカラー画像復元 [cs.CV]目的:カラー画像復元のための新規非局所変分手法
    • 画像処理分野において,鮮明な画像復元は重要な課題である。視覚情報の質を向上させる上で不可欠。
    • 従来の非局所手法では,色情報の表現が不十分であり,精度の高い復元が困難であった。
    • 彩度・明度情報を活用し,より自然で高品質なカラー画像復元を可能にすることを目指す。
    • 提案手法は,従来の復元手法と比較して,視覚的品質およびPSNR,SSIM,QSSIM,S-CIELABなどの評価指標において優れた性能を示す。
    • 彩度・明度類似度に基づく非局所全変動を導入することで,隣接するカラー画像パッチ間の彩度と明度の類似性を効果的に記述できる。
    • ブレグマン化された演算子分割法を用いることで,提案する最適化問題を効率的に解くアルゴリズムを開発し,その収束性も検証した。

    Link: https://arxiv.org/abs/2603.18586

  • AUコード,言語,そして合成:顔面行動の合成のための解剖学をテキストへ [cs.CV, cs.MM]目的:顔面行動の合成に関する研究
    • 人間のコミュニケーションにおいて,表情は重要な役割を担うため,その正確な再現が求められている。
    • 既存の表情合成手法は,感情のカテゴリが粗く,微妙なニュアンスを捉えきれないという課題がある。
    • AU(Action Unit)に基づく手法の限界を克服し,より自然で解剖学的に妥当な表情合成を目指す。
    • AUを自然言語で記述することで,複雑かつ矛盾するAUを明示的にモデル化することに成功した。
    • 大規模なテキスト画像ペアデータセットBP4D-AUTextを構築し,高精細な表情合成を可能にした。
    • 提案手法は,既存手法と比較して,解剖学的妥当性,行動の豊かさ,知覚的な説得力において顕著な性能向上を示した。

    Link: https://arxiv.org/abs/2603.18588

  • 継続学習のための適切な弾性重みコンソリデーション [cs.RO, cs.CL, cs.NI, cs.LG, cs.AI, cs.CV]目的:継続学習における忘却現象の軽減
    • 近年,AIは多様なタスクを順次学習する能力が求められており,その実現が重要視されている。
    • 従来の機械学習モデルは,新しいタスクを学習する際に過去の知識を忘却しやすいという課題があった。
    • 本研究は,重みコンソリデーションの重要度推定における問題を解決し,継続学習の性能向上を目指す。
    • Elastic Weight Consolidation (EWC) の重要度推定が,勾配消失や不正確な推定を引き起こすことが示された。
    • Memory Aware Synapses (MAS) が,過去のタスクに関係のないパラメータに不要な制約を加えることが明らかになった。
    • Logits Reversal (LR) 演算を導入することで,EWC の重要度推定を修正し,既存手法を大幅に上回る性能を達成した。

    Link: https://arxiv.org/abs/2603.18596

  • myMNIST:ビルマ手書き数字認識のためのPETNN,KAN,および古典的深層学習モデルのベンチマーク [cs.CV, cs.AI, cs.CL]目的:ビルマ手書き数字認識のための様々なモデルの性能評価
    • ミャンマーのNLP/AI研究において,手書き数字認識は重要な課題である。
    • ビルマ語の手書き数字認識のための公開データセットやベンチマークが不足していた。
    • myMNISTデータセットを用いた,多様なモデルの再現性のある性能基線を提供する。
    • CNNが最高のスコア(F1=0.9959,Accuracy=0.9970)を達成し,強固な基盤となることが示された。
    • PETNN(GELU)モデルがCNNに迫る性能を示し,LSTM,GRU,Transformer,KANモデルを上回った。
    • エネルギーベースモデリングであるJEMも競争力のある性能を示した(F1=0.9944,Accuracy=0.9958)。

    Link: https://arxiv.org/abs/2603.18597

  • ゼロショット敵対的ロバスト性のための補完的なテキスト誘導注意 [cs.CV]目的:ゼロショット敵対的ロバスト性の向上
    • 画像と言語の事前学習モデルは多様な分野で活用されている。その堅牢性が重要となる。
    • CLIPモデルは敵対的サンプルに対して脆弱であり,その安全性が課題である。
    • テキスト誘導注意の変化を利用し,敵対的ロバスト性を高めることを目指す。
    • 提案手法TGA-ZSRとComp-TGAは,既存技術と比較してそれぞれ9.58%,11.95%のゼロショットロバスト精度向上を実現した。
    • Comp-TGAは,クラスプロンプトと非クラスプロンプトによる注意を組み合わせることで,より包括的かつ正確な表現を獲得する。
    • ただし,手法によっては無関係な特徴に焦点を当て,性能低下やロバスト性の低下を招く場合がある。

    Link: https://arxiv.org/abs/2603.18598

  • SJD-PAC:プロアクティブなドラフトと適応継続による推測ヤコビデコーディングの高速化 [cs.CV]目的:自己回帰型テキストから画像合成の高速化
    • 画像生成の分野は,多様な応用可能性を持つ重要な研究領域である。
    • 高エントロピー領域におけるドラフトトークンの受容率が低く,処理速度のボトルネックとなっている。
    • 複雑な領域での受容率向上と,再サンプリングの回避による推論速度の改善を目指す。
    • SJD-PACは,プロアクティブなドラフト戦略と適応継続メカニズムを組み合わせることで,受容長を大幅に増加させる。
    • 標準的なテキストから画像へのベンチマークにおいて,SJD-PACは画像品質を損なわずに3.8倍の高速化を達成した。
    • これにより,推論速度の向上と,ターゲット分布の厳密な維持を両立している。

    Link: https://arxiv.org/abs/2603.18599

  • クロスモーダル文脈学習による音声・映像同時生成の改善 [cs.CV]目的:音声と映像の同時生成における品質向上
    • 近年のマルチモーダル研究の発展に伴い,音声と映像を同時に生成する技術が重要視されている。
    • 既存手法では,クロスモーダル相互作用の制御機構や注意機構に偏りが生じ,一貫性のない生成結果となることがある。
    • クロスモーダル文脈学習により,生成時の矛盾を解消し,より自然で高品質な同時生成を目指す。
    • 提案手法CCLは,時間的整列RoPEと分割(TARP)により,音声と映像の潜在表現の時間的整合性を強化する。
    • 学習可能な文脈トークン(LCT)と動的文脈ルーティング(DCR)により,クロスモーダル情報の安定したアンカーを提供し,収束を促進する。
    • 推論時には,無条件文脈ガイダンス(UCG)を活用し,訓練と推論の一貫性を高め,最先端の性能を達成する。

    Link: https://arxiv.org/abs/2603.18600

  • ソーシャルメディアにおける説明可能な人道支援分類のためのクロスモーダル根拠転移 [cs.CL, cs.CV]目的:ソーシャルメディア上の人道支援分類における説明可能性の向上
    • 災害時におけるリアルタイムな情報提供の重要性が増しており,ソーシャルメディアがその重要な役割を担う。
    • 既存手法では分類結果の説明が不透明であり,実用上の信頼性を損なう問題がある。
    • テキストから学習した根拠を画像へ転移し,画像からも説明可能な分類を実現する。
    • 提案手法は,テキストと画像の共同表現学習とテキスト根拠の抽出を通じて,画像根拠を抽出する。
    • クロスモーダル根拠転移により,アノテーションコストを削減しつつ,分類性能を向上させている。
    • CrisisMMDデータセットでの実験により,Macro-F1値を2-35%改善し,画像根拠の精度も向上していることを確認した。

    Link: https://arxiv.org/abs/2603.18611

  • DiscoPhon:離散音声単位を用いた音素体系の教師なし発見のベンチマーク [cs.CL, cs.SD, eess.AS]目的:音素体系の教師なし発見の評価
    • 言語多様性の理解と,言語資源の乏しい言語への応用において重要である。
    • 既存手法では,未知言語における音素体系の自動抽出が困難である。
    • 教師なし学習により,少ないデータから音素体系を推定することを目指す。
    • DiscoPhonベンチマークは,6言語の検証用と6言語のテスト用データを提供する。
    • 現在のHuBERTやSpidRモデルでも,抽出された単位と音素の相関は高いことが示された。
    • 言語によって相関の程度にばらつきがあることも確認された。

    Link: https://arxiv.org/abs/2603.18612

  • RATICデータセットにおける腹部多臓器セグメンテーションのためのCNNベースモデルとTransformerベースモデルのベンチマーク [cs.CV]目的:腹部多臓器セグメンテーションの性能比較
    • 腹部CT画像における正確な臓器分割は,診断・治療支援に不可欠である。
    • 従来のCNNは優れていたが,Transformerは長距離依存性のモデリングで注目されている。
    • 多様なRATICデータセットで,CNNとTransformerの性能差を明らかにする。
    • SegResNetは全ての臓器において最も高い性能を示し,ハイブリッドTransformerモデルを上回った。
    • TransformerベースではUNETR++が最も競争力のある結果を示した。
    • UNETRは少ない反復回数で収束が速いという利点が見られた。

    Link: https://arxiv.org/abs/2603.18616

  • OpenT2M:大規模で高品質なオープンソースデータを用いた,簡素なモーション生成 [cs.CV, cs.AI]目的:テキストからのモーション生成
    • アニメーションやロボット工学への応用が期待される分野であり,現実的な人間の動きを生成する技術が重要である。
    • 既存のモーションデータセットの規模が小さく,多様性に欠けるため,未知のテキストからのモーション生成性能が低いという課題がある。
    • 大規模で高品質なオープンソースデータセットと,それを用いた簡素なモーション生成モデルを開発し,この課題を解決する。
    • OpenT2Mは,2800時間以上のモーションデータを含む大規模データセットであり,既存のT2Mモデルの汎化性能を大幅に向上させる。
    • 2D-PRQという新規モーショントークナイザーを開発し,人間の体の部位を生物学的な要素に分割することで,時空間的な依存関係を捉えることに成功した。
    • MonoFrillは,複雑な設計や技巧を必要とせずに,優れたT2M結果を達成する事前学習済みモデルである。

    Link: https://arxiv.org/abs/2603.18623

  • REST:ゼロショット物体目標ナビゲーションのための後退ホライズン探索ステイナー木 [cs.RO, cs.AI, cs.CV]目的:ゼロショット物体目標ナビゲーションにおける経路探索手法
    • ロボットナビゲーションは,自律的な行動を実現する上で不可欠な技術である。
    • 既存手法では,未知環境下での物体探索の効率性や成功率が十分ではない。
    • 経路候補の構造化により,探索空間の効率的な削減を目指す。
    • RESTは,オンラインRGB-Dストリームから3次元マップを構築し,安全で情報量の多い経路木を生成する。
    • 経路木を空間的な物語としてテキスト化し,LLMによる思考連鎖推論を通じて最適な経路を選択する。
    • Gibson,HM3D,HSSDのベンチマークにおいて,高い成功率と経路効率を両立している。

    Link: https://arxiv.org/abs/2603.18624

  • GenVideoLens:AI生成動画検出におけるLVLMの課題 [cs.CV]目的:AI生成動画検出におけるLVLMの能力評価
    • AI生成動画の高度化により,その検出技術の重要性が増している。
    • 既存の評価手法は粗雑であり,LVLMの得意・不得意が不明確である。
    • LVLMの能力を多角的に評価し,改善の方向性を示す。
    • GenVideoLensは,AI生成動画と実動画を15の側面から評価する詳細なベンチマークである。
    • LVLMは知覚的側面では高い性能を示す一方,光学的整合性,物理的相互作用,時間的因果関係で課題がある。
    • 小規模なオープンソースモデルが,特定の側面において大規模モデルを上回る場合があることが示された。

    Link: https://arxiv.org/abs/2603.18625

  • GEAR:地理知識を活用した極限環境におけるアナログ認識フレームワーク [cs.CV]目的:マリアナ海溝と青蔵高原の地形的類似性検索
    • 深海生物サンプリングは高コストであり,陸上アナログの探索が重要である。
    • 既存モデルは地理知識の活用や計算効率において課題がある。
    • 青蔵高原におけるマリアナ海溝のアナログを効率的に検索する。
    • GEARフレームワークは,候補地域の絞り込み,物理に基づいたフィルタリング,グラフに基づく精密な認識という3段階で構成される。
    • MSG-Netは,最先端のベースラインよりもF1スコアが1.38%向上した。
    • MSG-Netで抽出された特徴量と生物学的データの間に有意な相関関係が認められた。

    Link: https://arxiv.org/abs/2603.18626

  • SwiftGS:即時衛星表面復元のためのエピソード的事前知識 [cs.CV, cs.LG]目的:多日時衛星画像からの迅速かつ大規模な3次元再構成
    • 環境モニタリング,都市計画,災害対応において,迅速な3次元再構成が不可欠である。
    • 照明変化,センサーの不均一性,シーンごとの最適化コストが,再構成の困難さを招いている。
    • 転移可能な事前知識を活用し,シーンごとの最適化を回避することで,効率的な再構成を目指す。
    • SwiftGSは,ジオメトリ・放射を分離したガウス素体と軽量なSDFを予測するメタ学習システムである。
    • 微分可能な物理グラフと空間ゲーティングを組み合わせ,ガウスの詳細とグローバルなSDF構造を融合する。
    • ゼロショットで動作し,高い計算効率で正確なDSM再構成と一貫性のあるレンダリングを実現する。

    Link: https://arxiv.org/abs/2603.18634

  • オフライン層別スパース性プロファイリングとオンライン双方向共クラスタリングによる高速ビデオ生成のための学習不要な疎アテンション [cs.CV]目的:ビデオ生成における高速化のための,学習不要な疎アテンションフレームワーク
    • ビデオ生成は,その高品質な出力から注目を集めている。計算コストが課題。
    • 既存の疎アテンション法では,層の特性の違いやクエリ・キー間の関係性が十分に考慮されていない。
    • 層ごとのスパース性を考慮し,クエリ・キー間の関係性を活用することで,性能向上を目指す。
    • 提案手法SVOOは,オフラインでの層別感度プロファイリングとオンラインでの双方向共クラスタリングを組み合わせる。
    • 7つのビデオ生成モデルでの実験により,SVOOが最先端手法と比較して優れた品質・高速化のトレードオフを実現することが示された。
    • Wan2.1データセット上で最大1.93倍の高速化と最大29dBのPSNRを維持することが確認された。

    Link: https://arxiv.org/abs/2603.18636

  • PhysVideo:クロスビュー幾何学ガイダンスによる物理的に妥当な動画生成 [cs.CV]目的:物理的に妥当な動画生成手法
    • 動画生成技術は進歩しているが,現実世界の物理法則に基づいた一貫性のある動きの生成は課題である。
    • 動画は2次元の投影であり,3次元空間での物体の動きを完全に捉えられていない点が問題である。
    • クロスビュー幾何学に基づき,物理法則を考慮した動画生成を可能にすることを目指す。
    • PhysVideoは,物理を意識した前景動画を生成し,背景と合成する二段階フレームワークである。
    • 第一段階のPhys4Viewは,物理的属性が動きに与える影響を捉え,クロスビューおよび時間的注意機構を用いて一貫性を高める。
    • 第二段階のVideoSynは,前景動画をガイダンスとして,背景との相互作用を学習し,制御可能な動画合成を実現する。

    Link: https://arxiv.org/abs/2603.18639

  • MeInTime:同一人物保持と年齢整合性を両立した顔画像復元 [cs.CV]目的:顔画像復元における同一人物保持と年齢整合性の向上
    • 顔画像復元技術は,セキュリティや画像処理において重要な役割を担う。
    • 既存手法は,参照画像と劣化画像の年齢が一致することを前提としており,実用性に課題がある。
    • 異なる年齢の参照画像を用いても高精度な顔画像復元を実現することを目指す。
    • MeInTimeは,拡散モデルを用いて,年齢の異なる参照画像を用いた顔画像復元を可能にする。
    • 同一人物の特徴と年齢情報を分離し,注意機構とゲート付き残差融合モジュールを導入することで,高い同一人物保持率と年齢整合性を実現した。
    • Age-Aware Gradient Guidanceにより,追加学習なしで,復元画像を目的とする年齢へ誘導する。

    Link: https://arxiv.org/abs/2603.18645

  • クリック・トゥ・アスク:オフライン原稿作成とオンライン対話型QAを備えたAIライブ配信アシスタント [cs.CV]目的:ライブ配信コマースにおけるAIアシスタントの開発
    • ライブ配信コマースは現代の主要な販売形態であり,その効率化が求められている
    • 配信者の準備時間や,視聴者からの質問への迅速な対応が課題となっていた
    • AIによる原稿作成とQAシステムで,これらの課題解決を目指す
    • 本研究で開発したClick-to-Askは,多様な商品情報を構造化し,効果的なプロモーション文案を生成する
    • ライブ配信中に視聴者からの質問に即座に対応可能であり,エンゲージメント向上に貢献する
    • TikTokのライブ配信データセットにおいて,質問認識精度0.913,応答品質0.876を達成し,実用性を示した

    Link: https://arxiv.org/abs/2603.18649

  • LLMベースのセマンティック評価による表抽出のPDFパーサーベンチマーク [cs.CV, cs.AI, cs.IR]目的:PDFからの表抽出におけるパーサーの性能評価
    • 大規模科学データマイニングや知識ベース構築において,PDFからの表抽出は不可欠である。
    • 既存の評価指標はルールベースであり,表の内容のセマンティックな等価性を捉えられない。
    • LLMを用いたセマンティック評価フレームワークを構築し,より正確な評価を実現する。
    • LLMベースの評価は,人間の判断との相関が非常に高い (Pearson r=0.93) ことが示された。
    • Tree Edit DistanceやGrid Table Similarityなどの既存手法と比較して,大幅に高い相関を示した。
    • 21のPDFパーサーを評価した結果,性能に大きなばらつきがあることが明らかになった。

    Link: https://arxiv.org/abs/2603.18652

  • 医療超音波画像セグメンテーションにおける半教師あり学習とコントラスト学習のためのマルチスケールスイッチ [cs.DB, cs.CV, cs.AI]目的:医療超音波画像セグメンテーションのための新しい半教師あり学習フレームワーク
    • 医療画像解析は,疾患診断や治療計画において重要な役割を担う。
    • 医療超音波画像は,ノイズや低コントラストなどのアーチファクトが多く,正確なセグメンテーションが困難である。
    • 限られたラベル付きデータでも高精度なセグメンテーションを実現する手法が求められている。
    • 提案手法Switchは,マルチスケールパッチミキシングとコントラスト学習により,ラベルなしデータの活用とロバストな特徴表現を実現した。
    • 6つの超音波データセットにおいて,最先端手法と比較して一貫した性能向上を示した。
    • 5%のラベル比率で,LN-INT,DDTI,Prostateデータセットにおいてそれぞれ80.04%,85.52%,83.48%のDice係数を達成し,フル教師あり学習ベースラインを上回った。

    Link: https://arxiv.org/abs/2603.18655

  • 計算病理学のためのマルチモーダルモデル:表現学習と画像圧縮 [eess.SY, cs.SY, cs.CV]目的:計算病理学におけるマルチモーダルモデルの進展と課題
    • デジタル病理学は,病理診断の効率化と精度向上に貢献しており,医療現場での重要性が高まっている。
    • ギガピクセル級の病理画像は計算負荷が高く,専門家の注釈データも限られているという課題がある。
    • マルチモーダル情報を統合し,解釈可能性と安全性を確保したAI支援診断システムの構築を目指す。
    • 本レビューでは,自己教師あり表現学習や構造を考慮したトークン圧縮によるWSIの効率的な処理が検討されている。
    • マルチモーダルデータ生成,少量データでの適応学習,そして複数エージェントによる協調推論が,診断の信頼性向上に役立つことが示唆されている。
    • トークン圧縮によるクロススケールモデリングと,マルチエージェントによる「思考の連鎖」シミュレーションが,不確実性を考慮した証拠融合を可能にする。

    Link: https://arxiv.org/abs/2603.18660

  • 相互依存性のあるオークションの複雑性 [cs.GT, cs.CC, cs.DS]目的:真実を誘引するメカニズムの近似比最適化
    • オークション設計は,資源配分の効率性向上に不可欠であり,経済学・計算機科学の重要な分野である。
    • 従来の近似アルゴリズムは,ドメイン制限や単調性などの仮定に依存しており,現実的な応用が困難である。
    • より一般的な条件下での真実を誘引するメカニズムの近似比最適化問題の複雑性を明らかにする。
    • 価値設定とコスト設定の両方において,近似比の最適化に関する計算問題に取り組んだ。
    • 一部の特殊なケースは古典的な組合せ問題に帰着可能であり,効率的なアルゴリズムが存在することが示された。
    • 一般的なケースでは計算困難性を示し,クエリ複雑性下界とNP-Hardnessを証明した。

    Link: https://arxiv.org/abs/2603.18668

  • 高品質な画像セグメンテーションに向けて:隣接ピクセルへのペナルティによるトポロジー精度の向上 [cs.RO, cs.NI, cs.CV]目的:画像セグメンテーションにおけるトポロジー精度の向上
    • 画像解析において,正確なセグメンテーションは定量分析の信頼性を左右する重要な要素である。
    • 従来の深層学習モデルでは,連結成分数や構造の維持といったトポロジー精度が保証されない場合がある。
    • 本研究は,既存の学習パイプラインへの統合が容易で,計算コストが低く,様々な構造に対応可能な手法でトポロジー精度を向上させる。
    • SCNPは,最も誤分類された隣接ピクセルにlogitsへのペナルティを課すことで,モデルに近傍の予測改善を促し,トポロジー精度を高める。
    • 13の異なるデータセットで有効性が確認され,セマンティックセグメンテーションとインスタンスセグメンテーションのフレームワークに統合された。
    • SCNPは,既存の損失関数にも容易に組み込むことができ,トポロジー精度を改善する効果が示された。

    Link: https://arxiv.org/abs/2603.18671

  • 言葉遊び:大規模オーディオ言語モデルにおける音声駄洒落理解のベンチマーク [cs.SD, cs.CL]目的:音声駄洒落理解の評価
    • 人間コミュニケーションにおいて,音声はテキストや画像と並ぶ重要な要素であり,その理解は不可欠である。
    • 音声駄洒落のデータセットや体系的なリソースが不足しており,音声モダリティの探索が進んでいない。
    • 大規模オーディオ言語モデルにおける音声駄洒落理解の現状を明らかにし,改善の方向性を示す。
    • 初の音声駄洒落理解ベンチマーク「APUN-Bench」を構築し,10の最先端オーディオ言語モデルを評価した。
    • 音声駄洒落の位置特定や意味推論において,モデル間に大きな性能差が確認された。
    • 音声位置バイアスや意味推論の誤りなど,ユーモアを考慮した音声知能開発における課題を特定した。

    Link: https://arxiv.org/abs/2603.18678

  • 指数カーネルから多項式へ:多項式カーネルを用いたガウススプラッティング [cs.LG, cs.CV, cs.GR]目的:既存のデータセットとの互換性を維持しつつ,ガウススプラッティングの計算効率の向上
    • 3Dガウススプラッティングは,高精度な3Dシーン再現技術として注目されている。
    • 既存のデータセットは指数カーネルに最適化されており,他のカーネルとの互換性が課題となる。
    • 新たなカーネルを導入することで,既存データセットの活用と効率向上を目指す。
    • 提案手法では,指数カーネルをReLU関数と組み合わせた多項式近似カーネルに置き換える。
    • これにより,ガウス項目の積極的な削減が可能となり,様々な3Dガウススプラッティング実装で性能が向上する。
    • 画像品質への影響は無視できる範囲で,4~15%の性能向上が確認された。

    Link: https://arxiv.org/abs/2603.18707

  • オントロジーに基づく拡散法によるゼロショット視覚Sim2Real転移 [cs.CV, cs.AI]目的:シミュレーションから現実世界への転移
    • 現実世界のデータ不足を補い,シミュレーション環境での学習を現実への適用を可能にする重要性。
    • 既存手法は,構造化された要素を捉えきれず,現実らしさを表現できないという課題がある。
    • オントロジーを用いて現実らしさを構造化知識として捉え,データ効率の高い転移を目指す。
    • 提案手法(OGD)は,現実と合成画像の識別性能において,既存手法を上回る結果を示した。
    • OGDは,知識グラフに基づいた埋め込み表現と構造化された指示プロンプトを用いて,高品質なSim2Real画像翻訳を実現した。
    • 現実らしさの構造を明示的にエンコードすることで,解釈可能かつ汎用的なゼロショットSim2Real転移を可能にした。

    Link: https://arxiv.org/abs/2603.18719

  • EdgeCrafter:タスク特化蒸留によるエッジデバイス向けコンパクトなViT [cs.CV]目的:エッジデバイスにおける高精度な稠密予測
    • 計算資源が限られたエッジデバイスでの高性能なAI活用が求められている。
    • コンパクトなViTは,事前学習を大規模に行っても,CNNに比べて精度と効率のバランスが劣る。
    • タスク特化の表現学習とエッジデバイスに配慮した設計により,ViTの性能向上を目指す。
    • COCOデータセットにおいて,ECDet-Sは1000万パラメータ以下で51.7 APを達成した。
    • インスタンスセグメンテーションでは,RF-DETRと同等の性能を,より少ないパラメータで実現した。
    • 姿勢推定では,大規模事前学習に依存するYOLO26Pose-Xを上回り,74.8 APを達成した。

    Link: https://arxiv.org/abs/2603.18739

  • 6ビット拡散:ビデオ拡散モデルの推論時混合精度量子化 [cs.CV]目的:ビデオ拡散モデルにおける効率的な推論
    • ビデオ生成の分野において,拡散モデルは優れた性能を示す。
    • 拡散モデルはメモリ使用量と計算コストが高く,実用的な展開が困難。
    • 推論時の混合精度量子化により,効率と品質のバランスを最適化する。
    • 提案手法は,推論時にNVFP4/INT8を動的に割り当てることで,1.92倍の高速化を実現。
    • メモリ使用量は3.32倍削減され,ビデオDiTsにおける効率的な推論の新たな基準を設定。
    • Transformerブロックの入力-出力差分と量子化感度の相関関係を利用した軽量な予測器を設計。

    Link: https://arxiv.org/abs/2603.18742

  • WeNLEX:多ラベル胸部X線画像分類に対する弱学習による自然言語説明 [cs.RO, cs.CL, cs.CV, cs.AI]目的:多ラベル胸部X線画像分類のための自然言語説明の生成
    • 医療画像診断支援において,AIの判断根拠の説明は不可欠であり,医師の意思決定をサポートする。
    • 既存手法では,説明データが教師データとして必要であり,モデルの真の推論を反映していない場合がある。
    • モデルの推論に忠実かつ,人間が理解しやすい説明を,少ない教師データで生成することを目指す。
    • WeNLEXは,画像生成と特徴空間での比較を通じて説明の忠実性を担保し,分布整合により自然な説明を実現した。
    • わずか5件の正解説明データで,信頼性と妥当性の高い説明を生成可能であることを実証した。
    • モデルに組み込むことで,分類精度を2.21%向上させ,説明可能性が性能向上に貢献することを示した。

    Link: https://arxiv.org/abs/2603.18752

  • DA-Mamba:ドメイン適応型物体検出におけるグローバル-ローカルアラインメントのためのドメイン認識型状態空間モデルの学習 [cs.CV]目的:ドメイン適応型物体検出におけるグローバル-ローカルアラインメントの改善
    • 物体検出は,画像認識の重要な課題であり,自動運転やロボティクスなどへの応用が期待される。
    • 異なるドメイン間での物体検出性能の低下が課題であり,ドメイン不変な特徴表現の学習が重要である。
    • CNNとTransformerの課題を克服し,効率的かつ高精度なドメイン適応型物体検出を実現すること。
    • 提案手法DA-Mambaは,CNNと状態空間モデルを組み合わせることで,効率的な長距離モデリングを実現した。
    • Image-Aware SSMとObject-Aware SSMを導入することで,画像レベルとインスタンスレベルのアラインメントを強化した。
    • 実験結果から,DA-Mambaがクロスドメイン性能を効率的に向上させることが示された。

    Link: https://arxiv.org/abs/2603.18757

  • ビデオ学習における話し手の表現性からの情動的関与と声の魅力の二重モデル予測 [cs.HC, cs.CV, cs.SD]目的:情動的関与と声の魅力の予測
    • 教育効果を高めるため,学習者の情動状態を把握することの重要性が増している。
    • 学習者の情動を直接評価するには負担が大きく,プライバシーの問題もある。
    • 話し手の表現性から学習者の反応を予測し,スケーラブルな情動分析を実現する。
    • 話し手の表情,視線,声の抑揚,認知的な意味合いから情動的関与を予測する回帰モデルが開発された。
    • 話し手の音響特徴のみから声の魅力を予測する回帰モデルも構築された。
    • 両モデルともに高い予測性能を示し(R2=0.85と0.88),話し手の情動表現が受講者の反応を反映していることが示された。

    Link: https://arxiv.org/abs/2603.18758

  • ProCal:近傍誘導型ソースフリードメイン適応のための確率較正 [cs.CV]目的:ソースフリードメイン適応における確率較正手法
    • ドメイン適応は,異なるデータ分布へのモデル汎化能力向上に不可欠である。
    • ソースデータなしでの適応は困難であり,過学習や知識の忘却が問題となる。
    • 近傍予測の信頼性を高め,知識の保持とドメイン適応のバランスを実現する。
    • ProCalは,デュアルモデル協調予測メカニズムを通じて近傍ベースの予測を動的に較正する。
    • ソースモデルの初期予測とターゲットモデルの出力統合により,局所ノイズの影響を軽減し,識別情報を保持する。
    • 理論的分析により,ProCalが知識の忘却と過学習を抑制し,ソース知識とターゲット情報を効果的に融合することが示された。

    Link: https://arxiv.org/abs/2603.18764

  • SEAR:RGB+熱画像を対象とした視覚幾何学的Transformerのシンプルかつ効率的な適応 [cs.CV]目的:RGB+熱画像を用いた3D再構成における視覚幾何学的Transformerの適応戦略
    • 大規模RGBデータセットから学習された視覚幾何モデルは,高精度かつ効率的なカメラ姿勢推定とシーン再構成を可能にする。
    • RGB-熱画像(RGB-T)のような複合センシングモダリティへの適用において,その有効性が低下する。
    • RGBと熱画像のモダリティ間のアライメントを改善し,高精度な3D再構成を可能にすることを目的とする。
    • 提案手法SEARは,小規模なRGB-Tデータセットでも,最先端手法を凌駕する3D再構成およびカメラ姿勢推定性能を達成した。
    • AUC@30において29%以上の改善が見られ,推論時間のオーバーヘッドはほとんどない。
    • 低照度や濃煙などの困難な条件下でも,信頼性の高いマルチモーダル姿勢推定と再構成を可能にする。

    Link: https://arxiv.org/abs/2603.18774

  • ポイントから3Dへ:ポイントクラウド事前情報を用いた構造を意識した3D生成 [cs.CV, cs.AI]目的:3Dアセットおよびシーン生成における形状制御
    • 3D生成技術は画像やテキストに基づくものが主流だが,利用可能な3D事前情報は未活用のままになっている。
    • LiDAR等のアクティブセンサーから容易に取得できるポイントクラウドのような3D事前情報を既存手法が活用できていない。
    • ポイントクラウド事前情報を用いて,より正確かつ構造制御可能な3D生成を実現することを目指す。
    • Points-to-3Dは,拡散モデルTRELLISに基づき,ポイントクラウド事前情報を活用した3D生成フレームワークである。
    • 入力の初期化にポイントクラウド事前情報を使用し,構造補完ネットワークを用いて全体の形状を完成させる。
    • 実験により,レンダリング品質と幾何学的精度において,最先端のベースラインよりも優れた性能が確認された。

    Link: https://arxiv.org/abs/2603.18782