arXiv雑要約

画像・音声 - 2026/03/24 公開

  • モデルが自己評価する:マルチモーダル推論のための教師なし自己進化 [cs.HC, cs.CY, cs.CV, cs.AI]目的:マルチモーダル推論における自己進化
    • マルチモーダル大規模言語モデルは推論能力で目覚ましい進歩を遂げている。
    • 高品質な注釈データや教師モデルからの知識蒸留に依存し,拡張性に課題がある。
    • 人間の注釈や外部報酬モデルを用いずに,推論性能を安定的に向上させること。
    • 提案手法は,入力ごとに複数の推論経路をサンプリングし,グループ内の構造を共同でモデル化する。
    • Actorの自己整合性信号を学習の事前分布として利用し,経路の品質に応じて重みを再調整する。
    • 5つの数学的推論ベンチマークにおいて,推論性能と汎化能力の一貫した改善が確認された。

    Link: https://arxiv.org/abs/2603.21289

  • テキストと画像に基づいた3次元生成 [cs.CV]目的:テキストと画像の両方を用いた3次元コンテンツ生成手法
    • VR/AR,産業デザイン,エンターテイメントにおいて高品質な3Dアセットの需要が高まっており,生成モデルへの関心が増している。
    • 既存の3D生成モデルは,画像またはテキストの単一の条件付けに依存しており,柔軟性や表現力に限界がある。
    • 画像とテキストの情報を統合することで,より柔軟で忠実な3D生成を可能にすることを目指す。
    • テキストと画像の単純な組み合わせだけでも,単一の条件付けモデルよりも優れた性能を発揮することが示された。
    • TIGONと呼ばれる新しいベースラインモデルを提案し,画像とテキストの条件付けを別々の経路で処理し,軽量なクロスモーダル融合を行う。
    • 実験結果から,テキストと画像の条件付けを組み合わせることで,3D生成の質が向上することが確認された。

    Link: https://arxiv.org/abs/2603.21295

  • 大規模な顔角度変動下における恒常的な同一性を持つ動画生成 [cs.CV]目的:大規模な顔角度変動下での恒常的な同一性を持つ動画生成手法
    • 顔認識技術は,セキュリティ,監視,人間とコンピュータのインタラクションなど,様々な分野で不可欠である。
    • 単一視点からの参照では,大きな顔角度変動下での同一性維持が困難であり,動画の自然さが損なわれる場合がある。
    • 複数視点からの情報を活用し,同一性を維持しつつ自然な動画生成を実現することを目的とする。
    • 提案手法Mv^2IDは,ペアリングされていないデータを用いた学習により,同一性の維持と動画の自然さを両立している。
    • 領域マスク学習戦略により,ショートカット学習を防止し,異なる視点からの補完的な同一性情報を効果的に集約している。
    • 参照デカップルドRoPEメカニズムにより,動画と条件付けトークンそれぞれの特性を考慮した位置エンコーディングを実現している。

    Link: https://arxiv.org/abs/2603.21299

  • F4Splat:フィードフォワード3Dガウススプラッティングのための予測的密度化 [cs.CV]目的:フィードフォワード3Dガウススプラッティングにおける密度化手法
    • 3D表現のリアルタイムレンダリング技術は,没入型体験の向上に不可欠である。
    • 既存手法では,ガウスの配置に冗長性が高く,必要なガウス数を制御しにくい。
    • 空間的複雑さに応じた適応的なガウス配置により,効率的な3D表現の構築を目指す。
    • F4Splatは,密度化スコアに基づいたガウス配置戦略により,ガウスの冗長性を低減する。
    • これにより,シンプルな領域ではガウス数を減らし,重複領域での重複ガウスを最小限に抑える。
    • 実験結果から,F4Splatは既存手法と比較して,より少ないガウス数で優れた新規視点合成性能を達成する。

    Link: https://arxiv.org/abs/2603.21304

  • プライバシー保護フェデレーション学習による差分プライバシーを用いた行動認識:選択的調整と効率的な通信 [cs.CV]目的:プライバシー保護を考慮した行動認識手法の開発
    • 動画データの活用は重要だが,プライバシー保護が課題である。
    • モデルの露出によるプライバシー侵害や通信コストの増大が問題となる。
    • 差分プライバシーと選択的調整により,プライバシー保護と効率性を両立することを目指す。
    • 提案手法FedDP-STECARは,中央集権的な環境で厳しいプライバシー条件(ε=0.65)下で最大70.2%高い精度を達成する。
    • 分散環境では,48%高速な学習と73.1%の精度を実現し,スケーラブルかつプライバシー保護された行動認識を可能にする。
    • 調整された層のみを送信することで,通信量を99%以上削減することに成功した。

    Link: https://arxiv.org/abs/2603.21305

  • ビデオにおける表情認識のためのキャッシュパーソナライズによるテスト時適応 [cs.CV]目的:ビデオにおける表情認識のためのテスト時適応手法
    • 表情認識は,人間間のコミュニケーションにおいて重要な役割を担うため,その精度向上が求められている。
    • 個人間の表情の差異により,汎用的なモデルでは十分な認識精度が得られない場合がある。
    • 個人に合わせた効率的な適応手法を開発し,計算コストを抑えつつ精度を向上させる。
    • 提案手法TTA-CaPは,従来のテスト時適応手法と比較して,計算コストを抑えつつ高い認識精度を達成した。
    • TTA-CaPは,信頼性の高いサンプルと低信頼性のサンプルをキャッシュに格納することで,ノイズの影響を抑制している。
    • BioVid,StressID,BAHの3つのデータセットで,個人特有の変化や環境の変化に対して優れた性能を示した。

    Link: https://arxiv.org/abs/2603.21309

  • HELIX:二次限界を超えるハイブリッドMamba-Attentionによる生の音声理解のスケーリング [cs.SD, cs.LG, eess.AS]目的:音声理解における入力フロントエンド,シーケンスバックボーン,シーケンス長の関係性の解明
    • 音声認識技術は,人間と機械のコミュニケーションにおいて不可欠であり,その性能向上は社会に大きな影響を与える。
    • 従来の音声表現学習では,各要素が独立して評価され,設定の変更が他の要素に与える影響が不明確であった。
    • HELIXは,MambaとAttentionの組み合わせにより,長時間の音声処理における課題を解決することを目指す。
    • HELIXは,純粋なMamba,純粋なAttention,そしてハイブリッドモデルを比較検証するフレームワークである。
    • Attentionは,短い音声では性能を低下させるが,長いシーケンスでは重要となることが示された。
    • 5分間の話者識別タスクにおいて,HELIXは純粋なMambaと比較して11.5ポイントの性能向上を実現した。

    Link: https://arxiv.org/abs/2603.21316

  • KHMP:高精度人体動作予測のための周波数領域カルマンフィルタによる改良 [cs.CV]目的:高精度な人体動作予測
    • 人体動作予測は,ロボット工学や仮想現実など,様々な分野で重要な役割を担う。
    • 既存手法では,予測結果に高周波ノイズや時間的な不連続性が生じるという課題があった。
    • 予測結果の高周波ノイズを抑制し,より自然で滑らかな動作を生成することを目的とする。
    • KHMPは,DCT領域で適応カルマンフィルタを用いることで,高精度な人体動作予測を実現した。
    • カルマンフィルタは,高周波DCT係数を周波数ごとのノイズ信号として扱い,ノイズを抑制しつつ動作の詳細を保持する。
    • 実験結果から,Human3.6MおよびHumanEva-Iデータセットにおいて,KHMPが最先端の精度を達成し,ジッターを効果的に軽減することが示された。

    Link: https://arxiv.org/abs/2603.21327

  • 感情を考慮したガウススプラッティングによる少数ショット個人化対話頭部合成 (EmoTaG) [cs.CV]目的:感情を考慮した3D対話頭部合成手法
    • 近年,NeRFや3Dガウススプラッティングにより,音声駆動3D対話頭部合成技術が急速に進歩している。
    • 既存の少数ショット手法は,表情豊かな動作において幾何学的な不安定さや音声と感情の不一致といった課題を抱えている。
    • 感情を考慮したモーションモデリングにより,より安定かつ自然な対話頭部合成を実現することを目指す。
    • 提案手法EmoTaGは,事前学習と適応のパラダイムに基づき,FLAMEパラメータ空間でモーション予測を再構成することで,幾何学的な安定性を向上させている。
    • 感情のプロソディを音声から捉え,ヘッドポーズや上顔面の情報を補完するGated Residual Motion Network (GRMN)を提案することで,表現豊かで一貫性のあるモーション生成を可能にしている。
    • 実験の結果,EmoTaGは感情表現,リップシンク,視覚的なリアリズム,モーション安定性において最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.21332

  • 時間ステップ系列再配分による効率的な粗-詳細拡散モデル [cs.CV]目的:計算コスト削減と高速サンプリングのための手法
    • 高画質画像生成において,拡散モデルは目覚ましい進歩を遂げている
    • 多段階のノイズ除去過程は計算コストが高く,エッジデバイスへの実装が困難である
    • 入力の冗長性を考慮し,計算量を削減しつつ高速なサンプリングを実現する
    • 提案手法はCIFAR10とLSUN-Churchにおいて,80~90%の計算量削減を達成した
    • 粗-詳細ノイズ除去(C2F)により,初期段階の生成計算量を削減することに成功した
    • 時間ステップ系列再配分(TRD)により,10分未満の探索時間で効率的なサンプリング軌跡調整が可能となった

    Link: https://arxiv.org/abs/2603.21348

  • ビデオTransformerによる呼吸状態の検出 [cs.CV]目的:呼吸困難の検出
    • 呼吸状態の悪化は生命に関わるため,早期発見が重要である。
    • 呼吸状態の視覚的評価は熟練を要し,判断にばらつきが生じることがある。
    • ビデオTransformerを用いて,呼吸困難の自動検出を目指す。
    • ビデオTransformerとLie Relative Encodings,Motion Guided Maskingを組み合わせたモデルが,F1スコア0.81を達成した。
    • この結果から,現代のビデオTransformerは呼吸メカニクスのわずかな変化を認識できる可能性が示唆された。
    • 運動後の回復過程における呼吸状態の変化を捉え,AIによる呼吸困難の検出精度を向上させた。

    Link: https://arxiv.org/abs/2603.21349

  • FluidGaussian:シミュレーションに基づく不確実性を機能的知性を持つ3D再構成へ伝播 [cs.CV]目的:現実世界の物体を物理的に整合性のある形で3次元再構成する手法
    • 現実世界の物体は物理法則に従うため,物理的な相互作用を考慮した再構成が重要である。
    • 既存手法は主に視覚的な忠実性を最適化しており,物理的な接触や機能性を無視しがちである。
    • 視覚情報に加え,流体シミュレーションによる物理的な不確実性を評価し,再構成精度を向上させる。
    • FluidGaussianは,既存手法と比較して,PSNRが最大8.6%向上した。
    • 流体シミュレーションにおける速度発散は,最大62.3%減少した。
    • 本手法は,視覚的および物理的な忠実度を両立させるアクティブラーニングによって実現されている。

    Link: https://arxiv.org/abs/2603.21356

  • リラックス・フォーシング:一貫性のある長尺ビデオ生成のための緩和KVメモリ [cs.CV]目的:長尺ビデオ生成における一貫性の向上
    • 近年,長尺ビデオ生成の需要が高まっており,双方向モデルの限界を超える手法が求められている。
    • 自己回帰型ビデオ拡散モデルでは,推論時の安定性が課題であり,時間経過に伴う劣化が生じやすい。
    • 既存手法の限界を克服し,時間的な一貫性を保ちながら,より長尺のビデオ生成を可能にすること。
    • リラックス・フォーシングは,過去の情報をSink,Tail,Historyの3つの役割に分解することで,誤差の蓄積を抑制し,運動の進化を維持する。
    • VBench-Longの実験結果から,リラックス・フォーシングが運動のダイナミクスと全体的な時間的一貫性を向上させることが示された。
    • この手法は,既存の強制ベースの訓練戦略を補完し,スケーラブルな長尺ビデオ生成に不可欠な構造化された時間的メモリを提供する。

    Link: https://arxiv.org/abs/2603.21366

  • HamVision:医療画像解析のためのハミルトニアンダイナミクスを帰納的バイアスとして [cs.CV, cs.LG]目的:医療画像解析におけるセグメンテーションと分類タスクに対する,構造化された帰納的バイアス
    • 医療画像解析は,疾患診断や治療において不可欠であり,高精度な画像解析技術が求められている。
    • 既存の画像解析手法は,大量のラベル付きデータに依存する傾向があり,データ収集の困難さが課題となっている。
    • 本研究は,ラベルなしデータでも有効な,新しい画像解析フレームワークを開発し,データ依存性を低減することを目指す。
    • HamVisionは,減衰調和振動子という基本的な信号処理ブロックを帰納的バイアスとして利用することで,セグメンテーションと分類の両タスクで優れた性能を発揮する。
    • セグメンテーションにおいて,ISIC\,2018やACDC等の主要なベンチマークで最先端のDiceスコアを達成し,少ないパラメータ数で高い性能を実現した。
    • 分類においては,BloodMNISTやPathMNISTで最先端の精度を達成し,他のMedMNISTデータセットにおいても競争力のある結果を示した。

    Link: https://arxiv.org/abs/2603.21377

  • 大規模かつ複雑なイベントに対するInSAR位相ほどきフレームワーク [cs.CV, cs.AI, physics.geo-ph]目的:大規模InSARデータの位相ほどき手法
    • 地殻変動観測において,InSARは広域かつ高精度な変位計測に不可欠である。
    • 断層活動など複雑な変形場では,位相の不連続性が位相ほどきの精度を著しく低下させる。
    • 大規模データかつ不連続性を含むInSAR画像に対する,ロバストな位相ほどき手法を確立すること。
    • 拡散モデルに基づく新しい位相ほどきフレームワークを提案し,大規模InSARデータへの適用を可能にした。
    • 提案手法は,断層活動に伴う位相跳躍を含む複雑な変形場において,物理的に整合性の高い位相を復元できることを示した。
    • 合成データおよび実データを用いた実験により,提案手法が従来の解析手法と比較して高い精度とスケーラビリティを持つことが確認された。

    Link: https://arxiv.org/abs/2603.21378

  • オープンボキャブラリ全景セグメンテーションにおける物体性バイアスと領域-テキスト間の不整合の軽減 [cs.CV]目的:オープンボキャブラリ全景セグメンテーションの性能向上
    • 画像認識技術は,自動運転やロボット工学など幅広い分野で不可欠であり,その精度向上は重要な課題である。
    • 既存のセグメンテーション手法は,学習時に存在しないカテゴリの物体認識に弱く,汎化性能に課題がある。
    • 学習データに含まれない物体も正確に認識し,セグメンテーション性能を向上させることを目指す。
    • 提案手法OVRCOATは,物体性バイアスを軽減し,CLIPモデルの領域レベルの認識精度を高めることで,全景セグメンテーションの性能を向上させる。
    • ADE20Kデータセットにおいて,従来の最高性能を5.5%上回るPQスコアを達成し,Mapillary Vistas,Cityscapesでも同様の改善が認められた。
    • OVRCOATは,シンプルな構造でありながら,高い性能を発揮し,少ないメモリコストで実現可能である。

    Link: https://arxiv.org/abs/2603.21386

  • 同一性分離型オープンセットプライバシー保護ビデオ表情認識のための事前知識 [cs.CV]目的:ビデオに基づいたプライバシー保護表情認識における,同一性分離と表現情報の維持
    • 表情認識は重要な技術である。しかし,顔データは個人情報を露呈し,プライバシー侵害のリスクを伴う。
    • 既存のプライバシー保護技術は,現実的なオープンセット環境での未知の同一性への対応が困難である。
    • 同一性ラベルなしでプライバシーを保護しつつ,表情認識の精度を維持することを目標とする。
    • 本研究では,ビデオ内の事前知識を利用して同一性を抑制するネットワークを提案し,プライバシー保護を実現した。
    • その後のノイズ除去モジュールにより,表情認識の性能低下を抑制し,精度を回復した。
    • 認識事前知識を用いた検証方法により,ラベルなしでプライバシー保護の堅牢性を評価できることを示した。

    Link: https://arxiv.org/abs/2603.21387

  • ゲームにおけるペルソナベクトル:活性化ベクトルによる戦略の測定と誘導 [cs.AI, cs.GT]目的:ゲームにおける戦略的行動特性の測定と誘導
    • 戦略的状況におけるLLMの活用が進む中で,その行動特性を理解する手段が求められている。
    • LLMの戦略と,その正当化となる言語表現との間に乖離が生じる場合がある。
    • 活性化ベクトルを用いて,利他性や許容性といったペルソナを操作し,戦略と表現の一致を目指す。
    • 活性化ベクトルによる誘導は,定量的な戦略選択と自然言語による説明の両方を系統的に変化させる。
    • 自己行動と他者期待に関するベクトルは部分的に異なることが示された。
    • ペルソナベクトルは,戦略的環境における高水準な特性をメカニスティックに制御する有望な手段となる。

    Link: https://arxiv.org/abs/2603.21398

  • 企業向け営業アシスタント:ライブ通話における自動情報検索によるリアルタイムAIサポートの実現 [cs.SD]目的:ライブ通話におけるリアルタイムAIサポートの実現
    • 顧客体験向上と営業効率化が重要であり,迅速な情報提供が鍵となる。
    • 顧客からの詳細な質問に手動で対応するため,時間がかかり,顧客体験を損ねる。
    • リアルタイムでの質問検出と情報検索により,この遅延を解消し,効率的な営業を支援する。
    • 本研究で開発したSalesCopilotは,平均応答時間が2.8秒と,手動検索と比較して14倍の高速化を実現した。
    • SalesCopilotは,ストリーミング音声テキスト変換,LLMベースの質問検出,構造化製品データベースを用いたRAGを統合している。
    • 保険営業のシナリオにおいて,質問検出率100%を達成し,多様な製品に対応可能であることを示した。

    Link: https://arxiv.org/abs/2603.21416

  • マルチモーダル大規模言語モデルに対する不確実性に基づいた知識蒸留 [cs.CV]目的:マルチモーダル大規模言語モデルの知識蒸留における不確実性の考慮
    • 近年,大規模言語モデルの性能向上は目覚ましいが,その学習には多大な計算資源が必要となる。
    • 知識蒸留は,教師モデルの知識を生徒モデルに伝達する手法だが,データと教師のバランス調整が難しい。
    • 教師の不確実性を考慮し,生徒モデルが教師の指導に依存する度合いを適応的に調整する。
    • 提案手法Beta-KDは,教師と生徒の学習をベイズ的な視点から捉え,教師の指導を生徒の活性化に対するギブス事前分布として解釈する。
    • これにより,閉形式の不確実性に基づいた重み付けメカニズムが導出され,様々な蒸留目標に対応可能となる。
    • マルチモーダルVQAベンチマークにおける実験の結果,Beta-KDは既存の知識蒸留手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2603.21426

  • 画像に基づく構造解析:コンピュータビジョンとLLMを用いたPhotoBeamSolver [cs.CV]目的:手書きの図面からの構造部材のモデル化と解析
    • 土木・構造工学の分野において,構造物の安全性評価は重要課題である。
    • 構造物の解析には専門知識と手間がかかり,迅速な評価が困難な場合がある。
    • コンピュータビジョン技術を用いて,図面から構造部材を自動的に認識し,解析を効率化すること。
    • 本研究では,手書きの構造部材の図面から,コンピュータビジョンと統計的学習を用いて構造モデルを構築するプログラムPhotoBeamSolverを開発した。
    • PhotoBeamSolverは,教科書や演習問題で用いられる簡略化された梁モデルの解析を可能にする。
    • コンピュータビジョンを構造解析に適用する際の課題や,土木工学分野での信頼性ある応用のための要件を分析した。

    Link: https://arxiv.org/abs/2603.21432

  • PAS3R:長動画シーケンスのための姿勢適応ストリーミング3D再構成 [cs.CV]目的:長動画からの高密度なシーン復元
    • 動画から3Dシーンを再構成する技術は,ロボット工学やAR/VRなど広範な応用分野で重要である。
    • 既存手法は急激な視点変化に対応できず,長動画で軌道ドリフトや幾何学的矛盾が生じやすい。
    • カメラの動きとシーン構造に基づき,再構成状態の更新を動的に調整することで安定性を向上させる。
    • PAS3Rは,フレームの幾何学的新規性と視点変化の度合いに応じて,再構成状態への影響を制御する。
    • 相対姿勢制約や加速度正則化を取り入れた学習により,長時間の再構成における安定性を高めている。
    • 複数のベンチマークにおいて,軌道精度,深度推定,点群再構成の品質が大幅に向上することを示した。

    Link: https://arxiv.org/abs/2603.21436

  • エピマスク:双極距離に基づくマスクをクロスアテンションに活用した衛星画像マッチング [cs.CV]目的:衛星画像のマッチング精度向上
    • 衛星画像は広範囲を捉え,災害監視や地図作成に不可欠である。
    • 従来の画像マッチング技術は,ピンホールカメラを前提としており,衛星画像の特性に最適化されていない。
    • 衛星画像特有の撮影方式に適応した,より高精度なマッチング手法の開発。
    • エピマスクは,パッチごとのアフィン近似と双極距離に基づくアテンションマスクを導入することで,衛星画像の幾何学的制約を考慮したマッチングを実現した。
    • SatDepthデータセットを用いた実験により,従来の地上ベースモデルと比較して,最大30%のマッチング精度向上を確認した。
    • 事前学習済みの画像エンコーダーをファインチューニングすることで,ロバストな特徴抽出を可能にした。

    Link: https://arxiv.org/abs/2603.21463

  • ALADIN:人物再識別のための属性言語蒸留ネットワーク [cs.IR, cs.CV]目的:人物再識別における属性と言語の知識蒸留による表現学習
    • 人物再識別は,監視カメラ映像などから個人を特定する重要な技術であり,セキュリティ分野での応用が期待される。
    • 既存手法では,CLIPモデルのグローバル特徴量と固定プロンプトに依存しており,詳細な属性情報や多様な外観への適応が課題であった。
    • CLIPモデルの知識を軽量な再識別モデルに蒸留することで,属性レベルでの対応関係を強化し,ロバストな表現学習を目指す。
    • 提案手法ALADINは,凍結されたCLIPモデルから再識別モデルへ知識を蒸留し,属性局所アラインメントを導入することで適応的なテキストと画像の対応関係を確立した。
    • シーンを考慮したプロンプト生成器により,画像固有のソフトプロンプトを生成し,遮蔽に対するロバスト性を向上させた。
    • マルチモーダルLLMを用いて生成された属性記述をCLIPを通して局所的注意マップに変換し,高精度な教師信号を提供することで,性能を改善した。

    Link: https://arxiv.org/abs/2603.21482

  • どの概念を忘れ,どのように拒否すべきか? 大規模視覚言語モデルにおける継続的アンラーニングのための概念分解 [cs.CV]目的:大規模視覚言語モデルにおける継続的アンラーニングのメカニズム
    • 視覚言語モデルの応用拡大に伴い,不要な知識の効率的な削除が重要となっている。
    • 逐次的なアンラーニング更新により,共有表現が歪み,誤った拒否行動を引き起こす可能性がある。
    • 概念分解に基づき,正確な拒否対象の特定と適切な拒否応答生成を目指す。
    • 提案手法では,削除対象から分解された視覚・言語概念の説明に基づき,拒否行動を確立する。
    • 概念モジュレータにより各忘却カテゴリを特徴づける概念組み合わせを特定し,拒否エキスパート群(refusers)を用いて適切な拒否応答を生成する。
    • 概念駆動ルーティングスキームにより,類似概念を持つタスク間でrefusersを再利用し,新しい概念に適応させることで,高い性能を発揮する。

    Link: https://arxiv.org/abs/2603.21484

  • ビデオ推論セグメンテーションのための軌道認識マルチモーダル大規模言語モデルの学習 [cs.CV]目的:ビデオ推論セグメンテーションにおける性能向上
    • マルチモーダル大規模言語モデルの発展に伴い,人間指示に基づいたビデオオブジェクトのセグメンテーション需要が高まっている。
    • 従来の技術は,単方向的かつ暗黙的なテキストと軌道の対応に依存しており,激しいビデオの動きに対して軌道認識が困難であった。
    • 本研究は,テキストと軌道の双方向対応により,軌道認識性能を向上させ,ビデオセグメンテーションの精度を高めることを目指す。
    • 提案手法TrajSegは,参照および推論ビデオセグメンテーションデータセットにおいて,既存のビデオ推論セグメンテーション手法を全ての指標で上回る性能を示した。
    • 双方向テキスト-軌道対応により,大規模言語モデルはより良い対応関係を得て,ビデオ内のオブジェクト軌道をより良く認識できるようになった。
    • フレームレベルコンテンツ統合(FCI)モジュールと統合マスクデコーダにより,軌道情報からマスク生成を効率的に行い,シンプルかつエンドツーエンドで学習可能なフレームワークを実現した。

    Link: https://arxiv.org/abs/2603.21488

  • ストリーミング評価:現実的なストリーミング動画理解に向けた統一評価プロトコル [cs.CV, cs.MM]目的:ストリーミング動画理解能力の評価プロトコル
    • リアルタイムAI応用の発展には,動画のような連続的な視覚情報の理解が不可欠である。
    • 既存研究は断片的な側面にとどまり,現実的なリソース制約下での実用性に欠ける。
    • 現実的な制約下でのストリーミング動画理解のボトルネックを明確化し,今後の研究を促進する。
    • StreamingEvalは,効率性,ストレージ,精度間のトレードオフを定量的に評価する。
    • 主流のオフラインモデルとオンラインモデルを比較し,現在のVideo-LLMの課題を明らかにした。
    • 固定容量のメモリバンクを用いて,過去の視覚的コンテキストへのアクセスを標準化している。

    Link: https://arxiv.org/abs/2603.21493

  • 少数ショット全スライド画像分類のためのパラメータ効率的なプロンプトチューニングと階層的なテキストガイダンス [cs.CV]目的:少数ショット弱教師あり全スライド画像分類における性能向上
    • 病理画像のデジタル化が進み,大規模な画像解析の需要が高まっている。
    • インスタンスレベルのアノテーション取得コストが高く,限られたスライドレベルのラベルでの学習が課題。
    • パラメータ数を削減し,計算コストを抑えつつ,画像の階層構造を有効活用する。
    • 提案手法は,テキストエンコーダの特徴量をスケーリング・シフトすることで,パラメータ効率的なプロンプトチューニングを実現した。
    • 画像内の階層構造を考慮したソフトなテキストガイダンスにより,情報損失を抑制し,弱教師あり腫瘍局在化においても優れた性能を示した。
    • 乳癌,肺癌,卵巣癌のデータセットにおいて,最先端手法と比較してそれぞれ最大10.9%,7.8%,13.8%の改善が見られた。

    Link: https://arxiv.org/abs/2603.21504

  • 点言語モデルによるゼロショット3D異常検知の探求 [cs.CV]目的:ゼロショット3D異常検知のための点言語モデルの可能性
    • 産業検査の信頼性向上に不可欠であり,欠陥検出・局所化に重要である。
    • 既存手法は2D画像への変換に依存し,幾何学的詳細が失われやすい。
    • 3D点群とテキスト埋め込みの整合性を高め,構造異常への感度を向上させる。
    • 提案手法BTPは,Real3D-ADとAnomaly-ShapeNetで優れたゼロショット3D異常検知性能を達成した。
    • BTPは,マルチ粒度パッチ特徴とテキスト表現を整合させ,局所異常検出を可能にする。
    • 補助的な点群データを利用した表現学習により,ロバスト性と異常の意味表現を向上させている。

    Link: https://arxiv.org/abs/2603.21511

  • VIGIL:部分に基づいた構造化推論による汎用的なディープフェイク検出 [cs.CV]目的:汎用的なディープフェイク検出のための部分に基づいた構造化推論フレームワーク
    • ディープフェイクは社会に深刻な影響を与え,その検出技術の重要性は増している。
    • 既存手法では,証拠生成と操作局在化が一体化され,説明の信頼性が低い。
    • モデル自身の知覚に基づき,信頼性の高い説明と検出を実現することを目指す。
    • VIGILは,顔のどの部分を検査すべきか計画し,独立した証拠を用いて各部分を検証する。
    • 段階的な注入メカニズムにより,外部信号に偏ることなく,部分レベルの検証を行う。
    • 新しいベンチマークOmniFakeを用いて,VIGILが既存手法を上回る汎用性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.21526

  • PEARL:幾何学が意味を整合させ,トレーニングフリーなオープンボキャブラリセマンティックセグメンテーションを実現する [cs.CV]目的:トレーニングフリーなオープンボキャブラリセマンティックセグメンテーションの性能向上
    • 新たなラベルセットへの迅速な適応が求められるセマンティックセグメンテーション分野において,トレーニングフリーな手法は重要である。
    • 既存手法は,過度な後処理やテキストとビジョンの独立した処理に依存し,クロスモーダル幾何学の活用が不十分である。
    • PEARLは,幾何学的な整合性とテキスト情報を活用することで,シンプルかつ高性能なトレーニングフリーなセマンティックセグメンテーションを目指す。
    • PEARLは,Procrustes alignmentとLaplacian propagationの二段階推論により,高い性能を発揮する。
    • Procrustes alignmentは,自己注意ブロック内でキーをクエリ空間へ回転させ,テキスト情報を考慮したLaplacian propagationは,ピクセル単位のロジットを洗練させる。
    • 標準的なベンチマークにおいて,追加データや補助バックボーンなしで,トレーニングフリーなOVSSにおいて最先端の結果を達成した。

    Link: https://arxiv.org/abs/2603.21528

  • ライドヘイリングにおける非排他的通知:Lyftにおけるシミュレーションとマーケットプレイス分析 [cs.GT]目的:ライドヘイリングプラットフォームにおける非排他的通知(NED)のパフォーマンスとマーケットプレイスへの影響評価
    • ライドヘイリング市場の効率化は,都市交通の課題解決に不可欠である。
    • ドライバーの受諾率の不安定性が,従来の排他的通知方式の効率低下を招いている。
    • 非排他的通知を導入することで,待ち時間短縮とマッチング品質の向上を目指す。
    • シミュレーションとマーケットプレイス分析により,NEDはEDに比べてマッチング時間とドライバーの流失率を改善することが示された。
    • 「最初に受諾」方式は速度とスループットを最大化し,「最良の受諾」方式はマッチング品質を最大化することが分かった。
    • 適切な通知戦略は,高価値ドライバーの過剰な固定化を防ぎ,長期的な効率を向上させる。

    Link: https://arxiv.org/abs/2603.21531

  • 定常オンライン競合解決スキーム [cs.GT, cs.DM, cs.DS, math.CO]目的:オンライン競合解決スキームの設計と解析
    • ベイジアンオンライン選択とリソース配分において中心的役割を果たす。
    • 最適なスキームの設計が技術的に困難であり,既存手法は複雑な場合が多い。
    • シンプルなスキームの設計を可能にする新たな技術的枠組みを提供する。
    • 定常オンライン競合解決スキーム(S-OCRS)の分布的特徴付けと汎用的なオンライン実装を提示した。
    • 二部マッチングに対し,$(3-\sqrt{5})/2$-選択可能なS-OCRSを構築し,独立性ベンチマークを達成した。
    • $k$-均一マトロイドおよび弱レイリーマトロイドに対し,それぞれ$1-\sqrt{2/(\pi k)} + O(1/k)$および$1/2$-選択可能なS-OCRSを導出した。

    Link: https://arxiv.org/abs/2603.21532

  • ライドヘイリングにおける非排他的通知:Lyftでの単一サイクル近似アルゴリズム [cs.DS, cs.DM, cs.GT]目的:ライドヘイリングにおける最適な通知ドライバー集合の選定
    • ライドヘイリングは交通効率化に貢献する重要なサービスであり,迅速なマッチングが課題である。
    • ドライバーの応答確率が不確実なため,効率的なマッチングが困難であるという問題がある。
    • 複数のドライバーに同時に通知することで,マッチング効率の向上を目指す。
    • 「First Acceptance (FA)」メカニズム下では,単一乗客ケースでPTAS,一般マッチング設定で4倍近似アルゴリズムを開発した。
    • 「Best Acceptance (BA)」メカニズム下では,目的関数が単調かつ部分モジュールであり,$(1 - 1/e)$-近似が可能なことを示した。
    • BA問題において,需要オラクルを用いて$(1 - 1/e)$の近似率を超える可能性を示し,同質受容確率の場合には多項式時間で最適解が得られる。

    Link: https://arxiv.org/abs/2603.21533

  • 消去されたテキスト・トゥ・ビデオ拡散モデルにおける残存概念容量の診断 [cs.CV]目的:テキスト・トゥ・ビデオ拡散モデルにおける消去された概念の活性化可能性の定量化
    • 生成AIの安全性確保は重要であり,特に意図しないコンテンツ生成の抑制が求められている。
    • 既存の消去技術の評価は,出力レベルでの抑制に限定されており,モデル内部の表現の除去を検証できていない。
    • 本研究は,モデル内部に残存する概念容量を診断し,消去技術の真の効果を明らかにすることを目的とする。
    • 提案手法PROBEは,軽量な疑似トークン埋め込みを最適化し,消去された概念の活性化可能性を定量的に評価する。
    • 実験の結果,全ての消去手法が測定可能な残存容量を残しており,その頑健性は介入の深さと相関があることが示された。
    • フレームレベルの指標では捉えられない,時間経過とともに抑制された概念が再出現する「時間的再発現」という新たな失敗モードが特定された。

    Link: https://arxiv.org/abs/2603.21547

  • 部分から全体へ:適応的な構造階層を持つ3D生成ワールドモデル [cs.CV]目的:単一画像からの3D生成における,多様な意味カテゴリと構造的複雑さへの信頼性の高い一般化
    • 現実世界のビジョン・グラフィックスモデルの核心であり,実用的な応用範囲が広い。
    • 既存手法は過学習しやすく,構造要素の欠落や,新規オブジェクトレイアウトへの対応が困難である。
    • 柔軟な3D潜在空間で適応的な部分と全体の階層を学習し,汎化性能を高める。
    • 本研究では,画像トークンからソフトな合成マスクを推論することで,潜在的な構造スロットを自律的に発見する。
    • 適応的なスロットゲーティング機構により,冗長なスロットを統合し,カテゴリ間でコンパクトかつ表現力豊かな構造を維持する。
    • プロトタイプバンクを活用し,カテゴリを跨いだ形状共有とノイズ除去を実現し,3D生成の質を向上させる。

    Link: https://arxiv.org/abs/2603.21557

  • ペア親和性学習による弱学習ビデオシーングラフ生成の再検討 [cs.CV]目的:弱学習ビデオシーングラフ生成におけるペア親和性の学習と活用
    • ビデオ理解において,シーングラフはビデオコンテンツの構造化された表現であり,高精度な理解に不可欠である。
    • 弱学習設定では,正確なバウンディングボックスなしにシーングラフを生成するため,ノイズの影響を受けやすい。
    • 関係性モデリングの精度向上を目指し,非インタラクティブなペアの抑制と意味のあるペアへの集中を実現する。
    • 提案手法PALSは,推論時のランキングにペア親和性を組み込み,文脈推論に活用することで,関係モデルの性能を向上させる。
    • Relation-Aware Matching (RAM) により,疑似ラベル生成時のクラスレベルの曖昧さを解消し,ペア親和性学習のためのクリーンな教師信号を提供する。
    • Action Genomeデータセットでの実験により,提案手法が既存手法を大幅に上回り,最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2603.21559

  • 教師なし連続異常検知のためのマルチモーダルプロンプト探索 [cs.CV]目的:異常の検知
    • 異常検知は,製造,セキュリティ,医療など,幅広い分野で重要な役割を果たす。
    • 従来の異常検知は,過去の情報を忘却したり,計算コストが高いという課題があった。
    • 本研究は,視覚情報とテキスト情報を組み合わせることで,より高精度な異常検知を目指す。
    • マルチモーダルプロンプトを用いた連続異常検知フレームワークを提案した。
    • 連続マルチモーダルプロンプトメモリーバンク(CMPMB)により,正常パターンの表現を豊かにした。
    • 欠陥・意味誘導型適応融合メカニズム(DSG-AFM)が,検出精度と敵対的頑健性を向上させた。

    Link: https://arxiv.org/abs/2603.21562

  • SAR ATRの再考:標的を意識した周波数・空間的強調フレームワークとノイズ耐性知識誘導 [cs.CV, cs.AI]目的:SAR画像における自動標的認識の精度向上
    • SAR ATRは,海洋航行や災害監視において不可欠な技術であり,その重要性は高い。
    • SAR画像特有のコヒーレントスペックルノイズが標的の特徴を覆い隠し,認識精度と汎化性能を低下させる。
    • ノイズ環境下における標的認識の安定性を高め,高精度かつ軽量なモデルを実現することを目指す。
    • 提案手法FSCEは,周波数・空間的特徴の適応的強調モジュールDSAFと,教師あり知識蒸留による標的領域への集中を組み合わせる。
    • DSAFNet-Lは,MSTAR,FUSARShip,OpenSARShipの各データセットで既存手法と同等以上の性能を達成した。
    • DSAFNet-Mは,精度を維持しつつモデルの複雑さを大幅に削減し,高い汎化性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.21565

  • 白内障手術用ドメイン適応モデルCataractSAM-2:セグメンテーションとスケーラブルな正解アノテーション [cs.CV, cs.AI, cs.DB, cs.LG, cs.RO]目的:白内障手術動画の高精度なセマンティックセグメンテーション
    • ロボット支援手術の精度向上に不可欠であり,術中認識の自動化が求められている。
    • 高品質なアノテーションデータの作成には多大な時間と労力がかかる。
    • アノテーション作業の負担を軽減し,効率的なデータセット開発を目指す。
    • CataractSAM-2は,Meta社のSegment Anything Model 2を拡張し,白内障手術動画のセグメンテーションにおいて高い精度を達成した。
    • スパースプロンプトと動画ベースのマスク伝播を組み合わせたインタラクティブなアノテーションフレームワークにより,アノテーション時間を大幅に削減した。
    • 緑内障手術へのゼロショット汎化能力も示され,幅広い手術への応用可能性が確認された。

    Link: https://arxiv.org/abs/2603.21566

  • 視覚的プライバシーの再考:VLMを用いた重大度評価のための構成的プライバシーリスクフレームワーク [cs.CL, cs.CV]目的:構成的なプライバシーリスクの評価フレームワーク
    • 画像処理技術の発展に伴い,プライバシー侵害のリスクが増大しているため,厳密な評価が不可欠である。
    • 従来のプライバシー評価は二者択一的であり,属性の組み合わせによる複合的なリスクを捉えきれていない。
    • 視覚的属性の組み合わせによるプライバシー侵害リスクを定量的に評価し,VLMの性能向上に貢献すること。
    • 本研究では,プライバシーリスクを構成的に捉えるためのフレームワーク「CPRT」を提案し,プライバシー侵害の重大度を段階的に評価するスコアリング関数を定義した。
    • 大規模言語モデル(VLM)の評価により,高性能モデルは構造化されたガイダンスによりリスクを適切に評価する一方,中小規模モデルは段階的なプライバシー判断に苦慮することが示された。
    • この課題に対処するため,8Bパラメータのファインチューニングモデルを開発し,高性能モデルと同等の性能を実現した。

    Link: https://arxiv.org/abs/2603.21573

  • ハードネスを考慮したカリキュラム擬似ラベル法による半教師あり回転回帰 [cs.RO, cs.SY, eess.SY, cs.IR, cs.CV]目的:2D画像からの3次元物体回転回帰
    • 自動運転,VR,ロボット制御など広範な応用分野を持つ重要な研究課題である。
    • 既存手法は大量のラベル付きデータや,2D画像以外の追加情報に依存する傾向がある。
    • 少ないラベル付き2D画像のみを用いた半教師あり回転回帰による課題解決を目指す。
    • 提案手法は,難易度に基づいた動的な擬似ラベル選択により,信頼性の低いサンプルを効果的に排除する。
    • マルチステージおよび適応型カリキュラム戦略により,固定閾値フィルタリングの柔軟性を向上させている。
    • PASCAL3D+とObjectNet3Dでの実験結果から,特に低データ環境下で既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2603.21583

  • SSAM:マルチモーダル大規模言語モデルの統合のための特異部分空間アライメント [cs.LG, cs.CV]目的:マルチモーダル大規模言語モデルの統合手法
    • マルチモーダル学習は,様々な情報源を統合し,より高度なAIの実現に不可欠である。
    • 既存モデルの統合は,表現の差異やパラメータ干渉により困難であった。
    • 学習不要で,既存モデルの知識を活かしつつパラメータ干渉を最小化する。
    • SSAMは,学習データなしで最先端の性能を4つのデータセットで達成した。
    • 従来の学習不要統合手法や,同時学習マルチモーダルモデルを上回る性能を示した。
    • パラメータ空間でのアライメントが,効率的なマルチモーダル学習の代替手段となる。

    Link: https://arxiv.org/abs/2603.21584

  • 多岐にわたるAIエージェントによる多角的認知症特性評価とリスクアセスメント [cs.AI, cs.CV]目的:認知症の特性評価とリスクアセスメントのための多角的AIシステムの開発
    • 患者データは多様かつ不完全になりがちであり,正確な診断と治療には高度な解析が不可欠である。
    • 既存のAIモデルは静的で不透明であり,実際の臨床現場での運用に課題がある。
    • 臨床医の意思決定を支援する,解釈可能で堅牢なAIシステムの実現を目指す。
    • Cerebraは,電子カルテ,臨床記録,画像解析を連携させ,認知症リスク予測において最先端モデルを上回る性能を示した。
    • 認知症診断ではAUROC 0.86,生存予測ではC-index 0.81を達成し,高い精度を実証した。
    • 熟練した医師による評価実験では,Cerebraの導入により認知症リスク推定の精度が17.5%向上した。

    Link: https://arxiv.org/abs/2603.21597

  • 構造を意識した大規模3Dフラグメント再構成 [cs.CV]目的:3Dフラグメント再構成における,フラグメントの剛体ポーズ推定と形状再構築
    • 複雑な形状の3Dモデル作成において,フラグメントの再構成は不可欠な技術である。
    • フラグメント数が増加すると,対象形状が不明瞭になり,意味的情報が不足し,再構成が困難になる。
    • 信頼性の低い接触推論によるカスケード故障を防ぎ,大規模な再構成における成功率向上を目指す。
    • 提案手法SAReは,生成モデルSARe-Genと推論時微調整SARe-Refineから構成され,明示的な接触モデリングを行う。
    • SARe-Genは,破面トークン確率とフラグメント間接触グラフを予測し,接触領域を特定し,候補となる隣接関係を推論する。
    • SARe-Refineは,幾何学的整合性チェックを用いて信頼性の高い部分構造を選択し,残りの不確実な領域を再サンプリングすることで,安定した再構成を実現する。

    Link: https://arxiv.org/abs/2603.21611

  • AdaEdit:フローベース画像編集のための適応的時系列・チャネル変調 [cs.CV]目的:フローマッチングモデルにおける画像編集手法の改良
    • 画像編集技術は,創造的な表現や実用的な画像加工において重要な役割を担う。
    • 従来の画像編集手法は,背景の保持と編集内容の合成のバランスが難しく,不自然な結果になる場合がある。
    • 本研究は,時系列とチャネルを適応的に調整することで,より自然で高品質な画像編集を実現する。
    • AdaEditは,段階的な注入スケジュールとチャネル選択的潜在的摂動を導入することで,注入のジレンマを解決する。
    • PIE-Benchベンチマークにおいて,AdaEditは既存手法と比較してLPIPSを8.7%削減,SSIMを2.6%向上,PSNRを2.3%向上させた。
    • AdaEditは,Euler,RF-Solver,FireFlowを含む複数のODEソルバーと互換性があり,プラグアンドプレイで利用可能である。

    Link: https://arxiv.org/abs/2603.21615

  • 単一眼動画からの動的対象物の360度ガウス再構成:4DGS360 [cs.CG, cs.CV]目的:単一眼動画からの360度動的対象物再構成
    • 3D再構成技術は,ロボティクスやAR/VRなど幅広い分野で応用が期待されている。
    • 既存手法は,2D情報への依存が強く,隠蔽領域の再構成に課題があった。
    • 隠蔽領域の幾何学的曖昧さを軽減し,一貫性のある360度再構成を実現すること。
    • 提案手法4DGS360は,3D情報を活用した初期化により,隠蔽領域の再構成精度を向上させた。
    • AnchorTAP3Dトラッカーは,信頼性の高い2D追跡点を利用し,安定した3D点軌跡を生成する。
    • 新ベンチマークiPhone360を用いた評価で,既存手法を上回る性能を実証した。

    Link: https://arxiv.org/abs/2603.21618

  • 効率的なゼロショットAI生成画像検出 [cs.CV, cs.AI]目的:AI生成画像の検出
    • AI技術の進歩により,生成画像の精緻化が進み,真偽判定の重要性が増している。
    • 既存手法では,未知の画像への汎化性能が低いか,微細な差異の検出が困難である。
    • 構造化された周波数摂動に対する表現の感度を用いて,微細な操作を検出し,高精度な検出を目指す。
    • 提案手法は,従来の訓練不要型検出器と比較して,1~2桁高速な推論が可能である。
    • OpenFakeベンチマークにおいて,最先端手法をほぼ10%上回るAUCを達成した。
    • 計算コストを大幅に抑えつつ,高い検出性能を両立している。

    Link: https://arxiv.org/abs/2603.21619

  • PGR-Net:脳腫瘍MRIセグメンテーションのための事前知識誘導ROI推論ネットワーク [cs.HC, cs.CV]目的:脳腫瘍MRIセグメンテーションにおける精度向上
    • 臨床診断や治療計画において,正確な脳腫瘍の検出と放射線治療の標的範囲決定が不可欠である。
    • 腫瘍領域はMRI画像中で占める割合が小さく,空間的な疎稀性が課題となっている。
    • 臨床的に観察される腫瘍発生の空間的な事前知識を組み込み,効率的なセグメンテーションを実現する。
    • PGR-Netは,データ駆動型の空間的事前知識を用いて,腫瘍領域の分布と規模を捉え,セグメンテーションの安定性を向上させる。
    • 階層的なTop-K ROI決定メカニズムにより,エンコーダー層間で最も信頼性の高い候補領域を選択し,局在化精度を高める。
    • BraTS-2019/2023およびMSD Task01において,既存手法を上回り,Whole Tumor領域で89.02%,91.82%,89.67%のDiceスコアを達成した。

    Link: https://arxiv.org/abs/2603.21626

  • マルチオブジェクトトラッキングのための二重適応:経験と直感からのテスト時キャリブレーションの構築 [cs.CV]目的:マルチオブジェクトトラッキングにおけるテスト時の性能低下緩和
    • コンピュータビジョン分野の基礎課題であり,様々な実世界アプリケーションで重要。
    • 学習データとテストデータ間の分布のずれにより,オンライン推論時の性能が低下する。
    • 経験と直感に基づいたテスト時キャリブレーションにより,分布のずれへの適応を目指す。
    • 提案手法TCEIは,一時記憶と過去の経験を活用することで,迅速かつ正確な予測を実現する。
    • 自信のあるオブジェクトと不確かなオブジェクトを過去の情報や反省事例として活用し,テスト環境への適応を促進する。
    • 複数のベンチマークデータセットにおいて,既存手法を上回る優れた性能と高い適応性を示す。

    Link: https://arxiv.org/abs/2603.21629