arXiv雑要約

画像・音声 - 2026/03/27 公開

C2W-Tune：3D遅延ガドリニウム強調MRIにおける薄型心房壁セグメンテーションのためのキャビティ-壁転移学習 [cs.CV]目的：3D遅延ガドリニウム強調MRIにおける心房壁の正確なセグメンテーション
- 心不全などの心疾患診断・治療において，心房の構造的評価が重要である。
- 心房壁は薄く，解剖学的に複雑であり，コントラストが低いことから，正確なセグメンテーションが困難である。
- 解剖学的知識に基づく転移学習により，薄型心房壁のセグメンテーション精度向上を目指す。
- 提案手法C2W-Tuneは，高精度な心房内腔モデルを事前知識として利用することで，壁のセグメンテーション精度を大幅に向上させた。
- 壁のDice係数は0.623から0.814に，1mmでのSurface Dice係数は0.553から0.731に改善された。
- 境界誤差も大幅に減少し，HD95は2.95mmから2.55mm，ASSDは0.71mmから0.63mmに減少した。
Link: https://arxiv.org/abs/2603.24992
レイベースのグルーピングによる緩和された剛性を用いた動的ガウススプラッティング [cs.HC, cs.CV]目的：動的3Dシーンの再構成におけるガウススプラッティングの運動モデルの改善
- 3Dガウススプラッティングは動的3Dシーン再構成において有望な手法であるため，その性能向上は重要である。
- 既存手法では，ガウスの運動が現実世界の物理法則と一致せず，再構成品質が低下する問題が存在する。
- 本研究は，ガウスの局所幾何構造を時間的に保持し，外部からの誘導に依存しない運動モデルを構築することを目的とする。
- 提案手法では，同一レイに交差するガウスをグループ化し，グループ内の空間分布の一貫性を維持することで，物理的に妥当な運動を実現した。
- 複数のベースラインモデルに統合し，困難な単眼動画データセットで実験を行った結果，既存手法を大きく上回る優れた時間的一貫性と再構成品質を達成した。
- 外部の事前知識に依存することなく，局所的な幾何構造を維持することで，より自然な動的シーンの再構成が可能となった。
Link: https://arxiv.org/abs/2603.24994
緊急車両通過のための分散リアルタイム車両制御：スケーラブルな協調的手法 [cs.CV]目的：緊急車両の迅速な通過のための分散型車両制御手法
- 緊急車両の迅速な移動は人命救助や被害軽減に不可欠であり，社会的な重要性が高い。
- 従来の集中型手法は計算コストが高く，大規模な交通状況への適用が困難であった。
- 本研究は，計算コストとスケーラビリティの問題を解決し，より実用的な車両制御を実現する。
- 提案手法は，グローバル情報を用いずにローカル情報のみで制御を行うことで，計算コストを大幅に削減した。
- シミュレーション実験の結果，提案手法は既存手法と比較して，より迅速な意思決定と，一般車両への影響の軽減を実現した。
- 提案手法は，交通密度や道路構成の変化に対する高いスケーラビリティを実証し，安全性を保証する分散型衝突解決メカニズムを備えている。
Link: https://arxiv.org/abs/2603.25000
クエリ駆動型シーングラフによる解釈可能なゼロショット参照表現理解 [cs.CV, cs.MM]目的：ゼロショット参照表現理解における性能向上
- 画像と自然言語を結びつける技術は，画像検索やロボット制御など，幅広い応用が期待されている。
- 既存手法は，詳細な視覚情報や複雑なオブジェクト間の関係性を捉えるのが難しいという課題があった。
- クエリ駆動型シーングラフを用いて，視覚情報と高水準のセマンティック理解の間のギャップを埋めることを目指す。
- 提案手法SGRECは，RefCOCO valで66.78%と，既存のゼロショット参照表現理解ベンチマークにおいて高いTop-1精度を達成した。
- シーングラフを介することで，LLMが低レベルの画像領域から高水準のセマンティック理解へと効果的に移行できることが示された。
- 推論過程の説明を生成することで，解釈可能性を確保し，モデルの意思決定の透明性を高めている。
Link: https://arxiv.org/abs/2603.25004
角度・コンパクト性二重損失学習による水稲葉病害の微細な検出改善 [cs.CV, cs.AI]目的：水稲葉病害の微細な分類性能向上
- 食糧確保のため，水稲の安定生産が重要であり，病害の早期発見が不可欠である。
- 既存の深層学習モデルは，葉病害データセット特有のクラス内分散の高さやクラス間類似性に対応が難しい。
- 角度マージンと中心制約を導入し，特徴埋め込みの識別力を高めることで，微細な分類を改善する。
- 提案手法は，InceptionNetV3，DenseNet201，EfficientNetB0の各アーキテクチャで高い精度を達成した。
- 具体的には，それぞれ99.6%，99.2%，99.2%の精度を記録し，有意な性能向上が確認された。
- 本フレームワークは，大規模なアーキテクチャ変更を必要とせず，実環境での導入が容易である。
Link: https://arxiv.org/abs/2603.25006
Few TensoRF：テンソル放射場におけるFew-shotの性能向上 [cs.CV, cs.AI]目的：3次元再構成のフレームワーク
- 3次元シーンの再構成は，仮想現実やロボティクス等，幅広い分野で重要である。
- 少ない入力画像からの高品質な3次元再構成は依然として課題である。
- 少数ショット学習による効率的な3次元再構成手法を開発すること。
- Few TensoRFは，TensorRFの効率的なテンソルベース表現とFreeNeRFの周波数駆動型Few-shot正則化を組み合わせることで，高速なレンダリングを実現した。
- Synthesis NeRFベンチマークにおいて，平均PSNRを21.45dB（TensorRF）から23.70dBへと向上させ，微調整版では24.52dBを達成した。
- THuman 2.0データセットでも競争力のある性能を示し，わずか8枚の入力画像で27.37～34.00dBを達成した。
Link: https://arxiv.org/abs/2603.25008
GDPO-Listener：自己回帰フローマッチングとグループ報酬分離型方策最適化による表現豊かなインタラクティブヘッド生成 [cs.CV]目的：双方向インタラクションにおけるリアルな3Dヘッドモーション生成
- 仮想人間合成において，自然な対話を実現するには，リアルなヘッドモーションが不可欠である。
- 既存手法では，聞き手のモーションが平均化し，静的な顔になりやすいという課題があった。
- 表現豊かなモーション生成を促し，聞き手の動きの多様性を向上させることを目指す。
- 提案手法GDPO-Listenerは，自己回帰フローマッチングとグループ報酬分離型方策最適化により，安定した学習と表現力豊かなモーション生成を可能にした。
- 実験結果から，GDPO-Listenerは既存手法と比較して，長期間の運動学的分散，視覚的な表現力，意味的制御性において優れた性能を示した。
- 明示的な意味的テキスト制御により，カスタマイズ可能な応答生成が可能となった。
Link: https://arxiv.org/abs/2603.25020
VideoTIR：効率的なツール統合推論による長尺動画の正確な理解 [cs.CV]目的：長尺動画理解における幻覚の抑制と効率化
- 動画理解は，映像コンテンツの活用に不可欠であり，多様な応用が期待される。
- 既存のマルチモーダルLLMは長尺動画において幻覚を起こしやすく，正確な理解が困難である。
- 本研究は，強化学習とツール統合により，LLMの長尺動画理解の精度と効率を向上させる。
- 提案手法VideoTIRは，強化学習を用いて多階層ツールキットの適切な利用を促し，長尺動画の理解精度を高める。
- Toolkit Action Grouped Policy Optimization(TAGPO)により，冗長なツール呼び出しを抑制し，効率的な処理を実現する。
- 実験結果から，VideoTIRが3つの長尺動画QAベンチマークにおいて有効性と効率性を示すことが確認された。
Link: https://arxiv.org/abs/2603.25021
医療画像に対する二重潜在空間によるトレーニング不要な制御可能な復元 [cs.CV]目的：医療画像のノイズ除去，不完全性への対処，およびアーチファクトの修正
- 臨床診断の精度向上に不可欠であり，医療現場での画像利用を促進する。
- 既存手法は再学習が必要な場合が多く，忠実な再構成と事前知識に基づく強調のバランスが課題。
- 追加学習なしで，信頼性と強調のバランスを取り，安全かつ制御可能な復元を実現。
- CAREは，データ忠実性と解剖学的整合性を重視する一方，生成モデルを用いて欠損情報を補完する。
- リスクを考慮した適応コントローラーにより，復元不確実性に応じて各ブランチの貢献度を調整。
- ノイズや欠損のある医療画像に対し，臨床的に重要な構造を保持しつつ，質の高い復元を達成。
Link: https://arxiv.org/abs/2603.25026
惑星規模の地球観測のためのクエリ可能なニューラルデータキューブ GeoNDC [cs.CV, physics.geo-ph]目的：惑星規模の地球観測データの効率的なクエリ，再構成，圧縮
- 地球環境変化のモニタリングには，膨大な時空間データが不可欠である。
- 既存のデータはラスタ形式で保存され，ストレージ，伝送，クエリにコストがかかる。
- この研究は，大規模データの取り扱いと分析の効率化を目指す。
- GeoNDCは，地球観測データを連続的な時空間暗黙的ニューラルフィールドとしてエンコードする。
- これにより，完全な展開なしに，オンデマンドクエリと連続時間再構成が可能となる。
- 20年間のMODISデータは，0.44GBに圧縮され，約95:1の圧縮率を達成した。
Link: https://arxiv.org/abs/2603.25037
Intern-S1-Pro：トリリオン規模の科学的マルチモーダル基盤モデル [cs.RO, cs.LG, cs.CL, cs.CV]目的：トリリオン規模の科学的マルチモーダル基盤モデルの構築
- 科学技術の進歩には，高度なデータ解析と知識統合が不可欠である。
- 既存モデルでは，科学分野の専門知識と汎用的な推論能力を両立することが困難であった。
- 科学分野における高度なタスクを解決できる専門知識を備えた汎用モデルを開発する。
- Intern-S1-Proは，1兆パラメータという前例のない規模で，汎用性と科学的専門性を大幅に向上させた。
- 化学，材料科学，生命科学，地球科学など，100以上の専門分野で高い性能を示した。
- XTunerとLMDeployのインフラにより，効率的な強化学習と厳密な精度の一貫性が実現された。
Link: https://arxiv.org/abs/2603.25040
MoRGS：ストリーマブルな動的3Dシーンのための効率的なパーガウシアンモーション推論 [cs.CV]目的：動的3Dシーンにおけるパーガウシアンモーションの効率的な推論
- 動的シーンのオンライン再構成は，低遅延での学習とリアルタイムレンダリングが求められる。
- 既存手法では，真のシーンダイナミクスを反映したパーガウシアンモーションの学習が困難である。
- 軽量なモーションキューを用いて，パーガウシアンモーションを明示的にモデル化し，再構成品質を向上させる。
- MoRGSは，疎なキービューの光学的フローを活用し，パーガウシアンモーションを正則化する。
- パーガウシアンモーションオフセットフィールドを学習することで，3Dモーションと観測されたフローのずれを解消する。
- パーガウシアンモーション確信度を導入し，動的/静的ガウシアンを分離し，時間的一貫性を向上させる。
Link: https://arxiv.org/abs/2603.25042
GaussFusion：幾何情報に基づく動画生成による，実環境における3D再構成の改善 [cs.CV]目的：実環境における3D Gaussian splatting再構成の改善
- 3D再構成は，ロボティクスやAR/VRなど幅広い分野で不可欠な技術である。
- 従来の3DGSは，カメラ姿勢誤差や初期化のノイズにより，浮遊物やちらつきといった問題が生じやすい。
- 本研究は，幾何情報に基づいた動画生成によって，これらの再構成における課題を解決することを目指す。
- GaussFusionは，既存の3DGS再構成を改善し，より高品質な3Dモデルを生成する。
- 深度，法線，不透明度，共分散をエンコードしたGaussian primitive動画バッファを洗練させ，時間的に一貫性のある画像を生成する。
- ノベルビュー合成ベンチマークで最先端の性能を達成し，効率的な変種は21FPSでリアルタイム動作する。
Link: https://arxiv.org/abs/2603.25053
相乗効果のあるイベント-SVEイメージングによる推進剤燃焼の定量診断 [cs.CV]目的：高エネルギー推進剤燃焼の定量診断手法
- 推進剤燃焼の理解は，ロケットやミサイルの性能向上に不可欠である。
- 従来のイメージングでは，高ダイナミックレンジや微秒スケールの粒子運動，煙の影響で計測が困難である。
- 煙に妨げられた高ダイナミックレンジ環境下での，微秒分解能の3次元燃焼計測を可能にすること。
- SVEカメラとイベントカメラを組み合わせたシステムにより，煙の影響を考慮したHDRマップを作成した。
- イベントカメラのアーティファクトを抑制し，粒子状態の識別精度を向上させた。
- ホウ素系推進剤を用いた実験で，マルチモーダルな等価半径統計と高速な分離遷移を捉えた。
Link: https://arxiv.org/abs/2603.25054
単眼動画からの動的ガウススプラインの明示的な連続運動表現学習 [eess.SY, cs.SY, cs.CV]目的：動的ガウススプラインの明示的な連続運動表現
- 3次元シーンの表現において，動的なシーンを高品質に再現することが重要である。
- 既存手法では，複雑な動きを正確にモデル化することが難しく，長時間のモーション干渉が課題である。
- 単眼動画から高品質な動的ガウススプラインを生成し，複雑な動きをより正確に表現することを目指す。
- 本研究では，SE(3) Bスプラインモーションベースを用いて，動的ガウスの連続的な位置と姿勢の変形を明示的にモデル化する手法を提案した。
- 適応的な制御機構を導入することで，計算効率を向上させながら複雑な動きのモデル化能力を高めた。
- ソフトセグメント再構成戦略と多視点拡散モデルにより，過学習を抑制し，新規視点合成において最先端手法を上回る性能を達成した。
Link: https://arxiv.org/abs/2603.25058
TopoPilot：トポロジーデータ解析と可視化のための信頼性の高い会話型ワークフロー自動化 [cs.HC, cs.AI, cs.GR, cs.LG]目的：トポロジーデータ解析と可視化における複雑な科学的可視化ワークフローの自動化
- 科学的可視化は，データ理解を深め，新たな発見を促進する上で不可欠である。
- 既存の自動化システムは，誤操作や情報の欠落により，信頼性に課題がある。
- ワークフローの信頼性を高め，複雑な要求にも安定して対応できるシステムを構築する。
- TopoPilotは，オーケストレーターとバリデーターという二つのエージェントから構成される。
- バリデーターは，実行前にワークフローの構造的妥当性と意味的一貫性を検証することで信頼性を確保する。
- 1,000回のマルチターン会話シミュレーションにおいて，TopoPilotは99%以上の成功率を達成し，既存手法の50%を下回る結果と比較して，大幅な改善を示す。
Link: https://arxiv.org/abs/2603.25063
GIFT：効率的な動画理解のためのグローバルな不可欠フレームターゲット [cs.CV]目的：動画理解における計算コスト削減のためのフレーム選択手法
- 動画理解はAI分野で重要性が増しているが，動画データの処理には膨大な計算資源が必要となる。
- 既存のキーフレーム選択手法は，局所最適解に陥りやすく，無関係なフレームを選択してしまうという問題がある。
- GIFTはフレームの不可欠性を評価することで，より効率的なフレーム選択を実現し，動画理解の性能向上を目指す。
- GIFTは，関連性と多様性を考慮した「指向性多様性」を導入し，フレームの独自性を定量化することで，統一された不可欠性スコアを算出する。
- 「予算を考慮した洗練」戦略により，不可欠性の高いフレームを優先的に選択し，その周囲に重要な時間的コンテキストを構築する。
- LLaVA-Video-7Bを用いた実験により，GIFTが既存手法と比較して最大12.5%の平均的な性能向上を達成することが示された。
Link: https://arxiv.org/abs/2603.25072
Z-Erase：単一ストリーム拡散Transformerにおける概念削除の実現 [cs.CV]目的：単一ストリーム拡散Transformerにおける概念削除手法
- 画像生成AIの安全性確保は重要であり，不要な概念の削除が不可欠である。
- 単一ストリーム拡散Transformerでは，既存の削除手法が生成崩壊を引き起こす。
- 単一ストリームモデルにおける生成崩壊問題を解決し，概念削除の性能向上を目指す。
- Z-Eraseは，単一ストリーム拡散Transformer向けの最初の概念削除手法である。
- Stream Disentangled Concept Erasure Frameworkにより，生成の安定化と既存手法の適用を実現した。
- Lagrangian-Guided Adaptive Erasure Modulationにより，削除と保存のバランスを最適化した。
Link: https://arxiv.org/abs/2603.25074
知覚と推論の架け橋：マルチモーダルLLMにおけるRLVRのためのトークン再重み付け [cs.CV]目的：マルチモーダル大規模言語モデルにおけるRLVRのためのトークン再重み付け戦略
- マルチモーダルLLMは，画像とテキストを統合した高度な推論能力が期待される。
- 視覚的情報を扱うトークンと推論を行うトークンが混在し，個別に最適化することが困難。
- 両方のトークンタイプの相互依存性を考慮した，効果的な最適化手法を確立する。
- 提案手法ToRは，既存手法（GRPO，DAPOなど）に組み込み可能であり，性能向上を実現した。
- 視覚的情報の正確な認識と，一貫性のある推論の両方を達成し，最先端の性能を確立した。
- トークンレベルでの分析により，両方のトークンタイプの重要性が確認された。
Link: https://arxiv.org/abs/2603.25077
分布外汎化のためのチャネルレベル疎性化によるドメイン不変特徴の学習 [cs.CV, cs.AI]目的：分布外汎化性能の向上
- 画像解析システムの性能評価において，分布外汎化能力は重要な指標である。
- 深層学習モデルはドメイン固有の情報に依存しやすく，汎化性能を阻害する。
- 因果的特徴と不要な特徴を分離し，モデルの表現力を高めることを目指す。
- 提案手法Hierarchical Causal Dropout (HCD)は，チャネルレベルの疎性化により，因果的特徴と非因果的特徴を分離する。
- MMI目的関数とStyleMix-driven VICRegモジュールにより，ドメインラベルとの相互情報を最小化し，クラスラベルとの情報を最大化する。
- 実験結果から，HCDは既存手法と比較して優れた分布外汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.25083
視線は彷徨うが，錨は保持される：クロスレイヤー視覚的アンカーによるマルチモーダル大規模言語モデルの幻覚軽減 [cs.CV]目的：マルチモーダル大規模言語モデルにおける物体幻覚の軽減
- 画像とテキストを統合するモデルの性能向上は，様々な応用分野において重要である。
- 既存の手法では，モデルの最終段階における注意のずれに関する解釈性が不足している。
- 初期層の視覚的ノイズへの回帰から生じる幻覚を抑制し，出力の信頼性を高める。
- 本研究では，視覚的特徴量の層ごとの進化を分析し，幻覚が深層の注意が初期層のノイズに回帰することから生じることを示した。
- 提案手法CLVAは，重要な中間層の特徴を強化し，回帰的ノイズを抑制することで，深層の注意を正しい視覚領域に引き戻す。
- 多様なアーキテクチャとベンチマークにおいて，計算時間やGPUメモリの大幅な増加なしに，優れた性能が確認された。
Link: https://arxiv.org/abs/2603.25088
THEMIS：科学論文不正検知のためのMLLMの包括的評価に向けて [cs.CV]目的：科学論文における視覚的不正推論の包括的評価
- 学術界における不正行為は研究の信頼性を損ない，社会に悪影響を及ぼすため，その検知は重要である。
- 既存のベンチマークは現実世界の学術不正の複雑さを十分に捉えきれていない。
- 現実の不正事例に基づき，高度な視覚的推論能力を必要とする評価基準を構築し，MLLMの性能向上を目指す。
- THEMISは，7つのシナリオ，4,000以上の質問を含む新しいマルチタスクベンチマークである。
- 16の最先端MLLMの実験の結果，最高性能モデル(GPT-5)でも全体の性能は56.15%にとどまった。
- THEMISは，視覚的不正推論におけるMLLMの強みと弱みを明らかにする評価を可能にする。
Link: https://arxiv.org/abs/2603.25089
ピクセルは：ピクセルを用いた推論，知覚から行動へ [cs.CV, cs.AI]目的：ピクセル空間におけるエージェントの学習
- 視覚と言語を組み合わせたAIの発展は，現実世界とのインタラクションにおいて重要である。
- 既存のシステムは静的な観察者であり，行動や環境変化への適応が限定的である。
- ピクセル単位での操作を通じて，環境に適応可能なAIエージェントを開発すること。
- Pixelisは，画像や動画に対して直接操作を行うことで，汎化性能の高い視覚的知能を実現した。
- 学習は，教師ありファインチューニング，好奇心と一貫性を重視した報酬ファインチューニング，テスト時の強化学習の3段階で行われる。
- 6つのベンチマークにおいて，既存のモデルと比較して平均+4.08%の性能向上を達成し，短い実行可能なツールチェーンを生成した。
Link: https://arxiv.org/abs/2603.25091
重要度と難易度を考慮したマルチモーダル能動学習 [cs.CL, cs.CV]目的：マルチモーダル能動学習におけるモダリティのバランスと難易度への対応
- 画像，テキスト，音声など多様な情報を統合することで，モデル性能向上に不可欠な研究分野である。
- 大規模なラベル付きデータが必要だが，ラベル付けコストが高く，効率的な学習方法が課題となっている。
- モダリティの重要度変化とインスタンスの難易度を考慮し，効率的なデータ選択を実現する。
- 提案手法RL-MBAは，モダリティの貢献度，不確実性，多様性を考慮した強化学習フレームワークである。
- モダリティの重みを動的に調整するAMCBと，難易度を推定して優先順位をつけるEFDAが適応性を高める。
- Food101, KineticsSound, VGGSoundの実験で，既存手法を上回り，精度とモダリティの公平性を改善した。
Link: https://arxiv.org/abs/2603.25107
MSRL：多段階強化学習による生成マルチモーダル報酬モデリングのスケール拡大 [cs.CV]目的：生成マルチモーダル報酬モデリングのスケール拡大
- マルチモーダルな理解と生成AIの発展には，高品質な報酬モデルが不可欠である。
- マルチモーダルな選好データは収集コストが高く，モデルのスケールアップが困難である。
- 限られたマルチモーダルデータで効率的に報酬モデルを学習し，スケールアップを実現すること。
- MSRLは，大規模なテキスト選好データから汎化可能な報酬推論能力を獲得する。
- 獲得した能力を，キャプションベースおよび完全なマルチモーダル強化学習の段階を通じて転移する。
- VL-RewardBenchとGenAI-Benchにおいて，パフォーマンスが大幅に向上した (それぞれ66.6%→75.9%, 70.2%→75.7%)。
Link: https://arxiv.org/abs/2603.25108
MoireMix：画像分類のロバスト性を向上させるための数式に基づくデータ拡張 [cs.CV, cs.AI]目的：画像分類モデルのロバスト性向上
- 画像認識の性能は，データ量と多様性に大きく依存する。
- 既存のデータ拡張手法は計算コストが高いか，外部データが必要となる場合がある。
- 計算コストを抑え，外部データを用いずにロバスト性を向上させる手法を提案する。
- 提案手法MoireMixは，モアレ干渉を利用した軽量なデータ拡張を実現する。
- MoireMixはImageNet-C，ImageNet-R等のベンチマークで既存手法を上回るロバスト性を示す。
- 数式に基づいた干渉パターンは，データ駆動型生成手法への効率的な代替案となる。
Link: https://arxiv.org/abs/2603.25109
AnyDoc：大規模HTML/CSSデータ合成と高さ認識強化学習によるドキュメント生成の強化 [cs.CV]目的：ドキュメント生成のためのフレームワークAnyDoc
- AIによるコンテンツ作成の重要性が高まり，多様なドキュメントを自動生成する技術が求められている。
- 既存のドキュメントデータセットは規模と種類が限られており，汎用的なドキュメント生成を妨げていた。
- 大規模データセットと高度な学習技術を用いて，高品質なドキュメント生成を実現することを目指す。
- AnyDocは，HTML/CSS形式で表現された111種類のカテゴリ，32種類のスタイルのドキュメントを網羅する大規模データセットDocHTMLを構築した。
- マルチモーダル大規模言語モデル（MLLM）をファインチューニングすることで，意図からドキュメントへの生成，ドキュメントの再レンダリング，要素からドキュメントへの生成という3つのタスクを達成した。
- 高さ認識強化学習（HARL）を導入することで，コンテンツのオーバーフロー問題を軽減し，全体的な性能を向上させた。
Link: https://arxiv.org/abs/2603.25118
AirSplat：ロバストな3Dガウススプラッティングのためのアライメントと評価 [cs.CV]目的：汎用的な新規視点合成のための3Dビジョン基盤モデルの活用
- 3Dビジョンは，ロボット工学やAR/VRなど様々な分野で重要であり，その応用範囲は広い。
- 既存の3Dビジョン基盤モデルを汎用的な新規視点合成に直接適用するには課題が多い。
- 3Dビジョン基盤モデルの幾何学的知識を活用し，高品質な新規視点合成を実現する。
- 提案手法AirSplatは，最先端の姿勢フリー新規視点合成手法を大幅に上回る再構成品質を達成した。
- 自己整合的姿勢アライメント(SCPA)により，姿勢と幾何学の不一致を解消し，ピクセルレベルでの教師あり学習を可能にした。
- 評価に基づく不透明度マッチング(ROM)により，劣化したプリミティブをフィルタリングし，合成品質を向上させた。
Link: https://arxiv.org/abs/2603.25129
ノイズ除去とアラインメント：ロバストなパノラマセマンティックセグメンテーションのためのソースフリーUDA [cs.CV]目的：パノラマセマンティックセグメンテーションのロバスト性を向上させるための手法
- パノラマ画像は，自動運転やVRなど，360度シーン理解に不可欠な技術である。
- パノラマ画像の幾何学的歪みと，高コストなアノテーションが課題となっている。
- ソースデータが利用できない状況下で，ドメイン適応による性能低下を克服すること。
- 提案手法DAPASSは，ノイズ除去とアラインメントにより，ソースフリーUDAにおける知識転移をロバストに行う。
- PCGDモジュールにより，高精度かつクラスバランスの取れた疑似ラベルを生成する。
- CRAMモジュールにより，スケール変化や歪みに対応し，詳細な特徴と大域的な意味情報をアラインメントする。
- Cityscapes-to-DensePASSおよびStanford2D3Dデータセットで，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.25131
ロバスト主成分補完 [cs.CV, cs.LG]目的：低ランク成分とスパース成分の抽出
- 画像処理やデータ解析において，データの低次元表現を求めることは重要である。
- 従来のRPCAでは，スパース成分が背景を覆い隠す場合，正確な分離が困難であった。
- スパース成分のサポートを間接的に決定することで，よりロバストな分離を実現する。
- 提案手法（RPCC）は，ベイズ確率的テンソル分解を用いてスパース成分のサポートを推定する。
- シミュレーションデータおよび実データ（カラービデオ，ハイパースペクトルデータ）において，高い性能が確認された。
- 従来のRPCA手法と比較して，後処理における閾値設定が不要となる。
Link: https://arxiv.org/abs/2603.25132
EgoXtreme：極限条件下における一人称視点でのロバストなオブジェクト姿勢推定のためのデータセット [cs.CV]目的：極限条件下における一人称視点でのロバストなオブジェクト姿勢推定
- スマートグラスの普及に伴い，ハンズフリーでタスクに集中できる環境下での状況把握が重要になっている。
- 既存の姿勢推定ベンチマークは，現実世界の一人称視点アプリケーションにおける激しいモーションブラーや照明変化，視覚的遮蔽に対応できていない。
- 現実世界での応用を可能にする，ロバストな姿勢推定モデルの開発と評価のためのリソースを提供すること。
- EgoXtremeを用いた評価により，最先端の姿勢推定器が極限条件下，特に低照度下で汎化性能を維持できないことが示された。
- 単純な画像復元（デブラーリングなど）は，極限条件下では性能向上に繋がらないことが明らかになった。
- トラッキングベースのアプローチにおいて性能向上が見られ，高速移動シーンで時間情報を活用することの有用性が示唆された。
Link: https://arxiv.org/abs/2603.25135
SAVe：視覚的アーティファクトと音声・視覚の不整合を利用した自己教師ありの音声・視覚ディープフェイク検出 [cs.RO, cs.SY, eess.SY, cs.CV, cs.AI, cs.LG, cs.MM, cs.SD]目的：音声・視覚ディープフェイクの検出
- ディープフェイク技術の進歩に伴い，その検出が重要性を増している。
- 既存の検出器は，合成データに依存し，汎化性能が低い場合がある。
- 本研究は，認証データのみを用いた自己教師あり学習による検出手法を提案する。
- SAVeは，顔領域における自己ブレンディング擬似操作を生成し，多様な視覚的特徴を学習する。
- また，音声と口元の同期ずれを検出する音声・視覚アライメントコンポーネントを導入する。
- FakeAVCelebとAV-LipSync-TIMITデータセットで，高い性能と汎化能力を示す。
Link: https://arxiv.org/abs/2603.25140
FD$^2$: ファインチ grained データセット蒸留のための専用フレームワーク [cs.CV, cs.AI]目的：ファインチ grained データセット蒸留の性能向上
- 大規模データセットの取り扱いは，計算資源や時間コストがかかるため，効率的なデータ圧縮技術が求められている。
- 従来のデータセット蒸留は，粗いクラスラベルに基づき，クラス内サンプルが類似しやすく，識別力の低下を招く。
- 識別的な特徴を抽出し，クラス内多様性を確保することで，ファインチ grained データセットにおける蒸留性能の向上を目指す。
- FD$^{2}$は，識別的な領域を特定し，ファインチ grained な表現を構築することで蒸留を行う。
- カウンターファクチュアルアテンション学習によりクラスプロトタイプを更新し，サンプルとプロトタイプ間の整合性とサンプル間の多様性を確保する。
- 複数のデータセットにおける実験により，FD$^{2}$が既存手法を上回り，高い汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.25144
ビデオとテキストの整合性のためのキャプションチェーンのランク学習 [cs.CV, cs.LG]目的：ビデオとテキストの整合性に関するキャプションチェーンのランク付け
- 映像と言語の連携は，AIのマルチモーダル理解において重要であり，様々な応用を可能とする。
- 既存のDPOは二値評価であり，視覚情報への忠実度を十分に考慮できない場合がある。
- 視覚情報への忠実度を考慮したランク学習により，より高品質なビデオとテキストの整合性を実現する。
- ランク学習は，長文コンテンツの生成と評価において，二値DPOよりも優れた性能を示すことが確認された。
- 効果的なランク学習のためには，視覚エンコーダのファインチューニングが不可欠であることが示唆された。
- 繰り返しキャプション劣化により，大規模なランキングデータセットを生成する手法が提案された。
Link: https://arxiv.org/abs/2603.25145
フォトニクス：効率的なマルチモーダル大規模言語モデルによるボリューム理解の高速化 [cs.CV, cs.AI]目的：3D画像における臨床的な視覚的質疑応答タスクの高速化
- 医療画像診断の精度向上は，患者ケアの質を向上させる上で不可欠である。
- 3D医療画像の処理には計算コストが高く，大規模言語モデルの応用が制限されている。
- 計算コストを削減しつつ，3D医療画像の情報を損失なく活用することを可能にする。
- フォトニクスは，可変長のトークン列を用いて3D医療ボリュームを表現するフレームワークである。
- 指示に応じたトークンスケジュールと代理勾配伝播により，学習時と推論時の両方でトークン数を削減する。
- 様々な医療視覚的質疑応答タスクにおいて，最先端の精度を達成しつつ，リソース使用量を削減し，学習と推論を高速化する。
Link: https://arxiv.org/abs/2603.25155
ビジョン・ホップフィールドメモリネットワーク [cs.LG, cs.AI, cs.CV, stat.ML]目的：ビジョン・ホップフィールドメモリネットワークの提案
- 画像，テキスト等の統合モデリングが可能な基盤モデルが発展している。
- 既存モデルは脳の計算原理から遠く，大量の学習データと解釈性の低さが課題。
- 解釈性とデータ効率に優れた脳にヒントを得た基盤モデルの構築。
- V-HMNは，階層的なメモリ機構と反復的な洗練更新を統合した脳にヒントを得た基盤モデルである。
- V-HMNは，既存のself-attentionやstate-spaceモデルと比較して，優れた解釈性，データ効率，生物学的妥当性を示す。
- 本研究は，次世代のビジョン基盤モデル，さらにはマルチモーダル基盤モデルへの応用可能性を示唆する。
Link: https://arxiv.org/abs/2603.25157
多カテゴリ3D異常検知のための意味的に分離された統一モデル [cs.CV]目的：多カテゴリ3D点群における異常とその局在化
- 製造業等の品質管理において，3Dデータを用いた非破壊検査の重要性が増している。
- 統一モデルはスケーラビリティに優れるが，カテゴリ間の意味的重複により精度が低下しやすい。
- カテゴリ間の意味的重複を解消し，より信頼性の高い異常検知を実現すること。
- 提案手法は，粗いトークン化とカテゴリ条件付きコントラスト学習により，意味表現を分離する。
- Real3D-ADとAnomaly-ShapeNetでの実験により，最先端の結果を達成した。
- オブジェクトレベルのAUROCを最大9.1%改善し，統一3D異常検知の信頼性を高めた。
Link: https://arxiv.org/abs/2603.25159
スポーツスキル：スポーツ指導ビデオからの身体技能学習 [eess.SY, cs.SY, cs.CV]目的：スポーツ指導ビデオを用いた身体技能学習のための大規模データセット
- 身体技能学習は，スポーツパフォーマンス向上やリハビリテーションにおいて重要である。
- 既存のビデオデータセットは，身体技能学習に必要な詳細な活動の網羅性が不足している。
- 本研究は，詳細なスポーツ技能学習を可能にする大規模データセットの構築と活用を目指す。
- SportSkillsデータセットは，55種類のスポーツにおける36万件以上の指導ビデオと63万件以上の視覚的デモンストレーションを含む。
- SportSkillsを用いることで，身体動作の微細な違いを理解する能力が向上し，既存データセットと比較して最大4倍の性能向上が確認された。
- 誤り条件付きの指導ビデオ検索タスクを新たに定義し，専門コーチによる評価で，視覚的な指示のパーソナライズ能力が大幅に向上した。
Link: https://arxiv.org/abs/2603.25163
3Dシーン理解のための基盤モデルへ：点群に対するインスタンス認識型自己教師あり学習 [cs.CV]目的：点群におけるインスタンス認識の性能向上
- 3Dシーン理解は，ロボティクスや自動運転などの応用において不可欠であり，その重要性は増している。
- 既存の自己教師あり学習法は，インスタンスの位置特定への転移性能が低く，完全なファインチューニングが必要となる。
- インスタンス認識能力を高めることで，汎用的な3D基盤モデルの実現を目指す。
- 提案手法PointINSは，点群の幾何学的特徴を考慮した学習により，セマンティック理解と幾何学的推論を同時に獲得する。
- オフセット分布正則化(ODR)と空間クラスタリング正則化(SCR)という2つの正則化戦略を導入し，ロバストなインスタンス位置特定を可能にした。
- 5つのデータセットにおける実験の結果，PointINSは屋内インスタンスセグメンテーションで平均3.5%のmAP向上，屋外パノラマセグメンテーションで4.1%のPQ向上を達成した。
Link: https://arxiv.org/abs/2603.25165
ET-SAM：SAMを用いた統一的なシーンテキスト検出とレイアウト分析のための効率的なポイントプロンプト予測 [eess.SY, cs.SY, cs.CV]目的：シーンテキスト検出とレイアウト分析のための効率的なプロンプト予測手法
- シーンテキストの検出とレイアウト分析は，文書理解や画像検索において重要な役割を担う。
- 従来のSAMベースの手法では，大量のポイントプロンプト生成に時間がかかり，データ利用効率が低い。
- 本研究は，効率的なポイントプロンプト予測により，高速かつ高精度なテキスト検出とレイアウト分析を実現する。
- 提案手法ET-SAMは，軽量なポイントデコーダを用いることで，プロンプト数を大幅に削減し，推論速度を向上させた。
- HierTextデータセット上で，従来のSAMベース手法と比較して約3倍の推論速度向上を達成した。
- Total-Text, CTW1500, ICDAR15データセットにおいて，平均で11.0%のF値向上を示した。
Link: https://arxiv.org/abs/2603.25168
熱放射モデリングによる赤外物体検出のための知識誘導敵対的学習 [cs.CL, cs.CV, cs.AI]目的：赤外物体検出におけるロバスト性の向上
- 複雑な環境下での応用と安定性が求められる赤外物体検出の重要性
- 赤外物体検出は，一般的な破損や敵対的サンプルに脆弱であるという問題
- 赤外画像の特性を考慮したロバスト性の改善を目指す
- 提案手法KGATは，赤外物理知識を敵対的学習プロセスに組み込むことで，予測結果を実際の物理法則と整合させる。
- 3つの赤外データセットと6つの主流モデルを用いた実験により，KGATがクリーンな精度とロバスト性を効果的に向上させることが示された。
- 異なるクラス間の熱放射関係は，敵対的サンプルや一般的な破損に対して信頼できる知識源となりうる。
Link: https://arxiv.org/abs/2603.25170
行動誘導モーションと関節運動学的エンコーディングを活用した一人称視点3D姿勢推定 [cs.CV]目的：一人称視点動画における3D姿勢推定の精度向上
- 一人称視点(エゴ視点)動画の活用が進む中で，正確な3D姿勢推定は行動認識や人間とのインタラクションにおいて重要である。
- 一人称視点動画は，視点歪み，被写体の一部隠蔽，複雑なカメラ動きなどにより，3D姿勢推定が困難である。
- 本研究は，行動情報と関節の運動学的特徴を統合することで，これらの課題を克服し，高精度な姿勢推定を実現することを目指す。
- 提案手法AG-EgoPoseは，短期・長期のモーションコンテキストと詳細な空間情報を統合する二重ストリームフレームワークである。
- 空間ストリームと時間ストリームを組み合わせ，Transformerデコーダを用いて空間的・時間的証拠を関節レベルで統合することで，解剖学的制約を維持した姿勢推定を行う。
- 実世界のデータセットを用いた実験により，AG-EgoPoseが定量・定性両面で最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2603.25175
バイリンガルテキストからモーション生成：新しいベンチマークとベースライン [cs.CL, cs.CV, cs.CL]目的：バイリンガルテキストからのモーション生成に関する研究
- 言語の壁を超えたモーション生成は，多様な応用展開が期待され，重要な研究分野である。
- 既存モデルは，バイリンガルデータセットの不足と，言語間セマンティクスの理解が不十分であるという課題を抱えている。
- 本研究は，バイリンガルデータセットと，言語間セマンティクスを考慮したモーション生成手法の開発を目指す。
- 新たに構築したバイリンガルデータセットBiHumanML3Dを用いて，提案手法BiMDが既存モデルを大幅に上回る性能を示した。
- BiMDに組み込んだCross-Lingual Alignment (CLA)は，言語間のセマンティック表現を明示的に整合させることで，高品質なモーション生成を実現した。
- 本研究は，バイリンガルモーション生成におけるデータセットとアライメント戦略の重要性を強調している。
Link: https://arxiv.org/abs/2603.25178
拡散トランスフォーマーを用いた制御可能な3D医療画像合成：VolDiT [cs.CV]目的：3D医療画像合成のための拡散トランスフォーマー
- 医療画像合成は，疾患診断や治療計画において重要な役割を担う。
- 既存手法は局所性バイアスが強く，グローバルな文脈統合が課題であった。
- トランスフォーマーベースのモデルで，高精度かつ制御可能な合成を目指す。
- VolDiTは，3Dボリュームデータに直接作用する最初の純粋なトランスフォーマーベース拡散モデルである。
- セグメンテーションマスクを用いた制御により，空間的なガイダンスと高い生成品質を両立した。
- 実験結果は，既存のU-Netベースモデルと比較して，全体的な一貫性，生成精度，制御性に優れていることを示す。
Link: https://arxiv.org/abs/2603.25181
あらゆる視覚的参照からの超高精度汎用アイデンティティ保持ビデオ生成 [cs.CV]目的：あらゆる視覚的参照からのアイデンティティ保持ビデオ生成手法
- ビデオ生成技術は創造的な表現力を高めるが，特定の人物やキャラクターのアイデンティティ維持が課題である。
- 既存手法は単一のアイデンティティ参照に限定され，多様な入力形式への対応が不十分である。
- 多様な参照形式に対応し，高精度なアイデンティティ保持を可能とするビデオ生成手法を開発する。
- AnyIDは，顔，ポートレート，ビデオなど多様なアイデンティティ入力を統合的に表現するオムニ参照アーキテクチャを導入した。
- 主要参照パラダイムにより，一つの参照を基準として，属性レベルでの精密な制御を実現した。
- 人間の評価に基づく強化学習による微調整により，アイデンティティの忠実性とプロンプト制御性が向上した。
Link: https://arxiv.org/abs/2603.25188
CardioDiT：4D心臓MRI合成のための潜在拡散変換器 [eess.SY, cs.SY, cs.CV]目的：4D心臓MRI合成のための潜在拡散変換器CardioDiTの提案
- 心臓MRIは，心機能評価や疾患診断において重要な役割を担う画像診断技術である。
- 既存の生成モデルは，空間と時間分解や補助メカニズムに頼るため，心臓の生理的な動きを正確に再現できない場合がある。
- 空間と時間を統合的にモデル化することで，より自然で正確な心臓MRI合成を目指す。
- CardioDiTは，空間と時間を結合した4D潜在拡散フレームワークを用いることで，スライス間の整合性と時間的な一貫性を向上させた。
- 提案手法は，従来のモデルと比較して，より現実的な心臓機能分布を生成することが示された。
- 拡散変換器を用いた明示的な4Dモデリングが，時空間的な心臓画像合成の原理的な基盤となることが示唆された。
Link: https://arxiv.org/abs/2603.25194
TacSIm：サッカー戦術スタイル模倣のためのデータセットとベンチマーク [cs.CV]目的：サッカー戦術スタイルの模倣
- サッカー分析において，単なる勝利だけでなく，チームの戦術的特徴を理解することは重要である。
- 既存研究では，得点や勝率などの報酬に基づいた最適化が中心で，実際の戦術の再現性は低い。
- 実際の試合映像からチームの戦術スタイルを正確に模倣するためのベンチマークを確立する。
- TacSImは，プレミアリーグの試合映像から11人全員の選手行動をデータセット化し，戦術スタイル模倣を可能にする。
- 空間占有率と移動ベクトルの類似性を用いて，戦術スタイルの模倣度を定量的に評価する。
- シミュレーション環境で複数のベースライン手法を比較評価し，戦術的連携の視覚的な分析を可能にする。
Link: https://arxiv.org/abs/2603.25199
CIV-DG：医療画像におけるドメイン汎化のための条件付きインストゥルメンタル変数 [cs.CL, cs.CY, cs.CV, cs.MM]目的：医療AIにおけるドメイン汎化の改善
- 医療AIの性能は，データ収集施設の特性に大きく左右されるため，汎化性能の向上が重要である。
- 患者層の偏りが施設割り当てに影響し，画像と診断ラベルの間に誤った相関が生じやすい。
- 施設特性と診断ラベルの因果関係を分離し，頑健な医療AIの実現を目指す。
- 提案手法CIV-DGは，条件付きインストゥルメンタル変数を用いて，病理学的意味とスキャナーによるアーチファクトを分離する。
- 従来のドメイン汎化手法が苦手とする構造的混乱を解消し，より高い汎化性能を実現する。
- Camelyon17および大規模な胸部X線データセットでの実験により，CIV-DGの有効性が確認された。
Link: https://arxiv.org/abs/2603.25202
マルチモーダルな誤情報の検出のための確率的概念グラフ推論 [cs.CV, cs.CL]目的：マルチモーダルな誤情報の検出
- 近年の情報伝達において，画像や動画を含むマルチモーダルな情報操作が増加しており，社会への影響が深刻である。
- 従来の誤情報検出手法は，内部構造が不透明で，新たな操作手法に対して脆弱であるという課題がある。
- 人間が理解可能な概念に基づいた推論により，誤情報をより正確かつ堅牢に検出することを目指す。
- 提案手法であるPCGRは，概念グラフを用いてマルチモーダルな情報を構造的に推論することで，高い検出精度と解釈可能性を実現した。
- 特に，大規模言語モデルを活用して新たな概念を自動的に発見・検証する点が特徴であり，既存手法を上回る性能を示した。
- PCGRは，多様な操作手法に対しても高い耐性を示し，誤情報の検出における新たなアプローチを提示する。
Link: https://arxiv.org/abs/2603.25203
レイヤー適応型O.O.D補正による長時間動画生成 [cs.DB, cs.CE, cs.CV, cs.AI]目的：長時間動画生成における視覚品質劣化問題の解決
- 動画生成技術は，エンターテイメント，教育，コミュニケーションなど，多様な分野で重要性が増している。
- 事前学習済みの拡散モデルを長時間動画に適用すると，視覚品質が著しく低下するという課題がある。
- フレームレベルとコンテキスト長における分布外（O.O.D）問題を解決し，高品質な長時間動画生成を実現する。
- 本研究では，学習を必要としないFreeLOCフレームワークを提案し，VRPRとTSAの2つの主要な技術を導入した。
- FreeLOCは，レイヤー適応型プロービングメカニズムにより，各TransformerレイヤーのO.O.D問題への感度を特定し，効率的な適用を可能にする。
- 実験結果から，FreeLOCが既存手法を大幅に上回り，時間的一貫性と視覚品質の両面で最先端の結果を達成することが示された。
Link: https://arxiv.org/abs/2603.25209