arXiv雑要約

画像・音声 - 2026/03/25 公開

AI生成画像検出のための説明可能なLLMエージェントによる融合：AgentFoX [cs.CV]目的：AI生成画像の検出
- AI技術の進化により，生成画像の品質が向上しており，真贋判定の重要性が増している。
- 既存の検出器は特定の偽造アーティファクトに依存し，汎用性や矛盾した判断が生じることが課題である。
- AIエージェントを用いて，多段階分析による信頼性の高い検出と，根拠を示すレポート生成を目指す。
- AgentFoXは，知識ベースに基づき，高レベルな意味的評価から詳細な信号レベルの証拠合成へと段階的に分析を行う。
- 専門家プロファイルとクラスタリングプロファイルの統合により，矛盾を解決し，精度の高い検出を実現する。
- 二値的な結果だけでなく，判断の根拠を示す詳細なレポートを生成することで，解釈性と信頼性を高める。
Link: https://arxiv.org/abs/2603.23115
SAM2を用いたゼロショットアプローチによる3D CTスキャンの自動セグメンテーション [cs.CV]目的：3D CTスキャンの自動セグメンテーション
- 医療画像解析の自動化は，診断の効率化と精度向上に不可欠である。
- 既存のセグメンテーションモデルは，特定のドメインに特化し汎化性能が低い。
- 汎用的なファウンデーションモデルを医療画像に応用し，ゼロショットでのセグメンテーションを実現する。
- ファウンデーションモデルSAM2が，追加学習なしに3D CTデータのセグメンテーションに適用可能であることが示された。
- SAM2のボリューメトリック認識の欠如に対し，CTスライスを順序付きシーケンスとして扱うことで対処した。
- 適切な推論パイプラインを構築することで，SAM2は一貫性のある3Dセグメンテーションを生成し，ゼロショットアプローチの実現性を示した。
Link: https://arxiv.org/abs/2603.23116
SMSP：視覚的錯覚を認識するための多重スケール知覚のプラグアンドプレイ戦略 [cs.CV, cs.MM]目的：マルチモーダル大規模言語モデルにおける視覚的錯覚への脆弱性の克服
- 近年，画像とテキストを扱うモデルの性能向上は目覚ましいが，人間の知覚とのずれが課題となっている。
- 既存のモデルは，隠れたパターンを持つ視覚的錯覚に弱く，安全性への懸念も生じている。
- 高周波成分への注意バイアスを抑制し，人間らしい多重スケール知覚を実現することを目指す。
- 提案手法SMSPは，モデルが錯覚画像における高周波背景に気を取られるのを抑制し，隠れたパターンを認識しやすくする。
- SMSPは，評価した全てのマルチモーダル大規模言語モデルにおいて，錯覚画像に対する性能を大幅に向上させた（例：Qwen3-VL-8B-Instructの精度を13.0%から84.0%へ）。
- 本研究は，モデルの視覚知覚に関する新たな知見を提供し，その改善のための実用的かつ堅牢な解決策を提供する。
Link: https://arxiv.org/abs/2603.23118
PiCo：ロバストなロボット視覚異常検知のためのアクティブ多様体正準化 [cs.CV]目的：ロボット視覚異常検知におけるロバスト性の向上
- 産業用ロボットの導入拡大に伴い，視覚異常検知の重要性が高まっている。
- 多様な姿勢や不安定な環境下では，従来の受動的特徴学習では異常検知が困難である。
- アクティブ正準化により，環境変動やノイズにロバストな異常検知を実現する。
- PiCoは，観測データを条件不変な多様体へ積極的に射影する統一的フレームワークである。
- 物理的正準化と潜在的正準化の二段階構造により，幾何学的・表現的要因の影響を軽減する。
- M2ADベンチマークにおいて，最先端の性能（O-AUROC 93.7%）を達成し，アクティブな環境下でも高い精度（98.5%）を示した。
Link: https://arxiv.org/abs/2603.23122
第5回PVUW MeViS-Audioトラック第3位：VIRST-Audio [cs.IR, cs.CV]目的：音声に基づく参照ビデオオブジェクトセグメンテーションの実現
- ビデオ理解における音声情報の活用は，より自然なインタラクションや高度なシーン理解に不可欠である。
- 音声と映像の情報を統合し，正確なオブジェクトセグメンテーションを行うことは依然として困難な課題である。
- 音声情報からビデオ内の対象オブジェクトを正確にセグメンテーションする手法の確立を目的とする。
- 提案手法VIRST-Audioは，事前学習済みのRVOSモデルと視覚言語アーキテクチャを組み合わせた実用的なフレームワークである。
- 音声入力をテキストに変換し，テキストベースの指導を用いてセグメンテーションを行うことで，テキストからの知識転移を実現している。
- 存在認識ゲート機構を導入することで，誤ったマスク予測を抑制し，セグメンテーションの安定性を向上させている。第5回PVUW MeViS-Audioトラックで第3位を獲得した。
Link: https://arxiv.org/abs/2603.23126
InterDyad：中間的な視覚的ガイダンスによるクエリを用いた双方向対話者間音声-動画生成 [eess.SY, cs.SY, math.OC, cs.CV]目的：双方向対話における自然なインタラクティブな動きの合成
- 対話者間の相互作用を理解することは，人間関係やコミュニケーションの研究において重要である。
- 既存手法では，対話者間の依存関係や反応の制御が十分でなく，不自然な動画が生成される場合がある。
- 本研究は，対話者の音声から適切な反応を生成し，自然な対話インタラクションを実現することを目的とする。
- InterDyadは，構造的運動ガイダンスをクエリすることで，自然な対話者間インタラクションの合成を可能にする。
- Interactivity Injectorは，参照動画から抽出された運動プライアに基づき，自然な動画の再演を実現する。
- 実験結果から，InterDyadは最先端手法と比較して，自然で文脈に即した二者間のインタラクション生成において有意な性能向上を示す。
Link: https://arxiv.org/abs/2603.23132
VoDaSuRe: ボリュumetric超解像におけるドメインシフトを明らかにする大規模データセット [eess.SY, cs.SY, cs.RO, cs.CV]目的：ボリュumetric超解像におけるドメインシフトの解明
- 医療・科学画像処理において，ボリュumetric超解像技術の重要性が増している
- 高品質な高解像度画像と低解像度画像のペアデータが不足している
- 現実的な低解像度データを用いた超解像モデルの性能評価と改善
- 既存の超解像モデルは，ダウンサンプルデータで学習することで高い性能を示すが，実際の低解像度スキャンでは細かい構造が平滑化される
- ダウンサンプルデータで学習されたモデルを現実のスキャンに適用すると，構造は保持されるものの，精度が低い
- 現在の超解像手法は過大評価されており，失われた構造を復元するのではなく，平均的な平滑化予測を行う
Link: https://arxiv.org/abs/2603.23153
共形クロスモーダル能動学習 [cs.CV, cs.LG]目的：データ効率的な学習のための能動学習フレームワーク
- 画像認識の分野では，事前学習済みモデルが重要な役割を果たしている。
- 既存の能動学習法は，画像と言語の豊富な多Modal知識を十分に活用できていない。
- 画像と言語のModalを統合し，データ効率を向上させる。
- 提案手法であるCCMAは，教師あり学習におけるデータ効率を向上させる。
- CCMAは，不確実性の推定と多様性を考慮したサンプル選択により，既存の能動学習法を上回る性能を示す。
- 画像のみのモデルに対する教師モデルによる，意味に基づいた不確実性の推定を実現した。
Link: https://arxiv.org/abs/2603.23159
少ないサンプル数でのリモートセンシング画像シーン分類のための二重コントラストネットワーク [cs.CL, cs.CV]目的：少ないサンプル数でのリモートセンシング画像シーン分類
- リモートセンシング技術は，地球観測や資源管理において不可欠である。
- リモートセンシング画像は，クラス間変動が小さく，クラス内変動が大きいという課題がある。
- この研究は，少ないサンプル数での分類精度向上を目指す。
- 提案手法である二重コントラストネットワーク(DCN)は，文脈と詳細に着目したコントラスト学習を用いる。
- 文脈特徴抽出のための凝縮ネットワークと，詳細特徴強調のための溶解ネットワークを設計した。
- 4つのベンチマークデータセットでの実験により，提案手法の優位性が示された。
Link: https://arxiv.org/abs/2603.23161
GSwap: 動的ニューラルガウス場を用いたリアルな顔交換 [cs.CV]目的：リアルな顔交換システムの開発
- 顔の入れ替え技術は，映像制作やエンターテイメント分野において重要な役割を担う。
- 既存手法は，3次元の一貫性や自然な表情，背景との融合に課題があり，不自然な結果となる場合がある。
- 本研究は，3次元の一貫性とリアリティを向上させた顔交換技術の実現を目指す。
- GSwapは，動的ニューラルガウス場を用いることで，従来法よりも高品質かつ一貫性のある顔交換を実現した。
- 特に，3次元の一貫性，自然な表情，背景とのシームレスな融合において，顕著な改善が確認された。
- 少数の参照画像を用いたドメイン適応により，効率的な学習が可能となり，汎用性の高いシステムとなっている。
Link: https://arxiv.org/abs/2603.23168
Gimbal360：正準化された360°パノラマ画像補完のための微分可能自動水平化 [cs.CV]目的：360度パノラマ画像の補完における幾何学的・トポロジカルな不整合の解消
- VR/AR等の没入型体験において，高品質な360度パノラマ画像は不可欠であり，その応用範囲は広い。
- 既存手法では，遠景画像の幾何学的構造と球面パノラマのトポロジーの不一致が，高品質な補完の課題となっていた。
- 本研究は，幾何学的・トポロジカルな事前知識を明示的に標準化することで，構造的に一貫性のある360度シーン補完を実現する。
- 提案手法Gimbal360は，正準ビューイング空間を導入し，遠景画像と球面パノラマの間の幾何学的整合性を高める。
- 微分可能自動水平化モジュールにより，カメラパラメータを用いずに特徴方向を安定化させ，実環境への適用を可能にした。
- Horizon360という大規模データセットを構築し，トポロジカルな等変性を潜在空間に適用することで，シームレスな周期構造を維持した。
Link: https://arxiv.org/abs/2603.23179
ViKey：視覚的プロンプトによる動画の時系列理解の向上 [cs.CV]目的：動画における時系列理解能力の向上
- 動画理解は，監視，ロボティクス，コンテンツ解析など多岐にわたる応用分野で重要である。
- 既存の効率化手法は計算コストを削減する一方で，時系列推論を必要とするタスクで性能低下を引き起こす。
- 視覚的プロンプトを用いて，疎なフレーム系列からでも時系列関係を正確に捉えることを目指す。
- 視覚的プロンプトとしてフレームに順番情報を付与することで，モデルの時系列継続性の認識が向上する。
- ViKeyは，視覚的プロンプトとキーワード-フレームマッピング（KFM）を組み合わせた学習不要のフレームワークである。
- わずか20%のフレーム数で，時系列推論能力が大幅に向上し，場合によっては高密度フレームでの性能を維持する。
Link: https://arxiv.org/abs/2603.23186
一人称視点行動理解のための視線誘導VLMs [cs.HC, cs.CV]目的：一人称視点行動理解におけるVision Language Models (VLMs) の性能向上
- 人間の行動理解は，ロボット工学やヒューマンコンピュータインタラクションの発展に不可欠である。
- 既存のVLMは視覚データに依存しており，人間の視線情報という重要な手がかりを活用していない。
- 人間の視線パターンをモデルの注意機構に組み込み，行動予測の精度向上を目指す。
- 提案手法は，視線に基づいたクエリを生成し，モデルが視線が注目する領域に動的に焦点を当てることができる。
- 視線正則化メカニズムにより，モデルの注意と人間の注意が整合するように促される。
- 実験結果は，視線情報を活用しないベースラインモデルと比較して，セマンティックスコアが約13%向上することを示した。
Link: https://arxiv.org/abs/2603.23190
GTLR-GS: 幾何・テクスチャを考慮したLiDAR正則化3Dガウススプラッティングによる現実的なシーン再構成 [cs.GR, cs.MM]目的：現実的なシーン再構成のための3Dガウススプラッティング手法
- 3Dシーンの再構成は，ロボティクス，AR/VRなど幅広い分野で重要である。
- 従来のSfM由来の点群は，スケール曖昧性や幾何学的整合性の欠如といった課題がある。
- LiDARの幾何学的情報を活用し，より正確で安定した3D再構成を目指す。
- 本研究では，LiDARデータを活用し，3Dガウススプラッティングの最適化プロセスに幾何学的制約を組み込んだ。
- 幾何・テクスチャを考慮したガウス配置戦略と，曲率適応型洗練メカニズムを導入した。
- 実験結果から，提案手法がメトリックスケールでの高精度な再構成において最先端の性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.23192
PhysSkin：自己教師ありニューラルスキニングによるリアルタイムかつ汎用的な物理ベースのアニメーション [cs.GR, cs.CV, cs.LG]目的：多様な3D形状と離散化に対応可能なリアルタイム物理ベースアニメーションの実現
- 3Dアニメーション制作において，物理シミュレーションは現実感と自然な動きを生み出す上で不可欠である。
- 従来の物理ベースアニメーションは形状やメッシュの離散化に依存し，汎用性に課題があった。
- 様々な形状に対してリアルタイムで適用可能な，汎用的な物理ベースアニメーション手法を開発すること。
- PhysSkinは，物理情報を組み込んだフレームワークであり，ハンドル変換によって定義されるモーション部分空間座標をフル空間の変形に写像する連続的なスキニング場を学習する。
- Transformerベースのエンコーダとクロスアテンションデコーダを用いたニューラルスキニング場オートエンコーダにより，メッシュフリーで離散化に依存しない，物理的に整合性のとれたスキニング場を生成する。
- 自己教師あり学習戦略とスキニング場正規化，および競合を意識した勾配補正により，エネルギー最小化，空間滑らかさ，直交性制約のバランスを効果的に実現し，リアルタイム物理ベースアニメーションを可能にする。
Link: https://arxiv.org/abs/2603.23194
FDIF：暗黙関数を用いた数式駆動型教師あり学習による3D医療画像セグメンテーション [cs.CV]目的：3D医療画像セグメンテーションのための，暗黙関数に基づく数式駆動型教師あり学習フレームワーク
- 医療画像解析は，診断や治療計画において不可欠であり，高精度なセグメンテーション技術が求められている。
- 高品質な教師あり学習には大量の注釈付きデータが必要だが，医療データの取得はプライバシーやコストの面で課題が多い。
- 数式から直接学習データを生成することで，注釈付きデータの必要性を低減し，データ不足の問題を解決することを目指す。
- FDIFは，符号付き距離関数に基づく暗黙関数表現を用いることで，複雑な形状を効率的にモデル化し，幾何学的な表現力を向上させる。
- FDIFは，AMOS，ACDC，KiTSの3つのベンチマークにおいて，既存の数式駆動型手法を上回り，自己教師あり学習と同等の性能を達成した。
- FDIFによる事前学習は，3D分類タスクにおいても効果があり，データフリーな表現学習の有望なパラダイムであることを示唆する。
Link: https://arxiv.org/abs/2603.23199
ロボット操作のための視線正則化された視覚-言語-行動モデル [cs.CV]目的：ロボット操作における視線正則化による性能向上
- ロボットの知能化には，人間のような効率的な視覚情報処理が不可欠である。
- 既存の視覚-言語-行動モデルは，積極的な視線注意メカニズムに乏しい。
- 人間の視線パターンを模倣することで，ロボットの学習効率と性能向上を目指す。
- 本研究では，KLダイバージェンスを用いてTransformerの注意を正則化するフレームワークを提案した。
- この手法により，既存のVLAアーキテクチャにおいて，操作ベンチマークで4-12%の性能向上が確認された。
- 学習済みの注意パターンは人間の戦略を反映し，ロボットシステムへの信頼性を高める。
Link: https://arxiv.org/abs/2603.23202
PoseDriver：自律走行のための多カテゴリ骨格検出の統一的アプローチ [cs.NI, cs.CV, cs.HC]目的：多カテゴリ骨格検出の統一的フレームワーク
- 自律走行においては，周囲の構造理解が不可欠であり，骨格情報は簡潔な表現として重要である。
- 既存手法では，複数の物体カテゴリとインスタンスを同時に扱う統一的なアーキテクチャが存在しない。
- 本研究は，自律走行シーンにおける一般的な物体に対して，多カテゴリ骨格検出を統一的に行うことを目指す。
- 提案手法PoseDriverは，多種多様な物体カテゴリを統一的に処理できるフレームワークであり，優れた性能を発揮する。
- レーン検出において，骨格表現に基づく新規アプローチを提案し，OpenLaneデータセットで最先端の性能を達成した。
- 自転車骨格検出のための新規データセットを公開し，提案手法の新しいカテゴリへの転移学習能力を検証した。
Link: https://arxiv.org/abs/2603.23215
GO-Renderer：3D認識を考慮した制御可能なビデオ拡散モデルによる生成オブジェクトレンダリング [cs.CV]目的：生成オブジェクトレンダリングの実現
- 画像からレンダリング可能な3Dモデルを再構成することは，様々な応用において重要である。
- 既存の3D再構成手法では，複雑なオブジェクトの外観を正確にモデル化することが困難である。
- 拡散モデルの制御性を高め，任意の視点・照明条件下での高品質なオブジェクトレンダリングを目指す。
- 再構成された3Dモデルをガイドとして，ビデオ生成モデルを用いて高品質なオブジェクトレンダリングを実現した。
- 複雑な材質や照明を明示的にモデル化することなく，様々な照明環境下でのレンダリングが可能となった。
- 新規視点での画像生成，新規照明環境下でのレンダリング，既存の動画へのオブジェクト挿入において，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.23246
介入安定な特徴学習によるマルチモーダル画像融合 [cs.CV, cs.MM]目的：マルチモーダル画像融合におけるロバストなクロスコモダル依存性の特定
- 画像認識の性能向上には，複数の情報源を統合することが重要である。
- 既存手法は，データセットに依存した見かけ上の相関関係を捉えがちである。
- 分布シフトに対して頑健な，真のクロスコモダル依存性の学習を目指す。
- 本研究では，介入に基づいたフレームワークを提案し，空間的に分離した摂動による補完的マスキング，同一領域のランダムマスキング，モダリティドロップアウトという3つの介入戦略を用いる。
- これにより，適応的な不変性ゲーティング機構を持つ因果特徴インテグレータ（CFI）を開発し，摂動パターンに依存せず重要性を維持する介入安定な特徴を学習する。
- 提案手法は，公開ベンチマークおよび高レベルのビジョンタスクにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.23272
ドメイン汎化のための相補的協調的融合：多Modal 3D物体検出 [cs.DL, cs.CY, cs.SI, cs.CV]目的：ドメイン汎化された多Modal 3D物体検出の性能向上
- 自動運転やロボティクスにおいて，周囲環境の正確な認識は安全性と効率に不可欠である。
- 異なる環境下での性能劣化が課題であり，特に雨天時や夜間などの悪条件下で顕著となる。
- 異なるModal間の情報活用を最適化し，悪条件下でもロバストな物体検出を実現すること。
- 提案手法であるCCFは，2Dと3Dの情報を効果的に融合することで，既存手法を大きく上回る性能を達成した。
- Query-Decoupled LossやLiDAR-Guided Depth Priorなどの機構により，各Modalの学習バランスを調整し，空間初期化を改善した。
- Complementary Cross-Modal Maskingにより，各Modalからのクエリが競合し，適応的な融合を促進することで，ロバスト性を高めた。
Link: https://arxiv.org/abs/2603.23276
WaveSFNet：ウェーブレットに基づくコーデックと空間-周波数二重ドメインゲーティングネットワークによる時空間予測 [cs.CV]目的：時空間予測の精度向上
- 将来のフレーム予測は，幅広い応用分野において不可欠であり，自己教師あり学習の重要な課題である。
- 既存手法は，テクスチャや境界を失うか，局所的相互作用と大域的伝播のバランスを取るのが難しい。
- 高周波情報を保持し，長距離依存性をモデル化することで，高精度な多段階予測を実現すること。
- 提案手法WaveSFNetは，ウェーブレットに基づくコーデックと空間-周波数二重ドメインゲーティングネットワークを統合した効率的なフレームワークである。
- 実験結果から，WaveSFNetはMoving MNIST，TaxiBJ，WeatherBenchにおいて競争力のある予測精度を達成し，低い計算コストを維持することが示された。
- フレーム差分注入とゲート付きチャンネルインタラクションにより，動的情報強調と特徴交換を実現している。
Link: https://arxiv.org/abs/2603.23284
結び目10：現実世界の結び目分類のためのタイトネス層別ベンチマークとトポロジー難易度分析 [cs.CV]目的：現実世界の結び目分類のためのベンチマークデータセットと評価手法
- 結び目分類は，画像認識における複雑な課題であり，視覚的特徴のみに依存する分類は困難である。
- 既存の画像認識モデルは，結び目の構造的な特徴を捉えることが難しく，分類精度が低い。
- 結び目のタイトネス（締め付け具合）が分類性能に与える影響を分析し，よりロバストな分類モデルを開発する。
- Knots-10ベンチマークにおいて，Swin-TとTransFGは97.2%の精度を達成したが，PMGは94.5%であった。
- トポロジー距離とモデルの誤分類パターンとの間に有意な相関関係が認められた（p < 0.01）。
- TACA正則化は，埋め込みとトポロジーの整合性を向上させたが，分類精度には改善が見られなかった。
Link: https://arxiv.org/abs/2603.23286
MRIからCTへの合成におけるMamba駆動アプローチ：MRIのみによる放射線治療計画への応用 [cs.CV]目的：MRIからCTへの画像合成手法の開発
- がん治療において，MRIとCTの多角的画像診断が重要視されている。放射線治療の精度向上に不可欠。
- CT撮影による放射線被ばくのリスクや，MRIとCT間の画像登録誤差が課題となっている。
- MRIのみで放射線治療計画を可能にし，被ばくリスクと登録誤差を低減することを目指す。
- Mambaベースのアーキテクチャは，従来の畳み込みニューラルネットワークと比較して，画像変換において優れた性能を示した。
- 3D Mambaアーキテクチャは，複雑なボリューム特徴と長距離依存関係を効果的に捉え，高精度なCT合成を可能にした。
- 本研究は，放射線治療ワークフローへのステートスペースモデル統合への道を開く。
Link: https://arxiv.org/abs/2603.23295
3Dガウススプラッティングに対するドロップイン知覚最適化 [cs.CV, cs.LG, eess.IV]目的：3Dガウススプラッティングの知覚的な品質向上
- 3Dコンテンツのリアリティは重要であり，人間の視覚体験に直接影響する。
- 既存の3DGS手法は，ピクセルレベルの損失関数に依存しており，結果として画像がぼやけることがある。
- より知覚的に優れた損失関数を探索し，3DGSのレンダリング品質を向上させる。
- 正則化されたWasserstein Distortion（WD-R）が，他の損失関数と比較して，微細なテクスチャの再現において優れた性能を示した。
- WD-Rは，元の3DGS損失やPerceptual-GSよりも，人間の評価者から2.3倍以上の好意を得た。
- WD-Rは，Mip-SplattingやScaffold-GSなどのフレームワークにおいても，知覚品質を向上させ，ビットレートを約50%削減した。
Link: https://arxiv.org/abs/2603.23297
カリキュラム駆動型3D CTレポート生成：言語非依存型ビジュアルグラフティングとゾーン制約圧縮 [cs.CV, cs.AI]目的：3D CTボリュームからの放射線科レポートの自動生成
- 医療画像診断の効率化が求められており，レポート作成の自動化は重要な課題である。
- 大規模言語モデルはテキスト情報に偏りやすく，画像情報を十分に活用できていない点が課題である。
- 画像情報を活用し，より正確なレポートを生成するフレームワークの構築を目指す。
- 提案手法 Ker-VLJEPA-3B は，CT-RATEベンチマークにおいて既存の最先端手法を3.6%上回るマクロF1値0.429を達成した。
- 閾値最適化により，さらにマクロF1値は0.448（+8.2%）に向上し，高い性能を示した。
- 生成品質の56.6%は患者固有の視覚コンテンツに由来することが示唆され，視覚情報の重要性が確認された。
Link: https://arxiv.org/abs/2603.23308
適応階層的画像-テキスト表現：ARGENT [cs.NI, cs.CV, cs.LG]目的：画像とテキストの階層的表現の学習
- 視覚と言語概念は階層構造を持つため，それを捉える表現が重要である。
- ユークリッド空間では階層構造を歪曲してしまうという課題がある。
- 双曲幾何学を用いたVLMsにおける階層崩壊を防ぎ，信頼性の高い評価手法を確立する。
- 適応的エンタイトルメント損失とノルム正則化により，階層崩壊を抑制し，双曲VLMの性能を向上させた。
- 角度に基づく確率的エンタイトルメントプロトコル(PEP)を導入し，階層的理解の評価を改善した。
- 画像分類，テキスト-画像検索，階層的指標において，既存の最先端の双曲VLMを上回る結果を示した。
Link: https://arxiv.org/abs/2603.23311
一貫性のある深度情報を利用した360度動画のポーズフリー全方向ガウススプラッティング [cs.NI, cs.CV]目的：360度動画からの3Dガウス再構成手法
- 3Dシーン表現において，全方向ガウススプラッティングは重要な技術である。
- 既存手法はSfMによるカメラ姿勢推定に依存し，処理速度が遅いという課題がある。
- カメラ姿勢情報を必要とせず，効率的な3Dガウス再構成を可能にすることを目指す。
- 提案手法PFGS360は，未ポーズの全方向動画から直接3Dガウスを再構成できる。
- ガウス内部の深度情報を利用して，正確なカメラ姿勢を推定する球面整合性モジュールを導入した。
- 深度情報を利用してガウスの密度を高めるモジュールにより，写実的な新規視点合成を実現した。
Link: https://arxiv.org/abs/2603.23324
ViBe：純粋な画像から生まれる超高解像度動画合成 [cs.CV]目的：超高解像度動画の合成手法
- 動画生成技術は，エンターテイメントから科学可視化まで幅広い分野で重要性が増している。
- Transformerベースの動画拡散モデルは計算コストが高く，超高解像度動画の学習が困難である。
- 画像のみで学習し，高解像度動画生成のボトルネックを解消することを目指す。
- 本研究では，既存の動画拡散モデルを画像領域に適応させることで，高解像度動画を合成する手法を提案した。
- 提案手法は，モダリティアラインメントと空間的外挿を分離し，低解像度画像と高解像度画像の両方を用いて学習を行う。
- 実験の結果，本手法は既存の高解像度動画モデルを凌駕し，VBenchベンチマークで0.8ポイントの向上を達成した。
Link: https://arxiv.org/abs/2603.23326
ひずみパラメータ化された結合動力学と二眼カメラを用いた空中連続体マニピュレータのビジュアルサーボ制御 [cs.DC, cs.PF, cs.NI, cs.RO, cs.CV]目的：空中連続体マニピュレータの結合動力学モデルと視覚サーボ制御スキーム
- UAVと軽量柔軟ロボットの利点を組み合わせ，多様な環境での作業を可能にする。
- 従来の結合動力学モデルは計算コストが高く，UAVのアンダーアクチュエーションを考慮していない。
- 計算効率が高く，UAVのアンダーアクチュエーションを考慮した動力学モデルを開発し，安定性のある視覚サーボ制御を実現する。
- ひずみパラメータ化されたコッセラ桿モデルとUAVの剛体モデルを統合し，計算負荷の高い記号微分を回避した。
- 二眼カメラに基づくロバストな視覚サーボ制御スキームを提案し，視野の制限を軽減した。
- UAVの姿勢変化による画像モーションを補償し，モデル化誤差に対応する適応コントローラを組み込んだ。
Link: https://arxiv.org/abs/2603.23333
注意機構付きU-Netを用いた脳腫瘍自動セグメンテーションのための説明可能なAIフレームワーク [cs.PF, cs.CV]目的：脳腫瘍の自動セグメンテーション手法の開発
- MRI画像からの脳腫瘍セグメンテーションは，診断，治療計画，経過観察において臨床的判断に不可欠である。
- 高悪性度で多様性を持つ神経膠腫の正確かつ信頼性の高いセグメンテーションは困難である。
- 注意機構と説明可能なAIを活用し，脳腫瘍の複雑な構造セグメンテーションの精度向上を目指す。
- 提案手法は，精度0.9919，Dice係数0.9901，平均IoU0.9873，感度0.9908，特異度0.9974という優れた性能を達成した。
- 注意機構，カスタマイズされた損失関数，説明可能なAIの利用が，MRIスキャンにおける複雑な腫瘍構造セグメンテーションの精度向上に貢献する。
- Grad-CAMに基づく説明可能なAIにより，注意領域を可視化し，モデルの解釈性を向上させることができる。
Link: https://arxiv.org/abs/2603.23344
FHAvatar：少数のカジュアルなキャプチャからの高速かつ高精度な顔と髪の構成可能な3Dヘッドアバターの再構成 [cs.CV]目的：顔と髪の構成可能な3Dヘッドアバターの再構成
- デジタルアバターは，コミュニケーションやエンターテイメントなど幅広い分野で重要性を増している。
- 既存手法は，密なマルチビューキャプチャやコストのかかる最適化が必要で，手軽ではない。
- 少数のカジュアルなキャプチャから，高品質なアバターを迅速に作成することを目指す。
- FHAvatarは，顔と髪を分離して表現することで，効率的な再構成を実現した。
- 少数枚の画像から，数分で高精度なアバターを再構成できる。
- リアルタイムアニメーションやヘアスタイル転送，編集など，多様な応用が可能である。
Link: https://arxiv.org/abs/2603.23345
オブジェクト姿勢Transformer：未知オブジェクト姿勢推定の統合 [cs.RO, cs.CV]目的：未知オブジェクト姿勢推定の統一的フレームワーク
- 3Dビジョンにおいて，オブジェクトの姿勢推定は，ロボティクスやAR/VR等の応用において不可欠である。
- 既存手法は，カテゴリレベルと相対姿勢推定に分かれ，単一視点での絶対姿勢推定が困難である。
- 両者の利点を統合し，未知オブジェクトに対する高精度な絶対・相対姿勢推定を実現する。
- 提案手法Object Pose Transformerは，深度，点マップ，カメラパラメータ，NOCSを同時に予測する。
- これにより，カテゴリレベルでの絶対姿勢推定と，未知オブジェクトの相対姿勢推定を単一モデルで実現。
- 多様なベンチマークにおいて，絶対・相対姿勢推定の両タスクで最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.23370
ABot-PhysWorld：物理法則整合を備えたロボット操作のためのインタラクティブなワールドモデル [cs.CV, cs.RO]目的：ロボット操作における物理法則整合性を備えたインタラクティブなワールドモデルの構築
- ロボットの自律的な動作には，現実世界の物理現象を理解し，予測する能力が不可欠である。
- 既存のワールドモデルは，物理法則を考慮せず，現実離れした挙動を生成する課題があった。
- 物理法則に適合し，現実的な操作を生成できるワールドモデルを開発し，ロボットの制御性能を向上させる。
- ABot-PhysWorldは，物理法則を意識したアノテーションを施した大規模データセットを用いて，視覚的にリアルかつ物理的に妥当な動画を生成する。
- DPOに基づく新しい学習手法により，物理的に不自然な挙動を抑制しつつ，視覚的品質を維持することに成功した。
- PBenchおよびEZSbenchにおいて，Veo 3.1やSora v2 Proを上回る性能を示し，物理的現実性と軌跡の一貫性で優れた結果を得た。
Link: https://arxiv.org/abs/2603.23376
3Dフロー誘導による編集可能なポートレートアニメーション [cs.CV]目的：ポートレートアニメーションにおけるモーション伝送の改善
- ポートレートアニメーションは，人間とコンピュータのインタラクションにおいて重要な役割を担う分野である。
- 既存手法では，ソースとドライビング間の対応付けが不十分で，最適なモーション伝送が困難である。
- 3Dフローを用いて，正確かつ高精度なモーション対応付けを実現し，アニメーション品質を向上させる。
- 本研究では，学習不要で幾何学に基づいた3Dフローを導入し，ディフュージョンモデルに組み込むことで，モーション伝送の精度を向上させた。
- 奥行きを考慮したサンプリングにより，2Dモーションの変化に合致した3Dフローの特定を可能にし，より自然なアニメーションを実現した。
- また，顔の表情や頭部のポーズのユーザー指定編集をサポートし，表現力を高めた。
Link: https://arxiv.org/abs/2603.23381
特徴学習からスペクトル基底学習へ：効率的かつロバストな形状マッチングのための統一的で柔軟なフレームワーク [cs.CV]目的：形状マッチングのための統一的で柔軟なフレームワーク
- 形状マッチングは，コンピュータグラフィックスやコンピュータビジョンの基本的な課題であり，様々な応用分野で重要である。
- 既存手法は特徴表現の学習に重点を置いており，機能マップパイプラインの重要な要素であるスペクトル基底の最適化が不十分である。
- スペクトル基底の学習を通じて，形状マッチングの精度と効率を向上させることを目指す。
- 本研究では，固定された基底関数を学習可能なものに置き換えるAdvanced Functional Mapsを提案し，理論的な保証を得ている。
- 提案手法は，ノイズや非等方的な形状変化に対して，最先端の特徴学習アプローチを大幅に上回る性能を示す。
- 基底関数の最適化はスペクトル畳み込みと等価であり，抑制関数がフィルタとして機能することを示唆し，今後の研究への新たな道を開く。
Link: https://arxiv.org/abs/2603.23383
SIMART：MLLMによるモノリシックメッシュのシミュレーション対応関節アセットへの分解 [cs.CV, cs.GR, cs.RO]目的：モノリシックメッシュからシミュレーション対応関節アセットへの分解
- 具現化されたAIや物理シミュレーションにおいて，高品質な関節3Dアセットは不可欠である。
- 既存の3D生成は静的メッシュに重点が置かれており，インタラクティブなオブジェクトが不足している。
- 複雑な関節オブジェクトにおいて，効率的なトークン化とメモリ使用量を削減すること。
- SIMARTは，Sparse 3D VQ-VAEを導入することで，トークン数を70%削減し，高精度な多部品アセンブリを可能にした。
- PartNet-MobilityおよびAIGCデータセットにおいて，最先端の性能を達成した。
- 物理ベースのロボットシミュレーションを可能にする。
Link: https://arxiv.org/abs/2603.23386
効率的な3D医用画像セグメンテーションのための文脈的相乗効果増強型軽量Transformerの活用 [cs.NI, cs.CV, eess.IV]目的：3D医用画像セグメンテーションにおける効率性とデータ効率の向上
- 医療画像解析は，病変の検出や診断に不可欠であり，高精度なセグメンテーション技術が求められている。
- Transformerは高性能だが，計算コストが高く，大量のラベル付きデータが必要とされるという課題がある。
- 軽量化とデータ効率化により，Transformerを実用的な医用画像解析に適用することを目的とする。
- 提案手法Light-UNETRは，軽量なTransformer構造と文脈的相乗効果増強戦略により，高性能かつ効率的なセグメンテーションを実現した。
- Left Atrial Segmentationデータセットにおいて，10%のラベル付きデータのみで，BCPをJaccardで1.43%上回り，FLOPsとパラメータを大幅に削減した。
- LIDRモジュールとCGLUによりモデル効率を，CSE学習戦略によりデータ効率をそれぞれ向上させた。
Link: https://arxiv.org/abs/2603.23390
テキスト表現誘導推論によるマルチモーダル大規模言語モデルにおける空間推論能力の解放 [eess.SY, cs.SY, cs.CV, cs.CL]目的：マルチモーダル大規模言語モデルにおける3次元空間推論の改善
- 視覚情報と言語情報を統合するマルチモーダルAIは，現実世界とのインタラクションに不可欠である。
- 既存のモデルは，ビデオ内の3次元環境を構造的に抽象化できず，空間推論が苦手である。
- テキスト形式での空間表現を中間推論として利用し，空間的質問応答の精度向上を目指す。
- 提案手法TRACEは，カメラの軌跡やオブジェクトの詳細情報を含むテキスト表現を生成する。
- VSI-BenchとOST-Benchでの実験により，TRACEが様々なモデルで一貫して性能向上を示すことが確認された。
- 詳細な分析から，3次元空間推論におけるボトルネックが特定され，設計選択の妥当性が検証された。
Link: https://arxiv.org/abs/2603.23404
GeoSANE：データではなくモデルから地理空間表現を学習 [cs.CV]目的：既存のモデルの重みから統一的なニューラル表現を学習する地理空間モデルファウンドリ
- リモートセンシング技術の発展により，地理空間に関するデータ量は増加の一途を辿っている。
- 既存モデルは，各々の得意分野はあっても，地理空間知識を統一的に扱えないという課題がある。
- 既存モデルの強みを組み合わせ，多様なタスクに対応できる汎用的なモデルの生成を目指す。
- GeoSANEは，既存のモデルの重みから学習することで，新規ニューラルネットワークの重みを生成可能。
- 生成されたモデルは，ゼロから学習した場合よりも高い性能を示し，最先端モデルに匹敵または凌駕する。
- 軽量なネットワーク生成においても，プルーニングや知識蒸留よりも優れた結果が得られることが確認された。
Link: https://arxiv.org/abs/2603.23408
I3DM：一貫性のあるビデオシーン生成のための暗黙的3D認識メモリ検索と注入 [cs.CV]目的：一貫性のあるビデオシーン生成のための暗黙的3D認識メモリ機構
- ビデオ生成技術の進歩は目覚ましいが，長期間にわたるシーンの一貫性維持が課題である。
- 既存手法は，3D形状の明示的な構築や単純なカメラ視野角検索に依存し，課題を抱えている。
- 複雑なオクルージョン下でもロバストな検索と，過去フレームの有効活用を目指す。
- 提案手法I3DMは，明示的な3D再構成を回避し，一貫性のあるビデオシーン生成を実現する。
- 事前学習済みFF-NVSモデルの中間特徴を用いてビューの関連性をスコアリングし，オクルージョンに強いメモリ検索を可能にする。
- 3Dアラインメントメモリ注入モジュールにより，過去コンテンツをターゲットビューに暗黙的にワープし，生成精度を向上させる。
Link: https://arxiv.org/abs/2603.23413
SIGMA：地震画像におけるガスチムニー理解のための物理ベースベンチマーク [cs.CV]目的：地震画像におけるガスチムニー理解のためのベンチマークデータセット
- 地震探査における炭化水素資源評価と掘削リスク回避に不可欠な研究分野である。
- 強い地震減衰と散乱の影響で，ガスチムニーの正確な検出が困難である。
- ガスチムニーの検出と画像改善のための学習データセットを提供し，解釈の精度向上を目指す。
- SIGMAは，ガスチムニーの解釈のための挑戦的なベンチマークとして機能する。
- 物理ベースの手法を用いた多様な地質学的設定とデータ取得条件を網羅している。
- SIGMAは，一般的な地震理解にも貢献する可能性がある。
Link: https://arxiv.org/abs/2603.23439
3DCity-LLM：3D都市規模の知覚と理解のためのマルチモーダル大規模言語モデルの活用 [cs.HC, cs.MM, cs.CV, cs.AI]目的：3D都市規模のビジョン-言語知覚と理解のための統合的なフレームワーク
- 都市のスマート化や自動運転等の実現には，都市規模の3D環境の理解が不可欠である。
- 既存の大規模言語モデルは，物体中心や屋内環境に特化しており，3D都市規模での応用は困難である。
- 3D都市規模の環境における，より高度な空間推論と都市知能の発展を目指す。
- 3DCity-LLMは，物体，物体間の関係性，シーン全体を並行して処理する粗い段階から細かい段階への特徴符号化戦略を採用している。
- 大規模なトレーニングを支援するため，約120万件の高品質サンプルを含む3DCity-LLM-1.2Mデータセットを新たに構築した。
- 2つのベンチマークでの実験により，3DCity-LLMが既存の最先端手法を大きく上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.23447
マルチモーダルLLMを用いた少数ショット物体検出のための文脈内学習：DetPO [eess.SY, cs.SY, cs.CV]目的：少数ショット物体検出における検出精度向上
- 物体検出は，画像認識における重要なタスクであり，様々な応用分野で活用されている。
- 既存のマルチモーダルLLMは，分布外のクラスやタスクへの汎化性能が課題となっている。
- APIアクセスや高コストなファインチューニングを回避し，プロンプト最適化による性能向上を目指す。
- 提案手法DetPOは，テスト時にプロンプトを最適化することで，少数ショット物体検出の精度を向上させる。
- Roboflow20-VLとLVISのデータセットにおいて，既存のブラックボックス手法を最大9.7%上回る性能を示した。
- DetPOは，汎用的なマルチモーダルLLMにおいて一貫した性能向上を実現する。
Link: https://arxiv.org/abs/2603.23455
SNARE：合理的プレイヤーによるビザンチン合意解決のための罠 [cs.GT, cs.DC]目的：合理的なプレイヤーによるビザンチン合意の解決策
- ブロックチェーン等の分散システムにおいて，合意形成は信頼性を担保する上で不可欠である。
- 従来のビザンチン合意は，悪意のあるノードの存在下で高い計算コストを必要とするという課題があった。
- SNAREは，より少ないコストで合理的なプレイヤーが合意を形成できるメカニズムを提案する。
- SNAREは，TRAPプロトコルを$n=5f+1$モデルに適用し，最大約73%の連合に対するロバスト性を証明した。
- 全ノードへのブロードキャストを挟むことで，預金なしで最大3f（約60%）の連合に対するロバスト性を実現した。欺瞞的なノードに対しても有効である。
- 妥当性検証の条件が緩和され，TRAPの制約が緩和された結果，より多くのノードが合意に参加できるようになった。
Link: https://arxiv.org/abs/2603.23458
RealMaster：レンダリングされたシーンをフォトリアリスティックな動画へ [cs.CV]目的：レンダリング動画のフォトリアリスティック化
- 動画生成技術の進歩は目覚ましいが，特定のシーン要件への正確な制御が課題であった。
- 既存の動画生成モデルは3Dの一貫性を保証できず，3Dエンジンはリアリティに欠ける出力になりがちである。
- 3Dエンジンによる構造的精度と，動画拡散モデルによるフォトリアリスティック化を両立させる。
- RealMasterは，動画拡散モデルを用いてレンダリング動画をフォトリアリスティックな動画へと変換する。
- この手法は，3Dエンジンの出力との完全な整合性を維持しつつ，材質，照明，テクスチャなどを変換する。
- 複雑なGTA-Vシーケンスにおいて，既存の動画編集手法を大幅に上回り，ジオメトリ，ダイナミクス，アイデンティティを維持した。
Link: https://arxiv.org/abs/2603.23462
InverFill：少ないステップで高品質な画像修復を実現するワンステップ反転法 [cs.CV, cs.AI]目的：拡散モデルを用いた画像修復における高品質化
- 画像生成技術は，現実世界の再現性を高める上で重要であり，多様な応用分野でのニーズが高い。
- 拡散モデルは高画質だが計算コストが高く，少ないステップでの高速修復は調和とアーティファクトの問題を抱える。
- InverFillは，初期ノイズに意味情報を注入し，少ないステップで高品質な修復を可能にすることを目指す。
- InverFillは，既存の少ないステップのモデルの性能を向上させ，画像品質とテキストの一貫性を高める。
- 学習データが不要であり，推論時のオーバーヘッドもわずかである点が特徴である。
- 専門的な修復モデルと同等の性能を，少ない計算量で実現可能であることを実験で示した。
Link: https://arxiv.org/abs/2603.23463
UniFunc3D：3D機能セグメンテーションのための統一されたアクティブな空間的・時間的グラウンディング [cs.CV]目的：3Dシーンにおける機能セグメンテーションの達成
- ロボット工学やコンピュータビジョンの分野において，3Dシーンの理解は不可欠である。
- 既存手法は，視覚情報が不十分な初期タスク解析に課題を抱えている。
- マルチモーダル大規模言語モデルを活用し，視覚的証拠に基づいたタスク分解を実現する。
- UniFunc3Dは，視覚的，時間的，空間的な推論を統合し，直接的な視覚証拠に基づいたタスク分解を行う。
- 粗から細への戦略によるアクティブな空間的・時間的グラウンディングにより，適切なフレームを選択し，詳細なインタラクティブ部分に焦点を当てることができる。
- SceneFun3Dデータセットにおいて，UniFunc3Dは最先端の性能を達成し，学習ベースの手法を含む既存手法を大幅に上回った。
Link: https://arxiv.org/abs/2603.23478
VTAM：視覚・触覚・行動モデル：VLAを超えた複雑な物理的相互作用 [cs.CE, cs.RO, cs.AI, cs.CV, cs.LG]目的：複雑な物理的相互作用における視覚・触覚・行動モデリング
- ロボットの環境理解と操作能力向上には，物理世界とのインタラクション理解が不可欠である。
- 視覚情報のみでは，接触状況などの詳細な相互作用状態の把握が困難である。
- 触覚情報を統合することで，視覚情報の限界を補い，より安定した行動を可能にすることを目指す。
- VTAMは，事前学習済みのビデオTransformerに触覚ストリームを組み込むことで，効率的なクロスモーダル表現学習を実現した。
- 触覚正則化損失を用いることで，マルチモーダル融合の安定性を高め，視覚情報の支配を防ぐことに成功した。
- 接触の多い操作において，VTAMは平均90%の成功率を維持し，既存手法を大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2603.23481
SpecEyes：推測的知覚と計画によるエージェント型マルチモーダルLLMの高速化 [cs.CV, cs.CL]目的：エージェント型マルチモーダルLLMの高速化
- マルチモーダルLLMは高度な推論能力を持つが，処理速度が課題となっている。
- 視覚的ツール呼び出しの連続的なループが，高い遅延と並行性の制限を引き起こす。
- 推測的計画により，ボトルネックを解消し，システム全体の処理能力向上を目指す。
- SpecEyesは，軽量なLLMによる推測的計画を用いて，高価なツールチェーンの早期終了を可能にする。
- 回答分離可能性に基づく認知ゲーティング機構により，精度を損なわずに推測的計画を制御する。
- 異種並列ファンネル設計により，小規模モデルのステートレス並行性を活用し，スループットを最大化する。
Link: https://arxiv.org/abs/2603.23483