arXiv雑要約

画像・音声 - 2026/03/27 公開

欠陥を見て修正する：エージェントによるデータ合成を通じて，視覚的アーティファクトを理解するVLMと拡散モデルの実現 [cs.CV, cs.AI]目的：視覚的アーティファクトの理解と軽減
- 拡散モデルの進歩により画像生成が可能になったが，リアリズムを損なう視覚的アーティファクトが残存する。
- 従来のアーティファクト対応手法は，高コストで拡張性に乏しい人間によるアノテーションに依存している。
- 自動化されたアプローチにより，信頼性の高いアーティファクトアノテーションデータセットを獲得すること。
- 提案手法ArtiAgentは，現実画像とアーティファクト注入画像ペアを効率的に生成する。
- ArtiAgentは，知覚エージェント，合成エージェント，キュレーションエージェントの3つのエージェントで構成される。
- 10万枚のアーティファクトアノテーション付き画像を合成し，多様なアプリケーションにおける有効性と汎用性を示す。
Link: https://arxiv.org/abs/2602.20951
ロバストVisRAG：視覚的劣化に対する因果性認識型ビジョンベースの検索拡張生成 [cs.CV]目的：視覚的劣化環境下におけるビジョンベースの検索拡張生成の頑健性向上
- 画像とテキストを組み合わせた情報処理は，AI技術の発展に伴い重要性が増している。
- 既存のVisRAGモデルは，画像劣化の影響を受けやすく，性能が低下する問題がある。
- 画像劣化要因と意味内容を分離し，安定した情報検索と生成を実現することを目指す。
- RobustVisRAGは，非因果パスと因果パスを用いることで，画像劣化の影響を抑制し，より正確な意味情報を抽出する。
- 提案手法は，現実世界の劣化条件下において，検索，生成，そしてエンドツーエンドの性能をそれぞれ7.35%，6.35%，12.40%向上させた。
- Distortion-VisRAGデータセットを用いて評価を行い，様々な劣化条件下での頑健性を実証した。
Link: https://arxiv.org/abs/2602.22013
ArtPro：可動性提案の適応的統合による自己教師あり関節オブジェクト再構成 [cs.CV]目的：関節オブジェクトの高忠実度デジタルツインの再構成
- ロボット操作やインタラクティブシミュレーション等の応用において，正確な３Dモデルが不可欠である。
- 初期のパーツ分割に大きく依存し，複雑なオブジェクトで局所解に陥りやすいという課題がある。
- 幾何学的特徴と運動事前情報に基づいた過剰セグメンテーションと，運動の一貫性分析による適応的な統合を試みる。
- 提案手法ArtProは，複雑な多部品オブジェクトのロバストな再構成を実現した。
- 既存手法と比較して，再構成の精度と安定性において顕著な性能向上を示した。
- 運動の一貫性分析と衝突回避機構により，誤った運動推定を抑制することに成功した。
Link: https://arxiv.org/abs/2602.22666
拡散モデルに基づくビュー合成による画像アライメントの強化 [cs.CV]目的：画像アライメントのための新しいフレームワークの提案
- 画像アライメントはコンピュータビジョンの基盤技術であり，様々な応用分野で重要である。
- 従来の光学的フローに基づく手法は，オクルージョンや照明の変化に弱く，アライメント精度が低下する。
- 拡散モデルを用いたビュー合成により，これらの課題を克服し，高精度な画像アライメントを実現する。
- DMAlignerは，拡散モデルによる画像生成と動的マスク生成モジュールを組み合わせ，従来のフローベース手法の課題を解決する。
- 動的シーン画像アライメント（DSIA）データセットを新たに開発し，多様なシーンでの評価を可能にした。
- DSIAベンチマークおよびビデオデータセットにおける実験結果は，提案手法の優位性を示すものである。
Link: https://arxiv.org/abs/2602.23022
DashengTokenizer：オーディオ理解と生成のための統一的なアプローチ [cs.SD, eess.AS]目的：オーディオ理解と生成の両タスクに活用できる連続オーディオトークナイザー
- 音声処理技術は，人間と機械のコミュニケーションにおいて不可欠であり，その重要性は増している。
- 従来のオーディオトークナイザーは，理解と生成で異なるアプローチを取り，統合が課題であった。
- 凍結された意味特徴を活用し，音響情報を注入することで，この課題を解決することを試みる。
- 22の多様なタスクにおいて，既存のオーディオコーデックやエンコーダーと比較して大幅に性能が向上した。
- 特に，感情認識，音楽理解，音響シーン分類といったタスクでの性能向上が確認された。
- テキストからオーディオ，テキストから音楽，音声強調といった生成タスクにおいても，標準的なVAEベースの手法を上回った。
Link: https://arxiv.org/abs/2602.23765
拡散プローブ：CNNプローブを用いた生成画像結果の予測 [cs.CV]目的：生成画像の品質予測手法
- 画像生成技術は多様な応用を生み出すが，高品質な画像を効率的に生成することが課題である。
- テキストから画像を生成する拡散モデルは，生成初期段階での品質評価が困難である。
- 拡散モデルの初期段階の情報を活用し，高品質な画像を効率的に生成することを目指す。
- 拡散プローブは，拡散モデルの初期段階のクロスアテンション分布と最終的な画像品質の間に強い相関があることを示した。
- クロスアテンションマップの統計的特徴量を解析することで，最終的な画像品質を高い精度で予測可能である。
- 本手法は，プロンプト最適化や強化学習の高速化など，様々な生成ワークフローにおける計算コスト削減と品質向上に貢献する。
Link: https://arxiv.org/abs/2602.23783
スケールからスピードへ：画像編集のための適応的テスト時スケーリング [cs.CV, cs.AI, cs.LG, eess.IV]目的：画像編集における効率と性能のトレードオフ改善
- 画像生成技術は発展を続け，多様な応用が期待される分野である。
- 画像編集は，生成画像全体の品質を保ちつつ，指示通りの編集を行うことが難しい。
- 編集難易度に応じたリソース配分と検証手法の改善を目指す。
- ADE-CoTは，編集難易度を考慮した動的なリソース配分により効率的な編集を可能にする。
- 編集領域の特定とキャプションの一貫性に基づく検証により，有望な候補を選択する。
- 意図に合致する結果が得られ次第に探索を停止することで，処理速度を向上させる。
Link: https://arxiv.org/abs/2603.00141
測地NVS：新規視点合成のための確率密度測地フローマッチング [cs.CV]目的：新規視点合成における視点間の一貫性向上
- 生成モデルの進歩は目覚ましいが，視点間の一貫性維持が課題である。
- 拡散モデルでは，確率的変換により構造が曖昧になり，不整合な視点予測となる。
- データ間の決定論的変換学習により，一貫性のある合成を目指す。
- 提案手法は，データ多様体の密度ベース測地線に沿って補間軌跡を整列させる。
- 教師・生徒フレームワークを用いて，測地線補間を効率的な予測器に蒸留する。
- ObjaverseとGSO30データセットで，拡散モデルよりも構造の一貫性と滑らかな視点遷移を示す。
Link: https://arxiv.org/abs/2603.01010
UAVアプリケーションにおけるTransformerベースの視覚オブジェクト追跡のアーキテクチャと評価プロトコル [cs.CV]目的：UAVにおける視覚オブジェクト追跡のためのアーキテクチャと評価プロトコルの開発
- UAVの活用が広がる中で，自律飛行や監視などの用途で正確なオブジェクト追跡が不可欠となっている。
- 既存の追跡手法は，複雑な環境下での頑健性や，リアルタイム処理能力に課題がある。
- 限られた計算資源のUAV上での実用的な追跡システムを実現し，その評価方法を確立する。
- Transformerベースのトラッカーと拡張カルマンフィルターを組み合わせたMATAアーキテクチャが，追跡性能を向上させた。
- 新たな評価指標であるNT2Fは，トラッカーが外部介入なしに追跡を維持できる時間を定量化する。
- Nvidia Jetson AGX Orin上でのROS 2実装により，評価プロトコルが組み込みシステムの実性能を正確に反映することが確認された。
Link: https://arxiv.org/abs/2603.03904
FOZO：テスト時適応のための前方のみゼロ次プロンプト最適化 [cs.CV]目的：テスト時適応における性能向上
- 現実世界のデータ分布の変化に対応する深層学習モデルの重要性が高まっている。
- 既存手法は，計算コストやメモリ要件，モデルの変更といった課題を抱えている。
- 計算資源の限られた環境下でのテスト時適応を可能とする手法を確立すること。
- FOZOは，中間特徴統計量と予測エントロピーを最適化するゼロ次プロンプト最適化を利用する。
- 動的に減衰する摂動スケールを導入し，データストリーム下での収束性を理論的に証明した。
- ImageNet-C, ImageNet-R, ImageNet-Sketchにおける実験で，既存手法やFOAを上回る性能を示した。
Link: https://arxiv.org/abs/2603.04733
CoIn3D：構成不変なマルチカメラ3D物体検出の再検討 [cs.CL, cs.CY, cs.CV, cs.RO]目的：マルチカメラ3D物体検出における，構成の違いによる性能低下の克服
- ロボットや自動運転車など，マルチセンサー搭載の物理エージェントの普及に伴い，3D物体検出の重要性が増している。
- 既存のMC3Dモデルは，新しいマルチカメラ構成のプラットフォームへの汎化性能に課題がある。
- 異なるカメラ構成間における空間的情報のずれを解消し，汎化性能の高いMC3Dフレームワークを構築すること。
- CoIn3Dは，焦点距離，深度，勾配，Plücker座標などの空間情報を特徴量に組み込むことで，特徴表現を強化する。
- CoIn3Dは，学習不要な動的視点画像合成によるデータ拡張により，様々な構成下での観測多様性を向上させる。
- NuScenes, Waymo, Lyft等のデータセットにおいて，BEVDepth, BEVFormer, PETRといった主要なMC3Dパラダイムで優れた性能を達成した。
Link: https://arxiv.org/abs/2603.05042
マリオ：大規模言語モデルによるマルチモーダルグラフ推論 [cs.CV]目的：マルチモーダルグラフを用いた推論手法
- 現実世界のデータは関係性を持つため，マルチモーダルデータの構造的理解が重要である。
- 既存手法は画像とテキストを個別に処理し，データ間の関係性を十分に活用できていない。
- グラフ構造を維持しつつ，異なるモダリティの情報を効果的に統合する推論手法を開発する。
- 提案手法マリオは，グラフ構造を考慮した視覚言語モデルにより，テキストと視覚の特徴を共同で洗練する。
- ノードと近傍に対して，最も有益なモダリティ構成を大規模言語モデルに提供する適応型グラフ命令チューニング機構を導入する。
- ノード分類とリンク予測のベンチマークにおいて，最先端のグラフモデルを上回る性能を示した。
Link: https://arxiv.org/abs/2603.05181
グラフ・オブ・マーク：グラフベースの視覚的プロンプトによるマルチモーダル言語モデルの空間推論能力の向上 [cs.CV, cs.AI]目的：マルチモーダル言語モデルにおける空間推論能力の向上
- 画像とテキストを理解するマルチモーダル言語モデルは，多様な応用で重要性が増している。
- 既存手法では，画像中のオブジェクトを独立に扱うため，オブジェクト間の関係性を捉えられない。
- シーングラフを用いてオブジェクト間の関係性を明示的に示すことで，空間推論能力の向上を目指す。
- 提案手法「グラフ・オブ・マーク」は，オブジェクトの位置と相対的な方向性の解釈において，ベースラインよりも最大11%の精度向上を示す。
- 3つのオープンソースのマルチモーダル言語モデルと4つのデータセットを用いて，幅広い実験を行い，有効性を検証した。
- グラフ構造に加え，テキストプロンプトに補助的なグラフ記述を加えることで，性能向上が確認された。
Link: https://arxiv.org/abs/2603.06663
大規模言語視覚モデル駆動による関係性モデリングを用いたクロスビューUAV測位の高度化 [cs.CV]目的：クロスビューUAV測位の精度向上
- ドローン技術の発展に伴い，正確な位置情報取得の重要性が増しているから。
- 既存手法では，異なる視点間の関係性を十分に捉えられていない点が課題である。
- 大規模言語視覚モデルを用いて，UAV画像と衛星画像の間の深い視覚的・意味的相関を学習すること。
- 提案手法は，既存モデルの検索精度を大幅に向上させ，厳しい条件下でも優れた性能を発揮する。
- 大規模言語視覚モデルを活用することで，UAV画像と衛星画像の間の関係性モデリングを効果的に行うことができた。
- 関係性に着目した損失関数を用いることで，モデルの識別能力と学習の安定性を向上させた。
Link: https://arxiv.org/abs/2603.08063
深層学習を用いた放射線誘発性造影増強と腫瘍再発の多角的分類 [cs.CV]目的：放射線治療後の悪性神経膠腫患者における腫瘍再発と放射線誘発性造影増強の識別
- 悪性神経膠腫治療後，再発と放射線影響の鑑別は重要課題であり，患者予後に大きく影響する。
- 拡散MRIは限られた施設でしか利用できず，放射線照射情報を考慮した診断法が不足している。
- 本研究は，放射線照射情報とMRI画像を用いることで，より正確な識別を目指す。
- RICE-NETという深層学習モデルを開発し，従来のT1強調画像と放射線照射量を統合することで，病変の自動分類を実現した。
- 92人の患者コホートを用いた検証の結果，F1スコア0.92という高い精度を達成した。
- 放射線照射マップが正確な分類に不可欠であることが，詳細な実験により示された。
Link: https://arxiv.org/abs/2603.11827
HIFICL：マルチモーダルタスクのための高忠実度インコンテキスト学習 [cs.CV]目的：マルチモーダルタスクにおけるインコンテキスト学習メカニズムの高精度なモデル化
- 大規模マルチモーダルモデルの性能向上は，多様な応用展開に不可欠である。
- インコンテキスト学習は，デモンストレーションの構成に左右されやすく，計算コストが高いという課題がある。
- 既存手法の近似誤差を低減し，より効率的かつ高性能なインコンテキスト学習を実現すること。
- HIFICLは，仮想的なキーバリューペアと低ランク分解を導入することで，インコンテキスト学習メカニズムを高精度にモデル化している。
- 提案手法は，既存の近似手法と比較して，複数のマルチモーダルベンチマークにおいて一貫して優れた性能を示した。
- HIFICLは，文脈を考慮したパラメータ効率の良いファインチューニングの一形態と捉えることができる。
Link: https://arxiv.org/abs/2603.12760
MOGeo：クロスビュー多物体地理位置特定 [cs.RO, cs.RO, cs.CV]目的：クロスビュー多物体地理位置特定における課題解決
- 地理空間情報と画像認識の融合は，都市計画や災害対応など多岐にわたる応用が期待される分野である。
- 既存手法は単一物体を対象とするため，現実の複雑なシーンに対応できず，実用性に課題がある。
- 現実的な多物体を含む環境下での地理位置特定精度の向上を目指す。
- 本研究では，クロスビュー多物体地理位置特定のためのベンチマークデータセットCMLocationを構築した。
- 提案手法MOGeoは，既存手法と比較して，より現実的な設定下で優れた性能を示すことが確認された。
- クロスビュー物体地理位置特定は依然として困難な課題であり，今後の研究の余地が大きい。
Link: https://arxiv.org/abs/2603.13843
乱流下におけるイベントベース光場による高速イメージング [cs.CV]目的：強大気乱雑下での高速移動拡張非剛体物体のイメージングシステム
- 大気乱雑は屋外での視覚認識に深刻な影響を与えるため，その克服は重要である。
- 従来のカメラでは，高速移動物体と乱雑の区別が難しく，高フレームレートでの撮影が困難である。
- イベントベース光場カメラにより，乱雑と物体の運動を区別し，高速イメージングを実現することを目指す。
- イベントベース光場カメラは，異なる視点からシーンを同時に捉え，乱雑と物体の運動を識別する。
- 実験の結果，本システムは強大気乱雑下でも，最大16,000ピクセル/秒で移動する高速物体をイメージング可能であることが示された。
- これにより，従来のシステムでは困難であった高速イメージングが実現された。
Link: https://arxiv.org/abs/2603.14023
拡散ノイズにおける物理法則の探求 [cs.CV, cs.AI, cs.LG, cs.RO]目的：動画拡散モデルにおける物理的妥当性の予測信号の存在
- 物理シミュレーションの精度向上は，現実世界のモデリングにおいて不可欠である。
- 拡散モデル生成動画の物理的整合性は未解決の課題である。
- 拡散モデルの潜在表現から物理法則に関する情報を抽出・活用すること。
- 事前学習済みの拡散モデル中間表現において，物理的に妥当な動画とそうでない動画が分離可能であることが示された。
- この分離性は，視覚的品質や生成器の識別性だけでは説明できず，物理関連の信号が含まれていることが示唆された。
- 提案手法である逐次軌道選択は，推論コストを削減しつつ物理的な整合性を改善し，Best-of-Kサンプリングと同等の結果を達成した。
Link: https://arxiv.org/abs/2603.14294
WiT：経路衝突ナビゲーションによるウェイポイント拡散Transformer [cs.CV]目的：画像生成における経路衝突の解消
- 高画質画像生成技術は，多様な応用分野で不可欠であり，その性能向上は重要な課題である。
- Flow Matchingモデルはピクセル空間で直接動作するが，経路衝突が頻発し，最適な解が得られない場合がある。
- 本研究は，ウェイポイントを導入することでピクセル空間の経路を分離し，生成性能を向上させることを目指す。
- WiTは，事前学習済みのビジョンモデルから投影されたウェイポイントを導入することで，連続ベクトル場を分解する。
- これにより，最適な輸送経路をウェイポイント前後の2つのセグメントに分割し，生成経路の分離を実現する。
- ImageNet 256x256での実験により，WiTは既存のピクセル空間ベースラインを上回り，JiTトレーニングの収束を2.2倍に加速することを示した。
Link: https://arxiv.org/abs/2603.15132
MLLMによる360度画像認識：包括的ベンチマークと学習不要手法 [cs.CV, cs.AI]目的：360度画像に関するMLLMの認識能力の評価と向上
- 近年，MLLMは画像理解で高い性能を示すが，360度画像への対応は遅れている。
- 360度画像は歪みや複雑な空間関係があり，従来の画像処理では困難が生じる。
- 360度画像に対するMLLMの認識能力を向上させるための手法を開発する。
- 360Benchは，7K解像度の360度画像を対象としたVQAベンチマークであり，7つのタスクを含む。
- 実験の結果，既存のMLLMは360度画像認識において課題を抱えていることが明らかになった。
- Free360は学習不要で，シーングラフに基づくフレームワークにより360度VQAの性能を向上させる。
Link: https://arxiv.org/abs/2603.16179
継続学習のための正しい弾性重み固定化 [eess.SY, cs.SY, eess.SP, cs.LG, cs.AI, cs.CV]目的：継続学習における破滅的忘却の緩和
- 機械学習モデルは新しいタスクを学習する際，過去の知識を忘れてしまうことがある。
- 既存の弾性重み固定化法は，重み重要度の推定に課題があり，性能が不十分である。
- 重み重要度の推定方法を修正し，継続学習の性能向上を目指す。
- 弾性重み固定化(EWC)がFisher情報行列に依存することで勾配消失や不正確な重み重要度推定が生じることを指摘。
- 提案手法Logits Reversal (LR)は，EWCの重み重要度推定を修正し，勾配消失と冗長な保護を効果的に防止する。
- 様々な継続学習タスクにおいて，提案手法LRは既存のEWCとその派生手法を大幅に上回る性能を示す。
Link: https://arxiv.org/abs/2603.18596
胃癌分析のためのビジョン言語モデル発展に貢献するマルチモーダル多相ベンチマークデータセット Gastric-X [cs.CV, cs.AI]目的：胃癌分析のためのビジョン言語モデルの性能評価と理解
- 近年，医療分野においてもAI活用が期待される中，高精度な診断支援システムの構築が重要視されている。
- 既存のデータセットは臨床ワークフローを網羅的に捉えておらず，現実的な医療現場での応用が限定されている。
- 臨床ワークフローを反映した包括的なデータセットを提供し，胃癌診断におけるビジョン言語モデルの性能向上を目指す。
- Gastric-Xは，1700例の胃癌症例を含む大規模なマルチモーダルベンチマークデータセットである。
- データセットは，CT画像，内視鏡画像，生化学的指標，診断レポート，腫瘍領域のバウンディングボックスを含む。
- 主要なビジョン言語モデルの性能を，VQA，レポート生成，クロスモーダル検索などのタスクで評価した結果，現状では生化学的指標と画像特徴の関連性の理解に課題があることが示唆された。
Link: https://arxiv.org/abs/2603.19516
自己制約事前知識を用いた高忠実度表面再構成のための3Dガウススプラッティング [cs.CV]目的：高忠実度表面再構成
- 3Dコンテンツ生成において，高品質な表面再構成は不可欠であり，様々な応用分野の発展に貢献する。
- 既存の3Dガウススプラッティングは高速かつ高品質だが，表面の忠実度向上の余地が残されている。
- より正確な深度レンダリングを実現するため，3Dガウスの学習を制約する自己制約事前知識を導入する。
- 提案手法では，現在の3Dガウスでレンダリングされた深度マップを融合して得られるTSDFグリッドから自己制約事前知識を導出する。
- この事前知識は，推定された表面の周りの距離場を測定し，3Dガウスの削除，移動，不透明度の調整といった制約を課す。
- 最新の深度画像によって事前知識を定期的に更新し，制約を徐々に強めることで，表面再構成の精度を向上させる。
Link: https://arxiv.org/abs/2603.19682
適応的多様相MRI脳腫瘍セグメンテーションのためのハイパーコネクション [cs.CV]目的：多様相MRI脳腫瘍セグメンテーションにおけるハイパーコネクションの有効性
- 脳腫瘍の正確なセグメンテーションは，診断精度向上や治療計画の最適化に不可欠である。
- 多様相MRI画像からの特徴抽出において，情報融合が困難であり，セグメンテーション精度が制限される。
- ハイパーコネクションを導入し，多様相MRI画像の効率的な特徴融合とセグメンテーション精度向上を目指す。
- ハイパーコネクションは，BraTS 2021データセットにおいて，5つの異なるアーキテクチャ全てで3DモデルのDice係数を平均で1.03%向上させた。
- 特に，腫瘍増強領域において境界の識別精度が向上し，臨床的に重要なT1ceおよびFLAIRシーケンスへの感度が高まった。
- 2D設定では改善効果は小さく，3Dボリューム空間コンテキストが適応的な集約の利点を増幅することが示唆された。
Link: https://arxiv.org/abs/2603.19844
Cov2Pose：空間共分散を活用した直接的マニホールド認識6自由度物体姿勢推定 [cs.CV]目的：単一RGB画像からの6自由度物体姿勢推定
- ロボット工学やコンピュータビジョンの分野において，物体の姿勢推定は重要な課題である。
- 直接的な姿勢推定手法は計算効率が良いが，精度が低いという問題点が存在する。
- 空間共分散を活用し，連続的な姿勢表現を用いることで，直接推定の精度向上を目指す。
- 本研究では，畳み込み特徴分布を対称正定値行列として符号化する共分散プーリング表現を提案した。
- さらに，コレスキー分解を用いて姿勢をSPD行列として表現し，マニホールド認識ネットワークヘッドを用いて姿勢を回帰する。
- 実験結果から，本手法が第二階プーリングと連続表現の有効性を示し，部分的な遮蔽下でも良好な性能を発揮することが確認された。
Link: https://arxiv.org/abs/2603.19961
JANUS：分布最適化によるテキスト画像モデルの脱獄のための軽量フレームワーク [cs.CL, cs.CV, cs.LG]目的：テキスト画像モデルの脱獄手法
- テキスト画像モデルの安全性確保は重要である。有害または不適切なコンテンツ生成を防ぐ必要がある。
- 既存の脱獄攻撃は，真のend-to-endな最適化ではなく，大規模な計算コストを伴う場合がある。
- JANUSは，効率的な探索とターゲットセマンティクスの維持を通して，脱獄問題を解決することを目指す。
- JANUSは，テキスト画像モデルの安全フィルターを回避する脱獄攻撃を，分布最適化として定式化した。
- Stable Diffusion 3.5 Large Turboにおいて，ASR-8の成功率を25.30%から43.15%に向上させた。
- 本研究は，現在のテキスト画像モデルの安全パイプラインの構造的な弱点を明らかにし，より強固な防御策を促す。
Link: https://arxiv.org/abs/2603.21208
ジオメトリを考慮した特徴量ガイド付きアライメントによるクロスインスタンスガウススプラッティング登録 [cs.CV]目的：異なる3Dガウススプラッティングモデルのアライメント
- 3Dモデリングは，コンピュータビジョンやロボティクス等の分野で重要な役割を担う技術である。
- 既存手法では，同一オブジェクト間のアライメントに限定され，異なるオブジェクト間では困難であった。
- 同一カテゴリ内異なるオブジェクト間での効果的な3DGS登録手法を確立すること。
- 提案手法GSAは，回転，並進，スケール変換を用いて2つの独立した3Dガウススプラッティングモデルをアライメントする。
- GSAは，スケールを明示的に与えなくても推定が可能であり，粗い初期値に対してもロバストな性能を示す。
- 同一オブジェクト間，異なるオブジェクト間双方において，既存手法を大きく上回る成果が得られた。
Link: https://arxiv.org/abs/2603.21936
ストリーミングクロウ技術報告 [cs.CV]目的：ストリーミングビデオ理解と具現化された知能のための統合エージェントフレームワーク
- 近年，具現化された知能などの応用が発展し，リアルタイムな知覚・決定・行動ループが求められている。
- 既存のエージェントは，オフライン処理に限定，長期的なマルチモーダル記憶の欠如，リアルタイム推論の困難さなどの課題を抱えている。
- 複雑な環境下で持続的な知覚，リアルタイムな意思決定，閉ループな行動を可能にするフレームワークを提案し，実世界への応用を目指す。
- 本研究では，ストリーミングビデオ理解と具現化された知能のための統合フレームワーク「StreamingClaw」を提案する。
- StreamingClawは，リアルタイムなストリーミング推論，将来予測，マルチモーダル長期記憶，知覚・決定・行動の閉ループをサポートする。
- OpenClawフレームワークとの互換性を維持し，オープンソースコミュニティのリソースを活用できる点も特徴である。
Link: https://arxiv.org/abs/2603.22120
グループ編集：一括での複数画像編集 [cs.CV]目的：関連する画像群に対する一貫性のある統一的な修正
- 画像編集技術は，写真加工やコンテンツ生成など，多様な応用分野で不可欠である。
- 複数の画像間で視点やレイアウトが異なる場合，一貫した編集を行うことが困難である。
- 画像間の信頼性の高い対応関係を確立し，意味的に整合した領域に正確に修正を適用すること。
- 提案手法GroupEditingは，明示的・暗黙的双方の画像間の関係性を構築する新しいフレームワークである。
- VGGTを用いた幾何学的対応と，事前学習済みの動画モデルを活用した潜在的な関係性の学習を融合する。
- 大規模な学習を支援するためのデータセットGroupEditDataと，グループレベルの画像編集を評価するためのベンチマークGroupEditBenchを構築した。
Link: https://arxiv.org/abs/2603.22883
動的シーンのためのストリーミング言語対応再構成モデルSLARM [cs.CV]目的：動的シーン再構成，意味理解，リアルタイムストリーミング推論の統合
- 現実世界の理解には，時間変化するシーンの正確な認識が不可欠である。
- 従来の動的シーン再構成は，フロー推定に依存し，計算コストが高い場合がある。
- 言語によるシーンクエリを可能にし，再構成精度とロバスト性を向上させる。
- SLARMは，高次の運動モデリングにより複雑な非一様運動を捉え，微分可能なレンダリングのみで学習する。
- LSegからの意味特徴を蒸留することで，言語に整合した表現を獲得し，セマンティッククエリを可能にする。
- ウィンドウベースの因果注意機構により，安定した低遅延ストリーミング推論を実現し，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2603.22893
一貫した奥行き情報を利用した360度動画の姿勢推定不要全方向ガウススプラッティング [cs.CV]目的：360度動画からの3Dガウス再構成
- 360度映像の没入感向上に貢献する3Dシーン表現技術の重要性が高まっている。
- 既存手法はSfMによるカメラ姿勢推定に依存し，処理速度が遅いという課題があった。
- 姿勢推定を不要とし，効率的かつ高精度な3Dガウス再構成を実現することを目的とする。
- 提案手法PFGS360は，姿勢情報なしに360度動画から3Dガウスを再構成できる。
- ガウス内部の奥行き情報を活用し，2D-3D対応関係から姿勢を推定するモジュールを導入した。
- 深度内の信頼性に基づきガウスを効率的に高密度化し，写実的な新規視点合成を実現した。実写・合成データで既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.23324
3Dガウススプラッティングの再構成のための確率的レイトレーシング [cs.CV]目的：3Dガウススプラッティングの再構成とレンダリング
- 3Dシーンの表現において，高精度かつ効率的なレンダリング手法の確立が重要である。
- 従来のラスタライズ方式は，カメラモデルの制約や影の精度，反射・屈折の表現に課題がある。
- レイトレーシングの利点を活かし，ラスタライズの近似手法に頼らない汎用的な3DGS手法を開発する。
- 本研究では，ソートを必要としない確率的レイトレーシングによる3DGSの新しいフレームワークを提案した。
- 提案手法は，従来のラスタライズベースおよびソートベースのレイトレーシングと比較して，再構成品質と速度で優れている。
- 特に，再光線可能3DGSにおいて，より高精度な再構成を実現した。
Link: https://arxiv.org/abs/2603.23637
GenMask：直接マスク生成によるDiTのセグメンテーションへの適応 [cs.CV]目的：セグメンテーションのためのDiTの適応手法
- 画像認識分野において，セグメンテーションはピクセルレベルでの理解を可能にする重要な技術である。
- 既存手法は特徴抽出に依存しており，表現のずれや複雑なワークフローが課題となっていた。
- 生成的な方法でセグメンテーションを直接学習することで，これらの課題を克服することを目指す。
- GenMaskは，セグメンテーションマスクとRGB画像を同時に生成することで，特徴抽出パイプラインを不要にした。
- 提示された手法は，参照および推論セグメンテーションベンチマークにおいて最先端の性能を達成した。
- バイナリマスクに対するタイムステップサンプリング戦略が，性能向上に貢献していることが示された。
Link: https://arxiv.org/abs/2603.23906
眼科のための汎用性と開放性の大規模モデルVOLMO [cs.CV, cs.ET]目的：眼科領域特化型マルチモーダル大規模言語モデルの開発フレームワーク
- 視覚障害は世界中で多くの人々に影響を与えており，早期発見が不可欠である。
- 眼科医の診断は時間がかかり負担が大きく，効率化が求められている。
- 既存の汎用モデルや医療モデルの眼科領域における性能改善を目指す。
- VOLMO-2Bは，画像の説明生成，疾患のスクリーニングと分類において，既存モデルを上回る性能を示した。
- 12種類の眼疾患に対して平均F1スコア87.4%を達成し，外部検証においても良好な結果を得た。
- 眼科医による手動レビューと外部コホートによる検証により，VOLMOの有効性が確認された。
Link: https://arxiv.org/abs/2603.23953
非キャリブレーション画像からのロバストで柔軟な3D手メッシュ再構成 [cs.CV]目的：非キャリブレーション画像からの3D手メッシュ再構成手法
- ロボティクス，アニメーション，VR/ARなど，コンピュータビジョンの重要な課題である。
- 単一視点では深度の曖昧さやオクルージョンが課題。複数視点ではキャリブレーションが必要となる。
- キャリブレーション不要で，大規模データにも対応できる手法を開発する。
- 提案手法は，3D手メッシュとカメラポーズを同時に推定する。
- 既存手法を上回り，非キャリブレーション環境での汎化性能も高い。
- 3D foundationモデルの知見を応用し，視覚と幾何学を関連付ける。
Link: https://arxiv.org/abs/2603.23997
ScrollScape：ビデオ拡散事前知識を用いた32K画像生成の実現 [cs.CL, cs.CV]目的：超高解像度・極端なアスペクト比の画像生成
- 画像生成技術は，多様な分野で活用が広がっており，その重要性は増している。
- 従来の画像生成モデルでは，極端なアスペクト比の画像を生成する際に構造的な問題が生じやすい。
- ビデオ拡散モデルの持つ空間一貫性を利用し，構造的な問題を解決することで高解像度画像生成を可能にする。
- ScrollScapeは，大規模キャンバスの空間的拡大をビデオフレームの時間的発展として捉えることで，長距離構造の一貫性を確保する。
- Scanning Positional EncodingとScrolling Super-Resolutionにより，効率的なメモリ利用と32K解像度へのスケーリングを実現した。
- 評価実験の結果，既存の画像拡散モデルと比較して，ScrollScapeは構造的なアーティファクトを大幅に削減し，優れた全体的なコヒーレンスと視覚的な忠実度を示した。
Link: https://arxiv.org/abs/2603.24270
TopoMesh：トポロジーの統合による高精度メッシュ自動エンコーディング [cs.CV]目的：高精度3D生成のためのメッシュ自動エンコーディング手法
- 3D生成技術は，仮想現実やロボティクスなど幅広い分野で重要性が増している。
- 既存のVAEは，生成されるメッシュのトポロジーと元のメッシュのトポロジーの不一致が課題である。
- トポロジーを統一することで，メッシュレベルでの直接的な教師信号を導き出し，再構成精度を向上させる。
- TopoMeshは，デュアル・マーチング・キューブス（DMC）トポロジーフレームワークを用いて，入力メッシュと予測メッシュのトポロジーを統合する。
- これにより，頂点や面のレベルで明示的な対応関係を確立し，より鮮明な幾何学的特徴を再構成することが可能となる。
- 実験の結果，TopoMeshは既存のVAEよりも再構成精度が大幅に向上し，特にシャープな特徴や幾何学的詳細の保存において優れていることが示された。
Link: https://arxiv.org/abs/2603.24278
RS-SSM：ビデオセマンティックセグメンテーションのための状態空間モデルにおける忘れられた詳細の洗練 [cs.CV]目的：ビデオセマンティックセグメンテーションにおける状態空間モデルの性能向上
- ビデオセマンティックセグメンテーションは，自動運転やロボット工学など，様々な分野で重要性が増している。
- 状態空間モデルは効率的だが，固定サイズの状態空間により詳細な情報が失われ，セグメンテーション精度が制限される。
- 失われた詳細情報を補完し，状態空間モデルのセグメンテーション能力を向上させることを目指す。
- 提案手法RS-SSMは，チャネルワイズ振幅パーセプトロン（CwAP）と忘却ゲート情報リファイナー（FGIR）により，忘れられた時空間情報を洗練する。
- FGIRは，状態空間モデルの忘却ゲート行列を適応的に反転・洗練し，失われた詳細情報を補完する。
- 4つのVSSベンチマークにおける実験により，RS-SSMが最先端の性能を達成し，高い計算効率を維持することが示された。
Link: https://arxiv.org/abs/2603.24295
ニューロンレベルのドロップインと神経可塑性メカニズムによるディープフェイク音声検出の効率と性能の向上 [cs.SD, cs.AI]目的：ディープフェイク音声検出における効率と性能の向上
- 音声のディープフェイク検出は，セキュリティや信頼性確保において重要性が増している。
- モデルのパラメータ増加は計算コスト増大を招き，再学習が必要となるという課題がある。
- ニューロンの動的な調整により，パラメータ効率を高め，計算コストを削減することを目指す。
- 提案手法であるドロップインは，計算効率を改善することを示した。
- ドロップインおよび可塑性アプローチにより，ASVSpoof2019データセットにおいて，それぞれ最大約39%と66%の等価エラー率の相対的な削減を達成した。
- 本研究は，ResNet，GRU，Wav2Vecを含む様々なアーキテクチャで有効であることを確認した。
Link: https://arxiv.org/abs/2603.24343
低S/N比UAV検出のための音響イメージング：高密度ビームフォーミングエネルギーマップとU-Net SELD [eess.AS, cs.AI, cs.SD, eess.SP]目的：360度音源定位の新たな手法
- ドローン利用の拡大に伴い，騒音問題や安全確保が重要になっている。
- 従来の音源定位技術では，低S/N比環境下での精度が課題となっていた。
- 本研究は，低S/N比環境下でもロバストなUAV検出を目指している。
- U-Netモデルを用いて，ビームフォーミングされた音響エネルギーマップをセマンティックセグメンテーションすることで，音源の空間的な分布を特定する。
- 周波数領域で学習を行うことで，クラス不均衡問題に対応し，S/N比の低い状況下でも高い定位精度を実現した。
- 提案手法は，マイクロホンアレイに依存せず，様々な構成に容易に対応可能である。
Link: https://arxiv.org/abs/2508.00307
ASVspoof 5：クラウドソーシング音声を用いた偽装，ディープフェイク，敵対的攻撃検出の評価 [eess.SP, cs.SD]目的：音声偽装とディープフェイク検出ソリューションの評価
- 音声認証技術の安全性を確保することは，社会インフラや個人情報の保護において不可欠である。
- 既存の音声偽装検出技術は，新しい攻撃手法や圧縮技術に対して脆弱であることが課題である。
- 本研究は，よりロバストな音声偽装・ディープフェイク検出技術の開発を促進することを目的とする。
- ASVspoof 5チャレンジでは53チームが参加し，多くのソリューションが良好な性能を示した。
- しかし，敵対的攻撃やニューラルエンコーディング/圧縮方式の適用により，性能が低下することが示された。
- チャレンジ後の結果レビューやキャリブレーションに関する研究も報告され，今後のASVspoofの方向性が示された。
Link: https://arxiv.org/abs/2601.03944
デジタル市場におけるビルダー飽和の経済学 [econ.TH, cs.CY, cs.GT, cs.LG, econ.GN, q-fin.EC]目的：デジタル市場におけるビルダー飽和現象の分析
- 生成AI技術の進化はデジタルコンテンツの生産コストを劇的に低下させ，新たなビジネス創出の可能性を示唆している。
- 市場への参入障壁が低い一方で，人間の注意資源は有限であり，生産者の増加がリターンを低下させる可能性がある。
- 生成AIによる民主化された生産が，起業家精神の普及よりも競争激化と勝者総取り現象を引き起こす可能性を検証する。
- 生成AIによる生産コスト低下は，必ずしも企業数の増加につながらないことが示された。
- 有限な注意資源の制約により，生産者の増加は平均的なリターンを低下させ，集中化を促進する。
- 市場均衡は，パワーローのような分布を示し，平均的な収益が減少し，少数の成功者に富が集中する傾向がある。
Link: https://arxiv.org/abs/2603.23685