arXiv雑要約

画像・音声 - 2026/03/24 公開

超低保持率におけるVideo-LLMのための統一的な時空間トークン圧縮 [cs.CY, cs.CV]目的：Video-LLMにおける計算コスト削減のための時空間トークン圧縮手法
- 動画理解において，大規模言語モデルの活用が重要となる中，計算資源の制約が課題となっている。
- 既存のトークン圧縮手法では，時空間分離を仮定しており，極端に低い保持率では情報損失が問題となる。
- 本研究は，時空間全体を考慮した統一的な圧縮により，低い保持率でも性能劣化を抑制することを目的とする。
- 提案手法は，既存のVideo-LLMにプラグアンドプレイで組み込むことが可能であり，再学習を必要としない。
- わずか2%のトークン保持率で，ベースライン性能の90.1%を維持し，FLOPsを約2.6%に削減することに成功した。
- この効果は様々なバックボーンで確認され，推論遅延とメモリ消費量を削減することに貢献する。
Link: https://arxiv.org/abs/2603.21957
ビルマ手書き数字データセット (BHDD) [eess.SY, cs.SY, cs.CV, cs.CL]目的：ビルマ手書き数字画像群
- ビルマ語のデジタル化は，文化遺産の保護や情報アクセス向上に不可欠である。
- 手書き文字認識は，文字の多様性から，既存手法では十分な精度が出ない場合がある。
- ビルマ数字の手書き文字認識の基礎データセットを提供し，認識精度向上に貢献する。
- 本データセットは，10種類のビルマ数字の手書き画像87,561枚で構成される。
- 単純なニューラルネットワークモデルで，テスト精度99.40%以上の結果が得られている。
- データセットは，CC BY-SA 4.0ライセンスで公開されており，広く利用可能である。
Link: https://arxiv.org/abs/2603.21966
GeoFusion-CAD：幾何状態空間を用いた構造認識型拡散によるパラメトリック3Dデザイン [cs.CV, cs.GR]目的：パラメトリック3Dデザインの長コマンド列生成
- 現代の3Dモデリングにおいて不可欠なパラメトリックCADの発展を支える。
- 複雑な幾何学的・トポロジカル依存関係下での長コマンド列生成が困難である。
- スケーラブルで構造を認識した長コマンド列生成を可能にする。
- GeoFusion-CADは，CADプログラムを階層的ツリーとして符号化し，拡散過程を通じて幾何学とトポロジーを同時に捉える。
- 軽量なC-Mambaブロックが選択的な状態遷移を通じて長距離構造依存性をモデル化し，一貫性のあるコマンド列生成を実現する。
- 長系列評価用のベンチマークDeepCAD-240を導入し，Transformerベースモデルの性能劣化を防ぎながら，優れた生成性能を示した。
Link: https://arxiv.org/abs/2603.21978
単純さによる速度：高速な音声・映像生成基盤モデルのための単一ストリームアーキテクチャ [cs.CV]目的：人間中心の生成のための，音声と映像を同時に生成する基盤モデル
- 近年，テキストから音声や映像を生成する技術が発展し，様々な応用が期待されている。
- 既存のモデルは複雑な構造を持つことが多く，計算コストが高いという課題があった。
- 単一ストリームアーキテクチャにより，効率的かつ高品質な生成を実現することを目指す。
- daVinci-MagiHumanは，単一ストリームTransformerを用いて，テキスト，映像，音声を統合的に処理する。
- 自動評価において，既存のオープンソースモデルと比較して，視覚品質とテキストとの整合性で高い性能を示した。
- 人間による評価では，Ovi 1.1やLTX 2.3と比較して，高い勝率を記録した。
Link: https://arxiv.org/abs/2603.21986
LRC-WeatherNet：自動運転におけるリアルタイムな気象タイプ分類のためのLiDAR，RADAR，カメラ融合ネットワーク [cs.CV, cs.AI]目的：自動運転におけるリアルタイムな気象タイプ分類のための手法
- 悪天候は自動運転の安全性に大きな影響を与えるため，正確な気象認識が不可欠である。
- 単一のセンサーでは，悪天候下で性能が低下するため，信頼性の高い気象認識が困難である。
- LiDAR，RADAR，カメラの情報を統合することで，悪天候下でもロバストな気象認識を実現することを目指す。
- 提案手法LRC-WeatherNetは，LiDAR，RADAR，カメラデータを統合し，気象条件のリアルタイムな分類を可能にする。
- MSU-4Sデータセットを用いた評価で，LRC-WeatherNetは，悪天候下において単一センサーによる手法を大きく上回る性能を示した。
- 本研究は，自動運転におけるロバストでリアルタイムな気象分類のために，LiDAR，RADAR，カメラを組み合わせた最初の試みである。
Link: https://arxiv.org/abs/2603.21987
STENet：RGB-D画像における顕著物体検出のためのスーパーピクセル・トークン強化ネットワーク [cs.CV]目的：RGB-D画像における顕著物体検出の性能向上
- RGB-D画像は，現実世界の認識において重要な役割を担う。多様な情報を含むため，応用範囲が広い。
- 既存手法は，計算コストが高い，局所的な詳細情報の抽出が難しいといった課題を抱えている。
- スーパーピクセルを活用することで，計算効率と局所詳細の抽出を両立し，性能向上を目指す。
- 提案手法STENetは，スーパーピクセルをクロスモーダル相互作用に導入し，グローバルとローカルの特徴を強化する。
- スーパーピクセル生成方法を改良し，ピクセルとスーパーピクセルの柔軟な変換を可能にした。
- 7つのRGB-D SODデータセットにおいて，最先端手法と遜色ない性能を達成した。
Link: https://arxiv.org/abs/2603.21999
SegMaFormer：効率的なセグメンテーションのための状態空間とTransformerのハイブリッドモデル [cs.CV, cs.AI]目的：3D医療画像セグメンテーションのための効率的な長距離依存性モデリング手法
- 医療画像解析において，正確なセグメンテーションは診断や治療計画に不可欠であり，高精度なモデルが求められている。
- Transformerモデルは高性能だが，計算コストやパラメータ数が多く，限られたデータセットでの学習が課題となっている。
- 計算資源の制約下でも高精度なセグメンテーションを実現する，軽量なモデルの開発を目的とする。
- SegMaFormerは，MambaとTransformerを組み合わせたハイブリッドアーキテクチャにより，計算効率と性能の両立を達成した。
- パラメータ数を最大75倍，FLOPsを大幅に削減しつつ，既存の最先端モデルと同等のDice係数を実現した。
- Synapse，BraTS，ACDCの3つのベンチマークにおいて，競争力のある性能を実証した。
Link: https://arxiv.org/abs/2603.22002
曲面組織表面の6DロボットOCTスキャン [cs.CV, cs.RO]目的：曲面組織表面のスキャン手法
- 生体組織の非侵襲的かつ高精度な三次元イメージングの需要が高まっている。
- 従来のロボットスキャンでは，曲面組織への対応が難しく，誤差の蓄積が問題となる。
- ロボットアームとOCTプローブの完全な6次元キャリブレーションにより，曲面組織のスキャンを可能とする。
- 提案手法によるキャリブレーションは，高い再現性で変換を推定できることが示された。
- ファントム表面のロボットスキャン評価により，提案手法が大きな曲面組織表面の一貫したスキャンを可能にすることが確認された。
- 画像レジストレーションに依存しないため，スキャン経路に沿った誤差の蓄積を抑制できる。
Link: https://arxiv.org/abs/2603.22012
推論時のリアルワールド画像復元調整：フローマッチングモデルのためのテスト時スケーリングパラダイム [cs.CV]目的：リアルワールド画像復元の性能向上
- 実世界画像復元は，画像処理において重要な課題であり，その品質向上は様々な応用を可能にする。
- 大規模な事前学習済みテキスト画像生成モデルの効率的な活用が難しく，潜在能力を十分に引き出せていない。
- テスト時スケーリングパラダイムにより，計算コストを制御しつつ，復元性能を大幅に向上させることを目指す。
- ResFlow-Tunerは，最先端のフローマッチングモデルFLUX.1-devを基盤とし，UMMFとTTSを統合することで，従来にない復元性能を実現した。
- 本手法は，MM-DiTアーキテクチャの利点を最大限に活用し，マルチモーダル条件を統一されたシーケンスにエンコードすることで，高品質な画像合成を導く。
- トレーニングフリーなテスト時スケーリングパラダイムは，報酬モデルからのフィードバックを通じてノイズ除去方向を動的に制御し，性能向上を実現する。
Link: https://arxiv.org/abs/2603.22027
GTSR：半透明表面再構成のためのサブサーフェス散乱を考慮した3Dガウス [cs.CV]目的：半透明物体の3次元再構成
- 現実世界の多様な物体をデジタル空間に再現する上で重要である。特に半透明物体の正確な表現は，写実的な映像制作に不可欠。
- 従来の再構成手法は計算コストが高いか，半透明物体の光学特性を考慮できていないため，高品質な再構成が困難であった。
- 半透明物体の表面と内部の散乱をモデル化し，より効率的かつ高精度な再構成を可能にすることを目指す。
- 提案手法GTSRは，表面ガウスと内部ガウスを組み合わせることで，半透明物体の表面形状と散乱色を効果的にモデル化する。
- フレネル項を用いたガウスのブレンドにより，半透明物体の外観をリアルタイムでレンダリングする。
- Disney BSDFモデルと遅延レンダリングを活用し，非等高線領域の詳細な再構成を改善する。
Link: https://arxiv.org/abs/2603.22036
DTVI：安全なテキストから画像生成のための二段階テキスト・視覚介入 [cs.CV]目的：安全なテキストから画像生成のための防御手法
- テキストから画像生成モデルは強力だが，不適切なコンテンツ生成のリスクが課題である。
- 既存手法はトークン単位での介入に留まり，巧妙なプロンプトには脆弱である。
- 分散した悪意のある意味を捉え，生成段階での影響を軽減する。
- 提案手法DTVIは，二段階の介入により，悪意のある意味を効果的に捕捉し，安全性を高める。
- 実世界および敵対的プロンプトを用いた実験で，高い防御成功率（平均94.43％）を達成した。
- 良質な画像を維持しつつ，有害なカテゴリに対する防御性能を実証した。
Link: https://arxiv.org/abs/2603.22041
双曲視覚言語モデルにおける不確実性に基づく構成的アラインメントと部分-全体意味表現性の活用 [cs.CV, cs.AI]目的：双曲視覚言語モデルにおける部分-全体意味表現性のモデリング
- 視覚言語モデルの性能向上は，画像とテキストの理解において重要である。
- 従来のモデルは，部分-全体のような階層構造の捉え方に課題がある。
- 部分-全体の意味表現性を考慮し，より精度の高いアラインメントを目指す。
- 提案手法UNCHAは，不確実性を活用し，部分-全体の関係をより正確にモデル化する。
- UNCHAは，より代表的な部分に低い不確実性を，そうでない部分に高い不確実性を割り当てる。
- その結果，ゼロショット分類，検索，マルチラベル分類のベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.22042
AnimalCLAP：タクソノミーを意識した言語・音声事前学習による種認識と特性推論 [cs.SD, cs.LG]目的：野生動物の種認識と特性推論
- 野生動物の個体数調査や生態モニタリングにおいて，音声は重要な情報源となる。
- 訓練データに存在しない種に対する認識精度が課題となっていた。
- タクソノミー構造を利用し，未知の種の認識精度向上を目指す。
- 提案手法AnimalCLAPは，6,823種，4,225時間の音声データセットを用いて学習された。
- AnimalCLAPは，音声とテキスト表現をタクソノミー構造に基づいて整合させることで，未知種に対する認識性能を向上させている。
- 種の声から直接，生態的・生物学的特性を推論する性能がCLAPよりも優れていることが示された。
Link: https://arxiv.org/abs/2603.22053
FontCrafter：視覚的インコンテキスト生成による高忠実度な要素駆動型芸術フォント作成 [cs.CV]目的：芸術フォントの作成
- フォントは情報伝達の基本であり，視覚表現において重要な役割を担う。
- 既存手法では，スタイルの多様性や制御性が限られているという課題がある。
- 参照要素に基づき，高忠実度な芸術フォント作成を目指す。
- FontCrafterは，要素駆動型フォント作成フレームワークであり，多様な要素と高品質な字形画像を含む大規模データセットElementFontを構築した。
- 視覚的コンテキストとしての要素画像を扱い，インペインティングモデルを用いて字形領域に要素スタイルを高精度に転送する。
- 実験により，構造とテクスチャの忠実性を保ちつつ，柔軟なスタイル混合などの制御が可能であることが示された。
Link: https://arxiv.org/abs/2603.22054
MineRobot：地下採掘ロボットの仮想環境における運動学モデリングと解法のための統一フレームワーク [cs.GR, cs.RO]目的：地下採掘ロボットの運動学モデリングと解法
- 地下採掘は危険を伴うため，現実環境での試行を避ける必要があり，仮想環境での検証が重要である。
- 従来のロボットとは異なり，地下採掘ロボットは閉鎖機構や特殊なアクチュエータを含むため，運動学解析が困難である。
- ロボット固有の手法に頼らず，効率的な計算を実現する運動学フレームワークの開発。
- MRDFという，採掘ロボットの固有のセマンティクスを記述するドメイン固有のフォーマットを導入した。
- 4次リンク機構を一般化関節に変換し，各アクチュエータに対して独立なトポロジ的に等価な経路（ITEP）を抽出するパイプラインを開発した。
- ITEPの独立性を利用し，タイプ別のソルバーを組み合わせることで，アクチュエータ中心の順運動学パイプラインを構成した。
Link: https://arxiv.org/abs/2603.22055
言語誘導による推論を通じた視覚表現の強化：SpatialBoost [cs.CL, cs.CV]目的：視覚表現の空間認識能力の向上
- 画像認識技術は多様な分野で活用されているが，3次元空間情報の把握が課題である。
- 既存の画像エンコーダは2次元画像データで学習されるため，現実世界の3次元空間関係の捉えが不十分である。
- 言語による空間情報を活用し，画像エンコーダの空間認識能力を強化することで，この問題を解決する。
- SpatialBoostは，既存の画像エンコーダに言語情報を注入することで，空間認識能力を向上させる。
- ADE20Kにおいて，DINOv3の性能を55.9から59.7 mIoUに改善し，最先端の性能を達成した。
- 多段階Chain-of-Thought推論により，密な空間知識を段階的に組み込み，階層的な空間理解を構築する。
Link: https://arxiv.org/abs/2603.22057
マルチモーダルベイズ分布学習による点群解析の適応 [cs.CV]目的：ドメインシフト下における点群解析の性能維持
- 3Dビジョンと自然言語処理の融合は，多様な3Dタスクにおいて高い汎化性能を示すため重要である。
- 既存のモデルは，ドメインシフトの影響を受けやすく，性能が著しく低下するという課題がある。
- テスト時適応により，モデルがテストデータに基づいてオンラインで適応し，性能低下を抑制することを目指す。
- BayesMMは，テキストによる事前知識とストリーミング視覚特徴をガウス分布としてモデル化する。
- ベイズモデル平均を用いることで，事後証拠に基づいて各モダリティの貢献度を自動的に調整し，安定した適応を実現する。
- 複数の点群ベンチマークにおいて，BayesMMは分布シフトに対するロバスト性を維持し，平均で4%以上の改善を示した。
Link: https://arxiv.org/abs/2603.22070
P-Flow：プロンプトによる視覚効果の生成 [cs.CV]目的：動画生成における動的な視覚効果のカスタマイズ手法
- 動画生成技術は進化しているが，時間変化や外観に依存する視覚効果の制御は未成熟である。
- 複雑な視覚効果を単一のプロンプトで正確に指定するには，時間的な推論と反復的な調整が必要である。
- 視覚効果の差異に基づいてプロンプトを最適化し，目的の効果を誘導する手法を提案する。
- P-Flowは，既存の動画生成モデルを変更せずに，動的な視覚効果をカスタマイズする新しいフレームワークである。
- P-Flowは，参照動画と生成動画の視覚効果のずれを利用したテスト時のプロンプト最適化を行う。
- 実験の結果，P-Flowは高品質かつ多様な視覚効果のカスタマイズを実現し，他のモデルよりも優れた性能を示した。
Link: https://arxiv.org/abs/2603.22091
ビジョン言語モデルにおける脱獄攻撃防御のための原理に基づいた操舵：零空間投影 [cs.CV]目的：ビジョン言語モデルの脱獄攻撃に対する防御
- ビジョン言語モデルは広く利用されているため，安全性確保が重要である。
- 脱獄攻撃により有害なコンテンツが生成され，安全性と信頼性が損なわれる。
- 安全性と有用性のバランスを取り，ロバストな防御手法を確立する。
- NullSteerは，零空間投影によって安全性を高めつつ，モデルの汎用性を維持する。
- 様々な脱獄攻撃に対して有害な出力が大幅に削減された（MiniGPT-4で平均ASRを15％以上削減）。
- 一般的なベンチマークにおける性能は元のモデルと同等に保たれた。
Link: https://arxiv.org/abs/2603.22094
FreeArtGS：自由移動環境下における関節ガウススプラッティング [cs.CG, cs.CV, cs.GR, cs.RO]目的：自由移動環境下における関節オブジェクトの再構成
- ARやロボティクス分野の発展に伴い，高拡張性を持つ関節オブジェクト再構成技術が求められている。
- 既存手法は，軸合わせの困難さやカバレッジ不足により，適用範囲が限定されている。
- 本研究では，自由な動きの中で関節オブジェクトを再構成する新しい手法を提案し，その問題を解決する。
- FreeArtGSは，単眼RGB-D動画を入力として，自由移動する部分セグメンテーション，関節推定，エンドツーエンド最適化を組み合わせる。
- 実験結果から，FreeArtGSは自由移動環境下での関節オブジェクト再構成において優れた性能を示し，既存手法にも匹敵する。
- 現実的なアセット生成のための実用的かつ効果的なソリューションであることが証明された。
Link: https://arxiv.org/abs/2603.22102
ストリーミングクロー技術レポート [cs.RO, cs.CV]目的：ストリーミングビデオ理解と具現知能のための統合エージェントフレームワーク
- 具現知能の実現にはリアルタイムな知覚・決定・行動ループが不可欠であり，映像理解の重要性が高まっている。
- 既存のエージェントは，オフライン処理しかできない，長期的な多Modal記憶機構がない，リアルタイム推論が困難などの課題を抱えている。
- ストリーミング入力下でのリアルタイム推論，プロアクティブな相互作用，そして持続的な知覚・決定・行動を可能にすることを目指す。
- 本研究では，ストリーミングビデオ理解と具現知能のための統合フレームワーク「StreamingClaw」を提案する。
- StreamingClawは，リアルタイム推論，将来予測，多Modal長期記憶，知覚・決定・行動ループ，OpenClaw互換性という5つの主要な機能を統合する。
- これにより，オンラインリアルタイム推論，多Modal長期記憶，プロアクティブな相互作用を実現し，現実世界での具現的相互作用を可能にする。
Link: https://arxiv.org/abs/2603.22120
Mamba-VMR：生成動画によるマルチモーダルクエリ拡張を用いた高精度な時間的局所化 [cs.CV, cs.AI]目的：動画の時間的局所化の精度向上
- 動画検索技術は，映像コンテンツの利用において不可欠であり，その精度向上が求められている。
- 従来の動画検索は，動画の長いシーケンスにおける時間的なダイナミクスの捉えにくさが課題であった。
- 本研究は，生成された動画を用いてクエリを拡張し，時間的局所化の精度を向上させることを目指す。
- 提案手法では，LLMによる字幕のマッチングとテキストから動画への生成を活用し，時間的な情報を補完する。
- マルチモーダル制御Mambaネットワークを用いることで，生成された情報を効率的に統合し，ノイズを抑制する。
- TVRベンチマークでの実験により，最先端手法と比較して計算コストの削減と高い再現率が確認された。
Link: https://arxiv.org/abs/2603.22121
患者固有の呼吸運動モデリングのための生物物理学に基づくニューラル表現 [cs.CV]目的：患者固有の呼吸運動のモデリング
- 放射線治療の成功には正確な線量照射が不可欠であり，呼吸運動は線量照射の不確実性を生む。
- 従来の呼吸運動モデルは固定された呼吸状態に依存し，外挿性能に課題がある。
- 生物物理学的制約を導入し，生理学的に妥当な呼吸運動推定を実現する。
- 提案手法PRISM-RMは，固定された基準呼吸状態を必要とせず，時間的に連続的な呼吸運動表現を可能にする。
- 軌道を考慮したアプローチは，内挿においては既存手法と同等の性能を示し，外挿性能を向上させる。
- 暗黙的ニューラル表現は呼吸運動モデリングにおいて有効であり，更なる性能向上が期待される。
Link: https://arxiv.org/abs/2603.22123
DA-VAE：拡散モデルにおける詳細アラインメントによるプラグイン潜在圧縮 [cs.CV]目的：拡散モデルの効率的な学習と推論のための潜在空間圧縮
- 高解像度画像生成において，計算資源の効率化が重要である。潜在拡散モデルのトークン数を削減することが鍵となる。
- 高次元の潜在空間は構造が失われやすく，拡散モデルの学習を困難にする可能性がある。
- 事前学習済みの拡散モデルの構造を維持しつつ，潜在空間の次元を拡張することで効率的な圧縮を実現する。
- 提案手法DA-VAEは，事前学習済みのVAEの圧縮率を向上させ，拡散モデルのバックボーンを軽量に適合させる。
- DA-VAEは，$1024 \times 1024$画像生成をStable Diffusion 3.5を用いて，元のモデルの4分の1のトークン数で実現した。
- さらに，SD3.5を用いた$2048 \times 2048$生成を可能にし，画像品質を維持しながら6倍の高速化を達成した。
Link: https://arxiv.org/abs/2603.22125
OpenEarth-Agent：オープン環境における地球観測のためのツール利用からツール生成へ [cs.CV]目的：オープン環境における地球観測のためのツール生成フレームワーク
- 地球観測は，地表面の変化を把握する上で不可欠であり，社会課題解決に貢献する。
- 多様なデータとタスクに対応するため，既存のツール利用型エージェントでは汎用性に課題がある。
- 未知のデータとタスクに対応できる，ツール生成能力を備えたエージェントの開発を目指す。
- OpenEarth-Agentは，従来のツール利用型エージェントの制約を克服し，タスクに応じてツールを生成する。
- OpenEarth-Benchという新たなベンチマークを提案し，オープン環境における地球観測エージェントの適応能力を評価した。
- OpenEarth-Agentは，限定的な事前学習モデルのみを用いて，専門ツール104個に匹敵する性能を示し，データ異常に対するロバスト性も向上した。
Link: https://arxiv.org/abs/2603.22148
タイル照合を超えて：UAV自律ナビゲーションのための空中画像と衛星画像のずれの解消 [cs.CV, cs.AI]目的：UAVの絶対位置と姿勢の同時予測
- GNSSが利用できない環境下でのUAVナビゲーションにおいて，視覚情報に基づく自己位置推定技術の重要性が増している。
- 既存手法は，オンボードマップタイルとの照合に依存しており，精度とストレージ容量のトレードオフが存在する。
- クロスビューのずれやオーバーラップを考慮し，よりロバストで汎用性の高いナビゲーションを実現する。
- 提案手法Bearing-UAVは，グローバルおよびローカルな構造的特徴と相対的な空間関係を明示的に符号化することで，クロスビューの変動や特徴点の疎さに強い。
- 様々な地形における実証実験の結果，Bearing-UAVは既存の照合/検索方式と比較して，より低い局所化誤差を示すことが確認された。
- 大規模なマルチシティベンチマークBearing-UAV-90kを新たに構築し，公開することで，今後の研究の発展に貢献する。
Link: https://arxiv.org/abs/2603.22153
dynActivation: 適応的非線形性のための学習可能な活性化関数ファミリー [cs.LG, cs.CV]目的：深層学習における適応的非線形性の実現
- 深層学習モデルの性能向上には，適切な活性化関数の選択が不可欠である。
- 従来の活性化関数は固定されており，層の深さやタスクに応じて最適なものが異なる。
- 層ごとに学習可能な活性化関数を導入し，より適応的な非線形性を実現する。
- 提案手法 dynActivation は，ReLU に比べて最大 54% の学習効率向上を実現した。
- CIFAR-10 において，dynActivation(Mish) は静的 Mish より最大 14.02% の性能向上を示した。
- 言語モデリングにおいても，dynActGLU 変種は SwiGLU に対して 10.3% の相対的なパープレキシティ減少を実現した。
Link: https://arxiv.org/abs/2603.22154
ACPO：非対称制約を用いた視覚言語アラインメントにおける尤度変位の抑制 [cs.CV]目的：視覚言語モデルのアラインメントにおける尤度変位に対処する手法
- 大規模視覚言語モデルは多様な応用を可能にするが，その性能はアラインメントの質に大きく依存する。
- 直接選好最適化は一般的だが，選好された応答と拒否された応答の確率が共に低下する尤度変位の問題がある。
- ACPOは，非対称制約を通じてこの尤度変位を抑制し，視覚情報の活用を促進することを目的とする。
- ACPOは，拒否された報酬に動的なスケーリングを適用することで，勾配の流れを非対称に抑制する。
- 実験の結果，ACPOは標準的なDPOの選好報酬の低下を抑制し，幻覚のベンチマークで優れた性能を示した。
- ACPOは，視覚情報のアンカー崩壊を防止し，全体的な能力向上にも貢献することが示された。
Link: https://arxiv.org/abs/2603.22165
キャリブレーションの簡素化 [cs.LG, cs.AI, cs.GT, econ.TH]目的：外部予測のオンライン事後処理による累積損失の最小化と情報量のベンチマークとの一致
- 予測の精度向上は意思決定の質に直結し，様々な分野で重要な課題である。
- 従来のキャリブレーション手法は特定の損失関数に依存し，汎用性に欠ける点が課題であった。
- 一般的な適切な損失関数に対して，オンライン学習技術を用いたキャリブレーションの最適化を目指す。
- キャリブレーションを後悔最小化と同等であることを示し，Brier損失とlog損失に対する既存の$O(\log T)$レートを再確認した。
- mixable損失や一般の有界損失に対する新たな最適キャリブレーションレートを導出した。
- Brier損失におけるキャリブレーションとキャリブレーションの同時達成に関する新たな上限を確立し，二値予測において最適なレートを達成するアルゴリズムを提示した。
Link: https://arxiv.org/abs/2603.22167
見ることで改善：反復的なテキストレイアウト改良のための視覚的フィードバック [cs.CV, cs.AI]目的：反復的なテキストレイアウトの改良
- 自然言語から構造化されたレイアウトを自動生成する技術は，デザインの効率化に貢献する。
- 既存手法は視覚的な結果を考慮せず，可読性や美観の保証が課題である。
- 視覚的フィードバックを活用し，レイアウトの質を反復的に向上させることを目指す。
- 提案手法VFLMは，視覚情報に基づいた自己改善により，より高品質なレイアウトを生成する。
- 強化学習とOCR精度に基づいた報酬モデルにより，反復的な生成能力を効果的に促進する。
- 複数のベンチマークで，既存の最先端モデルやコードベースラインを上回る性能を示す。
Link: https://arxiv.org/abs/2603.22187
顔分析のためのテクスチャベースの局所記述子に対する補助タスクとしての自己教師あり学習に関するバックボーンのベンチマーク研究 [cs.CV]目的：顔分析における効率的な特徴モデリングのための，テクスチャベースの局所記述子と自己教師あり学習を組み合わせる際のバックボーンの影響評価
- 顔分析は，セキュリティ，監視，ヒューマンコンピュータインタラクションなど，幅広い分野で重要な役割を担っている。
- 顔分析における既存手法は，照明条件やポーズの変化に対して頑健性に課題がある。
- 本研究は，自己教師あり学習を補助タスクとして利用することで，より頑健で識別能力の高い特徴表現を獲得することを目指す。
- 提案手法において，バックボーンの性能は下流タスクに強く依存することが示された。
- FaceForensics++で0.94，CelebAで0.87，AffectNetで0.88の平均精度を達成した。
- 顔属性予測，感情分類，ディープフェイク検出など，様々な顔分析パラダイムにおいて，汎用的なバックボーンは存在しない。
Link: https://arxiv.org/abs/2603.22190
PAM：シミュレーションから現実へのHOIビデオ生成のための姿勢・外観・動作エンジン [cs.CV]目的：HOIビデオ生成のための統合的なエンジン
- 具現化されたAIやAR/VRにおいて，手と物体のインタラクションの再構成と合成は重要である。
- 既存研究は，姿勢のみ，単一画像，ビデオ生成と分断されており，真のシミュレーションから現実への応用が困難である。
- 姿勢，外観，動作を統合したエンジンにより，制御可能なHOIビデオ生成を実現する。
- DexYCBにおいて，既存手法InterDynやCosHandを上回るFVDとMPJPEを達成し，より高解像度なビデオ生成に成功した。
- OAKINK2では，マルチ条件モデルを用いることでFVDが大幅に改善された。
- DexYCBにおける入力条件の消去実験により，深度，セグメンテーション，キーポイントの組み合わせが最適な結果をもたらすことが示された。
- 合成ビデオによるデータ拡張は，限られた実データでの手姿勢推定タスクの性能を向上させた。
Link: https://arxiv.org/abs/2603.22193
ミニ専門家の混合：多重インスタンス学習における線形層のボトルネック克服 [cs.CV]目的：病理画像における多重インスタンス学習の性能向上
- 計算病理学において，ギガピクセル規模の全スライド画像の分類は重要である。
- 既存手法では，汎用的な特徴量をタスク固有の特徴量に変換する線形層がボトルネックとなっている。
- パッチごとの表現を最適化し，多重インスタンス学習の性能向上を目指す。
- MAMMOTHは，既存の多重インスタンス学習モデルに容易に組み込むことができ，パラメータ数を最小限に抑える。
- MAMMOTHを導入することで，単純な集約方法（最大プーリングや平均プーリングなど）でも，従来の線形層を用いた方法を上回る性能が達成された。
- MAMMOTHは152の構成のうち130で性能を向上させ，平均して3.8%の性能改善が見られた。
Link: https://arxiv.org/abs/2603.22198
Omni-WorldBench：ワールドモデルの包括的なインタラクション中心評価に向けて [eess.SY, cs.SY, cs.CC, cs.CV]目的：ワールドモデルのインタラクション応答能力の評価
- 現実世界の理解と予測は，ロボット工学やAIの発展に不可欠である。
- 既存の評価基準は，視覚的品質やテキストとの対応に偏り，時間的な変化を無視している。
- 4次元生成におけるインタラクション応答能力を系統的に評価する基準の必要性。
- Omni-WorldBenchは，多様なインタラクションとシーンを網羅するプロンプト群と，その因果的影響を定量化するエージェントベースの評価フレームワークで構成される。
- 18の代表的なワールドモデルの評価から，現在のモデルにはインタラクション応答における限界が明らかになった。
- このベンチマークは，インタラクティブな4Dワールドモデリングの進展を促進するために公開される。
Link: https://arxiv.org/abs/2603.22212
パーキンソン病における多言語性構音障害検出のための自己教師あり音声表現の適応 [cs.DB, eess.SY, cs.SY, cs.CL, cs.SD]目的：多言語性構音障害検出における自己教師あり音声表現の適応
- 構音障害は，コミュニケーションに深刻な影響を及ぼす神経疾患に伴う重要な問題である。
- 構音障害音声データの利用可能性が限られており，多言語での検出が困難である。
- 言語依存構造を取り除き，多言語環境での検出精度向上を目指す。
- 提案手法であるLSは，クロスリンガル環境において感度とF1スコアを大幅に改善した。
- 多言語環境においても一貫した改善が見られた。
- 表現分析により，LSが埋め込み空間における言語同一性を低減することが示された。
Link: https://arxiv.org/abs/2603.22225
SpatialReward：テキスト画像生成における詳細な空間的一貫性のための検証可能な空間報酬モデリング [cs.CV, cs.AI]目的：テキスト画像生成における空間的一貫性向上
- 近年，テキスト画像生成技術が発展しているが，生成画像の質を向上させるためには，より高度な報酬モデルが不可欠である。
- 既存の報酬モデルは，オブジェクトの配置に関する詳細な空間関係の評価が不十分であり，不正確な配置が発生しやすい。
- 本研究は，空間レイアウトを評価する検証可能な報酬モデルSpatialRewardを開発し，生成画像の空間的一貫性を向上させることを目指す。
- SpatialRewardは，プロンプトからエンティティ，属性，空間メタデータを抽出し，オブジェクトの位置と属性を正確に検出し，複雑な空間関係を評価する。
- 新たにSpatRelBenchというベンチマークを導入し，生成画像の空間関係を包括的に評価することで，検証の効果を示した。
- Stable DiffusionとFLUXを用いた実験により，SpatialRewardをRL訓練に組み込むことで，空間的一貫性と全体的な生成品質が向上することが確認された。
Link: https://arxiv.org/abs/2603.22228
実条件下の航空LiDAR点群セマンティックセグメンテーションのための深層学習モデルのベンチマーク：ナバラ県での事例研究 [cs.CV]目的：航空LiDAR点群のセマンティックセグメンテーションにおける深層学習モデルの性能評価
- ３次元空間の理解は，自動運転や都市計画など，様々な分野で重要性が増している。
- 実環境の航空LiDARデータに対する深層学習モデルの性能は，データセットや条件の違いにより評価が難しい。
- 実条件で取得された航空LiDARデータに対する深層学習モデルの性能を客観的に評価し，課題を明確にする。
- 全てのモデルが高精度（全体精度93%以上）を達成したが，KPConvがクラス全体で安定した性能を示し，最も高い平均IoU（78.51%）を得た。
- Point Transformer V3は，少数クラスである車両のセグメンテーションにおいて優れた性能（IoU 75.11%）を示した。
- Superpoint TransformerとRandLA-Netは，セグメンテーションのロバスト性を計算効率とトレードオフしていることが示された。
Link: https://arxiv.org/abs/2603.22229
多波長点群のセマンティックセグメンテーションによる河川地形の土地被覆マッピング [cs.CV]目的：河川環境における土地被覆マッピング
- 河川管理，生態系の理解，地形変化のモニタリングにおいて，正確な土地被覆マッピングは不可欠である。
- 河川環境のような複雑な地形における高精度な土地被覆マッピングは課題である。
- 多波長点群データを用いたセマンティックセグメンテーションによる土地被覆マッピングの精度向上を目指す。
- Point Transformer v2 (PTv2)モデルのフル特徴量構成を用いた結果，平均IoUが0.950と高い性能を示した。
- 強度と反射率の特徴量が，正確な土地被覆マッピングにおいて重要な要素であることが明らかになった。
- 複数のデータセットを用いた学習により，モデルの汎化性能が向上し，高品質なアノテーションデータが限られている場合でも，ロバストなモデル開発の可能性を示した。
Link: https://arxiv.org/abs/2603.22230
一つのモデル，二つの市場：入札を意識した生成型推薦 [cs.IR, cs.AI, cs.GT, cs.LG]目的：入札を考慮した生成型推薦システムの構築
- 推薦システムは，情報過多な現代において，ユーザーが必要な情報に効率的にアクセスするための重要な技術である。
- 既存の生成型推薦システムは，広告収益化や入札価格の組み込みといった商業的な側面に十分対応できていない。
- 広告表示の判断とアイテムの選択を分離し，入札価格を生成プロセスに組み込むことで，収益性の高い推薦を実現する。
- GEM-Recは，広告の関連性とプラットフォームの収益を同時に最適化できることを示した。
- 制御トークンと入札を意識したデコーディングにより，過去の広告掲載実績を反映した効果的な広告配置パターンを学習可能となった。
- 入札額の高さが広告表示の可能性を高めるという単調性も保証され，モデルの再学習を必要としない。
Link: https://arxiv.org/abs/2603.22231
EgoGroups：実世界における人々のソーシャルグループ検出のためのベンチマーク [cs.CV]目的：ソーシャルグループ検出の性能評価
- 社会生活を理解する上で，人間関係の認識は不可欠である。
- 既存のベンチマークは，多様な状況や文化的背景での評価が不足している。
- 多様な環境下でソーシャルグループを検出するモデルの性能向上を目指す。
- 本研究では，世界各地の都市で収集された一人称視点のデータセットEgoGroupsを公開した。
- EgoGroupsは，多様な群衆密度や気象条件，文化的地域を網羅している。
- VLM/LLMは，教師あり学習モデルを上回るゼロショット性能を示したが，群衆密度や地域によって性能に差が見られた。
Link: https://arxiv.org/abs/2603.22249
GenOpticalFlow：教師なし光流学習への生成アプローチ [cs.CV]目的：光流学習のための合成データ生成フレームワーク
- 光流推定はコンピュータビジョンの基礎であり，自動運転やロボット工学に応用される。
- 教師あり学習は精度が高いが，高価なアノテーションが必要で，スケールアップが困難である。
- 人間のアノテーションなしに，高品質な光流学習データを提供することを目的とする。
- 提案手法GenOpticalFlowは，事前に学習済みの深度推定ネットワークを利用し，擬似光流を生成する。
- 生成された擬似光流は，次フレーム生成モデルの条件入力として使用され，高精度なフレームを生成する。
- 不整合ピクセルフィルタリング戦略により，生成フレームの信頼性を高め，実データでの性能向上を実現した。
Link: https://arxiv.org/abs/2603.22270
DUO-VSR：ワンステップ動画超解像のためのデュアルストリーム蒸留 [cs.CV]目的：ワンステップ動画超解像のためのデュアルストリーム蒸留戦略
- 動画超解像は，低解像度動画の画質向上に不可欠であり，様々な応用分野で需要が高い。
- 拡散モデルを用いた動画超解像は高画質だが，サンプリングコストが高く実用上の課題がある。
- デュアルストリーム蒸留により，計算効率と高画質化を両立し，実用的な動画超解像を実現する。
- DUO-VSRは，分布マッチング蒸留と敵対的学習を組み合わせたデュアルストリーム蒸留戦略を導入することで，安定した学習と高画質化を両立した。
- プログレッシブガイド付き蒸留初期化により学習を安定化させ，RFS-GANによる敵対的学習で表現力を向上させた。
- 実験の結果，DUO-VSRは既存のワンステップ動画超解像手法と比較して，優れた視覚品質と効率を実現することが示された。
Link: https://arxiv.org/abs/2603.22271
多視点拡散のための幾何学的基礎モデルの再利用 [cs.CV]目的：多視点画像生成のための潜在空間
- 画像生成技術は進歩しているが，新しい視点からの画像を生成する際の潜在空間は未開拓である。
- 既存手法は視点に依存しない潜在空間を用いるため，視点間の一貫した幾何的構造の生成が課題である。
- 幾何学的基礎モデルの幾何学的に整合性のある特徴空間を，多視点拡散の潜在空間として活用し，問題を解決する。
- GLDは，RGB再構成の品質と3Dの一貫性において，VAEやRAEよりも優れた性能を示す。
- GLDはVAE潜在空間と比較して，学習時間を4.4倍以上短縮することが確認された。
- 大規模なテキスト-画像事前学習を利用しないにも関わらず，最先端手法に匹敵する競争力を持つ。
Link: https://arxiv.org/abs/2603.22275
視覚言語モデルにおける空間推論の二重メカニズム [cs.CV, cs.LG]目的：視覚言語モデルにおける空間的関連性の表現メカニズムの解明
- 画像キャプション生成や視覚的質問応答など，多様なマルチモーダルタスクにおいて空間認識は不可欠である。
- 視覚言語モデルがどのように物体と空間関係を結び付けているか，その詳細なメカニズムは未だ不明である。
- 視覚言語モデルにおける空間推論のプロセスを明らかにし，性能向上に貢献すること。
- 視覚言語モデルは，空間的関連性を表現するために，言語モデルと視覚エンコーダという二つのメカニズムを利用している。
- 言語モデルは，視覚トークンに基づき空間関係を表現するが，予測への影響は限定的である。
- 重要な空間情報は主に視覚エンコーダから得られ，物体配置が言語モデルに活用される。また，その信号は物体領域だけでなく，背景領域にも広範囲に分布する。
Link: https://arxiv.org/abs/2603.22278
3DレイアウトR1：言語指示による空間編集のための構造化推論 [cs.CV, cs.AI]目的：言語指示に基づく空間レイアウト編集
- 視覚情報の理解は，ロボット工学やコンピュータビジョンの発展に不可欠である。
- 既存モデルは，微細な視覚編集において空間的理解とレイアウトの一貫性に課題がある。
- 空間関係の構造化表現を通じて，空間編集の解釈性と制御性を向上させる。
- 本研究で提案する構造化推論フレームワークは，シーングラフによる推論を通してテキスト条件を満たす空間レイアウト編集を実現する。
- 新しいテキスト指示型レイアウト編集ベンチマークにおいて，CoT-SFTやGRPOと比較して，平均15%のIoU向上，25%のセンター距離誤差の削減を達成した。
- 最先端のLLMと比較して，最高モデルはmIoUを最大20%向上させ，空間精度が大幅に向上した。
Link: https://arxiv.org/abs/2603.22279
DualCoT-VLA：ビジョン言語行動モデルにおける並列推論による視覚言語思考の連鎖 [cs.CV, cs.RO]目的：ビジョン言語行動モデルの性能向上
- ロボットによる複雑なタスク実行には，視覚情報と言語指示を統合した高度な推論能力が不可欠である。
- 従来のVLAモデルは，論理的計画や精密な空間認識が必要な複雑なタスクにおいて課題を抱えている。
- 視覚的詳細と高レベルな計画を同時に捉え，推論速度を向上させることで，VLAモデルの能力を拡張する。
- DualCoT-VLAは，視覚的思考の連鎖と言語的思考の連鎖を統合することで，多角的な多Modal推論を実現している。
- 並列推論機構を導入することで，逐次的な自己回帰デコードによる遅延とエラーの蓄積を抑制している。
- LIBEROやRoboCasa GR1のベンチマーク，および実環境での実験において，最先端の性能を達成している。
Link: https://arxiv.org/abs/2603.22280
ThinkJEPA：大規模視覚言語推論モデルによる潜在的世界モデルの強化 [cs.CV, cs.AI, cs.CL, cs.LG, cs.RO]目的：潜在的世界モデルの予測性能向上
- 動画データから未来の状態を予測する技術は，ロボティクスや自動運転などの分野で重要性を増している。
- 短い観察期間では時間的文脈が限定され，局所的な低レベルな外挿に偏りがちで，長期的意味の把握が困難である。
- 視覚言語モデルの知識を活用し，潜在的世界モデルの長期予測能力とロバスト性を向上させる。
- 提案手法は，視覚言語モデルと潜在的世界モデルを組み合わせることで，予測精度を向上させた。
- 特に，長期間の予測において，従来手法と比較してロバストな振る舞いを示した。
- 視覚言語モデルの推論信号を効果的に伝達する階層ピラミッド表現抽出モジュールが有効であることが示された。
Link: https://arxiv.org/abs/2603.22281
UniMotion：モーション・テキスト・ビジョンの統一的理解と生成フレームワーク [cs.CV, cs.AI]目的：人間モーション，自然言語，RGB画像の同時理解と生成
- 人間行動理解は，ロボット工学や人間-コンピュータインタラクションにおいて不可欠である。
- 既存モデルは扱うモーダリティが限定的で，離散的なトークン化による誤差が生じやすい。
- モーションを主要な連続モーダリティとして扱い，多岐にわたるタスクでの性能向上を目指す。
- UniMotionは，モーション，テキスト，ビジョンの理解と生成を同時に行う初の統一的フレームワークを実現した。
- CMA-VAEとDPA，LRAといった新規手法により，各モーダリティ間の連続的な経路を構築し，相互理解を深めている。
- 七つのタスクにおいて最先端の性能を示し，特にクロスモーダル合成タスクにおいて顕著な優位性が見られた。
Link: https://arxiv.org/abs/2603.22282
統一トークン化と潜在的ノイズ除去のためのエンドツーエンド学習 [cs.CV, cs.AI, cs.GR, cs.LG]目的：画像および分子モダリティにおけるトークン化と生成の同時最適化
- 潜在拡散モデルは高品質な合成を可能にするが，その学習は複雑な段階を経る必要がある。
- 既存の潜在拡散モデルの学習には，事前にトークナイザーを学習させる必要があり，ボトルネックとなっている。
- トークナイザーと潜在拡散モデルを同時に学習し，効率的な学習プロセスを実現すること。
- UNITEは，画像トークナイザーと潜在生成器として機能する生成エンコーダーを特徴とする自己符号化器アーキテクチャである。
- ImageNet 256x256において，FIDスコアはそれぞれ2.12と1.73を達成し，最先端の性能に匹敵する結果が得られた。
- トークン化と生成を同時に学習することで，潜在空間の表現アライメントと圧縮が向上することが示された。
Link: https://arxiv.org/abs/2603.22283
VideoDetective：外部クエリと内在的関連性に基づく長尺動画理解のための手がかり探索 [cs.CV]目的：長尺動画における質問応答のための手がかり探索
- 動画理解は，人間にとって自然な情報処理であり，様々な応用分野で重要である。
- 大規模言語モデルはコンテキストウィンドウの制限から，長尺動画全体の情報を捉えることが困難である。
- クエリと動画自体の構造に基づき，関連性の高い手がかりを効率的に特定することを目指す。
- 提案手法VideoDetectiveは，クエリとセグメント間の関連性とセグメント間の類似性を統合することで，手がかり探索の精度を向上させる。
- 動画をセグメントに分割し，視覚的類似性と時間的近接性に基づいてグラフ構造を構築する。
- 仮説検証・改良ループにより，関連スコアを推定し，最終的な回答のために重要なセグメントを特定する。
Link: https://arxiv.org/abs/2603.22285