arXiv雑要約

画像・音声 - 2026/04/02 公開

ガウス混合モデルに基づく部分点群登録のための注意誘導参照点シフト [cs.CV, cs.GR]目的：部分点群登録における特徴ベクトルの不変性に着目した研究
- 点群登録は，3次元形状の認識やモデリングにおいて重要な役割を担う技術である。
- 深層学習を用いた点群登録では，入力点群の変換に対する不変性の確保が課題となっていた。
- 深層学習とガウス混合モデルに基づく部分点群登録における問題点の解決を目指す。
- 本研究では，注意誘導参照点シフト（ARPS）層を導入し，2つの部分点群の共通参照点をロバストに特定することに成功した。
- ARPS層は，overlap領域ではなく共通参照点を探索することで，DeepGMRやUGMMRegの性能を大幅に向上させた。
- 提案手法は，既存の深層学習手法やTransformerを用いた手法をも凌駕する性能を示した。
Link: https://arxiv.org/abs/2512.02496
真の正解を超えて：画像復元のための強化された教師あり学習 [cs.CV]目的：画像復元における教師データの品質向上
- 画像復元技術は，現実世界の様々な問題解決に不可欠であり，その重要性は増している。
- 現実世界の画像劣化を扱う場合，教師画像の品質が復元性能のボトルネックとなることが多い。
- 教師画像の品質を向上させることで，より高精度な画像復元を実現することを目的とする。
- 提案手法では，アダプティブな周波数マスクを用いて超解像度化と元の画像を融合し，知覚的に強化された教師画像を生成する。
- 周波数領域での混合により，画像のセマンティックな一貫性を保ちつつ，知覚的な詳細を効果的に強化し，アーティファクトの発生を抑制する。
- 生成された強化された教師画像を用いた学習により，既存の復元モデルの性能を向上させることが示された。
Link: https://arxiv.org/abs/2512.03932
すべての鳥が同じように見えるわけではない：鳥類のID保持型生成 [cs.CV]目的：鳥類のID保持型画像生成のためのベンチマークデータセット
- 画像生成技術は，ユーザーによるカスタマイズを可能にし，様々な応用分野で利用が拡大している。
- 非剛体や微細なカテゴリでは，高品質なデータ不足が課題であり，評価や改善が困難である。
- 鳥類は多様性と識別における微細な特徴が必要とされるため，ID保持型生成の評価に適している。
- NABirds Look-Alikes (NABLA) データセットを構築し，鳥類のID保持型生成のベンチマークを確立した。
- 既存の最先端モデルがこのデータセット上でID保持に失敗することを示した。
- 種，年齢，性別でグループ化して訓練することで，既知・未知の種の両方で性能が大幅に向上することを確認した。
Link: https://arxiv.org/abs/2512.04485
視覚的特徴を超えて: 非メラノーマ性皮膚組織学的関係グラフ分析のためのニューラル組織関係モデリング [cs.AR, cs.CV]目的：非メラノーマ性皮膚組織の組織構造における関係グラフ分析
- 皮膚がん診断において，組織構造の正確な区分は不可欠であり，病理画像セグメンテーションが重要な役割を担う。
- 従来のCNNは視覚的テクスチャに依存し，組織間の空間的・機能的な関係性を十分に捉えられていない。
- 組織間の依存関係を明示的にモデル化することで，境界領域でのセグメンテーション精度を向上させる。
- 提案手法NTRMは，組織レベルのグラフニューラルネットワークをCNNに統合し，組織間の関係性をモデル化する。
- NTRMは，境界密度の高い領域において，構造的に一貫性のある予測を可能にする。
- 評価データセットにおいて，NTRMは最先端手法を凌駕し，Dice係数を最大31.25%向上させた。
Link: https://arxiv.org/abs/2512.06949
拡散モデルの選択的パラメータ変位によるロバストなビデオ透かし [cs.CV, cs.CR, cs.LG]目的：生成ビデオの出所追跡のためのロバストな透かしスキーム
- 高品質な動画生成技術の発展に伴い，生成された動画の信頼性確保が重要となっている。
- 既存の透かし方法は，不可視性，ロバスト性，計算効率を同時に達成できていない。
- 拡散モデルのパラメータ変位による，効率的かつロバストな透かし埋め込み手法を提案する。
- 提案手法SPDMarkは，生成モデルのパラメータの一部を操作することで，不可視な透かしを埋め込む。
- フレーム固有の透かしメッセージを生成し，時間的な改ざんに対しても正確な抽出を可能にする。
- テキストから動画，画像から動画への生成モデルで，高い精度とロバスト性を実証した。
Link: https://arxiv.org/abs/2512.12090
CodeDance：実行可能な視覚的推論のための動的なツール統合型MLLM [cs.CV]目的：視覚的推論における実行可能なコードの活用
- 視覚的推論は，画像認識を超えた高度な知能を必要とし，AIの応用範囲を広げる上で重要である。
- 既存手法は，テキストのみ，固定的な視覚スキーマ，または単一ステップのパイプラインに依存し，柔軟性や解釈可能性に課題がある。
- CodeDanceは，複数のツールを連携させ，透明性の高い推論プロセスを実現し，複雑なタスクへの適応能力を高めることを目指す。
- CodeDanceは，ツール利用のバランスを促す報酬メカニズムを導入し，効率的かつ探索的なツール呼び出しを実現した。
- 強化学習を通して，既存の知識を超えた新規のツール利用や組み合わせ，タスク間の知識転移といった創発的な振る舞いを観察した。
- 視覚的探索，数学，グラフQAなどのベンチマークにおいて，CodeDanceは既存の手法やGPT-4oなどのクローズドモデルを上回る性能を示した。
Link: https://arxiv.org/abs/2512.17312
幾何光度イベントベース3Dガウス線形追跡 [cs.CV, cs.AI, cs.RO]目的：イベントベース3Dガウススプラッティングにおける精度と時間分解能のトレードオフの解消
- 動きや構造推定において，従来のフレームベースカメラより高時間分解能を持つイベントカメラの活用が重要である。
- イベントベース3Dガウススプラッティングは，イベントの持つ時間情報を十分に活用できていないという課題があった。
- イベントの疎な時間情報を効果的に利用し，3D再構成の精度向上を目指す。
- 提案手法GPERTは，イベントごとのジオメトリレンダリングとスナップショットベースのラディアンスレンダリングを分離することで，効率的な処理を実現した。
- 実データセットにおいて最先端の性能を達成し，合成データセットでも競争力のある結果を示した。
- 事前情報やCOLMAPによる初期化なしで動作し，イベント選択数に柔軟に対応できる。
Link: https://arxiv.org/abs/2512.18640
OmniEgoCap：カメラ非依存な一人称視点モーション再構成 [cs.CV]目的：一人称視点動画からの全身3Dモーションの再構成
- 人間行動の理解に有用な一人称視点デバイスの利用が拡大している。
- 自己遮蔽や装着者の手足が視界外になることで，正確なモーション再構成が困難である。
- 多様なカメラ設定下でもロバストなモーション再構成を実現すること。
- 提案手法OmniEgoCapは，拡散モデルを用いてカメラに依存しないモーション再構成を可能にした。
- 系列全体を考慮することで，身長や体格といった不変物理属性を制約として活用し，再構成精度を向上させた。
- 視認性の強化手法により，手の出現を幾何学的制約として扱い，汎化性能を高めた。
Link: https://arxiv.org/abs/2512.19283
プリズム仮説：統一された自己符号化による意味表現とピクセル表現の調和 [cs.CV]目的：意味表現とピクセル表現の調和
- 異なるモダリティ間の深い表現は本質的に関連しており，その理解は重要である。
- 意味とピクセルエンコーダの機能的な役割と，その特徴スペクトルの関係は不明であった。
- エンコーダのスペクトル構造に基づき，意味的抽象化とピクセルレベルの忠実性を統合する。
- 本研究では，意味エンコーダは低周波成分を，ピクセルエンコーダは高周波成分も捉えるという「プリズム仮説」を提唱した。
- 提案手法であるUnified Autoencoding（UAE）は，周波数帯域変調器により，意味構造とピクセル詳細を調和させることに成功した。
- UAEは，単一の潜在空間内で最先端の性能を達成し，FIDおよびISも大幅に向上した。
Link: https://arxiv.org/abs/2512.19693
次スケール予測：実世界画像ノイズ除去のための自己教師ありアプローチ [cs.CV]目的：実世界画像ノイズ除去のための自己教師あり学習パラダイム
- 実世界の画像には様々なノイズが含まれ，高品質な画像復元が求められている。
- 従来のノイズ除去手法では，ノイズ除去と高周波ディテールの保持のトレードオフが存在する。
- ノイズ除去とディテール保持を分離し，より効果的な自己教師あり学習を実現する。
- 本研究では，次スケール予測(NSP)という新しいアプローチを提案し，ノイズ除去とディテール保持を分離した。
- NSPは，低解像度のノイズ除去済みのサブ画像を入力として，高解像度の詳細な画像を予測する。
- 実験結果から，NSPは実世界のベンチマークにおいて最先端の性能を達成し，ノイズ除去とディテール保持の間の長年の対立を緩和することが示された。
Link: https://arxiv.org/abs/2512.21038
RANGER：単眼カメラによるゼロショットセマンティックナビゲーションフレームワーク - 視覚的文脈適応を通じて [cs.RO, cs.CV]目的：複雑環境下における目標物探索と自律ナビゲーション
- 現実世界のロボット応用において，効率的な目標定位と自律移動は不可欠である。
- 既存手法は，正確な深度情報や姿勢情報に依存し，現実環境への適用が限定される。
- 環境の視覚的文脈から幾何学的・意味的情報を学習し，ナビゲーション効率を向上させる。
- RANGERは，単眼カメラのみを用いてゼロショットセマンティックナビゲーションを実現する。
- 短時間の環境映像観察により，追加の学習やアーキテクチャ変更なしにタスク効率を向上させる。
- HM3Dベンチマークおよび実環境実験で，高いナビゲーション成功率と探索効率を示す。
Link: https://arxiv.org/abs/2512.24212
活性化の再誘導による精密な概念消去のためのトレーニング不要パラダイムActErase [cs.CV]目的：テキスト-画像拡散モデルにおける概念消去
- 拡散モデルの生成能力は目覚ましいが，安全性，著作権，倫理的な問題が懸念されている。
- 既存の概念消去手法は再学習に多大なデータと計算資源を必要とする点が課題である。
- 活性化の再誘導により，トレーニング不要で効率的な概念消去を実現する。
- 提案手法ActEraseは，プロンプトペア分析による活性化差分領域を特定し，ターゲット活性化を動的に置換する。
- 本手法は，ヌード，芸術的スタイル，物体除去の3つのタスクにおいて，最先端の消去性能を達成した。
- 全体的な生成能力を維持しつつ，敵対的攻撃に対する頑健性も高いことが示された。
Link: https://arxiv.org/abs/2601.00267
医療画像における基礎モデルの迅速な評価のためのモジュール型パイプラインEvalBlocks [cs.CV, cs.LG]目的：医療画像における基礎モデルの評価パイプライン
- 医療画像における基礎モデル開発は，その性能監視が不可欠である。迅速な開発サイクルが求められている。
- 実験追跡，設計選択，性能への影響分析が煩雑で，手作業によるワークフローは時間と労力を要する。
- 基礎モデル開発時の効率的な評価を支援し，研究者の負担を軽減することを目指す。
- EvalBlocksは，Snakemakeを基盤としたモジュール型パイプラインであり，新しいデータセットやモデルの統合を容易にする。
- 実験と結果を一元的に追跡・再現可能にし，キャッシュと並列実行によりスケーラブルな利用を実現する。
- 5つの最新基礎モデルと3つの分類タスクで，評価の効率化が示され，モデル革新への注力を可能にする。
Link: https://arxiv.org/abs/2601.03811
セマンティック情報を考慮したインスタンスと疎なトークンアラインメントによる表現学習 [cs.CV]目的：医療画像と放射線レポート間のセマンティック対応を利用した表現学習
- 医療画像診断の精度向上には，画像とレポート間の関連性を理解することが不可欠である。
- 既存手法では，患者間の類似性により誤った負例が生じ，表現学習の質が低下する。
- 誤った負例を排除し，画像パッチと関連トークンを効果的にアラインメントすることで，表現学習を改善する。
- 提案手法SISTAは，画像分類，セグメンテーション，物体検出の3つの下流タスクで性能向上を実証した。
- 特に，限られたラベルデータでも，詳細なタスクにおいて顕著な改善が見られた。
- レポート間の類似性を考慮することで，誤った負例を減らし，セマンティック構造を維持している。
Link: https://arxiv.org/abs/2601.08165
視覚言語モデルにおける分布外検出のためのクロスモーダルプロキシ進化 [cs.CV, cs.MM]目的：分布外検出における性能向上
- 実世界での応用には，未知のデータへの対応能力が不可欠であるため。
- 分布外データのラベルが不足しており，有効な識別シグナルを得ることが困難である。
- クロスモーダルなずれを解消し，分布シフトに強いOODスコアを算出すること。
- CoEvoは，視覚特徴とテキスト特徴の両方を動的に適応させることで，クロスモーダルプロキシの進化を実現する。
- テスト画像に基づいて文脈的なテキスト負例をマイニングし，視覚プロキシを反復的に洗練させる。
- ImageNet-1Kにおける実験で，既存手法を大幅に上回り，高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2601.08476
動的重み付き二重グラフ注意ネットワークによる神経変性疾患の診断 [cs.CL, cs.CV]目的：神経変性疾患の早期診断手法
- パーキンソン病やアルツハイマー病などの神経変性疾患は，世界的に罹患率が高く，早期診断が重要である。
- 多様な構造を持つ多指標データや，脳画像および表現型データの異質性，クラス不均衡などが診断を困難にしている。
- 多指標データの統合，脳領域とサンプル間関係に基づく特徴抽出，クラス不均衡の緩和を目的とする。
- 提案手法DW-DGATは，PPMIおよびADNIデータセットを用いた実験において，最先端の性能を示した。
- DW-DGATは，多指標データの融合，二重グラフ注意機構，クラス重み生成メカニズムを統合することで，高い診断精度を実現した。
- この手法は，微細な特徴と大局的な特徴の両方を抽出し，クラス不均衡の影響を軽減することに貢献する。
Link: https://arxiv.org/abs/2601.10001
ActionMesh：時間的3次元拡散を用いたアニメーション3Dメッシュ生成 [cs.CV]目的：アニメーション3Dオブジェクトの生成
- 3Dオブジェクト生成は，様々な応用分野において重要な技術である。
- 既存手法は，セットアップの複雑さ，処理時間，品質の面で課題が残る。
- 実用的な速度と品質で，高品質なアニメーション3Dメッシュ生成を実現する。
- ActionMeshは，時間軸を考慮した3次元拡散モデル（temporal 3D diffusion）を用いることで，高品質なアニメーション3Dメッシュを高速に生成する。
- 単眼動画，テキスト記述，3Dメッシュとテキストプロンプトなど，多様な入力に対応可能である。
- 従来の技術と比較して，リグフリーかつ一貫性のあるトポロジーを持つアニメーションを生成し，テクスチャリングやリターゲティングなどの応用を可能にする。
Link: https://arxiv.org/abs/2601.16148
ビジョン言語モデルによる微分線形追跡を用いた高速かつ正確な多材料RFパラメータ推定 [cs.CV, cs.NI]目的：多材料RFパラメータ推定の高速化と安定化
- 6Gシステムにおける電磁デジタルツイン構築には正確なRF材料パラメータが不可欠である。
- 従来の勾配ベースの逆線形追跡は，初期値依存性が高く，測定データが限られる場合にコストがかかる。
- ビジョン言語モデルを用いて初期値を設定し，測定位置を最適化することで，推定精度と速度を向上させる。
- ビジョン言語モデルがシーン画像を解析し，ITU-R材料テーブルに基づいて材料カテゴリを推定，定量的な初期値を導き出す。
- 提案手法は，従来の初期値や測定位置と比較して，2〜4倍高速な収束と10〜100倍低い最終パラメータ誤差を達成した。
- 実験結果から，ビジョン言語モデルからの意味的知識が物理ベースの最適化を効果的に導き，RF材料推定の高速化と信頼性向上に貢献することが示された。
Link: https://arxiv.org/abs/2601.18242
学習可能なグレイ・ワイナーネットワークにおける損失のある共通情報 [cs.LG, cs.CV, cs.IT, math.IT]目的：複数の視覚タスクにおける共通情報とタスク固有情報の分離
- 多くの画像処理タスクは共通情報を含むため，効率的な表現学習が重要である。
- 従来のコーデックは共通情報を無視し，冗長で非効率な表現になりがちである。
- グレイ・ワイナー理論に基づき，冗長性を削減し，より効率的な表現学習を目指す。
- 提案手法は，複数の視覚タスクにおいて，独立符号化と比較して，冗長性を大幅に削減できることを示した。
- 損失のある共通情報の概念を導入し，共通情報とタスク固有情報のトレードオフを考慮した最適化目標を提案した。
- 実験結果から，本手法が様々な視覚ベンチマークにおいて，従来の符号化方式を上回る性能を発揮することが確認された。
Link: https://arxiv.org/abs/2601.21424
実世界画像超解像のためのディテール保持拡散トランスフォーマー量子化Q-DiT4SR [cs.CV]目的：実世界画像超解像のためのディテール保持拡散トランスフォーマー量子化手法の開発
- 画像超解像は，低解像度画像を高品質に復元する重要な技術であり，様々な応用分野で求められている。
- 拡散トランスフォーマーは高性能だが，推論コストが高く，実用化が課題となっている。
- 拡散トランスフォーマーの量子化による高速化を図り，画質の劣化を最小限に抑える。
- 提案手法Q-DiT4SRは，DiTベースの実世界画像超解像に特化した初の量子化フレームワークである。
- 階層SVDであるH-SVDと，分散を考慮した時空間混合精度VaSMPにより，高い性能を達成した。
- W4A4量子化設定において，モデルサイズを5.8倍，計算量を6.14倍削減することに成功した。
Link: https://arxiv.org/abs/2602.01273
不均衡な画像分類のための平衡対照学習 [cs.CV]目的：不均衡データセットにおける画像分類性能向上
- 画像認識は，医療診断や自動運転など，様々な分野で重要な役割を担っている。
- 既存の対照学習法は，クラス間のデータ数に偏りがある不均衡データセットにおいて性能が低下する。
- クラス特徴，平均，分類器の調和のとれたバランスを促進し，不均衡データへの対応を目指す。
- 提案手法ECLは，既存の最先端の対照学習法と比較して，不均衡な画像分類において優れた性能を示す。
- ECLは，クラス平均特徴とクラスプロトタイプの貢献度を調整し，幾何学的な平衡を促進する。
- 分類器の重みとクラスプロトタイプを整合させることで，分類器とクラス中心の幾何学的平衡を確立する。
Link: https://arxiv.org/abs/2602.09506
CoCoDiff: ファイングレインなスタイル変換のための対応一致拡散モデル [cs.CV, cs.AI]目的：ファイングレインなスタイル変換における意味的対応の維持
- 画像間のスタイル変換はコンピュータビジョンの重要な課題であり，視覚的表現の多様化に貢献する。
- 既存手法は全体的なスタイル変換に偏りがちで，領域やピクセルレベルでの意味的対応が不十分な場合が多い。
- 拡散モデルを活用し，意味的に一致する領域間のスタイル変換を正確に行うことを目指す。
- CoCoDiffは，事前学習済みの拡散モデルとピクセルレベルの意味的対応モジュールを組み合わせることで，高精度なスタイル変換を実現した。
- サイクル整合性モジュールを用いることで，構造と知覚的な整合性を保ちながら，オブジェクトや領域レベルでの詳細なスタイリングが可能となった。
- 追加の学習や教師データなしに，既存手法を凌駕する視覚品質と定量的な結果を達成した。
Link: https://arxiv.org/abs/2602.14464
EditCtrl：リアルタイム生成ビデオ編集のための分散型ローカルおよびグローバル制御 [cs.CV]目的：高忠実度な生成ビデオ編集の効率化
- ビデオ生成モデルの発展により高品質な編集が可能になったが，計算コストが課題。
- 既存モデルは編集領域に関わらずビデオ全体を処理するため，効率が悪い。
- 編集領域にのみ計算資源を集中させ，効率的かつ高品質な編集を実現する。
- EditCtrlは，マスクされたトークンのみを処理するローカルビデオコンテキストモジュールを採用し，計算コストを編集領域のサイズに比例させる。
- 軽量な時間的グローバルコンテキストエンベッダーにより，ビデオ全体の一貫性を維持しつつ，計算負荷を最小限に抑える。
- EditCtrlは，最新の生成編集手法と比較して10倍の計算効率であり，編集品質も向上する。
Link: https://arxiv.org/abs/2602.15031
TeFlow：自己教師ありシーンフロー推定のためのマルチフレーム教師あり学習の実現 [cs.CV, cs.RO]目的：自己教師ありシーンフロー推定におけるマルチフレーム教師あり学習の有効性
- 自動運転やロボット工学において，周囲環境の3次元構造把握は不可欠である。シーンフロー推定はその重要な要素技術である。
- 従来の自己教師あり学習は，2フレーム間の対応点に依存するため，遮蔽や動きの激しいシーンで精度が低下する問題があった。
- 複数フレームの情報を統合することで，より安定した教師信号を得て，高精度なシーンフロー推定を実現することを目的とする。
- TeFlowは，時間的に一貫性のあるモーションキューを収集するtemporal ensembling戦略を導入し，より信頼性の高い教師信号を生成する。
- Argoverse 2およびnuScenesデータセットにおいて，最先端の自己教師あり手法を最大33%上回る性能を達成した。
- TeFlowは，最適化ベースの手法と同等の性能を示しつつ，150倍の高速化を実現した。
Link: https://arxiv.org/abs/2602.19053
OTPrune：最適輸送による分布整合型ビジュアルトークン剪定 [cs.CV]目的：冗長なビジュアルトークン削減による，マルチモーダル大規模言語モデルの推論コスト軽減
- マルチモーダル大規模言語モデルは強力だが，計算コストが高いことが課題となっている。
- 既存のトークン剪定手法は，ビジュアル表現の分布構造を無視している。
- 最適輸送を用いて，分布整合に基づいた効率的なトークン剪定を実現する。
- OTPruneは，フルと剪定されたトークン分布間の2-Wasserstein距離を最小化することで，多様性と代表性を維持しつつ，推論コストを削減する。
- サブモジュールな目的関数を導出し，その単調性とサブモジュール性を理論的に証明することで，安定した剪定を可能にする。
- 広範な実験により，OTPruneが最先端手法と比較して，性能と効率のバランスに優れていることが示された。
Link: https://arxiv.org/abs/2602.20205
歩き方の特徴抽出におけるラベルを用いない構造的手がかりの探求 [cs.CV, eess.IV]目的：歩行者識別のためのラベルを用いない構造的特徴の有効性検証
- 歩行者識別は，非侵襲的な生体認証技術であり，セキュリティ分野での応用が期待されている。
- 既存手法はシルエットや解析に基づいているが，シルエットは情報が少なく，解析はラベル精度に依存する。
- 本研究は，ラベルを用いない高頻度な構造的特徴抽出による歩行者識別の精度向上を目指す。
- 提案手法SKETCHは，RGB画像からエッジベースで構造的特徴を抽出し，シルエットや解析とは異なる新たな視点を提供する。
- SKETCHと解析は意味的に分離され，構造的に補完的であることが示された。
- SUSTech1KおよびCCPGデータセットでの実験により，SKETCHGAITが優れた識別性能を発揮することが確認された。
Link: https://arxiv.org/abs/2603.05537
欠損赤外線下における辞書誘導クロスモーダル画像融合 [cs.CL, cs.CV]目的：欠損赤外線下での画像融合手法
- 赤外線と可視光画像融合は，知覚とセキュリティにおいて不可欠な技術である。
- 既存手法は，学習と推論の両方で両モダリティの存在を前提としている。
- 赤外線が欠損している場合でも，高精度な画像融合を実現すること。
- 本研究では，共有畳み込み辞書を用いた辞書誘導の係数領域フレームワークを提案する。
- 可視光画像から疑似赤外線画像を推論し，ウィンドウアテンションと畳み込み混合で融合を行う。
- 欠損赤外線下での実験により，知覚品質と検出性能の一貫した向上が確認された。
Link: https://arxiv.org/abs/2603.08018
Video2LoRA：参照動画に基づくセマンティック制御ビデオ生成の統一的アプローチ [cs.CV]目的：多様なビデオ生成条件におけるセマンティックアライメントの実現
- ビデオ生成技術は，エンターテイメント，教育，コミュニケーションなど，幅広い分野で重要性が増している。
- 既存手法は，柔軟性に欠ける，または条件ごとに学習が必要で，効率的なセマンティック制御が困難である。
- 参照動画に基づいてセマンティック制御を行い，柔軟かつ効率的なビデオ生成を実現すること。
- Video2LoRAは，参照動画に基づき，セマンティック入力を条件とした軽量ハイパーネットワークを用いることで，セマンティック制御ビデオ生成を実現した。
- 本手法は，凍結された拡散バックボーンに統合された適応型LoRAモジュールにより，参照動画のセマンティクスを維持しつつ，スタイルやコンテンツの多様性を確保する。
- モデルサイズを150MB以下に抑え，ストレージやデプロイメントの効率性を高め，多様な条件で一貫性のあるセマンティックに合致した生成が可能である。
Link: https://arxiv.org/abs/2603.08210
成長，評価，圧縮：メモリ効率的な継続学習のための適応的バックボーンスケーリング [cs.LG, cs.CV]目的：継続学習における記憶効率と性能維持のバランス
- 継続学習は，人間の学習能力に近づくための重要な研究分野である。
- 従来の継続学習手法は，破滅的忘却を防ぐために多くのメモリを消費する。
- 本研究は，モデルのサイズを動的に調整し，メモリ消費量を削減することを目的とする。
- 提案手法「GRACE」は，バックボーンの拡張と圧縮を繰り返すことで，モデルの容量を効率的に管理する。
- 飽和度評価により，モデルの容量利用状況を把握し，適切な拡張または圧縮判断を可能にする。
- 複数のベンチマークで最先端の性能を達成し，従来の拡張型モデルと比較してメモリフットプリントを最大73%削減した。
Link: https://arxiv.org/abs/2603.08426
ForgeDreamer：多重専門家LoRAとクロスビューハイパーグラフによる産業用テキストから3D生成 [cs.CV]目的：産業用途におけるテキストから3D生成の性能向上
- 製造業等における設計・試作の効率化が求められており，3Dモデリングの自動化技術が重要である。
- 既存のテキストから3D生成手法は自然シーンに特化しており，産業用途への適応には知識干渉や幾何学的推論の課題がある。
- カテゴリ間の知識干渉を解消し，高次の構造依存性を捉えることで，産業用3Dモデルの精度向上を目指す。
- 提案手法ForgeDreamerは，多重専門家LoRAアンサンブルによりカテゴリ間の知識干渉を解消し，汎化性能を向上させる。
- クロスビューハイパーグラフ幾何学的拡張により，複数視点間の構造依存性を捉え，製造レベルの一貫性を確保する。
- カスタム産業データセットを用いた実験により，最先端手法と比較して優れた意味的汎化性能と幾何学的忠実度が実証された。
Link: https://arxiv.org/abs/2603.09266
IMTBench：画像内機械翻訳のためのマルチシナリオクロスモーダル共同評価ベンチマーク [cs.RO, cs.CV]目的：画像内機械翻訳の評価基準
- 画像とテキストを扱う機械翻訳は，現実世界の多様な状況に対応できる能力が求められる。
- 既存のベンチマークは合成データが多く，現実世界の複雑さを反映していない点が課題である。
- 現実的な評価と，翻訳と画像の整合性を測る基準を確立することを目指す。
- IMTBenchは，4つのシナリオと9言語を網羅する2,500枚の画像翻訳サンプルで構成される。
- 翻訳の質，背景の保存，画像全体の品質，翻訳テキストとモデル出力のクロスモーダル整合性を評価できる。
- 商用システムやオープンソースモデルの評価により，特に自然なシーンやリソースの少ない言語で課題が残ることが示された。
Link: https://arxiv.org/abs/2603.10495
公平性重視型解釈可能なリスクゲーティングによる性差に配慮した音声生体認証 [cs.SD, eess.AS]目的：音声生体認証における性差に着目した公平性の改善
- 音声生体認証は，セキュリティや利便性向上に不可欠な技術であり，幅広い応用が期待されている。
- 既存の音声生体認証システムは，性別間での性能格差が生じる場合があり，公平性の観点から問題視されている。
- 本研究では，性別情報に起因する性能格差を解消し，より公平な音声生体認証システムの実現を目指す。
- 提案手法Fair-Gateは，性別ごとのリスクを低減するリスク外挿と，特徴量を性別と個人情報に分岐させるローカル補完ゲートを組み合わせる。
- Fair-Gateは，特徴量の配分を可視化するルーティングマスクを生成し，解釈可能性を提供する。
- VoxCeleb1を用いた実験により，Fair-Gateが厳しい評価条件下で，より公平なASV性能を発揮することが示された。
Link: https://arxiv.org/abs/2603.11360
空間推論はただ同然ではない：LLaVAに関する統制された研究 [cs.CV]目的：視覚言語モデルにおける空間推論の課題と，その原因となる設計上の選択肢の特定
- 視覚言語モデルは急速に進歩しているが，基本的な空間推論能力に課題が残る。
- 既存の視覚言語モデルは，2D空間関係の理解において脆弱であり，位置，レイアウト，数の把握が困難である。
- CLIP様式の画像エンコーダや1D位置エンコーディングの影響を検証し，空間推論能力を改善する。
- 実験の結果，モデル間で空間認識性能に差が見られ，エンコーダの学習目標と位置構造が空間的挙動に影響することが示された。
- CLIPベースのエンコーダと比較して，より高密度または生成的な目的で学習されたエンコーダや2D位置エンコーディングを導入したモデルを評価した。
- しかし，これらの改善策だけでは空間推論の問題は完全に解決されないことが示唆された。
Link: https://arxiv.org/abs/2603.12545
SA-CycleGAN-2.5D: 自己注意機構付きCycleGANと三平面コンテキストによる多施設MRI調和 [cs.CV, cs.AI, cs.LG]目的：多施設におけるMRI画像間の分布の不一致を軽減すること
- 多施設研究では，スキャナーの違いによる画像特性の変化が再現性を損なう。
- 既存手法では空間的な情報を活用できず，グローバルな強度相関を捉えきれない。
- 2.5D構造と自己注意機構を導入し，グローバルな強度相関をモデル化し，調和の精度向上を目指す。
- 本研究で提案するSA-CycleGAN-2.5Dは，MMDを99.1%削減し，ドメイン識別器の精度をほぼ偶然レベルまで低下させた。
- 特に異質データから均質データへの変換において，グローバルな注意機構が統計的に不可欠であることが確認された。
- 2Dの効率性と3Dの一貫性を両立し，腫瘍の病理生理を保持した調和画像を生成し，再現性のある多施設ラジゲノミクス分析を可能にする。
Link: https://arxiv.org/abs/2603.17219
Vision Tiny Recursion Model (ViTRM)：再帰的な状態洗練によるパラメータ効率の良い画像分類 [cs.CV]目的：パラメータ効率の良い画像分類手法
- 深層学習は画像認識において目覚ましい成果を上げてきたが，モデルの規模拡大が課題である。
- 既存の深層学習モデルはパラメータ数が多く，計算資源を大量に消費する点が問題である。
- ViTRMは，少ないパラメータで高性能な画像分類を実現し，計算資源の制約を克服することを目指す。
- ViTRMは，ViTエンコーダを再帰的に適用する小さなブロックで置き換えることで，パラメータ数を大幅に削減した。
- CNNやViTと比較して，それぞれ最大で6倍，84倍のパラメータ削減を達成しながら，CIFAR-10/100で競争力のある性能を維持した。
- この結果は，再帰的計算が，画像認識におけるモデルの深さの代替となりうることを示唆する。
Link: https://arxiv.org/abs/2603.19503
単眼モデルはマルチビュー人体メッシュ復元の強力な学習者である [cs.CV]目的：マルチビュー人体メッシュ復元における性能向上
- 現実世界の多様な応用において，高精度かつ汎化性能が求められるため。
- 学習ベースの手法は，マルチビュー学習データの不足からカメラ設定への汎化が課題である。
- 事前学習済みの単眼モデルを活用し，マルチビュー学習データなしでの汎化性能向上を目指す。
- 提案手法は，単眼モデルの予測からロバストな初期化を構築し，テスト時最適化で精度を高める。
- マルチビューの一貫性や人体の制約を考慮することで，明示的なマルチビュー学習モデルを上回る性能を示す。
- 標準ベンチマークにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.20391
Le MuMo JEPA：学習可能な融合トークンを用いたマルチモーダル自己教師あり表現学習 [cs.CV]目的：RGB画像と対応する他のモダリティからの統一的な表現学習
- 自己教師あり学習は，手動アノテーションなしに視覚表現を学習する強力な手法であり，自動運転技術の発展に不可欠である。
- 既存手法は単一モダリティに依存することが多く，異種センサから得られる補完的な構造を活用できていない。
- 複数のモダリティを効率的に融合し，高精度かつ効率的な表現学習を実現することを目指している。
- Le MuMo JEPAは，Waymoデータセットにおいて，他のマルチモーダルベースラインよりも優れた性能効率のトレードオフを示した。
- nuScenesデータセットにおけるゼロから学習においても，最高の性能を維持し，FLIRベンチマークにおいても優れた結果を得た。
- 計算量，メモリ使用量，推定トレーニング時間が大幅に削減されており，精度と効率のバランスに優れている。
Link: https://arxiv.org/abs/2603.24327
困難な軌跡に対する物理的に整合性の高い運転動画ワールドモデル [cs.CV]目的：困難な軌跡下での物理的整合性と高視覚的忠実度を持つ運転動画の生成
- 自動運転シミュレーションにおいて，現実世界のデータを活用したワールドモデルの重要性が高まっている。
- 既存モデルは安全な運転シナリオで学習されるため，シミュレータ等で生成された困難な軌跡に対して脆弱である。
- シミュレータで生成された困難な軌跡に対しても，物理的に整合性の高い動画を生成することを目指す。
- 提案手法PhyGenesisは，物理的にありえない軌跡入力を現実的な条件に変換する物理的条件生成器と，それに基づいて高忠実度な動画を生成する物理強化型動画生成器で構成される。
- 大規模な物理特性に富んだ異種データセットを構築し，現実世界の動画に加え，CARLAシミュレータで多様な困難な運転シナリオを生成することで，極端な条件下での物理的ダイナミクスを学習させる。
- 実験結果から，PhyGenesisは特に困難な軌跡において，既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.24506
EagleNet：エネルギーを考慮したテキスト・ビデオ検索のための細粒度関係学習ネットワーク [cs.CV]目的：テキストとビデオの検索における，エネルギーを考慮した細粒度関係学習による表現の強化
- ビデオとテキストの関連性を理解することは，マルチモーダルな情報検索において重要である。
- 既存手法では，ビデオ内のフレーム間の関係性を十分に活用できていない。
- フレーム間の文脈情報を考慮したテキスト埋め込みを生成し，テキストとビデオのギャップを埋める。
- 提案手法EagleNetは，テキストとフレーム間の関係性を学習するFine-Grained Relationship Learning (FRL) メカニズムを導入した。
- FRLはテキスト候補とフレーム間のグラフを構築し，文脈情報を埋め込んだテキスト埋め込みを生成する。
- Energy-Aware Matching (EAM)によりテキストとフレーム間の相互作用のエネルギーをモデル化し，MSRVTT等のデータセットで性能向上を確認した。
Link: https://arxiv.org/abs/2603.25267
CoDeTT：ターンテイキング評価のための文脈を考慮した意思決定ベンチマーク [cs.SD]目的：ターンテイキング評価のためのベンチマーク
- 対話システムにおいて，自然な対話の流れを制御するターンテイキングは重要である。
- 従来の評価方法は，二値的な境界検出に偏っており，多様な対話状況でのモデルの弱点を把握しにくい。
- 文脈を考慮した意思決定問題としてターンテイキングを捉え，標準化された評価を可能にすること。
- CoDeTTは，多様なシナリオと文脈変化を含むデータセットを提供し，ターンテイキングモデルの評価を体系化する。
- 既存モデルの評価を行った結果，意思決定の種類や対話状況によって性能に大きな差があることが明らかになった。
- 本ベンチマークは，ターンテイキングシステムの文脈を考慮した評価を標準化し，研究の進展を促進する。
Link: https://arxiv.org/abs/2603.25434
黄金データを超えて：時間ステップ選択的学習による運動・視覚品質のジレンマ解決 [cs.CV]目的：動画生成における運動・視覚品質のジレンマの解決
- 近年の動画生成モデルの発展は目覚ましいが，高品質なデータの存在が不可欠である。
- 視覚品質と運動強度は負の相関関係にあり，両方を兼ね備えた理想的なデータ収集が困難である。
- 不均衡なデータでも効率的な学習を可能にし，完璧なデータへの依存度を低減することを目指す。
- 提案手法TQDは，データの学習過程への適合性を高めるため，データサンプリング分布を調整する。
- 運動の強いデータは高時間ステップ，高視覚品質データは低時間ステップに分布を偏らせることで，性能向上を実現した。
- 従来の学習方法よりも優れた性能を達成し，高品質データを用いた学習においても効果が確認された。
Link: https://arxiv.org/abs/2603.25527
MOOZY：計算病理のための患者中心の基盤モデル [cs.CV]目的：計算病理における汎用的な基盤モデルの構築
- 病理診断の精度向上と効率化が求められており，画像解析技術の活用が不可欠である。
- 既存モデルはスライド画像単位での学習が多く，患者間の関連性を考慮していない点が課題である。
- 患者単位での学習により，より臨床的な文脈を捉えた汎用性の高いモデルを開発する。
- MOOZYは，患者を基本単位として学習することで，多様な臨床タスクへの転移学習性能を向上させた。
- 既存モデル（TITAN, PRISM）と比較して，加重F1スコア，ROC-AUC，バランスアキュラシーにおいて優れた結果を示した。
- パラメータ数がGigaPathの14分の1と効率的であり，再現性の高い患者レベル事前学習の可能性を示唆する。
Link: https://arxiv.org/abs/2603.27048
空間に関するコミュニケーション：部分的な視点からの空間統合における言語の役割 [eess.SY, cs.SY, cs.CV]目的：マルチモーダル大規模言語モデルにおける協調的な空間コミュニケーション能力の評価
- 空間認識は，ロボット工学や仮想現実など，様々な分野で重要な役割を担う。
- 異なる視点からの空間情報を統合し，共有理解を築くことは困難である。
- 言語を用いたコミュニケーションを通じて，モデルが空間理解を協調的に構築できるか検証する。
- マルチモーダル大規模言語モデルは，視点依存的な観察を対話を通じて整合させ，環境の整合性のある空間モデルを構築できるか調査した。
- COSMICというベンチマークを用いて評価した結果，モデルは共有アンカーオブジェクトの特定には比較的優れているが，関係推論やグローバルマップ構築は苦手であることが判明した。
- 人間の対話と比較して，モデルは対話が進むにつれて空間理解が収束せず，共有精神モデルの形成と維持に限界があることが示唆された。
Link: https://arxiv.org/abs/2603.27183
CDH-Bench：視覚言語モデルの視覚的忠実度を評価するための常識駆動型幻覚ベンチマーク [cs.CV, cs.AI, cs.CL]目的：視覚的証拠と常識の矛盾下における視覚言語モデルの幻覚現象の評価
- 視覚言語モデルの性能向上は目覚ましいが，その信頼性，特に視覚情報と常識の矛盾下での振る舞いは未解明な点が多い。
- 視覚的証拠を無視し，常識に基づく回答を選択する「常識駆動型幻覚」という問題が存在する。
- 視覚情報と常識の矛盾下でモデルが視覚的証拠をどの程度重視するかを定量的に評価すること。
- CDH-Benchは，数え間違い，関係性の異常，属性の異常という3つの側面から，視覚的証拠と常識の矛盾を作り出すように設計されたベンチマークである。
- 最先端の視覚言語モデルを二値質問応答と多肢選択質問応答で評価した結果，強いモデルでも常識に強く影響される脆弱性が見られた。
- CDH-Benchは，視覚情報と常識の矛盾下における視覚的忠実度を診断するための制御された環境を提供する。
Link: https://arxiv.org/abs/2603.27982
LG-HCC：3Dガウススプラッティングのための局所形状を考慮した階層的文脈圧縮 [cs.ET, cs.CV, cs.AI]目的：3Dガウススプラッティングのコンパクトな表現
- 3Dガウススプラッティングは高品質なリアルタイムレンダリングを可能にするが，巨大なデータサイズが実用上の課題となっている。
- 既存の圧縮手法は文脈モデルに焦点を当てており，幾何学的な依存関係を考慮していないため，構造劣化が生じやすい。
- 幾何学的な相関関係を考慮し，アンカープルーニングとエントロピー符号化を改善することで，圧縮率と品質の両立を目指す。
- 提案手法LG-HCCは，近傍アンカーの形状情報を活用したアンカープルーニングにより，幾何学的な一貫性を保ちつつデータ量を削減する。
- 軽量な幾何学ガイド畳み込み（GG-Conv）を用いた階層的なエントロピー符号化により，空間適応的な文脈モデリングとレート歪み最適化を実現する。
- Mip-NeRF360データセットを用いた実験により，LG-HCCがScaffold-GSベースラインと比較して最大30.85倍の圧縮率を達成し，幾何学的な整合性とレンダリング品質を向上させることが示された。
Link: https://arxiv.org/abs/2603.28431
AI科学論文向け自動手法イラスト生成：描画ミドルウェアの作成，進化，オーケストレーション [cs.GR, cs.AI]目的：AI科学論文における自動手法イラスト生成
- 科学論文において，手法イラストは内容理解を助ける重要な要素である。
- 手法イラストの作成は時間と労力を要する手作業に依存している。
- 高品質な手法イラストを自動的に生成する手法を開発し，作成の負担を軽減する。
- 提案手法FigAgentは，既存の手法イラストから描画経験を抽出し，再利用可能な描画ミドルウェアを生成する。
- ミドルウェアは，変化する描画要件に適応するように進化し，複雑な構造を持つイラストを段階的に構築する。
- 実験結果から，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2603.29590
ワールドに基づいた画像生成のための統一マルチモーダルエージェント Unify-Agent [cs.CV, cs.MM]目的：ワールドに基づいた画像生成のための統一マルチモーダルエージェントの構築
- 多様な知識を理解し高品質な画像を生成する上で，マルチモーダルモデルは重要な役割を担う。
- 既存モデルは固定された知識に依存しており，長尾分布の概念や知識集約的な概念を含む画像の生成に苦戦する。
- エージェントによるモデリングを通じて，外部知識の活用を促進し，より現実的な画像生成を目指す。
- 提案手法Unify-Agentは，多様なベンチマークと現実世界の生成タスクにおいて，ベースとなるモデルを大幅に上回る性能を示す。
- 強力なクローズドソースモデルの知識能力に匹敵する結果が得られた。
- 推論，検索，生成を緊密に結合することの価値を，ワールドに基づいた画像生成において示す。
Link: https://arxiv.org/abs/2603.29620
BigEarthNet.txt：地球観測のための大規模マルチセンサー画像テキストデータセットとベンチマーク [cs.CV]目的：地球観測における画像とテキストの学習を促進するための大規模なマルチセンサー画像テキストデータセット
- 近年，地球規模での環境変化の監視や資源管理の効率化が求められており，地球観測技術の重要性が増している。
- 既存の地球観測画像とテキストのデータセットは規模が小さく，テキスト情報も限られており，高度な画像テキスト学習のボトルネックとなっている。
- 多様なテキストアノテーションを含む大規模なデータセットを構築することで，地球観測における画像とテキストの理解を深めることを目指す。
- BigEarthNet$.$txtは，960万件のテキストアノテーションを含む464044枚のSentinel-1とSentinel-2の画像を提供することで，既存のデータセットと比較してテキスト情報の豊富さと多様性を上回る。
- 作成されたベンチマーク分割を用いてVLMsを評価した結果，複雑な土地利用/土地被覆クラスの識別において課題が残ることが示された。
- BigEarthNet$.$txtを用いたファインチューニングにより，全ての評価タスクにおいてVLMsの性能が向上し，その有効性が確認された。
Link: https://arxiv.org/abs/2603.29630
拡散ベースのウォーターマーク除去のための確率的隠れ軌道逸脱 (SHIFT) [cs.CV, cs.CR]目的：拡散ベースのウォーターマークの除去手法
- デジタルコンテンツの保護は重要であり，ウォーターマークはその不可欠な要素である。
- 既存のウォーターマーク技術は，拡散軌道の正確な復元に依存しており，脆弱性を抱えている。
- 拡散軌道のわずかな逸脱により，ウォーターマークを効果的に除去することを目的とする。
- 提案手法SHIFTは，様々なウォーターマーク技術に対して95%～100%の攻撃成功率を達成する。
- SHIFTは，ウォーターマーク固有の知識やモデルの再学習を必要とせずに，高い意味的品質を維持する。
- 潜在空間における拡散軌道の確率的な再サンプリングにより，ウォーターマークを統計的に分離する。
Link: https://arxiv.org/abs/2603.29742
SurgTEMP：腹腔鏡下胆嚢摘出術におけるテキスト誘導型視覚的メモリを用いた時間認識型外科ビデオ質疑応答 [cs.CV]目的：腹腔鏡下胆嚢摘出術の外科ビデオに対する質疑応答性能の向上
- 外科手術は高度な専門性と集中力を要し，教育や術中支援におけるコンピュータ支援システムの重要性が高まっている。
- 既存の外科VQA研究は静止画解析に偏っており，手術ビデオ内の時間的文脈の活用が不十分である。
- 時間的情報を考慮した新たなフレームワークを構築し，多様な評価タスクに対応できるVQAモデルの開発を目指す。
- SurgTEMPは，クエリ駆動のトークン選択モジュールと外科的能力段階（SCP）トレーニングスキームを特徴とするマルチモーダルLLMフレームワークである。
- SurgTEMPは，可変長の外科ビデオを効果的にモデル化し，重要な術中情報を保持しながら時間的な一貫性を維持することで，様々な評価タスクを支援する。
- 新たに構築されたデータセットCholeVidQA-32Kを用いて評価した結果，SurgTEMPは最先端のモデルと比較して大幅な性能向上を示した。
Link: https://arxiv.org/abs/2603.29962