arXiv雑要約

画像・音声 - 2026/03/26 公開

高解像度脳動態の時空間ニューラルフレームのモデル化 [eess.IV, cs.CV, q-bio.NC]目的：高解像度脳動態の時空間的なモデリング
- 大規模脳メカニズム理解には，動的な脳活動把握が不可欠である。
- fMRIは高コストであり，大規模な応用が制限されている。
- EEGとfMRIの相補性を利用し，高解像度fMRIを推定する。
- 提案手法は，fMRIの空間分解能とEEGの時間分解能を統合した。
- 不規則なfMRIサンプリング問題に対し，中間フレーム再構成により連続性を向上させた。
- CineBrainデータセット実験で，ボクセル単位での再構成品質と時間的一貫性が確認された。
Link: https://arxiv.org/abs/2603.24176
YingMusic-Singer：柔軟な歌詞操作とアノテーション不要のメロディ誘導による制御可能な歌声合成 [eess.AS, cs.SD]目的：メロディ制御可能な歌声合成と柔軟な歌詞操作
- 歌声合成は，音楽制作やエンターテイメント分野において重要な役割を担う。
- 既存手法では，メロディの一貫性を保ちつつ歌詞を変更することが困難である。
- 手動アライメントなしで，メロディと歌詞の一貫性を保った歌声合成を実現する。
- YingMusic-Singerは，Vevo2と比較して，より高いメロディ保持力と歌詞への適合性を示す。
- カリキュラム学習とGroup Relative Policy Optimizationにより，性能が向上している。
- メロディ保持型歌詞修正評価のためのLyricEditBenchという新たなベンチマークを導入した。
Link: https://arxiv.org/abs/2603.24589
パラメータ化されたゲームにおける人間の戦略的意思決定 [cs.GT, cs.AI, cs.LG, econ.TH]目的：人間の戦略的意思決定プロセス
- 現実世界のゲームはパラメータに依存するため，その影響を理解することが重要である。
- パラメータ値が事前に不明な状況下での人間の意思決定は，困難を伴う。
- リアルタイムソルバーに頼らず，迅速な意思決定を可能にする枠組みを提示すること。
- 本研究では，リアルタイムソルバーなしで迅速な意思決定を可能にする新しい枠組みを提案した。
- この枠組みは，複数プレイヤーや不完全情報といった様々な状況に適用可能であることが示された。
- 人間の意思決定を支援する新しいアプローチとして，パラメータ化されたゲームへの応用が期待される。
Link: https://arxiv.org/abs/2104.14744
WeakTr：弱学習によるセマンティックセグメンテーションのための単純なVision Transformerの探求 [cs.CV]目的：弱学習セマンティックセグメンテーションのための手法
- 画像認識技術は，自動運転や医療診断など，幅広い分野で重要性が増している。
- 弱学習セマンティックセグメンテーションは，ラベル付けコストが高いという課題がある。
- Transformerの持つ潜在能力を最大限に引き出し，高精度なセグメンテーションを実現すること。
- 提案手法WeakTrは，PASCAL VOC 2012で78.5%のmIoU，COCO 2014で51.1%のmIoUを達成した。
- ViTの多層・多ヘッド自己注意マップが，セグメンテーションとCAM生成に有用な情報を提供することを示した。
- 自己注意マップを適応的に融合し，高精度なCAMを生成する手法と，勾配クリッピングによるデコーダを提案した。
Link: https://arxiv.org/abs/2304.01184
うつ病検出のための解釈可能な音声基盤モデル：長尺音声からの予測に関連する音響特徴の解明 [cs.SD, eess.AS]目的：うつ病検出のための解釈可能な音声基盤モデル
- 音声はメンタルヘルス評価において有用であり，早期発見に貢献する可能性を秘めている。
- 短尺音声セグメントに基づくアプローチでは，セグメントレベルのラベルノイズが問題となる場合がある。
- 長尺音声を用いて，より信頼性の高いうつ病検出と，その根拠となる音響特徴の特定を目指す。
- 提案モデルはセグメントレベルASTよりも高い性能を示し，長尺音声の利用が有効であることを実証した。
- モデルの解釈性分析により，うつ病に関連する特徴として，音量と基本周波数の低下が認められた。
- この解釈可能性は，臨床応用における信頼性を高め，責任あるAIの実現に貢献する。
Link: https://arxiv.org/abs/2406.03138
Set2Seq Transformer：時系列および位置情報を考慮した集合表現によるSequential Multiple-Instance Learning [cs.CV, cs.LG]目的：時系列データの集合構造と時間的関係性をモデル化するための手法
- 現実世界の多くの応用において，集合の内部構造と時間的関係性のモデリングが重要である。
- 既存手法では，時間的変化を無視した静的な集合表現に注力するか，集合を明示的に表現できない。
- 時系列における集合の位置情報と絶対的な時間値を符号化し，時間的推移と文脈を捉える。
- 提案手法Set2Seq Transformerは，多様なドメインとタスクにおいて，既存手法よりも優れた性能を示した。
- 本手法は，集合，時間，位置情報を考慮した表現を効果的に学習することで，予測精度を向上させる。
- 芸術作品分析および短期的森林火災危険予報という，異なるドメインで有効性が確認された。
Link: https://arxiv.org/abs/2408.03404
現実的な路傍物配置による自動運転車への攻撃 [cs.CV, cs.SE]目的：自動運転車の知覚システムの脆弱性評価
- 自動運転技術の発展に伴い，安全性の確保が不可欠であるため，知覚システムの信頼性評価が重要となる。
- 既存の攻撃は，不自然な形状やパッチに依存しており，現実的な状況を再現できていないという課題がある。
- 路傍物の配置を操作することで，現実的かつ効果的な攻撃を可能にし，自動運転車の誤認識を誘発することを目的とする。
- TrashFuzzは，道路設計ガイドラインを遵守しつつ，路傍物の配置を調整することで，自動運転車の知覚システムに対する攻撃を生成する。
- Apollo自動運転システムに対する実験では，TrashFuzzにより，24件の交通法規のうち15件の違反が発生した。
- 本研究は，現実的なシナリオに基づいた攻撃手法を提供し，自動運転システムの安全性を向上させるための示唆を与える。
Link: https://arxiv.org/abs/2409.10562
Morph：モーションデータを用いない物理最適化フレームワークによる人間モーション生成 [cs.CV]目的：人間モーションの物理的妥当性の向上
- デジタルヒューマンやヒューマノイドロボット制御において，人間モーション生成は不可欠である。
- 既存手法では物理制約が無視される場合が多く，浮遊や足の滑りといった不自然なモーションが生じやすい。
- ノイズの多いモーションデータから効果的な物理最適化を行うことで，現実的なモーション生成を目指す。
- 提案手法Morphは，モーション生成器と物理最適化モジュールから構成され，物理シミュレーター内でモーションを改良する。
- 大規模な合成モーションデータを活用し，物理制約を適用することで，自然で安定したモーションを生成する。
- テキストからのモーション生成や音楽に合わせたダンス生成において，最先端の品質と物理的妥当性を実現した。
Link: https://arxiv.org/abs/2411.14951
汎用参照セグメンテーションのためのフレーズ・インスタンスアラインメント [cs.CV, cs.CL, cs.LG]目的：汎用参照セグメンテーションにおけるフレーズとインスタンスの対応付け
- 画像内の対象を言語で指示する技術は，ヒューマン・コンピュータ間のインタラクションにおいて重要である。
- 既存手法では，指示表現に含まれる複数のフレーズと，画像内の個々のインスタンスとの対応関係が不明確である。
- 言語フレーズと視覚インスタンス間の詳細な対応付けを確立し，より正確なセグメンテーションを実現することを目指す。
- 本研究では，汎用参照セグメンテーションをインスタンスレベルの推論問題として再構築した。
- 参照表現に応じて複数のインスタンス対応クエリを予測し，各クエリと最も関連性の高いフレーズをアラインメントする。
- gRefCOCOとRef-ZOMのベンチマークにおいて，最先端の性能を大幅に向上させた（cIoUで3.22%，N-accで12.25%）。
Link: https://arxiv.org/abs/2411.15087
SASNet：空間適応正弦ネットワークによるINRs [cs.CV]目的：低次元信号に対する空間適応的な正弦ネットワークの提案
- 画像やグラフィックス分野で，陰関数による表現は高頻度な信号の再構成に有効である。
- 正弦ネットワークの学習は不安定で，周波数初期値に極めて敏感であるという課題がある。
- 空間的なマスクを導入し，ニューロンの影響範囲を局所化することで学習の安定化を図る。
- SASNetは，学習の最適化を安定化させ，エッジを鮮明にし，滑らかな領域のノイズを抑制することに成功した。
- 2D画像や3Dボリュームデータへの適合，および符号付き距離場再構成のベンチマークで，優れた性能を示した。
- SASNetは，パラメータ効率を維持しながら，滑らかな領域と詳細な領域に適切な周波数のニューロンを割り当てた。
Link: https://arxiv.org/abs/2503.09750
KINESIS：人間の運動を模倣する筋骨格運動制御 [cs.RO, cs.AI, cs.CV, cs.LG, q-bio.NC]目的：人間の運動模倣のためのフレームワーク
- 人間の運動のメカニズム解明は，ロボット工学やリハビリテーション分野において重要である。
- 従来のロボット制御は，人間の複雑な筋骨格系の制約や筋肉の非線形性を十分に再現できていない。
- 本研究は，より生理学的に妥当な人間の運動制御モデルを構築し，多様なタスクへの応用を目指す。
- KINESISは，1.8時間の歩行データを学習し，未知の軌跡に対しても高い運動模倣性能を示した。
- ネガティブマイニング手法により，ロバストな歩行の事前知識を獲得し，テキストからの制御や目標点到達などの下流タスクに活用された。
- KINESISが生成する筋肉活動パターンは，人間の筋電図活動と高い相関性を示し，生理学的な妥当性が確認された。
Link: https://arxiv.org/abs/2503.14637
概念を意識したLoRA：ドメインに適合したセグメンテーションデータセット生成 [cs.CV]目的：ドメイン適合セグメンテーションデータセットの生成
- セマンティックセグメンテーションは，自動運転や画像認識において重要な役割を担う。
- 高品質な学習データは高コストであり，特に特定のドメインではデータ不足が課題となる。
- テキストから画像を生成する技術を用いて，データ収集とアノテーションのコストを削減する。
- 提案手法CA-LoRAは，ドメイン適合のために必要な概念のみを更新し，事前学習済みの知識を維持することで，多様で高品質なデータセットを生成する。
- 都市景観セグメンテーションにおける実験で，CA-LoRAは既存手法を上回り，特に悪天候や照明変化などの困難な状況下で優れた性能を示した。
- 少量データやフルスーパーバイズ，ドメイン汎化のいずれの条件においても，有効性が確認された。
Link: https://arxiv.org/abs/2503.22172
Gen-C：生成型群衆による仮想世界の人口増加 [cs.GR, cs.LG]目的：生成型群衆のシミュレーション手法
- 仮想環境における人間らしい群衆の再現は，没入感向上や行動分析に不可欠である。
- 従来の群衆シミュレーションは，衝突回避等の低レベルな処理に偏り，高レベルな行動の再現が困難であった。
- 大規模言語モデルを活用し，多様で一貫性のある群衆行動を生成することで，この課題を解決する。
- Gen-Cは，時間展開グラフ構造を用いて，行動，相互作用，空間的文脈を表現する。
- 二重変分グラフオートエンコーダ（VGAE）により，テキスト情報と構造情報を条件とした学習を行い，大規模な環境対応型群衆シミュレーションを可能にする。
- 大学キャンパスや駅などのシナリオで，多様な群衆，一貫性のある相互作用，高レベルな意思決定パターンを生成することを示した。
Link: https://arxiv.org/abs/2504.01924
雪を降らせよう！物理ガイド付きスコア蒸留による動的気象効果を用いた3Dガウスシーンのアニメーション [cs.GR, cs.CV]目的：3Dガウスシーンへの動的気象効果の付与
- 3Dコンテンツのリアリティとインタラクティブ性向上に貢献する分野であり，その需要は高い。
- 既存手法では，リアルな動きと描写のバランスを取ることが難しく，高品質な動的編集が困難である。
- 物理シミュレーションとスコア蒸留を組み合わせ，写実性と一貫性を両立した動的編集を実現する。
- 提案手法は，物理シミュレーションをスコア蒸留のガイドとして活用し，リアルさと動きの一貫性を同時に最適化する。
- 降雪，降雨，霧，砂嵐などの広範囲な動的気象効果を，物理的に妥当な動きで実現可能となった。
- 実験の結果，提案手法は既存手法と比較して優れた性能を示し，本手法の有効性が確認された。
Link: https://arxiv.org/abs/2504.05296
距離説明器による説明可能な埋め込み表現 [cs.LG, cs.AI, cs.CL, cs.CV]目的：埋め込み空間における局所的な事後解釈
- 機械学習の高度化に伴い，モデルの判断根拠の説明可能性が重要視されている。
- 埋め込み空間は抽象的な次元で表現されるため，解釈が困難であるという課題がある。
- 埋め込み空間における類似性や相違性の根拠を説明することで，透明性と信頼性を向上させる。
- 距離説明器は，選択的なマスキングと距離ランクに基づいたマスクフィルタリングにより，埋め込み空間の距離を説明する。
- ImageNetとCLIPモデルを用いた実験で，類似度または相違度に寄与する特徴を効果的に特定することが示された。
- 本手法は，高いロバスト性と整合性を維持しながら，埋め込み空間の解釈可能性を高める。
Link: https://arxiv.org/abs/2505.15516
生成AI時代における戦略的コンテンツ制作：共有するか否か [cs.GT]目的：プラットフォームとコンテンツクリエイター間の戦略的相互作用
- AI技術の発展はコンテンツ制作に変革をもたらし，プラットフォームの収益とクリエイターのインセンティブに影響を与える。
- クリエイターがコンテンツを共有するか否かの判断は，プラットフォームのAI活用を左右し，最適な収益分配が課題となる。
- プラットフォームがクリエイターのコンテンツ共有を促すための収益分配メカニズムを最適化すること。
- 本研究では，ゲーム理論モデルを用いて，完全共有均衡（すべてのクリエイターがコンテンツを共有する状態）が成立する条件を分析した。
- プラットフォームの収益最大化という目的と，クリエイターのインセンティブ維持という両立が，収益分配メカニズムの設計において重要である。
- シミュレーションの結果，適切な収益分配は，クリエイターの利益とプラットフォームの収益を向上させることが示された。
Link: https://arxiv.org/abs/2505.16358
RestoreVAR：オールインワン画像修復のための視覚自己回帰的生成 [cs.CV, cs.AI]目的：オールインワン画像修復のための視覚自己回帰的生成手法
- 画像修復技術は，劣化した画像を鮮明にする上で不可欠であり，様々な応用分野で利用されている。
- 既存の拡散モデルは高性能だが，反復処理により推論速度が遅いという課題があった。
- 視覚自己回帰モデルの特性を活用し，高速かつ高性能な画像修復を実現することを目指す。
- 提案手法RestoreVARは，拡散モデルベースの手法と比較して，修復性能が向上し，推論速度が10倍以上向上した。
- 視覚自己回帰モデルにおいて，粗いスケールが劣化を捉え，細かいスケールがシーンの詳細をエンコードするという分析結果が得られた。
- RestoreVARは，クロスアテンション機構や潜在空間の改良モジュールなどの工夫により，画像修復タスクに最適化されている。
Link: https://arxiv.org/abs/2505.18047
TopoSculpt：ベティ数誘導による3D微細管状形状のトポロジー整形 [cs.CV]目的：3D微細管状構造のトポロジーと幾何形状を高精度に再構築すること
- 医療画像処理において，管状解剖構造の正確な再構成は，内視鏡ナビゲーション等の臨床応用において重要である。
- 既存手法はトポロジーの正確性や完全性を捉えきれず，局所的な修正ではグローバルな整合性を保証できない。
- 本研究は，ベティ数制約と段階的洗練スキームにより，管状構造のトポロジーエラーを効果的に修正することを目指す。
- 提案手法TopoSculptは，全体の領域を考慮したモデリング戦略を採用し，トポロジーの整合性を維持するベティ数制約を導入している。
- 気管やウィリス動脈円のデータセットにおける実験で，β0エラーが大幅に減少（気管で69.00から3.40へ，CoWで1.65から0.30へ）した。
- 樹木長検出率と分岐検出率がほぼ10％向上し，複雑な3D管状解剖構造のモデル化における有効性が示された。
Link: https://arxiv.org/abs/2509.03938
VocSegMRI：リアルタイムMRIにおける高精度な声道セグメンテーションのためのマルチモーダル学習 [cs.CV]目的：リアルタイムMRIにおける声道構造の正確なセグメンテーション
- 音声研究や言語病理学において，声道形状の正確な把握は不可欠である。
- 既存手法は主に視覚情報に依存し，音声信号からの補完的な情報を活用できていない。
- 音声と視覚情報を統合し，セグメンテーションの精度向上を目指す。
- 提案手法VocSegMRIは，ビデオ，音声，音素情報をクロスアテンション融合することで，セグメンテーション精度を向上。
- USC-75およびUSC-TIMITデータセットでの評価により，既存手法を上回る性能が確認された。
- 各構成要素の貢献度を検証するアブレーション実験も実施し，有効性が確認された。
Link: https://arxiv.org/abs/2509.13767
拡散モデルのアライメントのための潜在的フィードバックによるプラグアンドプレイプロンプト改良：PromptLoop [cs.LG, cs.AI, cs.CV]目的：拡散モデルのアライメント手法
- 拡散モデルは画像生成において高精度だが，意図した出力を得るための制御が課題である。
- 強化学習による拡散モデルのファインチューニングは，汎化性能や報酬ハッキングに弱い。
- 潜在的フィードバックを用いたステップごとのプロンプト改良により，これらの問題を解決する。
- PromptLoopは，拡散モデルの構造的類似性を維持しつつ，プロンプトベースのアライメントの柔軟性を実現した。
- 多様な報酬関数と拡散モデルで実験を行った結果，PromptLoopは効果的な報酬最適化を達成した。
- また，未知のモデルへの汎化，既存のアライメント手法との組み合わせ，過剰最適化の緩和，わずかな推論オーバーヘッドを実現した。
Link: https://arxiv.org/abs/2510.00430
テキスト画像生成における多要素ワールドモデリングのための最適制御 [cs.RO, cs.CV]目的：テキスト画像生成における多要素シーンの忠実性向上
- 画像生成技術は，現実世界の多様なシーンを再現する上で不可欠であり，その精度向上は重要な課題である。
- 既存のテキスト画像生成モデルは，単一の要素を含む画像生成には優れるものの，多要素シーンでは属性漏洩や同一性混乱が生じやすい。
- 本研究は，確率的最適制御の枠組みを用いて，要素間の分離と一貫性を高め，多要素シーンの生成における課題を解決することを目指す。
- 提案手法は，フローマッチングを最適制御として捉え，忠実性と要素間の一貫性のトレードオフを単一のハイパーパラメータで制御可能にする。
- 訓練不要なテスト時制御と軽量なファインチューニング規則（Adjoint Matching）という2つのアーキテクチャ非依存なアルゴリズムを導出し，多要素シーンの精度を向上させる。
- Stable Diffusion 3.5およびFLUX.1を用いた実験により，提案手法が既存モデルのスタイルを維持しつつ，多要素シーンのアライメントを改善することが示された。
Link: https://arxiv.org/abs/2510.02315
一枚のパッチで全てをキャプション：統一されたゼロショットキャプションフレームワーク [cs.CL, cs.CV]目的：ゼロショットキャプションにおける画像領域ごとのキャプション生成手法
- 画像とテキストの意味空間を共有することで，ペア化されたデータに依存しないキャプション生成が期待されている。
- 既存手法はグローバルな画像表現に依存し，部分領域や非連続領域のキャプション生成が困難であった。
- 画像パッチを基本単位とし，それらを集約することで，任意の領域のキャプション生成を可能にすること。
- DINOのような密な視覚特徴を生成するバックボーンが，本フレームワークにおいて重要な役割を果たすことが示された。
- ゼロショット密キャプションと領域セットキャプションにおいて，既存手法を上回る性能を達成した。
- 新しいトレースキャプションタスクの導入により，パッチごとの意味的表現の柔軟なキャプション生成への有効性が確認された。
Link: https://arxiv.org/abs/2510.02898
高次元データの最適な販売方法 [cs.GT, cs.LG, econ.TH]目的：高次元データの販売における収益最大化メニューの設計
- データ取引市場の拡大に伴い，データの適切な価格設定が重要課題となっている。
- 買い手の選好が不明確な場合，売り手は最適なデータ製品を設計することが困難である。
- 買い手の選好が不明確でも，効率的なアルゴリズムを用いて収益を最大化することを目指す。
- 提案アルゴリズムは，状態空間へのサンプリングアクセスのみを用いて，ほぼ最適なメニューを生成できる。
- 高次元ガウスデータの場合，スカラーガウス実験のみを考慮すれば十分であることが示された。
- 買い手の潜在的な選好に関する分離条件が満たされる場合に限り，完全な余剰抽出が可能となる。
Link: https://arxiv.org/abs/2510.15214
DELULU：潜在ユニットを用いた話者識別埋め込み学習 - 話者認識自己教師あり音声基盤モデル [cs.SD, cs.CL]目的：話者識別能力を備えた音声基盤モデルの構築
- 音声処理技術は，セキュリティ，コミュニケーション，アクセシビリティなど多岐にわたる分野で不可欠である。
- 既存の自己教師あり学習モデルは，話者識別のような話者依存タスクにおいて性能が限定的である。
- 話者情報を考慮した事前学習により，話者識別性能を向上させることを目指す。
- DELULUは，ReDimNetのフレームレベル埋め込みを用いてk-meansクラスタリングを誘導し，話者識別誘導バイアスを導入する。
- 話者中心タスクにおいて，既存の自己教師あり学習モデルを大幅に上回り，EERで最大62%の相対的な改善を達成した。
- ゼロショットプロファイリングタスク（性別，年齢，アクセント，話者数）においても優れた性能を示し，教師モデルを上回る結果が得られた。
Link: https://arxiv.org/abs/2510.17662
段階的DMD：部分区間におけるスコアマッチングによる数段階分布マッチング蒸留 [cs.CV]目的：分布マッチング蒸留による効率的な生成モデルの構築
- 生成モデルの性能向上は，画像や動画生成を含む様々な分野で重要である。
- 単一ステップ蒸留モデルは生成多様性が低く，複雑な生成タスクにおいて性能が低下する。
- 段階的蒸留により，モデルの学習を容易にしつつ容量を拡大し，生成性能を向上させる。
- Phased DMDは，最先端の画像および動画生成モデルの蒸留に成功している。
- 動画生成において，動きのダイナミクスを向上させ，視覚的な忠実度を高めている。
- 画像生成においては，出力の多様性を高めることが示されている。
Link: https://arxiv.org/abs/2510.27684
統一拡散VLA：共同離散ノイズ除去拡散過程による視覚・言語・行動モデル [cs.RO, cs.CV]目的：視覚情報と自然言語指示を理解し，それに対応する行動を実行する具現化されたエージェントの実現
- ロボット工学やAIにおいて，人間のような知能を持つエージェントの実現は重要な課題である。
- 既存モデルは，異なるモダリティの統合に外部専門家への依存や，画像生成と行動予測の分離といった問題を抱えている。
- 生成と行動を同期的なノイズ除去過程で最適化し，モダリティ間の相乗効果を最大化することを目指す。
- 提案手法であるUnified Diffusion VLAとJoint Discrete Denoising Diffusion Process (JD3P)により，理解，生成，行動を本質的に相乗的にする。
- CALVIN，LIBERO，SimplerEnvなどのベンチマークで最先端の性能を達成し，自己回帰的な手法と比較して4倍高速な推論を実現した。
- 統一されたトークン化空間とハイブリッドアテンションメカニズムを基盤とし，二段階の訓練パイプラインと推論時の技術を提案した。
Link: https://arxiv.org/abs/2511.01718
分布整合蒸留と強化学習の融合 [cs.CV]目的：効率的な推論のための蒸留と人間嗜好に合致した生成
- 大規模拡散モデルの効率化と制御は，実用化に向けた重要な課題である。
- 蒸留と強化学習はそれぞれ独立に扱われ，連携による相乗効果が未開拓である。
- 両者の同時最適化による相互利点と，それらを統合するフレームワークの構築。
- 提案手法DMDRは，報酬傾斜分布整合と動的蒸留戦略を組み合わせることで，高品質な画像生成を実現した。
- DMDRは，強化学習における報酬ハッキングを抑制し，より制御された蒸留を可能にする。
- 実験により，DMDRは少ステップ生成において最先端の性能を示し，多ステップモデルを上回る結果を得た。
Link: https://arxiv.org/abs/2511.13649
DepthFocus：透過シーンにおける制御可能な深度推定 [cs.CV]目的：透過シーンにおける深度推定の制御
- 現実世界の深度は多様であり，透明体などの存在が知覚システムに曖昧さを生む。
- 既存モデルは受動的で，固定された特徴表現による表現の限界がある。
- 人間の視覚のように，目的とする深度に焦点を合わせられる深度推定を実現する。
- DepthFocusは，物理的な基準深度に基づき計算を動的に調整する制御可能なVision Transformerである。
- 透明および反射面における深度の曖昧さを効果的に解決し，目標距離における幾何構造を選択的に再構築する。
- 様々なベンチマークで最先端の結果を達成し，意図に基づいた堅牢な3D知覚を可能にする。
Link: https://arxiv.org/abs/2511.16993
拡散モデルの少数ステップ少数ショット画像生成のための統一的な蒸留と適応 [cs.CV, cs.AI]目的：拡散モデルにおける，新たなドメインへの高速かつ高品質な画像生成
- 拡散モデルは高品質な画像を生成するが，ドメイン適応時の計算コストが高いという課題がある。
- 蒸留された拡散モデルは高速化されるが，教師モデルのドメインに限定されやすい。
- ドメイン適応と蒸留を組み合わせた，単一の効率的なパイプラインの構築。
- Uni-DADは，拡散モデルの蒸留と適応を統合した単一段階パイプラインであり，2つの学習信号を利用する。
- 実験結果から，Uni-DADは最先端の適応手法と同等以上の品質を，4ステップ以下のサンプリングで実現した。
- 既存の二段階パイプラインと比較して，品質と多様性の両面で優れている場合が多い。
Link: https://arxiv.org/abs/2511.18281
MimiCAT：対応を意識したカスケードTransformerによるカテゴリフリー3Dポーズ転送 [cs.CV, cs.GR]目的：カテゴリフリー3Dポーズ転送の実現
- 3Dキャラクターアニメーションの効率化に不可欠であり，多様なキャラクターへの応用が期待される。
- 既存手法は構造の類似したキャラクターに限定され，幅広いカテゴリへの汎化が困難である。
- 異なる構造を持つキャラクター間でも，自然なポーズ転送を可能にすることを目指す。
- MimiCATは，大規模なポーズデータセットと，ソフトな対応関係を学習するカスケードTransformerモデルを用いる。
- ソースの変形をターゲットに投影し，形状条件付き表現を用いて洗練させることで，多様なキャラクター形態への汎化を実現する。
- 実験により，既存の狭範なカテゴリの転送手法と比較して，より妥当なポーズ生成が可能であることが示された。
Link: https://arxiv.org/abs/2511.18370
潜在拡散反転には潜在空間の理解が必要である [cs.CL, cs.SI, cs.LG, cs.CV]目的：潜在拡散モデルにおける記憶化メカニズムの解明
- 生成モデルからの学習データ復元は，プライバシー保護の観点から重要である。
- 潜在拡散モデルは従来の反転手法に対して頑健であると考えられていた。
- 潜在空間における記憶化の偏りを特定し，プライバシーリスク軽減に貢献する。
- 拡散モデルは，デコーダpullback距離が高い潜在コード領域で過学習しやすいことが示された。
- 潜在コード内の表現次元によって記憶化への貢献度が異なり，次元ランキングにより特定可能である。
- 記憶化の少ない次元を除去することで，メンバーシップ推論の性能が向上し，プライバシー保護に繋がる。
Link: https://arxiv.org/abs/2511.20592
GaINeR：幾何構造を意識した陰解表現 [cs.CV]目的：画像編集のための幾何構造を意識した陰解表現の枠組み
- 画像処理において，高精度な画像再構成，超解像，圧縮への応用が期待されており，その重要性が増している。
- 従来の陰解表現は幾何構造を明示的に扱わないため，局所的な編集や物理シミュレーションとの連携が困難である。
- 幾何構造を考慮することで，柔軟な局所編集や物理ベースの画像操作を可能にすることを目指す。
- 提案手法GaINeRは，学習可能なガウス分布とニューラルネットワークを組み合わせることで，連続的な画像表現と解釈可能な幾何構造を実現した。
- 幾何構造の一貫性を保った変換，シームレスな超解像，物理ベースのシミュレーションとの統合が可能となった。
- 実験の結果，最先端の再構成品質を達成しつつ，柔軟かつ物理的に整合性のとれた画像編集を実現した。
Link: https://arxiv.org/abs/2511.20924
Tweedie離散拡散によるVLAモデルの汎化性能と詳細な制御の向上 [cs.RO, cs.AI, cs.CV, cs.LG]目的：VLAモデルにおける汎化性能と詳細な制御の向上
- ロボットの知能化において，視覚，言語，行動を統合するVLAモデルは重要な役割を担う。
- 既存のVLAシステムは，多様なタスクや環境，視点への汎化が難しく，粗雑で不安定な行動を示す場合がある。
- 行動生成を離散拡散過程として捉えることで，トークンベースの推論と詳細な行動制御を実現し，汎化性能を高める。
- E0は，行動生成を量子化された行動トークンに対する反復的なノイズ除去として定式化するTweedie離散拡散フレームワークである。
- 視点摂動によるデータ拡張により，追加データなしでカメラの移動に対するロバスト性を向上させる。
- LIBERO，VLABench，ManiSkill，実世界のFrankaアームを用いた実験で，14の多様な環境において最先端の性能を達成した。
Link: https://arxiv.org/abs/2511.21542
Fast3Dcache：学習不要な3D形状合成の高速化 [cs.CV]目的：3D形状合成における推論速度の向上
- 拡散モデルは画像や動画等で高品質な生成が可能だが，計算コストが高い。
- 3D拡散モデルへの既存のキャッシュ手法の適用は，幾何学的整合性を損なう恐れがある。
- キャッシュ再利用時の数値誤差蓄積による構造的アーティファクトの抑制。
- Fast3Dcacheは，幾何学的な忠実性を維持しつつ，3D拡散推論を高速化する。
- 推論速度は最大27.12%向上，FLOPsは最大54.83%削減された。
- Chamfer Distance（2.48%）とF-Score（1.95%）の低下は最小限に抑えられた。
Link: https://arxiv.org/abs/2511.22533
FlashVGGT：圧縮された記述子注意を用いた効率的かつスケーラブルな視覚幾何変換器 [cs.CV]目的：マルチビュー画像からの3次元再構成の効率化とスケーラビリティ向上
- 3次元再構成はコンピュータビジョンの重要な課題であり，多様な応用分野で不可欠である。
- 従来の最適化手法は計算コストが高く，効率的な代替手法が求められていた。
- 画像トークン数の増加に伴う計算量の増大を抑制し，長画像シーケンスへの対応を可能にすること。
- FlashVGGTは，記述子ベースの注意メカニズムにより，VGGTと同等の再構成精度を実現する。
- 1000枚の画像に対し，推論時間をVGGTの9.3%まで短縮し，計算効率を大幅に向上させる。
- 3000枚を超える長画像シーケンスに対しても効率的にスケーリングすることが可能である。
Link: https://arxiv.org/abs/2512.01540
パネルからピクセルへ：生物医学文献からのズームイン型ビジョン言語事前学習 [cs.CV, cs.AI]目的：生物医学分野におけるビジョン言語モデルの事前学習データパイプラインの構築
- 生物医学分野では，画像とテキストを組み合わせた高度なモデルの需要が高まっている。
- 既存の事前学習は，図表の情報を粗く圧縮し，臨床医が重視する局所的な対応関係を失っている。
- 図表の階層構造を活用し，詳細な局所情報を保持した学習データの生成を目指す。
- 提案手法Panel2Patchは，図表，パネル，視覚的マーカーを解析し，階層的なビジョン言語ペアを構築する。
- これにより，論文全体や図表全体だけでなく，局所的な領域に焦点を当てた学習が可能となる。
- 少量のデータでも従来のパイプラインを上回る効果が得られ，高性能なモデルを効率的に学習できる。
Link: https://arxiv.org/abs/2512.02566
分割して基盤化：クエリタイプに応じた長編動画理解のためのフレーム選択の適応 [cs.CV, cs.AI, cs.LG]目的：長編動画理解におけるフレーム選択戦略
- 動画理解は，AI技術の重要な応用分野であり，様々なシーンで活用が期待されている。
- 長編動画は処理コストが高く，限られたコンテキスト長がボトルネックとなっている。
- クエリタイプに応じてフレーム選択戦略を適応することで，効率的な動画理解を目指す。
- 本研究では，クエリタイプを「全体クエリ」と「局所クエリ」に分類し，それぞれの特性に合わせたフレーム選択戦略の有効性を示した。
- 提案手法DIGは，全体クエリに対しては効率的な一様サンプリング，局所クエリに対してはクエリ関連フレーム抽出パイプラインを活用する。
- 実験結果から，DIGは既存手法を上回り，フレーム数を増やす場合でもLMMの性能を安定的に向上させることが確認された。
Link: https://arxiv.org/abs/2512.04000
AGORA：リアルタイムアニメーション可能な3Dガウス頭部アバターの敵対的生成 [cs.CV]目的：リアルタイムアニメーション可能な3Dガウス頭部アバターの生成
- VR，テレプレゼンス，エンターテイメントなど幅広い分野で，高品質な3Dヒューマンアバターの需要が高まっている。
- 既存手法はレンダリング速度が遅い，または静的な頭部生成に留まり，動的な制御が困難であるという課題があった。
- 3Dガウススプラッティングを敵対的生成ネットワークに拡張し，動的な制御を可能にするアバター生成を目指す。
- AGORAは，レンダリングされた外観と合成ジオメトリの両方を監視する二重識別子トレーニング戦略により，表現の忠実さと制御性を向上させている。
- 単一のGPU上で560 FPS，モバイルフォン上で60 FPSのレンダリング速度を達成し，実用的な高性能デジタルヒューマンへの大きく前進した。
- Gaussian blendshapesを抽出してデバイス上でのアニメーションに再利用する，シンプルな推論手法を導入した。
Link: https://arxiv.org/abs/2512.06438
ハイブリッドスプラット：ハイブリッドスプラッティングを用いた高速反射ベイクガウシアン追跡 [cs.CV]目的：3Dガウシアンスプラッティングによる現実世界の複雑な反射レンダリングの高速化
- フォトリアリスティックな新規視点合成において，3Dガウシアンスプラッティングは有望な手法である。
- 従来のガウシアンスプラッティングは，特にレンダリング速度とメモリ消費量に課題があった。
- 反射情報をガウシアンにベイクすることで，レンダリングの高速化とメモリ削減を目指す。
- 提案手法HybridSplatは，複雑な反射シーンにおいてレンダリング速度を約7倍に向上させた。
- 類似のレイトレーシングベースのガウシアンスプラッティング手法と比較して，ガウシアンの数を4分の1に削減した。
- ハイブリッドスプラッティングとパイプラインレベルの最適化により，高速なレンダリングと低メモリ消費を実現した。
Link: https://arxiv.org/abs/2512.08334
Blink：多modalな理解を強化するための動的な視覚トークン解決 [cs.CV]目的：多modal大規模言語モデルの視覚理解能力向上
- 画像と言語を扱うAIモデルの発展は，様々な応用を可能にする重要な研究分野である。
- 既存のモデルは，複雑な画像を効率的に理解する点で人間の視覚能力に劣るという課題がある。
- 人間の視覚メカニズムに着想を得て，AIモデルの視覚情報の処理効率と精度を改善することを目指す。
- Blinkは，注意マップに基づき重要な視覚トークンを拡張し，不要なトークンを削除することで，効率的な視覚情報の処理を実現する。
- この動的なメカニズムにより，広範囲な探索と詳細な集中をバランスさせ，視覚理解能力を適応的に強化する。
- 実験の結果，Blinkは視覚理解と多modalな理解を向上させることが確認された。
Link: https://arxiv.org/abs/2512.10548
EditMGT：マスク生成Transformerの画像編集における潜在能力の解放 [cs.CV, cs.MM, eess.IV]目的：画像編集におけるマスク生成Transformer（MGT）の活用
- 画像編集技術は，写真加工やコンテンツ生成など，幅広い分野で重要性を増している。
- 拡散モデルは高品質だが，編集対象領域以外にも影響が及びやすいという課題がある。
- MGTの局所的なデコーディング能力を活用し，意図しない編集を防ぐことを目指す。
- EditMGTは，MGTのクロスアテンションマップを洗練させ，編集領域の正確な特定を実現する。
- リージョンホールドサンプリングにより，編集対象外領域への影響を抑制し，編集の精度を高める。
- 10億個以下のパラメータで，既存のモデルと同等の性能を達成し，6倍高速な編集を可能にする。
Link: https://arxiv.org/abs/2512.11715
ノイズデータからの環境測定統合拡散による確率的オブジェクトモデルの確立 [cs.GR, cs.CV]目的：確率的オブジェクトモデルの確立
- 医療画像システムの評価には画像品質が重要であり，解剖学的変動を含むランダム性を考慮する必要がある。
- 従来の数学的SOMは現実的な解剖学的構造を捉えきれず，データ駆動型アプローチはクリーンなデータが必要となる。
- ノイズデータから直接クリーンなSOMを確立し，信頼性の高い画像品質評価を実現すること。
- 提案手法AMIDは，測定ノイズと拡散軌跡を整合させ，ノイズ間の結合を明示的にモデル化することで，クリーンなSOMを確立する。
- CTおよびマンモグラフィデータセットの実験により，AMIDは既存手法と比較して生成忠実度において優れていることが示された。
- AMIDは，タスクベースの画像品質評価においてより信頼性のある結果をもたらし，非教師あり医療画像解析への潜在的な応用性を示唆している。
Link: https://arxiv.org/abs/2512.14187
物理駆動による人間様ワーキングメモリが動的視覚においてデジタルネットワークを凌駕する [cs.ET, cs.AI, cs.CV, cs.NE]目的：動的視覚における人間様ワーキングメモリの性能向上
- AIのエネルギー消費増大に対し，物理駆動コンピューティングの重要性が高まっている。
- 従来のAIはデジタルメモリを使用し，動的環境下でノイズが蓄積しやすい。
- 熱緩和ダイナミクスを活用し，ノイズを内在可塑性として利用することで，高性能なワーキングメモリを実現する。
- 本研究で開発したIPNetは，動的視覚タスクにおいて，従来の空間的・時間的畳み込みモデルと比較してエラーを18倍削減した。
- IPNetは，メモリエネルギーオーバーヘッドを90,000倍以上削減し，効率的な動作を可能にした。
- 自動運転シミュレーションでは，IPNetは再帰型ネットワークと比較して予測エラーを12.4%低減した。
Link: https://arxiv.org/abs/2512.15829
アンカー付き動画生成：テキスト-動画拡散モデルにおけるシーン構築と時間的合成の分離 [cs.CV]目的：テキスト-動画生成における，シーン構築と時間的合成の分離
- 動画生成技術は，エンターテイメント，教育，コミュニケーションなど，幅広い分野での応用が期待されている。
- 既存のテキスト-動画モデルは，複雑なシーンの構成や論理的な時間的指示の追従が困難であるという課題を抱えている。
- 初期フレームの正確な構築を可能にし，より効率的で制御可能な動画合成を目指す。
- 提案手法であるアンカー付き動画生成（AVG）は，T2V CompBenchベンチマークで最先端の性能を達成した。
- AVGは，VBench2においても，テストされた全てのモデルで有意な改善を示した。
- 視覚的なアンカーを利用することで，サンプリングステップ数を70％削減し，性能低下なしに効率化を実現した。
Link: https://arxiv.org/abs/2512.16371
プライムとリーチ：視線誘導による物体把持動作の合成 [cs.CV]目的：視線誘導を伴う物体把持動作の生成
- 人間の動作生成は，自然な行動を再現する上で重要であり，ロボット工学やCGアニメーションへの応用が期待される。
- 既存手法では，視線誘導と把持動作を自然に連携させた動作生成が困難であった。
- 視線誘導と把持動作を組み合わせた動作を生成し，より人間らしい動作を実現することを目指す。
- 5つの既存データセットから23.7Kの視線誘導を含む人体動作データを収集し，学習データとして活用した。
- テキスト条件付き拡散モデルを事前学習し，目標姿勢や位置に基づいてファインチューニングすることで，多様な全身動作を生成した。
- 生成された動作は，既存手法やベースラインと比較して，視線誘導と把持動作の両方において自然な動きを再現できることが確認された。
Link: https://arxiv.org/abs/2512.16456
プロポーズ：カノニカルUVマップを用いたペアなし全身ポートレート合成 [cs.CV]目的：ペアなしデータを用いた全身ポートレートの合成手法
- 人認識技術の発展に伴い，多様な応用への期待が高まっている。
- 現実世界の画像は，ポーズや服装が不揃いで，応用が困難な場合が多い。
- 現実の画像を制御可能なアバターに変換し，高精度な応用を実現すること。
- 提案手法は，入力画像をカノニカルUV空間に変換し，ポーズと外観を分離することで，大規模なペアなしデータセットを活用する。
- マルチ画像ファインチューニングにより，極端なポーズ変化下でもロバストな個人識別を実現する。
- 実世界の画像に対する定量評価で高い性能を示し，バーチャル試着などの下流アプリケーションの精度向上に貢献する。
Link: https://arxiv.org/abs/2512.17143
SERA-H：ネイティブセンチネル空間限界を超えて高解像度樹冠高マッピングを実現 [cs.CV]目的：高解像度樹冠高マッピング手法の開発
- 森林管理や生物多様性モニタリングにおいて，樹冠高の正確な把握は不可欠である。
- 既存手法では，データの入手しやすさと空間解像度の間にトレードオフが存在する。
- センチネル衛星データを用いて，商業衛星データと同等の精度で樹冠高マッピングを実現する。
- SERA-Hは，センチネル1号およびセンチネル2号の時系列データから2.5m解像度の樹冠高マップを生成する。
- フランスのベンチマークデータセットにおいて，MAE 2.6m，R2 0.82を達成し，既存手法を上回った。
- 高解像度な教師データと時空間情報を組み合わせることで，入力センサーのネイティブ解像度を超える詳細な再構築が可能となった。
Link: https://arxiv.org/abs/2512.18128
NeXT-IMDL：次世代画像操作検出・局在化のためのベンチマーク構築 [cs.CV]目的：次世代画像操作検出・局在化モデルの頑健性評価
- 画像編集技術の進歩と悪用のリスクから，操作検出技術の重要性が高まっている。
- 既存研究では，データセット間での評価が一般的だが，多様なAI生成コンテンツへの対応が課題。
- 多様な操作シナリオにおける汎化性能の限界を明らかにし，より頑健なモデル開発を促す。
- NeXT-IMDLは，編集モデル，操作タイプ，内容，粒度という4つの軸でAI生成操作を分類する。
- 11の代表的なモデルを用いた実験で，既存モデルは未知の環境下で性能が著しく低下することが示された。
- 本研究は，汎化性能の評価ツールキットと新たな知見を提供し，次世代IMDLモデル開発を促進する。
Link: https://arxiv.org/abs/2512.23374
ブラインド画像品質評価における純粋なテキスト推論の理解 [cs.CV, cs.AI]目的：ブラインド画像品質評価におけるテキスト情報の貢献度と，テキストによる画像内容の表現能力の解明
- 画像品質評価は，画像処理やコンピュータビジョンの重要な要素であり，様々な応用分野で求められている。
- 従来の画像品質評価手法では，主観評価との乖離や，評価の自動化が課題となっていた。
- テキスト推論を活用することで，画像品質評価の精度向上と，より人間らしい評価を目指す。
- 既存のBIQAモデルは，テキスト情報のみを用いた予測において性能が大幅に低下することが示された。
- Chain-of-ThoughtパラダイムはBIQA性能への改善をもたらさなかった一方，Self-Consistencyパラダイムは画像とテキストによる予測の差を大幅に縮小した。
- Autoencoder類似のパラダイムは差の縮小には効果が限定的だったが，さらなる最適化の方向性を示唆している。
Link: https://arxiv.org/abs/2601.02441
DanQing：最新の大規模中国語ビジョン-言語事前学習データセット [cs.CV, cs.AI]目的：大規模中国語ビジョン-言語データセットの構築
- ビジョン-言語事前学習は，画像とテキストのペアを活用し目覚ましい成果を上げている。
- 中国語VLPモデルの開発は，高品質な大規模オープンソースデータの不足が課題となっている。
- ウェブデータ特有のノイズを軽減し，最新のセマンティックな傾向を捉えたデータセットを構築する。
- DanQingは，Common Crawlから収集した1億件の高品位な画像-テキストペアで構成される。
- SigLIP2モデルの継続事前学習実験により，DanQingは既存の中国語データセットを様々なタスクで上回る性能を示した。
- DanQingは，既存のデータセットと比較して，よりバランスの取れたセマンティック分布と優れたスケーリング能力を備えている。
Link: https://arxiv.org/abs/2601.10305