arXiv雑要約

画像・音声 - 2026/04/21 公開

硬さの認識に基づく拡散サンプリング：埋め込みルンゲクッタガイダンス [cs.CV, cs.AI]目的：拡散モデルにおける硬さの認識と誤差の活用
- 拡散モデルは高品質な画像生成を実現するが，計算コストが大きい。
- ODEソルバーの誤差が硬い領域で大きくなり，生成品質を低下させる。
- ソルバーの誤差をガイダンス信号として利用し，サンプリングを安定化させる。
- 提案手法ERK-Guidは，ソルバーの硬さを検出し，局所切断誤差を低減する。
- 理論的・実験的に硬さの推定とソルバー誤差の関係を分析し，ERK-Guidの設計を裏付ける。
- 合成データセットとImageNetで，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2603.03692
AWPD：未知の水mark存在検出のための周波数シールドネットワーク [cs.CV, cs.AI]目的：未知の水mark存在検出
- 画像著作権保護技術は，ソーシャルメディアやAIGCの発展に伴い重要性が増している。
- 既存の水mark検出は特定アルゴリズムへの依存度が高く，未知の水mark検出に課題がある。
- 特定アルゴリズムに依存せず水markの存在を検出する手法を開発する。
- 提案手法FSNetは，学習可能な周波数ゲーティングにより水mark信号を増幅し，セマンティクスを抑制する。
- 深層では，DMSAと極値プーリングにより水markエネルギー異常を深くマイニングし，感度周波数帯に焦点を当てる。
- FSNetは，既存手法を上回るゼロショット検出性能を示すことが実験で確認された。
Link: https://arxiv.org/abs/2603.06723
FrameVGGT：幾何学的に整合したフレームレベルメモリによるバウンドストリーミングVGGT [cs.CV]目的：バウンドストリーミングVGGTにおける幾何学的サポートの維持
- 3次元知覚は，ロボット工学や自動運転など，様々な応用において重要である。
- ストリーミングVGGTはメモリ消費量が無限に増大し，実用的な展開が制限されている。
- フレームレベルでのメモリ管理により，長期的な安定した幾何学的推論を実現すること。
- FrameVGGTは，フレーム単位でKV貢献を整理することで，限られたメモリ内で高い精度を実現する。
- 従来のトークンレベルの保持方法と比較して，幾何学的サポートの一貫性を維持し，長期的な推論の安定性を向上させる。
- 3次元再構成，ビデオ深度推定，カメラ姿勢推定において，メモリと精度のトレードオフが良好である。
Link: https://arxiv.org/abs/2603.07690
DSH-Bench：階層的被写体分類を用いた難易度・シナリオ対応型被写体駆動テキスト画像生成ベンチマーク [cs.CV, cs.AI]目的：被写体駆動テキスト画像生成モデルの体系的な多角的分析
- テキスト画像生成技術は目覚ましい発展を遂げているが，評価方法が課題となっている。
- 既存のベンチマークは，被写体の多様性，難易度ごとの評価，改善のための示唆に乏しい。
- DSH-Benchは，これらの課題を解決し，モデル改善の方向性を示すことを目指す。
- DSH-Benchは，58種類の細分化されたカテゴリで被写体を網羅的に表現する階層的分類メカニズムを導入した。
- 被写体の難易度とプロンプトのシナリオを分類することで，モデルの能力を詳細に評価できる新しい分類スキームを提案した。
- 提案するSICS指標は，既存の指標よりも人間による評価との相関性が9.4%高いことが示され，被写体の同一性維持を定量化する精度が向上した。
Link: https://arxiv.org/abs/2603.08090
TrianguLang：姿勢推定なし3D位置推定のための幾何学的認識に基づく意味的合意 [cs.CV]目的：3D空間における自然言語からの物体および部品の位置推定
- ロボティクス，AR，具現化されたAIにとって，3D空間での物体認識は不可欠である。
- 既存手法は，シーンごとの最適化の精度と幾何学的整合性，および前方推論の効率性の間でトレードオフが存在する。
- 本研究は，真の姿勢推定を必要とせずに高精度な3D位置推定を実現することを目的とする。
- TrianguLangは，カメラキャリブレーションなしで推論を行う前方推論フレームワークである。
- Geometry-Aware Semantic Attention（GASA）を導入し，予測された幾何学情報を利用してクロスビュー特徴の対応を抑制することで，幾何学的に矛盾するマッチングを低減する。
- ScanNet++およびuCO3Dを含む5つのベンチマークで最先端の結果を達成し，ユーザーの労力を大幅に削減する。
Link: https://arxiv.org/abs/2603.08096
皮膚癌症例検索のための，グローバルおよびローカル表現の同時整列による合成視覚言語検索 [cs.CV, cs.AI]目的：皮膚癌症例の検索システム
- 医療診断支援，教育，品質管理において，関連症例の迅速な検索が重要である。
- 画像とテキストの両方を用いた複合的な検索クエリに対応したシステムが不足している。
- グローバルとローカルの情報を同時に整列することで，検索精度を向上させる。
- 提案手法は，Derm7ptデータセットにおいて，最先端手法と比較して一貫した改善を示した。
- 階層的な複合クエリ表現を学習し，画像とクエリのグローバル・ローカル整列を同時に行うことで，高い検索性能を実現した。
- 臨床的に重要なローカルエビデンスを重視しつつ，全体的な整合性を維持するドメイン知識に基づいた重み付けが有効であった。
Link: https://arxiv.org/abs/2603.09108
フレームDiT：効率的な動画生成のための行列注意を用いた拡散Transformer [cs.CV]目的：効率的な動画生成のための新しいフレームレベルのTemporal Attention機構の開発
- 動画生成は，コンテンツ制作や多様な応用において重要性が増している分野である。
- 拡散モデルでは，複雑な時空間動特性の効率的なモデリングが課題となっていた。
- Full 3D AttentionとLocal Factorized Attentionのトレードオフを解消し，高品質かつ効率的な動画生成を目指す。
- 行列注意機構は，フレーム全体を行列として処理することで，グローバルな時空間構造を効果的に保持する。
- FrameDiT-Hは，大規模および微小な動きの両方を捉え，複数の動画生成ベンチマークで最先端の結果を達成した。
- FrameDiT-Hは，Local Factorized Attentionと同等の効率を維持しながら，時間的な一貫性と動画品質を向上させた。
Link: https://arxiv.org/abs/2603.09721
AIは美術史家のように見るか？ビジョン言語モデルによる芸術様式の認識の解釈 [cs.HC, cs.CY, cs.CV, cs.AI]目的：芸術様式の予測における基盤概念の特定と，それらが美術史家の判断と一致するかどうかの評価
- 芸術分野におけるAI応用の可能性を探求することは，文化遺産の理解と保存に不可欠である。
- 既存のAIモデルは，芸術様式を認識する際の判断根拠が不明確であり，美術史家の視点との乖離が懸念される。
- AIモデルが芸術様式を予測する際に用いる概念を明らかにし，その妥当性を美術史家の視点から検証すること。
- 抽出された概念の73%は，美術史家によって一貫性のある視覚的特徴を持つと判断された。
- ある作品の様式を予測するために用いられた概念の90%は，関連性があると判断された。
- 関連性の低い概念が成功裡に様式を予測した場合，モデルが形式的な要素（明暗対比など）を理解している可能性が示唆された。
Link: https://arxiv.org/abs/2603.11024
Sky2Ground：高度変化下におけるサイトモデリングのためのベンチマーク [cs.CV]目的：高度変化に対応したカメラ位置推定，対応点学習，および再構成のためのデータセット
- 多様な視点からの3次元空間の理解は，ロボティクスや自動運転など広範な応用分野で重要である。
- 異なる高度からの画像間には視点やスケールの違いがあり，正確な位置推定や再構成が困難である。
- 衛星画像などの高高度画像と地上画像間の整合性を高め，大規模な3次元認識を実現することを目的とする。
- Sky2Groundは，衛星画像，航空画像，地上画像の組み合わせにより，高度変化に対応した評価環境を提供する。
- 既存の姿勢推定モデルは，衛星画像の利用により性能が低下することが示された。
- 提案手法SkyNetは，カリキュラム学習を用いて衛星画像の活用を改善し，既存手法を大幅に上回る性能を達成した。
Link: https://arxiv.org/abs/2603.13740
TSegAgent：幾何学的知識を組み込んだ視覚言語エージェントによるゼロショット歯分割 [cs.CL, cs.CL, cs.CV]目的：ゼロショット歯分割の実現
- デジタルデンティストリーにおいて，歯の自動分割は不可欠な技術である。
- 既存手法は，高コストなアノテーションと汎化性能の低さが課題である。
- 幾何学的知識を活用し，アノテーションコストを削減し汎化性能を高める。
- 本研究で提案するTSegAgentは，汎用的な基礎モデルと幾何学的知識を組み合わせることで，タスク固有の学習なしに歯の分割と識別を可能にする。
- 歯列の構造的制約や体積関係を明示的にエンコードすることで，曖昧なケースにおける不確実性を低減し，過学習を抑制する。
- 実験結果は，TSegAgentが低い計算コストとアノテーションコストで，多様な歯の3Dスキャンに対して高精度かつ信頼性の高い歯の分割と識別を可能にすることを示している。
Link: https://arxiv.org/abs/2603.19684
FoleyDirector: 構造化スクリプトによる動画からの音声生成における微細な時間制御 [cs.RO, cs.SD, cs.CV]目的：動画からの音声生成における微細な時間制御の実現
- 動画と音声を統合したコンテンツ制作の需要が高まっており，その自動化技術が求められている。
- 既存手法では，複雑なシーンや視覚情報が不十分な場合に，時間的な制御が困難である。
- 構造化スクリプトを用いて，より精密な時間制御を可能にすることを目指す。
- FoleyDirectorは，DiTベースのV2A生成において，時間的な制御を可能にし，音声品質を維持する。
- 構造化時間スクリプト（STS）を用いることで，より詳細な時間情報を統合し，制御性を向上させる。
- 新しいデータセットDirectorSoundと評価指標VGGSoundDirector/DirectorBenchを構築し，有効性を検証した。
Link: https://arxiv.org/abs/2603.19857
MuSteerNet：動画からの観察・反応相互誘導による人間反応生成 [cs.CV]目的：動画に基づいた3D人間モーションの反応生成
- 人間らしいインタラクティブAIシステム構築には，動画に反応する人間モーションが不可欠である。
- 既存手法では動画内容と反応モーションのずれが生じやすいという課題がある。
- 視覚的観察と反応タイプの関係性の歪みを軽減し，反応品質を向上させる。
- 提案手法MuSteerNetは，観察・反応相互誘導により，3D人間反応生成を行うシンプルなフレームワークである。
- プロトタイプフィードバック誘導機構により，視覚的観察を改善し，関係性の歪みを軽減する。
- 双方向結合反応洗練により，生成された反応モーションをさらに洗練させ，反応品質を向上させる。
Link: https://arxiv.org/abs/2603.20187
視覚情報が問題ではない場合：誤解を招くデータ可視化に対する視覚-言語モデルの評価 [eess.SY, cs.SY, cs.RO, cs.CV, cs.AI]目的：誤解を招くデータ可視化の検出能力
- データ理解において可視化は重要であり，誤った情報伝達を防ぐ必要性がある。
- 視覚-言語モデルはデータ可視化の理解が進む一方，微妙な誤りを含む可視化の検出は課題である。
- 誤解を招く可視化とキャプションの間の論理的誤りやデザインの誤りを特定するベンチマークを開発する。
- 多くの視覚-言語モデルにおいて，視覚デザインのエラーの検出は，推論に基づく誤情報の検出よりも信頼性が高いことが示された。
- 誤解を招いていない可視化を誤って欺瞞的と分類することが頻繁に発生する。
- 本研究は，誤解を招くコンテンツの粗い検出と，その原因となる具体的なエラーの特定との間のギャップを埋める。
Link: https://arxiv.org/abs/2603.22368
テキスト表現による誘導推論を通じて，マルチモーダル大規模言語モデルにおける空間推論能力を解放する [eess.SY, cs.SY, math.DS, cs.RO, cs.CV, cs.CL]目的：マルチモーダル大規模言語モデルにおける3次元空間推論の改善
- 動画などのマルチモーダルデータ理解はAIの重要な課題であり，現実世界とのインタラクションに不可欠である。
- 既存のモデルは，動画内の3次元環境の構造化された抽象化を構築できず，空間推論が苦手である。
- テキスト形式での空間表現を用いることで，より正確な空間質疑応答を可能にすることを目指す。
- 提案手法TRACEは，動画から得られるエゴセントリック視点に基づいた3次元環境のテキスト表現を生成し，中間的な推論過程として活用する。
- TRACEは，メタコンテキスト，カメラ軌跡，詳細なオブジェクト情報をエンコードし，構造化された空間推論を支援する。
- VSI-BenchおよびOST-Benchでの実験により，TRACEが様々なモデルで一貫して性能向上をもたらすことが示された。
Link: https://arxiv.org/abs/2603.23404
MLE-UVAD：完全に教師なし動画異常検知のための最小潜在エントロピーオートエンコーダ [eess.SY, cs.SY, cs.CV]目的：動画異常検知のための新しい手法
- 動画監視システムの自動化が求められており，異常行動の自動検知技術の重要性が高まっている。
- 既存手法はラベル依存または正常データのみでの学習であり，現実環境での分布シフトに弱い。
- ラベルなしで，分布シフトにロバストな異常検知手法を確立することを目指す。
- 提案手法は，再構成誤差と潜在エントロピーの最小化を組み合わせることで，正常フレームを高精度に再構成する。
- 異常フレームは潜在空間において正常フレームのクラスターに押し込まれ，再構成が困難になる。
- 複数のベンチマークデータセットと実データでの実験により，提案手法の有効性と優位性が確認された。
Link: https://arxiv.org/abs/2603.23868
現実的なシーン合成とドキュメントを意識した学習による実世界ドキュメント解析への道 [cs.CV]目的：実世界のドキュメント解析の堅牢性向上
- ドキュメント解析は，情報抽出において重要な役割を担う。
- 既存手法は，レイアウト分析の精度に依存し，現実環境での多様な条件に対応できない。
- 大規模データと構造を意識した学習戦略によって，解析精度と堅牢性を向上させる。
- 現実的なシーン合成戦略により，大規模かつ多様なドキュメント解析用の学習データを生成した。
- ドキュメントを意識した学習手法により，構造的忠実性とデコーディングの安定性を高めた。
- 提案手法は，スキャン画像，デジタル画像，実環境で撮影された画像に対し，高い精度と堅牢性を示した。
Link: https://arxiv.org/abs/2603.23885
虚弱の歩行特徴：スケーラブルな虚弱評価のための転移学習に基づく深層歩行モデル [cs.CV]目的：虚弱状態の評価
- 高齢化社会において，健康寿命の延伸は重要な課題であり，虚弱の早期発見が求められる。
- 従来の虚弱評価は主観的で，標準化が難しく，大規模なスクリーニングには不向きである。
- 歩行データを活用し，客観的かつ効率的な虚弱評価手法を開発することを目的とする。
- 歩行データセットを構築し，転移学習を用いた深層学習モデルの有効性を示した。
- 事前学習された歩行認識モデルを虚弱分類に適用する際，低レベル特徴を固定し高レベル特徴を適応させることで，汎化性能が向上した。
- モデルの注意機構解析から，下肢と骨盤領域への注目が虚弱のバイオメカニカル指標と一致することが示された。
Link: https://arxiv.org/abs/2603.24434
SpatialStack：3D VLM空間推論のための階層型幾何・言語融合 [cs.CV]目的：3D空間推論のための幾何・言語表現の階層的融合
- 身体性AIや物理AIシステムにおいて，3D空間推論能力は重要な役割を果たす。
- 既存のVLMは，詳細な3D幾何構造や空間関係の把握が不十分である。
- 多層的な幾何特徴と言語表現を融合し，空間理解能力の向上を目指す。
- 提案手法SpatialStackは，視覚，幾何，言語表現をモデル階層全体で段階的に融合する。
- 従来の遅延段階での融合とは異なり，多層の幾何特徴を言語バックボーンに組み込む。
- 複数の3D空間推論ベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.27437
ToLL：3Dシーングラフ生成のための非対称クロスビュー構造的知識蒸留を用いたトポロジカルレイアウト学習 [cs.CV]目的：3Dシーングラフ生成事前学習のためのトポロジカルレイアウト学習
- 空間理解やアフォードアンス知覚において，3Dシーングラフ生成は重要な役割を担う。
- データ不足による汎化性能の低下が課題であり，事前学習による表現獲得が求められる。
- 幾何学的変換による意味的破損を回避しつつ，「幾何学的ショートカット」問題を解決する。
- 提案手法ToLLは，アンカー条件付きトポロジカル幾何学的推論により，ゼロ中心化されたサブグラフのグローバルレイアウトを復元する。
- これにより，オブジェクト内に空間レイアウト情報がないというボトルネックを設け，述語表現学習を活用して完全なシーンレイアウトを復元する。
- 実験結果から，ToLLが3Dシーングラフの事前学習品質を向上させ，最先端のベースラインを上回ることが示された。
Link: https://arxiv.org/abs/2603.28178
Hydra：単一のビジョン言語モデルによるドキュメント検索と生成の統合 [cs.ET, cs.CV, cs.AI, cs.IR]目的：ビジョン言語モデルにおけるドキュメント検索と生成の統合
- 視覚的ドキュメント理解は，多様な応用で重要であり，その効率化が求められている。
- 従来のシステムは検索と生成に別モデルを使用し，メモリ消費量と複雑性を増加させていた。
- 単一モデルで検索と生成の両方を効率的に実現し，システム全体の負担を軽減すること。
- Hydraは，ColBERTスタイルの検索と自己回帰生成を単一モデルで実現する二重ヘッドアプローチである。
- 検索のみに特化したLoRAアダプタを使用することで，GPUメモリ使用量を大幅に削減できることが示された。
- Qwen3.5-4B以外のバックボーンモデルへの応用も可能であり，汎用性も高い。
Link: https://arxiv.org/abs/2603.28554
ORSIFlow：顕著性誘導修正フローによる光学リモートセンシング顕著物体検出 [cs.CV]目的：光学リモートセンシング画像の顕著物体検出
- リモートセンシング技術は，地球観測や資源管理において不可欠である。
- 複雑な背景や低いコントラストにより，顕著物体検出は困難である。
- 効率性と精度を向上させた新たな顕著物体検出手法の開発。
- 提案手法ORSIFlowは，決定論的な潜在フロー生成問題としてORSI-SODを再構築する。
- 凍結型変分オートエンコーダを用いてコンパクトな潜在空間を構築し，効率的な推論を実現する。
- 顕著性特徴識別器と較正器により，グローバルな意味的識別と正確な境界の洗練を行う。
Link: https://arxiv.org/abs/2603.28584
チャンドラヤーン2 OHRCマルチビュー画像を用いたオープンソースパイプラインによるサブメートル月面DEM生成と検証 [cs.CV]目的：月面高解像度デジタル標高モデルの生成と検証
- 月面探査において，安全な移動計画，着陸地点の選定，科学的分析に高精度なDEMは不可欠である。
- 既存の月面DEMは，多くの場合，十分な解像度や精度を備えていないという課題がある。
- OHRC画像からサブメートルDEMを生成し，既存のDEMとの比較検証を行うことで，精度向上を目指す。
- チャンドラヤーン2のOHRC画像から，完全にオープンソースのパイプラインを用いてサブメートルDEMを生成した。
- 生成されたDEMは，Lunar Reconnaissance OrbiterのNAC DEMとの比較により絶対的な標高の一貫性が確認された。
- 検証の結果，垂直RMSEは5.85m，水平精度は30cm以内であることが示された。
Link: https://arxiv.org/abs/2604.01032
組織病理画像と多目的パッチ選択を用いたPAM50サブタイプ分類のための深層学習パイプライン [cs.CV, cs.AI]目的：PAM50サブタイプ分類
- 乳癌は分子プロファイルが多様であり，個別化医療の必要性が高まっている。
- PAM50遺伝子シグネチャは標準だが，コストの高い分子アッセイに依存している。
- 組織病理画像から直接PAM50サブタイプを予測する手法を開発し，分子アッセイへの依存を減らす。
- 提案手法はTCGA-BRCAデータセットにおいて，F1スコア0.8812，AUC0.9841を達成した。
- 外部検証データセットCPTAC-BRCAでは，F1スコア0.7952，AUC0.9512を示した。
- 最適化と不確実性考慮によるパッチ選択が，計算効率と高い性能を実現し臨床意思決定を支援する可能性を示唆する。
Link: https://arxiv.org/abs/2604.01798
FastTurn：音響的およびストリーミング意味的手がかりの統合による低遅延かつ堅牢なターンダテクション [cs.SD, eess.AS]目的：低遅延かつ堅牢なターンダテクションのためのフレームワーク
- 音声対話システムはリアルタイムの双方向通信へ移行しており，エージェントは適切なタイミングで発話，譲歩，割り込みを行う必要がある。
- 既存手法は音声活動検出やASRに依存しており，意味理解の欠如や遅延，ノイズの影響を受けやすいという課題がある。
- リアルな対話ダイナミクスを捉えたデータセットを用いて，低遅延かつ堅牢なターンダテクションを実現すること。
- FastTurnはストリーミングCTCデコーディングと音響特徴を組み合わせることで，部分的な観測から早期に決定を行いながら意味的手がかりを維持する。
- 本研究で提供するリアルな対話データセットは，実際のターンの移行やオーバーラップ，バックチャンネルなど多様な状況を捉えている。
- 実験により，FastTurnは代表的なベースラインよりも高い精度と低い割り込み遅延を実現し，過酷な音響条件下でも堅牢であることが示された。
Link: https://arxiv.org/abs/2604.01897
PLUME：潜在的推論に基づく汎用マルチモーダル埋め込み [cs.CV]目的：汎用マルチモーダル埋め込みの性能向上
- マルチモーダルな情報を統合し，効率的な検索を実現する重要性が高まっている。
- 既存手法では，推論過程の可視化にコストがかかり，情報が圧縮される問題がある。
- 潜在的推論により，効率性と表現力の両立を目指す。
- PLUMEは，従来の明示的なCoTベースの手法を凌駕し，推論速度を30倍以上向上させた。
- 潜在的な計算により，中間推論の利点を維持しつつ，明示的な推論生成のオーバーヘッドを削減した。
- 特に，高密度で構造が複雑なデータ（動画やビジュアルドキュメント）の検索において有効性が示された。
Link: https://arxiv.org/abs/2604.02073
フーリエ符号化された陰的ニューラル表現に対する適応的局所周波数フィルタリング [cs.IR, cs.CV, eess.IV]目的：フーリエ符号化された陰的ニューラル表現における局所周波数フィルタリングの適応的制御
- 離散的なサンプルから連続信号をモデル化する技術として注目されており，高次元データ処理への応用が期待される。
- 固定された周波数を用いるため，空間的に周波数成分が変化する信号の表現に課題があり，収束が遅くなる場合がある。
- 空間的に変化する信号に対し，局所的な周波数成分を適応的に制御することで，モデルの表現力と学習効率の向上を目指す。
- 提案手法は，空間位置に応じてフーリエ成分を調整するパラメータを導入し，低域通過，バンドパス，高域通過の特性をスムーズに変化させる。
- ニューラルタンジェントカーネルの観点からフィルタの効果を分析し，有効カーネルスペクトルを再構成する方法を提示した。
- 2D画像，3D形状，スパースデータ再構成の実験で，再構成品質と最適化速度が向上し，空間的に変化する周波数特性の可視化にも貢献した。
Link: https://arxiv.org/abs/2604.02846
SentiAvatar：表現豊かでインタラクティブなデジタルヒューマンに向けて [cs.CV, cs.HC, cs.MM]目的：表現力豊かなインタラクティブな3Dデジタルヒューマン構築のためのフレームワーク
- 現実世界とのコミュニケーションにおいて，人間らしいインタラクションは不可欠である。
- 高品質なマルチモーダルデータセットの不足が，デジタルヒューマンの表現力向上を阻害している。
- 意味とモーション，そして音声とモーションの同期に関する課題を解決し，リアルタイムな表現を実現する。
- 本研究では，大規模なモーションデータと音声同期技術を用いて，自然な会話とジェスチャーを可能にするSentiAvatarを開発した。
- 提案手法は，既存のデータセット（SuSuInterActs，BEATv2）において最先端の結果を達成し，高速な生成を実現した。
- SentiAvatarは，デジタルヒューマンのリアリティとインタラクティブ性を大きく向上させる可能性を示す。
Link: https://arxiv.org/abs/2604.02908
アバター・ポアンティリスト：自己回帰的4Dガウスアバター生成 [cs.CV]目的：単一のポートレート画像からの動的な4Dガウスアバターの生成
- デジタルヒューマン技術は，メタバースやコミュニケーションにおける没入感を高める上で重要である。
- 既存の方法では，写実性と制御性を両立したアバター生成が困難であった。
- 自己回帰的な生成モデルを用いて，高品位かつ制御可能なアバター生成を実現する。
- 本研究で提案するAvatarPointillistは，Transformerを用いて3Dガウススプラッティングのための点群を自己回帰的に生成する。
- 点群生成時にバインディング情報を予測することで，リアルなアニメーションを可能にする。
- 実験の結果，AvatarPointillistは高品質で写実的かつ制御可能なアバターを生成することが示された。
Link: https://arxiv.org/abs/2604.04787
TOOLCAD：強化学習を用いたテキストからCAD生成におけるツール使用大規模言語モデルの探求 [cs.CL, cs.CV, cs.AI, cs.CL]目的：テキストからCAD生成のためのツール使用大規模言語モデルの最適な相互作用
- CADは高度な専門知識を要し，長期的推論と一貫性のあるモデリング行動が不可欠である。
- 大規模言語モデルとCADエンジンの最適な連携が未検討であり，自律的なテキストからCADへの変換が困難である。
- オープンソースの大規模言語モデルを用いたCADツール使用エージェントの学習方法を確立し，高性能化を目指す。
- ToolCADは，大規模言語モデルをツール使用エージェントとして活用する新しいCADフレームワークである。
- ハイブリッドフィードバックと人間の監督を取り入れたインタラクティブなCADモデリング環境を構築した。
- オンラインカリキュラム強化学習により，大規模言語モデルが高度なCADツール使用エージェントへと進化することを示した。
Link: https://arxiv.org/abs/2604.07960
訓練不要ガイダンスによる3D修正フローを用いた弱教師あり肺結節セグメンテーション [cs.CV]目的：肺結節の弱教師ありセグメンテーション
- 医療画像解析において，正確な診断支援は不可欠であり，自動化技術の進展が求められている。
- 3D医療画像のボクセル単位での正確なアノテーション作成はコストと時間がかかるという課題がある。
- 少量のアノテーション情報から高精度なセグメンテーションを実現し，医療現場の負担軽減を目指す。
- 事前学習済みの修正フローと予測モデルを組み合わせることで，弱教師ありセグメンテーションを実現した。
- 訓練不要ガイダンスにより，生成モデルの再学習を回避し，効率的な学習を実現した。
- LUNA16データセットでの実験により，既存手法と比較して良好な結果が得られた。
Link: https://arxiv.org/abs/2604.08313
MegaStyle：一貫したテキスト-画像スタイルマッピングによる多様でスケーラブルなスタイルデータセットの構築 [cs.CV]目的：多様かつスケーラブルなスタイルデータセット
- 画像生成技術の発展に伴い，スタイル変換の重要性が増している。
- 既存のスタイルデータセットは，スタイルの一貫性や多様性に課題がある。
- 大規模生成モデルを活用し，高品質で多様なスタイルデータセットを構築すること。
- MegaStyle-1.4Mデータセットが，スタイル変換において重要な一貫性，多様性，高品質を維持することを示した。
- 提案手法により学習されたMegaStyle-Encoderは，表現力豊かなスタイル固有の特徴量を抽出可能である。
- MegaStyle-FLUXは，汎用的なスタイル変換と信頼性の高いスタイル類似度測定を実現した。
Link: https://arxiv.org/abs/2604.08364
ファントム：視覚と潜在的な物理ダイナミクスの同時モデリングによる物理情報注入型ビデオ生成 [cs.HC, cs.CV]目的：物理的に妥当なビデオの生成
- ビデオ生成技術は目覚ましい進歩を遂げているが，現実世界の物理法則の理解が不十分である。
- 既存手法では，物理的な一貫性を捉えきれず，非現実的な動きやダイナミクスが生じやすい。
- 潜在的な物理的特性の推論をビデオ生成プロセスに直接組み込み，物理的に妥当なビデオ生成を目指す。
- 提案手法「Phantom」は，視覚コンテンツと潜在的な物理ダイナミクスを同時モデリングすることで，物理的に現実的なビデオを生成する。
- 物理情報を考慮したビデオ表現を用いることで，複雑な物理ダイナミクスを明示的に指定することなく，物理ダイナミクスとビデオコンテンツの同時予測を実現する。
- 標準的なビデオ生成および物理情報に基づいたベンチマークにおいて，既存手法を凌駕する物理的妥当性と高い知覚的忠実度を両立した。
Link: https://arxiv.org/abs/2604.08503
OpenVLThinkerV2：マルチドメイン視覚タスクのための汎用マルチモーダル推論モデル [cs.CV, cs.AI, cs.CL]目的：マルチドメイン視覚タスクにおける汎用マルチモーダル推論モデルの開発
- マルチモーダル大規模言語モデルは多様な応用が可能であり，視覚情報と言語情報の統合が重要視されている。
- 既存手法では，多様な視覚タスクにおける報酬のばらつきや，詳細な知覚と多段階推論のバランスが課題となっていた。
- 報酬のばらつきを抑制し，知覚と推論のバランスを調整することで，より安定した学習を実現することを目指す。
- 提案手法G$^2$RPOは，標準正規分布への利点分布の収束を数学的に強制することで，タスク間の勾配公平性を確保し，外れ値の影響を軽減する。
- 応答長とエントロピーを調整するタスクレベルの形状化メカニズムを導入することで，知覚と推論のバランスをシームレスに調整した。
- OpenVLThinkerV2は，18の多様なベンチマークにおいて，オープンソースおよび商用モデルと比較して優れた性能を示した。
Link: https://arxiv.org/abs/2604.08539
WildDet3D：実世界におけるプロンプタブル3D検出のスケーリング [cs.CV]目的：単一画像からの3次元物体の検出
- 空間知能の基盤であり，自動運転やロボット工学などの応用において重要である。
- 既存手法は単一のプロンプトタイプに限定され，幾何学的制約の組み込みが困難である。
- 多様なプロンプトに対応し，幾何学的情報を活用できる3D検出器を開発すること。
- WildDet3Dは，テキスト，点群，バウンディングボックスといった多様なプロンプトをネイティブに受け入れ，補助的な深度信号も利用可能である。
- 大規模なオープン3D検出データセットWildDet3D-Dataを構築し，13,500カテゴリ，100万枚以上の画像を含む。
- 複数のベンチマークで最先端の性能を達成し，特に実世界での設定で高いAP3Dスコアを示した。
Link: https://arxiv.org/abs/2604.08626
2Dか3Dか：VLAモデルにおける顕著性支配は？-- モダリティ顕著性認識を用いた三段階トークンプルーニングフレームワーク [cs.HC, cs.MM, cs.CV, cs.RO]目的：マルチビジュアルモダリティVLAモデルにおける最適な2D/3Dトークン選択と効率的なプルーニング
- 具現化された知能においてVLAモデルが主流となりつつあり，その性能向上が求められている。
- MVLAモデルはモダリティ拡張により入力トークン数が増加し，計算コストが課題となっている。
- 2D/3Dモダリティの顕著性の違いを考慮したトークンプルーニング手法を開発し，効率化を目指す。
- 提案フレームワークは，わずかな精度低下で最大2.55倍の推論速度向上を達成した。
- オーバーヘッドはわずか5.8% であり，効率的なモデル圧縮が可能となった。
- 2D/3Dモダリティの顕著性を考慮した三段階分析が，最適なトークン選択に貢献した。
Link: https://arxiv.org/abs/2604.09244
レイをピクセルとして：動画とカメラ軌跡の同時分布学習 [cs.CV, cs.AI, cs.LG]目的：動画とカメラ軌跡の同時分布
- コンピュータビジョンやグラフィックスにおいて，映像理解と3D空間の再構成は不可欠である。
- 映像が不十分な場合，カメラパラメータ推定とシーン再現は相互に依存し，課題となる。
- 単一のフレームワークでカメラ姿勢予測とカメラ制御による動画生成を同時に実現する。
- 本研究では，動画とカメラ軌跡を同時に学習するVideo Diffusion Model（VDM）を提案した。
- カメラを，動画フレームと同じ潜在空間に存在する「ラクセル」と呼ばれる高密度な光線ピクセルとして表現する。
- 提案手法は，カメラ軌跡予測，動画生成，そして同時合成の3つのタスクを単一のモデルで処理可能であることを示した。
Link: https://arxiv.org/abs/2604.09429
荒野における単一画像からの反射除去に関するNTIRE 2026チャレンジ：データセット，結果，および手法 [cs.CE, q-fin.CP, q-fin.TR, cs.IR, cs.CL, cs.DB, cs.IR, cs.MA, cs.CV]目的：単一画像からの反射除去タスクにおける性能向上
- 画像修復技術は，現実世界の画像から不要な要素を除去し，視覚的品質を向上させる上で重要である。
- 既存の研究は合成データに偏りがちで，実際の環境における反射除去の性能評価が不十分である。
- 現実世界の多様な反射に対応できるデータセットと，それを用いた高性能な手法開発を目指している。
- NTIRE 2026チャレンジでは，OpenRR-5kデータセットが提供され，多様な反射シナリオを含む現実世界の画像を用いた評価が行われた。
- 100件を超える登録があり，11チームが最終テストに参加し，最上位のチームは反射除去性能において最先端の結果を達成した。
- 提案されたOpenRR-5kデータセットは公開されており，今後の研究に貢献することが期待される。
Link: https://arxiv.org/abs/2604.10321
知覚的損失駆動深層学習フレームワークによるMRIモーションアーチファクトの除去 [cs.CV]目的：MRIモーションアーチファクトの除去
- MRIは，診断において不可欠な画像を提供するが，モーションアーチファクトに影響を受けやすい。
- 深層学習モデルは，アーチファクトと解剖学的構造の区別が難しく，臨床データへの汎化性能が低い。
- アーチファクトの特徴を考慮した知覚的損失を用いることで，アーチファクト抑制と解剖学的構造の維持を両立する。
- PERCEPT-Netは，臨床データにおいて最先端の手法を上回る性能を示した。
- モーション知覚的損失が，構造的一貫性と組織コントラストの向上に大きく貢献した。
- 放射線科医による評価でも，修正後の画像の診断信頼性が有意に向上した。
Link: https://arxiv.org/abs/2604.10439
VLN-NF：誤った前提を含む指示に対する，実現可能性を考慮した視覚と言語によるナビゲーション [cs.RO, cs.CL, cs.CV]目的：誤った前提を含む指示への対応能力評価
- 視覚と言語によるナビゲーションは，ロボットの自律的な行動において重要な役割を担う。
- 従来のVLNベンチマークでは，指示の実現可能性が保証されており，誤った指示への対応が課題であった。
- 本研究は，存在しない目標へのナビゲーションという新たな課題を解決することを目的とする。
- VLN-NFベンチマークを構築し，誤った前提を含む指示に対するナビゲーション能力を評価できるようになった。
- 新たな評価指標REV-SPLを用いて，部屋への到達，探索範囲，意思決定の正確性を総合的に評価できることを示した。
- ROAMという新しいモデルが，既存手法と比較して最も優れた性能を示し，信頼性の低い指示下でも効果的な探索が可能になった。
Link: https://arxiv.org/abs/2604.10533
顔の表情筋単位と表情の双方向学習：異質データセット間における構造化された意味マッピングによるアプローチ [cs.CV]目的：顔の表情筋単位（AU）検出と表情（FE）認識の同時向上
- 表情分析は，人間の感情やコミュニケーション理解に不可欠であり，様々な応用分野で重要性が増している。
- 既存研究はAUからFEへの知識伝達に偏っており，双方向学習の可能性が十分に探求されていない。
- 異質データセット間におけるAUとFEの双方向学習を可能にし，よりロバストで汎用的な表情分析を実現する。
- 提案手法（SSM）は，共有の視覚バックボーン，テキスト意味プロトタイプ（TSP），動的事前マッピング（DPM）の3つの要素から構成される。
- SSMは，AU検出とFE認識の両方のベンチマークで最先端の性能を達成し，同時的な両タスクの向上を実証した。
- 表情全体の意味情報を活用することで，異質データセット間においても微細なAU学習が強化されることが示された。
Link: https://arxiv.org/abs/2604.10541
エントロピーに基づくランタイムチャンクスケジューリング：選択的スキャンカーネル向け [cs.CV, cs.AI]目的：選択的スキャンカーネルにおけるランタイムチャンクスケジューリング
- 系列モデルの高速化は，自然言語処理をはじめとする様々な分野で重要である。
- Mambaのような選択的SSMはメモリ帯域幅に制限されることが多く，中間テンソルのマテリアライズがボトルネックとなる。
- アクティベーションのエントロピーに基づいてチャンクサイズを動的に調整し，メモリ帯域幅の効率を改善する。
- エントロピーに基づくチャンク分割が，代用レイテンシとDRAMトラフィックを削減することが示された。
- エントロピー計算とチャンク選択のオーバーヘッドは，Mamba-370Mにおいて約2〜8.3%と計測された。
- COREYは，オフラインでのプロファイリングなしに，最適なチャンクサイズを選択し，最大4.41倍の高速化を達成した。
Link: https://arxiv.org/abs/2604.10597
建築に依存しないモダリティ分離型ゲート付き融合による，堅牢な多モーダル前立腺MRIセグメンテーション [cs.CV, cs.AI]目的：多モーダル前立腺MRIセグメンテーションにおける，モダリティ間の融合手法の改善
- 前立腺MRIは，前立腺がんの非侵襲的検出に不可欠であり，高精度なセグメンテーションが重要である。
- 拡散強調画像は，T2強調画像と比較して，撮像変動やアーチファクトの影響を受けやすく，融合が困難である。
- 本研究は，拡散強調画像の不安定性に対するロバスト性を高め，臨床利用可能なセグメンテーションを可能にする。
- 提案手法MIGFは，UNet，nnUNet，Mambaなどの様々なバックボーンにおいて，セグメンテーション精度を向上させた。
- 特に，拡散強調画像やADCの劣化に対する耐性が向上し，MIGFNet-nnUNetは0.7304 +/- 0.056の最高性能を達成した。
- 外部評価では，ADCマップの機関間不一致が性能低下の原因であり，MIGFによるモダリティ分離がその影響を軽減することが示された。
Link: https://arxiv.org/abs/2604.10702
FlowCoMotion：トークン潜在フローモデリングによるテキストからのモーション生成 [cs.CV, cs.AI]目的：テキストからのモーション生成
- 人間のような自然な動きの自動生成は，バーチャルリアリティやロボット工学など様々な分野で重要視されている。
- 従来の技術では，モーションの表現方法が連続か離散かによって，意味と動きの細部の表現に課題があった。
- 意味とモーションの詳細を両立させ，より自然で高品質なモーション生成を実現することを目指している。
- FlowCoMotionは，連続と離散の表現方法を統合し，トークン潜在結合によって意味内容と詳細なモーションを捉える。
- 多視点蒸留による潜在空間の正則化と，離散的時間分解能量子化による高レベルな意味的ヒント抽出を組み合わせる。
- 実験結果から，FlowCoMotionがHumanML3DやSnapMoGenといったベンチマークで競争力のある性能を発揮することが示された。
Link: https://arxiv.org/abs/2604.11083
MimicLM：擬似並列音声コーパスの自己回帰モデリングによるゼロショット音声模倣 [cs.SD, cs.CL]目的：音声模倣のための手法
- 音声合成技術は，人間との自然な対話を可能にする上で不可欠であり，その品質向上は重要な課題である。
- 高品質な音声模倣を実現するには，参照話者の音声特徴を捉えた学習データが必要だが，そのようなデータは非常に不足している。
- MimicLMは，合成音声と実録音声を組み合わせることで，データ不足の問題を克服し，高品質な音声模倣を目指す。
- MimicLMは，実録音声をターゲットとし，合成音声を学習ソースとして利用することで，合成音声の品質に依存しない，高品質な音声模倣を実現した。
- 実験結果から，MimicLMは既存手法と比較して，自然性において顕著な改善を示し，話者，アクセント，感情などの次元においても優れた性能を発揮した。
- 簡潔かつ効果的なアーキテクチャにより，高い音声模倣品質を達成し，音声合成の新たな可能性を切り開いた。
Link: https://arxiv.org/abs/2604.11552
LMMと物体中心型ビジョン：理解，セグメンテーション，編集，生成 [cs.CV]目的：LMMと物体中心型ビジョンの融合に関する最近の進歩の包括的なレビュー
- 汎用的な画像-言語理解は進歩したが，正確な物体レベルでの処理が課題である。
- 既存システムは，特定の物体識別，同一性維持，高精度な局所編集が困難である。
- 物体中心型ビジョンを用いて，これらの課題を解決し，信頼性の高いシステムを構築する。
- LMMと物体中心型ビジョンの融合に関する研究を，理解，セグメンテーション，編集，生成の4つのテーマに分類した。
- 主要なモデリングパラダイム，学習戦略，評価プロトコルを整理し，それぞれの能力をサポートする基盤を示した。
- ロバストな物体恒常性，詳細な空間制御，一貫性のある多段階インタラクションなど，今後の課題と方向性について議論した。
Link: https://arxiv.org/abs/2604.11789
EgoEsportsQA：eスポーツにおける知覚と推論のための一人称視点ビデオベンチマーク [cs.CV, cs.AI, cs.MM]目的：eスポーツの専門知識に基づいた知覚と推論を評価するためのビデオ質問応答ベンチマーク
- ビデオ大規模言語モデルの発展は目覚ましいが，高速で情報密度の高い仮想環境への適応は未知数である。
- 既存のベンチマークは日常活動に焦点を当てており，eスポーツのような高速でルールに基づいた推論を評価するのに不十分である。
- eスポーツにおける知覚と推論能力を測るための厳密なテストベッドを提供し，ビデオ大規模言語モデルの改善に貢献すること。
- EgoEsportsQAは，3つのファーストパーソンシューターゲームのプロの試合から1,745の高品質な質問応答ペアを収集したベンチマークである。
- 最先端のビデオ大規模言語モデルの評価結果から，現在のモデルは71.58%という満足のいく性能に達していないことが明らかになった。
- モデルは基本的な視覚的知覚は得意だが，深い戦術的推論は苦手であり，全体的な進行状況は理解できるが，細かい操作は苦手であることが示された。
Link: https://arxiv.org/abs/2604.12320
煙を除去してスプラット：物理情報に基づいた3Dガウススプラッティングによるスモークフリー新規視点合成 [cs.CV]目的：多視点での煙除去と新規視点合成
- 視覚情報の取得は様々な分野で重要であり，その品質向上は応用範囲を広げる。
- 画像から煙を除去し，高品質な3次元再構成を行うことは，技術的に困難である。
- フレームごとの画像処理における多視点間の一貫性欠如を改善し，安定した再構成を目指す。
- 生成的に煙を除去した後，3Dガウススプラッティングを用いて，物理情報に基づいた損失関数を導入した。
- 本パイプラインは，Akikaze検証シーンにおいて20.98dBのPSNRと0.683のSSIMを達成した。
- これは，正則化されていないベースラインと比較して，1.50dBの改善に相当する。
Link: https://arxiv.org/abs/2604.13589
VoxSafeBench：何を言うかだけでなく，誰が，どのように，どこで [cs.SD, cs.LG, eess.AS]目的：音声言語モデルにおける社会的整合性の評価
- 音声言語モデルが多様な環境で利用されるようになり，安全性や公平性，プライバシーへの配慮が不可欠になっている。
- 既存の評価基準は，音声認識の基本的な能力や個別のリスクに焦点を当てており，文脈依存のリスク評価が不十分である。
- 話者，発話様式，環境などの音声情報が安全性に与える影響を総合的に評価し，音声言語モデルの改善を目指す。
- 従来のテキストベースの安全対策は，音声環境下では効果が低下することが示された。
- 話者や状況に応じた安全性，公平性，プライバシー保護において，現在の音声言語モデルには課題が残ることが明らかになった。
- 音声言語モデルはテキスト情報を認識できるものの，音声情報から適切な判断を下す能力に欠ける「音声接地ギャップ」が存在する。
Link: https://arxiv.org/abs/2604.14548
ClariCodec：強化学習を用いた200bps通信のためのニューラル音声符号化の最適化 [cs.IR, cs.SD, eess.AS]目的：低ビットレート音声通信における知能性の向上
- 帯域制限環境下での音声通信は重要であり，特に低ビットレートでの高品質な音声伝送が求められる。
- 従来の音声符号化器は音響再構成に重点を置きがちで，低ビットレートでは語彙誤り率の悪化を招く。
- 知覚的な品質を維持しつつ，語彙誤り率を最小化する音声符号化器の設計を目指す。
- ClariCodecは，200bpsという極めて低いビットレートで，既存の符号化器と遜色ない性能を達成した。
- 強化学習によるファインチューニングにより，テストクリーンセットでの語彙誤り率を13%相対的に削減することに成功した。
- 音響再構成パイプラインを固定したまま，報酬に基づいてエンコーダを最適化することで，知能性の向上が確認された。
Link: https://arxiv.org/abs/2604.14654
ADAPT：未指定のアフォードンス制約下における常識的なプランニングのベンチマーク [cs.AI, cs.CL, cs.CV, cs.RO]目的：実世界の環境における常識的なプランニングの評価
- ロボットやAIエージェントが現実世界で活動するためには，状況に応じた柔軟な対応が不可欠である。
- 既存の手法は指示の実行に集中し，対象物の操作可能性やアフォードンスの評価が不十分である。
- 動的に変化するアフォードンスを考慮した，よりロバストなプランニング手法の開発を目指す。
- 本研究では，アフォードンスが時間とともに変化する動的な環境におけるエージェントの性能を評価するベンチマークDynAffordを提案した。
- 提案手法ADAPTは，既存のプランナーにアフォードンス推論機能を付加することで，環境への適応性を高める。
- タスク適応型LoRAファインチューニングされたビジョン言語モデルが，商用LLM(GPT-4o)よりも優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2604.14902