arXiv雑要約

画像・音声 - 2026/05/19 公開

DiffWind：風駆動物体ダイナミクスの物理に基づいた微分可能なモデル [cs.CV]目的：風駆動物体ダイナミクスのモデリング
- 風の影響下での物体の挙動理解は，防災，環境シミュレーション等に応用上重要である。
- 風の不可視性と時間空間的な変動性，物体の複雑な変形がモデリングの課題となる。
- 動画から風と物体の相互作用を正確に再構成し，物理的に妥当なシミュレーションを実現する。
- 提案手法DiffWindは，風を物理フィールド，物体を3Dガウススプラッティングに基づく粒子系として表現することで，高精度な再構成を可能にした。
- Lattice Boltzmann法を制約として組み込むことで，流体ダイナミクスの法則に適合した物理的に妥当なシミュレーションを実現した。
- 新しい風条件下の前方シミュレーションや風リターゲティングといった応用への道を開いた。
Link: https://arxiv.org/abs/2603.09668
クラスターを意識した実行可能領域を持つ球面VAE：事後崩壊の確実な防止 [cs.LG, cs.AI, cs.CV]目的：事後崩壊の防止
- 潜在変数モデルは表現学習において重要な役割を担う。VAEはその代表的な手法である。
- VAEでは，事後分布が事前分布に退化し，潜在変数が無情報となる「事後崩壊」が頻繁に発生する。
- 球面幾何学とクラスターを意識した制約により，数学的に崩壊を排除するフレームワークを提案する。
- 提案手法は，データを有実行可能領域に制約することで，数学的に事後崩壊を回避することを保証する。
- 従来のVAEが完全に失敗する条件下でも，100％の崩壊防止を実現し，再構成品質は最先端手法と同等かそれ以上である。
- 明示的な安定条件を必要とせず，任意のニューラルアーキテクチャで使用可能である。
Link: https://arxiv.org/abs/2603.10935
活性化パッチングによる因果的帰属 [cs.CV]目的：Vision Transformerにおける画像パッチの予測への貢献度評価
- 画像認識モデルの解釈性は，モデルの信頼性と改善に不可欠である。
- 既存の帰属手法は，局所近似や入力への介入に頼ることが多く，精度の課題がある。
- パッチ表現に対する直接的な介入により，より正確な帰属手法を確立することを目指す。
- 提案手法CAAPは，中間層での活性化パッチングにより，パッチの因果的貢献度を直接評価する。
- CAAPは，学習されたマスクや摂動パターンを使用せず，内部表現への介入を通じて評価を行う。
- 複数のViTモデルで，既存手法と比較して，より忠実で局所化された帰属マップを生成した。
Link: https://arxiv.org/abs/2603.13652
リモートセンシング画像に対するテキスト誘導編集：RSEdit [cs.CV]目的：リモートセンシング画像編集手法
- 地理空間情報の活用が重要であり，その編集技術の高度化が求められている。
- テキストによる指示に基づく編集は難しく，指示内容を正確に反映する手法が課題である。
- テキスト指示に基づき，地理空間構造を維持した画像編集を可能にすることを目的とする。
- RSEditは，U-NetからDiTまで様々な構成のモデル群であり，テキスト指示に忠実な編集を実現する。
- 既存のテキスト画像生成モデルを応用し，リモートセンシング画像編集における条件付け戦略を包括的に検討した。
- RSEditは，地理空間構造を維持しつつ，高品質な編集結果を提供することが確認された。
Link: https://arxiv.org/abs/2603.13708
意図と表現のギャップを埋める：階層的関連性フィードバックによる多次元的嗜好の整合 [cs.CV]目的：テキストから画像への拡散モデルにおける，多次元的な嗜好を整合すること
- 画像生成技術の発展に伴い，ユーザーの意図を正確に反映させることの重要性が増している。
- ユーザーは意図を言語化しにくく，生成画像の嗜好とのずれが生じやすいという課題がある。
- 多次元的な嗜好に対して，柔軟かつ効率的に特徴量を整合する手法を確立すること。
- 提案手法HRFDは，階層的な関連性フィードバックを通じて，ユーザーの認知負荷を軽減しつつ，意図を正確に捉える。
- HRFDは，特徴量を独立したタスクに分割することで，大規模基盤モデルの推論過負荷を回避する。
- 「好き」「嫌い」画像の分布のずれを統計的に定量化することで，好みの特徴値の特定精度を向上させる。
Link: https://arxiv.org/abs/2603.14936
摩擦接触条件下における変形物体の高速かつ信頼性の高い勾配 [cs.GR]目的：摩擦接触条件下の変形物体のシミュレーションにおける勾配の高速かつ信頼性の確保
- 物理シミュレーションは，ロボティクスやグラフィックスにおいて重要な役割を担う技術である。
- 摩擦接触の取り扱いは難しく，既存手法では精度が損なわれる場合がある。
- 摩擦接触における勾配の不安定性を解消し，シミュレーションの精度向上を目指す。
- 本研究では，厳密なマルコフ性に基づくシミュレーションと，質量整合性に基づく事前条件付き手法を導入した。
- これにより，複雑な摩擦接触や大きな変形条件下でも，ノイズの少ない正確な勾配が得られることを示した。
- 本フレームワークは，物理システムの同定や制御において，従来法よりも高い精度を実現する。
Link: https://arxiv.org/abs/2603.16478
LightZeroNav：軽量VLMsを用いた連続環境におけるゼロショット視覚言語ナビゲーション [cs.CV, cs.AI]目的：軽量VLMsを用いたゼロショット視覚言語ナビゲーションにおける性能向上
- 視覚言語ナビゲーションは，ロボット工学や拡張現実などの分野で重要な役割を担う。
- 軽量VLMsでは推論能力が限られており，長距離ナビゲーションの信頼性が課題。
- マルチソース入力の冗長性，ノイズの多いテキストメモリ，タスクの複雑性を解消する。
- LightZeroNavは，RGB画像とQwen3-VL-8Bを用いて，タスク固有の学習なしにGPT-4oと同等の性能を実現。
- グラフ探索やウェイポイント予測などの手法を用いずに，ゼロショットVLN-CEで高い有効性を示す。
- 入力情報の冗長性，進捗推定の不正確さ，タスクの複雑さが軽減され，ナビゲーションの改善に貢献。
Link: https://arxiv.org/abs/2603.16947
VLM-AutoDrive：安全重視の自動運転イベントに対するポストトレーニングのビジョン言語モデル [cs.RO, cs.SY, eess.SY, cs.SI, cs.CY, econ.GN, q-fin.EC, stat.ML, cs.CV, cs.AI]目的：安全重視の自動運転イベント検出のためのビジョン言語モデルの適応
- 自動運転技術の安全性向上は不可欠であり，異常検知はその重要な要素である。
- 既存のビジョンモデルは，稀少で短い安全関連イベントの検出が困難である。
- 汎用的なビジョン言語モデルを，自動運転における異常検知に特化させる。
- VLM-AutoDriveは，既存のビジョン言語モデルを効率的に適応させるポストトレーニングフレームワークである。
- 衝突検出のF1スコアを0.00から0.69に，全体精度を35.35%から77.27%に向上させた。
- 実世界のダッシュカム映像において，衝突およびニアミス検出性能の大幅な向上と解釈可能な推論過程の提示を実現した。
Link: https://arxiv.org/abs/2603.18178
FASTER：リアルタイムフローVLAの再考 [cs.RO, cs.CV]目的：リアルタイムにおけるビジョン・言語・行動(VLA)モデルの反応時間最適化
- VLAモデルは現実世界での応用が期待され，そのリアルタイム実行性能が重要である。
- 既存手法は軌道の滑らかさを優先し，環境変化への迅速な反応という課題があった。
- 行動チャンク化ポリシーを再考し，VLAモデルの反応時間を短縮することを目標とする。
- 本研究では，反応時間が「初動までの時間」と「実行地平線」によって決定されることを示した。
- 提案手法FASTERは，地平線に応じたスケジュールを導入し，短期的な行動のサンプリングを優先することで，反応時間のボトルネックを解消する。
- 実機実験により，FASTERがリアルタイム応答性を大幅に向上させ，高精度で滑らかな軌道生成を実現することを確認した。
Link: https://arxiv.org/abs/2603.19199
MoCA3D：画像平面における単眼3Dバウンディングボックス予測 [cs.CV]目的：単眼画像からの3D物体の理解
- 自動運転やロボット工学など，現実世界の応用において3D物体認識は不可欠である。
- 従来の3D物体検出はカメラの内部パラメータに依存しており，未知の環境下では性能が低下する。
- カメラの内部パラメータが不明な状況でも正確な3Dバウンディングボックス予測を可能にすること。
- MoCA3Dは，カメラの内部パラメータを必要とせずに，画像平面上の3Dバウンディングボックスのコーナーと深度を予測する。
- 提案手法PAG（Pixel-Aligned Geometry）を用いて，画像平面幾何学的な忠実性を評価し，高い性能を実証した。
- MoCA3Dは，従来のモデルと比較して，パラメータ数を大幅に削減しながら，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.19538
SURF: シグネチャ保持高速動画生成 [cs.GR]目的：高解像度動画の高速生成
- 動画生成の需要は急速に高まっているが，高解像度化は計算コストが高い。
- 従来の高速化手法は，元のモデルの特徵（レイアウト，意味，動きなど）を損なう場合が多い。
- 本研究は，元のモデルの特徵を最大限に保持しつつ，高解像度動画を効率的に生成することを目指す。
- SURFは，既存の事前学習済みモデルを活用し，低解像度プレビューを高速に生成する二段階構成を採用。
- ノイズリシフトという学習不要な手法により，低解像度推論による特徵損失を抑制。
- プレビューと高解像度ターゲット間のマッピングにより，効率的なRefinerを実現し，Wan2.1で最大12.5倍の高速化を達成。
Link: https://arxiv.org/abs/2603.21002
前方探査ソナー画像セマンティックセグメンテーションのための協調的教師フレームワーク：極めて少ないラベルでの学習 [cs.CV, cs.AI]目的：前方探査ソナー画像のセマンティックセグメンテーションにおける性能向上
- 水中センシング技術として重要であり，水中の状況把握に不可欠である。
- ソナー画像はノイズや歪みが多く，従来の教師あり学習では十分な精度が出にくい。
- ラベルデータが少ない状況下でも，高精度なセグメンテーションを実現すること。
- 提案手法は，汎用教師とソナー特化型教師の協調により，よりロバストな特徴モデリングを可能にする。
- 教師間の信頼性評価機構により，ノイズの多い疑似ラベルの影響を軽減し，精度向上を実現する。
- FLSMDデータセットにおいて，2%のラベル量で既存手法と比較してmIoUが5.08%向上した。
Link: https://arxiv.org/abs/2603.21071
産業向け多クラス認識におけるMTeventデータセットでの再帰型イベントベース物体検出のベンチマーク [cs.CV]目的：産業環境における多クラス物体認識のためのイベントベース物体検出手法の性能評価
- 産業用ロボットの視覚システムにおいて，高速度・高ダイナミックレンジなデータ取得が求められている。
- イベントカメラを用いた物体検出研究は，屋外運転や限定的なクラス設定に偏っている。
- 産業環境におけるイベントベース物体検出の性能向上と，再帰的構造の有効性を検証する。
- MTeventデータセットにおいて，再帰型ReYOLOv8s(C21)は非再帰型YOLOv8sと比較して9.6%のmAP50向上を示した。
- イベントドメインでの事前学習は効果的で，GEN1初期化モデルが最高のmAP50(0.329)を達成し，クリップ長との相関も良好であった。
- PEDRo初期化は性能が低下し，ドメイン不一致な事前学習は最初から学習するよりも劣る可能性があることが示唆された。
Link: https://arxiv.org/abs/2603.21787
CanViT：アクティブビジョン基盤モデルへ向けて [cs.CL, cs.CV]目的：アクティブビジョン基盤モデルの構築
- 生物学的な知覚メカニズムに基づき，効率的な画像処理が期待される分野。
- 汎用的なアーキテクチャと事前学習パイプラインが不足し，AVFMの発展が遅れている。
- タスクやポリシーに依存しないAVFMを開発し，アクティブビジョンとパッシブビジョンの差を埋める。
- CanViTは，RetinaTransformerと潜在ワークスペースをscene-relative RoPEで結合した初のポリシー非依存型AVFMである。
- ADE20Kセグメンテーションにおいて，単一の低解像度グランスで38.5%のmIoUを達成し，既存のアクティブモデルを凌駕した。
- ImageNet-1k分類では，ファインチューニング後のトップ1精度が84.5%と，アクティブビジョン分野で新たな最高性能を確立した。
Link: https://arxiv.org/abs/2603.22570
PhysSkin：自己教師ありニューラルスキニングによるリアルタイムかつ汎用的な物理ベースのアニメーション [cs.GR, cs.CV, cs.LG]目的：多様な3D形状と離散化に対応可能なリアルタイム物理ベースアニメーションの実現
- 3Dアニメーション制作において，物理シミュレーションによるリアルな動きは重要である。
- 既存手法では，異なる形状への汎用性やリアルタイム処理が課題となっていた。
- 本研究は，形状や離散化に依存しない汎用的な物理ベースアニメーション手法を確立する。
- PhysSkinは，トランスフォーマーベースのエンコーダーとクロスアテンションデコーダーを用いた新しいニューラルスキニングフィールドオートエンコーダーを提案。
- 自己教師あり学習戦略により，エネルギー最小化，空間滑らかさ，直交制約のバランスを効果的に調整し，物理的に整合性のとれたスキニングフィールドを生成。
- 提案手法は，汎用的なニューラルスキニングにおいて優れた性能を示し，リアルタイム物理ベースアニメーションを可能にした。
Link: https://arxiv.org/abs/2603.23194
生物に触発されたイベントベース視覚サーボ制御：地上ロボットへの応用 [cs.RO, cs.CV]目的：イベントベース視覚サーボ制御フレームワーク
- 生物の感覚系は効率的であり，ロボットのエネルギー消費削減に貢献しうる。
- 従来の視覚サーボ制御は，計算負荷が高く，応答遅延が大きいという課題がある。
- イベントベースセンサを活用し，低遅延かつ効率的な制御を実現することを目指す。
- ダイナミックビジョンセンサーを用いて，イベントストリームから特定のロボットの状態を直接推定可能となった。
- 線形および二次的な空間プロファイルを用いることで，ロボットの速度と位置速度積を分離できることが示された。
- 生物に触発された能動的センシングによる限界サイクルコントローラーが，線形観測性の問題を克服する。
Link: https://arxiv.org/abs/2603.23672
外科AIの比較研究：データ，計算資源，および拡張性の可能性と限界 [cs.AI, cs.CV, cs.LG]目的：外科AIの性能向上におけるデータ，計算資源，および拡張性の影響評価
- 医療分野におけるAI活用は進んでおり，特に手術支援への期待が高い。
- 既存の医療AIベンチマークには外科的タスクが不足している。
- 外科AIの性能限界を明らかにし，実用化への課題を特定すること。
- 最新のVision Language Modelsを用いて神経外科手術における手術器具検出を試みた結果，性能は期待を下回った。
- モデルの規模や学習時間を拡大しても，性能向上が頭打ちになる現象が確認された。
- 現状のAIモデルでは，計算資源の増加だけでは外科的応用における課題を解決できない可能性が示唆された。
Link: https://arxiv.org/abs/2603.27341
JDCNet：コスト維持型X線推論のための信頼度ゲート付き特権モダリティ蒸留 [cs.CV]目的：固定コストの単一モダリティ展開経路を維持しつつ，高コストな特権モダリティを利用した推論のシステムレベルでの研究
- 医療画像診断において，CTなどの高コストなモダリティは診断精度向上に貢献するが，実用的なX線のみでの推論が求められる場面が多い。
- CTとX線という異なるモダリティ間の知識転移は難しく，CTで学習した知識をX線のみで効果的に活用する手法が課題であった。
- CTの知識をX線のみの環境で活用し，診断精度を向上させつつ，コストを抑えることを目指す。
- JDCNetは，CTの信頼度に基づいてX線への知識蒸留を行うことで，X線のみのモデルの性能向上に成功した。
- 510人患者のデータセットを用いた5分割交差検証において，JDCNetは教師ありResNet-18ベースラインに対し，BAを0.035ポイント向上させた。
- CTからの信頼度ゲート付き補助ターゲットは，均一にソフト化されたCTロジットよりも転移性が高いことが示唆された。
Link: https://arxiv.org/abs/2603.29167
LiPS：リソース制約のあるロボット工学のための軽量パノラマセグメンテーション [cs.RO, cs.CV]目的：リソース制約のあるロボットのための効率的なパノラマセグメンテーション手法
- ロボットの知覚において，意味理解と物体レベルの推論を統合するパノラマセグメンテーションは不可欠である。
- 最先端モデルの複雑化により，モバイルロボットなどのリソース制約のあるプラットフォームへの導入が困難になっている。
- 軽量設計により，計算効率の良いパノラマセグメンテーションを実現し，実用的なロボット応用に貢献することを目指す。
- LiPSは，既存の重いベースラインと同等の精度を達成しながら，最大4.5倍の処理速度を実現した。
- LiPSは，ベースラインと比較して，計算量が約6.8分の1に削減された。
- この効率性により，LiPSは最新のパノラマモデルと実際のロボットアプリケーション間の重要な橋渡しとなる。
Link: https://arxiv.org/abs/2604.00634
意図駆動による機能競合オブジェクトの3Dアフォードンス接地 [cs.CV, cs.RO]目的：機能的に競合するオブジェクト群における3Dアフォードンスの接地
- ロボットが人間と共存するためには，周囲の環境を理解し，適切な行動を選択する必要がある。
- 既存の3Dアフォードンス手法は，単一オブジェクトの評価に偏っており，複数オブジェクト間の曖昧さを考慮していない。
- 特定の意図のもとで，複数の候補オブジェクトの中から適切なものを選択する能力を向上させる。
- 本研究では，曖昧な複数オブジェクトの配置において，自然言語による意図に基づいて適切なアフォードンスを予測する新しいベンチマークであるCompassADを提案した。
- 提案手法CompassNetは，オブジェクト境界を意識した言語-幾何学整合性と，幾何学的・グループレベルでの識別能力を高めることで，高性能を実現した。
- ロボットマニピュレータを用いた実験により，現実世界における把持タスクへの有効性が確認された。
Link: https://arxiv.org/abs/2604.02060
ProtoFlow：低曲率プロトタイプフローによる継続的リモートセンシングセグメンテーションにおける忘却の軽減 [cs.CV]目的：継続的リモートセンシングセグメンテーションにおける忘却軽減手法
- リモートセンシング技術は，環境モニタリングや都市計画など，多岐にわたる分野で重要な役割を担う。
- 既存の逐次学習手法では，表現のドリフトや過去の知識の忘却が十分に制御されていない。
- 時間変化に対応したプロトタイプダイナミクスモデルを構築し，忘却を抑制することを目指す。
- ProtoFlowは，クラスプロトタイプを軌跡としてモデル化し，時間的なベクトル場を学習することで，プロトタイプの進化を明示的に制御する。
- 低曲率運動とクラス間分離を同時に強制することで，継続学習全体を通してプロトタイプの幾何学的形状を安定化させる。
- 標準的なベンチマーク実験において，既存手法と比較してmIoUallが最大1.5-2.0ポイント向上し，忘却が軽減されることが示された。
Link: https://arxiv.org/abs/2604.03212
M-IDoL：医療基礎モデルにおけるモダリティ特異的かつ多様な表現学習のための情報分解 [cs.CV]目的：医療基礎モデルにおけるモダリティ特異性と多様性の表現学習
- 医療画像診断の精度向上には，汎用的な表現学習が不可欠である。多様なタスクへの適応が求められる。
- 既存の医療基礎モデルは，モダリティ間の情報が混在し，モダリティ特異性や表現の多様性が失われる課題がある。
- M-IDoLは，情報分解によってモダリティ特異性と多様性を向上させ，汎化性能を高めることを目指す。
- M-IDoLは，21の臨床タスクにおいて，5つの画像モダリティで20の既存モデルを上回る優れた汎化性能を示した。
- モダリティ間の特徴クラスタの分離が明確になり，各モダリティ内での詳細な特徴判別が可能となった。
- モダリティ特異的かつ多様な表現が学習され，医療画像診断の精度向上に貢献する。
Link: https://arxiv.org/abs/2604.08936
SinkTrack：注意シンクに基づく文脈固定化による大規模言語モデルの性能向上 [cs.CV]目的：大規模言語モデルにおける幻覚と文脈忘却の軽減
- 大規模言語モデルの普及に伴い，その信頼性と正確性が重要視されている。
- 大規模言語モデルは，生成時に文脈を忘却し，事実に基づかない内容を生成しやすい。
- 注意シンクを利用し，初期入力への注意を維持することで，上記の問題を解決する。
- SinkTrackは，トークンに文脈情報を注入することで，モデルの文脈固定化を実現する。
- SQuAD2.0やM3CoTといったタスクにおいて，幻覚と文脈忘却を大幅に軽減できることを実験で示した。
- SinkTrackは，様々なモデルや規模で安定した性能向上を示し，その汎用性の高さが確認された。
Link: https://arxiv.org/abs/2604.10027
（疎な）注意を詳細に：機械学習に基づく天気予報モデルにおけるスペクトル忠実性の維持 [cs.LG, cs.AI, cs.CV, physics.ao-ph]目的：機械学習に基づく天気予報モデルにおけるスペクトル劣化の問題解決
- 天気予報は，社会経済活動に不可欠であり，その精度向上は重要な課題である。
- 従来の機械学習モデルは，スペクトル劣化を引き起こし，予測精度を低下させる可能性がある。
- スペクトル劣化の３つの様相（減衰，エイリアシング，漏洩）に対処し，高精度な予測を実現する。
- Mosaicモデルは，1.5度解像度で214Mパラメータを持ち，6倍細かい解像度で学習したモデルと同等またはそれ以上の性能を示す。
- 生成されるアンサンブルメンバーは，すべての分解能周波数において完璧に近いスペクトル整合性を示す。
- 24メンバー，10日間の予報は，単一のH100 GPUで12秒以内に完了する。
Link: https://arxiv.org/abs/2604.16429
脳活動からの痛みの認識のための軽量Transformer [cs.CV, cs.AI]目的：脳活動からの痛みの認識
- 痛みは臨床的・社会的に大きな負担であり，客観的評価の必要性が高まっている。
- 既存手法では，異なる計測モダリティ間の情報を統合することが困難である。
- 複数のfNIRS表現を効率的に統合し，リアルタイムな痛みの認識を実現する。
- 提案手法は，異なるfNIRS表現を統合することで，高い痛みの認識性能を発揮した。
- アーキテクチャが軽量であるため，GPUおよびCPUの両方でリアルタイム推論が可能である。
- モダリティ特有の調整を必要とせず，計算効率が良い。
Link: https://arxiv.org/abs/2604.16491
BioLip：生体機械的制約違反モデリングによる言語汎化型リップシンクディープフェイク検出 [cs.CV]目的：リップシンクディープフェイクの検出
- ディープフェイク技術の進化に伴い，その検出が重要性を増している。
- 既存手法は特定の生成モデルや言語に依存し，汎化性能が低い。
- 生体力学的制約の欠如に着目し，より頑健な検出手法を確立する。
- 本研究では，口周りのランドマークの変位，速度，加速度，ジャークの統計量を特徴量として用いる。
- これにより，軽量な３分岐ネットワークを用いて，画像や音声情報に依存しないディープフェイク検出が可能となった。
- 生成されたディープフェイク特有の異常なリップモーションパターンを捉えることで，高い検出精度を実現した。
Link: https://arxiv.org/abs/2604.16808
GSCompleter：メトリックを考慮した3Dガウススプラッティング補完のための蒸留不要プラグイン [cs.CV]目的：3Dガウススプラッティングによるシーン補完の性能向上
- 3Dコンテンツの高品質な再現は，様々な応用分野で重要性が増している。
- 疎な視点からの3DGS再構築では，幾何学的欠損や不要な浮遊物が発生しやすい。
- 不安定な最適化や過学習を回避し，効率的なシーン補完を実現すること。
- GSCompleterは，従来の「Repair-then-Distill」パラダイムに代わり，安定した「Generate-then-Register」ワークフローを導入した。
- 2D参照画像を合成し，ロバストなStereo-Anchor View Selection機構を通して一貫したメトリックスケールで3Dガウス素体に変換する。
- 新たな素体はRay-Constrained Registration戦略を用いてシームレスにグローバルシーンに統合され，品質と効率の両面で優れた性能を発揮する。
Link: https://arxiv.org/abs/2604.20155
Tuna-2: ピクセル埋め込みがマルチモーダル理解と生成におけるビジョンエンコーダを上回る [eess.SY, cs.SY, cs.CV]目的：マルチモーダル理解と生成のためのピクセル埋め込みの有効性
- 近年，画像とテキスト等の多様な情報を統合するマルチモーダル研究が重要視されている。
- 既存モデルは，事前学習済みのビジョンエンコーダに依存し，理解と生成の間にずれが生じやすい。
- 本研究は，ピクセル埋め込みによるエンドツーエンド学習で，このずれを解消し性能向上を目指す。
- Tuna-2は，事前学習済みのビジョンエンコーダを用いないシンプルな構造を実現した。
- マルチモーダルベンチマークにおいて，最先端の性能を達成し，潜在空間アプローチと同等以上の高品質な画像生成が可能となった。
- 大規模なデータセットでは，より高度な視覚的理解能力を示すことが確認された。
Link: https://arxiv.org/abs/2604.24763
MedSynapse-V：潜在的記憶の進化による視覚的知覚と臨床的直感の架け橋 [cs.CV, cs.AI]目的：医療画像診断における潜在的診断記憶の進化
- 高精度な医療診断は，画像特徴だけでなく，専門家が瞬時に活用する暗黙的な診断記憶に依存する。
- 既存の医療画像VLMsは，離散的なトークン化により，量子化損失や長距離情報の消失，症例適応型専門知識の欠如といった認知的な不整合を抱える。
- モデル内に動的に潜在的診断記憶を合成し，臨床家の経験的な想起をシミュレーションすることで，この不整合を解消することを目指す。
- 提案手法は，外部の専門知識を内在パラメーターに転送することで，診断精度を大幅に向上させる。
- 特に，Chain-of-Thoughtパラダイムと比較して，顕著な性能向上を示す。
- Meta Query，CCR，IMTといった機構により，臨床的忠実性と効率的な記憶進化を実現している。
Link: https://arxiv.org/abs/2604.26283
MeshReGen：統一的な3D形状再生成フレームワーク [cs.CV]目的：2D画像と初期3D形状からの3Dオブジェクト再生成
- 3Dコンテンツの作成は，様々な分野で重要であり，その自動化が求められている。
- 既存の3D生成手法は制御性に乏しく，望む形状を正確に生成することが困難である。
- 初期形状に基づき，詳細な形状の更新・改善を行うことで，制御可能な3D生成を実現する。
- MeshReGenは，VecSetに基づく新しい条件付けメカニズムにより，一貫性のある微細なディテールで入力形状を更新・改善する。
- 自己教師あり学習とデータ拡張を用いて，汎用性の高い再生成事前知識を学習する。
- 制御可能な3D生成において，最先端の性能を達成し，幾何学的整合性と微細な品質の両面で優れている。
Link: https://arxiv.org/abs/2604.28134
一般和ゲームにおけるKL正則化による悲観主義回避オフライン学習 [cs.LG, cs.GT]目的：一般和ゲームにおけるオフライン学習の安定化と均衡回復
- マルチエージェント強化学習は，複雑な協調・競争環境の自動化に不可欠である。
- オフライン学習では，データセットと最適戦略の乖離が学習の不安定化を引き起こす。
- KL正則化のみで安定学習を達成し，悲観的ペナルティなしのオフライン学習を実現する。
- 提案手法GANEは，正則化されたナッシュ均衡を統計的に高速なレートで回復する。
- 計算効率を高めるため，Coarse Correlated Equilibriumへ収束するGAMDを開発した。
- KL正則化が，マルチプレイヤー一般和ゲームにおいて，同等または高速なレートで悲観主義回避オフライン学習を可能にすることを示した。
Link: https://arxiv.org/abs/2605.00264
αポテンシャルゲームにおける正則化ミラー降下法による高速収束 [cs.GT]目的：αポテンシャルゲームにおけるナッシュ均衡のオフライン学習
- マルチエージェントシステムにおける戦略的相互作用の分析と最適化は重要である。
- オフライン学習では，データ分布と最適解の乖離が学習のボトルネックとなる。
- データカバレッジの検証可能な条件を確立し，高速なオフライン学習を可能とする。
- 提案手法であるオフラインポテンシャルミラー降下法（OPMD）は，統計的収束率$\widetilde{\mathcal{O}}(1/n)$を達成する。
- これは，従来のオフラインマルチエージェント学習の標準的な収束率$\widetilde{\mathcal{O}}(1/\sqrt{n})$を上回る。
- 本研究は，αポテンシャルゲームに対する初の高速オフライン学習アプローチを特徴づける。
Link: https://arxiv.org/abs/2605.00268
球面折り紙の球幾何学的基盤 [eess.SY, cs.SY, cs.CG, cs.GR]目的：球面折り紙の幾何学的枠組み
- 折り紙は数学的思考力を養う教材として教育現場等で広く活用されている。
- 球面折り紙は従来の平面折り紙の理論を拡張する必要があり，体系的な研究が不足していた。
- 球面上の折り紙の幾何学的基盤を確立し，実践的な折り方を可能にすること。
- 球面折り紙に対し，ユークリッド幾何学の折り紙の定義を拡張し，全ての Huzita-Justin 公理を球面幾何学で表現した。
- 三次元折り紙においては等距離曲線を利用することで，多様な折り方を実現できることを示した。
- 提案手法を用いて球面折り紙の鳥のコンピュータグラフィックスを作成し，理論的完成性と実用性を示した。
Link: https://arxiv.org/abs/2605.01184
MindMelody：閉ループEEG駆動による個別化音楽介入システム [cs.SD, cs.AI]目的：個別化音楽介入のための，閉ループEEG駆動システム
- 精神疾患の増加に伴い，非侵襲的で費用対効果の高い介入法として音楽が注目されている。
- 既存の音楽サービスは静的な好みに依存しており，利用者の即時的な心理状態に適応できない。
- EEGと音楽生成の直接的な対応は，データ不足と解釈の難しさから困難であった。
- MindMelodyは，リアルタイムEEG信号から感情状態を推定し，音楽生成に反映するシステムである。
- 感情を媒介したセマンティックブリッジにより，音楽生成の精度と制御性を向上させている。
- 実験により，MindMelodyは利用者の感情に沿った音楽を提供し，有用性が高いことが示された。
Link: https://arxiv.org/abs/2605.01235
クロスドメイン敵対的拡張：医療および手書きデータ不足に対するGANの安定化 [cs.CV]目的：GANを用いたデータ拡張による画像分類性能の向上
- コンピュータビジョン分野において，データ不足は性能向上の大きな障壁となる。
- GANの学習は不安定になりやすく，生成されるデータの品質が低い場合がある。
- GANによるデータ拡張で，少ないデータでも安定して性能を向上させる。
- 合成データによる拡張は，データ多様性を向上させ，限られたデータ環境下での画像分類性能を安定的に向上させる。
- 勾配ペナルティやスペクトル正規化といった学習安定化手法が有効であることが示された。
- 合成データと実データの比率や，サンプルフィルタリング戦略が性能に影響を与えることが明らかになった。
Link: https://arxiv.org/abs/2605.01815
多様体アラインメントされた誘導型積分勾配による信頼性の高い特徴量帰属 [cs.CL, cs.NI, cs.LG, cs.AI, cs.CV]目的：深層ニューラルネットワークの特徴量帰属手法
- 深層学習モデルの解釈性は，モデルの信頼性と診断に不可欠であるため重要。
- 積分勾配はノイズの影響を受けやすく，信頼性の低い説明を生む可能性がある。
- データ多様体上に経路を構築し，ノイズを低減することで説明の信頼性を向上させる。
- 提案手法MA-GIGは，変分オートエンコーダの潜在空間で経路を構築することで，データ多様体への偏りを導入する。
- これにより，ありえない入力領域への露出を減らし，より忠実な説明を提供する。
- 実験の結果，MA-GIGは既存手法と比較して高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.02167
拡散モデル蒸留による軽量かつ効率的なリモートセンシング画像超解像：SlimDiffSR [cs.DB, cs.CV]目的：リモートセンシング画像の超解像のための軽量かつ効率的な拡散モデルフレームワーク
- リモートセンシング技術は，地球観測や資源管理において重要な役割を担う。
- 拡散モデルは高性能だが，計算コストが高く，リモートセンシングへの応用が困難。
- 計算効率を維持しつつ，リモートセンシング画像の超解像性能を向上させる。
- 提案手法SlimDiffSRは，推論速度を最大200倍，モデルパラメータを20分の1に削減。
- 既存の軽量拡散モデルと比較して，知覚的な品質と効率の両方で優れた性能を示す。
- 不確実性に基づいたタイムステップ割り当て戦略と構造化プルーニングにより，効率的な知識伝達を実現。
Link: https://arxiv.org/abs/2605.02198
異常選好画像生成 [cs.CV, cs.LG]目的：異常画像の生成における現実感と多様性の両立
- モデルの汎化性能向上には，現実的で多様な異常サンプルが不可欠である。
- 既存手法は，分布のずれや過学習により，現実感と多様性の両立が困難である。
- 異常選好最適化により，高コストなアノテーションなしに，現実感と多様性を向上させる。
- 本研究では，異常生成を選好学習問題として再構築する「異常選好最適化」を提案した。
- リアルな異常画像を正例として活用し，ノイズ除去軌道のずれから最適化信号を導出する。
- 拡散過程のタイムラインに応じてモデルの容量を動的に配分する「時間認識容量配分モジュール」を導入した。
Link: https://arxiv.org/abs/2605.02439
DynoSLAM：生成グラフニューラルネットワークを用いた動的SLAM - 現実世界の社会的なナビゲーション [cs.RO, cs.CV]目的：現実世界の社会的なナビゲーションのための動的SLAMシステム
- SLAMはロボットが環境を認識し自律的に行動するために不可欠であり，その精度とロバスト性が求められる。
- 従来のSLAMは静的な環境を前提としており，歩行者などの動的要素が存在する現実世界での適用が困難である。
- 歩行者の行動予測を確率的なモデルとして組み込むことで，SLAMの精度と安全性を向上させ，より現実的なナビゲーションを実現する。
- 提案手法DynoSLAMは，グラフニューラルネットワークをSLAMの因子グラフ最適化に統合し，歩行者の行動予測を確率的に行う。
- モンテカルロシミュレーションにより，歩行者間の相互作用の不確実性を捉え，SLAMグラフに動的なマハラノビス距離因子として組み込む。
- シミュレーション実験の結果，DynoSLAMは高い追跡精度を維持し，決定論的な手法で発生する最適化の失敗を防ぐことが示された。
Link: https://arxiv.org/abs/2605.02759
D-OPSD：ステップ蒸留拡散モデルの継続的チューニングのためのオンポリシー自己蒸留 [cs.CV]目的：ステップ蒸留拡散モデルにおける，教師あり微調整中のオンポリシー学習を実現する新たな学習パラダイム
- 画像生成モデルは，多段階から少段階へ効率化が進んでいる。高品質な画像生成には，より少ないステップで済むモデルが求められている。
- 少段階モデルは，直接的な継続的教師あり微調整が困難である。微調整により，本来の少段階推論能力が損なわれる可能性がある。
- 本研究は，少段階モデルの推論能力を維持しつつ，新しい概念やスタイルを学習させることを目指している。
- D-OPSDは，モデル自身を教師と生徒として機能させ，異なる文脈下で学習を行うことで，自己蒸留を実現している。
- 生徒はテキスト特徴のみを条件とし，教師はテキストプロンプトとターゲット画像のマルチモーダル特徴を条件とする。
- D-OPSDは，モデル自身の軌跡と自己監督の下で最適化され，元の少段階能力を損なわずに新たな概念を学習する。
Link: https://arxiv.org/abs/2605.05204
OpenGaFF：コードブック注意を用いたオープンボキャブラリGaussian特徴場 [cs.CV]目的：オープンボキャブラリ3Dシーンの理解
- 3Dシーン理解は，ロボティクスや拡張現実など幅広い分野で不可欠な技術である。
- 既存手法では，多視点観察におけるセマンティック予測の断片化や空間的不整合が課題となっていた。
- Gaussian Splattingに基づき，幾何構造とセマンティクス間の結合を強化し，空間的な一貫性を高めることを目指す。
- OpenGaFFは，セマンティクスをGaussianの幾何学と外観の連続関数としてモデル化するGaussian特徴場を導入した。
- 構造化されたコードブックを導入することで，オブジェクトレベルのセマンティック一貫性を強化し，ロバストなオープンボキャブラリ推論を実現した。
- 標準的なベンチマークにおいて，既存手法を上回り，セグメンテーション品質と3Dセマンティック一貫性が向上した。
Link: https://arxiv.org/abs/2605.06088
NavOne：トップダウンマップを用いた視覚言語ナビゲーションのためのワンステップグローバルプランニング [cs.CV, cs.AI]目的：視覚言語ナビゲーションにおけるグローバルパスプランニング
- ロボットナビゲーションの分野では，環境理解と効率的な経路計画が重要課題である。
- 従来のVLN手法は逐次的な経路探索であり，誤差の蓄積や効率の限界が課題となっていた。
- 本研究は，トップダウンマップを活用し，ワンステップで効率的なグローバルプランニングを実現することを目指す。
- NavOneは，マルチモーダルマップ上で密な経路確率を直接予測する統合フレームワークである。
- R2R-TopDownデータセットを用いた実験により，既存のマップベースVLN手法を上回る性能を達成した。
- 計画段階の速度は，既存のマップベース手法の8倍，自己中心的アプローチの80倍に向上し，効率的なナビゲーションを実現した。
Link: https://arxiv.org/abs/2605.06317
InfoGeo：クロスビュー汎化可能なUAVジオロケーションのための情報理論的オブジェクト中心学習 [cs.CV]目的：クロスビュー汎化可能なUAVジオロケーションの実現
- GPSが利用できない環境下での正確な位置特定とナビゲーションは，ロボティクスや自動運転などの分野で不可欠である。
- 既存手法は，地域や天候の変化によるドメインシフトの影響を受けやすく，UAV画像特有の複雑な視覚的ノイズが課題となっている。
- オブジェクト中心学習の考え方に基づき，ロバスト性と汎化性能を高める情報理論的フレームワークを開発し，ジオロケーションの精度向上を目指す。
- 提案手法InfoGeoは，異なる視点間のオブジェクト中心構造関係の整合性を最大化することで，視点に依存しない情報を抽出する。
- InfoGeoは，クロスビュー知識制約を通じて，視点固有のノイズを抑制する情報ボトルネックプロセスとして最適化を定式化する。
- 多様なベンチマークと厳しい条件下での評価により，InfoGeoが最先端手法を大幅に上回ることが示された。
Link: https://arxiv.org/abs/2605.07099
ヘッセ行列手術：ヘッセ尖端摂動によるクラスターゲット事後再調整 [cs.LG, cs.CV]目的：深層学習モデルのクラス別精度再調整
- 深層学習モデルの汎化性能向上は重要な課題であり，学習済みモデルの性質解明が求められる。
- 学習済みモデルのヘッセ行列の構造が十分には活用されておらず，精度改善の余地がある。
- ヘッセ尖端の情報を利用し，再学習なしでクラス別精度の不均衡を改善することを目指す。
- 提案手法であるヘッセ行列手術は，モデルの重みをヘッセ尖端固有ベクトル方向に摂動させることで，クラス別精度を再調整する。
- スパイククラス感度行列を用いて，各クラスの精度が尖端固有ベクトル方向にどのように変化するかを定量化し，弱いクラスをターゲットとした最適化を行う。
- CIFAR-10およびISIC-2019データセットにおいて，バランスのとれた精度と標準偏差の両方の改善が確認された。
Link: https://arxiv.org/abs/2605.07790
画像内テキスト編集におけるクロスリンガル劣化のベンチマーク：MULTITEXTEDIT [cs.CV, cs.AI, cs.CL]目的：画像内テキスト編集におけるクロスリンガル劣化の評価
- 画像生成技術の発展に伴い，画像内テキスト編集の重要性が増している。
- 既存の評価基準は英語中心であり，言語による性能差の評価が不十分である。
- 多様な言語におけるテキスト編集性能の劣化を定量的に評価する。
- MULTITEXTEDITは，12言語，5つの視覚ドメイン，7つの編集操作を含む3,600インスタンスからなるベンチマークである。
- 言語忠実度(LSF)という新たな評価指標を導入し，文字の欠落や書字方向の間違いなど，より詳細なエラーを検出した。
- 多くのモデルでクロスリンガル劣化が認められ，特にヘブライ語とアラビア語で顕著であった。
Link: https://arxiv.org/abs/2605.08163
ACWM-Phys：行動条件付きビデオワールドモデルにおける汎化された物理的相互作用の調査 [cs.CV]目的：多様な物理的ダイナミクス下における行動条件付き予測の評価
- 汎用的な世界理解には，豊かな物理的相互作用の理解が不可欠である。近年，その重要性が高まっている。
- 既存のベンチマークは特定のタスクに限定されており，汎化された物理的相互作用を評価するには不十分である。
- 本研究は，汎化された物理的相互作用を評価するためのベンチマーク（ACWM-Phys）を開発し，モデルの能力を分析することを目指す。
- ACWM-Physは，剛体，変形オブジェクト，粒子などの多様な物理的ダイナミクスを網羅したデータセットである。
- 分布内および分布外の評価により，汎化性能は物理的環境とタスクの複雑さに依存することが示された。
- モデルは，視覚的なパターンに強く依存しており，基礎的な物理法則の学習が不十分であることが示唆された。
Link: https://arxiv.org/abs/2605.08567
ClickSeg3D: 意味埋め込みによる少クリック対話型セグメンテーション [cs.CV]目的：少クリック対話型3Dセグメンテーション手法
- 3Dシーン理解は，ロボット工学や自動運転等の応用において不可欠であり，その精度向上が求められている。
- 既存の3D対話型セグメンテーションは，逐次処理や2Dモデルへの依存があり，効率性や汎化性能に課題がある。
- 本研究は，3D点群に対し，少クリックで効率的にセグメンテーションを行う手法を確立し，その課題を解決する。
- 提案手法は，点Transformerエンコーダと階層型マスクデコーダにより，複数オブジェクトのクリックを一度に処理する。
- 実験の結果，既存手法と比較してmIoUが20%以上向上し，クロスデータセット評価でも8-10%の改善が見られた。
- 本手法は，ロボット操作やナビゲーション，3Dセマンティックアノテーション等のリアルタイムアプリケーションに適している。
Link: https://arxiv.org/abs/2605.08925
GSMap：オンラインHDマップ構築のための2次元ガウス関数 [cs.CV]目的：自動運転用HDマップの構築
- 自動運転技術の安全性向上には，高精度なHDマップが不可欠である。
- 既存手法は，幾何学的精度とトポロジー構造の維持の間にトレードオフが存在する。
- 幾何学的精度とトポロジー構造を両立するHDマップ構築手法を確立すること。
- 本研究では，学習可能な2次元ガウス関数表現を用いて，幾何学的精度とトポロジー構造を統合するGSMapを提案する。
- GSMapは，微分可能なラスタライズとトポロジーを考慮したベクトル化により，同時最適化を実現する。
- nuScenesとArgoverse2での実験により，GSMapが既存のHDマップアーキテクチャとの高い互換性を示すことが示された。
Link: https://arxiv.org/abs/2605.09619
DynGhost：量子検出器を用いた動的ゴーストイメージングのための時間モデル化トランスフォーマー [eess.SY, cs.SY, cs.CV, cs.AI]目的：動的ゴーストイメージングにおける画像再構成手法
- ゴーストイメージングは，単一ピクセル検出器で空間情報を再構成する技術であり，多様な応用が期待される。
- 既存手法は，時間的な相関を活かせておらず，動的シーンへの適用が困難である。また，現実的なノイズモデルに対応できていない。
- 現実的な量子検出器の特性を考慮し，時間的な相関を捉えることで，動的ゴーストイメージングの性能向上を目指す。
- DynGhostは，空間的・時間的な注意機構を組み合わせたトランスフォーマーアーキテクチャである。
- 物理的に正確な検出器シミュレーションとAnscombe正規化に基づく学習フレームワークにより，現実的な条件下での性能劣化を抑制する。
- 複数のベンチマークにおいて，従来の再構成手法や既存の深層学習アーキテクチャと比較して，特に動的かつ光子数の少ない環境で優れた性能を示す。
Link: https://arxiv.org/abs/2605.10185
AdaptSplat：フィードフォワード3Dガウススプラッティングのためのビジョン基礎モデルの適応 [cs.CV]目的：3Dガウススプラッティングにおけるビジョン基礎モデルへの軽量アダプターの設計
- 3Dシーン再現は，メタバースやロボティクスなど多様な分野で重要性が増している。
- 既存手法は，データ量不足や深層ネットワークの平滑化効果により，汎化性能や高周波幾何学的精度が課題である。
- 本研究は，少ないパラメータで高周波情報を補完し，汎化性能と精度を向上させることを目指す。
- AdaptSplatは，わずか1.5Mパラメータのアダプターを導入するだけで，既存手法を上回る性能を達成した。
- Frequency-Preserving Adapter (FPA) は，高周波構造情報を抽出し，位置エンコーディングと残差変調を用いてスムーズに統合する。
- 複数のベンチマークにおいて最先端の再構成性能を示し，ドメイン間の安定した汎化性能が確認された。
Link: https://arxiv.org/abs/2605.10239