arXiv雑要約

画像・音声 - 2026/03/04 公開

自動音声認識の品質 - ポーランド語のケーススタディ - Wav2VecからScribe ElevenLabsへ [eess.AS, cs.SD]目的：ポーランド語における自動音声認識モデルの比較研究
- 医療分野での音声データの活用が重要であり，高精度な音声認識技術が求められている。
- ポーランド語のようなリソースが限られた言語における音声認識の精度は，依然として課題である。
- 最新の音声認識技術を用いて，ポーランド語の医療インタビューデータにおける認識精度向上を目指す。
- Whisperモデルは，オープンソースモデルの中で最も優れた性能を示した。
- ElevenLabs Scribeモデルは，ポーランド語の一般的なベンチマークデータと医療データの両方において，最高の性能を発揮した。
- 劣化音や帯域制限のある音声信号においても，ElevenLabs Scribeモデルの高い認識精度が確認された。
Link: https://arxiv.org/abs/2603.02246
オンデバイスにおける効率的なパーソナライズされたキーワードスポッティングのためのチャネルプルーニング手法OnDA [eess.AS, cs.LG, cs.SD]目的：効率的なパーソナライズドキーワードスポッティングの実現
- 常に起動しているキーワードスポッティングは，様々な環境下で高い精度が求められるため，重要な研究分野である。
- ユーザーや環境の変化に対応するためには，モデルの適応が必要だが，遅延や消費電力の制約がある。
- オンデバイスでの学習とアーキテクチャ適応を組み合わせ，モデルの圧縮と性能維持を両立することを目指す。
- 提案手法OnDAは，HeySnipsおよびHeySnapdragonデータセットにおいて，タスク性能を維持しつつ，最大9.63倍のモデルサイズ圧縮を実現した。
- Jetson Orin Nano上での評価では，オンライン学習時および推論時の遅延と消費電力を，重みのみを調整する手法と比較して最大1.77倍改善した。
- オンデバイスでの学習とアーキテクチャ適応の組み合わせが，効率的なパーソナライズドキーワードスポッティングに貢献する。
Link: https://arxiv.org/abs/2603.02247
Whisper-RIR-Mega: 音響環境に対するASRの頑健性を評価するためのクリーン・残響ペア音声ベンチマーク [eess.AS, cs.AI, cs.LG, cs.SD]目的：音響環境に対する自動音声認識（ASR）の頑健性の評価
- ASRは，様々な環境下での利用が求められており，特に音響環境の影響は重要である。
- 残響はASRの性能を著しく低下させるが，現実的な残響環境下での評価データセットが不足している。
- 現実的な残響条件下でのASR性能評価を可能にするデータセットの提供。
- Whisper-RIR-Megaは，クリーン音声と残響音声のペアから構成される大規模なベンチマークデータセットである。
- 実験の結果，残響は全てのモデルサイズにおいて性能を低下させ，WERの悪化は0.12～1.07ポイントに及んだ。
- 本研究により，ASRの頑健性に関する研究を促進するためのデータセット，評価コード，ベースライン結果が公開された。
Link: https://arxiv.org/abs/2603.02252
長尾分布における多ラベル胸部X線画像分類のための損失設計とアーキテクチャ選択 [eess.IV, cs.CV]目的：長尾分布の胸部X線画像分類における損失関数，CNNバックボーンアーキテクチャ，および後学習戦略の系統的な評価
- 臨床診断において，胸部X線画像は重要な役割を果たす。その精度向上は，診断支援システムの発展に不可欠である。
- 胸部X線画像データには，稀な疾患の症例が少ないという長尾分布の問題が存在し，それらの疾患の検出精度が低下する。
- 稀な疾患の検出精度を向上させるための，損失関数とアーキテクチャの最適な組み合わせを見出すことを目指す。
- LDAM-DRWは，標準的なBCEや非対称損失よりも，稀な疾患の認識において一貫して優れた性能を示すことが確認された。
- ConvNeXt-Largeが，開発セットで0.5220 mAP，0.3765 F1という最高の単一モデル性能を達成した。
- 公式テストリーダーボードでは，提出したモデルが0.3950 mAPを達成し，1528件の提出があった中で5位となった。
Link: https://arxiv.org/abs/2603.02294
ジェームズの対称正定値行列ビコーン領域における幾何学的構造と偏差 [stat.ML, cs.CG, cs.CV, cs.LG]目的：対称正定値行列の幾何学的構造に関する研究
- 信号処理，統計，金融など広範な分野で対称正定値行列データが重要であり，その幾何学的理解は不可欠である。
- 既存の幾何学的枠組みでは，多様体上の測地線が必ずしも直線状にならないという課題があった。
- ジェームズのビコーン再パラメータ化に基づき，測地線が直線となる新たなフィンズレリアン構造と二元情報幾何学的構造を確立する。
- ジェームズのビコーン再パラメータ化から，フィンズレリアン構造と二元情報幾何学的構造の2つの新しい構造を導入した。
- スペクトラプレックスがビコーン領域のアフィン部分空間に含まれることを証明し，Hilbert VPM距離がHilbert単純体距離を一般化することを示した。
- これらの新しい構造と伝統的な類似性/相違性の間の様々な不等式について議論した。
Link: https://arxiv.org/abs/2603.02483
バイオメカニクスに基づいた歩行解析：マーカーレス歩行パラメータ推定のための3D人体再構成フレームワーク [eess.IV, cs.CV]目的：歩行パラメータの推定に関するフレームワーク
- 歩行は健康状態の重要な指標であり，医療やリハビリテーション分野で広く研究されている。
- 従来の歩行解析は，高価なモーションキャプチャシステムやマーカーに依存しており，実用性に課題があった。
- 本研究は，ビデオデータのみから高精度な歩行パラメータを推定し，臨床応用を促進することを目的とする。
- 提案手法は，モーションキャプチャシステムと同様のバイオメカニクス的に意味のあるマーカーを抽出する。
- 抽出されたマーカーを用いてOpenSim内で関節の運動学的推定を行い，参照データとの高い一致性を示した。
- 従来のポーズ推定手法と比較して，空間的・時間的歩行パラメータの推定精度が大幅に向上した。
Link: https://arxiv.org/abs/2603.02499
物理音響モデリングがニューラルパーソナルサウンドゾーンレンダリングに与える影響の分解：アブレーションスタディ [math.CO, cs.DM, eess.AS, cs.SD, eess.SP]目的：ニューラルパーソナルサウンドゾーンレンダリングにおける物理音響モデリングの影響の分解
- パーソナルサウンドゾーンは，没入型オーディオ体験を向上させる上で重要であり，その実現には高精度な音響制御技術が不可欠である。
- シミュレーションされた音響伝達関数と実環境間にはずれが生じやすく，レンダリングの精度を損なう可能性がある。
- 物理情報に基づいた要素の貢献度を明確にすることで，限られたリソースでの効率的なモデル構築を目指す。
- スピーカーの周波数特性(FR)はスペクトル補正に貢献し，わずかなクロストークキャンセル改善とリスナー間干渉の低減に繋がった。
- 解析的な円形ピストン指向性(DIR)は，一貫したサウンドゾーン分離の改善をもたらし，平均的なIZI/IPIを10.05 dB向上させた。
- 剛性球頭部伝達関数(RS-HRTF)は，特に2 kHz以上でクロストークキャンセルを大幅に向上 (+2.38/+2.89 dB) させた。
Link: https://arxiv.org/abs/2603.02508
遊戯王OCGにおける最適プレイの困難性 [quant-ph, cs.NI, math.LO, cs.CC, cs.GT]目的：遊戯王OCGにおける最適プレイの計算不可能性
- 遊戯王OCGは世界的に人気が高く，競技性の高いカードゲームである。
- カードゲームにおける最適戦略の決定は，計算量が多く，困難な問題である。
- 遊戯王OCGにおける勝利戦略の決定可能性を理論的に解明する。
- 遊戯王OCGのゲーム状態から，勝利可能な計算可能な戦略の存在判定は決定不能であることが示された。
- 停止問題およびクリーネの$\mathcal{O}$問題が，この問題に帰着できることが証明された。
- 可算な井順序への帰着により，問題が$\Pi^1_1$-完全であることが示された。
Link: https://arxiv.org/abs/2603.02863
多段階セカンドプライスオークション設計における強化学習アプローチ [cs.CL, cs.LG, cs.GT, stat.ML]目的：多段階セカンドプライスオークションにおける留保価格最適化
- オークション設計は，資源配分や収益最大化に不可欠であり，経済学，計算機科学など多岐にわたる分野で重要である。
- 従来のオークション設計は，入札者の戦略的行動や不確実性を考慮しきれていない場合が多く，最適な収益を達成できない可能性がある。
- 本研究は，入札者の戦略的行動や市場ノイズといった課題を克服し，収益を最大化するオークション設計手法を提案する。
- 本研究では，「バッファー期間」と低コストスイッチングを用いた強化学習を組み合わせることで，入札者の虚偽申告を抑制し，ほぼ正直な申告を促すメカニズムを開発した。
- 市場ノイズ分布が未知の場合でも純粋な探索が不要となる新しいアルゴリズムを開発し，収益の機会損失を最小限に抑えることに成功した。
- LSVI-UCBを拡張し，オークションの構造を利用して収益関数の不確実性を制御することで，より効率的な最適化を実現した。
Link: https://arxiv.org/abs/2210.10278
マルチエージェント契約 [cs.GT]目的：マルチエージェント契約設計における最適な線形契約の探索
- 複数の主体間の連携を促す契約設計は，経済学や社会システムにおいて重要な役割を果たす。
- 複雑な報酬関数を持つ場合，最適な契約を効率的に見つけることが困難である。
- 補完自由階層に属する報酬関数に対する計算効率の良い契約設計アルゴリズムを開発すること。
- 準単調関数およびXOS関数に対して，一定の近似率を持つアルゴリズムを提案した。
- 準単調関数に対する一定の近似率が上限であることを証明し，より大規模な劣加関数に対しては$\Omega(\sqrt{n})$の限界を示すことができた。
- XOS関数の特性を利用し，価格と需要クエリを用いた新しい手法を開発した。
Link: https://arxiv.org/abs/2211.05434
WAFFLE：自動フロントエンド開発のためのマルチモーダルモデルのファインチューニング [cs.HC, cs.CL, cs.SE, cs.CL, cs.CV]目的：UIデザインからHTMLコードへの変換に関する研究
- Web開発は，初心者から経験者まで，HTMLの複雑な構造とスタイル設定が課題となる。
- LLMによるUI-HTML変換において，HTMLの階層構造の表現と視覚情報とコードの整合性の確保が困難である。
- 構造認識型Attention機構とコントラスティブ学習により，LLMのHTML構造理解とUI-HTML対応を改善する。
- WAFFLEでファインチューニングしたモデルは，既存手法を上回り，HTMLマッチ率が最大9.00pp向上した。
- CW-SSIMは0.0982，CLIPは32.99，LLEMは27.12pp向上し，WebSight-TestおよびDesign2Codeで優れた性能を示した。
- 本研究は，UIデザインから高品質なHTMLコードを生成するための効果的なファインチューニング戦略を提供する。
Link: https://arxiv.org/abs/2410.18362
アルゴリズム的共謀の限界：Q学習，勾配学習，およびフォーク定理 [cs.GT, econ.TH, stat.ML]目的：戦略的相互作用を繰り返す学習エージェントの行動
- ゲーム理論は，経済学，政治学，生物学などに応用され，戦略的状況の分析に不可欠である。
- 反復ゲームにおける学習エージェント間の共謀形成メカニズムは未だ十分に解明されていない。
- 多様な学習ダイナミクス下でのアルゴリズム的共謀の可能性と限界を明らかにすること。
- Q学習，勾配学習などの学習ダイナミクスにおいて，フォーク定理様の結果が得られた。
- これらのダイナミクスによって達成可能な報酬ベクトルの集合が特定され，アルゴリズム的共謀の多様な可能性が示唆された。
- 反復ゲームにおける複数エージェントQ学習アルゴリズムの収束結果は，本研究が初となる。
Link: https://arxiv.org/abs/2411.12725
加法的厚生主義的ルールにおける公平性 [cs.GT, econ.TH]目的：分割不可能な資源の公平な分配
- 資源配分は社会経済活動において不可欠であり，公平性の確保が重要である。
- 従来の厚生主義的ルールは，必ずしも公平性を保証しない場合がある。
- 最大ナッシュ厚生（MNW）ルール以外のEF1保証ルールを特定し，その特徴を解明する。
- 最大ナッシュ厚生（MNW）ルールは，同一財，二値財，正規化された3人以上のエージェントを持つインスタンスにおいても，唯一のEF1保証ルールである。
- エージェントの効用が整数である場合，他のいくつかのルールもEF1を保証することが示された。
- 様々なインスタンスクラスにおけるこれらのルールの特徴付けが提供された。
Link: https://arxiv.org/abs/2412.15472
多様なNeRFアーキテクチャにおける重み空間の表現学習 [cs.CV]目的：多様なNeRFアーキテクチャに対応可能な表現学習フレームワーク
- 3次元オブジェクトやシーン表現において，NeRFは重要な役割を担う。学習済みNeRFの活用が期待されている。
- 既存手法は特定のNeRFアーキテクチャに限定され，汎用性に欠ける点が課題であった。
- 本研究は，未知のアーキテクチャのNeRFに対しても有効な表現学習を可能にすることを目的とする。
- グラフメタネットワークとコントラスト学習を用いることで，アーキテクチャに依存しない潜在空間を獲得した。
- 13種類のNeRFアーキテクチャを用いた実験で，分類，検索，言語タスクにおいて高い性能を示した。
- 既存の単一アーキテクチャ限定の手法と同等またはそれ以上の結果を達成した。
Link: https://arxiv.org/abs/2502.09623
音響ドローン測位に対する敵対的攻撃について [cs.SD, cs.RO, eess.AS]目的：音響ドローン測位における敵対的攻撃の影響分析と，その影響を軽減するアルゴリズムの開発
- ドローンは農業，配送，捜索救助など多様な分野で活用が拡大しており，その重要性は増している。
- 従来のビジョンベースの手法は環境の影響を受けやすく，音響測位への注目が集まっている。
- 音響ドローン測位システムのセキュリティ脆弱性を明らかにし，安全性を高めることが課題である。
- 本研究では，音響ドローン測位に対する敵対的攻撃の影響を詳細に分析した。
- 特に，PGD攻撃を用いた実験により，攻撃が測位精度に及ぼす影響を定量的に評価した。
- また，敵対的摂動からの回復を可能にするアルゴリズムを開発し，攻撃の影響を大幅に軽減できることを示した。
Link: https://arxiv.org/abs/2502.20325
自己教師ありC.エレガンス注釈のためのサイクル整合マルチグラフマッチング [cs.CV]目的：C.エレガンスの細胞注釈のためのマルチグラフマッチング手法
- 生物医学研究において，細胞レベルでの正確なアトラス構築は，理解を深める上で不可欠である。
- 従来の細胞アトラス構築には，大規模な手動注釈が必要であり，時間と労力がかかる。
- 本研究は，教師なし学習により細胞アトラスを効率的に構築し，注釈作業のボトルネックを解消する。
- 提案手法は，自己教師あり学習のためのサイクル整合性を損失関数として活用し，効率的な学習を実現した。
- 3D顕微鏡画像におけるC.エレガンスの細胞意味的注釈において，最先端の教師あり手法と同等の精度を達成した。
- 本手法により，C.エレガンスの最初の教師なしアトラスが構築され，他のモデル生物への応用も期待される。
Link: https://arxiv.org/abs/2503.07348
敵対的パッチによる交通標識分類に対するGANベースの単段階防御 [cs.CV]目的：交通標識分類における敵対的パッチ攻撃に対する防御戦略
- 自動運転車の安全な走行には，周囲の状況を正確に認識する機能が不可欠である。
- 敵対的パッチ攻撃は，わずかな改ざんで認識精度を低下させ，自動運転車の安全性に深刻な脅威をもたらす。
- 本研究は，敵対的パッチ攻撃に対し，リアルタイムで有効に機能する単段階防御策を提案する。
- 提案手法は，防御機構のない分類器と比較して，敵対的パッチ攻撃下での分類精度を最大90%向上させる。
- また，検討したすべての交通標識クラスにおいて，全体的な分類精度を55%向上させる。
- 本防御戦略はモデルに依存しないため，あらゆる交通標識分類器に適用可能である。
Link: https://arxiv.org/abs/2503.12567
言語誘導による弱教師ありのオープンワールド動画異常検知 [cs.CV]目的：オープンワールド動画異常検知における，変化する異常の定義に対応する技術
- 動画監視システムの高度化が求められ，異常行動の自動検知技術の重要性が増している。
- 既存手法は異常の定義が固定されており，状況変化への適応が困難であるという課題がある。
- ユーザーが自然言語で異常の定義を提示することで，柔軟に異常検知を行えるようにする。
- 提案手法LaGoVADは，動画とテキスト定義から異常スコアを算出するロバストなマッピングを確立した。
- 動的動画合成とコントラスト学習により，異常の多様性と特徴のロバスト性を向上させた。
- 大規模な動画異常データセットPreVADを収集し，ゼロショット実験で最先端の性能を達成した。
Link: https://arxiv.org/abs/2503.13160
拡散モデルのスケーリングによる知識蒸留 [cs.CV]目的：拡散モデルの効率化と性能向上
- 拡散モデルは高品質な画像生成が可能だが，計算コストが高い。
- ステップ数を減らすことで効率化を図るのが困難になりつつある。
- 中間段階の冗長な計算を避け，スケーリングによる効率化を目指す。
- SwDは，プログレッシブな生成により，少ないステップ数で高品質な画像を生成する。
- MMDに基づくパッチレベルの知識蒸留目的関数は，蒸留の収束を改善し，単独でも高い性能を発揮する。
- 最先端のテキスト-画像/動画拡散モデルに適用した結果，2ステップのサンプリング速度に近づき，同等の計算量下で既存手法を上回った。
Link: https://arxiv.org/abs/2503.16397
プライバシー保護2Dヒューマンポーズ推定 [cs.CV]目的：2Dヒューマンポーズ推定におけるプライバシー保護手法
- 医療，行動認識，HCI等，幅広い応用分野で人体ポーズ推定の重要性が増している。
- 画像データはプライバシー侵害リスクが高く，特にセンシティブな環境での利用が制限されている。
- 差分プライバシーを用いて，精度を維持しつつプライバシーを保護する手法を確立すること。
- 提案手法は，プライバシー保護と性能のバランスを取るため，PDP-SGDとFDPを組み合わせたハイブリッドフレームワークを採用した。
- MPIIデータセットでの実験により，提案手法が従来のDP-SGDや単独のベースライン手法を上回る性能を示すことが確認された。
- 特に，ε=0.8において平均PCKh@0.5で82.61%を達成し，非プライバシー保護モデルとの性能差を縮小した。
Link: https://arxiv.org/abs/2504.10190
ビデオ拡散モデルにおける注意機構を通じたベイジアン活性ノイズ選択：モデルは既に最適なノイズを知っている [cs.CV, cs.AI]目的：ビデオ拡散モデルにおける高品質な種（シード）の選択
- ビデオ生成の質とプロンプトへの適合性は重要であり，ノイズの選択が大きな影響を与える。
- 同じプロンプトでも，種が異なると結果が大きく異なるため，安定的な高品質生成が課題である。
- 注意機構に基づく不確実性を定量化し，モデルが内在的に好む種を選択することで，この問題を解決する。
- 提案手法ANSEは，注意機構を用いた不確実性を測定し，高品質な種を選択するフレームワークである。
- BANSAは，複数の注意サンプルのエントロピー不一致を測定し，モデルの確信度と一貫性を評価する。
- 様々なバックボーンで実験した結果，ビデオの質と時間的な一貫性が向上し，推論オーバーヘッドはわずかであった。
Link: https://arxiv.org/abs/2505.17561
SABER：BEV検出器に対する空間的に整合的な3D汎用敵対オブジェクト [cs.CV]目的：BEV 3Dオブジェクト検出器に対する汎用的な3D敵対オブジェクトの生成
- 自動運転システムの安全性確保は重要であり，その根幹をなす物体検出の堅牢性が求められる。
- 既存の敵対的攻撃は現実的でなく，環境に配置する攻撃も多視点・時間的一貫性に課題があった。
- 物理的に妥当な敵対オブジェクトを生成し，BEV検出器の脆弱性を明らかにする。
- 提案手法は，複数のBEV検出器に対し，様々な視点や距離から一貫して性能劣化を引き起こすことを示した。
- 本研究は，モデルが文脈的な手がかりに過度に依存しているという新たな知見をもたらした。
- 敵対的攻撃のパラダイムシフトにより，自動運転システムにおける堅牢性評価の現実的な手法を提供する。
Link: https://arxiv.org/abs/2505.22499
相互作用場マッチング：静電モデルの限界克服 [cs.LG, cs.AI, cs.CV]目的：データ生成および転送のための相互作用場マッチング
- データ生成・転送において，物理学的手法を用いた新たなアプローチが注目されている。
- 静電場モデルは複雑な計算を必要とし，特にキャパシタ外の場を扱うのが困難である。
- 静電場モデリングの問題を解決するため，より汎用的な相互作用場を用いる。
- 相互作用場マッチング（IFM）は，静電場だけでなく，様々な相互作用場を利用可能にする。
- 物理学におけるクォークと反クォーク間の強い相互作用に着想を得た新たな相互作用場を設計した。
- 玩具データおよび画像データ転送問題において，提案手法の有効性を検証した。
Link: https://arxiv.org/abs/2506.02950
HSSBench：マルチモーダル大規模言語モデルの人文科学・社会科学能力のベンチマーク [cs.CL, cs.CL, cs.AI, cs.CV]目的：人文科学・社会科学分野におけるマルチモーダル大規模言語モデルの能力評価
- 人文科学・社会科学は，社会の多様な問題解決や文化理解に不可欠である。
- 既存のベンチマークはSTEM分野に偏っており，人文科学・社会科学特有の能力評価が不十分である。
- 人文科学・社会科学の知識統合や抽象概念と視覚情報の関連付けを評価するベンチマークを構築する。
- HSSBenchは，人文科学・社会科学のタスクを多言語で評価するためのベンチマークである。
- 13,000件以上のサンプルを含み，専門家と自動エージェントの協調によって生成された。
- 主要な20以上のMLLMを評価した結果，HSSBenchは最先端モデルにとっても困難であることが示された。
Link: https://arxiv.org/abs/2506.03922
フレームガイダンス：ビデオ拡散モデルにおけるフレームレベル制御のための学習不要ガイダンス [cs.CV, cs.AI]目的：ビデオ拡散モデルにおけるフレームレベル制御
- ビデオ生成の質向上に伴い，より詳細な制御が求められている。
- 既存手法は大規模モデルのファインチューニングに依存し，モデル規模拡大に伴い負担が増大する。
- 学習不要でフレームレベル信号に基づくビデオ生成制御を実現する。
- フレームガイダンスは，キーフレーム，スタイル画像，スケッチ，深度マップ等のフレームレベル信号を利用した学習不要の制御を実現する。
- メモリ使用量を削減するラテント処理法と，グローバルにコヒーレントなビデオ生成のためのラテント最適化戦略を提案する。
- 様々なタスク（キーフレームガイダンス，スタイライゼーション，ループ）において，高品質な制御ビデオ生成が可能となる。
Link: https://arxiv.org/abs/2506.07177
視覚的知覚報酬によるMLLMのマルチモーダル推論能力の向上：Perception-R1 [cs.LG, cs.AI, cs.CV]目的：マルチモーダル大規模言語モデル（MLLM）のマルチモーダル推論能力の向上
- MLLMは多様な応用が期待され，その性能向上が重要視されている。
- 既存手法では，MLLMのマルチモーダル知覚能力の強化が十分ではない。
- 視覚的知覚報酬を用いて，MLLMの知覚と推論能力を同時に向上させる。
- 提案手法Perception-R1は，視覚内容の正確な知覚を促す新規な視覚的知覚報酬を導入する。
- CoTのテキスト注釈を視覚的参照として活用し，LLMによる一貫性判断に基づき報酬を付与する。
- 複数のマルチモーダル推論ベンチマークで最先端の性能を達成し，わずか1,442件のデータで効果を示した。
Link: https://arxiv.org/abs/2506.07218
StreamSplat：未校正ビデオストリームからのオンライン動的3D再構成に向けて [cs.CV, cs.LG]目的：未校正ビデオストリームからの動的3D再構成手法
- 現実世界の動的シーンを3Dで把握する技術は，ロボティクスやAR/VRなど，幅広い分野で重要である。
- 既存手法は最適化に時間がかかり，リアルタイム処理や長時間のストリーム処理には不向きである。
- ストリーム処理に適した，低遅延かつ高精度な動的3D再構成を実現すること。
- StreamSplatは，未校正ビデオストリームを動的3D Gaussian Splatting表現に即座に変換する完全なフィードフォワードフレームワークである。
- 提案手法は，確率的サンプリング，双方向変形場，適応的ガウス融合により，高い再構成品質と動的シーンモデリングを達成する。
- 最適化ベースの手法と比較して1200倍の速度向上を実現し，任意の長さのビデオストリームのオンライン再構成が可能である。
Link: https://arxiv.org/abs/2506.08862
拡散モデルの高速化のための進化型キャッシュ [cs.CV]目的：拡散モデルの推論速度向上
- 拡散モデルは高品質な画像生成が可能だが，計算コストが高い。
- 既存手法は固定的なルールに依存し，汎用性や効果に限界がある。
- 汎用性の高いキャッシュスケジュールを自動的に学習し，推論を高速化する。
- ECADは，少数のキャリブレーションプロンプトのみを用いて，効率的なキャッシュスケジュールを学習する。
- PixArt-alphaにおいて，ECADは以前の最先端手法をCOCO FIDで4.47改善し，推論速度を2.35倍から2.58倍に向上させた。
- ECADは様々な拡散モデルや解像度に対して高い拡張性と汎用性を示す。
Link: https://arxiv.org/abs/2506.15682
合成知覚：生成画像はテキスト中心の推論のための潜在的な視覚的事前知識を解放できるか？ [cs.MM, cs.CV]目的：テキスト中心の推論における潜在的な視覚的事前知識の解放
- テキストデータは豊富だが，マルチモーダルモデルの発展には視覚情報の活用が不可欠である。
- テキストのみのデータでは，モデルが視覚的知識を獲得することが難しく，性能の限界がある。
- テキストから画像を生成する手法を用いて視覚情報を補完し，推論能力の向上を目指す。
- テキストから生成された画像（合成知覚）が，テキスト分類タスクにおいて性能向上をもたらすことが示された。
- この手法は，テキストを視覚的意味空間に効果的に投影することで，言語理解を豊かにする可能性がある。
- テキストと生成画像の意味的整合性，タスクの視覚的基盤，生成モデルの忠実度が効果に影響を与える。
Link: https://arxiv.org/abs/2506.17623
SceneStreamer：次トークングループ予測による継続的なシナリオ生成 [cs.RO, cs.CV]目的：継続的なシナリオ生成
- 自動運転システムの訓練と評価には，現実的でインタラクティブな交通シミュレーションが不可欠である。
- 既存のデータ駆動型シミュレーションは，静的な初期化やログデータの再生に依存し，変化するエージェント集団を持つ動的な長期間シナリオのモデル化が困難である。
- SceneStreamerは，現実的で長期的なシミュレーションを可能にする継続的なシナリオ生成を目指す。
- SceneStreamerは，交通信号，エージェントの状態，運動ベクトルなどをトークンとしてシーン全体を表現し，Transformerモデルを用いてステップごとに生成する。
- この設計により，SceneStreamerは無限の地平線上でエージェントの導入と退場を継続的に行うことが可能となり，現実的な長時間のシミュレーションをサポートする。
- 実験の結果，SceneStreamerは現実的で多様かつ適応的な交通行動を生成し，生成されたシナリオで訓練された強化学習ポリシーは，優れたロバスト性と汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2506.23316
拡散空間における焼きなましガイダンススケールの活用 [cs.GR, cs.AI, cs.CV, cs.LG]目的：拡散モデルにおけるガイダンススケールの調整方法
- 画像生成の品質向上は重要であり，特にテキストからの生成では，その品質が注目される。
- 従来のガイダンススケールは，最適な値を設定するのが難しく，生成結果に大きく影響する。
- 本研究は，動的にガイダンススケールを調整することで，高品質かつプロンプトに合致した画像を生成することを目指す。
- 提案手法では，焼きなましスケジュールを用いて，ノイズ信号に基づいてガイダンススケールを動的に調整する。
- 実験結果から，提案手法が画像品質とテキストへの適合性を大幅に向上させることが示された。
- 本手法は，追加の計算コストを要せず，既存のガイダンス手法を置き換えることができる。
Link: https://arxiv.org/abs/2506.24108
部分弱教師あり方向オブジェクト検出 [cs.CV]目的：部分的な弱教師データを用いた方向オブジェクト検出手法の開発
- 多様な分野で方向オブジェクト検出の需要が高まっており，その重要性が増している。
- 高品質なアノテーションにはコストがかかり，大規模データセットの作成が課題となっている。
- 弱アノテーションでも高性能な検出を実現し，アノテーションコストを削減することを目指す。
- 本研究で提案するPWOODフレームワークは，既存の弱教師あり学習手法を大きく上回る性能を示す。
- Orientation-and-Scale-aware Studentモデルは，少ない弱アノテーションから方向とスケール情報を学習可能である。
- Class-Agnostic Pseudo-Label Filtering戦略は，静的なフィルタリング閾値への依存性を低減する。
Link: https://arxiv.org/abs/2507.02751
CoBELa：エネルギー景観における概念的ボトルネックによる透明な生成の制御 [cs.CV, cs.AI]目的：概念的ボトルネックモデルによる解釈可能な生成
- 生成モデルの解釈可能性は，モデルの振る舞いを理解し，制御する上で重要である。
- 既存の概念的ボトルネックモデルは，ボトルネック表現やデコーダーの不透明さにより，解釈可能性が損なわれている。
- CoBELaは，明示的な概念エネルギー関数を用いて，解釈可能性を維持しつつ高品質な生成を実現する。
- CoBELaは，事前学習済みの生成器を再学習することなく，概念に基づいた生成を可能にするエネルギーベースのフレームワークである。
- CelebA-HQおよびCUB-200-2011での実験により，従来のモデルよりも高い概念精度とFIDスコアが示された。
- 概念の組み合わせや否定といった概念的介入が，追加の学習なしに自然にサポートされる。
Link: https://arxiv.org/abs/2507.08334
InstructVLA：理解から操作への視覚・言語・行動指示チューニング [cs.RO, cs.CV]目的：視覚，言語，行動の統合によるロボットの操作能力向上
- 現実世界でのロボット活用には，多様な情報を統合し，正確な行動を生成する能力が不可欠である。
- 既存のVLAモデルは，推論能力と操作能力のバランス，タスク特化性，事前学習能力の維持に課題がある。
- VLAモデルの推論能力を維持しつつ，操作性能を高めるための新たな学習パラダイムの確立。
- InstructVLAは，標準的なVLMコーパスとVLA-ITデータセットを用いた混合専門家適応により，優れた操作性能と推論能力を両立した。
- SimplerEnv-Instructベンチマークにおいて，InstructVLAは，既存モデルOpenVLAを96%上回り，GPT-4oを用いたモデルをも29%上回る成果を示した。
- InstructVLAは，テキストによる推論を活用することで，シミュレーション環境と現実世界の両方において操作性能を向上させるスケーラビリティを示す。
Link: https://arxiv.org/abs/2507.17520
構造化状態空間モデルを用いた拡散による記号音楽生成 [cs.SD]目的：拡散モデルによる記号音楽生成の効率化と品質向上
- 音楽生成における拡散モデルの重要性が高まっている。表現力豊かな音楽生成への応用が期待される。
- Transformerモデルの計算量が長大なシーケンスに対応できないという課題がある。
- 長大なシーケンスでも効率的に記号音楽を生成できる新たなモデルを開発すること。
- 本研究で提案するSMDIMは，Mamba構造化状態空間モデルを用いることで，計算効率を大幅に向上させた。
- 多様なデータセットでの評価において，SMDIMは最先端モデルを凌駕する生成品質と計算効率を実現した。
- SMDIMのアーキテクチャは，記号音楽以外の長序列生成タスクにも応用可能であることが示された。
Link: https://arxiv.org/abs/2507.20128
DMTrack：二重アダプターによる時空間マルチモーダル追跡 [cs.CV, cs.AI]目的：時空間マルチモーダル追跡のための二重アダプターアーキテクチャ
- 画像と動画処理において，対象物の追跡は重要な技術であり，監視や自動運転等に応用される。
- 異なる種類の情報を組み合わせるマルチモーダル追跡は困難であり，各モーダルの特徴を効果的に統合する必要がある。
- 本研究は，限られた学習パラメータで高性能なマルチモーダル追跡を実現することを目指す。
- DMTrackは，時空間モーダルアダプター（STMA）と漸進的モーダル補完アダプター（PMCA）という二つのモジュールを導入した。
- STMAは凍結されたバックボーンからの時空間特徴を調整し，PMCAはピクセルレベルでモーダル間のプロンプティングを促進する。
- 5つのベンチマークにおける実験により，DMTrackが最先端の結果を達成し，わずか0.93Mの学習可能なパラメータで高い性能を示すことが示された。
Link: https://arxiv.org/abs/2508.01592
MMTok：VLMの効率的な推論のためのマルチモーダルカバレッジ最大化 [cs.CV]目的：VLMにおける情報量の多いビジョン特徴量の選択
- 画像と言語を統合するVLMは，多様な応用で高い性能を示すため，重要性が増している。
- ビジョン特徴量の冗長性がVLMの推論効率を低下させるという課題がある。
- ビジョンとテキスト情報を活用し，特徴量選択におけるカバレッジ基準を最大化することで，効率化を目指す。
- MMTokは，ビジョンとテキスト情報を組み合わせることで，単一モーダルな手法を上回る性能を示す。
- POPEデータセットにおいて，MMTokは推論速度を1.87倍に向上させながら，性能の98.7%を維持する。
- LLaVA-1.5-7Bでは，わずか4つのビジョン特徴量で元の性能の87.7%を保持することが可能である。
Link: https://arxiv.org/abs/2508.18264
ConEQsA：並行非同期埋め込み型質問のスケジューリングと応答 [cs.RO, cs.AI, cs.CV]目的：埋め込み型質問応答（EQsA）問題の定式化，対応するベンチマークの導入，そしてその問題に取り組むためのエージェントシステムの提案
- 現実世界のロボット応用の多くは，複数の質問に同時に対処する必要があるため，並行処理が不可欠である。
- 従来の埋め込み型質問応答は単一の質問に焦点を当てており，複数の非同期質問への対応が困難である。
- 複数の質問を効率的に処理し，緊急度の高い質問に優先的に対応する手法を確立すること。
- 提案手法ConEQsAは，共有グループメモリを活用し，冗長な探索を削減することで，効率的な質問応答を実現している。
- ConEQsAは，動的な質問スケジューリングにより，緊急度の高い質問に迅速に対応し，全体的な応答性を向上させている。
- CAEQsベンチマークを用いた実験の結果，ConEQsAは強力な逐次的なベースラインを常に上回り，その有効性が示された。
Link: https://arxiv.org/abs/2509.11663
VLMは自律運転におけるレーン構成の理解に備えられているか [cs.CV]目的：レーン構成の理解に関するVLMの能力の評価
- 自律運転の安全性向上には，周囲環境の正確な理解が不可欠である。
- 既存のVLMは，自律運転に必要な道路構成の理解が十分ではない。
- VLMの空間的推論能力のボトルネックを特定し，改善の方向性を示す。
- 最新のVLM (GPT-4o等) は一部のタスクで高い精度を示すものの，人間が容易に解答できる空間的な質問には失敗する。
- 大規模なオープンソースVLM (30B規模) は，特に空間推論において顕著な課題を抱えている。
- モデルの性能は，モデルサイズ，推論トークン数，および提供された事例数と正の相関関係にあることが示された。
Link: https://arxiv.org/abs/2509.16654
SiNGER：より明確な音声がVision Transformerをさらに進化させる [cs.RO, cs.CL, cs.CV, cs.AI]目的：Vision Transformerの知識蒸留における表現品質の向上
- Vision Transformerは画像認識の基礎モデルとして広く利用されている。表現力が高く，様々なタスクで優れた性能を発揮する。
- Vision Transformerは高ノルムなアーティファクトを生成しやすく，それが表現品質を低下させる。知識蒸留時にアーティファクトが学生モデルに伝播しやすい。
- アーティファクトを抑制しつつ，教師モデルからの有益な情報を保持することで，知識蒸留の性能を向上させる。
- SiNGERは，特異値分解に基づいたエネルギー再配分により，アーティファクトの抑制と有益な情報の保持を両立する。
- LoRAベースのアダプターを用いることで，効率的な教師特徴量の洗練を実現し，学生モデルへの蒸留を可能にする。
- 実験の結果，SiNGERは様々なダウンストリームタスクにおいて最先端の性能を達成し，より明確で解釈可能な表現を生成することが示された。
Link: https://arxiv.org/abs/2509.20986
Earth-Agent：エージェントによる地球観測の可能性を最大限に引き出す [cs.CV]目的：地球観測データの活用による地球システムの理解促進
- 地球の状態変化を把握するため，地球観測は不可欠である。気候変動や環境問題への対応に重要な役割を担う。
- 既存のAIモデルは，多段階の推論や専門ツール活用が苦手で，複雑なタスクに対応できないという課題があった。
- マルチモーダルデータとツールを活用し，高度な推論と定量的時空間分析を実現することで，地球観測の課題を解決する。
- Earth-Agentは，RGB画像とスペクトルデータを統合し，専門ツールを活用することで，既存のモデルを凌駕する性能を示した。
- Earth-Benchは，248の専門家が作成したタスクと13,729枚の画像から構成され，推論過程と最終結果の両方を評価する二段階評価プロトコルを備えている。
- この研究は，地球観測分析の新たなパラダイムを確立し，AIを活用した次世代アプリケーションへの道を開く。
Link: https://arxiv.org/abs/2509.23141
PROFusion：カメラ姿勢回帰と最適化によるロバストで高精度な稠密再構成 [cs.RO, cs.CV]目的：不安定なカメラ動作下におけるリアルタイム稠密シーン再構成
- ロボティクスにおいて，周囲環境の理解は不可欠であり，稠密なシーン再構成がその基礎となる。
- 既存のRGB-D SLAMシステムは，大きな視点変化や急激な動き，揺れに対して脆弱である。
- 大規模な動きに対する初期値依存性を克服し，ロバスト性と高精度を両立する再構成手法の確立。
- カメラ姿勢回帰ネットワークによる信頼性の高い初期姿勢推定と，最適化による高精度な深度画像のアライメントを実現した。
- 困難なベンチマークにおいて，既存手法を上回る性能を示し，安定した動作下でも同等の精度を維持した。
- 本システムはリアルタイム動作が可能であり，単純かつ原理に基づいた技術の組み合わせが効果的であることを示した。
Link: https://arxiv.org/abs/2509.24236
プロキシ-GS：構造化3次元ガウススプラッティングにおける学習と推論のための統一的なオクルージョン事前知識 [cs.CV]目的：3次元ガウススプラッティングの学習と推論におけるオクルージョン事前知識の活用
- 3次元ガウススプラッティングはフォトリアリスティックなレンダリングを実現する効率的な手法として注目を集めている。
- 大規模シーンにおいて，ガウス素子の冗長性が高く，計算コストが課題となっている。
- オクルージョンを考慮したガウスの刈り込みと密度化により，レンダリング速度と品質の向上を目指す。
- 提案手法Proxy-GSは，高速なプロキシシステムを用いてオクルージョン情報を導入し，レンダリングの高速化と品質向上を実現した。
- 特にオクルージョンが多いシーンにおいて，既存手法Octree-GSと比較して2.5倍以上の高速化と，レンダリング品質の大幅な改善を達成した。
- プロキシはアンカーとガウスの刈り込みを導き，学習中にオクルージョン領域の一貫性を高めることで，より高品質なレンダリングを可能にする。
Link: https://arxiv.org/abs/2509.24421
EchoGen：フィードフォワード主導型自己回帰モデルによるあらゆるシーンでの視覚的エコーの生成 [cs.CV]目的：視覚的エコー生成のためのフレームワーク
- 創造的AIにおいて，特定の対象物に基づいた画像生成は重要である。様々な表現の可能性を広げ，新たなコンテンツ創造に繋がる。
- 既存手法は，計算コストや生成速度に課題がある。ファインチューニングは効率が悪い上，ゼロショット能力を損ねる場合がある。
- 本研究は，高速かつ高品質な対象物主導型画像生成を実現する新たなアプローチを提案し，既存手法の課題を克服する。
- EchoGenは，VARモデルに主導型生成能力を与える，パイオニア的なフレームワークである。
- 二重経路注入戦略により，対象物の高レベルな意味的アイデンティティと低レベルの詳細を分離し，制御性と忠実性を高めている。
- 定量的・定性的評価の結果，EchoGenは拡散モデルベースの手法と同等の性能を，より低いサンプリング遅延で実現している。
Link: https://arxiv.org/abs/2509.26127
TTT3R: テスト時学習による3次元再構成 [cs.CV]目的：3次元再構成における汎化性能の向上
- 3次元再構成はロボット工学や自動運転など，幅広い分野で重要な役割を担う技術である。
- 既存の再帰型ニューラルネットワークは，学習時のコンテキスト長を超える場合に性能が著しく低下する。
- 本研究では，テスト時学習の視点から再帰型ニューラルネットワークの性能を向上させることを目指す。
- 提案手法TTT3Rは，メモリ状態と入力観測の信頼度に基づいて学習率を決定し，過去情報の保持と新しい観測への適応を両立する。
- TTT3Rは，既存手法と比較してグローバル姿勢推定において2倍の性能向上を達成する。
- TTT3Rは，6GBのGPUメモリと20FPSの速度で数千枚の画像を処理可能である。
Link: https://arxiv.org/abs/2509.26645
BindWeave：クロスモーダル統合による主観一貫性のある動画生成 [cs.CV]目的：主観一貫性のある動画生成手法
- 動画生成技術は，エンターテイメントやコミュニケーションにおいて重要な役割を担う。
- 複雑な指示に対する理解が不十分で，複数主体の空間的・時間的関係性を正確に表現することが困難。
- 複雑なプロンプトの意味を具体的に視覚的対象に結びつけ，主観の一貫性を確保すること。
- BindWeaveは，単一主題から複雑な多主題シーンまで，幅広い主観-動画生成シナリオに対応する統一的なフレームワークである。
- MLLM-DiTフレームワークを導入し，事前学習済みのマルチモーダル大規模言語モデルを用いてエンティティのグラウンディングと役割の分離を行う。
- OpenS2Vベンチマークにおいて，既存のオープンソースおよび商用モデルと比較して，主観一貫性，自然さ，テキスト関連性において優れた性能を示した。
Link: https://arxiv.org/abs/2510.00438
任意の生成ビデオ補間 [cs.CV]目的：ビデオフレーム補間の柔軟性向上
- ビデオ生成技術は，映像編集やコンテンツ制作において不可欠な要素である。
- 既存のビデオ補間手法は，補間するフレーム数を固定しており，柔軟性に欠ける。
- 任意の時間間隔と長さを指定できるビデオ補間手法の開発を目指す。
- 提案手法ArbInterpは，任意の時間間隔と長さで効率的な補間を可能にする。
- タイムスタンプを考慮したRoPE(TaRoPE)により，生成フレームをターゲット時間に合わせて制御。
- 長シーケンス生成をセグメントごとに分解し，外観と動きの条件付けにより，シームレスな時空間遷移を実現。
Link: https://arxiv.org/abs/2510.00578
D2E：デスクトップデータを用いたビジョン-アクション事前学習の拡張と，それを具現化されたAIへの転移 [cs.CL, cs.AI, cs.CV, cs.RO]目的：デスクトップデータを利用したビジョン-アクション事前学習の拡張と，具現化されたAIへの転移
- 具現化されたAIは，現実世界とのインタラクションが不可欠であり，その学習には大量のデータが必要である。
- 物理的な軌跡データの収集はコストが高く，具現化されたAIの発展を妨げる要因となっている。
- デスクトップ環境からの学習によって，物理的な環境での学習コストを削減し，具現化されたAIの性能向上を目指す。
- 1300時間以上のデスクトップデータを用いて事前学習した10億パラメータのモデルが，LIBERO操作タスクで96.6％の成功率を達成した。
- 同じモデルはCANVASナビゲーションタスクでも83.3％の成功率を示し，より大規模なモデル（\pi_{0}やOpenVLA）と同等またはそれ以上の性能を発揮した。
- デジタルインタラクションから学習された感覚運動の基本原理が，現実世界の物理的なタスクに効果的に転移することが示された。
Link: https://arxiv.org/abs/2510.05684
Human3R：誰もが，どこでも，いつでも [cs.CV]目的：単眼ビデオからのオンライン4D人間・シーン再構成手法
- 人間と環境の理解は，ロボティクスや拡張現実など，様々な分野で重要である。
- 従来の再構成手法は，複雑なパイプラインや事前処理に依存し，効率が課題であった。
- 本研究は，依存関係を排除し，リアルタイムかつ高精度な再構成を実現することを目指す。
- Human3Rは，単一のフォワードパスで複数人物のSMPL-X，3Dシーン，カメラ軌跡を同時に再構成する。
- BEDLAMデータセットで1日のみ学習するだけで，既存手法と同等以上の性能と効率を達成した。
- グローバルな人体モーション推定，ローカルなメッシュ復元，ビデオ深度推定，カメラポーズ推定など，様々なタスクで高い性能を示す。
Link: https://arxiv.org/abs/2510.06219
MIRAGE：階層的分解によるマルチベクトル画像検索のランタイムスケジューリング [cs.CV, cs.DC, cs.IR]目的：マルチベクトル画像検索におけるランタイムスケジューリング手法
- 大規模言語モデルと画像検索の組み合わせが重要視され，その精度向上が求められている。
- 従来の画像検索手法では，検索精度が十分ではなく，計算コストが高いという課題がある。
- クエリと画像オブジェクトの整合性を高め，冗長な計算を削減することで，精度と効率を向上させる。
- MIRAGEは，複数の粒度を持つ階層構造を導入し，クエリと画像オブジェクト間の整合性を高めることに成功した。
- クロスコスヒエラルシーの類似性一貫性とヒエラルヒースパース性を活用し，不要なマッチング計算を削減した。
- 実験により，MIRAGEは既存のMVRシステムと比較して，大幅な精度向上と最大3.5倍の計算時間短縮を実現した。
Link: https://arxiv.org/abs/2510.08976