arXiv雑要約

画像・音声 - 2026/03/10 公開

MTVCraft: 4Dモーションのトークン化による任意のキャラクターアニメーション [cs.CV]目的：4Dモーションデータのトークン化を通じた，キャラクター画像アニメーションの実現
- デジタルヒューマン技術の発展に伴い，より自然で汎用的なキャラクターアニメーションが求められている。
- 既存手法は2Dポーズ画像に依存しており，汎化性能が限定され，4D情報を十分に活用できていない。
- 4Dモーションデータを直接モデリングすることで，より柔軟で自然なキャラクターアニメーションを実現すること。
- 提案手法MTVCraftは，4Dモーションをトークン化し，モーションアウェアなVideo DiTを用いて高精度なアニメーションを実現した。
- TikTokやFashionベンチマークにおいて，最先端の性能を達成し，汎化性能の高さを示した。
- 様々なキャラクターやオブジェクト，スタイル，シナリオに対応可能であり，pose-guided video generationの新たな方向性を示す。
Link: https://arxiv.org/abs/2505.10238
一人称視点動画からの熟練操作学習：EgoDex [cs.CV, cs.LG, cs.RO]目的：大規模な一人称視点動画を用いた熟練操作の学習
- ロボットの器用な操作は，家庭でのタスク自動化に不可欠であり，人間生活の質向上に貢献する。
- 熟練操作の学習には大量のデータが必要だが，既存のデータセットは手動アノテーションが不足している。
- 本研究は，高品質な手と指の3Dトラッキングデータを含む大規模な一人称視点動画データセットを提供し，学習の促進を目指す。
- EgoDexは，829時間の熟練操作動画と，それに対応する3D手と指のトラッキングデータを含む，現時点で最大規模かつ多様なデータセットである。
- データセットは，靴紐を結んだり洗濯物を畳んだりする194種類の日常的な操作を網羅し，多様な操作行動をカバーする。
- 本データセットを用いて，手動軌道予測に関するイミテーションラーニングポリシーを学習・評価し，ベンチマークを確立した。
Link: https://arxiv.org/abs/2505.11709
Vid2World：インタラクティブなワールドモデルへのビデオ拡散モデルの応用 [cs.CV, cs.LG]目的：ビデオ拡散モデルをインタラクティブなワールドモデルに転用する手法
- 複雑な環境下での意思決定において，データ効率の向上が重要視されている。
- 既存のワールドモデルは，ドメイン固有の学習が必要で，予測精度が低いという課題がある。
- 事前学習済みのビデオ拡散モデルを再利用し，高品質な予測を実現する。
- Vid2Worldは，ビデオ拡散モデルの因果化と訓練目的の再構築により，自己回帰的な生成を可能にした。
- 因果的な行動ガイダンスメカニズムを組み込むことで，インタラクティブなワールドモデルにおける行動制御性を向上させた。
- ロボット操作，3Dゲーム，オープンワールドナビゲーションなど，複数のドメインで有効性が示された。
Link: https://arxiv.org/abs/2505.14357
生成事前分布に基づくニューラルインターフェース再構成：3D電気インピーダンス断層撮影への応用 [math.NA, cs.CV, cs.NA]目的：3D電気インピーダンス断層撮影における複雑な3Dインターフェースの再構成
- 科学計算において，間接測定からの複雑な3D形状再構成は重要な課題である。
- 従来の形状最適化はトポロジー変化や正則化調整に課題があり，深層学習は物理的整合性やデータ量で制限される。
- 事前学習された生成モデルと厳密な境界積分方程式ソルバーを組み合わせ，物理制約を満たす効率的な再構成を目指す。
- 本研究では，物理法則を厳密な制約として課す「ソルバー・イン・ザ・ループ」フレームワークを提案した。
- 微分可能なニューラル形状表現により，データの少ない状況でも高い幾何学的精度とデータ効率を実現した。
- 実験結果から，本手法は従来の技術では困難な，物理制約に基づく幾何学的発見の新たなパラダイムを確立する。
Link: https://arxiv.org/abs/2505.16487
ViTaPEs：マルチモーダルTransformerにおけるクロスモーダルアラインメントのための視触覚位置エンコーディング [cs.CV, cs.LG, cs.RO]目的：タスクに依存しない視触覚表現の学習
- 視覚と触覚は互いに補完的な情報を提供し，ロボット工学等の分野で重要性が増している。
- 既存手法では，クロスモーダルな融合やタスク・環境への汎化が困難であり，事前学習済みモデルへの依存度が高い。
- 視触覚間の微細な相関を捉えるための空間推論を可能にする位置エンコーディングを導入し，汎化性能を向上させる。
- ViTaPEsは，様々な認識タスクにおいて，最先端のベースラインを上回る性能を示した。
- 未知の環境やドメインへのゼロショット汎化能力も実証された。
- ロボット把持タスクにおいて，把持成功の予測精度で既存手法を上回る転移学習能力を示した。
Link: https://arxiv.org/abs/2505.20032
大規模ビジョンシステムを保護するための柔軟なフレームワークElytra [cs.CV]目的：自動運転システムに対する敵対的攻撃の防御
- 自動運転技術の安全性確保は，社会実装において不可欠である。
- 敵対的攻撃は，微小な摂動でシステムを誤動作させる深刻な脅威である。
- 新たな脆弱性が発見された際にも，既存システムを動的に保護すること。
- 提案手法ELYTRAは，軽量なセキュリティパッチを学習することで，既存のビジョンシステムを保護する。
- ELYTRAは，敵対的攻撃下での分類精度を最大24.09%向上させる。
- 本フレームワークは，汎用性が高く，事前知識や計算コストを抑えた防御が可能である。
Link: https://arxiv.org/abs/2506.00661
BemaGANv2：GANベースのボコーダーにおける識別器の組み合わせ戦略 - 長期オーディオ生成に向けて [cs.SD, cs.AI, cs.LG, cs.LO, eess.AS]目的：GANベースのボコーダーにおける識別器の組み合わせ戦略の体系的な評価
- 長期間のオーディオ生成は，テキストから音楽や音声への変換において重要な技術である。
- 長期オーディオ生成において，時間的な一貫性，韻律の一貫性，および構造の維持が課題となっている。
- より高精度な長期オーディオ生成を可能にする識別器の組み合わせを探索する。
- BemaGANv2は，生成器にAnti-aliased Multi-Periodicity (AMP)モジュールを導入し，周期構造のモデリングを改善した。
- 識別器には，提案するMulti-Envelope Discriminator (MED)とMulti-Resolution Discriminator (MRD)を組み合わせ，長期依存性のモデリング精度を高めた。
- 様々な識別器の構成を評価した結果，MEDとMRDの組み合わせが客観評価・主観評価ともに良好な結果を示した。
Link: https://arxiv.org/abs/2506.09487
意味からインスタンスへ：半自己教師あり学習アプローチ [cs.CV, cs.AI, cs.LG]目的：インスタンスセグメンテーションモデルの開発
- 植物の健康，成長，収量の自動モニタリング等に不可欠な技術である。
- インスタンスセグメンテーションモデル開発には，ピクセルレベルの注釈付き大規模データセットが必須となる。
- 注釈コストを削減し，高精度なインスタンスセグメンテーションを実現すること。
- GLMaskという画像マスク表現を設計し，形状，テクスチャ，パターンに焦点を当てさせた。
- セマンティックセグメンテーションからインスタンスレベルセグメンテーションへの変換パイプラインを開発した。
- 小麦の穂のインスタンスセグメンテーションにおいて，最先端の性能（mAP@50で98.5%）を達成した。
- 汎用COCOデータセットでも12.6%以上のmAP@50の性能向上を示し，幅広い応用可能性を示唆した。
Link: https://arxiv.org/abs/2506.16563
カスケード型ビジョン言語モデルによるオープンボキャブラリ迷彩物体セグメンテーション [cs.CV]目的：オープンボキャブラリ迷彩物体セグメンテーションにおけるセグメンテーションと分類
- 迷彩物体は認識が難しく，軍事，セキュリティ，生物学などの分野で重要な課題となっている。
- 既存手法は，セグメンテーションモデルの汎用性と，VLMsの学習と推論のドメインギャップに課題がある。
- ビジョン言語モデルを活用し，セグメンテーションと分類の精度向上を目指す。
- 本研究では，Segment Anything Model (SAM)をビジョン言語モデルの誘導により活用し，迷彩領域への注意を効果的に向け，局所化精度を向上させた。
- セグメンテーション結果をソフトな空間的Priorとして利用することで，ドメインギャップを回避し，文脈を考慮した分類を実現した。
- 提案手法は，オープンボキャブラリおよび従来の迷彩物体セグメンテーションベンチマークにおいて，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2506.19300
HVACシステムの圧力センサーは人間の音声を捕捉できるか？ [cs.SD, cs.CR, eess.AS]目的：HVACシステムの圧力センサーからの音声再構成
- 現代社会において，HVACシステムは快適な環境維持に不可欠であり，そのセキュリティは重要である。
- HVACシステムの圧力センサーはプライバシー侵害の潜在的な脆弱性として認識されていなかった。
- 圧力センサーからの低解像度かつノイズを含むデータから，明瞭な音声を再構成することを目指す。
- 本研究では，0.5kHz程度の低いサンプリング周波数でも，圧力センサーデータから明瞭な音声を再構成できることを示した。
- WaLiは，複雑値コンフォーマーとComplex Global Attention Block (CGAB)を用いて，低解像度データ内の音素間の依存関係を捉える。
- 実環境における実験により，再構成された音声のLSDは1.24，NISQA-MOSは1.78という結果が得られ，プライバシーへの脅威が示唆された。
Link: https://arxiv.org/abs/2506.22311
SUBARU：ヒアラブルにおける低消費電力化への実践的アプローチ - サブニキストオーディオ解像度アップサンプリング [cs.SD, cs.AI, eess.AS]目的：ヒアラブルにおける電力消費削減手法
- ヒアラブルはウェアラブルコンピューティングの重要な形態であり，様々な用途で利用が拡大している。
- 既存研究では，ヒアラブルの低消費電力化と高音質化を両立するための検討が不足している。
- サブニキストサンプリングと低ビット解像度ADCを活用し，電力消費を抑えつつ，音声品質を維持することを目標とする。
- SUBARUは，ADCのサンプリング周波数とビット解像度を下げることで，3.31倍の電力消費削減を実現した。
- モバイルプラットフォームでのストリーミング処理と，騒音下での音声強調を実現し，推論時間は1.74ms，メモリフットプリントは13.77MB以下である。
Link: https://arxiv.org/abs/2506.22321
潜在拡散再帰的事後サンプリングによるゼロショット統一画像復元 [cs.CV, cs.AI]目的：統一画像復元手法
- 画像処理において，低レベルビジョンは重要な研究分野である。多様な画像劣化に対応する汎用的な復元手法が求められている。
- 既存手法は特定タスクに特化し汎化性能が低い，またはペアデータが必要で適用範囲が限られるといった課題がある。
- 事前学習済みの潜在拡散モデルを用いて，ペアデータ不要で汎用的な画像復元を実現することを目標とする。
- 本手法は，マルチモーダル理解モデルによりタスクに依存しない意味的先験情報を生成モデルに提供する。
- 軽量モジュールを用いて，劣化画像を拡散モデルの生成する好みに合わせ，再帰的な改良を行う。
- 実験結果から，提案手法が最先端手法を上回り，有効性と堅牢性が確認された。
Link: https://arxiv.org/abs/2507.00790
人間の視覚発達に基づく学習は，頑健な形状ベースのAI視覚をもたらす [cs.LG, cs.CV]目的：人間発達に基づく視覚的学習食 (DVD) を用いたAI視覚の学習方法
- AI技術の発展は目覚ましいが，人間の視覚との間に大きな乖離が存在する。
- 既存のAI視覚は，形状情報よりもテクスチャに依存し，歪みに弱く，攻撃を受けやすい。
- 人間の視覚発達の過程を模倣することで，より頑健で人間らしいAI視覚を実現する。
- 人間の視覚発達の段階に沿った学習を行うことで，AIは形状情報の利用を大幅に向上させた。
- 抽象的な形状の認識能力は，従来の方法を上回る水準に達し，背景の複雑さの影響を受けにくくなった。
- 画像破損や敵対的攻撃に対する耐性が向上し，AI視覚システムの安全性と信頼性が高まった。
Link: https://arxiv.org/abs/2507.03168
状態空間モデルを用いたスネークによる統一的な医用画像セグメンテーション [cs.CV, cs.AI]目的：統一的な医用画像セグメンテーションのための深層スネークフレームワーク
- 包括的な解剖学的評価には不可欠であり，病変検出や治療計画に貢献する。
- 多スケールな構造的異質性により，従来のピクセルベース手法は課題を抱えている。
- 複雑な形態や特徴の競合に対処し，医用画像セグメンテーションの精度向上を目指す。
- Mamba Snakeは，状態空間モデリングを強化した新しい深層スネークフレームワークである。
- 複数の輪郭進化を階層的な状態空間アトラスとして捉え，器官間の関係と輪郭の微調整をモデル化する。
- 臨床データセットにおける評価で，最先端手法と比較して平均3％のDice係数の改善が確認された。
Link: https://arxiv.org/abs/2507.12760
π³：置換不変な視覚幾何学習 [cs.CG, cs.CV]目的：視覚幾何再構成に関する研究
- 3次元構造の理解は，ロボット工学や拡張現実など幅広い応用分野で不可欠である。
- 従来の再構成手法は固定された参照視点に依存し，その視点が最適でない場合，不安定性や失敗が生じやすい。
- 参照フレームに依存しない，よりロバストで高精度な視覚幾何再構成手法を確立すること。
- 本研究で提案するπ³は，置換不変なアーキテクチャにより，アフィン不変なカメラ姿勢とスケール不変な局所点マップを予測する。
- 参照フレームを使用しない設計により，入力順序に対するロバスト性が向上し，高い精度と性能を実現した。
- カメラ姿勢推定，単眼/ビデオ深度推定，高密度点マップ再構成など，様々なタスクで最先端の性能を達成した。
Link: https://arxiv.org/abs/2507.13347
Vision Transformer (ViT) ベース EVAPモデルによる災害影響地域セグメンテーション：Sentinel-2とFormosat-5画像利用 [cs.CV, cs.AI]目的：災害影響地域セグメンテーションの精度向上
- 災害発生時，迅速な状況把握は被災地支援に不可欠である。
- 高精度な被災状況の把握には，正確なセグメンテーションが求められるが，十分な学習データが不足する課題がある。
- 限られたアノテーションデータで高精度なセグメンテーションを実現し，災害対応を支援することを目指す。
- 提案手法は，Sentinel-2とFormosat-5画像を用いて，Vision TransformerベースのEVAPモデルによるセグメンテーションを可能にする。
- PCAによる特徴空間解析と信頼度指標の構築により，弱教師あり学習を実現し，セグメンテーションの精度向上に貢献する。
- Poyang湖干ばつとRhodes山火事の事例研究により，提案手法がセグメンテーション結果の滑らかさと信頼性を高めることが示された。
Link: https://arxiv.org/abs/2507.16849
LIVE-GS：オンラインLiDAR-慣性Visual状態推定と3Dガウススプラッティングによるグローバル一貫性マッピング [cs.RO, cs.CV]目的：3DガウススプラッティングとLiDARベースのサーフェルを組み合わせた高精度な地図一貫性確保
- SLAM技術はロボットの自律移動や環境理解に不可欠であり，高精度かつ効率的なマッピングが求められている。
- 従来のカメラ中心型SLAMは計算負荷が高く，テクスチャの少ない環境や照明変化に弱いという課題があった。
- LiDARと3Dガウススプラッティングの統合における，データの疎性やグローバルな整合性維持の問題を解決する。
- 提案手法LIVE-GSは，LiDAR，慣性センサー，Visual情報を統合し，オンラインで高精度な状態推定とマッピングを実現した。
- 疎なLiDARデータに対して，深さ不変なガウス初期化戦略と有界シグモイド制約を用いることで，効率的な表現とガウスの異常な成長を防ぐ。
- 公開データセットおよび独自データセットでの実験により，レンダリング品質とマッピング効率で代表的な3DGS SLAMベースラインと同等以上の性能を示した。
Link: https://arxiv.org/abs/2507.23273
NS-Net: NULL空間を通してCLIPのセマンティック情報を分離し，汎化性能の高いAI生成画像検出を実現 [cs.CV]目的：AI生成画像の検出における汎化性能向上
- 生成モデルの進化により，現実と区別のつかない画像が生成可能になり，悪用への懸念が高まっている。
- 既存の検出器は既知の生成モデルに最適化されやすく，未知のモデルへの汎化性能が課題である。
- CLIPのセマンティック情報を分離することで，リアル画像と生成画像の識別をより効果的に行う。
- 提案手法NS-Netは，NULL空間投影によりCLIPの特徴からセマンティック情報を分離し，コントラスティブ学習で分布差を捉える。
- パッチ選択戦略により，グローバルな構造によるセマンティックバイアスを軽減し，微細なアーティファクトを保持する。
- 40種類の生成モデルによるベンチマークテストで，既存手法を7.4%上回り，高い汎化性能を示す。
Link: https://arxiv.org/abs/2508.01248
現実的な知覚を伴う顕微鏡的交通シミュレータの強化：代理センサモデルの活用 [cs.CV]目的：現実的な知覚を伴う顕微鏡的交通シミュレーションの実現
- 高度な自動運転技術の導入に伴い，交通システムの評価におけるシミュレーションの重要性が高まっている。
- 顕微鏡的交通シミュレータは大規模なシミュレーションに適するが，知覚モデルが欠如している点が課題である。
- MIDARは，高レベルな特徴のみを用いてLiDARの知覚を模倣し，シミュレーションの精度向上を目指す。
- MIDARは，CARLAおよびnuScenesデータセットを用いてLiDARの検出結果を高い精度で近似することに成功した。（AUC 0.94, 0.86）
- 協調型知覚に基づく信号制御や軌跡再構成などのITSアプリケーションにおいて，MIDARの現実性と必要性が検証された。
- MIDARは，簡略化された知覚モデルと比較して現実的な検出結果とアプリケーションレベルの性能向上を実現し，計算コストの増加は最小限に抑えられた。
Link: https://arxiv.org/abs/2508.02858
S$^2$Q-VDiT：顕著データとスパーストークン蒸留を用いた高精度量子化ビデオ拡散Transformer [cs.AR, cs.CV]目的：ビデオ拡散モデルの量子化に関する研究
- ビデオ生成モデルは急速に発展しており，その性能向上が求められている。
- パラメータ数が多く，計算コストが高い点が課題となっている。
- 量子化によるモデル圧縮と推論速度向上を目指す。
- S$^2$Q-VDiTは，W4A6量子化下で性能劣化なく，モデルを3.9倍圧縮し，推論速度を1.3倍向上させた。
- ヘッシャンを考慮した顕著データ選択により，高品質なキャリブレーションデータセットを構築した。
- アテンションをガイドとしたスパーストークン蒸留により，モデル出力に影響の大きいトークンを強調した。
Link: https://arxiv.org/abs/2508.04016
スペクトルリモートセンシング画像における土地被覆抽出のためのビジョン言語モデルSPEX [cs.CV]目的：スペクトルリモートセンシング画像における土地被覆抽出
- リモートセンシングは，地球観測において不可欠であり，環境モニタリングや資源管理に貢献する重要な技術である。
- 既存のビジョン言語モデルはスペクトル情報を十分に活用できておらず，特にマルチスペクトル画像において性能が低いという課題があった。
- スペクトル情報を活用することで，土地被覆抽出の精度向上と解釈可能性の向上を目指す。
- 提案手法SPEXは，スペクトル情報を考慮した新しいビジョン言語モデルであり，土地被覆抽出において既存手法を上回る性能を示す。
- SPEXは，スペクトル情報をテキスト属性としてエンコードしたデータセットSPIEを活用することで，高精度かつ柔軟なピクセルレベルの解釈を可能にする。
- SPEXは予測結果に対するテキストによる説明を生成できるため，解釈性とユーザビリティが向上する。
Link: https://arxiv.org/abs/2508.05202
魚眼レンズ画像を用いた3次元ガウススプラッティング：視野角分析と深度に基づく初期化 [cs.CL, cs.CV, cs.GR]目的：魚眼レンズ画像を用いた3次元ガウススプラッティング手法の評価と，広視野角再構成の実現可能性の検証
- 3次元再構成技術は，ロボティクス，AR/VRなど幅広い分野で必要とされている。
- 魚眼レンズによる広視野角画像は歪みが大きく，従来の3次元再構成が困難であった。
- 魚眼レンズ画像からの高精度な3次元再構成を可能にする初期化手法を確立すること。
- 視野角200度，160度，120度での再構成比較の結果，両手法は160度で最も良好な結果が得られた。
- 広視野角(200度)における歪みが性能低下の要因となることが示された。
- UniK3Dを用いた深度に基づく初期化が，SfM初期化の代替として有効であり，SfMと同等またはそれ以上の精度を達成した。
Link: https://arxiv.org/abs/2508.06968
医療画像セグメンテーションのための統一的かつ意味的に根拠のあるドメイン適応 [cs.NI, cs.CV]目的：医療画像セグメンテーションにおけるドメイン適応の統一的フレームワーク
- 医療画像解析は診断や治療計画において不可欠であり，汎用性の高いモデルが求められる。
- 異なるデータセット間でのドメインギャップがセグメンテーション精度を低下させる課題がある。
- 解剖学的知識を明示的に活用し，ドメインや設定に依存しない適応能力を実現する。
- 提案手法は，ソースアクセス可能およびソースフリーの両設定で最先端の結果を達成した。
- ソースフリー設定の性能がソースアクセス可能設定にほぼ匹敵する一貫性が見られた。
- 解剖学的知識に基づいた，解釈可能で統一的なドメイン適応の基盤を提供する。
Link: https://arxiv.org/abs/2508.08660
VLMベースの視覚的接地における入力認識バックドア攻撃IAG [cs.CV, cs.CL, cs.CR]目的：VLMベースの視覚的接地システムに対するバックドア攻撃手法の開発
- 視覚と言語を組み合わせたモデルは，画像内の物体を特定するタスクにおいて急速に進歩している。
- これらのモデルの安全性は十分に調査されておらず，悪意のある攻撃に対する脆弱性が懸念される。
- 入力に応じて動的にトリガーを生成し，特定の物体への攻撃を可能にする手法を開発すること。
- IAGは，複数のVLMとベンチマークにおいて，既存の手法と比較して高い攻撃成功率(ASR)を達成した。
- 通常の画像に対する性能を損なうことなく，攻撃のステルス性とロバスト性を確保している。
- 異なるデータセットやモデルへの転移性も確認され，VLMのセキュリティリスクが浮き彫りになった。
Link: https://arxiv.org/abs/2508.09456
ビデオEM：長編動画理解のためのイベント中心エピソード記憶 [cs.CV, cs.AI, cs.MM]目的：長編動画の理解におけるエピソード記憶の構築と洗練
- 動画理解はAI研究の重要な分野であり，様々な応用が期待される。
- 既存の動画LLMは，コンテキストウィンドウの制限から長編動画への応用が困難である。
- 動画EMは，イベント中心のアプローチにより，長編動画の効率的な理解を目指す。
- 本研究では，既存のツールを活用し，クエリ関連の瞬間をイベントとしてグループ化・セグメント化するフレームワークVideo-EMを提案する。
- Video-EMは，時間的な整合性を考慮し，冗長性を抑制することで，簡潔かつ信頼性の高いイベントタイムラインを構築する。
- このイベントタイムラインは，追加の訓練やアーキテクチャ変更なしに，既存の動画LLMで直接利用可能である。
Link: https://arxiv.org/abs/2508.09486
UniUGG：幾何学的・意味的エンコーディングによる統一的な3D理解と生成 [cs.CV]目的：3Dモダリティの統一的な理解と生成フレームワーク
- 近年の画像理解・生成技術の進展は目覚ましいが，3Dタスクの統合は未だ課題である。
- 既存手法では，3D表現の質の向上と空間的な理解・生成能力の両立が困難である。
- 参照画像と任意の見込み図からの3Dシーン生成と空間的なVQAタスクへの対応を目指す。
- UniUGGは，大規模言語モデルを用いてテキストと3D表現を理解し，潜在拡散モデルを用いた空間デコーダーにより高品質な3D表現を生成する。
- 幾何学的・意味的学習戦略により，入力のセマンティックと幾何学的情報を同時に捉え，空間理解と生成能力を向上させる。
- 実験結果は，UniUGGがビジュアル表現，空間理解，3D生成において優れた性能を示すことを示している。
Link: https://arxiv.org/abs/2508.11952
PhysGM：前方への4D合成のための大規模物理ガウスモデル [cs.CV]目的：単一画像からの3Dガウス表現と物理的特性の同時予測
- 物理ベースの3Dモーション合成は，現実的な動きを生成する上で重要である。
- 既存手法は，時間のかかるシーンごとの最適化や不安定な最適化に依存している。
- PhysGMは，物理情報を考慮した高品質な4Dシミュレーションを高速に実現する。
- PhysGMは，単一画像から1分以内に高品質な4Dシミュレーションを生成できる。
- 従来の最適化手法と比較して，大幅な速度向上を達成し，現実的なレンダリングを実現する。
- 物理特性のアノテーション付き3DアセットのデータセットPhysAssetsを新たに提案した。
Link: https://arxiv.org/abs/2508.13911
ECHO：可変長信号に対する周波数認識階層エンコーディング [cs.SD, cs.AI, cs.LG, eess.AS]目的：可変長信号の汎用的な機械信号モデリング
- 音響，振動，産業センサーデータなど，多様な信号処理の基盤技術として重要である。
- 異なるサンプリングレートに対応した汎用的な信号モデリングが困難であった。
- 任意のサンプリング設定でスペクトル情報を捉え，可変長信号に対応するモデルを開発する。
- 提案手法ECHOは，機械信号異常検知および故障分類において最先端の性能を達成した。
- 周波数位置埋め込みとバンド分割アーキテクチャにより，スペクトル局所化を実現している。
- パディングやクロッピングなしで可変長入力に対応し，効率的な埋め込みを生成する。
Link: https://arxiv.org/abs/2508.14689
階層的 Temporal Pruning を用いた効率的な拡散ベース3D人体姿勢推定 [cs.CV]目的：拡散ベース3D人体姿勢推定の効率化
- 3D人体姿勢推定は，人間とコンピュータ間の自然な対話やモーション解析に不可欠な技術である。
- 拡散モデルは高精度だが，反復処理と多仮説性により計算コストが非常に高いという課題がある。
- 本研究は，冗長な姿勢情報を効率的に削減し，計算コストを削減することを目的とする。
- 提案手法であるHTPは，フレームおよび意味レベルで冗長な姿勢トークンを動的に削減する。
- HTPにより，Human3.6MとMPI-INF-3DHPにおける学習MACsが38.5%，推論MACsが56.8%削減された。
- また，推論速度は平均81.1%向上し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2508.21363
PointSlice：点群からの3D物体検出のためのスライスベース表現 [cs.CV]目的：点群からの3D物体検出における精度と効率のバランスの向上
- 自動運転技術の発展において，周囲環境の正確な3D認識が不可欠である。
- 既存手法では，精度と推論速度のトレードオフが課題となっている。
- 点群をスライスすることで，パラメータ数を削減し，高速かつ高精度な物体検出を実現する。
- PointSliceは，点群を水平方向にスライスし，2Dデータスライスとして処理することで，従来のvoxelベース手法と比較して1.13倍の高速化とパラメータ数の0.79倍減を実現した。
- Waymo Open Datasetにおいて，わずかな精度低下（1.2 mAPH）を伴いながら，SAFDNetよりも高速かつ軽量である。
- nuScenesおよびArgoverse 2データセットにおいても，最先端の性能を達成している。
Link: https://arxiv.org/abs/2509.01487
MRI画像セグメンテーションのためのミックスモード連合学習 [cs.CV]目的：MRI画像セグメンテーションにおけるミックスモード連合学習の新しいパラダイム
- MRI画像セグメンテーションは，脳腫瘍などの多くの疾患の診断と治療において不可欠である。
- 既存手法は中央集権的であり，分散型ミックスモード医療シナリオには適用できない。
- クライアント間のモダリティおよびデータヘテロジェネティティに対処する連合学習フレームワークを開発する。
- 本研究では，モダリティデカップリングとモダリティ記憶メカニズムを持つMDM-MixMFLフレームワークを提案する。
- このフレームワークは，モダリティ特化型と共有情報の分離，およびそれに応じたエンコーダの更新を行う。
- これにより，分散クライアントからの異種データとモダリティの安定した適応的な集約が可能となる。
Link: https://arxiv.org/abs/2509.02541
交通MLLM：好奇心に基づく正則化を用いた交通シナリオ事例ベース推論のための教師あり学習 [cs.CV]目的：交通シナリオにおける事例ベース推論のための，好奇心によって正則化された教師あり学習手法
- 安全で堅牢な自動運転には，過去の経験の活用が不可欠であり，事例ベース推論はその自然な枠組みを提供する。
- 従来の事例ベース推論は，不確実性下での知識の抽象化と適応に苦戦しており，汎化性能が課題となっている。
- 分布シフトやロングテールシナリオ下でのロバスト性を向上させるため，事例空間の学習と構造化を目指す。
- Traffic-MLLMは，明示的な事例検索を行わず，学習中に直接汎化可能な事例空間を学習する新しい枠組みを提案する。
- 多様な交通動画と大規模な静的視覚的質疑応答データを統合することで，構造化された事例表現の学習を促進する。
- 好奇心駆動型リファインメントメカニズムにより，事例間の構造的な規則性を学習し，SUTD-TrafficQAやDriveQAで高い精度を達成した。
Link: https://arxiv.org/abs/2509.11165
SAGA：効率的で表現力豊かな線形注意のための選択的適応ゲーティング [cs.RO, cs.RO, cs.CV]目的：効率的かつ表現力豊かな線形注意メカニズムの実現
- Transformerは画像処理で広く利用されているが，計算コストが大きい
- 線形注意は計算量を削減するが，特徴量の冗長性や方向性の喪失が課題
- 入力に応じて情報を選択的に集約することで，線形注意の性能向上を目指す
- SAGAは，入力適応型学習ゲートを導入し，KV特徴マップへの情報集約を調整することで，意味的多様性を向上させた。
- 提案手法は，PVT-Tと比較して，スループットを1.76倍，GPUメモリ使用量を2.69倍削減することに成功した。
- ImageNetデータセットにおいて，top-1精度を最大4.4％向上させ，計算効率とモデル効果の両方を実証した。
Link: https://arxiv.org/abs/2509.12817
累積コンセンサススコア：モデル非依存な展開時オブジェクト検出器の評価 [cs.CV]目的：展開時のオブジェクト検出器の継続的評価と比較
- 実世界の応用において，オブジェクト検出の性能評価は不可欠である。
- 展開後の評価には正解データが不足し，客観的な性能把握が困難である。
- 正解データなしで信頼性の高い評価指標を確立し，性能監視を可能とする。
- 累積コンセンサススコア（CCS）は，データ拡張による予測の一貫性を評価することで，ラベルフリーな性能指標を提供する。
- Open ImagesやKITTI等の実験で，F1スコアや検出品質指標と90%以上の相関が確認された。
- CCSはモデルに依存せず，様々なオブジェクト検出器に適用可能であり，問題のあるケースを特定するのに役立つ。
Link: https://arxiv.org/abs/2509.12871
MetricNet：生成ナビゲーションポリシーにおける距離スケールの復元 [cs.RO, cs.RO, cs.CV]目的：生成ナビゲーションポリシーにおける距離スケールの復元
- ロボットナビゲーションは，自動運転やサービスロボットなど，様々な分野で重要な技術である。
- 従来のナビゲーション手法では，経路の距離情報が抽象化され，正確な距離把握が困難であった。
- 本研究は，ナビゲーションポリシーが出力する経路に距離スケールを導入し，安全かつ効率的なナビゲーションを実現する。
- MetricNetは，ウェイポイント間の距離を予測することで，ナビゲーションポリシーの出力を距離情報に基づいて調整する。
- シミュレーション実験の結果，MetricNetを活用することで，ナビゲーションおよび探索性能が大幅に向上することが示された。
- 実環境実験においても，MetricNetの有効性が確認された。MetricNavは，障害物を回避しつつ目標地点へ向かうナビゲーションを可能にする。
Link: https://arxiv.org/abs/2509.13965
MCGS-SLAM：ガウススプラッティングを用いたマルチカメラSLAMフレームワーク [cs.RO, cs.RO, cs.CV]目的：高精度マッピングのためのマルチカメラSLAMフレームワーク
- ロボティクスや自動運転において，環境を正確に理解する能力は不可欠である。
- 従来のSLAMは，単眼カメラではロバスト性や幾何学的カバレッジに課題があった。
- マルチカメラSLAMにより，単眼カメラの弱点を克服し，高精度なマッピングを実現する。
- MCGS-SLAMは，複数のRGBカメラからの入力を統合し，高精度なガウスマップを生成する。
- マルチカメラバンドル調整（MCBA）により，姿勢と深度を同時に最適化し，正確な軌跡とフォトリアリスティックな再構成を可能にする。
- マルチカメラ入力の広い視野角により，単眼カメラでは捉えきれない側面領域の再構成が可能となり，安全な自律動作に貢献する。
Link: https://arxiv.org/abs/2509.14191
M4Diffuser：操作可能性を考慮した多視点拡散ポリシーによるロバストなモバイルマニピュレーション [cs.RO, cs.AI, cs.CV]目的：モバイルマニピュレーションのための多視点拡散ポリシーと，操作可能性を考慮した新しいQPコントローラーの統合
- モバイルマニピュレーションは，現実世界での作業自動化に不可欠であり，多様なタスクへの応用が期待されている。
- 単一視点からのアプローチでは，視野の制限から複雑な環境への適応が難しく，汎化性能が低いという課題があった。
- この研究は，多視点情報と操作可能性の考慮により，よりロバストで効率的なモバイルマニピュレーションを実現することを目標とする。
- M4Diffuserは，シミュレーションおよび実環境において，既存手法と比較して7〜56％高い成功率を達成した。
- 衝突は3〜31％削減され，全体的なロバスト性と効率性が向上した。
- 本研究は，未視点タスクへの高い汎化性能を示し，非構造化環境での信頼性の高いモバイルマニピュレーションへの道を開く。
Link: https://arxiv.org/abs/2509.14980
MICA：マルチエージェント産業協調支援システム [cs.AI, cs.CV, cs.LG]目的：産業環境における協調作業の支援
- 製造業の効率化には，柔軟かつ信頼性の高い支援システムの導入が不可欠である。
- 既存システムは，計算資源や通信環境の制約，そしてプライバシー保護の課題を抱えている。
- 限られた環境下でも，高精度かつ安全な協調作業支援を実現すること。
- MICAは，役割分担された複数の言語エージェントと安全チェック機能を備え，リアルタイムで指示や情報を提供する。
- 適応的ステップ融合（ASF）により，専門知識と音声フィードバックを動的に組み合わせ，タスク理解の精度を高めている。
- 新たなマルチエージェント協調ベンチマークを確立し，実験結果から，MICAがタスク成功率，信頼性，応答性を向上させることが示された。
Link: https://arxiv.org/abs/2509.15237
LibriTTS-VI：効率的な声の印象制御のための公開コーパスと新規手法 [cs.RO, cs.SD, eess.AS]目的：声の印象制御に関する研究
- テキスト読み上げ技術において，声の印象を細かく制御する需要が高まっている。
- 公開された声の印象制御のためのデータセットが少なく，制御精度が低いという課題がある。
- 声の印象制御における参照音声による偏りを軽減し，より正確な制御を実現すること。
- 新たに公開データセットLibriTTS-VIを構築し，声の印象制御における新たな手法を提案した。
- 提案手法により，客観評価，主観評価ともに声の印象制御の精度が向上した。
- プロンプトベースのTTSと比較して，数値的な制御の正確性と声の印象とテキストの意味の分離を実現した。
Link: https://arxiv.org/abs/2509.15626
文脈の不整合下における大規模ビジョン言語モデルの物体認識のベンチマーク [cs.CV, cs.LG]目的：大規模ビジョン言語モデルにおける文脈の不整合下での物体認識の課題
- 近年のビジョン言語モデルの発展は目覚ましいが，異常な状況下での性能向上が課題である。
- 典型的なシーン外で物体が認識されない，あるいは存在しない物体が幻覚される問題がある。
- 文脈の不整合が不確実性の主要な原因であり，その解決を目指す。
- 大規模ビジョン言語モデルは，文脈の不整合下で物体認識の性能が著しく低下することが示された。
- 文脈の不整合を考慮した学習データORIC-BenchおよびORIC-styleデータセットを構築し公開した。
- Qwen3-VL-8B-InstructをORICサンプルでファインチューニングすることで，性能が向上することが確認された。
Link: https://arxiv.org/abs/2509.15695
イベントベースの高速フーリエ変換領域クロス相関による視覚的なティーチングと繰り返し [cs.RO, cs.CV]目的：視覚的なティーチングと繰り返し(VT&R)ナビゲーションの実現
- ロボットの自律移動において，過去の経路を再現する技術は重要である。
- 従来のカメラベースのVT&Rシステムでは，処理速度が課題となっていた。
- イベントカメラを用いた高速なVT&Rシステムの構築を目指す。
- イベントカメラとフーリエ変換領域クロス相関を用いることで，処理遅延を大幅に削減した。
- 3000メートル以上の屋内および屋外の経路において，自律ナビゲーションに成功した。
- クロス・トラック・エラー(XTE)を15cm以下に抑え，実用的なVT&Rナビゲーションの可能性を示した。
Link: https://arxiv.org/abs/2509.17287
最新のビデオLLMは聞く必要があるのか？ベンチマーク監査とスケーラブルな解決策 [cs.CV, cs.MM, cs.SD]目的：ビデオ理解における音声の役割評価
- ビデオ理解は，AI技術の発展において重要な課題であり，様々な応用が期待されている。
- 既存のビデオ理解ベンチマークは，視覚情報に偏っており，音声情報の重要性を十分に評価していない。
- 音声情報を活用することで，ビデオ理解の精度を向上させ，より高度なAIシステムの開発に貢献する。
- 既存の10のビデオベンチマークを調査した結果，視覚情報のみで約77%のAVQA問題が解決可能であることが判明した。
- 音声エンコーダをLLaVA-OneVisionに統合し，5つの圧縮アーキテクチャを比較した結果，音声は音声理解やクロスモーダルグラウンディングを必要とするタスクにおいて明確な改善をもたらした。
- この研究は，現在のベンチマークが示すよりも，ビデオ理解において音声エンコーダがより大きな役割を果たすことを示唆している。
Link: https://arxiv.org/abs/2509.17901
単一画像からのモーション生成のための陰関数面モデルの効率的な構築 [cs.RO, cs.AI, cs.CV]目的：単一画像からの陰関数距離表現の構築
- ロボティクスにおいて，障害物回避や経路計画に陰関数表現が広く利用されている。
- 従来の陰関数面再構成手法は，多視点画像や長時間の学習を必要とする。
- 単一画像から高精度な陰関数面を迅速に構築することを目指す。
- 提案手法FINSは，軽量なマルチ解像度ハッシュグリッドエンコーダと軽量なジオメトリ・カラーヘッドを統合することで，高速な学習を実現した。
- 事前学習済みの基盤モデルを活用し，単一のRGB画像から幾何構造を推定することで，高精度なニューラルサーフェスを構築した。
- 表面再構成とSDFフィールド推定において，最先端手法と比較して，収束速度と精度で優れた性能を示した。
Link: https://arxiv.org/abs/2509.20681
量子化された視覚幾何学的基礎トランスフォーマー [cs.RO, cs.CV]目的：大規模トランスフォーマーに基づく視覚幾何学的基礎トランスフォーマー(VGGT)の量子化手法
- 3次元再構成技術は，ロボティクスや拡張現実など，多様な応用分野において不可欠である。
- VGGTは計算コストが高く，実用的な環境での展開が困難であるという課題を抱えている。
- 本研究は，VGGTの量子化による効率化を図り，リソース制約のある環境での利用を可能にすることを目的とする。
- 提案手法QuantVGGTは，既存の汎用量子化手法を大幅に上回る性能を様々なベンチマークで実現した。
- 4ビット量子化されたQuantVGGTは，メモリ使用量を3.7倍削減し，リアルハードウェアでの推論速度を2.5倍向上させた。
- 量子化後も，フル精度モデルと比較して98％以上の再構成精度を維持し，実用性が高いことを示した。
Link: https://arxiv.org/abs/2509.21302
モーションを考慮したTransformerによるマルチオブジェクトトラッキング [cs.RO, cs.CV]目的：マルチオブジェクトトラッキングの精度向上
- 映像内の複数物体追跡は，監視や自動運転などに応用が期待され，重要な研究分野である。
- 複雑な動きや密集したシーンでは，追跡が困難であり，追跡精度向上が課題となっている。
- 物体動きの予測を通して追跡クエリを事前に更新し，追跡精度の向上を目指す。
- 提案手法MATRは，既存手法MOTRと比較して，DanceTrackにおいてHOTAを9ポイント以上向上させた。
- 追加データを活用することで，DanceTrackにおいてHOTAの最先端スコアである71.3を達成した。
- SportsMOTとBDD100kにおいても，最先端の結果を達成しており，モーションの明示的なモデリングが有効であることを示した。
Link: https://arxiv.org/abs/2509.21715
GS-2M：材質を考慮したガウススプラッティングによる高精度メッシュ再構成 [cs.CV]目的：高精度メッシュ再構成
- 多様な視点からの画像から3次元モデルを生成する技術は，現実世界のデジタル化に不可欠である。
- 従来の技術では，高反射面を正確に再構成することが困難であり，外部モデルに依存する必要があった。
- レンダリング品質と法線に関する属性を同時に最適化することで，反射面を含む再構成精度向上を目指す。
- 提案手法GS-2Mは，ガウススプラッティングに基づき，材質を考慮した最適化フレームワークを採用する。
- 複雑なニューラルコンポーネントを排除し，マルチビューの測光変化に基づく新規な粗度監視戦略を導入する。
- 最先端手法と同等の再構成結果が得られ，特に反射面において高い精度を達成した。
Link: https://arxiv.org/abs/2509.22276
言語モデルによる戦略的説得に向けて [cs.AI, cs.CY, cs.GT]目的：言語モデルの戦略的説得能力の評価・訓練
- 社会における意思決定において，説得は重要な役割を担っている。
- 言語モデルの説得能力評価は困難であり，客観的な指標が不足している。
- 言語モデルが理論に基づいた戦略的説得を行えるか検証する。
- 最先端の言語モデルは高い説得効果を示し，理論的な特徴と合致した戦略を用いることが示された。
- 強化学習を用いることで，小規模な言語モデルでも説得効果を大幅に向上させることができた。
- ベイズ説得理論に基づいた評価環境が，言語モデルの戦略的説得能力研究に有効であることが示唆された。
Link: https://arxiv.org/abs/2509.22989
効率的なドメイン適応型マルチタスク高密度予測：Vision Foundation Modelsを活用して [cs.CV]目的：マルチタスク高密度予測におけるドメインシフト問題の解決
- ロボティクス応用に不可欠な技術であり，環境認識の精度向上に貢献する。
- 新しい環境への展開時に，ドメインシフトにより性能が低下する課題がある。
- Vision Foundation Modelsを用いた自己教師あり学習で，効率的なドメイン適応を実現する。
- FAMDAは，Vision Foundation Modelsを教師とした自己教師あり学習フレームワークである。
- 合成データから実データへのUDAベンチマークで，最先端の性能を達成した。
- 軽量なモデルは，Foundation Modelsより10倍以上小さく，リソース制約のあるロボティクスに適している。
Link: https://arxiv.org/abs/2509.23626
QuantSparse：モデル量子化と注意機構のスパース化によるビデオ拡散Transformerの包括的な圧縮 [cs.CV]目的：ビデオ拡散Transformerの効率的な圧縮手法
- ビデオ生成における拡散Transformerの重要性が増しているが，計算・メモリコストが課題である。
- 量子化やスパース化といった圧縮手法は個別に試みられているが，過度な圧縮で性能が低下する。
- 量子化とスパース化を組み合わせることで効率化を図りつつ，性能劣化を抑制することを目的とする。
- 提案手法QuantSparseは，HunyuanVideo-13Bにおいて，既存のQ-VDiTと比較して大幅に高いPSNR（20.88 vs 16.85）を達成した。
- QuantSparseは，ストレージを3.68倍，推論速度を1.88倍削減することに成功した。
- Multi-Scale Salient Attention DistillationとSecond-Order Sparse Attention Reparameterizationが，性能向上に貢献している。
Link: https://arxiv.org/abs/2509.23681
修正フローによる統一的なマルチモーダルインタラクティブ＆リアクティブ3Dモーション生成 [cs.CV]目的：多様なモダリティに基づいた2人分の文脈を考慮したリアルなモーション生成
- VR/ARやロボットなど，現実世界の応用には，協調的な対人行動を生成するモデルが不可欠である。
- 多様な入力条件に対応し，インタラクティブ性とリアクティブ性を両立するモーション生成は困難である。
- テキスト，音楽など多様なモダリティを統合し，高品質で同期性の高い2人分のモーション生成を目指す。
- DualFlowは，テキスト，音楽，過去のモーションなどの多様な入力に基づいて3Dモーションを生成する統合フレームワークである。
- 修正フローを用いることで，推論時間を短縮し，拡散モデルで一般的なエラー蓄積を軽減している。
- Retrieval-Augmented Generationモジュールにより，音楽とテキストの情報を活用してモーションの精度と同期性を向上させている。
Link: https://arxiv.org/abs/2509.24099