arXiv雑要約
画像・音声 - 2025/12/16 公開
StegaVAR:隠蔽分析によるプライバシー保護ビデオ行動認識 [cs.CV]目的:ビデオ行動認識におけるプライバシー保護手法
- ビデオ行動認識は急速に進歩しているが,プライバシー漏洩は重大な懸念事項である。
- 既存のプライバシー保護手法は匿名化に依存し,視覚的な歪みや時空間情報の損失を引き起こす。
- 隠蔽分析を通じてビデオ情報を埋め込み,プライバシーを保護しつつ高精度な行動認識を実現する。
- StegaVARは,秘密のビデオを通常ビデオに埋め込み,隠蔽ドメインで直接行動認識を行う新しいフレームワークである。
- STePとCroDAという手法により,隠蔽ドメインでの分析を促進し,カバービデオの干渉を抑制する。
- 広く使用されているデータセットで,優れた行動認識性能とプライバシー保護性能を達成した。
自動ワイヤハーネス色配列検出器 [cs.CV, eess.IV]目的:ワイヤハーネス色配列の自動検出
- 現代のEMS産業において,ワイヤハーネス検査は品質確保に不可欠である。
- 手作業による検査は,人的ミスが発生しやすく,効率が悪いという課題がある。
- 本研究は,検査の自動化による効率化と精度向上を目指す。
- 開発した半自動マシンビジョンシステムは,ワイヤの位置,コネクタの極性,色配列を正確に検証できる。
- 実環境での運用において,100%の検出精度を達成し,検査時間を44%削減した。
- ユーザー管理,照明調整,データ保存などの機能により,信頼性と効率性の高い検査を実現した。
高解像度画像生成とマルチモーダルデータ解釈のための視覚拡張大規模言語モデル [cs.CV]目的:高解像度画像生成とマルチモーダルデータ解釈のための新たなフレームワーク
- 画像認識や自然言語処理の融合は,AIの応用範囲を広げ,より高度な情報処理を可能とするため重要である。
- 既存手法では,高解像度画像の生成や多様なデータ様式の統合において,計算コストや品質が課題となっていた。
- 本研究は,視覚情報を活用した大規模言語モデルの性能向上を図り,高品質な画像生成とデータ解釈を実現することを目指す。
- 提案手法は,ノイズとデータを線形に結ぶ修正フローメカニズムにより,効率的かつ高品質な画像生成を可能にした。
- 双方向トークン化戦略を用いることで,テキスト,画像,動画といった多様なモダリティの情報をシームレスに統合した。
- ベンチマークデータセットでの評価により,画像解像度が25%向上し,計算コストが20%削減されることが示された。
ビジョン言語モデルを用いたコンテンツを考慮した広告バナーレイアウト生成:二段階Chain-of-Thoughtアプローチ [cs.CV, cs.AI]目的:画像ベースの広告レイアウト生成
- 広告は重要なマーケティング手段であり,効果的なレイアウトが広告効果を左右する。
- 従来の広告レイアウト手法は,画像内の注目領域の検出に依存し,詳細な構成や意味内容を考慮しにくい。
- 背景画像のコンテンツを理解し,テキストやロゴの配置に反映することで,高品質な広告レイアウトを生成すること。
- 提案手法では,ビジョン言語モデルを用いて画像内のオブジェクトや空間関係を分析し,配置計画をテキスト形式で生成する。
- 生成された配置計画は,最終的なレイアウトをHTMLコードとしてレンダリングする。
- 実験結果から,背景画像のコンテンツを考慮することで,より高品質な広告レイアウトが生成されることが示された。
幾何構造を意識したシーン一貫性のある画像生成 [cs.CV]目的:幾何構造を意識したシーン一貫性のある画像生成
- 画像生成技術は,現実世界の視覚情報を再現し,多様な応用分野に貢献しうる重要な技術である。
- 既存手法では,シーンの再現性とテキスト指示への対応とのバランスが課題となっていた。
- シーンの構造を維持しつつ,テキストによる指示に正確に従った画像生成を目指す。
- 提案手法は,シーンの構造をより忠実に再現しつつ,テキスト指示にも適切に対応できることを示した。
- 幾何学的な情報を活用した学習パイプラインと損失関数が,その性能向上に貢献している。
- 自動評価指標と人間による評価の両方において,最先端手法よりも優れた結果が得られた。
キャッシュを最大限活用:極限スリム化キャッシュによる拡散モデルの高速化 [cs.CV]目的:拡散モデルの計算効率向上
- 拡散モデルは高品質な画像を生成するが,計算コストが高いという課題がある。
- 既存のキャッシュ手法では,速度向上と品質維持のトレードオフが存在する。
- 時間ステップ,構造,空間の冗長性を活用し,このトレードオフを克服することを目指す。
- 提案手法X-Slimは,速度と品質の両面で優れた性能を発揮し,FLUX.1-devおよびHunyuanVideoにおいて最大4.97倍,3.52倍の高速化を実現した。
- DiT-XL/2においては,3.13倍の高速化と,従来の技術と比較してFIDが2.42改善された。
- X-Slimは,キャッシュを積極的に活用し,その後に軽量な更新を行うことで,エラーの蓄積を抑制している。
パッチ単位の検索:インスタンスレベルマッチングのための実用的な手法集 [cs.CV, cs.IR]目的:インスタンスレベル画像検索の性能向上
- 画像検索は,大量の画像データから目的の画像を効率的に見つけ出す上で不可欠である。
- 既存手法では,サイズや位置,外観の変化に対応した高精度なインスタンスレベルマッチングが困難である。
- パッチ単位での比較により,ロバストで解釈可能な画像検索システムの構築を目指す。
- 提案手法Patchifyは,ファインチューニングなしで高い性能,拡張性,解釈性を提供する。
- LocScoreという新たな評価指標を導入し,検索結果の空間的な正確性を定量的に評価する。
- 複数のベンチマークでPatchifyが既存手法を上回り,大規模検索における効率性も実証した。
D3D-VLP:具現化された3Dビジョン・言語・計画モデルによるグラウンディングとナビゲーション [cs.CV, cs.RO]目的:3Dビジョン,言語,計画を統合したモデルの開発
- ロボットの自律的な行動において,環境理解と指示解釈が不可欠である。
- 従来のモデルは解釈性の欠如や,構成要素間の連携不足といった課題を抱えていた。
- 3D環境における推論,グラウンディング,ナビゲーションを統合的に解決することを目指す。
- 提案手法D3D-VLPは,動的な3D CoTを通じて,計画,グラウンディング,ナビゲーション,質疑応答を統合する。
- 大量のハイブリッドデータを用いたSLFS戦略により,各CoTコンポーネントが相互に強化し,暗黙的に監督し合う。
- 複数のベンチマークにおいて最先端の結果を達成し,実世界でのモバイルマニピュレーション実験でも有効性が確認された。
心内での推論:潜在空間における動的マルチモーダル相互織り込み [cs.CV, cs.CL]目的:マルチモーダル大規模言語モデルにおける潜在的な思考トークンの洗練と動的視覚的特徴の注入
- マルチモーダル理解と推論は,多様なデータ形式を扱う上で重要であり,AIの応用範囲を広げる。
- 既存手法は段階的な推論に依存し,推論と知覚の相互作用が不安定で,計算コストが高いという課題がある。
- 人間の認知プロセスに着想を得て,推論と知覚の動的相互織り込みにより,効率的かつ高精度な推論を目指す。
- 提案手法DMLRは,7つのマルチモーダル推論ベンチマークにおいて,推論性能と知覚性能を大幅に向上させる。
- DMLRは,潜在的な思考トークンを洗練し,関連性の高い視覚的特徴を動的に注入することで,効率的な推論を実現する。
- 推論効率を維持しつつ,様々なモデルアーキテクチャで高い性能を示す。
DiG:マルチモーダル大規模言語モデルにおける詳細な知覚能力向上のための差分接地 [cs.RO, cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおける詳細な視覚知覚と精密な空間推論能力の向上
- 近年のマルチモーダル大規模言語モデルの発展は目覚ましいが,視覚と言語の高度な理解が求められている。
- 既存モデルは,詳細な視覚情報の把握や空間的な関係性の理解において限界がある。
- 類似画像ペア間の差異を特定・局所化することで,モデルの詳細な視覚知覚能力を向上させることを目指す。
- DiG(差分接地)という新しいプロキシタスクフレームワークを提案し,モデルに類似画像ペア間の差異を識別・局所化させることで,詳細な視覚知覚を学習させる。
- 高品質なペア画像データセットを自動生成する3Dレンダリングパイプラインを開発し,スケーラブルな学習を可能にした。
- カリキュラム学習により,差異の複雑さを段階的に増加させることで,学習の安定性を高め,様々な視覚知覚ベンチマークで性能が大幅に向上した。
広い視野範囲の不一致下における多重モダリティ眼底画像登録 [cs.CV]目的:広い視野範囲の不一致下における多重モダリティ眼底画像登録手法
- 眼科診断において,OCTAと眼底写真は補完的な情報を提供する。両者を正確に重ね合わせることは重要である。
- 既存手法は視野範囲の不一致が小さい場合に限定され,広い不一致がある場合には精度が低下する。
- 視野範囲の大きな不一致下でも高精度な眼底画像登録を実現し,診断精度向上に貢献することを目指す。
- 提案手法CAReは,眼底写真からOCTAの視野範囲に合わせた部分画像を切り出すことで,既存手法を適用可能にした。
- 二重適合に基づく位置合わせモジュールにより,空間変換の精度を向上させた。
- 新たに構築したデータセットによる実験で,CAReの有効性が確認された。
CogDoc:ドキュメントにおける統一的な思考へ [cs.CV]目的:ドキュメントにおける統一的な思考フレームワーク
- 長文ドキュメントの処理と詳細な情報把握は,情報活用において重要である。
- 既存手法では,処理速度と精度を両立することが困難であった。
- 処理速度と精度を両立する思考フレームワークの構築を試みる。
- CogDocは,スケーラブルな情報特定と深層推論を組み合わせたフレームワークである。
- 直接強化学習は,教師あり微調整よりも優れた性能を発揮し,「ポリシー競合」を回避する。
- 7Bモデルは,視覚的に複雑なドキュメントベンチマークにおいて,GPT-4oなどの大規模モデルを上回る性能を示す。
超音波画像における解剖学的誘導表現学習:Transformerベースネットワークを用いた甲状腺結節セグメンテーション [cs.CV, cs.AI]目的:甲状腺結節のセグメンテーション
- 甲状腺結節は臨床的に重要であり,正確な診断と治療計画に不可欠である。
- 結節と周囲組織の境界が曖昧で,データ不足が自動セグメンテーションの課題となる。
- Transformerネットワークを用いて,結節のセグメンテーション精度と汎化性能の向上を目指す。
- 提案手法SSMT-Netは,教師なし学習で特徴抽出能力を高め,半教師あり学習でセグメンテーション,腺分割,結節サイズ推定を同時に最適化する。
- TN3KおよびDDTIデータセットにおける評価で,SSMT-Netは最先端手法を上回り,高い精度とロバスト性を示した。
- 本手法は,臨床応用における潜在能力を示唆している。
深層ニューラルネットワークにおける特殊化されたサブネットと正則化のバランスを取る手法:PerNodeDrop [cs.LG, cs.AI, cs.CV]目的:深層ニューラルネットワークにおける過学習抑制
- 深層ニューラルネットワークは高い表現力を有するが,過学習しやすいという課題がある。
- 従来の正則化手法は,ノイズの均一性により有益な協適応も抑制してしまう可能性がある。
- 入力に特化したノイズを注入することで,協適応を維持しつつ過学習を抑制することを目指す。
- PerNodeDropは,各ノードに固有の変動を与えることで,既存手法の均一的なノイズ注入を改善する。
- 実験結果から,PerNodeDropは訓練データと検証データ間の性能差を縮小し,未知データに対する信頼性を向上させることが示された。
- 画像,テキスト,音声のベンチマークにおいて,従来のノイズベース正則化手法と比較して汎化性能が向上した。
InteracTalker:プロンプトに基づいた人間と物体の相互作用と共伴ジェスチャー生成 [cs.CV]目的:プロンプトに基づいた物体認識型相互作用と共伴ジェスチャー生成を統合するフレームワーク
- インタラクティブなデジタル体験において,自然な人間運動の生成が重要である。
- 従来の技術では,音声駆動ジェスチャーと物体相互作用が分離されており,実用性に課題がある。
- 音声,物体,動作を統合し,より現実的で制御可能な人間運動の生成を目指す。
- InteracTalkerは,物体認識型相互作用と共伴ジェスチャー生成をシームレスに統合した。
- 多様な条件に対応可能な汎用的な動作適応モジュールと適応的な融合戦略を導入した。
- 既存手法と比較して,ジェスチャー生成と物体相互作用の合成において高い性能を示した。
信頼度を考慮した非対称学習によるオープンワールド深偽造属性特定 [cs.SC, cs.CV]目的:オープンワールド深偽造属性特定における性能向上
- 生成された顔画像の増加に伴い,偽造画像検出技術の重要性が高まっている。
- 既存手法は,未知の偽造画像に対する信頼度の偏りや,未知の偽造タイプ数の事前知識の必要性がある。
- 信頼度を考慮した非対称学習により,これらの問題を解決し,より現実的なシナリオに対応する。
- 提案手法は,既知および未知の偽造画像の属性特定において,既存手法を上回る性能を達成した。
- 信頼度を考慮した一貫性正則化と,非対称な信頼度強化により,モデルの学習バランスを適応的に調整する。
- 動的プロトタイププルーニングにより,未知の偽造タイプの数を自動的に推定し,現実世界への応用を可能にする。
自己注意機構のオンラインテスト時適応のための漸進的条件付きスケールシフト再較正 [cs.CV]目的:自己注意機構のスケールとシフト因子を条件付きで再較正することにより,オンラインテスト時適応の性能向上
- 深層学習モデルの汎化性能向上のためには,未知のデータに対する適応能力が不可欠である。
- テスト時適応においては,ソースドメインとターゲットドメインの分布のずれが性能低下の主な原因となる。
- 自己注意機構における特徴量の変化に対応することで,ドメイン間のずれを軽減し,適応性能を向上させる。
- 提案手法であるPCSRは,ImageNet-Cデータセットにおいて,分類精度を最大3.9%向上させる。
- PCSRは,各層においてドメインシフト特徴量を抽出し,スケールとシフトパラメータを予測することで自己注意機構を再較正する。
- ドメイン分離ネットワークと因子生成ネットワークという軽量なネットワークをオンラインで適応させる。
Scone:統一的な理解・生成モデリングによる,主題主導型画像生成における構成と識別性の架橋 [cs.CV, cs.AI]目的:主題主導型画像生成における構成と識別性の向上
- 画像生成技術は,現実世界の複雑な視覚的状況を再現するために不可欠であり,その応用範囲は広い。
- 既存の主題主導型画像生成技術は,複数の候補がある場合に正しい主題を識別する識別性に課題があった。
- 本研究は,構成と識別性を統合的に扱うことで,より複雑で写実的な画像生成を可能にすることを目的とする。
- Sconeは,理解エキスパートと生成エキスパートを連携させ,主題の識別性を保ちながら干渉を最小化する。
- 二段階の学習スキームにより,まず構成を学習し,次にセマンティックアライメントとアテンションベースのマスキングを通じて識別性を強化する。
- SconeEvalというベンチマークを導入し,多様なシナリオで構成と識別性を評価することで,既存のオープンソースモデルを上回る性能を示した。
β-CLIP:テキスト条件付きコントラスト学習によるマルチ粒度視覚-言語アライメント [cs.CV]目的:マルチ粒度の視覚-言語アライメントの階層的な確立
- 視覚と言語の理解は,画像検索や画像キャプション生成など,多様な応用において重要である。
- 既存のCLIPモデルは,詳細なタスクにおいて十分な性能を発揮できていない。
- テキストの様々な粒度に対応することで,より高精度な視覚-言語アライメントを実現する。
- β-CLIPは,Urban1Kデータセットにおいて,テキスト-画像検索で91.8%,画像-テキスト検索で92.3%のR@1精度を達成した。
- また,FG-OVD(Hard)データセットでは30.9%の精度を記録し,最新技術を上回る性能を示した。
- β-CLIPは,ハードネガティブを使用しない学習においても,堅牢で適応性のあるベースラインを確立する。
視覚言語モデルにおける教師ありファインチューニングの役割の再評価:実証研究 [cs.LG, cs.CL, cs.CV]目的:視覚言語モデルの推論能力に対する教師ありファインチューニングと強化学習の比較
- 視覚言語モデルは,画像とテキストを理解するAIの重要な要素であり,様々な応用が期待されている。
- 強化学習に焦点が当たり,教師ありファインチューニングの有効性が過小評価されているという問題がある。
- モデル容量,データ規模,データ分布が推論能力に与える影響を明らかにすること。
- 教師ありファインチューニングは,小規模または弱い視覚言語モデルにおいて,推論能力を確実に引き出す上で有効である。
- 教師ありファインチューニングは,強化学習よりも少ないデータ量で同等またはより良い推論性能を達成できる。
- 教師ありファインチューニングは,強化学習よりも異なるモダリティへの汎化能力が高い。
堅牢な多言語ドキュメント質疑応答のためのハイブリッド検索拡張生成 [cs.DL, cs.CV]目的:歴史的新聞におけるノイズの多い文書に対する質疑応答システム
- 歴史的資料のデジタル化が進む中で,効果的な情報アクセスが求められている。
- OCRエラー,多言語表記の多様性,時代による言語変化が課題となっている。
- これらの問題に対処し,正確な質疑応答を可能にするシステムの構築。
- セマンティックなクエリ拡張と多クエリ融合により,検索のロバスト性が向上した。
- 厳密な根拠に基づく回答生成と,証拠不足時の回答回避を実現するプロンプト設計が有効であった。
- ハイブリッド検索戦略は,特にRRFによるクエリ表現の分散が,検索リコールの安定性に貢献した。
適応的トークンプルーニングによる効率的な視覚言語推論 [cs.CV, cs.CL, cs.LG]目的:視覚言語モデルの効率的な推論
- 視覚言語モデルは多様な応用を持つが,計算資源を多く必要とする。
- 既存のモデルは全てのトークンを均一に処理するため,計算効率が低い。
- 入力に応じて重要トークンを動的に選択し,計算量を削減する。
- 適応的トークンプルーニング(ATP)により,推論に必要なFLOPsを約40%削減できる。
- ATPは,VQAv2, GQA, COCOなどのベンチマークで,エンドツーエンドの遅延を約1.5倍高速化する。
- ATPは,視覚的根拠を維持し,解釈可能性を向上させるとともに,モデルのロバスト性を高める。
ビデオからのパーツレベル信頼データを用いたロバストなモーション生成 [cs.CV, cs.AI]目的:ビデオから抽出されるパーツレベルの信頼できるデータを用いたモーション生成の強化
- キャラクターアニメーションにおいて,大規模なモーションデータは不可欠であり,その収集方法が重要である。
- 既存のビデオデータには,オフスクリーンやオクルージョンによるパーツの欠損が含まれており,データ品質と多様性のトレードオフが生じている。
- 欠損のあるデータを利用しつつ,データの信頼性を考慮することで,モーション生成の性能向上を目指す。
- 提案手法では,人体を5つのパーツに分解し,鮮明に視認できるパーツを「信頼できる」と判定する。
- 信頼できるパーツは,提案するパーツアウェアな変分オートエンコーダによって潜在トークンにエンコードされる。
- ノイズの多いパーツを無視しつつ,信頼できるパーツを予測するロバストなパーツレベルのマスク生成モデルを提案する。
2D深度画像を用いた訓練不要3D人体復元による脊椎ライン検出 [cs.CL, cs.RO, cs.CV]目的:姿勢評価のための脊椎ライン検出
- 身体のバランスを評価する上で,脊椎角度は重要な指標である。
- 既存手法では,高価な装置や複雑な手順が必要,または自己遮蔽や視点制限により正確な推定が困難である。
- 多視点方式の欠点を補い,単一画像方式の限界を克服する。
- 本研究では,四方向の深度画像を統合し,訓練データや複雑なニューラルネットワークモデルに依存せずに高精度な3D脊椎ライン検出を実現した。
- 階層的マッチングと適応的頂点削減により,ノイズや自己遮蔽に対してロバストな復元が可能となった。
- 実験により,マッチング品質の向上が確認された。
GenieDrive:4D占有率による誘導を用いた物理に基づいた運転ワールドモデルとビデオ生成 [cs.CV]目的:物理に基づいた運転ビデオ生成のための新しいフレームワークの開発
- 自動運転技術の発展には,現実世界の物理法則を考慮したシミュレーション環境が不可欠である。
- 既存手法では,行動からビデオへの直接的なマッピングが困難で,物理的に矛盾した結果が生じやすい。
- 4D占有率を利用することで,物理的整合性の高いビデオ生成と高精度な予測を実現する。
- GenieDriveは,まず4D占有率を生成し,それを物理情報に基づく基盤としてビデオ生成を行う。
- VAEを用いて高解像度な占有率を効率的に圧縮し,予測精度を向上させた。予測mIoUは7.2%改善し,41FPSの推論速度を実現した。
- 正規化されたマルチビューアテンションにより,多視点からの運転ビデオの品質を大幅に向上させ,FVDを20.7%削減した。
FysicsWorld:あらゆるタスクに対応する統一されたフルモーダリティベンチマーク [cs.CV]目的:あらゆる入力・出力間の理解,生成,推論能力を評価するための統一されたフルモーダリティベンチマーク
- マルチモーダル大規模言語モデルの発展に伴い,多様なモダリティを統合した評価の重要性が高まっている。
- 既存のベンチマークは,網羅性やモダリティ間の相互作用に課題があり,真の汎用性を欠いている。
- 画像,動画,音声,テキスト間の双方向評価を通じて,次世代のフルモーダリティアーキテクチャの進歩を目指す。
- FysicsWorldは,16の主要タスクと3,268のサンプルを含む,包括的なベンチマークとして構築された。
- 既存の30以上の最先端モデルの評価を通じて,モデル間の性能差や限界が明らかになった。
- このベンチマークは,フルモーダリティアーキテクチャの評価と発展のための基盤を提供する。
フィードバックアラインメントを用いた連合学習 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CV]目的:連合学習におけるデータ不均一性によるローカルドリフトの軽減
- プライバシー保護と分散データ活用が求められる中で,連合学習は重要な技術である。
- クライアントのデータ分布が非独立同一(non-IID)の場合,学習が不安定になる問題がある。
- グローバルモデルの重みを共有フィードバック行列として利用し,ローカル更新を効率的に整合させる。
- FLFAは,ローカルドリフトを緩和し,ローカルおよびグローバルモデルの安定した収束を促す。
- 提案手法は追加の計算コストや通信オーバーヘッドを最小限に抑えつつ,既存の連合学習手法を強化できる。
- 実験結果は,FLFAが精度向上とローカルドリフトの低減に有効であることを示している。
CoRe3D:3D知能の基盤としての協調的推論 [cs.CV, cs.AI, cs.LG]目的:3D理解と生成のための推論フレームワーク
- 大規模マルチモーダルモデルの発展により,推論メカニズムの重要性が認識されている。
- 言語と画像処理では有効な推論中心のアプローチが,3D分野では未発達である。
- 言語由来の意図を3Dコンテンツ生成に直接反映させる方法を確立すること。
- CoRe3Dは,セマンティックと空間的抽象化を連携させ,高レベルな意図を低レベルの3Dコンテンツ形成に誘導する。
- 空間的に根拠付けられた推論表現により,3D潜在空間を局所的な領域に分解し,幾何学的な推論を構成的かつ手続き的に行う。
- セマンティックな思考連鎖と構造化された空間的推論を組み合わせることで,局所的な整合性と言語記述への忠実性を備えた3D出力を生成する。
音声対話のための適応型エッジ・クラウド推論:ASRと大規模言語モデルを用いた行動システム(ASTA) [cs.SD, cs.AI]目的:音声対話システムにおけるエッジとクラウドの推論経路の動的切り替え
- IoTデバイスの制御において,音声インタフェースの重要性が高まっている。
- エッジデバイスは計算資源に制約があり,クラウドは遅延やプライバシーの問題がある。
- エッジとクラウドの最適なバランスにより,堅牢でリソース効率の良いシステムを実現する。
- ASTAは,CPU負荷,デバイス温度,ネットワーク遅延等のリアルタイム指標に基づいて推論経路を動的に選択する。
- 80種類の音声コマンドを用いた評価実験で,ASTAは全てのコマンドを実行に成功し,オンラインとオフラインの推論をバランス良く分配した。
- 音声認識精度は62.5%であり,コマンド修復機構の重要性が示唆された。
JointAVBench: 共同オーディオ・ビジュアル推論評価ベンチマーク [cs.CL, cs.MM, cs.CV]目的:共同オーディオ・ビジュアル推論の評価
- 動画理解には視覚情報と聴覚情報の両方が不可欠であり,その評価が重要である。
- 既存のデータセットは,多Modalな依存関係や多様な音響情報,シーン範囲の網羅性に課題がある。
- 厳密なオーディオ・ビジュアルの相関性を持つ,新たな評価ベンチマークを構築し,Omni-LLMの性能評価を行う。
- JointAVBenchは,5つの認知次元,4つの音響情報タイプ,3つのシーン範囲を網羅するベンチマークである。
- 最先端のOmni-LLMでも平均精度は62.6%であり,単一Modalなベースラインよりは優れるものの,改善の余地がある。
- 特に,クロスシーン推論において,改善の必要性が示唆された。
高速2DGS:深層ガウス事前分布による効率的な画像表現 [cs.CV]目的:効率的で解釈可能かつ編集可能な画像表現の実現
- 高精細な画像生成技術の発展に伴い,効率的な画像表現への需要が高まっている。
- 従来の2DGSは,高品質な表現のために後処理が必要であり,収束に時間がかかるという課題がある。
- 深層ガウス事前分布を用いて,高速かつ高品質な2DGSを実現し,実用化を促進すること。
- 提案手法(Fast-2DGS)は,深層ガウス事前分布と属性回帰ネットワークという分離されたアーキテクチャを採用している。
- これにより,単一のフォワードパスで高品質な再構成を実現し,わずかな微調整で済む。
- 計算コストを大幅に削減しつつ,視覚品質を損なわないため,2DGSの実産業利用への道を開く。
学習型ビデオ圧縮:長期的な空間・時間的強化コンテキスト [cs.CV]目的:長期的な空間・時間的コンテキストの強化によるビデオ圧縮性能の向上
- ビデオ圧縮は,データ容量の削減に不可欠であり,通信や保存の効率化に貢献する。
- 既存手法は,短期的な参照に依存し,長期的依存性や微細テクスチャの再現が課題である。
- 長期的依存性の捕捉と空間情報の融合により,予測精度を高め,圧縮性能を向上させる。
- 提案手法L-STECは,LSTMを用いて長期的な依存性を捉え,圧縮性能を大幅に向上させた。
- 実験結果から,PSNRとMS-SSIMにおいて,DCVC-TCMに対しそれぞれ37.01%と31.65%のビットレート削減を達成した。
- VTM-17.0やDCVC-FMを凌駕し,最先端の性能を確立した。
DrivePI:空間認識4D MLLMによる統合的な自動運転の理解,知覚,予測,計画 [cs.CV]目的:自動運転における詳細な3D知覚と予測出力生成の可能性
- 自動運転技術は,安全性向上と効率化に不可欠であり,高度な知覚・予測が求められる。
- 既存のモデルは,3D知覚,予測,計画を個別に扱っており,統合的な理解が困難である。
- 空間認識能力を持つMLLMを用いて,これらのタスクを統合的に解決することを目指す。
- DrivePIは,わずか0.5BのQwen2.5モデルを使用しながら,既存のVLAモデルやVAモデルと同等またはそれ以上の性能を示す。
- nuScenes-QAにおいてOpenDriveVLA-7Bより平均精度が2.5%向上し,nuScenesの衝突率はORIONと比較して70%削減された(0.37%から0.11%へ)。
- OpenOccにおける3D occupancyのRayIoUではFB-OCCを10.3%上回り,occupancy flowのmAVEも改善,nuScenesにおける計画のL2誤差も32%低減された。
2つの画像データセット間の共通および顕著な生成要因の学習 [cs.CV]目的:2つの画像データセット間の共通生成要因と,それぞれのデータセットに特有な顕著な生成要因の分離
- 画像合成技術の進歩は,高品質な画像生成と操作を可能にした。様々な応用が期待される分野である。
- 既存研究は属性に基づく操作や,潜在空間の解釈可能性に焦点を当てており,データセット間の要因分析は未開拓である。
- 属性情報に依存せず,データセット情報のみを用いて共通要因と顕著な要因を分離することを目指す。
- 提案手法は,GANと拡散モデルの両方に適用可能であり,共通要因と顕著な要因を適切に分離できることを示した。
- 多様なデータセット(人物,動物,医療画像)において,既存手法と比較して,分離性能と生成品質の双方で優れていることが確認された。
- 新たな学習戦略と損失関数により,高品質な画像生成を維持しつつ,要因の分離を実現している。
Lemon:普遍的な空間理解のための統一的かつスケーラブルな3Dマルチモーダルモデル [cs.CV, cs.AI]目的:3D空間理解のための統一的なマルチモーダルモデルの構築
- ロボット工学や拡張現実など,現実世界とのインタラクションにおいて3D空間理解は不可欠である。
- 既存のモデルは,モダリティ固有のエンコーダに依存し,スケーラビリティや学習の安定性に課題がある。
- 点群データと言語情報を統合的に処理し,3D空間理解の性能向上とモデルのスケーラビリティ実現を目指す。
- Lemonは,3D点群パッチと言語トークンを単一のシーケンスとして処理する統一的なTransformerアーキテクチャである。
- 本研究では,空間的文脈を保持する構造化パッチ化とトークン化方式,および段階的な学習カリキュラムを開発した。
- Lemonは,3Dオブジェクト認識からシーンレベルの空間推論まで,包括的な3D理解タスクにおいて最先端の性能を達成した。
数ショット学習のためのマルチモーダル基盤モデルの適応:コントラスティブキャプショナーに関する包括的研究 [cs.CV, cs.AI]目的:コントラスティブキャプショナーの視覚バックボーンを数ショット画像分類に適用するための戦略の評価
- 大規模なマルチモーダル基盤モデルは,画像とテキストの理解において高い性能を示しており,多様な応用が期待される。
- データ不足の状況下での適応方法が十分に解明されておらず,特に生成・コントラスト両方の特性を持つモデルの挙動は不明な点が多い。
- 数ショット学習におけるデータ拡張の影響と,効果的なパラメータ効率的ファインチューニング手法の特定を目指す。
- データ拡張は線形プローブの性能を低下させる一方で,LoRAファインチューニングの安定化には不可欠であることが判明した。
- Supervised Contrastive損失を組み込んだハイブリッド目的関数は,様々なショット数において標準的なクロスエントロピーよりも一貫して性能が向上した。
- データ不足に対する設定の感度を明らかにし,正則化,ランク,サンプリング戦略のスケーリングに関する参考設定を提供した。
勾配の固有次元性による敵対的攻撃の検出 [eess.SY, cond-mat.mtrl-sci, cs.SY, cs.LG, cs.CR, cs.CV]目的:敵対的攻撃の検出方法
- 深層学習の信頼性は重要であり,医療診断や自動運転などへの応用が期待されている。
- 深層学習モデルは微小な摂動によって予測が大きく変化するという脆弱性を抱えている。
- 固有次元性に着目し,敵対的攻撃と通常のデータの区別を可能とする検出手法を確立する。
- モデルの勾配パラメータの固有次元性は,自然データと敵対的データの間に明確な差異を示す。
- 提案手法は,MNISTやSVHNなどのデータセットにおいて,悪意のあるデータグループの識別において高い有効性を示した。
- CIFAR-10やMS COCOといったベンチマークにおいて,既存手法を上回る最先端の結果を達成し,検出率は92%を超えている。
ゲームにおける手続き型音楽生成システム [eess.SY, cs.SY, cs.SD]目的:ゲームにおける手続き型音楽生成技術の現状と課題
- ゲーム音楽は没入感を高める重要な要素であり,高品質な音楽が求められている。
- 手続き型音楽生成は研究段階では進むものの,実用化において品質やリソースの制約がある。
- 研究と実用化のギャップを埋め,ゲーム開発への応用を促進することを目的とする。
- 手続き型音楽生成技術は,ルールベースから機械学習まで幅広い手法が存在する。
- 本研究では,学術的なプロトタイプと実際のアプリケーションの違いを比較分析した結果,アルゴリズム実装,音楽品質,ゲーム統合が重要な課題であることが明らかになった。
- 今後の研究方向性として,タスク指向・文脈認識設計,より包括的な品質評価,研究ツール統合の改善が挙げられる。
シュレーディンガーオーディオビジュアルエディタ:オブジェクトレベルのオーディオビジュアル除去 [eess.SY, cs.SY, q-fin.CP, q-fin.PR, stat.AP, eess.SY, cs.SY, cs.CV, cs.MM, cs.SD]目的:オーディオビジュアルコンテンツのオブジェクトレベル除去
- コンテンツ制作において,精密かつ制御された編集が不可欠であり,オーディオとビジュアルの同時編集の重要性が高まっている。
- 編集前後のペアデータ不足,および異なるモダリティ間の不均質性が課題となっていた。
- オブジェクトに基づいた学習を可能にするデータセットとモデルを開発し,オーディオとビジュアルの同時編集を解決する。
- 提案手法SAVEは,オーディオとビデオを並行して編集し,処理全体を通してそれらを整合的に保つ。
- SAVEは,ソースからターゲットへの直接的な変換を学習するシュレーディンガーブリッジを組み込んでいる。
- 評価の結果,SAVEはターゲットオブジェクトを除去しつつ,残りのコンテンツを維持し,時間的な同期と意味的な対応関係を向上させる。
Transformerを用いたオブジェクトリストによる3次元物体検出のためのクロスレベルセンサ融合 [eess.SY, cs.SY, math.OC, cs.CV, cs.RO]目的:3次元物体検出における,オブジェクトリストとカメラ画像のクロスレベルセンサ融合
- 自動運転技術の発展において,センサデータの統合は不可欠であり,より高精度な環境認識が求められている。
- 従来のセンサ融合は,生のセンサデータを処理することが一般的で,抽象度の高いオブジェクトリストの活用が遅れていた。
- 本研究は,オブジェクトリストとカメラ画像を直接統合することで,環境認識の精度向上と計算効率化を目指す。
- Transformerを用いてオブジェクトリストをノイズ除去クエリとして入力し,特徴量集約プロセスと並行して伝播させることで,クロスレベル融合を実現した。
- オブジェクトリストから生成される変形ガウスマスクをTransformerデコーダに組み込むことで,関心領域への注意を向け,学習の収束を加速させた。
- nuScenesデータセットにおいて,本手法はvisionベースラインと比較して大幅な性能向上を示し,シミュレーションおよび実検出器のノイズに対する汎化能力を実証した。
SignRAG:スケーラブルなゼロショット道路標識認識のための検索拡張システム [cs.CV, cs.AI, cs.CL, cs.IR, cs.RO]目的:道路標識のゼロショット認識フレームワーク
- 自動運転や安全運転支援システムの実現に不可欠な技術である。
- 標識の種類が膨大であり,網羅的な学習データ作成が困難である。
- ラベルなしで標識を認識できるスケーラブルなシステムを構築すること。
- 提案手法は,画像からテキストによる標識の説明を生成し,類似標識を検索する。
- 大規模言語モデルが検索結果を基に,最終的な標識認識を行う。
- 理想的な参照画像で95.58%,現実の道路画像で82.45%の精度を達成した。
スケーラブルな3D医療画像分類のための2D基礎モデルの再検討 [cs.CV]目的:スケーラブルな3D医療画像分類手法
- 臨床ワークフローにおいて3D医療画像分類は不可欠であり,その重要性は増している。
- 既存研究には,データバイアス,適応の最適化不足,タスクカバレッジの不足といった課題がある。
- 2D基礎モデルから適応したスケーラブルな3D分類器AnyMC3Dを用いて上記課題の解決を目指す。
- 軽量プラグインを追加するだけで新しいタスクに効率的に対応でき,汎用性が高い。
- AnyMC3Dは,様々な病理,解剖学的部位,モダリティを網羅する12のタスクで最先端の性能を達成した。
- 一般目的の基礎モデルが適切な適応により,医療特化型モデルに匹敵する性能を示すことを実証した。
クエリ畳み込み:高周波信号学習に向けた試み [cs.CV, cs.GR, cs.LG]目的:高周波信号の学習性能向上
- 画像処理やグラフィックスにおいて,高周波信号の正確な学習は重要な課題である。
- ニューラルネットワークはスペクトルバイアスや最適化の困難さから,高周波信号の学習に苦戦することが多い。
- 畳み込み演算の近傍特性を活用し,複雑な高周波信号の学習を促進することを目的とする。
- 提案手法「クエリ畳み込み」は,1D回帰,2D超解像,2D画像回帰,Novel View Synthesisなど,多様な高周波学習タスクにおいて性能向上を実証した。
- 特に,Gaussian splattingと組み合わせたNovel View Synthesisでは,実世界の複雑なシーンにおいて最先端の性能を示し,強力なRadiance Fieldモデルをも上回る画像品質を実現した。
- クエリ畳み込みは,低周波信号にクエリ(座標など)を畳み込み,高周波情報の学習を強化する簡潔かつ強力な手法である。
意味的に一貫性のある分布外検出のための予測的サンプル割り当て [cs.CV]目的:分布外検出の精度向上
- 現実世界のデータには未知の分布外データが含まれるため,信頼性の高い検出が重要である。
- 既存手法では,ノイズを含むサンプルが混入し,検出精度が低下する問題がある。
- 予測エネルギーに基づくサンプル割り当てでノイズを削減し,検出精度を向上させる。
- 提案手法は,予測的サンプル割り当て(PSA)により,IDおよびOODサンプルの純度を高める。
- 概念的コントラスト表現学習損失により,IDとOODサンプルの識別能力を向上させる。
- 2つの標準ベンチマークにおいて,最先端手法を大幅に上回る性能を示した。
二人ゼロ和ゲームを解くための直接的な二階手法 [cs.GT, math.OC]目的:二人ゼロ和ゲームにおけるナッシュ均衡の計算
- ゲーム理論は,経済学,政治学,生物学など広範な分野で意思決定の分析に不可欠である。
- 従来のゲームソルバーは,計算コストが高く,大規模ゲームの解決に時間がかかる場合がある。
- 高精度なナッシュ均衡を効率的に計算できる新たな手法の開発が求められている。
- 本研究では,二人ゼロ和ゲームのナッシュ均衡を計算するための,初の直接的な二階手法を提案する。
- 提案手法は,ダグラス-ラフフォード型の分割定式化と,半滑らかなニュートン法(SSN)を組み合わせることで,局所的な超線形収束性を実現する。
- SSN法の高速な局所的振る舞いとグローバルな効率性を両立させるため,最先端の一階手法であるPredictive Regret Matching$^+$(PRM$^+$)とのハイブリッド手法を開発した。
汎化カテゴリ発見のためのシャープネスを意識した動的アンカー選択 [eess.SY, cs.SY, cs.CV]目的:汎化カテゴリ発見における未知クラスのクラスタリング精度向上
- オープンワールド学習は,未知の状況への適応能力が求められるため重要である。
- 既存手法は,事前学習済みモデルの偏りにより,ノイズの多い疑似ラベルを生成しやすい。
- 本研究は,疑似ラベルのノイズを軽減し,未知クラスの識別精度を向上させることを目指す。
- 損失シャープネスペナルティにより,モデルの頑健性を高め,ノイズサンプルへの過学習を抑制した。
- 動的アンカー選択により,未知クラスの代表的なサンプルを選択し,高精度な疑似ラベルを付与した。
- 複数のベンチマークにおいて,最先端の結果を達成し,提案手法の有効性が確認された。
MADTempo:クエリ拡張を用いたマルチイベント時系列ビデオ検索インタラクティブシステム [cs.DC, cs.CV, cs.AI]目的:マルチイベント時系列ビデオ検索のための手法
- オンライン動画コンテンツの急増により,単独の視覚的瞬間だけでなく,複雑なイベントの時間的構造を理解できる検索システムの必要性が高まっている。
- 既存の手法は,複数のイベント間の時間的依存関係のモデリングや,未観測または稀な視覚概念を参照するクエリへの対応が不十分である。
- 本研究では,時間的検索と大規模なWebスケールでの視覚的根拠付けを統合し,より高度な時系列推論と汎化能力を実現することを目指す。
- MADTempoは,連続するビデオセグメント間の類似度スコアを集約することで,イベントレベルの連続性を捉え,マルチイベントクエリの一貫性のある検索を可能にする。
- Google画像検索に基づくフォールバックモジュールは,外部のWeb画像でクエリ表現を拡張し,事前学習済みの視覚埋め込みのギャップを埋め,OODクエリに対するロバスト性を向上させる。
- これらの要素を組み合わせることで,大規模ビデオコーパスにおける,より意味的に認識され適応的な検索が可能になる。
カスケード埋め込み-再ランク付けと時間認識スコア融合による統一的なインタラクティブ多Modalモーメント検索 [cs.CV, cs.AI, cs.IR]目的:効率的な多Modalモーメント検索システムの実現
- 動画コンテンツの爆発的な増加により,効率的な検索システムの必要性が高まっている。
- 既存手法は,Modal間のノイズや曖昧なクエリへの対応,時間的な一貫性の維持に課題がある。
- 曖昧なクエリへの対応,時間的な一貫性の確保,動的な融合戦略により検索能力を向上させる。
- 提案システムは,曖昧なクエリを効果的に処理し,時間的に一貫性のあるシーケンスを検索できる。
- カスケード埋め込み-再ランク付けパイプラインにより,幅広い検索と精度向上を両立している。
- Agentによるクエリ分解により,手動でのModal選択を不要とし,適応的なスコア融合を実現している。
学習型ビデオ圧縮のためのコンテンツ適応型モーションアライメントフレームワーク [cs.CV, cs.AI]目的:コンテンツ適応型モーションアライメントフレームワークの開発
- ビデオ圧縮は,通信・保存容量の効率化に不可欠であり,その重要性は増している。
- 汎用的なフレームワークでは,コンテンツ特有の適応が不足し,圧縮性能が最適化されない場合がある。
- 多様なコンテンツ特性に適応し,より高効率なビデオ圧縮を実現することを目的とする。
- 提案手法CAMAは,標準的なテストデータセットにおいて,最先端のニューラルビデオ圧縮モデルと比較して大幅な性能向上を示した。
- ベースラインモデルDCVC-TCMに対して,BDレート(PSNR)で24.95%の削減を達成した。
- また,DCVC-DCや従来のコーデックHM-16.25を上回る性能を示した。
時間変化する持続ホモロジー図の連続編集距離,測地線,および重心 [cs.IR, cs.CG, cs.CV, cs.GR, cs.LG]目的:時間変化する持続ホモロジー図に対する測地線距離
- データ解析において,時間変化するデータの形状を捉えることは重要である。
- 既存の距離測度は,時間的なずれやノイズに弱いという問題があった。
- 時間変化する持続ホモロジー図の比較やクラスタリングをよりロバストに行う。
- 連続編集距離(CED)は,時間的および空間的な摂動に対してロバストであることが示された。
- CEDに基づく重心を用いたクラスタリングは,既存の手法と同等以上の性能を発揮する。
- CEDは,時間変化する持続ホモロジー図の解析に,原理に基づいた距離,解釈可能な測地線,および実用的な重心を提供する。
