arXiv雑要約
画像・音声 - 2026/03/17 公開
AURORA-KITTI:実世界の悪天候下における深度補完とノイズ除去 [cs.MA, cs.RO, cs.CV]目的:悪天候下におけるロバストな深度補完とノイズ除去
- 現実世界の3Dシーン理解には深度情報が不可欠であり,正確な深度補完技術が求められている。
- 既存のRGB-LiDAR融合手法は,悪天候下では性能が著しく低下するという課題がある。
- 多様な悪天候下でもロバストな深度補完を実現し,ノイズを除去するためのベンチマークと手法を開発する。
- AURORA-KITTIは,悪天候下でのロバストな深度補完のための大規模なマルチモーダル,マルチウェザーベンチマークである。
- DDCDは,深度ファウンデーションモデルを活用し,実世界のDCDトレーニングにクリーンな構造的知識を注入する効率的な蒸留ベースラインである。
- 実験の結果,AURORA-KITTIとDENSEデータセットにおいて最先端の性能を達成し,気象に配慮した物理的に整合性のあるデータが,アーキテクチャの変更よりもロバスト性に大きく貢献することが示された。
連続トークン拡散を用いたフラクタル自己回帰深度推定 [cs.CV]目的:単眼深度推定の性能向上
- 深度推定は,ロボティクスや自動運転など,様々な応用分野において重要である。
- RGB画像と深度情報の間のモダリティギャップや,効率的なピクセル単位の生成が課題である。
- 連続的な深度予測における不安定性を解消し,効率的な深度推定を実現する。
- 提案手法は,粗から細,次のスケールへの自己回帰生成プロセスとして深度推定を再構築する。
- VCFRモジュールにより,マルチスケール画像特徴と現在の深度予測のクロスモーダル条件付けが改善される。
- 不確実性を考慮したロバストなコンセンサス集約スキームは,推論の安定性を高め,信頼性の高いピクセル単位の推定値を提供する。
軌跡の連鎖:グラフ理論的計画による拡散モデルの内在的な生成最適性の解明 [cs.LG, cs.CV, stat.ML]目的:拡散モデルにおける効率的な生成経路の発見
- 拡散モデルは高品質な画像を生成するが,計算コストが高いという課題がある。
- 固定されたサンプリングスケジュールにより,計算資源の配分が最適化されていない。
- 生成の難易度に応じて計算資源を動的に配分し,効率的な生成を可能にする。
- 提案手法CoTjは,拡散モデルの各段階の難易度を定量化する「Diffusion DNA」を導入した。
- Diffusion DNAを用いて,サンプリングをグラフ計画問題として再構築し,計算資源を効率的に配分した。
- 実験により,CoTjが生成品質と安定性を向上させ,冗長な計算を削減することが示された。
AdapterTune: 凍結されたVision Transformerのためのゼロ初期化低ランクアダプター [cs.CV, cs.AI, cs.LG]目的:Vision Transformerにおけるアダプターの最適化と容量設定に関する研究
- 画像認識分野において,Vision Transformerは高い性能を示すが,転移学習時の計算コストが課題である。
- 既存のアダプターを用いた転移学習では,最適化の不安定性やアダプター容量の決定が難しい。
- 本研究は,最適化の安定化と,タスク変化への適応能力を考慮したアダプター容量の決定を目指す。
- AdapterTuneは,ゼロ初期化された低ランクアダプターを導入することで,学習初期の表現のドリフトを抑制し,最適化を安定化させる。
- アダプターのランクをタスク変化の近似能力の予算と捉え,理論的な分析からランク増加に伴う精度向上の限界を予測した。
- 9つのデータセットと3つのバックボーンスケールでの評価により,AdapterTuneが既存手法を上回る性能を示すことを確認した。
視覚的混乱代行者:コンピュータ使用エージェントにおける知覚不全の悪用と防御 [cs.CV, cs.CL]目的:コンピュータ使用エージェントの知覚不全に起因するセキュリティ問題の形式化と対策
- GUI操作を行うエージェントの普及に伴い,その知覚の信頼性が安全性に影響する重要性が増している。
- 既存研究では,知覚不全を単なる性能問題と捉え,対象オブジェクトの認識誤りのセキュリティリスクが看過されてきた。
- 知覚不全をセキュリティ問題として捉え,エージェントの誤認による意図しない操作を防ぐことを目指す。
- 提案手法であるデュアルチャネル対照的分類器は,視覚的クリックターゲットとエージェントの意図を独立に評価することで,従来の単一チャネル方式よりも高い防御性能を発揮した。
- 本研究は,エージェントがクリックする対象と理由を独立して検証することで,CUAの安全性を向上させる必要性を示唆する。
- 視覚的証拠によるターゲットレベルの不一致検出と,テキストによる危険な意図の検出を組み合わせることで,より堅牢なガードレールを実現した。
3D全身姿勢推定における条件付きハンドモジュレータによる手の精度向上 [cs.CV]目的:3D全身姿勢推定における手の姿勢推定精度の向上
- 人間の行動理解やインタラクション分析において,正確な全身姿勢推定は不可欠である。
- 全身姿勢推定器は手の多様性が限られたデータで学習されるため,手の詳細な姿勢推定が困難である。
- 全身と手の情報を統合し,より正確かつ一貫性のある姿勢推定を実現することを目指す。
- 提案手法Hand4Whole++は,全身姿勢推定器と手姿勢推定器の長所を組み合わせることで,手の精度を大幅に向上させる。
- 条件付きハンドモジュレータ(CHAM)は,手の特徴を用いて全身の特徴を調整し,手首の方向と上体のキネマティック構造の一貫性を高める。
- 手姿勢推定器から予測された指の関節と手の形状を全身メッシュに統合することで,全身と手の詳細な情報を組み合わせる。
前部眼部画像を用いた深層学習と説明可能なAIによる糖尿病スクリーニングの自動化 [cs.CV]目的:糖尿病性網膜症スクリーニングの自動化
- 糖尿病は世界中で増加しており,早期発見と適切な管理が重要である。
- 従来の糖尿病性網膜症スクリーニングは専門的な設備と知識が必要である。
- より簡便でアクセスしやすいスクリーニング方法の開発が求められている。
- 前部眼部画像と深層学習を組み合わせることで,高い精度での糖尿病分類が可能となった。
- 特に健常者群の精密性は100%に達し,不必要な臨床紹介を最小限に抑えられる。
- 自己教師あり学習(SSL)を導入することで,ImageNetのみで学習した場合と比較してF1スコアが大幅に向上した。
マルチビデオ理解のためのスキル拡張エージェントフレームワークとベンチマーク [cs.CV]目的:マルチビデオ理解におけるスキル拡張エージェントフレームワークとベンチマークの開発
- マルチモーダル大規模言語モデルの発展により,単一ビデオ理解は向上している。しかし,複数ビデオに跨る推論能力は未だ十分ではない。
- 既存手法では,ビデオを単純に連結するため,学習と推論の不一致,情報損失,ビデオ間の連携不足といった問題が生じている。
- 本研究では,多様なタスクを統合した新たなベンチマークと,構造化された推論を可能にするフレームワークを提案し,この課題を解決する。
- 新たなベンチマークMVX-Benchは,11の従来CVタスクを統一的な質問応答形式に再構成し,複雑なマルチビデオ理解を可能にする。
- 提案手法SAMAは,視覚ツール,タスク固有のスキル,そして対立解決メカニズムを統合し,既存のオープンソースモデルやGPTを上回る性能を示した。
- アブレーション実験により,スキル設計と対立解決の有効性が確認された。
効率的なイベントカメラボリュームシステム [cs.CV, cs.RO]目的:イベントストリームの連続時間ディラックインパルス列としてのモデル化
- イベントカメラは低遅延かつ高ダイナミックレンジ特性を持つが,ロボティクスへの統合は課題である。
- イベントカメラの疎な出力は,既存のロボットパイプラインとの連携を困難にする。
- イベントデータの圧縮と再構成におけるアーチファクトの低減と効率化を目指す。
- 提案手法は,DCT,DTFT,DWT変換をイベント密度に応じて適応的に選択し,圧縮性能を向上させる。
- EHPT-XCおよびMVSECデータセットにおいて,DTFTが最も低い地球移動距離で優れた再構成精度を達成した。
- EventSAMセグメンテーションにおいて,MVSECデータセットでvoxel gridと比較して高いmean IoU (0.87) を示した。
エゴモーション誘導マンバモデルによる歩行者軌跡予測:エゴ視点からのアプローチ [cs.CV, cs.AI]目的:歩行者の軌跡予測
- 自動運転やロボットナビゲーション等の分野において,歩行者行動の正確な予測は安全性確保に不可欠である。
- エゴ視点からの予測では,カメラと歩行者の複雑な相対運動が予測精度を低下させる課題がある。
- エゴモーションを考慮することで,より正確な相対運動モデルを構築し,予測精度向上を目指す。
- 提案手法では,マンバモデルをエンコーダとして歩行者と車両の運動特徴を抽出し,エゴモーション誘導デコーダで相対運動を明示的にモデル化する。
- 実験により,提案手法がPIEおよびJAADデータセットにおいて最先端の性能を達成することが示された。
- エゴモーションをガイダンスとして統合することで,予測軌跡の精度が向上することが確認された。
PHAC:プロンプトによる人間アモーダル補完 [cs.CV]目的:人間のアモーダル補完における,ユーザーによる制御性の向上
- 人間中心のアプリケーションにおいて,条件付き画像生成の利用が拡大している。
- 既存のアモーダル補完モデルでは,ユーザーが指定する制約を信頼性高く反映できない。
- ユーザーの指示に基づき,見えない領域を自然に補完し,既存手法の課題を解決する。
- 本研究では,ControlNetモジュールを用いてプロンプト信号を拡散モデルに注入し,高いプロンプト整合性を実現した。
- 提案手法は,アモーダル補完とポーズ制御された画像合成のベンチマークにおいて,より自然で高品質な結果を生成する。
- インペインティングに基づくリファインメントモジュールにより,視覚領域の忠実性を保ち,滑らかな境界を実現した。
顔誘導による弱教師あり時系列感情局所化の感情境界強化 [cs.CC, cs.CV]目的:弱教師あり時系列感情局所化における感情境界の精度向上
- 動画コンテンツにおける感情理解は,様々な応用において重要な役割を担う。
- 従来の感情局所化は,フレームレベルのラベル付けが必要であり,コストが高いという課題があった。
- 本研究は,顔情報を活用することで,より正確な感情境界を特定し,局所化性能を向上させる。
- 提案手法FSENetは,顔特徴とマルチモーダル情報を統合し,感情刺激の重要な手がかりを効果的に捉える。
- PSSC戦略により,アノテーション点近傍のフレームレベル感情意味を識別し,感情境界認識能力を高める。
- BSPGアプローチは,疎な点アノテーションを滑らかな疑似ラベルに変換し,学習効率を向上させる。
LiDAR-EVS:3Dガウススプラッティングによる外挿視点合成の改善 - 擬似LiDARによる教師あり学習 [cs.RO, cs.CV]目的:3Dガウススプラッティングによる外挿視点LiDAR合成のロバスト性向上
- 自動運転シミュレーションにおいて,リアルタイムなLiDARおよびカメラ合成は不可欠である。
- 既存手法は単一の走行軌跡で学習するため,未知の軌跡への汎化性能が低い。
- 本研究は,追加データなしに未知の走行軌跡におけるLiDARシミュレーションを実現する。
- LiDAR-EVSは,マルチフレームLiDARフュージョン,視点変換,オクルージョン処理,強度調整による擬似外挿視点点群教師あり学習を用いる。
- 空間制約付きドロップアウト正則化により,多様な軌道変動に対するロバスト性を高める。
- 3つのデータセットにおいて,外挿視点LiDAR合成で最先端の性能を達成した。
リング型ポリゴン注釈に対するトポロジー保持データ拡張 [cs.CV, cs.AI, cs.LG]目的:リング型ポリゴン注釈のトポロジー保持データ拡張手法
- 構造化された分野では,領域をリング型ポリゴンで表現することが一般的である。
- 既存のデータ拡張手法は,ポリゴンの連結性を破壊する可能性がある。
- リング型ポリゴンの構造的関係を保ちつつデータ拡張を可能にすること。
- 本手法は,マスク空間での変換とインデックス空間への投影により,隣接関係を復元する。
- これにより,ポリゴンの元のトラバーサル順序を維持し,トポロジーの一貫性を保つ。
- 実験により,本手法が連結性を確実に復元し,高い Cyclic Adjacency Preservation (CAP) を実現することが示された。
ストリーミング3D再構成のための訓練不要アプローチ:SSR [cs.CV]目的:ストリーミング3D再構成における幾何学的ドリフトの軽減
- リアルタイムな3D再構成は,ロボティクスや拡張現実など多様な応用分野で重要性が増している。
- 再帰型モデルは,時間経過に伴う誤差の蓄積により,ドリフトが発生しやすいという課題がある。
- グラスマン多様体を用いた正則化により,ドリフトを抑制し再構成精度を向上させる。
- 提案手法SSRは,訓練を必要とせず,既存のストリーミング3D再構成システムに容易に組み込むことができる。
- SSRは,過去の状態間の親和性行列を解析的に計算し,現在の更新を正則化することでドリフトを効果的に抑制する。
- 実験結果から,SSRが複数のストリーミング3D再構成タスクにおいて一貫してドリフトを低減し,再構成品質を向上させることが示された。
ノイズ環境における音声強調がオーディオディープフェイク検出に与える影響の調査 [cs.SD, cs.LG]目的:ノイズ環境下でのオーディオディープフェイク検出性能に対する音声強調の相関関係
- 音声認証システムは,セキュリティにおいて重要な役割を担う。その堅牢性を高めることが不可欠である。
- 音声合成や声質変換技術の進化により,音声認証システムを欺くディープフェイク攻撃のリスクが高まっている。
- ノイズ環境下でのディープフェイク検出性能を向上させるため,音声強調技術の有効性を検証し,最適な手法を特定すること。
- 音声品質指標とディープフェイク検出性能の相関関係が確認された。高音質な音声強調が必ずしも性能向上に繋がるとは限らない。
- MetricGAN+は高い音声品質指標を示したが,EERはSEGANよりも高くなった。つまり,ディープフェイク検出性能は低い。
- SEGANは低い音声品質指標を示したが,EERはMetricGAN+よりも低くなった。ディープフェイク検出性能は高い。
AnyPhoto:ID適応モジュレーションによる多人数同時画像生成 [cs.CV]目的:多人数同時画像生成におけるID保持の実現
- 画像生成技術は,エンターテイメントやデザインなど様々な分野で活用が期待されている。
- 既存手法では,IDとレイアウトの制約が強すぎると,コピー&ペーストのような粗雑な生成になりやすい。
- テキストプロンプトに基づいた正確な配置とID保持を両立する画像生成手法を開発する。
- AnyPhotoは,RoPEアラインメントされた位置キャンバスとトークン剪定により,空間的な位置合わせを実現した。
- 顔認識埋め込みを用いたAdaLNスタイルのID適応モジュレーションにより,一貫したID保持を可能にした。
- MultiID-Benchにおいて,ID類似度の向上とコピー&ペースト傾向の抑制を確認し,特にID数が多い場合に効果を発揮した。
単一画像からの布の動きを考慮した,アニメーション可能な3Dアバターのゼロショット再構成 [cs.CV]目的:単一画像からのアニメーション可能な3Dアバターと布の動きの再構成
- 人間理解やバーチャルコミュニケーションにおいて,リアルな3Dアバターの重要性は増している。
- 既存手法は関節の剛体変換に依存しており,リアルな布の動きを再現できないという課題がある。
- 本研究は,単一画像からリアルな布の動きを伴う3Dアバターを再構成することを目的とする。
- DynaAvatarは,大規模なモーションデータセットで学習されたTransformerベースのアーキテクチャを用いる。
- 静的データから動的データへの知識転移戦略と,光学フローに基づくDynaFlow損失を導入した。
- 既存の動的キャプチャデータセットのSMPL-Xフィッティングを再アノテーションすることで,高精度なモデルの学習を可能にした。
制御可能な微細表情を実現する高精度3D顔アバター合成 [cs.CL, cs.CV]目的:制御可能な微細表情を持つ3D顔アバターの合成手法
- 顔認識技術は,人間とコンピュータ間の自然な対話を可能にするために不可欠である。
- 既存手法では,微細な表情の正確な制御が難しく,リアルなアバター生成の障壁となっている。
- 表情テキストから微細な表情を正確に制御し,高精度な3D顔アバターの合成を目指す。
- 本研究では,事前学習済みの3D-Aware GANと3DMMを同時に最適化する新しい手法を提案した。
- Dual MappersモジュールとText-Guided Optimizationにより,表情テキストに基づいた微細な表情制御を実現した。
- 実験結果から,提案手法が既存手法と比較して,有効性と優位性を示すことが確認された。
監督の思考:協調的意思決定によるマルチモーダルエージェント駆動型映画プレビズ [cs.AR, cs.RO, cs.RO, cs.RO, cs.CV]目的:映画プレビズのためのマルチモーダルエージェント駆動型フレームワーク
- 映画制作の初期段階における効率化が求められており,時間とコストの削減が重要である。
- 従来のプレビズ制作は手作業が多く,反復的な修正に時間がかかるという課題がある。
- エージェントの協調により,自動化されたプロトタイピングと人間との協調を可能にすることを目指す。
- Mind-of-Directorは,脚本開発,仮想シーン設計,キャラクター動作制御,カメラプランニングの4つのモジュールで構成される。
- 各モジュールは協調的に動作し,アイデアに基づいて高品質なプレビズシーケンスを生成する。
- 実験結果から,約25分でアイデアごとのプレビズシーケンスを作成可能であり,エージェント協調の有効性が示された。
対面:複数人インタラクションモデリングのためのビデオデータセット [cs.CV, cs.LG]目的:複数人インタラクションモデリングのためのビデオデータセット
- 人間同士のコミュニケーション理解は,自然な人間-コンピュータインタラクション実現に不可欠である。
- 既存のデータセットは単独話者のモノローグが多く,対話のテンポや反応性を捉えにくい。
- 対話における一連の行動と反応の関係性を捉え,より自然なインタラクションモデリングを可能とする。
- 「The Face-to-Face with Jimmy Fallon (F2F-JF)」は,70時間の14,000クリップを含む,2人トークショーの会話データセットである。
- ゲストのターンとホストの応答間の順次依存関係を保持しており,効率的なデータ抽出パイプラインが構築されている。
- クロスパーソン視覚コンテキストで条件付けた拡散モデルは,感情FIDとFVDスコアがわずかに向上し,リップシンク品質も維持された。
ロバストかつ閾値耐性のある幾何学的推定のためのグローバル截断損失最小化 [cs.CV, cs.RO]目的:ロバストな幾何学的推定の実現
- 幾何学的推定は,コンピュータビジョンやロボティクスなど,多くの分野で重要な役割を担う。
- 外れ値の影響を受けやすく,閾値設定に依存する問題がある。
- 截断損失関数をグローバルに最小化することで,外れ値への耐性を高め,閾値依存性を軽減する。
- 提案手法GTMは,多様な幾何学的問題において,截断損失関数をグローバルに最適化する初の統一的なフレームワークである。
- GTMは,n次元問題に対し,(n-1)次元部分空間でBnB探索を行い,残りの1次元変数を関数制約によって解くハイブリッドな手法を採用する。
- 実験結果から,GTMは従来のCMやTLベースの手法と比較して,優れた閾値耐性と高い効率を示すことが確認された。
VorTEX:ターゲット音声抽出のための様々なオーバーラップ率 [cs.SD, cs.AI, cs.CL]目的:ターゲット音声抽出における分離性能の向上
- 音声分離は,様々なコミュニケーション場面において重要であり,その実用性を高めることが求められている。
- 既存手法は,完全にオーバーラップした混合音を前提としており,現実的な状況下での性能評価が不十分である。
- 様々なオーバーラップ率下でのターゲット音声抽出性能を評価し,ロバストな分離を実現することを目的とする。
- VorTEXは,Decoupled Adaptive Multi-branch Fusionブロックにより,主要な抽出と補助的な正則化を分離し,優れた分離性能を発揮する。
- 新開発のデータセットPORTEにより,0%から100%までの様々なオーバーラップ率下での評価が可能となった。
- 提案手法は,既存モデルと比較して,20%~100%のオーバーラップ率で高い分離忠実度を示し,抑制による歪みのないロバストな抽出を実現した。
HiMemVLN:階層型メモリシステムによるオープンソースゼロショット視覚言語ナビゲーションの信頼性向上 [cs.CV, cs.RO]目的:視覚言語ナビゲーションにおける信頼性向上
- 視覚言語ナビゲーションは,ロボット工学や拡張現実など,様々な分野での応用が期待されている。
- オープンソースLLMでは,クローズドソースモデルと比較して性能が低いという課題がある。
- ナビゲーションにおける「ナビゲーション失憶症」を緩和し,性能向上を目指す。
- HiMemVLNは,マルチモーダル大規模モデルに階層型メモリシステムを組み込むことで,視覚的知覚の想起と長期的な位置推定を強化する。
- シミュレーション環境と実環境の両方で実験を行った結果,HiMemVLNは既存のオープンソース最先端手法の性能をほぼ2倍に向上させた。
- 本研究で特定された「ナビゲーション失憶症」が,オープンソースとクローズドソースモデル間のギャップを大きくすることを示唆された。
エゴからワールドへ:強化学習による具現化システムにおける協調的な空間推論 [cs.RO, cs.CY, cs.RO, cs.CV]目的:分散化された部分的視点からの世界理解
- 具現化されたマルチエージェントシステムにおいて,環境を理解することは不可欠である。
- エージェントは,遮蔽や曖昧さによって制限されることが多い自己中心的な視点から環境を認識する。
- 複数の視点からの情報を融合し,空間的推論を可能にすることを目的とする。
- CoRLは,Chain-of-Thoughtを用いた事前学習と,グループ相対的方策最適化による強化学習を組み合わせたフレームワークである。
- CoRLは,E2Wベンチマークにおいて,強力な既存モデルを凌駕する結果を示した。
- CoRLは,外部の空間推論ベンチマークや実世界のマルチロボット操作にも一般化可能であることを示した。
M2IR:Mamba様式変調と混合エキスパートによるプロアクティブな汎用画像修復 [cs.CV]目的:汎用画像修復のための,劣化伝播を積極的に制御するフレームワーク
- 画像修復技術は,様々な画像劣化に対応し,高品質な画像復元を可能にするために不可欠である。
- Transformerアーキテクチャは性能が高いが,劣化を抑制するのではなく伝播させてしまうという課題があった。
- M2IRは,劣化伝播の積極的な制御を通じて,汎用性,適応性,詳細な復元能力の向上を目指す。
- M2IRは,エンコード段階での劣化伝播の抑制と,デコード段階での残存劣化の効率的な除去を実現した。
- Mamba様式Transformerブロックは,ピクセル単位での選択的な状態変調により,劣化を軽減しつつ構造的整合性を維持する。
- 適応的劣化エキスパート連携モジュールは,DA-CLIP駆動のルーターと共有エキスパートを活用し,標的を絞った協調的な修復を行う。
RAZOR:Vision Transformerと拡散モデルにおける標的型アンラーニングのための比率を考慮したレイヤー編集 [cs.CV, cs.AI]目的:Transformerベースのモデルにおける標的データ除去の効率化
- Transformerモデルは画像処理で高い性能を示すが,安全性の確保が重要である。
- モデルから不要な情報を削除するには再学習が必要であり,効率性が課題である。
- RAZORは,再学習なしで標的データを正確かつ効率的に削除することを目指す。
- RAZORは,Transformerモデルの重要なレイヤーと注意ヘッドを特定し,それらを調整することでアンラーニングを実現する。
- CLIP,Stable Diffusion等の多様なモデルで,高い精度と安定した忘却性能が確認された。
- RAZORは,従来の技術と比較して,保持率と効率性が向上し,実用的なアンラーニング手法となる。
RadarXFormer: 4Dレーダーと画像のクロスカウン融合によるロバストな物体検出 [cs.CV]目的:4Dレーダー分光とRGB画像間のクロスカウン融合による3次元物体検出フレームワーク
- 自動運転システムにおいて,安全な動作には信頼性の高い知覚が不可欠である。
- カメラやLiDARベースの知覚システムは,悪天候や照明条件で性能が低下し,実用化が限定される。
- 本研究は,レーダーとビジョンの融合により,悪天候下でのロバスト性を向上させることを目指す。
- 提案手法RadarXFormerは,4Dレーダー分光とRGB画像を効率的に融合することで,従来の3次元点群に依存しない効率的な3次元表現を構築する。
- 多スケールな3次元球面レーダー特徴キューブと2次元画像特徴マップのクロスカウン融合機構により,データ量を削減しつつ,完全な3次元空間情報を保持する。
- K-Radarデータセットでの実験により,困難な条件下での検出精度とロバスト性が向上し,リアルタイム推論能力を維持することが示された。
1つの射影で二羽の鳥:推論時の特徴射影によるLVLMにおける安全性と有用性の調和 [cs.CV, cs.AI]目的:大規模ビジョン言語モデルにおける安全性と有用性のトレードオフ解消
- 視覚情報と言語を統合するモデルの応用が拡大しており,安全性と性能の両立が重要である。
- 既存の防御策は,安全性を高めると同時に,一般的な推論タスクの性能を低下させる傾向がある。
- モデル内部のバイアス方向を特定し,特徴射影によって除去することで,安全性と有用性を両立させる。
- 本研究では,視覚エンコーダーと大規模言語モデル間の結合が最適でないことに起因するバイアス方向を特定した。
- 提案手法「Two Birds, One Projection」は,推論時にこのバイアス方向の零空間への特徴射影を行うことで,安全性を高めつつ性能を維持する。
- 多様なベンチマークにおいて,従来のトレードオフを打破し,安全性と有用性の両方を同時に改善することを示した。
SemanticFace:解釈可能な空間における意味的蒸留による顔のアクション推定 [cs.CV]目的:顔のアクション推定における意味的蒸留フレームワーク
- 顔の表情解析は,アバター制御や人間-コンピュータインタラクション等の応用に不可欠である。
- 既存手法は表情空間がコンパクトで意味解釈が難しく,実用的な課題となっていた。
- ARKitブレンドシェイプ空間で解釈可能な顔のアクション推定を可能にすること。
- 言語に整合した意味的監督により,係数の精度と知覚的な一貫性が向上した。
- 高い個人識別力での汎化性能と,カートゥーン顔のような大きなドメインシフトへのロバスト性を示した。
- 画像から解釈可能な顔のアクション係数の予測を,構造化された意味的推論として実現した。
3Dへの道半ば:2.5Dと3DモデルのアンサンブルによるロバストなCOVID-19 CT診断 [cs.CV, cs.LG]目的:COVID-19の検出と疾患分類のための深層学習フレームワーク
- COVID-19感染拡大は世界的な健康問題であり,迅速かつ正確な診断が不可欠である。
- CT画像診断は有用だが,医療画像データの解釈には専門知識が必要であり,誤診のリスクがある。
- 2.5Dと3Dモデルの融合により,診断精度とロバスト性を向上させることを目指す。
- 提案手法は,PHAROS-AIF-MIHベンチマークにおいて高い性能を示し,二値分類の精度は94.48%を達成した。
- 多クラス疾患分類においては,2.5D DINOv3モデルが最高の性能(精度79.35%)を示した。
- スライスベースの表現とボリュームモデリングの組み合わせが,医療画像解析におけるロバスト性を高めることが示された。
ハリケーン被害評価のためのCLIP強化マルチモーダル仲裁フレームワークDamageArbiter [cs.CV]目的:ハリケーン被害のストリートビュー画像からの評価精度,解釈可能性,およびロバスト性の向上
- 緊急時の対応や復旧において,ストリートビュー画像を用いた迅速な局所被害評価の重要性が高まっている。
- 従来のモデルは解釈性や信頼性に乏しく,ブラックボックス化が課題となっていた。
- 視覚情報とテキスト情報の相互補完性を利用し,モデル間の不一致を仲裁することで,より信頼性の高い被害評価を目指す。
- DamageArbiterは,画像のみのモデル(ViT-B/32)の精度74.33%から82.79%へと,8.46%の絶対的な改善を達成した。
- モデル間の不一致を仲裁することで,曖昧な状況下での視覚モデルの過信誤りを軽減し,誤った予測を抑制する効果が確認された。
- 地理情報を活用した分析により,モデルの性能が場所によって異なることが示され,詳細な評価が可能となった。
医療画像セグメンテーションのための残差フィッシャー情報を用いたパーソナライズされた連合学習 [cs.CV]目的:医療画像セグメンテーションにおけるパーソナライズされた連合学習のフレームワーク
- 医療データのプライバシー保護と,分散環境での機械学習の活用が重要視されている。
- クライアント間のデータ異質性が,連合学習の性能低下の要因となっている。
- クライアント固有のデータ特性に対応したモデルのパーソナライズが求められている。
- 提案手法pFL-ResFIMは,クライアント固有のパラメータ適応パーソナライズを実現する。
- 残差フィッシャー情報行列ResFIMを用いて,ドメイン差異に対するモデルパラメータの感度を定量化する。
- 公開データセットでの実験により,pFL-ResFIMが最先端手法を凌駕することが示された。
アーティファクトから洞察へ:走査プローブ顕微鏡画像復元のためのBrushNetの効率的な低ランク適応 [cs.CV, cond-mat.mes-hall]目的:走査プローブ顕微鏡画像におけるアーティファクトの除去と画像品質の向上
- 走査プローブ顕微鏡はナノスケールでの高解像度観察を可能にするが,得られる画像には様々なアーティファクトが含まれる。
- 既存手法はアーティファクト除去を独立したノイズ除去や補間問題として扱う傾向があり,生成的なインペインティングの視点が不足している。
- 本研究は,少量のパラメータ調整で走査プローブ顕微鏡画像特有のアーティファクトを除去し,高品質な画像復元を実現することを目指す。
- 低ランク適応(LoRA)を用いたBrushNetの微調整により,わずか0.2%のパラメータ数で拡散モデルを適応させた。
- 公開予定のSPM InpBenchベンチマークにおいて,LoRAによるモデルはPSNRを6.61dB向上させ,LPIPSを半分に削減した。
- フルリトレーニングと同等以上の精度を,4枚の高メモリカードではなく単一のGPUで実現し,汎用性の高い画像復元を可能にした。
AutoMoT:非同期Mixture-of-Transformersを用いた統一されたビジョン・言語・行動モデルによるエンドツーエンド自律運転 [cs.CV, cs.RO]目的:エンドツーエンド自律運転システムの性能向上
- 自動運転は,安全性向上や移動の効率化に貢献する重要な技術である。
- 既存手法では,推論と行動の空間の不一致,事前学習済みVLMsの能力不足,推論遅延が課題となっている。
- 本研究では,推論と行動生成を統合し,効率的な推論を実現することで,これらの課題の解決を目指す。
- 提案手法AutoMoTは,複数のベンチマークにおいて,最先端手法と同等以上の性能を達成した。
- 事前学習済みVLMは,意味的プロンプトのみで高度なシーン理解能力を示すことが示された。
- 意思決定や軌道計画といった行動レベルのタスクには,自動運転に特化したファインチューニングが依然として必要である。
WhispSynth:リアルデータキュレーションと新規ピッチフリー生成フレームワークによる多言語Whisperコーパスの拡張 [cs.RO, cs.SY, eess.SY, cs.SD]目的:多言語の高品質な囁き音声コーパスの構築
- 音声認識や音声合成の分野において,より自然な対話システムの実現には,多様な音声データの収集が不可欠である。
- 囁き声は音量が小さく,高品質な録音が困難であり,十分な量の学習データ確保が課題となっていた。
- 高品質な囁き音声データを効率的に生成し,音声認識モデルの性能向上に貢献することを目指す。
- WhispSynthは,DDSPベースのピッチフリー法とTTSモデルを組み合わせた新規生成フレームワークにより,118時間の高品質囁き音声コーパスを構築した。
- このコーパスは,既存のデータセットと比較して,音声品質が大幅に向上していることが実験的に示された。
- WhispSynthで学習させたCosyWhisperは,実データに匹敵する自然な音声を生成することに成功した。
水平から回転へ:方位を考慮したクロスビュー物体ジオロケーション [cs.CV]目的:クロスビュー物体ジオロケーションの精度向上
- 衛星画像と地上・ドローンからの視点を利用し,物体の正確な位置を特定する技術は,多様な応用分野で重要である。
- 従来の検出ベース手法では,水平バウンディングボックスの形状と特徴マップのスケーリングによる精度低下が課題となっていた。
- 回転バウンディングボックスを活用し,より正確な形状表現と位置回帰を実現することで,この課題を解決する。
- 提案手法OSGeoは,マルチスケール知覚モジュールと方位感受性ヘッドを組み合わせることで,高精度な回転バウンディングボックス回帰を実現した。
- CVOGL-Rという回転バウンディングボックス注釈付きのデータセットを新たに構築・公開し,研究を促進する。
- 実験の結果,OSGeoは最先端の性能を達成し,セグメンテーションベース手法と同等以上の精度を,より低コストなアノテーションで実現した。
ビデオ検出器:リアルタイム交通交差点制御とインテリジェント交通分析のための双相ビジョンベースシステム [cs.CV, cs.AI]目的:交通交差点管理および交通行動分析のためのビジョンベースシステムの開発
- 都市交通管理において,高コストなインフラ変更を伴わずに動的な交通状況に適応できる知能型センシングシステムの需要が高まっている。
- 従来の誘導ループ検出器は設置にコストがかかり,柔軟性に欠けるという課題がある。
- 本研究は,柔軟かつ費用対効果の高い代替手段として,ビジョンベースの交通交差点管理システムを提案し,その有効性を検証することを目指す。
- 提案システムは,SSD Inception v2,Faster R-CNN Inception v2,CenterNet ResNet-50 V1 FPNの3つの構成で実装され,最大90%のテスト精度と29.5 mAP@0.5の検出性能を示した。
- リアルタイム処理能力はHDビデオストリーム上で37 FPSを維持し,多様な環境条件下での安定稼働が実証された。
- 仮想ループ検出,車両数,多物体追跡,渋滞推定,速度分析,多クラス車両分類などの機能をサポートし,道路埋設センサーが不要な包括的な交差点監視を可能にする。
分散型二階層強化学習のためのサンプル効率的なハイパー勾配推定 [cs.CL, cs.LG, cs.AI, cs.GT, cs.MA]目的:分散型二階層強化学習におけるハイパー勾配推定手法
- 戦略的意思決定問題のモデリングにおいて,二階層強化学習は重要な役割を果たす。
- リーダーがフォロワーの最適化過程に介入できない分散型環境下では,ハイパー勾配の推定が困難である。
- 効率的なハイパー勾配推定により,高次元なリーダーの決定空間における最適化を可能とする。
- ボルツマン共分散トリックを用いることで,少ないサンプル数でハイパー勾配を効率的に推定できることを示した。
- 本手法は,2人ゲームのような複雑な環境下においても,ハイパー勾配に基づく最適化を可能にする。
- 離散状態および連続状態のタスクにおいて,ハイパー勾配更新の有効性を実験的に確認した。
RealVLG-R1:ロボット知覚と操作のための大規模実世界視覚言語接地ベンチマーク [cs.CV]目的:実世界の視覚言語接地と把持タスクの統合
- ロボットによる高度なタスク遂行には,視覚情報と自然言語指示の理解が不可欠である。
- 既存の視覚言語接地研究は粗粒度な物体レベルでの定位に偏っており,把持においては言語ガイダンスが不足している。
- 言語指示に基づいたロボットの知覚と把持を可能にするための,包括的なベンチマークを構築すること。
- RealVLG-11Bデータセットは,16.5万枚の画像と110億の把持例を含む,多粒度なアノテーションを提供する。
- RealVLG-R1は,事前学習済みの大規模ビジョン言語モデルを強化学習で微調整し,統一的に物体定位と把持姿勢を予測する。
- 実験により,RealVLGが未知の環境でゼロショットの知覚と操作をサポートすることが示された。
LLMind:視覚言語モデルのための生物学的着想に基づく学習不要型適応的視覚表現 [cs.CV]目的:視覚言語モデルにおける効率的かつ適応的な視覚表現の実現
- 視覚言語モデルの性能向上には,限られた計算資源での効率的な情報処理が不可欠である。
- 従来の視覚言語モデルは,視覚入力全体に対して均一な精度を仮定しており,非効率である。
- 人間の視覚システムに着想を得て,必要な領域に焦点を当てた効率的な視覚表現を構築する。
- LLMindは,人間の視覚における焦点眼窩窩と皮質拡大を模倣することで,限られたピクセル数下で適応的かつ効率的な視覚表現を実現する。
- 提案手法BASSは,非一様サンプリングを行いながらグローバルなシーン構造を維持し,優れた性能を発揮する。
- 実験結果から,LLMindは限られたピクセル数で従来のモデルと同等以上の性能を維持し,VQAv2,Seed-Bench,A-OKVQAで顕著な改善が見られた。
SpiralDiff:カメラ間RGB-to-RAW変換のためのLoRAを用いたスパイラル拡散 [cs.HC, cs.CL, cs.CV]目的:RGB画像からRAW画像を合成する手法
- RAW画像はRGB画像より高画質であり,厳しい撮影環境下で重要である
- 既存手法は,画素強度による再構成難易度やカメラ特有の問題に対応できていない
- 画素強度に応じたノイズ重み付けとカメラ適応モジュールによるRAW画像変換の改善
- 提案手法SpiralDiffは,RGB-to-RAW変換において既存手法を上回る画質を実現した
- カメラ固有のISP特性に適応するCamLoRAにより,異なるカメラ間での変換を可能にした
- RAWベースの物体検出においても,ダウンストリームタスクの性能向上を示した
SAR画像における物体検出のための物理に基づいた散乱トポロジー埋め込みフレームワーク [cs.CV]目的:SAR画像における物体検出性能の向上
- SAR画像は,天候や時間帯に左右されず,地表情報を取得できるため,重要な役割を担う。
- 既存の深層学習手法は,光学画像処理の枠組みに依存し,SAR特有の電磁波散乱メカニズムを無視している。
- 電磁波散乱トポロジー情報を効率的に組み込むことで,SAR画像における物体検出の精度と解釈性を向上させる。
- 提案手法PASTEは,様々な物体検出器と互換性があり,ベースラインと比較してmAPを2.9%~11.3%向上させる。
- PASTEは,Attributed Scattering Centerモデルに基づく散乱キーポイント生成と自動アノテーションにより,物理的に整合性のとれた事前知識を生成する。
- 散乱マップの可視化により,PASTEが散乱トポロジー情報を特徴空間に効果的に埋め込み,物体と背景の散乱領域を明確に区別することが確認された。
顕著性と網羅性のバランス:VLMにおける視覚トークン圧縮のための意味的優位性に基づいた予算配分 [cs.CV]目的:視覚トークン圧縮における予算配分戦略
- 大規模VLMの性能向上には高解像度画像が不可欠だが,計算コストが課題となる。
- 既存の圧縮手法は顕著性や多様性に基づいており,サンプルごとの最適なバランスを考慮していない。
- サンプルごとの意味的優位性に応じて予算を配分し,最適な圧縮を実現することを目指す。
- 提案手法PromPruneは,サンプル適応的な視覚トークン選択フレームワークであり,計算量を大幅に削減する。
- LLaVA-NeXT-7Bにおける実験で,FLOPsを88%削減,prefill latencyを22%短縮しつつ,元の精度を97.5%維持した。
- 意味的優位性に基づいた予算配分により,局所的な顕著性の保持とグローバルな網羅性のバランスを取る。
PerlAD:疑似シミュレーションに基づく強化学習による閉ループエンドツーエンド自動運転の強化に向けて [cs.DB, cs.RO, cs.CL, cs.RO, cs.CV]目的:疑似シミュレーションに基づく強化学習による閉ループエンドツーエンド自動運転手法
- 自動運転技術は,交通渋滞の緩和や交通事故の削減に貢献し,社会に大きな変革をもたらす可能性を秘めている。
- 模倣学習では,実走行データと実際の走行状況のずれが課題であり,閉ループ環境下での性能低下が懸念される。
- 実環境での試行錯誤コストを削減しつつ,実走行環境に適応可能な自動運転システムの開発を目指す。
- PerlADは,ベクトル空間で効率的な学習を可能にする疑似シミュレーションを構築し,レンダリングギャップと計算コストの問題を解決した。
- 予測ワールドモデルを導入することで,静的なデータセットと動的な閉ループ環境とのギャップを埋め,より現実的な学習を実現した。
- Bench2Driveベンチマークにおいて,既存のエンドツーエンド強化学習手法を10.29%上回り,高い性能を示した。
TopoVST:トポロジー忠実な血管骨格追跡に向けて [cs.CV]目的:血管骨格追跡のトポロジー忠実性の向上
- 臨床応用に際し,血管骨格の自動抽出は不可欠な技術である。
- 細い血管骨格の正確な抽出は,断続性や不要なセグメントの存在により困難である。
- トポロジーを維持しつつ,より正確な血管骨格追跡を実現すること。
- TopoVSTは,多重スケールの球グラフを用いて画像をサンプリングし,グラフニューラルネットワークにより追跡方向と血管半径を推定する。
- ゲート機構を用いた特徴融合や,形状に基づいた重み付け損失関数により,精度とロバスト性を高めている。
- 空間占有フィルタリングによる不要な骨格の生成抑制も特徴であり,複数のデータセットで最先端手法と同等以上の性能を示した。
ILV:高速かつ正確なスパースビューCT再構成のための反復潜在ボリューム [cs.CV]目的:スパースビュープロジェクションからの高速かつ正確な3D再構成
- CT画像診断では,被ばく線量を低減し,システムコストを削減することが重要である。
- 従来の再構成手法では,スパースビューデータからの高品質な画像再構成が困難である。
- スパースビューCT再構成におけるアーチファクト軽減と微細構造の復元を目指す。
- ILVは,データ駆動型事前知識と古典的な反復再構成を統合することで,既存のfeed-forwardモデルの限界を克服する。
- 明示的な3D潜在ボリュームを構築し,X線特徴と学習された解剖学的事前知識に基づいて繰り返し更新する。
- 大規模データセットでの実験により,ILVは再構成品質と速度の両方において既存手法を大きく上回ることが示された。
EditHF-1M:画像編集のための100万規模の豊富な人間による嗜好フィードバック [cs.CV, cs.MM]目的:画像編集に関する人間の嗜好に基づく評価モデル及びデータセット
- 近年,画像編集技術が発展しているが,その品質評価は重要な課題である。
- 既存の評価指標では,人間の主観的な品質判断との乖離が生じやすい。
- 人間による評価を大規模に収集し,高品質な報酬モデルを構築することを目指す。
- EditHF-1Mは,2900万組を超える人間の嗜好ペアと148,000件の平均意見評価を含む大規模データセットである。
- EditHFは,このデータセットに基づき,人間の嗜好に沿ったフィードバックを提供するマルチモーダル大規模言語モデルである。
- EditHF-Rewardを用いることで,画像編集モデルの性能が大幅に向上することが示された。
F²HDR:フローアダプタと物理モーションモデリングによる2段階HDRビデオ再構成 [cs.DL, cs.CV]目的:HDRビデオ再構成手法
- ビデオ技術の発展に伴い,より現実的な映像表現へのニーズが高まっている。
- 動的なシーンにおいて,露出差や複雑な動きによるフレーム間アライメントの困難さが課題。
- 動きの激しいシーンでもゴーストやディテール損失を抑制したHDRビデオ再構成を実現。
- 提案手法F²HDRは,フローアダプタと物理モーションモデリングを統合し,フレーム間モーションを正確に捉える。
- 露出差の大きい動的シーンにおいて,ゴーストやノイズを低減し,高精度な再構成を可能にする。
- 実世界のHDRビデオベンチマークにおいて,最先端の性能を達成し,高品質な結果を得ている。
イラスト制作のためのワークフローを意識した構造化レイヤー分解 [cs.CV, cs.GR]目的:イラスト制作における構造化レイヤー分解手法
- 画像生成編集技術は,ラスタ画像の複雑さを軽減し,制御性を向上させるため,レイヤー表現が重要視されている。
- 既存手法では,アニメイラストのような構造や様式特性を捉えきれない場合がある。
- アニメイラスト制作ワークフローに基づき,意味のあるプロダクションレイヤーへの分解を目指す。
- 提案手法は,線画,単色,影,ハイライトといったレイヤーにイラストを分解することに成功した。
- 軽量なレイヤーセマンティック埋め込みにより,各レイヤーへのタスク誘導を行い,高品質な分解を実現した。
- 生成されたレイヤー表現は,リカラーやテクスチャ埋め込みといった下流タスクを支援し,コンテンツ制作に貢献する。
