arXiv雑要約
画像・音声 - 2025/10/13 公開
mmWaveに基づく3D姿勢推定における関節表現の拡張:mmJoints [cs.CV]目的:mmWaveに基づく3D姿勢推定における関節記述子の拡張
- mmWave技術は,カメラ等に頼らず姿勢推定が可能であり,プライバシー保護の観点から重要性が増している。
- mmWave信号は疎であり,反射が弱いため,姿勢推定モデルがセンサーデータよりも事前知識に依存しがちである。
- 事前知識への過度な依存を軽減し,姿勢推定の精度と解釈性を向上させることを目指す。
- mmJointsは,既存の3D姿勢推定器の出力に,関節が検知されている確率と位置の信頼性を示す記述子を追加する。
- 実験の結果,mmJointsは記述子の推定誤差を4.2%以下に抑え,関節位置の推定精度を最大12.5%向上させた。
- また,活動認識の精度も最先端手法と比較して最大16%向上することを示した。
マルチベクトル画像検索のための階層的スケジューリング [cs.RO, cs.CV, cs.DC, cs.IR]目的:マルチベクトル画像検索における効率的なスケジューリングフレームワーク
- 大規模言語モデルの性能向上には,ユーザー固有データの活用が不可欠であり,検索拡張生成が注目されている。
- 従来の検索手法では,検索精度が課題であり,マルチベクトル検索も最適とは言えない。
- 画像オブジェクトとクエリの整合性や,冗長な画像セグメントが課題であり,それを解決する。
- 提案手法HiMIRは,複数の粒度を用いた階層的パラダイムにより,クエリと画像オブジェクト間の整合性を高めた。
- クロス階層類似性の一貫性と階層的疎性を活用することで,冗長なマッチング計算を削減した。
- 多様なデータセットに対して,パラメータを自動的に設定し,実用性を向上させた。実験的に,HiMIRは既存システムと比較して精度を向上させ,計算量を最大3.5倍削減した。
HandEval:生成画像における手の品質評価に向けた第一歩 [cs.CV]目的:生成画像における手の品質評価
- 画像生成技術の発展に伴い,より高品質な画像生成が求められている。
- 特に,複雑な領域である手の生成は難しく,歪みや不自然なテクスチャが課題である。
- 生成された手の品質を客観的に評価する手法を確立し,画像生成の改善に貢献する。
- 本研究では,生成画像の手の品質評価タスクを提案し,その有用性を示した。
- 新たにHandPairデータセットを構築し,質の高い手画像ペアを用いて効率的な学習を可能にした。
- HandEvalという評価モデルを開発し,人間の評価との相関性が既存手法よりも高いことを確認した。
彩色不能な事例:知覚を意識した色制限摂動によるAIによる無許可の彩色を防止 [cs.CV, cs.LG]目的:AIによる無許可の彩色を防止するための手法
- AI技術の発展は画像処理に革新をもたらす一方,著作権侵害のリスクも伴う。
- モノクロ画像に対するAIによる彩色技術は進歩しているが,無断利用を防ぐ有効な手段が存在しない。
- 著作権保護の観点から,AIによる無許可の彩色を防ぐための防御策を確立することを目指す。
- 提案手法PAChromaは,知覚的に不可知な摂動を埋め込むことで,AIによる彩色を効果的に阻害する。
- ImageNetおよびDanbooruデータセットにおける実験により,PAChromaが彩色の品質を低下させつつ,視覚的な外観を維持することが確認された。
- 本研究は,生成メディアにおける著作権を意識した防御策の第一歩となる。
自己回帰型テキスト-画像生成の加速のための推測的ヤコビ-ノイズ除去デコーディング [cs.CV]目的:自己回帰型テキスト-画像生成における推測的ヤコビ-ノイズ除去デコーディングの提案
- 近年,テキストから画像を生成する技術が発展している。しかし,生成速度が課題となっている。
- 自己回帰モデルは逐次的な処理のため,画像の生成に多くの計算時間を要する。
- ヤコビ反復とノイズ除去を組み合わせ,並列トークン生成を実現し,生成速度を向上させる。
- 提案手法は,ノイズの摂動を受けたトークン埋め込みを入力とし,低コストなファインチューニングにより次のクリーンなトークンを予測する。
- 推測的ヤコビ-ノイズ除去デコーディングは,モデルの順方向パス数を削減し,生成を高速化できる。
- 生成された画像の視覚的な品質を維持しつつ,生成速度の向上が確認された。
大規模ビジョン言語モデルにおける物体幻覚に対する視覚トークンの認識的不確実性 [cs.CV, cs.AI, cs.CL]目的:大規模ビジョン言語モデルにおける物体幻覚の原因究明と軽減策の提案
- 近年,画像と言語を統合する大規模モデルが多様なタスクで成果を上げている。
- これらのモデルは,入力画像に存在しない物体を記述する物体幻覚という課題を抱えている。
- 視覚エンコーダ内の認識的不確実性の高いトークンが物体幻覚の一因となる点を明らかにし,その抑制を目指す。
- 視覚エンコーダ内のトークン認識的不確実性と物体幻覚の発生との間に正の相関関係が認められた。
- 小さな敵対的摂動に対する表現のずれが大きいトークンは,認識的不確実性が高い傾向にある。
- 敵対的摂動を用いた不確実な視覚トークンの特定と,自己注意機構におけるマスク処理により,物体幻覚を大幅に軽減できることが示された。
エントロピーの観点からの,より良く,より高速な自己回帰型画像生成 [cs.CV]目的:自己回帰型画像生成の質と速度の向上
- 画像生成技術は,多様な応用分野において重要な役割を担う。
- 既存の自己回帰型画像生成モデルでは,サンプリング効率が課題となっていた。
- 画像トークンの特性を考慮したデコード戦略により,生成効率の改善を目指す。
- 本研究では,空間エントロピーに基づく動的な温度制御を導入し,生成の多様性,正確性,構造の一貫性を高めた。
- 推測デコードにおけるエントロピーを考慮した受容規則により,従来の高速化手法と同等の効果を,より低い計算コストで実現した。
- 複数のベンチマークテストの結果,提案手法は様々な自己回帰型画像生成モデルにおいて有効であることが示された。
DiTSinger:拡散Transformerと暗黙的アライメントによる歌声合成のスケール拡大 [cs.SD, cs.AI, eess.AS]目的:拡散Transformerと暗黙的アライメントによる高品質な歌声合成手法
- 歌声合成は,音楽制作やエンターテイメントにおいて重要な役割を担う技術である。
- 既存の歌声合成モデルは,データ不足やモデルのスケーラビリティに課題があった。
- データ不足を克服し,モデルのスケーラビリティを高めることで,より高品質な歌声合成を実現する。
- 拡散TransformerであるDiTSingerを,深さ,幅,解像度において系統的にスケール拡大した結果,高忠実度な歌声合成が可能となった。
- 文字レベルの範囲内で音素-音響アテンションを制約する暗黙的アライメント機構により,アライメントのノイズや不確実性に対するロバスト性が向上した。
- 大規模なデータセットを用いた実験により,DiTSingerがスケーラブルで,アライメントフリーかつ高忠実度な歌声合成を実現することが検証された。
非監視型ハイブリッドモデルによる音声の脱残響化 [cs.SD, cs.AI, eess.AS]目的:音声の脱残響化システム
- 音声処理分野において,残響は音声認識やコミュニケーションの妨げとなる重要な課題である。
- 従来の脱残響化アルゴリズムは,清浄音と残響音のペアデータに依存しており,その取得が困難である。
- 残響時間(RT60)等の限定的な音響情報を用いて,ペアデータなしで脱残響化システムを学習すること。
- 本研究で提案する手法は,既存の最先端技術と比較して,様々な客観評価指標においてより安定した性能を示すことが確認された。
- 残響音のみを用いて脱残響化システムを非監視型で学習する新しい戦略が有効であることが示された。
LiDARベースのセマンティックセグメンテーションにおける不完全ラベル下でのドメイン汎化の探求 [cs.CV, cs.LG, cs.RO]目的:LiDARベースの3Dセマンティックセグメンテーションにおけるドメイン汎化
- 自動運転において,LiDARは重要な役割を担い,正確な環境認識が安全性を左右する。
- LiDARアノテーションにはノイズが含まれやすく,ドメインシフト下でセグメンテーション精度を低下させる。
- ノイズのあるラベル下でのLiDARセマンティックセグメンテーションにおけるドメイン汎化を改善すること。
- 本研究では,画像分類で実績のあるノイズ耐性学習戦略を3Dセグメンテーションに適用するベンチマークを確立した。
- 提案手法DuNeは,特徴レベルの一貫性を強制し,信頼度に基づいた予測フィルタリングを行うことで,既存手法を上回る性能を示した。
- SemanticKITTI, nuScenes, SemanticPOSSにおける実験により,10%のラベルノイズ下でも高いドメイン汎化性能が確認された。
GUIエージェントのための自動スケーリング継続メモリ [cs.AI, cs.CL, cs.CV, cs.CY, cs.LG]目的:GUIエージェントにおける汎用性と長期タスク達成の向上
- GUI自動化は,様々なソフトウェア操作を効率化し,人間の負担を軽減する上で重要である。
- 従来のGUIエージェントは,過去の軌跡をテキストトークンに圧縮するため,コンテキスト長が膨大になりやすい。
- 視覚的な手がかりを維持しつつ,メモリコストを削減し,長期タスクにおける性能向上を目指す。
- 提案手法では,GUI軌跡をVLMを用いて固定長の連続埋め込みにエンコードすることで,コンテキストコストを大幅に削減した。
- メモリサイズと検索深度の増加に伴い,性能が単調に向上し,長期プロンプトにおける性能劣化が見られなかった。
- 10万件以上の軌跡を収集し,メモリエンコーダーのみをファインチューニングすることで,最先端のクローズドソースモデルに匹敵する性能を実現した。
潜在拡散モデルの病変認識後学習:CT灌流からの拡散MRI合成 [eess.SY, cs.SY, cs.CV]目的:CT灌流画像から拡散MRI画像を合成するための潜在拡散モデルの後学習フレームワーク
- 医療画像診断において,高画質かつ正確な画像は診断精度に不可欠である。
- 潜在拡散モデルは効率的だが,微細な病変の再構成精度が課題となる場合がある。
- 病変の正確な描出を改善し,診断信頼性を向上させることを目指す。
- 提案手法は,脳CTからMRIへの変換において,DWIおよびADC画像の品質と病変の描出能を向上させた。
- 既存の画像変換モデルと比較して,より高精度な合成画像を生成することが示された。
- 本後学習戦略は,様々な医療画像変換タスクへの応用が期待できる。
OSCAR:フローマッチングにおけるアラインメントを尊重した多様性のための直交確率的制御 [cs.AI, cs.CV]目的:フローマッチングにおける多様性の制御手法
- 画像生成モデルにおいて,多様な画像を生成することは重要である。
- 既存のフローベースの画像生成モデルは多様性が低く,多様な画像を生成に時間がかかる。
- 生成プロセスに不確実性を導入し,多様性を高めるための効率的な手法を提案する。
- 提案手法は,生成フローの品質を損なうことなく,多様性を向上させる。
- Vendi ScoreやBrisqueといった多様性指標において,既存手法よりも優位性を示す。
- 本手法は,追加の学習やサンプラーの変更を必要とせず,既存のフローマッチングソルバーと互換性がある。
O_O-VC:合成データ駆動型の一対一アラインメントによるAny-to-Any音声変換 [cs.SD, eess.AS]目的:Any-to-Any音声変換のための,合成データを用いた一対一アラインメント手法
- 音声変換は,話者の声質を変換し,多様な応用を可能にする重要な技術である。
- 従来の音声変換では,話者情報と音声内容の分離が難しく,情報損失が生じやすい。
- 本研究は,合成データを利用することで,効果的な話者アラインメントを実現し,高品質な音声変換を目指す。
- 提案手法は,既存手法と比較して,単語誤り率を16.35%相対的に低減した。
- また,話者コサイン類似度を5.91%改善し,高い変換性能を示した。
- 未知の話者や言語への適応性も高く,ゼロショットシナリオでの性能向上に貢献する。
MMAudioSep:ビデオ/テキスト照会による音源分離に向けたビデオ-オーディオ生成モデルの制御 [cs.CL, cs.SD, cs.CV, cs.LG, eess.AS]目的:ビデオ/テキストによる照会に応じた音源分離
- 映像と音声の関係性を活用することで,より高度なメディア処理が可能となるため。
- 既存の音源分離モデルは,学習に大量のデータが必要であり,効率性に課題がある。
- 事前学習済みのモデルを活用し,効率的な音源分離モデルの構築を目指す。
- MMAudioSepは,既存の音源分離モデルと比較して,分離性能において優れている。
- ファインチューニング後も,元のビデオ-オーディオ生成能力を維持していることが示された。
- 基礎的な音響生成モデルが,様々な音響関連タスクに応用できる可能性を示唆する。
フレキシブルマイクロ電極アレイの信頼性のあるロボット埋め込みのための視覚的異常検知 [cs.CV, cs.RO]目的:フレキシブルマイクロ電極アレイのロボット埋め込みにおける異常検知手法
- 脳神経科学研究において,高精度な電極埋め込みは重要な課題である。神経活動の正確な記録・刺激に不可欠だからである。
- フレキシブルマイクロ電極アレイは変形しやすく,生体組織との相互作用が複雑で,埋め込み時の異常検知が困難である。
- 本研究は,ロボット埋め込みシステムの視覚情報を用いて,フレキシブルマイクロ電極アレイの埋め込み過程における異常を検知し,信頼性を高める。
- 提案手法は,マイクロニードル,FMEプローブ,フッキング結果,埋め込み点の四つのチェックポイントで異常を検知する。
- 既存の物体検出結果を活用し,画像から関心領域を抽出し,事前学習済みのViTに入力することで,高精度な異常検知を実現した。
- プログレッシブな粒度パッチ特徴サンプリングと,信号対雑音比の高い特徴チャンネルの選択により,異なる場所での感度と許容度のトレードオフを解消した。
ノイズに強く,クロスコーパスに対応した音声感情認識のための感情が分離された埋め込みアラインメント [cs.SD, cs.AI, cs.HC, cs.LG, eess.AS]目的:音声感情認識モデルのロバスト性と汎化性能の向上
- 現実世界の音声感情認識は,多様な環境で使用されるため,その重要性は高い。
- 実際の環境ではノイズやデータセット間の変動により,性能が低下する問題がある。
- ノイズやデータセットの変動に強い,汎化性能の高い感情認識手法を開発する。
- 提案手法は,感情特有の特徴を抽出しつつ,感情カテゴリ間の共通性を維持するEDRLを用いる。
- MEAにより,抽出された表現を,元の音声入力との共分散を最大化する共同判別潜在空間へ投影する。
- ノイズ下やクロスコーパスの音声データに対する評価で,提案手法の有効性が確認された。
MCMC:レンダリング,最適化,生成AIの架け橋 [cs.GR, cs.LG]目的:レンダリング,最適化,生成AIにおけるMCMCの役割の理解
- 近年,生成AIは急速に発展しており,高品質な画像生成が期待されている。
- 拡散モデル等における物理的リアリズムの追求は進むが,関連技術の統合的な枠組みは存在しない。
- MCMCが,レンダリング,最適化,生成AIを結ぶ共通基盤となりうる可能性を探求する。
- MCMC法は,複雑かつ高次元な分布からのサンプリングに有効であり,EBMs等のモデルの正確なサンプル生成に不可欠である。
- 勾配ベースの最適化とMCMCサンプリングは,メモリを持たないマルコフ連鎖を形成することで,互いの利点を組み合わせている。
- 本研究は,これらの要素を理解し,生成ベースの物理的レンダリングという共通目標に向けた理論的・実践的ツールを提供する。
ボクセル・レイトレーシングを用いた動的線集合のリアルタイムレンダリング [cs.GR]目的:動的線集合のリアルタイムレンダリング手法
- 流体シミュレーションやMRI画像処理など,可視化分野において線集合の表現は重要である。
- 密な線集合の空間構造を伝える高品質なグローバルイルミネーションと透明度の実現が困難である。
- 大規模な動的線集合をリアルタイムで高品質にレンダリングする手法を開発し,問題を解決する。
- 提案手法は,効率的なボクセル化アルゴリズムとカメラ可視ボクセルへの絞り込みにより,高速なレンダリングを実現した。
- アンビエントオクルージョンと正確な透明度を組み合わせることで,高品質な画像を得ることができた。
- 実験結果から,半透明な動的線集合のレンダリングにおいて,既存手法を品質とパフォーマンスの両面で上回ることが示された。
ビラボードおよびソーシャルメディア広告における近似ビス準凸後悔最小化 [cs.GT, cs.DB, cs.DS]目的:ビラボード広告における後悔最小化
- 広告市場の効率化が求められており,限られた広告枠を最適に配分することが重要である。
- 広告主の要求と提供する影響力のずれによる損失(後悔)を最小化する手法が課題である。
- ビラボード広告における後悔を最小化するための離散最適化問題の解決を目指す。
- 予算効率の良い貪欲法と,乱数を用いた貪欲法という2つのアプローチを提案した。
- 提案手法は,計算時間と後悔の最小化のバランスが取れていることが実験的に確認された。
- 乱数を用いた貪欲法は,実データを用いた実験で,現実的な計算時間で後悔を最小化できることが示された。
FLToP CTC:相対閾値によるフレームレベルトークンプルーニング - 多様なプラットフォーム上での効率的かつ省メモリなデコーディング [cs.LG, cs.SD, eess.AS]目的:効率的かつ省メモリなデコーディング手法
- リソース制約のある環境下での音声認識の重要性が高まっている
- 従来のCTCデコーダーは,計算量とメモリ使用量が多いという課題がある
- フレームレベルでのトークンプルーニングにより,計算量とメモリ使用量を削減する
- FLToP CTCは,標準的なCTCデコーダーと比較して,10.5倍の実行速度向上と2.78倍のメモリ削減を実現した
- フレームレベルで確率の低いトークンを動的に排除することで,性能劣化を最小限に抑えつつ計算負荷を軽減する
- CPUやGPUなど,様々なプラットフォームへの統合が容易であり,リアルタイムアプリケーションへの応用も期待できる
MambaH-Fit:状態空間モデルによる点群法線推定における超曲面フィッティングの再考 [cs.CV]目的:点群法線推定のための超曲面フィッティングに基づく状態空間モデルフレームワーク
- 点群データは,自動運転やロボット工学など,様々な分野で重要な役割を担う。
- 既存手法では,微細な幾何学的構造のモデリングが不十分で,法線推定の精度が制限される。
- 本研究では,局所的な微細幾何学的特徴のモデリング能力向上を目指す。
- Attention駆動階層的特徴融合(AHFF)スキームにより,局所的な点群近傍における幾何学的文脈学習を大幅に強化。
- Patch-wise State Space Model(PSSM)を提案し,点群パッチを状態ダイナミクスを通じて暗黙の超曲面としてモデル化。
- ベンチマークデータセットでの実験により,提案手法が既存手法を精度,ロバスト性,柔軟性の面で上回ることが示された。
GL-DT:グローバル・ローカル統合によるマルチUAV検出と追跡 [cs.CV]目的:マルチUAV検出と追跡の技術
- 軍事偵察や環境モニタリングなどUAVの応用拡大に伴い,状況認識のための高精度な多重物体追跡技術が求められている。
- 複雑な背景,小型ターゲット,頻繁な遮蔽や相互作用が,既存手法の検出精度と軌跡の連続性に課題となっている。
- 小ターゲット検出の強化とIDスイッチ,軌跡断片化といった問題を解決し,UAV検出・追跡技術の進歩を支援すること。
- 提案手法GL-DTは,時空間特徴融合モジュールとグローバル・ローカル協調検出戦略により,小ターゲット検出性能を向上させている。
- JPTrackアルゴリズムの導入により,IDスイッチや軌跡断片化といった多重物体追跡における課題を軽減することに成功している。
- 実験結果から,提案手法はリアルタイム性能を維持しつつ,多重物体追跡の連続性と安定性を大幅に向上させることが示されている。
Dense2MoE:効率的なテキスト画像生成のためのDiffusion TransformerのMoEへの再構成 [cs.CV]目的:Diffusion Transformerの効率化
- テキスト画像生成の分野は急速に進歩しており,高品質な画像を生成できるモデルが求められている。
- Diffusion Transformerは高性能だが,パラメータ数が多く,推論コストが高いという課題がある。
- モデルのパラメータ数を削減しつつ,性能を維持・向上させること。
- Dense2MoEは,Diffusion TransformerをMoEに変換することで,活性化されるパラメータ数を削減し,効率化を実現した。
- FFNをMoE層に置換することで,FFNの活性化パラメータ数を62.5%削減することに成功した。
- MoBを導入し,DiTブロックの選択的活性化により,さらなるスパース性を実現し,性能を維持した。
CTスキャンにおける微細な病理学的特徴の識別のための新規マルチブランチConvNeXtアーキテクチャ [cs.CL, cs.CV, cs.LG]目的:CTスキャンにおける微細な病理学的特徴の識別
- 医療診断支援において,画像解析は重要な役割を担う。
- 微細な病理的特徴の識別は,既存手法では困難な場合がある。
- 本研究は,CT画像からの病理分類の精度向上を目指す。
- 提案モデルは,COVID-19の識別において,ROC-AUC 0.9937,検証精度 0.9757,F1スコア 0.9825を達成した。
- 既存モデルを上回る性能を示し,高度な深層学習技術の有効性を立証した。
- 本アーキテクチャは,COVID-19以外の幅広い病理分類にも適用可能な汎用性を持つ。
SOS:合成オブジェクトセグメントが検出,セグメンテーション,およびグラウンディングを改善する [cs.CV, cs.AI]目的:検出,セグメンテーション,グラウンディング性能の向上
- ロボット認識や画像編集など,多様な応用において視覚的グルーピングが不可欠である。
- 大規模なアノテーション済みデータセットはコストが高く,偏りがあり,拡張が困難である。
- 合成データを用いた柔軟性,正確性,多様性の欠如という課題を克服する。
- SOSによって生成された1万枚の合成画像で学習したモデルが,GRITやV3Detなどの大規模な実画像データセットよりも検出とグラウンディング性能で優れている。
- LVIS検出において+10.9 AP,gRefCOCOグラウンディングにおいて+8.4 $N_{\text{Acc}}$という結果が得られた。
- SOSはデータセットの制御された構築を可能にし,少ないデータやクローズドボキャブラリ環境での汎化性能を向上させる。
細胞および核のセグメンテーションのためのマルチモーダル条件付き拡散モデルによるタスク固有の病理画像生成 [cs.CL, cs.CV, cs.AI]目的:細胞および核セグメンテーションのための病理画像の生成
- 計算病理学において,細胞や核の正確なセグメンテーションは,診断や治療において不可欠である。
- 希少な形態や異常な細胞・核に対するアノテーションデータが不足しており,セグメンテーションの精度向上を阻害している。
- マルチモーダル拡散モデルを用いて,必要な形態的特徴を持つ合成画像を生成し,データセットを拡充することを目指す。
- MSDMは,細胞/核の形態,RGBカラー特性,およびアッセイ/適応メタデータを条件として,リアルな画像-マスクペアを生成する。
- 生成された画像は,実際のデータと統計的に類似しており,生物学的条件下での埋め込み間のWasserstein距離は低い。
- 合成サンプル(柱状細胞など)を組み込むことで,柱状細胞のセグメンテーションモデルの精度が大幅に向上する。
効率的な直交回転不変画像表現のための極座標分離変換 [cs.CV]目的:効率的な直交回転不変画像表現の実現
- 画像認識において,直交モーメントに基づく画像表現は基本的な役割を担う。
- 従来の直交モーメント法は,計算量が多く,高次のモーメントで数値的不安定性を示す。
- 極座標における非分離性の問題を克服し,高速かつ安定な画像表現を構築する。
- 提案手法PSepTは,離散コサイン変換とフーリエ変換を組み合わせることで,完全に分離可能な直交変換を実現した。
- 計算量は従来の多項式オーダーから$\mathcal{O}(N^2 \log N)$に,条件数は$\mathcal{O}(\sqrt{N})$に大幅に改善された。
- 実験結果から,PSepTは数値安定性,計算効率,分類性能において優れた結果を示し,高次のモーメント解析を可能にした。
視覚モデルにおける特徴帰属の学習 [cs.CV, cs.LG]目的:深層学習モデルの解釈性向上
- 深層学習の信頼性と説明責任の向上が重要であるため。
- 既存手法では,入力特徴と学習事例の関連性が十分に解明されていない。
- 学習データとテスト予測の関連性を明らかにすること。
- 学習特徴帰属は,テスト予測と特定の学習画像の領域を結びつけ,モデルの内部動作に関する新たな洞察を提供する。
- 誤分類を引き起こす有害な学習事例や,従来の帰属手法では検出できない不自然な相関関係を特定できる。
- 視覚データセットでの実験により,テストに特化した詳細な説明が可能であることが示された。
気管支鏡検査におけるナビゲーション支援のためのオンライントポロジカル局所化 [eess.SY, cs.SY, cs.CV]目的:気管支鏡検査におけるナビゲーション支援のためのトポロジカル局所化パイプライン
- 呼吸器医療において,気管支鏡検査は診断や治療に不可欠である。
- 複雑な気管支構造と術者の経験により,検査中のスコープの位置把握が困難である。
- 患者のCTスキャンを必要とせず,トポロジカル局所化によるナビゲーション支援を目指す。
- 提案手法は,患者のCTスキャンを必要とせず,ナビゲーション支援を提供する。
- ファントムデータのみで学習することで,リアルデータへの高い汎化能力を実現した。
- 既存手法と比較して,特にリアルデータにおいて優れた性能を示した。
表現学習のためのインスタンスレベル生成 [cs.DC, cs.IR, eess.SY, cs.SY, cs.CV]目的:インスタンスレベル認識のための大規模学習データセットの生成
- 画像認識の精度向上には,広範なカテゴリだけでなく,個々のオブジェクトを識別するインスタンスレベル認識が重要である。
- インスタンスレベル認識は,詳細なアノテーションが必要なため,大規模なデータセット構築が困難である。
- 実画像を用いずに,多様なオブジェクトインスタンスを合成生成し,データセット構築の課題を解決することを目指す。
- 生成されたデータを用いてファウンデーションモデルをファインチューニングすることで,複数のインスタンスレベル認識ベンチマークにおいて検索性能が大幅に向上した。
- 本手法は,大規模なデータ収集・キュレーションの代替手段として,効率的かつ効果的なアプローチを提供する。
- ターゲットドメイン名のみを入力として,インスタンスレベル認識の新たなパラダイムを提示し,幅広い実世界アプリケーションへの展開を可能にする。
TARO:意味的に豊かなオープンワールド物体検出に向けて [cs.CV]目的:オープンワールド物体検出における未知物体分類の改善
- 自動運転やロボット工学において,未知の物体への対応は安全確保に不可欠である。
- 既存の物体検出器は,定義済みのクラスに限定され,未知物体への対応が不十分である。
- 未知物体を単一の「未知」クラスとして扱うのではなく,より詳細なカテゴリに分類すること。
- TAROは,未知物体を意味的な階層構造に基づいて大まかな親カテゴリに分類できる。
- 実験の結果,未知物体の約29.9%を意味のある大まかなクラスに分類できた。
- 未知物体と既知物体の混同を減らし,未知リコールと既知mAPの両方で競争力のある性能を達成した。
オンラインビデオ深度推定:低メモリ消費で時間的に一貫性のある深度予測 [cs.CV]目的:単眼ビデオからの深度推定手法
- 現実世界のコンピュータビジョンシステムにおいて,深度推定は重要な要素である。
- 既存手法はバッチ処理に依存し,リアルタイム処理が困難であった。
- 低メモリでリアルタイムに深度推定を実現し,エッジデバイスでの利用を可能とする。
- 提案手法oVDAは,既存のオンラインビデオ深度推定手法と比較して,精度とVRAM使用量の両方で優れた性能を示す。
- NVIDIA A100上で42 FPS,NVIDIA Jetson上で20 FPSという処理速度を実現し,低消費電力デバイスへの展開に適している。
- コードとコンパイルスクリプトを公開することで,oVDAの低電力ハードウェアへの容易な導入を支援する。
クリケットショット分類のための最新深層学習アプローチ:包括的なベースラインスタディ [cs.CY, cs.HC, cs.CL, cs.CV, cs.AI]目的:クリケットショット分類のための深層学習アプローチの比較検討
- スポーツ映像解析は,競技パフォーマンスの評価や戦略分析に不可欠であり,その重要性は増している。
- 既存研究における評価指標と,実際の実装結果との間に大きな乖離が見られ,再現性の問題が深刻である。
- 標準化された評価プロトコルと最新アーキテクチャにより,クリケットショット分類の精度向上を目指す。
- 先行研究で報告されている精度(96%,99.2%,93%)に対し,再現実験ではそれぞれ46.0%,55.6%,57.7%という結果となった。
- EfficientNet-B0とGRUを組み合わせた最新SOTAアプローチは,92.25%の精度を達成し,大幅な改善の可能性を示した。
- PyTorch Lightningを用いた再現可能な研究プラットフォームを構築し,標準化された評価の重要性を明らかにした。
より安全で理解可能な運転者の意図予測に向けて [cs.CV, cs.AI, cs.HC]目的:運転者の意図予測における解釈可能性の向上
- 自動運転技術の発展に伴い,人間とシステムの円滑なインタラクションが不可欠となっている。
- 深層学習ベースのシステムでは,環境やタスクに対する理解が困難であり,解釈可能性が課題となっている。
- 運転者の意図予測の解釈可能性を高め,安全な自動運転システムの開発に貢献すること。
- 新たなマルチモーダルデータセットDAAD-Xを構築し,運転者の視線と車両視点からの説明を提供した。
- Video Concept Bottleneck Model (VCBM)というフレームワークを提案し,一貫性のある説明生成を可能にした。
- Transformerベースのモデルが,従来のCNNベースのモデルよりも高い解釈性を持つことを示した。
家畜CLIP:牛の行動認識のためのマルチモーダルフレームワーク [cs.CV]目的:牛の行動認識
- 家畜の健康,生産性,福祉を評価する上で,行動観察は不可欠である。
- 既存手法では,十分な学習データがない場合の行動認識精度が課題となる。
- 少ないデータでも高精度な行動認識を実現し,畜産監視の精度向上を目指す。
- 提案手法Cattle-CLIPは,教師あり学習において6種類の行動で96.1%の全体精度を達成した。
- 特に摂食,飲水,立って反芻する行動においてほぼ100%のリコール率を示した。
- 少ないデータでの汎化性能も高く,マルチモーダル学習の農業・動物行動分析への応用可能性を示唆している。
時間分解型Transformerを用いた一過性計測からの3D再構成 [cs.CV, eess.IV]目的:一過性計測からの3D再構成性能の向上
- 光子効率の低いセンサやノイズが課題であり,遠距離や複雑なシーンでの3D再構成は困難である。
- 一過性計測は,少ない光量で画像を再構成する技術として重要である。
- 時間分解型Transformerを用いて,低光量環境下での3D再構成の精度向上を目指す。
- 提案手法Time-Resolved Transformer(TRT)は,空間的・時間的な相関を捉えるための独自の注意機構を備えている。
- TRTを基盤としたLOSおよびNLOS画像再構成モデル(TRT-LOS, TRT-NLOS)は,既存手法と比較して高い性能を示す。
- 大規模な合成LOSデータセットと実世界NLOS計測データセットを新たに構築し,データ多様性を高めた。
安定ビデオ無限:エラーリサイクルによる無限長動画生成 [cs.CV]目的:無限長動画の生成
- 動画生成技術はエンターテイメントや教育など多様な分野で重要性を増している。
- 既存の長尺動画生成手法は,エラーの蓄積や単調なシーンに陥りやすい。
- 自己生成エラーの修正を通じて,より高品質な無限長動画生成を目指す。
- 本研究では,Diffusion Transformer (DiT) が生成したエラーを教師データとして再利用するError-Recycling Fine-Tuningを提案した。
- この手法により,DiTは自身の誤りを認識し,修正する能力を獲得し,エラーの蓄積を抑制する。
- SVIは,追加の推論コストなしに,多様な条件(音声,スケルトン,テキスト)下で動画を無限に拡張できることを実証した。
大規模言語モデルとタグを用いたドメイン横断型シーケンシャル推薦 [cs.CV]目的:ドメイン横断型シーケンシャル推薦の精度向上
- 多様なサービス利用が一般的となり,個々の行動履歴に基づいた的確な推薦が重要視されている。
- ドメイン固有のパターンに加え,ドメイン間の関連性を捉えることが困難である。
- 大規模言語モデルを活用し,アイテムのタグ情報を強化することで推薦精度を向上させる。
- 提案手法TEMA-LLMは,大規模言語モデルを用いてアイテムの記述的なタグを生成し,アイテム表現を強化する。
- タグ情報を活用したマルチアテンション機構により,ドメイン内およびドメイン横断的なユーザーの嗜好をモデル化する。
- 大規模なeコマースデータセットを用いた実験により,既存手法を上回る性能が示された。
クリアな道路,クリアな視界:スマート交通のためのマルチウェザー復元技術の進歩 [cs.CV, cs.AI]目的:悪天候による画像・映像劣化の軽減策に関する研究
- 自動運転など,視覚情報に依存する交通システムの安全性向上は重要である。
- 悪天候時の視覚情報の劣化が,交通システムの性能低下を招く問題がある。
- 多様な悪天候下での画像・映像復元技術の現状と課題,今後の展望を示す。
- 従来の技術と最新のデータ駆動型モデル(CNN,Transformer,拡散モデル等)を分類し,復元手法を体系的に整理した。
- 単一タスク,複数タスク,オールインワンの各フレームワークの特性と課題を明確にした。
- 複合的な劣化やリアルタイム処理,エージェントAIなど,今後の研究方向性を提示した。
マルチモーダル大規模言語モデルとコンシューマーグレードカメラを用いた肩関節障害の診断 [cs.RO, cs.CV, cs.AI, cs.CL, cs.LG]目的:肩関節障害の予備診断
- 世界的に肩関節障害は有病率が高く,特に高齢者や反復作業を行う労働者に多い。
- 医療資源が乏しい地域では,早期かつ正確な診断が困難であり,低コストで拡張性のある診断支援が求められている。
- コンシューマーグレードカメラの映像を用いて,肩関節障害の低コスト診断を可能にすること。
- 提案手法HMVDxは,直接的な動画診断と比較して肩関節損傷の診断精度を79.6%向上させた。
- 本研究では,医療における意思決定プロセスに基づいた新規指標「ユーザビリティ指数」を提案した。
- 低コストMLLMの医療応用における潜在的な価値を,医療従事者の視点から示した。
時間に応じた公平性をデータ共有に組み込むインセンティブ [cs.LG, cs.GT]目的:データ共有における時間的要素を考慮した公平なインセンティブ設計
- 機械学習の性能向上には,複数機関のデータ連携が不可欠である。
- 従来の枠組みでは,参加タイミングの異なる状況に対応できない。
- 早期参加者のリスクを考慮し,適切な報酬を与えることでデータ共有を促進する。
- 本研究では,データ共有の早期参加者に高い報酬を与えることで,参加意欲を向上させる枠組みを提案した。
- 時間に応じた報酬決定手法を開発し,その実現可能性を合成データと実データで検証した。
- 提案手法は,公平性と個々の合理性を満たし,データ共有の促進に貢献することが示された。
SynthVC:合成データを利用したエンドツーエンド低遅延ストリーミング音声変換 [cs.SD, eess.AS]目的:エンドツーエンド低遅延ストリーミング音声変換のための手法
- 音声変換は,話者の個性を維持しつつ音声を変更する技術であり,多様な応用が期待される。
- 既存の手法は,リアルタイム処理の遅延や,自然な音質を保つこと,話者情報の分離が課題である。
- 合成データを用いた新たなフレームワークにより,低遅延かつ高品質なストリーミング音声変換を実現する。
- SynthVCは,既存のストリーミング音声変換システムと比較して,自然さと話者類似度において優れた性能を示す。
- エンドツーエンドの遅延はわずか77.1ミリ秒であり,リアルタイム処理に適している。
- 本手法は,明示的なコンテンツ・話者分離モジュールを必要とせず,簡潔な設計となっている。
Vision-Languageモデルによるゼロショット画像プライバシー分類 [cs.CY, cs.CV, cs.LG, cs.MM]目的:画像プライバシー分類の性能評価
- 画像に含まれるプライバシー保護は重要であり,技術的な対応が求められている。
- 汎用的なVision-Languageモデルの性能が,専用モデルと比較して十分に評価されていない。
- Vision-Languageモデルのプライバシー分類における限界を明らかにすること。
- Vision-Languageモデルは,パラメータ数が多いにも関わらず,専用モデルに比べてプライバシー予測の精度が低い。
- 一方で,Vision-Languageモデルは画像への摂動に対して,より高い頑健性を示すことがわかった。
- 本研究は,ゼロショットベンチマークを確立し,公平な比較を可能にした。
離散的意味的エントロピーを用いた画像放射線医学におけるビジョン-言語モデルのハルシネーションフィルタリング [cs.CL, cs.CV]目的:画像放射線医学におけるビジョン-言語モデルの視覚的質問応答におけるハルシネーションを起こしやすい質問を排除するための離散的意味的エントロピー(DSE)の有効性
- 放射線医学におけるAI支援診断の精度向上は,医療の質の向上に不可欠である。
- 現在のビジョン-言語モデルは,幻覚(ハルシネーション)により誤った回答を生成する可能性がある。
- 本研究は,DSEを用いたフィルタリングにより,幻覚を検出し,回答精度を向上させることを目指す。
- DSEを用いて高エントロピーの質問を排除することで,GPT-4oの精度が51.7%から76.3%に向上した。
- 同様に,GPT-4.1の精度も54.8%から63.8%に向上し,両モデルで統計的に有意な改善が確認された(p < .001)。
- DSEは,意味的な不整合を定量化することで,ブラックボックス型VLMsにおける信頼性の高いハルシネーション検出を可能にする。
視覚言語行動モデルに対する物理オブジェクトを用いた目標指向バックドア攻撃 [cs.CR, cs.CV, cs.LG]目的:視覚言語行動モデルへの物理的トリガーの注入による,目標指向的なバックドア攻撃の実現
- 近年のVLAモデルの発展は,ロボットの自律性を高め,様々なタスクを可能にしているため,その安全性が重要である。
- 既存のVLAに対するバックドア攻撃は,ホワイトボックス環境を前提とし,タスクの失敗を招くものであり,具体的な行動の操作が困難である。
- 本研究は,物理的なトリガーを用いて,特定の目標を達成させるバックドア攻撃の可能性を示すことで,VLAのセキュリティ脆弱性を解消することを目指す。
- 提案手法GoBAは,物理的トリガーが存在する場合,97%の入力でバックドア目標を達成できることを示した。
- クリーンな入力に対しては性能劣化が発生せず,実用的な脅威であることを示した。
- 行動軌跡やトリガーの色が攻撃性能に影響を与える一方,トリガーのサイズは影響が小さいことが明らかになった。
MomentSeg:瞬間を中心としたサンプリングによる動画ピクセル理解の向上 [cs.CV]目的:動画における対象物セグメンテーションの精度向上
- 動画理解は,ロボティクスや自動運転など,幅広い分野で重要性が増している。
- 既存手法では,重要な時間情報を捉えきれない場合や,システムが複雑になる課題がある。
- 自然言語による指示に基づいた動画内の対象物セグメンテーションの精度を向上させる。
- 本研究では,Temporal Sentence GroundingとRefVOSを同時に最適化するフレームワークを提案した。
- 訓練時には,専用の[FIND]トークンを用いて重要な瞬間を特定する新しいTSGパラダイムを導入した。
- 推論時には,情報量の多い瞬間を重点的にサンプリングするMoment-Centric Sampling戦略を設計し,トラッキングの安定性を向上させた。
マルチモーダル強化学習におけるトークン知覚に関する焦点 [eess.SY, cs.SY, eess.SY, cs.SY, cs.CV]目的:マルチモーダル強化学習におけるトークン知覚の役割の解明
- 大規模ビジョン言語モデルの推論能力向上は,様々な応用において重要である。
- 既存手法では,マルチモーダル推論における視覚的知覚の役割が十分に考慮されていない。
- トークン知覚に着目し,マルチモーダル強化学習の最適化を改善することを目指す。
- トークン知覚は,ロールアウト軌跡において疎に分布しており,視覚的に依存するトークンは少数である。
- 異なる軌跡は,全体的な視覚的依存度において著しい乖離を示すことが明らかになった。
- 提案手法VPPOは,トークン知覚を活用することで,既存の強化学習モデルを大幅に上回る性能を示す。
視覚による探索:人間の視線運動と深層予測モデルのダイナミクス [cs.CL, cs.CL, cs.CV, eess.IV]目的:人間の視線運動のダイナミクス
- 視覚情報は行動の基盤であり,その効率的な処理は認知科学と情報技術の発展に不可欠である。
- 従来の視線モデルは画像の特徴に偏重しており,視線運動の潜在的な統計的性質が十分に解明されていない。
- 人間の視線が効率的な探索戦略をとるかどうか,そのメカニズムを明らかにすること。
- 人間の視線運動は,動物の探索行動に見られるレヴィー・ウォークと同様のダイナミクスを示すことが明らかになった。
- 画像から直接,視線集中領域を予測する畳み込みニューラルネットワークは,高い精度で再現することができた。
- 人間の視覚探索は自然界の探索行動と同様の統計法則に従う可能性が示唆され,生成モデルの構築に新たな道が開かれた。
CapGeo:キャプション支援による幾何学的推論 [cs.CV, cs.AI, cs.CL]目的:幾何学的推論の精度向上
- 多岐にわたる分野で図形の理解が不可欠であり,AIによる自動化が求められている。
- 既存のマルチモーダル大規模言語モデルは,幾何学問題解決において性能が低い。
- 視覚情報をテキスト形式のキャプションに変換し,推論能力のボトルネックを解消する。
- CapGeoフレームワークにより,Qwen2.5-VL-72Bは8.6%から59.0%へ,Claude-Opus-4は44.8%から73.0%へと精度が向上した。
- 高品質な幾何学的キャプションモデルを評価するためのCapGeo-Benchデータセットを提案した。
- CapGeo-Benchのキーポイントベース評価指標は,幾何学的キャプション能力と高い相関関係を示す。