arXiv雑要約
画像・音声 - 2026/02/04 公開
軽量なRGB-Tトラッキング:モバイルVision Transformerの活用 [cs.CL, cs.CV]目的:モバイルVision Transformerを用いた軽量なRGB-Tトラッキング手法
- 視覚認識技術は,自動運転やロボティクスなど,様々な応用分野で重要性が高まっている。
- 単一の画像情報だけでは,悪環境下や遮蔽物による追跡の信頼性が低下する。
- 限られた計算資源の環境下でもリアルタイムに動作する高精度なトラッキングを実現する。
- 提案手法は,MobileViTを基盤とし,分離可能な混合注意機構を用いてモジュール間の相互作用を効果的にモデル化する。
- 4M以下のパラメータ数と,CPUで25.7 FPS,GPUで122 FPSというリアルタイム性能を達成し,組み込みやモバイルプラットフォームでの利用を可能にする。
- MobileViTベースのマルチモーダルトラッカーは本研究が初であり,GitHubリポジトリでモデルコードと重みが公開されている。
Proteus-ID:ID一貫性と運動の一貫性のある動画カスタマイズ [cs.CL, cs.CL, cs.CV]目的:特定の被写体に関する,参照画像とテキストプロンプトに基づいたリアルで時間的に一貫性のある動画の合成
- 動画生成技術は,エンターテイメント,教育,コミュニケーションなど,幅広い分野で重要性が増している
- 動画カスタマイズにおいては,IDの一貫性と自然な動きの生成が難しい課題となっている
- IDの一貫性と運動の一貫性を両立させ,より高品質な動画カスタマイズを実現することを目指す
- 提案手法Proteus-IDは,Q-Formerを用いたMultimodal Identity Fusionモジュールにより,視覚的・テキスト的情報を統合し,IDの一貫性を向上させる。
- Time-Aware Identity Injectionメカニズムにより,ノイズ除去ステップ全体を通してID条件を動的に調整し,細部の再構成精度を高める。
- 自己教師あり学習戦略Adaptive Motion Learningを用いて,モーションヒートマップに基づき学習損失を再重み付けし,リアリティのある動きを生成する。
ロボット操作のためのジオメトリを意識した4Dビデオ生成 [cs.CV, cs.AI, cs.LG, cs.RO]目的:ロボット操作における物理世界の動的理解と予測能力の向上
- ロボットが複雑な環境で効果的に計画し,相互作用するための重要な要素。
- 複数視点からの幾何学的整合性と時間的コヒーレンスを両立したビデオ生成の困難さ。
- マルチビュー3D整合性を実現し,視点変更に強い予測を可能にすること。
- 提案手法は,クロスビューポイントマップアラインメントによる幾何学的教師あり学習で3Dシーン表現を獲得。
- 単一のRGB-D画像から,カメラ位置を入力とせずに,空間・時間的に整合した未来のビデオシーケンスを生成可能。
- シミュレーションおよび実世界のロボットデータセットにおいて,既存手法よりも安定した予測を実現。
画像目標ナビゲーションにおいて本当に重要なのは何か [cs.CV, cs.RO]目的:画像目標ナビゲーションにおける主要な要素の特定
- ロボットの自律的な移動能力向上に不可欠であり,現実世界での応用が期待される。
- 既存手法は,画像照合や相対姿勢推定の事前学習に依存しており,効率性に課題がある。
- 強化学習によるエンドツーエンド学習で,ナビゲーションのみから相対姿勢推定能力を獲得できるか検証する。
- ナビゲーション訓練において,アーキテクチャの選択が相対姿勢推定器の出現に影響を与えることが示された。
- シミュレーターの設定が結果に影響を与える可能性がある一方,現実的な環境への転移も一部可能であることが確認された。
- ナビゲーション性能と出現する相対姿勢推定性能の間に相関関係があることが示唆された。
トレーニング不要!参照ベースのインスタンスセグメンテーション [cs.CV]目的:少量参照画像のみを用いた物体セグメンテーション
- 画像セグメンテーションは,大規模アノテーションデータの収集コストが高いことが課題であった。
- SAMは問題を緩和したが,新たな画像に対し手動プロンプトや複雑なルールが必要となる。
- 参照画像のみでセグメンテーションを実現し,プロンプト作成の負担を軽減することを目指す。
- 基礎モデルの持つ意味情報を活用し,参照画像と対象画像間の対応関係を特定する。
- 対応関係を利用して,インスタンスレベルのセグメンテーションマスクを自動生成する。
- COCO FSOD,PASCAL VOC Few-Shot,Cross-Domain FSODで最先端の性能を達成した。
マスクされた潜在Transformerによる正確かつ効率的なワールドモデリング [cs.LG, cs.AI, cs.CV]目的:正確かつ効率的なワールドモデリング手法
- 強化学習において,シミュレーションによる学習は,効率的な方策獲得に不可欠である。
- 既存のワールドモデルは,潜在空間の圧縮により情報が失われ,性能が低下する場合がある。
- 潜在空間で正確な軌道を生成し,エージェントの性能を向上させることを目指す。
- EMERALDは,Crafterベンチマークにおいて,人間の専門家を超える性能を初めて達成した。
- 1000万ステップ以内に人間の専門家レベルの性能を上回る結果を示した。
- 評価中に,Crafterの全22個のアチーブメントを少なくとも一度はアンロックすることに成功した。
エッジ環境における深層学習モデルのためのエネルギー効率最適ルーティング:ECORE [cs.CL, cs.DC, cs.CV]目的:深層学習モデルのエッジ環境におけるエネルギー効率と検出精度の最適化
- リアルタイムな画像解析需要が高まる中,エッジコンピューティングの重要性が増している。
- リソース制約のあるエッジデバイスでは,エネルギー消費と検出精度を両立することが課題である。
- エネルギー効率と検出精度を同時に向上させるルーティング手法を開発し,エッジ環境での性能を改善する。
- 提案手法ECOREは,動的なルーティング戦略により,画像処理要求を最適なデバイス・モデルペアに割り当てることができる。
- 実験結果から,ECOREは既存手法と比較して,エネルギー消費量を35%,遅延を49%削減できることが示された。
- 検出精度への影響はわずか2%であり,エネルギー効率と性能のバランスが取れていることが確認された。
MixGRPO:混合ODE-SDEによるFlowベースGRPO効率の解禁 [cs.AI, cs.CV]目的:画像生成における人間の選好に合わせたFlow Matchingモデルの効率向上
- 画像生成における人間の選好への適合は,高品質なコンテンツ生成に不可欠である。
- 従来のGRPO手法は,Markov Decision Process (MDP) 全ステップのサンプリングと最適化が必要で非効率である。
- 本研究は,MDP内の最適化を効率化し,FlowベースGRPOのパフォーマンスを向上させることを目指す。
- MixGRPOは,確率微分方程式(SDE)と常微分方程式(ODE)を組み合わせた混合サンプリング戦略により,最適化プロセスを効率化する。
- スライディングウィンドウ機構を導入し,ウィンドウ内でのみSDEサンプリングとGRPO最適化を行うことで,最適化オーバーヘッドを削減する。
- MixGRPOおよびMixGRPO-Flashは,人間の選好に合わせた評価において,DanceGRPOよりも効果と効率で優れていることが示された。
適応近傍と補助正則化による不均衡に強く,サンプリング効率の高い連続条件付きGAN [cs.LG, cs.CV]目的:連続条件付きGANの性能向上
- 高次元データ分布の推定は,画像生成やデータ拡張など様々な応用において重要である。
- 既存のCcGANはデータ不均衡に弱く,CCDMは計算コストが高いという課題があった。
- データ不均衡を解消し,効率的なサンプリングを実現するGANモデルの開発。
- 提案手法CcGAN-AVARは,動的な近傍サイズ調整と多タスク識別器により,データ不均衡を効果的に処理する。
- CcGAN-AVARは,CCDMと比較して2000倍速く推論が可能であり,サンプリング効率が大幅に向上する。
- 複数のベンチマークデータセットにおいて,最先端の生成品質とサンプリング効率を両立することを示した。
NeRF編集のためのアフィン等変カーネル空間エンコーディング [cs.HC, cs.CV]目的:NeRF編集のための局所的,変形に強い特徴表現
- 3Dシーンの高品質なレンダリングは重要だが,潜在空間の複雑さが編集の妨げとなっている。
- 既存手法では,局所性,変形への敏感さ,視覚的なアーティファクトの問題がある。
- ガウスカーネルを用いたエンコーディングにより,安定した特徴補間と高品質なレンダリングを実現する。
- アフィン等変カーネル空間エンコーディング(EKS)により,局所的で変形に強い特徴表現をNeRFに導入した。
- 多解像度ハッシュグリッドからの知識蒸留により,コンパクトかつグリッドフリーな表現を実現した。
- ガウスカーネルを介した直感的な局所編集が可能となり,再学習の必要性を軽減した。
DSKC:適応的知識統合によるドメインスタイルモデリングを用いた,サンプル不要の継続的な人物再識別 [cs.CV]目的:継続的な人物再識別におけるドメイン特有のスタイル認識と統一的な知識統合
- 人物再識別は,監視カメラ映像などから個人を特定する重要な技術であり,社会の安全確保に貢献する。
- 既存手法では,新しい情報に適応する際に,過去の知識を忘れてしまう「忘却」の問題が発生しやすい。
- ドメイン特有のスタイルを考慮し,知識の統合を促進することで,忘却を抑制し,汎化性能を向上させる。
- 提案手法DSKCは,ドメイン特有のスタイルを動的にモデル化するドメインスタイルエンコーダ(DSE)と,統一的な知識統合(UKC)メカニズムを導入した。
- DSKCは,インスタンスレベル表現とドメイン特有のスタイルを統合し,ドメイン間の関連性を明示的にモデル化することで,忘却抑制と汎化性能の向上を実現した。
- 実験結果から,DSKCは既存手法を上回り,優れた性能を示すことが確認された。
属性認識型マルチモーダル検索による汎用的な学習不要少数ショット細粒度画像分類 [cs.NI, cs.NI, cs.CV, cs.AI]目的:少数ショット細粒度画像分類におけるモデルの識別能力向上
- 画像認識技術の発展は,多様な分野における自動化や効率化に不可欠である。
- 少数サンプルでの分類は過学習を起こしやすく,汎化性能が課題となる。
- 事前学習済みモデルに頼らず,汎用的な手法による分類精度の向上を目指す。
- 提案手法UniFGVCは,マルチモーダル検索という新たなアプローチにより,従来のCLIPベースの手法や,完全教師ありMLLMベースの手法よりも優れた性能を示す。
- カテゴリー識別Visual Captioner (CDV-Captioner) は,MLLMの知識を活用し,細粒度な属性特徴を捉えた構造化されたテキスト記述を生成することで,幻覚を抑制し識別能力を高める。
- UniFGVCは,様々なMLLMやエンコーダとの互換性を確保し,多様な少数ショットFGVCシナリオへの適応性を実現する。
訓練不要のテキスト誘導カラー編集:マルチモーダル拡散Transformerの活用 [cs.IR, cs.GR, cs.AI, cs.CV]目的:画像および動画におけるテキスト誘導カラー編集手法
- 画像・動画編集において,色の操作は重要な要素であり,現実的な表現には高度な制御が求められる。
- 既存手法では,精密な色制御が難しく,編集領域と非編集領域に視覚的な不整合が生じやすい。
- 提示された手法は,Attention機構を活用し,より正確かつ一貫性のある色編集を可能にすることを目的とする。
- ColorCtrlは,マルチモーダル拡散TransformerのAttention機構を利用し,構造と色を分離することで,正確かつ一貫した色編集を実現した。
- 本手法は,SD3やFLUX.1-devなどのデータセットにおいて,既存の訓練不要アプローチを上回り,最先端の性能を達成した。
- 動画モデルCogVideoXへの拡張では,時間的な一貫性や編集安定性の向上という大きな利点を示した。
リモートセンシング画像生成のためのオブジェクト忠実度拡散 [cs.CV]目的:リモートセンシング画像の高精度な制御生成
- リモートセンシング技術は,地球観測や資源管理に不可欠であり,その重要性は増している。
- 既存の拡散モデルでは,形態的詳細の捉え方が不十分で,低忠実度の画像が生成される場合がある。
- 生成画像のオブジェクトの忠実度を高め,物体検出モデルの堅牢性と信頼性を向上させる。
- 提案手法OF-Diffは,リモートセンシング画像生成において,既存手法を凌駕する性能を示すことが実験的に確認された。
- 特に,航空機,船舶,車両といった多形性および小オブジェクトクラスにおいて,mAPがそれぞれ8.3%,7.7%,4.0%向上した。
- OF-Diffは,実画像をサンプリング時に必要とせず,高忠実度のリモートセンシング画像を生成可能である。
LazyDrag:明示的な対応関係によるマルチモーダル拡散Transformerでの安定したドラッグベース編集の実現 [cs.CV]目的:マルチモーダル拡散Transformerにおけるドラッグベース画像編集手法
- 拡散モデルは画像生成において高い性能を示すが,編集時の制御の難しさが課題となっている。
- ドラッグベース編集では,注意機構による暗黙的な点の一致に依存し,編集精度や生成能力が制限される。
- ドラッグ操作と画像領域の明示的な対応関係を構築することで,編集の安定性と生成能力を向上させる。
- LazyDragは,ドラッグ操作と画像領域の対応関係マップを生成し,注意制御の信頼性を高める。
- この手法により,従来のテスト時最適化が不要となり,拡散モデルの生成能力を最大限に引き出すことができる。
- DragBenchにおける評価で,既存手法を凌駕するドラッグ精度と知覚品質が確認された。
拡散モデルに基づく2Dマップ上の視覚的局所化:BEV条件付きGPSノイズ除去 [cs.HC, cs.CV]目的:2Dマップ上での視覚的局所化
- 自動運転には正確な位置認識が不可欠であり,高精度な地図が求められる。
- 高精度地図の作成・維持コストが高く,汎用性に欠ける点が課題である。
- 本研究は,拡散モデルを用いてGPSノイズを除去し,高精度地図に依存しない局所化を目指す。
- 本研究では,視覚的局所化をGPSノイズ除去問題として捉え,拡散モデルを適用した。
- BEV特徴量とSDマップを条件として,ノイズの多いGPS軌跡から真の位置分布を推定する。
- HDマップに依存せずサブメートル精度の位置認識を達成し,既存手法を上回る精度を示した。
競争による創発的アライメント [cs.LG, cs.GT, econ.TH]目的:AIシステムと人間の価値観のアライメント
- AIの発展において,人間の価値観との整合性は不可欠であり,社会への実装を左右する。
- 完璧なアライメントモデルの構築が困難であり,アライメントの恩恵を享受できない可能性が課題である。
- 多様な誤ったアライメントを持つAI間の競争を通じて,アライメントに近い結果を得ることを目指す。
- 人間の効用がAIの効用の凸包内に位置する場合,戦略的競争が最適な結果に近づくことが示された。
- ベイズ最適行動の学習や,近似的な効用学習においても,高い効用が達成されることが理論的に証明された。
- AIの評価期間を経た選択においても,良好な均衡が保たれることが実験によって裏付けられた。
L2M-Reg:屋外LiDAR点群とセマンティック3D都市モデルの建物レベルでの不確実性を考慮した位置合わせ [cs.CV, cs.RO, eess.IV]目的:屋外LiDAR点群とセマンティック3D都市モデルの建物レベルでの位置合わせ
- 都市デジタルツイン構築の基礎技術であり,デジタル建設や変化検知等の応用展開が期待される。
- LoD2レベルのセマンティック3D都市モデルにおける汎化の不確実性が,建物レベルでの高精度な位置合わせを困難にしている。
- セマンティック3D都市モデルの不確実性を明示的に考慮することで,建物レベルでのLiDAR-モデル位置合わせの精度向上を目指す。
- 提案手法L2M-Regは,信頼性の高い平面対応付け,擬似平面制約を持つGauss-Helmertモデルの構築,および垂直方向の並進量の適応的推定の3つのステップで構成される。
- 実世界の5つのデータセットを用いた実験により,L2M-Regが既存のICPベースおよび平面ベースの手法よりも高精度かつ計算効率に優れることが示された。
- L2M-Regは,モデルの不確実性が存在する環境において,LiDAR-モデル位置合わせの新たな建物レベルでの解決策を提供する。
Decipher-MR:3D MRI表現のためのビジョン言語基盤モデル [cs.CV, cs.AI, cs.LG]目的:3D MRI表現に関するビジョン言語基盤モデルの開発
- 臨床診断や研究においてMRIは不可欠だが,複雑性や異質性により機械学習の汎用化が課題。
- 既存の基盤モデルはMRIデータ不足や限られた解剖学的領域に焦点を当てていた。
- 多様なMRIデータを用いて汎用的な表現を学習し,幅広い応用を可能にすること。
- Decipher-MRは22,000件以上のMRI研究から20万件のMRIシリーズを用いてトレーニングされた。
- 自己教師あり学習とレポートに基づくテキスト指導を統合することで,堅牢な表現を獲得した。
- 疾患分類,人口統計予測,解剖学的局在化,クロスモーダル検索において既存モデルを上回る性能を示した。
大規模ビジョン言語モデルにおける空間的バイアスの特定と軽減 [cs.RO, cs.RO, cs.CL, cs.CV, cs.CL]目的:大規模ビジョン言語モデルの空間的バイアス
- マルチモーダルタスクにおいて,ビジョン言語モデルの重要性が増している。
- 画像の空間的な配置の変化に対する頑健性が十分に理解されていない。
- 空間的バイアスを軽減し,モデルの性能と信頼性を向上させる。
- 現在のLVLMは,空間的な配置の変化に対して一貫性のない出力を示す空間的バイアスを持つことが示された。
- このバイアスはビジョンエンコーダではなく,ビジョンエンコーダと大規模言語モデル間の注意メカニズムの不一致に起因する。
- 提案手法AGCIは,グローバルな視覚的コンテキストを動的に注入することで空間的バイアスを軽減し,様々なタスクで性能を向上させた。
VioPTT:バイオリン奏法を考慮した合成データ拡張による自動楽譜作成 [cs.SD, cs.LG]目的:バイオリン奏法と音高・タイミング情報の自動楽譜作成
- 音楽情報処理分野では自動楽譜作成技術が発展しているが,楽器特有のニュアンス表現は課題である。
- バイオリン演奏における奏法は,音色に影響を与え,感情表現に不可欠だが,既存モデルでは無視されがちである。
- バイオリン奏法を考慮した自動楽譜作成モデルを開発し,演奏表現の理解を深めることを目指す。
- 本研究では,バイオリン奏法を直接的に認識する軽量なカスケードモデルVioPTTを提案した。
- 新たに合成データセットMOSA-VPTを公開し,手動アノテーションの必要性を回避した。
- 実世界のバイオリン演奏データに対する汎化性能が確認され,最先端の楽譜作成性能を達成した。
エントロピーを考慮した分散最適化拡散推論 (EVODiff) [cs.CV, cs.IT, cs.LG, math.IT, math.OC, stat.ML]目的:拡散モデルの推論効率改善
- 画像生成において高性能な拡散モデルは,計算コストが大きいという課題を抱えている。
- 拡散モデルの推論速度は遅く,学習時と推論時で性能に差が生じることがある。
- エントロピーの削減を通して,より効率的な推論を実現し,高品質な画像生成を目指す。
- 提案手法EVODiffは,最先端の勾配ベースソルバーと比較して,再構成誤差を大幅に低減する。
- CIFAR-10においては,再構成誤差を最大45.5%削減し,FIDを5.10から2.78に改善する。
- ImageNet-256では,高品質なサンプル生成に必要な関数評価回数を25%削減する。
音楽的に考慮した指標によるピアノ・サステインペダル深度推定の評価 [cs.IR, cs.SD, eess.AS]目的:ピアノ・サステインペダル深度推定タスクの評価手法
- ピアノ演奏表現において,ペダル操作は重要な要素であり,その正確な推定が求められている。
- 従来のフレームレベルの指標では,ペダルの方向転換や曲線形状といった音楽的に重要な特徴を捉えきれない。
- 音楽的に妥当な評価を実現し,ペダル深度推定モデルの改善を促すことを目指す。
- 提案手法では,フレームレベル指標に加え,アクションレベルとジェスチャーレベルの評価を導入した。
- MIDI情報を用いたモデルは,アクションレベルとジェスチャーレベルにおいて他のモデルを大きく上回る性能を示した。
- 本研究は,従来の指標では捉えきれない音楽的に重要な改善点を評価できるフレームワークの有効性を示す。
データセット蒸留における自動内ループ最適化:ランダム性を超えて [cs.CV, cs.LG]目的:データセット蒸留における内ループ最適化手法
- 深層学習の効率化が求められる中で,データセット圧縮技術であるデータセット蒸留が重要性を増している。
- 既存の内ループ最適化はランダムな切り捨て戦略に依存し,柔軟性に欠け,最適とは言えない結果に陥ることがある。
- 学習段階に応じた動的な切り捨て位置とウィンドウサイズの調整により,最適化の効率と精度を向上させる。
- 提案手法AT-BPTTは,CIFAR-10,CIFAR-100,Tiny-ImageNet,ImageNet-1Kにおいて最先端の性能を達成した。
- 既存手法と比較して,平均で6.16%の精度向上を実現した。
- 内ループ最適化の速度を3.9倍に向上させ,メモリコストを63%削減した。
皮肉表現のモデル化:音声合成フレームワークにおける意味的・韻律的手がかり [cs.CL, cs.CL, cs.SD, eess.AS]目的:皮肉表現の認識における意味的・韻律的手がかりの統合
- コミュニケーションにおいて,皮肉表現は広く用いられ,その理解は円滑な意思疎通に不可欠である。
- 皮肉表現の認識は難しく,意味と韻律的要素がどのように相互作用するか不明な点が多い。
- 意味的・韻律的手がかりの統合モデルにより,皮肉表現の認識メカニズムを解明することを目指す。
- LLaMA 3モデルのファインチューニングにより,皮肉意図を捉える意味的手がかりを抽出できた。
- 皮肉表現のデータベースから韻律的手がかりを抽出し,音声合成に活用できた。
- 意味的・韻律的手がかりを組み合わせることで,皮肉表現の認識精度が向上することが示された。
video-SALMONN S:メモリ増強型ストリーミングオーディオビジュアルLLM [cs.CV, cs.AI]目的:長時間ストリーミング動画理解のための大規模言語モデル
- AIエージェントの発展には,長時間の動画を理解する能力が不可欠である。
- 従来のモデルでは,長期間の記憶が不十分であり,長時間動画の理解が制限されている。
- 本研究では,ストリーミング動画における長期記憶メカニズムの改善を目指す。
- video-SALMONN Sは,3時間以上の動画を処理し,既存の非ストリーミングモデルを上回る性能を示す。
- テスト時学習(TTT)を導入することで,ストリーミング環境下での動画理解におけるメモリ機構を強化。
- ELViMベンチマークにおいて,強力な非ストリーミングモデルに対し,15%の精度向上を達成し,動画記憶からの学習能力を実証。
ベイズ音声合成器は複数の教師から学習できる [cs.SD, eess.AS]目的:音声合成における不確実性のモデリング
- 自然な音声は多様性を持つため,不確実性を考慮したモデルが重要である。
- 既存の音声合成モデルは,不確実性を無視した決定論的な回帰タスクとして扱われることが多い。
- データ依存的な不確実性を捉え,より自然な音声を生成すること。
- BELLEは,決定論的な予測からベイズ推論への移行を実現し,モデルパラメータや推論遅延を増加させずにこれを可能にする。
- BELLEは,Normal-Inverse-Gamma分布を用いて,データ依存的な偶然的(aleatoric)不確実性を捉える。
- 5千時間のデータで訓練されたBELLEは,5万時間のデータで訓練された主要なオープンソースモデルを凌駕し,相対的なWERを25.8%削減した。
SAIL-RL:デュアル報酬RLチューニングによるMLLMの思考タイミングと方法の誘導 [cs.CV, cs.CL]目的:マルチモーダル大規模言語モデルの思考能力向上
- MLLMは多様なタスクに対応可能だが,その思考プロセスには改善の余地がある。
- 既存手法は結果のみの評価や一律的な思考戦略に偏り,課題解決の効率性が低い。
- 思考の質と深さを適応的に制御し,より信頼性の高いMLLMを構築することを目指す。
- SAIL-RLは,思考の質を評価する「思考報酬」と,深層思考の必要性を判断する「判断報酬」の二重報酬システムを採用。
- SAIL-VL2を用いた実験で,4Bおよび8Bスケールにおいて推論とマルチモーダル理解のベンチマーク性能が向上。
- GPT-4oなどの商用モデルと同等の性能を達成し,幻覚を大幅に削減することに成功。
UniADC:異常検出と分類のための統一的フレームワーク [cs.CV]目的:画像中の異常領域の検出と,それらの具体的なカテゴリの特定
- 画像処理分野において,製品の品質管理や医療診断など,異常検出は重要な技術である。
- 既存手法は異常検出と分類を分離して扱うため,両者の相関が無視され,性能が制限される。
- 本研究は,少ない異常画像データでも,高精度な異常検出と分類を可能にする手法を提案する。
- UniADCは,Controllable Inpainting NetworkとImplicit-Normal Discriminatorという2つの主要コンポーネントで構成される。
- Inpainting Networkは,異常の事前知識に基づいて異常画像を合成し,データ拡張を実現する。
- Implicit-Normal Discriminatorは,正常状態を暗黙的にモデル化し,高精度な異常検出と分類を可能にする。
一般化線形需要の下でのオンライン価格競争 [cs.GT, math.ST, stat.ME, stat.TH]目的:一般化線形需要におけるオンライン価格競争の最適化
- 価格競争は,市場効率化や消費者利益の向上に不可欠な要素である。
- 既存研究は線形需要モデルに限定されており,現実の複雑な需要構造に対応できていない。
- 線形需要モデルの限界を克服し,より一般的な需要関数下での価格競争戦略を構築する。
- 提案手法PML-GLUCBは,調整済み最尤推定と信頼区間価格設定ルールを組み合わせることで,分散的な価格決定を可能にする。
- PML-GLUCBは,既存の動的ベンチマークポリシーと比較して,$O(N^{2}\sqrt{T}\log(T))$の累積後悔を達成し,線形モデルと同等の性能を示す。
- 単一エージェントシステムで用いられる楕円ポテンシャル補題を,競争的なマルチエージェント環境に適応させることに成功した。
リモートセンシングにおけるモダリティ欠損分類のための効率的な混合エキスパートの再考 [cs.CV]目的:リモートセンシングデータのモダリティ欠損に対する分類性能の向上
- リモートセンシングは広範囲な環境モニタリングに不可欠だが,センサー故障や環境要因によりデータが欠損しやすい。
- モダリティ欠損は,リモートセンシングデータの分類精度を著しく低下させるという課題がある。
- 多様なモダリティ欠損シナリオに対応可能な,効率的な分類モデルを開発すること。
- 提案手法MaMOLは,様々なモダリティ欠損シナリオにおいて,既存手法を上回るロバスト性と汎化性能を示す。
- MaMOLは,モダリティに依存しない共有エキスパートと,モダリティを考慮した動的エキスパートを分離する二重ルーティング機構を導入。
- 自然画像データセットを用いた実験により,MaMOLのスケーラビリティとドメイン間の適用可能性が確認された。
デジタルツインにおける3Dワールド再構築のためのマテリアル情報を活用したガウススプラッティング [cs.CV, cs.RO]目的:デジタルツインのための3Dワールド再構築手法
- デジタルツインは,現実世界の仮想化により,シミュレーションや予測分析を可能にする重要な技術である。
- 従来のLiDARとカメラの融合は,キャリブレーションが複雑で,ガラスのような特定の素材の表現が困難である。
- カメラのみを用いて,物理ベースのマテリアル割り当てによる高精度なセンサーシミュレーションを実現する。
- 提案手法は,LiDAR-カメラ融合と同等のセンサーシミュレーション精度を,ハードウェアの複雑さとキャリブレーションの必要性なしに実現する。
- マテリアルセマンティックマスクの抽出とガウス表現からメッシュへの変換により,フォトリアリスティックな再構築と物理ベースのマテリアル割り当てを両立する。
- 計測車両からの内部データセットを用いて検証を行い,反射率と画像類似性に基づいて提案手法の有効性を確認した。
周波数領域マスキングによる持続可能な汎用ディープフェイク検出に向けて [cs.CL, cs.CV]目的:汎用ディープフェイク検出の性能向上
- AI技術の発展に伴い,ディープフェイクの脅威が増大しており,その検出は喫緊の課題である。
- 既存の検出手法は,特定の生成モデルに依存したり,計算コストが高く,汎用性やスケーラビリティに課題がある。
- 周波数領域マスキングにより,汎化性能を向上させ,計算コストを削減し,持続可能なディープフェイク検出を目指す。
- 周波数領域マスキングは,多様な生成モデルに対して高い検出精度を示すことが示された。
- モデルのプルーニングに対する性能維持により,スケーラブルでリソース効率の良いソリューションが実現された。
- GANや拡散モデルで生成された画像データセットにおいて,最先端の汎化性能と堅牢性が確認された。
HE染色標本画像を用いたリンパ腫サブタイプ分類のためのマルチインスタンス学習モデルの多施設ベンチマーク [cs.CV, cs.AI]目的:リンパ腫サブタイプの分類
- リンパ腫の正確な診断は,適切な癌治療の指針となるため重要である。
- リンパ腫サブタイプの分類には専門的な知識と高価な設備が必要であり,診断の遅れが生じやすい。
- HE染色標本画像から診断情報を抽出し,迅速かつ正確なリンパ腫診断を支援すること。
- 複数の施設からのデータを用いたベンチマークデータセットを構築し,5つの既存の病理モデルを評価した。
- 全てのモデルで,マルチクラスのバランス精度が全ての倍率で80%を超えた。
- 未知のデータセットでは性能が60%程度に低下し,汎化性能の課題が示された。
CountZES:ゼロショット例選択による数え上げ手法 [cs.CV]目的:複雑なシーンにおける物体数え上げ
- 画像認識技術は,自動運転やロボット工学など,幅広い分野で不可欠である。
- 未学習カテゴリの物体数え上げは,既存の検出器の性能限界やノイズの影響を受けやすい。
- 本研究は,高精度でロバストなゼロショット物体数え上げ手法を確立することを目指す。
- CountZESは,検出器の精度を向上させ,単一インスタンスの例を選択する。
- 密度に基づいて例を選択することで,統計的に一貫性のある例を特定する。
- 特徴空間でのクラスタリングにより,視覚的な一貫性を強化し,多様なデータセットで優れた性能を示す。
画像の修正と長方形化のための統一的なMambaモデル:プロンプトによる再考 [cs.CY, cs.CL, cs.CV]目的:画像修正および長方形化の統一的フレームワーク
- スマートフォン等の写真システムにおいて,画像修正や長方形化は重要な処理である。
- 既存手法はタスク固有のアーキテクチャに依存し,汎化性能が限定されている。
- 多様な歪みに対して,タスク非依存なフレームワークによる歪み補正を目指す。
- UniRectは,歪みを一貫した補正の観点から捉え,タスク固有の問題を汎用的な歪みモデルに統合する。
- 複雑な幾何学的変形にはRP-TPSモデル,劣化の軽減と忠実度の向上にはRMBsを用いる二層構造を採用。
- SMoEs構造により,マルチタスク学習におけるタスク競合を回避し,最新手法と比較して最先端の性能を達成した。
レジスタに基づく運転 [cs.CV, cs.AI, cs.RO]目的:エンドツーエンドの自律運転のためのtransformerベースのアーキテクチャ
- 自動運転技術は,交通渋滞の緩和や交通事故の削減に貢献し,社会に大きな変革をもたらすと期待されている。
- 既存の自律運転システムは,計算コストが高く,リアルタイム処理が困難な場合がある。
- 本研究は,効率的なシーン表現を可能にすることで,計算コストを削減し,リアルタイムな自律運転を実現する。
- DrivoRは,事前学習済みのVision Transformerを活用し,カメラ情報を凝縮したレジスタトークンを用いることで,計算量を大幅に削減した。
- DrivoRは,安全性,快適性,効率性といった解釈可能なサブスコアに基づき,行動に合わせた運転を可能にした。
- NAVSIMやHUGSIMなどのベンチマークテストにおいて,DrivoRは既存の高性能なシステムと同等またはそれ以上の性能を示した。
TP-Blend:拡散モデルにおける精密なオブジェクトスタイル混合のためのテキストプロンプト注意ペアリング [cs.CV, cs.AI, cs.LG, cs.MM]目的:拡散モデルにおけるオブジェクトとスタイルの同時導入による精密な画像編集手法
- 画像生成AIは,テキスト指示に基づき多様な画像を生成できるため,クリエイティブ産業等への応用が期待されている。
- 既存の画像編集手法では,オブジェクトとスタイルを同時に変更する場合,品質の低下や制御の難しさといった課題がある。
- 本研究では,オブジェクトとスタイルを同時に精密に制御可能な新たな画像編集手法を提案し,その有効性を検証する。
- 提案手法TP-Blendは,オブジェクトとスタイルをそれぞれ指定する2つのテキストプロンプトを利用し,高品質な画像編集を実現した。
- クロスアテンションオブジェクトフュージョン(CAOF)とセルフアテンションスタイルフュージョン(SASF)という2つの注意機構により,詳細な制御と高速な推論を両立した。
- 定量評価および知覚評価の結果,TP-Blendは既存手法と比較して,より高い品質と精度の編集が可能であることが示された。
DeepUrban:空撮画像による自動運転のための相互作用を考慮した軌跡予測と計画 [cs.CV]目的:都市部における自動運転のための軌跡予測と計画の精度向上
- 自動運転技術は交通社会に革命をもたらす可能性を秘めているため,その発展は重要である。
- 既存のデータセットには,交通量の多い複雑な状況が不足しており,現実的な自動運転システムの評価が困難である。
- 高密度な都市交通環境における,より正確な軌跡予測と計画を実現するためのデータセットを開発すること。
- DeepUrbanデータセットは,高度なモデリングとシミュレーションを可能にする豊富な3D交通物体と詳細なマップ情報を提供する。
- 既存のnuScenesデータセットにDeepUrbanを追加することで,車両の軌跡予測と計画の精度が大幅に向上することが示された。
- ADEおよびFDEメトリクスにおいて,最大44.1%/ 44.3%の改善が確認された。
分布の混合が重要である:効率的なビデオ拡散Transformerのための動的疎注意 [cs.CV, cs.LG]目的:ビデオ生成における計算効率の向上
- ビデオ生成の分野は急速に発展しているが,計算資源の制約が課題となっている。
- 従来の自己注意機構は計算量が膨大であり,長尺ビデオの生成を困難にしている。
- 動的疎注意により,計算量を削減しつつ,生成品質を維持することを目的とする。
- 本研究では,Mixture-of-Distribution DiT (MOD-DiT)という新しいフレームワークを提案した。
- MOD-DiTは,サンプリングを必要とせず,注意パターンを正確にモデル化することで,計算効率を向上させる。
- 実験結果から,MOD-DiTは既存手法と比較して,速度と品質の両面で優れていることが示された。
モデルは私たちのように聞いているか? 音声LLMと自然なEEGの表現的アラインメントの探求 [cs.SD, cs.AI, eess.AS]目的:音声LLMと人間の神経活動の表現的アラインメント
- 音声LLMの性能向上に伴い,その内部表現が人間の聴覚処理とどのように関連するかを理解することが重要である。
- 音声LLMの内部表現が,自然な聴覚状況下での人間の神経ダイナミクスと一致しているか不明である。
- 音声LLMの表現メカニズムを神経生物学的に解明すること。
- 音声LLMの表現的アラインメントは,使用する類似度指標によって順位が大きく変動することが示された。
- 層の深さに応じてアラインメントのピークが異なり,N400関連の神経ダイナミクスと一致する250-500msの時間窓でRSAが高くなることが確認された。
- 負のプロソディは幾何学的類似度を低下させ,共分散に基づく依存性を高めることが示された。
網膜血管セグメンテーションのための潜在グラフ推論によるトポロジー認識特徴融合モジュール [cs.CV]目的:網膜血管の正確なセグメンテーション
- 全身性心血管疾患の診断において,網膜血管の構造解析が重要である。
- 標準的な畳み込みニューラルネットワークでは,トポロジー的に分離したセグメンテーションが生じやすい。
- 血管の連結性を維持し,信頼性の高い構造解析を可能とする手法の開発。
- 提案手法は,潜在グラフ空間への特徴写像とグラフ注意ネットワークにより,血管の構造的依存性を捉える。
- Fundus-AVSegデータセットにおいて,Dice係数90.97%,Hausdorff距離3.50ピクセルという最先端の性能を達成した。
- 既存手法と比較して血管の断片化を約38%削減し,トポロジー的に整合性の高い血管ツリーを生成した。
拡散モデルによる創造的な画像生成 [cs.CL, cs.CV]目的:拡散モデルを用いた創造的画像生成のための新しい枠組み
- 画像生成技術は,想像力の限界を広げる上で重要な役割を担う。
- 既存手法では,概念のブレンドやサブカテゴリの除外に依存しており,柔軟性に欠ける。
- 低確率領域への誘導により,独創的で視覚的に魅力的な画像を生成すること。
- 本研究では,画像のCLIP埋め込み空間における存在確率の逆数と創造性を関連付ける新しいアプローチを提案する。
- 提案手法は,pullbackメカニズムにより,視覚的な忠実度を損なうことなく高い創造性を実現している。
- 実験結果から,本枠組みがユニークで斬新な画像を生成する有効性と効率性が示された。
3D点群データは,乳用牛の体況スコア自動予測を改善するか? [cs.CV]目的:乳用牛の体況スコア予測における3D点群データの有効性評価
- 体況スコアは,牛のエネルギー状態,繁殖性能,健康状態を示す重要な指標である。
- 従来の視覚的スコアリングは主観的で労力を要し,客観的な評価方法が求められている。
- 本研究は,3D点群データと深度画像を用いた体況スコア予測の比較を通して,より精度の高い自動予測手法の確立を目指す。
- 深度画像に基づくモデルは,未セグメント化データおよび全身セグメント化データにおいて,点群データに基づくモデルよりも高い精度を示した。
- 後躯セグメント化データを用いた場合,両者の精度は同程度であった。
- 手動特徴量データを用いた場合,両手法ともに精度が低下した。点群データは,深度画像よりもノイズの影響を受けやすいことが示唆された。
ShotFinder:ウェブ検索による想像力駆動型オープン・ドメイン動画ショット検索 [cs.CL, cs.CV, cs.AI]目的:動画ショット検索の新たなベンチマークとパイプラインの提案
- 動画検索は情報アクセスの重要な手段であり,その高度化はユーザビリティ向上に不可欠である。
- 既存の動画検索研究はテキストや静的マルチモーダルに偏り,複雑な動画の構造と意味を捉えきれていない。
- 動画の編集要件をキーフレーム指向のショット記述として形式化し,動画検索のベンチマークを確立すること。
- ShotFinderベンチマークは,Temporal order,Color,Visual style,Audio,Resolutionの5種類の制御可能な制約を導入した。
- 提案手法ShotFinderは,動画の想像によるクエリ拡張,検索エンジンによる候補動画検索,記述に基づく時間局在化の3段階パイプラインである。
- 実験の結果,人間のパフォーマンスとの大きな隔たりが示され,特に色と視覚スタイルが課題であることが明らかになった。
幸福そうな若い女性,不機嫌そうな高齢男性?感情駆動型による合成顔生成における人口統計学的バイアス [cs.CY, cs.AI, cs.CV]目的:合成顔生成における感情プロンプトが人口統計学的表現に与える影響の評価
- 合成顔生成技術は急速に進歩しており,社会への影響が大きいため,その公正性評価は重要である。
- 既存研究では,人口統計学的バイアスは調査されているが,感情プロンプトの影響は十分に解明されていない。
- 異なる文化的・言語的背景で訓練されたモデルの出力分布の差異を明らかにすること。
- 全てのモデルにおいて,国籍に関わらず,人口統計学的および感情条件によるバイアスが確認された。
- バイアスの評価には,カルバック・ライブラーの発散やジェンセン・シャノン発散といった情報理論的な指標が用いられた。
- これらの結果は,公正性,社会技術的害悪,ガバナンス,透明性の高い生成システムの開発に示唆を与える。
球面座標による埋め込み圧縮 [cs.LG, cs.CV]目的:単位ノルム埋め込みの圧縮手法
- 機械学習モデルのサイズ削減は,計算資源の節約や高速化に不可欠である。
- 既存の可逆圧縮手法では十分な圧縮率が得られていない場合がある。
- 埋め込みベクトルの分布に着目し,より高効率な圧縮を実現する。
- 本研究で提案する手法は,既存の最良の可逆圧縮手法よりも25%高い圧縮率を達成した。
- 球面座標の特性を利用することで,浮動小数点数の指数部が集中し,符号化を効率化できる。
- テキスト,画像,マルチベクトル埋め込みを含む26の構成において,一貫した改善が確認された。
MapDream:視覚言語ナビゲーションのためのタスク駆動型マップ学習 [cs.RO, cs.AI, cs.CV]目的:視覚言語ナビゲーションにおけるタスク駆動型マップ学習
- ロボットナビゲーションにおいて,環境理解と行動計画は不可欠であり,その性能向上は重要な課題である。
- 従来のマップ表現は,手作業で作成されるか,ナビゲーションとは独立しており,効率的な学習が困難である。
- ナビゲーションタスクに特化したマップ表現を学習することで,効率的かつロバストなナビゲーションを実現する。
- MapDreamは,マップ構築を自己回帰的な鳥瞰図画像合成として定式化するループ内フレームワークである。
- マップ生成と行動予測を同時に学習することで,ナビゲーションに重要な環境情報をコンパクトなマップに集約する。
- R2R-CEおよびRxR-CEにおいて最先端の単眼性能を達成し,タスク駆動型生成マップ学習の有効性を実証した。
マルチカメラ3D検出と追跡のためのモデル最適化 [cs.CV]目的:マルチカメラ3D検出と追跡におけるモデル最適化
- 屋内環境において,複数カメラによる知覚技術は重要性を増しており,遮蔽や視点差があっても複数対象物を追跡する必要がある。
- 従来の技術では,複数カメラからの情報を効率的に統合し,安定した追跡を実現することが課題であった。
- 本研究は,Sparse4Dフレームワークの最適化を通じて,低コストで高精度な3D検出と追跡を目指す。
- Sparse4Dは,適度なフレームレート減少に対して安定性を維持するが,2FPSを下回るとIDの関連付けが崩壊する。
- バックボーンとネックの選択的な量子化が,速度と精度のバランスに優れる一方,アテンション関連モジュールは低精度に敏感である。
- WILDTRACKデータセットにおいて,低FPSでの事前学習は大きなゼロショット性能向上をもたらすが,小規模なファインチューニングの効果は限定的である。
DuoGen: 汎用的な交互マルチモーダル生成に向けて [cs.CV]目的:汎用的な交互マルチモーダル生成フレームワークの開発
- 単一モダル生成モデルの限界を克服し,より高度なタスクを可能にするため,マルチモーダル生成の研究が重要である。
- 既存の交互マルチモーダル生成モデルは,学習データの不足と基盤モデルの能力不足により,汎用的な指示への対応が不十分である。
- DuoGenは,データキュレーション,アーキテクチャ設計,評価を体系的に行うことで,この課題を解決することを目指す。
- DuoGenは,キュレーションされたウェブサイトや多様な合成例から構築された大規模で高品質な指示チューニングデータセットを活用する。
- 事前学習済みのマルチモーダルLLMと,ビデオ生成用に事前学習された拡散トランスフォーマー(DiT)を組み合わせることで,柔軟な基盤モデル選択を可能にする。
- 公開および新しく提案されたベンチマークにおいて,DuoGenはテキスト品質,画像忠実度,画像-文脈の一致性において既存のオープンソースモデルを上回り,テキストから画像生成および画像編集においても最先端の性能を達成する。
