arXiv雑要約
画像・音声 - 2026/02/05 公開
適応的1次元ビデオ拡散オートエンコーダ [cs.CV]目的:ビデオデータの効率的な圧縮と復元
- ビデオ生成技術は,高画質かつ効率的なデータ圧縮が不可欠である。
- 既存のビデオオートエンコーダは,圧縮率や復元品質に課題がある。
- 可変長の潜在表現と拡散モデルによる高品質な復元を実現する。
- 提案手法One-DVAは,既存の3D-CNN VAEと同等の復元性能を達成した。
- One-DVAは,適応的な圧縮を可能にし,より高い圧縮率を実現する。
- 潜在分布の正則化により,生成モデルとしての応用を促進し,アーティファクトを軽減した。
直感主義的ファジー論理駆動UNetアーキテクチャ:脳画像セグメンテーションへの応用 [cs.CV]目的:脳画像セグメンテーションの精度向上
- 脳画像解析や神経疾患の診断において,正確なセグメンテーションは不可欠である。
- 脳画像における部分体積効果により,不確実性の取り扱いが困難である。
- 部分体積効果や境界の曖昧さによる組織の曖昧さを軽減すること。
- 提案手法IF-UNetは,脳画像における不確実性を考慮し,セグメンテーション精度を向上させる。
- IF-UNetは,メンバーシップ,非メンバーシップ,躊躇度を用いてデータを処理することで,組織の曖昧さに効果的に対処する。
- IBSRデータセットを用いた実験結果により,IF-UNetの有効性が確認された。
SPOT-Occ:スパースプロトタイプ誘導トランスフォーマーによるカメラベース3D占有率予測 [cs.CV, cs.LG, cs.RO]目的:カメラ画像からの3D占有率予測の精度向上
- 自動運転車の安全かつ実用的な運用には,高精度かつリアルタイムな3D環境理解が不可欠である。
- スパース3D表現はエンコーディングのボトルネックを解消するが,不均一なボクセル特徴量の効率的な集約が課題である。
- プロトタイプ誘導による効率的な特徴選択と集約により,計算コストを抑えつつ予測精度を向上させる。
- 提案手法SPOT-Occは,従来の稠密なアテンション機構に代わり,効率的な2段階プロセス(誘導特徴選択と集約)を導入した。
- スパースプロトタイプ選択機構により,各クエリが最も重要なボクセル特徴(プロトタイプ)を動的に特定し,集約する。
- 実験結果から,SPOT-Occは既存手法と比較して,速度と精度において大幅な改善を達成することが示された。
アルツハイマー病者の音声に対する多評価者による感情アノテーションコーパス:DementiaBank-Emotion [cs.CL, cs.CL, cs.SD]目的:アルツハイマー病者の音声における感情認識研究を支援するためのコーパス
- 高齢化社会において,認知症の早期発見と適切なケアが重要課題となっている。
- 認知症患者の感情表現は希薄になりがちであり,正確な感情評価が困難である。
- アルツハイマー病者の感情表現の特徴を明らかにすることで,より適切なコミュニケーション支援を目指す。
- アルツハイマー病患者は,健常者と比較して非中立的な感情をより多く表現することが示された。
- 悲しみ表現において,健常者は基線から音高が低下する傾向があったが,アルツハイマー病患者では変化が見られなかった。
- アルツハイマー病者の音声においては,感情の種類によって音量が異なり,感情と韻律の関連性が一部維持されていることが示唆された。
次世代SLAMへ:3DGS-SLAMに関する性能,ロバスト性,および将来展望に関する調査 [cs.RO, cs.CV]目的:3DGS-SLAM統合に関する主要な技術的アプローチの包括的レビュー
- SLAMはロボットの自律的なナビゲーションに不可欠であり,環境理解の基盤技術である。
- 従来のSLAMは,レンダリング品質の低さや動的環境下でのロバスト性の不足が課題となっていた。
- 3DGSの効率的な表現力と高品質なレンダリング能力を活用し,次世代SLAMの性能向上を目指す。
- 3DGS-SLAMは,レンダリング品質,トラッキング精度,再構成速度,メモリ消費量の各側面で性能最適化が図られている。
- モーションブラーや動的環境といった複雑な環境下でのロバスト性向上手法が検討されている。
- 本調査は,高忠実度,効率性,およびロバスト性を備えた次世代SLAMシステム開発の技術的指針となる。
ACIL:画像分類のための能動的クラス増分学習 [cs.CV, cs.AI]目的:画像分類におけるクラス増分学習のための能動学習フレームワーク
- 画像認識システムの現実的な学習シナリオとして重要であり,継続的な学習能力が求められる。
- 過去のデータにアクセスできない状況下で,モデルが既存の知識を忘却する「破滅的忘却」が課題となる。
- アノテーションコストを削減しつつ,破滅的忘却を回避する学習手法を開発すること。
- 本研究では,不確実性と多様性に基づく基準を用いて,アノテーションが必要な代表的なサンプルを特定するACILを提案する。
- 提案手法は,アノテーションコストを大幅に削減し,破滅的忘却を抑制する効果が期待される。
- 複数の画像データセットを用いた実験により,ACILの有効性が確認された。
単眼ビデオからの人体メッシュ復元における深度誘導型メトリック認識時間的一貫性 [cs.CV]目的:単眼ビデオからの高精度な人体メッシュ復元
- 人間行動理解やコンピュータビジョンの応用において,人体メッシュの正確な復元は不可欠である。
- 単眼ビデオからの復元では,深度の曖昧さやスケールの不確実性により,メトリックの一貫性や時間的一貫性の維持が困難である。
- 深度情報を活用し,時間的一貫性とメトリック精度を向上させることで,頑健な人体メッシュ復元を実現する。
- 提案手法は,深度情報を活用したモジュールを組み合わせることで,RGB特徴と幾何学的情報を効果的に統合する。
- 深度校正された骨統計量を用いて,スケールの一貫性を保ちつつ,姿勢と形状を推定する。
- 運動と深度を整合させ,時間的一貫性を強化することで,重いオクルージョンや空間精度に対するロバスト性を向上させた。
マルチモーダル感情認識のための分離階層的知識蒸留 [cs.NI, cs.CV]目的:マルチモーダル感情認識における性能向上
- 人間が持つ感情を理解することは,人間と機械のより自然なコミュニケーションの実現に不可欠である。
- 異なるモダリティ(言語,視覚,音声)間の異質性や,各モダリティの貢献度のばらつきが課題となっている。
- モダリティ間の知識伝達を効率化し,クロスモーダル特徴の整合性を高めることを目指す。
- 提案手法DHMDは,各モダリティの特徴を共通成分と独自成分に分離する。
- グラフ蒸留ユニットとクロスモーダル辞書マッチングによる階層的な知識蒸留を用いる。
- CMU-MOSI/CMU-MOSEIデータセットで最先端手法を上回り,高い認識精度を達成した。
KVSmooth:キーバリュー平滑化によるマルチモーダル大規模言語モデルにおける幻覚の軽減 [cs.CV]目的:マルチモーダル大規模言語モデルにおける幻覚の軽減
- マルチモーダル大規模言語モデルは多様なタスクで進歩するが,信頼性向上のためには幻覚の抑制が不可欠である。
- 既存モデルは,デコーディング時の意味ドリフトにより,出力が視覚的事実から乖離しやすいという課題がある。
- アテンションエントロピーに基づいたキーバリューキャッシュの平滑化により,幻覚を軽減し,モデルの性能向上を目指す。
- KVSmoothは,学習を必要とせず,既存モデルに容易に組み込むことができる効率的な手法である。
- 実験結果から,KVSmoothは幻覚の指標CHAIR_Sを41.8から18.2に大幅に低減し,F1スコアを77.5から79.2に向上させた。
- 従来の技術とは異なり,精度と再現率の両方を同時に向上させることで,KVSmoothの有効性と汎用性が示された。
ガウススケルトン:ガウススケルトン化による編集可能な4次元生成 [cs.CV, cs.AI, cs.GR]目的:編集可能な動的3Dガウスの生成
- 動的な3Dコンテンツ生成は,エンターテインメント,デザイン,科学シミュレーション等,幅広い分野で重要性が増している。
- 既存手法は,動きを暗黙的な変形場として表現するため,直接的な制御や編集が困難である。
- 本研究は,動きを明示的に表現することで,より直感的で編集可能な4D生成を実現することを目指す。
- 提案手法であるSkeletonGaussianは,単眼動画から編集可能な動的3Dガウスを生成する新しいフレームワークである。
- 本手法は,骨格駆動の剛体運動と,ヘキソプレーンに基づく非剛体変形を組み合わせることで,高い生成品質と編集性を実現する。
- 実験結果から,SkeletonGaussianは既存手法を上回り,編集可能な4D生成の新たなパラダイムを確立することが示された。
イベントT2M: 複雑なテキストからモーションへの合成におけるイベントレベルの条件付け [cs.GR]目的:複雑なテキストプロンプトから,イベント単位で自然なモーションを生成すること。
- テキストからモーション生成は発展しているが,複雑な指示への対応が課題となっている。
- 既存手法では,複数のアクションを含むテキストが単一の表現に集約され,不自然なモーションになりやすい。
- イベント単位での条件付けによって,複雑なマルチアクションのモーション生成を改善すること。
- 提案手法Event-T2Mは,テキストをイベントに分解し,モーションを意識した検索モデルでエンコードする。
- 既存ベンチマークを拡張したHumanML3D-Eは,イベント数で層別化されており,評価の信頼性を高めている。
- 実験の結果,Event-T2Mはイベントの複雑性が増すにつれて,最先端のベースラインを上回る性能を示した。
顔を明るく照らす:物理的に整合性のあるデータセットと顔のフィルライト強調のための拡散モデル [cs.HC, cs.CV]目的:顔のフィルライト強調のためのデータセットおよび拡散モデル
- 顔画像処理は,写真や動画の品質向上に不可欠であり,応用範囲が広い。
- 既存手法では,背景との不整合や,意図しないシーン全体の変更が課題となる。
- 物理的に整合性のあるデータセットと効率的なモデルにより,高品質なフィルライト強調を実現する。
- 大規模データセットLightYourFace-160Kを構築し,物理的に制御可能なフィルライト注入を実現した。
- 物理情報を埋め込んだプロンプトと拡散モデルFiLitDiffを開発し,高精度かつ低コストなフィルライト強調を可能にした。
- 実験により,背景照明の保持性能と知覚的な品質が向上することが示された。
静的クロッピングを超えて:層適応型視覚局所化とデコーディング強化 [cs.CV, cs.AI, cs.CL]目的:視覚局所化とデコーディングの強化
- 大規模ビジョン言語モデルの発展には,視覚情報とテキスト情報の整合性が不可欠である。
- 固定された視覚トークン予算が,画像の詳細を失わせ,言語事前知識への過度な依存を引き起こす。
- クエリに特化した視覚的局所化に最適な層を動的に特定し,推論時の性能向上を目指す。
- 提案手法 LASER は,VQA ベンチマークにおいて,複雑なタスクでの精度を大幅に向上させる。
- 視覚的局所化は層に依存する動的なプロセスであり,タスクに応じて必要な層が変化する。
- クエリに対する注意マップの感度を測定する指標 VAQ を導入し,タスクに適した層を適応的に選択する。
GeneralVLA:知識誘導軌道計画による汎化性のある視覚言語行動モデル [cs.DB, cs.RO, cs.CV]目的:汎化性のある視覚言語行動モデルの開発
- ロボット工学における汎化能力の向上が課題である。汎用的な視覚言語モデルの活用が期待されている。
- 既存モデルは,未知の状況へのゼロショット対応能力に課題があり,汎化性能が低い。
- ゼロショットでの操作を可能にし,ロボット工学のためのデータ自動生成を実現することを目指す。
- GeneralVLAは,14のタスクにおいて軌道生成に成功し,最先端手法であるVoxPoserを大幅に上回った。
- 生成されたデータを用いた行動クローニングは,人間のデモンストレーションやVoxPoser等で生成されたデータよりもロバストな方策を学習した。
- GeneralVLAは,ロボット工学におけるデータ生成と新規タスクのゼロショット解決の両方において,スケーラブルな手法となりうる。
JOintGS:屋外環境における単眼再構成のためのカメラ,人体,3Dガウスの同時最適化 [cs.CV]目的:屋外環境における単眼RGB動画からの高忠実度なアニメーション可能な3D人体アバター再構成
- 現実世界の映像から3Dモデルを作成することは,バーチャルリアリティやコンピュータビジョンの応用において重要である。
- 既存手法では,カメラパラメータや人体ポーズの推定精度が不十分で,屋外環境での再構成が困難である。
- カメラ,人体ポーズ,3Dガウス表現を同時に最適化することで,屋外環境における高精度な再構成を実現する。
- JOintGSは,カメラ,人体ポーズ,3Dガウス表現を同時に最適化する統一的なフレームワークである。
- 背景と前景を明確に分離することで,カメラ推定と人体アライメントを相互に強化し,再構成の質を向上させる。
- NeuManデータセットにおいて,最先端手法と比較してPSNRが2.1〜dB改善し,ノイズの多い初期値に対するロバスト性も向上した。
異種ビュー間における多視点自己表現学習 [cs.CV]目的:異種ビュー間の不変表現の学習
- 大量のラベルなしデータから知識を獲得することは,機械学習の発展に不可欠である。
- 異なる事前学習モデルの出力特徴は分布が異なり,不変表現の学習が困難である。
- 異種ビューの自己表現性を活用し,不変表現を学習することを目指す。
- 提案手法MSRLは,複数のベンチマークデータセットで最先端手法を上回る性能を示した。
- 異種ビュー間の情報伝達機構と,割り当て確率分布の一貫性スキームを導入した。
- 線形モデルの出力を集約し,ビュー間の補完的な情報を活用することで不変性を実現した。
人間によるアノテーションなしでの事前学習済み視覚言語モデルのファインチューニング [cs.CV, cs.AI]目的:視覚言語モデルのタスク適応
- 視覚言語モデルは汎用性が高いが,特定タスクへの適応にはコストのかかるラベル付きデータが必要となる。
- 既存の教師なし自己学習法は擬似ラベリングに依存するが,信頼性の低いフィルタリングや確証バイアスに悩まされる。
- 擬似ラベルの質を明示的にモデル化し,ノイズの多い教師信号下でのロバスト性を向上させる。
- 提案手法CoFTは,二つのモデル間の協調学習を通じて,ラベルなしデータを活用する。
- CoFTは,正と負のテキストプロンプトを用いることで,擬似ラベルの信頼性をサンプルごとに評価する。
- 実験結果から,CoFTは既存手法や少量ショットの教師あり学習ベースラインよりも優れていることが示された。
CLIPアダプテーションのための明示的な不確実性モデリング:二重プロンプトチューニング [cs.CV, cs.AI]目的:アクティブCLIPアダプテーションにおける不確実性モデリング
- 画像認識分野において,事前学習済みのモデルの転移学習は重要であり,限られたアノテーション資源での適応が課題。
- アクティブ学習では,最適なデータ選択が重要だが,既存手法はモデル側の不確実性を明示的にモデル化していない。
- モデル側の不確実性を明示的にモデル化することで,より効率的なデータ選択を目指す。
- 二重プロンプトチューニングを用いたフレームワークを提案し,CLIPモデルの適応における不確実性モデリングを実現。
- 正のプロンプトは識別能力を向上させ,負のプロンプトは予測ラベルの正しさを確率的にモデル化することで,不確実性の指標を提供する。
- 様々なファインチューニング設定で,提案手法が既存のアクティブ学習手法を上回る性能を示すことが確認された。
NeMOの発見:少数の学習データを用いた知覚のためのテンプレートビューの幾何学的認識に基づく表現 [cs.CV]目的:少数ショット学習における物体知覚のための表現
- ロボットの知覚能力向上には,未知の物体に対する迅速な認識と操作が不可欠である。
- 従来の物体知覚は,大量の学習データが必要であり,新しい物体への適応が困難である。
- 学習データが少ない状況でも,新たな物体を迅速に認識・操作するための手法を確立すること。
- 提案手法NeMOは,少数のRGBテンプレート画像から物体の3次元点群を生成し,様々な知覚タスクに対応可能である。
- カメラ固有のパラメータやターゲットデータでの再学習を必要とせず,少数の学習データで物体知覚を実現する。
- BOPベンチマークにおいて,様々なデータセットと知覚タスクで競争力のある最先端の結果を達成した。
VecSet-Edit:単一画像からのメッシュ編集における事前学習済みLRMの活用 [cs.CV, cs.AI]目的:単一画像からの3Dメッシュ編集手法
- 3Dアセットの柔軟な制御が求められる中,3D編集技術は重要な研究分野となっている。
- 既存手法は3D Gaussian Splatting等に偏り,直接的なメッシュ編集は未開拓である。
- 高精度なVecSet LRMを用いて,2D画像のみから高精度なメッシュ編集を実現する。
- 本研究では,VecSetトークンの空間的特性を分析し,トークン部分集合が特定の幾何領域を制御することを発見した。
- Mask-guided Token SeedingとAttention-aligned Token Gating戦略により,2D画像に基づいた正確なターゲット領域の特定を可能にした。
- Detail-preserving Texture Bakingモジュールにより,幾何学的詳細とテクスチャ情報を両立した編集を実現した。
いつ,どこを攻撃するか?段階的注意誘導による大規模視覚言語モデルへの敵対的攻撃 [cs.CL, cs.CV]目的:大規模視覚言語モデルに対する敵対的攻撃手法
- 近年のマルチモーダルシステムは広く利用されているため,その安全性評価は重要である。
- 既存の攻撃手法は,パーピクセルごとの摂動予算を効率的に利用できていない場合がある。
- 注意スコアに基づいて攻撃領域を段階的に絞り込むことで,効率的な攻撃を実現する。
- 本研究では,注意スコアと敵対的損失の相関関係に着目し,段階的に注意誘導を行うSAGAを提案した。
- SAGAは,限られた摂動予算を効率的に活用し,高精度な敵対的サンプルを生成できることを示した。
- 10種類のLVLMに対して,SAGAが最先端の攻撃成功率を達成することを確認した。
SparVAR:視覚的自己回帰モデリングにおけるスパース性の探求 - 学習不要な高速化 [cs.CV, cs.AI, cs.LG]目的:視覚的自己回帰モデリングの高速化手法
- 高解像度画像生成において,計算コストが課題であり,リアルタイム処理が求められている。
- 従来のVARモデルは,解像度向上に伴い計算量が指数関数的に増加し,遅延が大きくなる。
- 高解像度画像生成時の遅延を削減し,高周波詳細を維持した高速化を実現することを目指す。
- 提案手法SparVARは,VARアテンションの特性に着目し,学習なしで高速化を達成した。
- 8Bモデルによる1024x1024画像生成を1秒台に短縮し,高周波詳細の劣化を抑制することを示した。
- FlashAttentionと比較して1.57倍の高速化,既存のスキップ戦略との組み合わせで最大2.28倍の高速化を達成した。
低スペックCPUでのリアルタイム大腸内視鏡ポリプセグメンテーションを実現する超軽量アーキテクチャ [cs.CV, cs.AI]目的:大腸内視鏡ポリプのリアルタイムかつ正確なセグメンテーション
- 大腸がんの早期発見には,リアルタイムでの正確なポリプ識別と切除が不可欠である。
- 既存の高精度セグメンテーションモデルはGPUに依存しており,中小規模の病院や移動型内視鏡ユニットへの導入が困難である。
- 本研究は,リソースに制約のある環境でもGPUなしでセグメンテーションを実行可能とする。
- UltraSegファミリーは,0.3Mパラメータ以下の極限的な圧縮率で動作し,単一CPUコアで90FPSを実現した。
- UltraSegは,31MパラメータのU-Netと比較して0.4%のパラメータ数で,Diceスコアの94%以上を維持した。
- 本研究は,大腸内視鏡検査だけでなく,他の低侵襲手術における画像処理にも応用可能な基盤を提供する。
ゲームにおける実現可能なペイオフ集合推定の最適レート [cs.GT, cs.LG]目的:ゲームにおける実現可能なペイオフ集合の推定
- 多人数環境における意思決定の理解や戦略設計に不可欠な研究分野である。
- 観測された行動のみからペイオフ関数を推定することには困難が伴う。
- ハウスドルフ距離に基づいた精度で,実現可能なペイオフ集合を推定する。
- 正確な均衡プレイと近似均衡プレイの両方において,ミニマックス最適レートを初めて提供した。
- ゼロサムゲームと一般和ゲームの両方において,その結果がペイオフ推論の理論的基盤となる。
- オークション,価格設定,セキュリティゲームなど,多岐にわたる応用への展開が期待される。
視覚的場所認識における信頼性の高い動作点選択のための分位点転送 [cs.CL, cs.RO, cs.CV]目的:視覚的場所認識システムの動作点選択
- GPSが利用できない環境下での位置推定に不可欠な技術であり,その重要性は高い。
- 環境変化に弱く,環境ごとに閾値を手動で調整する必要があるという課題がある。
- 精度要件を満たしつつ,再呼び出し率を最大化する動作点を自動的に選択することを目指す。
- 提案手法は,分位点正規化により,閾値の安定性を確保し,サンプリング変動へのロバスト性を実現する。
- 複数の最先端VPR技術とデータセットを用いた実験で,提案手法は既存手法を常に上回り,高精度領域で最大25%高い再呼び出し率を達成した。
- この手法により,手動調整が不要となり,新しい環境への適応と様々な動作条件への汎化が可能となる。
インタラクティブ空間周波数融合マンバによるマルチモーダル画像融合 [cs.CV, cs.MM]目的:マルチモーダル画像融合における画像品質の向上
- 画像認識や解析において,複数の情報を統合することで,より高度な処理が可能となる。
- 既存手法では,空間周波数の融合が単純な処理に留まり,相互作用が少ない点が課題である。
- 空間周波数情報を活用し,異なるモダリティ間の特徴を効果的に融合することで,画像品質を向上させる。
- 提案手法ISFMは,既存の最先端手法と比較して,6つのマルチモーダル画像融合データセットでより良い性能を達成した。
- モダリティ特有の抽出器(MSE)により,線形計算量で画像の長距離依存性をモデル化している。
- マルチスケール周波数融合(MFF)とインタラクティブ空間周波数融合(ISF)により,周波数特徴と空間特徴の相互作用を強化している。
LCUDiff: 忠実な人体復元のための潜在容量拡張拡散モデル [cs.CV]目的:人体を中心とした画像の忠実な復元
- 画像処理技術の発展は,映像コンテンツの品質向上に不可欠である。
- 既存手法では,特に人体復元において十分な忠実度を達成することが困難である。
- 潜在空間の容量拡張により,高周波詳細のエンコード能力を高め,復元品質を向上させる。
- 提案手法LCUDiffは,4チャンネルから16チャンネルへの潜在空間の拡張を行うことで,復元忠実度を向上させる。
- チャンネル分割蒸留(CSD)と事前知識保存適応(PPA)により,安定した拡張とスムーズな移行を実現する。
- 復元品質スコアに基づいたデコーダールーティング(DeR)により,多様な条件下で視覚品質を改善する。
自己進化型具現化AI [cs.ET, cs.CV]目的:自己進化型具現化AIの定義,フレームワーク,構成要素,およびメカニズム
- 具現化AIは,環境との相互作用を通じて知能を獲得するため,実世界への応用が期待される。
- 既存の具現化AIは固定的な環境に限定され,変化への適応が困難である。
- 変化する環境と自身の状態に応じて自律的に進化するAIの実現を目指す。
- 本研究は,記憶の自己更新,タスクの自己切り替え,環境の自己予測,具現化の自己適応,モデルの自己進化を可能にする自己進化型具現化AIという新たなパラダイムを提案する。
- 関連研究の現状をレビューし,実用的な応用例を提示し,今後の研究方向性を示す。
- 自己進化型具現化AIは,人間のような方法で環境を自律的に学習し,相互作用することを可能にし,汎用人工知能への新たな視点を提供する。
Med-MMFL:医療におけるマルチモーダル連合学習ベンチマーク [cs.CV, cs.AI]目的:医療分野におけるマルチモーダル連合学習の標準的な評価
- 医療データの分散性とプライバシー保護の重要性から,連合学習への期待が高まっている。
- 既存の医療分野における連合学習ベンチマークは少なく,評価範囲も限定的である。
- 多様なモダリティ,タスク,フェデレーションシナリオを網羅するベンチマークを構築し,研究開発を促進する。
- Med-MMFLは,テキスト,画像,ECG,X線など10種類の医療モダリティを含む,初の包括的なマルチモーダル連合学習ベンチマークである。
- 6つの最新の連合学習アルゴリズムを,自然な分散環境,IID,非IID設定で評価し,セグメンテーション,分類,モダリティアラインメント,VQAタスクを網羅した。
- ベンチマークの実装,データ処理,分割パイプラインを公開し,今後の研究の再現性と公平な比較を支援する。
MaMa: 安全なエージェントシステムを設計するためのゲーム理論的アプローチ [cs.RO, cs.CL, cs.DB, cs.LG, cs.GT]目的:安全なエージェントシステムの自動設計
- LLMに基づくマルチエージェントシステムは発展が著しいが,安全性確保が課題となっている。
- エージェントの一部が故障したり,悪意のある行動をとる場合,システム全体の安全性が脅かされる。
- システム設計者が,攻撃に対する堅牢性と性能を両立する安全なシステムを構築することを目指す。
- 提案手法MaMaは,システム設計者と攻撃者の間のStackelbergセキュリティゲームを解くことで,安全なシステムを設計する。
- 実験結果から,MaMaで設計されたシステムは,最悪の攻撃に対しても高い耐性を示し,タスク遂行性能も維持できることが示された。
- 設計されたシステムは,より強力な攻撃者や異なる攻撃目標に対しても汎化し,訓練設定を超えた堅牢な安全性を実現する。
TrajVG:3D軌道と視覚幾何学習の結合 [cs.RO, cs.CV]目的:3D再構成モデルにおける性能低下の抑制
- 3D再構成は,ロボット工学やAR/VRなど,多様な分野で不可欠な技術である。
- 物体運動のある動画において,既存の3D再構成モデルは精度が低下しやすい。
- カメラ座標における3D軌道を明示的に予測することで,クロスフレームの一致性を高める。
- 提案手法TrajVGは,カメラ座標における3D軌道とフレームごとのローカル点マップ,相対カメラポーズを幾何学的整合性制約によって結合する。
- 双方向の軌道-点マップ整合性や,静的なアンカーを用いたポーズ整合性により,動的領域からの勾配の影響を抑制する。
- 擬似2Dトラックを用いることで,3D軌道ラベルが少ない状況下でも学習を可能にする。
SynthVerse:ポイント追跡のための大規模多様な合成データセット [cs.CV]目的:ポイント追跡のための大規模かつ多様な合成データセット
- 視覚的なポイント追跡は,ロボット工学やコンピュータビジョンにおいて重要な役割を担う。
- 既存のデータセットは多様性が不足しており,軌跡アノテーションにも課題がある。
- 多様なドメインとオブジェクトに対応したデータセットで汎化性能を向上させる。
- SynthVerseは,アニメーション,ロボット操作,ナビゲーションなど,既存データセットにない多様なドメインを網羅する。
- SynthVerseを用いた学習により,ポイント追跡の汎化性能が向上することが示された。
- 既存のトラッカーの限界が明らかになり,よりロバストな学習・評価が可能となる。
Seg-ReSearch:推論と外部検索を組み合わせたセグメンテーション [cs.HC, cs.IR, cs.CV]目的:推論と外部検索を組み合わせたセグメンテーションパラダイム
- 画像認識において言語に基づくセグメンテーションは重要であり,様々な応用が期待されている。
- 既存のマルチモーダル大規模言語モデルは知識が固定されており,最新情報や専門知識への対応が課題である。
- 動的で開かれた状況下でのセグメンテーション性能を向上させることを目指す。
- Seg-ReSearchは,推論と外部検索を組み合わせることで,既存手法の知識の限界を克服する。
- OK-VOSという新たなベンチマークデータセットを構築し,外部知識を必要とする動画物体セグメンテーションを評価した。
- OK-VOSおよび既存のベンチマークにおいて,Seg-ReSearchは最先端手法を大幅に上回る性能を示した。
中心視覚における時間的な遅さが意味のある物体学習を促進する [cs.HC, cs.RO, cs.IR, cs.CV]目的:意味のある物体表現の形成
- 視覚情報は,人間が世界を理解するために不可欠であり,その処理メカニズムの解明は重要である。
- 既存の研究では,視覚システムがどのように効率的に意味情報を学習しているかの詳細は不明である。
- 本研究は,中心視覚と時間的な遅さが意味学習に与える影響を明らかにすることを目的とする。
- 中心視覚に焦点を当てることで,前景物体の特徴抽出が強化されることが示された。
- 時間的な遅さを考慮することで,物体のより広範な意味情報が符号化されることが明らかになった。
- この結果は,人間が自然な視覚経験から意味のある物体表現をどのように発達させるかのメカニズムに関する新たな知見を提供する。
SALAD-Pan:センサー非依存型潜在適応拡散によるパンシャープニング [cs.CV]目的:汎用的なパンシャープニング手法の開発
- 高解像度画像と低解像度画像の融合は,リモートセンシング分野において重要な課題である。
- 既存手法は,センサーに依存し,計算コストが高いという課題がある。
- 本研究は,センサーに依存せず,効率的なパンシャープニングを実現する。
- 提案手法SALAD-Panは,既存の拡散ベース手法と比較して,GaoFen-2,QuickBird,WorldView-3の各データセットにおいて,優れた性能を示す。
- 推論速度は2〜3倍向上し,ゼロショット(クロスセンサー)能力も高い。
- バンドごとの単一チャンネルVAEを用いて,多チャンネルMS画像をコンパクトな潜在表現にエンコードすることで,高速化を実現している。
マルチモーダル大規模言語モデルにおける視覚と整合した潜在的推論 [cs.CV]目的:マルチモーダル大規模言語モデルの多段階推論能力の向上
- 近年,様々な理解タスクでマルチモーダル大規模言語モデルが進化している。
- 長文脈生成時に視覚情報が希釈され,推論能力が制限される問題がある。
- 潜在空間における視覚的情報を活用し,推論を誘導することでこの問題を解決する。
- VaLRは,各Chain of Thought推論ステップの前に視覚と整合した潜在的トークンを動的に生成する。
- 実験結果から,VaLRは長文脈理解や精密な視覚的認識を必要とする様々なベンチマークで既存手法を上回ることが示された。
- 特にVSI-Benchにおいて,Qwen2.5-VLに対して19.9%pの性能向上を実現し,33.0%から52.9%へと大幅に改善された。
EgoActor:視覚言語モデルによるヒューマノイドロボットの空間認識型一人称視点行動へのタスクプランニングの統合 [cs.CY, cs.CL, cs.CE, cs.CL, cs.RO, cs.CV]目的:ヒューマノイドロボットのタスクプランニングと空間認識型一人称視点行動の統合
- 実世界でのロボット利用には,知覚・移動・操作の連携が不可欠である。
- 部分情報下や動的環境下での堅牢なタスク遂行は困難である。
- 高レベルな指示をロボットの具体的な行動に変換する手法の確立。
- EgoActorは,広範なデータを用いた学習により,状況に応じた判断とスムーズな行動推論を実現する。
- シミュレーションおよび実環境での評価により,抽象的なタスクプランニングと具体的な運動実行の間のギャップを効果的に埋めることが示された。
- 多様なタスクや未知の環境への汎化性能も確認された。
S-MUSt3R: スライディングマルチビュー3D再構成 [cs.RO, cs.CV, cs.RO]目的:大規模RGBストリーム3D再構成における基礎モデルの限界拡張
- 3Dビジョン分野は,ロボット工学や拡張現実など,様々な応用において重要性が高まっている。
- 基礎モデルはメモリ制約から大規模な再構成には課題があり,スケーラビリティが問題となっている。
- 本研究は,基礎モデルのスケーラビリティを向上させ,実世界での大規模3D再構成を可能にすることを目指す。
- S-MUSt3Rは,基礎モデルの再学習なしに,既存の複雑な手法に匹敵する性能を達成した。
- シーケンス分割,セグメントアラインメント,軽量ループクロージャ最適化により,メモリ効率の高い再構成を実現した。
- TUM,7-Scenes,ロボットナビゲーションデータセットで,S-MUSt3Rの有効性が確認された。
SLUM-i:インフォーマル居住地の都市マッピングとデータ品質ベンチマーキングのための半教師あり学習 [cs.CV, cs.AI]目的:インフォーマル居住地の都市マッピングのための半教師あり学習手法の開発と,データ品質の評価
- 発展途上国の都市部ではインフォーマル居住地が拡大しており,そのマッピングは都市計画や災害対策において重要である。
- アノテーション不足に加え,建物構造の類似性やアノテーションノイズにより,高品質なマッピングが困難である。
- 本研究は,限られたアノテーションとデータ品質の問題を克服し,より正確なインフォーマル居住地のマッピングを実現することを目指す。
- パキスタン(ラホール,カラチ)とインド(ムンバイ)を含む合計8都市のデータセットを構築し,データ品質評価を実施した。
- クラス不均衡や特徴劣化を軽減する新しい半教師ありセグメンテーションフレームワークを提案し,既存手法を上回る性能を示した。
- ソースラベルの10%で学習したモデルが,未知の地域でフル教師ありモデルのゼロショット汎化性能を上回る高いドメイン転移能力を実証した。
Meek 単移譲投票選挙におけるグラフに基づく監査 [cs.GT, stat.AP]目的: Meek 単移譲投票選挙の監査手法
- 選挙の公正性と透明性を担保するため,結果の正確性を統計的に保証する監査が重要である。
- 従来の監査手法は,アルゴリズムに基づく選挙ルールへの適用が困難であった。
- 選挙の全順序に依存しない,柔軟な監査フレームワークを構築すること。
- 本研究では,選挙と除外の全順序空間をグラフとして表現する新手法を提案する。
- 監査前にグラフの部分グラフを固定し,真の選挙順序がその部分グラフ内に留まることを統計的に検証する。
- これにより,アルゴリズムに基づく選挙ルールを順序非依存的に監査することが可能となる。
HoliAntiSpoof:包括的な音声なりすまし対策のための音声LLM [cs.SC, math.NT, cs.SD]目的:音声なりすまし対策に関する包括的な分析
- 音声技術の発展に伴い,高度な音声なりすましが現実的な脅威となっているため,対策が重要である。
- 既存の手法は二値分類に留まり,多様ななりすまし手法が及ぼす多岐にわたる影響を捉えきれていない。
- 音声LLMを用いて,なりすまし手法,影響を受ける音声属性,意味的影響を統合的に解析し,対策を講じる。
- HoliAntiSpoofは,従来の基盤モデルと比較して,複数の設定で優れた性能を示した。
- 文脈学習により,未知のドメインへの汎化性能が向上する可能性が示唆された。
- 音声LLMは,なりすまし検出性能の向上に加え,なりすまし行動とその意味的影響の解釈可能な分析を可能にする。
OmniRad:マルチタスク医療画像解析のための放射線学的基盤モデル [cs.SI, cs.CL, cs.CY, cs.IR, cs.CV, cs.AI]目的:マルチタスク医療画像解析を支援する放射線学的基盤モデル
- 医療画像診断の精度向上は,患者ケアの質に直結する重要な課題である。
- 既存モデルは,異なる画像モダリティやタスクへの汎用性に課題があった。
- 多様な画像モダリティとタスクで高い性能を発揮する基盤モデルを構築する。
- OmniRadは,120万枚の医療画像で自己教師あり学習を行うことで,優れた表現を獲得した。
- MedMNISTv2の分類タスクにおいて,既存の基盤モデルと比較してF1スコアが最大2.05%向上した。
- MedSegBenchのセグメンテーションタスクにおいても,固定された表現を用いた場合に平均Diceスコアが向上した。
NixとFix:拡散モデルによる3Dガウススプラッティングの1000倍圧縮 [cs.CV]目的:3Dガウススプラッティングの極限圧縮手法
- 3Dガウススプラッティングはリアルタイムレンダリングを可能にし,没入型コミュニケーション等の応用を促進する。
- 圧縮率を上げると視覚品質が著しく低下し,実用上の課題となっている。
- 拡散モデルを用いたアーティファクトを考慮した蒸留により,高圧縮率下での品質劣化を抑制する。
- 本研究では,0.1MBまで圧縮し,従来の3DGSと同等の知覚的パフォーマンスを維持することに成功した。
- 圧縮率は最大1000倍に達し,最先端の知覚的品質を実現した。
- 提案手法NiFiは,アーティファクトを考慮した拡散ベースの一段階蒸留によってこれを可能にする。
Vision Language Modelによる劣化の理解 [cs.CV]目的:画像劣化の理解
- 画像処理において,劣化の理解は高品質な画像利用のために不可欠である。
- 既存のVision Language Modelは定性的な記述に優れるものの,劣化の物理的根拠の理解が不十分である。
- 画像劣化の種類,パラメータ,物理値を構造的に予測する新たな枠組みを提示し,理解を深める。
- 提案手法DU-VLMは,劣化の種類,パラメータ,値を同時に予測する構造化予測タスクに対応している。
- DU-VLMは,事前学習済みの拡散モデルのゼロショットコントローラーとして機能し,高品質な画像復元を可能にする。
- 大規模データセットDU-110kを構築し,物理的アノテーションを付与することで,実験の信頼性を高めた。
競争から協調へ:LLMとオンラインフォーラム間の持続可能なメカニズムの設計 [cs.IR, cs.CY, eess.SY, cs.SY, math.OC, cs.CL, cs.AI, cs.GT]目的:LLMとオンラインフォーラム間の持続可能な協調メカニズム
- 知識共有の場としてのオンラインフォーラムの重要性が高まっている。
- 生成AIがフォーラムからユーザーを奪う一方,学習データに依存している。
- AIと人間の知識プラットフォーム間の持続可能な協調を目指す。
- 生成AIがフォーラムに質問を提案し,一部を掲載する逐次的な相互作用の枠組みを提案した。
- シミュレーションの結果,インセンティブのずれが実証された。
- 完全情報下での理想的な状況と比較して,約半分の利得が得られることが示された。
ドメイン汎化のための特権イベントベース予測正則化 (PEPR) [cs.CV]目的:ドメイン汎化のための,特権イベントベース予測正則化手法
- 現実世界での利用には,学習データと異なる条件下での性能維持が不可欠である。
- 深層ニューラルネットワークはドメインシフトに弱く,汎化性能が課題となっている。
- イベントカメラの情報を活用し,RGBモデルのロバスト性を高める。
- イベントカメラとRGBカメラの相補的な特性を利用した新しいフレームワークを提案した。
- 提案手法PEPRは,イベントベースの潜在特徴を予測することで,RGBエンコーダのロバスト性を向上させる。
- 物体検出とセマンティックセグメンテーションにおいて,既存手法を上回る性能を達成した。
SalFormer360:360度動画に対するTransformerベースの顕著性推定モデル [cs.CV]目的:360度動画の顕著性推定
- 視聴者の視線予測や没入型コンテンツ最適化など,幅広い応用分野で重要性が高まっている。
- 360度動画特有の広視野角における視線予測の精度向上が課題であった。
- Transformerアーキテクチャを用いて,360度動画における高精度な顕著性推定を実現すること。
- 提案手法SalFormer360は,既存の最先端手法と比較して,Sport360で8.4%高い性能を達成した。
- PVS-HM,VR-EyeTrackingにおいてもそれぞれ2.5%,18.6%高い性能をPearson相関係数で示した。
- Viewing Center Biasの導入により,360度環境におけるユーザの注意を反映した推定が可能となった。
ImmuVis:イメージング質量細胞計量法のためのハイパー畳み込み基盤モデル [cs.CV]目的:イメージング質量細胞計量法のための効率的な畳み込み基盤モデルの開発
- 疾患の空間的な分子プロファイリングは,病態解明や治療標的の発見に不可欠である。
- 既存の画像処理モデルは固定されたチャンネル空間を前提とするため,多様なマーカーセットに対応できない。
- 異なるマーカーセットに対応可能な,再学習不要な基盤モデルの構築が求められている。
- ImmuVisは,学習されたマーカー埋め込みから畳み込みカーネルを生成するマーカー適応型ハイパー畳み込みを導入した。
- IMC17Mデータセットを用いて自己教師あり学習を行い,既存の最先端モデルを凌駕する性能を示した。
- ImmuVisは,計算コストが低く,不確実性の校正された推定値を提供する実用的な基盤モデルである。
医療AIのための模擬採血手順のラベル付きデータセット:物体検出と人-物体インタラクションのためのポリゴン注釈 [cs.HC, cs.ET, cs.CV]目的:医療AI研究のための模擬採血手順のラベル付き画像データセット
- 医療現場におけるAIの活用は,医療の質向上や効率化に不可欠である。
- 医療行為に関する高品質な学習データが不足しており,AI開発のボトルネックとなっている。
- 採血手順の自動認識や教育システムの開発を促進するための学習データを提供する。
- 11,884枚のラベル付き画像を含むデータセットを構築し,公開した。
- シリンジ,ゴムバンド,消毒ワイプ,手袋,練習用アームの五種類の物体に対してポリゴン注釈を施した。
- YOLOv8等の物体検出フレームワークとの互換性を確保し,幅広い応用を可能にした。
PIO-FVLM:推論目的からの視覚トークン削減再考 - VLM高速化のための学習不要なアプローチ [eess.SY, cs.SY, cs.CV]目的:視覚言語モデル(VLM)の推論を高速化するための,学習を必要としない視覚トークン削減手法
- VLMは画像とテキストを統合し高度なタスクを実現するが,計算コストが大きい。
- 既存手法はヒューリスティックに依存し,圧縮性能や実用的な展開に限界がある。
- 推論結果の不変性を保ちながら重要なトークンを選択することで圧縮性能を向上させる。
- PIO-FVLMは,LLaVA-Next-7Bにおいて,視覚トークンの11.1%を保持しつつ,元の性能の97.2%を維持した。
- 事前計算速度は2.67倍,推論速度は2.11倍向上し,FLOPsは6.22分の1,KVキャッシュオーバーヘッドは6.05分の1に削減された。
- 本手法は学習を必要とせず,FlashAttentionとの互換性があり,エンコーダ単独またはエンコーダ圧縮と組み合わせることが可能である。
