arXiv雑要約
画像・音声 - 2026/06/19 公開
多視点融合のための階層的相互知識蒸留:考えられる全ての視点組み合わせからの学習 [cs.HC, cs.CV]目的:多視点画像における効果的な視点活用
- 様々な角度や位置から撮影された画像から情報を抽出する多視点学習は,多様な応用分野で重要である。
- 構造化されていない多視点画像に対する学習手法は,十分には研究されていない。
- 本研究は,あらゆる視点組み合わせを利用し,視点間の一貫性を高めることで,多視点融合の精度向上を目指す。
- 提案手法HMDMVは,構造化・非構造化の両方の多視点シナリオにおいて,最先端の分類精度を達成した。
- 推論時には,学習に使用した視点数よりも多い,または少ない視点数でも,追加処理なしに柔軟に対応可能である。
- 視点組み合わせのサブセットをランダムにサンプリングする効率的な戦略により,学習コストを削減した軽量版も提供する。
敵対的依存性最小化 [cs.LG, cs.CV]目的:特徴量の統計的独立性の実現
- 表現学習において,冗長性の削減は重要であり,効率的な特徴抽出に繋がる。
- 共分散に基づく手法では,非線形な関係性が残存し,完全な独立性を達成できない。
- 非線形な関係性も考慮し,特徴量間の依存性を最小化することで,よりロバストな表現学習を目指す。
- 敵対的学習により,特徴量間の統計的依存性を最小化するアルゴリズムADMを提案した。
- 理論的に,最適解において互いに独立な表現が得られることを証明し,実験的に収束性も確認した。
- PCAの拡張,画像分類の汎化性能向上,自己教師あり学習における次元崩壊の防止などへの応用可能性を示した。
MeshPad:スケッチに基づくアーティスト風メッシュ生成と編集 [cs.GR, cs.CV]目的:スケッチからの3Dメッシュ生成手法
- 3Dコンテンツ制作の効率化が求められている。手軽な形状作成ツールが重要。
- 既存手法では,インタラクティブな編集が難しく,複雑な形状の作成に時間がかかる。
- スケッチによる直感的な編集を通じて,迅速かつ高品質な3Dメッシュ生成を実現する。
- MeshPadは,スケッチを入力として3Dメッシュを生成する新しいアプローチである。
- メッシュの削除と追加を繰り返すことで,インタラクティブな編集を実現している。
- 実験の結果,既存手法と比較してメッシュ品質が22%以上向上し,ユーザー評価でも高い評価を得た。
TerraMind:地球観測のための大規模生成マルチモーダルモデル [cs.HC, cs.RO, cs.SY, eess.SY, cs.CL, eess.SY, cs.SY, cs.CV, cs.AI]目的:地球観測のための大規模生成マルチモーダル基盤モデル
- 地球規模の課題解決に,衛星データ等の多様な空間情報の活用が不可欠である。
- 既存モデルでは,異なる種類の地球観測データを効率的に統合することが困難である。
- 多様な地球観測データを統合し,新たな応用展開を可能にするモデルを開発する。
- TerraMindは,トークンレベルとピクセルレベルの二重スケール表現を組み合わせることで,多様な地球観測データの融合を実現した。
- 「モダリティ思考(Thinking-in-Modalities)」という新たな手法により,ファインチューニングや推論時に人工データを生成し,モデル性能を向上させた。
- PANGAEA等のベンチマークにおいて,既存モデルを上回る性能を達成し,地球観測分野への応用可能性を示した。
CoMo:インターネット動画からの連続潜在運動学習によるスケーラブルなロボット学習 [cs.CV, cs.RO]目的:インターネット動画からの連続潜在運動の学習
- ロボットの学習において,大規模なデータセットが重要であり,インターネット動画はその豊富な供給源となる。
- 既存の方法では,背景の除去と複雑な動きの捉え方の両立が課題となっていた。
- より正確な連続潜在運動を学習し,ロボットの行動学習を向上させる。
- CoMoは,時間差学習と時間的コントラスト学習を組み合わせることで,潜在運動が前景に集中し,運動のヒントを強化する。
- CoMoは,未知の動画に対しても高い汎化性能を示し,有効な擬似行動ラベルを生成できる。
- CoMoで共同学習されたポリシーは,拡散モデルと自己回帰モデルの両方で優れた性能を発揮する。
バイオアコースティック測位:種に特有の音を地理的信号として [cs.SD, cs.LG, eess.AS]目的:バイオアコースティック信号を用いた地理的測位の可能性
- 生態学研究において,種の分布範囲は重要な情報であり,生息環境の理解に不可欠である。
- 従来の測位技術では,音響情報のみから広範囲な地理的場所を特定することが困難であった。
- 種に特有の音響信号に含まれる地理的情報を活用し,高精度な測位手法を確立することを目指す。
- 本研究では,種の分布範囲予測と検索ベースの測位を組み合わせたハイブリッド手法を提案した。
- 記録された音響信号に含まれる種が多様であるほど,また,時間空間的に集約することで測位精度が向上することが示された。
- 音声と映像の両方を利用するマルチモーダル測位においても,バイオアコースティック信号の有効性が確認された。
LaTtE-Flow:層別タイムステップ専門家フローベースTransformer [cs.CV]目的:画像理解と生成を統合する単一のマルチモーダルモデルの効率的なアーキテクチャ
- 画像と言語を統合するマルチモーダルな基盤モデルは,多様なビジョン言語タスクへの応用が期待されている。
- 既存の統合モデルは,専用モデルに比べて性能が劣り,画像生成速度が遅いという課題がある。
- 本研究は,効率的な画像生成と高性能なマルチモーダル理解を両立するモデルの構築を目指す。
- LaTtE-Flowは,事前学習済みのVLMを基盤とし,層別タイムステップ専門家フローベースアーキテクチャを導入することで,効率的な画像生成を実現した。
- 各Transformer層が特定のタイムステップ範囲を処理することで,サンプリング効率が大幅に向上した。
- マルチモーダル理解タスクで高い性能を示し,既存の統合モデルと比較して約6倍の高速な推論速度を実現した。
ワールドモデル批判 [cs.CL, cs.HC, cs.MA, cs.NI, cs.LG, cs.AI, cs.CL, cs.CV, cs.RO]目的:現実世界の実行可能な可能性のシミュレーション
- 汎用人工知能の開発において,環境をシミュレートするワールドモデルの重要性が高まっている。
- ワールドモデルの定義,構築方法,評価方法など,基本的な概念について議論が不足している。
- 目的のある推論と行動を可能にするワールドモデルの主要な設計要素を検討し,新たなアーキテクチャを提案する。
- ワールドモデルの主要な設計要素として,データ,表現,アーキテクチャ,学習目標,利用法を分析した。
- 汎用ワールドモデルのためのGenerative Latent Prediction(GLP)アーキテクチャを提案した。
- このモデルに基づき,Physical, Agentic, and Nested(PAN)AGIシステムの実現可能性を示唆した。
オープンRANベースITSにおけるミッション割り当てとタスクオフローディング [cs.DC, cs.AI, cs.GT, cs.LG, cs.NI]目的:オープンRANベースのITSにおけるミッション割り当てとタスクオフローディングの最適化
- 自動運転技術の発展に伴い,リアルタイムでの情報処理が不可欠となっている。
- 既存研究では,ミッション間の相互依存性やオフローディングコストが十分に考慮されていない。
- ミッション間の依存関係とオフローディングコストを考慮した最適化を目指す。
- 提案手法Oranitsは,車両協調を通じて効率的な処理を実現するシステムモデルである。
- メタヒューリスティック手法CGG-AROは,ミッション完了数と全体的な利益をそれぞれ約7.1%と7.7%向上させた。
- 深層強化学習フレームワークMA-DDQNは,ミッション完了数と全体的な利益をそれぞれ11.0%と12.5%向上させた。
低照度環境における光場オブジェクト追跡のための角度・時間的相互作用ネットワーク [cs.CV]目的:光場オブジェクト追跡における角度と時間的特徴の相互作用学習
- 光場は,空間と角度の情報を含み,シーン認識において重要な役割を果たす。
- 複雑な低照度環境下では,光場の角度情報を時間的に安定的にモデル化することが困難である。
- 光場の幾何学的構造に着目し,時間的な相互作用を考慮することで,低照度環境での追跡精度向上を目指す。
- 提案手法は,光場のエピポーラ平面構造画像(ESI)表現を新たに定義し,低照度環境における視覚的表現力を高める。
- 角度・時間的相互作用ネットワーク(ATINet)を開発し,光場の幾何学的構造と角度・時間的相互作用特徴を学習する。
- 大規模な光場低照度データセットを新たに構築し,単一および複数オブジェクト追跡において最先端の性能を達成した。
サポート境界経験混合による継続学習 [cs.LG, cs.CV]目的:逐次的なタスクで訓練されたモデルにおける破滅的忘却の軽減
- 機械学習モデルは,新しいタスクを学習する際に以前の知識を失う傾向がある。
- 経験再生はデータ分布を近似するが,決定境界が脆弱になりやすい。
- 決定境界付近の表現を強化し,継続学習の安定性と頑健性を向上させる。
- 提案手法である経験混合(EB)は,CIFAR-10で10%の精度向上を示した。
- CIFAR-100, Tiny ImageNet, ImageNet1Kにおいても,それぞれ6%, 14%, 2%の精度向上を確認した。
- サポート境界データ(SBD)は,決定境界付近の特徴空間を豊かにすることで,安定した学習を実現する。
合成オブジェクト検索:合成表現によるオブジェクトレベル検索 [cs.RO, cs.SY, eess.SY, cs.CL, cs.CV]目的:ユーザーの意図に基づいた詳細な視覚コンテンツの検索
- マルチモーダルシステムにおいて,ユーザーの意図を反映した画像検索の重要性が高まっている。
- 既存手法は画像レベルのマッチングに留まり,特定のオブジェクトの局所化が困難である。
- 本研究は,オブジェクトレベルで検索を行い,ピクセルレベルのマスクで結果を特定することを目指す。
- 本研究では,参照オブジェクト,マスク,ターゲット画像,検索テキストを用いて,合成視覚-テキスト推論を行う新しいタスクを提案する。
- 大規模なベンチマークデータセットCOR125Kを構築し,ベース/新規カテゴリにおける汎化性能を評価した。
- 提案モデルCOREは,既存手法やベースラインを上回り,ファインチューニングなオブジェクトレベル検索の基盤となる。
高品質3D生成のための協調的マルチモーダル符号化 [cs.NI, cs.CV]目的:高品質な3Dコンテンツ生成のためのマルチモーダルデータの活用
- 3Dコンテンツは多様な様相を持ち,様々な応用分野で重要性が増している。
- 既存手法では,単一のモダリティに偏っていたり,データセットが限られていたりする。
- マルチモーダルデータを統合し,少ないデータでも高品質な3D生成を実現すること。
- 提案手法TriMMは,RGB,RGBD,点群などのマルチモーダルデータを協調的に符号化する。
- 2Dおよび3Dの補助的な学習により,符号化の堅牢性と性能を向上させている。
- 少ない学習データでも,大規模データセットで学習したモデルと同等の性能を達成した。
GenTrack:次世代マルチオブジェクトトラッキング [cs.CV, cs.RO]目的:マルチオブジェクトトラッキング手法の性能向上
- 監視カメラや自動運転など,多様な分野で対象物体の追跡技術が不可欠である。
- 対象物の数や動きが複雑な状況下では,追跡の精度が低下し,IDの誤りや消失が発生しやすい。
- 不確実な環境下でもロバストに追跡し,IDの一貫性を維持することを可能とする。
- 提案手法GenTrackは,既存の最先端トラッカーと比較して,標準ベンチマークおよび実環境で優れた性能を示した。
- 確率的および決定論的なアプローチを組み合わせることで,変動する対象物の数や非線形な動きに強く対応できる。
- 粒子群最適化と社会的な相互作用の導入により,弱い検出器からの情報でも効果的な追跡を実現し,IDスイッチやトラック消失を抑制する。
GenTrack2:マルチオブジェクトトラッキングの改善されたハイブリッドアプローチ [cs.CV, cs.RO]目的:マルチオブジェクトトラッキング手法
- 監視カメラや自動運転など,多様な分野で対象物の追跡技術が不可欠である。
- 対象物の数や動きが複雑な状況下では,追跡の精度が低下しやすいという課題がある。
- 非線形な動きやノイズに対するロバストな追跡と,識別子の維持を目指す。
- 提案手法は,粒子フィルタと粒子群最適化を組み合わせることで,状態分布の推定精度を向上させている。
- 識別子の整合性を強化するため,空間的な一貫性,検出信頼度,軌跡ペナルティを考慮したコスト行列を導入している。
- 過去の状態からの速度回帰により,粒子サンプリングと状態更新を改善し,追跡性能を高めている。
拡散モデルにおけるロバストな敵対的概念消去の再考 [cs.CV, cs.CR]目的:拡散モデルにおける不要なコンテンツの選択的アンラーニング
- 拡散モデルの安全性向上は重要であり,機密コンテンツの生成リスク軽減に不可欠である。
- 既存の概念消去手法は,拡散モデル特有の敵対的学習の特性を考慮せず,効果が限定的である。
- 概念空間における敵対的サンプル生成にSemantic Guidanceを導入し,概念消去性能を向上させる。
- 提案手法S-GRACEは,既存手法と比較して概念消去性能を26%向上させた。
- 非対象概念の保持性能が向上し,学習時間を90%削減することに成功した。
- Semantic Guidanceにより,概念空間への敵対的サンプルの適合性を高めた。
反復交渉と監視:分散型航空交通管理の事例研究 [eess.SY, cs.SY, math.OC, cs.MA, cs.GT]目的:分散型マルチエージェントシステムにおける合意形成
- エージェント間の利害対立を考慮したシステム設計が重要となる分野。
- 効率性や公平性といったシステムレベルの目標に対する保証が不足している。
- システム効率と公平性を保ちつつ,合意形成の収束性を高めることを目指す。
- 提案手法は,資産取引を用いた交渉と,限定的な規制監視を組み合わせることで合意形成を実現する。
- 理論的に有限時間での終了が保証され,規制介入のレベルとシステム効率の関係が明らかになった。
- 米国航空交通管理の事例研究により,提案手法が実用的に機能し,規制介入が効率性と収束速度に影響を与えることが示された。
Smol-GS:抽象3Dガウススプラッティングのためのコンパクトな表現 [cs.CV]目的:3Dガウススプラッティングのためのコンパクトな表現の学習
- 3Dシーンの表現は,VR/ARなどの応用において重要であり,効率的な表現方法が求められている。
- 既存の3D表現法は,データサイズが大きく,計算コストが高いという課題がある。
- 高解像度を維持しつつ,3Dガウススプラッティングの表現を大幅に圧縮すること。
- Smol-GSは,スプラットごとの効率的な特徴量を学習することで,3D空間を抽象的にモデル化する。
- オクトリー由来の位置エンコーディングとエントロピーベース圧縮により,ストレージを大幅に削減しつつ,表現の柔軟性を維持する。
- 標準ベンチマークにおいて,高いレンダリング品質を維持しつつ,最先端の圧縮性能を達成した。
顔姿勢補正は生体認証顔認識を向上させるか [cs.CV]目的:生体認証顔認識の精度向上
- 顔認識はセキュリティや利便性向上に不可欠であり,様々な分野で活用が拡大している。
- 現実世界の画像は品質が低く,顔の向きや隠蔽などにより,顔認識の精度が低下しやすい。
- AIを活用した顔姿勢補正と画像修復が,顔認識の精度向上に貢献するかどうかを検証する。
- 単純に姿勢補正技術を適用すると,顔認識精度が低下することがわかった。
- しかし,CFR-GANとCodeFormerを選択的に組み合わせることで,精度が有意に向上した。
- 本研究は,顔認識システムにおける画像処理の重要性を示唆している。
GH-ESD:インスタンスレベルVisionタスクにおける仮説駆動型エラースライス発見 [cs.CV]目的:インスタンスレベルVisionタスクにおけるエラーのパターン
- Visionモデルの信頼性評価において,エラーが集中するパターンを特定することは重要である。
- 既存手法では,エラーパターンを捉えきれず,特に物体検出やセグメンテーションで課題がある。
- 文脈や空間情報を考慮したエラーパターンの発見と,モデル改善に繋げること。
- 提案手法GH-ESDは,LLMとVision Language Modelsを用いて,エラーの仮説を生成し検証する。
- ベンチマークデータセットGESD上で,既存手法と比較してPrecision@10が0.10向上した。
- 発見されたエラーパターンは解釈可能であり,モデル改善に役立つことが示された。
思考の形:視覚的Chain-of-Thoughtによる段階的なオブジェクト組み立て [eess.SY, cs.SY, cs.CV]目的:テキストから画像を生成する際の,構成構造に関する制約下での性能向上
- 画像生成モデルの発展は,視覚的なコンテンツ制作において重要な役割を担っている。
- 既存モデルは,数値処理,属性の関連付け,部品レベルの関係といった構成構造の複雑な制約に弱い。
- 視覚的Chain-of-Thoughtを活用し,組み立て過程を段階的に学習することで,構造的整合性を高める。
- 提案手法SoTは,テキスト計画と中間状態を生成する統一された多Modal自己回帰モデルを訓練する。
- SoT-26KデータセットとT2S-CompBenchベンチマークにより,構造的整合性と軌跡の忠実性を評価可能にした。
- コンポーネントの数え上げと構造的トポロジーにおいて,直接生成と比較してそれぞれ24.2ポイントと19.3ポイントの性能向上を達成した。
生成モデリングの高速化のためのバイアンカー補間ソルバー [cs.CV, cs.AI]目的:生成モデリングの高速化
- 高精度な画像合成への要求が高まっており,その実現には効率的な生成モデルが不可欠である。
- 既存のFlow Matchingモデルは,反復的な常微分方程式の求解に時間がかかり,推論速度が遅いという課題がある。
- 既存手法の課題を克服し,学習コストを抑えつつ推論速度を向上させる。
- 提案手法であるBA-solverは,わずかな学習コストで標準的なソルバーと同等の生成品質を,より少ないNeural Function Evaluationsで実現する。
- ImageNet-256^2における実験では,BA-solverは10 NFEsで100+ NFEsのEulerソルバーと同等の品質を達成し,5 NFEsでも高い精度を維持する。
- BA-solverは既存の生成パイプラインに容易に組み込むことができ,画像編集などの下流タスクを支援する。
視覚事前知識の探求:拡張潜在内的特性によるリライティング [cs.CV]目的:画像間リライティングを通じた視覚事前知識の検証
- 画像認識における視覚情報の理解は重要であり,リライティングはその理解を深める手段となる。
- 意味的エンコーダーが抽象化に偏り,物理的な忠実性を損なう場合がある。
- 意味的抽象化と物理的忠実性のトレードオフを解消し,リライティングの質を向上させる。
- 拡張潜在内的特性(ALI)は,密なピクセル対応の視覚特徴を潜在的リライティングモデルに統合し,実画像ペアによる自己教師あり学習で洗練される。
- ALIは,特に光沢,金属,透明な材質におけるリライティングの質を向上させる。
- 生成リライティングは,視覚エンコーダーが物理世界についてエンコードする内容を定量化するための有効なツールであることが示された。
属性と重要度が選好を決定する安定マッチングの頑健性 [cs.GT]目的:属性と重要度に基づく選好を持つ安定マッチングの頑健性
- マッチング市場は,人材採用や大学入試など,社会の様々な場面で重要な役割を果たす。
- 重要度の変化は現実によく見られ,安定マッチングへの影響が不明確である。
- 重要度の変動に対する安定マッチングの頑健性を定量的に評価し,その限界を明らかにすること。
- 重要度のわずかな変化に対し,安定マッチングがブロックされずに維持される範囲(頑健性半径)を定義した。
- 与えられた安定マッチングに対して,指定された半径内で安定性を検証する多項式時間アルゴリズムを開発した。
- 安定マッチングの最大頑健性半径を効率的に計算するアルゴリズムを提案し,頑健性とコストのトレードオフを解析した。
VideoSketcher:ビデオモデルの事前知識を用いた逐次的なスケッチ生成 [cs.CV]目的:ビデオモデルの事前知識を利用したスケッチの逐次生成
- スケッチはアイデアの探求と洗練であり,創造的表現の重要な手段である。
- 既存の生成手法は静的な画像として扱うことが多く,創造的探求の背後にある時間的なプロセスを無視している。
- ビデオ拡散モデルの能力を活用し,高品質で多様なスケッチ生成プロセスを実現することを目指す。
- 提案手法VideoSketcherは,テキストからビデオへの拡散モデルをスケッチ生成に適応させ,高品質なスケッチプロセスを生成する。
- 大規模な手書きデータセットや言語モデルの制約を克服し,視覚的な忠実性を維持しながら多様なスケッチを生成する。
- 少ない手書き例からのスタイル転移や,筆跡スタイルの制御,自己回帰的生成など,芸術的な応用を可能にする。
エージェントは,視覚的に区別が困難な疾患をゼロショットで識別できるか?パイロット研究 [cs.CV]目的:視覚的に区別が困難な疾患のゼロショット識別性能
- 近年のマルチモーダル大規模言語モデルの進展により,エージェントベースシステムへの関心が高まっている。
- 既存研究はルーチンワークの自動化に偏っており,視覚的に類似する疾患の識別は未開拓の分野である。
- 視覚的特徴が混同されやすい状況下での,エージェントのゼロショット性能の限界を評価する。
- 皮膚科データにおいて,コントラスト判別に基づくマルチエージェントフレームワークにより,診断精度が11%向上した。
- 定性的なサンプル分析では,根拠のない主張が減少した。
- ただし,現時点では臨床への応用は難しいレベルであり,アノテーションの不確実性や臨床的文脈の欠如が課題である。
4Dパノラマ占有トラッキングのための潜在ガウススプラッティング [cs.CV, cs.AI, cs.RO]目的:4Dパノラマ占有トラッキングにおける性能向上
- ロボットが動的な環境で安全かつ確実に動作するためには,4D空間構造の把握が不可欠である。
- 既存手法では,粗い幾何学的トラッキングか,時間的な関連性やインスタンスレベルの推論に欠ける詳細な3D占有推定しかできない。
- 時間的連続性とインスタンスレベルの理解を伴う,より高精度な4D空間構造の把握を目指す。
- 潜在ガウススプラッティング(LaGS)という新しい手法を提案し,3D特徴を疎なガウス分布として表現することで,空間的に連続的な特徴集約を可能にした。
- 点中心の表現により,データ依存型の受容野と長距離空間相互作用を実現し,従来のボクセルベース手法の限界を克服した。
- Occ3D nuScenesおよびWaymoデータセットでの実験により,4Dパノラマ占有トラッキングにおいて最先端の性能が確認された。
RC-GeoCP:レーダー・カメラ協調知覚のための幾何学的コンセンサス [cs.CV]目的:レーダーとカメラの協調知覚における幾何学的コンセンサスの確立
- 複数エージェントの情報共有により,シーン理解を向上させる協調知覚の重要性が高まっている。
- LiDARは高精度だが高コストであり,悪天候に弱いという課題がある。
- レーダーとカメラの融合による,幾何学的なずれや分散の問題を解決することを目指す。
- 本研究では,レーダーに起点を置く幾何学的コンセンサスを確立するRC-GeoCPという新しいフレームワークを提案した。
- 視覚的意味論とレーダー由来の幾何学を整合させ,空間的に根拠のある表現を生成する幾何学的構造修正(GSR)を導入した。
- V2X-RadarおよびV2X-Rデータセットにおいて,提案手法が最先端の性能を示し,通信オーバーヘッドを大幅に削減できることを示した。
MAMA-MIAチャレンジ:乳房MRI腫瘍セグメンテーションと治療効果予測における汎化性能と公平性の向上 [cs.CV, cs.AI]目的:乳房MRI画像を用いた腫瘍セグメンテーションと病理学的完全奏効予測の共同評価
- 乳癌は女性において最も罹患率が高く,癌関連死因の主要因であるため,正確な診断と治療モニタリングが重要である。
- 既存のAIモデルは,データセットや評価プロトコルの違いにより,機関間や患者サブグループ間での汎化性能評価が困難である。
- MAMA-MIAチャレンジは,標準化されたベンチマークを提供し,乳癌AIシステムの頑健性と公平性を向上させることを目指す。
- MAMA-MIAチャレンジの結果,共通の外部評価フレームワーク下で,性能に大きな変動が見られた。
- 全体的な精度とサブグループの公平性の間にはトレードオフの関係が存在することが明らかになった。
- 標準化されたデータセット,評価プロトコル,および公開リソースが提供され,乳癌画像診断におけるAI開発が促進される。
ZeSTA:ドメイン条件付き学習によるゼロショットTTS拡張とデータ効率的なパーソナライズ音声合成 [cs.SD, cs.AI, eess.AS]目的:低リソースのパーソナライズ音声合成のためのデータ拡張源としてのゼロショットTTSの利用
- 音声合成技術は,人間とコンピュータの自然な対話を可能にする重要な技術である。
- パーソナライズ音声合成では,学習データが不足している場合,話者特徴の劣化が課題となる。
- 本研究は,合成音声の過剰な利用による話者特徴劣化を抑制し,データ効率を向上させることを目指す。
- 提案手法ZeSTAは,軽量なドメイン埋め込みを用いて,リアルデータと合成データを区別することで話者類似性を改善する。
- リアルデータのリサンプリングを組み合わせることで,極めて限られたターゲットデータ下でも適応を安定化させる。
- LibriTTSおよび社内データセットにおける実験で,単純な合成データ拡張よりも優れた性能が確認された。
HY-WU (第1部): 拡張可能な関数型ニューラルメモリフレームワークとテキストによる画像編集への応用 [cs.RO, cs.CV]目的:長期間運用を見据えたモデルの継続学習と迅速な個別化
- 基盤モデルはオフライン予測から,長期にわたる運用が期待されるシステムへと移行している。
- 従来の適応パイプラインは静的な重みパラダイムに依存し,ドメインの変化やユーザーの嗜好に柔軟に対応できない。
- インスタンス固有の演算子を生成することで,単一の共有パラメータ更新による妥協や干渉を回避する。
- HY-WU(Weight Unleashing)は,適応圧力を共有パラメータの書き換えから離す,メモリ優先の適応フレームワークである。
- HY-WUは,関数型(演算子レベル)メモリをニューラルモジュールとして実装し,インスタンスの状態から重み更新を生成する。
- これにより,テスト時の最適化なしに,インスタンス固有の演算子を実現し,継続学習と個別化の課題を解決する。
クラス増分型モーション予測 [cs.CV, cs.AI, cs.RO]目的:クラス増分型モーション予測における将来の物体軌跡の予測
- 自動運転の安全性向上には,周囲状況の正確な予測が不可欠である。
- 既存手法は固定された物体認識に依存し,未知のクラスへの対応が困難である。
- 新しい物体クラスが逐次的に出現する状況下での予測性能維持と適応を目指す。
- 提案手法は,新たに導入されたクラスに適応しながら,既存クラスの性能劣化を抑制する。
- 2Dインスタンスマスクと3Dキーポイント投票メカニズムにより,予測の一貫性と信頼性を向上させる。
- nuScenesおよびArgoverse 2での評価により,提案手法の有効性が実証された。
拡散モデルにおける内在連鎖思考の拡張:EndoCoT [cs.CV, cs.CL]目的:拡散モデルにおける複雑なタスク解決のための,内在連鎖思考の活性化と段階的な指示分解の実現
- マルチモーダル大規模言語モデルは空間推論などの複雑なタスクに活用されている。高度な推論能力が求められている。
- 既存手法では,言語モデルの推論深度が不十分で,連鎖思考プロセスが活性化されないという課題がある。
- 言語モデルの推論能力を最大限に引き出し,複雑な指示を段階的に実行できるようにすることを目指す。
- 提案手法EndoCoTは,言語モデルの潜在的な思考状態を反復的に洗練させ,拡散モデルのノイズ除去プロセスに接続する。
- 最終状態を正解データと整合させることで,推論の過程をテキストによる監督に固定する終端思考接地モジュールを導入。
- Maze,TSP,VSP,Sudoku等の多様なベンチマークで平均92.1%の精度を達成し,最先端手法を8.3%上回った。
スタイルにおける抽象化:テクスチャと色を超えて [cs.CV]目的:スタイルにおける抽象化の表現
- 芸術表現において,表面的な見た目だけではない抽象化が重要である。
- 従来のスタイル変換手法では,幾何学的構造を保持するため,深い抽象化表現が難しい。
- 構造的抽象化と視覚的様式化を分離し,より自由なスタイル変換を実現する。
- 本研究では,抽象化プロキシを導入し,ターゲット画像の構造をスタイルに基づいて再解釈する。
- 抽象化プロキシは,幾何学的精度を緩めつつセマンティック構造を捉え,その上で様式化を行う。
- 抽象化と外観を分離することで,より多様で表現力豊かなスタイル変換が可能となる。
Vero: 一般的な視覚的推論のためのオープンRLレシピ [cs.CY, cs.CV, cs.AI, cs.CL]目的:多様な視覚的推論タスクにおける性能
- 視覚的推論は,AIの汎用性において重要であり,様々な応用が期待されている。
- 既存の高性能モデルは,データや学習パイプラインが非公開で,研究の再現性や拡張性に課題がある。
- Veroは,オープンなデータと学習方法により,視覚的推論の研究を促進し,高性能モデルの再現性を高める。
- Veroは,既存のオープンウェイトモデルと同等またはそれ以上の性能を示す。
- 60万サンプルからなるVero-600Kデータセットと,多様な回答に対応可能な報酬設計が有効であることが示された。
- Vero-Qwen3I-8Bは,Qwen3-VL-8B-Thinkingを平均3.8ポイント上回り,追加の蒸留は不要であることが明らかになった。
概念に基づくXAIのための高解像度景観データセット:種分布モデルへの応用 [cs.CV, cs.LG]目的:種分布モデルにおける景観概念の影響量の定量化
- 種の分布把握は,保全政策や外来種管理において不可欠であり,その精度向上が求められている。
- 深層学習を用いた種分布モデルの複雑化により,予測根拠の解釈が困難になっている。
- 深層学習種分布モデルの予測根拠を明確にし,生態学的知見の獲得を支援する。
- 概念に基づくXAIは,専門家の知識との整合性を検証し,新たな生態学的仮説を生み出す。
- Robust TCAVは,景観レベルの情報を提供し,政策決定や土地管理に役立つ。
- 高解像度景観データセットは,多様な種を対象とした研究への応用を可能にする。
DF3DV-1K:ディストラクターフリーな新規視点合成のための大規模データセットとベンチマーク [cs.CV, cs.AI]目的:ディストラクターフリーなラディアンスフィールドのための大規模データセットの構築とベンチマーク
- ラディアンスフィールドの進歩は,写実的な新規視点合成を可能にした。大規模データセットは,ベンチマークと進歩に不可欠。
- ディストラクターフリーなラディアンスフィールドにおいて,クリーンかつ散らかった画像を含む大規模データセットが不足していた。
- この研究は,ディストラクターフリーなラディアンスフィールド手法の開発を促進するため,大規模データセットを提供する。
- DF3DV-1Kは,1,048シーンを含む大規模な実世界データセットであり,各シーンにクリーン画像と散らかった画像の両方が含まれている。
- 9つの最新のディストラクターフリーラディアンスフィールド手法と3DガウススプラッティングをDF3DV-1Kでベンチマークし,最も堅牢な手法と課題を特定した。
- DF3DV-1Kを用いて,拡散ベースの2Dエンハンサーをファインチューニングし,ラディアンスフィールド手法の性能を0.96dB PSNRと0.057 LPIPSで向上させた。
ドメイン汎化型顔詐欺検出のためのVision Foundationモデルのベンチマーク [cs.CV]目的:ドメイン汎化可能な顔詐欺検出のためのVision Foundationモデルの性能評価
- 顔詐欺検出はセキュリティにおいて重要であり,未知の環境への適応が課題である。
- 既存手法は計算資源を多く必要とし,推論速度が遅い場合がある。
- 効率的かつロバストなベースラインを確立し,顔詐欺検出の性能向上を目指す。
- 自己教師あり学習を用いたVision Transformer (DINOv2)が,注意アーティファクトを抑制し,微細な詐欺の兆候を捉える上で有効であることが示された。
- 提案手法は,データ拡張(FAS-Aug, PDA)とAttention-weighted Patch Loss(APL)を組み合わせることで,MICOプロトコルにおいて最先端の性能を達成した。
- データ制約のあるLSDプロトコルにおいても既存手法を上回り,計算効率に優れていることが確認された。
最適バンドルを持つフィッシャー市場とPPADのためのPCP定理の必要性 [cs.CL, cs.GT, cs.CC]目的:分離可能線形区分凹型効用関数を持つフィッシャー市場における近似最適バンドルを持つ競争的均衡の計算
- 市場メカニズム設計は,資源配分の効率性向上に不可欠であり,経済学,計算機科学における重要な研究分野である。
- 競争的均衡の計算はNP困難であり,現実的な規模の市場への適用が困難である。近似解の計算もまた難しい。
- 近似最適バンドルを持つ競争的均衡の計算困難性を証明し,PPADのためのPCP定理の必要性を示す。
- 分離可能線形区分凹型効用関数を持つフィッシャー市場において,ある定数δ>0に対して,近似最適バンドルを持つ競争的均衡の計算がPPAD困難であることが示された。
- この困難性は,全ての買い手が同一の予算を持つ場合や,線形上限効用関数を持つ場合,さらにはε-近似的な清算を許容する場合でも成立する。
- この研究は,定数δに対する困難性証明にPPADのためのPCP定理が必要であることを示す最初の自然な問題である。
深層学習による網膜画像からのアルツハイマー病リスク因子の予測:UK Biobankにおける生物学的に関連性の高い形態学的関連性の開発と検証 [cs.CV]目的:アルツハイマー病に関連する12のリスク因子の予測
- アルツハイマー病は高齢化社会において増加傾向にあり,早期発見と予防が重要である。
- アルツハイマー病のリスク因子は多岐にわたり,網膜画像からのリスク評価は未確立である。
- 深層学習を用いて網膜画像からリスク因子を予測し,アルツハイマー病脆弱性の経路を評価する。
- 深層学習モデルは,カテゴリー型因子でAUROC=0.5654-0.9480,連続型因子でR2=-0.0291-0.7620の性能を示した。
- 注目度マップは,視神経乳頭や網膜血管といった生物学的に意味のある領域を特定した。
- アルツハイマー病患者と健常者間で注目度に基づくスコアに有意な差が認められ,臨床応用への可能性を示唆した。
外分布検出における単純化バイアスの軽減:物体共起解析によるアプローチ [cs.CV, cs.AI]目的:外分布データの検出における単純化バイアスの軽減
- 深層学習モデルの信頼性確保は重要であり,外分布検出はその鍵となる。
- 既存手法は文脈情報を無視し,特に近外分布データの検出が困難である。
- 物体共起パターンを捉え,近外分布データ識別における単純化バイアスを回避する。
- 提案手法は,画像内の物体共起パターンを学習する新しい外分布検出パラダイムを導入した。
- 訓練データにおける物体共起パターンに基づき,パターンを3つのシナリオに分割し,分割統治法で検出を行う。
- 多様な外分布設定での実験により,高い性能と有効性が確認された。
CADBench:AI支援CADプログラム生成のためのマルチモーダルベンチマーク [cs.CV, cs.AI]目的:AI支援設計におけるCADプログラムの評価
- AI技術を用いた設計支援は,生産性向上や新たな設計可能性の創出に不可欠である。
- 既存の評価方法が,データセット,モダリティ,評価指標の点で断片的であり,客観的な性能比較が困難である。
- 様々な入力形式と評価指標に対応した統一的なベンチマークを提供し,客観的な性能評価を可能にすること。
- CADBenchは,DeepCAD,Fusion 360等を含む6つのデータセット,5つの入力モダリティ,6つの評価指標を網羅するベンチマークである。
- 専門的なメッシュ-CADモデルは,コード生成系VLMと比較して優れた性能を示したが,理想的な入力下でのみその差が顕著であった。
- 幾何学的複雑さの増大,モダリティの変化,評価指標の違いが,モデルの性能に影響を与えることが明らかになった。
マスク・モーフ グラフ U-Net:大型幾何学的変化下における衝突安全性能予測のための汎用性を持つメッシュベースのサロゲートモデル [cs.LG, cs.CV]目的:衝突安全性能の予測に関する,汎用性のあるメッシュベースのサロゲートモデルの開発
- 自動車の衝突安全性能向上は重要であり,シミュレーション技術の効率化が求められている。
- 非線形有限要素解析は高精度だが計算コストが高く,反復設計最適化の妨げとなる。
- グラフ構造の変動に対応しつつ,非線形関係を高精度に捉えるサロゲートモデルを開発する。
- 粗グラフのモーフ処理により,固定粗グラフベースラインと比較してテスト精度が向上した。
- マスク付き教師あり事前学習は,訓練とテストの乖離を減らし,転移学習時のデータ効率を高めた。
- 提案モデルは,外部ベースラインと比較しても低い予測誤差を達成し,実用的なアプローチを示した。
韓国語音声QAにおけるASR-LLMカスケードにおけるエラー伝播の分析 [cs.CL, cs.CL, cs.SD, eess.AS]目的:韓国語音声質問応答におけるASR-LLMカスケードのエラー伝播
- 音声QAは,ハンズフリーでの情報アクセスを可能にするため,利便性の高いインタフェースである。
- ASRエラーが,LLMによるQAパフォーマンスに大きな影響を与えることが知られている。
- ASRエラーによる情報損失を特定し,直接音声入力の有効性を検証する。
- ASRエラーによる性能劣化は,LLMの絶対的な性能に関わらず一貫して観察された。これは,カスケードにおける劣化がASR段階の情報損失を反映していることを示唆する。
- 韓国語特有の損失経路として,一文字のASRエラーが質問の意味を変え,QA性能を低下させることが示された。
- ノイズ下での韓国語音声QAにおいて,大規模な音声言語モデルは,同程度の言語バックボーンを持つASR-LLMカスケードよりも優れた性能を示した。
ビジョン言語モデルは3Dシーンを理解しているのか,それとも単に物体をカタログ化しているだけなのか [cs.CV, cs.LG]目的:3D空間認識の構成要素に関する理解度評価
- 視覚と言語の融合は,ロボティクスや拡張現実など多様な応用分野で不可欠である。
- 既存のビジョン言語モデルは物体認識に優れる一方,3D空間構造の理解が不十分である。
- 物体間の空間関係や光学的性質の推論能力を定量的に評価し,モデルの限界を明らかにする。
- 最新のビジョン言語モデルは,可視レイアウトの再配置計画では高い精度を示す。
- しかし,奥行き順序に基づいた隠蔽物の理解や反射の光学的幾何学の推論では性能が著しく低下する。
- その原因は,視覚トークン統合後の情報損失にあり,視覚エンコーダで得られた空間情報が言語デコーダに伝わっていないことにある。
光の相互作用:インタラクティブビデオワールドモデルのトレーニング不要な推論高速化 [cs.CV, cs.LG]目的:インタラクティブビデオワールドモデルの推論高速化
- リアルタイムなゲームシミュレーションや仮想環境など,多様な応用が期待される分野である。
- 長いインタラクティブな軌跡の計算には,メモリ量と計算コストが課題となっている。
- 推論時の計算量を削減し,高速化を実現することを目指している。
- Light Interactionは,モデルの再トレーニングなしに最大2.59倍の高速化を実現した。
- 空間メモリの適応的な管理,ノイズ除去キャッシュの加速,そしてハードウェア・ソフトウェア協調設計により実現した。
- HY-WorldPlayとMatrix-Game-3.0における評価で,競争力のある画質を維持している。
動画からの幾何学的表現学習:空間知能を持つマルチモーダル大規模言語モデルに向けて [cs.AR, cs.MS, cs.CV, cs.AI]目的:幾何学的表現の学習
- マルチモーダル大規模言語モデルの発展は,画像とテキストの理解を深める上で重要である。
- 既存モデルは2次元の理解に偏り,動画中の幾何学的・空間的な一貫性を欠いている。
- 動画のみから幾何学的知識を抽出し,モデルに空間知能を付与することを目指す。
- GeoVRは,大規模な3Dデータに頼らず,2D動画から幾何学的表現を学習する新しいフレームワークである。
- 事前学習済みの3Dモデルから幾何学的知識を蒸留することで,モデル内部の表現を再構築する。
- 複数の幾何学的目標(カメラ姿勢推定,深度マップ回帰,スケール予測,3D特徴蒸留)によって,モデルの3D認識能力を高める。
ストリーミング介入:動画大規模言語モデルは発生時に誤りを修正できるか [cs.CV, cs.LG]目的:リアルな調理シナリオにおける,反応的で段階的なタスクガイダンスの評価
- 料理などの日常的なスキル習得において,オンライン動画などの指導メディア利用が増加している。
- 既存の料理動画データセットには,誤りと適切なタイミングの介入例が不足している。
- 動画大規模言語モデルの介入能力を向上させるための学習データ不足を解消する。
- Ego-MC-Benchは最先端の動画LLMにとって非常に難しいベンチマークであることが示された。
- Ego-CoMistによるファインチューニングは,特にエッジデバイスに適したより小型で効率的な動画LLMの性能向上をもたらした。
- 誤りと介入例を含むカウンターファクチュアルな合成データセットEgo-CoMistを新たに開発した。
iSAGE:疎な点による教師あり遠隔センシングセマンティックセグメンテーションのための人間介入型フレームワーク [cs.DB, cs.CV]目的:遠隔センシングにおけるセマンティックセグメンテーションの精度向上
- 遠隔センシングは,地球観測や環境モニタリング等に不可欠であり,その精度向上が重要である。
- セグメンテーションには高コストなピクセルレベルのアノテーションが必要であり,センサーや地域による汎化が困難である。
- 専門家による誤り箇所へのクリックのみで,高精度なセグメンテーションを実現し,アノテーションコストを削減する。
- iSAGEは,最小限の労力(クラスごとに1ピクセル)で,教師データのおおよそ97.2%の精度を達成した。
- ISPRS Vaihingenデータセットでは,0.011%のピクセルでベースラインと同等の精度(76.78% mIoU)を達成した。
- 既存の人間介入型フレームワークと比較して,補助的な機構を必要とせず,高い精度を維持した。
コンテキスト学習によるLLMを用いた音声ベース感情分類のための合成正解データ生成 [cs.SD, cs.LG, eess.AS]目的:音声ベース感情分類における合成正解データの生成
- 人間とコンピュータのインタラクションにおいて,人間の状態理解は不可欠である。
- 感情や認知状態の正解データ作成には,ノイズや文脈,専門家によるアノテーションの不足が課題である。
- VR環境における音声データから,動的なチームプロセスを反映した感情状態を推定するための正解データ生成を目指す。
- 大規模言語モデル(LLM)とコンテキスト学習(ICL)を活用し,音声データから合成正解データを自動生成する手法を提案した。
- ICLによるタスク適応は,ファインチューニングに匹敵する性能を示しつつ,計算コストを抑えることが可能である。
- 音響特徴空間での類似度に基づき,適切な音声サンプルを動的に選択することで,効果的なプロンプトを構築した。
