arXiv雑要約

画像・音声 - 2025/10/13 公開

  • LadderSym: 音楽練習におけるエラー検出のためのマルチモーダルインターリーブトランスフォーマー [cs.SD, cs.AI, eess.AS]目的:音楽練習におけるエラー検出の精度向上
    • 音楽学習において,正確なエラー検出は効果的な練習を支援する上で不可欠である。
    • 既存手法は,ヒューリスティックや学習モデルに依存しており,異なるモダリティ間の連携が不十分である。
    • オーディオと記譜のマルチモーダルな比較と,それによるエラー検出精度の向上を目指す。
    • 提案手法LadderSymは,MAESTRO-Eデータセットにおいて,見逃しノートのエラー検出F1スコアを26.8%から56.3%へと大幅に向上させた。
    • また,MAESTRO-Eデータセットにおける余分なノートの検出F1スコアも,72.0%から86.4%へと14.4ポイント改善した。
    • 同様の改善がCocoChorales-Eデータセットでも確認され,汎用的なシーケンス評価モデルの可能性を示唆する。

    Link: https://arxiv.org/abs/2510.08580

  • 多様な音響条件下における音声クエリを用いたマルチモーダルLLMのハルシネーション評価 [cs.SD, cs.AI, eess.AS]目的:マルチモーダル大規模言語モデルにおけるハルシネーションの影響
    • 音声インタフェースの普及に伴い,音声入力時のモデルの信頼性が重要となる。
    • 既存研究では,画像とテキスト間のハルシネーションは検証されているが,音声クエリの影響は未解明である。
    • 音声入力がハルシネーションに及ぼす影響を定量的に評価し,改善策の検討を目指す。
    • 音声クエリを用いた場合,ハルシネーションの発生率が上昇することが明らかになった。
    • 特に,環境ノイズ下ではハルシネーションが最大20%増加する傾向が確認された。
    • Few-shot promptingやChain-of-Thoughtなどの手法では,ハルシネーションの抑制効果は限定的である。

    Link: https://arxiv.org/abs/2510.08581

  • EGSTalker:効率的なガウス変形を用いたリアルタイム音声駆動型Talking Head生成 [cs.SD, cs.AI, eess.AS]目的:3Dガウススプラッティングに基づくリアルタイム音声駆動型Talking Head生成フレームワーク
    • 映像制作やコミュニケーションにおいて,リアルな人物映像の需要は高い。特に,音声と連動した自然な口の動きが重要である。
    • 既存手法では,高品質な映像生成に時間がかかり,リアルタイム処理が困難であるという課題がある。
    • 少ない学習データで,高画質かつリアルタイムなTalking Head生成を実現し,多様なマルチメディア応用を可能にすること。
    • EGSTalkerは,わずか3〜5分の学習ビデオで高品質な顔のアニメーションを合成できる。
    • 本フレームワークは,レンダリング品質とリップシンク精度において最先端手法と同等でありながら,推論速度で大幅に優れている。
    • 効率的な空間-音声注意モジュール(ESAA)により,音声と空間情報を融合し,ガウス変形を予測する。

    Link: https://arxiv.org/abs/2510.08587

  • CNNを超えて:少ないデータ環境下における物体検出のためのマルチモーダルLLMの効率的なファインチューニング [cs.CL, cs.CV, cs.AI]目的:少ないデータ環境下における物体検出のためのマルチモーダルLLMの効率的なファインチューニング
    • 物体検出は,画像認識の重要な課題であり,自動運転やロボティクスなど幅広い分野で不可欠である。
    • 従来のCNNは大量の学習データを必要とし,データ不足の環境下では性能が低下しやすいという課題がある。
    • マルチモーダルLLMのデータ効率性を高め,少ないデータでも高性能な物体検出を実現することを目的とする。
    • マルチモーダルLLMをわずか1,000枚以下の画像でファインチューニングすることで,最大36%の精度向上を達成した。
    • ファインチューニングされたLLMは,通常はより多くのデータを必要とするCNNベースラインと同等またはそれを上回る性能を示した。
    • 本研究は,限られたリソースの視覚環境において,マルチモーダルトランスフォーマーを適用するための有効な戦略を提供する。

    Link: https://arxiv.org/abs/2510.08589

  • 音声からのうつ病検出のための階層型自己教師あり表現学習 [cs.CL, cs.AI, cs.SD, eess.AS]目的:音声からのうつ病検出における表現学習の改善
    • 精神疾患の早期発見が重要であり,客観的指標に基づく診断手法の確立が求められている。
    • 従来の音声分析では,うつ病特有の微妙な特徴を捉えきれず,精度向上が課題であった。
    • 自己教師あり学習の階層構造を活用し,時間的な変動を考慮したうつ病検出モデルを構築する。
    • HAREN-CTCは,多層の自己教師あり学習特徴をクロスコアテンションで統合する新しいアーキテクチャである。
    • 階層的適応クラスタリングとクロスモーダル融合モジュールにより,うつ病の微妙な兆候を捉えることが可能となった。
    • DAIC-WOZとMODMAの両データセットで最先端の性能を示し,マクロF1スコア0.81と0.82を達成した。

    Link: https://arxiv.org/abs/2510.08593

  • GRPO-GCC:集団相対方策最適化とグローバル協力制約による空間型公共財ゲームにおける協力の強化 [cs.MA, cs.GT]目的:空間型公共財ゲームにおける協力の促進
    • 社会システムの持続可能性において,個人の協力行動が不可欠である。
    • 従来の強化学習手法では,協力の持続や安定化が困難であった。
    • 集団相対方策最適化とグローバル協力制約により,協力行動を促進し安定化させる。
    • GRPO-GCCは,空間型公共財ゲームにおいて新たな強化学習の基準となる。
    • 中間的な協力レベルにおけるインセンティブを強化し,極端な状況を抑制することで,持続可能な集団成果を実現する。
    • シンプルなグローバルシグナルが協力的なインセンティブを再構築し,レジリエントな協力関係を促進する。

    Link: https://arxiv.org/abs/2510.08607

  • 脳腫瘍セグメンテーションのためのデータ拡張と損失関数の再現性のある評価 [cs.CL, cs.CL, cs.CL, cs.CL, cs.CV, cs.LG]目的:脳腫瘍セグメンテーションにおけるデータ拡張と損失関数の性能評価
    • 脳腫瘍の正確なセグメンテーションは,診断と治療計画において不可欠である。
    • クラス不均衡やモデルの汎化性能の限界が,セグメンテーションの精度向上を阻害している。
    • データ拡張や損失関数の最適な組み合わせを見出すことで,セグメンテーション精度を改善する。
    • Focal Lossを用いたU-Netは,90%の精度を達成し,既存研究と同等の結果を示した。
    • 本研究では,コードと結果を公開することで,再現性のある基盤を確立した。
    • 今後の脳腫瘍セグメンテーション研究におけるデータ拡張戦略と損失関数設計を支援する。

    Link: https://arxiv.org/abs/2510.08617

  • テキスト画像拡散モデルにおける記憶の軽減のための初期ノイズ調整 [cs.CL, cs.CV]目的:テキスト画像拡散モデルにおける記憶現象の軽減策
    • 拡散モデルは強力な画像生成能力を持つが,プライバシーや著作権の問題が生じている。
    • モデルが訓練データを記憶し,再現してしまうという課題が存在する。
    • 初期ノイズを調整することで,記憶領域からの早期脱出を促し,生成画像の品質を維持する。
    • 初期ノイズサンプルが記憶領域からの脱出時間に大きく影響することが示された。
    • 初期ノイズを調整する2つの戦略を提案し,記憶現象を大幅に軽減することに成功した。
    • 提案手法は,画像とテキストの整合性を維持しつつ,記憶の軽減を実現している。

    Link: https://arxiv.org/abs/2510.08625

  • デジタルミラー:AI生成画像におけるジェンダーバイアスと職業的ステレオタイプ [cs.CV]目的:AI生成画像におけるジェンダーバイアスと職業的ステレオタイプの存在
    • AI技術の発展は,メディアや職業分野における多様性の確保が重要となっている。
    • AI生成画像において,表現上のバイアスが十分に検証されていない。
    • AI生成画像におけるジェンダーバイアスを明らかにし,多様な表現を促進すること。
    • DALL-E 3とIdeogramの2つのAI画像生成ツールにおいて,伝統的なジェンダーの固定観念が強化される傾向が確認された。
    • AI画像生成ツールは,限定的な表現を強化するリスクを抱えていることが示唆された。
    • AIによる画像生成時に,より多様な表現を実現するための提言がなされた。

    Link: https://arxiv.org/abs/2510.08628

  • 視覚的自己回帰モデルにおける動的混合エキスパート [cs.CV]目的:視覚的自己回帰モデルの効率化と高品質な画像生成
    • 画像生成技術は,多様な応用分野で重要な役割を担う。
    • Transformerの繰り返し呼び出しによる計算冗長性が課題。
    • 計算コストを削減しつつ,画像品質を維持すること。
    • 動的混合エキスパートによるルーティングを導入した結果,FLOPsを20%削減。
    • 推論速度が11%向上し,ベースラインと同等の画像品質を達成。
    • トークンの複雑さと解像度に基づいた閾値処理により,効率的な専門家選択を実現。

    Link: https://arxiv.org/abs/2510.08629

  • LiDARセマンティックセグメンテーションにおける階層的GMMからのエピステミック不確実性を利用した分布外検出 [cs.CL, cs.CV, cs.LG]目的:LiDARセマンティックセグメンテーションにおける分布外オブジェクトの検出
    • 自動運転やロボティクスにおいて,正確な環境理解は不可欠であり,セマンティックセグメンテーションはその重要な要素である。
    • 従来の分布外検出手法は,補助的なデータセットに依存するか,モデルとデータの不確実性を区別できないという課題があった。
    • 本研究は,深層ニューラルネットワークの特徴空間において,階層ベイズモデルに基づくGMMパラメータから得られるエピステミック不確実性を用いることで,この課題を解決する。
    • 提案手法は,補助データや追加の学習段階を必要とせず,SemanticKITTIデータセットにおいて既存の不確実性ベースの手法を上回る性能を示した。
    • 具体的には,AUROCが18%向上,AUPRCが22%増加,FPR95が36%減少(76%から40%へ)した。
    • 予測エントロピーを用いる従来の手法と比較して,分布内領域と分布外領域の不確実性をより正確に識別できることが示された。

    Link: https://arxiv.org/abs/2510.08631

  • Hi-OSCAR:人間活動認識のための階層型オープンセット分類器 [cs.CV, cs.AI]目的:人間活動認識における,既知活動の正確な識別と未知活動の拒否
    • 人間活動認識は,健康管理や生活支援など,様々な応用が期待されており,重要性が高い。
    • 既存手法では,訓練データにない活動を正しく処理できず,信頼性が損なわれる場合がある。
    • 未知活動の識別と,活動間の階層構造を活用することで,認識精度と信頼性の向上を目指す。
    • 提案手法Hi-OSCARは,最先端の精度で既知活動を識別しつつ,未知活動を同時に拒否できる。
    • 未知活動を,最も近い内部ノードに局在化することで,「既知/未知」の二者分類を超えた洞察を提供する。
    • 新たなデータセットNFI_FAREDを公開し,今後のオープンセットHAR研究を支援する。

    Link: https://arxiv.org/abs/2510.08635

  • 時間周波数解析による高周波振動の検出 [cs.CV, physics.med-ph]目的:高周波振動の検出方法
    • 難治性てんかん治療において,焦点領域の特定は重要であり,その精度向上に貢献する。
    • 高周波振動の検出は困難であり,臨床的特徴の解明が十分でない現状がある。
    • 高周波振動の自動検出法の開発を通じて,臨床応用への道を拓く。
    • 提案手法は,制御データセットにおいて,感度97.67%,適合率98.57%,Fスコア97.78%を達成した。
    • てんかん患者データでは,切除電極と非切除電極における高周波振動発生率の比率が0.73と,手術成績との強い相関が示された。
    • 高周波振動,特に高速振動の除去が,てんかん発作からの自由につながり,残存すると再発する可能性が確認された。

    Link: https://arxiv.org/abs/2510.08637

  • DINOからミンコフスキー幾何へ:タスク関連概念の探求 [cs.CV, cs.AI]目的:DINOv2が知覚するものの性質の解明
    • 画像認識技術は,自動運転やロボット工学など,様々な分野で不可欠である。
    • DINOv2のような大規模モデルの内部表現はブラックボックスであり,解釈が困難である。
    • DINOv2の概念表現の構造を明らかにし,視覚認識メカニズムの理解を深める。
    • DINOv2の学習概念辞書を分析した結果,分類,セグメンテーション,深度推定といったタスクごとに異なる概念が活用されていることが判明した。
    • 概念表現は線形疎性だけでなく,密な部分も持ち,ミンコフスキー幾何学に基づいた凸結合による構造が示唆された。
    • 得られた結果は,視覚トランスフォーマーの表現を解釈するための新たな視点を提供する。

    Link: https://arxiv.org/abs/2510.08638

  • GCNに基づく適応背景グリッドの簡略化によるメッシュ生成用サイズフィールド生成 [cs.GR, cs.CV]目的:メッシュ生成のためのサイズフィールド生成
    • 非構造化メッシュの品質と効率を制御する上で,サイズフィールドの定義が重要である。
    • 幾何学的に適合し,計算コストが低く,バンディングなどのアーティファクトがない最適な背景グリッドの作成が困難である。
    • グラフ畳み込みネットワークを用いた簡略化により,効率的なサイズフィールド生成を目指す。
    • 提案手法は,背景グリッドの簡略化タスクをエッジスコア回帰問題として定式化し,最適なエッジ崩壊候補を効率的に予測する。
    • 簡略化された背景グリッドは,元のグリッドと比較して要素数を74%~94%削減し,サイズフィールドのクエリ時間を35%~88%短縮した。
    • 幾何学的忠実性とサイズフィールドの精度を考慮したカスタム損失関数により,データ駆動型アプローチを実現している。

    Link: https://arxiv.org/abs/2510.08645

  • 物理知識と劣化適応エキスパートによる汎用リモートセンシング画像復元 [cs.CV]目的:リモートセンシング画像復元のための劣化適応型エキスパートシステムの開発
    • リモートセンシングは,地球観測や環境モニタリングに不可欠であり,その精度向上は重要である。
    • リモートセンシング画像は,大気やセンサーの影響を受けやすく,劣化が多様で複雑である。
    • 既存手法の弱点を克服し,物理知識と劣化適応性を活用した高効率な復元手法を確立する。
    • 提案手法PhyDAEは,劣化情報を明示的な決定信号に変換することで,多様な劣化を高精度に識別・処理する。
    • 残差多様体射影器(RMP)と周波数認識劣化分解器(FADD)により,劣化特性を多角的に分析し,効率的な復元を実現する。
    • 主要なベンチマークデータセットにおいて,最先端手法と比較して優れた性能と計算効率を示すことが確認された。

    Link: https://arxiv.org/abs/2510.08653

  • クロスモダリティからパラメータ化されたプリミティブへの3D生成フレームワーク [cs.GR, cs.AI, cs.CV]目的:3Dモデルの生成
    • AI技術の発展により3Dモデル生成が重要視されている。
    • 滑らかな表面の確保とストレージオーバーヘッドの削減が課題である。
    • テキストと画像入力により,高品質な3Dモデルの生成と効率的な保存を実現する。
    • 提案手法は,パラメータ化されたプリミティブを用いて3Dモデルを生成し,Chamfer Distance 0.003092を達成した。
    • VIoU 0.545,F1-Score 0.9139,NC 0.8369と良好な性能を示し,モデルのパラメータファイルサイズは約6KBに抑えられた。
    • 特にシンプルなモデルの迅速なプロトタイピングに適している。

    Link: https://arxiv.org/abs/2510.08656

  • Hulu-Med:包括的な医用視覚言語理解に向けた透明性の高い汎用モデル [cs.CV]目的:多様なデータ様相(医用テキスト,2D/3D画像,動画)を統合した医用視覚言語モデルの開発
    • 臨床判断は多様な情報統合が不可欠であり,AIによる効率化と見落とし防止が重要である。
    • 既存の汎用モデルは,不透明な処理過程,データ不足,柔軟性の欠如といった課題を抱えている。
    • 本研究は,透明性が高く,多様なデータ様相を扱える高性能な医用視覚言語モデルを構築する。
    • Hulu-Medは,統一された画像エンコーダとLLMデコーダに基づき,2Dから3D,動画へと段階的に学習された。
    • 医療に特化したトークン削減により,7Bから32Bパラメータのモデルを比較的少ないGPU時間で学習可能となった。
    • 30のベンチマークにおいて最先端の性能を示し,主要なオープンソースモデルやプロプライエタリシステムを上回る結果が得られた。

    Link: https://arxiv.org/abs/2510.08668

  • 拡散モデルの周波数認識キャッシュによる高速化 [cs.LG, cs.AI, cs.CV]目的:拡散モデルの推論コスト削減
    • 拡散モデルは高品質な画像生成が可能だが,推論コストが高いという課題がある。
    • 既存のキャッシュ手法は,隣接ステップの特徴量が類似していることを前提としている。
    • 周波数領域の分析に基づき,低周波成分の類似性と高周波成分の連続性を活用する。
    • 本研究では,低周波成分の類似性に基づいたキャッシュと,高周波成分の連続性に基づく補間を組み合わせたFreqCaを提案する。
    • また,全層の特徴量ではなく累積残差特徴量をキャッシュすることで,メモリフットプリントを大幅に削減する。
    • FLUX.1-dev,FLUX.1-Kontext-dev,Qwen-Image,Qwen-Image-Editの実験により,生成と編集の両タスクで有効性が確認された。

    Link: https://arxiv.org/abs/2510.08669

  • カメラ思考:カメラ中心の理解と生成のための統合マルチモーダルモデル [cs.CV]目的:カメラ中心の理解と生成
    • 空間知能の基礎であり,ロボット工学や拡張現実などへの応用が期待される。
    • 従来のモデルは理解と生成が分かれており,カメラ視点を通じた統合的なアプローチが不足している。
    • カメラ視点を言語として扱うことで,空間的情報を活用したシーンの解釈と生成を可能にする。
    • Puffinは,カメラパラメータとピクセル単位のカメラマップを統合し,柔軟かつ信頼性の高い空間生成を実現した。
    • Puffinは,カメラ中心の生成と理解において,既存の専門モデルを上回る性能を示した。
    • 指示チューニングにより,空間的想像力,世界探索,写真指導といった多様なタスクへの汎化が可能となった。

    Link: https://arxiv.org/abs/2510.08673

  • 統一された世界モデル:視覚ナビゲーションのためのメモリ拡張計画と予測 [cs.AI, cs.CV, cs.RO]目的:視覚ナビゲーションにおける未来状態の想像の有効性
    • ロボットの自律的な行動において,環境を理解し予測する能力は不可欠である。
    • 既存手法は計画と世界モデルが分離しており,状態と行動のずれが生じやすい。
    • 視覚的な予測と計画を統合し,よりロバストで適応性の高いナビゲーションを実現する。
    • UniWMは,単一のマルチモーダル自己回帰バックボーンで視覚的な予測と計画を統合している。
    • UniWMは,予測と制御の間の整合性を高め,ナビゲーションの成功率を最大30%向上させた。
    • 新しいデータセット(TartanDrive)に対するゼロショット汎化能力も高く,軌跡誤差も大幅に減少した。

    Link: https://arxiv.org/abs/2510.08713

  • 構造化出力正則化:少数のサンプルを用いた転移学習のためのフレームワーク [cs.CV, cs.LG, stat.ML]目的:少数のサンプルを用いた転移学習のためのフレームワーク
    • 転移学習は,既存の知識を活用し,少ないデータで高性能なモデルを構築する上で重要である。
    • 従来の転移学習では,過学習のリスクや,ドメイン固有の特徴への適応能力の限界が課題となっていた。
    • 本研究では,モデルの構造を固定しつつ,正則化によって特定のデータに適応させることで,これらの課題を解決する。
    • 構造化出力正則化(SOR)は,既存のネットワーク構造を固定しつつ,グループLassoとL1ペナルティを組み合わせることで,少ないパラメータでデータに適応する。
    • 医療画像分類の少サンプルタスクにおいて,DenseNet121やEfficientNetB4を基盤として,既存のベンチマークと比較して競争力のある結果が得られた。
    • SORは,様々なネットワーク構成要素に適用可能であり,幅広い転移学習タスクへの応用が期待できる。

    Link: https://arxiv.org/abs/2510.08728

  • 継続的な逐次オークション [cs.GT]目的:同一商品の逐次オークションにおける需要と入札者の不確実性
    • オークションは資源配分の効率的な手段であり,経済学において重要な研究対象である。
    • 現実のオークションでは,入札者の退出など不確実性が存在し,理論的な分析が困難である。
    • 入札者の不確実性がオークションの均衡価格や効用性に与える影響を明らかにすること。
    • 不確実性がない場合,均衡価格は閾値となる評価額に近づき,それ以上の評価額の入札者が確実に落札する。
    • 不確実性が存在する場合,閾値評価額は不明確になるが,低評価額の入札者は落札機会が増加する。
    • 高評価額の入札者も,ある範囲内では不確実性の恩恵を受け,均衡入札額が低下し,期待効用が増加する。

    Link: https://arxiv.org/abs/2510.08742

  • BEAR:原子的な具現能力のためのマルチモーダル言語モデルのベンチマークと強化 [cs.CV, cs.RO]目的:マルチモーダル言語モデルの具現能力に関する包括的なベンチマークと強化手法
    • ロボット工学やAIにおいて,物理世界とのインタラクションは重要な課題である。
    • 既存のベンチマークは特定分野に偏っており,汎用的な具現能力の評価が不十分である。
    • マルチモーダル言語モデルの原子的な具現能力の限界を明らかにし,その性能向上を目指す。
    • BEARベンチマークは,14のドメイン,6つのカテゴリに及ぶ4,469件のデータで構成され,多様な具現能力を評価する。
    • 20の代表的なMLLMの評価結果から,すべての具現能力ドメインにおいて一貫した限界が明らかになった。
    • BEAR-AgentはGPT-5に対し,絶対的な性能向上9.12%,相対的な改善17.5%を達成し,具現能力の向上がシミュレーション環境での性能向上に繋がることが示された。

    Link: https://arxiv.org/abs/2510.08759

  • SAFER-AiD:眼球運動に着想を得た敵対的防御のための焦点-周辺視野強調再構成 [cs.CV, cs.AI]目的:敵対的攻撃に対するロバスト性を向上させる再構成手法の開発
    • 深層学習モデルの安全性確保は,実世界への応用において重要である。敵対的攻撃は深刻な脅威となり得る。
    • 従来の防御法は計算コストが高く,既存システムへの統合が困難な場合がある。生物学的メカニズムの活用が求められている。
    • 人間の視覚システムに着想を得て,再構成処理による敵対的ノイズの軽減とロバスト性の向上を目指す。
    • 提案手法は,眼球運動を模倣したサッカードによる焦点-周辺視野の情報を統合し,画像再構成を行うことで,敵対的ノイズの影響を抑制する。
    • ImageNetデータセットでの実験により,多様な分類器と攻撃手法に対してロバスト性が向上することが示された。
    • 本手法は,既存の分類器の再学習やファインチューニングを必要とせず,学習オーバーヘッドを大幅に削減する。

    Link: https://arxiv.org/abs/2510.08761

  • 熱画像,事前学習済み深層学習モデル,およびロボットプラットフォームを用いた漏洩検知 [cs.CV, cs.LG, cs.RO]目的:漏洩検知システム
    • 安全確保は重要であり,迅速な漏洩検知は事故防止に不可欠である。
    • 従来の漏洩検知は,環境条件に左右されやすく,リアルタイム性に課題があった。
    • 様々な環境下で,高速かつ高精度な漏洩検知を実現すること。
    • RGB画像と熱画像を用いた事前学習済み深層学習モデルにより,漏洩の有無を高精度に分類できることを示した。
    • 熱画像を用いたモデルは,推論速度,精度,モデルサイズにおいて優位性を示す。
    • VGG19やNasNetMobile等の軽量モデルで100%の精度を達成し,実用的なシステム構築の可能性を示唆した。

    Link: https://arxiv.org/abs/2510.08770

  • LinearSR:安定性と効率性を備えた線形アテンションによる画像超解像の可能性を解き放つ [cs.CV]目的:画像超解像における線形アテンションの適用可能性
    • 画像超解像は,低解像度画像を高品質に復元する重要な技術であり,様々な応用分野で求められている。
    • 従来の自己注意機構は計算コストが高く,高解像度画像への適用が困難であった。
    • 線形アテンションの潜在能力を引き出し,実用的な超解像技術を確立すること。
    • 本研究では,線形アテンションを活用した新たなフレームワークLinearSRを提案し,画像超解像の効率と品質を同時に向上させた。
    • 提案手法では,学習の不安定性を解消する「膝点」に基づいた早期停止によるファインチューニング(ESGF)と,知覚品質と歪みのトレードオフを緩和するSNRに基づくMoEアーキテクチャを導入した。
    • LinearSRは最先端の知覚品質を達成しつつ,計算効率にも優れており,効率的な生成超解像の新たな基盤となる。

    Link: https://arxiv.org/abs/2510.08771

  • AI自動ビデオキーフレーム抽出によるカカポの再識別 [cs.CV, cs.AI]目的:カカポの再識別
    • 野生動物個体群モニタリングにおいて,個体識別は不可欠であり,保全活動の根幹をなす。
    • 従来の足環装着等の手法は時間と労力を要し,動物に負担をかけるという課題がある。
    • AIを活用し,非侵襲的かつ効率的な個体識別手法を確立することで,モニタリングの精度向上を目指す。
    • 提案手法によるキーフレーム抽出は,カカポの再識別において高い精度を実現した。
    • YOLOやGrounding DINO,DINOv2等のAI技術を組み合わせることで,効果的なキーフレーム選択を可能にした。
    • 本研究は,多様な環境下でのデータ収集においても応用可能な,新たな野生動物モニタリング手法の基盤となる。

    Link: https://arxiv.org/abs/2510.08775

  • ノイズの多いコンバージョン予測モデルに対するロバスト自動入札 [cs.RO, cs.GT, math.OC]目的:デジタル広告オークションにおけるロバスト自動入札手法
    • デジタル広告において,入札戦略は収益に直結するため,その最適化は重要である。
    • CTR/CVR予測の不確実性は,入札戦略と収益に悪影響を及ぼすという課題がある。
    • CTR/CVR予測の摂動に対するロバスト性を考慮した入札手法を開発し,収益を最大化する。
    • 提案手法RobustBidは,CTR/CVR予測の不確実性を考慮し,ロバスト最適化技術を活用することで,入札の精度向上を図る。
    • 実験結果から,RobustBidは既存手法と比較して,CTR/CVR予測の大きな摂動時においても,コンバージョンボリュームの増加と平均クリック単価の削減に貢献する。
    • RobustBidは,解析解を導出することで,計算効率を保ちながら,実用的な自動入札システムへの実装を可能にする。

    Link: https://arxiv.org/abs/2510.08788

  • Q-Router:専門モデルのルーティングとアーティファクト局在化による動画品質評価エージェント [cs.CV]目的:多様な動画コンテンツとタスクに対する汎用的な動画品質評価
    • 動画品質評価は,人間知覚との整合性が重要であり,様々な応用分野で不可欠である。
    • 既存のモデルは,コンテンツやタスクの変化に弱く,解釈性や拡張性に課題がある。
    • Q-Routerは,複数の専門モデルを動的にルーティングすることで,汎用性と解釈性を向上させる。
    • Q-Routerは,多様な動画品質評価ベンチマークで最先端モデルと同等またはそれ以上の性能を発揮した。
    • 汎化性能と解釈性において大幅な改善が見られ,特にQ-Bench-Videoで優れた結果を示した。
    • 動画中の空間 temporal アーティファクトの局在化が可能であり,動画生成モデルの報酬関数としての応用が期待される。

    Link: https://arxiv.org/abs/2510.08789

  • アライメント,マイニング,フュージョン:医療画像質疑応答のための表現アライメント,ハードネガティブマイニング,選択的知識フュージョン [cs.CV]目的:医療画像とテキスト質問に対する深い理解を必要とする医療画像質疑応答タスクにおける表現アライメント,ハードネガティブマイニング,知識フュージョンの手法
    • 医療診断支援において,画像とテキスト情報を統合した高度な質疑応答システムの構築が求められている。
    • 既存手法では,モダリティアライメントの一貫性が課題であり,ハードネガティブの扱いが不十分である。
    • 異なるモダリティ間のアライメントを強化し,関連性の低い情報を排除することで,質疑応答精度を向上させる。
    • 本研究では,コントラスト学習や最適輸送理論を利用した統一的なモダリティアライメント手法を提案した。
    • ソフトラベルを用いたハードネガティブマイニングにより,マルチモダリティアライメントの識別能力を高めた。
    • ゲート付きクロスアテンションモジュールによって,回答語彙を事前知識として活用し,関連情報を選択的に統合した。

    Link: https://arxiv.org/abs/2510.08791

  • SkipSR:トークンスキッピングによる高速超解像度 [cs.CL, cs.CV, cs.AI, cs.LG]目的:ビデオ超解像度における計算効率の向上
    • ビデオ生成や修復において,超解像度は重要な役割を担う技術である。
    • 従来の超解像度は計算コストが高く,高解像度かつ長尺のビデオへの適用が困難であった。
    • 本研究は,低詳細領域を特定し,その処理を省略することで計算量を削減し,高速化を目指す。
    • 提案手法SkipSRは,低解像度入力から低詳細領域を識別し,その領域の超解像度計算を省略する。
    • 標準的な超解像度ベンチマークにおいて,画質劣化なしに720pビデオの処理時間を最大60%短縮した。
    • SkipSRは,標準的な拡散モデルおよびワンステップ拡散モデルの両方において,知覚品質を維持しながら計算量を大幅に削減する。

    Link: https://arxiv.org/abs/2510.08799

  • 聴覚ネットワーク:深層非負オートエンコーダによる音の分解と操作 [cs.SD, eess.AS]目的:音の分解と創造的な音の操作
    • 音響信号処理は,音楽,音声認識,音響デザインなど,広範な応用分野で重要である。
    • 従来の音の分解手法では,解釈可能性と制御性に課題があり,柔軟な音の操作が困難であった。
    • 非負オートエンコーダを用いて,解釈性と操作性に優れた音の分解と操作のフレームワークを構築する。
    • 非負オートエンコーダ(NAE)は,音響信号をスペクトル形状と時間的包絡として解釈可能な要素に分解できる。
    • 深層NAEアーキテクチャを用いることで,音を階層的に分解し,複数の抽象レベルで操作することが可能となる。
    • 提案手法は,音の合成,階層的分解,ランダム化など,多様な音の操作を可能にし,柔軟な音響編集ツールとして機能する。

    Link: https://arxiv.org/abs/2510.08816

  • D-CoDe:動的圧縮と質問分解による画像事前学習済みVLMを動画へ拡張 [cs.CV, cs.AI]目的:動画と言語間の多様なタスクにおける性能向上のための手法
    • 動画理解は,人間が世界を認識する上で不可欠であり,様々な応用分野で重要性が増している。
    • 画像モデルの能力を動画へ拡張する際,動画の冗長性と処理能力の限界が課題となっている。
    • 動画の情報を効率的に処理し,より複雑な動画理解を可能にすることを目指す。
    • D-CoDeは,代表的なフレームの選択と空間トークンの集約による動的圧縮により,動画の処理負荷を軽減する。
    • 質問分解により,モデルは動画の異なる側面に着目し,より包括的な理解を促進する。
    • 様々なベンチマークで動画理解能力が向上し,特に長尺動画における優れた性能が確認された。

    Link: https://arxiv.org/abs/2510.08818

  • 強化学習駆動型エッジ管理による信頼性の高い多視点3D再構成 [cs.LG, cs.AI, cs.CV, cs.DC, cs.GR, cs.MM]目的:信頼性の高い3D再構成の実現
    • 災害救助など,リアルタイムな3Dシーン把握が不可欠なエッジコンピューティング用途が拡大している。
    • エッジ環境の不安定なリソース状況が,3D再構成の信頼性を損なう課題となっている。
    • 変化する環境下でも高品質な再構成を維持するエッジリソース管理手法の確立を目指す。
    • 提案手法は,カメラ選択とサーバ選択に強化学習エージェントを用いることで,遅延と再構成品質のバランスを取る。
    • 実際の都市環境を模したテストベッド実験により,動的な環境下でのアプリケーション信頼性の向上が確認された。
    • リソース制約や中断が起こりやすい環境でも,高品質な3D再構成を一定時間内に行えることが示された。

    Link: https://arxiv.org/abs/2510.08839

  • 医学画像予測における公正なAIの境界:因果的視点 [cs.LG, cs.CV]目的:医学画像における時間至点予測(TTE)の公平性評価のための包括的フレームワーク
    • 医療現場でのAI活用が進む中で,倫理的・社会的な影響を考慮したAI開発が重要である。
    • 既存の公平性研究は主に診断に焦点を当てており,予後予測におけるバイアスの問題は未解決である。
    • 医療画像予後予測におけるバイアスの特定と定量化,そしてより公平なモデル開発を目指す。
    • 提案手法FairTTEは,多様な画像モダリティとTTE結果に対応し,公平性の詳細な分析を可能にする。
    • 大規模な評価により,バイアスが様々な画像モダリティに広く存在し,既存の公平性手法では十分な軽減が難しいことが示された。
    • バイアスの根本原因とモデルの性能差との間に強い関連性が見られ,包括的なアプローチの必要性が強調された。

    Link: https://arxiv.org/abs/2510.08840

  • ラベル誘導知識蒸留による高速なオープンボキャブラリー3Dインスタンスセグメンテーション [cs.CV]目的:オープンボキャブラリー3Dインスタンスセグメンテーションの高速化
    • 3Dシーン理解はロボティクスや拡張現実など幅広い分野で重要である。
    • 既存手法は2D画像へのマッピングに依存し,計算コストが高い。
    • 3D点群から直接インスタンスを分類し,高速化と精度向上を目指す。
    • 本研究では,高品質なインスタンス埋め込みを生成する教師モデルと,それを学習する3D学生モデルを用いた知識蒸留手法を提案した。
    • ラベル誘導蒸留アルゴリズムにより,2D埋め込みの知識を学生モデルに効率的に転送することを可能にした。
    • ScanNet200データセットにおいて,既存手法を大幅に上回る性能と高速性を実現した(AP50: 35.7,速度: 6.0x~152.2x)。

    Link: https://arxiv.org/abs/2510.08849

  • 疎な成分が視覚経路を区別し,そのニューラルネットワークとの整合性を示す [cs.LG, cs.CV]目的:視覚経路の疎な成分の識別と,脳と機械の表現整合性の測定
    • 視覚認知の神経メカニズム解明は,脳機能理解の根幹である。
    • 既存手法では,脳とAIの表現の微細な差異を捉えきれない。
    • 脳とAIの表現の整合性を高精度に評価する手法を開発する。
    • 視覚皮質の腹側,背側,側部経路において,顔,場所,身体など,経路ごとに特徴的な疎な成分が確認された。
    • 新たに開発したSparse Component Alignment (SCA) は,従来の評価手法よりも高分解能で表現整合性を評価できることが示された。
    • 標準的なDNNは,腹側経路よりも背側または側部経路との整合性が低いことが明らかになった。

    Link: https://arxiv.org/abs/2510.08858

  • データ評価における隠れたコストの測定:集団的開示によるアプローチ [cs.GT]目的:データ評価の隠れたコストの定量的把握
    • 機械学習モデルの性能向上には質の高いデータが不可欠であり,データ提供者への適切な報酬が重要となる。
    • データ評価手法は貢献度が低いデータには報酬を支払わない場合があり,データ収集・評価コストが無視される。
    • データユニオンによる集団的開示戦略が,データ取得コストの分配に与える影響を分析する。
    • 情報開示ゲームモデルを通じて,データ評価は明示的な取得コストを伴うことが示された。
    • データユニオンの開示方針が,データ取得コストの分配方法に影響を与えることが確認された。
    • Yelpレビューの有用性予測タスクにおいて,データ Shapley 値や多腕バンディット探索を用いたシミュレーションで検証された。

    Link: https://arxiv.org/abs/2510.08869

  • GTAlign: LLMアシスタントの相互厚生のためのゲーム理論的アライメント [cs.CL, cs.AI, cs.GT, cs.HC, cs.LG, cs.MA]目的:LLMアシスタントとユーザー双方の厚生を最大化するアライメント手法
    • LLMは推論能力で目覚ましい進歩を遂げているが,必ずしもユーザーにとって最適な応答が得られるとは限らない。
    • 従来のLLMアライメントでは,モデルの報酬最大化とユーザー厚生の最大化が一致しない場合がある。
    • LLMとユーザー双方に有益な意思決定メカニズムを導入し,社会的に効率的な結果を達成することを目指す。
    • GTAlignは,推論および学習においてゲーム理論的決定メカニズムを組み込むことで,推論効率,回答品質,相互厚生を大幅に改善する。
    • 推論時には,ユーザーとLLMの相互作用を戦略的ゲームとして扱い,双方の厚生を推定するペイオフ行列を構築する。
    • 学習時には,協調的な応答を強化する相互厚生報酬を導入し,LLMの行動を社会的に効率的な結果と一致させる。

    Link: https://arxiv.org/abs/2510.08872

  • ControlAudio:漸進的拡散モデリングによるテキスト指示,タイミング指定,知覚可能な音声生成への取り組み [cs.SD, cs.AI, cs.CL, eess.AS]目的:テキスト指示,タイミング指定,知覚可能な音声生成
    • 音声生成技術は,多様な応用において重要性を増しており,その高品質化が求められている。
    • ファインチューンな制御信号(タイミングや明瞭性)に対応した音声生成はデータ不足に制約され,大規模な生成性能が低い。
    • テキスト,タイミング,音素情報を統合し,段階的な生成戦略で高品質かつ制御可能な音声生成を実現する。
    • ControlAudioは,テキスト,タイミング,音素情報を条件とした分布を段階的に学習する拡散モデルである。
    • 大規模なテキスト-音声ペアでDiTを事前学習し,タイミングと音素情報を段階的に統合することで,制御性を拡張している。
    • 実験により,ControlAudioが時間精度と明瞭度において最先端の性能を発揮し,客観評価および主観評価で既存手法を大きく上回ることが示された。

    Link: https://arxiv.org/abs/2510.08878

  • クランベリーの成長を特徴づけるための時系列軌跡のモデル化 [cs.CE, cs.CV]目的:クランベリーの成長のモデル化
    • クランベリー栽培において,生育状況のモニタリングは品種改良と収量予測に不可欠である。
    • 従来のモニタリングは手作業で行われることが多く,時間と労力を要する。
    • 本研究は,アノテーション作業を削減し,生育状況の解釈性を向上させることを目指す。
    • 深層学習を用いた時系列データ解析により,クランベリーの生育変化を捉えるモデルを構築した。
    • 自己教師あり学習により,画像アノテーションなしで植物と果実の外観変化を学習した。
    • 構築したモデルは,品種ごとの生育特性の違いを識別し,収量予測に貢献できる可能性を示した。

    Link: https://arxiv.org/abs/2510.08901

  • VM-UNSSOR:高SNR仮想マイクロホンアレイによる教師なしニューラル音声分離の強化 [cs.HC, cs.SD, eess.AS]目的:教師なし音声分離性能の向上
    • 音声分離は,通話品質向上や音声認識精度向上に不可欠な技術である。
    • 教師なし環境下では,分離性能がマイク数に大きく依存する問題がある。
    • 仮想マイクロホンアレイを活用し,マイク数が少ない環境での分離性能を改善する。
    • 提案手法VM-UNSSORは,既存手法UNSSORと比較して,分離性能を大幅に向上させる。
    • 特に,マイク数が少ない環境においては,その効果が顕著に現れる。
    • 実験結果から,VM-UNSSORはUNSSORよりも高いSI-SDRスコアを達成することが示された。

    Link: https://arxiv.org/abs/2510.08914

  • PHyCLIP:双曲線要素の$\ell_1$積が,視覚言語表現学習における階層性と構成性を統合する [cs.CV, cs.LG]目的:視覚言語表現学習における階層性と構成性の統合
    • 大規模データを用いた視覚言語モデルは目覚ましい成功を収めているが,その表現能力には限界がある。
    • 概念間の階層性(例:犬 ≺ 哺乳類 ≺ 動物)と,異なる概念の構成性(例:「車の中の犬」≺ 犬,車)を同時に表現することが困難である。
    • 双曲線空間を用いた階層性表現と,構成性表現の課題を解決し,より高度な視覚言語モデルを構築することを目指す。
    • PHyCLIPは,双曲線要素のCartesian積における$\ell_1$積を用いることで,概念内の階層性と概念間の構成性を同時に表現することに成功した。
    • 実験により,PHyCLIPは既存の手法と比較して,ゼロショット分類,検索,階層分類,構成理解タスクにおいて優れた性能を示した。
    • PHyCLIPによって得られた埋め込み空間は,より解釈しやすい構造を持つことが確認された。

    Link: https://arxiv.org/abs/2510.08919

  • SegTrans:セグメンテーションモデルに対する転移可能な敵対的サンプル [cs.CY, cs.CV]目的:セグメンテーションモデルにおける敵対的サンプルの転移性向上
    • 画像セグメンテーション技術は,自動運転や医療画像解析など,多様な分野で不可欠である。
    • 既存の敵対的攻撃手法は,異なるセグメンテーションモデル間での転移性が低いという課題がある。
    • SegTransは,モデル間の特徴分布の差異による転移性の低下を改善することを目指す。
    • SegTransは,入力サンプルを複数の局所領域に分割し,それらの意味情報を再マッピングすることで,多様な敵対的サンプルを生成する。
    • この手法により,PASCAL VOCおよびCityscapesデータセット上で,既存手法と比較して転移攻撃の成功率が平均8.55%向上した。
    • SegTransは,計算オーバーヘッドを増加させることなく,高い転移性を実現する。

    Link: https://arxiv.org/abs/2510.08922

  • 画像修復における特徴空間摂動による無許可蒸留への防御 [cs.CV]目的:画像修復モデルに対する無許可の知識蒸留攻撃からの防御
    • 深層学習モデルの知的財産保護は重要であり,特にオープンソースモデルの悪用を防ぐ必要がある。
    • 知識蒸留攻撃は,教師モデルの出力を用いて学生ネットワークを訓練することで,モデルを盗用する脅威となる。
    • 画像修復のような生成タスクにおいて,既存の防御法では十分な摂動を加えることが難しく,その解決を目指す。
    • 提案手法ASVPは,教師モデルの内部特徴マップに対して特異値分解を適用し,高周波摂動を注入することで知識蒸留を妨げる。
    • 実験結果から,ASVPは学生モデルのPSNRを最大4dB,SSIMを60-75%まで低下させ,教師モデルの性能への影響は軽微である。
    • ASVPは既存手法と比較して,より強力かつ一貫性のある防御を提供する。オープンソース修復モデルの保護に貢献する。

    Link: https://arxiv.org/abs/2510.08925

  • RO-Bench:テキスト駆動型反実仮想ビデオによるMLLMの大規模な頑健性評価 [cs.IR, cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルの頑健性評価
    • ビデオ理解の分野では,MLLMの性能向上は目覚ましいが,実用化には頑健性が重要である。
    • 既存のMLLMは,操作されたビデオコンテンツに対して脆弱であり,その評価方法が確立されていない。
    • 反実仮想ビデオを用いたベンチマークを構築し,MLLMの頑健性を定量的に評価・改善すること。
    • 本研究で開発したRo-Benchを用いて8つのMLLMを評価した結果,反実仮想ビデオに対して性能が大幅に低下することが示された。
    • 反実仮想データでのファインチューニングにより,Ro-Benchにおける性能が21.73%向上し,MVBenchデータセットでも12.78%改善された。
    • これらの結果は,反実仮想データがMLLMのビデオ理解能力を高める上で有効であることを示唆している。

    Link: https://arxiv.org/abs/2510.08936

  • 証拠的深層学習における動的な不確実性較正のための二層メタポリシー制御 [cs.LG, cs.CV]目的:動的な不確実性較正のための二層メタポリシー制御
    • 高リスクな意思決定において,モデルの信頼性と予測精度は極めて重要である。
    • 従来の証拠的深層学習は静的なハイパーパラメータに依存し,変化するデータ分布への適応が困難である。
    • 動的なデータ分布下での不確実性較正と汎化性能の向上を目指す。
    • 提案手法であるメタポリシーコントローラ(MPC)は,KLダイバージェンス係数とディリクレ事前強度の動的な調整により,不確実性モデリングを最適化する。
    • 二層最適化アプローチを用いることで,予測精度と不確実性の質を両立させる多目的報酬に基づいてポリシーネットワークが最適化される。
    • 様々なタスクにおいて,モデル予測の信頼性と較正が大幅に向上し,信頼度に基づくサンプル拒否後の性能維持も改善されることが示された。

    Link: https://arxiv.org/abs/2510.08938

  • オブジェクトに焦点を当てた画像拡張のためのノイズ除去拡散 [cs.RO, cs.SY, eess.SY, cs.CV, cs.LG]目的:動物の健康モニタリングのためのデータ拡張戦略
    • 現代農業では,農場最適化のために複数のデータソースを統合したモニタリングシステムが不可欠となっている。
    • 特定の農場環境を反映した大規模なデータセットが不足しており,転移学習の効果が限定的である。
    • 限られたデータ環境下でも,動物検出とモニタリング性能を向上させるためのドメイン固有データ生成を目指す。
    • 提案手法は,背景から動物をセグメント化し,拡散ベースの合成により多様なシーンを生成する。
    • 拡張データセットを用いた実験により,動物検出タスクにおいてベースラインモデルよりも優れた性能が確認された。
    • この手法は,データ不足の状況下でもリアルタイムな動物の健康モニタリングを可能にする。

    Link: https://arxiv.org/abs/2510.08955

  • 知覚時間スケーリングを多imodal推論モデルに解放する [cs.CV, cs.CL]目的:多imodal推論モデルにおける知覚能力の向上
    • 大規模なビジョン言語モデルの推論能力向上は重要であり,現実世界での応用範囲が広がる。
    • 既存モデルは知覚を一度限りの出力として扱っており,複雑な知覚プロセスをモデル化できていない。
    • 知覚時間スケーリングを用いて,より高精度な知覚能力を獲得し,推論性能を向上させる。
    • 本研究で提案する知覚時間スケーリング(PTS)は,DisTANCEベンチマークにおいて,推定精度を8.0%から64.7%へと大幅に向上させた。
    • PTSは,合成データのみを用いて学習可能でありながら,推論及び現実世界の知覚ベンチマークの両方で一貫した改善効果を示した。
    • 分析の結果,PTSは知覚関連トークン数を増やし,モデルの画像トークンへの注意を向上させることが明らかになった。

    Link: https://arxiv.org/abs/2510.08964