arXiv雑要約

AI - 2026/03/04 公開

  • 検索アリーナ:検索拡張LLMの分析 [cs.CL, cs.IR, cs.LG]目的:検索拡張LLMにおけるユーザーの選好に関する大規模データセット
    • LLMの応答の信頼性と最新性を向上させるため,検索技術との組み合わせが重要視されている。
    • 既存のデータセットは規模や範囲が限定的で,検索拡張LLMの分析が困難であった。
    • 多様な意図と言語に対応した大規模なデータセットを用いて,ユーザーの選好を詳細に分析する。
    • ユーザーの選好は,引用数の影響を受けることが明らかになった。引用内容が必ずしも主張を支持していなくても,そうした傾向が見られた。
    • 引用元の種類によってユーザーの選好が異なり,コミュニティ主導のプラットフォームが,静的な百科事典的な情報源よりも好まれる傾向がある。
    • 検索機能がない環境でも検索は性能を低下させず,むしろ向上させる可能性がある。一方,検索環境ではモデルのパラメータ知識のみに頼ると性能が著しく低下する。

    Link: https://arxiv.org/abs/2506.05334

  • RNE:プラグアンドプレイ拡散推論時間制御とエネルギーベース学習 [cs.LG, stat.ML]目的:拡散モデルにおける周辺密度と遷移カーネルの関係性の解明
    • 拡散モデルはデータ生成において高い性能を示すが,その応用範囲を広げるためには更なる理解が必要である。
    • 推論時の制御やエネルギーベース学習において,生成軌跡上の周辺密度の知識が不足しているという課題がある。
    • 周辺密度と遷移カーネルの関連性に着目し,推論時間制御とエネルギーベース学習を統合的に解決することを目指す。
    • 提案手法RNEは,周辺密度と遷移カーネル間の密度比を利用し,柔軟なフレームワークを提供する。
    • 推論時間制御タスク(アニーリング,モデル合成など)において良好な性能とスケーラビリティを示す。
    • エネルギーベース拡散モデルの学習に対するシンプルかつ効率的な正則化を実現する。

    Link: https://arxiv.org/abs/2506.05668

  • 視覚的ロボット計画における自己改善ループ [cs.RO, cs.AI]目的:視覚的ロボット計画のための自己改善ループの設計
    • ロボットの自律性を高める上で,タスクの汎化性能は重要である。
    • 未知のタスクへの汎化が難しいという課題が存在する。
    • 自己生成された行動から継続的に学習し,汎化性能を向上させる。
    • SILVRは,自己生成された軌道を用いてモデルを反復的に更新し,性能を向上させる。
    • MetaWorldの多様なタスクと実ロボットアームの操作タスクで,SILVRは継続的な性能向上を示した。
    • SILVRは,報酬関数や模範行動なしでもロバストであり,サンプル効率も高い。

    Link: https://arxiv.org/abs/2506.06658

  • フレームガイダンス:ビデオ拡散モデルにおけるフレームレベル制御のための学習不要ガイダンス [cs.CV, cs.AI]目的:ビデオ拡散モデルにおけるフレームレベル制御
    • ビデオ生成の質向上に伴い,より詳細な制御が求められている。
    • 既存手法は大規模モデルのファインチューニングに依存し,モデル規模拡大に伴い負担が増大する。
    • 学習不要でフレームレベル信号に基づくビデオ生成制御を実現する。
    • フレームガイダンスは,キーフレーム,スタイル画像,スケッチ,深度マップ等のフレームレベル信号を利用した学習不要の制御を実現する。
    • メモリ使用量を削減するラテント処理法と,グローバルにコヒーレントなビデオ生成のためのラテント最適化戦略を提案する。
    • 様々なタスク(キーフレームガイダンス,スタイライゼーション,ループ)において,高品質な制御ビデオ生成が可能となる。

    Link: https://arxiv.org/abs/2506.07177

  • 視覚的知覚報酬によるMLLMのマルチモーダル推論能力の向上:Perception-R1 [cs.LG, cs.AI, cs.CV]目的:マルチモーダル大規模言語モデル(MLLM)のマルチモーダル推論能力の向上
    • MLLMは多様な応用が期待され,その性能向上が重要視されている。
    • 既存手法では,MLLMのマルチモーダル知覚能力の強化が十分ではない。
    • 視覚的知覚報酬を用いて,MLLMの知覚と推論能力を同時に向上させる。
    • 提案手法Perception-R1は,視覚内容の正確な知覚を促す新規な視覚的知覚報酬を導入する。
    • CoTのテキスト注釈を視覚的参照として活用し,LLMによる一貫性判断に基づき報酬を付与する。
    • 複数のマルチモーダル推論ベンチマークで最先端の性能を達成し,わずか1,442件のデータで効果を示した。

    Link: https://arxiv.org/abs/2506.07218

  • 身体活動のための行動変容メッセージング:文脈的バンディットと大規模言語モデルの統合 [cs.LG, cs.HC, stat.AP]目的:身体活動を促進するための行動変容メッセージングの個別最適化
    • 健康増進において,個々の状況に合わせた介入が重要視されている。
    • 従来の行動変容介入は,固定されたメッセージテンプレートに依存し,効果が限定的である。
    • 文脈的バンディットと大規模言語モデルを統合し,個別最適化されたメッセージングシステムを開発する。
    • 文脈的バンディットと大規模言語モデルのハイブリッド手法は,大規模言語モデルのみの場合と同程度のメッセージ受容性を維持した。
    • ハイブリッド手法は,トークン使用量を削減し,介入選択に関する明確な意思決定ルールを提供した。
    • 介入配信の偏りを改善し,配信頻度の低い介入タイプへの支援を強化した。

    Link: https://arxiv.org/abs/2506.07275

  • StreamSplat:未校正ビデオストリームからのオンライン動的3D再構成に向けて [cs.CV, cs.LG]目的:未校正ビデオストリームからの動的3D再構成手法
    • 現実世界の動的シーンを3Dで把握する技術は,ロボティクスやAR/VRなど,幅広い分野で重要である。
    • 既存手法は最適化に時間がかかり,リアルタイム処理や長時間のストリーム処理には不向きである。
    • ストリーム処理に適した,低遅延かつ高精度な動的3D再構成を実現すること。
    • StreamSplatは,未校正ビデオストリームを動的3D Gaussian Splatting表現に即座に変換する完全なフィードフォワードフレームワークである。
    • 提案手法は,確率的サンプリング,双方向変形場,適応的ガウス融合により,高い再構成品質と動的シーンモデリングを達成する。
    • 最適化ベースの手法と比較して1200倍の速度向上を実現し,任意の長さのビデオストリームのオンライン再構成が可能である。

    Link: https://arxiv.org/abs/2506.08862

  • 大規模言語モデルに対する多例示による文脈内ファインチューニング [cs.CL, cs.CL, cs.AI]目的:大規模言語モデルの性能向上
    • 自然言語処理の発展において,大規模言語モデルは重要な役割を担っている。
    • タスク固有のファインチューニングに比べて,文脈内学習の性能は劣ることが課題である。
    • 多例示による文脈内ファインチューニングで性能差を縮小し,忘却現象を軽減することを目指す。
    • 提案手法ManyICLは,ゼロ/少数例示ファインチューニングを大幅に上回り,専用ファインチューニングに匹敵する性能を示す。
    • 文脈内の各回答を教師データとして扱うことで,多例示の効率性と学習効果を高めている。
    • ManyICLは,ゼロ/少数例示ファインチューニングで問題となる破滅的忘却現象を大幅に軽減する。

    Link: https://arxiv.org/abs/2506.11103

  • ベイジアン双対性に基づく連合ADMM [cs.LG, math.OC, stat.ML]目的:連合型ADMMの一般化
    • 分散環境での機械学習需要が高まり,データプライバシー保護が重要となっている。
    • 連合学習はプライバシー保護に有効だが,計算コストが大きいという課題がある。
    • ADMMの一般化により,連合学習の効率と精度を向上させることを目指す。
    • 変分ベイズ(VB)目的関数の解がADMMの固定点構造と類似性を持つことを示した。
    • VB目的関数を最適化することで,ADMMの拡張版を得ることが可能となった。
    • 特に,Adam様の手法では,深層ヘテロなケースで最大7%の精度向上を達成した。

    Link: https://arxiv.org/abs/2506.13150

  • 意思決定ルールに基づく説明可能で解釈可能な複合指標 [cs.LG, math.OC]目的:複合指標の構築方法
    • 多岐にわたる評価基準に基づき判断を行う際に,複合指標は有用な手段である。
    • 既存の複合指標は,その算出根拠が不明瞭で,説明性や解釈性に課題がある。
    • 意思決定ルールを用いることで,複合指標の透明性を高め,解釈を容易にすることを目指す。
    • 意思決定ルールを生成するDominance-based Rough Set Approachを適用し,複合指標のロジックを明確化する。
    • 連続値の複合指標に対しても,スコアをクラスとして扱い,ルールを効率的に生成するアルゴリズムを提案する。
    • 対象ユニットに該当するルールのみを表示することで,説明可能性を維持しつつ,欠損値にも対応可能である。

    Link: https://arxiv.org/abs/2506.13259

  • エリート進化アルゴリズムにおける到達確率による到達時間推定 [cs.NE]目的:エリート進化アルゴリズムの到達時間推定手法
    • 進化アルゴリズムの計算時間解析は,効率的なアルゴリズム設計に不可欠である。
    • 既存のドリフト解析は,アルゴリズムと問題ごとにドリフト関数を構築する必要がある。
    • 到達確率のドリフト解析により,ドリフト関数の係数算出を自動化し,到達時間推定を容易にすること。
    • 到達確率のドリフト解析は,到達時間の上下限を推定可能にする。
    • 本手法は,多峰性適応地形における到達確率を推定するための経路を導入している。
    • ナップサック問題に対する2つのアルゴリズムの比較分析から,制約処理手法に一貫した優劣はないことが示された。

    Link: https://arxiv.org/abs/2506.15602

  • LLM確率集中:アライメントが生成の地平を狭める仕組み [cs.CL, cs.AI, cs.LG]目的:LLMにおける確率集中と生成の多様性低下の関係性
    • 大規模言語モデルは目覚ましい能力を持つが,その挙動の理解は重要である。
    • アライメントされたLLMは,多様性に欠ける出力になりやすいという問題がある。
    • LLMの出力分布における確率集中を定量化し,アライメントの影響を解明すること。
    • LLMの生成が進むにつれて,有効な次のステップの数が減少する傾向が確認された。
    • アライメント調整は,生成初期段階から出力分布を鋭くし,分岐係数を大幅に減少させる。
    • アライメントされたCoTモデルは,より決定的な段階に進むことで安定した出力を実現している。

    Link: https://arxiv.org/abs/2506.17871

  • 拡散空間における焼きなましガイダンススケールの活用 [cs.GR, cs.AI, cs.CV, cs.LG]目的:拡散モデルにおけるガイダンススケールの調整方法
    • 画像生成の品質向上は重要であり,特にテキストからの生成では,その品質が注目される。
    • 従来のガイダンススケールは,最適な値を設定するのが難しく,生成結果に大きく影響する。
    • 本研究は,動的にガイダンススケールを調整することで,高品質かつプロンプトに合致した画像を生成することを目指す。
    • 提案手法では,焼きなましスケジュールを用いて,ノイズ信号に基づいてガイダンススケールを動的に調整する。
    • 実験結果から,提案手法が画像品質とテキストへの適合性を大幅に向上させることが示された。
    • 本手法は,追加の計算コストを要せず,既存のガイダンス手法を置き換えることができる。

    Link: https://arxiv.org/abs/2506.24108

  • LEDOM:逆言語モデル [cs.CL, cs.AI]目的:逆言語モデルの能力
    • 言語モデルは自然言語処理の中核であり,その性能向上は様々な応用分野に不可欠である。
    • 従来の言語モデルは左から右の学習に偏っており,右から左の学習による新たな能力獲得の可能性が未開拓であった。
    • 本研究は,右から左の学習による言語モデルの新たな推論能力を解明し,その応用可能性を探る。
    • LEDOMは,左から右のモデルとは異なる,帰納的推論や質問生成といった能力を獲得した。
    • LEDOMは,逆再生の呪いを自然に解消し,ノイズチャンネル二重性に基づいたReverse Rewardにより性能を向上させた。
    • AIME 2024とAMC 2023において,最先端のベースラインと比較して,最大6.6%から15%の性能向上を達成した。

    Link: https://arxiv.org/abs/2507.01335

  • Skywork-Reward-V2: 人工知能と人間の協調による報酬データ収集のスケール拡大 [cs.CL, cs.AI, cs.LG]目的:大規模な報酬モデルの性能向上
    • 強化学習において人間のフィードバックを用いる際,報酬モデルの重要性が増している。
    • 既存のオープンソース報酬モデルは,複雑な人間の嗜好を捉えきれていないという課題がある。
    • 人間の質の高いアノテーションとAIの拡張性を組み合わせ,高品質な報酬データセットを構築する。
    • SynPref-40Mという4000万組のペアからなる大規模な嗜好データセットを構築した。
    • 人間とAIが連携する二段階パイプラインにより,効率的なデータキュレーションを実現した。
    • Skywork-Reward-V2は,7つの主要な報酬モデルベンチマークで最先端の性能を示した。

    Link: https://arxiv.org/abs/2507.01352

  • 特性応答媒介変数を用いた仮想回答者による心理測定項目検証 [cs.CL, cs.AI]目的:心理測定項目の妥当性評価
    • 大規模言語モデルの特性評価に心理測定調査が活用され,効率的な項目生成の必要性が高まっている。
    • 生成された項目が意図した特性を正確に測定しているか(構成概念妥当性)を担保することが課題である。
    • 大規模な人間データ収集の代替として,LLMを用いた仮想回答者シミュレーションによる効率的な項目検証を目指す。
    • 媒介変数を考慮した仮想回答者シミュレーションにより,意図した特性をロバストに測定する項目を特定できることが示された。
    • Big5,Schwartz,VIAの3つの心理特性理論に関する実験で,提案手法の有効性が確認された。
    • LLMは,特性定義から妥当な媒介変数を生成し,項目検証のための回答者行動をシミュレートする能力を持つことが示された。

    Link: https://arxiv.org/abs/2507.05890

  • EP-GAT:エネルギーに基づく並列グラフ注意ニューラルネットワークによる株価トレンド分類 [cs.CE, cs.LG]目的:株価トレンド分類のための手法
    • 株価予測は金融市場において重要な課題であり,投資戦略やリスク管理に不可欠である。
    • 既存手法では,株価間の動的な相互依存関係のモデル化や,株価内部の階層的特徴の保持が課題となっていた。
    • 株価間のエネルギー差とボルツマン分布に基づく動的な株価グラフ構造と並列グラフ注意機構により,これらの課題を解決する。
    • 提案手法EP-GATは,NASDAQ,NYSE,SP,FTSE,LSEといった実世界の複数の株価データセットにおいて,5つのベースライン手法を上回る性能を示した。
    • 動的な株価グラフ構造は,株価間の進化する相互依存関係を捉え,より正確な予測を可能にする。
    • 並列グラフ注意機構は,株価内部の階層的なダイナミクスを保持し,予測精度を向上させる効果が確認された。

    Link: https://arxiv.org/abs/2507.08184

  • LLMの脱獄に対するエージェントAI防御のための動的Stackelbergゲーム理論的フレームワーク [cs.AI]目的:LLMの脱獄攻撃と防御の相互作用のモデル化
    • LLMの普及に伴い,悪意のあるプロンプトによる不正利用を防ぐ必要性が高まっている。
    • 既存の手法では,攻撃者の戦略的な探索と防御側の適応的な対応を同時に捉えることが困難である。
    • LLMの脆弱性を体系的に評価し,効果的な防御策を開発するための理論的基盤を確立することを目指す。
    • プロンプト空間におけるRapidly-exploring Random Trees(RRT)探索と,モデルの応答を組み合わせたゲーム理論的フレームワークを提案した。
    • 防御側の行動を局所的なStackelberg均衡として解釈することで,攻撃者が利益を得られるプロンプトの変更が存在しなくなった状況を説明した。
    • 提案手法は,LLMのガードレール評価,解釈,強化のための原則的な基盤を提供する。

    Link: https://arxiv.org/abs/2507.08207

  • CoBELa:エネルギー景観における概念的ボトルネックによる透明な生成の制御 [cs.CV, cs.AI]目的:概念的ボトルネックモデルによる解釈可能な生成
    • 生成モデルの解釈可能性は,モデルの振る舞いを理解し,制御する上で重要である。
    • 既存の概念的ボトルネックモデルは,ボトルネック表現やデコーダーの不透明さにより,解釈可能性が損なわれている。
    • CoBELaは,明示的な概念エネルギー関数を用いて,解釈可能性を維持しつつ高品質な生成を実現する。
    • CoBELaは,事前学習済みの生成器を再学習することなく,概念に基づいた生成を可能にするエネルギーベースのフレームワークである。
    • CelebA-HQおよびCUB-200-2011での実験により,従来のモデルよりも高い概念精度とFIDスコアが示された。
    • 概念の組み合わせや否定といった概念的介入が,追加の学習なしに自然にサポートされる。

    Link: https://arxiv.org/abs/2507.08334

  • マスク拡散におけるClassifier-Free Guidanceの改善:低次元理論的考察と高次元への影響 [cs.LG, cs.AI, stat.ML]目的:マスク拡散モデルにおけるClassifier-Free Guidanceの最適化
    • 拡散モデルは,高品質な生成能力を持つため,画像生成や自然言語処理など幅広い分野で注目されている。
    • Classifier-Free Guidanceは効果的だが,ガイダンススケジュールの設定が難しく,生成品質への影響が大きい。
    • 早期の強いガイダンスが生成品質を損なう問題を理論的に解明し,改善策を提案すること。
    • 低次元モデルの分析から,サンプリング初期段階での強いガイダンスが生成品質を低下させる一方,後期段階でのガイダンスは改善効果があることが示された。
    • 現在のCFG実装が,初期段階での過度なunmaskingを引き起こし,生成品質を低下させる可能性があることが明らかになった。
    • 提案手法は,データ分布と初期分布間の輸送を滑らかにし,シンプルなコード変更で生成品質を向上させることを実証した。

    Link: https://arxiv.org/abs/2507.08965

  • ゲージフローモデル [cs.RO, cs.LG, cs.AI, math.DG]目的:生成フローモデルの新しいクラス
    • 生成モデルは,データ分布の学習とサンプリングにおいて重要な役割を担う。
    • 既存のフローモデルは,モデルサイズと性能のトレードオフが課題である。
    • ゲージ場を導入することで,より効率的な学習と生成を目指す。
    • ゲージフローモデルは,ガウス混合モデルを用いたフローマッチング実験で,従来のフローモデルを上回る性能を示した。
    • モデルサイズが同等または大きい場合でも,有意な性能向上が確認された。
    • 未発表の研究により,より広範な生成タスクへの応用可能性が示唆されている。

    Link: https://arxiv.org/abs/2507.13414

  • 高階ゲージフローモデル [cs.AI, cs.LG, math.DG]目的:高階ゲージフローモデルの提案
    • 生成モデルの性能向上は,機械学習の重要な課題である。
    • 既存のフローモデルは,高次元データの複雑な構造を捉えきれない場合がある。
    • 高階ゲージ理論を用いて,生成モデルの表現力を向上させる。
    • 高階ゲージフローモデルは,L$_{\infty}$-代数を活用し,生成フローモデルの枠組みを拡張している。
    • ガウス混合モデルデータセットを用いた実験で,従来のフローモデルと比較して大幅な性能向上が確認された。
    • 高階群に関連する高次幾何学と高次対称性を,生成モデルに組み込むことを可能にした。

    Link: https://arxiv.org/abs/2507.16334

  • ニューラルネットワーク量子化の格子幾何学 - GPTQとBabaiのアルゴリズムの簡潔な同値性の証明 [cs.LG, cs.AI]目的:ニューラルネットワーク量子化における格子幾何学的な等価性
    • ニューラルネットワークの効率化は,計算資源の制約下で高性能を維持するために重要である。
    • 量子化は情報損失を伴い,精度低下が課題となる場合がある。
    • GPTQとBabaiのアルゴリズムの等価性を示すことで,量子化の理解を深め,改善に繋げる。
    • データ駆動型量子化が,入力データから生成される特定の格子上の最近傍ベクトル問題に対応することを示した。
    • GPTQアルゴリズムが,Babaiの最近平面アルゴリズムと同値であることを証明した。
    • これらの結果から,格子基底削減を用いた量子化の改善の可能性が示唆される。

    Link: https://arxiv.org/abs/2508.01077

  • DMTrack:二重アダプターによる時空間マルチモーダル追跡 [cs.CV, cs.AI]目的:時空間マルチモーダル追跡のための二重アダプターアーキテクチャ
    • 画像と動画処理において,対象物の追跡は重要な技術であり,監視や自動運転等に応用される。
    • 異なる種類の情報を組み合わせるマルチモーダル追跡は困難であり,各モーダルの特徴を効果的に統合する必要がある。
    • 本研究は,限られた学習パラメータで高性能なマルチモーダル追跡を実現することを目指す。
    • DMTrackは,時空間モーダルアダプター(STMA)と漸進的モーダル補完アダプター(PMCA)という二つのモジュールを導入した。
    • STMAは凍結されたバックボーンからの時空間特徴を調整し,PMCAはピクセルレベルでモーダル間のプロンプティングを促進する。
    • 5つのベンチマークにおける実験により,DMTrackが最先端の結果を達成し,わずか0.93Mの学習可能なパラメータで高い性能を示すことが示された。

    Link: https://arxiv.org/abs/2508.01592

  • 個人データと変化する脅威状況に関する基礎的理解に基づくプライバシーリスク予測 [cs.LG, cs.CR, cs.SI]目的:個人データのプライバシーリスク予測
    • 個人情報保護は重要であり,そのリスク理解が不可欠である。
    • 個人情報漏洩時の影響や頻度に関する体系的な分析が不足している。
    • 個人情報漏洩の連鎖的な広がりを予測し,リスク軽減に貢献する。
    • 5,000件以上の事例分析から,個人データ漏洩の種類,頻度,影響を特定した。
    • 個人識別情報(PII)間の関連性をグラフ構造でモデル化する「Identity Ecosystem」を構築した。
    • グラフ理論とグラフニューラルネットワークを用いて,プライバシーリスク予測フレームワークを開発し,有効性を確認した。

    Link: https://arxiv.org/abs/2508.04542

  • 嗜好に基づいたアクロバティック飛行の学習 [cs.RO, cs.LG]目的:嗜好に基づく強化学習による制御ポリシーの学習
    • 報酬関数の設計が困難なタスクに有効であり,主観的な目標設定に適している。
    • 手動で設計された報酬関数は,人間の判断と一致しない場合がある。
    • 人間の嗜好から直接アクロバティック飛行を学習する手法を開発する。
    • 提案手法RECは,報酬関数の不確実性を明示的にモデル化することで,従来のPbRL手法を上回る性能を発揮する。
    • シミュレーションで学習したポリシーを,リアルワールドへゼロショットで転移し,アクロバティックな操縦に成功した。
    • 連続制御ベンチマークにおいても有効性を確認し,航空ロボット以外の分野への適用可能性を示した。

    Link: https://arxiv.org/abs/2508.18817

  • テキスト不要:GPT-4oの翻訳品質と不均衡の予測 [cs.RO, cs.CL, cs.AI]目的:GPT-4oの翻訳品質と不均衡の予測
    • 多言語翻訳の品質評価は重要であり,特にリソースの少ない言語への対応が課題である。
    • 従来の翻訳品質評価は,翻訳システムを実行する必要があり,コストと時間がかかる。
    • 翻訳システムを実行せずに,翻訳品質を予測する手法を確立すること。
    • 翻訳品質は,翻訳システムを実行することなく,驚くほど高い精度で予測可能であることが示された。
    • GPT-4oのFLORES-200ベンチマークにおける203言語の翻訳品質予測において,特徴量の重要度分析から,英語への翻訳では言語類型論的要素が,その他の言語への翻訳ではトークンの豊饒度が支配的であることが判明した。
    • 翻訳品質はトークンレベルの豊饒性と広範な言語類型論によって形成されることが示唆され,多言語評価と品質推定に関する新たな知見が得られた。

    Link: https://arxiv.org/abs/2509.05425

  • 発散の選択:検証可能な報酬による強化学習における多様性崩壊を緩和する看過された鍵 [cs.MA, cs.LG, cs.AI]目的:強化学習と検証可能な報酬(RLVR)における多様性崩壊の緩和
    • 大規模言語モデルの性能向上には,強化学習によるファインチューニングが不可欠である。
    • RLVRでは,単一試行の精度向上と同時に,複数試行の性能低下や,獲得したスキルの喪失が頻発する。
    • 発散項の選択と機能に着目し,知識保持メカニズムを強化することで,性能低下を解消する。
    • 提案手法DPH-RLは,f-divergenceを利用することで,初期ポリシーを参照し,多様な解空間を維持する。
    • 数学やSQL生成の実験により,DPH-RLはPass@kの低下を解消し,Pass@1とPass@kの両方を改善することを示した。
    • DPH-RLは,初期ポリシーからのサンプリングのみでf-divergenceを計算するため,学習効率も高い。

    Link: https://arxiv.org/abs/2509.07430

  • 深層ResNetの隠れた幅:厳密な誤差限界と相図 [cs.LG]目的:深層ResNetの勾配降下法による学習の収束性に関する研究
    • 深層学習モデルの理論的理解は,性能向上と安定化に不可欠である。
    • ResNetの学習における適切なスケーリング則は未だ明確に理解されていない。
    • 無限層ResNetにおける学習ダイナミクスを解析し,誤差限界を導出すること。
    • ResNetの層数が増加すると,無限に広いネットワークとして振る舞うことが示された。
    • 特定の残差スケールにおいて,学習誤差は層数と隠れ層の幅に依存する明確な限界を持つことが示された。
    • 初期化のランダム性により,ResNetの順伝播・逆伝播は特定の平均常微分方程式の確率的近似として捉えられる。

    Link: https://arxiv.org/abs/2509.10167

  • 質問のみからLLMの回答精度を予測する線形プローブ [cs.CL, cs.AI]目的:LLMの回答精度の予測
    • LLMの能力向上は目覚ましいが,その内部動作の解明は不可欠である。
    • LLMが回答の正確性を事前に認識しているか不明であり,そのメカニズムが課題である。
    • LLMの内部表現から回答精度を予測し,そのメカニズムを明らかにすることを目指す。
    • 質問のみの段階で抽出した活性化を用いて線形プローブを訓練し,回答精度を予測することに成功した。
    • 予測性能は中間層で飽和するが,汎化性能は数学的推論が必要な質問で低下する傾向が見られた。
    • 「わからない」と応答する場合,プローブのスコアと強い相関があり,自信度も捉えている可能性が示唆された。

    Link: https://arxiv.org/abs/2509.10625

  • ConEQsA:並行非同期埋め込み型質問のスケジューリングと応答 [cs.RO, cs.AI, cs.CV]目的:埋め込み型質問応答(EQsA)問題の定式化,対応するベンチマークの導入,そしてその問題に取り組むためのエージェントシステムの提案
    • 現実世界のロボット応用の多くは,複数の質問に同時に対処する必要があるため,並行処理が不可欠である。
    • 従来の埋め込み型質問応答は単一の質問に焦点を当てており,複数の非同期質問への対応が困難である。
    • 複数の質問を効率的に処理し,緊急度の高い質問に優先的に対応する手法を確立すること。
    • 提案手法ConEQsAは,共有グループメモリを活用し,冗長な探索を削減することで,効率的な質問応答を実現している。
    • ConEQsAは,動的な質問スケジューリングにより,緊急度の高い質問に迅速に対応し,全体的な応答性を向上させている。
    • CAEQsベンチマークを用いた実験の結果,ConEQsAは強力な逐次的なベースラインを常に上回り,その有効性が示された。

    Link: https://arxiv.org/abs/2509.11663

  • ScaleDoc:大規模ドキュメント集合におけるLLMベース述語のスケーリング [cs.DB, cs.AI, cs.LG]目的:大規模ドキュメント集合に対するLLMベースの述語処理のスケーリング
    • データ分析において述語は不可欠であり,非構造化ドキュメントの処理能力が求められている。
    • 大量のドキュメントとアドホックなクエリにより,LLMの推論コストが課題となっている。
    • LLM推論コストを削減し,大規模なセマンティック分析を効率的に実現すること。
    • ScaleDocは,オフラインでの表現生成とオンラインでの最適化フィルタリングの分離により,効率的な処理を実現する。
    • コントラスト学習ベースのフレームワークにより,軽量なプロキシモデルが信頼性の高い述語決定スコアを生成する。
    • 適応的カスケード機構により,特定の精度目標を満たしながら効率的なフィルタリングポリシーを決定する。

    Link: https://arxiv.org/abs/2509.12610

  • 見る,考える,行動する:GUIとの効果的な対話のためにトグルを識別するマルチモーダルエージェントの教育 [cs.AI, cs.CL, cs.HC]目的:GUIにおけるトグル操作の実行に関する課題解決
    • GUI環境でのエージェントの活用が広がる中で,GUI操作能力の向上が重要である。
    • マルチモーダルエージェントはGUI操作が可能だが,トグル操作の信頼性が低いという課題がある。
    • エージェントが現在のトグル状態を認識し,適切な行動を選択できるようにすること。
    • 提案手法StaRは,既存のエージェントのトグル操作実行精度を30%以上向上させる。
    • StaRは,一般的なエージェントタスク性能の向上にも貢献する。
    • 動的な環境下での評価により,StaRの現実世界への応用可能性が示唆された。

    Link: https://arxiv.org/abs/2509.13615

  • オフライン報酬評価と方策探索による生成型自動入札の強化 [cs.LG, cs.AI]目的:生成型自動入札における性能向上
    • 広告効果最大化のため,自動入札は不可欠なツールである。広告予算の効率的な配分が求められる。
    • 既存の自動入札手法は,オフラインデータのみに依存し,探索能力に限界がある。
    • オフラインデータを超えた安全かつ効率的な探索を可能にし,性能向上を目指す。
    • 提案手法AIGB-Pearlは,生成計画と方策最適化を統合することで,既存手法の性能ボトルネックを解消する。
    • 軌道評価器を構築し,生成されたスコアの質を評価することで,オフラインデータ外での安全な探索を可能にする。
    • シミュレーションと実世界の広告システムの両方で,最先端の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2509.15927

  • SiNGER:より明確な音声がVision Transformerをさらに進化させる [cs.RO, cs.CL, cs.CV, cs.AI]目的:Vision Transformerの知識蒸留における表現品質の向上
    • Vision Transformerは画像認識の基礎モデルとして広く利用されている。表現力が高く,様々なタスクで優れた性能を発揮する。
    • Vision Transformerは高ノルムなアーティファクトを生成しやすく,それが表現品質を低下させる。知識蒸留時にアーティファクトが学生モデルに伝播しやすい。
    • アーティファクトを抑制しつつ,教師モデルからの有益な情報を保持することで,知識蒸留の性能を向上させる。
    • SiNGERは,特異値分解に基づいたエネルギー再配分により,アーティファクトの抑制と有益な情報の保持を両立する。
    • LoRAベースのアダプターを用いることで,効率的な教師特徴量の洗練を実現し,学生モデルへの蒸留を可能にする。
    • 実験の結果,SiNGERは様々なダウンストリームタスクにおいて最先端の性能を達成し,より明確で解釈可能な表現を生成することが示された。

    Link: https://arxiv.org/abs/2509.20986

  • ベアリング故障診断のための機械学習モデルのより現実的な評価に向けて [cs.LG, eess.SP]目的:ベアリング故障診断における機械学習モデル評価の信頼性向上
    • 回転機械の安全性と運用効率維持に,ベアリング故障の信頼性検出は不可欠である。
    • 既存研究ではデータリーケージ等の手法上の問題から,実環境への汎化性能が低い場合が多い。
    • データリーケージを防止し,よりロバストなモデル評価手法を確立すること。
    • 一般的なデータ分割戦略(セグメント分割,条件分割)が性能指標を不当に高くする原因となる。
    • ベアリング単位でのデータ分割を用いた厳密なリーケージフリーな評価手法を提案した。
    • 多ラベル分類問題を導入し,複数の故障タイプを同時に検出,汎用的な指標を用いることで,より実用的な評価が可能となった。

    Link: https://arxiv.org/abs/2509.22267

  • コルモゴロフ複雑性と深層学習の架け橋:Transformerのための漸近的に最適な記述長目的関数 [cs.LG, cs.AI, cs.CL]目的:Transformerのための漸近的に最適な記述長目的関数の理論的根拠
    • 機械学習において,モデルの複雑さを抑制し汎化性能を高めることは重要な課題である。
    • Transformerのようなニューラルネットワークにおいて,モデルの複雑さを定量的に評価する普遍的な指標が存在しない。
    • コルモゴロフ複雑性理論に基づき,Transformerに適用可能な漸近的に最適な記述長目的関数を導き出す。
    • 漸近的に最適な目的関数を最小化することで,データセットに対する最適な圧縮が可能となることが理論的に示された。
    • Transformerに対し,そのような目的関数が存在することが証明された。これはTransformerの計算普遍性に基づいている。
    • 適応的なガウス混合事前分布に基づく変分目的関数を構築し,その実行可能性と微分可能性が検証された。

    Link: https://arxiv.org/abs/2509.22445

  • 言語モデルの計画における強化学習の利点と落とし穴:理論的視点 [cs.AI, cs.CL, cs.LG, stat.ML]目的:言語モデルの計画能力に対する強化学習の有効性に関する理論的根拠の解明
    • 大規模言語モデルの計画能力向上は,自然言語処理の重要な課題であり,その性能は様々な応用分野に影響を与える。
    • 強化学習の適用は効果的だが,その理論的基盤が不明確であり,汎化性能の限界や問題点が存在する。
    • 強化学習の利点と欠点を理論的に分析し,計画における探索の役割と報酬設計の重要性を示す。
    • 教師ありファインチューニングは共起に基づく誤った解を導入する可能性がある一方,強化学習は探索を通じて正しい計画を達成する。
    • 方策勾配法は多様性の崩壊を引き起こすのに対し,Q学習はオフポリシー学習と収束時の多様性維持という利点を持つ。
    • Q学習においては,Q値バイアスを防ぐための注意深い報酬設計が必要である。

    Link: https://arxiv.org/abs/2509.22613

  • 小説(の斬新さ)の終焉:テキストの創造性指標としてのn-gram新規性の限界 [cs.CL, cs.AI, cs.HC]目的:言語モデルの生成するテキストの創造性の評価
    • 自然言語処理の発展に伴い,創造性のあるテキスト生成が重要視されている。
    • n-gram新規性は,テキストの創造性を測る指標として用いられるが,その妥当性に疑問が残る。
    • n-gram新規性と人間の判断による創造性の関係性を分析し,より適切な評価方法を模索する。
    • n-gram新規性は創造性と正の相関があるものの,上位25%の表現の91%は創造的とは判断されない。
    • オープンソースLLMにおいて,n-gram新規性が高いほど,実用性が低い傾向が確認された。
    • LLMを評価者として用いた新規性評価は,n-gramに基づく指標よりも人間の好みに近いことが示された。

    Link: https://arxiv.org/abs/2509.22641

  • マイクロスケールFP4量子化の潜在力と性能の乖離を埋める [cs.LG]目的:マイクロスケール4ビット浮動小数点形式(MXFP4,NVFP4)を用いたポストトレーニング量子化の研究
    • 大規模言語モデルの推論において,計算効率とメモリ使用量の削減が重要な課題となっている。
    • FP4形式は性能向上が期待されるが,従来の技術では期待通りの効果が得られていない。
    • FP4形式の特性に特化した量子化手法を開発し,性能と精度の両立を目指す。
    • 提案手法MR-GPTQは,ブロックごとのアダマール変換と形式固有の最適化により,FP4の特性に最適化された量子化プロセスを実現する。
    • NVIDIA B200では層ごとの処理で最大3.6倍,エンドツーエンドで2.2倍,RTX5090では層ごとの処理で6倍,エンドツーエンドで4倍の高速化を達成した。
    • MR-GPTQは,最先端の精度と同等またはそれ以上の精度を達成し,MXFP4の性能を大幅に向上させ,NVFP4の精度に近づけることに成功した。

    Link: https://arxiv.org/abs/2509.23202

  • レプリカ交換による拡散の制御:CREPE [cs.LG]目的:拡散モデルの出力制御手法
    • 生成モデルの応用範囲拡大のため,推論時の制御技術が重要視されている。
    • 既存手法は,ヒューリスティックな誘導やSMCとの組み合わせに依存し,柔軟性に課題がある。
    • レプリカ交換に基づく新たな制御手法を提示し,柔軟性と効率性を実現する。
    • 本手法CREPEは,逐次的な粒子生成,高い多様性の維持,オンラインでの改良・早期終了を可能とする。
    • 温度アニーリング,報酬傾斜,モデル合成,classifier-free guidanceのバイアス除去など,多様なタスクで有効性を示した。
    • 既存のSMC法と同等以上の性能を達成し,拡散モデルの制御における新たな選択肢となる。

    Link: https://arxiv.org/abs/2509.23265

  • 離散拡散モデルの時代へ:シュレーディンガー橋とエントロピー最適輸送のベンチマーク [cs.LG]目的:離散空間におけるシュレーディンガー橋問題のベンチマーク
    • 機械学習の生成モデリングと最適輸送理論を結びつける重要な問題である。
    • 離散領域へのシュレーディンガー橋法の適用が進む中,その精度を評価する信頼できる方法が存在しない。
    • 離散空間におけるシュレーディンガー橋問題の評価基準を確立し,手法の性能を客観的に検証すること。
    • 解析的な解を持つ確率分布のペアを構築することで,シュレーディンガー橋問題のベンチマークを構築した。
    • 新たに2つのアルゴリズム(DLightSB,DLightSB-M)を提案し,既存の研究を拡張してα-CSBMアルゴリズムを構築した。
    • 高次元の離散設定において,既存および新しいソルバーの有用性をベンチマークによって示した。

    Link: https://arxiv.org/abs/2509.23348

  • MedLA:大規模言語モデルを用いた複雑な医学的推論のための論理駆動型マルチエージェントフレームワーク [cs.AI]目的:複雑な医学的推論のための論理駆動型マルチエージェントフレームワーク
    • 医療分野における複雑な問題解決には,専門知識と患者情報に加え,構造化された多角的思考が不可欠である。
    • 既存のマルチエージェントアプローチは,固定的な役割や浅い対話に依存し,微細な論理的不整合の検出・解決が困難である。
    • 本研究は,論理的整合性と透明性を高め,より信頼性の高い医学的推論を実現することを目指す。
    • 提案手法MedLAは,三段論法に基づいた明示的な論理ツリーを構築し,透明性の高い推論と前提レベルでの整合性を実現した。
    • MedLAは,グラフ構造に基づいた多段階の議論を通じて論理ツリーを比較・改善し,エラー修正と矛盾解消によりコンセンサスを達成する。
    • MedDDx等のベンチマークにおいて,既存手法や単一エージェントベースラインを上回り,高い性能と汎用性を示した。

    Link: https://arxiv.org/abs/2509.23725

  • 拡散モデルの中間分布形状化によるファインチューニング [cs.CL, cs.IR, cs.CL, cs.LG, cs.AI]目的:拡散モデルのファインチューニング手法
    • 拡散モデルは生成タスクで広く用いられ,その応用範囲は多岐にわたるため,性能向上が重要である。
    • 既存のファインチューニング手法では,学習誤差の修正や下流タスクへの適応が十分でない場合がある。
    • 中間分布の形状化により,より効果的なファインチューニングを実現し,性能向上を目指す。
    • 提案手法P-GRAFTは,中間ノイズレベルにおける分布形状化により,より効果的なファインチューニングを可能にする。
    • Stable Diffusion v2への適用により,T2IベンチマークにおいてVQAScoreが向上し,ベースモデル比で8.81%の改善が確認された。
    • 無条件画像生成においては,Inverse Noise CorrectionがFIDスコアを改善し,FLOPs/imageを低減した。

    Link: https://arxiv.org/abs/2510.02692

  • 平衡符号グラフアルゴリズム展開による脳波分類のための軽量Transformer [cs.LG]目的:脳波信号の分類
    • 脳波は精神活動の重要な指標であり,医療診断やブレイン・マシン・インターフェース等への応用が期待される。
    • 従来の深層学習モデルはパラメータ数が多く,計算コストが高いという課題があった。
    • 符号付きグラフを用いた軽量なTransformerモデルを構築し,効率的な脳波分類を実現する。
    • 提案手法は,既存の深層学習モデルと同等の分類性能を,大幅に少ないパラメータ数で達成した。
    • 脳波信号に内在する負の相関を符号付きグラフで適切にモデル化することで,効果的な特徴抽出を実現した。
    • グラフ Laplacian 行列の類似変換により,効率的な低域フィルタの実装を可能にした。

    Link: https://arxiv.org/abs/2510.03027

  • AdaBet:深層ニューラルネットワークの効率的な学習のための勾配不要な層選択 [cs.LG]目的:深層ニューラルネットワークの効率的な学習における層選択
    • エッジデバイス等での活用には,計算資源の制約下での学習が不可欠である。
    • 全層の勾配計算は計算コストが高く,リソースが限られた環境下では困難である。
    • 勾配を用いずに,重要な層を特定し,効率的な適応学習を実現する。
    • AdaBetは,活性化空間のトポロジー的特徴であるベティ数を分析し,勾配を用いずに重要な層をランク付けする。
    • AdaBetは,学習容量の高い層を選択することで,ラベルや勾配を必要とせずに再学習と適応を可能にする。
    • 16組のベンチマークモデルとデータセットでの評価により,AdaBetは勾配ベースのベースラインよりも平均2.5%高い分類精度を達成し,平均ピークメモリ消費量を40%削減した。

    Link: https://arxiv.org/abs/2510.03101

  • キャッシュ・ツー・キャッシュ:大規模言語モデル間の直接的な意味的通信 [cs.CL, cs.LG]目的:大規模言語モデル間の直接的な意味的通信の確立
    • 複数LLMシステムは,各モデルの長所を活かし,単一モデルでは達成できない性能向上に貢献する。
    • 既存システムではテキスト通信に依存しており,豊かな意味情報を損失し,生成遅延が生じるという課題がある。
    • KVキャッシュを用いた直接的な意味的通信により,テキスト通信の課題を克服し,性能向上を目指す。
    • Cache-to-Cache(C2C)は,ソースモデルのKVキャッシュをターゲットモデルに投影・融合することで,直接的な意味的転送を実現する。
    • C2Cは,個々のモデルと比較して,平均精度が6.4〜14.2%向上し,テキスト通信パラダイムを3.1〜5.4%上回る性能を示す。
    • また,C2Cは平均2.5倍の速度向上を実現し,遅延を大幅に削減する。

    Link: https://arxiv.org/abs/2510.03215

  • LaDiR:潜在拡散がLLMのテキスト推論を強化する [cs.LG, cs.AI, cs.CL]目的:テキスト推論のためのLLMの性能向上
    • LLMは推論能力を持つが,その性能向上の余地は大きい
    • LLMの自己回帰デコーディングは,過去のトークンを全体的に修正する能力が限定的
    • 潜在拡散モデルを用いて推論プロセスを改善し,多様な解決策を探索する
    • LaDiRは,既存の自己回帰的,拡散ベース,および潜在的推論手法と比較して,精度,多様性,解釈可能性において一貫して改善を示す
    • 変分オートエンコーダ(VAE)を用いてテキスト推論ステップをブロック化し,意味情報を保持した表現を構築する
    • 潜在拡散モデルがブロック状の双方向注意マスクを用いて,長期的かつ反復的な推論を可能にする

    Link: https://arxiv.org/abs/2510.04573

  • D2E:デスクトップデータを用いたビジョン-アクション事前学習の拡張と,それを具現化されたAIへの転移 [cs.CL, cs.AI, cs.CV, cs.RO]目的:デスクトップデータを利用したビジョン-アクション事前学習の拡張と,具現化されたAIへの転移
    • 具現化されたAIは,現実世界とのインタラクションが不可欠であり,その学習には大量のデータが必要である。
    • 物理的な軌跡データの収集はコストが高く,具現化されたAIの発展を妨げる要因となっている。
    • デスクトップ環境からの学習によって,物理的な環境での学習コストを削減し,具現化されたAIの性能向上を目指す。
    • 1300時間以上のデスクトップデータを用いて事前学習した10億パラメータのモデルが,LIBERO操作タスクで96.6%の成功率を達成した。
    • 同じモデルはCANVASナビゲーションタスクでも83.3%の成功率を示し,より大規模なモデル(\pi_{0}やOpenVLA)と同等またはそれ以上の性能を発揮した。
    • デジタルインタラクションから学習された感覚運動の基本原理が,現実世界の物理的なタスクに効果的に転移することが示された。

    Link: https://arxiv.org/abs/2510.05684

  • スペクトルチューニング:分布カバレッジと文脈内制御のための後学習 [cs.CL, cs.AI]目的:分布モデリングにおける文脈内制御性,有効な出力空間カバレッジ,分布アラインメントの改善
    • 言語モデルの性能向上は重要だが,多様な有効な解答が存在するタスクへの対応は課題である。
    • 既存の後学習手法は,分布全体をカバーする能力を低下させ,文脈内制御性を損なう可能性がある。
    • スペクトルチューニングにより,文脈内制御性と分布カバレッジを向上させ,多様な分布への対応を目指す。
    • スペクトルチューニングは,事前学習済みのモデルや従来の命令チューニング済みモデルと比較して,文脈内制御性を高める。
    • 出力空間のより広い範囲をカバーし,保留データセットにおける分布アラインメントを改善する。
    • 既存の後学習手法が潜在的な能力を引き出す一方で,柔軟な文脈内制御を損なうことが示された。

    Link: https://arxiv.org/abs/2510.06084