arXiv雑要約

AI - 2026/05/08 公開

長文文書質疑応答のための談話構造を意識した階層的検索 [cs.IR, cs.AI, cs.CL]目的：長文文書質疑応答における談話構造の活用
- 人間は文脈を理解する際に談話構造を自然に利用する。質の高い応答には不可欠。
- 既存手法はテキストを平坦に扱うか，ヒューリスティックな分割に頼り，談話構造を無視する。
- RSTに基づき，談話構造を考慮した階層的検索フレームワークを構築し，精度向上を目指す。
- RSTを利用し，長文文書の談話構造を捉え，文レベルの表現とLLMによるノード表現を組み合わせた。
- 長文文書向け談話解析，LLMによる関係性ノードの強化，構造誘導型階層的検索という3つの革新を提案した。
- 4つのデータセットで既存手法を上回り，多様なジャンルと言語で一貫した改善が見られた。
Link: https://arxiv.org/abs/2506.06313
プライバシー保護推薦のためのパーソナライズされた連合学習基盤モデルの調査 [cs.CL, cs.CY, cs.HC, cs.LG, cs.AI]目的：プライバシー保護推薦のためのパーソナライズされた連合学習基盤モデル
- 推薦システムはビジネスにおいて重要であり，ユーザー体験向上に不可欠である。
- 中央集権型システムでは，プライバシー侵害のリスクと規制遵守が課題となる。
- 連合学習と基盤モデルを組み合わせ，プライバシーとパーソナライズを両立する。
- 本調査は，連合学習におけるパーソナライズ技術の有効性を分析している。
- 基盤モデルを連合アーキテクチャに適合させ，汎化性能とユーザー固有のニーズのバランスを取ることを議論している。
- 連合学習，パーソナライズ，基盤モデルのアーキテクチャ的交差点に焦点を当てている点が特徴である。
Link: https://arxiv.org/abs/2506.11563
アトリビューション誘導プルーニングによる洞察と制御：小規模LLMにおける回路発見と標的型修正 [cs.LG, cs.AI, cs.CL]目的：LLMにおける行動固有の回路の識別と介入メカニズム
- LLMは広く利用されているが，その内部動作は解釈と制御が困難である。
- LLMの規模と複雑さから，特定の行動を担う回路の発見は難しい。
- タスク固有の入力に対するモデル出力へのパラメータの寄与度を特定し，回路を抽出することで，問題を解決する。
- アトリビューション誘導プルーニングにより，OPT-125Mにおいてわずか0.3%のニューロンをプルーニングするだけで有害な出力が大幅に減少した。
- 約0.03%の重み要素をプルーニングすることで，一般的な性能を損なわずに反復的なテキスト生成を抑制した。
- 提案手法は，他の小規模言語モデルにも適用可能であり，アーキテクチャに依存しないことが確認された。
Link: https://arxiv.org/abs/2506.13727
非線形外システムを持つ離散時間ダイナミカルシステムの不変多様体: ハイブリッド物理情報ニューラルネットワークによるアプローチ [math.NA, cs.LG, cs.NA, math.DS]目的：離散時間ダイナミカルシステムにおける不変多様体の近似
- 制御理論や集団行動モデリングなど，多様な分野に応用されるダイナミカルシステムの解析において重要。
- 外システムの影響下にあるシステムの不変多様体の同定は，解析的に困難な場合が多い。
- 物理情報ニューラルネットワークを用いて，より高精度な不変多様体の近似を実現する。
- 提案手法は，多項式級数と浅いニューラルネットワークを組み合わせることで，それぞれの利点を活かした近似が可能。
- 実験結果から，提案手法は単独のニューラルネットワークや多項式級数よりも高い精度を達成することが示された。
- 酵素バイオリアクターや車列追従モデルといったベンチマーク問題を通して，手法の有効性が検証された。
Link: https://arxiv.org/abs/2506.13950
言語モデルからの1バイト単位のサンプリング [cs.CL, cs.FL, cs.LG]目的：言語モデルにおけるプロンプト境界問題の解決
- 現代の言語モデルは効率的なテキスト処理にトークン化を用いるが，その過程で歪みが生じる可能性がある。
- トークン化がモデルの生成に歪みを導入するプロンプト境界問題が存在し，特に多言語やコード生成で顕著である。
- トークン化による歪みを解消し，異なるトークナイザーを持つ言語モデル間の統合を可能にすること。
- 本研究では，任意の自己回帰型言語モデルを文字またはバイトレベルの言語モデルに変換する推論時の手法を提案する。
- 提案手法はプロンプト境界問題を効率的に解決し，異なるトークナイザーを持つ言語モデルのアンサンブルや，プロキシチューニングによる知識転移を可能にする。
- これにより，言語モデルの生成品質向上と柔軟なモデル連携が期待できる。
Link: https://arxiv.org/abs/2506.14123
自律走行シナリオにおけるマルチスケールスペクトル注意モジュールに基づくハイパースペクトルセグメンテーション [cs.DC, cs.CV, cs.AI]目的：自律走行環境下でのハイパースペクトルセグメンテーション性能向上
- 自動運転技術の発展において，より高度な環境認識が不可欠であり，ハイパースペクトル画像はその鍵となる。
- 高次元のスペクトルデータの効率的な処理が課題であり，計算コストと精度向上がトレードオフとなる。
- マルチスケール注意モジュールを導入し，スペクトル特徴抽出の精度と効率を改善することを目指す。
- 提案手法であるMSAMをUNetに組み込むことで，都市部運転シナリオにおけるセマンティックセグメンテーション性能が向上した。
- MSAMは，ベースラインのUNet-SCと比較して，平均でmIoUが2.32%，mF1が2.88%改善された。
- 最適なカーネルサイズの組み合わせはデータセットに依存し，(1;5;11)や(3;7;11)といった構成が特に有効であることが示された。
Link: https://arxiv.org/abs/2506.18682
HDTree：細胞階層の生成モデリングによるロバストな系統推定 [cs.LG, q-bio.QM]目的：細胞階層構造の生成モデリング
- 単細胞研究において，細胞分化軌跡の解析は生物学的プロセス理解に不可欠である。
- 既存手法は計算コスト，性能，安定性に課題があり，大規模データへの適用が困難である。
- HDTreeは，安定性と拡張性を向上させ，生物学的に妥当な系統推定を可能とする。
- HDTreeは，階層的潜在空間と量子化拡散過程を用いて，細胞状態の連続的な遷移をモデル化する。
- 汎用データセットと単細胞データセットにおいて，既存手法よりも系統推定の精度，再構成品質，階層的一貫性が向上した。
- これにより，細胞分化経路の正確かつ効率的なモデリングが可能となり，生物学的発見に貢献する。
Link: https://arxiv.org/abs/2506.23287
スケーラブルな制約付きブラックボックス最適化のための潜在空間における事後推論 [cs.LG, stat.ML]目的：制約付きブラックボックス最適化における性能向上
- 科学技術分野における高次元関数の最適化は重要であり，特に制約条件が存在する場合，その難易度は増す。
- 制約付き最適化問題では，実行可能な領域を見つけることが難しく，探索効率が低下しやすい。
- 潜在空間での事後推論により，実行可能性と目的関数の両方を考慮した効率的な探索を目指す。
- 生成モデルの潜在空間で事後推論を行うことで，制約付きブラックボックス最適化を再構成した。
- 拡散モデルを活用し，事後分布からのサンプリングを効率化することで，モード崩壊の問題を回避した。
- 合成問題および実世界の問題において，提案手法が既存手法を上回る性能を発揮することが示された。
Link: https://arxiv.org/abs/2507.00480
ゲルフンド合理性原理の改良：回答集合意味論のための包括的な基礎原理に向けて [cs.AI]目的：回答集合意味論の基礎原理の包括的な確立
- 非単調論理プログラミングは，回答集合プログラミングという宣言的問題解決パラダイムの基盤である。
- 既存の回答集合意味論では，最小モデル性などの条件が必ずしも適切でない場合がある。
- ゲルフンドの合理性原理を改良し，より一般的な原理を提示することで，既存の意味論を評価する基準を提供する。
- 最小モデル性，制約単調性，成立性の３つの条件が必ずしも必須ではないことが示された。
- ゲルフンドの回答集合原理を，支持性，デフォルトによる否定に関する最小性，認識的否定に関する最小性の３つの概念を用いて改良した。
- 改良された原理に基づき，新たな回答集合意味論を定義し，既存の意味論の評価基準として利用した。
Link: https://arxiv.org/abs/2507.01833
変分Kolmogorov-Arnoldネットワーク [cs.LG]目的：多変量関数の表現方法に関する研究
- 多変量関数を扱う上で，効率的かつ柔軟な表現方法の確立が重要である。
- 従来のKANでは，層ごとの基底関数数を手動で設定する必要があり，最適な値の決定が困難である。
- 基底関数数を学習によって自動的に決定することで，KANの性能向上と利便性向上を目指す。
- InfinityKANは，基底関数数を潜在変数として扱い，変分推論を用いて学習する。
- Truncated exponential priorを用いることで，微分可能な重み付け関数を導入し，勾配ベースの最適化を可能にした。
- 18のデータセットを用いた実験により，InfinityKANが既存のKANと同等以上の性能を発揮することが示された。
Link: https://arxiv.org/abs/2507.02466
リセットリプレイによるサンプル効率の良いLLM最適化 [cs.LG, cs.CL]目的：LLMの最適化におけるサンプル効率の向上
- 大規模言語モデル(LLM)の推論能力向上は重要であり，そのための後学習が注目されている。
- 強化学習や嗜好度最適化ではサンプル効率が低く，初期経験への過学習(プライマシーバイアス)が問題となる。
- 本研究は，リプレイとリセット戦略により，限られたデータでの効率的なLLM最適化を目指す。
- LoRRは，様々な嗜好度最適化手法において，数学的推論および汎用推論ベンチマークで性能を大幅に向上させる。
- LoRRを組み込んだ反復DPOフレームワークは，複雑または計算コストの高いベースラインに匹敵する数学タスクの性能を達成する。
- LoRRは，既存の後学習ワークフローへの変更を最小限に抑えながら，限られたオフラインデータから高い性能を引き出す実用的な手法である。
Link: https://arxiv.org/abs/2508.06412
手続き型コンテンツ生成における多目的指示認識表現学習 [cs.LG, cs.AI]目的：手続き型コンテンツ生成における多目的指示認識のための表現学習
- 自然言語によるコンテンツ生成制御の重要性が高まっている。多様な表現力を持ち，人間が理解しやすいから。
- 既存の手続き型コンテンツ生成における指示付き強化学習は，複雑な指示や多目的指示に対して表現力を活かしきれていない。
- 複雑な指示に対応し，より表現豊かで柔軟なコンテンツ生成を可能にすること。
- 提案手法MIPCGRLは，文埋め込みを条件として組み込み，多目的埋め込み空間を効果的に学習する。
- 多目的指示において，制御可能性が最大13.8%向上する結果が得られた。
- 多ラベル分類と多ヘッド回帰ネットワークを活用することで，より高度な制御を実現している。
Link: https://arxiv.org/abs/2508.09193
実用的な平衡伝播に向けて：フィードバック制御と残差結合を備えた脳に触発された再帰型ニューラルネットワーク [cs.NE, cs.AI, cs.LG, q-bio.NC]目的：平衡伝播における学習性能の向上
- 脳型知能システム実現には，脳の学習メカニズムの理解が不可欠である。
- 既存の平衡伝播は，不安定性や計算コストの高さが課題となっていた。
- 平衡伝播の安定性と計算効率を改善し，実用的な大規模ネットワークへの応用を目指す。
- 提案手法であるFRE-RNNは，フィードバック制御により収束を高速化し，計算コストを大幅に削減した。
- 残差結合は，深層RNNにおける勾配消失問題を緩和する効果が確認された。
- 本研究は，平衡伝播の実用性と大規模ネットワークへの適用可能性を大きく向上させた。
Link: https://arxiv.org/abs/2508.11659
医療現場におけるパスアトリビューション説明手法における欠損概念：臨床的に意味のあるベースライン選択の指針 [cs.LG]目的：医療画像における説明可能なAIのための，臨床的に妥当なベースライン選択
- 医療分野では，臨床医の信頼を得るため，AIモデルの解釈可能性が不可欠である。
- 従来のベースラインは，医療画像において臨床的意義を持つため，適切な欠損表現とならない。
- 臨床的に実現可能な状態を表現するベースラインを構築し，より信頼性の高い説明を可能とする。
- カウンターファクチュアルベースラインが，従来のベースラインよりも忠実で，医療的に適切なアトリビューションを生成することが示された。
- カウンターファクチュアルを直接説明として用いる手法よりも，Integrated Gradientsのベースラインとして用いる方が，より良い結果が得られた。
- VAEと拡散モデルという2つのカウンターファクチュアル生成モデルを用いて検証し，その有効性を実証した。
Link: https://arxiv.org/abs/2508.14482
オープンエンド対話からの目標推論による柔軟なエージェントアラインメント [cs.AI, cs.CL, cs.LG, cs.RO]目的：人間選好の動的な分布
- 対話エージェントの性能向上は，人間との自然な協調を可能にする上で重要である。
- 既存エージェントは，多段階対話やユーザ意図の正確なモデル化に課題がある。
- オープンエンド対話における，変化しうるユーザの目標を正確に捉えることを目指す。
- 提案手法GOODは，対話を通じて目標候補を効率的に抽出し，ランキングする。
- GOODは，大規模なオフラインデータセットなしに解釈可能な不確実性対応の選好表現を実現する。
- 3つのテキストベースドメインでGOODは，明示的な目標追跡なしのベースラインと比較して，ユーザ意図との整合性を向上させる。
Link: https://arxiv.org/abs/2508.15119
記憶を超えて：再帰，メモリ，テスト時計算のスケーリングによる推論深さの拡張 [cs.LG, cs.AI]目的：多段階推論の学習と実行機構の解明
- 大規模言語モデルの根幹能力である推論能力の理解は，AIの発展に不可欠である。
- 推論ステップ数が増加すると，既存モデルの性能が著しく低下する課題がある。
- 再帰，メモリ，テスト時計算のスケーリングによる推論深さの限界改善を目指す。
- 大規模言語モデルは，提示されたタスクの自然言語プロキシを確実に解決できないことが示された。
- ニューラルネットワークは，ルール推論を学習し，次のステップの精度を高く達成できるが，必要な推論ステップ数が増えると性能が低下する。
- モデルの深さを増すこと，および再帰，メモリ，テスト時計算による有効深さの拡張が有効であることが確認された。
Link: https://arxiv.org/abs/2508.16745
効率的な共形的反事実推論のための合成反事実ラベル [cs.RO, cs.SY, eess.SY, cs.LG, cs.IT, math.IT]目的：個々の反事実結果に対する信頼性の高い予測区間の構築
- 反事実推論は，因果関係の理解や介入効果の評価に不可欠である。
- 既存手法では，反事実サンプルが不足すると予測区間が保守的になりすぎる。
- 治療群の不均衡下でも，より狭い予測区間を提供することを目的とする。
- 提案手法SP-CCIは，事前学習済みの反事実モデルで生成された合成ラベルを活用する。
- SP-CCIは，リスク制御型予測集合(RCPS)に基づく共形校正手順と予測駆動推論(PPI)を用いて有効性を保証する。
- 実験結果から，SP-CCIは標準的なCCIと比較して，予測区間の幅を狭めることが確認された。
Link: https://arxiv.org/abs/2509.04112
ロバストフィルタアテンション：自己注意を精度重み付き状態推定として [cs.LG, cs.AI]目的：自己注意機構を精度重み付き状態推定として捉えること
- Transformerモデルは自然言語処理の基盤であり，その性能向上が重要である。
- 従来の注意機構は，長文脈における性能劣化や外挿性能の課題がある。
- 文脈長に依存しない安定した注意機構を開発し，長文脈処理能力を向上させること。
- 提案手法RFAは，標準的な注意機構と同等の計算量で，言語モデリングベンチマークにおいてRoPEよりも低いパープレキシティを達成した。
- RFAは，訓練範囲内ではより低いパープレキシティを示し，ゼロショット外挿においても安定性を保った。
- 本研究は，標準的な位置エンコーディングを確率的ダイナミクスによる輸送と不確実性の伝播として解釈する新たな視点を提供した。
Link: https://arxiv.org/abs/2509.04154
高階ランジュバン力学による拡散モデルのメンバーシップ推論攻撃に対する防御 [cs.IR, eess.SY, cs.SY, cs.LG, stat.ML]目的：拡散モデルに対するメンバーシップ推論攻撃の防御
- 生成AIの進化に伴い，データセキュリティの重要性が高まっているため。
- 拡散モデルもメンバーシップ推論攻撃に脆弱であり，学習データ特定のリスクがある。
- 高階ランジュバン力学を用いて，拡散過程初期での情報漏洩を防ぐ。
- 高階ランジュバン力学の導入により，補助変数を介した外部からのランダム性を付加する。
- この手法により，拡散過程初期における機密データの汚染を促進し，攻撃を困難にする。
- 玩具データセットおよび音声データセットでの実験で，有効性がAUROC曲線とFID指標によって検証された。
Link: https://arxiv.org/abs/2509.14225
SynBench：差分プライバシーによるテキスト生成のベンチマーク [cs.AI]目的：差分プライバシーを保証するテキスト生成の評価フレームワーク
- 機密データ共有の原則的アプローチとして，プライバシー保護が重要視されている。
- 評価設定の差異やデータ汚染の可能性により，公平な比較が困難である。
- 実世界のデータセットにおけるプライバシー保証の妥当性を検証すること。
- 差分プライバシーによるテキスト生成の品質は，生成元の事前学習データとの乖離が大きいほど低下する。
- LLMが「プライベート」データで事前学習されている場合，合成データ品質が過大評価されることが，新たなメンバーシップ推論攻撃により示された。
- 「公開事前学習とプライベート生成」のパラダイムは，実際のプライベートデータセットに対するプライバシー境界を無効化する。
Link: https://arxiv.org/abs/2509.14594
摩擦Q学習 [cs.HC, eess.SY, cs.SY, cs.LG, cs.AI]目的：オフポリシー強化学習における外挿誤差の軽減
- 強化学習は，複雑な制御問題解決に不可欠であり，その性能向上が求められている。
- オフポリシー学習では，リプレイバッファに乏しい行動選択が外挿誤差を引き起こしやすい。
- 本研究は，摩擦の概念を用いて，外挿誤差を抑制し，安定した学習を目指す。
- 提案手法である摩擦Q学習は，コントラスティブ変分オートエンコーダを用いて，サポートされた行動を接線方向として表現する。
- これにより，サポートされていない行動への逸脱を抑制し，学習の安定化を図る。
- 標準的な連続制御ベンチマークにおいて，ベースラインと比較して堅牢で安定した性能を示すことが確認された。
Link: https://arxiv.org/abs/2509.19771
LLMにおける創発的な遅延思考：逆樹状凍結として [cs.AI, cond-mat.dis-nn, cond-mat.stat-mech, cs.LG, physics.soc-ph]目的：大規模言語モデルにおける遅延思考の創発メカニズムの解明
- LLMの推論能力向上は，AI研究の重要な目標であり，複雑な問題解決への応用が期待される。
- 既存のLLMは，複雑な推論において，思考経路の探索が不十分な場合がある。
- 本研究は，LLMの内部構造の変化を通して，遅延思考のメカニズムを解明し，性能向上を目指す。
- 強化学習と検証可能な報酬を用いることで，LLMが疎な最終的な答えのシグナルから多段階の推論を獲得する。
- LLMの有限な容量が，予測状態のマルコフネットワークを形成し，その上で遅延思考がランダムウォークとして展開される。
- 逆樹状凍結の構造的なタイミングを利用したAnnealed-RLVRが，標準的なRLVRよりも優れた性能を示す。
Link: https://arxiv.org/abs/2509.23629
知識レベル整合性強化学習：長文の事実性における二重事実整合 [cs.CL, cs.AI, cs.LG]目的：長文生成における言語モデルの事実性の向上
- 大規模言語モデルの発展に伴い，長文生成における事実性の確保が重要となっている。
- 既存の強化学習フレームワークでは，モデル自身の知識範囲が考慮されず，幻覚が生じやすい。
- モデルの知識分布と基盤モデルの知識分布間の整合性を高め，幻覚を抑制することを目指す。
- 提案手法KLCFは，モデルが表現する知識分布と基盤モデルの知識分布を整合させることで，長文生成における事実性を向上させる。
- KLCFは，二重事実整合メカニズムにより，基盤モデルからサンプリングされた事実チェックリストを用いて再現率を近似し，軽量な真実性報酬モデルで幻覚を抑制する。
- 実験結果から，KLCFは複数の長文ベンチマークとモデル規模において，事実性指標を改善し，幻覚と過度な保守性を軽減することが示された。
Link: https://arxiv.org/abs/2509.23765
REMAP：動画埋め込みの正則化マッチングと部分的アラインメント [cs.CV, cs.AI]目的：動画の手順学習のためのフレームワーク
- 実世界のインストラクショナル動画の理解は，ロボット支援や教育など，様々な応用において重要である。
- 動画が長く，ノイズが多く，冗長な部分を含むため，意味のある手順を正確に抽出することが困難である。
- 実世界の動画に見られる変動性を考慮し，手順学習の精度を向上させることを目指す。
- 提案手法REMAPは，部分的な輸送を通じて非情報的なフレームをマッチングから除外することで，よりロバストなアラインメントを実現した。
- EgoProceLデータセットにおいて，F1スコアで最大11.6%，IoUで19.6%の改善が見られた。
- ProceLとCrossTaskデータセットでは，平均F1スコアが41%向上し，実用的な手順理解への貢献を示した。
Link: https://arxiv.org/abs/2509.24382
大規模なインターネット検索による難易度の高いベンチマークの探索 [cs.CL, cs.AI]目的：難易度の高いベンチマークの自動構築
- 機械学習モデルの性能評価において，ベンチマークは不可欠である。
- 既存の静的なベンチマークは飽和状態にあり，モデルの真の弱点を測れない。
- インターネットを探索し，自動的に難易度の高いベンチマークを発見すること。
- 提案手法は，インターネット上のトピックを多腕バンディット問題として捉え，効率的な探索を実現した。
- 探索空間のわずか6%を評価するだけで，最も難易度の高いトピックを特定することに成功した。
- 機械翻訳と知識質疑応答において，発見された難易度が複数の独立した指標で確認された。
Link: https://arxiv.org/abs/2509.26619
価値喚起を超えて：ロールプレイングゲームと人類学者LLMによる初期要求工学における倫理的プロファイルの構築へ [cs.HC, cs.AI]目的：デジタルシステム利用者の倫理的プロファイルの抽出と表現
- 要求工学において，ユーザーの価値観を理解することは，システムが倫理的に適切に設計されるために不可欠である。
- 既存手法は定義済みの価値観分類に依存し，暗黙的な価値観や状況依存性を捉えるのが難しいという課題がある。
- ロールプレイングゲームとLLM分析を組み合わせることで，ユーザーの倫理的プロファイルを包括的に把握し，要求工学に活用することを目指す。
- ロールプレイングゲーム環境は，暗黙的な価値観を明らかにするための，文脈に富んだデータを効果的に生成することが示された。
- 人類学に基づいたLLMは，そのようなデータをユーザーの倫理的プロファイルの coherent な物語的表現へと変換できることが確認された。
- このアプローチは，ユーザーの倫理的価値観を初期段階の要求工学に統合するための基盤を提供し，より倫理的なシステム設計に貢献する。
Link: https://arxiv.org/abs/2510.01189
RLにおける合成データのフォレンジック分析：モデルベース方策最適化におけるアルゴリズムの失敗の診断と解決 [cs.LG]目的：強化学習におけるモデルベース方策最適化におけるアルゴリズムの失敗の診断と解決
- データ効率化は強化学習の重要な課題であり，合成データはその有効な手段の一つである。
- 合成データは性能を向上させる一方で，アルゴリズムの失敗を引き起こす可能性も存在する。
- ダイナミクスモデルと報酬目標のスケール不一致，および残差次状態予測の問題を解決することを目指す。
- 提案手法FTFLは，DeepMind Control Suiteにおいて，SACよりも高い性能を示した。
- FTFLは，OpenAI Gym環境におけるMBPOの優れた性能を維持しながら，DMC環境での問題を解決した。
- ベンチマーク環境に特有の前提がアルゴリズム設計に影響を与える可能性が示唆された。
Link: https://arxiv.org/abs/2510.01457
専門家のデモンストレーションから逆強化学習を用いた推論報酬の学習 [cs.CL, cs.AI]目的：専門家の思考過程から推論報酬を推定し，その有効性を検証すること。
- 大規模言語モデルの推論能力向上は重要であり，実世界への応用範囲を広げる。
- 明示的な報酬関数の定義が困難な場合が多く，学習のボトルネックとなっている。
- 専門家のデモンストレーションから推論報酬を学習し，より頑健な推論能力を獲得することを目指す。
- R-AIRLは，専門家の思考過程から報酬関数を推定することで，SFTよりも優れた性能を示す。
- 推論時の再ランク付けにR-AIRLで学習された報酬を用いることで，pass@1を最大17.4ポイント改善する。
- R-AIRLは，推論過程における失敗箇所を最大86.1%の精度で特定し，評価を可能にする。
Link: https://arxiv.org/abs/2510.01857
KaVa：圧縮されたKVキャッシュ蒸留による潜在的推論 [cs.LG]目的：大規模言語モデルにおける潜在的推論の性能向上
- 複雑な推論問題解決において，大規模言語モデルの活用が不可欠である。
- 潜在的推論は効率的だが，教師信号の不足により性能が制限されている。
- 圧縮されたKVキャッシュを教師信号として利用し，潜在的推論の学習を促進する。
- 本手法KaVaは，既存の潜在的推論モデルを上回り，高い性能を示す。
- 数式のみのトレースから自然言語のトレースへの性能劣化が顕著に小さい。
- 大規模なモデルに対しても効率的に学習可能であり，実用性に優れる。
Link: https://arxiv.org/abs/2510.02312
人気経路クエリのための地理空間推論に向けたマルチエージェントアプローチ：CompassLLM [cs.AI, cs.CL]目的：人気経路の特定
- 都市計画，ナビゲーション最適化，旅行推奨など，様々な分野で重要な応用が期待される研究分野である。
- 従来のアルゴリズムや機械学習は，モデルの再学習が必要となり，データ更新への対応が課題であった。
- 大規模言語モデルの地理空間推論能力を活用し，データ更新に柔軟に対応できる手法を提案する。
- CompassLLMは，地理空間推論のために大規模言語モデルを活用する新しいマルチエージェントフレームワークである。
- 実験の結果，CompassLLMは既存経路の特定において高い精度を示し，新規経路の生成においても競争力のある性能を発揮した。
- また，CompassLLMはコスト効率も優れていることが示された。
Link: https://arxiv.org/abs/2510.07516
RLVRの最適化ダイナミクス：勾配ギャップとステップサイズ閾値 [cs.LG, cs.AI, cs.IT, math.IT, math.OC, stat.ML]目的：強化学習による検証可能な報酬（RLVR）の最適化プロセスに関する理論的基盤
- 大規模言語モデルの性能向上は重要であり，そのための効率的な学習手法が求められている。
- RLVRは実証的な成功を収めているが，その動作原理に関する理論的な理解が不足している。
- RLVRの収束条件とステップサイズの最適な設定を理論的に解明し，安定性を向上させる。
- 本研究では，応答空間における低報酬領域から高報酬領域への改善方向を示す「勾配ギャップ」を導入した。
- 収束は，更新方向と勾配ギャップの整合性に依存し，ステップサイズ閾値を超える場合，性能が低下することが示された。
- 理論的予測は，Qwen2.5-Math-7Bを用いた実験で検証され，その有効性が確認された。
Link: https://arxiv.org/abs/2510.08539
連合学習における大規模言語モデルの訓練データクロスクライアント暗記の探求 [cs.LG, cs.CL]目的：連合学習における訓練データの暗記量評価
- プライバシー保護が重要視される中，分散環境での機械学習のニーズが高まっている。
- 連合学習はデータ共有を回避するが，訓練データ暗記のリスクが存在する。
- クライアント間および同一クライアント内での暗記量を定量的に評価する。
- 連合学習モデルは，特に同一クライアント内のデータにおいて，クライアントデータを暗記することが確認された。
- 暗記量は，デコーディング戦略，プレフィックス長，連合学習アルゴリズムなどの訓練・推論要因の影響を受ける。
- 従来の単一サンプルベースの暗記検出手法では見過ごされがちな，クロスサンプル暗記のリスクが示唆された。
Link: https://arxiv.org/abs/2510.08750
大規模言語モデルのプロンプトデータセット：詳細な分析と考察 [cs.LG, cs.CL]目的：大規模言語モデルのプロンプトデータセットの構造化された分類と，言語学的分析
- 近年，大規模言語モデルの性能向上が著しいが，その性能はプロンプトの質に大きく左右される。
- プロンプトデータセットは散在しており，その特徴を体系的に理解する研究は不足している。
- プロンプトの特性を捉え，効率的なプロンプトのフィルタリングや品質評価を実現すること。
- 129の異種LLMプロンプトデータセットを構造化された分類体系に整理し，7つの代表的なコーパスに対して多層的な言語学的分析を行った。
- 62次元の構文特徴量が，GPU埋め込みの精度を93%以上維持しつつ，単一リクエストのレイテンシを1.9倍低減できることが示された。
- ルーティングに有用な特徴と応答品質に負の相関を示す特徴が明確に分離され，二段階パイプライン設計の根拠となった。
Link: https://arxiv.org/abs/2510.09316
潜在的低次元空間係数探索による効率的なテスト時適応 [cs.CL, cs.IR, cs.LG, eess.AS, eess.IV]目的：テスト時適応の効率化
- 現実世界のデータ分布は変化しやすく，モデルの頑健性を保つためにはテスト時適応が不可欠である。
- 既存のテスト時適応手法は，バックプロパゲーションや活性化情報のバッファリングが必要で，エッジデバイスでの利用が困難である。
- 本研究では，制約の厳しいオンデバイス環境下で，勾配を用いずに単一サンプルでテスト時適応を実現する。
- 提案手法ELaTTAは，モデルの重みを固定し，事前に計算された潜在的低次元空間において係数ベクトルを最適化することで適応を行う。
- ELaTTAは，CMA-ESを用いて係数を最適化することで，予測の確信度を高め，決定境界付近での安定性を向上させる。
- 6つのベンチマークと複数のアーキテクチャにおいて，ELaTTAは最先端の精度を達成し，計算量とメモリ使用量を大幅に削減した。
Link: https://arxiv.org/abs/2510.11068
行動としての記憶：長期的エージェントタスクのための自律的コンテキストキュレーション [cs.AI]目的：長期的なエージェントタスクにおける注意散漫を緩和するための，学習可能なワーキングメモリ管理
- 大規模言語モデルの活用範囲拡大に伴い，長文の情報を効率的に処理する技術が重要になっている。
- 既存の手法は，エージェントの推論状態を考慮せず，最適な決定に至らない場合がある。
- エージェントの推論状態に適応し，情報保持とタスク性能を最適化する手法を開発する。
- MemActは，ワーキングメモリ管理を学習可能な行動として扱い，文脈の編集（削除，挿入）を通じて最適化を実現する。
- Dynamic Context Policy Optimizationにより，動的な文脈更新の計算コストを削減しつつ，推論能力を維持する。
- MemAct-RL-14Bは，16倍大きなモデルと同等の精度を維持しつつ，平均コンテキスト長を51%削減した。
Link: https://arxiv.org/abs/2510.12635
息を整えよ：自己ペース系列生成のための適応的計算 [cs.CL, cs.AI]目的：基礎モデルにおける推論時間スケーリング手法
- 基礎モデルの推論速度調整は，計算資源の効率的な利用に不可欠である。
- 既存手法では，モデルが自身の処理能力を制御できず，静的な遅延が生じやすい。
- モデルが動的に計算ステップ数を調整し，応答の遅延を最適化することを目指す。
- 提案手法「Catch Your Breath (CYB)」は，標準的なクロスエントロピー損失よりも高い性能を示す。
- CYBは，事前学習またはファインチューニングのいずれかで導入した場合でも，パープレキシティの低減と下流タスクの精度向上を実現する。
- 追加の計算コストやメモリコストは発生しない。
Link: https://arxiv.org/abs/2510.13879
白内障手術動画解析のための大規模多源多タスクベンチマーク：Cataract-LMM [cs.CV, cs.AI, cs.LG]目的：白内障手術動画の多様なアノテーションデータセット
- 手術支援研究には大規模データが必要。臨床・技術的な多様性を捉えたデータセットが求められる。
- 既存の白内障手術データは多様性とアノテーションの深さに欠け，汎用的な深層学習モデルの学習を阻害する。
- 多様なデータと多層アノテーションにより，汎用的な手術ワークフロー解析モデル開発を促進する。
- 3,000件の白内障手術動画データセットを構築。2つの医療機関から収集し，熟練度の異なる外科医の動画を含む。
- 手術段階，器械・解剖構造のインスタンスセグメンテーション，器械・組織のインタラクション追跡，スキルスコアの4層アノテーションを提供。
- ワークフロー認識，シーンセグメンテーション，器械-組織インタラクション追跡，スキル評価の4タスクで深層学習モデルの性能を評価した。
Link: https://arxiv.org/abs/2510.16371
因果バンディットにおけるグラフ学習は最適ではない [cs.LG]目的：因果バンディットにおける後悔最小化
- 行動選択の最適化は，医療や広告など幅広い分野で重要である。
- 因果関係が不明な場合，適切な行動選択が困難となる。
- グラフ学習に頼らずに，効率的な後悔最小化を目指す。
- グラフや親の特定は，後悔最小化のために必ずしも必要ではないことが示された。
- 後悔最小化と親の特定が，根本的に対立する状況が存在することが証明された。
- 提案手法は，既存手法と比較して，様々な環境で大きな性能差を示した。
Link: https://arxiv.org/abs/2510.16811
コルモゴロフ＝アーノルド・ネットワークの実践ガイド [cs.CL, cs.LG, cs.AI, cs.NA, cs.NE, math.NA]目的：コルモゴロフ＝アーノルド・ネットワークに関する文献の体系的概要
- 機械学習分野において，より構造化されたモデルへのニーズが高まっている。
- 多層パーセプトロン(MLP)は柔軟性があるが，構造が不明確な場合がある。
- コルモゴロフ・重ね合わせ定理に基づいたKANの理解を深める。
- 本レビューでは，KANと重ね合わせ定理，MLP，カーネル法との関係を明確化する。
- 基底関数をKAN設計の中心的な軸として分析し，KANの精度，効率，正則化，収束に関する最近の進歩をまとめた。
- KAN選択のガイドラインと，今後の研究課題を提示する。
Link: https://arxiv.org/abs/2510.25781
自己整合性は効果が薄れている：最新LLMにおける収益逓減とコスト増加 [cs.AI, cs.CL]目的：最新LLMにおける自己整合性の有効性低下とそのコスト
- 大規模言語モデルの発展に伴い，推論コストの最適化が重要課題となっている。
- 自己整合性は，モデルの誤りを修正するために考案されたが，最近のモデルでは効果が薄れてきている。
- 最新LLMでは，自己整合性の効果を最大化し，コストを削減することを目指す。
- Gemini 2.5モデルを用いた実験により，サンプル数の増加による精度向上はHotpotQAで0.4%，MATH-500で1.6%に留まった。
- 一方，トークンコストはサンプル数にほぼ比例して増加し，効率が悪化することが示された。
- 特に，高いサンプル数では性能が頭打ちになり，場合によっては低下し，ノイズが増加することが示唆された。
Link: https://arxiv.org/abs/2511.00751
ニューラル演算子によるウォームスタート：反復ソルバーの高速化 [cs.LG]目的：偏微分方程式の反復ソルバー高速化手法
- 物理科学や工学における定量的な記述の根幹であり，そのシミュレーションの高速化は重要である。
- 高精度なシミュレーションは計算コストが高く，リアルタイム処理や設計タスクのボトルネックとなる。
- ニューラル演算子を用いて初期推測を改善し，反復ソルバーの計算回数を減らすことで高速化を図る。
- ニューラル演算子によるウォームスタート（NOWS）は，既存の離散化手法やソルバーに影響を与えずに統合できる。
- NOWSは，共役勾配法やGMRESといったクライロフ法における反復回数とエンドツーエンドの実行時間を一貫して削減した。
- 計算時間の最大90%削減を達成しつつ，基盤となる数値アルゴリズムの安定性と収束性を維持する。
Link: https://arxiv.org/abs/2511.02481
多数対多数ミサイル誘導における仮想標的の利用 [eess.SY, cs.LG, cs.RO, cs.SY]目的：多数対多数ミサイル誘導のための仮想標的生成と，それを用いた誘導戦略
- 現代戦においては，複数の標的に対抗するため，多数のミサイルを効率的に運用することが重要である。
- 従来の標的割り当てアルゴリズムは，標的の数が多い場合や，標的の機動を予測することが困難な場合に性能が低下する。
- 本研究は，仮想標的を用いることで，標的の機動予測の不確実性を考慮し，数的優位性を活かした誘導を実現することを目指す。
- 正規化フローに基づく軌道予測器によって生成された仮想標的を用いた新たな多数対多数ミサイル誘導アプローチを提案した。
- シミュレーションの結果，仮想標的法は，n=mの場合において，直線予測と同等以上の性能を示し，n>mの場合には，5.8-14.4%の性能向上が確認された。
- 確率的な仮想標的を用いることで，数的優位性を効果的に活用し，多数対多数シナリオにおける迎撃確率を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2511.02526
コンピュータ断層撮影における腎臓および腎腫瘍の自動3Dセグメンテーションのためのサブマニホールドスパース畳み込みネットワーク [cs.CV, cs.LG]目的：腎臓および腎腫瘍のコンピュータ断層撮影における自動3Dセグメンテーション手法の開発
- 腎腫瘍の正確な輪郭抽出は，定量的分析や精密腫瘍学において不可欠であり，医療の発展に貢献する。
- CT画像はデータ量が大きく，高解像度な畳み込みネットワークは計算コストが高く，ダウンサンプリングやパッチベース推論に依存しやすい。
- ボクセル希疏化とサブマニホールドスパース畳み込みネットワークを用いて，高解像度な3D処理を効率的に実現し，メモリ使用量と推論時間を削減する。
- 提案手法は，KiTS23データセットを用いて5分割交差検証を行い，腎臓＋腫瘍のDice係数を95.8%と高い結果を得た。
- 腫瘍＋嚢胞および腫瘍単独のDice係数も，KiTS23のトップレベル手法と遜色なく，一部でより高いスコアを示した。
- 提案手法は，nnU-NetやSegVolと比較して，VRAM使用量と推論時間を大幅に削減し，特に小規模な病変において優れた性能を発揮した。
Link: https://arxiv.org/abs/2511.04334
非保存的シュレーディンガーブリッジのための接触ワッサーシュタイン測地線 [cs.LG, math.DG]目的：分布間の確率過程のモデリング
- 確率過程のモデリングは，物理，生物学，機械学習など，幅広い分野で重要である。
- 従来のシュレーディンガーブリッジはエネルギー保存の仮定に制約され，多様なエネルギー変化を捉えられない。
- エネルギー変化を許容することで，より現実的な確率過程のモデル化を可能にすること。
- 本研究では，接触ハミルトニアン力学に基づいた新たな枠組み「非保存的 generalized シュレーディンガーブリッジ (NCGSB)」を提案した。
- NCGSBはワッサーシュタイン多様体をパラメータ化することで，有限次元空間での測地線計算へと問題を変換し，効率的な計算を可能にした。
- 提案手法は，多様体ナビゲーション，分子動力学予測，画像生成などのタスクで有効性が確認された。
Link: https://arxiv.org/abs/2511.06856
AsyncVLA：ビジョン・言語・行動モデルのための非同期フローマッチング [cs.RO, cs.AI, cs.LG]目的：ビジョン・言語・行動モデルにおける行動生成の安定性と精度向上
- ロボットの汎用性を高める上で，ビジョン，言語，行動を統合するモデルが重要である。
- 従来のフローマッチングは時間スケジュールが固定されており，長時間のタスクにおいてエラーが連鎖しやすい。
- 非同期フローマッチングと自己修正メカニズムを導入し，長時間のタスクにおける安定性と精度を向上させる。
- AsyncVLAは，行動コンテキストを考慮した非一様な時間スケジュールで行動トークンを生成する。
- 生成された行動に対する信頼度を評価し，不正確なトークンを選択的に修正することで自己修正を実現する。
- シミュレーションと実環境の両方で，既存手法を上回る性能を示すデータ効率の高いモデルである。
Link: https://arxiv.org/abs/2511.14148
視覚言語行動モデルにおける継続的なスキル知識の進化 [cs.IR, cs.RO, cs.AI]目的：視覚言語行動モデルにおける継続学習の効率的な適応
- 視覚と言語と行動を統合するモデルは，ロボット工学や人間とのインタラクションにおいて重要な役割を担う。
- 既存の継続学習手法は，追加パラメータや外部モジュールに依存し，大規模モデルへの適用が困難である。
- 本研究は，モデルパラメータを増加させずに，効率的な継続学習を可能にするフレームワークを提案する。
- Stellar VLAは，タスク表現と学習された知識空間を共同で最適化することにより，自己進化的な知識学習を実現する。
- 知識関係と上位K個のセマンティック埋め込みに基づいた知識誘導型エキスパートルーティングメカニズムにより，モデルサイズを増加させずにタスクの専門化が可能となる。
- LIBEROベンチマークでの実験結果から，Stellar VLAは既存手法と比較して高い性能を示し，実世界での二腕プラットフォームによる検証でも有効な知識転移が確認された。
Link: https://arxiv.org/abs/2511.18085
SpatialBench：空間認知のためのマルチモーダル大規模言語モデルのベンチマーク [cs.AI]目的：空間認知に関するマルチモーダル大規模言語モデルの性能評価
- 現実世界での知能に不可欠であり，物理環境との効果的な相互作用を可能にする。
- 既存のベンチマークは空間認知を単純化し，複雑な能力構造を捉えられていない。
- 階層的な空間認知フレームワークと大規模ベンチマークSpatialBenchを構築し，評価する。
- SpatialBenchは，空間知能を5つの階層に分解し，15のタスクを含む大規模なベンチマークである。
- 大規模言語モデルの実験により，知覚的基盤は強いが，記号的推論，因果推論，計画能力に限界があることが示された。
- 人間のテストでは，目標指向の抽象化を行うのに対し，モデルは表面的な詳細に過剰に注意を払う傾向がある。
Link: https://arxiv.org/abs/2511.21471
高エントロピーが分散型部分観測マルコフ決定過程における対称性同変な方策につながる [cs.CL, cs.LG, cs.MA]目的：分散型部分観測マルコフ決定過程における対称性同変な方策の収束性
- 多エージェント環境における協調的な意思決定は重要であり，複雑な戦略の学習が課題となる。
- 既存の深層強化学習アルゴリズムは，初期値やハイパーパラメータに依存し，安定した学習が難しい場合がある。
- 高エントロピー正則化によって，異なる初期値から学習された方策間の整合性を高め，対称性同変性を実現する。
- 高エントロピー正則化は，分散型部分観測マルコフ決定過程における方策勾配フローの収束を保証する。
- 独立して学習された方策間のクロスプレイルートが，自己プレイルートと一致することが確認された。
- Hanabi環境において，本研究はクロスプレイルートにおける最先端の結果を達成した。
Link: https://arxiv.org/abs/2511.22581
被覆空間正規化フロー：レンズ空間上のプッシュフォワード近似 [cs.LG, math.PR]目的：レンズ空間上のプッシュフォワード分布の近似
- 多様体上の確率分布を扱う上で，多様体の構造を考慮したモデリングが重要である。
- 複雑な形状を持つ空間（例：レンズ空間）上での確率分布の計算が困難である。
- レンズ空間上でのプッシュフォワード分布を，正規化フローを用いて効率的に近似する。
- 普遍被覆写像を用いてプッシュフォワード分布を構築し，レンズ空間上のフローで近似する手法を提案。
- 対称なS^3分布の場合には，冗長性の削除が可能であることを示した。
- von Mises-Fisher分布やベンゼンのモデル化に用いられるZ_12対称なBoltzmann分布のプッシュフォワードを近似した。
Link: https://arxiv.org/abs/2511.22882
6分の4：適応ブロックスケーリングによる高精度なNVFP4量子化 [eess.SY, cs.RO, cs.SY, math.OC, cs.CL, cs.LG]目的：NVFP4量子化における量子化誤差の低減
- 大規模言語モデルの発展に伴い，高速化とメモリ使用量削減の手段として低精度数値形式への関心が高まっている。
- NVFP4への量子化は精度不足によりモデル性能が低下する課題がある。
- 浮動小数点形式の非一様ステップサイズに着目し，量子化誤差を低減する手法を提案する。
- 提案手法4/6は，一部ブロックをより小さいFP4値にスケーリングすることで，表現可能な値の分布を均一化し，最大値近傍の量子化誤差を低減する。
- Nemotron 3 Nano 30B-A3Bモデルを用いた事前学習実験では，4/6は現在の最先端のNVFP4学習レシピと比較して，BF16に近い学習損失を実現した。
- 4/6は最新のハードウェアアクセラレータ上で効率的に実装でき，事前学習と推論の両方で性能向上を実現し，計算オーバーヘッドは最小限に抑えられる。
Link: https://arxiv.org/abs/2512.02010