arXiv雑要約

AI - 2026/06/11 公開

LaQual：LLMアプリ品質評価のための自動化フレームワーク [cs.MS, cond-mat.str-el, quant-ph, cs.SE, cs.AI]目的：LLMアプリの品質評価
- LLMアプリストアは急速に普及しており，ユーザーに多様な選択肢を提供している。
- 既存のランキング・レコメンデーションは静的な指標に依存しており，高品質なアプリを見つけにくい。
- 多様なLLMアプリに対応可能な，汎用的な自動評価フレームワークを開発すること。
- LaQualは，LLMアプリのラベル付け，階層分類，静的指標評価，動的シナリオ適応評価の3段階で構成される。
- LaQualの自動スコアは人間の判断と高い一貫性を示し，アプリ候補を66.7%～81.3%削減できることが示された。
- ユーザー調査では，LaQualが比較効率と説明情報の価値において既存システムを上回ることが確認された。
Link: https://arxiv.org/abs/2508.18636
アルゴリズムは行動ではない：学習された事前知識がチェスAIの先読みを上書きする [cs.HC, cs.LG, cs.AI]目的：ニューラルネットワークにおける学習アルゴリズムと行動の関係性の解明
- AIの性能向上には，内部メカニズムの理解が不可欠である。特に，ゲームAIにおける高度な戦略形成の原理を知ることは重要である。
- ニューラルネットワークが学習したアルゴリズムと，実際の行動が必ずしも一致するとは限らないという問題がある。
- チェスAIにおける先読みメカニズムが，学習された安全志向の事前知識によって上書きされる現象を明らかにすること。
- Leela Chess Zeroにおいて，正解のパズルの解が中間層で出現するにもかかわらず，最終出力で上書きされる「忘れられたパズル」現象が確認された。
- 先読みは正常に機能しているにもかかわらず，最終層で安全なプレイが優先され，正解が覆されることが示された。
- モデルの安全志向の優先度を操作することで，忘れられたパズルの61.7%が回復し，安全志向の事前知識が解の上書きを引き起こす因果関係が示された。
Link: https://arxiv.org/abs/2508.21380
合成住宅：データ不足下における住宅データ生成のためのマルチモーダル生成AIパイプライン [cs.AI, cs.LG]目的：住宅データの合成
- 建築および都市スケールでのエネルギーモデル研究において，計算モデルの重要性が高まっている。
- 大規模な建築パラメータデータの入手が困難，高コスト，プライバシー上の制約がある。
- 高価または制限されたデータへの依存を減らし，データ不足下での研究を可能にすること。
- 本研究では，画像，表形式データ，シミュレーションを統合するAIフレームワークを開発した。
- 選定した視覚言語モデルは，GPTベースの代替モデルと比較して，建築画像処理においてより高い視覚的集中度を示すことがわかった。
- 生成された合成データは，選択された4つの変数のうち3つで95％以上の重複度を示し，リアリズムが確認された。
Link: https://arxiv.org/abs/2509.09794
最適解を超えての汎化：オフライン強化学習によるランダム解を通じた効果的なスケジューリング学習 [cs.LG, cs.AI]目的：ジョブショップスケジューリングおよびフレキシブルジョブショップスケジューリングにおける効果的なスケジューリングポリシー
- 製造業などの分野において，効率的なスケジューリングは生産性向上に不可欠である。
- 従来の強化学習は，大量の試行錯誤が必要であり，現実的な適用が困難である。
- 既存の不完全なデータセットから効率的に学習し，実用的なスケジューリングポリシーを確立すること。
- 提案手法CDQACは，既存のヒューリスティック手法を上回り，オフラインおよびオンライン強化学習の最先端手法を凌駕する性能を示した。
- CDQACは，データセットのわずか1〜5%で高品質なポリシーを学習可能であり，サンプル効率に優れている。
- スケジューリングにおいて，オフライン強化学習の性能は個々の軌跡の質よりも，状態行動の網羅性に大きく依存することが示唆された。
Link: https://arxiv.org/abs/2509.10303
大規模言語モデルを用いた時系列データにおける推論とエージェントシステムの調査 [cs.AI]目的：時系列データにおける推論とエージェントシステムに関する文献の整理と分析
- 時系列データは社会の様々な分野で発生し，その分析は意思決定や予測に不可欠である。
- 従来の時系列分析は，推論過程の透明性や説明可能性に課題を抱えている。
- 大規模言語モデルを活用し，時系列データに対するより信頼性の高い推論システムを構築することを目指す。
- 本調査では，推論のトポロジーを，直接推論，線形連鎖推論，分岐型推論の3つのファミリーに分類した。
- 各トポロジーが，時系列分析，説明，因果推論，生成といった分野において，どのような能力を発揮し，どのような課題に直面するのかを明らかにした。
- 推論構造の構築においては，根拠に基づいた自己修正能力と計算コストのバランスが重要であり，将来は実用性と推論品質を結びつけたベンチマークが求められる。
Link: https://arxiv.org/abs/2509.11575
MARIC：画像分類のためのマルチエージェント推論 [cs.HC, cs.CV, cs.AI, cs.CL, cs.MA]目的：画像分類の協調推論プロセス
- 画像認識はAI研究の基盤であり，多様な応用分野で重要性を増している。
- 従来の画像分類は大規模データセットとパラメータ調整に依存し，汎化性能に課題があった。
- マルチエージェントシステムにより，多様な視点からの分析と統合を実現し，分類精度を向上させる。
- MARICは，グローバルなテーマ分析と詳細な視覚的特徴抽出を組み合わせることで，単一の表現に頼るVLMsの限界を克服した。
- 複数のエージェントが協調することで，パラメータを多く必要としない，堅牢で解釈可能な画像分類を可能にした。
- 4つの画像分類ベンチマークデータセットで，MARICは既存手法を大きく上回り，マルチエージェント推論の有効性を示した。
Link: https://arxiv.org/abs/2509.14860
GPO：批判的ステップから学習しLLMの推論能力を向上 [cs.AI]目的：LLMの推論能力向上
- LLMは多様な分野で活用され，複雑な問題解決への可能性を示している。
- LLMの多段階推論能力向上は依然として重要な課題である。
- 推論プロセス内の重要なステップに焦点を当て，学習効率を高める。
- GPOは，推論プロセス内の「批判的ステップ」を特定し，そのステップから再学習を行うことで，LLMの推論能力を効果的に向上させる。
- GPOは，既存の最適化手法と組み合わせることで，一貫して高い性能向上を示す汎用的な戦略である。
- 実験結果から，GPOは生成プロセスにおける重要な瞬間に集中することで，LLMの推論能力を改善できることが示された。
Link: https://arxiv.org/abs/2509.16456
AI推論におけるエネルギー消費量，効率化経路，およびテスト時スケーリング [cs.RO, cs.LG, cs.DC]目的：AI推論におけるエネルギー消費量の推定と効率化
- AI利用の拡大に伴い，エネルギー消費量の把握と削減が重要となっている。
- 既存のエネルギー消費量推定は，実運用環境を考慮していない場合が多い。
- 大規模展開における推論エネルギーを正確に推定し，効率化の余地を示す。
- 大規模モデル（2000億パラメータ以上）における推論のエネルギー消費量は，平均0.31Wh/クエリと推定された。
- 既存の推定値は，4～20倍に過大評価されている可能性がある。
- テスト時スケーリングによりエネルギー消費量が大幅に増加するが，効率化により影響を軽減可能である。
Link: https://arxiv.org/abs/2509.20241
リソース制約を考慮したモバイルエッジにおけるLLM推論 [cs.AI, cs.NI]目的：モバイルエッジ環境における効率的なLLM推論展開のための共同最適化フレームワーク
- LLMの進化により，高度な推論と自律的な意思決定が可能なエージェントAIが実現しつつある。
- エッジデバイスの計算資源の制約が，LLMベースのエージェントAI推論の展開における課題となっている。
- モバイルエッジ環境におけるLLM推論の資源効率と推論品質のバランスを改善すること。
- 適応的なCoTプロンプティングと分散MoEアーキテクチャを組み合わせたフレームワークを提案。
- 推論の深さを動的なネットワーク資源変数としてモデル化し，専門家活性化と送信電力を共同で最適化。
- モバイルエッジ環境での実験により，推論精度とレイテンシ充足率が90%に達し，実用性が確認された。
Link: https://arxiv.org/abs/2509.23248
残差に基づくモデル操縦による嗜好性整合型大規模言語モデルへの道 [cs.CL, cs.AI, cs.CY, cs.LG, cs.NE]目的：大規模言語モデルの嗜好性整合
- 大規模言語モデルの活用には，人間の嗜好との整合が不可欠である。
- 従来の嗜好性整合手法は，コストが高く，特定のタスクに特化しやすい。
- 少ないデータで，効率的にモデルを嗜好性整合することを目指す。
- 提案手法PaLRSは，わずか100組の嗜好ペアからでも，軽量な操縦ベクトルを抽出できる。
- 数学的推論やコード生成のベンチマークにおいて，PaLRS適用モデルは性能が向上した。
- DPOやSimPOと比較して，PaLRSは時間効率が良く，汎用性能を維持する。
Link: https://arxiv.org/abs/2509.23982
幾何学的指標と大規模言語モデル：その測定内容と有効性 [cs.CL, cs.AI]目的：大規模言語モデルの評価のための幾何学的指標の信頼性条件の検証
- 大規模言語モデルの性能評価は，AI技術の発展において不可欠であり，客観的な指標の確立が求められている。
- 既存の評価指標は，参照データに依存する場合が多く，汎用性や効率性に課題があった。
- 本研究は，参照データに依存しない幾何学的指標の有用性を検証し，その適用範囲を明確にすることを目指す。
- 一部の指標（Schattenノルム，MOM）は出力長を反映しているだけで，長さを制御すると識別能力が低下することが示された。
- 幾何学的指標は，テキスト統計量と組み合わせることで，生成モデルの識別精度を向上させることが確認された。
- 幾何学的指標は，テキスト品質を包括的に捉えるのではなく，語彙の多様性との間に中程度の関連性しか示さなかった。
Link: https://arxiv.org/abs/2509.25359
ノイズ誘導による模倣学習のための輸送 [cs.LG, cs.AI]目的：模倣学習における輸送問題
- ロボット制御などの分野で，人間などの専門家の行動を学習する手法が重要である。
- 専門家のデータが少ない場合，従来の模倣学習手法は十分な性能を発揮できない。
- 少ないデータでも効率的に学習可能な模倣学習手法の開発を目指す。
- 提案手法NGTは，事前学習や大規模なアーキテクチャを必要とせず，軽量なオフポリシー手法である。
- 不確実性の推定を組み込み，実装と調整が容易である。
- 高次元のヒューマノイド制御タスクにおいて，わずか20回の遷移データでも優れた性能を発揮する。
Link: https://arxiv.org/abs/2509.26294
プロンプトガードの回避：制御放出プロンプティングによる実運用での攻撃 [cs.LG, cs.CR]目的：大規模言語モデルにおけるプロンプトガード回避攻撃手法の研究
- AIの安全性確保は重要であり，特に有害なプロンプトからの保護は不可欠である。
- 既存のプロンプトフィルタは計算資源の制約から，高度な攻撃を完全に防ぐことが難しい。
- 軽量なフィルタを回避し，LLMが処理可能な悪意のあるプロンプト生成による攻撃を可能にする。
- 制御放出プロンプティングは，モデル修正なしに，プロンプトフィルタを回避する実用的な攻撃手法である。
- Google Gemini，DeepSeek Chat，xAI Grok，Mistral Le Chatを含む主要な4つのチャットプラットフォームで攻撃が成功した。
- Geminiから著作権で保護されたデータを抽出することにも成功しており，オープンウェイトのプロンプトガードモデルの脆弱性も明らかになった。
Link: https://arxiv.org/abs/2510.01529
行動トリガー型観測による強化学習 [cs.LG, math.OC, stat.ML]目的：行動トリガー型確率的追跡可能なマルコフ決定過程
- 部分観測環境下での強化学習は，現実世界の問題を扱う上で不可欠である。
- 従来の強化学習は完全観測を前提とする場合が多く，部分観測環境への適用が困難である。
- 行動によって観測確率が変化する環境下での最適な方策を導き出すこと。
- 行動シーケンス間の価値関数が有限次元の特徴マップ上で線形表現を持つことを示した。
- 線形MDPの仮定の下，標準的な回帰ベースの手法を適用できることを示した。
- ATST-LSVI-UCBアルゴリズムが，幾何分布に従うエピソード長において最適な後悔率を達成することを示した。
Link: https://arxiv.org/abs/2510.02149
AIのメンタルモデル/心の理論と言われていることの意味：研究者たちは何を語っているのか [cs.HC, cs.AI]目的：AIにおける心の理論やメンタルモデルに関する議論の現状分析
- AI研究の発展は，人間らしい知能を持つAIの実現に不可欠であり，その評価基準が重要となる。
- AIの心の理論に関する議論は，パターン認識と真の認知力の区別が曖昧になっている。
- AIと人間の相互作用における認知動態に着目し，相互心の理論の枠組みを提案する。
- 現在のAIの心の理論に関する研究は，高度なパターンマッチングによる行動の模倣に過ぎない可能性が示唆される。
- 既存のテストパラダイムは，AIシステム単体での評価に偏っており，人間とAIの相互作用を考慮していない。
- 人間とAIの相互作用において，双方向の心の理論を考慮したフレームワークへの転換が必要である。
Link: https://arxiv.org/abs/2510.02660
検証可能な安全なRLHF：セマンティックな接地と固定ペナルティ制約最適化による，より安全なLLMアライメント [cs.LG, cs.AI, cs.SY, eess.SY]目的：LLMのアライメントにおける安全性向上
- LLMの安全性は不可欠であり，有用性と潜在的な有害性のバランスが課題。
- 従来のCMDPアプローチは，報酬・コスト関数に依存し，セマンティックな意味を捉えにくい。
- セマンティックに基づいた安全スコアとペナルティによる，検証可能な安全性を実現。
- 提案手法CS-RLHFは，大規模なコーパスで学習したコストモデルを用いてセマンティックに基づいた安全スコアを割り当てる。
- 従来のラグランジュ関数ベースの手法とは異なり，修正ペナルティベースの定式化を採用し，最適化時に安全性制約の実行可能性を保証。
- 実験結果は，CS-RLHFが最先端のLLMよりも5倍以上効率的に，通常のプロンプトと攻撃的なプロンプトに対して優れた応答を示すことを示す。
Link: https://arxiv.org/abs/2510.03520
GILT：文脈内学習のためのLLMフリー，チューニングフリーなグラフ基盤モデル [cs.LG, cs.AI]目的：グラフにおける文脈内学習のための新しいフレームワーク
- グラフ構造データは様々な分野で重要であり，その処理能力向上は不可欠である。
- 既存のグラフ基盤モデルは，グラフデータの異質性により汎化性能が低いという課題がある。
- GILTは，異質性への対応と効率的な適応を実現し，グラフ学習のボトルネックを解消する。
- GILTは，LLMを使用せず，チューニングも不要な新しいアーキテクチャを採用している。
- ノード，エッジ，グラフレベルの分類タスクを統一的に扱うトークンベースのフレームワークを導入した。
- 実験により，GILTが既存手法よりも少ない計算コストで高いFew-shot性能を発揮することが示された。
Link: https://arxiv.org/abs/2510.04567
物体検出データセット評価のための合成データ品質指標：SDQM [cs.CV, cs.AI, cs.IT, cs.LG, math.IT]目的：物体検出タスクにおける合成データセットの品質評価
- 機械学習モデルの性能向上には，大規模で高品質な学習データが不可欠である。
- アノテーション付きの学習データセットの不足が，モデルの頑健性向上を妨げている。
- 合成データセットの品質を効率的に評価する指標を開発し，データセット作成を支援する。
- 提案手法SDQMは，モデルの学習を必要とせずにデータ品質を評価できる。
- SDQMは，YOLO11のmAPスコアとの強い相関関係を示し，既存の指標を上回る性能を発揮した。
- データセット品質改善のための知見を提供し，高コストな反復学習の必要性を低減する。
Link: https://arxiv.org/abs/2510.06596
AI生成動画検出のための物理駆動型時空間モデリング [cs.CV, cs.LG]目的：AI生成動画の検出
- AI技術の進歩により，現実と区別がつかない動画が生成可能となり，社会への影響が懸念されるため。
- 既存手法では，高次元な時空間動特性のモデリングや，物理法則に反する微妙な異常の検出が困難である。
- 物理法則に基づき，AI生成動画特有の統計的特徴を捉え，高精度な検出を実現すること。
- 提案手法は，確率の流れの保存則に基づき，空間勾配と時間密度変化の比率を示すNormalized Spatiotemporal Gradient (NSG)を導入した。
- 拡散モデルを活用し，複雑な運動分解なしにNSGを推定することで，物理制約を維持しつつ，自然な動画ダイナミクスからの逸脱を捉える。
- 実験により，提案手法NSG-VDは最先端手法を大きく上回り，Recallで16.00%，F1-Scoreで10.75%の性能向上を達成した。
Link: https://arxiv.org/abs/2510.08073
大規模言語モデルとトピックモデリングによる学術文献のマッピング [cs.CL, cs.DL, cs.AI, cs.CL, cs.LG]目的：学術文献のマッピング
- 学術研究は高度に専門化しており，分野間の連携や知識の統合が課題となっている。
- 既存のキーワードシステムでは，学術文献の構造変化を捉えきれない場合がある。
- 学術文献の潜在的な関連性を明らかにし，学術分野の構造を可視化すること。
- 大規模言語モデル（LLM）を活用したフレームワークが，従来の手法よりも解釈可能なトピックを生成し，高い定量性能を示した。
- 生成されたトピックは，学術文献中の意味のある言語パターンと一致することが確認された。
- 本フレームワークは，事前の知識なしに，雑誌の編集による二重分類構造を再現できることが示された。
Link: https://arxiv.org/abs/2510.16152
拡散を超えて：階層構造から階層構造への自己回帰によるfMRIから画像再構成 [cs.NI, cs.DC, cs.CL, cs.CY, cs.MA, cs.CV, cs.AI]目的：fMRI信号からの視覚刺激再構成
- 機械学習と神経科学を結びつける重要な課題であり，脳機能と視覚情報の関係解明に不可欠である。
- 既存手法では，固定された神経埋め込みが階層的な神経情報を十分に活用できていない点が課題である。
- 段階依存的な画像再構成に対応し，より効率的で認知に合致した再構成手法を開発すること。
- MindHierは，Multi-levelな神経埋め込み抽出，層間対応付け，スケール対応型ガイダンスという3つの要素で構成される。
- 実験の結果，MindHierは既存の拡散モデルよりも優れた意味的忠実度，高速な推論，そして決定的な結果を示した。
- MindHierは，全体的な意味を合成してから局所的な詳細を洗練するという，人間の視覚知覚に似た階層的な再構成プロセスを実現する。
Link: https://arxiv.org/abs/2510.22335
NetBurst：バーストと間欠的な時系列データのイベント中心予測 [cs.NI, cs.LG]目的：バーストと間欠的な時系列データの予測，異常検出，および履歴検索
- ネットワーク運用において，トラフィック量などの時系列データ分析は不可欠である。
- 既存の時系列モデルは，密で周期的なデータセット向けに設計されており，ネットワークデータのような不規則なデータには不向きである。
- ネットワークデータの特性に適した，イベント中心の表現学習パイプラインを構築し，運用タスクの性能向上を目指す。
- NetBurstは，時系列データをバーストのタイミングと大きさのストリームに分割し，単一の表現を学習することで，予測，異常検出，検索の3つの運用タスクを効率的に行う。
- 野性領域（Wild Regime）のデータにおいて，既存のモデルと比較して予測誤差を大幅に削減し，バースト分布との適合性も向上した。
- 異常検出においては，解釈性の高いクラスタリングを実現し，検索速度も改善された。
Link: https://arxiv.org/abs/2510.22397
時間多重化による物理ニューラルネットワークの層再利用 [cs.CL, cs.RO, cs.LG, nlin.AO]目的：物理ニューラルネットワークにおけるパラメータ効率の向上
- 次世代の計算技術として期待される物理ニューラルネットワークの発展が重要である。
- 既存の物理ニューラルネットワークはデジタルニューラルネットワークに比べて規模が小さく，性能向上が課題である。
- 物理ニューラルネットワークにおける層の再利用によって，パラメータ数を増やさずに性能を向上させることを目指す。
- 提案手法TIDAL-Netは，物理ニューラルネットワークの制限下で，層の時間多重化により効果的な深さを実現する。
- 画像分類や自然言語処理の実験において，従来の物理ニューラルネットワークに対して性能向上が確認された。
- TIDAL-Netは，物理ニューラルネットワークの学習速度の遅さを克服するための有望なアプローチである。
Link: https://arxiv.org/abs/2511.00044
生成モデルにおける適合率と再現率に関する新たな視点 [cs.AI]目的：生成モデルの評価方法
- 画像やテキスト生成モデルの成功により，その評価が重要視されている。
- 既存の評価指標はスカラー値に依存しており，詳細な分析が困難である。
- 適合率と再現率の曲線に基づく評価フレームワークを提案し，評価の精度向上を目指す。
- 提案手法は，二値分類の観点から適合率と再現率の曲線全体を推定する新しいフレームワークである。
- 推定リスクに関するミニマックス上限を導出し，既存の評価指標を包含することを示した。
- 様々な設定下での実験を通じて，得られた曲線の挙動を分析し，評価の際の洞察を提供した。
Link: https://arxiv.org/abs/2511.02414
DecompSR: 構成的空間推論の分解分析のためのデータセット [cs.AI]目的：構成的空間推論能力の分析を目的とした大規模ベンチマークデータセットおよび生成フレームワーク
- 空間推論は，ロボティクスやナビゲーションなど，様々なAI分野において重要な能力である。
- 既存のデータセットでは，構成的な推論能力を詳細に分析することが困難であった。
- 構成性の様々な側面を独立して変化させることで，LLMの空間推論能力を詳細に検証する。
- DecompSRは，500万件以上のデータポイントを含む，正確性が保証された大規模なデータセットである。
- LLMは，空間推論における生産性と系統性のある一般化に苦戦する一方，言語的変化にはよりロバストである。
- DecompSRは，LLMの構成的推論能力を詳細に調査するための厳密なベンチマークを提供し，AI研究の進展に貢献する。
Link: https://arxiv.org/abs/2511.02627
人間によるデモンストレーションに基づくコンピュータ利用エージェントの基盤構築 [cs.RO, cs.LG, cs.AI]目的：コンピュータ利用エージェントの基盤構築
- 自然言語による指示を画面要素に正確に結び付ける技術は，人間とコンピュータのより自然な対話を可能にする上で重要である。
- ウェブやモバイル環境に比べて，デスクトップ環境向けの高品質なデータセットが不足している。
- 高品質なデータセットを用いて，汎用的なコンピュータ利用エージェントの性能向上を目指す。
- GroundCUAは，87のアプリケーションと56Kのスクリーンショットを含む大規模なデスクトップ基盤データセットである。
- GroundCUAを用いて開発されたGroundNextモデルは，5つのベンチマークで最先端の結果を達成した。
- GroundNextは，従来のモデルよりも少ないデータで高性能を実現し，エージェント環境下でのOSWorldベンチマークでも良好な結果を示した。
Link: https://arxiv.org/abs/2511.07332
時系列予測のための分類と回帰を統合するマルチタスクフレームワークCaReTS [cs.RO, cs.LG]目的：時系列予測における分類と回帰の統合
- 時系列データは，経済，環境，医療など，様々な分野で重要な役割を担う。
- 既存の深層学習モデルは予測精度は高いものの，時間的な動向の解釈性に課題がある。
- 予測精度と解釈性の両立を目指し，分類と回帰を統合した新たなフレームワークを提案する。
- 提案手法CaReTSは，既存の最先端アルゴリズムと比較して，予測精度とトレンド分類性能の両方で優れていることが実証された。
- CaReTSは，デュアルストリーム構造により，マクロなトレンドとマイクロな変動を分離し，より解釈性の高い予測を可能にする。
- 不確実性を考慮した損失関数を用いることで，各タスクの貢献度を適応的に調整し，効果的な学習を実現している。
Link: https://arxiv.org/abs/2511.09789
接触豊富なロボット強化学習のための自己教師あり多感覚事前学習 [cs.RO, cs.LG]目的：接触豊かな操作におけるロボットの多感覚表現学習
- ロボットが高度な操作を行うには，視覚，力，固有受容性情報を統合することが不可欠である。
- 強化学習エージェントは，ノイズや動的な変化がある多感覚環境下での学習が困難である。
- タスク指向のポリシー学習に適した表現を学習することで，ロボットの制御性能を向上させる。
- 提案手法MSDPは，マスクされた自己符号化により，多感覚観測から表現を効率的に学習する。
- MSDPは，シミュレーションと実機において，様々な摂動下で頑健な性能と加速された学習を示す。
- 実機ロボットでは，わずか6,000回のオンラインインタラクションで高い成功率を達成する。
Link: https://arxiv.org/abs/2511.14427
PRInTS：長期的情報探索のための報酬モデリング [cs.AI, cs.CL, cs.LG]目的：長期的情報探索における報酬モデリング手法
- AIエージェントの中核能力であり，複雑な問題解決に不可欠である。
- 既存の報酬モデルは，長期間にわたる文脈の処理や多次元的な評価が困難である。
- より高精度な報酬モデルによって，長期的情報探索の性能向上を目指す。
- PRInTSは，ステップ品質の多次元評価と文脈圧縮を行う生成型報酬モデルである。
- FRAMES，GAIA，WebWalkerQA等のベンチマークで，オープンソースモデル及び専門エージェントの性能を向上させた。
- PRInTSを用いることで，大規模モデルに匹敵する性能をより小規模なモデルで達成できる。
Link: https://arxiv.org/abs/2511.19314
大規模言語モデルの潜在空間幾何構造の次元削減による可視化 [cs.LG]目的：大規模言語モデルの潜在空間幾何構造の分析と可視化
- 自然言語処理の進歩に不可欠であり，モデルの挙動理解と改善に繋がる。
- モデル内部の動作原理がブラックボックスであり，解釈可能性が低い。
- 潜在空間の幾何構造を可視化し，モデルの内部動作を理解することを試みる。
- GPT-2およびLLaMaモデルにおいて，潜在空間内に興味深い幾何学的パターンを発見した。
- 中間層において，アテンションとMLPコンポーネントの出力が明確に分離されていることを特定した。
- GPT-2の位置埋め込みが高次元の螺旋構造を持つこと，LLaMaにシーケンスごとの幾何学的パターンが存在することを示した。
Link: https://arxiv.org/abs/2511.21594
無責任なAI：大手テクノロジー企業がAI研究に与える影響と関連する影響 [cs.CY, cs.AI]目的：AI研究における大手テクノロジー企業の影響と，それに関連する倫理的・社会的・環境的影響の分析
- AI技術の発展は社会に大きな変革をもたらす可能性を持つが，倫理的・社会的な懸念も高まっている。
- AI研究における大手テクノロジー企業の過剰な影響力が，責任あるAI開発を阻害する要因となっている。
- 大手テクノロジー企業の影響力を抑制し，責任あるAI開発を促進するための戦略を提示することを目的とする。
- AIの急速な発展は大手テクノロジー企業によって牽引されているが，倫理的・持続可能性の観点から問題が指摘されている。
- AIの環境負荷や社会への負の影響は，大手テクノロジー企業の事業戦略と密接に関連していることが明らかになった。
- AI研究者は，大手テクノロジー企業の影響力に対抗し，責任あるAI開発を推進するための集団的行動を呼びかけられている。
Link: https://arxiv.org/abs/2512.03077
MobileFineTuner：リアルワールドの組み込みAIアプリケーションにおけるデバイス上LLMファインチューニングのためのモバイルネイティブフレームワーク [cs.LG]目的：モバイルデバイス上でのLLMファインチューニング
- LLMはクラウドからエッジへ移行しており，プライバシー保護とリアルタイム処理が重要となっている。
- 既存のファインチューニングフレームワークはモバイル環境での実行が難しく，リソース制約が課題である。
- モバイルデバイスでのLLMファインチューニングを可能にする実用的なフレームワークを開発する。
- MobileFineTunerはC++で実装され，モバイルリソースを考慮した効率的な学習を実現する。
- GPT-2，Gemma 3，Qwen2.5モデルを用いた実験により，標準的なファインチューニング手法と同等の性能を発揮し，メモリ使用量を大幅に削減できることが示された。
- ウェアラブルセンサーデータを用いた実証実験では，パーソナライズされた応答が可能となり，MobileFineTunerの実用性が確認された。
Link: https://arxiv.org/abs/2512.08211
SEDULity：分散型かつ安全なブロックチェーンのための学習証明フレームワーク（効率的な有用な作業を伴う） [cs.CR, cs.DC, cs.IT, cs.LG, math.IT]目的：分散型かつ安全なブロックチェーンにおける効率的な有用な作業のための学習証明フレームワーク
- ブロックチェーン技術は，金融取引だけでなく，様々な分野での応用が期待されており，その重要性は増している。
- 従来のPoWは高いセキュリティを誇るが，膨大な電力消費が持続可能性の課題となっている。
- PoUW/PoLの課題である，セキュリティ，分散化，効率性の問題を解決すること。
- 本研究で提案するSEDULityフレームワークは，MLモデルを効率的に学習しながら，ブロックチェーンのセキュリティを維持する。
- ブロックテンプレートを学習プロセスにエンコードし，解くのが難しいが検証が容易な有用な関数を設計することで，PoWパズルを代替する。
- 理論的な分析とシミュレーション結果により，フレームワークの性能と有効性が検証された。
Link: https://arxiv.org/abs/2512.13666
Transformerのスケーリング則における学習ダイナミクスと汎化性能の統一 [eess.SY, cs.RO, cs.SY, cs.CE, math.OC, cs.LG, cs.AI, cs.CL]目的：Transformerのスケーリング則における学習ダイナミクスと汎化性能の関係性の解明
- 大規模言語モデル(LLM)開発の基礎であり，計算資源の増加に伴う性能向上の予測に不可欠である。
- スケーリング則は経験的に検証されているものの，その理論的根拠は十分に解明されていない。
- 計算資源のスケールに伴う汎化誤差の収束を，実際のデータ分布に近い状況下で分析し，スケーリング則を理論的に説明する。
- Transformerの学習ダイナミクスを常微分方程式(ODE)として定式化し，カーネル挙動で近似することで，学習過程を厳密に分析した。
- 計算コスト ${\sf C}$ に対する超過リスクの減衰率が，初期最適化段階では指数関数的，ある閾値を超えるとべき乗則に従うことを示した。
- モデルサイズ，学習時間，データセットサイズそれぞれに対する独立したスケーリング則を導出し，汎化性能の限界を明らかにした。
Link: https://arxiv.org/abs/2512.22088
MPK：テンソルプログラムをメガカーネル化するコンパイラとランタイム [cs.DC, cs.LG, cs.PL]目的：マルチGPUモデル推論を単一の高性能メガカーネルに自動変換する手法
- 深層学習モデルの規模拡大に伴い，GPUリソースの効率的な活用が重要となっている。
- 従来の演算子ごとのカーネル実行モデルでは，演算子間のオーバーヘッドが大きく，性能の限界がある。
- 演算子間のソフトウェアパイプライン化や通信・計算のオーバーラップを可能にし，性能向上を目指す。
- MPKは，ストリーミングマルチプロセッサ（SM）レベルのグラフ表現を用いて，データ依存性を詳細に捉える。
- その結果，従来のカーネルごとの実行モデルでは困難だった最適化が可能となり，推論遅延を最大1.7倍削減した。
- MPKは，既存のプログラミングモデルの柔軟性を維持しつつ，開発者の負担を最小限に抑えたエンドツーエンドのカーネル融合を実現する。
Link: https://arxiv.org/abs/2512.22219
HiGR：Tencentにおける産業規模の階層型生成スレート推薦フレームワーク [cs.IR, cs.AI]目的：産業規模のスレート推薦のための階層型生成フレームワーク
- オンラインプラットフォームにおいてスレート推薦は一般的であり，ユーザー体験に大きな影響を与える。
- 既存の生成推薦手法は，大規模なスレート推薦において，アイテム間の意味的関係の混乱や効率性の問題がある。
- 本研究は，効率的な計画と高品質なスレート生成を可能にする，新たなスレート推薦フレームワークを提案する。
- HiGRは，共有意味を捉えるPrefix-Contrastive Residual Quantized VAE (PCRQ-VAE) により，構造化されたSIDを学習する。
- 階層型スレートデコーダ (HSD) を用いることで，推論遅延を削減し，グローバルなスレート構造の計画を可能にする。
- オフライン実験で最先端のベースラインを10%以上上回り，オンラインA/Bテストで視聴時間と動画再生数をそれぞれ1.22%，1.73%改善した。
Link: https://arxiv.org/abs/2512.24787
会話における因果感情認識：文脈飽和と談話マーカーの証拠 [cs.CL, cs.AI]目的：会話における感情認識のモデル選択の影響と，認識結果と解釈可能な談話レベルのパターンとの関連性
- 人間らしいコミュニケーションを実現するためには，会話における感情を正確に認識することが不可欠である。
- 既存の研究では，感情認識のモデル選択や文脈の影響が十分に解明されていない。
- 会話文脈のどの程度の範囲が感情認識に有効か，また談話マーカーが感情とどのように関連するかを明らかにすること。
- 感情認識において，会話文脈が最も重要な要素であるが，直近10～30ターンの文脈で性能が飽和する。
- 階層的な文表現は単一発話での性能向上に寄与するが，ターンレベルの文脈が利用可能になるとその効果は消失する。
- 外部の感情辞書の統合は感情認識の性能向上には繋がらず，事前学習済みのエンコーダーが十分な感情信号を捉えていると考えられる。
- 単純なモデルでも高い性能（4-way: 82.69%, 6-way weighted F1: 67.07%）を達成でき，将来のターンに依存しない因果的な感情認識が可能である。
- 5,286の談話マーカーの出現を分析した結果，感情とマーカーの位置には有意な関連性が見られた（p < .0001）。
- 悲しみの発話は，他の感情と比較して左端の談話マーカーの使用頻度が低い（21.9% vs 28-32%）。
Link: https://arxiv.org/abs/2601.00181
理性の幾何学：妥当な数学的推論のスペクトル的特徴 [cs.LG, cs.AI, cs.CL, cs.LO]目的：言語モデルにおける真の推論能力の検証
- 大規模言語モデルの性能向上に伴い，その推論能力の信頼性評価が不可欠となっている。
- 既存の検証手法は，学習コストが高いか，出力に基づき脆いという課題がある。
- TransformerのAttention機構から推論のスペクトル的特徴を抽出し，検証手法を確立する。
- 妥当な数学的推論は，TransformerのAttentionに測定可能なスペクトル的特徴をもたらすことが示された。
- 4つの診断指標（Fiedler値，HFER，スペクトルエントロピー，滑らかさ）を用いて，高精度（85-96%）な分類が可能である。
- スペクトル信号は論理的な整合性を捉え，Attention機構のデザインが推論品質のエンコードに関与することが確認された。
Link: https://arxiv.org/abs/2601.00791
回転不変な高次主成分分析類似特徴量：回転を考慮した詳細な形状記述子 [cs.CV, cs.LG]目的：回転を考慮した形状記述
- 形状認識や比較において，回転の影響を排除することが重要である。
- 従来の形状記述子は，複雑な形状に対して十分な精度が得られない場合がある。
- 高次主成分分析類似特徴量を用いて，より高精度な回転不変形状記述を実現する。
- 主成分分析を拡張し，高次モーメントや多項式 times ガウス関数を用いることで，任意の高精度な形状記述子を生成する。
- 提案手法は，分子形状記述子や画像/3Dスキャンにおける物体認識，3Dシーン理解などへの応用が期待される。
- 回転を考慮した形状比較において，コストのかかる最適化処理を回避し，効率的な類似度評価を可能にする。
Link: https://arxiv.org/abs/2601.03326
FronTalk：マルチモーダルフィードバックによる会話型コード生成としてのフロントエンド開発のベンチマーク [cs.CL, cs.CL, cs.CV, cs.LG, cs.SE]目的：フロントエンド開発における会話型コード生成のベンチマーク
- ウェブ開発において，フロントエンドはユーザインターフェースを構築する上で不可欠であり，その効率化は重要な課題である。
- 従来のコード生成研究では，視覚的な情報（スケッチやモックアップ）の活用が十分ではなく，ユーザの意図を正確に反映することが困難であった。
- 本研究は，マルチモーダルフィードバックを活用し，より自然で効率的なフロントエンド開発のコード生成を目指す。
- FronTalkベンチマークは，実際のウェブサイトから抽出された100件の会話データを提供し，多様なドメインを網羅する。
- 評価結果から，モデルは過去の実装内容を忘却し，機能を上書きしてしまうという課題が明らかになった。
- AceCoderを用いることで，この忘却問題をほぼ解消し，パフォーマンスを最大9.3%向上させることに成功した。
Link: https://arxiv.org/abs/2601.04203
ノイズを活用：LLM効率的ファインチューニングのための効果的な下降への転換 [cs.CL, cs.LG]目的：大規模言語モデルのメモリ効率の良いファインチューニング手法
- 大規模言語モデルの性能向上は重要だが，計算資源の制約が大きい。
- 従来のファインチューニングはバックプロパゲーションのメモリ負荷が高い。
- ランダムな摂動を効果的に活用し，高速な収束を目指す。
- 提案手法は，ランダムな摂動からより効果的な下降方向を導き出す。
- MeZO-GVとMeZO-Greedyという二つの手法を開発し，理論的にも収束性向上を示す。
- 実験により，様々な規模のLLMで既存手法を上回り，特にOPT-13Bでは顕著な性能向上を達成した。
Link: https://arxiv.org/abs/2601.04710
時間的柔軟性を利用したマルチエージェント経路再計画の事前計算 [cs.AI]目的：マルチエージェント経路再計画の効率的な手法
- ロボットや交通システムなど，複数主体が協調するシステムの実現には不可欠な研究分野である。
- エージェントの遅延発生時に，全体計画の効率性や実現可能性が損なわれる問題が存在する。
- 遅延エージェント単独の再計画による問題を回避し，カスケード的な遅延を抑制する手法を開発する。
- 提案手法FlexSIPPは，遅延エージェントの可能な計画を事前計算することで，迅速な再計画を可能にする。
- 他のエージェントの時間的柔軟性を活用することで，カスケード的な遅延を回避し，効率的な計画を実現する。
- 実世界の鉄道ネットワークやMovingAI MAPFベンチマークセットでの実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2601.04884
逆フローマッチング：拡散とフローポリシーを用いたオンライン強化学習の統一的フレームワーク [cs.ET, cs.CL, cs.LG, cs.SY, eess.SY]目的：拡散モデルおよびフローポリシーを用いたオンライン強化学習の効率的な学習
- 強化学習は，複雑な意思決定問題の解決に不可欠であり，その性能向上は重要な課題である。
- 従来の強化学習では，目標となるボルツマン分布からの直接サンプルが得られないため，効率的な学習が困難である。
- 本研究は，直接サンプルなしで拡散モデルとフローモデルを学習するための統一的なフレームワークを提示し，その学習効率と安定性を向上させる。
- 逆フローマッチング（RFM）は，ノイズ期待値系列と勾配期待値系列という既存の手法を統一的に捉えることができる。
- RFMは，拡散モデルだけでなくフローポリシーにも適用可能であり，ボルツマン分布へのターゲット設定能力を拡張する。
- オンライン強化学習においてフローポリシーにRFMを適用した結果，拡散ポリシーのベースラインと比較して性能が向上した。
Link: https://arxiv.org/abs/2601.08136
滑らかで解釈可能な正規化フローのための解析的双射 [cs.RO, cs.LG, hep-lat]目的：正規化フローにおける表現力のある可逆なスカラー双射の探索
- 正規化フローは，複雑な確率分布のモデリングにおいて重要な役割を果たす。
- 既存の方法は，滑らかさ，表現力，計算効率の間にトレードオフが存在する。
- 解析的双射を用いることで，これらの課題を克服し，より高性能なフローを構築することを目指す。
- 本研究で提案する解析的双射は，滑らかさ，定義域，解析的逆関数の全ての特性を満たす。
- これらの双射をカップリングフローに組み込むことで，スプラインと同等以上の性能が確認された。
- また，新しいアーキテクチャであるラジアルフローは，パラメータ数を大幅に削減しつつ，高い安定性と解釈可能性を示した。
Link: https://arxiv.org/abs/2601.10774
CoVar：信頼度と分散に基づく準教師あり学習のための擬似ラベル選択 [cs.SI, cs.HC, cs.IR, cs.LG, cs.AI]目的：準教師あり学習における信頼な擬似ラベルの選択
- 教師あり学習に比べデータ収集コストが低く，学習効率を高められるため重要である。
- モデルの過信やクラス不均衡により，単純な信頼度閾値では適切なラベル選択が困難である。
- 信頼度と残差クラス分散を同時に評価し，ロバストな擬似ラベル選択を実現する。
- CoVarは，信頼度と分散を二次元空間に埋め込み，SVDベースのスペクトル緩和を用いて信頼性の高い予測と低い予測を分離する。
- クラスごとのガウス重み付けにより，分離をサンプルごとの学習重みに変換し，既存の半教師あり学習パイプラインに統合可能である。
- PASCAL VOC 2012やCityscapes等の実験で，既存手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2601.11670
説明可能なASPに関するXAIの視点：手法，システム，および展望 [cs.CY, cs.CL, eess.SY, cs.SY, math.OC, cs.AI, cs.HC, cs.LO]目的：説明可能なASPに関する手法，システム，および将来の研究方向の概観
- 記号的AIにおいて，ASPは広く利用されており，その重要性は増している
- 既存の説明アプローチは限定的であり，すべての利用者のニーズに応えられていない
- ASPの説明能力の向上と，XAIの視点からの研究方向の明確化を目指す
- 本調査では，ASPの説明の種類と，ユーザーからの説明要求との関連性をXAIの視点から概観した
- 既存の理論とツールによる説明の網羅性を評価し，現在のASP説明アプローチのギャップを特定した
- 今後の研究方向を提示し，説明可能なASPの発展に貢献することを目的としている
Link: https://arxiv.org/abs/2601.14764
特徴ノイズに対するエキスパート混合モデルの頑健性 [cs.LG]目的：特徴ノイズ下におけるエキスパート混合モデルの頑健性
- 大規模言語モデルの性能向上には，モデルの規模だけでなく，その構造も重要である。
- 従来のモデルでは，特徴ノイズに対する頑健性が十分でない場合がある。
- 本研究は，エキスパート混合モデルが特徴ノイズに対して持つ頑健性を検証する。
- エキスパート混合モデルは，疎な活性化によりノイズをフィルタリングする効果を持つことが示された。
- 密な推定器と比較して，特徴ノイズ下で汎化誤差が低減し，摂動に対する頑健性が向上した。
- 合成データと自然言語タスクでの実験により，疎なモジュール計算の効率性と頑健性が確認された。
Link: https://arxiv.org/abs/2601.14792
堅牢なプライバシー：検証可能なロバスト性による推論段階のプライバシー [cs.LG, cs.AI, cs.CR]目的：推論段階におけるプライバシー保護
- 機械学習モデルのプライバシー保護は，個人情報の漏洩を防ぐ上で不可欠である。
- モデルの予測から機密属性の推論や，学習データの再構成といったリスクが存在する。
- 推論インターフェースからの情報漏洩を抑制し，プライバシーと精度の両立を目指す。
- 提案手法「Robust Privacy (RP)」は，モデルの予測が入力の近傍で安定であることを保証することでプライバシーを保護する。
- RPを用いることで，属性推論の精度が低下し，モデル反転攻撃の成功率が大幅に減少することが確認された。
- RPはDP-SGDやランダム化応答と比較して，プライバシーと精度において優れたトレードオフを実現する。
Link: https://arxiv.org/abs/2601.17360
LLM生成データにおける品質と信頼性評価に関する調査 [cs.AI, cs.LG]目的：LLM生成データの品質と信頼性評価に関する体系的な分類
- モデル開発・評価には大量のデータが必要であり，その収集コストが課題となっている。
- LLM生成データの品質評価は，生成手法に焦点が当たり，データ自体の評価が不足している。
- LLM生成データの品質と信頼性を内発的に評価する枠組みを提示し，評価方法の改善を目指す。
- LLM Data Auditorフレームワークを提案し，6つのモダリティにおけるデータ生成方法を記述した。
- 生成データの品質と信頼性を評価するための内発的指標を，二つの次元から体系的に分類した。
- 既存の評価手法の欠点を分析し，データ生成評価改善のための具体的な提言を行った。
Link: https://arxiv.org/abs/2601.17717
物理を考慮したTiny-Mamba Transformerによる回転機械の早期故障警告のための信頼性校正エッジIoT [cs.HC, cs.MM, cs.LG, cs.AI]目的：回転機械の早期故障警告のための信頼性校正エッジIoTフレームワーク
- 産業用IoTは予防保全に不可欠であり，設備の稼働率向上とコスト削減に貢献する。
- エッジデバイスでの計算資源の制約と，誤報を抑制する必要性が課題である。
- 限られた計算資源下で，高精度かつ信頼性の高い故障予測を実現すること。
- 提案手法は，CWRU，Paderborn，XJTU-SY等のデータセットで，PR-AUCの改善が確認された。
- 制御された誤報許容度下で，故障検出遅延を削減することに成功した。
- 構造化された干渉，メタデータ不確実性，複合故障，ドメイン転移に対してロバストであることが示された。
Link: https://arxiv.org/abs/2601.21293