arXiv雑要約

AI - 2025/12/16 公開

  • AgentSHAP:モンテカルロ・シャプレイ値推定によるLLMエージェントのツール重要度解釈 [cs.AI, cs.CL]目的:LLMエージェントにおけるツール重要度の解釈
    • LLMエージェントの活用が進む中で,その意思決定プロセスの透明性が重要視されている。
    • LLMエージェントがどのツールを利用して回答を生成したかの明確な説明が不足している。
    • LLMエージェントのツール利用における重要度を定量的に評価し,説明可能性を高める。
    • 本研究では,初のLLMエージェント向けツール重要度解釈フレームワーク「AgentSHAP」を提案した。
    • AgentSHAPは,モンテカルロ・シャプレイ値を用いて,ツール部分集合ごとの応答を比較し,公平な重要度を算出する。
    • 実験結果から,AgentSHAPは一貫性のあるスコアを示し,重要なツールとそうでないツールを区別できることが示された。

    Link: https://arxiv.org/abs/2512.12597

  • 誤差のない線形注意機構は無償の恩恵:連続時間ダイナミクスからの厳密解 [eess.SY, cs.SY, math.OC, eess.SY, cs.SY, cs.LG]目的:長文脈言語モデルにおける線形時間注意機構の理論的基盤
    • Transformerモデルの性能向上には,計算コストの抑制が不可欠である。
    • 従来のsoftmax注意機構は,文脈長が長くなるにつれて計算量が指数関数的に増加する。
    • 線形時間で計算可能な注意機構を開発し,高性能かつスケーラブルなモデルを実現すること。
    • 誤差のない線形注意機構(EFLA)が,数値的に安定かつ並列化可能であることを理論的に示した。
    • EFLAは,デルタ則の一般化された定式化であり,連続時間ダイナミクスを用いて厳密解を導出した。
    • 実験により,EFLAはノイズの多い環境下でも優れた性能を示し,DeltaNetよりも低いパープレキシティと高いベンチマークスコアを達成した。

    Link: https://arxiv.org/abs/2512.12602

  • 小売業における因果推論とモデル解釈性ツール [cs.LG]目的:小売業における売上インサイト創出のためのモデル解釈性と因果推論の適用方法
    • 小売業は多岐にわたる部門を持ち,データ分析による改善が重要である。
    • 既存の機械学習モデルは予測精度は高いものの,解釈性に乏しいという課題がある。
    • 因果推論とモデル解釈性を活用し,売上に関する因果関係を明らかにすることを目指す。
    • 解釈可能なモデルはSHAP値の分散が小さく,より安定した解釈を可能にする。
    • 二重機械学習アプローチにより,交絡因子の影響を考慮した正確な因果効果の符号を推定できる。
    • 本研究は,eコマースや小売業における因果推論と解釈性の適用に関する指針を提供する。

    Link: https://arxiv.org/abs/2512.12605

  • 大規模言語モデルにおける人間的学習:明白な記録と最大エントロピー法発見によるアプローチ [cs.CL, cs.AI]目的:大規模言語モデルにおける学習能力の向上
    • 大規模言語モデルは自然言語処理の発展に不可欠であり,その応用範囲は広い。
    • 稀な事例や未学習データへの対応が難しく,汎化性能が課題となっている。
    • 人間のように稀な経験から学習し,多様な解決策を発見することを目指す。
    • 提案手法は,未学習の質問に対する網羅性がランダムベースラインよりも優れていることが確認された。
    • 明白な記録により,単一または稀な事例からも持続的な学習が可能となる。
    • 最大エントロピー法発見により,多様で表現力の低い戦略の保存が実現し,汎化性能が向上する。

    Link: https://arxiv.org/abs/2512.12608

  • スペクトルセンチネル:ブロックチェーン上のスケッチされたランダム行列理論による,スケーラブルでビザンチン耐性のある分散型連合学習 [cs.NI, cs.CL, cs.OS, cs.LG, cs.DC]目的:ビザンチン攻撃に対するロバスト性,スケーラビリティ,分散型連合学習の実現
    • 連合学習は,プライバシー保護と分散データ活用を両立する技術であり,その重要性は増している。
    • 分散型連合学習は,悪意のあるクライアントによる勾配の改ざん(ビザンチン攻撃)に対して脆弱である。
    • 大規模モデルにおけるビザンチン攻撃への効率的な防御と,その性能評価を可能にすること。
    • 提案手法「スペクトルセンチネル」は,ランダム行列理論に基づき,勾配の共分散スペクトルを分析することで,ビザンチン攻撃を検出する。
    • メモリ効率の良いスケッチング技術とデータ依存的なMPトラッキングを組み合わせることで,最大15億パラメータのモデルに対してもスケーラブルな検出を実現した。
    • Polygonネットワークへの実装と実験により,既存手法と比較して平均78.4%の精度を達成し,その有効性を実証した。

    Link: https://arxiv.org/abs/2512.12617

  • 大規模言語モデルにおける三段論理的推論の理解:形式論理と自然言語の視点から [cs.CL, cs.AI]目的:大規模言語モデルにおける三段論理的推論能力
    • 論理的推論は,AIの知能を測る上で重要な指標であり,高度な問題解決能力の基礎となる。
    • 大規模言語モデルは,自然言語を理解する能力は向上しているものの,形式論理に基づいた厳密な推論に課題がある。
    • 大規模言語モデルが形式論理的推論能力を獲得しているかどうかを検証し,その方向性を明らかにする。
    • 調査の結果,モデルによって三段論理的推論能力にばらつきが見られた。
    • 一部のモデルでは,形式論理における完璧なパフォーマンスが確認され,大規模言語モデルが形式論理的推論メカニズムとなりつつある可能性が示唆された。
    • しかし,人間の推論における微妙なニュアンスを捉えているとは言い難く,今後の課題も残る。

    Link: https://arxiv.org/abs/2512.12620

  • CoLSE:結合累積分布関数を用いた単一テーブルのカーディナリティ推定のための軽量かつ堅牢なハイブリッド学習モデル [cs.DB, cs.LG]目的:単一テーブルのカーディナリティ推定
    • クエリ最適化において,カーディナリティ推定の精度は実行計画の効率に直結する重要な要素である。
    • 既存の最先端モデルは,精度,効率,メモリフットプリントのバランスを取ることが困難である。
    • CoLSEは,精度,学習時間,推論レイテンシ,モデルサイズのトレードオフを改善することを目指す。
    • CoLSEは,コプラ理論に基づく新しいアルゴリズムを用いてクエリ間隔における結合確率を直接モデル化する。
    • 軽量なニューラルネットワークを統合することで,残差推定誤差を修正する。
    • 実験結果は,CoLSEが既存の最先端手法よりも優れた性能を示すことを示している。

    Link: https://arxiv.org/abs/2512.12624

  • ORIBA:LLMを活用したロールプレイチャットボットがオリジナルキャラクターアーティストの創造性支援ツールとなりうる可能性 [cs.HC, cs.AI]目的:オリジナルキャラクター開発における創造性支援
    • 近年,生成AIの発展により創造性支援の新たな可能性が生まれている。
    • 生成AIの利用は,視覚アーティストコミュニティにおいて倫理的な懸念を引き起こしている。
    • アーティストの創造性を尊重しつつ,AIがキャラクター開発を支援する手法を模索する。
    • オリバは,アーティストが自身のオリジナルキャラクターとロールプレイを行うことを可能にするチャットボットである。
    • 研究の結果,オリバはアーティストの想像力を刺激し,多面的なキャラクター属性と強い絆の形成を促進することが示された。
    • 本研究は,アーティストの視点に基づいたAIシステムの設計に関する洞察を提供し,AIがアーティストの創造的実践を強化する可能性を示唆する。

    Link: https://arxiv.org/abs/2512.12630

  • DiG:マルチモーダル大規模言語モデルにおける詳細な知覚能力向上のための差分接地 [cs.RO, cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおける詳細な視覚知覚と精密な空間推論能力の向上
    • 近年のマルチモーダル大規模言語モデルの発展は目覚ましいが,視覚と言語の高度な理解が求められている。
    • 既存モデルは,詳細な視覚情報の把握や空間的な関係性の理解において限界がある。
    • 類似画像ペア間の差異を特定・局所化することで,モデルの詳細な視覚知覚能力を向上させることを目指す。
    • DiG(差分接地)という新しいプロキシタスクフレームワークを提案し,モデルに類似画像ペア間の差異を識別・局所化させることで,詳細な視覚知覚を学習させる。
    • 高品質なペア画像データセットを自動生成する3Dレンダリングパイプラインを開発し,スケーラブルな学習を可能にした。
    • カリキュラム学習により,差異の複雑さを段階的に増加させることで,学習の安定性を高め,様々な視覚知覚ベンチマークで性能が大幅に向上した。

    Link: https://arxiv.org/abs/2512.12633

  • モバイルGUIエージェントのためのモジュール型マルチパス対応オフラインベンチマーク [cs.AI]目的:モバイルGUIエージェントの評価手法
    • モバイルGUIエージェントは,人間とコンピュータのインタラクションに革新をもたらす可能性を秘めている。
    • 既存の評価方法は,単一の経路に依存するか,再現性が低いという課題がある。
    • モジュール化と複数経路に対応したオフラインベンチマークにより,評価の精度と効率を向上させる。
    • MobiBenchは,人間の評価者との合意率が94.72%に達し,オンラインベンチマークと同等の精度を実現した。
    • MobiBenchは,静的なオフラインベンチマークの再現性とスケーラビリティを維持しながら,高精度な評価を可能にする。
    • モジュールレベルの分析から,モバイルGUIエージェントの設計に関する知見や,LFMの限界が明らかになった。

    Link: https://arxiv.org/abs/2512.12634

  • Torch Geometric Pool:グラフニューラルネットワークにおけるプーリングのためのPyTorchライブラリ [eess.SY, cs.SY, cs.CL, cs.LG]目的:グラフニューラルネットワークにおける階層的プーリングのためのライブラリ
    • グラフニューラルネットワークは,複雑な関係性を持つデータの分析に有用である。
    • 最適なプーリング手法の選択は,タスクとデータに依存するため困難である。
    • 多様なプーリング手法を容易に試すためのライブラリの提供を目的とする。
    • Torch Geometric Pool(tgp)は,PyTorch Geometric上に構築されたプーリングライブラリである。
    • tgpは,一貫性のあるAPIとモジュール設計により,様々なプーリング演算子を提供する。
    • ベンチマークの結果,最適なプーリング演算子はタスクとデータに依存することが示された。

    Link: https://arxiv.org/abs/2512.12642

  • 価値を意識したマルチエージェントシステム [cs.AI, cs.MA]目的:AIにおける価値認識の概念
    • AI技術の発展に伴い,人間の価値観との整合性が重要視されている。
    • 従来の価値整合問題だけでは,AIの複雑な行動原理の説明が不十分である。
    • AIが人間価値を理解し,行動原理を説明するための指針を提示する。
    • 本研究では,価値認識を構成する3つの柱,すなわち価値の学習・表現,価値整合,そして価値に基づく説明可能性を提示した。
    • 形式意味論を用いた人間の価値観の学習と表現方法について検討した。
    • 個々のエージェントとマルチエージェントシステムの価値整合を確保する方法を提案した。

    Link: https://arxiv.org/abs/2512.12652

  • ウルドゥー小説における作者の文体モデリング:キャラクター相互作用グラフとグラフニューラルネットワークの利用 [cs.CL, cs.LG, cs.SI]目的:ウルドゥー小説における作者の文体識別
    • 言語学や文学研究において,作者の文体は重要な研究対象であり,作品の理解を深める鍵となる。
    • 低リソース言語であるウルドゥー語の小説においては,物語構造に着目した作者文体分析が十分に進んでいない。
    • 物語構造のみから作者の文体を推定可能か検証し,新たな文体分析手法を提案すること。
    • キャラクター間の相互作用をグラフ構造で表現することで,ウルドゥー小説の文体識別性能が向上することが示された。
    • グラフニューラルネットワークを用いた学習表現は,既存の手法と比較して有意に高い識別精度を達成した。
    • 厳密な著者認識評価において,最高で0.857の精度を記録し,物語構造が文体識別に有効であることが確認された。

    Link: https://arxiv.org/abs/2512.12654

  • 超音波画像における解剖学的誘導表現学習:Transformerベースネットワークを用いた甲状腺結節セグメンテーション [cs.CV, cs.AI]目的:甲状腺結節のセグメンテーション
    • 甲状腺結節は臨床的に重要であり,正確な診断と治療計画に不可欠である。
    • 結節と周囲組織の境界が曖昧で,データ不足が自動セグメンテーションの課題となる。
    • Transformerネットワークを用いて,結節のセグメンテーション精度と汎化性能の向上を目指す。
    • 提案手法SSMT-Netは,教師なし学習で特徴抽出能力を高め,半教師あり学習でセグメンテーション,腺分割,結節サイズ推定を同時に最適化する。
    • TN3KおよびDDTIデータセットにおける評価で,SSMT-Netは最先端手法を上回り,高い精度とロバスト性を示した。
    • 本手法は,臨床応用における潜在能力を示唆している。

    Link: https://arxiv.org/abs/2512.12662

  • 深層ニューラルネットワークにおける特殊化されたサブネットと正則化のバランスを取る手法:PerNodeDrop [cs.LG, cs.AI, cs.CV]目的:深層ニューラルネットワークにおける過学習抑制
    • 深層ニューラルネットワークは高い表現力を有するが,過学習しやすいという課題がある。
    • 従来の正則化手法は,ノイズの均一性により有益な協適応も抑制してしまう可能性がある。
    • 入力に特化したノイズを注入することで,協適応を維持しつつ過学習を抑制することを目指す。
    • PerNodeDropは,各ノードに固有の変動を与えることで,既存手法の均一的なノイズ注入を改善する。
    • 実験結果から,PerNodeDropは訓練データと検証データ間の性能差を縮小し,未知データに対する信頼性を向上させることが示された。
    • 画像,テキスト,音声のベンチマークにおいて,従来のノイズベース正則化手法と比較して汎化性能が向上した。

    Link: https://arxiv.org/abs/2512.12663

  • DynaGen:動的サブグラフと生成正則化による時間的知識グラフ推論の統合 [cs.LG, cs.AI]目的:時間的知識グラフ推論における欠損した事実の補完
    • 知識グラフは,現実世界のエンティティとそれらの関係を構造的に表現する上で重要である。
    • 既存手法は,補間推論における文脈モデリングの限界,および外挿推論における認知的な一般化バイアスを抱えている。
    • DynaGenは,これらの課題に対処し,時間的知識グラフ推論の性能を向上させることを目指す。
    • DynaGenは,補間推論においてエンティティ中心の動的サブグラフを構築し,進化する構造的文脈を捉える。
    • 外挿推論においては,条件付き拡散過程を適用し,表面的パターンではなく,根本的な進化原理を学習する。
    • 6つのベンチマークデータセットにおいて,DynaGenは最先端の性能を達成し,補間・外挿ともに大幅なMRRスコアの改善を示した。

    Link: https://arxiv.org/abs/2512.12669

  • 拡散ブリッジのための代理ODEモデル構築に関するアプローチ [cs.LG]目的:拡散ブリッジの効率的かつ解釈可能な代理モデルの構築
    • 生成モデルにおいて,拡散モデルやシュレディンガーブリッジは高性能だが,計算コストが高い。
    • 過剰パラメータ化されたニューラルネットワークが最適ダイナミクスを記述し,SDEの効率的な積分が困難。
    • より単純で高速,かつ柔軟なダイナミクスの近似モデルを構築することで計算コストを削減する。
    • 提案手法であるSINDy-FMとDSBM-NeuralODEは,ガウス輸送タスクとMNIST潜在空間変換で競争力のある性能を発揮した。
    • 特にSINDy-FMは,パラメータ数を大幅に削減し,ほぼ瞬時の推論を可能にした。
    • これにより,実用的な展開が可能な,扱いやすく高性能なブリッジモデルの実現に道を開く。

    Link: https://arxiv.org/abs/2512.12671

  • Scone:統一的な理解・生成モデリングによる,主題主導型画像生成における構成と識別性の架橋 [cs.CV, cs.AI]目的:主題主導型画像生成における構成と識別性の向上
    • 画像生成技術は,現実世界の複雑な視覚的状況を再現するために不可欠であり,その応用範囲は広い。
    • 既存の主題主導型画像生成技術は,複数の候補がある場合に正しい主題を識別する識別性に課題があった。
    • 本研究は,構成と識別性を統合的に扱うことで,より複雑で写実的な画像生成を可能にすることを目的とする。
    • Sconeは,理解エキスパートと生成エキスパートを連携させ,主題の識別性を保ちながら干渉を最小化する。
    • 二段階の学習スキームにより,まず構成を学習し,次にセマンティックアライメントとアテンションベースのマスキングを通じて識別性を強化する。
    • SconeEvalというベンチマークを導入し,多様なシナリオで構成と識別性を評価することで,既存のオープンソースモデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2512.12675

  • 因果言語モデルのテキスト分類におけるファインチューニング:埋め込みベースと命令ベースのアプローチ [cs.CL, cs.AI]目的:テキスト分類のための因果言語モデルの効率的なファインチューニング戦略
    • 大規模言語モデルは,自然言語処理の様々なタスクで高い性能を示すため,その活用が重要である。
    • 大規模言語モデルのファインチューニングには,多くの計算資源が必要となるという課題がある。
    • 限られた計算資源下で,大規模言語モデルを効率的にファインチューニングし,高い分類性能を実現すること。
    • 埋め込みベースの手法は,命令チューニングの手法と比較してF1スコアにおいて有意に高い性能を示した。
    • 埋め込みベースの手法は,ドメイン固有のモデル(BERTなど)と同等かそれ以上の性能を達成した。
    • 因果言語モデルの内部表現を直接活用し,効率的なファインチューニング技術を組み合わせることで,限られた計算資源下でも高い分類性能が得られる。

    Link: https://arxiv.org/abs/2512.12677

  • Memoria:パーソナライズされた対話型AIのためのスケーラブルなエージェント記憶フレームワーク [cs.AI, cs.CL]目的:パーソナライズされた対話型AIのためのスケーラブルなエージェント記憶フレームワーク
    • 大規模言語モデルの活用が進む中で,対話における継続性やパーソナライズが重要課題となっている。
    • LLMはステートレスであるため,長期的な文脈やユーザー情報を保持・活用することが難しい。
    • LLMにエージェントのような持続性を持たせ,対話を通じてユーザー情報を学習・活用すること。
    • Memoriaは,動的なセッション要約と重み付きナレッジグラフに基づくユーザーモデリングを組み合わせることで,短期的な対話の整合性と長期的なパーソナライズを実現する。
    • Memoriaは,LLMのトークン制限内で動作し,スケーラブルなパーソナライズされた対話型AIを可能にする。
    • 本研究は,ステートレスなLLMとエージェント記憶システム間のギャップを埋め,適応的で進化するユーザーエクスペリエンスを提供する。

    Link: https://arxiv.org/abs/2512.12686

  • プロンプトエンジニアリングの理論的基礎:ヒューリスティクスから表現力へ [cs.LG, cs.AI, cs.CL]目的:プロンプトによるモデル挙動の変化の理論的解明
    • 大規模言語モデルの性能はプロンプトに大きく依存するが,そのメカニズムは未だ不明な点が多い。
    • プロンプトは経験則に頼る部分が大きく,その設計には体系的な理論的根拠が欠けている。
    • プロンプトのみで多様な振る舞いを実現できる理論的枠組みを構築し,その限界を明らかにすること。
    • 固定されたTransformerモデルにおいて,プロンプトを外部プログラムとして捉えることで,選択的な情報経路構築と局所的な演算を説明できる。
    • プロンプトの長さや精度といった制約下でのトレードオフを形式的に分析するための出発点を提供できる。
    • 単一のバックボーンで幅広いターゲット動作を近似できることを理論的に証明した。

    Link: https://arxiv.org/abs/2512.12688

  • 視覚言語モデルにおける教師ありファインチューニングの役割の再評価:実証研究 [cs.LG, cs.CL, cs.CV]目的:視覚言語モデルの推論能力に対する教師ありファインチューニングと強化学習の比較
    • 視覚言語モデルは,画像とテキストを理解するAIの重要な要素であり,様々な応用が期待されている。
    • 強化学習に焦点が当たり,教師ありファインチューニングの有効性が過小評価されているという問題がある。
    • モデル容量,データ規模,データ分布が推論能力に与える影響を明らかにすること。
    • 教師ありファインチューニングは,小規模または弱い視覚言語モデルにおいて,推論能力を確実に引き出す上で有効である。
    • 教師ありファインチューニングは,強化学習よりも少ないデータ量で同等またはより良い推論性能を達成できる。
    • 教師ありファインチューニングは,強化学習よりも異なるモダリティへの汎化能力が高い。

    Link: https://arxiv.org/abs/2512.12690

  • ウェブ環境における自律エージェントのための行動認識型ツリー探索 [cs.AI, cs.CL, cs.LG]目的:ウェブ環境における自律エージェントのための行動認識型ツリー探索手法
    • ウェブ環境は情報探索の重要な場であり,自律エージェントによる効率的な操作が求められている。
    • 既存のLLMベースエージェントは,長期的な影響を考慮せず,誤った操作からの復旧が困難である。
    • 安全なバックトラック機構と多様な行動候補生成により,ウェブ環境での課題解決を目指す。
    • WebOperatorは,報酬と安全性を考慮した探索戦略と堅牢なバックトラック機構を組み合わせて,ウェブ環境におけるエージェントの成功率を向上させる。
    • WebArenaにおいて,gpt-4oを用いたWebOperatorは最先端の54.6%の成功率を達成し,戦略的な先見性と安全な実行の重要性を示す。
    • WebOperatorは,無効な行動のフィルタリングと意味的に同等な行動のマージにより,高品質な行動セットを生成し,探索を効率化する。

    Link: https://arxiv.org/abs/2512.12692

  • マルチタスクバンディットにおける共有構造を通じた共同探索と共同利用 [cs.LG, cs.AI]目的:コンテキスト型マルチタスク多腕バンディット問題における効率的な探索
    • 複数のタスクを同時に扱うことで,限られたデータでの学習効率向上と,タスク間の知識共有が期待される。
    • 報酬分布間の依存関係が不明確な場合,各タスクを独立に扱うと最適化が困難となる。
    • 潜在変数による報酬分布の依存関係を捉え,タスク間の知識共有を促進することで,探索性能の向上を目指す。
    • 提案手法は,タスク間の構造的依存性を活用し,全体的な知識を効率的に学習する。
    • 潜在的な報酬依存性やユーザー固有の不確実性を考慮することで,柔軟かつデータ駆動的な学習を実現する。
    • シミュレーション実験により,既存手法と比較して,特にモデルの誤指定や複雑な潜在的異質性を持つ環境下で優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2512.12693

  • 適応的トークンプルーニングによる効率的な視覚言語推論 [cs.CV, cs.CL, cs.LG]目的:視覚言語モデルの効率的な推論
    • 視覚言語モデルは多様な応用を持つが,計算資源を多く必要とする。
    • 既存のモデルは全てのトークンを均一に処理するため,計算効率が低い。
    • 入力に応じて重要トークンを動的に選択し,計算量を削減する。
    • 適応的トークンプルーニング(ATP)により,推論に必要なFLOPsを約40%削減できる。
    • ATPは,VQAv2, GQA, COCOなどのベンチマークで,エンドツーエンドの遅延を約1.5倍高速化する。
    • ATPは,視覚的根拠を維持し,解釈可能性を向上させるとともに,モデルのロバスト性を高める。

    Link: https://arxiv.org/abs/2512.12701

  • ビデオからのパーツレベル信頼データを用いたロバストなモーション生成 [cs.CV, cs.AI]目的:ビデオから抽出されるパーツレベルの信頼できるデータを用いたモーション生成の強化
    • キャラクターアニメーションにおいて,大規模なモーションデータは不可欠であり,その収集方法が重要である。
    • 既存のビデオデータには,オフスクリーンやオクルージョンによるパーツの欠損が含まれており,データ品質と多様性のトレードオフが生じている。
    • 欠損のあるデータを利用しつつ,データの信頼性を考慮することで,モーション生成の性能向上を目指す。
    • 提案手法では,人体を5つのパーツに分解し,鮮明に視認できるパーツを「信頼できる」と判定する。
    • 信頼できるパーツは,提案するパーツアウェアな変分オートエンコーダによって潜在トークンにエンコードされる。
    • ノイズの多いパーツを無視しつつ,信頼できるパーツを予測するロバストなパーツレベルのマスク生成モデルを提案する。

    Link: https://arxiv.org/abs/2512.12703

  • コードカバレッジとゲームプレイ意図の相乗効果:LLM誘導強化学習を用いたカバレッジ認識型ゲームプレイテスト [cs.AI, cs.SE]目的:ゲームアップデートテストのための構造的検証と機能的検証の融合
    • ゲームはサービス形態が普及し,頻繁なコンテンツ更新が求められている。
    • 既存の自動テストは,コード中心とプレイヤー中心に分かれ,両方の側面を網羅できない。
    • 変更されたコードの網羅性と機能的な正確性を両立させることを目指す。
    • SMARTは,変更されたコードのブランチカバレッジを94%以上達成し,従来法を大幅に上回る。
    • タスク完了率は98%を維持し,構造的な網羅性と機能的な正確性のバランスを実現した。
    • LLMを活用し,ゲームプレイの意図を抽出することで,効率的なテストを可能にした。

    Link: https://arxiv.org/abs/2512.12706

  • ハード・ゼロ終端在庫制約を持つHJB方程式に対する多軌跡物理情報ニューラルネットワーク:合成データとSPYデータを用いた最適な執行 [cs.CY, cs.LG, math.OC]目的:ハード・ゼロ終端在庫制約を持つHJB方程式に基づく最適な執行戦略
    • 金融市場において,取引コストを最小化しつつ,目標とする在庫水準を達成することは重要である。
    • 従来の物理情報ニューラルネットワークは,終端在庫制約を十分に満たせず,不安定な取引戦略を生み出す可能性がある。
    • 本研究は,終端在庫を厳密にゼロに近づけるための新たなニューラルネットワークモデルを提案し,取引戦略の安定性を向上させる。
    • 提案手法であるMT-PINNは,Gatheral-Schiedモデルにおいて解析解と一致し,終端在庫をゼロ近傍に集中させることに成功した。
    • SPYの実際の取引データを用いた検証では,リスク中立な条件下でTWAP戦略と同等の性能を示し,リスク回避的な条件下では,低いエクスポージャーと競争力のあるコストを実現した。
    • 特に下落局面において,より高いリスク回避度で優れたコストパフォーマンスを発揮することが示された。

    Link: https://arxiv.org/abs/2512.12708

  • 局所構造可塑性による適応的アーキテクチャのための自己動機的成長ニューラルネットワーク [cs.NE, cs.LG]目的:深層強化学習における制御ポリシーの適応的アーキテクチャ
    • 深層強化学習は,複雑な制御タスクにおいて高い性能を示すが,ネットワーク構造の最適化が課題である。
    • 従来のニューラルネットワークは固定された構造であり,学習中に構造を変化させることができない。
    • 本研究は,ネットワーク構造を自己的に変化させ,タスクに適応するニューラルネットワークを開発する。
    • 自己動機的成長ニューラルネットワーク(SMGrNN)は,既存の多層パーセプトロンと同等またはそれ以上の報酬を獲得した。
    • SMGrNNは,タスクに応じた適切なネットワークサイズで学習できることが示された。
    • 局所的な構造可塑性が,報酬の安定性に貢献することが明らかになった。

    Link: https://arxiv.org/abs/2512.12713

  • 確率関数の理論に基づく機械学習回帰問題の解決 [cs.CL, cs.LG, cs.NA, math.NA]目的:機械学習回帰問題における多元近似
    • 機械学習は,データから知識を獲得する上で不可欠な技術であり,様々な分野で活用が広がっている。
    • 既存の回帰手法は,経験的な手法に依存し,理論的な根拠に乏しい場合がある。
    • 無関心原理に基づき,理論的に最適性を保証する回帰手法を確立すること。
    • 確率測度が自然な対称性を持つ場合,カーネルの形式,正則化,ノイズパラメータ化が解析的に導出される。
    • 導出されたカーネルは一般化された多重調和スプラインと一致するが,経験的に選択されるのではなく,無関心原理の結果として生じる。
    • 本研究は,広範な平滑化および補間法に対する理論的基盤を提供し,事前情報がない場合の最適性を示す。

    Link: https://arxiv.org/abs/2512.12731

  • パーソナライズされたQoE予測:5Gビデオストリーミングネットワークのための人口統計学的拡張機械学習フレームワーク [cs.DC, cs.CY, cs.AI, cs.MM, eess.IV]目的:パーソナライズされたQoE予測のための人口統計的拡張機械学習フレームワーク
    • 5Gネットワークにおける高品質なビデオストリーミング体験の提供は重要であり,QoE予測は不可欠な要素である。
    • 既存のQoE予測手法はデータセットが限られており,ユーザーの多様性を考慮していないため,実環境での適用に限界がある。
    • ユーザーの人口統計学的特性を考慮したデータ拡張により,QoE予測の精度と汎用性を向上させることを目指す。
    • 提案手法では,人口統計に基づいたデータ拡張戦略により,限られたQoEデータセットを大幅に増加させることができた。
    • 評価実験の結果,RMSE,MAE,Rなどの指標において,ベースラインモデルと比較して予測精度が大幅に向上した。
    • 特にTabNetは,特徴選択と注意メカニズムにより,最も優れた性能を示し,QoE予測の堅牢性を高めることが確認された。

    Link: https://arxiv.org/abs/2512.12736

  • SPARK:段階的投影NTKと加速正則化による通信効率型分散学習の活性化 [cs.LG, cs.DC]目的:通信効率型分散学習の実現
    • エッジデバイスの普及により,分散学習の重要性が高まっている。
    • 分散学習では,統計的異質性と通信オーバーヘッドが課題となっている。
    • 帯域幅制限下での効率的な通信を可能にする手法の開発。
    • SPARKは,ヤコビアン行列の圧縮,段階的蒸留,Nesterovモーメンタム加速を統合することで,通信量を98.7%削減した。
    • SPARKは,従来のNTK-DFLと同等の収束速度と高い精度を維持する。
    • モーメンタムを用いることで,目標性能への到達時間を3倍に短縮し,最先端の結果を達成した。

    Link: https://arxiv.org/abs/2512.12737

  • 休息ニューロン,活発な洞察:大規模言語モデルの入力疎性化の改善 [cs.IR, cs.LG]目的:大規模言語モデルにおける入力疎性化による効率向上
    • 大規模言語モデルは高性能だが,規模が大きいため効率性や解釈性が課題である。
    • 既存の疎性化手法は計算量削減に偏り,表現力の低下を招いている。
    • 疎性化による性能低下を抑制し,効率性と表現力の両立を目指す。
    • 入力疎性化を動的な構造プルーニングとして再解釈し,新たなアプローチを提案した。
    • 生物ニューロンに見られる自然発火率に着想を得て,補償ユニットである休息ニューロンを導入した。
    • 提案手法は,疎性化による性能ギャップを大幅に縮小し,タスク間での汎化性能も示した。

    Link: https://arxiv.org/abs/2512.12744

  • マイクログリッドの確率的予測と堅牢な運用に向けたエンドツーエンドのアプローチ:意思決定重視学習による [eess.SY, cs.LG, cs.SY]目的:マイクログリッドの確率的予測と堅牢な運用を共同最適化する意思決定重視のフレームワーク
    • 再生可能エネルギーの導入拡大に伴い,マイクログリッドの安定運用と経済性を両立させる必要性が高まっている。
    • 再生可能エネルギーの出力変動により,マイクログリッドの運用計画の信頼性が低下する課題がある。
    • 予測精度と運用目標を連動させ,より経済的かつ堅牢なマイクログリッド運用を実現すること。
    • 提案手法は,従来の予測・最適化手法と比較して,総運用コストとネット運用コストを最大18%削減することを示した。
    • 予測モデルと運用モデルを統合することで,予測精度を運用目的に合わせて最適化できる。
    • IEEE 33系統および69系統を用いたケーススタディにより,提案手法の有効性と拡張性が確認された。

    Link: https://arxiv.org/abs/2512.12755

  • 機械学習を用いた知的な科学文献探索器 (ISLE) [cs.IR, cs.AI, cs.CL]目的:科学文献の探索,文脈化,解釈の支援
    • 科学技術の進歩は速く,研究者は増え続ける文献から必要な情報を見つける必要がある。
    • キーワード検索では意味理解が難しく,既存のAIツールは個別のタスクに限定される。
    • 大規模データと知識グラフを用いて,文献探索の効率と理解度向上を目指す。
    • arXivとOpenAlexのデータを統合し,大規模な文献コーパスを構築した。
    • BM25と埋め込みベースの検索を組み合わせたハイブリッド検索により,検索精度を向上させた。
    • BERTopicや非負行列分解を用いたトピックモデルにより,文献の概念的構造を明らかにした。

    Link: https://arxiv.org/abs/2512.12760

  • フィードバックアラインメントを用いた連合学習 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CV]目的:連合学習におけるデータ不均一性によるローカルドリフトの軽減
    • プライバシー保護と分散データ活用が求められる中で,連合学習は重要な技術である。
    • クライアントのデータ分布が非独立同一(non-IID)の場合,学習が不安定になる問題がある。
    • グローバルモデルの重みを共有フィードバック行列として利用し,ローカル更新を効率的に整合させる。
    • FLFAは,ローカルドリフトを緩和し,ローカルおよびグローバルモデルの安定した収束を促す。
    • 提案手法は追加の計算コストや通信オーバーヘッドを最小限に抑えつつ,既存の連合学習手法を強化できる。
    • 実験結果は,FLFAが精度向上とローカルドリフトの低減に有効であることを示している。

    Link: https://arxiv.org/abs/2512.12762

  • CoRe3D:3D知能の基盤としての協調的推論 [cs.CV, cs.AI, cs.LG]目的:3D理解と生成のための推論フレームワーク
    • 大規模マルチモーダルモデルの発展により,推論メカニズムの重要性が認識されている。
    • 言語と画像処理では有効な推論中心のアプローチが,3D分野では未発達である。
    • 言語由来の意図を3Dコンテンツ生成に直接反映させる方法を確立すること。
    • CoRe3Dは,セマンティックと空間的抽象化を連携させ,高レベルな意図を低レベルの3Dコンテンツ形成に誘導する。
    • 空間的に根拠付けられた推論表現により,3D潜在空間を局所的な領域に分解し,幾何学的な推論を構成的かつ手続き的に行う。
    • セマンティックな思考連鎖と構造化された空間的推論を組み合わせることで,局所的な整合性と言語記述への忠実性を備えた3D出力を生成する。

    Link: https://arxiv.org/abs/2512.12768

  • 音声対話のための適応型エッジ・クラウド推論:ASRと大規模言語モデルを用いた行動システム(ASTA) [cs.SD, cs.AI]目的:音声対話システムにおけるエッジとクラウドの推論経路の動的切り替え
    • IoTデバイスの制御において,音声インタフェースの重要性が高まっている。
    • エッジデバイスは計算資源に制約があり,クラウドは遅延やプライバシーの問題がある。
    • エッジとクラウドの最適なバランスにより,堅牢でリソース効率の良いシステムを実現する。
    • ASTAは,CPU負荷,デバイス温度,ネットワーク遅延等のリアルタイム指標に基づいて推論経路を動的に選択する。
    • 80種類の音声コマンドを用いた評価実験で,ASTAは全てのコマンドを実行に成功し,オンラインとオフラインの推論をバランス良く分配した。
    • 音声認識精度は62.5%であり,コマンド修復機構の重要性が示唆された。

    Link: https://arxiv.org/abs/2512.12769

  • 自動運転車における適応型インターフェースを通じたユーザ体験の向上 [cs.HC, cs.AI]目的:自動運転車におけるユーザ体験最適化のためのインターフェース設計
    • 現代社会において自動運転車の導入が進む中で,ユーザビリティ向上が不可欠である。
    • 自動運転技術に対する信頼獲得のため,ユーザのニーズに合致したインターフェースが課題である。
    • ユーザの多様なニーズに対応し,安全性とセキュリティを確保したインターフェース設計を目指す。
    • ユーザインターフェースのパーソナライズを通じて,安全性,セキュリティ,ユーザビリティの向上を図った。
    • 適応的設計,マルチモーダルインタラクション,ユーザフィードバック機構などのHCI戦略がユーザエンゲージメントと満足度を高めることが示された。
    • 透明性とユーザ制御を重視したインターフェース設計は,自動運転システムへの信頼醸成に繋がる。

    Link: https://arxiv.org/abs/2512.12773

  • トークンを超えて:推論トークンの役割の特性評価 [cs.CL, eess.SY, cs.RO, cs.SY, cs.CL, cs.AI]目的:推論トークンの役割に関する理解
    • 大規模言語モデルの性能向上には,複雑なタスクにおける推論能力が不可欠である。
    • 推論トークンは表面的な説明とは異なり,モデルの実際の推論過程を反映していない点が課題である。
    • 推論トークンを計算状態として捉え,モデルの推論プロセスを正確に解釈することを目指す。
    • 推論トークンは,言語的な物語ではなく,モデルの状態を外部化したものとして機能する。
    • トークンは正しい推論を導くが,テキストとして解釈すると必ずしも忠実な説明とはならない。
    • 大規模言語モデルのプロセス理解には,トークンを状態として解読することに焦点を当てる必要がある。

    Link: https://arxiv.org/abs/2512.12777

  • 動的重み付け平均による適応的ドリフト耐性オンライン回帰 (OLR-WAA) [cs.CE, cs.LG]目的:非定常データストリームに対するオンライン回帰モデルの適応性と安定性のバランス
    • 現実世界のデータは時間とともに変化し,モデルの予測精度に影響を与える。
    • オンラインモデルはハイパーパラメータが固定されており,変化するデータに柔軟に対応できない場合がある。
    • 変化するデータ分布(コンセプトドリフト)に対応し,継続的な適応を可能にするモデルを開発する。
    • 提案手法OLR-WAAは,静的データセットにおいてバッチ回帰と同等の性能を示す。
    • コンセプトドリフトデータセットにおいて,既存のオンラインモデルを凌駕する性能を実証した。
    • 信頼度に基づいた保守的な更新戦略により,高信頼度のデータポイントを優先し,迅速な収束を実現する。

    Link: https://arxiv.org/abs/2512.12779

  • 非金融的特徴を用いた信用リスク評価:イスタンブール合成データからのエビデンス [cs.LG, q-fin.ST, stat.AP]目的:非金融的特徴が信用リスク評価に与える影響の検証
    • 金融包摂は起業を促進し,所得変動を抑制し,富の格差を縮小する上で重要である。
    • イスタンブールのアンダーバンク層は,収入と支払いが非公式チャネルを経由するため,信用情報機関に記録がない場合が多い。
    • 信用記録のない層に対する信用評価の可能性を模索し,公正な金融アクセスを拡大することを目指す。
    • 代替データを用いることで,AUC(曲線下面積)が約1.3%向上し,F1スコアが約14%改善された。
    • 本研究で構築したイスタンブールの合成データセットと再現可能なモデリングパイプラインを公開する。
    • 行動特性の限られたセットが,従来の信用情報機関と同等の識別能力を持つ可能性を示した。

    Link: https://arxiv.org/abs/2512.12783

  • OLC-WA:重み付き平均を用いたドリフト対応型ハイパーパラメータ不要オンライン分類 [cs.LG, cs.AI]目的:時間変化するデータ分布への適応
    • 現実世界のデータは時間とともに変化する傾向があり,その変化を考慮しないと予測精度が低下する。
    • オンラインモデルはハイパーパラメータに依存し,その調整が困難であるため,変化への対応が遅れる。
    • ドリフトの検出とモデルの自動調整により,変化するデータストリームに効果的に適応することを目指す。
    • OLC-WAは,静止環境においてバッチモデルと同等の性能(1-3%の誤差)を達成する。
    • ドリフトが発生する環境下では,既存のオンラインモデルを10-25%上回る性能を示す。
    • 指数加重移動平均と統合された最適化メカニズムにより,変化するデータ分布に自動的に適応する。

    Link: https://arxiv.org/abs/2512.12785

  • 複数データセットにおけるオンライン回帰の統計的有意性の解明 [cs.LG, cs.AI]目的:複数データセットにおけるオンライン回帰モデルの統計的比較
    • 機械学習の発展において,アルゴリズム性能の客観的評価は不可欠である。
    • 複数のアルゴリズムを複数のデータセットで比較するための統計的検定は未だ十分ではない。
    • オンライン学習における統計的有意性の検証と,継続的な学習プロセスの評価を支援する。
    • Friedman検定と事後検定を用いて,複数のオンライン回帰モデルを様々なデータセットで比較した。
    • 実データと合成データを用いた5分割交差検証とseed averagingにより,網羅的な評価を行った。
    • 既存手法の性能は概ね報告と一致したが,改善の余地も示唆された。

    Link: https://arxiv.org/abs/2512.12787

  • タスク完了を超えて:自律的AIシステムの評価フレームワーク [cs.MA, cs.AI, cs.SE]目的:自律的AIシステムの評価基準
    • AI技術の進歩により,複雑なタスクを自動化する能力が求められている。
    • 既存の評価方法は,AIの非決定的な性質を考慮していない点が課題である。
    • AIシステムの実行時の不確実性を捉えるための評価方法の確立を目指す。
    • 本研究では,LLM,メモリ,ツール,環境という4つの柱を持つ評価フレームワークを提案した。
    • クラウド運用における実験により,従来の評価指標では見過ごされていた行動のずれを検出できた。
    • 本フレームワークは,AIシステムの実行時の不確実性を捉える上で有効であることが示された。

    Link: https://arxiv.org/abs/2512.12791

  • 液体推論Transformer:チェス規模のアルゴリズムタスクのための数独ベースのプロトタイプ [cs.LG, cs.AI]目的:構造化された推論のための液体推論Transformerの性能評価
    • 複雑な推論タスクを解決するためには,人間の思考プロセスを模倣した柔軟なモデルが必要である。
    • 従来のTransformerは固定された計算深度であり,入力の難易度に応じて適応することが難しい。
    • 動的な計算深度と修正メカニズムにより,より効率的で正確な推論を実現すること。
    • 液体推論Transformerは,数独で高い性能を示し,98.68%の数字精度と36.30%の完全なパズル精度を達成した。
    • モデルは記号ルールや探索を用いずにこれらの結果を達成しており,その推論能力の有効性を示している。
    • 破棄ゲートと停止ゲートは,推論の安定化と計算深度の調整において異なる重要な役割を果たしていることが明らかになった。

    Link: https://arxiv.org/abs/2512.12792

  • 臨床変動リスクへの転移学習に基づくリアルタイム適応:TRACER [cs.RO, eess.SY, cs.SY, cs.LG, stat.ME]目的:臨床変動リスク予測モデルの適応手法
    • 電子カルテを活用した臨床意思決定支援は,医療現場の質向上に不可欠である。
    • 時間経過に伴う患者集団の変化により,予測モデルの性能が低下しやすい。
    • 部分的な患者層の変化に対応し,モデルを再学習せずに適応させることを目指す。
    • TRACERは,転移学習を用いて,患者層の移行を識別し,リアルタイムに適応する。
    • シミュレーション実験では,従来のモデルよりも高い性能を示した。
    • COVID-19の流行期における実際のデータでも,識別能と較正の両方が改善された。

    Link: https://arxiv.org/abs/2512.12795

  • 因果的対事実の再検討 [cs.DC, cs.PF, eess.SY, cs.SY, cs.AI]目的:対事実の確率に関する新しい意味論
    • 因果推論は,科学的発見や意思決定において不可欠である。
    • 従来のパール流意味論では扱えない確率的因果モデルが存在する。
    • より広範な確率的因果モデルに適用可能な意味論を構築すること。
    • 本研究で提案する意味論は,パールとダウィッドの対事実に関する長年の議論の妥協点を提供する。
    • この意味論は,マルコフ条件を満たす因果モデルに適用され,非現実的な変数を扱わない。
    • 提案する意味論は,構造因果モデルを使用しない他の近年の提案と同等であることが証明された。

    Link: https://arxiv.org/abs/2512.12804

  • 小規模から大規模へ:可変サイズ入力に対するTransformerの一般化限界 [cs.LG, cs.AI]目的:可変サイズ入力に対するTransformerの一般化性能の理論的限界
    • Transformerは様々なデータに応用可能であり,その性能向上は学術的・産業的に重要である。
    • Transformerのサイズ一般化能力は実証されているが,厳密な理論的根拠が不足していた。
    • 離散サンプルのTransformer出力を連続領域の同等物との誤差で評価し,理論的限界を導出する。
    • Transformerの出力誤差は,サンプリング密度とデータ多様体の固有次元によって決定されることが示された。
    • 安定した位置エンコーディングを持つTransformerに対して,理論的限界が証明された。
    • グラフや点群データを用いた実験により,理論的限界の妥当性が確認された。

    Link: https://arxiv.org/abs/2512.12805

  • AIコーディングエージェントのための耐障害サンドボックス:安全な自律実行のためのトランザクションアプローチ [cs.AI]目的:AIコーディングエージェントの安全な自律実行
    • AIエージェントの利用拡大に伴い,安全性の確保が重要課題となっている。
    • 既存のサンドボックス環境は,自律実行に必要なヘッドレス動作を阻害する可能性がある。
    • トランザクションを用いたサンドボックスで,安全性と低遅延性を両立することを目指す。
    • 提案手法は,高リスクコマンドを100%遮断し,失敗状態を100%ロールバックすることに成功した。
    • トランザクションごとの性能オーバーヘッドはわずか14.5%(約1.8秒)にとどまった。
    • Gemini CLIサンドボックスのような対話的な認証要求がないため,ヘッドレスな自律エージェントワークフローに適している。

    Link: https://arxiv.org/abs/2512.12806