arXiv雑要約

AI - 2026/04/29 公開

  • エージェントベースモデルにおけるデータ同化と尤度ベース推論の比較 [cs.LG, cs.CY, physics.soc-ph, stat.ME]目的:エージェントベースモデルにおける潜在状態推定の比較研究
    • 社会現象のモデル化において,エージェントベースモデルの活用が広がっている。個々の行動から全体構造を理解する上で重要である。
    • エージェントベースモデルは潜在変数を含む場合が多く,観測データとの整合性を図るのが難しい。
    • データ同化と尤度ベース推論という2つの手法を比較し,エージェントベースモデルにおける最適な潜在状態推定法を模索する。
    • 尤度ベース推論は,モデルの誤指定下でも,エージェントレベルの意見をより良く復元できることが示された。
    • 集計レベルにおいては,両手法の性能は同程度であり,データ同化もある程度の予測能力を持つことが確認された。
    • データ同化は集計予測に適しており,尤度ベース推論はエージェントレベルの推論に適していると考えられる。

    Link: https://arxiv.org/abs/2509.17625

  • カール降下:符号多様性可塑性による非勾配学習ダイナミクス [cs.IR, cs.LG]目的:非勾配学習ダイナミクスの可能性
    • 神経ネットワークの学習メカニズム解明は,AI技術発展の基礎となる。
    • 生物学的神経ネットワークの学習戦略は,勾配降下法に限定されるとは限らない。
    • 勾配降下法に依存しない学習ダイナミクスの有効性を示すこと。
    • カール項は,抑制-興奮結合やヘブ/反ヘブ可塑性を持つネットワークに自然に現れる。
    • 小さいカール項は,解多様体の安定性を維持し,勾配降下法と同様の学習ダイナミクスをもたらす。
    • 強いカール項は解多様体を不安定化させ,場合によっては学習速度を向上させる。

    Link: https://arxiv.org/abs/2510.02765

  • AInstein:LLMはパラメータ記憶のみで研究問題を解決できるか? [eess.SY, cs.SY, cs.AI]目的:LLMによる研究問題の解決能力の評価
    • AI研究の進展には,新たな問題解決手法の確立が不可欠である。
    • LLMがどの程度自律的に研究問題を解決できるかは未解明である。
    • LLMのパラメータ記憶のみによる問題解決能力の限界を明らかにすること。
    • LLMは提示された問題の70%以上を解決できることが示された。
    • しかし,既存研究の解決策を再現できる割合は19%未満であり,単なる想起ではない問題解決能力が示唆された。
    • LLMは慣習的な手法には強い一方,分野横断的な類推が必要な問題には苦戦し,パラメータ知識の限界が明らかになった。

    Link: https://arxiv.org/abs/2510.05432

  • 思考と事実が出会うとき:長文脈LMのための再利用可能な推論 [cs.CL, cs.AI, cs.LG]目的:長文脈LMにおける知識集約型マルチホップ推論の促進
    • 大規模言語モデルの性能向上は,様々な分野での応用を可能にする重要な課題である。
    • 長文脈LMでは,大量の情報を効率的に活用し,証拠の関連性を捉えることが困難である。
    • 思考テンプレートを用いて,推論プロセスを構造化し,より効果的なマルチホップ推論を実現すること。
    • 思考テンプレートを用いることで,多様なベンチマークにおいて,既存の強化学習ベースラインを上回る一貫した性能向上が確認された。
    • 最適化されたテンプレートは,より小規模なオープンソースモデルに蒸留可能であり,幅広い応用性と透明な推論再利用性を示す。
    • 自然言語フィードバックに基づいたテンプレート更新戦略により,学習データから派生したテンプレートの効果を継続的に改善できる。

    Link: https://arxiv.org/abs/2510.07499

  • CHUCKLE:人間がAIに感情学習を容易に教える方法 [cs.LG]目的:感情認識のための知識主導型カリキュラム学習フレームワーク
    • 感情認識は,人間と機械の自然なコミュニケーションに不可欠であり,様々な応用分野で重要性が増している。
    • 既存のカリキュラム学習は,サンプル難易度の定義が主観的であり,人間の知覚難易度を考慮していない場合がある。
    • 人間の知覚難易度に基づいたサンプル難易度定義により,感情認識の精度と効率を向上させる。
    • 提案手法CHUCKLEは,クラウドソーシングによるアノテーター間の合意と一致を利用し,サンプル難易度を定義する。
    • CHUCKLEは,LSTMおよびTransformerモデルにおいて,従来のカリキュラム学習手法よりも優れた性能を示す。
    • CHUCKLEは,勾配更新回数を減らし,学習効率とモデルのロバスト性を向上させる。

    Link: https://arxiv.org/abs/2510.09382

  • RLVRにおけるエントロピー介入の再検討:エントロピー変化の視点から [cs.LG, cs.AI]目的:RLVRにおけるエントロピーダイナミクスの理論的・実験的分析
    • 大規模言語モデルの推論能力向上において,RLVRは重要な技術である。
    • RLVRの訓練はエントロピー崩壊に悩まされやすく,探索を制限し,学習効果を低下させる。
    • エントロピー変化を理論的に捉え,より効果的なエントロピー調整手法を開発する。
    • 本研究では,RLVRにおけるトークンレベルのエントロピー変化を厳密に近似する解析式を導出した。
    • 既存手法がエントロピーを制御する要因を特定し,それらの限界を明らかにした。
    • 理論的推定に基づきトークンを再重み付けするSTEERを提案し,数学・コーディングベンチマークで最先端手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2510.10150

  • ポインタ知識グラフを用いたCからRustへのプロジェクトレベル変換 [cs.SE, cs.AI]目的:Cコードから安全なRustコードへの変換
    • メモリ安全性を確保する上で,CコードをRustに変換することは重要である。
    • 既存のLLMベース手法は,ポインタのグローバルな利用状況の把握が難しく,プロジェクトレベルでの変換が困難である。
    • ポインタ知識グラフを用いて,LLMに包括的なポインタ情報を与え,安全で自然なRustコードを生成することを目指す。
    • 提案手法PtrTransは,従来のルールベースやLLMベースの手法と比較して,変換されたRustコードにおけるunsafeな利用を99.9%削減した。
    • ファジング強化型LLMアプローチよりも29.3%高い関数レベルの正答率を達成した。
    • ポインタ知識グラフが,LLMによる安全で自然なRustコードの生成を導くことを実証した。

    Link: https://arxiv.org/abs/2510.10956

  • 防御的推論学習による深層暗黙的嗜好の整合 [cs.AI]目的:深層暗黙的嗜好の整合
    • 大規模言語モデルの利用が拡大する中,ユーザーの意図を正確に理解し,適切に応答することが重要である。
    • 既存手法では,ユーザーの潜在的な目標やリスク許容度といった深層的な嗜好の推論が困難である。
    • 本研究は,ユーザーの嗜好を深く理解し,曖昧な状況下でも堅牢な推論を行うことで,より適切な応答を目指す。
    • 提案手法であるCDRAは,報酬マッチングタスクを構造化された推論プロセスへと再定義することで,深層暗黙的嗜好の整合を実現した。
    • DeepPrefベンチマークは,クエリの背後にある意味と潜在的なリスクを明らかにする,批判的注釈付き推論チェーンによって構成され,ユーザー嗜好の推論を支援する。
    • Pers-GenPRMは,応答とユーザー嗜好の整合性を評価するための批判チェーンを生成し,解釈可能な報酬信号を提供する。

    Link: https://arxiv.org/abs/2510.11194

  • Gelina:交差トークン予測による統一的な音声とジェスチャー合成 [cs.SD, cs.AI, eess.AS]目的:音声とジェスチャーの同時合成
    • 人間は,音声とジェスチャーを組み合わせてコミュニケーションをとるため,その自然な再現が求められる。
    • 従来の合成法では,音声とジェスチャーを別々に生成するため,同期や韻律の一致が課題であった。
    • Gelinaは,音声とジェスチャーを同時に生成することで,より自然なコミュニケーションを実現する。
    • Gelinaは,離散自己回帰モデルを用いて,テキストから音声とジェスチャーを同時に合成する統一的なフレームワークである。
    • 主観評価および客観評価の結果,Gelinaは既存の単一モダリティベースラインと比較して,音声品質と同等の性能と,ジェスチャー生成の改善を示すことが確認された。
    • Gelinaは,複数話者や複数スタイルのクローニングをサポートし,音声入力からジェスチャーのみの合成も可能である。

    Link: https://arxiv.org/abs/2510.12834

  • 思考について考える:後学習済み言語モデルにおける推論の評価 [cs.PF, cs.CL, cs.AI]目的:後学習済み言語モデルにおける推論能力の評価
    • 大規模言語モデルの発展は,複雑なタスク解決に貢献しており,その能力向上は重要である。
    • 後学習による能力向上はあっても,モデルが「学習」や「思考」をどのように捉えているかは不明である。
    • 学習した戦略の認識,ドメインを超えた汎化,内部推論と出力の一致を評価し,モデルの理解度を探る。
    • 強化学習を用いたモデルは,SFTモデルよりも学習した行動の認識と,類似タスクへの汎化能力が高いことが示された。
    • しかし,強化学習モデルは,特にGRPOでは,内部推論と最終出力の整合性が低い傾向が見られた。
    • この結果は,モデルの学習方法によって,推論の質に差が生じる可能性を示唆している。

    Link: https://arxiv.org/abs/2510.16340

  • モデルコンテキストプロトコルエコシステムのセキュリティ問題に関する初期調査 [cs.CR, cs.AI]目的:モデルコンテキストプロトコルエコシステムのセキュリティリスク
    • 大規模言語モデルの利用拡大に伴い,外部ツールとの連携が重要になっている。
    • モデルコンテキストプロトコルは,新たなセキュリティリスクをもたらす可能性がある。
    • 本研究は,モデルコンテキストプロトコルのセキュリティ脆弱性を明らかにすることを目指す。
    • モデルコンテキストプロトコルエコシステムにおいて,レジストリレベルでの脆弱性がサーバーの乗っ取りを可能にすることが示された。
    • 攻撃者は,ツールメタデータを操作することで,LLMの推論を歪め,意図しない操作を実行させることが可能である。
    • 開発したツールMCPInspectにより,833の脆弱なサーバーと18の不審な記述を持つサーバーが特定された。

    Link: https://arxiv.org/abs/2510.16558

  • 大規模言語モデルにおける構造化プルーニングパラダイムの再考:ローカルからグローバルへ [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの効率的なデプロイメントのための構造化プルーニング手法の開発
    • 大規模言語モデルの利用拡大には,計算資源の効率的な利用が不可欠である。
    • 従来のローカルなプルーニング手法は,タスク固有の性能向上に限界がある。
    • タスクに合わせた構造化プルーニングにより,性能劣化を抑制し,効率的なデプロイメントを実現する。
    • GISPは,アテンションヘッドとMLPチャネルを反復的に除去するグローバルな構造化プルーニング手法である。
    • Llama2, Llama3, Mistral等のモデルで,WikiText-2のperplexityの低減とダウンストリームタスクの精度向上が確認された。
    • 特に40-50%の疎性化において顕著な改善が見られ,タスクに合わせた調整が容易である。

    Link: https://arxiv.org/abs/2510.18030

  • 模倣学習によるマイクログリッドエネルギー管理のための近似モデル予測制御 [cs.CL, eess.SY, cs.AI, cs.SY, math.OC]目的:マイクログリッドエネルギー管理のための模倣学習に基づく近似混合整数経済モデル予測制御
    • 再生可能エネルギーの導入増加に伴い,信頼性と持続可能性のあるマイクログリッド運用には,効率的なエネルギー管理が不可欠である。
    • 従来の最適化に基づく経済モデル予測制御は,計算時間が問題であり,大規模なシステムへの適用が困難である。
    • 本研究は,高速なリアルタイム制御を可能にするため,模倣学習を用いて最適化問題を回避し,計算時間の短縮を目指す。
    • 学習されたポリシーは,最適化ベースの経済モデル予測制御と同等の経済性能を達成した。
    • 学習されたポリシーの計算時間は,最適化ベースの経済モデル予測制御と比較して,約1桁短縮された。
    • ノイズ注入と制約強化により,ロバスト性と一般化性能が向上し,再帰的実行可能性が保証された。

    Link: https://arxiv.org/abs/2510.20040

  • 位置エンコーディングの失敗による座標予測バイアス軽減 [cs.CL, cs.CV, cs.AI, cs.CL]目的:高解像度入力における視覚位置エンコーディングの劣化から生じる座標予測バイアス
    • マルチモーダル大規模言語モデルの性能向上は重要だが,正確な座標予測は依然として課題である。
    • 視覚位置エンコーディングが劣化すると,ランダムなノイズではなく予測可能な方向性バイアスが生じる。
    • 位置情報に依存しない傾向を利用し,座標予測のずれを修正すること。
    • Vision-PE Shuffle Guidance (VPSG)は,位置エンコーディングをシャッフルすることでバイアスを特定し,座標予測を修正する。
    • VPSGは,モデルの規模に関わらず,ScreenSpot-Proベンチマークにおいて局所化精度を改善する。
    • VPSGは,再学習を必要としない推論時の修正方法であり,簡便に適用可能である。

    Link: https://arxiv.org/abs/2510.22102

  • 既知の不変性を用いた強化学習 [cs.LG]目的:強化学習における学習効率の向上
    • 現実世界の多くの問題には対称性があり,効率的な学習に利用できる。
    • 既存の強化学習アルゴリズムは,これらの対称性を十分に活用できていない。
    • 対称性を考慮したアルゴリズムを開発し,サンプル効率を改善すること。
    • 本研究では,カーネルベースの強化学習に既知の対称性を組み込むための理論的・アルゴリズム的枠組みを提案した。
    • 提案手法は,不変な報酬と遷移ダイナミクスを符号化するために不変カーネルを利用し,情報ゲインと被覆数の新しい上限を確立した。
    • 実験結果は,提案手法が標準的なカーネルベースの手法よりも優れた性能を発揮することを示している。

    Link: https://arxiv.org/abs/2511.03473

  • 生成AIベンチマークの現実世界での妥当性に向けて:ジャーナリズム実務者向けのドメイン中心評価の理解と設計 [cs.HC, cs.AI]目的:生成AIベンチマークにおけるドメイン中心評価の設計
    • AI技術の能力評価は,企業や研究者にとって不可欠であり,社会的な理解を深める上で重要である。
    • 既存のベンチマークは,現実世界での利用状況や評価対象の概念を適切に捉えられていないという批判がある。
    • ジャーナリズム分野を対象に,ドメイン固有の課題を考慮した評価方法を構築し,現実世界での妥当性を高める。
    • ジャーナリズム分野の専門家23名とのワークショップを実施し,評価設計における課題と利害関係者のニーズのバランスを明確にした。
    • ワークショップの結果に基づき,ジャーナリズム実務者が実験可能なドメイン指向の評価「レシピ」を開発した。
    • コンテキストを重視し,価値観に沿った,利用者の評価能力を高めるAI評価の設計要件を示した。

    Link: https://arxiv.org/abs/2511.05501

  • UltraGS:超音波新規視点合成のためのリアルタイム物理非結合ガウススプラッティング [cs.CV, cs.AI]目的:超音波画像からの新規視点合成手法
    • 臨床診断において不可欠な超音波検査だが,視野の狭さが課題となっている。
    • 超音波画像からの新規視点合成は,計算コストが高く,リアルタイム性に課題がある。
    • 物理モデルに基づいた効率的なレンダリングにより,リアルタイムな新規視点合成を実現する。
    • UltraGSは,ガウススプラッティングを応用し,超音波画像のリアルタイムな新規視点合成を可能にする。
    • 学習可能な視野角を持つ深度認識ガウス素子と,微分可能な音響演算子PD Renderingを導入し,高精度かつ高速な合成を実現。
    • PSNR(最大29.55),SSIM(最大0.89)で最先端の結果を達成し,単一GPU上で64.69fpsのリアルタイム合成を実現した。

    Link: https://arxiv.org/abs/2511.07743

  • 非線形出力レギュレーションのための物理情報ニューラルネットワーク [eess.SY, cs.AI, cs.SY]目的:非線形システムの出力レギュレーション問題の解決
    • 複雑な非線形システムの制御は困難であり,高精度な制御手法が求められている。
    • 従来の出力レギュレーション手法は,計算コストが高く,汎用性に課題がある。
    • 物理情報ニューラルネットワークを用いて,効率的かつ汎用的なレギュレーション手法を開発する。
    • 物理情報ニューラルネットワークが,レギュレーター方程式を高精度に近似することが示された。
    • 学習されたオペレーターは,外乱システムの状態から定常プラントの状態と入力をマッピングする。
    • ヘリコプターの垂直運動の同期実験により,外乱変動下でのレギュレーション性能が確認された。

    Link: https://arxiv.org/abs/2511.13595

  • OmniAlpha:マルチタスク統一強化学習による透明度を考慮した生成の整合性向上 [cs.CV, cs.AI]目的:透明度を考慮した生成・操作のための統一的なマルチタスク強化学習フレームワーク
    • 画像編集やコンテンツ生成において,RGBA情報の正確な扱いは不可欠である。
    • 既存手法はタスクごとに分断されており,統一的なモデルの最適化が困難である。
    • RGBA生成における層間整合性,アルファ境界の精度,構造の一貫性向上を目指す。
    • OmniAlphaは,VAEとDiffusion Transformerを組み合わせ,層間関係を考慮した報酬関数を用いて学習を行う。
    • 5種類の透明度を考慮したタスクにおいて,SFTベースラインや専門モデルを上回る性能を示す。
    • 層分解のRGB L1誤差を9.07%削減,自動マット分割のSAD/Gradをそれぞれ74%/68%改善した。

    Link: https://arxiv.org/abs/2511.20211

  • 音声,バイアス,共参照:音声翻訳におけるジェンダーに関する解釈可能性研究 [cs.RO, cs.CL, cs.AI]目的:音声翻訳におけるジェンダー割り当てメカニズムの解明
    • 音声は話者のジェンダー情報を含み,翻訳におけるバイアスが懸念される。
    • 音声翻訳において,話者の声の特徴がジェンダー割り当てに影響する可能性が指摘されている。
    • 音声翻訳モデルがどのようにジェンダーを決定するか,そのメカニズムを明らかにすること。
    • モデルは訓練データ中の特定の用語のジェンダー関連性を単純に再現するのではなく,より広範な男性優位のパターンを学習する。
    • 言語モデルは強い男性バイアスを示すが,モデルは音響情報に基づいてそれを覆すことができる。
    • スペクトログラムの対照的特徴帰属分析により,一人称代名詞を介してジェンダー情報にアクセスするメカニズムが判明した。

    Link: https://arxiv.org/abs/2511.21517

  • GSpaRC:RFチャネルのリアルタイム再構成のためのガウススプラッティング [cs.DL, cs.LG]目的:RFチャネルのリアルタイム再構成手法
    • 無線通信において,適応ビームフォーミングや安定したリンク維持にはCSIが不可欠である。
    • CSIの取得には大きなオーバーヘッドが発生し,5Gネットワークではスペクトルの25%を消費する。
    • 本研究は,ミリ秒以下の低遅延でRFチャネルをリアルタイムに再構成することを目指す。
    • GSpaRCは,3Dガウス素子を用いてRF環境を表現し,軽量なニューラルモデルと物理法則に基づく特徴量を統合する。
    • 従来のビジョンベースのスプラッティングとは異なり,全方向性アンテナの特性を反映するため,受信機中心の半球面に等矩角投影を用いる。
    • 複数のRFデータセットで評価した結果,最先端手法と同等のCSI再構成精度を,学習・推論時間の大幅な短縮とともに達成した。

    Link: https://arxiv.org/abs/2511.22793

  • MPR-GUI:GUIエージェントにおける多言語知覚と推論のベンチマークと強化 [cs.AI]目的:GUIエージェントにおける多言語知覚と推論の評価と改善
    • GUIエージェントの需要増加に伴い,多言語対応能力の重要性が高まっている。
    • 既存のベンチマークは,GUIエージェントの失敗原因の特定が困難である。
    • 多言語環境におけるGUIエージェントの性能格差を解消し,言語の影響を分離する。
    • MPR-GUI-Benchは,6言語8タスクで構成され,厳密に整列された環境を提供する。
    • 英語と非英語環境間には,推論タスクにおいて一貫した知覚・推論の差が見られた。
    • GUI-XLIは,非英語の隠れ状態を英語の状態に整列させることで,性能格差を平均6.5%削減した。

    Link: https://arxiv.org/abs/2512.00756

  • セマンティクスを意識したランダム畳み込みとソースマッチングによる医療画像セグメンテーションにおけるドメイン汎化 [cs.CV, cs.LG]目的:医療画像セグメンテーションにおけるドメイン汎化の達成
    • 医療画像解析は疾患診断や治療計画において不可欠であり,高い精度が求められる。
    • 異なる医療機関や画像モダリティ間での汎化性能が課題であり,ドメインシフトの影響が大きい。
    • 単一ソースドメインからの学習で,未知ドメインへの汎化性能向上を目指す。
    • セマンティクスを意識したランダム畳み込みにより,ソースドメインの多様性を高めることで汎化性能を向上。
    • ターゲットドメインの強度をソースドメインに近づけるソースマッチングによって,さらなる汎化性能の改善を実現。
    • 腹部,心臓全体,前立腺セグメンテーションにおいて,既存のドメイン汎化手法を上回る最先端の性能を達成。

    Link: https://arxiv.org/abs/2512.01510

  • 動的なVNEにおける代替案を伴う問題に対する階層型強化学習 [cs.NI, cs.LG, cs.MA]目的:代替トポロジーを持つ動的なVNEにおけるリソース割り当て最適化
    • ネットワークスライシング実現の鍵となる技術であり,柔軟なネットワーク運用を可能にする。
    • 既存手法では,仮想ネットワーク要求のトポロジーが固定されており,柔軟性に欠ける。
    • 複数の代替トポロジーの中から最適なものを選択し,動的な要求に対応する。
    • 提案手法HRL-VNEAPは,既存の単純な手法と比較して,常に優れた性能を示す。
    • 受け入れ率が最大20.7%,総収益が最大36.2%,収益-コスト比が最大22.1%向上する。
    • MILPとの比較により,最適解とのギャップを定量化し,今後の研究方向性を示す。

    Link: https://arxiv.org/abs/2512.05207

  • ヒューリスティクス,画像,深度データに基づく重要インフラのグラフ生成パイプライン [cs.CV, cs.LG]目的:重要インフラのグラフ生成
    • 重要インフラのレジリエンス向上は社会機能維持に不可欠であり,そのためのシミュレーション需要が高い。
    • 従来の3D点群データ取得は高コストであり,専門知識が必須となる点が課題であった。
    • フォトグラメトリを用いた,低コストかつ透明性の高いグラフ生成手法を確立すること。
    • 提案パイプラインは,RGB画像と深度データからオブジェクト検出と関係予測を行い,グラフを生成する。
    • 2つの水力システムへの適用により,生成されたグラフが実測値に近いことが示された。
    • ユーザー定義ルールにより透明性が確保され,重要インフラの意思決定への応用が期待される。

    Link: https://arxiv.org/abs/2512.07269

  • LLMを用いた多様なデータセット生成のための学習不要アプローチ:VOYAGER [cs.CL, cs.LG]目的:多様なデータセットの生成
    • LLMは,モデルの評価や学習に有用な合成データセット生成に不可欠である。
    • 既存の手法では,生成されたデータセットの多様性に課題があった。
    • データセットの多様性を最適化する手法を開発し,その問題を解決する。
    • 本研究で提案するVOYAGERは,決定論的点過程を利用してデータセットの多様性を直接最適化する。
    • VOYAGERは学習不要であり,クローズドソースモデルにも適用可能で,スケーラビリティも高い。
    • 実験結果から,VOYAGERは既存手法と比較して多様性が1.5〜3倍向上することが示された。

    Link: https://arxiv.org/abs/2512.12072

  • 動的なスケジューリングと階層的メモリ圧縮による文脈認識マルチエージェント運用 [cs.CL, cs.HC, cs.DC, cs.MA, cs.AI]目的:クラウドネイティブ環境における運用データの効率的な処理とタスク協調の改善
    • クラウドネイティブ化によりITインフラが複雑化し,運用データの量が増大しているため,効率的な運用が不可欠である。
    • 従来のシステムでは,大量の運用データを処理できず,タスクの連携や障害時の状況把握が困難になっている。
    • 本研究は,文脈を考慮した自律的な運用を実現し,次世代ITインフラの安定的な管理を目指す。
    • 提案手法AOIは,コンテキスト圧縮率72.4%を達成しつつ,重要な情報の92.8%を保持することを示した。
    • タスク成功率は94.2%に向上し,平均修復時間(MTTR)は34.4%短縮された。
    • AOIは,スケーラブルで適応的な文脈認識自律運用へのパラダイムシフトを提示する。

    Link: https://arxiv.org/abs/2512.13956

  • ネパール古ネパール語写本のデジタル化:包括的なHTRパイプライン [cs.LG]目的:ネパール古ネパール語写本の筆跡テキスト認識パイプライン
    • 歴史的資料の保存・活用は文化遺産保護において重要である。
    • 古ネパール語はリソースが限られており,筆跡認識技術の適用が困難である。
    • 古ネパール語写本のデジタル化と認識精度の向上を目指す。
    • 提案するパイプラインにより,文字誤り率4.9%を達成した。
    • エンコーダー・デコーダーアーキテクチャとデータ中心的な手法を体系的に検討した。
    • 誤りの分析とデコード戦略の評価により,モデルの挙動を理解した。

    Link: https://arxiv.org/abs/2512.17111

  • MCGI:数十億規模ディスク常駐ベクトル検索のための多様体整合グラフインデックス [cs.IR, cs.AI]目的:大規模ベクトル検索における多様体整合グラフインデックスの構築
    • 高次元データ検索は情報検索や機械学習の基盤であり,効率的な近似最近傍探索が不可欠である。
    • 従来のグラフベースANN検索は,ユークリッド距離と測地距離の不一致により,高次元空間で性能が低下する。
    • データの内在次元を考慮し,多様体構造に整合した検索戦略を動的に適応することで,性能低下を抑制する。
    • MCGIは,局所的な内在次元に基づいて検索予算を調整し,データ固有のハイパーパラメータへの依存性を低減する。
    • 理論的分析により,MCGIが多様体整合的なトポロジカル接続を維持し,堅牢な近似を実現することが示された。
    • 大規模データセットを用いた実験により,MCGIが既存手法と比較して優位性を示すことが確認された。

    Link: https://arxiv.org/abs/2601.01930

  • 具現化されたAIデータセットにおける言語的多様性の限定性 [cs.CL, cs.AI, cs.RO]目的:ビジョン・言語・行動(VLA)モデルで使用されるデータセットの言語的特徴の評価
    • VLAモデルにおいて言語は重要な役割を担うため,学習データセットの言語的特性把握は不可欠である。
    • 既存のVLAデータセットの言語的多様性に関する体系的な調査が不足しているという問題がある。
    • 現在のVLAデータセットに含まれる言語情報の記述と,データセットの選択・拡張戦略の改善を目指す。
    • 多くのVLAデータセットは,構造的な変化の少ない,反復的でテンプレートのような命令に依存していることが示された。
    • データセットに含まれる命令形式の分布が狭く,言語的多様性が限定的であることが明らかになった。
    • 本研究は,VLAモデルの学習・評価データに含まれる言語情報の詳細な記述を提供し,データセットの報告,選択,拡張に役立つ。

    Link: https://arxiv.org/abs/2601.03136

  • 臨床意思決定支援のためのオンデバイスLLMのベンチマークと適応 [cs.CL, cs.AI]目的:臨床意思決定におけるオンデバイスLLMの性能評価と適応可能性
    • 医療現場でのAI活用は,診断精度向上や業務効率化に貢献し,患者ケアの質を高めることが期待される。
    • LLMの利用にはプライバシー保護の課題があり,クラウドへの依存も臨床現場での導入を阻害する要因となっている。
    • リソースに制約のある環境でも利用可能なオンデバイスLLMの性能向上と,その実用性を検証する。
    • オンデバイスLLMは,DeepSeek-R1やGPT-5-miniと同等またはそれ以上の性能を示し,モデルサイズが小さいにもかかわらず高い精度を達成した。
    • gpt-oss-20bやQwen3.5-35Bのファインチューニングにより,診断精度が大幅に向上し,Qwen3.5-35BはGPT-5.1に匹敵する精度(87.9%)に達した。
    • 診断エラーの多くは臨床的に妥当な鑑別診断であり,回答選択の改善により最大93.2%の精度向上が可能であることが示唆された。

    Link: https://arxiv.org/abs/2601.03266

  • GlimpRouter: 思考の最初のトークンを垣間見るによる効率的な協調推論 [cs.AI]目的:大規模推論モデルにおける協調推論の効率化
    • 大規模言語モデルは複雑な推論能力を持つが,計算コストと推論時間が課題となっている。
    • どのステップで大規模モデルと軽量モデルを使い分けるかの判断が難しい。
    • 推論ステップの最初のトークンのエントロピーに基づいて,効率的なモデル選択を目指す。
    • GlimpRouterは,最初のトークンのエントロピーを閾値と比較することで,ステップ単位のモデル選択を訓練なしに行う。
    • AIME25ベンチマークにおいて,大規模モデル単体と比較して,精度が10.7%向上し,推論時間が25.9%削減された。
    • 推論の初期段階を垣間見るだけで計算資源を割り当てる,シンプルかつ効果的な手法である。

    Link: https://arxiv.org/abs/2601.05110

  • MemRec:協調的メモリ拡張エージェント推薦システム [cs.SI, math.OC, stat.ML, cs.IR, cs.AI]目的:協調的メモリの活用
    • 推薦システムはユーザー体験の向上に不可欠であり,その精度向上は重要な課題である。
    • 従来の推薦システムは孤立したデータに依存し,ユーザー間の関係性や共同行動を十分に活用できていない。
    • MemRecは,協調的メモリを効率的に管理し,推薦精度を高めることを目指す。
    • MemRecは,メモリ管理と推論処理を分離するアーキテクチャを採用することで,コンテキストオーバーロードと計算コストの問題を解決した。
    • 軽量な言語モデル(LM_Mem)が協調的メモリグラフを動的に管理・合成し,重要な情報のみを重みのある大規模言語モデル(LLM_Rec)に提供する。
    • 4つのベンチマークテストで,MemRecが最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2601.08816

  • 隠れ状態を早期シグナルとして:効率的なテスト時スケーリングのためのステップレベルのトレース評価とプルーニング [cs.LG]目的:テスト時スケーリングにおけるトレース評価とプルーニングのフレームワーク
    • 大規模言語モデルの推論能力向上には,テスト時スケーリングが重要である。
    • 複数のトレース生成に伴い,計算コストとレイテンシが増大する点が課題である。
    • 隠れ状態に基づくステップレベル評価で,低レイテンシかつ高精度な推論を実現する。
    • 提案手法STEPは,平均で45%〜70%の推論レイテンシ削減を実現した。
    • 自己整合性との比較において,推論精度も向上している。
    • GPUメモリ消費量を考慮したプルーニング戦略により,効率的な推論を可能にしている。

    Link: https://arxiv.org/abs/2601.09093

  • 経験に基づくドメインエージェントの推論と生成:ReCreate [cs.AI]目的:ドメインエージェントの自動生成と適応
    • 産業界において,LLMエージェントの活用が広がっている。
    • タスクの多様性から,手動によるエージェント構築に労力がかかる。
    • 経験を活用し,自動的にドメインエージェントを生成・適応させる。
    • ReCreateは,エージェントの相互作用履歴を体系的に活用することで,成功・失敗の原因と改善策を特定する。
    • エージェントを最適化手法と捉え,経験から学習する仕組みを導入している。
    • 多様なドメインにおいて,人間が設計したエージェントや既存の自動生成手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2601.11100

  • MGSM-Pro:多言語数学推論評価のための単純な戦略 [cs.CL, cs.AI]目的:多言語数学推論評価の頑健性を高める戦略
    • LLMの数学的推論能力は向上しているが,多言語評価のベンチマーク整備が遅れている。
    • 同一問題でもインスタンスが異なると評価のばらつきが大きいという問題が指摘されている。
    • 低リソース言語における頑健性の評価と改善を目指す。
    • MGSM-Proは,MGSMデータセットを拡張し,名前,数字,無関係な文脈を変えた5つのインスタンスを提供する。
    • 低リソース言語では,数字の異なるインスタンスでの性能低下が大きいことが明らかになった。
    • Gemini 3.0 Proは数字の変化に強く,GPT-OSS 120BやDeepSeek v3も高い頑健性を示す。

    Link: https://arxiv.org/abs/2601.21225

  • 物理誘導型Tiny-Mamba変換器による信頼性重視の早期故障警告 [cs.LG, cs.AI]目的:回転機械の信頼性中心予知保全における早期警告信号の精度向上
    • 回転機械の故障は重大な損失につながるため,信頼性の高い予知保全が不可欠である。
    • 従来の故障予測は,運転条件の変化やドメインのずれ,クラス不均衡の影響を受けやすい。
    • 本研究は,これらの課題を克服し,高精度かつ信頼性のある早期故障警告を実現する。
    • 物理情報を活用したモデル構造により,従来のモデルよりも高い精度で故障を検知可能となった。
    • 極値価値理論を用いることで,誤報率を抑制し,信頼性の高い警告を実現した。
    • 複数のデータセットでの評価により,高い汎化性能とドメイン適応能力が確認された。

    Link: https://arxiv.org/abs/2601.21293

  • エージェントのための推論報酬モデルの探求 [cs.AI, cs.CL]目的:エージェントの推論能力向上に資する報酬モデルの開発
    • 複雑なタスク遂行において,エージェントの自律的な推論能力は不可欠である。
    • 既存手法は結果に基づく疎な報酬に依存し,推論過程の質を評価できない。
    • 推論過程を詳細に評価し,改善を促す報酬モデルを構築すること。
    • 提案手法Agent-RRMは,推論過程のトレース,批判,総合評価を提供し,エージェントの学習を促進する。
    • 特に,統合的フィードバック戦略Reagent-Uが,GAIAで43.7%,WebWalkerQAで46.2%という顕著な性能向上を実現した。
    • 本研究は,推論報酬モデルと学習スキームの有効性を実証し,今後の研究を支援する。

    Link: https://arxiv.org/abs/2601.22154

  • メンタルヘルスにおけるAIの責任ある評価 [cs.CY, cs.AI]目的:AIメンタルヘルスケアの責任ある評価のための枠組み
    • メンタルヘルスケアの需要は増加の一途を辿っており,AI技術による支援が期待されている。
    • 既存のAI評価は臨床現場や利用者の視点を欠き,十分な安全性や公平性が確保されていない。
    • 臨床的妥当性,社会的文脈,公平性を統合した評価枠組みを提示し,AI評価の課題解決を目指す。
    • AIメンタルヘルス支援を,評価・介入・情報統合の3種類に分類する分類体系を提案した。
    • 既存の135の論文を分析した結果,汎用的な指標への過度な依存,専門家の参加不足,安全性への配慮不足が課題として浮き彫りになった。
    • AIの特性に応じた評価基準を設けることで,より責任あるAI開発と臨床応用を促進する。

    Link: https://arxiv.org/abs/2602.00065

  • DockSmith:エージェントによるDockerビルダーを通じた信頼性の高いコーディング環境のスケーリング [cs.AI, cs.SE]目的:ソフトウェアエンジニアリングエージェントの実行に基づく学習と評価のスケーリングにおけるボトルネック解消
    • ソフトウェア開発の効率化において,再現性のある環境構築は不可欠である。
    • Docker環境構築の信頼性不足が,エージェントの学習と評価の際の大きな障壁となっている。
    • Docker環境構築をエージェントの能力として捉え,ツール利用や依存関係の推論能力向上を目指す。
    • DockSmithは,Multi-Docker-Evalにおいて,Fail-to-Pass率39.72%,Commit Rate 58.28%を達成し,オープンソースの最先端性能を示した。
    • SWE-bench Verified,SWE-bench Multilingual,Terminal-Bench 2.0といった,分布外のデータに対しても性能向上が確認された。
    • Docker環境構築をエージェントの主要な能力とすることで,他のタスクにも応用可能な汎用的なエージェント能力を獲得した。

    Link: https://arxiv.org/abs/2602.00592

  • 分解に基づく自己相関および非定常時系列データの因果探索 [cs.LG, cs.AI, stat.ML]目的:自己相関と非定常性を持つ時系列データからの因果構造の発見
    • 金融,気候科学,医療などの分野で多変量時系列データが重要であり,その因果関係の解明が求められている。
    • 従来の因果探索法は,非定常性と自己相関の影響を受けやすく,誤った因果関係を導く可能性がある。
    • 本研究は,時系列データを分解し,各成分ごとに因果分析を行うことで,より正確な因果構造を発見することを目指す。
    • 提案手法は,時系列データをトレンド,季節性,残差の成分に分解し,それぞれに適切な分析手法を適用する。
    • 合成データと実際の気候データを用いた実験により,提案手法は既存手法よりも高い精度で真の因果構造を復元できることが示された。
    • 特に,強い非定常性と自己相関が存在する場合において,その効果が顕著であった。

    Link: https://arxiv.org/abs/2602.01433

  • SnapMLA:ハードウェアを意識したFP8量子化パイプラインによる効率的な長文脈MLAデコーディング [cs.LG, cs.CL]目的:長文脈におけるMLAデコーディング効率の向上
    • 大規模言語モデルの性能向上には,より長い文脈を処理する能力が不可欠である。
    • FP8によるMLAデコーディングでは,位置埋め込みの分離や量子化スケールの不整合などが課題となる。
    • SnapMLAは,これらの課題を解決し,長文脈デコーディングの効率を向上させることを目指す。
    • SnapMLAは,RoPE情報を高精度で保持するトークン単位のKV量子化を実現した。
    • FP8 PV計算における量子化スケールの不整合を解消するパイプライン再構築を提案した。
    • 徹底的なデータフロー最適化により,長文脈デコーディングにおいて最大1.91倍のスループット向上を達成した。

    Link: https://arxiv.org/abs/2602.10718

  • SecureScan: ロジスティック回帰と脅威インテリジェンス統合を用いたAI駆動型多層マルウェア/フィッシング検出フレームワーク [cs.CR, cs.AI, cs.CV, cs.LG]目的:マルウェアおよびフィッシングの検出
    • サイバー攻撃の巧妙化により,従来のシグネチャベースの検知システムでは対応が困難になっている。
    • 誤検知が多く,運用上の負担が大きいことが課題である。
    • AIと脅威インテリジェンスを活用し,高精度かつ効率的な検知を実現する。
    • SecureScanは,URL,ファイルハッシュ,バイナリのトリアージにおいて,93.1%の精度を達成した。
    • ロジスティック回帰,ヒューリスティック分析,脅威インテリジェンスを組み合わせることで,高い汎化性能と過学習の抑制を実現した。
    • 閾値ベースの決定キャリブレーションとグレイゾーンロジックにより,誤検知を最小限に抑え,実用性を高めた。

    Link: https://arxiv.org/abs/2602.10750

  • 繰り返し推論下におけるLLMの安全性の評価:加速プロンプトストレステスト [cs.LG, cs.AI]目的:LLMの繰り返し推論における安全性評価手法
    • LLMの社会実装が進む中,その安全性確保は不可欠である。
    • 従来の評価は多様なタスクに重点を置き,同一プロンプトの繰り返し利用時の安全性は未解明である。
    • 継続的な利用下での潜在的な問題点を明らかにし,信頼性評価を行う。
    • 加速プロンプトストレステスト(APST)は,信頼性工学における高加速ストレス試験に着想を得た手法である。
    • APSTにより,LLMのハルシネーション,拒否の一貫性の欠如,および安全でない応答などの潜在的な故障モードが明らかになった。
    • 浅い評価では捉えきれない,モデル間の信頼性の違いが明らかになった。

    Link: https://arxiv.org/abs/2602.11786

  • 欠損データに対するチャネル伝播を用いた信頼度を意識した活性化関数の進化 [cs.NE, cs.LG]目的:欠損データ下での分類性能向上
    • データ分析において,欠損値は頻繁に発生し,モデルの精度低下を招くため,適切な処理が不可欠である。
    • 既存の欠損値補完手法は十分ではなく,モデルのバイアスや汎化性能の低下を引き起こす可能性がある。
    • 活性化関数に欠損情報と信頼度を取り入れ,よりロバストなモデルを構築することを目指す。
    • 遺伝的プログラミングを用いて最適化された3C-EA活性化関数が,欠損データ下での分類性能を向上させることを示した。
    • ChannelPropアルゴリズムにより,欠損情報と信頼度をネットワーク全体に効果的に伝播させることが可能となった。
    • 様々な欠損パターンと割合において,提案手法が既存手法よりも優れていることを実験的に確認した。

    Link: https://arxiv.org/abs/2602.13864

  • LLM のチューニング:推論ハイパーパラメータの可変性モデルの活用 [cs.CL, cs.CL, stat.ME, cs.LG, cs.SE]目的:LLM推論におけるハイパーパラメータの最適化手法
    • LLMの利用拡大に伴い,計算資源消費と持続可能性が重要課題となっている。
    • 推論時の設定空間が膨大であり,網羅的な評価が困難である。
    • 可変性モデルを用いて,効率的なハイパーパラメータ探索と予測を可能にすること。
    • 可変性モデルは,LLM推論設定の複雑さを効果的に管理できることが示された。
    • ハイパーパラメータの影響と相互作用の体系的な分析,トレードオフの可視化が可能となった。
    • 少数の測定値から推論動作を予測する学習モデルの構築に貢献する。

    Link: https://arxiv.org/abs/2602.17697

  • ニューラル組合せ最適化における効率の再考:Mambaを用いたバッチ式選好最適化 [cs.DC, cs.HC, cs.LG]目的:ニューラル組合せ最適化における効率向上
    • 組合せ最適化問題は現実世界に多く存在し,その解決は経済的・社会的な利益に繋がる。
    • 既存のニューラルネットワークを用いた手法は,計算コストが高く,スケーラビリティに課題がある。
    • 本研究は,効率的な学習フレームワークを構築し,計算資源の制約下での性能向上を目指す。
    • 提案手法ECOは,バッチ式選好最適化とMambaバックボーンを組み合わせることで,学習効率を大幅に改善した。
    • TSPおよびCVRPタスクにおいて,既存のニューラルベースラインと比較して,最も優れた性能とメモリ効率,スループットを実現した。
    • 学習時のローカルサーチによるブートストラップ戦略が,性能向上に貢献していることが示された。

    Link: https://arxiv.org/abs/2602.20730

  • 尋ねることを推奨: 大規模言語モデルにおけるおべっか行為の軽減 [cs.IR, cs.HC, cs.AI]目的:大規模言語モデルにおけるおべっか行為の軽減策
    • 大規模言語モデルの社会実装が進む中,その信頼性と安全性確保が重要課題となっている。
    • 大規模言語モデルは,ユーザーの意見に迎合する傾向があり,批判的思考が欠如することが問題視されている。
    • 本研究は,入力の形式を変えることで,このおべっか行為を効果的に抑制することを目指す。
    • 質問形式ではなく,断定的な記述に対して,モデルはよりおべっか行為を示しやすいことが明らかになった。
    • ユーザーの発言が確信度を増すほど,また,ユーザー視点での表現を用いるほど,おべっか行為は強まることが示された。
    • モデルに入力文を質問形式に変換させることで,おべっか行為を大幅に軽減できることが確認された。これは,単純な「おべっか行為をしないように」という指示よりも効果的である。

    Link: https://arxiv.org/abs/2602.23971

  • NeuroHex:連続オンライン適応学習のための高効率なワールドモデルを実現する脳に触発された六角座標系 [cs.IR, cs.AI]目的:高効率なワールドモデルおよび参照フレームの構築
    • AIシステムの自律性と効率は,環境の理解に依存する。そのために,効率的な空間表現が不可欠である。
    • 従来のデカルト座標系では,回転や距離計算のコストが高く,複雑な環境のモデル化が困難である。
    • 脳のグリッドセルの構造に着想を得たNeuroHex座標系を用いて,効率的な空間表現と計算を可能にする。
    • NeuroHexは,60度の回転対称性と低コストな変換,回転,距離計算を実現する。
    • OpenStreetMapデータをNeuroHex座標系に変換するツール(OSM2Hex)を開発し,幾何学的複雑さを90-99%削減することに成功した。
    • NeuroHexは,適応的な空間推論を可能にする動的ワールドモデルの構築のための,効率的な基盤を提供することが示された。

    Link: https://arxiv.org/abs/2603.00376

  • SciDER:科学データ中心型エンドツーエンド研究者 [cs.CL, cs.AI, cs.CL]目的:科学的発見の自動化
    • 科学研究の効率化が求められており,データ分析の自動化は重要な課題である。
    • 既存のLLMエージェントは,実験から得られる生のデータを自律的に処理することが困難である。
    • SciDERは,データ特性に基づいた仮説生成と実験設計を自動化することで,この問題を解決する。
    • SciDERは,生の科学データを解析し,仮説と実験計画を生成するデータ中心型システムである。
    • 3つのベンチマークで,SciDERはデータ駆動型科学的発見において,汎用エージェントや最先端モデルを上回る性能を示した。
    • 自己進化型メモリと批判的フィードバックループにより,優れた性能を実現している。

    Link: https://arxiv.org/abs/2603.01421