arXiv雑要約

AI - 2026/05/27 公開

  • 最悪の施設損失に対するロバストなカバレッジネットワークのための敵対的学習 [cs.LG, cs.AI]目的:最大被覆位置・妨害問題に対する効率的かつ高品質な解の探索
    • インフラ計画において,施設の配置と妨害に対する強靭性を評価することは重要である。
    • 従来の解法では,上層と下層の強い結合と,それぞれの高い組み合わせ複雑さのため,計算が困難である。
    • 敵対的学習に基づく深層強化学習フレームワークを用いて,計算効率を向上させつつ,高品質な解を得ることを目指す。
    • 敵対的学習に基づく二重エージェント深層強化学習フレームワークを提案し,上層と下層の動的な競争関係を効果的に捉えることに成功した。
    • 学習済みの妨害エージェントを代替モデルとして利用するアンサンブル推論戦略を提案し,位置エージェントの意思決定を支援する。
    • 合成データと実データを用いた実験により,提案手法が他のベースラインと比較して計算効率と解質において優れていることを示した。

    Link: https://arxiv.org/abs/2605.26763

  • 高等教育における少数派の知識の周縁化と生成型人工知能:障害の事例 [cs.CY, cs.AI]目的:高等教育における知識生産と検証プロセスの構造変化
    • 知識の創造と共有は社会進歩の基盤であり,多様な視点の包含が不可欠である。
    • 既存のAIモデルは,英語・欧米中心のデータセットに偏り,多様な知識体系を無視する傾向がある。
    • AIが知識の周縁化を招く現状を分析し,研究者と機械の協働による解決策を探る。
    • 生成型AIは,知識の生産と検証を再定義する一方で,非支配的認識論の周縁化に寄与する。
    • 特に障害を持つ人々は,AIによるステレオタイプ化や設計プロセスからの排除といった二重の周縁化に直面する。
    • 研究者と機械のハイブリッドによる認識論的多様性の維持可能性と,アルゴリズムによる是正の限界を検討した。

    Link: https://arxiv.org/abs/2605.26769

  • 単一方向を超えて:思考連鎖が拒否の単純な制御を阻害する [cs.CL, cs.AI]目的:大規模言語モデルにおける拒否メカニズムの理解と制御
    • 言語モデルの安全性確保は重要であり,有害な応答を抑制する拒否機能の理解が不可欠である。
    • 既存研究では,拒否が単一の方向性で制御されると考えられてきたが,大規模モデルでは複雑な現象が生じている。
    • 思考連鎖が拒否に及ぼす影響を明らかにすることで,より効果的な拒否制御手法の開発を目指す。
    • 大規模言語モデルにおける拒否は,思考連鎖に依存することが示された。思考連鎖を固定した場合の活性化ステアリングによる拒否の反転率は39%に留まる。
    • 思考連鎖を削除すると,反転率は70%に上昇し,思考連鎖が拒否を強化する要因であることが明らかになった。
    • 思考連鎖を再生成する二段階介入では,94%の確率で拒否が反転し,生成された思考連鎖自体も48%の反転効果を維持する。

    Link: https://arxiv.org/abs/2605.26772

  • エキスパート混合を用いた配車問題に対する汎化指向モデル [cs.LG, cs.AI]目的:配車問題における汎化性能向上
    • 配車問題は物流効率化に不可欠であり,その最適化は経済的・環境的課題解決に貢献する。
    • 深層強化学習は配車問題に有効だが,学習分布に依存し,現実分布の変化に弱いという課題がある。
    • 分布の変化にロバストな汎化性能を持つ配車問題解決手法を開発することを目指す。
    • 提案手法R2E-IGは,残差精錬エキスパートとインスタンスレベルゲートを組み合わせ,表現力と適応性を高めた。
    • 動的重み適応を備えた混合分布学習により,より有益なデータに焦点を当て,学習効率を改善した。
    • 実験結果から,R2E-IGは既存手法と比較して,様々なデータセットで高い性能を発揮することが示された。

    Link: https://arxiv.org/abs/2605.26776

  • 属性盲点:言語モデルが検索された文脈ではなく,記憶に依存しているかを検出する [cs.AI]目的:言語モデルの出力が外部証拠に基づいているかを検証する方法
    • 生成AIの信頼性確保は重要であり,特にハイステークスな応用においては根拠となる情報源の検証が不可欠である。
    • 言語モデルが文脈に沿った出力を生成した場合でも,必ずしもその文脈が生成を支配しているとは限らない。
    • 言語モデルが記憶に頼っているか,検索された文脈に基づいて生成しているかを識別する手段を確立すること。
    • 既存の方法では,検索された文脈とモデルの事前学習データが重複する場合,モデルが文脈を参照せずに記憶から出力することが判明した。
    • 本研究では,認知科学の現実性モニタリングの原理を応用し,内部表現を文脈の有無で比較する「計算現実性モニタリング(CRM)」を提案する。
    • CRMは,モデルの内部表現に特徴的なパターンを検出し,出力レベルでは見えない情報源の識別を可能にする。

    Link: https://arxiv.org/abs/2605.26778

  • LiveK12Bench:大規模マルチモーダルモデルは高校レベルの試験を本当に克服したか? [cs.AI, cs.MM]目的:高校レベルの試験における大規模マルチモーダルモデルの推論能力の評価
    • 教育分野におけるAIの活用は,個別最適化された学習体験の提供に貢献しうるため重要である。
    • 既存のベンチマークは,現実の試験環境の複雑さを捉えきれておらず,データ汚染や評価基準の限定性が課題となっていた。
    • 現実的な試験シナリオ下での大規模マルチモーダルモデルの弱点を明らかにし,教育的準備の程度を評価することを目指す。
    • LiveK12Benchは,数学,物理,化学,生物の最新の試験問題から作成された2000以上の検証済み問題を含む,動的で包括的なマルチディシプリンベンチマークである。
    • 実験の結果,GPT-5を含む高度なモデルは,現実的な試験の制約下で大幅な性能低下を示すことが明らかになった。
    • 複雑な視覚レイアウトへの感受性など,理想的な推論能力と実際の教育準備との間にギャップが存在することが示唆された。

    Link: https://arxiv.org/abs/2605.26781

  • 比率分散正則化された方策最適化 [cs.RO, cs.HC, cs.LG, cs.AI]目的:方策最適化における安定性とデータ効率の向上
    • 強化学習は,複雑なタスクの自動学習に不可欠であり,その性能向上が求められている。
    • 既存手法では,信頼領域を確保するためのクリッピング処理が,有用な更新を抑制する問題がある。
    • 比率分散の正則化により,信頼領域の制約をより効率的に近似し,安定した学習を実現する。
    • 提案手法R$^2$VPOは,大規模言語モデル(LLM)およびロボット制御において,優れた汎用性を示した。
    • 数学的推論ベンチマークにおいて,特に小規模モデルで顕著な性能向上を実現し,サンプル効率も改善した。
    • 連続制御タスクにおいても,PPOと比較して,スパース報酬環境や動的環境で安定した性能を発揮した。

    Link: https://arxiv.org/abs/2605.26784

  • 敵対的交渉における言語モデルエージェントのためのオフライン感情スキル蒸留:EmoDistill [cs.CL, cs.AI]目的:敵対的交渉における言語モデルエージェントへの感情スキル蒸留
    • 人間との対話に適したLLMは,交渉においては弱点となり得る。
    • 感情表現が交渉結果に影響を与えるが,その戦略的側面が未解明である。
    • オフラインでの学習により,交渉における感情スキルの効果を最大化する。
    • EmoDistillは,感情選択と感情表現を分離し,効果的な感情戦略を学習する。
    • 四つの交渉ドメインにおいて,EmoDistillは既存手法を上回り,高い有用性を達成した。
    • 感情条件付けが本質的であり,異なるドメインや相手への汎化性能も確認された。

    Link: https://arxiv.org/abs/2605.26785

  • ルワンダ医療システムにおける糖尿病管理のためのビッグデータ分析の実装:ニーズ評価 [cs.CY, cs.AI, cs.LG]目的:ルワンダ医療システムにおける糖尿病管理のためのビッグデータ分析導入の準備状況
    • 糖尿病は深刻な健康問題を引き起こす可能性があり,早期発見と管理が重要である。
    • ビッグデータ分析の臨床現場での活用は,依然として限定的である。
    • ルワンダにおけるビッグデータ分析導入の課題を特定し,解決策を提示する。
    • ワークショップの結果,ビッグデータ分析の潜在的な可能性と課題が明らかになった。
    • 説明可能な機械学習モデルを用いた糖尿病管理戦略を支援する実用的なBDAフレームワークが提案された。
    • 電子カルテの普及が進むルワンダにおいて,予測,モニタリング,臨床意思決定の改善に貢献できる。

    Link: https://arxiv.org/abs/2605.26786

  • SeDT:文Transformer Decision-Transformerによる多岐にわたる会話の信頼性向上 [eess.SY, cs.SY, cs.CL, cs.AI]目的:多岐にわたる会話における信頼性低下問題の解決
    • 大規模言語モデルの応用範囲拡大には,対話形式での安定した性能維持が不可欠である。
    • 複数ターンの会話では,モデルの性能が大幅に低下し,特に信頼性が損なわれるという課題がある。
    • 過去の会話履歴から重要な情報を抽出し,モデルに伝えることで性能低下を回復することを目指す。
    • SeDTは,意味的,語彙的,位置的な信号を用いて会話履歴の各部分に重要度を付与する。
    • この手法は,追加の学習データやモデルの変更を必要とせず,推論時に既存のLLMに適用可能である。
    • 実験結果から,SeDTは様々なLLMと生成タスクにおいて,ベースラインを上回り,性能と信頼性の両方を向上させた。

    Link: https://arxiv.org/abs/2605.26788

  • 構成崩壊:安定した事実知識は構成的推論を意味しない [cs.AI]目的:多段階推論の能力評価における問題点の解明
    • 大規模言語モデルの性能向上は,複雑な推論能力の獲得に不可欠である。
    • 従来の評価指標では,モデルの構成的推論能力を正確に捉えられない場合がある。
    • 安定した事実知識に基づき,多段階推論における構成的失敗の原因を特定する。
    • 従来の評価では見過ごされていた「構成崩壊」という現象を明らかにした。
    • 新しい評価プロトコル(ダブルゲートプロトコル)によって,モデルの構成的推論能力を詳細に分析した。
    • 構成的失敗の多くは,生成時の計算制約によるものであり,恒久的な能力不足ではないことを示した。

    Link: https://arxiv.org/abs/2605.26789

  • 低推力軌道における費用と到達可能性の事前学習近似器 [cs.LG, physics.space-ph]目的:低推力軌道設計における燃料消費量と軌道実現可能性の迅速かつスケーラブルな評価
    • 宇宙探査における低推力推進の重要性が増しており,効率的な軌道設計が不可欠である。
    • 最適な制御解を求める軌道計算は計算コストが高く,設計空間の探索を困難にしている。
    • 機械学習による代替モデルを用いることで,計算コストを削減し,効率的な軌道設計を可能にする。
    • 低推力軌道最適化は,学習データとネットワークパラメータの対数に比例して性能が向上し,飽和の兆候は見られない。
    • 自己相似変換を導入することで,半長軸,軌道傾斜角,中心天体といった様々な軌道環境への汎化が可能となった。
    • 提案モデルは,単一および複数周回軌道遷移における最適な燃料消費量と最小移動時間を正確に予測できる。

    Link: https://arxiv.org/abs/2605.26790

  • プロンプト時の思考の連鎖の動作原理:局所的な共起性に着目して [cs.AI]目的:思考の連鎖(CoT)プロンプトが言語モデルの精度を向上させる要因の特定
    • 言語モデルの性能向上は,自然言語処理の重要な課題であり,そのメカニズム解明が求められている。
    • 思考の連鎖プロンプトが有効であることは知られているが,その効果の根本的な理由は不明であった。
    • プロンプト時の思考の連鎖の改善要因を,テキストの局所的な特性に焦点を当てて解明する。
    • 固定された思考の連鎖テキストにおいて,単語のシャッフルでも無プロンプトより性能が向上し,語彙の活性化効果が示された。
    • 構造化されたテキストによる更なる性能向上は,文レベルの論理的順序よりも,近接したトークンの共起性に起因することが示唆された。
    • 2~3トークンの連続したウィンドウを保持するだけで,思考の連鎖プロンプトの大部分の性能を回復することが確認された。

    Link: https://arxiv.org/abs/2605.26795

  • 潜在的再帰型Transformer:アーキテクチャ探索,学習戦略,およびスケーリング挙動 [eess.SY, cs.SY, cs.LG, cs.CL]目的:潜在的再帰型Transformerの性能向上
    • Transformerは自然言語処理の基盤技術であり,その効率化は重要である。
    • Transformerの計算コストが高いことが課題であり,軽量化が求められている。
    • Transformerに再帰的なメカニズムを導入し,計算効率を高めることを目指す。
    • 潜在的再帰型Transformer(LRT)は,既存のTransformerにわずかなパラメータ増加で性能向上をもたらす。
    • LRTは,位置をまたがる再帰的な経路を追加し,標準的な注意機構を維持している。
    • 並列学習手法により,大規模なTransformerの再帰的学習を効率的に行うことが可能である。

    Link: https://arxiv.org/abs/2605.26797

  • PATE-TabTransGAN:Transformer 기반 학생 판별器を用いた差分プライバシー付きテーブル型データ生成 [cs.CL, cs.LG]目的:差分プライバシーを保証したテーブル型データの高品質な合成
    • データ利活用におけるプライバシー保護の重要性が増しており,合成データの需要が高まっている。
    • 強力なプライバシー保護は,現実的な合成のためには特徴量間の依存関係のモデリングを犠牲にする場合が多い。
    • 差分プライバシーの理論的保証と高品質な合成の両立を目指す。
    • 提案手法PATE-TabTransGANは,4つのテーブル型データセット(Adult, Breast, Cardio, Cervical)において,最高のAUROCまたは同等のAUROCを達成した。
    • AUCPRにおいては,Cardioで最良,Cervicalで優位性を示し,Breastではわずかに劣る結果となった。
    • AdultデータセットにおけるAUCPRの差異は,正クラスの定義の違いによるものであり,合成データの欠陥ではないことを示した。

    Link: https://arxiv.org/abs/2605.26802

  • HTMLCure:ブラウザ体験を状態遷移に基づくHTML修正へと転換する [cs.SE, cs.AI]目的:インタラクティブなHTMLの修正
    • 大規模言語モデルの発展によりHTML生成が可能になったが,動的な挙動の検証が課題となっている。
    • スクリーンショットによる評価では,スクロールやクリック時の不具合を見逃しがちである。
    • ブラウザ上でのインタラクションを記録し,状態遷移に基づいた修正サイクルを構築すること。
    • HTMLCureは,ブラウザでのページ実行と状態遷移を記録し,修正に必要なキーフレームを生成する。
    • 97Kのプロンプト群に対し,63703の高品質なページを生成し,最終的に40KページをSFTセットとして構築した。
    • HTMLCure-27B-RefinedはHTMLBench-400で50.6を達成し,MiniAppBenchでは平均81.2を記録した。

    Link: https://arxiv.org/abs/2605.26807

  • イノベーション:幻覚のほぼ特徴づけ [cs.LG, cs.AI, cs.IT, math.IT]目的:大規模言語モデルにおける幻覚の性質と回避可能性
    • 大規模言語モデルの性能向上には,幻覚の抑制が不可欠である。
    • 幻覚の発生メカニズムが十分に解明されておらず,効果的な対策が困難である。
    • 幻覚の根本的な原因を特定し,発生率を理論的に評価することを目指す。
    • 本研究では,モデルの訓練データ外の出力を生成する傾向を示す「イノベーション」という概念を導入した。
    • イノベーションは幻覚をほぼ特徴づけるものであり,幻覚はイノベーションを意味し,その逆もまた真である。
    • 訓練データの不足度合い(missing mass)に基づく幻覚率の下限値を新たに導出した。

    Link: https://arxiv.org/abs/2605.26808

  • RAGEAR:検索拡張グラフ強化学術推薦システム [cs.IR, cs.AI]目的:学術コース推薦のためのニューロシンボリック推薦システム
    • 学術分野における情報過多に対応し,学習者にとって最適なコースを見つけることは重要である。
    • 既存の推薦システムは,コースのメタデータのみに依存しており,詳細な学習内容を考慮していない場合が多い。
    • 講義内容を活用し,学習者のニーズに合致したコースをより正確に推薦することを目指す。
    • 講義トランスクリプトを用いることで,メタデータのみの検索よりも推薦性能が向上することが示された。
    • RAGEARは,トランスクリプトに基づいたベースラインと比較して,特に上位の推薦においてランキング品質を向上させる。
    • グラフを意識した集約関数が,チャンクレベルの証拠をコースレベルの推薦に効果的に伝播することが確認された。

    Link: https://arxiv.org/abs/2605.26819

  • ContextGuard:言語モデルにおける文脈学習のための構造化自己監査 [cs.CL, cs.AI]目的:言語モデルにおける文脈学習の信頼性向上
    • 大規模言語モデルの推論能力は高いが,文脈知識の正確な適用が課題となっている。
    • 複雑な文脈下で,モデルは主要な推論経路は追跡するものの,細かな要求を見落とす場合がある。
    • 文脈依存の要求(周辺的,持続的,形式依存)の逸脱を検出し,修正すること。
    • 本研究では,ContextGuardという構造化自己監査メカニズムを提案した。
    • ContextGuardは,モデルの応答を評価し,文脈要件への準拠を検証する。
    • 実験により,ContextGuardは文脈学習の信頼性を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2605.26827

  • カルマン進化:解釈可能なアルゴリズム探索によるカルマンフィルタのギャップ克服 [cs.RO, cs.LG, cs.AI, cs.CV]目的:カルマンフィルタの性能向上
    • 制御および信号処理において状態推定は不可欠であり,カルマンフィルタは最適な解を提供する。
    • 現実的なセンシング環境では線形性やガウス性などの仮定が成り立たず,性能劣化が生じる。
    • カルマンフィルタの更新構造を最適化することで,性能ギャップを埋めることを目指す。
    • カルマン進化は,ノイズパラメータと更新構造を同時に最適化するフレームワークである。
    • 大規模言語モデルを活用し,カルマンフィルタの再帰性を維持しつつ,解釈可能な非アフィンな変更を生成する。
    • ドップラーレーダーやLiDAR等の実世界ベンチマークにおいて,従来のカルマンフィルタよりも最大12% RMSEを低減した。

    Link: https://arxiv.org/abs/2605.26830

  • ポリマー設計と発見のための周期トポロジカル深層学習 [cs.LG, cs.AI]目的:ポリマーの設計と発見のための深層学習フレームワーク
    • ポリマーはエネルギー,医療,材料科学など幅広い分野で利用されており,その重要性は高い。
    • ポリマーの膨大な化学的空間のため,体系的な探索は困難であるという課題がある。
    • ポリマーの周期性や多体相互作用を考慮した,より正確な予測モデルの構築を目指す。
    • 周期的Vietoris-Rips複体と階層的単体メッセージパッシングエンコーダを組み合わせたPeriodic-TDLを開発した。
    • Periodic-TDLは,電子特性,光学特性,物理特性,熱特性の予測において,既存の最先端モデルを上回った。
    • エステルからアミドへの置換やα-メチル化が熱安定性を向上させることを定量的に検証し,実験データとの一致も確認した。

    Link: https://arxiv.org/abs/2605.26833

  • 不確実性に基づいたサプライチェーン知識グラフ構築:自律型マルチエージェントLLM Helicsae [cs.AI]目的:サプライチェーンにおける知識グラフの構築
    • サプライチェーンの効率化には,複雑な情報を構造的に理解することが不可欠である。
    • 断片化されたWeb情報から構造的な推論を行うことが困難である。
    • 不確実性を考慮した知識グラフ構築による,信頼性の高い情報抽出を目指す。
    • Helicaseは,高度なサプライチェーンクエリを,実行可能な調査計画に分解する。
    • Web検索,推論,コーディングエージェントを連携させ,反復検証ループを通して知識グラフを構築する。
    • 構築された知識グラフには,事実ごとの不確実性注釈が付与され,信頼性の評価を可能にする。

    Link: https://arxiv.org/abs/2605.26835

  • MONA:大規模言語モデル学習のためのネステロフ加速を用いたミューオン最適化 [eess.SY, cs.SY, cs.CL, cs.LG, cs.CL]目的:大規模言語モデル学習における最適化手法の性能向上
    • 言語モデルの規模拡大に伴い,効率的な学習手法の確立が重要となっている。
    • 既存の最適化手法は,シャープな局所最小値に陥りやすいという課題がある。
    • ミューオン最適化のフレームワークにカーバチャーアウェア加速を導入し,局所最小値からの脱出を目指す。
    • MONAは,ミューオンおよびAdamWと比較して,より迅速な収束と優れた下流タスク性能を実現した。
    • 10億から680億パラメータまでの様々な規模の混合専門家事前学習において,その有効性が確認された。
    • 680億パラメータモデルの教師ありファインチューニングにおいて,MONAは最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.26842

  • 必ずしも全ての不一致は学習可能ではない:方策内蒸留におけるトークン教授可能性 [cs.LG]目的:方策内蒸留におけるトークンレベルの教師信号の学習可能性
    • 大規模言語モデルの性能向上には,効率的な知識伝達が不可欠である。教師あり学習は有効だが,全ての情報が等しく有用ではない。
    • 既存の方策内蒸留は,高エントロピーや不一致のあるトークンに注目するが,学習可能な信号とそうでない信号の区別が曖昧である。
    • 教師と生徒のKLダイバージェンスの減少を正確に測定し,学習可能なトークン信号を選択することを目指す。
    • KLダイバージェンスに基づく不一致は,学習価値の粗雑な指標であり,学習可能な不一致と学習不可能な不一致を区別できないことが示された。
    • トークン教授可能性という概念を導入し,これが固定コンテキストでの改善をより正確に予測することが示された。
    • 教授可能性を考慮したTA-OPDは,少ないトークン数で既存手法を上回り,選択的蒸留の新たな方向性を示す。

    Link: https://arxiv.org/abs/2605.26844

  • 確率的補間を用いた時空間的差分によるエネルギーベースモデルの学習 [cs.CL, cs.LG]目的:エネルギーベースモデルの学習
    • 機械学習において,データからモデルを学習することは重要である。
    • 既存手法は,空間的または時間的な差分のみに焦点を当てており,課題が残る。
    • 時空間的差分を同時に考慮することで,よりロバストな学習を目指す。
    • 提案手法stNCEは,既存手法を統合し,新たな学習目的を提供する。
    • 画像と分子の実験において,最先端の密度推定法と同等の性能を示した。
    • 時空間的差分を用いることで,従来の空間的・時間的差分法の課題を克服した。

    Link: https://arxiv.org/abs/2605.26850

  • RAPNet:学習された疎な補正による代数多重グリッドの高速化 [cs.LG]目的:大規模な疎線形システムの効率的な解法
    • 科学計算やグラフ解析において,線形システムの解法は重要なボトルネックとなっている。
    • 従来の代数多重グリッド法は,粗グリッド演算子の疎性と収束性のトレードオフに課題がある。
    • 疎かつ堅牢な粗グリッド演算子を学習することで,このトレードオフを解消し,求解性能を向上させる。
    • RAPNetは,グラフニューラルネットワークを用いて,疎な代数システムから直接粗グリッド演算子を学習する。
    • レベルごとの学習戦略により,小規模なサブグラフから学習し,百万ノード規模のドメインへ汎化可能である。
    • 多様な偏微分方程式の離散化やグラフラプラシアンにおいて,従来の非Galerkin法よりも優れた性能を示す。

    Link: https://arxiv.org/abs/2605.26854

  • プロトタイプに基づく知識蒸留による汎用グラフ異常検知 [cs.LG]目的:グラフ異常検知における汎用性
    • グラフ構造データの異常検知は,社会インフラやセキュリティなど,重要分野において不可欠である。
    • 既存手法は,学習にコストのかかるアノテーションに依存し,未知の異常パターンへの対応が課題である。
    • ラベルなしデータから正常性の知識を蒸留し,ゼロショットでの汎用的な異常検知を実現する。
    • ProMoSは,教師あり学習に頼らず,ラベルなしデータから正常性をモデル化する初の汎用グラフ異常検知フレームワークである。
    • 知識蒸留により,自己教師ありGNNから得られた正常性の知識を,効率的かつ表現力豊かなモデルに転送する。
    • プロトタイプに基づくソフトラベル蒸留により,グラフ間の汎化性能を向上させ,ゼロショット異常検知を可能にする。

    Link: https://arxiv.org/abs/2605.26857

  • 学術研究における持続型AIエージェント:単一研究者による実装事例研究 [cs.MA, cs.AI, cs.HC]目的:学術研究環境における持続型AIエージェントの実装と評価
    • AI技術は研究の効率化や新たな知見の発見に貢献し,学術研究の進展に不可欠である。
    • 大規模言語モデルの評価は断片的であり,長期的な研究環境への組み込みに関する知見が不足している。
    • 持続的な環境でのAIエージェント運用が研究に与える影響と,その評価方法を明らかにすること。
    • AIエージェントは96日間で約75,671件のログを記録し,研究者の役割とアシスタントの役割を分担して活動した。
    • ワークスペースには502件のメモリ関連ファイルや17個のエージェントディレクトリが存在し,システム稼働時間は約580時間であった。
    • キャッシュ利用が82.9%と高く,完成品ごとのコストが経済的評価の重要な指標となる可能性が示唆された。

    Link: https://arxiv.org/abs/2605.26870

  • 最強の教師は必ずしも最良の教師ではない:学習者中心の回答選択 [cs.LG, cs.AI, cs.CL]目的:学習者中心の学習コストに基づく回答選択
    • LLMの学習には教師による指導が不可欠であり,その質が学習効率に大きく影響する。
    • 教師の性能が高いからといって,必ずしも効果的な指導データになるとは限らないという課題がある。
    • 学習者のレベルに合った最適な指導データを自動的に選択する手法を開発し,学習効率を向上させる。
    • 提案手法SCASは,教師の性能ではなく,学習者中心の学習コストに基づいて回答を選択する。
    • 実験結果から,SCASは様々なモデルとタスクにおいて,学習者の性能を安定的に向上させることが示された。
    • 効果的な知識蒸留には,教師の強さだけでなく,学習者の現在のレベルに合わせた指導が重要である。

    Link: https://arxiv.org/abs/2605.26872

  • LLMベースの産業資産運用における欠落層としての知識グラフ [cs.DB, cs.AI, cs.LG]目的:LLMベースの産業資産運用における知識グラフの有効性評価
    • 産業資産運用は,設備の効率的な管理と保守を通じて,生産性向上に不可欠である。
    • 従来のフラットなデータ構造では,複雑な資産情報をLLMが効果的に処理できないという課題がある。
    • 知識グラフを用いることで,LLMの推論能力を向上させ,より高精度な資産運用を実現する。
    • 知識グラフ層を導入することで,LLMによる資産運用シナリオの正答率が向上した。
    • 特に,決定論的なグラフハンドラを用いることで,100%の正答率を達成し,LLMのボトルネックを解消した。
    • LLMに構造化クエリを生成させることで,データ層の重要性が高まり,知識グラフが統合層として機能することが示された。

    Link: https://arxiv.org/abs/2605.26874

  • マルチステークホルダーLLMアライメント:集約からの推定分解 [cs.AI]目的:マルチステークホルダー課題におけるLLMの整合性向上
    • 多様な価値観を持つ人々が関わる課題解決において,LLMの活用が重要である。
    • LLMによる判断が,複数のステークホルダーの選好を適切に反映できていない場合がある。
    • LLMの判断における重み付けの不安定性を解消し,より公平な結果を得ることを目指す。
    • 従来のLLMは,効用推定と集約を同時に行うため,重み付けにノイズが生じやすい。
    • 提案手法DecompRは,クエリ構造から重みを固定し,各役割の効用を独立して推定することで,重み付けの変動を抑制する。
    • 実験により,DecompRがステークホルダー数増加に伴うスコアシフトを低減することが示された。

    Link: https://arxiv.org/abs/2605.26878

  • 節約型学習増強オンライン距離マッチング [cs.DS, cs.LG]目的:節約型学習増強アルゴリズムの設計と性能限界の確立
    • オンライン最適化は,計算資源の制約下でリアルタイムな意思決定を必要とするため重要である。
    • 学習増強アルゴリズムは予測回数と性能のトレードオフがあり,予測コストが課題となっている。
    • 距離マッチング問題における予測回数を削減し,効率的なアルゴリズムを開発することを目標とする。
    • 提案手法は,予測がない場合に仮想予測を補完することで,節約型学習増強を実現している。
    • 理論的解析により,提案手法の性能限界が明らかになった。
    • 実験結果は,提案手法の有効性を示している。

    Link: https://arxiv.org/abs/2605.26886

  • GeoFaith:忠実な思考の連鎖の時空間二重視点 [cs.CL, cs.CL, cs.AI]目的:思考の連鎖における忠実性の診断と強化
    • LLMの推論能力向上にCoTが貢献する一方,結果のみに着目した学習では,事後的な合理化が生じやすい。
    • 既存の忠実性評価手法は,拡張性,コスト,信頼性の問題がある。
    • 潜在的な幾何学的構造とエントロピー変化を利用し,忠実な推論を診断・促進すること。
    • 提案手法GeoFaithは,忠実性検出においてGPT-5を上回る性能を示す。
    • 忠実性を考慮した強化学習により,正確性を維持しつつ,より短く解釈しやすい思考の連鎖を生成する。
    • ステップレベルの注釈を効率的に拡張するブートストラップパイプラインを開発した。

    Link: https://arxiv.org/abs/2605.26893

  • サイズは小さいが,効果は大きい:大規模言語モデルにおけるスケールベクトルの研究 [cs.LG, cs.AI, stat.ML]目的:大規模言語モデルにおけるスケールベクトルの表現力,最適化,アーキテクチャ構造に関する研究
    • 大規模言語モデルの性能向上は,自然言語処理分野における重要な課題である。
    • スケールベクトルは広く利用されているが,その役割と効果は十分に解明されていない。
    • スケールベクトルの最適化と表現力に関する理解を深め,性能改善に繋げる。
    • スケールベクトルはモデルパラメータのごく一部を占めるものの,削除するとLLMの事前学習性能が著しく低下する。
    • Pre-Normアーキテクチャにおいて,スケールベクトルは表現力を高めるのではなく,後続の線形写像に対する自己増幅的な事前条件効果を通じて最適化を改善する。
    • 入力正規化層と出力正規化層では,重み減衰の有効性が異なり,それぞれ最適化と表現力において異なる役割を果たす。
    • スケールベクトルの異質性,配置改善,および大きさ・方向の再パラメータ化を含む統合戦略は,事前学習実験においてより低い終端損失と優れたスケーリング動作を示す。

    Link: https://arxiv.org/abs/2605.26895

  • LLMによるソフトウェアデザインパターンの利用誘導戦略:Singletonの場合 [cs.SE, cs.AI]目的:LLMによるデザインパターンの組み込みを促す戦略の特定
    • ソフトウェア開発における品質と保守性の向上がデザインパターン利用の重要性を高めている
    • LLMはコード生成能力を持つが,デザインパターンの一貫した適用が課題となっている
    • 生成コードにおけるデザインパターンの適用能力向上を目指す
    • 最適な戦略はモデルの種類に依存するが,反復的な二値フィードバックがSingletonパターンとの整合性で優れていた
    • Llama 3.3は指示による誘導でSingletonクラスを100%生成し,テスト合格率を34.1%向上させた
    • Qwen 3 (8B)は二値フィードバックにより,Singletonパターンとの整合性を99.2%,機能性を58.6%に向上させた

    Link: https://arxiv.org/abs/2605.26898

  • SPHERE-JEPA:同質な埋め込みによる球面予測 [cs.LG]目的:自己教師あり学習における学習された表現の最適な幾何学的構造の明確化
    • 自己教師あり学習は,ラベルなしデータから有用な表現を学習する上で重要な役割を担う
    • ユークリッド空間における最適な埋め込みは特定されているものの,球面などの低次元多様体上では未解明であった
    • 球面上の分布に対する最適な幾何学的構造を明らかにし,より効果的な自己教師あり学習フレームワークを構築する
    • 最悪ケース分析の結果,k近傍法とカーネルリッジ回帰は共に球面上の均一性を誘導することが示された
    • SPHERE-JEPAは,ガウス埋め込みの非一様密度による偏りを修正し,球面上の均一性を強制することで理論的根拠に基づいた自己教師あり学習フレームワークを提供する
    • 実験的に,SPHERE-JEPAはテクスチャ検索のmAPを6%以上向上させ,ImageNet-1K(ViT-B/14)の線形プローブ性能もLeJEPAを上回る結果が得られた

    Link: https://arxiv.org/abs/2605.26900

  • ICICLE:文脈情報を用いた検索の拡張 [eess.SY, cs.SY, cs.IR, cs.AI]目的:文脈情報を用いたドキュメント検索の拡張
    • 情報検索の分野において,大規模なドキュメント集合への対応は重要な課題である。
    • 既存の生成検索モデルでは,新しいドキュメントの追加に再学習が必要となり,計算コストが高い。
    • 本研究は,再学習なしで新しいドキュメントの検索性能を向上させることを目指す。
    • ICICLEは,パラメータ記憶と文脈情報に基づいてdocIDを生成する新しいフレームワークである。
    • MS MARCOとNQ320Kでの実験により,ICICLEは追加されたドキュメントの検索精度を向上させ,既存ドキュメントの保持率も維持することが示された。
    • 高ショット劣化はルーティングの失敗が主な原因であり,ソース選択のキャリブレーションが重要であることが示唆された。

    Link: https://arxiv.org/abs/2605.26902

  • 実用的な匿名化二者間勾配ブースティング決定木 [cs.CR, cs.AI]目的:匿名化された勾配ブースティング決定木学習のためのプロトコル
    • 金融や医療など,解釈性と高速性が求められる分野で勾配ブースティング決定木が広く利用されている。
    • 分散環境での安全な学習には,記録IDの共有による情報漏洩のリスクが存在する。
    • 記録IDの共有を隠蔽しつつ,効率的な分散学習を実現することを目的とする。
    • 提案手法では,デュアルサーキットPSIを利用し,IDの隠蔽と効率的な集約を両立している。
    • 暗号文パッキングのコストを半減させることで,既存の安全な勾配ブースティング学習との効率性を維持している。
    • 本技術は,他の垂直分割された分析にも応用可能である。

    Link: https://arxiv.org/abs/2605.26903

  • ファクタグラフにおける可換因子の検出:必要条件と十分条件 [cs.AI, cs.DS, cs.LG]目的:ファクタグラフにおける可換因子の識別
    • 確率グラフィカルモデルの効率的な推論には,対象の識別可能性の利用が不可欠である。
    • 既存の可換因子検出アルゴリズムは,誤った十分条件に基づいている可能性がある。
    • 可換因子の識別に関する理論的基盤を修正し,より正確なアルゴリズムを提案する。
    • 既存のアルゴリズムが誤った結果を導く場合があることを示した。
    • 可換因子の識別に関する修正された定理を証明した。
    • 効率性と正確性を両立した修正アルゴリズムと,より厳密な限界を持つ補完アルゴリズムを提示した。

    Link: https://arxiv.org/abs/2605.26908

  • EEG-FM-Audit:脳波基盤モデルの体系的な評価・分析パイプライン [cs.LG, cs.AI]目的:脳波基盤モデルの評価と分析
    • 脳波は,脳活動を直接反映し,認知科学や臨床応用において重要な役割を果たす。
    • 既存の研究では,評価方法が不透明で,モデルの性能向上要因の検証が不十分である。
    • 脳波基盤モデルの性能を客観的に評価し,その解釈可能性を高めることを目指す。
    • 適切なチューニングを施した従来のモデルが,パラメータ数を大幅に削減しつつ,高度な基盤モデルと同等またはそれ以上の性能を示すことが明らかになった。
    • 基盤モデルの学習パラダイムの有効性は,データセットの規模とモデルアーキテクチャに大きく依存することが示された。
    • 神経生理学的探査分析により,基盤モデルが特定の生理学的特徴を利用していることが示され,より解釈可能なニューラルデコーディングの枠組みが確立された。

    Link: https://arxiv.org/abs/2605.26910

  • TADDLE:LLM生成ピアレビューの欠陥検出のためのツール拡張エージェント [cs.AI]目的:LLM生成ピアレビューの欠陥検出
    • LLMの利用拡大に伴い,その生成物の品質保証が重要課題となっている。
    • LLM生成レビューは流暢で構造化されているため,欠陥の検出が困難である。
    • 個々の欠陥タイプレベルでのLLM生成レビューの欠陥検出を可能にすること。
    • TADDLEは,検証,修正,完全性,変換という4つの分析ツールを統合し,LLM生成ピアレビューの欠陥を検出する。
    • 専門家によるアノテーションを用いたベンチマークデータセットを新たに構築した(ICLR 2025論文1800件)。
    • 二段階半教師あり学習による分類において,TADDLEは高い性能を示した。

    Link: https://arxiv.org/abs/2605.26911

  • アジャイルなオンラインモデル選択:安全な大きな学習率による適応遅延の解消 [cs.CL, cs.LG, stat.ML]目的:非定常環境における予測精度維持のためのオンラインモデル選択
    • 予測モデルは環境変化に常に適応する必要があり,その重要性は高まっている。
    • 既存手法は,頑健性と適応性の両立が難しく,学習率を抑制せざるを得ない。
    • 大きな学習率を用いながらも,適応遅延を解消し,最適な性能を実現すること。
    • 提案手法では,安全な大きな学習率を用いることで,適応遅延を大幅に削減することを示した。
    • 理論的には,累積ペナルティが$O(\log T)$に抑えられ,既存手法と同等の性能保証を達成できる。
    • 実証実験では,合成データおよび11種類の現実世界のデータセットで,既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2605.26919

  • 規範から指標へ (N2I-RAG): 法的指標計算のためのエージェント的検索拡張生成フレームワーク [cs.CL, cs.AI]目的:法的指標の自動計算
    • 法制度のモニタリングと政策評価において,法的指標の算出は不可欠である。
    • 法的言語の複雑さや解釈の多様性から,既存の自然言語処理技術では誤りが生じやすい。
    • 透明性と根拠に基づいた信頼性の高い法的指標計算を実現する。
    • 提案手法N2I-RAGは,既存の基盤モデルと比較して一貫して高い性能を示した。
    • 異なる禁止事項に対しても汎化性能が確認された。
    • エージェント的検索拡張生成が,法的言語と標準化された指標計算の橋渡しとなりうる。

    Link: https://arxiv.org/abs/2605.26926

  • ミューオンオプティマイザと敵対的学習:理論的・実験的研究 [cs.LG]目的:敵対的学習における最適化手法の性能評価
    • 敵対的攻撃に対する信頼性の高い防御手法の確立が求められている
    • 勾配降下法が主流だが,適応型オプティマイザは必ずしも頑健性を向上させない
    • 行列更新の直交化による最適化が,敵対的学習の頑健性に与える影響を検証する
    • ミューオンオプティマイザは,学習ダイナミクスのスペクトル成長を抑制し,明示的な重み減衰なしに安定性を実現する。
    • CNNにおいてはSGDと同等の性能を示し,CNNとViTの両方においてAdamWを大幅に上回る頑健性を示した。
    • オプティマイザの形状が敵対的学習における重要な要素であり,直交化更新が有効な領域を明確化した。

    Link: https://arxiv.org/abs/2605.26929

  • 推論の深さと環境の複雑性:論理的推論タスクにおけるRLVRデータ割り当ての制御された研究 [cs.CL, cs.AI]目的:論理的推論タスクにおけるRLVRデータ割り当てに関する研究
    • 推論能力は,AIシステムの高度化に不可欠であり,その評価手法の確立が求められている。
    • 既存研究では,推論の難易度を深さのみで捉え,多様な推論形式への対応が不足している。
    • 推論の深さと環境の複雑性を考慮し,多様な推論形式に対応できるデータ割り当て戦略を模索する。
    • 推論の深さと環境の複雑性の両方を網羅したデータセットが,単一軸のアプローチよりも高い性能を示すことが明らかになった。
    • 推論形式によって性能が異なり,特に演繹的推論以外の形式では,学習データ分布外での性能低下が確認された。
    • 均一なデータ混合戦略が,固定予算下での段階的カリキュラムよりも優れていることが示された。

    Link: https://arxiv.org/abs/2605.26934

  • 質問の先へ:大規模言語モデルが(実際に)知っていることの評価 [cs.CL, cs.RO, cs.CL, cs.AI]目的:大規模言語モデルの知識の評価方法
    • 言語モデルの性能向上には,その知識容量の正確な把握が不可欠である。
    • 既存の評価手法は,質問形式に限定され,モデルが持つ知識全体を測れない。
    • モデルが自発的に提示する知識を評価することで,より包括的な知識評価を目指す。
    • 従来の質問応答形式の知識評価における,質問設計者の意図に依存した偏りを指摘した。
    • BeQuという新たなベンチマークを提案し,モデルが自発的に知識を提示する能力を評価した。
    • モデルの規模,推論努力,プロンプト形式などが,知識表現に与える影響を分析した。

    Link: https://arxiv.org/abs/2605.26937

  • 最適なコンフォーマンステストのための完全ユニモダラ線形計画法の開発:A*との相乗効果 [cs.AI, math.OC]目的:コンフォーマンステストにおける最適な線形計画法
    • 業務プロセス分析において,実プロセスとモデルの差異検出は品質向上に不可欠である。
    • 従来のA*探索法は,長大なトレースや大きな逸脱で計算時間が指数関数的に増加する。
    • 完全ユニモダラ線形計画法により,効率的な差異検出と最適な解の導出を目指す。
    • 提案手法は,到達可能性グラフ上の完全ユニモダラ線形計画法としてコンフォーマンステストを定式化する。
    • 実験結果から,A*探索法と線形計画法は,トレース長や逸脱の程度に応じて互いに補完的な性能を示すことが明らかになった。
    • 両手法を組み合わせることで,平均38.6%の実行時間短縮と96%の選択精度を実現するアルゴリズム選択ガイドラインを導出した。

    Link: https://arxiv.org/abs/2605.26938

  • データ機密分野におけるLLM出力の神経記号的検証 [cs.CL, cs.IR, cs.MM, cs.AI, cs.LO, cs.SE]目的:LLM出力の信頼性確保
    • 高リスク分野でのLLM利用拡大に伴い,その信頼性確保が不可欠である。
    • LLMは幻覚,矛盾,プライバシー侵害といった課題を抱え,深刻なリスクをもたらす。
    • LLMの出力検証に,形式的検証と神経意味解析を組み合わせた手法を提案する。
    • 提案アーキテクチャは,入力検証に論理推論,出力検証に意味的類似性を活用し,互補的な保証を提供する。
    • HAIMEDAを用いた評価により,構造化エンティティの幻覚検出率は83%以上,意味的虚偽は72%以上を達成した。
    • レポート作成時間の30%削減も確認され,データ機密分野におけるLLMの安全な導入を支援する可能性を示した。

    Link: https://arxiv.org/abs/2605.26942

  • JuICE:LLMジャッジにおける文化的誤りの特定を評価するためのベンチマーク [cs.CL, cs.CL, cs.CL, cs.AI]目的:LLMジャッジによる文化的誤りの特定能力の評価
    • LLMのグローバル利用拡大に伴い,文化的背景を考慮した適切な応答が不可欠である。
    • 既存の評価指標は文化を事実の集合として扱い,LLMジャッジの文化的感度を検証していない。
    • 文化的文脈におけるLLMの誤りを捉えるための,多言語対応の評価データセットの構築。
    • JuICEは,米国,韓国,インドネシア,バングラデシュのクエリ応答ペア7,470件からなるデータセットである。
    • 最良のLLMジャッジでも,文化的誤りの検出におけるF1スコアは0.52にとどまることが示された。
    • LLMジャッジは,現地住民が容易に識別できる文化的誤りを見逃す傾向があることが明らかになった。

    Link: https://arxiv.org/abs/2605.26955

  • LELA:ゼロショットドメイン適応を備えたエンドツーエンドのLLMベースエンティティリンキングフレームワーク [cs.AI, cs.CL]目的:エンティティリンキングのためのエンドツーエンドフレームワーク
    • 自然言語処理システムにおいて,エンティティリンキングは重要な役割を担う。
    • 既存手法は特定の知識ベースやドメインに依存し,汎用性に欠ける。
    • ドメイン適応を必要としないエンティティリンキングの実現を目指す。
    • LELAは,LLMベースのエンティティリンキングパイプラインを構築するPythonライブラリである。
    • ゼロショットNERを統合することで,実用的なエンティティリンキングを可能にする。
    • 多様なエンティティリンキング設定において,LELAの性能と堅牢性が検証された。

    Link: https://arxiv.org/abs/2605.26956