arXiv雑要約

AI - 2026/05/15 公開

  • Dywave:異種IoTセンシング信号に対するイベントアラインド動的トークン化 [cs.LG, cs.AI]目的:異種IoTセンシング信号のコンパクトな入力表現の構築
    • IoTは,人間活動分析や環境認識など,知的な応用を支える重要な技術である。
    • IoT信号は非定常かつマルチスケールであり,標準的なトークン化手法では課題が多い。
    • 信号の固有の時間構造と物理イベントにアラインドした効率的なトークン化を目指す。
    • Dywaveは,ウェーブレット分解を用いて時間境界を検出し,冗長な区間を圧縮することで入力長を削減する。
    • 5つの実世界IoTデータセットで,既存手法と比較して最大12%の精度向上を達成した。
    • 計算効率の向上に加え,ドメインシフトやシーケンス長変動に対するロバスト性も示された。

    Link: https://arxiv.org/abs/2605.14014

  • Google AI概要の測定:活性化,情報源の質,主張の忠実性,そして出版元への影響 [cs.CY, cs.AI]目的:Google AI概要の活性化,情報源の質,主張の忠実性,および出版元への影響の評価
    • 情報検索におけるAI技術の進化は,情報へのアクセス方法を根本的に変えつつある。
    • 生成AIが提示する情報の信頼性や情報源の透明性が課題となっている。
    • Google AI概要が情報エコシステムに与える影響を定量的に明らかにすること。
    • Google AI概要の活性化率は全体で13.7%だが,質問形式のクエリでは64.7%に上昇する。
    • AI概要で引用されるドメインは,従来の検索結果よりも信頼性が高い傾向にある。
    • AI概要における約11%の主張は,引用されたページによって裏付けられていないことが判明した。

    Link: https://arxiv.org/abs/2605.14021

  • 自己予測学習における冗長性削減によるロバストな表現:集中的な経験再利用のための手法 [cs.LG, cs.AI]目的:データ不足環境における強化学習の効率向上
    • 実世界ロボティクス等,データ収集が困難な環境での強化学習は重要性が高い。
    • 強化学習における集中的なデータ再利用は過学習を引き起こしやすいという課題がある。
    • 自己予測学習における表現レベルの不安定性を軽減し,過学習を抑制することを目指す。
    • 提案手法R2R2は,自己予測学習における冗長性削減による正則化手法であり,過学習を効果的に抑制できる。
    • TD7アルゴリズムにおいて,UTD比20で約22%の性能向上を確認した。
    • SimbaV2-SPLへの統合により,既存の最先端手法をさらに上回る性能を達成した。

    Link: https://arxiv.org/abs/2605.14026

  • 限られたデータにおけるマスクオートエンコーダ:有効か? - 生物音響学的事例研究 [cs.SD, cs.CV, cs.LG]目的:生物音響データの種分類におけるマスクオートエンコーダ(MAE)の事前学習効果の検証
    • 生物音響認識は,類似した音響を持つ種を識別するために,詳細な音響理解が不可欠である。
    • 大規模なデータリポジトリは,弱くアノテーションされていることが多く,教師あり学習を困難にしている。
    • 限られたデータ規模の生物音響データにおけるMAE事前学習の有効性を検証し,最適なモデル選択の指針を提供する。
    • 多様な汎用音声データで事前学習したモデルが,iNatSoundsでの転移学習において最も優れた性能を示すことが確認された。
    • ドメイン固有データでの追加的なマスク再構成事前学習は,必ずしも性能向上に繋がらず,場合によっては汎用モデルを下回る結果となった。
    • データ規模が限られている環境下では,選択的なデータフィルタリングは,ほとんど性能向上に寄与しないことが示された。

    Link: https://arxiv.org/abs/2605.14031

  • AIエージェントにおける科学的理論変遷の検出のための層理論的輸送と閉塞 [cs.AI, cs.LG]目的:AIエージェントにおける科学的理論変遷候補の検出
    • AIの発展において,データへの適合だけでなく,知識体系の変革能力が重要になっている。
    • 既存の表現枠組みが新たな状況で通用するかどうかの判断が困難である。
    • 表現の輸送が失敗し,拡張が必要となる状況をAIが検出する有限診断的サブ問題を特定する。
    • 層理論的枠組みにより,ソース,オーバーラップ,ターゲットの適合性検証が可能となった。
    • 閉塞指標は,適合の残差,オーバーラップの不適合,制約違反などを通して,一貫性の欠如を定量化した。
    • 制御された遷移カードベンチマークにおいて,意図した変形または拡張が通常,最も低い閉塞候補であった。

    Link: https://arxiv.org/abs/2605.14033

  • 記述から規範へ:LLMベースエージェントの社会的価値観の整合性の解明 [cs.AI, cs.CL, cs.CY]目的:LLMベースエージェントにおける社会的価値観の整合性
    • LLMエージェントの普及には,人間の社会規範との整合性が不可欠である。
    • 現状のLLMエージェントは,自己認識や倫理的ジレンマへの対応が不十分である。
    • 社会的価値観に基づいた行動を促し,より人間らしいAIの実現を目指す。
    • 提案手法は,GraphRAGを用いて原則を価値に基づいた指示に変換し,会話の文脈に応じた適切な指示を取得する。
    • Maslowの欲求階層理論とPlutchikの感情の輪に基づき,期待される行動を定義し評価を行った。
    • DAILYDILEMMASベンチマーク実験の結果,既存手法(ECoT,Plan-and-Solve,Metacognitive prompting)と比較して大幅な性能向上を示した。

    Link: https://arxiv.org/abs/2605.14034

  • 大規模学習モデルにおける強化された効率的な推論 [cs.AI, cs.CC, cs.CL, cs.LG]目的:大規模言語モデルにおける原理に基づいた推論能力の向上
    • 近年の大規模言語モデルは自然な文章生成が可能だが,その内容の信頼性が課題。
    • 原理に基づいた推論の導入は,計算コストが高く困難であると考えられていた。
    • 計算効率の良い原理に基づいた推論手法を開発し,大規模言語モデルに実装すること。
    • 提案手法では,テキスト内の関係性を明示化するUnary Relational Integracodeを用いた前処理を行う。
    • これにより,関係性の学習が効率化され,既存のソフトウェア・ハードウェアを活かせる。
    • 学習可能な関係ルールのサブセットが多項式時間で学習可能となり,より堅牢な推論が期待される。

    Link: https://arxiv.org/abs/2605.14036

  • 自己剪定キーバリュー注意機構:将来の有用性を予測することによる書き込みタイミングの学習 [cs.LG, cs.CL]目的:キーバリューキャッシュのサイズ削減による効率的なテキスト生成
    • 大規模言語モデルの普及に伴い,長い系列データの処理が重要になっている。
    • Transformerアーキテクチャにおけるキーバリューキャッシュのメモリ使用量が課題となっている。
    • 将来の有用性を予測することで,キャッシュサイズを動的に削減することを試みる。
    • SP-KVは,キーバリューペアの将来の有用性を予測し,閾値を超えた場合にのみキャッシュに書き込む。
    • 実験により,キーバリューキャッシュサイズを3~10倍削減し,メモリ使用量とデコード速度を大幅に改善できることが示された。
    • 損失やタスク性能の低下はほとんどなく,レイヤーやヘッドごとのスパースパターンも明らかになった。

    Link: https://arxiv.org/abs/2605.14037

  • モデル適応型ツール必要性がLLMツール利用における知行のギャップを明らかにする [cs.AI]目的:LLMにおけるツール利用の必要性のモデル依存性を定義し,その認識と行動の乖離を分析すること
    • LLMが自律エージェントとして進化する中で,ツール利用の判断は不可欠な能力である。
    • 既存研究では,ツール利用の必要性がモデルに依存した形で評価されていなかった。
    • LLMのツール利用における「知っているけど行動しない」というギャップを特定し,改善策を模索する。
    • LLMのモデルによってツール利用の必要性が異なり,強いモデルは自力で解決できる問題を弱いモデルはツールを必要とする場合がある。
    • ツール利用の必要性と実際のツール呼び出しの間に,26.5%から54.0%という大きな乖離が確認された。
    • LLMの内部状態の分析から,ツール利用の必要性の認識と実際の行動の間にギャップが存在し,その原因は認識から行動への移行段階にあることが示された。

    Link: https://arxiv.org/abs/2605.14038

  • 脳機能結合表現学習のためのネットワークを意識した双線形トークン化 [cs.AI, cs.LG]目的:脳機能結合行列のトークン化方法
    • 脳機能結合は,脳の活動パターンを理解する上で不可欠であり,精神疾患の研究にも応用される。
    • 既存の研究では,脳のネットワーク構造を考慮せず,均質な要素として脳機能結合を扱っている。
    • 脳のネットワーク構造に基づいたトークン化により,より効果的な表現学習を目指す。
    • 提案手法NERVEは,脳機能結合行列をネットワーク間の結合ブロックに分割する双線形トークン化を導入した。
    • ネットワークペアごとに異なるサイズのパッチを扱う問題を,構造化された双線形因子分解によって解決した。
    • 大規模な発達コホートを用いた評価で,既存手法よりも安定かつ汎用性の高い表現を獲得できることを示した。

    Link: https://arxiv.org/abs/2605.14048

  • 法的解釈と形式論理の架け橋:忠実性,仮定,そしてAI法的推論の未来 [cs.AI, cs.CL, cs.CY]目的:AI法的推論の能力と信頼性向上
    • 法務分野におけるAI活用は,業務効率化に貢献しうる重要な技術である。
    • 現状のAIは,根拠に基づかない推論や仮定を含む結論を導き出すリスクがある。
    • 形式検証とLLMを組み合わせ,AIの法的推論における信頼性と説明責任を確立する。
    • 提案手法は,LLMの表現力と形式検証の厳密性を融合するニューロシンボリックアプローチである。
    • これにより,AI支援による法的推論はより確実となり,手動検証の負担を軽減することが期待される。
    • 結果として,法的実務における説明責任を損なうことなく,AIの能力を最大限に引き出すことを目指す。

    Link: https://arxiv.org/abs/2605.14049

  • SPIN:産業タスクのための反復的なナビゲーションによる構造化LLM計画 [cs.AI]目的:産業タスクにおけるLLM計画の構造化と効率化
    • 産業分野におけるLLMエージェントの活用が期待される一方,その計画能力には改善の余地がある。
    • 既存のLLMプランナーは,構造的に無効な計画や冗長なワークフローを生成し,システムの信頼性を損なう。
    • 有効な計画を生成し,不要なツール呼び出しを削減することで,コスト効率の高いシステムを実現する。
    • SPINは,検証済みの有向非巡回グラフ(DAG)計画とプレフィックスベースの実行制御を組み合わせることで,計画の有効性を向上させた。
    • AssetOpsBenchにおいて,SPINは実行タスク数を削減し,成功率を向上させ,ツール呼び出し回数を減少させた。
    • MCP Benchにおいても,GPT OSS1とLlama 4 Maverickの両方で,計画,グラウンディング,依存関係に関するスコアを改善した。

    Link: https://arxiv.org/abs/2605.14051

  • 推論プロンプティング:検索拡張生成の改善のための論理ベース手法 [cs.CL, cs.AI]目的:検索拡張生成における推論プロンプティングの有効性
    • 大規模言語モデルの応用範囲拡大に伴い,質問応答における精度向上が重要視されている。
    • 大規模言語モデルは,幻覚や誤った推論といった課題を抱えており,特に知識集約型のタスクで顕著である。
    • 本研究は,論理的推論に基づいた推論プロンプティングにより,生成過程の制御と精度向上を目指す。
    • 推論プロンプティングは,従来のRAGや長文コンテキストウィンドウ法と比較して,不適切な回答を大幅に削減した。
    • 推論プロンプティングは,論理的推論の過程を解釈可能な推論ツリーとして構築する。
    • 本手法は,知識集約的なタスクにおいて,より信頼性の高い回答生成に貢献する。

    Link: https://arxiv.org/abs/2605.14053

  • 視覚が悪いのか,思考が悪いのか? 視覚と言語の推論に対する報酬 [cs.AI, cs.CV]目的:視覚と言語の推論における知覚と推論の相乗効果の改善
    • 高度な視覚言語モデル(VLM)の実現には,視覚と言語の協調が不可欠である。
    • 既存手法は,静的なテキスト推論や複雑な外部エージェントに依存し,性能向上が限定的である。
    • 知覚の忠実度を報酬化することで,視覚と言語の推論におけるボトルネックを解消することを目指す。
    • 本研究では,強化学習フレームワークを導入し,知覚と推論を交互に行うことで,知覚の精度を向上させた。
    • 「盲目的な推論」による知覚検証(PV)を導入し,推論結果に依存せず知覚の忠実度を評価・報酬化した。
    • 構造化された言語検証により,大規模なタスクにおいても効率的な学習を可能にした。

    Link: https://arxiv.org/abs/2605.14054

  • PEML:最適化された連続プロンプトによるパラメータ効率の良いマルチタスク学習 [cs.CL, cs.AI]目的:パラメータ効率の良いマルチタスク学習手法
    • 大規模言語モデルの活用が重要視される中で,複数タスクへの適応は,データ効率とリソース削減に貢献する。
    • 既存のPEFT手法は単一タスクに最適化されており,マルチタスク学習におけるプロンプトの最適化が不十分である。
    • プロンプト最適化とモデル適応を同時に行うことで,マルチタスク学習の効率を向上させることを目指す。
    • PEMLは,連続プロンプトを最適化するニューラルアーキテクチャエンジニアリング手法と,モデル重みを低ランクで適応させる手法を組み合わせる。
    • GLUE,SuperGLUE等のベンチマークにおいて,最先端のマルチタスク学習手法と比較して,平均で最大6.67%の精度向上を示した。
    • 特定のタスクでは,最大10.75%の精度向上が確認された。

    Link: https://arxiv.org/abs/2605.14055

  • MathAtlas:実世界の自動形式化のためのベンチマーク [cs.CL, cs.AI, cs.LG]目的:大学院レベルの数学の自動形式化
    • 形式化された数学は,証明の検証や機械による定理発見を可能にするため,数学研究において重要である。
    • 既存のベンチマークはオリンピック数学や学部レベルに偏っており,大学院レベルの数学を対象としたものは少ない。
    • 実世界の大学院レベル数学の自動形式化を大規模に評価するためのベンチマークを提供する。
    • MathAtlasは,103冊の大学院レベル数学教科書から抽出された約52,000の定理,定義,演習,例,および証明を含む大規模なベンチマークである。
    • MathAtlasは,約178,000の関係を含む数学的依存グラフを含み,依存関係を考慮した自動形式化システムの評価と開発を促進する。
    • 実験の結果,既存のモデルは定理文で最大9.8%,定義で16.7%の正答率に留まり,依存関係の深さが増すと性能が大幅に低下することが示された。

    Link: https://arxiv.org/abs/2605.14061

  • いつ折り返すかを知る:多段階インフライト拒否によるトークン効率的なLLM合成データ生成 [cs.AI, cs.CL]目的:LLMによる合成データ生成におけるトークン消費量の削減
    • LLMを用いた合成データは,モデル性能向上に不可欠。しかし,計算コストが高い。
    • 既存手法では,品質フィルタリング後に無駄なトークンを消費してしまう問題がある。
    • 生成途中で低品質なサンプルを検出し,早期に却下することで効率化を目指す。
    • 提案手法MSIFRは,生成過程を段階分けし,ルールベースの検証により早期に不具合を検知・却下する。
    • MSIFRは,トークン消費量を11%~77%削減し,評価精度を維持または向上させる。
    • 早期拒否は,残存サンプルの期待効用を偏らせないことを理論的に保証した。

    Link: https://arxiv.org/abs/2605.14062

  • 信頼度ゲートされたソースアンカリングによる継続的テスト時適応 [cs.LG]目的:継続的なテスト時適応におけるソースアンカーの信頼度に応じた制御
    • モデルの継続的な学習能力は,実世界での性能向上に不可欠である。
    • ソースモデルの信頼性が低下した場合でも,既存手法はアンカー強度を調整しない。
    • ソースモデルの信頼度を評価し,それに応じてアンカーの強度を調整することで,性能低下を抑制する。
    • 提案手法RMemSafeは,ソースモデルの予測エントロピーを用いて信頼度ゲートを設け,信頼性の低い場合にアンカーの影響を軽減する。
    • CCC-Hardデータセットにおいて,RMemSafeは既存手法よりも低いエラー率を達成し,特にResNet-50とViT-B/16で性能が向上した。
    • ソースモデルの劣化実験により,RMemSafeは既存手法よりも緩やかな性能低下を示すことが確認された。

    Link: https://arxiv.org/abs/2605.14063

  • 少数クラスの金融苦境予測における機械学習手法の比較評価:クラス不均衡制約下 [cs.LG]目的:金融苦境予測のための機械学習手法の比較
    • 企業の倒産リスク管理は,経済安定に不可欠であり,早期予測が重要である。
    • 実際の金融データは不均衡であり,苦境企業が少数であるため予測が困難である。
    • クラス不均衡下での予測精度向上と,解釈可能性の確保を目指す。
    • 勾配ブースティング法は,極端な不均衡条件下で,ベースライン統計分類器よりも少数クラスの感度を向上させた。
    • 再現性,解釈可能性,監査可能性を重視した機械学習ワークフローが示された。
    • 金融リスク環境における実用的な機械学習の適用を支援する。

    Link: https://arxiv.org/abs/2605.14067

  • CurveBench:ネストされたジョルダン曲線における正確なトポロジカル推論のためのベンチマーク [cs.CV, cs.LG]目的:ネストされたジョルダン曲線におけるトポロジカル推論の精度評価
    • 視覚情報から空間的な関係性を理解することは,ロボティクスや画像解析において重要である。
    • 複雑な曲線構造における包含関係の正確な把握は,既存の手法では困難である。
    • この研究は,正確なトポロジカル推論能力を測るためのベンチマークを提案し,その課題を明確にする。
    • CurveBenchは,様々な複雑さのジョルダン曲線画像756枚で構成され,領域の包含関係をツリー構造で表現する。
    • Gemini 3.1 Proなどの強力なモデルでも,CurveBench-Easyで71.1%,CurveBench-Hardで19.1%の精度しか達成されていない。
    • ファインチューニングされたQwen3-VL-8Bモデルは,GPT-5.4やClaude Opus 4.5を上回り,CurveBench-Easyで33.3%の精度を達成した。

    Link: https://arxiv.org/abs/2605.14068

  • 不規則な多変量時系列予測のための生成モデルSurF [cs.LG]目的:不規則な多変量イベントストリームの予測
    • イベントデータの分析は,様々な分野で重要であり,将来予測に不可欠である。
    • イベント間隔が大きく異なるデータへの対応が難しく,既存手法では精度が十分でない。
    • 時間再スケーリング定理を活用し,異なるデータセット間で学習可能な汎用モデルを構築する。
    • SurFは,地震,リツイート,Taobaoのデータセットで,既存の最高性能モデルを上回る予測精度を達成した。
    • 厳格な検証プロトコルにおいて,SurFは複数のデータセットで従来のモデルを凌駕し,非同期イベントストリームの基盤モデルへの一歩となる。
    • Transformerベースのエンコーダにより,複数のデータセットを用いた事前学習が可能となった。

    Link: https://arxiv.org/abs/2605.14069

  • アテンション誘導サルエンシー学習による解釈可能なゲノム配列分類 [cs.NI, cs.CL, cs.LG, cs.AI]目的:解釈可能なゲノム配列分類のためのアテンション誘導サルエンシー学習手法
    • ゲノム解析は,生命現象の理解や疾患の解明に不可欠であり,その重要性は高い。
    • 深層学習モデルは高性能だが,予測根拠となる配列パターンを特定することが困難である。
    • アテンション機構を用いて重要度を学習し,予測に寄与する配列領域を特定することを目指す。
    • アテンション誘導学習フレームワークAttnGenは,検証精度96.73%を達成し,従来のCNNベースライン(95.83%)を上回った。
    • 高重要度配列を削除すると精度が大幅に低下し,モデルが限られた情報領域に依存していることが示された。
    • 10-20%の配列をマスキングすることで,予測性能と解釈可能性の最適なバランスが得られることが示唆された。

    Link: https://arxiv.org/abs/2605.14073

  • 堅牢な学習と棄権による公平かつ校正された有害性検出 [cs.LG]目的:有害性分類における公平性,校正,および棄権の評価
    • 有害なコンテンツの自動検出は,オンラインコミュニティの安全性確保に不可欠である。
    • 既存手法では,公平性と性能のバランスが十分でなく,特定のグループに対する誤検出が多い。
    • 学習方法と後処理を組み合わせ,公平性と性能を同時に向上させる手法を検討する。
    • 経験的リスク最小化(ERM)は全体的な校正性能は高いものの,特定のグループにおいて誤校正が生じていることが明らかになった。
    • 学習時の介入は公平性の格差を解消するのではなく,変化させるに過ぎないことが示された。グループDROは格差を解消するが,全体的な校正性能を損なう。
    • 後処理法は学習時の失敗モードを継承し,温度スケーリングは誤校正の非一様性により効果を発揮しない。棄権は背景コンテンツに有利に働く不公平性も確認された。

    Link: https://arxiv.org/abs/2605.14074

  • 大規模言語モデルにおける層の関連性の再考:コサイン類似度を超えて [cs.LG, cs.CL]目的:大規模言語モデルの層の関連性評価
    • 自然言語処理の進歩に不可欠であり,モデルの解釈可能性と最適化に貢献する。
    • コサイン類似度のような既存の指標では,層の重要性を正確に評価できない場合がある。
    • 層削除時の性能低下を直接評価する,より信頼性の高い指標を提案すること。
    • コサイン類似度は,層削除による性能劣化の正確な指標とはなりえないことが示された。
    • 層の重要性は,コサイン類似度と性能劣化の相関関係が弱いため,誤った解釈につながる可能性がある。
    • 層削除時の精度低下を評価する指標は,より正確な層の重要性評価と,軽量化戦略に貢献する。

    Link: https://arxiv.org/abs/2605.14075

  • CRANE:ナルスペース編集によるコードエージェントのための制約付き推論注入 [cs.SE, cs.AI, cs.CL]目的:コードエージェントにおける推論能力とツール利用プロトコル遵守の向上
    • コードエージェントは,ソフトウェア開発の自動化において重要な役割を担うため,その性能向上は不可欠である。
    • 指示(Instruct)モデルと推論(Thinking)モデルは,それぞれ異なる強みを持つが,それらを効果的に統合することが難しい。
    • Instructモデルの効率性とThinkingモデルの推論能力を両立させ,コードエージェントの性能を最大限に引き出す。
    • CRANEは,InstructモデルとThinkingモデルの差分を利用し,ツール利用を維持しつつ推論能力を向上させる。
    • Roo-Evalにおいて,Qwen3-30B-A3Bで66.2%(+19.5%),Qwen3-Next-80B-A3Bで81.5%(+8.7%)のpass1達成率を記録した。
    • SWE-bench-VerifiedとTerminal-Bench v2においても,既存手法を上回る改善が確認された。

    Link: https://arxiv.org/abs/2605.14084

  • 大規模言語モデルにおける有害性測定と軽減:包括的な再現研究 [eess.SY, cs.SY, cs.CL, cs.LG]目的:大規模言語モデルの有害性とその軽減策の効果
    • ウェブ規模のデータで学習された大規模言語モデルは,社会に広く普及しつつあり,その安全性確保が重要である。
    • 学習データに含まれる有害なパターンを吸収し,無害なプロンプトでも有害な出力を生成する「有害性退化」が問題である。
    • 推論時に有害な出力を抑制するDExpertsという手法の有効性と限界を評価し,より堅牢な安全性対策を検討する。
    • DExpertsは,明示的な有害性に対する安全性ではほぼ完璧な性能(100%)を示すことが確認された。
    • しかし,敵対的かつ間接的なヘイトスピーチに対しては脆弱であり,安全性は98.5%に低下する。
    • また,DExpertsの導入により生成時間が約10倍に増加し(0.2秒から2.0秒),リアルタイムでの展開に課題が残る。

    Link: https://arxiv.org/abs/2605.14087

  • SkillFlow:エージェントによるオーケストレーションのためのフロー駆動型再帰的スキル進化 [cs.AI]目的:複雑なタスクの自動化を通じたタスクオーケストレーション
    • 近年,LLMを活用したエージェントシステムが発展し,複雑なタスクの自動化への期待が高まっている。
    • 既存手法では,報酬最大化による戦略の収束,不透明なクレジット割り当て,非原理的なスキル進化が課題となっている。
    • 多様な戦略維持,透明性の高いクレジット割り当て,自律的な能力向上を実現するフレームワークを提案する。
    • SkillFlowは,学習可能なSupervisorと構造化された環境を用いて,タスクオーケストレーションを自動化するフローベースのフレームワークである。
    • Tempered Trajectory Balance (TTB)により,報酬に比例した軌跡をサンプリングし,戦略の多様性を維持し,クレジット割り当てを可能にする。
    • 再帰的スキル進化メカニズムは,スキルを進化させるタイミング,作成・削除するスキル,判断のギャップを決定し,自律的な能力向上を実現する。

    Link: https://arxiv.org/abs/2605.14089

  • 合成的社会性:生成モデルがどのように社会構造を私物化するか [cs.CY, cs.GR, cs.LG]目的:生成モデルによる社会的能力の自動化
    • デジタル経済の発展により,社会的なデータが商品化され,生成モデルの前提条件となっている。
    • 生成モデルによる社会性の代替または媒介が,既存の社会関係やプロセスに与える影響が不明確である。
    • シリコンバレーが所有する生成モデルによって構築される合成的社会性という新たな現実を分析し,その問題を提起する。
    • 生成モデルは,知的労働や知性だけでなく,より広範な人間社会的能力である「社会的な営み」を自動化する。
    • 生成モデルに基づいた製品の使用は,ユーザーに影響を与え,私有化された社会現実である「合成的社会性」を生み出す。
    • 本研究は,生成モデルの倫理的課題を明らかにし,より民主的な設計の可能性を検討する。

    Link: https://arxiv.org/abs/2605.14090

  • ChromaFlow:ツール支援エージェント評価におけるオーケストレーションオーバーヘッドのネガティブアブレーション研究 [cs.HC, eess.SY, cs.SY, cs.AI]目的:ツール支援エージェント評価におけるオーケストレーションオーバーヘッドの分析
    • 自律型言語モデルエージェントの有用性は増しているが,その運用上の潜在的失敗モードの可視化が課題となっている。
    • 最終的な精度だけでは,エージェントシステムの信頼性を評価するには不十分である。
    • オーケストレーションの強化が必ずしも性能向上に繋がらないことを明らかにする。
    • ChromaFlowを用いたGAIA 2023 Level-1タスク評価で,ベースラインは53問中29問を正答した。
    • オーケストレーションを拡張した構成では正答数が27問に減少し,エラーやタイムアウトが増加した。
    • より積極的なオーケストレーションは,全体的な性能を改善せず,むしろ運用上のノイズを増加させるという結果が得られた。

    Link: https://arxiv.org/abs/2605.14102

  • 地方の医療格差を解消する:自動網膜検査のためのカスケード型エッジクラウドアーキテクチャ [eess.SY, cs.SY, cs.RO, cs.CV, cs.AI, cs.LG]目的:糖尿病性網膜症の早期発見を目的とした,カスケード型エッジクラウドアーキテクチャの開発
    • 糖尿病性網膜症は,予防可能な失明の主要な原因であり,早期発見が重要である。
    • 地方では専門家やインフラが不足しており,早期発見が遅れる課題がある。
    • 低遅延かつ低コストで網膜検査を実現し,地方の医療格差を縮小することを目指す。
    • 提案手法では,Tier1でMobileNetV3-smallを用いて重症度をスクリーニングし,Tier2でRETFoundDINOv2を用いて詳細な重症度分類を行う。
    • Tier1は98.99%の感度と84.37%の特異度を達成し,Tier2への画像転送数を50.48%削減することに成功した。
    • カスケード型アーキテクチャは,クラウドのみの場合と比較して,わずかな性能低下でクラウド利用量を削減した。

    Link: https://arxiv.org/abs/2605.14108

  • 薬剤不足時の薬剤師の意思決定における注意誘導型動的分解による有界合理性のモデル化 [cs.AI, cs.HC]目的:薬剤不足時の薬剤師の意思決定プロセス
    • 医療現場における薬剤確保は,患者の安全と治療継続に不可欠である。
    • 薬剤師は限られた時間と情報の中で,迅速な意思決定を迫られることが多い。
    • 薬剤師の注意資源の配分に着目し,合理的な意思決定を支援するモデルの構築。
    • 薬剤師のインタビューに基づき,注意誘導型の動的分解フレームワークを構築した。
    • シミュレーション実験により,注意誘導型計画が安定した意思決定を可能にすることが示された。
    • 重要な意思決定は行動選択ではなく,認知資源の配分にあることが示唆された。

    Link: https://arxiv.org/abs/2605.14111

  • ProtoMedAgent:プライバシー保護機能を備えたエージェントワークフローによるマルチモーダル臨床解釈可能性 [cs.CV, cs.AI, cs.LG, cs.MA]目的:マルチモーダル臨床レポートの解釈可能性向上
    • 臨床診断における根拠に基づいた判断の重要性が高まっている。
    • 既存のRAG手法では,幻覚による誤った根拠の生成が課題となっている。
    • 信頼性の高い臨床レポート生成とプライバシー保護を両立させる。
    • ProtoMedAgentは,厳密な神経記号的ボトルネックを用いて,視覚的特徴と表形式データの潜在表現を離散的な意味記憶に変換する。
    • 臨床コホートにおいて,ProtoMedAgentは標準的なRAGと比較して,比較セットの忠実度において大幅な改善(91.2% vs. 46.2%)を示した。
    • $\ell$-多様性フェーズ移行により,メンバーシップ推論リスクを平均9.8%削減し,プライバシー保護を強化した。

    Link: https://arxiv.org/abs/2605.14113

  • LLMと強化学習による間取り生成:検証可能な報酬を用いた手法 [cs.CL, cs.CL, cs.AI]目的:プロの設計者が行う間取り設計の自動化
    • 建築設計の効率化が求められる中,AIによる間取り生成の重要性が高まっている。
    • 既存の間取り生成手法は,部屋の繋がりは考慮するものの,数値制約(面積など)を満たすことが困難であった。
    • 数値制約と構造的制約の両方を満たす間取り生成モデルの開発。
    • 大規模言語モデルを微調整し,検証可能な報酬を用いた強化学習を適用することで,間取りの数値制約および構造的制約への適合性を向上させた。
    • 生成された間取りは,ユーザ定義の制約を満たし,既存手法と比較してリアリズム,適合性,多様性の評価において優れていた。
    • 既存手法と比較して,適合性に関して少なくとも94%の相対的な低減を達成した。

    Link: https://arxiv.org/abs/2605.14117

  • Mini-JEPA基盤モデル群によるエージェント型水文知能 [cs.HC, cs.MA, cs.LG, cs.CL]目的:地理空間基盤モデル群を用いた水文に関する高度な推論
    • 地球観測データの活用は,環境問題解決や防災に不可欠であり,その重要性は増している。
    • 汎用的な基盤モデルは,特定分野の専門的な信号を捉えきれない場合がある。
    • センサー特化型モデル群によるエージェント制御で,水文分野の課題解決を目指す。
    • Mini-JEPAsは,Sentinel-2等の多様なセンサーデータを用いて事前学習され,高い再構成性能を示した。
    • 各モデルは異なる幾何学的構造を持ち,土壌や植生情報と組み合わせることでAlphaEarthを上回る予測性能を実現した。
    • ルーティングLLMは,適切なセンサーを完璧な精度で選択し,物理に基づいた質問においてAlphaEarthよりも優れた結果を得た。

    Link: https://arxiv.org/abs/2605.14120

  • 高速ヘルスケア相互運用性リソース(FHIR)におけるツール呼び出しエージェントのための強化学習 [cs.CL, cs.LG, cs.AI]目的:FHIR環境における質問応答性能の向上
    • 医療データの相互運用性が重要視される中,FHIRが標準として広く採用されている。
    • 既存のLLMエージェントは,誤ったリソース選択やトラバーサル制約違反といった課題を抱えている。
    • 強化学習を用いて,FHIRデータに対する多段階推論の精度とデータ整合性を高める。
    • 強化学習による後学習が,FHIR-AgentBenchにおける正答率を50%から77%に向上させた。
    • より小型かつ安価なQwen3-8Bモデルを使用しても,性能向上が確認された。
    • 環境構築からモデル訓練,評価までを含む,再現性の高い後学習パイプラインを提示した。

    Link: https://arxiv.org/abs/2605.14126

  • ClawForge:コマンドラインエージェント向け実行可能インタラクティブベンチマークの生成 [cs.AI]目的:コマンドラインエージェントのための実行可能インタラクティブベンチマーク生成フレームワーク
    • エージェントの能力評価は,AI開発において不可欠であり,現実世界での応用を促進する。
    • 既存のベンチマークは初期状態からタスクを開始するため,既存の状態との相互作用を評価できていない。
    • 状態の競合下におけるエージェントの性能を評価し,より堅牢なエージェント開発を目指す。
    • ClawForgeは,シナリオテンプレートから再現可能なタスク仕様を生成し,状態競合下のコマンドラインワークフローを評価する。
    • 7つの最先端モデルの評価実験で,厳密な正解率は45.3%に留まり,状態競合への対処能力に課題が残る。
    • 既存の状態を検査する能力がモデル間の性能差に大きく影響し,多くの失敗はわずかな誤りによるものであることが示された。

    Link: https://arxiv.org/abs/2605.14133

  • LLMエージェントによる分布を考慮したアルゴリズム設計 [cs.CE, cs.AI]目的:実行可能なソルバーコードの学習
    • 最適化問題解決において,高速なソルバーの重要性は高い。複雑な問題に対して実用的な時間で解を求めるには不可欠である。
    • 既存ソルバーは汎用性が高く,特定の分布に最適化されていないため,計算効率が低い場合がある。
    • 未知のタスク分布に適応し,効率的なソルバーコードを自動的に生成すること。
    • 本研究では,LLMエージェントを用いて,特定の問題分布に最適化されたソルバーを合成するフレームワークを提案した。
    • 提案手法により生成されたソルバーは,既存のヒューリスティックや商用ソルバーと比較して,品質を維持しつつ大幅な高速化を実現した。
    • 特に,PACE 2025 Dominating Setの私的インスタンスにおいて,競合ソルバーよりも2桁高速に実行可能であることを示した。

    Link: https://arxiv.org/abs/2605.14141

  • bde:MILEによるベイズ深層アンサンブルのためのPythonパッケージ [cs.LG]目的:ベイズ深層アンサンブルの提供
    • 機械学習モデルの不確実性評価は,信頼性の高い意思決定に不可欠である。
    • 深層学習モデルの不確実性評価は計算コストが高く,困難な場合がある。
    • 効率的なMILE法を用いた不確実性評価による高速な学習と推論を実現する。
    • bdeは,表形式データに特化したベイズ深層アンサンブルのための使いやすいPythonパッケージである。
    • JAXによる効率的な実装により,高速な学習と効率的なマルコフ連鎖モンテカルロサンプリングが可能である。
    • 回帰および分類タスクの両方において,不確実性の定量化を提供する。

    Link: https://arxiv.org/abs/2605.14146

  • バイオメディカル二値分類における不均衡データ処理手法の系統的評価 [cs.LG]目的:バイオメディカル二値分類における不均衡データ処理手法の予測性能への影響
    • バイオメディカルデータは,疾患の希少性などから不均衡になりやすく,その対処が重要である。
    • 不均衡データに対する既存手法の効果は,モデルの複雑さやデータ形式に依存すると考えられるが,系統的な評価が不足している。
    • モデルの複雑さとデータ形式に応じて,適切な不均衡データ処理手法を特定すること。
    • 単純なモデル(ロジスティック回帰など)では,不均衡データ処理手法は効果を示さなかった。
    • 複雑なモデルや非構造化データ(テキスト,画像)では,ROSやRWが性能向上に寄与した。
    • F1スコア最適化は非構造化データで有効であったが,RUSやSMOTEは性能を低下させた。

    Link: https://arxiv.org/abs/2605.14147

  • ROK-FORTRESS:国家安全保障と公共の安全に対する地政学的トランスクリエーションの影響測定 [cs.CL, cs.AI, cs.CR, cs.CY]目的:大規模言語モデルの国家安全保障および公共の安全に関する安全性評価
    • 国家安全保障と公共の安全は,社会の安定と国民の保護に不可欠であるため,高度な評価が求められる。
    • 多言語における安全性評価は翻訳のみに依存し,言語と地政学的文脈の相互作用が十分に考慮されていない。
    • 本研究は,言語と地政学的背景の影響を分離し,安全性評価の精度向上を目指す。
    • 英語と韓国語,そして米韓関係を対象とした実験により,韓国語のモデルでは抑制効果が確認された。
    • 地政学的背景は言語と相互作用し,モデルによってその影響は異なることが示された。
    • 韓国語の地政学的背景は,言語による抑制効果を軽減する傾向にあり,翻訳のみの評価では見落とされる要素があることが示唆された。

    Link: https://arxiv.org/abs/2605.14152

  • ExploitBench:LLMセキュリティエージェントのための能力段階評価ベンチマーク [cs.CR, cs.AI]目的:LLMセキュリティエージェントの能力段階評価
    • サイバーセキュリティ分野において,脆弱性攻撃の高度化に対応できるAIエージェントの育成が重要である。
    • 既存のセキュリティベンチマークは,脆弱性の悪用を単純な成功/失敗で評価しており,攻撃の段階的なプロセスを捉えられていない。
    • 本研究は,脆弱性攻撃の各段階を定量的に評価することで,LLMセキュリティエージェントの能力向上を目指す。
    • ExploitBenchは,脆弱性攻撃を16段階の能力レベルに分解し,各段階を客観的に評価する。
    • 公開されている最先端モデルは,脆弱なコードへの到達やクラッシュの発生は可能だが,任意のコード実行には至らないことが多い。
    • 一方,非公開の最先端モデルは,約半数のケースで任意のコード実行に成功しており,攻撃の能力差が明確に示された。

    Link: https://arxiv.org/abs/2605.14153

  • 小児睡眠多変量埋め込みにおける軌跡と位相的特徴の解明 [cs.LG]目的:小児睡眠の多変量埋め込みにおける軌跡と位相的特徴の分析
    • 小児睡眠は成長発達に不可欠であり,睡眠障害の早期発見が重要である。
    • 睡眠データの潜在構造が十分に解明されておらず,診断精度の向上が課題である。
    • 埋め込み表現を拡張し,睡眠データの解釈可能性と診断精度を向上させる。
    • 多変量埋め込みにPHATE座標,夜間運動記述子,持続ホモロジーを追加することで,タスクに関連する信号が得られた。
    • 特徴量の重要度はタスクに依存するが,より表現力のある後方融合モデルが一般的に良好な性能を示した。
    • 完全な融合モデルは,4つの二値タスクすべてで最高の較正性能を示し,潜在的な幾何学的/位相的特徴とEHRの有用性が示された。

    Link: https://arxiv.org/abs/2605.14156

  • 弱推論モデルを強化するエージェントシステム [eess.SY, cs.SY, cs.ET, cs.AR, cs.SY, eess.SY, cs.AI]目的:弱い推論モデルの集合による探索を通じた,推論言語モデルの性能向上
    • 複雑な推論タスクにおいて,高度な言語モデルの性能は重要であり,その開発はAI研究の重要な課題である。
    • 既存の言語モデルは,推論能力に限界があり,特に複雑な問題解決において誤りが生じやすい。
    • 複数の弱モデルの協調的な探索により,より強力なモデルに匹敵する性能を達成することを目指す。
    • 検証に基づいた委員会探索により,単一の弱モデルよりも優れた性能が得られることが示された。
    • 提案カバレッジの増幅,局所的な識別可能性,進捗,多様性の重要性が明らかにされた。
    • GPT-5.4 nanoモデルの提案と,そのモデルによる批判・比較のオーケストレーションにより,Gemini 3 ProやClaude Opus 4.5に匹敵する性能が達成された。

    Link: https://arxiv.org/abs/2605.14163

  • AIモデル開発における不安定な評価指標とベンチマーク文化 [cs.AI]目的:AIモデル開発におけるベンチマーク選択と情報伝達の実態の解明
    • AI技術の進歩は目覚ましいが,その評価方法は統一されておらず,研究者や一般の理解を妨げている。
    • AIモデルの性能評価が,査読付き論文よりも企業による広報活動に依存する傾向が強まっている。
    • ベンチマークの選択が,科学的評価よりも市場戦略に左右される状況を明らかにする。
    • AIモデル開発において,1つのベンチマークを使用する企業は少数であり,ベンチマークの利用状況は分散している。
    • ベンチマークは,その作成者によって評価される能力が異なっており,企業は自社の戦略に合わせてベンチマークを選択している。
    • 多くのベンチマークは,厳密な妥当性検証よりも,AGIへの進歩を示す指標としての役割を重視している。

    Link: https://arxiv.org/abs/2605.14164

  • 評価の罠:ベンチマーク設計における理論的コミットメント [cs.AI, cs.CY]目的:AIベンチマーク設計における理論的コミットメントの構造的限界
    • AI研究の進展には,客観的で信頼性の高い評価が不可欠である。
    • 既存のベンチマークが,特定の理論的仮定に偏っている場合がある。
    • ベンチマーク設計の妥当性を検証し,評価と能力の関係を明確にすること。
    • AIベンチマークは,評価対象となる能力についての理論的仮定を内在している。
    • 未検証の仮定が組み込まれたベンチマークは,特定のパラダイムを固定化し,進歩の定義を狭める。
    • Epistematicsという評価基準導出と監査のメソッドを提案し,ベンチマーク設計の基準を提示した。

    Link: https://arxiv.org/abs/2605.14167

  • スコア一致による学習における有限サンプル限界 [cs.LG, cs.DS, stat.ML]目的:スコア一致を用いた指数族の構造学習のサンプル複雑度
    • 高次元統計において,連続変数の指数族分布の学習は重要である。
    • スコア一致は計算が容易だが,その統計的性質に関する理論的理解が不足している。
    • 指数族の多項式におけるスコア一致を用いた構造学習のサンプル複雑度の解析を行う。
    • 本研究は,モデル次元に関する多項式依存性を示すサンプル限界を導出した。
    • これは,これまで存在しなかった結果であり,既存研究は漸近的なサンプル複雑度のみを示していた。

    Link: https://arxiv.org/abs/2605.14168

  • CSI-JEPA:最小限の教師あり学習による遍在センシングのための基礎表現の探求 [cs.LG, cs.NI]目的:Wi-Fi環境における汎用的なセンシングのための基礎表現学習
    • 無線通信のチャネルステート情報(CSI)は,人間や環境の認識に有用であり,多様な応用が期待される。
    • 従来のCSIセンシングモデルは,タスクごとに教師あり学習が必要で,大量のラベル付きデータが必要となる。
    • ラベル付けコストを削減し,多様なタスクに対応可能な汎用的なCSI表現学習を目指す。
    • CSI-JEPAは,ラベルなしCSIデータから再利用可能な時系列スペクトル表現を学習する自己教師あり学習フレームワークである。
    • チャネルの物理構造を考慮したトークン化と,変動の大きい領域を重点的に予測するマスキング戦略を導入することで,高い性能を実現した。
    • 7つの実世界のWi-Fiセンシングタスクにおいて,最先端の教師あり学習モデルや同等のラベル量での学習と比較して,精度向上とラベルコスト削減を達成した。

    Link: https://arxiv.org/abs/2605.14171

  • 根拠付き継続:LLM会話のための線形時間実行時検証器 [cs.RO, cs.AI]目的:LLM会話における一貫性検証
    • LLMの会話能力向上は重要だが,長文会話では誤った前提に基づく発言が発生しうる。
    • LLMは会話の文脈を正確に把握できず,過去に放棄された前提に依拠した発言をしてしまうことがある。
    • LLMの会話における前提の整合性を検証し,誤った発言を検出することを目指す。
    • 本研究では,明示的な依存グラフを維持する実行時検証器を提案し,会話の各ターンを4つの形式論理に基づいた8つの更新操作に分類する。
    • 検証器はLongMemEval-KUデータセットで89.7%の精度を達成し,LLM単体(88.5%)やRAGベースライン(87.2%)を上回った。
    • マルチエージェントシナリオや根拠テストにおいても高い精度を示し,LLMの健全性と忠実性の分解を示した。

    Link: https://arxiv.org/abs/2605.14175

  • 先を見据えて:言語モデルによる展望に基づいた記憶の検索 [cs.IR, cs.AI, cs.CL]目的:長期的なパーソナライズのための対話型アシスタントにおける,ユーザー固有の事実の拡張された対話履歴からの検索
    • 対話システムのパーソナライズは重要であり,ユーザーの過去の対話内容を理解することが不可欠である。
    • 従来の検索手法では,クエリと関連する事実との意味的類似性が低い場合,事実を効果的に検索できない。
    • 展望という人間の能力に着想を得て,記憶の保存方法と検索方法を切り離し,より関連性の高い情報を検索すること。
    • 提案手法PGRは,クエリを将来のステップに拡張し,それらを検索プローブとして使用することで,既存手法よりも大幅に検索性能を向上させた。
    • 特に,MemoryQuestベンチマークにおいて,PGR-TOTは最も強力なベースラインと比較して,リコール率をほぼ3倍に改善した。
    • LLMおよび人間の評価において,PGRによって生成された応答はベースラインよりも89~98%のクエリで好まれた。

    Link: https://arxiv.org/abs/2605.14177

  • LLMは自身の知識レベルを認識しているが,それを活かせていない:テスト時スケーリングのためのメタ認知ハネネス [cs.LG]目的:大規模言語モデルにおけるメタ認知能力の活用
    • LLMの性能向上は,AI研究における重要な課題であり,実用的な応用を促進する。
    • LLMは自己評価能力を持つものの,推論過程を制御できていないという問題がある。
    • LLMの自己評価能力を推論制御に活用し,性能向上を目指す。
    • 提案手法は,LLMが問題解決前に成功可能性を予測し,解決後に解答の正しさを判断する能力を活用する。
    • このハネネスを用いることで,LLMは解答を信頼するか,再試行するか,最終集約器に委ねるかを判断できる。
    • 実験結果から,提案手法はClaude Sonnet-4.6の精度を向上させ,既存のリーダーボード上位エントリを上回る性能を示した。

    Link: https://arxiv.org/abs/2605.14186