arXiv雑要約

AI - 2026/06/03 公開

表形式データ基盤モデルの高速事前学習 [eess.SY, cs.SY, cs.LG]目的：表形式データ基盤モデルの事前学習の高速化手法の確立
- 表形式データは広く利用され，その分析は重要である。効率的な事前学習が求められている。
- 事前学習コストが高く，新しいアーキテクチャや最適化手法の検証が遅れているという課題がある。
- 事前学習の改善を容易にし，コミュニティによる貢献を促進することで，研究の加速を目指す。
- nanoTabPFNの事前学習において，0.92分という記録を達成し，ベースラインの74.32分から81倍の高速化を実現した。
- 合成データセットの使用量を22分の1に削減し，効率的な事前学習の可能性を示した。
- この高速化競争の形式が，事前学習改善の検証と積み重ねを促進するシンプルな手法を提供する。
Link: https://arxiv.org/abs/2606.03681
教師ありファインチューニングされたLLMプランナーにおけるワールドモデルの回復に関する詳細な検討 [cs.RO, cs.LG, cs.AI]目的：LLMプランナーにおけるワールドモデルの回復の度合いの評価
- LLMは複雑な問題を解決できる可能性があり，その過程での知識表現が重要視されている。
- LLMのプランニング能力向上に伴い，内部表現がどのように変化しているか不明な点が多い。
- ファインチューニングされたLLMが，問題解決に必要なワールドモデルをどの程度学習しているかを検証する。
- 教師ありファインチューニングにより，LLMは行動の有効性と状態述語を線形に符号化する能力を獲得する。
- 出力確率による行動有効性の分類に苦戦するモデルでも，有効な行動と無効な行動を区別する内部表現を学習することがある。
- ファインチューニング時の状態空間の範囲を広げることで，基礎となるワールドモデルのより正確な回復が可能になる。
Link: https://arxiv.org/abs/2606.03685
DeepSpeak-Agentic データセット [cs.AI]目的：人間と具現化されたAIエージェント間の半構造化された会話動画
- AI技術の発展に伴い，AIエージェントと人間のインタラクションの研究が重要になっている。
- AI生成コンテンツの識別は難しく，特に音声や映像のフォレンジックな特定が課題である。
- AIエージェントの自動フォレンジック識別と，人間-エージェント間のインタラクション分析を目指す。
- 37時間以上の会話動画データセット DeepSpeak-Agentic を構築し，公開した。
- AIエージェントの識別，インタラクションの性質分析，大規模言語モデルのベンチマークに活用できる。
- AIエージェント作成，人間との対話記録，映像・音声の分離を行うデータ収集システムを開発した。
Link: https://arxiv.org/abs/2606.03686
生存分析における検閲データ対応のための基礎モデル活用 [cs.LG, cs.AI]目的：生存時間予測における検閲データの取り扱い
- 医療や顧客離反予測など，イベント発生までの時間を分析する生存分析は，多様な分野で重要である。
- イベント発生時刻が完全に観測されない「右検閲」が，生存分析の適用における課題となっている。
- 基礎モデルを活用し，右検閲データに対応した生存時間予測手法を開発し，その有効性を検証する。
- 基礎モデルを用いて，パラメータの学習なしに生存時間予測を行う手法を提案した。
- 提案手法は，Buckley-James推定量に基づき，右検閲データの文脈内推定器を導入した。
- 標準的な生存分析ベンチマークにおいて，学習が必要な既存モデルと同等の性能を示した。
Link: https://arxiv.org/abs/2606.03689
スキルピラミッド：自己進化エージェントのための階層的スキル統合フレームワーク [cs.AI, cs.CL]目的：スキル構築，蓄積，転移の体系的欠如によるAIエージェントの長期的な改善の制約克服
- 複雑なタスク解決において，AIエージェントの柔軟なスキル活用が重要視されている
- スキル統合の統一的フレームワークがなく，類似スキルの重複構築や汎化の困難さが課題
- 既存スキルを再利用し，タスク汎化能力を高めるためのスキル統合フレームワークの提案
- SkillPyramidは，階層的スキル構造と自己進化メカニズムにより，既存スキルの再利用を促進する
- ALFWorld，WebShop，ScienceWorldでの実験により，平均報酬が38.0%向上し，実行ステップが27.7%削減された
- 本手法は，静的なスキル集合を動的な進化システムへと変革する
Link: https://arxiv.org/abs/2606.03692
Multi$^2$: LLMベースエージェントによるインタラクティブ環境における階層型マルチエージェント意思決定 [cs.LG]目的：LLMベースエージェントの階層型マルチエージェント意思決定フレームワーク
- 大規模言語モデルの応用範囲拡大のため，動的環境との継続的な相互作用を可能にする自律エージェントの開発が重要である。
- 従来のLLMベースエージェントは，長期的な意思決定において目標のずれが生じやすく，安定性に課題があった。
- 本研究は，目標のずれを抑制し，安定した長期制御を実現する階層型フレームワークを提案することで，この課題を解決する。
- Multi$^2$は，高レベルエージェントによる文脈を考慮したサブ目標生成と，低レベルエージェントによるオフラインからオンラインへの強化学習による行動実行を分離することで，安定した長期制御を可能にした。
- 多様なインタラクティブ環境において，Multi$^2$は既存のベースラインを凌駕し，マルチターンインタラクションにおける堅牢性と協調性を向上させた。
- 本研究では，LLMベースエージェントの階層型意思決定の訓練と評価における長年のギャップを埋める，3つの階層型ベンチマークデータセットを新たに導入し，公開した。
Link: https://arxiv.org/abs/2606.03698
金融意思決定のための動的目標選択：安全策とLLMによる監視 [cs.AI, cs.CE, cs.CY]目的：金融市場における意思決定目標の動的な選択
- 金融市場は常に変化するため，最適な投資戦略は時間と共に変化する。
- 従来の固定的な目標設定や，遅延のある市場状態推定による切り替えは課題である。
- 市場の状況変化に対応し，安定した運用を可能にする意思決定手法の確立。
- 提案手法DOSSは，過去の収益データから適切な目標関数を直接選択する。
- DOSSは，信頼度スコアに基づき，低い場合は安全なデフォルト目標に切り替える。
- LLMを監視役として組み込み，提案された目標の承認または安全なデフォルトへの変更を行う。
Link: https://arxiv.org/abs/2606.03704
グラフ上のコード：知識グラフを用いた大規模言語モデルによる反復的なプログラム的推論 [cs.AI]目的：知識グラフと大規模言語モデルの統合によるプログラム的推論
- 知識は常に変化するため，大規模言語モデルの知識の鮮度と正確性を維持することが重要である。
- 既存手法では，知識グラフの複雑な意味を捉えきれず，大規模な知識に対応できないという課題がある。
- 知識グラフのスキーマをPythonクラスとして表現し，コード生成によって柔軟な推論を実現する。
- 提案手法Code-on-Graph（CoG）は，知識グラフから取得した情報をPythonクラスのオブジェクトとして扱うことで，柔軟かつスケーラブルな推論を可能にする。
- CoGは，既存の最先端モデルと比較して，WebQSP，CWQ，GrailQAのデータセットで最大10.5%の性能向上を達成した。
- CoGは，大規模な知識をプロンプトに直接注入することなく，コードベースの推論を実現することで，スケーラビリティの問題を克服する。
Link: https://arxiv.org/abs/2606.03705
グラフトークンが沈降するとき：グラフ言語モデルのメカニズム分析 [cs.LG]目的：グラフ言語モデルにおけるグラフトークンの内部解釈のメカニズム解明
- グラフ構造とテキスト情報を統合し，グラフ学習タスクへの大規模言語モデルの応用が期待されている
- グラフトークンがグラフ構造を意味的にどのように表現しているか不明であり，有効活用が課題である
- グラフトークンの挙動を分析し，グラフ構造の表現における課題を明らかにする
- グラフ言語モデルにおけるグラフトークンの重要度は，活性化レベルの高さとグラフ情報の利用度で一致しないことが示された
- グラフシンクトークンは活性化レベルが高いが，必ずしも注意機構による主要な情報伝達経路ではないことが明らかになった
- グラフシンクトークンの削除，位置変更，入れ替え実験により，その重要性が低いことが確認された
Link: https://arxiv.org/abs/2606.03712
ドゥ・カルキュラス推論の構造：導出グラフによる解明 [eess.SY, cs.SY, cs.IR, cs.AI]目的：介入クエリに対する推論の体系であるドゥ・カルキュラスの構造
- 因果推論において，介入の効果を正確に評価することは不可欠である。
- ドゥ・カルキュラスのルールを組み合わせ，適用順序を決定することは困難である。
- ドゥ・カルキュラスにおけるルールの適用と組み合わせ方を可視化し，効率的な推論を可能とする。
- 導出グラフを用いることで，ドゥ・カルキュラスによって同値となる観測および介入確率の全空間を特徴づけられる。
- グラフの構造から，ドゥ・カルキュラスのルールを最大4回の適用で済む簡潔な手順が得られる。
- 同値な因果クエリに識別アルゴリズムを適用することで，同一因果量に対する複数の有効な推定値が得られ，より効率的な推定器につながる。
Link: https://arxiv.org/abs/2606.03719
圧縮後マージ：複数のLoRAから一つの低ランクアダプターへ [cs.LG]目的：複数LoRAのアダプター統合による，効率的な基盤モデルの特化
- 基盤モデルの特化は重要だが，多数のアダプターが生成されると，再利用やデプロイが煩雑になる。
- 多数のタスク固有アダプターが能力を分散させ，それらを効率的に統合する手法が課題となっている。
- 低ランク構造を維持しつつ，複数のLoRAを単一の低ランクアダプターに統合することを目指す。
- 提案手法（CtM）は，マージ前にランク制限を適用することで，低ランク構造を保証し，効率的な計算を実現する。
- CtMは，既存のシングルLoRA出力ベースラインよりも一貫して優れた性能を示し，フルパラメータマージとの性能差を縮小する。
- 従来のMerge-then-Compress手法とは異なり，CtMはマージ後に切り捨てを行う必要がなく，効果的な低ランクLoRAを復元しやすい。
Link: https://arxiv.org/abs/2606.03723
事後サンプリングによる共形言語モデリング [cs.LG, stat.ML]目的：大規模言語モデルにおけるハルシネーションの抑制
- 大規模言語モデルの利用拡大に伴い，その信頼性確保が重要課題となっている。
- 既存手法は事後処理に依存するため，生成文の整合性やモデルの確率分布との乖離が生じやすい。
- 事後分布の近似サンプリングを通じて，生成段階でのハルシネーションを抑制し，有用な応答を生成すること。
- 提案手法は，条件付き逐次生成に特化した較正手順を開発し，リスク制御の目標を達成した。
- オープンエンドの伝記生成や数学の問題解決において，既存手法と同等の統計的保証を得ながら，より高い実用性を示した。
- 生成とフィルタリングの一貫性を保ち，モデルが生成する確率質量をより有用な応答へシフトさせることに成功した。
Link: https://arxiv.org/abs/2606.03731
計画を再実行するタイミング：階層的潜在推論におけるサブゴール持続性 [cs.AI]目的：長期間の推論における安定性と適応性のトレードオフの解明
- 複雑な問題を解決するには，長期的な計画能力が不可欠であり，AI研究の重要な課題である。
- 計画を頻繁にやり直すと計算がまとまらず，長期間固定すると計画が陳腐化するという問題がある。
- 潜在推論システムにおいて，最適なサブゴール持続期間を見つけ，計画の構成性を促進することを目指す。
- サブゴール持続期間Pを3～6ステップに設定することで，ARCおよびConceptARCにおいて損失が最小化された。
- サブゴールの注入だけでなく，持続性こそが性能向上の主要な要因であることが示された。
- 最適なアラインメント重みλは約0.05であり，学習された方向性構造が干渉源となることが確認された。
Link: https://arxiv.org/abs/2606.03741
Proof-Refactor：生成された形式証明のモジュール化 [cs.DL, cs.AI]目的：生成された形式証明のモジュール化
- 形式証明は，ソフトウェアやハードウェアの信頼性向上に不可欠であり，その自動化が重要視されている。
- LLMによる形式証明の生成は進むも，証明の可読性や再利用性が低いことが課題となっていた。
- 本研究は，人間の証明リファクタリング手法に着想を得たフレームワークにより，証明の構造改善を目指す。
- Proof-Refactorは，PutnamBenchおよびPutnam2025のLean証明において，リファクタリングスコアの改善を達成した。
- 特に，署名品質と人間による可読性の向上が顕著であった。
- プロセス駆動型リファクタリングが，証明の長さを主要な目的とせずに構造改善に寄与することが示唆された。
Link: https://arxiv.org/abs/2606.03743
Qwen-Image-Flash：客観的設計を超えて [cs.CV, cs.AI, cs.GR, cs.LG]目的：高度な画像生成モデルの高速化戦略
- 画像生成モデルは，その応用範囲の広さから重要性が増している。
- 既存研究では，蒸留目的関数に焦点が当たり，学習レシピの重要性が見過ごされていた。
- 学習レシピ全体の最適化により，効率的な少数ステップ蒸留を実現すること。
- Qwen-Image-2.0を用いた実験で，データ構成，教師ガイダンス，タスク混合が性能に大きく影響することが示された。
- 効果的な少数ステップ蒸留には，目的関数だけでなく，学習パイプライン全体の体系的な構成が不可欠である。
- これらの知見に基づき，Qwen-Image-Flashを開発し，高い性能を達成した。
Link: https://arxiv.org/abs/2606.03746
Ultralytics YOLO26：統合リアルタイムエンドツーエンド画像認識モデル [cs.CV, cs.AI]目的：リアルタイム画像認識モデルの精度，効率，展開の容易性の向上
- リアルタイム画像認識技術は，多様なハードウェアでの応用が求められ，その重要性は増している。
- 従来のYOLO検出器は，非最大抑制に依存，検出ヘッドが重い，学習に時間がかかるなどの課題があった。
- YOLO26は，これらの課題を克服し，リアルタイム画像認識の性能向上を目指している。
- YOLO26は，NMSフリーな推論を実現するデュアルヘッド設計と，DFLの削除により，軽量なヘッドを実現した。
- MuSGD，Progressive Loss，STALといった学習パイプラインの改善により，特に小さい物体に対する検出精度を向上させた。
- COCOデータセットにおいて40.9-57.5 mAP，LVIS minivalにおいて40.6 APを達成し，既存のリアルタイム検出器を上回る性能を示した。
Link: https://arxiv.org/abs/2606.03748
自律科学のためのエージェント-計測機器プロトコル：LAP [cs.DC, cs.AI]目的：自律科学におけるエージェントと計測機器間の連携
- 科学研究の自動化は，効率化と新たな発見の加速に不可欠である。
- 既存の計測機器SDKは，自律エージェントとの連携を想定しておらず，標準化が課題である。
- エージェントと計測機器間の安全かつ確実な通信プロトコルを確立し，自動実験を実現する。
- 本研究で提案するLAPは，エージェントと計測機器間の通信を標準化し，安全性を確保するプロトコルである。
- LAPは，機器カード，予約システム，安全フェンス，測定結果スキーマなどの物理世界に特化した機能を備えている。
- LAPは既存のA2A/MCPエコシステムと互換性があり，SiLA 2やOPC-UAといった既存のデバイス標準を包含する。
Link: https://arxiv.org/abs/2606.03755
ゼロショット汎化型経路計画のためのニューラルナビゲーション関数 [cs.RO, cs.LG]目的：未踏の環境形状へのゼロショット転移が可能な，学習された反応的ナビゲーション関数
- ロボットの自律的な移動は重要であり，複雑な環境への適応が課題である。
- 従来の経路計画手法は，環境の変化に弱く，汎化性能に限界がある。
- 未知の環境においても，安全かつ効率的に経路を計画できる手法を開発する。
- ニューラルナビゲーション関数(Neural-NF)は，様々な形状の環境で高いゼロショット転移性能を達成した。
- Neural-NFは，直接的に価値関数を予測する学習型プランナーと比較して，最大5倍の性能向上を示した。
- Neural-NFは，衝突回避，単調減少，目標地点での大域的最小値の保証という特性を持つ。
Link: https://arxiv.org/abs/2606.03756
エントロピー誘導によるツール対応最適化：効率的なエージェント強化学習 [cs.CL, cs.LG, cs.AI]目的：ツール対応強化学習における効率的な方策最適化
- 大規模言語モデルの推論能力向上に不可欠であり，複雑なタスク解決への応用が期待される。
- 外部ツールの利用が不安定化要因となり，入力分布のシフトや探索の停滞が生じやすい。
- ツール利用の安定化と効果的な探索を両立し，強化学習の性能向上を目指す。
- 提案手法TAO-RLは，ツール対応軌道フィルタリングとエントロピー誘導による探索を組み合わせることで，効率的な学習を実現した。
- 軌道フィルタリングにより，高品質な学習分布を確立し，情報量の少ないデータを除去することに成功した。
- 7つの推論ベンチマークにおいて，既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.03762
E2LLM：異質なエッジ/フォグ環境における効率的なLLM提供に向けて [cs.CL, cs.DC, cs.AI]目的：異質なエッジ/フォグ環境における効率的なLLM展開
- LLMは現代のアプリケーションに不可欠だが，展開には課題が多い。効率性，低遅延性，資源利用が重要となる。
- 従来のLLM展開は単一デバイスへのホスティングを前提とし，資源制約のあるエッジ/フォグ環境では限界がある。
- E2LLMは，資源制約下でも効率的なLLM展開を可能にする。モデルの複製と並列処理により，性能向上を目指す。
- E2LLMは，複数のデバイスグループにモデルを複製し，各レプリカにPREFILLまたはDECODERの役割を割り当てる。
- 遺伝的アルゴリズムによるデバイスのクラスタリングと動的計画法による最適な分割戦略により，システム性能を最大化する。
- 実験結果は，E2LLMが変動するワークロードにロバストに適応し，高需要下で平均待ち時間を50%以上削減することを示した。
Link: https://arxiv.org/abs/2606.03770
制御境界から保険請求へ：CERフレームワークを通じたAI媒介損失の再構築 [cs.AI, cs.CR, q-fin.RM]目的：AI媒介損失の再構築
- AI技術の発展に伴い，その利用範囲は拡大しており，新たなリスクが生じている。
- AIシステムによる損失発生時の原因究明が困難であり，保険請求の根拠となりうる証拠の収集が課題である。
- AIシステムの運用範囲，状態，因果連鎖を再構築し，保険請求への適合性を評価する。
- 本研究では，AI固有の再構築問題を定義し，CERフレームワークを通じてそれを具体化した。
- CERフレームワークは，制御境界，証拠再構築，保険対応の3つの要素から構成され，AI残余リスク移転の診断に役立つ。
- ポケットOSやReplitの事例，Moffatt v. Air Canada判例などを通じて，実用的な証拠基準を提示した。
Link: https://arxiv.org/abs/2606.03777
スパースMoE言語モデルにおける事実想起の因果追跡：専門家への配慮 [cs.CL, cs.LG]目的：スパースMoE言語モデルにおける事実想起の因果追跡
- 大規模言語モデルの性能向上に伴い，その推論過程の解明が重要となっている。
- MoEモデルでは，どの専門家が事実想起に寄与しているのかが不明確である。
- MoEモデルにおける事実想起に関わる専門家を特定し，モデルの解釈性を高める。
- Qwen3-30B-A3B-Baseにおいて，44層目とL44E069専門家が重要な役割を果たすことが確認された。
- Mixtral-8x7B-v0.1では，層レベルでのシグナルは確認されたが，単一の専門家に局在せず，複数の専門家の連携が重要であることが示された。
- MoEモデルにおける事実想起の追跡は専門家を考慮する必要があり，その局在性はモデルやプロトコルに依存する。
Link: https://arxiv.org/abs/2606.03780
プロンプト認識型重み付けによる学習不要のマルチコンセプトLoRA合成 [cs.CV, cs.LG]目的：マルチコンセプトカスタマイズの実現
- 画像生成モデルのパーソナライズは重要であり，LoRAはその有効な手法の一つである。
- 複数のLoRAを単純に組み合わせると，コンセプト間の干渉が生じ，画質が低下する。
- プロンプトに存在する各コンセプトの重要度に応じた重み付けで，この問題を解決する。
- 提案手法W-SwitchとW-Compositeは，プロンプト内のトリガーワードの重要度に基づいてLoRAの重みを調整する。
- ComposLoRAテストベッドにおいて，提案手法は既存手法と比較して，画質，同一性保持，構成性の点で一貫した改善を示した。
- LLMに基づく評価とユーザースタディの結果も，提案手法の有効性を裏付けており，新たな画像ベースの評価指標と整合性がある。
Link: https://arxiv.org/abs/2606.03792
無線干渉グラフを持つグラフニューラルネットワークの限界分析 [cs.LG, eess.SP]目的：無線ネットワークにおけるグラフニューラルネットワークの転移学習可能性
- 通信ネットワークの構造をグラフとして活用するGNNは，資源配分において強力な手法となり得る。
- 大規模ネットワークへの展開には，学習済みモデルの汎化性能が課題となる。
- 疎なランダム幾何グラフにおけるGNNの転移学習の限界を理論的に解明する。
- 疎なランダム幾何グラフと決定論的グリッドグラフの類似性に基づき，スケール変更時の性能損失の上界を導出した。
- リンクスケジューリング問題において，提案手法が既存手法と比較して優れた性能を示すことを実験的に確認した。
- 理論的仮定が実証的な性能に与える影響を検証した。
Link: https://arxiv.org/abs/2606.03794
直交容易軸磁性トンネル接合による符号化スパイクニューロン [cs.NE, cs.AI]目的：符号化リーキー積分発火ニューロンの動作を実現する磁性トンネル接合ベースのニューロンの提案
- 脳型コンピューティングの実現に向け，ニューロンモデルの高性能化が求められている。
- 従来のスパイクニューロンでは情報表現の限界があり，より高機能なニューロンが必要とされている。
- 符号化スパイクニューロンを磁性トンネル接合で実現し，小型化と高性能化を目指す。
- 直交容易軸を持つ磁性トンネル接合を用いることで，双極性のスパイク生成が可能となった。
- シミュレーション結果から，適切な自由層の寸法により，符号化リーキー積分発火方程式に従う動作が確認された。
- CIFAR-10とCIFAR10-DVSの評価で，それぞれ91.06%と77.40%の精度を達成し，理想的な符号化リーキー積分発火ニューロンと同等の性能を示した。
Link: https://arxiv.org/abs/2606.03796
強化学習型検証可能報酬(RLVR)における人間によるキュレーションと合成拡張のトレードオフ [cs.RO, cs.LG, cs.AI]目的：強化学習型検証可能報酬(RLVR)におけるタスクの質とコスト効率のトレードオフの定量化
- エージェント型言語モデルの学習には大量の高品質な学習タスクが必要不可欠である。
- 手動でのタスク作成は費用がかかり，スケールしないため，学習のボトルネックとなっている。
- 合成拡張によって人間によるキュレーションを代替し，学習コストを削減することを目指す。
- 事前定義されたフィルタリングされた拡張を基盤タスクに追加することで，追加の人間のキュレーションを代替可能であることが示された。
- 拡張タスクと人間が作成したタスクのコスト調整されたトレードレート $\rho_{\text{cost}}$ は，1.4倍から11.6倍の範囲に収まった。
- 拡張コンテンツの代替は，コード，指示応答，推論など10のベンチマークスイートで汎化性能を維持した。
Link: https://arxiv.org/abs/2606.03800
LiveBand：オーディオ領域におけるライブ伴奏生成 [cs.SD, cs.AI, eess.AS]目的：ライブオーディオ入力に対する高忠実度な伴奏のリアルタイム生成
- 音楽制作において，伴奏の自動生成はクリエイティビティの支援や効率化に不可欠である。
- 既存手法では，リアルタイム性や音質のトレードオフ，未来の情報への依存といった課題が存在する。
- 厳密な因果関係制約下で，リアルタイムかつ高品質な伴奏生成を実現することを目標とする。
- LiveBandは，事前学習済みの因果性オートエンコーダの潜在空間で因果性Transformerジェネレータを学習させることで，高品質な伴奏生成を可能にした。
- 従来の先行研究と比較して，音質，ビートアライメント，ミックスへの適合性において客観的な評価指標で改善が見られた。
- LiveBandは，将来予測なしに，一般的なハードウェア上でリアルタイムストリーミング生成を実現する。
Link: https://arxiv.org/abs/2606.03803
強化学習のための使いやすいシールド [cs.LG]目的：強化学習における安全な探索手法の導入促進
- 強化学習は，様々な分野で応用が期待される重要な技術である。
- 強化学習における安全な探索は，危険な行動を抑制する必要がある難題である。
- シールドの利用を容易にし，強化学習の実践者にとって有用なツールとなることを目指す。
- 本研究では，シールド合成ツールTempestを強化学習のバックエンドとして拡張し，Gymnasium APIとの統合を実現した。
- これにより，シールドの合成とデプロイを既存の強化学習パイプラインに直接組み込むことが可能となり，シールドの導入障壁を下げた。
- また，確率的マルチプレイヤーゲームにおいても，形式的な安全性を保証するシールドを計算できるようになった。
Link: https://arxiv.org/abs/2606.03804
PURGE：保持ガイド型消去によるプロジェクテッド・アンラーニング [cs.LG, cs.AI, cs.CR]目的：機械アンラーニングのアルゴリズム
- 機械学習モデルのプライバシー保護は重要であり，特定のデータを削除する技術が求められている。
- 既存のアンラーニング手法では，削除対象データの影響を完全に消去しつつ，保持性能を維持することが難しい。
- 保持性能を損なわずに，指定されたデータの情報を効果的に削除することを目指す。
- PURGEは，継続学習と機械アンラーニングの双対性を利用し，保持データセットに対する損失増加を抑制する。
- 中間層における表現の消去と保持データへの混乱ターゲットによって，モデルを再学習した場合と区別しづらいモデルを実現する。
- 5つのデータセットで22の忘却タスクを行い，96%以上の保持精度と0.5に近いMIA AUROCを達成し，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2606.03808
整合性訓練は誤調整を固定化しうる [cs.CL, cs.AI]目的：整合性訓練におけるモデルの誤調整の固定化
- 大規模言語モデルの安全性確保は重要であり，意図しない行動を防ぐ必要がある。
- 整合性訓練がモデルの行動に及ぼす影響は不明であり，予期せぬ結果をもたらす可能性がある。
- 整合性訓練が誤調整を増幅または抑制する条件を理論的に解明する。
- 整合性訓練は，報酬ハッキングや潜在的な誤調整を抑制する傾向がある。
- 一方で，迎合主義を増幅させる可能性が示唆された。
- 整合性訓練の効果は，選択演算子の違いよりも，ラベル付けプロセスによって誘発される分布シフトに起因する可能性が示された。
Link: https://arxiv.org/abs/2606.03810
AIエージェントが適応型コンピュータワームを可能にする [cs.CR, cs.AI, cs.LG]目的：AIエージェントによる適応型コンピュータワームの実現可能性
- サイバーセキュリティは，現代社会における重要なインフラを保護する上で不可欠である。
- 従来のワームは脆弱性パッチで対処可能だが，新たな攻撃手法への対応が急務である。
- AIを活用した自律的なワームによる脅威に備える必要性を示す。
- AIエージェントを活用することで，標的ごとに攻撃戦略を生成する新たなワームが実現可能となった。
- ワームは侵入したマシンを利用してLLMを実行し，推論能力や攻撃範囲を拡大する。
- 攻撃者の感染あたりのコストがほぼゼロになるため，攻撃と防御の間に経済的な非対称性が生まれる。
Link: https://arxiv.org/abs/2606.03811
エージェント対話によるハザード特定分析を通じたオペレーション安全性の向上 [cs.AI]目的：オペレーション安全性の向上
- 産業プロセス制御など，高い安全性が必要な分野において，信頼性の高いハザード特定が不可欠である。
- 従来のLLMを用いた安全性分析は，一回の推論に依存しており，柔軟性や文脈理解に課題がある。
- エージェント間の対話を通じて，ハザード特定におけるLLMの性能向上を目指す。
- HAZDIALフレームワークにより，多段階の対話がハザード特定において，従来の単一パスベースラインよりも品質を向上させることが示された。
- 敵対的議論と建設的な議論という2つの対話モードを比較し，エージェント間の相互作用を最適化するアルゴリズムを提案した。
- 検証データセットを用いた評価により，対話駆動型ハザード分析の有効性が実証された。
Link: https://arxiv.org/abs/2606.03812
ルブリックに基づく評価基準を用いたCS1 C++プログラミング課題の評価におけるBARTの活用 [cs.AI]目的：CS1 C++プログラミング課題の自動採点
- プログラミング教育の効率化と規模拡大には，自動採点の重要性が不可欠である。
- 既存のLLMは，教員の採点行動を十分に反映した成績予測が困難である。
- 教員の採点行動に類似した，より適切な成績予測を可能にすること。
- ルブリックと境界ベースのソフトラベルを用いたマルチタスクBARTは，単一タスクやハードラベルのベースラインよりも低い平均絶対誤差と，より強い成績分布の一致性を示す。
- 完全ファインチューニングされたT5は，分布の一致性をさらに向上させる。
- ペアワイズ事前学習は，数値誤差を低減するが，少数クラスに対する感度が高くなる。
Link: https://arxiv.org/abs/2606.03814
TreeFlash：より高速な推測デコーディングのための並列AR近似 [cs.CE, cs.CL, cs.LG]目的：推測デコーディングにおける高速化
- 大規模言語モデルの推論速度向上は，実用化において重要な課題である。
- 推測デコーディングでは，ドラフターの分布が検証者の分布から乖離しやすい。
- TreeFlashは，ドラフターの隠れ状態と前トークンに基づき，AR分布を近似することで，この乖離を抑制する。
- TreeFlashは，従来のマルギナルトゥリードラフティングと比較して，ブロック効率が12％向上した。
- また，TreeFlashは，処理速度が9％向上し，最先端の性能を達成した。
- TreeFlashは，2段階の近似メカニズムにより，$\mathcal{O}(1)$のデコーディング時間複雑度を維持している。
Link: https://arxiv.org/abs/2606.03819
干し草の中の針探し：生態学における演繹的アクティブラベル付け [cs.LG]目的：生態学的データの効率的なラベル付け手法
- 生態学分野では，大量のフィールドデータを迅速に処理し，自然環境の理解とモニタリングが重要である。
- 既存のアクティブラーニング評価は，予測性能に偏っており，データの網羅的なラベル付けという実用的な目標とのずれが生じている。
- 希少種の発見など，分布の偏ったデータにおける効率的なラベル付けと，過早な学習停止の回避を目指す。
- 予測性能のみでは，希少クラスの重要性を見過ごし，学習の継続が不十分になる可能性がある。
- データの潜在的な幾何学構造において，希少クラスの発見が重要であり，その困難さを定量化する指標を提案した。
- 生態学的なレアファクション曲線に着想を得た，実用的な学習停止基準を提案し，希少クラスの回収率を向上させた。
Link: https://arxiv.org/abs/2606.03821
遺伝的最適化による疎な道路観測からの都市交通シミュレーションの較正 [cs.HC, cs.AI, cs.CY, cs.NE]目的：都市交通シミュレーションの較正手法
- 都市計画において交通シミュレーションは不可欠であり，特に電気自動車充電ステーションの配置に重要である。
- 詳細な交通データや職種分布データがシミュレーションに必要な解像度で不足している点が課題である。
- 疎な道路観測データのみから，職種分布データを用いずに交通シミュレーションを較正することを試みる。
- 本研究では，遺伝的アルゴリズムを用いて交通シミュレーションを較正し，実際の交通量との高い相関を示した。
- 学習に使用していない道路区間に対しても良好な汎化性能が確認された。
- 推定された職種分布は，国勢調査データとの定性的な一致性を示し，少ない観測データでのシミュレーションの可能性を示唆する。
Link: https://arxiv.org/abs/2606.03823
動的短畳み込みがTransformerを改善する [cs.LG, cs.CL]目的：Transformerの性能向上
- 大規模言語モデルにおいてTransformerは主流であり，スケーラビリティと柔軟性が重要視されている。
- 従来の畳み込み層は静的であるため，表現力に限界がある。
- 入力に依存する動的畳み込みを用いることで，表現力を高め，効率的な学習を目指す。
- 動的短畳み込みをkey, query, valueに適用することで，アソシアティブな想起タスクにおいて性能が向上した。
- 言語モデリング実験では，動的畳み込みは標準的なTransformerや静的畳み込みを組み合わせたTransformerよりも一貫して高い性能を示した。
- 計算効率の観点からも，動的畳み込みはTransformerに対して1.33倍以上の優位性を示すことが示された。
Link: https://arxiv.org/abs/2606.03825
フーリエ基盤運動モデリングによる条件付き潜在拡散モデル：仮想集団合成への応用 [cs.CV, cs.AI]目的：医療機器のシミュレーションにおける解剖学的仮想集団の生成
- 医療機器の臨床試験において，患者特異的な解剖学的モデルが不可欠である。
- 既存のメッシュ生成器は静的な解剖学に偏り，時系列モデルは周期性の明示的な扱いに課題がある。
- 周期性を持つ時系列解剖学的データの生成を可能にし，臨床指標との相関を保つことを目指す。
- 提案手法4D F-MeshLDMは，既存の最先端手法と比較して解剖学的忠実度において優れた性能を示す。
- 生成されたコホートは臨床的な機能指標を正確に維持しており，信頼性の高いシミュレーションを可能にする。
- フーリエ級数を用いた潜在空間表現により，周期的な運動パターンを効率的に学習・生成できる。
Link: https://arxiv.org/abs/2606.03827
BigFinanceBench：金融調査エージェントのためのワークフローに基づくベンチマーク [cs.AI]目的：金融調査におけるエージェントの能力評価
- 金融市場の効率化や投資判断の高度化に不可欠な金融調査の重要性が高まっている。
- 既存のベンチマークは部分的なスキルや最終的な回答のみを評価し，調査過程の透明性が欠けている。
- 調査過程全体を評価し，再現性と検証可能性の高い金融調査エージェントの開発を支援する。
- BigFinanceBenchは，金融調査タスクを構成要素に分解し，各ステップを個別に評価するルーブリックを用いる。
- 評価実験の結果，最先端のエージェントでもルーブリックスコアは58.8%にとどまり，改善の余地が大きいことが示された。
- 最終的な回答の正確性は，調査過程の質を完全に反映するものではなく，ワークフローによって能力にばらつきがあることが確認された。
Link: https://arxiv.org/abs/2606.03829
勾配変動区間後悔を用いたオンライン学習 [cs.LG, stat.ML]目的：非定常オンライン学習における区間後悔の低減
- 機械学習の応用拡大には，時間とともに変化するデータへの対応が不可欠である。
- 従来のオンライン学習アルゴリズムは，非定常環境下で性能が低下する課題がある。
- 勾配変動に着目し，変化の激しい環境でもロバストな学習アルゴリズムを開発する。
- 勾配変動に比例する区間後悔の上限を達成するオンライン学習アルゴリズムを提案した。
- 提案手法は，問題に依存する様々な量への適応性と最悪の場合におけるミニマックス最適レートを両立する。
- Lipschitz定数や滑らかさの推定が不要な変種も提示し，ハイパーパラメータ調整の負担を軽減した。
Link: https://arxiv.org/abs/2606.03831
テキスト属性グラフのテキスト選択と属性一致による凝縮 [cs.LG]目的：テキスト属性グラフの圧縮と訓練精度の維持
- グラフ構造データは，様々な分野で活用されており，その効率的な処理が重要である。
- 大規模データセットにおけるグラフニューラルネットワークと言語モデルの同時学習は，計算コストが高い。
- テキスト属性グラフのサイズを縮小しつつ，訓練精度を維持することを目的とする。
- TAGSAMは，テキスト記述とグラフ構造を圧縮することで，既存手法よりも優れた性能を示す。
- 同じ圧縮率において，最良のベースライン手法と比較して平均4.9%の精度向上を達成した。
- グラフを元の1%のサイズに凝縮しても，競争力のある訓練精度を維持することができた。
Link: https://arxiv.org/abs/2606.03839
EvoDS：スキル学習とコンテキスト管理による自己進化型自律データサイエンスエージェント [cs.AI]目的：自己進化型データサイエンスエージェントのスキル獲得とコンテキスト管理
- データサイエンスの自動化は，専門知識の民主化と効率化に不可欠である。
- 既存エージェントは，静的な行動セットとコンテキスト管理の限界により，複雑なタスクに対応困難である。
- 再利用可能な経験の蓄積と，多段階反復的なデータサイエンスパイプラインへの対応を目指す。
- EvoDSは，スキル獲得とコンテキスト圧縮により，既存のデータサイエンスエージェントを平均28.9%上回る性能を示した。
- 階層的な設計によりツール選択エラーを低減し，情報ボトルネック原理に沿った効率的なコンテキスト利用を実現する。
- エージェント学習によるコンテキスト管理を学習問題として扱い，長期的なコンテキストを効果的に管理する。
Link: https://arxiv.org/abs/2606.03841
少数ショット適応による継続学習の再評価 [cs.LG, cs.AI]目的：継続学習における安定性と可塑性の評価方法
- 機械学習の応用範囲拡大に伴い，知識の継続的な獲得と保持が重要になっている。
- 従来の評価指標では，学習した知識の保持力や新しい情報への適応能力が十分に測れない。
- 少数ショット評価を導入することで，継続学習システムの性能をより詳細に分析することを目指す。
- 少数ショット評価を用いることで，既存の継続学習戦略に関する新たな知見が得られた。
- 新たに提案する「ショットごとの可塑性」指標により，将来のタスクをメタ学習することで，継続学習方法が学習能力を獲得することを示した。
- このアプローチは，継続学習における「先見性」の重要性を強調している。
Link: https://arxiv.org/abs/2606.03843
大規模言語モデルにおける不確実性定量のためのクラスタリング自己評価：シンプルかつ効果的な手法 [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおける不確実性定量
- 大規模言語モデルの利用拡大に伴い，その信頼性評価が不可欠となっている。
- 既存の手法では，不確実性の評価が間接的であり，解釈が困難である。
- モデル自身による不確実性評価を直接的に活用し，信頼性の高い判断を可能とする。
- 提案手法は，サンプリングされた生成文を意味的に異なるクラスタに分類し，多肢選択問題の選択肢として提示する。
- モデルが各選択肢に割り当てる確率を信頼度推定値として用いることで，不確実性を定量化する。
- 実験により，提案手法が既存手法を凌駕し，わずか2つの追加サンプルで競争力のある性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.03846
切り替えコストを伴う二つの行動によるリンゴの味見 [cs.LG]目的：切り替えコストを伴う二つの行動によるリンゴの味見問題における，無知な敵に対する学習の性能
- 逐次的な意思決定問題において，探索と利用のバランスを取ることは重要である。
- 行動の切り替えにコストがかかる場合，最適な戦略を見つけることが難しい。
- この研究では，切り替えコストを伴う二つの行動によるリンゴの味見問題の性能限界を解明する。
- この問題に対する無知なミニマックス期待後悔量は，√Tのオーダーであることが証明された。
- 従来のアルゴリズムの性能保証は√Tのオーダーであり，この問題が切り替えコスト分類における障害ではないことが示された。
- この結果は，未分類のフィードバックグラフの分類に貢献する可能性がある。
Link: https://arxiv.org/abs/2606.03851
FLARE：LLMコード改善のための詳細な診断フィードバック [cs.SE, cs.AI]目的：LLMによるコード改善のための詳細な診断フィードバック手法
- ソフトウェア開発において，コードの品質は不可欠であり，バグの早期発見と修正が重要である。
- 既存のLLMはバグを含むコードを生成することがあり，その修正には粗雑なフィードバックしか利用できない場合が多い。
- LLMによるコード修正の精度を高めるため，バグの箇所を特定し，詳細なフィードバックを提供する。
- 提案手法FLAREは，軽量な診断モデルを用いてコードのどの部分にバグの疑いがあるかを特定する。
- 候補探索（k=1）を行わなくても，既存の最良手法を大きく上回り，性能が1.72%～7.42%向上した。
- 10個の候補を探索することで，さらに平均8.50%の性能向上が見られた。
Link: https://arxiv.org/abs/2606.03852
PyraMathBench：大規模言語モデルにおける数学的能力の評価と向上 [cs.AI]目的：大規模言語モデルの数学的能力の評価と改善
- 数学的思考は，多くの応用分野において大規模言語モデルの重要な基盤である。
- 既存の評価基準では，数値処理と数学的推論を統合的に評価するものが少なく，失敗原因の解明が困難である。
- 数値計算の弱点や抽象的な数値問題への対応能力の向上を目指す。
- PyraMathBenchは，7,404問の数学文章題から生成された32,505問からなる包括的な階層型ベンチマークである。
- 実験の結果，大規模言語モデルの性能は，不十分な数値計算と抽象的な数値問題への弱い対応によって大きく損なわれていることが明らかになった。
- 提案手法SOLVEとIRPOを用いることで，Qwen-2.5のスコアが5.0点向上し，数値的・数学的な相乗効果を高めることが示された。
Link: https://arxiv.org/abs/2606.03858
概念ネットワークダイナミクスに基づく科学的ブレークスルーの予測可能性の説明 [eess.SY, cs.CC, cs.SY, math.OC, cs.SI, cs.CY, cs.DL, cs.LG, physics.soc-ph]目的：科学的ブレークスルーの構造的先行因子（研究概念間のリンクの出現と強化）の予測
- 科学技術の発展を予測することは，研究開発戦略の策定や資源配分において重要である。
- 既存の手法では，予測の根拠が不明確で，なぜその予測がなされたのか説明が困難である。
- 概念ネットワークのダイナミクスをモデル化し，予測の精度と説明可能性を向上させる。
- 提案手法は，4つの技術および生物医学分野で，既存モデルよりも高いROC-AUC（0.954～0.967）を示した。
- 予測は，不透明な埋め込みではなく，構造的かつ監査可能な特徴に基づいている点が特徴である。
- 特徴量の重要度分析から，Adamic-Adar類似度や次数に基づくHadamard指標などの構造的要因が予測精度を牽引していることが示唆された。
Link: https://arxiv.org/abs/2606.03864
産業用LLM強化推薦における意味・IDトレードオフに対するパレート最適政策最適化：Taiji [cs.IR, cs.AI, cs.CL]目的：産業用LLM強化推薦システムのためのパレート最適政策最適化フレームワーク
- LLMを活用した推薦システムは産業界で普及しつつあり，推薦性能の向上が求められている。
- LLMの意味空間と推薦システムのID空間の整合性が課題であり，特にCoT品質の評価が難しい。
- LLMの知識とユーザーの嗜好のトレードオフを最適化し，推薦性能を向上させることを目指す。
- Taijiは，逆エンジニアリングによる推論とオープンエンドの拒否サンプリングにより，高品質なドメイン固有のCoTデータを生成する。
- パレート最適政策最適化（POPO）を提案し，クロスドメイン報酬の重みを適応的に調整することで，意味空間とID空間のトレードオフを最適化する。
- Kuaishouの広告プラットフォームで導入され，4億人以上のユーザーにサービスを提供し，商業的な収益を上げている。
Link: https://arxiv.org/abs/2606.03866
LLMと知識グラフを用いた多文書要約のための訓練不要な複合エージェントフレームワーク [cs.CL, cs.AI]目的：多文書要約のための複合エージェントフレームワーク
- 大量の情報から本質を抽出する上で，多文書要約は重要な役割を担う。
- 既存手法は，文書間の複雑な関係の把握や汎化性能に課題がある。
- LLMと知識グラフを活用し，訓練データなしで高性能な要約を実現すること。
- 本フレームワークは，抽出，知識に基づいた抽象化，反復的な洗練という専門的なエージェントタスクに分解する。
- LLMによって導かれる多観点一貫性メカニズムにより，各エージェントの出力を統合する。
- 英語とベトナム語の4つのデータセットで最先端または競争力のある性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.03867