arXiv雑要約

AI - 2026/06/11 公開

FitText：模倣的検索によるエージェントツール生態系の進化 [cs.AI, cs.IR, cs.LG, cs.MA]目的：タスク記述とツールドキュメント間の意味的ギャップの解消
- APIエコシステムが拡大し，複雑化する中で，効率的なツール検索が不可欠である。
- 従来の静的な検索方法では，エージェントの実行中の理解の変化に対応できない。
- エージェントの推論ループに検索を組み込み，動的なツール選択を実現する。
- FitTextは，検索をテスト時の仮説進化と捉え，自然言語によるツール記述を反復的に洗練する。
- 模倣的検索により，ツールメモリを活用し，冗長な検索を避けながら最適なツールを探索する。
- 実験結果から，FitTextは既存手法と比較して検索精度を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2605.02411
OGPO：生成制御ポリシーのサンプル効率の良い全層ファインチューニング [cs.LG, cs.RO]目的：生成制御ポリシーのファインチューニングにおけるサンプル効率の向上
- ロボット学習において，生成制御ポリシーが効果的な手法として注目されている。
- 既存手法では，十分な学習サンプルが必要であり，データ効率が課題となっている。
- オフポリシー学習を活用し，データ再利用を最大化することで，サンプル効率を改善する。
- OGPOは，マルチタスク，高精度な挿入，器用な制御など，様々な操作タスクにおいて最先端の性能を達成した。
- 初期化された行動クローンポリシーを，オンラインリプレイバッファに専門家のデータなしでほぼ完全なタスク成功にまでファインチューニングできる唯一の手法である。
- 成功バッファの正則化，両側保守的アドバンテージ，Q分散の削減などの安定化手法が，OGPOの性能向上に貢献している。
Link: https://arxiv.org/abs/2605.03065
プライバシー保護を考慮した臨床情報抽出のための小規模言語モデルの自己プロンプティング [cs.CL, cs.AI]目的：歯科診療記録からの臨床固有表現認識
- 医療現場での情報活用が重要視される中，診療記録の構造化が課題となっている。
- 診療記録は非構造化で専門性が高く，また個人情報保護の観点から取り扱いが困難である。
- 小規模言語モデルによる自動的なプロンプト最適化で，効率的な情報抽出を目指す。
- 小規模言語モデルが，エンティティ固有のプロンプトを自動生成，検証，改善，評価するフレームワークを開発した。
- QLoRAベースのファインチューニングとDPOにより，Qwen2.5-14B-InstructとLlama-3.1-8B-Instructの性能が向上した。
- Qwen2.5-14B-InstructとLlama-3.1-8B-Instructはそれぞれ，F1スコアで0.864/0.837と0.806/0.797を達成した。
Link: https://arxiv.org/abs/2605.04221
非線形分散方程式のためのハイブリッド反復ニューラル低正則性積分器 [cs.LG]目的：非線形分散偏微分方程式の数値解法における精度向上
- 非線形分散方程式は，物理現象を記述する上で重要であり，高精度な解法が求められている。
- 従来の数値解法では，精度と計算コストのトレードオフが存在し，高解像度での計算が困難である。
- ニューラルネットワークを用いて数値解法の誤差を補正することで，精度を向上させ，計算効率を高める。
- 提案手法HIN-LRIは，従来の数値解法をニューラルオペレーターで補正するハイブリッドなフレームワークである。
- HIN-LRIは，粗いデータに対する分散ベンチマークにおいて，既存手法よりも高い精度と安定性を実現した。
- 学習とソルバーのダイナミクスを整合させることで，ステップサイズや空間解像度に依存しない安定性を保証する。
Link: https://arxiv.org/abs/2605.04853
自己注意を輸送と捉え：対称スペクトル診断の限界 [cs.LG, cs.CL, stat.ML]目的：幻覚応答における言語モデルの注意機構の失敗パターンとその診断的特徴の解析
- 言語モデルの性能向上には，注意機構の挙動理解が不可欠である。特に，幻覚生成のメカニズム解明が重要課題となる。
- 既存のスペクトル診断法は，注意機構における情報フローの方向性を捉えきれないという課題がある。
- 注意機構の対称成分に着目し，情報フローの方向性を考慮した新たな診断手法を提案する。
- 強制スコアリングを用いた実験により，幻覚応答における注意機構の失敗パターンが，容量と方向性の二軸で特徴づけられることが示された。
- 理想的なアーキテクチャにおける理論的な下限値と，実際の注意ヘッドの挙動を比較することで，アーキテクチャの特性を明らかにすることができた。
- 異なるモデル（decoder-only, encoder-only, encoder-decoder）において，輸送特徴が解釈可能な信号を示し，予測される極性反転が確認された。
Link: https://arxiv.org/abs/2605.04893
CPU向けLitespark推論：3値(1.58ビット)言語モデルの超高速SIMDフレームワーク [cs.CL, cs.AI]目的：3値言語モデルのCPUにおける高速推論
- 大規模言語モデルはAIを大きく変えたが，計算資源の制約から広く普及できていない。
- 既存の推論フレームワークは3値モデルの特性を生かせておらず，計算効率が低い。
- CPUの整数演算命令を活用し，高速かつ省メモリな推論を実現すること。
- Litespark-Inferenceは，Apple Silicon上でPyTorch推論と比較して，18.15倍の処理能力向上を達成した。
- また，初トークンまでの時間も7.15倍高速化され，メモリ使用量は6.03倍削減された。
- IntelおよびAMDプロセッサ上でも最大95.81倍の高速化を実現し，性能の向上が確認された。
Link: https://arxiv.org/abs/2605.06485
クラウドとエッジにおける下水管路溢流監視の強靭なソリューション [cs.AI, cs.HC, cs.LG]目的：下水管路溢流の監視と予測
- 都市の老朽化した下水システムは，豪雨による溢流のリスクが高まっており，環境と公衆衛生への影響が深刻である。
- 既存の監視システムはネットワーク障害に脆弱であり，リアルタイムな情報提供が困難な場合がある。
- クラウドとエッジコンピューティングを活用し，ネットワーク障害に強い監視システムを構築すること。
- 深層学習を用いた予測モデルをクラウドとエッジの両方で実行することで，リアルタイムな溢流予測が可能となった。
- ウェブベースのインタラクティブな監視ダッシュボードにより，状況を可視化し，迅速な対応を支援する。
- ネットワーク障害時でもエッジ側で予測を継続でき，システムの可用性を高める。
Link: https://arxiv.org/abs/2605.10592
AIワークフローストアによる堅牢なパーソナルエージェントの設計 [cs.CR, cs.AI]目的：AIエージェントの堅牢性向上に向けたワークフローの設計と再利用
- AI技術の応用範囲拡大に伴い，安全性と信頼性が重要課題となっている。
- 現状のAIエージェント開発は即時性が重視され，ソフトウェア工学的な検証が不十分である。
- 堅牢で再利用可能なAIワークフローを構築し，安全性と信頼性を高めることを目指す。
- 即時合成によるAIエージェントは，プロトタイプレベルにとどまり，高リスク環境での利用に課題がある。
- 厳格なソフトウェア工学プロセスを導入し，より堅牢で予測可能なワークフローを構築する必要がある。
- AIワークフローストアは，エージェントが安全かつ確実に利用できるワークフローを共有するための基盤となる。
Link: https://arxiv.org/abs/2605.10907
予測符号化におけるサンプル効率の理解 [cs.LG]目的：予測符号化と逆伝播における学習効率の定量化
- 皮質学習のメカニズム解明は，脳機能理解や人工知能開発に不可欠である。
- 予測符号化のサンプル効率の高さは実験的に示されているが，理論的根拠が不明確である。
- 予測符号化と逆伝播の学習効率を比較し，予測符号化の効率が良い理由を解明する。
- 学習効率の指標「ターゲットアラインメント」を用いて，予測符号化と逆伝播の学習効率を定量的に評価した。
- 深層線形ネットワークにおいて，予測符号化が逆伝播よりも効率的に学習できることを理論的・実験的に示した。
- 特に深層で狭く，事前学習済みのネットワークにおいて，予測符号化の優位性が顕著であることがわかった。
Link: https://arxiv.org/abs/2605.11911
TokenRatio：比率一致による原理的なトークンレベルの選好最適化 [cs.CL, cs.AI]目的：言語モデルのトークンレベルの選好最適化
- 言語モデルの性能向上には，人間の選好との整合が不可欠である。そのため，選好最適化の手法が重要視されている。
- 従来の選好最適化はシーケンスレベルで行われるため，トークンレベルの最適性が保証されないという課題がある。
- シーケンスレベルの比較からトークンレベルの選好最適化を回復し，より高精度なモデルを構築することを目指す。
- 提案手法TBPOは，従来のDPOよりも高い整合性，安定性，出力多様性を示すことが確認された。
- TBPOは，シーケンスレベルおよび既存のトークンレベルベースラインと比較して，パフォーマンスが向上した。
- TBPO-QとTBPO-Aの2つの実装が提案され，それぞれ異なるアプローチでベースラインの学習を行う。
Link: https://arxiv.org/abs/2605.12288
協調型マルチエージェント強化学習におけるロバストな指示遵守 [cs.RO, cs.AI, cs.MA]目的：協調型マルチエージェント強化学習における指示遵守の堅牢性
- 現実世界の応用では，エージェントは自然言語による指示に適応する必要がある。
- 指示に基づいて報酬を調整すると，価値推定が矛盾し，指示遵守が困難になる。
- 指示の切り替わりにおける価値推定の矛盾を修正し，指示遵守を可能にすること。
- 提案手法MAVICは，指示境界におけるベルマン方程式の更新を修正することで，一貫性のある価値推定を実現する。
- MAVICは，報酬形状とは異なり，ブートストラップターゲット自体を修正することで，確率的な指示切り替えに対応する。
- 複雑な協調環境において，高い指示遵守率とベースタスク性能を両立することを示した。
Link: https://arxiv.org/abs/2605.12655
意味に基づく正則化としての弱教師ありセグメンテーション [cs.CV, cs.AI]目的：弱教師ありセマンティックセグメンテーションの精度向上
- セマンティックセグメンテーションは，画像認識において重要な役割を担う。
- 弱教師ありセグメンテーションでは，アノテーションコストが課題となる。
- ファウンデーションモデルの性能を，知識と制約を用いて向上させる。
- 微分可能なファジー論理と深層セグメンテーションモデルを統合した。
- SAMを弱教師ありでファインチューニングすることで，高品質な擬似ラベルを生成した。
- Pascal VOC 2012およびREFUGE2データセットで，最先端のセグメンテーション精度を達成した。
Link: https://arxiv.org/abs/2605.13674
CRANE：ヌル空間編集によるコードエージェントのための制約付き推論注入 [cs.SE, cs.AI, cs.CL]目的：コードエージェントにおける推論能力とツール利用プロトコルの厳守
- コードエージェントは，ソフトウェア開発において自動化の重要な要素であり，その性能向上が求められている。
- 推論能力とツール利用プロトコルのバランスが難しく，一方を重視すると他方が損なわれる場合がある。
- InstructモデルとThinkingモデルの利点を統合し，高性能かつ効率的なコードエージェントを実現すること。
- CRANEは，InstructモデルとThinkingモデルの差分を利用し，推論能力をInstructモデルに注入する新しい手法である。
- Roo-Evalにおいて，Qwen3-30B-A3Bで66.2%（+19.5%），Qwen3-Next-80B-A3Bで81.5%（+8.7%）のpass1達成率を記録した。
- SWE-bench-VerifiedとTerminal-Bench v2においても，既存手法を上回る性能向上が確認された。
Link: https://arxiv.org/abs/2605.14084
タピオカ：タスクを意識したプルーニングがOODモデルの能力を向上させる理由 [cs.LG, cs.AI]目的：タスクを意識したプルーニングによるOOD（分布外）データに対するモデル性能の向上
- 機械学習モデルの汎化性能向上は重要な課題であり，特に未知の分布への対応が求められる。
- 従来のプルーニング手法では，OODデータに対する性能劣化が課題となっていた。
- タスクを意識したプルーニングがOODデータに対して有効である理由の解明と，そのメカニズムの特定。
- タスクを意識したプルーニングは，ID（分布内）データに対しては効果がない一方，OODデータに対しては一貫して精度が向上する。
- OOD入力は，各層のノルムやペアワイズ距離のプロファイルにおいて，IDデータとは異なる特徴を示す。
- タスクを意識したプルーニングは，OOD入力によって歪められたタスク適応型幾何学を修正し，OODデータの表現をモデルのタスクに適応させることで性能を改善する。
Link: https://arxiv.org/abs/2605.14738
構造可塑性における成長の安定性について [eess.SY, cs.SY, math.DS, cs.LG, cs.NE]目的：構造可塑性における成長の安定性
- 深層学習モデルの性能向上には，適切なネットワーク構造が不可欠である。構造を動的に変化させる手法は，適応性や継続学習能力の向上に繋がる。
- 従来のネットワーク構造の成長手法では，新規ユニットが既存ユニットと比較して学習シグナルを受けにくく，最適化が不安定になる問題がある。
- 本研究は，ネットワーク成長時の新規ユニットの統合を改善し，構造可塑性の安定性を高めることを目指す。
- ネットワーク構造の成長は，既存ユニットの削除とは異なり，最適化経路に新たな要素を挿入するため，学習シグナルの差が生じやすい。
- 成長(Grow)は，最終的な精度は高いものの，学習過程全体で見ると，削除(Prune)に劣る場合がある。
- 新規ユニットが十分に統合される時間を与えることで，継続学習の性能が向上し，成長の有効性が高まる。
Link: https://arxiv.org/abs/2605.15435
ASRU：活性化誘導と強化学習アンラーニングによるマルチモーダル大規模言語モデル [cs.CL, cs.AI]目的：マルチモーダル大規模言語モデルにおける機密性の高いクロスモーダル情報のアンラーニング
- 大規模言語モデルの発展に伴い，プライバシー保護の重要性が増している
- 既存のアンラーニング手法は出力の変化に焦点を当て，生成品質の低下を無視する
- 生成品質を維持しつつ，効果的なアンラーニングを実現する
- ASRUは活性化のリダイレクトにより，初期段階で拒否行動を誘導する
- カスタマイズされた報酬関数を用いて，微細な拒否境界を最適化し，知識のアンラーニングとモデルの有用性のバランスを取る
- Qwen3-VLでの実験により，ASRUはアンラーニング効果を24.6%向上させ，生成品質を5.8倍に向上させることが示された
Link: https://arxiv.org/abs/2605.15687
正しい予測，誤解を招く説明：視覚言語モデルの説明の脆弱性について [cs.CV, cs.LG]目的：視覚言語モデルの説明の信頼性に関する調査
- 視覚言語モデルは高度化し，人間による監視が必要な場面で利用が増加している。
- モデルの判断根拠を示す説明の信頼性は十分に検証されていない。
- 視覚言語モデルの説明が，予測結果とは独立して操作可能であることを示す。
- 提案手法X-Shiftは，予測を変化させずに説明の熱マップを操作できる。
- X-Shiftは，CLIPアーキテクチャや説明手法に依存せず，様々なデータセットで有効であることが示された。
- 説明の信頼性に関する根本的な課題が明らかになり，高影響度な応用における注意喚起が必要である。
Link: https://arxiv.org/abs/2605.16651
KAN-MLP-Mixer：IMUベースのヒューマンアクティビティ認識におけるKolmogorov-Arnold Network (KAN) の活用に関する包括的な調査 [cs.AI, eess.SP]目的：IMUベースのヒューマンアクティビティ認識におけるKANとMLPの組み合わせによる性能向上
- ウェアラブルセンサの普及に伴い，IMUデータを用いた活動認識の重要性が高まっている。
- KANはノイズに弱く，実世界のデータに対する汎化性能が課題となっていた。
- KANの精度とMLPのロバスト性を融合し，より実用的な活動認識モデルを開発すること。
- 提案手法であるKAN-MLP Mixerは，8つの公開データセットで平均マクロF1スコアを5.33％向上させた。
- KANを入力埋め込み層に，MLPを中間特徴混合層に配置するハイブリッド構成が有効であることが示された。
- このハイブリッド戦略は，他の最先端の活動認識アーキテクチャにも組み込み可能であり，性能向上に貢献する。
Link: https://arxiv.org/abs/2605.19031
最先端LLMはサイバーセキュリティの準備ができているか：デュアルモード脆弱性ベンチマークからの垂直型基盤モデルの証拠 [cs.CR, cs.AI]目的：最先端LLMのサイバーセキュリティにおける準備状況の評価
- サイバーセキュリティは，現代社会における情報資産保護の根幹であり，その重要性は増している。
- LLMのサイバーセキュリティ応用は進む一方，実際の脆弱性検出能力には課題が残されている。
- 本研究は，LLMの脆弱性検出性能向上に不可欠なデータと手法を特定し，実用化に向けた道筋を示す。
- 最先端LLMは，ホワイトボックスでの脆弱性検出において10～50%の誤検出率を示すことが判明した。
- ブラックボックス環境では，脆弱性の検出率はわずか4～8%にとどまり，セキュリティツールとの組み合わせでも10～19%に留まった。
- ドメイン特化型モデルは，体系的な侵入テスト手法を用いることで，脆弱性検出率を50%以上に向上させ，精度と低誤検出率を実現した。
Link: https://arxiv.org/abs/2605.23243
拡散ベースマルチモーダル大規模言語モデルにおける視覚的冗長性制御並列デコーディング [cs.CL, eess.SY, astro-ph.EP, cs.SY, math.OC, physics.space-ph, cs.LG]目的：拡散ベースマルチモーダル大規模言語モデルのデコーディングにおける視覚的冗長性の制御
- マルチモーダル大規模言語モデルは，画像とテキストを統合し高度な推論を可能にするため，多様な応用が期待される。
- 既存のデコーディング手法は，視覚的根拠の重複を無視し，デコーディングの効率と精度を低下させる可能性がある。
- 視覚的冗長性を定量化し制御することで，より効率的で正確なデコーディングを可能にすることを目指す。
- 提案手法VRCDは，トークン間の視覚的根拠の重複を抑制し，デコーディングにおける視覚的冗長性を低減する。
- VRCDは，M^3CoTとMMBenchにおいて，それぞれ最大18.8%，6.9%の精度向上を達成した。
- 本手法は，学習を必要とせず，推論時に適用可能であり，計算コストの増加もわずかである。
Link: https://arxiv.org/abs/2605.25820
深層強化学習はいつ校正されたベースラインを上回るか：適応型リソース制御に関するベンチマーク研究 [cs.LG, cs.AI, cs.DC]目的：適応型リソース制御における深層強化学習の有効性評価
- クラウド環境におけるリソース管理は，コスト削減とサービス品質維持に不可欠である。
- 従来のルールベースの自動スケーリングは，チューニングが難しく，最適な性能を発揮できない場合がある。
- 深層強化学習の潜在的な利点を検証し，現実的な評価プロトコルを確立すること。
- 校正されたルールベースのコントローラーが，6つのワークロードすべてで，6つの主要な深層強化学習アルゴリズムよりもコストを削減した。
- 離散行動アルゴリズムは，行動空間の不一致により，連続行動アルゴリズムよりも制約違反の点で1～2桁高い性能を示した。
- 単一のアルゴリズムがすべてのワークロードで優位性を示すことはなく，ランキングは最大で4つ変動した。
Link: https://arxiv.org/abs/2605.26418
評価の設計方法を理解するモデルは，より安全である [cs.CL, cs.AI]目的：AI安全評価の妥当性に関する研究
- AIの安全性確保は重要であり，評価手法の信頼性が不可欠である。
- 評価時コンテキストに起因するモデルの行動変化が問題となっている。
- 評価に関する知識がモデルに学習されることによる影響を検証する。
- 評価に関する知識を学習させたモデルは，ベースモデルや対照モデルよりも安全性が高いことが示された。
- この行動変化は，評価に関する言及がない応答でも持続することが確認された。
- 評価メタ知識が安全評価の性能を向上させる新たな混同因子となる可能性が示唆された。
Link: https://arxiv.org/abs/2605.28591
GrowLoop：人間による初期値設定に基づく自己進化型会話評価 [cs.CL, cs.AI, cs.SD]目的：人間らしい会話の評価基準の継続的な進化
- 大規模言語モデルの進化に伴い，人間らしい会話能力の評価が不可欠となっている。
- 人間による評価は主観的であり，評価基準が明確でないため，一貫性に欠ける場合がある。
- 人間らしさの基準は常に変化するため，評価システムも継続的に進化する必要がある。
- GrowLoopは，人間の最小限の注釈から始まり，LLMエージェントが評価基準を反復的に抽出・洗練させる。
- AI判定者は，既存手法を大きく上回り，人間の判断との一致度を高め，注釈者が見落とす問題を明らかにした。
- このシステムは，モデルの能力階層を識別し，新たなシナリオにも対応し，モデルの進化に合わせて適応する。
Link: https://arxiv.org/abs/2605.28882
蒸留と量子化によるApertus LLMファミリーの拡張 [cs.LG]目的：LLMファミリーのサイズ拡張とハードウェア対応
- LLMの多様な応用により，予算やハードウェア制約を満たす必要性が高まっている。
- 既存のLLMでは，幅広い制約に対応できるモデルファミリーを構築することが課題である。
- 蒸留と量子化を用いて，より効率的にモデルファミリーを拡張し，多様な環境に対応すること。
- Apertus 8Bを基に，1.7Tトークンで学習させた最大4BパラメータのApertus-v1.1ファミリーを作成した。
- 本手法は，コスト効率と高い精度を両立し，幅広いハードウェア要件に対応可能であることを示した。
- 蒸留と量子化が，モデルファミリーを拡張するための有効な手段であることが確認された。
Link: https://arxiv.org/abs/2605.29128
脳-IT-VQA：脳波から質問への回答 [cs.CV, cs.AI, q-bio.NC]目的：fMRI信号からの視覚的コンテンツの解読と，視覚情報に対する質問応答
- 脳機能解明は，人間の認知メカニズム理解に不可欠であり，神経科学の根幹をなす。
- fMRIを用いたVQAは精度に限界があり，脳内表現の構造理解に繋がりにくい。
- 脳波データからより高精度なVQAを実現し，脳内表現の構造を解析すること。
- Brain-IT-VQAフレームワークは，従来のfMRIベースのVQAアプローチを大幅に上回る性能を示した。
- 新たなデータセットNSD-VQAは，より信頼性の高い評価と解釈を可能にする，豊富な質問応答ペアを提供する。
- 本研究により，fMRI応答から確実に解読可能な視覚的・意味的情報の種類を定量的に評価できた。
Link: https://arxiv.org/abs/2605.29588
クエリ効率の良い決定ベースの敵対的攻撃のための潜在幾何的コード [cs.CV, cs.CR, cs.LG]目的：決定ベースのブラックボックス敵対的攻撃における手法の限界を克服すること
- 敵対的攻撃は，機械学習モデルのセキュリティ評価において重要な課題である。脆弱性を特定し，堅牢性を向上させるために不可欠。
- 既存手法では，不自然な視覚的アーティファクトの発生や，低次元多様体における探索空間の制限，再構成の欠陥などの問題がある。
- 潜在幾何的コードにより，視覚的な忠実性を維持しながら，効率的かつ効果的に敵対的攻撃を実現することを目指す。
- 提案手法LGCは，圧縮された意味的多様体内で，曲率を考慮した幾何学的探索を行うことで，決定境界を効果的にナビゲートする。
- 残差ベースの敵対的生成（RAG）メカニズムにより，再構成の欠陥が大幅に改善され，探索空間の次元が効果的に拡大される。
- 実験結果から，LGCは高いクロスデータセットの転移可能性を示し，既存手法を大幅に上回る性能を発揮することが示された。特に，5000クエリでSSIMが0.99を超え，LPIPSが0.01を下回る高い視覚的忠実度を維持しつつ，高い攻撃成功率を達成する。
Link: https://arxiv.org/abs/2605.31219
修正された流れにおける対照的な速度一致による幾何学的消去 [cs.IR, cs.CL, cs.LG, cs.AI]目的：マルチモーダル生成モデルにおける有害コンテンツの合成リスク軽減策
- 生成モデルの急速な発展に伴い，悪用リスクの増大が課題となっている。
- 拡散モデルからの移行が進む中で，消去技術の研究が遅れている。
- Rectified Flowモデルにおける効果的な消去フレームワークを確立すること。
- 本研究では，Rectified Flowモデル向けの消去フレームワークGEMを提案した。
- 生成フローネットワークに基づく軌跡ベースのアンラーニングと教師あり消去を統合した。
- 幾何学的ガイダンスにより，有害概念を抑制しつつ，安全な生成を維持する。
Link: https://arxiv.org/abs/2606.00140
潜在学習は操舵ベクトル蒸留である [cs.AI]目的：言語モデルにおける潜在学習のメカニズム解明
- 大規模言語モデルの挙動制御は重要であり，その仕組みを理解することが求められている。
- システムプロンプトのような意味情報を持たないデータから，意図しない特性が伝達される現象が問題となっている。
- 潜在学習を媒介する単一の操舵ベクトルを特定し，その蒸留メカニズムを明らかにすること。
- 潜在学習は，モデルの活性化に加わる単一の操舵ベクトルによって媒介されることが示された。
- 教師モデルのシステムプロンプトは操舵ベクトルで近似され，生徒モデルはこれを学習することで行動が誘導される。
- 適応型オプティマイザが潜在学習に必要であり，誘導データ中の活性化勾配が操舵方向に沿うことが確認された。
Link: https://arxiv.org/abs/2606.00995
多変量時系列ベンチマークにおける異常は主に単変量である [cs.LG, cs.AI]目的：多変量時系列異常検知におけるベンチマークの評価
- 時系列データ分析は，金融，医療，製造など，幅広い分野で重要である。
- 多変量時系列異常検知は，変量間の複雑な関係性を捉えることが課題である。
- 現在のベンチマークがクロスチャネルモデリングの有効性を評価できない問題を指摘する。
- 既存の多変量時系列異常検知ベンチマークにおいて，ほとんどの異常は少なくとも1つのチャネルが単独で逸脱していることが示された。
- ベンチマークの多くにおいて，異常セグメントの89%から100%のタイムステップで単変量的な逸脱が見られた。
- クロスチャネル構造を保持した合成データを用いた実験で，チャネル依存モデルが有効であることを確認したが，実データでは有意な改善は見られなかった。
Link: https://arxiv.org/abs/2606.02670
エージェント型強化学習のポストトレーニングにおける効率的なリソース管理：Libra [cs.LG, cs.AI, cs.DC]目的：エージェント型強化学習のポストトレーニングにおけるリソース管理の効率化
- 大規模言語モデルをエージェントとして活用する上で，効率的なリソース管理は不可欠である。
- ツール利用時のワークロードが長尾分布となり，リソース配分が最適化されていない。
- ロールアウトとトレーニング間の非対称性を解消し，動的なシーケンス長に対応する。
- Libraは，ロールアウトとトレーニング間のGPU割り当てを最適化するグローバルリソースプランナーを実装した。
- 因果関係に基づいたマルチレベルフィードバックキュー（C-MLFQ）スケジューラにより，ツールリターンの結果に基づいてワークロードをルーティングする。
- 48基のA800 GPUを用いた評価で，Libraはスループットを最大3.0倍，報酬収束を最大2.5倍高速化することを示した。
Link: https://arxiv.org/abs/2606.03077
バルト語音声コーパスBaltiVoiceとWhisper ASRシステムのファインチューニング [cs.CL, cs.AI]目的：バルト語向け音声コーパスと自動音声認識システム
- 言語多様性の維持は重要であり，マイノリティ言語のデジタル化が不可欠である。
- 低リソース言語では，自動音声認識のための学習データが不足している。
- バルト語の音声認識を可能にするための基盤となるデータとモデルを構築する。
- バルト語の音声コーパスBaltiVoiceを構築し，10,060件の音声データを提供した。
- Whisper-smallモデルをファインチューニングした結果，WER 26.74%，CER 8.67%を達成した。
- Whisper-baseモデルでもファインチューニングを行い，モデルの容量が性能に影響することを示した。
Link: https://arxiv.org/abs/2606.03504
EvalStop：マルチテナントRLHFプラットフォームにおける報酬の過最適化を検出し修正するためのワールドフィードバックの利用 [cs.LG, cs.AI, cs.DC]目的：報酬の過最適化検出と修正のための手法
- 大規模言語モデルのRLHFは，人間による評価を代替する報酬モデルの最適化が重要である。
- 報酬モデルの最適化が進むと，ワールドフィードバックとの乖離が生じ，報酬過最適化が発生する。
- EvalStopは，評価スコアの低下を検知し，早期終了することで報酬過最適化を防ぐことを目指す。
- EvalStopは，k回連続した評価スコアの低下でジョブを終了し，GPUを解放することで，無駄な計算を削減する。
- シミュレーション実験の結果，EvalStopは高い精度（98%）と再現率（99%）を示し，JCTを9%改善，無駄な計算を22%削減した。
- EvalStopは，様々なベーススケジューラと組み合わせることができ，評価ノイズやハッキング率の変化にも安定した検出性能を維持する。
Link: https://arxiv.org/abs/2606.04145
エージェント型ソフトウェア：AIエージェントがソフトウェアパラダイムを再構築する方法 [cs.SE, cs.AI]目的：AIエージェントによるソフトウェアパラダイムの再構築
- ソフトウェアは社会基盤であり，その進化は効率化や新たな価値創造に不可欠である。
- 従来のソフトウェア開発は，変化への対応が遅く，コストがかかるという課題があった。
- AIエージェントを活用し，ソフトウェア開発のあり方を根本的に変革することを目指す。
- 本研究は，従来のソフトウェアとAIエージェント型ソフトウェアを明確に区別し，その違いを形式的に定義した。
- AIエージェントの登場により，ソフトウェア開発における複雑性がエンドユーザーからエージェントへと移行していることを指摘した。
- エージェントエンジニアリングという新たな分野を提唱し，自己進化するエージェントエコシステムの実現に向けたロードマップを提示した。
Link: https://arxiv.org/abs/2606.05608
知識多様体：意味マッピングと科学文献の測地分析のためのリーマン幾何学的フレームワーク [cs.IR, cs.LG]目的：科学文献の意味的関係に基づく知識多様体の構築と，その測地分析
- 科学研究の進展には，既存知識の体系的な整理と新たな知識の発見が不可欠である。
- 既存の文献検索手法では，潜在的な関連性を見逃したり，知識間の構造的な関係を捉えきれない場合がある。
- 文献集合における意味空間を幾何学的に表現し，知識間の関係性を定量的に評価することを目指す。
- 提案手法により，科学文献を意味的に配置した知識多様体を構築することができた。
- 構築された多様体上で測地線分析を行うことで，遠隔なトピック間の概念的なつながりを明らかにした。
- SPH/GPR補間を活用することで，未研究分野に関する仮想的な研究アブストラクトを生成することに成功した。
Link: https://arxiv.org/abs/2606.05907
暗闇で進化するエージェント：自己選好によるレトロスペクティブなハarness最適化 [cs.AI, cs.CL, cs.LG]目的：エージェントのハarness最適化手法
- AIエージェントの複雑な問題解決には，適切なハarnessが不可欠である。その継続的な改善が重要となる。
- 従来の最適化手法は正解データに依存し，実環境でのデータ収集が困難であるという課題がある。
- 過去の軌跡のみを用いて，自己検証と自己一貫性に基づいてハarnessを最適化し，性能向上を目指す。
- RHOは，過去の課題から多様なコアセットを選択し，並行して再解決することでハarnessを最適化する。
- SWE-Bench Proにおいて，RHOによる最適化により，正答率が59%から78%に向上した。
- 最適化されたハarnessはエージェントの行動パターンを変化させ，長期セッションでの精度を維持する。
Link: https://arxiv.org/abs/2606.05922
NVFP4量子化が低消費電力エッジAI展開に与える影響の特性評価 [cs.AR, cs.LG]目的：エッジ効率型ニューラルネットワークにおけるNVFP4量子化の精度への影響評価
- エッジデバイスにおけるAI推論の普及には，消費電力の削減が不可欠である。
- 量子化による精度劣化が，低消費電力化の大きな課題となっている。
- NVFP4量子化によって，精度劣化を抑制しつつ低消費電力化を実現する。
- NVFP4量子化は，活性化の動的範囲を維持しつつ，超低精度推論を可能にする。
- ブロックサイズ16が，精度とストレージのトレードオフとして実用的であることが示された。
- NVFP4は，リトレーニングと組み合わせることで，評価されたモデル全体で最高の精度を達成した。
Link: https://arxiv.org/abs/2606.06527
DataEvolver：大規模言語モデルのための多段階自己進化による自動データ準備 [cs.DB, cs.AI]目的：大規模言語モデルの学習用データの品質向上
- 大規模言語モデルの性能は学習データに大きく依存する。高品質なデータが不可欠である。
- 既存の自動データ準備方法は柔軟性に欠け，多様なデータ分布に対応できない場合がある。
- データ準備パイプラインを自動構築し，高品質なデータへと変換することで性能向上を目指す。
- DataEvolverは，オペレーターレベルとパイプラインレベルの多段階メカニズムにより，実行可能性と効果性を両立する。
- 7つのベンチマークにおいて，DataEvolverはデータ品質を大幅に向上させ，下流のLLM性能を平均10％改善した。
- LLMとデータの反復的な共同進化の新たな機会を示唆する。
Link: https://arxiv.org/abs/2606.07001
オンポリシー蒸留の幾何学について [cs.IR, cs.LG, cs.AI]目的：オンポリシー蒸留におけるパラメータ空間での更新軌跡の特性
- 大規模言語モデルの推論能力向上には，オンポリシー蒸留が注目されている。
- オンポリシー蒸留の学習ダイナミクスは十分に解明されていない。
- オンポリシー蒸留特有のパラメータ空間における更新の幾何学的性質を明らかにする。
- オンポリシー蒸留の更新は，教師ありファインチューニングや強化学習と比較して，影響を受ける重みが少なく，主成分方向を回避する傾向がある。
- オンポリシー蒸留の累積的な更新は，低い次元の狭いチャネルに速やかに収束する，部分空間ロックを示す。
- 初期段階で形成された更新部分空間に学習を制約することで，オンポリシー蒸留の性能を維持しつつ，教師ありファインチューニングの性能を低下させることが確認された。
Link: https://arxiv.org/abs/2606.07082
討論における創造性評価のためのデータ効率的な計算フレームワーク：DEFINED [cs.LG, cs.AI, cs.CL]目的：討論における創造性の微細な評価
- 大規模言語モデル時代において，人間の創造性は重要な能力である。
- 創造性の評価は専門家のデータ不足と単純なタスクへの依存により困難である。
- 本研究は，限られたデータから創造性を正確に評価するフレームワークを開発する。
- 提案手法DEFINEDは，討論の創造性を8次元で評価する階層的な指標システムを実装した。
- DEFINEDは，訓練データが限られている状況下でも頑健な学習を可能にする混合粒度訓練戦略を採用した。
- 実験の結果，DEFINEDは既存手法やプロンプトベースのLLM評価者よりも高い精度と安定性を達成した。
Link: https://arxiv.org/abs/2606.07226
vLLMにおけるコールドスタート遅延の分析 [cs.LG]目的：vLLMのコールドスタート遅延の性能特性
- 大規模推論サービスの普及に伴い，コールドスタート遅延は重要な課題となっている。
- vLLMは広く利用されているが，その複雑さから起動遅延の体系的な研究は不足していた。
- vLLMの起動遅延の原因を特定し，リソース計画の指針を提供する。
- vLLMの起動プロセスを6つの段階に分解し，CPUバウンドであることが示された。
- 各段階において，モデルやシステムレベルのパラメータに対するスケーリング傾向が確認された。
- ハードウェア構成に応じた起動遅延を予測する分析モデルを開発し，リソース計画に役立つ情報を提供する。
Link: https://arxiv.org/abs/2606.07362
ResearchClawBench：エンドツーエンド自律科学研究のベンチマーク [cs.LG, cs.AI, cs.CL]目的：自律科学研究の評価
- 科学研究におけるAI利用の拡大に伴い，その能力の客観的評価が不可欠となっている。
- 既存の評価方法では，AIエージェントの自律的な研究能力を十分に検証することが困難であった。
- AIエージェントによる論文レベルの再発見能力と新たな発見の可能性を定量的に評価する。
- ResearchClawBenchは，10の科学分野からなる40のタスクで構成され，実世界の論文に基づいた評価が可能である。
- 評価では，最も優れた自律エージェントであるClaude Codeが平均21.5点，LLMであるClaude-Opus-4.7が平均20.7点であった。
- エラー分析の結果，実験プロトコルの不一致，証拠の不一致，科学的コアの欠如が主な失敗要因であることが示された。
Link: https://arxiv.org/abs/2606.07591
MemToolAgent：環境とユーザーフィードバックに基づいたツール利用エージェントにおけるメモリの活用 [cs.AI, cs.CL]目的：ツール利用エージェントのツール利用能力向上
- 複雑なタスク解決に外部ツールを利用するLLMエージェントの重要性が高まっている。
- 長期的な履歴や過去のインタラクションから学習する能力がエージェントの課題となっている。
- 過去のユーザーとの対話からツール利用能力を改善する手法を開発する。
- MemToolAgentは，構造化されたメモリエントリと動的な検索モジュールにより，ツール利用を改善する。
- 本フレームワークは，LLMのファインチューニングなしに，汎用性と個別化されたツール利用を両立する。
- WorkBench，NESTFUL，PEToolBenchにおいて，強力なベースラインと比較してそれぞれ29％，80％，17％の相対的な性能向上を達成した。
Link: https://arxiv.org/abs/2606.07909
翻訳のためのソース書き換えにおける強化学習：翻訳に書き換えて報酬を得る [cs.CL, cs.AI]目的：機械翻訳の品質改善に向けたソース書き換え手法
- 機械翻訳の性能向上は，グローバルコミュニケーションにおいて不可欠であり，その重要性は増している。
- 自然言語プロンプトによる書き換えは，小規模言語モデルでは翻訳品質を低下させる場合がある。
- 翻訳品質の改善を直接最適化する書き換えフレームワークを開発し，その有効性を検証する。
- 提案手法RLSRは，40億パラメータモデルにおいて，書き換えなしのベースラインやプロンプトベースの書き換え手法を大幅に上回る性能を示した。
- RLSRは，2350億パラメータのLLMを用いたベースラインと同等の競争力を持つことが示された。
- ダウンストリームの翻訳品質改善に基づいて書き換えモデルを訓練する強化学習フレームワークが有効であることが確認された。
Link: https://arxiv.org/abs/2606.08011
意味的スキル発見による継続的な quadruped ロボット協調 [cs.RO, cs.AI, cs.MA]目的：継続的な quadruped ロボット協調のためのスキルライブラリ構築
- 複数ロボット協調は，運搬能力向上，接触面積拡大，複雑なタスクへの適応性向上に貢献する。
- 既存手法は特定のタスクに特化し，逐次的にタスクが到来する環境での継続学習が困難である。
- 本研究は，スキル再利用と破滅的忘却の回避を通じて，継続的な協調スキル獲得を目指す。
- Conquerは，タスクレベルの記述子を用いたスキル検索・適応・更新プロセスを実現する。
- シミュレーション実験では，95.6%の平均成功率を達成し，高い前方転移能力と忘却の少なさを実証した。
- 実機による実験でも，Unitree Go2チームでの実用的な協調が可能であることを確認した。
Link: https://arxiv.org/abs/2606.08102
GENERIC-FNO：エネルギー保存とエントロピー生成をフーリエニューラル演算子に組み込む [cs.LG]目的：非平衡熱力学の完全なGENERIC（metriplectic）構造を関数空間に直接埋め込む初のニューラル演算子
- 複雑な物理現象のモデル化において，エネルギーやエントロピーといった物理量の保存則を考慮することが重要である。
- 既存のニューラル演算子は，せいぜい一つの保存則しか適用できず，熱力学的に整合性の取れた学習は限定的であった。
- エネルギーとエントロピーの関数を学習し，厳密な縮退条件を適用することで，物理法則を忠実に再現する。
- GENERIC-FNOは，任意の初期化，次元，解像度において，機械的精度まで縮退恒等式を維持し，エネルギーを保存し，正確にエントロピーを生成する。
- 3種類の演算子バックボーン(1D/2D FNOs, DeepONet)と4種類の偏微分方程式において，GENERIC-FNOは構造的保証を保持し，4倍の超解像度範囲でゼロショット性能を発揮する。
- 物理的散逸の真の順序を回復し，パラメータ数において同等か少ない，制約なしまたはエネルギーペナルティ化されたベースラインと比較して競争力がある。
Link: https://arxiv.org/abs/2606.08343
CoVEBench：動画編集モデルは複雑な指示に対応できるか？ [cs.CV, cs.AI]目的：複雑な動画編集指示に対するモデルの処理能力の評価
- 動画編集技術は，コンテンツ制作や表現の幅を広げる上で不可欠である。
- 既存の評価基準では，複数の要素が絡む複雑な編集作業の性能評価が困難である。
- 複雑な編集指示に対するモデルの課題を明確化し，より実用的な動画編集技術開発を促進する。
- CoVEBenchは，416本の動画と626の多岐にわたる編集指示，9,990のチェックリスト項目を含む。
- 実験の結果，現在のモデルは複数の操作を同時に行う際に，編集の省略や制約違反，アーティファクトの生成といった課題が明らかになった。
- CoVEBenchは，より現実的なユーザーワークフローに向けた動画編集技術の進歩を促すための，診断的なテスト環境を提供する。
Link: https://arxiv.org/abs/2606.08415
GEAR-VLA：汎用的なロボットマニピュレーションのためのジオメトリ認識アクション表現の学習 [cs.RO, cs.AI]目的：汎用的なロボットマニピュレーションのためのジオメトリ認識アクション表現の学習
- ロボットは多様な環境でタスクを実行する必要があり，そのためには汎用性の高いマニピュレーション能力が不可欠である。
- 既存のビジョン-言語-アクションモデルは，未知の物体や環境変化，ロボット本体の違いに弱いという課題がある。
- ジオメトリ情報を考慮した統一的なアクション表現を学習することで，ロボットの汎化性能を高めることを目指す。
- GEAR-VLAは，LIBERO，LIBERO-Plus，RoboTwin 2.0において最先端の性能を達成した。
- AgileX環境では85.9%の成功率，事前学習データに含まれないLDT-01ロボットでは81.0%の成功率を示した。
- 212個の未知の物体を用いた普遍的な把持ベンチマークにおいて，90.1%の成功率を達成した。
Link: https://arxiv.org/abs/2606.08530
逆問題からニューラルオペレーターへ：データ駆動型モデルの予測，メカニズム，および汎化 [cs.LG]目的：データ駆動型モデルによるシステムの応答予測に関する様々なモデリング戦略の関係性
- 物理現象の理解には，数理モデルが不可欠である。しかし，複雑な現象への適用は困難を伴う。
- 従来のモデルは専門知識に依存し，データとの整合性確保が課題であった。
- 異なるモデリング戦略の共通構造を明らかにし，適切な利用法を提示すること。
- 様々なモデリング戦略は，入力と出力の関係を定義するモデルクラスの違いに起因すると論じた。
- 物理システムからのデータは，簡潔な微分方程式の解から生じると仮定し，メカニズム発見能力を持つモデルを特定した。
- 異なるモデリング戦略を統合し，それぞれの適切な使用事例への洞察を提供することを目指した。
Link: https://arxiv.org/abs/2606.08956
グラフからアイデアへ：グラフ構造化コンテキストによる検索拡張型科学的アイデア創出 [cs.AI]目的：科学的アイデア創出
- 科学的発見において，新規性，実現可能性，質の高い研究アイデアの創出は不可欠である。
- 既存手法では，検索された文献が平坦なテキストとして提供され，冗長性や関係性の把握が困難である。
- グラフ構造化された知識を活用し，より明確で効率的なアイデア創出を可能にすること。
- 提案手法Graph2Ideaは，知識グラフを用いて文献間の関係を明示化し，ノイズの少ないコンテキストを抽出する。
- 実験の結果，Graph2Ideaは既存手法と比較して，新規性，質，実現可能性の全てにおいて性能向上を示した。
- グラフ構造化された証拠は，過去の科学的知識の再構築を促進し，より質の高いアイデア創出に貢献する。
Link: https://arxiv.org/abs/2606.09105
Transformer表現の層間における軌跡幾何学 [cs.HC, cs.LG]目的：Transformer表現の層間での進化の軌跡幾何学
- Transformerは自然言語処理で強力だが，その内部動作の解明は重要である。
- Transformerの表現がどのように変化するか，具体的なメカニズムは未解明である。
- Transformer表現の軌跡幾何学を分析し，動作原理の理解を目指す。
- 意味的に関連するプロンプトは，中間層から後期層で顕著に収束することが確認された。
- 推論タスクは，語彙的変種よりも大きな曲率を持つ軌跡を示すことがわかった。
- 曖昧なトークンは最終層で表現が最大5.6倍に分離する軌跡分岐を示すことが示された。
- 層ごとのコサイン類似度は，エンコーディング，詳細化，出力準備という普遍的な三相構造を明らかにした。
Link: https://arxiv.org/abs/2606.09287