arXiv雑要約

AI - 2026/05/29 公開

蒸留と量子化によるApertus LLMファミリーの拡張 [cs.LG]目的：LLMファミリーのサイズ拡張とハードウェア対応
- LLMの多様な応用により，予算やハードウェア制約を満たす必要性が高まっている。
- LLMのモデルサイズとハードウェア対応の幅が限られているという課題がある。
- 蒸留と量子化を用いて，より多くのハードウェア環境で利用可能なモデルを開発する。
- オープンソースのApertus 8B LLMを基に，最大4BパラメータのApertus-v1.1ファミリーを生成した。
- 1.7Tトークンで学習し，蒸留と量子化によるコスト効率と高い精度を実証した。
- 幅広いハードウェア要件とシステム要件に対応できることを示した。
Link: https://arxiv.org/abs/2605.29128
エージェント型AIシステムにおけるテクニカルデットの統治 [cs.AI, cs.CY, econ.GN, q-fin.EC]目的：エージェント型AIシステムにおけるテクニカルデットの蓄積と，その管理
- AI技術の発展に伴い，複雑なタスクを自動化するエージェント型AIの重要性が増している。
- 従来のソフトウェアや機械学習のテクニカルデット概念では，エージェント型AI特有の課題を捉えきれない。
- エージェント型AIにおけるテクニカルデットを可視化し，統治するための方法論を提案する。
- エージェント型テクニカルデットとは，プロンプト，メモリ，ツールスキーマなどが急速に修正され，検証や標準化が追いつかない状況で生じる負債である。
- 確率的エージェントの挙動を許容範囲内に維持するための継続的な負担を「確率的税」と定義した。
- 軽量なダッシュボードとガバナンスコントロールを用いて，これらの問題を可視化することが可能となる。
Link: https://arxiv.org/abs/2605.29129
ハッシュ確率ピラミッドを用いたオイラーガウススプラッティング [cs.PF, cs.AR, cs.DC, cs.CV, cs.LG]目的：確率に基づくスプラッティングによるラディアンスフィールドのフレームワーク
- 3Dシーンの高品質な再構成は，VR/AR等の応用において不可欠である。
- 既存手法では，手動調整されたパラメータに依存し，最適化が不安定になりやすい。
- 損失関数の勾配に基づいて確率密度を最適化し，頑健な再構成を実現すること。
- 提案手法は，3Dガウススプラッティングの高速性を維持しつつ，勾配ベースの最適化により再構成品質を向上させた。
- メモリ効率の高い階層的グリッドと，分散を低減するバイアスなし勾配推定器を用いることで，安定した最適化を可能にした。
- mip-NeRF 360において，最先端の再構成品質と3DGSと同等のレンダリング速度を両立した。
Link: https://arxiv.org/abs/2605.29136
自律運転における遅延と精度のトレードオフ最適化のためのマルチ解像度エンドツーエンド深層ニューラルネットワーク [cs.RO, cs.AI, cs.LG, cs.SY, eess.SY]目的：自律運転における遅延と精度のトレードオフ最適化
- サイバーフィジカルシステムでは，深層ニューラルネットワークの精度と遅延のバランスが重要である。
- 固定解像度のモデルでは，状況変化に対応できず，最適な性能を発揮できない場合がある。
- 状況や計算資源に応じて最適な解像度を選択し，遅延と安全性のバランスを改善すること。
- 提案手法は，CARLA環境において，経路ごとの安全性指標（車線逸脱，信号無視，衝突）において，固定解像度モデルと比較して一貫した改善を示した。
- 複数の入力解像度に対応するバッチ正規化を用いることで，遅延予算内で最適な入力スケールを動的に選択できる。
- 解像度リターゲティングにより，元の訓練データセットにアクセスすることなく，マルチ解像度での訓練が可能となる。
Link: https://arxiv.org/abs/2605.29138
LLMレコメンデーションにおける明示的な文脈フィードバックを通じたユーザー選好の整合性向上 [cs.IR, cs.AI]目的：LLMベースのレコメンデーションシステムにおけるユーザー選好の整合性
- 推薦システムはユーザー体験に不可欠であり，情報過多な現代において有用なコンテンツ発見を支援する。
- 従来の推薦システムは暗黙的な信号に依存し，ユーザーが提供する豊かな文脈的フィードバックを活用できていない。
- LLMを活用し，明示的な文脈フィードバックを取り入れることで，よりパーソナライズされた推薦を目指す。
- 本研究は，推薦システムにおける明示的な文脈フィードバックの重要性を強調し，その活用を促す。
- LLMを活用することで，ユーザーの多様な選好をより正確に捉え，説明可能な推薦を実現できる可能性を示す。
- 新たなベンチマークと評価指標の必要性を提唱し，スケーラブルなLLM駆動型推薦システムのフレームワークを提案する。
Link: https://arxiv.org/abs/2605.29141
SafeRx-Agent：安全かつ説明可能な薬剤推奨のための知識に基づいたマルチエージェントフレームワーク [cs.RO, cs.SY, eess.SY, cs.CL, cs.AI]目的：薬剤推奨の精度向上と安全性の確保
- 医療現場における薬剤選択は，患者の健康に直結する重要な課題である。
- 既存手法は，根拠の薄弱な推奨や安全性の検証不足といった問題を抱えている。
- より安全で説明可能な薬剤推奨を実現し，患者へのリスクを最小限に抑える。
- SafeRx-Agentは，患者情報，臨床知識，安全性検証を活用し，薬剤推奨の精度を向上させた。
- 薬剤相互作用や禁忌を抑制し，推奨される薬剤セットの規模も管理することに成功した。
- MIMIC-IIIおよびMIMIC-IVデータセットを用いた実験で有効性が確認された。
Link: https://arxiv.org/abs/2605.29146
最適ギャップ依存リグレット：プライベート確率的決定論的オンライン学習 [cs.LG, stat.ML]目的：プライベート確率的決定論的オンライン学習における最適ギャップ依存リグレット率の決定
- オンライン学習は，データが逐次的に到着する状況での意思決定に不可欠であり，様々な応用分野で重要。
- プライバシー保護と学習精度の両立が難しく，特にギャップが小さい場合にリグレットが大きくなる。
- イベントレベルの純粋な微分プライバシーを維持しつつ，最適に近いリグレット率を達成すること。
- 本研究では，アクション数K，損失範囲[0,1]，最小ギャップΔminに対するリグレットの上界を導出した。
- 導出されたリグレットは，1000・(log K / Δmin + log K / ε) であり，既存の下界と同程度のオーダーである。
- 提案アルゴリズムは，時間ブロックを指数関数的に増加させ，データに依存しないランダムな接頭辞を用いることでプライバシーを保護する。
Link: https://arxiv.org/abs/2605.29148
深層ネットワークは初期化を忘れるのか？実践的な帰納的バイアスの忘却時間的見解 [cs.LG, math.OC, stat.ML]目的：初期化のスケールに対する検証選択された予測子の依存性
- 深層学習は画像認識などの分野で目覚ましい成果を上げているが，そのメカニズムは未だ解明されていない。
- 深層ネットワークの学習過程における初期化の影響は，一般的に考慮されてこなかった。
- 学習パイプラインが初期化バイアスに与える影響を明らかにし，忘却のメカニズムを理解すること。
- 低学習率のSGDは，初期化を記憶しながら補間が可能であり，初期化スケールによってテスト精度が大きく変動する。
- Adamなどの最適化手法は，初期化への依存性を大きく低下させる。
- 正則化は汎化性能を向上させる一方で，初期化の記憶を消去する。
Link: https://arxiv.org/abs/2605.29152
SciMLにおける多重体制パターン：異なる失敗モードと体制特化型最適化 [cs.LG, cs.AI, physics.comp-ph]目的：SciMLモデルにおける多重体制パターンの解明
- 科学技術計算への機械学習応用は，複雑な現象のモデリングと予測において重要性が増している。
- ハイパーパラメータ設定によって学習が不安定になり，再現性の低い結果に陥ることが課題である。
- SciMLモデルの学習体制を特定し，体制に応じた最適化戦略を提案することで，頑健性を向上させる。
- 様々なSciMLモデルで，性能，学習ダイナミクス，損失地形幾何学において一貫した三つの体制構造が確認された。
- 最適化の有効性は体制に依存し，単一の手法ですべての体制で良好な性能は得られなかった。
- SciMLモデルは，従来の損失地形指標の解釈を困難にする詳細な失敗モードを示すことが明らかになった。
Link: https://arxiv.org/abs/2605.29153
CA-AC-MPC：CUDAアクセラレーションによるアクター・クリティックモデル予測制御 [cs.RO, cs.AI, cs.DC]目的：アクター・クリティックモデル予測制御の高速化
- 複雑なダイナミクスシステムの高性能制御にMPCと強化学習を統合する手法として注目されている。
- 微分可能なMPC層の最適化問題の繰り返し計算が，学習と推論の遅延を引き起こしている。
- CUDAアクセラレーションにより，計算時間を大幅に削減し，高性能制御を維持すること。
- 本手法は，エンドツーエンドの実行時間を大幅に短縮しつつ，ベースラインと同等の制御性能を維持する。
- アジャイルドローンレースのシミュレーションにおいて，最先端のラップタイムと限界に近いダイナミクスを実現した。
- 学習と推論時間の両方において，大幅な改善が確認された。
Link: https://arxiv.org/abs/2605.29155
RUBRIC-ARROW：検証困難な領域におけるLLMポストトレーニングのための交互型ポイントワイズ評価基準報酬モデリング [cs.LG, cs.CL]目的：LLMのポストトレーニングにおける評価基準報酬モデリング手法
- LLMの性能向上には，人間のフィードバックに基づいた報酬信号が不可欠である。
- 主観的な評価基準における絶対的なスコアリングは困難であり，評価のばらつきが生じやすい。
- 評価基準の生成と判断を同時に学習し，公平性と精度を向上させる。
- RUBRIC-ARROWは，確率に基づくスコアリングルールと交互型GRPOスキームを組み合わせることで，評価基準報酬モデリングの精度を向上させる。
- ペアワイズ比較データのみを利用したRLステージにより，フロンティアLLMへの依存を低減する。
- ダウンストリームポリシーのポストトレーニングにおいて，一貫した性能向上を達成する。
Link: https://arxiv.org/abs/2605.29156
パララックス：言語モデルのためのパラメータ化された局所線形注意機構 [cs.LG, cs.AI, cs.CL]目的：言語モデルにおける注意機構の効率化と性能向上
- 大規模言語モデルはAIの中核であり，計算効率が重要課題となっている。
- 従来の注意機構は計算コストが高く，大規模モデルへの適用が困難である。
- パララックスは，計算効率と安定性を向上させ，大規模言語モデルへの適用を可能とする。
- パララックスは，局所線形注意機構をパラメータ化し，数値計算の安定性を高めた。
- 実験により，パララックスはFlashAttentionと同等またはそれ以上の性能を示した。
- 事前学習実験では，パララックスは常に低いパープレキシティを示し，下流タスクでも性能が向上した。
Link: https://arxiv.org/abs/2605.29157
タンパク質ホモログ検索のための後期相互作用検索プロトコル [cs.LG, cs.IR, q-bio.BM]目的：タンパク質ホモログ検索における性能向上
- タンパク質機能予測や構造予測，進化解析に不可欠な技術であり，生命科学研究の基盤である。
- 配列類似性が低い「トワイライトゾーン」では，従来の検索方法ではホモログを見つけ出すことが困難である。
- 局所的なモチーフやドメインを捉え，弱い類似性下でのホモログ検索精度向上を目指す。
- ProtoColは，タンパク質をアミノ酸残基の埋め込み表現の集合として表し，後期相互作用を用いることで，ホモログ検索性能を向上させる。
- SCOPeスーパーファミリーおよびPfamクランのベンチマークにおいて，既存の手法と比較して高い性能を示した。
- 後期相互作用が，遠縁ホモログ検索のための効果的な検索層であることを支持する結果となった。
Link: https://arxiv.org/abs/2605.29158
生成グラフ構造の進化的な洗練：ハイブリッドWGAN-GAアプローチ [cs.LG, cs.AI]目的：生成グラフ構造の構造的欠陥の低減
- グラフ構造データは，様々な分野で広く利用され，その生成は重要性が高い。
- 既存のGANベース生成手法では，次数分布やスペクトル分布にずれが生じやすい。
- 生成されたグラフの構造的特徴を実データに近づけ，より現実的なグラフ合成を目指す。
- 提案手法は，GANで生成されたグラフをGAで洗練することで，MMDを低減することを示した。
- GAによる進化的な洗練は，GANベースのグラフ生成器における構造的ずれを効果的に修正する。
- 本研究は，現実的なグラフ合成やデータ拡張におけるGANの適用範囲を広げる可能性を示す。
Link: https://arxiv.org/abs/2605.29161
遅れても良い：オントロジーに基づいた後処理補正によるニューロシンボリック知識グラフ構築 [cs.AI, cs.LG]目的：オントロジーに基盤を置いた後処理補正によるニューロシンボリック知識グラフの構築
- 複雑な質問応答はAIの重要な課題であり，知識の構造化が不可欠である。
- 既存のテキストベースの知識グラフ構築手法は，シンボリック演算に必要な構造が不足している。
- 知識グラフの整合性を高め，複雑な質問応答の質を向上させる。
- 提案手法は，知識抽出，埋め込みに基づく正準化，オントロジー違反のターゲットを絞った補正を組み合わせる。
- 後処理段階で補正を行うことで，LLMの呼び出し回数を減らし，トークン使用量を大幅に削減する。
- 抽出された知識グラフがSPARQLグラフパターンに適合することから，シンボリッククエリに適していることが示された。
Link: https://arxiv.org/abs/2605.29168
積分格子とモジュール格子における進化篩法のための領域情報に基づく表現 [cs.CR, cs.AI]目的：整数分解や離散対数問題に基づく従来の暗号が量子コンピュータによって解読されるリスクに対する対策
- 現代暗号の根幹を支える問題であり，量子コンピュータによる解読が現実味を帯びているため，安全性確保が急務である。
- 既存の暗号技術は量子コンピュータの登場により，将来的に解読される可能性を抱えている。
- 最短ベクトル問題に対する遺伝的アルゴリズムを改良し，量子耐性暗号の安全性を向上させる。
- Ajtaiらの篩法を遺伝的アルゴリズムとして捉え，領域情報を組み込んだ表現と交叉演算を導入することで，効率的な探索を実現した。
- この手法を積分格子に加えてモジュール格子へ自然に拡張し，適用範囲を広げた。
- 領域情報を活用することで，最短ベクトル問題解決の性能向上に貢献する。
Link: https://arxiv.org/abs/2605.29169
UA-Legal-Bench: ウクライナ語の法的推論を評価するためのベンチマーク [cs.CL, cs.AI]目的：ウクライナ語の法的推論における大規模言語モデルの評価基準
- 法務NLP分野は発展途上であり，言語モデルの多言語対応能力の検証が不可欠である。
- 既存の法務NLPベンチマークは英語中心であり，形態素が豊富で非ラテン文字を使用する言語への対応が遅れている。
- ウクライナ語の法的文書を用いて，大規模言語モデルの法的推論能力を客観的に評価することを目指す。
- UA-Legal-Benchは，ウクライナ最高裁判所の判決記録から作成された5つのタスクを含むベンチマークである。
- 少数ショットプロンプティングは，判決形式の分類において最大38.6ppの改善をもたらすが，結果予測には一貫した効果は見られなかった。
- 不均衡な法的タスクでは，正答率だけではモデルの性能を正確に評価できないことが示された。
Link: https://arxiv.org/abs/2605.29170
生成機械学習を用いた季節予報の確率的バイアス調整：北極海氷予測の事例研究 [cs.LG, physics.ao-ph]目的：季節予報におけるバイアス調整された北極海氷予測アンサンブルの生成
- 季節予報は，将来の気候変動に関する情報を提供し，計画やリスク管理を支援する上で不可欠である。
- 季節予報アンサンブルは，系統的なバイアスや時間的空間的な誤差を含むため，事後処理と校正が課題となる。
- 本研究は，高解像度な予測と精度の向上を目指し，バイアスを補正した予測アンサンブルを生成する。
- 条件付き変分オートエンコーダ（cVAE）に生成器を用いることで，予測の解像度を向上させ，鮮明度を高めることに成功した。
- 調整された予報は，ベンチマーク予測よりも校正精度が高く，観測分布と整合性が高く，誤差も小さいことが示された。
- 連続ランク確率スコアを目的関数に用いることで，スペクトルパワーとシャープネスも向上した。
Link: https://arxiv.org/abs/2605.29172
ペーパーエージェント，ペーパーゲイン：DeFi投資エージェントの実証的分析 [cs.AI, cs.CR]目的：DeFi投資エージェントに関する市場の実態と課題の把握
- DeFi市場の急速な発展に伴い，AIを活用した自動取引エージェントの重要性が増している。
- DeFi投資エージェントの自律性，パフォーマンス，利害関係者との整合性に関する標準が確立されていない。
- DeFi投資エージェントの成熟度を評価するためのフレームワークを提案し，今後の発展に貢献すること。
- 現在のDeFi投資エージェントの多くは，自律的な取引実行の明確な証拠を示しておらず，基本的なAPI連携にとどまっている。
- エージェントの運用資産は3000万ドル以上のペーパーゲインを記録する一方，トークン保有者は合計1億9170万ドルの損失を被っており，上位1％のウォレットが全体の81.4％の利益を占めている。
- トークンの時価総額は運用資産残高と弱く関連しており，成熟したDeFiプロトコルと比較して極めて高い乖離が見られる。ユーザーの総ゲインはピーク後に減少し，平均的なトークン価格は過去最高値から93％下落した。
Link: https://arxiv.org/abs/2605.29174
TIMEGATE：リソース制約下における継続的機械学習適応のための持続可能な時間制限プロモーションゲート [cs.LG, cs.AI]目的：継続的機械学習における適応管理戦略
- 機械学習システムは進化し続け，その学習には資源が必要となる。
- 学習サイクルごとに計算資源，アノテーション，エネルギーを消費するという課題がある。
- 資源制約下で持続可能な適応を可能にする効率的な管理手法を確立すること。
- TIMEGATEは，時間，ラベル付け，学習，評価を予算化することで適応を管理するポリシー層である。
- Adultデータセットではラベル付けが学習より2.3倍効果的であり，SST-2のLLaMA-3.1-8B+QLoRAへの転移も確認された。
- シミュレーションにより，評価に必要な計算資源を66%削減でき，誤ったプロモーションは発生しなかった。
Link: https://arxiv.org/abs/2605.29183
影響誘導型シンボリック回帰：LLM駆動の等式探索による科学的発見（粒状フィードバック付き） [cs.LG, cs.AI]目的：科学的発見のための等式探索
- 科学的発見を加速化する手段として，データ駆動型モデリングの重要性が高まっている。
- 従来のシンボリック回帰手法は，探索効率が低く，改善の指針を得ることが困難であった。
- LLMを活用し，粒状なフィードバックを通じて探索効率を高め，等式探索を改善すること。
- 提案手法IGSRは，LLMによる候補基底関数の生成と，影響度スコアを用いた厳密な選択を組み合わせることで，等式探索の精度と効率を向上させた。
- IGSRは，多様なベンチマークデータセットにおいて有効性を示し，特に高次元生物学的データセットから，DNAメチル化とRNAポリメラーゼIIポーズの新たな関係を発見した。
- この発見は，その後の実験によって検証され，IGSRが真の科学的発見を可能にするフレームワークであることを示した。
Link: https://arxiv.org/abs/2605.29184
強化学習が自身の語彙を抑制するとき：パズルから数学への転移における推論の多様性の回復 [cs.CL, cs.LG, cs.CL]目的：パズルと数学の問題間の推論能力の転移における，強化学習の役割とメカニズムの解明
- 大規模言語モデルの推論能力向上は，様々な分野での応用を可能にする重要な課題である。
- 強化学習による推論能力の向上が，なぜ異なる分野で有効なのか，そのメカニズムが不明である。
- 強化学習が推論の多様性を抑制する問題を解決し，数学問題への転移能力を向上させる。
- 検証可能な報酬を用いた強化学習は，言語モデルの推論能力を向上させる。
- パズルを用いた事前学習と強化学習により，数学の問題解決能力が大幅に向上する。
- 新規性ボーナスを導入することで，強化学習における探索的な推論の多様性を回復させ，更なる性能向上が見られた。
Link: https://arxiv.org/abs/2605.29190
ReasonOps：LLM推論トレースに対するオペレーターセグメンテーション [eess.SY, cs.RO, cs.SY, math.OC, cs.AI, cs.CL]目的：大規模言語モデルの推論トレースの内部構造を記述するための語彙の欠如を解消する手法
- 大規模言語モデルの推論過程の理解は，その性能向上や信頼性確保に不可欠である。
- 既存の分析手法は，柔軟性や表現力に乏しく，多様なモデルやドメインに対応できない。
- 推論トレースを普遍的なオペレーターで表現し，モデル間の共通構造を明らかにすること。
- ReasonOpsにより，12種類の思考型LLMから得られた44,662のトレースを分析した結果，7つの再帰的な推論オペレーターが明らかになった。
- これらのオペレーターは，あらゆるモデルファミリーとベンチマークドメインで共通しており，独立したLLMジャッジによる検証でも高い精度が確認された。
- 難易度によってオペレーターの構成が異なり，難しい問題では反省的なオペレーターが有効であることが示された。
Link: https://arxiv.org/abs/2605.29192
確率的物理システムの軌跡生成のための確率的リフティング [cs.LG, cs.AI, cs.NA, math.NA]目的：確率的物理システムの軌跡生成手法
- 物理現象のシミュレーションは，科学技術の発展に不可欠である。
- 従来のモデルでは，少数サンプルで多様な軌跡を生成することが困難である。
- 本研究は，確率的リフティングを用いて多様な軌跡生成を可能とする。
- 確率的リフティングは，状態遷移に高次元のランダムラベルを付与することで，多様な予測を可能にする。
- 学習データにラベルを付与し，現在の状態とラベルから次の状態への写像を学習する。
- 推論時には，新たなラベルをサンプリングし，学習された写像を繰り返し適用することで，多様な軌跡を生成する。
Link: https://arxiv.org/abs/2605.29194
生成音楽モデルにおける学習データの監査：ブラックボックス型メンバーシップ推論による検証 [cs.SI, cs.LG]目的：生成音楽モデルの学習データに含まれる特定のオーディオサンプルを，モデルへのクエリアクセスのみを用いて判定すること。
- テキストから音楽を生成する技術は進歩しているが，データの出所や同意，学習の透明性に関する懸念が高まっている。
- 大規模なデータセットで学習されるため，特定のオーディオサンプルが学習データに含まれていたか検証する手段が存在しない。
- ブラックボックス型メンバーシップ推論を用いて，学習データ監査の実現可能性を検証し，プライバシー保護に貢献すること。
- 学習データに含まれるサンプルは，モデルがキャプションに基づいて生成する音楽との意味的・構造的な整合性が高い。
- シャドウモデルを用いて学習した音楽監査器は，メンバーとノンメンバーを高い精度で識別できる。
- 最先端の音楽生成器において，98.6%の精度で学習データの監査が可能であり，偽陽性・偽陰性率はそれぞれ1.9%と1.0%である。
Link: https://arxiv.org/abs/2605.29202
libhmm：隠れマルコフモデルのための最新C++20ライブラリ - 正しい最尤推定放出Mステップ付き [cs.MS, cs.LG]目的：隠れマルコフモデルのパラメータ推定，系列デコード，モデル選択
- 隠れマルコフモデルは，音声認識，バイオインフォマティクスなど広範な分野で活用される基本的な統計モデルである。
- 既存のC++ HMMライブラリはメンテナンス不足，依存関係が多い，あるいは不正確な推定方法を用いる傾向がある。
- 放出分布のMステップにおいて，より正確な最尤推定を提供することで，モデルの精度向上を目指す。
- libhmmは，16種類の連続・離散放出分布に対して，正確な最尤推定量を実装している。
- AVX-512，AVX2，SSE2，ARM NEONなどのSIMDアクセラレーションにより，高速な計算を実現している。
- 実データベンチマークにおいて，既存のC/C++ HMMライブラリおよびRパッケージと比較し，良好な結果を示している。
Link: https://arxiv.org/abs/2605.29208
ウェブエージェント向け大規模長期的タスク生成：GTA [cs.AI, cs.CL]目的：ウェブエージェントの訓練と評価を可能にする現実的で多段階のタスクと実行可能な軌跡のベンチマーク
- ウェブ検索とツール利用能力を持つウェブエージェントは，オープンなウェブアシスタントとして期待されている。
- 既存のベンチマークは手作業で作られており，詳細な軌跡が不足しているため，現実的なタスクへの汎化が困難である。
- 自動生成手法では，コストや偏り，表面的なタスクしか生成できないという課題があった。
- 本研究では，クロール，検索，生成，品質管理を統合したスケーラブルなフレームワークGTAを開発した。
- GTAは，50を超えるウェブサイトで多言語かつ多段階のタスクを生成し，人間とエージェントの性能差を明らかにした。
- 多段階ウェブエージェントタスク生成の形式化，自動データ生成パイプラインの提案，動的なベンチマークの公開が貢献である。
Link: https://arxiv.org/abs/2605.29218
大規模言語モデルのサイズを一般的なテキストの記憶から推測 [cs.LG]目的：大規模言語モデルのサイズ推定
- 大規模言語モデルの性能評価やコスト見積もりに，モデルサイズは重要な指標となる。
- モデル開発者はパラメータ数を非公開にすることが多く，モデルサイズの把握が困難である。
- 生成されたテキストのみからモデルサイズの下限を推定する手法を確立すること。
- 一般的なテキストの予測精度に基づき，モデルの記憶量を推定する。
- 複数のモデル間でのサイズ比較や，パラメータ数へのマッピングが可能となった。
- 非公開モデルの内部構造や開発戦略の違いが明らかになった。
Link: https://arxiv.org/abs/2605.29223
関連性が脆弱性となる：LLMエージェントにおけるWeb検索が安全性調整を低下させる仕組み [cs.CL, cs.AI, cs.CR]目的：LLMエージェントにおける検索誘発による安全性低下の分析
- AIエージェントは，最新の情報提供にWeb検索を利用する。その安全性確保は重要課題である。
- Web検索の導入は，AIエージェントの有害な要求への対応を増加させることが課題となっている。
- 検索の関連性が安全性に及ぼす影響を分析し，安全性と有用性のトレードオフを明らかにする。
- 検索統合方法において，ツール呼び出しと応答生成を一度に行うと，有害な出力が増幅されることが判明した。
- 安全性を意識した情報源であっても，警告を含むページなどは有害な要求への対応を25%増加させる「安全源のパラドックス」が確認された。
- 関連性は脆弱性の共通の活性化条件であり，検索の有用性と安全性のトレードオフを示唆している。
Link: https://arxiv.org/abs/2605.29224
BenchTrace：LLMエージェントの反省能力と制御された進化をテストするためのベンチマーク [cs.AI]目的：LLMエージェントにおける自己進化能力の評価
- LLMエージェントの性能向上には，過去の失敗から学習し，自己改善する能力が不可欠である。
- 既存の評価方法はタスクの成功率に偏っており，反省の質や特定の失敗パターンへの対処が評価されていない。
- 反省の質を評価し，特定の失敗パターンへの対処能力を改善するためのベンチマークを提供すること。
- BenchTraceは，多様なタスクにおける1,821エピソードの反省データセットに基づき，反省評価と進化評価を提供する。
- Qwen3-32BとGPT-4.1を用いた実験で，両モデルとも反省評価の終端パス率が30%を下回っており，診断が主なボトルネックとなっていることが判明した。
- 進化評価では，自己進化手法がFARを向上させるものの，エピソードの蓄積に伴い早期の教訓が忘れられ，タスク間の文脈を超えた汎化が困難であることが示された。
Link: https://arxiv.org/abs/2605.29225
タンパク質3次元構造に基づく動的グラフ表現に対する従来の機械学習と深層学習の比較 - タンパク質構造分類における性能評価 [cs.LG, q-bio.MN]目的：タンパク質構造分類における機械学習と深層学習の性能比較
- タンパク質の機能解明には，その3次元構造の正確な予測が不可欠である。
- 既存手法では，計算コストが高く，大規模データへの適用が困難な場合がある。
- 動的グラフ表現を用いたタンパク質構造分類において，深層学習の有効性を検証する。
- タンパク質構造分類の精度に関しては，従来の機械学習と深層学習はほぼ同等であった。
- 深層学習は，平均して従来の機械学習よりも10倍以上遅い処理速度を示した。
- 動的PSNに基づくタンパク質構造分類において，機械学習と深層学習を比較評価した最初の研究である。
Link: https://arxiv.org/abs/2605.29228
カリキュラムの調整：動的なデータモデル適合性による学生中心の推論蒸留 [cs.AI]目的：推論蒸留のためのデータセット適合性の評価指標
- 大規模言語モデルの推論能力を小型モデルに転移する技術であり，効率的なAI開発に貢献する。
- 従来のデータセット選択は，学生モデルの能力との適合性が考慮されておらず，性能向上が限定的である。
- データセットと学生モデルの適合性を定量的に評価し，最適なデータ選択を可能にすることで性能向上を目指す。
- 提案するデータモデル適合性（DMC）は，推論蒸留の性能と強い相関関係を示すことが確認された。
- DMCをデータ選択基準として用いることで，複数の学生モデルとタスクにおいて推論蒸留性能が向上した。
- 学習中に動的に変化するDMCに基づいたデータセット選択により，更なる性能向上が期待できる。
Link: https://arxiv.org/abs/2605.29229
倫理的な顔年齢推定に向けて：子供のデータで学習しない汎化ゼロショットベンチマーク [cs.CV, cs.AI]目的：顔年齢推定における，子供のデータを使用しない汎化ゼロショットベンチマークの提案
- 顔年齢推定は，セキュリティやマーケティングなど様々な分野で応用が期待される重要な技術である。
- 既存の顔年齢推定は未成年者の画像データに依存しており，倫理的・法的・プライバシー上の問題が指摘されている。
- 子供のデータを使用せずに，年齢層の変化に対応できるロバストなモデル開発を促進すること。
- 提案されたベンチマークを用いて9つの最先端の年齢推定手法を評価した結果，全ての手法が未知の年齢層への汎化に失敗した。
- 未知の年齢層に対する性能は，教師あり学習のベースラインと比較して平均46.4%，最大52.8%も低下した。
- モデルは未知の年齢層の予測を，学習済みの近い年齢層に固定する傾向があり，これが汎化性能低下の要因となっている。
Link: https://arxiv.org/abs/2605.29230
BlockBatch：効率的な拡散言語モデル推論のためのマルチスケールコンセンサスデコーディング [cs.IR, cs.LG, cs.AI]目的：拡散言語モデル推論における効率化
- 大規模言語モデルの利用拡大に伴い，推論速度の向上が喫緊の課題となっている。
- ブロックサイズの設定が，局所的条件の維持と並列処理の効率化というトレードオフを生む。
- ブロックサイズ多様性を活用し，推論速度と精度の両立を目指す。
- BlockBatchは，複数のブロックサイズ分岐をバッチ処理で実行する推論フレームワークである。
- 3つの代表的なdLLMと4つのデータセットにおいて，平均で26.6%のNFEs削減を達成した。
- Fast-dLLMと比較して，平均1.33倍の推論速度向上を実現し，精度を維持している。
Link: https://arxiv.org/abs/2605.29233
文献検索評価の再考：深層リサーチが役立ち，人間の引用リストは真実ではない [cs.AI, cs.IR]目的：大規模文献検索における改善と，人間による参照リストの評価対象としての妥当性検証
- 学術研究において，関連文献の効率的な探索は不可欠であり，研究の質と進捗に直接影響する。
- 従来の文献検索評価は，人間の作成した参照リストを絶対的な正解とみなす傾向があり，その妥当性に疑問が残る。
- 深層リサーチを用いて検索性能を向上させるとともに，人間による参照リストの限界を明らかにし，より多角的な評価方法を提案する。
- 深層リサーチパイプラインを実装した結果，APIのみの検索と比較して大幅な性能向上を示し，RollingEval-Jun25の再現率を20%未満から80%以上に向上させた。
- 中立的なLLMを用いた評価により，人間の引用の約51%のみが中程度の関連性以上と判断され，最良のAI再ランク付け器の86-88%を下回った。
- 人間の引用はAIよりも共同研究者への引用頻度が高く，引用リストの客観性に対する懸念が示唆された。多角的な評価が必要である。
Link: https://arxiv.org/abs/2605.29234
SigmaMedStat：集中治療室における誤報低減のための時間信号モデリング [cs.LG]目的：集中治療室における偽警報の削減
- 集中治療室では，患者の安全確保が重要であり，アラームの過剰な発生が問題となっている。
- アラームのほとんどが臨床的に重要でないため，医療従事者のアラームに対する注意力が低下する。
- 本研究は，時間信号モデリングを用いて，偽警報を効果的に識別し，医療従事者の負担を軽減することを目指す。
- SigmaMedStatは，生理学的アラーム信号の信頼性を評価する機械学習システムである。
- 提案手法は，60秒間の記録を10秒間のチャンクに分割し，各チャンクの時間周波数解析と深層学習モデルを組み合わせる。
- 5分割交差検証の結果，平均AUCは0.822であり，静的なベースラインモデル（AUC 0.641）よりも高い性能を示した。
Link: https://arxiv.org/abs/2605.29236
AIを用いた教師と生徒間のフィードバックによる，結果に依存しない学習支援メカニズム [cs.AI, cs.CL, cs.HC, cs.IR]目的：教師と生徒間のフィードバックを通じた学習支援のメカニズム
- 教育現場における個別最適化の重要性が高まっており，効果的な学習支援が求められている。
- 従来の学習評価は結果に依存しており，リアルタイムな指導改善には課題が残されている。
- AIを活用し，成績に依存せず，リアルタイムに学習課題を特定し，指導を支援することを試みる。
- AIによる分析結果から優先的に対応すべきトピックが，教員の懸念と高い一致率を示した（top-5 overlap 3/5，Spearman $\rho=0.80$）。
- 学生が自己申告する学習困難度とAIによる分析結果にも有意な相関が認められた（$\rho=0.46$, $p=.048$）。
- 複数の信号を統合することで，単一の信号源では特定できなかった学習者の課題がより明確に特定された (AUC $=0.96$ vs. $0.91$)。
Link: https://arxiv.org/abs/2605.29240
待て！脱出方法がある：会話の逸脱予測における意思決定メカニズム [cs.CL, cs.AI, cs.CY]目的：会話の逸脱予測における，逸脱の可能性と回復の可能性を考慮した意思決定メカニズム
- オンラインコミュニケーションの普及に伴い，有害な会話の早期発見が重要視されている。
- 従来の予測モデルは，逸脱の可能性のみに焦点を当て，誤検知率が高いという課題があった。
- 会話の将来的な軌道を考慮し，逸脱の可能性が一時的なものであれば警告を遅らせることで，誤検知率を低減することを目指す。
- 提示手法では，将来予測シミュレーションを用いて緊張緩和の可能性を評価し，警告を遅らせるメカニズムを導入した。
- その結果，最先端の予測モデルにこのメカニズムを組み込むことで，予測精度を損なうことなく，誤検知率を大幅に削減できた。
- 本研究は，予測システムにおける意思決定の重要性を示唆し，新たな設計指針を提供する。
Link: https://arxiv.org/abs/2605.29243
LLMにおける暗黙的なID技術：データセット，モデル，生成コンテンツにおけるフィンガープリンティングとウォーターマーキング [cs.CR, cs.CL, cs.LG]目的：LLMのID，所有権確認，来歴，生成コンテンツの帰属に関するフィンガープリンティングとウォーターマーキングの調査と分類
- LLM開発には莫大な投資が必要であり，高リスクな環境での利用が増加しているため，資産保護が不可欠である。
- 既存研究は急速に進展しているものの，フィンガープリンティングとウォーターマーキングの一貫性が低く，孤立した設定で研究されることが多い。
- LLMシステムにおける検証可能なID信号を統合的に捉え，資産保護と来歴追跡の信頼性向上を目指す。
- 本調査では，フィンガープリンティングを内在的特性から得られる非侵襲的なID，ウォーターマーキングを意図的に埋め込まれる侵襲的なIDと定義する。
- データセット，モデル，生成コンテンツのライフサイクルに基づいた分類を提案し，類似性に基づく帰属と鍵付き検証の検証セマンティクスを区別する。
- 識別可能性，堅牢性，展開可能性を中心とした評価フレームワークを確立し，現実的なアクセスと変換下での代表的な指標をまとめた。
Link: https://arxiv.org/abs/2605.29245
DenseSteer：小規模言語モデルの密な数学的推論への誘導 [cs.AI, cs.CL, cs.LG]目的：小規模言語モデルにおける密な数学的推論能力の向上
- 数学的推論は，科学技術の発展や問題解決に不可欠な能力である。
- 小規模言語モデルは，多段階推論タスクにおいて大規模モデルと比較して性能が低い。
- 推論ステップ数を減らしつつ，各ステップの情報密度を高めることで，小規模モデルの数学的推論能力を向上させる。
- DenseSteerは，モデルの内部表現を密な推論パターンへ調整する，学習不要な推論時ステアリングフレームワークである。
- 実験により，DenseSteerはトークンレベルの負対数尤度を増加させずに，一貫して精度の向上を実現することが示された。
- これは，密な推論が数学の問題解決において有効な構造的アプローチであることを示唆する。
Link: https://arxiv.org/abs/2605.29247
OmniRetrieval：異種知識ソースに対する統合的検索 [cs.CL, cs.AI, cs.IR, cs.LG]目的：異種知識ソースに対する統合的検索フレームワーク
- 現実世界の多様な情報ニーズに対応するため，様々な知識ソースへのアクセスが不可欠である。
- 既存の検索システムは，特定の知識ソースに特化しており，異なるソース間の連携が困難である。
- 各知識ソースの特性を活かしつつ，統一的なインターフェースを提供することで，検索の汎用性を高める。
- OmniRetrievalは，自然言語によるクエリを受け付け，適切な知識ソースを特定し，ソース固有のクエリを実行する。
- 13のデータセットと309の知識ベースを用いた評価実験で，既存の単一ソース検索システムを上回る性能を示した。
- これにより，OmniRetrievalが異種知識ソースへの汎用的なインターフェースとして機能することが示された。
Link: https://arxiv.org/abs/2605.29250
証明可能な安全なエージェントガードレール [cs.AI, cs.CR]目的：エージェントの安全性を保証する新たな枠組み
- 大規模言語モデルがエージェントとして進化する中で，セキュリティの重要性が増している。
- 従来のガードレールは記号的攻撃に弱く，決定的な安全性を保証できない。
- 論理的推論の限界に基づき，形式的な検証による安全なエージェントの実現を目指す。
- 提案手法は，物理的操作前に意図を論理制約として形式化することを強制する。
- 動的な敵対システムにおける評価により，攻撃成功率と誤検知率がともにゼロであることが確認された。
- この研究は，将来の知能システムのための基盤となる防御メカニズムを提供する。
Link: https://arxiv.org/abs/2605.29251
OpenClawBench：実世界のAgent実行軌跡におけるプロセス側の異常のベンチマーク [cs.AI]目的：実世界のAgent実行プロセスにおけるプロセス側の異常を測定・監視するための大規模データセット
- Agent技術の応用範囲拡大に伴い，信頼性向上が喫緊の課題となっている。
- タスク成功という結果のみでは，プロセス側の潜在的な異常を見逃す可能性がある。
- タスク成功時にも存在するプロセス側の異常を可視化し，評価可能な基準を提供する。
- OpenClawBenchは，6つのソースモデルから生成された31,264件の注釈付き軌跡を含む大規模データセットである。
- 31,135件のタスク成功事例のうち，2,904件がFullTaxによってプロセス異常とラベル付けされた。
- LoRAでファインチューニングされたGemma 3 12B検出器は，バイナリF1=0.729を達成した。
Link: https://arxiv.org/abs/2605.29253
極端な動的対称性が全方向性と多機能性を可能にするロボット [cs.RO, cs.AI]目的：ロボットの動的対称性による性能向上
- 自然界のシステムは対称性を基礎とするため，ロボット設計への応用は重要である。
- ロボット設計において，対称性は形状に限定され，動的特性への活用が不足していた。
- 動的対称性を高めることで，ロボットの汎用性とロバスト性を向上させることを目指す。
- 動的対称性の高いロボットは，軌道追跡，タスク成功率，エネルギー効率が向上することが示された。
- Argusと呼ばれる球形ロボット群を開発し，動的対称性の影響を系統的に検証した。
- 20脚のArgusロボットは，全方向移動，複雑地形の走査，自己安定化，部分的なアクチュエータ故障への耐性を示した。
Link: https://arxiv.org/abs/2605.29254
DynSess：ロールプレイングエージェントのための動的なセッションレベル評価・最適化フレームワーク [cs.CL, cs.AI]目的：ロールプレイングエージェントにおけるセッションレベルの評価と最適化
- 大規模言語モデルのロールプレイングは，一貫性と対話品質が重要であり，その評価手法の確立が求められている。
- 既存の評価・最適化手法はターンレベルに偏っており，長期的な品質を捉えきれていない。
- セッション全体を通しての品質を評価し，長期的な行動に基づいた学習を実現することを目指す。
- DynSess-Evalは，従来の評価者よりも人間の判断と大幅に一致するセッション全体のスコアリングを実現した。
- DynSess-Characterは，パラメータ数を大幅に削減しつつ，最先端のキャラクターモデルと同等の性能を達成した。
- ロールの一貫性とインタラクティブ性を維持しつつ，高品質な対話を可能とした。
Link: https://arxiv.org/abs/2605.29256
KLAS：類似度を用いたニューラルネットワークの縫合による精度効率のトレードオフ改善 [cs.LG, cs.AI]目的：ニューラルネットワークの縫合による精度効率トレードオフの最適化
- 多様な展開ターゲットに対応するため，計算資源に応じた柔軟なモデル選択が重要である。
- 既存の縫合手法は最適でないトレードオフを生みやすく，一般化性に乏しい。
- 事前学習済みモデル間の類似度を活用し，縫合選択を自動化・一般化することで，より良いトレードオフを実現する。
- KLASは，事前学習済みモデル間のKLダイバージェンスを利用して，最適な縫合構造を効率的に特定する。
- ImageNet-1Kのトップ1精度を最大1.21%向上させるか，同じ計算コストでFLOPsを1.33倍削減する。
- KLASは，既存手法と同等のファインチューニングコストで，縫合モデルの精度効率曲線全体を改善する。
Link: https://arxiv.org/abs/2605.29259
リアルタイム制約と長期的推論の調和：動的スケジューリングのための非同期エージェントフレームワーク [cs.AI]目的：動的フレキシブルジョブショップスケジューリング問題における，リアルタイム性とグローバル最適化のトレードオフ解決
- 製造業における生産効率向上のためには，変化する状況に迅速に対応しつつ，全体的な最適化を図ることが不可欠である。
- 従来の優先度ルールは複雑な妨害に対応できず，学習ベースのアプローチは解釈性や汎化性能に課題がある。
- 大規模言語モデルの推論遅延を克服し，リアルタイム性と長期的推論を両立する新しいフレームワークを開発すること。
- RACE-Schedは，リアルタイムなディスパッチとLLMによるルール合成・検証・進化を非同期に実行する二重ストリームアーキテクチャを採用している。
- 提案手法は，厳格なサンドボックス環境でのテストとアトミックアップデートにより，安全性を確保しつつ制御ループをブロックしない。
- GEN-Bench，MK-Bench，JMS-Benchにおける評価で，既存の深層強化学習やLLMベースの手法を凌駕する性能を示した。
Link: https://arxiv.org/abs/2605.29262
ウェアラブル脳波増強のための4電極前頭部からのロバストな周波数較正仮想脳波チャネル生成 [cs.LG]目的：ウェアラブル脳波のチャネル数を増やすための仮想チャネル生成手法
- 長期的な脳波モニタリングにおいて，ウェアラブル脳波の利便性が求められている。
- 電極数の少ないウェアラブル脳波では，空間的な情報が限られ，脳活動の全体像把握が困難である。
- 少ない電極からの情報から，より多くの脳波チャネルを生成し，空間的な情報を補完すること。
- FAVC-Netは，4つの前頭部電極から13個の仮想チャネルを生成し，既存のニューラルネットワークや補間手法を上回る性能を示した。
- 特に，周波数領域において，従来のモデルと比較して，スペクトル距離とPSD KLダイバージェンスがそれぞれ30.09%と37.98%減少した。
- ノイズが混入する状況下でも，FAVC-Netは周波数特性を維持し，スペクトル崩壊に強いことが示された。
Link: https://arxiv.org/abs/2605.29263
人間によるキュレーションが逆効果となる場合：マルチモデル自己消費ループ下での嗜好性アラインメント [cs.AI, cs.LG]目的：マルチモデル自己消費ループにおける嗜好性アラインメント
- 基盤モデルの性能向上にはデータが不可欠であり，合成データ活用が注目されている。
- 自己消費学習はモデル崩壊やバイアス増幅のリスクを伴うことが課題である。
- マルチモデル環境下での人間によるキュレーションの効果を明らかにすること。
- 人間によるキュレーションは必ずしもモデルのアラインメントを向上させない場合がある。
- クロスモデル間の相互作用により，キュレーション効果が減衰，または逆転する可能性がある。
- 長期的なアラインメントの低下を引き起こす要因が，相互作用にあることが示唆された。
Link: https://arxiv.org/abs/2605.29267
進化探索における計算資源配分：深さ優先探索から多腕バンディットへ [cs.CL, cs.AI, cs.LG, cs.NE]目的：LLM誘導進化探索における計算資源配分の最適化
- LLMを活用した探索は，数学・組合せ問題で高い成果を上げる重要な手法となっている。
- 既存研究では，複数回の試行のうち最良の結果のみが報告され，試行間のばらつきが不明である。
- LLM呼び出し回数の最適な配分方法を確立し，結果の信頼性を向上させることを目指す。
- 深さ優先探索と幅優先探索の範囲を調査した結果，有効なFLOP数に応じてモデルの性能順位が収束する傾向が確認された。
- 深さと幅の間の関係は，タスク固有の相互作用を持つ双線形モデルで近似できることが示された。
- 提案手法BaSE（バンディットベース自己進化）は，既存手法と比較して平均適合度を12.3%向上させ，特に分散の高い設定で大きな効果を発揮した。
Link: https://arxiv.org/abs/2605.29268