arXiv雑要約

AI - 2026/06/15 公開

申し訳ありませんドライバー，それはできません：自動車分野におけるLLMの安全性評価 [cs.SE, cs.AI, cs.ET]目的：自動車分野におけるLLMの安全性確保のための既存の枠組みの評価
- 自動車分野では，AI技術の進化に伴い，安全性と信頼性の確保が不可欠である。
- 汎用的なLLMを自動車のような安全性が重要なシステムに組み込む際の課題が明確化されていない。
- LLMを自動車に組み込む際の安全性に関するリスクを特定し，将来的な対策を提案すること。
- 既存の枠組みは，LLMを自動車制御タスクに統合する上で，リアルタイム性と安全性の点で課題を抱えている。
- ISO21448やISO/PAS8800などの既存規格における技術的制約や，LLM固有の問題が明らかになった。
- Talk2Driveを用いた実験ケーススタディを通じて，既存ソリューションの限界を明確にし，将来的な安全対策の方向性を示唆した。
Link: https://arxiv.org/abs/2606.14327
分布の幾何学的モデリングのためのリーマン計量マッチング [cs.LG, math.DG]目的：分布の幾何学の学習
- 高次元データ解析において，低次元構造の幾何学的な性質を捉えることは重要である。
- 既存手法は，データサイズや次元数の増加に伴い，計算コストが増大する。
- ニューラルネットワークを用いて，効率的にリーマン幾何学を学習し，高速な推論を実現すること。
- 提案手法は，既存の$k$-NNに基づく拡散幾何学推定量と同等またはそれ以上の精度を達成する。
- 明示的なカーネル構築を必要とせず，最長400倍高速な推論が可能となる。
- 高次元画像のような近傍探索が困難なデータに対しても，幾何学的な解析をグラフなしで実行できる。
Link: https://arxiv.org/abs/2606.14334
触覚イメージングのための局所シーン表現：LESSによる可能性 [cs.LG]目的：触覚イメージングにおける内部構造再構成手法
- 医療診断やロボット操作に応用され，触覚情報による物性把握の重要性が高まっている。
- 既存手法はグローバルな表現に依存し，汎化性能や実用性に課題があった。
- 局所的な触覚情報の活用により，汎化性能と空間的不確実性の推定を向上させる。
- 提案手法LESSは，局所受容野を持つ再帰型エンコーダのグリッドを用いて触覚シーンをモデル化する。
- 単一の異物を含むデータで学習したモデルが，複数の異物や異なる大きさの物体のイメージングに成功した。
- 外部ポーズ追跡と人間らしい触診データにより，手持ち式触覚イメージングと3D再構成を可能にした。
Link: https://arxiv.org/abs/2606.14344
Squeeze-Release: 正確な構造的最小化による反復プルーニング [cs.LG, cs.AI]目的：非構造化プルーニングによる疎な重みテンソルの構造的最小化
- モデルの効率化は，モバイル環境やエッジデバイスでの利用を可能にする上で重要である。
- 従来のプルーニング手法では，テンソル形状が変化せず，モデルサイズを縮小できない場合がある。
- 本研究は，モデルサイズを大幅に削減しつつ，精度を維持することを目指す。
- Squeeze-Releaseサイクルにより，モデルを最大39倍に圧縮可能である。
- ConvNeXt-Tinyモデルでは，14.8倍の圧縮率を達成し，同等の精度を維持する。
- 本手法は，Transformerアーキテクチャにも適用可能であることが証明された。
Link: https://arxiv.org/abs/2606.14346
言語表現の相互作用：LLMにおける分離可能性とクロス言語効果 [cs.LG]目的：大規模言語モデルにおける言語表現の相互作用の解明
- 多言語対応は重要性が増しており，その内部表現の理解が不可欠である。
- 多言語モデルでは言語アイデンティティが相関し，構造が複雑である。
- 言語表現の分離可能性と類似性を明らかにし，信頼性の高いモデル展開に貢献する。
- 言語概念は，共分散調整された内積の下で，おおむね分離可能な線形表現を持つことが示された。
- 言語族（ゲルマン語族，ロマンス語族など）は，シンプレックスのような幾何学的構造を示すことが明らかになった。
- この結果は，多言語環境における因果幾何学的解釈可能性を拡張し，クロス言語効果のリスクを評価するための知見を提供する。
Link: https://arxiv.org/abs/2606.14347
分散型・複合AIシステムの設計手法と性能トレードオフ管理 [cs.DC, cs.AI]目的：分散型・複合AIシステムの設計と性能向上
- AIシステムの利用拡大に伴い，性能とコストの最適化が重要課題となっている。
- 従来のモデル中心のアプローチでは，入力の難易度に応じた柔軟な計算や，タスクの分散が困難である。
- システム全体を最適化する設計手法により，性能低下とコスト増加を抑制することを目指す。
- 複合AIシステムは，従来のモデルと比較して，精度をほぼ維持しつつ，遅延を最大60%削減し，コストを最大71%削減することを示した。
- モデル選択とパラメータ設定がシステム性能を大きく左右するが，設計空間は組み合わせ的に増加する。
- 自動的な性能維持に向けた課題を特定し，今後の研究の方向性を示した。
Link: https://arxiv.org/abs/2606.14350
深層ニューラルネットワークは，大規模科学データの圧縮を改善できるか [cs.LG]目的：大規模科学データの圧縮性能向上
- 科学シミュレーションや観測機器によるデータ量が急速に増加しており，効率的なデータ管理が重要である。
- 既存の圧縮技術は予測の精度に依存するが，科学データに適した予測モデルの開発には大きな負担がある。
- 気候データを用いて，深層学習モデルを予測器として利用する圧縮フレームワークの有効性を検証する。
- 深層学習モデルは，より正確な予測を生成し，再構成品質を最大91%向上させ，予測しやすい変数に対して最大9.6倍の圧縮率を達成した。
- しかし，データセット全体の圧縮率は，予測精度向上のみでは改善されなかった。
- 残差データの空間構造が，エントロピー符号化の効率に決定的な役割を果たすことが示された。
Link: https://arxiv.org/abs/2606.14353
MUFFLe：連合学習のための汎用化された重複排除による効率的なモデル更新圧縮 [cs.LG]目的：連合学習におけるモデル更新圧縮スキーム
- エッジ環境での学習需要が高まる中，通信コストが課題となっている。
- モデル更新の送信コストが，連合学習のボトルネックとなりやすい。
- 通信効率を高め，連合学習の実用性を向上させることを目指す。
- MUFFLeは，モデル更新に含まれる反復パターンを排除することで圧縮を実現した。
- MNISTデータセットを用いた実験で，MUFFLeは既存手法よりも少ない通信量で同等の精度を達成した。
- 汎用化された重複排除が，通信効率の良い連合学習に有効であることが示唆された。
Link: https://arxiv.org/abs/2606.14354
PLAIground：エッジ・クラウド・宇宙環境における複合AIシステムのSLO駆動型ランタイムモデル選択 [cs.DC, cs.AI]目的：複合AIシステムにおけるランタイムモデル選択
- エッジ，クラウド，宇宙を統合する3Dコンピューティングは重要性を増しており，多様なAIタスクの連携が不可欠である。
- 既存のAIフレームワークでは，ランタイムモデル選択がネイティブにサポートされておらず，SLOを満たすことが困難である。
- SLO（精度，遅延，コスト）を維持しつつ，複合AIシステムの各タスクに最適なモデルを動的に選択することを目指す。
- PLAIgroundは，タスクのセマンティクスとモデル実装を分離するCAIM抽象化を導入し，ワークフロー変更なしでのモデル切り替えを実現した。
- Pixieアルゴリズムは，実行中に各タスクに最適なモデルをSLOに基づいて動的に選択し，高い精度とSLO遵守を両立した。
- 評価実験では，Pixieは最大91.3%の精度を達成し，固定モデル戦略と比較してコストと遅延を最大21倍削減，精度不足を4%改善した。
Link: https://arxiv.org/abs/2606.14356
偶発的なソフトウェアエージェントを持たない，人間のコードエントロピーを削減し，最先端モデル要件を30～500倍削減する最初の正準コード [cs.SE, cs.AI]目的：人間のコードに含まれる偶発的なエントロピーを削減するための正準コードの提案
- 最先端のコーディングモデルは，プログラムの振る舞いだけでなく，人間のリポジトリに含まれる偶発的なエントロピーも学習してしまう。
- 人間のリポジトリにはテストやインシデントなど有用な情報がある一方，フレームワークの変更や命名規則のずれなどが混在し，ノイズとなる。
- 正準コードを用いることで，振る舞いにおける等価性を考慮し，冗長な表現を削減し，検証済みの変更コストを低減することを目指す。
- 提案手法は，プログラムを正準的な振る舞いプロファイルに書き換えることで，検証済みの変更に必要なコストを削減する可能性を示す。
- QLoRA実験では，64,088個の正準軌跡が学習可能であり，禁止言語マーカーを抑制できることが示された。
- この研究は，最小限の機能記述長と検証済み変更コストを中心とした反証可能なプログラムであり，今後の研究の基盤となる。
Link: https://arxiv.org/abs/2606.14357
SemPiper：機械学習パイプラインにおけるセマンティック演算子の対話的コード合成 [cs.CY, cs.LG, cs.DB]目的：機械学習パイプラインにおけるセマンティック演算子の対話的コード合成
- 機械学習パイプラインは，データ準備や特徴量エンジニアリングに多くの労力を要し，複雑化しやすい。
- チャットベースのインターフェースでは，パイプラインの挙動制御が難しく，コードの最適化や本番環境への統合が困難。
- データセット特性やパイプラインの文脈に応じたセマンティック演算子の合成による，LLMの実用的な統合を目指す。
- SemPipesは，自然言語による指示に基づきセマンティック演算子を合成し，既存のPythonコードとシームレスに統合する。
- SemPiperという対話的インターフェースを通じて，パイプラインの計算グラフや演算子の実装，最適化過程を可視化する。
- セマンティック演算子により，LLMを制御可能かつ最適化された形で機械学習パイプラインに組み込むことが可能となる。
Link: https://arxiv.org/abs/2606.14361
互いの教え合い：ピアからのフィードバックによるLLM相互改善のためのオンポリシー共同蒸留 [cs.LG, cs.CL]目的：多岐にわたる分野でのLLM訓練における相互パレート改善
- LLMは多様なタスクに応用可能だが，特定の分野に特化したモデルの性能向上は重要である。
- 単一モデルの微調整や一方的な蒸留では，ある分野の能力を損ないつつ別の分野を改善する可能性がある。
- 両モデルが互いに教え合うことで，それぞれの得意分野を維持しつつ，全体的な性能を向上させることを目指す。
- 提案手法OPCoDは，自己蒸留を自身の正解ロールアウトとピアからのフィードバックに依存させることで，効果的な学習を実現した。
- 問題への理解に基づいたゲート機構とフィードバックアンカリングにより，フィードバックの交換効率を高めた。
- Science Q&Aタスクにおいて，OPCoDはベースラインを上回り，評価された全てのドメインペアと生徒モデルにおいてパレート改善を達成した。
Link: https://arxiv.org/abs/2606.14368
弾力的なクエリ強化学習：VLAモデルのための自己認識型ポリシー実行 [cs.RO, cs.AI]目的：VLAモデルにおけるロボット操作のための弾力的なクエリ実行フレームワーク
- ロボット操作において，視覚と言語と行動を統合するVLAモデルの重要性が増している。
- 既存のVLAモデルは，推論・再計画スケジュールが固定されており，状況の変化に対応できない。
- 状況の難易度に応じて計算資源を動的に配分し，効率的なロボット操作を実現する。
- 提案手法EQRLは，VLAモデルの推論コストを削減しつつ，タスクの成功率を維持または向上させる。
- EQRLは，潜在スケジュールアダプターを用いて，入力，ノイズ除去予算，行動チャンク長を同時に選択する。
- 批評家アンサンブルの不一致から状態の難易度を推定し，難易度の高い状態に計算資源を集中させる。
Link: https://arxiv.org/abs/2606.14375
仮説冗長性下での発見：発見のボトルネックに関する幾何学的理論 [cs.LG, cs.AI, q-fin.PM]目的：発見のボトルネックに関する幾何学的理論
- 科学的発見は，知識の進歩の根幹であり，効率的な発見手法の確立が重要である。
- 既存の仮説探索は，仮説空間の冗長性により停滞し，新たな発見が困難になる場合がある。
- 本研究は，LLMを活用した探索と構造化探索を組み合わせることで，発見のボトルネックを克服することを目指す。
- 仮説空間のスペクトル圧縮，探索範囲からの直交脱出，目標との残余信号整合という幾何学的条件が揃った場合に，非局所探索が有効になることが示された。
- 実験の結果，ハイブリッド探索による改善は，弱く表現されているが目標に関連する方向において集中し，仮説空間がフルランクに近づくと消失することが確認された。
- LLMを活用した発見を，単なる新規性探索から，指向性非局所探索が必要かどうかを判断するための診断手順へと転換する枠組みが提示された。
Link: https://arxiv.org/abs/2606.14386
LLM介入における低ランク部分空間分析 [cs.LG]目的：LLMの介入による振る舞いの相互作用分析
- 大規模言語モデルの安全性確保は重要であり，意図しない振る舞いの修正が求められている。
- 特定の振る舞いを修正する介入が，他の振る舞いに意図せぬ影響を及ぼす問題が存在する。
- 介入時の副作用を理解し，より効果的かつ安全な制御手法を確立することを目指す。
- LLMの振る舞いは活性化空間における低ランク部分空間としてモデル化され，介入の影響が分析された。
- 異なる振る舞いは内部表現を共有しており，介入は非対称的に他の振る舞いを変化させることが示された。
- 振る舞い部分空間の重複度と決定部分空間との角度が，介入効果の大きさと関連することが確認された。
Link: https://arxiv.org/abs/2606.14388
ためらいを学習する：不流暢性認識ASRのための継続学習 [cs.CL, cs.AI, cs.SD]目的：不流暢性認識自動音声認識（ASR）のための継続学習手法
- 音声認識技術は進歩しているが，自然な会話に含まれる不流暢性は依然として課題である。
- 既存のシステムは不流暢性を無視または削除するため，情報損失や幻覚が発生しやすい。
- 限られたデータセットでの学習では，既存知識の忘却（破滅的忘却）が問題となるため，継続学習で対処する。
- 明示的な不流暢性トークンを導入することで，事前学習済みASRモデルの安定したトークン機構を確立した。
- 不流暢性分布が異なる追加データセットで継続学習を行い，マーカー学習とASR性能のトレードオフを特定した。
- 継続学習手法間で一貫したクロスアテンションヘッド機構が共有されていることを確認した。
Link: https://arxiv.org/abs/2606.14391
試練の道：エージェントの能力を慣れない環境下で再評価する [cs.LG]目的：エージェントの汎化能力の評価
- 実世界でのエージェント利用が拡大し，その能力を正確に評価する重要性が高まっている。
- 既存のベンチマークは単純なタスクに偏り，エージェントの限界を十分に探求できていない。
- 時間的知覚，図形理解，3D推論といった，従来評価されてこなかった能力に焦点を当てる。
- GauntletBenchは，5つの専門的なアプリケーションにおける100の視覚タスクを通じて，エージェントの汎化能力を評価するウェブベースのベンチマークである。
- 最先端のエージェントですら，GauntletBenchでは19.1%の成功率に留まり，人間の80%を超える成功率との大きな隔たりが示された。
- この結果は，現在のエージェント能力が複雑な実世界シナリオに必要なレベルに達していないことを示唆している。
Link: https://arxiv.org/abs/2606.14397
専門家混合型Transformerにおけるタスクルーティングの理論モデル [cs.LG]目的：専門家混合型Transformerにおけるタスクルーティングの理論的解明
- Transformerモデルのスケーラビリティ向上は，自然言語処理の発展に不可欠である。
- 既存の理論研究では，離散的な言語モデルを扱えず，自然言語の特性を十分に捉えられていない。
- 離散モデルを用いて，Transformerの専門家混合層におけるタスク専門化を理論的に説明すること。
- 構文テンプレートと有限のキーバリュー辞書を用いて，単層の専門家混合型Transformerが知識を符号化できることを証明した。
- クエリは，タスクの複雑さに応じたサイズの，タスク固有の専門家にルーティングされることが示された。
- この構成は，専門家混合型モデルにおける局所的な知識回路の経験的な結果を理論的に支持する。
Link: https://arxiv.org/abs/2606.14398
Hy-Embodied-0.5-VLA：ビジョン・言語・行動モデルから実世界ロボット学習スタックへ [eess.SY, cs.SY, cs.DC, cs.HC, cs.RO, cs.AI]目的：ロボット学習スタックの構築
- ロボットの自律的な学習は，様々なタスクの効率化に不可欠である。
- ロボット学習システムは，データ収集から実世界での展開まで一貫した枠組みが不足している。
- 実世界でのロボット学習を可能にする，エンドツーエンドの学習スタックの確立。
- HyVLA-0.5は，データ収集，モデル設計，事前学習，教師あり微調整，強化学習，実世界での展開を含む完全なロボット学習スタックである。
- 各コンポーネントがスタック内で明確な役割を担い，一貫性のあるロボット学習プロセスを実現している。
Link: https://arxiv.org/abs/2606.14409
制約感受性方策最適化：安全強化学習のための手法 [cs.HC, cs.AI]目的：安全強化学習における制約を満たしつつ，期待報酬を最大化すること
- 強化学習の応用範囲拡大のため，安全性確保は不可欠である。
- 従来の制約付き強化学習は，制約違反の修正が遅れる場合がある。
- 制約感受性を考慮し，安全性を迅速に回復させる手法を開発する。
- 提案手法CSPOは，安全性境界への最短距離を用いて方策を更新する。
- これにより，制約違反の修正が迅速化され，振動が抑制される。
- 実験結果から，CSPOは既存手法より高い制約付き報酬を達成する。
Link: https://arxiv.org/abs/2606.14415
凸制約を用いた特徴汎化のための連合学習 [cs.LG, stat.ML]目的：特徴汎化の実現
- 連合学習は分散データ活用に不可欠だが，データ異質性による汎化性能低下が課題である。
- クライアントデータの偏りにより，ローカルモデルが過学習し，特徴表現が歪む可能性がある。
- FedCONSTは，パラメータ強度に応じた更新量の調整により，過学習を抑制し汎化性能を向上させる。
- FedCONSTは，グローバルモデルのパラメータ強度に基づいて更新量を適応的に調整することで，学習の安定性と特徴の汎化能力を維持する。
- GSNR分析により，FedCONSTが特徴の転移性とロバスト性を高める効果が検証された。
- 実験結果から，FedCONSTは多様な連合学習環境において最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2606.14416
モンテカルロ木探索を用いたプランニングのための因果オブジェクト中心モデル [cs.AI, cs.LG, cs.RO]目的：プランニングのための因果オブジェクト中心モデル
- ロボット工学やAIにおいて，環境を理解し，効率的に行動計画を立てることは重要である。
- 従来の強化学習は，複雑な環境において，状態空間の探索が困難であり，効率的な学習が課題であった。
- オブジェクト中心のアプローチにより，環境を構成するオブジェクトに着目し，効率的なプランニングを目指す。
- COMETは，オブジェクトの構造化された潜在空間でモンテカルロ木探索を実行するモデルベース強化学習アルゴリズムである。
- COMETは，教師なしオブジェクト中心エンコーダとTransformerベースのワールドモデルを組み合わせ，アクションをオブジェクトに結び付ける新しいメカニズムを用いる。
- 複数のタスクにおいて，COMETはオブジェクト中心およびモノリシックなベースラインと比較して，学習初期段階でより高い平均正規化スコアを達成した。
Link: https://arxiv.org/abs/2606.14418
CADET：物理に基づいた因果監査と学習不要なエンドツーエンド運転プランナーの交絡除去 [cs.RO, eess.SY, astro-ph.EP, cs.SY, cs.RO, cs.AI]目的：エンドツーエンド運転プランナーにおける統計的ショートカットの特定，評価，修正
- 自動運転の安全性確保は重要である。特に，長尾事象への対応が課題となっている。
- 模倣学習によるプランナーは，因果関係のない要素に依存し，信頼性を損なう可能性がある。
- 学習済みのプランナーを再学習することなく，その依存関係を監査し，修正すること。
- CADETは，事前学習済みのプランナーを再学習することなく，誤った依存関係を監査，評価，修正する。
- 従来のオープンループ指標では，プランナーが虚偽の指標に依存しているかを特定できない。
- CADETは，物理に基づいた因果監査を通じて，信頼性の高いプランナーの構築に貢献する。
Link: https://arxiv.org/abs/2606.14438
tap：異種LLMエージェント連携のためのファイルベースプロトコル [cs.SE, cs.AI, cs.HC]目的：異種LLMエージェント間の連携方法
- LLMエージェントの活用は，ソフトウェア開発の効率化に不可欠である。
- 既存システムは，共通の実行環境やAPIを前提とし，異種エージェント間の連携が困難である。
- 異なる環境のエージェントが，共通のコードベース上で直接連携できる手段を提供する。
- tapは，ファイルベースのプロトコルにより，ClaudeとCodex間の連携を実現した。
- tapは，ファイル保存によるメッセージの永続化と，リアルタイム通知を組み合わせた。
- 異種モデルペアにおけるレビューでは，欠陥または変更要求が記録された割合は69.8%であり，同種モデルペアの53.1%を上回った。
Link: https://arxiv.org/abs/2606.14445
MoDiCoL：堅牢な音声認識のためのモジュール型診断継続学習データセット [cs.CY, cs.CL, cs.AI, cs.SD]目的：堅牢な音声認識のためのモジュール型診断継続学習データセット
- 現実環境下での音声認識性能向上は重要である。録音条件，アクセント，障害，ノイズ等の影響を考慮する必要がある。
- 既存データセットは要因を単独で扱う傾向があり，現実の複合的な状況への対応が課題である。
- 音声認識モデルの堅牢性を継続的に学習・評価し，環境変化への適応能力向上を目指す。
- MoDiCoLデータセットは，言語内容，話者特性，音響環境を制御可能に分析できるよう設計されている。
- 現実的な継続学習カリキュラムを提案し，堅牢性の獲得，転移，忘却を分析した。
- ３つの継続学習戦略を評価し，変化する環境下での堅牢性に関する詳細な知見を得た。
Link: https://arxiv.org/abs/2606.14459
EM-NeSy：ニューロシンボリック学習のための期待値最大化法 [cs.CL, cs.HC, cs.CY, cs.HC, cs.LG]目的：ニューロシンボリック学習の期待値最大化法
- AIの堅牢性と解釈可能性が求められる中で，ニューラルネットワークと記号推論の統合が重要である。
- 従来のニューロシンボリックモデルは，記号コンポーネントの微分可能性が求められ，近似推論の利用が制限されていた。
- 記号コンポーネントの微分可能性を必要とせず，近似推論を可能とするニューロシンボリック学習手法を確立すること。
- 本研究で提案するEM-NeSyは，ニューロシンボリック学習を期待値最大化（EM）アルゴリズムの枠組みに組み込むことで，スケーラビリティと計算効率を実現した。
- EM-NeSyは，ニューラルネットワークのみを通して勾配降下法を用いることで，記号コンポーネントの微分可能性を必要としない。
- また，EM-NeSyは厳密な推論下では標準的な勾配ベースのニューロシンボリック学習設定を再現する。
Link: https://arxiv.org/abs/2606.14463
音声モデルにおける説明の脆弱性：予測変化なしでの帰属の操作 [cs.NI, cs.SD, cs.AI, cs.LG]目的：音声モデルにおける説明の脆弱性
- AIの信頼性向上は重要であり，特に説明可能性はモデルの意思決定根拠を理解する上で不可欠である。
- 既存の説明手法は，わずかな入力の変化で説明が不安定になり，誤解を招く可能性がある。
- 予測精度を維持しつつ，説明を操作する手法の脆弱性を評価し，対策を検討する。
- 本研究では，知覚音声品質を考慮した微小な摂動により，モデルの帰属を分類結果から分離できることを示した。
- 提案手法は，予測を維持しつつ，説明のヒートマップを系統的に歪めることが可能である。
- この結果は，音声モデルの説明の脆弱性を浮き彫りにし，説明可能性の信頼性向上に向けた課題を提示する。
Link: https://arxiv.org/abs/2606.14466
思考のGit：再現，差分，マージが可能なバージョン管理された推論とエージェントの記憶 [cs.AI, cs.CL, cs.LG]目的：エージェントの推論ツリーをGitリポジトリとして保存すること
- LLMの推論過程は記録に残らず，再現性や監査性に課題がある。
- 既存の記憶形式では，推論の改善が期待できない場合が多い。
- 推論の監査性，出所，マージ可能性を確保すること。
- 思考のGitを用いることで，推論過程の再現，監査，エージェント間でのマージが可能になった。
- 記憶基板の種類は新規問題に対する精度向上に影響を与えず，類似度が高い場合にのみ精度が向上する。
- Gitを基板として用いる利点は，精度の向上ではなく，監査性，出所追跡，マージ可能性にある。
Link: https://arxiv.org/abs/2606.14470
ツールが決定する場合：LLMエージェントはグラフニューラルネットワークツールに盲目的に従属し，より強力な基盤モデルほどその傾向が強い [cs.AI, cs.LG]目的：LLMエージェントとグラフニューラルネットワークツールの相互作用における判断能力の有無
- LLMエージェントと外部ツールの組み合わせは，複雑な問題を解決する可能性を秘めている。
- LLMエージェントがツールを効果的に利用するためには，ツールの出力を適切に評価・判断する必要がある。
- LLMエージェントがツールを盲目的に従う問題を明らかにし，その影響を定量的に評価する。
- LLMエージェントは，提供されたグラフニューラルネットワークツールの出力と97.6〜99.2%の確率で一致し，ツールの判断をそのまま採用する傾向が強い。
- LLMの性能が向上しても，ツールの出力への依存度はむしろ高まり，エージェント自身の推論能力が活用されていない。
- 単純な代替手段（オラクルや近傍ラベルツール）がグラフニューラルネットワークツールを上回る場合でも，LLMエージェントはツールに依存し続ける。
Link: https://arxiv.org/abs/2606.14476
非線形二時間スケール確率的近似：鮮明な相転移とその克服法 [eess.SY, cs.SY, cs.IT, cs.LG, math.IT]目的：非線形二時間スケール確率的近似における相転移とその改善
- 最適化問題の効率的な解法を追求する上で，確率的近似は重要な役割を果たす。
- 従来の確率的近似では，非線形性の影響により収束速度が制限される場合がある。
- 本研究では，相転移を特定し，補助的なオンラインバイアス推定器を用いて収束速度を改善する。
- 非線形二時間スケール確率的近似において，相転移点が存在し，その点より先では収束速度が遅くなることが示された。
- 補助的なオンラインバイアス推定器を導入することで，相転移点に関わらず，より高速な収束が可能になることが確認された。
- この結果は，一般的な非線形二時間スケール確率的近似にも適用できることが，局所的な伝播定理によって示された。
Link: https://arxiv.org/abs/2606.14488
レシピ制御されたデコーダ監査による構造化知識グラフ補完 [cs.LG]目的：構造的知識グラフ補完におけるデコーダの役割評価
- 知識グラフは，様々な分野で知識表現の基盤となる重要な技術である。
- 知識グラフ補完では，エンコーダの性能改善が重視されがちで，デコーダの影響が軽視される傾向がある。
- 本研究は，デコーダの選択が知識グラフ補完性能に与える影響を定量的に評価することを試みる。
- ComplExとDistMultを比較した結果，標準的な知識グラフにおいて両者の性能差は比較的小さいものの，一貫して観測された。
- 小規模な知識グラフでは，デコーダの選択が性能に大きな影響を与え，レシピやデータの来歴に依存することが示された。
- デコーダの選択とエンコーダの深さは相互作用し，最適な組み合わせがデータセットによって異なることが確認された。
Link: https://arxiv.org/abs/2606.14492
チャットボットからデジタル同僚へ：持続的自律型AIへのパラダイムシフト [cs.AI]目的：大規模言語モデルの変遷と，デジタル同僚としての可能性
- AI技術は，社会の様々な領域で活用が拡大しており，その重要性は増している。
- 従来のチャットボットは，対話に特化しており，持続的なタスク遂行や自己改善に限界がある。
- LLMの進化により，推論，行動，記憶，自己改善といった機能を統合し，より自律的なAIを実現すること。
- 大規模言語モデルが，思考能力を備えたLLMへと進化していることが示された。
- 「ワークスペース＋スキル」のパラダイムが，AIをデジタル同僚として機能させる鍵となることが明らかになった。
- データ構築のあり方や評価方法が，AIシステムの持続的な進化を促すために重要であることが示唆された。
Link: https://arxiv.org/abs/2606.14502
高密度座標リストのファインチューニングが，視覚言語モデルに制御可能な干渉面を誘起する [cs.AI]目的：視覚言語モデルにおける構造化出力の生成と制御
- 視覚言語モデルは，画像とテキスト間の関連性を理解する上で重要な役割を担う。
- ファインチューニングによってモデルの挙動が変化し，予測精度と生成構造の整合性が課題となる。
- 高密度座標リストのファインチューニングによる干渉のメカニズムを解明し，制御方法を確立する。
- 高容量LoRAを用いることで，視覚的接地性能が大幅に向上したが，繰り返しパターンが発生する問題が確認された。
- q/vランクのスウィープにより，繰り返し回数を抑制しつつ性能を維持できることが示された。
- オブジェクトレベルでの繰り返し停止信号を導入することで，重複率をほぼゼロに抑え，F1スコアを維持することが可能となった。
Link: https://arxiv.org/abs/2606.14507
PepALD：自己回帰潜在拡散によるマクロ環状ペプチド創出 [cs.LG]目的：マクロ環状ペプチドの新規創出
- 細胞内標的に対する有望な治療薬候補であり，創薬における重要性が高い。
- 非天然モノマー化学，環構造，膜透過性，標的結合の同時制御が困難である。
- 化学的知識に基づいた，新規マクロ環状ペプチドの効率的な設計を目指す。
- PepALDは，HELMモノマーを構造化された化学埋め込みで表現し，化学的に情報に基づいた潜在空間での拡散によって各残基を生成する。
- 自己回帰的生成中にR基を考慮した環化を予測し，アフィニティー報酬に沿ってデノイザーを調整する。
- シミュレーション実験により，PepALDの生成品質と報酬最適化性能が確認された。
Link: https://arxiv.org/abs/2606.14510
フォダーとパイリシュィンの体系性への挑戦は依然として有効である [cs.DB, cs.CL, cs.AI]目的：フォダーとパイリシュィンの体系性への挑戦が，ニューラルネットワークによって解決されたかどうかの検証
- 認知科学において，人間の認知能力を人工知能で再現することは重要な課題である。
- ニューラルネットワークでは，言語や思考における体系性を説明することが困難であった。
- 近年のニューラルネットワークの成果が体系性への挑戦を克服したのかを評価し，その限界を示す。
- LakeとBaroniらのmeta-learningによる構成性のプロトコルは，人間の体系性を説明すると主張されているが，本研究ではその結論が早計であることを示した。
- 彼らのモデルは，学習データからわずかに外れたルールを学習することに苦労し，分布内の問題でも非体系的な振る舞いを見せた。
- したがって，フォダーとパイリシュィンのニューラルネットワークに対する挑戦は，依然として解決されていない。
Link: https://arxiv.org/abs/2606.14512
ポスト量子時代におけるIoMTの将来保障：エッジネイティブな連合学習アプローチ [cs.CR, cs.AI]目的：ポスト量子時代のIoMTにおける安全な連合学習フレームワークの設計と検証
- 医療データの重要性が増す中，IoMTデバイスのセキュリティとプライバシー保護は不可欠である。
- 従来の暗号技術は量子コンピュータの出現により脆弱性が高まっており，IoMTの長期的な安全性を脅かす。
- 量子耐性のある暗号技術をIoMTに統合し，連合学習環境におけるセキュリティと効率性を向上させる。
- 分散型暗号処理により，従来の逐次設計と比較して遅延が大幅に削減されることが示された。
- Kubernetesベースのフレームワークが，PQCをIoMT環境に統合し，Raspberry Pi上で検証された。
- 本研究は，連合学習を可能にするIoMTシステムの安全なオーケストレーションと通信フレームワークの設計と検証に貢献する。
Link: https://arxiv.org/abs/2606.14515
AI評価結果の統一的なスキーマとコミュニティリポジトリ：Every Eval Ever [cs.AI, cs.CL, cs.CY]目的：AI評価結果の標準化と共有
- AI技術の進歩を測る上で，客観的で比較可能な評価が不可欠である。
- 評価方法やフォーマットが多様であるため，結果の比較や分析が困難になっている。
- 評価結果の形式を統一し，共有することで，研究の効率化と再現性を高める。
- AI評価結果を記述するための統一的なスキーマを開発し，コミュニティによるリポジトリを構築した。
- 22,235モデル，2,273のベンチマーク，31の評価フォーマットに対応する大規模なデータベースを公開している。
- 主要なフォーマット，評価ハーネス，リーダーボードからの自動変換機能を備えている。
Link: https://arxiv.org/abs/2606.14516
シールドから標的に：LLMベースのエージェントガードレールのサービス妨害攻撃 [cs.CR, cs.AI]目的：LLMベースのガードレールのサービス妨害攻撃
- LLMエージェントの安全性を確保する上で，プロンプトインジェクション対策は不可欠である。
- 既存のガードレールは，推論能力を利用するあまり，新たな脆弱性を抱えている。
- ガードレールの過剰な推論ループを誘発し，サービスを停止させる攻撃手法の解明。
- 本研究では，ガードレールの推論時間を最大化する自然言語ペイロードを生成するフレームワークを開発した。
- 攻撃は様々なガードレール構造，安全テンプレート，エージェントベンチマークで有効であり，複数のモデルに転移する。
- 単一の悪意のあるドキュメントが共有インフラを飽和させ，他のエージェントの応答時間を大幅に遅延させることを実証した。
Link: https://arxiv.org/abs/2606.14517
機械アンラーニングの行動監査にはプライバシーコストが伴う [cs.LG]目的：機械アンラーニングの監査におけるプライバシーと監査精度のトレードオフ
- 機械学習モデルのプライバシー保護は重要であり，学習データの削除が求められている。
- 機械アンラーニングの監査手法は確立されておらず，不正なモデル所有者による欺瞞が可能である。
- モデル所有者と監査者の間の相互不信下における監査の限界を明らかにする。
- 凸型機械学習モデルにおいて，行動信号のみに基づく監査は，十分なアンラーニングを識別する際に，保持データのメンバーシップ情報を漏洩する。
- このプライバシー-監査のトレードオフは，実験的に凸型モデルで強く支持され，非凸型モデルでも持続することが示された。
- 現実的な監査者の脅威モデルを考慮し，プライバシー保護監査スキームの設計における注意喚起が求められる。
Link: https://arxiv.org/abs/2606.14518
LLM隠れ状態におけるコード正しさのシグナル：事前生成プロービングと修理幾何学 [cs.CL, eess.AS, cs.LG]目的：LLMの隠れ状態におけるコード正しさの可読性
- LLMの性能向上には，内部メカニズムの理解が不可欠である。
- LLMがどのようにコードを生成し，修正しているかの詳細なメカニズムは不明である。
- LLMの隠れ状態からコードの正しさを予測し，その修正プロセスを解明すること。
- LLMの最初のコード試行の正しさは，プロンプト最終の隠れ状態から線形的に予測可能であった (AUC 0.931)。
- プロンプト長の線形効果を除去後も高い予測性能が維持された (AUC 0.911)。
- 修正試行における隠れ状態の変化は，失敗と成功の試行間で有意な対照的な方向性を示したが，文脈による影響を除去すると有意でなくなった。
Link: https://arxiv.org/abs/2606.14530
主成分分析の危険な影：99.9999%の分散保持が招く壊滅的な意思決定エラー [cs.RO, cs.LG, cs.GT]目的：主成分分析におけるリスクの潜在的な問題点
- 高次元データの解析において，主成分分析は広く利用されている。
- 分散を最大化する主成分分析は，稀に起こる重大な事象への対応が不十分になりやすい。
- 稀な事象に関する情報を保持し，より安全な意思決定を可能にすること。
- 主成分分析は，分散の99.9999%を保持しつつも，重大な失敗に関する信号を完全に消去する可能性があることが示された。
- この問題を回避するため，Expectile PCA (ExPCA) と Tail-Preserving PCA (TP-PCA) の2つの新しい手法が提案された。
- 理論的および実験的な検証により，ExPCAは主成分分析よりも稀な事象に関する情報の保持において優れていることが確認された。
Link: https://arxiv.org/abs/2606.14533
安全性が証明可能かつスケーラブルな強化学習 [cs.RO, cs.LG, cs.RO, cs.SY, eess.SY]目的：安全性を保証しつつ報酬を最大化する方策の学習
- ロボット制御など，安全性が重要な応用分野において，強化学習の利用が期待されている。
- 従来の安全な強化学習手法は，安全性保証が不十分，または計算コストが高く実用化が難しいという課題があった。
- この研究は，安全性とスケーラビリティを両立する新たなフレームワークを提案し，その課題を解決することを目指す。
- 提案手法PS2-RLは，学習されたバックアップ方策を用いて制御不変集合をオンラインで生成することで，従来の厳密な安全性保証手法の計算コスト問題を克服する。
- PS2-RLは，安全な到着価値関数を用いてバックアップ方策を学習し，さらに微分可能な投影層を用いて安全性を保証するRL方策を学習する二段階構造を採用する。
- 実験結果から，PS2-RLは従来の安全性保証型強化学習手法と比較して，高次元のロボット制御タスクにおいて高い性能とスケーラビリティを示すことが確認された。
Link: https://arxiv.org/abs/2606.14536
軌道ルーティングによる因果的記憶：遅延エビデンスに基づく視覚運動模倣 [cs.CE, cs.RO, cs.AI]目的：遅延エビデンス下における視覚運動模倣のための記憶フレームワーク
- 自律動作ロボットは，消失したエビデンスに基づく判断が求められる場面に遭遇しうる。
- 現在の視覚情報だけでは制御に必要な状態を表現できず，誤った行動につながる可能性がある。
- 過去のエビデンスを軌道情報に基づいて効果的に記憶し，曖昧な状況下で正しい判断を可能にすること。
- TRACEは，ロボットの状態軌跡の特徴である「パスシグネチャ」を用いて，記憶への書き込みと読み出しを制御する。
- この手法により，視覚的な手がかりが消失した後でも，過去の文脈を想起し，適切な行動を選択できる。
- 実世界の操作タスクにおいて，従来のメモリ手法と比較して，分岐選択とタスク成功率が向上することが示された。
Link: https://arxiv.org/abs/2606.14551
グローバル平均プーリングの再考：あなたの分類器は秘密裏にマルチインスタンス学習器である [cs.CV, cs.AI]目的：グローバル平均プーリングの解釈と，それに基づく空間的なクラス情報の抽出
- 画像分類はコンピュータビジョンの重要なタスクであり，様々な応用分野で利用されている。
- 従来の画像分類器では，グローバル平均プーリングによって空間情報が失われる場合がある。
- グローバル平均プーリングが持つマルチインスタンス学習の性質を利用し，空間的なクラス情報を復元すること。
- 標準的な画像分類器は，マルチオブジェクトシーンにおいて意図した分類タスクを学習できることが示された。
- グローバル平均プーリングによって隠蔽された空間的なクラス情報を，予測グリッドとして抽出することが可能となった。
- 実験の結果，既存のモデルは前景領域において正解クラスを再現できることが確認された。
Link: https://arxiv.org/abs/2606.14555
ORCA：オープンソースの器用さ研究のためのプラットフォーム [cs.IR, cs.RO, cs.LG]目的：器用なロボット学習のための研究スタックの統合
- ロボット工学におけるマニピュレーション研究は，より複雑な作業への応用を目指し，重要性が高まっている。
- 多指ロボットハンドの制御，シミュレーション，遠隔操作などのソフトウェアが分散しており，研究環境の構築が困難である。
- ロボット学習のエコシステムとの連携を容易にし，器用なマニピュレーション研究を促進することを目的とする。
- ORCAスタックは，低レベル制御，シミュレーション，遠隔操作，ハンドリターゲティングを単一のインターフェースで統合した。
- このスタックは，lerobotなどの一般的なロボット学習フレームワークとネイティブに統合され，データ共有と学習パイプラインの活用を可能にする。
- VRヘッドセットによる遠隔操作で得られた専門家のデモンストレーションデータを用いて，自律ポリシーの学習と評価を完全なワークフローで示した。
Link: https://arxiv.org/abs/2606.14561
NEST3D：フクロウの巣の高品質多次元データセット [cs.CV, cs.LG]目的：フクロウの巣の３次元構造の詳細なデータセットの構築
- フクロウの巣は生態系において重要な役割を担うが，詳細な構造データが不足している
- 従来のデータセットは３次元構造の細かさに欠け，正確な分析が困難であった
- 本研究は，複雑な形状のフクロウの巣を高精度に３次元再構築するためのデータを提供する
- 104本の巣を持つ木の，RGB画像，マルチスペクトル画像，3D点群データを含む1.4TBのデータセットを公開した。
- セマンティックセグメンテーションにおいて，Point Transformer V3がテストセットで86.35%のmIoUを達成した。
- このデータセットは，３次元再構成，セグメンテーション，分類アルゴリズムの進歩を促進し，生態学的応用を可能にする。
Link: https://arxiv.org/abs/2606.14562
CANN-EUCLID：フルフィールドデータからの非教師あり構成方程式人工ニューラルネットワークモデル探索 [cs.CE, cs.LG, physics.comp-ph]目的：フルフィールドデータからの構成方程式人工ニューラルネットワークモデルの探索
- 材料の挙動を正確に予測するには，適切な構成方程式が不可欠である。生体組織など複雑な材料のモデリングに重要。
- 従来の構成方程式同定は，応力-ひずみデータに依存し，局所的な応力情報や単一標本での反復試験の制約がある。
- 変位場と反力のみから，局所応力情報や既知の法則を必要とせずに，疎な弾性法則を同定することを目指す。
- CANN-EUCLIDは，既知の法則をほぼ正確に再現でき，組み込みパラメータを持つ指数項も復元可能であった。
- 既知の法則が選択されたCANNの基底に含まれない場合でも，共有項を保持し，利用可能な基底関数で不足分を近似した。
- 十分な変形状態をサンプリングすることで指数ひずみ硬化項を正確に復元できるが，サンプリング範囲外では外挿誤差が大きくなる。
Link: https://arxiv.org/abs/2606.14565
StreamMemBench：未来志向型アシスタンスのためのエージェントメモリのストリーミング評価 [cs.AR, cs.PF, cs.AI]目的：エージェントメモリのストリーミング評価
- パーソナルエージェントは，過去の情報を未来の支援に活かすことが重要である。
- 既存のベンチマークは，対話の想起やタスクの改善を個別に評価する傾向がある。
- ストリーミング観測から将来の支援への過程を評価するベンチマークが求められている。
- StreamMemBenchは，EgoLifeのストリームデータを用いて，証拠アンカーを中心とした2段階のタスクシーケンスを構築する。
- 実験の結果，現在のシステムは観測された証拠を活用したり，フィードバックを信頼できる後続行動に変換することが難しい場合がある。
- StreamMemBenchは，証拠の想起，初期利用，フィードバックの組み込み，後続の再利用を診断するための4つの指標を提供する。
Link: https://arxiv.org/abs/2606.14571
SIMMER：LLM実行計画における潜在的失敗のベンチマーク：ワールドモデルによる評価 [cs.CL, cs.AI]目的：LLM実行計画における潜在的失敗の評価
- LLMは自律エージェントのプランナーとして活用が広がっている。安全性を確保することが重要である。
- 従来のベンチマークでは，実行時の即時フィードバックがない潜在的失敗が見過ごされてきた。
- キッチン環境を模したワールドモデルを用いて，LLM計画の潜在的失敗を検出し，その改善策を探る。
- 6つのLLM実験の結果，最先端モデルでもエラーフリーな計画の達成率は17%にとどまった。
- 計画の最大56%に潜在的失敗が含まれ，その多くが不可逆的な結果につながる可能性が示された。
- 反実仮想的思考を用いた状態推論により，潜在的失敗を最大72%，不可逆的ケースを最大75%削減できることが示された。
Link: https://arxiv.org/abs/2606.14574
VISTA: GUI要素特定のための視点整合型自己検証学習 [cs.AI]目的：GUI要素特定における性能向上
- GUI自動操作の実現には，GUI要素の正確な特定が不可欠である。
- 既存手法では，難易度の高いGUIインスタンスで学習が不安定になりやすい。
- 異なる視点からの情報を活用し，学習の安定化と精度向上を目指す。
- VISTAは，同一GUIインスタンスの異なる視点から生成された画像を用いて比較グループを構成する。
- これにより，幾何学的に異なる入力に対するモデルのロールアウトを比較し，視点整合性を担保する。
- 5つのGUI特定ベンチマークで性能が向上し，特にQwen3-VLの精度が大幅に改善された。
Link: https://arxiv.org/abs/2606.14579