arXiv雑要約

AI - 2026/06/03 公開

データ効率的な同時追跡と分類のためのハイブリッド適応カルマンフィルタ [cs.RO, cs.LG]目的：データ効率的な同時追跡と分類の実現
- 状態推定はロボティクスや自動運転など幅広い分野で不可欠であり，その精度向上は重要課題である。
- カルマンフィルタはモデルの不一致やノイズ共分散の調整に弱く，性能が制限される場合がある。
- 教師なし学習により，モデルの修正とノイズ共分散の推定を行い，データ効率を高めることを目指す。
- 提案手法は，観測データのみを用いてシステムダイナミクスとプロセスノイズ共分散を学習し，カルマンフィルタの確率的構造を維持する。
- これにより，イノベーション尤度を計算し，汎化ベイズ推論を通じてモデル分類を可能にする。
- 実データとシミュレーションデータによる実験の結果，推定精度と統計的整合性が向上し，少ないデータと大量のデータ両方でロバストな分類性能が示された。
Link: https://arxiv.org/abs/2606.02767
AURA：ロボットポリシーのためのアクションゲート付きメモリ（固定VRAM） [cs.AI, cs.AR, cs.DC, cs.PF, cs.RO]目的：ロボットのポリシーにおけるアクションゲート付きメモリの実現
- ロボットは，帯域幅の限られたエッジハードウェア上で動作するため，メモリ効率が重要である。
- 従来のKVキャッシュは，データセンター向けに設計されており，ロボットの連続的なエピソードには不向きである。
- アクションの変化に応じてのみメモリに書き込むことで，書き込み回数を削減し，メモリ消費を抑える。
- AURA-Memは，合成ベンチマークにおいて，既存のベースラインと同等の精度を維持しつつ，書き込み回数を大幅に削減した。
- LIBERO-Longベンチマークにおいて，AURA-Memは，既存のポリシーと同等の成功率を達成し，KVキャッシュと比較して書き込み回数を大幅に減らした。
- 情報状態バリュー損失界限を提案したが，今回のスケールでは実用的な保証は得られなかった。
Link: https://arxiv.org/abs/2606.02775
CRAM-ER：スケーラブルなインメモリ計算のための耐エラー性スピントロニクス計算ランダムアクセスメモリ [cs.CL, cs.CL, cs.AR, cs.AI, cs.ET]目的：スケーラブルなインメモリ計算のための耐エラー性CRAMアーキテクチャ
- 深層学習の発展には，高速かつ低消費電力な計算基盤が不可欠である。従来のメモリボトルネックを解消する必要がある。
- MRAMの確率的な書き換え特性により，CRAMの信頼性とスケーラビリティが制限されている。
- デバイスレベルのエラーを軽減し，CRAMのスループットを向上させることで，深層学習の加速を実現する。
- 提案アーキテクチャCRAM-ERは，スピントロニクスCRAMとCMOS加算器ツリーを組み合わせることで，高い面積効率とエネルギー効率を実現した。
- エラーを考慮したハードウェア・ソフトウェア協調設計により，エラーの影響を抑制し，高い精度を維持した。
- DNNベンチマークにおいて，CPU/GPU+DRAMと比較して，エネルギー効率とエネルギー遅延積において優れた性能を示した。
Link: https://arxiv.org/abs/2606.02781
QUIVER：大規模機械学習モデルにおける表現力強化のための量子情報に基づく視点 [cs.DB, cs.LG, hep-ex, physics.atom-ph, quant-ph]目的：大規模機械学習モデルにおける表現力向上
- 機械学習の性能向上には，多様な情報源からの入力が重要であり，特にマルチモーダル入力は有効である。
- 古典的な特徴量拡張では，学習された表現の内在的幾何学的構造を捉えることが困難である。
- 量子情報理論に基づき，古典データだけでは捉えきれない統計的構造を表現力向上に活用すること。
- QUIVERは，変分量子回路によって学習された量子状態多様体の内在的幾何学構造を捉える量子Fisher情報行列を用いる。
- QM9データセットとJetClassデータセットにおける実験により，QUIVERが標準的な性能指標を改善することが示された。
- この手法は，フォールトトレラント量子ハードウェアの実現を待たずに，標準的な機械学習タスクにおいて実用的な価値を提供しうる。
Link: https://arxiv.org/abs/2606.02785
未計測流域における予測のためのTransformerおよびLSTMフレームワークの評価 [cs.AI]目的：未計測流域における上流流量推論の性能比較
- 流域ネットワークは複雑であり，上流の多様な水文プロセスが下流に影響を及ぼすため，正確な予測が重要である。
- 未計測流域では観測データがないため，不確実性が増大し，異常気象の予測が困難である。
- 限られた水文情報下で，TransformerとLSTMのどちらが上流流量推論に適しているかを検証する。
- LSTMは，上流のみ，および組み合わせ構成の両方において，Transformerよりも全体的に高い性能を示した。
- 下流の情報を取り入れることで，すべてのモデルの性能が向上し，中央値NNSEは60％以上改善された。
- 本研究は，水文シーケンス推論におけるアーキテクチャの帰納的バイアスのテストと解釈できる。
Link: https://arxiv.org/abs/2606.02791
BehaviorBench：行動履歴からの現実世界におけるユーザー意思決定のモデル化 [cs.AI]目的：現実世界の行動履歴からのユーザー意思決定モデリングの評価基準
- 個々のユーザーに適応するシステムは重要だが，評価データが不足している。
- 既存のベンチマークはシミュレーションに依存し，人間の行動との乖離が懸念される。
- 現実世界の行動履歴を用いた，パーソナライズ手法の評価環境を提供する。
- BehaviorBenchは，予測市場とオンチェーン記録からウォレットレベルの意思決定履歴を再構築した。
- このベンチマークは，信念予測と取引予測という2つのタスク層で構成されている。
- パーソナライズは信念予測の精度向上に寄与するが，取引予測への影響は限定的である。
Link: https://arxiv.org/abs/2606.02798
コスモス3：物理AIのための全感覚的ワールドモデル [cs.CV, cs.AI, cs.LG, cs.MM, cs.RO]目的：全感覚的ワールドモデルの設計と評価
- 物理AIの発展には，多様な感覚情報を統合的に処理できるモデルが不可欠である。
- 既存モデルは，特定のモダリティに特化しており，汎用的な統合が課題となっていた。
- 言語，画像，動画，音声，行動シーケンスを統合する汎用的なワールドモデルの構築を目指す。
- コスモス3は，多様な理解・生成タスクにおいて最先端の性能を達成した。
- 特に，テキストから画像，画像から動画への生成において，オープンソースモデルとして最高の評価を得た。
- コード，モデル，データセットを公開し，物理AI研究の加速に貢献する。
Link: https://arxiv.org/abs/2606.02800
ChatHealthAI：大規模言語モデルと電子カルテ表現のアライメントによる臨床推論の根拠化 [cs.AI]目的：電子カルテ表現と大規模言語モデルのアライメント
- 臨床判断支援において，自然言語処理の重要性が増しており，医療現場での応用が期待される。
- 大規模言語モデルは構造化された電子カルテのモデリングに弱く，解釈可能性に課題がある。
- 電子カルテ基礎モデルと大規模言語モデルを統合し，臨床推論の根拠化と予測精度の維持を目指す。
- ChatHealthAIは，電子カルテ基礎モデルから得られた構造化データを大規模言語モデルのSemantic spaceにアライメントすることで，臨床的根拠に基づいた自然言語推論を実現した。
- EHRSHOTベンチマークを用いた評価の結果，ChatHealthAIは推論の質と解釈可能性を向上させつつ，予測性能を維持した。
- 電子カルテ基礎モデルと事前学習済み大規模言語モデルの統合が，解釈可能な臨床予測に繋がる可能性を示唆した。
Link: https://arxiv.org/abs/2606.02802
Traj-Evolve：肺がん早期発見のための患者軌跡モデリングにおける自己進化型マルチエージェントシステム [cs.AI, cs.CL]目的：肺がん早期発見のための患者軌跡モデリング
- 電子カルテの活用は，個別化医療の実現に不可欠であり，患者の病歴を詳細に分析することで，早期発見と適切な治療に繋がる。
- 従来の患者軌跡モデリングは，データが疎でノイズが多く，長期的な文脈を捉えることが困難であり，臨床現場での経験の活用が不足している。
- 過去の類似症例からの経験を活用し，患者の軌跡モデリングの精度を向上させることで，肺がんの早期発見に貢献する。
- Traj-Evolveは，経験プールとマルチエージェント強化学習を組み合わせることで，既存のベースライン9つを上回る性能を示した。
- 経験プールの拡大により，最適な検索パターンが多様な事例から特定の事例へと変化することが明らかになった。
- マルチエージェント強化学習において，マネージャーエージェントの損失は急速に収束する一方，ワーカーエージェントの時系列推論は検証済みの患者数が増えるにつれて改善されることが示された。
Link: https://arxiv.org/abs/2606.02812
ニューラル検索器は特定の文書を好むか？学習された関連性事前知識の証拠 [cs.IR, cs.AI, cs.CL]目的：ニューラル検索器における学習された文書レベルの関連性事前知識の存在とその影響
- 情報検索の精度向上は，大量の文書から目的の情報を効率的に見つけ出す上で不可欠である。
- 教師あり学習によるニューラル検索器は，アノテーションされたデータに偏りがあり，文書の網羅性が課題となる。
- 教師あり学習されたニューラル検索器に内在する文書に対する偏りを明らかにし，検索性能への影響を評価する。
- 教師ありニューラル検索器は，アノテーションデータの偏りを学習し，文書レベルの関連性事前知識を符号化することが示された。
- この事前知識は，未学習の文書に対しても一般化し，モデル間で一貫性が見られた。これにより，検索されにくい文書が存在する。
- 判断された関連文書は，包括的で主題が明確な傾向があり，検索器はこの特徴を優先することが判明した。
Link: https://arxiv.org/abs/2606.02814
どの防御がどの脅威を閉じるか：OWASP-LLM-Top-10の網羅性と，言い換えに対するその脆弱性の分析 [eess.SY, cs.SY, cs.CR, cs.AI]目的：OWASP-LLM-Top-10の各脅威に対して，どの防御策が有効であるかの特定
- 大規模言語モデル(LLM)の応用は拡大する一方であり，セキュリティ上の懸念が増大している。
- 既存の評価指標は網羅的な数値のみを示し，各防御策の役割が不明確である。
- 各防御策がどの脅威を効果的に防御するかを明確にすることで，より適切なセキュリティ対策を可能にする。
- 拒否フィルタのみで，LLM01(脱獄)とLLM07(システムプロンプト漏洩)の脆弱性を完全に防御できることが示された。
- トークン予算制御のみで，LLM02(機密情報漏洩)とLLM10(無制限消費)の脆弱性を多段階シーケンスの停止により防御できることが示された。
- 言い換え攻撃によって，拒否フィルタの防御効果が低下することが確認されたが，トークン予算制御は安定した防御効果を維持した。
Link: https://arxiv.org/abs/2606.02822
Qift：シフトに強いゼロ非存在W2ポストトレーニング量子化（回転W2A4/KV4 LLM推論向け） [cs.LG]目的：回転W2A4/KV4環境下における2ビット重み量子化の性能向上
- 大規模言語モデルの推論コスト削減は，メモリ効率の向上が不可欠である。
- 標準的なW2量子化は，W2A4/KV4設定において性能が低下しやすい。
- ハダマール回転を利用し，ゼロ非存在W2レベルセットを設計することで，性能を改善する。
- 事前学習済み重みはほぼゼロ中心であり，ハダマール回転により形状が正規分布に近づくことが確認された。
- 提案手法Qiftは，学習不要で，固定されたW2レベルセットにより，W2A4/KV4推論における性能を向上させる。
- Qiftは，W3A4との性能差を縮小しつつ，半分のTransformer層を2ビット精度に維持する，実用的な代替手段を提供する。
Link: https://arxiv.org/abs/2606.02823
記憶誘導データセットのバイアス除去による見かけの相関の緩和 [cs.LG, math.OC]目的：見かけの相関による誤分類の軽減
- 現実世界のデータセットには，目的変数と因果関係のない見かけの相関が含まれることが多い。
- 見かけの相関が多数のデータに支配される場合，少数サンプルが正しく分類されない問題がある。
- コアとなる因果的に関連する特徴の重要性を正確に捉えるための新しいサンプル選択手法を開発する。
- 提案手法により選択されたサンプルで学習させたモデルは，最先端のバイアス除去手法と比較して性能が向上した。
- 元のトレーニングデータの10%程度のデータ量で同等の性能が実現された。
- コア特徴と見かけの相関の特徴の学習ダイナミクスを分離する，二段階のサンプルスコアリング関数を提案した。
Link: https://arxiv.org/abs/2606.02830
衝突に基づく敵の形態生成に関する探求 [cs.AI]目的：ビデオゲームにおける敵の形態生成
- ゲーム開発において，多様なコンテンツを効率的に作成する手法が求められている。
- 敵の形態生成は，ゲームの面白さを左右する重要な要素だが，自動化が難しい。
- プレイヤーとの衝突情報を基に，自動的に敵の形態を生成する手法を提案する。
- 3つの新規アプローチを提案し，それぞれ異なる特性を持つことが確認された。
- 提案手法は，ロボット工学における既存の形態生成手法を改良した進化型ベースラインと同等以上の性能を示した。
- プレイヤーの衝突情報を活用することで，ゲームの敵の多様性を高める可能性を示唆した。
Link: https://arxiv.org/abs/2606.02832
大規模バイトモデル：コンパイルされたコードに関する言語モデルの教育 [cs.CR, cs.AI]目的：マルウェアバイナリに関する複雑な質問への応答
- マルウェア解析は情報セキュリティにおいて重要であり，迅速かつ正確な解析が求められる。
- 既存の解析ツールは高コストであり，エラーが発生しやすいという課題がある。
- LLMがraw byteを直接処理できない問題を解決し，マルウェア解析の効率化を目指す。
- 独自バイトトークナイザーを用いた大規模言語モデルが，マルウェアのアーキテクチャ分類において98%の精度を達成した。
- マルウェアファミリー分類においても69%の精度を示し，ドメイン知識の重要性が確認された。
- 初期評価では，本モデルが解析担当者にとって有用であることが示唆されている。
Link: https://arxiv.org/abs/2606.02834
答えを超えて：大規模推論モデルにおける有害な過剰思考の評価 [cs.AI]目的：大規模推論モデルにおける過剰思考の有害性の評価
- 大規模言語モデルの推論能力向上は，様々な応用において不可欠であり，その限界を理解することが重要である。
- 推論ステップを増やせば常に性能が向上するという前提は，必ずしも正しいとは限らない。
- 正しい答えに到達した後でも，過剰な推論が解答を悪化させる可能性を明らかにすること。
- 正解に到達した後も推論を続けると，多くの場合，解答から逸脱することが示された。
- 最初の正解を得た時点での推論を止めることで，標準的な推論よりも最大21%高い精度を達成できることがわかった。
- 有害な過剰思考は，論理的なずれや視覚的な再解釈によって引き起こされることが分析から明らかになった。
Link: https://arxiv.org/abs/2606.02835
FOLIOとMALLSの修正：検証済み注釈と人間による再ラベリングに焦点を当てるLLM支援フレームワーク [cs.AR, cs.CL, cs.AI]目的：自然言語から一階述語論理への翻訳の品質向上
- ニューロシンボリックAIや自然言語推論の基盤であり，その精度がシステム性能に大きく影響する。
- 既存のNL-to-FOLベンチマークデータセットの品質が厳密に評価されておらず，誤ったラベルが存在する可能性があった。
- 既存データセットの誤りを修正し，人間による再ラベリングを効率化するフレームワークを構築すること。
- FOLIOとMALLSの検証分割において，それぞれ約39%と36%のFOL形式化が誤っていることが判明した。
- 修正された正解ラベルを使用することで，最先端のLLMの精度が9〜22ポイント向上した。
- LLMを基盤とするフレームワークにより，データセットの24%未満のレビューで90%の精度を達成できることが示された。
Link: https://arxiv.org/abs/2606.02837
コヒーレントな表現学習：解釈可能性へのトポロジー的アプローチ [cs.LG, math.AT]目的：コヒーレントな表現
- 深層学習の解釈可能性向上は，モデルの信頼性や応用範囲拡大に不可欠である。
- 深層ニューラルネットワークの学習表現は，個々の特徴が解釈困難な場合が多い。
- データの幾何学的構造を捉え，解釈可能な特徴空間を構築すること。
- 本研究では，脳の神経符号化にヒントを得た「コヒーレンス」という幾何学的特性を導入した。
- コヒーレンスは，サンプルと特徴の間のトポロジー構造の一致を保証し，解釈可能性を促進する。
- 提案手法Cohは，自動符号化器やBERTのトークン埋め込みにおいて有効性を検証した。
Link: https://arxiv.org/abs/2606.02841
スペクトル漸進的思考フローによる軽量マルチモーダル推論 [cs.LG]目的：軽量マルチモーダル空間推論のためのフレームワーク
- マルチモーダル推論は，画像とテキストを組み合わせた高度な情報処理を可能にするため，重要性が高まっている。
- 従来のマルチモーダル推論は，計算量とメモリ使用量が膨大であり，効率的な推論が課題となっていた。
- SpecFlowは，計算量とメモリ使用量を削減しつつ，高精度な空間推論を実現することを目指す。
- SpecFlowは，視覚的思考を固定サイズの離散コサイン空間で表現することで，計算コストを削減する。
- 分類器フリーガイダンスにより，テキストによる視覚空間の状態更新を制御し，安定した推論を可能にする。
- 実験結果から，SpecFlowは既存手法と同等またはそれ以上の性能を達成し，計算コストとKVキャッシュコストを最大2.1倍削減できることが示された。
Link: https://arxiv.org/abs/2606.02842
風力発電予測における既存アーキテクチャの体系的評価 [cs.LG]目的：風力発電予測のインターバル予測手法に関する研究動向
- 再生可能エネルギーの主力電源化には，電力系統への安定的な統合が不可欠である。
- 風力発電の出力は変動が大きく，予測精度の向上が課題となっている。
- インターバル予測による不確実性の定量化が，より効率的な電力系統運用に貢献する。
- 深層学習，モーダル分解，統計的手法を組み合わせたハイブリッドアプローチが有効であることが示された。
- VMDやEEMD等の分解技術とハイブリッドモデルの統合が，予測区間の狭窄と信頼性の向上に繋がる。
- 評価指標の標準化，計算コスト，実世界での検証が今後の課題として挙げられている。
Link: https://arxiv.org/abs/2606.02849
RESCAST-100K：住宅負荷と室内温度のクロスドメイン予測のための包括的なデータセット [cs.LG]目的：住宅負荷と室内温度のクロスドメイン予測に関する研究を促進するための大規模データセット
- 家庭のエネルギー管理，電力系統の需要応答，地域エネルギー効率化に不可欠な研究分野である。
- 住宅環境におけるデータ不均一性と不足から，ドメイン適応や転移学習の進展が制限されている。
- 制御されたドメインシフト下での転移学習やゼロショット汎化を体系的に評価することを可能とする。
- RESCAST-100Kは，約10万件の米国住宅のEnergyPlusシミュレーションデータを提供し，住宅負荷と室内温度の15分単位の時間的変化を記録している。
- クロスアテンションおよびMLP-mixerモデルは，ドメインシフト下において，再帰型および従来のTransformerベースラインよりも一貫して優れた性能を発揮した。
- 本データセットは，家庭，地域，電力系統レベルでのクロスドメイン住宅予測研究の進展を支援する。
Link: https://arxiv.org/abs/2606.02852
大規模言語モデルのファインチューニングのためのグループ相対的ゼロ次最適化GRZO [cs.LG, cs.AI]目的：大規模言語モデルのファインチューニングにおける効率的な最適化手法
- 近年，大規模言語モデルの利用が拡大する中で，計算資源の効率的な活用が重要となっている。
- 従来のバックプロパゲーションはメモリ消費量が大きく，大規模モデルの学習には課題がある。
- 勾配推定の分散を低減し，メモリ効率を維持したままファインチューニングの精度を向上させる。
- GRZOは，ミニバッチ内の各例に対して独立した摂動を加え，グループ相対的正規化により損失を集約することで，勾配推定の分散をバッチサイズに比例して削減する。
- 理論的に，GRZOは方向性バイアスがなく，MeZOよりもタイトな非凸収束境界を持つことが証明されている。
- RoBERTa-large，Llama3-8B，OPT-13Bを用いた実験により，GRZOはMeZOと比較してLlama3-8Bで平均精度が+3.0%向上し，GPUメモリ使用量は23%削減された。
Link: https://arxiv.org/abs/2606.02857
経済の心：経済的相互作用による創発的多エージェント知能 [cs.CL, cs.AI, cs.MA]目的：分散型知能の創発
- 複雑な問題解決において，集中制御なしでの協調が重要となる。
- 多エージェントシステムにおいて，効率的な協調と学習が困難である。
- 経済的メカニズムを通じて，自律的な協調と学習を可能にすること。
- 経済的相互作用を通じて，エージェント集団は強力な集合知能を自律的に創発することが示された。
- 初期状態が弱いエージェントであっても，多段階推論戦略を獲得し，既存のモノリシックな手法を上回る性能を発揮した。
- 経済的ダイナミクスがエージェントの行動を形成し，局所的なインセンティブが長期的グローバルなパフォーマンスに繋がるメカニズムが明らかになった。
Link: https://arxiv.org/abs/2606.02859
忘却は消去ではない：トランスポートキーによる潜在知識の回復 [cs.LG, cs.AI]目的：逐次学習における知識の喪失回復メカニズムの解明
- 継続学習は，AIが新しいタスクを学習する際に，過去の知識を保持する能力が重要となる分野である。
- 従来の継続学習では，新しいタスクの学習によって過去のタスクの性能が著しく低下する「破滅的忘却」が問題となっている。
- 本研究は，破滅的忘却が知識の消去ではなく，内部表現のインターフェースの変化に起因することを示し，その回復を試みる。
- 実験の結果，タスクAとBを逐次学習した場合，トランスポートキーを用いることで，タスクAの性能を大幅に回復できることが示された。
- トランスポートキーは，小さなアンカー活性ペアから推定されるコンパクトなインターフェース整合演算子として機能する。
- これらの結果は，継続学習には重みの変化を防止するだけでなく，潜在的計算のインデックス化と再アクセスを改善するメカニズムが不可欠であることを示唆する。
Link: https://arxiv.org/abs/2606.02860
エッジ環境向け組み込みAIエージェントシステムのモジュール化アーキテクチャ [cs.AI, cs.MA]目的：組み込みAIエージェントシステムのモジュール化アーキテクチャ
- IoT機器の普及により，エッジ環境でのAI活用が重要になっている。
- リソース制約のある組み込み環境でのLLM利用が困難である。
- エッジ環境に適したAIエージェントシステムのアーキテクチャを提案する。
- 本研究では，低遅延・プライバシー保護のためにオンデバイスエージェントと，高度な推論のためにクラウド拡張エージェントを分離した階層型アーキテクチャを提案する。
- ガバナンス層を統合することで，分散された自律デバイスの監視，ポリシー適用，安全性を確保する。
- アーキテクチャ設計の原則と，遅延，エネルギー，信頼性に関するトレードオフを分析した。
Link: https://arxiv.org/abs/2606.02862
AI駆動研究システムの分析的フレームワーク：GAMBLe [cs.AI]目的：AI駆動研究システムの挙動分析
- AI技術の進展に伴い，研究開発の自動化が重要視されている。
- AI駆動研究システム内部の相互作用が複雑で，解析が困難である。
- システムの構成要素の選択が性能に与える影響を明らかにすること。
- AI駆動研究システムの性能は，構成要素の組み合わせによって大きく左右されることが示された。
- 最先端のモデルが必ずしも最良の結果をもたらすわけではなく，シンプルな手法でも高い性能を示す場合がある。
- 限られた計算資源下でも，適切な構成要素を選択することで，性能向上と探索効率の改善が期待できる。
Link: https://arxiv.org/abs/2606.02863
助けが逆効果となる場合と，その修正方法：データクレンジングのためのマルチエージェント議論 [cs.AI, cs.CL, cs.MA]目的：データクレンジングにおけるマルチエージェント議論の効果
- データ品質は，機械学習モデルの性能を大きく左右する重要な要素である。
- 既存のデータクレンジング手法では，誤った情報を修正できない場合がある。
- マルチエージェント議論の適切な条件を特定し，データクレンジングの精度向上を目指す。
- マルチエージェント議論は，モデルの生成性能を低下させる場合がある（批判による混乱）。
- 一方で，エラー検出能力は向上する（F1スコアで27.4ppの改善）。
- 議論が有効となるのは，誤りの修正確率が正しい出力を損なう確率を上回る場合である。
Link: https://arxiv.org/abs/2606.02866
Epi-LLMフレームワーク：疫学に基づくエージェントベースモデルによるLLMの行動特性の探求 [cs.MA, cs.AI, q-bio.PE]目的：LLMの行動特性を疫学的なエージェントベースモデルを用いて探求すること
- 感染症流行において，人々の行動が感染症の動態に大きな影響を与えることが認識されている。
- 人々の行動を定量的に評価することは困難であり，感染症対策の立案を妨げる要因となっている。
- LLMを活用し，人々の行動をシミュレーションすることで，感染症対策の有効性を評価すること。
- Epi-LLMフレームワークを用いたシミュレーションにおいて，LLMエージェントはピーク時の感染者数を抑制する効果が確認された。
- LLMエージェントの隔離遵守率は，シミュレーションの6日目に58-65%に達し，人間のデータと比較して遜色ない結果が得られた。
- 健康状態の深刻さの認識が隔離行動の最も強い予測因子であり，LLMアーキテクチャが感染症の動態に影響することが示された。
Link: https://arxiv.org/abs/2606.02867
適応的潜在エージェント推論 [eess.SY, cs.SY, cs.CE, cs.CL, cs.AI]目的：LLMエージェントにおける推論効率の向上
- LLMエージェントの性能向上は，複雑なタスクの自動化に不可欠である。
- 従来のLLMエージェントは，冗長な推論ステップと均一な計算資源配分が課題である。
- 必要な場合にのみ詳細な推論を行うことで，効率的なエージェント推論を実現する。
- ALARは，ルーチンなタスクには潜在推論，困難なタスクには明示的なCoTを使用する二重モードフレームワークである。
- 実験の結果，検索タスクではトークン数を最大43.6%，ツール使用タスクでは84.6%削減できた。
- ALARは，不要なテキスト推論を減らしつつ，難しい意思決定には明示的な推論を維持することで，精度と効率性のトレードオフを改善する。
Link: https://arxiv.org/abs/2606.02871
引き継ぎ負債：中断されたタスクを引き継ぐ際のコーディングエージェントの再発見コスト [eess.SY, cs.MA, cs.RO, cs.SY, cs.AI]目的：コーディングエージェントが中断されたタスクを引き継ぐ際の再発見コスト
- ソフトウェア開発では，タスクの中断や担当者の変更は日常的に発生する。
- 既存のコーディングエージェントの評価は，中断を考慮していないため，現実の状況を反映していない。
- タスクを引き継ぐ際のコストを定量化し，エージェント評価の改善を目指す。
- リポジトリの状態のみで引き継ぐ場合と比較して，コンテキスト情報を持つ引き継ぎは，エージェントのイベント数を20-59%削減した。
- 同様に，プロンプトトークンの累積使用量を42-63%削減する効率向上が確認された。
- タスク解決率はモデルに依存するが，効率改善の効果は一貫している。
Link: https://arxiv.org/abs/2606.02875
RRISE：代替推定器によるロバストな半径推論 [cs.LG]目的：ロバスト性証明の効率化
- 機械学習モデルの安全性確保が重要視される中，敵対的攻撃への耐性が求められている。
- 従来手法では，証明に必要なモンテカルロサンプリングの計算コストが高いという課題があった。
- 本研究では，代替推定器を用いて証明プロセスを高速化し，実用的なロバスト性を実現することを目指す。
- RRISEは，学習済みの代替推定器を用いることで，モンテカルロサンプリングのコストを大幅に削減できる。
- 既存の固定予算モンテカルロ法と同程度の精度を維持しつつ，クエリあたりの計算量を最大で10^4倍削減することに成功した。
- 特にCIFAR-100やTiny ImageNetにおいては，既存手法の課題を克服し，高い証明精度を達成した。
Link: https://arxiv.org/abs/2606.02876
LLM支援による再ランク付け：レコメンダーシステムにおける微妙な目的の運用化 [eess.SY, cs.SY, cs.RO, cs.HC, cs.AI, cs.CY, cs.IR]目的：レコメンダーシステムにおける微妙な目的の運用化
- レコメンダーシステムは行動に影響を与え，フィルターバブルや偏極化などの社会問題を引き起こす可能性がある。
- 既存のレコメンダーシステムはエンゲージメントや精度に偏重し，社会的な影響への配慮が不足している。
- LLMを用いた再ランク付けが，極端なコンテンツへの露出を増幅させるリスクを評価し，改善策を提案する。
- 制約なしの再ランク付けはパーソナライズを強化する一方で，陰謀論や過激派コンテンツへの露出を増加させた。
- 軽量なプロンプトレベルの正則化は，過激なコンテンツの促進を抑制し，イデオロギー的多様性を高めた。
- LLMは言語の統計的規則に基づいて再ランク付けを行い，プロンプト設計が価値観に依存することを示唆した。
Link: https://arxiv.org/abs/2606.02883
傾いているのか？フローおよび拡散モデルにおける報酬ガイダンスのメカニズム [cs.LG, cs.AI]目的：報酬ガイダンスによる生成過程の誘導メカニズムの解明
- 生成モデルの制御において，報酬ガイダンスは重要な役割を担う。
- 報酬ガイダンスは，報酬の過剰最適化による品質低下という問題を抱える。
- 報酬ハッキングの根本原因を特定し，その対策を提案すること。
- 報酬ハッキングは，拡散モデルの実用的な実装におけるDoob h関数の近似に起因することが示された。
- プラグイン推定器のモード内バイアスとモード選択の失敗という2つの異なる原因が特定された。
- モード内バイアスを修正する報酬減衰スケジュールと，モード選択の失敗を補償するbest-of-nサンプリングの役割が明確化された。
Link: https://arxiv.org/abs/2606.02884
極端気象予測のための経験的ニューラルタンジェントカーネルによるスケーラブルな不確実性定量化 [cs.LG, cs.AI, cs.CE, math.PR, physics.ao-ph]目的：極端気象予測における不確実性定量化手法
- 近年の深層学習モデルは数値気象予測と同等の精度を持ちながら高速だが，不確実性評価が課題である。
- 深層学習モデルの決定論的な予測は，極端な気象事象における意思決定を困難にする。
- ニューラルタンジェントカーネルに基づき，スケーラブルな不確実性定量化により，この問題を解決する。
- ニューラルタンジェントカーネルを用いた不確実性定量化(NTK-UQ)は，アーキテクチャに依存する特性を持つことが示された。
- ICA(独立成分分析)は，SVD(特異値分解)よりも重い裾を持つ極端気象の特徴を捉え，識別能力が高いことが明らかになった。
- NTK-UQは，90%カバレッジでスプリット確信予測よりも31-37%シャープな予測区間を達成し，極端事象の深刻度に応じた適応的な区間を提供する。
Link: https://arxiv.org/abs/2606.02886
対称非負行列分解とグラフクラスタリングのための非単調勾配法 [cs.LG, cs.NA, math.NA, math.OC]目的：対称非負行列分解およびグラフクラスタリングにおける効率的なアルゴリズム
- グラフクラスタリングや機械学習において，データの低次元表現を得る上で重要な手法である。
- 対称非負行列分解の既存手法は，収束速度が遅いという課題があった。
- 非単調勾配法を適用し，収束速度を向上させることで，より実用的な解法を提供する。
- 提案手法SNMPBBは，既存手法SymANLSと比較して，同程度の残差に対して6倍の高速化を実現した。
- グラフクラスタリングへの適用（Graph-SNMPBB）では，SymANLSと同等またはそれ以上の精度を達成した。
- 大規模問題への適用（LAI-SNMPBB）では，最新手法LAI-SymPGNCGを，実行時間と残差の質において上回った。
Link: https://arxiv.org/abs/2606.02887
乳癌再発予測のためのマルチモーダル機械学習 [cs.RO, cs.LG]目的：乳癌再発予測の精度向上
- 乳癌は生存者にとって主要な死亡原因であり，早期発見と適切な治療が重要である。
- 従来の予測モデルは，構造化データか非構造化データのいずれかのみに依存し，臨床的背景を十分に捉えられていない。
- 本研究は，マルチモーダルデータを統合することで，より正確な再発予測を目指す。
- マルチモーダルデータ統合は，単一のデータソースを用いた方法と比較して，予測精度を常に向上させる。
- ルールベースの正規表現抽出と優先順位に基づく競合解決戦略により，病理学的記述から明確な腫瘍特性を効果的に抽出した。
- 抽出された特性を構造化データに追加することで，予測モデルの性能が向上した。
Link: https://arxiv.org/abs/2606.02892
医療における創薬のための深層強化学習における公平性の定義と指標：迅速なエビデンスレビュー [cs.CY, cs.LG]目的：深層強化学習を用いた創薬における公平性の定義と指標の体系化
- 創薬において，深層強化学習の応用が期待される一方で，公平性の確保が重要となる。
- データ，報酬，評価方法の選択が，疾患領域や化学構造タイプによって不均衡な性能を生む可能性がある。
- 深層強化学習による分子生成における公平性の定義，測定，検証方法を明確にすること。
- 本レビューでは，深層強化学習を用いた分子生成における公平性の定義と指標をまとめた。
- データセットの構成や分割戦略，報酬設計が公平性に及ぼす影響が明らかになった。
- 分布の公平性と結果の公平性を報告するための実践的なガイダンス，および今後の課題を提示した。
Link: https://arxiv.org/abs/2606.02902
言語モデルの隠れ状態における線形プローブは，推論モードではなくタスク形式を検出する [cs.DL, cs.CL, cs.AI]目的：言語モデルの隠れ状態におけるタスク形式の検出
- 言語モデルの内部動作を解明することは，AIの安全性と信頼性向上に不可欠である。
- 線形プローブによる評価では，モデルが異なる推論タイプに対して明確な表現を獲得すると主張されることが多い。
- 本研究は，線形プローブによる評価の妥当性を検証し，タスク形式が結果に与える影響を調査する。
- 線形プローブは，推論タイプ間の分離を示す高い精度を達成するが，その分離はタスク形式に起因する。
- タスク形式の情報を除去すると，プローブの精度は低下し，推論タイプ間の類似性が示唆される。
- プローブの幾何学的構造と推論モードの間には，有意な関連性が見られなかった。
Link: https://arxiv.org/abs/2606.02907
マルチターン対話エージェントのための書き込み・読み込み集約型軌道合成 [cs.CL, cs.AI]目的：マルチターン対話エージェントの訓練軌道の合成
- 対話エージェントの性能向上は，顧客満足度向上や業務効率化に不可欠である。
- 複雑なタスクをこなすエージェントの訓練には，大量かつ多様な訓練データが必要となる。
- エージェントが情報過多な状況下で，根拠に基づいた意思決定を可能にする訓練データの構築。
- 提案手法WRITにより合成されたデータを用いて訓練されたモデルは，GPT-5.1よりも高い性能を示す。
- WRITは，タスクの複雑さと各意思決定における証拠の負担という2つの軸で訓練軌道を合成する。
- 少量(2K)の合成データでも，効率的なエージェントの行動を学習させることが可能となる。
Link: https://arxiv.org/abs/2606.02908
歯科医療における大規模AIモデル：汎用システムからドメイン特化型ファウンデーションモデルへ [cs.CL, cs.AI, cs.CL]目的：歯科医療における大規模AIモデルの臨床的潜在能力の比較検討
- 口腔疾患は世界中で約35億人に影響を及ぼしており，歯科医療におけるAI活用が重要である。
- 大規模AIモデルの歯科分野における応用は発展途上であり，体系的なレビューが不足している。
- 汎用モデルとドメイン特化型モデルの役割を明確にし，今後の課題を提示すること。
- 言語生成モデルはテキスト処理に優れるが，画像診断においては一貫性がない。
- SAMやCLIPの変種は，歯のセグメンテーションや病変検出において高い性能を示す。
- 歯科特化型モデルは，複雑なマルチモーダルタスクで最も優れた性能を示す。統合的なパイプラインが単一モデルよりも優れている。
Link: https://arxiv.org/abs/2606.02914
大規模におけるマージン自己補正による高速アンラーニング [cs.LG]目的：言語モデルのアンラーニング手法
- 大規模言語モデルのプライバシー保護や安全性確保は重要課題である。
- 既存手法は計算コストが高く，効率的なアンラーニングが課題である。
- ダウンストリーム評価を不要とするオンライン停止規則で効率化を図る。
- MASCは，忘れ去るべきテキスト系列に対し，次に来るトークンの予測確率の差を縮小させる。
- トークン位置全体にわたり，確率差が十分に小さくなった時点で学習を停止する。
- TOFU，MUSE News，MUSE Booksにおいて，既存手法と同等の性能をより低い計算コストで達成した。
Link: https://arxiv.org/abs/2606.02920
多次元関数近似と確率場の学習のための階層型RBF-KANおよびRBF-SKANアーキテクチャ [cs.LG]目的：多次元関数近似と確率場モデルの学習
- 機械学習において，高次元データの効率的な処理は重要な課題である。
- 高次元関数近似における次元の呪いの克服が課題となっている。
- 次元削減により，高次元関数近似の効率化を目指す。
- 階層型RBF-KANおよびRBF-SKANアーキテクチャの万能近似性が理論的に証明された。
- 階層型RBF-KANは，有効次元を削減し，次元の呪いを緩和する可能性が示された。
- 実験的に，提案手法が多変量関数および確率場モデルの学習に有効であることが確認された。
Link: https://arxiv.org/abs/2606.02936
ERP-XTTN：プロトタイプ誘導クロスアテンションによる被験者間ERP分類 [cs.LG, eess.SP]目的：被験者間での汎化性能を持つ解釈可能な脳波インターフェース分類器の開発
- 脳波を用いたブレイン・コンピュータ・インターフェースは，医療や福祉分野での応用が期待されており，その重要性は高い。
- 既存の脳波分類器は，個々の被験者ごとに調整が必要であり，汎化性能が低いという課題がある。
- 本研究は，調整不要で被験者間で汎化可能な，解釈性の高いERP分類器を開発し，その性能を検証することを目指す。
- 提案手法ERP-XTTNは，3チャンネル設定でAUCの平均0.018，全チャンネル設定で0.034の性能向上を示した。
- 性能向上の要因は，EEGNetと比較した時間的な柔軟性の欠如と，xDAWN+RGと比較した空間的な探索性の差に起因する。
- エラー分析の結果，誤分類は真陽性と類似しており，分類エラーが神経生理学的に説明可能であることが示された。
Link: https://arxiv.org/abs/2606.02939
カメレオンを出し抜く：ライブストリーミングのリスク評価における戦術的なOODシフトへの対応 [cs.LG, cs.CR]目的：ライブストリーミングにおけるリスク評価のロバスト性の向上
- ライブストリーミングは社会交流やデジタル商取引の主要な手段であり，その安全性確保が重要である。
- 攻撃者は検出を回避するため，意図を隠蔽した巧妙な手口を変化させるため，既存の手法では対応が困難である。
- 潜在的な因果関係に着目し，攻撃者の意図と戦術の変化を分離することで，ロバストなリスク評価を実現する。
- LPCDは，潜在レベルでの意図とナラティブの変動をモデル化し，戦術的な再パッケージング下での反実仮想推論を可能にする。
- 潜在的な反実仮想一貫性を適用することで，リスク予測を因果的に安定した悪意のある意図に固定する。
- 大規模な産業データセットとオンラインの生産トラフィックを用いた実験により，LPCDが最先端のベースラインを常に上回ることが示された。
Link: https://arxiv.org/abs/2606.02946
BYORn：バックドア攻撃に対する大規模視覚言語モデルを防御するための自己応答ブートストラップ [cs.LG, cs.CV]目的：大規模視覚言語モデルに対するバックドア攻撃の防御
- 視覚言語モデルの応用範囲は広く，その安全性確保は重要である。
- 既存のファインチューニング手法はバックドア攻撃に脆弱であり，効果的な防御策が不足している。
- バックドア攻撃に耐性のあるファインチューニング手法を開発し，汎化性能と防御性能の両立を目指す。
- BYORnは，画像とテキストの入力に対して意味的に不自然な悪意のある応答を検出し，モデル自身が生成した代替応答で置き換えることで，トリガーとターゲット出力の相関を断ち切る。
- 実験結果から，BYORnはバックドア攻撃に対するロバスト性を向上させつつ，クリーンタスクの性能を維持し，汎化性能と攻撃成功率の間に新たなトレードオフの境界線を確立することが示された。
- さらに，提案手法を回避するように設計された適応攻撃に対してもBYORnが有効であることが確認された。
Link: https://arxiv.org/abs/2606.02947
非凸から強凸へ：オンライン最適化のための曲率適応型FTPL [cs.LG, cs.DS]目的：オンライン最適化における曲率適応型FTPLアルゴリズムの開発
- オンライン最適化は，変化する環境下での意思決定において重要な役割を果たす。
- 従来のFTPLは，非凸損失関数の場合，曲率を考慮していないため，性能が制限される。
- 曲率の情報を活用することで，より効率的なオンライン最適化を実現することを目指す。
- 提案手法は，任意の非凸Lipschitz損失関数に対して$O(\sqrt{T})$のレグレットを達成する。
- 累積曲率の増加に伴い，レグレットが改善され，線形的に増加する場合には$O(\log T)$のレグレットを達成する。
- 提示されたレートは，特定の累積曲率シーケンスに対する下限と一致し，トレードオフが本質的であることを示す。
Link: https://arxiv.org/abs/2606.02948
リアルタイム自然言語カメラエージェント：エッジでの活用 [eess.SY, cs.SY, cs.ET, cs.RO, cs.AI, cs.CL, cs.CV, cs.HC]目的：自然言語によるPTZカメラ制御と視覚シーン理解のためのエージェント開発
- ロボット工学において，自然言語指示に基づくタスク遂行能力は重要であり，実用的な応用を促進する。
- 既存システムでは，低遅延性，高精度，およびエラーモード分析が十分に行われていない。
- エッジ環境でのリアルタイムな自然言語PTZカメラ制御を実現するための課題解決を目指す。
- SCOPEは，Blenderベースのシミュレーションと実機PTZカメラの両方で動作し，ローカル環境で知覚，計画，制御を行う。
- 強力な言語モデルの使用により，幻覚が減少し，ツールルーティングが改善され，より信頼性の高い動作が可能となった。
- 量子化により，精度低下を最小限に抑えつつ，追加の効率化が実現し，リアルタイムなエッジ環境でのPTZ制御に適した設計ポイントを特定した。
Link: https://arxiv.org/abs/2606.02951
Fast-dLLM++: Fr\'{e}chet プロファイルデコーディングによる高速化拡散LLM推論 [cs.CL, cs.CL, cs.AI, cs.LG]目的：拡散LLMの推論速度向上
- 大規模言語モデルの推論速度は，その実用性において重要な課題である。
- 従来のデコーディング手法では，安全に確定できるトークン数の制限がボトルネックとなっていた。
- 異質な信頼度プロファイルを利用し，より安全な並列処理を実現することで推論速度を向上させる。
- 提案手法Fast-dLLM++は，既存のFast-dLLMを置き換える形で導入可能であり，モデルやキャッシュ実装を変更する必要がない。
- 実験の結果，GSM8K，MATH，HumanEval，MBPPデータセットにおいて，最大37%の推論速度向上が確認された。
- 信頼度プロファイルを考慮した選択により，安全性とスループットのバランスが改善された。
Link: https://arxiv.org/abs/2606.02955
自律運転の将来：KITScenesマルチモーダルデータセット [cs.CV, cs.LG, cs.RO]目的：高精度なセンサーと地図を用いたヨーロッパのデータセット
- 自動運転技術の発展には，多様で高品質なデータセットが不可欠である。
- 既存のデータセットは，センサーの精度，地図の完成度，地理的多様性に課題があった。
- センサーと地図の精度向上，地理的多様性の拡大を目指す。
- KITScenesは，高解像度カメラ，長距離LiDAR，4Dレーダー，GNSS/INSを統合したデータセットである。
- HDマップは，交通信号を含む全ての交通要素を3次元で高精度にマッピングしている。
- オンラインHDマップ構築，長距離深度推定，新規視点合成，エンドツーエンド運転の4つのベンチマークを公開した。
Link: https://arxiv.org/abs/2606.02956
エシュロン：プライバシー境界を越えた集約のみの言語モデル適応の監査可能性 [cs.CY, cs.CR, cs.AI]目的：プライバシー境界を越えた言語モデル適応における監査可能性の確保
- 組織横断的な言語モデル適応の需要が高まる中で，データプライバシー保護の重要性が増している。
- 既存の分散学習フレームワークは，モデル交換を前提としており，プライバシー保護を後付けするため，コンプライアンスが課題となる。
- デバイスレベルでのモデル状態の非エクスポートをシステム不変条件として強制することで，監査可能な適応学習を実現する。
- エシュロンは，境界レベルのデルタのみを安全に集約し，最小限のメタデータ交換を行うことで，プライバシーを保護しながら効率的な学習を可能にする。
- 1BパラメータのLoRA適応実験では，エシュロンは既存の低通信ベースラインと比較して，同等以上の性能を達成した。
- OpenWebTextのストレステストでは，エシュロンはWAN環境や非IIDデータ下でも2,139-2,176トークン/秒の処理速度を維持し，DiLoCo+SAと比較してWAN遅延下での目標達成時間を短縮した。
Link: https://arxiv.org/abs/2606.02958