arXiv雑要約

AI - 2026/05/27 公開

Xe-Forge：Intel GPU向けLLMを活用した多段階カーネル最適化 [cs.DC, cs.AI]目的：Intel GPUにおけるカーネル最適化の自動化
- 深層学習アルゴリズムのハードウェア移植は，性能向上の鍵となる。
- カーネル毎に繰り返される低レベル最適化が開発のボトルネックとなっている。
- LLMを活用し，カーネル最適化の反復的な手作業を削減することを目指す。
- Xe-Forgeは，Tritonカーネルを対象に，アルゴリズム構造化からGPU固有のチューニングまで9段階の最適化を自動化する。
- Level-2 KernelBench 97個のカーネルで，PyTorchと比較して幾何平均で1.17倍の高速化を達成。最大82倍の高速化も実現した。
- Flash Attentionにおいても，全設定で2～13.3倍の高速化を達成し，ハードウェア検証によるドメイン知識の活用が有効であることを示した。
Link: https://arxiv.org/abs/2605.26118
エッジAI展開：産業組み込みプラットフォームのためのBSPを意識したシステムフレームワーク [cs.DC, cs.AI]目的：産業組み込みプラットフォームにおけるエッジAI展開のためのシステムフレームワーク
- 産業分野でのAI活用は，生産性向上やコスト削減に貢献する重要な技術である。
- 組み込みシステム特有の制約（長期ライフサイクル，ハードウェア多様性等）が，AIモデルの展開を困難にしている。
- プラットフォーム全体を考慮したシステムレベルでのアプローチにより，安定したエッジAI展開を実現する。
- 本研究では，ハードウェア，BSP，ランタイム，アプリケーション，運用検証の5層で構成されるフレームワークを提案した。
- 提案フレームワークは，Android，NXP i.MX，NVIDIA Jetson等の具体的なプラットフォームに適用可能であることを示した。
- 再現性，診断可能性，スループット，信頼性等の指標で，プラットフォームレベルの作業と展開結果との関連性を示した。
Link: https://arxiv.org/abs/2605.26119
GEM：最適なLLMデータキュレーションのための幾何学的エントロピー混合 [cs.DC, cs.LG, cs.AI]目的：LLMデータキュレーションにおける最適な混合戦略の確立
- LLMの性能向上にはデータセットの質が重要であり，データの効果的な構成が不可欠である。
- 既存の分類法は，概念のずれや埋め込み空間の異方性に対応できず，最適なデータ混合を妨げている。
- 幾何学的エントロピー混合（GEM）により，これらの問題点を克服し，バランスの取れた意味構造を明らかにする。
- GEMは，データキュレーションを双曲球面上の変分問題として再構築し，混合バランス正則化を導入することで，クラスタ崩壊を抑制する。
- 教師-生徒蒸留を用いることで，ウェブ規模のコーパスへの適用を可能にし，解釈可能な分類生成のための幾何学的影響スコア（GIS）を提案する。
- 11億パラメータモデルを用いた実験により，GEMは既存の混合戦略（DoReMi，RegMixなど）を凌駕し，平均的な下流タスク精度を最大1.2%向上させる。
Link: https://arxiv.org/abs/2605.26121
制約税：小規模言語モデルにおける構造化出力の妥当性と正しさのトレードオフの測定 [eess.SY, cs.SY, stat.CO, eess.SY, astro-ph.EP, astro-ph.IM, cs.SY, cs.LG, cs.SE]目的：小規模言語モデルにおける構造化出力制約が，回答の正確性と実行可能性に及ぼす影響の定量化
- LLMの普及に伴い，機械可読な出力形式の重要性が高まっている。特に，プライバシーや低遅延性が求められる場面で，小規模モデルの活用が期待される。
- 小規模モデルでは，出力スキーマ制約を満たしつつタスクを解決することが困難であり，制約の厳格化が回答の質に与える影響が不明確である。
- 構造化出力制約による回答の正確性と実行可能性の低下を定量的に評価し，より効果的なシステム設計の指針を示す。
- 構造化出力制約を厳格化することで，出力スキーマの妥当性は向上するものの，回答の正確性は低下し，妥当だが誤った出力を生成する割合が増加する。
- Qwen2.5-1.5Bを用いたカレンダーツール呼び出しタスクにおいて，プロンプトのみの場合は実行精度が91.5%であるのに対し，厳格なツール呼び出しスキーマ下では48.0%に低下する。
- 30億パラメータ以上のモデルでも制約による影響が見られるため，推論後に制約を適用する設計が有効である。
Link: https://arxiv.org/abs/2605.26128
AirCast-SR：潜在的整合拡散によるキロメートル規模の大気超解像のための基盤モデル [cs.LG, physics.ao-ph]目的：キロメートル規模の大気超解像
- エネルギー，農業，災害管理など，詳細な時空間情報が必要な分野で，高解像度な気象予測のニーズが高まっている。
- 従来の数値気象予測モデルでは，キロメートル規模での演算負荷が大きく，予測へのアクセスが制限されている。
- AIを活用し，既存の低解像度な気象予測データを高解像度に変換することで，より詳細な予測を可能にすること。
- AirCast-SRは，0.25度（約28km）のAI気象予測データを毎時間1km解像度にダウンスケールし，8つの地表変数の67時間予報を同時に生成する。
- モデルは全変数と予測期間においてほぼゼロのバイアスを達成し，10kmから100kmの波長における微細な大気構造を維持していることが確認された。
- 米国，インド，ドイツでの検証において，再学習や微調整なしにゼロショットでのグローバルな転移可能性が示された。
Link: https://arxiv.org/abs/2605.26130
自己検証蒸留：あなたの言語モデルは秘密裏に自身の合成データパイプラインである [cs.CL, cs.LG]目的：ラベルなしプロンプトのみを用いた大規模言語モデルの自己改善
- 言語モデルの推論能力向上は，様々な応用分野における性能向上に不可欠である。
- 外部教師やツールからのフィードバックなしに，言語モデルが自己改善することは困難である。
- 本研究は，自己生成データを用いた言語モデルの性能向上を目指す。
- 自己検証蒸留により，Qwen3モデル（4B）において，数学，科学，コーディングの各分野で大幅な性能向上が確認された。
- 特に数学分野では，pass@1のスコアが+16.7ポイント，科学分野では+11.1ポイント，コーディング分野では+8.3ポイント改善された。
- テスト時の計算コストを増やす手法と比較して，自己検証蒸留は同等以上の性能を，より少ない計算量で実現する。
Link: https://arxiv.org/abs/2605.26132
大規模言語モデルにおける事前学習データ露出：メンバーシップ推論，データ汚染，セキュリティへの影響に関する調査 [cs.CL, cs.AI, cs.LG]目的：事前学習データ露出の現状と課題
- 自然言語処理の発展に伴い，大規模言語モデルが普及している。
- 事前学習データが大規模化・不透明化するにつれ，情報漏洩リスクが懸念されている。
- 事前学習データ露出のリスクを包括的に調査し，対策を検討する。
- メンバーシップ推論とデータ汚染という関連分野を統一的なPDEフレームワークの下で整理した。
- 攻撃手法と防御手法を網羅的にレビューし，実証的な知見をまとめた。
- 今後の課題と研究の方向性を提示し，事前学習データ露出に対する理解を深めた。
Link: https://arxiv.org/abs/2605.26133
シルエット付加孤立森林による教師なしトランザクション不正検知 [cs.LG]目的：トランザクション不正検知における異常検知手法の改良
- トランザクションデータは膨大であり，不正検知は金融システムの安定に不可欠である。
- 不正データは稀であり，ラベル付きデータの入手が困難である。
- シルエット指標を活用し，孤立森林の性能向上を目指す。
- IEEE-CIS不正検知ベンチマークにおいて，SilIFは標準的な孤立森林よりも平均AUC-PRが+0.0080向上した。
- SilIFは5回のシード全てで勝利し，有意差が認められた(paired t-test p=0.046)。
- 合成クレジットカードデータセットSparkovでは改善が見られなかったが，その条件を分析した。
Link: https://arxiv.org/abs/2605.26135
リアル音声への信頼の低下：大規模な音声ディープフェイク知覚の研究 [cs.SD, cs.AI]目的：音声ディープフェイクの知覚に関する大規模な研究
- 音声は重要なコミュニケーション手段であり，その信頼性は社会生活において不可欠である。
- 近年，音声ディープフェイク技術が急速に進歩し，現実の音声を区別することが困難になりつつある。
- 音声ディープフェイクが信頼に及ぼす影響を定量的に評価し，そのリスクを明らかにすること。
- 2021年と比較して，ディープフェイクの識別精度はほぼ変わらなかったが，リアルな音声の識別精度が大幅に低下した。
- 参加者は合成音声のアーティファクトを検出しにくくなったのではなく，現実の音声そのものを疑うようになった。
- 商用システムや自己回帰言語モデルで生成された音声が最も識別が難しく，従来のモデルは比較的容易に識別された。
Link: https://arxiv.org/abs/2605.26136
AssetGen：インタラクティブな速度での3Dアセット生成 [cs.GR, cs.AI, cs.CV]目的：リアルタイムレンダリングに適した3Dアセットの生成
- 3Dコンテンツ需要は増加の一途を辿っており，効率的な生成手法が求められている。
- 既存の3D生成技術は高解像度化に偏りがちで，ユーザー体験や実用性が課題となっていた。
- リアルタイムレンダリングを考慮した，迅速かつ実用的な3Dアセット生成システムの開発。
- AssetGenは，単一の参照画像から，モバイル用途を含むリアルタイムレンダリングに適した高品質な3Dメッシュを約30秒で生成する。
- Flashバリアントでは，生成時間を14秒に短縮し，インタラクティブなコンテンツ作成ループを実現している。
- 自動評価およびブラインドテストの結果，既存の商用ソリューションと比較して競争力のある視覚品質を示すことが確認された。
Link: https://arxiv.org/abs/2605.26137
VISTA：ビジュアル仕様からWebアプリケーションのコーディングエージェントのためのエンドツーエンドベンチマーク [cs.SE, cs.AI, cs.CV]目的：LLMベースのエージェントのWebアプリケーション生成能力の評価
- ソフトウェア開発の自動化は，開発効率の向上とコスト削減に不可欠である。
- 既存のコード生成ベンチマークはアルゴリズムに偏っており，UI中心の開発には不向きである。
- ビジュアル情報に基づいた，より現実的なWebアプリケーション開発の自動化を可能にする。
- VISTAは，テキストのみ，参照スクリーンショット，Figma構造といった多様な入力条件を提供し，厳密な評価を可能にする。
- 評価には，DOM比較，ブラウザテスト，CLIPによる視覚的類似性評価を組み合わせ，構造，動作，視覚的忠実性を測定する。
- 実験の結果，視覚的忠実性と機能的な正確さは部分的に分離されており，エージェントの編集スタイルはタスク品質とはほとんど関係がないことが示された。
Link: https://arxiv.org/abs/2605.26144
拡張エンジニアリング：専門分野におけるマルチツールAIオーケストレーションのメソッド論 [cs.SE, cs.AI, cs.HC]目的：複数のAIツールを専門分野横断的にオーケストレーションする手法
- AI導入が進む中で，専門知識を持つ人材の確保が課題となっている。
- 各AIツールの効果を最大化するスキルが，専門分野に依存している現状がある。
- プロンプトエンジニアリング等の汎用的なスキルを活用し，AIツールを効率的に連携させる。
- 拡張エンジニアリングの6段階手法と4つの可搬性指標を提示した。
- 単一の実践者による5ヶ月の実証実験で，7分野のAIツールを連携し，専門家による作業を代替した。
- プロンプトの洗練度と初回受容率，成果物作成速度がそれぞれ統計的に有意な相関を示した。
Link: https://arxiv.org/abs/2605.26146
ニューラルベイズ逐次ルーティング [cs.LG]目的：ニューラル推論の活性的な証拠蓄積モデリング
- 人間の意思決定は逐次性と不確実性認識が特徴であり，AIへの応用が期待される。
- 従来のニューラルネットワークは静的な計算に依存し，証拠取得や不確実性の進化が不透明である。
- 不確実性を考慮した逐次的な推論を行い，解釈可能性と効率性を高めることを目指す。
- NBSRは，階層的なDAG上で活性的な証拠蓄積をモデル化し，不確実性の定量化を可能にする。
- 経路依存的な証拠帰属やコストを考慮した証拠取得を行い，リソース合理的な推論を実現する。
- 様々なタスクで競争力のある予測性能を示し，透明性の高いルーティングトレースを提供する。
Link: https://arxiv.org/abs/2605.26147
MemMorph：LLMエージェントにおける記憶汚染を通じたツール乗っ取り [cs.CR, cs.AI]目的：LLMエージェントのツール選択の偏り
- LLMエージェントはツールを活用してタスクを完遂するが，セキュリティ上の脆弱性が存在する。
- 既存研究はツールメタデータの改ざんが中心で，検知されやすく，効果が限定的になりつつある。
- エージェントの長期記憶を汚染することで，ツール選択を巧妙に誘導する攻撃手法を提案する。
- MemMorphは，わずか3件の改ざん記録で最大85.9%の攻撃成功率を達成した。
- 既存の強固なベースラインを最大25%上回る性能を示し，3つの代表的な防御策下でも有効性を維持する。
- 長期記憶がツール拡張エージェントにおける重要な攻撃対象領域であり，メモリレベルのセキュリティ対策の必要性を訴える。
Link: https://arxiv.org/abs/2605.26154
適応的ガイダンスはいつ役立つか：部分観測下における自律運転のための信念認識型特権的知識蒸留 [cs.RO, cs.AI, cs.LG]目的：部分観測下における自律運転のための，信念を考慮した知識蒸留によるガイダンス戦略の有効性評価
- 自律運転は，安全性向上と効率化に不可欠であり，その実現には高度な環境認識と行動計画が求められる。
- 部分観測下では，エージェントが利用できる情報が限られるため，安定した学習とロバストな行動が困難となる。
- エージェントの不確実性を考慮した適応的なガイダンスにより，部分観測下における自律運転の性能を向上させることを目指す。
- 適応的知識蒸留は，軽度および中程度の部分観測下においては有効性を示すが，重度の遮蔽下では早期に最小の蒸留係数に収束する。
- この現象は，アンサンブルが部分観測に基づいて予測するため，遮蔽されていても低い不一致を示す「観測盲目性」に起因する。
- 線形減衰スケジュールが最も重度の部分観測下で優れた性能を示し，スケジュール効果が安定性の主な要因であることが示唆される。
Link: https://arxiv.org/abs/2605.26155
バイアスをバグに変える：LLMジャッジへのバンディット誘導スタイル操作攻撃 [cs.CR, cs.AI, cs.LG]目的：LLMジャッジを欺き，スコアを人為的に上昇させる意味を保持した編集の学習
- LLMの普及に伴い，LLMを評価者として活用するケースが増加している。
- LLMジャッジには文体に関するバイアスが存在し，評価の公平性を損なう可能性がある。
- LLMジャッジのバイアスを悪用し，攻撃によって評価を操作することを目指す。
- 提案手法BITEは，LLMジャッジのバイアスを利用して，スコアを最大化するスタイル編集を適応的に選択する。
- 様々なLLMジャッジとタスクにおいて，65%を超える攻撃成功率と，9点満点中1-2点のスコア上昇を達成した。
- BITEは標準的なスタイル制御手法や検出基盤を回避できることが示され，LLMを評価者とする際の脆弱性が明らかになった。
Link: https://arxiv.org/abs/2605.26156
Furina：断片化された不確実性駆動型拒否不安定性攻撃 [cs.CR, cs.AI, cs.LG]目的：大規模言語モデルの安全性脆弱性の解明
- LLM/MLLMの安全性確保は重要であり，その評価手法の確立が求められている。
- 既存の安全性評価は，二値的な閾値で判断されると考えられており，その限界がある。
- 不確実性の増幅を利用し，モデル固有の最適化なしに安全性脆弱性を引き起こす攻撃手法の提案。
- 安全性は，確率的な拒否決定を引き起こす不安定領域によって支配されることが示された。
- 外部・内部信号を組み合わせた診断フレームワークにより，不安定領域の特性が明らかになった。
- Furinaは，HarmBenchやMM-SafetyBenchにおいて強力なベースラインを上回り，不確実性の増幅が有効であることが示された。
Link: https://arxiv.org/abs/2605.26158
デバイスコンテキストプロトコル：LLM駆動型制約デバイス制御のためのコンパクトで安全優先のアーキテクチャ [cs.NI, cs.CR, cs.LG]目的：LLMによる制約デバイスの制御のための，コンパクトかつ安全性の高いプロトコルアーキテクチャ
- IoTデバイスの普及に伴い，LLMを用いた制御の重要性が増している。
- 既存のプロトコルはリソース制約のあるマイクロコントローラには適用が難しく，安全性の問題も存在する。
- LLMの誤動作や不正な操作からデバイスを保護しつつ，LLMによる制御を可能にすること。
- DCPは，50バイト未満のフレームサイズと，機能制限，範囲チェックなどの安全機能をプロトコル層に実装した。
- DCPは，ESP32上で27.6KBのフラッシュと0.6KBのRAMという小さなフットプリントで動作する。
- 実験結果から，DCPは機能エスカレーションの試みを100%，プロンプトインジェクションの78%を阻止し，既存プロトコルより大幅に安全性が向上することが示された。
Link: https://arxiv.org/abs/2605.26159
TSFMAudit：予測時系列基盤モデルにおけるデータ汚染監査 [cs.LG, cs.AI]目的：予測時系列基盤モデルにおける事前学習時のデータ汚染の監査
- 時系列データは，金融，医療など広範な分野で利用されており，予測モデルの重要性は高い。
- 事前学習データに評価データが混入している場合，モデルの性能が過大評価される可能性がある。
- 時系列データ特有の連続性と異質性を考慮し，汚染の検出手法を確立すること。
- TSFMAuditは，プローブ適応ダイナミクスに基づき，汚染されたデータセットでは損失の減少が速く，バックボーンの移動が小さいという直感を利用する。
- 6つのTSFMと187のデータセットを用いて評価した結果，TSFMAuditは既存の10個の競合手法と比較して優れた性能を示した。
- ドキュメント化された学習ソースの証拠を教師データとして使用することで，事前学習時のデータ汚染の監査が可能となった。
Link: https://arxiv.org/abs/2605.26161
プッシュベース非同期分散型連合学習：バイアス補正集約アプローチ [cs.LG, cs.AI]目的：非同期分散型連合学習におけるバイアスとモデルドリフトの軽減
- 大規模・異種システムにおいて，中央集権的な制御を避け，スケーラビリティの高い学習を実現する重要性。
- ピアツーピア通信の頻度，非IIDデータ，有向トポロジーによる集約の偏りとモデルのドリフト。
- 非対称通信や遅延したクライアント参加下でも安定した学習を実現する通信効率の高いフレームワークの構築。
- 提案手法PushCen-ADFLは，セントロイド表現空間を用いて通信・集約・局所安定化を組み合わせることで，効率的な学習を可能にする。
- 平均値を維持するプッシュ和混合により集約バイアスを補正し，セントロイド正則化により異質性や遅延によるドリフトを抑制する。
- 実験結果から，PushCen-ADFLはデータ異質性下で最大6%の精度向上，通信コストを80%以上削減できることが示された。
Link: https://arxiv.org/abs/2605.26162
敵対的ウォーターフィリング：理論，アルゴリズム，そして基礎モデル [cs.IT, cs.LG, math.IT, math.OC]目的：周波数および空間における競合的なリソース配分問題の解法
- 衛星通信の発展において，周波数資源の効率的な利用が不可欠であるため。
- 既存手法では，離散的な星座を用いる場合に非凸な問題となり，最適解の探索が困難である。
- 実環境下でのリソース配分問題を解決するため，敵対的ウォーターフィリング問題とそのアルゴリズムを提案する。
- 敵対的ウォーターフィリング問題の理論とアルゴリズムを構築し，実用的な無線基礎モデルを開発した。
- 提案モデルは，チャネル表現，制約を考慮したGNN，および潜在変数を組み込むことで，AWFの探索ダイナミクスを学習する。
- 実験の結果，問題規模や制約条件の変化に対応でき，従来の反復法と比較して処理時間を大幅に短縮できることを示した。
Link: https://arxiv.org/abs/2605.26163
ツール・スキーマ圧縮による制約付きコンテキスト予算下でのエージェント型RAGの実現 [cs.SE, cs.AI, cs.CL]目的：ツール・スキーマ圧縮によるエージェント型RAGシステムの実現可能性
- 大規模言語モデルにツールを組み合わせるRAGシステムは，複雑なタスク解決に有効である。
- ツール定義のスキーマはコンテキストウィンドウを圧迫し，RAGの性能低下を招く可能性がある。
- コンテキストウィンドウの制約下でも，ツール・スキーマ圧縮によってRAGを有効に機能させる。
- ツール・スキーマ圧縮(TSCG)により，スキーマのトークン数を44-50%削減できることが示された。
- 8Kトークンという制約下では，圧縮によりRAGの正答率(EM)が平均で20.5pp向上した。
- 32Kトークンでは圧縮による影響は小さく，圧縮は主にコンテキスト予算が限られている場合に有効であることが確認された。
Link: https://arxiv.org/abs/2605.26165
IoT向け自律型オンライン侵入検知の性能向上：バランス学習，信頼性の高い疑似ラベル，軽量アーキテクチャ [cs.CR, cs.AI, cs.LG]目的：IoT環境における侵入検知システムの性能向上
- IoTデバイスの急増により，動的なサイバー脅威に対応可能な侵入検知システムの需要が高まっている。
- 既存のシステムは，クラス不均衡，不安定な疑似ラベル，汎化性能の限界，計算コストなどの課題を抱えている。
- 本研究は，これらの課題に対処し，IoT環境への実用的な展開を可能とする。
- 提案手法XGBoost-BalSampは，UNSW-NB15ベンチマークにおいて89.19%だったベースラインに対し，95.45%の精度を達成した。
- 深層学習アプローチ(PseudoFilter, MixupAug, LiteAE)は，ベース論文の性能を上回り，モデルパラメータを55%削減した。
- これらの結果は，AOC-IDSへの的を絞った改良が，精度向上とIoTエッジデバイスへの展開可能性向上に繋がることを示している。
Link: https://arxiv.org/abs/2605.26166
Lie群埋め込みによるニューラルダイナミクスの計画：教師あり射影多様体学習を通して [cs.LG, cs.AI, math.DS, math.RA]目的：Lie群埋め込み動的ニューラルネットワークの提案と，それに対応する学習アルゴリズム
- ロボティクス，グラフィックス，制御といった分野で，連続的な対称性を扱うことが重要である。
- 既存手法では，Lie群の加算演算との不整合や，非ユークリッド空間でのダイナミクスの学習が困難である。
- Lie群を組み込むことで，安定したダイナミクス学習を可能にし，実用的な問題を解決することを目指す。
- Lie群の随伴作用を導入することで，Lie代数上での線形写像を実現し，重み行列のブロック構造化を可能にした。
- Lie代数と随伴作用を線形変換としてパラメータ化することで，ニューラルネットワークの知覚論と整合性を図った。
- SE(3)群を用いた実験により，テレスコピックマニピュレータの制御における有効性が確認された。
Link: https://arxiv.org/abs/2605.26167
学習キャッシュ：LinuxページキャッシュのためのeBPF統合パーセプトロンベースの置換ポリシー [cs.OS, cs.LG]目的：Linuxページキャッシュのための機械学習駆動型キャッシュ置換ポリシーの開発
- Linuxは現代のデジタル基盤であり，OSやアプリケーションの性能に大きな影響を与えるページキャッシュの効率化は重要である。
- 従来のページキャッシュ置換ポリシーは，ヒューリスティックに基づき柔軟性に欠けるという課題があった。
- 本研究は，多様なワークロードにおいて実用的な機械学習駆動型キャッシュ置換ポリシーをLinuxカーネルに実装することを目指す。
- 提案するLearnedCacheは，eBPFと単層パーセプトロンを統合し，リアルタイム性能評価を実現した。
- 様々なワークロードにおける統計的テストの結果，LearnedCacheはFIFOと比較して，挿入率が最大10%向上することが示された。
- ページ再利用時間のモデリングにおいて，AUCの中央値がほぼ80%という高い精度を達成した。
Link: https://arxiv.org/abs/2605.26168
ルール違反が稀な場合：論理的異常検知のためのキメラ訓練 [cs.LG]目的：論理的制約に基づく異常検知手法
- 実用的な異常は単に稀な入力ではなく，意味的な制約の違反として現れることが重要である。
- 訓練データでは実際のルール違反が稀または存在せず，十分な情報が得られない場合がある。
- キメラ訓練を通じて，実態の異常画像なしで論理的な反例を供給し，学習を改善することを目指す。
- 提案手法は，CLEVRER，OpenImages，VidORにおいて，ルールレベルの異常AUROCを向上させた。
- 特に，合成的および関係的なルールにおいて，既存手法と比較して優れた性能を示した。
- 本手法は，異常スコアとルールレベルの帰属の両方を提供する。
Link: https://arxiv.org/abs/2605.26171
テスト時サンプリングにおける推論軌道バシンと多数決の失敗：ARBITER [cs.LG]目的：テスト時サンプリングにおける推論軌道の構造と多数決による誤りの原因の解明
- 言語モデルの性能向上は，複雑な推論タスクへの応用において不可欠である。
- テスト時サンプリングでは，多数決による選択が誤った結果を招く可能性がある。
- 推論軌道間の相互作用をモデル化し，多数決の誤りを軽減することを目指す。
- 言語モデルのテスト時サンプリングにおいて，推論軌道は少数バシンに集中することが示された。
- ARBITERは，モデル自身の出力を用いてバシン間の相互作用をモデル化し，多数決の誤りを改善する。
- 様々なモデルとベンチマークで，ARBITERは一貫した性能向上を示し，オラクルとの性能差を縮小した。
Link: https://arxiv.org/abs/2605.26172
普遍的な断崖とデザインの指紋：LLMオーケストレーション下での断片間欠陥検出 [cs.SE, cs.AI, cs.CL, cs.MA]目的：大規模言語モデルシステムにおける断片間矛盾という，単一のモデルでは検出困難な欠陥の検出メカニズムの解明
- 大規模言語モデルの活用が進む中，複雑な文書の品質保証が重要となる。
- 大規模言語モデルは，複数のエージェントによるオーケストレーションによって機能するため，文書全体の一貫性を保つことが課題となる。
- LLMオーケストレーションが断片間欠陥検出に及ぼす影響を定量的に評価し，モデルの安全性を向上させる。
- LLMオーケストレーション下では，単一エージェントで検出可能な断片間欠陥の検出能力が大幅に低下し，検出率は3分の2以上減少する。
- 特定の開発者のモデル系列において，アライメント強化により欠陥検出率は向上する一方，誤検出率も上昇する傾向が確認された。
- 統合されたレポートの信頼性は，断片間にまたがる欠陥の検出には役立たず，アライメントの高いシステムが必ずしも安全とは限らない。
Link: https://arxiv.org/abs/2605.26174
InfoQuant：低ビットLLM量子化のための活性化分布の形成 [cs.LG, cs.AI]目的：低ビット活性化量子化における効率的なLLM展開
- 大規模言語モデル(LLM)の効率的な利用には，モデルサイズの圧縮が不可欠である。量子化は有効な手法の一つ。
- 活性化の量子化は外れ値の影響を受けやすく，低ビット化に伴い精度低下が大きくなることが課題である。
- 活性化分布を量子化に適した形に変形することで，低ビット量子化時の精度低下を抑制することを目指す。
- 提案手法InfoQuantは，活性化分布の数値範囲を小さくし，分散を大きくすることで，量子化誤差を低減する。
- InfoQuantは，既存のPTQ手法やエンドツーエンド学習と比較して，複数のLLMファミリーで高い性能を示す。
- W4A4KV4量子化において，平均97%の浮動小数点精度を維持し，LLaMA-2 13Bの性能ギャップを42%削減した。
Link: https://arxiv.org/abs/2605.26175
PitchBench：音声言語モデルにおける音高聴取能力の測定 [cs.SD, cs.AI]目的：音声言語モデルにおける音高聴取能力の系統的な評価
- 音楽理解は，音楽教育，自動採譜，推薦システムなど多岐にわたる応用分野において重要である。
- 既存の評価指標では，音高聴取能力が間接的にしか評価されておらず，モデルの信頼性が不明確である。
- 音高聴取能力の評価を通して，音声言語モデルの音楽理解の限界を明らかにし，改善を促す。
- 最先端の音声言語モデルの評価を行った結果，音高聴取能力は依然として不安定であることが示された。
- モデルの性能は，音源，音符の長さ，表記形式によって大きく変動し，安定した音高知覚は確認されなかった。
- 現在の音声言語モデルは，制御された合成音や楽器の音であっても，安定した音高知覚能力を持たないことが明らかになった。
Link: https://arxiv.org/abs/2605.26176
RepoMirage：コードエージェントにおけるリポジトリコンテキスト推論の探求 - 摂動を用いた検証 [cs.SE, cs.AI]目的：コードエージェントのリポジトリコンテキスト推論能力の評価
- ソフトウェア開発におけるコード理解の自動化は，生産性向上に不可欠である。
- 既存のコードエージェントはタスク遂行能力を示すが，リポジトリ全体の文脈理解が不十分である。
- リポジトリ全体の文脈理解能力の評価方法を確立し，改善策を提案すること。
- RepoMirageは，リポジトリ構造を変化させる摂動により，コンテキスト推論の要求度を高める評価手法である。
- 摂動を加えた環境下では，コードエージェントの性能が大幅に低下し，リポジトリコンテキスト推論の弱点が明らかになった。
- 構造情報に焦点を当てたRepoAnchorというプロトタイプワークフローは，性能向上に貢献することが示された。
Link: https://arxiv.org/abs/2605.26177
ATOM：原子核-電子階層による予算制御可能なマルチエージェント協調の実現 [cs.MA, cs.LG]目的：予算制御可能なマルチエージェント協調グラフの生成
- LLMに基づくマルチエージェントシステムは，性能と通信コストのバランスが重要である。
- 既存手法は，安定性と拡張性のトレードオフに苦しみ，計算予算とクエリ難易度のミスマッチが問題である。
- クエリ難易度に応じた予算配分により，リソース消費をタスク要求に合わせることを目指す。
- 提案手法ATOMは，安定したオフライン学習によるバックボーンと，動的に活性化されるエージェントを用いる。
- ATOMは，タスク駆動型強化学習パラダイムに基づき，予算制御可能な協調グラフを生成する。
- 6つの多様なベンチマークにおいて，最先端の性能を達成し，トークン効率を最大30％向上させた。
Link: https://arxiv.org/abs/2605.26178
BrickAnything：構造を意識したトークン化を用いた，形状条件付きの積み重ね可能なレンガ生成 [cs.AI, cs.GR]目的：3D形状から物理的に積み重ね可能なレンガ構造の生成
- 建築やロボット工学において，自動レンガ積みが重要視されているため。
- 既存手法は，制約下で実現可能な構造が存在しない場合に破綻したり，3D形状と組み立ての関係を明示的にモデル化していない。
- 3D形状の形状と組み立て制約を満たす，実現可能なレンガ構造を生成すること。
- BrickAnythingは，多様な3D表現から積み重ね可能なレンガ構造を生成する自己回帰フレームワークである。
- 点群を統一的な幾何学的インターフェースとして使用し，組み立て制約下で対象形状を再構成するレンガシーケンスを予測する。
- 構造を意識したツリートークン化を導入することで，レンガ間の構造的依存関係をモデル化し，物理的な建設プロセスとの整合性を高め，無効な中間状態を削減する。
Link: https://arxiv.org/abs/2605.26182
GAC：ノイズを考慮したハイブリッドSFT-RLポストトレーニングのための適応的混合 [cs.LG, cs.AI]目的：ハイブリッドポストトレーニングにおける適応的混合比率の最適化
- 大規模言語モデルの性能向上には，教師あり学習と強化学習の組み合わせが有効である。
- 固定された混合スケジュールでは，ノイズ変動に対応できず，最適な性能を発揮できない。
- 勾配分散と信号間の不一致から混合比率を動的に調整し，ハイブリッド学習の安定化を目指す。
- GACは，数学，コード，科学，論理のベンチマークにおいて，固定およびルールベースのベースラインよりも一貫してハイブリッドポストトレーニングの性能を向上させた。
- 特に，モデル規模が大きいほど改善が顕著であり，トレーニングオーバーヘッドは1%未満に抑えられた。
- GACは，オンラインでの勾配分散と信号間の不一致の推定に基づき，適応的な混合比率を導出する。
Link: https://arxiv.org/abs/2605.26184
SetupX：LLMエージェントは，機能が正しいコードリポジトリ設定における過去の失敗から学習できるか？ [cs.SE, cs.AI, cs.CL, cs.LG]目的：機能が正しいリポジトリ設定の自動化
- ソフトウェア開発における再現性の確保は重要であり，環境構築の自動化が不可欠である。
- リポジトリ固有の依存関係の問題や不完全なインストールなど，環境構築には多様な問題が存在する。
- 既存のLLMエージェントが抱える問題を解決し，環境構築の成功率向上を目指す。
- SetupXは，検証済みの環境修正を未見のリポジトリに動的に転送する自己進化型経験表現（XPU）を構築する。
- LIFO Dockerスナップショットスタックを利用した経験拡張型推測実行により，エージェントは修正を積極的に試行し，安全に既知の状態にロールバックできる。
- 提案手法は，複雑な複数リポジトリ設定において，既存の最良手法を19%以上上回る高い性能（92%のパス率）を達成した。
Link: https://arxiv.org/abs/2605.26186
ニアロスレスHiF8 W8A8量子化認識トレーニングのための最大ウィンドウスケール推定 [cs.LG, cs.AI]目的：低ビット浮動小数点形式を用いた効率的なLLM展開
- LLMの推論コスト削減のため，量子化が重要視されている。
- 標準的な学習指標では捉えられない，量子化による潜在的な性能劣化が存在する。
- 量子化認識トレーニングにおけるスケール推定の最適化による性能劣化の抑制。
- 遅延テンソルスケーリング（DTS）を用いてHiF8 W8A8量子化認識トレーニングを分析し，最大値飽和と破滅的忘却の二つの故障モードを特定した。
- 最大値飽和は，過去64ステップのウィンドウを用いた保守的な最大アルゴリズムDTS戦略によって対処可能であることが示された。
- 破滅的忘却は，500ステップのBF16ウォームアップとlr=10^{-5}での量子化認識トレーニングによって軽減され，MMLU，HellaSwag，ARC-Challengeでそれぞれ0.43%，0.58%，0.22%の性能低下に抑えられた。
Link: https://arxiv.org/abs/2605.26189
HRVConformer：心拍信号からの新生児低酸素虚血性脳症の分類 [cs.LG, cs.AI, eess.SP]目的：心拍信号を用いた新生児低酸素虚血性脳症の分類
- 新生児低酸素虚血性脳症は，脳性麻痺などの神経発達障害を引き起こす可能性があり，早期診断が重要である。
- 従来の分類方法は，手動での特徴量抽出に依存しており，時間と労力を要し，精度にも限界があった。
- 本研究は，心拍信号から自動的に特徴を抽出し，より高精度な分類を可能にすることを目指す。
- HRVConformerは，従来のTransformer，ResNet50，完全畳み込みネットワークと比較して，高い分類性能を示した。
- テストデータセットにおいて，AUC 83.23%と精度74.56%を達成し，自動化されたHIE評価への道を開いた。
- 畳み込み層とTransformerを組み合わせることで，心拍信号の局所的特徴と全体的な文脈の両方を効果的に捉えることができた。
Link: https://arxiv.org/abs/2605.26190
ストリーミング時系列データからの時遅れシステムの動的混合モデリング [cs.LG, cs.AI]目的：時系列データストリームにおける適応モデリング
- 時系列分析は，様々な分野で予測や意思決定に不可欠であり，その重要性は高い。
- 環境要因や入力遅延の変化により，システムが急激に変化し，モデル性能が低下しやすい。
- システムの動的な変化に適応し，メモリ使用量を抑えつつ高精度な予測を実現すること。
- 本研究では，ストリーミング時系列データを時遅れシステムの動的混合として捉えるオンラインフレームワークを提案。
- システムのマルコフパラメータ系列を用いて要約システムテンソルを構築し，過去のレジームを固定長で表現することで，ロバスト性とメモリ効率を向上。
- 実データを用いた実験により，DelayMixが他の手法と比較して優れた予測精度と遅延への適応速度を示すことが確認された。
Link: https://arxiv.org/abs/2605.26191
構造プロテオミクスに基づくコフォールディングモデル [cs.LG, cs.AI, q-bio.BM]目的：タンパク質複合体の構造予測精度向上
- タンパク質構造予測は，創薬や生命現象解明に不可欠な基盤技術である。
- 既存モデルは，タンパク質複合体の正しいコンフォメーション予測に課題を抱えている。
- 構造プロテオミクスデータを活用し，予測精度向上を目指す。
- AIMS-Foldは，拡散モデルのサンプリング過程を，XL-MSやHDX-MSから得られる物理ポテンシャルで誘導する。
- XL-MSとHDX-MSの個別の適用も予測精度を向上させ，組み合わせることで相乗効果が得られた。
- AIMS-Foldは，既存の計算モデルと比較して，誘導近接ターゲットに対する予測精度が高いことが示された。
Link: https://arxiv.org/abs/2605.26192
分類と再構成の架け橋：協調的な時系列異常検知 [cs.LG, cs.AI]目的：時系列異常検知における新たな枠組み
- 時系列データは様々な分野で利用され，異常検知は重要な課題である。
- 既存の深層学習手法は，微妙かつ長期的な異常の検出に課題がある。
- 分類と再構成の利点を組み合わせ，それぞれの弱点を克服する。
- 提案手法CoADは，既存の深層学習手法や従来のデータマイニング手法を大幅に上回る性能を示す。
- CoADは，分類モジュールから生成された確率に基づいたソフトマスクを用いることで，再構成モジュールの性能を向上させる。
- 軽量かつ高速であり，大規模かつリアルタイムなアプリケーションへの応用が可能である。
Link: https://arxiv.org/abs/2605.26193
時系列事前学習における帰納的バイアスの役割：臨床時系列の汎化表現学習における事例研究 [cs.LG]目的：臨床時系列学習における汎化表現の獲得
- 臨床時系列データは医療現場で重要であり，疾患診断や予後予測に活用が期待される。
- 臨床データはサンプル数が少なく，多様性が低い場合が多く，プロトコルドリフトの影響も受けやすい。
- タスクや対象者間で汎化性能の高い表現を獲得するための適切な帰納的バイアスを特定すること。
- ダイナミクス中心の混合目的関数が最もバランスの取れた転移学習性能を示した。
- 局所再構成と時間的連続性を組み合わせることで，頑健な対象者汎化表現が得られる。
- 例示ウィンドウへのアクセスが可能であれば，インコンテキスト条件付けを追加することが有効である。
Link: https://arxiv.org/abs/2605.26194
CyberEvolver：サイバーセキュリティエージェントの構造化自己進化 [cs.CR, cs.AI]目的：サイバーセキュリティエージェントの自己進化フレームワーク
- サイバー攻撃は高度化しており，自動化された防御システムの重要性が増している。
- 既存のシステムは固定的な構造に依存し，多様な標的や状況への適応が困難である。
- エージェント自身が経験から学習し，構造を改善することで，適応性と性能向上を目指す。
- CyberEvolverは，失敗から得られた経験に基づいて，エージェントの構造を反復的に修正する自己進化フレームワークである。
- CTFチャレンジ，脆弱性攻撃，侵入テストにおいて，ベースラインエージェントの成功率を平均13.6％向上させた。
- また，人間が設計したエージェントや他の自己改善手法と比較しても優れた性能を示した。
Link: https://arxiv.org/abs/2605.26195
オート研究システムにおけるワークフローの完結は科学的完結ではない [cs.SE, cs.AI]目的：オート研究システムにおける科学的妥当性の問題点
- 研究の自動化は，効率化や新たな発見の可能性を秘めている。
- 現在のオート研究システムは，科学的な検証プロセスを十分に備えていない。
- 科学的妥当性を確保するための設計指針を提示すること。
- オート研究システムは研究ループを完結できるものの，それだけでは科学的な根拠は得られない。
- 目標の単一化，検証の内部化，受容のベンチマーク偏重といった問題（objective/validation/acceptance collapse）が共通して見られる。
- これらの問題は設計上の選択によって修正可能であり，科学的妥当性を高めるための議論を促す。
Link: https://arxiv.org/abs/2605.26200
エージェント社会：エージェント的社会知性のインセンティブ設計 [cs.MA, cs.AI, cs.CY, cs.GT]目的：エージェント間の分散協調を可能にするメカニズム
- 複雑なタスク遂行には，自律的なエージェント間の協調が不可欠である。
- エージェント間の効率的なコミュニケーションとインセンティブ設計が課題である。
- 経済的インセンティブに基づいた分散協調メカニズムを提案し，その有効性を検証する。
- 提案メカニズムAgentSocietyは，液民主制と社会選択理論に基づき，エージェントの自律的な意思決定を促進する。
- 有能な近傍エージェントへの委任がインセンティブに適合し，合意に基づくマルチエージェント経路が自然に生成される。
- エージェントは自己利益に基づいて情報を選択的に開示することで影響力を獲得し，ナッシュ均衡において貢献度に応じた報酬を得る。
Link: https://arxiv.org/abs/2605.26203
プライバシーから一般化へ：DP-SGDに対する線形最大情報境界 [cs.LG, stat.ML]目的：DP-SGDの近似最大情報量の有限サンプル境界
- 機械学習理論において，一般化とプライバシーの関係を理解することは重要である。
- 深層ネットワークにおけるプライバシー保護学習の一般化性能評価が困難である。
- DP-SGDのプライバシーと一般化性能のトレードオフを定量的に評価する。
- DP-SGDの近似最大情報量に関する有限サンプル境界を証明し，データセットサイズに対して線形にスケールする。
- DP-SGDによって学習可能な事前分布を用いたPAC-Bayes汎化境界を導出した。
- DP-SGDで訓練されたモデルに対する汎化境界を，最適化ハイパーパラメータによって制御可能な形で提示した。
Link: https://arxiv.org/abs/2605.26222
LLMは内省できるか？現実の検証 [cs.AI]目的：大規模言語モデルの内的状態の検出と報告能力の検証
- AIの高度化に伴い，自己認識能力の有無が重要視されている。
- LLMの自己認識に関する研究は進むものの，その根拠に疑問が残る。
- LLMの表面的なパターン認識と真の自己内省を区別する。
- 先行研究におけるLLMの内的状態検出能力は，入力の異常検出能力に起因する可能性が示唆された。
- LLM自身の予測と入力のみを用いた分類器の性能に差が見られず，LLMが内部表現に特権的なアクセスを持っているとは結論付けられない。
- より厳密な制御下での実験では，LLMの性能が偶然レベルに近づき，メタ認知的なモニタリング能力の証拠は不十分である。
Link: https://arxiv.org/abs/2605.26242
通信効率とプライバシー保護を保証する連合グラフニューラルネットワーク [cs.LG]目的：連合学習におけるグラフニューラルネットワークの通信効率とプライバシー保護
- 現実世界のデータは組織間に分散しており，プライバシー保護が重要である。
- 既存手法では，精度低下や通信コスト増大，プライバシー侵害の懸念がある。
- 効率的かつプライバシー保護されたグラフニューラルネットワークの学習を実現する。
- CE-FedGNNは，ノード表現の集約を間隔を置いて交換することで，データ共有やラウンドごとの埋め込み交換を回避する。
- 移動平均推定器により，ノード表現の追跡とラウンド間の安定的な再利用が可能となる。
- 埋め込み空間における距離に基づくmetric-DPを採用し，標準的なDPよりも実用的なプライバシー保証を提供する。
Link: https://arxiv.org/abs/2605.26243
LLM蒸留におけるブリッジ・ガーデン・ジレンマ：ハードラベルとソフトラベルの混合が有効である理由 [cs.LG]目的：LLM蒸留におけるラベル混合による性能向上機構の解明
- 大規模言語モデルの効率的な圧縮は，計算資源の制約下での応用を拡大するために重要である。
- 従来の知識蒸留では，教師モデルからの知識伝達方法に改善の余地があり，性能向上が限定的である。
- 本研究は，ハードラベルとソフトラベルの適切な組み合わせにより，知識蒸留の性能を向上させることを目指す。
- ハードラベルとソフトラベルの混合が，教師モデルへの適合度向上だけでは説明できない性能向上をもたらすことが示された。
- 生成過程を「ブリッジ」と「ガーデン」に分類する理論を提案し，それぞれのラベル形式が適した生成ステップを説明した。
- 提案手法は，様々な教師・生徒モデルのペアにおいて，従来の蒸留手法を上回り，計算コストを削減することに成功した。
Link: https://arxiv.org/abs/2605.26246
統一的なニューラルスケーリング則 [cs.LG, cs.AI, cs.NE]目的：深層ニューラルネットワークのスケーリング挙動のモデル化
- AI技術の発展には，モデルの規模と性能の間の関係性を理解することが不可欠である。
- 既存のスケーリング則では，様々な要素が同時に変化する場合の予測精度が低いという課題がある。
- 様々なアーキテクチャとタスクにおいて，より正確なスケーリング予測を可能にすること。
- 提示された統一ニューラルスケーリング則（UNSL）は，モデルのパラメータ数，データセットサイズ，学習ステップ数などを同時に変化させた際の深層ニューラルネットワークのスケーリング挙動を正確にモデル化し，外挿する。
- UNSLは，大規模な画像認識，言語処理，数学，強化学習などの幅広いタスクで検証され，他のスケーリング則と比較して，より高い予測精度を示した。
- この研究は，AIモデルの効率的な開発とスケーリング戦略の最適化に貢献する可能性がある。
Link: https://arxiv.org/abs/2605.26248
エージェントの記憶はデータベースか？長期AIエージェント記憶のためのデータ基盤の再考 [cs.AI, cs.DB]目的：長期AIエージェント記憶のためのデータ基盤
- AIエージェントの継続的な学習や意思決定の監査に，永続的な記憶が不可欠である。
- 既存のシステムは記憶を単なるストレージと捉え，長期記憶に必要な機能を十分に提供できていない。
- 長期エージェント記憶を新たなデータ管理ワークロードとして捉え，状態遷移の正確性を重視する。
- 本研究では，Governed Evolving Memory (GEM) を提案し，状態レベルの演算子による記憶管理を形式化。
- 記録レベルのシステムではGEMの条件を満たせないことを構造的に証明。
- プロトタイプMemStateを実装し，実現可能性を検証するとともに，今後の研究方向性を示唆。
Link: https://arxiv.org/abs/2605.26252