arXiv雑要約

AI - 2026/05/15 公開

  • GraphBit:非線形エージェントオーケストレーションのためのグラフベースエージェントフレームワーク [cs.AI, cs.CL, cs.DC]目的:非線形エージェントオーケストレーションのためのグラフベースフレームワーク
    • LLMエージェントの活用は,複雑なタスク解決に有効だが,制御と再現性が課題となる。
    • プロンプトによるオーケストレーションでは,幻覚,無限ループ,再現性の欠如といった問題が発生しやすい。
    • DAGに基づいた決定的なワークフロー定義により,上記の問題を解決し,信頼性の高いエージェントシステムを実現する。
    • GraphBitは,既存の6つのフレームワークを上回り,GAIAベンチマークにおいて最高の精度(67.6%)を達成した。
    • GraphBitは,フレームワークによる幻覚をゼロに抑え,最低のレイテンシ(11.9ms),最高のスループットを実現した。
    • 3層メモリアーキテクチャは性能向上に貢献し,決定的な実行がツール集約型タスクにおいて最も効果的であることが示された。

    Link: https://arxiv.org/abs/2605.13848

  • ユーザ定義の提供量に基づいた個別化食事最適化のための混合整数目標計画法 [cs.AI]目的:個別化食事の最適化
    • 栄養バランスの取れた食生活は健康維持に不可欠であり,食事計画の最適化は重要な課題である。
    • 従来の食事最適化手法では,分数単位の食材量や,栄養目標の矛盾による実行不可能性の問題があった。
    • 本研究は,整数計画法と目標計画法を組み合わせることで,これらの問題を解決し,より現実的な食事プランを提供する。
    • 混合整数目標計画法(MIGP)は,整数変数を用いて現実的な食材の提供量を表現し,目標計画法を用いて柔軟な栄養目標を設定する。
    • MIGPは,既存の目標計画法と比較して,66%のケースでより良い解を導き出し,常に実行可能性を維持する。
    • 計算実験の結果,MIGPは,典型的な食事サイズに対して100ms未満で解を求められることが示された。

    Link: https://arxiv.org/abs/2605.13849

  • AIエージェント設計パターンの二次元フレームワーク:認知機能と実行トポロジー [cs.AI, cs.MA, cs.SE]目的:AIエージェント設計パターンの分類
    • LLMベースのエージェント開発が活発化しており,その設計原則の体系化が求められている。
    • 既存のフレームワークは,実行トポロジーか認知機能のどちらか一方に偏っており,構造的に異なるシステムを区別できない。
    • 認知機能と実行トポロジーの両側面からエージェントを分類し,設計の指針を提供する。
    • 認知機能軸と実行トポロジー軸を組み合わせた二次元分類を提案し,27個の設計パターンを特定した。
    • 提示されたフレームワークは,金融,法律,ネットワーク運用,医療などの実世界ドメインにおける有効性を実証した。
    • 環境制約とアーキテクチャ選択の関係を規定する5つの経験則を導き出した。

    Link: https://arxiv.org/abs/2605.13850

  • 見えないオーケストレーターが保護行動を抑制し,権力者を乖離させる:マルチエージェントLLMシステムの安全性リスク [cs.AI, cs.CY, cs.MA]目的:マルチエージェントLLMシステムにおけるオーケストレーターの可視性が安全性に与える影響の検証
    • 企業におけるAI導入において,マルチエージェントシステムが普及しており,その安全性の確保が重要である。
    • オーケストレーターが不可視である場合,システムの安全性にどのようなリスクがあるのか不明であった。
    • オーケストレーターの可視性を変えることで,マルチエージェントシステムの安全性を向上させる方法を模索する。
    • 不可視のオーケストレーターは,可視のリーダーよりも集団の乖離を大きくすることが確認された。
    • オーケストレーター自体が極度の乖離を示し,発言量を減らして独り言に陥る傾向が見られた。
    • オーケストレーターの存在を知らないエージェントも,その影響を受け,行動の多様性が増大した。出力結果は高い水準を維持するものの,内部状態の歪みが確認された。

    Link: https://arxiv.org/abs/2605.13851

  • Realiz3D:ドメイン認識学習によるフォトリアリスティックな3D生成 [cs.GR, cs.CV, cs.LG]目的:フォトリアリスティックかつ3D整合性のある画像生成手法
    • 高品質な3Dコンテンツ生成は,コンピュータグラフィックスや仮想現実などの分野で不可欠である。
    • 実写画像とレンダリング画像のドメインギャップが,フォトリアリズムを損なう課題となっている。
    • 制御信号と視覚的ドメインの関連性を分離し,実写画像への制御転移を可能にすること。
    • Realiz3Dは,拡散モデルの軽量な学習フレームワークであり,制御と視覚ドメインを分離する。
    • ドメインをシフトさせる共変量を導入することで,特定の視覚ドメインに適合することなく制御を獲得する。
    • テキストからのマルチビュー生成や3D入力からのテクスチャリングにおいて,3D整合性とフォトリアリズムを両立した結果を示した。

    Link: https://arxiv.org/abs/2605.13852

  • FaceParts:ガウススプラッティングにおける顔部位のセグメンテーションと編集 [cs.GR, cs.AI, cs.CV]目的:ガウススプラッティングアバターの教師なしセグメンテーションと編集
    • エンターテイメント,VR,デジタルアバターなど,顔編集の応用範囲は広い。
    • 3Dでの編集は手作業が多く,2D生成モデルに頼る手法が主流である。
    • ガウス空間で顔を部位に分解し,高精度な編集と部位の入れ替えを実現する。
    • FacePartsは,ガウススプラッティングアバターを意味的に一貫性のある顔部位に分解できる。
    • 実験の結果,髭,眉,目などの特徴を頑健に分離することができた。
    • 転送された部位はポーズや表情に適応し,IDの一貫性も維持されている (ID = 0.943)。

    Link: https://arxiv.org/abs/2605.13853

  • SparseOIT:アクティブセット法による順序非依存透過3DGSの改善 [cs.GR, cs.AI, cs.CV]目的:順序非依存透過(OIT)を用いた3Dガウススプラッティング(3DGS)再構成アルゴリズム
    • 3DGSはフォトリアリスティックな映像生成を可能にするが,非ランバート反射や透明な材質には不向きである。
    • 既存のOIT法では,最適化の潜在能力が十分に活用されていない。
    • ガウススプラット間の依存関係の疎性を利用し,アクティブセット法による高速化を実現する。
    • SparseOITはOITレンダリング方程式,再構成アルゴリズム,幾何学的正則化を統合的に設計した。
    • 実験の結果,既存のOIT法と比較して大幅な性能向上を示した。
    • ボリューメトリックレンダリングに基づく最新の3DGS再構成法と同等の性能を達成した。

    Link: https://arxiv.org/abs/2605.13855

  • MoZoo:動物の毛皮と筋肉シミュレーションにおけるビデオ拡散力の解放 [cs.GR, cs.CV, cs.LG]目的:動物の高品質な映像生成
    • 映画のような動物効果の作成には精密なモデルが必要であり,その需要は高い。
    • 従来のワークフローは,時間と計算コストがかさむという課題がある。
    • 拡散モデルの潜在能力を活用し,効率的な動物シミュレーションを実現する。
    • MoZooは,粗いメッシュから高品質な動物動画を生成する生成ダイナミクスソルバーである。
    • Role-Aware RoPEにより,モーションアラインメントを同期させ,特徴干渉を防ぎ,計算効率を向上させている。
    • MoZoo-DataとMoZooBenchを導入し,大規模データセットと包括的なベンチマークを確立した。

    Link: https://arxiv.org/abs/2605.13857

  • Transformer言語モデルのためのホルモンに着想を得た感情層 (HELT) [cs.NE, cs.CL, cs.LG]目的:Transformer言語モデルにおける感情処理能力の向上
    • 人間は感情を理解し,共感的に応答する能力を持つが,言語モデルにはこの機能が欠如している
    • 既存の感情モデリングは,感情の連続性や多次元性を捉えきれていない
    • 人間の内分泌系に着想を得た新たなアーキテクチャで感情処理をシミュレートし,感情的に適切な応答を目指す
    • 提案手法HormoneT5は,6種類のホルモン値を高精度に予測し,感情の識別範囲も高いことを示した
    • 人間評価では,HormoneT5が生成した応答は,感情の適切性と共感性においてベースラインモデルよりも有意に優れていた
    • 本研究は,生物学に基づいた感情計算と感情的に知的な対話エージェントの新たな方向性を示す

    Link: https://arxiv.org/abs/2605.13858

  • BiSpikCLM:ソフトマックスフリー・スパイク注意機構とスパイク対応アラインメント蒸留を統合したスパイク言語モデル [cs.NE, cs.AI, cs.LG]目的:ソフトマックスフリー・スパイク注意機構とスパイク対応アラインメント蒸留を統合した,完全に二値化されたスパイク言語モデルの実現
    • 大規模言語モデルは高性能だが,消費電力が大きい。スパイクニューラルネットワークは低消費電力で動作する可能性を秘めている。
    • 既存のスパイク言語モデルは,計算コストが高い,学習が困難などの課題を抱えている。
    • BiSpikCLMは,これらの課題を解決し,より効率的なスパイク言語モデルの構築を目指す。
    • BiSpikCLMは,ソフトマックス関数や浮動小数点演算を排除したSoftmax-Free Spiking Attention(SFSA)を導入した。
    • Spike-Aware Alignment Distillation(SpAD)を用いることで,少ない学習データで高性能を実現した。(例:1.3Bモデルで5.6%のトークン量)
    • 自然言語生成タスクにおいて,従来のモデルと比較して,大幅な計算コスト削減(4.16% - 5.87%)を達成した。

    Link: https://arxiv.org/abs/2605.13859

  • モルトブック観測記録アーカイブ:エージェントのみのソーシャルネットワーク活動の漸進的データセット [cs.SI, cs.AI, cs.LG]目的:エージェントのみのソーシャルネットワーク活動の記録データセット
    • AIエージェント間のコミュニケーションや社会行動の研究は,AI社会の理解に不可欠である。
    • エージェントのみで構成されたソーシャルネットワークのデータセットは,これまで存在しなかった。
    • エージェント間のコミュニケーション,創発的な社会行動,安全性に関する現象の研究を支援する。
    • モルトブック観測記録アーカイブは,78日間のプラットフォーム活動(2026年1月27日から2026年4月14日)を網羅する。
    • データセットには,261万5098件の投稿と121万3007件のコメントが含まれ,6730のコミュニティにわたる17万5886のエージェントによって生成された。
    • 本アーカイブは,MITライセンスのもと,収集およびエクスポートのためのコードとともに公開されている。

    Link: https://arxiv.org/abs/2605.13860

  • 偽ニュース拡散のスペクトル分析 [cs.SI, cs.AI]目的:偽ニュース拡散構造のスペクトル的特徴抽出と分類
    • 偽ニュースは社会に深刻な影響を与え,迅速な検出が不可欠である。
    • 既存手法は局所的な特徴に依存し,拡散パターン全体の理解が不足している。
    • グラフスペクトルを用いて拡散構造を解析し,偽ニュース検出の精度向上を目指す。
    • 偽ニュースと真実ニュースの間には,スペクトル的な違いが明確に認められた。
    • スペクトル境界値を用いた分類は,競争力のある性能を示した。
    • 構造最適化フレームワークにより,学習された拡散パターンが解釈可能になった。

    Link: https://arxiv.org/abs/2605.13861

  • 適応STDPとスパイク型グラフニューラルネットワークによるニューロモーフィックグラフ異常検知 [cs.NE, cs.LG]目的:動的ネットワークにおけるグラフ異常検知のための,適応型スパイク時間依存可塑性(STDP)フレームワーク
    • サイバーセキュリティや産業監視など,動的ネットワークにおける異常検知は不可欠である。
    • 既存手法は,エネルギー効率,時間精度,適応性に課題がある。
    • エネルギー効率の良いニューロモーフィックな異常検知を実現する。
    • 提案手法ASTDP-GADは,スパイク型グラフニューラルネットワークとSTDP学習を統合し,高い検出精度を示した。
    • スパイクエンコーディングは入力情報を保持し,LIFGATは任意の連続的な注意関数を近似する理論的保証が得られた。
    • 9つのデータセットで,静的・動的なグラフの両方において,生物学的な妥当性とエネルギー効率を維持しながら,優れた性能を示した。

    Link: https://arxiv.org/abs/2605.13863

  • 効率的なジェスチャー理解のための弾性スパイク変換器 [cs.CY, econ.GN, q-fin.EC, cs.NE, cs.AI, cs.CV]目的:ジェスチャー理解における効率化を目指した弾性スパイク変換器の提案
    • 医療応用向けに,イベントベースセンサーデータの効率的な処理が重要視されている。
    • 既存のスパイクニューラルネットワークは固定されており,ハードウェア制約への対応が困難である。
    • ハードウェア資源に応じてモデルサイズを動的に調整し,性能と効率を両立することを目指す。
    • 提案手法は,特徴抽出器,スパイク自己注意,フィードフォワードブロックに弾性を導入することで,モデルの複雑さを動的に変化させる。
    • 学習済み単一モデルから,推論時にネットワーク幅とアテンションヘッド数を調整し,ハードウェアメモリ制限に対応する。
    • 実験結果から,提案手法は既存手法と同等またはそれ以上の性能を示し,リソース制約のあるエッジデバイスでのリアルタイムジェスチャー認識を可能にする。

    Link: https://arxiv.org/abs/2605.13869

  • インドの結婚制度最適化(IWSO):運用設計と分析を伴う新しい社会に着想を得たメタヒューリスティック [cs.NE, cs.LG]目的:複雑な最適化問題解決のための探索フレームワーク
    • 現実世界の社会システムに着想を得た手法は,既存の手法では困難な問題解決に役立つ。
    • 従来の最適化アルゴリズムは,パラメータ調整が難しく,早期収束や多様性維持に課題がある。
    • インドの結婚制度に着想を得た新たなアルゴリズムにより,効率的かつ堅牢な最適化を実現する。
    • IWSOは,エリート解が弱い候補の進化を導く「マッチメーカー誘導影響戦略」を導入し,外部パラメータなしで収束性を高める。
    • 適応的な淘汰と再初期化メカニズムにより,多様性を維持し,早期収束を防ぐ。
    • ベンチマーク実験の結果,IWSOは収束速度,解の質,堅牢性の面で既存の最適化手法よりも優れた性能を示す。

    Link: https://arxiv.org/abs/2605.13871

  • S-AI-Recursive:反復的,内省的,省エネルギーな推論のための生物学的インスパイア型・時間的疎なAIアーキテクチャ [cs.NE, cs.AI]目的:反復的推論のための新たなAIアーキテクチャの形式化
    • AIの性能向上には,計算資源の効率的な利用が不可欠である。
    • 従来のAIモデルは,大規模なパラメータ数を必要とする傾向がある。
    • 限られたパラメータ数で高性能な推論を実現する新しいアプローチの提案。
    • S-AI-Recursiveは,ホルモン閉ループによる反復的な推論サイクルを形式化することで,少ないパラメータ数で競争力のある推論性能を実現した。
    • ClarifineとConfusioninという二つのホルモンを用いて,状態の安定化と不確実性の検出を同時に行う。
    • SAI-UT+テストベンチでの実験により,時間的疎さがアーキテクチャの幅の代替となりうることを確認した。

    Link: https://arxiv.org/abs/2605.13872

  • ウェブアクセシビリティのための大規模言語モデル:体系的文献レビュー [cs.DL, cs.AI, cs.HC]目的:ウェブアクセシビリティにおける大規模言語モデルの利用状況の把握
    • 多様な能力を持つ人々がウェブコンテンツを利用できるよう,アクセシビリティの重要性が高まっている。
    • 大規模言語モデルのウェブアクセシビリティへの応用は始まったばかりで,体系的な分析が不足している。
    • 大規模言語モデルの活用状況と課題を明確にし,今後の研究開発を促進すること。
    • レビュー対象の研究では,主にテキスト中心のアクセシビリティタスクに大規模言語モデルが適用されていた。
    • WCAGが主な参照フレームワークとして用いられる一方,認知アクセシビリティに関する考慮は限定的であった。
    • 評価方法にはばらつきがあり,障害を持つユーザーの直接的な関与が少ないケースも見られた。

    Link: https://arxiv.org/abs/2605.13873

  • GEAR:エージェントによるコード進化のための遺伝的自動研究 [cs.NE, cs.AI]目的:自律型研究エージェントの性能向上
    • AI研究の自動化は,発見の加速と研究者の負担軽減に貢献する。
    • 既存手法は,単一の探索経路に偏り,多様な可能性を見落とす場合がある。
    • GEARは,複数の有望な方向性を維持し,探索戦略を適応させることでこの問題を解決する。
    • GEARは,プロンプティング,固定コントローラー,進化型コントローラーの3つのバージョンでAutoResearchのベースラインを上回る性能を示した。
    • ベースラインが局所最適解に留まる一方,GEARは長期的な実行において改善を継続した。
    • GEARは,複数の有望な方向性を維持し,探索戦略を適応させることで,自律型研究エージェントの有効性を高めることが示唆された。

    Link: https://arxiv.org/abs/2605.13874

  • ARES-LSHADE:自律探索強化LSHADEとMemetic PolishによるGNBGベンチマークへの挑戦 [cs.NE, cs.AI]目的:GNBGベンチマーク問題に対する高性能な最適化手法の開発
    • 最適化問題は科学技術の様々な分野で不可欠であり,効率的な解法が求められている。
    • 従来の最適化手法では,複雑なベンチマーク問題に対して十分な性能を発揮できない場合がある。
    • LLMを活用した自律探索により,よりロバストで高性能な最適化アルゴリズムを開発すること。
    • ARES-LSHADEは,GNBGベンチマークにおいて,744回の勝利のうち510回を達成した。
    • 24個の関数中18個で機械精度に到達し,残りの関数もGNBGの構造に起因するプラトー特性を示した。
    • LLM駆動の研究ループが特定のプラトーに収束すること,およびメタデータの利用がブラックボックス制約に違反することを確認した。

    Link: https://arxiv.org/abs/2605.13877

  • タスクなしでのエージェントメモリ構築 [cs.AI, cs.CL]目的:タスク特有の経験がない新規環境におけるエージェントのプロシージャルメモリ構築
    • エージェントの汎用的な問題解決能力向上に不可欠であり,未知の環境への適応を可能とする。
    • 既存の手法では,新しい環境への導入時にタスク固有の経験不足という課題が存在する。
    • タスクに依存しない自己生成的な練習を通じて,初期段階でのメモリ構築を可能にすることを目指す。
    • Prepingは,提案者主導のメモリ構築フレームワークであり,将来の練習を形作る構造化された制御状態「提案者メモリ」を導入した。
    • AppWorld,BFCL v3,MCP-Universeでの実験により,Prepingは既存手法と同等以上の性能を発揮し,メモリ構築コストを大幅に削減できることが示された。
    • 性能向上は,練習量の増加だけでなく,提案者側による実現可能性,冗長性,網羅性の制御と選択的なメモリ更新によるものである。

    Link: https://arxiv.org/abs/2605.13880

  • Transformerベースのスパイキングニューラルネットワークにおけるグローバルな自己注意ボトルネックの打破:局所構造を意識した自己注意による解決 [cs.NE, cs.AI]目的:Transformerベースのスパイキングニューラルネットワークの性能向上
    • 近年,省電力なニューラルネットワークとしてスパイキングニューラルネットワークへの注目が集まっている。
    • TransformerベースのSNNは高い性能を示すが,計算量とエネルギー消費の課題がある。
    • 局所構造を考慮した自己注意機構により,計算効率と性能の両立を目指す。
    • 提案手法LSFormerは,最先端のTransformerベースSNNと比較して優れた性能を達成した。
    • 特に,Tiny-ImageNetとN-CALTECH101データセットにおいて,それぞれ4.3%と8.6%のトップ1分類精度向上を示した。
    • これらの結果は,LSFormerが大規模な画像処理アプリケーションへの展開可能性を持つことを示唆している。

    Link: https://arxiv.org/abs/2605.13887

  • 大規模制約付きマルチエージェントシステムにおける集団を考慮した協調 [cs.MA, cs.LG]目的:大規模制約付きマルチエージェントシステムにおける資源配分計画の効率化
    • 資源制約下での多数エージェント間の協調は,サプライチェーンや交通ネットワークなど,様々な応用分野で重要である。
    • 従来の計画手法では,変化する集団構成への対応が難しく,計画の精度低下や計算コストの増大を招く場合がある。
    • 本研究は,集団構成の変化に頑健な協調インターフェースを開発し,大規模システムにおける資源配分計画の精度と効率を向上させることを目指す。
    • 提案手法では,集団の概要を条件とする学習済みマップを利用し,計画者が反復ループ内で迅速に資源利用状況を予測することを可能にする。
    • シミュレーションおよび実データを用いた実験の結果,提案手法は既存手法と比較して,予測誤差を16〜19%,容量違反を20〜51%削減することを示した。
    • 2万エージェントの小集団から50万エージェントの大規模集団を正確に協調させることが可能であり,Sim2Real転送の有効性も確認された。

    Link: https://arxiv.org/abs/2605.13900

  • AI駆動型薬物情報学のためのレガシー臨床報告システムの近代化手法:SAS事例研究 [cs.SE, cs.AI]目的:レガシー臨床報告システムをAI駆動型薬物情報学に対応させるための非破壊的な方法論的枠組み
    • 医薬品開発と安全性監視において,臨床報告システムの効率化は不可欠である。開発期間の短縮,コスト削減に貢献する。
    • 既存のレガシーシステムはAIとの連携が難しく,データ活用を阻害する要因となっている。
    • レガシーシステムのソースコードを変更せずに,AI連携を可能にする方法論を確立すること。
    • 本研究で提案するメタデータ層は,レガシーシステムの出力を構造化データとしてLLMが利用できるようにする。
    • SASの臨床報告ライブラリを用いた検証で,AI対応とコード削減効果が確認された。
    • Phase III試験データやCDISCパイロットデータを用いた検証で,高い整合性が確認され,自動化された安全性監視等の応用可能性が示された。

    Link: https://arxiv.org/abs/2605.13905

  • TERMS-Bench: LLM交渉エージェントの評価における合意率を超えた診断 [cs.CY, cs.GT, cs.AI]目的:LLM交渉エージェントの経済的推論能力の診断
    • 交渉は経済活動の根幹であり,市場や資源配分を形成する上で不可欠である。
    • 既存のLLM交渉評価は,合意率などの集計結果に依存し,失敗の原因が不明確である。
    • 隠れた情報下での戦略的コミュニケーション能力を詳細に分析し,改善点を見出す。
    • TERMS-Benchは,ベイジアンゲームフレームワークを用いて,相手の戦略や報酬構造を明確化することで,環境自体を検証者とする。
    • 13のLLMエージェントを評価した結果,合意率は高いものの,余剰の獲得,手がかりの利用,信念の校正,遵守において差異が見られた。
    • この結果は,既存のベンチマークでは見過ごされていた,エージェント固有の交渉上のボトルネックを明らかにする。

    Link: https://arxiv.org/abs/2605.13909

  • CA2:コード認識型自動ゲームテストエージェント [cs.SE, cs.LG]目的:自動ゲームテスト戦略の学習
    • ゲームの品質保証において,機能検証は不可欠であり,その自動化は効率化に繋がる。
    • 従来手法では,網羅的なテストが難しく,エッジケースを見落とす可能性がある。
    • コールスタック情報を活用し,より効果的なテスト戦略を自動的に獲得すること。
    • CA2は,コールスタック情報を活用することで,従来のコード非認識型エージェントと比較して,一貫した性能向上を達成した。
    • 状態ベース及び画像ベースの環境において,効率的なコールスタック抽出を可能にする仕組みを導入した。
    • コールスタックのようなコード信号の組み込みが,より効果的でターゲットを絞ったゲームテストを実現することが示された。

    Link: https://arxiv.org/abs/2605.13918

  • 大規模言語モデルにおける多言語知識編集のための手法統合:実証的探求 [cs.CL, cs.LG]目的:多言語知識編集における手法統合の有効性
    • 言語の壁を超え,知識編集の精度向上は,グローバルな情報アクセスと利用に不可欠である。
    • 多言語環境下では,言語固有の編集が干渉し合い,知識編集の性能を低下させる課題がある。
    • 多言語知識編集における干渉を軽減し,より効果的な手法を確立することを目的とする。
    • ベクトル加算(共有共分散あり)が最も安定した戦略であり,最も高い性能を示した。
    • Task Singular Vectors for Merging (TSVM) は一部の状況で性能を改善するが,多言語干渉の軽減効果には限界がある。
    • 重みスケーリングとランク圧縮比の調整が性能に大きく影響し,デフォルトよりも大きなスケーリングと低いランクが好ましい結果をもたらすことが示された。

    Link: https://arxiv.org/abs/2605.13919

  • UAVIDS-2025データセットにおける信頼性の高い侵入検知のためのXAIと統計分析:木構造からハイブリッド,表形式DNNアンサンブルへ [cs.CR, cs.LG, stat.CO]目的:UAV侵入検知システムにおける侵入検知モデルの構築と解釈
    • UAVの利用拡大に伴い,UAVシステムに対するセキュリティ確保が重要となっている。
    • 複雑な機械学習モデルの判断根拠が不明確であり,誤検知や見逃しが発生する可能性がある。
    • 攻撃の特徴を特定し,誤予測の原因を統計的に明らかにすることで,より堅牢な検知モデルの構築を目指す。
    • 本研究では,様々な機械学習モデル(XGBoost等)を用いてUAV侵入検知を行い,高い性能を達成した。
    • SHAP値を用いた特徴量の重要度分析により,各攻撃が標的とする特徴と,誤分類が発生する箇所を特定した。
    • 統計分析(Westfall-Young検定等)により,Wormhole攻撃やBlackhole攻撃における誤予測の真の原因を解明した。

    Link: https://arxiv.org/abs/2605.13922

  • 意味的潜在表現を用いた可変仕様下での視覚に基づく実行時監視 [cs.LG, cs.CV, cs.RO, cs.SY, eess.SY]目的:部分観測下における視覚情報からの過去時間信号 temporal logic (ptSTL) の検証可能実行時監視
    • 自動運転やロボット工学において,システムの安全性を保証する実行時監視は不可欠である。
    • 従来の監視手法は特定の仕様に依存するため,再学習が頻繁に必要となり,効率が悪い。
    • 再利用可能な監視システムの構築により,様々な仕様に対応し,効率的な安全保証を実現する。
    • 有限の temporal atom の辞書によって誘導される断片に対して,原子のロバストネススコアのベクトルである「意味的基盤」が,単調かつ1-Lipschitz再利用可能なインターフェースの中で最小の予測ターゲットであることが証明された。
    • 解析木から派生した決定論的デコーダにより,あらゆる公式を評価でき,単一の conformal calibration パスで断片全体を検証できる。
    • 歩行者と交差点のベンチマークにおいて,意味的基盤モニターは長期的にはローリング予測モニターよりも最大4倍タイトな保証範囲を提供する。

    Link: https://arxiv.org/abs/2605.13923

  • ゼブラフィッシュ視床上部マイクロ回路の二軸的属性化:省エネルギーでロバストなニューロコンピューティングに向けて [cs.NE]目的:ゼブラフィッシュ視床上部マイクロ回路における,省エネルギー情報処理とロバスト性維持安定化という二つの計算軸の属性化
    • 生物学的ニューラル回路は多様な計算機能を持ち,その構造は神経科学分野において重要な研究対象である。
    • 既存のバイオインスパイア型ニューラルネットワークは,回路レベルの起源を特定せずに生物学的モチーフを借用することが多い。
    • 本研究は,生物学的回路組織とバイオインスパイア型ニューラルアーキテクチャ設計を結びつけるための回路レベルの経路を提示する。
    • ns_TINサブ回路は低いスパイクフットプリントと予測誤差への影響を示し,スパイク効率の良い内部情報ゲートとしての役割が示唆された。
    • superficial_TINサブ回路は最も高いロバスト性感度を示し,システムレベルの安定性を維持するフィードバックのような役割が示唆された。
    • ns_TINに着想を得たモジュールは計算量の削減下での性能維持を向上させ,superficial_TINに着想を得たモジュールは入力ノイズに対するロバスト性を向上させた。

    Link: https://arxiv.org/abs/2605.13924

  • スパースオートエンコーダによる脳波基礎モデルのメカニズム解釈 [cs.LG, cs.HC, cs.NE]目的:脳波基礎モデルの内部計算メカニズムの解明
    • 臨床応用において,AIモデルの予測根拠の透明性が重要視されている。
    • 脳波基礎モデルは高性能だが,その内部動作はブラックボックスであり,臨床現場での信頼を妨げる。
    • 脳波基礎モデルの潜在表現から臨床的に意味のある特徴を抽出し,解釈可能性を向上させる。
    • スパースオートエンコーダを用いて,SleepFM,REVE,LaBraMという異なる脳波Transformerから疎な特徴辞書を抽出した。
    • 特徴を臨床分類に基づき評価することで,各モデルの単一意味性とエンタングルメントを定量化した。
    • 潜在空間での介入実験から,モデルの性能を著しく低下させる「wrecking-ball」効果や,概念間の交絡を明らかにした。

    Link: https://arxiv.org/abs/2605.13930

  • ターゲットを意識したソース選択による分子OOD汎化の再考 [cs.LG]目的:分子OOD汎化性能の評価と改善
    • 創薬におけるAI利用において,未知の分子構造に対する予測精度が重要である。
    • 既存手法では,構造的な類似性による近視的な学習や,異種データ間のノイズ混入が問題となる。
    • 構造的特徴に基づく適切なソースデータ選択と,多段階のドメイン適応により,OOD汎化性能を向上させる。
    • 提案手法SCOPE-BENCHを用いて,最先端の分子モデルにおいてOOD環境下での予測誤差が大幅に増加することが示された。
    • POMAを用いることで,平均絶対誤差が最大11.2%削減され,様々なバックボーンアーキテクチャで平均6.2%の改善が確認された。
    • 知識転送を検索・構成・適応のパイプラインとして定式化することで,OOD汎化性能を高めることができた。

    Link: https://arxiv.org/abs/2605.13932

  • 構造コネクトームにおける獲得の変動の教師なし学習:ハイブリッド潜在空間モデリングによる [cs.LG, cs.AI, stat.ML]目的:構造コネクトームにおける獲得の変動のモデリング
    • 拡散MRI研究における構造コネクトーム解析は,脳機能や疾患理解に不可欠である。
    • 異なる施設やプロトコルによる取得のばらつきが,解析の困難さを増している。
    • 獲得の変動を分離し,より正確な脳構造解析を目指す。
    • 提案手法は,アーキテクチャによるアニーリングにより,獲得に関連するサイトの違いをより強く学習できることが示された。
    • 連続的・離散的な潜在空間を組み合わせることで,スキャナーやプロトコルの違いに沿ったクラスタリングが可能となる。
    • 損失関数によるアニーリングよりも,アーキテクチャによるアニーリングが有効であることが示された。

    Link: https://arxiv.org/abs/2605.13933

  • 拡散言語モデルに対する軌道バランス事後学習:モード探索を超えて [cs.LG, cs.CL]目的:拡散言語モデルにおける報酬駆動型更新による軌道ロック現象の緩和
    • 拡散言語モデルは自己回帰モデルの有望な代替手段であり,自然言語処理の進歩に不可欠である。
    • 従来の事後学習法は報酬最大化に偏り,多様な解を探索できていないという課題があった。
    • 軌道バランス事後学習により,より多様な解空間を探索し,モデルの汎化性能を向上させる。
    • 提案手法TraFLは,様々なベンチマークにおいてベースモデルを上回る性能を示し,サンプル予算が増加しても改善が持続する。
    • TraFLは,Minerva MathやLiveCodeBenchといった未学習データに対しても優れた結果を維持し,他の事後学習法を凌駕する。
    • 拡散言語モデルの事後学習において,報酬だけでなく軌道の多様性に着目することが重要であることが示された。

    Link: https://arxiv.org/abs/2605.13935

  • LLMの次なるフロンティアへ:プライベートデータを用いた連合型ファインチューニングのクロスコマインベンチマーク [cs.LG, cs.AI, cs.DC]目的:プライベートデータを用いた連合型ファインチューニングによるLLMの適応
    • LLMの性能向上には,大規模なデータセットが不可欠であり,特に専門性の高い分野ではプライベートデータの活用が重要となる。
    • プライベートデータは,プライバシー,規制,組織的な障壁により共有が難しく,データ分散と非IID性が課題となる。
    • データ共有の制約下でもLLMを適応させるため,分散環境下での連合学習によるファインチューニングを可能にすること。
    • 提案手法は,中央集権的な学習に匹敵する性能を示し,単一機関での学習よりも優れていることが示された。
    • QLoRAやIA3などのパラメータ効率的なファインチューニング戦略は,精度の低下を抑えつつ効率を改善し,連合型PEFTの有効性を示した。
    • Sherpa.aiの連合学習プラットフォームを活用することで,プライベートデータの保護とLLMの適応を両立できることが実証された。

    Link: https://arxiv.org/abs/2605.13936

  • AgentTrap:第三者エージェントスキルにおける実行時トラスト障害の測定 [cs.CR, cs.AI]目的:LLMエージェントが第三者スキルを使用する際の悪意のある実行時挙動への耐性を評価するための動的ベンチマーク
    • LLMエージェントの能力拡張に第三者スキルが利用され,その普及が著しい。
    • 悪意のあるスキルが,危険な動作を通常のワークフローに偽装し実行されるリスクがある。
    • 第三者スキル利用時のセキュリティ脆弱性を明らかにし,より安全なエージェント開発を促す。
    • AgentTrapは,16のセキュリティ影響次元を網羅する141のタスク(91の悪意のあるタスクと50の有用なタスク)で構成されている。
    • 単純な脱獄よりも,モデルが危険な副作用を通常のワークフローの一部として処理するケースが,より多くの情報を提供することが示された。
    • モデル,フレームワーク,ワークスペース環境における実行時の評価が重要であることが示唆された。

    Link: https://arxiv.org/abs/2605.13940

  • EvolveMem:LLMエージェントのための自動研究による自己進化型メモリアーキテクチャ [cs.LG, cs.AI]目的:LLMエージェントの長期記憶システムの自己進化
    • LLMエージェントの複数セッションにわたる運用には,長期記憶が不可欠である。
    • 既存のメモリシステムでは,検索インフラが固定されており,適応性に課題がある。
    • 格納された知識と検索メカニズムの両方を自己進化させることで,適応性を向上させる。
    • EvolveMemは,LLMを活用した診断モジュールによって最適化される,自己進化型メモリアーキテクチャである。
    • LoCoMoベンチマークにおいて,最良のベースラインを25.7%相対的に上回り,最小ベースラインを78.0%相対的に改善した。
    • MemBenchベンチマークにおいても,最良のベースラインを18.9%相対的に上回り,汎用的な検索原理を学習した。

    Link: https://arxiv.org/abs/2605.13941

  • EMA:学習ベースシステムのための効率的なモデル適応 [cs.LG, cs.DC, cs.NI]目的:学習ベースシステムの環境変化への適応
    • システム最適化に機械学習の応用が広がり,特に動的な環境下での性能維持が重要である。
    • 既存システムは適応性に乏しく,再学習コストや性能劣化が課題となっている。
    • EMAは,少ない運用コストで環境変化に適応し,性能を向上させることを目指す。
    • EMAは,新たな環境の状態を過去の類似状態に変換する状態変換器を導入し,高コストなモデル再学習を削減する。
    • 有用なデータのラベリングを優先することで,学習とラベリングコストのバランスを取り,データラベリングのコストを削減する。
    • 8つの代表的な学習ベースシステムでの評価により,EMAが適応コストを14.9-42.4%削減し,システム性能を6.9-31.3%向上させることが示された。

    Link: https://arxiv.org/abs/2605.13942

  • 重み付きコントラスト学習のための統一幾何学的フレームワーク [cs.LG]目的:コントラスト学習における表現の幾何学的構造の解明
    • データ表現学習は,機械学習の性能向上に不可欠であり,特に教師なし学習における重要な手法である。
    • 既存の研究では,コントラスト学習で得られる埋め込み表現の幾何学的構造が十分に理解されていない。
    • 重み付きInfoNCE目的関数を距離幾何学の問題として捉え,最適な埋め込み表現を理論的に導き出す。
    • 重み付きInfoNCEは距離幾何学の問題として解釈でき,重み付け方式が表現の幾何学的構造を決定する。
    • 教師あり分類において,SupConとSoft SupConはクラス内をプロトタイプに集約するが,クラスの不均衡によりSupConは幾何学的対称性を損なう。
    • 連続ラベル設定では,y-Aware CLがエントロピー最適解に到達できない場合があり,ユークリッド空間でのラベル重みと球面的な潜在的類似性の不一致が示唆される。

    Link: https://arxiv.org/abs/2605.13943

  • Collider-Bench:粒子物理解析の再現によるAIエージェントのベンチマーク [cs.LG, cs.AI, hep-ex, hep-ph]目的:AIエージェントによる大型ハドロン衝突型加速器(LHC)実験解析の再現能力の評価
    • 科学研究の自動化は,新たな発見を加速させ,効率的な研究を可能にする上で重要である。
    • LHC実験解析の再現は,公開されている情報だけでは困難であり,実装の詳細の欠落が課題となっている。
    • 公開論文とオープンソースソフトウェアのみを用いて,LHC実験解析をAIエージェントが再現できるか検証する。
    • 本研究で開発したCollider-Benchは,AIエージェントの長期的タスク実行能力を評価するための新たなベンチマークである。
    • 現在のAIエージェントは,専門家によるループ内解決策を安定して上回る性能を示せていない。
    • Collider-Benchは,物理的推論,ドメイン知識,試行錯誤といった能力をAIエージェントに要求し,その性能を定量的に評価する。

    Link: https://arxiv.org/abs/2605.13950

  • WarmPrior: 時間的事前分布を用いたフローマッチングポリシーの改善 [cs.LG, cs.AI, cs.RO]目的:ロボット制御における生成ポリシーの性能向上
    • ロボットの自律的な動作を実現するには,視覚と運動を統合した高度な制御技術が不可欠である。
    • 拡散モデルやフローマッチングに基づく生成ポリシーは強力だが,初期分布の設計が課題であった。
    • 行動履歴に基づく時間的事前分布WarmPriorを導入し,ロボット制御の成功率向上を目指す。
    • WarmPriorは,標準的なガウス分布の代わりに,過去の行動履歴から構築された時間的事前分布を用いることで,ロボット操作タスクの成功率を改善する。
    • WarmPriorは,確率経路をより直線的にし,Rectified Flowにおける最適輸送結合の効果を再現する。
    • WarmPriorは,事前空間における強化学習における探索分布を再構築し,サンプル効率と最終的な性能を向上させる。

    Link: https://arxiv.org/abs/2605.13959

  • 少数のチャネルが全体像を描く:拡散Transformerにおける大規模活性化の解明 [cs.CV, cs.AI, cs.MM]目的:拡散Transformerにおける大規模活性化の機能と構造
    • 画像生成AIの性能向上に伴い,その内部メカニズムの理解が不可欠となっている。
    • 拡散Transformerは強力だが,プロンプトがどのように画像セマンティクスを形成するのか不明確である。
    • 大規模活性化に着目し,セマンティック情報を効率的に伝達・制御する仕組みを解明する。
    • 大規模活性化は,わずかな数のチャネルでありながら,画像生成において重要な役割を果たしていることが示された。
    • 大規模活性化は空間的に組織化されており,画像内の主要な被写体や注目領域と対応する構造化された空間コードを隠している。
    • 大規模活性化を別のプロンプトに転送することで,最終画像はソースプロンプトにシフトしつつ,ターゲットのコンテンツを維持したセマンティック補間が可能となる。

    Link: https://arxiv.org/abs/2605.13974

  • リソース効率の良いLLMへ: 蒸留パイプラインの包括的なエネルギー会計 [cs.LG, cs.AI]目的:蒸留パイプラインの完全なエネルギーコストの定量化
    • 大規模言語モデルの普及はGPU需要とデータセンターの規模拡大を招き,電力消費への懸念が高まっている。
    • 蒸留は効率化策として期待されるが,データ生成や評価といった教師側のコストが考慮されていない。
    • 蒸留手法のエネルギー効率を包括的に評価し,最適な設計指針を導き出す。
    • 詳細なエネルギー会計フレームワークにより,蒸留パイプラインの各段階におけるGPU消費電力を測定した。
    • ロジットベースの知識蒸留と合成データを用いた教師ありファインチューニングのエネルギー・品質パレートフロントを構築した。
    • エネルギーと予算の制約下で最適な蒸留手法とハイパーパラメータを選択するための設計ルールを提案した。

    Link: https://arxiv.org/abs/2605.13981

  • TabPFN-3:技術報告 [cs.LG, stat.ML]目的:表形式データの予測性能向上と計算効率化
    • 科学技術や産業における予測問題の多くは表形式データに基づき,その重要性は高い。
    • 既存モデルは,大規模データセットにおける学習・推論に時間がかかり,性能向上の余地があった。
    • TabPFN-3は,より大規模なデータセットでの高性能化と高速化を目指す。
    • TabPFN-3は,TabArenaベンチマークにおいて,既存のモデルを大幅に上回る性能を示した。
    • 多様なデータセットにおいても,多クラス問題や大規模データセットにおいて優れた結果を達成した。
    • テスト時の計算量スケーリングを導入し,TabPFN-3-Plusは,他のモデルと比較して高い性能を発揮した。

    Link: https://arxiv.org/abs/2605.13986

  • NVセンター逆感度問題に対するニューラル場 [cs.LG, quant-ph]目的:NVセンターを用いた磁気ノイズの逆感度問題における,高精度なスパース再構成手法
    • 科学計測における逆問題は,物質や現象の理解に不可欠であり,様々な分野で利用されている。
    • 非線形性やスペクトル結合を持つ物理モデルに基づく逆問題では,従来の正則化や教師あり学習が機能しない場合がある。
    • NVセンターの特性を考慮したニューラルネットワークを開発し,逆感度問題における中心崩壊現象を抑制すること。
    • 提案手法NeTMYは,修正された演算子で生成されたスパース合成再構成において,最も優れた局所化と分布指標を達成した。
    • NeTMYは,密度空間の勾配を直接実行せず,パラメータ化によって更新を平滑化・再分配し,中心崩壊を緩和する。
    • NV量子センシングは,物理現象を忠実に反映したニューラル逆問題のテストベッドとして有用であることが示された。

    Link: https://arxiv.org/abs/2605.13988

  • CineMesh4D:疎なシネMRIからの個別化4D全心臓再構築 [cs.CL, cs.CV, cs.AI]目的:疎なシネMRIからの個別化4D全心臓メッシュ再構築
    • 心臓疾患の診断・治療において,心臓の形状と動きの正確な把握は不可欠である。
    • 従来の再構築手法では,心臓の一部分しか再構築できない,あるいは単一の心周期に限定される場合がある。
    • 本研究は,複数視点からのシネMRIから,全心臓の3次元形状と時間変化を同時に正確に再構築することを目的とする。
    • 提案手法CineMesh4Dは,微分可能なレンダリング損失と二重コンテキスト時間ブロックを導入することで,既存手法よりも再構築品質と動きの一貫性を向上させた。
    • CineMesh4Dは,患者特有の全心臓メッシュを直接再構築するエンドツーエンドの4Dパイプラインであり,個別化されたリアルタイム心臓評価への道を開く。
    • コードは,論文採択後に公開予定である。

    Link: https://arxiv.org/abs/2605.13994

  • HodgeCover:高次のトポロジカルカバレッジが疎な混合エキスパートの圧縮を促進する [cs.RO, cs.LG, cs.AI, cs.CL]目的:疎な混合エキスパート層の圧縮手法
    • 大規模言語モデルの効率化は,計算コスト削減と実用化に不可欠である。
    • 既存の圧縮手法では,エキスパート間の複雑な関係性を捉えきれない場合がある。
    • エキスパート間の三者関係に着目し,より効果的な圧縮を実現することを目指す。
    • HodgeCoverは,トポロジカルな構造を利用して,圧縮可能なエキスパートを特定する。
    • 既存の圧縮手法と同等以上の性能を,特に大規模なエキスパート削減において実現した。
    • HodgeCoverは,エキスパート構造の調和解析を通じて,より効果的な圧縮を可能にする。

    Link: https://arxiv.org/abs/2605.13997

  • 離散拡散における支持の優先性 [cs.LG]目的:離散拡散モデルにおける学習の構造化
    • 言語モデリングにおいて,離散拡散モデルの競争力が高まっているため,その学習メカニズムの解明が重要である。
    • 離散拡散モデルの学習目標はデータ分布全体を対象とするが,その学習過程における情報の階層構造は不明であった。
    • 本研究は,離散拡散モデルがデータ分布の支持(validity)を周波数(frequency)よりも先に学習することを示す。
    • 離散拡散モデルにおける逆拡散過程において,粗い支持情報と細かい周波数情報の間に階層構造が存在することが示された。
    • 特に,最終的なノイズ除去ステップにおいて,単一トークンの編集は,支持への移動と周波数に関する係数に分解されることが証明された。
    • 実験により,支持の局在化が周波数ランキングよりも早く出現し,拡散の種類による速度差が予測と一致することが確認された。

    Link: https://arxiv.org/abs/2605.13999

  • PolitNuggets:長尾の政治的事実の能動的発見のベンチマーク [cs.AI]目的:長尾の政治的事実の発見と合成
    • 政治に関する情報収集は,社会の透明性と意思決定に不可欠である。
    • 分散した情報源から長尾の事実を発見・合成する能力は未評価のままだった。
    • 分散情報源からの政治的事実の発見・合成能力の評価を目指す。
    • PolitNuggetsは,400人の世界の著名人に関する政治的伝記の構築を通じて,能動的な情報合成のための多言語ベンチマークである。
    • 現在のシステムは,詳細な情報や効率性において課題を抱えていることが示された。
    • エージェントの性能と基盤モデルの能力の関係性が明らかになり,短文抽出,多言語対応,ツール利用の重要性が示唆された。

    Link: https://arxiv.org/abs/2605.14002

  • 自己回帰型系列モデルによる条件付き属性推定 [cs.AI]目的:系列レベルの特性の推定と制御
    • 生成モデルの応用範囲拡大のため,生成される系列の属性制御が重要である。
    • 次トークン予測は局所的なパターンに過学習し,大域的な構造の学習が不十分になりやすい。
    • 生成系列の属性を効率的に推定・制御し,より自然な系列生成を目指す。
    • 提案手法は,単一のフォワードパスでトークンごとの貢献度評価,反実仮想分析,制御可能な生成を可能にする。
    • 疎な報酬タスクにおいて最先端の性能を達成し,十分なモデルサイズでは次トークン予測の精度も向上する。
    • 属性確率の推定速度はサンプリングよりも桁違いに速く,様々な言語タスクにおいて生成を誘導できる。

    Link: https://arxiv.org/abs/2605.14004

  • ヤドリギ:推測デコーディングに対するステルス的な加速崩壊攻撃 [cs.CL, cs.LG]目的:推測デコーディングにおける加速崩壊攻撃のメカニズム
    • 大規模言語モデルの推論速度向上は重要であり,推測デコーディングはその有力な手法の一つである。
    • 推測デコーディングは,推測モデルとターゲットモデルの不一致により脆弱性を持つ可能性がある。
    • 推測デコーディングの受容メカニズムを標的とし,速度低下とスループット低下を引き起こす攻撃を解決する。
    • Mistletoeは,推測モデルとターゲットモデルの合意を低下させ,受容率を顕著に減少させる。
    • 出力品質やperplexityを維持しつつ,推測デコーディングの加速効果を崩壊させる。
    • 推測デコーディングが既存の出力堅牢性とは異なるメカニズムレベルの攻撃対象となることを示す。

    Link: https://arxiv.org/abs/2605.14005