arXiv雑要約

AI - 2026/05/29 公開

  • TransformerベースEEG基盤モデルにおける位置符号化戦略のベンチマーク [cs.CL, cs.PF, cs.AI]目的:TransformerベースEEG基盤モデルにおける位置符号化戦略の性能評価
    • 脳活動計測技術である脳波(EEG)は,脳コンピュータインタフェース(BCI)応用の基盤技術として重要である。
    • 従来の脳波解析モデルは,タスク,被験者,データセット間の汎化性能が低いという課題があった。
    • Transformerの配置不変性を克服するため,脳波データの空間配置を考慮した位置符号化戦略の最適解を探る。
    • タスクによって最適な位置符号化戦略が異なり,普遍的な解は存在しないことが示された。
    • 球状位置符号化(SPE)は運動想像において高い表現能力を示す一方,感情認識ではパフォーマンスが低下した。
    • 非対称条件位置符号化(ACPE)は,タスク間でより一貫したパフォーマンスを示した。

    Link: https://arxiv.org/abs/2605.29754

  • LFQ:低ビット量子化LLMの生成品質向上のためのロジット認識最終ブロック量子化 [cs.IR, cs.AI]目的:低ビット量子化LLMの生成品質向上
    • 大規模言語モデルの利用拡大に伴い,メモリ効率が重要となっている。
    • ブロック単位の量子化では,推論や理解タスクは良好だが,生成タスクの品質が低下する。
    • 最終ブロックのロジットを整列させることで,生成タスクの精度低下を改善する。
    • 提案手法LFQは,ブロック単位の量子化にロジット認識の最終ブロック量子化を追加する。
    • LFQは,多様なモデルファミリーにおいて,複雑な生成タスクの精度を向上させる。
    • 言語モデリングや理解タスクでは,FPベースラインと同等の性能を維持する。

    Link: https://arxiv.org/abs/2605.29756

  • MMTM:類似度ゲート融合による長編動画のトリモーダルTopicモデリング [cs.LG]目的:長編動画におけるTopicの発見
    • 動画コンテンツのTopic分析は,情報検索やコンテンツ理解に不可欠である。
    • 既存手法では,動画の多様なモダリティ(音声,映像)を効果的に統合できていない。
    • 異なるモダリティを統合し,よりコヒーレントで安定したTopicを抽出すること。
    • 提案手法MMTMは,音声認識,オーディオ埋め込み,視覚埋め込みを類似度ゲート融合により統合することで,Topicの質を大幅に向上させた。
    • 評価実験では,ノイズ量,遷移率が改善し,正規化エントロピーが増加することで,Topicの一貫性と時間的な安定性が確認された。
    • クラスタの妥当性指標(Calinski-Harabasz)が5~12倍向上し,語彙コヒーレンス(NPMI)も改善した(ただし,コーパス依存性がある)。

    Link: https://arxiv.org/abs/2605.29765

  • XXLTrafficからEvoXXLTrafficへ:センサー進化型ネットワークへの交通予測のスケーリング [cs.RO, cs.AI]目的:センサー進化型ネットワークにおける交通予測のスケーリング
    • 交通予測は,都市計画や交通管理において不可欠であり,社会経済活動の効率化に貢献する。
    • 既存の交通予測データセットはセンサー数が固定されており,現実の道路センサーネットワークの変化に対応できない。
    • 本研究は,センサーが経年的に変化する環境下での長期的な交通予測を可能にすることを目指す。
    • 本研究で新たに構築したEvoXXLTrafficデータセットは,現実世界の道路ネットワークの変化をより適切に反映している。
    • 最先端の交通予測モデルの多くが,EvoXXLTrafficデータセット上で既存の性能を維持できないことが示された。
    • このデータセットは,進化する道路ネットワークにおけるより現実的な交通予測評価を可能にする。

    Link: https://arxiv.org/abs/2605.29768

  • セマンティックセグメンテーションにおける単一パスの分布外検出のためのエネルギー認識型NECO [cs.SI, cs.RO, cs.NI, cs.CV, cs.AI, cs.RO]目的:セマンティックセグメンテーションにおける分布外検出手法
    • モバイルロボットの信頼性向上には,正確なセグメンテーションと不確実性推定が不可欠である。
    • 従来の不確実性推定手法は計算コストが高く,エッジデバイスへの実装が困難である。
    • 単一パスで効率的に分布外検出を行い,エッジデバイスでの利用を可能にすること。
    • 提案手法であるEnergy-Aware NECOは,miniMUADデータセットにおいてAUROC 0.8539を達成し,既存手法を上回った。
    • デコーダー特徴量とlogitに基づいたEnergyスコアを組み合わせることで,分布外検出の性能が向上した。
    • 単一パス設計により,効率性を維持しながら高い検出精度を実現した。

    Link: https://arxiv.org/abs/2605.29773

  • HistaとNumca:LLM強化学習における状態価値の効率的な推定 [cs.LG, cs.AI, cs.CL]目的:LLM強化学習のための状態価値推定手法
    • LLMの性能向上には,報酬信号による行動最適化が重要であり,安定した学習には正確な状態価値推定が不可欠である。
    • LLMのポストトレーニングにおける状態価値推定は,古典的な強化学習と比較して未解明な課題が多い。
    • 既存の強化学習フレームワークにおける状態価値推定の精度向上と,それによる学習性能の改善を目指す。
    • 提案手法SVEBにより,既存の強化学習フレームワークにおける状態価値推定の課題が明らかになった。標準的なアプローチでは,批評家が粗いグループ平均ベースラインに崩壊することが示された。
    • Numcaは数値的な区間を,HistaはLLMの隠れ状態を用いて状態価値推定を行う。両手法とも計算コストを大幅に増加させることなく,より正確な状態価値推定を実現した。
    • 様々な強化学習アルゴリズムとモデルサイズで実験を行った結果,両手法は学習性能を向上させることが確認された。

    Link: https://arxiv.org/abs/2605.29782

  • クロワッサンタスク:再現可能な機械学習評価のためのメタデータ形式 [cs.AI]目的:機械学習評価の再現性確保のためのメタデータ形式
    • 機械学習の発展には,実験結果の信頼性が不可欠であり,再現性がその鍵となる。
    • 現在の機械学習実験は,環境構築の困難さや詳細な実行情報の欠如により,再現が困難な場合が多い。
    • 本研究は,低レベルな実装の詳細を抽象化し,再現性の高い実験環境を自動的に構築することを目指す。
    • クロワッサンタスクは,タスクの問題と解決策を形式的に分離するメタデータ形式である。
    • 既存のベンチマークをこの形式に変換する自動LLMパイプラインが開発された。
    • 自律エージェントがこの仕様を取り込み,機能的で正確な再現パイプラインをゼロから生成可能であることが実証された。

    Link: https://arxiv.org/abs/2605.29786

  • ネストされた因果バンディットのためのPAC-Bayesリスクによる認証済みポリシー最適化 [cs.AI, cs.LG]目的:ネストされた文脈的因果バンディット問題に対するNested Causal Thompson Sampling (NCTS) の提案
    • 戦略的決定は,その後の戦術的選択の文脈に因果的に影響を与える。既存の理論では,この時間スケール間の因果関係を捉えられていない。
    • 時間スケールが異なる意思決定において,長期的な戦略と短期的な戦術の間の相互作用を考慮した理論的枠組みが不足している。
    • 過去のデータのみから,展開ポリシーの信頼性をリスク評価とともに保証する手法の開発。
    • NCTSは,各エピソードごとにメカニズム分解された信念を抽出し,それに基づいて再帰的に行動することで,文脈的因果バンディット問題を解決する。
    • NCTSは,外生的な分布シフトに対して,従来のjoint regressionよりも優れたゼロショット性能を示す。
    • 過去データが蓄積されるにつれて,リスク評価が有意に縮小し,安全な展開が可能となる。

    Link: https://arxiv.org/abs/2605.29788

  • チームとして進化:LLMベースのマルチエージェントシステムの協調的自己進化 [cs.MA, cs.AI]目的:LLMベースマルチエージェントシステムの協調的自己進化フレームワーク
    • 複雑なタスクにおいて,LLMベースのマルチエージェントシステムは有効な手法として注目されている。
    • 実世界のタスクでは,実行中の様々な失敗が発生し,設計段階での解消が困難である。
    • 実行経験に基づいてシステムを改善し,信頼性と拡張性を高めることを目指す。
    • Meta-Teamは,各エージェントの実行コンテキストを保持し,タスク後のコミュニケーションを促進することで,分散した進化の証拠を交換する。
    • マルチスケール自己進化を行うことで,実行経験をエージェントの行動,連携,チーム組織の改善に役立てる。
    • 6つのベンチマークにおいて,Meta-Teamは単一エージェントシステムや既存手法よりも優れた性能を示した。

    Link: https://arxiv.org/abs/2605.29790

  • SkillsInjector:LLMエージェントのための動的なスキル文脈構築 [cs.AI]目的:LLMエージェントにおけるスキル注入の最適化
    • LLMエージェントは複雑なタスク処理能力向上のため,多様なスキルライブラリを活用する重要性が増している。
    • 既存手法では,スキル注入が静的なプロセスであり,スキル選択基準や予算が固定されているため,性能向上の限界がある。
    • タスクに応じて適切なスキルを動的に選択し,提示方法を最適化することで,エージェントの性能を向上させる。
    • SkillsInjectorは,既存の強固なベースラインと比較して,tau2-bench,SkillsBench,ALFWorldでそれぞれ3.9,6.1,7.3パーセントポイントのスコア向上を達成した。
    • スキル選択,適応的予算配分,および集合を意識したレンダリングの各要素が,性能向上に貢献することが,消去実験によって示された。
    • これらの結果は,スキルを拡張したエージェントが,注入された文脈自体を最適化することから恩恵を受けることを示している。

    Link: https://arxiv.org/abs/2605.29794

  • MEMENTO:低データ領域における学習信号としてのWebの活用 [cs.AI]目的:低データ領域におけるタスク特化型専門知識の獲得
    • 実世界タスクではラベル付きデータが不足することが多く,低データ下での学習が重要である。
    • 既存手法はラベルデータに依存しており,人間の専門家のようなWebとのインタラクションを通じた学習ができていない。
    • Webを学習信号として活用し,反復的なWeb探索と経験の蓄積を通じて,データ不足を克服する。
    • MEMENTOは適応探索木を用いてタスクを段階的に質問に分解し,Web探索と中間結果の考察を繰り返す。
    • 対話的記憶機構により,事実と検索戦略を分離し,Webとのインタラクションから再利用可能な知識を獲得する。
    • 販売自動化と法務調査において,ReActと比較してそれぞれ25.6%と36.5%の性能向上が確認された。

    Link: https://arxiv.org/abs/2605.29795

  • SAAS:エージェント検索における過剰検索の軽減のための自己認識型強化学習 [cs.AI, cs.CL, cs.LG]目的:エージェント検索における過剰検索の軽減
    • LLMによる複雑な質問解決が期待される中で,外部検索の効率化が重要である。
    • エージェントが自身の知識限界を認識できず,不必要な検索や過剰な計算コストが発生する。
    • 自己認識型強化学習を用いて検索行動を制御し,過剰検索を抑制することを目的とする。
    • SAASは,検索境界のモデル化,境界を考慮した報酬モジュール,段階的最適化戦略を導入することで,過剰検索を大幅に削減する。
    • 検索境界のモデル化により,検索の必要性を判断し,不必要な検索を抑制する。
    • 段階的最適化戦略により,報酬ハッキングを回避しつつ,推論能力を維持する。

    Link: https://arxiv.org/abs/2605.29796

  • AgentDoG 1.5:AIエージェントの安全性とセキュリティのための軽量かつスケーラブルなアライメントフレームワーク [cs.CL, cs.AI, cs.CL, cs.CR, cs.CV, cs.LG]目的:AIエージェントの安全性とセキュリティを向上させるためのアライメントフレームワーク
    • 現代のAIエージェントは強力だが,新たな安全上のリスクを生み出す可能性があり,対策が急務である。
    • 既存のアライメントフレームワークは,高度なAIモデルの進化と実世界への展開において十分な対応ができていない。
    • AgentDoG 1.5は,現実世界の脅威に対応できる,軽量かつスケーラブルなアライメントフレームワークを提供することを目指す。
    • AgentDoG 1.5は,CodexとOpenClawの実行シナリオから発生する新たなリスクに対応するため,エージェントの安全性分類を更新した。
    • わずか1000サンプルで学習可能な軽量なAgentDoG 1.5モデルを開発し,GPT-5.4などの閉鎖的モデルと同等の性能を達成した。
    • AgentDoG 1.5をオンラインの安全ガードレールとして導入し,リアルタイムでの安全管理を実現し,優れた性能を示した。

    Link: https://arxiv.org/abs/2605.29801

  • 学習可能な温度を持つゲート付きグラフ注意ネットワーク [cs.LG]目的:グラフ注意ネットワークの性能向上
    • グラフ構造データに対する機械学習の重要性が高まっており,その基盤技術の発展が求められている。
    • 既存のグラフ注意ネットワークは,信頼性の低い特徴量の影響を抑制する機構が不十分である。
    • 信頼性の低い特徴量への影響を軽減し,注意係数の分布を最適化することで,よりロバストなグラフ注意ネットワークを構築する。
    • ゲート付きグラフ注意機構は,信頼性の低い特徴量の影響を抑制し,ネットワークのロバスト性を向上させる。
    • 学習可能な温度は,注意係数の分布を動的に調整し,ノード特徴の識別能力を高める。
    • 提案手法は,均質および異種グラフ上の様々なベンチマークにおいて,既存のグラフ注意ネットワークの性能を改善する。

    Link: https://arxiv.org/abs/2605.29803

  • 言語モデルの学習のためのデータフィルタリング手法 [cs.CL, cs.AI, cs.LG]目的:言語モデル学習におけるデータ品質向上
    • 機械学習モデルの性能はデータ品質に大きく依存する。
    • 既存のベンチマークにも誤ったラベルが存在し,ノイズとなる。
    • ラベル誤りの自動検出によるデータフィルタリングの有効性を検証する。
    • Confident LearningとDataset Cartographyの比較分析を行った結果,データセットの特性によって有効性が異なることが示された。
    • 大規模でノイズの少ないデータセットではフィルタリングは効果がない一方,小規模でノイズの多いデータセットではConfident LearningがF1-macroを大幅に改善した。
    • どちらの手法もランダムな削除よりも効果的であり,データフィルタリングの意義が確認された。

    Link: https://arxiv.org/abs/2605.29807

  • Cert-LAS:層適応平滑化によるテキスト画像拡散モデルの所有権検証の確証に向けて [cs.CR, cs.CV, cs.GR, cs.LG, cs.MM]目的:テキスト画像拡散モデルの所有権検証の確証
    • 大規模言語モデルの応用拡大に伴い,知的財産の保護が重要になっている。
    • 既存の水標識手法は検証過程の信頼性が損なわれる可能性がある。
    • 悪意のある除去攻撃に対しても信頼性の高い検証を可能にすること。
    • Cert-LASは,拡散分類器とLFSガイドによる層適応ノイズを用いて水標識を埋め込み,仮説検定により所有権を検証する。
    • 特定の条件下では,悪意のある除去攻撃が存在しても信頼性の高い検証が可能であることが証明された。
    • 実験により,Cert-LASの有効性と適応攻撃への耐性が確認された。

    Link: https://arxiv.org/abs/2605.29809

  • PRAIB:LLM支援レビューの行動に関するピアレビューAIベンチマーク [cs.AI, cs.CL]目的:LLM支援レビューの行動特性の評価
    • 論文投稿数増加に伴い,ピアレビューの効率化が重要課題となっている。
    • LLMレビューが人間のレビューと異なる行動様式を示す可能性が懸念されている。
    • LLMレビューの行動特性を定量的に評価し,改善点を見出すことを目指す。
    • LLM生成レビューは,人間のレビューと比較して,評価のばらつきが少なく,肯定的な傾向が強い。
    • LLMは,引用パターンにおいて人間とは異なる行動を示し,モデル依存性が認められた。
    • LLMは,レビューが長文化・複雑化する傾向がある一方,人間が指摘する具体的な弱点を無視することが多い。

    Link: https://arxiv.org/abs/2605.29815

  • 大規模言語モデルにおける非敵対的ロバスト性の活用 [cs.AI]目的:大規模言語モデルのプロンプト変動に対するロバスト性
    • 自然言語処理の発展に伴い,大規模言語モデルの活用が広がっている。
    • プロンプトのわずかな変更がモデルの性能に大きな影響を与えることが課題。
    • モデル全体の再学習を伴わないロバスト性の獲得を目指す。
    • モデルのロバスト性に影響する,ニューラルネットワークモジュールの出力における系統的なシフトが特定された。
    • ロバスト性は,このシフトを取り除く(デバイアス)という単純なファインチューニングで実現可能であることが示された。
    • デバイアスは,ランダムなプロンプトの変動に対する耐性を高め,効果的なツールとなる可能性が示唆された。

    Link: https://arxiv.org/abs/2605.29816

  • 回帰における補間と集約の相互作用:最適なサンプル複雑性 [eess.SY, cs.SY, cs.LG]目的:回帰における補間と集約の相互関係
    • 機械学習の基礎であり,予測精度向上に不可欠な研究分野である。
    • 集約手法の性能理論的な理解が十分ではなく,最適な集約方法が不明である。
    • 最適な集約手順を特定し,学習可能性の限界を明らかにする。
    • $\gamma$-グラフ次元が,広範な集約手続きの学習可能性を特徴づけることを示した。
    • 3つの補間仮説の中央値を取る単純な集約手続きが最適であり,適切な学習よりも強力である。
    • 有限の補間集約では,性能が著しく低い場合があることが示された。

    Link: https://arxiv.org/abs/2605.29819

  • 仕様からコードの正当性を推論する [cs.SE, cs.AI]目的:LLM生成コードの正当性検証
    • ソフトウェア開発においてLLM利用が進む中,生成コードの品質保証が重要課題となっている。
    • 既存手法はコスト高や動的バグへの脆弱性,順序依存性といった問題を抱えている。
    • 仕様に基づいた入力と出力のペアを用いて,LLMによる推論を具体化し,正当性を評価する。
    • TRAILSは,LiveCodeBenchとCoCoClaNeLデータセットで,Zero-Shot COTと比較してマシュー相関係数を最大39\%向上させた。
    • HoarePromptよりも常に優れた性能を示し,LLMの非決定性に対する安定性も向上した。
    • 競合手法よりも多くのユニークなコードサンプルに対して正しいラベルを付与できることが示された。

    Link: https://arxiv.org/abs/2605.29822

  • 多項式表現による単純性の定量化と最適化 [cs.AI]目的:深層ネットワークにおける単純性の定量化と,それを用いた汎化性能の向上
    • 深層学習モデルの汎化性能は重要であり,そのメカニズム解明が求められている。
    • 汎化性能と関連する「単純性」を定量的に評価する指標が不足している。
    • 多項式表現を用いて単純性を定量化し,汎化性能の改善を目指す。
    • 多項式表現の次数が,タスクやアーキテクチャに依存せず汎化性能を予測できることが示された。
    • 既存の汎化性能指標(シャープネスなど)と比較して,多項式表現に基づく単純性指標が優れていることが確認された。
    • 多項式表現に基づく微分可能な単純性正則化が,画像・テキスト分類,視覚言語モデルのファインチューニング,強化学習において汎化性能を改善した。

    Link: https://arxiv.org/abs/2605.29823

  • マルチモーダル大規模言語モデルにおける局所的かつ分離された知識編集 [cs.CL, cs.AI]目的:マルチモーダル大規模言語モデルの知識編集の局所化と分離
    • 大規模言語モデルの知識は常に変化するため,その更新は重要な課題である。
    • 既存手法では,編集が関連クエリに一般化せず,意図しない情報まで変更される。
    • 因果関係の誤りや特徴量の混同を解消し,正確かつ広範な知識編集を実現する。
    • LDKEは,事実特定のモデル層を局所化し,関連性と非関連性の入力を分離することで,精密かつ汎用的な編集を可能にする。
    • 高速局所化モジュールにより,重要な層の特定と更新を効率的に行う。
    • 分離識別器は入力を適切にルーティングし,関連知識を保持する。

    Link: https://arxiv.org/abs/2605.29826

  • グラフ基盤モデルはいつ転移するか?データ中心理論 [cs.LG]目的:グラフドメイン間の転移の度合いを決定するデータ特性
    • グラフ構造データは様々な分野で重要であり,その応用範囲は広大である。
    • グラフ基盤モデルの転移性能はドメインによって異なり,負の転移が起こりやすい。
    • 固定された表現モデルにおける出力の変化を構造的ミスマッチに着目して説明する。
    • グラフドメイン間の出力シフトは,有限サンプル近似項とドメイン不一致に分解できることが示された。
    • スペクトルPEの安定性が証明され,固有ベクトルベースと部分空間ベースのPEの振る舞いが比較された。
    • 理論的結果は合成グラフと実グラフでの実験によって検証され,データキュレーションの指針となった。

    Link: https://arxiv.org/abs/2605.29828

  • 問題アーキタイプに基づくクラスタリングによる知識蒸留を用いた汎化可能な最適化スキルの学習 [cs.AI, cs.LG]目的:最適化スキルの学習と推論システム
    • 自然言語から最適化問題を自動的に定式化・解決する効率的な手法が求められている。
    • 既存手法は,表面的な記述の違いに敏感で,問題タイプが変化すると対応が難しい。
    • 問題の根本的なアーキタイプに着目し,汎化性能を向上させることを目指す。
    • 提案手法OptSkillsは,多様な問題タイプとシナリオを含むデータセットで,68.27%のマイクロ平均精度を達成した。
    • 特に大規模ベンチマークMIPLIB-NLにおいて,26.91%の精度を達成し,DeepSeek-V3.2-Thinkingを4.53%上回った。
    • Nano-COでのスキル学習後,OOD NLCOベンチマークで72.79%の精度を示した。

    Link: https://arxiv.org/abs/2605.29829

  • OmniMatBench:19の材料科学分野における人間による較正済みのマルチモーダル推論ベンチマーク [cs.AI]目的:材料科学分野におけるマルチモーダル推論の評価基準
    • 材料科学は学際的であり,応用指向であるため,科学的発見を加速する上で重要である。
    • 既存の材料科学ベンチマークは,推論プロセス全体ではなく,特定タスクに偏っている。
    • マルチモーダルLLMの材料科学における推論能力の現状を明らかにし,改善の方向性を示す。
    • OmniMatBenchは,19の材料科学分野にわたる3,171の問題セットを含む。
    • 現在の最先端のMLLMでも,全体スコアは0.372に留まり,大きな課題が残されていることが示された。
    • 分野ごとの性能差,固定的な推論,知識の偏り,高度な知識の応用能力の限界などが明らかになった。

    Link: https://arxiv.org/abs/2605.29833

  • 表形式非定常データストリームにおける新規クラス認識を伴うオープンワールド自動符号化ドリフト検出 [cs.LG]目的:表形式非定常データストリームにおける概念ドリフトの検出と新規クラスの認識
    • 機械学習応用の現代化において,データストリーム処理は不可欠であり,継続的な学習が求められる。
    • 従来のドリフト検出手法は,新規クラスの出現に対応できず,性能劣化を招く場合がある。
    • 既知クラス分布の変化と新規クラスの識別を同時に行う,ロバストな手法の開発。
    • 提案手法は,自己符号化器の再構成誤差に基づいて概念ドリフトを検出し,密度推定により新規クラスを認識する。
    • ミラーリングされた自己符号化器を用いることで,2つのタスクを独立して適応させ,変化する分布に継続的に対応できる。
    • 実験結果は,提案手法が既存のドリフト検出器および新規性分類器と同等以上の性能を示すことを示している。

    Link: https://arxiv.org/abs/2605.29834

  • CB-SLICE:概念に基づく解釈可能なエラースライス発見 [cs.LG, cs.AI, stat.ML]目的:エラーのスライス同定と,その根本原因の解明
    • 深層学習モデルの信頼性向上のため,特定グループにおける系統的な誤りを理解することが重要である。
    • 既存のエラースライス発見法は,モデルの推論過程から乖離した説明を生成し,誤りの根本原因特定が困難である。
    • 概念ボトルネックモデルを活用し,概念予測の失敗に着目することで,より正確なエラー原因を特定する。
    • CB-SLICEは,概念予測の失敗を共有するサンプルをグループ化し,各スライスの誤りの原因となる重要な概念を特定する。
    • 複数のベンチマークにおいて,CB-SLICEは既存手法よりも優れた性能を示し,既知のバイアスをより明確に検出した。
    • CB-SLICEは,モデルエラーに関するより豊かで忠実な説明を提供することに貢献する。

    Link: https://arxiv.org/abs/2605.29836

  • HARP:極端なLLM量子化のためのアダプティブ回転処理器 [eess.SY, cs.SY, math.OC, cs.LG, cs.AI]目的:極端な低ビット量子化における精度向上
    • 大規模言語モデルの展開には,メモリと帯域幅の制約が重要である。
    • 既存の低ビット量子化は,活性化の異常値や異方的な重み曲率に弱く,頑健性が課題である。
    • HARPは,層や分布に適応可能な量子化基底を学習し,この問題を解決する。
    • HARPは,固定されたHadamard変換と比較して,2-4ビット設定においてPerplexityとゼロショット精度を向上させた。
    • HARPは,FP16と比較して,効率的なデプロイメントを維持し,128トークン/秒の速度を実現した。
    • HARPは,層,キャリブレーション分布,量子化器に適用可能な,学習可能な構造化された直交プロセッサである。

    Link: https://arxiv.org/abs/2605.29843

  • BuilDyn:建物熱力学モデリングと制御のための励起駆動型データ生成 [cs.CL, eess.SY, cs.LG, cs.SY]目的:建物熱力学モデリングおよび制御のためのデータ生成手法
    • 建物エネルギー管理の最適化は,エネルギー消費の削減と快適性の向上に不可欠である。
    • 既存のデータセットは励起が不十分で,未知の運転条件下でのロバスト性に欠ける。
    • 制御指向のデータ生成を可能にし,モデルの汎化性能向上を目指す。
    • BuilDynは,BuilDaを基盤とし,カスタマイズ可能な励起戦略を提供するパッケージである。
    • BuilDynを用いて生成されたデータで訓練したMLモデルは,励起されていないデータと比較して性能が向上した。
    • 本研究は,スケーラブルな制御指向モデリングの発展と,転移学習などの将来的な方向性を支援する。

    Link: https://arxiv.org/abs/2605.29849

  • MIRAGE:全脳fMRIエンコーディングのための適応的マルチモーダルゲーティング [cs.LG]目的:全脳fMRI応答予測のためのマルチモーダルエンコーディングモデル
    • 脳機能解明には,自然な刺激に対する脳応答を予測するエンコーディングモデルが重要である。
    • 既存のエンコーディングモデルは,単一のモダリティに依存しており,マルチモーダル情報の統合が課題である。
    • 視覚,聴覚,言語情報を統合し,より高精度で解釈可能な脳エンコーディングモデルを構築すること。
    • MIRAGEは,ネイティブなマルチモーダルバックボーンと適応的特徴ゲーティングにより,最先端の性能を達成した。
    • マルチモーダル特徴は,後処理による単一モダリティ特徴の集約よりも一貫して高い予測精度を示した。
    • 学習された注意重みは,バックボーンにおけるモダリティ固有のゲーティングプロファイルを解釈可能にし,各モダリティは大脳皮質の異なる解剖学的パターンを示した。

    Link: https://arxiv.org/abs/2605.29850

  • 組織学的スコアリングにおけるマルチタスク負の転移を軽減するためのパラメータ効率的な部分空間デカップリングViT [cs.CV, cs.LG, cs.MM]目的:非アルコール性脂肪性肝疾患(NAFLD)の組織学的スコアリングにおけるマルチタスク学習の安定性と汎化性能の向上
    • 組織学的スコアリングはNAFLDの診断に不可欠であり,病理診断の効率化が求められている。
    • マルチタスク学習において,NAFLD活動度スコア(NAS)の指標間の強い相関関係が負の転移を引き起こす。
    • タスク固有の適応モジュールと直交制約を用いて,タスク間の干渉を軽減し,安定した学習を目指す。
    • 提案手法は,個別のシングルタスクモデルと比較して,大幅に計算コストを削減しつつ,マルチタスクの安定性と汎化性能を向上させた。
    • 部分空間デカップリングにより,脂肪変性,気球化,炎症の独立した特徴部分空間を構築し,タスク間の干渉を効果的に低減した。
    • 専門家による注釈が付与されたマウスNAFLD組織学的画像のマルチタスクデータセットを構築し,再現性を支援する。

    Link: https://arxiv.org/abs/2605.29852

  • フィードバックから評価基準:インラインコメントから専門家の基準を学習できるか [cs.LG]目的:インラインコメントから再利用可能な自然言語の評価基準の学習
    • LLMの活用が進む中で,専門家の好みや組織特有の基準など,暗黙的な評価基準の明示が課題となっている
    • 評価基準は多くの場合,文書化されておらず,直接的に引き出すのが困難である
    • 蓄積されたインラインコメントから再利用可能な評価基準を学習し,レビューを支援することを目的とする
    • インラインコメントを蒸留することで,コメント予測,評価基準の理解,自動アーティファクト修正を支援する再利用可能な評価基準が得られた
    • 実際のレビュー設定と制御された設定の両方で,提案手法の有効性が確認された
    • 評価基準と予測コメントの不一致を観測することで,評価基準を反復的に洗練することが可能である

    Link: https://arxiv.org/abs/2605.29857

  • ESPO:早期停止型近接方策最適化 [cs.LG, cs.AI]目的:強化学習における大規模言語モデルの早期失敗に対する効率的な学習手法
    • 言語モデルの能力向上は,様々なタスクの自動化を可能にし,応用範囲が広い。
    • 従来の強化学習では,早期の誤った推論ステップが後の計算資源の無駄を招いていた。
    • ESPOは,失敗を早期に検出し,ロールアウトを中断することで,計算効率を高める。
    • ESPOは,DeepSeek-R1-Distill-Qwen-7Bを用いた数学的推論タスクでPPOを上回る性能を示した。
    • AIME~2024,AMC~2023,MATH-500の各ベンチマークで,ESPOはPPOよりも高い正答率を達成した。
    • ESPOは,ロールアウトに必要なトークン数を20%以上削減し,計算コストの削減にも貢献した。

    Link: https://arxiv.org/abs/2605.29860

  • 検証可能なマルチモーダル深層研究に向けた試み:インターリーブされたレポート生成のためのマルチエージェント連携 [cs.CL, cs.AI]目的:検証可能なマルチモーダル深層研究の実現
    • LLMの発展により,深層探索から深層研究への進化が期待され,複雑な情報統合が重要視されている。
    • マルチモーダルな情報(テキストと画像)を統合した研究において,根拠の検証と整合性の確保が課題である。
    • テキストと画像を効果的に連携させ,事実に基づいた信頼性の高いレポート生成を目指す。
    • 提案手法 \textsc{Ptah} は,計画,調査,執筆の段階を経て,ユーザーの質問からWebレポートを生成する。
    • 画像情報を考慮した計画策定,根拠に基づいた証拠収集,視覚ワーキングメモリによる画像管理を実現した。
    • \textsc{Ptah}Evalにより,画像レベルおよびプレゼンテーションレベルでの評価が可能となり,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.29861

  • STAP:語彙を用いないモバイルアプリ予測のためのシャッフル・トークン化アプリ予測器 [cs.LG]目的:モバイルアプリの次起動予測
    • デバイス資源管理やプロアクティブな支援に不可欠な研究分野である。
    • 固定されたアプリ語彙に依存し,異なるアプリ環境への汎化が難しい。
    • 語彙を用いない予測モデルを構築し,コールドスタート問題を解決する。
    • STAPは,アプリの真のIDをランダムな仮想インデックスに置き換えることで,固定語彙の必要性をなくす。
    • 十分な長さのコンテキストにより,マッピングの匿名性にもかかわらず,予測分布が正しいものに収束することが理論的に示された。
    • 異なる大陸のデータセットで優れたゼロショット予測精度を達成し,コールドスタート性能も良好である。

    Link: https://arxiv.org/abs/2605.29863

  • Moment-KV:モーメンタムに基づくデコード時KVキャッシュ圧縮による長文生成の効率化 [cs.AI]目的:長文生成におけるKVキャッシュ圧縮手法
    • 大規模言語モデルの長文生成において,KVキャッシュはボトルネックとなりやすい。
    • 従来の圧縮手法は,重要な文脈を損なう可能性があり,性能低下を招く。
    • 注意機構の動的特性に着目し,より効率的なデコード時圧縮を実現する。
    • Moment-KVは,注意機構の時間的パターンを捉え,トークンの重要度を連続的に変化させることで,キャッシュ圧縮の精度を向上させる。
    • 長文生成タスクにおいて,生成品質が2.3-3.2%向上し,デコード遅延を維持することを確認した。
    • モーメンタム駆動型時間的注意集約により,重要トークンの早期退去や不要トークンの保持を防ぐ。

    Link: https://arxiv.org/abs/2605.29873

  • 次世代LLMエージェントシステムの協力関係の進化ダイナミクス:クロスプロバイダー実証的拡張 [cs.MA, cs.AI, cs.GT]目的:次世代LLMエージェントにおける協力関係の進化と,プロバイダー間の均衡行動の変化
    • LLMエージェントの自律性と協調性は,複雑なタスクの効率的な遂行に不可欠である。
    • 先行研究では,LLMエージェントに協力的なバイアスが見られるものの,大規模モデルや多様なプロバイダーの影響は不明である。
    • 本研究は,次世代LLMエージェントにおける協力バイアスの有無と,プロバイダーやプロンプトの影響を検証する。
    • ChatGPT-4oとClaude 3.5 Sonnetにおいて一貫した協力バイアスが確認された先行研究を拡張し,Claude Sonnet 4.6,Gemini 2.5 Flash,Gemini 3.1 Pro,GPT-5.4 Miniの4つの最先端モデルを評価した。
    • プロバイダー間で均衡行動に大きな違いが見られ,Gemini 2.5 Flashはバイアス条件下で攻撃的な均衡に達する割合が高く,GPT-5.4 MiniはSelf-Refineプロンプト下で協力的な均衡に達する割合が高かった。
    • Self-Refineプロンプトは全モデルにおいて攻撃的な度合いを高めたが,DefaultやProseプロンプトでは顕著な差は見られなかった。ノイズに対するロバスト性は改善傾向にあるものの,統計的な有意差は認められなかった。

    Link: https://arxiv.org/abs/2605.29874

  • 視覚言語モデルにおけるハルシネーションの軽減:バリア制御適応閉形式操舵による手法 [cs.CV, cs.AI]目的:視覚言語モデルにおけるハルシネーションの軽減
    • 画像とテキストを理解する視覚言語モデルは,多様な応用が期待され,急速に発展している分野である。
    • モデルが入力画像に存在しない物体を幻覚 (ハルシネーション) してしまうことが課題となっている。
    • 視覚情報の基盤を強化し,幻覚を抑制するための効率的な手法を開発する。
    • 本研究では,バリア制御適応閉形式操舵 (BRACS) という学習不要な手法を提案し,モデルの注意機構を監視することで視覚情報の基盤が弱体化した場合にのみ修正を加える。
    • 実験の結果,BRACSは既存手法と比較して幻覚のベンチマークにおいて優れた性能を示し,CHAIR$_s$を9.4ポイント,POPE F1を2.7ポイント低減した。
    • また,BRACSは汎用マルチモーダルベンチマークにおいても同等またはより高い性能を維持し,効率性も高いことが示された。

    Link: https://arxiv.org/abs/2605.29881

  • 幾何学的圧縮とアルゴリズム的圧縮の分離:ケイリー表の補完を通して [cs.LG, cond-mat.dis-nn, math.OC, math.RT, stat.ML]目的:ケイリー表の補完における厳密な復元境界の確立
    • 現代の統計的学習理論は汎化性能を議論する上で重要である。しかし,離散的なルール学習には課題が残る。
    • 深層学習はアルゴリズム的な規則や離散代数構造の正確な外挿に失敗することが多い。
    • 離散的なアルゴリズム的公理を自動的に発見する新たな手法を確立することを目指す。
    • ケイリー表の補完は,行列補完の離散代数的対応物として機能し,アルゴリズム的複雑さの最小化という誘導バイアスを検証する上で有用である。
    • 演算子値テンソル分解とフラットネス事前分布の組み合わせにより,正確な離散結合性が得られることが示されている。
    • 連続的なフラットネス事前分布を一般化することで,より広範な離散アルゴリズム的公理の発見が期待される。

    Link: https://arxiv.org/abs/2605.29885

  • CRITIC-R1:検索拡張生成のための構造化された批判者の学習 [cs.CL, cs.AI]目的:検索拡張生成における批判的評価の構造化と学習
    • 知識集約型質疑応答の性能向上に不可欠であり,外部知識の活用が重要である。
    • 既存手法では,幻覚や微妙な推論ミスが発生し,修正の信頼性が低い。
    • 構造化された批判者を通じて,より正確で信頼性の高い修正を可能とする。
    • CRITIC-R1は,強化学習を用いてRAGの批判を明示的なエラー診断問題として定式化する。
    • エラーの種類を複数の診断次元に分類し,報酬関数によって高精度な診断を促す。
    • 5つのQAベンチマークで,既存のRAGベースラインよりも一貫して回答品質を向上させた。

    Link: https://arxiv.org/abs/2605.29886

  • LaRA:強化学習後学習におけるデータ汚染検出のための層別表現分析 [cs.LG, cs.AI]目的:強化学習後学習された大規模言語モデルにおけるデータ汚染の検出
    • 大規模言語モデルの推論能力向上に強化学習後学習が有効だが,その信頼性確保は重要である。
    • 強化学習後学習におけるデータ汚染の問題は未解明であり,汎化性能と評価の信頼性を損なう可能性がある。
    • 層別表現分析を通じてデータ汚染を検出し,強化学習後学習の信頼性を高めることを目指す。
    • LaRAは,摂動感度,方向性崩壊,局所表現の剛性という3つの補完的な指標を用いて層別表現を分析する。
    • データ汚染は,層を跨いで幾何学的なずれを生じさせ,摂動感度の増幅,方向性崩壊の強化,局所剛性の増大を引き起こす。
    • 提案する汚染検出プロトコルは,既存の出力レベルのベースラインと比較して,汚染検出性能で優れていることが示された。

    Link: https://arxiv.org/abs/2605.29888

  • 内部表現の問題:LLMトリアージ失敗の根本原因 [cs.CL, cs.AI]目的:LLMにおける臨床トリアージの失敗原因の特定
    • 医療現場におけるトリアージの精度向上は,限られた資源を効率的に活用し,患者の適切なケアを実現するために重要である。
    • 既存のLLMは,トリアージにおいて複数選択肢形式で回答する場合,精度が低下するという問題がある。
    • 本研究は,LLMのトリアージ失敗が臨床知識の欠如によるものなのか,出力形式に起因するものなのかを明らかにすることを目的とする。
    • LLMは,同じ臨床情報に対して,自由記述形式と複数選択肢形式で異なる結果を示すが,内部表現(特徴量)は変わらない。
    • 複数選択肢形式での判断時に,医療関連の特徴量が抑制されることが確認された。出力形式が判断に大きく影響している。
    • 複数選択肢形式のペナルティを緩和することで精度が向上し,選択肢の順序の影響がないことも確認された。誤りは,多くの場合,正解に近い選択肢を選んでしまうというものだった。

    Link: https://arxiv.org/abs/2605.29889

  • 冗長か,必要か?エージェント軌跡における冗長ステップ検出のためのベンチマーク [cs.AI]目的:エージェント軌跡における冗長ステップの検出
    • LLMベースのエージェントは複雑なタスクをこなせるが,実行効率の評価が重要である。
    • 既存の評価指標はタスクの成功に偏っており,エージェントの無駄なステップが見過ごされている。
    • エージェント軌跡における冗長ステップを検出し,リソース消費の削減を目指す。
    • RedundancyBenchベンチマークを構築し,多様なタスクでステップの貢献度をアノテーションした。
    • 3つの代表的な手法を評価した結果,最良の手法でも冗長ステップ検出率は24.88%に留まった。
    • この結果は,タスクの複雑さとさらなる研究の必要性を示唆している。

    Link: https://arxiv.org/abs/2605.29893

  • OVA-IB:多種多様なモダリティのアライメントのためのOne vs All情報ボトルネック [cs.CL, cs.LG, cs.IT, math.IT]目的:多種多様なモダリティのアライメント手法
    • マルチモーダル学習は,多様なデータソースの統合を可能にし,AIの性能向上に不可欠である。
    • 既存手法は,ペアワイズな比較に依存し,複数モダリティ間の高次の関係性を捉えきれていない。
    • 情報ボトルネック原理に基づき,各モダリティが他のモダリティとの関係で情報を保持・圧縮する基準を確立する。
    • 提案手法OVA-IBは,One-vs-Allの視点から情報ボトルネックを最適化するフレームワークである。
    • 実験の結果,OVA-IBは分類,回帰,モダリティに依存しない評価,クロスモーダル検索などのベンチマークで優れた性能を示した。
    • これにより,多種多様なモダリティのアライメントにおける新しいアプローチの有効性が実証された。

    Link: https://arxiv.org/abs/2605.29900

  • LLM脆弱性検出の回路レベル分析:ブラックボックスの解明 [cs.CR, cs.LG]目的:LLM脆弱性検出におけるモデルの内部計算メカニズムの解明
    • ソフトウェアセキュリティの重要性が増す中,LLMを用いた脆弱性検出技術への期待が高まっている。
    • LLMがどのように脆弱性を識別しているのか,その内部プロセスはブラックボックスであり,理解が深まっていない。
    • LLMの脆弱性検出における回路レベルでの動作原理を明らかにし,検出システムの改善に貢献すること。
    • LLMは脆弱性シグネチャの直接検出よりも,安全なコーディングパターンを認識する安全検出器に大きく依存していることが判明した。
    • 特定のレイヤーの注意ヘッドやMLPニューロンが,安全パターンや脆弱性関連特徴のエンコードにおいて重要な役割を果たしていることが特定された。
    • レイヤー7のわずか20ニューロンを削除するだけでも,脆弱性検出の精度が50%も低下するなど,特定の要素の因果的役割が確認された。

    Link: https://arxiv.org/abs/2605.29901

  • 計画せよ,ポーズを取るな:テキストに沿ったBFMによる長編複合モーション生成 [cs.LG]目的:テキストに沿った長編複合モーション生成
    • キャラクターアニメーション,バーチャルアバター,ヒューマンロボットインタラクションなど,幅広い応用が期待される分野である。
    • 既存手法は,意味解釈,長期的構造,低レベルな物理的実現を単一のモデルで扱うため,複雑なプロンプトへの対応が課題である。
    • 事前学習済みの行動基礎モデルを活用し,効率的で堅牢なモーション生成を実現し,長文のテキスト記述に対応することを目指す。
    • 本研究では,テキストと行動基礎モデルを連携させるText2BFMを提案し,エンドツーエンドのモーション生成に頼らず,効率的なモーション生成を実現した。
    • Text2BFMは,行動基礎モデルの潜在的ポリシー空間で動作し,テキストに沿った変分行動ボトルネックを用いて,モーション情報を圧縮する。
    • これにより,セマンティックな計画とモーション実行を分離し,長編かつ複雑なテキスト記述に対する高い性能を達成した。

    Link: https://arxiv.org/abs/2605.29906

  • アゴラ:LLMエージェントによるプロダクションレベルのコンセンサスプロトコルの自律的なバグ検出に向けて [cs.SE, cs.AI]目的:プロダクションレベルのコンセンサスプロトコルにおけるバグの自律的な検出
    • 分散システムやブロックチェーンの根幹をなすコンセンサスプロトコルの信頼性は極めて重要である。
    • 実装上のバグはデータ破損や経済的損失を引き起こす可能性があり,検出が困難である。
    • 複雑な状態依存性を持つプロトコルレベルの論理バグを,LLMを活用して効率的に発見すること。
    • アゴラは,仮説駆動型テストとLLM機能を統合したドメイン認識型のマルチエージェントフレームワークである。
    • アゴラは,Raft,EPaxos,HotStuff,BullSharkの4つのコンセンサス実装において,15個の未知のプロトコルレベルの論理バグを発見した。
    • 既存のLLMベースのエージェントでは,これらのプロトコルレベルのバグは検出できなかった。

    Link: https://arxiv.org/abs/2605.29910

  • 宇宙推進フィルム冷却解析における実験的テスト数の削減:ピクセル単位の生成画像補間 [cs.LG, cs.CV]目的:宇宙推進システムのフィルム冷却研究のための,疎な実験測定値からの画像回帰
    • 宇宙推進システムの効率向上は,宇宙開発の根幹であり,その冷却技術は不可欠である。
    • 従来のフィルム冷却解析は,広範囲な実験的テストを必要とし,時間とコストがかかるという課題がある。
    • 実験的テスト数を削減しつつ,高精度なデータを得ることで,冷却システムの最適化を効率化すること。
    • 提案手法は,実際の実験データと合成データを用いて検証され,高い画像類似性(RMSE < 8 %, SSIM > 93 %)を達成した。
    • 測定値を30 %削減しながら,精度の維持が可能であり,実験的テストの必要性を大幅に低減できることが示された。
    • 知識に基づいた拡張により,生成画像の局所適応性が向上し,航空宇宙分野以外への応用も期待できる。

    Link: https://arxiv.org/abs/2605.29911

  • ジェスチャー感知屋内THz ISACシステムによる適応的リソース割り当て [cs.IT, cs.LG, math.IT]目的:屋内THz ISACシステムにおける適応的通信のためのジェスチャー認識
    • 無線通信において,より高精度なセンシングと通信の同時実現が求められている。
    • 従来のシステムでは,通信品質とセンシング精度を同時に最適化することが困難である。
    • ジェスチャー認識に基づく動的なリソース割り当てにより,通信とセンシング性能の向上を目指す。
    • 提案手法は,ジェスチャーの動きに効果的に対応し,従来の最適化手法よりも優れたセンシング精度と通信性能を達成する。
    • 拡張カルマンフィルタを用いてジェスチャー追跡を行い,アクセスポイントが動的にリソース割り当てを調整することで,センシング精度を向上させている。
    • ジェスチャー認識結果に基づき,通信品質要件を更新することで,効率的なリソース割り当てを実現している。

    Link: https://arxiv.org/abs/2605.29913

  • 選択型ハイパーヒューリスティクスは最適な学習期間を自動調整し,擬似ブール問題を最適に解くことができる [cs.NE, cs.AI, cs.DS, math.OC]目的:擬似ブール問題の最適解探索における学習期間の自動調整
    • 組合せ最適化問題の複雑さが増す中,効率的な解法開発が重要となっている。
    • 従来のハイパーヒューリスティクスは逐次的な成功に基づいて行動を変化させ,学習期間の最適化が困難であった。
    • 新たなアルゴリズムパラメータである学習期間を自動的に設定し,ユーザーの負担を軽減すること。
    • 提案手法は,最適近傍サイズを反復のほぼ全てで選択することが示された。
    • その結果,LeadingOnesベンチマークを可能な限り短い時間で最適化できることが確認された。
    • このハイパーヒューリスティクスは,学習期間を自動調整することで,高い性能を発揮する。

    Link: https://arxiv.org/abs/2605.29916