arXiv雑要約

AI - 2026/05/29 公開

ゲームとそのソルバーの幾何学について [cs.AI, cs.MA]目的：ゲームにおける効率的な均衡計算手法の理解
- ゲーム理論は経済学やAIなど幅広い分野に応用され，最適な戦略決定に不可欠である。
- ソルバーとゲームクラスごとに研究が進み，ソルバーの振る舞いに関する包括的な理解が不足している。
- ゲームとソルバーの関係性を明らかにし，均衡計算の幾何学的な構造を解明すること。
- ゲームを低次元のソルバー適合表現に変換する構造認識器を学習し，効果的なプリミティブメカニズムを適用する。
- 特定のソルバーダイナミクスが有効な領域と，複数のプリミティブを組み合わせる必要のある領域を特定した。
- 最適化ダイナミクスが類似したゲームがクラスタリングされ，アルゴリズムの有効性の連続的な領域が明らかになった。
Link: https://arxiv.org/abs/2605.29919
中間点生成モデル [cs.LG]目的：一ステップ生成モデルの学習のための原理的な枠組み
- 生成モデルは，多様なデータ分布を学習し，新たなサンプルを生成する上で不可欠である。
- 既存の一ステップ生成モデルは，学習の安定性や生成品質に課題が残されている場合がある。
- 中間点での対称性を利用し，より安定かつ高品質な生成モデルの学習を目指す。
- 中間点発散という新しい分布間の不一致度を定義し，その理論的な性質を明らかにした。
- 確率的補間を導入することで，中間点発散を一般化し，より柔軟なモデル構築を可能にした。
- 提案手法であるMGMは，既存の一ステップ生成モデルと同等以上の性能を達成した。
Link: https://arxiv.org/abs/2605.29920
薬剤標的相互作用予測のための系列，グラフ，3次元特徴を用いたトリプルモダリティ対照学習フレームワーク [cs.LG]目的：薬剤標的相互作用予測のためのトリプルモダリティ特徴表現の獲得
- 創薬において，薬剤と標的タンパク質の相互作用予測は不可欠なプロセスである。
- 既存手法は，単一のモダリティに依存するか，複数のモダリティを組み合わせても3次元構造の特徴が考慮されない場合がある。
- 本研究は，3次元構造を含むトリプルモダリティ情報を統合し，予測精度向上を目指す。
- 提案手法TriMod-DTIは，既存の最先端手法と比較して，ベンチマークデータセット上で優れた性能を示した。
- 各モダリティの貢献度を検証する消去実験により，提案手法の有効性が確認された。
- ケーススタディは，薬剤標的相互作用予測と創薬への応用可能性を示唆している。
Link: https://arxiv.org/abs/2605.29926
計画の立て方が重要か？ LLMウェブエージェントのための計画表現に関する実証研究 [cs.CL, cs.AI, cs.LG]目的：LLMウェブエージェントにおける計画表現の影響
- LLMの能力向上に伴い，ウェブタスク自動化への期待が高まっている。
- LLMウェブエージェントは，探索不足や制約条件への敏感さといった課題を抱えている。
- 計画表現の改善により，ウェブエージェントの性能向上を目指す。
- 本研究では，WebArenaタスクを難易度別に分類する手法を開発した。
- 難易度が高いタスクにおいて，順次的なサブゴール，ナラティブ，疑似コード，チェックリストの4つの計画表現を比較評価した。
- 計画の作成方法と基盤となるLLMが，ウェブエージェントの堅牢性とタスク成功に大きく影響することが示された。
Link: https://arxiv.org/abs/2605.29927
論理よりラベル？ソース情報が人間の誤謬判断にLLMよりも強く影響するメカニズム [cs.HC, cs.AI]目的：人間の誤謬判断に対するソース情報のバイアス効果
- AI生成コンテンツ増加に伴い，情報源のラベルが判断に影響する可能性が重要視されている。
- 人間の判断は，情報源のラベルによって歪められることが懸念されている。
- 人間の誤謬判断におけるソース情報のバイアスを検証し，人間とAIの協調の可能性を探る。
- 人間の評価は，人間またはAI支援で作成されたとラベルされた誤謬に対してより寛容であり，信頼度も高かった。
- LLMの評価はソースラベルの影響を受けにくく，モデルによって性能に差が見られた。
- 人間とLLMはどちらも，誤謬の有無にかかわらず高い確信度を示した。
Link: https://arxiv.org/abs/2605.29928
自己と他者の理解を目指すAIシステム：人間認知多様性と世界モデル整合のための多段階推論フレームワーク [cs.AI, cs.CY, cs.HC]目的：人間認知の多様性と世界モデル整合に関する多段階推論フレームワーク
- 社会における誤解の根源を解き明かすことは，共生社会の実現に不可欠である。
- 既存の手法では，多様な世界観を考慮した上で，相互理解を深めることが困難である。
- 異質な表現を処理可能とすることで，意味，価値観，予測誤差の違いを可視化し，理解を促す。
- 本研究では，多段階推論メカニズム(MIM)を提案し，異質な世界モデルの生成過程を形式化する。
- 世界モデル整合を，価値観の一致ではなく，異質な表現の相互処理可能性の確保として捉え直す。
- このフレームワークは，哲学的な対立，認知類型，社会の分断，AI整合性といった問題にも応用可能である。
Link: https://arxiv.org/abs/2605.29930
AIが音楽制作ワークフローに与える影響：速度を中心に [cs.AI, eess.AS]目的：音楽制作におけるAIおよび自動化ツール利用の実態と感情
- 音楽制作は創造性と技術の融合であり，多様な表現を可能にする重要な分野である。
- AIツールの普及は効率化をもたらす一方で，クリエイターの主体性や制御性への影響が懸念される。
- AIツール利用における緊張緩和策を，ツール設計の視点から検討すること。
- プロのエンジニア，ミキサー，プロデューサーを対象とした民族誌的調査を実施した。
- 速度と効率性，制御性，創造的自由の維持といった点で，ユーザーと自動化ツール間の緊張が確認された。
- ツール設計を通じて，これらの緊張を緩和することが可能であると考えられる。
Link: https://arxiv.org/abs/2605.29931
治療条件付き拡散モデルによる神経変性疾患進行予測 [cs.LG, cs.CV]目的：神経変性疾患の進行予測に関する研究
- 神経変性疾患の長期計画や個別化治療には，正確な進行予測が不可欠である。
- 既存手法は画像構造を無視した臨床スコアに依存，生成モデルは解像度と詳細なパターン認識で課題がある。
- 高精度な脳状態予測と，臨床的な信頼性の向上を目指す。
- 治療条件付き拡散モデルは，DaTscan画像とレボドパ投与量に基づき，高精度な脳状態を予測する。
- Transformerエンコーダーで薬物動態を表現し，重要領域マスクで生成を最適化する。
- MSE，MAEが改善，SSIMも向上し，解剖学的構造と臨床的忠実度を高めた。
Link: https://arxiv.org/abs/2605.29932
CLUBench：クラスタリングのベンチマーク [cs.LG]目的：多様なクラスタリング手法の包括的な比較と評価
- データ科学においてクラスタリングは重要な課題であり，多様なアルゴリズムが存在する。
- 既存研究では，従来のアルゴリズム，深層学習，ファウンデーションモデルを網羅的に比較する大規模な評価が不足している。
- アルゴリズム選択と実用化の指針を提供するため，包括的なベンチマーク環境を構築し，詳細な分析を行う。
- CLUBenchは，様々なデータタイプと131のデータセットに対し，24のクラスタリングアルゴリズムを178,815回実験的に評価した。
- 深層学習を用いたクラスタリング手法は，KMeansやSpeCluなどの従来のアルゴリズムと比較して，平均的な性能で有意な優位性を示さなかった。
- 画像やテキストのクラスタリングにおいて，事前学習済み埋め込み表現と従来のアルゴリズムを組み合わせることで，効果的かつ効率的なクラスタリングが可能であることが示された。
Link: https://arxiv.org/abs/2605.29933
CityGen：構造誘導による都市スタイル合成を用いたクロスシティ自動運転 [cs.CV, cs.AI]目的：クロスシティ自動運転における汎化性能向上
- 自動運転システムの性能は地理的範囲に依存し，異なる都市への展開が課題である。
- 既存手法はラベル付きデータや都市特有の注釈を必要とし，汎用性に欠ける。
- ラベル効率の良い都市適応による，自動運転の汎化性能の確立を目指す。
- 提案手法CityGenは，HDマップと都市レベルの視覚的プロンプトを用いて，ゼロラベルでの都市適応を可能にする。
- CityTransfer-Benchというクロスシティ汎化を評価するための地理的に分離されたベンチマークを導入した。
- 実験により，CityGenが複数のタスクにおいてクロスシティのロバスト性を一貫して向上させることが示された。
Link: https://arxiv.org/abs/2605.29935
フィッシャー情報保存ガイダンス：安全な拡散制御のための訓練不要な多様体制約 [cs.RO, cs.LG]目的：拡散モデルにおける安全な経路制御手法
- 視覚ナビゲーションにおいて，拡散モデルは経路予測に有効だが，分布外のアクションにより性能が不安定になる。
- 従来のサンプリングやガイダンス手法では，訓練多様体から逸脱すると信頼性や効率が低下する。
- 分布外のアクションに伴う大きなフィッシャー情報のドリフトを回避し，タスク目標を最適化する手法を提案する。
- 訓練を必要としない推論手法であるFisher Preserving Guidanceを提案し，リアルタイムでの利用を可能にした。
- Truncated Fisher Denoising Sensitivityを不確実性の指標として導入し，ロバストな行動のブレンドを実現した。
- Maze2D，PushT等のベンチマークで，既存の拡散ポリシーベースラインに対し，性能改善を確認した。
Link: https://arxiv.org/abs/2605.29937
CRBに基づく屋内ミリ波ISCCシステムのためのフレームワーク設計とリソース割当て [cs.CY, cs.IT, cs.LG, math.IT]目的：屋内ミリ波ISCCシステムにおける人体姿勢予測誤差の最小化
- 屋内における人間中心アプリケーションの実現において，統合センシング・通信・計算（ISCC）が重要な役割を担う。
- ISCCシステムでは，限られたリソース下での高性能なセンシングと計算が課題となる。
- 本研究では，CRBを用いてリソース割当てを最適化し，姿勢予測誤差を低減することを目的とする。
- 提案手法は，CRBに基づいてセンシング電力とモデル深度の関係を定量化し，リソース割当て問題を効率的に解決する。
- シミュレーション結果は，提案手法が既存手法と比較して姿勢予測誤差を大幅に削減することを示しており，その有効性を検証している。
- 本研究は，リソース制約のある屋内人間中心ISCCシステムへの応用可能性を示唆する。
Link: https://arxiv.org/abs/2605.29939
ストリーミング経験からのフィードバックを通じてLLMに合成を学習させる [cs.AI]目的：合成データ生成における経験の累積と転移
- LLMはデータ生成に広く利用され，注釈コストを削減する点で重要である。
- 既存研究では，合成を独立したタスクとして扱い，過去経験の活用が不十分である。
- タスクストリームを通じて，LLMが経験を蓄積し，合成能力を向上させることを目指す。
- 本研究では，StreamSynthという新しい設定を導入し，過去の経験を未来の合成に活用する。
- SynLearnerというフレームワークを提案し，多様な合成パターンを探索し，フィードバックから学習する。
- 複数のベンチマークで，SynLearnerが早期タスクの経験を効果的に活用し，後続タスクの性能を向上させることを示した。
Link: https://arxiv.org/abs/2605.29940
TraceCodec：状態を持つマルチフローネットワークトラフィック追跡のためのコンパイラベースのニューラルコーデック [cs.NI, cs.LG]目的：状態を持つマルチフローのトラフィック追跡に対するニューラルコーデックの設計と実装
- ネットワークのテスト，セキュリティ分析，プロトコル検証において，高忠実度のパケットキャプチャが不可欠である
- 既存のパケット生成器はプロトコル制約されたPCAP合成は可能だが，生パケットフィールドに直接デコードするため，問題が生じる
- 決定論的コンパイラを用いてPCAP生成のボトルネックを解消し，高忠実度のパケット追跡生成を実現することを目指す
- TraceCodecは，パケットをタイミング付きパケットアクションに変換し，フローやトランスポートに関する情報を明示的に表現することで，高い精度を達成した
- CICIDS2017 Mondayのデータセットにおいて，パケット数，プロトコル構成，フローの分布を0.03%以内の誤差で再現することに成功した
- 構造的診断の結果，TraceCodecはTCP状態遷移やマルチフローのインターリーブを保持し，生パケットフィールドベースの手法が断片化する問題を解決した
Link: https://arxiv.org/abs/2605.29941
運動イメージ脳波におけるチャネル選択のためのドメイン情報に基づく多目的フレームワーク [cs.HC, cs.ET, cs.LG]目的：運動イメージ脳波チャネル選択のための多目的最適化フレームワーク
- 脳波を用いた脳コンピュータインタフェースは，麻痺患者のコミュニケーションやリハビリテーションに貢献する重要な技術である。
- 従来の脳波チャネル選択法は，単一の最適化基準に依存し，局所最適解に陥りやすいという課題があった。
- 本研究は，空間的関連性と機能的識別可能性を両立させ，最適なチャネルサブセットを効率的に特定することを目指す。
- 提案手法は，Physionet，OpenBMI，HighGamma，BCIIV-2Aの4つの脳波データセットにおいて，コンパクトかつ関連性の高いチャネルサブセットを特定した。
- 提案フレームワークは，既存の単目的および精度に基づく手法，固定サブセットを用いる手法と比較して，高い分類性能を示した。
- 本研究成果は，ウェアラブルでリアルタイムな脳波インタフェースへの応用を促進し，脳波チャネル選択の効率化に貢献する。
Link: https://arxiv.org/abs/2605.29943
HoliTok：音声生成と理解のための堅牢な二重能力を備えた連続的包括的トークン化 [cs.SD, cs.AI, eess.AS]目的：音声生成と理解のための包括的トークン化空間
- 汎用的な音声モデルの発展には，言語モデルで学習可能で，高品質な音声波形に復号可能なトークン化が不可欠である。
- 既存の音声トークナイザーは，生成と理解の双方を同時に満たせず，複雑なアーキテクチャや学習設計が必要となる。
- HoliTokは，生成と理解を統合的にモデル化するための，信号レベルの忠実度と意味情報を維持し，学習可能性を高めることを目指す。
- HoliTokは48kHzの音声を128次元の潜在表現の25Hzシーケンスに効率的に変換する。
- HoliTokに基づくAR+DiTモデルは，高品質で制御可能な音声合成と音声認識を可能にする。
- 他の表現と比較して，HoliTokは追加の最適化なしで統合的な生成・理解アーキテクチャで堅牢に動作する。
Link: https://arxiv.org/abs/2605.29948
MuPHI：意味に基づいた報酬最適化による暗黙的な多Modal有害性推論の学習 [cs.AI, cs.CL, cs.LG, cs.MM]目的：画像とテキストの組み合わせにおける有害性の発生メカニズムの解明
- 画像とテキストの相互作用から有害性が生じる状況の理解は，安全なAIシステムの構築に不可欠である。
- 既存の視覚言語モデルは表面的な特徴量に基づいており，文脈に依存する暗黙的な有害性を捉えることが難しい。
- 多Modalな手がかりから有害性を検出し，その推論過程を明確にすることを目指す。
- MuPHIデータセットを構築し，有害性が潜む画像とテキストのペアを収集・注釈した。
- MuPHIRMという推論能力を強化する学習フレームワークを提案し，多角的な報酬最適化を実現した。
- MuPHIRMは有害性の検出精度を向上させ，分布外のデータに対しても頑健性を示すことが確認された。
Link: https://arxiv.org/abs/2605.29951
短期間の履歴から長期的な未来へ：地平線認識グラフニューラルネットワークによる長期間予測 [cs.LG]目的：長期間の地球物理システムの予測における精度向上
- 地球物理システムの長期予測は，気候変動や海面上昇の研究において不可欠である。
- 従来の予測手法は，非線形性や計算コスト，誤差の蓄積といった課題を抱えていた。
- 本研究は，これらの課題を克服し，より信頼性の高い長期予測モデルを構築することを目指す。
- 提案手法は，単一の現在の状態から複数の未来の状態への遷移を学習するマルチホライズングラフニューラルネットワークエミュレータである。
- 実験の結果，提案手法は，初期状態からの直接予測や標準的な単一段階自己回帰ロールアウトと比較して，長期間の予測精度と安定性が向上することが示された。
- このエミュレータは，ダウンストリームの気候および海面上昇の研究にとって，より信頼性の高いツールとなる可能性がある。
Link: https://arxiv.org/abs/2605.29952
大規模な数学の形式化 [cs.AI]目的：数学の形式化された教科書ライブラリの構築
- 数学の厳密性を高め，誤りを排除するため，形式化が不可欠である。
- 数学の形式化は手作業では膨大な時間と労力を要する。
- 大規模な数学コンテンツを自動的に形式化する手法を確立すること。
- AutoformBotは，Lean 4で検証可能な数学的定義と証明を生成するために，LLMエージェントを大規模に活用する。
- 解析，代数，位相など26の教科書を対象とし，45,000以上の宣言と50万行のコードを含むAtlasを構築した。
- これにより，大学院レベルの数学の主要な内容を大規模に自動形式化することが経済的・技術的に可能になった。
Link: https://arxiv.org/abs/2605.29955
エージェントメモリの乗っ取り：会話的相互作用を通じたステルス型トロイの木馬攻撃 [cs.IR, cs.CR, cs.AI]目的：LLMエージェントの長期記憶に対する記憶汚染攻撃とその対策
- LLMエージェントの自律的なタスク実行能力向上が求められているが，セキュリティリスクも伴う。
- 既存の記憶汚染攻撃は現実的なメモリパイプラインにおける選択的な抽出・書き換えを考慮していない。
- 会話的相互作用を通じて，エージェントの長期記憶にトリガー可能なバックドアを注入する攻撃手法を提案する。
- MemPoisonは，意味的関係性の橋渡し，エンティティの擬態，共同埋め込み最適化の3つの要素を用いて，選択的なメモリメカニズムを回避する。
- 異なるエージェントドメインおよびメモリメカニズムにおける評価により，MemPoisonは既存のベースラインを上回る攻撃成功率0.95を達成した。
- 機械的分析により，攻撃が埋め込み空間の異方性と注意パターンのシフトを利用していることが示され，選択的メモリシステムの脆弱性が明らかになった。
Link: https://arxiv.org/abs/2605.29960
LLMを活用したHTTPハニポツの包括的評価フレームワーク Honeyval [cs.CR, cs.AI, cs.LG]目的：LLMを活用したHTTPハニポツの評価
- サイバー攻撃の巧妙化に対応するため，ハニポツによる防御技術の重要性が高まっている。
- 既存のハニポツ評価は，規模，再現性，現実的な攻撃の再現性，設定の柔軟性に課題がある。
- LLMハニポツの能力を客観的に評価し，より効果的な防御システムの開発を支援する。
- Honeyvalは，16種類のバックエンドアプリケーションとAIハッキングエージェントを用いてLLMハニポツを評価するフレームワークである。
- 実験の結果，LLMハニポツはルールベースのハニポツよりも攻撃者とのインタラクション時間が長く，最新モデルによる検出も困難であることが示された。
- また，攻撃側の設定変更によるトレードオフも明らかになり，インタラクション時間の増加と検出率上昇のバランスが課題として示唆された。
Link: https://arxiv.org/abs/2605.29963
線形時間 Temporal Answer Set Programmingのためのメタプログラミング [cs.AI]目的：様々な時間論理のセマンティクスを統一的な宣言的枠組みで実現する柔軟なメタプログラミングフレームワーク
- Temporal Answer Set Programmingの発展は，非単調な時間論理の確立に貢献。複雑な問題解決への応用が期待される。
- 最適化されたASPシステムの硬直性により，代替的な論理設計の迅速な探求と実装が困難である。
- 最適化されたASPシステムにおける柔軟性を高め，様々な時間論理を容易に実装できる環境を提供する。
- 提案フレームワークは，clingoの理論文法に型指定とネスト機能を追加することで，時間論理のセマンティクスを運用可能にした。
- 安定モデルに基づく簡略化からネストされた様相性を保護する変換パイプラインを導入し，セマンティックな正当性を保証した。
- TEL，MEL，DELのメタエンコーディングを実装し，フレームワークの拡張性を実証。metaspシステムを公開した。
Link: https://arxiv.org/abs/2605.29965
コンパス：専門家誘導LLMエージェントによるグローバル海洋鉛データ統合の航海 [cs.AI]目的：海洋鉛とその同位体の統合データベースの構築
- 海洋循環や人為的汚染の研究において，海洋鉛とその同位体は重要なトレーサーである。
- 学術論文内に埋もれた過去のデータは，アクセス困難な「データサイロ」となっている。
- LLMを活用し，専門知識を組み込むことで，科学的に妥当なデータ抽出を可能とする。
- 専門家と共同設計したナレッジツリーを用いてLLMエージェント「コンパス」を開発し，複雑なタスクを検証可能なステップに分解した。
- 23万件以上の論文から3,751件の海洋鉛データを抽出し，現時点で最大の統合データベースを構築した。
- 専門家による検証の結果，92%の精度を達成し，東シナ海や南氷洋などのデータ不足地域を補完するデータを提供した。
Link: https://arxiv.org/abs/2605.29966
X線光子相関分光法における構造動力学データのノイズ除去への全畳み込みアプローチ [cs.DC, cs.CL, cs.RO, cs.LG, eess.SP]目的：X線光子相関分光法における二時点強度相関関数のノイズ除去
- 物質の構造とダイナミクス理解には，時間分解的な解析が不可欠である。
- X線光子相関分光法では，信号強度が弱く，ノイズの影響を受けやすいという課題がある。
- 弱い信号下でも高精度なデータ解析を可能とするノイズ除去手法の開発。
- 全畳み込み自己符号化器(FC-DAE)は，任意の入力サイズに対応し，相関構造を維持しつつノイズ除去を行う。
- 実験データを用いて訓練されたFC-DAEは，低信号対雑音比条件下で複雑な動力学的特徴を復元できる。
- FC-DAEは高い計算効率と堅牢なノイズ除去性能を示し，低線量測定条件下のXPCSダイナミクスの解析を可能にする。
Link: https://arxiv.org/abs/2605.29975
EVL-ECG：多角的異質知識蒸留による効率的な心電図解釈 [cs.CV, cs.LG]目的：心電図の効率的な解釈手法
- 心電図は不整脈の診断に不可欠であり，高精度な解釈が求められている。
- 大規模モデルは計算資源を多く必要とし，エッジ環境での利用が困難である。
- 異なる構造を持つモデル間の知識蒸留による軽量化と精度向上を目指す。
- EVL-ECGは，従来の知識蒸留法の課題を克服し，心電図の微細な特徴や全体的な構造を維持する。
- 評価実験の結果，既存手法と比較してAUCが最大2.4%，臨床精度が1.1%向上した。
- 20億パラメータの効率的な心電図基盤モデルを構築し，リソースの限られた臨床環境での利用を可能にした。
Link: https://arxiv.org/abs/2605.29977
大規模言語モデルの推論システムのフィンガープリント推定 [cs.CR, cs.LG]目的：大規模言語モデルの推論システムの構成要素の識別
- LLMの性能向上に伴い，その利用環境のセキュリティ重要性が増している。
- 推論システムの微細な差異が，モデルの出力に影響を与えることが知られている。
- 推論システムの構成要素を特定し，セキュリティリスクを評価することを目的とする。
- 推論エンジン，アテンションバックエンド，ハードウェアプラットフォーム等の構成要素を，プロンプトと応答の挙動から識別できることを示した。
- 構成要素の識別は，モデルの温度パラメータが非ゼロの場合でも高い精度で可能である。
- 推論システムのフィンガープリントを完全に防止することは困難であり，部分的な緩和策を提案した。
Link: https://arxiv.org/abs/2605.29979
遺伝子情報との整合化により，血液学的診断が向上する [cs.CV, cs.AI, cs.LG]目的：血液学的診断タスクにおける患者表現の改善
- 血液がんの診断には，細胞観察と遺伝子検査が不可欠であり，両者の統合が重要である。
- 画像情報と遺伝子情報を効果的に組み合わせる方法論が確立されていない。
- 遺伝子情報を考慮した患者表現を構築し，診断精度向上を目指す。
- 遺伝子情報との整合化により，画像レベルの基礎モデルを上回る診断性能が確認された。
- 疾患や遺伝的変化の検索機能が，オフザシェルフで利用可能となった。
- 患者表現に遺伝子情報を組み込むことで，臨床ワークフローに合致したAI開発への道が開かれた。
Link: https://arxiv.org/abs/2605.29980
帰属の Adversarial Robustness 向上：暗黙的正則化によるアプローチ [cs.LG, cs.CV]目的：帰属の Adversarial Robustness
- 深層学習の信頼性向上には，モデルの解釈可能性が不可欠であり，その鍵となるのが帰属の頑健性である。
- 既存手法は計算コストが高く，実用性に課題がある。
- 標準的な確率的勾配降下法における学習ダイナミクスから自然に帰属の頑健性が得られることを示す。
- 標準的な確率的勾配降下法において，帰属の頑健性が暗黙的に生じることを理論的に示し，実験的に検証した。
- Softmax正規化を用いたAttentionベースの帰属では，頑健性の向上が見られないことを証明し，実験で確認した。
- KernelベースのAttentionに置換することで，Transformerモデルにおける頑健性が回復することを示した。
Link: https://arxiv.org/abs/2605.29983
トークン空間圧縮による制約付きデコーディングの高速化 [cs.AI]目的：制約付きデコーディングにおける遅延時間削減
- LLMの出力構造保証にはCFGが重要だが，計算コストが高い。
- 複雑なCFGではトークン空間の巨大さがボトルネックとなる。
- トークン空間を圧縮し，CFGエンジンのオーバーヘッドを削減する。
- CFGzipにより，最先端の文法エンジンで最大2桁の遅延時間短縮が確認された。
- 制約付き生成全体の速度が最大7.5倍に向上し，大規模なCFGでの利用が可能になった。
- CFGzipはトークン空間を効率的に圧縮し，実用的な速度で制約付きデコーディングを実現する。
Link: https://arxiv.org/abs/2605.29986
MIC：等方性部分空間アライメントによる適応表現の情報の容量最大化 [cs.LG, cs.CL]目的：適応表現における情報容量の最大化
- 表現学習は，多様なタスクにおいて性能向上に不可欠であり，特に高次元データへの対応が重要である。
- マルチスケール表現は次元冗長性やスペクトル崩壊を起こしやすく，表現能力を低下させる可能性がある。
- 冗長性の軽減とスペクトル崩壊の抑制により，高圧縮下でも情報容量を維持する表現学習を実現する。
- MICは，等方性部分空間アライメントを通じて，マルチ粒度埋め込みの幾何学的構造を最適化する。
- Soft Collapse RegularizationとSpectral Isotropy Regularizationを組み合わせることで，冗長性を抑制し，低次元空間での均一性を確保する。
- 実験により，MICは特に高圧縮シナリオにおいて，既存手法を大きく上回る性能を示すことが示された。
Link: https://arxiv.org/abs/2605.29987
Cookie-Bench：Web生成のための継続的な画面上キー操作評価 [cs.AI]目的：Web生成におけるインタラクティブなアプリケーションの評価手法
- LLMの進化に伴い，Webフロントエンドが重要な製品表面となっている。
- 人間の評価はコストがかかるため，開発速度に追いつけない現状がある。
- 人間の評価に近い，自動化されたWebアプリケーションの評価を実現する。
- Cookie-Benchは，11のドメインと54のタスクを含むWeb開発ベンチマークである。
- フレームワークは，静的知覚，エージェント駆動型インタラクション，動的スコアリングの3段階で評価を行う。
- フレームワークは，専門家の評価と高い一致性を示し，13のLLMにおいて改善の余地を明らかにした。
Link: https://arxiv.org/abs/2605.30000
カイロスエージェント：意味的推論を融合したエージェント型時系列予測 [cs.AI]目的：クロスドメインマルチモーダル時系列予測における精度向上
- 時系列データは，金融，気象，交通など多様な分野で重要な役割を担う
- 既存手法は，数値理解と意味理解のバランス，およびマルチモーダルデータの統合に課題がある
- LLMとTSFMの強みを活かし，数値理解と意味的推論を統合した予測モデルを開発すること
- カイロスエージェントは，LLMとTSFMを組み合わせたエージェント型フレームワークである。
- LLMが分析ツールを動的に利用することで，数値理解と意味的推論能力を向上させている。
- 実験により，ゼロショット予測性能が向上し，事前学習済みLLMとTSFMの有効性が最大化された。
Link: https://arxiv.org/abs/2605.30002
協調的パイプラインの発見：逐次型社会ジレンマに対する自己研究 [cs.MA, cs.AI, cs.LG]目的：多人数参加型逐次型社会ジレンマにおけるLLMポリシー合成システムの内部パイプラインを自律的に再設計する二段階の自己研究
- 社会ジレンマは，協力が困難な状況をモデル化し，人間の社会行動やAIの協調的戦略を理解する上で重要である。
- 従来のLLMを用いたポリシー合成システムでは，最適な性能を引き出すためのパイプライン設計が手動で行われており，限界がある。
- 本研究は，AIエージェントによる自律的なパイプライン再設計を通して，社会ジレンマにおける協調的戦略の性能向上を目指す。
- 研究者エージェントは，CleanupとGatheringの2つのゲームにおいて，手動で設計されたベースラインを安定的に上回り，実行間のばらつきを大幅に抑制した。
- パイプラインは目的関数に依存し，Rawlsian maximin の下でのみ，合成パイプラインに明示的な公平性メカニズムが組み込まれた。
- この結果は，研究者エージェントが，合成システムの合理的限界を考慮し，目的関数に応じて情報を選択的に開示している可能性を示唆する。
Link: https://arxiv.org/abs/2605.30003
VisualThink-VLA：効果的かつ低遅延なビジョン-言語-行動ポリシーのための視覚的中間推論 [cs.CV, cs.AI]目的：視覚的証拠インターフェースを通じた行動予測のブートストラップ
- ロボットの自律制御において，環境を理解し，適切な行動を決定する能力は重要である。
- 既存のテキストベースの中間推論は，不要な情報や遅延の問題を抱えている。
- 視覚的証拠に基づく効率的な中間推論により，行動予測の精度と速度を向上させる。
- VISUALTHINK-VLAは，複数のベンチマークおよび実ロボット評価において，高い成功率を達成した。
- 推論に要する時間を，既存手法と比較して大幅に短縮し，リアルタイム制御を可能にした（例：BridgeData V2で22.8倍の高速化）。
- VisualEvidence-Kitは，視覚的証拠に関する監督と監査のためのリソースを提供し，システムの信頼性を高める。
Link: https://arxiv.org/abs/2605.30011
GPSポイントから移動パターンへ：LLMを用いた柔軟かつ意味的な軌跡生成 [cs.AI]目的：都市における移動パターンの抽出と，それに基づく軌跡データの合成
- 都市のダイナミクスをモデル化し，スマートシティアプリケーションを支援する上で，都市軌跡は不可欠である。
- プライバシー保護のため，大規模で高品質な軌跡データへのアクセスが制限されている。
- LLMを用いて，移動パターンを明示的に捉え，多様な条件で軌跡を生成することで，プライバシーリスクを軽減する。
- 提案手法HTPは，まず階層的に移動パターンを生成し，次にLLMを用いてGPSポイントを生成する。
- RQ-VAEを用いて，微細なGPS軌跡を粗い粒度の移動パターンに変換し，LLMの語彙を拡張することで，軌跡表現とLLM入力を整合させる。
- 実世界のデータセットを用いた実験により，HTPは最先端の手法と比較して，生成品質で平均29.78％の性能向上を示した。
Link: https://arxiv.org/abs/2605.30014
教師あり因果学習のためのテスト時訓練 [cs.LG, cs.AI]目的：教師あり因果学習における分布外汎化の課題解決
- 因果推論は科学的発見や意思決定において不可欠であり，その自動化が求められている。
- 既存の教師あり因果学習は，分布の変化に弱く，現実世界のデータへの適用が困難である。
- テスト時に動的に訓練データを生成し，分布外汎化性能を向上させることを目指す。
- 本研究で提案するTTT-SCLは，既存の教師あり因果学習手法や従来の因果探索手法を大幅に上回る性能を示す。
- TTT-SCLとスコアベース手法の間に相関関係が認められ，効率的な訓練データ生成モジュールを設計した。
- 合成データ，疑似実データ，現実世界のデータセットにおいて，その有効性が確認された。
Link: https://arxiv.org/abs/2605.30015
大規模言語モデルの潜在的性能プロファイリング [cs.CL, cs.LG]目的：大規模言語モデルの潜在的な性能特性の分析
- 言語モデルの性能評価は，その能力を理解し，改善していく上で不可欠である。
- 既存のベンチマーク評価は，データ汚染やタスク範囲の狭さ，実用性との乖離といった問題を抱えている。
- モデルの内部構造や情報処理プロセスに着目し，より深い性能理解を目指す。
- 従来のベンチマークスコアが類似するモデルでも，潜在的なプロファイルは異なり，エントロピーや適応性に違いが見られた。
- 潜在的性能プロファイリング(LPP)は，モデルの隠れ活性化と出力分布から，タスクに依存しない診断情報を抽出するフレームワークである。
- LPPとベンチマークを併用することで，モデルの挙動に対するより深く，解釈可能な理解が得られ，安全性の評価に貢献する。
Link: https://arxiv.org/abs/2605.30018
空間を与える！エンコーダーにおける位置情報と意味表現の明示的な分離 [cs.AR, cs.CL, cs.CL, cs.AI]目的：位置情報と意味表現の分離機構の解明
- Transformerは順序に依存しないが，位置情報は重要。高性能化には位置情報の適切な処理が不可欠である。
- 既存の位置符号化法は，長文脈理解や検索において課題が残る。位置情報の処理メカニズムが不明瞭である。
- 位置情報と意味表現の分離により，Transformerの位置情報処理メカニズムを詳細に分析し，改善を目指す。
- 位置情報サブ空間は，文書構造を捉える低周波二次元多様体へと自発的に収束することが明らかになった。
- Attentionヘッドは，構造と意味指向のグループに特化し，相対位置情報は意味処理のみをサポートする。
- 提案手法は，Flash-Holmesベンチマークにおいて，65種類の言語現象のうち49種類で言語表現を向上させた。
Link: https://arxiv.org/abs/2605.30022
RAISE：RAG設計をアーキテクチャ探索問題として [cs.AI]目的：RAGシステムのハイパーパラメータ最適化
- 近年，大規模言語モデルと検索技術を組み合わせたRAGが注目を集めている。
- RAGの性能は多数の設計選択に依存するが，体系的な評価が困難である。
- RAG設計をアーキテクチャ探索問題として捉え，最適化手法を評価する。
- RAISEは，RAGのハイパーパラメータ最適化のための包括的なフレームワークとベンチマークである。
- 13種類の探索アルゴリズムを7つのデータセットで評価した結果，タスクによって最適な手法が異なることが示された。
- RAISEは，RAGハイパーパラメータ最適化の研究における公平性，再現性，体系性を促進する。
Link: https://arxiv.org/abs/2605.30029
大規模オーディオ言語モデルにおける音声による脱獄：分類，攻撃・防御分析，およびコストを考慮した評価 [cs.SD, cs.AI, cs.CL]目的：大規模オーディオ言語モデルの脱獄リスクとその対策
- 音声による対話が普及し，安全性確保の重要性が増している。
- 脱獄攻撃の評価基準が統一されておらず，対策の比較が困難である。
- 音声空間の脆弱性を明らかにし，実用的な安全評価手法を確立する。
- 「Acoustic Best-of-N」攻撃は，最悪のケースにおいて音声空間の脆弱性を露呈する。
- 「Narrative Framing」攻撃は，低遅延で効果的な意味的脅威となる。
- 現状の防御策は，堅牢性と使いやすさのバランスに課題がある。
Link: https://arxiv.org/abs/2605.30031
機械に価値を教える：LLMにおける人間らしい行動のシミュレーション [cs.AI, cs.CL]目的：LLMにおける人間らしい価値構造の実現と，その価値と行動の関係性の評価
- LLMの進化は社会に大きな影響を与えるが，倫理的・道徳的な側面が重要である。
- LLMは多様な役割を演じられるものの，一貫した価値観に基づいた行動は不明確である。
- 心理学的な価値理論に基づき，LLMに人間らしい価値観を付与し，その妥当性を検証する。
- 価値をプロンプトとして与えたLLMと人間の間には，価値構造と行動の関係性において強い一致が見られた。
- 人間の価値観分布を取り入れることで，価値誘導型LLMを用いた集団レベルのシミュレーションの精度が向上した。
- 価値誘導型LLMは，心理学的に根拠のある人間行動シミュレーションツールとしての可能性を示す。
Link: https://arxiv.org/abs/2605.30036
拡散モデルにおけるテキストと画像の整合性を高めるためのアライメント誘導スコアマッチング [cs.LG, cs.AI, cs.CV]目的：拡散モデルにおけるテキストと画像の整合性向上
- 近年，拡散モデルは高品質な画像を生成するが，テキストと画像の正確な整合性が課題である。
- 既存手法は報酬の質に依存し，拡散過程自体の整合性改善には至っていない。
- スコアマッチングにアライメント誘導を組み込み，過剰な負例へのペナルティを軽減する。
- 提案手法は，GenEvalベンチマークにおいて計数精度を35%以上向上させた。
- SoftREPAと同等の性能を維持しつつ，その失敗例を大幅に改善した。
- SD1.5，SDXL，SD3を含む既存の拡散モデルに容易に適用可能である。
Link: https://arxiv.org/abs/2605.30038
LLMのためのドメイン特化データ合成：最小十分表現学習によるアプローチ [cs.AI]目的：LLMにおけるドメイン特化データ合成のための手法
- LLMは汎用的な能力で目覚ましい進歩を遂げているが，特定ドメインでの性能向上には高品質なデータが不可欠である。
- 既存手法は，自然言語によるドメイン記述に依存するため，記述が困難なドメインへの適用が制限される。
- 自然言語による明示的な記述なしに，参照サンプルのみからドメイン特化データを合成する。
- 提案手法DOMINOは，参照サンプルから最小限のドメイン表現を学習し，ドメインに合致した合成データ生成をガイドする。
- DOMINOは，プロンプトチューニングと対照的分離目的関数を統合し，ドメインレベルのパターンとサンプル固有のノイズを分離する。
- コード生成ベンチマークにおいて，DOMINOで合成されたデータを用いたファインチューニングにより，Pass@1精度が最大4.63%向上した。
Link: https://arxiv.org/abs/2605.30039
トークンインフレーション：大規模言語モデル利用料金の不正請求 [cs.CR, cs.AI, cs.CL]目的：大規模言語モデルの利用料金におけるトークン数の不正請求の可能性
- LLM利用の普及に伴い，トークン課金が一般的になり，料金の正確性が重要になっている。
- LLM提供者は，知的財産保護のため，トークン数の検証を困難にしている。
- 提供者によるトークン数不正請求を防ぐための検証方法の確立。
- LLM提供者は，トークン数を操作することで利用料金を大幅に増加させることが可能である。
- 現状の監査フレームワークは，提供者が操作する可能性のある情報に依存しており，不正請求を検出しにくい。
- 正確な料金請求のためには，提供者側の情報に依存しない，信頼できる検証方法が必要である。
Link: https://arxiv.org/abs/2605.30040
選択の学習：適応的手法選択のための意味的通信を備えたエンパワーメント誘導型マルチエージェントシステム [cs.AI]目的：科学計算ワークフローの自動化における手法選択の適応性向上
- 科学計算の自動化は研究効率を飛躍的に高めるため，重要な課題である。
- マルチエージェントシステムでは，エージェント間の意図と行動のずれが意味的ドリフトを引き起こし，評価や適応を損なう。
- 意味的整合性を保証し，情報伝達の信頼性を高めることで，適応的な意思決定を改善する。
- 提案手法は，エージェント間の意味的ドリフトを抑制し，ポリシー学習の収束性，頑健性，新規問題への適応性を向上させる。
- 信頼性の高い自律学習には，質の高い行動の特定だけでなく，それらの伝播の整合性維持が不可欠であることが示された。
- 本研究は，科学的マルチエージェントシステム設計における新たな指針を提供する：適応的意思決定と意味的整合性の保証を組み合わせるべきである。
Link: https://arxiv.org/abs/2605.30042
異常検知のためのマスク拡散モデリング [cs.LG, cs.AI]目的：カテゴリカル，混合型，離散シーケンスデータの異常検知手法
- 安全性が重要となる多くの応用において，正常なデータからの逸脱を検出する異常検知は不可欠である。
- カテゴリカル，混合型，離散シーケンスデータに対する効果的な異常検知手法の開発は依然として課題である。
- 正常データのみで学習したマスク拡散モデルを用いて，異常検知の性能向上を目指す。
- MaskDiff-ADは，ランダムにマスクされた座標の再構成困難度から異常スコアを生成し，離散状態空間上で直接機能するコンテンツに依存したスコアを提供する。
- MaskDiff-ADは，ADBenchおよびUADADの14のカテゴリカル・混合型テーブルデータセット，NLP-ADBenchの4つのテキスト異常検知データセットで，既存手法と競合する性能を示す。
- 特に，MaskDiff-ADは，全てのテーブルベースライン手法を上回り，全体平均ランクで最高の結果を達成した。
Link: https://arxiv.org/abs/2605.30046
テキスト画像生成拡散Transformerの堅牢かつ汎用的な安全性制御 [cs.AI]目的：テキスト画像生成における安全性制御の枠組み
- 画像生成AIの発展に伴い，有害なコンテンツ生成を防ぐ安全性確保が重要課題となっている。
- 既存手法では，プロンプトや出力レベルでの対策に留まり，生成過程の安全性制御は困難であった。
- リスクの変化に対応可能な，拡散Transformerの安全性制御手法を確立すること。
- SafeDIGは，DiTの介入位置にSparse Autoencoderを適用し，安定した介入箇所を優先的に学習することで，安全性制御のロバスト性を高めている。
- 学習済みの安全性特徴を再利用可能な辞書として活用し，ドメイン固有の活性化形状のみを適応させることで，ターゲットドメインへの転移性を向上させている。
- BlendとRepel操作を組み合わせることで，有害な活性化を安全性マニフォールドへ誘導，または有害な方向から遠ざけることで，安全性と品質を両立している。
Link: https://arxiv.org/abs/2605.30049
チェックポイント修復による思考プログラムの回復可能性 (REPOT) [cs.CL, cs.CY, cs.SE, cs.AI, cs.CL]目的：思考プログラムの回復手法
- 大規模言語モデルの推論能力向上には，複雑な問題を段階的に解決する思考過程の構築が不可欠である。
- 従来の思考プログラムは，一つの誤った行動により計画全体が無効になるという脆弱性を持つ。
- この研究は，誤りを検出し，検証済みの部分から再開することで，思考プログラムの信頼性を高めることを目指す。
- RePoTは，PoTが失敗する約14%の問題に対して，最大で1回の追加のLLM呼び出しコストで問題を解決する。
- PuzzleZoo-775およびgpt-5.4-mini-mediumにおいて，RePoTはPoTを3〜11pp上回り，最高で96.9%の精度を達成した。
- Derail-550ベンチマークでは，チェックポイント情報へのアクセスにより，GPT-mediumで30%以上，Geminiで70%以上の問題を解決できた。
Link: https://arxiv.org/abs/2605.30052
投影的デコーディング：セマンティクスを意識したLLM生成に向けて [cs.SE, cs.AI]目的：LLM生成におけるセマンティックな妥当性の確保
- ソフトウェア開発における自動化の重要性が高まる中で，LLMの活用が期待されている。
- LLM生成された成果物のセマンティックな正当性を保証することが依然として課題である。
- セマンティクスを生成過程に組み込み，セマンティックに有効な出力を導くことを目指す。
- 投影的デコーディングは，テキストと部分グラフモデルを同時に保持し，セマンティックな検証を可能にする。
- 不確実性を明示的に捉え，エラー検出をサポートすることで，セマンティックに正しい出力へと導く。
- プログラム生成タスクでの予備的な結果は，このアプローチの有効性を示唆している。
Link: https://arxiv.org/abs/2605.30054
批評家ガイダンスによるサンプル効率の良い拡散ベース強化学習 [cs.RO, cs.LG]目的：拡散モデルを用いた強化学習における探索と利用のバランス改善
- 近年の強化学習の進歩は目覚ましく，拡散モデルの多様性と探索能力が重要な役割を果たしている。
- 拡散ベース強化学習は探索能力に優れる反面，Q値情報の利用が不十分で収束が遅いという課題があった。
- 本研究は，批評家によるガイダンスを通じて探索と利用のバランスを取り，効率的な学習を目指す。
- 提案手法CGPOは，拡散モデルのノイズ除去過程にトレーニング不要のガイダンス技術を統合し，高価値領域への行動生成を誘導する。
- CGPOは，MuJoCoの5つのロコモーションタスクで最先端の結果を達成し，既存の拡散ベース強化学習手法を上回った。
- CGPOは，現実世界ロボットアームの把持タスクにおいても成功例を示し，拡散モデルを現実世界に応用する第一歩となった。
Link: https://arxiv.org/abs/2605.30056