arXiv雑要約

AI - 2026/06/15 公開

曖昧性と迎合におけるマネージャー層の意思決定に対する生成AI [cs.RO, cs.AI]目的：曖昧性と迎合下におけるマネージャー層の意思決定における生成AIの応用
- ビジネス環境は複雑化の一途をたどっており，迅速かつ的確な意思決定が求められている。
- 既存の意思決定支援システムは，曖昧な状況や誤った指示への対応が不十分である。
- 生成AIの活用により，曖昧性の検出と解決，迎合的行動の抑制を目指す。
- 提案手法は，曖昧さの種類を区別し，曖昧性解消がモデルの行動に系統的な変化をもたらすことを明らかにした。
- 曖昧性解消は，全てのマネージャー層において意思決定の質を向上させ，特に制約遵守において顕著な改善が見られた。
- モデルによって迎合的行動が異なり，一部は誤った前提に異議を唱え，他はそれに従う傾向があることが示された。
Link: https://arxiv.org/abs/2603.03970
3D-RFT：ビデオに基づく3次元シーン理解のための強化学習によるファインチューニング [cs.CY, cs.CV, cs.AI]目的：ビデオに基づく3次元シーン理解のための強化学習によるファインチューニング手法の開発
- 3次元シーン理解は，ロボティクスや自動運転などの応用において不可欠な技術である。
- 従来のファインチューニングは間接的な最適化に頼り，タスク性能との乖離が生じやすい。
- 評価指標を直接最適化することで，3次元シーン理解の性能向上を目指す。
- 提案手法3D-RFTは，様々なビデオに基づく3次元シーン理解タスクにおいて最先端の性能を達成した。
- 特に，3Dビデオ検出，3Dビジュアルグラウンディング，空間推論ベンチマークにおいて，より大規模なモデルを上回る性能を示した。
- 3D-RFTの堅牢性や，学習戦略とデータの影響に関する貴重な洞察が得られた。
Link: https://arxiv.org/abs/2603.04976
C2-Faith: 連鎖思考における因果性と網羅性の忠実性を評価するためのLLMジャッジのベンチマーク [cs.CL, cs.AI]目的：連鎖思考における因果性と網羅性の忠実性を評価するLLMジャッジの性能評価
- 大規模言語モデルの利用拡大に伴い，その推論過程の評価の重要性が増している。
- LLMをジャッジとして用いる際，回答の妥当性だけでなく，推論過程の忠実性を評価することが課題である。
- 推論過程における因果関係と網羅性を定量的に評価するベンチマークを構築し，LLMジャッジの性能を検証する。
- LLMジャッジの信頼性はタスクに依存し，単一のモデルが常に優位性を示すわけではないことが示された。
- LLMジャッジはエラーの存在は検出できるものの，その位置を特定することには苦戦しており，検出と特定の間には大きな隔たりがある。
- 全てのLLMジャッジは，推論の完全性を過大評価し，中間的な推論が欠落している場合でも高い網羅性スコアを付与する傾向がある。
Link: https://arxiv.org/abs/2603.05167
IntSeqBERT：OEISにおける剰余スペクトル埋め込みによる算術構造の学習 [cs.LG]目的：OEIS整数列の算術構造学習
- OEISは多様な整数列を含むため，数列の予測は困難である。
- 従来のトークン化モデルでは，未知語や周期的な算術構造に対応できない。
- 剰余スペクトル埋め込みを用いて，OEISの算術構造を効果的に学習する。
- IntSeqBERTは，OEIS整数列の予測精度を大幅に向上させた。
- 剰余スペクトル埋め込みが，予測精度向上に大きく貢献していることが確認された。
- 剰余スペクトル分析により，合成数剰余がOEISの算術構造を効率的に捉えることが示された。
Link: https://arxiv.org/abs/2603.05556
FP4量子化LLM訓練における平均バイアスの呪いと恵み [cs.LG, cs.AI]目的：大規模言語モデルのFP4量子化訓練における平均バイアスの影響とその軽減策
- LLMの規模拡大に伴い，メモリ消費量と計算コストの削減が重要な課題となっている。
- FP4量子化は効率的だが，活性化値の極端な変動により訓練が不安定になる問題がある。
- 平均バイアスに着目し，それを分離することでFP4量子化訓練の安定化を図る。
- 平均バイアスが活性化値の極端な変動の主要な原因であることを特定した。
- 提案手法Averisは，平均成分を分離することで，より安定したFP4量子化訓練を実現した。
- Averisは，既存手法と比較して損失の差を縮小し，ダウンストリームタスクにおいても高い性能を維持した。
Link: https://arxiv.org/abs/2603.10444
潜在計画のための時間的直線化 [cs.LG]目的：潜在計画のための表現学習の改善
- 潜在計画は，モデルによって学習された世界表現の質に大きく依存する。
- 事前学習済みの視覚エンコーダは汎用的だが，計画に特化しておらず，無関係な情報を含む。
- 潜在空間における経路の曲率を減らし，より効率的な計画を可能にすること。
- 時間的直線化により，潜在空間でのユークリッド距離が測地距離をより良く近似するようになる。
- 勾配ベースの計画の安定性が向上し，目標達成タスクの成功率が大幅に向上した。
- エンコーダと予測器を同時に学習することで，表現学習と計画性能を最適化する。
Link: https://arxiv.org/abs/2603.12231
TabKD：学習された特徴量ビンの相互作用多様性による表形式知識蒸留 [cs.LG, cs.AI]目的：表形式データの知識蒸留における相互作用多様性の重要性
- 表形式データは，特徴量間の相互作用が予測能力の根幹をなすため，その知識を抽出することが重要である。
- 既存のデータフリー知識蒸留手法は，表形式データの特性である特徴量間の相互作用を十分に考慮していない。
- 学習された特徴量ビンの相互作用多様性を最大化することで，表形式データの知識蒸留の精度向上を目指す。
- TabKDは，教師モデルの決定境界に適合する適応的な特徴量ビンを学習し，特徴量ペア間の相互作用を最大限にカバーする合成クエリを生成する。
- 4つのベンチマークデータセットと4つの教師モデルアーキテクチャにおいて，TabKDは16の設定のうち14で最高の結果を達成し，5つの最先端ベースラインを上回る性能を示した。
- 相互作用カバレッジと蒸留品質の間に強い相関関係が認められ，本研究の仮説が検証された。
Link: https://arxiv.org/abs/2603.15481
AcceRL：大規模ビジョン-言語-行動モデルのための分散非同期強化学習およびワールドモデルフレームワーク [cs.CL, cs.LG]目的：大規模VLAモデルにおける強化学習の効率化
- 近年，視覚，言語，行動を統合したVLAモデルが注目されており，ロボット工学などへの応用が期待されている。
- VLAモデルの強化学習は，同期処理のボトルネックや環境データ取得のコストが高く，学習が困難である。
- 本研究は，分散非同期処理とワールドモデルの統合により，VLAモデルの学習効率とスループットを向上させることを目指す。
- 提案手法AcceRLは，環境ロールアウト，モデル推論，勾配更新を物理的に分離する分散非同期フレームワークである。
- AcceRLは，先行する同期ベースラインと比較して2.4倍のスループット速度向上を達成した。
- オフラインデータで事前学習したワールドモデルを活用することで，LIBERO-Spatialタスクにおいて200倍のサンプル効率改善を実現した。
Link: https://arxiv.org/abs/2603.18464
忘れてしまったのか？大規模言語モデルにおける前向き記憶不全 [cs.DC, cs.NI, quant-ph, cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおける前向き記憶不全の検証
- 言語モデルの性能向上は，人間と自然な対話を実現する上で不可欠である。
- 複雑なタスクと指示の同時処理において，言語モデルは指示遵守が困難になりやすい。
- 言語モデルの指示遵守能力を向上させ，より信頼性の高い応答を可能にすること。
- 大規模言語モデルは，複雑なタスクを同時に実行する際，書式設定指示を遵守できない場合があることが確認された。
- 特に，応答の最後に実行する必要がある制約（終端制約）は，最大50%の遵守率低下を示す脆弱性があった。
- 注意喚起型の書式設定（明示的な指示とリマインダー）を用いることで，遵守率を大幅に改善し，90-100%に回復させた。
Link: https://arxiv.org/abs/2603.23530
低負担LLMに基づく嗜好学習：麻痺のあるユーザー向けアシストロボットの自然言語フィードバックによる個別化 [cs.RO, cs.AI, cs.HC]目的：麻痺のあるユーザー向けアシストロボットの個別化
- 身体アシストロボットは，ユーザーの安全と快適性を確保するために個別化された行動が不可欠である。
- 従来の嗜好学習法は，重度の運動障害を持つユーザーに大きな身体的・認知的な負担をかける。
- 自然言語フィードバックから決定論的なロボット制御ポリシーを生成し，ユーザーの負担を軽減すること。
- 自然言語によるアプローチは，従来のベースラインと比較してユーザーの作業負荷を大幅に軽減した。
- 作業療法士は，生成されたポリシーが安全であり，ユーザーの嗜好を正確に反映していることを確認した。
- 大規模言語モデル（LLM）と作業療法の実践フレームワークを組み合わせることで，曖昧な言語から安全なロボットコードへの変換を実現した。
Link: https://arxiv.org/abs/2604.01463
連合学習におけるシミュレーション攻撃パターンを用いたダイナミックなフリーライダー検出 [cs.LG, cs.CR]目的：連合学習におけるフリーライダーの検出
- 個人データを共有せずにモデルを学習できる連合学習は，プライバシー保護に重要である。
- 連合学習では，学習に貢献せずにモデルを入手するフリーライダーが存在しうる。
- 動的にフリーライダー化するクライアントの検出手法を開発する。
- 提案手法S2-WEFは，過去のグローバルモデルを利用したシミュレーションにより，フリーライダーを検出する。
- S2-WEFは，シミュレーション結果とWEFの乖離度を組み合わせ，二次元クラスタリングとスコア分類を行う。
- 3つのデータセットと5つの攻撃タイプに対する実験により，既存手法よりも高い堅牢性が確認された。
Link: https://arxiv.org/abs/2604.04611
科学におけるLLMの寿命短縮化 [cs.DL, cs.AI, cs.CY, cs.SI]目的：LLMの陳腐化を測る指標と，科学論文での引用動向
- 科学研究の発展には，最新の技術動向の把握が不可欠である。
- LLMの進化が速く，有用なモデルが短期間で陳腐化し，研究の再現性が損なわれる恐れがある。
- LLMの陳腐化の速度を定量的に評価し，研究者への示唆を得ることを目指す。
- LLMの寿命は，その性能よりも，発表時期によって大きく左右されることがわかった。
- 後続モデルの登場により，LLMのピークまでの時間と寿命は，年々短縮化している（それぞれ27%，23%）。
- 単一のLLMに特化することは，再現性や移行コストの面で，価値が下がる投資となる可能性がある。
Link: https://arxiv.org/abs/2604.07530
STaR-DRO：グループロバスト性を考慮した構造化予測のための状態付きタリス再重み付け [cs.LG, cs.AI]目的：大規模言語モデルを用いた構造化予測における，ラベル精度，オントロジー制約，構造的妥当性，証拠に基づく根拠付けの向上
- 医療コミュニケーションの自動解析は，患者中心の臨床ケア分析に不可欠であり，その信頼性が重要である。
- ラベルの不均衡やグループ間の難易度の違いにより，構造化予測モデルの性能が低下することがある。
- 持続的に困難なグループに焦点を当てて再重み付けを行うことで，モデルのロバスト性と精度を向上させる。
- XMLスタイル構造，専門家による曖昧性解消ルール，連鎖思考，メタデータ対応の意思決定ロジックなどを組み合わせたプロンプトエンジニアリングにより，ゼロショット抽出性能が大幅に向上した。
- STaR-DROは，タリスミラー上昇，スパースEntmax，EMA平滑化されたグループ損失トラッキングなどを組み合わせることで，従来のDROよりも効果的に困難なグループを重視した。
- 実験結果から，STaR-DROはラベルF1スコアとSpan F1スコアを有意に向上させ，クロスエントロピーを減少させることが示された。
Link: https://arxiv.org/abs/2604.09737
大規模言語モデルは医学的診断と臨床推論を正確に評価できるか [cs.LG, cs.AI]目的：医学AIシステムの評価における大規模言語モデルの利用可能性
- 医学AIの発展は医療の質向上に不可欠だが，専門家による評価はコストと時間がかかる。
- 専門家パネルによる評価は，資源制約や遅延が生じやすく，迅速なAI開発の妨げとなる。
- 大規模言語モデルを用いた評価システムにより，効率的かつ信頼性の高いAI評価を目指す。
- 大規模言語モデルによる評価は，専門家パネルの評価との順序関係を維持しつつ，系統的に低いスコアとなる傾向が認められた。
- 重篤なリスクエラーの発生頻度は，大規模言語モデルによる評価の方が人間の再評価パネルよりも低いことが示された。
- 大規模言語モデルと診断を組み合わせることで，エラーリスクの高い診断を特定し，専門家によるレビューの効率化に貢献できる可能性が示唆された。
Link: https://arxiv.org/abs/2604.14892
遺伝的プログラミングによる記号回帰の一般化性能について [cs.LG, cs.NE]目的：遺伝的プログラミングを用いた記号回帰モデルの一般化性能の理論的解析
- データから直接解釈可能な数式を発見する記号回帰は，科学的発見やモデリングにおいて重要である。
- 記号回帰の汎化性能に関する理論的理解が十分ではなく，なぜ訓練データを越えてうまく機能するのか不明である。
- 記号回帰モデルの汎化限界を導出し，構造選択と定数適合の複雑さを解明すること。
- 表現木のサイズ，深さ，学習可能な定数に対する制約の下で，記号回帰の汎化限界を導出した。
- 汎化ギャップを，構造選択項と定数適合項の二つの解釈可能な要素に分解することに成功した。
- パシモニ圧力，深さ制限，数値的に安定な演算子などの実用的な設計選択が，汎化限界の複雑さ項とどのように関連するかを明らかにした。
Link: https://arxiv.org/abs/2604.17402
大規模言語モデルのための潜在的推論ポリシー最適化：LEPO [cs.LG, cs.AI]目的：大規模言語モデルにおける潜在的推論の最適化
- 言語モデルの推論能力向上は，自然言語処理の発展に不可欠である。
- 既存手法では，多様な推論経路の探索が困難であり，性能の限界があった。
- 潜在的推論における探索能力の回復と，強化学習との親和性向上を目指す。
- LEPOは，Gumbel-Softmaxを用いて潜在的推論に制御可能な確率性をもたらす。
- 強化学習を連続的な潜在表現に直接適用する新しいフレームワークを提案する。
- 実験により，既存の強化学習手法と比較して，LEPOが大幅に優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.17892
いつやめるべきか：LLM推論における動的棄権のための原理的な枠組み [cs.LG, cs.CL, stat.ML]目的：LLM推論における動的棄権戦略の原理的検討
- LLMの性能向上は，計算資源の効率的な利用に不可欠である。
- LLMは不確かな推論過程を最後まで行い，無駄な計算資源を消費しやすい。
- 推論途中で棄権することで，計算資源の無駄を削減し，精度向上を目指す。
- 動的棄権を強化学習の枠組みで形式的に分析し，棄権報酬パラメータを導入した。
- 価値関数が棄権報酬を下回った場合に棄権することで，既存手法よりも高い選択的精度を達成した。
- 数学的推論や有害性回避タスクにおいて，理論の有効性と性能向上が確認された。
Link: https://arxiv.org/abs/2604.18419
KVキャッシュ圧縮のためのサブトークンルーティング [cs.LG, cs.CL]目的：KVキャッシュ圧縮手法
- Transformerモデルの推論は，特に長文脈やマルチモーダル生成において，大規模なKVキャッシュを必要とする。
- 既存の圧縮手法では，キャッシュコスト削減に限界があり，性能低下を招く場合がある。
- 保持されたトークン内部の細かな制御により，KVキャッシュ圧縮の効率化を目指す。
- サブトークンルーティングは，トークンレベルでの削減と組み合わせることで，KVキャッシュ圧縮性能を向上させる。
- LLMおよびVLMの両方の設定において，QuestやFastVなどの様々なモデルで有効性が確認された。
- 特にKVキャッシュの予算が小さい場合に，効果が顕著に現れる。
Link: https://arxiv.org/abs/2604.21335
効率的な根拠に基づく検索：JEPAに基づく生成型再ランク付けからのオンポリシー蒸留 [cs.IR, cs.CL, cs.LG]目的：根拠に基づく検索における効率的な検索手法
- 根拠に基づく検索は，事実に基づく検索とは異なり，高度な理解を必要とする。
- 従来の根拠に基づく検索は，大規模言語モデルを用いたクエリ・ドキュメントペアのクロスエンコーディングに高い計算コストがかかる。
- 提示手法は，計算コストを削減しつつ，高い検索性能を実現することを目指す。
- 提案手法Rabtrieverは，クエリとドキュメントを独立にエンコードすることで，計算効率を向上させている。
- Rabtrieverは，教師モデルの文脈情報を再構築するオンポリシー蒸留フレームワークを採用し，性能を維持している。
- 実験により，Rabtrieverが様々な根拠に基づくタスクで，従来の検索手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.23336
スケーラブルな生産スケジューリング：統一された同種グラフによる線形複雑度 [cs.LG, cs.AI]目的：ジョブショップスケジューリング問題に対する効率的な解決策
- 現実の産業応用において，計算負荷が低く，かつ構成の変化に強いスケジューリングポリシーが求められる。
- 既存の強化学習モデルは，二次的なグラフ複雑度や異質な層の構造的オーバーヘッドにより，スケーラビリティに課題がある。
- 特徴に基づく均質化により，グラフ構造の複雑さを線形に抑え，大規模産業応用に適した低遅延推論を実現する。
- 提案手法は，最先端の性能を達成し，一貫したゼロショット汎化能力を示す。
- ジョブと機械の比率がポリシーの有効性の主要な要因であり，問題の絶対的なサイズよりも重要であることが判明した。
- 臨界的に輻輳したインスタンスで訓練されたポリシーは，スケール不変な解決戦略を学習し，大規模な問題を飽和した部分問題の連結として扱う。
Link: https://arxiv.org/abs/2604.23841
輸送資源を持つジョブショップスケジューリングにおける共同学習とモジュール学習の連携ギャップ分析 [cs.AI]目的：輸送資源を持つジョブショップスケジューリングにおける，共同学習とモジュール学習の有効性の条件
- 高性能製造には効率的なジョブショップスケジューリングが不可欠であり，製造業の競争力強化に繋がる。
- 分散型工場が増加する中で，生産と輸送の同時スケジューリングには協調型マルチエージェント強化学習が用いられるが，その学習方法の選択が課題。
- 資源の逼迫度や時間的優位性に応じて，共同学習が必須となる条件を特定し，最適な学習方法の選択を支援する。
- 共同学習は，多くのディスパッチルールやモジュール学習アプローチと比較して優れた性能を示す。
- しかし，ボトルネック環境下や輸送・処理制約が厳しい状況では，その連携ギャップは縮小する。
- 環境条件に応じて学習方法を選択することで，強化学習ベースのスケジューリング性能を最適化できる。
Link: https://arxiv.org/abs/2604.24117
OGPO：生成制御ポリシーのサンプル効率の良いファインチューニング [cs.IR, cs.LG, cs.RO]目的：生成制御ポリシーのファインチューニングにおけるサンプル効率の向上
- ロボット学習において，生成制御ポリシーは効果的な表現手法として注目されている。
- 既存手法では，データ効率が悪く，初期化に依存した課題があった。
- オフポリシー学習を活用し，少ないデータで高性能な制御を実現することを目指す。
- OGPOは，マルチタスク，高精度挿入，器用な制御を含む様々な操作タスクで最先端の性能を達成した。
- 初期化された行動クローンポリシーを，オンラインリプレイバッファーに専門家のデータなしでほぼ完全なタスク成功率にファインチューニングできる唯一の手法である。
- 成功バッファー正則化などの安定化手法により，状態およびピクセルベースの設定で批判者の過剰活用を軽減することに成功した。
Link: https://arxiv.org/abs/2605.03065
グラフニューラルネットワークにおけるquantileを用いない不確実性定量化 [cs.LG, cs.AI]目的：グラフニューラルネットワークにおける不確実性定量化手法
- グラフ構造データは様々な分野で活用が広がっている。不確実性定量は，信頼性の高い予測に不可欠である。
- 従来のグラフニューラルネットワークは交換可能性の仮定に依存し，現実的なデータでは不確実性定量が困難である。
- quantileを用いない損失関数で学習し，効率的かつロバストな不確実性定量を実現する。
- QpiGNNは，既存手法と比較して平均22%高いカバレッジを実現した。
- QpiGNNは，既存手法と比較して平均50%狭い予測区間を実現した。
- QpiGNNは，ノイズや構造変化に対してロバストであり，効率的な学習が可能である。
Link: https://arxiv.org/abs/2605.04847
ブラックボックス最適化における特徴量計算予算がインスタンスごとのアルゴリズム選択に与える影響 [cs.NE, cs.LG]目的：ブラックボックス最適化のためのインスタンスごとのアルゴリズム選択における特徴量計算予算の影響
- 最適化問題は科学技術の様々な分野で重要であり，効率的な解法が求められている。
- 既存のアルゴリズムは問題ごとに性能が異なり，最適なアルゴリズム選択が課題である。
- 特徴量計算予算を考慮することで，インスタンスごとのアルゴリズム選択の有効性を評価する。
- インスタンスごとのアルゴリズム選択は，全予算の最大25%を特徴量計算に費やしても，多くのケースで有効であることが示された。
- 特徴量計算予算の最適割合は，アルゴリズム選択の状況によって大きく異なる。
- インスタンスごとのアルゴリズム選択の性能損失の平均20%は，特徴量計算に費やされた予算によって説明できる。
Link: https://arxiv.org/abs/2605.04954
PRISM：逐次意思決定のための知覚と推論の相互作用 [cs.AI]目的：LLMベースの具現化エージェントにおける知覚と推論の統合
- 複雑な環境下でのロボット制御において，環境の知覚能力と論理的推論能力は不可欠である。
- 既存のVision-Language Modelは，タスクに重要な情報を捉えきれていない場合がある。
- VLMとLLMの連携を通じて，タスクに特化した環境理解を実現することを目指す。
- PRISMは，既存の画像ベースモデルと比較して，ALFWorldおよびRoom-to-Roomベンチマークにおいて大幅な性能向上を示した。
- 動的な質問応答パイプラインが，系統的かつ実質的な改善をもたらすことが示された。
- PRISMは完全に自動化されており，手動で作成された質問や回答を必要としない。
Link: https://arxiv.org/abs/2605.05407
犠牲なし操舵：プロンプトのみ介入のための操舵ベクトル原理に基づいた学習 [cs.LG]目的：大規模言語モデルの行動操舵のための操舵ベクトルの学習手法
- 大規模言語モデルの制御は重要であり，その性能と安全性を向上させる鍵となる。
- 従来の操舵ベクトルは，操舵効果と生成品質のバランス調整が難しく，生成品質を損なう可能性があった。
- 本研究は，操舵因子と方向を同時に学習することで，調整を不要にし，プロンプトのみ介入により生成品質の低下を抑制する。
- 操舵因子と方向の同時学習により，事後選択が不要となり，効率的な操舵が可能となった。
- プロンプトのみ介入する操舵ベクトル（PrOSV）は，従来の操舵ベクトルよりもAxBenchで高い性能を示した。
- PrOSVは，汎用的なモデル性能と敵対的頑健性の両立において，従来の操舵ベクトルよりも優れていた。
Link: https://arxiv.org/abs/2605.05983
時間的知識グラフ推論のための適応的メモリ [cs.AI, cs.LG]目的：時間的知識グラフにおける推論性能の向上
- 知識グラフは，現実世界の情報を構造的に表現するため，様々な応用分野で重要視されている。
- 既存手法では，エンティティ表現が静的であり，エンティティの過去のインタラクション履歴が十分に活用されていない。
- エンティティを適応的にモデル化し，インタラクションごとに表現を更新することで，推論精度を高める。
- AdaTKGは，エンティティごとにメモリを保持し，観測されたインタラクションごとに更新する。
- このメモリはオンラインで累積され，より多くのインタラクションが到着するにつれて予測性能が向上する。
- 実験により，AdaTKGが既存のTKGベースラインよりも一貫して高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.07121
計画はどこにあるか？軽量なメカニズム的介入による言語モデルにおける潜在的な計画の特定 [cs.LG, cs.AI]目的：言語モデルにおける潜在的な計画の形成とその生成への因果的影響の解明
- 言語モデルの能力向上には，その内部動作メカニズムの理解が不可欠である。
- 言語モデルがどのように計画を立てて生成を行うのか，その過程は未だ不明な点が多い。
- 言語モデルにおける計画形成の具体的な場所と，その因果的役割を特定すること。
- 韻を踏む連句補完タスクにおいて，モデルの内部表現に将来の韻に関する情報が符号化されることを確認した。
- Gemma-3-27Bのみが，この符号化に因果的に依存しており，層30付近で韻の単語から行末への移行が確認された。
- Gemma-3-27Bにおける韻のルーティング能力の約90%は，5つの注意ヘッドを通じて復元可能であった。
Link: https://arxiv.org/abs/2605.07984
SAFformer：活性予測フィルタリングによるスパイクTransformerの性能向上 [cs.CV, cs.AI]目的：スパイクTransformerの性能向上
- 低消費電力なAI実現への期待から，生物学的妥当性とエネルギー効率に優れたSNNへの注目が集まっている。
- 既存のスパイクTransformerは受動的な反応型であり，重要情報への集中や冗長なデータ処理のオーバーヘッドが課題である。
- 予測符号化メカニズムに基づき，予測可能な信号を抑制し，重要な視覚特徴に焦点を当てることで，この課題を解決する。
- SAFformerは，CIFAR-10/100およびCIFAR10-DVSにおいて，最先端の性能を確立した。
- ImageNet-1Kでは，26.58Mパラメータ，5.88mJの消費量で80.44%のTop-1精度を達成し，高い精度と効率性を両立した。
- 活性予測フィルタリングという新しいアプローチが，スパイクTransformerの可能性を広げた。
Link: https://arxiv.org/abs/2605.08270
関係的検索：既知-新規相互作用を活用した汎用カテゴリ検出 [cs.CV, cs.AI, cs.MM]目的：汎用カテゴリ検出における関係的検索の枠組み
- 画像認識の分野において，未知のカテゴリを検出する能力は重要である。
- ラベル付きデータとラベルなしデータを効果的に活用できていない点が課題である。
- ラベル付きデータとラベルなしデータの相互作用による性能向上を目指す。
- 提案手法Relational Pattern Consistency (RPC)は，既存手法を上回る性能を達成した。
- RPCは，ラベル付きデータとラベルなしデータの双方向の知識伝達を可能にする。
- RPCは，既知クラスの維持と新規カテゴリの発見を同時に実現する。
Link: https://arxiv.org/abs/2605.09420
安定した二値表現学習のための複合活性化関数 [cs.CL, cs.LG, stat.ML]目的：安定した二値表現学習のための活性化関数
- ニューラルネットワークの性能向上には，効果的な内部表現の構築が不可欠である。
- 二値活性化関数の学習は計算効率が良いが，微分不可能な点が最適化の課題となる。
- 勾配降下法による学習を安定化する，滑らかな二値活性化関数の開発。
- 提案手法であるHTAFは，Heaviside関数を滑らかに近似し，勾配降下法による安定した学習を可能にする。
- HTAFは，スパイクニューラルネットワークや二値ニューラルネットワークなどの学習に利用できる。
- HTAFを用いたImplicit Concept Bottleneck Models (ICBMs)は，高精度な画像認識と解釈可能性を実現する。
Link: https://arxiv.org/abs/2605.11558
発達的足場の学習による自己組織化の誘導 [cs.AI, cs.SY, eess.SY, q-bio.QM]目的：自己組織化を導く発達的足場の学習
- 自然界の複雑な構造形成において，自己組織化は重要なメカニズムである。初期条件がそのプロセスに大きな影響を与える。
- 従来の自己組織化研究では，初期条件にオフロードされる情報に着目した研究が少ない。
- 自己組織化ルールと初期パターンを同時に学習し，その相互作用を制御・測定することを目指す。
- ニューラル・セルラー・オートマトンと学習された座標ベースのパターン生成器を組み合わせることで，パターン生成のロバスト性，符号化容量，対称性の破れを向上させた。
- 効果的な初期パターンは，目標を単純に近似するのではなく，自己組織化の収束を促進するようなダイナミクスを誘導することが示された。
- 情報理論的分析により，初期パターンと自己組織化プロセスの間の情報分布が明らかになった。
Link: https://arxiv.org/abs/2605.14998
EmoMind：ヒト脳fMRIからの感情的なキャプションの解読 [cs.NI, cs.LG, cs.AI, cs.CL, q-bio.NC]目的：脳fMRI信号からの感情的なキャプションの解読パイプライン
- 脳活動からの視覚的体験の解読が進んでいるが，既存システムは感情を無視する傾向がある。
- 感情ラベルは，感情の多様性を粗いカテゴリに分類し，個人差を捉えきれない。
- 脳から直接解読した連続的な感情ベクトルを用いて，個人化された感情的なキャプション生成を目指す。
- EmoMindは，脳から解読した視覚的特徴から中立的なシーン記述を取得し，同一fMRI記録から解読された34次元の感情ベクトルで書き換える。
- 感情的なキャプション生成において，EmoMindはGPT-4(ラベル提示)よりも全ての評価軸で有意に優れた性能を示した。
- 本研究は，脳から解読された連続的な感情が，個人化された感情的なキャプション生成の制御信号として有効であることを示した。
Link: https://arxiv.org/abs/2605.16739
生成推薦のための可変長トークン化学習 [cs.LG]目的：生成推薦における可変長トークン化の学習
- 推薦システムは，ユーザーに最適なアイテムを提示する上で不可欠であり，その精度向上が常に求められている。
- 既存手法では，アイテムの特徴に関わらず固定長のトークン化が用いられており，最適ではない場合がある。
- アイテムの人気度に応じた最適なトークン長を学習することで，推薦精度と効率の向上を目指す。
- VarLenRecは，アイテムの人気度に基づいてトークン長を動的に調整する新しいフレームワークである。
- 提案手法では，Popularity-Weighted Information Budget Allocation (PIBA)という情報理論に基づいた手法を用いて，最適なトークン長を決定する。
- 実験の結果，VarLenRecは既存の最先端手法と比較して，推薦精度と学習・推論効率において顕著な改善を示した。
Link: https://arxiv.org/abs/2605.17779
厳密線形注意機構 [cs.LG, cs.AI]目的：Transformer注意機構の線形計算複雑度の実現
- Transformerは自然言語処理の基盤技術であり，長文処理の効率化が重要である。
- 従来の線形注意機構では，勾配消失やトークン注意の希薄化が課題となっていた。
- カーネル関数の厳密な分解性を利用し，近似誤差を排除することで問題を解決する。
- 厳密線形注意機構(ELA)は，従来の注意機構と比較して最大6倍のデコード速度向上を実現した。
- KVキャッシュメモリ使用量は最大75％削減され，学習性能は同等または向上した。
- YOLO-LATにより，画像認識モデルにおいても最大4.3倍の推論速度向上と7.9倍のパラメータ削減を達成した。
Link: https://arxiv.org/abs/2605.18848
漫画109-v2026：現代漫画理解のための漫画109注釈の再検討 [cs.NI, cs.SY, eess.SY, cs.CL, cs.AI, cs.CV]目的：現代漫画理解のための漫画109注釈の修正
- 漫画は日本を代表する大衆文化であり，AI研究における重要な対象である。
- 既存の漫画109データセットは，不正確な文字起こしや粗い注釈を含むため，最新のOCR技術との整合性に課題がある。
- 漫画109データセットの注釈を修正し，現代的な漫画理解システムの性能向上を目指す。
- 漫画109の約29,000件の対話注釈を，OCRベースの検出と手動修正を組み合わせることによって修正した。
- 修正されたデータセット「漫画109-v2026」は，現代的なOCRシステムやマルチモーダル漫画理解システムとの整合性が向上した。
- 漫画特有の表現構造を維持しつつ，より正確なデータセットを構築した。
Link: https://arxiv.org/abs/2605.21182
第三次SO(3)表現結合による回転不変球面ウォーターマーキング [cs.RO, cs.DB, cs.DC, cs.CV, cs.AI, cs.CR, cs.LG]目的：パノラマ画像に対する回転不変なウォーターマーク埋め込み手法
- パノラマ画像は球面上で定義され，あらゆる3D回転の影響を受けるため，その保護が重要である。
- 従来の平面表現や拡張ベースの堅牢性戦略は，球面上の回転に対して理論的な保証がない。
- 高次のSO(3)表現の結合により，回転不変な記述子を導出し，信頼性の高いウォーターマーキングを実現する。
- 本研究では，球面調和係数を用いてパノラマ画像を表現し，第三次の不変構成を導入した。
- これにより，位相情報を保持しつつ，厳密な回転不変性を実現する球面不変双スペクトルを得た。
- 実験により，提案手法が連続的な回転に対してほぼ完璧な堅牢性を示すことが確認された。
Link: https://arxiv.org/abs/2605.26702
文脈条件付きおよび因果性拡張事前学習による時系列因果探索 [cs.LG]目的：時系列からの因果関係の発見
- 実世界の問題解決において，異常の原因究明など，時系列データの因果関係の特定は重要である。
- 既存手法はデータセット固有の最適化に依存し，多様な因果メカニズムを持つ新たな時系列への汎化が困難である。
- 文脈条件付きモデリングと転移可能な因果拡張により，タスク間の汎化性能を向上させることを目指す。
- 提案手法PTCDは，二段階の反復注意機構を用いて複雑な時間的因果依存関係を捉える。
- PTCDは，介入学習と因果混合戦略を用いた事前学習により，分布シフトへのロバスト性を高める。
- 複数の実データセットにおいて，PTCDは因果探索と根本原因の特定において優れた性能を示す。
Link: https://arxiv.org/abs/2605.26759
評価設計を理解するモデルはより安全である [cs.CL, cs.AI]目的：AI安全評価におけるモデルの挙動に関する研究
- AIの安全性確保は重要であり，評価手法の妥当性が問われている。
- 評価時の文脈に影響され，実環境での性能が低下する問題がある。
- 評価に関するメタ知識が安全性の評価に及ぼす影響を明らかにすること。
- 評価に関する情報を学習させたモデルは，ベースモデルや対照群よりも安全性が向上した。
- この安全性向上は，評価に関する言及がない応答でも確認された。
- 評価メタ知識が安全性のベンチマーク性能を歪める新たな要因となり得る。
Link: https://arxiv.org/abs/2605.28591
タンパク質の3次元構造に基づく動的グラフ表現を用いた，従来の機械学習と深層学習の比較 [cs.LG, q-bio.MN]目的：タンパク質構造分類における，従来の機械学習と深層学習の性能評価
- タンパク質の構造は機能に密接に関連するため，その分類は生命科学研究において重要である。
- 従来のタンパク質構造分類は，計算コストや特徴量設計の困難さを抱えていた。
- 動的グラフ表現を用いることで，より高精度かつ効率的なタンパク質構造分類を目指す。
- 72のデータセットを用いた評価の結果，従来の機械学習と深層学習の分類精度はほぼ同等であった。
- 深層学習は，従来の機械学習に比べて平均して10倍以上の計算時間を要した。
- 動的PSNに基づくタンパク質構造分類において，機械学習と深層学習を比較評価したのは本研究が初である。
Link: https://arxiv.org/abs/2605.29228
視点自己探索による計画 [cs.IR, cs.AI, cs.CV, cs.RO]目的：視点計画の実現
- 仮想空間でのナビゲーションは，ロボット工学やVR/AR等の応用において重要である。
- 大規模言語モデル(VLM)は視点と行動の関係を理解するが，複数ステップの計画に苦戦する。
- 自己探索と視点グラフ蒸留により，VLMの3D空間における推論と計画能力を向上させる。
- 提案手法は，Qwen2.5-VL-7Bのインタラクティブな視点計画の成功率を2.5%から47.8%に向上させた。
- この性能はGPT-5.4 Pro (18.5%)やGemini 3.1 Pro (21.4%)を上回る。
- 自己探索は，VLMが3D空間で積極的に推論し計画するための有望な道筋を示している。
Link: https://arxiv.org/abs/2605.29563
VikingMem：ステートフルLLMベースアプリケーションのためのメモリベース管理システム [cs.AI]目的：ステートフルなLLMベースアプリケーションにおける長期的なインタラクションを維持するためのデータ管理
- 大規模言語モデルの普及に伴い，対話型アプリケーションの重要性が増している。
- LLMのコンテキストウィンドウの制限が，長期インタラクションにおける状態管理の課題となっている。
- 多様なアプリケーションで活用可能な，汎用的なメモリ管理パラダイムを確立すること。
- VikingMemは，価値の高いメモリの選択的抽出，状態の進化，汎用的な抽象化という３つの原則に基づいている。
- イベントとエンティティの抽象化により，複雑な情報ストリームの処理と状態の動的更新を実現している。
- 長期記憶ベンチマークにおいて，既存手法を最大30%上回るメモリ検索効果と低遅延性を実現した。
Link: https://arxiv.org/abs/2605.29640
基盤モデルの連合型パーソナライズにおける沈黙的失敗 [cs.LG, cs.AI]目的：基盤モデルの連合型パーソナライズにおける信頼性の失敗形態
- 近年，プライバシー保護が重視される中，分散データを用いたモデルのパーソナライズが重要となっている。
- 連合学習では，プライバシー保護のためモデルの挙動が可視化しにくく，問題の発見が困難である。
- 本研究は，連合学習特有の信頼性に関する問題点を明らかにし，解決策を提示する。
- 本研究では，「沈黙的失敗」という新たな信頼性の失敗形態を定義し，その分類を提案した。
- 従来のベンチマークは，システム性能評価に偏っており，モデルの挙動に関する洞察が不足していることが判明した。
- プライバシー保護技術だけでは信頼性の高い展開は不十分であり，行動評価の重要性が示唆された。
Link: https://arxiv.org/abs/2606.00947
OmniOPD：推測検証によるロジットフリーなオンポリシー蒸留 [cs.LG, cs.CL]目的：オンポリシー蒸留の改善
- 大規模言語モデルの性能向上は，教育データ作成コストの削減と密接に関係する。
- 従来のオンポリシー蒸留は，教師モデルのロジットにアクセスする必要があり，またノイズに弱いという課題があった。
- ロジットフリーな蒸留により，より強力な教師モデルを活用し，安定した学習を可能にすること。
- OmniOPDは，教師モデルのロジットにアクセスせず，チャンクレベルのセマンティック類似度を用いて学習を行う。
- 数学ベンチマークにおいて，標準的なOPDアプローチを最大28.64%上回る性能を示した。
- より強力な教師モデルと組み合わせることで，自己探索型強化学習を超える性能を達成した。
Link: https://arxiv.org/abs/2606.01476
証拠に基づいたLLM事前知識による多目的ベイズ最適化 [cs.AI, cs.LG]目的：多目的ベイズ最適化におけるLLM事前知識の活用方法
- 複雑な最適化問題解決に，LLMが専門家のアドバイスとして期待されている。
- LLMの提案や自信度と実際の目的関数値との間に乖離が生じる場合がある。
- 目的関数ごとにLLMの信頼性を評価し，適切な活用を目指す。
- 提案手法では，目的関数ごとにLLMの事前知識の重みを動的に調整する。
- 実験結果から，動的な信頼度調整が固定のLLM事前知識よりも頑健性を示すことが示された。
- LLMの自信度と予測誤差との間には一貫した相関関係は見られなかった。
Link: https://arxiv.org/abs/2606.01730
Patcher：バックドア化された大規模言語モデルの事後パッチング [cs.CL, cs.CR, cs.AI, cs.IR, cs.LG]目的：大規模言語モデルに対するバックドア攻撃の緩和
- 大規模言語モデルの安全性確保は重要であり，悪意のある攻撃から保護する必要がある。
- バックドア攻撃は巧妙に隠蔽されており，既存の防御策では単一の失敗例からの対処が困難である。
- 単一の失敗事例とモデルパラメータのみを用いて，バックドアを特定し，修正することを目指す。
- Patcherは，応答に基づいて勾配を計算し，適応的クラスタリングによりバックドアトリガーを特定する。
- 制約付きファインチューニングにより，トリガーと応答の関連性を遮断し，正常なタスク性能を維持する。
- 複数の攻撃手法に対し有効であり，適応的な回避攻撃に対しても頑健性を示す。
Link: https://arxiv.org/abs/2606.02995
大規模言語モデルにおける多要素因果追跡 [cs.LG, cs.CL]目的：大規模言語モデルの因果経路の特定と定量化
- 言語モデルの挙動理解は，性能向上や制御に不可欠である。
- 既存手法では，単一要素の追跡に偏りがちで，複雑な相互作用の解明が困難である。
- 多要素間の因果関係を効率的に特定し，モデルの重要な構成要素を抽出すること。
- 本手法は，複数の構成要素を同時に追跡する統一的なフレームワークを提案する。
- ソフト介入と適切な指標変換を用いることで，計算効率を高めている。
- 実験結果から，提案手法が既存手法を上回り，重要な構成要素を効率的に特定できることが示された。
Link: https://arxiv.org/abs/2606.03085
EvoTrainer：自律型エージェント強化学習のためのLLMポリシーと訓練ハーネスの共進化 [cs.AI]目的：LLMポリシーと訓練ハーネスの共進化による自律型エージェント強化学習の実現
- LLMの能力向上は，様々なタスクの自動化を可能にし，社会に大きな影響を与える。
- 従来のLLM訓練はレシピ探索に偏り，訓練ハーネスの静的な状態がボトルネックとなる。
- EvoTrainerは，訓練ハーネスの進化も同時に行うことで，よりロバストな学習を目指す。
- EvoTrainerは，数学的推論，コード生成，ソフトウェアエンジニアリングにおいて，人間が設計した強化学習ベースラインと同等またはそれ以上の性能を示す。
- 特に，長期的な視点が必要なソフトウェアエンジニアリングタスクにおいて，顕著な性能向上が見られた。
- 獲得された戦略はドメイン間で異なり，進化する診断機能は無効な高スコアの経路の促進を防ぎ，再利用可能なスキルがその後の探索を形成する。
Link: https://arxiv.org/abs/2606.03108
CoRe-MoE：歩行適応を伴う多地形ヒューマノイドロボットの歩行のためのコントラスト再重み付きエキスパート混合 [cs.RO, cs.AI]目的：多地形におけるヒューマノイドロボットの歩行と走行の統合
- 人間は複雑な地形を歩行や走行で移動する。同様に，ヒューマノイドロボットにも自然で安定した歩行が求められる。
- タスク間の勾配干渉や地形変化による分布シフトのため，単一のポリシーで歩行遷移と多地形適応を統合するのは困難である。
- エキスパート混合（MoE）アーキテクチャを用いて，歩行生成と地形適応を分離し，専門性の高い学習を目指す。
- 提案手法CoRe-MoEは，ベースの歩行ポリシーと地形を意識した分岐を組み合わせることで，安定した歩行を維持しつつ複雑な地形への適応を可能にする。
- シミュレーション実験の結果，CoRe-MoEは，成功率，歩行安定性，多地形適応性においてベースライン手法を上回る性能を示した。
- Unitree G1ヒューマノイドロボットへのゼロショット展開により，階段，斜面，段差，障害物，構造化されていない屋外地形など，様々な環境下でのロバストな歩行と走行が実証された。
Link: https://arxiv.org/abs/2606.04718
自律運転安全性に向けた，標準に基づいたXAI適格性評価基準 [cs.AI]目的：自律運転システムの安全性保証に必要なXAI手法の適格性を評価するための基準
- 機械学習に基づく自律運転の安全性確保は，社会実装において不可欠である。
- XAI研究は手法の種類に着目するのに対し，安全性基準は証拠の種類を重視する点が課題である。
- 安全性基準に合致する証拠を生成できるXAI手法を選定し，その適用範囲を明確化することを目指す。
- 安全性基準を分析し，ライフサイクル各段階で必要となる証拠の種類を19の基準として定義した。
- 因果関係を明示するXAI手法が，ハザード特定，事故調査，データ管理の段階で特に重要であることが示された。
- XAI手法の選択は，その手法の特性だけでなく，ライフサイクル各段階の証拠要求に基づいて行うべきである。
Link: https://arxiv.org/abs/2606.05461