arXiv雑要約

AI - 2026/05/08 公開

行列値の楽観性は行列値の拡張である：制約付き最適化のための加法ハイブリッド設計 [cs.LG]目的：制約付き最適化問題に対するハイブリッド設計手法
- 最適化問題は，科学技術計算の根幹であり，効率的な解法が求められている。
- 既存のアルゴリズムは，制約条件の扱いが難しく，安定性や収束性に課題がある。
- 拡張ラグランジュ関数法と楽観的原始双対法を統合し，より安定した最適化手法を開発する。
- 拡張ラグランジュ関数法と楽観的原始双対法は，行列値の修正においても等価であることが示された。
- 修正行列の分割方法が，解の安定性と収束性に影響を与えることが明らかになった。
- 提案手法は，数値実験において，既存手法や第一階最適化アルゴリズムと比較して良好な結果を示した。
Link: https://arxiv.org/abs/2605.06141
一人称回想における文脈的手がかりからのエンティティ認識ベンチマーク：IRC-Bench [cs.CL, cs.AI]目的：一人称回想における暗黙的なエンティティ認識の評価
- 個人の記憶は，治療，記録，社会的な場面で重要であり，エンティティ認識は理解を深める鍵となる。
- 回想におけるエンティティは直接的な名前ではなく文脈で示されることが多く，計算機による認識が困難である。
- 文脈からエンティティを推論する能力を評価するためのベンチマークデータセットを構築し，性能向上を目指す。
- IRC-Benchは，11のテーマ領域にわたる1,994件のトランスクリプトから構築された25,136件のサンプルを含む。
- オープンワールド設定ではQLoRA適用Llama 3.1 8Bが，クローズドワールド検索ではファインチューニングされたDPRが最も優れた性能を示した。
- IRC-Benchはデータ，コード，評価ツールとともに公開され，研究の促進に貢献する。
Link: https://arxiv.org/abs/2605.06142
AI生成画像：人間と機械が見る同じ画像 [cs.CV, cs.AI]目的：AI生成画像の検出における，人間が理解しやすい説明の提供
- AI技術の発展は画像生成を可能にしたが，誤情報の拡散に利用される懸念がある。
- AI生成画像検出器は精度向上の一方で，判断根拠の説明が不十分である。
- AI生成画像の検出における説明可能性を高め，人間との整合性を測る。
- AI生成画像検出器群と説明可能なAI(XAI)手法を統合したフレームワークを開発した。
- 大規模データセットを用いて評価した結果，XAI手法の視覚的な説明が人間理解に有効であることが示された。
- XAI出力と人間の視覚的・言語的反応との整合性を測ることで，より信頼性の高い検出が可能となった。
Link: https://arxiv.org/abs/2605.06143
制御最大化による目標条件付きRLと教師なし技能学習の統合 [cs.LG, cs.AI, cs.SY, eess.SY]目的：目標条件付き強化学習と教師なし技能学習の理論的統合
- 強化学習は，自律的な意思決定システムの構築に不可欠であり，その性能向上は重要な課題である。
- 既存手法では，教師なし事前学習と目標条件付き強化学習の理論的根拠が不明確であり，技能学習が目標達成をどのように支援するのかが不明である。
- 制御最大化の枠組みを用いて，目標条件付き強化学習と教師なし技能学習を統一し，理論的基盤を確立することを目指す。
- 目標条件付き強化学習の異なる定式化が，互いに適合しない最適方策を導き出す可能性があることが示された。
- 教師なし技能学習の目的関数が，目標条件付き強化学習における目標感度と密接に関連することが理論的に証明された。
- 特定のタスククラスに対して，適切な事前学習目的関数を選択するための指針が示され，実用的な示唆が得られた。
Link: https://arxiv.org/abs/2605.06145
ウォーターシュタイン勾配流を用いた離散自己回帰事前分布の学習 [cs.CV, cs.AI, cs.LG]目的：離散画像トークナイザーの学習方法
- 画像生成モデルにおいて，効率的なトークナイザーは重要な要素である。表現能力と学習効率の両立が求められる。
- 既存の二段階学習では，トークナイザーと事前分布モデルの連携が弱く，トークンの予測性能が十分でない場合がある。
- トークナイザー学習時に事前分布との整合性を高め，より予測しやすいトークン表現を獲得することを目指す。
- 本研究では，ウォーターシュタイン勾配流を用いてトークナイザー学習時に事前分布との整合性を強化する手法を提案した。
- 提案手法により，CIFAR-10およびImageNetにおける自己回帰損失の低減と，生成FIDスコアの改善が確認された。
- 再構成品質を維持しつつ，より効率的なトークナイザー学習を実現できることを示した。
Link: https://arxiv.org/abs/2605.06148
AdaGamma：強化学習における時間的適応のための状態依存割引 [cs.LG, cs.AI]目的：強化学習における状態依存割引の実現
- 強化学習は，複雑な環境下での意思決定において重要な役割を果たす。
- 従来の強化学習では割引率が固定されており，状態の変化に対応できない。
- 状態依存割引による学習の不安定性を抑制し，効果的な適応を実現する。
- AdaGammaは，SACおよびPPOに統合可能であり，連続制御ベンチマークで一貫した改善を示す。
- JD LogisticsプラットフォームにおけるオンラインA/Bテストで統計的に有意な成果を達成した。
- 状態依存割引は，ターゲット操作の劣化を防ぐリターン整合性目的と組み合わせることで，深層強化学習で有効になりうる。
Link: https://arxiv.org/abs/2605.06149
低精度がスリングショット損失スパイクを引き起こす仕組み [cs.SI, cs.LG, cs.CL, math.OC, stat.ML]目的：スリングショットメカニズムの発生原因の解明
- 深層学習は高い性能を発揮するが，長期学習における安定性確保が課題である。
- 学習が進むにつれて損失が急増するスリングショット現象の原因が不明確であった。
- 浮動小数点演算の精度限界がスリングショット現象を引き起こすことを示す。
- スリングショット現象は，正解クラスのロジットとそれ以外のロジットの差が吸収誤差閾値を超えることが原因である。
- 誤差逆伝播において正解クラスの勾配が丸められてゼロになり，パラメータ更新に系統的なずれが生じる。
- このずれがフィードバックループを形成し，特徴量と分類器の平均が指数関数的に増加するNumerical Feature Inflation (NFI)が起きる。
Link: https://arxiv.org/abs/2605.06152
知識グラフ基盤モデルにおける構造的語彙の構成要素としてのグラフレット [cs.AI, cs.LG]目的：知識グラフの構造的不変性に着目したグラフレットに基づく構造的語彙の構築
- 知識グラフは，知識表現の重要な手段であり，様々な応用分野で活用が期待されている。
- 既存の知識グラフ基盤モデルは，グラフ構造の多様性により，知識転移が困難という課題を抱えている。
- グラフレットを構造的トークンとして活用し，知識グラフ間の知識転移を可能にすることを目指す。
- グラフレットを構造的語彙として利用するモデルを提案し，51種類の知識グラフを用いて評価を行った。
- 提案手法は，既存の知識グラフ基盤モデルと比較して，ゼロショットの誘導的・伝達的リンク予測において優れた性能を示した。
- 閉路やスター状のグラフレットが，ロバストな不変性を獲得する上で有効であることが示された。
Link: https://arxiv.org/abs/2605.06154
エントロピー正則化された随伴一致法によるオフライン強化学習 [cs.LG, cs.AI]目的：オフライン強化学習における，複雑な多峰性行動を捉える表現力豊かな生成方策の統合
- 強化学習は，様々な分野で自律的な意思決定を可能にする重要な技術である。
- オフライン強化学習では，既存のデータ分布に偏りやすく，高報酬領域の探索が困難である。
- データセットから最適な方策を抽出し，分布外の高報酬領域の探索を可能にすること。
- 提案手法ME-AMは，エントロピー最大化と混合行動事前分布を用いることで，既存手法の偏りを軽減する。
- これにより，ME-AMは，オフラインデータから頑健な行動を特定し，生成ベクトル場の絶対連続性を維持する。
- 実験の結果，ME-AMは，スパース報酬の連続制御環境において，最先端手法と同等またはそれ以上の性能を示す。
Link: https://arxiv.org/abs/2605.06156
HNC：詳細な視覚と言語の理解能力を持つモデルに向けた困難な否定キャプションの活用 [cs.CL, cs.AI, cs.CV]目的：視覚と言語のクロスコモーダル理解の向上
- 画像とテキストの結合による表現学習は，視覚と言語処理の発展に不可欠である。
- ウェブから収集された画像とテキストのペアは関連性が弱く，詳細な意味理解が困難である。
- 詳細なクロスコモーダル理解を達成するためのITM（Image-Text-Matching）学習を改善すること。
- 提案手法であるHNC（Hard Negative Captions）を用いた学習により，モデルのゼロショット能力が向上した。
- 特に，診断タスクにおける不一致検出や，ノイズの多い視覚入力下でのロバスト性が改善された。
- HNCで学習したモデルは，ファインチューニングの初期化として同等またはより良い性能を示した。
Link: https://arxiv.org/abs/2605.06157
精度を超えて：LLM安全ジャッジの信頼性テストとしてのポリシー不変性 [cs.AI, cs.SE]目的：LLM安全ジャッジの信頼性評価
- エージェントの安全性確保は重要であり，自動評価手法の信頼性が不可欠である。
- 既存の評価指標は，LLMジャッジの判断を絶対視し，その妥当性を検証していない。
- LLMジャッジがポリシーに依存せず，エージェントの行動のみに基づいて判断できるか検証する。
- LLM安全ジャッジは，評価ポリシーの表現方法に影響を受けやすく，エージェントの行動と区別できない場合がある。
- ポリシーのわずかな変更（意味の変更なし）で，最大9.1%の判定が覆ることが示された。
- ポリシー不変性スコアとジャッジカードを提案し，既存の評価指標では見過ごされるジャッジの信頼性差を可視化した。
Link: https://arxiv.org/abs/2605.06161
ポスト推論：思考能力を持たないモデルの性能向上（コスト不要） [cs.AI]目的：大規模言語モデルにおける回答後の理由付けによる性能改善
- 大規模言語モデルの普及に伴い，推論コストとレイテンシが課題となっている。
- 多くのタスクで，明示的な推論は不要であり，場合によっては性能を低下させる。
- 追加のレイテンシやコストをかけずに，モデルの性能を向上させることを目指す。
- Post-Reasoningは，117のモデル・ベンチマーク設定で性能を向上させ，平均17.37%の改善を実現した。
- 教師ありPost-Reasoningチューニングにより，91.11%の設定でさらに性能が向上し，プロンプトベースのベースラインを平均8.01%上回った。
- Post-Reasoningは，直接回答能力の新たな性能上限を確立した。
Link: https://arxiv.org/abs/2605.06165
一つのアルゴリズム，二つの目標：LLMファインチューニングにおけるパラメータとデータ選択のための二重スコアリング [cs.LG]目的：LLMファインチューニングにおけるパラメータ選択とデータ選択
- 大規模言語モデルの活用は重要だが，計算コストが高い。
- パラメータ選択とデータ選択が独立して行われるため，効率が悪い。
- 共通のスコアリングで両者を同時に最適化し，コストを削減する。
- DualSFTは，共有された勾配統計からパラメータマスクとデータサブセットを生成するアルゴリズムである。
- 3B-9BのLLMを用いた実験で，DualSFTは性能と安定性において既存手法を上回る結果を示した。
- 特に，制約下でのトレードオフが改善されていることが確認された。
Link: https://arxiv.org/abs/2605.06166
平均モードの叫び：1000層拡散Transformerのための平均-分散分割残差 [cs.LG]目的：拡散Transformerの構造的脆弱性の解明と安定化手法の提案
- 深層学習モデルの規模拡大は性能向上に繋がるが，その過程で新たな問題が発生しやすい。
- 拡散Transformerを深層化すると，トークン表現が均質化し，分散が抑制されるという構造的脆弱性が生じる。
- 平均-分散分割残差という新しい手法を用いて，深層拡散Transformerの学習安定性を改善すること。
- 拡散Transformerの深層化における崩壊現象の原因を「平均モードの叫び」と特定した。
- 提案手法である平均-分散分割残差が，崩壊を抑制し，学習の安定性を向上させることを示した。
- 1000層の拡散Transformerでも安定した学習が可能であることを実証した。
Link: https://arxiv.org/abs/2605.06169
網膜-RAG：網膜診断と臨床レポート生成のための検索拡張型視覚言語モデリング [cs.CV, cs.AI]目的：糖尿病性網膜症の重症度評価，黄斑浮腫の検出，およびレポート生成
- 糖尿病性網膜症は，労働年齢層における予防可能な失明の主要な原因であり，早期発見が重要である。
- 既存の自動スクリーニングシステムは画像レベルの分類に留まり，構造化された臨床レポートが不足している。
- 臨床構造化された網膜AIを，限られた計算資源で実現することを目的とする。
- Retina-RAGは，糖尿病性網膜症の重症度評価においてF1スコア0.731，黄斑浮腫の検出において0.948を達成した。
- これにより，ゼロショットQwenやMMed-RAGと比較して，大幅な性能向上が認められた。
- レポート生成では，ROUGE-Lが0.429，SBERT類似度が0.884であり，他のベースラインモデルを上回る結果となった。
Link: https://arxiv.org/abs/2605.06173
BioMedArena：生物医学系ディープリサーチエージェント構築・評価用オープンソースツールキット [cs.RO, cs.AI]目的：生物医学系ディープリサーチエージェントの構築と評価のためのツールキット
- 生物医学研究は複雑であり，効率的な情報収集と分析が不可欠である。
- 既存のツールキットは個別の論文ごとに調整が必要で，再現性が低い。
- 論文ごとのエンジニアリングコストを削減し，公平なモデル比較を可能にする。
- BioMedArenaは，ベンチマークの読み込み，ツールの露出，選択，実行モード，コンテキスト管理，スコアリングの6層を分離した。
- 147の生物医学的ベンチマークと75のツールを統合し，新しいモデル，ベンチマーク，ツールの追加を容易にした。
- 6つのエージェントハーネスと6つのコンテキスト管理戦略により，8つの代表的なベンチマークで最先端の結果を達成した。
Link: https://arxiv.org/abs/2605.06177
アダプター配置の再考：支配的適応モジュールの視点 [cs.AI, cs.CL, cs.LG]目的：少数アダプター配置における性能最大化
- 大規模言語モデルの効率的な微調整が，多様なタスクへの応用を可能にする上で重要である。
- LoRAではアダプターの配置場所が性能に大きく影響するが，最適な配置戦略は未だ不明である。
- 支配的適応モジュールに着目し，最小限のアダプターで高い性能を実現する配置方法を提案する。
- PAGEという勾配に基づく感度プローブにより，支配的適応モジュールが浅いFFNのダウンプロジェクションに集中していることが示された。
- DomLoRAは，この支配的適応モジュールに単一のアダプターを配置する。
- DomLoRAは，従来のLoRAと比較して，少ないパラメータで優れた性能を達成し，他のLoRA変種も改善した。
Link: https://arxiv.org/abs/2605.06183
シンボリック実行トレースによるLLMへのプログラム意味論の教授 [cs.SE, cs.LG, cs.PL]目的：LLMのプログラム意味論理解度向上
- LLMの能力向上は，安全で信頼性の高いソフトウェア開発に不可欠である。
- LLMはプログラムの特性確認は得意だが，違反検出性能に課題がある。
- プログラム違反検出性能の向上を目指す。
- LLMにシンボリック実行トレースで学習させることで，違反検出精度を大幅に改善した。
- 約3,000件のバグトレースと推論時の思考連鎖を組み合わせることで，精度が17%以上向上した。
- 8Bモデルは，4倍大きな32Bモデルを凌駕し，全体的な精度でも匹敵する性能を示した。
Link: https://arxiv.org/abs/2605.06184
イベント因果RAG：複雑なシナリオにおける長尺動画推論のための検索拡張生成フレームワーク [cs.AI, cs.CV]目的：長尺動画の複雑なシナリオにおける推論
- 動画理解は，多様な応用分野において重要な役割を担うため，その高度化が求められている。
- 既存手法は，長尺動画の文脈維持や時間的に離れたイベント間の因果関係推論が困難である。
- イベントと状態遷移をグラフ構造で表現し，効率的な検索と推論を可能にすることで，この課題を解決する。
- 提案手法Event-Causal RAGは，既存のクリップベースの検索手法や長文脈動画モデルを上回る性能を示す。
- 特に，複数イベントの統合や長期的な因果推論が必要な質問に対して，優れた結果が得られた。
- メモリ効率の向上とストリーミング性能の安定性も確認された。
Link: https://arxiv.org/abs/2605.06185
文脈内ブラックボックス最適化における信頼性の低いフィードバック [cs.LG, cs.AI]目的：科学技術におけるブラックボックス最適化の効率化
- 科学技術分野において，最適化は重要な課題であり，その効率化は研究開発の加速に繋がる。
- 従来のフィードバック活用法は，単一タスクに限定され，複数のフィードバック源の汎化が難しい。
- 文脈内学習とフィードバック情報を統合し，信頼性の低いフィードバックに対しても頑健な最適化手法を開発する。
- 提案手法FICBOは，複数のフィードバック源を効果的に活用し，探索を加速する。
- FICBOは，信頼性の低いフィードバック源に対してもロバストであり，既存手法を上回る性能を示す。
- モデルは，テスト時のフィードバック源の信頼性を評価し，解釈可能な意思決定を行うことが示された。
Link: https://arxiv.org/abs/2605.06187
OPSDによる圧縮：推論モデルに対するRLVR後の圧縮段階 [cs.AI, cs.CL]目的：思考を伴う数学的推論における，オンポリシー自己蒸留（OPSD）の挙動の解明
- 大規模言語モデルの推論能力向上は，様々な分野での応用を可能にする重要な課題である。
- 強化学習（RL）を用いた推論モデルの学習は，報酬の設計が難しく，学習の安定性に課題がある。
- OPSDをRLVRの後に適用することで，推論性能を維持しつつ，応答を短縮できる可能性に着目する。
- 思考を伴う数学的推論において，OPSDは修正メカニズムよりも圧縮メカニズムとして機能することが示された。
- 正解ロールアウトのみで学習することで，精度を維持しつつ応答を大幅に短縮できることが確認された。
- 誤りロールアウトのみで学習すると，精度が低下することが示された。
Link: https://arxiv.org/abs/2605.06188
制約付き文脈バンディットと敵対的文脈 [cs.LG]目的：予算制約下の文脈バンディット問題における後悔と予算制約違反の制御
- 機械学習における意思決定問題の重要性が増しており，文脈バンディットはその代表的な枠組みである。
- 敵対的な文脈下では，既存手法では十分な性能保証が得られない場合がある。
- より一般的な敵対的文脈下においても，確実な性能保証を持つアルゴリズムを開発すること。
- 提案手法は，オンライン回帰オラクルを活用し，制約付き問題を標準的な制約なし文脈バンディット問題に変換する。
- この変換により，敵対的文脈下で改善された保証が得られるだけでなく，効率的なアルゴリズムが実現する。
- SquareCBフレームワークを基盤とし，シンプルかつモジュール化された構造を実現している。
Link: https://arxiv.org/abs/2605.06190
退院時クリニカルアクション抽出のための大規模言語モデルの系統的評価 [cs.AI]目的：退院時クリニカルアクション抽出における大規模言語モデルの性能評価
- 医療現場では，退院後の患者ケアが重要であり，適切な指示の抽出が不可欠である。
- 既存手法では，臨床文書の複雑さからアクション抽出の精度が十分でない場合がある。
- 大規模言語モデルの活用により，より正確かつ効率的なアクション抽出を目指す。
- 最新の大規模言語モデルは，バイナリ形式のアクション検出において，教師ありモデルと同等以上の性能を示す。
- 一方で，詳細なマルチラベル分類においては，依然として教師ありモデルが優位性を維持する。
- エラー分析から，モデルの推論とアノテーションのずれが課題であり，臨床的根拠に基づいたアノテーションの必要性が示唆された。
Link: https://arxiv.org/abs/2605.06191
EA-WM：構造化された運動学的-視覚的行動場を用いたイベント認識型生成ワールドモデル [cs.CV, cs.AI, cs.RO]目的：ロボットの運動と視覚的知覚間のループを効果的に閉じるための生成ワールドモデル
- ロボットにおける環境理解と行動計画において，視覚情報と運動情報の統合が重要である。
- 既存のワールドモデルは，ロボットの空間的形状や物体との相互作用を正確に再現できていない。
- 運動情報と視覚情報を直接的に結びつけることで，より忠実な環境生成を目指す。
- 提案手法EA-WMは，運動学的状態と視覚情報を構造化された行動場としてカメラ視点に投影する。
- イベント認識型の双方向融合ブロックにより，物体状態の変化と相互作用を捉える。
- WorldArenaベンチマークにおいて，既存手法を大きく上回る性能を達成した。
Link: https://arxiv.org/abs/2605.06192
粒度軸：言語モデルにおける社会的役割の微視的から巨視的への潜在的次元 [cs.CY, cs.AI, cs.CL]目的：言語モデルにおける社会的役割の粒度の潜在的表現
- 言語モデルは多様な社会的役割を担えるが，その内部表現で粒度がどのように扱われているかは不明であった。
- 言語モデルが社会的役割を理解する際の粒度概念の構造が明確でなかった。
- 言語モデルにおける社会的役割の粒度を定量化し，その影響を検証すること。
- 言語モデルの隠れ状態において，微視的な個人の経験から巨視的な組織・国家レベルの推論まで，粒度を表現する「粒度軸」が存在することが示された。
- この軸は，Qwen3-8Bモデルにおいて役割表現空間の主要な軸と高い相関を示し，粒度がモデルの社会的役割を組織化する主要な次元であることが明らかになった。
- 活性化ベクトルを操作することで，応答の粒度を予測通りに変化させることができ，粒度は表面的な特徴ではなく，操作可能な潜在的次元であることが示された。
Link: https://arxiv.org/abs/2605.06196
医療画像における説明可能な深層学習のための視覚的顕著性と大規模言語モデルの架け橋 [cs.CV, cs.LG]目的：深層学習モデルの説明可能性向上
- 医療画像診断における深層学習の応用は目覚ましいが，その判断根拠の不透明さが臨床現場での普及を阻んでいる。
- 既存の説明手法では，視覚的な情報と臨床的な知見を繋げるのが難しく，専門家にとって解釈が困難な場合が多い。
- 視覚的顕著性と大規模言語モデルを融合し，解釈可能な診断報告を生成することで，この問題を解決することを目指す。
- CNNとセグメンテーションヘッドを組み合わせたハイブリッドモデルが，空間的に豊かな特徴学習を可能にした。
- Grad-CAM++が最高のセグメンテーション性能を示し，Grok3が語彙の多様性と文章の整合性で優れていた。
- 視覚的，解剖学的，言語的情報を統合することで，技術的に妥当で臨床的に解釈可能な説明を提供し，AI診断の透明性を高めた。
Link: https://arxiv.org/abs/2605.06197
アノテーションフリーなMLLMの検証：視覚言語論理一貫性指標 [cs.CL, cs.AI]目的：視覚言語論理一貫性の評価
- 大規模言語モデルの性能評価において，高い精度だけでは不十分な場合がある。
- 従来の評価方法では，正解アノテーションが必須であり，新規タスクへの適用が困難。
- 正解アノテーションなしで，MLLMの論理的な整合性を評価する指標を提案する。
- 提案するVL-LCMは，既存のMC-VQAテストとNaturalBenchテストで有効であることが示された。
- 近年のMLLMは精度が向上しているものの，論理一貫性は依然として課題が残る。
- VL-LCMは，精度と信頼性の両面からMLLMの選定，検証，そして新規タスクにおける回答の正当化に貢献しうる。
Link: https://arxiv.org/abs/2605.06201
汎用オープンマルチエージェントシステムにおけるバンディット学習 [cs.LG, stat.ML]目的：オープンシステムにおけるバンディット学習の理論的枠組みと手法
- デジタルプラットフォームの普及により，エージェントが動的に参加・離脱するシステムの重要性が高まっている。
- 既存研究はシステムの構造に依存しており，現実の複雑な環境への適用が困難である。
- 一般化された動的環境下におけるバンディット学習の最適解を導き，エージェントの変動に対応する手法を開発する。
- 新たに「事前学習度」「安定性」「グローバル動的後悔」の概念を導入し，オープンシステムの複雑さを捉えた。
- エージェントの参加が不確実性として線形的に影響し，安定した状況下では最適な腕の識別にかかる時間が後悔に影響する。
- 提案手法の理論的保証と，困難な事例における下限を示すことで，その有効性を明らかにした。
Link: https://arxiv.org/abs/2605.06202
専門家の連合：大規模言語モデルのための効率的な分散推論 [cs.LG]目的：大規模言語モデルにおける計算効率の向上
- 大規模言語モデルの利用拡大には，計算資源の効率的な活用が不可欠である。
- 分散環境下では，専門家間でのトークン埋め込みの通信がボトルネックとなる。
- 専門家間の通信負荷を軽減し，分散推論の効率を向上させる。
- 提案手法「専門家の連合」は，MoEブロックを複数のクラスタに再構成することで，ノード内でのみ全結合通信を行う。
- シングルノード環境では，全結合通信を完全に排除し，マルチノード環境では通信オーバーヘッドを大幅に削減する。
- LongBenchを用いた評価により，推論スループットとレイテンシが大幅に改善され，最長5.2倍の高速化が確認された。
Link: https://arxiv.org/abs/2605.06206
エントロピー崖の克服：自己回帰型ビジュアル生成のための可変コードブックサイズ量子化 [cs.CV, cs.AI, cs.LG]目的：自己回帰型ビジュアル生成におけるコードブックサイズの最適化
- 画像生成モデルの性能向上には，効率的な表現学習が不可欠である。
- 従来の固定サイズコードブックは，情報理論的な限界に達しやすく，冗長な学習を引き起こす。
- シーケンスの位置に応じてコードブックサイズを変化させることで，表現効率を向上させる。
- 提案手法VCQは，ImageNet 256x256において，gFIDを27.98から14.80に大幅に低減した。
- さらに，6億8400万パラメータのモデルでは，gFID 1.71を達成し，高品質な画像生成を可能にした。
- 最小コードブックサイズの設定により，粗い意味構造から細かい意味構造を自然に捉えることができた。
Link: https://arxiv.org/abs/2605.06207
限界における対照的な識別と生成 [cs.LG, cs.AI, cs.CL, cs.DS]目的：対照的なデータからターゲット仮説を識別・生成すること
- 機械学習において，限られたデータから仮説を学習する枠組みは重要である。
- 従来の学習方法は，個々のラベルに焦点を当てており，関係性を持つデータへの対応が課題であった。
- 関係性のあるデータから仮説を効率的に学習する手法を確立することを目指す。
- 対照的な識別可能なクラスの正確な特徴付けと，対照的なクロージャー次元を定義した。
- 均一な対照的な生成のサンプル複雑度を正確に評価し，識別と生成の相互比較可能な階層構造を明らかにした。
- 有限の敵対的破損下で，対照的なペアからの識別と正例からの識別が異なることを示した。
Link: https://arxiv.org/abs/2605.06211
ネットワークを逆向きにプレイする：ゲーム理論的帰属フレームワーク [cs.LG, cs.CV]目的：モデルの予測を駆動する入力特徴量の帰属
- 機械学習モデルの信頼性と解釈性は重要であり，そのためにモデルの挙動を理解する必要がある。
- 既存の逆向き帰属法は，その計算方法に一貫した理論的枠組みが存在せず，比較が困難である。
- ゲーム理論の枠組みを導入し，帰属問題を解決することで，手法の比較や改善を目指す。
- 逆向き帰属を2人ゲームとして捉えることで，勾配やLRPなどの既存手法を統一的に説明可能となった。
- 説明の望ましい特性をゲーム理論の概念として定義し，帰属ルールの改良に繋げることが示された。
- ViT-B/16において，提案手法は既存のTransformer向け手法を上回り，局所化指標で優位性を示した。
Link: https://arxiv.org/abs/2605.06212
大規模言語モデルの動的境界評価：固定されたベンチマークと最悪の攻撃を超えて [cs.AI]目的：言語モデルの能力ギャップを明らかにする評価手法の確立
- 言語モデルの性能評価は，その応用拡大に不可欠であり，信頼性の高い評価が求められている。
- 既存の固定されたベンチマークでは，上限と下限効果により，モデルの潜在能力を正確に評価できない。
- モデルの境界を動的に特定し，客観的な難易度尺度で評価することで，より詳細な能力評価を目指す。
- 動的境界評価(DBE)により，安全性，能力，真実性を網羅した校正済みの問題バンクを構築した。
- Skill-Guided Boundary Search(SGBS)アルゴリズムを用いて，APIアクセスのみでモデルの境界を効率的に探索することを可能にした。
- DBEは，既存のデータセットと互換性を保ちつつ，より広い範囲のモデルを飽和することなく評価できる。
Link: https://arxiv.org/abs/2605.06213
TIDE：文脈下のトークンは自身のインデックスを知っている [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおけるトークン表現の学習と活用に関する問題解決
- 言語モデルの性能向上には，語彙全体を効率的に表現することが不可欠である。
- 稀少トークンの学習不足や，文脈埋め込み表現の識別力低下が課題となっている。
- トークンインデックスを多層で活用し，これらの問題を緩和することを試みる。
- TIDEは，EmbeddingMemoryを導入することで，各層でトークンインデックスを活用する。
- これにより，稀少トークンの学習を促進し，文脈埋め込み表現の識別力を向上させる。
- 実験結果から，言語モデリングや下流タスクにおいて性能改善が確認された。
Link: https://arxiv.org/abs/2605.06216
アフィンレンズ：ニューラルネットワークの連続的区分アフィン関数を捉える [cs.LG]目的：ニューラルネットワークの表現力を特徴付ける区分アフィン関数に基づく領域分割の計算と可視化
- ニューラルネットワークの挙動解釈は，AIの信頼性と安全性を高める上で不可欠である。
- 既存手法では，領域分割の正確な列挙や可視化が困難であり，実用的なツールが不足している。
- アフィンレンズは，現実的なアーキテクチャにおける領域分割を正確に計算し，可視化することでこの問題を解決する。
- アフィンレンズは，ニューロンによって誘導される超平面の配置と，それによって定義される多面体構造を計算する統一的なフレームワークである。
- 入力多面体内の超平面を特定し，層ごとにアフィン部分領域を列挙することで，最大のアフィン領域を特定する。
- アフィンレンズを用いて，アーキテクチャの表現力を体系的に分析し，設計選択が学習された関数の幾何学に与える影響を明らかにした。
Link: https://arxiv.org/abs/2605.06218
結合整合性：エネルギー最小化によるテスト時集約の統一的フレームワーク [cs.AI]目的：テスト時集約における整合性向上
- 大規模言語モデルの推論能力を最大限に引き出すために，テスト時の集約が重要である。
- 既存手法は個々の推論経路を独立に評価するため，経路間の相互作用が無視されている。
- 推論経路間の比較を通じて，よりロバストな集約を実現し，性能向上を目指す。
- 提案手法「結合整合性」は，エネルギー最小化問題として定式化され，既存の集約手法を包含する。
- LLMを裁判官として活用し，経路間の比較から相互作用行列を構築する理論的根拠も示す。
- 数学とコード推論のベンチマークにおいて，既存手法を安定的に上回る性能を達成した。
Link: https://arxiv.org/abs/2605.06219
想像をいつ信頼するか：ワールドアクションモデルにおける適応的行動実行 [cs.CL, cs.RO, cs.AI]目的：ワールドアクションモデルの信頼性に基づく適応的な行動実行
- ロボットが複雑な操作を自律的に行う上で，未来の状況を予測し計画することは重要である。
- 従来のワールドアクションモデルは，予測と現実の乖離を検知できず，計画の柔軟性に欠ける。
- 予測と現実の整合性を検証し，実行計画を適応的に変更することで，ロボットの信頼性と効率を向上させる。
- 提案手法FFDCは，予測される未来の状態と現実の観測を比較し，行動実行の信頼性を評価する。
- RoboTwinベンチマークにおいて，FFDCはWAMの処理回数を69.10%削減し，実行時間を34.02%短縮，成功率を2.54%向上させた。
- 実環境実験では，成功率が35%向上し，頑健性と効率性のトレードオフを両立していることが示された。
Link: https://arxiv.org/abs/2605.06222
曖昧なユーザークエリに対する比較判断を用いた積極的なインスタンスナビゲーション [cs.AI, cs.RO]目的：曖昧なユーザークエリに対するインスタンスナビゲーションの改善
- 自然言語による指示に基づいたナビゲーションは，現実世界でのロボットの自律性を高める上で重要である。
- 初期の要求が曖昧な場合，ターゲットインスタンスを一意に特定することが困難である。
- 類似インスタンスとの比較を通じてターゲットを特定し，ユーザーの負担を軽減すること。
- 提案手法ProCompNavは，候補プールを構築し，比較判断によってターゲットを識別する二段階フレームワークである。
- 各ラウンドで，候補プールを分割する属性値ペアを抽出し，二者択一の質問を行い，矛盾する候補を一括で除外する。
- CoIN-BenchとTextNavにおける実験で，ProCompNavは既存手法を上回り，応答長さを大幅に削減した。
Link: https://arxiv.org/abs/2605.06223
潜在空間KVキャッシュ操作によるLLMの操縦：メモリー・インセプション [cs.LG, cs.AI]目的：LLMの操縦手法
- LLMの性能向上には，ユーザーの意図に沿った適切な制御が不可欠である。
- 既存手法では，制御の強さと効率性のバランスが課題となっていた。
- LLMの潜在空間を活用し，効率的かつ強力な操縦を実現する。
- メモリー・インセプション（MI）は，選択されたレイヤーにのみテキスト由来のKVバンクを挿入する，学習不要の操縦手法である。
- MIは，プロンプティングと同等の制御性能を持ちながら，CAAよりも優れた性能を発揮する。
- MIは，会話中の行動の変化や，構造化された推論タスクにおいて，高い精度を達成し，KVストレージを大幅に削減する。
Link: https://arxiv.org/abs/2605.06225
稀な疾患の診断とリスク遺伝子優先順位付けのための汎用AIエージェント [cs.AI, q-bio.GN]目的：稀な疾患の診断精度向上とリスク遺伝子の特定
- 稀な疾患は早期診断が重要であり，適切な治療に不可欠である。
- 現在の診断プロセスは時間がかかり，精度が低いという課題がある。
- 多様なデータ統合による診断支援と，リスク遺伝子の優先順位付けを実現する。
- Hygieiaは複数の診断ベンチマークにおいて最先端の性能を達成した。
- 医師と比較して，Hygieiaの診断性能は12%～60%向上することが示された。
- Hygieiaは臨床記録の分析において，医師の負担軽減に貢献することが実証された。
Link: https://arxiv.org/abs/2605.06226
短期・長期アルゴリズム選択における公平性の代償 [cs.AI]目的：短期および長期的なアルゴリズム選択における公平性と有用性のトレードオフの定量化
- 重要な意思決定においてアルゴリズムが利用される場面が増加しており，その公平性が社会的に求められている。
- 静的な公平性制約は，長期的に見て格差を拡大させる可能性があるという課題が指摘されている。
- 短期および長期的な公平性の概念を導入し，公平性と有用性の間のトレードオフを分析することで，その解決を目指す。
- 短期的な公平性の代償（PoF）は，グループ間の分布がほぼ同一であっても大きくなる可能性があることが示された。
- 一方で，単純な投資政策によって長期的な格差を解消し，低いPoFを達成できることが示された。
- 合成データおよび実データを用いた実験により，理論的な観察結果が検証された。
Link: https://arxiv.org/abs/2605.06227
ガウス平滑化を用いたソフト決定方策勾配 [cs.LG, cs.AI]目的：連続制御における方策勾配の安定化
- 連続制御において決定方策勾配法は広く用いられる。しかし，その性能は環境に依存する。
- 疎な報酬や離散的な報酬を持つ問題では，方策勾配が不安定になりやすい。
- 報酬が滑らかでない環境下での学習安定性を向上させる。
- 提案手法は，ガウス平滑化により定義されたBellman方程式に基づいている。
- これにより，行動価値関数の勾配が明確に定義され，非滑らかなQ関数でも安定した学習が可能となる。
- 実験結果から，提案手法は疎な報酬環境で特に高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.06228
Safactory：信頼性の高い自律型知能のためのスケーラブルなエージェントファクトリー [cs.AI, cs.DC]目的：信頼性の高い自律型知能のためのスケーラブルなエージェントファクトリー
- 大規模言語モデルが自律エージェントへと進化するにつれ，その重要性が増している。
- 既存のインフラは，評価，データ管理，エージェントの進化が分断されており，リスクの体系的な発見と継続的な改善が困難である。
- 次世代の信頼性の高い自律型知能のための統一的な進化パイプラインを提案し，課題解決を目指す。
- Safactoryは，並列シミュレーションプラットフォーム，信頼性の高いデータプラットフォーム，自律進化プラットフォームを統合したスケーラブルなエージェントファクトリーである。
- Safactoryは，軌跡生成，軌跡保存と経験抽出，非同期強化学習とオンポリシー蒸留を緊密に結合したプラットフォームを提供する。
- 本研究で提案するフレームワークは，次世代の信頼性の高い自律型知能のための統一的な進化パイプラインの初の試みである。
Link: https://arxiv.org/abs/2605.06230
OBLIQ-Bench：最新検索器における見過ごされがちなボトルネックの露呈 - 潜在的・暗黙的なクエリに着目して [cs.RO, cs.HC, cs.IR, cs.AI]目的：潜在的・暗黙的なクエリに対する検索性能のボトルネック
- 情報検索技術は，大量のデータから必要な情報を効率的に抽出するために不可欠である。
- 既存の検索ベンチマークは飽和しつつあるが，効率的な検索は未解決の課題である。
- 潜在的なパターンや暗黙的なシグナルを効率的に捉える検索アーキテクチャの開発を促進する。
- OBLIQ-Benchは，実際の長尾コーパスを用いた5つの間接検索問題から構成される。
- 検索と検証の間に非対称性が存在し，LLMは関連文書が提示されれば潜在的な関連性を確実に認識するが，高度な検索パイプラインでも関連文書を提示できない場合が多い。
- 本研究は，潜在的なパターンや暗黙的なシグナルを効率的に捉える検索アーキテクチャの必要性を示唆する。
Link: https://arxiv.org/abs/2605.06235
バンドを組む：回避型プロモーション攻撃に対するマルチモーダル協調を用いた非ターゲット敵対的学習 [cs.LG, cs.AI]目的：回避型プロモーション攻撃に対するロバスト性の向上
- マルチモーダル推薦システムはデータスパースネスを緩和するが，セキュリティ上の脆弱性も抱えている。
- 既存の防御策は単一モーダルに限定され，回避型攻撃への対策が遅れている。
- マルチモーダル協調による勾配の不一致を修正し，ロバスト性を高めることを目指す。
- 提案手法UAT-MCは，マルチモーダル間の勾配不一致を解消し，敵対的摂動を同期させる。
- UAT-MCは，プロモーション攻撃に対するロバスト性を大幅に向上させる。
- 防御性能と推薦精度間のトレードオフを考慮し，適切な性能を維持する。
Link: https://arxiv.org/abs/2605.06238
グラフ言語モデルが記憶を超えて学習するとき [cs.LG]目的：グラフ言語モデルの構造的規則性の学習の検証
- グラフ構造データは様々な分野で重要であり，その効率的な処理が求められている。
- グラフ言語モデルが構造を学習しているのか，単にグラフを記憶しているのかが不明である。
- グラフ言語モデルが記憶を超えた構造的規則性を獲得できるか検証する。
- 大規模なデータセットにおいて，グラフ言語モデルは記憶を超えた構造的規則性を獲得することが示された。
- 頻繁に出現するサブグラフにおいて，高い順位相関が確認された。
- データ規模が小さい場合は記憶による再現性が高く，規模が大きくなるにつれて記憶による再現性は低下する。
Link: https://arxiv.org/abs/2605.06239
前方フィードフォワードネットワークにおける累積優良性フリーライド：実態，修復可能性，そして精度への支配性 [cs.LG, cs.AI]目的：前方フィードフォワードネットワークにおける層のフリーライド現象の形式化と対策
- 深層学習は高精度なモデル構築に不可欠だが，学習の安定性や解釈可能性が課題である。
- 前方フィードフォワードネットワークでは，層が過去の層の成果に依存し，学習が進まない場合がある。
- 本研究は，層のフリーライド現象を明確化し，それを改善するための手法を提案する。
- 累積優良性フリーライドは，ソフトプラスの良さ基準下で，後続の層が先行層の分離能力を利用する現象として形式化された。
- 提案された対策（ブロックごとの調整，ハードネスゲート，深さスケーリング）により，層の分離指標が大幅に改善された。
- アーキテクチャやデータ拡張の方が，学習規則の変更よりも最終的な精度に大きな影響を与えることが示された。
Link: https://arxiv.org/abs/2605.06240
離散オイラー・ラグランジュ方程式による構造保存型ガウス過程 [cs.CL, cs.MM, cs.LG, cs.RO]目的：離散強制オイラー・ラグランジュ方程式に基づく確率的かつデータ効率的なダイナミクスの学習
- 物理システムの運動を記述する上で，エネルギー保存等の幾何学的構造を維持することが重要である。
- 従来のダイナミクス学習手法では，エネルギーのドリフトが生じやすく，長期間の予測が困難となる場合がある。
- 位置データのみから，物理的に整合性のあるダイナミクスモデルを学習し，安定した長期間予測を可能にすること。
- 提案手法であるLGPsは，位置データのみを用いて，物理的に整合性のあるダイナミクスを学習できることが示された。
- LGPsは，エネルギーのドリフトを抑制し，安定した長期間予測を可能にする。
- 様々な合成データおよび実世界データ（ヒステリシスのあるソフトロボットを含む）を用いた実験により，LGPsのデータ効率と汎化能力が確認された。
Link: https://arxiv.org/abs/2605.06246
グラフプーリングにおけるノード特徴の役割 [cs.RO, cs.LG]目的：グラフプーリングにおけるノード特徴とグラフ構造の相互作用の影響分析
- グラフ分類において，効率的なグラフ表現は重要であり，計算コストの削減に繋がる。
- 既存のグラフプーリング手法では，GNNによる性能向上効果が限定的である場合がある。
- ノード特徴とグラフ構造の整合性を高め，効果的なプーリングを可能とする条件を明確化する。
- プーリング演算子は，グラフのトポロジーと整合性の取れたノード特徴を必要とする。
- ノード特徴の質を定量的に評価するための指標が提案された。
- 提案手法により，条件が満たされた場合にプーリングが有効であることが示された。
Link: https://arxiv.org/abs/2605.06250
深層ネットワークにおける逐次的な特徴線形化を重みグラム行列が捉える [cs.HC, cs.LG, cs.AI]目的：深層ネットワークにおける特徴量の学習過程の解析
- 深層学習の理論的理解は，機械学習分野において中心的課題である。
- 深層ネットワークがどのように表現を学習するか，そのメカニズムが不明確である。
- 特徴量の進化を捉える重みグラム行列の役割を解明し，学習過程を説明する。
- 重みグラム行列が特徴量のダイナミクスを捉える主要な要素であることが示された。
- 勾配降下法が特徴量の仮想的な進化を暗黙的に誘導し，表現が訓練中に進化する様子が明らかになった。
- 深層ネットワークは，ターゲットとの線形アラインメントを伴う特徴量を逐次的に変換して学習することが示された。
Link: https://arxiv.org/abs/2605.06258