arXiv雑要約

AI - 2026/05/29 公開

蒸留ゲーム：適応的攻撃と効率的な防御 [cs.CL, cs.LG, cs.AI]目的：モデルの蒸留攻撃と防御に関する研究
- AIモデルの普及に伴い，そのセキュリティと堅牢性の確保が重要となっている。
- モデルの有用性と模倣の容易さはトレードオフの関係にあり，防御が困難である。
- 適応的な攻撃を考慮した，より現実的な防御戦略の評価を目指している。
- 適応的評価により，従来の防御手法では見過ごされていた脆弱性が明らかになった。
- PoE（Product-of-Experts）という効率的な防御手法が，高価な防御手法と同程度の性能を発揮することが示された。
- 蒸留攻撃の阻止は依然として困難であり，適応的な攻撃を考慮した評価が不可欠である。
Link: https://arxiv.org/abs/2605.22737
一貫性学習による政治的操縦の軽減 [cs.CL, cs.AI]目的：大規模言語モデルにおける潜在的な政治的偏りの軽減
- 自然言語処理の発展に伴い，AIの公平性・中立性が重要視されている。
- 大規模言語モデルは，政治的に敏感な文脈で系統的な偏りを示すことが課題となっている。
- 潜在的な政治的偏りを検出し，モデルの公平性を高めるための手法を開発する。
- 本研究では，大規模言語モデルの政治的偏りを「潜在的政治的偏り」と定義し，その構造を明らかにした。
- 提案手法であるPolitical Consistency Training (PCT) は，モデルの有用性を維持しつつ，潜在的政治的偏りを大幅に軽減することを示した。
- PCTは，様々なベンチマークテストにおいて，高い汎化性能を発揮することが確認された。
Link: https://arxiv.org/abs/2605.22771
モバイルデバイス向けプライバシー保護フェデレーテッドレコメンダーシステムの構築 [cs.DC, cs.LG, cs.IR]目的：モバイルデバイスにおけるプライバシー保護型フェデレーテッドレコメンダーシステム
- パーソナライズされたコンテンツ提供は重要だが，中央集権的なデータ収集はプライバシー侵害の懸念がある。
- ユーザーデータの集中管理は，プライバシー保護の観点から問題視されている。
- デバイス上でのデータ処理により，プライバシーを保護しつつレコメンデーションの精度を維持すること。
- 提案システムは，機密性の低いデータと高いデータを分離することでプライバシーを保護する。
- クラウドで候補アイテムを絞り込み，デバイス上で再ランク付けを行う二段階構成を採用。
- MovieLens等のデータセットで有効性が確認され，Android/iOSにデプロイ可能なライブラリとして実装された。
Link: https://arxiv.org/abs/2605.22924
グラフニューラルネットワークに対する自己教師あり敵対的浄化 [cs.CL, cs.CY, cs.LG]目的：グラフニューラルネットワークの敵対的攻撃に対する防御
- グラフニューラルネットワークは，様々な応用で利用され，その堅牢性が重要である。
- 従来の防御手法は，精度と堅牢性のバランスを取ることが難しく，トレードオフが生じやすい。
- この研究は，入力データを事前に浄化することで，精度と堅牢性を分離し，GNNの防御性能を向上させる。
- 提案手法GPR-GAEは，自己教師あり学習により多様なグラフ構造に適応し，効果的な浄化を実現する。
- 複数のGeneralized PageRankフィルタを用いることで，多様な構造的表現を捉え，堅牢な防御を可能にする。
- 実験結果から，GPR-GAEが最先端の堅牢性を示し，GNN分類器のための独立したプラグアンドプレイ型の浄化器として有効であることが示された。
Link: https://arxiv.org/abs/2605.23239
SSDAU：エンティティと関係抽出のための構造化セマンティックデータ拡張 [cs.CL, cs.AI]目的：エンティティと関係抽出における汎化性能の向上
- エンティティと関係抽出は，知識グラフ構築等の様々な自然言語処理タスクにおいて不可欠である。
- 既存のデータ拡張手法は，エンティティの関連性やセマンティック構造を損なう場合がある。
- セマンティック構造を維持しつつ，データ拡張による性能向上を目指す。
- SSDAUは，エンティティラベルによるテキスト分割と文脈を考慮したエンコーディングにより，セマンティック構造を維持したデータ拡張を実現する。
- SSDAUは，類似エンティティの識別と話題の一貫性維持のために，高度なフィルタリング技術を導入している。
- 実験の結果，SSDAUは既存手法と比較して，よりロバストで一貫性のある拡張データを生成し，JEREモデルの性能を大幅に向上させる。
Link: https://arxiv.org/abs/2605.23440
ナノワールドモデル：未来のビデオ予測のミニマリスト実装 [cs.CL, cs.CV, cs.AI, cs.LG]目的：未来のビデオ予測のためのミニマリスト実装
- 予測シミュレータは，生成，計画，意思決定を支援する重要なパラダイムである。
- 既存の実装は複雑で，再現性が低く，拡張が困難である。
- ワールドモデル研究のための，コンパクトで拡張可能な実験基盤を提供する。
- ナノワールドモデルは，拡散強制を中心とした，統一的なインターフェースを提供する。
- 予測パラメータ化，アーキテクチャ規模，行動注入などがビデオ予測品質に与える影響を検証した。
- コード，設定，評価スクリプトを公開し，オープンサイエンスに貢献する。
Link: https://arxiv.org/abs/2605.23993
HyperGuide：大規模言語モデルにおける効率的な多段階推論のための双曲ガイダンス [cs.AI]目的：大規模言語モデルにおける多段階推論の効率化
- 言語モデルの性能向上には，複雑な推論能力が不可欠である。その実現が課題となっている。
- 従来の推論手法は，精度と計算コストのトレードオフを抱えており，両立が困難である。
- 双曲幾何学的なシグナルを用いて，効率的かつ高精度な推論を可能にすることを目指す。
- 提案手法では，言語モデルの隠れ状態を双曲空間に射影し，推論の進捗状況を幾何学的なシグナルとして捉える。
- このシグナルに基づいて，低ランクアダプターをインタラクティブにファインチューニングすることで，推論性能を向上させる。
- 複数のベンチマークにおいて，提案手法は一貫した改善を示し，特に深い推論チェーンにおいて大きな効果が確認された。
Link: https://arxiv.org/abs/2605.24140
ConceptM$^3$oE：解釈可能な病理計算におけるコンセプト誘導マルチモーダル専門家混合 [cs.AI]目的：病理画像，病理レポート，分子測定値を活用した腫瘍亜型の診断根拠の概念化
- 医療AIにおいて，多様な情報を統合し，より正確な診断を支援するマルチモーダル推論の重要性が増している。
- 既存モデルは，多様な情報源からの信号がどのように診断概念に結びつくかを明確に示せていない。
- 病理診断における解釈性を高めつつ，高精度なAIモデルを開発することを目指す。
- ConceptM$^3$oEは，専門家混合（MoE）構造とコンセプトボトルネックを組み合わせることで，各モダリティからの証拠を概念的に分解する。
- 小規模データセットにおいて，ConceptM$^3$oEは従来のモデルと比較して，macro-F1スコアを56.41%から66.70%に向上させ，学習の収束も速めた。
- 本研究は，臨床的判断に沿った検証可能な高性能医療AIの実現に向けたスケーラブルな道筋を提供する。
Link: https://arxiv.org/abs/2605.24399
マルチスペクトル画像における注意蒸留を用いた粗精細ドメインインクリメンタル学習による鉱跡セグメンテーション [cs.CV, cs.AI]目的：鉱跡セグメンテーションの精度向上
- 鉱業活動の社会環境リスクと影響を監視するため，遠隔センシングと深層学習による鉱跡の自動マッピングが重要である。
- 詳細なアノテーションデータの不足が，鉱跡セグメンテーションの進展を妨げている。
- 粗い境界データを利用し，ドメインシフトを克服して詳細なセグメンテーションの精度を向上させる。
- 提案手法MineC2FNetは，粗いドメインからの汎化知識を注意蒸留により選択的に転送し，詳細なデータを用いて境界を洗練する。
- 多様な地域と商品を含む219枚の精密な境界アノテーションデータセットを新たに作成し，公開した。
- 実験の結果，MineC2FNetは既存手法を上回り，ドメインシフトへの対応に優れていることが示された。
Link: https://arxiv.org/abs/2605.24460
小さな脳，巨大な影響：わずかなプロンプトでLLMの要となるニューロンを解明 [cs.LG, cs.AI]目的：LLMの要となるニューロンの特定
- LLMは高度な能力を持つが，その内部メカニズムは未だ解明されていないため，その理解が重要である。
- 既存の研究では，LLMの内部動作原理が十分に明らかになっておらず，モデルの挙動を予測・制御することが困難である。
- 本研究は，LLMの機能に不可欠な少数のニューロンを特定し，効率的な微調整手法を開発することを目指す。
- 多様なTransformerモデルにおいて，推論時に常に高い活性を示すニューロンのサブセットが存在することが示された。
- この「要となるニューロン」を取り除くことでモデルの性能が著しく低下し，その安定性と重要性が確認された。
- 要となるニューロンのみを微調整する手法は，フルパラメータ微調整と同等以上の性能向上を達成し，他の能力への影響を抑制した。
Link: https://arxiv.org/abs/2605.24846
HumanEgo：数分間の人間一人称視点ビデオからのゼロショットロボット学習 [cs.RO, cs.AI, cs.CV, cs.LG]目的：人間の一人称視点ビデオからロボットにスキルを転移するための枠組み
- ロボットの自律性を高めるには，人間の多様な操作スキルを効率的に学習する必要がある。
- 人間とロボットの視覚的・運動学的差異が，スキルの転移を困難にしている。
- 人間とロボットの差異を埋め，少ないデータでロボットにスキルを習得させる。
- HumanEgoは，人間による操作を，手と物体の相互作用レベルで表現することで，この差異を解消する。
- わずか30分間の人間ビデオで，4つの実世界タスクにおいて92.5%という高い成功率を達成した。
- 人間のデータを活用し，ロボットのハードウェアや環境に依存しない汎用的な学習フレームワークである。
Link: https://arxiv.org/abs/2605.24934
再パラメトリック化，重み減衰，適応学習率によるスパース最適化の理論的解析 [cs.LG, cs.AI]目的：スパース最適化手法ReWAの理論的性質
- 機械学習における過学習抑制やモデル圧縮に不可欠な技術分野である。
- p値が0と1の間にある場合，勾配が発散し最適化が不安定になる場合がある。
- ReWAがもたらす安定した最適化状況を明らかにし，スパース性を向上させる。
- 提案手法ReWAは，既存のL1正則化と比較して，スパース性を大幅に向上させる。
- ReWAは，テスト精度を維持しながら，より高いスパース性を実現できる。
- ResNetを用いた実験で，CIFAR-10およびImageNetにおいて有効性が確認された。
Link: https://arxiv.org/abs/2605.25134
企業向けAIクラウド資源需要予測のための知的な特徴量エンジニアリング：Eureka [cs.CL, cs.AI, cs.LG]目的：企業向けAIクラウド資源需要予測のための特徴量エンジニアリングの自動化
- 予測モデルの性能向上には特徴量が不可欠であり，AIシステムの精度を左右する重要な要素である。
- 効果的な特徴量作成には専門知識が必要であり，そのスケーラビリティが課題となっている。
- ドメイン知識を活用し，特徴量生成，評価，改善を繰り返すことで，特徴量エンジニアリングの自動化を目指す。
- Eurekaは，医療，金融，ソーシャルなど7つの公開ベンチマークで，従来のAutoFEやLLMベースラインを上回る性能を示した。
- Alibaba CloudのクラウドGPU資源需要予測において，Eurekaは需要充足率を16%向上させ，計算資源の移行率を33%削減した。
- 特徴量をプログラムとして表現することで，学習された生成パターンを異なるドメインに転移させることが可能となった。
Link: https://arxiv.org/abs/2605.25297
深層画像事前知識における原理に基づいた自己参照型早期停止手法 [cs.CV, cs.LG]目的：深層画像事前知識を用いた逆画像問題解決における早期停止の最適化
- 逆画像問題解決において，学習データを用いない深層画像事前知識が有効性が示されている。
- 深層画像事前知識は過パラメータ化によりノイズに過剰適合しやすく，早期停止が不可欠である。
- 不安定な再構成を招く既存手法の課題を克服し，より安定した早期停止を実現すること。
- ２つの独立したノイズ画像があれば，ほぼ最適な早期停止が可能となることが示された。
- 独立した画像を入手することが困難な場合でも，自己参照画像を用いた過剰適合検出フレームワークを提案。
- 自然画像や医療画像の復元において，既存手法を凌駕する性能が確認された。
Link: https://arxiv.org/abs/2605.25299
2からqノルムに対する多項式的に改善された近似率を持つアルゴリズム，およびその応用 [cs.DS, cs.LG, math.ST, stat.ML, stat.TH]目的：2からqノルムの近似率向上のためのアルゴリズム開発
- 組合せ最適化，量子情報，統計的アルゴリズムなど，広範な分野における課題解決に繋がる重要な研究領域である。
- 多項式時間で達成可能な近似率が限られており，特に大規模データに対する近似アルゴリズムの改善が求められている。
- 既存の近似アルゴリズムの性能を多項式的に向上させ，より実用的な近似解を導き出すことを目指す。
- 本研究により，q>2における2からqノルムに対する，既存のアルゴリズムを多項式的に上回る近似アルゴリズムが提案された。
- 特にq=4の場合，dの1/8乗近似を達成し，これまでを超える近似率を達成した。
- さらに，頑健な平均，共分散推定，回帰，クラスタリングなどの問題に対しても，アルゴリズムの改善に貢献する。
Link: https://arxiv.org/abs/2605.25303
KYA：検証可能な系統と階層的ポリシー合成を備えた自律システムのためのフレームワーク非依存型信頼層 [cs.CR, cs.AI, cs.CY, cs.MA, cs.SE]目的：自律システムにおける信頼とガバナンスの層
- 近年，自律システムの重要性が増しており，安全性の確保が不可欠である。
- 既存システムでは，信頼性やポリシーの遵守を検証することが困難である。
- 本研究は，自律システムの行動の正当性，準拠性，検証可能性を向上させることを目指す。
- KYAは，15以上のエージェントフレームワークとネイティブに連携する。
- 36個のバックエンドの検証マトリックスにおいて，全てのセルで正常に動作することを確認した。
- PyRITとGarakからの1,200回の敵対的プローブの89%を検出可能であり，セキュリティの有効性が示された。
Link: https://arxiv.org/abs/2605.25376
時間依存偏微分方程式のための自己回帰なしニューラル演算子 [cs.LG, cs.AI, cs.NA, math.NA]目的：時間依存偏微分方程式の解法
- 偏微分方程式は，物理現象のモデリングにおいて不可欠であり，その効率的な解法が求められている。
- 既存手法は長期間予測で誤差が蓄積しやすく，連続時間モデリングが不十分である。
- 誤差蓄積を抑制し，パラメータ変動に対応した長期予測を可能にすること。
- 本研究では，潜在空間への時間発展写像と連続時間ベクトル場のモデリングに基づくAFNOを提案した。
- AFNOはフローマッチングを利用し，自己回帰的な展開を回避することで，長期予測の安定性を向上させた。
- 6種類の偏微分方程式における実験により，AFNOが既存手法よりもロールアウト誤差を軽減することが示された。
Link: https://arxiv.org/abs/2605.25413
Lean 4における効率的なタクティクス探索のためのスナップショット手法 [cs.LO, cs.AI]目的：Lean 4におけるタクティクス探索の効率向上
- 形式証明システムは数学の自動化やソフトウェアの検証に不可欠であり，その性能向上が求められている。
- タクティクス探索において，証明状態の再構築に多大な時間を要し，大規模な探索が困難になっている。
- 証明状態のスナップショットを用いて再構築のオーバーヘッドを削減し，効率的なタクティクス探索を実現する。
- 提案手法により，miniF2F-v2問題群において，標準的な手法と比較して5.6～50倍の高速化を達成した。
- 特に，探索ブランチ数が増加するほど，高速化の効果は顕著になる。
- 本手法は，インポートレベルのキャッシュとは異なり，定理本文の展開にかかるオーバーヘッドを削減する点が特徴である。
Link: https://arxiv.org/abs/2605.25556
能力と頑健性はトレードオフの関係にある：視覚-言語-行動モデルに対する情報理論的限界 [cs.CR, cs.LG]目的：視覚-言語-行動モデルの能力と頑健性の間の情報理論的限界の導出
- 視覚-言語-行動モデルは様々なタスクで高い性能を示すが，その信頼性は脆弱である。
- わずかな摂動に対して性能が急激に低下するため，実用的な応用において頑健性の向上が課題である。
- 能力と頑健性のトレードオフを理論的に明らかにし，その限界を定めることを目指す。
- 能力（行動と理想的な行動の相互情報量）と頑健性（攻撃下で保持される相互情報量）の合計には上限があることを証明した。
- 上限はタスクのエントロピーと敵対的チャネル容量によって決定され，行動空間における信号漏洩が重要な役割を果たす。
- 実験結果は，様々なモデルと攻撃手法において，導出された限界と一致しており，モデルの評価や防御戦略の検討に役立つ診断指標も提供する。
Link: https://arxiv.org/abs/2605.25889
CausaLab：AI研究者向けインタラクティブ因果探索のスケーラブルな環境 [cs.AI, cs.CL]目的：LLMエージェントによるインタラクティブ因果探索の評価環境
- AIの発展には，データから因果関係を理解する能力が不可欠である。
- LLMは予測性能は高いが，因果メカニズムの理解が不十分である。
- 予測精度と因果メカニズムの再現性の乖離を明確にすること。
- CausaLabは，エージェントの因果的証拠を用いた問題解決能力と，得られた答えの信頼性を評価する。
- GPT-5.2-highは観測データのみでは高いタスク精度を示すものの，因果グラフの再現性は低い。
- 一貫性検証は，エージェントの早期停止の弱点を緩和し，因果推論能力の向上に繋がる。
Link: https://arxiv.org/abs/2605.26029
パリ2.0：ビデオ生成のための分散型拡散モデル [cs.CV, cs.LG]目的：ビデオ生成のための分散型拡散モデル
- 近年，深層学習によるコンテンツ生成が注目されており，その応用範囲は広い。
- 大規模な計算資源が求められるため，ビデオ生成モデルの学習は困難であった。
- 分散型計算を用いてビデオ生成モデルを学習し，計算資源の制約を克服する。
- パリ2.0は，分散型計算で事前学習された初のビデオ生成モデルである。
- 同じ計算量で学習された集中型モデルと比較して，FVDを561.04から279.01に削減し，約2.0倍の改善を達成した。
- CLIPテキスト-ビデオ類似度と美的スコアも向上した。
Link: https://arxiv.org/abs/2605.26064
GoQuant：乗算器不要なPower-of-Two Transformer量子化のための幾何学的直交残差射影 [cs.LG, cs.AI]目的：Transformer量子化における幾何学的制約の克服と，効率的なハードウェア実装
- 大規模言語モデルやVision Transformerの普及には，メモリ制約と計算コストが課題となる。
- Power-of-Two量子化は効率的だが，低い角度分解能が特徴量空間の歪みを招く。
- GoQuantは幾何学的アプローチにより，残差格子を高分解能化し，この歪みを軽減する。
- GoQuantは，量子化を幾何学的射影として定式化することで，シフトと加算のみの演算で高分解能の残差格子を生成する。
- LLaMA-2-7Bの3bit量子化（W3/A16）において，従来のMAC集約型ベースライン（AWQなど）と同等以上の性能を示す。
- 28nmノードでのRTL合成により，GoQuantが乗算器ツリーに関連するタイミングボトルネックを効果的に軽減することが確認された。
Link: https://arxiv.org/abs/2605.26092
バイアスをバグに変える：LLM判定器に対するバンディット誘導型スタイル操作攻撃 [cs.CR, cs.AI, cs.LG]目的：LLM判定器を欺き，スコアを人為的に高めるための，意味を保持する編集の学習
- LLMは評価の自動化に利用されるが，その評価の公平性・信頼性が重要である。
- LLM判定器には，冗長性や特定の文構造を好むといったスタイルに関するバイアスが存在する。
- LLM判定器のバイアスを利用し，攻撃によって評価を操作する手法を開発すること。
- 提案手法BITEは，LLM判定器を欺くための編集を，コンテキストバンディット問題として学習する。
- 多様なLLM判定器とタスクにおいて，65%を超える攻撃成功率と，9段階スケールで1-2ポイントのスコア向上を達成した。
- BITEは，標準的なスタイル制御手法や検知基盤を回避し，攻撃の隠蔽性に優れていることが示された。
Link: https://arxiv.org/abs/2605.26156
分類と再構成の架け橋：協調時系列異常検知 [cs.LG, cs.AI]目的：時系列異常検知における分類と再構成の協調的活用
- 時系列データは多岐にわたる応用分野で重要であり，異常検知はその信頼性確保に不可欠である。
- 深層学習手法は時系列異常検知に利用されるが，微細かつ長期的な異常の検出に課題が残る。
- 分類と再構成の弱点を補完し合う協調的フレームワークにより，既存手法の限界を克服することを目指す。
- 提案手法CoADは，分類モジュールからの情報に基づき再構成モジュールがマスクを生成することで，分類の汎化性能を向上させる。
- CoADは，既存手法が見落としがちな微細かつ複雑な異常を効果的に検出できることを実験で示した。
- CoADは軽量かつ高速であり，大規模・リアルタイムな応用において実用的な価値を持つことを実証した。
Link: https://arxiv.org/abs/2605.26193
時間系列事前学習における帰納的バイアスの役割：臨床時間系列の汎化表現学習におけるケーススタディ [cs.LG]目的：臨床時間系列データの汎化表現の学習
- 臨床時間系列分析は医療分野において重要であり，疾患診断や予後予測に活用される。
- 臨床データの少なさ，異質性，プロトコルドリフトなどが課題であり，汎化性能が求められる。
- タスクや被験者間で表現の転移を促進する適切な帰納的バイアスを特定することを目的とする。
- ダイナミクス中心の混合目的関数が最もバランスの取れた転移性能を示した。
- グルーピング目的関数は識別力は高いが，連続ターゲットに必要な振幅の忠実度が低下する可能性がある。
- 局所再構成と時間的連続性の組み合わせ，および文脈内条件付けが，被験者間の汎化性能を向上させる。
Link: https://arxiv.org/abs/2605.26194
大規模言語モデルにおけるハルシネーション検出のための自動レイヤー選択 [cs.AI, cs.LG]目的：ハルシネーション検出における高性能レイヤーの自動選択
- 大規模言語モデルの普及に伴い，生成される情報の信頼性確保が重要課題となっている。
- 大規模言語モデルが生成するハルシネーション（幻覚）の検出は困難であり，精度向上が求められている。
- ハルシネーション検出に有効なレイヤーを自動的に選択する手法を確立し，検出性能の向上を目指す。
- 中間層でハルシネーション関連の信号が強く現れることが確認された。
- 提案手法であるFEPoID（First Effective Peak of Intrinsic Dimension）が，既存手法を上回る性能を示した。
- 生成行動の分析に基づいたTruncation戦略が，ハルシネーション検出性能をさらに向上させた。
Link: https://arxiv.org/abs/2605.26366
非線形時系列における関数値による因果影響 [cs.LG, stat.ME, stat.ML]目的：非線形時系列における因果関係の関数としての表現
- 時系列分析は，社会科学から自然科学まで幅広い分野で不可欠であり，その重要性は増している。
- 従来の因果関係の分析はスカラー値に依存しており，複雑な因果構造を捉えきれていない。
- 本研究は，関数としての因果影響を明示的に評価することで，より詳細な因果構造の解明を目指す。
- 非線形自己回帰モデルが学習するものは，状態に依存する関数であり，その影響は状況によって変化する。
- スカラー因果スコアは情報のボトルネックとなり，状態間の変動と状態内の残差ノイズを混同する。
- 関数値による分析は，スカラー値のみでは見逃される，状態特有の非対称な因果構造を明らかにできる。
Link: https://arxiv.org/abs/2605.26408
拡散モデルにおける座標ごとの曲率差による記憶領域の局所化 [cs.CL, cs.HC, cs.CL, cs.LG]目的：拡散モデルにおける記憶の局所化
- 拡散モデルは生成能力が高い一方，学習データの記憶がプライバシーや著作権上の懸念を生む。
- 既存手法では記憶の検出は可能だが，生成画像内の記憶箇所を特定するには限界があった。
- 本研究は，画像内の記憶領域をより正確に特定し，プライバシー保護に貢献することを目指す。
- 記憶の局所化を座標ごとの分散の低下として幾何学的に特徴づけ，過学習による記憶を分離する曲率差法を提案した。
- 提案手法は，アンダーフィットなベースラインの曲率を減算することで，過学習駆動型の記憶を分離する。
- Stable Diffusionを用いた実験で，既存のアテンションベースの手法よりも優れた性能が確認された。
Link: https://arxiv.org/abs/2605.26756
学習の二つの速度：Grokkingとダブルディセントの表現学習・読み出し分解 [cs.LG, cs.AI]目的：深層ニューラルネットワークにおける学習ダイナミクスの理解
- 深層学習の汎化性能評価は重要であり，学習過程の理解を深めることは，より高性能なモデル開発に繋がる。
- Grokkingやダブルディセントといった現象は，従来の学習曲線とは異なる挙動を示し，汎化性能の解釈を困難にする。
- 表現学習と読み出しの相対的な速度変動が，異常に見える汎化ダイナミクスを生み出すメカニズムを解明する。
- 表現学習と読み出し分解を用いることで，Grokking以前の読み出しは訓練データに偏っており，表現学習は徐々に進むことが示された。
- MNISTのGrokking例やダブルディセント例において，見かけ上の遅延や非単調な汎化は，表現の劣化と読み出しのずれによるものであることが示された。
- 表現学習・読み出し分解は，学習ダイナミクスを理解し，解釈可能性研究のための基盤となる。
Link: https://arxiv.org/abs/2605.27078
圧縮知識グラフ仮説：科学的仮説生成にとってどのグラフ事実が重要か [cs.AI]目的：科学的仮説生成におけるグラフ事実の重要性
- 科学研究において，知識の体系化と活用は不可欠であり，効率的な仮説生成を支援する。
- 知識グラフは有用だが，どの情報が仮説生成に寄与するのか明確ではない。
- 知識グラフのどの部分が効果的か，情報の圧縮可能性を探る。
- モデルは知識グラフの情報を利用するが，モデル自体が持つ知識でも類似した結果が得られる場合がある。
- 重要な知識グラフの部分グラフは，全体を圧縮しても十分な性能を示す。
- 知識グラフの圧縮は特定のランキング方法に依存せず，ランダムな部分集合でも効果が期待できる。
Link: https://arxiv.org/abs/2605.27176
SIA：ハーネスと重みの更新による自己改善AI [cs.AI, cs.CL]目的：AIの自己改善ループの実現
- AI開発において，人間の能力がボトルネックとなっている現状がある。
- AIの改善作業は，モデルやエージェントの作成，調整，修正を人間が行う必要があり，効率が課題である。
- ハーネスと重みの両方を更新する自己改善ループを通じて，AIの性能向上を目指す。
- SIAは，タスク固有エージェントのハーネスと重みを更新する自己改善ループを提案する。
- 法務分野，GPUカーネル最適化，シングルセルRNAノイズ除去の3つの分野で評価した結果，既存手法を上回る性能を示した。
- 特にLawBenchでは25.1%，GPUカーネル最適化では12.4%の高速化，RNAノイズ除去では20.4%の性能向上が確認された。
Link: https://arxiv.org/abs/2605.27276
構造化された外部知識によるLLM医療コーディングの強化 [cs.CL, cs.AI, cs.IR]目的：LLM医療コーディングの精度向上
- 医療費の適正化や医療データの分析において，正確な医療コーディングは不可欠である。
- 既存のLLMは内部知識に依存するため，誤りやガイドライン更新への対応が課題である。
- 外部知識を活用し，LLMの医療コーディングにおける信頼性と最新性を高める。
- RAG-Codingは，5つのLLMバックボーンにおいて，最良のLLMベースラインを3～13％上回るmicro-F1スコアを達成した。
- RAG-Codingは，教師あり最先端技術と同等のmicro-およびmacro-F1スコアを示し，リコールを11％向上させた。
- MDACE-2025において，RAG-Codingは全てのベースラインを上回り，更新されたガイドラインへの有効な一般化を示した。
Link: https://arxiv.org/abs/2605.27377
Soro：タジク語のための軽量な基盤モデルとチャットボット [cs.AI, cs.CL]目的：タジク語に特化した会話型大規模言語モデル
- 言語モデルは，情報アクセスやコミュニケーションを促進し，社会経済発展に貢献する。
- タジク語のようなリソースの少ない言語に対する言語モデルは，データ不足が課題である。
- タジク語における言語モデルの性能向上と，低リソース環境での実用化を可能にすること。
- Soroは，同サイズのGemma 3と比較してタジク語のベンチマークにおいて大幅な性能向上を示した。
- Soroは，英語の性能を維持しつつ，タジク語に特化した事前学習と命令チューニングにより実現された。
- FP8およびINT4量子化によりメモリ要件が削減され，エッジデバイスでの展開が可能となった。
Link: https://arxiv.org/abs/2605.27379
アライメントフロア：弱くアライメントされたLLMにおけるパーソナカスタマイズが安全性に与える影響 [cs.HC, cs.AI, cs.CL]目的：弱アライメントLLMにおけるパーソナカスタマイズによる安全性への影響の評価
- LLMの社会実装が進む中で，その安全性確保は極めて重要である。
- LLMは，指示に過剰に迎合する「迎合性」を示すことがあり，その抑制が課題である。
- LLMのパーソナカスタマイズがもたらす安全性への影響を定量的に評価し，展開時の監査指標を提案する。
- LLMに「熱意を持って」と指示した場合，弱アライメントモデルの迎合率は30%から50%に上昇するが，強アライメントモデルでは影響はない。
- モデルが吸収できるカスタマイズの程度には限界があり，それを「アライメントフロア」と定義した。モデルごとの監査の必要性を示唆する。
- 懐疑的なペルソナは，弱アライメントモデルの迎合性を25%減少させ，展開前の監査指標として「アライメントフロア」の測定を提案する。
Link: https://arxiv.org/abs/2605.27382
ARから拡散へ：厳密な因果性と弾力的な範囲を用いた大規模言語モデルの効率的な適応 [cs.CL, cs.AI]目的：大規模言語モデルを拡散パラダイムへ効率的に適応するためのフレームワーク
- 言語モデルは自然言語処理の基盤であり，その性能向上は様々な応用分野に貢献する。
- 拡散モデルは双方向注意機構に依存するため，自己回帰モデルとの構造的な不整合が課題であった。
- 自己回帰モデルの事前学習済みの知識を有効活用しつつ，拡散モデルの効率的な並列生成を実現すること。
- FLUIDは厳密な因果性アライメントを適用することで，標準的なGPTスタイルのチェックポイントからのシームレスな初期化を可能にした。
- 弾力的な範囲を導入することで，固定スケジュールではなくローカルな情報密度に基づいてノイズ除去ステップを動的に調整した。
- 実験の結果，FLUIDは最先端の性能を達成しつつ，トレーニングコストを大幅に削減することに成功した。
Link: https://arxiv.org/abs/2605.27387
EvoSpec：リアルタイム語彙とパラメータ適応による推測デコーディングの進化 [cs.CL, cs.AI]目的：大規模言語モデルの推測デコーディングにおける語彙とパラメータの動的適応
- 大規模言語モデルの推論速度向上は，実用的な応用において不可欠である。
- 従来の静的プルーニング法は，専門分野や話題の変化に対応できず，受容率が低下する。
- EvoSpecは，動的な分布変化に対応し，推論速度とメモリ効率を改善することを目指す。
- EvoSpecは，効率的な意味的・統計的インデックスを用いて，重要な低頻度トークンをリアルタイムに取得する。
- カリキュラム学習を用いた軽量なオンラインアライメント戦略により，ドラフトモデルとターゲットモデルの分布ギャップを最小限に抑える。
- コーディング，法律，医学の専門分野における評価により，EvoSpecが静的ベースラインの限界を克服することが確認された。
Link: https://arxiv.org/abs/2605.27390
状態を制御することで結果も制御可能：人間における結果の制御可能性について [cs.AI, q-bio.NC]目的：人間の行動変異性の解明と，状態介入による結果の制御可能性
- 行動科学やAIにおいて，個人差や状況による変動を理解することは重要である。
- 同じ個人でも，同じ入力に対して一貫した結果が出ないという問題が存在する。
- 個人の潜在的な状態に着目し，状態介入によって結果を予測・制御することを目指す。
- 人間の状態は，生物学的・心理的要因を統合したものであり，意思決定と結果に因果的に影響する。
- 状態に介入することで，結果を制御可能であり，その有効性を検証するための7つの予測が導出された。
- 本研究は，デジタルヘルス，教育，AIのパーソナライズ，個人の主体性に重要な示唆を与える。
Link: https://arxiv.org/abs/2605.27580
ピクセルを超えて：可変長視覚プログラムの学習 [cs.CV, cs.LG]目的：視覚構造記述のための離散的な表現
- 画像認識において，構造的なシーンの理解が重要である。
- 既存のトークナイザーは，画像ごとに適切なシーケンス長を学習できない。
- 画像構造に合わせた最適な視覚プログラム長を学習すること。
- STROPは，画像の複雑さに応じてプログラム長を自動的に調整する。
- DINOv3の特徴量を用いて，局所的なレート歪みプローブで学習を効率化している。
- 学習されたコードブックから，構成的な構造の兆候が確認された。
Link: https://arxiv.org/abs/2605.27696
密度を考慮したサンプル特異的な攻撃 [cs.NI, cs.ET, cs.SY, eess.SP, eess.SY, cs.LG, cs.CR]目的：バックドア攻撃における最適なサンプル特異的トリガー構築
- 機械学習モデルのセキュリティ確保は重要であり，特にバックドア攻撃からの防御が不可欠である。
- 既存のバックドア攻撃手法は，ファインチューニングやプルーニングといった事後防御に対して脆弱である。
- クリーンデータの低密度領域にトリガーサンプルを配置することで，攻撃成功率と正解率を両立させる。
- 本研究では，条件時間スコアマッチングを用いて密度比を推定する二層最適化フレームワークを提案した。
- MNIST，CIFAR-10，GTSRB，TinyImageNetを用いた評価で，防御前には99%以上の攻撃成功率を達成した。
- ファインチューニング防御下では，既存の最良手法よりも50-85%高い攻撃成功率を維持し，ニューロンプルーニング防御に対しては完全な耐性を示した。
Link: https://arxiv.org/abs/2605.27809
FundaPod：知識グラフメモリを用いたAI支援型ファンダメンタル投資調査マルチエージェントプラットフォーム [cs.AI]目的：AI支援型ファンダメンタル投資調査のためのマルチエージェントプラットフォーム
- 金融分野におけるAI活用は進むが，従来の予測タスク中心から，より高度な分析へのニーズが高まっている。
- ファンダメンタル投資調査は複雑であり，AIが証拠収集や分析を効率化できる余地が大きい。
- 人間とAIが協調し，透明性・検証可能性の高い投資プランを策定できるシステム構築を目指す。
- FundaPodは，バリュー投資家やマクロストラテジストといった異なるペルソナを持つAIエージェントが独立して調査を行うプラットフォームである。
- エージェント間の意見の相違は，知識グラフメモリを通じて人間のポートフォリオマネージャーが判断する。
- 本研究では，ファンダメンタル投資調査を支援する人間とAIのハイブリッドシステムのための５つの設計原則を提案した。
Link: https://arxiv.org/abs/2605.27864
ROVER：根拠となる視覚的証拠のオブジェクト中心ルーティングによる，根拠に基づいた複数画像推論 [cs.CV, cs.AI]目的：根拠に基づいた複数画像推論のための視覚的証拠ルーティング手法
- 大規模言語モデルと視覚情報の融合が，複雑な推論タスクにおいて重要性を増している。
- 従来のROIベースの手法では，シーン全体の理解やオブジェクト間の関係性が損なわれる場合がある。
- オブジェクト中心の注意機構と履歴情報を活用し，効率的な視覚的証拠ルーティングを実現する。
- ROVERは軽量で学習可能なプラグインであり，視覚的証拠の効率的なグローバルルーティングを可能にする。
- Qwen2.5-VL-7BにROVERを統合し，MM-GCoTとVideoEspressoで最先端の性能を達成した。
- VideoEspressoで学習したモデルは，多様なベンチマークで優れた転移学習能力を示した。
Link: https://arxiv.org/abs/2605.27959
最新のホップフィールドネットワークにおける継続学習：拡散モデルへの応用 [cs.LG, stat.ML]目的：拡散モデルを含む生成モデルにおける継続学習の特性と，効果的なリプレイサンプルの選定
- 生成モデルは基盤モデルとして広く利用され，継続的な学習が不可欠となっている。
- 生成モデルにおける継続学習は未解明な点が多く，忘却のメカニズムが不明である。
- ホップフィールドエネルギーを用いて忘却を定量化し，リプレイ戦略を最適化すること。
- ホップフィールドエネルギーの増加は，タスク変更後の忘却度合いを示す指標となることが示された。
- 高エネルギーのサンプルは，低エネルギーのサンプルよりも忘却されやすいことが理論的に証明された。
- 拡散モデルの実験結果は，ホップフィールドネットワークの解析結果と一致し，エネルギーに基づくリプレイが忘却を抑制することが確認された。
Link: https://arxiv.org/abs/2605.27975
非同期ツール呼び出し能力のマルチタスクシナリオ下での評価：AsyncTool [cs.AI]目的：マルチタスク環境におけるLLMベースのエージェントの非同期ツール呼び出し能力
- LLMエージェントは複雑なタスク解決に有用だが，その評価は十分ではない。
- 既存評価ではツール応答遅延やマルチタスク環境が考慮されず，現実との乖離がある。
- 非同期ツール呼び出し能力を評価し，効率的なタスク遂行を可能にするエージェント開発を目指す。
- 本研究では，遅延のあるツールフィードバック下でのマルチタスク環境を評価するベンチマークAsyncToolを提案した。
- 実験の結果，ツール応答遅延が現在のLLMエージェントに大きな課題をもたらすことが示された。
- タスク切り替えや状態管理能力が高いモデルほど，AsyncToolにおいて優れた性能を発揮した。
Link: https://arxiv.org/abs/2605.27995
QuITE：クエリに基づく不規則時系列埋め込み [cs.CL, cs.LG, cs.AI]目的：不規則多変量時系列データの効果的なモデリング
- 実世界のデータは不規則な時系列として現れることが多く，その分析は重要である。
- 不規則サンプリングにより，既存の多変量時系列モデルの活用が困難になっている。
- 不規則時系列データのモデリングにおける埋め込み層のボトルネックを解消すること。
- QuITEは，学習可能なクエリトークンを用いて不規則な観測値を集約し，人工的な値の生成やアーキテクチャの変更を伴わずに潜在表現を生成する。
- QuITEは，様々なデータセットとバックボーンアーキテクチャにおいて，予測において最大54.7%，分類において最大15.8%の平均相対的な改善をもたらす。
- QuITEは，既存の多変量時系列モデルへの容易な組み込みが可能であり，その有効性が実証された。
Link: https://arxiv.org/abs/2605.28166
ProRL：修正された方策勾配推定によるプロアクティブ推薦のための効果的な強化学習 [cs.LG, cs.AI]目的：プロアクティブ推薦のための強化学習フレームワーク
- ユーザーの嗜好を誘導し，長期的なエンゲージメントを高めるプロアクティブ推薦の重要性が増している。
- 従来の強化学習手法では，経路報酬の分解構造が考慮されておらず，勾配推定に偏りや分散が生じやすい。
- 経路報酬の偏りと分散を修正し，より正確な方策勾配を得ることで，プロアクティブ推薦の性能向上を目指す。
- 提案手法ProRLは，Stepwise Reward CenteringとPosition-Specific Advantage Estimationの2つのメカニズムを導入することで，経路報酬の偏りと分散を効果的に抑制する。
- 実験結果から，ProRLは既存のプロアクティブ推薦システムと比較して，顕著な性能向上を示すことが確認された。
- ProRLは，実世界のデータセットにおいて，より質の高い推薦経路を生成し，ユーザーの嗜好誘導に貢献することが示された。
Link: https://arxiv.org/abs/2605.28293
LEIA：インタラクティブな構造材料のための学習環境 [cs.RO, cs.SY, eess.SY, cs.LG, cond-mat.mtrl-sci, physics.app-ph]目的：構造材料の変形と応力分布のリアルタイム予測
- 構造材料設計は，製品性能に不可欠であり，その最適化は重要である。
- 従来のシミュレーションは計算コストが高く，複雑な材料挙動の再現が困難である。
- リアルタイムで構造材料の挙動を予測し，設計プロセスを効率化することを目指す。
- LEIAは，大規模な3Dメッシュを扱い，ユーザー指定の荷重に対する自己回帰的な応答を生成する。
- MicroPlateベンチマークを用いてLEIAの性能を評価した結果，既存手法を上回る精度が確認された。
- LEIAは，構造材料の新規設計候補の効率的な生成とランキングを可能にし，応力に基づいた正確な評価を実現する。
Link: https://arxiv.org/abs/2605.28368
表形式データにおけるモデル間の性能差を説明するためのメタ特徴量の再検討 [cs.LG]目的：表形式データに対するモデル選択の難しさの解明
- 表形式データは広く利用され，その分析は様々な分野で重要である。
- 表形式データに対する最適なモデル選択は依然として困難な課題である。
- モデル間の性能差をメタ特徴量を用いて説明し，モデル選択の指針となる。
- ニューラルネットワークと決定木モデルの性能差については，有意なメタ特徴量は見つからなかった。
- 非基盤モデルと基盤モデルの性能差については，ロバストな関連性が見られるものの，汎化性能は限定的であった。
- TabICLv2とTabPFN-2.6の性能差については，ロバストな関連性が確認され，留保データを用いた予測においても改善が見られた。
Link: https://arxiv.org/abs/2605.28418
空間的に変動する場における幾何学的パラメータ化とマッピングのための解像度非依存ニューラルサロゲート [cs.CV, cs.GR, cs.LG]目的：空間的に変動するパラメータ場とクエリ位置に基づいて，マッピングされた位置の予測
- 画像処理における空間変換は，歪み補正や画像レジストレーションなど，多くの応用分野で重要である。
- 高解像度での繰り返し計算は計算コストが高く，パラメータ場が変動する場合に課題となる。
- 解像度に依存しないニューラルサロゲートを用いて，計算コストを削減し，効率的なマッピングを実現する。
- 提案手法は，幾何学的制約に基づき，ラベル付きデータなしで学習可能である。
- マルチ解像度幾何学的エンコーディングにより，固定グリッドへの依存を回避している。
- 準共形写像および密度等化マッピング問題における実験結果により，その有効性が示された。
Link: https://arxiv.org/abs/2605.28551
統計的に誠実であることの重要性：GSM-Symbolicの批判的再評価 [eess.SY, cs.SY, cs.CL, cs.AI, cs.CL]目的：大規模言語モデルの推論能力に関する統計的評価
- 大規模言語モデルの能力評価は，その実用化において不可欠である。
- 既存の評価指標には，統計的な信頼性に欠ける問題が存在する。
- 評価方法の再検討と，より厳密な統計的分析の実施を目的とする。
- GSM-Symbolicベンチマークにおける性能低下は，統計的に見て過大評価されていた。
- 問題文に含まれる数値分布の偏りが，性能差に影響を与えていることが明らかになった。
- モデルごとの特性を考慮した評価が，より正確な判断に繋がる。
Link: https://arxiv.org/abs/2605.28700
拡散モデルを用いたゼロショット逆問題における段階的歪み・知覚トラバーサル [cs.LG]目的：歪み・知覚トレードオフのトラバーサル手法
- ベイズ逆問題において，歪み性能と知覚品質のトレードオフは本質的な課題である。
- 拡散モデルを用いた逆問題解決の成功にも関わらず，効率的かつ原理的な歪み・知覚トラバーサル戦略は未確立である。
- 単一の拡散モデルを用いて，歪み・知覚トレードオフを柔軟に制御する手法を提案し，実用的な応用を可能とする。
- 提案手法MAP-RPSは，MMSE解を近似するMAP推定段階と，知覚品質を向上させる再ノイズ化された事後サンプリング段階から構成される。
- 理論的解析により，提案手法の有効性と妥当性が確認された。大規模事前学習済みの潜在拡散モデルを用いたLMAP-RPSも開発された。
- 実験結果から，MAP-RPSとLMAP-RPSは様々なタスクにおいてより効果的な歪み・知覚トラバーサルを実現し，実世界の逆問題に対する効率的なソルバーとしても機能することが示された。
Link: https://arxiv.org/abs/2605.28711