arXiv雑要約

AI - 2026/05/29 公開

微分記号回帰におけるアーキテクチャ誘発回復バイアス [cs.NE, cs.AI, cs.LG, cs.SC]目的：微分記号回帰におけるアーキテクチャ依存性
- 信号処理分野において，閉形式モデルと解釈可能な非線形構造が有用である。
- 従来の比較では，アーキテクチャが文法や演算子と共に変化しており，アーキテクチャ特有の効果の分離が困難である。
- アーキテクチャが回復結果に与える影響を明らかにし，検証データに基づくアーキテクチャ選択の有効性を示す。
- 異なるアーキテクチャ間で回復率に大きな差が見られ，あるターゲットに対して最適なアーキテクチャが，別のターゲットに対しては最悪となる場合がある。
- 特に，2つの等深さサブツリーを持つアーキテクチャは，すべての構成で回復に失敗する。
- 検証データを用いてアーキテクチャを選択することで，回復率が向上する可能性が示唆された。
Link: https://arxiv.org/abs/2604.23256
グラフメモリTransformer (GMT) [cs.LG, cs.AI, cs.CL]目的：TransformerのFeed-Forward Networkを学習されたメモリグラフで置き換え，自己回帰構造を維持すること。
- 大規模言語モデルは自然言語処理の基盤であり，その性能向上は重要な課題である。
- TransformerのFFNは計算資源を消費し，解釈性が低いという課題がある。
- FFNをメモリグラフで代替することで，効率性と解釈性の向上を目指す。
- 提案手法GMTは，16のTransformerブロックにそれぞれ128個のセントロイドとエッジ行列を持つ。
- GMTは，8220万パラメータで安定して学習し，セントロイドの使用状況や遷移構造を可視化できる。
- GMTは，ベースラインモデルと比較して検証損失とパープレキシティで劣るものの，ゼロショット性能は近い水準を示した。
Link: https://arxiv.org/abs/2604.23862
機械学習における真のターゲットの負のオントロジー：民主的な監督下での評価と学習に向けて [cs.LG]目的：機械学習における評価と学習のための知識システム
- 機械学習は社会の様々な分野で活用が進んでおり，その信頼性向上は重要である。
- 従来の機械学習は「真のターゲット」の存在を前提としているが，その存在自体が疑問視されている。
- 本研究は，「真のターゲット」が存在しないという前提に基づき，新たな評価・学習枠組みを提案する。
- 本研究では，真のターゲットが存在しないという「負のオントロジー」の視点から，民主的な監督下での機械学習を定義した。
- 複数の不正確な真のターゲット（MIATTs）を提案し，その生成・評価・学習に関する原理を導出した。
- 提案するEL-MIATTsフレームワークの実用性を，教育・専門能力開発への応用を通して示した。
Link: https://arxiv.org/abs/2604.24824
テスト時スケーリングにおけるLLMプルーニングの有効性の再検討 [cs.AI, cs.CL, cs.LG]目的：LLMプルーニングによるテスト時スケーリング性能の改善
- 大規模言語モデルの推論能力向上は重要であり，特にテスト時計算スケーリングが注目されている。
- 従来の構造化プルーニングは，推論時の性能を著しく低下させるという課題があった。
- 本研究は，非構造化プルーニングがテスト時スケーリング性能に与える影響を調査し，性能改善の可能性を探る。
- 非構造化プルーニングは，構造化プルーニングと比較してテスト時スケーリング性能を向上させることが示された。
- 場合によっては，非構造化プルーニングはプルーニングされていない完全なモデルの性能を上回る結果も得られた。
- 層ごとのスパース度割り当て戦略が性能に影響を与えることも実証された。
Link: https://arxiv.org/abs/2604.25098
多地点排出制御の進展：専門家混合を用いた物理情報に基づいた転移学習フレームワークによる炭素汚染物質の相乗効果 [cs.LG, physics.chem-ph, physics.data-an]目的：都市ごみ焼却施設の炭素汚染物質排出制御における，汎化性能を持つモデルの開発
- 都市ごみ焼却はエネルギー源となる一方，環境汚染物質を排出するため，排出制御が重要である。
- 単一施設で学習したデータ駆動モデルは，物理的制約がないため，他の施設への転移が困難である。
- 物理法則と運転状況を考慮することで，異なる施設間での排出制御関係性を明らかにする。
- CPMoEモデルは，13施設において主要な汚染物質とシステムリスク指標を高い精度で予測した。
- 転移学習後も，12の対象施設で予測精度を維持し，モデルの適応が構造的な再重み付けによって行われることを示した。
- デジタルツインによるオフライン検証により，リスク指標を3.6-6.3%削減し，汚染物質の同時削減を実現した。
Link: https://arxiv.org/abs/2604.26571
SciHorizon-DataEVA：異種科学データのAI活用準備度評価のためのエージェントシステム [cs.AI, cs.LG]目的：異種科学データのAI活用準備度のスケーラブルな評価機構
- 科学研究におけるAI活用は進んでいるが，データのAI準備度がボトルネックとなっている。
- 既存の評価手法では，多様な科学データに対してスケーラブルかつ体系的な評価が困難である。
- 科学データのAI活用準備度を定量的に評価し，改善を促すためのフレームワークを提供する。
- SciHorizon-DataEVAは，AI準備度をガバナンス，データ品質，AI適合性，科学適応性の4次元で評価するSci-TQA2原則を導入した。
- Sci-TQA2-Evalは，データプロファイリングとドメイン知識を活用し，評価仕様を動的に生成する階層型マルチエージェント評価アプローチである。
- 複数のドメインにおける実験により，SciHorizon-DataEVAの有効性と汎用性が実証された。
Link: https://arxiv.org/abs/2604.26645
2次元タスクと1次元シリアライズ：構造化タスクにおけるシリアライズ摩擦について [cs.CL, cs.AI, cs.LG]目的：構造化タスクにおける1次元シリアライズが関係構造の維持に与える影響
- 大規模言語モデルの発展に伴い，記号的・構造化問題をテキストシリアライズで扱う機会が増加している。
- 本来2次元で定義される関係性が，1次元シリアライズにより暗黙的になり，性能低下の要因となる可能性がある。
- 2次元レイアウトと1次元シリアライズの表現形式の違いがタスクの難易度に与える影響を検証する。
- 行列転置，ライフゲーム，LU分解のタスクにおいて，1次元シリアライズはタスクサイズ増加に伴い性能が著しく低下した。
- シリアライズによる誤りは空間的に構造化されたパターンを示し，入力形式の選択が重要であることが示唆された。
- レイアウト依存タスクにおいて，入力を1次元シリアライズに単純化することは，中立的な表現形式の選択ではない。
Link: https://arxiv.org/abs/2604.27272
CompleteRXN：未完の化学反応データベースの完成に向けて [cs.HC, cs.LG, physics.chem-ph]目的：化学反応の補完
- 化学反応データの正確性は，創薬や材料開発などの分野で不可欠である。
- 既存の化学反応データベースは，副生成物や反応係数の欠如といった不完全性を抱えている。
- 現実的なデータ欠損条件下での反応補完ベンチマークの構築とその評価。
- CompleteRXNベンチマークにおいて，Constrained Reaction Balancer (CRB)が優れた性能を示し，ランダム分割で99.20%の等価精度を達成した。
- CRBは，分布外データ分割においても91.12%の高い精度を維持した。
- ベンチマーク性能と実際の頑健性との間にギャップが存在することが示され，今後の課題が明らかになった。
Link: https://arxiv.org/abs/2605.00222
Stable-GFlowNet: 対照的な軌道バランスによる多様かつ堅牢なLLM Red-Teaming [cs.LG]目的：大規模言語モデルの脆弱性特定
- LLMの安全性確保は不可欠であり，脆弱性評価が重要である。
- 効果的かつ多様な攻撃手法の発見が困難である。
- GFNの不安定性を解消し，多様な攻撃を可能とする。
- 提案手法S-GFNは，GFNにおける区分関数Zの推定を排除し，学習の不安定性を軽減する。
- S-GFNは，ノイズの多い報酬に対するロバストなマスキング手法と，無意味な出力を防ぐ流暢性安定化装置を用いる。
- 様々な設定において，S-GFNは優れた攻撃性能と多様性を示す。
Link: https://arxiv.org/abs/2605.00553
グラフ表現学習のためのエイトチソン埋め込み [cs.LG, cs.SI]目的：グラフ構造と学習された特徴の関係性の洞察
- グラフ機械学習は，リンク予測やノード分類などのタスクの中核であり，その重要性は高い。
- 既存のグラフ埋め込みは解釈が難しく，学習された特徴とグラフ構造の関係が不明確な場合が多い。
- 潜在的な原型要素の混合としてノードを記述可能な，解釈可能なグラフ埋め込みを構築すること。
- 本研究では，混合を比較するための標準的な幾何学であるエイトチソン幾何学に基づいた構成的なグラフ埋め込みフレームワークを提案する。
- ノードはシンプレックス値の構成として表現され，等距離保形対数比（ILR）座標によって埋め込まれる。
- ノード分類およびリンク予測において，提案手法は強力なベースラインと同等の性能を達成し，説明可能性を内包する。
Link: https://arxiv.org/abs/2605.00716
MedMosaic：多様な医療音響の大規模ベンチマーク [cs.SD, cs.AI, cs.CL]目的：多様な医療音響データを対象とした，言語と音声の推論モデルを評価するためのベンチマークデータセット
- 医療分野における音声データの活用は，診断や治療の精度向上に不可欠である。
- プライバシー規制や専門知識によるアノテーションコストの高さから，十分な医療音響データセットが存在しない。
- 現実的な臨床環境下での音声・言語推論能力を評価し，その限界を明らかにすること。
- MedMosaicは，多様な医療音響データと46,701件の質問応答ペアを含む大規模なベンチマークデータセットである。
- 13の音声およびマルチモーダル推論モデルの評価結果から，医療分野における推論は依然として困難であることが示された。
- 最先端モデルGemini-2.5-proでも約68.1%の精度にとどまることから，よりロバストなモデル開発の必要性が示唆された。
Link: https://arxiv.org/abs/2605.00969
フローアンカーを用いたノイズ条件付きQ学習による効率的かつ表現力豊かなオフライン強化学習 [cs.RO, cs.RO, eess.SY, cs.RO, cs.SY, cs.LG, cs.RO]目的：効率的かつ高性能なオフライン強化学習アルゴリズムの開発
- オフライン強化学習は，実世界のデータから効率的に学習できるため，ロボット工学等の分野で重要である。
- 表現力豊かなフローポリシーや分布クリティックは性能向上に貢献するが，計算コストが大きいという課題があった。
- フローポリシーの反復サンプリングや分布クリティックの多重サンプル計算を削減し，効率性と性能を両立することを目指す。
- 提案手法FANは，単一のフローポリシー反復と単一のガウスノイズサンプルを用いることで，計算効率を大幅に向上させた。
- 理論解析により，この簡略化が効率性だけでなく，タスク性能の向上にも繋がることが示された。
- ロボット操作や移動タスクにおける実験により，FANが最先端の性能を達成し，学習・推論時間を大幅に短縮することが示された。
Link: https://arxiv.org/abs/2605.01663
コントラスト表現学習の統計的整合性と汎化性能 [cs.LG]目的：コントラスト表現学習の統計的整合性および汎化性能に関する理論的解析
- 近年，様々な基盤モデルでコントラスト表現学習が活用され，その重要性が増している。
- コントラスト表現学習の統計的整合性は十分に解明されておらず，汎化誤差の上界は負例数増加に伴い悪化する。
- 本研究では，コントラスト表現学習に関する統一的な統計学習理論を構築し，その性能向上要因を明らかにする。
- コントラスト損失関数が最適なランキングと統計的に整合性を持つことを理論的に証明した。
- 過剰なコントラストリスクと検索性能の劣悪さの関係を示すキャリブレーション様不等式を導出した。
- 負例数とアンカー点の数との間のトレードオフを明らかにする汎化誤差の上界を導出した。
Link: https://arxiv.org/abs/2605.02116
ゼロショット論理規則誘導のための基盤モデル [cs.CL, cs.AI, cs.LG, cs.SC]目的：ゼロショット論理規則誘導
- 説明可能なAI実現に向け，記号的推論の自動化が重要視されている。
- 既存手法は特定の述語に依存し，新たなタスクごとに再学習が必要となる。
- タスクに依存しない汎用的な規則誘導モデルを確立し，記号的推論の基盤とする。
- NRIは，変数や数に依存せず，ドメインに依存しない統計的性質を用いて論理規則を誘導する。
- 並列スロットベースのデコーダーにより，論理的選言の置換不変性を維持し，微分可能なルール実行を実現した。
- ルール復元，ノイズへの頑健性，実世界のベンチマークへのゼロショット転送で有効性が確認された。
Link: https://arxiv.org/abs/2605.04916
変換された潜在変数多出力ガウス過程 [eess.SY, cs.SY, math.DS, cs.LG]目的：高次元出力空間における相関モデリング
- 多変量データ解析において，出力間の相関を考慮したモデリングは重要である。
- 既存の多出力ガウス過程は，高次元出力空間での計算コストが課題となっていた。
- 本研究は，高次元出力データに対して効率的に適用可能なモデリング手法を開発する。
- 変換された潜在変数を用いた深層カーネルにより，多出力ガウス過程のスケーラビリティを向上させた。
- 気候モデリングや空間トランスクリプトミクスデータを用いた実験で，既存手法を上回る予測精度と計算効率を示した。
- Lipschitz正則化されたニューラルネットワークを用いることで，柔軟な多出力カーネル構造を実現した。
Link: https://arxiv.org/abs/2605.05133
Aes3D：3Dガウススプラッティングにおける美的評価 [cs.CV, cs.AI]目的：3Dシーンの美的属性の評価
- 没入型メディアの発展に伴い，3Dコンテンツの視覚的魅力を高める評価が重要となる。
- 既存手法は再構成精度や写実性に偏り，構図や調和といった高次の美的属性が未評価である。
- 3Dガウススプラッティング表現に対する美的評価の枠組みを構築し，評価基準を確立すること。
- 本研究では，初の3Dシーン美的評価専用データセット「Aesthetic3D」を構築した。
- 軽量なモデル「Aes3DGSNet」を提案し，3Dガウススプラッティング表現から直接美的スコアを予測可能とした。
- 実験により，提案手法が高い性能と軽量性を両立し，3Dシーン美的評価の新たな基準となることを示した。
Link: https://arxiv.org/abs/2605.05155
ハイパースフェリック信頼度マッピングによる不確実性推定 [cs.LG]目的：ニューラルネットワーク予測における不確実性の定量化
- 自動運転，医療，製造など，高度な応用分野において，予測の信頼性評価は不可欠である。
- 既存の手法は，高コストなサンプリングや分布に関する制約に依存することが多い。
- サンプリングや分布の仮定なしに，不確実性を効率的に推定すること。
- ハイパースフェリック信頼度マッピング（HCM）は，出力の幾何学的構造に着目した新しい不確実性推定手法である。
- HCMは，アンサンブル法やエビデンス法と同等またはそれ以上の性能を示す一方で，推論コストを大幅に削減する。
- 信頼度と誤差の整合性が高く，回帰と分類の両方に適用可能な汎用性を持つ。
Link: https://arxiv.org/abs/2605.05964
SMolLM：小規模言語モデルは小規模分子文法を学習する [cs.LG]目的：分子構造生成のための学習メカニズムの解明
- 創薬において，分子構造の自動生成は重要な課題であり，効率化が求められている。
- 大規模言語モデルは性能が高いが，その学習過程や化学的文法の習得メカニズムは不明である。
- 小規模言語モデルを用いて，化学文法の学習メカニズムを解明し，解釈可能性の高い分子生成モデルを開発する。
- 53KパラメータのSMolLMは，ZINC-250Kデータセット上で95%の有効性を持つSMILESを生成し，10倍のパラメータを持つGPTを上回る性能を示した。
- SMolLMの学習過程において，括弧，環，価電子の順でSMILESの制約が段階的に解決されることが明らかになった。
- 括弧対応ヘッドの分離実験により，括弧の対応学習が特定部位で行われていることが確認された。
Link: https://arxiv.org/abs/2605.06322
欠損データに対する順序非依存自己回帰モデリング [cs.LG, stat.ML]目的：欠損データ下における順序非依存自己回帰モデルの性能向上
- 深層生成モデリングにおいて，その柔軟性から広く利用されている。
- 欠損データが存在する場合，モデルの性能が低下しやすい。
- 欠損データに対するロバストな性能と効率的な情報獲得を目指す。
- 標準的な学習手順が，完全ランダム欠損メカニズム下での暗黙的な補完を行うことを示した。
- 一般的な欠損メカニズム下で，直接欠損データで学習するためのフレームワークを提案した。
- MO-ARMは，既存の補完手法と比較して，複数の実データベンチマークで優れた性能を示した。
Link: https://arxiv.org/abs/2605.06355
LLM生成ヒューリスティクスを用いた階層タスクネットワーク計画 [cs.IR, cs.CL, cs.AI]目的：LLM生成ヒューリスティクスによる階層タスクネットワーク計画の効率化
- タスクの複雑化に伴い，計画問題の効率的な解決が不可欠となっている。
- 従来のHTN計画アルゴリズムのヒューリスティクスは，古典的計画アルゴリズムに比べて情報量が少ない。
- LLMを活用し，より効果的な探索ヒューリスティクスを生成することで，HTN計画の性能向上を目指す。
- LLM生成ヒューリスティクスは，既存のHTNプランナーの探索範囲に匹敵する性能を示した。
- 多くの共有問題において，探索コストを大幅に削減する効果が確認された。
- LLMによるドメイン固有のプロンプトが，効果的なヒューリスティクス生成に貢献した。
Link: https://arxiv.org/abs/2605.07707
Prune-OPD：長期的推論のための効率的かつ信頼性の高いオンポリシー蒸留 [cs.LG, cs.AI]目的：長期的推論におけるオンポリシー蒸留の効率性と信頼性の向上
- 複雑な推論タスクの解決には，より高度な推論能力を持つモデルが必要とされている。
- オンポリシー蒸留は，長期的タスクにおいて，教師と生徒の思考のずれが報酬の質を低下させるという課題がある。
- 生徒と教師の予測の一致度を監視し，信頼性の低い報酬を減衰させることで，計算資源の無駄を削減する。
- Prune-OPDは，生徒と教師の予測の互換性に基づいて計算予算を動的に調整する。
- 信頼性の低い教師報酬によってprefix driftが発生した場合，学習時間を37.6%〜68.0%削減しつつ，性能を維持・向上させる。
- 生徒と教師の互換性が高い場合は，学習ウィンドウを拡張して長文脈の教師の指導を維持する。
Link: https://arxiv.org/abs/2605.07804
PRIM：メタ学習を用いたベイズ根原因分析 [cs.LG]目的：複雑系における根原因の特定
- 複雑なシステムの信頼性向上は重要であり，故障原因の迅速な特定が不可欠である。
- 従来の根原因分析は，変数間の誤差伝播や構造的因果知識の必要性により困難を伴う。
- PRIMは，テスト時の計算コストを削減し，因果構造の不確実性を考慮した根原因分析を目指す。
- PRIMは，因果モデルの事前分布に対するベイズ推論として根原因分析を構成する。
- PRIMは，構造的不確実性を周辺化することで，ベースラインと異常期間のデータ生成メカニズムの変化を暗黙的に識別する。
- PRIMは，最大100変数のシステムに対して17msでゼロショット推論が可能であり，既存手法と競合する性能を示す。
Link: https://arxiv.org/abs/2605.08786
インペインティング物理：文脈駆動型流体シミュレーションのための自己教師あり学習 [cs.LG, physics.flu-dyn]目的：流体シミュレーションにおける文脈依存性復元
- 流体シミュレーションは，工学設計や自然現象の理解に不可欠な技術である。
- 従来のニューラルサロゲートモデルは，境界条件の変化に弱く，再利用が困難である。
- 境界条件の変更や形状変化への対応可能な，再利用可能な流体プライアの構築を試みる。
- 本研究では，CFD推論をインペインティング問題として再構築し，自己教師あり学習を用いる。
- 学習済みモデルは，既存のシミュレーション文脈を再利用し，境界条件の変化や局所形状の編集に対応可能である。
- 脳動脈瘤ヘモダイナミクスにおいて，少ない境界条件から高精度な速度場を復元できることを示した。
Link: https://arxiv.org/abs/2605.08832
TopoGeoScore：分布外チェックポイント選択のための自己教師ありソース専用幾何学的フレームワーク [cs.LG, math.AT, math.DG]目的：分布外データの頑健性評価指標
- モデルの信頼性確保は重要であり，特に実環境への展開前に分布外データへの適応性を評価する必要がある。
- ターゲットドメインのラベルがない状況下では，分布外データの頑健性を診断することが困難である。
- ソースドメインの表現のみを用いて，頑健なチェックポイントを選択するための手法を開発する。
- TopoGeoScoreは，ソースドメインの埋め込み表現からクラス条件付きの相互k近傍グラフを構築し，多様な幾何学的特徴を抽出する。
- これらの特徴は，クラス多様体の複雑さ，局所的な近傍の規則性，および高次のトポロジー構造を捉える。
- 実験結果から，ソース表現には頑健性に関するグローバル，ローカル，およびトポロジー的証拠が含まれていることが示唆された。
Link: https://arxiv.org/abs/2605.08870
CalBench：マルチエージェントLLMにおける連携とプライバシーのトレードオフ評価 [cs.MA, cs.AI]目的：マルチエージェントLLMにおけるカレンダー調整とプライバシー保護の評価
- AIアシスタントの普及に伴い，個人の情報へのアクセスと管理が重要になっている。
- 複数のAIアシスタント間の連携において，プライバシー保護と効率的な調整が課題となっている。
- AIアシスタントがプライバシーを保護しながら，協力してカレンダー調整を行うための評価基準を確立する。
- CalBenchは，マルチエージェントカレンダー調整における連携とプライバシー保護のトレードオフを評価するためのベンチマークである。
- タスク完了率だけでなく，コスト削減，コミュニケーション効率，負担公平性，プライバシー漏洩といった複数の指標を評価可能である。
- 実験の結果，LLMは必ずしも最適な調整を実現せず，プライバシー保護のための沈黙が連携を阻害する可能性があることが示された。
Link: https://arxiv.org/abs/2605.09823
敵対的カーネル化バンディットに対するほぼ最適アルゴリズム [cs.LG]目的：敵対的環境下におけるカーネル化バンディットの最適アルゴリズム
- 機械学習における探索と活用のバランスは重要であり，バンディット問題はその基本的な枠組みを提供する。
- カーネル化バンディットは高次元空間での効率的な学習を可能にするが，敵対的な報酬関数への対応は課題である。
- 敵対的な報酬関数が与えられた状況下でも，効率的かつ最適な探索戦略を確立することを目的とする。
- 提案手法である指数重みアルゴリズムは，$\tilde{O}(\sqrt{T \gamma_T})$ の敵対的リグレットを達成することを示した。
- SEカーネルや$\nu$-Mat\'ernカーネルに対するアルゴリズムに依存しない下限を提示し，提案手法の最適性を保証した。
- 計算効率の高いナイストローム近似を用いた変種アルゴリズムを提案し，ほぼ最適なリグレット保証を維持した。
Link: https://arxiv.org/abs/2605.10299
CaC：階層的空間時間集中によるビデオ報酬モデルの発展 [cs.CV, cs.AI]目的：ビデオ異常検知のための報酬モデル
- ビデオデータ分析における異常検知は，監視や自動運転など，多くの応用分野で不可欠である。
- 既存の異常検知手法は，微妙な異常を捉えるのが難しく，説明可能性に課題がある。
- 空間時間的な集中メカニズムにより，より正確で解釈可能な異常検知を実現すること。
- 提案手法CaCは，粗い段階で時間的範囲を特定し，次に微細な空間的範囲を特定することで，異常に安定的に集中できる。
- CaCは，ファインチューニングと強化学習を組み合わせた段階的な学習パラダイムによって訓練され，IoU報酬を導入することで，より正確な空間時間的推論を促進する。
- 実験結果から，CaCは異常検知の精度を25.7%向上させ，生成ビデオの異常を11.7%削減し，全体的なビデオ品質を向上させることが示された。
Link: https://arxiv.org/abs/2605.11723
AgentLens：SWE-Agent評価における幸運合格問題の解明 [cs.HC, cs.IR, cs.SE, cs.AI]目的：SWE-Agentの評価におけるプロセスレベルでの品質評価
- ソフトウェア開発における自動化の重要性が増しており，SWE-Agentの性能評価が不可欠である。
- 従来のSWE-Agent評価は合否のみに注目しており，解決プロセスを考慮していない。
- SWE-Agentのプロセスを詳細に分析し，より正確な評価基準を確立すること。
- SWE-Agentの実行軌跡において，10.7%が「幸運合格」に該当することが判明した。
- AgentLensフレームワークとAgentLens-Benchデータセットを導入し，プロセスレベルでの評価を可能にした。
- 品質スコアに基づいて評価することで，モデルのランキングが大きく変動することが示された。
Link: https://arxiv.org/abs/2605.12925
大規模なポリシーの乖離下におけるオンポリシー推論蒸留のための教師ありポリシー最適化 [cs.LG, cs.AI]目的：大規模言語モデルの推論能力向上
- 大規模言語モデルの推論能力は，その実用性を左右する重要な要素である。
- 教師と生徒のポリシーが大きく異なる場合，既存手法では有効な学習が困難である。
- ポリシーの乖離が大きくても有効に学習できる手法を開発すること。
- 提案手法TGPOは，既存のRKLベースのOPD手法を常に上回り，様々な教師モデルに対してロバスト性を示す。
- TGPOは，生徒が生成したコンテキストに基づいてトークンレベルでの生成を教師によって直接誘導することで，より良い継続を促す。
- RLVRスタイルの軌跡レベル報酬と組み合わせることで，探索を改善し，教師の分布外の軌跡によるノイズを抑制する。
Link: https://arxiv.org/abs/2605.13230
多数ショットCoT-ICL：インコンテキスト学習を真に学習させる [cs.CL, cs.AI]目的：多数ショットにおける連鎖思考型インコンテキスト学習の特性
- 大規模言語モデルの性能向上には，推論能力の強化が不可欠である。
- インコンテキスト学習における多数ショット設定での推論タスクにおけるスケーリング特性は未解明である。
- 多数ショットCoT-ICLを，検索バッファではなく構造化されたカリキュラムと捉え，性能向上を目指す。
- 多数ショットCoT-ICLは，パターンマッチングではなく，テスト時の学習として機能する。
- 有効なデモンストレーションは，モデルが理解しやすく，概念的な進行をサポートする順序で提供される必要がある。
- Curvilinear Demonstration Selection (CDS)により，数学タスクで最大5.42%の性能向上を達成した。
Link: https://arxiv.org/abs/2605.13511
AttenA+: ロボット基盤モデルにおける行動の不均衡の修正 [cs.RO, cs.AI]目的：ロボット基盤モデルにおける行動の重要度に基づいた学習の優先度調整
- ロボット工学分野は，多様な環境での自律的なタスク実行を可能にする汎用的なロボット制御システムの実現を目指している。
- 既存のロボット基盤モデルは，全ての行動を均等に扱うため，物理的な重要度の違いを考慮できていない。
- 本研究は，速度に基づいた行動の注意機構を導入し，モデルの学習能力を物理的な要求に合わせて調整することで，この問題を解決する。
- 提案手法AttenA+は，既存のVLAモデルやWAMモデルに容易に組み込むことが可能であり，構造的な変更や追加パラメータは不要である。
- Liberoベンチマークにおいて，AttenA+はOpenVLA-OFTの性能を1.5%向上させ，98.6%という高い精度を実現した。
- また，RoboTwin 2.0ではFastWAMの性能を0.6%向上させ，92.4%を達成。実機による検証でも堅牢性と汎化性能が確認された。
Link: https://arxiv.org/abs/2605.13548
EVA-Bench：音声エージェント評価のためのエンドツーエンドフレームワーク [cs.SD, cs.AI, cs.CL, cs.LG]目的：音声エージェントの評価のための新しいフレームワーク
- 企業における音声エージェントの利用が拡大しており，その性能評価の重要性が高まっている。
- 既存の評価方法では，現実的な会話の生成と，音声特有の失敗モードを網羅的な測定が課題であった。
- 現実的な会話生成と包括的な評価指標によって，音声エージェントの性能を正確に評価することを目指す。
- EVA-Benchは，ボット同士の音声会話をシミュレーションし，自動検証によって会話の品質を維持する。
- タスク遂行率，忠実度，音声品質を評価するEVA-Aと，会話の円滑さ，簡潔さ，ターンテイキングを評価するEVA-Xの二つの指標を導入した。
- 12のシステムを評価した結果，EVA-AとEVA-Xの両方で0.5を超えるシステムは存在せず，ピーク性能と安定した性能に差が見られた。
Link: https://arxiv.org/abs/2605.13841
TabPFN-3：技術報告 [cs.LG, stat.ML]目的：表形式データの予測性能向上
- 科学技術や産業における多くの予測問題は表形式データに基づいており，その重要性は高い。
- 既存のモデルでは，大規模データセットへの対応や処理速度が課題となっていた。
- TabPFN-3は，より大規模なデータセットでの高性能化と高速化を目指す。
- TabPFN-3は，TabArena等のベンチマークテストで，既存のモデルを大幅に上回る性能を示した。
- 特に，100万行のデータセットにおいて，勾配ブースティング木モデルよりも高い予測精度を達成した。
- 推論時の計算量を調整する機能により，更なる性能向上が見られ，AutoGluon 1.5 extremeを凌駕した。
Link: https://arxiv.org/abs/2605.13986
ProtoMedAgent：プライバシー保護型エージェントワークフローによるマルチモーダル臨床解釈可能性 [cs.CV, cs.AI, cs.LG, cs.MA]目的：マルチモーダル臨床データの解釈可能性の向上
- 医療診断における説明可能性は，医師の信頼と患者の理解にとって不可欠である。
- 従来のRAG手法では，LLMが視覚的予測に合わせ，根拠のない説明を生成する「検索への迎合」の問題がある。
- 厳密な神経記号的ボトルネックとプライバシー保護機構を導入し，臨床報告の信頼性と安全性を高める。
- ProtoMedAgentは，標準的なRAGと比較して，比較セットの忠実度において91.2%という優れた結果を達成した。
- 本手法は，視覚的特徴と表形式データを離散的な意味記憶に蒸留し，厳密な集合論的差分によって生成を制約する。
- $\ell$-多様性相転移を活用することで，メンバーシップ推論リスクを絶対9.8%削減することに成功した。
Link: https://arxiv.org/abs/2605.14113
LLMエージェントにおける機能的に同等のツールに対する遅延と品質を考慮したルーティング [cs.LG]目的：LLMエージェントにおける機能的に同等のツールのプロバイダー選択
- LLMエージェントの性能は，ツール選択の効率に大きく依存する。
- 複数のプロバイダーが存在する場合，遅延，信頼性，品質のばらつきが課題となる。
- 遅延と品質を考慮したルーティングにより，最適なプロバイダー選択を目指す。
- 提案手法LQM-ContextRouteは，期待される回答品質をサービスサイクルごとに評価し，遅延をサービス能力として扱う。
- ウェブ検索のベンチマークにおいて，LQM-ContextRouteはSW-UCBと比較してF1スコアを+2.18pp改善し，遅延と品質のバランスを最適化した。
- StrategyQAや検索プールの多様な設定において，LQM-ContextRouteはSW-UCBを最大+18pp，NDCGを+2.91～+3.22pp上回る精度を示した。
Link: https://arxiv.org/abs/2605.14241
古い勾配を安定した勾配へ：暗黙的なランドスケープ平滑化を用いたコヒーレント座標降下法による軽量ゼロ次最適化 [cs.LG, cs.AI]目的：バックプロパゲーションが利用できない状況におけるゼロ次最適化手法
- メモリ制約のあるオンデバイス学習やブラックボックス最適化など，近年重要性が増している
- 既存手法は，サンプル効率の悪さ，またはランダム推定による高い分散というトレードオフに陥っている
- 過去の勾配を有効活用し，サンプル効率と収束安定性を向上させる
- 提案手法CoCDは，決定論的かつサンプル効率が高く，クエリ複雑度をO(1)に抑える
- CoCDは，過去の勾配を資産として活用し，ブロック巡回座標降下法(BCCD)と同等の性能を示す
- 有限差分ステップサイズの拡大が，最適化ランドスケープを暗黙的に平滑化し，収束安定性を改善する
Link: https://arxiv.org/abs/2605.14373
NOVA：AIによる知識発見の根本的限界 [cs.AI, cs.IT, math.IT]目的：AIによる反復的な自己改善を通じた真に新しい知識の発見可能性とその限界
- AI技術の進展は，科学的発見や問題解決に貢献する可能性を秘めている。
- AIが発見する知識の質や，発見プロセスにおける効率性の問題が残されている。
- AIによる知識発見の限界を理論的に明らかにし，実用的な改善策を提示すること。
- NOVAフレームワークを導入し，知識空間における適応的サンプリングとして「生成，検証，蓄積，再学習」ループをモデル化した。
- 知識の蓄積が有限の領域を覆うための十分条件を特定し，違反時の失敗モード（汚染，忘却，探索失敗，受容失敗）を示した。
- 生成コストと発見数Dの関係について，累積生成コストがR_{\mathrm{cum}}(D)=\Theta(c_{\mathrm{gen}}D^\alpha)で近似されることを証明し，漸近的な収益逓減を定量化した。
Link: https://arxiv.org/abs/2605.15219
DualKV：大規模ロールアウトと長文脈における効率的な強化学習のための共有プロンプトFlashAttention [cs.LG]目的：強化学習における大規模ロールアウトと長文脈での効率的な訓練
- 近年の強化学習では，大量のデータを用いて高性能なモデルを訓練することが重要である。
- 従来のFlashAttentionでは，共有プロンプトの重複計算がボトルネックとなり，計算資源の浪費を招いていた。
- 共有プロンプトの重複を排除することで，強化学習の訓練効率を向上させることを目指す。
- DualKVは，FlashAttentionカーネルの改良により，共有プロンプトの複製を排除し，計算効率を向上させる。
- Qwen3-8Bを用いたGRPO訓練において，DualKVはポリシー更新速度を1.63〜2.09倍に向上させ，マイクロバッチサイズを2倍に拡大した。
- 30B MoEモデルでは，DualKVはポリシー更新とエンドツーエンドのステップ速度をそれぞれ3.82倍，3.38倍に向上させた。
Link: https://arxiv.org/abs/2605.15422
ヒルベルト・ジオ：ニューラル記号推論による立体幾何問題の解決 [cs.CV, cs.AI, cs.CL]目的：立体幾何問題解決のためのニューラル記号推論フレームワーク
- 幾何問題解決は，マルチモーダル推論の典型であり，AI研究において重要な課題である。
- 既存研究は主に平面幾何に焦点を当てており，立体幾何における複雑な空間図形と推論に対応できない。
- 本研究は，立体幾何問題解決のための統一的な形式言語フレームワークを構築し，その性能向上を目指す。
- Hilbert-Geoは，立体幾何問題を扱うための形式言語フレームワークであり，豊富な述語ライブラリと定理バンクを備えている。
- 提案手法Parse2Reasonは，問題文と図形を形式言語CDLで表現し，定理バンクを用いて関係推論と代数計算を行うことで，正確な解答を導出する。
- SolidFGeo2kデータセットにおいて，77.3%という最先端の性能を達成し，Gemini-2.5-proやGPT-5などの既存モデルを大幅に上回った。
Link: https://arxiv.org/abs/2605.16385
拡散モデル，ノイズ除去器アーキテクチャ，そして創造性 [cs.CV, cs.LG]目的：拡散モデルにおける創造性のメカニズム解明
- 画像生成技術の発展は，現実世界に匹敵する高品質な画像を創出する上で不可欠である。
- 拡散モデルは学習データを模倣する傾向があり，真の創造性の発揮が課題であった。
- ノイズ除去器のアーキテクチャと目標分布の相互作用に着目し，創造性の源泉を特定する。
- 拡散モデルの創造性は，ノイズ除去器のアーキテクチャと目標分布の相互作用によって生じる。
- 線形，多項式，ボトルネックの３種類のノイズ除去器アーキテクチャに対して，生成されるサンプルの分布を理論的に解析した。
- UNETアーキテクチャのわずかな変更が，生成される画像の創造性や品質に大きな影響を与えることが示された。
Link: https://arxiv.org/abs/2605.16415
MRLとするか否か：テキスト埋め込みは，重度の切り捨てを除いて，マトリョーシカ学習なしでも切り捨てに強い [cs.LG, cs.CL]目的：テキスト埋め込みの切り捨てに対する頑健性の評価
- 自然言語処理において，テキスト埋め込みは様々なタスクの性能に大きく影響する重要な要素である。
- テキスト埋め込みのサイズ削減は計算コスト削減に繋がるが，性能劣化が懸念される。
- マトリョーシカ学習の有効性と，単純な切り捨てとの比較を通して，最適なサイズ削減手法を検討する。
- MRLを使用せずに学習したモデルの埋め込みを切り捨てた場合，重度な切り捨てを除いて，MRLモデルと同等以上の性能を示すことが確認された。
- 切り捨てに対する頑健性は，必ずしもMRLに由来するものではなく，単純な切り捨てでも十分な性能が得られる可能性が示唆された。
- 重度な切り捨てが必要な場合にのみ，MRLの追加的な学習コストが正当化されると考えられる。
Link: https://arxiv.org/abs/2605.16608
フィルターバブルにおける反響：生成レコメンダーにおける人気バイアスの診断と緩和 [cs.IR, cs.AI]目的：生成レコメンダーにおける人気バイアスの診断と緩和
- 推薦システムは，情報過多な現代において，ユーザーに適切な情報を提供する上で不可欠である。
- 既存の推薦システムには，人気アイテムに偏った推薦を行う人気バイアスの問題が存在する。
- 生成レコメンダーにおける人気バイアスの根本原因を特定し，公平性を高める手法を開発すること。
- 本研究では，生成レコメンダーにおける人気バイアスが，トークンレベルの最適化の欠陥とアイテムトークン化の均質性から生じることを理論的に解明した。
- 提案手法Ghostは，非対称な非尤度最適化と骨格に基づくトークン化を導入することで，人気バイアスを大幅に軽減し，より公平な推薦を実現した。
- 全体的な推薦精度はわずかに低下するものの，公平性の向上に成功した。
Link: https://arxiv.org/abs/2605.16825
OpenCompass：大規模言語モデルの汎用評価プラットフォーム [cs.CL, cs.LG]目的：大規模言語モデルの客観的，定量的な評価
- AI技術が急速に進歩し，大規模言語モデルが主流となっているため，性能評価が不可欠である。
- 既存の評価手法は，タスクの多様性，評価基準の不一貫性，データの断片化により，効率的な評価が困難である。
- 多様なタスクやデータに対応可能な，効率的で大規模な評価プラットフォームを開発すること。
- OpenCompassは，モジュール化とコンポーネントの分離を設計思想とし，高い互換性，柔軟性，並行性を実現する。
- 構成システム，タスク分割モジュール，実行・スケジューリングモジュール，タスク実行ユニット，結果可視化モジュールを主要コンポーネントとする。
- 知識，推論，計算，科学，言語，コードなど，多様なドメインのベンチマークデータセットに対応し，LLMの強みと弱みの特定を支援する。
Link: https://arxiv.org/abs/2605.19276
マトリョーシカ概念ボトルネックモデル [cs.LG]目的：解釈可能な深層学習のための概念ボトルネックモデルの効率化
- 深層学習の解釈性は，モデルの信頼性と公平性を高める上で不可欠である。
- 既存の概念ボトルネックモデルは，テスト時の介入コストが高いという課題がある。
- マトリョーシカ構造により，概念の利用を適応的に制御し，介入コストを削減することを目指す。
- 提案手法（MCBM）は，概念をネストされた階層構造で組織することで，異なる粒度での推論を可能にする。
- 理論的には，MCBMが介入コストを線形から対数オーダー（O(log K)）に削減することが示されている。
- 実験的に，MCBMは独立して訓練されたモデルと同等の性能を達成し，効率的な専門家とのインタラクションを実現する。
Link: https://arxiv.org/abs/2605.20612
AttuneBench：LLMの感情知能を評価するための会話型ベンチマーク [cs.RO, cs.AI]目的：LLMの感情知能の評価
- 人間コミュニケーションにおいて感情知能は不可欠であり，LLMが会話役割を担う現代において重要性が増している。
- 既存の感情知能ベンチマークは，合成プロンプトや単一ターンに依存し，実際の会話における感情推論・応答の評価が困難である。
- 本研究は，実際の会話におけるLLMの感情推論と応答能力を直接測定可能なベンチマークを構築し，評価することを目指す。
- AttuneBenchは，200件の人間とLLMの実際の多段階会話データに基づき，参加者の感情状態とモデルの行動に対するターンごとのアノテーションを提供する。
- 評価された11モデルにおいて，感情認識，行動分類，嗜好予測，応答品質のランキングは独立しており，感情知能は分離可能な能力で構成されることが示唆された。
- 嗜好の整合性と応答品質の判断は，感情ラベルの正確性よりもモデルの識別力が高く，文脈に応じたユーザーの嗜好を予測する重要性を示唆している。
Link: https://arxiv.org/abs/2605.21739
TWINGS：スパースビュー Gaussian Splatting のための Thin Plate Spline ワープアラインメント初期化 [cs.CV, cs.LG]目的：スパースビューからの新規視点合成における高品質なシーン再構築
- 3Dコンピュータビジョンにおいて，限られた視点からの高品質な再構築は重要な課題である。
- 視点数が少ない場合，再構築される3Dモデルの品質が低下しやすいという問題がある。
- TWINGSは，少ない視点数でも詳細かつ正確な再構築を可能にする初期化手法である。
- TWINGSは，Thin Plate Splineを用いてバックプロジェクションされた点を3D制御点とアラインメントさせることで，高精度な初期化を実現する。
- 実験結果から，DTU，LLFF，Mip-NeRF360のデータセットにおいて，既存手法を上回る性能が確認された。
- TWINGSは，構造詳細の保存と色再現性を向上させ，スパースビュー環境下での再構築精度を高める。
Link: https://arxiv.org/abs/2605.22069
JMed48k：視覚言語モデル評価のための多職種日本医療資格試験ベンチマーク [cs.CV, cs.AI]目的：視覚言語モデルの評価のための多職種日本医療資格試験ベンチマーク
- 医療分野におけるAI活用が期待される中，医師免許取得の判断能力を評価する基準が必要である。
- 既存のベンチマークは，日本の医療資格試験に対応しておらず，多職種を網羅していない。
- 日本の医療資格試験問題を用いて，視覚言語モデルの性能を客観的に評価する手段を提供する。
- JMed48kは，2005年から2025年の11種類の国家資格試験から48,862問の試験問題と20,142枚の画像を含む。
- 画像がある問題とない問題で評価を行った結果，商用モデルは画像から大きな恩恵を受けるのに対し，医療特化モデルは視覚情報の利用が限定的であった。
- 職種によって画像削除効果に差が見られ，医師問題では5.7点，公衆衛生看護師問題では39.8点と差が大きかった。
Link: https://arxiv.org/abs/2605.22080
CoRMA：接触豊富なメタ適応のためのコントラスト学習RMA [cs.RO, cs.LG]目的：力支配型組み立てのためのRMAを修正する文脈ベースのメタ適応フレームワーク
- ロボットの組み立て作業において，環境変化への適応能力は重要である。汎用的なロボット操作実現のため。
- シミュレーション環境で学習したロボットが，現実環境で性能を維持することが難しい。Real2Simギャップの問題。
- シミュレーションと現実の間のギャップを埋め，ロボットが自己学習によって組み立て作業を適応的に実行すること。
- CoRMAは，接触に関する情報を効果的に活用することで，シミュレーションから現実世界への転移性能を向上させた。
- 従来のFORGEと比較して，CoRMAは，ターゲット姿勢のノイズ下でより高い実成功率を維持した。
- この研究は，組み立てタスクファミリーにおいて，意味的接触推論が再利用可能な適応インターフェースとして機能することを示唆している。
Link: https://arxiv.org/abs/2605.22082
MPDocBench-Parse：実用的な複数ページ文書解析のベンチマーク [cs.AI]目的：複数ページ文書解析のためのベンチマーク
- 情報システムの基盤として，視覚的に豊かな文書を機械可読な構造に変換する技術が重要である。
- 既存のベンチマークは，特定のタスクに限定されるか，単一ページの文書に焦点を当てており，実用的な複数ページ解析には不十分である。
- 本研究は，より現実的なシナリオに対応した複数ページ文書解析の評価基盤を確立することを目的とする。
- 提案するMPDocBench-Parseは，15種類の文書タイプを含む433件の注釈付き文書（計3,246ページ）を提供し，包括的な評価を可能にする。
- 実験の結果，既存モデルは基本的なテキスト抽出には優れるものの，意味的連続性，視覚的コンテンツ解析，階層構造の復元に課題が残る。
- MPDocBench-Parseは，より現実的な文書解析技術の進歩を促進するための統一的な基盤となる。
Link: https://arxiv.org/abs/2605.22100
拡散理論入門：微分方程式から拡散モデルへ [cs.LG, cs.CL]目的：拡散モデルの数学的基礎に関する統一的かつ自立的な記述
- 生成モデリングの主要な枠組みとして拡散モデルが注目されており，その理論的理解が不可欠である。
- 拡散確率モデル，スコアベースモデリングなど，基礎となる数学的アプローチが分散しており，体系的な理解が困難である。
- 微分方程式の視点から，拡散モデルの理論的基盤を統合的に解説し，生成アルゴリズムへの理解を深めることを目指す。
- 拡散モデルの順方向および逆方向のダイナミクスは，微分方程式および確率微分方程式として導出可能である。
- 逆サンプリングの中核となる量は周辺スコアであり，スコアマッチングが標準的なノイズ除去目標となる。
- DDPM，DDIM，フローマッチング，スコアベースSDEなどの様々な拡散モデルを共通の枠組みで整理した。
Link: https://arxiv.org/abs/2605.22586