arXiv雑要約

AI - 2026/05/19 公開

ビデオJEPAのための因数分解された潜在的ダイナミクス：補助目的関数の経験的研究 [cs.CV, cs.LG]目的：ビデオJEPAにおける補助目的関数の効果検証
- 動画理解は，ロボット工学や自動運転など，様々な応用分野において不可欠な技術である。
- 自己教師あり学習では，補助目的関数が性能に大きく影響するが，その挙動は十分には理解されていない。
- 潜在空間を分離することで，補助目的関数間のトレードオフを解消し，性能向上を目指す。
- 多くの補助目的関数において，あるタスクの性能向上と別のタスクの性能低下というトレードオフが確認された。
- FWM-HW-LDは，ImageNet-100とSomethingSomething V2の性能をそれぞれ+5.92%，+3.21%向上させた。
- 潜在的表現の因数分解は，ビデオJEPAにおける補助目的関数のトレードオフを研究する上で有効な方向性である。
Link: https://arxiv.org/abs/2605.17165
説明可能な責任あるエージェントAIには明示的な来歴が必要である [cs.AI, cs.CL, cs.MA]目的：エージェントAIの責任追跡可能性の確立
- AI技術の社会実装が進む中で，その信頼性が重要課題となっている。
- 現在のAIフレームワークでは，責任の所在が不明確で，追跡が困難である。
- AIのライフサイクル全体における明示的な来歴管理によって，責任を可算化・具体化することを目指す。
- エージェントAIの責任追跡において，来歴が構造的に不可欠であることが示された。
- 因果帰属関数と責任テンソルを用いて，来歴がエンコードすべき情報を形式化した。
- ライフサイクル層ごとの来歴の算出可能性と介入可能性を実験的に確認した。
Link: https://arxiv.org/abs/2605.17169
TriAxialKV：エージェント推論タスクのための極めて低精度なKVキャッシュ量子化に向けて [cs.LG]目的：エージェント推論タスクにおけるKVキャッシュ量子化の効率化
- LLM推論におけるエージェントワークロードの重要性が増しており，高性能な推論技術が求められている。
- 既存のKVキャッシュ量子化法は，文脈の重要度の軸を考慮した柔軟性に欠け，性能向上の限界がある。
- 文脈の重要度の3軸（時間的近接性，モダリティ，意味的役割）を考慮した量子化手法を開発し，性能を向上させる。
- TriAxialKVは，固定メモリ予算の下で，各トークンに3軸のタグを付与し，タグごとの感度を調整することで，INT2/INT4のビット幅を割り当てる。
- Qwen3-VL-32B-Thinkingを用いた実験で，TriAxialKVはBF16 KVキャッシュと同等の精度を達成しつつ，KVキャッシュサイズを4.5倍に拡大した。
- 実GPUシステム上では，エンドツーエンドのスループットが30%向上し，SGLangと同等の性能を発揮した。
Link: https://arxiv.org/abs/2605.17170
OpenJarvis：個人のデバイス上のパーソナルAI [cs.LG, cs.AI, cs.CL]目的：ローカルモデルを用いたパーソナルAIスタックの性能向上
- パーソナルAIは日々の業務において重要性を増しており，個人の生産性向上に貢献する。
- 既存のパーソナルAIスタックはクラウドモデルに依存しており，機密性の高いローカルデータの外部送信が課題。
- ローカルモデルとクラウドモデルの性能差を埋め，セキュアかつ効率的なパーソナルAI環境を実現すること。
- OpenJarvisは，Intelligence，Engine，Agents，Tools & Memory，Learningの5つの基本要素に分解可能なアーキテクチャを提案。
- LLMによるスペック検索を用いることで，クラウドモデルの提案を参考にしながらローカルモデルの性能を最適化。
- その結果，8つのベンチマークのうち4つでクラウドモデルと同等以上の精度を達成し，APIコストを約800分の1，レイテンシを4分の1に削減。
Link: https://arxiv.org/abs/2605.17172
なぜ安全性ガードレールは言語間で劣化するのか [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおける言語間安全性劣化の原因分析
- 大規模言語モデルの安全性確保は，社会実装において不可欠である。
- 非英語圏言語における安全性評価が，評価指標の複合性により困難である。
- 言語ごとの安全性低下要因を分離し，詳細な分析を可能にすること。
- 言語に依存しない安全性堅牢性，プロンプトの難易度，言語処理の困難さ，言語間安全性ギャップなどの要因を分離した。
- 安全性評価は主に単一のメカニズムに依存しており，低リソース言語よりも英語の方が脆弱なモデル構成が存在することが示された。
- 提案手法は，安全性評価において高い予測性能を示し，言語と概念の脆弱性を明らかにすることで，公平な評価と改善に貢献する。
Link: https://arxiv.org/abs/2605.17173
実行を超えて：静的解析による報酬とヒント条件付き拡散RLによるコード生成 [cs.SE, cs.AI]目的：拡散言語モデルを用いたコード生成における性能向上
- コード生成における機能的正確性は重要であり，強化学習はそのための有望な手法である。
- 複雑なタスクでは，実行に基づく報酬が学習信号として不十分になる「能力の崖」が存在する。
- 実行フリーな報酬やヒント条件付きサンプリングを活用し，難易度に応じた最適な手法を模索する。
- 静的チェックが最も強力な実行フリー報酬であり，HumanEvalのDiffuCoderの性能を53.9から67.1に向上させた。
- LiveCodeBenchにおいても性能が14.9から15.5に向上し，ロールアウト時間を9.4％削減した。
- 難易度が高いベンチマークではASTベースのヒントが有効であり，タスク難易度に応じて最適な報酬設計が異なる。
Link: https://arxiv.org/abs/2605.17174
CAREBench：認知評価推論によるLLMの感情理解の評価 [cs.AI]目的：LLMの感情理解能力の評価
- 人間との効果的な対話には感情理解が不可欠であり，AIの社会実装において重要である。
- 既存の評価法は離散的な感情ラベル予測に依存し，感情生成の認知プロセスを捉えられていない。
- 感情評価理論に基づき，LLMの感情理解の診断的評価を可能にする新たなベンチマークの構築。
- CAREBenchは，実世界の物語に対する，一人称・三人称両方の視点からの完全な推論チェーンアノテーションを含む初のベンチマークである。
- 実験の結果，高性能なLLMでも，認知評価推論やポジティブ感情の認識において人間には及ばない場合があることが示された。
- 本研究は，感情予測指標がLLMの真の感情理解を過大評価する可能性を示唆し，より診断的な評価の基盤を提供する。
Link: https://arxiv.org/abs/2605.17176
射影ヘッドの幾何学：条件付け，不変性，崩壊 [cs.LG, math.OC, stat.ML]目的：自己教師あり学習における射影ヘッドの幾何学的理論
- 表現学習において，特徴抽出器とタスク間の適切な射影は重要である。
- 射影ヘッドの設計原理が明確でなく，次元崩壊の問題が頻発する。
- 射影ヘッドの幾何学的性質を解明し，次元崩壊のメカニズムを明らかにする。
- 線形ヘッドは暗黙的に部分空間の白色化を行い，非線形ヘッドは損失のトポロジー制約に適応する。
- 滑らかな非線形ヘッドは崩壊した均衡点において負の固有値を誘発し，不安定になる。
- 射影ヘッドは，意味的バックボーンと事前学習目的の制約を分離する幾何学的バッファとして機能する。
Link: https://arxiv.org/abs/2605.17180
MusicSynth：楽譜からバイオリン指板アニメーションを自動生成するパイプライン [cs.SD, cs.AI]目的：楽譜からのバイオリン指板アニメーションの自動生成
- バイオリン学習は視覚的な指板の目印がないため困難であり，効果的な学習支援が求められている。
- 既存の楽譜認識技術では，バイオリン指板への具体的な位置指示が伴わない場合が多い。
- 楽譜画像からバイオリン指板のアニメーションを自動生成し，初心者向けの学習支援を可能にすること。
- 楽譜画像認識，MusicXML解析，動画レンダリングの既存ツールを連携させたパイプラインを構築した。
- 印刷された楽譜で91.2%の音符を正確に識別し，デジタル楽譜ファイルでは99.1%の指位を正しく割り当てた。
- 楽譜画像からバイオリン指板アニメーションを自動生成する同様のウェブベースツールは現状存在しない。
Link: https://arxiv.org/abs/2605.17181
PluRule：ソーシャルメディアにおける多元的なコミュニティのモデレーションのためのベンチマーク [cs.CL, cs.AI, cs.CY]目的：ソーシャルメディアにおける多元的なコミュニティのルール違反検出
- ソーシャルメディアは多元化が進み，各コミュニティが独自の規範を設けているため，従来のモデレーション手法では対応が困難になっている。
- コミュニティごとにルールが異なるため，AIによるルール違反の自動検出は，高い精度が求められる難題となっている。
- 異なるコミュニティのルールを考慮した，AIによる効果的なルール違反検出手法を確立することが本研究の目的である。
- 本研究で構築したPluRuleベンチマークを用いて，最先端のビジョン言語モデルがルール違反検出において苦戦していることが示された。
- GPT-5.2のような高性能モデルでも，単純なベースラインと比べてわずかな改善しか見られなかった。
- モデルの規模拡大やコンテキストの増加は，限定的な効果しか提供しないことも明らかになった。
Link: https://arxiv.org/abs/2605.17187
OPTNet：災害後3Dセマンティックセグメンテーションのための点順序変換ネットワーク [eess.SY, cs.SY, cs.MA, cs.HC, cs.CY, cs.LG, cs.CV]目的：災害後3D点群のセマンティックセグメンテーション
- 災害時の迅速な復旧には，被害状況の正確な把握が不可欠である。
- 既存手法は計算コストが高く，効率的な点群処理が課題であった。
- 災害現場の複雑な形状に適応した効率的な点群処理方法を開発する。
- OPTNetは学習可能な点ソーターモジュールを導入し，注意機構の局所性を最大化する最適な順序を動的に予測する。
- 提案手法は，既存の最先端手法と比較して，3DAeroReliefデータセット上で大幅に性能を向上させた。
Link: https://arxiv.org/abs/2605.17197
フィルタリングと検証：ソーシャルエンジニアリング検出のための多段階GNNとModernBERTフレームワーク [cs.CR, cs.LG]目的：ソーシャルエンジニアリングの検出
- 人的信頼につけ込む攻撃は，ソフトウェア脆弱性とは異なり，従来のフィルタでは検出が困難である。
- 既存手法では，巧妙化するソーシャルエンジニアリング攻撃を正確に検出し，誤検知を抑制することが課題である。
- 構造的異常とコンテンツ分析を組み合わせ，実用的なソーシャルエンジニアリング攻撃の検出を目指す。
- GNNによる構造的フィルタリングで86%のリコールを達成し，異常な送信者-受信者パターンを検出した。
- BERTによるコンテンツ検証により，92%以上の精度で誤検知を低減し，検出精度を向上させた。
- 本フレームワークは，外部からの攻撃と内部脅威の両方を効果的に検出可能であることを示した。
Link: https://arxiv.org/abs/2605.17201
イベントに基づいたスパースオートエンコーダによる視覚言語行動ポリシー [cs.CY, cs.RO, cs.AI]目的：視覚言語行動ポリシーの解釈可能性向上
- ロボットの行動を言語と視覚情報から導くVLAポリシーは，自律システムの発展に不可欠である。
- VLAポリシーの内部表現の解釈は困難であり，既存の解釈ツールは直接適用できない。
- 行動イベントにSAE特徴量を関連付け，VLA分析を閉ループな行動イベントに基づいたものにする。
- イベントに基づいたランキングは，OpenVLAに最も強い因果効果をもたらし，π0.5の連続行動チャンクに転移した。
- SAEは疎だが不完全な介入基盤であり，有用性はアーキテクチャや介入部位によって異なる。
- イベントに基づいたSAE分析は，行動にアンカーされたVLA解釈の実際的な出発点として有効であることが示された。
Link: https://arxiv.org/abs/2605.17204
制約付き密度比ネットワークのための，時間経過とともに難易度に適応するPAC-Bayes [cs.CL, cs.MA, cs.LG]目的：共変量シフト下での学習フレームワーク
- 機械学習において，分布の不一致は性能低下の大きな原因となる。
- 従来の密度比推定手法は，安定性や汎化性能に課題が残る。
- 本研究は，時間経過とともに変化するデータ分布への適応を可能にする。
- 提案手法は，実データにおいて，重み付けされていない経験リスク最小化よりも低いターゲット0/1損失を達成した。
- 密度比ネットワークは，実データ上で校正された共変量比を出力し，安定した汎化性能を示した。
- 固定時間での網羅率の主張は，ラベルシフトの大きさとの相関関係により，共変量のみの仮定が妥当であることを確認した。
Link: https://arxiv.org/abs/2605.17212
ChemVA：化学反応図の理解における大規模言語モデルの発展 [cs.AI, cs.CL, cs.CV]目的：化学反応図の理解に関する大規模言語モデルの能力向上
- 化学分野では，反応機構の解明や新物質の設計に図の理解が不可欠である。
- 既存の大規模言語モデルは，複雑な化学構造の図を正確に解釈する能力に課題があった。
- 化学反応図の視覚的特徴と意味的情報を効果的に結びつけ，言語モデルの化学的推論能力を高める。
- 提案手法ChemVAは，化学反応図の構造認識において92.0%という高い精度を達成した。
- ChemVAは，9種類のオープンウェイト大規模言語モデルにおいて，平均20%程度の性能向上をもたらした。
- 本手法により，オープンウェイトモデルが，高度な化学的推論タスクにおいて，商用最先端モデルに匹敵する能力を獲得した。
Link: https://arxiv.org/abs/2605.17214
サイバーセキュリティにおけるAI統合：侵入検知への応用を中心に [eess.SY, cs.SY, cs.CR, cs.AI, cs.LG, cs.NI, eess.SP]目的：サイバーセキュリティにおけるAI統合の現状と動向
- サイバー攻撃は巧妙化の一途をたどり，従来の防御策では追随が困難になっている。
- AI技術のサイバーセキュリティへの応用は進んでいるものの，その具体的な手法や性能評価は未整備である。
- 侵入検知におけるAI技術の現状を分析し，有効な手法を明らかにすること。
- AI，特に生成AI，自然言語処理，連合学習，説明可能なAIなどの活用がサイバーセキュリティ分野で注目されている。
- 本稿では，これらのAI技術を用いた侵入検知アプローチを比較分析し，その性能に関する知見を得ることを試みた。
- AI技術の解釈可能性と信頼性はサイバーセキュリティにおいて不可欠であり，今後の研究課題となる。
Link: https://arxiv.org/abs/2605.17219
FishBack：Transformerにおける最適な活性化ベクトル制御のためのプルバックフィッシャー幾何 [cs.CL, cs.RO, cs.SY, eess.SY, cs.LG, cs.CL]目的：Transformerにおける活性化ベクトルの最適な制御手法
- Transformerは自然言語処理の基盤技術であり，その性能向上は重要な課題である。
- 既存の活性化ベクトル制御手法は，活性化空間がユークリッド空間であると仮定している。
- 活性化空間の非ユークリッド性を考慮し，より正確な制御手法を開発すること。
- モデルの出力挙動から誘導されるフィッシャー情報行列を用いることで，活性化空間の幾何構造がユークリッド空間から大きく逸脱することが示された。
- プルバックフィッシャー幾何から導出される最適制御方程式は，最小歪み方向を特定し，反復処理による効果的な制御を可能にする。
- GPT-2を用いた実験により，FishBackが既存のユークリッド空間に基づく手法と比較して，オフターゲットKLの削減効果が高いことが確認された。
Link: https://arxiv.org/abs/2605.17231
離散拡散モデルの次元フリー収束：随伴方程式が適切な空間を誘導する [cs.LG, math.ST, stat.ML, stat.TH]目的：離散拡散モデルの収束保証
- 近年，様々な生成モデリングの主要な枠組みとして注目されている。
- 既存の収束理論は，masked分布などの特異な事前分布に対して収束しない場合がある。
- 状態空間のサイズに依存しない，次元フリーな収束保証を確立すること。
- 随伴方程式に基づく統一的な枠組みを構築し，任意の積分確率測度 (IPM) における次元フリーな収束を保証した。
- 本研究の境界は，状態空間サイズ$S$に全く依存せず，masked分布と一様事前分布の両方に適用可能である。
- 観測可能空間での作業，IPMに関する正則性解析，一様遷移下での$S$依存性の除去，masked遷移下でのスコア・マージナルキャンセル技術が鍵となった。
Link: https://arxiv.org/abs/2605.17232
代理モデル誘導プルーニングによる効率的なスケーリング則推定のための活性予算配分 [cs.LG]目的：スケーリング則推定における効率的な予算配分手法
- モデルの性能予測は，特定の性能目標に合わせた訓練戦略やアーキテクチャ設計に不可欠である。
- 経験的なスケーリング則研究は計算コストが大きく，戦略的なリソース配分が重要だが，十分に探求されていない。
- 限られた計算予算内で，より正確なスケーリング則を効率的に推定することを目指す。
- Successive Halving (SH)と代理モデルを組み合わせることで，従来の均一配分やSH単独よりも損失-計算コスト値の低い学習曲線が得られた。
- 実データと合成データセットにおいて，平均で最大2.84％および5.47％の性能改善が確認された。
- 本手法は計算コストを大幅に削減し，従来の網羅的なアプローチと比較して最大98.7％の節約を実現する。
Link: https://arxiv.org/abs/2605.17234
自動子宮頸がん分類のためのVision Transformerの系統的評価：最適化，統計的検証，臨床的解釈可能性 [cs.CV, cs.AI]目的：子宮頸がんスクリーニングの自動化におけるVision Transformerの性能向上
- 子宮頸がんの早期発見は，女性の健康維持において極めて重要である。
- 熟練した専門家の不足や，検査のばらつきが課題となっていた。
- Vision Transformerを用いて，より正確で解釈可能な自動診断システムの構築を目指す。
- ViT-Tinyアーキテクチャの最適化により，交差検証精度94.9%-95.2%を達成した。
- 水平方向のフリップとクラス重み付け（0.7 x 1.3）が最も効果的な戦略であることが判明した。
- Grad-CAM分析により，モデルの注意が臨床的に関連性の高い細胞構造に集中していることを確認した。
Link: https://arxiv.org/abs/2605.17236
位置を考慮した多項ロジット強盗問題における学習：乗算的効果から一般的な位置効果へ [cs.LG, stat.ML]目的：動的な共同アソートメント選択と位置決定問題に関する研究
- 小売業やオンラインプラットフォームにおいて，商品の配置は売上に大きな影響を与えるため，その最適化は重要である。
- 従来の強盗問題では位置効果が十分に考慮されておらず，最適なアソートメントと配置の同時決定が困難であった。
- 位置効果を考慮したアソートメント選択と配置最適化のための，ラウンドベース学習アルゴリズムを開発し，後悔（regret）を最小化すること。
- 乗算的効果モデルに対し，クリッピング機構を備えた交差位置ペアワイズ最尤推定法P2MLE-UCBを開発し，$\tilde{O}(\sqrt{NT})$という後悔値を達成した。
- 一般的な位置効果モデルに対し，ミニマックス下限を確立し，整合する上限を持つGP2-UCBを提案した。
- Dinkelbach法と最大重み二部マッチングに基づいた，ラウンドごとの共同アソートメントと位置最適化のための効率的なルーチンを設計した。
Link: https://arxiv.org/abs/2605.17238
ドリフトフローマッチング [cs.LG, cs.AI]目的：生成モデルの効率性と品質の向上
- 生成モデルは画像生成などに応用され，その性能向上が求められている。
- 従来のドリフトモデルは高速だが，生成品質の改善が難しい。
- ドリフトモデルとフローマッチングの利点を組み合わせ，柔軟な生成を可能とする。
- 提案手法であるドリフトフローマッチングは，ドリフトモデルの効率性を維持しつつ，反復計算による品質向上を実現した。
- ワンステップ生成と複数ステップ生成を両立し，計算資源に応じた生成が可能となった。
- 様々なタスクとデータセットで有効性が確認され，汎用性の高さを示した。
Link: https://arxiv.org/abs/2605.17244
通信ネットワークにおける不正行為の検知と防止のための効率的な機械学習フレームワーク [cs.NI, cs.LG]目的：通信ネットワークにおける不正行為の検知と防止
- 通信詐欺は世界的に深刻な問題であり，経済的損失や通信システムの信頼性低下を招くため，対策が急務である。
- 既存の不正検知手法では，変化する不正の手口に対応しきれていないという課題がある。
- 本研究では，機械学習を用いて，より効率的かつ正確な不正検知フレームワークを構築することを目指す。
- Random Forest (RF)モデルが，99.9%という高い精度で不正行為を検知できることが示された。
- XGBoostモデルも99.7%の精度を記録しており，両モデルとも高い性能を発揮することが確認された。
- RFモデルが最も効果的であり，通信ネットワークにおける不正行為の堅牢かつ信頼性の高い防止に貢献すると結論付けられた。
Link: https://arxiv.org/abs/2605.17245
仕様-コード整合性の忠実度検証手法 [cs.LG, cs.AI]目的：仕様とコードの整合性を評価する忠実度プローブの設計と検証
- ソフトウェアの信頼性確保には，仕様と実装の一致が不可欠である。誤った整合性は深刻なバグにつながる。
- 仕様とコードの整合性検証は手作業に頼ることが多く，大規模なシステムでは困難である。
- 自動化された手法を用いて，仕様とコードの不整合を効率的に特定し，改善を促す。
- 忠実度プローブを用いてCOBOLプログラムの仕様を反復的に改善し，テストの成功率を0.63から0.94に向上させた。
- プローブ生成にはLLMや静的解析パイプラインを活用し，その混合比率を調整することで更なる忠実度向上が確認された。
- 異なるLLM系統を用いた実験により，この手法が特定のモデルに依存しない汎用性も示された。
Link: https://arxiv.org/abs/2605.17246
TIDEによるロバストな議論エッセイ理解への道：試行と討論を用いたインタラクティブなフレームワーク [cs.AI]目的：議論エッセイの理解と評価の改善
- 批判的思考力や推論能力を測る上で議論エッセイは重要である。
- プロンプトによる議論エッセイの正確な理解と評価に関する研究が不足している。
- ノイズの多い学習データの影響を軽減し，最適化の安定性を高める。
- TIDEフレームワークは，自動採点，議論構成要素の検出，議論関係の識別タスクにおいて性能向上を示した。
- 提示された手法は，基準に基づいたプロンプト最適化の限界に対処することに貢献する。
- プロンプトに基づいた方法の組み合わせが，高度な議論理解に繋がる可能性を示唆する。
Link: https://arxiv.org/abs/2605.17247
時系列予測におけるテスト時適応の原理的アプローチ [cs.RO, cs.LG]目的：時系列予測における分布シフトへの対応
- 時系列データは様々な分野で利用され，正確な予測は重要である。
- 予測対象のデータ分布が変化すると，予測精度が低下する問題がある。
- テスト時に分布の変化に対応し，予測精度を維持・向上させる手法を確立する。
- 既存のテスト時適応手法の不均一性を解消するため，真値データのみに基づく適応プロトコルを提案した。
- 既存の適応器の周波数領域における修正パターンを分析した結果，限られたスペクトル変化しか見られないことが分かった。
- 周波数情報を考慮した軽量な較正手法（FAC）を提案し，少ないパラメータで高い性能を達成した。
Link: https://arxiv.org/abs/2605.17250
分布シフト下での学習における反復 Chow フィルタリング [cs.DS, cs.LG]目的：分布シフト下での学習問題
- 機械学習において，訓練データとテストデータの分布が異なる分布シフトは頻繁に発生する。
- 既存手法は，強い近似条件を必要とし，基本的な関数クラスに対して劣悪な性能を示す場合がある。
- より弱い条件で効率的な学習アルゴリズムを開発し，分布シフト問題の解決を目指す。
- 本研究では，L1 sandwiching が効率的な PQ 学習に十分であることを示した。
- その結果，一様分布下における DNF の quasipolynomial 時間 PQ 学習アルゴリズムを初めて実現した。
- また，定数深さ回路や定数次多項式閾値関数など，他のクラスに対しても指数的な改善をもたらした。
Link: https://arxiv.org/abs/2605.17251
触媒材料のためのグラフ・テキストマルチモーダル大規模言語モデル：CatalyticMLLM [cs.AI]目的：触媒材料の物性予測と逆構造設計
- 触媒材料の高性能化は，エネルギー問題や環境問題の解決に不可欠である。
- 従来の分離型アプローチでは，生成モデルと予測モデルの不整合が生じ，最適化の安定性が損なわれる。
- 生成と予測を統合し，データ分布のシフトや評価者のバイアスを軽減することで，安定した最適化を目指す。
- QE-Catalytic-V2は，3次元構造とテキスト情報を活用し，信頼性の高い物性予測を実現する。
- QE-Catalytic-V2は，目標物性に基づいて実行可能なCIF候補を生成・スクリーニングし，閉ループ最適化を可能にする。
- 実験結果は，QE-Catalytic-V2が分離型アプローチよりも優れた性能を示すことを示しており，単一のマルチモーダルモデルによる物性予測と構造生成の同時モデリングの有効性を裏付けている。
Link: https://arxiv.org/abs/2605.17254
CAM-Bench：Leanにおける計算・応用数学のベンチマーク [cs.AI, math.OC]目的：計算・応用数学における定理証明のベンチマーク
- 大規模言語モデルの数学的推論能力評価は重要である。形式的な検証が可能となる。
- 既存のベンチマークは，オリンピック形式の問題や代数学に偏っている。
- 計算・応用数学分野の問題を評価することで，その能力を測ることを目指す。
- CAM-Benchは，最適化，数値線形代数，数値解析を含む1,000のLean証明ターゲットで構成される。
- 問題は教科書の演習問題に基づき，局所的な定義やアルゴリズムに依存する。
- 大規模言語モデルや形式化エージェントの評価を行い，失敗モードを分析した。
Link: https://arxiv.org/abs/2605.17255
インバータ主導型電力系統におけるリアルタイムサイバー物理攻撃と故障分類のための遅延を考慮した深層学習ベンチマーク [eess.SY, cs.AI, cs.LG, cs.SY]目的：電力系統異常検出しようとする深層学習モデルの性能評価フレームワーク
- 電力系統の安定運用には，リアルタイムでの異常検知が不可欠である。
- 深層学習モデルの遅延が実運用上の制約となり，保護システムへの実装が課題となっている。
- サブサイクル異常検知のための再現可能なベンチマークを確立し，実用化に向けた指針を示す。
- 8種類のニューラルネットワークアーキテクチャを用いて，インバータ主導型電力系統における物理的な故障とサイバー攻撃をリアルタイムで分類できた。
- 分類判断は1サイクル内に完了したが，推論全体の遅延は3サイクルを超え，50～90msとなった。
- アルゴリズムの能力と保護グレードでの展開の間には重要なギャップが存在し，さらなる最適化とハードウェア加速が必要であることが示された。
Link: https://arxiv.org/abs/2605.17256
分子類似度が機能する時：特性急変が隠れたエラーを明らかにする [cs.HC, cs.RO, cs.LG]目的：分子特性の予測におけるエラー検出と軽減
- 創薬や材料設計において，正確な分子特性予測は不可欠である。
- 既存モデルは，全体的な性能評価では見過ごされる局所的な失敗モードに脆弱である。
- 特性急変に着目し，分子類似性を活用した評価・学習手法を提案し，予測精度向上を目指す。
- 特性急変領域におけるエラー率が，従来の評価手法よりも15%以上高いことが明らかになった。
- 提案手法CliffLossは，Lipophilicityにおいて特性急変と平滑領域のエラー差を最大30%削減した。
- CliffLossは全体的な平均絶対誤差（MAE）を9.7%改善し，分子機械学習の評価問題として確立した。
Link: https://arxiv.org/abs/2605.17265
VLA推論の忠実性は信頼できるか？因果連鎖の安全性の検証 [cs.IR, cs.AI, cs.CV, cs.RO]目的：VLA（視覚-言語-行動）運転モデルにおける忠実性の体系的な研究
- 自動運転技術の安全性向上は，社会実装における喫緊の課題である。
- VLAモデルの推論過程の透明性と信頼性が担保されていない。
- VLAモデルの推論の忠実性を評価し，安全性を高めるための設計指針を示す。
- VLAモデルの出力される自然言語による理由付けは，現実の状況と一致しない場合が多いことが示された。
- 推論の忠実度は平均42.5%であり，歩行者検出の誤りや，わずかな視覚的摂動に対する軌道の不安定性などが確認された。
- 推論と行動の一貫性は平均48.3%にとどまり，停止を主張しながらも継続してしまうケースも多く見られた。
Link: https://arxiv.org/abs/2605.17268
一般化された真の損失に対する較正：ブレグマン・ダイバージェンスのアプローチ [cs.LG, stat.ML]目的：真の損失に対する較正の一般化
- 機械学習における予測の信頼性評価は重要であり，その精度向上に不可欠である。
- 既存の較正手法は特定の損失関数に限定され，汎用性に欠ける場合がある。
- 様々な真の損失関数に対して適用可能な，汎用的な較正手法を確立すること。
- 本研究では，後悔最小化に基づいた汎用的な較正の枠組みを提案した。
- 特に，Tsallis損失やLipschitz損失を含む広範な真の損失関数族に対してU-較正の結果を得た。
- 次元数に対する依存性が既存研究よりも弱く，対数的な後悔を達成した。
Link: https://arxiv.org/abs/2605.17269
最新技術の主張には，最新技術の証拠が必要である [cs.LG, cs.AI]目的：AIベンチマークにおける主張と証拠のギャップの特定
- AI研究の進歩を正確に評価し，信頼性を高めることが重要である
- ベンチマークの集計スコアのみでは，モデルの真の性能を判断できない
- 主張の根拠となる証拠の質を向上させ，より正確な比較を可能とする
- AIベンチマークのトップモデル比較において，優位性を示す少なくとも1つの性質が満たされない場合が過半数以上存在する。
- 集計スコアの改善は，外れ値データセットに大きく依存しており，安定性に欠けることが示された。
- 主張の言葉は，裏付けとなる証拠の強さを反映すべきであり，結果の正直な報告が重要である。
Link: https://arxiv.org/abs/2605.17273
心電図モデルのスケール則：どのように拡張するか [cs.LG, cs.AI]目的：心電図モデルにおけるスケール則の体系的な調査
- 近年，自然言語処理分野ではスケール則が基礎モデルの重要な枠組みとなっている。
- 心電図モデルにおいては，モデルサイズや事前学習データ量を増やしても，一貫した性能向上が見られない場合がある。
- 心電図モデルの性能向上には，モデル構造や事前学習方法の戦略的な選択が重要となる。
- 教師あり学習モデルは，分布内データにおいてデータ不足の影響を受ける一方，自己教師あり学習モデルは，モデルサイズとデータ量の両方で堅牢にスケールする。
- 分布外汎化性能においては，ResNetがTransformerよりもパラメータ効率が1.3〜2.5倍高く，自己教師あり学習は教師あり学習よりも最大16倍データ効率が良く，転移効率も最大7.6倍高い。
- 観察されたスケール範囲では，ResNetベースのモデルが一般的に分布外損失を最小化し，自己教師あり学習が未知の臨床タスクで優位性を示し，大規模モデルでは自己教師ありTransformerがそれを上回る。
Link: https://arxiv.org/abs/2605.17276
A2RBench：形式検証可能な抽象的推論ベンチマーク自動生成のためのパラダイム [cs.AI, cs.LG]目的：抽象的推論ベンチマークの自動生成
- LLMの知能や汎化能力を測る上で，抽象的推論能力の評価は重要である。
- 既存のベンチマークは，手動アノテーションにコストがかかるか，記憶力測定の危険性がある。
- 大規模で信頼性の高い抽象的推論ベンチマークの自動生成と検証を実現する。
- 現在のLLMは抽象的推論において根本的な欠如があり，代表的なサブセットで人間より大幅に劣る性能を示す。
- LLMは生成された3次元タスクの複雑さにおいて2次元および1次元タスクに遠く及ばず，高次元タスクへの理解不足が示唆される。
- 情報量の多い入力は，意外にも推論プロセスを単純化する可能性があることが示された。
Link: https://arxiv.org/abs/2605.17278
LLMを用いた文脈を意識した競合解決手法 Rover [cs.SE, cs.AI]目的：大規模プロジェクトにおけるコードマージ時の競合解決
- ソフトウェア開発において，複数人での共同作業は不可欠であり，効率的なコード統合が重要である。
- 既存手法は，開発者の意図の理解や複雑な依存関係への対応が不十分であり，手動での解決が必要となる場合が多い。
- LLMとプログラム解析を組み合わせ，文脈を考慮した競合解決により，自動解決率の向上を目指す。
- Roverは，Multi-layer Code Property Graph (MtCPG)を用いてコード間の依存関係を表現し，文脈に応じたプロンプトを生成する。
- Roverは，グラフ連結アルゴリズムにより競合箇所を意味のある「文脈」にクラスタリングし，LLMによる正確な解決策の生成を支援する。
- 評価実験の結果，Roverは既存手法と比較して，コード競合解決の精度が向上し，正解との類似性が高かった。
Link: https://arxiv.org/abs/2605.17279
ContractBench：LLMエージェントは観測契約を遵守できるか [cs.SE, cs.AI]目的：観測契約の遵守状況の評価
- LLMエージェントのAPI利用が拡大する中で，APIの出力が後続処理に影響を与えるため，その正確性が重要である。
- 既存のベンチマークでは，API出力の有効期限切れやデータ破損といった観測契約違反を評価していない。
- 観測契約違反を引き起こす要因を特定し，LLMエージェントの信頼性を向上させる。
- ContractBenchは，API出力の有効期限とデータ整合性を評価する33のタスクから構成される。
- 評価の結果，最先端モデルでも観測契約の遵守率は80%に達せず，Claude-Opus-4.6が77.8%で最も高い結果を示した。
- 失敗分類は，モデルへの報酬信号として活用でき，GPT-5.1のパフォーマンスを7.1%向上させた。
Link: https://arxiv.org/abs/2605.17281
OProver：エージェントによる形式定理証明のための統一的フレームワーク [cs.CL, cs.AI]目的：エージェントによる形式定理証明の統一的フレームワーク
- 形式定理証明は，ソフトウェアやハードウェアの検証において重要な役割を担う。
- 大規模な証明生成と検証器を意識した学習が進む一方，エージェントによる証明学習は十分ではない。
- エージェントによる証明を訓練に組み込み，形式定理証明の性能向上を目指す。
- OProverは，Lean 4において，過去の証明やコンパイラからのフィードバックを用いて，失敗した証明を反復的に修正する。
- 継続事前学習と反復的なポストトレーニングを通じて学習され，MiniF2F，ProverBench，PutnamBenchで最高の結果を達成した。
- 177万件のLeanステートメントと686万件のコンパイラ検証済み証明を含むOProofsを構築し，学習データとして活用した。
Link: https://arxiv.org/abs/2605.17283
CLAP：エンドツーエンド自動運転のためのコントラスト潜在空間プロンプト最適化 [cs.CV, cs.AI, cs.LG, cs.RO]目的：稀少かつ安全上重要な状況における自動運転システムの計画性能向上
- 自動運転技術は，交通渋滞の緩和や事故の削減に貢献し，社会に大きな変革をもたらす可能性を秘めている。
- 既存の自動運転システムは，一般的な走行状況には対応できるものの，稀な状況や複雑な状況に対する脆弱性が課題である。
- 本研究は，データ拡張やモデル学習だけでは解決できない，稀少な状況に対する自動運転システムの適応能力向上を目指す。
- CLAPは，V2X通信を活用し， crowdsourced dataから最適化されたソフトプロンプトにより，凍結されたVLAドライビングモデルを拡張する。
- 潜在空間におけるコントラスト学習と方向性正則化プロンプト最適化により，難しいシーンの性能を向上させながら，通常のシーンの性能を維持する。
- NAVSIMベンチマークにおいて，CLAPは難しい状況における計画エラーを24％削減し，通常のフレームに対する性能劣化は見られなかった。
Link: https://arxiv.org/abs/2605.17284
UNR-Explainer：教師なしノード表現学習モデルに対する反事実的な説明 [cs.LG, cs.AI]目的：教師なしノード表現学習モデルに対する反事実的な説明生成
- 機械学習において，グラフ構造データ処理の重要性が増しており，ノード表現学習が不可欠となっている。
- 教師なしモデルは解釈性が低く，その意思決定の根拠を説明することが困難である。
- 教師なしノード表現学習における説明可能性を高め，モデルの挙動理解を促進すること。
- 本研究では，モンテカルロ木探索に基づき，教師なしノード表現学習モデルに対する反事実的な説明を生成するUNR-Explainerを提案した。
- 提案手法は，ノードのk近傍の変動を引き起こす重要な部分グラフを特定することで，説明を生成する。
- 多様なデータセットにおいて，GraphSAGEおよびDGIに対する有効性が確認された。
Link: https://arxiv.org/abs/2605.17285
効率が逆効果になる場合：敵対的攻撃下でのLLMカスケードがカスケード故障を引き起こす [cs.CR, cs.AI]目的：LLMカスケードシステムの敵対的攻撃に対する脆弱性
- LLMは多様なタスクで高性能を示す一方，計算コストが課題となる。
- カスケードシステムは効率化のために導入されているが，新たなセキュリティリスクを生む。
- カスケード構造を悪用する攻撃手法を提案し，コスト効率と精度の低下を誘発する。
- LLMカスケードシステムが，敵対的攻撃によって性能とコスト効率の両面で脆弱であることが示された。
- 提案手法は，カスケード構造を戦略的に利用することで，単一モデルへの攻撃よりも大きな影響を与える。
- 本研究は，LLMカスケードシステムのセキュリティ評価の重要性と，システム全体のリスクへの注意喚起を行う。
Link: https://arxiv.org/abs/2605.17288
LEAP：大規模言語モデルの学習可能なエンドツーエンド適応的プルーニング [cs.LG, cs.AI]目的：大規模言語モデルのプルーニング手法
- 近年，GPUの性能向上により，疎なモデルの高速化が現実的になり，プルーニングの重要性が増している。
- 既存のプルーニング手法は，層ごとに精度を犠牲にする傾向があり，特に高い疎性率では問題が顕著である。
- 本研究は，エンドツーエンドで学習可能なマスクを用いて，より高精度なプルーニングを実現することを目指す。
- LEAPは，従来の層ごとのプルーニング手法であるADMMと比較して，6つのタスクにおけるゼロショット精度を平均で2.59ポイント向上させた。
- LEAPは，大規模言語モデル (0.5Bから8Bパラメータ) において，50%および60%の疎性率で有効であることが示された。
- LEAPは，重みごとにベルヌーイ分布を用いてマスクを学習することで，計算量の問題を解決している。
Link: https://arxiv.org/abs/2605.17289
段階的評価指標報酬によるLLMの推論能力向上 [cs.LG]目的：LLMの推論における段階的な評価指標報酬の有効性
- 大規模言語モデルの推論能力向上は，AI研究において重要な課題である。
- 従来の報酬設計では，中間ステップに対する適切な評価が行われず，学習の効率が低い。
- 段階的な評価指標報酬により，各推論ステップの質を評価し，より効果的な学習を実現する。
- 提案手法SRaRは，Qwen3-8BとQwen3-32Bにおいて，RaRと比較して平均精度をそれぞれ3.57ポイント，2.75ポイント向上させた。
- AIME 2025における忠実な推論率は34.5%から46.7%に向上し，推論の信頼性が高まった。
- 自己修正ループの発生頻度を48.1%から26.5%に低減し，過剰な自己修正を抑制した。
Link: https://arxiv.org/abs/2605.17291
MetaCogAgent：自己認識型タスク委譲を備えたメタ認知型マルチエージェントLLMフレームワーク [cs.AI, cs.MA]目的：マルチエージェントLLMにおける自己評価に基づくタスク委譲機構
- 複雑な問題解決において，エージェント間の協調が有効である点が注目されている。
- 既存フレームワークは，自己能力の評価を欠き，過信による誤ったタスク実行が課題である。
- エージェントが自己能力を評価し，適切なタスク委譲を行うことで，性能向上を目指す。
- MetaCogAgentは，タスク実行前に自己評価を行い，能力範囲外のタスクを委譲する。
- MetaCog-Evalベンチマークにおいて，既存手法を上回るタスク精度(82.4%)を達成した。
- API呼び出し回数をAutoGeneやアンサンブル投票と比較して削減することに成功した。
Link: https://arxiv.org/abs/2605.17292
DISA：分布適合LLM-RLのためのオフライン重要性サンプリング [cs.LG, cs.CL]目的：LLM-RLにおける分布適合の実現
- 大規模言語モデル(LLM)の推論能力評価において，多様な解法を生成することが重要視されている。
- 従来の報酬最大化RLは単一の解に収束しやすく，解法全体の分布を網羅できないという課題がある。
- DISAは，オフラインで分布関数の推定を行い，RLループから分離することで，その課題を解決する。
- DISAは，既存のオンライン型分布適合手法FlowRLと同等以上の性能を示す。
- 数学ベンチマークにおいて，報酬最大化ベースラインGRPO，GSPOを上回り，LoRASFT蒸留よりも最大13.8ポイント高いMean@8を達成した。
- LLMによる評価では，DISAが報酬最大化ベースラインよりも戦略レベルの多様性を大幅に保持していることが示された。
Link: https://arxiv.org/abs/2605.17295
ConflictRAG：検索拡張生成における知識の矛盾の検出と解決 [cs.RO, cs.CL, cs.AI]目的：検索拡張生成における知識の矛盾の検出，分類，および解決
- 知識獲得の基盤技術であり，大規模言語モデルの性能向上に不可欠である。
- 検索された文書間の知識の矛盾が頻繁に発生し，生成される回答の質を低下させる。
- 知識の矛盾を事前に解決することで，より正確で信頼性の高い回答生成を目指す。
- ConflictRAGは，軽量な埋め込みベースのMLP分類器と選択的なLLMによる洗練を組み合わせ，APIコストを62%削減しつつ，90.8%の検出精度を維持する。
- Entropy-TOPSISフレームワークを用いてデータ駆動型ソースの信頼性評価を行い，手動ヒューリスティクスと比較して選択精度を7.1%向上させる。
- Conflict-Aware RAG Score (CARS)を導入し，矛盾処理能力の診断評価を可能にする。実験により，F1スコア88.7%と，正答率が5.3〜6.1%向上した。
Link: https://arxiv.org/abs/2605.17301
文脈を圧縮し，合意を維持する：検証可能なLLM文脈圧縮のための形式的フレームワーク [cs.LG, cs.CL]目的：LLMの文脈圧縮における合意（コミットメント）の維持と検証
- LLMの性能は文脈長に依存し，長い対話では文脈の効率的な管理が重要となる。
- 既存手法では，文脈圧縮の際に重要な意味的合意が失われる可能性があり，検証方法が不足している。
- 意味的合意を特定・維持し，圧縮の検証可能性を高めるフレームワークを確立すること。
- Context Codecは，対話状態を意味的アトムとして表現し，合意の抽出，正規化，表現，レンダリング，検証を分離する。
- 合意の重要度に応じた指標（Critical Atom Recall等）を導入し，圧縮エラーの種類を分類することで，圧縮の品質評価を可能にする。
- Context Compression Language (CCL)を用いて，文脈をコンパクトに表現しつつ，可読性と監査可能性を確保する。
Link: https://arxiv.org/abs/2605.17304
CyberCorrect：大規模言語モデルにおける閉ループ自己修正のためのサイバネティックフレームワーク [cs.AI, cs.CL]目的：大規模言語モデルの自己修正メカニズムの形式化と改善
- 大規模言語モデルの性能向上は，自然言語処理における重要な課題である。
- 既存の自己修正方法は，体系的なエラー分析や収束保証が不足している。
- サイバネティック理論に基づく自己修正フレームワークを構築し，収束性と正確性を高める。
- CyberCorrectは，自己一貫性，確信度，論理チェーン検証を組み合わせたエラー検出器を導入した。
- タイプ指向の修正コントローラーは，診断されたエラーカテゴリに基づいて的を絞った修正指示を生成する。
- CyberCorrect-Benchにおける実験で，最終的な精度が79.8%に達し，既存手法を6.2%上回る改善が見られた。
Link: https://arxiv.org/abs/2605.17305
診断前の推論：心電図分類のための医師の構造化された思考 [cs.AI]目的：心電図の診断における臨床的推論プロセスの明示的なモデル化
- 心電図は，不整脈などの心疾患の診断に不可欠であり，迅速かつ正確な診断が求められる。
- 既存の手法は，心電図信号から直接ラベルを予測するため，推論過程が不透明で臨床的整合性に欠ける。
- 医師の診断プロセスを模倣し，解釈可能な中間段階を経て診断精度と臨床的妥当性を向上させる。
- CardioThinkは，心電図の診断において，リズム，伝導，形態，印象といった段階的な推論をモデル化する。
- Structured Set Policy Optimization (SSPO)により，構造化された推論形式への準拠と診断精度の両方を同時に最適化する。
- 多様な心電図ベンチマーク実験で，診断精度が大幅に向上し，生成された根拠の臨床的妥当性が確認された。
Link: https://arxiv.org/abs/2605.17308