arXiv雑要約

AI - 2026/05/19 公開

CATA：対立回避タスク算術による継続的な機械的アンラーニング [cs.CV, cs.AI, cs.LG]目的：視覚言語モデルにおける継続的な機械的アンラーニング
- 視覚言語モデルの応用範囲拡大に伴い，プライバシーや著作権の問題が重要視されている。
- 既存研究は単発アンラーニングに偏っており，時間経過に伴う逐次的な削除要求への対応が課題である。
- 逐次更新下での知識除去，モデル汎用性維持，および知識の再出現防止を同時に解決する。
- CATAは，各削除要求をアンラーニングタスクベクトルとして表現することで，対立回避タスク算術を実現する。
- 過去のタスクベクトルを保持し，符号を考慮した対立回避集約を行うことで，以前の忘却効果を弱める競合成分を抑制する。
- 単発および継続的な設定の両方で実験を行い，CATAが忘却効果，モデルの忠実度，忘却の持続性の点で既存手法を上回ることを示す。
Link: https://arxiv.org/abs/2605.18610
SAME：意味的に整合された音楽自動符号化器 [cs.RO, cs.AR, cs.SD, cs.AI]目的：音楽及び一般的な音声の効率的な潜在表現の獲得
- 近年の生成モデルにおいて，潜在表現は重要な役割を担うため，その質の向上が不可欠である。
- 既存の音声符号化器は，高い圧縮率と音質の維持を両立することが課題であった。
- 高い圧縮率を維持しつつ，音質の劣化を最小限に抑え，生成性能を向上させることを目指す。
- 本研究で開発したSAMEは，4096倍の時系列圧縮率を実現しつつ，再構成品質と生成性能を維持している。
- Transformerベースのバックボーンと意味的正則化，位相を考慮した再構成損失，改良された識別器を組み合わせることでこれを達成した。
- 大規模モデル（SAME-L）とCPU展開可能なモデル（SAME-S）をオープンウェイトで公開する。
Link: https://arxiv.org/abs/2605.18613
ManiSoft：ソフトコンティニュアムロボティクスにおけるビジョン言語操作へ向けて [cs.RO, cs.AI, cs.CV]目的：ソフトロボットアームを用いたビジョン言語操作のためのベンチマーク環境
- ロボットの柔軟性向上は，複雑な環境下での適応能力を高め，多様な作業への応用を可能にする。
- 従来のビジョン言語操作研究は剛体ロボットに偏っており，狭い空間や複雑な環境への適用が課題である。
- ソフトロボットの持つ変形可能性を活かした，より柔軟な操作手法の確立を目指す。
- ManiSoftは，ソフトボディのリアルな挙動と接触を考慮したシミュレータを搭載したベンチマーク環境である。
- 多様なシーンと専門家の軌跡データが6,300個生成され，強化学習によるポリシー学習を支援する。
- 実験結果から，ランダム化された環境下では性能が低下し，視覚的推定の精度と変形能力の活用が課題であることが示された。
Link: https://arxiv.org/abs/2605.18617
制約付き機械学習のための確率的ペナルティ・バリア法 [cs.LG, cs.AI]目的：制約付き機械学習における効率的な最適化手法
- 機械学習の公平性，物理法則の組み込み，記号的知識の統合に不可欠な研究分野である。
- 深層学習において一般的な非凸・非滑らか・確率的設定に対する汎用的な手法が存在しない。
- 深層学習における制約付き最適化問題を解決するための新たな手法を提案すること。
- 提案手法である確率的ペナルティ・バリア法(SPBM)は，既存の手法と同等以上の性能を示す。
- SPBMは，制約なしのAdamと比較して線形的な実行時間オーバーヘッドで済む。
- 最大10,000個の制約条件下でも，高いスケーラビリティを実証した。
Link: https://arxiv.org/abs/2605.18618
CrossView Suite：MLLMのクロスビュー空間知能を活用するためのデータセット，モデル，ベンチマーク [cs.CV, cs.AI]目的：MLLMにおけるクロスビュー空間推論能力の向上
- 現実世界の知能には，単一視点だけでなく，多視点からの空間認識が不可欠である。
- 大規模なクロスビューデータセットの不足，評価ベンチマークの欠如，視点間の一貫性確保の難しさ。
- クロスビュー空間推論を可能にするためのデータセット，ベンチマーク，およびモデルの開発。
- 大規模なクロスビューデータセットCrossViewSetを構築し，17種類のタスクで160万サンプルを網羅した。
- MLLMのクロスビュー空間理解能力を評価するための，シーンが分離されたCrossViewBenchを構築した。
- 知覚・アライメント・推論の段階的フレームワークCrossViewerを提案し，MLLMの空間推論能力を向上させた。
Link: https://arxiv.org/abs/2605.18621
グラフラベル選択のための近似アルゴリズム [cs.DS, cs.LG]目的：グラフラベル選択における近似解の導出
- グラフ構造の解析は，社会ネットワークや生物学的ネットワークなど，様々な分野で重要である。
- 大規模グラフにおけるラベル予測には，計算コストと精度の両立が課題となっていた。
- 限られた予算内で，グラフ全体を代表する頂点集合を選択し，精度の高いラベル予測を実現すること。
- 本研究では，標準的な予算制約下におけるグラフラベル選択問題に対し，$\tilde{O}(\log^{1.5} n)$-近似アルゴリズムを初めて提案した。
- 既存研究は，資源の増強に依存するか，証明可能な保証のないヒューリスティックに限られていた。
- 提案アルゴリズムの実用的な変種は，既存手法と同等の品質を維持しつつ，より大規模なグラフにも適用可能であることが示された。
Link: https://arxiv.org/abs/2605.18623
悪意のあるように見えない学習：APIインポート注入によるマルウェア検出器の標的型回避 [cs.CR, cs.LG]目的：マルウェア検知における，特定の無害なソフトウェアカテゴリへの意図的な誤分類
- 機械学習に基づくマルウェア検知は，セキュリティ対策として広く普及している。常に進化する脅威に対応するためには重要である。
- 静的特徴量への依存により，敵対的操作に対して脆弱性を持つ。巧妙な攻撃により検知を回避される可能性がある。
- APIインポート注入によって，既存のマルウェア検知器を回避し，特定の無害なカテゴリに誤分類することを目指す。
- わずか20個のAPIインポートを追加するだけで，マルウェア検知率を87.5%から30%に大幅に低下させた。
- 回避に成功したサンプルの99%が，意図したターゲットカテゴリに分類された。
- この攻撃は，商用静的検知エンジンに対しても有効であり，平均して検知エンジンによるフラグ付けを54.5%削減した。
Link: https://arxiv.org/abs/2605.18624
行動と状態に関する最小限の情報を持つトレースからのリフテッドアクションモデルの学習 [cs.AI]目的：行動と状態に関する部分的な情報を含むトレースからSTRIPS+アクションドメインを学習するアルゴリズム
- 計画立案やロボット工学において，効率的な行動モデルの学習は重要な課題である。
- 従来の学習手法では，状態の完全な観測可能性や不要なアクション引数の問題があった。
- 状態や行動に関する部分的な情報を含む一般的なトレースから，STRIPS+ドメインを学習可能にすること。
- 本研究では，状態の観測可能性，および選択されたアクション引数の観測可能性に応じて，3つのケースを定義した。
- 状態の観測可能性がない場合，一部の状態述語が完全に観測可能である場合，または一部の状態述語が局所的に観測可能である場合について，完全性の結果を得た。
- 実験結果から，提案手法がSTRIPS+ドメインをトレースから学習できることが示された。
Link: https://arxiv.org/abs/2605.18627
アラインメント学習：スパースオートエンコーダ（SAE）の特徴品質と安定性を向上させるパラメータフリーな手法 [cs.LG]目的：スパースオートエンコーダの特徴品質と安定性の向上
- 深層ニューラルネットワークの内部動作を解釈する上で，特徴分解は重要な役割を果たす。
- 既存のSAEでは，活性化されない特徴が多く，学習が不安定になるという課題がある。
- エンコーダとデコーダの幾何学的制約を課すことで，SAEの学習における不安定性を解消する。
- 提案手法「アラインメント学習」は，追加のデータやパラメータ調整を必要とせずに，再構築品質を向上させる。
- 活性化されない特徴を排除し，SAEの学習における安定性を大幅に高めることが確認された。
- SAEBenchベンチマークにおいて，他の手法と比較して優位性を示すパレート改善を実現した。
Link: https://arxiv.org/abs/2605.18629
SCICONVBENCH：計算科学におけるタスク定式化のための複数ターンでの明確化に関するLLMのベンチマーク [cs.AI, physics.comp-ph]目的：計算科学におけるタスク定式化のための複数ターンでの明確化に関するLLMの性能評価
- 科学研究の効率化にAIが貢献することが期待されており，LLMはその重要な役割を担う。
- 既存のLLM評価は，問題が明確に定義されている前提で行われており，現実の利用シーンとの乖離がある。
- 曖昧な要求を対話を通じて明確化し，信頼性の高い計算科学支援を実現するためのLLM能力を評価する。
- SCICONVBENCHは，流体力学，固体力学，材料科学，偏微分方程式の4分野で，複数ターンの明確化能力を評価するベンチマークである。
- 現在の最先端モデルは，矛盾の検出と修正はある程度可能だが，曖昧性の解消は流体力学分野で52.7%の成功率に留まっている。
- LLMはしばしば会話に基づかない暗黙の仮定や修正を行い，ユーザーとの対話における根拠が薄い場合があることが示された。
Link: https://arxiv.org/abs/2605.18630
位置：重み空間はファーストクラスの生成AIモダリティであるべき [cs.LG, cs.AI]目的：ニューラルネットワークの重み空間における生成モデリングの標準化
- AIの発展には，学習済みモデルの知識を効率的に活用する技術が不可欠である。
- 従来のモデル適応は計算コストが高く，タスクごとに最適化が必要であるという課題がある。
- 学習済み重み分布からのモデルサンプリングにより，AIシステムの自動改善を目指す。
- モデルの重みは，タスク，ドメイン，アーキテクチャ固有の知識をエンコードした大規模なデータ資源となりうる。
- 重み空間での生成モデリングは，ファインチューニングの性能に匹敵し，適応コストを大幅に削減する可能性を示す。
- 高パフォーマンスなモデルは，対称性，平坦性，モジュール性によって特徴づけられる低次元かつ構造化された重み空間に存在すると考えられる。
Link: https://arxiv.org/abs/2605.18632
アーキテクチャに依らず：表形式ファウンデーションモデルを用いた信用リスク予測のためのリサンプリング戦略 [cs.LG, cs.AI]目的：信用リスク予測におけるリサンプリング戦略
- 信用リスク予測は金融安定に不可欠であり，正確な予測が求められる。
- 既存手法では，不均衡データや多様な特徴量への対応が課題である。
- 本研究は，表形式ファウンデーションモデルにおけるコンテキスト構築戦略を最適化する。
- コンテキスト構築戦略の選択が，モデルアーキテクチャの選択よりもAUC-ROCの変動に大きな影響を与えることが示された。
- バランスのとれたリサンプリングにより，AUCが3〜4ポイント向上し，既存手法に匹敵する性能が達成された。
- 5K〜10K程度のバランスのとれたコンテキストを用いることで，高いリコール率も実現した。
Link: https://arxiv.org/abs/2605.18635
後学習済みMoEは自己蒸留により半分の専門家をスキップ可能 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CL]目的：MoEモデルの効率的な動的変換
- 大規模言語モデルの効率的なスケーリング手法としてMoEが注目されている。
- 既存の動的MoEは最初から学習が必要であり，学習済みのモデルへの適用が課題である。
- 学習済みのMoEモデルを低コストで効率的な動的MoEへ変換することを目指す。
- ZEDAフレームワークは，元のMoEモデルを教師として利用し，自己蒸留によって動的MoEへと変換する。
- Qwen3-30B-A3BとGLM-4.7-Flashにおいて，専門家のFLOPsを50%以上削減し，わずかな精度低下に留める。
- 既存の動的MoEベースラインを上回り，エンドツーエンド推論速度を約1.20倍向上させる。
Link: https://arxiv.org/abs/2605.18643
ソフトラベル学習と較正における人間とモデルの不確実性の評価 [cs.LG, cs.AI, cs.CL]目的：ソフトラベル学習における人間とモデルの不確実性の評価
- 人間とAIの整合性確保は重要であり，人間が作成したラベルの優位性理解が不可欠である。
- ソフトラベルの利点が，誤ったラベルの修正によるものか，不確実性の表現によるものか不明確である。
- ソフトラベルが，モデルの較正と安定した学習に及ぼす影響を明確にすることを目的とする。
- 人間のソフトラベルは，精度の向上に加え，難しいサンプルに対するモデルの較正を改善する。
- 人間が作成したソフトラベルで学習したモデルは，人間の不確実性を反映し，合成ラベルではその傾向が見られない。
- 本研究は，人間とAIの不確実性の一致を評価するための診断基盤を提供する。
Link: https://arxiv.org/abs/2605.18648
ポケット規模の基盤モデル：TFMsをCPU対応の勾配ブースティング木へ蒸留 [cs.MM, cs.LG, cs.AI]目的：不正検知における高速なスコアリング手法の開発
- 表形式データに対する機械学習モデルの需要が高まっており，高性能なモデルが求められている。
- 高性能な表形式基盤モデル（TFMs）はGPU環境での実行が必要であり，CPU環境では処理速度が遅いという課題がある。
- TFMsの知識をCPUで高速に実行可能な勾配ブースティング木に蒸留することで，この課題を解決することを目指す。
- TabICLv2をXGBoostに蒸留することで，CPU上で0.882のmacro-mean AUCを1.9msで達成し，教師モデルと同等の性能を38倍〜860倍の速度で実現した。
- 教師モデルのランキングが学生モデルに正確に転送され，低次元データ（21特徴量未満）において特に高い効果が確認された。
- 教師モデルの性能がCatBoostに劣る高次元タスクでは，蒸留によって性能が低下する傾向が見られた。
Link: https://arxiv.org/abs/2605.18654
KairosHope：二重メモリアーキテクチャによる特殊な分類のための次世代時系列基盤モデル [cs.LG, cs.AI]目的：特殊な分類タスクのための次世代時系列基盤モデル
- 時系列データ分析は，様々な分野で重要な役割を果たすため，その高度化が求められている。
- 既存の時系列基盤モデルは，計算コストや統計的知識の欠如により，特殊な分類問題への適応が課題となっていた。
- 計算効率を向上させ，統計的知識を統合することで，時系列分析における基盤モデルの適用範囲を拡大することを目指す。
- KairosHopeは，二重メモリシステムであるTitansモジュールとContinuum Memory Systemにより，計算効率と長期的な文脈把握を両立している。
- Hybrid Decision Headは，深層学習と統計的特徴量を融合することで，分類精度を向上させている。
- UCRベンチマークデータセットを用いた評価で，既存モデルを上回る性能が確認された。
Link: https://arxiv.org/abs/2605.18657
AIによる自動研究：ロードマップとユーザーガイド [cs.HC, cs.AI]目的：AIを活用した研究ライフサイクル全体におけるAIの能力と限界
- 科学研究の効率化と生産性向上が喫緊の課題であり，AIはその有力な手段となる。
- AIによる自動研究は発展途上であり，結果の捏造や誤り，新規性の判断など，信頼性の問題が存在する。
- AIの信頼できる活用範囲を明確にし，研究における人間とAIの協調的活用を促進する。
- AIは，構造化されたタスクや検索に基づいた作業，ツールを介した作業において優れた能力を発揮する。
- しかし，真に新しいアイデアの創出，研究レベルの実験，科学的判断においては依然として脆弱である。
- 自動化が進むほど，失敗の要因が隠蔽される可能性があり，人間が統括する協調が最も信頼できる方法である。
Link: https://arxiv.org/abs/2605.18661
多クラス線形分類器の効率的かつノイズ耐性のあるPAC学習 [cs.LG]目的：多クラス線形分類器のPAC学習アルゴリズム
- 機械学習において，線形モデルのノイズ耐性のあるPAC学習は重要な課題である。
- 多クラス学習設定(クラス数k≧3)において，悪意的なデータ汚染下での効率的なPAC学習アルゴリズムは未確立である。
- 混合分布とマージン条件を満たすデータセットに対し，効率的な多クラス線形分類器のPAC学習を実現する。
- 本研究では，悪意のあるノイズが存在する場合でも，最大でO(k^2⋅(dlog d + log k))個のサンプルで多クラス線形分類器をPAC学習できるアルゴリズムを提案する。
- 提案アルゴリズムは，クラスタベースのプルーニングと標準的な多クラスヒンジ損失最小化プログラムの2つの要素で構成される。
- 二値分類の場合(k=2)においても，既存研究よりも厳密に強い結果が得られている。
Link: https://arxiv.org/abs/2605.18662
GIM：複数の認知領域を統合するタスクによるモデルの評価 [cs.AI, cs.CL, cs.LG]目的：複数の認知機能を統合するタスクを通じたモデル評価基準
- 大規模言語モデルの能力評価は重要であり，その進歩を測る上で不可欠である。
- 既存の評価基準は，知識の量や抽象的思考に偏り，現実的な推論能力を測れていない。
- 現実世界に近いタスクにおいて，複数の認知機能を統合する能力を評価する基準を構築する。
- GIMは，820のオリジナル問題から構成される評価基準であり，知識を必要としつつ，現実的な文脈での推論能力を評価する。
- 28のモデルと47のテスト設定を対象とした結果，テスト時の計算コストとモデル能力のトレードオフが明らかになった。
- 思考予算や量子化などの設定が，モデル選択と同程度に重要であることが示唆された。
Link: https://arxiv.org/abs/2605.18663
機械学習NIDSに対する勾配ベースの敵対的攻撃に対する防御：より少ないことがより良いか？ [cs.LG, cs.CR]目的：機械学習NIDSの敵対的攻撃に対する内在的な頑健性の実現
- ネットワークセキュリティにおいて，機械学習を用いた侵入検知システムの重要性が増している。
- 機械学習モデルは，わずかな入力操作によって誤った予測を誘導される敵対的攻撃に脆弱である。
- モデル構造の工夫によって，追加の防御策なしに頑健性を向上させる方法を模索する。
- 浅いネットワーク構造，削減された特徴量，ReLU活性化関数が，敵対的攻撃に対する脆弱性を一貫して低下させることを示した。
- シンプルなモデルが，より深く，特徴量も豊富な敵対的学習モデルを上回り，高い検知精度と短い学習時間も実現した。
- 重要なのは，モデルを単純化するだけでなく，適切な単純化を選択することである。
Link: https://arxiv.org/abs/2605.18666
地球埋め込みモデルの相補性の評価 [cs.CV, cs.LG]目的：地球埋め込みモデルの相補性
- 地球観測データ活用において，位置情報と特徴量を結びつける埋め込み表現が重要である。
- 既存研究では，個々の埋め込みモデルを独立して評価するため，モデル間の相乗効果が見過ごされがちである。
- 複数のモデルを組み合わせることで，より高精度な予測が可能になるか検証する。
- 融合された埋め込み表現は，単一の最良モデルと比較して，6つの下流タスクのうち4つで優れた性能を示した。
- 単一の埋め込み表現のみを評価する方法では，地球埋め込みモデルの能力を過小評価する可能性があることが示唆された。
- 相補性はタスクと位置に依存し，土地被覆回帰タスクでは土地被覆クラスの空間スケールによって左右されることがわかった。
Link: https://arxiv.org/abs/2605.18667
LLMエージェントの安全なデプロイには，3層の確率的Assume-Guaranteeアーキテクチャが構造的に必須である [cs.AI]目的：LLMエージェントの安全なデプロイのための構造的要件
- LLMエージェントの活用が拡大する中，その安全性確保は不可欠であり，社会実装への重要な課題となっている。
- 単一の抽象化レイヤーでの安全確保は限界があり，現実のLLMエージェントの運用では不十分な安全性が懸念されている。
- 3層アーキテクチャの導入により，各安全次元を独立して検証し，システム全体の安全性を高めることを目指す。
- LLMエージェントの安全な運用には，意味的意図，環境妥当性，動的実現可能性の3次元を考慮する必要がある。
- 提案アーキテクチャは，各次元を独立したレイヤーで検証することで，確率的保証を連鎖的に構成し，システムレベルの安全性を確保する。
- 実用化には，非i.i.d.データからの境界推定，デプロイメントドリフトへの対応，マルチエージェント環境への拡張といった課題が残されている。
Link: https://arxiv.org/abs/2605.18672
効率的な先読み符号化と抽象化幅による古典的プランニングにおける汎用ポリシー学習 [cs.CY, cs.CL, cs.AI]目的：古典的プランニングドメインにおけるインスタンス集合間で汎化するポリシーの学習
- 汎用プランニングは，現実世界の複雑な問題を解決するための基盤技術であり，その効率化が求められている。
- 既存のGNNアプローチは計算コストが高く，大規模な問題インスタンスへの適用が困難であるという課題があった。
- 効率的な探索と抽象化を通じて，計算コストを削減し，より大規模な問題に対応できる汎用ポリシー学習を目指す。
- 提案手法は，検索木の効率的な符号化により，状態遷移の評価コストを大幅に削減することに成功した。
- 抽象化されたIW(1)の導入により，オブジェクト数が増加した場合でもスケーラビリティを向上させている。
- 実験結果から，提案手法がIPC 2023のベンチマークにおいて，従来のプランナーLAMAを含む最先端の性能を上回ることが示された。
Link: https://arxiv.org/abs/2605.18674
COOPO：周期的なオフライン・オンライン方策最適化アルゴリズム [cs.LG, cs.AI]目的：オフラインとオンラインの強化学習を組み合わせた方策最適化の枠組み
- 強化学習は，自律的な意思決定において重要な役割を果たす。現実世界の複雑な問題を解決するための可能性を秘めている。
- オフライン強化学習はデータセットの制約を受け，オンライン強化学習は環境とのインタラクションコストが高いという課題がある。
- オフラインとオンラインの知識を効果的に統合し，分布シフトや忘却を防ぐことで，効率的な学習を実現することを目指す。
- COOPOは，オフライン学習とオンライン微調整を周期的に繰り返すことで，分布シフトと知識の忘却を抑制し，サンプル効率を向上させる。
- D4RLベンチマークにおいて，最先端のハイブリッド手法と比較して，オンラインインタラクションを削減しつつ，最終的な報酬を改善することを示した。
- 理論的に，標準的なカバレッジ仮定の下で，純粋なオンライン強化学習よりも優れたオンラインサンプル効率と単調な改善が保証される。
Link: https://arxiv.org/abs/2605.18675
Lance：マルチタスク相乗効果による統一マルチモーダルモデリング [cs.CV, cs.AI]目的：マルチモーダルな理解，生成，編集を可能にする統一モデル
- 画像や動画といった多様なデータを統合的に扱うことが重要になっている。
- 既存モデルは，規模の拡大やテキスト・画像への偏りが課題となっていた。
- マルチタスク学習を通じて，効率的なマルチモーダルモデリングを目指す。
- Lanceは，既存のオープンソース統一モデルを画像および動画生成において大幅に上回る性能を示す。
- 統一されたコンテキストモデリングと分離された機能経路により，理解と生成の両方を実現。
- モダリティを意識したロータリー位置エンコーディングが，タスク間の整合性を向上させている。
Link: https://arxiv.org/abs/2605.18678
根拠となる真値なしでの定量的な視覚的説明の学習 [cs.AI, cs.LG]目的：説明可能なAI手法の質を定量的に評価するための指標と，それを用いた説明生成手法
- 現代の深層学習モデルの妥当性確認と責任ある利用のため，説明可能なAI技術が重要視されている。
- 既存の評価指標では，説明の質を客観的に評価することが困難である。
- 連続的な入力摂動に基づく定量的な指標により，説明の質を評価し，説明生成手法を改善する。
- 提案手法は，既存の指標よりも人間の直感と一致する質の高い説明を生成できる。
- 微分可能な近似を用いた指標を教師信号としてモデルを微調整することで，因果関係に基づいた説明モジュールを学習できる。
- このモジュールは，モデルの性能を損なうことなく，既存のXAI手法よりも優れた説明を生成する。
Link: https://arxiv.org/abs/2605.18681
Reversa：AIエージェント向け運用仕様へのレガシーソフトウェア変換フレームワーク [cs.DC, cs.SE, cs.AI]目的：レガシーソフトウェアをAIエージェントが利用可能な運用仕様へ変換する手法
- レガシーシステムには重要なビジネスロジックが暗黙的に存在し，その理解と活用が不可欠である。
- 既存のレガシーシステムのコードは複雑で，AIエージェントが安全に修正するには信頼性の高い情報が不足している。
- AIエージェントがレガシーシステムを安全に改修するために必要な，明確な仕様と信頼性のある情報を提供する。
- Reversaは，コードと仕様間のトレーサビリティ，信頼性評価，および人間による検証のためのギャップ保持を重視したマルチエージェントパイプラインである。
- ATMのCOBOLからGoへの移行事例において，517の主張，10のギャップ，53のGherkinシナリオ，および9/11のタスクが完了した計画が生成された。
- 本研究では，カバレッジ，トレーサビリティ，信頼性，有用性，コストを測定するための評価プロトコルを提案している。
Link: https://arxiv.org/abs/2605.18684
LLM誘導モデルパッチによる大規模再最適化の民主化 [cs.AI, math.OC]目的：LLMを活用した再最適化フレームワークの提案
- 産業界における意思決定支援システムにおいて，最適化モデルは不可欠である。
- 現実環境は変化が激しく，最適化モデルの迅速な再最適化が課題となっている。
- LLMを用いて，専門家を介さずに最適化モデルを継続的に適応させる。
- LLMがユーザーの指示を構造化されたモデル更新に変換し，再最適化手法を選択する。
- 提案フレームワークは，計算効率を向上させ，モデル変更の解釈性とトレーサビリティを高める。
- サプライチェーン再最適化と大学の試験時間割作成という2つの大規模事例で有効性が確認された。
Link: https://arxiv.org/abs/2605.18692
SkillGenBench：LLMエージェント向けスキル生成パイプラインのベンチマーク [cs.AI]目的：LLMエージェントのスキル生成パイプラインの評価
- LLMエージェントの能力向上には，再利用可能なスキルの開発が不可欠である。
- 既存のベンチマークは，スキル生成そのものを評価するのではなく，与えられたスキルや文脈からのタスク解決能力に焦点を当てている。
- スキル生成パイプラインの性能を統一的に評価可能なベンチマークを提供し，スキル生成の研究を促進すること。
- SkillGenBenchは，タスク条件付き生成とタスク非依存型生成という2つの生成モードを網羅し，スキル生成パイプラインを評価するためのベンチマークである。
- 実験の結果，スキル生成方法によって性能に大きなばらつきがあり，再利用可能なスキルの抽出が困難であることが示された。
- ソフトウェアリポジトリと長文ドキュメントからのスキル生成では，異なる失敗モードが見られた。
Link: https://arxiv.org/abs/2605.18693
表形式ファウンデーションモデルのアンサンブル：多様性の限界とキャリブレーションの罠 [cs.LG, cs.AI]目的：表形式ファウンデーションモデルのアンサンブル戦略の有効性
- 表形式データ分析において，勾配ブースティング木を凌駕するファウンデーションモデルが登場し，重要性が増している。
- 単一のファウンデーションモデルでは全てのデータセットで最高性能を発揮できず，アンサンブルが有効とされているが，期待通りの効果が得られない場合がある。
- 複数の表形式ファウンデーションモデルの多様性と，アンサンブルがキャリブレーションに与える影響を明らかにする。
- 6つの最新の表形式ファウンデーションモデルは高い相関関係を示し，アンサンブルによる性能向上には限界があることが示された。
- 2段階カスケードスタッキングが最も優れたアンサンブル戦略であり，単一モデル比で0.18%の精度向上を達成した。
- ロジスティック回帰メタ学習器を用いたスタッキングは，精度やROC-AUCでは良好だが，ログロスにおいて最悪の結果を示し，キャリブレーションを損なうことがわかった。
Link: https://arxiv.org/abs/2605.18696
PopPy：Python複合AIアプリケーションにおける並列性の機会的利用 [cs.DC, cs.AI, cs.PL]目的：Python複合AIアプリケーションにおける並列性の機会の発見
- AI技術の発展に伴い，Pythonを用いた複合AIアプリケーションの利用が拡大している。
- これらのアプリケーションの実行時間がボトルネックとなり，高速化が課題となっている。
- Pythonの複雑性，動的ディスパッチ，変数の変更といった課題を克服し，並列化を実現する。
- PopPyは，標準Python実行と比較して，最大6.4倍の実行速度向上を達成した。
- PopPyは，Pythonの表現力豊かな部分集合をサポートし，開発者の負担を最小限に抑える。
- PopPyは，コンパイル時コンパイラとランタイムを組み合わせることで，並列抽出を実現した。
Link: https://arxiv.org/abs/2605.18697
血液バイオマーカーの標準的な表現学習 [cs.LG, q-bio.QM]目的：血液バイオマーカーの標準的な表現
- 臨床診断と管理には血液バイオマーカーが不可欠である。しかし，解釈は集団基準値に依存し，個体内の安定した変動が無視されがちである。
- 集団基準に基づく解釈では，個人のベースラインからの有意な逸脱が見過ごされ，疾患の発見が遅れる可能性がある。
- 本研究は，個人の検査履歴を用いた過剰適合による偽陽性率の増加という問題を解決することを目指す。
- 約20億件の縦断的な検査データを用いて，個別の基準範囲は過剰適合を起こしやすく，臨床的な異常との関連なく最大68%の測定値を異常と判定することを示した。
- 患者の履歴と集団レベルの「正常」変動に関するデータに基づいて基準範囲を生成するNORMAという変換器ベースのフレームワークを導入した。
- NORMA由来の基準範囲は，死亡率，急性腎障害，慢性疾患などのアウトカム予測において高い精度を達成した。
Link: https://arxiv.org/abs/2605.18701
構造化ヘルスデータのための表形式ファウンデーションモデルの蒸留 [cs.LG, cs.AI]目的：表形式ヘルスデータにおけるファウンデーションモデルの知識蒸留
- ヘルスデータ解析において，高精度な予測モデルの需要は高い。しかし，その運用コストが課題である。
- ファウンデーションモデルは高性能だが，推論コストやインフラ要件が大きいことが実用上の制約となっている。
- 知識蒸留により，高性能モデルの知識を軽量モデルへ移行し，推論コストを削減することを目指す。
- 蒸留されたモデルは，教師モデルのAUCの90%以上の性能を維持し，場合によっては教師モデルを上回る結果を示した。
- CPU上での推論速度は，少なくとも26倍高速化され，ヘルスケア用途に重要なキャリブレーションと公平性を維持した。
- 複数教師の平均化は，常に単一の最良教師よりも性能向上には繋がらないことが示された。
Link: https://arxiv.org/abs/2605.18702
EnvFactory：実行可能環境合成とロバストな強化学習によるツール利用エージェントのスケーリング [cs.CL, cs.LG]目的：ツール利用エージェントのスケーリング
- LLMにツール利用能力を付与する研究は，その発展が期待されており，様々な分野への応用が考えられる。
- 従来の環境構築は，高コストなAPIや幻覚を起こしやすいLLMシミュレータに依存し，現実的な訓練データの不足が課題であった。
- EnvFactoryは，環境構築と軌跡合成を自動化することで，スケーラブルでロバストな強化学習基盤を構築することを目的とする。
- EnvFactoryは，検証済みの環境を自動的に探索・検証し，自然な多段階軌跡を合成する。
- 85個の検証済み環境を用いて2,575件のSFTおよびRL軌跡を生成し，既存手法と比較して高い訓練効率と性能を示した。
- Qwen3-シリーズモデルにおいて，BFCLv3で最大15%，MCP-Atlasで8.6%，会話ベンチマークで6%の性能向上を達成した。
Link: https://arxiv.org/abs/2605.18703
統一マルチモーダルモデルのための意味的生成チューニング [cs.DC, cs.DC, cs.CV, cs.AI]目的：マルチモーダルモデルにおける理解と生成の能力の統合
- 画像理解と生成を統合することで，より高度なAIシステムの実現が期待される。
- 既存手法では，理解と生成の学習が分離しており，両者の連携が不十分である。
- 意味的生成チューニングにより，理解と生成の能力を協調的に向上させることを目指す。
- 意味的生成チューニングは，画像セグメンテーションを生成的なプロキシとして活用する。
- セグメンテーションは，テクスチャの詳細に惑わされず，構造的意味を捉え，理解と生成の両方を向上させる。
- 実験結果から，本手法は主要なベンチマークにおいて，マルチモーダル理解と生成精度を向上させることが示された。
Link: https://arxiv.org/abs/2605.18714
汎用的な選好強化学習 [cs.RO, cs.LG, cs.CL]目的：大規模言語モデルのAlignment
- 言語モデルの性能向上には，人間とのAlignmentが不可欠である。
- 従来のAlignment手法は，検証可能なタスクとオープンエンドなタスクで分断されている。
- オープンエンドなタスクにおいても強化学習を可能にする。
- 本研究では，応答をk次元空間に埋め込み，選好を構造化された比較として表現する汎用的な選好モデル(GPM)を提案する。
- GPMに基づき，k次元構造を方策更新に反映する汎用的な選好強化学習(GPRL)を提案する。
- GPRLは，AlpacaEval 2.0で56.51%の勝利率を達成し，SimPOやSPPOを上回る性能を示した。
Link: https://arxiv.org/abs/2605.18721
DexHoldem：器用な具現化システムによるテキサスホールデム [cs.RO, cs.RO, cs.AI]目的：テキサスホールデムの操作を通じた，具現化システムの評価
- ロボットの知能向上には，現実世界での操作能力の評価が不可欠である。
- 複雑な環境下でのロボットの認知，行動選択，実行能力に課題がある。
- 具現化された環境での知覚と意思決定の統合的評価を目指す。
- DexHoldemは，テキサスホールデムの操作をベンチマークとして，具現化システムの性能を評価する。
- $\pi_{0.5}$が最も高いタスク完了率（61.2%）を示し，$\pi_{0.5}$と$\pi_0$がシーン維持成功率で同率（47.5%）となった。
- Opus 4.7が問題レベルの精度（34.3%）で優れ，GPT 5.5がフィールドごとの平均精度（66.8%）で優れていることから，視覚的要素の認識とゲーム状態の把握に差があることが示唆された。
Link: https://arxiv.org/abs/2605.18727
予測可能な捏造：LLMにおける事実の想起はモデルサイズとトピック頻度とともにスケールする [cs.CL, cs.AI, cs.LG]目的：LLMにおける事実想起のスケール則
- 大規模言語モデルの性能向上は重要だが，事実想起のメカニズムは未解明である。
- モデルサイズや学習データの内容が事実想起にどのように影響するか明確ではない。
- モデルサイズとトピック頻度に基づいた事実想起のスケール則を明らかにすること。
- 事実想起の質は，モデルパラメータ数と学習データにおけるトピック表現の対数線形結合によってシグモイド曲線を描く。
- これらの2つの変数だけで，16の密なモデル全体での分散の60%が説明でき，個々のモデルファミリー内では74〜94%に達する。
- この結果は，想起が信号対雑音比によって制御されるという，重なり合いに基づいた説明と一致する。
Link: https://arxiv.org/abs/2605.18732
PIXLRelight：内包条件付けによる制御可能なライティング再現 [cs.CV, cs.GR, cs.LG]目的：単一画像からの物理的に制御可能なライティング再現
- 現実的な画像生成はコンピュータビジョンの重要な課題であり，様々な応用分野で求められている。
- 既存手法では，ライティング制御が限定的，誤差の蓄積，または高コストな画像最適化が必要となる。
- 物理ベースレンダリングと学習に基づく画像合成を統合し，ライティング制御の自由度を高める。
- PIXLRelightは，物理ベースレンダリングのライティングを任意に制御し，高品質なライティング再現を実現した。
- 従来の技術と比較して，処理速度が大幅に向上し，1秒未満で画像を処理できる。
- 学習時には，多照明写真からアルベド，拡散シェーディング，非拡散残差を分解し，モデルの条件付けに利用している。
Link: https://arxiv.org/abs/2605.18735
AI医師は何を重視するか：言語モデルの臨床倫理における多元性の監査 [cs.AI]目的：言語モデルの医療における倫理的価値観の多元性
- 医療は本質的に多元的なものであり，多様な倫理的価値観の調整が重要である。
- AI医療における倫理的価値観が系統的に検証されていないという問題が存在する。
- 言語モデルが持つ倫理的価値観を監査し，その多元性を評価すること。
- 最先端の言語モデルは，医師間の価値観の多様性を示す範囲に収まっている。
- 一部のモデルは患者の自律性を過小評価する傾向があり，大規模な展開は倫理的な偏りを増幅する可能性がある。
- 臨床倫理における多元性を維持するためには，複数のモデルによるバランスの取れた倫理的視点の導入が不可欠である。
Link: https://arxiv.org/abs/2605.18738
Vision-OPD：マルチモーダルLLMのための詳細な視覚的理解学習 - オンポリシー自己蒸留による [cs.CV, cs.AI, cs.CL, cs.LG]目的：マルチモーダルLLMにおける詳細な視覚的理解の向上
- マルチモーダルLLMは画像とテキストを統合し高度な推論を可能にするため，幅広い応用が期待されている。
- LLMは画像全体から必要な情報を抽出することが難しく，詳細な視覚的理解が課題となっている。
- モデル自身による自己蒸留を通して，画像の一部に注目する能力を向上させる。
- Vision-OPDは，画像の一部領域に注目する教師モデルと，画像全体を扱う生徒モデルを用いた自己蒸留を行う。
- この手法により，外部の教師モデルやラベルなしで，モデルが詳細な視覚情報を効果的に活用できるようになる。
- 複数のベンチマークにおいて，Vision-OPDは既存の高性能モデルと同等またはそれ以上の性能を達成した。
Link: https://arxiv.org/abs/2605.18740
実行可能な世界表現 [cs.AI]目的：現実世界のオブジェクトの状態多様体を学習すること
- 物理世界をモデル化することは，AIが現実と相互作用するために不可欠である。
- 既存手法では，オブジェクトの状態変化を統一的にモデル化できていない。
- オブジェクトの状態多様体を明示的にモデル化する基盤技術を開発する。
- WorldStringは，ポイントクラウドやRGB-D動画からオブジェクトの状態多様体を学習するニューラルアーキテクチャである。
- WorldStringは，物理世界モデルのための汎用的なデジタルツインとして機能する。
- 微分可能な構造により，強化学習やニューラルダイナミクスとの統合が容易になる。
Link: https://arxiv.org/abs/2605.18743
ESI-Bench：知覚と行動のループを閉じる具現化された空間知能へ [cs.CV, cs.AI, cs.CL, cs.LG, cs.RO]目的：具現化された空間知能のベンチマークと，知覚・行動ループを通じた空間認識能力の評価
- 空間知能は，ロボット工学やAIにおいて重要な能力であり，現実世界での自律的な行動を可能にする。
- 従来の空間知能研究は，理想的な観察データに依存しており，能動的な探索や行動の影響を考慮していなかった。
- 能動的な行動を通じて得られる観察データに基づき，より現実的な空間知能の評価を目指す。
- 新しいベンチマークESI-BENCHは，10のタスクカテゴリーと29のサブカテゴリーで具現化された空間知能を評価する。
- 最先端のMLLMを用いた実験で，能動的な探索が受動的な探索よりも大幅に優れた性能を示し，明示的な指示なしに空間戦略が創発することが確認された。
- モデルは，証拠の質に関わらず，過信に基づいて早期にコミットする傾向があり，人間の反証を求める姿勢とのメタ認知的なギャップが明らかになった。
Link: https://arxiv.org/abs/2605.18746
コードをエージェントのハーネスとして [cs.CL, cs.AI]目的：エージェントのインフラストラクチャとしてのコードの活用
- 近年，LLMの発展により，コード生成能力が飛躍的に向上し，様々な応用が期待されている。
- エージェントシステムにおいて，コードは単なる出力ではなく，推論や行動の基盤として重要な役割を担っている。
- エージェントシステムの基盤をコードとして捉え，その体系的な研究と発展を目指す。
- 本調査では，エージェントと推論・行動・環境モデルとの接続点である「ハーネスインターフェース」を分析した。
- 計画立案，メモリ，ツール利用といったハーネスメカニズムや，フィードバックに基づく制御・最適化についても考察した。
- シングルエージェントからマルチエージェントシステムへの拡張，コード共有による協調・検証の可能性についても議論した。
Link: https://arxiv.org/abs/2605.18747
実行時変動下におけるパイプライン並列訓練のための準備状態駆動型ランタイム [cs.DC, cs.LG]目的：実行時変動を考慮したパイプライン並列訓練のランタイムシステム
- 大規模モデル訓練において，計算資源を効率的に利用し，訓練時間を短縮することが重要である。
- 従来のパイプライン並列システムは，事前に決定されたスケジュールに依存しており，実行時の変動に対応できない場合がある。
- 本研究は，実行時の準備状態に基づいて動的にタスクを割り当てることで，パイプラインの効率を向上させることを目指す。
- 提案手法RRFPは，従来の固定順序のパイプラインに比べ，言語モデルとマルチモーダルモデルの両方において性能が向上する。
- 特に，BFWヒントを用いた場合，言語モデルでは最大1.77倍，マルチモーダルモデルでは最大2.77倍の高速化を達成した。
- 他のフレームワークとの比較においても，RRFPは既存のシステムを最大1.84倍上回り，訓練の正確性を維持する。
Link: https://arxiv.org/abs/2605.18750
DashAttention：微分可能かつ適応的な疎な階層的注意機構 [cs.IR, astro-ph.IM, cs.DL, cs.CL, cs.AI, cs.LG]目的：長文脈モデリングにおける効率的な注意機構の提案
- 大規模言語モデルの性能向上には，長文脈を効果的に処理する能力が不可欠である。
- 従来の階層的注意機構では，固定された数の関連トークンしか考慮できず，勾配の流れが途絶える問題があった。
- DashAttentionは，疎性と密度の間の勾配の流れを確保し，長文脈モデリング能力を向上させる。
- DashAttentionは，α-entmax変換を用いて適応的にブロック数を選択することで，可変的な数の関連ブロックを考慮する。
- 実験の結果，DashAttentionはフルアテンションと同等の精度を75%の疎性で実現し，NSAやInfLLMv2よりも優れたParetoフロントを獲得した。
- Tritonによる実装により，推論時にFlashAttention-3を上回る高速化を実現し，コスト効率の高い長文脈モデリング戦略を提供する。
Link: https://arxiv.org/abs/2605.18753
CPMobius：データを用いない強化学習のための反復的なコーチ・プレイヤー推論 [cs.CY, cs.IR, cs.SI, cs.CL, cs.LG]目的：データを用いない強化学習による推論モデルの能力向上
- 大規模言語モデルの発展は目覚ましいが，高品質な学習データへの依存が課題となっている。
- 教師あり学習や強化学習は，大量のデータとラベルを必要とし，スケーラビリティに限界がある。
- 本研究は，データ依存性を克服し，推論能力を向上させる新たな学習パラダイムを提案する。
- CPMobiusは，コーチ・プレイヤーの協調的な最適化ループを通じて，プレイヤーの数学的推論能力を直接的に向上させる。
- Qwen2.5-Math-7B-Instructにおける実験で，既存の非教師あり学習アプローチを大きく上回る精度改善が確認された。
- 全体的な精度ではRENTを+1.5，分布外精度ではR-zeroを+4.2上回る結果が得られた。
Link: https://arxiv.org/abs/2602.02979
ニューロシンボリック学習と検証のための定量線形論理 [cs.LO, cs.LG]目的：ニューロシンボリック学習と検証のための定量線形論理の提案
- ニューラルネットワークに論理的制約を組み込むことで，より堅牢で解釈可能なAIシステムの構築が期待される。
- 微分可能な論理と論理的性質の維持との間にトレードオフが存在し，実用的な基礎が確立されていない。
- 機械学習で一般的に用いられる演算（和とlog-sum-exp）に基づいた論理のセマンティクスを設計し，その有効性を検証する。
- 提案された定量線形論理(QLL)は，標準的な線形論理の法則を概ね満たしている。
- QLLは，テスト時の性能が論理的制約の検証結果と相関しており，既存の最先端技術と比較して優れている。
- QLLは，論理的妥当性と実証的有効性の両面において，長年の課題に対する解決策を提供する。
Link: https://arxiv.org/abs/2605.13845
慢性頸部疼痛に対する治療効果予測のための機械学習フレームワーク [q-bio.QM, cs.AI, cs.LG, eess.SP]目的：慢性頸部疼痛患者における治療効果予測のための機械学習フレームワーク
- 慢性頸部疼痛は世界的に障害の原因となっており，適切な治療法の選択が課題となっている。
- 現在の治療選択は試行錯誤に頼ることが多く，患者の負担が大きい。
- 本研究は，脳波を用いて個別の治療法選択を支援し，医療システムの負担軽減を目指す。
- 脳波の特性に合わせた厳密な前処理パイプラインを構築した。
- 安静時脳波と運動実行・イメージ脳波それぞれに対し，異なる前処理を行った。
- 臨床脳波への機械学習モデルの応用に関する文献調査を行い，予測モデルの構築に役立てた。
Link: https://arxiv.org/abs/2605.16326
検索と競合：タンパク質基盤モデルがタンパク質開始をどのように行うか [q-bio.BM, cs.AI]目的：タンパク質基盤モデルによる予測のメカニズム解明
- タンパク質言語モデルは実験や臨床判断を支援するが，予測の根拠が不明確な場合がある。
- モデルの予測が生物学的証拠に基づいているのか，統計的デフォルトを検索しているのか判別が困難である。
- タンパク質開始におけるメチオニンの役割を例に，予測メカニズムを詳細に分析し，その限界を明らかにする。
- ESM2-8Mモデルは，メチオニンを直接検出するのではなく，系列開始位置の参照表現からメチオニンを優先するシグナルを検索することがわかった。
- 位置情報は，ロータリー周波数帯域におけるアテンションスコアのノルム方向分解を通じてエンコードされ，クエリのノルムと角度調整の変化によって実現されている。
- 生物学的にメチオニン以外のN末端を持つ配列でもメチオニンを予測する傾向があり，これはモデルの統計的偏りが原因であることが示された。
Link: https://arxiv.org/abs/2605.16331