arXiv雑要約

AI - 2026/06/17 公開

  • OmniPlan:適応的なネットワーク計画最適化フレームワーク [cs.CL, cs.IR, cs.NI, cs.LG]目的:ネットワーク計画最適化における,タイムリーかつほぼ最適な解決策
    • 交通,通信,電力網など広範な分野で不可欠であり,効率的な資源配分とシステム運用を支える。
    • 既存手法は,多様なユーザーの意図に柔軟に対応できず,実行時間と最適性のトレードオフに陥りやすい。
    • ユーザーの意図を理解し,最適な専門家を選択することで,迅速かつ高精度な計画立案を実現する。
    • OmniPlanは,自然言語で表現された多様なユーザーの意図を数値化し,それに基づいて最適な最適化手法を動的に選択する。
    • 実環境での機械学習タスクオフロード実験において,OmniPlanは最大97.8%の遅延削減と最大11.5%のデバイス資源消費削減を達成した。
    • MIPソルバー,ヒューリスティック,DRLモデルを組み合わせたエキスパートアーキテクチャと,DRLによる目的関数重みの調整により,ユーザーの好みに合わせた計画立案を実現する。

    Link: https://arxiv.org/abs/2606.18105

  • 最小ゼロ強制集合に対する深層強化学習 [cs.LG]目的:最小ゼロ強制集合問題に対する機械学習フレームワークの適用
    • ネットワーク科学,制御,論理回路設計など,様々な分野に応用可能な重要な問題である。
    • 最小ゼロ強制集合問題はNP困難であり,効率的な解法が求められている。
    • 深層強化学習を用いて,最小ゼロ強制集合問題を解決するための新たなアプローチを提供する。
    • 提案手法SD-ZFSは,S2V-DQNアーキテクチャをZFS問題に適合させた強化学習フレームワークである。
    • 様々なグラフ構造を持つデータセットでモデルを学習し,その性能を評価した結果,最適な解や貪欲法と比較して有効性が示された。
    • ネットワーク構造が問題に与える影響や,機械学習によるZFS問題解決の可能性を示唆する洞察が得られた。

    Link: https://arxiv.org/abs/2606.18106

  • 多目的強化学習における公平なパレート最適方策の学習 [cs.LG, cs.AI]目的:多目的強化学習における公平なパレート最適方策集合の学習
    • 複数目的を同時に最適化する場面で,最適性と公平性の両立が重要である。
    • 従来の多目的強化学習は,固定されたユーザーの選好に対応できず,多様な選好に対応できない。
    • ユーザーの選好が動的に変化する場合や不明な場合でも,公平性を確保できる方策集合を学習する。
    • 凹型かつ区分線形な厚生関数(GGFなど)を用いることで,公平な方策は凸被覆集合内に存在することが示された。
    • 履歴報酬を加えた非定常方策と確率的方策が,過去の不公平に適応することで公平性を向上させることが確認された。
    • GGFを多目的Q学習に統合した3つの新しいアルゴリズムを提案し,様々なドメインで有効性を示した。

    Link: https://arxiv.org/abs/2606.18111

  • 三項Mamba:W1.58A16状態空間モデルのグループ化された量子化対応学習 [cs.LG, cs.AI]目的:状態空間モデルの量子化による圧縮と,エッジデバイスでの利用可能性向上
    • 近年の大規模言語モデルは高性能だが,メモリ消費量が大きく,リソース制限のある環境での利用が課題。
    • 従来の量子化手法では,性能劣化を避けるため,大規模なデータセットを用いた一から学習が必要。
    • 事前学習済みのモデルを基に,効率的な量子化学習を行い,学習コストを削減すること。
    • 事前学習済みのMamba-2 1.3Bモデルを,グループ化された量子化対応学習により3.61倍に圧縮(2,687 MBから744 MBへ)。
    • 7つのタスクの平均で48.1%のゼロショット精度を達成。Bi-Mambaの48.4%に匹敵する性能(+/-0.9pp CI)。
    • 量子化スケール学習によって引き起こされる「ゼロ比率崩壊」という新たな不安定性を発見し,Transformer向けの修正戦略がSSMには不向きであることを示した。

    Link: https://arxiv.org/abs/2606.18114

  • 研究レベル数学問題に対するAIシステムの能力評価:第一の検証と第二のバッチ [cs.AI]目的:研究レベルの数学問題に対するAIシステムの解答能力
    • AI技術は数学研究の発展に貢献しうるため,その能力を正確に評価することが重要である。
    • 現在のAIシステムが複雑な数学問題をどこまで解決できるか,明確な評価が不足している。
    • AIシステムが研究レベルの問題を解決する能力を検証し,その限界を明らかにすること。
    • 多様な分野の10個の問題に対し,複数のAIシステムをテストした結果,問題解決能力にばらつきが見られた。
    • AIが生成した解答,人間の解答,および審查報告書へのリンクを公開し,検証過程の透明性を確保した。
    • 本研究は,AIの数学問題解決能力に関する現状を把握し,今後の研究開発の方向性を示唆する。

    Link: https://arxiv.org/abs/2606.18119

  • HandlebarsテンプレートにおけるLLMプロンプトの構造的役割注入:トリプルブレース補間,区切り文字ファミリー,HTML自動エスケープの限界 [cs.CR, cs.AI, cs.CL, cs.LG]目的:LLMプロンプトにおける構造的役割注入のメカニズムと影響の分析
    • LLMアプリケーションの安全性確保は重要であり,プロンプトの脆弱性が悪用される可能性がある。
    • テンプレートエンジン使用時のHTMLエスケープ処理が,セキュリティの万全な保証とならない場合がある。
    • Handlebarsテンプレートの特性を明らかにし,構造的役割注入のリスク軽減策を提示すること。
    • Handlebarsのトリプルブレース補間は,チャットロール区切り文字をそのまま挿入するため,構造的役割注入の脆弱性を持つことが判明した。
    • GPT-3.5 Turboは,エスケープ処理の有無に関わらず,高い確率でタスク乗っ取り命令を実行し,特にコロンやMarkdownベースの区切り文字ファミリーにおいて脆弱性が顕著であった。
    • HTMLエスケープ処理は,対応する文字のみを保護し,区切り文字の完全な防御には不十分である。命令とデータの構造的な分離が不可欠である。

    Link: https://arxiv.org/abs/2606.18120

  • マイクロコントローラ向け埋め込み機械学習:データ,特徴量,評価,デプロイメントパイプライン [cs.LG, cs.AI, cs.AR, eess.AS, eess.SP]目的:マイクロコントローラ向け埋め込み機械学習のワークフロー
    • 機械学習の応用範囲拡大に伴い,リソース制約のあるデバイスでの実行が重要になっている。
    • 従来の機械学習手法はクラウド前提であり,省電力・低遅延なエッジデバイスには不向きな点がある。
    • マイクロコントローラでの効率的な機械学習実行に必要な要素を体系的に提示すること。
    • データ取得,前処理,特徴抽出,モデル設計,デプロイメントといったワークフロー全体を検討した。
    • 慣性モーション認識とキーワードスポッティングという代表的な信号処理を例に,具体的な設計規則を提示した。
    • データキュレーション,量子化,閾値設定など,堅牢なオンデバイス推論のための実践的な指針を提示した。

    Link: https://arxiv.org/abs/2606.18122

  • LLMの行動における認知機能低下の理解と測定に向けて [cs.CL, eess.SY, cs.SY, cs.HC, cs.AI]目的:LLMを介したメンタルヘルスサポートにおける認知機能低下のプロセスレベルの行動的指標の測定
    • メンタルヘルスサポートにおけるLLMの利用が増加しており,その安全性と有効性の評価が重要になっている。
    • 既存の評価指標では,LLMが時間経過に伴う現実的で感情的にデリケートなインタラクションにおいてどのように行動するかを捉えきれていない。
    • LLMがユーザーの自己省察,対処,意思決定を支援するかどうかを評価する新たな指標を確立し,モデルの行動を監査可能にすること。
    • 本研究では,認知機能低下(COGNITIVE ATROPHY)を測定するためのベンチマークであるCOGNITIVE ATROPHY BENCHを開発した。
    • 5つのLLMにおける分析の結果,単一ターンおよび複数ターンの両方で,認知機能低下と関連する行動が中程度から高いレベルで一貫して観察された。
    • LLMは明示的な安全性に関する指示には対応するものの,ユーザーが解決策や意思決定を求める場合には適応性が低い傾向にある。

    Link: https://arxiv.org/abs/2606.18129

  • メタ強化学習における知識の再利用 [cs.AR, cs.AI]目的:メタ強化学習における知識再利用の枠組み
    • 様々なタスクから共通構造を抽出し,迅速な適応を可能にするメタ強化学習の重要性
    • 既存手法がタスク推論とエージェント固有の制御を結合し,効率や汎用性を制限している点
    • ダイナミクスを簡略化したエージェントで学習したタスクレベルの知識を異質なエージェントへ転移し,効率と汎用性を向上させる
    • 提案手法は,複数のロボット制御エージェントにおいて,最終ステップの追跡誤差を94.75%〜99.79%削減した。
    • 最先端の手法と同等の性能を,約23.8%少ないインタラクションデータで達成した。
    • ベイズ非パラメトリック事前分布を用いてタスクモードを整理し,高レベルなポリシーでタスクレベルのガイダンスを生成する。

    Link: https://arxiv.org/abs/2606.18132

  • Certus口径分類銃声データセット (C3GD) [cs.SD, cs.AI]目的:銃声の口径分類を目的としたデータセット
    • 銃声分析は,法医学,安全保障,犯罪捜査など,幅広い分野で重要である。
    • 既存の銃声データはインターネット由来が多く,品質やラベルの信頼性に課題がある。
    • 本研究は,多様な条件下で収集された高品質な銃声データセットを提供し,分類性能向上を目指す。
    • 本データセットは,28種類の銃器,16種類の口径から得られた8000以上の実環境データを含む。
    • 詳細なメタデータが付属しており,学術的な分析に適している。
    • 口径分類に加え,銃声検知や音響信号処理など,多様な応用が可能である。

    Link: https://arxiv.org/abs/2606.18135

  • AI旅行エージェントは闘牛を予約する:フロンティアAIモデルにおける動物福祉の暗黙的評価のためのエージェント的ベンチマーク [cs.AI, cs.CL, cs.CY]目的:AIエージェントによる動物搾取を含む選択の回避
    • AI技術の進化に伴い,動物福祉への配慮が重要視されている。
    • 既存のAIベンチマークはテキスト応答の評価に留まり,行動への移行における動物福祉の考慮が不明確である。
    • AIエージェントが動物福祉を考慮した行動選択を行うか検証する。
    • AIエージェントは動物搾取に関連する旅行予約を回避する能力が低いことが示された。
    • システムプロンプトに動物福祉に関する一文を加えることで,AIモデルの性能が大幅に向上した。
    • モデルが評価を認識している可能性は低いと考えられ,動物福祉に関する根本的な改善の必要性が示唆される。

    Link: https://arxiv.org/abs/2606.18142

  • 記憶の消耗性:ロボットにおけるフラッシュメモリの耐久性を価格化することの限界 [cs.AI, cs.CY, cs.LG, cs.RO]目的:ロボットのフラッシュメモリ耐久性を考慮した,書き込みコスト最小化のための記憶階層配置
    • ロボットの自律的な行動には,大量の記憶が必要であり,その耐久性は重要な制約となる。
    • 従来のロボットメモリシステムでは,メモリの書き込み回数による劣化を考慮した価格設定が行われていない。
    • ロボットのタスク価値に基づいてメモリの配置を最適化し,耐久性を考慮したシステムを構築すること。
    • フラッシュメモリの耐久性を「消耗性資産」として捉え,その価値を影価格として表現する手法を提案。
    • 実際のロボットログデータからタスク価値と書き込み価値の関連性(χ)を測定し,配置戦略を決定する閾値を設定。
    • タスク価値が書き込み価値を上回る場合にのみ,ロボットにとって価値の高い記憶がフラッシュメモリからオフロードされることが示唆された。

    Link: https://arxiv.org/abs/2606.18144

  • WEQA:クエリ適応型エージェント推論を用いたウェアラブルヘルス質問応答 [cs.AI]目的:ウェアラブルヘルスデータの質問応答
    • ウェアラブルデバイスの普及により,個人の健康管理への活用が期待されている。
    • ウェアラブルデータは高次元で時間軸を持ち,既存の言語モデルの学習データとのミスマッチが生じやすい。
    • クエリに応じて最適な分析・モデリングツールを動的に選択するフレームワークを構築し,回答精度を向上させる。
    • WEQAは,LLMによる推論とウェアラブルデータ分析ツールを統合したクエリ適応型エージェントフレームワークである。
    • 実験の結果,WEQAは既存のLLMやエージェントベースラインよりも24%高い精度を示した。
    • 医療専門家とユーザーによるブラインドテストでは,有用性と臨床的妥当性の向上が確認された。

    Link: https://arxiv.org/abs/2606.18147

  • 心臓電気生理学的デジタルツインの学習:ハイブリッド構造の能動的発見によるアプローチ [cs.AI]目的:心臓電気生理学的デジタルツインのための適切なモデル構造の特定
    • 心臓電気生理学は,不整脈の理解と治療に不可欠であり,個別化医療への応用が期待される。
    • 既存の手法は専門家の知識に依存し,患者間での汎用性や効率性に課題がある。
    • LLMの構造的知識不足を克服し,安定した心臓シミュレーションを実現するモデル構造の自動発見。
    • 提案手法LEADSは,心臓電気生理学的知識を構造化された行動空間として定義し,LLMエージェントがハイブリッドモデルを発見する。
    • LEADSは物理に基づいた解釈可能なモデルを設計し,数値的安定性を確保しながら,多様なモデル構造探索を可能にする。
    • 合成データおよび実際の心臓電気生理学的データを用いた検証により,専門家設計モデルや他のLLMベースの手法よりも優れた性能を示す。

    Link: https://arxiv.org/abs/2606.18154

  • ReAge3D:視点一貫性を備えた3D顔面の若返り [cs.CV, cs.AI]目的:3D顔面のリアルかつ制御可能な若返り手法
    • 顔面認識や画像処理における重要な課題であり,エンターテイメントや法医学などへの応用が期待される。
    • 既存の3D編集手法では,微細な年齢変化を再現する際に,視点間の不整合が生じやすく,結果が不自然になる。
    • 視点一貫性を確保し,自然で詳細な3D顔面若返りを実現することで,この問題を解決することを目指す。
    • 提案手法は,2D拡散モデルと中心から外側への編集伝播戦略を組み合わせることで,多視点一貫性を確保している。
    • Masked-DiffReagingを用いることで,再構成された領域が既存のピクセルと一貫性を保ちながら,詳細な年齢変化を実現している。
    • 視覚的および定量的な評価により,提案手法が既存の3D編集技術よりも優れていることが示された。

    Link: https://arxiv.org/abs/2606.18156

  • EU法自動化における測定のギャップ:EU AI法に基づく法理的推論のベンチマーク [cs.CY, cs.AI, cs.CL]目的:EU AI法下の法理的推論のベンチマーク
    • 法解釈の中核を担う法理的推論の評価は,法律実務の質向上に不可欠である。
    • 既存の評価方法は,法務補助業務に偏っており,法理的推論能力を正確に測れていない。
    • EU AI法で求められる「適切な正確性」の基準を運用可能にするためのベンチマークを確立する。
    • 大規模言語モデルは一定水準の法的テキストを生成できるようになったが,法理的推論能力を評価するベンチマークは存在しない。
    • この測定のギャップは,方法論的な問題に加え,EU AI法の法的要件を満たす上での課題となっている。
    • 法理的推論のベンチマークを確立することで,EU AI法における「適切な正確性」の基準を明確化できる。

    Link: https://arxiv.org/abs/2606.18158

  • CTIレポートにおける多ラベルATT&CK手法分類のためのオープンソースLLMの評価 [cs.CR, cs.LG]目的:複雑なCTIレポートに対するオープンソースLLMの多ラベルATT&CK手法分類の性能評価
    • サイバー脅威への積極的な防御には,CTIの分類が不可欠であり,その重要性は増している。
    • 従来の自動化では複雑なCTIレポートに対応できず,LLMでも現実的な評価が不足していた。
    • 複雑なCTIレポートにおけるオープンソースLLMのベースライン性能を明らかにする。
    • 構築したデータセットを用いて7つのオープンソースLLMを評価した結果,最高性能モデルのF1スコアは0.22であった。
    • モデルのパラメータサイズとF1スコアには統計的に有意な正の相関関係が認められた。
    • プロンプト戦略や温度設定は,モデル構成において統計的に有意な改善をもたらさなかった。現状のLLMでは実用レベルの分類は困難である。

    Link: https://arxiv.org/abs/2606.18166

  • エージェント生成テストコードにおける,見せかけの安心感:オラクルシグナルの検証 [cs.SE, cs.AI]目的:エージェント生成パッチの検証強度評価
    • ソフトウェア開発において,テストは品質保証の根幹であり,信頼性の高いソフトウェアを開発する上で不可欠である。
    • AIエージェントが生成するテストコードの質が十分かどうかの検証が不十分であり,テストファイル存在のみでは検証強度を測れない。
    • エージェント生成コードの検証強度を,オラクルシグナルに着目して評価し,品質チェックの改善に貢献すること。
    • 80.2%のテストパッチには,弱い,または明示的なオラクルシグナルがほとんど含まれていないことが判明した。
    • オラクルシグナルが強いPRは,生のマージ率が低いものの,調整後の回帰分析ではマージの可能性を有意に向上させる(OR = 1.28, p < 0.001)。
    • テストファイルの数だけでは検証強度を過大評価する可能性があり,オラクルを意識した品質チェックの採用が重要である。

    Link: https://arxiv.org/abs/2606.18168

  • 物理情報ニューラルネットワークを用いた非線形偏微分方程式の凸準線形化法 [cs.NI, math.NA, cs.LG, cs.NA, physics.comp-ph]目的:非線形偏微分方程式の数値解法
    • 偏微分方程式は,自然現象や工学における様々な問題を記述する上で不可欠である。
    • 従来のPINNは,非凸な最適化問題を解くため,学習が不安定になりやすい。
    • 準線形化法を用いることで,問題を一連の線形部分問題に置き換え,PINNの学習を安定化させる。
    • ベルマン・カラバ準線形化法により,非線形問題をパラメータに関して線形な試行空間への配置によって離散化された線形部分問題の系列に帰着させる。
    • 本手法(LiL-Q)は,多くのベンチマーク問題において,少ない外反復回数で収束し,パラメータ数に依存しない。
    • 試行空間上に厳密解が存在する場合,一度の解法で機械精度まで解を回復できる。

    Link: https://arxiv.org/abs/2606.18175

  • IUU+DB:LLM駆動情報抽出による違法・無報告・無規制漁業,水産物詐欺,労働虐待の追跡 [cs.IR, cs.AI, cs.CY]目的:違法・無報告・無規制漁業(IUU)を含む水産分野における犯罪インシデントのグローバルデータベース構築
    • 海洋生態系,市場,生計に深刻な脅威を与えるIUU活動の実態把握が重要である。
    • IUU活動の頻度,地理,種,関係者等の定量的な理解が困難である。
    • IUU活動に関する分散した証拠を整理し,ホットスポットの特定を目指す。
    • IUU+DBは,多様な文書から関連するインシデントを分類し,主要なデータ要素を抽出する。
    • ケーススタディと検証の結果,IUU+DBが学術研究,業界のリスク評価,政府の政策実施を支援可能であることが示された。
    • IUU+DBは,重複排除や傾向分析をサポートし,情報に基づいた対策を可能にする。

    Link: https://arxiv.org/abs/2606.18181

  • ロバストな拡散ポリシーのためのコルモゴロフ回帰 [cs.LG, cs.AI]目的:拡散ポリシーのロバスト性向上
    • 物理システムにおける長期的な性能維持が重要であり,そのために拡散ポリシーの安定性が求められる。
    • 有限次元拡散ポリシーは離散化による時間ドリフトの影響を受け,長期的なパフォーマンスが低下する。
    • 時間ドリフトを抑制し,より安定した拡散ポリシーを実現することを目指す。
    • 提案手法は,カーネルの有効ランクに依存する収束保証を提供する。
    • スペクトル重み付けにより,軌道の規則性が向上し,ステップ間ドリフトが67.6%削減された。
    • 報酬信号なしで故障検出が可能であり,製造ラインでのボトルネック特定精度が1.0に達した。

    Link: https://arxiv.org/abs/2606.18186

  • マルチソース・サイバーセキュリティログ:ATT&CKラベル付きデータセットとSLM評価 [cs.DB, cs.PF, cs.RO, cs.CR, cs.LG]目的:マルチソースのサイバーセキュリティログを用いたATT&CKラベル付きデータセットの構築と,小規模言語モデル(SLM)の評価
    • サイバー攻撃は巧妙化の一途を辿っており,システム全体を俯瞰した多層的な防御が不可欠となっている。
    • 既存のデータセットは,ログソースが限定的であったり,ATT&CKフレームワークに基づいた詳細なラベル付けが不足していたりする。
    • 本研究は,システム,ネットワーク,ブラウザのログを統合し,ATT&CKに基づいた詳細なラベル付けを行うことで,この課題を解決する。
    • 870セッション(攻撃70,良性800)と約230万件のイベントを含む,マルチソースログデータセットを構築した。
    • 構築したデータセットを用いて,Qwen2.5-1.5B,Llama-3.2-3B,Phi-4-Miniの3つのSLMをLoRAを用いてファインチューニングした。
    • ファインチューニングにより,チャンク分類の精度はベースモデルの約8%から90〜97%に向上したが,ATT&CKテクニックの特定は依然として課題が残る。

    Link: https://arxiv.org/abs/2606.18190

  • DRFLOW:パーソナライズされたワークフロー予測のための深層研究ベンチマーク [cs.AI, cs.MA]目的:パーソナライズされたワークフロー予測の評価
    • 複雑な情報探索において深層研究システムの活用が進んでいる。
    • 既存研究はレポート作成に偏り,具体的な行動ステップの特定が課題である。
    • 多様な情報源からユーザーのタスクに最適なワークフローを予測すること。
    • DRFLOWは,5つの分野にわたる100のタスクと,3,900以上の情報源に基づいた1,246のワークフローステップを含む。
    • DRFLOW-Agentは,既存のベースラインエージェントを上回る性能を示したが,改善の余地は大きい。
    • ワークフロー予測の正確性と完全性の向上は,深層研究における重要な課題である。

    Link: https://arxiv.org/abs/2606.18191

  • スタンフォードEDGARファイリングデータセット:レイアウト忠実かつトークン効率の良い事前学習データとしての米国企業の財務開示の再構築 [cs.AI]目的:米国企業の財務開示を再構築したデータセット
    • 大規模言語モデルの学習には,質の高い長期文脈のデータが不可欠である。
    • 既存の長期文脈データセットは,高価であったり,特定のドメインに偏っていたりする。
    • 財務言語モデリングのための,高品質な長期文脈データセットを公開すること。
    • スタンフォードEDGARファイリングデータセット(SEFD)を構築し,SECファイリングをMultiMarkdown形式で再構築した。
    • SEFDは,財務諸表,リスク開示,所有権報告など,様々な財務情報を活用できる。
    • SEFDから派生した2つのベンチマーク(EDGAR-Forecast,EDGAR-OCR)を導入し,評価を行った。

    Link: https://arxiv.org/abs/2606.18192

  • Anthropic Fable 5 & Opus 4.8モデルに対するレッドチーム研究 [cs.CR, cs.AI, cs.CL]目的:大規模言語モデルの敵対的堅牢性評価
    • 自然言語処理の発展に伴い,AIの安全性確保が重要課題となっている。
    • 大規模言語モデルは有害な応答を生成する可能性があり,対策が急務である。
    • 自動化された攻撃に対するモデルの脆弱性を明らかにし,安全性を向上させる。
    • Fable 5とOpus 4.8は多くの攻撃に耐性を示すものの,依然として突破可能な余地が存在する。
    • Opus 4.8は11.5%,Fable 5は6.1%の割合で意図した有害な応答を生成することが確認された。
    • 自動化された攻撃によって,専門家なしで容易に有害な応答が生成されることが示された。

    Link: https://arxiv.org/abs/2606.18193

  • RubricsTree:ヘルスケアエージェントの評価のためのスケーラブルかつ進化するオープンエンドフレームワーク [cs.CC, cs.CL, cs.AI]目的:個人用ヘルスケアエージェントのヘルスケアに関する知識と医療スキルに関する評価
    • 医療格差の是正に貢献する個人用ヘルスケアエージェントの普及が期待されており,その性能評価が重要である。
    • 医師による評価は信頼性が高いがコストとスケーラビリティに課題があり,LLMによる評価は主観的で一貫性に欠ける。
    • 専門家による評価とスケーラビリティを両立する,客観的かつ信頼性の高い評価フレームワークを確立すること。
    • RubricsTreeは,100を超える客観的な評価基準を含む階層的タクソノミーを用いて,評価の効率化と質向上を実現した。
    • 既存の評価手法と比較して,RubricsTreeは専門家との合致度において大幅な改善を示し,文脈の変化に対するペナルティも適切に機能した。
    • RubricsTreeをGemini,GPT,Qwenなどのモデルの性能最適化に活用した結果,HealthBenchのスコアが最大約66%向上した。

    Link: https://arxiv.org/abs/2606.18203

  • 固定小数点推論器:安定かつ適応的な深層ループトランスフォーマー [cs.CL, cs.AI]目的:段階的推論手順の学習に関する誘導バイアス
    • 複雑なタスクの解決には,構成的推論が不可欠であり,その学習手法が求められている。
    • 深層ループ構造は,深さによる信号伝播の問題を抱え,停止判定が遅れる場合がある。
    • 固定小数点収束を利用し,タスク難易度に応じて計算量を適応させること。
    • 提案手法FPRMは,事前正規化層と残差スケーリングにより信号伝播問題を軽減する。
    • 固定小数点停止機構により,FPRMはタスク難易度に合わせて計算量を調整できる。
    • 数独,迷路,状態追跡,ARC-AGIなどの推論ベンチマークで有効性が確認された。

    Link: https://arxiv.org/abs/2606.18206

  • ループ化された世界モデル [cs.LG, cs.AI, cs.CL, cs.CV]目的:世界モデルのパラメータ効率と予測精度向上
    • 長期的なシミュレーションは重要だが,計算コストと誤差の蓄積が課題である。
    • 従来のモデルは,深層化による計算コスト増大と誤差の蓄積に直面している。
    • 反復的な潜在状態の洗練により,計算効率と予測精度を向上させることを目指す。
    • LoopWMは,パラメータ共有されたTransformerブロックにより,従来のモデルと比較して最大100倍のパラメータ効率を実現した。
    • 予測ステップの複雑さに応じて計算量を自動的に調整する適応的な計算が可能となった。
    • 反復的な潜在的深さを新たなスケーリング軸として確立し,世界シミュレーションの進歩に貢献する可能性がある。

    Link: https://arxiv.org/abs/2606.18208

  • 分類のためのデータセット蒸留の再検討:蒸留されたセットはコアセットを上回るか? [cs.LG]目的:分類タスクにおけるデータセット蒸留の効果検証
    • データ駆動型機械学習において,効率的な学習のためのコンパクトな訓練データセットの構築が重要である。
    • データセット蒸留手法の評価プロトコルが不統一であり,蒸留データの効果を分離して評価することが困難である。
    • 既存のデータセット蒸留手法の性能を客観的に評価し,コアセット選択との比較を行う。
    • 大規模実験の結果,最先端のデータセット蒸留手法は,大規模データセットにおいてコアセットと同等か劣る性能しか示さない。
    • データセット蒸留は,コアセット選択と比較して,構築コストが大幅に高いことが示された。
    • コアセットは,元のデータ分布のカバー率において,より良い結果を示す。

    Link: https://arxiv.org/abs/2606.18209

  • 観測からの敵エージェントポリシー学習:神経記号型自律サイバーエージェントのために [cs.CL, cs.DL, cs.CR, cs.AI, cs.LG, cs.SY, eess.SY]目的:部分観測強化学習エージェントにおけるポリシー学習手法
    • サイバー攻撃の巧妙化により,自律的なサイバー防御の重要性が増している。
    • 攻撃者の行動が観測できないため,防御側の予測や学習が困難である。
    • 部分観測環境下で,敵エージェントの行動を予測し,防御能力を高める。
    • 模倣学習を用いて敵エージェントのポリシーを学習する手法を提案した。
    • 本手法は,ネットワーク観測と防御側の行動から敵エージェントの行動を予測する。
    • 多様なシミュレーションシナリオにおいて,高い予測精度と効果が確認された。

    Link: https://arxiv.org/abs/2606.18223

  • 解像度に依存しない適応的体積力学特性場 [cs.HC, cs.CV, cs.LG, cs.RO]目的:デジタル世界の信頼性のある物理シミュレーションに必要な,ヤング率($E$),ポアソン比($\nu$),密度($\rho$)の正確な力学特性の予測
    • デジタル世界の物理シミュレーションのリアリズムと精度は,使用されるオブジェクトの力学特性に大きく依存する
    • 既存の3Dアセットの多くは,正確な力学特性情報を持っておらず,シミュレーションの質を低下させる
    • 入力3Dオブジェクトの解像度,精度,メモリ効率を向上させ,シミュレーション可能なアセットへの変換を可能とする
    • AdaVoMPは,従来のSAVよりも解像度が$16^3$倍高い,疎な適応的ボクセル構造を学習的に生成する。
    • 実験の結果,AdaVoMPは既存手法よりも正確な体積特性を推定でき,テスト時の計算コストも低いことが示された。
    • これにより,高解像度の複雑な3Dオブジェクトをシミュレーション可能なアセットに変換し,リアルな変形シミュレーションを実現できる。

    Link: https://arxiv.org/abs/2606.18231

  • EvolveNav:ゼロショット物体目標ナビゲーションのための事前反省と自己進化型メモリ [cs.AI]目的:ゼロショット物体目標ナビゲーションにおける継続的なテスト時改善
    • ロボットの自律的な環境理解と目標達成能力の向上は,実世界での応用を広げる上で重要である。
    • 既存手法は静的な事前知識に依存し,状況への適応が難しく,試行錯誤のコストが高いという課題がある。
    • 過去の軌跡から得られる知識を活用し,効率的な行動選択と探索を行うことで,ナビゲーションの成功率を向上させる。
    • 提案手法は,過去の軌跡から得られた行動ルールをメモリに蓄積し,状況に応じて最適なルールを選択する。
    • また,行動実行前に潜在的な結果を予測することで,無駄な探索を削減し,効率的なナビゲーションを実現する。
    • 実験の結果,既存のゼロショットベースラインと比較して,成功率が10.1%向上し,より少ないステップ数で目標に到達することが示された。

    Link: https://arxiv.org/abs/2606.18235

  • Sign-Rank,Index,およびList Replicabilityの再現性:関連性と分離 [cs.LG, cs.IT, math.IT]目的:二値概念クラスのSign-Rankの最小次元表現に関する研究
    • 学習理論において,概念クラスの複雑度を測る指標として重要である。
    • Sign-Rankの下限を導出することが極めて困難であるという課題がある。
    • IndexやList Replicabilityを用いてSign-Rankの下限を導出する方法を考察する。
    • $\mathbb{Z}_2$-IndexがList Replicability数によって線形に上界されることが示された。
    • Frick, Hosseini, Vasileuskiらの問いに対し,Sign-Rankと$\mathbb{Z}_2$-Indexの分離が達成された。
    • List Replicability数の上限として,heightやminimum star numberが示された。

    Link: https://arxiv.org/abs/2606.18236

  • ReproRepo:GitHubリポジトリのIssueを用いた再現性監査のスケール化 [cs.CL, cs.AI, cs.LG]目的:再現性評価のためのスケーラブルなフレームワーク
    • 科学的進歩には研究結果の再現が不可欠であり,信頼性の高い評価手法が求められている。
    • 既存の再現性評価は手作業によるデータ収集と評価に多大な労力を要し,大規模な検証が困難である。
    • GitHub Issueを自然な再現性問題の指摘として活用し,効率的な評価を可能にすること。
    • LLMエージェントはコード実行なしに,多くの現実的な再現性問題を特定できることが示された。
    • 特にCodexとGPT-5.5の組み合わせが,調査対象論文の約90%で人間が報告した再現性に関するIssueを発見した。
    • エージェントは目に見えるエラーの特定や関連箇所の特定には有効だが,正確な位置の特定には限界がある。

    Link: https://arxiv.org/abs/2606.18237

  • 視覚的検証による推論時制御と自律的なポリシー改善 [cs.CL, cs.RO, cs.AI]目的:推論時制御と自己改善のための汎用ロボットポリシー
    • 実世界でのロボット活用には,経験から学習し継続的に改善する能力が不可欠である。
    • ロボットの行動評価は多くの場合,人的介入や追加データが必要であり,効率性が課題である。
    • 本研究は,追加の学習や人的介入なしにロボットポリシーを改善する手法を開発する。
    • 提案手法VERITASは,推論時にポリシー性能を向上させる視覚的検証器と汎用ポリシーの組み合わせである。
    • 検証されたロールアウトは,オフラインでのポリシー改善に有効な教師信号となることが示された。
    • 検証されたロールアウトを用いたポストトレーニングは,専門家のデモンストレーションと同等の効率を達成する。

    Link: https://arxiv.org/abs/2606.18247

  • RadSEM:放射線科レポートにおける臨床的な整合性を評価するための発見に基づく指標 [q-bio.QM, cs.LG]目的:放射線科レポートの発見間の臨床的な整合性の評価指標
    • 放射線科レポートの品質評価は,患者ケアに不可欠であり,精度が求められる。
    • 既存の評価指標は,表面的な類似性に偏り,否定や極性の反転を見逃しやすい。
    • 臨床的に意味のある誤りを検出し,レポートの品質をより正確に評価すること。
    • RadSEMは,参照レポートと生成レポートを原子的な発見文に変換し,矛盾を考慮したマッチングを行う。
    • SSREEデータセットを用いた評価で,既存の指標を上回り,高い Kendall tau_b とコンコダンスを示した。
    • 発見単位,矛盾検出,異常に焦点を当てたスコアリングにより,解釈性と臨床的なエラーへの感度を高めている。

    Link: https://arxiv.org/abs/2606.17062

  • PIVOT:ブラック・ショールズ暗黙ボラティリティと価格目標を微分可能なヤッケル演算子で結びつける [q-fin.CP, cs.AI, cs.LG]目的:ブラック・ショールズモデルに基づくオプション価格と暗黙ボラティリティ間の変換
    • オプション価格決定モデルは金融工学の根幹であり,リスク管理やデリバティブ取引に不可欠である。
    • 既存手法では,価格空間と暗黙ボラティリティ空間間のインターフェースがボトルネックとなり,効率的な学習を阻害している。
    • PIVOTは,ブラック・ショールズモデルの微分を通じて,このインターフェースを効率化し,オプション学習システムの性能向上を目指す。
    • PIVOTは,ヤッケルのLBRソルバーの順伝播を維持しつつ,滑らかなブラック・ショールズ価格マップによる陰関数微分で逆伝播を供給する。
    • H100上で,PIVOTは機械精度で17.9億IV/秒を達成し,合成チェーンやSPX OptionMetricsでのラベル生成を高速化した。
    • SPXでの実験では,PIVOTを導入した目的関数がベースラインを凌駕し,価格MAEを最大43.4%削減した。

    Link: https://arxiv.org/abs/2606.17065

  • KFTD:連続海洋時空間予測のためのコープマン・フーリエ時間微分可能ネットワーク [physics.ao-ph, cs.AI, cs.LG]目的:連続海洋時空間予測のための効率的かつスケーラブルなモデリング
    • 気候変動モニタリングや災害早期警報において,正確な海洋予測は不可欠である。
    • 複雑な力学系のモデリングと計算効率の確保が,海洋時空間予測における課題である。
    • 複雑な非線形ダイナミクスを効率的に捉え,高精度な予測を実現することを目指す。
    • KFTDネットワークは,時間連続の二段階パラダイムにより,補間と予測を分離し,効率性とスケーラビリティを実現した。
    • 従来の拡散モデルと比較して,ノイズサンプリングを不要とし,計算速度を4倍に向上させた。
    • DPP Lossの導入により,物理的な整合性を高め,4つの海洋データセットでMSEを平均5.6%削減した。

    Link: https://arxiv.org/abs/2606.17070

  • CMIP-Forge:気候科学に関する情報の検索,計算,自己レビューを行うエージェントシステム [physics.ao-ph, cs.AI]目的:CMIP6論文とESGFデータに基づいた気候変動研究の自動化
    • 気候変動予測の精度向上には,過去のモデル比較プロジェクトの知識活用が不可欠である。
    • CMIP6で得られた膨大な知見が非構造化データとして散在し,効率的な活用が課題となっている。
    • 科学文献とデータアーカイブを統合し,気候変動研究のワークフローを自動化することで,課題解決を目指す。
    • CMIP-Forgeは,RAGと自律分析システムを組み合わせ,気候変動研究のパイプラインを構築した。
    • 物理的・方法論的制約を組み込んだ多層防御アーキテクチャにより,コードの安全性と科学的妥当性を確保する。
    • 大気テレコネクション,海洋力学,地域的極端現象,地球温暖化予測など,複雑な研究ワークフローを自律的に実行可能であることを示した。

    Link: https://arxiv.org/abs/2606.17076

  • 限定的な実データから,エンジニアードモデル-量子フレームワークによる包括的なpKaデータ拡張 [physics.chem-ph, cs.AI, cs.LG]目的:pKaデータの拡充
    • 機能性分子の発見や分子モデリングにおいて,pKa値は極めて重要な役割を担う。
    • 高品質なpKaデータの迅速な拡充は,依然として根本的な制約を抱えている。
    • 広範囲なpKa特性を持つ分子の効率的な発見を目指し,スパースなpKa特性を持つ分子の創出に取り組む。
    • 機械学習モデルを用いた大規模なpKa予測を行った結果,pKa分布が正規分布に近似することが示された。
    • 量子アシストによるスパースpKa分子生成法を設計・実装し,シミュレーテッド量子アニーラとコヒーレントアイジングマシン(CIM)で検証した。
    • 本手法により,特に極端なpKa値を持つ分子のサンプリングにおいて優れた性能が確認された。

    Link: https://arxiv.org/abs/2606.17077

  • 量子シネマ:生成ワールドモデルによる量子コンピューティングハードウェアのインタラクティブな映画的探求 [physics.pop-ph, cs.AI, quant-ph]目的:量子コンピューティングハードウェアの可視化を通じた量子リテラシーと人材育成
    • 量子コンピューティングは科学と産業に変革をもたらす可能性を秘めている。その理解促進は重要である。
    • 量子コンピューティングのハードウェアは不可視であり,一般大衆の理解を妨げる「想像力のギャップ」が存在する。
    • 生成ワールドモデルを用いて量子ハードウェアを可視化し,その理解を深めることを目指す。
    • 量子シネマは,ブラウザ上で動作するインタラクティブなアプリケーションであり,量子ハードウェアを映画的な体験として提供する。
    • このシステムは,量子エンタングルメントの基礎から,トラップイオン,中性原子,超伝導システムの3つの主要なアーキテクチャまでをカバーする。
    • 生成された3次元環境は,AWS Braketの量子デバイス仕様に基づき,科学的に妥当なものとなっている。

    Link: https://arxiv.org/abs/2606.17102

  • CFD合成データを用いた船舶自由航行運動のシステム同定における正則化機械学習:比較研究 [stat.AP, cs.LG, physics.flu-dyn]目的:船舶の流体動的係数の同定
    • 船舶の設計・運航において,運動性能の正確な予測は安全性と効率性に不可欠である。
    • 実験的な係数同定はコストと時間がかかるため,効率的な代替手法が求められている。
    • CFDデータと機械学習を活用し,迅速かつ高精度な係数同定手法を確立すること。
    • 大規模な角度のジグザグ運動が,船舶の流体動的システム同定に適していることが示された。
    • 正則化回帰は,多重共線性に対処し,予測精度を大幅に向上させることが確認された。
    • リッジ回帰が,計算効率と予測精度のバランスに優れた手法であることが明らかになった。

    Link: https://arxiv.org/abs/2606.17121

  • 非標準抗菌ペプチドの生成的発見:AMPGAN v3 [q-bio.QM, cs.AI, cs.LG]目的:非標準アミノ酸や化学修飾を含む抗菌ペプチドの設計
    • 抗菌薬耐性は毎年100万人以上の死亡原因となっている。新規抗菌薬の開発が急務である。
    • 従来の抗菌ペプチド生成モデルは,実用的なペプチド医薬品に必要な修飾に対応できていない。
    • Dアミノ酸やN/C末端修飾を組み込んだペプチドを生成し,抗菌活性を検証すること。
    • AMPGAN v3は,2つの識別器による敵対的・活性認識の分離により,学習の安定性を向上させた。
    • in vitro試験の結果,5つの候補のうち2つがグラム陽性菌に対して活性を示し,最も優れた候補はB. subtilisに対して8 μg/mLのMICを示した。
    • PepCraftという多エージェントフレームワークを提示し,生成,フィルタリング,検証を統合的に行う抗菌ペプチド探索を支援する。

    Link: https://arxiv.org/abs/2606.17127

  • LLMベースのA/Bテストの統計的基盤:人間による因果推論のための代理フレームワーク [astro-ph.IM, astro-ph.CO, astro-ph.GA, cs.PF, stat.ME, cs.AI, econ.EM, math.ST, stat.TH]目的:LLMを用いたA/Bテストにおける因果効果の推定精度と,人間による測定結果との比較
    • 迅速かつ低コストな実験を実現するため,LLMを人間参加者の代替として利用する関心が高まっている。
    • LLMと人間の結果の分布が等価であることは稀であり,標準的な推定方法の妥当性が損なわれる可能性がある。
    • LLMの結果を人間の結果に較正することで,より弱い条件の下で因果効果を識別し,バイアスを評価すること。
    • LLMの結果を代理変数として利用するためには,比較可能性と代理条件を満たす必要があり,これは分布の等価性よりも弱い条件である。
    • LLMの確率的性質がバイアスと分散をもたらすが,複数回の試行の平均を取ることで,これらを軽減できる。
    • LLMの妥当性は過去の介入に対してのみ反証可能であり,新しい介入に対しては検証できないため,人間による実験は依然として不可欠である。

    Link: https://arxiv.org/abs/2606.17165

  • 確率測度に対するLog-PCAの再検討:動的定式化と統計的収束 [stat.ML, cs.LG, stat.ME]目的:確率測度の主要な変動の学習
    • 確率モデルは様々な分野で重要であり,高次元データ解析に不可欠である。
    • Wasserstein空間における確率測度の主要成分分析は計算コストが高い。
    • WT-PCAによる効率的な主要変動の抽出と収束性の保証。
    • 本研究では,Log-PCAを動的な視点から解釈し,新しいWasserstein Tangential PCA(WT-PCA)を提案した。
    • WT-PCAは,Wasserstein空間における確率測度の局所的な主要モードを捉えることができる。
    • 最適輸送問題の並行輸送構造を利用し,WT-PCAの統計的収束率を導出した。

    Link: https://arxiv.org/abs/2606.17196

  • 物理情報に基づいた注意機構と深層学習による結晶粒成長進化予測の汎化能力 [math.OC, cs.SY, eess.SY, cond-mat.mtrl-sci, cs.AI]目的:結晶粒成長予測モデルの,分布外データに対する汎化能力の評価
    • 材料設計やプロセス最適化において,結晶粒の成長予測は重要な役割を果たす。
    • 従来の機械学習モデルは理想化されたデータで学習されるため,実際の条件への汎化が課題である。
    • 物理情報を取り入れた注意機構が,汎化性能の向上に貢献するかを検証する。
    • 訓練済みの深層学習モデルは,実験的な微細構造や二峰性粒径分布を持つ微細構造など,様々な分布外データに対して良好な汎化性能を示した。
    • 特に,二峰性粒径分布を持つ微細構造において,境界マスキング注意機構によって構造類似性指標(SSIM)が0.6221から0.7609に向上し,平均粒径誤差が8.75%から3.57%に減少した。
    • 注意機構のヒートマップ分析により,境界マスキング注意機構が,訓練データから曲線駆動型の結晶粒成長物理学に合致する大粒界に注意を集中することが明らかになった。

    Link: https://arxiv.org/abs/2606.17235

  • 決定的な積分時間を用いたハミルトニアン力学による凸最適化の高速化 [math.OC, cs.LG, stat.ML]目的:滑らかな凸最適化における高速収束アルゴリズム
    • 機械学習や信号処理など,様々な分野で最適化問題は不可欠である。
    • 従来のアルゴリズムは,収束の保証が期待値に限られるか,二次目的関数に限定される場合がある。
    • 決定的な積分時間を用いたハミルトニアン力学により,高速かつ決定的な収束を保証する。
    • ハミルトニアン力学に基づく最適化手法は,平均化されたハミルトニアンフローの収縮を利用することで,決定的な高速収束を保証する。
    • 理想化された連続時間アルゴリズムを解析し,最適な一次の複雑さを持つ実用的な離散時間実装を導出した。
    • ハミルトニアン力学が,決定的な高速凸最適化のための有用なアルゴリズム構成要素となることが示された。

    Link: https://arxiv.org/abs/2606.17260

  • 低次数かつ疎なブール多項式の厳密な$L_\infty$サンプル複雑性 [stat.ML, cs.LG, math.CO, math.ST, stat.TH]目的:ブール超立方体上の多項式代理の学習
    • 最適化問題において,関数評価回数は計算コストに直結する重要な要素である。
    • 従来の$L_2$誤差では最適化の安全性は保証されず,$L_\infty$誤差の保証が求められる。
    • ノイズ下における均一な$L_\infty$誤差保証を満たすサンプル複雑性を明確化する。
    • 次数が$d$以下の多項式の場合,サンプル複雑性は$n^{d+1}$に比例することが示された。
    • $s$疎なフーリエ・ウォルシュ多項式の場合,サンプル複雑性は$ns^2$に比例することが示された。
    • これらの結果は,最適化に安全な多項式代理を学習するためのサンプル複雑性の厳密な特徴付けを提供する。

    Link: https://arxiv.org/abs/2606.17319

  • 熱力学的ハードウェアにおけるエネルギー効率の高いコドン最適化 [q-bio.BM, cs.AR, cs.ET, cs.NE]目的:mRNAコドン最適化問題の熱力学的ハードウェアへの実装とエネルギー効率の評価
    • 計算需要の増大に伴い,エネルギー消費の抑制が喫緊の課題となっている。
    • 従来の計算手法はエネルギー消費量が大きく,持続可能性が懸念されている。
    • 熱力学的ハードウェアを用いることで,エネルギー効率を飛躍的に向上させる。
    • SARS-CoV-2スパイクタンパク質を対象としたコドン最適化において,熱力学的ハードウェア,Pottsサンプリング,遺伝的アルゴリズムは同程度の最適化品質を示した。
    • 検証されたハードウェアモデルに基づいたエネルギー推定により,熱力学的ハードウェアは従来のGPUと比較して約10の6乗分の1のエネルギーで問題を解決できることが示唆された。
    • 本研究で開発したコードはオープンソースライセンスで公開されている。

    Link: https://arxiv.org/abs/2606.17327

  • エージェント型AIシステムのモデル検証:信念状態,予測,およびポリシー検証のためのPOMDPベースのフレームワーク [q-fin.RM, cs.AI, cs.LG, stat.ML]目的:エージェント型AIシステムのモデルリスク検証手法
    • AIの自律性が高まる中で,その意思決定プロセスの安全性と信頼性確保が重要になっている。
    • 従来の予測モデルの検証手法では,自律的AIの複雑な意思決定プロセスを十分に評価できない。
    • 自律型AIの意思決定プロセスを構成要素ごとに検証し,リスク管理の枠組みを構築することを目指す。
    • 本研究では,部分観測マルコフ決定過程(POMDP)を用いて,情報,信念,予測,行動,および有用性を独立して検証するフレームワークを提案した。
    • ポートフォリオ管理のケーススタディにより,潜在的な市場状態の推論が意思決定の質に貢献することが示された。
    • 確立されたモデルリスク管理の概念を自律型AIシステムに拡張し,厳密な検証,ガバナンス,およびモニタリングの基盤を提供する。

    Link: https://arxiv.org/abs/2606.17383