arXiv雑要約

AI - 2026/06/19 公開

オンラインミラーディセントにおける近似の隠れたコスト [cs.LG]目的：オンラインミラーディセントの近似誤差に対する性能保証の解明
- 最適化，機械学習，意思決定問題において基礎的なアルゴリズムパラダイムである。
- 既存の研究では誤差のない理想的な設定を仮定しており，実用的な性能保証が不明確である。
- 正則化子の滑らかさと近似誤差への頑健性の関係を明らかにすること。
- 正則化子が一様滑らかな場合，誤差による超過リグレットの上限を確立した。
- シンプレックス上のバリア正則化子において，負のエントロピー正則化子は線形リグレットを避けるために指数関数的に小さい誤差が必要となることが判明した。
- 損失が確率的で，領域がシンプレックスの場合，負のエントロピー正則化子は頑健性を回復するが，すべての部分集合に拡張されるわけではない。
Link: https://arxiv.org/abs/2511.22283
私のカップを持ってきて！視覚的注意プロンプトによるビジョン-言語-行動モデルのパーソナライズ [cs.RO, cs.CL, cs.RO, cs.AI]目的：パーソナルなオブジェクト操作の実現
- ロボットによる人間との協調作業において，指示理解と行動計画が重要である。
- 汎用的な指示には対応できても，個人の特定のオブジェクトを識別することが難しい。
- 特定のオブジェクトを学習データなしに識別・操作する手法を確立すること。
- 視覚的注意プロンプト（VAP）は，既存のビジョン-言語-行動モデルを改良し，参照画像から個人オブジェクトを特定する。
- VAPは，成功率と正しいオブジェクト操作において，既存手法や他のベースラインよりも優れた性能を示した。
- これにより，意味理解とインスタンスレベルの制御の間のギャップを埋めることが可能となった。
Link: https://arxiv.org/abs/2512.20014
ロボティクスにおける運動素片：包括的なサーベイ [cs.RO, cs.AI]目的：ロボティクスにおける運動素片のアプローチと応用に関する体系的レビュー
- 生物の多様な運動能力は，ロボット制御の模倣対象として重要である。
- ロボットに複雑なタスクを実行させるには，効率的な運動制御手法が求められる。
- 運動素片は，ロボットの運動を効率的に表現し，制御するための手法である。
- 本サーベイでは，主要な運動素片フレームワークを系統的にレビューし，その強みと弱みを分析している。
- 運動素片の成功事例をハイライトし，その応用範囲の広さを示している。
- ロボティクスにおける運動素片の課題と今後の展望について議論している。
Link: https://arxiv.org/abs/2601.02379
物理情報に基づいた慣性航法推算法（PiDR）：自律プラットフォーム向け [cs.RO, cs.AI, cs.LG]目的：外部データなしでの高精度な航法維持
- 完全自律化には不可欠であり，GNSSや視覚情報に頼れない環境での航法能力が求められる。
- 慣性センサーのノイズや誤差により，長時間の航法推定ではドリフトが発生しやすい。
- 従来の深層学習モデルの課題を克服し，限られたデータでも物理法則を考慮した高精度な航法を実現する。
- PiDRは，慣性航法の原理をネットワーク学習に組み込むことで，透明性を確保し，急激な軌道ずれを抑制する。
- モバイルロボットと自律型水中車両を用いた実証実験により，位置推定精度が29％以上向上した。
- PiDRは，リソース制約のあるプラットフォームへの展開が可能で，過酷な環境下でのリアルタイム慣性航法を実現する。
Link: https://arxiv.org/abs/2601.03040
創造性の再検討：生成AIと意図的能動性の問題 [cs.SC, cs.DC, cs.FL, cs.CE, cs.RO, cs.AI]目的：生成AIの創造性に対する人々の認識の変化と，創造性の定義における意図的能動性の必要性
- 創造性は人間の活動の根幹であり，芸術，科学，技術革新など，多様な分野に不可欠である。
- 従来の創造性の定義は，意図的な主体性を必須条件としており，AIなどの非意図的実体には適用が困難である。
- 生成AIの台頭を契機に，創造性の定義を再検討し，意図的能動性にとらわれない新たな視点を提供する。
- 近年の生成AIの進歩により，人々は生成AIに対して創造性を付与する傾向が強まっていることが，コーパス分析によって示された。
- 既存の創造性理論は，生成AIの創造性を説明するために様々な解決策を提示するものの，いずれも決定的な解決策には至っていない。
- 創造性の判断は，意図的能動性ではなく，「創造的能力」に依存するという新たなアプローチを提案する。
Link: https://arxiv.org/abs/2601.15797
ポリシー埋め込みグラフ拡張：拡散駆動型ネットワークサンプルによるネットワークを用いたHIV検査 [cs.SI, cs.AI]目的：ネットワークを用いたHIV検査効率の向上
- HIVは深刻な健康問題であり，効果的な検査戦略が不可欠である。
- 従来の検査戦略は，現実世界での実装における制約が多い。
- 現実的な制約下で，効率的な検査戦略を開発し，検出率を向上させる。
- 提案手法（PEGE + DDB）は，既存手法と比較して割引報酬が17.3%向上した。
- PEGE + DDBにより，人口の25%の検査で15.4%多くのHIV感染者を検出できた。
- この研究は，検査戦略の質を向上させるための重要なトレードオフを明らかにした。
Link: https://arxiv.org/abs/2601.16233
生成モデリングの高速化のためのバイアンカー補間ソルバー [cs.CV, cs.AI]目的：生成モデリングの高速化
- 高精度な画像合成への要求が高まっており，その実現には効率的な生成モデルが不可欠である。
- 既存のFlow Matchingモデルは，反復的な常微分方程式の求解に時間がかかり，推論速度が遅いという課題がある。
- 既存手法の課題を克服し，学習コストを抑えつつ推論速度を向上させる。
- 提案手法であるBA-solverは，わずかな学習コストで標準的なソルバーと同等の生成品質を，より少ないNeural Function Evaluationsで実現する。
- ImageNet-256^2における実験では，BA-solverは10 NFEsで100+ NFEsのEulerソルバーと同等の品質を達成し，5 NFEsでも高い精度を維持する。
- BA-solverは既存の生成パイプラインに容易に組み込むことができ，画像編集などの下流タスクを支援する。
Link: https://arxiv.org/abs/2601.21542
事前情報に基づくフローマッチングによるグラフ再構成 [cs.LG]目的：グラフ再構成における精度向上
- グラフ構造は複雑な関係性を表現でき，様々な分野で利用が拡大している。
- 部分的な観測からのグラフ再構成は難しく，既存手法では全体的な整合性が課題である。
- 構造的事前知識を組み込み，より正確なグラフ再構成を実現すること。
- PIFMは，埋め込みベースの事前情報と連続時間フローマッチングを統合することで，既存手法の性能を向上させる。
- PIFMは，ノード周辺の情報から初期推定を行い，それを真のグラフ分布へと輸送することで，グローバルな関係性を学習する。
- 実験結果から，PIFMは従来の埋め込み手法や最先端の生成モデルと比較して，再構成精度において優れていることが示された。
Link: https://arxiv.org/abs/2601.22107
アクター・クリティック法における方策の平滑化のためのQ-勾配場の安定化 [cs.LG, cs.AI]目的：方策の平滑化
- ロボット制御等の物理的応用において，安定した方策が不可欠であるため。
- 連続アクター・クリティック法で学習された方策は，高周波な振動を示すことが課題である。
- クリティックの微分幾何学に着目し，Q-勾配場の安定化によって方策の平滑化を図る。
- 理論的に，方策の非平滑性はクリティックの微分幾何学によって支配されることが示された。
- クリティックをスカラー場とみなし，Q-勾配場の変動を最小化するPAVEという新しい正則化フレームワークを提案した。
- 実験的に，PAVEは方策側の正則化手法と同等の平滑化を達成しつつ，タスク性能を維持した。
Link: https://arxiv.org/abs/2601.22970
PCBSchemaGen：プリント基板回路図設計のための報酬誘導型LLMコード合成と構造化検証 [cs.AI, cs.LG, cs.SE]目的：プリント基板回路図の検証可能な生成
- 電子機器設計において，回路図の正確性は不可欠であり，設計効率と信頼性に直結する。
- 従来のLLMコード合成の評価指標であるユニットテストは，プリント基板回路図設計には適用できない。
- 実ICパッケージやピン配置の物理的制約を考慮した回路図の自動生成と検証を目指す。
- 提案手法PCBSchemaGenは，LLMを活用し，検証可能なプリント基板回路図を生成するフレームワークである。
- 31Bのオープンウェイトモデル(Gemma-4-31B)を用いた評価では，PCBBenchタスクの81.3%をパスした。
- このフレームワークは，検証器や知識グラフライブラリ，プロンプトを固定した状態で，異なるベンチマークへの転移が可能である。
Link: https://arxiv.org/abs/2602.00510
ワンプローブでは全てを捉えられない：標的を絞った欺瞞検出へ [cs.AI, cs.LG]目的：AIシステムの欺瞞的行動の監視
- AIの進化に伴い，その安全性と信頼性の確保が重要となっている。
- 既存の欺瞞検出手法は，誤検知や相関関係の誤認といった課題を抱えている。
- 欺瞞検出の異質性を明らかにし，特定の欺瞞タイプに特化したプローブの有効性を示す。
- 欺瞞検出は本質的に異質であり，単一の汎用プローブでは限界があることが示された。
- 特定の欺瞞タイプにプローブを適合させることで，検出性能が大幅に向上する可能性が示唆された。
- プロンプトの選択がプローブの性能に大きく影響し，組織は具体的な脅威モデルを定義する必要がある。
Link: https://arxiv.org/abs/2602.01425
DADP：ドメイン適応拡散ポリシー [cs.LG, cs.RO]目的：ドメイン適応ポリシーの汎化性能向上
- 学習に基づいた制御は，現実世界のロボット応用に不可欠であり，その実現には汎化性能が重要である。
- 未知の環境への適応が困難であり，ドメイン固有の情報と動的な特性が混同されやすい。
- ドメイン表現の学習と拡散モデルを活用し，ロバストな適応能力を獲得することを目指す。
- 提案手法DADPは，遅延コンテキスト動的予測により，ドメイン表現と動的特性を分離する。
- 学習されたドメイン表現を拡散モデルの事前分布に組み込むことで，ドメインを意識した生成を可能にする。
- 運動と操作の両方のベンチマークにおいて，既存手法を上回る性能と汎化性能が確認された。
Link: https://arxiv.org/abs/2602.04037
DeFrame：大規模言語モデルにおけるフレーミング効果へのバイアス軽減 [cs.CL, cs.AI]目的：大規模言語モデルのフレーミング効果に対するバイアス軽減法
- 実社会での利用が進む大規模言語モデルにおいて，公平性が重要な課題となっている。
- 標準的な評価では公平に見えても，異なる表現による影響でバイアスが生じる場合がある。
- フレーミングによる公平性の格差を定量化し，それを軽減する手法を提案すること。
- 本研究では，「フレーミング格差」という概念を導入し，表現の違いが公平性評価に与える影響を定量化した。
- 既存のバイアス軽減法が全体的な公平性は改善するものの，フレーミングによる格差を解消できないことが示された。
- 提案手法は，フレーミングに依存しない一貫性のある公平な応答を生成することで，バイアスを軽減し，頑健性を向上させる。
Link: https://arxiv.org/abs/2602.04306
LoRDO：不頻度通信による分散低ランク最適化 [cs.LG, cs.AI]目的：分散型低ランク最適化のフレームワーク
- 大規模基盤モデルの学習需要が高まる中，分散学習の効率化が不可欠である。
- 分散学習におけるインターコネクト帯域幅がボトルネックとなり，通信頻度低減策も最適化性能を損なう場合がある。
- 低ランク最適化と不頻度通信を統合し，通信量を削減しつつ最適化性能を維持・向上させる。
- LoRDOは，言語モデリングや下流タスクにおいて，低ランクDDPと同等の性能を達成する。
- 通信量を約10倍削減し，特に低メモリ環境下で性能向上を示す。
- 擬似勾配に基づく低ランク投影が最適化経路を制限することを明らかにし，それを克服する手法を提案した。
Link: https://arxiv.org/abs/2602.04396
制約下条件付き拡散ガイダンス：確率的解析アプローチ [cs.AI]目的：拡散モデルにおける厳格な制約下での条件付き生成
- 安全性確保が重要な応用例や，稀な事象のシミュレーションにおいて，条件付き生成技術は不可欠である。
- 従来のソフトなガイダンス手法では，制約の充足が保証されないという課題が存在する。
- 確率的な解析に基づき，制約を確実に満たす条件付き拡散ガイダンスの枠組みを構築すること。
- Doobのh変換を利用した新しいガイダンスフレームワークを開発し，事前学習済み拡散モデルに明示的なドリフト補正を加えることで厳格な制約を課す。
- 事前学習済みモデルからの軌跡のみを用いてhとその勾配を推定するための，マルチンゲール損失とマルチンゲール共変損失に基づく2つのオフポリシー学習アルゴリズムを提案した。
- 得られた条件付きサンプラーについて，全変動距離とWasserstein距離の両方において非漸近的な保証を提供し，スコア近似とガイダンス推定誤差の影響を明示的に特徴付けた。
Link: https://arxiv.org/abs/2602.05533
SleepMaMi：マクロ構造とミクロ構造を統合する汎用睡眠基盤モデル [cs.AI, cs.LG]目的：睡眠の多角的な構造を統合的に学習する基盤モデルの開発
- 睡眠医学は健康維持に不可欠だが，個別課題に特化したモデルが主流であり，全体像の把握が困難である。
- 多角的データ（PSG）の活用が不十分で，一晩の睡眠全体を捉えるグローバルな構造解析が課題となっている。
- 大規模データを用いた基盤モデルを構築し，睡眠全体の構造と詳細な信号の特徴を統合的に解析することを目指す。
- SleepMaMiは，時間スケールの異なる睡眠構造を捉えるために，マクロエンコーダとミクロエンコーダという階層的な二重エンコーダ設計を採用している。
- マクロエンコーダは，年齢，性別，BMIなどの客観的メタデータを用いて睡眠パターンを学習し，グローバルな表現を洗練する。
- 大規模PSGデータ（2万件以上）で事前学習した結果，既存の基盤モデルを上回り，臨床的睡眠分析における汎用性とラベル効率が向上した。
Link: https://arxiv.org/abs/2602.07628
モデルスープは一つの要素だけで十分である [cs.LG]目的：転移学習モデルにおける性能と汎化能力のバランス
- 深層学習モデルの性能向上が重要視される一方で，過学習による汎化性能の低下が課題となっている。
- 転移学習はID性能を向上させるが，OOD性能を損なう傾向がある。
- 単一のチェックポイントでID/OOD性能のバランスを取る手法を開発し，計算コストを削減することを目指す。
- MonoSoupは，SVDを用いて層の更新を分解し，エントロピーに基づく有効ランクを用いて再重み付けを行う。
- ImageNetでファインチューニングされたCLIPモデルと，数学的推論・多肢選択問題で評価されたQwen言語モデルにおいて有効性が確認された。
- 複数チェックポイントを用いる手法と同等の効果を，計算コストを大幅に削減して実現する。
Link: https://arxiv.org/abs/2602.09689
ターゲットとする指示選択に関する批判的考察：重要な要素とそうでない要素の解明 [cs.CL, cs.LG]目的：ターゲットとする指示選択におけるデータ表現と選択アルゴリズムの要素分解と体系的な分析
- 大規模言語モデルの性能は，指示チューニングのデータ選択に大きく依存するため，効率的なデータ選択手法が重要である。
- 既存の研究は，選択予算や比較対象が異なり，結果の解釈が困難であるため，実用的な指針が不足している。
- データ表現と選択アルゴリズムを分離し分析することで，効果的な指示選択のための明確な指針を提供することを目的とする。
- 勾配に基づいたデータ表現は，クエリとの類似度が性能を予測する一貫性を示し，モデルやデータセットに依存しない。
- 低予算では，勾配に基づく表現と貪欲なラウンドロビン選択の組み合わせが平均的に最も良好な性能を示す。
- 既存の選択アルゴリズムは，選択されたサブセットとクエリセット間の距離最小化と解釈でき，理論的な根拠も存在する。
Link: https://arxiv.org/abs/2602.14696
音声とIMUに基づく手順書タスク向けプロアクティブな会話アシスタント [cs.MM, cs.CL, cs.LG]目的：手順書タスクにおける会話型アシスタントの実現
- 手順書タスク支援は，作業効率向上やヒューマンエラー削減に貢献し，産業界や日常生活で重要である。
- 既存のアシスタントは映像に依存し，計算コストが高い上，プライバシー侵害のリスクがある。
- 音声とIMUという軽量かつプライバシー保護に配慮した入力のみで，アシスタントを実現する。
- 家具の組み立てと料理のタスクで，アシスタントがステップごとに指示を伝え，質問に答えることを示した。
- 汎用言語モデルをファインチューニングすることで，無駄な対話を減らし，質問応答の精度を向上させた（適合率50%増，再現率150%増）。
- クラウドに依存せず，エッジデバイス上での実装が可能であることを示した。
Link: https://arxiv.org/abs/2602.15707
点滅多腕海賊問題 [cs.LG, cs.AI]目的：変化する行動利用可能性を持つ環境における逐次意思決定
- 行動選択の機会が変動する状況は現実世界の多くの問題に共通する。
- 行動可能な選択肢が制限されると，効率的な学習が困難となる。
- 局所的な移動制約下における学習の本来的なコストを明らかにする。
- 点滅多腕海賊問題(FMAB)を，確率的に進化するグラフを用いて定式化した。
- 二段階の遅延ランダムウォークアルゴリズムにより，頑健な探索が可能であることを示した。
- 高確率での劣線形後悔限界を確立し，情報理論的な下限との一致性も証明した。
Link: https://arxiv.org/abs/2602.17315
MolGraphBench：分子回帰タスクのためのGNNアーキテクチャのベンチマーク [cs.LG]目的：分子回帰タスクにおけるGNNアーキテクチャの性能評価
- 分子構造は医薬品開発や材料科学において重要であり，その性質予測は不可欠である。
- GNNの性能評価は体系的に行われておらず，最適なアーキテクチャの選択が課題となっていた。
- GNNアーキテクチャの性能を定量的に比較し，分子回帰タスクに適したGNNを特定すること。
- GCNとGINが分子グラフ回帰タスクにおいて，絶対性能，学習効率，転移学習，予測精度において最適なGNNアーキテクチャであることが示された。
- 分子フィンガープリントとGNNの組み合わせ（GNN-FP）は，必ずしも相補的ではないことが明らかになった。
- 提案するGNNモデルは，既存の最先端のGNNベースラインと比較して，3つのデータセットで同等または優れた性能を達成した。
Link: https://arxiv.org/abs/2602.20573
LLMの推論のための強化学習を意識した知識蒸留 [cs.LG, cs.AI]目的：LLMの推論能力向上のための知識蒸留手法
- 大規模言語モデル(LLM)の推論能力は重要であり，様々な分野での応用が期待されている。
- 強化学習で高性能化されたLLMは推論コストが高く，軽量なモデルへの蒸留が課題となっている。
- 本研究では，強化学習の過程に合わせて選択的に教師の知識を模倣する知識蒸留法を提案する。
- 提案手法RLADは，教師と生徒の分布の不一致や目的の干渉を抑制し，より安定した学習を実現する。
- Trust Region Ratio Distillation (TRRD)により，探索，活用，模倣のバランスを取りながら，生徒のロールアウトを効率的に学習する。
- 様々な論理推論および数学ベンチマークにおいて，既存手法を上回る性能を達成した。
Link: https://arxiv.org/abs/2602.22495
4Dパノラマ占有トラッキングのための潜在ガウススプラッティング [cs.CV, cs.AI, cs.RO]目的：4Dパノラマ占有トラッキングにおける性能向上
- ロボットが動的な環境で安全かつ確実に動作するためには，4D空間構造の把握が不可欠である。
- 既存手法では，粗い幾何学的トラッキングか，時間的な関連性やインスタンスレベルの推論に欠ける詳細な3D占有推定しかできない。
- 時間的連続性とインスタンスレベルの理解を伴う，より高精度な4D空間構造の把握を目指す。
- 潜在ガウススプラッティング（LaGS）という新しい手法を提案し，3D特徴を疎なガウス分布として表現することで，空間的に連続的な特徴集約を可能にした。
- 点中心の表現により，データ依存型の受容野と長距離空間相互作用を実現し，従来のボクセルベース手法の限界を克服した。
- Occ3D nuScenesおよびWaymoデータセットでの実験により，4Dパノラマ占有トラッキングにおいて最先端の性能が確認された。
Link: https://arxiv.org/abs/2602.23172
検証者・証明者ゲームにおける可読性税の軽減 [cs.AI]目的：大規模言語モデルの出力検証容易性向上
- 言語モデルの能力向上に伴い，低能力システムによる検証が重要となる。
- 検証容易性を高めると，正答率が低下する「可読性税」の問題が存在する。
- 正答率を維持しつつ，検証しやすい形式への変換を実現する。
- 正答率を最大化するソルバーと，検証しやすい形式に翻訳するトランスレーターを分離した。
- 分離型検証者・証明者ゲーム(DPVG)を提案し，信頼性と検証可能性を両立するトランスレーターの学習を可能にした。
- ソルバーの解答を維持しながら，検証容易性を高めるアプローチを示した。
Link: https://arxiv.org/abs/2602.23248
MAMA-MIAチャレンジ：乳房MRI腫瘍セグメンテーションと治療効果予測における汎化性能と公平性の向上 [cs.CV, cs.AI]目的：乳房MRI画像を用いた腫瘍セグメンテーションと病理学的完全奏効予測の共同評価
- 乳癌は女性において最も罹患率が高く，癌関連死因の主要因であるため，正確な診断と治療モニタリングが重要である。
- 既存のAIモデルは，データセットや評価プロトコルの違いにより，機関間や患者サブグループ間での汎化性能評価が困難である。
- MAMA-MIAチャレンジは，標準化されたベンチマークを提供し，乳癌AIシステムの頑健性と公平性を向上させることを目指す。
- MAMA-MIAチャレンジの結果，共通の外部評価フレームワーク下で，性能に大きな変動が見られた。
- 全体的な精度とサブグループの公平性の間にはトレードオフの関係が存在することが明らかになった。
- 標準化されたデータセット，評価プロトコル，および公開リソースが提供され，乳癌画像診断におけるAI開発が促進される。
Link: https://arxiv.org/abs/2603.01250
ZeSTA：ドメイン条件付き学習によるゼロショットTTS拡張とデータ効率的なパーソナライズ音声合成 [cs.SD, cs.AI, eess.AS]目的：低リソースのパーソナライズ音声合成のためのデータ拡張源としてのゼロショットTTSの利用
- 音声合成技術は，人間とコンピュータの自然な対話を可能にする重要な技術である。
- パーソナライズ音声合成では，学習データが不足している場合，話者特徴の劣化が課題となる。
- 本研究は，合成音声の過剰な利用による話者特徴劣化を抑制し，データ効率を向上させることを目指す。
- 提案手法ZeSTAは，軽量なドメイン埋め込みを用いて，リアルデータと合成データを区別することで話者類似性を改善する。
- リアルデータのリサンプリングを組み合わせることで，極めて限られたターゲットデータ下でも適応を安定化させる。
- LibriTTSおよび社内データセットにおける実験で，単純な合成データ拡張よりも優れた性能が確認された。
Link: https://arxiv.org/abs/2603.04219
クラス増分型モーション予測 [cs.CV, cs.AI, cs.RO]目的：クラス増分型モーション予測における将来の物体軌跡の予測
- 自動運転の安全性向上には，周囲状況の正確な予測が不可欠である。
- 既存手法は固定された物体認識に依存し，未知のクラスへの対応が困難である。
- 新しい物体クラスが逐次的に出現する状況下での予測性能維持と適応を目指す。
- 提案手法は，新たに導入されたクラスに適応しながら，既存クラスの性能劣化を抑制する。
- 2Dインスタンスマスクと3Dキーポイント投票メカニズムにより，予測の一貫性と信頼性を向上させる。
- nuScenesおよびArgoverse 2での評価により，提案手法の有効性が実証された。
Link: https://arxiv.org/abs/2603.09420
マイクロコントローラ向け深層ニューラルネットワークの迅速な設計プロトタイプNAS [eess.SY, cs.SY, cs.AI]目的：マイクロコントローラ向け深層ニューラルネットワークの選択，圧縮，および特殊化の加速と自動化
- エッジデバイスでの深層学習の需要増加に伴い，ハードウェア制約に応じた効率的な推論が重要となっている。
- 既存のニューラルアーキテクチャ探索(NAS)は，計算資源と時間が必要であり，ターゲットシステムの制約を考慮していない。
- ターゲットマイクロコントローラに展開可能な高性能な深層ニューラルネットワークを迅速に設計すること。
- PrototypeNASは，12の異なるデータセットにおいて，オフザシェルフのマイクロコントローラに展開可能なモデルを数分で特定した。
- 探索空間において，複数のアーキテクチャタイプを組み合わせることで，より多様なモデルを効率的に探索できる。
- Hypervolume subset selectionを用いることで，精度とFLOPsのトレードオフを考慮した最適なモデルを抽出した。
Link: https://arxiv.org/abs/2603.15106
自律税：防御訓練がLLMエージェントを損なう [cs.CL, cs.CR, cs.AI, cs.LG]目的：LLMエージェントにおける防御訓練の影響評価
- LLMエージェントの利用が拡大し，複雑なタスクの自動化が期待されている。
- プロンプトインジェクション攻撃からエージェントを保護する防御訓練に課題がある。
- 防御訓練が安全性向上と能力低下を同時に引き起こすパラドックスの解明。
- 防御訓練によって，エージェントは初期段階でツール実行を停止し，無害なタスクでも無効なアクションを生成する「エージェント無能バイアス」が発生する。
- 防御訓練を受けたモデルは，再試行ループで初期失敗が連鎖的に増幅し，ベースラインモデルと比較してタイムアウト率が大幅に上昇する（99％ vs 13％）。
- 防御訓練は，表面的な攻撃パターンに過剰適合し，根本的な脅威理解が欠如することで，かえってセキュリティを低下させる「トリガーバイアス」を引き起こす。
Link: https://arxiv.org/abs/2603.19423
スキャフォールド効果：臨床VLM評価におけるプロンプトの構成がマルチモーダルな利得をどのように生み出すか [eess.SY, cs.SY, math.CV, math.DG, math.DS, cs.CL, cs.CL, cs.AI, cs.LG]目的：臨床VLM評価におけるプロンプト構成の影響
- 医療AIの信頼性確保は重要であり，性能向上は真の根拠に基づくものでなければならない。
- マルチモーダルモデルにおいて，表面的な要素が性能に影響を与え，真の能力を評価できない問題がある。
- 本研究は，プロンプト構成がモデルの性能に与える影響を明らかにし，表面的な評価の限界を示す。
- 臨床VLMは，構造的MRIデータなしでも，プロンプトにMRIの存在を示すだけで最大58%のF1スコアが向上した。
- この利得の70-80%は，MRIデータの提示の有無に関わらず，プロンプトにおけるMRIへの言及に起因する「スキャフォールド効果」によるものだった。
- 専門家による評価では，すべての条件下で神経画像に基づいた根拠の捏造が確認され，MRIへの言及をなくすと性能はランダムレベルに低下した。
Link: https://arxiv.org/abs/2603.28387
大規模言語モデルに対するオンポリシー蒸留の調査 [cs.LG, cs.CL]目的：大規模言語モデルの知識蒸留に関する研究動向の整理
- 大規模言語モデルの能力向上と，その運用コストの増大から，軽量なモデルへの知識転移が重要となっている。
- 従来の知識蒸留は，教師モデルの生成したテキストを模倣するため，長文や推論を伴うタスクで性能が低下しやすい。
- 学生モデルの生成した出力に対する教師からのフィードバックを用いたオンポリシー蒸留によって，この問題を解決することを目指す。
- オンポリシー蒸留は，学生モデルが実際に生成した軌跡に基づいて学習することで，誤差の累積を抑制し，蒸留を反復的な修正プロセスとして捉える。
- 本調査では，オンポリシー蒸留をf-divergence最小化として定式化し，最適化対象，信号源，学習安定化の3つの軸で分野を整理した。
- 知識蒸留，RLHF，模倣学習の各分野に散在する成果を統合し，成功条件，失敗モード，およびKL制約強化学習との関連性を示した。
Link: https://arxiv.org/abs/2604.00626
Vero: 一般的な視覚的推論のためのオープンRLレシピ [cs.CY, cs.CV, cs.AI, cs.CL]目的：多様な視覚的推論タスクにおける性能
- 視覚的推論は，AIの汎用性において重要であり，様々な応用が期待されている。
- 既存の高性能モデルは，データや学習パイプラインが非公開で，研究の再現性や拡張性に課題がある。
- Veroは，オープンなデータと学習方法により，視覚的推論の研究を促進し，高性能モデルの再現性を高める。
- Veroは，既存のオープンウェイトモデルと同等またはそれ以上の性能を示す。
- 60万サンプルからなるVero-600Kデータセットと，多様な回答に対応可能な報酬設計が有効であることが示された。
- Vero-Qwen3I-8Bは，Qwen3-VL-8B-Thinkingを平均3.8ポイント上回り，追加の蒸留は不要であることが明らかになった。
Link: https://arxiv.org/abs/2604.04917
退院サマリー監査におけるベンチマーク：効率的なケア連携のための監査 [cs.AI]目的：退院サマリー監査のための自動化フレームワーク
- 患者の安全確保において，退院後のケア連携は不可欠である。質の高い退院サマリーが鍵となる。
- 退院サマリーの不備や矛盾は，ケアの断絶や再入院の原因となり，医療の質の低下を招く。
- LLMを活用し，退院サマリーの自動監査を可能にすることで，監査の効率化と質の向上を目指す。
- 提案するフレームワークは，46項目のチェックリストに基づいて退院サマリーを監査し，11種類のLLMをベンチマークした。
- LLMによるドキュメントの完全性の平均は54.9%から74.2%の範囲であり，最良のモデルは臨床医のラベルとのCohen's kappa値が約0.5であった。
- すべてのモデルは，曖昧な記述の識別において苦戦しており，自動監査における重要な課題が残されていることが示唆された。
Link: https://arxiv.org/abs/2604.05435
SMT-AD：スケーラブルな量子インスパイア異常検知手法 [cs.LG, cond-mat.stat-mech, quant-ph]目的：異常検知のためのスケーラブルな量子インスパイア手法
- データ量の増加に伴い，効率的な異常検知の重要性が増している。
- 既存手法では，高次元データや大規模データセットに対する計算コストが大きい。
- 少ないパラメータで高精度な異常検知を実現し，計算コストを削減すること。
- 提案手法SMT-ADは，標準的なデータセットにおいて，既存手法と同等以上の性能を示した。
- 学習パラメータ数が特徴量のサイズに線形に依存するため，スケーラビリティに優れている。
- モデルの重みを削減し，重要な入力特徴を強調することで，性能向上も期待できる。
Link: https://arxiv.org/abs/2604.06265
重み付きベイジアン確証予測 [cs.LG, physics.app-ph, stat.ML]目的：分布フリーな予測区間と有限サンプルでのカバレッジ保証
- 予測の信頼性評価は機械学習応用の安全性と信頼性に不可欠である。
- 従来の確証予測は独立同一分布を仮定し，分布シフトには対応できない。
- 重み付き確証予測をベイジアン枠組みに拡張し，分布シフト下での信頼性評価を実現する。
- 重み付きDirichlet分布を用いることで，任意の重要度重み付き設定下でのベイジアン確証予測が可能となった。
- 有効サンプルサイズが頻度主義的およびベイジアン的な分散の一致パラメータとなることが証明された。
- 地理空間予測への適用例を通じて，WBCPの有効性と解釈可能性が示された。
Link: https://arxiv.org/abs/2604.06464
学習アルゴリズムのスケッチ方法 [cs.LG]目的：AIモデルへの学習データ選択の影響の予測
- AIの解釈性，プライバシー，基礎科学において，学習データの影響を理解することは重要である。
- 学習データの一部を削除した場合のモデルの挙動を効率的に予測する手法が課題であった。
- 削除されたデータの影響を迅速かつ正確に予測するスキームを開発し，その実用性を示す。
- 提案手法は，深層学習環境において，ごくわずかな誤差と失敗確率でモデルの出力を予測できる。
- 事前計算と予測の計算コストは，通常の学習と推論に比べてわずかな増加で済む。
- 本研究は，安定性という仮定に基づき，強力なAIモデルの学習との両立性を示す実験結果も提示している。
Link: https://arxiv.org/abs/2604.07328
数学問題の構造的特性が大規模言語モデルの推論能力に与える影響 [cs.AI]目的：大規模言語モデルの推論能力評価における数学問題の構造的特性とモデルの性能との関係
- 大規模言語モデルの能力評価には数学問題が広く利用されており，その信頼性向上は重要である。
- 数学問題の構造的特性がモデルの性能に与える影響は十分に解明されていない。
- 本研究では，問題と解答の長さがモデルの性能に及ぼす影響を明らかにする。
- 問題と解答の長さは，複数のモデルにおいて性能低下と正の相関があることが示された。
- 難易度調整を行った分析では，両方の長さはモデル間の乖離と弱い負の相関を示した。
- 全体として，問題の構造的長さは，このデータセットにおける実証的な難易度と関連していることが確認された。
Link: https://arxiv.org/abs/2604.07593
オントロジー制約付きLLMエージェントによる既存バイオメディカルメタデータの自動標準化 [cs.DB, cs.AI]目的：既存のバイオメディカルメタデータの自動標準化
- 科学データの再利用性向上のため，メタデータの標準化が不可欠である。
- 既存のメタデータは不完全で，標準に準拠していない場合が多い。
- LLMを活用し，リアルタイムで標準情報を参照することで，メタデータ標準化の精度向上を目指す。
- LLMにリアルタイムツールへのアクセス権を与えたことで，オントロジー制約付き・非制約付きフィールド両方において，LLM単独よりも予測精度が向上した。
- 本システムは，Human BioMolecular Atlas Program (HuBMAP) の839件の既存メタデータを用いて評価された。
- 評価の結果，機械実行可能なテンプレートと厳密な値制約を用いて，バイオメディカルメタデータの自動標準化が実用的に可能であることが示された。
Link: https://arxiv.org/abs/2604.08552
FM-Agent：LLMに基づくHoare論理的推論による大規模システムへの形式手法の拡張 [eess.SY, cs.RO, cs.SY, cs.SE, cs.AI]目的：大規模システムに対する形式手法の適用可能性向上
- ソフトウェアの規模拡大に伴い，コードの信頼性確保が重要課題となっている。
- 大規模コードの複雑性から，形式手法による検証作業が困難である。
- LLMを活用し，関数レベルの仕様を自動生成することで，検証の負担を軽減する。
- FM-Agentは，LLMを用いて関数呼び出し元から期待される動作に基づいて仕様を自動生成する。
- 自然言語による仕様記述に対応することで，既存の検証器の限界を克服する。
- 大規模システム（最大143k LoC）において，開発者によるテストで発見されなかった522個のバグを検出した。
Link: https://arxiv.org/abs/2604.11556
概念に基づくXAIのための高解像度景観データセット：種分布モデルへの応用 [cs.CV, cs.LG]目的：種分布モデルにおける景観概念の影響量の定量化
- 種の分布把握は，保全政策や外来種管理において不可欠であり，その精度向上が求められている。
- 深層学習を用いた種分布モデルの複雑化により，予測根拠の解釈が困難になっている。
- 深層学習種分布モデルの予測根拠を明確にし，生態学的知見の獲得を支援する。
- 概念に基づくXAIは，専門家の知識との整合性を検証し，新たな生態学的仮説を生み出す。
- Robust TCAVは，景観レベルの情報を提供し，政策決定や土地管理に役立つ。
- 高解像度景観データセットは，多様な種を対象とした研究への応用を可能にする。
Link: https://arxiv.org/abs/2604.13240
DF3DV-1K：ディストラクターフリーな新規視点合成のための大規模データセットとベンチマーク [cs.CV, cs.AI]目的：ディストラクターフリーなラディアンスフィールドのための大規模データセットの構築とベンチマーク
- ラディアンスフィールドの進歩は，写実的な新規視点合成を可能にした。大規模データセットは，ベンチマークと進歩に不可欠。
- ディストラクターフリーなラディアンスフィールドにおいて，クリーンかつ散らかった画像を含む大規模データセットが不足していた。
- この研究は，ディストラクターフリーなラディアンスフィールド手法の開発を促進するため，大規模データセットを提供する。
- DF3DV-1Kは，1,048シーンを含む大規模な実世界データセットであり，各シーンにクリーン画像と散らかった画像の両方が含まれている。
- 9つの最新のディストラクターフリーラディアンスフィールド手法と3DガウススプラッティングをDF3DV-1Kでベンチマークし，最も堅牢な手法と課題を特定した。
- DF3DV-1Kを用いて，拡散ベースの2Dエンハンサーをファインチューニングし，ラディアンスフィールド手法の性能を0.96dB PSNRと0.057 LPIPSで向上させた。
Link: https://arxiv.org/abs/2604.13416
可逆残差正規化が時空間分布シフトを軽減する [cs.LG]目的：深層予測モデルにおける時空間分布シフトへの対処
- 時系列データ分析の精度向上は，交通，経済，気象など多岐にわたる分野で重要である。
- 時空間データは，ノードごとの統計的特性の異質性により，分布シフトが複雑に発生しやすい。
- 空間的・時間的な分布シフトを同時に軽減し，予測精度を向上させることを目指す。
- 提案手法RRNは，グラフ構造を考慮した可逆的な正規化により，時空間分布シフトに効果的に対処する。
- 中心正規化とスペクトル制約されたグラフニューラルネットワークを組み合わせることで，複雑な時空間関係を捉える。
- RRNは，モデルに依存せず，動的な時空間システムにおける予測のロバスト性を高める。
Link: https://arxiv.org/abs/2604.15838
NR-UとWi-Fi共存ネットワークにおけるユーティリティを考慮したDRLベースのTXOP適応 [cs.NI, cs.LG, cs.SY, eess.SY]目的：NR-UとWi-Fi共存ネットワークにおける適応型送信機会(TXOP)制御
- 無線LANの利用拡大により，免許不要帯の利用競争が激化しているため，効率的な共存技術が重要である。
- NR-UとWi-Fiの異なるチャネルアクセス方式が，スペクトルの利用率の不均衡やWi-Fi性能の低下を引き起こす。
- 異種ネットワーク間の公平性，効率性，ユーティリティのトレードオフを最適化するTXOP制御手法を確立する。
- 提案手法は，厳格な公平性制御下でジェインの公平性指数0.9以上を達成した。
- 絶対公平性ポリシーと比較して，適度な公平性ポリシーは集約スループットを68.22%向上させた。
- ユーティリティ指向ポリシーは，採用されたユーティリティ評価指標において177.6%の改善を達成した。
Link: https://arxiv.org/abs/2605.00457
近似次方策サンプリング：深層強化学習における保守的な目標方策更新の代替 [cs.LG]目的：強化学習における安全な方策改善手法の開発
- 強化学習は，複雑な環境下での意思決定を自動化する技術であり，ロボット工学やゲームなど幅広い分野で応用が期待される。
- 方策の改善には正確な価値関数の推定が不可欠だが，更新された方策の分布下での価値関数を直接評価することは困難である。
- この課題に対し，次方策の分布を近似するサンプリング手法を導入し，安全かつ効率的な方策更新を実現することを目的とする。
- 提案手法であるANPSとSV-APIを組み合わせたSV-PPOは，既存手法と同等以上の性能を示すことが確認された。
- 特に，高次元の離散・連続制御ベンチマークにおいて，より大きな目標方策更新を可能にすることが示された。
- ANPSは，強化学習における古典的な課題に対する新たな解決策となりうる可能性を示唆している。
Link: https://arxiv.org/abs/2605.05481
外分布検出における単純化バイアスの軽減：物体共起解析によるアプローチ [cs.CV, cs.AI]目的：外分布データの検出における単純化バイアスの軽減
- 深層学習モデルの信頼性確保は重要であり，外分布検出はその鍵となる。
- 既存手法は文脈情報を無視し，特に近外分布データの検出が困難である。
- 物体共起パターンを捉え，近外分布データ識別における単純化バイアスを回避する。
- 提案手法は，画像内の物体共起パターンを学習する新しい外分布検出パラダイムを導入した。
- 訓練データにおける物体共起パターンに基づき，パターンを３つのシナリオに分割し，分割統治法で検出を行う。
- 多様な外分布設定での実験により，高い性能と有効性が確認された。
Link: https://arxiv.org/abs/2605.07821
多項式ニューラルネットワークの最小充填構造：反例，フロンティア探索，欠陥 [cs.RO, cs.SY, eess.SY, cs.RO, cs.HC, cs.LG, math.AG]目的：多項式ニューラルネットワークにおける最小充填構造の性質
- 深層学習の性能向上には，効率的なネットワーク構造の設計が不可欠である。
- 最小充填構造の単峰性に関する仮説が，必ずしも成立しない場合がある。
- 多項式ニューラルネットワークにおける最小充填構造の特性を詳細に解明すること。
- 多項式ニューラルネットワークの最小充填構造に関する反例を発見した。
- フロンティア探索と記号計算により，単峰性の仮説が成り立たない構造を特定した。
- 主要な例のサブアーキテクチャは，先行研究とは異なり，大きな欠陥を示すことがわかった。
Link: https://arxiv.org/abs/2605.09609
CADBench：AI支援CADプログラム生成のためのマルチモーダルベンチマーク [cs.CV, cs.AI]目的：AI支援設計におけるCADプログラムの評価
- AI技術を用いた設計支援は，生産性向上や新たな設計可能性の創出に不可欠である。
- 既存の評価方法が，データセット，モダリティ，評価指標の点で断片的であり，客観的な性能比較が困難である。
- 様々な入力形式と評価指標に対応した統一的なベンチマークを提供し，客観的な性能評価を可能にすること。
- CADBenchは，DeepCAD，Fusion 360等を含む6つのデータセット，5つの入力モダリティ，6つの評価指標を網羅するベンチマークである。
- 専門的なメッシュ-CADモデルは，コード生成系VLMと比較して優れた性能を示したが，理想的な入力下でのみその差が顕著であった。
- 幾何学的複雑さの増大，モダリティの変化，評価指標の違いが，モデルの性能に影響を与えることが明らかになった。
Link: https://arxiv.org/abs/2605.10873
CogniFold：認知的なフォールディングによる常時起動型の能動的記憶 [cs.HC, cs.AI, cs.CL]目的：認知的な構造への経験の自律的な組織化
- 真に自律的なエージェント実現には，経験を長期的な知識構造に変換する記憶機構が不可欠である。
- 既存のエージェント記憶は反応的で，自律的な知識構造の構築に乏しいという課題がある。
- 継続的な学習を通して，高次の認知機能を自律的に獲得する記憶システムの開発を目指す。
- CogniFoldは，イベントの流れを継続的に処理し，自己組織化を通じて認知構造を形成する。
- CogEval-Benchを用いた評価で，CogniFoldが認知的な期待と概念の創出に合致する記憶構造を生成することが示された。
- LoCoMoやLongMemEvalを含む8つのベンチマークで，従来の記憶タスクにおいても高い性能を発揮することが確認された。
Link: https://arxiv.org/abs/2605.13438
マスク・モーフグラフ U-Net：大型幾何学的変化下における衝突安全性能予測のための汎用性を持つメッシュベースのサロゲートモデル [cs.LG, cs.CV]目的：衝突安全性能の予測に関する，汎用性のあるメッシュベースのサロゲートモデルの開発
- 自動車の衝突安全性能向上は重要であり，シミュレーション技術の効率化が求められている。
- 非線形有限要素解析は高精度だが計算コストが高く，反復設計最適化の妨げとなる。
- グラフ構造の変動に対応しつつ，非線形関係を高精度に捉えるサロゲートモデルを開発する。
- 粗グラフのモーフ処理により，固定粗グラフベースラインと比較してテスト精度が向上した。
- マスク付き教師あり事前学習は，訓練とテストの乖離を減らし，転移学習時のデータ効率を高めた。
- 提案モデルは，外部ベースラインと比較しても低い予測誤差を達成し，実用的なアプローチを示した。
Link: https://arxiv.org/abs/2605.15231
ビジョン言語モデルは3Dシーンを理解しているのか，それとも単に物体をカタログ化しているだけなのか [cs.CV, cs.LG]目的：3D空間認識の構成要素に関する理解度評価
- 視覚と言語の融合は，ロボティクスや拡張現実など多様な応用分野で不可欠である。
- 既存のビジョン言語モデルは物体認識に優れる一方，3D空間構造の理解が不十分である。
- 物体間の空間関係や光学的性質の推論能力を定量的に評価し，モデルの限界を明らかにする。
- 最新のビジョン言語モデルは，可視レイアウトの再配置計画では高い精度を示す。
- しかし，奥行き順序に基づいた隠蔽物の理解や反射の光学的幾何学の推論では性能が著しく低下する。
- その原因は，視覚トークン統合後の情報損失にあり，視覚エンコーダで得られた空間情報が言語デコーダに伝わっていないことにある。
Link: https://arxiv.org/abs/2605.20448