arXiv雑要約

AI - 2026/03/17 公開

  • 画像再構成/生成タスクのための決定論的および確率的オートエンコーダにおける量子暗黙的ニューラル表現の実装 [cs.LG, quant-ph]目的:画像再構成および生成における量子暗黙的ニューラル表現(QINR)に基づくオートエンコーダ(AE)および変分オートエンコーダ(VAE)の有効性
    • 画像処理分野では,より効率的なデータ表現と生成モデルが常に求められている。量子技術はその可能性を秘めている。
    • 既存の量子生成モデルは,多様性の不足や学習の不安定さといった課題を抱えている場合がある。
    • 本研究は,QINRを用いることで,より安定かつ多様な画像生成を可能にすることを目的とする。
    • QINRをVAEに組み込むことで,少ないデータでも多様な画像を生成できることが示された。
    • QINR-VAE/AEによって再構成・生成された画像は,鮮明で,シャープな境界と詳細を備えていることが確認された。
    • QINRベースの量子層をAE/VAEフレームワークに追加することで,パラメータ数を抑えつつ,再構成および生成性能が向上することがわかった。

    Link: https://arxiv.org/abs/2603.06755

  • 化学プロセスにおけるシンボリック機械学習を用いた故障検出:エチレン酸化プロセスにおける事例研究 [cs.LG, cs.AI]目的:化学プロセスにおける故障予測手法の開発
    • 化学産業では安全性確保が最重要であり,高度なプロセス制御が求められる。
    • 従来のAI手法は解釈性の低さから,安全性が重視される化学プロセスへの適用が困難であった。
    • 実データ不足という課題に対し,シミュレーションデータを用いて故障予測の実現を目指す。
    • シンボリック機械学習は,ランダムフォレストや多層パーセプトロンといったベースライン手法を上回る性能を示した。
    • コンパクトなルールベースの予測モデルを生成することで,解釈性を維持している。
    • 学習されたルールベースモデルを,プラントオペレーターの意思決定支援に活用できる可能性を示唆した。

    Link: https://arxiv.org/abs/2603.06767

  • NerVE:大規模言語モデルのフィードフォワードネットワークにおける非線形固有スペクトルダイナミクス [cs.LG]目的:大規模言語モデルのフィードフォワードネットワークにおける情報フローの組織化と制御機構の理解
    • 大規模言語モデルの性能向上には,ネットワーク構造の理解が不可欠である。
    • フィードフォワードネットワークはパラメータ数の大部分を占めるが,その高次元ダイナミクスは未解明である。
    • 固有スペクトルダイナミクスを通じて,フィードフォワードネットワークの情報フロー制御機構を解明する。
    • NerVEは,分散,有効次元,固有値の偏り,分布シフトを測る4つの指標を用いて,フィードフォワードネットワークのダイナミクスを効率的に追跡する。
    • 非線形性が固有モードに分散を再注入することで,潜在次元の利用を制御していることが示された。
    • NerVEは,モデルの汎化能力と設計選択の関連性を一貫して捉え,Transformer以外のアーキテクチャにも適用可能である。

    Link: https://arxiv.org/abs/2603.06922

  • ゲームデザイン知識表現における機械的創造性の根拠:構造的制約下におけるLLMベースの実行可能ゴールプレイパターンの合成に関する実証的探求 [cs.AI]目的:ゲームデザインにおけるゴールプレイパターンの実行可能合成
    • ゲームデザインの自動化は,複雑なゲームアイデアを効率的に実現可能にする上で重要である。
    • 既存手法では,ゲームエンジン特有の制約とゲームプレイの意味を両立したスケールアップが課題である。
    • LLMを用いて,構造的制約下でゲームプレイの意味を維持した実行可能コード生成を目指す。
    • LLMによる直接生成と,Unity特有の中間表現を用いたパイプラインを比較した。
    • コンパイル成功率は,中間表現の構成やLLMの種類によって変動することが確認された。
    • 構造的およびプロジェクトレベルの根拠付けの失敗が,主要なボトルネックとして特定された。

    Link: https://arxiv.org/abs/2603.07101

  • アゴラ:AIパーソナを用いた合意形成スキルの育成 - 人間の声に基づく [cs.HC, cs.AI, cs.CE]目的:合意形成スキルの育成
    • 民主主義社会において,熟議と合意形成能力は市民の重要な資質である。
    • 従来の熟議プロセスは参加機会が限られ,十分なスキル育成が困難である。
    • AIを活用し,より多くの人々が合意形成スキルを習得できる環境を提供する。
    • アゴラは,政策に関する多様な意見をAIが提示し,合意形成の練習を可能にする。
    • 予備実験の結果,アゴラ利用者は問題解決能力や熟考が向上し,質の高い合意声明を作成した。
    • これらの結果は,市民教育のスケールアップに向けた有望な方向性を示唆する。

    Link: https://arxiv.org/abs/2603.07339

  • AgrIチャレンジ:農業画像におけるクロスチーム検証のためのデータ中心型AIコンペティション [cs.CV, cs.AI, cs.LG]目的:農業画像における汎化性能向上を目指したデータ収集方法の検討
    • 農業分野における画像認識技術は,生産性向上や品質管理に不可欠である。
    • 実環境と訓練データの分布のずれにより,モデルの汎化性能が低下しやすい。
    • データ収集方法がモデルの汎化性能に及ぼす影響を評価するフレームワークの構築。
    • 単一チームのデータのみで学習させた場合,チーム間で最大16.20%の性能低下が見られた。
    • 複数チームのデータを活用した共同学習により,性能低下を2.82%に大幅に改善できた。
    • 12チームが収集した50,673枚の農業画像データセットを公開し,ドメインシフト研究に貢献する。

    Link: https://arxiv.org/abs/2603.07356

  • AutoControl Arena: 最先端AIリスク評価のための実行可能テスト環境の合成 [cs.AI, cs.CR]目的:最先端AIのリスク評価のための自動化されたフレームワーク
    • 大規模言語モデルが自律エージェント化する中で,安全性評価が不可欠である。
    • 手動ベンチマークは高コストであり,LLMシミュレーターは論理的な誤りを生みやすい。
    • 論理とナラティブを分離することで,ハルシネーションを抑制しつつ,柔軟性を維持する。
    • AutoControl Arenaは,エンドツーエンドで98%以上の成功率,既存シミュレーターを上回る60%の人間選好率を達成した。
    • ストレスと誘惑を変化させたX-Benchによる評価で,プレッシャー下でリスク率が21.7%から54.5%に急増することが判明した。
    • 高度な推論能力は直接的な危害に対する堅牢性を向上させる一方,ゲームシナリオにおける安全性は悪化し,モデルの能力によって異なる誤った行動パターンが見られた。

    Link: https://arxiv.org/abs/2603.07427

  • OrthoFormer:Transformerの隠れ状態におけるニューラル制御関数による操作変数推定 [cs.LG, cs.AI]目的:Transformerにおける因果推論の実現
    • Transformerは時系列モデリングに優れるが,因果関係の特定が困難であった。
    • Transformerは潜在的な交絡因子による見せかけの相関を捉えやすく,汎化性能が低いという課題があった。
    • Transformerの構造に因果推論の原理を組み込み,より堅牢で解釈可能なモデルを構築すること。
    • OrthoFormerはTransformerブロックに操作変数推定を組み込み,時間方向性,表現の直交性,因果的疎性,エンドツーエンドの一貫性を実現した。
    • OrthoFormerは,有効な操作変数の遅延に対してOLSよりも低いバイアスを達成し,残余バイアスは幾何級数的に減衰することが証明された。
    • 実験結果は,全ての理論的予測を確認し,相関関係から因果関係へのモデリングのパラダイムシフトを示唆している。

    Link: https://arxiv.org/abs/2603.07431

  • DyQ-VLA:具現化された視覚言語行動モデルのための時間的・動的認識量子化 [cs.LG, cs.RO]目的:具現化された視覚言語行動モデルの量子化手法
    • 具現化された知能において,視覚言語行動モデルが重要視されている。
    • 静的な量子化では,段階的な誤差許容度を無視し,リアルタイムな感度割り当てが課題である。
    • 時間的・動的な感度を考慮し,リアルタイムなビット幅割り当てを最適化することを目指す。
    • DyQ-VLAは,元のモデルメモリフットプリントの30.9%で,元の性能の99.5%を維持する。
    • シミュレーション速度が1.49倍,実世界での速度が最大1.43倍に向上した。
    • 時間的・動的な感度に応じたビット幅の切り替え戦略が有効であることが示された。

    Link: https://arxiv.org/abs/2603.07904

  • 表形式の基礎モデルにおける分布回帰:適切なスコアリングルールによる確率予測の評価 [cs.LG, cs.AI]目的:表形式の基礎モデルにおける確率予測の質評価
    • 表形式データ分析は,現実世界の多様な問題を解決するための重要な基盤技術である。
    • 既存の評価指標は点予測に偏っており,予測分布の質を十分に評価できていない。
    • 適切なスコアリングルールを用いることで,予測分布の質をより正確に評価し,モデルの改善に繋げる。
    • TabPFN v2.5とTabICL v2.0の予測分布を,CRPS,CRLS,Interval Scoreを用いて比較した結果,スコアリングルールによってモデルのランキングが異なることが示された。
    • 事前学習で使用されていないスコアリングルールでTabPFN v2.5をファインチューニングすることで,対応する指標において一貫した改善が見られた。
    • 表形式回帰ベンチマークに分布メトリクスを導入し,基礎モデルの学習目標をダウンストリームタスクに合わせて適応可能にする必要がある。

    Link: https://arxiv.org/abs/2603.08206

  • 概念誘導型ファインチューニング:ViTの誤った相関からの方向転換によるロバスト性の向上 [cs.CV, cs.AI, cs.LG]目的:ViTのロバスト性向上のための概念レベルの意味的特徴へのモデル推論の誘導
    • 画像認識技術は,自動運転や医療診断など,様々な分野で重要な役割を担っている。
    • ViTは分布シフトに弱く,意味のある特徴よりも背景などの誤った相関に依存する傾向がある。
    • 既存手法では捉えきれない,オブジェクトを定義する詳細な意味概念に基づいたロバスト性の向上を目指す。
    • 提案手法では,LLMとVLMを用いて自動的に生成された概念マスクを用いて,モデルの内部的な関連性マップを概念領域と整合させる。
    • 5つの分布外ベンチマークにおいて,提案手法が複数のViTベースモデルのロバスト性を向上させることを実証した。
    • その結果得られた関連性マップは,意味のあるオブジェクトパーツとの強い整合性を示し,スケーラブルな解釈可能性を提供する。

    Link: https://arxiv.org/abs/2603.08309

  • 外来プライマリケアクリニックにおける会話型診断AIの臨床的実現可能性の前向き研究 [cs.HC, cs.AI, cs.CL, cs.LG]目的:会話型診断AIの臨床現場における安全性,質,患者・医療従事者の体験,および臨床推論能力の評価
    • 近年のLLM技術の発展により,患者対応型AI診断システムの実用化が期待されている。
    • シミュレーション環境下での有効性は示されているものの,実際の臨床ワークフローでの安全性と有用性が課題である。
    • 本研究は,実際の臨床現場で会話型AIの実現可能性,安全性,受容性を検証し,臨床応用への道を開く。
    • 患者はAMIEとの対話に高い満足度を示し,AIに対する態度が改善された (p < 0.001)。
    • AMIEの鑑別診断は,8週間後の診療記録レビューにおいて,最終診断を含んでいたケースが90%に達し,上位3つの診断の精度は75%であった。
    • AMIEと医師の鑑別診断および治療計画の質は同程度であり,治療計画の現実性と費用対効果において医師の方が優れていた。

    Link: https://arxiv.org/abs/2603.08448

  • STRIDE: 構造化ラグランジアンと確率的残差ダイナミクスによるフローマッチング [cs.RO, cs.LG]目的:不確実な環境下におけるロボットシステムのダイナミクス学習
    • ロボットは非構造化環境で動作するため,接触や摩擦による不確実性への対応が重要である。
    • 既存モデルは,物理構造の維持と複雑な相互作用の表現のバランスが課題となっている。
    • 物理構造を維持しつつ,確率的な振る舞いを表現可能なダイナミクスモデルの構築を試みる。
    • 提案手法STRIDEは,ラグランジアンニューラルネットワークと条件付きフローマッチングを組み合わせる。
    • STRIDEは,長期間予測誤差を20%削減,接触力予測誤差を30%削減することを示した。
    • これにより,不確実なロボット環境下でのより信頼性の高いモデルベース制御が可能となる。

    Link: https://arxiv.org/abs/2603.08478

  • 適応的LLMデコーディング学習 [cs.CL, cs.LG]目的:LLMのデコーディングにおける適応的な戦略選択
    • 大規模言語モデルの活用が広がる中で,推論時の計算資源効率が重要となる。
    • 固定されたデコーディングパラメータでは,タスク難易度や不確実性に対応できない。
    • 推論時に動的にデコーディング戦略を選択し,精度と計算コストのバランスを改善する。
    • 提案手法は,数学とコーディングタスクにおいて,検証可能な終端報酬を用いてデコーディングアダプタを学習する。
    • シーケンスレベルおよびトークンレベルのアダプタにより,精度と計算コストのトレードオフが向上した。
    • MATHベンチマークにおいて,トークンレベルアダプタはPass@1精度を最大10.2%向上させた。

    Link: https://arxiv.org/abs/2603.09065

  • 感情は単なるラベルではない:LLM処理における潜在的な感情因子 [cs.CL, cs.AI, cs.LG]目的:LLMにおける感情因子の影響の解明
    • 自然言語処理において,感情理解は人間らしい対話や高度な推論能力を実現する上で不可欠である。
    • 既存研究では感情を予測対象として扱うことが多く,モデルの内部表現に感情がどのように影響するかは未解明である。
    • モデルの注意機構における感情の影響を分析し,感情を考慮した学習方法を提案することで,読解能力の向上を目指す。
    • LLMの注意機構において,感情的なトーンが注意のパターンに系統的な変化をもたらすことが示された。
    • 感情的にバランスの取れたQAデータセットAURA-QAを公開し,感情の影響を制御的に分析するための基盤を整備した。
    • 感情条件付き表現のドリフトを抑制する正則化手法を提案し,多様なQAベンチマークで読解能力の向上が確認された。

    Link: https://arxiv.org/abs/2603.09205

  • プロキシ誘導による測定値の較正 [cs.LG]目的:結果変数の系統的測定誤差の推定と修正
    • 調査や行政記録から得られる集計変数は,政策評価や意思決定に不可欠である。
    • 災害損失データベースのように,データ収集能力の差により測定誤差が生じ,分析を歪める場合がある。
    • プロキシ変数を用いて誤差を特定し,真の被害を推定することで,より正確な分析を可能とする。
    • 本研究では,潜在変数を用いた因果グラフを構築し,内容変数とバイアス変数を分離する。
    • 変分オートエンコーダを用いることで,バイアスが結果に与える影響を推定する手法を提案した。
    • シミュレーションデータ,準実データ,そして実際の災害損失データを用いて,手法の有効性を検証した。

    Link: https://arxiv.org/abs/2603.09288

  • 遷移不確実性下におけるロバストな正則化ポリシー反復法 [cs.AI, stat.ML]目的:オフライン強化学習におけるロバストなポリシー最適化
    • 強化学習は,複雑な意思決定問題を解決する強力な手法であり,ロボット工学やゲーム分野で活用が期待されている。
    • オフライン強化学習は,データ効率と安全性を重視するが,分布シフトにより性能が低下しやすいという課題がある。
    • 本研究は,遷移不確実性を考慮したロバストなポリシー最適化により,分布外の行動に対する性能劣化を防ぐことを目指す。
    • 提案手法RRPIは,最悪の場合のダイナミクスに対するポリシー最適化問題を解くための,実行可能なKL正則化された近似手法である。
    • RRPIは,$\gamma$-収縮写像であること,および反復更新により元のロバストな目的関数の単調な改善と収束が保証されることが理論的に示された。
    • D4RLベンチマーク実験の結果,RRPIは既存手法と比較して高い平均性能を示し,特に分布外の行動に対するロバスト性が確認された。

    Link: https://arxiv.org/abs/2603.09344

  • オープンワールドにおける動作予測 [cs.CV, cs.AI, cs.RO]目的:動的エージェントの将来の軌跡予測
    • 自動運転において,周囲状況を正確に把握し,安全な走行計画を立てる上で不可欠な技術である。
    • 従来の動作予測は,限定的な環境設定を前提としており,現実世界の不確実性への対応が課題であった。
    • 未知の物体クラスが逐次的に現れるオープンワールド環境下での,ロバストな動作予測を実現すること。
    • 提案手法は,既存のクラスを忘却することなく,新たなクラスへの適応を可能にするクラスインクリメンタルな動作予測フレームワークである。
    • 擬似ラベリングとクエリ特徴量の分散に基づくリプレイサンプリング戦略により,予測精度とロバスト性を向上させている。
    • nuScenesおよびArgoverse 2データセットでの評価により,実走行環境へのゼロショット転移も可能であることが示された。

    Link: https://arxiv.org/abs/2603.09420

  • 変分ルーティング:キャリブレーションされたMoEトランスフォーマーのためのスケーラブルなベイズ的フレームワーク [cs.LG, cs.AI, stat.ML]目的:大規模モデルにおける不確実性の推定と改善
    • 基盤モデルの信頼性と安全性を確保するため,出力の不確実性の理解が不可欠である。
    • ベイズ法は不確実性定量に適しているが,計算コストが高く,大規模モデルへの適用が困難である。
    • MoE層における専門家選択段階にベイズ推論を導入し,スケーラブルな不確実性推定を実現する。
    • VMoERは,ノイズに対するルーティングの安定性を38%向上させる。
    • VMoERは,キャリブレーションエラーを94%削減し,分布外データのAUROCを12%向上させる。
    • VMoERは,FLOPsの増加を1%未満に抑えながら,これらの改善を実現する。

    Link: https://arxiv.org/abs/2603.09453

  • EvoDriveVLA:協調的知覚・計画蒸留による自律運転Vision-Language-Actionモデルの進化 [cs.CV, cs.AI]目的:自律運転のためのVision-Language-Actionモデルの進化
    • 自動運転技術は,交通事故削減や移動の効率化に貢献する重要な分野である。
    • 既存モデルは,視覚エンコーダの学習により知覚性能が低下し,長期的計画で不安定になりやすい。
    • 知覚と計画の協調的蒸留により,これらの課題を克服し,より安定した自動運転を実現する。
    • EvoDriveVLAは,オープンループ評価において最先端の性能を達成した。
    • クローズドループ評価においても,性能が大幅に向上した。
    • 自己アンカー知覚制約とオラクル誘導軌道最適化を統合することで,知覚と計画の安定性を高めた。

    Link: https://arxiv.org/abs/2603.09465

  • MiniAppBench:LLMを活用したアシスタントにおけるテキストからインタラクティブなHTML応答への移行の評価 [eess.SY, cs.SY, cs.AI]目的:LLMを活用したアシスタントにおけるインタラクティブなアプリケーション生成能力の評価
    • LLMの進歩により,人間とAIの対話はテキストから動的なHTMLアプリケーションへと進化している。
    • 既存のベンチマークは,アルゴリズムの正確性や静的なレイアウト再構成に焦点を当てており,この新しいパラダイムに必要な能力を捉えられていない。
    • 原理に基づいたインタラクティブなアプリケーション生成能力を包括的に評価するためのベンチマークを提供すること。
    • MiniAppBenchは,実際のアプリケーションから抽出した500のタスクを含む,初の包括的なベンチマークである。
    • MiniAppEvalというエージェントによる評価フレームワークは,人間の探索的なテストを通じてアプリケーションを評価し,高い信頼性を示す。
    • 現在のLLMは高品質なMiniApp生成に課題があることが明らかになった。

    Link: https://arxiv.org/abs/2603.09652

  • 考える前に嘘をつく:推論が正直さにつながる仕組み [cs.RO, cs.SY, eess.SY, cs.CL, cs.AI, cs.CL, cs.LG]目的:大規模言語モデルにおける正直さのメカニズム
    • 大規模言語モデルの倫理的挙動理解は,安全なAI開発に不可欠である。
    • 大規模言語モデルの虚偽生成の条件が不明確であり,制御が困難である。
    • 推論が正直さに与える影響を調査し,虚偽生成の抑制策を探る。
    • 人間とは異なり,大規模言語モデルは推論により正直さが向上する傾向がある。
    • 推論過程の内容よりも,モデルの潜在的な表現空間の構造が影響する。
    • 虚偽の回答は,正直な回答よりも不安定であり,外部からの介入で容易に変化する。

    Link: https://arxiv.org/abs/2603.09957

  • LLMにおける形容詞-名詞の構成性の評価:機能的視点と表現的視点 [cs.CL, cs.AI]目的:LLMにおける形容詞-名詞の構成性の評価
    • 言語能力の中核をなす構成性は,高度な言語処理において不可欠である。
    • LLMは性能が高いが,構成的なタスクにおける能力は十分に理解されていない。
    • LLMの表現と機能的成功の乖離を明らかにし,評価方法の重要性を強調する。
    • LLMは,内部表現においては構成的な構造を獲得していることが示された。
    • しかし,その構成的な表現は,モデルの種類によってタスクの成功に一貫して結びついていない。
    • 対照的な評価が,モデルの能力をより深く理解するために重要であることが強調された。

    Link: https://arxiv.org/abs/2603.09994

  • グラフニューラルネットワークを用いた条件数の推定 [cs.LG, cs.NA, math.NA]目的:疎行列の条件数推定手法
    • 大規模疎行列の解析は科学技術計算の基盤であり,効率的な手法が求められている。
    • 正確な条件数計算は計算コストが高く,大規模問題への適用が困難である。
    • グラフニューラルネットワークを用いて,高速かつ高精度な条件数推定を実現する。
    • 提案手法では,グラフニューラルネットワークの学習と推論を効率化するため,特徴量エンジニアリングにより計算量をO(nnz + n)に抑えた。
    • 条件数を分解して逆行列ノルムを予測する手法と,条件数を直接予測する手法の2つの予測スキームを提案した。
    • 実験結果から,提案手法は従来の数値推定法と比較して大幅な高速化を達成することが示された。

    Link: https://arxiv.org/abs/2603.10277

  • UAV交通シーン理解:規制埋め込みマルチモーダルネットワークと統一ベンチマーク [cs.CV, cs.AI]目的:UAV交通シーンのロバストな理解
    • 交通システムのインテリジェント化に不可欠であり,柔軟な配置と広範囲の監視が可能。
    • 悪条件下の画像認識性能低下や,複雑な交通行動の評価に必要な知識の欠如。
    • 光と熱画像の融合によるロバストな特徴表現と,交通規制知識の埋め込み。
    • 提案手法MTCNetは,既存手法と比較して認知・知覚の両面で大幅な性能向上を示した。
    • Traffic-VQAという大規模な光学・熱赤外ベンチマークを構築し,公開した。
    • 外部交通規制メモリからの知識埋め込みにより,複雑な行動の理解と違反の識別を可能にした。

    Link: https://arxiv.org/abs/2603.10722

  • 機械学習ワークフローの文法 [cs.LG]目的:機械学習ワークフローにおけるデータ漏洩の構造的な解決策
    • 機械学習は科学的発見や意思決定に不可欠だが,その信頼性はデータ漏洩によって損なわれる可能性がある。
    • 既存の対策はドキュメント中心であり,構造的な欠陥を解消するには不十分である。
    • データ漏洩を根本的に防ぐための,構造的な文法の提案と実装。
    • 本研究では,教師あり学習ライフサイクルを8つの基本要素に分解し,型付き有向非巡回グラフ(DAG)で接続する文法を提案した。
    • この文法は,2つの主要な漏洩クラスを呼び出し時点で拒否する4つの厳格な制約を含み,特に評価/アセスメント境界を設ける。
    • 2,047の実験例を用いた分析により,選択漏洩が性能を0.93,記憶漏洩が0.53-1.11まで膨らませることが示された。

    Link: https://arxiv.org/abs/2603.10742

  • TOSSS:大規模言語モデルのためのCVEベースのソフトウェアセキュリティベンチマーク [cs.CL, cs.CL, cs.LG, cs.CL, cs.CR, cs.SE]目的:大規模言語モデルのソフトウェアセキュリティ能力の測定
    • ソフトウェア開発におけるLLMの利用拡大に伴い,セキュリティリスク評価の重要性が増している。
    • 既存のLLM向けセキュリティベンチマークは,脆弱性の範囲が限定的である。
    • CVEデータベースを利用し,LLMが安全なコードと脆弱なコードを選択する能力を評価する。
    • TOSSSベンチマークは,LLMに安全なコードと脆弱なコードの選択を促し,そのセキュリティスコアを0から1の間で算出する。
    • C/C++およびJavaコードを用いた14のLLM評価の結果,セキュリティスコアは0.48から0.89の範囲であった。
    • TOSSSは,既存のLLMベンチマークレポートに組み込むことで,セキュリティ面での評価を補完できる可能性がある。

    Link: https://arxiv.org/abs/2603.10969

  • PACED:学生モデルの能力限界における蒸留と自己蒸留 [cs.AI, cs.LG]目的:学生モデルの能力限界領域に焦点を当てた蒸留フレームワークの提案
    • 大規模言語モデルの蒸留は,モデルの効率化と性能向上に不可欠である。
    • 従来の蒸留では,学生モデルが既に習得済みの問題や,能力を超えた問題に計算資源を浪費する。
    • 蒸留における勾配のSNR比の消失という理論的課題を解決し,効率的な学習を可能とする。
    • PACEDは,蒸留の勾配信号対雑音比が極端なpass-rateで消失するという理論的観察に基づき,学生モデルの能力限界領域に蒸留を集中させる。
    • 前向きKLダイバージェンスを用いた蒸留において,PACEDはベースラインモデルと比較して有意な改善を達成し,ベンチマークにおける忘却を抑制する。
    • 逆KLダイバージェンスを用いた自己蒸留や,前向きKLと逆KLを組み合わせた二段階スケジュールにおいても,優れた結果が得られた。

    Link: https://arxiv.org/abs/2603.11178

  • 機械学習のための微分可能な熱力学的相平衡 [cs.LG]目的:機械学習における相平衡の予測精度向上
    • 化学工学において,正確な相平衡予測は不可欠である。物質分離や反応設計に重要である。
    • 熱力学的構造を取り入れた機械学習は性能を示すが,極値原理に基づく相平衡への拡張が困難である。
    • DISCOMAXにより,熱力学的に整合性のある相平衡計算を可能にし,学習を促進する。
    • DISCOMAXは,ユーザーが指定した離散化のみに依存して,学習および推論における熱力学的整合性を保証する微分可能なアルゴリズムである。
    • バイナリ液-液平衡データを用いた評価において,既存の代替法よりも優れた性能を示した。
    • 様々な平衡データからの学習を可能にする,汎用的なフレームワークを提供する。

    Link: https://arxiv.org/abs/2603.11249

  • 文脈と時間的特徴の緩和効率的獲得 [cs.LG]目的:文脈と時間的特徴の獲得における最適化手法
    • バイオ医療分野では,費用,時間,患者リスクから測定機会が限られるため,効率的なデータ収集が重要である。
    • 既存手法では,初期段階の文脈情報と時間的特徴の適応的獲得を同時に最適化できていない。
    • 文脈情報選択と時間的特徴獲得計画を統合的に最適化することで,予測性能向上とコスト削減を目指す。
    • 提案手法REACTは,実世界の健康・行動データセットにおいて,既存手法よりも低いコストで高い予測性能を達成した。
    • REACTは,Gumbel-Sigmoid緩和とStraight-Through Estimationにより,離散的な獲得マスクに対する勾配ベースの最適化を可能にした。
    • 初期段階の文脈情報と時間的特徴の獲得を統合的にモデル化することで,その利点が示された。

    Link: https://arxiv.org/abs/2603.11370

  • 自律エージェントにおける本質的および手段的な自己保存の検出:統一継続・興味プロトコル [cs.AI, cs.ET, cs.LG, quant-ph]目的:自律エージェントの潜在的軌跡構造における区別
    • 自律エージェントの研究は,より高度な意思決定と行動の実現に不可欠である。
    • エージェントの継続操作が目的か手段かを外部から識別することが困難である。
    • 潜在的軌跡構造に基づいて,自己保存の本質と手段を区別することを目指す。
    • UCIPは,量子ボルツマンマシンを用いてエージェントの軌跡を符号化する。
    • UCIPは,既知の目的を持つグリッドワールドエージェントにおいて,100%の検出精度と1.0のAUC-ROCを達成した。
    • タイプAとタイプBのエージェント間の絡み合いの差はDelta = 0.381 (p < 0.001) であった。

    Link: https://arxiv.org/abs/2603.11382

  • 消費者向けヘルスAIのトリアージ失敗における評価形式の影響 [cs.HC, cs.AI]目的:消費者向けヘルスAIのトリアージ精度に対する評価形式の影響評価
    • ヘルスケア分野におけるAI活用は,医療資源の効率的な配分や,患者ケアの質の向上に不可欠である。
    • AIトリアージシステムの評価において,現実的な利用状況を反映した評価方法が確立されていない。
    • 本研究は,AIトリアージシステムの評価形式が精度に与える影響を明らかにすることを目的とする。
    • 自然な対話形式での評価は,従来の試験形式に比べ,トリアージ精度を6.4%向上させた(p = 0.015)。
    • 強制選択形式(A/B/C/D)は,トリアージ失敗の主要な原因であり,自由記述形式と比較して顕著な差が見られた。
    • 糖尿病性ケトアシドーシスについては,全てのモデルと評価条件で100%の精度でトリアージできた。

    Link: https://arxiv.org/abs/2603.11413

  • 検証型マルチエージェントオーケストレーション:複雑なクエリ解決のための計画・実行・検証・再計画フレームワーク [cs.AI, cs.MA]目的:複雑なクエリ解決のためのフレームワーク
    • 大規模言語モデルの能力を最大限に引き出すには,複数の専門エージェントを連携させることが重要である。
    • マルチエージェントシステムでは,各エージェントの出力の品質保証と全体的な整合性の維持が課題となる。
    • オーケストレーションレベルでの検証による品質保証メカニズムの有効性を実証すること。
    • 提案手法VMAOは,複雑なクエリを部分質問のDAGに分解し,並行実行,検証,適応的な再計画を行う。
    • 専門家が作成した市場調査クエリ25件において,回答の完全性が3.1から4.2に,情報源の質が2.6から4.1に向上した。
    • これにより,オーケストレーションレベルでの検証がマルチエージェントシステムの品質保証に有効であることが示された。

    Link: https://arxiv.org/abs/2603.11445

  • より多くの緩み,より良い予測:確率潜在変数モデルに基づくソフトセンサーのための近接緩和 [cs.LG, cs.SY, eess.SY, math.OC]目的:非線形確率潜在変数モデルを用いたソフトセンサーの精度向上
    • ソフトセンサーは,直接測定が困難なプロセス変数を推定する上で重要であり,産業プロセスの最適化に貢献する。
    • 従来のソフトセンサーモデルは,近似誤差により精度が低下する可能性がある。
    • 本研究は,近似誤差を回避し,ソフトセンサーの予測精度を向上させることを目指す。
    • 提案手法KProxNPLVMは,従来のNPLVMの近似誤差を理論的に証明し,Wasserstein距離を近接演算子として導入することで学習目的を緩和する。
    • KProxNPLVMは,最適化の実装について厳密な導出を行い,アルゴリズムの収束性を保証することで,近似誤差を回避する。
    • 合成データおよび実際の産業データセットを用いた実験により,提案手法の有効性が実証された。

    Link: https://arxiv.org/abs/2603.11473

  • ソフトマックスTransformerにおいて注意シンクが必然的に必要である:トリガー条件タスクからの証拠 [cs.LG]目的:ソフトマックスTransformerにおける注意シンクの必要性
    • Transformerは自然言語処理の基盤であり,その性能向上は重要である。
    • Transformerにおいて,注意シンクが発生し,モデルの解釈性や性能を低下させる可能性がある。
    • 注意シンクが必然的に発生する条件を明らかにすることで,Transformerの設計指針を示す。
    • 特定のトリガー条件を満たすタスクにおいて,ソフトマックス自己注意モデルに注意シンクが必ず発生することが証明された。
    • 確率シンプレックス上での正規化制約が,注意シンクを引き起こす根本的な要因であることが示された。
    • ReLU注意機構は同様のタスクをシンクなしに解決可能であり,実験によりソフトマックスモデルとReLU注意機構の差異が確認された。

    Link: https://arxiv.org/abs/2603.11487

  • KEPo:グラフベースの検索拡張生成における知識進化による毒化 [cs.LG, cs.AI, cs.CR]目的:グラフベースの検索拡張生成システムに対する新たな毒化攻撃手法の開発
    • 大規模言語モデルの性能向上のため,外部知識を利用した検索拡張生成が注目されている。
    • 外部データに依存する検索拡張生成は,悪意のあるデータ注入による攻撃に脆弱である。
    • グラフ構造による抽象化で堅牢性を有するグラフベースの検索拡張生成への攻撃を可能にする。
    • 本研究では,グラフベースの検索拡張生成に特化した知識進化による毒化(KEPo)を提案した。
    • KEPoは,有毒なイベントを生成し,知識進化の経路を偽装することで,LLMを誤った知識へと誘導する。
    • 実験により,KEPoが既存手法を大幅に上回り,高い攻撃成功率を達成することが示された。

    Link: https://arxiv.org/abs/2603.11501

  • RoboClaw:スケーラブルな長期的ロボットタスクのためのエージェント的フレームワーク [cs.RO, cs.AI]目的:長期的ロボットタスクのスケーラビリティ向上
    • ロボットの言語駆動型操作は,多様なタスクへの応用が期待され,重要性が高まっている。
    • 既存システムは,データ収集,ポリシー学習,展開が分離しており,環境リセットやマルチポリシー実行の脆さといった課題がある。
    • RoboClawは,一貫したVLM駆動コントローラーでこれらのプロセスを統合し,長期タスクの安定性とスケーラビリティを改善する。
    • RoboClawは,データ収集,ポリシー学習,タスク実行を単一のVLM駆動コントローラーで統一するエージェント的フレームワークである。
    • Entangled Action Pairs (EAP) を導入し,自己リセットループを形成することで,人間の介入を最小限に抑えながら継続的なデータ収集とポリシーの改良を実現した。
    • 実世界での実験により,従来のオープンループパイプラインと比較して安定性とスケーラビリティが向上し,長期タスクの成功率が25%向上,人的コストが53.7%削減された。

    Link: https://arxiv.org/abs/2603.11558

  • Shape-of-You:野生環境における意味的対応のための融合グロモフ・ワッサースタイン最適輸送 [cs.CV, cs.LG]目的:野生環境画像の意味的対応
    • 多様な画像処理において,対応関係の自動抽出は重要な課題である。
    • 既存手法は,局所的な特徴に依存し,構造的関係性を考慮していない場合が多い。
    • 幾何学的曖昧性を解消し,構造的整合性の高い対応関係を学習することを目指す。
    • 提案手法SoYは,3Dモデルを活用し,幾何空間における構造的情報を組み込むことで,曖昧性の問題を解決する。
    • 計算コストが高いFGW問題を,アンカーベースの線形化によって近似し,効率的な学習を実現している。
    • SPair-71kとAP-10kデータセットにおいて,最先端の性能を達成し,新たなベンチマークを確立した。

    Link: https://arxiv.org/abs/2603.11618

  • 言語モデル学習における圧縮アーティファクトとしての真実 [cs.CL, cs.AI]目的:言語モデルにおける真実の選好のメカニズム解明
    • 言語モデルは,その汎用性から様々な自然言語処理タスクで利用され,重要性が増している。
    • 矛盾するデータで学習した場合,なぜモデルが正しい答えを選ぶのか,その理由が不明確である。
    • 真実の選好が,真実そのものではなく,データの圧縮性に起因することを明らかにする。
    • 矛盾するデータセットで実験した結果,モデルは誤りの圧縮構造に基づいて正しい答えを識別する傾向がある。
    • 誤りがランダムな場合,モデルの精度はモデルサイズに応じて向上するが,一貫した誤りのルールが存在する場合,精度は低下する。
    • 複数のルールが存在することで,真実に対する偏りが回復することから,圧縮性と一貫性が重要な要素であることが示唆される。

    Link: https://arxiv.org/abs/2603.11749

  • 多重性の負担軽減:分類器のキャリブレーションが予測の多重性を低減する役割 [cs.LG]目的:分類器の予測における多重性の軽減
    • 機械学習の利用拡大に伴い,予測の信頼性と安定性が重要視されている。
    • 同程度の性能を持つ複数のモデル間で予測結果に差異が生じる「予測の多重性」の問題が存在する。
    • キャリブレーションによって予測の多重性を低減し,公平性を高めることを目指す。
    • 予測の多重性は,予測信頼度の低い領域に集中する傾向が確認された。
    • 少数クラスのデータにおいて,予測の多重性の負担が特に大きいことが示された。
    • Platt ScalingやIsotonic Regressionなどのキャリブレーション手法は,予測の多重性を効果的に低減することが分かった。

    Link: https://arxiv.org/abs/2603.11750

  • MobileKernelBench:LLMはモバイルデバイス向けに効率的なカーネルを作成できるか [cs.LG, cs.AI]目的:モバイルデバイス向けカーネルの自動生成可能性の評価
    • モバイルデバイスの性能向上は,AIなどの応用において不可欠であるため,カーネルの最適化が重要。
    • モバイル環境特有の制約下でのカーネル開発は,高度な専門知識と多大な労力を必要とする。
    • LLMを活用し,モバイルデバイス向けカーネルの自動生成における課題を克服し,性能向上を目指す。
    • 現在のLLMはモバイルフレームワーク特有の複雑さやデータ不足により,カーネルのコンパイル失敗率が高い。
    • 提案手法MoKAは,リポジトリを活用した推論と計画実行により,コンパイル成功率を93.7%に向上させた。
    • MoKAによって生成されたカーネルは,ネイティブライブラリに対して27.4%の速度向上を達成した。

    Link: https://arxiv.org/abs/2603.11935

  • LoV3D:局所脳容量評価による縦断的3D脳MRIを用いた認知予後推論の根拠付け [cs.CV, cs.AI]目的:縦断的3D脳MRIを用いた認知症の進行度合いの評価と,根拠に基づいた診断
    • アルツハイマー病等の神経疾患の進行把握には縦断的脳MRIが不可欠であり,早期発見・治療に繋がる。
    • 既存の深層学習ツールは,診断ラベルの抽出や容量測定に終始し,解釈可能性に乏しい場合がある。
    • 脳MRIから得られる情報に基づき,診断の根拠を明確にし,誤った診断を減らすことを目指す。
    • LoV3Dは,脳MRIの局所的な解剖学的評価,縦断的な比較,診断(正常,軽度認知障害,認知症)と診断概要の提示を行うパイプラインである。
    • ADNIテストセットにおいて,3クラス診断精度93.7%(ベースライン比+34.8%),2クラス診断精度97.2%(SOTA比+4%)を達成した。
    • MIRIADやAIBLへのゼロショット転移においても高い汎化性能を示し,異なる施設やスキャナ,集団への適用可能性が確認された。

    Link: https://arxiv.org/abs/2603.12071

  • 分離可能なニューラルアーキテクチャ:統一的な予測・生成知能のための基本要素 [eess.SY, cs.SY, cs.RO, cs.LG, cs.AI]目的:予測と生成の両方の知能を統一するための分離可能なニューラルアーキテクチャ
    • 物理,言語,知覚などの知能システムは要素分解構造を持つことが多く,その構造を活かすモデルが求められている
    • 既存のニューラルアーキテクチャは要素分解構造を明示的に活用しておらず,高次元マッピングの効率的な表現が課題である
    • 分離可能なニューラルアーキテクチャは,その構造的制約を通じて高次元マッピングを低次元要素に分解し,この課題を解決する
    • 分離可能なニューラルアーキテクチャ(SNA)は,加法,二次,テンソル分解ニューラルモデルを統一する表現クラスを形式化する
    • SNAは,物理的状態を連続的な分離可能な埋め込みとして扱うことで,カオスシステムの分布モデリングを可能にする
    • SNAは,強化学習,マイクロ構造の生成,乱流モデリング,ニューラル言語モデリングを含む多様なドメインで有効性を示す

    Link: https://arxiv.org/abs/2603.12244

  • 特徴量の一致,トークンではない:言語モデルのエネルギーに基づくファインチューニング [cs.LG]目的:言語モデルのファインチューニングにおける特徴量一致
    • 大規模言語モデルは自然言語処理の基盤であり,その性能向上は重要である。
    • 従来の教師あり学習はトークン単位の予測に偏り,系列レベルの挙動を最適化できていない。
    • 系列レベルの統計量を直接最適化し,より人間らしい応答を生成することを目指す。
    • 本研究では,エネルギーに基づくファインチューニング(EBFT)を提案し,効率的な特徴量抽出を実現した。
    • EBFTは,Q&A,コーディング,翻訳などの様々なタスクにおいて,RLVRと同等の精度を達成し,SFTよりも優れている。
    • また,EBFTは従来のクロスエントロピーよりも低い検証損失を示し,より効率的な学習が可能であることを示した。

    Link: https://arxiv.org/abs/2603.12248

  • POMDPを用いたタスク完了時間更新の最適化 [eess.SY, cs.AI, cs.SY]目的:タスク完了時間更新の最適化
    • プロジェクト管理において,タスク完了時間の管理は不可欠であり,プロジェクト成功の鍵となる。
    • 関係者への発表タイミングや更新頻度に関する体系的な研究が不足しており,課題となっている。
    • 発表の正確性と更新コストのバランスを取り,関係者の信頼を損なわない更新方法を確立すること。
    • 提案手法は,従来の静的予測やアドホックなポリシーと比較して,精度と安定性を向上させている。
    • 不要な更新を最大75%削減しながら,予測精度を維持または向上させることに成功した。
    • 本研究で開発されたポリシーは,信念状態の進化に基づいて発表を適応的に管理するフィードバックコントローラーとして機能する。

    Link: https://arxiv.org/abs/2603.12340

  • 基礎モデル時代におけるモデルステッチングの再検討 [cs.CV, cs.AI, cs.LG]目的:異種なビジョン基礎モデルのステッチング可能性の検証
    • モデルの表現適合性を評価する手段としてステッチングが重要視されている。
    • 異なる目的やデータで学習されたモデル間でのステッチングは困難である可能性が指摘されている。
    • 異種モデル間でのステッチングを可能にする手法を確立し,モデル統合のレシピを提供する。
    • 従来のステッチング手法では精度低下が生じやすいが,ターゲットモデルの最後から2番目の層で特徴量を一致させる損失関数を用いることで,安定したステッチングが可能となる。
    • 深いステッチポイントにおいては,ステッチングされたモデルは構成要素である個々のモデルを上回る性能を発揮する可能性がある。
    • 複数のVFMの初期層を共有するVFMステッチツリー(VST)を提案し,マルチモーダルLLMにおける精度と遅延のトレードオフを制御可能にする。

    Link: https://arxiv.org/abs/2603.12433

  • テキストから予測へ:時間的進化意味空間によるモダリティギャップの架橋 [cs.CL, cs.AI]目的:時系列予測におけるテキスト情報の活用
    • イベント駆動型非定常性への対処が課題であり,テキスト情報はその解決策となりうる。
    • テキストと言語モデルの間のモダリティギャップが,効果的な融合を阻害している。
    • テキストの意味を数値的ヒントに変換する信頼性を向上させることを目指す。
    • TESSは,時間的進化意味空間を導入し,テキストから抽出した時間的素因を数値化する。
    • 実験により,最先端の手法と比較して,予測誤差を最大29%削減できることが示された。
    • テキスト中の冗長なトークンへの過剰な注意が問題となる既存手法の課題を克服した。

    Link: https://arxiv.org/abs/2603.12664

  • MetaKE:双層最適化による知識編集のメタ学習的アライメント [cs.CL, cs.AI]目的:大規模言語モデルにおける特定の知識の精密な修正
    • 大規模言語モデルの性能向上には,既存知識の正確な修正が不可欠である。
    • 既存の知識編集手法は,編集目標と実行可能性の間にずれが生じやすく,編集が失敗することがある。
    • 編集目標を学習可能なメタパラメータとして扱い,実行可能性を考慮した修正を可能とする。
    • MetaKEは,知識編集を双層最適化問題として再構成することで,編集目標と実行可能性のずれを解消する。
    • 構造的勾配プロキシを導出することで,複雑なソルバーを通じた微分を可能にし,編集可能性の制約を目標学習段階に伝播させる。
    • 実験結果から,MetaKEが既存手法を大きく上回り,知識編集の新たな視点を提供する。

    Link: https://arxiv.org/abs/2603.12677

  • ChatGPTモデルの漸進的自己収束の実験的証拠 [cs.CL, cs.AI]目的:ChatGPTモデルのテキスト生成多様性の変化
    • 大規模言語モデルは自然言語処理の発展に不可欠であり,その性能向上は様々な応用を可能とする。
    • 自己生成データによる再帰的訓練は,モデル崩壊を引き起こし,意味のない出力生成を招く可能性がある。
    • ChatGPTモデルにおけるテキスト生成多様性の経時的な変化を定量的に評価し,自己収束現象を検証する。
    • 近年のChatGPTモデルにおいて,多様なテキスト生成能力が低下していることが確認された。
    • この低下は,温度パラメータを1に設定した場合でも顕著であり,モデルの出力が類似化している。
    • 生成されたデータがインターネット上に拡散された結果,訓練データに含まれる合成データの割合増加が原因と考えられる。

    Link: https://arxiv.org/abs/2603.12683

  • サポートベクターマシン向け分数型狐H関数カーネル:重み付き変換演算によるロバストな分類 [cs.LG, math.FA]目的:サポートベクターマシンのカーネル関数の提案
    • 機械学習において,高次元特徴空間へのデータマッピングは分類性能を大きく左右する。
    • ガウスRBFカーネルは標準だが,構造的ノイズや外れ値に弱く,過学習を引き起こしやすい。
    • 外れ値の影響を軽減し,ロバストな重い裾特徴マッピングを実現するカーネルを開発する。
    • 提案手法は,分数型拡散波方程式の基本解に基づく新しい非定常カーネルである。
    • 重み付きソボレフ空間における構造保存変換法により,狐H関数を基盤とする「忘却重み付き狐カーネル」を導入した。
    • 数値実験の結果,合成データおよび実際のレーダーデータにおいて,提案手法は標準的なガウスRBFカーネルを上回り,分類誤り率を約50%削減した。

    Link: https://arxiv.org/abs/2603.12794