arXiv雑要約

AI - 2026/03/09 公開

  • TaPD:自律走行における観測適応軌道予測のための時間適応型漸進的知識蒸留 [cs.CV, cs.AI, cs.RO]目的:観測長に依存しない軌道予測手法の開発
    • 自律走行においては,周囲の車両などの動きを予測することが安全な計画立案に不可欠である。
    • 既存の予測モデルは固定長の履歴を前提としており,観測長が短い場合に性能が著しく低下する。
    • TaPDは,様々な観測長に対してロバストな軌道予測を可能にし,特に短い観測長における性能向上を目指す。
    • TaPDは,過去の軌道を明示的に再構成するモジュールと,未来を予測するモジュールを組み合わせることで,観測長に依存しない予測を実現した。
    • 漸進的知識蒸留(PKD)を用いることで,長い履歴から得られた運動パターンを短い履歴に転移させ,少ない情報でも豊富な運動コンテキストを復元する。
    • Argoverse 1およびArgoverse 2での実験により,TaPDが様々な観測長において既存手法を上回り,特に短い観測長で顕著な改善が見られた。

    Link: https://arxiv.org/abs/2603.06231

  • DC-Merge:方向一貫性によるモデル結合の改善 [cs.CY, cs.LG, cs.CV]目的:モデル結合による知識保持の最適化
    • 複数のタスクに適応したモデルを統合し,各タスクの知識を維持することは重要である。
    • モデル結合時に,タスクベクトルのエネルギー分布の不均衡や幾何学的矛盾が生じやすい。
    • タスクベクトルの方向一貫性を維持することで,知識保持を向上させることを目指す。
    • DC-Mergeは,タスクベクトルの特異値を平滑化することでエネルギー分布を均衡化する。
    • 均衡化されたベクトルは,共有する直交部分空間へ投影され,方向の幾何学的整合性が保たれる。
    • DC-Mergeは,VisionおよびVision-Languageベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.06242

  • 勾配フローはソフトマックス出力を低エントロピー解へ偏極化する [cs.IR, cs.LG, math.OC, stat.ML]目的:ソフトマックスに基づくモデルの非凸な学習ダイナミクスの理解
    • Transformerの経験的成功を説明するには,学習ダイナミクスを理解することが重要である。
    • Transformerの学習ダイナミクスは複雑であり,そのメカニズムは十分に解明されていない。
    • ソフトマックスの勾配フローが,最適化を低エントロピー解へと導くメカニズムを解明する。
    • ソフトマックスと値行列の積がTransformerの自己注意機構の基本構成要素であることが示された。
    • 勾配フローは,ソフトマックス出力を低エントロピー化する方向に本質的に最適化を誘導することが明らかになった。
    • この偏極効果は,ロジスティック損失や二乗損失など,様々な目的関数で普遍的に観察された。

    Link: https://arxiv.org/abs/2603.06248

  • 強化学習のための合成モニタリング環境 [cs.LG, stat.ML]目的:強化学習エージェントの行動を正確に診断するためのベンチマーク環境
    • 強化学習は,複雑な問題解決に有効だが,アルゴリズムの性能評価が困難である。
    • 既存の環境は複雑な要素が混在し,最適解が不明確なため,失敗原因の特定が難しい。
    • 本研究は,原因特定が容易な,厳密に制御された環境を構築し,評価の透明性を高める。
    • 合成モニタリング環境(SME)は,タスク特性と最適解が完全に設定可能な連続制御タスクの無限の集合である。
    • PPO,TD3,SACを用いた実験により,行動空間や報酬の疎さなどが性能に与える影響を詳細に分析した。
    • SMEは,経験的なベンチマークから厳密な科学的分析への移行を可能にする,標準化された透明性の高いテストベッドを提供する。

    Link: https://arxiv.org/abs/2603.06252

  • GazeMoE:専門家混合による視線注視点の認識 [cs.HC, cs.CV, cs.AI]目的:視線注視点認識のための新たなフレームワーク
    • ロボットが人間の注意を理解する上で,視線注視点の推定は不可欠な技術である。
    • 汎用的なニューラルアーキテクチャや学習方法の開発が課題となっている。
    • 視線注視点に関連する様々な情報を効率的に活用し,認識精度向上を目指す。
    • 提案手法GazeMoEは,既存の視線推定タスクにおいて最先端の性能を達成した。
    • 凍結された基盤モデルから,専門家混合モジュールを通じて視線注視点に関連する情報を選択的に活用する。
    • クラス不均衡への対処やデータ拡張により,ロバスト性を高めている。

    Link: https://arxiv.org/abs/2603.06256

  • 時間窓と変動利益を持つオリエンテーリング問題の解法学習 [cs.LG, cs.AI]目的:時間窓と変動利益を持つオリエンテーリング問題の効率的な解法
    • 現実世界の様々な応用において,時間変数を含むオリエンテーリング問題は重要である。
    • 離散変数と連続変数を扱うオリエンテーリング問題の効率的な解法は確立されていない。
    • 離散変数と連続変数の協調を促す,効率的な解法を開発することを目的とする。
    • 提案手法DeCoSTは,既存の構築的ソルバーおよび最新のメタヒューリスティックアルゴリズムを凌駕する。
    • 解の質と計算効率において優れており,500ノード以下のインスタンスで最大6.6倍の推論速度向上を達成した。
    • 提案フレームワークは様々な構築的ソルバーと互換性があり,オリエンテーリング問題の解質を向上させる。

    Link: https://arxiv.org/abs/2603.06260

  • HiPP-Prune:視覚言語モデルの階層的嗜好性条件付き構造的枝刈り [cs.CV, cs.AI]目的:視覚言語モデルの効率的な展開のための枝刈り手法
    • 視覚言語モデルの利用拡大のためには,計算資源の効率化が不可欠である。
    • 従来の枝刈りは,タスク性能の低下に加え,幻覚の増幅を引き起こす場合がある。
    • 視覚的要素への注意を考慮し,性能と幻覚抑制のバランスを取る枝刈りを実現する。
    • HiPP-Pruneは,複数の目的を考慮した階層的かつ構造的な枝刈りフレームワークである。
    • ユーザーの嗜好性に基づいて,タスク性能,幻覚抑制,圧縮率,安定性を調整可能な枝刈り計画を生成する。
    • LLaVAを用いた実験により,多様な非支配的枝刈り計画と,制御可能な性能・頑健性トレードオフが確認された。

    Link: https://arxiv.org/abs/2603.06270

  • エージェントによる検索拡張推論が,放射線画像診断における質疑応答のモデル変動下での信頼性を変える [cs.LG, cs.AI]目的:放射線画像診断における大規模言語モデルの信頼性向上
    • 医療現場での意思決定支援において,言語モデルの活用が期待されている。
    • モデルの多様性下における信頼性の評価が十分ではない。
    • エージェントによる検索拡張推論が,モデル変動下での信頼性に与える影響を検証する。
    • エージェントによる推論は,モデル間の意思決定のばらつきを軽減した。
    • エージェントによる推論は,モデル全体の正答率を向上させた。
    • 多数決による合意も有意に増加し,モデル間の頑健性が高まった。

    Link: https://arxiv.org/abs/2603.06271

  • グラスボックスを覗き込む [cs.NE, cs.AI, cs.LG, cs.SC]目的:ファジー認知マップのニューラル実装および評価
    • 複雑なシステムにおける因果関係の理解が重要であるため,そのモデル化手法の探求は不可欠である。
    • 既存のファジー認知マップは,大規模データへの適用や過学習の問題を抱えている。
    • ランジュバン力学を用いて過学習を抑制し,因果関係の逆解を可能にするニューラルネットワークを開発する。
    • ニューラルネットワークは,複数のファジー認知マップを入力とし,因果パターンを学習することが確認された。
    • 出力ノード値の逆解にランジュバン微分ダイナミクスを用いることで,過学習を抑制し,修正基準を提供できることが示された。
    • 複数のデータセットを用いた評価により,ネットワークの性能が検証された。

    Link: https://arxiv.org/abs/2603.06272

  • 疎な注意における因果情報フローの再考 [cs.LG, cs.AI]目的:大規模言語モデルにおける長文脈処理の効率化
    • 大規模言語モデルの性能向上には,長文脈の処理能力が不可欠である。
    • 自己注意機構の計算量が長文脈においてボトルネックとなり,処理速度を制限する。
    • 因果情報フローに沿った疎性化により,計算量削減と性能維持を目指す。
    • Stemは,トークンの位置に応じたtop-k選択を行うことで,初期トークンの依存関係を維持し,計算量を削減する。
    • 出力の影響度を考慮した指標を用いることで,重要なトークンを優先的に保持し,精度を向上させる。
    • 実験結果から,Stemは計算量と事前入力遅延を削減しつつ,高い精度を達成することが示された。

    Link: https://arxiv.org/abs/2603.06274

  • 気候変動適応のための人工知能:気候変動に強靭な交通システムの強化学習 [cs.AI]目的:気候変動適応のための長期的な交通インフラ投資戦略
    • 都市交通システムは,降雨量の増加による浸水リスクに直面しており,強靭性の向上が重要である。
    • 将来の気候変動予測の不確実性や,インフラ投資の長期的な性質が適応戦略の策定を困難にしている。
    • 強化学習を用いて,費用対効果の高い適応経路を探索し,交通システムの強靭性を高めることを目指す。
    • 本研究の枠組みは,従来の最適化手法と比較して,より効果的な適応戦略を発見できることが示された。
    • 空間的・時間的な適応経路の連携や,影響軽減と適応投資のトレードオフを学習できる点が特徴である。
    • 強化学習は,気候変動下における適応型インフラ計画の意思決定支援ツールとしての可能性を示す。

    Link: https://arxiv.org/abs/2603.06278

  • 物理が存在する場所の学習:硬い偏微分方程式のための確率的適応サンプリング [cs.CE, cs.AI, cs.LG, math.AP]目的:硬い偏微分方程式の効率的な数値解法
    • 科学機械学習は,複雑な物理現象のモデル化に不可欠であり,計算コスト削減が重要である。
    • 従来の物理情報ニューラルネットワークは,学習速度が遅く,スペクトルバイアスに悩まされる。
    • 物理知識に基づく適応的なサンプリングにより,解像度と計算効率を両立することを目指す。
    • 提案手法GMM-PIELMは,誤差の大きい領域に基底関数を集中させることで,従来のPIELMの精度を大幅に向上させた。
    • 1次元の対流拡散方程式において,GMM-PIELMは既存手法と比較して,最大7桁低い$L_2$誤差を達成した。
    • 指数関数的に薄い境界層を高精度に捉えつつ,ELMアーキテクチャの高速性を維持している。

    Link: https://arxiv.org/abs/2603.06287

  • EpisTwin:知識グラフに基づいたパーソナルAIのためのニューロシンボリックアーキテクチャ [cs.AI, cs.CL]目的:パーソナルAIのための知識グラフに基づくニューロシンボリックアーキテクチャ
    • 近年,個人のデジタルデータの重要性が増しており,それらを活用したAIへの期待が高まっている。
    • ユーザーデータが分断されているため,全体的な理解や文脈に基づいた推論が困難である。
    • ユーザーデータの意味的な構造と時間的な依存関係を捉え,より信頼性の高いパーソナルAIを実現すること。
    • EpisTwinは,ユーザー中心のパーソナル知識グラフに生成推論を基づかせるニューロシンボリックフレームワークである。
    • 多様なデータを意味的なトリプルに変換し,グラフ検索とオンラインの視覚的洗練を組み合わせることで,複雑な推論を可能にする。
    • 提案するPersonalQA-71-100ベンチマークを用いた評価により,最先端のモデルと比較して堅牢な性能が確認された。

    Link: https://arxiv.org/abs/2603.06290

  • 二重視点マルチスケール特徴と多目的進化アルゴリズムによるタンパク質内在性無秩序予測の向上 [cs.NE]目的:タンパク質内在性無秩序領域の予測精度向上
    • 細胞シグナル伝達や創薬において,タンパク質内在性無秩序領域の役割は重要である。
    • 高い構造的柔軟性により,残基レベルでの正確な予測は困難である。
    • 局所的アミノ酸傾向と長距離配列パターン間の複雑な相互作用を効果的に捉え,予測精度を高める。
    • D2MOEは,進化的な視点と深層意味的視点を統合し,多様な受容野を持つマルチスケール抽出器を用いることで,効果的な特徴抽出を実現した。
    • 多目的進化アルゴリズムによって,離散的な特徴選択と連続的な融合重みを共進化させ,最適なクロス特徴アーキテクチャを適応的に探索する。
    • 3つのベンチマークデータセットにおいて,D2MOEは最先端の手法を安定して上回る性能を示した。

    Link: https://arxiv.org/abs/2603.06292

  • 直交スコアベース拡散モデルによる3D CBCTアーチファクト除去 [cs.CV, cs.LG]目的:3D CBCTアーチファクトの除去
    • 歯科医療において高解像度かつ低被曝な3D画像診断が求められている。
    • 歯科インプラント等の高密度物体がCBCT画像のアーチファクトの原因となる。
    • 投影データ系列におけるインプラントインペインティングによるアーチファクト低減を目指す。
    • 提案手法は,2つの異なる平面で学習された直交スコアベース拡散モデルを組み合わせることで,3D投影データ系列の分布をモデル化する。
    • 本研究により,高品質でアーチファクトが低減された3D CBCT画像の生成が可能であることが示された。
    • 本手法は,臨床画像診断の改善に貢献する可能性を持つ。

    Link: https://arxiv.org/abs/2603.06300

  • 自己回帰型ビジョン言語モデルに対する動的な説明可能性手法DEX-AR [cs.CV, cs.AI]目的:自己回帰型ビジョン言語モデルの説明可能性向上
    • ビジョン言語モデルの高度化に伴い,意思決定プロセスの理解が不可欠となっている。
    • 従来の分類タスク向けの説明手法は,トークンごとの生成や多種多様なモダリティ間の複雑な相互作用により,自己回帰型VLMsには不向きである。
    • 本研究は,自己回帰型VLMsの説明可能性を高めるための新たな手法を提案し,解釈可能性を向上させる。
    • DEX-ARは,画像領域の重要度を示すトークンレベルおよびシーケンスレベルの2Dヒートマップを生成する。
    • 層ごとの勾配計算により,各層や生成トークンの重要度の変化を解釈可能にする。
    • ImageNet,VQAv2,PascalVOCでの評価において,摂動ベースおよびセグメンテーションベースの指標で性能向上が確認された。

    Link: https://arxiv.org/abs/2603.06302

  • GNNにおける偏光直接クロスアテンションメッセージパッシング:機械の故障診断への応用 [cs.LG]目的:機械の故障診断のための新たな関係学習フレームワーク
    • 安全性が重視される産業システムにおいて,機械の故障診断は不可欠である。
    • 従来のGNNは,静的なグラフ構造や均一な集約方法に依存し,複雑な動的相互作用のモデリングが困難である。
    • データ駆動型のグラフ構築による適応的なメッセージパッシングを実現し,故障診断の精度向上を目指す。
    • 提案手法PolaDCAは,従来のGNNと比較して,ノイズに対するロバスト性が理論的に優れていることが示された。
    • XJTUSuprgear,CWRUBearing,Three-Phase Flow Facilityなどの産業用データセットにおいて,最先端の診断精度を達成した。
    • 様々なノイズ条件下でも,7つの競争力のあるベースライン手法を上回る汎化性能が確認された。

    Link: https://arxiv.org/abs/2603.06303

  • エントロピーから校正された不確実性へ:不確実性に関する推論を行うための言語モデルの学習 [cs.LG, cs.AI]目的:言語モデルにおける,解釈可能で校正された不確実性の表現
    • 高度な応用分野において,言語モデルが不確実性を適切に表現することは不可欠である。
    • 既存の後処理による不確実性推定法は,計算コストが高いか,校正が不十分である。
    • 効率的かつ校正された不確実性推定を可能にする言語モデルの学習を目指す。
    • 提案手法は,埋め込み空間におけるエントロピーベースの不確実性スコアを用いて,言語モデルの不確実性を推定する。
    • このスコアをPlattスケーリングで校正し,信頼性の高い不確実性シグナルを生成する。
    • 最終的に,強化学習を用いて,言語モデルのポリシーを校正されたシグナルに整合させることで,高い校正性能と汎化性能を実現した。

    Link: https://arxiv.org/abs/2603.06317

  • 構造化探索と生成柔軟性:パーソナライズされた健康行動介入のためのバンディットとLLMアーキテクチャのフィールドスタディ [cs.HC, cs.AI]目的:健康行動介入におけるバンディットとLLMアーキテクチャの比較
    • デジタルヘルス介入は,健康増進に不可欠であり,その効果を高める手法が求められている。
    • 効果的な行動変容テクニックの選択と提供は難しく,最適化が不十分な場合がある。
    • ユーザーへのより効果的な介入を実現するため,探索と生成のバランスを考慮したシステム設計を目指す。
    • LLMベースのアプローチは,テンプレートと比較して有意に有用であると評価された。
    • ただし,LLM条件間には有意な差は見られなかった。
    • バンディットによる行動変容テクニックの最適化は,LLM単独のアプローチと比較して,有用性の向上には繋がらなかった。

    Link: https://arxiv.org/abs/2603.06330

  • SAHOO:再帰的自己改善における高次最適化目標のための安全なアライメント [cs.AI, cs.CL, cs.LG]目的:再帰的自己改善におけるアライメントの維持と制御
    • AIシステムの能力向上には,自己改善が不可欠であり,その重要性は増している。
    • 自己改善の反復過程において,意図しないアライメントのずれが生じるリスクが存在する。
    • アライメントのずれを検出し,制御するための実用的な枠組みを構築し,自己改善の安全性を高める。
    • SAHOOは,セマンティック,語彙,構造,分布的特徴を組み合わせたGoal Drift Index (GDI)を用いてアライメントのずれを監視する。
    • コード生成,数学的推論,真実性の評価において,SAHOOはそれぞれ18.3%,16.8%の品質向上を実現し,制約を維持することに成功した。
    • 能力向上とアライメント維持のトレードオフを明らかにし,ドメイン固有の課題(流暢性と事実性の間の緊張など)を特定した。

    Link: https://arxiv.org/abs/2603.06333

  • 知識に基づいた多様体輸送による医用画像におけるクロスモーダルプロンプト学習 [cs.CV, cs.AI]目的:医用画像におけるクロスモーダルプロンプト学習のための知識に基づいた多様体輸送
    • 医療画像診断の精度向上は,早期発見と治療に不可欠であり,その重要性は高い。
    • 高性能な画像(CT)で学習したモデルが,低性能な画像(レントゲン)への転移に失敗する課題がある。
    • 低性能な画像に対する学習データが少ない状況下でも,知識を用いてモデルの汎化性能を高める。
    • K-MaTは,臨床テキスト記述に基づきプロンプトを固定し,最適輸送を用いて低性能なプロンプト多様体を高性能な空間に整列させる。
    • 4つのクロスモーダルベンチマークにおいて,K-MaTは最先端の結果を達成し,平均ハーモニックミーンの精度を44.1%に向上させた。
    • 特に乳房画像診断タスクにおいて,標準的なCoOp法で生じる忘却現象を軽減し,各モダリティ間で頑健な性能を維持した。

    Link: https://arxiv.org/abs/2603.06340

  • MoEless:サーバーレスコンピューティングによる効率的なMoE LLMの提供 [cs.CL, cs.DC, cs.AI, cs.LG]目的:MoE LLMの提供における効率化
    • LLMはAIの基盤技術であり,様々な分野で利用が拡大している。
    • MoEモデルの専門家間負荷分散の偏りが,推論遅延やコスト増大の要因となっている。
    • サーバーレスアーキテクチャを用いて,MoEモデルの負荷分散と推論速度向上を目指す。
    • MoElessは,サーバーレスエキスパートを活用することで,専門家間の負荷分散を改善し,推論を高速化する。
    • 軽量な層認識型予測器により,負荷分布を予測し,ボトルネックとなる専門家を特定する。
    • 実験の結果,MoElessは既存のソリューションと比較して,推論遅延を43%,推論コストを84%削減することに成功した。

    Link: https://arxiv.org/abs/2603.06350

  • 動的チャンク拡散Transformer [cs.CV, cs.AI, cs.LG]目的:画像生成における計算効率の向上
    • 画像生成モデルの性能向上は,計算資源の効率的な活用が不可欠である。
    • 従来のTransformerモデルは,画像全体の情報を均一に処理するため,計算資源の無駄が生じる。
    • 画像の重要度に応じて計算量を動的に調整することで,効率的な画像生成を目指す。
    • DC-DiTは,画像の背景など情報量の少ない領域を少ないトークン数で圧縮し,詳細な領域をより多くのトークン数で表現する。
    • 拡散過程の各段階で圧縮率を適応的に変化させることで,ノイズ除去の効率を高める。
    • ImageNet 256x256での実験で,DC-DiTはFIDおよびInception Scoreにおいて,DiTベースラインを上回る性能を示した。

    Link: https://arxiv.org/abs/2603.06351

  • 多時間スケール力学のための周波数分離ハミルトニアンニューラルネットワーク [cs.LG, cs.SY, eess.SY]目的:多時間スケール力学系のモデリングにおける課題克服
    • 力学系のシミュレーションは科学技術の根幹であり,高精度な予測が不可欠である。
    • 従来のハミルトニアンニューラルネットワークは,多時間スケールな複雑な現象の捉え方に限界がある。
    • ハミルトニアン関数の周波数分解に基づき,時間スケールに応じた学習を実現する。
    • 周波数分離ハミルトニアンニューラルネットワーク(FS-HNN)は,複数のネットワークを用いてハミルトニアンをパラメータ化する。
    • FS-HNNは,異なる時間スケールでサンプリングされたデータを用いて学習することで,長期間の予測性能を向上させる。
    • FS-HNNは,常微分方程式と偏微分方程式の両方において,幅広い問題に対して高い汎化性能を示す。

    Link: https://arxiv.org/abs/2603.06354

  • 小型,ハードウェア非依存,圧縮に基づく分類 [cs.LG, cs.CR]目的:プライバシー保護のための,クライアントサイドで実行可能な高精度な分類モデルの開発
    • オンラインプラットフォームにおけるプライバシー問題が深刻化しており,ユーザーデータの保護が重要視されている。
    • 従来の機械学習手法は大量の学習データを必要とし,クライアントサイドでの利用には不向きである。
    • 圧縮距離を用いた分類モデルを改良し,限られたデータでも高精度な分類を実現する。
    • 正規化圧縮距離が必ずしも距離指標ではないことを示し,カーネル法への適用を可能にした。
    • 正規化圧縮距離に基づくモデルの学習時間を改善する手法を提案した。
    • 本手法は,従来の指標やカーネルと同等以上の性能を示し,少ないデータでも高い精度を達成した。

    Link: https://arxiv.org/abs/2603.06359

  • CLAIRE:産業表現と評価のための圧縮潜在オートエンコーダ -- スマート製造のための深層学習フレームワーク [cs.LG, cs.AI, cs.SY, eess.SY]目的:高次元産業環境における故障検出の精度向上
    • スマート製造において,センサーデータを用いた品質管理は不可欠であり,その精度が生産効率に直結する。
    • センサーデータは高次元で,ノイズや冗長性が多く,従来の分類手法では正確な故障検出が困難である。
    • 深層学習によるデータ表現学習と,解釈可能なAI技術を組み合わせ,ロバストな故障検出を実現する。
    • CLAIREは,生の入力データをコンパクトな潜在空間に変換することで,データの構造を効果的に捉え,ノイズを抑制する。
    • 実験結果から,CLAIREは生のフィーチャで訓練された従来の分類器よりも有意に高い性能を示すことが確認された。
    • ゲーム理論に基づいた解釈可能性技術を用いることで,故障予測に寄与する重要な入力特徴を特定できる。

    Link: https://arxiv.org/abs/2603.06361

  • ESAA-Security:エージェント支援によるAI生成コードのセキュリティ監査のための,イベントソーシングと検証可能なアーキテクチャ [cs.CR, cs.AI]目的:AI生成コードのセキュリティ監査のためのアーキテクチャ
    • AI技術の発展により開発速度は向上するが,セキュリティリスクの増大が課題となっている。
    • LLMを用いたセキュリティレビューは,網羅性,再現性,根拠の弱さ,監査証跡の欠如といった問題がある。
    • イベントソーシングと検証機能を組み合わせ,信頼性の高い監査プロセスを構築し,セキュリティリスクを低減する。
    • ESAA-Securityアーキテクチャは,AI生成コードを含むソフトウェアリポジトリのセキュリティ監査を自動化する。
    • 監査プロセスを,偵察,監査実行,リスク分類,最終報告の4段階に構造化し,95の実行可能なチェックを実行する。
    • エージェントの意図を構造化し,検証,ログへの記録,再現性確保により,追跡可能で信頼性の高い監査を実現する。

    Link: https://arxiv.org/abs/2603.06365

  • 確率的複合非凸最適化のための適応リプシッツフリー条件勾配法 [cs.CG, cs.LG, cs.NA, math.NA, math.OC]目的:確率的複合非凸最小化問題に対する適応的な射影不要フレームワークの開発
    • 機械学習等の分野において,大規模データに対する最適化は重要な課題である。
    • 従来の条件勾配法は,グローバルな滑らかさ定数や探索が必要であり,計算コストが高い。
    • 本研究では,未知の幾何学構造に適応可能な,効率的な条件勾配法の開発を目指す。
    • ALFCGは,歴史的な反復差分を用いて局所的な滑らかさを推定し,二次代理モデルを最小化する。
    • 有限和問題に対するALFCG-FSは,$\mathcal{O}(N+\sqrt{N}\epsilon^{-2})$の反復複雑度を達成する。
    • 確率的期待問題に対するALFCG-MVR1とALFCG-MVR2は,それぞれ$\tilde{\mathcal{O}}(\sigma^2\epsilon^{-4}+\epsilon^{-2})$と$\tilde{\mathcal{O}}(\sigma\epsilon^{-3}+\epsilon^{-2})$の反復複雑度を達成する。

    Link: https://arxiv.org/abs/2603.06369

  • 運動エネルギーに基づく正則化:空間微分と偏微分方程式への応用 [math.NA, cs.AI, cs.LG, cs.NA]目的:空間微分の学習
    • 科学機械学習や偏微分方程式の数値解法において,空間微分の正確な推定は不可欠である。
    • 離散的・ノイズを含むデータからの空間微分の正確な推定は課題である。
    • ノイズに強く,効率的な空間微分推定手法を確立し,偏微分方程式の解法への応用を目指す。
    • 運動エネルギーに基づく正則化(KBR)を拡張し,1次元で証明可能な2次精度を持つ空間微分学習を実現した。
    • 明示的スキームと暗黙的スキームの2つの微分学習スキームを提案し,どちらも2次収束性を示した。
    • KBRと保存ソルバーを組み合わせることで,1次元双曲型偏微分方程式において安定した衝撃波捕捉が可能となった。

    Link: https://arxiv.org/abs/2603.06380

  • プロンプトグループを意識したロバストなテキスト誘導核セグメンテーション学習 [cs.CV, cs.AI]目的:テキスト誘導核セグメンテーションにおけるロバスト性の向上
    • 病理診断支援において,画像セグメンテーションは重要な役割を担う。
    • プロンプトの表現の違いにより,セグメンテーション結果が不安定になる場合がある。
    • プロンプトグループに着目し,セグメンテーション結果の一貫性を高める。
    • 提案手法は,セグメンテーション損失に基づくグループ正則化とロジットレベルの一貫性制約を組み合わせる。
    • 複数のデータセットによる実験で,テキストプロンプトを用いたセグメンテーション性能が向上し,プロンプト品質のばらつきによる性能変動が抑制された。
    • ゼロショットクロスデータセットタスクにおいて,平均でDice係数が2.16ポイント向上し,汎化性能が改善された。

    Link: https://arxiv.org/abs/2603.06384

  • 自由に話して厳密に実行:スキーマゲートによるエージェントAIを用いた柔軟かつ再現可能な科学的ワークフロー [cs.AI, cs.LG, cs.MA]目的:科学的ワークフローにおける柔軟性と再現性の両立
    • 科学研究の効率化と自動化は,新たな発見を加速し,研究開発のコスト削減に貢献する。
    • LLMによるワークフロー実行において,決定性,トレーサビリティ,ガバナンスの確保が課題となっている。
    • スキーマゲートによるオーケストレーションを通じて,柔軟性と厳密性のトレードオフを解消することを目指す。
    • 大規模言語モデル(LLM)を用いたシステムの評価において,複数モデルによるスコアリングが専門家による評価に代わる再利用可能な代替手段となりうることを示した。
    • 既存のシステム分析から,高い柔軟性と高い決定性を両立するシステムは存在せず,生成型とワークフロー中心型のアプローチの中間に収束域が存在することを確認した。
    • スキーマゲートアーキテクチャは,会話的権限と実行権限を分離することで,このトレードオフを解消する可能性を示唆する。

    Link: https://arxiv.org/abs/2603.06394

  • RLによる拡散モデルのコンパイルを通じた,効率的かつ属性整合的なファンアウト検索 [cs.IR, cs.LG]目的:多様性,網羅性,補完性, coherenceなどの高次属性を最適化する集合値検索
    • 現代の検索問題は集合を対象とするものが多く,多様性などの属性最適化が重要である。
    • 既存の教師あり学習データセットはトップ1検索に偏っており,集合レベルの目的を捉えられない。
    • RLと拡散モデルの利点を組み合わせ,効率的かつ属性整合的なファンアウト検索を実現する。
    • 提案手法R4Tは,RLを目的関数変換器として活用し,ファンアウトLLMと拡散検索器を効率的に学習する。
    • ファッションと音楽のベンチマークにおいて,R4Tは既存手法よりも検索品質を向上させ,クエリ時間のファンアウト遅延を大幅に削減した。
    • R4Tは,目的関数に整合性のある学習ペアを合成し,軽量な拡散検索器を訓練することで,効率的な検索を実現する。

    Link: https://arxiv.org/abs/2603.06397

  • オンライン多制約マルチモーダル推論スケジューリングのためのアダプター拡張バンディット [cs.LG]目的:オンラインマルチモーダル大規模言語モデル推論スケジューリングにおけるタスク表現の抽出と,多次元予算制約下での低オーバーヘッドな意思決定
    • マルチモーダルLLMは,多様な予算と異種環境下で高い応答品質を実現し,単一バックエンド設定を超える可能性を秘めている。
    • タスクのモーダリティ構成や潜在的な推論難易度が大きく変動し,バックエンドの実行コストも時間とともに変化するため,オンラインスケジューリングは困難である。
    • 意味的に忠実かつスケジューリングに有用なマルチモーダルタスク表現を導出し,不可逆的な予算制約下でのオンライン意思決定を可能にすること。
    • 提案手法M-CMABは,コンパクトなタスク表現を抽出するPredictor,制約を維持するConstrainer,探索と利用をバランスさせるSchedulerの3つの要素を備えている。
    • 多次元ナップサック制約下で後悔保証が確立され,異種バックエンドを含む複合マルチモーダルベンチマークで,最先端の手法を上回る性能を示した。
    • M-CMABは,予算に応じて最大14.18%高い報酬を達成し,オラクル支援の上限に迫る結果となった。

    Link: https://arxiv.org/abs/2603.06403

  • 物理シミュレーター連携型ビデオ生成 [cs.CV, cs.AI, cs.GR]目的:物理法則に基づいたビデオ生成手法
    • AIによるビデオ生成の発展は目覚ましいが,現実世界の物理法則を遵守することが課題である。
    • 既存の生成モデルでは,重力や慣性といった物理法則に反する動きや不自然な挙動がしばしば見られる。
    • 物理シミュレーターを導入し,ビデオ生成過程で物理的な整合性を確保することを目指す。
    • 本手法は,事前学習済みの拡散モデルで生成されたテンプレートビデオに対し,物理シミュレーターを用いて物理的に整合性のある軌跡を生成する。
    • シミュレーションされた軌跡をガイドとして活用することで,時間的・空間的に物理的に一貫性のある動きを実現する。
    • また,TTCOという手法を提案し,オブジェクトの動きに伴うテクスチャの一貫性を向上させている。

    Link: https://arxiv.org/abs/2603.06408

  • 強化学習フレームワークの参照アーキテクチャ [cs.SE, cs.AI, cs.LG]目的:強化学習フレームワークの参照アーキテクチャ
    • 強化学習の応用拡大に伴い,多様な技術が登場している。
    • フレームワーク間のアーキテクチャに一貫性がなく,比較や統合が困難である。
    • フレームワークの共通基盤となる参照アーキテクチャを確立すること。
    • 18の主要な強化学習フレームワークを分析し,共通するアーキテクチャ要素と関係性を特定した。
    • それらを基に,参照アーキテクチャを策定し,代表的な強化学習パターンを再構築した。
    • 一般的な構成要素や改善の方向性など,アーキテクチャの傾向を明らかにした。

    Link: https://arxiv.org/abs/2603.06413

  • CLoPA:医療画像アノテーションのためのインタラクティブセグメンテーションの継続的低パラメータ適応 [cs.CL, cs.CV, cs.AI, cs.LG]目的:医療画像アノテーションにおけるインタラクティブセグメンテーションの継続的な適応戦略
    • 医療画像解析において,正確なセグメンテーションは診断・治療計画の精度向上に不可欠である。
    • 既存のゼロショットモデルは,多様な医療画像タスクにおいて専門家レベルの性能を安定して達成できない。
    • アノテーションデータ蓄積によるセグメンテーションモデルのオンライン適応を通じて性能向上を目指す。
    • CLoPAは,nnInteractiveのパラメータのごく一部をアノテーションキャッシュ上で継続的に調整することで,迅速に専門家レベルの性能に到達する。
    • 特に,nnInteractiveが従来失敗していたタスクにおいても,わずか1回の学習エピソードで大きな性能向上を達成する。
    • パラメータグループのチューニング効果はタスク特性に依存し,複雑な形状のターゲットではより深い特徴表現の調整が必要となる。

    Link: https://arxiv.org/abs/2603.06426

  • 大規模言語モデルにおける三段論法形式を用いたアブダクション推論 [cs.CL, cs.AI]目的:大規模言語モデルにおけるアブダクション推論の精度評価
    • AI研究の発展に伴い,大規模言語モデルの推論能力と人間の推論能力の比較が重要になっている。
    • 既存研究では,言語モデルが常識に反する推論を回避する傾向があり,それがバイアスとして批判されている。
    • 本研究は,形式的演繹だけでなく,限られた情報からの仮説構築であるアブダクション推論における言語モデルのバイアスを検証する。
    • 三段論法データセットをアブダクションに適した形式に変換し,最先端の言語モデルの精度を評価した。
    • 言語モデルはアブダクション推論においてもバイアスを示す可能性があり,文脈に即した推論能力の向上が課題である。
    • 本研究は,複雑な推論タスクにおいて言語モデルの理解を深め,人間と機械の認知のギャップを埋めるための洞察を提供する。

    Link: https://arxiv.org/abs/2603.06428

  • 深層ニューラルネットワークの関数空間ノルムの認定および正確な計算 [math.NA, cs.LG, cs.NA, stat.ML]目的:深層ニューラルネットワークの関数空間ノルムの認定と正確な計算手法
    • 偏微分方程式に対するニューラルネットワーク法では,関数空間ノルムにおける信頼性の高い誤差制御が不可欠である。
    • 既存のニューラルネットワークは有限の点でのみ評価可能であり,関数空間ノルムの厳密な境界を保証することが困難である。
    • ニューラルネットワークの構造を利用し,積分量の認定と正確な計算を通じてこの課題を解決することを目指す。
    • 軸に平行な箱に対する区間演算による囲み,適応的なマーキング/改良,数値積分による集約を組み合わせた枠組みを提示する。
    • 各箱内で関数値と導関数の保証された下限と上限を計算し,それらをグローバルな境界に伝播させる。
    • 提案手法は,$L^p$, $W^{1,p}$, $W^{2,p}$ ノルムの認定計算を可能にし,PINN内部残差に対する実用的な認定境界を提供する。

    Link: https://arxiv.org/abs/2603.06431

  • 相関-複雑性マップによる生成量子実用性への道 [cs.SI, cs.DL, cs.LG, quant-ph]目的:実世界データの分布がIQP型量子生成モデルと構造的に整合しているかを判断するための実用的な診断ツール
    • 量子計算の発展は,従来の計算機では困難な問題を解決する可能性を秘めているため,重要性が高まっている。
    • 量子生成モデルの適用範囲は,データの構造とモデルの整合性によって制限されるという課題がある。
    • IQP型量子生成モデルに適合するデータ領域を特定し,生成量子実用性を発展させることを目指す。
    • 相関-複雑性マップは,量子相関類似度指標(QCLI)と古典相関複雑性指標(CCI)の二つの指標を用いてデータ分布を評価する。
    • 古典的乱流データは,IQP互換性と古典的複雑性の両方を兼ね備えていることが示された(高いQCLI/高いCCI)。
    • IQPアプローチは,古典モデルと比較して,少ない訓練データと小さな潜在ブロックで競争力のある分布アライメントを達成した。

    Link: https://arxiv.org/abs/2603.06440

  • LLMベースTTSにおけるストリーミングテキスト入力に対応した,発声区間を意識したストリーミング生成 [cs.SD, cs.AI]目的:LLMベースTTSにおけるストリーミング生成の改善
    • 対話システム等において,リアルタイムな音声合成の需要が高まっているため。
    • 先行情報不足による不自然な抑揚や,コンテキストの無限拡大による長文崩壊が課題である。
    • 発声区間を意識した学習により,これらの課題を解決し,高品質なストリーミングTTSを実現する。
    • 提案手法は,短文・長文の両方において,既存のベースラインモデルを上回る性能を示す。
    • 特に長文合成において,単語誤り率を66.2%絶対的に削減し,話者・感情の類似性をそれぞれ16.1%,1.5%向上させた。
    • 本手法は,インクリメンタルテキストを用いたストリーミングTTSに対する堅牢な解決策を提供する。

    Link: https://arxiv.org/abs/2603.06444

  • 基礎モデルは幾何学を知っているか? 連続的な物理的測定のための凍結された特徴の調査 [cs.CV, cs.AI]目的:連続物理測定のための凍結された特徴からの幾何学的知識の抽出
    • 視覚と言語を統合したモデルの幾何学的理解の程度が不明であり,その評価が必要である。
    • 既存の言語モデルは,視覚情報に内在する幾何学的情報を十分に表現できていない可能性がある。
    • 凍結された特徴から幾何学的情報を抽出することで,モデルの潜在能力を明らかにする。
    • 凍結された特徴を用いた線形プローブにより,テキスト出力と比較して,大幅に高い関節角度の推定精度が示された。
    • LoRAファインチューニングによって精度は向上したが,訓練経路の欠如が主要なボトルネックであることが示唆された。
    • 異なるエンコーダ構造を持つモデルでも,幾何学的精度は統計的に同等に収束し,機能的収束と表現的収束の乖離が確認された。

    Link: https://arxiv.org/abs/2603.06459

  • PONTE:自然言語による信頼性の高い説明のためのパーソナライズされたオーケストレーション [cs.RO, cs.CL, cs.AI]目的:説明可能なAIにおける,ユーザーの専門性,目標,認知ニーズに合わせた説明のパーソナライズ手法
    • AIの透明性と説明責任が重要視される中,機械学習システムの信頼性を高める必要性が高まっている。
    • 既存の説明手法は,ユーザーの多様性を考慮せず,画一的な説明になりがちであるという課題がある。
    • ユーザーの嗜好に適応し,信頼性の高い説明を生成するフレームワークを開発することで,この課題を解決する。
    • PONTEは,低次元の嗜好モデルと構造化されたXAIアーティファクトを組み合わせ,検証モジュールによる精度保証を実現した。
    • 自動評価と人間評価の結果,検証・改善ループが,既存手法と比較して説明の完全性とスタイルの一貫性を大幅に向上させることが示された。
    • 人間実験では,意図された嗜好ベクトルと認識されたスタイルに高い一致が見られ,生成の安定性と品質評価も良好であった。

    Link: https://arxiv.org/abs/2603.06485

  • NOBLE:非線形低ランク枝によるTransformerの高速化 [cs.LG, cs.AI, cs.CL, cs.NE]目的:Transformerの線形層に非線形低ランク枝を加えるアーキテクチャ拡張
    • Transformerは自然言語処理等の分野で広く利用されているが,計算コストが高い。
    • 大規模モデルの事前学習には膨大な計算資源が必要であり,効率化が課題である。
    • Transformerの学習効率を向上させ,計算コストを削減することを目的とする。
    • NOBLEは,従来のPEFT手法と異なり,事前学習から活用可能なアーキテクチャである。
    • CosNetが最適な活性化関数であり,学習ステップ数を最大32%削減できることが示された。
    • 追加パラメータがわずか4%程度でありながら,最大1.22倍のウォールクロック速度向上を達成した。

    Link: https://arxiv.org/abs/2603.06492

  • COLD-Steer:文脈内一次学習ダイナミクスによる大規模言語モデルの操舵 [cs.RO, cs.SY, eess.SY, cs.LG, cs.AI, cs.CL]目的:大規模言語モデルの挙動制御手法
    • 大規模言語モデルは高性能だが,意図通りの挙動を制御することが課題となっている。
    • 既存手法では,サンプル効率と制御精度の間にトレードオフが存在する。
    • 少量のデータで高精度な挙動制御を実現し,多様な視点に対応することを目指す。
    • COLD-Steerは,勾配降下による表現変化を近似することで,学習なしに大規模言語モデルの活性化を操舵する。
    • 最良のベースラインと比較して,50分の1のサンプル数で最大95%の操舵効果を達成する。
    • 本フレームワークは,特殊な訓練手順ではなく,学習ダイナミクスの原理的な近似を通じて,可変な人間嗜好に対応する適応的な文脈対応モデル制御の可能性を開く。

    Link: https://arxiv.org/abs/2603.06495

  • 単一のモダリティが全てを支配する:マルチモーダル拡散モデルにおけるバックドアモダリティ崩壊 [cs.LG]目的:マルチモーダル拡散モデルにおけるバックドアモダリティ崩壊現象の定量化と分析
    • 拡散モデルは画像生成に革新をもたらしたが,セキュリティ上の脆弱性評価は不可欠である。
    • マルチモーダルモデルでは,複数のモダリティを同時に攻撃することで脆弱性が増大すると考えられている。
    • バックドア攻撃が特定のモダリティに偏り,他のモダリティが無効化される状況を明らかにする。
    • バックドア攻撃は,多くの場合,特定のモダリティに集約する「勝者総取り」の傾向を示すことが明らかになった。
    • モダリティ間の相互作用は無視できる程度か,むしろ負の相関を示すことが確認された。
    • 高い攻撃成功率は,特定のモダリティへの依存性を隠蔽している可能性がある。

    Link: https://arxiv.org/abs/2603.06508

  • 胎児口蓋裂の検出における人工知能の活用と医学教育の発展 [cs.CV, cs.AI, cs.LG]目的:胎児口蓋裂の検出と医学教育の向上
    • 口蓋裂は頻度の高い先天性疾患であり,早期発見と適切な介入が重要である。
    • 経験豊富な専門家の不足と疾患の稀少性により,正確な産前診断は困難である。
    • 専門家不足の環境下での診断精度向上と,研修医の専門性育成を支援する。
    • 人工知能システムが,93%以上の感度と95%以上の特異度で胎児口蓋裂を診断できることが示された。
    • このシステムは,ベテラン放射線科医と同等の性能を示し,経験の浅い放射線科医の感度を6%以上向上させた。
    • 研修医への教育ツールとしての活用により,希少疾患に関する臨床能力の向上に貢献する可能性がある。

    Link: https://arxiv.org/abs/2603.06522

  • RAMoEA-QA:呼吸音響質問応答のための階層的専門化 [cs.SD, cs.AI]目的:呼吸音響データに対する質問応答システムの性能向上
    • 医療分野における会話型AIの重要性が高まる中,多様な患者データと対話形式に対応できるモデルが求められている。
    • 既存の呼吸音響質問応答システムは,多様なデータと質問形式への対応が不十分であり,実用環境での信頼性が課題である。
    • 呼吸音響データの特性と質問意図に応じてモデルを専門化することで,よりロバストな質問応答を実現する。
    • RAMoEA-QAは,呼吸音響データと質問内容に応じて,最適な音声エンコーダと言語アダプタを選択する階層的なルーティング構造を採用している。
    • 実験結果から,RAMoEA-QAは既存の最先端モデルと比較して,in-domainテスト精度が向上し,ドメイン,モダリティ,タスクの変化に対する汎化性能が高いことが示された。
    • わずかなパラメータ増加で性能を向上させることで,実用的な呼吸音響質問応答システムへの応用が期待される。

    Link: https://arxiv.org/abs/2603.06542

  • 階層型産業需要予測における時間的・不確実性の説明 [cs.CL, cs.LG]目的:階層型時系列予測における解釈可能性の向上
    • 産業界における需要予測は,サプライチェーン最適化や在庫管理の基盤であり,経営判断に不可欠である。
    • 機械学習モデルの予測精度は向上しているものの,その根拠や不確実性の説明が不足しており,実用上の信頼性に課題がある。
    • 階層構造と不確実性を考慮した解釈手法を開発し,予測の信頼性と意思決定への貢献を目指す。
    • 提案手法は,大規模階層型確率時系列予測において,高い解釈可能性精度を実現した。
    • 実世界の事例研究を通して,重要なパターンや予測の根拠を特定し,関係者の理解を深めることができた。
    • 需要予測の主要因を特定することで,より情報に基づいた意思決定と戦略的計画の策定を支援する。

    Link: https://arxiv.org/abs/2603.06555

  • ニューラルネットワーク計算における貢献分解による因果解釈 [cs.HC, cs.LG, q-bio.NC]目的:ニューラルネットワークの計算過程の因果関係の解明
    • 深層学習の応用拡大に伴い,モデルの意思決定根拠の理解が不可欠となっている。
    • 既存手法は活性化パターン分析に留まり,真の因果関係を特定できない場合がある。
    • 隠れニューロンの貢献を分解し,因果的なプロセスを明らかにすることを目指す。
    • 貢献分解(CODEC)により,ネットワークの振る舞いを疎な隠れニューロン貢献のモチーフに分解できることが示された。
    • 貢献は層が深くなるにつれて疎になり,次元が増加するとともに,正と負の効果が徐々にデコヒーレンスすることが明らかになった。
    • 貢献の疎なモードへの分解は,ネットワーク出力の因果的操作や,画像コンポーネントの解釈可能な可視化を可能にする。

    Link: https://arxiv.org/abs/2603.06557

  • 論理的オプションによる事前学習を用いた深層強化学習の性能向上 [cs.HC, cs.AI, cs.LG]目的:深層強化学習における性能向上のための手法
    • 強化学習は,複雑な問題を自律的に解決する能力を持つため,様々な分野で注目されている。
    • 従来の深層強化学習は,短期的な報酬に過剰に反応し,目標達成が困難になる場合がある。
    • 本研究は,論理的オプションを用いた事前学習により,目標指向的な行動を促し,長期的な意思決定能力を向上させる。
    • 提案手法H^2RLは,ニューラルネットワークベースの強化学習エージェントに記号的な構造を導入し,短期報酬ループへの過剰な依存を抑制する。
    • 事前学習により,長期的な目標達成を指向した方策を学習させ,その後の環境との相互作用で方策を洗練させる。
    • 実験結果から,提案手法がニューラル,記号,および神経記号ベースラインよりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.06565