arXiv雑要約

AI - 2026/03/20 公開

  • cuGenOpt:組合せ最適化のためのGPUアクセラレーション汎用メタヒューリスティックフレームワーク [cs.AI, cs.DC]目的:組合せ最適化問題に対するGPUアクセラレーション型メタヒューリスティックフレームワークの開発
    • 組合せ最適化は,物流,スケジューリング,資源配分など,多くの分野で重要な課題である。
    • 既存手法は,汎用性,性能,使いやすさの間でトレードオフが生じるという課題があった。
    • 汎用性,性能,使いやすさを両立するフレームワークを提供し,組合せ最適化問題を効率的に解決することを目指す。
    • cuGenOptは,GPUを活用し,従来のMIPソルバーを大幅に上回る性能を示すことが実験で確認された。
    • 最大でn=150のインスタンスにおいて,専用ソルバーに対しても競争力のある解質を達成した。
    • フレームワークレベルの最適化により,PCB442のギャップを36%から4.73%に,VRPTWのスループットを75-81%に改善した。

    Link: https://arxiv.org/abs/2603.19163

  • ニューラル偏微分方程式ソルバーに対する厳密な誤差証明:経験的な残差から解の保証へ [cs.LG, math.AP, math.FA]目的:ニューラル偏微分方程式ソルバーの解誤差に関する一般化誤差の上界導出
    • 偏微分方程式の不確か性評価は科学技術計算の根幹であり,高い精度が求められる。
    • 物理情報ニューラルネットワークでは,最適化やサンプリング誤差が無視できず,解の一般化誤差評価が困難である。
    • 残差制御と解空間における誤差の関係を確立し,誤差保証を提供することで,この問題を解決する。
    • コンパクトな解空間に近似解が存在する場合,残差誤差の消失が真の解への収束を保証することが示された。
    • 残差,境界条件,初期条件の誤差を,解誤差の厳密な保証に変換する公式が導出された。
    • 決定論的および確率論的な収束結果が得られ,ニューラルネットワークによる解の信頼性が向上する。

    Link: https://arxiv.org/abs/2603.19165

  • 意味と測定:視覚と言語ナビゲーションのためのマルチエージェント確率的グラウンディング [cs.RO, cs.AI, cs.CL, cs.CV, cs.LG]目的:視覚と言語ナビゲーションにおけるマルチエージェント確率的グラウンディング
    • 人間と協調するロボット開発には,自然言語を物理的な行動に変換する能力が不可欠である。
    • 既存の視覚言語モデルは,3D空間における距離などの数値制約の推論に課題がある。
    • 複雑な数値・意味的言語クエリに対するグラウンディングの精度向上を目指す。
    • 提案手法MAPGは,言語クエリを構造化されたサブコンポーネントに分解し,各コンポーネントをグラウンディングする。
    • MAPGは,グラウンディングされた出力を確率的に合成することで,3D空間での一貫性のある行動決定を可能にする。
    • HM-EQAベンチマークと新ベンチマークMAPG-Benchにおいて,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2603.19166

  • ARIADNE:信頼性の高い冠動脈造影分析のための知覚と推論の相乗的フレームワーク [cs.CL, cs.CV, cs.AI]目的:冠動脈造影における狭窄検出のトポロジカルな整合性
    • 冠動脈疾患の早期発見と治療は重要であり,造影画像解析の精度向上は医療の質を左右する。
    • 従来のピクセル単位の損失関数では,血管のトポロジカルな制約が維持されず,高精度でも断片化された血管構造となる。
    • 本研究は,トポロジカルな整合性を高めることで,より信頼性の高い狭窄検出を目指す。
    • 提案手法ARIADNEは,Betti数の制約を組み込んだDPOにより,幾何学的に完全な血管構造を生成する。
    • 1,400件の臨床データを用いた評価で,中心線Dice係数0.838を達成し,偽陽性を41%削減した。
    • ARCADEとXCADといった多施設ベンチマークにおける外部検証により,様々な画像取得プロトコルへの汎用性も確認された。

    Link: https://arxiv.org/abs/2603.19169

  • DyMoE:エッジにおける効率的なMoE推論のための混合精度量子化による動的エキスパートオーケストレーション [cs.RO, math.OC, cs.LG]目的:エッジデバイスにおけるMoE推論の効率化
    • MoEモデルは計算効率が高い一方,エッジデバイスのようなリソース制約環境での利用が課題である。
    • 従来の静的アプローチでは,遅延と精度のトレードオフが固定化され,柔軟性に欠ける。
    • エキスパートの重要度と深さに応じた動的量子化により,エッジデバイスでのMoE推論を高速化する。
    • DyMoEは,重要度を考慮した優先順位付け,深さに適応するスケジューリング,および先読みprefetchingにより,推論性能を向上させる。
    • 商業用エッジハードウェアでの実験により,DyMoEは既存のオフローディングベースラインと比較して,TTFTを3.44x-22.7x,TPOTを最大14.58x削減することが示された。
    • これにより,リソース制約されたエッジデバイス上でのリアルタイムかつ精度を維持したMoE推論が可能となる。

    Link: https://arxiv.org/abs/2603.19172

  • SOL-ExecBench:現実世界のGPUカーネルに対する光速ベンチマーク [cs.LG, cs.AI]目的:GPUカーネル最適化におけるハードウェア限界への接近度評価
    • AIの進化に伴い,GPUの性能を最大限に引き出す必要性が高まっている。
    • 従来のベンチマークはソフトウェアベースであり,ハードウェアの限界を考慮していない。
    • ハードウェアの理論限界に基づいたベンチマークを提供し,最適化の指針を示す。
    • SOL-ExecBenchは,言語,拡散,画像など多様なAIモデルのGPUカーネル最適化問題を網羅する。
    • SOLARパイプラインを用いて,ハードウェアに基づいた光速限界を分析的に導出し,最適化の目標値を設定する。
    • SOLスコアによって,最適化されたカーネルがハードウェア限界にどれだけ近づいたかを定量的に評価する。

    Link: https://arxiv.org/abs/2603.19173

  • Box Maze:信頼性のあるLLM推論のためのプロセス制御アーキテクチャ [cs.AI, cs.CL]目的:LLM推論の信頼性向上
    • LLMは生成能力が高いが,誤った情報を生成しやすく,信頼性に課題があるため,改善が求められている。
    • 既存の安全対策は行動レベルでの対応が中心で,推論プロセスの整合性を保証する仕組みが不足している。
    • 推論プロセスを明示的に制御し,LLMの信頼性を高めるアーキテクチャを提案することで,問題を解決する。
    • Box Mazeフレームワークは,LLM推論を記憶の接地,構造化された推論,境界の適用という3層に分解する。
    • シミュレーション実験の結果,Box Mazeは,敵対的なプロンプト下での境界維持の一貫性を向上させ,境界エラー率を大幅に低減した。
    • アーキテクチャによる制約が,敵対的条件下での境界エラー率を約40%(ベースラインRLHF)から1%以下に抑えた。

    Link: https://arxiv.org/abs/2603.19182

  • MIDSTチャレンジ:拡散モデルに基づく合成表形式データに対するメンバーシップ推論 [cs.RO, cs.LG]目的:拡散モデルによって生成された合成表形式データのプライバシー保護性能の定量評価
    • データ匿名化とプライバシー保護データ公開において,合成データは重要な役割を果たす。
    • 拡散モデルは多様なデータで有効だが,表形式データに対するプライバシー保護性能は未解明な点が多い。
    • 拡散モデル生成の表形式データに対するメンバーシップ推論攻撃への耐性を評価し,プライバシー効果を検証する。
    • MIDSTチャレンジは,拡散モデル生成の合成表形式データのプライバシー保護性能を定量的に評価することを目指した。
    • このチャレンジにより,表形式データに特化した新たなブラックボックスおよびホワイトボックスのメンバーシップ推論攻撃が開発された。
    • 開発された攻撃モデルを用いて,拡散モデルのプライバシー保護効果を包括的に評価することが可能となった。

    Link: https://arxiv.org/abs/2603.19185

  • 共変量不一致下におけるRCTに基づく治療効果推定の改善:校正されたアラインメントによる [cs.LG]目的:共変量不一致下での治療効果推定精度向上
    • 治療効果の個人差を明らかにすることは,個別化医療の実現に不可欠である。
    • RCTでは十分な統計的検出力を得るのが難しく,大規模観察研究では共変量の不一致が課題となる。
    • 共変量不一致を回避し,RCTと観察研究の情報を統合することで,より正確な治療効果推定を目指す。
    • 提案手法CALMは,異なる特徴量を共通の表現空間にマッピングすることで,データの欠損補完を回避する。
    • 線形モデルにおいては,校正に基づく手法は既存手法と同等レベルの性能を示す。
    • 非線形モデルにおいては,ニューラルネットワークを用いたアラインメント手法が大幅な性能向上を達成する。

    Link: https://arxiv.org/abs/2603.19186

  • OS-Themis:汎用GUI報酬のためのスケーラブルな批判フレームワーク [eess.SY, cs.SY, cs.AI]目的:汎用GUI環境における報酬の質的向上
    • GUI自動化は,多様なタスクを効率化する上で重要である。
    • 従来のGUIエージェントの報酬設計は,スケーラビリティと性能の両立が困難である。
    • 本研究は,よりスケーラブルかつ正確な報酬評価システムを構築し,エージェントの進化を促進する。
    • OS-Themisは,軌跡を検証可能なマイルストーンに分解し,厳格な監査メカニズムを導入することで,報酬評価の精度を高める。
    • 新たに開発したOmniGUIRewardBench(OGRBench)において,OS-Themisを使用することで,全てのモデルが最高の性能を発揮した。
    • AndroidWorldでの実験結果から,OS-ThemisはオンラインRL訓練で10.3%,自己訓練ループでの軌跡検証・フィルタリングで6.9%の性能向上を示した。

    Link: https://arxiv.org/abs/2603.19191

  • フィッシング検出における堅牢性,コスト,攻撃対象領域の集中 [cs.LG]目的:フィッシング検出の堅牢性,コスト,および攻撃対象領域の集中に関する研究
    • フィッシング詐欺は深刻な脅威であり,Webサイトの信頼性評価は不可欠である。
    • 従来のフィッシング検出器は,実環境での特徴量操作に対する脆弱性を抱えている。
    • 特徴量操作コストを考慮した評価フレームワークを用いて,堅牢性の問題を分析する。
    • 特徴量エンジニアリングに基づくフィッシング検出器は,高い精度を示すものの,配備後の特徴量操作に対する堅牢性に課題がある。
    • コストを意識した回避実験の結果,異なるモデル間で堅牢性が収束し,回避コストは低い特定の表面特徴に集中することがわかった。
    • フィッシング検出における堅牢性は,モデルの複雑さよりも特徴量の経済性に依存することが示唆された。

    Link: https://arxiv.org/abs/2603.19204

  • VLMはビジョントランスフォーマーを必要とするか? 視覚エンコーダーとしての状態空間モデルの評価 [cs.CV, cs.LG]目的:大規模ビジョン言語モデルにおける視覚エンコーダーとしての状態空間モデルの性能評価
    • 近年のビジョン言語モデルの発展は目覚ましく,画像とテキストの理解を深める上で重要な役割を担っている。
    • 従来のビジョン言語モデルでは,計算コストが高いトランスフォーマーベースのエンコーダーが主流であり,軽量化が課題となっていた。
    • 本研究は,状態空間モデルがトランスフォーマーベースのエンコーダーに匹敵する性能を発揮し,より効率的なビジョン言語モデルの構築に貢献することを目指す。
    • 状態空間モデルを視覚バックボーンとして用いた結果,VQAやグラウンディング/ローカリゼーションにおいて,トランスフォーマーベースのモデルと同等以上の性能を示した。
    • 検出またはセグメンテーションによる事前学習を行うことで,状態空間モデルとトランスフォーマーベースのモデルの両方の性能が向上し,状態空間モデルはより少ないパラメータ数で競争力を維持した。
    • ImageNetの精度やバックボーンのサイズが必ずしもVLMの性能向上に繋がらないこと,また,一部の視覚バックボーンでローカリゼーションが不安定になることが明らかになった。

    Link: https://arxiv.org/abs/2603.19209

  • DreamPartGen:協調的潜在的ノイズ除去による意味に基づいたパーツレベルの3D生成 [cs.CY, cs.HC, cs.CV, cs.AI, cs.LG]目的:意味に基づいたパーツレベルの3D生成
    • 人間は3Dオブジェクトを意味のあるパーツの構成として認識・理解する。その再現が重要。
    • 既存のテキストから3D生成手法は,パーツのセマンティクスや機能構造を無視している。
    • テキストと整合性のとれた,解釈可能な3D合成を可能にすることを目指す。
    • DreamPartGenは,各パーツの形状と外観を共同でモデル化する二重パーツ潜在表現(DPL)を導入。
    • 言語から派生したパーツ間依存性を捉える関係セマンティック潜在表現(RSL)を導入。
    • 同期された協調ノイズ除去プロセスにより,幾何学的・意味的一貫性を実現し,最先端の性能を達成。

    Link: https://arxiv.org/abs/2603.19216

  • DriveTok:3D運転シーンのトークン化による統合されたマルチビュー再構成と理解 [cs.CV, cs.LG]目的:3D運転シーンのトークン
    • 自動運転システムの進化において,視覚情報を効率的に処理する技術の重要性が増している。
    • 既存のトークン化手法は単眼・2Dシーン向けであり,高解像度マルチビュー運転シーンには不向きである。
    • マルチビューにおける再構成と理解を効率化するための,3D運転シーン専用トークン化手法を開発する。
    • DriveTokは,ビジョン基礎モデルから得られたセマンティックな特徴を3D変形クロスアテンションでシーンのトークンに変換する。
    • マルチビュー変換器を用いてトークンからマルチビュー特徴を再構成し,RGB,深度,セマンティック再構成を行う。
    • 実験の結果,DriveTokは画像再構成,セマンティックセグメンテーション,深度予測,3D占有予測において良好な性能を示した。

    Link: https://arxiv.org/abs/2603.19219

  • Nemotron-Cascade 2:カスケードRLとマルチドメインのオンポリシー蒸留によるポストトレーニングLLM [cs.CL, cs.AI, cs.LG]目的:高性能な推論能力とエージェント能力を持つ大規模言語モデルの開発
    • LLMは多様なタスクで高い性能を示す一方,計算コストが高いという課題がある。
    • パラメータ数を削減しつつ,高性能を維持することが難しい。
    • カスケードRLとオンポリシー蒸留により,少ないパラメータで高性能を実現する。
    • Nemotron-Cascade 2は300億パラメータのMoEモデルであり,高い推論能力とエージェント能力を持つ。
    • 数学,コーディングの性能は最先端のオープンモデルに匹敵し,国際数学オリンピックや情報オリンピックで金メダルレベルの性能を達成した。
    • カスケードRLの適用範囲拡大と,マルチドメインのオンポリシー蒸留が性能向上に貢献している。

    Link: https://arxiv.org/abs/2603.19220

  • ランキングフィードバックを用いたオンライン学習と均衡計算 [cs.LG, cs.CL, cs.GT]目的:ランキングに基づくフィードバック環境下におけるオンライン学習と均衡計算
    • 逐次決定問題やゲーム理論において,オンライン学習は重要な役割を果たす研究分野である。
    • 従来のオンライン学習アルゴリズムは数値的な報酬に依存しており,プライバシーや実用上の制約がある。
    • ランキングフィードバックのみから学習可能なアルゴリズムを開発し,実用的な問題を解決することを目指す。
    • 瞬時報酬に基づくランキングフィードバックでは,一般に劣線形な後悔を達成することが不可能であることが示された。
    • 時間平均報酬に基づくランキングフィードバックにおいても,ある条件下では劣線形な後悔が不可能となることが示された。
    • 報酬の変動が小さいという仮定の下で,劣線形な後悔を達成するアルゴリズムが提案され,実用的なタスクでの有効性が示された。

    Link: https://arxiv.org/abs/2603.19221

  • スペクトル誘導型拡散ノイズスケジュール [cs.CV, cs.LG]目的:拡散モデルにおけるノイズスケジュールの設計
    • 高品質な画像生成において,拡散モデルが重要な役割を果たしている。
    • 従来のノイズスケジュールは手動調整が必要で,解像度ごとに調整が煩雑である。
    • 画像のスペクトル特性に基づき,効率的なノイズスケジュールを設計し,生成品質を向上させる。
    • 提案手法では,画像のスペクトル特性を利用して,インスタンスごとに最適なノイズスケジュールを設計する。
    • 理論的な限界に基づいて「タイト」なノイズスケジュールを設計し,冗長なステップを排除する。
    • 実験の結果,特に低ステップ数での生成品質が向上することが示された。

    Link: https://arxiv.org/abs/2603.19222

  • F2LLM-v2:多言語世界の包括的,高性能,効率的な埋め込み表現 [cs.CL, cs.AI]目的:多言語埋め込み表現モデル群
    • グローバル化の進展により,多様な言語への対応が不可欠となっている。
    • 低リソース言語に対する高品質な埋め込み表現モデルが不足している。
    • 多様な言語に対応し,かつ効率的な埋め込み表現モデルを開発すること。
    • F2LLM-v2は,80Mから14Bまでの8つのサイズを持つ汎用的な多言語埋め込みモデル群である。
    • 6000万件の高品質な公開データで学習されており,200以上の言語をサポートしている。
    • F2LLM-v2-14Bは11のMTEBベンチマークで1位となり,小規模モデルもリソース制約のある環境で最先端の性能を示す。

    Link: https://arxiv.org/abs/2603.19223

  • FinTradeBench:LLMのための金融推論ベンチマーク [cs.CE, cs.AI, cs.CL, cs.IR, q-fin.CP]目的:LLMにおける金融推論能力の評価
    • 金融市場は複雑であり,高度な分析と迅速な意思決定が求められるため,AIの活用が重要である。
    • 既存の金融QAベンチマークは,財務諸表データに偏っており,市場取引やファンダメンタルズとの関連性の評価が不十分である。
    • ファンダメンタルズと取引シグナルを統合し,LLMの金融推論能力を総合的に評価できるベンチマークを開発すること。
    • FinTradeBenchは,NASDAQ-100企業の10年間のデータを用いた1,400問の問題セットである。
    • 評価の結果,Retrieval Augmented Generation (RAG) はテキストベースのファンダメンタルズ推論を改善するが,取引シグナル推論には限定的な効果しか認められなかった。
    • 現在のLLMには,数値および時系列データの推論における課題が残されており,金融AI研究の今後の方向性を示唆する。

    Link: https://arxiv.org/abs/2603.19225

  • NavTrust:具現化ナビゲーションにおける信頼性評価ベンチマーク [cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY]目的:具現化ナビゲーションの信頼性評価
    • ロボットの自律的な移動は,生活や産業における様々なタスクの自動化に不可欠である。
    • 現実世界の環境下では,画像,深度情報,指示などにノイズや欠損が生じやすい。
    • 現実的な環境下でのノイズに対するロバスト性を評価し,信頼性の高いナビゲーションシステムを開発する。
    • NavTrustは,RGB,深度,指示といった入力モダリティを現実的なシナリオで系統的に破壊する統一的なベンチマークである。
    • 既存の最先端手法7つを評価した結果,現実的な破壊に対して性能が大幅に低下することが明らかになった。
    • RGB-Depthと指示の破壊に対するロバスト性を向上させるための4つの緩和戦略を評価し,実機ロボットでの改善を確認した。

    Link: https://arxiv.org/abs/2603.19229

  • 多言語文脈埋め込みのファインチューニングにおける最適輸送を用いたアライメント目的 [cs.CL, cs.AI]目的:多言語文脈埋め込みのアライメント目的
    • 言語間の意味的対応を捉え,クロスリンガルな知識転移を促進する上で重要である。
    • 文脈を考慮した埋め込みのアライメントは複雑であり,事前のアライメントペアに依存する場合がある。
    • 文脈内での単語アライメントを教師なしに学習し,クロスリンガル転移性能を向上させる。
    • 最適輸送をアライメント目的としてファインチューニングすることで,XNLIとXQuADタスクにおいてベースラインよりも改善が見られた。
    • 提案手法は,最近の研究と同等の競争力のある結果を達成した。
    • 事前のアライメントペアを必要とせず,文脈における単語アライメントを学習できる点が特徴である。

    Link: https://arxiv.org/abs/2110.02887

  • 予測的連想記憶:時間的共起を通じた類似性以上の想起 [cs.LG, cs.AI, cs.IR, cs.NE]目的:時間的共起に基づく連想構造の学習と想起
    • 脳の記憶システム理解は,認知科学や神経科学における重要な課題である。
    • 従来の記憶モデルは類似性に基づく検索に偏り,時間的共起という生物学的記憶の特徴を捉えきれていない。
    • 時間的共起構造を学習し,類似性だけでは捉えられない想起メカニズムを解明すること。
    • 提案された予測的連想記憶(PAM)は,時間的共起を学習することで,想起において高い精度を示した(Association Precision@1 = 0.970)。
    • PAMは,コサイン類似度がゼロの場合でも,経験的に関連する状態を高い確率で再現し(Recall@20 = 0.421),経験の有無を識別する能力も高い(AUC = 0.916)。
    • 時間的順序をシャッフルした場合,想起性能は著しく低下し,時間的共起構造が想起において重要な役割を果たすことが確認された。

    Link: https://arxiv.org/abs/2602.11322

  • ワークロード認識のための解釈可能なモデルを用いたメモリストレージシステムの共同設計 [cs.AR, cs.LG, cs.SY, eess.SY, physics.app-ph]目的:ワークロード認識を可能にする解釈可能なモデルによるメモリストレージシステムの共同設計
    • SSDは信頼性と性能の両立が重要であり,メモリ技術の進化に伴う課題解決が求められている。
    • メモリコンポーネントのばらつきや,ワークロードに応じた最適なエラー管理アルゴリズムの設計が困難である。
    • 機械学習を活用し,メモリコンポーネントとエラー管理アルゴリズムの共同設計による性能向上を目指す。
    • 提案手法は,数千台規模のデータセンターSSDの世代間アーキテクチャ進化をデータ駆動型で継続的に設計することを可能にする。
    • エラー管理とワークロードの関係性を学習し,広範なワークロードに対するアーキテクチャ設計空間の拡張に貢献する。
    • 統計的に解釈可能で説明可能な機械学習アルゴリズムを活用し,メモリコンポーネントとエラー管理アルゴリズムの相互作用を分析する。

    Link: https://arxiv.org/abs/2603.15571

  • ラプラス変換を用いた生成モデルのハルシネーション最適化 [math.OC, cs.AI, cs.SY, eess.SY]目的:生成モデルのハルシネーション最適化
    • 生成モデルは様々なタスクで高性能を示すが,誤った情報を生成する「ハルシネーション」が課題。
    • 生成モデルの複雑さから,その振る舞いを数学的に解析し,ハルシネーションを抑制する手法が不足。
    • 制御理論の視点から生成モデルを捉え,ラプラス変換による解析でハルシネーションを最適化する。
    • 生成モデルを確率的動力学系として捉え,ラプラス変換による解析の可能性を示した。
    • シミュレーションによる応答の再現により,ハルシネーションへの対処法を提示した。
    • 学習の進行状況が対応するシステム応答と一致することを示し,最適化手法の開発に繋がる洞察を得た。

    Link: https://arxiv.org/abs/2603.18022

  • PCOV-KWS:パーソナライズされたカスタマイズ可能なオープンボキャブラリキーワードスポッティングのためのマルチタスク学習 [eess.AS, cs.AI, cs.CL, cs.SD]目的:パーソナライズされたカスタマイズ可能なオープンボキャブラリキーワードスポッティングのマルチタスク学習フレームワーク
    • IoT技術の発展に伴い,音声アシスタントの利用が増加し,プライバシーとパーソナライズへのニーズが高まっている。
    • 従来のキーワードスポッティングは,特定の語彙に限定され,個人に最適化された検出が困難であった。
    • 個人認証と組み合わせたキーワードスポッティングにより,プライバシーを保護しつつ,高精度な検出を実現する。
    • 提案手法は,従来のベースライン手法と比較して,評価結果において優れた性能を示した。
    • パラメータ数と計算資源が少なく,軽量なネットワークで高い性能を達成した。
    • softmaxベースの損失関数に代わる新しい学習基準により,カテゴリ間の競合を解消した。

    Link: https://arxiv.org/abs/2603.18023

  • ProKWS:音素と韻律の共同学習による個別化キーワードスポッティング [eess.AS, cs.AI, cs.CL, cs.SD]目的:個別化キーワードスポッティングの性能向上
    • 音声認識技術は,人と機械の自然な対話を実現する上で不可欠である。
    • 従来のキーワードスポッティングは,話者固有の韻律情報を無視している。
    • 話者固有の韻律情報を活用し,キーワードの認識精度を向上させる。
    • ProKWSは,音素と韻律を共同で学習する新しいフレームワークである。
    • 音素の頑健な表現と話者固有の韻律パターンを抽出するデュアルストリームエンコーダを設計した。
    • 標準ベンチマークにおいて,最先端モデルと同等の性能を示し,音調や意図の変化に対する堅牢性も確認された。

    Link: https://arxiv.org/abs/2603.18024

  • 物理的に正確な微分逆レンダリング:無線周波数デジタルツイン [eess.SP, cs.GR, cs.LG]目的:無線周波数デジタルツインの構築
    • 産業界におけるシステム設計に変革をもたらすデジタルツイン技術の重要性が高まっている。
    • 従来のRFシミュレータは微分不可能であり,デジタルツインとしての活用が制限されてきた。
    • 物理に基づいた微分可能なRFシミュレーションフレームワークを開発し,その問題を解決する。
    • 提案手法RFDTは,物理的なエッジ回折遷移関数を用いて不連続性を解消する。
    • フーリエ領域処理の非凸性を信号領域変換の代理モデルで軽減する。
    • RFDTは,実際のRF測定からデジタルツインを正確に再構築できることを示す。

    Link: https://arxiv.org/abs/2603.18026

  • KD-EKF:知識蒸留を用いた適応共分散EKFによるロバストなUWB/PDR屋内位置推定 [eess.SP, cs.AI, cs.LG]目的:UWB/PDR屋内位置推定におけるロバスト性の向上
    • 屋内環境における高精度な位置推定は,ロボットやAR/VRなどの多様な応用において不可欠である。
    • UWBはNLOS環境下で精度が低下し,PDRは時間の経過とともに誤差が累積するという課題がある。
    • 本研究は,UWB/PDRの履歴データから信頼度を学習し,EKFの測定共分散を適応的に調整することで,この課題を解決する。
    • 提案手法KD-EKFは,固定パラメータのEKFと比較して,位置推定誤差を大幅に削減できる。
    • LOS/NLOS遷移時の誤差スパイクを抑制し,長期間のドリフトを軽減する効果が確認された。
    • 環境の変化に対応可能な,ロバストな測定の信頼性モデリングを実現している。

    Link: https://arxiv.org/abs/2603.18027

  • 直感主義ファジー論理,U-NetおよびU-Net++アーキテクチャを用いた新規フレームワーク:MRI脳画像セグメンテーションの事例研究 [eess.IV, cs.LG]目的:MRI脳画像セグメンテーションの精度向上
    • 脳画像解析や神経疾患の診断において,正確な脳画像セグメンテーションは不可欠である。
    • 従来の深層学習モデルは,画像内の不確実性への対応が課題であった。
    • 本研究は,画像の不確実性を効果的に処理するセグメンテーション手法を開発する。
    • 提案手法であるIFS U-NetおよびIFS U-Net++は,既存のU-NetおよびU-Net++アーキテクチャと比較して,セグメンテーション性能を向上させる。
    • 直感主義ファジー論理を導入することで,部分体積効果や境界の曖昧さといった画像内の不確実性を効果的に処理することが可能となる。
    • IBSRおよびOASISデータセットを用いた評価実験により,提案手法の有効性が定量的に確認された。

    Link: https://arxiv.org/abs/2603.18042

  • 生成的レプリカ交換:レプリカ交換シミュレーションを加速するためのフローベースのフレームワーク [q-bio.BM, cs.LG, physics.comp-ph]目的:レプリカ交換シミュレーションの加速
    • 分子シミュレーションにおいて,平衡状態の探索は計算コストが高い
    • 従来のレプリカ交換法では,多数の中間温度レプリカが必要となる
    • 中間温度レプリカを削減し,計算効率を向上させる
    • 生成モデルを活用することで,温度ラダーを必要としないレプリカ交換法を実現した
    • ターゲット温度での単一レプリカシミュレーションで熱力学的な厳密性を維持できる
    • ベンチマークテストにより,GREXの効率と実用性が確認された

    Link: https://arxiv.org/abs/2603.18076

  • FRB 20240114Aにおける二峰性ドリフトレート構造の発見:二つの放射領域の証拠 [astro-ph.HE, cs.AI]目的:FRB 20240114Aのドリフトレート分布における二峰性構造の特定
    • 高速電波バーストは宇宙における未解明な現象であり,その起源の解明は天体物理学における重要課題である。
    • ドリフトレートの分布は多様であり,その物理的メカニズムは未だ十分に理解されていない。
    • FRB 20240114Aにおけるドリフトレートの二峰性構造を明らかにすることで,放射メカニズムの解明を目指す。
    • FRB 20240114Aのドリフトレート分布において,2.5倍高いドリフトレートを示す明確なサブポピュレーションが発見された。
    • この二峰性は,単一成分のバーストに限定しても確認され,結果の信頼性が示された。
    • 高いドリフトレートを示すサブポピュレーションは,ピーク周波数が低く,持続時間が短いという特徴が確認された。

    Link: https://arxiv.org/abs/2603.18109

  • クロスマーケットの異質性を考慮した文脈的共同アソートメント・プライシングにおける転移学習 [stat.ME, cs.LG]目的:クロスマーケットの異質性を考慮した文脈的共同アソートメント・プライシングにおける転移学習の枠組み
    • 市場環境は多様であり,顧客の嗜好も変化するため,最適なアソートメントと価格設定は重要である。
    • 異なる市場間で顧客の嗜好が異なる場合,単純なデータ統合はバイアスを生じ,学習の効率を損なう可能性がある。
    • 転移学習を活用し,バイアスを低減することで,新しい市場における学習速度の向上を目指す。
    • 提案手法TJAPは,統計的不確実性と転移学習によるバイアスを分離して捉える信頼区間を構築する。
    • 理論的分析により,TJAPが最適な学習速度とバイアスのトレードオフを実現することが示された。
    • 数値実験の結果,TJAPはターゲット市場のみでの学習や単純なデータ統合よりも優れた性能を発揮することが確認された。

    Link: https://arxiv.org/abs/2603.18114

  • 汎用超音波基礎モデルにおけるタスク集約の理解 [eess.IV, cs.AI]目的:汎用性のある超音波基礎モデルのためのタスク集約戦略
    • 臨床画像診断の精度向上に不可欠であり,多様なタスクを統合することで効率化が期待される。
    • 単一のモデルで複数のタスクを扱う際,タスク固有のモデルよりも性能が低下する可能性がある。
    • タスクの特性とデータ規模を考慮した最適な集約戦略を確立し,性能低下を防ぐことを目指す。
    • 超音波タスクの集約効果は,訓練データ量に大きく依存することが示された。
    • 臨床的にグループ化された訓練は,データが豊富な場合に性能を向上させるが,データが少ない場合は負の転移を引き起こす可能性がある。
    • 全タスクを統合した訓練は,臨床グループ間でより一貫した性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.18123

  • ボソンガウス量子状態のサンプル最適学習に向けて [quant-ph, cs.IT, cs.LG, math-ph, math.IT, math.MP]目的:ボソンガウス量子状態の学習に必要なサンプル数の理論的限界
    • 量子計算,通信,センシング等の量子技術において,連続変数系が重要な役割を果たす。
    • 未知のボソンガウス量子状態を効率的に特徴づけるためのサンプル数の最小限界が未だ不明である。
    • ガウス測定と任意の測定に対するサンプル数の下限を導出し,学習の効率性を明らかにすること。
    • nモードガウス状態をεのトレース距離で学習するために必要なコピー数は,ガウス測定でΩ(n^3/ε^2),任意の測定でΩ(n^2/ε^2)である。
    • ガウス状態が純粋または受動的である場合,サンプル数の上限はÕ(n^2/ε^2)となる。純粋状態と受動的状態では最適な学習に必要な測定が異なる。
    • 単一モードガウス状態の学習において,非エンタングルメントなガウス測定ではサンプル数はÕ(E/ε^2)であり,適応的な手法が不可欠である。

    Link: https://arxiv.org/abs/2603.18136

  • 様々な形状とサイズのResNet:大規模極限における学習ダイナミクスの収束 [astro-ph.IM, cs.HC, stat.ML, cs.LG]目的:残差ニューラルネットワーク(ResNet)の学習ダイナミクスの収束
    • 深層学習は画像認識や自然言語処理など,多様な分野で高い性能を発揮している重要な技術である。
    • ResNetの学習は,ネットワークの深さ,幅,埋め込み次元に依存し,適切なパラメータ設定が困難である。
    • 大規模極限における学習ダイナミクスの収束性を明らかにし,パラメータ設定の指針を示す。
    • ResNetの学習ダイナミクスは,深さL,幅M,埋め込み次元Dが無限大に近づくにつれて,ある極限状態に収束する。
    • 誤差はO(1/L + sqrt(D/(L M)) + 1/sqrt(D))で評価され,埋め込み空間での実験結果と整合性がある。
    • パラメータ数Pに対して,収束率はO(P^(-1/6))となり,最適なスケーリング則が導かれる。

    Link: https://arxiv.org/abs/2603.18168

  • データ準備の落とし穴:最初の一歩の誤り [stat.ML, cs.LG, stat.AP]目的:保険データにおける統計的妥当性と信頼性を損なう可能性のあるデータ準備段階の課題
    • 保険データ分析は,リスク評価や保険料算出に不可欠であり,その精度が事業の成否を左右する。
    • 従来のデータ分割手法は,極端に不均衡な保険損失データに対して不安定な結果をもたらすことが多い。
    • 統計的に厳密なデータ準備手法を用いて,保険損失モデリングの信頼性と効率性を向上させる。
    • 提案手法は,サポートポイントを用いた分割とChatterjee相関係数による特徴量スクリーニングを組み合わせることで,データの分布の一貫性を確保し,特徴量の関連性を捉える。
    • シミュレーションデータと実データを用いた評価の結果,モデルの頑健性,解釈性,計算効率が大幅に向上することが示された。
    • 本研究は,高リスクな保険アプリケーションにおいて信頼性の高い結果を得るための重要な方法論的改善を提供する。

    Link: https://arxiv.org/abs/2603.18190

  • ドープされたハバード模型における符号問題を正規化フローで克服 [cond-mat.str-el, cs.LG, hep-lat]目的:ドープされた相関系の理解
    • 相関系物質の物性理解には不可欠な模型であり,その研究は物性物理学の発展に貢献する。
    • 有限化学ポテンシャル下では符号問題が深刻であり,数値シミュレーションの妨げとなっている。
    • 正規化フローとアニーリング法を用いて,符号問題を克服し,効率的な数値シミュレーションを実現する。
    • 本研究は,最新のハイブリッドモンテカルロ法と比較して,厳密対角化の結果を高精度に再現できる。
    • 統計的不確かさを1桁以上削減することに成功し,ドープされた相関系のシミュレーションの新たな道を開く。
    • 補助場法におけるスピン基底を用いることでエルゴード性を改善し,効率的なサンプリングを可能にした。

    Link: https://arxiv.org/abs/2603.18205

  • ハイパー弾性材料の高精度応力予測のためのハイブリッド条件付き拡散-DeepONetフレームワーク [stat.ML, cs.LG]目的:ハイパー弾性材料における応力場の予測
    • 複雑な微細構造を持つ材料の応力予測は,材料設計や構造解析において重要である。
    • 従来の深層学習モデルは,応力集中や応力幅の広さの表現が難しく,精度に課題がある。
    • 拡散モデルとDeepONetの長所を組み合わせ,応力分布の空間構造と全体の振る舞いを正確に捉える。
    • 提案手法cDDPM-DeepONetは,UNet,DeepONet,cDDPMと比較して,予測精度が1〜2桁向上した。
    • スペクトル解析の結果,有限要素法による解との一致度が高く,全体的な挙動と局所的な応力集中を両立している。
    • 拡散モデルが空間構造,DeepONetが全体的な振る舞いを担当することで,スペクトルバイアスとスケールバイアスを軽減した。

    Link: https://arxiv.org/abs/2603.18225

  • 自発会話における自動音声認識品質がアルツハイマー病検出に与える影響:語彙モデリングと統計的検証による再現可能なベンチマーク研究 [q-bio.QM, cs.CL, cs.LG]目的:アルツハイマー病検出における自動音声認識品質の影響評価
    • アルツハイマー病の早期発見は,患者の生活の質を維持する上で重要である。
    • 自発会話からのアルツハイマー病検出において,自動音声認識の品質が評価に与える影響は不明確である。
    • 自動音声認識品質の重要性を示すことで,臨床応用における最適なシステム選択に貢献する。
    • 自動音声認識の品質が分類性能に統計的に有意な影響を与えることが示された。
    • Whisper-smallによる書き起こしが,Whisper-baseによるものより高い性能を示し,Linear SVMで0.7850以上のバランスのとれた精度を達成した。
    • 認知機能が正常な人はより精密な言語を使用し,アルツハイマー病患者は曖昧さや言い淀みが増加する傾向が明らかになった。

    Link: https://arxiv.org/abs/2603.18239

  • 長距離相互作用のためのSO(3)同変な逆空間ニューラルポテンシャル [physics.chem-ph, cs.AI]目的:長距離相互作用を記述するためのSO(3)同変なニューラルポテンシャルの開発
    • 分子や凝縮相系の理解に不可欠な長距離相互作用の正確な記述が課題である。
    • 従来の機械学習ポテンシャルは,長距離相互作用を局所的にしか扱えず,精度に限界がある。
    • SO(3)同変性を保ちつつ,長距離の異方性相関を正確に記述するポテンシャルの構築を目指す。
    • EquiEwaldは,エワルド和の概念を導入し,逆空間におけるSO(3)同変なメッセージパッシングを実現した。
    • EquiEwaldは,既存のポテンシャルと比較して,エネルギーと力の精度,データ効率,長距離外挿能力を向上させた。
    • 本研究は,長距離相互作用を扱える機械学習ポテンシャルの物理的に妥当なパラダイムを確立した。

    Link: https://arxiv.org/abs/2603.18389

  • 線形混合下における多ドメイン因果ベイズ推定 [stat.ML, cs.LG, stat.ME]目的:因果的潜在変数の推定
    • 高次元データから低次元の因果構造を学習する研究分野は,データ理解や意思決定に不可欠である。
    • 因果表現学習における識別可能性は研究されてきたが,推定手法の開発は遅れている。
    • 複数ドメインからのデータを活用し,因果変数の推定精度向上を目指す。
    • 提案手法は,共有された因果モデルにおけるドメイン間の差異を介入としてモデル化することで,多ドメイン因果表現学習の同時推論問題を解決する。
    • 線形測定モデルと介入事前分布を用いることで,因果構造に基づいたスコアマッチングによるEM様アルゴリズムを開発した。
    • 合成データ実験において,提案手法は他の因果表現学習手法よりも高い推定精度を達成した。

    Link: https://arxiv.org/abs/2603.18404

  • 選択的推論によるクラスタリングパイプラインの統計的検定フレームワーク [stat.ML, cs.LG]目的:クラスタリングパイプラインにおけるクラスタリング結果の有意性の評価
    • データ分析は,複雑なデータから洞察を得る上で不可欠であり,その信頼性が重要である。
    • データ依存的な手順を含むパイプラインでは,統計的信頼性の評価が困難である。
    • 複数の分析手法を組み合わせたパイプラインにおける結果の統計的信頼性を定量的に評価する。
    • 選択的推論に基づく新しい統計的検定フレームワークを提案し,クラスタリングパイプラインの有意性を評価する。
    • 提案手法は,事前に定義されたコンポーネントから構成されるクラスタリングパイプラインに対して,有効な統計的検定を構築できる。
    • シミュレーションデータと実データを用いた実験により,提案手法の有効性と,設定された有意水準でのタイプIエラー制御が確認された。

    Link: https://arxiv.org/abs/2603.18413

  • 比例的条件下における線形ノイズ除去器の精密な性能 [math.OC, cs.RO, cs.SY, eess.SY, math.OC, cs.CG, cs.MS, stat.ML, cs.LG, math.OC]目的:比例的条件下における線形ノイズ除去器の汎化誤差の解析
    • データ解析において,ノイズ除去は信号の質を向上させ,正確な情報抽出に不可欠である。
    • 従来のWienerフィルタは共分散行列が未知の場合に適用が難しく,サンプルからの推定誤差が課題となる。
    • 拡散モデルにおけるノイズ除去に着目し,データから直接線形ノイズ除去器を学習することで,その性能を向上させる。
    • 提案手法は,凸ガウスMin-Max定理を用いて,ノイズ除去器の汎化誤差を解析的に導出した。
    • ノイズの共分散行列を最適化することで,最適なノイズ除去器を得ることが可能となった。
    • 数値シミュレーションの結果,提案手法は経験的Wienerフィルタよりも優れた性能を示し,サンプル数が増加すると最適Wienerフィルタに近づくことが確認された。

    Link: https://arxiv.org/abs/2603.18483

  • 部分測定からの疎なニューラル結合性の回復:グレンジャー因果関係による改良を伴う共分散に基づくアプローチ [q-bio.QM, cs.NE]目的:ニューラル回路の結合性推定
    • 神経科学において,脳の機能解明にはニューロン間の結合性の把握が不可欠である。
    • ニューロン全体の同時記録は困難であり,不完全なデータからの結合性推定が課題となっていた。
    • 部分的な測定データから,ニューロン間の結合性を高精度に推定することを目指している。
    • 提案手法は,複数回の記録セッションにわたるペアワイズ共分散の蓄積により,全結合行列を再構成する。
    • グレンジャー因果関係による改良により,生物学的な制約を組み込むことで推定精度を向上させている。
    • 刺激は識別可能性を高める一方,固有のダイナミクスを阻害するというトレードオフが存在することが示された。

    Link: https://arxiv.org/abs/2603.18497

  • 満足化後悔最小化における非定常性の危険性 [math.OC, cs.MA, cs.RO, stat.ML, cs.LG]目的:非定常K腕バンディットにおける満足化後悔保証
    • 意思決定における満足化の原理に基づき,現実的な状況での意思決定モデルの精度向上を目指す。
    • 非定常環境下では,従来の定常環境下で有効な手法が適用できず,後悔が大きくなる可能性がある。
    • わずかな非定常性でも後悔が時間とともに増加することを理論的に示す。
    • 一般化可能な区分的定常環境において,最適な後悔は$L$個の定常区間に依存して$\Theta(L\log T)$となる。
    • 区間数が2以上の場合,わずかな非定常性でも後悔は時間$T$に比例して増加する。
    • 非定常バンディットに対応したFanoに基づく新しいフレームワークを提示し,従来のFano法を拡張した。

    Link: https://arxiv.org/abs/2603.18514

  • SCISSR:落書き条件によるインタラクティブな手術用セグメンテーションと改良 [eess.IV, cs.AI, cs.CV]目的:手術場面における組織と器具のセグメンテーション手法
    • 手術支援システムの精度向上には,正確な組織・器具の認識が不可欠である。
    • 手術画像は形状が不規則で構造が薄く,反射や遮蔽が頻繁に発生するため,正確なセグメンテーションが困難である。
    • 落書きによる操作で,手術画像のセグメンテーションを効率的に修正し,精度を向上させる。
    • SCISSRは,落書きを入力として利用することで,手術場面のセグメンテーションをインタラクティブに行うフレームワークである。
    • EndoVis 2018データセットで95.41%のDice係数を,CholecSeg8kデータセットで96.30%のDice係数を,それぞれ数回のインタラクションで達成した。
    • この手法は,従来の点プロンプトによる反復的なアプローチよりも優れた性能を示す。

    Link: https://arxiv.org/abs/2603.18544

  • 線形最適化のための決定に十分な表現学習 [math.OC, cs.CC, cs.LG]目的:線形計画法における最適な決定を復元するのに十分な圧縮データセットの構築
    • 最適化問題は,機械学習や経済学など多くの分野で不可欠であり,効率的な解法が求められている。
    • 既存手法では,決定に十分なデータセットのサイズを最小化する計算が困難である。
    • 決定に十分なデータセットを効率的に構築し,圧縮率を向上させることを目指す。
    • 決定関連次元$d^\star$の計算や,データセットの十分性の判定がNP困難・coNP困難であることが示された。
    • 非退化条件下では,多角形カット平面法を用いて,決定に十分なデータセットを多項式時間で構築できる。
    • 文脈線形最適化への応用により,汎化誤差が改善され,次元$d$の代わりに$d^\star$に依存する予測器が得られた。

    Link: https://arxiv.org/abs/2603.18551

  • No-U-ターン・サンプラー変種に関する理論的比較:ガウス分布を対象とした収束条件と混合時間の解析 [stat.ML, cs.LG, math.PR]目的:No-U-ターン・サンプラーの変種に関する幾何学的エルゴード性および混合時間
    • ベイズ統計推論は多くの分野で利用され,計算効率が重要である。
    • No-U-ターン・サンプラーの理論的性質,特に変種間の比較は十分ではない。
    • NUTS-mulとNUTS-BPSの収束条件と混合時間の理論的解析を行う。
    • NUTS-mulとNUTS-BPSは,ターゲット分布の尾部特性に依存して幾何学的エルゴード性を示す。
    • 混合時間は両者ともに次元$d$に対して$O(d^{1/4})$オーダーで増加する。
    • しかし,NUTS-BPSの方が定数項が小さく,収束速度はわずかに速い。

    Link: https://arxiv.org/abs/2603.18640

  • ホルター心電図から睡眠へ:AIを活用した単一誘導心電図の睡眠表現型への転用 [cond-mat.mtrl-sci, cs.DB, eess.SP, cs.LG]目的:睡眠表現型の評価とホルター心電図による心臓表現型の評価
    • 睡眠障害と心血管リスクは密接に関連しており,大規模スクリーニングの重要性が増している。
    • 従来のポリソムノグラフィーは,資源集約的で,家庭での多晩夜の評価には不向きである。
    • ホルター心電図を用いて,簡便かつ大規模な睡眠・心臓モニタリングを可能にすること。
    • 単一誘導心電図のみを入力として,睡眠表現型と心臓表現型の両方を同時に評価するフレームワークを開発した。
    • 複数の公的コホートを用いて検証を行い,異種コホートへの一般化可能性と実用性を評価した。
    • 本パラダイムは,従来のポリソムノグラフィー中心のワークフローを超えた,低負担で大規模な心臓-睡眠モニタリングの基盤を提供する。

    Link: https://arxiv.org/abs/2603.18714

  • SRRM:小差異領域における再帰的輸送サロゲートの改善 [math.CO, cs.DM, math.AP, cs.SY, eess.SY, stat.ML, cs.LG, stat.AP]目的:Wasserstein距離の効率的な近似手法の性能向上
    • Wasserstein距離は,確率分布間の距離を測る上で重要であり,機械学習や統計学に応用される。
    • 再帰的分割法の統計的性質や,小差異領域における解像度が十分には理解されていない。
    • 小差異領域における解像度低下の原因を特定し,より高精度な近似手法を開発すること。
    • 提案手法SRRMは,既存手法RRMの欠点を克服し,Wasserstein距離を高精度に近似できる。
    • SRRMは,支配的な不一致メカニズムを抑制することで,小差異領域での解像度を向上させている。
    • SRRMは,わずかな計算コスト増加で,より忠実なサロゲートを提供し,実用性を高めている。

    Link: https://arxiv.org/abs/2603.18781