arXiv雑要約

AI - 2026/03/19 公開

クロスアテンション機構の再考：ドメイン適応学習のための有益なノイズの活用 [cs.SI, cs.RO, cs.MA, cs.NI, cs.CV, cs.AI]目的：ドメイン適応学習における表現学習の性能向上
- 教師なしドメイン適応は，ラベルなしターゲットドメインへの知識転移に不可欠。
- ドメインギャップやスケールギャップが性能低下の大きな要因となっている。
- クロスアテンション機構に有益なノイズを加えることで，ロバスト性を高める。
- 提案手法DACSMは，VisDA-2017, Office-Home, DomainNetにおいて最先端の性能を達成した。
- 特にVisDA-2017の「トラック」クラスで+5.9%の性能向上を示し，スケール差異への強固さを示した。
- ドメイン翻訳，ノイズ強化アテンション，スケール対応アライメントの組み合わせが有効であることが示された。
Link: https://arxiv.org/abs/2603.17474
UniSAFE：統一マルチモーダルモデルの安全性評価のための包括的ベンチマーク [cs.CL, cs.CV, cs.AI, cs.CL]目的：統一マルチモーダルモデルの安全性評価
- マルチモーダルモデルは多様な応用可能性を持つが，安全性評価は不可欠である。
- 既存の安全性ベンチマークはタスク・モダリティが分散し，総合的な評価が困難である。
- マルチモーダルモデルのシステムレベルの脆弱性を包括的に評価する手段を提供する。
- UniSAFEは7種類のI/Oモダリティ組み合わせに対応した包括的なベンチマークである。
- 評価の結果，マルチイメージ合成や複数ターン設定において安全性の問題が顕著であった。
- 画像出力タスクはテキスト出力タスクよりも脆弱性が高いことが示された。
Link: https://arxiv.org/abs/2603.17476
自動展開近接勾配降下法：解釈可能な波形最適化へのAutoMLアプローチ [cs.LG, cs.AI]目的：無線ビームフォーミングと波形の最適化
- 無線通信の性能向上は重要であり，特にスペクトル効率の最大化は不可欠である。
- 従来の最適化手法は計算コストが高く，大規模なデータが必要となる場合がある。
- AutoMLを用いて最適化アルゴリズムを自動的に設計し，効率と解釈性を両立させる。
- 提案手法Auto-PGDは，従来の200イテレーションPGDソルバーのスペクトル効率の98.8%を，わずか5層で達成する。
- AutoGluonとTPEを用いたハイパーパラメータ最適化により，学習に必要なデータ量を100サンプルに削減した。
- 層ごとの合計レートのロギングにより，モデルの透明性を高め，解釈性を向上させた。
Link: https://arxiv.org/abs/2603.17478
いつ注意を払うかを学習する：長文脈LLMのための条件付きメモリアクセス [cs.CL, cs.LG]目的：長文脈LLMにおける条件付きメモリアクセス
- 大規模言語モデルの性能向上は，長文脈の理解能力に依存する場面が多い。
- 従来のAttention機構は計算量が膨大で，長文脈への対応が困難である。
- トークンごとにAttentionの範囲を制御し，計算効率を改善することを目指す。
- L2AはQwen 2.5およびQwen 3モデルの有効文脈長を32Kから128Kトークンに拡張した。
- L2Aは標準的な長文脈学習と同等の性能を維持しつつ，Global Attentionを約80%のトークンでスキップする。
- L2AはFlashAttentionと比較して，トレーニングスループットと最初のトークンまでの時間を最大2倍向上させた。
Link: https://arxiv.org/abs/2603.17484
QuantFL：事前学習済みモデル量子化によるエッジIoT向け持続可能な分散学習 [cs.RO, cs.SY, eess.SY, cs.ET, eess.SY, cs.SY, eess.SP, cs.CL, cs.CE, cs.LG, cs.AI]目的：エッジIoTデバイスにおける持続可能な分散学習のためのフレームワーク
- IoTデバイスの普及に伴い，プライバシー保護とエネルギー効率が重要な課題となっている。
- 分散学習は通信コストが高く，特にバッテリー駆動のIoTデバイスではエネルギー消費が問題である。
- 事前学習済みモデルの活用により，通信コストを削減し，エネルギー効率の良い分散学習を実現する。
- QuantFLは，事前学習の統計的特性を利用し，メモリ効率の良い量子化を可能にする。
- MNISTとCIFAR-100の実験において，QuantFLは通信量を最大40%削減し，既存手法と同等以上の性能を達成した。
- アップリンクおよびダウンリンクのコストを考慮した結果，バッテリー制約のあるIoTネットワークでの実用的な分散学習が可能となった。
Link: https://arxiv.org/abs/2603.17507
機械の検出：アーキテクチャ，ドメイン，敵対的条件におけるAI生成テキスト検出器の包括的ベンチマーク [cs.CL, cs.AI]目的：AI生成テキストの検出器の性能評価
- 大規模言語モデルの急速な普及に伴い，AI生成テキストの検出が重要になっている。
- 既存のベンチマークは限定的な条件下での評価に留まり，汎用性や頑健性に課題がある。
- 多様な条件下での検出器の性能を評価し，汎用性と頑健性を明らかにする。
- Transformerモデルは同分布データで高い性能を示すが，ドメイン変更により性能が低下する。
- XGBoostスタイロメトリックモデルはTransformerモデルと同等の性能を示し，解釈可能性が高い。
- LLMベースの検出器は性能が低く，生成器と検出器の間のバイアスに影響を受ける。パープレキシティベースの手法は修正により有効である。
Link: https://arxiv.org/abs/2603.17522
フィッツHugh-Nagumoモデルに対するニューラル演算子の並進不変性 [cs.LG, cs.NA, math.NA]目的：ニューラル演算子によるフィッツHugh-Nagumoモデルの解演算子の学習
- 偏微分方程式の解法は科学技術計算の根幹であり，高精度かつ高速な解法が求められている。
- 従来の数値解法は計算コストが高く，複雑な問題に対しては適用が困難な場合がある。
- ニューラル演算子を用いて，計算コストを抑えつつ高精度な解を得る手法の確立を目指す。
- ニューラル演算子は，フィッツHugh-Nagumoモデルのような励起性細胞の時空間ダイナミクスを捉える能力を持つことが示された。
- CNOsは並進されたテストデータに対して良好な性能を示したが，訓練コストは高い傾向にあった。
- FNOsは訓練誤差は低いものの，推論時間が長く，並進されたダイナミクスに対する予測精度は低かった。
Link: https://arxiv.org/abs/2603.17523
KineVLA：バイレベル行動分解による運動学を意識した視覚言語行動モデルへ [cs.RO, cs.AI]目的：運動学を豊富に含む視覚言語行動タスクの提案と，そのためのフレームワークKineVLAの開発
- ロボットの複雑な操作を言語で指示するためには，高度な理解と正確な実行が必要となる。
- 既存の行動指示は運動学的な情報を十分に捉えきれておらず，微調整や個別化が難しい。
- 言語と行動を整合させ，指示レベルの運動学的な仕様に適応可能なロ봇操作を実現すること。
- KineVLAは，目標レベルの不変性と運動学レベルの変動を明示的に分離するバイレベルな行動表現を採用。
- シミュレーションと実世界のロボットプラットフォームにおける実験で，KineVLAは既存のVLAモデルを上回る運動学性能を示した。
- より正確で制御可能，かつ汎用性の高いロボット操作行動を実現することに貢献する。
Link: https://arxiv.org/abs/2603.17524
AirDDE：大気質予測のための多要素ニューラル遅延微分方程式 [cs.LG, cs.AI]目的：大気質予測の精度向上
- 公衆衛生と環境持続可能性にとって重要な課題であり，その精度向上が求められている。
- 既存の深層学習手法では，汚染物質の伝播遅延が考慮されていない場合が多い。
- 汚染物質の伝播遅延を考慮した物理に基づいた予測モデルを開発すること。
- AirDDEは，遅延微分方程式の枠組みを導入することで，従来のモデルよりも平均MAEを8.79%削減した。
- 記憶増強型アテンションモジュールにより，多要素データに基づいて適応的に遅延効果を捉えることが可能となった。
- 拡散・移流方程式に基づいた物理誘導の遅延進化関数により，現実的な汚染物質の蓄積パターンをモデル化できた。
Link: https://arxiv.org/abs/2603.17529
AdapTS：マルチクラスおよび継続的な視覚異常検知のための軽量な教師・生徒アプローチ [cs.CV, cs.AI]目的：マルチクラスおよび継続学習環境における視覚異常検知のための統一的な教師・生徒フレームワーク
- 産業検査において視覚異常検知は不可欠であり，品質管理の自動化と効率化に貢献する。
- 既存手法は単一カテゴリに限定され，現実の複雑な環境でのマルチクラス・継続学習に対応できない。
- 軽量なアダプターを活用し，メモリ消費を削減することで，エッジ環境へのデプロイを可能とする。
- AdapTSは，MVTec ADおよびVisAデータセットにおいて，既存の教師・生徒法と同等の性能を達成した。
- 特に，AdapTS-Sは，STFPM，RD4AD，DeSTSegと比較して大幅にメモリ消費量を削減し，エッジデプロイの実現可能性を高めた。
- アダプターの動的な選択機構は高い精度を示し，タスク識別の効率化に貢献する。
Link: https://arxiv.org/abs/2603.17530
Rel-Zero：AI編集に対する堅牢なゼロウォーターマーキングのためのパッチペア不変性の活用 [cs.CV, cs.AI, cs.CR]目的：AI編集に対するゼロウォーターマーキングの堅牢性向上
- デジタルコンテンツの信頼性確保が重要視されており，改ざん検知技術の必要性が高まっている。
- 従来のウォーターマーキングは画質劣化を招き，既存のゼロウォーターマーキングは高度な編集に弱い。
- パッチペア間の関係性の不変性を利用し，非侵襲かつ堅牢な認証メカニズムを構築する。
- 拡散モデルによる画像編集に対する脆弱性を克服し，ウォーターマークの堅牢性を大幅に向上させた。
- Rel-Zeroは画像への変更を伴わず，編集に不変なパッチ関係からユニークなウォーターマークを生成する。
- 様々な編集モデルや操作に対して，既存のゼロウォーターマーキング手法よりも優れた性能を示した。
Link: https://arxiv.org/abs/2603.17531
多孔質媒体の微細構造からの異方性透水係数テンソル予測：ハイブリッドCNN-Transformerを用いた物理情報に基づく漸進的転移学習 [cs.LG, physics.flu-dyn]目的：多孔質媒体の微細構造画像からの透水係数テンソルの正確な予測
- 地下流体モデル構築において，透水係数予測は不可欠である。大規模な不確実性定量化や貯留層最適化を可能にする。
- 直接数値シミュレーションにはサンプルあたり数時間が必要であり，大規模な計算が困難である。
- 物理情報に基づく深層学習により，計算コストを削減し，高精度な透水係数予測を実現する。
- 提案手法は，MaxViTハイブリッドCNN-Transformerアーキテクチャと漸進的転移学習，微分可能な物理制約を組み合わせる。
- テストセットにおいて，分散重み付きR2 = 0.9960という高い予測精度を達成した。既存の教師あり学習モデルより33%の分散減少。
- 大規模な事前学習，微分可能な物理制約の組み込み，および診断的故障モード分析に基づく漸進的学習の有効性が示された。
Link: https://arxiv.org/abs/2603.17532
大規模検索，レコメンデーション，推論のための統一言語モデル [cs.IR, cs.LG]目的：大規模な異種カタログにおける検索，レコメンデーション，推論を統合的にサポートする単一のエンドツーエンドモデルの構築
- 近年，LLMの応用範囲は拡大しており，様々な分野での活用が期待されている。
- LLMを実用的なシステムに組み込む際，多様なエンティティへの対応や，厳格な遅延・信頼性要件が課題となる。
- LLMが複数のドメインのエンティティ，ユーザー，言語を統合的に推論できるよう，自己完結型のアプローチを確立する。
- NEOは，LLMをツールなしでカタログにグラウンディングするフレームワークであり，アイテムをSIDとして表現し，自然言語とSIDを共有シーケンスに織り交ぜることで単一モデルでタスクを実行する。
- テキストプロンプトによってタスク，エンティティタイプ，出力形式を制御し，制約付きデコーディングによりカタログに存在するアイテムの生成を保証する。
- 1000万点を超えるアイテムを持つ大規模な実カタログを用いた実験で，NEOはタスク固有のベースラインよりも優れた性能を示し，タスク間の知識転移も確認された。
Link: https://arxiv.org/abs/2603.17533
XAIのための情報的な準事実：人々が好む詳細な説明 [cs.AI, cs.LG]目的：説明可能なAIにおける，予測結果が変化しない範囲での入力特徴量の変更に関する準事実の説明手法の改良
- AIの判断根拠を人間が理解することは，信頼性向上や公平性の確保に不可欠である。
- 従来の準事実の説明は，なぜ特徴量の変更が結果に影響しないのか説明不足であった。
- 隠れた特徴量を含めた詳細な説明により，準事実の説明の理解度と有用性を高める。
- 提案手法（ISF）は，既存手法よりも情報量が多く，質の高い準事実を生成できることを実験で示した。
- ユーザー調査の結果，人々は単純な準事実よりも，詳細な説明を好むことが明らかになった。
- ISFは，隠れた特徴量に関する情報を提供することで，AIの判断根拠をより明確にすることができる。
Link: https://arxiv.org/abs/2603.17534
幾何学的設計パラメータの解釈可能な知識表現と分析：CAに基づく手法 [cs.LG]目的：幾何学的設計パラメータの推定
- CAD利用の増加に伴い，複雑な形状を定義する設計パラメータが多数存在し，その解析が重要となっている。
- 設計パラメータの多さから，シミュレーションや最適化といった後続工程での高次元設計空間の扱いが困難である。
- PCAを用いた次元削減手法の解釈性を高め，設計パラメータの正確な推定を可能にすること。
- 標準的なPCAと，当該分野向けに改良されたPCAの結果が同一であることが示された。
- PCAの各段階における形状変化を詳細に調査し，パラメータ推定の限界と条件を明らかにした。
- 適切な条件下では，解釈可能なパラメータ推定が可能となることが確認された。
Link: https://arxiv.org/abs/2603.17535
連続SE(3)等変かつ効率的な点群解析のための座標ベース畳み込みカーネルの学習 [cs.CV, cs.AI]目的：3次元点群問題における効率的な学習
- 3次元点群データは，ロボティクスやコンピュータビジョンの分野で重要な役割を担う
- 既存の等変畳み込みは，厳密な対称性とスケーラビリティを両立することが困難である
- 厳密なSE(3)対称性とスケーラビリティを兼ね備えたカーネルアーキテクチャを開発する
- 提案手法であるECKConvは，二重剰余群空間で定義されたカーネルドメインからSE(3)等変性を獲得する
- 座標ベースネットワークを用いた明示的なカーネル設計により，学習能力とメモリ効率を向上させている
- 分類，ポーズ登録，部分分割，大規模セマンティック分割など，多様な点群タスクにおいて，ECKConvの優れた性能とスケーラビリティが確認された
Link: https://arxiv.org/abs/2603.17538
大規模ポッドキャスト発見のためのセマンティックIDベース生成検索の導入 - Spotifyにおける事例 [cs.IR, cs.LG]目的：大規模ポッドキャスト発見のためのセマンティックIDベース生成検索システム
- ポッドキャストの利用状況を分析することで，ユーザーの嗜好や行動パターンを把握し，よりパーソナライズされた体験を提供できる。
- 従来のレコメンデーションシステムは，文脈やユーザーの意図の変化に対応しきれず，多様なコンテンツの発見が困難である。
- セマンティックIDを活用し，大規模なカタログから適切なポッドキャストを効率的に生成し，ユーザーの新たな発見を促す。
- GLIDEは，セマンティックIDを用いてポッドキャストを推薦する生成モデルであり，大規模なポッドキャストカタログに対応可能である。
- GLIDEは，ユーザーの最近のリスニング履歴やコンテキスト情報に加え，長期的な嗜好を考慮することで，より適切な推薦を実現する。
- オンラインA/Bテストの結果，GLIDEはSpotifyにおけるポッドキャストの非定型ストリーミングを最大5.4%増加させ，新規番組の発見を最大14.3%促進した。
Link: https://arxiv.org/abs/2603.17540
ドメイン汎化ポリシー：効率的でロバストなQ値関数の学習について [cs.CL, cs.AI, cs.LG]目的：ドメイン汎化ポリシーの学習
- 計画学習において，汎用的なポリシーを獲得することは重要である。
- 従来のグラフニューラルネットワークを用いた状態価値関数では，計算コストが高い。
- Q値関数を学習することで，評価コストを削減し，性能向上を目指す。
- 教師プランナーの行動と非行動を区別するための正則化項を導入した。
- Q値関数を用いたポリシーが，状態価値関数を用いたポリシーを上回る性能を示した。
- 提案手法は，LAMA-firstと同等の性能を10のドメインで実現した。
Link: https://arxiv.org/abs/2603.17544
CLeAN：動的環境における継続学習適応正規化 [cs.LG, cs.AI]目的：動的環境下での継続学習における適応正規化手法
- AIシステムは現実世界のデータ変動に対応できず，特にサイバーセキュリティ等，変化の激しい分野での応用が課題である。
- 継続学習では，逐次的にデータが入力されるため，データ全体の統計情報が必要な従来の正規化手法は適用困難である。
- 本研究は，継続学習に適応する新規な正規化手法を提案し，知識の忘却を抑制し，新しいデータへの対応能力向上を目指す。
- 提案手法CLeANは，学習可能なパラメータを用いて特徴量のスケールを推定し，Exponential Moving Averageモジュールで更新することで，変化するデータ分布に適応する。
- 実験結果から，CLeANは既存の継続学習戦略（Reservoir Experience Replay，A-GEM，EwC等）と組み合わせることで，新しいデータに対する性能向上と，破滅的忘却の軽減に貢献する。
- 動的学習環境において，知識保持のための正規化の重要性を示唆する。
Link: https://arxiv.org/abs/2603.17548
時間変動する実効再生産数の推論のための条件付き逆学習 [cs.LG, physics.soc-ph]目的：時間変動する実効再生産数の推定量
- 感染症の監視において，実効再生産数の推定は不可欠である。迅速な対応のためには，正確な推定が重要となる。
- 既存の手法は，疫学的モデルに依存しやすく，介入や行動変容に柔軟に対応できない場合がある。
- 歴史的な発生状況と時間情報から，実効再生産数を推定する新しい枠組みを提案し，推定精度向上を目指す。
- 提案手法CIRLは，柔軟な統計モデリングと疫学構造を組み合わせることで，ノイズに強く，急激な変化にも対応できる。
- 再生方程式を用いて動的な整合性を保ちつつ，データ駆動的な時間表現を導入することで，よりロバストな推定が可能となる。
- シミュレーションデータおよび実際のSARS-CoV-2データを用いて，提案手法の有効性が実証された。
Link: https://arxiv.org/abs/2603.17549
FrescoDiffusion：事前正則化タイル拡散を用いた4K画像から動画への変換 [cs.CV, cs.AI]目的：高解像度画像からの動画生成における一貫性の向上
- 画像から動画への変換技術は，多様な応用が期待される分野であり，その重要性は高い。
- 高解像度画像からの動画生成では，局所的な詳細と全体的な構造の一貫性を両立することが困難である。
- 大規模なアートワーク等の高解像度画像に対し，時間的・空間的な一貫性を保ちつつ動画を生成することを目指す。
- FrescoDiffusionは，事前計算された潜在的先行情報を用いて，タイル化された拡散モデルによる高解像度動画生成の一貫性を改善する。
- 低解像度動画の潜在的軌跡をアップサンプリングし，長距離の時空間構造を捉えたグローバルな参照を生成することで，タイル間の整合性を強化する。
- 実験により，VBench-I2Vデータセットとフレスコ動画データセットにおいて，FrescoDiffusionは既存手法と比較して，一貫性と忠実度において優れていることが示された。
Link: https://arxiv.org/abs/2603.17555
創発的な信頼学習 [cs.MA, cs.LG]目的：競争的な環境下における協力の実現
- AIエージェントの協調は，複雑なタスク遂行や社会実装において不可欠である。
- 資源の制約下でのエージェント間協力は，利己的な行動によって阻害されやすい。
- 限られた情報と計算資源で，エージェント間の信頼関係を構築し，協調を促進すること。
- 提案手法ETLは，既存のエージェントに容易に組み込むことが可能である。
- シミュレーション実験により，ETLが資源の枯渇抑制と個体利益の向上に貢献することが示された。
- ETLは，相手の戦略に応じた協調的行動を学習し，長期的な搾取を回避できることが確認された。
Link: https://arxiv.org/abs/2603.17564
FoMo X：外れ値検出基盤モデルのためのモジュール型説明可能性シグナル [cs.LG, cs.AI]目的：外れ値検出基盤モデルに対する説明可能性の提供
- 近年の基盤モデルは，新たなデータセットへの適応能力で外れ値検出の性能を飛躍的に向上させている。
- これらのモデルはブラックボックスであり，意思決定に必要な文脈情報を提供しない点が課題である。
- FoMo-Xは，軽量な診断機能を追加することで，信頼性の高い外れ値検出を実現する。
- FoMo-Xは，事前学習済みの基盤モデルの埋め込み表現を活用し，オフラインで診断ヘッドを学習させる。
- これにより，計算コストの高い不確実性評価を効率的に行い，解釈可能なリスクレベルと信頼度を提供する。
- 実験結果から，FoMo-Xは高い精度で真の診断シグナルを復元し，推論時のオーバーヘッドを抑制できることが示された。
Link: https://arxiv.org/abs/2603.17570
HeiSD：運動学的認識を備えた具現化された視覚-言語-行動モデルのためのハイブリッド推測デコーディング [eess.SY, cond-mat.stat-mech, cs.SY, math.OC, nlin.PS, cs.RO, cs.DB, cs.LG]目的：ロボット制御のための視覚-言語-行動モデルにおける推論速度の向上
- ロボットの自律的な行動を実現するためには，視覚，言語，行動を統合したモデルが不可欠である。
- 既存の視覚-言語-行動モデルは，推論速度が遅いという課題を抱えている。
- 推測デコーディングをハイブリッド化することで，推論速度とタスク成功率の両立を目指す。
- 提案手法HeiSDは，シミュレーション環境において最大2.45倍，実環境で2.06倍～2.41倍の速度向上を達成した。
- HeiSDは，高いタスク成功率を維持しながら，推論速度の大幅な向上を実現している。
- HeiSDは，リトリ―バルベースSDの最適化と運動学に基づく境界決定により，ハイブリッド推測デコーディングを可能にした。
Link: https://arxiv.org/abs/2603.17573
教師なし記号的異常検知 [cs.LG, cs.AI, cs.SC]目的：記号回帰に基づく異常検知手法
- データ分析において，異常の早期発見は，システムやプロセスの安定性維持に不可欠である。
- 従来の異常検知は，解釈が困難なモデルに依存し，異常の原因特定が難しい場合が多い。
- 人間が理解可能な形で異常を検出し，その原因を説明可能にすることが課題である。
- SYRANは，人間の可読な方程式の集合を学習し，正常データの記号的不変性（近似的に定数となる関数）を記述する。
- これらの不変性からの逸脱が異常スコアとなり，検知ロジックは構築段階から解釈可能となる。
- 実験結果は，SYRANが高く解釈可能であり，既知の科学的または医学的関係に対応する方程式を提供する事を示している。
Link: https://arxiv.org/abs/2603.17575
オフラインデータからのデモンストレーター多様性による潜在的行動とダイナミクスの特定 [cs.LG, cs.AI, stat.ML]目的：潜在的行動と環境ダイナミクスの同定
- 強化学習において，環境のモデル化は，効率的な学習と汎化に不可欠である。
- オフラインデータからの行動の復元は，行動情報が欠落しているため困難である。
- デモンストレーターの多様性を利用し，行動情報を明示的に必要とせずに潜在的行動を特定する。
- デモンストレーターが異なる方策に従うという仮定のもと，観測分布を潜在的行動条件付きの遷移行列の混合として表現できる。
- 十分な方策多様性とランク条件を満たすことで，潜在的遷移行列とデモンストレーターの方策が同定可能となる。
- 連続観測空間においては，文法行列式最小体積基準を用いることで，局所的な置換曖昧性がグローバルな置換に解消される。
Link: https://arxiv.org/abs/2603.17577
ボルツマン分布のためのドリフトによるワンステップサンプラー [cs.LG]目的：ボルツマン分布からの効率的なサンプリング手法
- 機械学習モデルの性能評価において，確率分布からのサンプリングは重要な役割を果たす。
- 既存のサンプリング手法は，計算コストが高い場合や，複雑な分布に対して適用が難しい場合がある。
- 反復サンプリングを，単一のフォワードパスで実現し，計算効率を向上させることを目指す。
- 提案手法は，エネルギー関数によって定義されたボルツマン分布からサンプルを生成する新しいフレームワークである。
- 4モードガウス混合ボルツマン分布に対する実験で，平均誤差0.0754，共分散誤差0.0425，RBF MMD 0.0020を達成した。
- 二重井戸型やバナナ型のターゲットにおいても，非凸および湾曲した低エネルギー形状を扱えることが示された。
Link: https://arxiv.org/abs/2603.17579
編集を行為として捉える：オープンボキャブラリー3D室内シーン編集のための目標回帰的計画 [cs.IR, cs.CV, cs.AI]目的：オープンボキャブラリー3D室内シーン編集における目標達成のための行為計画
- 3Dシーン編集は，メタバースや現実世界の拡張において不可欠な技術であり，その重要性は増している。
- 既存手法は，シーン全体を再生成したり，空間構造を損なう編集を行うため，一貫性や物理的妥当性に問題がある。
- 本研究では，編集を目標達成のための最小限の行為計画として捉え，物理的に整合性の取れた編集を実現することを目指す。
- Edit-As-Actは，編集を3D空間における目標回帰的計画として実行するフレームワークである。
- この手法は，指示された目標状態を達成するための記号的な述語とEditLangという行動言語を用いた計画を生成する。
- E2A-Benchベンチマークにおいて，Edit-As-Actは既存手法を大きく上回り，高い指示忠実性，意味的一貫性，物理的妥当性を実現した。
Link: https://arxiv.org/abs/2603.17583
ウェブページ上の技術用語に対する文脈的ヘルプを提供するブラウザ拡張機能 [cs.IR, cs.CL, cs.IR, cs.AI, cs.HC]目的：デジタルリテラシーの低いインターネット利用者の支援
- 情報技術の急速な発展により，専門用語の理解が不可欠となっている。
- 専門用語の知識不足が，情報へのアクセスと理解を妨げる課題となっている。
- 技術用語の定義を即座に提供し，情報理解の障壁を取り除くことを目指す。
- 参加者の92%が技術用語の理解度向上を報告した。
- 96%の参加者が，手動検索と比較して時間の節約を確認した。
- 辞書による定義は平均2135ms，AI生成定義は16429msで表示され，手動検索は17200msを要した。
Link: https://arxiv.org/abs/2603.17592
都市における空気の流れと汚染物質拡散のデータ駆動型エンドツーエンド予測 [cs.LG]目的：都市部における空気の流れと汚染物質拡散の予測モデル
- 気候変動と都市人口増加により都市環境への負荷が増大しており，大気流れの理解が重要である。
- 高精度な都市部汚染物質拡散モデルの構築には，計算コストと精度のトレードオフが存在する。
- データ駆動型アプローチにより，効率的かつ高精度な汚染物質拡散予測を実現すること。
- 大規模渦モデル(LES)を用いたシミュレーションデータを基盤とし，データ駆動型モデルを構築した。
- SPOD，オートエンコーダ，LSTMネットワーク，畳み込みニューラルネットワークを組み合わせたモデルが有効であることを示した。
- モデルは，瞬間的な空気の流れと汚染物質拡散を長期間にわたって予測できることが確認された。
Link: https://arxiv.org/abs/2603.17606
次元不均衡データのための適応的多視点スパース学習：AdaMuS [cs.LG]目的：次元不均衡データにおける多視点学習の性能向上
- 多視点学習は，データを包括的に記述するために複数の特徴量を統合する重要な手法である。
- 既存手法は，異なる視点が類似した次元を持つことを暗黙に仮定しており，次元の不均衡な場合に問題が生じる。
- 本研究は，次元不均衡データにおいて，低次元の視点を見過ごすことなく，効果的に表現を整列させることを目指す。
- AdaMuSは，視点固有のエンコーダを用いて，低次元の視点を統一的な次元空間にマッピングする。
- パラメータ不要のプルーニング手法により，エンコーダ内の冗長なパラメータを適応的に除去し，過学習を抑制する。
- スパースな融合パラダイムにより，冗長な次元を抑制し，各視点を効果的に整列させ，汎化性能を高める。
Link: https://arxiv.org/abs/2603.17610
補完型強化学習 [cs.SI, cs.CL, cs.LG, cs.CL]目的：LLMベースのエージェントの学習効率向上
- LLMエージェントの学習は強力だが，サンプル効率の低さが課題である。
- 過去の経験活用が不十分で，蓄積された経験とエージェントの能力の乖離が生じる。
- 経験抽出器とポリシーアクターの同時進化により，学習効率を改善する。
- 補完型強化学習は，経験学習を行わないベースライン手法を10%上回る性能を示した。
- 単一タスクだけでなく，複数タスク環境においても高いスケーラビリティを発揮する。
- 経験駆動型エージェント学習の新たなパラダイムとして，有効性が確認された。
Link: https://arxiv.org/abs/2603.17621
ARES：活性化回復を通じた連合学習におけるスケーラブルかつ実用的な勾配反転攻撃 [cs.LG, cs.CR]目的：連合学習における勾配反転攻撃による学習データ漏洩のリスク評価
- 連合学習はプライバシー保護が重要視されるデータ活用手法であり，近年注目を集めている。
- 共有されるモデル更新に機密情報が漏洩する可能性があり，勾配反転攻撃が脅威となる。
- アーキテクチャ変更なしに，大規模バッチサイズ下での高精度なデータ復元を目指す。
- ARESは，活性化回復とスパース回帰を活用することで，既存手法よりも高精度なデータ復元を達成した。
- ARESは，理論的な復元率と再構成誤差の上限を導出し，攻撃の有効性を保証する。
- 実験結果から，中間活性化が連合学習において深刻なプライバシーリスクをもたらすことが示唆された。
Link: https://arxiv.org/abs/2603.17623
確率的逆最適性による強化学習のベンチマーク：既知の最適方策を持つシステムの生成 [cs.LG, cs.AI, cs.SY, eess.SY, math.OC]目的：強化学習アルゴリズムの客観的比較
- 強化学習は，自律的な意思決定システムの開発に不可欠であり，幅広い分野で応用が期待されている。
- 環境設計や報酬構造に大きく依存するため，異なるアルゴリズムの性能を公平に比較することが困難である。
- 既知の最適方策を持つ環境を生成し，強化学習アルゴリズムの評価を厳密かつ再現可能にすること。
- 逆最適性の概念を拡張し，ノイズを含む非線形システムを対象とした厳密なベンチマークフレームワークを構築した。
- ホモトピー変化とランダム化パラメータを用いて，様々なベンチマーク環境を自動的に生成できることを示した。
- 提案手法を用いて，標準的な強化学習手法を最適解と比較評価することで，厳密なベンチマークの基盤を確立した。
Link: https://arxiv.org/abs/2603.17631
DSS-GAN：Mambaバックボーンを持つ方向性ステートスペースGANによるクラス条件付き画像生成 [eess.SY, cs.RO, cs.SY, math.OC, eess.SY, cs.SY, cs.LG, cs.CV]目的：クラス条件付き画像生成の性能向上
- 画像生成技術は，現実世界の表現や新たなコンテンツ創出に不可欠である。
- 既存のGANでは，クラス情報の注入方法が課題であり，生成画像の多様性や品質に限界がある。
- Mambaと新たな条件付け機構により，より高品質かつ制御可能な画像生成を実現する。
- 提案手法DSS-GANは，StyleGAN2-ADAと比較して，FID，KID，Precision-Recallスコアが向上した。
- 潜在空間の分析により，方向性サブベクトルが特定の画像特徴と相関を持つことが示された。
- DLRは，クラス情報と潜在構造を特徴マップの異なる空間軸に結合し，効果的な条件付けを実現している。
Link: https://arxiv.org/abs/2603.17637
VeriGrey：グレーボックス型エージェント検証 [cs.AI]目的：LLMエージェントにおける多様な振る舞いとセキュリティリスクの探索
- AIエージェントは注目度が高く，その安全性確保が重要である。企業や社会への影響も大きいため，セキュリティ対策は不可欠。
- LLMエージェントは外部環境とのインタラクションによりセキュリティリスクが生じやすい。潜在的な脆弱性の発見が課題となっている。
- 本研究は，LLMエージェントの潜在的な脆弱性を効率的に発見し，より安全なエージェント開発を支援することを目的とする。
- VeriGreyは，ツール呼び出しのシーケンスをフィードバック関数として利用することで，稀に発生する危険なツール呼び出しを検出しやすい。
- AgentDojoベンチマークにおいて，VeriGreyはGPT-4.1バックエンドで間接的なプロンプトインジェクション脆弱性を発見する有効性が33%向上した。
- Gemini CLIやOpenClawといった実環境のケーススタディにおいて，ブラックボックス型アプローチでは特定できなかった攻撃シナリオを検出した。
Link: https://arxiv.org/abs/2603.17639
進化アルゴリズムを用いた文法に基づく代数マルチグリッド設計 [eess.SY, cs.SY, cs.CE, cs.AI, cs.NA, math.NA]目的：効率的なマルチグリッドサイクルの構築
- 偏微分方程式の解法において，マルチグリッド法は計算効率に優れている。
- マルチグリッド法の性能は，構成要素の選択に大きく依存する。
- 文法と遺伝的プログラミングにより，非標準的なマルチグリッドサイクルを自動生成する。
- 本研究で開発された非標準サイクルは，ソルバーおよび前処理器としてマルチグリッド法の性能を向上させる可能性を示す。
- コンテキストフリー文法と遺伝的プログラミングを組み合わせることで，広範な探索空間を効率的にナビゲートできる。
- 線形代数ライブラリhypreを用いた数値実験により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2603.17641
セマンティックなコヒーレンスを実現するアンカリングとリスケールによる注意機構 [cs.CV, cs.AI]目的：セマンティックに一貫性のある中間フレームの合成
- 動画生成における中間フレーム合成は，少ないキーフレームから高品質な動画を生成する上で重要である。
- 既存モデルは，キーフレーム間の距離が遠い場合や動きが大きい場合に，一貫性のないフレームを生成しやすい。
- キーフレームとテキストによるガイダンスにより，意図したパスを生成し，フレームの一貫性とセマンティックな正確性を向上させる。
- 提案手法は，追加学習なしで，多様な条件下において最先端のフレーム一貫性，セマンティック忠実度，ペース安定性を実現した。
- キーフレームにアンカーされた注意バイアスにより，中間フレームに対してセマンティックおよび時間的なガイダンスを効果的に与えている。
- リスケールされたTemporal RoPEにより，自己注意機構がキーフレームをより忠実に参照することを可能にした。
Link: https://arxiv.org/abs/2603.17651
修正されたターゲットドメイン局所的アラインメントによる解釈可能なクロスドメイン少数ショット学習 [cs.RO, cs.CV, cs.AI]目的：クロスドメイン少数ショット学習における解釈可能性の向上
- 近年，汎用データで学習したモデルを少ないデータで特定ドメインへ適応する研究が重要視されている。
- 既存のCLIPモデルは，ソースドメインでは有効だが，ターゲットドメインでは微細な視覚的特徴を捉えにくい。
- ドメイン間のギャップとデータ不足がCLIPベースのCDFSLにおける局所的アラインメントを悪化させる問題を解決する。
- 提案手法CC-CDFSLは，サイクル整合性に基づき，局所的な視覚特徴とテキスト意味を相互に変換することで，アラインメントを改善する。
- Semantic Anchor機構は，視覚特徴の拡張と収縮によりノイズを低減し，テキストから画像へのマッピングをより正確にする。
- 様々なベンチマークで，提案手法は最新の性能を達成し，学習されたパターンとモデルの決定における解釈可能性を向上させる。
Link: https://arxiv.org/abs/2603.17655
FINER：詳細な否定的な質問に対してMLLMが幻覚を起こす [cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける幻覚の分析と軽減
- 画像とテキストを統合するMLLMは，様々な応用で注目されている。
- 既存の評価基準は粗い画像関連の質問に偏っており，詳細な質問に対する幻覚の問題を捉えきれていない。
- 詳細な否定的な質問に対するMLLMの幻覚のメカニズムを解明し，その軽減策を提案すること。
- 詳細な否定的な質問において，MLLMは画像内に存在する要素と矛盾する情報を生成する傾向が明らかになった。
- 新たに作成したFINERデータセットとFINER-Tuningにより，幻覚の発生率を最大24.2%削減できることが示された。
- 提案手法は既存の幻覚抑制手法に加え，MLLMの汎用的なマルチモーダル能力向上にも貢献する。
Link: https://arxiv.org/abs/2603.17662
Linux特権昇格のための検証可能な報酬を用いたポストトレーニングローカルLLMエージェント [cs.RO, cs.CR, cs.AI]目的：Linux特権昇格におけるローカルLLMエージェントの開発
- 脆弱性発見等の分野でLLMエージェントの重要性が増している。リソース制約下での利用が求められている。
- 強力なLLMはクラウド環境に依存し，再現性や機密データへの適用が課題となっている。
- リソース制約下でセキュリティタスクを実行可能なローカルモデルの構築を目指す。
- 教師ありファインチューニングにより，ベースラインの成功率を2倍以上に向上させた。
- 検証可能な報酬を用いた強化学習により，PrivEsc-LLMは95.8%という高い成功率を達成した。
- 成功1回あたりの推論コストを100倍以上削減し，Claude Opus 4.6に匹敵する性能を実現した。
Link: https://arxiv.org/abs/2603.17673
検索拡張型マスク拡散モデルに対する適応的ガイダンス [cs.CL, cs.AI, cs.LG]目的：検索拡張生成における知識の活用方法
- 言語モデルの生成において，外部知識を活用することで，事実に基づいたより正確な文章生成が期待される。
- 検索された情報がノイズを含む場合，生成の質が低下する可能性があり，その解決が課題となっている。
- 拡散モデルにおける検索拡張生成における，情報の信頼性に応じたガイダンスの調整を試みる。
- 提案手法ARAMは，検索された情報による分布シフトのSNRに基づいて，ガイダンスのスケールを動的に調整する。
- 信頼性の高い情報に対してはガイダンスを強化し，ノイズを含む情報に対しては抑制することで，生成の質を向上させる。
- 複数の知識集約型QAベンチマークにおいて，既存のRAGベースラインと比較して，QA性能が改善されることが示された。
Link: https://arxiv.org/abs/2603.17677
視覚言語モデルにおける天候を考慮した推論セグメンテーションのベンチマーク：WeatherReasonSeg [cs.CV, cs.AI]目的：視覚言語モデルにおける天候の影響下での推論セグメンテーション能力の評価
- 画像と言語を組み合わせたモデルは多様な応用が期待され，性能向上は重要な課題である。
- 既存のベンチマークは理想的な条件下で作成されており，悪天候下での性能は未知数である。
- 悪天候下での視覚言語モデルの弱点を明らかにし，よりロバストなモデル開発に貢献する。
- 新たなベンチマークWeatherReasonSegを構築し，合成データと実データを用いて評価を行った。
- 天候の悪化に伴い，視覚言語モデルの性能は一貫して低下することが示された。
- 天候の種類によって，モデルの脆弱性が異なるパターンを示すことが明らかになった。
Link: https://arxiv.org/abs/2603.17680
Sensi：一度に一つのことを学ぶ -- LLMゲームエージェントのためのカリキュラムに基づくテスト時学習 [cs.AI, cs.LG]目的：LLMゲームエージェントにおけるテスト時学習の効率化
- 未知環境でのLLMエージェント活用が期待される中で，タスク構造の学習効率が課題となっている。
- 従来のテスト時学習は，有用な仮説形成に多数の試行回数を必要とする点が問題である。
- 本研究では，カリキュラム学習を通じて，試行回数を大幅に削減し，学習効率を向上させることを目指す。
- Sensi v1は，二者間アーキテクチャのみで2つのゲームレベルを攻略することに成功した。
- Sensi v2は，カリキュラム学習を追加したものの，レベル攻略はできなかったが，約32回の行動試行でカリキュラムを完了した。
- これは，比較対象システムよりも50～94倍高いサンプル効率であり，ボトルネックが学習効率から知覚的基盤へと移行したことを示した。
Link: https://arxiv.org/abs/2603.17683
エントロピー正則化を用いたフローマッチング方策 [cs.LG]目的：強化学習における複雑な分布を扱う方策の性能向上
- 強化学習は，複雑なタスクの自動学習に不可欠であり，その性能が様々な分野に影響する。
- 従来の拡散モデル方策は，計算コストが高く，正確なエントロピー制御が困難である。
- 拡散モデルの課題を克服し，効率的な学習と探索を実現する新たな方策を提案する。
- 提案手法FMERは，フローマッチングと最適輸送に基づき，効率的な方策学習を可能にする。
- FMERは，エントロピーの目的関数を導出し，原理的な最大エントロピー最適化を実現する。
- FrankaKitchenベンチマークにおいて，FMERは最先端手法を凌駕し，MuJocoベンチマークでも競争力がある。
Link: https://arxiv.org/abs/2603.17685
市場ダイナミクスとニュースシグナルによる過小評価サッカー選手候補の選定のための客観的誤価格検出 [eess.SY, cs.SY, math.OC, cs.LG, cs.AI]目的：過小評価サッカー選手候補の選定
- サッカー選手の市場価値評価は，クラブの戦略的選手獲得において不可欠である。
- 従来の評価は専門家の主観に依存し，客観性と再現性に課題があった。
- 市場データとニュース情報を用いて，客観的な評価指標を確立し，過小評価選手を選定する。
- 市場ダイナミクスが市場価値の分散の大部分を説明する。
- 過小評価選手の候補選定において，市場ダイナミクスが主要なシグナルとなり，NLP特徴量は付加的な改善をもたらす。
- 市場トレンドと年齢が主要因であり，ニュース由来のボラティリティが不確実性の高い状況でシグナルを増幅する。
Link: https://arxiv.org/abs/2603.17687
盲目化したLLMは依然として取引できるか？ポートフォリオ最適化のための匿名化優先フレームワーク [cs.LG, cs.AI, q-fin.CP, q-fin.PM]目的：ポートフォリオ最適化におけるLLMの取引能力の検証
- 金融市場におけるAI活用は，効率性向上や新たな投資戦略の創出に貢献し得る。
- LLMが過去のデータ記憶に頼り，真の市場理解に基づいていない場合，誤った取引判断を招く恐れがある。
- 取引エージェントの匿名化により，記憶バイアスや生存バイアスの影響を取り除き，正当なシグナルを検証する。
- LLMエージェントを匿名化（BlindTrade）し，市場データ識別子を隠蔽することで，取引シグナルが依然として有効であることを確認した。
- 2025年の年初から8月1日までのデータで，20回の試行で平均シャープレシオ1.40 +/- 0.22を達成し，シグナルの正当性を検証した。
- 市場の変動性が高い状況下では優れたパフォーマンスを示したが，上昇トレンドの強気市場ではアルファが低下し，市場環境への依存性が見られた。
Link: https://arxiv.org/abs/2603.17692
マルチエージェントLLMベース経済サンドボックス：消費者選好の整合性 [cs.AI]目的：マルチエージェントLLMを活用した経済サンドボックスの構築
- 現実経済の複雑さに対応するため，高次元かつ多様な環境下での意思決定支援が重要である。
- 個々のカテゴリにおけるデータ不足が，経済シミュレーションの精度を低下させている。
- 大規模言語モデルを用いて消費者選好を学習し，データスパース性の問題を解決することを目指す。
- 提案手法は，既存の経済・金融LLMシミュレーションと比較して，製品選択の正確性，購入量の予測において大幅な改善を達成した。
- 大規模言語モデルが，現実経済における高精度かつスケーラブルな意思決定シミュレーションの基盤となり得ることを実証した。
- 平均場メカニズムにより，高次元な決定空間におけるサンプリングプロセスを安定化させることに成功した。
Link: https://arxiv.org/abs/2603.17694
仮想環境から実世界試験へ：自動運転における新興トレンド [cs.AI]目的：自動運転技術の進展と，その実用化における課題と展望
- 自動運転は社会に変革をもたらす可能性を秘める重要な技術分野である。
- 実世界のデータ不足，安全性，多様な環境への適応が自動運転の実用化を阻害している。
- シミュレーション技術や合成データを用いて，これらの課題を克服し，実用化を加速させる。
- 合成データと仮想環境は，自動運転の学習と評価のための強力な手段として台頭している。
- 本調査では，知覚と計画における合成データの活用，デジタルツインを用いたシステム検証，ドメイン適応戦略について概観する。
- Sim2Real転移，安全性検証，協調自律，シミュレーション駆動型ポリシー学習が今後の重要な研究課題である。
Link: https://arxiv.org/abs/2603.17714
視覚および概念プロンプトを用いたセグメント・エニシング・モデル3 (SAM3) による眼画像セグメンテーション [cs.CV, cs.AI]目的：眼画像セグメンテーションの性能評価
- 眼画像セグメンテーションは，眼科医療や視覚研究において重要な役割を担う。
- 既存モデルでは，様々な環境下での眼画像セグメンテーションの精度向上が課題である。
- 最新モデルSAM3の性能を評価し，眼画像セグメンテーションにおける最適なモデルを特定する。
- SAM3は，実験に用いたラボ環境および実環境データセットにおいて，多くの場合SAM2よりも優れた性能を示さなかった。
- SAM2の方が性能が高く，処理速度も速いため，現時点では眼画像セグメンテーションに最適な選択肢である。
- SAM3のコードを改変し，任意の長さの動画を処理できるようにした。
Link: https://arxiv.org/abs/2603.17715