arXiv雑要約

AI - 2026/03/20 公開

合成メガドキュメントのスケーリングによるデータ効率的な事前学習 [cs.LG]目的：データ制約下における事前学習の効率向上
- 大規模言語モデルの性能は，事前学習に用いるデータ量に大きく依存する。
- 事前学習に必要なデータ量が膨大であり，データ収集のボトルネックが存在する。
- 合成データを用いて，データ量の制約を克服し，計算資源を有効活用する。
- ウェブデータと合成リフレーズを組み合わせた事前学習により，検証損失が改善されることが示された。
- 同一文書からの合成リフレーズを連結したメガドキュメントの利用が，リフレーズ単体よりも損失の改善に寄与する。
- 合成データ量が増加するほど，メガドキュメントによる改善効果は拡大し，データ効率が向上する。
Link: https://arxiv.org/abs/2603.18534
受動的集約を超えて：分散型連合学習における能動的監査とトポロジーを意識した防御 [cs.HC, cs.LG, stat.ME]目的：分散型連合学習における，適応的なバックドア攻撃に対する防御戦略
- 連合学習は，プライバシー保護と機械学習の性能維持を両立する有望な手法である。
- 従来の防御手法では，高度なバックドア攻撃を検出しきれないという課題がある。
- 本研究では，能動的な監査を通じて潜在的なバックドアを検出し，防御効果を高めることを目指す。
- 提案手法では，モデルの局所的な更新の空間的・時間的な拡散を動的モデルで解析する。
- 確率的エントロピー異常，ランダムスムージングKLダイバージェンス，活性化カーネルなどの新たな監査指標を導入した。
- トポロジーを意識した防御配置戦略により，グローバル集約の堅牢性を最大化できることを示した。
Link: https://arxiv.org/abs/2603.18538
iSatCR：LEO衛星データ配信のためのグラフを用いたオンボード計算とルーティングの共同最適化 [cs.NI, cs.LG]目的：LEO衛星データ配信におけるオンボード計算とルーティングの共同最適化
- 地球観測データの利用拡大に伴い，LEO衛星からのデータ伝送が重要になっている。
- 従来のルーティング最適化では，増大するデータ量に対応しきれないという課題がある。
- オンボード計算を活用し，データ伝送量を削減することで，伝送効率の向上を目指す。
- iSatCRは，グラフ埋め込みと分散型強化学習を用いて，計算とルーティングを共同で最適化する。
- 実験結果から，iSatCRは特に高負荷時において，既存手法よりも優れた性能を示すことが確認された。
- オンボードストレージの制約下で，LEOネットワークの複雑さと動的変化に対応できる。
Link: https://arxiv.org/abs/2603.18539
GAPSL：異種データに対する勾配整合並列分割学習 [cs.LG]目的：分散学習における勾配不整合性の軽減とモデル収束の改善
- リソース制約のあるデバイスでの分散学習の民主化が課題であり，効率的な学習手法が求められている。
- 並列分割学習は計算負荷をサーバーにオフロードするが，勾配の方向性不一致による学習の不安定性が問題である。
- 勾配の方向性を整合させ，分散環境におけるモデル収束を促進することを目的とする。
- 提案手法GAPSLは，リーダー勾配の特定と勾配方向の整合により，勾配不整合性を軽減する。
- 実験結果から，GAPSLは最先端のベンチマークと比較して，学習精度と遅延の両方で優れた性能を示すことが確認された。
- リーダー勾配を用いることで，分散環境下でのモデルのグローバルな収束傾向を捉えることが可能となった。
Link: https://arxiv.org/abs/2603.18540
CoDA：医療画像・言語モデルに対する分布攻撃と事後トークン空間修復の探求 [cs.SI, cs.CV, cs.AI]目的：医療画像・言語モデルの脆弱性評価とロバスト性向上
- 医療現場でのAI活用拡大に伴い，画像認識モデルの信頼性確保が重要課題となっている。
- 既存研究では，臨床現場で起こりうる画像劣化や処理の変化を考慮した評価が不足している。
- 臨床現場で現実的に起こりうる画像劣化を再現し，モデルの脆弱性を明らかにすることを目指す。
- 提案手法CoDAにより，医療画像・言語モデルの性能が著しく低下することが示された。
- 複数の画像処理段階を組み合わせることで，単一の処理よりも大きな影響を与えることが確認された。
- トークン空間の事後修復により，CoDAで劣化させた画像に対する精度向上が期待できることが示された。
Link: https://arxiv.org/abs/2603.18545
UAVの故障検出のためのHEP統計的推論：ブレード損傷へのCLs，LRT，SBIの応用 [cs.LG, cs.RO, cs.SY, eess.SY]目的：マルチロータープロペラの故障検出における統計的推論手法の適用
- ドローン技術の発展に伴い，その安全性と信頼性の確保が重要課題となっている。
- ドローンの故障検出は，既存の手法では精度や誤報抑制に課題が残されている。
- 高精度かつ信頼性の高い故障検出システムの構築を通じて，安全なドローン運用を支援する。
- 本研究では，素粒子物理学の統計的手法を応用し，ブレード損傷の二値検出，誤報率制御，故障の定量的な特徴付けを実現した。
- UAV-FDデータセットを用いた検証の結果，提案手法は既存手法と比較して高い検出性能を示した (AUC 0.862)。
- SNPEを用いることで，故障の程度に関する不確実性を含めた情報を提供することが可能となった。
Link: https://arxiv.org/abs/2603.18546
SINDy-KANs：Kolmogorov-Arnoldネットワークを通じた非線形動力学の疎な識別 [cs.LG]目的：非線形動力学の疎な識別
- 機械学習の解釈可能性向上は，モデルの信頼性や応用範囲を広げる上で重要である。
- Kolmogorov-Arnoldネットワークの学習結果は必ずしも解釈可能とは限らず，疎性が課題である。
- Kolmogorov-ArnoldネットワークとSINDyを組み合わせ，活性化関数レベルで疎な方程式を学習する。
- SINDy-KANsは，Kolmogorov-Arnoldネットワークの表現力を維持しつつ，解釈可能性を向上させる。
- 様々な記号回帰タスクにおいて，SINDy-KANsは高精度な方程式の発見を可能にした。
- 提案手法は，深層Kolmogorov-Arnoldネットワークによる関数合成能力を維持している。
Link: https://arxiv.org/abs/2603.18548
HiMu：長編ビデオ質疑応答のための階層的マルチモーダルフレーム選択 [cs.RO, cs.IR, cs.CL, cs.CV, cs.AI]目的：長編ビデオ質疑応答におけるフレーム選択の効率と精度向上
- 長編ビデオの理解には，時間的コンテキストの把握が不可欠であり，フレーム選択は重要な要素である。
- 既存手法では，速度と情報の損失，あるいは計算コストの高さというトレードオフが存在する。
- テキストLLMを活用し，効率的かつ高精度なフレーム選択を可能にすることを目指す。
- HiMuは，テキストLLMによるクエリの階層的分解と，各要素に対する軽量な専門家モデルの適用により，既存手法の課題を克服する。
- Video-MME，LongVideoBench，HERBench-Liteにおける評価で，HiMuは他のフレーム選択手法を凌駕する性能を示した。
- 特にQwen3-VL 8BとGPT-4oの組み合わせにおいて，計算コストを大幅に削減しながら，高い精度を実現した。
Link: https://arxiv.org/abs/2603.18558
因果VAD：因果的介入によるエンドツーエンド自動運転の脱混乱 [cs.RO, cs.CV, cs.LG]目的：因果的介入による自動運転モデルの脱混乱フレームワーク
- 自動運転技術は，交通安全の向上や移動の効率化に不可欠であり，社会実装が期待されている。
- エンドツーエンドの自動運転モデルは，データセットの偏りを学習し，複雑な状況で誤った判断をする可能性がある。
- 因果的介入を通じて，モデルがデータセットの偏りに惑わされず，真の因果関係に基づいて行動できるようにすること。
- 提案手法CausalVADは，nuScenesベンチマークにおいて，最先端の計画精度と安全性を達成した。
- SCIS（Sparse Causal Intervention Scheme）は，ニューラルネットワークにおける因果推論の理論を実装するための軽量なモジュールである。
- CausalVADは，データバイアスやノイズに対する頑健性が向上し，因果的混乱を誘発する状況下でも優れた性能を発揮する。
Link: https://arxiv.org/abs/2603.18561
合理的な推論に基づくAIエージェントは，ゼロショットでゲーム理論的な失敗を回避できる（証明付き） [cs.AI, cs.MA, econ.TH]目的：AIエージェントにおける戦略的均衡の安定誘導
- AIエージェントが経済環境で相互作用する場面が増加しており，戦略的行動の理解が不可欠である。
- AI同士の反復的な相互作用において，戦略的均衡が安定的に誘導されないという問題が存在する。
- 事前学習済みのAIエージェントが，追加学習なしに戦略的均衡に近づくことを示す。
- 合理的な推論能力を持つAIエージェントは，過去の観察から他者の戦略を推測し，それに基づいて最適な行動をとることで，戦略的均衡に近づくことが理論的に示された。
- 一般的な知識としての報酬の前提を緩和しても，同様の均衡への収束が保証されることが示された。
- 囚人のジレンマやマーケティングプロモーションなど，様々なゲームシナリオのシミュレーションにより，AIエージェントが本質的に安定した均衡行動を示すことが確認された。
Link: https://arxiv.org/abs/2603.18563
分布上の不確実性下でのTransformerのロバストな文脈内回帰学習 [cs.LG, cs.AI]目的：分布上の不確実性下における文脈内回帰学習の性能
- 機械学習モデルは現実世界の複雑なデータに対応する必要がある。
- 従来の文脈内学習は，データの独立性やガウス分布などの仮定に依存する。
- 分布が未知または非ガウス分布の場合でも，Transformerが文脈内学習を可能とするか。
- Transformerは，様々な分布シフト下で，古典的な最適または準最適な基盤モデルと同等またはそれ以上の性能を示した。
- これにより，Transformerは古典的な推定器を超えて，ロバストな文脈内適応能力を持つことが示された。
- Transformerは，より現実的な分布上の不確実性下でも効果的に文脈内学習を行うことが確認された。
Link: https://arxiv.org/abs/2603.18564
SpecForge：推測デコーディングのための柔軟かつ効率的なオープンソース学習フレームワーク [cs.LG, cs.AI, cs.CL]目的：推測デコーディングモデルの学習フレームワーク
- 大規模言語モデルの推論速度向上は，実用化において重要な課題である。
- 高品質なドラフトモデルとスケーラブルな学習インフラの不足が，推測デコーディングの普及を阻害している。
- 推測デコーディングモデルの学習を効率化し，実用的なデプロイメントを可能にすること。
- SpecForgeは，EAGLE-3を完全にサポートする，プロダクション指向のオープンソースフレームワークである。
- Qwen3-235B-A22BのEAGLE-3学習速度を最大9.9倍に向上させる。
- SpecBundleは，主流のオープンソースLLM向けの高品質なEAGLE-3ドラフトモデル群であり，推論速度を最大4.48倍に向上させる。
Link: https://arxiv.org/abs/2603.18567
アンラーニングによる攻撃：グラフニューラルネットワークに対するアンラーニング誘導の敵対的攻撃 [cs.CE, eess.SP, cs.LG, cs.CR]目的：グラフニューラルネットワークに対するアンラーニング誘導の敵対的攻撃の可能性
- グラフニューラルネットワークは，ソーシャルネットワーク等で広く利用されており，その重要性は高い。
- プライバシー規制遵守のためアンラーニングが重要視される一方，性能劣化による問題が生じている。
- アンラーニング時の性能劣化を悪用した敵対的攻撃に対する堅牢性の問題を解決する。
- 訓練時に正常に動作するモデルに対し，特定のノード削除を要求することで精度が著しく低下する攻撃が可能である。
- この攻撃は，削除要求を拒否できないという点で巧妙であり，現実の規制要件下での頑健性に懸念がある。
- 二段階最適化問題として攻撃を定式化し，様々なベンチマークで有効性を示した。
Link: https://arxiv.org/abs/2603.18570
細胞内局在化のための包括的なヒトタンパク質ベンチマークCAPSUL [cs.AI, cs.CE, q-bio.QM]目的：細胞内局在化ベンチマークデータセット
- 創薬ターゲットの特定や機能注釈に不可欠であり，生命科学研究の基盤となる。
- タンパク質構造と細胞内局在化の関連性は認識されているが，詳細なアノテーションと構造情報を持つデータセットが存在しない。
- 3次元構造情報と詳細な細胞内局在化アノテーションを統合したベンチマークを提供し，構造に基づいたモデルの応用を促進する。
- 新たなベンチマークCAPSULを構築し，多様な3次元構造表現と詳細な細胞内局在化アノテーションを統合した。
- 既存のモデル評価により，構造特徴の重要性が示された。再重み付けや単一ラベル分類戦略の有効性も確認された。
- ゴルジ体に関する事例研究から，アテンションメカニズムによるαヘリックスの局在化パターンが明らかになり，解釈可能性の向上が示された。
Link: https://arxiv.org/abs/2603.18571
インタラクション：参照なし会話型推薦のための独立したシミュレータの訓練 [cs.AI, cs.IR]目的：会話型推薦システムの訓練データ生成手法
- 会話型推薦システムは，ユーザーとの自然な対話を通じて推薦を行うため，顧客満足度向上に貢献する。
- 大規模な対話データ収集が困難であり，現実的なシミュレーション手法の確立が課題である。
- 既存手法の制約を克服し，より自然で多様な対話データを生成することを目指す。
- 提案手法では，ユーザーと推薦システムとして独立したLLMを訓練することで，リアルタイムな対話を可能にした。
- これにより，事前にターゲットアイテムを知らなくても，対話を通じてユーザーの嗜好を推論できるようになった。
- 定量評価と人間評価の結果，提案手法は既存手法と同等以上の品質を示し，スケーラブルなデータ生成が可能であることが確認された。
Link: https://arxiv.org/abs/2603.18573
MedForge：改ざんを意識した推論による解釈可能な医療用ディープフェイク検出 [cs.MM, cs.AI]目的：医療用ディープフェイクの検出
- 医療画像は診断の根幹であり，その信頼性が臨床の安全性に不可欠である。
- 既存のディープフェイク検出手法は，医療画像特有の改ざんに対応できていない。
- 改ざんを意識した推論により，より正確で信頼性の高い検出を目指す。
- MedForgeは，医療画像の改ざんを事前に検出し，根拠に基づいた説明を提供する。
- 大規模なベンチマークデータセットMedForge-90Kを構築し，専門家による指導を受けた。
- 実験の結果，最先端の検出精度と専門家と整合性の取れた説明を実現した。
Link: https://arxiv.org/abs/2603.18577
LLMに対する統計的根拠に基づいた介入一貫性のある説明評価 [cs.HC, cs.CL, cs.AI, cs.LG]目的：大規模言語モデルの説明の忠実性評価手法
- LLMの透明性と信頼性向上は，その社会実装において不可欠である。
- 既存の説明評価は統計的検証が不十分で，偶然による結果を区別できない。
- 複数の介入手法と統計的検定により，説明の忠実性をより正確に評価する。
- 提案手法ICEは，介入オペレーターとランダムベースラインとの比較により，説明の忠実性を定量化する。
- 忠実性はオペレーターに依存し，テキスト長によって評価が変動することが示された。
- 忠実性と人間の主観的妥当性には相関がなく，多言語評価でモデルと言語間の相互作用が明らかになった。
Link: https://arxiv.org/abs/2603.18579
WarPGNN：物理を意識したグラフニューラルネットワークによるパラメトリック熱歪み解析フレームワーク [cs.AR, cs.LG, cs.SY, eess.SY]目的：システムインパッケージにおける熱歪み解析の効率化と高精度化
- SiPや2.5D/3D集積化の進展に伴い，熱歪みが信頼性の重要な課題となっている。
- 従来の数値解析手法は高精度だが計算コストが高く，複雑なシステムへの適用が困難である。
- グラフニューラルネットワークを用いて，高速かつ高精度な熱歪み解析を実現し，フロアプラン探索を支援する。
- WarPGNNは，2D FEM法と比較して205.91倍，3D FEM法COMSOLと比較して119766.64倍の高速化を実現した。
- 正規化RMSEは1.26%，歪み値誤差は2.21%であり，高い精度を維持している。
- 未学習データセットに対しても，優れた汎化性能を示し，正規化RMSEは最大3.69%で推論速度は同程度である。
Link: https://arxiv.org/abs/2603.18581
DRESSによる困難な同型性識別ベンチマークの打破 [cs.DS, cs.DM, cs.LG]目的：強正則グラフの識別性能の向上
- グラフ同型性判定は，化学，社会ネットワーク，機械学習など，様々な分野で重要な課題である。
- 既存のグラフ識別手法では，特定のグラフファミリーにおいて識別が困難な場合がある。
- 本研究では，困難なグラフファミリーにおいても高精度な識別を実現する手法を提案する。
- 提案手法である$\Delta$-DRESSは，51,718個の強正則グラフに対して，ファミリー内で一意なフィンガープリントを生成することに成功した。
- $\Delta$-DRESSは，既存の3-WLアルゴリズムでは識別不可能なグラフペアを分離することができた。
- 提案手法は，多項式時間で実行可能であり，メモリ使用量も比較的少ない。
Link: https://arxiv.org/abs/2603.18582
継続学習のための適切な弾性重みコンソリデーション [cs.RO, cs.CL, cs.NI, cs.LG, cs.AI, cs.CV]目的：継続学習における忘却現象の軽減
- 近年，AIは多様なタスクを順次学習する能力が求められており，その実現が重要視されている。
- 従来の機械学習モデルは，新しいタスクを学習する際に過去の知識を忘却しやすいという課題があった。
- 本研究は，重みコンソリデーションの重要度推定における問題を解決し，継続学習の性能向上を目指す。
- Elastic Weight Consolidation (EWC) の重要度推定が，勾配消失や不正確な推定を引き起こすことが示された。
- Memory Aware Synapses (MAS) が，過去のタスクに関係のないパラメータに不要な制約を加えることが明らかになった。
- Logits Reversal (LR) 演算を導入することで，EWC の重要度推定を修正し，既存手法を大幅に上回る性能を達成した。
Link: https://arxiv.org/abs/2603.18596
myMNIST：ビルマ手書き数字認識のためのPETNN，KAN，および古典的深層学習モデルのベンチマーク [cs.CV, cs.AI, cs.CL]目的：ビルマ手書き数字認識のための様々なモデルの性能評価
- ミャンマーのNLP/AI研究において，手書き数字認識は重要な課題である。
- ビルマ語の手書き数字認識のための公開データセットやベンチマークが不足していた。
- myMNISTデータセットを用いた，多様なモデルの再現性のある性能基線を提供する。
- CNNが最高のスコア（F1=0.9959，Accuracy=0.9970）を達成し，強固な基盤となることが示された。
- PETNN（GELU）モデルがCNNに迫る性能を示し，LSTM，GRU，Transformer，KANモデルを上回った。
- エネルギーベースモデリングであるJEMも競争力のある性能を示した（F1=0.9944，Accuracy=0.9958）。
Link: https://arxiv.org/abs/2603.18597
AutORAN：LLM駆動による自然言語プログラミングを用いたアジャイルxApp開発 [cs.ET, cs.NI, cs.NI, cs.AI]目的：アジャイルxApp開発のためのLLM駆動自然言語プログラミングフレームワーク
- 無線アクセスネットワーク（RAN）のオープン化は，セルラーネットワークに革新をもたらす可能性を秘めている。
- 従来のxApp開発は手動コーディングと統合に時間がかかり，新機能の導入を妨げる要因となっている。
- 本研究は，xApp開発の自動化により，その障壁を低減することを目的としている。
- AutORANは，ユーザーの意図を迅速にデプロイ可能なxAppに変換し，手動コーディングやテストの必要性を排除する。
- 生成されたxAppは，手動で作成されたベースラインと同等か，それ以上のパフォーマンスを達成することが示された。
- AutORANはxApp開発サイクルを大幅に加速し，O-RANの革新を促進する。
Link: https://arxiv.org/abs/2603.18604
サイバーレジリエントなデジタルツイン：安全な重要インフラ制御のための攻撃識別 [cs.CR, cs.LG]目的：重要インフラの安全な制御のための攻撃識別手法
- 産業用サイバーフィジカルシステムは，社会基盤を支えるため，その安全性確保が不可欠である。
- サイバー攻撃の巧妙化により，攻撃の種類を特定し，適切な防御策を講じることが困難になっている。
- デジタルツインを活用し，攻撃を早期に検出し，システム停止なしに安全な制御を維持すること。
- 本研究では，予測モデルと多クラス攻撃識別，適応的レジリエント制御を組み合わせたi-SDTを提案した。
- SWaTおよびWADIデータセットを用いた評価により，検出精度が向上し，誤警報が44.1%減少し，運用コストが56.3%削減された。
- サブ秒単位の推論速度により，プラントレベルのワークステーションでのリアルタイム実行が可能であることが確認された。
Link: https://arxiv.org/abs/2603.18613
ZEBRAARENA：ツール拡張LLMにおける推論と行動の連動を研究するための診断シミュレーション環境 [cs.AI]目的：ツール拡張LLMにおける推論と行動の連動の診断
- LLMの能力向上には，複雑なタスク実行における推論と行動の適切な連携が不可欠である。
- 既存の評価ベンチマークは，環境の複雑さや知識の暗記によって，推論と行動の連動を正確に評価できない場合がある。
- 知識依存性を最小限に抑え，推論と行動の連動を明確に診断可能な環境を構築し，LLMの課題を特定すること。
- ZEBRAARENAは，知識の暗記やデータ汚染の影響を抑制し，推論と行動の連動を評価するためのプロシージャ的に生成される診断環境である。
- GPT-5やGemini 2.5 Proなどの最先端モデルでも，ZEBRAARENAの難しい問題に対する正答率は60%にとどまることが示された。
- GPT-5は，理論的な最適値よりも70～270%多くのツール呼び出しを行うなど，理論的最適性と実際のツール使用間に乖離が見られた。
Link: https://arxiv.org/abs/2603.18614
自己進化の学習 [cs.CL, cs.AI]目的：テスト時の自己進化
- 大規模言語モデルの性能向上は，様々な応用分野において重要である。
- 既存手法はモデル自身の推論能力に依存しており，自己進化のための明示的な学習が不足している。
- 自己進化を学習可能なスキルとして捉え，モデルのコンテキスト改善能力を高めることを目指す。
- LSEは，LLMがテスト時に自身のコンテキストを改善する新しい強化学習フレームワークである。
- Text-to-SQLや質問応答において，GPT-5やClaude Sonnet 4.5を上回る性能を示した。
- 追加学習なしで他のモデルへの転移も可能であり，自己進化の有効性を実証した。
Link: https://arxiv.org/abs/2603.18620
OpenT2M：大規模で高品質なオープンソースデータを用いた，簡素なモーション生成 [cs.CV, cs.AI]目的：テキストからのモーション生成
- アニメーションやロボット工学への応用が期待される分野であり，現実的な人間の動きを生成する技術が重要である。
- 既存のモーションデータセットの規模が小さく，多様性に欠けるため，未知のテキストからのモーション生成性能が低いという課題がある。
- 大規模で高品質なオープンソースデータセットと，それを用いた簡素なモーション生成モデルを開発し，この課題を解決する。
- OpenT2Mは，2800時間以上のモーションデータを含む大規模データセットであり，既存のT2Mモデルの汎化性能を大幅に向上させる。
- 2D-PRQという新規モーショントークナイザーを開発し，人間の体の部位を生物学的な要素に分割することで，時空間的な依存関係を捉えることに成功した。
- MonoFrillは，複雑な設計や技巧を必要とせずに，優れたT2M結果を達成する事前学習済みモデルである。
Link: https://arxiv.org/abs/2603.18623
REST：ゼロショット物体目標ナビゲーションのための後退ホライズン探索ステイナー木 [cs.RO, cs.AI, cs.CV]目的：ゼロショット物体目標ナビゲーションにおける経路探索手法
- ロボットナビゲーションは，自律的な行動を実現する上で不可欠な技術である。
- 既存手法では，未知環境下での物体探索の効率性や成功率が十分ではない。
- 経路候補の構造化により，探索空間の効率的な削減を目指す。
- RESTは，オンラインRGB-Dストリームから3次元マップを構築し，安全で情報量の多い経路木を生成する。
- 経路木を空間的な物語としてテキスト化し，LLMによる思考連鎖推論を通じて最適な経路を選択する。
- Gibson，HM3D，HSSDのベンチマークにおいて，高い成功率と経路効率を両立している。
Link: https://arxiv.org/abs/2603.18624
空間的根拠に基づいたテキスト-画像生成のためのエージェント的フロー操縦と並列ロールアウト探索 [cs.AI]目的：テキスト-画像生成における関係性推論の限界とオープンループサンプリングのエラー蓄積の克服
- テキスト-画像生成技術は進歩したが，空間的な制約を正確に反映することが課題であった。
- 静的なテキストエンコーダの限界と，オープンループサンプリングにおける誤差の蓄積が問題となっていた。
- VLMを用いた閉ループフレームワークにより，空間的な制約に基づいた生成精度を向上させる。
- AFS-Searchは，FLUX.1-devの性能を大幅に向上させ，3つのベンチマークで最先端の結果を達成した。
- AFS-Search-Fastは，高速な生成速度を維持しつつ，大幅な性能向上を実現した。
- 中間潜在状態を診断し，VLMによる報酬に基づいて最適なパスを選択することで生成を改善する。
Link: https://arxiv.org/abs/2603.18627
D-Mem：LLMエージェントのための二重過程メモリシステム [cs.AI]目的：LLMエージェントにおける長期的な推論のための高精度なメモリアクセス
- 持続的かつ自己適応的な自律エージェントの開発が進み，その性能向上には高度な記憶システムが不可欠である。
- 既存の検索ベースのメモリシステムは，情報を抽象化しやすく，文脈的に重要な情報を見落とす場合がある。
- D-Memは，高速な検索と高精度な詳細な検討を組み合わせ，計算コストを抑えつつ精度向上を目指す。
- D-Memは，ルーチンなクエリには軽量なベクトル検索を使用し，複雑なクエリには詳細な検討モジュールをfallbackとして活用する。
- LoCoMoベンチマークにおいて，GPT-4o-miniを用いたMulti-dimensional Quality Gating policyはF1スコア53.5を達成し，ベースライン(51.2)を上回った。
- 同policyは，詳細な検討モジュールの性能の96.7%を回復しつつ，大幅な計算コスト削減を実現した。
Link: https://arxiv.org/abs/2603.18631
合成知能の統治のためのオント・リレーショナル・ソフィックフレームワーク [cs.AI, cs.ET]目的：合成知能の統治に関する概念的枠組み
- AI技術は急速に進歩しており，社会への影響は大きい。倫理的・法的課題への対応が急務である。
- 既存の規制は技術的な側面に偏っており，知能としてのAIの本質や社会との関係性に関する考察が不足している。
- AIの存在様式や社会との関係性を定義し，倫理的な原則に基づいた統治のあり方を提示する。
- 本研究では，サイバニズム哲学に基づいたORSフレームワークを提案し，AIを単なる道具としてではなく，多次元的な存在として捉える。
- デジタル人格の段階的なスペクトルを提示することで，AIを人間か道具かの二元論を超えた関係性で分類することを可能にする。
- 知恵を重視するサイバソフィを提示し，徳倫理，功利主義，関係性アプローチを統合することで，AI統治の指針を提供する。
Link: https://arxiv.org/abs/2603.18633
SwiftGS：即時衛星表面復元のためのエピソード的事前知識 [cs.CV, cs.LG]目的：多日時衛星画像からの迅速かつ大規模な3次元再構成
- 環境モニタリング，都市計画，災害対応において，迅速な3次元再構成が不可欠である。
- 照明変化，センサーの不均一性，シーンごとの最適化コストが，再構成の困難さを招いている。
- 転移可能な事前知識を活用し，シーンごとの最適化を回避することで，効率的な再構成を目指す。
- SwiftGSは，ジオメトリ・放射を分離したガウス素体と軽量なSDFを予測するメタ学習システムである。
- 微分可能な物理グラフと空間ゲーティングを組み合わせ，ガウスの詳細とグローバルなSDF構造を融合する。
- ゼロショットで動作し，高い計算効率で正確なDSM再構成と一貫性のあるレンダリングを実現する。
Link: https://arxiv.org/abs/2603.18634
マスクされた行動環境におけるモデルフリー強化学習の評価：厳密なブラックジャックのオラクルを用いた検証 [cs.CL, cs.LG]目的：マスクされた行動環境下におけるモデルフリー強化学習手法の性能評価
- 強化学習は，複雑な意思決定問題への応用が期待され，その性能評価は重要である。
- 動的に行動がマスクされる環境下では，最適な方策の学習が困難である。
- 厳密なオラクルを用いて，サンプル効率の良い強化学習手法の性能を定量的に評価する。
- REINFORCEが最もサンプル効率が良く，100万回の手数で46.37%のアクションマッチ率，期待値-0.04688を達成した。
- CEMやSPSAと比較して優れた性能を示したが，全ての手法で細胞条件付き後悔が大きく，局所的な方策エラーが残存した。
- 状態訪問の疎性と動的な行動マスキングが，強化学習の課題であることを示唆する。
Link: https://arxiv.org/abs/2603.18642
TVLAを超えて：ニューラルネットワークのサイドチャネル漏洩検出のためのアンダーソン・ダーリング漏洩評価 [cs.CR, cs.AI]目的：ニューラルネットワーク実装におけるサイドチャネル漏洩の検出
- セキュリティ評価において，サイドチャネル攻撃への対策は重要であり，その検出技術の精度向上が求められる。
- 既存のTVLAは平均値に基づくため，分布のより高次の違いから生じる漏洩の検出に限界がある。
- 分布全体の比較に基づき，平均値シフトに依存しない新しい漏洩検出フレームワークを提案し，TVLAの限界を克服する。
- 提案手法ADLAは，TVLAと比較して，より少ないトレース数で，保護された実装における漏洩検出感度を向上させる。
- MNISTで学習されたMLPをChipWhisperer-Huskyで実装し，シャッフルやランダムジッターといった対策を施した環境下で評価を行った。
- ADLAは，累積分布関数の等価性を検定することで，より詳細な漏洩検出が可能となる。
Link: https://arxiv.org/abs/2603.18647
LLMベースのセマンティック評価による表抽出のPDFパーサーベンチマーク [cs.CV, cs.AI, cs.IR]目的：PDFからの表抽出におけるパーサーの性能評価
- 大規模科学データマイニングや知識ベース構築において，PDFからの表抽出は不可欠である。
- 既存の評価指標はルールベースであり，表の内容のセマンティックな等価性を捉えられない。
- LLMを用いたセマンティック評価フレームワークを構築し，より正確な評価を実現する。
- LLMベースの評価は，人間の判断との相関が非常に高い (Pearson r=0.93) ことが示された。
- Tree Edit DistanceやGrid Table Similarityなどの既存手法と比較して，大幅に高い相関を示した。
- 21のPDFパーサーを評価した結果，性能に大きなばらつきがあることが明らかになった。
Link: https://arxiv.org/abs/2603.18652
医療超音波画像セグメンテーションにおける半教師あり学習とコントラスト学習のためのマルチスケールスイッチ [cs.DB, cs.CV, cs.AI]目的：医療超音波画像セグメンテーションのための新しい半教師あり学習フレームワーク
- 医療画像解析は，疾患診断や治療計画において重要な役割を担う。
- 医療超音波画像は，ノイズや低コントラストなどのアーチファクトが多く，正確なセグメンテーションが困難である。
- 限られたラベル付きデータでも高精度なセグメンテーションを実現する手法が求められている。
- 提案手法Switchは，マルチスケールパッチミキシングとコントラスト学習により，ラベルなしデータの活用とロバストな特徴表現を実現した。
- 6つの超音波データセットにおいて，最先端手法と比較して一貫した性能向上を示した。
- 5%のラベル比率で，LN-INT，DDTI，Prostateデータセットにおいてそれぞれ80.04%，85.52%，83.48%のDice係数を達成し，フル教師あり学習ベースラインを上回った。
Link: https://arxiv.org/abs/2603.18655
バランスの取れた思考：視覚言語モデルにおける思考の連鎖トレーニングの改善 [cs.AI]目的：視覚言語モデルにおける思考の連鎖トレーニングの改善
- 視覚言語モデルは，画像とテキストの両方を理解する能力が求められ，多様な応用が期待されている。
- 従来のトレーニング方法では，思考過程のトークンと回答のトークンで重要度が異なり，冗長な思考や不正確な回答が生じやすい。
- 本研究は，思考と回答のトークンに対する重みを動的に調整し，簡潔で根拠のある推論を促進することを目指す。
- 提案手法SCALeは，思考過程と回答過程に対するスーパーバイズを分離し，動的な重み付けを行うことで，従来のSFTよりも精度が向上した。
- SCALeは，2段階のSFT+GRPOパイプラインと同等の性能を，1/7のトレーニング時間で実現し，軽量かつ効果的な代替手法となる。
- GRPOと組み合わせることで，SCALeは全体的な性能をさらに向上させ，強固な基盤としての価値を示した。
Link: https://arxiv.org/abs/2603.18656
SSLベースの反詐欺モデルにおけるマルチコーパス学習の強化：ドメイン不変特徴抽出 [cs.LG]目的：音声詐欺検出におけるロバスト性と性能の向上
- 音声処理技術の応用範囲拡大に伴い，セキュリティ確保の重要性が増している。
- 異なるコーパス間で詐欺検出性能にばらつきが生じ，汎化性能が課題となっている。
- コーパス固有のバイアスを低減し，安定した性能を実現することを目指す。
- 提案手法であるIDFEフレームワークは，４つの異なるデータセットで平均等価エラー率を20%削減した。
- マルチタスク学習と勾配反転層を用いることで，学習された埋め込み表現におけるコーパス固有情報を最小化する。
- マルチコーパス学習が必ずしも性能向上につながらないという既存研究の問題点を解決した。
Link: https://arxiv.org/abs/2603.18657
構成を用いた思考：視覚とテキストが交互に現れる幾何学的推論のためのベンチマークとポリシー最適化 [cs.AI]目的：視覚とテキストが交互に現れる幾何学的推論における戦略的構成の習得
- 幾何学的問題解決には視覚的補助の動的な操作が不可欠であり，高度な推論能力が求められる。
- 既存のマルチモーダル大規模言語モデルは静的な図形に依存し，効果的な視覚的補助を戦略的に生成する能力が不足している。
- テキストと視覚情報を交互に活用することで，幾何学的推論の精度向上を目指す。
- 新たなベンチマーク「GeoAux-Bench」を開発し，テキストによる構成ステップと正解の視覚的更新を対応付けた。
- 視覚とテキストの交互活用が，単一モダリティよりも幾何学的相乗効果を捉え，性能向上に繋がることが示された。
- 行動適用ポリシー最適化（A2PO）により，モデルが選択的に補助的な構成を活用し，3.51%の性能向上を達成した。
Link: https://arxiv.org/abs/2603.18662
MANAR：航行可能な抽象概念表現によるメモリアウグメンテッド・アテンション [cs.AI]目的：メモリアウグメンテッド・アテンションと航行可能な抽象概念表現の実現
- 認知科学における意識のメカニズム解明がAIの発展に不可欠である。
- 従来の注意機構は，情報のボトルネックや統合メカニズムに欠ける。
- グローバル・ワークスペース理論に基づく効率的な注意機構を構築する。
- MANARは，抽象概念の記憶と航行可能な抽象概念表現を通じて，グローバル・ワークスペース理論を具現化している。
- 従来の注意機構の二乗の複雑さを解消し，線形時間スケーリングを実現した。
- 言語，視覚，音声タスクにおいて，既存のモデルと同等またはそれ以上の性能を示した。
Link: https://arxiv.org/abs/2603.18676
人間とAIの協調システムにおける認知増幅と認知委譲：指標フレームワーク [cs.HC, cs.AI, cs.CY]目的：人間とAIの協調における認知増幅と認知委譲の区別
- AIの社会実装が進む中，人間の意思決定へのAIの組み込みが不可欠となっている。
- AIへの過度な依存による人間の認知能力低下が懸念されている。
- 人間の認知能力を維持しつつ，AIとの協調による性能向上を目指す。
- 認知増幅指標（CAI*），依存度（D），人間信頼度（HRI），認知ドリフト率（HCDR）を定義した。
- これらの指標により，人間とAIの協調が真に相乗効果をもたらすかを評価できる。
- 短期的な性能向上と長期的な人間の認知能力維持のトレードオフを指摘し，認知持続可能性を重視する設計の必要性を提言した。
Link: https://arxiv.org/abs/2603.18677
垂直型連合学習におけるラベル推論攻撃の再検討：脆弱性の理由と防御方法 [cs.LG, cs.CR]目的：垂直型連合学習におけるラベル推論攻撃の脆弱性と防御策
- プライバシー保護技術である連合学習の重要性が高まっており，特に垂直型連合学習はその応用範囲が広い。
- 垂直型連合学習では，特徴量のみを持つパッシブ参加者がアクティブ参加者のラベルを推論する攻撃が懸念されている。
- 既存のラベル推論攻撃の誤った前提を明らかにし，より効果的な防御策を提案することを目指す。
- 従来の誤解とは異なり，ボトムモデルはラベル情報を十分に表現できていないことが示された。
- 層の出力とラベル間の相互情報量が増加する「モデル補償」現象が，垂直型連合学習特有のものであることが理論的に証明された。
- カット層を前方に移動させることで，ラベル推論攻撃に対する耐性を高め，他の防御策との相乗効果も確認された。
Link: https://arxiv.org/abs/2603.18680
HISR：事後情報変調セグメンタルプロセス報酬によるマルチターンエージェント強化学習 [cs.LG, cs.AI, cs.CL]目的：マルチターンエージェント強化学習における報酬設計手法
- 複雑な長期タスクにおけるLLMの性能向上は重要である。特に，エージェントとしての意思決定能力の向上が求められる。
- 従来の強化学習手法では，疎な報酬や詳細すぎるターンレベル報酬による信用割り当ての信頼性問題が存在する。
- 事後情報を活用し，セグメンタルプロセス報酬を調整することで，信用割り当ての信頼性を高めることを目指す。
- 提案手法HISRは，タスクのサブゴールに報酬を割り当て，重要なセグメントを強調することで，信用割り当ての改善を図る。
- 事後モデルを用いて行動の重要度を評価し，その結果をセグメンタルプロセス報酬の調整に活用する点が特徴である。
- 3つの公開ベンチマークにおける実験結果から，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2603.18683
科学時系列データのクロスドメイン蒸留による事前学習フレームワークSTEP [cs.LG, cs.CL]目的：科学時系列データの統一的な表現学習
- 科学AIにおいて，時系列データは不可欠であり，科学的発見を加速する鍵となる。
- 科学時系列データは，疎で異質性が高く，規模が限られているため，表現学習が困難である。
- 関連ドメインの知識を活用し，科学時系列データに特化した汎用的な特徴表現を学習する。
- 本研究では，音声や脳波信号など，関連ドメインで事前学習されたモデルの知識転移の有効性を示した。
- 提案手法STEPは，適応的なパッチングと統計量補償により，長尺時系列と多様な数値スケールに対応する。
- ７つの科学時系列データタスクにおいて，STEPが有効な事前学習パラダイムであることを実証した。
Link: https://arxiv.org/abs/2603.18688
OCP：産業商品レコメンデーションにおけるスパーススケーリングのための直交制約射影 [cs.DC, cs.PF, cs.LG]目的：産業商品レコメンデーションにおける大規模なアイテムセットに対する表現力向上
- 商品レコメンデーションは，電子商取引において売上増加に不可欠であり，モデルの表現力が重要である。
- 従来のItem-Id語彙はスパーススケーリングにより低頻度情報の干渉を受け，表現力が制限される問題がある。
- 直交制約射影(OCP)により，埋め込み表現を最適化し，表現力の低下を防ぐことを目指す。
- OCPは損失の収束を加速し，モデルのスケーラビリティを向上させる。
- 密層を大規模化した場合でも，一貫した性能向上を実現する。
- JD.comでの大規模な産業展開により，UCXRが12.97％，GMVが8.9％増加することから，有効性が確認された。
Link: https://arxiv.org/abs/2603.18697
供給限度下におけるオフポリシー学習 [eess.SY, cs.SY, math.DS, physics.soc-ph, cs.LG]目的：供給限度下におけるオフポリシー学習手法の提案
- レコメンデーションやオンライン広告など，実世界への応用が広範であるため。
- 既存手法は無限にアイテムを選択可能と仮定しており，現実の制約に対応できない。
- 限られた供給下で，より効率的なアイテム配分を実現し，ポリシー性能を最大化する。
- 従来のオフポリシー学習法が，供給限度下では最適とは限らないことを理論的に示した。
- 提案手法OPLSは，他のユーザーと比較して期待報酬が高いアイテムに焦点を当てることで，効率的な配分を可能にする。
- 合成データおよび実データを用いた実験で，OPLSが既存手法を上回る性能を示すことを確認した。
Link: https://arxiv.org/abs/2603.18702
指数カーネルから多項式へ：多項式カーネルを用いたガウススプラッティング [cs.LG, cs.CV, cs.GR]目的：既存のデータセットとの互換性を維持しつつ，ガウススプラッティングの計算効率の向上
- 3Dガウススプラッティングは，高精度な3Dシーン再現技術として注目されている。
- 既存のデータセットは指数カーネルに最適化されており，他のカーネルとの互換性が課題となる。
- 新たなカーネルを導入することで，既存データセットの活用と効率向上を目指す。
- 提案手法では，指数カーネルをReLU関数と組み合わせた多項式近似カーネルに置き換える。
- これにより，ガウス項目の積極的な削減が可能となり，様々な3Dガウススプラッティング実装で性能が向上する。
- 画像品質への影響は無視できる範囲で，4～15%の性能向上が確認された。
Link: https://arxiv.org/abs/2603.18707
疎な注意機構による正確かつ効率的な多チャンネル時系列予測 [cs.DB, cs.AI]目的：多チャンネル時系列予測の精度向上
- 金融，サプライチェーン，エネルギー計画など多岐にわたる分野で時系列予測は不可欠である。
- 従来のモデルではチャンネル間の相互作用学習が不十分であった。
- チャンネル間の線形・非線形依存関係を捉え，予測精度と計算効率の両立を目指す。
- 提案手法Li-Netは，実世界のベンチマークデータセットにおいて，最先端のモデルと比較して競争力のある性能を達成した。
- Li-Netは，予測精度と計算負荷のバランスに優れ，メモリ使用量と推論時間を大幅に削減した。
- Li-Netはマルチモーダル埋め込みを組み込み，疎な注意機構が最も有益な時間ステップと特徴チャンネルに焦点を当てられるようにした。
Link: https://arxiv.org/abs/2603.18712
MemMA：マルチエージェント推論とインシチュ自己進化によるメモリサイクル制御 [cs.AI]目的：メモリサイクルにおける協調
- 大規模言語モデルの長期的な対話能力向上には，外部メモリの活用が不可欠である。
- 既存システムでは，メモリの構築，検索，利用が独立して扱われ，戦略的な盲目性が生じやすい。
- MemMAは，メモリサイクルの前方と後方パスを協調させ，戦略的な盲目性と遅延した監督問題を解決する。
- MemMAは，Meta-Thinker，Memory Manager，Query Reasonerという3つのエージェントでメモリサイクルを制御する。
- 前方パスでは，Meta-Thinkerが構造化されたガイダンスを提供し，Memory ManagerとQuery Reasonerを導く。
- 後方パスでは，インシチュ自己進化により，メモリの検証と修復を行い，メモリの品質を向上させる。
Link: https://arxiv.org/abs/2603.18718
オントロジーに基づく拡散法によるゼロショット視覚Sim2Real転移 [cs.CV, cs.AI]目的：シミュレーションから現実世界への転移
- 現実世界のデータ不足を補い，シミュレーション環境での学習を現実への適用を可能にする重要性。
- 既存手法は，構造化された要素を捉えきれず，現実らしさを表現できないという課題がある。
- オントロジーを用いて現実らしさを構造化知識として捉え，データ効率の高い転移を目指す。
- 提案手法(OGD)は，現実と合成画像の識別性能において，既存手法を上回る結果を示した。
- OGDは，知識グラフに基づいた埋め込み表現と構造化された指示プロンプトを用いて，高品質なSim2Real画像翻訳を実現した。
- 現実らしさの構造を明示的にエンコードすることで，解釈可能かつ汎用的なゼロショットSim2Real転移を可能にした。
Link: https://arxiv.org/abs/2603.18719
単一および複数エージェント生成AIアーキテクチャにおける言語的ステレオタイプの分析 [cs.AI]目的：言語的ステレオタイプの発生メカニズムの解明
- AIの社会実装が進む中で，公平性と倫理が重要な課題となっている。
- 大規模言語モデルが特定の言語変種に対して偏った出力を生成することが問題視されている。
- ステレオタイプ生成の軽減策の効果検証と，より公平なAI開発への貢献を目指す。
- 標準アメリカ英語とアフリカ系アメリカ英語の入力に対して，ステレオタイプに基づいた推論が生じることが確認された。
- Chain-Of-Thoughtプロンプティングと複数エージェントアーキテクチャが，ステレオタイプの軽減に有効であることが示された。
- モデルの種類によって軽減策の効果に差が見られ，モデル固有の検証の必要性が示唆された。
Link: https://arxiv.org/abs/2603.18729