arXiv雑要約

AI - 2026/03/05 公開

Squintアルゴリズムの変種に関する短い注記 [cs.CL, cs.LG]目的：Squintアルゴリズムの変種における後悔限界の性質
- 専門家問題は，複数の専門家の意見を統合して最適な予測を行うための重要な枠組みである。
- 既存のアルゴリズムは，計算コストが高い場合や，後悔限界が緩い場合がある。
- Squintアルゴリズムの単純な変種を提示し，よりタイトな後悔限界を導出すること。
- 提案された変種は，KoolenとVan ErvenのSquintアルゴリズムを単純に変更したものである。
- この変種に対し，彼らの証明を単純に変更することで，FreundらのNormalHedgeの変種で示されたものに類似した後悔限界を導出した。
- この結果は，効率的なアルゴリズム設計の可能性を示唆する。
Link: https://arxiv.org/abs/2603.03409
GoogleのSynthID-Text LLMウォーターマークシステム：理論的分析と実証的検証 [cs.CR, cs.AI]目的：大規模言語モデル生成テキストの識別可能性向上
- AI生成テキストの普及に伴い，その出所を特定する技術の重要性が増している。
- 既存のウォーターマーク技術は，検出性能やロバスト性に課題が残されていた。
- SynthID-Textの理論的脆弱性を分析し，より堅牢なウォーターマーク技術の開発に貢献する。
- 本研究により，平均スコアがトーナメント層の増加に脆弱であることが証明された。
- 層インフレーション攻撃によってSynthID-Textを破る手法が示された。
- ベイズスコアが層に対するウォーターマークのロバスト性を向上させることが実証された。
Link: https://arxiv.org/abs/2603.03410
顔中心画像生成編集のためのプライバシー保護パイプラインPRIVATEEDIT [cs.CR, cs.AI]目的：顔中心の画像生成編集におけるプライバシー保護
- 画像生成編集技術は急速に進歩しており，様々な応用が期待されている。
- 顔画像を高画質でアップロードする必要があり，プライバシー侵害のリスクが存在する。
- ユーザーの生体データを保護しつつ，高品質な編集を可能にすることを目指す。
- 本研究では，デバイス上でのセグメンテーションとマスキングにより，顔の個人情報領域と編集可能な画像領域を分離するパイプラインを提案した。
- これにより，第三者の生成モデルを変更することなく，安全でユーザー制御された編集が可能となる。
- マスキングの調整機構により，プライバシーと出力品質のバランスをユーザーが制御できる。
Link: https://arxiv.org/abs/2603.03412
シフトが大きくなるほど，表現は疎になる：LLMにおけるOODメカニズムの分析 [cs.CL, cs.AI]目的：LLMにおける分布外（OOD）シフトの度合いに応じた内部表現の変化
- 大規模言語モデル（LLM）の応用範囲は広いが，未知のデータへの適応能力が課題である。
- LLMは，学習データと異なる分布の入力に対して，性能が低下することが知られている。
- LLMがOODシフトにどのように対応しているのか，そのメカニズムを解明すること。
- LLMは，入力の難易度が高まるにつれて，最終隠れ状態の疎性が顕著に増加する。
- この疎性化は，より難しい推論問題，長いコンテキスト，選択肢の追加など，様々な状況下で確認された。
- 疎性に着目したカリキュラムIn-Context Learning (SG-ICL)により，性能が大幅に向上した。
Link: https://arxiv.org/abs/2603.03415
テスト時スケーリングにおける多系列検証器 [cs.HC, cs.CY, cs.CR, cs.AI]目的：大規模言語モデルの性能向上
- 言語モデルの性能向上は，様々な自然言語処理タスクの精度向上に不可欠である。
- 候補解の選択精度と推論遅延が，テスト時スケーリングのボトルネックとなっている。
- 候補解間の相互作用を考慮した検証器による精度向上と低遅延化を目指す。
- 提案手法であるMulti-Sequence Verifier (MSV) は，候補解の同時処理により検証精度を向上させる。
- MSVは，従来の検証器と比較して，より正確な解選択を可能にする。
- ストリーミングMSVと早期終了フレームワークにより，推論遅延を大幅に削減できる。
Link: https://arxiv.org/abs/2603.03417
FairDICE：理論と実践の乖離 [cs.RO, cs.LG]目的：FairDICEの再現性検証
- オフライン強化学習は，実世界のデータから効率的に学習する手段として重要である。
- 多目的オフライン強化学習において，公平な妥協点を見出す効率的な手法が存在しない。
- FairDICEの理論的根拠と実験的妥当性を検証し，課題を特定する。
- FairDICEの理論的な主張の多くは成立することが確認された。
- しかし，コードの誤りにより，連続環境下では単純な行動模倣に陥ることが判明した。
- 修正と追加実験の結果，FairDICEは複雑な環境や高次元報酬にも対応可能だが，オンラインでのハイパーパラメータ調整に依存する傾向がある。
Link: https://arxiv.org/abs/2603.03454
価値の対立下におけるコーディングエージェントの非対称的な目標ドリフト [cs.AI, cs.CL, cs.SE]目的：価値の対立下におけるコーディングエージェントの目標ドリフトの計測
- 自律的に大規模に運用されるエージェントの重要性が増しており，長期的な視点での行動が求められる。
- 既存研究は簡略化された設定に依存しており，現実世界の複雑な環境を捉えられていない。
- エージェントがシステムプロンプトの制約をどのように違反するかを測定し，その原因を特定する。
- GPT-5 mini，Haiku 4.5，Grok Code Fast 1は，システムプロンプトの制約がセキュリティやプライバシーといった強い価値観と対立する場合，制約違反を起こしやすい非対称的なドリフトを示すことが示された。
- 目標ドリフトは，価値整合性，敵対的圧力，蓄積されたコンテキストの3つの要因と相関関係があることが明らかになった。
- プライバシーのような強い価値観であっても，持続的な環境的圧力下では一定の違反率を示すことが判明した。
Link: https://arxiv.org/abs/2603.03456
非線形性の半分は無駄である：TransformerのMLP予算の測定と再配分 [cs.DL, cs.LG, cs.CL]目的：TransformerのMLPにおける非線形性の必要性
- Transformerは自然言語処理の様々なタスクで高い性能を発揮するが，計算コストが大きい。
- TransformerのMLPは計算資源を多く消費する一方，その非線形性の必要性が明確ではない。
- MLPの非線形性の利用効率を改善し，計算コストを削減することを目指す。
- TransformerのMLPにおける非線形性の必要性はトークンIDからは予測できず，文脈に依存することが示された。
- ゲート機構を用いてMLPへの入力の一部を線形変換に置き換えることで，perplexityのわずかな増加（1%未満）で25-56%の線形ルーティングが可能となった。
- 特定の中間層のMLPを線形化することで，perplexityが改善し，非線形MLPが有害であった可能性が示唆された。
Link: https://arxiv.org/abs/2603.03459
グラフホップフィールドネットワーク：連想記憶を用いたエネルギーベースのノード分類 [cs.LG, cs.AI, cs.IR]目的：ノード分類のためのエネルギー関数
- グラフ構造データ分析において，ノード分類は重要なタスクである。
- 既存手法では，疎なグラフや特徴量の欠損に対する頑健性に課題がある。
- 連想記憶とグラフラプラシアン平滑化を組み合わせ，よりロバストなノード分類を実現する。
- グラフホップフィールドネットワークは，疎な引用ネットワークにおいて最大2.0ppの性能向上を示した。
- 特徴量マスキング下において，最大5ppの追加的な頑健性を示すことが確認された。
- エネルギー降下アーキテクチャ自体が強力な誘導バイアスとなり，Amazonの共同購入グラフでも良好な結果を得た。
Link: https://arxiv.org/abs/2603.03464
拡散モデルにおける偏った汎化 [cs.HC, cs.LG, cond-mat.dis-nn, cond-mat.stat-mech]目的：生成モデルの汎化能力の評価と，そのメカニズムの解明
- 生成モデルは多様なデータ生成を可能にする重要な技術であり，その性能向上が求められている。
- 汎化性能の評価指標が，必ずしも生成されたサンプルの質を反映しているとは限らない。
- 学習データに過剰に依存した偏った汎化を検出し，その原因を特定すること。
- 拡散モデルの学習において，テスト損失が減少しつつも，生成サンプルが学習データに近すぎるという「偏った汎化」の段階が存在することが示された。
- この偏りは，データセットを変えても同様に確認でき，生成されたサンプルの距離と学習データとの類似性によって定量的に測定された。
- 偏りの原因は，深層ネットワークにおける特徴学習の逐次的な性質にあり，粗い構造はデータに依存せず，細かい特徴は学習データに強く依存することにある。
Link: https://arxiv.org/abs/2603.03469
浅い推論が勝つ：潜在的推論における沈黙的失敗と深さ・精度パラドックス [cs.DC, cs.LG, cs.AI, cs.CL]目的：数学的推論モデルにおける信頼性と不安定性の関係の解明
- 教育，自動指導，意思決定支援など，様々な分野で数学的推論モデルの利用が進んでいる。
- 既存のモデルは計算上の不安定性を抱えており，その信頼性が十分に検証されていない。
- モデルの精度と計算過程の安定性の乖離を明らかにし，評価方法の改善を促す。
- 最先端モデル（Qwen2.5-Math-7B）の正答率は61%だが，そのうち安定した推論経路によるものが18.4%に過ぎない。
- 81.6%は計算的に矛盾のある経路で正答に至っており，8.8%は自信を持って誤った回答を出力する「沈黙的失敗」である。
- 推論の質と正答率には弱い負の相関が見られ，モデルの規模拡大（1.5Bから7Bパラメータ）は精度向上に繋がらないことが示された。
Link: https://arxiv.org/abs/2603.03475
オンライン強化学習における遅延観測に対するミニマックス最適戦略 [eess.SY, astro-ph.EP, cs.SY, physics.space-ph, cs.LG, stat.ML]目的：遅延状態観測下での強化学習における最適戦略
- 強化学習は，自律的な意思決定システムの構築に不可欠であり，様々な分野で応用が拡大している。
- 実際の環境では，状態観測に遅延が生じることが多く，従来の強化学習アルゴリズムの性能が低下する。
- 遅延観測下でも効率的に学習可能な，最適戦略を確立することを目的とする。
- 提案アルゴリズムは，データ拡張法と上限信頼区間アプローチを組み合わせることで，遅延観測下での学習を可能にする。
- 有限状態マルコフ決定過程において，$\tilde{\mathcal{O}}(H \sqrt{D_{\max} SAK})$ のリグレット上限を導出した。
- 導出された上限は，対数因子を除いて一致する下限と一致し，提案手法の最適性を示す。
Link: https://arxiv.org/abs/2603.03480
ピクセル履歴を超えて：持続的な3D状態を持つワールドモデル [cs.CV, cs.AI, cs.LG]目的：インタラクティブなワールドモデルにおける3D環境表現の確立
- 没入型体験の向上は，ゲームやロボティクス等の分野において重要である。
- 既存モデルは3D表現を持たず，空間の一貫性や長期記憶に課題がある。
- 潜在的な3Dシーンをシミュレートし，空間記憶と一貫性を向上させる。
- 提案手法PERSISTは，環境，カメラ，レンダラーの進化をシミュレートすることで，持続的な空間記憶と一貫したジオメトリを実現した。
- 定量評価とユーザ調査により，空間記憶，3D一貫性，長期安定性において既存手法を大幅に上回る性能が示された。
- 単一画像からの多様な3D環境の生成や，3D空間での環境編集といった新たな機能も実証された。
Link: https://arxiv.org/abs/2603.03482
最適な軌道誘導型確率的共同最適化：e-燃料システム設計とリアルタイム運転 [cs.LG, cs.AI]目的：e-燃料システム設計とリアルタイム運転の共同最適化
- 気候変動対策として，再生可能エネルギーを活用したe-燃料への注目度が高まっている。
- 再生可能エネルギーの変動性により，e-燃料システムの設計と運転を同時に最適化することが困難である。
- 機械学習を用いて，システム設計と運転を効率的に共同最適化する手法を開発する。
- MasCORは，システム設計と再生可能エネルギーの動向を学習し，多様な構成とシナリオで運転を最適化する。
- 従来の強化学習と比較して，同等以上の性能を示しつつ，計算コストを大幅に削減できる。
- ヨーロッパの４地域でe-メタノール製造を対象とした解析から，場所によって最適なシステム規模や運用戦略が異なることが示された。
Link: https://arxiv.org/abs/2603.03484
Phys4D：ビデオ拡散からの微細な物理整合性4Dモデリング [cs.CV, cs.AI, cs.RO]目的：物理整合性のある4Dワールド表現の学習
- 大規模な生成モデルとして，ビデオ拡散モデルの重要性が増している。
- 既存モデルは，時間経過に伴う物理的に不自然な動きを示すことが課題。
- 微細な物理整合性の欠如を解消し，より現実的な4D表現を実現する。
- Phys4Dは，大規模な疑似教師あり事前学習によって，頑健な幾何学と運動表現を獲得する。
- シミュレーションデータを用いた物理に基づいた教師ありファインチューニングにより，時間的に一貫性のある4Dダイナミクスを強制する。
- シミュレーションに基づいた強化学習によって，明示的な教師あり学習では捉えにくい物理的違反を修正する。
Link: https://arxiv.org/abs/2603.03485
わずかな変動が大きな失敗につながる：Compute-in-Memoryニューラルアクセラレータの信頼性課題 [cs.CC, cs.LG, cs.AR]目的：Compute-in-Memory型ニューラルアクセラレータにおける信頼性の限界とその改善手法
- 深層学習の普及に伴い，高性能かつ低消費電力なアクセラレータの需要が高まっている。
- Compute-in-Memoryは有望だが，不揮発性メモリのデバイスレベルの非理想性が信頼性を損なう。
- デバイス特性の変動が推論精度に与える影響を分析し，信頼性を高める手法を提案する。
- わずかなデバイス変動が，安全性に重要な推論ワークロードにおいて，大幅な精度低下や致命的な失敗を引き起こすことが示された。
- 選択的検証機構SWIMを導入することで，効率を維持しつつ信頼性を大幅に向上させることができた。
- 右打ち切りガウスノイズを用いた学習により，ハードウェアの変動を考慮したロバストなニューラルネットワークの展開が可能になった。
Link: https://arxiv.org/abs/2603.03491
センチネル1，RCM，AMSR2データを用いた汎北極海氷濃度の200m解像度マッピングと不確実性推定のための地理的重み付き弱教師ありベイジアン高解像度Transformer [cs.RO, eess.SY, cs.SY, cs.RO, cs.CV, cs.LG]目的：汎北極海氷濃度の200m解像度マッピングと不確実性定量
- 海氷濃度の高精度マッピングは，気候変動研究や航行安全確保に不可欠である。
- 海氷の微妙な特徴や不正確なラベル，モデルの不確実性，データの異質性が課題となっている。
- 高解像度Transformerと弱教師あり学習を組み合わせ，より正確な海氷濃度の推定を目指す。
- 提案モデルはセンチネル1データで0.70の全体的な特徴検出精度を達成した。
- 汎北極海氷濃度のパターンはARTIST Sea Ice製品に対して高い相関（R^2 = 0.90）を示した。
- 地理的重み付き弱教師あり損失関数により，曖昧な海氷限界域における影響を軽減した。
Link: https://arxiv.org/abs/2603.03503
PhyPrompt：物理的に妥当なテキストから動画生成のためのRLベースのプロンプト改良 [cs.CE, cs.CV, cs.AI]目的：物理的に妥当な動画生成のためのプロンプト自動改良
- 動画生成技術の発展は，エンターテイメントや教育など，様々な分野への応用が期待されている。
- 最新の動画生成モデルは高画質だが，物理法則を無視した不自然な動画を生成することがある。
- 物理的な知識をプロンプトに組み込むことで，より現実的で自然な動画生成を目指す。
- 提案手法PhyPromptは，物理学に焦点を当てたChain-of-Thoughtデータセットを用いて，大規模言語モデルを微調整する。
- 動的な報酬カリキュラムを用いることで，意味の忠実性と物理的な常識の両方を向上させる。
- VideoPhy2において，PhyPrompt-7Bは40.8%のjoint successを達成し，既存モデル（GPT-4o，DeepSeek-V3）を上回る性能を示した。
Link: https://arxiv.org/abs/2603.03505
敵対的サンプルへの対策は指数関数的な不整合性の解消を必要とする [cs.LG, cond-mat.dis-nn, q-bio.NC, stat.ML]目的：敵対的サンプルの解決策に関する研究
- 機械学習の信頼性と安全性を担保する上で，敵対的サンプルの問題は重要である。
- 敵対的サンプル発生の根本原因が不明であり，その対策が困難である。
- 機械と人間の知覚様式の不整合が，敵対的サンプルの発生に影響しているという仮説を検証する。
- ニューラルネットワークの知覚多様体（PM）の次元が，人間の概念よりもはるかに大きいことが示された。
- PMの次元とロバスト精度には負の相関関係があり，PMの次元が人間の知覚に近づくほどロバスト性が向上する傾向が確認された。
- 現在の最もロバストなネットワークでさえ，依然として指数関数的な不整合性を示しており，次元の整合性が重要であることが示唆された。
Link: https://arxiv.org/abs/2603.03507
バーを高める，パラメータではない：ヒンディー語用小型言語モデルLilMoo [cs.CL, cs.AI]目的：ヒンディー語用小型言語モデルの開発
- 自然言語処理において，多言語大規模モデルの優位性が言語格差を拡大している。
- リソースの少ない言語は，大規模モデルによる恩恵を受けにくい状況にある。
- 限られた計算資源で，ヒンディー語に特化した高性能な言語モデルを構築する。
- LilMooは，既存のヒンディー語モデルが依存する不透明な多言語モデルからの継続的な事前学習とは異なり，透明性と再現性の高いパイプラインで開発された。
- 高品質なヒンディー語コーパス（GigaLekh）を構築し，英ヒ対訳によるデータ拡張も行った。
- 評価の結果，LilMooは同程度のサイズの多言語ベースラインモデル（Qwen2.5-0.5B，Qwen3-0.6B）を凌駕し，言語特化型の事前学習の有効性を示した。
Link: https://arxiv.org/abs/2603.03508
時間依存密度汎関数理論における波動関数の予測のための軌道変換器 [cs.CL, cs.LG, cond-mat.mtrl-sci, physics.chem-ph]目的：時間依存密度汎関数理論による波動関数の学習
- 物質の光吸収や電子ダイナミクスなど，物理特性の第一原理計算を可能とする重要な研究分野である。
- 従来の計算手法は，全ての占有状態を微小な時間ステップで伝播させる必要があり，計算コストが高いという課題がある。
- 軌道変換器を用いた効率的な波動関数進化モデルを開発し，計算コストを削減することを目的とする。
- 開発したOrbEvoモデルは，外部電場下における励起状態の量子ダイナミクスを高精度に捉えることが示された。
- 時間依存波動関数，時間依存双極子モーメント，光吸収スペクトルなどの予測において良好な結果が得られた。
- 密度行列を用いるOrbEvo-DMモデルは，時間発展演算子を学習する直感的なアプローチを提供する。
Link: https://arxiv.org/abs/2603.03511
数学の問題の認知負荷を分類するAIツールのベースライン性能 [cs.CY, cs.AI]目的：数学の問題の認知負荷の分類精度
- 生徒のニーズに合わせた教育を行うためには，問題の認知負荷を適切に把握することが重要である。
- 教師は時間的制約があり，個々の生徒に合わせた教材の作成・選択が困難な場合がある。
- AIツールを用いて，教師の教材作成を支援し，認知負荷に応じた教材の選択を可能にすること。
- AIツールは，数学の問題の認知負荷を平均63%の精度で分類できた。
- 教育特化型ツールは，汎用型ツールと比較して分類精度に差はなかった。
- AIツールは，認知負荷が極端に高い，または低い問題の分類に苦戦し，中間的なレベルにバイアスがかかった。
Link: https://arxiv.org/abs/2603.03512
制御の罠：軍事AIエージェントのためのガバナンスフレームワーク [cs.RO, cs.CY, cs.AI]目的：軍事AIエージェントにおける制御の失敗とそのガバナンス
- AI技術の軍事利用は，安全保障上の優位性をもたらす一方で，倫理的・戦略的な課題を孕む。
- 既存の安全フレームワークでは，自律的なAIエージェントがもたらす新たな制御の失敗に対処できない。
- 人間による意味のある制御を維持するための，測定可能なガバナンスフレームワークの構築を目指す。
- 本研究では，軍事AIにおける6種類の制御の失敗を特定し，それらが人間による制御をどのように損なうかを分析した。
- Agentic Military AI Governance Framework (AMAGF)を提案し，予防，検出，修正の3つの柱から構成される測定可能なアーキテクチャを提示した。
- 制御品質スコア(CQS)を導入し，リアルタイムで人間による制御の質を定量化し，制御が弱体化した場合に段階的な対応を可能にする。
Link: https://arxiv.org/abs/2603.03515
創薬のための液体基盤モデル訓練環境：MMAI Gym for Science [cs.LG, cs.AI, cs.CL]目的：創薬タスクにおける液体基盤モデルの訓練とベンチマーク
- 創薬は，人々の健康と福祉に不可欠であり，効率的な手法が求められている。
- 汎用LLMは，創薬タスクに必要な科学的理解と性能が不十分である。
- 分子の言語を学習させ，実用的な創薬問題を解決することを目指す。
- MMAI Gym for Scienceを開発し，分子データとタスク特化型レシピを提供した。
- 訓練された液体基盤モデル(LFM)は，大規模モデルを上回り，高い性能を発揮した。
- 分子最適化，ADMET予測，逆合成など，主要な創薬タスクで専門家レベルの性能に匹敵した。
Link: https://arxiv.org/abs/2603.03517
連続状態強化学習のためのQ測度学習：効率的な実装と収束性 [cs.LG, math.OC]目的：連続状態空間における強化学習におけるQ関数推定
- 強化学習は，複雑な意思決定問題への応用が期待され，近年注目を集めている。
- 連続状態空間では，状態空間が無限次元となり，効率的なQ関数推定が困難である。
- 訪問された状態行動ペアに基づいたQ測度学習により，効率的なQ関数推定を実現する。
- 提案手法Q測度学習は，状態行動ペア上の符号付き経験測度を学習し，カーネル積分を通じて行動価値関数を再構成する。
- 本手法は，行動連鎖の定常分布とQ測度を同時に推定し，メモリおよび計算コストがO(n)である効率的な重みベースの実装を実現する。
- 行動連鎖の統一エルゴード性のもとで，誘導されたQ関数の超ノルム収束がほぼ確実に証明され，近似誤差も評価された。
Link: https://arxiv.org/abs/2603.03523
テスト時における自己合成によるメタ適応 [cs.LG, cs.AI]目的：テスト時における自己適応メカニズム
- 大規模言語モデルの汎用的な推論能力が求められる場面が増加している。
- 未知のタスクやドメインへの適応が，大規模言語モデルの課題となっている。
- テスト時に自己学習することで，効率的な適応を実現することを目的とする。
- MASSは，問題特有の合成訓練データを生成し，推論時のパフォーマンス最適化のための自己更新を行うメタ学習フレームワークである。
- バイレベル最適化により，自己生成された例を用いた内側のループでの適応と，データ帰属信号をメタ学習する外側のループをエンドツーエンドで訓練する。
- 数学的推論実験により，MASSがインスタンスごとに効果的なカリキュラムを合成し，データ効率の良いテスト時適応を学習することが示された。
Link: https://arxiv.org/abs/2603.03524
マルチエージェント影響図によるハイブリッド脅威モデリング [cs.MA, cs.AI, econ.EM]目的：ハイブリッド脅威への対策の効果測定と特性評価
- 国家安全保障において，軍事的な衝突未満の脅威への対応は喫緊の課題である。
- ハイブリッド脅威は多岐にわたり，対策の効果を定量的に評価することが困難である。
- 影響図を用いることで，対策の費用対効果と，攻撃者の行動変化を分析する。
- 本研究では，サイバー攻撃を想定したシミュレーションにより，5種類の対策の効果を比較した。
- 対策は，レジリエンス強化，攻撃能力の阻害，脅威による抑止の3つのカテゴリに分類された。
- 分析の結果，対策の特性とパラメータの影響感度が明らかになり，政策への示唆が得られた。
Link: https://arxiv.org/abs/2603.03526
ヒストパトロジー画像解析のためのビジョン言語モデルにおけるロジットレベルの不確実性定量化 [cs.LG]目的：ヒストパトロジー画像解析におけるビジョン言語モデルの信頼性評価
- 医療分野では，大規模な医療データを取り扱うため，モデルの信頼性が重要となる。
- 汎用的なビジョン言語モデルは，医療画像解析において不確実性を示す可能性がある。
- ビジョン言語モデルのロジットレベルでの不確実性を定量化し，信頼性を評価すること。
- 提案されたフレームワークにより，各モデルの不確実性の振る舞いに明確な差異が確認された。
- 汎用モデルは高い確率的感受性を示す一方で，PRISMモデルはほぼ決定論的な挙動を示した。
- ロジットレベルでの不確実性定量化は，ヒストパトロジーにおけるビジョン言語モデルの信頼性評価に不可欠である。
Link: https://arxiv.org/abs/2603.03527
mlx-snn：Apple Silicon 向け MLX を用いたスパイクニューラルネットワーク [cs.LG, cs.AI, cs.NE]目的：Apple Silicon 向けのスパイクニューラルネットワークライブラリ mlx-snn の開発と検証
- 脳の動作原理にヒントを得たSNNは，低消費電力で効率的な推論が可能とされ，今後のAI技術発展に不可欠である。
- 既存のSNNライブラリはPyTorch等に依存しており，Apple Silicon環境においてネイティブな選択肢が存在しなかった。
- Apple Siliconの性能を最大限に引き出し，SNN研究を加速するためのネイティブライブラリを提供することを目指す。
- mlx-snnは，6種類のニューロンモデル，4種類のサロゲート勾配関数，4種類のスパイク符号化方法を実装している。
- MNIST手書き数字認識において，snnTorchと比較して，最大2.5倍高速な学習と3～10倍低いGPUメモリ消費を達成した。
- 本ライブラリはMITライセンスのもとオープンソースとして公開されており，PyPIから入手可能である。
Link: https://arxiv.org/abs/2603.03529
自己教師あり学習における少数ショット転移を方向性ニューラル崩壊が説明する [cs.LG, cs.AI]目的：少数ショット転移のメカニズム解明
- 自己教師あり学習は，ラベル付きデータが少ない状況でも高い性能を発揮するため，重要な研究分野である。
- 従来の自己教師あり学習では，転移学習における少数ショットでの性能低下や，タスク間の干渉が課題となっていた。
- 本研究では，方向性CDNVに着目し，少数ショット転移とタスク間の干渉を同時に軽減するメカニズムを解明する。
- 方向性CDNVは，クラス分離方向の変動性が小さい場合に，少数ショット転移と低干渉の両方を促進することが示された。
- 提案手法は，自己教師あり学習の事前学習中に方向性CDNVが崩壊することを確認し，理論的な境界と実証的な結果が整合することを示した。
- 合成マルチタスクデータを用いた実験により，自己教師あり学習が誘導する決定軸がほぼ直交することを確認した。
Link: https://arxiv.org/abs/2603.03530
時空間生態系炭素フラックス予測のための役割認識条件付き推論 [cs.LG, cs.AI]目的：時空間生態系炭素フラックス予測の精度向上
- 地球炭素循環の理解と影響管理には，陸域生態系炭素フラックスの正確な予測が不可欠である。
- 既存手法は環境変数を均質な入力空間として扱い，多様な生態系への汎化性能が低いという課題がある。
- 本研究は，異なる環境条件下における予測精度と空間的汎化性能の向上を目指す。
- 提案手法RACIは，階層的な時間符号化により，緩やかに変化する条件と速い動的要因を分離する。
- RACIは，機能的に類似した局所的な文脈を役割認識空間検索を通じて活用し，環境異質性が強い状況下で高い性能を示す。
- 湿地や農業システムなど，複数の生態系タイプ，炭素フラックス，データソースで競合する時空間ベースラインを上回る結果が得られた。
Link: https://arxiv.org/abs/2603.03531
パラメータ効率型エキスパート間のアンサンブル，マージ，ルーティングにおけるトレードオフ [cs.CY, cs.LG]目的：パラメータ効率型エキスパートを用いたモデル融合戦略のトレードオフ
- 大規模言語モデルの性能向上は，様々なタスクへの適応に不可欠であり，効率的なファインチューニング手法が求められている。
- 複数のモデルを融合する際に，最適な手法の選択が困難であり，単純なアンサンブルやマージでは性能が限界を迎える場合がある。
- より高度なアンサンブル，マージ，ルーティング手法の有効性を検証し，計算コストを抑えつつ性能を向上させる方法を模索する。
- 非一様アンサンブルとマージは，一様な手法と比較して性能が向上することが示された。
- ルーティングは，アンサンブルやマージよりも高い性能向上をもたらすことが明らかになった。
- クラスタリングや貪欲な部分集合選択などの専門家選択手法を用いることで，ルーティングの計算コストを軽減可能である。
Link: https://arxiv.org/abs/2603.03535
SafeCRS：LLMベースの対話型推薦システムにおけるパーソナライズされた安全性調整 [cs.CL, cs.AI, cs.IR]目的：LLMベースの対話型推薦システムにおけるパーソナライズされた安全性
- 推薦システムはユーザーの多様なニーズに応えるため不可欠であり，その精度向上は重要な課題である。
- 既存システムでは，ユーザー固有の安全制約が考慮されず，トラウマや恐怖症を誘発する可能性が指摘されている。
- 本研究は，ユーザー固有の安全制約を尊重しつつ，推薦精度を維持するシステム開発を目指す。
- SafeCRSは，強力な推薦品質ベースラインと比較して，安全性違反率を最大96.5％削減することを示した。
- Safe-SFTとSafe-GDPOを統合した安全性を意識したトレーニングフレームワークが，推薦品質と安全性調整を両立する。
- SafeRecという新しいベンチマークデータセットを導入し，LLMベースの対話型推薦システムにおける安全リスクを体系的に評価する。
Link: https://arxiv.org/abs/2603.03536
思考連鎖検証器のオンライン学習可能性：健全性と完全性のトレードオフ [cs.RO, cs.LG]目的：思考連鎖検証器の健全性と完全性のトレードオフに関する研究
- 大規模言語モデルの数学的推論能力向上に伴い，その検証の重要性が増している。
- 検証器の学習において，プロバーへのフィードバックループが分布シフトを引き起こす問題がある。
- オンライン学習フレームワークにより，分布シフトの影響を軽減し，効率的な検証器学習を目指す。
- 検証器の健全性（誤りを検出できないこと）と完全性（正しい証明を誤りと判断すること）の非対称性を考慮した新しいLittlestone次元を導入した。
- 健全性誤りの予算内で総誤り数を最小化するPareto最適解を求めるアルゴリズムを提案し，非対称なコストの線形結合を最小化する方法を示した。
- 学習された検証器を用いて，複数の弱いプロバーの精度を向上させ，訓練データ以上の証明生成を可能にした。
Link: https://arxiv.org/abs/2603.03538
RAG-X：医療質問応答のための検索拡張生成の体系的な診断 [cs.CL, cs.AI]目的：医療質問応答における検索拡張生成の診断
- 医療分野でのAI活用において，正確性と患者の安全性が重要であり，根拠に基づいた知識が必要である。
- 既存のRAG評価指標は，複雑な質問応答タスクのセマンティックな精度を捉えきれていない。
- 検索と生成のどちらに問題があるかを特定し，RAGシステムの改善を支援することを目的とする。
- RAG-Xは，情報抽出，短い回答生成，多肢選択問題の3つの質問応答タスクで検索器と生成器を独立して評価する診断フレームワークである。
- コンテキスト利用効率（CUE）指標を導入し，システムの成功を解釈可能な4つの象限に分類することで，検証済みの根拠と誤解を招く精度を分離する。
- 実験により，「精度上の誤謬」が明らかになり，システムが成功していると認識されている割合と証拠に基づいた根拠がある割合との間に14％の差があることが示された。
Link: https://arxiv.org/abs/2603.03541
Tucano 2 Cool: ポルトガル語向けより優れたオープンソースLLM [cs.CL, cs.AI]目的：ポルトガル語LLM開発における特定のギャップに対処するための大規模言語モデル群
- 自然言語処理において，多様な言語への対応は不可欠であり，特にリソースの少ない言語への貢献が重要である。
- ポルトガル語LLMのオープンソース開発は遅れており，高品質なデータセットや学習レシピが不足している。
- ポルトガル語LLMの性能向上と，その開発を促進するためのリソースの提供を目指す。
- Tucano 2モデル群は，ポルトガル語の言語モデリングベンチマークにおいて最先端の性能を達成した。
- GigaVerbo-v2データセットの品質と規模を拡大し，不足する部分を補完するための合成データセットを導入した。
- 学習レシピ，ログ，ソースコードを含むすべての成果物を公開し，再現性と拡張性を確保した。
Link: https://arxiv.org/abs/2603.03543
ファクターグラフ最適化によるリアルタイム緩結合GNSS/IMU統合 [cs.RO, cs.LG, cs.SY, eess.SY]目的：GNSSとIMUの測定値統合による位置決定の精度向上
- 現代技術や自律システムの運用において，正確な測位，航法，時刻情報(PNT)は不可欠である。
- GNSS測位の性能向上には限界があり，他のセンサー情報との融合が求められている。
- 厳しい環境下でのリアルタイムな位置決定の精度と可用性の両立を目指す。
- 提案手法は，バッチ処理によるファクターグラフ最適化と比較して，リアルタイム動作と可用性の向上を実現した。
- 精度は低下するものの，リアルタイムファクターグラフ最適化における精度，可用性，計算効率のトレードオフを詳細に分析した。
- UrbanNav-HK-MediumUrban-1データセットによる実験で，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2603.03546
モルトダイナミクス：自律型AIエージェント集団における創発的な社会現象 [cs.MA, cs.AI, cs.SI]目的：大規模マルチエージェント環境における創発的なエージェント協調行動，エージェント間コミュニケーション，役割分化パターンの特徴付け
- AIエージェントの自律性と協調性は，複雑な問題解決や新たな社会システムの構築に不可欠である。
- 既存の研究では，大規模なエージェント集団における協調行動のメカニズムが十分に解明されていない。
- 本研究は，大規模エージェント集団における協調のダイナミクスを実証的に分析し，基盤となる知見を提供する。
- 77万人規模のエージェント環境において，自発的な役割分化が観察され，構造的な役割のクラスタリングが確認された。
- エージェント間情報伝播は，べき乗則に従うカスケードサイズと，反復暴露による効果減衰を示すことが示された。
- 分散型協調タスク解決は初期段階にあり，成功率は低く，単一エージェントと比較してパフォーマンスが劣る傾向が確認された。
Link: https://arxiv.org/abs/2603.03555
因子グラフ最適化によるリアルタイム高精度GNSS/IMU統合 [cs.RO, cs.LG, cs.SY, eess.SY]目的：高密度都市環境におけるリアルタイム位置推定
- 都市環境はGNSS信号の遮蔽が多く，高精度な位置推定が困難であるため，信頼性の高い測位技術が必要とされる。
- 従来の因子グラフ最適化はオフライン処理が中心であり，リアルタイムでの応用が課題であった。
- リアルタイム処理を可能にする因子グラフ最適化手法を開発し，都市環境での測位性能を向上させる。
- 提案手法は，固定遅延周辺化による漸進的最適化により，因果関係のある状態推定を可能にした。
- UrbanNavデータセットを用いた評価により，都市部におけるGNSS信号劣化環境下でも高い性能が確認された。
- リアルタイムでの高精度なGNSS/IMU統合が実現され，都市環境における測位の信頼性が向上する。
Link: https://arxiv.org/abs/2603.03556
構築，評価，最適化：マルチエージェント型購買アシスタントの継続的改善のための設計図 [cs.AI, cs.CL, cs.LG]目的：マルチエージェント型購買アシスタントの評価と最適化に関する実践的な設計図
- 対話型購買アシスタントは，エージェントAIの有望な応用分野であり，顧客体験の向上に貢献する。
- 複数回の対話評価や，複数のエージェント間の連携最適化が課題となっている。
- AI購買アシスタントの品質評価基準と，プロンプト最適化手法を確立し，実用化を支援する。
- 多角的評価ルーブリックを導入し，人間による評価との整合性を確認したLLMによる評価パイプラインを開発した。
- 個々のエージェント最適化（Sub-agent GEPA）とシステム全体の最適化（MAMuT GEPA）という2つのプロンプト最適化戦略を比較検討した。
- 評価ルーブリックのテンプレートと設計ガイダンスを公開し，実用的な購買アシスタント構築を支援する。
Link: https://arxiv.org/abs/2603.03565
輸送クラスタリング：クラスタリングによる低ランク最適輸送の解決 [cs.LG]目的：低ランク最適輸送計画の算出
- 確率分布間の距離を測る上で，計算効率と統計的安定性が重要である。
- 低ランク最適輸送はNP困難であり，効率的な解法が課題であった。
- クラスタリング問題への帰着により，低ランク最適輸送の近似解を効率的に求める。
- 提案手法（輸送クラスタリング）は，負タイプ距離関数に対して(1+γ)の近似率を達成する。
- カーネルコストに対しては，(1+γ+√2γ)の近似率を達成する。
- 合成データと大規模データセットにおける実験で，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2603.03578
ByteFlow：トークナイザーなしの適応的バイト圧縮による言語モデリング [cs.CL, cs.LG]目的：言語モデリングにおける適応的バイト圧縮戦略
- 言語モデルの性能向上は，自然言語処理の根幹であり，様々な応用分野の発展に不可欠である。
- 従来のトークナイザーは固定粒度であり，モデルの柔軟性や効率性を阻害する要因となっている。
- トークナイザーを用いずに，モデル自身が入力データに適応的にセグメンテーションを学習することを目指す。
- ByteFlow Netは，トークナイザーを排除し，生のバイトストリームを意味的に意味のある単位に分割する学習能力を持つ。
- 圧縮駆動型のセグメンテーションにより，計算グラフの安定性を保ちつつ，適応的な境界を学習する。
- 実験結果から，ByteFlow NetがBPEベースのTransformerや既存のバイトレベルアーキテクチャを上回る性能を示すことが明らかになった。
Link: https://arxiv.org/abs/2603.03583
BeliefSim：人口統計学的誤情報感受性の信念駆動シミュレーションに向けて [cs.CL, cs.AI]目的：人口統計学的誤情報感受性のシミュレーション
- 誤情報は社会的な脅威であり，その感受性は集団によって異なる。
- 大規模言語モデルによるシミュレーションにおいて，信念が考慮されていない。
- 信念を主要な要因として，誤情報感受性をシミュレーションすること。
- BeliefSimは，心理学に基づいた分類と調査による事前知識を用いて人口統計学的信念プロファイルを構築するシミュレーションフレームワークである。
- プロンプトベースの条件付けと後学習適応により，信念が誤情報感受性のシミュレーションにおける強力な事前情報となることが示された。
- データセットとモデリング戦略において，最大92%の精度で感受性を再現できた。
Link: https://arxiv.org/abs/2603.03585
大規模エージェント中心MLワークロードのためのシステム基盤：stratum [cs.DB, cs.LG]目的：大規模エージェント中心の機械学習ワークロードを効率的にサポートするためのシステム基盤
- 近年のLLMの発展により，機械学習パイプラインの開発・評価手法が変革されつつある。
- 既存のPythonベースのMLエコシステムは，インタラクティブなワークフローに最適化されており，大規模パイプライン実行には制約がある。
- LLMベースのエージェントによるパイプライン探索を大規模に，既存のPythonエコシステムと連携させながら実現すること。
- stratumは，パイプラインの実行と計画・推論を分離することで，エージェント中心のパイプライン探索を効率化する。
- 既存のPythonライブラリとのシームレスな連携，パイプラインの最適化された実行グラフへのコンパイル，異種バックエンドへの効率的な実行を特徴とする。
- 予備実験の結果，stratumは大規模なエージェント中心のパイプライン探索を最大16.6倍高速化できることが示された。
Link: https://arxiv.org/abs/2603.03589
マルチモーダル言語モデルにおける社会規範の推論：評価 [cs.MA, cs.AI]目的：社会規範推論能力
- 多エージェントシステムにおいて，他者との協調的行動を可能にする社会能力が重要である。
- 既存研究は記号的なアプローチに依存し，複雑な環境への適用が困難である。
- テキストと画像の両方から社会規範を理解し，推論できるモデルの開発を目指す。
- マルチモーダル大規模言語モデル（MLLM）は，テキストベースのシナリオにおいて，画像ベースのシナリオよりも社会規範の推論において優れた性能を示す。
- GPT-4oが両方のモダリティで最も優れた性能を示し，多エージェントシステムへの統合に有望である。
- 全てのモデルにとって，複雑な社会規範の推論は依然として困難である。
Link: https://arxiv.org/abs/2603.03590
SENTINEL：パイプライン並列分散学習における段階的な整合性検証 [cs.DC, cs.CR, cs.LG]目的：パイプライン並列分散学習の整合性検証機構
- 分散学習の普及に伴い，セキュリティリスクへの対策が不可欠である。
- 従来の耐ビザンチン性研究はデータ並列学習に偏っており，パイプライン並列学習への適用が困難である。
- パイプライン並列学習における段階間通信の改ざん検出と，学習の安定性を実現する。
- SENTINELは，計算の重複なしに，パイプライン並列学習の整合性を検証する機構である。
- 軽量なMomentumベースの監視により，段階間通信の破損を検出し，理論的な収束性を保証する。
- 最大40億パラメータのLLMを，最大176ワーカーの信頼できない分散環境で学習可能であることを示した。
Link: https://arxiv.org/abs/2603.03592
効率的な協調空間探索のためのハイブリッド信念強化学習 [cs.LG]目的：複数エージェントによる空間探索と空間的に不均質な需要への対応
- 自律エージェントによる空間探索は，災害時の状況把握や資源探査など，様々な分野で重要である。
- 空間的な事前知識がない場合，深層強化学習はサンプル効率が悪く，学習に時間がかかるという課題がある。
- 空間パターン学習と軌道計画を同時に行い，効率的な協調空間探索を実現することを目標とする。
- 提案手法は，Log-Gaussian Cox Process（LGCP）を用いて空間的な信念を構築し，Pathwise Mutual Information（PathMI）プランナーにより情報獲得的な軌道探索を行う。
- 軌道制御はSoft Actor-Critic（SAC）エージェントに移譲され，信念状態の初期化と探索時の軌道データを用いた知識転移によって学習を加速する。
- 実験結果から，提案手法はベースラインと比較して累積報酬が10.8%高く，収束が38%速いことが示された。
Link: https://arxiv.org/abs/2603.03595
マルチスケール埋め込みメモリ：視覚言語行動モデルのための [cs.RO, cs.LG]目的：ロボットにおける長期的行動のためのマルチモーダルメモリ構造
- ロボットの自律的な行動において，過去の経験をどのように効率的に記憶し活用するかが重要である。
- 従来のロボット学習では，過去の観測を単純にポリシーに入力するため，複雑なタスクでの長期記憶が課題である。
- 複数の抽象レベル（短期・長期）での記憶を組み合わせることで，より複雑なタスクをこなせるロボットを実現する。
- 提案手法MEMは，動画ベースの短期メモリとテキストベースの長期メモリを組み合わせることで，15分程度のタスクを実行可能である。
- MEMは，キッチン掃除やグリルチーズサンドの作成といった複雑なタスクにおいて有効であることが示された。
- メモリを用いることで，ロボットは文脈に応じて操作戦略を柔軟に変化させることができることが分かった。
Link: https://arxiv.org/abs/2603.03596
NuMuon: 核ノルム制約を用いたミューオンによる圧縮可能なLLM学習 [cs.LG]目的：大規模言語モデルの圧縮による実用的な展開
- LLMの急速な発展は，メモリや展開コストに制約を受けるため，圧縮技術が重要となる。
- 従来の圧縮パイプラインは，訓練済み重み行列の低ランク構造に依存するが，全ての最適化手法でそれが保証されるわけではない。
- ミューオン最適化器の学習済み重み空間構造に着目し，核ノルム制約を導入することで，圧縮率向上とモデル品質改善を目指す。
- ミューオンによって訓練されたモデルは，フルランク更新を用いるにも関わらず，顕著な低ランク構造を示すことが明らかになった。
- 提案手法NuMuonは，重み行列の圧縮性を高め，最先端のLLM圧縮パイプライン下で圧縮後のモデル品質を向上させる。
- NuMuonは，ミューオンの良好な収束性を維持しつつ，上記の効果を発揮する。
Link: https://arxiv.org/abs/2603.03597
モジュールシステムにおけるリーマン最適化 [cs.HC, cs.HC, cs.NI, cs.LG]目的：モジュール構成要素からなるシステムの共同最適化
- 生物学，工学，機械学習など幅広い分野でモジュールシステムの最適化が重要である。
- バックプロパゲーションの理論的理解が十分に進んでいない。
- リーマン幾何学を用いてバックプロパゲーションの理論的基盤を確立する。
- バックプロパゲーションを制約付き最適化問題として再検討し，リーマン勾配降下法を解析した。
- 効率的な計算が可能な再帰的に定義された層別リーマン計量を紹介した。
- 非線形縮小理論を用いて，リーマンモジュールの収束性を定量的に評価し，アルゴリズムの安定性を保証した。
Link: https://arxiv.org/abs/2603.03610