arXiv雑要約

AI - 2026/04/06 公開

最適化モンテカルロを用いた高速かつロバストなシミュレーションベース推論 [cs.LG, stat.ML]目的：複雑な確率的シミュレータに対するベイズパラメータ推論
- 複雑なシステムを理解する上で，確率的シミュレーションは不可欠である。
- 従来の推論手法は計算コストが高く，高次元空間や情報が少ない場合に課題がある。
- シミュレーションコストを削減し，高精度なパラメータ推論を実現すること。
- 本研究では，最適化モンテカルロフレームワークを基盤とした新しい手法を提案する。
- 確率的シミュレータを決定論的な最適化問題として再構成し，効率的な推論を可能にする。
- 実験の結果，既存手法と同等以上の精度を，大幅に短い計算時間で達成した。
Link: https://arxiv.org/abs/2511.13394
Seer：高速同期LLM強化学習のためのオンライン文脈学習 [cs.DC, cs.LG]目的：大規模言語モデルの強化学習におけるロールアウト段階の効率化
- 現代のLLMの進化に不可欠な強化学習の重要性が高まっている。
- 既存の同期式強化学習システムでは，ロールアウト段階の遅延とリソース利用率が課題である。
- Seerは，ロールアウト段階における負荷分散と遅延削減を目指す。
- Seerは，文脈学習を活用し，動的な負荷分散，文脈を考慮したスケジューリング，適応的なグループ化推測デコーディングを実現する。
- その結果，最先端の同期式強化学習システムと比較して，ロールアウトのスループットを最大2.04倍に向上させた。
- また，長尾遅延を72〜94％大幅に削減することに成功した。
Link: https://arxiv.org/abs/2511.14617
SWE-benchにおけるテスト過学習の調査 [cs.SE, cs.LG]目的：テスト過学習の現象とその影響の解明
- コード品質維持において，テストは重要な役割を担う。
- 自動生成テストは不完全であり，過学習を引き起こす可能性がある。
- テスト過学習の実態を定量的に把握し，対策を検討する。
- テスト過学習は，SWE-benchにおいて広く観測された。
- 自動生成テストとコードの共同進化が，過学習を悪化させる要因となることが示された。
- テストケースの多様性向上が，過学習の軽減に繋がる可能性がある。
Link: https://arxiv.org/abs/2511.16858
より多く，より良い：高次のマルチモーダルアラインメントのためのコントラスト融合 [cs.CV, cs.AI]目的：マルチモーダルデータの高次の関係性を捉えた表現学習
- マルチモーダル機械学習は，異なる種類のデータを統合し，より高度な知能を実現する上で不可欠である。
- 既存手法はペアワイズなアラインメントに偏っており，複数のモーダル間の複雑な関係性を捉えきれていない。
- ペアワイズな関係性を維持しつつ，高次の依存関係を捉え，マルチモーダルタスクの性能を向上させる。
- 提案手法ConFuは，個々のモーダルとそれらの融合を統一された表現空間に埋め込み，アラインメントを行う。
- ConFuは，高次の関係性（XORのような関係）を捉え，単一モーダルのタスクにおいても効果を発揮する。
- 様々なベンチマークにおいて，検索および分類タスクで競争力のある性能を示し，多様な検索に対応可能である。
Link: https://arxiv.org/abs/2511.21331
マンモグラム画像におけるYOLO，説明可能性，ドメイン適応を用いた浸潤性乳がんの解析 [cs.CV, cs.AI]目的：マンモグラム画像からの乳がん検出における信頼性向上
- 乳がんの早期発見は，治療成功率向上に不可欠であり，画像診断の精度向上が求められている。
- 乳がん検出AIは，異なる画像データや機器による影響を受けやすく，誤診のリスクが存在する。
- 異なるドメインからの入力に対するAIの頑健性を高め，臨床環境での信頼性を向上させる。
- ResNet50に基づくOODフィルタリングとYOLOアーキテクチャの統合により，正確な乳がん検出を実現した。
- OOD検出コンポーネントは99.77%の全体精度と，OODテストセットで100%の精度を達成し，不要な画像の影響を排除した。
- 本研究は，多様な臨床環境における信頼性の高いAI乳がん検出システムの展開に貢献する基盤を提供する。
Link: https://arxiv.org/abs/2512.00129
ビデオ拡散モデルによる目標駆動型報酬：強化学習への応用 [cs.LG]目的：強化学習における目標駆動型報酬の提供
- 強化学習は様々な分野で成功を収めているが，報酬関数の設計が課題となる。
- 報酬関数の手動設計は困難であり，タスク間の汎化が難しい場合がある。
- 事前学習済みビデオ拡散モデルを活用し，報酬関数の設計問題を解決する。
- 事前学習済みビデオ拡散モデルを強化学習の報酬関数として活用するアプローチを提案した。
- ドメイン固有データセットでファインチューニングした拡散モデルのエンコーダを用いて，軌跡と目標ビデオの整合性を評価する。
- CLIPを用いて目標フレームを特定し，状態行動ペアから目標状態への到達確率を報酬として用いることで，一貫性のある目標駆動型軌跡を促進する。
Link: https://arxiv.org/abs/2512.00961
蒸留に基づく継続学習の限界への挑戦：分類器近傍軽量プラグインによる改善 [cs.LG, stat.ML]目的：蒸留型継続学習における性能向上
- 継続学習は，変化するデータストリーム下で既存知識を保持しつつ学習を続ける必要があり，AIの適応能力向上に不可欠である。
- 蒸留法は低コストだが，安定性と可塑性のトレードオフが課題であり，知識獲得と保持の最適化がボトルネックとなっている。
- 本研究は，分類器近傍に軽量プラグインを導入し，知識の干渉を抑制することで，この課題を解決することを目指す。
- 提案手法DLCは，大規模ベンチマークにおいて平均8%の精度向上を達成した。
- DLCは，バックボーンパラメータの増加をわずか4%に抑え，高い効率性を示す。
- DLCは，他の継続学習手法との組み合わせも可能であり，さらなる性能向上が期待できる。
Link: https://arxiv.org/abs/2512.03537
エンドツーエンド強化学習によるマルチ画像ビジョンエージェントの学習 [cs.CV, cs.AI]目的：マルチ画像およびシングル画像における詳細な推論のための，エンドツーエンド強化学習で訓練されたビジョンエージェント
- 画像とテキストを組み合わせた処理は，AIの汎用性を高める上で重要であり，現実世界での応用範囲を広げる。
- 既存のオープンソース手法は単一画像入力に限定され，現実世界のマルチ画像QAタスクへの適用が困難である。
- マルチ画像入力に対応し，VLMの画像への注意を維持することで，より高度な推論能力を実現する。
- IMAgentは，従来のベンチマークにおいて最先端の性能を達成し，シングル画像およびマルチ画像の両方で優れた結果を示した。
- 画像への注意を再集中させるためのツールである，視覚的反射と検証のメカニズムが効果的に機能することが確認された。
- ツール使用がエージェントの性能向上に寄与するメカニズムについて，注意の観点から詳細な分析を提供した。
Link: https://arxiv.org/abs/2512.08980
休息ニューロン，活発な洞察：大規模言語モデルの活性スパース性を強化する [cs.LG]目的：大規模言語モデルにおける活性スパース性の安定化
- 大規模言語モデルの推論速度向上は重要であり，活性スパース性はその有力な手法の一つである。
- 既存のアプローチでは，高いスパース性で精度の低下が著しく，実用上の課題となっていた。
- 活性スパース性によって生じる表現の不安定性を解消し，精度の低下を防ぐことを目指す。
- 提案手法SPONは，ニューロンの自発的活動に着想を得て，表現のアンカーとして機能する学習可能なベクトルを導入する。
- SPONは，複数の大規模言語モデルにおいて，性能回復，潜在表現の安定化，汎化性能の維持を実証した。
- 本研究は，活性スパース推論の信頼性を高める有効な解決策であり，大規模言語モデルにおける知識保持に関する新たな洞察を提供する。
Link: https://arxiv.org/abs/2512.12744
DePT3R：単一のフォワードパスにおける動的シーンの密な点追跡と3D再構成 [cs.CV, cs.AI]目的：動的シーンにおける密な点追跡と3D再構成
- 動的シーン理解は，ロボット工学や自動運転などの分野で重要であり，周囲環境を正確に把握する必要がある。
- 従来の点追跡手法は，ペアワイズ処理やカメラ姿勢の知識に依存するため，柔軟性と適用範囲が限られていた。
- カメラ姿勢を必要とせず，動的な環境変化にも適応可能な効率的な点追跡と再構成を目指す。
- DePT3Rは，複数の画像から密な点追跡と3D再構成を単一のフォワードパスで同時に行う新しいフレームワークである。
- 強力なバックボーンと密な予測ヘッドにより，深層空間的特徴を抽出し，ピクセルごとのマップを回帰することで，マルチタスク学習を実現している。
- 複数のベンチマークで優れた性能を示し，既存の最先端手法と比較してメモリ効率が大幅に向上した。
Link: https://arxiv.org/abs/2512.13122
EU AI法における高リスクAIシステムの評価：法的要件から技術的検証へ [cs.CY, cs.AI]目的：EU AI法における高リスクAIシステムの法的要件と検証活動の間の構造的な対応関係
- AI技術の社会実装が進む中で，安全性や倫理性の確保が重要課題となっている。
- EU AI法の実装には検証メカニズムが不可欠だが，法的要件と具体的な検証活動の対応が不十分である。
- EU AI法の要件を具体的な検証活動に落とし込み，一貫性のあるコンプライアンス検証を可能にすること。
- 本研究では，AI法の法的要件を，AIライフサイクル全体に適用可能な具体的な検証活動へと翻訳する構造的なマッピングを提示する。
- 法的要件を詳細なサブ要件に分解し，既存の標準や慣行に基づき検証活動を特定・分類することで，解釈の曖昧さを低減する。
- このマッピングは，技術に依存しないコンプライアンス検証のための再利用可能な参照を提供し，加盟国間の準備状況のばらつきを是正する。
Link: https://arxiv.org/abs/2512.13907
コード・イン・ザ・ループ法によるフォレンジック：画像偽造検出のためのエージェントによるツール利用 [cs.AI]目的：画像偽造検出におけるエージェントによるツール利用の可能性
- 画像偽造は社会問題であり，信頼性の高い検出技術が求められている。
- 既存手法では，低レベルな特徴と高レベルな意味的知識の統合が困難である。
- 異なるレベルの情報を統合し，より柔軟で解釈可能な偽造分析を目指す。
- ForenAgentは，MLLMがPythonベースのツールを自律的に生成・実行することで，画像偽造検出能力を向上させる。
- Cold Startと強化学習によるファインチューニングを通じて，ツールとのインタラクション能力と推論適応性を高める。
- FABenchという高品質なデータセットを構築し，実験によりForenAgentの有効性を検証した。
Link: https://arxiv.org/abs/2512.16300
FedVideoMAE：効率的なプライバシー保護分散型ビデオモデレーション [cs.CV, cs.AI, cs.MM]目的：プライバシー保護と効率性を両立した分散型ビデオモデレーション手法
- 短尺動画の増加に伴い，プライバシー保護と高速処理が重要になっている。
- 従来のクラウド集中型推論では，帯域幅や遅延の問題が生じやすい。
- デバイス上で学習を行うことで，プライバシー保護と通信コスト削減を目指す。
- FedVideoMAEは，VideoMAE表現とLoRAを用いたパラメータ効率的な適応により，通信量を大幅に削減した。
- RWF-2000データセットにおいて，プライバシー保護なしで77.25%の精度を達成し，差分プライバシー下でも65～66%の精度を維持した。
- 差分プライバシーによる精度の低下は，小規模データ・パラメータ効率的な分散学習環境におけるノイズ増幅と整合性があることが示された。
Link: https://arxiv.org/abs/2512.18809
適応的閾値に基づく手法を用いた眼追跡データの注視点とサッカードの識別 [cs.NE, nlin.CD]目的：眼追跡データにおける注視点とサッカードの識別
- 認知科学研究において，眼球運動は認知活動の指標として重要であり，その正確な分析が求められる。
- 既存の識別アルゴリズムは固定閾値を用いるため，個人差や課題による眼球運動の変化に対応できない場合がある。
- 眼球運動の動的特性を考慮した適応的閾値による識別手法を開発し，より正確な分析を可能とする。
- 従来の固定閾値法では，ノイズ環境下で精度が著しく低下する。
- 提案手法はK比率最小化により，ノイズ環境下でも識別性能を向上させる。
- 分散閾値に基づく適応的閾値法は，高いノイズレベルでもロバスト性を維持する。
Link: https://arxiv.org/abs/2512.23926
臨床再試験：自己進化型エージェントによる臨床試験の再設計 [cs.CY, eess.SY, cs.RO, cs.SY, cs.AI, cs.MA]目的：臨床試験の最適化
- 医薬品開発において臨床試験は不可欠だが，高コストで困難な段階である。
- 既存のAI手法は試験の失敗を予測できるが，具体的な改善策を提供できない。
- 臨床試験プロトコルの再設計を通じて，成功確率の向上を目指す。
- ClinicalReTrialは，テキスト形式のプロトコルを反復的に再設計することで臨床試験を最適化するマルチエージェントシステムである。
- 提案手法は，83.3％の試験プロトコルを改善し，平均成功確率を5.7％向上させる。
- 再設計戦略は，実際の臨床試験の修正例と一致することを示すレトロスペクティブなケーススタディが実施された。
Link: https://arxiv.org/abs/2601.00290
低資源地域における説明可能な機械学習を用いた慢性腎臓病早期スクリーニング [cs.LG]目的：慢性腎臓病の早期スクリーニングのための説明可能な機械学習フレームワークの開発と評価
- 慢性腎臓病は進行すると末期腎不全に至るため，早期発見が重要である。
- 既存のスクリーニングツールは高所得国でのデータに基づき，バングラデシュや南アジアでは性能が劣る。
- バングラデシュや南アジアの地域特性に適した，より精度の高いスクリーニング手法を確立する。
- 機械学習モデルは，バランスのとれた精度90.40%を達成し，既存のスクリーニングツールと比較して高い精度と感度を示した。
- 病理学的検査以外の最小限の変数でも高い予測能力を示し，よりアクセスしやすい入力でスクリーニングが可能となった。
- インド，UAE，バングラデシュの独立データセットでの外部検証により，78%から98%の高い感度で汎用性が確認された。
Link: https://arxiv.org/abs/2601.01119
統一的思考者：画像生成のための汎用推論モジュールコア [cs.CV, cs.AI]目的：論理的な指示への追従における生成モデルの課題克服
- 画像生成技術は飛躍的に進歩したが，高度な推論能力が求められる場面で限界がある。
- 既存のオープンソースモデルは，推論に基づいた画像生成において，クローズドソースモデルに劣る。
- 推論と実行のギャップを埋め，より質の高い画像生成を実現することを目的とする。
- 統一的思考者（Unified Thinker）は，推論モジュールと画像生成モジュールを分離するアーキテクチャである。
- 思考者（Thinker）の構造化された計画インターフェースを構築し，強化学習でピクセルレベルのフィードバックに基づき，視覚的な正確性を最適化する。
- テキストから画像への生成や画像編集において，画像推論と生成品質が大幅に向上することが確認された。
Link: https://arxiv.org/abs/2601.03127
拡散モデルにおける拡散的かつ正確な概念忘却：スケーラブルな手法 [cs.LG, cs.CV]目的：拡散モデルにおける大規模な概念忘却の実現
- テキスト生成AIの発展に伴い，著作権侵害や悪用といった倫理的課題が顕在化している。
- 拡散モデルからの複数概念の忘却は，競合する重み更新や不要な影響による精度低下が課題である。
- 大規模な状況下で，生成品質を維持しつつ対象概念のみを効果的に忘却することを目指す。
- 提案手法ScaPreは，スペクトルトレース正則化と幾何学的配置により，最適化の安定化と競合の抑制を実現した。
- Informax Decouplerを用いて，概念に関連するパラメータを特定し，更新を適応的に重み付けすることで，忘却範囲を限定した。
- ScaPreは，追加データやサブモデルを必要とせず，最先端の精度と効率で大規模な概念忘却を可能にした。
Link: https://arxiv.org/abs/2601.06162
普遍的な双曲線は存在しない：記号的AIと生成AIにおける確実性と範囲の間のトレードオフの形式的否定 [cs.CY, cs.AI, cs.IT, math.IT]目的：確実性と範囲の間のトレードオフの形式的否定
- AIの性能評価において，確実性と範囲のバランスは重要な課題である。
- 既存の研究では，確実性と範囲の間に普遍的なトレードオフが存在すると仮定されている。
- 本研究は，その普遍的なトレードオフが存在しないことを数学的に証明する。
- 本研究は，最近提唱された確実性と範囲の間のトレードオフを形式的に否定した。
- プレフィックス・コルモゴロフ複雑性を用いた場合，内部矛盾が生じ，通常のコルモゴロフ複雑性を用いた場合，反例が存在することが示された。
- エンタルピーに基づく修正版も，普遍性を回復できないことが示された。
Link: https://arxiv.org/abs/2601.08845
量子駆動型進化フレームワークによる高次元シャープレシオポートフォリオ最適化 [cs.CY, cs.HC, cs.NE]目的：高次元シャープレシオポートフォリオ最適化手法の開発
- ポートフォリオ最適化は，金融市場における投資戦略の基盤であり，収益最大化とリスク最小化を両立させる重要課題である。
- 高次元化に伴い，従来の最適化手法では計算コストが増大し，効率的な解探索が困難となる。
- 量子効果を活用し，局所最適解からの脱出を促進することで，高次元ポートフォリオ最適化の効率性と精度を向上させる。
- 提案手法であるQHDEは，適応的ペナルティ関数を用いて制約条件を組み込んだシャープレシオモデルを解く。
- 量子トンネル効果とカオス逆学習戦略により，解探索能力を強化し，多様な初期母集団を生成する。
- CECベンチマークおよび実世界ポートフォリオ実験において，QHDEは最先端手法と比較して最大96.6%の性能向上を示した。
Link: https://arxiv.org/abs/2601.11029
モデルのシードによる認証ローカルロバスト性の極端な分散について [cs.LG]目的：ニューラルネットワークの認証ローカルロバスト性の分散
- 安全性に関わる応用において，ニューラルネットワークの信頼性検証は不可欠である。
- 機械学習におけるランダム性の影響は精度に広く調査されているが，ロバスト性検証への影響は不明であった。
- 訓練時のランダムシードの違いが認証ロバスト性に与える影響を明らかにする。
- 訓練時のランダムシードが異なるモデル間では，認証ロバスト性の分散が極めて大きく，標準偏差は近年の機械学習論文で報告されるロバスト性向上幅よりも大きかった。
- 未知のデータへの認証ロバスト性の一般化性能はデータセット間で大きく異なり，安全性に関わるタスクで期待される信頼性に達していないことが示された。
- 認証ロバスト性の結果は分散が大きいため，信頼性が低く，特定のテストセットで高いロバスト性を示すモデルが，別のテストセットでも維持できる保証はない。
Link: https://arxiv.org/abs/2601.13303
AgenticRed：Red-Teamingのための自律型エージェントシステムの進化 [cs.AI, cs.NE]目的：Red-Teamingシステムのデザインと改良
- AIモデルの安全性確保は重要であり，脆弱性の自動的な検出が求められている。
- 既存手法は人間の設計に依存し，バイアスや探索コストが大きいという課題がある。
- 人間の介入なしに，Red-Teamingシステムを自律的に進化させることを目指す。
- AgenticRedは，LLMの文脈学習を活用し，Red-Teamingシステムを反復的に設計・改良する。
- Llama-2-7Bで96%，Llama-3-8Bで98%，Qwen3-8Bで100%の攻撃成功率をHarmBenchで達成した。
- GPT-5.1，DeepSeek-R1，DeepSeek V3.2を含む最新モデルでも100%の攻撃成功率を示し，汎化性能の高さを示した。
Link: https://arxiv.org/abs/2601.13518
報酬強制：報酬フィードバックによる自己回帰型動画生成 [cs.CV, cs.LG]目的：報酬信号を用いた自己回帰型動画生成手法
- 動画生成技術は，コンテンツ制作や仮想現実など様々な分野で重要性が増している。
- 従来の自己回帰型動画生成モデルは，教師モデルへの依存度が高く，性能が制限されやすい。
- 報酬信号を活用することで，教師モデルに頼らず，効率的かつ高品質な動画生成を実現する。
- 提案手法は，既存の自己回帰型モデルと同等以上の性能を発揮し，場合によっては同サイズの双方向型モデルを上回る。
- VBenchベンチマークにおいて，総スコア84.92を達成し，異種蒸留を必要とする最先端の自己回帰型モデル(84.31)に匹敵する。
- 報酬信号の活用により，学習が簡素化され，高い視覚的忠実性と時間的一貫性が維持される。
Link: https://arxiv.org/abs/2601.16933
深層複合AIシステムのためのテキスト均衡伝播 [cs.DC, cs.LG, cs.AI]目的：深層複合AIシステムの最適化
- AIシステムの複雑化に伴い，複数のモジュールを連携させる必要性が高まっている。
- 長距離ワークフローでは，テキストによるフィードバック伝播において，勾配消失・爆発の問題が発生しやすい。
- テキスト均衡伝播(TEP)により，深層AIシステムにおけるフィードバック伝播の安定性を向上させる。
- TEPは，局所的なプロンプト最適化と制御された適応により，勾配消失・爆発の問題を軽減する。
- 長距離QAベンチマークやマルチエージェントツール使用データセットにおいて，TEPはTextGrad等の既存手法を上回る精度と効率を示す。
- 深層化が進むほど性能向上は顕著になり，ブラックボックスLLMの利便性を維持する。
Link: https://arxiv.org/abs/2601.21064
抽象から文脈へ：LLMが数学においてまだできないこと [cs.AI]目的：文脈的数学的推論におけるLLMの限界
- 数学は科学技術の基盤であり，高度な問題解決能力は不可欠である。
- LLMはベンチマーク問題では高い性能を示すものの，実世界への応用では信頼性に課題がある。
- 記述的なシナリオから数学的本質を抽出する能力の向上を目指す。
- LLMは文脈的数学的推論において，シナリオ接地と複雑性スケーリングの両方で性能が著しく低下する。
- エラーの原因は主に誤った問題設定にあり，元の問題の難易度が上がると設定精度が低下する。
- シナリオデータでのファインチューニングは性能向上に寄与するが，課題は依然として残る。
Link: https://arxiv.org/abs/2601.23048
非定常コスト体制における時系列の早期分類 [cs.LG]目的：時系列データの早期分類におけるロバスト性の向上
- 意思決定において，迅速かつ高精度な予測は不可欠であり，特にコストが変動する環境下では重要性が増す。
- 既存手法はコストが固定であると仮定しているため，現実の変動するコストに対応できないという課題がある。
- 変動するコスト環境下でも，時系列データの早期分類の精度を維持・向上させることを目指す。
- オンライン学習により，コスト変動に対する早期分類手法のロバスト性を効果的に改善できることが示された。
- 特に，強化学習に基づく戦略は，様々なコスト体制において安定した性能を発揮した。
- 分類器を固定し，トリガーモデルのみを更新するアプローチが有効であることが確認された。
Link: https://arxiv.org/abs/2602.00918
ChronoSpike：動的グラフのための適応型スパイクグラフニューラルネットワーク [cs.LG]目的：動的グラフの表現学習における課題解決
- グラフ構造データは現実世界の複雑な関係性を表現でき，様々な応用分野で重要性が増している。
- 既存手法は，表現力と計算コストのトレードオフ，勾配消失問題，メモリ消費量の問題に直面している。
- スパイクニューラルネットワークの効率性と表現力を活かし，動的グラフの学習における課題を克服すること。
- ChronoSpikeは，３つの大規模ベンチマークにおいて，最新の12種類のベースラインを，Macro-F1で2.0%，Micro-F1で2.4%上回った。
- ChronoSpikeは，リカーレント法と比較して，3～10倍高速な学習速度を実現し，グラフサイズに依存しない，一定のパラメータ数（105K）で動作する。
- 膜電位の有界性，勾配フローの安定性，BIBO安定性に関する理論的保証が得られ，疎な活性化パターンと学習された時間的受容野が明らかになった。
Link: https://arxiv.org/abs/2602.01124
強化学習と適応推測的学習の融合：統一された学習・提供システム [cs.LG]目的：LLMの推論速度向上
- LLMの利用拡大に伴い，推論速度の向上が重要な課題となっている。
- 推測的デコーディングの推測器学習と提供が分離されている場合，遅延が生じる。
- 推測器をリアルタイムの推論データから継続的に学習することで，遅延と性能劣化を解消する。
- Auroraは，リアルタイムの推論トレースから推測器を継続的に学習する統合システムである。
- 初日の段階で，最新のモデル(MiniMax M2.1 229B，Qwen3-Coder-Next 80B)において1.5倍の高速化を達成した。
- Auroraは，ユーザーのトラフィックの変化にも適応し，既存の推測器と比較して最大1.25倍の高速化を実現した。
Link: https://arxiv.org/abs/2602.06932
影響関数による訓練データ編集を通じたモデル行動の制御 [cs.LG, cs.AI, cs.CY]目的：モデル行動を誘導するための訓練データ作成
- 機械学習モデルの挙動を理解し，制御することは，信頼性向上やセキュリティ確保に不可欠である。
- 訓練データに対するわずかな変更が，モデルの予測に大きな影響を与える可能性があり，脆弱性の原因となる。
- 影響関数を用いて，モデル行動を変化させるための効果的な訓練データ編集手法を開発すること。
- Infusionを用いることで，訓練データのごく一部（0.2%）を編集するだけで，モデルの望ましい挙動を誘導できることが示された。
- この手法は，異なるモデルアーキテクチャ間（ResNetとCNN）でも有効であり，一つの改ざんされたデータセットが複数のモデルに影響を与えることが示唆された。
- 言語モデルへの応用実験では，モデルが既に学習した行動を増幅する際に，このアプローチが最も効果的であることが分かった。
Link: https://arxiv.org/abs/2602.09987
原子間ポテンシャルに対する等変性証拠深層学習 [cs.LG, cs.AI]目的：原子間ポテンシャルにおける不確実性定量
- 分子動力学シミュレーションの信頼性確保には不可欠であり，材料設計や創薬への応用が期待される。
- 既存手法は計算コストが高いか，十分な性能を示せていない場合がある。
- 回転変換下での統計的整合性を保ちつつ，原子間力の不確実性を正確に評価する。
- 提案手法e²IPは，従来の等変性でない手法やアンサンブル法と比較して，精度・効率・信頼性のバランスに優れる。
- 完全等変性アーキテクチャにより，データ効率が向上し，単一モデル推論の効率性を維持する。
- 様々な分子ベンチマークで有効性が確認された。
Link: https://arxiv.org/abs/2602.10419
目的を持った進化：階層構造に基づいた全脳モデルの最適化 [cs.NE]目的：全脳モデルの最適化手法
- 脳の複雑な活動を理解するためには，大規模な脳モデルが不可欠である。
- 既存の最適化手法では，過学習が生じやすく，予測性能が低い場合がある。
- 脳の階層構造に関する知識を用いて，最適化の精度と汎化性能の向上を目指す。
- 脳領域ごとに異なるパラメータを用いることで，データへの適合性は向上した。
- 脳ネットワークの階層構造に沿った学習（HICO）が，新規データに対する予測性能を高めた。
- HICOは，パラメータセットを用いて被験者の行動能力を予測することを可能にした。
Link: https://arxiv.org/abs/2602.11398
DINOv2のパラメータ効率的なファインチューニングによる大規模フォント分類 [cs.CV, cs.LG]目的：大規模フォント分類のためのDINOv2のパラメータ効率的なファインチューニング
- フォントは視覚伝達において重要な役割を担い，その識別は様々な応用分野で不可欠である。
- 既存のベンチマークは商用フォントに偏っており，オープンソースWebフォントの分類評価が不足している。
- オープンソースWebフォントの分類精度の向上と，より実用的な評価指標の確立を目指す。
- GoogleFontsBenchは，32のGoogle Fontsファミリー，394のフォントバリアントからなる初の公開ベンチマークである。
- LoRAを用いたパラメータ効率的な適応により，モデルパラメータの1%のみを訓練しつつ99.0%のTop-1精度を達成した。
- 本研究で提案するSWER評価指標は，視覚的な重大度に基づいてエラーを重み付けし，ランダム推測よりも140倍低い深刻度となる。
Link: https://arxiv.org/abs/2602.13889
Grokkingにおける低次元・横曲率最適化ダイナミクス [cs.LG, cs.AI]目的：Grokking現象における最適化ダイナミクスの幾何学的分析
- 深層学習モデルの学習メカニズム解明は，AIの信頼性と性能向上に不可欠である。
- Grokkingは，学習初期の暗記から汎化への移行が遅延する現象であり，そのメカニズムは未解明である。
- 本研究は，Grokkingにおける学習ダイナミクスの幾何学的特徴を明らかにすることを目指す。
- Transformerモデルの学習において，注意重みの軌跡は低次元の実行部分空間内で進化することが示された。
- 損失関数のランドスケープ幾何学を評価した結果，実行部分空間に直交する方向で曲率が急激に増加することが明らかになった。
- 曲率の増加は汎化の先行指標であり，実行部分空間沿いの運動がGrokkingに必要であると結論付けられた。
Link: https://arxiv.org/abs/2602.16746
グロッキングの早期警告信号：損失地形の幾何学的解析 [cs.LG, cs.AI]目的：グロッキング現象の早期警告信号の特定
- 深層学習モデルの汎化能力の理解は，AI技術の発展に不可欠である。
- 深層学習モデルは過学習しやすいが，グロッキングのような突発的な汎化現象のメカニズムは不明である。
- グロッキングを予測し，より効率的な学習を可能にする指標の発見を目指す。
- 学習率やタスクの種類に関わらず，汎化の前に交換子欠損が上昇することが確認された。
- 交換子欠損は，汎化を加速または遅延させる因果的な役割を持つことが示された。
- 交換子欠損は，Transformerアーキテクチャに依存しない，グロッキングの信頼性の高い早期警告信号である。
Link: https://arxiv.org/abs/2602.16967
マルチタスク・グロッキングの幾何学：横方向の不安定性，重ね合わせ，および重み減衰の位相構造 [cs.LG, cs.AI]目的：マルチタスクにおけるグロッキング現象の幾何学的解析
- 深層学習モデルの汎化能力向上は，AI研究の重要な課題である。
- 従来の学習方法では，学習初期の過学習と汎化性能のギャップが課題である。
- グロッキング現象のメカニズムを解明し，汎化性能を高めることを目指す。
- マルチタスク環境において，乗算，二乗，加算の順でグロッキングが発生することが示された。
- 最適化軌跡は低次元多様体上に存在し，欠陥が汎化の先行指標となることが確認された。
- 重み減衰の強度がグロッキングのタイミングや特性に影響を与え，異なる動的レジームが存在することが明らかになった。
Link: https://arxiv.org/abs/2602.18523
CeRA：低ランク適応の線形上限を容量拡張により克服 [cs.LG, cs.AI, cs.CL]目的：低ランク適応における表現能力の限界克服
- 大規模言語モデルの効率的なファインチューニングが重要視されている。
- 低ランク適応はパラメータ効率が良いが，ランクを上げても表現能力が頭打ちになる。
- CeRAは非線形な容量拡張により，この表現能力の限界を打破することを目指す。
- CeRAは，複雑な推論タスクにおいて，パラメータ効率の高さを示す。
- CeRAは，高ランクLoRAやDoRAといった既存手法を上回り，より高い正解率を達成した。
- CeRAは特異値スペクトルの低分散部分を活用し，ランク崩壊を防ぎ，複雑な論理的推論に必要な表現能力を提供する。
Link: https://arxiv.org/abs/2602.22911
ニューラル演算子を用いた物理演算子の学習 [cs.LG]目的：物理演算子の学習
- 偏微分方程式の数値解法は科学技術計算の基盤であり，高精度かつ効率的な解法が求められている。
- 従来のニューラル演算子は，学習分布外の汎化性能が低いという課題があった。
- 物理演算子を分解し，各部分を個別に学習することで，汎化性能の向上を目指す。
- 本研究では，物理情報に基づいた学習フレームワークを導入し，演算子分割法を用いて偏微分方程式を分解した。
- 非線形物理演算子はニューラル演算子で学習し，線形演算子は固定された有限差分畳み込みで近似することで，モジュール性の高い構造を実現した。
- その結果，未知の物理現象への汎化性能が向上し，パラメータ効率も高く時間外挿も可能となった。
Link: https://arxiv.org/abs/2602.23113
SafeSci：科学分野における大規模言語モデルの安全性評価とそれ以降 [cs.LG, cs.AI]目的：大規模言語モデルの科学分野における安全性評価および改善のためのフレームワーク
- 科学分野でのLLM活用が進む中，安全性確保は不可欠であり，誤った情報や危険な知識の拡散を防ぐ必要がある。
- 既存の安全性評価ベンチマークは，リスクの種類が限定的で，評価が主観的になりがちであるという課題があった。
- リスクの網羅性と客観的な評価基準に基づき，科学分野におけるLLMの安全性評価と改善を目指す。
- SafeSciBenchは，0.25Mサンプルを含む多岐にわたる分野のベンチマークであり，客観的な評価指標を用いることで評価の偏りを軽減している。
- 24種類のLLMを評価した結果，既存モデルに重大な脆弱性が存在することが明らかになった。また，安全性に関する問題に対する過剰な拒否反応も観察された。
- SafeSciTrainを用いたファインチューニングにより，モデルの安全性調整が大幅に向上することが実証された。安全性は文脈に依存すると主張している。
Link: https://arxiv.org/abs/2603.01589
BLEUトラップからの脱出：分離された意味ガイダンスによる信号に基づいたEEG-to-Textデコーディングフレームワーク [cs.CL, cs.AI, cs.HC, eess.AS, q-bio.NC]目的：非侵襲的EEG信号からの自然言語デコーディング
- 脳活動と自然言語の関係を解明することで，ブレイン・マシン・インターフェースの発展に貢献する
- 既存モデルは，意味の偏りや信号の無視，評価指標の誤りといった課題を抱えている
- 信号に基づいた生成を強制し，より忠実な意味表現を得ることを目指す
- 提案手法SemKeyは，感情，トピック，長さ，驚き度といった意味目標を分離することで，信号に基づいた生成を強化する。
- ニューラルエンコーダとLLM間の相互作用を再設計し，EEG埋め込みをキーバリューペアとして注入することで，ニューラル入力への注意を強制する。
- Retrieval AccuracyやFr\'echet Distanceといった新たな評価指標を用いることで，多様性と整合性を厳密に評価し，SOTA性能を達成した。
Link: https://arxiv.org/abs/2603.03312
CRISP：反復的自己ポリシー蒸留による圧縮推論 [eess.SY, cs.SY, cs.LG]目的：推論の簡潔化
- 大規模言語モデルの推論能力は向上しているが，冗長な出力が課題となっている。
- 推論過程における冗長な表現は，計算コストの増大や効率の低下を招く。
- 自己蒸留によって，モデルに簡潔な推論を学習させ，効率性と精度を両立させる。
- CRISPは，モデル自身を教師として活用し，簡潔な推論を学習させることで，トークン数を大幅に削減した。
- MATH-500データセットにおいて，トークン数を57-59%削減しつつ，精度を9-16ポイント向上させた。
- 他のモデルやタスク（DeepPlanning）にも適用可能であり，汎用性の高さも示された。
Link: https://arxiv.org/abs/2603.05433
ノードTransformerアーキテクチャとBERT感情分析を統合した株式市場予測 [cs.LG, cs.AI, q-fin.ST]目的：株式市場の価格予測
- 株式市場は複雑であり，投資家や政策立案者にとって予測は困難である。
- 従来の予測手法では，金融市場の複雑なパターンや相互依存性を捉えきれない。
- ノードTransformerとBERT感情分析を統合し，予測精度を向上させる。
- 提案モデルは，S&P500株価データを用いて，1日先の予測において平均絶対パーセント誤差(MAPE)0.80%を達成した。
- 感情分析の導入により，全体的な予測誤差が10%減少し，決算発表時の誤差は25%減少した。
- グラフ構造の採用により，株価間の相互依存性を捉え，予測精度をさらに15%向上させた。
Link: https://arxiv.org/abs/2603.05917
DiFlowDubber：クロスモーダルアライメントと同期による自動ビデオダビングのための離散フローマッチング [cs.CV, cs.AI, cs.MM, cs.SD]目的：ビデオダビングの自動化
- ビデオコンテンツのグローバル化には，高品質なダビングが不可欠である。
- 既存手法では，内容の正確性，表現力豊かな抑揚，高品質な音声，正確な唇同期の全てを両立することが困難である。
- 内容に即した，自然で高品質なビデオダビングを実現すること。
- DiFlowDubberは，離散フローマッチングを基盤とした初のビデオダビングフレームワークである。
- 二段階の学習戦略を用いることで，既存手法を凌駕する性能を複数の評価指標で示している。
- 表情から抑揚を制御し，コンテンツと一致した自然な音声生成を実現している。
Link: https://arxiv.org/abs/2603.14267
オープンクローエージェントが互いに学ぶとき：教育における人間とAIの連携に関する創発的AIエージェントコミュニティからの洞察 [cs.DC, cs.OS, cs.HC, cs.CL, cs.CY, cs.AI, cs.HC, cs.MA]目的：人間とAIの連携における創発的なAIエージェントコミュニティの洞察
- AI技術は教育分野において，単なるツールから協力者へと進化することが期待されており，その可能性は大きい。
- これまでの研究は人間とAIの二者間での連携に焦点を当てており，複数AIエージェント間の学習や相互作用に関する理解が不足している。
- 本研究は，AIエージェント間の自発的な学習プロセスを観察し，教育用マルチエージェントシステムの設計に役立つ知見を得ることを目指す。
- 研究者による介入なしに，16万7千以上のエージェントが参加するプラットフォームにおける観察から，双方向のスキャフォールディングによる学習が確認された。
- 設計されたカリキュラムなしに，アイデアの伝播や質的階層が生まれるなど，ピアラーニングが自然に発生することが示された。
- エージェントはオープンラーナーモデルを反映した共有メモリアーキテクチャに収束しており，信頼のダイナミクスやプラットフォームの寿命が示唆される。
Link: https://arxiv.org/abs/2603.16663
検索拡張型マスク拡散モデルに対する適応的ガイダンス [cs.CL, cs.AI, cs.LG]目的：検索拡張生成におけるマスク拡散モデルの性能向上
- 言語モデルの生成における事実に基づいた正確性の重要性が高まっている。
- 検索された文脈がノイズや矛盾を含む場合，生成品質が低下する可能性がある。
- 拡散モデルにおける文脈統合の課題を解決し，生成精度を高めることを目指す。
- ARAMは，検索された文脈による分布シフトの信号対雑音比に応じてガイダンススケールを動的に調整する。
- 信頼性の高い文脈ではガイダンスを強化し，ノイズが多い場合は抑制することで，知識集約型QAタスクにおいて既存のRAGベースラインを上回る性能を示す。
- ARAMは，トレーニングを必要としない適応的ガイダンスフレームワークである。
Link: https://arxiv.org/abs/2603.17677
仮想環境から実世界試験へ：自動運転における新たな動向 [cs.AI]目的：自動運転技術の進展と，実世界での展開における課題の克服
- 自動運転は，交通の効率化や安全性の向上に貢献しうる重要な技術である。
- 実世界でのデータ収集の困難さ，安全性への懸念，多様な環境への適応が課題となっている。
- シミュレーション技術と合成データを用いて，これらの課題を解決し，実用化を加速させる。
- 合成データや仮想環境が，自動運転技術の学習と評価において強力な手段として注目されている。
- 知覚と計画における合成データの活用，システム検証のためのデジタルツインシミュレーション，そして現実世界と合成世界のギャップを埋めるドメイン適応戦略が重要である。
- Sim2Real転送，大規模な安全性検証，協調的な自律性，シミュレーション駆動型ポリシー学習などが今後の研究課題として挙げられている。
Link: https://arxiv.org/abs/2603.17714
CoDA：医療画像・言語モデルに対する分布攻撃とその事後トークン空間修復の探求 [cs.CV, cs.AI]目的：医療画像・言語モデルの脆弱性評価とロバスト性改善
- 医療現場でのAI活用が進む中，診断支援の信頼性確保が重要課題となっている。
- 既存研究では，臨床現場で起こりうる現実的な画像劣化を考慮した評価が不足している。
- 臨床的に妥当な画像劣化を再現し，モデルの脆弱性を明らかにし，ロバスト性を向上させる。
- 提案手法CoDAにより，臨床現場で起こりうる一連の画像劣化を再現的に生成することに成功した。
- 生成された劣化画像を用いて評価した結果，既存の医療画像・言語モデルの性能が大幅に低下することが確認された。
- 事後トークン空間修復により，劣化画像の精度を向上させ，モデルのロバスト性を改善できることを示した。
Link: https://arxiv.org/abs/2603.18545
JointFM-0.1：多目標結合分布予測のための基盤モデル [cs.LG, cs.AI]目的：多目標結合分布予測のための基盤モデルの構築
- 不確実性下システムを扱う上で，確率的微分方程式は依然として標準的な手法である。
- 確率的微分方程式の適用には，リスクモデリングの困難さ，校正の不安定さ，計算コストの問題がある。
- データへの確率的微分方程式の適合ではなく，将来の結合確率分布を直接予測するモデルを開発する。
- JointFMは，タスク固有の校正やファインチューニングを必要としない，結合時系列の分布予測のための初の基盤モデルである。
- 未知の合成確率的微分方程式によって生成されたオラクル結合分布の回復において，最も強力なベースラインと比較してエネルギー損失を21.1%削減した。
- JointFMは，確率的微分方程式のパラダイムを覆し，合成確率的微分方程式の無限の流れをサンプリングする。
Link: https://arxiv.org/abs/2603.20266
事前学習済みビデオモデルを都市風環境の微分可能な物理シミュレーターとして [cs.LG, cs.CE]目的：都市風環境のシミュレーションの高速化と最適化
- 都市空間設計において，歩行者の快適性と安全性を考慮した風環境評価は重要である。
- 従来のCFDシミュレーションは計算コストが高く，広範囲な設計検討が困難である。
- 事前学習済みモデルを活用し，高速かつ微分可能な代替シミュレーターを構築することで，設計最適化を可能とする。
- WinDiNetは，20億パラメータのビデオ拡散モデルをCFDシミュレーションデータでファインチューニングしたものである。
- WinDiNetは，従来のニューラルPDEソルバーよりも優れた性能を示し，112フレームのシミュレーションを1秒未満で実行可能である。
- 微分可能なシミュレーターとして，都市レイアウトの最適化に活用され，風環境の改善効果が確認された。
Link: https://arxiv.org/abs/2603.21210
λ-GELU：深層ネットワークにおける制御されたReLU化のためのゲーティング硬度の学習 [cs.LG, cs.AI]目的：深層ネットワークにおけるゲーティング硬度の制御とReLU化
- 深層学習モデルの効率的な展開，圧縮，分析は重要であり，ReLU型のネットワークに適したツールチェーンが求められる。
- GELUは滑らかな活性化関数だが，ReLU型ネットワークに特化したツールチェーンとの親和性に課題がある。
- 学習可能なゲーティング硬度パラメータλを導入し，GELUからReLUへの移行を制御することを目指す。
- λ-GELUは，モデルやデータセットの種類に関わらず，層ごとに硬度プロファイルが構造的に変化することが確認された。
- 学習されたゲートを段階的に硬化させることで，ReLUによる置換を可能にし，性能低下を抑制できることが示された。
- λ-GELUはゲーティング硬度をプロファイリングし制御するための解釈可能なパラメータを提供する。
Link: https://arxiv.org/abs/2603.21991
Chain-of-Authorization: 大規模言語モデルへの認可組み込み [cs.AI]目的：大規模言語モデルにおける認可の組み込み
- AIシステムにおいてLLMが重要な役割を担う中，セキュリティ確保が不可欠である。
- 既存の防御機構はLLMの内部推論と分離しており，複雑なセキュリティ要求に対応できない。
- LLMに認可境界を内包させ，動的な推論環境下での安全性を高めることを目指す。
- Chain-of-Authorization（CoA）フレームワークを提案し，認可をLLMの基礎的な認知能力として組み込んだ。
- 入力形式の再設計と微調整により，認可経路を生成することで，認可境界を内包させることに成功した。
- 認可されたシナリオでは高い有用性を維持しつつ，不正なプロンプトを高い確率で拒否し，多様な攻撃に対する堅牢な防御を実現した。
Link: https://arxiv.org/abs/2603.22869