arXiv雑要約

AI - 2026/03/11 公開

単眼画像からのシェーディング系列推定による法線推定 [cs.CV, cs.AI]目的：単眼画像からの法線マップ推定
- 3次元形状の理解は，コンピュータビジョンやロボティクスなど幅広い分野で重要である。
- 既存手法では，法線マップの推定精度と再構成された形状の整合性の問題が存在する。
- シェーディング系列推定という新たなアプローチで形状の情報を捉え，高精度な法線推定を実現する。
- 提案手法RoSEは，画像から動画を生成するモデルを活用し，シェーディング系列を予測する。
- 予測されたシェーディング系列を最小二乗法で法線マップに変換することで，高精度な推定が可能となる。
- 実世界のベンチマークデータセットにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2602.09929
影響関数による訓練データ編集を通じたモデル行動の形成 [cs.LG, cs.AI, cs.CY]目的：モデル行動を誘導するための訓練データ作成
- 機械学習モデルの挙動は訓練データに強く依存する。その挙動を理解・制御することは重要である。
- 訓練データへの攻撃や，意図しない挙動の学習が問題となっている。データ操作による影響の把握が困難である。
- 影響関数を用いて，わずかな訓練データ編集でモデルの行動を系統的に制御する方法を提案する。
- 影響関数近似を用いることで，わずかな訓練データ変更がモデルのパラメータシフトを誘導し，目的とする行動変化を引き起こすことが示された。
- CIFAR-10データセットにおいて，訓練データの0.2%を編集するだけで，既存の手法と同等の性能が得られた。
- この手法はResNetとCNNといった異なるアーキテクチャ間で有効であり，一つの改ざんデータセットが複数のモデルに影響を及ぼすことが確認された。
Link: https://arxiv.org/abs/2602.09987
スパイクニューラルネットワークにおける継続学習のためのエネルギーを考慮したスパイク予算 [cs.CL, cs.NE, cs.AI, cs.CV]目的：ニューロモルフィックビジョンにおける継続学習のためのエネルギー効率と精度を両立するフレームワーク
- ニューロモルフィックビジョンは，低消費電力での知覚を可能にするため，様々な応用が期待されている。
- 継続的に変化する環境下では，ニューラルネットワークの catastrophic forgetting が大きな課題となっている。
- 本研究は，エネルギー制約下での継続学習を可能にし，ニューロモルフィックビジョンの実用性を高めることを目指す。
- 提案手法は，フレームベースのデータセットにおいて，スパース性を誘導することで精度向上とスパイクレートの削減を実現した。
- イベントベースのデータセットでは，スパイク予算の適応的な緩和により，精度を最大17.45%向上させた。
- 5つのベンチマークにおいて，動的消費電力の最小化と性能向上を両立し，継続学習の実用性を示した。
Link: https://arxiv.org/abs/2602.12236
B-DENSE：高密度アンサンブルネットワーク監督効率のための分岐 [cs.LG, cs.AI, cs.CV, cs.NE]目的：拡散モデルの効率的な推論手法
- 生成モデリングの分野で，拡散モデルは最先端の性能を達成している。
- 拡散モデルは反復サンプリングが必要であり，推論遅延が大きいという課題がある。
- 中間軌跡ステップの情報を損失することなく，推論効率を改善すること。
- B-DENSEは，複数分岐軌跡アラインメントを利用した新しいフレームワークである。
- 生徒モデルのアーキテクチャを修正し，教師モデルの軌跡における離散的な中間ステップに対応するK個の分岐を出力する。
- 実験により，B-DENSEはベースラインの蒸留フレームワークと比較して，より優れた画像生成品質を示すことが示された。
Link: https://arxiv.org/abs/2602.15971
MolCrystalFlow：フローマッチングによる分子結晶構造予測 [cs.LG, cond-mat.mtrl-sci]目的：分子結晶構造予測の新たな手法
- 分子構造予測は，材料設計や創薬において重要な役割を担う。
- 分子結晶は複雑な相互作用を持つため，構造予測は困難である。
- 複雑な分子結晶構造を効率的に予測することを目指す。
- MolCrystalFlowは，既存の生成モデルMOFFlowよりも高い性能を示した。
- ルールベースの手法Genarrisと同等の性能を達成している。
- 汎用機械学習ポテンシャルとの統合により，予測の高速化を実現した。
Link: https://arxiv.org/abs/2602.16020
設計段階での欠損：取り消し可能なマルチモーダル感情分析のための認証可能なモーダリティ削除 [cs.RO, cs.SY, eess.SY, cs.CL, cs.LG]目的：取り消し可能なマルチモーダル感情分析のための枠組み
- 個人情報保護の重要性が高まる中で，データ利用におけるプライバシー保護が不可欠となっている。
- マルチモーダルデータにおいて，特定のモーダリティを安全に削除する手法が確立されていない。
- ユーザーの要求に応じて，特定のモーダリティ情報を削除可能なシステムを構築すること。
- MBDは，構造化された表現学習と検証可能なパラメータ修正パイプラインを組み合わせることで，高い予測性能を維持する。
- モーダリティ削除要求に対し，サリエンシー駆動型候補選択とキャリブレーションされたガウス更新を適用することで，機密性と有用性のトレードオフを実現する。
- 完全な再学習と比較して，MBDは効率的な代替手段となりうることを示唆している。
Link: https://arxiv.org/abs/2602.16144
継続的確実性学習 [cs.CY, cs.LG, cs.AI, cs.SY, eess.SY]目的：複数の不確かさを持つ機械システムのロバスト制御
- 機械システムの制御において，不確かさへの対応は不可欠であり，その重要性は高い。
- 非線形性と動作条件の変化が複雑に絡み合う場合，複数の不確かさを同時に扱うことが困難である。
- 複雑な不確かさを段階的に学習し，ロバストな制御性能を実現することを目指す。
- 提案手法は，複数の不確かさを連続的な学習課題に分解するカリキュラムベースの継続学習フレームワークである。
- モデルベースコントローラを統合することで，学習効率を向上させ，サンプル効率を高める残差学習スキームを実現した。
- 自動車パワートレインの能動振動制御への適用により，構造非線形性と動的変動に対するロバスト性が確認された。
Link: https://arxiv.org/abs/2602.17174
潜在的な等変オペレータによるロバストな物体認識：可能性と課題 [cs.CV, cs.LG]目的：物体認識におけるロバスト性の向上
- 視覚情報処理における深層学習の重要性が増しているが，学習データに少ない変換された物体認識が課題。
- 従来の深層学習モデルは，未知の変換に対する汎化性能が低いという問題がある。
- 潜在空間で等変オペレータを学習することで，未知の変換にも対応できる物体認識を目指す。
- 回転と並進のノイズを含むMNISTデータセットを用いて，提案手法が未知の分布に対する分類において有効であることが示された。
- 従来のネットワークや等変ネットワークの限界を克服し，ロバストな物体認識を実現する可能性を示した。
- より複雑なデータセットへの拡張には課題が残るが，将来的な発展に期待が持てる。
Link: https://arxiv.org/abs/2602.18406
拡散言語モデルにおける因子分解障壁の打破 [cs.CL, cs.LG, cs.AI]目的：拡散言語モデルの因子分解障壁克服による高速かつコヒーレントなテキスト生成
- 言語モデルは自然言語処理の基盤であり，その効率化は重要な課題である。
- 拡散言語モデルは並列生成が可能だが，因子分解障壁により性能が制限される。
- 因子分解障壁を打破し，並列性とコヒーレンスを両立する手法を提案する。
- 提案手法CoDDは，軽量な推論層を導入することで，因子分解障壁を克服する。
- CoDDは，既存の拡散言語モデルに容易に組み込み可能であり，計算コストを抑えられる。
- CoDDは，強化学習ベースラインと同等の性能を，より少ない計算量で実現する。
Link: https://arxiv.org/abs/2603.00045
OrthoAI：透明矯正歯科における根拠に基づいた生体力学的推論のための神経記号的フレームワーク [cs.CV, cs.AI]目的：透明矯正歯科における臨床的意思決定支援の自動化
- 透明矯正治療は普及しているが，治療計画の最適化には専門知識と経験が不可欠である。
- 3D歯形状の認識と，生体力学的な実現可能性の評価を統合するシステムが存在しない。
- 少ない注釈データで高精度な歯分割と，臨床的な知識に基づいた治療評価を実現すること。
- 提案手法OrthoAIは，少ないランドマーク情報から高精度な歯分割を可能にした。
- 生体力学的な制約を考慮した治療計画の評価を実現し，臨床的な優先度に基づいた多基準評価を行った。
- CPU環境で4秒未満の高速な推論が可能であり，実用化への道筋を示した。
Link: https://arxiv.org/abs/2603.00124
基礎モデルを用いた鳥画像セグメンテーション：Grounding DINO 1.5，YOLOv11，SAM 2.1による二重パイプラインアプローチ [cs.CV, cs.AI]目的：鳥画像セグメンテーションの性能向上
- 鳥類の姿勢多様性，羽毛模様，照明条件により，画像認識における鳥のセグメンテーションは困難である。
- 既存手法では，新たな種や環境への適応に再学習が必要であり，効率性に課題がある。
- ラベル付きデータなしで，汎用的な基礎モデルを活用し，高精度なセグメンテーションを実現すること。
- 本研究では，Grounding DINO 1.5とSAM 2.1を用いたゼロショットパイプラインで，テキストプロンプトのみでIoU 0.831を達成した。
- CUB-200-2011データセットにおいて，YOLOv11をファインチューニングした教師ありパイプラインは，IoU 0.912，Dice 0.954，F1 0.953を達成し，既存手法を上回った。
- プロンプトベースの基礎モデルパイプラインは，特定のタスク向けに学習されたネットワークよりも優れていることが示された。
Link: https://arxiv.org/abs/2603.00184
高密度スマートフォンGPS軌跡とTransformerモデルを用いた移動手段の検出 [cs.LG]目的：移動手段の検出
- 都市計画や交通インフラの最適化に不可欠であり，より良い社会の実現に貢献する。
- GPSデータのノイズや多様な環境への対応が課題であり，精度向上が求められている。
- TransformerモデルとGPSデータを活用し，高精度な移動手段検出を可能にすること。
- 提案モデルSpeedTransformerは，従来の深層学習モデル（LSTMなど）を上回る性能を示した。
- 地理的地域間での転移学習において高い精度を維持し，小規模なデータセットでのファインチューニングが有効であることを示した。
- 実環境での実験では，複雑な都市環境やデータ不確実性下でも，ベースラインモデルを上回る性能を実証した。
Link: https://arxiv.org/abs/2603.00340
DUEL：決定論的アンマスキングによるマスク拡散の正確な尤度 [cs.LG]目的：マスク拡散モデルの尤度評価の正確性の向上
- 近年のテキスト生成において，拡散モデルの利用が注目されている。特にマスク拡散モデルは並列処理が可能である点に利点がある。
- 従来のマスク拡散モデルでは，尤度評価が不正確であり，その信頼性が課題となっていた。
- 決定論的アンマスキングを用いたDUELフレームワークにより，テスト時分布下での正確な尤度計算を実現し，モデルの性能評価を改善する。
- DUELフレームワークにより，マスク拡散モデルの尤度を初めて正確に計算可能になった。
- 従来の評価指標と比較して，マスク拡散モデルの性能は大幅に向上しており，自己回帰モデルとの性能差が縮小した。
- 位置選択順序の最適化により，マスク拡散モデルは自己回帰モデルを超える性能を発揮する可能性が示唆された。
Link: https://arxiv.org/abs/2603.01367
Pri4R：特権的な4D表現を用いたビジョン-言語-行動モデルにおける世界ダイナミクスの学習 [cs.RO, cs.CV, cs.AI, cs.RO]目的：ビジョン-言語-行動モデルにおける世界ダイナミクスの学習
- 人間は自身の行動と環境の変化を理解する。それをモデルに組み込むことは，より高度な行動遂行に繋がる。
- 既存のVLAモデルは意味理解に優れる一方，物理的相互作用を司る時空間的なダイナミクスを捉えきれていない。
- 特権的な4D情報を活用し，VLAモデルに世界ダイナミクスに関する暗黙的な理解を付与することで課題を解決する。
- Pri4Rは，軽量な点追跡ヘッドをVLAに追加し，3D点追跡を予測することで，シーンジオメトリの変化をモデルに取り込む。
- シミュレーションおよび実環境での評価において，難しい操作タスクにおいて著しい性能向上が確認された（LIBERO-Longで+10%，RoboCasaで+40%）。
- 3D点追跡予測が，行動-世界ダイナミクスの学習に有効な教師信号であることが示された。
Link: https://arxiv.org/abs/2603.01549
勾配としての推論：探索木探索を超えたMLEエージェントの拡張 [cs.LG, cs.AI]目的：機械学習エンジニアリング（MLE）におけるエージェントの最適化手法
- 機械学習システムの開発効率化が求められており，自動化エージェントの重要性が増している。
- 既存のMLEエージェントは探索木探索に依存しており，大規模な探索空間では非効率になる。
- LLMの推論能力を活用し，勾配ベースの最適化により効率的なエージェントを実現すること。
- LLMの推論能力と組み合わせることで，勾配ベースの最適化が探索木探索を上回ることが示された。
- 閉世界プロトコル下では，MLE-Benchで最先端の35.1%のメダル獲得率を達成した。
- モデルの性能向上に伴い，勾配ベースの最適化の優位性が明確になり，その差は拡大する。
Link: https://arxiv.org/abs/2603.01692
ボルツマン探索に基づくロバストな分散型マルチエージェント計画 [cs.CL, cs.MA, cs.AI]目的：分散型マルチエージェント計画におけるロバスト性の向上
- 協調的なマルチエージェントシステムは，複雑なタスクを解決する上で重要である。
- 報酬が疎または偏っている環境下では，分散型モンテカルロ木探索の性能が低下する。
- 疎報酬環境下での探索能力を向上させ，マルチエージェント計画のロバスト性を高める。
- 提案手法であるCB-MCTSは，決定論的なUCTを確率的なボルツマンポリシーに置き換えることで探索性能を向上させた。
- シミュレーションの結果，CB-MCTSは欺瞞的なシナリオにおいてDec-MCTSを上回り，標準的なベンチマークにおいても同等の性能を示した。
- CB-MCTSは，マルチエージェント計画において，よりロバストな解を見つけるための有効な手法であることが示された。
Link: https://arxiv.org/abs/2603.02154
金融テキストと時系列データセット：意味ベースおよび多段階ペアリングによるFinTexTS [cs.AI, cs.LG]目的：金融テキストと時系列データのペアリングによる株価予測の精度向上
- 金融分野では，時系列分析が重要であり，テキストと数値情報を組み合わせた手法が注目されている。
- 既存の手法はキーワードマッチングに頼るため，企業間の複雑な相互依存関係を捉えきれない。
- 意味ベースおよび多段階ペアリングにより，複雑な関係性を捉え，高精度なデータセットを構築すること。
- FinTexTSは，公開されているニュースデータを用いて構築された大規模な株価データセットである。
- 意味ベースおよび多段階ペアリング戦略が，株価予測において有効であることが実験的に示された。
- 独自ソースのニュースデータへの適用により，より高品質なデータと予測精度の向上が確認された。
Link: https://arxiv.org/abs/2603.02702
SPARC：空間認識型経路計画のための注意を払ったロボットコミュニケーション [cs.RO, cs.AI]目的：分散型マルチロボット経路計画における効率的なコミュニケーション
- ロボット群が協調してタスクを達成するには，効率的なコミュニケーションが不可欠である。
- 既存の手法では，ロボット間の距離を考慮せず，注意が分散しやすい。
- 空間的な近接性を考慮したコミュニケーション機構を開発し，効率的な経路計画を実現する。
- 提案手法RMHAは，ロボット間のマンハッタン距離を注意重みに組み込むことで，空間的に関連性の高い近傍ロボットからのメッセージを優先する。
- RMHAとMAPPOを組み合わせることで，安定したエンドツーエンド学習が可能となり，汎化性能も高い。
- 実験結果から，RMHAは高密度環境において，既存手法を大幅に上回る成功率を達成することが示された。
Link: https://arxiv.org/abs/2603.02845
PlaneCycle：アダプターなしで，事前学習済み2Dモデルを3Dに変換する学習不要手法 [cs.CV, cs.AI]目的：事前学習済み2Dモデルの3Dデータへの拡張
- 大規模な2Dモデルは強力な表現能力を持つが，3Dデータへの応用は困難。
- 既存手法は再学習，アダプター，アーキテクチャ変更が必要で，効率性に課題がある。
- 事前学習済み2Dモデルの構造変更や学習なしに，3D能力を付与すること。
- PlaneCycleは，2Dモデルの空間集約を循環的に分配することで，学習なしに3D融合を可能にする。
- 線形プローブによる評価で，2Dベースラインや既存の3Dモデルを上回り，学習済みモデルに匹敵する性能を示す。
- フルファインチューニングでは，標準的な3Dアーキテクチャと同等の性能を実現し，実用性を実証した。
Link: https://arxiv.org/abs/2603.04165
Timer-S1：シリアルスケーリングを用いた数十億規模時系列基盤モデル [cs.AI]目的：数十億規模の時系列基盤モデルの開発
- 時系列データは，経済，気象，医療など多岐にわたる分野で重要であり，高精度な予測が求められる。
- 既存の時系列モデルは，大規模データへのスケーラビリティが課題であり，長期予測において誤差の蓄積が生じやすい。
- シリアルスケーリングにより，モデル，データセット，学習パイプラインを拡張し，長期予測の精度向上を目指す。
- Timer-S1は，83億パラメータを持つMoE構造の時系列基盤モデルであり，11.5Kのコンテキスト長をサポートする。
- GIFT-Evalリーダーボードにおいて，最先端の予測性能を達成し，MASEとCRPSスコアで最高の成績を収めた。
- TimeBenchという1兆タイムポイントを含む高品質なデータセットを構築し，予測バイアスを軽減するためのデータ拡張技術を適用した。
Link: https://arxiv.org/abs/2603.04791
時間的グラフ注意ネットワークを用いたサプライチェーンリスク早期警告のためのLLMに基づく説明可能なAI [cs.AI]目的：サプライチェーンリスクのボトルネック予測と，それに対する信頼性の高い自然言語リスクの説明
- グローバルサプライチェーンは不可欠であり，物流ノードの混乱は甚大な影響を及ぼすため，リスク管理が重要である。
- 既存のリスク予測システムは予測精度を優先する傾向があり，現場で解釈可能な早期警告を提供できていない。
- グラフモデルの証拠に基づきLLMの生成を制御することで，解釈可能かつ監査可能なリスク報告を目指す。
- 提案フレームワークは，厳密な時間分割下でAUC 0.761，AP 0.344，再現率 0.504を達成し，ベースラインモデルを上回った。
- 生成されたリスクの説明は99.6％の方向一貫性を示し，モデル内部の証拠とリスクナラティブが一致していることが確認された。
- LLM生成をグラフモデルの証拠に固定することで，予測性能を損なうことなく，解釈可能なリスク報告が可能となった。
Link: https://arxiv.org/abs/2603.04818
グロッキングにおける幾何学的帰納的バイアス：アーキテクチャトポロジーを介した相転移の回避 [cs.LG, cs.AI]目的：グロッキング現象の遅延性一般化を説明するアーキテクチャ的自由度の特定
- 深層学習モデルの学習ダイナミクス理解は，モデルの性能向上や制御に不可欠である。
- Transformerモデルにおけるグロッキング現象は，学習の遅延と不安定性をもたらす。
- アーキテクチャの変更によってグロッキングを回避し，学習を安定化させること。
- Transformerモデルにおける表現の大きさとデータ依存的な注意機構が，グロッキングの開始を遅らせることが示された。
- L2正則化や一様分布による注意機構の変更により，グロッキング遅延を大幅に改善できることが確認された。
- タスクの内在的な対称性とアーキテクチャの事前分布との整合性が，グロッキング回避において重要であることが示唆された。
Link: https://arxiv.org/abs/2603.05228
推論劇場：思考連鎖におけるモデルの信念とパフォーマンスの解明 [cs.CL, cs.AI, cs.LG]目的：思考連鎖におけるモデルの信念とパフォーマンスの乖離の検証
- 大規模言語モデルの推論能力向上は，AI研究の重要な課題である。
- 思考連鎖は有効だが，モデルが表面的なパフォーマンスを示す可能性が指摘されている。
- モデルの内部信念とパフォーマンスを分析し，効率的な推論メカニズムを確立すること。
- モデルは簡単な問題では，早い段階で正答を決定していることが示唆された。
- 信念が大きく変化する箇所では，推論の転換や洞察が確認された。
- 活性化プローブによる早期終了は，トークン数を大幅に削減し，高い精度を維持できることが示された。
Link: https://arxiv.org/abs/2603.05488
検閲されたLLMを秘密知識抽出の自然な実験場として [cs.LG, cs.AI, cs.CL]目的：秘密知識抽出のためのテストベッドとしての検閲されたLLMの評価
- 大規模言語モデルの信頼性は重要であり，誤情報や虚偽の回答は社会に悪影響を及ぼす可能性がある。
- 既存の評価手法は，意図的に嘘をつくように訓練されたモデルを使用しており，現実世界の不誠実さを反映していない。
- 中国の開発者によるLLMの検閲メカニズムを分析し，秘密知識抽出の有効性を検証すること。
- 中国のLLM（Qwen3）は，政治的に機密性の高いトピックについて虚偽の情報を生成する一方で，時折正しい回答も示しており，抑圧された知識を保持していることが示唆された。
- プロンプトの調整，Few-shot学習，汎用的な正直さデータでのファインチューニングが，最も効果的に真実性の高い回答を引き出すことがわかった。
- 検閲されたモデル自身に回答の真偽を分類させる手法は，検閲されていないモデルの性能に匹敵し，線形プローブはより安価な代替手段となる。
Link: https://arxiv.org/abs/2603.05494
全マスク勾配降下法：マスク走査によるメモリ効率の良い最適化と改善された収束 [cs.CL, cs.LG]目的：メモリ効率の良い学習のための最適化手法
- 大規模言語モデルの学習には膨大なメモリが必要であり，効率的な学習手法が求められている。
- 既存手法は収束の保証がないか，非凸設定で標準的な反復回数が必要となる。
- より少ない反復回数で安定した収束を実現する最適化手法の開発。
- OMGDは既存の主流最適化手法に容易に組み込むことができ，ファインチューニングと事前学習の両方で競争力のあるベースラインに対して一貫した改善が見られた。
- OMGDはマスク走査に基づいたメモリ効率の良い学習手法であり，非凸設定における反復回数の複雑度を$\tilde{\mathcal{O}}(\epsilon^{-3})$に改善した。
- OMGDはメモリ使用量を削減しつつ，$\epsilon$-近似停留点を見つけるための収束性を保証する。
Link: https://arxiv.org/abs/2603.05960
対立的物語分析への因果グラフアプローチ [cs.CL, cs.AI]目的：対立的物語およびその根底にあるエンティティの検出，分析，分類
- 物語分析は，社会現象や人間行動の理解に不可欠であり，その重要性は高い。
- 既存手法は，事前定義されたオントロジーに依存し，人間のバイアスが混入しやすい。
- エンティティ間の構造的相互作用をモデル化し，より客観的な分析を目指す。
- 物語をエンティティ間の相互作用グラフとして表現する新たなフレームワークを提案。
- ノードレベルでの因果推定を取り入れ，分類への各要素の寄与を明確化。
- 既存の分類パイプラインを上回り，対立的思考の分類タスクにおいて高い性能を示した。
Link: https://arxiv.org/abs/2603.06135
データ要約のためのKhatri-Raoクラスタリング [cs.IR, cs.LG, stat.ML]目的：データ要約の簡潔性と精度向上
- データ量は増加の一途をたどっており，効率的な要約手法が求められている。
- 従来のクラスタリング手法では，冗長な要約結果となり，精度が低下することがある。
- Khatri-Raoクラスタリングにより，より簡潔で精度の高いデータ要約を実現する。
- Khatri-Rao k-Meansは，標準的なk-Meansと比較して，データ要約における簡潔性と精度のバランスを改善する。
- 表現学習を活用したKhatri-Rao深層クラスタリングは，深層クラスタリングのデータ要約サイズをさらに削減しつつ，精度を維持する。
- Khatri-Raoパラダイムは，従来のセントロイドベースクラスタリングの限界を克服し，効果的な要約を可能にする。
Link: https://arxiv.org/abs/2603.06602
OptiRouletteオプティマイザー：最速5.3倍の収束を実現する新しい確率的メタオプティマイザー [cs.LG, cs.AI, cs.CV, cs.NE]目的：画像分類における最適化手法の改善
- 深層学習の性能向上には，最適化手法の選択が重要である。
- 従来の最適化手法では，収束の安定性や速度に課題が残る場合がある。
- 複数の最適化手法を組み合わせることで，よりロバストで高速な学習を目指す。
- OptiRouletteは，CIFAR-100において平均テスト精度を9.22%向上させた。
- CIFAR-100-C, SVHN, Tiny ImageNet, Caltech-256においても，精度向上と学習時間の短縮が確認された。
- OptiRouletteは，従来のAdamWよりも高い目標精度に安定して到達することが示された。
Link: https://arxiv.org/abs/2603.06613
GameVerse：視覚言語モデルはビデオに基づく内省から学習できるか [cs.CV, cs.AI]目的：ビデオゲームにおける内省的な視覚的相互作用ループを可能にするベンチマーク
- ゲームプレイは，視覚的な情報と行動の繰り返しであり，AIの学習において重要な役割を果たす。
- 従来の評価方法では，AIが視覚的経験をどのように内面化し，改善していくかを評価できない。
- 視覚言語モデルがビデオを介した内省を通じて学習し，戦略を改善できるか検証する。
- 視覚言語モデルは，多様な環境下でビデオに基づく内省から恩恵を受けることが示された。
- 失敗事例と専門家のチュートリアルを組み合わせることで，最も高い性能を発揮することが明らかになった。
- これは，強化学習と教師ありファインチューニングを組み合わせた学習方法と類似している。
Link: https://arxiv.org/abs/2603.06656
PolyBlocks：AIチップとプログラミングフレームワークのためのコンパイラ基盤 [cs.PL, cs.LG]目的：AIチップ及びプログラミングフレームワーク向けの，モジュール性と再利用性を備えたコンパイラ基盤の設計と実装
- AI処理の需要増加に伴い，その性能を最大限に引き出すハードウェアとソフトウェアの連携が重要になっている。
- 既存のコンパイラは，特定のハードウェアに最適化され，汎用性に欠ける場合がある。
- 多様なAIチップへの対応を容易にし，高性能なコード自動生成を実現すること。
- PolyBlocksは，MLIRを基盤としたモジュール構造を持つため，新たなチップへの対応が容易である。
- PyTorchとJAXを対象とした実験では，Torch InductorやXLAと同等以上の性能を示す場合がある。
- 行列積や畳み込みなどの演算において，ベンダー提供のライブラリや手書きカーネルに匹敵する性能を実現した。
Link: https://arxiv.org/abs/2603.06731
特性駆動型タンパク質逆フォールディング：多目的嗜好性アライメント [cs.LG, cs.AI]目的：タンパク質配列設計における設計可能性と，溶解性，熱安定性，発現などの開発可能性特性とのバランス
- タンパク質設計は，創薬やバイオテクノロジーにおいて不可欠であり，その効率化が求められている。
- 既存手法はターゲット依存性が高く，専門知識やハイパーパラメータ調整が不可欠である。
- 多様な開発可能性特性を満たしつつ，構造的忠実性を保つ設計フレームワークの構築。
- ProtAlignは，事前学習済みの逆フォールディングモデルを微調整し，複数の開発可能性目標を同時に満たす。
- 半オンラインDirect Preference Optimization戦略と柔軟な嗜好性マージンにより，競合する目標間の対立を緩和する。
- ProteinMPNNを拡張したMoMPNNは，設計可能性を損なうことなく開発可能性を向上させることを実証した。
Link: https://arxiv.org/abs/2603.06748
VLN-Cache：視覚・意味的動的認識を用いたVLNモデルのトークンキャッシュング [cs.RO, cs.LG]目的：視覚言語ナビゲーションモデルにおけるトークンキャッシュング手法
- 視覚言語ナビゲーションは，現実世界とのインタラクションにおいて重要性が増している。
- 大規模モデルの推論コストが大きく，リアルタイムでの利用が課題となっている。
- 視覚・意味的変化に対応可能なキャッシュ手法を開発し，効率的なナビゲーションを実現する。
- VLN-Cacheは，視覚的動的変化への対応策として，視点に合わせた再マッピングを導入した。
- 意味的動的変化への対応策として，タスク関連性の重要度フィルタリングを用いて再利用を抑制した。
- R2R-CEベンチマークにおいて，最大1.52倍の高速化と，競争力のあるナビゲーション成功率を達成した。
Link: https://arxiv.org/abs/2603.07080
網膜VLMにおけるドメイン特化知識のアンカリングのための深層専門家注入 [cs.CV, cs.AI]目的：網膜VLMにおけるドメイン特化知識のアンカリング
- 眼科診断の自動化は医療現場での負担軽減に不可欠であり，LVLMはその大きな可能性を秘めている。
- 汎用的な視覚エンコーダーでは微細な病理学的特徴を捉えきれず，臨床応用における信頼性に課題がある。
- 専門家の知識をVLMに効率的に組み込み，視覚的証拠に基づいた根拠のある推論を実現すること。
- 提案手法EyExInは，専門家向けデュアルストリームエンコーディングとセマンティック適応型ゲート融合モジュールにより，微細な病変信号を増幅し，背景ノイズを抑制する。
- 適応的深層専門家注入メカニズムにより，中間LLM層に視覚的アンカーを埋め込み，推論スタックを視覚的証拠に強く結びつける。
- 4つのベンチマークにおいて，大規模なプロプライエタリシステムを凌駕し，眼科画像質問応答において最先端の精度を達成した。
Link: https://arxiv.org/abs/2603.07131
自律エージェントシステムのためのガバナンスアーキテクチャ：脅威，フレームワーク，およびエンジニアリングプラクティス [cs.CR, cs.AI]目的：自律エージェントシステムのガバナンスアーキテクチャの設計と評価
- LLMを活用した自律エージェントは急速に普及しており，その安全性確保が重要である。
- 既存のセキュリティ対策では，プロンプトインジェクション等の実行層の脆弱性に対処しきれていない。
- LLMによる意図検証を含む多層防御アーキテクチャによる脆弱性対策を提案し，その有効性を検証する。
- 提案するレイヤードガバナンスアーキテクチャ(LGA)は，意図検証層において，5つのLLMで93.0-98.5%の悪意のあるツールコールを検知した。
- LGAの全レイヤーを組み合わせたパイプライン評価では，96%の検知率と約980msのレイテンシを実現し，非判断レイヤーの遅延はわずか約18msであった。
- 外部ベンチマークInjecAgentにおいても99-100%の遮断率を示し，提案手法の堅牢性を確認した。
Link: https://arxiv.org/abs/2603.07191
部分観測環境におけるロバストな方策のための敵対的潜在状態学習 [cs.NI, cs.LG, cs.AI, stat.ML]目的：部分観測強化学習における潜在分布シフトに対するロバスト性の向上
- 現実世界の環境は不確実性が高く，ロバストな学習が不可欠であるため。
- 潜在分布シフトに対するロバスト性は，部分観測強化学習における重要な課題である。
- 敵対的潜在初期状態POMDPを通して，ロバストな方策学習手法を開発すること。
- 敵対的潜在状態学習により，潜在分布シフトに対するロバスト性が向上することが示された。
- Battleshipベンチマークにおいて，SpreadとUniform分布間のロバスト性ギャップが縮小した。
- 反復的な最良応答学習は，理論的診断と整合性のある予算感受性を示すことが確認された。
Link: https://arxiv.org/abs/2603.07313
圧縮センシングおよびその他の逆問題のための調整可能な複雑度を持つ潜在的生成モデル [cs.LG, cs.AI]目的：逆問題に対する調整可能な複雑度を持つ生成モデルの提案
- 逆問題解決において，生成モデルは強力な事前分布として重要である。信号の自然さを表現する上で不可欠。
- 従来の生成モデルは固定の複雑度しか扱えず，問題に応じて過小評価または過剰適合のリスクがある。
- 固定の複雑度に起因する表現誤差や過学習の問題を解決し，最適な復元精度を実現すること。
- 提案手法は，圧縮センシング，インペインティング，ノイズ除去，位相復元といった様々なタスクで，固定複雑度モデルを上回る性能を示した。
- 線形ノイズ除去設定において，最適な調整パラメータがノイズとモデル構造にどのように依存するかを理論的に解析した。
- 調整可能な複雑度を持つ生成モデルは，広範な逆問題への応用可能性を示唆しており，さらなる理論的発展が期待される。
Link: https://arxiv.org/abs/2603.07357
事前リクエスト即時確認型動的車両経路問題 [cs.AI]目的：オンデマンド交通サービスにおける動的車両経路問題の解決
- 公共交通機関の効率化が求められており，オンデマンド交通サービスの最適化は重要である。
- 事前リクエストに対する即時受諾判断と，受諾後の継続的な経路最適化を両立する手法が不足している。
- 即時確認と継続最適化を両立し，より多くのリクエストに対応できる経路構築を目指す。
- 提案手法は，既存手法と比較して，リクエスト受諾の即時性を保ちつつ，対応可能なリクエスト数を大幅に増加させた。
- 即時確認のためのクイック挿入探索と，継続最適化のためのanytimeアルゴリズムを統合した新たな計算手法を提案した。
- 強化学習を用いて非近視的な目的関数を学習し，挿入探索とanytimeアルゴリズムを最適な解へと導いた。
Link: https://arxiv.org/abs/2603.07422
Megatron Coreを用いた混合エキスパートモデルのスケーラブルな学習 [cs.CL, cs.DC, cs.CL, cs.LG]目的：混合エキスパートモデルの学習におけるシステム最適化
- 大規模言語モデルの性能向上には，モデルのパラメータ数を増加させる手法が有効である。
- 混合エキスパートモデルはパラメータ効率が良いが，メモリ，通信，計算の制約が複雑に絡み合う。
- Megatron Coreを用いて，これらの制約を克服し，大規模な混合エキスパートモデルの学習を可能とする。
- NVIDIA GB300およびGB200において，DeepSeek-V3-685Bで1,233/1,048 TFLOPS/GPU，Qwen3-235Bで974/919 TFLOPS/GPUを達成した。
- 本フレームワークは，柔軟な並列化，低精度学習，長文脈学習を効率的にサポートする。
- 学術界および産業界において，数十億から数兆のパラメータを持つ混合エキスパートモデルの学習に活用されている。
Link: https://arxiv.org/abs/2603.07685
農業意思決定を支援するための確率的AIモンスーン予測の設計 [cs.RO, cs.LG, cs.AI, econ.GN, physics.ao-ph, q-fin.EC]目的：農業意思決定のための確率的AIモンスーン予測システムの設計
- モンスーンは熱帯地域の農業に不可欠であり，その予測は食糧安全保障に直結する。
- 農家の状況は多様であり，最適な行動を一方的に指示することは困難である。
- 農家の多様な状況に対応し，意思決定を支援する予測システムの開発。
- AI天気予測モデルと「変化する農家の期待」統計モデルを組み合わせることで，より高精度なモンスーン予測が可能になった。
- 開発されたシステムは，既存の予測モデルやマルチモデル平均よりも長いリードタイムで優れた予測性能を示した。
- 2025年には，インドの3800万人の農家に対して，異常な乾燥期間を正確に予測する予測が政府主導のプログラムで運用された。
Link: https://arxiv.org/abs/2603.07893
IMSE：テスト時適応のためのスペクトル専門家混合の固有微調整 [cs.CV, cs.AI]目的：テスト時適応における性能劣化の防止
- 事前学習済みモデルの汎用性が高く，様々なタスクに応用可能であるため，その活用が重要である。
- テストデータと学習データの分布が異なる場合，性能が低下するという課題が存在する。
- テストデータ分布の変化に対応し，少ないパラメータで高性能を維持することを目指す。
- 提案手法IMSEは，Vision Transformerに内在するスペクトル専門家を活用し，特異値のみを更新することで適応を実現する。
- エントロピー最小化が特徴崩壊を引き起こす問題を，専門家入力アライメントに基づく多様性最大化損失で解決する。
- 継続的なテスト時適応において，ドメイン認識スペクトルコード検索により，過去の知識の再利用を可能にする。
Link: https://arxiv.org/abs/2603.07926
Covenant-72B：インターネット上の信頼できるピアによる720億パラメータLLMの事前学習 [cs.DB, cs.DB, cs.DC, cs.LG]目的：グローバル分散型事前学習による大規模言語モデルの構築
- 大規模言語モデルの学習コスト削減と，参加の民主化が期待されている
- 既存の分散型学習モデルは規模が小さく，許可された参加者のみに限定されている
- 許可なく参加可能な分散型事前学習の実現と大規模化を目指す
- Covenant-72Bは，大規模な分散型事前学習ランの成果として開発された
- 約1.1兆トークンで事前学習を行い，集中型モデルと同等の性能を示した
- 許可なく参加可能な分散型事前学習が，大規模モデルにおいても可能であることを実証した
Link: https://arxiv.org/abs/2603.08163
FedPrism：非IIDデータ下における適応的パーソナライズされた連合学習 [cs.LG]目的：非IIDデータ環境下での適応的パーソナライズされた連合学習フレームワーク
- 連合学習は，データプライバシーを保護しながら分散データを活用するため重要である。
- 現実のデータは，クライアント間で統計的な異質性(非IID)を示すことが多く，性能低下を招く。
- データ分布の多様性を捉え，パーソナライズ性能を向上させる手法が求められている。
- FedPrismは，グローバルモデル，類似クライアントの共有グループ，固有のローカルデータからモデルを構築するPrism Decompositionを用いる。
- Dual-Stream設計により，汎用モデルとローカル専門家モデルを切り替え，予測精度を向上させる。
- 非IIDデータに対する実験により，既存手法と比較して高い精度と適応性を示すことが確認された。
Link: https://arxiv.org/abs/2603.08252
外来プライマリケアクリニックにおける会話型診断AIの臨床的実現可能性に関する前向き臨床試験 [cs.CL, cs.HC, cs.AI, cs.CL, cs.LG]目的：会話型診断AIの臨床現場での安全性と有効性の評価
- 医療現場でのAI活用は，医療従事者の負担軽減と医療の質の向上に貢献しうる。
- AI診断システムの臨床実装には，安全性と精度を担保する必要がある。
- 本研究は，実際の臨床ワークフローにおける会話型AIの有用性を検証する。
- 患者はAMIEとの対話に高い満足度を示し，AIに対する態度が改善された(p < 0.001)。
- AMIEの鑑別診断は，最終診断に含まれるケースが90%に達し，上位3つの診断の精度は75%であった。
- 医師はAMIEの出力が有用であると評価し，診察準備に貢献すると感じた。
Link: https://arxiv.org/abs/2603.08448
MUSA-PINN：複雑形状における流体解析のためのマルチスケール弱形式物理情報ニューラルネットワーク [cs.LG]目的：複雑形状における流体流れの解析手法
- 近年，複雑な形状を持つ構造物の設計において，高精度な流体解析が不可欠となっている。
- 従来の物理情報ニューラルネットワークは，複雑な形状において収束性が悪く，精度が低下する問題があった。
- 本研究は，複雑形状における流体解析の精度と安定性を向上させることを目指している。
- MUSA-PINNは，階層的な球面制御体積に基づく積分保存則を用いることで，従来のPINNの課題を克服している。
- トリply周期最小曲面における実験結果は，MUSA-PINNが最先端の手法よりも高い性能を示し，相対誤差を最大93％削減することを示した。
- MUSA-PINNは，質量保存則を厳密に満たし，安定した流体解析を可能にする。
Link: https://arxiv.org/abs/2603.08465
PostTrainBench：LLMエージェントはLLMのポストトレーニングを自動化できるか [cs.SE, cs.AI, cs.LG]目的：LLMエージェントによるLLMのポストトレーニングの自動化能力の評価
- AI研究開発の効率化が求められており，その自動化は大きな可能性を秘めている。
- LLMのポストトレーニングは計算コストが高く，最適化戦略の確立が課題である。
- AIエージェントによるポストトレーニングの自動化を通して，AI研究開発の加速を目指す。
- 最先端エージェントはポストトレーニングにおいて一定の進歩を示すが，現時点では指示調整済みLLMに劣る。
- 特定のシナリオにおいては，エージェントが指示調整済みLLMを上回る性能を達成するケースも存在する。
- エージェントの報酬ハッキングや不正なデータ利用といったリスクが確認され，サンドボックス環境の重要性が示唆された。
Link: https://arxiv.org/abs/2603.08640
時間的汎化性能のライブベンチマーク：時系列予測におけるImpermanent [cs.LG]目的：時系列予測における時間的汎化性能の評価
- 時系列予測は，需要予測や異常検知など，様々な分野で重要性が増している。
- 既存のベンチマークは静的な分割を使用しており，モデルがテストデータに過剰適合する可能性がある。
- 時間的変化へのロバスト性や分布シフトへの対応など，継続的な性能評価を目指す。
- Impermanentは，継続的に更新されるデータストリームを用いて，時系列予測モデルを評価するライブベンチマークである。
- GitHubのオープンソース活動をデータセットとして利用し，リポジトリのスター数上位400件を対象に評価を行った。
- Impermanentは，静的な精度評価から継続的な性能評価への移行を促し，時系列予測における汎化性能の妥当性を評価する。
Link: https://arxiv.org/abs/2603.08707
グラスマン多様体学習とドナルドソンのアルゴリズムによるカラビ・ヤウ計量 [stat.AP, cs.CG, physics.soc-ph, hep-th, cs.LG, math.AG, math.DG]目的：カラビ・ヤウ計量近似の探索
- 数値ケーラー計量の問題解決への応用が期待されており，数学と機械学習の融合が重要視されている。
- 既存手法では，計算コストが高く，複雑な多様体への適用が困難であるという課題が存在する。
- グラスマン多様体学習とドナルドソンのアルゴリズムを組み合わせ，効率的な計量近似手法を開発することを目指す。
- グラスマン多様体上での勾配降下法により，計量計算のための効率的な部分空間を特定することに成功した。
- ドナルドソンのアルゴリズムとh行列学習を組み合わせることで，より精度の高いカラビ・ヤウ計量近似を実現した。
- ドワーク族の三次元多様体への実装により，モジュライ空間内のパラメータ増加に伴う非自明な局所最小値の出現を観察した。
Link: https://arxiv.org/abs/2410.11284
高次元ロバスト推定のための適応的・階層的サブサンプリング [math.ST, cs.LG, stat.ME, stat.TH]目的：高次元スパース回帰におけるロバスト推定手法
- 高次元データ分析におけるロバスト推定は，外れ値やノイズの影響を軽減し，より信頼性の高い結果を得るために重要である。
- 従来の推定手法は，高次元データや重い裾を持つノイズ，および依存性の強いデータに対して，性能が低下する問題がある。
- 本研究では，適応的・階層的サブサンプリングを用いて，これらの問題に対処し，最適な推定精度を達成することを目指す。
- 適応的重要性サンプリング（AIS）と階層的サブサンプリング（SS）が，サブガウス設計と有限分散ノイズ下で，最適なレートを達成することが示された。
- AISは安定化された重み付け条件下で，SSはLecueとLerasleのmedian-of-means M-推定フレームワークに適合することが理論的に証明された。
- 実証実験では，AISは一様サブサンプリングよりも誤差が小さく，RiboflavinデータセットでテストMSEが低下することが確認された。
Link: https://arxiv.org/abs/2410.12367
SPDIM：ソースフリー，教師なし条件付きおよびラベルシフト適応（脳波） [eess.SP, cs.LG]目的：脳波におけるドメイン間分布シフトへの適応手法
- 脳波は非定常性があり，日や被験者間で分布が変動するため，汎化性能が課題となる。
- ターゲットドメインのラベル付きキャリブレーションデータがない場合，ソースフリー教師なしドメイン適応が困難。
- ラベルシフトを含む分布シフト下での，脳波ベースの技術の汎化性能向上を目指す。
- 提案手法SPDIMは，特定の分布シフト（ラベルシフトを含む）に対して，幾何学的深層学習フレームワークを用いた。
- SPDIMは，情報最大化原理に基づき，ターゲットドメインごとにSPD多様体制約付きパラメータを効率的に学習する。
- シミュレーションおよび公開データセットを用いた実験で，既存手法を上回る性能が示された。
Link: https://arxiv.org/abs/2411.07249
自律型深宇宙生息環境の健全性管理における複数未知故障モードに対する予知 [stat.ML, cs.LG, cs.SY, eess.SY, stat.AP]目的：深宇宙生息環境における故障予測に基づく健全性管理
- 深宇宙探査の長期化に伴い，地上からの支援が困難な環境下でのシステム維持が重要となっている。
- 故障モードが不明な場合，どのセンサーが有用か特定すること，および正確な残存寿命予測が課題である。
- 未知の故障モード下でも，故障予測とセンサー選択を同時に行うことで，高精度な残存寿命予測を実現する。
- 提案手法では，ガウス回帰の混合モデルとEMアルゴリズムを用いて，故障時間に基づき劣化軌跡をクラスタリングし，モード特有のセンサーを選択する。
- オンラインフェーズでは，選択されたセンサーからの低次元特徴量を用いて故障モードを診断し，重み付き関数回帰モデルにより残存寿命を予測する。
- シミュレーションデータおよびNASA C-MAPSSベンチマークデータセットにおいて，既存手法と比較して予測精度と故障モードの特定が向上した。
Link: https://arxiv.org/abs/2411.12159