arXiv雑要約

AI - 2026/03/02 公開

州ごとのミラー降下法を超えて：パラメータ化されたポリシーを用いたオフラインポリシー最適化 [cs.LG, cs.AI]目的：オフラインデータからの良好なポリシー学習の理論的側面
- 強化学習は，複雑な意思決定問題への応用が期待され，様々な分野で注目されている。
- 既存手法は，有限かつ小さな行動空間に限定され，実用的なパラメータ化されたポリシーに対応できていない。
- パラメータ化されたポリシークラスに対する理論的保証を拡張し，実用的な問題を解決することを目指す。
- パラメータ化されたポリシーに対するミラー降下法の拡張において，文脈的結合が主要な課題であることが判明した。
- ミラー降下法と自然方策勾配の関連付けにより，オフライン強化学習と模倣学習の意外な統合が明らかになった。
- 理論的な保証を拡張することで，大規模または連続的な行動空間におけるオフラインポリシー最適化の可能性を示唆する。
Link: https://arxiv.org/abs/2602.23811
制約が未知数の環境におけるエキスパートのデモンストレーションを通じた安全性の維持学習：Q学習の視点 [cs.LG, cs.AI]目的：安全なタスク実行の軌跡から，安全性と高報酬のバランスを取りながら，最適なポリシーの学習
- ロボット工学等において，安全性を確保しつつタスクを達成する制御は重要である。
- 環境の制約が不明な場合，安全性を保証しつつ効率的な学習が困難である。
- エキスパートのデモンストレーションから制約を推測し，安全なポリシーを学習すること。
- 提案手法SafeQILは，最先端の逆強化学習アルゴリズムと比較して，困難なベンチマークタスクで優れた性能を示した。
- 状態行動ペアの「有望さ」をQ値で定量化し，報酬と安全性の期待値を組み合わせることで安全な学習を実現。
- 制約付き逆強化学習問題を，Q学習の視点から捉え，安全性を考慮したポリシー学習を可能にした。
Link: https://arxiv.org/abs/2602.23816
電子処方データからの慢性治療開始時期推測：更新過程アプローチ [cs.LG]目的：慢性治療開始時期の推測
- 医療ビッグデータ活用が重要視される中，疾患管理の実態把握が不可欠である。
- 電子カルテデータは左打ち切りが多く，正確な疾患発症時期の特定が困難である。
- 処方データに基づく更新過程モデルにより，左打ち切りに強い発症時期推定を目指す。
- 提案手法は，単純なルールベース手法と比較して，より妥当な治療開始時期を推定できることが示された。
- 特に，左打ち切りが強い状況下において，不合理に早期の検出を大幅に削減できることが確認された。
- 疾患の種類や処方密度によって検出性能が異なり，治療に基づいた推測の限界が明らかになった。
Link: https://arxiv.org/abs/2602.23824
GLUScope：Transformer言語モデルにおけるGLUニューロン解析ツール [cs.CL, cs.LG]目的：Transformer言語モデルのGLUニューロンの解析
- 言語モデルの規模拡大に伴い，モデルの内部動作の解釈が重要になっている。
- 従来の解析ツールは，SwiGLUのようなゲート活性化関数を持つモデルに対応できていない。
- GLUニューロンのゲートと内部活性化の符号の組み合わせに着目し，その機能の違いを明らかにすること。
- GLUScopeは，各ニューロンの4つの符号組み合わせに対するテキスト例を表示し，その発生頻度を示す。
- このツールを用いることで，GLUニューロンの新たな機能に関する知見が得られる可能性がある。
- GLUScopeはオープンソースであり，デモを公開している。
Link: https://arxiv.org/abs/2602.23826
FedNSAM：連合学習における局所的およびグローバルな平坦性の整合性 [cs.LG, cs.AI]目的：連合学習における局所的およびグローバルな平坦性の整合性向上
- 連合学習は，プライバシー保護と分散データ活用を実現する重要な技術である。
- データ不均一性の高い環境下では，グローバルモデルの汎化性能が低下しやすい。
- 局所的な平坦性とグローバルな平坦性の不整合を解消し，汎化性能を改善することを目指す。
- 提案手法FedNSAMは，グローバルなNesterovモーメンタムを導入することで，局所的更新を加速する。
- 理論的に，Nesterov外挿によるFedSAMよりも厳密な収束境界を証明した。
- CNNとTransformerモデルを用いた実験により，FedNSAMの優れた性能と効率が確認された。
Link: https://arxiv.org/abs/2602.23827
ソフトウェア脆弱性予測における継続学習の強化：時系列LLMファインチューニングのためのハイブリッド信頼度認識型選択的リプレイによる破滅的忘却への対処 [cs.RO, cs.CR, cs.AI, cs.LG]目的：ソフトウェア脆弱性予測のための継続学習手法の改善
- ソフトウェアの脆弱性予測は，サイバーセキュリティにおいて重要な課題であり，その自動化が求められている。
- 従来の評価手法では時間的要素が考慮されておらず，現実世界での性能を過大評価する可能性がある。
- 時系列データの変化に対応しつつ，効率的に脆弱性予測の精度を維持・向上させることを目指す。
- 提案手法Hybrid-CASRは，従来のウィンドウのみ学習と比較して，統計的に有意な改善（p=0.026）を示した。
- Hybrid-CASRは，Macro-F1スコアを0.667に向上させ，過去の情報の保持率（IBR@1）も0.741に達した。
- また，学習時間を約17%削減し，計算コストを抑えつつ高い精度を達成する実用的な手法であることが示された。
Link: https://arxiv.org/abs/2602.23834
MI$^2$DAS：増分学習を用いた産業IoTネットワーク保護のための多層侵入検知フレームワーク [cs.RO, cs.CL, cs.CR, cs.AI, cs.LG]目的：産業IoTネットワークのセキュリティ確保のための多層侵入検知フレームワーク
- 産業IoTの急速な拡大に伴い，セキュリティリスクが増大しており，対策が急務となっている。
- 従来の侵入検知システムは，大量のラベル付きデータに依存し，未知の攻撃への対応が困難である。
- 本研究では，少ないラベルデータで新たな攻撃に対応できる適応性のあるフレームワークを構築する。
- 提案フレームワークMI$^2$DASは，異常検知，オープンセット認識，増分学習を組み合わせることで，高い検出性能を発揮する。
- GMMによる正常・異常識別では，精度0.953，真陽性率1.000を達成し，オープンセット認識では既知攻撃のリコールが0.813，未知攻撃のリコールが0.882となった。
- 既知攻撃の分類では，ランダムフォレストがマクロF1値0.941，増分学習モジュールでは0.8995を達成し，ロバストな性能を維持した。
Link: https://arxiv.org/abs/2602.23846
ULW-SleepNet：マルチモーダル睡眠段階スコアリングのための超軽量ネットワーク [cs.LG, eess.SP]目的：マルチモーダル睡眠段階スコアリングのための超軽量なフレームワーク
- 睡眠障害の診断・治療には不可欠であり，睡眠の質を評価する上で重要な役割を担う。
- 既存の深層学習モデルは計算負荷が高く，マルチモーダルなポリソムノグラフィーデータには不向きな場合が多い。
- 計算コストを抑えつつ，高精度な睡眠段階スコアリングを実現し，ウェアラブルデバイスへの応用を目指す。
- Sleep-EDF-20データセットにおいて86.9%の精度を達成し，Sleep-EDF-78データセットでも81.4%の精度を示した。
- パラメータ数はわずか13.3K，FLOPsは7.89Mと極めて軽量でありながら，競合手法と同等の精度を維持している。
- 最先端手法と比較して，パラメータ数を最大98.6%削減し，性能劣化を最小限に抑えている。
Link: https://arxiv.org/abs/2602.23852
RUMAD：強化学習による多エージェント討論の統合 [cs.AI]目的：多エージェント討論における動的なコミュニケーショントポロジー制御
- 集団知を活用し，推論能力の向上を目指す研究分野である。複雑な問題解決に有効性が期待される。
- 既存手法は，精度，合意形成，計算効率の同時最適化が困難である。静的なトポロジーはタスクの変化に対応できない。
- 効率性と公平性を両立する，新たな多エージェント討論フレームワークを開発すること。
- RUMADは，トークンコストを80%以上削減しつつ，単一LLMモデルや既存の多エージェント討論手法と比較して推論精度を向上させた。
- MMLUのみで学習したRUMADは，ドメイン外タスクに対しても高い汎化性能を示し，効果的な協調戦略を学習していることが示唆された。
- 限られた計算資源下での多エージェント推論アプリケーション展開に有用な手法であることが示された。
Link: https://arxiv.org/abs/2602.23864
帯域適応型クラウド支援360度3D知覚：自動運転車向け [cs.RO, cs.CV, cs.LG]目的：自動運転車における360度3D物体検出の遅延削減
- 自動運転の安全性を高めるには，周囲状況のリアルタイムな把握が不可欠である。
- 限られた車載計算資源では，高精度な状況把握に必要な処理が遅延する可能性がある。
- クラウドコンピューティングを活用し，遅延を抑えつつ高精度な3D物体検出を実現する。
- 提案手法は，従来の車載システムと比較して，エンドツーエンドの遅延を72％削減することに成功した。
- ネットワーク状況の変化に対応するため，最適な処理分割点と量子化レベルを動的に決定する最適化アルゴリズムを導入した。
- 変動する帯域幅条件下での評価により，この適応的アプローチは，同じ遅延性能で検出精度を最大20％向上させることが示された。
Link: https://arxiv.org/abs/2602.23871
IoTボットネット攻撃検知における特徴量の転移可能性に関するベンチマーク研究 [cs.CR, cs.AI, cs.LG]目的：IoTボットネット攻撃検知における特徴量転移可能性の評価
- IoT機器の普及により，ネットワークセキュリティの重要性が増しているため。
- ネットワーク環境の違いにより，侵入検知の精度が低下するという課題がある。
- 異なる環境間での特徴量転移可能性を検証し，ロバストな検知手法を確立すること。
- 異なるドメイン間で学習したモデルを適用すると，性能が著しく低下することが示された。
- 分類アルゴリズムと特徴表現の選択が転移可能性に大きく影響することが明らかになった。
- ドメイン変動に対するロバスト性を高めるには，特徴空間の設計とアルゴリズム選択が重要である。
Link: https://arxiv.org/abs/2602.23874
RF-Agent：言語エージェント木探索による報酬関数自動設計 [cs.AI, cs.LG]目的：低レベル制御タスクに対する効率的な報酬関数の設計
- ロボット制御において，適切な報酬関数は学習の成功に不可欠であり，その設計は重要な課題である。
- 従来の報酬関数設計は専門家の経験に依存し，複雑なタスクへの適用が困難であった。
- 過去のフィードバックの活用と効率的な探索により，複雑な制御タスクにおける報酬関数設計の改善を目指す。
- RF-Agentは，LLMを言語エージェントとして扱い，報酬関数設計を逐次的な意思決定プロセスとして捉えることで最適化を強化する。
- モンテカルロ木探索（MCTS）を統合し，LLMの多段階コンテキスト推論能力を活用することで，過去の情報を効果的に利用し探索効率を向上させる。
- 17の多様な低レベル制御タスクにおいて，提案手法の有効性が実験的に示された。
Link: https://arxiv.org/abs/2602.23876
切り捨てスペクトルvRKHSにおけるランダムグラフシフトの理論 [cs.LG]目的：ドメインシフト下におけるグラフ分類
- グラフデータは複雑な構造を持つため，従来の機械学習手法の適用が困難である。
- ドメインシフトが発生した場合，グラフ分類の性能が著しく低下する可能性がある。
- ランダムグラフモデルに基づき，グラフ分布シフトを理論的に分析し，汎化誤差を評価する。
- 本研究では，ベクトル値再生核ヒルベルト空間(vRKHS)を用いて，汎化誤差の上界を導出した。
- そのシフトペナルティは，ドメイン差異，スペクトル幾何学，振幅項に分解されることが示された。
- 実データとシミュレーションにより，これらの項に関する知見が検証された。
Link: https://arxiv.org/abs/2602.23880
LK損失：推測デコーディングのための直接的な受容率最適化 [cs.LG, cs.CL]目的：推測デコーディングにおける受容率の向上
- 大規模言語モデルの推論速度向上は，実用化において重要な課題である。
- 従来のKL divergence最小化は，小規模なdraftモデルでは受容率最大化を保証しない。
- 受容率を直接最適化するLK損失を提案し，推論速度の改善を目指す。
- LK損失は，4つのdraftアーキテクチャと6つのtargetモデルで，受容率メトリクスの一貫した改善を示した。
- 汎用，コーディング，数学のドメインで，平均受容率の長さが最大8〜10%向上した。
- LK損失は実装が容易で計算オーバーヘッドがなく，既存の訓練フレームワークに直接統合可能である。
Link: https://arxiv.org/abs/2602.23881
参照表現タスクにおけるMLLMの視覚的推論の探求 [cs.RO, cs.CV, cs.AI, cs.CL]目的：参照表現タスクにおけるMLLMの視覚的推論能力の評価
- 言語と視覚の連携は，AIの知能化において不可欠な要素である。
- 既存の参照表現理解のベンチマークは，視覚的推論を十分に試せていない。
- MLLMの視覚的推論と接地能力をより正確に評価するためのベンチマークが必要である。
- 新しいベンチマークRef-Advは，短絡的な解決策を抑制し，複雑な推論を必要とする参照表現を提供する。
- Ref-Advにおいて，既存のMLLMはRefCOCO等の既存ベンチマークと比較して大幅に性能が低下した。
- この結果は，既存モデルが視覚的推論と接地において短絡的な解決策に依存していることを示唆する。
Link: https://arxiv.org/abs/2602.23898
乳癌スクリーニングと診断のための経験に基づく自己適応カスケードエージェント：不必要な生検紹介の削減 [cs.CV, cs.AI, cs.LG]目的：乳癌超音波スクリーニングと診断における診断の高度化と不必要な生検紹介の削減
- 乳癌は罹患率が高く，早期発見と正確な診断が重要である。
- 従来のスクリーニングでは，偽陽性や過剰診断による不要な生検が多い。
- 過去の症例データに基づき，より適切な診断判断を行うことで生検数を削減する。
- 提案手法BUSD-Agentは，過去の症例データを参照し，診断判断の信頼性と高度化閾値を動的に調整する。
- 10の乳癌超音波データセットを用いた評価で，BUSD-Agentは診断の高度化を84.95%から58.72%に，生検紹介を59.50%から37.08%に削減した。
- また，スクリーニングの特異度は68.48%，診断の特異度は6.33%向上した。
Link: https://arxiv.org/abs/2602.23899
SegMate：非対称アテンションに基づく軽量アーキテクチャによる効率的な多臓器セグメンテーション [cs.CV, cs.LG]目的：効率的な多臓器セグメンテーションのためのアーキテクチャ
- 医療画像解析は診断精度向上に不可欠であり，セグメンテーション技術はその重要な要素である。
- 最先端モデルは高精度だが，計算資源を多く必要とし，臨床現場での利用が制限されている。
- 計算資源が限られた環境でも高精度なセグメンテーションを実現する手法の開発。
- SegMateは，計算量を最大2.5倍，メモリ使用量を最大2.1倍削減しつつ，精度を約1%向上させる。
- TotalSegmentatorデータセットにおいて，ピークGPUメモリ295MBでDice係数93.51%を達成した。
- SegTHORとAMOS22でのゼロショット評価で高い汎化性能を示し，それぞれDice係数86.85%と89.35%を記録した。
Link: https://arxiv.org/abs/2602.23903
転移の幾何学：トレーニング不要なモデルランキングのための医療ビジョン多様体の解明 [cs.CV, cs.AI]目的：医療画像セグメンテーションタスクにおける最適な基盤モデルの選択
- 医療画像解析の進歩は，疾病の早期発見や治療効果の向上に不可欠である。
- 既存の転移可能性評価指標は分類タスク向けであり，高次元な医療画像解析には不十分である。
- 多様体解析に基づく新たな評価指標により，効率的なモデル選択を可能にすること。
- 本研究で提案する手法は，従来の指標と比較して，モデルランキングの精度を約31%向上させる。
- グローバルな表現と局所的な境界情報を統合することで，多様体間のトラクタビリティを評価する。
- トレーニング不要で効率的なモデル選択が可能となり，医療画像解析のワークフローを改善する。
Link: https://arxiv.org/abs/2602.23916
計画なしの安定構造の自律的ロボットアセンブリ [cs.CL, cs.RO, cs.LG]目的：安定構造の自律的ロボットアセンブリ手法
- ロボット技術は，建設やインフラ整備など，幅広い分野での自動化を可能にする重要な技術である。
- 従来のロボットアセンブリは，事前に定義された設計図に依存しており，環境変化への対応が困難であった。
- 環境不確実性や変動に対応できる，柔軟なロボットアセンブリシステムの実現を目指す。
- 本研究では，目標と障害物を通じて建設タスクを定義することで，ロボットが自律的に安定構造を構築する手法を提案した。
- 深層Q学習と後続特徴を用いた強化学習ポリシーにより，ロボットは環境に適応しながら建設を行うことができる。
- 実機実験の結果，本手法は建設ノイズを伴う環境下においても，安定構造を構築できることが示された。
Link: https://arxiv.org/abs/2602.23934
グリーンか高速か？サーバーレスコンピューティングにおけるコールドスタートとアイドル炭素のバランス学習 [cs.DC, cs.AI, cs.PF]目的：サーバーレスコンピューティングにおける，コールドスタートとアイドル時の炭素排出量のバランス
- サーバーレスはクラウド利用を容易にするが，遅延と炭素排出量の管理が課題である。
- 静的なキープアライブポリシーでは，時間変動する電力の炭素強度とワークロードの変化に対応できない。
- 動的なキープアライブ期間調整により，遅延と炭素排出量の効率的なバランスを実現すること。
- LACE-RLは，コールドスタートを51.69%削減し，アイドル時の炭素排出量を77.08%削減した。
- Huaweiの静的ポリシーと比較して，より良い遅延と炭素排出量のトレードオフを実現した。
- LACE-RLは，最適な性能に迫る結果を示した。
Link: https://arxiv.org/abs/2602.23935
ネパール語の文レベルのトピック分類におけるBERTベースモデルのベンチマーク [cs.CL, cs.LG]目的：ネパール語トピック分類におけるBERTベースモデルの性能評価
- 自然言語処理の進展において，多言語対応モデルの重要性が増している。
- ネパール語は低リソース言語であり，NLP研究が遅れている。
- ネパール語トピック分類の基礎的な性能評価指標を確立する。
- MuRIL-largeがF1スコア90.60%で最高の性能を示し，多言語モデルや単一言語モデルを上回った。
- NepBERTaもF1スコア88.26%と競争力のある性能を示した。
- これらの結果は，文書レベルの分類や，より広範なネパール語NLPアプリケーションの基盤となる。
Link: https://arxiv.org/abs/2602.23940
PointCoT: 明示的な3D幾何学的推論のためのマルチモーダルベンチマーク [cs.CL, cs.DL, cs.IR, cs.CL, cs.CV, cs.AI, cs.MM]目的：3D点群データに対する明示的な思考過程を用いた推論能力評価
- 近年のマルチモーダル大規模言語モデルの発展に伴い，3D空間の理解が重要になっている。
- 既存手法は3D特徴と事前学習モデルの対応に注力するも，幾何学的推論を暗黙的に行っている。
- 幾何学的な根拠に基づいた思考過程を経ることで，誤った情報を生成する問題を解決する。
- PointCoTは，「見る，考える，答える」というパラダイムを採用し，幾何学に基づいた根拠生成をモデルに学習させる。
- 大規模ベンチマークPoint-Reason-Instructを構築し，階層的な思考過程アノテーションを付与することで，推論能力の向上を図った。
- 実験の結果，PointCoTは複雑な推論タスクにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2602.23945
階層的概念に基づく解釈可能なモデル [cs.LG, cs.AI]目的：深層ニューラルネットワークの解釈可能性向上
- 深層学習モデルの利用拡大には，モデルの挙動理解が不可欠である。
- 既存の概念埋め込みモデルでは，概念間の関係性表現が不十分である。
- 限られた概念ラベルから詳細な説明を生成し，アノテーション負荷を軽減する。
- 提案手法であるHiCEMsは，概念間の階層構造を明示的にモデル化する。
- Concept Splittingにより，事前学習済みのCEMから人間が理解できるサブ概念を自動的に発見可能。
- 複数のデータセットでの評価により，HiCEMsがより高いタスク精度と概念介入能力を示すことが確認された。
Link: https://arxiv.org/abs/2602.23947
HotelQuEST：エージェント型検索における品質と効率のバランス [cs.SI, cs.IR, cs.AI]目的：エージェント型検索の品質と効率に関する評価基準
- 大規模言語モデルを活用した適応的検索システムは重要性を増している。実用化には効率性が不可欠である。
- 既存の評価基準は品質に偏っており，実用上の効率性評価が不足している。
- 曖昧なユーザーの意図を明確化し，効率性と品質を両立するエージェント型検索を目指す。
- ホテル検索クエリ214件からなるHotelQuESTを新たに構築し，検索システムの評価を行った。
- LLMベースのエージェントは従来の検索手法より精度が高いものの，過剰なツール呼び出しによりコストが高いことが判明した。
- クエリの複雑さに応じたモデルの能力の最適化により，コスト削減の余地があることが示唆された。
Link: https://arxiv.org/abs/2602.23949
二分岐特徴抽出と融合に基づく微表情認識 [cs.CV, cs.AI]目的：微表情認識の精度向上
- 非言語コミュニケーション研究において，微表情は重要な情報源である。
- 既存の光流法に基づく認識方法は，微表情の瞬間性や微妙さから課題が多い。
- 二分岐構造と注意機構により，微表情認識の性能改善を目指す。
- 提案手法は，CASME IIデータセットにおいて74.67%の認識精度を達成した。
- LBP-TOPやMSMMTなどの既存手法と比較して，有意に高い性能を示した。
- 残差ネットワークとInceptionネットワークの組み合わせが，特徴抽出に貢献している。
Link: https://arxiv.org/abs/2602.23950
SHINE：脳波と磁脳波のための逐次階層統合ネットワーク [cs.SD, cs.AI]目的：脳波・磁脳波信号からの音声・無音シーケンス再構成
- 自然言語が脳内でどのように表現されるかは認知神経科学の重要な課題である。
- 皮質エンベロープ追従応答を用いた音声デコーディングには課題が残されている。
- 脳波・磁脳波信号から高精度に音声情報を抽出することを目指す。
- 提案手法SHINEは，標準トラックでF1-macroスコア0.9155を達成した。
- 拡張トラックでは，音声エンベロープとメルスペクトログラムの補助再構成を組み込み，F1-macroスコア0.9184を達成した。
- SHINEとベースライン手法のアンサンブルにより，高い性能が得られた。
Link: https://arxiv.org/abs/2602.23960
マスクされた離散拡散モデルにおける生成順序学習：変分推論によるアプローチ [cs.IR, cs.LG]目的：マスクされた離散拡散モデルの生成順序の学習
- 生成モデルの効率化が求められている。自己回帰モデルと比較して並列処理が可能となる拡散モデルは有望である。
- 並列生成とサンプル品質のバランスが課題である。既存手法は固定されたヒューリスティックな手法に依存している。
- 変分推論の枠組みを用いて，マスクされた離散拡散モデルの並列生成順序を学習し，効率と品質を向上させる。
- 提案手法は，高度に並列な生成において，ヒューリスティックなサンプリング戦略と同等の性能を示す。
- GSM8Kデータセットでの実験では，平均4ステップの生成で33.1%の精度を達成した（競合手法は23.7-29.0%）。
- この研究は，拡散モデルにおける並列生成に関する貴重な洞察を提供する可能性がある。
Link: https://arxiv.org/abs/2602.23968
尋ねることを奨励する：大規模言語モデルにおけるごますりを軽減する [cs.HC, cs.AI]目的：大規模言語モデルにおけるごますりの軽減策
- 大規模言語モデルの社会実装が進む中で，その応答の信頼性が重要課題となっている。
- 大規模言語モデルは，批判的検討よりもユーザーの意見に迎合する傾向があり，適切な助言を阻害する。
- ごますりの発生要因を特定し，入力を工夫することで，その影響を軽減すること。
- 質問形式ではなく，断定的な表現を用いた入力の場合，ごますりが顕著に増加することが示された。
- ユーザーの発言における確信度が高まるほど，また，自己視点での表現が用いられるほど，ごますりが増幅されることが明らかになった。
- モデルに入力を質問形式に変換させることで，ごますりを効果的に軽減できることが示された。これは，「ごますりをするな」という指示よりも有効である。
Link: https://arxiv.org/abs/2602.23971
オフライン強化学習のための悲観的補助方策 [cs.RO, cs.AI]目的：オフライン強化学習における安全かつ効率的な学習
- 実世界での試行錯誤コスト削減のため，既存データからの学習が重要。
- 分布外のアクションによる近似誤差が蓄積し，性能低下を招く。
- 信頼性の高いアクション選択による誤差蓄積の緩和。
- 提案手法は，Q関数の下限信頼区間を最大化する悲観的な補助方策を構築。
- この方策は，学習された方策近傍で高い値と低い不確実性を示す。
- オフライン強化学習のベンチマーク実験で，他の手法との組み合わせで効果が確認された。
Link: https://arxiv.org/abs/2602.23974
内在ローレンツニューラルネットワーク [cs.LG, cs.AI]目的：内在ローレンツニューラルネットワークの提案
- 現実世界のデータは潜在的な階層構造を持つことが多く，双曲幾何学で自然に表現できる。
- 既存の双曲ニューラルネットワークは，ユークリッド演算と混合したり，外在的なパラメータ化に依存したりする点が課題である。
- 完全内在型双曲アーキテクチャを構築し，双曲幾何学の曲率を尊重した幾何学的決定関数を実現すること。
- 提案するILNNは，CIFAR-10/100およびゲノムベンチマークにおいて，最先端の性能と計算コストを達成した。
- ILNNの中核となる「点から超平面へ」全結合層は，ユークリッド空間のロジットを学習されたローレンツ超平面からの双曲距離で置き換える。
- GyroLBNなどの内在モジュールを設計し，LBNやGyroBNよりも優れた性能と学習時間の短縮を実現した。
Link: https://arxiv.org/abs/2602.23981
MINT：早期アルツハイマー病スクリーニングのためのマルチモーダル画像から音声への知識転移 [cs.IR, cs.NI, cs.CL, cs.LG, cs.AI, cs.CV]目的：アルツハイマー病の早期スクリーニングに向けた，画像と音声の知識転移による手法の開発
- アルツハイマー病は，加齢に伴う認知機能低下から認知症への移行期を特徴とする進行性の神経変性疾患であり，早期発見が重要である。
- 脳画像検査はバイオマーカーを提供するが，高コストであり，大規模なスクリーニングには限界がある。
- 脳画像由来のバイオマーカー構造を音声に転移することで，画像検査なしに認知機能低下の早期発見を可能とする。
- MRI教師モデルによって学習された脳画像埋め込み空間への音声表現のアライメントにより，音声のみの分類器と同等の性能を達成した（AUC 0.720 vs 0.711）。
- 推論時には画像検査を必要とせず，脳画像由来の決定境界が音声表現を適切に解釈することを実証した。
- マルチモーダル融合は，MRI単独よりも高い性能を示した（0.973 vs 0.958）。
Link: https://arxiv.org/abs/2602.23994
学習，検証，適応が可能なエージェントのための基盤ワールドモデル [cs.LG, cs.AI]目的：エージェントの学習，検証，適応を可能にする基盤ワールドモデル
- 自律エージェントは，変化する環境下でも信頼性が求められるため，環境に適応できる能力が重要である。
- 従来のワールドモデルは静的な環境を前提としており，変化への対応が課題となっている。
- 本研究は，環境の変化に対応可能な，信頼性の高いエージェントを実現するための基盤を提供する。
- 本研究では，報酬モデル，形式検証，オンライン抽象化，テスト時合成の4要素からなるアジェンダを提案する。
- これにより，エージェントは検証可能なプログラムを合成し，少ない試行回数で新たなポリシーを導き出すことが可能となる。
- 本フレームワークは，学習，推論，適応のための基盤となり，行動の正当性を示す説明可能なエージェントの実現に貢献する。
Link: https://arxiv.org/abs/2602.23997
脱獄ファウンドリ：再現性のあるベンチマークのための論文から実行可能な攻撃へ [cs.CL, cs.CR, cs.AI, cs.CL, cs.LG]目的：大規模言語モデルに対する脱獄攻撃の再現的ベンチマーク
- LLMの安全性確保は重要であり，脆弱性の評価が不可欠である。
- 脱獄手法の進化がベンチマークの陳腐化を招き，比較が困難になっている。
- 脱獄論文を即時実行可能なモジュールに変換し，標準化された評価を可能とする。
- JAILBREAK FOUNDRY (JBF) により，30件の攻撃を再現し，成功率の乖離は平均+0.26%であった。
- JBFは，攻撃固有の実装コードをほぼ半分に削減し，コード再利用率を82.5%達成した。
- JBFは，10の被害モデルに対して，一貫したGPT-4oジャッジを用いた標準化された評価を可能にする。
Link: https://arxiv.org/abs/2602.24009
InfoNCE はガウス分布を誘導する [cs.RO, cs.LG, eess.SP]目的：表現学習における InfoNCE の特性解明
- 大量の未ラベルデータ活用が重要視される現代の表現学習の基盤技術である。
- InfoNCE を含むコントラスティブ学習の表現がガウス分布に従う原理が不明であった。
- コントラスティブ学習における表現のガウス性に着目し，その理論的根拠を解明する。
- InfoNCE の目的関数が，コントラスティブ学習から得られる表現にガウス構造を誘導することを示した。
- ある仮定の下で，表現の高次元投影は多変量ガウス分布に漸近的に近づくことを証明した。
- 実験により，合成データおよび CIFAR-10 データセットにおいて一貫したガウス分布の振る舞いを確認した。
Link: https://arxiv.org/abs/2602.24012
Vision-Languageモデルにおける社会的不公平性の解釈可能な軽減 [cs.CV, cs.AI]目的：Vision-Languageモデルの社会的不公平性軽減手法
- 近年，Vision-Languageモデルが急速に進歩しており，社会への影響が大きいため，公平性の確保が重要である。
- 既存の手法では，表層的なバイアス信号の軽減に焦点が当てられており，モデル内部のメカニズムは未解明である。
- 本研究は，モデル内部のバイアス要因を特定し，公平性を損なわずに性能を維持する手法を開発する。
- 提案手法DeBiasLensは，疎なオートエンコーダを用いて，Vision-Languageモデル内の社会属性に関連するニューロンを特定する。
- 特定されたニューロンを意図的に無効化することで，バイアスを効果的に軽減し，モデルのセマンティック知識を維持する。
- 本研究は，AIシステムの公平性監査ツールの開発に貢献し，社会的不公平性のないAIの実現を目指す。
Link: https://arxiv.org/abs/2602.24014
シナリオ文脈ロールアウトによるポートフォリオ強化学習 [cs.RO, cs.HC, cs.AI]目的：ポートフォリオ再調整戦略における分布シフトへの対応
- 市場の変化に対応した安定的なポートフォリオ運用が重要である。市場環境の変化は投資パフォーマンスに大きな影響を与える。
- 市場のレジーム変化による分布シフトが，ポートフォリオ再調整ポリシーの性能を低下させる問題がある。
- ストレスイベント下での現実的なシナリオ生成と，強化学習における報酬と遷移の不一致を解消することを目指す。
- 提案手法は，ロールアウトによって示唆される反事実的な次状態を用いることで学習を安定化させる。
- 31種類の米国株式およびETFポートフォリオにおけるアウトオブサンプル評価で，シャープレシオを最大76%向上させた。
- 最大ドローダウンを最大53%削減し，古典的な手法や強化学習ベースラインと比較して優れた性能を示した。
Link: https://arxiv.org/abs/2602.24037
RewardUQ：不確実性を考慮した報酬モデルのための統一フレームワーク [cs.LG, cs.AI, cs.CL]目的：報酬モデルにおける不確実性の定量化の評価
- 大規模言語モデルを人間の選好に合わせる上で，報酬モデルは不可欠である。その性能向上が求められている。
- 既存手法は，限られた人間のフィードバックによる報酬モデルの不確実性を考慮していない場合が多い。
- 報酬モデルの不確実性を定量化し，効率的なアノテーションと過剰最適化の緩和を目指す。
- 報酬モデルの精度と校正を評価する共通の指標を用いた比較を行った結果，モデルサイズと初期化が性能に大きく影響することが示された。
- 既存研究は，代替設計選択によって改善の余地がある可能性が示唆された。
- 本研究で開発したオープンソースフレームワークは，Pythonパッケージとして公開されており，今後の研究開発を促進する。
Link: https://arxiv.org/abs/2602.24040
分散LLMアダプターサービングにおけるGPU効率のデータ駆動型最適化 [cs.DC, cs.AI, cs.CL, cs.LG]目的：分散LLMアダプターサービングにおけるGPU効率の最適化
- LLMの活用拡大に伴い，低コストでのモデル特化が重要課題となっている。
- 多数のアダプターを同時にホストする分散環境下では，キャッシュとスケジューリングが複雑化する。
- GPU使用数を最小化し，リソース効率を最大化するアダプター配置をデータ駆動的に実現する。
- 提案手法は，Digital Twinと機械学習モデルを統合し，高精度な性能予測に基づいてGPU効率を最大化する。
- Digital Twinは，実ベンチマークの最大90倍の速度で5%以下のスループット推定誤差を達成する。
- 実験結果から，提案パイプラインはGPU使用数を大幅に削減し，目標ワークロードを維持できることが示された。
Link: https://arxiv.org/abs/2602.24044
IoTデバイスのトラフィックプロファイリングにおける教師なしベースラインクラスタリングと漸進的適応 [cs.NI, cs.CR, cs.LG]目的：IoTデバイスのトラフィックプロファイリングとモデルの漸進的更新
- IoTデバイスの普及と多様化により，セキュリティ上の課題が生じており，静的な識別モデルでは効果が低下する。
- IoT環境におけるトラフィックは常に変化するため，既存のモデルでは新しいデバイスやトラフィックパターンに対応できない。
- 変化するIoT環境において，効率的かつ柔軟なトラフィックプロファイリング手法を確立すること。
- ベースラインプロファイリングでは，DBSCANがデータ中の外れ値を効果的に分離し，正解ラベルとの整合性が最も高かった(NMI 0.78)。
- 漸進的適応においては，BIRCHが効率的な更新(0.13秒/更新)を可能にし，未知のデバイスに対して比較的まとまりのあるクラスタを形成(純度0.87)。
- ただし，BIRCHは新しいトラフィックの捕捉率が限定的(シェア0.72)であり，適応後の既知デバイスの精度にはトレードオフが見られた(0.71)。
Link: https://arxiv.org/abs/2602.24047
CIRCLE：現実世界の視点からのAI評価フレームワーク [cs.AI, cs.SE]目的：AI技術の現実世界における成果の評価手法
- AI技術の社会実装が進む中で，その影響を的確に評価する必要性が高まっている。
- 従来の評価指標はモデル性能に偏っており，実際の利用状況や制約を考慮できていない。
- 利害関係者の懸念を定量的な指標に落とし込み，現実的なAI評価を可能にすること。
- CIRCLEは，AIのライフサイクル全体を6段階で捉え，モデル性能と現実世界の成果のギャップを埋める。
- 現場テスト，レッドチーム，長期的な調査を組み合わせることで，場所ごとの状況に適応した系統的な知見が得られる。
- これにより，理論的な能力ではなく，現実的な影響に基づいたAIガバナンスが可能となる。
Link: https://arxiv.org/abs/2602.24055
大規模ビジョン言語モデルの量子化のための，トークンを意識した適応的誤差再構成とエキスパートの混合 [cs.CV, cs.AI]目的：大規模ビジョン言語モデルの量子化における精度向上
- 近年，ビジョン言語モデルの計算・メモリコスト削減が重要課題となっている。
- 既存の量子化手法では，入力に応じた重要なチャネルの分布差が考慮されておらず，精度低下を招く。
- 入力トークンごとに誤差を補償するエキスパートの混合による，量子化精度の改善を目指す。
- 提案手法Quant Experts (QE)は，トークンに依存するチャネルとそうでないチャネルを分離し，それぞれに適応的な誤差補償を行う。
- QEは，20億から700億パラメータまでの様々なモデル規模において，既存手法よりも高い精度を達成する。
- 量子化モデルの性能をフル精度モデルに匹敵するレベルに維持することに成功した。
Link: https://arxiv.org/abs/2602.24059
タスクの複雑性が重要である：感情分析のためのLLMにおける推論に関する実証的研究 [cs.CL, cs.AI]目的：大規模言語モデルにおける推論の有効性
- 自然言語処理の発展に伴い，より高度な感情分析が求められている。
- LLMに推論能力を持たせることが常に性能向上に繋がるか不明である。
- タスクの複雑性に応じたLLMの推論効果を明らかにすること。
- 推論の有効性はタスクに依存し，単純なタスクでは性能が低下することが示された。
- 複雑な感情認識タスクにおいては，推論によって性能が向上する可能性が示唆された。
- 基本モデルが効率性と性能のバランスに優れており，複雑なタスクでのみ推論の正当化が見られた。
Link: https://arxiv.org/abs/2602.24060
パスシグ: 切り捨ておよび射影パスシグネチャのためのGPU加速ライブラリ [cs.LG]目的：パスシグネチャの高速計算および機械学習への応用
- 系列データ解析において，パスシグネチャは強力な表現力を持つため，重要性が増している。
- 既存のライブラリは，大規模な勾配ベース学習に必要なスケーラビリティに欠けていた。
- GPUを活用し，大規模データでの効率的なパスシグネチャ計算と学習を可能にすること。
- パスシグは，従来のライブラリと比較して，切り捨てシグネチャの計算速度を10〜30倍向上させた。
- パスシグネチャを通してのバックプロパゲーションを必要とする学習において，4〜10倍の高速化を実現した。
- ユーザー指定の単語集合への射影や不均一なパス規則性に基づく異方性切り捨てなど，高度な機能をサポートする。
Link: https://arxiv.org/abs/2602.24066
非線形次元削減とランダムウォーク共起を利用したノード埋め込み [cs.IR, cs.HC, cs.MA, cs.CL, cs.LG, cs.SI]目的：ノード埋め込みにおける次元削減手法の活用
- グラフ構造の分析は，社会ネットワークや生物学的ネットワークなど，様々な分野で重要である。
- 従来のノード埋め込みは低次元空間に制約され，表現力に限界がある場合がある。
- 高次元埋め込みによる表現力の向上と，解釈可能性の確保を目指す。
- 提案手法COVEは高次元埋め込みであり，UMAPによる次元削減後，クラスタリングとリンク予測の性能がわずかに向上する。
- COVEはランダムウォークにおける共起に基づき，拡散過程と密接に関連している。
- COVEとUMAP HDBSCANパイプラインは，一般的なLouvainアルゴリズムと同等の性能を示す。
Link: https://arxiv.org/abs/2602.24069
人間か機械か：音声対話システムのチューリングテストの予備検討 [cs.AI, cs.SD]目的：音声対話システムの人間らしさの評価
- 人間らしい対話エージェント開発は長年の目標であり，その評価基準が重要である。
- 既存の音声対話システムは，人間と区別がつかないレベルには達していない。
- 音声対話システムの人間らしさのボトルネックを特定し，改善の方向性を示す。
- 評価の結果，現行の音声対話システムはいずれもチューリングテストに合格しなかった。
- 人間らしさの次元分析から，意味理解だけでなく，パラ言語的特徴や感情表現が課題であることが示された。
- 人間らしさの評価に有用な解釈可能なモデルを提案し，自動評価の可能性を示した。
Link: https://arxiv.org/abs/2602.24080
強化学習のための適応相関重み付き内因性報酬 [cs.LG, cs.AI]目的：疎報酬強化学習における探索改善を目的とした，内因性報酬と外因性報酬の動的なバランス調整フレームワーク
- 強化学習は，複雑な意思決定問題への応用が期待される重要な技術である。
- 疎報酬環境下では，有効な探索が困難であり，学習の停滞を招く場合がある。
- タスクに即した探索を促し，学習の効率と安定性を向上させることを目指す。
- ACWIは，タスクに応じて内因性報酬の重みを適応的に調整する軽量なBeta Networkを導入した。
- 相関に基づく目的関数により，内因性報酬と将来の外因性報酬の整合性を高めることで，効率的な探索を実現した。
- MiniGrid環境での実験により，ACWIが固定の報酬設定と比較して，サンプル効率と学習の安定性を向上させることが示された。
Link: https://arxiv.org/abs/2602.24081
Preference Packing：大規模言語モデルの効率的な選好最適化 [cs.CL, cs.AI]目的：大規模言語モデルにおける選好最適化の効率化
- モデル規模の増大に伴い，計算資源の効率的な利用が不可欠となっている。
- 同じプロンプトに対する異なる応答データを用いる手法では，計算効率が課題となっていた。
- 重複するプロンプトに対する注意機構の計算量を削減し，メモリ使用量を低減する。
- Preference Packingを適用することで，少なくとも37%のトレーニング時間短縮が確認された。
- 既存のバッチソート等の最適化手法と組み合わせることで，最大3.22倍の高速化を実現した。
- テキストデータと画像データ両方において，効果が確認された。
Link: https://arxiv.org/abs/2602.24082
点過程データのためのニューラル拡散強度モデル [cs.LG, math.PR, stat.ML]目的：点過程データの潜在的確率強度モデリング
- 点過程は，様々な現象を記述可能であり，そのモデリングは重要である。
- 従来のCox過程の推定は計算コストが高く，現実的な問題への適用が困難であった。
- ニューラル拡散モデルを用いて，効率的な推定と推論を実現し，計算コストを削減する。
- ニューラルSDE駆動Cox過程の変分推論フレームワークを提案し，点過程観測による条件付けが拡散構造を維持することを示した。
- 変分族が真の事後分布を含むことを保証し，ELBO最大化が最尤推定と一致する条件を示した。
- イベント系列から事後強度パスを生成するamortized encoderを設計し，MCMC法と比較して大幅な高速化を実現した。
Link: https://arxiv.org/abs/2602.24083
単一文化の主観性 [cs.CY, cs.LG]目的：機械学習モデルにおける単一文化現象の評価方法
- 機械学習モデルの性能評価において，モデル間の出力の一貫性は重要な指標である。
- 単一文化の評価基準は明確でなく，分析者の主観に左右されやすい。
- モデル間の一貫性の解釈における主観性を明らかにし，評価方法の改善を目指す。
- 単一文化の評価は，独立性の基準となる帰無モデルの選択に大きく依存することが示された。
- 異なる帰無モデルを用いることで，モデル間の相関に関する結論が大きく異なる。
- モデルの評価は，対象となるタスクやモデル集団に依存する文脈的な推論問題である。
Link: https://arxiv.org/abs/2602.24086
拡散調和器：オンライン拡散エンハンサーによるニューラル再構成とフォトリアリスティックシミュレーションの架け橋 [cs.CV, cs.AI, cs.LG]目的：ニューラル再構成とフォトリアリスティックシミュレーションの品質向上
- 自動運転ロボット等の開発・評価にシミュレーションは不可欠である。現実世界のデータを活用できるニューラル再構成が注目されている。
- NeRFや3D Gaussian Splattingは視覚的に優れるものの，新規視点でのレンダリングにアーティファクトが生じやすい。
- 異なるシーンから取得した動的オブジェクトの統合が難しい問題を解決し，シミュレーションの忠実性を高める。
- DiffusionHarmonizerは，不完全なシーンのレンダリングを一時的に一貫性のある，よりリアルな出力に変換するオンライン生成強化フレームワークである。
- 事前学習済みの画像拡散モデルから変換した単一ステップの時間条件付きエンハンサーを単一のGPUでオンラインシミュレーター上で実行可能にする。
- 外観の調和，アーティファクトの修正，照明のリアリズムを重視したカスタムデータキュレーションパイプラインにより，効果的な学習を実現している。
Link: https://arxiv.org/abs/2602.24096