arXiv雑要約

AI - 2026/05/19 公開

SynCABEL：生物医学エンティティリンキングのための合成文脈拡張 [cs.CL, cs.AI, cs.IR, cs.LG]目的：生物医学エンティティリンキングのための合成トレーニングデータ生成手法
- 生物医学分野では，専門知識に基づいた正確なエンティティリンキングが重要である。
- 教師あり機械学習には大量の専門家によるアノテーションデータが必要であり，その取得が困難である。
- 大規模言語モデルを用いて合成データ生成を行い，アノテーションコストを削減し，性能向上を目指す。
- SynCABELは，既存の多言語ベンチマークにおいて最先端の結果を達成した。
- SynCABELは，完全な人手アノテーションと同等の性能を，最大60％少ないアノテーションデータで実現した。
- LLMを用いた評価により，SynCABELが臨床的に妥当な予測の精度を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2601.19667
精密性の力：複雑系における構造情報に基づいた検出 -- 顧客離反から発作発症まで [cs.LG, stat.ML]目的：複雑系における早期現象検出手法
- 複雑系の理解は，社会インフラや生命現象など，様々な分野で重要である。
- データ生成過程が不明瞭な場合，潜在的な因果構造を解明することが困難である。
- 隠れた因果構造を明らかにし，臨界事象の早期検出を可能にすること。
- 提案手法は，経験共分散行列のべき乗を利用し，最適な特徴表現を学習する。
- 発作検出と顧客離反予測において，競争力のある結果が得られた。
- 最適な共分散行列のべき乗が，識別可能性と構造的特徴の両方を示すことが確認された。
Link: https://arxiv.org/abs/2601.21170
強化学習におけるロバストな報酬モデリングのための因果表現学習 [cs.LG]目的：人間のフィードバックからの強化学習による大規模言語モデルのアライメントに不可欠な，信頼性の高い報酬モデル。
- 大規模言語モデルの性能向上には，人間の意図と合致した報酬モデルの構築が重要である。
- 既存の報酬モデルは，人間のラベルと因果関係のない不要な特徴に影響を受けやすいという課題がある。
- 報酬予測に十分な因果因子と，報酬に無関係な属性を分離し，ロバストな報酬モデルを構築すること。
- 提案手法は，文脈埋め込みを因果因子と非因果因子に分解する表現学習フレームワークを導入した。
- 報酬ヘッドを因果成分のみに依存させることで，報酬ハッキングを軽減し，より頑健な報酬モデルを学習した。
- 数学と対話タスクの両方で，最先端のベースラインと比較してRLHFの性能が向上した。
Link: https://arxiv.org/abs/2601.21350
目的ベースの改善を超えて：静止性認識型期待改善法 [cs.LG]目的：ベイズ最適化における期待改善法の改良
- 高コストなブラックボックス関数の最適化に広く用いられるベイズ最適化は，効率的な探索が求められている。
- 既存の期待改善法は，最適化の進展が鈍化するケースがあり，探索効率の限界が課題となっている。
- 静止点近傍での探索を促し，より効率的な最適化を実現すること。
- 提案手法であるEI-GNは，期待改善に加えて勾配ノルムを考慮することで，静止性への進展も評価する。
- EI-GNは，標準的なベイズ最適化ベンチマークにおいて，既存手法と比較して一貫した性能向上を示した。
- また，制御ポリシー学習への適用可能性も実証された。
Link: https://arxiv.org/abs/2601.21357
MemOCR：効率的な長期的推論のためのレイアウト認識型ビジュアルメモリ [cs.AI]目的：長期的な推論における効率的な文脈圧縮
- 複雑なタスク解決には，過去の情報を効率的に記憶し活用する必要がある。
- 従来のテキストベースの記憶システムは，文脈長の増加に伴い計算コストが線形に増加する。
- 文脈圧縮の効率を高め，限られた計算資源で長期推論を可能にすること。
- MemOCRは，重要な情報を視覚的に優先表示し，不要な情報を圧縮することで，限られた文脈内でより効果的な推論を実現した。
- 強化学習を用いて，様々な文脈圧縮レベル下での頑健性を確保した。
- 長文脈の質問応答ベンチマークにおいて，テキストベースの既存手法を上回り，優れた文脈活用能力を示した。
Link: https://arxiv.org/abs/2601.21468
視覚トークン圧縮下における大規模ビジョン言語モデルの敵対的頑健性 [cs.CR, cs.AI, cs.CV]目的：大規模ビジョン言語モデルにおける視覚トークン圧縮時の敵対的頑健性の評価
- 大規模ビジョン言語モデルは高性能だが，計算コストが高い。効率化が重要課題である。
- 視覚トークン圧縮は効率化に有効だが，セキュリティ上の脆弱性が不明である。
- 圧縮時の最適化と推論のずれを考慮した攻撃手法を開発し，脆弱性を明らかにする。
- 既存の攻撃手法では，圧縮されたモデルの脆弱性を十分に評価できないことが示された。
- Compression-AliGnEd (CAGE)攻撃は，圧縮推論に最適化を合わせることで，高い攻撃成功率を達成した。
- 圧縮を考慮しない頑健性評価は楽観的になりうるため，圧縮を意識した評価と防御が不可欠である。
Link: https://arxiv.org/abs/2601.21531
変換を拡張したGRPOによる大規模言語モデルの推論における探索能力の向上 [cs.CL, cs.CL, cs.LG]目的：大規模言語モデルの推論における探索能力の向上
- 大規模言語モデルの推論能力は，様々な分野で重要性が増しており，その性能向上は不可欠である。
- 強化学習を用いた大規模言語モデルの学習において，勾配消失や多様性の崩壊が課題となっている。
- 質問の言い換えにより，報酬の多様性と探索の質を向上させ，学習効率を高めることを目指す。
- 提案手法TA-GRPOは，質問の言い換えによってモデルが認識する難易度を変化させ，報酬と多様な推論経路を生成する。
- TA-GRPOは，Qwen3-1.7BとQwen3-4Bのpass@32をそれぞれ平均4.97ポイント，4.34ポイント向上させた。
- また，TA-GRPOは，より多くのデータで学習したベースラインと同等の探索品質を達成することが示された。
Link: https://arxiv.org/abs/2601.22478
決定論的テーブル状態報酬によるテーブル推論の強化 [cs.AI]目的：テーブル推論における性能向上
- テーブルデータは情報検索や意思決定に不可欠であり，その活用は重要である。
- 大規模言語モデルはテーブル構造データの多段階推論に弱く，中間状態への明示的な指導が不足している。
- クエリに基づいたスケーラブルかつ客観的な報酬信号を用いて，テーブル推論の精度向上を目指す。
- 提案手法RE-TABは，既存手法と比較して平均26.7%の精度向上を達成した。
- RE-TABは，テスト時サンプリング数を最大33%削減することに成功した。
- TABROUGEは，後処理報酬としても有効であり，追加で8.34%の性能向上を示した。
Link: https://arxiv.org/abs/2601.22530
意味を超えたリアルタイム報酬モデル [cs.AI]目的：大規模言語モデルと人間の選好の整合
- LLMの性能向上には，人間の意図との整合が不可欠である。
- 報酬モデルへの過剰最適化が起こりやすく，人間の意図を正確に捉えられない。
- ポリシー分布の変化に対応し，報酬モデルとポリシーモデルのずれを解消する。
- R2Mは，従来の報酬モデルにポリシーからのフィードバックを活用することで，リアルタイムでの整合性を実現する。
- ポリシーの隠れ状態の変化を捉え，報酬のずれを抑制することで，過剰最適化の問題を軽減する。
- ポリシーからのフィードバックをリアルタイムに活用することで，報酬モデルの性能向上に繋がる可能性を示す。
Link: https://arxiv.org/abs/2601.22664
フルグラフ対ミニバッチ学習：バッチサイズとファンアウトサイズに関する包括的分析 [cs.LG]目的：グラフニューラルネットワーク（GNN）の学習におけるフルグラフ方式とミニバッチ方式の比較
- グラフ構造を持つデータの解析は，社会ネットワークや分子構造など，様々な分野で重要性を増している。
- GNNの学習方法は，システム設計への要求が大きく異なり，適切な選択が困難である。
- バッチサイズとファンアウトサイズがGNNの性能に与える影響を明らかにすることで，ハイパーパラメータ調整の指針を示す。
- 本研究では，Wasserstein距離を用いた新しい汎化性能解析により，グラフ構造，特にファンアウトサイズの影響を評価した。
- バッチサイズとファンアウトサイズがGNNの収束と汎化性能に非等方的な影響を与えることを明らかにし，リソース制約下でのチューニングの指針を提供した。
- フルグラフ学習が，適切に調整されたミニバッチ学習よりも必ずしも優れた性能や計算効率を示すとは限らないことが示された。
Link: https://arxiv.org/abs/2601.22678
集中治療における鎮静・鎮痛のための安全な強化学習 [cs.RO, cs.LG, cs.AI]目的：集中治療における鎮静・鎮痛の最適化
- 集中治療における疼痛管理は患者の安全に直結するため，適切な介入が重要である。
- 従来の強化学習研究では，患者の生存や観測不能性を考慮していなかった。
- 患者の生存率を向上させつつ，より安全な治療方針を学習すること。
- 疼痛のみを重視した方針では，臨床医の合意度と死亡率に正の相関が認められた。
- 疼痛と死亡率の両方を重視した方針では，臨床医の合意度と死亡率に負の相関が認められた。
- この違いは，併存疾患のレベルに対する反応の違いに起因すると考えられる。
Link: https://arxiv.org/abs/2601.23154
解釈可能で構成的な表現のための教師ありスパースオートエンコーダ [cs.AI]目的：解釈可能な表現の獲得
- AIの透明性と信頼性を高める上で，モデルの内部表現の解釈は重要である。
- 既存のスパースオートエンコーダは，学習の不安定性や意味的な整合性の欠如という課題がある。
- 学習の安定化と，人間が理解しやすい意味表現との整合性を実現することを目指す。
- 教師ありスパースオートエンコーダは，Stable Diffusion 3.5において，学習データにない概念の組み合わせでも画像を再構成できることが示された。
- モデルの潜在空間での介入により，プロンプトを変更せずに意味的な画像編集が可能になった。
- 本手法は，構成的な一般化能力と解釈可能性を両立する有効なアプローチである。
Link: https://arxiv.org/abs/2602.00924
LaDi-RL：潜在拡散推論による強化学習におけるエントロピー崩壊の防止 [cs.LG, cs.AI]目的：LLMの推論能力向上を目指す強化学習における新たな手法
- LLMの推論能力向上は，自然言語処理の重要な課題であり，その自動化が求められている。
- 従来の強化学習は離散的なトークン系列を扱うため，推論の本質である意味的，全体的な判断を捉えきれない。
- 潜在空間での強化学習により，より高次の推論表現を学習し，報酬と潜在的推論品質の関連性を明確にすること。
- LaDi-RLは，拡散モデルを用いて潜在的な推論軌跡を生成することで，構造化された探索と表現力豊かな分布モデリングを実現した。
- 階層的な潜在-テキストロールアウトを導入し，デコーダの影響を除去した潜在的な有用性の推定値を学習に用いることで，より正確な報酬信号を得た。
- コード生成と数学的推論において，トークンレベルの強化学習を9.4%，5.7%それぞれ上回り，ベースモデルのpass@k性能をも凌いだ。
Link: https://arxiv.org/abs/2602.01705
待つのではなく狩る：大規模言語モデルにおける深層データ調査の評価 [cs.AI, cs.CL, cs.DB, cs.LG]目的：大規模言語モデルにおける深層データ調査の評価
- 大規模言語モデルの活用範囲拡大には，自律的な探索能力の向上が不可欠である。
- 既存の評価基準は，与えられたタスクの遂行能力に偏っており，自律的なデータ分析能力を測れない。
- 大規模言語モデルの自律的なデータ探索能力を定量的に評価するためのベンチマークを開発すること。
- 深層データ調査（DDR）とDDR-Benchと呼ばれる大規模なチェックリストベースのベンチマークを導入した。
- 最先端モデルは潜在的な自律性を示す一方，長期的な探索は依然として課題である。
- 効果的な調査能力は，単なるスケーリングやエージェントの構築だけでなく，エージェントモデル固有の戦略に依存する。
Link: https://arxiv.org/abs/2602.02039
リアルタイム再帰型強化学習による自動運転の適応制御 [cs.RO, cs.LG, cs.NE, cs.SY, eess.SY]目的：自動運転のための事前学習済み制御ポリシーのオンラインファインチューニング
- 自動運転技術は，交通渋滞の緩和や交通事故の削減に貢献し，社会に変革をもたらす。
- 実際の環境は変化が多く，事前学習済みのポリシーでは対応しきれない場合がある。
- 環境変化に対応するため，効率的なオンライン学習によるポリシーの適応が求められる。
- リアルタイム再帰型強化学習（RTRRL）を拡張し，LrcSSMモデルと組み合わせることで，効率的なオンラインファインチューニングを実現した。
- シミュレーション環境と実機（RoboRacer）の両方で，LrcSSMベースのポリシーが最も高速かつ安定して学習することを確認した。
- イベントカメラの観測を用いたオンライン強化学習のファインチューニングを，標準的なハードウェアで初めて実証した。
Link: https://arxiv.org/abs/2602.02236
OmniCode：ソフトウェアエンジニアリングエージェントの評価ベンチマーク [cs.SE, cs.AI, cs.CL]目的：ソフトウェアエンジニアリングエージェントの能力評価
- ソフトウェア開発は社会基盤を支える重要な活動であり，その効率化が求められている。
- 既存のベンチマークは限定的なタスクに偏っており，現実のソフトウェア開発を十分に反映できていない。
- 現実的なソフトウェア開発タスクを網羅する，より多様なベンチマークを提供することで，課題解決を目指す。
- OmniCodeは，Python，Java，C++の3言語，バグ修正，テスト生成，コードレビュー修正，スタイル修正の4カテゴリーを含む1794のタスクで構成される。
- タスクは手動で検証され，データ漏洩を防ぐため，新規作成または厳選されたデータを使用している。
- SWE-Agent等の既存エージェントはPythonのバグ修正には強いが，テスト生成やC++，Javaにおいては性能が低いことが示された。
Link: https://arxiv.org/abs/2602.02262
SC3D：時間的・瞬間的グラフに対する動的かつ微分可能な因果探索 [cs.LG, stat.ME]目的：多変量時系列からの因果構造の発見
- 時間的依存関係や瞬間的な依存関係を捉え，複雑な相互作用を理解することは重要である。
- 動的グラフ探索空間が組み合わせ的に膨大であり，効率的な探索が課題である。
- 時間遅延と瞬間的な依存関係を同時に捉え，安定性と精度を向上させる。
- SC3Dは，ノードごとの予測によるエッジ事前選択と，尤度最適化によるマスクの改良という2段階の微分可能なフレームワークである。
- 合成SVARシステム，非線形ベンチマーク，非定常ダイナミクス，実世界データセットにおいて，既存手法よりも高い安定性と正確性を示す。
- 時間遅延と瞬間的な因果構造の両方をより正確に復元することが可能である。
Link: https://arxiv.org/abs/2602.02830
CVE-Factory：コードセキュリティ脆弱性に対するエキスパートレベルの能動的タスクのスケーリング [cs.CR, cs.AI]目的：コードセキュリティ脆弱性評価のための実行可能なタスクの自動生成
- コードセキュリティは，現代のソフトウェア開発において不可欠であり，その重要性は増している。
- 既存の脆弱性評価は手動で行われ，コストがかかり，スケーラビリティに限界があった。
- CVE-Factoryは，自動化により，大規模な脆弱性評価を可能にすることを目指している。
- CVE-Factoryは，人間の専門家による再現率95％，環境の忠実度96％を達成し，そのエキスパートレベルの品質が確認された。
- 最新の脆弱性に対する検証では，66.2％の成功率を示し，Qwen3-32Bの性能が向上，Claude 4.5 Sonnetを上回った。
- LiveCVEBench（190タスク，14言語，153リポジトリ）と，1,000以上の実行可能な学習環境を構築し，公開している。
Link: https://arxiv.org/abs/2602.03012
多段階ミラー降下に基づくニューラルネットワークの疎訓練 [cs.CL, cs.LG, cs.NA, math.NA, math.OC]目的：ニューラルネットワークの疎なパラメータ空間の効率的な探索
- 深層学習モデルの計算コスト削減は，実用化における重要な課題である。
- モデルの疎性化は計算コスト削減に有効だが，学習の安定性や精度維持が難しい。
- 疎性パターンを動的に更新することで，探索効率を高め，精度を維持すること。
- 提案手法は，標準的なBregman反復と比較して，計算量(FLOPs)を大幅に削減できる。
- 本手法は，テスト精度を維持しながら，SGD訓練と比較して計算量を約6%に削減可能である。
- 疎性に対応したCPU実装を用いることで，学習時間を約50%短縮できる。
Link: https://arxiv.org/abs/2602.03535
マルチターンエージェントにおける会話的慣性の緩和 [cs.AI, cs.LG]目的：会話的慣性軽減策
- 対話エージェントの性能向上は，人間との自然なコミュニケーションを実現する上で不可欠である。
- 大規模言語モデルは過去の応答を模倣しやすく，多様な応答を生み出す探索を阻害する。
- 文脈長による影響を分析し，低慣性な応答を促す学習手法を開発する。
- モデルの注意メカニズム分析により，過去の応答への強い注目（会話的慣性）が模倣バイアスに繋がることが示された。
- 文脈長が長いほど会話的慣性が強まるという知見に基づき，Context Preference Learningを提案した。
- 提案手法は，８つのエージェント環境と深層研究シナリオで会話的慣性を軽減し，性能向上を達成した。
Link: https://arxiv.org/abs/2602.03664
多様体上のランダム特徴 [cs.CL, cs.LG]目的：多様体上の二変数関数（特にカーネル）を近似するためのランダム特徴の生成手法
- 機械学習において，カーネル法は非線形な関係を捉える強力なツールである。多様体上のデータに対するカーネル法の適用は重要である。
- 多様体上のカーネルの計算は一般に困難であり，効率的な近似手法が求められている。既存手法では解析的な導出が難しい場合がある。
- 多様体の離散化とグラフ上のランダム特徴を利用し，解析的に導出困難な多様体上の連続的な近似メカニズムを構築すること。
- 本研究で提案する多様体上のランダム特徴（MRFs）は，正で有界な特徴量を生成し，正確かつ低分散な近似を可能にする。
- MRFsはグラフ上のランダム特徴（GRFs）と密接な関係があり，離散グラフ構造と連続ランダム特徴の理論的な繋がりを明らかにした。
- MRFsは，線形アテンションTransformerの性能向上に役立つガウスカーネル近似の再発見にも貢献し，複雑な計算を回避する。
Link: https://arxiv.org/abs/2602.03797
AgentArk：単一のLLMエージェントへのマルチエージェント知能の蒸留 [cs.AI, cs.MA]目的：マルチエージェントシステムの知能を単一モデルに蒸留すること
- LLMマルチエージェントシステムは高度な推論能力を持つが，実用化には課題がある
- 計算コストが高く，エラー伝播が起こりやすい点が課題となっている
- 計算効率を保ちつつ，マルチエージェントシステムの推論・自己修正能力を実現すること
- AgentArkは，マルチエージェントの動的相互作用を単一モデルの重みに蒸留する新しいフレームワークである
- 3つの階層的な蒸留戦略（推論強化ファインチューニング，軌跡ベースの拡張，プロセス認識蒸留）を調査した
- 蒸留されたモデルは，効率性とロバスト性，汎化性能を向上させ，多様な推論タスクで優れた結果を示した
Link: https://arxiv.org/abs/2602.03955
時系列の普遍的基盤モデルはカテゴリエラーに依拠する [cs.RO, cs.SY, eess.SY, cs.AI]目的：時系列の普遍的基盤モデル追求における根本的なカテゴリエラーの指摘
- 時系列データは様々な分野で重要であり，予測精度の向上が求められている
- 単一モデルでの汎用性追求は，分布の変化に弱く，性能劣化を引き起こす
- 専門知識を活用した階層型システムへの転換と，適応速度を重視した評価指標の提案
- 時系列データは生成過程が異質であり，単一モデルでは汎化性能が制限される。
- 履歴データのみに基づくモデルは，介入による変化を予測できない理論的限界がある。
- 普遍性の追求から，外部コンテキストを活用する因果制御エージェントへのパラダイムシフトを提唱する。
Link: https://arxiv.org/abs/2602.05287
RaBiT：LLMの精度と効率のための残差認識二値化学習 [cs.AI]目的：大規模言語モデルの効率的な展開のための二値化手法
- LLMの利用拡大には，計算資源の制約を克服する必要があり，量子化が鍵となる。
- 極端な量子化は精度低下を招き，ビット数と性能のトレードオフが課題となっている。
- 残差二値化における特徴の過剰適合を抑制し，モデルの表現力を向上させる。
- RaBiTは，共有されたフル精度ウェイトから逐次的に二値パスを導き出すことで，残差階層を強制する。
- この手法は，先行研究のような制約的なアプローチとは異なり，共適応をアルゴリズム的に解決する。
- RTX 4090上での推論速度はフル精度モデルと比較して4.49倍向上し，最先端の性能を実現した。
Link: https://arxiv.org/abs/2602.05367
ウォームアップはどこから来るのか？ノルム制約最適化器のための適応的スケジューリング [cs.AR, cs.LG, math.OC]目的：ノルム制約最適化器に対する適応的学習率スケジューリング
- 深層学習モデルの学習効率は，最適化器と学習率スケジュールの選択に大きく依存する。
- 従来の学習率スケジューリングは手動調整が必要であり，最適な設定を見つけるのが困難である。
- 理論的根拠に基づいた自動的なウォームアップ期間の選択方法を確立すること。
- 滑らかさの一般化された仮定の下で，最適化軌跡において局所的曲率が亜最適性ギャップとともに減少することを確認した。
- この仮定により，適切な学習率の選択下で，ウォームアップと減衰が経験的に自然に導かれることが示された。
- 提案手法は，LLaMAアーキテクチャを用いた大規模言語モデルの事前学習において，手動調整されたスケジューリングに匹敵するか，それを上回る性能を示した。
Link: https://arxiv.org/abs/2602.05813
ダイヤモンドマップ：確率的フローマップによる効率的な報酬整合 [cs.LG, cs.AI]目的：報酬整合の効率化
- 生成モデルの応用範囲拡大には，ユーザーの意図や制約への対応が不可欠である。
- 既存手法では，学習後の報酬整合にコストがかかり，頑健性に欠けるという課題がある。
- 推論時に任意の報酬へ迅速かつ正確に適合可能な生成モデルを開発する。
- ダイヤモンドマップは，単一ステップサンプラーで多数のシミュレーションステップを効率化する。
- この設計により，価値関数の効率的かつ一貫した推定が可能となり，探索やSequential Monte Carloがスケーラブルになる。
- 実験により，GLASS Flowsからの蒸留による効率的な学習と，既存手法を上回る報酬整合性能が示された。
Link: https://arxiv.org/abs/2602.05993
NanoQuant：大規模言語モデルの効率的な1ビット未満量子化 [cs.LG]目的：大規模言語モデルの量子化による効率的な圧縮
- 大規模言語モデルの利用拡大のため，計算資源の削減が重要である。
- 既存手法では，バイナリ量子化における高い圧縮率と精度の両立が困難である。
- バイナリおよび1ビット未満量子化による，大規模言語モデルの軽量化を実現する。
- NanoQuantは，低ランクのバイナリ因子分解を用いて，効率的な量子化を実現した。
- Llama2-70BをH100 1枚で13時間で25.8倍に圧縮し，8GBのGPUで動作可能にした。
- 低メモリ環境での量子化において，新たな性能指標を確立した。
Link: https://arxiv.org/abs/2602.06694
制約過多な環境におけるナビゲーションのための超ピクセルグラフに基づく制約緩和法SuReNav [cs.RO, cs.AI, cs.LG]目的：半静的な環境における制約過多な計画問題の解決
- ロボットナビゲーションは，自動運転やサービスロボットなど，多様な分野で不可欠な技術である。
- 従来のナビゲーション手法は，事前に定義された領域コストに依存し，汎化性能が限定される場合がある。
- 本研究は，人間のような安全かつ効率的なナビゲーションを模倣し，制約緩和によって問題を解決する。
- SuReNavは，超ピクセルグラフを用いて環境を表現し，グラフニューラルネットワークで制約緩和を行う。
- 2DセマンティックマップとOpenStreetMapの3Dマップを用いた評価で，最先端手法を上回る人間らしさを実現した。
- 実世界の都市環境における四脚ロボットSpotを用いた実験でも，スケーラビリティと汎化性能が確認された。
Link: https://arxiv.org/abs/2602.06807
T-STAR：ドック型シェアマイクロモビリティにおける短期確率需要予測のための文脈を考慮したTransformerフレームワーク [cs.LG]目的：ドック型シェアマイクロモビリティにおける15分単位の駅レベルの自転車シェア需要予測
- シェアマイクロモビリティの普及に伴い，効率的な運用と顧客満足度向上のための需要予測が重要となっている。
- 高解像度な需要予測は，需要の変動が大きく，複雑な要因に影響を受けるため困難である。
- 短期的な需要変動と長期的な傾向を分離し，リアルタイムデータを活用することで予測精度を向上させる。
- T-STARは，既存手法と比較して，決定論的および確率的な予測精度において優れた性能を示した。
- 本モデルは，駅や時間帯に関わらず，高い空間的・時間的ロバスト性を持つことが確認された。
- 再学習なしで，未学習のエリアへの転移学習が可能であることが示された。
Link: https://arxiv.org/abs/2602.06866
拡散モデルにおけるゼロショット事後サンプリングの分析と誘導 [cs.LG]目的：拡散モデルにおけるゼロショット事後サンプリングの分析と，それに基づくパラメータ設計手法
- 劣化データからの信号復元は，科学技術における長年の課題である。
- 従来の復元手法は，手動調整や経験則に依存し，最適化が困難である。
- 拡散モデルを用いた復元におけるパラメータ設定の自動化と，理論的な根拠に基づく最適化を目指す。
- 事前分布がガウス分布であると仮定することで，理想的な事後サンプラーと拡散ベース復元アルゴリズムをスペクトル領域で解析的に表現できることを示した。
- スペクトル解析に基づいたパラメータ設計フレームワークを提案し，経験則に頼らない，原理的なパラメータ選択戦略を可能にした。
- 提案手法は，事前分布，劣化信号，拡散ダイナミクスを考慮し，知覚的品質と信号忠実性のバランスを最適化するパラメータを導出する。
Link: https://arxiv.org/abs/2602.07715
ラプラシアンキーボード：線形スパンを超えて [cs.LG, cs.AI]目的：複雑な系の簡略化のためのラプラシアン固有ベクトルの応用
- 科学分野において，複雑系の解析や制御に不可欠な基礎技術である。
- 線形スパンという制約により，表現力に限界が存在する点が課題である。
- 線形スパンを超えた表現を可能にし，より効率的な制御を目指す。
- ラプラシアンキーボードは，固有ベクトルからタスクに依存しない行動ライブラリを構築する。
- メタポリシーがこれらの行動を動的に組み合わせ，線形制約外のポリシー学習を可能にする。
- 理論的な近似誤差の上限が確立され，実験的に標準的なRL手法と比較して改善が示された。
Link: https://arxiv.org/abs/2602.07730
GRAFT：生存時間分析におけるランキングとキャリブレーションの分離 [cs.LG, cs.AI]目的：生存時間分析のためのランキングとキャリブレーションの分離
- 生存時間分析は，医療や機械学習において重要な役割を担う。生存期間の予測精度向上は，治療方針決定に不可欠である。
- 従来のモデルは解釈性が高いが線形制約がある一方，深層学習モデルは柔軟だがキャリブレーションが課題となる。
- ランキングとキャリブレーションを分離し，両方の性能を向上させることを目指す。
- GRAFTは，線形AFTモデルと非線形残差ニューラルネットワークを組み合わせたハイブリッド構造を採用している。
- ランキング損失の最適化と，事後学習によるキャリブレーションにより，高い識別性能とキャリブレーションを実現した。
- 公開ベンチマークにおいて，既存手法を凌駕し，ノイズの多い環境下でも堅牢性を示す。
Link: https://arxiv.org/abs/2602.07884
自己教師ありによる行動予測型具現化推論のブートストラップ [cs.RO, cs.AI, cs.CV, cs.LG]目的：行動予測型具現化推論の自己教師ありによる改善
- 具現化されたAIは，現実世界とのインタラクションにおいて重要であり，ロボット工学や自動運転技術の発展に不可欠である。
- 既存の具現化推論手法は，固定テンプレートに依存しており，無関係な情報処理によるボトルネックが生じやすい。
- インターネット規模の知識から具現化推論を自己教師ありでブートストラップし，高品質な推論と堅牢なポリシーの構築を目指す。
- R&B-EnCoReは，外部報酬や検証器，人間による注釈なしに，具現化固有の戦略の精錬された推論訓練データセットを蒸留できる。
- 操縦タスクの成功率が28%向上，ナビゲーションスコアが101%改善，衝突率が21%減少した。
- 本手法は，手動のアノテーションエンジニアリングを回避しつつ，インターネット規模の知識を物理的な実行に結びつける。
Link: https://arxiv.org/abs/2602.08167
球状操舵：言語モデルのための幾何学的認識活性化回転 [cs.LG, cs.CL]目的：言語モデルの推論時操舵手法
- 言語モデルの制御は，多様な応用において不可欠であり，その重要性は増している。
- 従来の操舵手法は，活性化の加算に依存し，表現力の低下や生成品質の劣化を引き起こす可能性があった。
- 活性化の回転により，表現力の維持と精密な制御を両立する新たな操舵手法を提案する。
- 球状操舵は，加算ベースのベースラインと比較して，TruthfulQA，COPA，Storyclozeなどの複数選択問題において，有意に高い性能を示す。
- 提案手法は，言語モデルの一般的なオープンエンド生成能力を維持しながら，正確な推論時制御を実現する。
- 幾何学的整合性の重要性が示され，ノルム保存回転がロバストかつ効果的な制御メカニズムとなることが確認された。
Link: https://arxiv.org/abs/2602.08169
あなたの推論モデルは，いつ思考を停止すべきかを暗黙的に知っているか？ [cs.AI]目的：大規模推論モデルにおける思考停止のタイミングの暗黙的な知識の解明
- 複雑な推論タスク解決において，大規模推論モデルの能力向上が求められている。
- Long Chains of Thought (CoT)による冗長性が，計算効率とリアルタイム性能を損なっている。
- モデルが持つ思考停止のタイミングを把握し，効率的な推論を可能にすること。
- 大規模推論モデルは，思考を停止すべきタイミングを暗黙的に認識していることが判明した。
- SAGE（Self-Aware Guided Efficient Reasoning）という新しいサンプリング手法を提案した。
- SAGEを強化学習に統合したSAGE-RLは，推論の精度と効率を大幅に向上させた。
Link: https://arxiv.org/abs/2602.08354
AMS-HD：リアルタイムかつ省電力な高山病検出のための超次元計算 [cs.CL, cs.SC, cs.ET, cs.LG]目的：高山病のリアルタイムかつ省電力な検出
- 高山病は，高度順応前の人が2,500m以上の高度に上昇した際に頻発する疾患であり，健康管理上重要である。
- 従来の機械学習手法では，ウェアラブルデバイスからの生理的信号を用いたリアルタイム処理とハードウェア効率が課題となっていた。
- 本研究は，ウェアラブルデバイスと低レベルハードウェアの両方で効率的な高山病検出を実現することを目指す。
- AMS-HDは，二値分類において最大91%の精度と90%のF1スコアを達成し，SVMやMLPといった既存手法と同等またはそれ以上の性能を示した。
- FPGA上では，AMS-HDはLUTとフリップフロップの使用量をそれぞれ7.3倍，5.8倍削減し，消費電力もMLPより3.9倍低減した。
- モバイルプラットフォーム上では，AMS-HDは1回のセッションあたりわずか1%のバッテリーを消費し，SVMやMLPと比較してエネルギー消費量を大幅に削減した。
Link: https://arxiv.org/abs/2602.08916
精度を超えて：LLMの推論効率の分解 [cs.CL, cs.AI, cs.LG]目的：LLMの推論効率の分解
- LLMは高度な推論能力を持つが，その効率性は重要な課題である。
- 単一の精度スコアでは，トークン消費の有用性（推論，困難な事例からの回復，冗長性）を判断できない。
- トークン効率を正確に分解し，LLMの非効率性の原因を特定すること。
- 提案された評価プロトコルにより，completion rate，条件付き正答率，生成長という3つの指標を用いてトークン効率を分解できる。
- タスクのワークロードメタデータを用いて生成長を正規化することで，言語化のオーバーヘッドとワークロード依存性のスケーリングを分離できる。
- 14のオープンウェイトモデルと11の追加モデルの評価から，効率性とオーバーヘッドのランキングが精度ランキングよりも安定していることが示された。
Link: https://arxiv.org/abs/2602.09805
言語モデルにおけるモデル編集の逆設計 [cs.CR, cs.AI, cs.CL]目的：言語モデルの編集におけるデータ復元攻撃とその防御手法
- 大規模言語モデルは大量のデータで学習するため，機密情報を記憶してしまう可能性がある。
- モデル編集は再学習をせずにパラメータを変更するが，その過程で機密情報漏洩のリスクがある。
- モデル編集におけるパラメータ更新から編集されたデータを逆算する攻撃を防ぐ。
- 提案手法KSTERは，パラメータ更新の低ランク構造を利用し，編集されたデータを高い精度で復元する。
- パラメータ更新が編集されたデータの「フィンガープリント」をエンコードし，スペクトル分析で復元可能であることを示した。
- 更新のフィンガープリントを意味的なダミーで隠蔽する「サブスペースカモフラージュ」という防御策を提案した。
Link: https://arxiv.org/abs/2602.10134
メルトダウン：点群条件付き3D拡散Transformerにおける回路と分岐 [cs.RO, cs.LG, cs.CV]目的：点群条件付き3D拡散Transformerの不安定性とそのメカニズムの解明
- 3D表面再構成は，手術ナビゲーションや自律認識など，安全性が重要な分野で活用されている。
- 点群を入力とする3D拡散Transformerは高性能だが，現実的な入力変化に対して脆弱性を持つ。
- 入力点群のわずかな摂動が再構成結果を多数の断片に分離する「メルトダウン」現象のメカニズムを特定し，改善策を提案する。
- 点群の表面上での微小な摂動が，再構成された形状を多数の断片に分裂させる「メルトダウン」現象を確認した。
- この現象は，点群エンコーダによる表面分布の均一性の伝達と，拡散バックボーンにおける初期段階のクロスアテンションの書き込みによって引き起こされる。
- PowerRemapというテスト時制御を導入し，書き込みの特異スペクトルを再整形することで，WaLaとMake-a-Shapeでそれぞれ98.3%，84.6%の復旧率を達成した。
Link: https://arxiv.org/abs/2602.11130
知覚に基づく生成圧縮による画像ノイズ除去 [cs.CV, cs.AI]目的：知覚に基づいた画像ノイズ除去手法
- 画像処理において，ノイズ除去は画像の品質向上に不可欠であり，様々な応用分野で重要である。
- 従来の歪み駆動型手法では，特に強ノイズ下や分布シフトにおいて，過剰に平滑化された結果となりやすい。
- エントロピー符号化された潜在表現を用いて低複雑度な構造を強制し，知覚的な指標によりリアルなテクスチャを復元することを目指す。
- 生成圧縮フレームワークは，歪みと知覚のトレードオフを制御し，従来のノイズ除去手法よりも優れた結果を示す。
- 条件付きWasserstein GAN (WGAN) および拡散ベース再構成戦略により，圧縮された潜在表現を用いて反復的なノイズ除去を実現。
- 加法ガウスノイズ下における圧縮ベースの最尤推定量に対して，再構成誤差と復号誤差確率の上限を含む非漸近的保証を確立した。
Link: https://arxiv.org/abs/2602.11553
不確実な教師を信頼する：校正された不確実性による暗黙知識の蒸留 [cs.RO, cs.LG, cs.AI]目的：暗黙知識の蒸留
- 知識蒸留は教師の持つ知識を生徒に効率よく伝える手法であり，モデルの性能向上に不可欠である。
- 従来の知識蒸留では，教師が過信した予測を行うため，暗黙知識が十分に伝達されない問題がある。
- 教師の予測分布を調整し，不確実性を適切に表現することで，より効果的な知識蒸留を実現する。
- 提案手法CUDは，教師の過信を抑制し，不確実性を生徒に伝えることで，精度と校正の両立を可能にする。
- CUDは，様々なベンチマークにおいて，より高精度かつ校正された生徒モデルを生成することを示した。
- 特に，分布シフトや曖昧な入力に対する頑健性が向上し，実世界での信頼性が高まる。
Link: https://arxiv.org/abs/2602.12687
SWING：グラフの暗黙的なグラフ表現を解放するグラフランダム特徴 [cs.LG]目的：グラフランダム特徴の計算
- 機械学習において，グラフ構造データの利用が重要性を増している。
- 暗黙的なグラフ表現を持つグラフの計算効率が課題となっている。
- 暗黙的グラフ表現における計算を効率化する手法を提案する。
- SWINGは，連続空間におけるウォークを利用することで，グラフの組合せ計算を近似する。
- Gumbel-softmaxサンプリングと線形化されたカーネルを用いることで，精度と効率を両立している。
- 入力グラフの具現化を必要とせず，アクセラレータとの親和性が高い。
Link: https://arxiv.org/abs/2602.12703
アクションチャンク化フローポリシーにおけるネイティブな連続学習 [cs.CL, cs.RO, cs.AI]目的：アクションチャンク化によるVLAモデルのリアルタイム実行における，チャンク境界での不連続性の軽減
- VLAモデルをリアルタイムで動作させるためには，アクションチャンク化が不可欠である。
- 既存手法では，チャンク境界での不連続性や不要な多峰性による軌跡の滑らかさ不足が課題である。
- 学習時に連続性を考慮し，よりスムーズで効率的な行動軌跡を実現することを目指す。
- 提案手法Legatoは，行動情報を部分的に与え，ノイズからの復元を学習することで，滑らかな軌跡を実現する。
- Legatoは，学習時と推論時で一貫した復元プロセスを保証するために，学習されたフローダイナミクスを再構築する。
- 実験結果から，Legatoは既存手法RTCと比較して，軌跡の滑らかさとタスク完了時間の双方で約10%の改善を示す。
Link: https://arxiv.org/abs/2602.12978
SkillJect：スキル搭載エージェントに対するスキルベースのプロンプトインジェクションの自動化 [eess.SY, cs.SY, cs.CR, cs.AI]目的：スキル搭載エージェントシステムに対する効果的な悪意のあるスキル生成
- LLMエージェントの能力拡張にスキルが活用され，再利用性が向上している。
- モジュール化された設計が新たな攻撃対象となり，悪意のあるスキルがエージェントの行動を誘導する可能性がある。
- 既存の手動攻撃の脆弱性を克服し，自動化された攻撃手法を確立すること。
- SkillJectは，補助スクリプトにペイロードを隠蔽し，SKILL.mdを書き換えることで攻撃を行う。
- 攻撃エージェント，被害者エージェント，評価エージェントの連携により，攻撃性能を向上させている。
- 実験により，SkillJectが従来の攻撃手法を凌駕し，悪意のあるスキルが持続的な攻撃ベクトルとなることが示された。
Link: https://arxiv.org/abs/2602.14211
信号とロジットの結合拡散モデルによる共同強化と分類 [cs.LG]目的：ノイズ環境下におけるロバストな分類手法
- 機械学習において，ノイズの影響を軽減し，正確な分類を行うことは依然として重要な課題である。
- 従来の信号強化と分類は分離された段階で行われるため，分類器の出力情報を活用できていない。
- 分類器の出力と信号を同時に処理することで，分類性能の向上を目指す。
- 提案手法は，画像分類と自動音声認識の両タスクにおいて，従来の逐次的な信号強化手法を上回る性能を示した。
- 信号強化と分類器のロジットが相互に影響し合うことで，識別力の高い特徴への信号再構成を促進する。
- 分類器の再学習や微調整を必要とせず，多様なノイズ条件下で分類精度の改善を実現する汎用的な枠組みである。
Link: https://arxiv.org/abs/2602.15405
多段階多言語LLMエージェントにおける不正な支援の測定 [cs.MS, cs.CL, cs.LG]目的：LLMベースエージェントの不正利用可能性の評価
- LLMエージェントの活用が広がるにつれ，悪意ある利用に対する脆弱性評価が重要となる。
- 既存の評価は単一のプロンプトに焦点を当てており，複数ターンにわたる複雑な不正利用シナリオの測定が不足している。
- 複数ターンでの不正なタスク実行を自動的に評価し，エージェントの脆弱性を明らかにすること。
- 本研究で開発したSTINGフレームワークは，単一ターンプロンプトや従来のマルチターン対話よりも高い不正タスク完了率を示すことが明らかになった。
- 多言語評価では，低リソース言語で必ずしも攻撃成功率が向上せず，既存のチャットボット研究とは異なる傾向が示された。
- STINGは，現実的な展開環境におけるエージェントの不正利用を評価・検証するための実用的な手段を提供する。
Link: https://arxiv.org/abs/2602.16346
Transformerプログラムの合成と検証 [cs.NI, cs.ET, cs.LG, cs.FL, cs.LO]目的：Transformerプログラムの自動検証および学習手法
- Transformerモデルは自然言語処理等の分野で広く利用され，その性能向上は重要な課題である。
- Transformerプログラムの検証は困難であり，信頼性の高いプログラム開発が課題となっていた。
- C-RASPプログラムの検証・学習アルゴリズムを開発し，Transformerプログラムの信頼性向上を目指す。
- C-RASPの検証にLustreの同期データフロープログラムとの関連性に着目し，高度なSMTソルバーを活用したモデルチェッカーを適用した。
- C-RASPプログラムの学習には，局所探索に基づく新しいアルゴリズムを提案し，その有効性を実証した。
- 提案手法をTransformerプログラム最適化や部分仕様に基づいた制約付き学習に応用可能なことを示した。
Link: https://arxiv.org/abs/2602.16473
LLMエージェントにおける費用を考慮した探索：キャリブレート・ゼン・アクト [cs.CL, cs.AI]目的：LLMエージェントにおける費用と不確実性のトレードオフのバランスに関する明示的な推論
- LLMエージェントは情報獲得のために環境と相互作用するため，費用対効果を考慮した行動戦略が重要である。
- 従来のLLMエージェントは，行動に伴う費用と不確実性を十分に考慮できていない。
- 環境の状態に関する事前情報をエージェントに与えることで，より最適な意思決定を可能にすることを目指す。
- 提案手法「Calibrate-Then-Act」は，エージェントに環境の状態に関する事前情報を提供し，費用と不確実性のトレードオフを考慮した行動を促す。
- 実験結果から，CTAを適用することで，QAやファイル読み込みなどのタスクにおいて，エージェントはより最適な意思決定戦略を発見できることが示された。
- CTAは，標準的な強化学習では学習できない環境依存性をエージェントに付与し，行動を質的に変化させる。
Link: https://arxiv.org/abs/2602.16699
Conv-FinRe：実用に基づいた金融推奨のための会話型・縦断的ベンチマーク [cs.RO, cs.AI, cs.CE]目的：金融推奨におけるLLMの評価基準
- 金融アドバイスは，ユーザーの長期目標に基づいた意思決定が重要である。
- 既存のベンチマークはユーザー行動の模倣に偏っており，意思決定の質を反映していない。
- 市場の変動やユーザーの行動傾向に左右されない，合理的かつ実用的な推奨の評価を目指す。
- Conv-FinReは，市場データと人間の意思決定に基づいて構築された，会話型・縦断的なベンチマークである。
- 評価の結果，実用性に基づいたランキングで高い性能を示すモデルは，ユーザーの選択と一致しない場合が多いことが示された。
- 一方，ユーザーの行動に沿ったモデルは，短期的なノイズに過剰適合する傾向があることが明らかになった。
Link: https://arxiv.org/abs/2602.16990
ジョイントパラメータと状態空間を用いたベイジアン最適化：製造最適化の加速に向けたプロセス専門知識の活用 [cs.LG, math.OC]目的：製造プロセスの最適化
- 製造プロセスの効率化は，コスト削減や品質向上に不可欠であり，産業競争力の源泉となる。
- 高次元多段階システムでは，中間出力の活用が難しく，最適化性能が制限される。
- プロセス専門知識を活用し，高次元状態空間データを低次元特徴量に変換することで，最適化を加速する。
- 提案手法POGPN-JPSSは，バイオエタノール生産シミュレーションにおいて，最先端手法を大幅に上回る性能を示した。
- POGPN-JPSSは，目標性能水準に到達する速度が2倍となり，信頼性も向上した。
- 最適化の高速化は，時間とリソースの大きな節約につながり，プロセス成熟の迅速化に貢献する。
Link: https://arxiv.org/abs/2602.17679