arXiv雑要約

AI - 2026/05/15 公開

AMiD: α混合アシスタント分布によるLLMの知識蒸留 [cs.LG, cs.AI]目的：大規模言語モデルの知識蒸留におけるα混合アシスタント分布の提案
- 大規模言語モデルは高性能だが，計算コストとメモリ消費が課題である。
- 知識蒸留における出力分布の不安定性や，モデル間の性能差がボトルネックとなっている。
- α混合アシスタント分布を用いて，知識蒸留の性能向上と安定化を目指す。
- 提案手法AMiDは，アシスタント分布の空間を拡張し，より理論的な基盤を持つ知識蒸留を可能にする。
- 実験結果から，AMiDは既存手法と比較して，優れた性能と訓練の安定性を示すことが確認された。
- α混合アシスタント分布は，アシスタント分布の設計変数を連続的に拡張する新しいアプローチである。
Link: https://arxiv.org/abs/2510.15982
脳を見通す：fMRIによる視覚刺激デコーディングからの新たな知見 [cs.CV, cs.AI]目的：視覚情報の脳内符号化メカニズムの解明
- 神経科学と機械学習において，視覚情報処理の理解は不可欠である。
- fMRI信号からの視覚刺激再構成において，最適な潜在空間の構造が不明である。
- fMRI信号と画像再構成を結びつける中間表現の構造化が課題である。
- fMRI信号は，画像空間や画像・テキスト複合空間よりも，言語モデルのテキスト空間と類似性が高いことが示された。
- 視覚刺激の構成的性質を捉えるよう，テキスト表現と生成モデルを適応させる必要性が示唆された。
- 提案手法PRISMは，既存手法と比較して，知覚損失を最大8%削減し，優れた再構成性能を発揮した。
Link: https://arxiv.org/abs/2510.16196
エージェント型AI駆動6G自律ネットワークにおける認知バイアスのチュートリアル [cs.RO, cs.NI, cs.AI]目的：認知バイアスに関する理解と，その6Gネットワークへの対策
- 6Gでは，KPI最適化を超え，ネットワーク環境を認識・推論するシステムが求められる。
- エージェント型AIは人間の認知バイアスを受け継ぎ，判断や行動を歪める可能性がある。
- 認知バイアスの分類，定式化，対策を提示し，6Gネットワークへの応用を目指す。
- アンカリングバイアス対策として，固定的なアンカーをTruncated Weibull分布によるランダムなアンカー戦略に置き換えた。
- これにより，SLAの余裕を賢く活用し，システム全体のエネルギー消費量を最大25%削減した。
- RAN-Edge交渉におけるバイアス緩和には，意味的/時間的減衰と過去の失敗を強調するインフレーションボーナスを組み込んだ集団記憶を導入し，遅延を5倍，省エネを40%向上させた。
Link: https://arxiv.org/abs/2510.19973
ScaLoRA：効率的な高ランクファインチューニングのための最適スケーリング低ランク適応 [cs.CL, cs.LG]目的：大規模言語モデルの効率的なファインチューニング手法
- 大規模言語モデルの発展に伴い，その計算コストが課題となっている。
- 従来の低ランク適応（LoRA）は計算コストを削減するものの，性能や収束速度が制限される場合がある。
- 損失関数を最小化し，フルファインチューニングに近い性能を実現する低ランク行列のスケーリング手法を提案する。
- 提案手法ScaLoRAは，既存のLoRA手法と比較して，一貫した性能向上と高速な収束を示す。
- 最適なスケーリングは解析的に導出可能であり，効率的かつシームレスな最適化を可能にする。
- 自然言語理解，常識推論，数学の問題解決など，多様なタスクで有効性が確認された。
Link: https://arxiv.org/abs/2510.23818
GIFT：グループ相対的暗黙的微調整，GRPO，DPO，UNAを統合する [cs.LG, cs.CL]目的：大規模言語モデルのオンポリシー強化学習における報酬最大化手法の代替としての報酬マッチングの実現可能性
- 大規模言語モデルの性能向上には，人間のフィードバックを利用した強化学習が重要である。
- 従来の強化学習手法では，報酬関数の設計やハイパーパラメータの調整が困難である。
- 報酬分布のマッチングによって，パラメータ調整を自動化し，学習の安定性を高めることを目指す。
- GIFTは，DPOの暗黙的報酬における扱いにくい分割関数をzスコア標準化によって解消し，KL係数βを排除する。
- GIFTの最適解は，GRPO/RLHF解と完全に一致し，プロンプト依存の分散決定KL係数β(x)を用いる。
- 7B-32Bモデルで実験した結果，GIFTはGRPO，DAPO，GSPOよりも高速に収束し，過学習も抑制された。
Link: https://arxiv.org/abs/2510.23868
高次の線形注意機構 [cs.CL, cs.LG, cs.AI, cs.CL]目的：長文脈に対する自己回帰言語モデルのスケーラビリティ向上
- 言語モデルの性能は文脈長に依存するため，長文脈を扱えるモデルが求められている。
- 従来の注意機構は計算コストが二次関数的に増加し，長文脈の処理が困難である。
- 線形時間で計算可能な注意機構を開発し，表現力を維持しつつ計算効率を改善すること。
- 高次の線形注意機構(HLA)は，コンパクトな接頭辞十分統計を用いて高次の相互作用を実現する。
- HLAは，定数サイズの状態を維持し，n×n行列を生成することなく線形時間でトークンごとの出力を計算する。
- HLAは，注意機構のようなデータ依存混合と最新の再帰型アーキテクチャの効率性を兼ね備えている。
Link: https://arxiv.org/abs/2510.27258
ランキングから推論へ：意味的推論による説明可能なWeb API推薦 [cs.SE, cs.AI]目的：説明可能なWeb API推薦手法
- Web APIの急増により，効率的なマッシュアップ開発のための自動API推薦が不可欠となっている。
- 既存手法は，マッシュアップの複雑さに適応できない固定されたトップN推薦戦略や，透明性と信頼性を損なう説明不足という課題を抱えている。
- 本研究では，これらの課題を解決するため，意味的推論と適応的な可変カーディナリティ推薦を統合した説明可能なフレームワークを提案する。
- 提案手法WAR-R1は，軽量な大規模言語モデルを基盤とし，関連APIセットと各推薦に対する自然言語による根拠を生成する。
- ProgrammableWebデータセットにおける実験により，WAR-R1は最先端手法を最大10.89%上回り，高品質で意味的に根拠のある説明を一貫して生成することが示された。
- 強化学習，特殊トークン設計，統合された推論の有効性は，詳細な消去研究によって検証された。
Link: https://arxiv.org/abs/2511.05820
スケール不変ニューラルネットワークの定常分布は，理想気体の熱力学で記述可能か [cs.LG]目的：スケール不変ニューラルネットワークの定常分布の記述
- 深層ニューラルネットワークの学習原理の解明は，AI研究における重要な課題である。
- 学習のメカニズムが複雑であり，学習の安定性や汎化性能の理論的保証が困難である。
- 熱力学的な枠組みを用いて学習のダイナミクスを理解し，ハイパーパラメータの調整に貢献する。
- 学習率や重み減衰といったハイパーパラメータが，熱力学変数と対応することを示した。
- 簡略化されたモデルにおいて，SGDのダイナミクスと理想気体の振る舞いとの密接な対応関係を明らかにした。
- ニューラルネットワークの学習においても，定常エントロピーの振る舞いなど，フレームワークの予測が実験結果と一致することを確認した。
Link: https://arxiv.org/abs/2511.07308
大規模言語モデルにおけるペルソナロールプレイ下の道徳的感受性と頑健性 [cs.CL, cs.AI, cs.CY]目的：大規模言語モデルの道徳的判断の表現と変化の分析
- 言語モデルが社会的な文脈で利用される機会が増加しており，その道徳的側面は重要である。
- 言語モデルの道徳的判断は一貫性がなく，ペルソナによって変化しやすいという課題がある。
- 言語モデルの道徳的感受性と頑健性を定量的に評価し，ペルソナによる道徳的行動への影響を明らかにする。
- 道徳的頑健性はモデルファミリーによって大きく異なり，特にClaudeファミリーが最も頑健であった。
- 道徳的感受性は頑健性に比べて変動が小さく，モデルファミリー間の依存性は明確ではなかった。
- ペルソナロールプレイは言語モデルの道徳的行動に影響を与え，そのメカニズムの一端が明らかになった。
Link: https://arxiv.org/abs/2511.08565
距離情報付き交通シーン質疑応答 (DTPQA) [cs.CV, cs.AI]目的：ビジョン言語モデルにおける交通シーンの知覚能力の評価
- 自動運転技術の発展には，周囲状況を正確に理解する知覚能力が不可欠である。
- 既存モデルは，遠距離の物体認識において性能が低下する傾向がある。
- 距離情報を考慮した評価により，モデルの弱点を特定し改善を目指す。
- 本研究で開発したDTPQAベンチマークは，近距離だけでなく遠距離の物体認識能力を評価できる。
- DTPQAは，シミュレーションデータと実写データで構成され，多様な交通シーンを網羅している。
- データセットと生成スクリプトを公開することで，さらなる研究の発展に貢献する。
Link: https://arxiv.org/abs/2511.13397
IPR-1：インタラクティブな物理推論器 [cs.AI, cs.CV, cs.LG]目的：人間らしい物理的推論の獲得と経験による改善
- 物理法則や因果関係の理解は，知能を持つエージェントにとって不可欠な能力である。
- 既存のアプローチは，視覚的な詳細に過剰適合し，物理法則や因果関係の本質を捉えられていない。
- 物理に基づいたインタラクションを通じて，推論能力を継続的に向上させる方法を模索する。
- 提案手法IPRは，世界モデルを活用してVLMのポリシーを評価・強化することで，ロバストな推論を実現している。
- 物理を中心とした行動コードPhysCodeは，意味的な意図とダイナミクスを整合させ，予測と推論のための共通の行動空間を提供する。
- 実験結果から，訓練ゲーム数やインタラクションステップ数が増加するにつれて性能が向上し，未知のゲームへのゼロショット転移も可能であることが示された。
Link: https://arxiv.org/abs/2511.15407
説明指向マルチ目的最適化による中国語短文クリエイティブコンテンツ生成 [cs.CL, cs.AI, cs.IR, cs.MA, cs.NE]目的：中国語短文クリエイティブコンテンツ生成における複数の個別化制約と説明の信頼性
- 中国語は高度な意味の凝縮性と豊かな比喩表現を持ち，短いテキストで濃密な意味を伝える。
- 中国語短文クリエイティブコンテンツ生成では，多様な個別化制約下での検証が困難である。
- 説明を手がかりに，制約と説明の信頼性を同時に最適化する手法を提案する。
- MAGIC-HMOは，説明指向マルチ目的戦略による反復的な生成と検証を行う。
- 中国語の命名ベンチマークにおいて，MAGIC-HMOは6つの強力なベースラインを大幅に上回る性能を示した。
- 様々なLLMバックボーンで有効性が確認された。
Link: https://arxiv.org/abs/2511.15408
LLMベースのマルチエージェントシステムによるPyTorch推論の最適化 [cs.MA, cs.AI, cs.DC]目的：PyTorch推論の最適化手法
- AI推論システムの性能向上は，GPUハードウェアの効率的な活用に不可欠である。
- 既存の最適化手法は，手動でのカーネル開発や特定のGPUへの依存度が高い。
- LLMベースのマルチエージェントシステムによる自動最適化の有効性を検証する。
- マルチエージェントシステムにおける探索的戦略とエラー修正エージェントの組み合わせが最適な性能を発揮する。
- 最適化ステップの粒度が，性能と相関関係にあることが示された。
- KernelBenchを用いた評価で，PyTorch Eagerと比較して平均2.88倍，torch.compileと比較して1.85倍の高速化を達成した。
Link: https://arxiv.org/abs/2511.16964
R2PS：部分観測下における最悪ケース強靭なリアルタイム追跡戦略 [cs.RO, cs.LG]目的：部分観測下における最悪ケース強靭なリアルタイム追跡戦略の開発
- セキュリティ分野において，追跡・回避ゲームの強靭な戦略は不可欠である。
- 部分観測下でのリアルタイム追跡戦略は現状，十分なものが存在しない。
- 回避者の行動予測も考慮した，強靭なリアルタイム追跡戦略の確立を目指す。
- 提案手法R2PSは，動的計画法とbelief preservation機構を組み合わせることで，部分観測下での追跡問題を解決する。
- 最先端の強化学習フレームワークEPGにbelief preservationを組み込むことで，リアルタイム追跡ポリシーを学習する。
- 学習されたポリシーは，未知のグラフ構造に対しても頑健な汎化性能を示し，既存手法よりも高い性能を達成する。
Link: https://arxiv.org/abs/2511.17367
時系列異常検知のための評価指標の課題指向的分類 [cs.AI, cs.LG, stat.ML]目的：時系列異常検知における評価指標の分類と分析
- IoTやサイバー物理システムにおいて，時系列異常検知は重要性を増している。
- 多様な応用目的と異質な指標の仮定により，その評価は依然として困難である。
- 既存の評価指標を課題別に分類し，適切な指標選択の指針を提供する。
- 評価指標を6つの次元に分類し，それぞれの指標がどのような課題に対応しているかを明らかにした。
- 多くのイベントレベル指標は識別能力が高い一方，NABやPoint-Adjustといった指標はランダムスコアの影響を受けやすいことが示された。
- 指標の適切性は，タスクに依存し，IoTアプリケーションの運用目標と整合している必要がある。
Link: https://arxiv.org/abs/2511.18739
カリキュラムベースLLM事前学習における学習率減衰が良質なデータを無駄にする仕組み [cs.LG, cs.AI, cs.CL]目的：カリキュラムベースLLM事前学習における学習率減衰の影響の解明
- LLMの性能向上には，高品質な学習データが不可欠である。しかし，高品質データは限られている。
- カリキュラム学習は有効と考えられているが，期待されるほどの効果が得られていない。
- 学習率減衰がカリキュラム学習の効果を損なっている原因を明らかにし，改善策を提案する。
- 学習率減衰スケジュールとカリキュラム学習のデータ品質順序の不適合が，効果の低下を招いていることが示された。
- 穏やかな学習率減衰スケジュールを採用するか，モデル平均化を用いることで，この不適合を緩和できる。
- 提案手法により，ランダムシャッフルと比較して標準的なベンチマークで平均スコアが1.64%向上した。
Link: https://arxiv.org/abs/2511.18903
BRIDGE：ドメイン誘導プログラム合成における表現の構築 [cs.LG, cs.PL]目的：マルチアーティファクトプログラム合成のための構造化プロンプティングフレームワーク
- 形式検証はソフトウェアの信頼性確保に不可欠であり，その自動化が求められている。
- プログラム合成において，コード，仕様，定理，証明を整合的に扱うことが困難である。
- 異なるドメイン間の連携を強化し，形式検証の成功率向上を目指す。
- BRIDGEは，コード，仕様，定理/証明の3つのドメインを相互接続することで，Leanでの実行可能な正解率を最大1.5倍に向上させた。
- BRIDGEは，Pythonのパス率を最大17.5パーセントポイント改善する仕様指向プロンプティングの有効性を示した。
- BRIDGEスタイルの推論トレースで教師ありファインチューニングを行うと，コードのみのファインチューニングよりもLeanの成功率が約1.5倍高くなった。
Link: https://arxiv.org/abs/2511.21104
エンドツーエンド音声デコーディングのためのクロス種間ニューラル基盤モデル [cs.CE, cs.CL, cs.AI]目的：麻痺患者のコミュニケーション回復を目指す脳波からのテキスト変換
- 麻痺等により言語能力を失った人々へのコミュニケーション手段の提供が重要である。
- 従来のシステムは段階的な処理構造のため，全体の最適化が困難であった。
- 単一のニューラルネットワークで脳波から直接テキストを生成する手法を開発する。
- クロス種間事前学習されたニューラルエンコーダは，脳波データと音声データの両方で高い性能を示した。
- エンドツーエンドのBITフレームワークは，既存手法と比較して単語誤り率を大幅に低減させた。
- 試みと想像の音声埋め込みを統合することで，タスク間の汎化性能を実現した。
Link: https://arxiv.org/abs/2511.21740
fMRI-LM：言語に整合したfMRI理解のための汎用基盤モデルへ [cs.CL, cs.AI]目的：言語とfMRIの関連付けを通じた脳活動の理解
- 脳の活動と認知の繋がりを解明し，精神疾患の診断・治療に貢献する基盤技術となる。
- 脳画像と自然言語の間の橋渡しが不十分であり，脳活動の解釈に限界がある。
- fMRIと言語を繋ぐ基盤モデルを構築し，脳活動の理解を深めることを目指す。
- fMRI-LMは，fMRIデータを言語として扱えるようにトークナイザーを学習し，大規模言語モデルを活用する。
- fMRIデータをテキストに変換する大規模な記述コーパスを構築し，モデルの学習を促進する。
- 多様なベンチマークにおいて，ゼロショットおよびFew-shotで高い性能を示し，fMRI理解の新たな道を開く。
Link: https://arxiv.org/abs/2511.21760
最終層の再学習の不合理的な有効性 [cs.NI, cs.LG]目的：最終層再学習による性能改善とそのメカニズムの解明
- 機械学習モデルの公平性確保は重要であり，少数グループに対する性能向上が求められている。
- モデルが表面的な相関に依存し，少数グループの性能が低下する問題が存在する。
- 最終層再学習が少数グループの性能を向上させる理由を明らかにし，改善策を提案する。
- 最終層再学習は，ニューラル崩壊の緩和による効果よりも，保留セットにおけるグループバランスの改善に起因することが示された。
- CB-LLRやAFRなどの最近の手法は，暗黙的にグループバランスを調整することで，ロバスト性を向上させている。
- 保留セットが不均衡な場合でも，最終層再学習が少数グループの性能を向上させるという「不合理な有効性」のメカニズムが解明された。
Link: https://arxiv.org/abs/2512.01766
不確実性下における鉱物処理運転のAI駆動型最適化 [eess.SY, cs.AI, cs.SY]目的：鉱物処理運転の最適化手法
- クリーンエネルギー技術の実現に不可欠な重要鉱物の需要増加に対応するため，鉱物処理能力の増強が急務である。
- 鉱物処理の効率は，原料の変動や複雑なプロセス動特性に起因する不確実性によって大きく制限されている。
- 不確実性下での鉱物処理回路の最適化を目指し，情報収集とプロセス最適化を統合する。
- 本研究では，鉱物処理を部分観測マルコフ決定過程（POMDP）として定式化したAI駆動型アプローチを提案している。
- シミュレーションされた浮遊選鉱槽を例に，原料の不確実性とプロセスモデルの不確実性に対応できることを示した。
- 情報収集プロセスを最適化に組み込むことで，従来の方式よりも一貫して高いネット現在価値（NPV）を達成できる可能性が示された。
Link: https://arxiv.org/abs/2512.01977
交通事故予測と因果推定のためのマルチモーダル埋め込み学習 [eess.SY, cs.SY, cs.LG, cs.CV, cs.SI]目的：交通事故パターンの分析
- 交通事故は社会的な損失が大きく，その削減は重要な課題である。
- 既存研究では，道路構造に着目し，路面や周囲環境の情報が十分に活用されていない。
- 道路ネットワークと衛星画像を統合し，より高精度な予測と因果関係の解明を目指す。
- マルチモーダル学習により，グラフニューラルネットワークのみを用いる場合と比較して，予測精度が平均で3.7%向上し，AUROCは90.1%を達成した。
- 降水量の増加により交通事故発生率が24%上昇，高速道路では22%上昇，季節変動により29%上昇することが因果分析で示された。
- 正確な予測には，衛星画像の特徴が不可欠であることが検証された。
Link: https://arxiv.org/abs/2512.02920
AaSP：オーディオスペクトログラムTransformerのためのエイリアシングを考慮した自己教師あり事前学習 [cs.SD, cs.LG, stat.ML]目的：オーディオスペクトログラムTransformerの表現学習
- Transformerは音声処理において高い性能を示すが，効率的な事前学習が課題である。
- 従来のスペクトログラムを用いた学習では，エイリアシングが発生し，高周波数の情報が失われる可能性がある。
- エイリアシングの影響を抑制し，より安定した表現を獲得することを目指す。
- AaSPは，エイリアシングの影響を受けやすい周波数帯域の特徴を考慮したパッチ埋め込みモジュール（AaPE）を用いる。
- AS-20K，ESC-50，NSynthなどのベンチマークにおいて，既存の自己教師あり学習手法を上回る性能を達成した。
- AaSPは，エイリアシングに敏感な時間的摂動に対して安定した表現を学習し，下流タスクへの転移学習において競争力があることが示された。
Link: https://arxiv.org/abs/2512.03637
目標条件付き強化学習が機能する理由：双対制御との関係 [cs.HC, cs.LG, cs.AI]目的：目標状態への到達確率を最大化するエージェントの訓練
- 強化学習は，複雑な環境下での自律的な意思決定を可能にする重要な技術である。
- 従来の強化学習では，報酬設計が難しく，探索が不十分になる場合がある。
- 目標条件付き強化学習の成功要因を理論的に解明し，報酬設計の指針を示す。
- 目標条件付き報酬と古典的な報酬目標との最適性ギャップを数学的に導出した。
- 部分観測マルコフ決定過程において，状態推定と目標条件付き報酬の関連性を示した。
- 非線形かつ不確実な環境において，強化学習と予測制御の両方を用いて，目標条件付きポリシーの有効性を検証した。
Link: https://arxiv.org/abs/2512.06471
厳密な対称性よりも近似的な対称性を達成する方が指数関数的に容易である [cs.LG, cs.AI]目的：厳密な対称性と近似的な対称性のコストに関する比較
- 機械学習モデルにおいて対称性を利用することで，科学的応用において大幅な改善が見込まれる。
- 厳密な対称性に依存する手法は柔軟性や頑健性に課題がある場合がある。
- 厳密性と近似性のコストの違いを定量的に評価し，近似対称性の優位性を理論的に示す。
- 本研究では，対称性を平均化によって強制するコストを定量化する「平均化複雑性」を導入した。
- 標準的な条件下では，厳密な対称性には線形的な平均化複雑性が必要となるのに対し，近似的な対称性には対数的な複雑性で済むことが示された。
- これは，近似的な対称性が実用上好ましい場合があることを裏付ける初の理論的根拠である。
Link: https://arxiv.org/abs/2512.11855
Do-Undoベンチ：画像生成における行動理解のための可逆性 [cs.CV, cs.LG]目的：画像生成における行動理解のための可逆性評価
- 現実世界の行動を理解し，再現する能力は，AIの汎用的な知能にとって不可欠である。
- 既存の画像生成モデルは，行動の因果関係を正確に理解しているとは言えず，表面的・意味的な編集に留まる場合が多い。
- 現実世界の行動とその逆をシミュレーションすることで，行動理解の真の度合いを評価する。
- Do-Undoタスクとベンチマークを導入し，視覚言語モデルの行動理解と生成能力を評価する。
- 現在のモデルは行動の可逆性において課題を抱えており，因果関係の理解が不十分であることが示された。
- Do-Undoベンチマークは，現実世界のダイナミクスを推論するマルチモーダルシステムの進歩を促進する。
Link: https://arxiv.org/abs/2512.13609
大規模言語モデルの1ビット後学習量子化における出力アラインメントの再考 [cs.LG]目的：大規模言語モデルの1ビット後学習量子化における性能向上
- 大規模言語モデルは高性能だが，サイズが大きいため，リソース制約のある環境での展開が課題。
- 量子化はモデル圧縮に有効だが，特に1ビット量子化は性能維持が困難。
- 出力アラインメントの課題を解決し，1ビット量子化の性能を改善すること。
- 本研究では，1ビット量子化における出力駆動型アプローチの失敗が，層間での誤差蓄積と表現空間の異方性歪みによるものであることを示した。
- これらの知見に基づき，これらの問題を明示的に解決する新しい後学習量子化手法を提案。
- 実験の結果，提案手法は既存の1ビット後学習量子化手法を安定的に上回る性能を示した。
Link: https://arxiv.org/abs/2512.21651
LangPrecip：言語認識型マルチモーダル降水ナウキャスト [cs.LG, cs.AI, cs.CV]目的：降水ナウキャストにおける言語認識による意味的制約の導入
- 短時間降水ナウキャストは，急速に変化する極端な気象現象において，予測が困難な分野である。
- 既存の手法は主に視覚情報に依存しており，将来の動きの制約が弱く曖昧になりがちである。
- 気象テキストを意味的な動きの制約として利用し，物理的に整合性のある予測を目指す。
- 提案手法LangPrecipは，Rectified Flowパラダイムに基づき，テキストとレーダー情報を効率的に統合する。
- LangPrecip-160kという大規模なマルチモーダルデータセットを新たに構築した。
- スウェーデンとMRMSデータセットでの実験により，最先端手法と比較してCSIが大幅に向上した。
Link: https://arxiv.org/abs/2512.22317
MRIラディオミクスにおけるマルチビューパラダイムシフト：グリオブラストーマにおけるMGMTメチル化予測 [cs.CV, cs.AI]目的：グリオブラストーマにおけるMGMTプロモーターメチル化状態の予測
- グリオブラストーマ治療において，MGMTメチル化状態は予後や治療効果に重要な影響を与えるため，非侵襲的な予測が重要である。
- 従来のラディオミクスアプローチは，特徴量の冗長性やモダリティ固有情報の不完全なモデリングにより，予測性能が制限される場合がある。
- 本研究は，異なるMRIモダリティ情報を効果的に統合し，MGMTメチル化状態の予測精度向上を目指す。
- 提案手法であるマルチビューVAEとランダムフォレスト分類器の組み合わせは，テストAUCにおいて0.77という良好な結果を示した。
- これは，ベースラインモデル（AUC = 0.54）やハイパーパラメータ調整モデル（AUC = 0.64）を大幅に上回る性能である。
- マルチビュー確率的エンコーディングが，相補的なMRI情報の統合を促進し，予測性能の向上に貢献していることが示唆される。
Link: https://arxiv.org/abs/2512.22331
長さシフト対策：効率的な推論モデル学習のための動的外れ値切捨て [cs.CL, cs.CL, cs.AI, cs.CL]目的：効率的な推論モデルの学習
- 大規模言語モデルの推論能力は重要であり，複雑な問題を解決する上で不可欠である。
- 推論モデルは冗長な出力を生成しやすく，その結果，計算コストが増大する。
- 冗長なトークンを抑制し，推論効率と性能のバランスを改善すること。
- 本研究では，モデルが単純な入力に対して不要な推論を生成する「長さシフト」と呼ばれる現象を特定した。
- 動的外れ値切捨て（DOT）を導入し，学習時に冗長なトークンを選択的に抑制することで，推論効率を向上させた。
- AIME-24の実験結果から，推論トークン使用量を78%削減し，同時に精度を向上させることが示された。
Link: https://arxiv.org/abs/2601.03969
1-識別問題におけるサンプル複雑性のギャップの解消 [cs.MA, eess.SY, cs.SY, cs.LG]目的：1-識別問題における期待サンプル数の最小化
- マルチアームバンディット問題は，探索と活用のバランスが重要であり，意思決定に応用される。
- 1-識別問題のサンプル複雑性解析は未解決の課題が多く，効率的なアルゴリズムが求められている。
- 最適なアルゴリズム設計のため，サンプル複雑性の理論的限界を明確にすること。
- 少なくとも1つの最適なアームが存在する場合，期待サンプル数に関する新たな下限を導出した。
- 提案アルゴリズムは，下限と一致する上限を多項式対数因子まで実現した。
- 複数の最適なアームが存在する場合の期待サンプル数解析は未解決の課題として残る。
Link: https://arxiv.org/abs/2601.15620
ポリマー設計関連タスクにおけるLLMの教育と評価 [cs.CL, cs.AI]目的：ポリマー設計に関連するタスクに対するLLMの教育と評価
- 科学研究へのAIの応用は多岐に渡り，特に新素材開発への貢献が期待されている。
- 既存のLLMは，ポリマー固有の知識が不足しており，ポリマー設計に必要な能力も限定的である。
- ポリマー設計におけるLLMの能力向上を目指し，知識と推論能力を強化する。
- PolyBenchと呼ばれる大規模なデータセットを構築し，ポリマー設計に関する125K以上のタスクを網羅した。
- 知識拡張型蒸留法を導入し，PolyBenchを用いたLLMの性能向上を実現した。
- 7Bから14BパラメータのSLMは，PolyBench上で同規模モデルを凌駕し，最先端のLLMと競合できる性能を示した。
Link: https://arxiv.org/abs/2601.16312
OPT-Engine：最適化モデリングにおけるLLMの限界を複雑度スケーリングで評価 [cs.CL, cs.AI, cs.LG]目的：最適化モデリングにおける大規模言語モデル（LLM）の能力とスケーラビリティの評価
- 最適化は，効率的な資源配分や意思決定に不可欠であり，多くの分野で重要な役割を担う。
- 従来の最適化モデリングは専門知識を必要とし，自動化が困難であるという課題があった。
- LLMによる最適化モデリングの自動化における限界を明らかにし，今後の開発の方向性を示す。
- 純粋なテキスト推論（PTR）は，タスクの複雑性が増すと堅牢性に欠け，最適化タスクへの適用が困難であることが示された。
- 外部計算ツールを統合しても，局所的な計算は改善されるものの，全体的な最適化制約の遵守には至らないことが明らかになった。
- 現在の最先端パラダイムであるソルバー統合推論（SIR）において，制約の自動定式化が主要なボトルネックとなっていることが特定された。
Link: https://arxiv.org/abs/2601.19924
MAPLE：自己教師あり学習による非線形次元削減と可視化分析 [cs.LG, cs.HC]目的：視覚的分析のための非線形次元削減手法
- 高次元データの可視化は，データ理解において重要である。複雑な構造を把握するには，次元削減が不可欠。
- 従来の次元削減手法では，複雑な多様体構造を捉えきれず，クラスタ間の分離が不明瞭になる場合がある。
- MAPLEは，多様体構造のモデリングを改善し，より鮮明な可視化と微細なクラスタ構造の解明を目指す。
- MAPLEは，UMAPを拡張し，自己教師あり学習を用いて低次元多様体幾何学を効率的にエンコードする。
- MMCRs（最大多様体容量表現）を用いることで，類似データ点間の分散を圧縮し，異なるデータ点間の分散を増幅することで，複雑な多様体を解きほぐす。
- 実験結果から，MAPLEはUMAPと比較して，より鮮明なクラスタ分離と微細なサブクラスタ分解能を実現することが示された。
Link: https://arxiv.org/abs/2601.20173
学習によるアドベクション：天気予報のためのニューラル準ラグランジュアーキテクチャ [cs.LG, physics.ao-ph]目的：天気予報のためのニューラル準ラグランジュアーキテクチャの開発
- 気象予報は，社会インフラや防災において不可欠であり，その精度向上は重要である。
- 従来の機械学習アプローチでは，物理過程を単一のネットワークで暗黙的に表現するため，計算コストが高い。
- アドベクション（長距離輸送）の計算コストを削減し，より効率的な天気予報モデルを構築すること。
- PARADISは，アドベクション，拡散，反応のブロックに機能分解することで，物理に基づいたグローバル天気予報モデルである。
- ニューラル準ラグランジュ演算子を用いることで，潜伏変数の輸送と特性軌跡の学習を可能にした。
- ERA5ベンチマークにおいて，PARADISは競争力のある予測精度を示し，特に短期予報で高い性能を発揮した。
Link: https://arxiv.org/abs/2601.21151
エンティティアラインメント基盤モデルにおける推論の限界突破 [cs.LG]目的：知識グラフ融合のためのエンティティアラインメント
- 知識グラフは多様な情報を構造化して表現し，AI分野における重要な基盤技術である。
- 既存のエンティティアラインメントモデルは汎用性が低く，未知の知識グラフへの対応が困難である。
- 本研究は，長距離依存性を捉え，未知の知識グラフへの適応を可能にするエンティティアラインメント基盤モデルを提案する。
- 提案手法では，シードとなるエンティティペアを局所的なアンカーとして活用し，情報伝達を誘導する並列エンコーディング戦略を用いる。
- これにより，推論経路を短縮し，局所的な構造的近接性を活用することで，効率的なエンティティアラインメントを実現する。
- 実験結果から，提案手法は未知の知識グラフに対しても高い汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2601.21174
L2R：混合エキスパートのための低ランク・リプシッツ制御ルーティング [cs.LG, cs.AI]目的：混合エキスパートモデルにおけるルーティングの改善
- 近年，ニューラルネットワークの規模拡大において，混合エキスパートモデルが有効である。
- 従来のルーティング手法では，表現の不一致や角度の集中，スケール依存性などが課題となっていた。
- ルーティング空間とスコアリング幾何学を再構築し，ルーティングの識別性と安定性を向上させる。
- 提案手法L2Rは，共有された低ランク潜在ルーティング空間で専門家の割り当てを行う。
- SIPS(Saturated Inner-Product Scoring)を導入することで，ルーティング関数のリプシッツ行動を制御し，より安定したルーティング幾何学を実現する。
- OLMoEやImageNetを用いた実験で，ルーティング幾何学，専門家の識別力，全体的なモデル性能が向上することが示された。
Link: https://arxiv.org/abs/2601.21349
TabClustPFN: 表形式データのクラスタリングのための事前学習済みネットワーク [cs.LG]目的：表形式データのクラスタリング手法
- 表形式データは広く存在する。効率的なクラスタリングはデータ活用において重要である。
- データ型が多様であり，データ生成メカニズムも様々であるため，クラスタリングは難しい。
- 事前学習を通じて汎化性能を高め，データセット固有の調整を不要にすることを目指す。
- TabClustPFNは，柔軟なクラスタリング事前分布から生成された合成データセットで事前学習を行う。
- 未知のデータセットを再学習やハイパーパラメータ調整なしに，単一のフォワードパスでクラスタリングできる。
- 合成データと実世界のベンチマークにおいて，既存手法を上回り，探索的な設定においても高い頑健性を示す。
Link: https://arxiv.org/abs/2601.21656
E-mem：LLMエージェントメモリのためのマルチエージェント型エピソード的文脈再構築 [cs.AI]目的：LLMエージェントのメモリにおけるエピソード的文脈再構築
- LLMエージェントが高度な推論能力を持つためには，長期的な文脈の維持が不可欠である。
- 従来のメモリ前処理は文脈を損ない，深い推論を妨げるという課題があった。
- 文脈を維持しながらメモリを活用し，LLMエージェントの推論能力を向上させる。
- E-memは，複数の補助エージェントが非圧縮の文脈を維持し，マスターエージェントが計画を調整する仕組みを提案する。
- LoCoMoベンチマークにおいて，E-memはF1スコアで最先端のGAMを7.75%上回り，54%以上の性能を達成した。
- E-memはトークンコストを70%以上削減し，効率的なメモリ管理を実現した。
Link: https://arxiv.org/abs/2601.21714
LoRIF：スケーラブルな訓練データ帰属のための低ランク影響関数 [cs.LG]目的：モデルの予測に最も影響を与えた訓練事例の特定
- 機械学習モデルの解釈可能性向上は，信頼性と安全性の確保に不可欠である。
- 大規模データセットにおける影響関数法の計算コストが課題となっていた。
- 低ランク構造を利用し，メモリ効率と計算速度を改善することを目指す。
- LoRIFは，既存手法と比較して最大20倍のストレージ削減とクエリ時間高速化を実現した。
- LoRIFは，大規模モデル（0.1B〜70Bパラメータ）における訓練データ帰属を現実的に可能にした。
- LoRIFは，帰属の品質を維持しつつ，スケーラビリティと効率性を向上させた。
Link: https://arxiv.org/abs/2601.21929
ニューラル信号が臨床記録を生成 [cs.LG, cs.AI, eess.SP]目的：臨床記録の自動生成
- 脳波検査は，神経疾患の診断に不可欠であり，その解釈には専門知識が求められる。
- 長時間の脳波記録から臨床所見をまとめる作業は，時間と労力を要する。
- 脳波データから臨床記録を自動生成することで，診断支援の効率化を目指す。
- CELMは，長時間の脳波記録を要約し，多段階の臨床報告を生成する最初の臨床用脳波-言語ファウンデーションモデルである。
- 実験の結果，CELMはあらゆる評価設定において既存の手法を上回る性能を示した。
- 臨床専門家による評価では，CELMが生成する報告は臨床的に一貫性があり，診断的信頼性が高く，専門家の解釈により近いことが示された。
Link: https://arxiv.org/abs/2601.22197
スプラインフロー：Bスプライン補間を用いた力学系のフローマッチング [cs.LG]目的：力学系におけるフローマッチング手法
- 連続正規化フローは多様な応用を持つ汎用的な生成モデルであるため，その性能向上は重要である。
- 既存手法は，線形補間しか扱えないため，複雑な力学系の状態遷移を捉えるのが困難である。
- Bスプライン補間を用いることで，安定かつ滑らかな状態遷移を学習し，複雑な力学系をモデル化する。
- スプラインフローは，Bスプライン基底の滑らかさと安定性を利用し，観測データ間の条件付きパスを構造的に学習する。
- 様々な決定論的および確率的力学系，細胞軌跡推論タスクにおいて，既存手法を上回る性能を示す。
- 多次元制約を満たしつつ，高次の動力学を不規則にサンプリングされた観測データから学習できる。
Link: https://arxiv.org/abs/2601.23072
NEST：多重集合系列のためのネストされたイベントストリーム変換器 [cs.LG]目的：多重集合系列のイベントストリームデータに対する新たなファウンデーションモデルの構築
- イベントストリームは医療記録など多くの分野で出現し，時系列データの解析に不可欠である。
- 従来のモデルは階層構造を無視し，計算効率や表現の質が低下する問題があった。
- イベントストリームの階層構造を維持することで，効率と表現品質の向上を目指す。
- NESTは，多重集合系列からなるイベントストリームを処理する新しいファウンデーションモデルである。
- マスクドセットモデリング（MSM）という効率的な学習パラダイムを導入し，セットレベル表現の学習を促進する。
- 実際のデータを用いた実験により，NESTが効率性と下流タスクの性能を向上させることが示された。
Link: https://arxiv.org/abs/2602.00520
時系列異常検知のためのパッチベース表現学習 (PaAno) [cs.RO, cs.LG, cs.AI]目的：時系列異常検知のための表現学習手法
- 時系列データは様々な分野で活用されており，異常検知は重要な課題である。
- 大規模なニューラルネットワークは計算コストが高く，リソース制約のある環境での利用が困難である。
- 軽量かつ効率的な時系列異常検知手法を開発し，高性能を実現することを目指す。
- 提案手法PaAnoは，TSB-ADベンチマークにおいて最先端の性能を達成した。
- 単変量および多変量時系列異常検知の両方で，既存の手法を大きく上回る結果が得られた。
- 特に，重いアーキテクチャに基づいた手法と比較して，顕著な性能向上を示した。
Link: https://arxiv.org/abs/2602.01359
FlowSteer：エージェントによるエージェント的ワークフロー設計に向けた強化プログレッシブキャンバス編集 [cs.AI, cs.LG]目的：エージェント的ワークフローの設計
- 複雑な人間タスクを解決するため，エージェント的ワークフローの応用が広がっている。
- ワークフロー構築には，人間依存性，グラフレベルの実行フィードバックの欠如，および長期的な構築中のエラー修正の困難さがある。
- エージェント自身によるワークフロー設計を実現し，これらの問題を解決することを目指す。
- FlowSteerは，エージェントがエンドツーエンドでワークフローを設計する新しいパラダイムを提案する。
- ワークフローキャンバスは，構文チェック済みの実行フィードバックを提供する実行可能なグラフ状態環境である。
- 強化プログレッシブキャンバス編集により，リアルなキャンバスフィードバックに基づき，軽量なポリシーエージェントがアトミック編集を行う。
Link: https://arxiv.org/abs/2602.01664
双曲グラフニューラルネットワークの検証：幾何学的構造とタスクの整合性の役割 [cs.LG]目的：双曲グラフニューラルネットワークの性能に影響を与える幾何学的構造とタスクの整合性
- 複雑なネットワークは階層構造を持つことが多く，双曲空間はそれらの表現学習に適している。
- 双曲グラフニューラルネットワークの利点が，どのような場合に発揮されるか不明確であった。
- タスクが双曲幾何学と整合するかどうかが，HGNNの性能に影響を与えることを明らかにする。
- HGNNは，回帰問題において低歪み表現を復元できることが理論的・実験的に示された。
- HGNNは，幾何学的構造を保持する必要がある問題で有利に働くが，標準的なノード分類では優位性は薄れる。
- タスクと双曲幾何学が整合する場合にHGNNがユークリッドモデルを上回り，整合しない場合は優位性が消失する。
Link: https://arxiv.org/abs/2602.01828
LLM推論における中間ステップの不確実性のより良い表現：埋め込み摂動 [cs.LG]目的：LLM推論における中間ステップの不確実性をより良く反映する尺度に関する研究
- LLMは多様な分野で飛躍的な進歩を遂げているが，信頼性や正確性に課題が残る。
- LLMの出力の信頼性を確保するためには不確実性評価が重要だが，推論の中間ステップにおける不確実性の評価は困難である。
- 中間ステップの不確実性を正確に評価し，より詳細な介入を可能にすることを目指す。
- 埋め込みの摂動に対する感度が高いトークンは，誤った推論ステップに多く含まれることが示された。
- この感度スコアを用いることで，不確実な（可能性のある誤りを含む）中間ステップを特定できる。
- 摂動に基づく尺度は，確率ベース，サンプリングベース，ベイズベースの手法と比較して，より高い不確実性評価性能を示す。
Link: https://arxiv.org/abs/2602.02427
効率的な多段階LLM対話のための動的混合精度ルーティング [cs.AI]目的：大規模言語モデルを用いた多段階対話における効率化
- 長期的な意思決定タスクにおいて，LLMの性能が重要視されている。
- 高性能なLLMは推論コストが高く，実用上の課題となっている。
- 各対話ステップの重要度に応じて精度を動的に切り替えることで，コスト削減を目指す。
- 提案手法であるDMRは，高精度LLMと低精度LLMを各ステップで適応的に選択する。
- DMRは，KL divergenceに基づく教師あり学習とGRPOを用いてルーターを学習する。
- ALFWorldとWebShopでの実験により，精度とコストのトレードオフが確認された。
Link: https://arxiv.org/abs/2602.02711
確証的思考：計算予算におけるリスク制御 [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルの推論におけるリスクと精度のトレードオフ
- 大規模言語モデルの性能向上には計算資源が不可欠であり，効率的な利用が重要である。
- 計算予算と精度のバランスが難しく，過剰な計算資源の消費が問題となっている。
- リスクを管理しつつ，計算資源を最適化する手法の開発が求められている。
- 本研究では，リスク制御の枠組みを導入し，エラー率を抑制しつつ計算量を最小化することに成功した。
- 特に，モデルの確信度に基づいた停止メカニズムと，解けない問題を早期に特定するメカニズムが有効であることが示された。
- 多様な推論タスクとモデルにおいて，本手法が計算効率の向上とリスク目標の達成に貢献することが確認された。
Link: https://arxiv.org/abs/2602.03814
人間に着想を得た報酬設計によるLLMの推論能力向上 [cs.LG, cs.AI]目的：大規模言語モデルの推論能力向上
- LLMは多様なタスクで高い性能を示すが，複雑な推論が必要な場面で課題が残る。
- 従来の強化学習では，探索と熟練の段階が混同され，学習効率が低下しやすい。
- 人間のように，未熟な課題への探索と熟達した課題への凝縮を区別する学習方法をLLMに導入する。
- 提案手法T2Tは，誤答時には探索を促す「thickening」，正答時には簡潔性を重視する「thinning」の二段階メカニズムを用いる。
- 数学ベンチマークにおいて，T2Tは既存のGRPOや他の手法を大幅に上回り，性能向上を実証した。
- T2Tは5つの主流LLMで有効であり，モデルの自信と推論能力の結晶化を促進する。
Link: https://arxiv.org/abs/2602.04265