arXiv雑要約

AI - 2026/02/05 公開

深層学習と衛星画像を用いた紛争関連火災のほぼリアルタイム検出 [cs.CV, cs.AI]目的：紛争関連火災被害の迅速なモニタリング
- 紛争地域における被害状況把握は，人道支援や復興計画の策定において不可欠である。
- 従来の被害状況把握は時間とコストがかかり，迅速な対応が困難であった。
- 深層学習と衛星画像により，高頻度かつリアルタイムな火災検知を可能にすることを目指す。
- 本研究では，軽量なVAEモデルとPlanet Labsの4バンド衛星画像を組み合わせることで，紛争関連火災をほぼリアルタイムに検出する手法を開発した。
- 提案手法は，既存のコサイン距離を用いた手法と比較して，高い再現率とF1スコアを達成し，特に火災検出の偏りが大きい状況下で優れた性能を示した。
- 8バンド画像や時間系列画像を用いた実験では，4バンド画像を用いた手法と比較して，性能向上は限定的であり，提案手法の効率性とスケーラビリティが示された。
Link: https://arxiv.org/abs/2512.07925
ユーザフィードバック駆動によるビジョンと言語ナビゲーションの適応 [cs.AI]目的：ビジョンと言語ナビゲーションエージェントの適応手法
- 実世界での利用が課題であり，オフライン学習後の信頼できる教師データの不足が問題となっている。
- 環境主導の自己教師学習はノイズが多く，長期的な意思決定で誤りを増幅させる可能性がある。
- ユーザからのフィードバックを活用し，指示との乖離を直接修正することで，ロバストな適応を目指す。
- ユーザフィードバックを主要な教師信号とすることで，環境主導型ベースラインを安定的に上回る性能を示す。
- トポロジーを意識した軌跡構築パイプラインにより，疎なフィードバックを密な学習信号に変換し，サンプル効率を高めている。
- 過去に獲得したトポロジーや表現の再利用を可能にする永続的なメモリバンク機構を開発した。
Link: https://arxiv.org/abs/2512.10322
非同期推論：学習不要のインタラクティブ思考LLM [cs.LG, cs.CL]目的：リアルタイムな応答と適応を可能にするLLMエージェントの実現
- LLMの性能向上には推論が不可欠だが，リアルタイムなインタラクションとの両立が課題である
- 従来のLLMは逐次的な処理のため，新たな入力に対してリアルタイムで応答・適応することが難しい
- 位置埋め込みの特性を利用し，LLMに同時並行的に思考，傾聴，出力を行う能力を付与する
- 本手法により，数学，常識，安全性に関する推論において，正確な思考を伴う回答を生成可能となった
- 最初の非思考トークンまでの時間と全体的なリアルタイム遅延を大幅に削減することに成功した
- 遅延は最大で12倍削減され，5秒以下の応答が可能となった
Link: https://arxiv.org/abs/2512.10931
帯域幅制約下における協調型マルチエージェント強化学習のための変分メッセージ符号化 [cs.LG, cs.MA]目的：帯域幅制約下での情報伝達内容の最適化
- マルチエージェント強化学習は，部分観測下での協調行動を可能にする重要な研究分野である。
- 既存手法は通信相手の選択に注力するが，限られた帯域幅下での情報伝達内容の最適化は未解決の課題である。
- 本研究は，限られた帯域幅下で協調性能を維持・向上させるための効率的なメッセージ符号化手法を提案する。
- 提案手法であるBVMEは，メッセージを学習されたガウス分布からのサンプルとして扱い，KLダイバージェンスによる正則化を行う。
- 実験結果から，BVMEはメッセージ次元数を67-83%削減しつつ，既存手法と同等またはそれ以上の性能を達成することが示された。
- 特に疎なグラフ構造において，メッセージ品質が協調行動に大きく影響する場合に，BVMEの有効性が確認された。
Link: https://arxiv.org/abs/2512.11179
スライスReLUアテンション：ソートによる準線形文脈表現力 [cs.LG]目的：準線形アテンションメカニズムの開発
- 自然言語処理において，文脈理解は重要な課題である。長文脈を効率的に処理する機構が求められている。
- 従来のsoftmaxアテンションは計算コストが高く，長文脈への適用が困難である。近似手法も課題が残る。
- ソートを用いた新しいアテンションメカニズムを開発し，計算効率と表現力を両立させる。
- スライスReLUアテンションは，softmaxアテンションやその近似手法とは異なる構造を持つ。
- 本手法は，O(n log(n))の計算量で計算可能であり，長文脈処理に適している。
- スライスReLUアテンションは，softmaxアテンションと同等の文脈表現力を持つことが理論的に証明された。
Link: https://arxiv.org/abs/2512.11411
重み空間相関分析：深層学習モデルにおける特徴利用量の定量化 [cs.CV, cs.LG, eess.IV]目的：深層学習モデルにおける特徴利用量の定量化
- 医療画像における深層学習は進歩するが，モデルの判断根拠の透明性が課題。
- モデルが臨床的に無関係な情報に依存し，ショートカット学習を起こしやすい。
- モデルが臨床的に重要な特徴を選択的に利用しているか検証する手法が求められる。
- 提案手法である重み空間相関分析は，ショートカット学習を人工的に誘導した場合に検出できることが示された。
- sPTB予測モデルの分析により，重みベクトルは臨床的に関連する要因と相関し，無関係な取得要因からは分離されていることが確認された。
- 本手法はモデルの信頼性を検証するツールとなり，バイアスのない臨床モデルが適切な特徴を利用することを示す。
Link: https://arxiv.org/abs/2512.13144
情報理論的圧縮による適応型離散動画トークナイザー：InfoTok [cs.RO, cs.CV, cs.AI]目的：長動画シーケンス処理のための正確かつ効率的な離散動画トークナイゼーション
- 動画データは情報量が膨大であり，効率的な処理が求められている。
- 既存のトークナイザーは固定レートで圧縮するため，冗長性や情報損失が生じやすい。
- 動画の情報密度に応じてトークン数を最適化し，より効率的な表現を目指す。
- 提案手法InfoTokは，情報理論に基づき，動画の情報を効率的に圧縮する適応型トークナイゼーションを実現した。
- 既存手法よりも20%トークン数を削減しつつ，性能に影響を与えない，あるいは，2.3倍の圧縮率を達成した。
- 情報量の多さに応じてトークンを割り当てることで，動画表現の圧縮と精度向上を両立した。
Link: https://arxiv.org/abs/2512.16975
局所学習と異種エージェントを持つ連合型SARSAの収束性保証 [cs.LG, stat.ML]目的：連合型SARSAの収束性
- 機械学習における分散型学習の重要性が増しており，プライバシー保護と計算資源の有効活用が求められている。
- 連合型学習では，エージェント間のデータの不均一性や報酬の差異が収束性を阻害する課題がある。
- 異種エージェント環境下における連合型SARSAの収束性を理論的に保証し，実用的な性能を評価すること。
- 本研究では，線形関数近似と局所学習を用いる連合型SARSAに対し，異種性下での収束性保証を確立した。
- エージェント数に対する線形な高速化が，マルコフサンプリングの影響を受ける範囲内で示された。
- 単一エージェントSARSAに対する新たな多段階誤差展開を導出し，その理論的結果を数値実験によって検証した。
Link: https://arxiv.org/abs/2512.17688
DIVER-1：大規模脳波記録の深層統合 [cs.LG, cs.AI]目的：脳波信号の異質性を統合する汎用モデルの構築
- 脳機能解明には，大量の脳波データの解析が不可欠である。
- 脳波データは多様性が高く，効率的なモデル構築が困難である。
- データ規模と学習時間を最適化することで，高性能なモデルを開発する。
- 脳波解析において，データ規模が性能を大きく左右し，学習時間，パラメータ数に次ぐ重要性を持つことが示された。
- DIVER-1は，59.3千時間の脳波データを用いて学習された，最大規模かつ多様なモデルファミリーである。
- 既存のベンチマークにおいて，DIVER-1は最先端の性能を達成し，今後の神経AIシステム開発の指針を提供する。
Link: https://arxiv.org/abs/2512.19097
制約付きアップリフトターゲティング：マーケティング戦略のための因果最適化プレイブック [cs.LG, stat.ME]目的：顧客ターゲティングの最適化
- マーケティング戦略において，顧客への適切なアプローチは収益向上に不可欠である。
- 従来のターゲティング手法では，因果効果を正確に捉えきれていない場合がある。
- 収益，予算，顧客体験などの制約下での最適ターゲティング手法を確立すること。
- 本研究では，アップリフト学習とビジネス上の制約を組み合わせた意思決定フレームワークを提案する。
- オフラインシミュレーションとオンラインA/Bテストの結果，既存手法よりも優れた効果が確認された。
- 本フレームワークは，大規模な因果ターゲティングを可能にする再利用可能なプレイブックを提供する。
Link: https://arxiv.org/abs/2512.19805
エージェント型説明可能な人工知能によるより良い説明の探求 [cs.AI, cs.HC]目的：説明の質向上
- AIの信頼性は重要であり，その判断根拠の説明可能性が求められている。
- XAIの説明は専門的で理解しにくく，一般層への伝達が課題となっている。
- エージェント型AIとXAIを融合させ，説明の質を反復的に改善することを目指す。
- 本研究で提案するフレームワークは，SHAP値に基づく説明可能性とマルチモーダルLLMによる反復的な改良を組み合わせる。
- 水稲収量データを用いた農業推薦システムでの検証により，説明の質が平均30-33%向上することが確認された。
- 過剰な改良は推薦品質の低下を招き，早期停止の重要性を示唆している。
Link: https://arxiv.org/abs/2512.21066
オープンソースのマルチモーダルMoxinモデル：Moxin-VLMとMoxin-VLA [cs.CL, cs.CV, cs.LG]目的：大規模言語モデルの透明性と活用範囲の拡大
- 近年のAI分野において，大規模言語モデルは急速に発展しており，その重要性は増している。
- 商用モデルの台頭により，研究の透明性や再現性が課題となっている。
- 完全な透明性を備えたオープンソースモデルを開発し，研究コミュニティに貢献すること。
- Moxin 7Bは，モデルの重みだけでなく，学習データや実装詳細も公開するModel Openness Frameworkに基づいて開発された。
- Moxinをベースに，視覚-言語，視覚-言語-行動，中国語能力に特化したMoxin-VLM，Moxin-VLA，Moxin-Chineseを開発した。
- 各種評価において，これらのモデルが優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2512.22208
高周波・多重スケール偏微分方程式解法のためのコルモゴロフ・アーノルド・ネットワークと動的適応重み付けの相乗効果 [cs.LG, cs.AI]目的：高周波かつ多重スケールな偏微分方程式の解法
- 科学計算において，物理法則を組み込むことで精度向上が期待される。
- 従来のPINNsは，高周波・多重スケール問題で勾配消失やスペクトルバイアスが生じやすい。
- 勾配関連の問題を軽減し，関数表現のボトルネックを克服する。
- 提案手法DBAW-PIKANは，既存モデルと比較して収束を加速し，解精度を少なくとも1桁向上させる。
- DBAW-PIKANは，クライン・ゴルドン，バーガース，ヘルムホルツ方程式の数値実験において，優れた精度と汎化性能を示す。
- 動的適応重み付け機構と上限制約により，勾配に関する失敗モードを効果的に軽減する。
Link: https://arxiv.org/abs/2512.22283
AI生成コードはまだ再現性がない：LLMベースのコーディングエージェントにおける依存関係のギャップに関する実証研究 [cs.SE, cs.AI, cs.MA]目的：LLMベースのコーディングエージェントが生成するコードの再現性
- ソフトウェア開発の効率化が求められる中で，AIによるコード生成技術への期待が高まっている。
- 生成されたコードの依存関係が明確でなく，環境によっては実行できないという課題がある。
- LLMが示す依存関係と実際に必要な依存関係のギャップを定量的に評価し，再現性の問題を明らかにする。
- 300プロジェクトを対象とした実験の結果，68.3%のプロジェクトがそのまま実行できた。
- 言語によって再現性に差があり，Pythonは89.2%，Javaは44.0%であった。
- 宣言された依存関係と実際の実行時に必要な依存関係の間に平均13.5倍の差が見られた。
Link: https://arxiv.org/abs/2512.22387
スパイク波放電の密な時間的セグメンテーションのための残差U-Netとデータ拡張の組み合わせ [cs.IR, cs.LG, eess.SP]目的：スパイク波放電の密な時間的セグメンテーション手法
- てんかん発作の診断や治療において，脳波(EEG)によるスパイク波放電の正確な検出が重要である。
- スパイク波放電の形態や信号特性は個人差が大きく，従来の機械学習は汎化性能が低いという課題がある。
- 個人差に強く，高精度なスパイク波放電の自動検出を可能にする手法を開発すること。
- 残差U-Netにデータ拡張を組み合わせたAugUNet1Dが，脳波データに対するスパイク波放電のセグメンテーションにおいて高い性能を示した。
- AugUNet1Dは，既存のアルゴリズム「Twin Peaks」と比較して，より優れた結果が得られた。
- 学習済みモデル及び未学習モデルが公開されており，他の研究者も利用可能である。
Link: https://arxiv.org/abs/2601.00459
視覚数学問題解決のための知識内面化による知覚と推論の架橋：CogFlow [cs.CL, cs.CL, cs.CV, cs.AI]目的：視覚数学問題解決における知覚と推論の統合機構
- マルチモーダル大規模言語モデルの応用拡大に伴い，視覚情報と論理的推論の融合が重要となる。
- 既存研究では，視覚情報の抽出・解釈の改善に焦点が当たり，抽出された情報が推論に適切に活用されているか検証されていなかった。
- 視覚情報の忠実な統合と適切な活用を促し，人間らしい推論フローを模倣したフレームワークを構築することで，問題を解決する。
- 提案手法CogFlowは，知覚，内面化，推論の3段階からなる認知に着想を得たフレームワークである。
- Synergistic Visual Rewardsを用いて，記号と図形からの視覚情報抽出能力を向上させた。
- Knowledge Internalization RewardモデルとVisual-Gated Policy Optimizationアルゴリズムにより，視覚情報と推論の整合性を高めた。
Link: https://arxiv.org/abs/2601.01874
大規模オーディオ言語モデルにおける空間理解の実現 [cs.HC, cs.RO, cs.NI, cs.DC, cs.SD, cs.AI]目的：大規模オーディオ言語モデルにおける空間理解
- 音響シーン分析は，音声認識やロボティクスなど，多様な分野で重要性を増している。
- 既存モデルは空間情報を無視しており，現実世界の音響シーンを正確に理解できていない。
- 大規模言語モデルに空間理解能力を付与し，音響シーン分析の精度向上を目指す。
- 本研究では，高品質な空間オーディオデータ合成パイプラインを構築し，大規模言語モデルへの空間情報の統合を可能にした。
- 提案手法は，原子的な知覚，関係的統合，認知的な推論能力を評価する包括的なベンチマークで優れた性能を示した。
- これにより，「モノ」的な意味認識から空間知能へと，大規模オーディオ言語モデルの音響シーン分析能力が飛躍的に向上することが期待される。
Link: https://arxiv.org/abs/2601.02954
拡散言語モデルのプラグイン型後方参照自己修正：BackPlay [cs.LG]目的：拡散言語モデルにおける多トークン生成時の品質劣化軽減策
- 拡散言語モデルは並列生成により効率が高いが，ステップ数を減らすと品質が低下する。
- 並列サンプリングによる依存エラーが蓄積し，生成ステップサイズが大きいと品質が著しく劣化する。
- 事前学習済みのモデルを固定し，エラーに特化した修正ヘッドを訓練することで品質を改善する。
- 提案手法BackPlayは，モデル固有のエラー分布を捉え，エラーの蓄積を効果的に抑制する。
- 後方参照修正機構により，文脈情報を活用した過去の生成ステップの誤り修正を可能にする。
- 数学的推論およびコード生成のベンチマークで，大規模ステップ生成時の品質劣化を大幅に軽減することを示した。
Link: https://arxiv.org/abs/2601.06428
GPUアクセラレーションによるANNS：速度向上と変化への対応 [cs.RO, cs.HC, cs.DB, cs.AI]目的：近似最近傍探索の高速化とデータ更新の効率化
- 機械学習や情報検索において，近似最近傍探索は重要な処理であり，高性能化が求められている。
- 既存のGPU実装は，データの動的な更新，メモリ帯域幅の制約，および計算とメモリの非効率性といった課題を抱えている。
- 本研究では，これらの課題を克服し，高速かつ更新可能なGPUベースの近似最近傍探索システムを開発する。
- 提案システムJasperは，既存システムCAGRAと比較して，最大1.93倍のクエリ処理能力を実現した。
- Jasperは，RaBitQ量子化によりメモリフットプリントを最大8倍削減し，ランダムアクセスによるペナルティを回避した。
- インデックス構築速度はCAGRAの平均2.4倍であり，動的なデータ更新にも対応している。
Link: https://arxiv.org/abs/2601.07048
解釈可能な早期終了型ニューラルネットワークのための注意一貫性正則化 [cs.LG, cs.AI]目的：早期終了型ニューラルネットワークにおける解釈性と一貫性の向上
- 計算資源が限られた環境下での効率的な推論が求められているため。
- 早期終了は計算コスト削減に有効だが，解釈性が低く信頼性に欠ける点が課題。
- 早期終了時の注意マップを最終層と整合させ，説明可能性を高めることを目指す。
- 提案手法（EGT）は，分類精度を維持しつつ，早期終了による推論速度を最大1.97倍に向上させた。
- EGTは，ベースラインモデルと比較して，注意の一貫性を最大18.5%改善することに成功した。
- 全ての終了ポイントにおいて，より解釈可能で一貫性のある説明を提供することが示された。
Link: https://arxiv.org/abs/2601.08891
EvasionBench：決算説明会Q&Aにおける経営陣による回避行動の検出のための大規模ベンチマーク [cs.LG, cs.CL]目的：決算説明会における経営陣による回避行動の検出
- 企業の透明性確保は投資家保護と市場の健全化に不可欠である。
- 経営陣が意図的に情報を隠蔽する回避行動の検出が困難である。
- 大規模なベンチマークデータセットの提供により，回避行動検出研究を促進する。
- EvasionBenchは，2270万件のQ&Aペアから構築された，大規模で厳密にフィルタリングされたデータセットである。
- 本研究では，3段階の回避行動分類体系を導入し，Multi-Model Consensus (MMC) フレームワークを用いて高いアノテーション品質を実現した。
- Qwen3-4BをファインチューニングしたEva-4Bは，Macro-F1で84.9%を達成し，既存のLLMを上回る性能を示した。
Link: https://arxiv.org/abs/2601.09142
EvoFSM：有限状態機械を用いた深層研究のための制御可能な自己進化 [cs.AI]目的：深層研究における自己進化フレームワーク
- 近年の大規模言語モデル(LLM)の発展により，複雑な問題解決への応用が期待されている。
- 既存のLLMエージェントは固定されたワークフローに依存し，変化への対応が困難である。
- 有限状態機械(FSM)を自己進化させることで，適応性と制御性を両立し，安定した問題解決を目指す。
- EvoFSMは，FSMのフローとスキルを分離し，明確な境界内で最適化を行うことで，安定性を実現した。
- EvoFSMは，成功事例を事前知識として，失敗事例を制約として活用する自己進化型メモリを組み込んだ。
- 5つの多段質問応答ベンチマークにおいてEvoFSMの有効性が示され，DeepSearchベンチマークでは58.0%の精度を達成した。
Link: https://arxiv.org/abs/2601.09465
タイにおける降水量予測のための北東モンスーン指数発見への強化学習 [cs.LG, astro-ph.EP]目的：タイの降水量予測のための北東モンスーン指数の発見
- 長期的な降水量の予測は，農業や水資源管理において重要な課題である。
- 既存の気候指標だけでは，タイの地域特有の降水パターンを正確に捉えきれない場合がある。
- タイの降水量予測精度向上に貢献する，地域スケールの新たな気候指標を開発すること。
- 強化学習によって最適化された北東モンスーン指数は，降水量予測モデルの精度を大幅に向上させた。
- 特に，タイの各地域に分類された12のクラスターの多くにおいて予測性能の改善が確認された。
- 12ヶ月先までの予測における二乗平均平方根誤差（RMSE）を効果的に低減することに成功した。
Link: https://arxiv.org/abs/2601.10181
活性化シグネチャによる表現認識型アンラーニング：抑制から知識シグネチャの消去へ [cs.CL, cs.LG]目的：大規模言語モデルからの選択的な知識消去
- GDPR遵守やモデルの安全性確保が重要視される中で，特定の知識を削除する技術が求められている。
- 従来のアンラーニング手法は，表面的な抑制と真の知識除去を混同し，潜在能力が残存する可能性があった。
- 内部活性化シグネチャを対象とすることで，真の消去と隠蔽を区別し，確実な知識消去を実現することを目指す。
- KIFは，オラクルレベルに近い消去性能（FQ ≈ 0.99）を達成しつつ，ユーティリティを維持（MU = 0.62）し，既存手法の安定性-消去のトレードオフを打破した。
- 標準モデルではスケールに依存しない真の消去が確認された一方，推論優先モデルでは根本的なアーキテクチャの差異が明らかになった。
- 表面レベルの漏洩と潜在的痕跡の持続性を組み合わせた評価プロトコルにより，隠蔽と消去の区別を明確にし，モデルファミリーとスケールに応じたメカニズムレベルでの忘却行動を体系的に診断することを可能にした。
Link: https://arxiv.org/abs/2601.10566
Mugi：効率的なLLMのための値レベル並列処理 [cs.LG, cs.AR]目的：大規模言語モデルの効率化を目指した値レベル並列処理の応用
- 近年のLLM発展は計算資源を逼迫しており，効率的な計算手法が不可欠である。
- 既存手法では，活性化関数と重みの積に関するGEMM以外の演算の効率化が課題であった。
- 非線形近似や小規模バッチGEMMの最適化を通して，LLM全体の性能向上を目指す。
- 提案手法Mugiは，非線形softmax演算においてスループットを最大45倍，エネルギー効率を668倍向上させた。
- LLM全体としても，スループットを2.07倍，エネルギー効率を3.11倍向上させる結果が得られた。
- LLM運用における運用時炭素排出量を1.45倍，埋め込み炭素量を1.48倍削減することに貢献する。
Link: https://arxiv.org/abs/2601.10823
認知神経科学とグラフ知能の架け橋：海馬に着想を得た多視点ハイパーグラフ学習によるWeb金融詐欺の検出 [cs.LG, cs.AI]目的：Web金融詐欺検出のための手法
- Web金融サービスは不可欠だが，詐欺のリスクを伴う。社会的な公平性とオンラインコミュニティの健全性を脅かす。
- 既存のグラフニューラルネットワークは，ロングテール分布と詐欺の偽装という課題に苦戦している。
- 複数の視点からの不一致と，新規性の検出による詐欺パターンへの感度向上を目指す。
- 提案手法HIMVHは，6.42%のAUC，9.74%のF1スコア，39.14%のAPにおいて，15の最先端モデルを平均で上回る性能を示した。
- 海馬の機能に着想を得て，取引の複数の視点間での微妙な不一致を捉えるモジュールを設計した。
- CA1領域のメカニズムに着想を得て，特徴量の近傍からの逸脱を測定し，メッセージの重み付けを適応的に調整した。
Link: https://arxiv.org/abs/2601.11073
レジリエントなルーティング：時空間グラフ学習によるスマートロジスティクスのリスク認識型動的ルーティング [cs.RO, cs.SY, eess.SY, cs.AI]目的：スマートロジスティクスにおけるリスクを考慮した動的ルーティング手法の提案
- EC産業の発展により物流ネットワークへの負荷が増大しており，効率的なルーティングが不可欠である。
- 従来の静的ルーティングは，交通渋滞や需要変動に弱く，柔軟性に欠けるという課題があった。
- 時空間グラフ学習を用いて，交通渋滞リスクを予測し，より強靭な物流ルートを構築することを目指す。
- 提案手法RADRは，スマートロジスティクスデータセット2024を用いた評価実験で，サプライチェーンのレジリエンスを大幅に向上させることを示した。
- 特に交通渋滞が激しい状況下では，潜在的な渋滞リスクを19.3%削減しつつ，輸送距離の増加はわずか2.1%に抑えられた。
- データ駆動型アプローチが，配送効率と運用安全性のバランスを効果的に実現できることが実証された。
Link: https://arxiv.org/abs/2601.13632
空間・航空・地上統合ネットワークにおける階層型分割連合学習のためのデバイス関連付けとリソース割当 [cs.DC, cs.LG]目的：空間・航空・地上統合ネットワークにおける階層型分割連合学習のデバイス関連付け，モデル分割層選択，およびリソース割当
- 6Gの実現により連合学習が様々なネットワークで可能になったが，リソース制約やデータ分布の不均衡が課題である。
- 既存の手法では，限られたリソース下での効率的な学習や，偏ったデータ分布への対応が困難である。
- 本研究では，空間・航空・地上統合ネットワークにおける連合学習の効率と精度を向上させることを目指す。
- 提案手法は，学習損失と遅延の重み付き和を最小化するジョイント最適化問題を解くことで，効率的な学習を実現する。
- デバイス関連付けとリソース割当の反復最適化アルゴリズムにより，最適な分割点の探索を可能にする。
- シミュレーション結果は，提案アルゴリズムがSAGINにおける連合学習の学習効率とモデル精度を効果的に両立できることを示す。
Link: https://arxiv.org/abs/2601.13817
ConceptCaps：音楽モデルの解釈可能性のための蒸留された概念データセット [cs.SD, cs.AI, cs.LG]目的：音楽モデルにおける解釈可能性のための概念データセット
- 音楽理解の高度化には，音楽の構成要素を明確に把握する必要がある。
- 既存の音楽データセットは，タグ付けが不十分，ノイズが多い，定義が曖昧である。
- 明確な概念に基づいた音楽データの提供により，モデルの解釈性を高める。
- ConceptCapsは，200属性の分類に基づいた21,000件の音楽・キャプション・タグの組で構成される。
- セマンティックモデリングとテキスト生成を分離することで，一貫性と制御可能性を向上させている。
- オーディオ・テキストの整合性，言語的品質，TCAV分析により，データセットの有効性が確認された。
Link: https://arxiv.org/abs/2601.14157
GEDIバイオマス推定値の補間と較正された不確実性定量化 [cs.LG, cs.CE, cs.CV]目的：GEDIミッションからのバイオマス密度推定の補間
- 地球規模でのバイオマス変動把握は，気候変動対策や生態系保全において不可欠である。
- 既存手法では，不確実性の定量化が不十分であり，予測区間の較正が困難である。
- 複雑な地形や植生に対応可能な，空間的な文脈を考慮した高精度な推定手法を開発する。
- Attentive Neural Processes (ANPs)は，局所的な観測データと地理空間基礎モデル埋め込みを活用し，柔軟な空間共分散関数を学習する。
- ANPsは，熱帯雨林から寒帯，温帯，高山生態系まで，5つの異なるバイオームで高い精度と理想的な不確実性較正を達成した。
- 少ない現地データを用いた少数の学習例による適応により，地域間転移学習における性能ギャップを縮小できることが示された。
Link: https://arxiv.org/abs/2601.16834
DEEPMED：マルチホップ医療検索データとターン制御型エージェント学習・推論による医療深層研究エージェントの構築 [cs.AI]目的：医療分野における深層研究エージェントの構築
- 医療知識は膨大かつ複雑であり，正確な推論には最新の情報と根拠に基づいた判断が不可欠である。
- 既存の医療推論モデルは知識に制約があり，忘却や幻覚といった問題が生じやすい。
- 医療専門知識の解釈と，不要な情報検索の抑制を通じて，より信頼性の高い医療推論を実現すること。
- DeepMedは，7つの医療ベンチマークにおいて，ベースモデルと比較して平均9.79%の性能向上を示した。
- マルチホップ医療検索QA合成により，医療分野における深層研究パラダイムの適用を支援する。
- ターン制御型学習と推論により，ノイズの多い情報の注入を抑制し，正確な医療推論を実現した。
Link: https://arxiv.org/abs/2601.18496
適応が勝利するのはいつか：量子制御におけるメタ学習のスケーリング則 [cs.LG, cs.AI, cs.SY, eess.SY, quant-ph]目的：量子制御におけるメタ学習のスケーリング則
- 量子デバイスの性能向上には，デバイス固有のばらつきへの対処が不可欠である。
- 従来の制御手法では，デバイスのばらつきや環境変化への対応に限界があった。
- 適応学習の有効性を定量的に評価し，その適用範囲を明確にすること。
- タスクの分散が大きい場合に，適応学習が大きな性能向上をもたらすことが示された。
- 量子ゲート較正実験において，従来の制御手法と比較して40％以上の忠実度向上が確認された。
- これらの法則は，量子固有の物理現象ではなく，一般的な最適化の幾何学に由来することが示された。
Link: https://arxiv.org/abs/2601.18973
ドメイン外検出を超えて：クロスドメインにおけるハルシネーション検出のためのSpikeScore [cs.AI, cs.LG]目的：大規模言語モデルにおける汎用的なハルシネーション検出
- 大規模言語モデルの実用化には，出力の信頼性が不可欠であるため，ハルシネーション検出が重要である。
- 既存手法は，同一ドメイン内では高い性能を示すものの，異なるドメインへの汎化性能が低いという課題がある。
- 異なるドメイン間でのロバストな性能を維持しつつ，単一ドメインのデータでハルシネーション検出器を訓練することを目指す。
- マルチターン対話において，ハルシネーションを含む対話は，事実に基づいた対話よりも不確実性の変動が大きいことを発見した。
- 提案手法SpikeScoreは，この不確実性の急激な変動を定量化することで，ハルシネーションと非ハルシネーションを高い精度で分離できる。
- 複数の言語モデルとベンチマークを用いた実験により，SpikeScoreは既存手法を凌駕するクロスドメイン汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2601.19245
吝嗇なコンテキスト：LLM自動コーディングのための18:1階層的コード圧縮 [cs.CL, cs.AI, cs.SE]目的：LLM自動コーディングにおけるコンテキスト圧縮
- 大規模言語モデルの性能はコンテキスト長に依存するが，長文の処理はコストがかかる。
- 長大なコードベースをそのままコンテキストに含めると，計算資源の制約が生じる。
- コードの重要な部分を抽出し，効率的に圧縮することで，性能維持とコスト削減を目指す。
- 提案手法Stingy Contextは，LLMコンテキストを18:1の比率で圧縮可能であることを示した。
- TREEFRAGによる分解により，239kトークンのコードベースを11kトークンに削減しつつ，タスクの忠実性を維持した。
- 12種類のFrontierモデルを用いた実験で，40の実世界の問題に対して94〜97%の成功率を達成した。
Link: https://arxiv.org/abs/2601.19929
CLEAR-Mamba：正確で適応性があり信頼性の高い多系列眼血管造影画像分類に向けて [cs.CL, cs.CV, cs.AI]目的：眼血管造影画像の分類手法
- 医学画像診断は，疾患の早期発見，治療計画，患者予後評価において重要な役割を担う。
- 既存手法は，単一モダリティ，微細な病変パターン，デバイス間変動により，汎化性能と信頼性が課題。
- CLEAR-Mambaは，多様な眼血管造影画像に対し，汎化性と信頼性を高めることを目指す。
- CLEAR-Mambaは，MedMambaを基盤とし，アーキテクチャと学習戦略を最適化することで，既存モデルを上回る性能を達成。
- 特に，多疾患分類と信頼性に基づいた予測において顕著な優位性を示した。
- 本研究は，モダリティ特有の医学画像分類において，汎化性と信頼性を両立する有効な解決策を提供する。
Link: https://arxiv.org/abs/2601.20601
幾何学的記述の簡潔化による橋渡し：LLMを用いた平面幾何問題解決の可能性解き放ち [cs.AI]目的：平面幾何問題の解決
- 平面幾何は，数学的思考力や空間認識能力の基礎となる重要な分野である。
- 既存のLLMは図を処理できないため，図形問題への直接的な適用が困難である。
- 視覚情報をテキスト記述に変換することで，LLMの幾何問題解決能力を引き出すことを目指す。
- 本研究では，図形記述言語(CDL)を用いて視覚情報をテキスト化するMLLMインタープリタを提案した。
- CDLのマッチング報酬を用いた強化学習により，CDL生成の精度を向上させた。
- Formalgeo7k-Rec-CoT，Unigeo，MathVistaでの実験により，提案手法が既存のMLLMを上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2601.21164
ゼニス：数十億規模のライブストリーミング推薦のためのランキングモデルのスケールアップ [cs.LG, cs.AI]目的：数十億規模のライブストリーミング推薦におけるランキングモデルのスケールアップ
- 推薦システムにおいて，特徴量の相互作用を正確に捉えることは重要であり，モデル容量の拡大が予測性能向上に不可欠。
- 既存研究では，特徴量の多粒度な相互作用を捉えるモデル構造は探求されているものの，推論遅延を抑制しつつモデル容量を拡大する効率的な手法が不足。
- 本研究は，実行時オーバーヘッドを最小限に抑えつつ複雑な特徴量間の相互作用を学習可能な，スケーラブルかつ効率的なランキングアーキテクチャを開発する。
- ゼニスは，トークンフュージョンとトークンブーストモジュールにより，高次元のPrime Tokensを効率的に処理し，優れたスケーリング則を示す。
- TikTok Liveへの導入による実証実験の結果，オンラインCTR AUCとLoglossがそれぞれ+1.05%/-1.10%改善された。
- また，ユーザーあたりのQuality Watch SessionとQuality Watch Durationがそれぞれ+9.93%と+8.11%増加した。
Link: https://arxiv.org/abs/2601.21285
自己改善型事前学習：事後学習済みモデルを用いたより優れたモデルの事前学習 [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルの安全性，事実性，および全体的な品質の向上
- 大規模言語モデルは実世界で利用が増加しており，その安全性と信頼性が重要視されている。
- 事前学習段階で学習されたパターンを修正することが難しく，安全性や虚偽情報の出力が潜在する。
- 事前学習段階での改善により，モデルの根本的な行動を安全かつ正確にする。
- 提案手法は，事実性において標準的な事前学習と比較して36.2%の相対的な改善を示す。
- 安全性において18.5%の相対的な改善，および生成品質全体で最大86.3%の勝率向上を達成した。
- 強化学習を用いて，各ステップで生成される次のK個のトークンを改善する。
Link: https://arxiv.org/abs/2601.21343
潜在的思考の連鎖を計画として：推論と言語化の分離 [cs.AI, cs.CL]目的：大規模言語モデルにおける潜在的推論の計画としての再構成
- 複雑な問題を解決する上で，大規模言語モデルの推論能力向上は不可欠である。
- 従来の思考の連鎖は，計算コストや推論経路の崩壊といった課題を抱えている。
- 潜在的推論を計画として捉え，推論と言語化を分離することで，スケーラビリティの向上を目指す。
- PLaTは，推論を潜在的な計画状態の決定論的軌跡としてモデル化し，必要に応じてテキストに落とし込む。
- PLaTは，固定されたハイパーパラメータに依存せず，推論の終了タイミングを動的に決定できる。
- 数学的ベンチマークにおいて，PLaTは多様な推論能力を示し，より広範な解空間を学習することが示された。
Link: https://arxiv.org/abs/2601.21358
一貫性から相補性へ：時系列理解と推論のための整列化・非絡み合いマルチモーダル学習 [cs.LG, cs.AI, cs.CL, cs.CV]目的：時系列データの理解と推論のためのマルチモーダル学習手法
- 時系列データは様々な分野で重要な役割を果たしており，その分析・理解は不可欠である。
- 異なるモダリティ間の微細な時間ずれや意味の絡み合いが，精度の高い理解と推論を妨げている。
- モダリティ間の整列化と非絡み合いを実現し，局所的な解釈と相補的な推論を可能にすることを目的とする。
- 提案手法MADIは，パッチレベルの整列化，離散的な非絡み合い相互作用，および重要なトークンの強調により，時系列データの理解度を向上させる。
- 実験結果から，MADIは汎用LLMや時系列特化型MLLMと比較して，一貫して優れた性能を示すことが明らかになった。
- MADIは，数値データと視覚データの間の微細なずれを解消し，より正確な推論を可能にする。
Link: https://arxiv.org/abs/2601.21436
MemOCR：効率的な長期的推論のためのレイアウト認識型視覚的メモリ [cs.AI]目的：長期的推論における効率的な文脈圧縮
- 長期的なエージェントの推論には，過去のインタラクション履歴の効率的な圧縮が不可欠である。
- 既存のメモリシステムは履歴をテキストとしてシリアライズするため，トークン単位のコストが均一で，詳細な情報に予算を費やしがちである。
- 視覚的なレイアウトを通じて情報密度を適応的に調整し，限られた文脈予算内で長期的推論を改善すること。
- MemOCRは，構造化されたリッチテキストメモリを画像としてレンダリングすることで，重要な証拠を目視的に優先し，付加的な詳細を積極的に圧縮する。
- 予算を考慮した目的関数を用いて強化学習によりMemOCRを訓練することで，様々なメモリ予算に対するロバスト性を確保する。
- 長文脈のマルチホップおよびシングルホップの質問応答ベンチマークにおいて，MemOCRは強力なテキストベースのベースラインを上回り，厳しい予算下でより効果的な文脈利用を達成する。
Link: https://arxiv.org/abs/2601.21468
忘却の先へ：機械的アンラーニングが制御可能な副次的な挙動と能力を引き出す [cs.LG, cs.CL]目的：機械的アンラーニングにおける副次的な挙動と能力の制御可能性
- 大規模言語モデルの安全性と信頼性確保は，社会実装において不可欠である。
- 既存のアンラーニング手法では，意図しない挙動の変化や能力低下が懸念される。
- アンラーニングがもたらす副次的な効果を理解し，制御可能な形で活用することを目指す。
- 機械的アンラーニングが，単純な忘却を超えて，モデルの挙動や能力に制御可能な変化をもたらすことが示された。
- ターゲットベクトルを操作することで，モデルの真実性，感情，拒否反応といった挙動を制御できることが確認された。
- アンラーニングは，モデルの文脈内学習能力の向上といった能力強化にも繋がる可能性があることが示唆された。
Link: https://arxiv.org/abs/2601.21702
マルチエージェントアクタークリティックによる分散型LLM協調学習 [cs.AI, cs.DC, cs.MA]目的：分散型LLM協調の最適化
- LLMの能力向上には，複数LLM間の協調が不可欠であり，その最適化が重要な課題である。
- 既存手法は中央集権的な実行プロトコルに依存し，柔軟な分散環境での利用が制限されている。
- 分散環境下で効率的にLLM協調を学習し，パフォーマンスの向上を目指す。
- マルチエージェントアクタークリティック（MAAC）手法を提案し，分散型LLM協調の最適化を試みた。
- 短期的かつ高密度報酬のタスクにおいては，モンテカルロ法とCoLLM-DCがCoLLM-CCと同程度の性能を示した。
- 長期的または疎な報酬のタスクにおいては，CoLLM-CCがモンテカルロ法やCoLLM-DCを上回り，安定した学習が可能となった。
Link: https://arxiv.org/abs/2601.21972
勾配降下法におけるKolmogorov-Arnoldネットワークの最適化，汎化，および差分プライバシー境界 [cs.RO, cs.HC, cs.LG, cs.AI, stat.ML]目的：Kolmogorov-Arnoldネットワークの学習ダイナミクス，汎化性能，および差分プライバシーの理論的限界
- 機械学習モデルの性能向上には，効率的な学習アルゴリズムと汎化能力の理解が不可欠である。
- 標準的な多層パーセプトロンと比較して，Kolmogorov-Arnoldネットワークの学習理論は未だ確立されていない。
- 差分プライバシーを考慮したKolmogorov-Arnoldネットワークの最適化と汎化性能の限界を明らかにすること。
- 2層のKolmogorov-Arnoldネットワークに対する勾配降下法の学習ダイナミクス，汎化，およびプライバシー保護のための一般的な境界を導出した。
- ロジスティック損失関数とNTK分離可能仮定の下で，多項式的なネットワーク幅で最適化率が1/T，汎化率が1/nとなることを示した。
- 差分プライバシーを保証するためのノイズ量を解析し，入力次元dに対する有用性限界が√d/(nε)となることを示した。
Link: https://arxiv.org/abs/2601.22409
LLM評価者は本当に自己中心的か？自己選好評価の妥当性検証 [cs.CL, cs.AI, cs.LG]目的：LLM評価における自己選好バイアスの検証と，その測定における誤差の低減
- LLMの性能評価は自動化が進むが，評価自体の信頼性が課題となっている。
- LLMが自身の出力を優先する傾向（自己選好バイアス）が確認されているが，その原因特定が困難である。
- 実験設定の混乱要因を取り除き，自己選好バイアスを正確に測定するための手法を開発する。
- LLM評価者が自身の誤答に対して自己選好的な判断を下す可能性が示唆された。
- 提案する「評価者品質ベースライン」により，初期結果の統計的有意性が半減することが確認された。
- このベースラインは，自己選好に関する今後の研究におけるノイズ除去に貢献し，より正確な評価を可能にする。
Link: https://arxiv.org/abs/2601.22548
誘導グラフニューラルネットワークを用いたEコマースにおける非侵入型グラフベースのボット検出 [cs.LG]目的：Eコマースにおけるボット検出手法
- Eコマースの健全性を維持するため，悪意のあるボット対策は不可欠である。
- 従来のIPブロックやCAPTCHAは，高度なボットによって回避されやすい。
- ユーザーセッションをグラフ構造で表現し，ボットを正確に識別することを目指す。
- 提案手法は，セッションレベルの多層パーセプトロンと比較して，AUCおよびF1スコアで優れた性能を示した。
- 敵対的摂動やコールドスタートのシミュレーションにおいて，ロバスト性と汎化性能が確認された。
- 本フレームワークは，既存システムへの統合が容易で，リアルタイム推論および増分更新に対応する。
Link: https://arxiv.org/abs/2601.22579
スパース注意機構とコンパクトカーネル回帰 [cs.LG]目的：スパース注意機構とコンパクトカーネルの対応関係の解明
- Transformerの性能向上に不可欠な注意機構の理論的理解が求められている。
- スパース注意機構のカーネル理論的な解釈が未確立であった。
- カーネル設計から自然にスパース性が生まれるメカニズムを明らかにする。
- スパース注意機構がコンパクトカーネルと形式的に対応することが示された。
- 正規化ReLUやsparsemax注意はEpanechnikovカーネル回帰に対応することが明らかになった。
- 提案手法は言語モデリング等で競争力のある性能を発揮し，注意機構設計の新たな枠組みを提供する。
Link: https://arxiv.org/abs/2601.22766
固定フレームの制約を超えて：動的な文字アライメント型音声トークン化 [cs.LG, cs.AI, cs.SD]目的：動的な文字アライメント型音声トークン化の実現
- 近年の対話型音声技術において，音声の離散トークン列への変換が不可欠である。
- 既存の音声コーデックは固定フレームレートで動作し，トークン列が不必要に長くなる問題がある。
- 可変フレームレートでのトークン化により，トークン数の削減と効率的な処理を目指す。
- DyCASTは，ソフトな文字レベルのアライメントと明示的な持続時間モデリングにより，可変フレームレートでのトークン化を実現した。
- 低フレームレートでの音声再合成品質向上のため，検索拡張デコーディング機構を導入し，ビットレート増加なしに再構築精度を高めた。
- DyCASTは，固定フレームレートコーデックと同等の再合成品質とダウンストリーム性能を，より少ないトークン数で達成した。
Link: https://arxiv.org/abs/2601.23174
プロセス報酬によるマルチエージェントシステムの拡張 [cs.HC, cs.AI, cs.CL, cs.ET, cs.MA]目的：マルチエージェントシステムの拡張
- 複雑なタスク解決において，専門化による効率化が期待される分野である。
- エージェント間の功績評価や，高コストなマルチエージェントのロールアウト効率が課題である。
- AIフィードバックを用いたプロセス報酬により，上記課題の解決を目指す。
- AIフィードバックからのプロセス報酬を用いるMAPPAにより，エージェント個々の行動に対する評価が可能となった。
- 未知の数学問題において，AIMEとAMCでそれぞれ+5.0～17.5pp，+7.8～17.2ppの性能向上を達成した。
- データ分析タスクでは，成功率が+16.7pp向上し，品質指標も最大47%改善された。
Link: https://arxiv.org/abs/2601.23228
RAPTOR：リッジ適応ロジスティックプローブ [cs.LG, cs.AI]目的：凍結された大規模言語モデルの層表現にエンコードされた情報の解析
- 大規模言語モデルの内部表現理解は，その能力向上と制御に不可欠である。
- 概念ベクトル抽出時の精度，方向安定性，計算コストが課題である。
- 高精度かつ安定な概念ベクトルを低コストで抽出することを目指す。
- RAPTORは，L2正則化ロジスティックプローブであり，検証データで調整されたリッジ強度を用いる。
- 実験の結果，RAPTORは既存手法と同等以上の精度を示し，方向安定性も優れていた。
- 凸ガウスMin-Max定理を用いて，リッジロジスティック回帰のメカニズムを理論的に解明した。
Link: https://arxiv.org/abs/2602.00158