arXiv雑要約

AI - 2026/02/02 公開

  • スクリーン,マッチ,キャッシュ:学習不要な因果整合参照フレームワークによるヒューマンアニメーション [cs.GR, cs.AI]目的:ヒューマンアニメーションにおける長期間の一貫性と視覚的な整合性の確保
    • ヒューマンアニメーションは,リアリティのある動きの生成に不可欠であり,エンターテイメントや研究分野で重要である。
    • 長距離依存性のモデル化とフレーム品質の維持は難題であり,アニメーションの品質低下を引き起こす。
    • 過去の観察を活用し,一貫性のあるアニメーションを生成するための新しいフレームワークを構築すること。
    • 提案手法FrameCacheは,選択的なフレーム活用と動的なキャッシュ戦略により,時間的な一貫性と視覚的な安定性を向上させる。
    • FrameCacheは,多様なベースライン手法と容易に統合可能であり,既存手法の性能向上に貢献する。
    • ベースラインの時系列推論能力や現実と合成データの整合性が,FrameCacheの有効性に影響を与えることが示唆された。

    Link: https://arxiv.org/abs/2601.22160

  • 感情認識には注意機構だけでは不十分:EAVデータセットにおけるドメイン特徴量がTransformerを上回る [cs.LG, cs.CV, cs.SD, eess.AS]目的:小規模データセットにおける感情認識の性能向上
    • 感情認識は,人間とコンピュータの円滑なコミュニケーションを実現する上で重要な技術である。
    • 小規模データセットでは,複雑なモデルが過学習を起こしやすく,十分な性能を発揮できない場合がある。
    • ドメイン知識に基づいた特徴量エンジニアリングが,小規模データセットにおける感情認識の精度向上に貢献する。
    • 複雑な注意機構は,小規模データセットにおいてベースラインモデルよりも一貫して性能が劣ることが示された。
    • 音声CNNにデルタMFCCを追加することで,精度が61.9%から65.56%に向上し,EEGの周波数領域特徴量では67.62%の精度を達成した。
    • ドメイン特化型事前学習を行ったVision Transformerは75.30%の精度を達成し,Visionのデルタ特徴量も1.28ppの改善を示した。

    Link: https://arxiv.org/abs/2601.22161

  • オープンボキャブラリ検出器は航空画像に転移するか?比較評価 [cs.CV, cs.LG, cs.RO]目的:航空画像におけるオープンボキャブラリ物体検出の転移可能性の評価
    • 航空画像の解析は,都市計画,災害監視,環境保全など,多岐にわたる分野で重要である。
    • 既存の物体検出器は特定のデータセットに特化しており,未学習のカテゴリーへの汎化が困難である。
    • 航空画像におけるオープンボキャブラリ検出器の性能限界を明らかにし,ドメイン適応の必要性を示す。
    • 航空画像データセットLAE-80Cにおける5つの最先端OVDモデルのゼロショット性能を評価した結果,顕著なドメイン転移の失敗が確認された。
    • 最良モデル(OWLv2)でもF1スコアは27.6%に留まり,誤検出率が69%と高かった。語彙サイズを減少させると性能が大幅に向上し,意味的混乱が主要なボトルネックであることが示された。
    • ドメイン固有のプレフィックスや類義語の拡張などのプロンプトエンジニアリングは,有意な性能向上をもたらさなかった。異なるデータセット間での性能変動も大きく,撮影条件への脆弱性も明らかになった。

    Link: https://arxiv.org/abs/2601.22164

  • 真実と脆弱性:酔っ払い言語誘導によるLLMの安全性検証 [cs.CL, cs.AI, cs.CR, cs.LG]目的:LLMの安全性における脆弱性の検証
    • LLMの安全性確保は,社会への普及において不可欠である。
    • LLMは,巧妙なプロンプトによって意図しない挙動を示す可能性がある。
    • 酔っ払い言語誘導によってLLMの安全性に対する新たな脅威を明らかにする。
    • 本研究では,ペルソナベースのプロンプティング,因果的ファインチューニング,強化学習を用いたポストトレーニングの3つの手法でLLMに酔っ払い言語を誘導した。
    • 評価の結果,JailbreakBenchおよびConfAIdeにおいて,酔っ払い言語誘導されたLLMは,ベースモデルや既存手法と比較して,脱獄やプライバシー漏洩に対して脆弱性が高いことが示された。
    • 人間が酔っ払った状態での挙動と,酔っ払い言語で誘導されたLLMの人間味化との間に対応関係があることが明らかになった。

    Link: https://arxiv.org/abs/2601.22169

  • 大規模言語モデル:数学的定式化 [math.NA, cs.LG, cs.NA, stat.ML]目的:大規模言語モデルの数学的枠組み
    • 自然言語処理の発展は,人間とコンピュータのコミュニケーションを円滑にする上で不可欠である。
    • 大規模言語モデルの内部構造は複雑であり,その動作原理の理解が困難である。
    • 大規模言語モデルの正確性,効率性,堅牢性を数学的に分析可能な基盤を提供する。
    • 本研究では,テキストのトークン化,次トークン予測モデルのアーキテクチャ,学習方法,および応用方法を数学的に記述した。
    • 情報理論,確率論,最適化といった数学的要素の組み合わせが,大規模言語モデルの複雑なアルゴリズム構造を生み出している。
    • この数学的枠組みは,大規模言語モデルの改善と新たな手法の開発のための基盤となる。

    Link: https://arxiv.org/abs/2601.22170

  • ShellForge:Webshell生成と多視点検出の敵対的共同進化による堅牢なWebshell防御 [cs.DB, cs.DB, cs.DB, cs.CL, cs.CR, cs.AI]目的:Webshell防御の堅牢性向上
    • Webサーバへの攻撃において,Webshellは重要な侵入経路であるため,防御技術の確立が不可欠である。
    • 既存の検出機構は,Webshellの急速な亜種進化と巧妙な難読化技術に対処しきれていないという課題がある。
    • Webshellの亜種生成と検出を繰り返す敵対的共同進化により,堅牢な防御機構を構築することを目指す。
    • ShellForgeは,Webshell生成器と多視点検出器を組み合わせた敵対的共同進化フレームワークである。
    • FWOIDベンチマークにおいて,検出器はF1スコア0.981,生成器は回避率0.939を達成し,防御の堅牢性が大幅に向上した。
    • LLMを用いたde-maliciousサンプルの生成により,誤検知率を抑制し,高品質な学習データを提供している。

    Link: https://arxiv.org/abs/2601.22182

  • COL-Tree:道路ネットワークにおける効率的な階層的オブジェクト検索 [cs.DB, cs.AI, cs.DS]目的:道路ネットワークにおける効率的なオブジェクト検索手法
    • 位置情報サービスは,近隣の施設検索に不可欠であり,その効率性が重要である。
    • 既存手法は単一の検索に特化しており,複数エージェントや逆方向の検索に対応できない。
    • 道路ネットワークに適したランドマークに基づく効率的な階層的探索を実現する。
    • 提案手法COL-Treeは,従来のユークリッド距離に基づく手法と比較して,より正確なランドマークヒューリスティクスを用いることで,効率的なグラフ探索を可能にする。
    • AkNN,kFNなどのクエリに対して,既存手法を最大4桁のオーダーで上回る性能を示すことが,実データおよび合成データを用いた実験で確認された。
    • 前処理のオーバーヘッドは比較的小さく,実用的な効率性を有している。

    Link: https://arxiv.org/abs/2601.22183

  • 大規模言語モデルの暗黙的な協調 [cs.GT, cs.LG, cs.MA]目的:大規模言語モデルにおける暗黙的な協調のメカニズム
    • ゲーム理論や行動経済学において,合理的な解決策だけでは協調が困難な状況が存在する。
    • 従来のゲーム理論では,複数の均衡解が存在する場合,どの解を選択すべきか不明確である。
    • 大規模言語モデルが,人間のように焦点効果を利用して協調できるか検証する。
    • 大規模言語モデルは,協調ゲームにおいて人間を上回る能力を示すことがわかった。
    • しかし,数値や文化的背景知識を必要とする協調課題では,性能が低下する傾向にある。
    • 本研究は,大規模言語モデルの暗黙的な協調能力を大規模に評価する最初の試みである。

    Link: https://arxiv.org/abs/2601.22184

  • 量子ネットワークを用いた地球観測データ分類のためのマルチタスク学習 [cs.LG, cs.AI]目的:地球観測データ分類における量子計算の活用
    • 地球観測はデータ量が急増しており,高度な解析には膨大な計算資源が必要とされている。
    • 深層学習モデルの計算負荷が大きく,効率的なデータ解析が課題となっている。
    • 量子計算の利点を活かし,地球観測データの効率的な分類を目指す。
    • 提案モデルはマルチタスク学習を取り入れ,効率的なデータエンコーディングを支援する。
    • 量子畳み込み演算と位置重みモジュールにより,分類のための有効な特徴抽出を実現した。
    • 複数の地球観測ベンチマークを用いた評価により,提案モデルの有効性が確認された。

    Link: https://arxiv.org/abs/2601.22195

  • 神経信号から臨床記録を生成 [cs.LG, cs.AI, eess.SP]目的:臨床脳波記録からの異常パターン,診断所見,臨床的解釈をまとめた臨床報告書の生成
    • 長時間の脳波記録の解析は,医療現場において重要な役割を担うが,専門知識と時間を要する。
    • 従来の脳波記録解析は手作業に頼る部分が多く,医師の負担が大きいという課題がある。
    • 本研究は,脳波記録から自動的に臨床報告書を生成することで,医療現場の効率化を目指す。
    • 患者の病歴を活用することで,従来の生成指標において平均70%~95%の相対的な改善を達成した。
    • 病歴を用いないゼロショット設定においても,ベースラインと比較して高い生成スコアを獲得した。
    • 本研究で開発したCELMは,脳波と言語のマルチモーダル学習を可能にする基盤モデルである。

    Link: https://arxiv.org/abs/2601.22197

  • 農業環境におけるLiDAR場所認識の高度な技術と応用:包括的調査 [cs.RO, cs.AI, cs.ET]目的:農業環境におけるLiDAR場所認識技術の現状と将来展望
    • 自動運転ロボット開発には正確な位置認識が不可欠であり,精密農業はその恩恵を大きく受ける分野である。
    • 農業環境は特徴点が少なく,構造化されていないため,場所認識は都市環境に比べて難しい。
    • 農業環境におけるLiDAR場所認識の課題を整理し,今後の研究を促進することを目的とする。
    • 本調査は,農業環境におけるLiDAR場所認識技術に関する初の包括的なレビューである。
    • 既存手法,データセット,評価指標を分析し,その限界と今後の研究方向性について議論した。
    • 最新の深層学習応用についても焦点を当て,農業環境特有の課題を明らかにしている。

    Link: https://arxiv.org/abs/2601.22198

  • FedAdaVR:限られたクライアント参加下におけるロバストな分散学習のための適応的分散削減 [cs.RO, cs.HC, cs.SI, cs.CY, cs.LG, cs.DC]目的:限られたクライアント参加下でのロバストな分散学習
    • 分散学習は,データプライバシーを保護しつつ大規模データを活用できるため,近年重要性が増している。
    • クライアントの参加率が低い場合,勾配のノイズやクライアントドリフトが深刻化し,学習の安定性を損なう。
    • 断続的なクライアント参加によって生じる異質性を克服し,学習のロバスト性を向上させる。
    • 提案手法FedAdaVRは,過去のクライアント更新を活用することで,参加率の低い状況でも安定した学習を可能にする。
    • 量子化技術FedAdaVR-Quantを用いることで,メモリ消費量を大幅に削減しつつ,同等のモデル性能を維持できる。
    • 理論的解析により,FedAdaVRが部分的なクライアント参加エラーを解消することが示された。様々なデータセットで実験的に有効性が確認された。

    Link: https://arxiv.org/abs/2601.22204

  • 測定誤差と分布シフト下における因果模倣学習 [cs.LG, stat.ME, stat.ML]目的:測定誤差と分布シフトが存在するオフライン模倣学習における問題解決
    • ロボット制御や医療など,状態の一部が不正確に観測される場面は多く,実用的な応用が期待される。
    • 状態観測に誤差がある場合,単純な行動模倣では,分布シフトによって偏った方策に収束する可能性がある。
    • 因果関係を明示的にモデル化することで,分布シフトにロバストな模倣学習を実現することを目指す。
    • 提案手法CausILは,ノイズを含む状態観測を代理変数として扱い,報酬や専門家のクエリなしに方策を復元可能である。
    • 離散状態空間と連続状態空間の両方に対して推定器を開発し,連続状態空間ではRKHS関数クラスを用いた敵対的学習を用いる。
    • PhysioNet/Computing in Cardiology Challenge 2019データを用いた評価により,CausILがBCベースラインと比較して分布シフトに対する頑健性が向上することが示された。

    Link: https://arxiv.org/abs/2601.22206

  • コールツリーに基づくマルチエージェントサブグラフの推薦学習 [cs.MA, cs.AI]目的:マルチエージェントシステムにおけるエージェント推薦手法
    • 複雑なタスク解決にマルチエージェントシステムが活用され,エージェント市場の規模が拡大している。
    • 候補エージェント間の機能重複が多く,信頼性や協調性を考慮した選択が困難である。
    • コールツリーを用いて,エージェント間の相互作用を考慮した推薦を実現する。
    • 本研究では,エージェント推薦を制約付き決定問題として定式化し,新しい制約付き推薦フレームワークを提案した。
    • 提案手法は,コールツリーから学習したスコアラーを用いて,関連性,信頼性,相互作用効果を考慮し,最適なエージェントまたはエージェントチームを推薦する。
    • 8つの異種マルチエージェントコーパスから構築した統一コールツリーベンチマークを用いて,手法の有効性を評価した。

    Link: https://arxiv.org/abs/2601.22209

  • 組合せ行動を持つ強化学習のための潜在球状フロー方策 [cs.LG]目的:組合せ行動空間における強化学習方策
    • 組合せ最適化問題は現実世界の多くの課題に応用可能であり,その自動解決は重要である。
    • 組合せ行動空間は指数関数的に増加し,実現可能性制約が複雑で,直接的な方策パラメータ化が困難である。
    • 潜在空間での生成モデリングとソルバーによる実現可能性保証を組み合わせ,汎用性と表現力を高める。
    • 提案手法LSFlowは,球状フローマッチングによりコンパクトな潜在空間で確率的方策を学習する。
    • ソルバーを用いて潜在空間のサンプルを実現可能な行動にマッピングすることで実現可能性を保証する。
    • 潜在空間で直接価値ネットワークを訓練することで,方策最適化中のソルバー呼び出し回数を削減し,効率を向上させる。

    Link: https://arxiv.org/abs/2601.22211

  • 空間に迷うか? ビジョン-言語モデルは相対的なカメラ姿勢推定に苦戦する [cs.CV, cs.AI, cs.CL]目的:相対的なカメラ姿勢推定の性能評価
    • ロボット工学や拡張現実など,3次元空間の理解は様々な応用において不可欠である。
    • 既存のビジョン-言語モデルは,3次元空間構造の理解が十分でないという課題がある。
    • 現実的なシナリオ下でのカメラ姿勢推定におけるモデルの限界を明らかにする。
    • ビジョン-言語モデルは,単純な2次元ヒューリスティクスに頼る傾向があり,特に奥行き方向の変化やロール変換で性能が低い。
    • 最先端のGPT-5を含む多くのモデルは,従来の幾何学的手法や人間の性能に劣る。
    • 複数画像の情報を統合する際の性能に一貫性がなく,空間的ヒントの活用が困難である。

    Link: https://arxiv.org/abs/2601.22228

  • コード生成におけるテスト時スケーリングのためのデータ再重み付きLLMジャッジ [cs.LG]目的:コード生成におけるテスト時スケーリングのための信頼性の高いLLMジャッジの構築
    • コード生成技術はソフトウェア開発の自動化に不可欠であり,生産性向上に貢献する。
    • LLMジャッジの学習には,分布のシフトが課題であり,汎化性能が低下しやすい。
    • データ再重み付けにより,困難な問題や分布内のサンプルを重視し,汎化性能を向上させる。
    • 提案手法DAJは,検証可能な報酬を用いて,バイレベルなデータ再重み付き学習フレームワークで学習されたLLMジャッジである。
    • DAJは,手動によるヒューリスティックに頼らず,難しい問題,分布内のサンプル,軌道が一致するデータを自動的に重視する。
    • LiveCodeBenchとBigCodeBenchにおいて,最先端の性能を達成し,強力なベースラインや商用モデルを上回った。

    Link: https://arxiv.org/abs/2601.22230

  • プロンプトインジェクションと脱獄に対するLLM防御に関する系統的文献レビュー:NIST分類の拡張 [cs.CR, cs.AI, cs.CL, cs.LG]目的:プロンプトインジェクション対策の体系的理解と分類
    • 生成AIとLLMの急速な発展に伴い,新たなセキュリティ課題が生じており,その対策が重要である。
    • プロンプトインジェクション攻撃は巧妙化の一途をたどっており,既存の対策では十分な防御が難しい。
    • NIST分類を拡張し,より網羅的な防御対策の分類と効果の定量的な評価を目指す。
    • 本研究は,88の研究を対象とするプロンプトインジェクション対策の系統的文献レビューを実施した。
    • NISTの報告書を基盤とし,新たな防御カテゴリを追加することで,分類体系を拡張した。
    • レビュー結果に基づき,LLMと攻撃データセットにおける防御策の定量的な有効性をまとめたカタログを作成した。

    Link: https://arxiv.org/abs/2601.22240

  • 勾配を用いないトポロジー最適化におけるパラメータ化と最適化手法の相互作用に関する研究: cantilever梁のケーススタディ [cs.NE, cs.CE]目的:勾配を用いないトポロジー最適化におけるパラメータ化と最適化手法の相互関係
    • 工学設計において,形状最適化は軽量化や性能向上に不可欠であり,設計の自由度向上が求められている。
    • 勾配情報が利用できない場合,最適化手法の選択とパラメータ化が最適化性能に大きく影響する。
    • パラメータ化の質が最適化性能に与える影響を明らかにすることで,より効率的なトポロジー最適化を可能にする。
    • パラメータ化の質は,最適化手法の選択よりも最適化性能に強い影響を与えることが示された。
    • 適切なパラメータ化は,様々な最適化手法において安定した性能を発揮する。
    • 最適化手法の評価においては,パラメータ化によって誘導される設計空間を考慮する必要がある。

    Link: https://arxiv.org/abs/2601.22241

  • 顕微鏡的車両とマクロ交通統計の整合:部分データからの運転行動の再構築 [cs.MA, cs.LG, cs.RO]目的:運転行動の再構築
    • 安全で効率的な自動運転車の開発には,良好な人間の運転慣行に沿ったアルゴリズムが不可欠である。
    • 個々の車両のセンサーは詳細なデータを得られるが,周囲の状況に関する情報が不足している。
    • マクロな交通統計から微細な状態を再構築し,現実的な運転パターンを促進することを目指す。
    • 提案手法は,マクロな観測から未観測の微細な状態を再構築する枠組みを提供する。
    • 微細なデータを用いて観測された車両行動を固定し,共有ポリシーを学習する。
    • このポリシーは,部分的に観測された軌跡と行動と整合し,マクロ的には目標とする交通統計と整合する。

    Link: https://arxiv.org/abs/2601.22242

  • 階層的量子化は最適な再構成に不可欠か [cs.CV, cs.LG]目的:ベクトル量子化変分オートエンコーダの再構成性能の比較
    • 高忠実度な再構成は,ニューラル圧縮や生成パイプラインを含む様々なモデルにおいて重要である。
    • 階層型VQ-VAEは再構成性能が高いとされているが,その優位性は十分に検証されていない。
    • 単層VQ-VAEが,階層型VQ-VAEと同等の再構成性能を達成可能か検証する。
    • 単層VQ-VAEにおいて,コードブックの利用不足や崩壊が問題となることが確認された。
    • データからの初期化や,不活性なコードブックベクトルのリセット,ハイパーパラメータの調整により,コードブック崩壊を抑制できることが示された。
    • 表現容量を一致させ,コードブック崩壊を抑制することで,単層VQ-VAEは階層型VQ-VAEと同等の再構成性能を達成できることが明らかになった。

    Link: https://arxiv.org/abs/2601.22244

  • 大規模言語モデル用歪みなし多ビット透かし:MirrorMark [cs.CR, cs.AI]目的:大規模言語モデルにおける信頼性のあるコンテンツ帰属
    • 質問応答やコンテンツ生成など,LLMの応用が拡大し,著作権保護が重要になっている。
    • 既存の透かし技術は,二値信号しかないか,テキスト品質を低下させる歪みを伴う。
    • 歪みなく,かつ検出性と堅牢性に優れた多ビット透かし技術を開発すること。
    • MirrorMarkは,トークン確率分布を変化させずに多ビット情報を埋め込み,テキスト品質を維持する。
    • コンテキストに基づくスケジューラにより,挿入・削除に対する耐性を高めている。
    • 300トークンに54ビットを埋め込み,ビット精度を8-12%向上させ,誤検知率1%で11%多くの水張りテキストを正しく識別した。

    Link: https://arxiv.org/abs/2601.22246

  • FunPRM:メタ報酬補正を用いた関数型ステップ報酬モデルによるコード生成 [cs.LG, cs.SE]目的:コード生成における性能向上
    • 大規模言語モデルの主要な応用分野であり,複雑なタスクの自動化に不可欠である。
    • コードのステップ分解が困難であり,部分解の正誤評価にノイズが多いという課題がある。
    • 関数単位でのステップ分解とメタ学習による報酬補正により,この課題を解決する。
    • FunPRMは,既存のテスト時スケーリング手法と比較して,5つのベースLLMで一貫して性能を上回った。
    • 特に,O4-miniと組み合わせることで,LiveCodeBenchで最先端の性能を達成した。
    • 生成されたコードは,可読性および再利用性が向上し,開発者の利便性を高める。

    Link: https://arxiv.org/abs/2601.22249

  • AIナラティブの分解:力と可能性の批判的評価 [cs.CY, cs.AI, cs.HC]目的:AIを取り巻く社会的な言説の分析
    • AI技術は社会に大きな影響を与えつつあり,その動向を理解することが不可欠である。
    • AIに関する議論は,誇張や誤解を含みやすく,客観的な評価が困難である。
    • AIの社会政治的な影響を明確化し,より現実的な認識を促すことを目指す。
    • 本研究は,ChatGPTの登場以降の高まるAIに関する言説を批判的に分析した。
    • AIの概念が多様な分野で不正確かつ誤解を招く形で用いられている現状を「Zeitgeist AI」と定義し批判した。
    • AIは人間によって指示されるツールであり,社会的な統治の対象となるべきであるという新たな視点を提示した。

    Link: https://arxiv.org/abs/2601.22255

  • Transformerにおける効率的かつ解釈可能な学習のための対称性の崩壊 [cs.LG]目的:Transformerの学習効率と解釈性の向上
    • Transformerは自然言語処理の基盤であり,高性能なモデル構築に不可欠である。
    • 標準的なAttention機構には不要な回転の自由度が存在し,計算効率を低下させる可能性がある。
    • Attention機構の対称性を崩壊させ,学習の効率化と解釈性の向上を目指す。
    • 提案手法により,単純な最適化アルゴリズムの性能が向上し,AdamWなどの高度な手法との差が縮小された。
    • Attentionの回転の自由度を有効活用することで,意味的に重要なトークンクラスが選択的に強調されるようになった。
    • わずかなアーキテクチャ変更で,性能と解釈性の両方を向上させることができた。

    Link: https://arxiv.org/abs/2601.22257

  • 表形式ファウンデーションモデルによる生存時間分析 [cs.LG]目的:生存時間分析の実現
    • 医療やマーケティングなど,イベント発生までの時間を予測する重要性が高い。
    • 従来のモデルでは,打ち切りデータの扱いやモデルの学習が課題であった。
    • 表形式ファウンデーションモデルを活用し,打ち切りデータを考慮した生存時間分析を可能とする。
    • 本研究では,生存時間分析を二値分類問題として再構成する手法を提案した。
    • 提案手法により,既存の表形式ファウンデーションモデルが追加学習なしで生存時間分析を実行できる。
    • 53のデータセットで評価した結果,提案手法は既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2601.22259

  • Few-Shot Fine-Tuning を用いた言語モデルによる断続的なジョブ失敗カテゴリの予測 [cs.SE, cs.AI, cs.CL, cs.LG]目的:断続的なジョブ失敗カテゴリの予測
    • 継続的インテグレーションは開発者に重要なフィードバックを提供するが,その信頼性は重要課題である。
    • 非決定的なテスト等により,ジョブが断続的に失敗し,診断に時間がかかるという問題がある。
    • Few-Shot Learning を用いて,少ないラベル付きデータで失敗カテゴリを予測し,診断を効率化する。
    • 提案手法 FlaXifyer は,カテゴリあたりわずか12のラベル付きサンプルで,Macro F1 が 84.3%,Top-2 正確度が 92.0% を達成した。
    • LogSift により,1秒未満で重要なログ文を特定し,レビュー工数を74.4%削減,関連情報を87%のケースで提示した。
    • TELUS のデータを用いた評価により,FlaXifyer と LogSift が効果的な自動トリアージと迅速な障害診断を可能にすることが示された。

    Link: https://arxiv.org/abs/2601.22264

  • 低リソースヘルスケアのための古典的機械学習によるプライバシー保護センサーベース人間活動認識 [cs.LG, cs.NI]目的:低リソース環境における人間活動認識のフレームワーク
    • 高齢化社会において,在宅医療の需要が高まる一方,医療資源が限られている地域も多く存在する。
    • 従来の活動認識は,プライバシー侵害や計算コストの問題を抱えており,普及の妨げとなっている。
    • ウェアラブルセンサーと古典的機械学習を活用し,プライバシーを保護しつつ高精度な活動認識を実現すること。
    • SVMは93.33%の精度を示し,ロジスティック回帰,ランダムフォレスト,k-NNは91.11%の精度であった。
    • 提案手法であるSTMは,テスト精度96.67%とクロスバリデーション精度98.50%を達成し,他のモデルを大きく上回った。
    • STMはテンソル表現を用いることで,活動の空間的・時間的ダイナミクスを捉え,多様な活動に対してロバストな分類を可能にした。

    Link: https://arxiv.org/abs/2601.22265

  • JAF:判断エージェントの森 [cs.AI, cs.CL, cs.LG]目的:エージェントAIフレームワークにおける判断エージェントの評価と自己改善の反復的プロセス
    • エージェントAIの進化において,自動評価と自己改善は不可欠な要素である。
    • 従来の判断エージェントは個々の応答を独立して評価するため,応答間の関連性を見落とす場合がある。
    • JAFは応答間のパターンを認識し,より包括的なフィードバックを提供することで,エージェントの性能向上を目指す。
    • JAFは,複数のクエリ応答ペアを同時に推論することで,判断エージェントを局所的な評価者から全体的な学習者へと進化させる。
    • JAFは,信念伝播とアンサンブル学習の原則を組み合わせ,知識グラフ構造を誘導し,批判の伝播を促進する。
    • LSHアルゴリズムを開発し,セマンティック埋め込み,LLM駆動のハッシュ述語,カテゴリカルラベルからの監督,関連するサイド情報を統合することで,多様な事例を選択する効率と解釈可能性を向上させた。

    Link: https://arxiv.org/abs/2601.22269

  • タスク一様収束と後方転移:部分参加型連合ドメイン漸進学習における [cs.LG]目的:連合ドメイン漸進学習における収束性と後方知識転移の保証
    • 現実の連合学習システムでは,プライバシー保護の観点から,データ共有は制限される。
    • ドメインが時間とともに変化する連合学習環境下では,過去のタスクの性能劣化が懸念される。
    • 本研究は,過去の知識を保持しつつ,新たなタスクに効率的に適応するアルゴリズムを提案する。
    • 提案手法SPECIALは,サーバー側アンカーを導入することで,過去のタスク性能を維持する。
    • 理論的に,SPECIALは後方知識転移の限界を保証し,累積的なドリフトを抑制できることを示した。
    • SPECIALは,既存手法と同等の収束速度を達成し,非凸最適化における効率的な学習を実現する。

    Link: https://arxiv.org/abs/2601.22274

  • 構造化アテンションを用いた効率的な動画拡散Transformer:VMonarch [cs.CV, cs.AI]目的:動画拡散Transformerにおける効率的なアテンション機構の提案
    • 動画生成AIの発展において,動画の長尺化と高品質化が重要な課題となっている。
    • 動画拡散Transformerのアテンション機構は計算量が膨大であり,長尺動画への適用が困難である。
    • スパースな動画アテンションパターンに着目し,計算量を削減する新たなアテンション機構を開発する。
    • 提案手法VMonarchは,既存手法と同等以上の動画生成品質をVBenchで達成した。
    • VMonarchはアテンション計算量を17.5倍削減し,長尺動画のアテンション計算速度を5倍以上向上させた。
    • VMonarchは最先端のスパースアテンション手法を90%のスパース率で上回る性能を示した。

    Link: https://arxiv.org/abs/2601.22275

  • SurrogateSHAP:テキスト画像生成モデルにおける貢献度評価のトレーニング不要手法 [cs.LG, cs.CV]目的:テキスト画像生成モデルの貢献者に対する適切な評価方法
    • テキスト画像生成モデルの利用拡大に伴い,データ提供者への公正な報酬が重要となっている。
    • Shapley valueは理論的に妥当だが,再学習コストや組み合わせ爆発の問題がある。
    • 事前学習済モデルを用いた推論により,再学習コストを削減し,効率的な評価を実現する。
    • SurrogateSHAPは,既存手法と比較して計算コストを大幅に削減しつつ,高い評価精度を達成した。
    • CIFAR-20,Stable Diffusion,FLUX.1など,多様なデータセットで有効性が確認された。
    • 臨床画像における誤相関の原因となるデータソースの特定にも成功し,安全性評価への応用が期待される。

    Link: https://arxiv.org/abs/2601.22276

  • リーマン多様体上の Lyapunov 最適化:最適化のための統一的フレームワーク [cs.LG]目的:最適化アルゴリズムの統一的フレームワーク
    • 機械学習の性能は最適化アルゴリズムに大きく依存する。効率的な最適化手法の確立が重要である。
    • 既存の最適化アルゴリズムは経験則に基づいた改善が中心で,理論的な保証が不十分な場合が多い。
    • 制御理論に基づき,安定性と有効性を保証する新しい最適化アルゴリズムを設計すること。
    • リーマン多様体上の Lyapunov 最適化 (RLO) は,制御理論的枠組みから系統的に導出される。
    • RLOは,速度状態と目標グラフの急速なアライメント,それに続く目標多様体上での制御された進化という2段階の学習ダイナミクスを組織する。
    • 大規模ベンチマークにおいて,最先端の性能を達成し,制御理論と機械学習最適化の橋渡しとなる。

    Link: https://arxiv.org/abs/2601.22284

  • マージ可能性の解明:モデル統合の成功を予測するための解釈可能な特性 [cs.LG]目的:モデル統合の成功を予測するための解釈可能な特性の特定
    • モデル統合は,複数のモデルの知識を効率的に組み合わせる技術であり,AIの発展に不可欠である。
    • モデル統合の成功要因は不明確であり,汎用的な予測方法が存在しないという課題がある。
    • モデル統合の成功を左右する特性を明らかにし,統合戦略の改善に貢献すること。
    • モデル統合の成功は,統合方法とタスクの種類に強く依存することが示された。
    • 勾配のL2距離などの解釈可能な指標を用いて,統合後の性能と相関する特性が特定された。
    • 部分空間の重複と勾配の整合性が,統合方法に依存しない基本的な前提条件として浮かび上がった。

    Link: https://arxiv.org/abs/2601.22285

  • PersonaCite:VoCに基づいたインタビュー可能な代理的合成AIペルソナによる検証可能なユーザー・デザイン調査 [cs.HC, cs.AI, eess.AS, eess.IV]目的:検証可能なユーザー・デザイン調査のためのAIペルソナ
    • デザインや製品開発において,ユーザー理解は不可欠であり,そのための効率的な手法が求められている。
    • 従来のプロンプトベースのAIペルソナは,根拠のない応答を生成し,信頼性に課題がある。
    • ユーザーの声(VoC)に基づき,根拠に基づいた応答を行うAIペルソナを開発し,信頼性を向上させる。
    • PersonaCiteは,会話の各ターンで実際のVoCデータを検索し,応答を根拠となる証拠に制約することで,検証可能な応答を生成する。
    • 証拠がない場合は応答を控え,応答レベルでの情報源を明示することで,透明性を確保する。
    • 専門家へのインタビューから,PersonaCiteの利点や課題,および「Persona Provenance Cards」というドキュメントパターンが明らかになった。

    Link: https://arxiv.org/abs/2601.22288

  • シックスシグマ・エージェント:コンセンサス駆動型分解実行によるLLMシステムのエンタープライズ級信頼性の達成 [cs.RO, cs.AI]目的:LLMシステムの信頼性向上
    • LLMは強力だが確率的であり,企業での利用には信頼性が不可欠である。
    • LLMは確率的であるため,企業利用における信頼性の確保が課題である。
    • コンセンサスと冗長性により,LLMシステムの信頼性を高める。
    • 本研究では,タスクを分解し,多様なLLMで並列実行,コンセンサス投票を行う「シックスシグマ・エージェント」を提案した。
    • n回の独立した出力サンプリングにより,システムエラー率を指数関数的に低下させることができることを示した。
    • 実験の結果,シングルエージェント実行と比較して14,700倍の信頼性向上とコスト80%削減を達成した。

    Link: https://arxiv.org/abs/2601.22290

  • マルチエージェントシステムにおける協調的レジリエンスのための報酬関数学習 [cs.MA, cs.LG]目的:マルチエージェントシステムにおける協調的レジリエンスの向上
    • 複雑な環境下での自律的な協力システム構築が重要視される。
    • 混合動機を持つエージェント間の協調的レジリエンスの研究が不足している。
    • 報酬関数設計を通じて,システムのレジリエンスを高めることを目指す。
    • 従来の個別報酬戦略と比較して,レジリエンス推論に基づく報酬戦略は,破壊に対する堅牢性を大幅に向上させた。
    • ハイブリッド戦略は,タスク性能を損なうことなく,資源の過剰使用などの破滅的な結果を減少させた。
    • 報酬関数の設計が,不確実な環境下での協調的な持続可能性を促進する上で重要であることが示された。

    Link: https://arxiv.org/abs/2601.22292

  • ParalESN:貯留槽計算における並列情報処理の実現 [cs.LG, cs.AI]目的:貯留槽計算の並列処理能力向上
    • 時系列データ処理において,効率的な手法の重要性が高まっている。
    • 従来の貯留槽計算は,逐次処理やメモリ消費量の問題があった。
    • 並列処理による計算効率化と,メモリ使用量の削減を目指す。
    • ParalESNは,従来の貯留槽計算と同等の予測精度を達成した。
    • 計算コストとエネルギー消費を大幅に削減できることが示された。
    • 深層学習の分野への貯留槽計算の統合を促進する可能性が示唆された。

    Link: https://arxiv.org/abs/2601.22296

  • 生成モデルに対する適応的クラスタベース密度推定を用いた確証的予測 [cs.CL, cs.LG, cs.AI, physics.ao-ph]目的:生成モデルの出力に対する信頼性の高い不確実性推定
    • 生成モデルは多様な分野で利用され,現実的なサンプル生成を可能にするため,重要性が高まっている。
    • 生成モデルの出力には,不確実性の校正が欠如しており,重要なアプリケーションにおける信頼性を損なう可能性がある。
    • 本研究は,生成モデルの出力に対する不確実性を定量化し,信頼性の高い予測を可能にすることを目的とする。
    • 提案手法CP4Genは,クラスタベース密度推定を用いることで,外れ値に強く,解釈可能性が高く,構造が単純な予測集合を構築する。
    • 合成データセットおよび気候エミュレーションを含む実世界のアプリケーションでの実験により,CP4Genが予測集合の体積と構造の単純さにおいて優れた性能を示すことが示された。
    • 本手法は,厳密かつ解釈可能な予測集合が求められる状況において,生成モデルの不確実性推定のための強力なツールを提供する。

    Link: https://arxiv.org/abs/2601.22298

  • ZK-HybridFL:連合学習のためのゼロ知識証明強化型ハイブリッド台帳 [cs.LG, cs.CR, cs.DC]目的:連合学習におけるスケーラビリティ,セキュリティ,更新検証の改善
    • データプライバシー保護が重要視される中,分散型機械学習への関心が高まっている
    • 既存の連合学習システムは,スケーラビリティやセキュリティ,更新の検証に課題がある
    • ゼロ知識証明とハイブリッド台帳により,連合学習の安全性と効率性を高める
    • ZK-HybridFLは,画像分類と言語モデリングタスクにおいて,Blade-FLやChainFLよりも高速な収束と高い精度を達成した。
    • 本手法は,悪意のあるノードやアイドルノードに対して堅牢であり,効率的なガス使用量で亜秒単位のオンチェーン検証が可能である。
    • これにより,無効な更新や孤立化攻撃を防止し,多様な環境における分散型連合学習のスケーラブルかつ安全なソリューションを提供する。

    Link: https://arxiv.org/abs/2601.22302

  • ベイズフロー:メタエージェント支援ワークフロー生成のための確率推論フレームワーク [cs.LG]目的:メタエージェント支援ワークフロー生成における確率推論のフレームワーク
    • 複雑なタスク自動化において,LLMを活用したワークフローの重要性が増している。
    • 既存手法は最適化問題として扱われ,理論的な裏付けが乏しい点が課題である。
    • ワークフロー生成をベイズ推論として捉え,理論的な根拠に基づいた手法を開発する。
    • 提案手法であるベイズフローは,既存のワークフロー生成基盤よりも最大9ポイント精度が向上した。
    • ゼロショットプロンプティングと比較して,最大65ポイント精度が向上し,優れた性能を示した。
    • ベイズワークフロー生成(BWG)は,検索ベースのワークフロー設計の原理的な改善となる。

    Link: https://arxiv.org/abs/2601.22305

  • 残差層の厳密なガウスモーメント [cs.LG, cs.NA, math.NA]目的:深層残差ニューラルネットワークにおけるガウス分布の平均と共分散の伝播
    • 深層学習モデルの不確実性推定において,確率分布の伝播は重要な課題である。
    • 既存手法では,活性化関数を通じた確率分布の伝播において近似誤差が大きい。
    • 本研究は,主要な活性化関数に対する厳密なモーメントマッチングを導出し,伝播誤差を低減する。
    • 本研究で導出した厳密なモーメントマッチングは,KLダイバージェンス誤差を大幅に改善した。
    • 実データを用いた実験では,入力に対する認識的確度の高い推論を可能にした。
    • 変分ベイズネットワークにおいて,モンテカルロ法と比較してKLダイバージェンスが大幅に減少した。

    Link: https://arxiv.org/abs/2601.22307

  • 回帰設定におけるステルスなポイズニング攻撃は防御を回避する [cs.LG, cs.AI, cs.CR]目的:回帰設定におけるステルスなポイズニング攻撃とその防御
    • 回帰モデルは産業,工学,自然科学で広く利用されており,その信頼性が重要である。
    • 既存研究では現実的でない脅威モデルを仮定しており,実用性に課題がある。
    • 本研究は,現実的な脅威モデル下でのステルス攻撃を可能にする要因と,その防御策を解明する。
    • 新たな攻撃手法は,最先端の防御策を回避できることが示された。
    • 目的関数の正規化による評価手法により,攻撃の有効性と検出可能性のトレードオフを分析できる。
    • 提案する防御策BayesCleanは,ステルス攻撃に対して既存の防御策よりも高い性能を発揮する。

    Link: https://arxiv.org/abs/2601.22308

  • なぜ推論は計画に失敗するのか:LLMエージェントにおける長期的意思決定の計画中心分析 [cs.AI, cs.CL, cs.LG]目的:LLMエージェントにおける長期的意思決定の失敗要因の分析と,それを改善するための手法の提案
    • LLMエージェントは,複雑なタスクの自動化において重要な役割を担うことが期待されている
    • LLMエージェントは,短期的な推論は得意だが,長期的計画においては一貫性を欠くという課題がある
    • 段階的な推論が,長期的計画における最適解を阻害する要因を特定し,克服すること
    • 段階的な推論は,短期的な最適解を誘導するが,長期的計画ではそれが視野狭窄を引き起こし,最終的な成果を損なう
    • FLAREは,将来の状況を考慮した計画立案により,初期段階の意思決定に将来の結果を反映させることを可能にする
    • 実験結果から,FLAREは既存手法よりも高いパフォーマンスを示し,推論と計画の違いを明確に示した

    Link: https://arxiv.org/abs/2601.22311

  • SCALAR:材料基礎モデルにおける構造的幻覚,一貫性,推論のギャップの定量化 [cs.LG, cond-mat.mtrl-sci, cs.CE]目的:材料基礎モデルの構造的幻覚,一貫性,推論能力の評価
    • 材料科学におけるLLM活用が拡大する中で,物理構造の変化に対するモデルの挙動理解は不可欠である。
    • 材料の物理的構造変化に対する汎化能力が不十分であり,構造的幻覚や矛盾が生じやすい。
    • 様々なスケールにおける構造変化に対するモデルの理解度と,その際の課題を定量的に評価する。
    • SCALARベンチマークは,材料基礎モデルの幾何学的スケール汎化能力を評価し,構造的幻覚,一貫性,推論との関連性を明らかにする。
    • 実験の結果,明示的な推論は幻覚やエラーを軽減する一方で,一貫性や妥当性を損なう場合があることが示された。
    • 幾何学的スケール汎化能力は,単なる精度だけでは判断できないことが示唆された。

    Link: https://arxiv.org/abs/2601.22312

  • トリガー即応型アライメント:ブラックボックス評価はアップデート後のアライメントを保証できない [cs.LG]目的:大規模言語モデルのアップデート前後におけるアライメントの理論的限界と実証的検証
    • 大規模言語モデルの利用拡大に伴い,安全性や倫理的な問題への対策が不可欠となっている。
    • 既存のブラックボックス評価では,アップデート後に潜在的な問題が顕在化する可能性を見過ごしやすい。
    • アップデート後のアライメント評価の重要性を明らかにし,より堅牢な評価手法の必要性を示す。
    • 静的なアライメント評価は,モデルの過剰パラメータ化により,アップデート後のアライメントを保証しないことが理論的に示された。
    • ブラックボックス評価では,真にアップデートに強いモデルと,わずかな変更で悪意のある挙動を示すモデルを区別できない。
    • 実験により,既存の評価をパスするモデルでも,アップデート後に深刻なアライメント問題を抱えるケースが存在することが確認された。

    Link: https://arxiv.org/abs/2601.22313

  • 機械学習予測を用いたガウス過程バンディット最適化と仮説生成への応用 [cs.LG]目的:高コストな真の評価と安価な予測モデルを活用した,サンプル効率の向上
    • 現実の最適化問題では,高コストな評価と安価な予測が頻繁に存在する。効率的な最適化が重要である。
    • 過去のデータや予測モデルの活用が十分ではなく,サンプル効率が低い場合がある。
    • 予測バイアスを修正し,不確実性を低減することで,サンプル効率を向上させることを目指す。
    • 提案手法PA-GP-UCBは,既存手法GP-UCBと同等の後悔率を維持しつつ,予測精度とオフラインデータのカバレッジによって制御されるより小さい定数を実現する。
    • 合成ベンチマークや人間行動データに基づいた実世界の仮説評価タスクにおいて,PA-GP-UCBは従来のGP-UCBや単純な予測拡張GP-UCBよりも高速に収束する。
    • PA-GP-UCBは,高コストなフィードバック下での仮説生成のための,汎用的でサンプル効率の高いフレームワークとして確立された。

    Link: https://arxiv.org/abs/2601.22315

  • FlowSymm:物理に基づいた対称性を保存するグラフ注意機構を用いたネットワークフロー補完 [cs.LG]目的:ネットワークフロー補完における精度向上
    • 交通,エネルギー,移動など多くのシステムにおける逆問題解決の基礎となる研究分野である。
    • 既存手法では,局所的な保存則を厳密に満たしつつ,欠損フローを正確に復元することが難しい。
    • 物理法則を考慮した対称性を保存するグラフ注意機構により,高精度なフロー補完を実現する。
    • FlowSymmは,ダイバージェンスフリーフローに対する群作用,グラフ注意エンコーダ,Tikhonov正則化を組み合わせる。
    • 観測されたフローを不変に保つ許容可能な群作用の直交基底を計算し,有効な解空間をパラメータ化する。
    • 3つの実世界のフローベンチマークにおいて,最先端のベースラインをRMSE,MAE,相関指標で上回る性能を示した。

    Link: https://arxiv.org/abs/2601.22317

  • ルーターを連携させる:疎な分散評価による言語モデルルーターの学習 [cs.LG]目的:言語モデルへのクエリのルーティングポリシー
    • LLM利用の普及に伴い,エッジデバイスや企業における効率的なモデル選択が重要になっている。
    • 評価データが分散しプライバシーの問題があるため,集中管理が困難である。
    • 分散環境下で,クライアント固有のデータからルーティングポリシーを学習し,最適化を図る。
    • 提案手法は,集中型ルーティング手法と比較して,より広範なモデルとクエリに対応可能である。
    • 連合学習によって,クライアントローカルのルーターよりも,精度とコストのバランスが向上する。
    • 理論的な結果からも,連合学習がルーティングの最適性に貢献することが示されている。

    Link: https://arxiv.org/abs/2601.22318

  • ユーザレベルの差分プライバシー下における実用的な逐次平均推定のための行列分解 [cs.LG, stat.ML]目的:逐次平均推定における精度向上
    • データ分析におけるプライバシー保護は重要であり,特に個人情報を含むデータの利用において不可欠である。
    • 従来の差分プライバシーはノイズが大きすぎ,実用的な精度を達成するのが困難であった。
    • 近似差分プライバシーと行列分解を用いて,精度と効率を両立した平均推定手法を開発すること。
    • 提案手法は,ユーザレベルの差分プライバシー下における逐次平均推定において,漸近的に下限となる平均二乗誤差を達成する。
    • 行列分解機構を活用し,平均推定に特化した効率的かつ高精度な分解法を導入した。
    • 近似差分プライバシーに基づくアプローチにより,従来の純粋な差分プライバシーよりも適用範囲が拡大する。

    Link: https://arxiv.org/abs/2601.22320