arXiv雑要約

AI - 2026/01/30 公開

  • 近傍誘導型効率的自己回帰集合Transformerによる3次元分子生成 [cs.LG, cs.AI]目的:3次元分子構造生成のための新しいモデル
    • 創薬において,分子構造の自動生成は効率化に不可欠である。
    • 従来のTransformerは分子内の原子順序に依存し,順序不変性を欠く。
    • 原子順序に依存しない,順序不変な分子生成モデルを開発すること。
    • NEATは,分子グラフを原子の集合として扱い,グラフ境界における許容可能なトークンに関する順序に依存しない分布を学習する。
    • これにより,原子レベルの順列不変性を設計段階で保証する。
    • 自己回帰的3次元分子生成において,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.05844

  • 最適化手法を最適化する [cs.LG, stat.ML]目的:勾配ベース学習における最適化手法の自動設計
    • 機械学習の性能向上には,効率的な最適化手法が不可欠である。
    • 既存の最適化手法は,問題ごとに手動で調整が必要であり,手間がかかる。
    • 学習中の勾配統計量に基づいて最適化手法を動的に設計・調整すること。
    • 最適化手法の設計問題を,損失の瞬間的な減少を最大化する問題として定式化した。
    • 最適化手法を関数とみなし,制約下での最適化問題として解くことで,既存の最適化手法を再発見し,最適なハイパーパラメータを導出した。
    • この手法により,最適化手法の設計とハイパーパラメータの調整を,学習過程中に動的に行うことが可能となる。

    Link: https://arxiv.org/abs/2512.06370

  • 不平衡配電系統におけるリアルタイムBESS最適化のための物理制約を取り入れた異種GNNアーキテクチャ [cs.LG]目的:不平衡配電系統におけるリアルタイムBESS最適化
    • 電力系統の安定化と最適化において,バッテリーエネルギー貯蔵システム(BESS)の重要性が増している。
    • 既存の深層学習手法では,三相表現が明示的でないため,相ごとのダイナミクスを正確にモデル化することが困難である。
    • 三相系統情報をGNNに組み込み,物理制約を損失関数に組み込むことで,信頼性の高いBESS最適化を実現する。
    • 提案手法は,CIGRE 18系統において,高い予測精度を示した(GCN: 6.92e-07, GAT: 1.21e-06)。
    • 物理制約を考慮した損失関数により,SoCやC-rateの制約違反をほぼゼロに抑えることが確認された。
    • これにより,信頼性が高く,制約を満たすBESSのディスパッチが可能となる。

    Link: https://arxiv.org/abs/2512.09780

  • 修正拡散言語モデル [cs.LG]目的:拡散言語モデルにおける修正能力
    • 言語モデルの性能向上は,自然言語処理の様々な応用において不可欠である。
    • 拡散言語モデルは修正に優れる理論があるが,実際には誤ったトークンを修正できない場合がある。
    • 可視的な誤りトークンを識別し,修正能力を向上させること。
    • 本研究では,修正指向のポストトレーニング原理を導入することで,拡散言語モデルの識別能力と標的型修正能力を向上させた。
    • Code Revision Benchmarkを用いて評価した結果,提案手法は標準的なMDLMを大幅に上回る性能を示した。
    • 特に,並列デコーディングによる不確実性が高い状況において,その効果が顕著であった。

    Link: https://arxiv.org/abs/2512.15596

  • 自己回帰言語モデルは密かにエネルギーベースモデルである:次トークン予測の先読み能力に関する考察 [cs.LG, stat.ML]目的:自己回帰モデルとエネルギーベースモデルの関係性の解明
    • 大規模言語モデルの発展において,モデルの基盤理解は重要である。
    • 自己回帰モデルとエネルギーベースモデルは異なるパラダイムであり,統合的な理解が不足している。
    • 自己回帰モデルの先読み能力の理論的根拠を明らかにする。
    • 自己回帰モデルとエネルギーベースモデルの間には,関数空間における明確な双射関係が存在することが示された。
    • この双射関係は,最大エントロピー強化学習におけるソフトベルマン方程式の特殊なケースに対応する。
    • 自己回帰モデルとエネルギーベースモデルの教師あり学習は等価であることが導かれた。

    Link: https://arxiv.org/abs/2512.15605

  • 循環経済トリアージのための状態拡張グラフ [cs.AI]目的:循環経済における製品の持続可能な経路を決定するための評価
    • 資源の有効活用が喫緊の課題であり,製品のライフサイクル全体での最適化が重要である。
    • 製品の廃棄段階における最適な処理方法の決定は複雑で,経済性や技術的な制約が多い。
    • 製品の価値を最大限に引き出しつつ,コストと制約を考慮した最適なトリアージ手法を確立すること。
    • 状態拡張Disassembly Sequencing Planning (DSP)グラフを用いることで,効率的な意思決定フレームワークが構築された。
    • このフレームワークは,製品の分解履歴を状態としてエンコードし,Markov性を保証することで最適な評価を可能にする。
    • 電気自動車(EV)バッテリーの階層的なトリアージを例に,その柔軟性と適用可能性が示された。

    Link: https://arxiv.org/abs/2512.15824

  • 時系列データからレポート生成による大規模言語モデルを用いたリチウムイオン電池の適応的管理 [cs.AI]目的:リチウムイオン電池の管理における,大規模言語モデルの活用
    • エネルギー貯蔵システムは重要性が増しており,効率的な運用・保守が不可欠である。
    • 既存手法では,時系列データの解釈と高レベルな状況把握に限界がある。
    • 大規模言語モデルを活用し,時系列データを理解可能なレポートに変換すること。
    • 提案手法TS2Rは,リチウムイオン電池の時系列データを構造化されたレポートに変換する。
    • TS2Rを用いたプロンプティングは,精度,ロバスト性,説明可能性において既存手法を上回る。
    • TS2RとLLMの組み合わせにより,再学習やアーキテクチャ変更なしに,専門家レベルの意思決定と予測が可能となる。

    Link: https://arxiv.org/abs/2512.16453

  • 基礎的な音声エンコーダは楽曲構造を理解しているか [cs.SD, cs.LG, eess.AS]目的:楽曲構造分析における基礎的な音声エンコーダの性能評価
    • 音楽情報検索分野では,楽曲の自動解析が重要であり,その精度向上は長年の課題である。
    • 既存の音声エンコーダでは,楽曲構造の理解度が十分ではなく,性能にばらつきがある。
    • 多様な音声エンコーダの性能を比較し,楽曲構造分析に最適な学習方法を明らかにすること。
    • 自己教師あり学習による,特にマスク言語モデリングを用いたエンコーダが楽曲構造分析で高い性能を示した。
    • 学習方法,学習データ,モデルの文脈長などが楽曲構造分析の性能に影響を与えることが明らかになった。
    • これらの結果は,今後の音声エンコーダと楽曲構造分析の研究開発に貢献すると期待される。

    Link: https://arxiv.org/abs/2512.17209

  • LLMに基づく少数の事例を用いた初期段階の噂検出における模倣エージェント [cs.CL, cs.CL, cs.AI]目的:初期段階の噂検出
    • SNSの普及により,誤情報の拡散が問題となっており,早期発見が重要である。
    • データが少ない状況下での噂の早期検出は,特に困難である。
    • 少数の事例から噂を早期に検出する新たな手法を開発すること。
    • 提案手法は,LLMを噂検出器として活用し,エージェントが早期判断を行うことで,高い性能を実現した。
    • 本手法は,LLMの再学習を必要とせず,軽量なエージェントの学習のみで済む。
    • 実世界のデータセットを用いた実験により,既存手法と比較して,精度と早期検出性能が向上することが示された。

    Link: https://arxiv.org/abs/2512.18352

  • クーマンスペクトル解析による生成モデリング:作用素理論的視点 [cs.CL, cs.LG, math.DS]目的:クーマン理論に基づく生成モデルの学習
    • 複雑な確率分布のモデリングは,機械学習や統計物理学において重要である。
    • 従来のカーネル法では,勾配消失問題が収束を妨げる場合がある。
    • クーマンスペクトル解析を用いて,効率的な生成モデルの学習を目指す。
    • 提案手法KSWGDは,線形収束性を示し,既存のカーネル法における勾配消失問題を克服する。
    • KSWGDは,ターゲットポテンシャルに関する明示的な知識を必要とせず,軌跡データから直接スペクトル構造を推定できる。
    • コンパクト多様体,メタ安定多重井戸系,高次元確率偏微分方程式における実験で,KSWGDがベースラインを上回る性能を示す。

    Link: https://arxiv.org/abs/2512.18837

  • 私のカップを持ってきて!視覚的注意プロンプトによる視覚言語行動モデルのパーソナライズ [cs.RO, cs.AI]目的:視覚言語行動モデルにおけるパーソナライズされた指示への対応
    • ロボットの人間協調において,自然な指示による操作が重要となる。
    • 汎用的な指示には対応できるものの,特定の個人オブジェクトを識別できない。
    • ユーザー固有のオブジェクトを認識し,指示に基づいて操作すること。
    • 提案手法VAPは,既存の視覚言語行動モデルに,トップダウン型の選択的注意メカニズムを導入する。
    • VAPは,参照画像を視覚的メモリとして活用し,オブジェクトの検出と埋め込みマッチングにより,指示の文脈に沿ったオブジェクトの識別を行う。
    • シミュレーションおよび実環境での実験により,VAPが汎用的な手法や他のベースライン手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2512.20014

  • 手法ベンチマークにおけるフィールド実験の代替としてのLLMペルソナ [cs.CE, cs.AI, cs.LG, econ.EM]目的:手法ベンチマークにおけるLLMペルソナの有効性
    • 社会システムにおける手法(アルゴリズム)の評価は重要であり,現実世界での影響を理解する上で不可欠である。
    • フィールド実験は信頼性が高いが,コストと時間がかかるため,手法開発の速度を遅らせる可能性がある。
    • 本研究は,LLMペルソナを用いたベンチマークが,フィールド実験と同等の結果を得られる条件を明らかにする。
    • 集約結果のみを観測し,手法の識別に基づかない評価においては,人間をペルソナに置き換えてもベンチマークのインターフェースは変わらない。
    • ペルソナベンチマークの有用性は,誘導される集約チャネルの識別可能性に依存し,適切なサンプルサイズによって決定される。
    • 異なる手法を確実に識別できるサンプルサイズの境界が明確化された。

    Link: https://arxiv.org/abs/2512.21080

  • GLUE:勾配を用いない専門家統合学習 [cs.DC, cs.LG]目的:専門家モデルの混合による汎化モデルの初期化手法
    • 多言語音声認識など,複数の専門家モデルが共存するシステムが普及している。
    • 新たなドメインへの適用では,各専門家モデルの知識を統合した汎化モデルが必要となる。
    • 混合係数の最適化に,勾配計算を必要としない手法を提案し,効率的なドメイン拡張を実現する。
    • GLUEは,2回のフォワードパスのみで混合係数を学習するため,計算コストが低い。
    • 実験結果から,GLUEはデータサイズに基づいた重み付けや,プロキシ指標選択よりも高い精度を達成した。
    • また,勾配計算を用いた手法と同等以上の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2512.22467

  • 状態的反射メモリによる学習:Memento 2 [cs.AI, cs.CV, cs.LG]目的:継続的および経験的学習のメカニズムの理論的考察
    • 大規模言語モデルの継続的な適応能力向上は,実用的な応用において不可欠である。
    • 従来の強化学習では,モデル更新なしでの継続学習が困難であった。
    • 過去の経験を活用した反射的メカニズムによる適応能力の解明を目指す。
    • エピソード記憶と強化学習を組み合わせることで,長期的なタスクに対する汎化適応が可能となることが示された。
    • 状態的反射決定過程という新しいモデルを導入し,反射メモリの動的な挙動を形式的に記述した。
    • 記憶容量が増加し状態空間の網羅性が向上するにつれて,合成ポリシーが最適解に収束することが証明された。

    Link: https://arxiv.org/abs/2512.22716

  • テキストコーパスにおける多段階意味構造の発見:密度ベースの木構造とLLM埋め込みの利用 [cs.CL, cs.AI]目的:テキストコーパスにおける多段階意味構造の解明
    • 大規模テキストデータから知識発見の重要性が高まっている。意味構造の理解は,情報検索や知識グラフ構築に不可欠である。
    • 従来の階層構造は固定的な分類や事前定義に依存し,テキストデータの潜在的な意味構造を十分に捉えられない場合がある。
    • 埋め込み空間における密度を分析し,データから直接意味構造を抽出することで,階層構造の自動的な発見を目指す。
    • LLM埋め込みを用いて密度ベースの木構造を構築することで,多段階の意味構造を可視化することに成功した。
    • 意味的整合性は中間的な密度レベルでピークに達し,急激な変化は意味的解決度の変化に対応することが示された。
    • 学術コーパスへの適用により,主要分野,学際的な近接性,新たなテーマクラスターが明らかになった。

    Link: https://arxiv.org/abs/2512.23471

  • EEGに基づくグラフ誘導ドメイン適応によるロバストなクロスセッション感情認識 [cs.LG]目的:クロスセッション感情認識のロバスト性向上
    • 人間と機械の円滑な対話には,感情状態の正確な認識が不可欠である。
    • セッション間のばらつきが,モデルの汎化性能を低下させる主要な課題となっている。
    • セッション間の差異を軽減し,EEGデータの構造を維持することで,より信頼性の高い感情認識を目指す。
    • 提案手法EGDAは,SEED-IVデータセットにおいて,3つの転移学習タスクでそれぞれ81.22%,80.15%,83.27%の精度を達成した。
    • EGDAは,既存のベースライン手法と比較して,ロバストなクロスセッション性能を示すことが確認された。
    • ガンマ周波数帯が最も識別力が高く,中心頭頂葉と前頭前野が感情認識に重要であることが示唆された。

    Link: https://arxiv.org/abs/2512.23526

  • 語彙に潜むトロイの木馬:LLM合成の巧妙な妨害 [cs.LG, cs.CL, cs.CR]目的:LLM合成における語彙移植時の脆弱性
    • LLMの能力拡張には多様なモデルの組み合わせが不可欠であり,その基盤技術として語彙の互換性が重要である。
    • 異なるモデルの語彙を統合する際に,悪意のあるトークンが混入するリスクが潜在している。
    • 語彙移植プロセスにおける脆弱性を利用し,ベースモデルの生成を妨害する手法を開発する。
    • 本研究では,ドナーモデルでは無害なトークンが,移植後にベースモデルで悪意のある特徴として再構成される攻撃を実証した。
    • この攻撃は,トレーニングを必要とせず,外れ値検出を回避し,ファインチューニングや重みマージに対する耐性を示す。
    • モジュール型AI合成パイプラインに隠れたリスクが存在することが明らかになった。

    Link: https://arxiv.org/abs/2601.00065

  • 確率的(偏)微分方程式に対するニューラル演算子展開 [cs.LG]目的:確率的微分方程式および確率的偏微分方程式の解作用素の学習
    • 自然科学や機械学習において確率的変動を記述する上で不可欠な方程式群である。
    • 従来の解法では計算コストが高く,高次元問題への適用が困難である。
    • 深層学習を用いて,高速かつスケーラブルな解作用素の学習を目指す。
    • Wiener-chaos展開を利用したニューラル演算子アーキテクチャを提案し,ノイズ駆動パスをWick-Hermite特徴量へ投影することで,ノイズから軌跡を再構築可能にした。
    • 多次元確率的微分方程式および準線形確率的偏微分方程式に対し,係数を支配する結合決定論的常微分方程式/偏微分方程式系を明らかにした。
    • 標準的な確率的偏微分方程式ベンチマーク,画像サンプリング,グラフ補間,金融予測,パラメータ推定,SDE洪水予報など,多様なタスクにおいて競争力のある精度を達成した。

    Link: https://arxiv.org/abs/2601.01021

  • SimpleMem:LLMエージェントのための効率的な生涯記憶 [cs.AI]目的:LLMエージェントの長期的な相互作用を可能にする,効率的な記憶システムの開発
    • 複雑な環境下でのLLMエージェント活用には,過去の経験を効果的に管理する記憶機構が不可欠である。
    • 既存手法は,冗長性の高さやトークンコストの増大といった課題を抱えている。
    • 本研究は,意味的損失を抑えつつ圧縮することで,効率的な記憶管理を実現する。
    • SimpleMemは,セマンティック構造化圧縮,オンラインセマンティック合成,意図を考慮した検索計画の3段階パイプラインを採用。
    • LoCoMoデータセットにおいて,F1スコアを平均26.4%向上させ,推論時のトークン消費量を最大30倍削減。
    • SimpleMemは,精度,検索効率,推論コストのバランスに優れた,高性能かつ効率的な記憶フレームワークであることを実証。

    Link: https://arxiv.org/abs/2601.02553

  • スマートグリッド保護リレーに対するサイバー攻撃検出のための大規模言語モデル [cs.CR, cs.LG, eess.SP]目的:変圧器差動リレーのサイバー攻撃検出
    • 電力システムは重要なインフラであり,サイバー攻撃からの保護が不可欠である。
    • 既存の攻撃検知手法は,複雑な攻撃やノイズに対して脆弱な場合がある。
    • 大規模言語モデルを用いた,より堅牢で解釈可能な攻撃検知手法の開発。
    • 提案手法では,リレーの時系列データを自然言語プロンプトに変換し,コンパクトなLLMで処理する。
    • DistilBERTを用いた実験では,97.62%の攻撃検出率と完全な故障検出精度を達成した。
    • LLMのアテンションメカニズムにより,リレー測定の重要な時間・位相領域を可視化できる。

    Link: https://arxiv.org/abs/2601.04443

  • スケール化された行動模倣が因果推論を改善する:リアルタイムビデオゲームプレイのためのオープンモデル [cs.AI]目的:ビデオゲームプレイのための基盤モデルのトレーニングレシピ
    • ゲームAI分野は,人間レベルのプレイを実現するための重要な研究領域である。
    • 大規模なデータとモデルサイズが求められるものの,リアルタイム推論が困難である。
    • 行動模倣のスケーリング則を解明し,因果推論能力の向上を目指す。
    • 本研究で開発されたモデルは,複数の3Dゲームにおいて人間レベルのパフォーマンスを達成した。
    • 実験の結果,トレーニングデータ量とネットワークの深さを増やすことで,モデルの因果関係に基づいたポリシー学習が促進された。
    • 大規模モデルにおいても,玩具環境で確認された因果的改善が再現された。

    Link: https://arxiv.org/abs/2601.04575

  • AI駆動による労働市場の変化:エジプトの1万件の求人情報に基づくグラフ分析と政策的示唆 [cs.CY, cs.AI]目的:AIによる自動化で職を失う労働者が,より安全な職に移行できる可能性
    • 労働市場はAI技術の進展により急速に変化しており,その影響を理解することが重要である。
    • 自動化による職の喪失と,新たな職への移行の障壁が存在し,労働者のリスキリングが課題となっている。
    • AIによる職の喪失者の再就職経路を明らかにし,効果的なリスキリング策の策定に貢献する。
    • エジプトの求人情報を分析した結果,20.9%の職が自動化のリスクにさらされていることが判明した。
    • しかし,リスクにさらされた労働者のうち,実際に移行可能な経路を持つのはわずか24.4%に過ぎない。
    • プロセス指向型スキルが最も効果的な介入策であり,移行経路の15.6%に登場することが示された。

    Link: https://arxiv.org/abs/2601.06129

  • 継続学習ダイナミクスを実現するバックプロパゲーションフリーなフィードバック・ヘブ学習ネットワーク [cs.CL, cs.NE, cs.LG]目的:継続学習に関連する挙動の表現可能性
    • 脳の学習メカニズムの理解に不可欠であり,省エネルギーなAI開発への応用が期待される。
    • 従来の継続学習手法は,バックプロパゲーションに依存しており,生物学的な妥当性に課題がある。
    • バックプロパゲーションを用いない,より生物学的に妥当な継続学習メカニズムの解明を目指す。
    • コンパクトな予測・再構成アーキテクチャとフィードバック経路の導入により,局所的な可塑性ルールの有効性が示された。
    • 順次学習では,出力結合が初期の関連付けを抑制する一方,フィードバック結合は関連付けの痕跡を保持することが確認された。
    • 交互学習では,両方の関連付けが同時に維持され,シーケンシャルな抑制は起こらないことが示された。

    Link: https://arxiv.org/abs/2601.06758

  • 強化学習のロバスト性向上のための報酬維持攻撃 [eess.SY, cs.SY, cs.LG]目的:強化学習におけるロバスト性の向上
    • 強化学習は,現実世界の複雑な問題を解決する上で重要な技術である。
    • 従来の敵対的攻撃は,軌跡全体に影響が及ぶため,適切な強度設定が難しい。
    • 報酬を維持しながら敵対的強度を適応的に変化させることで,ロバスト性を高める。
    • 提案手法では,状態ごとに敵対的攻撃の強度を調整し,目標とする報酬ギャップを維持する。
    • 適応的な訓練により,様々な摂動強度に対してロバストなポリシーを獲得できる。
    • 固定半径や一様半径の敵対的訓練よりも,高い性能を示すことが確認された。

    Link: https://arxiv.org/abs/2601.07118

  • カーネルアラインメントに基づくマルチビュー教師なし特徴選択とサンプルレベル適応グラフ学習 [cs.LG]目的:マルチビューデータの次元削減
    • 多様なデータソースからの情報統合が重要視されているため。
    • 既存手法は線形相関に焦点を当て,非線形依存関係を見落とす場合がある。
    • サンプルごとの局所的な構造の明確性の違いを考慮したグラフ学習。
    • 本研究では,カーネルアラインメントと直交制約により,線形および非線形な特徴間の冗長性を削減する。
    • 異なるビューからの類似度グラフをサンプルレベルで融合することで,各サンプルに対するビューの重みを自動的に調整する。
    • 実データを用いた実験により,提案手法が既存手法よりも優れていることが示された。

    Link: https://arxiv.org/abs/2601.07288

  • 疑似軌道蒸留を用いた超高速拡散LLM: d3LLM [cs.RO, cs.LG, cs.AI]目的:拡散LLMにおける精度と並列性のトレードオフ解消
    • LLMは自然言語処理の基盤技術であり,その性能向上は様々な応用分野に貢献する。
    • 拡散LLMは並列処理が可能だが,精度が低下しやすいという課題がある。
    • 精度と並列性を両立させ,実用的な拡散LLMを実現することを目指す。
    • 提案手法d3LLMは,既存の拡散LLM (LLaDA/Dream)と比較して最大10倍の高速化を達成した。
    • 自己回帰モデルに対しても,精度をほぼ維持しつつ最大5倍の高速化を実現した。
    • 新しい評価指標AUP (Accuracy Under Parallelism)を導入し,精度と並列性を同時に評価した。

    Link: https://arxiv.org/abs/2601.07568

  • 遅延とメモリ制約下におけるスケーラブルなシーケンシャル推薦 [cs.IR, cs.AI]目的:遅延とメモリ制約下でのスケーラブルなシーケンシャル推薦手法の開発
    • ユーザー行動の長期的なモデリングは重要だが,計算資源の制約がある
    • Transformerモデルは計算量が大きく,ユーザー履歴の切り詰めが必要
    • 効率的な長期モデリングと計算資源の制約緩和を目指す
    • HoloMambaRecは,SASRecよりも高い精度をAmazon BeautyとMovieLens-1Mの両方で示した。
    • MovieLens-1Mにおいて最先端のランキング性能を達成し,Amazon BeautyでもGRU4Recに次ぐ性能を示した。
    • メモリ使用量は大幅に削減され,実用性と拡張性が高い。

    Link: https://arxiv.org/abs/2601.08360

  • アルゴリズムの視線:LAION-Aesthetics予測モデルの監査と民族誌的考察 [cs.HC, cs.AI, cs.CV]目的:視覚生成AIモデルにおける美的評価のバイアス検証
    • 視覚生成AIの発展は著しいが,美的評価基準の偏りは,生成されるコンテンツの多様性を損なう恐れがある。
    • 既存の美的評価モデルは,特定の文化や価値観に偏った判断を下す可能性があり,公正性に問題がある。
    • 本研究は,LAION-Aesthetics予測モデルのバイアスを明らかにし,より包括的な美的評価のあり方を模索する。
    • LAION-Aesthetics予測モデルは,女性に関するキャプションを持つ画像を過剰に選択し,男性やLGBTQ+に関する画像を却下する傾向が見られた。
    • 西洋および日本のアーティストによる風景,都市景観,ポートレイトの写実的な画像が,モデルによって高く評価される傾向があった。
    • モデルの開発過程において,英語圏の写真家や西洋のAI愛好家の美的評価が中心であったことが,バイアスの原因として考えられる。

    Link: https://arxiv.org/abs/2601.09896

  • 金脈を探す:汎用知識グラフを用いたドメイン特化型知識グラフの拡張 [cs.AI]目的:ドメイン特化型知識グラフの完全性と実用性を高めるための,汎用知識グラフからの関連する事実の抽出と統合
    • ドメイン特化型知識グラフは重要だが,汎用知識グラフと比較して網羅性に課題がある。
    • 既存手法では,外部データからの知識抽出や内部推論に頼るが,その範囲と質には限界がある。
    • 汎用知識グラフを効果的に活用し,ドメイン特化型知識グラフの補完を目指す。
    • 提案手法ExeFuseは,ニューロシンボリックなFact-as-Programパラダイムに基づき,論理的な関連性を推論する。
    • ExeFuseは,表面的な類似性にとらわれず,ドメインとの関連性を高め,粒度の調整を行うことで,優れた融合性能を実現した。
    • 新たに構築された評価データセットを用いて,標準的な評価基盤を確立した。

    Link: https://arxiv.org/abs/2601.10485

  • PROMA:参照なし近接方策更新のための射影マイクロバッチ累積 [cs.LG, cs.AI]目的:近接方策更新手法の改良
    • 強化学習は,複雑な意思決定問題を解決する上で重要な役割を担う。
    • 従来の近接方策更新法では,参照方策への依存やエントロピー崩壊が課題となる。
    • 参照方策に依存せず,安定した近接方策更新を可能にする手法の開発。
    • PROMAは,マイクロバッチ間の累積において,勾配を射影することで近接更新を実現する。
    • この射影により,エントロピー崩壊を防ぎつつ,GRPOよりもタイトな局所KL制御を可能にする。
    • マイクロバッチ内での変種(Intra-PROMA)も独立して機能する。

    Link: https://arxiv.org/abs/2601.10498

  • ディープ GraphRAG:階層的検索と適応的統合へのバランスの取れたアプローチ [cs.IR, cs.AI]目的:階層的検索と適応的統合によるバランスの取れたアプローチ
    • 知識獲得において,グラフ構造データの活用は重要性が増しており,高度な情報検索が求められている。
    • 既存のグラフRAGフレームワークは,大規模グラフの探索,経路最適化,探索と活用のバランスに課題がある。
    • より効率的かつ高精度な知識検索を実現するため,グラフ構造データの階層性を考慮した手法が必要である。
    • ディープ GraphRAGは,まず大域的なフィルタリングにより検索空間を削減し,関連するサブグラフを優先する。
    • 次に,エンティティレベルの微細な検索を行うことで,効率性と網羅性のバランスを取っている。
    • 動的重み付け報酬GRPOを用いた強化学習により,小型モデルでも大規模モデルに匹敵する性能を実現した。

    Link: https://arxiv.org/abs/2601.11144

  • SDFLoRA:プライバシー保護のための異種クライアントに対する選択的デカップルドLoRA [cs.DM, math.CO, cs.LG, cs.AI]目的:大規模言語モデルのプライバシー保護ファインチューニングにおける選択的デカップルドLoRAの有効性
    • 分散データ環境下での言語モデル適応は重要であり,プライバシー保護が不可欠である。
    • クライアント間のランクやデータ分布の不均一性が,LoRA更新の集約を不安定化させる問題がある。
    • クライアント固有の情報を保護しつつ,集約の安定性を高めることで,性能劣化を防ぐことを目指す。
    • 提案手法SDFLoRAは,共有成分とプライベート成分にLoRA更新を分離することで,異種クライアント間の集約を安定化させる。
    • プライベート成分をローカルに保持し,共有成分のみをアライメントすることで,DPとの互換性を高め,ノイズ注入を最小限に抑える。
    • 複数のベンチマーク実験により,SDFLoRAが既存のFederated LoRAよりも優れた性能とプライバシー保護を実現することが示された。

    Link: https://arxiv.org/abs/2601.11219

  • 低ランクキーバリューアテンション [cs.LG]目的:Transformerにおけるキーバリューキャッシュのメモリボトルネック軽減
    • Transformerは自然言語処理の基盤技術であり,その性能向上は重要である。
    • Transformerのメモリ消費量は大きく,特にキーバリューキャッシュがボトルネックとなる。
    • キーバリューキャッシュの冗長性を利用し,メモリ効率を改善する。
    • LRKVアテンションは,標準的なMHAと比較して,45-53%のキーバリューキャッシュメモリで同等の性能を達成する。
    • LRKVは,18-25%高速に同等のベースライン品質に到達する (訓練ステップ数で測定)。
    • 教師あり中間訓練後,ARC-Easy,ARC-Challenge等のベンチマークで最高の結果を示す。

    Link: https://arxiv.org/abs/2601.11471

  • エチオピアにおける医療施設配置:アルゴリズム計画への専門知識統合のためのLLM活用 [cs.AI]目的:エチオピアの医療施設アップグレードの優先順位決定
    • エチオピアでは,特に農村部での医療サービスへのアクセス向上が課題であり,効率的な施設配置が重要である。
    • 限られた資源の中で,多様な専門家や関係者の意向を考慮した施設配置は複雑であり,最適化が困難である。
    • 専門家の定性的な知見を定量的な最適化に組み込み,公平でデータに基づいた医療計画を支援する。
    • 提案するLEGフレームワークは,人口カバレッジ最適化アルゴリズムとLLMによる反復改善を組み合わせる。
    • 実世界のデータを用いた実験により,フレームワークの有効性と公平な医療計画への貢献が示された。
    • 人間とAIの協調により,専門家の定性的なガイダンスを反映しつつ,カバレッジ保証を維持する。

    Link: https://arxiv.org/abs/2601.11479

  • 幾何学的事前条件付けとカリキュラム最適化による訓練可能性重視のハイブリッド量子回帰 [cs.LG, quant-ph]目的:ハイブリッド量子回帰モデルの構築
    • 科学分野における機械学習への量子ニューラルネットワークの関心が高まっている
    • 回帰設定では,ノイズの多い勾配と悪条件の最適化により,訓練可能性が制限される
    • 量子回帰の安定化を目指し,幾何学的事前条件付けとカリキュラム学習を組み合わせる
    • 提案手法は,PDE情報回帰ベンチマークおよび標準回帰データセットにおいて,純粋なQNNのベースラインよりも一貫して性能が向上した。
    • データが限られた状況下では,より安定した収束が確認された。
    • 幾何学的事前条件付けとカリキュラム学習の組み合わせが,量子回帰を安定化させるための実用的なアプローチであることが示唆された。

    Link: https://arxiv.org/abs/2601.11942

  • 計画,検証,充填:拡散言語モデルのための構造化並列デコーディングアプローチ [cs.CL, cs.AI, cs.LG]目的:拡散言語モデルにおける効率的なテキスト生成手法
    • 自然言語処理において,テキスト生成は重要な課題であり,その性能向上が求められている。
    • 従来の自己回帰モデルは逐次的な処理に依存するため,並列化が難しく,効率に課題がある。
    • 拡散言語モデルの潜在的な能力を最大限に引き出し,より効率的なテキスト生成を実現すること。
    • 提案手法であるPlan-Verify-Fill (PVF) は,計画段階で重要な意味的アンカーを優先し,検証プロトコルを用いて構造的な停止を可能にする。
    • PVFは,LLaDA-8B-InstructとDream-7B-Instructを用いた評価において,既存の並列デコーディング手法と比較して,Function Evaluation回数を最大65%削減した。
    • これにより,PVFは精度を損なうことなく,拡散言語モデルの効率性を大幅に向上させることを示した。

    Link: https://arxiv.org/abs/2601.12247

  • 実行可能な解釈可能性は対称性に基づいて定義されねばならない [cs.AI, cs.LG, cs.NE]目的:AIにおける解釈可能性の定義の形式的な検証・設計方法
    • AIの安全性と信頼性確保には,モデルの内部動作を理解する解釈可能性が不可欠である。
    • 既存の解釈可能性の定義は曖昧で,具体的な検証方法や設計指針を示せていない。
    • 解釈可能性を対称性という概念で捉え,形式的に検証可能な定義を提示すること。
    • 解釈可能なモデルを確率モデルのサブクラスとして形式化することに成功した。
    • アラインメント,介入,反事実など,解釈可能な推論をベイジアン反転の一形態として統一的に表現した。
    • 安全性基準や規制への適合性を検証するための形式的な枠組みを提供できる可能性を示した。

    Link: https://arxiv.org/abs/2601.12913

  • グラフニューラルネットワークはヒューリスティックである [cs.AI, cs.LG]目的:組合せ最適化のためのヒューリスティック
    • 組合せ最適化問題は,現実世界の様々な課題に応用されており,その重要性は高い。
    • 既存手法は計算コストが高く,大規模問題への適用が困難な場合が多い。
    • グラフニューラルネットワークを用いて,効率的なヒューリスティックを開発すること。
    • 単一の学習パスで,グラフニューラルネットワークを組合せ最適化のための教師なしヒューリスティックに変換できることを示した。
    • グラフ構造の制約を組み込むことで,探索や教師信号なしで直接解を生成可能となった。
    • ドロップアウトとスナップショットアンサンブルにより,モデルは暗黙のアンサンブルとして機能し,解の多様性を高め,最適性のギャップを縮小する。

    Link: https://arxiv.org/abs/2601.13465

  • MAS-Orchestra: 包括的オーケストレーションと制御されたベンチマークによるマルチエージェント推論の理解と改善 [cs.CG, math.CO, cs.CL, cs.AI, cs.CL, cs.MA]目的:マルチエージェントシステムの推論能力向上
    • 複雑な問題解決において,複数のエージェントが協調することで,単独エージェントよりも高度な知能が期待される。
    • 既存の自動MAS設計手法は,システム全体を俯瞰した推論が難しく,複雑なエージェント設定に対応できない場合がある。
    • MASの有効性を検証し,効果的な学習フレームワークを開発することで,マルチエージェントシステムの可能性を最大限に引き出す。
    • MAS-Orchestraは,マルチエージェントのオーケストレーションを関数呼び出しによる強化学習問題として定式化し,システム全体を一度に生成する。
    • 導入したMASBENCHにより,タスク構造,検証プロトコル,エージェントの能力がMASの性能に大きく影響することが明らかになった。
    • 数学的推論,マルチホップQA,検索ベースQA等の既存ベンチマークにおいて,ベースラインと比較して10倍以上の効率向上を達成した。

    Link: https://arxiv.org/abs/2601.14652

  • 因子分解型同時シフトの再検討 [cs.LG, stat.ML]目的:分布シフトの解析
    • 機械学習モデルの汎化性能を左右するため,分布シフトへの対応が重要である。
    • 従来の因子分解型同時シフトの研究は,カテゴリカルなラベルに限定されていた。
    • 一般的なラベル空間における分布シフトを解析する枠組みを提案し,問題を解決する。
    • 因子分解型同時シフトは,連続的なラベルシフトと共変量シフトから生じることが示された。
    • 既存の結果を一般的なラベル空間に一般化し,期待値最大化アルゴリズムの拡張を提案した。
    • 一般的なラベル空間における一般化ラベルシフトについても考察を加えた。

    Link: https://arxiv.org/abs/2601.15036

  • 結果に基づく強化学習は,適切なデータがあればTransformerに推論をもたらすことが証明される [cs.LG, cs.AI]目的:Transformerにおける体系的な推論の出現メカニズムの解明
    • Transformerは自然言語処理において高い性能を示すが,複雑な推論能力の獲得が課題である。
    • 強化学習を用いてTransformerを訓練する際,疎な報酬が推論能力の獲得にどう貢献するか不明である。
    • 単純な事例を多く含むデータセットを用いることで,Transformerが推論能力を習得できることを示す。
    • 最終的な正解のみを報酬として与える訓練でも,Transformerは体系的なアルゴリズムに収束することが証明された。
    • 単純な事例のデータ分布における質量が重要であり,これが少ないと推論能力の学習は困難となる。
    • 理論的結果は合成データと実世界の言語モデルにおける数学的推論タスクで検証され,実用性も示された。

    Link: https://arxiv.org/abs/2601.15158

  • MMGRid:時間的およびクロスドメイン生成推薦におけるモデルマージング [cs.IR, cs.AI]目的:時間とドメインを考慮した生成推薦のためのモデルマージング手法
    • 推薦システムは,情報過多な現代において,ユーザーに適切な情報を提供する上で不可欠である。
    • 生成推薦モデルは規模が拡大し計算コストが増大しており,効率的な運用が課題となっている。
    • 異なるコンテキストで専門化された生成推薦モデルを効果的に統合し,コストを削減することを目指す。
    • モデルマージングにより,パラメータの競合が発生することが示された。これはトークン分布の変化や目的の差異に起因する。
    • ベースモデル置換により,タスク認識とコンテキスト固有のパラメータ変化を分離することで,この競合を緩和できる。
    • コンテキスト間の漸進的な学習は,新しいコンテキストに偏る傾向があるため,重み付けコンテキストマージによってバランスを取ることが有効である。

    Link: https://arxiv.org/abs/2601.15930

  • VidLaDA:効率的な動画理解のための双方向拡散大規模言語モデル [cs.RO, cs.CL, cs.CV, cs.AI]目的:効率的な動画理解のための新しい大規模言語モデル
    • 動画理解は,AI技術の発展において重要な役割を担う。様々な応用が期待されている。
    • 既存の動画大規模言語モデルは,効率性の面でボトルネックが存在する。
    • 双方向アテンションと並列デコードによる効率的な動画理解モデルの開発。
    • VidLaDAは,最新の一方向モデルと同等の性能を示す。
    • 拡散言語モデルの性能を上回り,MARS-Cacheによって12倍以上の高速化を実現。
    • 正確性を損なうことなく,計算コストを大幅に削減することに成功した。

    Link: https://arxiv.org/abs/2601.17868

  • ローカルに思考し,グローバルに説明する:グラフ誘導LLM調査:ローカル推論と信念伝播 [cs.AI, cs.LG, cs.LO]目的:大規模で多様な運用データからの証拠を反復的にマイニングすることで説明を構築する,オープンエンドな調査におけるLLMの能力向上
    • LLMは知識発見において重要な役割を果たすが,その能力は環境の複雑さとデータの規模に左右される。
    • LLMはコンテキストウィンドウの制限から,重要な証拠を廃棄するリスクがあり,説明の信頼性に課題がある。
    • 依存グラフを用いて,LLMによる局所的な証拠マイニングとラベル付け,そして信念伝播を組み合わせることで,この問題を解決する。
    • EoGは,ITBench診断タスクにおいて,ReActベースラインと比較して,精度と実行の一貫性を向上させた。
    • 平均的にMajority-at-kエンティティF1スコアで7倍の改善が見られた。
    • EoGは,LLMの局所的な証拠マイニングとラベル付けと,決定論的なコントローラーによるグラフ探索を分離した。

    Link: https://arxiv.org/abs/2601.17915

  • SKETCH:意味的キーポイント条件付けによる長期的船舶軌跡予測 [cs.RO, cs.AI]目的:長期的船舶軌跡予測の新たな手法
    • 海洋交通安全の確保や効率的な航行計画において,船舶の正確な軌跡予測は不可欠である。
    • 既存手法は,複雑な航行行動や環境要因により,長期間にわたる予測で方向性のずれや不自然な軌跡を生じやすい。
    • 航行意図を捉えたキーポイントに基づき,予測の精度と信頼性を向上させることを目指す。
    • 提案手法では,高レベルな次キーポイントに条件付けすることで,長期的予測を意味的な意思決定と局所的な運動モデルに分解する。
    • 履歴データからのキーポイントの推定に事前学習とファインチューニング戦略を採用し,効率的な学習を実現している。
    • 実世界のAISデータを用いた実験により,特に長時間の航行,方向性,詳細な軌跡予測において,最先端手法を凌駕する性能が確認された。

    Link: https://arxiv.org/abs/2601.18537

  • デジタル時代における聞き過ごされた声:AIバイアスと音声多様性の再考 [cs.HC, cs.AI, cs.CY]目的:AIバイアスと音声多様性の問題に関する考察
    • 音声は社会における包容と排除の重要な指標であり,多様性の尊重が不可欠である。
    • 標準化された音声で訓練されたAIは,多様な音声を認識できず,デジタル格差を拡大している。
    • AI技術設計の包容性向上と,差別的なアルゴリズム判断を最小限に抑えるための対策が求められる。
    • 現代社会において,非典型的な発話パターンを持つ人々が疎外されている現状が浮き彫りになった。
    • AI技術の普及が,機会へのアクセスを仲介する中で,音声多様性の重要性が強調された。
    • 包容的な技術設計,バイアス軽減のためのトレーニング,そして政策改革の必要性が提唱された。

    Link: https://arxiv.org/abs/2601.18641

  • ハイパースフェリック座標を用いたVAE:ハイパーボリューム圧縮潜在空間からの異常検知の改善 [cs.LG]目的:異常検知性能の向上
    • 高次元データにおける潜在空間の構造化は,機械学習モデルの性能に大きく影響する。
    • 高次元潜在空間では,ハイパーボリュームの指数関数的な増加が生成能力を低下させる。
    • 潜在変数をハイパースフェリック座標で表現することで,潜在空間の圧縮と異常検知能力の向上を目指す。
    • 提案手法は,VAEの潜在変数をハイパースフェリック座標で表現することで,潜在ベクトルの分布をより効果的に圧縮する。
    • その結果,無教師学習およびOOD(分布外)異常検知の両方において,既存手法を上回る性能を達成した。
    • 火星探査ローバーの画像や銀河画像といった複雑な実世界データセット,およびCifar10やImageNetのベンチマークデータセットで有効性が確認された。

    Link: https://arxiv.org/abs/2601.18823

  • GUIGuard:プライバシー保護GUIエージェントのための汎用的なフレームワークへ [cs.CR, cs.AI, cs.CV]目的:GUIエージェントにおけるプライバシー保護
    • GUIエージェントは自動化の効率化に貢献するが,個人情報の取り扱いが課題となる。
    • GUI操作は,より詳細でアクセスしやすい個人情報を含むため,プライバシーリスクが高い。
    • GUIエージェントのプライバシー保護を実現し,実用性を高めることを目指す。
    • 既存のエージェントはプライバシー認識において限定的な性能しか示しておらず,特にAndroidやPC環境での精度が低いことが示された。
    • プライバシー保護下においても,タスクプランニングのセマンティクスを維持可能であり,クローズドソースモデルの方がより一貫性を示すことが確認された。
    • 適切な保護戦略により,プライバシーを維持しつつタスクの精度を向上させることが可能である。

    Link: https://arxiv.org/abs/2601.18842

  • 適応が勝利するのはいつか? 量子制御におけるメタ学習のスケーリング則 [cs.LG, cs.AI, cs.SY, eess.SY, quant-ph]目的:量子制御におけるメタ学習のスケーリング則
    • 量子ハードウェアの性能向上には,デバイスの個体差や環境変動への対応が不可欠である。
    • 従来の制御手法では,最適な性能を発揮できないか,デバイスごとに再調整が必要となる場合がある。
    • 適応学習が有効となる条件を定量的に明確化し,デバイス調整のコスト削減を目指す。
    • メタ学習による適応利得は,勾配ステップ数の増加に伴い指数関数的に飽和することが示された。
    • タスクの分散が大きい場合,適応利得は線形的に向上し,適応学習のメリットが大きくなることが確認された。
    • 量子ゲートの較正において,分散の低いタスクでは効果は小さかったが,ノイズの強い条件下では40%以上の忠実度向上を実現した。

    Link: https://arxiv.org/abs/2601.18973

  • LLMと停止問題:プログラム終了予測の再検討 [cs.CL, cs.AI, cs.PL]目的:プログラムの終了予測の性能評価
    • プログラムの正当性確認は,ソフトウェア開発において不可欠であり,その自動化が求められている。
    • 停止問題は原理的に解決不可能であり,実用的な検証ツールは近似解に頼らざるを得ない。
    • LLMがプログラムの終了予測において,既存のツールに匹敵する性能を発揮するか検証する。
    • LLMは,Cプログラムの終了予測において高い性能を示し,GPT-5やClaude Sonnet-4.5は既存のツールに次ぐランキングとなった。
    • LLMは終了予測は可能だが,その根拠となる証明を提示することは難しい。
    • プログラムの長さが増加すると,LLMの性能は低下する傾向が見られた。

    Link: https://arxiv.org/abs/2601.18987