arXiv雑要約

AI - 2026/01/30 公開

  • 検索注入型推論サンドボックス:検索と推論能力の分離を評価するためのベンチマーク [cs.AI]目的:検索と推論能力の分離に関する評価基準
    • 大規模言語モデルの科学的情報処理能力の評価は重要である。既存の評価基準では,その能力を正確に測れない場合がある。
    • 従来の評価では,検索と推論が混同されており,モデルの真の推論能力を判断しにくい。また,パラメータ記憶の影響も無視できない。
    • 本研究は,検索と推論を分離し,モデルの能力を正確に評価できる基準を構築することを目指す。
    • DeR2は,検索と推論を分離した制御された環境で,深層研究を評価するサンドボックスである。これにより,検索損失と推論損失を明確に分離できる。
    • 実験の結果,モデルによって性能にばらつきが見られ,検索環境が整うほど性能が低下するモデルや,概念の誤用が見られるモデルが存在する。
    • 本研究で提供するドキュメントライブラリとアノテーションは,再現性を確保し,研究の信頼性を高める。

    Link: https://arxiv.org/abs/2601.21937

  • 医療におけるロバストなマルチモーダル表現学習 [cs.LG, cs.AI]目的:医療データの統合的な患者表現
    • 医療の質の向上には,多様なデータからの情報統合が不可欠である。
    • 既存の手法は,データに含まれる系統的な偏見への対処が不十分である。
    • 潜在的交絡因子による構造的因果関係を分析し,偏見に対処すること。
    • 提案手法は,二重ストリームのニューラルネットワークを用いて因果的特徴と見せかけの相関を分離する。
    • 汎化されたクロスエントロピー損失と相互情報最小化により,効果的なデコレーションを実現している。
    • MIMIC-IV,eICU,ADNIデータセットにおける実験で,性能向上を確認した。

    Link: https://arxiv.org/abs/2601.21941

  • エントロピーに基づく次元に依存しない収束と,拡散モデルのための損失適応スケジュール [cs.LG, cs.IT, math.IT]目的:拡散モデルにおける次元に依存しない収束の理論的限界と,効率的な離散化スケジュールの提案
    • 拡散モデルは高品質なサンプル生成が可能であり,画像生成などの分野で重要な役割を担っている。
    • 従来の収束解析は環境次元に依存し,より良い収束率を得るには幾何学的制約が必要であった。
    • 幾何学的制約なしに次元に依存しない収束を達成し,より効率的なサンプリング手法を開発すること。
    • 提案手法により,目標分布と生成分布間のKLダイバージェンスは$O(H^2/K)$で抑えられることが示された (Hはエントロピー,Kはサンプリングステップ数)。
    • 損失適応スケジュール (LAS) を提案し,訓練損失のみを用いて効率的な逆SDEの離散化が可能となった。
    • 実験的に,LASは一般的なヒューリスティックなスケジュールと比較してサンプリング品質を向上させることが確認された。

    Link: https://arxiv.org/abs/2601.21943

  • スパースネスを意識したコンセプトボトルネックモデルにおける柔軟性と解釈可能性のトレードオフ [cs.LG]目的:コンセプトボトルネックモデルにおける表現の特性評価
    • 近年のビジョン言語モデルの普及に伴い,モデルの解釈可能性への関心が高まっている。
    • モデルはブラックボックスとして扱われがちで,意思決定プロセスの調査が不足している。
    • スパースネスを導入することで解釈可能性を高める手法の評価フレームワークを構築する。
    • モデルの柔軟性と解釈可能性の間にはトレードオフが存在することが明らかになった。
    • 同じ性能水準であっても,異なる手法は大きく異なる振る舞いを示す。
    • コンセプト表現のスパース性,精度と下流タスクの性能を考慮した「明確性」という指標を提案した。

    Link: https://arxiv.org/abs/2601.21944

  • ネットワーク構造に依存する平衡伝播学習の成功度 [cs.LG, cond-mat.dis-nn, cs.ET, cs.NE]目的:ネットワーク構造が平衡伝播学習の成功度に与える影響の評価
    • AIの急速な発展に伴い,エネルギー消費量の増大が課題となっている。
    • 既存研究は単純なネットワーク構造に焦点を当てており,現実的な制約下での実現可能性が不明確である。
    • 本研究は,より現実的なローカル結合格子における平衡伝播の性能を評価し,スケーラビリティの指針を提供する。
    • 疎なローカル結合ネットワークでも,密なネットワークと同等の性能が達成可能であることが示された。
    • 平衡伝播に基づく現実的なネットワーク構造のスケーリングに関する指針が得られた。
    • 学習中の空間的に分布した応答と結合の変化を追跡することで,アーキテクチャの影響を詳細に分析した。

    Link: https://arxiv.org/abs/2601.21945

  • ToolWeaver:大規模言語モデルにおけるスケーラブルなツール利用のための協調的な意味の織り込み [cs.AI]目的:大規模言語モデルにおけるスケーラブルなツール利用のためのフレームワーク
    • 言語モデルにツールを利用させることで,その能力を大幅に拡張できるため重要である。
    • 既存のツール利用手法は,ツールの種類が増えるにつれて性能が低下しやすい。
    • ツール間の関係性を学習し,効率的なツール利用を実現することを目指している。
    • ToolWeaverは,ツールを階層的なシーケンスとしてエンコードすることで,語彙サイズの増加を抑える。
    • 共有コードの密な共起から協調的なパターンを学習することで,ツール間の関係性の理解を深める。
    • 47,000近いツールを用いた評価で,既存手法を大きく上回り,スケーラブルで汎用性の高いツール利用基盤を確立した。

    Link: https://arxiv.org/abs/2601.21947

  • 医療マルチモーダル学習における偶然的不確実性の活用:欠損モダリティへの対応 [cs.LG]目的:医療マルチモーダル学習における偶然的不確実性のモデリング
    • 臨床現場ではモダリティの欠損が頻繁に発生し,効果的な医療データ分析が課題となっている。
    • 既存手法はモダリティへの貢献度や欠損パターンを均一と仮定し,医療データ特有の不確実性を考慮していない。
    • 欠損モダリティへの対応と,より信頼性の高いモダリティ情報の活用を目指す。
    • 提案手法(AUM)は,各モダリティ表現を多変量ガウス分布としてモデル化し,偶然的不確実性を定量化する。
    • 患者-モダリティグラフ上で動的なメッセージパッシング機構を開発し,不確実性を考慮した集約を行う。
    • MIMIC-IVおよびeICUデータセットにおいて,死亡率予測性能が既存手法を上回る結果が得られた。

    Link: https://arxiv.org/abs/2601.21950

  • 不確実性を考慮したデータ駆動型高速信頼性形状最適化手法 [cs.CL, cs.LG]目的:形状最適化のための不確実性定量化フレームワーク
    • 航空力学性能向上には,効率的な形状最適化が不可欠である。
    • データ駆動型最適化は訓練データの質に依存し,分布外のデータで誤差が大きくなる。
    • 予測誤差を抑制し,最適化のロバスト性を高めることを目指す。
    • 提案手法は,最適化されたサンプルにおける予測誤差を低減することを示した。
    • オリジナルのデータ駆動型最適化と比較して,優れた性能向上を達成した。
    • 全計算シミュレーションに基づく最適化と同等の効果を,高速に実現した。

    Link: https://arxiv.org/abs/2601.21956

  • 視覚的属性はウェブエージェントにどのように影響するか:ユーザーインターフェースデザイン要因の包括的評価 [cs.AI, cs.HC]目的:ウェブエージェントにおける視覚的属性の影響の定量化
    • ウェブエージェントは様々なタスクで高性能だが,環境変化への対応はまだ課題が多い。
    • 既存研究は敵対的攻撃への耐性に偏り,友好的な状況下での視覚的属性の影響は不明確である。
    • ウェブページにおける視覚的属性がエージェントの意思決定に与える影響を明らかにすること。
    • 視覚的属性を変化させたページ群を用いて,エージェントのクリック率と対象物の言及率を測定した。
    • 背景色コントラスト,アイテムサイズ,位置,カードの明瞭さがエージェントの行動に強い影響を与えることが示された。
    • フォントスタイル,文字色,アイテム画像の明瞭さは影響が小さいことが明らかになった。

    Link: https://arxiv.org/abs/2601.21961

  • 工業化された欺瞞:LLM生成による誤情報のデジタル生態系への副作用 [cs.CY, cs.AI, cs.CL, cs.SI]目的:LLM生成による誤情報がデジタル生態系に与える影響の評価
    • 情報環境の健全性維持は,社会の安定と民主主義の根幹を支える上で不可欠である。
    • LLMの進化により,誤情報の生成が容易になり,その検出が困難になっている。
    • AI生成誤情報に対する人間の認識と検出能力を評価し,その対策を検討する。
    • 人間の誤情報認識を評価するプラットフォームJudgeGPTと,研究用刺激生成エンジンRogueGPTを開発した。
    • 誤情報の検出能力は向上しているものの,生成と検出の競争は続いている。
    • LLMを用いた検出,予防接種アプローチ,生成AIの二面性など,軽減策について議論した。

    Link: https://arxiv.org/abs/2601.21963

  • トークンからブロックへ:分子生成に対するブロック拡散の視点 [cs.LG]目的:標的を意識した分子生成のための,分子表現,モデル構造,探索戦略の共同設計
    • 創薬は膨大な化学空間の探索であり,深層生成モデルの重要性が高まっている。
    • 既存の分子言語モデルは,分子のグラフ構造の捉え方や標的を意識した生成メカニズムに課題がある。
    • 分子のグラフ構造をより適切に捉え,標的指向型の分子生成を可能にすることを目的とする。
    • SoftMolは100%の化学的妥当性を達成し,既存モデルと比較して結合親和性を9.7%向上させた。
    • 分子多様性を2~3倍に増加させ,推論効率を6.6倍に改善した。
    • SoftMolは,ソフトフラグメントとブロック拡散分子言語モデルSoftBDを導入し,標的を意識した分子の組み立てを実現した。

    Link: https://arxiv.org/abs/2601.21964

  • 古典的計画におけるドメインモデル設計のエネルギー影響 [cs.AI, cs.SE]目的:ドメインモデル特性と古典的プランナのエネルギー消費の関係
    • AI研究において,エネルギー消費は重要な性能指標として認識されつつある。
    • 自動計画は計算資源を多く消費するが,エネルギー効率への注目は十分ではない。
    • ドメインモデル設計を通じたエネルギー消費量の体系的な分析を可能とする。
    • ドメインレベルの変更は,プランナ間で測定可能なエネルギー消費の差を生み出すことが示された。
    • エネルギー消費量は,必ずしも実行時間と相関しないことが明らかになった。
    • ドメインモデルの要素順序,アクションのarity,デッドエンド状態などが影響を与える。

    Link: https://arxiv.org/abs/2601.21967

  • トークンガード:自己検査デコーディングによるトークンレベルの幻覚制御に向けて [cs.CL, cs.CL, cs.AI]目的:大規模言語モデルにおける幻覚の制御
    • 大規模言語モデルの利用拡大に伴い,その信頼性確保が重要となっている。
    • 大規模言語モデルは幻覚を起こしやすく,入力と矛盾する内容を生成する可能性がある。
    • トークン単位での内部検証により,幻覚の発生を抑制し,生成精度を向上させる。
    • トークンガードは,自己検査デコーディングに基づき,各推論ステップで幻覚トークンを検出し,伝播を防ぐ。
    • 潜在空間での幻覚リスクスコアリングと反復的な剪定・再生成により,検出された誤りを動的に修正する。
    • HALUデータセットを用いた実験で,トークンガードが幻覚を大幅に削減し,生成精度を向上させることが示された。

    Link: https://arxiv.org/abs/2601.21969

  • MoE-ACT:監督付き混合エキスパートによる手術模倣学習ポリシーの改善 [cs.RO, cs.AI, cs.LG]目的:手術における模倣学習ポリシーの性能向上
    • ロボット手術は,熟練した技術が必要であり,安全性と正確性が極めて重要である。
    • 手術データの取得は困難であり,データ不足が模倣学習の課題となっている。
    • 限られたデータから高精度な手術ポリシーを学習し,実用化を目指す。
    • 本研究では,少ない手術データ(150件以下)とステレオ内視鏡画像のみで,複雑な操作を学習可能であることを示した。
    • 監督付き混合エキスパート(MoE)アーキテクチャをACTに組み込むことで,既存のVLAモデルやACT単体よりも高い成功率を達成した。
    • 未知の把持位置や照明条件,遮蔽下でもロバスト性を維持し,生体組織へのゼロショット転移も可能であることが示された。

    Link: https://arxiv.org/abs/2601.21971

  • マルチエージェントActor Criticによる分散型LLM協調学習 [cs.AI, cs.DC, cs.MA]目的:分散型LLM協調の最適化
    • LLMの性能向上には,複数LLMの協調が重要であり,その最適化手法が求められている。
    • 既存手法は集中型実行プロトコルに依存し,柔軟な分散環境での利用が困難である。
    • 分散環境下で効率的にLLM協調を学習し,その有効性を検証すること。
    • マルチエージェントActor Critic (MAAC)法は,分散型LLM協調の最適化に有効であることが示された。
    • 短期間・高報酬設定では,モンテカルロ法やCoLLM-DCがCoLLM-CCと同等の性能を達成しうる。
    • 長期間・疎報酬設定では,モンテカルロ法はサンプル数が多く必要となり,CoLLM-DCは収束が困難となることが示された。

    Link: https://arxiv.org/abs/2601.21972

  • ギャップに注意を払え:言語モデルにおける表明された選好と行動の乖離に,質問形式がどのように影響するか [cs.AI, cs.ET]目的:言語モデルにおける表明された選好と行動の乖離
    • 言語モデルの性能評価において,モデルの選好と実際の行動の一致は重要である。
    • 既存の評価方法では,質問形式が選好の乖離に影響を与える可能性が考慮されていなかった。
    • 質問形式が選好の乖離に与える影響を明らかにすることで,より正確な評価方法を確立することを目指す。
    • 表明された選好を尋ねる際に中立的な選択肢や棄権を許容することで,弱いシグナルを除外し,相関係数が大幅に向上した。
    • しかし,行動の選好においても棄権を許容すると,中立率が高まり,相関係数はほぼゼロまたはマイナスに低下した。
    • 表明された選好を用いたシステムプロンプトによる誘導は,AIRiskDilemmasにおいて相関係数を確実に改善しなかった。

    Link: https://arxiv.org/abs/2601.21975

  • 粒子からエージェントへ:空間シミュレーションにおける認知摩擦の指標としての幻覚 [cs.RO, physics.app-ph, cs.HC, cs.AI, cs.CY]目的:空間シミュレーションにおける認知摩擦の定量化
    • 建築シミュレーションは,都市計画や建築設計において不可欠なツールである。
    • 従来のシミュレーションは物理ベースであり,人間の認知特性を考慮していない。
    • 人間の認知と空間認識のずれを可視化し,より人間中心なシミュレーションを設計する。
    • 大規模マルチモーダル生成モデルを用いて,空間環境の予測における「認知摩擦」を定量化する手法を提案した。
    • AIの幻覚を,空間的な曖昧さや潜在的な問題点を診断するための指標として活用する枠組みを提示した。
    • 環境を動的な認知パートナーとして捉え,自律性,感情的な明瞭性,認知的な整合性を保つシミュレーション設計を提唱した。

    Link: https://arxiv.org/abs/2601.21977

  • 解釈可能な時間的知識グラフ推論のためのグラフ構造と知識誘導編集の統合 [cs.LG]目的:時間的知識グラフ推論における将来の出来事の予測
    • 知識グラフは,複雑な関係性を表現し,推論を可能にする重要な技術である。
    • 既存手法は,構造的な関係性を十分に活用できず,幻覚や時間的な矛盾を起こしやすい。
    • グラフ構造と知識編集を統合し,より正確で解釈可能な推論を実現すること。
    • 提案手法IGETRは,グラフニューラルネットワークと大規模言語モデルを組み合わせることで,最新の性能を達成した。
    • ICEWSデータセットにおいて,Hits@1とHits@3でそれぞれ最大5.6%,8.1%の改善が見られた。
    • 各構成要素の有効性は,消去実験および追加分析によって確認された。

    Link: https://arxiv.org/abs/2601.21978

  • Fr\'{e}chet Inception Distanceの信頼性評価における確率的埋め込み表現の利用に関する調査 [cs.LG]目的:Fr\'{e}chet Inception Distanceの信頼性評価
    • 深層学習は医療画像解析で広く利用され,その評価には特徴埋め込みが不可欠である。
    • Fr\'{e}chet Inception Distanceは自然画像で学習されたモデルを使用するため,医療画像への適用に限界がある。
    • FIDの信頼性を示す指標を,確率的埋め込み表現の分散から導き出すことを目指す。
    • モンテカルロドロップアウトによる予測分散が,データ分布外の入力との相関を示すことが示された。
    • 予測分散の大きさは,FIDの信頼性を示す指標となり得る可能性がある。
    • ImageNet1K検証セットや外部データセットを用いた検証により,その有効性が示唆された。

    Link: https://arxiv.org/abs/2601.21979

  • 信頼性の高いサッカー分析のための検証済みイベントデータ形式VERSA [cs.AI, cs.DB]目的:サッカー分析における信頼性確保のためのイベントデータ検証フレームワーク
    • スポーツ分析において,詳細なデータは戦術分析や選手評価に不可欠であり,競技力向上に貢献する。
    • イベントデータには,イベント順序の誤りや欠損といった論理的な不整合が存在し,分析の信頼性を損なう可能性がある。
    • 本研究は,イベントデータの論理的な不整合を検出し修正することで,分析の信頼性を高めることを目指す。
    • 提案手法VERSAは,サッカーのイベントデータにおける論理的不整合を検出し,自動的に修正する。
    • Kリーグ1のデータ分析の結果,記録されたイベントの18.81%に論理的不整合が確認された。
    • VERSAで精製されたデータは,VAEPといった下流タスクの性能と安定性を大幅に向上させる。

    Link: https://arxiv.org/abs/2601.21981

  • ニューラルネットワークにおける逐次モンテカルロフレームワークでのバッチ推論の調査 [cs.LG]目的:ニューラルネットワークの重みの事後分布推定手法
    • ベイズ推論はモデルの不確実性を定量化する上で重要であり,よりロバストな予測を可能にする。
    • モンテカルロ法は計算コストが高く,実用的な応用が難しい場合がある。
    • 逐次モンテカルロ法におけるバッチ推論により,計算効率を向上させることを目指す。
    • ミニバッチによるデータアニーリングを逐次モンテカルロサンプラーに導入することで,学習速度が最大6倍に向上した。
    • 画像分類問題において,精度への影響は最小限に抑えられた。
    • 本研究は,逐次モンテカルロ法の計算コストを軽減し,実用性を高める可能性を示唆する。

    Link: https://arxiv.org/abs/2601.21983

  • PowerGenie:解析的指針による高性能再構成可能電力変換器の進化探索 [cs.LG, cs.AR]目的:高性能再構成可能電力変換器の自動探索
    • 電力変換器は,エネルギー効率向上や再生可能エネルギー利用に不可欠な技術である。
    • 従来の手法では,回路トポロジーの設計空間が広大であり,最適化が困難であった。
    • 既存のAI手法の限界を克服し,大規模な性能駆動型探索を実現することを目指す。
    • PowerGenieは,部品選定やSPICEシミュレーションなしに変換器の機能と理論性能限界を決定する解析的フレームワークを導入した。
    • 生成モデルと学習分布を適合させ,モード崩壊や過学習を防ぐ進化微調整手法を開発した。
    • PowerGenieは,既存の最高性能トポロジーを23%上回る8モード再構成可能変換器を発見し,平均10%の効率改善をSPICEシミュレーションで確認した。

    Link: https://arxiv.org/abs/2601.21984

  • Elign:基礎機械学習力場からの等変拡散モデルのAlignment [cs.LG]目的:3次元分子構造の生成における,物理的制約の導入と効率化
    • 分子構造生成は創薬や材料開発において重要であり,正確な構造予測が不可欠である。
    • 既存の拡散モデルは,学習データに偏りを持つことがあり,真の平衡分布を捉えられていない。
    • 高精度な物理計算のコストを削減しつつ,分子構造の妥当性を向上させる手法を開発する。
    • Elignは,高コストな量子化学計算を,pretrainedな機械学習力場(MLFF)で代替することで計算効率を向上させている。
    • 拡散過程を強化学習問題として捉え,Force--Energy Disentangled Group Relative Policy Optimization (FED-GRPO) を用いて,EnergyとStabilityの報酬を最適化している。
    • その結果,Elignはより低いエネルギーと安定性を有する分子構造を生成し,推論速度を維持することに成功している。

    Link: https://arxiv.org/abs/2601.21985

  • 動的な不確実性下における汎用的な情報収集 [cs.IR, cs.LG, cs.AI, cs.MA, cs.RO, cs.SY, eess.SY]目的:未知の動的システムにおける学習加速のための情報収集戦略
    • システム識別や制御において,効率的な学習は不可欠であり,情報収集はその鍵となる。
    • 既存手法は,特定のモデル選択に依存し,汎用性に欠けるという課題があった。
    • モデル選択に依存しない,汎用的な情報収集コストの導出を目指す。
    • 提案手法は,Masseyの指向性情報に基づく汎用的な情報収集コストを導出した。
    • 既存の相互情報コストは,提案手法の特殊なケースであることが示された。
    • 線形化されたベイズ推定における相互情報コストと情報ゲインの間に明確な関係を確立した。

    Link: https://arxiv.org/abs/2601.21988

  • ドリフトするMDPの幾何学:パス積分による安定性証明 [cs.LG, cs.AI]目的:非定常マルコフ決定過程における環境変化の幾何学的構造
    • 現実世界の強化学習は非定常性を伴うため,その安定性解析が重要である。
    • 従来の理論では,環境変化の局所的な変化に着目せず,大まかな変化量しか捉えられていない。
    • 環境変化の幾何学的構造を解析し,局所的な安定性を保証する手法を開発する。
    • 環境を微分可能なホモトピーパスとしてモデル化し,最適なベルマン固定点の運動を追跡する。
    • パス積分による安定性境界を証明し,スイッチング режимиから離れた局所的安定性を保証する領域を導出する。
    • オンラインで長さ,曲率,ニアタイ近接性を推定し,学習または計画の強度を適応させるHT-RLとHT-MCTSを提案する。

    Link: https://arxiv.org/abs/2601.21991

  • 液体インターフェース:自律システムの相互運用性に関する動的なオントロジー [cs.AI, cs.SE]目的:自律システムの相互運用性に関する動的なオントロジー
    • 自律システムの普及に伴い,柔軟な連携基盤の必要性が高まっている。
    • 従来のシステム統合は静的なインターフェースに依存しており,適応性に欠ける。
    • 実行時の意図表明と意味的交渉を通じてインターフェースを生成する。
    • 液体インターフェースは,永続的な技術的成果物ではなく,実行時に出現する関係イベントとしてインターフェースを捉える。
    • 意図に基づく相互作用,交渉による実行,および意味的不確実性下での一時性を規定する液体インターフェースプロトコル(LIP)を提案する。
    • このアプローチのガバナンスに関する考察と,実用的な実現可能性を示す参照アーキテクチャを示す。

    Link: https://arxiv.org/abs/2601.21993

  • 機械的データ帰属:解釈可能なLLMユニットの訓練起源の追跡 [cs.CL, cs.AI, cs.LG]目的:解釈可能なLLMユニットの訓練データにおける起源の特定
    • 大規模言語モデルの解釈可能性向上は,AIの安全性と信頼性確保に不可欠である。
    • LLM内の解釈可能な回路の訓練データ由来が不明であり,制御が困難である。
    • 訓練データの特定を通じて,LLMの回路形成を制御し,性能向上を目指す。
    • 機械的データ帰属(MDA)フレームワークにより,解釈可能なユニットと訓練データの因果関係が示された。
    • 特定の訓練サンプルへの介入が,解釈可能なヘッドの出現を顕著に変化させることが確認された。
    • 繰り返し構造のデータが回路形成の触媒として機能し,帰納ヘッドと文脈内学習能力の関連性が示唆された。

    Link: https://arxiv.org/abs/2601.21996

  • 不均衡ドメインにおける汎化のための否定優位対照学習 [cs.LG]目的:不均衡ドメイン汎化における汎化性能の向上
    • ドメインやラベルのシフトはモデルの決定境界に影響し,現実世界の応用において重要である。
    • ドメインとラベルのシフトが絡み合う技術的複雑さと,理論的基盤の不足が課題となっていた。
    • 決定境界を直接制御することで,少数クラスへの偏りを防ぎ,識別能力を高めることを目指す。
    • 理論的に,IDGの汎化限界を確立し,事後分布の不一致と決定マージンの役割を明らかにした。
    • 否定優位対照学習(NDCL)を提案し,対照学習における否定例の重視により,少数クラスの勾配信号を増幅した。
    • 実験結果から,提案手法が複数のベンチマークにおいて有効であることが示された。

    Link: https://arxiv.org/abs/2601.21999

  • 異種コンピューティング:次世代AIエージェント推論を支える鍵 [cs.AI, cs.AR, cs.DC]目的:AIエージェント推論におけるボトルネックの特定と,効率的な推論のための異種コンピューティングの方向性
    • AIエージェントの普及に伴い,データセンターにおける推論処理の重要性が増しており,その性能が鍵となる。
    • 従来の計算能力だけでなく,メモリ容量,メモリ帯域幅,高速インターコネクトがボトルネックとなりつつある。
    • Operational Intensity (OI)とCapacity Footprint (CF)を用いて,メモリボトルネックを克服し,AI推論のスケーラビリティを向上させる。
    • AIエージェントの推論ワークロード (チャット,コーディング等)において,OI/CFが大きく変動し,KVキャッシュがメモリ制約となることが示された。
    • 分散型サービング,特殊な事前処理/デコードアクセラレータ,大規模ネットワーク,光I/Oによるコンピューティングとメモリの分離が,今後の方向性として提唱された。
    • エージェントとハードウェアの共同設計,システム内での複数の推論アクセラレータ,大容量・高帯域幅メモリの分散が,変化するOI/CFへの適応を可能にすると考えられる。

    Link: https://arxiv.org/abs/2601.22001

  • Transformer推論におけるレート歪み最適化 [cs.LG, cs.IT, math.IT]目的:Transformer推論の効率化のための損失圧縮手法
    • Transformerは高性能だが,計算資源とメモリを大量に消費する
    • 推論時の計算負荷軽減が課題であり,中間表現の圧縮が求められる
    • レート歪み理論に基づき,精度と圧縮率のトレードオフを最適化する
    • 提案手法は,言語ベンチマークにおいて大幅な計算量削減を実現した。
    • 一部のケースでは,既存手法よりも高い精度を達成した。
    • Transformerのレート歪み特性を分析し,表現符号化における理解を深めた。

    Link: https://arxiv.org/abs/2601.22002

  • 推論時スティール活性化方向制御による多様な生成経路の探求 [cs.IR, cs.LG]目的:言語モデルにおける生成経路の多様性向上
    • 自然言語処理の発展において,より人間らしい多様なテキスト生成は重要な課題である。
    • 言語モデルは高確率な出力に偏りがちで,生成経路の均質化とモード崩壊が起こりやすい。
    • 推論時に活性化方向を制御することで,多様な生成経路を効率的に探索し,問題を解決する。
    • 提案手法STARSは,活性化方向制御を多様性探索エンジンとして活用する。
    • STARSは,スティール多様体上で複数の付加的な方向を最適化し,生成経路の多様性を促進する。
    • テストケース生成や科学的発見のベンチマークで,既存手法よりも高い多様性と質を両立している。

    Link: https://arxiv.org/abs/2601.22010

  • 忘却に顔をなす:継続学習とメカニズム解釈可能性の融合 [cs.LG]目的:継続学習における忘却のメカニズム解明
    • 継続学習は,AIの適応性と長期的な性能に不可欠であり,その重要性は増している。
    • 従来の評価指標では,忘却の根底にあるメカニズムが十分に理解されていない。
    • 特徴表現の変化が忘却にどのように影響するかを明らかにし,改善策の指針とする。
    • 忘却は,個々の特徴の符号化変換に起因する現象であり,幾何学的に解釈できることが示された。
    • 特徴の容量減少や,下流計算による読み出しの阻害が,忘却を招く主要因であることが明らかになった。
    • 深層モデルにおいては,その深度が忘却を悪化させる可能性が示唆された。

    Link: https://arxiv.org/abs/2601.22012

  • Vidmento:文脈を意識した生成ビデオによる動画ストーリーの作成 [cs.HC, cs.AI, cs.MM]目的:動画ストーリー作成における制約の緩和と,創造的な表現の拡張
    • 動画表現は重要だが,既存素材の制約から,物語の可能性が狭まる場合がある。
    • 利用可能な素材の不足が,動画ストーリーの品質低下や表現力不足を招く。
    • 生成ビデオ技術を用いた,ストーリー展開の機会創出と表現力向上を目指す。
    • Vidmentoは,文脈を考慮した生成ビデオの拡張により,動画ストーリーの作成を支援するツールである。
    • クリエイターの研究から,既存の映像素材と生成された映像を効果的に組み合わせるための要素が明らかになった。
    • 12人のクリエイターによる評価実験で,Vidmentoは創造意図に沿った,表現豊かな動画ストーリー作成に貢献することが示された。

    Link: https://arxiv.org/abs/2601.22013

  • TBDFiltering:サンプル効率の良い木構造ベースのデータフィルタリング [cs.LG]目的:大規模言語モデルの訓練データセットの品質向上
    • 機械学習モデルの性能は訓練データに大きく依存し,質の高いデータセットの構築が重要である。
    • 大規模データセットの品質評価はコストがかかり,信頼性の高い指標が不足している。
    • LLMへのクエリ数を削減し,効率的なデータフィルタリングを実現する。
    • 提案手法は,階層クラスタリングを用いてLLMによる評価対象ドキュメント数を削減する。
    • 純粋なリーフクラスタを含む部分木が存在する場合,少数のドキュメント評価で全体の品質予測が可能となる。
    • 実験により,既存のフィルタリング手法と比較して提案手法の有効性が示された。

    Link: https://arxiv.org/abs/2601.22016

  • 視覚誘導型キー・トークン正則化によるマルチモーダル大規模言語モデルのアンラーニング [cs.RO, cs.LG, cs.CV]目的:マルチモーダル大規模言語モデルにおけるアンラーニングの実現
    • プライバシー保護の重要性が高まる中,モデルからの機密情報漏洩を防ぐ技術が求められている。
    • 既存手法では,全てのトークンを一律に扱い,重要なトークンへの配慮が不足している。
    • 視覚情報を活用し,キーとなるトークンを特定・優先的にアンラーニングすることで,効果的な情報隠蔽を目指す。
    • 提案手法ViKeRは,無関係な視覚入力を利用して,アンラーニング後のトークン分布を予測し,正則化を行う。
    • 情報エントロピーに基づきキー・トークンを定義し,トークンレベルの勾配再重み付けにより,それらの更新を増幅する。
    • MLLMUおよびCLEARベンチマークでの実験により,ViKeRが効果的にアンラーニングを行い,忘却と応答の整合性を維持することが示された。

    Link: https://arxiv.org/abs/2601.22020

  • SymbXRL:モバイルネットワークのための記号的説明可能な深層強化学習 [cs.NI, cs.AI]目的:深層強化学習エージェントの説明可能性向上
    • 次世代6Gモバイルネットワークの効率的な運用には,リアルタイムでの最適化が不可欠である。
    • 深層強化学習は強力だが,その意思決定プロセスがブラックボックスであり,実用化の障壁となっている。
    • 記号的AIを用いて,人間が理解しやすい説明を生成し,エージェントの制御性を高める。
    • SymbXRLは,深層強化学習エージェントに対する説明を生成する新しい手法である。
    • SymbXRLは,既存手法と比較して,より理解しやすい説明を可能にする。
    • 提案手法は,純粋な深層強化学習よりも高い累積報酬を実現し,エージェントの制御性を向上させる。

    Link: https://arxiv.org/abs/2601.22024

  • 「より良い」プロンプトが逆効果になる場合:LLMアプリケーションのための評価駆動型反復 [cs.CL, cs.AI, cs.IR, cs.SE]目的:LLMアプリケーションの評価方法と改善
    • LLMの進化は,様々な分野で応用を可能にする一方で,その評価方法が確立されていない。
    • LLMの出力は確率的で多次元であり,プロンプトやモデル変更に敏感であるため,従来のソフトウェアテストとは異なる。
    • 評価を通じてLLMの挙動を分析し,プロンプトを改善することで,より信頼性の高いアプリケーションを開発することを目指す。
    • LLMアプリケーションの評価ワークフロー「定義,テスト,診断,修正」を提案し,評価の反復的改善を可能にする。
    • 汎用的な「改善された」プロンプトテンプレートが,タスク固有のプロンプトと比較して,性能を低下させる場合があることを実証した。
    • 評価駆動型のプロンプト反復と,普遍的なプロンプトレシピに頼るのではなく,慎重な性能評価の重要性を強調する。

    Link: https://arxiv.org/abs/2601.22025

  • CAR-bench:現実世界の不確実性下におけるLLMエージェントの一貫性と限界認識の評価 [cs.AI]目的:LLMエージェントの一貫性,不確実性への対処,能力認識の評価
    • LLM技術は,対話システムなど様々な分野で応用が期待されている。
    • 従来の評価基準は理想的な設定に偏っており,現実世界の不確実性への対応が不十分である。
    • 現実世界における不確実性を考慮し,より信頼性の高いLLMエージェントを開発すること。
    • CAR-benchは,ナビゲーション,生産性,充電,車両制御を含む58のツールを搭載した,LLMシミュレーションによるユーザー環境を備えている。
    • 曖昧さ解消タスクにおいて,最先端のLLMですら一貫した成功率が50%を下回っており,早すぎる行動や情報捏造が課題であることが示された。
    • 本研究は,現実世界におけるLLMエージェントの信頼性と自己認識の向上に貢献する。

    Link: https://arxiv.org/abs/2601.22027

  • ロジットから潜在表現へ:LLMアンラーニングのためのコントラスト表現シェーピング [cs.LG]目的:LLMアンラーニングにおける表現シェーピング
    • LLMは汎用的な能力を持つが,プライバシーや機密情報の取り扱いが課題である。
    • 従来のアンラーニング手法では,忘却された概念が表現空間に残り,知識と混ざり合う可能性がある。
    • 忘却概念と保持概念の干渉を減らし,表現空間を効果的に再構築することを目指す。
    • CLRegは,忘却特徴と保持特徴を分離し,干渉を抑制するコントラスト表現正則化手法である。
    • 表現シェーピングが,知識の複雑な絡み合いを軽減することを理論的に示した。
    • 様々なベンチマークとLLMで,CLRegは忘却-保持表現の絡み合いを減らし,アンラーニング手法を促進する。

    Link: https://arxiv.org/abs/2601.22028

  • アンサンブル逆問題:応用と手法 [cs.LG]目的:アンサンブル逆問題の解決
    • 高エネルギー物理学や画像処理など,観測データから真の分布を復元する問題は重要である。
    • 従来の復元手法は,反復計算が必要で,計算コストが高いという課題があった。
    • 本研究は,効率的な非反復的復元手法を開発し,未知の事前分布への一般化を目指す。
    • 新しい条件生成モデル「アンサンブル逆生成モデル」を提案し,観測データに含まれるアンサンブル情報を活用することで,事後推論を改善した。
    • 提案手法は,推論時に明示的な反復計算を回避し,様々な事前分布に対して一般化性能が高いことを示した。
    • 逆画像処理,高エネルギー物理学,全波形反転の合成データおよび実データセットでのベンチマークにより,その有効性を確認した。

    Link: https://arxiv.org/abs/2601.22029

  • 大規模言語モデルにおけるアンラーニングのためのパラメータごとのタスク演算 [cs.LG]目的:大規模言語モデルからのプライバシー情報の削除
    • プライバシー保護は,大規模言語モデルの普及と安全な利用に不可欠である。
    • 既存のアンラーニング手法は,他の情報の損失を引き起こす過剰な忘却のリスクがある。
    • パラメータごとの重要度に応じたタスクベクトルの調整により,過剰な忘却を抑制すること。
    • 提案手法PerTAは,標準的なタスク演算と比較して,一貫して性能が向上する。
    • PerTAは,多くのケースでトレーニングベースのアンラーニング手法よりも,忘却効果とモデルの有用性の両方で優れている。
    • PerTAは,タスク演算の効率を維持しつつ,過剰な忘却を軽減する原理的かつ実用的なフレームワークを提供する。

    Link: https://arxiv.org/abs/2601.22030

  • AdS/CFT対応を用いたホログラフィック生成フロー [cs.LG, gr-qc, hep-th]目的:生成機械学習のためのフレームワーク
    • 量子重力理論と情報科学の融合は,両分野に新たな視点をもたらす可能性を秘めている。
    • 既存の生成モデルは,物理的な解釈が難しく,学習効率に課題が残る場合がある。
    • AdS/CFT対応を利用し,物理的に解釈可能な生成モデルを開発すること。
    • 提案手法は,従来の物理的制約のないフローマッチングモデルと比較して,高速かつ高品質な収束を達成した。
    • AdS物理学と幾何学が,新しい生成モデリングのパラダイム開発に役立つことが示された。
    • 本研究は,フローマッチングアルゴリズムをAdS物理学で拡張し,物理的に解釈可能なモデルを提供した。

    Link: https://arxiv.org/abs/2601.22033

  • 順序を無視した思考:拡散言語モデルにおける出力順序と推論順序の乖離 [cs.CL, cs.AI]目的:拡散言語モデルにおける出力順序と推論順序の乖離に関する検証
    • 言語モデルは様々な自然言語処理タスクで重要な役割を担う。その性能向上が求められている。
    • 自己回帰型言語モデルは出力順序が固定されており,自然な推論順序と矛盾する場合がある。
    • 拡散言語モデルが,この固定された出力順序の問題を克服し,推論順序をより柔軟に反映できるか検証する。
    • 拡散言語モデルは,自己回帰型モデルと比較して,解答の前に推論を求めるプロンプトに対して安定した性能を示す。
    • 拡散言語モデルは,推論ステップなどの単純なトークンを早期に安定化させることで,解答へのコミットメント前に推論を安定化させている。
    • ただし,拡散言語モデルにも限界が存在し,特定の条件下では優位性が弱まる。

    Link: https://arxiv.org/abs/2601.22035

  • クロス・フュージョン距離:表現空間におけるデータグループの融合と分離度を測る新しい指標 [cs.LG]目的:表現空間におけるデータグループの融合と分離度を定量化すること
    • 表現学習において,ドメインシフト下でのデータグループの融合と分離度の評価は重要である。
    • 既存の距離指標は,融合に影響する要素と影響しない要素を区別できていない。
    • 融合に影響する幾何学的要素を分離し,より正確な融合度を評価すること。
    • 提案手法であるクロス・フュージョン距離(CFD)は,理論的にその性質が明確に定義されている。
    • 合成実験により,CFDが融合に影響する変形に敏感であり,影響しない変形に対してはロバストであることが確認された。
    • 実世界のデータセットにおいて,CFDはダウンストリームタスクの汎化性能低下とより強く相関することが示された。

    Link: https://arxiv.org/abs/2601.22036

  • メタツールを用いたエージェントワークフローの最適化 [cs.AI, cs.LG]目的:エージェントワークフローの効率性と堅牢性の向上
    • AIエージェントの活用は複雑な課題解決に貢献するが,計算コストが高い。
    • エージェントワークフローは反復的な処理とツール呼び出しが多く,コストと遅延が発生しやすい。
    • 冗長なツール実行パターンを特定し,メタツール化することで効率化を図る。
    • AWOは既存のワークフローを分析し,繰り返されるツール呼び出しをまとめたメタツールを生成する。
    • 実験の結果,AWOはLLMの呼び出し回数を最大11.9%削減し,タスクの成功率を最大4.2%向上させた。
    • メタツールは不要なLLMの推論ステップを回避し,コスト削減と実行時間の短縮に貢献する。

    Link: https://arxiv.org/abs/2601.22037

  • 言語モデルにおける連続トークン表現のための分離可能アーキテクチャ [cs.CL, cs.AI, cs.LG]目的:言語モデルにおける連続トークン表現のアーキテクチャ
    • 言語モデルの性能向上は,自然言語処理の発展に不可欠である。
    • 小規模言語モデルでは,埋め込み行列がパラメータの大部分を占め,非効率である。
    • 埋め込み行列を連続的な生成器で置き換えることで,パラメータ効率を改善すること。
    • 提案アーキテクチャLeviathanは,標準的なLLaMAスタイルのアーキテクチャを上回る性能を示す。
    • Leviathanは,等パラメータ設定下で,より優れた有効パラメータ容量を示す。
    • Leviathanは,研究範囲において,パラメータ数として1.47倍から2.11倍の密なモデルとして振る舞う。

    Link: https://arxiv.org/abs/2601.22040

  • 多様な様相を通じたコミュニケーション学習:マルチエージェントシステムにおける知覚の異質性 [cs.MA, cs.AI, cs.CV, cs.LG]目的:エージェント間のコミュニケーションの発展過程
    • 現実世界では,知覚様式に多様性があるが,既存研究では考慮されていない。
    • 異なる知覚様式を持つエージェント間でのコミュニケーションは困難である。
    • 知覚の異質性下におけるコミュニケーションの成立メカニズムを解明する。
    • マルチモーダルシステムは,知覚入力に基づいた意味の一貫性のあるメッセージに収束する。
    • ユニモーダルシステムは効率的なコミュニケーションを実現するが,マルチモーダルシステムはより多くの情報交換を必要とする。
    • 異なる知覚世界で訓練されたシステム間では直接的なコミュニケーションは困難だが,微調整により可能となる。

    Link: https://arxiv.org/abs/2601.22041

  • SIA:ネットワーク制御における予測型深層強化学習のための象徴的な解釈可能性 [cs.NI, cs.AI]目的:予測型深層強化学習エージェントの動作解釈
    • 次世代モバイルネットワークにおいて,適応的な制御が求められており,深層強化学習はその有望な手法の一つである。
    • 従来の深層強化学習エージェントは過去・現在の情報に依存し,将来予測を活用できないという課題があった。
    • 予測を活用した深層強化学習エージェントの透明性を高め,ネットワーク制御への導入障壁を下げる。
    • SIAは,予測に基づいた深層強化学習エージェントの動作をリアルタイムで解釈する最初のツールである。
    • SIAの実行速度は,既存のXAI手法と比較して200倍以上高速であり,サブミリ秒単位で動作する。
    • SIAを用いた評価により,予測統合のずれや報酬設計の偏りなど,隠れた問題点が明らかになり,エージェントの性能向上に貢献した。

    Link: https://arxiv.org/abs/2601.22044

  • MetricAnything:ノイズの多い異種ソースによるメトリック深度事前学習のスケール拡大 [cs.CL, cs.CL, eess.SY, cs.SY, cs.CV, cs.AI]目的:メトリック深度推定のためのスケーラブルな事前学習フレームワーク
    • 近年,大規模モデルが画像認識の進歩を牽引。メトリック深度推定にも同様の拡張が期待される。
    • 異種センサーノイズやカメラ依存バイアス,ノイズのある3Dデータにおけるメトリックの曖昧さが課題となる。
    • 様々な3Dソースからメトリック深度を学習し,スケーラビリティと汎化性能を向上させる。
    • 約2000万ペアの画像と深度データを用いて,メトリック深度推定において明確なスケール拡大傾向を初めて示した。
    • 事前学習モデルは,深度補完,超解像度,レーダー-カメラ融合などのプロンプト駆動タスクで優れた性能を発揮した。
    • 蒸留されたプロンプトフリーの生徒モデルは,単眼深度推定や3D再構成などのタスクで最先端の結果を達成した。

    Link: https://arxiv.org/abs/2601.22054

  • 識別器駆動型拡散モデルによる非教師あり分解と再結合 [cs.CL, cs.CV, cs.AI]目的:複雑なデータの因子表現の分解と再結合
    • データ理解の深化と新たなサンプル生成への応用が期待される分野である。
    • 因子レベルの教師なし学習では,有用な因子の発見と高品質な再結合が課題となる。
    • 識別器を用いた敵対的学習により,物理的・意味的な整合性を高めた再結合を目指す。
    • CelebA-HQ,Virtual KITTI,CLEVR,Falcor3Dにおいて,FIDスコアと disentanglement 指標が改善された。
    • ロボット動画軌跡において,学習された行動要素の再結合による多様なシーケンス生成に成功した。
    • LIBEROベンチマークにおいて,探索空間のカバー率を大幅に向上させる結果が得られた。

    Link: https://arxiv.org/abs/2601.22057