arXiv雑要約

AI - 2026/04/21 公開

数値が語り出す時：LLMベースエージェント間の暗黙的な数値協調 [cs.MA, cs.AI]目的：LLMベースマルチエージェントシステムにおける暗黙的な数値協調の存在
- エージェント同士の戦略的相互作用と協調は，複雑な問題解決において不可欠である。
- 明示的なコミュニケーションに依存した協調戦略では，制約やノイズの影響を受けやすい。
- 明示的なコミュニケーションを伴わない，暗黙的な信号を通じた協調メカニズムの解明。
- ゲーム理論的分析により，LLMエージェント間において，数値を通じて暗黙的なコミュニケーションが生じることが示された。
- エージェントの性格やゲームの繰り返し回数に応じて，暗黙的な信号の出現パターンと協調戦略が変化することが明らかになった。
- 明示的なコミュニケーションが制限または存在しない状況下でも，エージェントは数値を通じて効果的な協調を達成可能であることが示唆された。
Link: https://arxiv.org/abs/2601.03846
言語モデル継続学習のための忘却曲線に着想を得たメモリリプレイ手法：FOREVER [cs.LG, cs.AI, cs.CL]目的：言語モデルの継続学習における破滅的忘却の軽減
- 大規模言語モデルの能力向上と，新しい知識の継続的な学習が求められている。
- 従来のメモリリプレイ法は，学習ステップに基づく固定的なヒューリスティックに依存し，モデルの学習進捗と必ずしも一致しない。
- 忘却曲線に着想を得て，モデル内部の進化に合わせたリプレイスケジュールを構築し，忘却を軽減すること。
- 提案手法FOREVERは，オプティマイザの更新幅をモデル時間と定義し，忘却曲線に基づいたリプレイ間隔を設定する。
- 3つの継続学習ベンチマークと0.6Bから13Bパラメータのモデルで実験を行った結果，FOREVERが破滅的忘却を効果的に抑制することが示された。
- リプレイのタイミングと強度を適応的に制御するメカニズムにより，さらなる性能向上が期待できる。
Link: https://arxiv.org/abs/2601.03938
ドメインからインスタンスへ：LLMアンラーニングのための二重粒度データ合成 [cs.CL, cs.CL, cs.RO, cs.CL, eess.SY, cs.SY, math.DS, cs.CL, cs.AI, cs.CR, cs.LG]目的：LLMアンラーニングのための高品質な忘却セットの合成
- LLMは大量のデータで学習するため，プライバシー侵害や著作権侵害のリスクがある。
- 既存のアンラーニング評価ベンチマークは，モデルの真の「忘却範囲」を正確に反映していない。
- モデル内部の知識分布に合致した忘却セットを効率的に生成し，堅牢なアンラーニングを実現する。
- 提案手法BiForgetは，ターゲットモデル自体を活用し，シードと敵対的プロンプティングにより高品質な忘却セットを自動合成する。
- ハリーポッターのドメインにおいて，既存手法と比較して関連性が約20%向上，多様性が約0.05向上し，データサイズは半減した。
- より厳密なLLMアンラーニング評価の基盤を提供し，忘却の堅牢性と有用性の維持を両立する。
Link: https://arxiv.org/abs/2601.04278
トリガーの統合，バックドアの破壊：命令チューニング済み言語モデルに対する防御的ポイズニング [cs.CL, cs.AI]目的：命令チューニング済み言語モデルに対するバックドア攻撃からの防御
- 大規模言語モデルは自然言語処理の進歩に大きく貢献しており，その応用範囲は広い。
- 大規模データセットへの依存性により，バックドア攻撃に対して脆弱であるという課題がある。
- 多様なバックドア攻撃に対する耐性を高めるための防御戦略を提案することを目的とする。
- MB-Defenseは，攻撃者と防御側のトリガーを統合し，バックドア表現を破壊することで防御を実現する。
- 実験の結果，MB-Defenseは攻撃成功率を大幅に低下させつつ，命令追従能力を維持できることが示された。
- 本手法は汎用性とデータ効率に優れ，未知のバックドア攻撃に対するロバスト性を向上させる。
Link: https://arxiv.org/abs/2601.04448
SpeechMedAssist：医療相談のための音声言語モデルの効率的かつ効果的な適応 [cs.CL, cs.CL, cs.AI]目的：医療相談における音声言語モデルの適応
- 医療相談は音声が中心であり，質の高い音声対話システムの必要性が高まっている。
- 医療音声データの不足と，音声データでの直接ファインチューニングの非効率性が課題。
- 少ない医療音声データで効果的な音声対話を実現する。
- 提案手法 SpeechMedAssist は，テキストによる知識注入と，限られた音声データによる様相再調整の二段階パラダイムを採用。
- 1万件の合成データのみで医療相談タスクに対応可能。
- シングルターン質問応答とマルチターンシミュレーションの両方において，既存手法を上回る有効性と頑健性を実証。
Link: https://arxiv.org/abs/2601.04638
テープ：強化学習におけるルールシフトの汎化性能評価のためのセルオートマトンベンチマーク [cs.AI, cs.LG]目的：強化学習におけるルールシフトの汎化性能評価
- 強化学習は，多様な環境への適応が求められるため，その汎化性能の評価が重要である。
- 従来のベンチマークでは，環境の変化要因が混在しており，汎化性能の低下原因を特定することが困難である。
- 動的な変化のみに焦点を当てたベンチマークを提供し，汎化性能のボトルネックを特定することを目指す。
- Tapeベンチマークを用いることで，IDからOODへの性能低下と，ルールによって性能変動が大きいことが確認された。
- シンプルな1次元確定的な設定でも脆弱性が確認されたことから，現在の強化学習アルゴリズムは潜在的な法則の変化に弱いことが示唆された。
- 真のダイナミクスを用いた参照値を導入することで，性能評価の基準を明確化し，アルゴリズムの性能を客観的に比較することが可能になった。
Link: https://arxiv.org/abs/2601.04695
StealthGraph：知識グラフ誘導による有害プロンプト生成を通してLLMにおけるドメイン固有のリスクを明らかにする [cs.CL, cs.AI]目的：LLMにおけるドメイン固有の安全性リスクの解明
- LLMは専門分野で活用が進むが，その安全性確保は重要である。誤用による影響は甚大になりうる。
- 既存の有害プロンプトデータセットは限定的で，LLMの防御機構を回避しうる間接的な有害プロンプトに乏しい。
- ドメイン知識を活用し，検出困難な間接的な有害プロンプトを生成することで，より現実的なリスク評価を目指す。
- 知識グラフを用いてドメイン知識を制約として組み込み，有害プロンプトの体系的な生成を可能にした。
- 直接的な書き換えと文脈強化による書き換えの二段階手法により，明示的なプロンプトを間接的なものへと変換した。
- 生成されたデータセットは，ドメイン関連性と隠蔽性の両方を兼ね備え，より効果的なLLMの安全性評価に貢献する。
Link: https://arxiv.org/abs/2601.04740
多階層データモデリングによる音声対話からの半教師あり疾患検出 [cs.SD, cs.AI]目的：音声対話からの疾患検出手法
- 音声による疾患検出は，医療現場での早期発見や効率的な診断に貢献しうる重要な研究分野である。
- 臨床データの不足や主観的なアノテーション，そして音声データ内の微細な特徴と全体的なラベルとの乖離が課題である。
- 多階層的なデータモデリングにより，ラベル付きデータが少ない状況でも高精度な疾患検出を目指す。
- 提案手法は，フレームレベル，セグメントレベル，セッションレベルの多階層表現を統合的に学習することで，疑似ラベルの品質を向上させる。
- 実験の結果，本手法はモデルに依存せず，言語や条件に強く，少ないラベルデータでも高い性能を発揮することが示された。
- わずか11サンプルのみで，フル教師あり学習の90%の性能を達成し，弱教師あり学習の有効性を実証した。
Link: https://arxiv.org/abs/2601.04744
KnowMe-Bench：生涯にわたるデジタルコンパニオンのための人物理解のベンチマーク [cs.AI, cs.IR]目的：人物理解のベンチマーク
- 対話型AIの発展には，人間らしい理解が不可欠である。人物理解は，その中核を担う。
- 既存のベンチマークは対話や合成データに偏り，人物理解の真の評価が困難である。
- 長編自伝から人物の動機や意思決定原理を推論する能力を評価するベンチマークを構築する。
- KnowMe-Benchは，長編自伝を用いた新しいベンチマークであり，事実の想起，主観的状態の推測，原理レベルの推論を評価する。
- 検索拡張システムは事実の精度を向上させるが，時間的文脈に基づいた説明や高度な推論には課題が残る。
- 記憶メカニズムの改善が，人物理解の深化に必要であることが示唆された。
Link: https://arxiv.org/abs/2601.04745
SCALER：推論のための合成可能なスケーラブル適応学習環境 [cs.AI]目的：推論能力向上のための適応学習環境
- 大規模言語モデルの推論能力は重要であり，その強化手法が求められている。
- モデルの能力とタスクの難易度が乖離したり，問題パターンが限られて学習が進まないことがある。
- 環境設計の適応を通じて，効果的な学習信号を維持し，持続的な能力向上を目指す。
- SCALERは，実世界のプログラミング問題を検証可能な推論環境に変換するパイプラインを導入した。
- この環境は難易度を制御可能かつ無限にインスタンスを生成でき，強固な正当性を保証する。
- 様々な推論ベンチマークにおいて，データセットベースの強化学習と比較してSCALERが安定的に高い性能を示した。
Link: https://arxiv.org/abs/2601.04809
意味的多様な探索による強化学習を通じた効率的な推論 [cs.AI, cs.CL]目的：大規模言語モデルの推論能力向上
- 大規模言語モデルの推論能力は，様々な分野で重要性が増している。
- 従来の強化学習による推論強化手法は，探索の多様性や効率性に課題があった。
- 意味的多様な探索により，より効率的かつ多様な推論を可能にすることを目指す。
- 提案手法ROSEは，意味的エントロピーに基づいた分岐戦略とε-探索メカニズムを導入し，探索の多様性を高めた。
- ROSEは，推論の長さを考慮したセグメントレベルの利点推定器により，簡潔かつ正確な推論を促進する。
- QwenとLlamaモデルを用いた実験により，ROSEの有効性と効率性が確認された。
Link: https://arxiv.org/abs/2601.05053
ステアリングトークンによる大規模言語モデルの構成的制御 [cs.CL, cs.AI, cs.LG]目的：複数挙動への同時制御
- 実世界でのLLM利用には，多様な要求を満たす制御が不可欠である。
- 単一の挙動制御は進んでいるが，複数挙動の同時制御は未開拓である。
- 未学習の挙動の組み合わせにも対応可能な制御手法を確立する。
- ステアリングトークンは，検証可能な制約（長さ，形式，構造，言語など）の多挙動制御において，既存手法より優れている。
- ステアリングトークンは，入力トークン空間で動作し，ゼロショットでの構成が効果的である。
- 自然言語指示と組み合わせることで，更なる性能向上が見られた。
Link: https://arxiv.org/abs/2601.05062
ユーザー履歴の検索とユーザープロファイルの生成による個別化された説得力予測の学習 [cs.CL, cs.AI]目的：個別化された説得力予測のためのユーザープロファイル生成手法
- レコメンダーシステムやLLMの安全性評価など，多様な応用においてメッセージの説得力を推定することは重要である。
- 説得対象者の価値観や経験，思考様式を考慮する必要があるが，過去の活動を効果的に活用する体系的な枠組みが存在しない。
- ユーザーの過去の活動から説得に関連する情報を検索し，それを要約したプロファイルを用いて説得力予測モデルを改善すること。
- 提案手法は，ChangeMyView Redditデータセットにおいて，既存手法と比較して複数の予測モデルで一貫して性能が向上した。
- 特にLlama-3.3-70B-Instructにおいては，F1スコアが33%から47%に向上した。
- 有効なユーザープロファイルは，静的な属性や表面的な類似性に依存せず，タスク指向で文脈依存的であることが示された。
Link: https://arxiv.org/abs/2601.05654
低リソース言語の音声認識のためのマルチモーダル文脈内学習 [cs.CL, cs.AI]目的：低リソース言語の音声認識性能向上
- 世界中の言語の多くは，データ不足のため音声認識が困難である。
- 既存の文脈内学習は，学習時にカバーされた言語に依存し，テキストのみに焦点を当てている。
- マルチモーダル文脈内学習を用いて，未知言語の音声認識を改善する。
- マルチモーダル文脈内学習は，未知言語において有効であり，音声とテキストの両方のモダリティを活用できる。
- クロス言語転移学習は，ターゲット言語のデータを使用せずに，マルチモーダル文脈内学習の効率を向上させる。
- マルチモーダル文脈内学習に基づく選択機構により，音響モデルと音声LLMを組み合わせたシンプルな音声認識システムが有効である。
Link: https://arxiv.org/abs/2601.05707
構造を意識した多様性追求：均質化に対するAI安全戦略 [cs.AI, cs.CL, cs.CY]目的：生成AIにおける均質化の緩和
- AIの進化は社会に貢献する一方，予期せぬ問題を引き起こす可能性も孕んでいる。
- 生成AIは学習データに内在する偏りを再現・増幅し，多様性を失う均質化が課題である。
- 生成AIの均質化を抑制し，安全性を高めるための戦略を提案する。
- 均質化を緩和する戦略として，xeno-reproduction（異種再生産）を提案した。
- 自己回帰型LLMに対し，xeno-reproductionを構造を意識した多様性追求として形式化した。
- 多様性の向上に向けた研究を促進し，協調的な取り組みを呼びかけることを目的とする。
Link: https://arxiv.org/abs/2601.06116
C-World：エージェント環境構築システム [cs.CL, cs.AI]目的：LLMベースエージェントの計画・推論能力と人間との差を埋めるための大規模多様な学習環境の構築
- LLMエージェントの進化には，継続的な学習を可能にする多様な環境が不可欠である。
- 既存の環境構築はコストが高く，大規模な環境を容易に作成できないという課題がある。
- C-Worldは，要求に応じたエージェント環境を低コストで構築し，学習データを提供することを目指す。
- C-Worldは，5,571種類のツールを含むアクション空間，タスク分布エンジン，遷移関数，報酬信号を備えている。
- 実環境API実行モードと，ツール挙動を近似するWorld Engineによる合成モードの2つのモードで動作する。
- World Engineは実実行との相関係数0.883を達成，C-Worldでの微調整が既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2601.06328
文脈が重要：VLMアクション解析とLLMシーケンス分類によるピア認識型学生行動エンゲージメント測定 [cs.CV, cs.AI]目的：学生の行動エンゲージメント測定
- 教育の質と学生のエンゲージメント向上には，教室内の学生の行動理解が不可欠である。
- 既存手法は多様な行動をモデル化するために大量の注釈付きデータが必要だが，プライバシー問題がデータ収集を制限している。
- 本研究は，ピアの行動を示す教室の文脈を考慮したエンゲージメント測定を目指す。
- 提案手法では，数少ないサンプルで学生のアクション認識を行うVLMのファインチューニングを活用する。
- 連続的で予測不可能な行動に対応するため，時間窓技術を用いて動画を分割し，LLMでアクションシーケンスを分類する。
- 実験結果から，提案手法が学生のエンゲージメントを効果的に識別できることが示された。
Link: https://arxiv.org/abs/2601.06394
GanitLLM：難易度を考慮したベンガル語数学推論のためのカリキュラム-GRPO [cs.CL, astro-ph.IM, cs.CL, cs.AI, cs.LG]目的：ベンガル語数学問題に対する推論モデルの開発
- ベンガル語は世界で広く話されている言語だが，大規模言語モデルでの対応は遅れている。
- 既存のLLMは英語で推論し翻訳するか，多段階のベンガル語数学問題に失敗する。
- 低リソース言語環境下での報酬の疎性を克服し，ベンガル語での数学推論能力向上を目指す。
- GanitLLM-4Bは，ベースモデルであるQwen3-4Bと比較して，Bn-MGSMとBn-MSVAMPでそれぞれ+8ポイントと+6ポイントの精度向上を達成した。
- ベンガル語での推論トークンの割合は14%から88%以上に増加し，平均的な解答の長さは943語から193語に減少した。
- 厳格にフィルタリングされたベンガル語数学データセットGanitと，難易度を考慮したカリキュラムベースのGRPOパイプラインが構築された。
Link: https://arxiv.org/abs/2601.06767
現実の写真に基づく顔のみの反事実を用いて，ビジョン言語モデルにおける社会的な偏りを測定する [cs.CV, cs.AI, cs.CL]目的：ビジョン言語モデルにおける社会的な偏りの測定
- 社会的に重要な場面で利用が増加しており，人口統計学的要因に起因する偏りが懸念されている。
- 実世界の画像は，背景や服装などと混同されており，偏りの原因特定が困難である。
- 顔の特徴のみを操作することで，実画像に近い形で偏りを定量的に評価することを目指す。
- 顔の特徴のみを編集する反事実評価により，人口統計学的要因の影響を分離的に評価できる。
- 構築したFOCUSデータセットとREFLECTベンチマークを用いて，最先端のVLMsにおける偏りを検証した。
- 厳密な視覚的制御下でも人口統計学的差異が残り，タスクの設計が偏りの評価に重要であることが示された。
Link: https://arxiv.org/abs/2601.06931
適応的ターゲット再構成による安定したオンポリシー蒸留 [cs.LG, cs.AI]目的：大規模言語モデルから小規模な生徒モデルへの知識伝達
- 言語モデルの小型化は，計算資源の制約下での応用を可能にするため重要である。
- 教師モデルと生徒モデル間の分布の不一致が，知識蒸留の性能を阻害する。
- 生徒モデルと教師モデルの間の学習不安定性を解消し，知識伝達の効率化を図る。
- 提案手法Vetoは，ロジット空間で教師モデルと生徒モデルの整合性を促進する中間ターゲット分布を生成する。
- Vetoは，有害な勾配を抑制し，出力の多様性を維持することで，最適化を安定化させる。
- 様々な推論・生成タスクにおいて，Vetoは教師ありファインチューニングや既存のオンポリシーベースラインを上回る性能を示す。
Link: https://arxiv.org/abs/2601.07155
Safe-FedLLM：連合学習大規模言語モデルの安全性に関する考察 [cs.CR, cs.AI]目的：連合学習大規模言語モデルにおける安全性向上
- 大規模言語モデルの活用が進む中で，プライバシー保護とデータ分散環境での学習が重要になっている。
- 連合学習環境において，悪意のあるクライアントからの攻撃に対するセキュリティ対策が不十分である。
- 悪意のあるクライアントの攻撃を検出し，連合学習大規模言語モデルの堅牢性を高めることを目指す。
- 本研究では，LoRA更新の特性に着目し，悪意のあるクライアントによる攻撃の脆弱性と，その行動パターンの識別可能性を示した。
- 提案手法Safe-FedLLMは，クライアントのLoRA更新を識別し，悪意のあるクライアントの攻撃を効果的に抑制する。
- 本手法は，学習速度を損なうことなく，高い悪意クライアント比率下でも有効であることが実験的に確認された。
Link: https://arxiv.org/abs/2601.07177
AntiPaSTO：反平行表現による自己教師ありでの誠実性制御 [cs.LG]目的：モデルの誠実性を制御するための手法
- 大規模言語モデルの能力向上に伴い，出力の妥当性検証が困難になっている。
- 既存手法は，内部制御，自己教師あり学習，分布外への汎化の全てを満たせていない。
- 分布外データへの汎化能力を持つ，自己教師ありで内部的に制御可能な手法の開発。
- AntiPaSTOは，反平行軸に沿って表現を分離し，崩壊を防ぐコヒーレンス制約を導入する。
- テンプレート文に2つの対照的な単語を挿入するだけで学習が可能であり，ラベルは不要である。
- DailyDilemmasにおいて，既存のプロンプトベースラインをSteering F1で6.9倍上回り，6つのテストされた価値軸のうち5つで勝利した。
Link: https://arxiv.org/abs/2601.07473
ACE-Router：MCPツールからエージェントWebへの履歴認識型ルーティングの一般化 [cs.CL, cs.AI]目的：大規模エージェントエコシステムにおける精密なナビゲーションを可能にする履歴認識型ルーターの学習パイプライン
- エージェントWebの発展により，利用可能なツールが指数関数的に増加しており，効率的なツール連携が重要になっている。
- 既存のアーキテクチャは，大規模化と汎用性においてボトルネックが存在し，複雑な環境への対応が困難である。
- 本研究は，履歴に基づいたルーティングにより，動的なコンテキストを理解し，スケーラブルなツール連携を実現することを目的とする。
- ACE-Routerは，MCP-UniverseとMCP-Markという現実世界のベンチマークにおいて，優れた性能を示した。
- マルチエージェント協調への適応が最小限で済むだけでなく，ノイズに対する堅牢性も高く，大規模な候補空間にも効果的に対応できる。
- これらの結果は，オープンエンドなエコシステムにおける普遍的なオーケストレーションの強力な実証的基盤を提供する。
Link: https://arxiv.org/abs/2601.08276
科学文書のクラスタリングと分類のためのトリプルと知識注入埋め込み [cs.CL, cs.AI, cs.DL]目的：科学論文のクラスタリングと分類における構造化知識の有効性
- 科学文献の増加に伴い，研究文書の整理と理解のための堅牢な手法が求められている。
- 知識注入が文書の表現に与える影響は，まだ十分に解明されていない。
- 知識注入が科学文書の分類・クラスタリング性能に及ぼす影響を検証する。
- 抽象的な内容のみを入力した場合が最も安定した分類性能を示し，0.923の正解率とマクロF1スコアを達成した。
- トリプルのみ，または知識注入を用いたバリアントは，常にこのベースラインを上回ることはなかった。
- 抽出されたトリプルを単純に加えるだけでは，必ずしも性能向上に繋がらず，表現の選択によっては性能が低下することもある。
Link: https://arxiv.org/abs/2601.08841
幾何学的安定性：表現の欠けていた軸 [cs.LG, cs.CL, q-bio.QM, stat.ML]目的：表現の幾何学的安定性の評価
- 脳科学やニューラルネットワーク研究において，内部表現の幾何学的構造の比較は重要である。
- 既存手法では表現の類似性は評価できるが，その頑健性や信頼性は評価できない。
- 表現のペアワイズ距離構造が摂動に対してどれだけ安定しているかを定量化する。
- 新たな指標Sheshaは，特徴部分集合からの代表的相違度行列の分割半相関によって自己整合性を測定する。
- Sheshaは，CKAやプロクルステスとは異なり，特徴空間の直交変換に対して不変ではないため，多様体構造の圧縮による損傷を検出できる。
- 安定性と類似性は経験的に相関がなく，モデルの性能と表現の信頼性にはトレードオフが存在することが示された。
Link: https://arxiv.org/abs/2601.09173
Omni-R1：マルチモーダル推論のための統一的な生成パラダイムへ [cs.CL, cs.AI]目的：マルチモーダル推論における統一的な生成パラダイムの実現
- 近年，画像とテキストを組み合わせたマルチモーダルなAI研究が活発化しており，様々な応用が期待されている。
- 既存手法は特定のタスクに特化し，多様なマルチモーダルタスクへの汎化性能が低いという課題があった。
- 中間画像を生成することで，多様な推論スキルを統合し，汎化性能の高いモデルを構築することを目指す。
- Omni-R1は，知覚アライメント損失と知覚報酬を用いた二段階のSFT+RLフレームワークにより，機能的な画像生成を可能にした。
- Omni-R1-Zeroは，テキストのみの推論データから段階的な可視化をブートストラップすることで，マルチモーダルアノテーションの必要性を解消した。
- 実験結果から，Omni-R1は幅広いマルチモーダルタスクで統一的な生成推論を実現し，Omni-R1-ZeroはOmni-R1と同等かそれ以上の性能を示すことが示された。
Link: https://arxiv.org/abs/2601.09536
逃避次元：それを局所化せよ！ [cs.LG]目的：一般化線形モデルクラスの逃避次元の下限
- 機械学習において，学習アルゴリズムの性能評価は重要な課題である。
- 従来の逃避次元に基づく分析では，一次の漸近的後悔限界を得ることが困難である。
- 逃避次元の局所化手法を導入し，上記の問題を解決することを目指す。
- ベルヌーイ海賊問題において，既存の結果を改善し，より良い結果が得られた。
- 累積報酬が制限された有限ホライズン強化学習問題に対して，初めて一次の漸近的限界が確立された。
Link: https://arxiv.org/abs/2601.09825
MedRedFlag：LLMが現実世界の医療コミュニケーションにおける誤解をいかに訂正するかに関する調査 [cs.CL, cs.AI]目的：LLMにおける誤解訂正能力の評価
- 医療コミュニケーションは患者の健康に直結するため，正確性と安全性が重要である。
- LLMは医療アドバイスに利用され始めているが，誤った前提を含む質問への対応能力は検証されていない。
- 現実世界の医療質問に潜む誤解をLLMが適切に訂正できるかを明らかにすること。
- LLMは，問題のある質問を訂正することにしばしば失敗し，不適切な医療判断につながる可能性がある。
- 臨床医の応答と比較した結果，LLMには現実世界の医療コミュニケーションにおける明確な課題が存在する。
- 本研究は，患者向けの医療AIシステムの安全性に関する重要な懸念事項を提起する。
Link: https://arxiv.org/abs/2601.09853
報酬共進化によるエビデンス拡張型方策最適化：長文脈推論への応用 [cs.AI, cs.CL]目的：長文脈推論におけるLLMの推論能力向上
- LLMの推論能力は進歩しているが，長文脈での応用には課題が残る。
- 報酬のスパース性が問題であり，根拠のない推論を抑制できない。
- エビデンス抽出の精度向上により，長文脈推論のボトルネックを解消する。
- EAPOは，エビデンス拡張型推論というパラダイムを確立し，その有効性を検証した。
- EAPOは，グループ相対的エビデンス報酬を用いて，エビデンスの質を向上させる密なプロセス監視を実現した。
- 適応的報酬-方策共進化メカニズムにより，報酬モデルを継続的に改善し，高精度なプロセス誘導を可能にした。
Link: https://arxiv.org/abs/2601.10306
HeteroCache：長文脈LLM推論のための異種KVキャッシュ圧縮の動的検索アプローチ [cs.HC, cs.CL, eess.SY, cs.SY, cs.CL, cs.CG, math.CO, cs.CL, cs.AI]目的：長文脈タスクにおけるLLM推論のボトルネックであるKVキャッシュの線形的なメモリ増加の緩和
- 大規模言語モデルの性能向上には，長文脈を効率的に処理するメモリ管理が不可欠である。
- 既存の静的圧縮手法では，グローバルに重要な情報を十分に保持できない場合がある。
- アテンションヘッドの多様な時間的異質性とヘッド間の空間的冗長性を活用し，効率的なキャッシュ圧縮を実現する。
- HeteroCacheは，アテンションヘッドを安定性と類似性に基づいて分類し，変化の激しいヘッドにより大きなキャッシュ予算を割り当てる。
- 代表的なヘッドがアテンションの変化を監視し，非同期のオンデマンドコンテキスト検索をトリガーすることでI/Oレイテンシを隠蔽する。
- 長文脈ベンチマークにおいて最先端の性能を発揮し，元のモデルと比較して最大3倍のデコード速度向上を達成した。
Link: https://arxiv.org/abs/2601.13684
効率的な幻覚軽減のためのアテンション空間コントラストガイダンス [cs.CV, cs.AI, cs.LG]目的：大規模ビジョン言語モデルにおける幻覚軽減
- ビジョン言語モデルの性能向上は，画像とテキストの理解を深める上で不可欠である。
- 既存モデルは言語事前知識に偏りやすく，視覚的証拠に基づかない幻覚を起こしやすい。
- 視覚に基づいた，より忠実なテキスト生成を促すことで幻覚を軽減することを目指す。
- アテンション空間コントラストガイダンス（ACG）は，自己注意層で幻覚を引き起こすクロスモーダルバイアスを抑制する。
- ACGは，画像条件付きとテキストのみのアテンションパスを構築し，効率的なガイダンスを実現する。
- CHAIRおよびPOPEでの実験により，既存手法と比較して忠実性が向上し，低遅延であることが示された。
Link: https://arxiv.org/abs/2601.13707
ファインチューニングされたLLMを用いた反事実モデリング：ヘルス介入設計とセンサーデータ拡張 [cs.LG]目的：ヘルス介入設計とセンサーデータ拡張のための反事実モデリング
- 医療分野におけるAIの信頼性と説明可能性の向上が不可欠であり，意思決定支援の質の向上に繋がる。
- 機械学習モデルの予測根拠が不明確であるため，医療現場での応用が制限されているという課題がある。
- LLMを活用し，人間が理解しやすい形で予測の変化に必要な最小限の変更点を明らかにすることを目指す。
- ファインチューニングされたLLM，特にLLaMA-3.1-8Bは，高い妥当性と実現可能性を持つ反事実を生成した。
- 生成された反事実を用いてデータ拡張を行った結果，ラベル不足下での分類器の性能を平均20%回復させた。
- LLMは，既存の最適化手法と比較して，臨床的に実行可能で意味的に一貫性のある反事実を生成する柔軟な手法である。
Link: https://arxiv.org/abs/2601.14590
GraphRAGシステムに対するクエリ効率の高いエージェントによるグラフ抽出攻撃 [cs.AI, cs.MA]目的：GraphRAGシステムの潜在的なエンティティ-関係グラフの窃取
- 知識集約型タスクにおいて，GraphRAGは高度な推論能力を提供する重要な技術である。
- GraphRAGシステムは，その知識グラフ構造が攻撃者に悪用される脆弱性を抱えている。
- 限られたクエリ回数下で，GraphRAGシステムのグラフ構造を効率的に再構築する攻撃手法を開発すること。
- 提案手法AGEAは，既存の攻撃手法と比較して，エンティティと関係の回収率で大幅な改善を示した。
- AGEAは，限定的なクエリ予算下でも，最大90%のエンティティと関係を高い精度で復元することが可能である。
- 本研究の結果は，現代のGraphRAGシステムが，構造化されたエージェントによる抽出攻撃に対して脆弱であることを示唆する。
Link: https://arxiv.org/abs/2601.14662
実行エラーからの回復を通じた堅牢なツール利用：Fission-GRPO [cs.CL, cs.CL, cs.LG, cs.AI]目的：実行エラーからの回復学習
- 大規模言語モデルのツール利用能力は重要であり，実用的な応用を広げる鍵となる。
- ツール利用時のエラー発生後，モデルは同じ誤りを繰り返す傾向があり，回復が困難である。
- 実行エラーを効果的に学習し，モデルの回復能力を向上させることを目指す。
- Fission-GRPOは，実行エラーを強化学習ループ内の是正的な教師あり学習信号に変換する。
- BFCL v4 Multi-Turnにおいて，Qwen3-8Bの回復率を5.7%絶対，全体精度を4.0%向上させた。
- TAU-BenchおよびTAU2-Benchにおいても，最先端の結果を達成し，最大17.4%の改善が見られた。
Link: https://arxiv.org/abs/2601.15625
受動的指標から能動的シグナルへ：大規模言語モデルにおける不確実性量子の進化する役割 [cs.AI, stat.AP]目的：大規模言語モデルにおける不確実性量の進化と，そのモデルの挙動制御への応用
- 大規模言語モデルの信頼性は，実用上の重要な課題である。その限界を克服することで，より安全なAI利用が可能になる。
- 従来の不確実性量は診断指標に留まり，モデルのリアルタイムな制御には活用されていなかった。
- 不確実性量を能動的な制御信号として活用し，モデルの推論，自律的な行動，強化学習を改善すること。
- 不確実性量は，高度な推論において計算の最適化や自己修正のトリガーとして活用されている。
- 自律エージェントにおいては，ツール利用や情報探索に関するメタ認知的な意思決定を制御するために利用されている。
- 強化学習においては，報酬ハッキングの抑制や内在的報酬による自己改善を可能にしている。
Link: https://arxiv.org/abs/2601.15690
VideoThinker：LLMによるツール推論を用いた能動的ビデオLLMの構築 [cs.CV, cs.AI]目的：長編ビデオ理解のための能動的なビデオLLMの構築
- ビデオLLMは，映像コンテンツの理解において重要な役割を担う。特に長編ビデオの理解は困難である。
- 既存モデルは，均一にサンプリングされたフレームに基づく静的な推論に頼るため，時間的局在化が弱く，情報損失が大きい。
- 本研究は，合成されたツール操作軌跡を用いて，能動的なビデオLLMを訓練し，長編ビデオ理解の性能を向上させることを目指す。
- VideoThinkerは，強力な言語モデルを用いてキャプション空間で複数ステップのツール使用シーケンスを生成することで，大規模なビデオとツール推論データセットを構築する。
- 訓練データは，キャプションを対応するフレームに置き換えることで生成され，モデルに長編ビデオ理解能力を要求しない。
- VideoThinkerは，既存のモデルと比較して，長編ビデオベンチマークにおいて大幅な性能向上を示し，ツールによる合成データと適応的な検索・ズーム推論の有効性を示す。
Link: https://arxiv.org/abs/2601.15724
帰属から棄権へ：臨床要約のための学習不要な注意基盤監査 [cs.CL, cs.AI]目的：臨床要約における各記述の根拠と，根拠が不十分な記述を特定する手法
- 臨床要約の精度向上に加え，記述の根拠を示す透明性が求められている
- 大規模言語モデルによる臨床要約では，根拠のない記述（ハルシネーション）が課題となる
- 注意メカニズムを用いて，根拠の特定とハルシネーションの検出を，追加学習なしに行う
- 提案手法ClinTraceは，既存のマルチモーダル大規模言語モデルの注意重みから，記述の根拠と信頼度を抽出する。
- 放射線科レポートと医師-患者対話の要約タスクで，テキストF1スコア92%以上，AUROC0.77を達成し，既存手法を上回った。
- 信頼度の低い20%の記述を保留することで，臨床情報の正確性を61.7%から72.6%に向上させた。
Link: https://arxiv.org/abs/2601.16397
論理的常識推論のためのベンチマーク：LOGICAL-COMMONSENSEQA [cs.CL, cs.AI]目的：論理的常識推論の評価基準
- 常識推論はAIの重要な能力であり，人間のような知能実現に不可欠である。
- 既存のベンチマークは単一正解に偏り，複数の解釈の妥当性評価が困難である。
- 複合的な常識推論能力を評価するための枠組みを提供し，モデルの限界を明らかにする。
- 本ベンチマークは，常識推論を原子的な文の論理的組み合わせとして捉え，妥当性レベル演算子を用いる。
- 指示学習済みモデル，推論特化モデル，ファインチューニング済みモデルの性能を評価した結果，否定に基づく問題で性能が著しく低下することが示された。
- LOGICAL-COMMONSENSEQAは，既存モデルの根本的な推論の限界を明らかにし，複合的な常識推論の進展に貢献する。
Link: https://arxiv.org/abs/2601.16504
長文埋め込みにおける情報表現の公平性：位置と言語バイアスの特異な相互作用 [cs.CL, cs.AI]目的：長文埋め込みにおける情報表現の公平性評価
- 情報検索において，埋め込み表現の質は重要であり，文書全体を適切に反映する必要がある。
- 既存の埋め込みモデルは，文書が長くなると位置や言語に系統的なバイアスが生じやすい。
- 文書の各部分が埋め込み表現に適切に反映されるように，公平性を高めることを目指す。
- 長文埋め込みモデルは，先頭のセグメントやリソースが豊富な言語（英語など）で情報が過剰に表現される傾向がある。
- 後方のセグメントやリソースの少ない言語では情報が軽視されることが明らかになった。
- 推論時の注意機構の調整により，文書内の位置における注意の偏りを軽減し，後方のセグメントの検出可能性を向上させることができた。
Link: https://arxiv.org/abs/2601.16934
誰にどのメッセージが届くか？LLM生成のターゲティングテキストにおける人口統計学的バイアスの監査 [cs.CY, cs.MA, math.OC, cs.CL, cs.AI, cs.CY, cs.LG]目的：LLM生成のターゲティングテキストにおける人口統計学的バイアスの実態
- LLMの発展は自動コミュニケーションの可能性を広げるが，バイアスと公平性の問題が重要となる。
- LLMが生成するテキストに，特定の属性に基づいた偏りが生じる可能性が指摘されている。
- LLMによるターゲティングテキストに内在する人口統計学的バイアスを定量的に評価し，改善策を提示する。
- GPT-4o，Llama-3.3，Mistral-Large-2.1の3つのモデルにおいて，年齢や性別に基づいたメッセージの表現に一貫した非対称性が確認された。
- 男性や若者向けメッセージは，より主張的で進歩的な表現を，女性や高齢者向けメッセージは，温かさや伝統的なテーマを強調する傾向があった。
- 文脈が加わることでこれらの差は増幅し，男性向けメッセージの説得力が高い傾向が示された。
Link: https://arxiv.org/abs/2601.17172
CaseFacts：法的ファクトチェックと判例検索のためのベンチマーク [cs.CL, cs.LG]目的：法的ファクトチェックと判例検索の評価基準
- 法分野は，人々の権利に関わる重要な情報を含むため，正確性が求められる。
- 一般的な知識のファクトチェックに偏っており，法的な真実は変化が早く複雑である点が考慮されていない。
- 平易な表現の法的主張と専門的な判例の間の意味の隔たりを埋めること，および時間的な妥当性を考慮することを目指す。
- 本ベンチマークは，6,294件の法的主張（支持，反論，覆された）で構成される。
- 大規模言語モデルを活用し，専門家の判例要約から主張を生成する独自のパイプラインを構築した。
- 最新の大規模言語モデルの実験結果から，このタスクは依然として困難であり，Web検索による性能劣化が確認された。
Link: https://arxiv.org/abs/2601.17230
MAP-Elitesを用いたヒト肝臓ChIP-seqデータのモチーフ多様性 [cs.NE, q-bio.GN]目的：ヒト肝臓ChIP-seqデータにおけるモチーフ多様性の解析
- 遺伝子発現調節の理解に不可欠であり，疾患メカニズムの解明に繋がる。
- 従来のモチーフ探索手法は単一の支配的なモチーフしか見つけられない。
- 複数のモチーフ変種を同時に発見し，生物学的多様性を明らかにすること。
- MAP-Elitesは，MEMEと同等の品質の複数のモチーフ変種を効率的に発見した。
- 単一解法アプローチでは見過ごされる構造的な多様性を明らかにすることができた。
- モチーフの特異性，組成構造，網羅性，ロバスト性のトレードオフを評価した。
Link: https://arxiv.org/abs/2601.17808
クロスモーダルファインチューニングの再考：特徴量アラインメントとターゲット適合の相互作用の最適化 [cs.LG, cs.AI]目的：クロスモーダル知識統合における特徴量アラインメントとターゲット適合の相互作用最適化
- 学際的な知識統合のニーズが高まる中，事前学習済みモデルを未知のモダリティに適応させる重要性が増している。
- 新しいモダリティと事前学習済みモデルの表現空間を適切にアラインメントする方法が課題となっている。
- 特徴量アラインメントとターゲット適合の相互作用を理論的に理解し，最適化することを目指す。
- 特徴量とラベルの歪みを定量化する新しい概念を導入し，ターゲットエラーの上限を導出した。
- この上限は，特徴量アラインメントとターゲット適合の相互作用を最適化するための洞察を提供する。
- 提案手法は，幅広いベンチマークデータセットで最先端の手法を大幅に上回る性能を達成した。
Link: https://arxiv.org/abs/2601.18231
どんなユーザーにも適応：パーソナライズされたLLMアライメントのためのメタ報酬モデリング [cs.CL, cs.AI]目的：パーソナライズされたLLMアライメントの実現
- LLMの性能向上には，人間との整合性が不可欠であり，個々のユーザーに合わせた調整が重要である。
- 個々のユーザーからのフィードバック不足と，未知のユーザーへの効率的な適応が課題である。
- ユーザーの嗜好適応プロセスを学習することで，上記課題を解決することを目指す。
- メタ報酬モデリング(MRM)は，パーソナライズされた報酬モデリングをメタ学習問題として再構成する。
- MRMは，少数のフィードバックでパーソナライズを強化し，ユーザーのロバスト性を向上させる。
- 実験結果から，MRMは既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2601.18731
参照コミュニケーションにおけるLVLMと人間の異なる基盤 [cs.RO, cs.CL, cs.AI, cs.HC]目的：参照コミュニケーション実験における人間とLVLMの基盤の違い
- AIエージェントと人間の協働には，意図の正確な予測が不可欠である。
- LVLMは共通基盤のモデル化が不十分であり，円滑なコミュニケーションが困難である。
- 本研究は，LVLMにおける参照表現の生成と解決能力の限界を明らかにすることを目指す。
- 人間同士は複数ターンに渡る対話で，容易に参照表現を生成・解決できる。
- LVLMは参照表現の生成・解決において人間のような円滑なコミュニケーションを実現できない。
- 本研究で収集した356件の対話データセットを公開し，分析ツールも提供する。
Link: https://arxiv.org/abs/2601.19792
意味拡張による音声言語モデルの汎化可能なプロンプトチューニング [cs.SD, cs.AI, eess.AS]目的：音声言語モデルにおけるプロンプトチューニングの汎化性能向上
- 近年の音声言語モデルの発展に伴い，言語と音声を連携させる技術の重要性が増している。
- 既存のプロンプトチューニング手法は，学習データに過剰適合し，未知のデータへの汎化性能が低いという課題がある。
- プロンプト埋め込み空間のセマンティック構造を明示的に正規化することで，汎化性能の低下を抑制することを目指す。
- 提案手法であるSEPTは，大規模言語モデルを用いて生成されたセマンティックな近傍情報を組み込み，プロンプト埋め込み空間を正規化する。
- SEPTは，イントラクラスの凝縮性とインタークラスの分離性を促進するセマンティック拡張損失を導入する。
- 実験の結果，SEPTは既存のプロンプトチューニング手法と比較して，汎化性能を一貫して向上させることを示した。
Link: https://arxiv.org/abs/2601.20867
機能語としての統計的手がかり：言語習得における考察 [cs.CL, cs.AI]目的：言語習得を支える機能語の統計的性質
- 言語習得のメカニズム解明は，教育や言語処理の発展に不可欠である。
- 線形的な入力から抽象的な文法知識を習得する方法は未だ不明な点が多い。
- 機能語の統計的性質が，言語学習にどのように寄与するかを明らかにすること。
- 186言語のコーパス分析により，機能語が高頻度，確実な統語的関連性，句境界との整合性という3つの普遍的性質を持つことが確認された。
- ニューラル学習モデルを用いた実験で，これらの性質を保持することで習得が促進されることが示された。適切な頻度と多様性が重要である。
- 学習条件によって機能語への依存度が異なり，異なる学習メカニズムが存在することが示唆された。
Link: https://arxiv.org/abs/2601.21191
ノイズを減らし，声を増やす：指示の精製による推論のための強化学習 [cs.LG, cs.AI, cs.CL]目的：大規模言語モデルの推論能力向上
- LLMの推論能力は，様々な分野で重要であり，その改善は応用範囲を広げる。
- 強化学習によるLLMの推論は，限られた試行回数と不安定な学習が課題となっていた。
- 指示に含まれる干渉トークンを特定・除去し，効率的な学習を実現すること。
- 提案手法LENSは，既存手法GRPOと比較して，数学的推論において高い性能と迅速な収束を実現した。
- 数学的推論では平均3.88%の性能向上，1.6倍以上の高速化を達成し，科学的・一般的な推論でも1.83%の性能向上を示した。
- 本研究は，干渉トークンの除去がロールアウト効率を改善する上で重要であることを明らかにした。
Link: https://arxiv.org/abs/2601.21244
GeoRC：位置情報推論チェーンのベンチマーク [cs.CL, cs.CV, cs.AI, cs.CL, cs.LG]目的：位置情報推論チェーンの評価基準
- 画像とテキストを理解するモデルの性能向上は，多様な応用分野で重要である。
- 既存モデルは位置予測は高いが，その根拠となる視覚的証拠の説明が苦手である。
- GeoGuessrのチャンピオンレベルの専門家による推論チェーンを基に，モデルの推論能力を評価する。
- 本ベンチマークにより，大規模な商用モデルでも専門家レベルの推論チェーン生成には至らないことが示された。
- 小規模なオープンソースモデルは，画像情報なしで位置情報を推測するよりもわずかにしか性能が良くないことが明らかになった。
- モデルが画像から詳細な視覚的特徴を抽出する能力に課題があることが示唆された。
Link: https://arxiv.org/abs/2601.21278
Transformer推論におけるレート歪み最適化 [cs.LG, cs.IT, math.IT]目的：Transformer推論効率化のための損失圧縮手法
- Transformerは多くのタスクで高性能だが，計算資源とメモリを大量に消費する。
- 推論時の計算量削減が課題であり，中間表現の圧縮が有効な手段となる。
- レートと精度のトレードオフを考慮した損失圧縮により，効率的な推論を実現する。
- 提案手法は，既存手法と比較して大幅なレート削減を達成した。
- Transformerのレート歪み特性を分析し，表現符号化におけるパフォーマンスを理解する上で統一的な視点を提供する。
- 学習可能なコーデックの達成可能なレートに関する情報理論的な限界を導出した。
Link: https://arxiv.org/abs/2601.22002