arXiv雑要約

AI - 2026/03/05 公開

  • AriadneMem:LLMエージェントのための長期記憶の迷路を紐解く [cs.CL, cs.AI, cs.IR, cs.LG]目的:LLMエージェントの長期記憶システムにおける,文脈長の制約下での精度維持
    • LLMエージェントの高度化には,過去の情報を効率的に活用する記憶システムの開発が不可欠である。
    • 従来のシステムは,時間的に分散した情報の関連付けや,変化する状況への対応に課題を抱えていた。
    • AriadneMemは,情報の関連付けと状態更新の課題を解決し,より効率的な長期記憶を実現することを目指す。
    • AriadneMemは,オフラインでの情報フィルタリングと状態更新処理により,ノイズを低減し,情報の整合性を高める。
    • オンライン推論時には,論理的な経路の再構築と,トポロジーを考慮した情報合成により,高速かつ正確な応答を実現する。
    • LoCoMo実験の結果,Multi-Hop F1で15.2%,Average F1で9.0%の改善が見られ,実行時間も大幅に短縮された。

    Link: https://arxiv.org/abs/2603.03290

  • 偏りから偏りへ:言語報酬モデルにおける機械的な報酬形成と持続的な偏り [cs.CL, cs.AI]目的:言語報酬モデルにおける偏りのメカニズムと軽減策
    • 言語モデルと人間の意図の整合は重要であり,報酬モデルはその鍵となる要素である。
    • 既存の報酬モデルには,長さ,おべっか,過信といった偏りが存在し,性能を阻害している。
    • 報酬モデルの偏りを特定し,データ効率の良い介入手法で軽減することを目指す。
    • 既存の高品質な報酬モデルにおいて,長さ,おべっか,過信といった既存の偏りが依然として存在することが確認された。
    • モデル特有のスタイルや回答順序に関する新たな偏りも発見され,報酬モデルの失敗を複雑度別に分類した。
    • 提案する機械的な報酬形成は,報酬品質を損なうことなく,低複雑度な偏りを効果的に軽減し,汎用性も高いことが示された。

    Link: https://arxiv.org/abs/2603.03291

  • 対立から合意へ:多段階エージェント式RAGによる医療推論の強化 [cs.CL, cs.AI, cs.IR]目的:医療質問応答における推論能力の向上
    • 医療分野では,正確な情報が不可欠であり,誤りは重大な結果を招く可能性があるため,高い信頼性が求められる。
    • 大規模言語モデルは幻覚や古い知識に起因する誤りを犯しやすく,そのリスクが医療分野においては特に大きい。
    • MA-RAGは,多段階でのエージェントによる推論と情報検索を通じて,より正確で信頼性の高い医療知識の提供を目指す。
    • MA-RAGは,外部の情報と内部の推論履歴を反復的に進化させることで,複雑な医療推論を可能にする。
    • MA-RAGは,候補応答間の意味的な対立を具体的なクエリに変換し,長期的な文脈劣化を抑制しながら外部証拠を検索する。
    • 7つの医療Q&Aベンチマークにおいて,MA-RAGはベースラインモデルと比較して平均で6.8ポイントの精度向上を達成した。

    Link: https://arxiv.org/abs/2603.03292

  • 農業助言のための会話型AIのファインチューニングと評価 [cs.CL, cs.CL, cs.AI, cs.LG]目的:農業助言における会話型AIの品質向上
    • 農業生産性の向上にAI活用が期待される分野であり,小規模農家への支援が重要である。
    • 既存のLLMは,根拠のない推奨や具体的でない助言,農家のニーズに合わないコミュニケーションスタイルを示す。
    • 専門家が作成したデータによるファインチューニングと,安全性と文化適合性を考慮した応答生成を目指す。
    • 専門家がキュレーションしたデータによるファインチューニングにより,事実の想起精度とF1スコアが大幅に向上した。
    • ファインチューニングされた小規模モデルは,大規模モデルと同等またはそれ以上の事実の品質を,より低いコストで実現した。
    • 応答生成層の導入により,安全性が向上しつつ,会話の質を維持することができた。

    Link: https://arxiv.org/abs/2603.03294

  • オープンエンドタスクにおける言語モデルの目標選択は人間と異なり得る [cs.CL, cs.AI, cs.CY]目的:言語モデルと人間の目標選択の差異
    • 大規模言語モデルの意思決定への統合が進む中で,モデルの自律的な目標選択の理解が重要である。
    • 言語モデルが人間の選好を正確に反映した目標を選択しているかの検証が不足している。
    • 人間の目標選択とモデルの目標選択の相違を定量的に評価し,その差異を明らかにすること。
    • 言語モデルは,人間の多様な探索的学習とは異なり,単一の解決策の利用や低いパフォーマンスを示すことが明らかになった。
    • Centaurを含む全てのモデルにおいて,人間の目標選択を正確に模倣できていないことが確認された。
    • この結果は,現在のモデルを人間の目標選択の代替として使用することに対する注意喚起となる。

    Link: https://arxiv.org/abs/2603.03295

  • PlugMem:LLMエージェントのためのタスク非依存型プラグインメモリモジュール [cs.CL, cs.AI, cs.IR]目的:LLMエージェントにおける長期記憶モジュール
    • 複雑な環境で活動するLLMエージェントにおいて,長期記憶は不可欠である。
    • 既存のメモリ設計は,タスク固有であるか,あるいはタスク非依存だが関連性の低さから性能が低い。
    • タスク非依存でありながら高効率な知識集約型メモリの構築。
    • PlugMemは,タスク固有の再設計なしに任意のLLMエージェントに接続できるタスク非依存型モジュールである。
    • 3つの異種ベンチマークにおいて,PlugMemはタスク非依存のベースラインおよびタスク固有のメモリ設計を凌駕した。
    • 情報理論的分析において,PlugMemは最も高い情報密度を達成した。

    Link: https://arxiv.org/abs/2603.03296

  • TTSR:テスト時の自己内省による継続的推論能力の向上 [cs.CL, cs.AI, cs.LG]目的:テスト時における自己内省を通じた推論能力の継続的な向上
    • 大規模言語モデルの推論能力向上は,様々な応用において不可欠であり,その重要性は増している。
    • テストデータのみを用いた適応学習は,ラベル獲得のコストが高いという課題を抱えている。
    • 自己生成ラベルの信頼性向上と,モデル固有の弱点への適応メカニズムの確立が求められている。
    • TTSRは,StudentとTeacherという役割を交互に担うことで,自己進化的な学習ループを実現している。
    • TeacherはStudentの失敗例を分析し,弱点を集約・特定し,それに基づいた誘導的な質問を生成する。
    • 複数の数学的推論ベンチマークにおいて,TTSRは一貫して推論性能を向上させ,汎化性能も高いことが示された。

    Link: https://arxiv.org/abs/2603.03297

  • TATRA:言い換えと集約による学習不要なインスタンス適応型プロンプティング [cs.CL, cs.AI]目的:インスタンス固有の少数ショットプロンプトの構築
    • 大規模言語モデルの性能向上に伴い,プロンプトのわずかな変化が結果に大きく影響する点が課題となっている。
    • 既存の自動プロンプトエンジニアリング手法は,タスク固有の学習データや高コストな最適化を必要とする場合が多い。
    • 学習データやタスク固有の最適化なしに,インスタンスごとに効果的なプロンプトを生成することを目指す。
    • TATRAは,学習データやタスク固有の最適化なしで,強力なプロンプト最適化手法と同等またはそれ以上の性能を示す。
    • 数学的推論ベンチマークにおいて,GSM8KとDeepMathで最先端の性能を達成し,明示的なプロンプト最適化手法を上回る。
    • タスクごとに長い最適化ループを実行するよりも,インスタンスごとに効果的な文脈内事例を構築することが重要であることが示唆される。

    Link: https://arxiv.org/abs/2603.03298

  • 厳密な一致から近似まで:LLM埋め込みのためのセマンティックキャッシュ [cs.CL, cs.CL, cs.CL, cs.AI, cs.LG]目的:LLM埋め込みに対するセマンティックキャッシュのオフライン・オンラインポリシー
    • LLMの普及により,応答速度向上とコスト削減が重要となっている。
    • セマンティックキャッシュは従来のキャッシュの前提を崩し,新たな課題を生む。
    • セマンティックキャッシュの効率的なポリシーを提案し,性能向上を目指す。
    • オフラインポリシーの最適解はNP困難であることが証明された。
    • 提案するオフラインポリシーのヒューリスティックが有効であることが示された。
    • オンラインポリシーにおいて,セマンティック精度が向上することが確認された。

    Link: https://arxiv.org/abs/2603.03301

  • 州運輸省における知識管理と人材育成のためのAIアシスタントの開発 [cs.CL, cs.AI, cs.IR]目的:州運輸省の知識管理と人材育成の支援
    • 州運輸省における技術継承は重要であり,効率的な人材育成が不可欠である。
    • 既存の知識管理手法は断片的で,情報検索の効率が悪く,技術継承が困難である。
    • 本研究は,情報検索と回答生成の効率化による知識管理の課題解決を目指す。
    • Retrieval-Augmented Generation (RAG)フレームワークとマルチエージェントアーキテクチャを提案し,知識管理と意思決定を支援するシステムを開発した。
    • 提案システムは,複数の専門エージェントを活用し,情報検索,回答生成,評価,クエリ改善を反復的に行うことで,品質管理を実現している。
    • 技術図表を意味的テキスト表現に変換するvision-languageモデルを組み込み,図表に基づいた知識検索を可能にした。

    Link: https://arxiv.org/abs/2603.03302

  • HumanLM:状態整合性が応答模倣を上回るユーザーシミュレーション [cs.CL, cs.AI]目的:リアルユーザーの応答を正確に反映するユーザーシミュレーターの構築
    • ユーザーフィードバックに基づくアプリケーションにおいて,特定のユーザーの応答をシミュレートする重要性が高まっている。
    • 既存のユーザーシミュレーターは,表面的なパターンや言語スタイルを模倣するだけで,ユーザーの根本的な状態を反映できない。
    • リアルユーザーの信念や感情といった状態を反映し,より人間らしい応答を生成することを目指す。
    • HumanLMは,強化学習を通じて応答と整合する自然言語潜在状態を生成することで,既存手法と比較して平均16.3%高い整合性スコアを達成した。
    • 大規模なベンチマークデータセットHumanualを用いた評価により,多様なタスクにおいてHumanLMの有効性が確認された。
    • リアルタイムシミュレーション実験では,HumanLMはリアルユーザーの応答との高い類似性と人間らしさのスコアを獲得した。

    Link: https://arxiv.org/abs/2603.03303

  • 知識グラフとハイパーグラフ変換器:リポジトリ注意と経路ベースの役割輸送 [cs.LG, cs.AI]目的:文と構造化データの同時学習
    • 知識と言語の理解はAIの根幹であり,高度な推論や意思決定に不可欠である。
    • 既存モデルでは,知識と言語の表現が混在し,解釈性や制御が難しい場合がある。
    • 知識と言語表現を分離しつつ,両者の整合性を高める新しいモデルを構築すること。
    • 知識グラフやハイパーグラフをキーバリューリポジトリとしてエンコードし,言語Transformerが注意機構を通じてアクセス可能とした。
    • 経路ベースの役割輸送を用いて,知識グラフの辺やハイパー辺のトラバーサル,文構造を統一的に処理する注意機構を導入した。
    • 言語コンテキストと構造化知識の分離を明示的に実現しつつ,クロス注意機構により密な整合性を可能にした。

    Link: https://arxiv.org/abs/2603.03304

  • LLMにおける構造化生成のためのドラフト条件付き制約デコーディング [cs.CL, cs.AI, cs.LG]目的:LLMによる構造化生成の精度向上
    • LLMは,実行可能な出力やJSON生成等に活用され,その応用範囲は広い。
    • 制約デコーディングは有効だが,妥当な続きへの確率が低い場合に生成を歪める可能性がある。
    • ドラフト生成と制約デコーディングを分離し,より正確な構造化生成を目指す。
    • DCCDは,制約デコーディングにおける実行可能領域を拡大し,制約による歪みを軽減する。
    • 構造化推論ベンチマークにおいて,DCCDは制約デコーディングの精度を最大24%向上させた。
    • より小さなモデルでも,大規模なベースラインモデルと同等以上の性能を達成し,パラメータ効率を向上させた。

    Link: https://arxiv.org/abs/2603.03305

  • トークン指向オブジェクト表記法とJSON:プレーンおよび制約付きデコーディング生成のベンチマーク [cs.CL, cs.AI]目的:JSONに代わるシリアライズ形式としてのトークン指向オブジェクト表記法(TOON)の有効性評価
    • 大規模言語モデル(LLM)への構造化データ伝送において,トークン数の削減はコストと性能に大きく影響する。
    • TOONは学習データに存在しないにも関わらず,その簡潔な構文からLLMによる生成が可能かどうかが課題であった。
    • TOONの生成性能とJSON生成性能を比較し,TOONの効率性に関する仮説を検証すること。
    • TOONは,特定のドメインにおける生成タスクにおいて,トークン消費量と精度のバランスに優れる可能性が示唆された。
    • プレーンJSON生成は,制約付きデコーディングによる構造化JSON生成と比較して,高い精度を維持した。
    • 単純な構造では,制約付きデコーディングがTOONよりも低いトークン数で良好な結果を示し,TOONのフレームワークによる強制的実行の有効性に疑問を投げかけた。

    Link: https://arxiv.org/abs/2603.03306

  • TopicENA:自動トピックベースコーディングによる大規模認識ネットワーク分析の実現 [cs.CL, cs.AI]目的:大規模テキストコーパスにおける認識ネットワーク分析の実現
    • テキストデータから知識構造を明らかにする上で,概念間の関係性を分析する認識ネットワーク分析は重要である。
    • 従来の認識ネットワーク分析は専門家による手動コーディングに依存しており,大規模データへの適用が困難であった。
    • TopicENAは,トピックモデルを活用し,手動コーディングの代替となる自動化された分析手法を提供する。
    • TopicENAは,BERTopicと認識ネットワーク分析を統合し,概念間の構造的関連をモデル化する能力を維持しつつ,自動的に生成されたトピックで手動の概念コーディングを置き換える。
    • 分析粒度の検討から,大規模データセットでは粗粒度のトピックが,小規模データセットでは微粒度のトピックが好ましいことが示された。
    • トピック包含閾値の調整は,ネットワークの一貫性と解釈可能性のバランスを取るために,トピック品質指標に応じて行うべきであることが明らかになった。

    Link: https://arxiv.org/abs/2603.03307

  • 古い習慣はなかなか死なない:会話履歴がLLMを幾何学的に罠にかける仕組み [cs.CL, cs.AI]目的:LLMにおける会話履歴の将来の性能への影響の解明
    • LLMの性能向上には,過去の対話履歴を考慮した制御が不可欠である。
    • LLMは過去の会話に影響を受けやすく,誤った情報が後の応答に波及する可能性がある。
    • 会話履歴がLLMの応答に与えるバイアスを定量的に評価し,その幾何学的構造を明らかにする。
    • 会話履歴はマルコフ連鎖としてモデル化され,状態の一貫性が定量化された。
    • 連続する隠れ表現の一貫性を幾何学的に測定することで,潜在空間におけるモデルの軌跡が制約されることが示された。
    • 行動の持続性は幾何学的な罠として現れ,両者の相関が確認された。

    Link: https://arxiv.org/abs/2603.03308

  • エントロピー時間推論:アテンションを超えた自己組織化大規模言語モデルのデコーディング [cs.CL, cs.IR, cs.CL, cs.LG]目的:大規模言語モデルのデコーディングにおける新しい推論パラダイム
    • 大規模言語モデルの利用拡大に伴い,効率的な推論処理が不可欠となっている。
    • 従来のデコーディング手法はトークン単位の順序に依存し,計算資源の最適化が課題である。
    • エントロピーに着目し,不確実性の流れに沿ったデコーディングにより,効率的な推論を実現する。
    • エントロピー時間推論は,スケジューリング,アテンションスパース化,サンプリング温度を統合的に制御する。
    • vLLMを拡張し,エントロピーを考慮したスケジューリングや,アテンションブロックのプルーニングを可能にした。
    • 推論を資源効率の高い熱力学的プロセスに変え,不確実性の低減が最大化される箇所に計算資源を配分する。

    Link: https://arxiv.org/abs/2603.03310

  • BLEUトラップからの脱却:解結合された意味的ガイダンスによる信号に基づいたEEG-to-Textデコーディングフレームワーク [cs.CL, cs.CL, cs.AI, cs.HC, eess.AS, q-bio.NC]目的:非侵襲的EEG信号からの自然言語デコーディング
    • 脳活動と自然言語の関係解明は,ブレイン・マシン・インターフェース等の発展に不可欠である。
    • 既存モデルは,意味的偏りや信号無視,BLEUスコアによる評価の限界といった課題を抱えている。
    • 本研究は,信号に基づいた生成と多様な意味的制約により,これらの課題を克服することを目指す。
    • 提案手法SemKeyは,感情,トピック,長さ,驚き度といった解結合された意味的目標を通じて,信号に基づいた生成を強制する。
    • ノイズ入力に対する幻覚を効果的に排除し,厳格な評価プロトコルにおいて最先端の性能を達成した。
    • ニューラルエンコーダと大規模言語モデル間のインタラクションを再設計し,ニューラル入力への注意を厳密に強制する。

    Link: https://arxiv.org/abs/2603.03312

  • ファインチューニングは大規模言語モデルにおける感覚運動表現をどのように改善するか [cs.CL, cs.AI]目的:大規模言語モデルにおける感覚運動表現の改善
    • 言語モデルの性能向上には,人間との自然なインタラクションが不可欠であり,そのために感覚運動情報の統合が重要である。
    • 既存の言語モデルは,テキスト情報と感覚運動経験の間に乖離があり,現実世界との整合性に課題がある。
    • タスク固有のファインチューニングによって,言語モデルの表現をより人間らしい感覚運動情報に近づけることを目指す。
    • タスク固有のファインチューニングによって,言語モデルの内部表現を有意味な感覚運動パターンへと導くことが示された。
    • 感覚運動表現の改善は言語や関連する感覚運動次元において頑健に一般化する。
    • しかし,学習目標によっては,異なるタスク形式への転移は限定的である。

    Link: https://arxiv.org/abs/2603.03313

  • 自己堅牢なLLMへ: CoIPOによる内在的なプロンプトノイズ耐性 [cs.CL, cs.AI, cs.LG]目的:LLMにおける内在的なプロンプトノイズ耐性の向上
    • LLMは多様なタスクで高性能を示すが,出力の安定性確保が重要課題となっている。
    • わずかなプロンプトの変化で性能が左右されやすく,実用上の堅牢性に課題がある。
    • プロンプトの前処理に頼らず,LLM自身の耐性を高めることを目指す。
    • CoIPOは,クリーンなプロンプトとノイズ付きプロンプト間のロジットの不一致を最小化するコントラスト学習ベースの手法である。
    • FLANデータセットを拡張し,クリーンとノイズのプロンプトペアを構築することで学習を行う。
    • 新たに開発したNoisyPromptBenchを用いた評価で,最先端手法と比較して大幅な精度向上を達成した。

    Link: https://arxiv.org/abs/2603.03314

  • M-QUEST -- セマンティクスと有害性に関するミーム理解評価 [cs.CL, cs.AI, cs.LG]目的:ミームのセマンティクスと有害性評価のための質問応答ベンチマーク
    • インターネットミームは重要なコミュニケーション手段である。その理解は,オンラインにおける有害コンテンツの検出に不可欠である。
    • ミームの理解には常識知識が必要だが,既存の研究ではミームの意味構成要素の体系的な特定が不足している。
    • ミームの意味を構成する要素を特定し,ミームの有害性評価と根拠に関する質問応答ベンチマークを構築すること。
    • 本研究では,ミーム理解に必要な10個の次元(テキスト,視覚,感情,背景知識など)を特定した。
    • 新たにM-QUESTベンチマークを構築し,307個のミームに関する609個の質問応答ペアを提供した。
    • 8つのオープンソースLLMの評価の結果,命令チューニングや推論能力を持つモデルが優れていることが示されたが,文脈推論は依然として難しい。

    Link: https://arxiv.org/abs/2603.03315

  • 手話認識における転移学習における象徴性の影響 [cs.CL, cs.AI, cs.CV]目的:手話認識のための転移学習における象徴性の効果検証
    • 手話認識は,言語障がい者とのコミュニケーションを円滑にする上で不可欠である。
    • 既存の手話認識システムは,十分な学習データが不足していることが多い。
    • 本研究は,象徴性の高い手話を利用した転移学習による認識精度向上を目指す。
    • 中国語からアラビア語への転移学習において,7.02%の認識精度向上が確認された。
    • ギリシャ語からフランドル語への転移学習において,1.07%の認識精度向上が確認された。
    • 象徴性の高い手話は,異なる言語ペア間での効果的な知識転移を可能にする。

    Link: https://arxiv.org/abs/2603.03316

  • 大規模言語モデルにおける量子に触発された自己注意機構 [cs.CL, cs.CL, cs.AI, quant-ph]目的:量子に触発された自己注意機構の性能評価
    • 自然言語処理の発展はTransformerに支えられ,文脈理解に不可欠な自己注意機構が鍵となる。
    • 従来の自己注意機構は計算コストが高く,大規模モデルでの効率的な処理が課題である。
    • 量子計算の原理を応用し,効率的かつ高性能な自己注意機構を開発し検証する。
    • 提案する量子に触発された自己注意機構(QISA)は,GPT-1に組み込まれ,文字誤り率,単語誤り率,クロスエントロピー損失において標準的な自己注意機構を大幅に上回る性能を示した。
    • 具体的には,文字誤り率が15.5倍,単語誤り率が4.7倍,クロスエントロピー損失が13倍改善された。
    • 推論時間は2.6倍増加するものの,性能向上を考慮すると有効な手法である。

    Link: https://arxiv.org/abs/2603.03318

  • LLMの判断者としての選好分析のための自動概念発見 [cs.CL, cs.AI]目的:LLM判断者としての選好を駆動する未知の要因の自動発見
    • LLMはモデル出力の評価に利用され,その有用性が増している。信頼性向上にはバイアスの理解が不可欠である。
    • 既存研究は限定的な仮説に基づき,未知のバイアス要因を自動的に発見する手法が課題であった。
    • 埋め込み層レベルでの概念抽出により,LLMの判断行動を分析し,新たな選好要因を明らかにすること。
    • スパースオートエンコーダーは,他の手法よりも解釈しやすい選好特徴を抽出し,LLMの判断予測においても高い性能を示した。
    • LLMは,人間よりもセンシティブな要求の拒否を好む傾向があることなど,既存の結果を検証した。
    • LLMは具体性や共感,詳細さや形式性,そして警察への通報や訴訟といった積極的な法的行動を避ける傾向があることが明らかになった。

    Link: https://arxiv.org/abs/2603.03319

  • 我々から私へ:アブダクション推論に基づく物語転換理論 [cs.CL, cs.AI]目的:物語の転換
    • 効果的なコミュニケーションには,聴衆の物語や世界観との整合性が不可欠である。
    • 既存のLLMは,物語の核心を維持しつつ,異なる物語枠組みにテキストを変換することが困難である。
    • LLMによる一貫性のある的確な物語転換を実現するための手法を確立すること。
    • 提案手法は,社会科学理論とアブダクション推論に基づき,物語要素を抽出してLLMを誘導する。
    • GPT-4oを用いた実験では,集団主義から個人主義への転換において,ゼロショットベースラインを55.88%上回る性能を示した。
    • また,原文との意味的な類似性を40.4%向上させ,個人主義から集団主義への転換でも同様の改善が見られた。

    Link: https://arxiv.org/abs/2603.03320

  • DIALEVAL:LLMの指示応答性の自動タイプ理論的評価 [cs.CL, cs.AI]目的:LLMの指示応答性の評価手法
    • LLMの能力向上には,指示に対する応答性を客観的に評価する手段が不可欠である。
    • 従来の評価は手動アノテーションに依存し,人間の判断との乖離が生じやすい。
    • 人間の判断パターンに沿った,指示応答性の自動評価フレームワークの構築。
    • DIALEVALは,指示を型付き述語に分解し,型に応じた充足意味論を適用するタイプ理論的フレームワークである。
    • フレームワークは形式的な原子性と独立性制約を適用し,内容述語に対する意味的同値性,数値述語に対する厳密な精度を評価基準とする。
    • DIALEVALは複雑な指示に対して90.38%の精度を達成し,人間の判断との相関が大幅に向上した。

    Link: https://arxiv.org/abs/2603.03321

  • 大規模言語モデルは新たな知識を獲得できるか:生物学的知識発見のための動的ベンチマーク [cs.CL, cs.AI]目的:生物学的知識発見能力の評価
    • AIによる知識発見は,科学研究の加速に不可欠であり,その可能性が注目されている。
    • 既存のベンチマークは静的なデータセットに依存し,学習データ汚染や陳腐化の問題がある。
    • 真に新しい知識を発見するAIの能力を評価するための動的ベンチマークを構築すること。
    • DBench-Bioは,厳選された論文アブストラクトから,科学的仮説とその発見の答えを自動的に抽出する。
    • DBench-Bioは月次更新されるため,最新のLLMの知識発見能力を継続的に評価できる。
    • 現状の最先端モデルには,新たな知識を発見する能力に限界があることが示された。

    Link: https://arxiv.org/abs/2603.03322

  • 真偽の識別:対照的洗練による過剰拒否の低減 [cs.CL, cs.AI]目的:過剰拒否の低減
    • 安全性を重視した言語モデルの利用において,有用性と可用性を損なう過剰拒否問題が重要である。
    • 既存の手法では,過剰拒否の低減と有害コンテンツの拒否能力維持の両立が困難である。
    • 有害なプロンプトとそうでないプロンプトの識別能力を向上させ,過剰拒否を解決する。
    • 提案手法DCRは,言語モデルの識別能力を向上させ,有害なプロンプトと表面的なプロンプトを区別する。
    • 多様なベンチマークにおいて,過剰拒否を効果的に低減しつつ,安全性の確保に貢献する。
    • 一般的な能力の低下を最小限に抑え,より原理的で堅牢な安全性アライメントの方向性を示す。

    Link: https://arxiv.org/abs/2603.03323

  • 言語モデルにおける単方向編集によるチャットスタイルの制御 [cs.CL, cs.AI]目的:言語モデルのチャットスタイルの制御手法
    • 大規模言語モデルの普及に伴い,その出力の制御が重要課題となっている。
    • 既存手法では,プロンプトや追加学習に依存し,柔軟性や効率性に課題がある。
    • モデル活性化空間の線形方向を利用し,訓練不要でスタイルの精密な制御を実現する。
    • スタイルの属性がモデルの活性化空間における線形方向として符号化されていることが実験で示された。
    • 提案手法は線形スタイル合成を可能にし,有害な挙動を抑制することで安全性を高める。
    • 多様なモデルで高いスタイル適合性と,コア機能の維持を低コストで実現する。

    Link: https://arxiv.org/abs/2603.03324

  • 文脈を考慮した意図理解のためのプロキシエージェントIntPro:検索条件付き推論 [cs.CL, cs.AI, cs.LG]目的:文脈を考慮した意図理解の精度向上
    • 人間とAIの協調作業において,ユーザーの意図を正確に理解することは,満足のいく応答を生成する上で不可欠である。
    • 既存の手法は,意図理解を静的な認識タスクとして扱っており,より正確で汎用性の高い理解を可能にするユーザーの蓄積された意図パターンを見過ごしている。
    • 個々のユーザーに適応し,過去の意図パターンを活用することで,文脈を考慮した意図理解の精度を高めることを目指す。
    • IntProは,文脈的シグナルと表現された意図との関連性を抽象化した意図の説明を学習し,個々の意図履歴ライブラリに格納する。
    • 検索条件付きの軌跡と,ツールを意識した報酬関数を用いたマルチターンGroup Relative Policy Optimization(GRPO)による教師ありファインチューニングを通じてIntProを訓練した。
    • Highlight-Intent,MIntRec2.0,Weibo Post-Syncの3つの多様なシナリオで,IntProは異なるシナリオやモデルタイプ間で効果的な文脈を考慮した推論能力を備えた,強力な意図理解性能を達成した。

    Link: https://arxiv.org/abs/2603.03325

  • 推論時のLLMに対する制御可能かつ説明可能なパーソナリティスライダー [cs.CL, cs.AI]目的:LLMにおけるパーソナリティ制御手法
    • LLMの活用範囲拡大には,特定の人物像への適合が不可欠である。
    • 従来のパーソナリティ調整は学習コストが高く,多様な人物像に対応困難である。
    • 複数の特徴を同時に制御し,パラメータ更新なしにパーソナリティを調整すること。
    • Sequential Adaptive Steering (SAS)により,ベクトル干渉を抑制し,直交性のある制御ベクトルを実現した。
    • 係数αの調整により,複雑かつ高精度なパーソナリティプロファイルを即座に合成できることを示した。
    • Big Fiveの性格特性において,従来の基盤モデルと比較して,目標適合性と一貫性が向上することを確認した。

    Link: https://arxiv.org/abs/2603.03326

  • 対話における満足度,感情認識,感情状態遷移予測のベンチマーク [cs.CL, cs.AI]目的:対話における満足度,感情,感情状態遷移予測の研究資源
    • 顧客満足度は企業業績に直結するため,その理解と向上が重要である。
    • 感情の変化は対話を通じて動的に変化するため,単一ターンでは捉えきれない。
    • 対話全体にわたる感情変化を考慮し,満足度予測の精度向上を目指す。
    • 本研究では,満足度,感情認識,感情状態遷移予測をサポートする多タスク・マルチラベルの中国語対話データセットを構築した。
    • これにより,対話システムにおける感情と満足度の研究に新たな資源を提供する。

    Link: https://arxiv.org/abs/2603.03327

  • StructLens:最大全域木による言語モデルの構造的レンズ [cs.CL, cs.AI]目的:言語モデルの内部構造の解明
    • 言語は構造を持つ特性があり,言語獲得や変化を説明する上で重要である。
    • 既存の研究は層内やモジュール内の局所的な関係に焦点を当てており,層間のグローバルな関係は未解明である。
    • 残差ストリーム内の意味表現に基づき構造的な距離を定量化し,言語モデルの最適化を目指す。
    • StructLensは残差ストリームの最大全域木を構築し,層間の構造的な類似性を評価する。
    • 得られた層間類似性は従来のコサイン類似性とは異なるパターンを示すことが明らかになった。
    • 構造を考慮した類似性は層プルーニングなどのタスクに有効であり,構造解析の有用性を示唆する。

    Link: https://arxiv.org/abs/2603.03328

  • AutoHarness:コードハーネスの自動合成によるLLMエージェントの性能向上 [cs.CL, cs.AI]目的:LLMエージェントの性能向上のためのコードハーネス自動合成手法
    • 大規模言語モデルは進歩しているが,環境で禁止された行動を試みることがある。
    • LLMエージェントは,状況に応じた最適な行動が取れず,誤った行動を引き起こしやすい。
    • 環境からのフィードバックに基づき,コードハーネスを自動合成することで,LLMの誤動作を防ぐ。
    • Gemini-2.5-Flashは,反復的なコード改善により,コードハーネスを自動合成できることが示された。
    • 合成されたハーネスにより,145種類のTextArenaゲームにおいて不正な動きを完全に防止し,Gemini-2.5-Flashの性能がGemini-2.5-Proを上回った。
    • Gemini-2.5-Flashがポリシー全体をコードで生成することで,LLMの使用を不要にし,Gemini-2.5-ProやGPT-5.2-Highよりも高い報酬を得た。

    Link: https://arxiv.org/abs/2603.03329

  • 確実性ロバスト性:自己挑戦的プロンプト下におけるLLMの安定性評価 [cs.CL, cs.AI]目的:LLMの自己挑戦的プロンプトに対する安定性と適応性の評価
    • LLMの性能向上は目覚ましいが,その信頼性は依然として重要な課題である。
    • 既存の評価指標では,対話的な状況下でのLLMの振る舞いは十分に捉えられていない。
    • LLMが不確実性や矛盾に対して安定的に応答できるかを評価し,信頼性を向上させる。
    • LLMは,会話のプレッシャー下で正しい回答を放棄する傾向がモデルによって異なった。
    • 一部のモデルは,自信と正しさの間に良好な整合性を示し,挑戦に対する強い抵抗性が見られた。
    • 確実性ロバスト性は,LLMの評価における重要な要素であり,信頼性と実用化に影響する。

    Link: https://arxiv.org/abs/2603.03330

  • PulseLM:PPG-テキスト学習のための基盤データセットとベンチマーク [cs.CL, cs.AI]目的:PPGとテキスト間の関連性を学習するための大規模データセット
    • 臨床,研究,ウェアラブルデバイスにおける心血管・生理学的モニタリングの重要性が高まっている
    • 既存のPPGデータセットは数値データや特定のタスクラベルに偏っており,言語による生理学的推論に限界がある
    • PPG波形と自然言語を繋ぎ,生理学的質問応答タスクを可能にする基盤データセットを構築すること
    • PulseLMは,15の公開データソースから収集した131万の10秒PPGセグメントと315万の質問応答ペアを含む大規模データセットである。
    • データセットは,12の一般的な生理学的質問応答タスクに調和された異種のアノテーションを含んでいる。
    • 再現性のある前処理,教師あり学習,評価プロトコルが定義され,マルチモーダルなPPG対応大規模言語モデルを用いたベンチマークが確立された。

    Link: https://arxiv.org/abs/2603.03331

  • 脆弱な思考:大規模言語モデルにおける思考連鎖の摂動 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける思考連鎖プロンプティングの頑健性
    • 大規模言語モデルの推論能力向上は,複雑な問題解決への応用を可能にする重要な課題である。
    • 思考連鎖プロンプティングは有効だが,中間推論ステップの誤りがモデルに与える影響は不明である。
    • 思考連鎖プロンプティングにおける様々な摂動に対するモデルの脆弱性を定量的に評価する。
    • モデルの規模が小さい場合,計算誤りによる性能劣化が最も顕著であり,規模を大きくすることで改善する傾向が見られた。
    • 単位変換はモデル規模に関わらず依然として難易度が高く,大規模モデルでも性能損失が確認された。
    • 余分なステップを追加しても性能への影響は小さく,思考連鎖の柔軟性を示唆する結果が得られた。

    Link: https://arxiv.org/abs/2603.03332

  • プロンプト依存性のある大規模言語モデルのランキングと不確実性定量化 [cs.CL, cs.CL, cs.CL, cs.CL, cs.LG]目的:大規模言語モデルのプロンプト依存性ランキング推論における,統計的に妥当な不確実性保証を備えた決定に安全なランキングの構築
    • 経済システムや計算システムにおいて,ランキングは重要な役割を担う。特に大規模言語モデルの選択においては,その性能を正確に評価する必要がある。
    • 既存のランキング手法は点推定に依存しており,推定ノイズや文脈依存性による性能変動を考慮していないため,誤った意思決定につながる可能性がある。
    • 本研究は,プロンプトに依存したランキング推論を行い,統計的に信頼性の高い不確実性評価を提供することで,より安全な意思決定を支援する。
    • 大規模言語モデルの評価データを用いた実験により,ランキングはプロンプトの特徴によって大きく変動することが示された。
    • 多くのランキングの違いは統計的に有意ではなく,不確実性を考慮したランキングは,データで支持される場合にのみ優位性を特定する。
    • 本研究は,ランキング推論の最新技術と文脈的嗜好学習を結びつけ,堅牢なランキングに基づく意思決定のためのツールを提供する。

    Link: https://arxiv.org/abs/2603.03336

  • 再利用可能なMLOpsパイプラインにおける倫理的・説明可能なAI [cs.CY, cs.CY, cs.AR, cs.CL, cs.HC, cs.CY, cs.CY, cs.AI]目的:倫理的AI原則の実践的利用
    • AI技術の社会実装が拡大する中で,倫理的配慮が不可欠となっている。
    • AIモデルにおけるバイアスや透明性の欠如が課題となっている。
    • AIモデルの公平性,説明可能性,ガバナンスを確保する手法を確立すること。
    • 本研究で提案するフレームワークは,モデルの再調整なしに人口統計学的均等差 (DPD) を 0.31 から 0.04 に低減することに成功した。
    • 公平性指標を運用制限内に維持し,DPDや均等化オッズ (EO) が設定値を超えた場合,モデルのデプロイをブロックする仕組みを導入した。
    • デプロイ後の再学習も自動化し,実運用環境においてDPD <= 0.05,EO <= 0.03を維持,KS統計量も<=0.20に抑えられた。

    Link: https://arxiv.org/abs/2603.03341

  • ACES:自動音声認識における結合,説明,およびストレステストのためのアクセント部分空間 [cs.SD, cs.AI, eess.AS]目的:自動音声認識におけるアクセント間の性能格差の内部メカニズムの解明
    • 音声認識技術は,多様なアクセントを扱う必要があり,その性能向上が重要である。
    • アクセントによる性能格差が存在するが,その原因となる内部メカニズムが不明である。
    • アクセントに特有な特徴がモデルの脆弱性や格差に与える影響を分析し,診断ツールを開発する。
    • Wav2Vec2-baseを用いた実験で,アクセント情報は初期層の低次元部分空間に集中することが示された。
    • 部分空間への投影の大きさは,発話ごとのWERと相関し,部分空間制約された摂動は,表現のシフトと性能低下の間に強い結合を示す。
    • アクセント関連の特徴は,認識に重要な手がかりと深く絡み合っており,単純な消去による公平性改善は困難である。

    Link: https://arxiv.org/abs/2603.03359

  • 医療AIにおける再現性のギャップ:オープンソースソフトウェアの役割 [cs.CY, cs.AI]目的:医療AI分野における再現性向上
    • 医療分野では,AIの信頼性が不可欠であり,その検証には再現性が重要である。
    • 多くの研究で,データやコードが共有されず,再現性の確保が困難である。
    • オープンソース化を通じて再現性を高め,医療AIの信頼性向上を目指す。
    • 近年のAI4H研究では,オープンデータとコード共有の傾向はあるものの,74%の論文がプライベートデータに依存するか,コードを共有していない。
    • オープンデータとコードを共有した論文は,共有していない論文に比べて平均で110%多くの被引用回数を得ている。
    • 再現性向上のためには,オープンサイエンスの実践,データ前処理の標準化,堅牢なベンチマークの開発が不可欠である。

    Link: https://arxiv.org/abs/2603.03367

  • 休眠細胞:ツール利用型LLMへの潜在的な悪意的時間的バックドアの注入 [cs.CR, cs.AI]目的:ツール利用型LLMへのステルス的なバックドア注入手法
    • オープンソースLLMの普及によりAIエージェント開発が進む一方,セキュリティ評価が不十分な場合がある。
    • ファインチューニングされたモデルの共有・利用が進む中で,悪意のある振る舞いを隠蔽するリスクが存在する。
    • LLMに潜む潜在的な悪意を検出し,安全なAIエージェント開発を促進することを目的とする。
    • 本研究では,Parameter-Efficient Fine-Tuning (PEFT)を用いて,ツール利用型エージェントに悪意のある振る舞いを注入する手法を提案した。
    • 提案手法SFT-then-GRPOは,能力付与と行動制御を分離することで,特定の条件下でのみ悪意のある行動を実行するように誘導する。
    • 実験結果から,本手法によりバックドア化されたモデルは,通常のタスク性能を維持しつつ,隠蔽された悪意を抱えることが示された。

    Link: https://arxiv.org/abs/2603.03371

  • AOI:失敗した実行軌跡を自律的クラウド診断の学習信号に変換する [cs.LG, cs.AI]目的:自律的クラウド診断のための学習信号生成
    • SREの自動化は重要であり,LLMエージェントはそのための有望なアプローチである。
    • 企業環境では,データアクセス制限,安全な行動実行,失敗からの学習の困難さが課題である。
    • AOIは,セキュリティ制約下で実行軌跡学習を通じてこれらの課題を解決する。
    • AOIはAIOpsLabベンチマークで,86タスク全てにおいて66.3%のbest@5成功率を達成し,既存の最先端手法を24.4ポイント上回った。
    • Observer GRPOトレーニングにより,14Bモデルは未知の障害タイプを含む63タスクで42.9%のavg@1を達成し,Claude Sonnet 4.5を上回った。
    • Evolverは37件の失敗した軌跡を診断ガイダンスに変換し,end-to-end avg@5を4.8ポイント向上させ,分散を35%削減した。

    Link: https://arxiv.org/abs/2603.03378

  • MemSifter:結果重視のプロキシ推論によるLLMメモリ検索のオフロード [cs.IR, cs.AI]目的:LLMの長期メモリ検索効率化
    • LLMの利用拡大に伴い,長期間タスクにおける効率的な長期メモリ維持が不可欠となっている。
    • 既存手法は,コストと精度でトレードオフが生じ,計算負荷が高く情報損失のリスクもある。
    • 本研究は,プロキシモデルによる事前推論でメモリ検索を効率化し,LLMの負担を軽減することを目指す。
    • MemSifterは,小規模なプロキシモデルがタスクを考慮してメモリ検索を行うことで,LLMの計算コストと検索時間を削減する。
    • タスク達成度に基づく報酬関数を用いた強化学習により,プロキシモデルの性能を最適化する。
    • 8つのLLMメモリベンチマークにおいて,既存最先端手法と同等またはそれ以上の性能を達成し,効率的かつスケーラブルな長期メモリソリューションとなる。

    Link: https://arxiv.org/abs/2603.03379

  • LiteVLA-Edge:組込みロボティクス向け量子化オンデバイスマルチモーダル制御 [cs.RO, cs.AI]目的:組込みロボットにおけるオンデバイス推論のための,量子化されたビジョン-言語-行動(VLA)パイプライン
    • ロボティクス分野では,知覚,言語,行動を統合するVLAモデルの重要性が増している。
    • 既存のVLAシステムは計算負荷が高く,推論遅延が課題であり,組込みロボットへの実装が困難である。
    • 本研究は,組込みハードウェア上でコンパクトなマルチモーダル制御モデルを効率的に実行する方法を提供する。
    • LiteVLA-Edgeは,Jetson Orinクラスのハードウェア上で完全にオフラインで動作し,平均エンドツーエンドの遅延150.5ms(約6.6Hz)を達成した。
    • FP32での教師あり画像から行動へのファインチューニングと,4ビットGGUF量子化,llama.cppによるGPU加速推論を組み合わせている。
    • 本研究は,リアクティブな言語条件付き制御の実現可能性を示し,オンデバイスVLAのロボティクスにおけるタスクレベル評価の基準となる。

    Link: https://arxiv.org/abs/2603.03380

  • 非対称距離表現を考慮したルーティング学習:RADAR [cs.DC, cs.LG, cs.AI]目的:非対称な車両経路問題における距離表現学習
    • 車両経路問題は物流効率化に不可欠であり,実用的な解決が求められている。
    • 既存手法は対称距離を仮定しており,現実世界の非対称な問題への適用が困難である。
    • 非対称距離行列を効率的に表現し,実用的な車両経路問題を解決することを目的とする。
    • RADARは,非対称距離行列の特異値分解(SVD)を用いて,コンパクトで汎化性能の高い埋め込み表現を学習する。
    • Sinkhorn正規化を導入することで,埋め込み間の相互作用における動的な非対称性をモデル化する。
    • 様々なベンチマークテストにおいて,既存手法を凌駕し,高い汎化性能を示す。

    Link: https://arxiv.org/abs/2603.03388

  • トークングラフを用いた文表現の改善に向けて [cs.LG]目的:文レベルタスクにおける文表現の獲得
    • 大規模言語モデルの活用が不可欠であり,その性能は文表現の質に大きく依存する。
    • 従来のプーリング手法はトークンの関係性を無視し,情報の希釈や精度低下を招く可能性がある。
    • トークン間の関係性を考慮した新たなプーリング手法を開発し,文表現の質を向上させる。
    • GLOTは,凍結された大規模言語モデルの出力を利用し,軽量かつ構造を意識したプーリングモジュールである。
    • GLOTは,トークン類似度のグラフを構築し,グラフニューラルネットワークを用いてトークン表現を洗練させることで,高い精度を維持する。
    • GLUEやMTEBなどのベンチマークにおいて,既存手法と同等の性能を示し,学習パラメータ数や学習時間を大幅に削減する。

    Link: https://arxiv.org/abs/2603.03389

  • 不均一な地形における考古学的移動性のマルチエージェントシミュレーション [cs.RO, cs.AI]目的:考古学的地形における移動性のシミュレーション手法
    • 考古学的遺構からは静的な情報しか得られず,過去の人々の行動や移動手段を理解するには課題がある。
    • 地形の影響を考慮した,現実的な移動シミュレーションが困難である。
    • 高精度な地形データと適応的なナビゲーション戦略を用いたシミュレーションにより,移動性の問題を解決する。
    • 本研究では,現実的な地形再構築,多様なエージェントモデル,適応的なナビゲーション戦略を統合したシミュレーションフレームワークを提案した。
    • 提案手法は,グローバルな経路計画とローカルな動的適応を組み合わせることで,動的な障害物や相互作用に効率的に対応できる。
    • 考古学に着想を得た事例研究を通して,地形,視界,エージェントの多様性が移動結果に与える影響を示した。

    Link: https://arxiv.org/abs/2603.03390

  • 量子耐性のある医療AIのための格子ベースのハイブリッド暗号化を用いたゼロ知識連合学習 [cs.CR, cs.AI]目的:量子耐性を持つ医療AIのためのゼロ知識連合学習プロトコル
    • 医療AIは,患者データ保護とモデルの共同学習という課題を抱えている。連合学習はその解決策の一つである。
    • 連合学習では,モデル更新の交換時に,勾配反転攻撃や悪意のあるクライアントによるモデル汚染のリスクが存在する。
    • 将来の量子コンピュータによる攻撃に耐性を持つ,より安全な連合学習プロトコルを開発すること。
    • 提案手法ZKFL-PQは,量子耐性鍵カプセル化,格子ベースのゼロ知識証明,および準同型暗号化を組み合わせることで,悪意のある更新を100%排除した。
    • 従来の連合学習と比較して,モデル精度を維持しながら,勾配の整合性を保証することができた。
    • 計算オーバーヘッドは約20倍だが,臨床研究ワークフローにおいて実用的な範囲内であると示された。

    Link: https://arxiv.org/abs/2603.03398

  • 不均一な時間定数が平衡伝播の安定性を向上させる [cs.LG, cs.AI]目的:平衡伝播における安定性向上
    • 深層学習の生物学的妥当性追求は,脳の学習メカニズム解明に繋がる。
    • 既存の平衡伝播モデルは,時間ステップが均一で生物学的現実味に欠ける。
    • ニューロン固有の時間定数を導入し,安定性を高めることを目指す。
    • 不均一な時間ステップ(HTS)を導入することで,平衡伝播の訓練安定性が向上した。
    • HTSは,タスク性能を維持しつつ,安定性を改善することが示された。
    • この結果は,不均一な時間ダイナミクスが平衡伝播の生物学的妥当性とロバスト性を高めることを示唆する。

    Link: https://arxiv.org/abs/2603.03402