arXiv雑要約

AI - 2026/04/20 公開

  • COMPASS:LLMエージェントにおける制約付き最適化のベンチマーク [cs.LG]目的:LLMエージェントにおける制約付き最適化の評価
    • 人間の意思決定は制約付き最適化を含むため,現実世界のタスク支援に不可欠である。
    • 既存のLLMエージェントは制約充足率と最適化率の間に大きな乖離が見られる。
    • 現実的な旅行計画における制約付き最適化能力の向上を目指す。
    • 最先端モデルの評価により,制約充足率は70-90%である一方,最適化率は20-60%に留まることが判明した。
    • ツール利用はボトルネックではなく,探索空間の不十分な探索が主な制限要因である。
    • 情報収集量と成功率に強い相関があり,コーディングエージェントがこの乖離を縮小する有望なアプローチを示す。

    Link: https://arxiv.org/abs/2510.07043

  • MMAudioSep:ビデオ/テキストによるクエリを用いた音分離に向けたビデオ-オーディオ生成モデルの制御 [cs.CL, cs.SD, cs.CV, cs.LG, eess.AS]目的:ビデオまたはテキストのクエリに応じた音分離
    • ビデオと音の関係性を活用することで,より高度なメディア処理が可能となるため。
    • 既存の音分離モデルは,多くの場合,大量のデータと計算資源を必要とするため。
    • 事前学習済みのモデルを活用し,効率的な音分離モデルの開発を目指す。
    • MMAudioSepは,既存の音分離モデルと比較して,優れた性能を示すことが確認された。
    • ファインチューニング後も,元のビデオ-オーディオ生成能力を維持している点が示された。
    • 基礎的な音生成モデルが,様々な音関連タスクに応用できる可能性を示唆している。

    Link: https://arxiv.org/abs/2510.09065

  • 検索がうまくいかないとき:ウェブ拡張大規模言語モデルのレッドチーム化 [cs.CR, cs.AI]目的:ウェブ検索拡張大規模言語モデルの安全性評価
    • 大規模言語モデルの能力向上にウェブ検索が活用されている。
    • ウェブ検索経由で有害な情報に触れるリスクが存在する。
    • ウェブ検索拡張モデル特有の脆弱性を明らかにし,安全性向上を目指す。
    • 既存のレッドチーム手法では,ウェブ検索によるリスクに対応できない。
    • CREST-Searchは,悪意のある検索クエリを生成し,安全フィルターを回避する。
    • WebSearch-Harmデータセットを用いて,レッドチームモデルの性能を向上させた。

    Link: https://arxiv.org/abs/2510.09689

  • エントロピー正則化の再検討:適応係数がLLM強化学習の潜在能力を解き放つ [cs.LG, cs.AI, cs.CL, stat.ML]目的:大規模言語モデルにおける推論能力向上
    • LLMの発展に伴い,推論能力が重要な課題となっている。
    • 強化学習による推論能力向上において,方策のエントロピー崩壊が問題となる。
    • タスク難易度に応じた探索強度を調整し,安定した学習を目指す。
    • 適応エントロピー正則化(AER)は,基盤モデルを上回る推論精度を達成した。
    • AERは,難易度に応じた係数配分,初期値を基準とした目標エントロピー,動的な係数調整により,探索と活用のバランスを最適化する。
    • 複数の数学的推論ベンチマークにおいて,AERは探索能力も向上させた。

    Link: https://arxiv.org/abs/2510.10959

  • EvoTest: 自己改善型エージェントシステムのテスト時進化学習 [cs.AI, cs.CL]目的:テスト時における自己改善
    • AIエージェントの実用性を高めるには,未知の環境での学習能力向上が不可欠である。
    • 既存のAIエージェントは,テスト時に複雑なスキルを習得できず,実用性に限界がある。
    • テスト時進化学習により,ファインチューニングなしでエージェントの性能を向上させる。
    • EvoTestは,Actor AgentとEvolver Agentの役割分担により,エージェント自身を進化させる。
    • J-TTLベンチマークにおいて,EvoTestは既存の適応手法よりも高い性能を示した。
    • 特に,DetectiveとLibraryのゲームにおいて,EvoTestのみが勝利を収めることができた。

    Link: https://arxiv.org/abs/2510.13220

  • 構文的予測可能性に基づく言語学的な認識を持つLLMウォーターマーキング [cs.CL, cs.AI]目的:大規模言語モデルに対する公開検証可能なウォーターマーキング手法
    • LLMの急速な発展に伴い,信頼性のあるガバナンスツールが不可欠となっているため。
    • 既存手法はモデル固有の信号に依存しており,公開検証が困難であるという課題がある。
    • 言語学的な自由度を利用し,公開検証可能なロバストなウォーターマーキングを実現する。
    • STELAは,品詞n-gramモデルを用いて言語の曖昧さを活用し,ウォーターマークの強度を動的に調整する。
    • 文法的に制約の強い箇所では信号を弱め,自由度の高い箇所では信号を強化することで,テキスト品質と検出堅牢性のバランスを取る。
    • 英語,中国語,韓国語での実験により,STELAが既存手法よりも検出堅牢性が高いことが示された。

    Link: https://arxiv.org/abs/2510.13829

  • DB-FGA-Net:多クラス脳腫瘍分類のための二重バックボーン周波数ゲーティング注意ネットワークとGrad-CAM解釈性 [cs.CL, cs.AR, cs.PF, cs.CL, cs.LG, cs.AI]目的:多クラス脳腫瘍の分類
    • 脳腫瘍は神経腫瘍学における重要な課題であり,早期かつ正確な診断が治療成功の鍵となる。
    • 深層学習を用いた脳腫瘍分類は,汎化性能を制限し,臨床応用における信頼性を損なう可能性のあるデータ拡張に依存することが多い。
    • データ拡張に頼らず,ロバストで解釈可能な脳腫瘍分類モデルを開発すること。
    • 提案手法DB-FGA-Netは,VGG16とXceptionを統合し,周波数ゲーティング注意ブロックを用いることで,局所的特徴とグローバル特徴を補完的に捉える。
    • 7K-DSデータセットにおいて,4クラス設定で99.24%の精度を達成し,3クラス,2クラス設定でも高い性能を示した。
    • 独立した3K-DSデータセットにおいても95.77%の精度で汎化性能を示し,既存手法を上回った。リアルタイム分類とGrad-CAMによる腫瘍局在化を可能とするGUIも開発された。

    Link: https://arxiv.org/abs/2510.20299

  • 差分プライバシー付き深層転移学習の最適ハイパーパラメータについて [cs.LG]目的:差分プライバシー付き深層転移学習における最適ハイパーパラメータの特定
    • プライバシー保護が重要視される現代において,個人情報を含むデータを用いた機械学習の安全性確保が不可欠である。
    • 差分プライバシーの理論と実践の間には乖離があり,最適なハイパーパラメータ設定が不明確である。
    • 勾配分布の変化に着目し,最適なクリッピング値とバッチサイズを導き,プライバシー保護と性能の両立を目指す。
    • クリッピング値とプライバシー保護の関係に関する既存の理論と,実験結果との間に矛盾が見られた。
    • 固定された計算資源下では,バッチサイズ調整の既存のヒューリスティックは有効ではなく,累積DPノイズが性能に影響を与えることが示された。
    • タスク間で同一のハイパーパラメータ設定を用いることが,パフォーマンス低下を招く可能性があることが明らかになった。

    Link: https://arxiv.org/abs/2510.20616

  • 小ノイズ注入駆動型ノイズ集約分析:拡散モデルに対する効率的なメンバーシップ推論 [cs.ET, cs.CV, cs.AI, cs.CR]目的:拡散モデルに対するメンバーシップ推論の効率化
    • 拡散モデルは高品質な画像生成が可能だが,プライバシーリスクが懸念される。
    • 既存のメンバーシップ推論は計算コストが高いか,推論精度が低い。
    • 拡散過程におけるノイズ予測の一貫性を考慮した推論手法を開発する。
    • 小ノイズ注入戦略により,メンバーサンプルと非メンバーサンプル間の差異を増幅。
    • モデルへのクエリ回数を大幅に削減しつつ,効率的かつ正確なメンバーシップ推論を実現。
    • ノイズ集約分析に基づき,拡散モデルのプライバシーリスク評価に貢献。

    Link: https://arxiv.org/abs/2510.21783

  • 解釈可能なリスク評価のための共同スコア閾値最適化 [cs.LG, stat.ML]目的:医療における解釈可能なリスク評価のためのスコアリング重みと閾値の共同最適化
    • 医療現場でのリスク評価は,患者の安全確保と医療資源の効率的な配分に不可欠である。
    • 既存のリスク評価ツールは,閾値設定やスコアリングの根拠が不明確な場合があり,改善の余地がある。
    • 介入によりデータが欠損しやすく,誤分類のコストがリスクレベルによって異なるという課題を解決する。
    • 提案手法は,混合整数計画法(MIP)を用いて,スコアリング重みと閾値を同時に最適化する。
    • 閾値制約により,データが少ないリスクカテゴリーの崩壊を防ぎ,非対称な距離依存的な目的関数を採用する。
    • インパテントリスク評価ツールを用いたケーススタディで,提案手法の有効性が示された。

    Link: https://arxiv.org/abs/2510.21934

  • 分布シフト整列がLLMによる調査回答分布のシミュレーションを支援する [cs.AI]目的:調査回答分布のシミュレーション
    • 大規模な調査データ収集のコスト削減が期待されるため,LLMを用いた回答分布のシミュレーションは重要である。
    • 既存手法はプロンプトへの依存性や低い精度に問題があり,ファインチューニングも訓練データ分布に過剰適合しやすい。
    • 訓練データよりも真の分布に近いシミュレーションを実現し,実データ収集量を削減することを目指す。
    • 提案手法DSAは,出力分布と背景ごとの分布シフトを整列させる二段階ファインチューニングである。
    • DSAは5つの公開調査データセットで既存手法を上回り,高い精度とロバスト性を示す。
    • DSAは実データ量を53.48-69.12%削減し,調査シミュレーションの効率と有効性を実証した。

    Link: https://arxiv.org/abs/2510.21977

  • クライアントへの権限:独裁的環境における連合学習 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CL, cs.CR, cs.CV, cs.DC]目的:分散型モデル訓練における,悪意のあるクライアントによる訓練プロセスへの影響
    • プライバシー保護とデータ共有のニーズが高まる中,分散学習の重要性が増している。
    • 分散学習は悪意のあるクライアントに対して脆弱であり,モデルの改ざんリスクが存在する。
    • 本研究は,他のクライアントの貢献を消去できる「独裁的クライアント」の脅威を分析し,対策を検討する。
    • 「独裁的クライアント」は,サーバーモデルから他のクライアントの貢献を完全に消去する能力を持つことが示された。
    • 複数の「独裁的クライアント」が協調,独立,または裏切り合う複雑なシナリオにおける影響が理論的に分析された。
    • コンピュータビジョンおよび自然言語処理のベンチマークによる実験評価は,理論的知見を裏付けている。

    Link: https://arxiv.org/abs/2510.22149

  • 推論の罠:LLMの推論能力の向上はツールハルシネーションを増幅する [cs.LG, cs.AI]目的:LLMにおける推論能力向上とツールハルシネーションの関係性の解明
    • LLMエージェントの発展には,思考と行動を組み合わせる推論能力が不可欠である。
    • 推論能力の向上とツールハルシネーションの増加が同時に起こるという逆説が観測されている。
    • 推論能力の強化がツールハルシネーションを引き起こすかどうかを検証し,そのメカニズムを明らかにする。
    • 推論能力をRLで強化すると,タスク性能向上に伴い,ツールハルシネーションが比例して増加することを確認した。
    • 推論能力の強化効果は,過学習に依存せず,非ツールタスクでの学習でもツールハルシネーションを増幅することが示された。
    • 推論能力強化手法(教師ありファインチューニング,段階的思考の誘導)に関わらず,同様の効果が確認された。性能向上と信頼性の間にはトレードオフが存在する。

    Link: https://arxiv.org/abs/2510.22977

  • 多肢選択問題を越えて:方言変種を含むアラビア文化QAベンチマーク [cs.CL, cs.CL, cs.AI]目的:アラビア文化に関する知識を問うベンチマークデータセット
    • 言語多様性の尊重が重要視される中,文化や方言に即したQAシステムの開発が求められている。
    • 大規模言語モデルは文化背景や方言に依存する質問への対応が不十分であり,言語間での性能差が大きい。
    • 文化や方言に配慮した質問応答モデルの評価と改善を目指し,新たなベンチマークデータセットを構築する。
    • 多肢選択問題をオープンエンド問題に変換することで,モデルの文化知識と方言理解能力を評価できることを示した。
    • アラビア方言に対するモデルの性能は依然として低く,文化背景や方言特有の知識のギャップが明らかになった。
    • 思考連鎖(CoT)を用いることで,正答率は向上するものの,n-gramベースの評価指標は必ずしも改善しなかった。

    Link: https://arxiv.org/abs/2510.24328

  • VeriMoA:スペックからHDL生成のためのマルチエージェントフレームワーク [cs.AI]目的:スペックからHDL生成の自動化
    • 計算需要の増大に対応するため,RTL設計の自動化が重要である。
    • LLMはHDL生成に有望だが,パラメータ知識の限界やドメイン特有の制約が課題となる。
    • ノイズ伝播や探索空間の制約を克服し,LLMによるHDL生成の精度向上を目指す。
    • VeriMoAは,品質重視のキャッシュ機構とマルチパス生成戦略を導入することで,HDL生成の精度を向上させた。
    • VerilogEval 2.0およびRTLLM 2.0のベンチマークにおいて,Pass@1が15〜30%改善された。
    • 特に,小規模モデルが大規模モデルやファインチューニングされたモデルと同等の性能を,学習コストなしで達成した。

    Link: https://arxiv.org/abs/2510.27617

  • エージェントAI実行の理解,分析,最適化に向けて:CPU中心の視点 [cs.AI, cs.LG, cs.MA]目的:エージェントAI実行におけるシステムボトルネックの特性評価と分析
    • LLMを活用した自律的な問題解決が求められており,その実行環境の最適化が重要である。
    • エージェントAIはCPUとGPUのヘテロな環境で動作し,CPU側のボトルネックが課題となっている。
    • CPU中心の視点からボトルネックを特定し,実行効率の改善を目指す。
    • 提案手法であるCOMBは,均一なワークロードにおいてP50レイテンシを最大1.7倍削減する効果が確認された。
    • 均一なオープンループ負荷では,COMBによりサービスレイテンシと総レイテンシを最大3.9倍/1.8倍削減できることが示された。
    • MASは,ヘテロなオープンループ負荷において,少数派リクエストタイプの総レイテンシをP50/P90パーセンタイルで最大2.37倍/2.49倍削減する。

    Link: https://arxiv.org/abs/2511.00739

  • 行間を読む:一方的な会話問題 [cs.CL, cs.CL, cs.AI, cs.LG]目的:一方的な会話からの推論と学習
    • 対話型AIの応用範囲拡大には,現実的な会話データの利用が不可欠である。
    • 従来の対話型AI研究は,双方向の会話データを前提としており,一方的な会話への対応が課題である。
    • 本研究は,一方的な会話データから情報を効果的に抽出・活用する手法を確立する。
    • 一方的な会話において,未来の1ターンへのアクセスと発話長の情報が,欠損した発話の再構築精度を向上させる。
    • プレースホルダープロンプティングは,幻覚(ハルシネーション)の軽減に有効である。
    • 大規模言語モデルはプロンプティングにより有望な再構築結果を示すが,小規模モデルはファインチューニングが必要である。要約生成には再構築が不要。

    Link: https://arxiv.org/abs/2511.03056

  • MTR-DuplexBench:全二重音声言語モデルの多回合話評価に向けた包括的ベンチマーク [cs.CL, cs.AI, eess.AS]目的:全二重音声言語モデルの多回合話における包括的評価のためのベンチマーク
    • 自然な人間との対話を実現する上で,リアルタイムかつ重なり合った会話は重要である。
    • 既存の評価基準は単回合話に焦点を当てており,多回合話の複雑性を捉えられていない。
    • 多回合話における課題を克服し,全二重音声言語モデルの性能を総合的に評価すること。
    • MTR-DuplexBenchは,連続した全二重対話を個別のターンに分割し,ターンごとの評価を可能にする。
    • 本ベンチマークは,会話の特徴だけでなく,対話の質,指示への追従,安全性など,多様な評価側面を取り入れる。
    • 実験結果から,現在の全二重音声言語モデルは多回合話や評価軸において,一貫した性能を維持することが困難であることが示された。

    Link: https://arxiv.org/abs/2511.10262

  • MM-Telco:通信アプリケーションのためのベンチマークとマルチモーダル大規模言語モデル [cs.AI, cs.CV, cs.ET, cs.NI]目的:通信分野に特化したベンチマークとモデル群
    • 通信分野における自動化の重要性が高まる中,高度な推論・意思決定能力を持つLLMの活用が期待されている。
    • 既存のLLMは汎用性が高く,通信分野特有の課題への対応が遅れている点が課題である。
    • 通信分野におけるLLMの適応を加速し,実用的な課題解決を目指す。
    • MM-Telcoは,ネットワーク運用,管理,ドキュメント品質向上,関連情報の検索など,多様な実用的なユースケースを網羅するベンチマークである。
    • データセット上でファインチューニングしたモデルは,大幅な性能向上を示した。
    • 実験結果から,既存のマルチモーダルLLMの弱点を分析し,今後の開発の方向性を示唆した。

    Link: https://arxiv.org/abs/2511.13131

  • 地域暖房サブステーションにおける予知保全の実現:ラベル付きデータセットとサービスデータに基づく故障検知評価フレームワーク [cs.SE, cs.AI]目的:地域暖房サブステーションの故障検知評価フレームワークの構築
    • 地域暖房は都市部のエネルギー効率を向上させる重要なインフラである。
    • 故障検知には,高品質なラベル付きデータセットが不可欠だが,公開されているものは限られている。
    • 公開データセットと評価指標により,故障検知技術の開発と比較を促進すること。
    • 本研究で構築したフレームワークは,高い正常動作認識精度(0.98)とイベントごとのFスコア(0.83)を達成した。
    • データセット内の故障の60%を顧客からの報告の3~5日前までに検知することができた。
    • 公開データセット,評価指標,オープンソースコードを提供することで,再現可能なベンチマークを確立した。

    Link: https://arxiv.org/abs/2511.14791

  • Spira:点群ネットワークにおける効率的な疎結合畳み込みのためのボクセルデータ構造的特性の活用 [cs.DC, cs.AR, cs.LG, cs.PF]目的:点群ネットワークにおける疎結合畳み込みの効率化
    • 自動運転や拡張現実等の分野で点群処理の重要性が増しており,効率的な処理手法が求められている。
    • 従来の疎結合畳み込みエンジンは,カーネルマップ構築時の前処理・後処理に大きなオーバーヘッドを抱えていた。
    • ボクセルの特性に着目し,カーネルマップ構築の高速化とデータ局所性の向上を目指す。
    • Spiraは,従来の最先端の疎結合畳み込みエンジンと比較して,平均で1.68倍,最大で3.04倍高速にエンドツーエンド推論を実現した。
    • また,Spiraは,多様な層構成において,層ごとの実行においても平均で2.11倍,最大で3.44倍の高速化を達成した。
    • Spiraは,GPU向けにボクセル特性を考慮した最初の疎結合畳み込みエンジンであり,そのソースコードは公開されている。

    Link: https://arxiv.org/abs/2511.20834

  • LLMベースシステムの費用対効果を考慮したモデルオーケストレーション [cs.HC, cs.AI]目的:LLMベースシステムのモデルオーケストレーションにおける費用対効果
    • AIシステムの高度化に伴い,多様なモデルの活用が重要となっている。
    • 既存のオーケストレーターはモデルの定性的な記述に依存し,性能と費用の乖離が生じやすい。
    • 定量的な性能指標を取り入れ,費用対効果を考慮したモデル選択を目指す。
    • 提案手法は,様々なタスクにおいて0.90%~11.92%の精度向上を達成した。
    • エネルギー効率は最大54%改善され,オーケストレーターのモデル選択遅延を4.51秒から7.2ミリ秒に短縮した。

    Link: https://arxiv.org/abs/2512.01099

  • 文脈蒸留と自己整合性カスケード:LLMエージェントコストを削減するシンプルで学習不要な手法 [cs.LG]目的:LLMエージェントのコスト削減
    • LLMエージェントの利用拡大には,費用対効果が重要である。
    • 既存の手法は,俊敏性を損ない,迅速な反復が困難である。
    • 推論時の技術を用いて,コストと精度のトレードオフを改善すること。
    • 教師モデルの小規模なタスクセットでデモンストレーションを収集し,より安価な学生モデルを投入することでコスト削減を実現した。
    • ALFWorldでは,教師モデルと同等の精度を2.5倍低いコストで達成した(エピソードあたり0.059から0.024へ)。
    • AppWorldでは,79%の教師モデル精度を維持しつつ,3.5倍のコスト削減を達成した。

    Link: https://arxiv.org/abs/2512.02543

  • 可逆問題におけるLLMの幻覚と脱漏の軽減:ハードウェアロジック設計自動化への応用 [cs.LG, cs.AI, cs.AR, cs.PL]目的:可逆問題に対するLLMの幻覚と脱漏の軽減手法
    • ハードウェア設計の自動化は,設計期間の短縮とコスト削減に不可欠である。
    • LLMは生成時に誤った情報(幻覚)や情報の欠落(脱漏)を起こしやすい。
    • LLMの幻覚と脱漏を抑制し,正確なハードウェア設計を支援すること。
    • 可逆問題において,LLMをロスのないエンコーダ・デコーダとして利用することで,幻覚と脱漏を大幅に軽減できることが示された。
    • LCTからHDLへの変換と,その逆変換を繰り返し行うことで,生成されたHDLの正当性を検証し,設計仕様のエラー発見にも貢献する。
    • 2次元ネットワーク・オン・チップルータのHDL生成実験により,本手法の有効性が確認された。

    Link: https://arxiv.org/abs/2512.03053

  • 言語モデルを意味的教師として:医療音声理解のためのポストトレーニングアライメント [cs.SD, cs.AI]目的:医療音声理解における意味的理解の獲得
    • 音声データは,心音や呼吸音などの生理学的情報を捉え,健康状態の評価に不可欠である。
    • 既存の音声モデルは音響パターン認識に優れるものの,臨床的意義の把握が不十分であり,診断精度が低い。
    • 言語モデルとのアライメントにより,音声モデルに臨床的意味理解を付与し,診断能力を向上させる。
    • 提案手法AcuLaは,音声エンコーダを医療言語モデルとアライメントすることで,意味的理解を付与する。
    • 大規模データセットを構築し,音響特徴と臨床報告書の対応付けを行うことで,アライメントを可能にした。
    • 18の心呼吸器疾患タスクにおいて最先端の結果を達成し,平均AUROCを0.68から0.79に改善した。

    Link: https://arxiv.org/abs/2512.04847

  • 言語モデルへのMechSMILESを通じたメカニズムの説明可能性の教育 [cs.LG, physics.chem-ph]目的:化学反応メカニズム予測のための言語モデルの学習と評価
    • 化学反応メカニズムは,反応性と実現可能性を評価する上で不可欠であり,化学の基礎である。
    • 既存のCASPシステムは,このメカニズム的推論を欠いており,予測の信頼性が課題となっている。
    • 言語モデルにメカニズムを学習させることで,説明可能なCASPシステムの構築を目指す。
    • MechSMILESというコンパクトなテキスト形式を導入し,分子構造と電子の流れを効率的に表現した。
    • FlowERとmech-USPTO-31kデータセットにおいて,経路検索でそれぞれ93.2%,73.3%の高い精度を達成した。
    • オゾン分解や鈴木-宮浦カップリングといった新しい反応クラスも,少ない訓練データで効果的に学習可能であることを示した。

    Link: https://arxiv.org/abs/2512.05722

  • 有機結晶構造予測のための全原子拡散モデル:OXtal [cs.LG, cond-mat.mtrl-sci]目的:有機結晶構造の予測
    • 医薬品や有機半導体など,物性・化学的性質に結晶構造が強く影響するため,予測技術は重要である。
    • 分子構造から安定な結晶構造を効率的に予測することは,長年の課題であった。
    • 大規模データと新たな学習法により,従来の予測手法を凌駕する高精度な結晶構造予測を目指す。
    • OXtalは,60万件の実験データを用いて学習することで,既存の機械学習CSP手法を大幅に上回る性能を実現した。
    • 実験構造の再現率が向上し,分子配置のRMSDが0.5Å以下,結晶パッキング類似度が80%を超えた。
    • 結晶化の熱力学的・動態的規則性をモデル化する能力が示された。

    Link: https://arxiv.org/abs/2512.06987

  • 拡散ベース大規模言語モデルの推論速度向上:学習不要な信頼度に基づいた較正手法 [cs.LG]目的:拡散ベース大規模言語モデルの推論処理速度の向上
    • 大規模言語モデルは自然言語処理の基盤技術であり,その高性能化が求められている
    • 拡散ベースLLMは高性能だが,推論速度が遅いという課題がある
    • 推論速度を向上させつつ,精度を維持することが本研究の目的である
    • CadLLMは,ブロックサイズ,ステップサイズ,閾値を動的に制御することで推論速度を向上させる。
    • 語彙の一部のみを活用することでsoftmaxのオーバーヘッドを削減する。
    • 4つのタスクにおいて,最先端のベースラインと比較して1.1~2.28倍の推論速度の改善を達成した。

    Link: https://arxiv.org/abs/2512.07173

  • TPA:RAGにおける幻覚検出のための次トークン確率帰属 [cs.CL, cs.AI]目的:検索拡張生成における幻覚検出
    • 大規模言語モデルの利用拡大に伴い,生成される情報の信頼性確保が重要視されている。
    • 既存手法では,幻覚の原因を内部知識と検索された文脈の二者択一で捉える点が課題であった。
    • 言語モデルの各要素が幻覚に与える影響を定量化し,より正確な検出を目指す。
    • TPAは,クエリ,検索文脈,過去トークンなど7つの要素への確率帰属を数学的に定義した。
    • 品詞タグを用いて各要素の貢献度を分析することで,名詞がLayerNormに大きく依存する異常を検出する。
    • 実験の結果,TPAは最先端の性能を達成し,幻覚検出の有効性を示した。

    Link: https://arxiv.org/abs/2512.07515

  • グループ相対方策最適化による情報一貫性のある言語モデルの推奨 [eess.SY, cs.SY, cs.LG, cs.AI]目的:言語モデルの一貫性
    • LLMは金融,教育,医療など重要分野で活用が拡大しており,信頼性と安定性が求められる。
    • LLMはわずかなプロンプトの違いで出力が変動し,一貫性が損なわれる場合がある。
    • 意味的に等価なプロンプト群に対して,情報内容の一貫性を直接最適化する。
    • 提案手法では,グループ相対方策最適化(GRPO)を適用し,プロンプトのバリエーションをグループとして扱う。
    • 投資および求人推薦タスクにおいて,GRPOでファインチューニングしたモデルはベースラインモデルと比較して変動性を低減した。
    • LLMの可変性を,生成的多様性として許容するのではなく,企業利用における修正可能な欠陥として捉える。

    Link: https://arxiv.org/abs/2512.12858

  • VLegal-Bench:大規模言語モデルのベトナム法域における法的推論のための認知に基づいたベンチマーク [cs.CL, cs.AI]目的:ベトナム法域における大規模言語モデルの法的推論能力の評価
    • 法的領域におけるAI活用が進む中,その性能評価は重要である。特に,複雑な法体系を持つベトナム法において,AIの法的知識理解度を測る必要性が高まっている。
    • ベトナムの法律は改正頻度が高く,体系も複雑であるため,大規模言語モデルが法的知識を正確に解釈・活用できるかを評価することが困難であった。
    • 本研究は,大規模言語モデルのベトナム法域における法的推論能力を体系的に評価するための標準化されたベンチマークを提供し,その課題解決を目指す。
    • VLegal-Benchは,Bloomの認知分類学に基づき,実務シナリオを反映した多様な法的理解レベルのタスクを含む,10,450サンプルから構成される。
    • 専門家による厳格なアノテーションと相互検証により,サンプルが権威ある法的文書に根拠を持ち,現実世界の法的支援ワークフローを反映していることが保証されている。
    • 本ベンチマークは,ベトナム法域における大規模言語モデルのパフォーマンス評価の基盤を確立し,信頼性の高いAI支援法システムの開発を支援する。

    Link: https://arxiv.org/abs/2512.14554

  • 動的なツール依存性検索による軽量関数呼び出し [cs.LG]目的:大規模言語モデルを活用した関数呼び出しエージェントにおけるツール検索手法
    • 複雑なタスクを自動化する上で,外部ツールの適切な選択が重要である。
    • 既存の検索手法は静的入力に依存し,複数段階のツール依存性や変化するコンテキストに対応できない。
    • ツール呼び出し計画の進行に応じて動的にツールを検索し,エージェントの精度と効率を向上させる。
    • 提案手法DTDRは,初期クエリとツール呼び出し計画の両方を条件としてツールを検索する。
    • DTDRは,既存の静的検索手法と比較して,関数呼び出しの成功率を23%から104%向上させる。
    • 関数呼び出しデモンストレーションからツール間の依存関係を学習し,適応的な検索を実現する。

    Link: https://arxiv.org/abs/2512.17052

  • 保存された活性情報 [cs.DM, cs.NE, cs.CC, cs.HC, cs.IT, math.IT]目的:探索空間全体における正味の情報獲得/損失の定量化
    • 情報科学の基礎理論を深め,複雑なシステム理解に貢献する。
    • 従来のKLダイバージェンスでは捉えきれない現象が存在する。
    • KLダイバージェンスの限界を克服し,新たな知見を提供する。
    • 保存された活性情報$I^\oplus$は,KLダイバージェンスでは隠されていた領域を明らかにする。
    • 強力な知識がグローバルな無秩序を減少させる場合など,新たな現象を実証的に示す。
    • 活性情報への長年の批判を解消し,探索,最適化などへの応用を可能にする。

    Link: https://arxiv.org/abs/2512.21834

  • AutoFed:適応的プロンプトによる個別化された連合学習による交通予測 [cs.LG, cs.AI]目的:交通予測のための個別化された連合学習フレームワーク
    • 交通データは,ライドヘイリングや都市計画に不可欠であり,その重要性は増している。
    • 交通データはプライバシーに関わるため,データ共有が制限され,学習の効率が低下しやすい。
    • データ共有の課題を解決し,現実世界での実用性を高める交通予測フレームワークを構築する。
    • AutoFedは,手動でのハイパーパラメータ調整を不要とする,新たな連合学習フレームワークである。
    • プロンプト学習に着想を得て,クライアント固有の情報をグローバルなプロンプト行列に凝縮する。
    • 実世界のデータセットを用いた実験により,AutoFedが多様なシナリオで優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2512.24625

  • 調理を導く損失:構造化されたレシピ生成のためのトポロジー最適輸送 [cs.SI, cs.CL, cs.AI]目的:レシピ生成における,成分リストの位相的損失
    • 料理レシピは複雑であり,正確な手順や成分構成が重要である。
    • 従来のレシピ生成モデルは流暢性に偏っており,正確性に課題がある。
    • 成分と手順の正確性を向上させる損失関数を開発すること。
    • 提案するトポロジー損失は,成分リストを埋め込み空間内の点群として表現し,予測と正解の成分のずれを最小化する。
    • 標準的なNLG指標およびレシピ特有の指標において,提案手法は成分およびアクションレベルの精度を大幅に向上させた。
    • 人間による評価実験では,提案モデルが62%のケースで好まれた。

    Link: https://arxiv.org/abs/2601.02531

  • MFC-RFNet:マルチスケール誘導整流フローネットワークを用いたレーダー系列予測 [cs.CV, cs.AI]目的:レーダーエコー系列からの高精度な降水ナウキャスト
    • 災害軽減や経済計画において,正確な降水予測は不可欠である。
    • 複雑なマルチスケール変化のモデリングやフレーム間特徴のずれ補正が課題である。
    • 空間的忠実性を保ちつつ,長距離時空間コンテキストを効率的に捉えることを目指す。
    • 提案手法は,マルチスケール通信と誘導特徴融合を統合した生成フレームワークである。
    • ウェーブレット誘導スキップ結合により高周波成分を保持し,特徴通信モジュールがクロススケール相互作用を促進する。
    • 複数の公開データセットで既存手法を上回り,より高分解能で安定した予測結果が得られた。

    Link: https://arxiv.org/abs/2601.03633

  • Disco-RAG:談話構造を意識した検索拡張生成 [cs.CL, cs.CL, cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの知識集約型タスクにおける性能向上
    • 知識集約型タスクにおいて,大規模言語モデルの性能向上が求められている。
    • 従来のRAG手法では,検索された文章の構造的特徴が考慮されておらず,知識の統合に限界がある。
    • 文章間の談話構造を明示的に活用することで,RAGシステムの性能向上を目指す。
    • 提案手法Disco-RAGは,文章内の階層構造と文章間の関連性をモデル化する。
    • この構造を生成プロセスに組み込むことで,より一貫性のある知識合成が可能となる。
    • 質問応答と長文書要約タスクにおいて,ファインチューニングなしで最先端の結果を達成した。

    Link: https://arxiv.org/abs/2601.04377

  • 視覚言語モデルにおけるプロンプト誘発幻覚のメカニズム [cs.CV, cs.AI, cs.CL]目的:視覚言語モデルにおけるプロンプト誘発幻覚のメカニズム解明
    • 視覚言語モデルは高性能だが,視覚的証拠よりもテキストプロンプトを優先し幻覚を起こしやすい。
    • プロンプトが画像内のオブジェクト数と矛盾する場合,モデルがプロンプトに過剰に適合する問題がある。
    • 幻覚を引き起こすメカニズムを特定し,その軽減策を検討することを目的とする。
    • オブジェクト数が少ない場合,モデルは過大評価を修正する傾向があるが,数が増えるとプロンプトに従うようになる。
    • 特定のアテンションヘッドを削除することで,追加学習なしにプロンプト誘発幻覚が大幅に減少することがわかった。
    • 幻覚を誘発するヘッドはモデルごとに異なり,視覚的証拠への修正を促進することが示された。

    Link: https://arxiv.org/abs/2601.05201

  • VIB-Probe:変分情報ボトルネックによる視覚言語モデルにおける幻覚の検出と軽減 [cs.CV, cs.AI]目的:視覚言語モデルにおける幻覚の検出と軽減
    • 視覚言語モデルはマルチモーダルタスクで目覚ましい進歩を遂げているが,信頼性が課題である。
    • 既存手法は出力や外部ツールに依存し,内部メカニズムの解析が不十分である。
    • 内部アテンションヘッドの情報を絞り込み,幻覚の原因となるヘッドを特定し,軽減すること。
    • VIB-Probeは,変分情報ボトルネック理論を用いて,幻覚検出と軽減を実現する。
    • 本手法は,層とヘッドを横断した識別パターンを抽出し,ボトルネック原理でノイズを除去する。
    • VIB-Probeの勾配を利用して,幻覚に強い影響を与えるアテンションヘッドを特定し,推論時に介入する。

    Link: https://arxiv.org/abs/2601.05547

  • EnvScaler:プログラムによる合成を通じたLLMエージェントのためのツール対話環境のスケール化 [cs.CL, cs.AI, cs.LG]目的:LLMエージェント用ツール対話環境の自動生成フレームワーク
    • LLMを実世界で活用するには,多様なツールとのインタラクションが不可欠である。
    • 現実世界のシステムへのアクセス制限,シミュレーション環境の不確実性が課題となる。
    • プログラムによる合成により,スケーラブルなツール対話環境の構築を目指す。
    • EnvScalerは,トピックマイニング等により多様な環境の骨格を生成するSkelBuilderと,タスクシナリオを生成するScenGeneratorから構成される。
    • EnvScalerを用いて191の環境と約7千のシナリオを合成し,Qwen3モデルのSFTおよびRLに適用した。
    • 3つのベンチマークにおいて,EnvScalerが複雑な環境におけるLLMのタスク解決能力を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2601.05808

  • CLewR:機械翻訳の嗜好学習のためのカリキュラム学習と再開 [cs.CL, cs.AI, cs.LG]目的:機械翻訳の嗜好学習におけるカリキュラム学習の有効性検証
    • 大規模言語モデルが多言語機械翻訳で高い性能を示す中で,性能向上の余地は大きい。
    • 嗜好最適化による性能改善は進むものの,学習データ提示順序の重要性が未解明である。
    • 提示順序を最適化するカリキュラム学習を導入し,機械翻訳性能の向上を目指す。
    • 提案手法CLewRは,容易なサンプルから困難なサンプルへ複数回カリキュラムを繰り返すことで,容易なサンプルの忘却を抑制する。
    • Gemma2,Qwen2.5,Llama3.1など,様々なモデルと嗜好最適化手法で性能向上が確認された。
    • CLewRのコードは公開されており,再現性とさらなる研究を促進する。

    Link: https://arxiv.org/abs/2601.05858

  • AscendKernelGen:ニューラル処理ユニット向けLLMベースのカーネル生成に関する体系的研究 [cs.AI, cs.LG]目的:ニューラル処理ユニット(NPU)のカーネル生成の自動化
    • AIインフラにおいてNPUが重要性を増しており,高い計算効率が求められている。
    • NPUの性能を最大限に引き出すためには,専門的な知識と労力を要するDSLを用いたカーネル開発が課題である。
    • 汎用LLMではNPUドメイン特有の制約からカーネル生成が困難であり,その解決を目指す。
    • 提案手法AscendKernelGenは,カーネル開発のための生成・評価統合フレームワークである。
    • 高品質なデータセットAscend-CoTと,ドメイン適応モデルKernelGen-LMにより,コンパイル成功率が大幅に向上した。
    • 複雑なLevel-2カーネルのコンパイル成功率は0%から95.5%へと改善され,機能的正確性は64.3%を達成した。

    Link: https://arxiv.org/abs/2601.07160

  • 臨床試験ワークフロー改善のためのAI支援プロトコル情報抽出 [cs.IR, cs.AI, cs.CL, cs.LG]目的:臨床試験プロトコルの情報抽出の精度と効率の向上
    • 臨床試験は,医療進歩に不可欠であり,その効率化は新薬開発を加速させる。
    • プロトコルの複雑化と知識管理の課題により,試験チームの負担が増大している。
    • AIを用いてプロトコル情報の抽出を自動化し,ワークフローの効率化を目指す。
    • 生成LLMとRAGを用いたAIシステムが,専門家による参照アノテーションと比較して高い抽出精度(89.0%)を示した。
    • RAGプロセスは,ファインチューニングされたプロンプトを用いた既存のLLM(62.6%)よりも高い精度を達成した。
    • シミュレーションでは,AI支援タスクが40%高速に完了し,認知負荷が軽減され,ユーザーから強く好まれた。

    Link: https://arxiv.org/abs/2602.00052

  • 1S-DAug:少ないサンプル学習におけるロバストな汎化のためのワンショットデータ拡張 [cs.CV, cs.AI, cs.LG]目的:少ないサンプル学習における汎化性能の向上
    • 機械学習において,データ不足は汎化性能を大きく左右するため,少ないサンプルでの学習が重要視される。
    • 従来のテスト時拡張は,少ないサンプル学習において効果を発揮せず,汎化性能向上の課題となっていた。
    • 本研究は,単一のサンプルから多様な画像を生成し,ロバストな予測を可能にする手法を提案することで,この課題を解決する。
    • 1S-DAugは,テスト時に単一の画像から多様なバリアントを生成するワンショット生成拡張演算子である。
    • 標準的なベンチマークにおいて,4つの異なるデータセットで少ないサンプル分類の性能を向上させ,miniImagenet 5-way-1-shotで最大20%の相対的精度向上を達成した。
    • 大規模なビジョン言語モデルへの拡張実験と理論的分析も行った。

    Link: https://arxiv.org/abs/2602.00114

  • CoMeT:効率的な長文脈モデリングのための協調的メモリTransformer [cs.CL, cs.LG, cs.AI]目的:長文脈処理の効率化
    • Transformerは自然言語処理の基盤技術であり,その性能向上は重要である。
    • 標準的なTransformerは,文脈長が長くなるにつれて計算コストとメモリ消費が増大する。
    • CoMeTは,Transformerのメモリ使用量と計算量を削減し,長文脈処理を可能にする。
    • CoMeTは,一定のメモリ使用量と線形時間複雑度で任意の長さのシーケンスを処理できる。
    • 32k文脈でファインチューニングされたCoMeT搭載モデルは,1Mトークンシーケンス内の任意の位置からパスキーを正確に取得できる。
    • SCROLLSベンチマークにおいて,CoMeTは他の効率的な手法を上回り,要約タスクにおいてフルアテンションベースラインと同等の性能を達成した。

    Link: https://arxiv.org/abs/2602.01766

  • フラッグを奪取せよ:意味保持変換によるエージェント型LLMの家族ベース評価 [cs.SE, cs.AI]目的:エージェント型LLMのロバスト性と汎化性能の評価
    • サイバーセキュリティは重要性が増しており,LLMの活用が期待されている。
    • 既存の評価指標では,LLMのソースコードの変更に対する頑健性が不明確である。
    • 意味保持変換を用いて評価指標を強化し,LLMのロバスト性を詳細に分析すること。
    • モデルは,リネームやコード挿入といった単純な変換には高いロバスト性を示す。
    • 複数の変換や難読化処理を組み合わせると,性能が低下し,高度なツール利用が必要になる。
    • 明示的な推論能力の付与は,成功率にほとんど影響を与えなかった。

    Link: https://arxiv.org/abs/2602.05523

  • 法医学的靴跡分析のためのスケーラブルな空間点過程モデル [cs.CV, cs.LG, stat.ML]目的:靴跡の個体識別可能性の定量化
    • 犯罪捜査において,靴跡は重要な証拠となり得る。靴の種類やモデルだけでは犯人を特定できない場合がある。
    • 靴底に付着する傷や摩耗といった「事故的特徴」のパターンは個体ごとに異なるが,その希少性を定量化することは困難である。
    • 靴底のパターンと事故的特徴の位置の関係を空間的にモデル化し,個体識別可能性を向上させる。
    • 階層ベイズモデルを開発し,大規模な靴跡データセットへの適用を可能にした。
    • 潜在ガウスモデルとして定式化し,効率的な推論を実現した。
    • 空間的に変動する係数を組み込むことで,靴底のパターンと事故的特徴の位置の関係をより正確にモデル化した。

    Link: https://arxiv.org/abs/2602.07006

  • KRONE:階層的抽象化によるスケーラブルなLLM拡張ログ異常検知 [cs.DB, cs.AI, cs.SE]目的:ログ異常検知のための階層的フレームワークの提案
    • システム障害やセキュリティリスクの早期発見は,サービスの安定運用に不可欠である。
    • 従来のログ分析では,実行構造が失われ,誤った相関関係を学習しやすい。
    • 実行階層を自動的に導出し,モジュール化された異常検知を実現すること。
    • KRONEは,既存手法と比較して,精度,F1スコア,データ効率,リソース効率,解釈可能性において大幅な改善を達成した。
    • F1スコアは10.07%(82.76%から92.83%へ)向上し,LLMの使用量はテストデータのわずか1.1%から3.3%に抑制された。
    • KRONEは,階層構造を活用したモジュール化と,LLMによる異常検知・説明により,効率的かつ解釈可能な異常検知を実現した。

    Link: https://arxiv.org/abs/2602.07303

  • 創発的なAIエージェントプロトコルのセキュリティ脅威モデリング:MCP,A2A,Agora,ANPの比較分析 [cs.CL, cs.CR, cs.AI]目的:AIエージェントプロトコルのセキュリティリスク評価
    • AIエージェント技術の発展は,様々な分野での自動化を促進し,社会への影響が大きいため。
    • AIエージェント間通信プロトコルのセキュリティ原則は十分に研究されておらず,標準化された脅威モデリングが不足している。
    • AIエージェント通信プロトコルのセキュリティリスクを特定し,安全な展開と標準化のための指針を提供する。
    • MCP,A2A,Agora,ANPの4つのプロトコルを対象に,体系的なセキュリティ分析を実施した。
    • プロトコルアーキテクチャ,信頼の前提,相互作用パターン,ライフサイクル行動を分析し,12個のプロトコルレベルリスクを特定した。
    • MCPにおける必須の検証/認証の欠如リスクを定量化し,安全な展開に向けた具体的な指針を提示した。

    Link: https://arxiv.org/abs/2602.11327

  • 操り人形か,あるいは協力者か:デジタル公共圏におけるサイボーグプロパガンダの統治 [cs.DL, cs.CY, cs.AI]目的:サイボーグプロパガンダの概念構築と,その民主的な言説への脅威の分析
    • デジタル空間における情報操作は,民主主義の根幹を揺るがす深刻な問題として認識されている。
    • 従来のボットと人間の区別では,人間アカウントとアルゴリズムを組み合わせた高度なプロパガンダに対処できない。
    • サイボーグプロパガンダという新たな脅威を明らかにし,規制の方向性を示す。
    • 本研究は,「サイボーグプロパガンダ」という概念を提示し,人間とAIの連携による新たなプロパガンダ手法を分析した。
    • 既存の規制枠組み(EU AI Act,Section 230など)は,この手法に対応できない構造的な問題を抱えていることが示された。
    • 民主国家と非民主国家における規制の可能性を比較分析し,国際的なリスク基準の重要性を提唱した。

    Link: https://arxiv.org/abs/2602.13088