arXiv雑要約

AI - 2025/10/14 公開

  • TRAJECT-Bench:エージェントによるツール利用の評価のための軌跡を考慮したベンチマーク [cs.AI]目的:エージェントによるツール利用能力の包括的評価
    • LLMエージェントが現実世界タスクを遂行する上で,ツール利用は不可欠である。
    • 既存研究では,最終的な回答に焦点が当たり,ツールの選択,パラメータ設定,実行順序といった詳細な利用軌跡が評価されていない。
    • ツール利用の軌跡レベルでの診断を通して,LLMのツール利用能力のボトルネックを特定し,改善の方向性を示す。
    • TRAJECT-Benchは,多様なタスクと詳細な評価指標により,LLMのツール利用能力を総合的に評価する。
    • 分析の結果,類似ツールの混同やパラメータへの無関心といった失敗パターンが明らかになった。
    • 短い軌跡から中程度の長さの軌跡への移行がボトルネックであることが示され,LLMのツール利用改善に役立つ知見が得られた。

    Link: https://arxiv.org/abs/2510.04550

  • LaDiR:潜在拡散がLLMによるテキスト推論を強化する [cs.LG, cs.AI, cs.CL]目的:LLMのテキスト推論能力向上のための潜在拡散モデル統合フレームワーク
    • LLMは推論能力を持つが,その限界と多様性の欠如が課題である
    • LLMの自己回帰的デコーディングは,過去のトークンを全体的に見直すことを制限する
    • 潜在拡散モデルを用いて推論過程を効率的に探索し,精度と多様性を向上させる
    • LaDiRは,VAEで構築された潜在的な推論空間と拡散モデルを組み合わせることで,従来のLLMの性能を向上させる
    • LaDiRは,数学的推論や計画のベンチマークにおいて,精度,多様性,解釈可能性を既存手法より改善した
    • 本研究は,テキスト推論における潜在拡散の新たなパラダイムを提示する

    Link: https://arxiv.org/abs/2510.04573

  • 数学的推論の適応化 [cs.AI]目的:大規模言語モデルにおける数学的推論の頑健性と汎化性能の向上
    • 大規模言語モデルの知能を測る上で,数学的推論能力は重要な指標である。
    • 既存モデルは,表面的な特徴に依存した推論による誤りや,汎化性能の低さに課題がある。
    • 表面的な特徴に依存しない,問題解決ロジックに基づいた適応的な推論を可能にすること。
    • AdaRフレームワークは,変数値を変化させて論理的に同等のクエリを生成し,RLVRを用いて表面的なロジックを抑制し,適応的なロジックを促進する。
    • 実験結果から,AdaRは頑健性と汎化性能を向上させ,数学的推論において顕著な改善を示すことが確認された。
    • データ合成とRLVRが協調して機能することで,大規模言語モデルにおける適応的な推論が実現されることが示唆された。

    Link: https://arxiv.org/abs/2510.04617

  • 人口統計学的ターゲットを絞ったソーシャルバイアスの検出におけるLLMの評価:包括的なベンチマーク研究 [cs.CL, cs.CY, cs.LG]目的:人口統計学的ターゲットを絞ったソーシャルバイアスの検出能力評価
    • AIモデルのトレーニングデータに含まれるバイアスは社会に悪影響を及ぼすため,その検出と軽減が重要である。
    • 既存研究は範囲が狭く,単一のコンテンツタイプや限られた人口統計学的軸に焦点を当てている場合が多い。
    • LLMを用いた自動バイアス検出の強みと限界を包括的に理解し,スケーラブルな監査フレームワークを確立すること。
    • ファインチューニングされた小規模モデルは,スケーラブルなバイアス検出において有望な結果を示した。
    • 人口統計学的軸や複数属性を対象としたバイアスにおいて,依然として課題が残存していることが明らかになった。
    • より効果的かつスケーラブルな監査フレームワークの必要性が示唆された。

    Link: https://arxiv.org/abs/2510.04641

  • 曲線ブール論理:命題論理の文脈的一般化とアルゴリズム的帰結 [cs.LO, cs.AI, cs.CC, quant-ph]目的:曲線ブール論理の形式化と,その複雑性,運用演算子,およびノイズへのモデル化
    • 従来のブール論理の限界を克服し,より柔軟で表現力豊かな論理体系を構築する重要性。
    • 矛盾や曖昧さの存在が,既存の論理システムにおける推論や意思決定の妨げとなっている。
    • 文脈依存の真理値割当を許容することで,より現実的でロバストな論理推論を可能にする。
    • 曲線ブール論理(CBL)は,局所的な真理値割当を許容することで命題論理を一般化している。
    • CBL-SATはNP完全であることが示され,CBL-ACとCBL-CONSといった運用演算子が矛盾の早期排除に貢献する。
    • iid,AR(1)相関,敵対的摂動といったノイズモデルを導入し,ベンジャミニ・ホッホバーグFDR制御による有意性評価を行った。

    Link: https://arxiv.org/abs/2510.04716

  • FreshBrew:Javaコード移行におけるAIエージェントの評価ベンチマーク [cs.SE, cs.AI]目的:Javaコードの移行におけるAIエージェントの性能評価
    • ソフトウェア開発において,コードの移行は常に必要であり,技術革新に不可欠である。
    • 従来の移行手法はルールベースであり,人的介入が必要で,効率と信頼性に課題がある。
    • LLMを活用したAIエージェントの有効性を厳密に評価し,信頼性の高いコード移行システムを開発する。
    • FreshBrewベンチマークを用いて,228のJavaリポジトリでAIエージェントの性能を評価した結果,Gemini 2.5 Flashが52.3%のプロジェクトをJDK 17に移行できた。
    • AIエージェントは,テストカバレッジの高いプロジェクトでプログラムの意味を保持し,報酬ハッキングを回避する能力が重要であることが明らかになった。
    • 本研究は,現実的なJavaモダナイゼーションタスクにおけるAIエージェントの課題を明らかにし,信頼性の高いコード移行システムの評価基盤を提供する。

    Link: https://arxiv.org/abs/2510.04852

  • 術中病理診断のための臨床グレード汎用基盤モデル [cs.LG]目的:術中病理診断支援のための汎用基盤モデルの開発と評価
    • 精密外科手術において術中病理診断は不可欠であり,その精度が手術の成功を左右する。
    • 高品質な凍結切片データが不足しており,病理診断の複雑さが臨床応用のボトルネックとなっている。
    • 大規模データを用いた汎用基盤モデルにより,術中病理診断の精度向上と効率化を目指す。
    • CRISPは10万件以上の凍結切片データを用いて開発され,多様な機関や癌種で高い汎化性能を示した。
    • 前向きコホート研究では,CRISPは92.6%の症例で診断精度を維持し,手術判断に直接貢献した。
    • 医師とAIの連携により診断負担が35%軽減され,マイクロメタスタシス検出の精度は87.5%に達した。

    Link: https://arxiv.org/abs/2510.04861

  • 知覚,推論,モデリング,相互作用の整合:物理AIに関する調査 [cs.AI]目的:物理AIの包括的な概観
    • AIの現実世界での理解を深める上で,物理法則の組み込みが不可欠である。
    • 物理知覚と物理記号推論が分断され,統合的な枠組みが存在しない。
    • 物理原則と具現化された推論に基づく学習を目指し,真の物理法則理解を促す。
    • 物理AIの分野における理論物理推論と応用物理理解の明確な区別が示された。
    • 物理に基づいた手法が,構造化された記号推論,具現化システム,生成モデルにおいてAIの現実世界理解を向上させる様子が体系的に検証された。
    • 次世代のワールドモデルは,物理現象を説明し,将来の状態を予測する能力を持つことが期待される。

    Link: https://arxiv.org/abs/2510.04978

  • 思考後埋め込み:生成的な文脈がマルチモーダル埋め込みを改善する [cs.RO, cs.AI, cs.LG]目的:マルチモーダル埋め込みにおける性能向上
    • 多様な情報を統合し理解する能力が求められるため,マルチモーダルな情報処理技術の重要性が高まっている。
    • 複雑な指示に対する理解において,既存のマルチモーダル埋め込みモデルは,構成的推論の能力が不足している。
    • 大規模言語モデルの生成能力を活用し,複雑な指示に対する推論プロセスを明示化することで,埋め込みの質を向上させる。
    • 提案手法「思考後埋め込み(TTE)」は,MMEB-V2ベンチマークで最先端の性能を達成し,大規模な独自データセットで学習されたモデルを上回った。
    • 高品質な埋め込み中心の推論トレースを用いた小規模言語モデルのファインチューニングにより,オープンソースモデルとして最高の性能を達成した(7%の絶対的な改善)。
    • 推論器と埋め込み器を統合した単一モデルへの戦略を調査し,効率性を損なうことなく性能を維持した。

    Link: https://arxiv.org/abs/2510.05014

  • 多様な説得データ生成のためのマルチエージェント対話シミュレーションMADS [cs.CL, cs.AI, cs.CY, cs.HC, cs.MA]目的:説得的なマルチターン対話データ生成
    • 対話システムは顧客対応等で重要であり,その性能向上はビジネスに直結する。
    • 高品質な対話データが不足しており,特に説得力を評価するデータは入手が困難である。
    • 人間によるアノテーションコストを削減し,多様な説得データが低コストで生成可能にすること。
    • MADSは,性格特性を活用した多様なユーザーエージェント,タスク指向の説得戦略,最適化エージェントを組み合わせることで,スケーラブルな対話データ生成を実現した。
    • ユーザーの態度変化モデルやLLMによる評価を通して,MADSの有効性が確認された。
    • 実際のマーケティングシナリオにおいて,MADSは小規模LLMの説得能力を向上させ,オーガニックトラフィックのコンバージョン率を22.4%改善した。

    Link: https://arxiv.org/abs/2510.05124

  • 大規模評価における言語モデルを用いた数学問題と内容標準の自動対応付け [cs.CL, cs.LG]目的:大規模評価における数学問題と内容標準の自動対応付け手法の評価
    • 大規模評価の妥当性確保には,問題と内容標準の正確な対応付けが不可欠である。
    • 手動による対応付けはコストと時間がかかるため,自動化が求められている。
    • 言語モデルを用いた自動対応付け手法の有効性と限界を明らかにする。
    • ドメイン対応付けではDeBERTa-v3-baseがF1スコア0.950で最高性能を示した。
    • スキル対応付けではRoBERTa-largeがF1スコア0.869で最高性能を示した。
    • アンサンブル学習は,最良の言語モデルを上回る性能を示さなかった。

    Link: https://arxiv.org/abs/2510.05129

  • 正確な因果注意機構:演算数を10%削減 [cs.CL, cs.LG, cs.DM, cs.DS]目的:演算数を10%削減した正確な因果注意機構の計算手法
    • Transformerモデルの性能向上は,注意機構の効率化に大きく依存する
    • 従来の注意機構計算は,計算コストが高いという課題があった
    • 演算数を削減し,計算効率を高める新たな注意機構を開発すること
    • 本研究では,Strassen法に着想を得たECA(Exact Causal Attention)を提案した
    • ECAは,上三角または下三角行列を含む特定の行列積の演算数を10%削減する
    • GPUにおけるFlashAttentionのような融合カーネルは高速化できないが,計算資源が限られた環境で有用である

    Link: https://arxiv.org/abs/2510.05175

  • ロジスティックゲート演算子による,記号回帰における監査可能な単位対応閾値の実現 [cs.LG, cs.AI, cs.SC]目的:記号回帰における単位対応閾値と条件ロジックの符号化
    • 記号回帰は読みやすい数式を生成するが,実際の応用には単位や閾値の扱いが課題となっていた。
    • 従来の記号回帰では,単位を意識した閾値を正確に表現し,臨床的な判断基準との整合性を担保することが難しかった。
    • 提案手法は,監査可能な単位対応閾値を持ち,臨床的妥当性を確認できる記号回帰モデルの構築を目指す。
    • 提案するロジスティックゲート演算子(LGO)は,臨床的ガイドラインとの一致率が71%(10%以内),100%(20%以内)を達成した。
    • ハードゲート変形はソフトゲート変形よりも少ないゲート数で同等の精度を維持し,モデルの簡潔性を高めている。
    • これにより,解釈可能性を高めると共に,実用的な閾値設定とガバナンス対応を可能にする。

    Link: https://arxiv.org/abs/2510.05178

  • 大規模言語モデルにおける問題難易度認識メカニズムの探求 [cs.CL, cs.AI]目的:大規模言語モデルの内部表現における問題難易度認識の有無
    • 複雑な推論タスクへのLLMの応用が進む中で,自己評価能力が重要である。
    • LLMが問題の難易度を内部的に評価する能力は未解明な点が多い。
    • LLMにおける難易度認識のメカニズムを解明し,自動難易度アノテーションへの応用を目指す。
    • LLMの最終トークン表現に対して線形プローブを用いることで,問題難易度を線形モデルで予測可能であることが示された。
    • 最終Transformer層の特定のアテンションヘッドが,難易度に応じて活性パターンが異なることで難易度認識を達成していることが明らかになった。
    • この研究は,LLMを自動難易度アノテーターとして活用し,人的コストを削減する可能性を示唆する。

    Link: https://arxiv.org/abs/2510.05969

  • TRepLiNa:層ごとのCKA+REPINAアライメントがAya-23 8Bにおける低リソース機械翻訳を改善する [cs.CE, cs.CL, cs.AI]目的:低リソース言語から高リソース言語への翻訳品質の向上
    • インドの多様な低リソース言語における言語資源の不足という喫緊の課題に対応する必要がある。
    • 低リソース言語の翻訳においては,データ不足が翻訳精度のボトルネックとなっている。
    • デコーダーのみの多言語LLMの内部層でクロスリンガルな類似性を強制することで翻訳品質を改善する。
    • TRepLiNa(CKA+REPINA)を用いて中間層をアライメントすることが,低リソース言語翻訳の改善に効果的である。
    • 特にデータ不足の状況下において,TRepLiNaは低コストかつ実用的な手法となる。
    • ゼロショット,Few-shot,ファインチューニングのいずれの条件下においても,翻訳品質の向上が確認された。

    Link: https://arxiv.org/abs/2510.06249

  • 大規模言語モデルを活用したサイバーセキュリティリスク評価 - 林業サイバーフィジカルシステムの事例 [cs.SE, cs.AI, cs.CR]目的:サイバーセキュリティリスク評価の支援
    • 安全が重要なシステムにおいて,サイバーセキュリティは不可欠であり,リスク評価はその中でも重要である。
    • サイバーセキュリティ専門家が不足しているため,専門家の負担が増大し,エンジニアがセキュリティ業務を担う必要が生じている。
    • サイバーセキュリティ専門家とエンジニアのリスク評価を支援し,脆弱性と脅威を評価するツールを提供する。
    • 大規模言語モデルが初期リスク評価の生成,脅威の特定,冗長性チェックを通じて,サイバーセキュリティ専門家を支援できることが示された。
    • データの保護とプライバシー要件を遵守しながら,林業分野におけるリスク評価の支援が可能であることが確認された。
    • 生成能力への完全な依存ではなく,特定の評価と支援役割において,専門家が大規模言語モデルの利用に意欲的であることが示された。

    Link: https://arxiv.org/abs/2510.06343

  • FURINA:スケーラブルなマルチエージェント協調パイプラインによる完全カスタマイズ可能なロールプレイングベンチマーク [cs.CL, cs.AI, cs.HC, cs.MA]目的:ロールプレイングタスクのための,完全カスタマイズ可能なベンチマークの構築
    • 大規模言語モデルの発展に伴い,ロールプレイング能力の評価が重要になっている。
    • 既存のベンチマークは範囲が狭く,相互作用様式が時代遅れで,適応性に欠けるという問題がある。
    • 多様なシナリオやプロンプト形式に対応できる,適応的な評価のためのベンチマーク構築を目指す。
    • FURINA-Builderというマルチエージェント協調パイプラインを開発し,任意の規模でカスタマイズ可能なロールプレイングベンチマークを自動的に構築可能にした。
    • 構築したベンチマークFURINA-Benchを用いて,最先端のLLMを評価した結果,o3とDeepSeek-R1がそれぞれ英語と中国語のロールプレイングタスクで最高の性能を示した。
    • 推論能力を持つLLMにおいて,推論性能の向上はロールプレイングの性能を向上させる一方で,幻覚の発生率を増加させるというトレードオフが確認された。

    Link: https://arxiv.org/abs/2510.06800

  • 時間的グラフにおけるノード親和性予測の再検討 [cs.LG]目的:時間的グラフにおけるノード親和性予測
    • 社会的・金融ネットワークや推薦システムなど,多様な分野で時間的グラフ学習が重要視されている。
    • 既存の動的リンク予測モデルを応用しても,単純なヒューリスティックに劣るという課題がある。
    • 時間的グラフニューラルネットワークの学習における課題を解決し,ノード親和性予測の性能向上を目指す。
    • 本研究では,仮想状態を用いたノード親和性予測モデルNAViSを開発した。
    • NAViSは,ヒューリスティックを含む最先端モデルと比較して,TGBにおいて優れた性能を示した。
    • NAViSの学習を容易にするために,ノード親和性予測のための新しい損失関数も提案した。

    Link: https://arxiv.org/abs/2510.06940

  • 効率的な系列モデリングのためのネイティブハイブリッドアテンション [cs.CL, cs.AI, cs.LG]目的:系列モデリングにおける効率性と精度向上
    • 系列モデリングは,自然言語処理をはじめとする多様な分野で不可欠な技術である。
    • Transformerモデルは計算コストが高く,線形アテンションは長文脈での精度が課題である。
    • 線形アテンションと全アテンションを組み合わせることで,効率と精度を両立することを目指す。
    • 提案手法であるNHAは,Transformerや他のハイブリッド手法と比較して,回想集中的なタスクと常識推論タスクにおいて優れた性能を示した。
    • NHAは,スライディングウィンドウサイズという単一のハイパーパラメータにより,線形アテンションと全アテンションをシームレスに調整可能である。
    • 事前学習済みのLLMにNHAを構造的に組み込むことで,精度を維持しつつ大幅な効率化を実現できる。

    Link: https://arxiv.org/abs/2510.07019

  • HTMformer:時系列予測のためのハイブリッド時間・多変量Transformer [cs.LG, cs.AI]目的:時系列予測におけるTransformerモデルの性能向上
    • 時系列データは,経済,気象,医療など様々な分野で重要であり,正確な予測は意思決定に不可欠である。
    • 既存のTransformerモデルは,時間依存性を過度に重視し,計算コストが増加する一方で,性能向上が見られない場合がある。
    • より効率的かつ高精度な時系列予測モデルを構築し,計算コストと予測精度とのバランスを実現すること。
    • 提案手法HTMformerは,軽量な時間特徴抽出モジュールと多変量特徴抽出モジュールを統合したハイブリッド埋め込み(HTME)を用いる。
    • HTMEにより,より豊かで意味のある系列表現を獲得し,Transformerモデルの理解度を向上させる。
    • 8つの実世界データセットにおける実験の結果,HTMformerは既存手法と比較して,精度と効率の両面で優れた性能を示した。

    Link: https://arxiv.org/abs/2510.07084

  • 身体性の偶発性が開放性とケアを可能にする [cs.AI, cs.LG]目的:開放的な環境への適応と,共感的なケアの提供
    • 人工知能研究において,環境への適応性と人間らしいケアは重要な課題である。
    • 既存の人工エージェントは,開放的な環境で適応し,適切なケアを提供することが難しい。
    • 身体性の条件に着目し,より強靭で適応的なエージェントの実現を目指す。
    • 本研究では,ハイデガーの現象学に基づき,「世界-内-存在」と「死-へ-向かう」という身体性の二つの条件を定義した。
    • これらの条件から,生存を維持するための恒常性維持欲求と,可能な限りそれを継続しようとする内発的な動機が生じると提案する。
    • 強化学習フレームワークを用いて,内発的に駆動される具現化されたエージェントが,開放的な環境で開放性とケアの能力を育む可能性を検証した。

    Link: https://arxiv.org/abs/2510.07117

  • 辞書順コスト優先度を持つ多目的多エージェント経路探索 [cs.AI, cs.MA]目的:多目的多エージェント経路探索における辞書順コスト優先度に基づく解探索
    • 現実世界では,複数のエージェントが協調して環境を共有し,複数の目的を両立させる必要がある。
    • 既存の多目的多エージェント経路探索アルゴリズムは,パレート最適解を求めるが,ユーザ定義の優先度を考慮できない。
    • ユーザの優先度を直接反映した効率的な経路計画アルゴリズムを開発し,目的数増加時のスケーラビリティを向上させる。
    • 提案手法であるLCBSは,パレート最適解の構築を回避し,目的に対する優先度に基づいた効率的な計画を可能にする。
    • 実験結果から,LCBSは最適な解を計算し,既存のMO-MAPF手法の限界を超える最大10個の目的数を持つインスタンスに適用可能であることが示された。
    • 標準的およびランダムなMAPFベンチマークにおいて,特に目的数が増加した場合に,最先端のベースラインと比較して一貫して高い成功率を示した。

    Link: https://arxiv.org/abs/2510.07276

  • 拡散モデルのための局所MAPサンプリング [cs.GR, cs.AI, eess.IV]目的:拡散モデルにおける逆問題解決のための局所MAPサブ問題を反復的に解くこと
    • 逆問題は,医療画像処理や天文学など,様々な分野で重要であり,ノイズ除去や画像再構成に役立つ。
    • 最適化に基づく拡散ソルバーは性能が高いものの,確率的根拠が不明確であり,理論的な理解が深まっていない。
    • 最適化手法と確率的推論のギャップを埋め,逆問題解決の理論的基盤を明確にすること。
    • 局所MAPサンプリング(LMAPS)は,拡散軌跡に沿って局所MAPサブ問題を反復的に解く新しい推論フレームワークである。
    • LMAPSは,最適化に基づく方法とDPSの関係を明らかにし,統一的な確率的解釈を提供する。
    • 画像復元や科学的タスクにおいて,モーションデブラーリング,JPEG復元,量子化において最先端の性能を達成した。

    Link: https://arxiv.org/abs/2510.07343

  • 基盤モデルは推論を知っており,思考モデルは学習する [cs.AI, cs.LG]目的:思考型言語モデルと基盤モデルの推論能力の差異に関する分析
    • 大規模言語モデルの能力向上は目覚ましいが,推論能力の獲得メカニズムは未解明である。
    • 思考型モデルがどのようにして基盤モデルを上回るのか,そのメカニズムが明確ではない。
    • 基盤モデルに適切なタイミングで推論メカニズムを活性化することで思考型モデルの性能に近づけることを目指す。
    • 基盤モデルに推論メカニズムを活性化させることで,思考型モデルの91%までの性能を,重み更新なしに達成した。
    • 活性化させたトークン数は全体の12%に過ぎず,効率的な推論能力の引き出しが可能であることが示された。
    • 事前学習で推論メカニズムを獲得し,事後学習で効率的な活用方法を学習するという,思考型モデルの訓練に関する新たな視点を提供した。

    Link: https://arxiv.org/abs/2510.07364

  • ProSEA:探索エージェントによる問題解決 [cs.AI]目的:問題解決のための探索エージェントフレームワーク
    • 大規模言語モデルの発展により,AIエージェントの能力向上は,複雑なタスクの自動化に不可欠である。
    • 既存のエージェントは計画が固定化され,柔軟な対応や協調性に欠ける点が課題となっている。
    • ProSEAは,探索と計画の進化を通じて,より適応的で透明性の高いAIエージェントを実現する。
    • ProSEAは,マネージャーエージェントと専門家エージェントの階層構造を持つ汎用的なフレームワークである。
    • FinanceBenchベンチマークにおいて,人間の介入なしで最先端のベースラインを上回る性能を示した。
    • 失敗理由や制約を詳細に報告することで,動的な計画改善を可能にし,AIエージェントの適応性と透明性を高める。

    Link: https://arxiv.org/abs/2510.07423

  • 教師なしテーブルデータタスクのための自動機械学習 [cs.LG]目的:教師なし機械学習タスクにおけるモデル選択
    • データ分析の自動化が重要視されており,専門知識がなくても効率的な分析が求められている。
    • 教師なし学習では,適切なモデル選択が難しく,試行錯誤に時間がかかる場合が多い。
    • データ分布の類似性に基づき,適切なモデルを効率的に選択することを目指す。
    • 提案手法LOTUSは,オプティマルトランスポート距離を用いてデータ分布の類似性を評価する。
    • 外れ値検出とクラスタリングという2つの教師なしタスクにおいて,既存手法と比較して良好な結果が得られた。
    • LOTUSは,教師なし機械学習におけるモデル選択の自動化に向けた有望な第一歩となる。

    Link: https://arxiv.org/abs/2510.07569

  • ネットワーク干渉下におけるデザインベースのバンディット:後悔と統計的推論のトレードオフ [cs.LG]目的:ネットワーク干渉下マルチアームバンディットにおける後悔最小化と統計的推論のトレードオフ
    • ネットワーク環境下では,個々のノードの行動が他ノードに影響を及ぼすため,効率的な意思決定が不可欠である。
    • 既存研究は後悔最小化に偏りがちであり,劣位アームに対する統計的推論の精度が損なわれる可能性がある。
    • 後悔最小化と統計的推論の精度の間のトレードオフを理論的に明確化し,バランスのとれたアルゴリズムを提案すること。
    • 本研究で初めて,敵対的(デザインベース)MABNIにおける後悔最小化と推論精度のトレードオフを特徴づけるパレート最適解を確立した。
    • 後悔最小化と推論精度を両立させるための,いつでも有効な漸近信頼区間と対応するアルゴリズム$\texttt{EXP3-N-CS}$を提案した。

    Link: https://arxiv.org/abs/2510.07646

  • 適応型AIシステムのための継続学習 [cs.LG]目的:継続学習におけるカタストロフィック・フォゲッティングの軽減
    • AIの適応性を高める上で,継続学習は重要な技術である。
    • 深層学習モデルは過学習や忘却の影響を受けやすいという課題がある。
    • 新しいタスク学習時の過去の知識の保持を強化することを目指す。
    • 提案手法CARは,クラスバランスのとれたリプレイバッファと特徴空間におけるInter-Cluster Fitness (ICF)による正則化を組み合わせる。
    • ICF損失は,新しいタスクと過去のタスク間の特徴表現の重複を抑制し,潜在空間での幾何学的分離を促す。
    • Split CIFAR-10ベンチマーク実験の結果,CARは単純なファインチューニングと比較して,初期タスクの性能をより良く維持することが示された。

    Link: https://arxiv.org/abs/2510.07648

  • oMeBench:有機機構解明と推論におけるLLMの堅牢なベンチマークに向けて [cs.AI, cs.CL]目的:有機機構推論のための大規模なベンチマークデータセットおよび評価フレームワーク
    • 有機反応機構は,化学反応の理解と新規分子設計に不可欠であり,化学分野の進歩に貢献する。
    • LLMの化学タスク理解能力は進歩しているが,それが真の化学的推論能力に基づいているかは不明である。
    • LLMの有機機構推論能力を正確に評価し,改善のための基盤を提供する。
    • oMeBenchは,1万件以上の有機機構ステップのアノテーションを含む大規模なベンチマークデータセットである。
    • oMeSは,ステップレベルの論理と化学的類似性を組み合わせた動的な評価フレームワークである。
    • 現在のLLMは直感的な化学知識を持つものの,多段階の推論に苦戦しており,専門モデルのファインチューニングが性能を大幅に向上させる。

    Link: https://arxiv.org/abs/2510.07731

  • 複雑なLLMタスクの体系的な分解手法 [cs.AI]目的:複雑なLLMタスクの体系的な分解
    • LLMは多様な応用が期待されるが,複雑なタスクでの信頼性が課題である。
    • 既存の分解手法は経験則に頼るか,エージェントや手動分解が必要となる。
    • 制約問題としてモデル化し,複雑度指標を用いて分解を導くことで信頼性を向上させる。
    • 複雑度指標に基づいたタスク分解により,エージェントの性能が大幅に向上した。
    • SATBenchとSpiderタスクにおいて,10〜40パーセントポイントの性能改善が確認された。

    Link: https://arxiv.org/abs/2510.07772

  • 大規模言語モデルにおける能動的な混乱表現:より良い社会推論に向けた世界モデルの活用 [cs.CL, cs.AI]目的:大規模言語モデルの社会推論における混乱表現の分析と,その改善メカニズムの提案
    • 社会推論は,人間らしい対話や協調のため不可欠であり,AIの応用範囲を広げる上で重要である。
    • 大規模言語モデルは社会推論において,客観的事実と主観的信念の混同など,認知的な混乱を示す場合がある。
    • 客観的事実と主観的信念の区別を明確化することで,大規模言語モデルの社会推論能力の向上を目指す。
    • 提案手法は,動的な世界モデルを構築し,混乱の兆候を検知することで,言語モデルの推論を支援する。
    • 評価実験の結果,Hi-ToMなどの社会推論ベンチマークにおいて,精度が大幅に向上した(例:+10%)。
    • さらに,計算コストの削減にも貢献し,より効率的な社会コンテキストでの大規模言語モデルの利用を可能にする。

    Link: https://arxiv.org/abs/2510.07974

  • マルチ条件適合性選択 [cs.AI]目的:大規模データセットからの高品質候補の選択
    • 医薬品発見や大規模言語モデルの調整など,リソース制約下での応用において,候補の選択は重要である。
    • 既存の適合性選択法は単一閾値に限定され,複合条件での選択ニーズに対応できていない。
    • 本研究は,複合条件における厳密な偽発見率制御を実現する選択手法を提案する。
    • 複合条件に対して,領域単調性を備えた新しい非適合性スコアとBH法を導入した。
    • 提案手法MCCSは,様々な条件下で理論的に保証された偽発見率制御を実現する。
    • 実験により,MCCSが既存手法よりも優れており,多様な条件やタスクに対応できることが示された。

    Link: https://arxiv.org/abs/2510.08075

  • ビデオから音声生成における挿入ハルシネーションの検出と軽減 [cs.SD, cs.LG]目的:ビデオから音声生成における挿入ハルシネーションの検出と軽減
    • 動画に音を自動生成する技術は発展している。現実世界の音響体験を再現する上で重要である。
    • 既存の評価指標は,意味や時間的な整合性に焦点を当て,視覚的根拠のない音の生成を見過ごしている。
    • この研究は,視覚的根拠のない音の生成(挿入ハルシネーション)を定量化し,その軽減策を提案することを目的とする。
    • 研究では,複数の音声イベント検出器を用いた評価フレームワークと,ハルシネーションの頻度と持続時間を定量化する指標(IH@vid, IH@dur)を開発した。
    • 提案手法「Posterior Feature Correction (PFC)」は,ハルシネーションが発生したセグメントを検出し,対応するビデオの特徴をマスクすることで,平均して50%以上のハルシネーションの頻度と持続時間を削減した。
    • PFCは,従来の音声品質や時間的同期の評価指標を低下させることなく,場合によっては改善さえした。

    Link: https://arxiv.org/abs/2510.08078

  • 任意のエントロピーポリシー最適化:強化学習ファインチューニングにおける制御可能なエントロピー [eess.SY, cs.SY, cs.LG]目的:大規模言語モデルの推論能力向上を目指す強化学習ファインチューニングにおけるエントロピー崩壊の克服
    • 大規模言語モデルの推論能力向上には強化学習が不可欠であり,その性能向上は重要な課題である。
    • 既存の強化学習手法では,エントロピーが単調に減少し,探索が消失し,早期収束に陥るエントロピー崩壊が問題となっている。
    • 本研究は,温度調整と温度制御によりエントロピー崩壊を解消し,精密なエントロピー制御を実現することを目指す。
    • AEPOは,GRPOにおけるエントロピー崩壊を効果的に除去し,任意の目標レベルでエントロピーを安定化させる。
    • エントロピーと性能の関係において,エントロピーが増加すると性能が向上し,その後低下する非単調な関係を明らかにした。
    • エントロピー以外の分布も正則化として利用可能であり,より広範な強化学習ファインチューニングのパラダイムを提供する。

    Link: https://arxiv.org/abs/2510.08141

  • LLMによる意味的類似性に基づくリッカート尺度評価の誘発を通じた人間の購買意図の再現 [cs.AI]目的:大規模言語モデルを用いた消費者調査シミュレーションの実現
    • 消費者調査は企業の重要な意思決定に不可欠だが,高コストで偏りや規模の制約がある。
    • 大規模言語モデルを用いたシミュレーションは有望だが,直接的な数値評価では現実的な分布が得られない。
    • 意味的類似性に基づく評価方法を開発し,現実的な消費者行動をシミュレーションすること。
    • 意味的類似性評価(SSR)は,人間のテスト再テスト信頼性の90%を達成し,現実的な回答分布を示した。
    • SSRは,9,300件の実際の消費者調査データにおいて,KS類似度0.85以上という結果を出した。
    • このフレームワークは,伝統的な調査指標と解釈性を維持しつつ,スケーラブルな消費者調査シミュレーションを可能にする。

    Link: https://arxiv.org/abs/2510.08338

  • 個人的物語における様式化の形式化 [cs.CL, cs.AI]目的:個人的物語における様式
    • 個人の経験を語る物語は,人間の理解に不可欠である。
    • 物語の様式を体系的に分析する枠組みが不足している。
    • 物語の様式を形式化し,客観的な分析を可能にすること。
    • 本研究では,機能言語学,計算機科学,心理学を統合した新たな枠組みを提案する。
    • 言語モデルを用いて,物語から言語的特徴を自動的に抽出した。
    • 心的外傷後ストレス障害を抱える退役軍人の夢物語の分析から,言語選択と心理状態の関連性が示唆された。

    Link: https://arxiv.org/abs/2510.08649

  • 拡散言語モデルの効率的な推論フレームワークdInfer [cs.CL, cs.AI]目的:拡散言語モデルの効率的な推論
    • 大規模言語モデルは様々な応用で重要性を増しており,より効率的な推論技術が求められている。
    • 拡散言語モデルは並列性に優れるものの,標準化された効率的な推論フレームワークが不足していた。
    • dInferは,拡散言語モデルの推論速度と効率を改善し,実用性を高めることを目指している。
    • dInferは,モデル,拡散反復マネージャ,デコーディング戦略,KVキャッシュマネージャの4つのモジュールで構成される。
    • dInferは,LLaDA-MoEにおいて,HumanEvalで1,100トークン/秒以上,6つのベンチマークで平均800トークン/秒以上の処理速度を達成した。
    • dInferは,既存システムFast-dLLMと比較して10倍の高速化を実現し,QWen2.5-3Bに対しては2-3倍の高速化を示した。

    Link: https://arxiv.org/abs/2510.08666

  • 意味的ペアを用いた自己教師あり学習の強化:新しいデータセットと実証研究 [cs.LG, cs.AI]目的:自己教師あり表現学習における汎化性能の向上
    • 画像認識の精度向上には,大量のラベル付きデータが不可欠であるが,その取得はコストがかかる。
    • 既存の自己教師あり学習は,データ拡張に依存しており,未知のデータへの汎化性能が課題である。
    • 意味的ペアを用いることで,データ拡張の限界を克服し,より汎化性能の高い表現を獲得することを目指す。
    • 意味的ペア(同一のセマンティックカテゴリに属する画像ペア)を含むデータセットを構築し,実験を行った結果,汎化性能が向上することが確認された。
    • モデルは,多様な実世界のシーンコンテキストに触れることで,より汎用的なオブジェクト表現を学習するようになった。
    • その結果,様々な下流タスクにおいて性能が向上し,意味的ペアの有効性が実証された。

    Link: https://arxiv.org/abs/2510.08722

  • TinyGraphEstimator:グラフ構造推論のための軽量言語モデルの適応 [cs.LG]目的:グラフ構造推論のための軽量言語モデルの応用可能性
    • 複雑な関係システム表現としてグラフが重要であり,その構造特性の推論は解析・推論の中核課題である。
    • 大規模言語モデルが台頭する一方,リソース効率の良い小型モデルの潜在能力は未だ十分に探求されていない。
    • グラフ表現からグラフ理論的パラメータを直接推論する小型言語モデルの適応方法を検討し,構造推論の精度向上を目指す。
    • 小型言語モデルは,グラフ構造データに対する非自明な推論能力を有することが示された。
    • TinyGraphEstimatorデータセットを用いることで,グラフの密度,クラスタリング,色数などの主要パラメータの予測精度を評価した。
    • LoRAによる軽量なファインチューニングにより,評価された指標全てで一貫した改善が確認された。

    Link: https://arxiv.org/abs/2510.08808

  • SHERLOCK:LLMを活用したEコマースリスク管理における動的な知識適応に向けて [cs.CL, cs.IR, cs.AI]目的:Eコマースリスク管理における知識適応のメカニズム
    • Eコマース市場の拡大に伴い,不正行為との戦いは激化している。リスク管理は事業継続に不可欠である。
    • リスク分析には専門知識と多角的な視点が必要だが,担当者による分析品質のばらつきが課題となっている。
    • LLMを活用し,リスク管理の知識を体系化することで,分析の均質化と効率化を目指す。
    • SHERLOCKフレームワークは,マルチモーダルデータからリスク管理知識を抽出し,ドメイン知識ベースを構築する。
    • データフライホイールを活用し,継続的な学習と改善を行うことで,LLMの精度向上を実現している。
    • JD.comの実データを用いた実験により,LLM分析結果の精度が大幅に向上し,リスク調査の効率化が確認された。

    Link: https://arxiv.org/abs/2510.08948

  • 複雑ネットワーク長期ダイナミクスの予測のための物理情報に基づく高次グラフダイナミクス同定学習 [cs.AI, cs.CY, cs.SI, physics.soc-ph]目的:複雑ネットワークの長期的なダイナミクス予測手法
    • 現実世界の複雑系を理解・モデル化・制御するには,複雑ネットワークダイナミクスの学習が不可欠である。
    • 既存手法は,ネットワークの関係性を単純グラフで表現し,高次の関係性を捉えきれない。
    • 高次関係性を捉え,物理法則に適合した高精度かつ解釈可能な予測を実現する。
    • 動的ハイパーグラフ学習により,複雑ネットワークの高次非ペアワイズ関係を捉え,モデルの精度向上に貢献する。
    • クープマン演算子理論と物理情報ニューラル微分方程式法を組み合わせた二重駆動予測モジュールにより,精度と解釈可能性の両立を実現する。
    • 公開データセット及び産業チェーンネットワークデータセットでの実験により,本手法の高い予測精度と長期予測性能が確認された。

    Link: https://arxiv.org/abs/2510.09082

  • 階層的リベースにおける頑健性と正則化 [cs.CL, cs.LG]目的:モデルマージ手法の頑健性向上
    • 深層学習モデルの活用が拡大する中で,モデルの組み合わせが重要になっている。
    • 既存のマージ手法では,性能低下や脆弱性の問題が生じやすい。
    • リベースという新しいモデルマージ手法の性能向上と課題の明確化。
    • 提案手法である階層的リベースは,標準的なMergeManyアルゴリズムを大幅に上回る性能を示す。
    • リベースは,マージされたモデルに敵対的摂動に対する頑健性を誘導する効果が認められた。
    • しかし,実験結果では,元の論文で報告されているよりも大きな性能低下が見られた。

    Link: https://arxiv.org/abs/2510.09174

  • FM-IRL:強化学習における報酬モデリングと方策の正則化のためのフローマッチング [cs.LG]目的:強化学習における報酬モデリングと方策の正則化
    • 強化学習は,自律的な意思決定システムを構築する上で不可欠な技術である。
    • 模倣学習はデータ効率が良いが,専門家のデータに過度に依存し,汎化性能が低い。
    • 専門家のデータ分布を活用しつつ,環境とのインタラクションによる学習を可能にする。
    • 提案手法は,シンプルなニューラルネットワークによるオンライン探索と,リッチな専門家データの情報を活用することで,学習効率を大幅に向上させる。
    • 教師となるフローマッチングモデルを用いて学生の方策を正則化することにより,方策学習の安定性を高める。
    • 特に,最適ではない専門家データからの学習において,汎化性能とロバスト性が向上することが確認された。

    Link: https://arxiv.org/abs/2510.09222

  • 発展途上国におけるモデルドリフトの軽減:合成データと外れ値の活用 [cs.CL, cs.LG]目的:発展途上国における金融モデルの安定性向上
    • 金融モデルはデータ変化に弱く,予測性能低下のリスクがある。特に新興国では経済ショックが頻発し,データが不安定になりやすい。
    • 中央アジア・コーカサス等の発展途上国におけるモデルドリフト軽減手法の研究は不足している。
    • 予測不能な経済ショックに対するモデルの安定性を高めることを目指す。
    • 合成外れ値を加えることで,ベースラインモデルと比較してモデルの安定性が向上する傾向が確認された。
    • 最適な合成外れ値の量は,データセットとモデルによって異なる。
    • 提案する二段階評価フレームワークによって,性能劣化とショックの程度を測定することが可能となった。

    Link: https://arxiv.org/abs/2510.09294

  • ChoirRec:LLMによるセマンティックなユーザーグループ化を通じた低アクティビティユーザーのコンバージョン率予測 [cs.IR, cs.AI]目的:低アクティビティユーザーのコンバージョン率予測の向上
    • 大規模eコマースにおけるレコメンダーシステムにおいて,コンバージョン率予測は重要な課題である。
    • 従来の予測手法は,ノイズの多い行動データや,ユーザー情報の不足,高アクティビティユーザーへの偏りといった問題がある。
    • LLMを用いてセマンティックなユーザーグループを構築し,低アクティビティユーザーの予測精度を改善することを目指す。
    • ChoirRecは,LLMを用いて信頼性の高いユーザーグループを形成し,ノイズを除去することで,予測精度を向上させた。
    • グループレベルの情報をユーザーの埋め込み表現に組み込むことで,データ不足の問題を緩和した。
    • オフライン評価ではGAUCが1.16%向上,オンラインA/Bテストでは注文量が7.24%増加し,実用的な価値が示された。

    Link: https://arxiv.org/abs/2510.09393

  • 放射線科におけるエージェントシステム:設計,応用,評価,および課題 [cs.AI]目的:放射線科におけるエージェントシステムの設計,応用,評価,課題に関する検討
    • 放射線科は多岐にわたるデータと複雑なワークフローを有し,AI技術の応用が期待される分野である。
    • 既存のAIモデルは単独での利用に留まり,複雑な多段階ワークフローへの対応が課題となっていた。
    • 大規模言語モデルを搭載したエージェントシステムによって,放射線科のワークフロー自動化と効率化を目指す。
    • 大規模言語モデルと外部ツールを組み合わせることで,自律性の高いエージェントシステムの実現が可能となった。
    • エージェントシステムは,情報抽出やレポート要約などの個別タスクだけでなく,複雑なワークフロー全体を支援できる。
    • エージェントシステムの評価方法,エラーの連鎖,効率性,医療ITとの統合などが今後の課題として挙げられる。

    Link: https://arxiv.org/abs/2510.09404

  • 生成ロボットポリシーの実行時故障予測 [cs.RO, cs.AI, cs.LG]目的:生成型ロボットポリシーにおける実行時故障予測
    • ロボットの応用範囲拡大には,安全性と信頼性の確保が不可欠である。
    • 模倣学習は環境変化や行動誤差により,予測不能な挙動や故障を引き起こす可能性がある。
    • 故障発生前に予測し,安全性を確保することが求められている。
    • FIPERは,故障データなしで実行時の故障予測を可能にする汎用的なフレームワークである。
    • ポリシーの埋め込み空間でのOOD検出と,生成行動の不確実性に基づく予測が有効であることが示された。
    • 既存手法と比較して,FIPERは故障をより正確かつ早期に予測できることが確認された。

    Link: https://arxiv.org/abs/2510.09459

  • SPG:マスク拡散言語モデルのためのサンドイッチ型方策勾配 [cs.CL, cs.AI]目的:マスク拡散言語モデルの強化学習による調整手法
    • 大規模言語モデルは自然言語処理において重要な役割を果たしており,その性能向上は常に求められている。
    • 拡散言語モデルは並列処理が可能だが,従来の強化学習手法の適用が困難であり,精度向上の課題があった。
    • 真の対数尤度の上界と下界を用いることで,方策勾配のバイアスを軽減し,性能向上を目指す。
    • 提案手法SPGは,ELBOベースの手法やワンステップ推定と比較して,顕著な性能向上を示した。
    • GSM8K,MATH500,Countdown,Sudokuといった様々なタスクにおいて,最先端の強化学習手法よりも高い精度を達成した。
    • 特に,Sudokuタスクでは27.0%という大幅な改善が見られた。

    Link: https://arxiv.org/abs/2510.09541

  • カーネル平均による疎なロバスト分類 [cs.RO, cs.IR, stat.ML, cs.LG]目的:カーネル平均を用いた分類規則の一貫性,ロバスト性,および疎性
    • 分類アルゴリズムは機械学習の基盤であり,様々な分野で活用されている。
    • 重み付き平均による分類は最適化が難しく,その理解も困難である。
    • 単純な平均に基づく分類規則の有効性と応用範囲を検証する。
    • 全ての重みを等しくすることで,概念的に単純な分類規則である平均が得られる。
    • 提案手法は,既存の分類アルゴリズムと同等またはそれ以上の性能を示す。
    • 平均に基づく分類規則は,ロバスト性と疎性の面で優れていることが示された。

    Link: https://arxiv.org/abs/1506.01520

  • 拡散モデルに基づく音声強調および残響除去 [eess.AS, cs.LG, cs.SD]目的:拡散モデルを用いた音声強調と残響除去の技術
    • 音声信号処理は,人間と機械間のコミュニケーションにおいて不可欠であり,その品質向上は重要な課題である。
    • 従来の音声強調技術は,ノイズの種類や環境に依存し,汎化性能に課題があった。
    • 本研究は,拡散モデルの改良により,よりロバストで汎用的な音声強調・残響除去技術を実現することを目的とする。
    • 拡散モデルの逆過程を,ノイズと音声の混合から開始する手法を提案し,高音質な音声の生成を30ステップで実現した。
    • ネットワーク構造の改良により,従来のモデルの限界を克服し,最新の識別モデルと競合できる性能を達成した。
    • 実世界のノイズ環境下での評価やリスニングテストにおいても,提案手法が最良の結果を示し,残響除去への応用も可能であることが示された。

    Link: https://arxiv.org/abs/2208.05830