arXiv雑要約

AI - 2025/10/14 公開

  • ICL-Router: LLMルーティングのための文脈学習モデル表現 [cs.LG, cs.AI]目的:LLMルーティングにおけるモデル表現の獲得
    • 大規模言語モデルの活用が重要視される中,モデルの能力を最大限に引き出す手法が求められている。
    • モデルルーティングの性能はモデル表現の精度に依存するが,モデル追加時に再学習が必要となり,拡張性に課題がある。
    • 文脈学習によりモデルの能力を表現し,再学習なしで新規モデルを統合可能なルーティング手法を確立する。
    • 提案手法は,既存手法を上回るルーティング性能を,分布内・分布外タスクの両方で実現した。
    • 本手法では,モデルの追加時にルーティングモデルの再学習を必要とせず,シームレスな統合が可能である。
    • クエリとモデルの性能に関する文脈ベクトルを用いることで,モデルの適合性を予測するルーティングを実現した。

    Link: https://arxiv.org/abs/2510.09719

  • 長期LLMエージェントのための嗜好性に基づいたメモリ更新 [cs.CL, cs.AI]目的:長期的なLLMエージェントの推論能力向上
    • LLMエージェントの高度化には,過去のインタラクションを活かした長期記憶が不可欠である。
    • 既存手法では,メモリの格納・検索は進歩しているものの,ユーザー行動の変化に対応した動的なメモリ更新が課題である。
    • ユーザーの嗜好変化に応じてメモリ表現を洗練させ,長期会話の質を向上させる。
    • 提案手法PAMUは,移動平均と指数移動平均を融合することで,短期的な変動と長期的な傾向の両方を捉えた表現を構築する。
    • LoCoMoデータセットを用いた実験により,PAMUが5つのベースラインにおいてLLMの出力品質を大幅に改善することが示された。
    • 本研究は,長期会話におけるLLMエージェントの有効性を実証する。

    Link: https://arxiv.org/abs/2510.09720

  • レイアウト認識解析と効率的な大規模言語モデル:履歴書情報抽出と評価のための統一的で拡張性の高いフレームワーク [cs.CL, cs.AI, cs.CV]目的:履歴書からの情報抽出と評価のためのフレームワーク
    • 人材獲得の効率化に不可欠な技術であり,企業の成長を支える重要な要素である。
    • 履歴書のレイアウトや内容の多様性,大規模言語モデルのコストと遅延が課題となっている。
    • 多様なレイアウトに対応し,効率的な情報抽出と評価を実現すること。
    • 本フレームワークは,レイアウト解析と効率的な大規模言語モデルを組み合わせることで,高い精度と効率性を実現した。
    • 0.6Bのコンパクトな言語モデルでも,トップレベルの精度を達成しつつ,推論遅延と計算コストを大幅に削減した。
    • 本システムはAlibabaのインテリジェントHRプラットフォームに導入され,実運用されている。

    Link: https://arxiv.org/abs/2510.09722

  • 2025年:説明可能な機械学習の新たな基準としてのナラティブ学習 [cs.LG, cs.AI, cs.CL]目的:説明可能な機械学習におけるナラティブ学習の精度と可能性
    • 機械学習の高度化に伴い,その意思決定プロセスの透明性・説明可能性が重要になっている。
    • 従来の数値最適化による説明可能な機械学習モデルは,必ずしも人間にとって理解しやすいとは限らない。
    • 自然言語によるモデル定義と説明的プロンプトによる反復的な基準洗練を通じて,より理解しやすいモデルを構築する。
    • ナラティブ学習は,6つのデータセットのうち5つにおいて,2025年までに従来のベースラインモデルよりも高い精度を達成した。
    • 言語モデルの性能向上により,ナラティブ学習の精度向上を早めることが示された。
    • モデル出力の語彙統計学的傾向は,説明の理解度を測る指標として活用できる可能性が示唆された。

    Link: https://arxiv.org/abs/2510.09723

  • InteractScience:インタラクティブな科学デモンストレーションコード生成のプログラム的・視覚的評価 [cs.SE, cs.AI]目的:インタラクティブな科学デモンストレーションコード生成能力の評価
    • 科学教育や研究において,概念説明や新たな教育手法,研究成果の提示にインタラクティブなデモンストレーションは不可欠である。
    • 既存のベンチマークは,科学知識の評価とインタラクティブなフロントエンドコード生成を統合的に評価できていない。
    • 科学知識とインタラクティブなフロントエンドコード生成を統合的に評価できるベンチマークを構築すること。
    • InteractScienceは,5つの科学分野にわたる質問と,それに対応するユニットテスト,参照スナップショット,チェックリストで構成される。
    • 30のLLMを評価した結果,ドメイン知識とインタラクティブなフロントエンドコーディングの統合に課題が残ることが示された。
    • InteractScienceは,現実的なインタラクティブな操作を用いた能力を自動的に測定する初のベンチマークとして,科学分野におけるコード生成研究を促進する基盤となる。

    Link: https://arxiv.org/abs/2510.09724

  • Herb.jl:統一的なプログラム合成ライブラリ [cs.PL, cs.AI, cs.SE]目的:プログラム合成手法の再利用と拡張の容易化
    • AI研究における基盤技術であり,プログラミングの自動化に貢献する
    • 既存の手法は再利用が難しく,開発に時間と労力を要する
    • プログラム合成の基本的な構成要素をモジュール化し,再利用性を高める
    • Herb.jlは,プログラム合成アルゴリズムを拡張可能なサブコンポーネントに分割することで,手法の再利用を容易にする。
    • 簡単な問題と文法の定義,既存の合成器の実装,ベンチマークテストの実行例を示すことで,Herb.jlの利点を実証する。
    • Julia言語で実装されており,柔軟性と拡張性に優れている。

    Link: https://arxiv.org/abs/2510.09726

  • LLMベースのプロセス説明の,漸進的行動入力削減下での評価 [cs.LG, cs.AI]目的:LLMによるプロセス説明の品質評価
    • プロセス分析は業務改善に不可欠であり,効率化が求められている。
    • 大規模な行動抽象化からの説明生成は計算コストが高いという課題がある。
    • 入力データを削減することで計算コストを抑え,説明の品質を維持することを目指す。
    • 中程度のデータ削減下では,説明の品質が概ね維持されることが示された。
    • これは,計算コストと品質の間の実用的なトレードオフを示唆する。
    • 今回の研究は探索的なものであり,結果はLLMベースの比較評価である点に留意が必要である。

    Link: https://arxiv.org/abs/2510.09732

  • ARROW:グローバル天気予報のための適応的ロールアウトとルーティング手法 [cs.LG, cs.AI]目的:グローバル天気予報のための適応的ロールアウトとルーティング手法
    • 天気予報は,幅広い分野に応用される時空間データ解析の基盤技術である。
    • 既存手法は,短時間間隔でのモデリングに依存し,長期間予報では誤差の蓄積が課題となる。
    • 時空間依存性をより良く捉え,誤差蓄積と細かな気象変動の両立を目指す。
    • 提案手法ARROWは,異なる時間間隔での多段階予測モデルと,強化学習に基づく適応的ロールアウトスケジューラを導入する。
    • これにより,共有パターンと特定の気象変動を捉えつつ,地球の緯度構造を正確にエンコードする。
    • 実験の結果,ARROWはグローバル天気予報において最先端の性能を達成し,有望なパラダイムを示す。

    Link: https://arxiv.org/abs/2510.09734

  • InterCorpRel-LLM:グラフ言語モデルによる金融関係理解の強化 [cs.LG, cs.AI]目的:金融関係理解のための新たなフレームワーク
    • 金融分析やコーポレートガバナンスにおいて,企業間の関係性の把握は不可欠である。
    • 企業データの規模,疎性,文脈依存性により,企業間関係の特定は困難である。
    • グラフ構造と意味理解の両方を効果的にモデル化する手法を開発すること。
    • InterCorpRel-LLMは,GNNとLLMを統合したクロスモーダルフレームワークである。
    • 供給関係の特定タスクにおいて,GPT-5を含む強力なベースラインを大幅に上回る性能を示した。
    • モデルは,競合他社の特定にも汎化し,企業間の複雑な関係性を捉える能力を示した。

    Link: https://arxiv.org/abs/2510.09735

  • 裁判官の評決:人間の一致度を通じたLLMの判断能力の包括的分析 [cs.CL, cs.AI]目的:LLMを応答の正確性評価における裁判官として評価するための方法論
    • 大規模言語モデルの性能評価は,その実用性と信頼性を高める上で不可欠である。
    • 従来の相関分析では,LLMの判断が人間とどの程度一致しているかの正確な評価が困難である。
    • 人間とLLMの判断パターンの一致度を評価し,LLMの裁判官としての能力を分類すること。
    • 新たに「裁判官の評決ベンチマーク」を確立し,相関分析とCohen's Kappa分析を組み合わせた二段階評価法を提案した。
    • 54のLLMを評価した結果,23モデルが人間らしい判断パターンを示し,4モデルが超一貫した判断パターンを示した。
    • LLMの裁判官としての性能は,モデルのサイズだけでなく,特定の学習戦略に依存することが示唆された。

    Link: https://arxiv.org/abs/2510.09738

  • 機械学習は意味埋め込みから性格特性の一貫性のある理論的でない構築を提供できない [cs.LG, cs.AI, cs.CL, cs.HC]目的:性格特性の抽出と検証
    • 性格研究は,人間の行動や心理を理解する上で不可欠であり,社会生活の質の向上に貢献する。
    • 従来の性格モデルは,理論に基づいた解釈が重要だが,客観的な検証が難しい場合がある。
    • 機械学習を用いて性格特性を抽出し,既存モデルとの比較を通じて検証を行う。
    • 機械学習による性格特性の抽出は,Big Fiveほど解釈可能性や説明力に優れていないことが示された。
    • 特に外向性は再現されず,性格特性の構造には一貫性が欠ける結果となった。
    • Big Fiveの強固さが確認され,性格のセマンティック構造は文脈に依存することが示唆された。

    Link: https://arxiv.org/abs/2510.09739

  • ニューラル崩壊幾何学による信頼性の高いアクティブラーニング:信頼できないラベルからの学習 [cs.LG, cs.CV]目的:信頼できないラベル下での信頼性の高いアクティブラーニング手法
    • アノテーションコスト削減のため,情報量の多いサンプルを優先するアクティブラーニングは重要である。
    • アノテーターの誤りやデータ分布の変化により,アクティブラーニングの信頼性が損なわれる場合がある。
    • ノイズや冗長なラベルの影響を軽減し,アクティブラーニングの安定性を向上させることを目指す。
    • NCAL-Rは,クラス平均アライメント摂動スコアと特徴変動スコアの2つの信号を導入することで,クラス分離を維持しつつ曖昧な領域を強調する。
    • ImageNet-100とCIFAR100の実験により,NCAL-Rは標準的なアクティブラーニング手法よりも高い精度をより少ないラベル数で達成することが示された。
    • NCAL-Rは合成ラベルノイズに対するロバスト性,および分布外データへの汎化性能も向上させる。

    Link: https://arxiv.org/abs/2510.09740

  • 注意誘導画像歪曲によるMLLMの性能向上 [cs.CV, cs.LG]目的:マルチモーダル大規模言語モデルにおける詳細な知覚的根拠付けの精度向上
    • MLLMは画像とテキストの理解において重要であり,様々な応用が期待されている。
    • 複雑なシーンにおいて,MLLMは小さな詳細や空間関係を見落とす傾向がある。
    • モデルの注意機構を活用し,画像内の重要な領域に解像度を集中させることで,精度を改善する。
    • AttWarpは,モデルの重みを変更せずに,入力画像の矩形歪曲を行うことで解像度を再配分する。
    • 5つのベンチマークと4つのMLLMにおいて,AttWarpは常に精度を向上させ,合成推論を強化し,幻覚を軽減する。
    • 注意誘導による歪曲は,クエリに関連する情報を優先しつつコンテキストを維持することで,MLLMの性能を向上させる。

    Link: https://arxiv.org/abs/2510.09741

  • Patentformer:AI支援による自動特許書類作成のデモンストレーション [cs.LG, cs.AI, cs.CY]目的:AI支援による特許書類の自動作成
    • 知的財産の保護は,技術革新を促進し,経済成長を支える上で不可欠である。
    • 特許書類作成には専門知識が必要であり,時間とコストがかかるという課題がある。
    • 特許弁護士の業務を支援し,高品質な特許書類を効率的に作成すること。
    • Patentformerは,法的な書き方を遵守した高品質な特許書類を迅速に作成できることを実証した。
    • 本プラットフォームは,特許弁護士の負担軽減に貢献し,特許出願プロセスの効率化を支援する。

    Link: https://arxiv.org/abs/2510.09752

  • 特許ビジョン:特許出願作成のためのマルチモーダル手法 [cs.LG, cs.AI]目的:特許出願の自動作成
    • 知的財産の保護は,技術革新を促進する上で不可欠である。
    • 特許出願作成は専門知識を要し,時間と労力を要する作業である。
    • 特許出願作成における自動化の可能性を探求し,効率化を目指す。
    • PatentVisionは,テキストと画像情報を統合することで,より正確かつ忠実な特許明細書を生成できる。
    • 従来のテキストのみの手法と比較して,性能が向上し,人間が作成した基準との整合性が高まる。
    • 複雑な設計特徴や機能的つながりをより詳細に表現し,特許出願の質を向上させる。

    Link: https://arxiv.org/abs/2510.09762

  • マルチモーダル脈動運動のための共有プロトタイプを活用する基盤モデル [cs.HC, cs.LG]目的:マルチモーダル時系列データのモデリング
    • 生体信号など,複数のモダリティ間の関連性を捉えることは,システムレベルのダイナミクス理解に不可欠である。
    • 既存のマルチモーダル手法は,容易にアラインメントできる特徴に過学習し,汎化性能が低いという課題がある。
    • 共有プロトタイプ辞書を用いてモダリティ間の共通埋め込み空間を確立し,解釈可能性を向上させる。
    • 提案手法ProtoMMは,コントラスト学習のみの手法や既存のマルチモーダルSSL手法を上回る性能を発揮する。
    • 共有プロトタイプを用いることで,モダリティ間の補完的な情報を捉え,生理学的信号のコヒーレントな「共通言語」を提供する。
    • 脈動運動の基盤モデルとして,最先端の性能を達成し,学習された特徴の解釈可能性を向上させる。

    Link: https://arxiv.org/abs/2510.09764

  • 異種グラフにおけるスロット認識型保持ネットワークによる表現学習 (HeSRN) [cs.LG]目的:異種グラフの効率的かつ表現力豊かな表現学習
    • 現実世界の複雑な関係性を扱う上で,グラフ構造の利用が不可欠である。
    • 従来のグラフTransformerは計算コストが高く,異種グラフの多様な意味を捉えにくい。
    • 異種グラフにおけるスロット認識型保持ネットワークにより,効率性と表現力を向上させる。
    • HeSRNは,ノードタイプごとの意味を分離し,分布を整列させることで,従来のTransformerの課題を克服する。
    • 保持ネットワークを用いることで,線形時間複雑度で構造と文脈をモデル化し,計算効率を大幅に向上させる。
    • 4つの異種グラフデータセットでの実験で,HeSRNは最先端の手法を凌駕し,計算コストを削減した。

    Link: https://arxiv.org/abs/2510.09767

  • スケーリング則と対称性:ニューラル力場からのエビデンス [cs.LG, cs.AI, physics.comp-ph]目的:原子間ポテンシャルの学習という幾何学的タスクにおけるスケーリング則の分析
    • 機械学習におけるスケーリング則の理解は,大規模モデルの効率的な学習に不可欠である。
    • 既存の研究では,モデルのスケーリング則がタスクの対称性によってどのように影響を受けるか不明確である。
    • 本研究は,スケーリング則における対称性の役割を明らかにすることで,より効率的なモデル設計に貢献する。
    • 実験結果から,タスクの対称性を活用するモデルほど,スケーリング則の指数が大きく,より良い性能を示すことが明らかになった。
    • モデルの計算資源とデータサイズのバランスが,最適な学習効率に重要であることが示唆された。
    • モデルに内在する帰納バイアスとして,対称性を明示的に組み込むことが,大規模モデルにおいては重要であることが示された。

    Link: https://arxiv.org/abs/2510.09768

  • ベンガル語ヘイトスピーチ検出のための,多数決とキーワード類似度を用いた少数ショット分類フレームワークPromptGuard [cs.CL, cs.CL, cs.AI]目的:ベンガル語ヘイトスピーチの分類
    • 言語資源が乏しい言語におけるヘイトスピーチ検出は,社会的な課題解決に不可欠である。
    • 低リソース言語では,大規模なラベル付きデータセットの作成が困難である。
    • 少数サンプルから高精度な分類を可能にするフレームワークの構築。
    • PromptGuardは,カイ二乗統計分析に基づくキーワード抽出と適応的多数決を組み合わせることで,従来のn-gramベースラインを上回る性能を示した。
    • 特に,カイ二乗統計に基づくキーワード選択は,全てのカテゴリで一貫した改善をもたらした。
    • 曖昧な事例において,適応的多数決が分類の拡張に貢献し,マイクロF1値で67.61を達成した。

    Link: https://arxiv.org/abs/2510.09771

  • 無線周波数フィンガープリントのための汎用機械学習フレームワーク [cs.LG, cs.CR, stat.ML]目的:無線周波数フィンガープリントの汎用的な機械学習フレームワーク
    • 信号インテリジェンス等,防衛・民間分野でRFフィンガープリントの応用が広がり,重要性が増している。
    • 従来のRFフィンガープリント技術は,手作業が多く柔軟性に欠け,特定の送信機にしか適用できない場合がある。
    • 本研究は,様々なRFフィンガープリント関連タスクに対応可能な汎用的な機械学習フレームワークを提案し,その課題を解決する。
    • 提案フレームワークは,特定の送信機識別,データ関連付け,クラスタリングなど,多様な下流タスクをRFフィンガープリントに基づいて実行可能である。
    • 実データを用いた実験により,宇宙搭載監視,信号インテリジェンス,ドローン対策など,幅広い応用分野での有効性が示された。
    • データ駆動型機械学習を用いることで,従来技術と比較して,より優れた性能が期待できる。

    Link: https://arxiv.org/abs/2510.09775

  • Transformerが時系列予測において失敗する理由 [cs.LG, cs.AI, stat.ML]目的:時系列予測におけるTransformerの限界
    • 機械学習における時系列予測は依然として困難であり,未解決の問題が多い分野である。
    • Transformerは強力なモデルであるが,時系列予測タスクにおいて単純な線形モデルよりも性能が劣ることが多い。
    • Transformerが時系列予測で失敗する根本的な理由を理論的に解明し,より効果的な予測アーキテクチャの設計に貢献する。
    • 線形自己注意(LSA)モデルは,文脈長が無限大に近づいても古典的な線形モデルより優れた予測性能は期待できない。
    • Chain-of-Thought推論を用いると,予測は指数関数的に平均値に収束する。
    • 本研究は,Transformerの時系列予測における限界を明らかにし,より慎重なアーキテクチャの適用を促す。

    Link: https://arxiv.org/abs/2510.09776

  • SVTime:大規模Visionモデルの知見に基づいた小規模時系列予測モデル [cs.LG, cs.AI]目的:時系列予測における高性能かつ低コストな小規模モデルの開発
    • 動的なWebコンテンツ分析において,時系列AIの重要性が増しており,大規模モデルへの関心が高まっている。
    • 大規模モデルは計算資源を大量に消費するため,小規模事業者など資源に制約のある環境での利用が困難である。
    • 大規模モデルの性能を維持しつつ,軽量で効率的な時系列予測モデルを構築することが課題である。
    • SVTimeは,大規模Visionモデルの持つ「物理法則」に相当する特性を抽出・組み込むことで,小規模ながら高性能な時系列予測を実現した。
    • 8つのベンチマークデータセットにおいて,既存の軽量モデルを上回り,大規模モデルに匹敵する性能を示した。
    • パラメータ数は大規模モデルの1/1000以下であり,低リソース環境での効率的な学習・推論を可能にする。

    Link: https://arxiv.org/abs/2510.09780

  • 汎用エージェントシステムの基礎的ガードレール:合成データによる構築 [cs.LG, cs.AI, cs.CL]目的:事前実行段階における安全性確保
    • LLMエージェントの発展は目覚ましいが,安全性確保が重要課題である。
    • 既存のガードレールは事後対応が主であり,計画段階での制御が困難である。
    • データ,モデル,評価のギャップを埋め,事前実行段階での安全性向上を目指す。
    • 合成データ生成エンジンAuraGenと,ガードレールモデルSafironを提案し,事前実行段階でのリスク検知能力を向上させた。
    • Safironは異なるプランナー形式を統合し,リスクの種類を特定,理由を提示することで,高い汎化性能を示した。
    • 現実的なベンチマークPre-Exec Benchを公開し,検出,分類,説明,汎化性能を評価することで,安全性向上に貢献する。

    Link: https://arxiv.org/abs/2510.09781

  • 推論の幾何学:表現空間における論理の流れ [cs.AI, cs.CL, cs.LG, cs.LO]目的:大規模言語モデルにおける推論過程の幾何学的モデリング
    • AIの発展において,推論能力の解明は不可欠であり,人間レベルの知能実現への鍵となる。
    • 大規模言語モデルの推論メカニズムはブラックボックスであり,その過程を理解することが困難である。
    • 表現空間における推論の流れを幾何学的に捉え,推論過程の解釈可能性を高めることを目指す。
    • 大規模言語モデルの推論は,表現空間における滑らかな流れとしてモデル化できることが示された。
    • 論理的文は,これらの流れの速度を局所的に制御する役割を果たすことが明らかになった。
    • 本研究は,大規模言語モデルの推論現象を研究するための概念的基盤および実践的ツールを提供する。

    Link: https://arxiv.org/abs/2510.09782

  • 不均衡分類のための大規模言語モデル:多様性が重要である [cs.LG, cs.AI, stat.ML]目的:不均衡データに対する過剰サンプリング手法
    • 不均衡データは現実世界で頻繁に現れ,機械学習モデルの性能を著しく低下させる。
    • 既存の過剰サンプリング手法は,カテゴリ変数の数値化による情報損失の問題を抱えている。
    • 大規模言語モデルを活用し,多様性に富んだ合成サンプルを生成することで,この問題を解決する。
    • 提案手法は,少数派ラベルと特徴量を条件としたサンプリング戦略と,LLMの微調整のための新しい置換戦略を採用している。
    • 少数派サンプルだけでなく,補間サンプルを用いてLLMを微調整することで,生成されるサンプルの多様性をさらに高めている。
    • 10個のテーブル形式データセットでの実験により,提案手法が8つの最先端手法を大きく上回ることが示された。

    Link: https://arxiv.org/abs/2510.09783

  • 拡散状態予測情報ボトルネックによる表現と生成の統合 [cs.LG, cond-mat.stat-mech, q-bio.QM]目的:分子表現の学習と生成のバランス
    • 高次元空間での生成モデルはデータ集約型であり,特に分子科学ではデータの収集コストが高い。
    • 限られたデータから有用な分子表現を学習することが困難である。
    • 低次元多様体への圧縮により,効率的な生成と表現学習を目指す。
    • D-SPIBは,分子表現の学習と生成を統合した柔軟なアーキテクチャを提供する。
    • 異なる分子シミュレーションの温度情報を組み合わせ,熱力学の内部表現を学習可能である。
    • 訓練データ外の物理条件の探索におけるD-SPIBの潜在能力が示された。

    Link: https://arxiv.org/abs/2510.09784

  • 海洋力学における原理に基づいた演算子学習:時間構造の役割 [cs.RO, cs.CL, cs.HC, cs.LG, physics.ao-ph]目的:海洋力学における偏微分方程式の解を学習するための演算子学習手法の改良
    • 気象・海洋予測において,物理現象のモデル化は重要であり,高精度な予測に不可欠である。
    • 従来のニューラル演算子は,長期予測の安定性や物理法則への適合性において課題が残されていた。
    • 時間構造を組み込むことで,高頻度過程を含む海洋予測の物理的整合性と予測精度を向上させる。
    • 時間構造を考慮したFNOtDは,標準的なFNOと比較して,長期予測の安定性と物理現象への適合性が大幅に向上した。
    • FNOtDは,多重スケール波の伝播を捉え,海洋力学を効果的に学習することが示された。
    • FNOtDは,最先端の数値海洋モデルと同等の予測性能を示しつつ,計算コストを大幅に削減することが可能となった。

    Link: https://arxiv.org/abs/2510.09792

  • 因果関係と解読可能性:カウンティングViTの解釈から得られる教訓 [cs.LG, cs.CV]目的:ニューラルネットワークの内部コンポーネントが予測にどのように寄与するかを解明するメカニズム
    • ニューラルネットワークの動作原理の理解は,AIの信頼性と安全性を高める上で重要である。
    • 解読可能性と因果関係が混同されがちで,ネットワークの真の働きを理解する妨げとなっている。
    • 解読可能性と因果関係の乖離を明らかにし,隠れた計算回路を明らかにすることを目指す。
    • 中間層のオブジェクトトークンは解読可能性が低いにもかかわらず,強い因果関係を持つことが示された。
    • 最終層のオブジェクトトークンは正確な解読を可能にするが,機能的には不活性であるという対照的な結果が得られた。
    • CLSトークンは中間層で解読可能になるものの,最終層でのみ因果的な影響力を持つことが明らかになった。

    Link: https://arxiv.org/abs/2510.09794

  • リフテッド学習と逆問題に対する統一的フレームワーク [cs.LG, cs.NA, math.NA, math.OC, stat.ML]目的:深層学習の学習と逆問題に対する統一的なアプローチ
    • 深層学習は多様な分野で成功を収めているが,勾配消失や爆発,非微分可能な活性化関数が課題。
    • 従来の学習法は並列化が難しく,計算効率が低いという問題点が存在する。
    • 凸最適化のツールを用いて,より安定かつ効率的な学習方法を確立すること。
    • リフテッド学習は,制約付き最適化問題をより高次元のペナルティ付き最適化問題として再構成する。
    • 本フレームワークは,様々なリフテッド学習戦略(補助座標法,フェンケルリフテッドネットワーク,リフテッドブレグマン学習)を包含する。
    • ブレグマン距離を用いることで,分散最適化,非微分可能な活性化関数への対応,学習環境の改善が可能となる。

    Link: https://arxiv.org/abs/2510.09796

  • 部分的に重複する特徴空間における分散クラスタリング [cs.DS, cs.DC, cs.LG]目的:部分的に重複する特徴空間における分散クラスタリング問題
    • 医療分野など,複数の機関が類似データを持つ場合に重要となる分散データ処理の基盤技術。
    • 各機関が持つ特徴空間が異なるため,単純な集約によるクラスタリングが困難であるという課題。
    • 各機関のデータを活用しつつ,データプライバシーを保護した分散クラスタリング手法の確立。
    • 提案手法は,グローバルなセントロイドを共同更新する連合学習アルゴリズムと,統計的パラメータを共有するワンショットアルゴリズムの2種類で構成される。
    • シミュレーションにより,提案アルゴリズムが集中型解に収束する条件が明らかになった。
    • 公開データセットを用いた実験により,提案手法の有効性が実証された。

    Link: https://arxiv.org/abs/2510.09799

  • 人間とエージェントのインタラクションをどのように評価するか:ソフトウェアエージェント設計における事例研究 [cs.AI]目的:人間とエージェントのインタラクション評価のための枠組みと,ソフトウェアエージェント設計における設計判断の影響分析
    • LLMエージェントは有用だが,設計の選択が性能に影響し,評価が難しい。
    • 既存のベンチマークは完全自動化を前提としており,現実的な協調的な利用状況を反映していない。
    • 人間とエージェント間のインタラクションを厳密に評価する枠組みを構築し,設計判断の影響を明らかにすること。
    • PULSEという,ユーザーフィードバック,機械学習モデル,擬似ラベルを組み合わせた,人間中心のエージェント評価フレームワークを提案した。
    • OpenHands上で大規模なウェブプラットフォームを構築し,15,000人以上のユーザーデータを収集・分析した。
    • LLM,計画戦略,メモリ機構の選択が開発者の満足度に与える影響を明らかにし,ベンチマークと実環境での結果の乖離も示した。

    Link: https://arxiv.org/abs/2510.09801

  • AIシステムにおける連続時間フローモデルの潜在空間正則化としての時間的リフティング [cs.LG, cs.AI]目的:連続時間動力学システムに対する適応的な時間再パラメータ化
    • AI分野において,物理現象のシミュレーションは重要であり,その精度と安定性が求められる。
    • 連続時間フローモデルは,計算の際に特異な挙動を起こしやすく,安定した学習が難しい場合がある。
    • 時間的リフティングにより,フローの特異な挙動を抑制し,安定性を向上させることを目指す。
    • 提案手法「時間的リフティング」は,潜在空間で時間に関する滑らかな写像を導入し,フローの正則化を行う。
    • この手法により,非圧縮性ナビエ・ストークス方程式のような複雑な流れも,全体として滑らかになる。
    • 時間的リフティングは,物理情報ニューラルネットワークの安定化に貢献し,AIシステムの性能向上に繋がる。

    Link: https://arxiv.org/abs/2510.09805

  • 意味推論における多Modal入力の曖昧性解消への理解 [cs.CV, cs.AI]目的:多Modal文脈における単語の意味推論
    • 言語学習において,視覚情報とテキスト情報を組み合わせることで,理解を深める可能性が示唆されている。
    • 未知語の意味推論において,どのような視覚的・言語的特徴が効果的か不明である。
    • 人間の推論プロセスを分析し,AIシステムの性能向上に繋げる。
    • 参加者のパフォーマンスと直感的な特徴との間には強い相関関係が見られたが,さらなる調査が必要である。
    • AIシステムが参加者のパフォーマンスを推論する能力を分析し,改善の方向性を示した。
    • 異なる言語背景の参加者の成功との関連性についても分析を行った。

    Link: https://arxiv.org/abs/2510.09815

  • 分解ネットワーク:深層成分分析と合成 [cs.LG, cs.CV, cs.IT, cs.NE, math.IT]目的:入力の解釈可能な成分への分解
    • データ表現の効率化と解釈性が重要視されている。
    • 従来のオートエンコーダでは,潜在表現がブラックボックス化しやすい。
    • 成分間の競合を促し,意味のある疎な表現を獲得すること。
    • DecompNetは,複数の並列ブランチを持つセマンティックオートエンコーダである。
    • 各ブランチは,他のブランチの再構成を引いた残差入力を担当する。
    • Gauss-Seidel法を微分可能なネットワークに展開し,成分間の明示的な競合を促す。

    Link: https://arxiv.org/abs/2510.09825

  • 非ユークリッド勾配降下法の探求:Muonとその多様な変種 [eess.SY, cs.SY, cs.LG, stat.ML]目的:ニューラルネットワークにおける最適な勾配降下法の選択
    • 深層学習の性能は最適化手法に大きく依存するため,より効率的な手法の開発が重要である。
    • 既存の最適化手法は,ハイパーパラメータの調整が難しく,安定性に課題がある場合が多い。
    • Muonとその変種を用いて,ハイパーパラメータ調整の負担を軽減し,汎化性能を向上させる。
    • Muonは学習率の選択に敏感であることが示された。
    • 新しく提案されたMuonMaxは,学習率の選択に対してよりロバストであることが確認された。
    • モデルベースのモーメンタム(Momo)と組み合わせることで,Muonの安定性と性能がさらに向上する。

    Link: https://arxiv.org/abs/2510.09827

  • 単一モルフィング攻撃検出のための段階的合成非変形画像探索 [cs.CV, cs.CR, cs.LG, eess.IV]目的:単一モルフィング攻撃検出の性能向上
    • 顔認証システムのセキュリティ確保は重要であり,モルフィング攻撃への対策は不可欠である。
    • プライバシー保護の観点から,大規模な真正画像データセットの入手が困難である。
    • 合成画像を用いて,既存のデータセットの汎化性能を改善することを目指す。
    • 段階的な合成画像の追加により,汎化性能の向上が確認された。
    • 合成データを無分別に使用すると,性能が低下する可能性がある。
    • 合成データのみを用いた場合が最も低いEERを示すが,運用上は合成データのみに頼るのが最適ではない。

    Link: https://arxiv.org/abs/2510.09836

  • 自己教師あり深層学習と静止気象衛星を活用した山火事および大気質モニタリングの高度化:GOESとTEMPOの放射データを用いた煙と火線マスクの改善 [cs.NI, cs.AR, cs.PF, cs.LG, cs.AI, cs.CV]目的:山火事と大気質の管理改善
    • 山火事の頻発と深刻化により,その監視と被害軽減が喫緊の課題となっている。
    • 従来の山火事監視は,データの時間解像度やマスクの精度に課題があった。
    • GOESとTEMPOのデータと深層学習を用いて,より高精度な煙と火線マスクを生成すること。
    • NASAのTEMPO衛星データと自己教師あり深層学習を活用し,山火事と大気質の管理改善の可能性を示す。
    • GOES-18とTEMPOのデータを用いて,煙と雲を効果的に区別する深層学習システムの有効性を実証した。
    • 異なるセンシングモードからの煙と火線マスク間の高い一致度と,既存の運用製品に対する大幅な改善が確認された。

    Link: https://arxiv.org/abs/2510.09845

  • CALM:局所スコア,条件独立性テスト,関係属性を用いた複雑系における表形式データのための因果分析言語モデル [cs.LG, cs.AI]目的:複雑系における表形式データの因果関係発見
    • 生物学等の分野で,実験が困難な場合に因果関係を推定することは重要である。
    • 既存手法は,因果方向の特定,線形関係への制限,忠実性仮定への依存,探索空間の広さなどが課題である。
    • 言語モデルのパターン認識能力を表形式データへ適応させ,正確かつ汎用的な因果関係発見を目指す。
    • CALMは,Mambaベースのアーキテクチャにより,変数間の因果パターンを分類する。
    • 局所的因果スコア,条件独立性テスト,関係属性などの情報を統合し,線形・非線形・条件付きの因果メカニズムを捉える。
    • シミュレーション実験で91%以上の精度を示し,C型肝炎ウイルスの進行における因果因子を特定するなど,既存手法を凌駕する性能を示した。

    Link: https://arxiv.org/abs/2510.09846

  • ProxRouter:外れ値に対するロバスト性を向上させる近接重み付きLLMクエリルーティング [cs.DC, cs.LG, cs.AI]目的:LLMクエリルーティングにおける外れ値へのロバスト性向上
    • AIプラットフォームにおいて,効率的な推論を実現するため,LLMクエリルーティングが重要である。
    • 既存のルーティング手法は,外れ値クエリに対して汎化性能が低く,学習データの多様性不足が課題である。
    • ProxRouterは,外れ値クエリに対するロバスト性を向上させ,精度の高いルーティングを実現する。
    • ProxRouterは,非パラメトリックルーティングにおいて,指数関数的に傾いた集約メカニズムを適用することで,バイアスと分散のバランスを調整する。
    • 実験結果から,ProxRouterは外れ値ルーティングを改善しつつ,インライヤーの性能を維持することが示された。
    • ProxRouterは,わずかなオーバーヘッドで,外れ値に対するロバスト性を向上させる。

    Link: https://arxiv.org/abs/2510.09852

  • AIと意識 [cs.AI]目的:AI意識に関する文献の概観
    • AI技術の進展に伴い,意識の定義やAIの意識の可能性が重要課題となっている。
    • 主流の意識理論間でもAI意識の有無について意見が分かれており,判断が困難である。
    • AI意識に関する議論の現状を批判的に検討し,今後の課題を提示する。
    • 有力な意識理論によっては,将来的に意識を持つAIシステムが創出される可能性がある。
    • しかし,どの理論が正しいかを判断することは難しく,AIの意識の度合いも不明である。
    • 従来のAI意識に関する議論は決定的な結論に至っておらず,さらなる検討が必要である。

    Link: https://arxiv.org/abs/2510.09858

  • 物語理解のベンチマークのための包括的フレームワーク NarraBench [cs.CL, cs.AI]目的:物語理解タスクの分類体系と既存のベンチマーク調査
    • 自然言語処理において,物語理解は高度な言語能力の評価に不可欠である。
    • 既存のベンチマークは物語理解の側面を十分に網羅しておらず,評価指標とのずれも存在する。
    • 物語理解の評価において見過ごされがちな側面を明らかにし,改善を促すことを目指す。
    • 現在のベンチマークでは物語理解タスクの約27%しか適切に捉えられていないことが示された。
    • 物語の出来事,文体,視点,示唆などの評価が既存のベンチマークで不足していることが確認された。
    • 主観的・視点に依存する物語理解の評価方法の必要性が指摘された。

    Link: https://arxiv.org/abs/2510.09869

  • WARC-Bench: GUIサブタスク実行のためのウェブアーカイブベースベンチマーク [cs.CL, cs.LG, cs.AI]目的:GUIサブタスク実行能力の評価
    • 複雑なウェブサイト操作は,AIエージェントの重要な能力であり,実用的な応用範囲が広い。
    • 既存のベンチマークでは,ウェブ操作におけるGUIサブタスクの評価が不十分である。
    • GUIサブタスク実行能力を評価し,AIエージェントのウェブ操作能力向上を目指す。
    • WARC-Benchは,438のGUIサブタスクを含む新しいウェブナビゲーションベンチマークである。
    • 最先端モデルの成功率は64.8%にとどまり,課題の難易度が高いことが示された。
    • SFTとRLVRの組み合わせにより,ベンチマークのスコアが向上し,多くの最先端モデルを上回った。

    Link: https://arxiv.org/abs/2510.09872

  • ROBOPSY PL[AI]:ロールプレイを用いてLLMが集合的記憶を提示する方法を調査 [cs.HC, cs.AI, cs.CY]目的:大規模言語モデルによる集合的記憶のキュレーションと提示方法
    • LLMの発展は,社会における情報アクセスや知識形成に大きな影響を与えるため重要である。
    • LLMが歴史的事実をどのように解釈し,提示するかについて,偏りや不正確さの懸念がある。
    • ロールプレイを通じて,LLMの記憶の提示方法を可視化し,その差異を明らかにすることを試みる。
    • 異なるLLM間において,歴史的出来事の提示内容に有意な差異が認められた。
    • プレイヤーの反応を分析した結果,3種類の異なるユーザータイプが区別された。
    • 本研究はLLMの性能分析に貢献するとともに,一般 аудиторииへの情報発信の新たな方法を提案する。

    Link: https://arxiv.org/abs/2510.09874

  • バッチ能動学習における近視的ベイズ決定理論と部分バッチラベルサンプリング [cs.LG, cs.AI, stat.ML]目的:バッチ能動学習のための近視的ベイズ決定理論
    • 能動学習は,ラベル付けコストを削減しつつ高いモデル性能を実現できるため,機械学習において重要である。
    • 既存の能動学習手法は多く,どれを選択すべきか判断が難しいという課題がある。
    • ベイズ決定理論に基づき,大規模バッチサイズにおける計算効率と性能向上を目指す。
    • 本研究では,能動学習におけるベイズ決定理論を導出し,EERやEPIGなどの既存手法との関連性を示した。
    • 大規模バッチサイズに対応するためのParBaLSという新しい手法を提案し,EPIGアルゴリズムと組み合わせた際の有効性を示した。
    • 実験結果から,ParBaLS EPIGが固定予算下で優れた性能を発揮することが確認された。

    Link: https://arxiv.org/abs/2510.09877

  • CHUG:クラウドソーシングによるユーザー生成HDR動画品質データセット [cs.CV, cs.AI]目的:ユーザー生成HDR動画の品質評価のためのデータセット
    • HDR動画は視覚体験を向上させるため,その重要性が増している。
    • 既存のHDR動画品質評価データセットはプロ生成コンテンツに偏っている。
    • 本研究は,実際のユーザー生成HDR動画における品質評価を可能にすることを目的とする。
    • CHUGは,856本のユーザー生成HDRソース動画を含む大規模データセットである。
    • 多様な解像度とビットレートで動画を変換し,現実的なシナリオをシミュレーションしている。
    • Amazon Mechanical Turkを通じて211,848件の知覚評価データを収集した。

    Link: https://arxiv.org/abs/2510.09879

  • 効率的な長文脈推論のための動的レイヤー認識トークンアテンション:DELTA [cs.CL, cs.CL, cs.LG]目的:長文脈推論における効率的なアテンション機構の提案
    • 大規模言語モデルの性能向上は,複雑な推論能力に依存しており,その重要性は増している。
    • 長文脈を扱う際の計算コストが課題であり,既存のスパースアテンションは精度劣化を招く。
    • 精度を維持しつつ,計算コストを削減する新たなアテンション機構の開発を目指す。
    • DELTAは,完全アテンションの精度を維持しつつ,トークン数を最大5倍削減し,エンドツーエンドの処理速度を1.5倍向上させる。
    • Transformerレイヤーを初期層,選択層,スパースアテンション層の3つのグループに分割する設計により,効率性と精度を両立している。
    • 中間アテンションマップの選択的再利用が,効率的な長文脈推論への堅牢な経路を提供することを示した。

    Link: https://arxiv.org/abs/2510.09883

  • TAWRMAC:新たな動的グラフ表現学習手法 [cs.LG]目的:動的グラフ表現学習の新たな枠組み
    • ソーシャルネットワーク分析など,変化するネットワークの解析に不可欠な技術である。
    • 既存手法は,ノード間の関係性や構造変化を捉えきれていない場合がある。
    • ノードの近傍情報や時間的な変化を考慮し,より安定した表現学習を目指す。
    • TAWRMACは,時間的匿名ウォーク,メモリ拡張,近傍共起埋め込みを統合することで,埋め込みの安定性と文脈表現を向上させる。
    • 反復的な相互作用を示すノードと,新たな繋がりを形成するノードを区別し,構造的なダイナミクスをより良く捉える。
    • 複数のベンチマークデータセットで,動的リンク予測とノード分類において最先端手法を凌駕する性能を示した。

    Link: https://arxiv.org/abs/2510.09884

  • 自己回帰型とマスク拡散型LLMにおけるデータ効率性の差を埋める [cs.CL, cs.AI]目的:自己回帰型LLMとマスク拡散型LLMにおける知識獲得の効率性
    • 大規模言語モデルは自然言語処理の発展に不可欠であり,その性能向上が求められている。
    • 自己回帰型LLMは微調整による知識注入が難しく,「逆転の呪い」と呼ばれる課題が存在する。
    • マスク拡散型LLMの微調整における知識獲得能力を検証し,自己回帰型LLMの効率性を改善する。
    • 自己回帰型LLMはQAの一般化のために大幅なデータ拡張に依存するが,マスク拡散型LLMはデータ拡張なしで高い精度を達成する。
    • マスク拡散型LLMの性能に触発され,自己回帰型LLMへの知識注入のための新しいマスク付き微調整パラダイムを提案した。
    • 提案手法は自己回帰型LLMのデータ効率性を大幅に改善し,マスク拡散型LLMとの性能差を埋めることに成功した。

    Link: https://arxiv.org/abs/2510.09885

  • 重い裾を持つノイズ下における非パラメトリック回帰に対するロバスト機械学習の理解 [cs.CL, cs.LG, stat.ML]目的:重い裾を持つノイズ下における非パラメトリック回帰のロバスト性
    • 機械学習はデータ駆動型技術であり,その性能はノイズの影響を受けやすい。ロバスト性は,ノイズに対する安定性を高める上で不可欠である。
    • 従来の機械学習手法は,ノイズの分布に関する強い仮定に依存しており,現実世界のデータには適用できない場合がある。
    • 本研究は,重い裾を持つノイズ下においてもロバストな非パラメトリック回帰を実現するための理論的基盤を提供する。
    • 従来の汎化誤差の限界は,ロバスト損失関数を用いた場合,サンプル外性能を正確に捉えられないことが示された。
    • 学習可能性は,真値関数への$L_2$距離である予測誤差によって評価されるべきであり,ロバスト推定の目標を直接反映している。
    • 確率的有効仮説空間を導入することで,弱$(1+\epsilon)$-モーメント条件の下でも,有意味なバイアス-バリアンス分解が可能となり,明示的な有限サンプル誤差境界と収束レートが導出された。

    Link: https://arxiv.org/abs/2510.09888

  • 北極海氷濃度の季節予測における確率的バイアス調整 [cs.LG, cs.AI, physics.ao-ph, stat.ML]目的:北極海氷濃度の季節予測におけるバイアス調整手法の確立
    • 地球温暖化に伴い,北極海氷の減少が加速しており,その予測は防災や経済活動に不可欠である。
    • 既存の気候モデルによる季節予測は系統的なバイアスや複雑な時空間的誤差を含む場合が多い。
    • 観測データに基づき,予測分布を補正し,不確実性の定量化と極端現象の予測精度向上を目指す。
    • 条件付き変分オートエンコーダを用いた確率的誤差補正フレームワークを導入し,大規模な補正予測アンサンブルの生成を可能にした。
    • 補正された予測は,観測分布により近く,較正も改善され,バイアス調整された予測よりも誤差が小さくなった。
    • 本手法は,不確実性の適切な定量化と,極端事象の予測に貢献することが期待される。

    Link: https://arxiv.org/abs/2510.09891