arXiv雑要約

AI - 2025/10/13 公開

  • LLMに対する2次最適化の可能性:フル・ガウス・ニュートンによる研究 [cs.CY, cs.LG, cs.AI]目的:LLMの事前学習における反復回数の削減
    • LLMの規模拡大に伴い,計算コストが課題となっている。
    • 2次最適化の近似手法では,精度低下が懸念される。
    • フル・ガウス・ニュートン法による性能上限を実証する。
    • フル・ガウス・ニュートン法は,既存の最適化手法と比較して,訓練反復回数を5.4倍削減した。
    • 層ごとのガウス・ニュートン法は,フル・ガウス・ニュートン法とほぼ同等の性能を示した。
    • 現在の近似手法と理想的な層ごとのオラクルとの間には,依然として性能差が存在する。

    Link: https://arxiv.org/abs/2510.09378

  • 系列モデルにおける固有値からのタスクレベルの洞察 [cs.LG, cs.AI, cs.SY, eess.SY]目的:系列モデルの固有値分析を通じたタスク要求との関連性の解明
    • 系列モデルは自然言語処理等の分野で広く用いられ,その性能向上が重要である。
    • 既存のsoftmaxアテンションは計算コストが高く,効率的な代替手法が求められている。
    • 系列モデルの効率性と性能向上を目指し,固有値分析によるモデル解釈を試みる。
    • 固有値は,系列モデルの記憶能力や長距離依存性のモデリングに重要な影響を与えることが示された。
    • 固有値スペクトルとタスク要求の間に相関関係が存在し,タスクの種類によって特徴的なスペクトルが現れることが確認された。
    • モデル構造の変更が固有値スペクトルに影響を与え,それがタスク性能の変化に繋がることが示唆された。

    Link: https://arxiv.org/abs/2510.09379

  • CHUCKLE:人間がAIに感情学習を容易に教える方法 [cs.LG]目的:感情認識のための知識主導型カリキュラム学習フレームワーク
    • 感情認識は,人間と機械の円滑なコミュニケーションに不可欠であり,その精度向上は重要な課題である。
    • 既存のカリキュラム学習は,サンプル難易度の定義が主観的であり,人間にとっての知覚的な難易度を考慮していない。
    • 人間が難しいと感じるサンプルを機械学習モデルも難しいと捉え,効率的な学習を促進することを目指す。
    • CHUCKLEは,クラウドソーシングによるアノテーター間の合意とアラインメントを利用してサンプル難易度を定義する。
    • LSTMでは平均精度が6.56%,Transformerでは1.61%向上し,非カリキュラム学習ベースラインを上回った。
    • 勾配更新回数を削減し,学習効率とモデルのロバスト性を向上させた。

    Link: https://arxiv.org/abs/2510.09382

  • HINT:効果の低いロールアウトが有効性に向かうための支援 [cs.LG, cs.CL]目的:大規模言語モデルの思考連鎖推論能力向上における強化学習の課題克服
    • 大規模言語モデルの推論能力は重要であり,その強化が様々な応用を可能とする。
    • 強化学習による推論能力向上は,タスク難易度が高い場合に報酬の希薄性や学習の非効率性に陥りやすい。
    • 外部ガイダンスとモデルのポリシー間の分布の不一致を解消し,学習効率と安定性を向上させる。
    • 提案手法HINTは,直接的な答えを提供するのではなく,モデルが自力で解決策を見つけられるようなヒューリスティックなヒントを提供する。
    • 数学的推論タスクにおいて,既存手法を凌駕する最先端の結果を,様々な規模のモデルで達成した。
    • 学習の安定性とデータ効率が大幅に向上しており,有効性が示された。

    Link: https://arxiv.org/abs/2510.09388

  • 系列モデルの設計原則:係数ダイナミクスによる考察 [cs.LG, cs.AI]目的:系列モデルの設計原則
    • 系列モデルは,自然言語処理や時系列分析など,様々な分野で重要な役割を担っている。
    • 既存の系列モデルは多様であり,その設計原則が明確に理解されていない。
    • 多様なモデルの共通基盤を明らかにし,設計指針を導き出す。
    • 系列モデルの出力計算を,線形システムの係数として捉える統一的なフレームワークを提案した。
    • このフレームワークにより,表現力と効率的な実装,入力選択性,数値安定性などのトレードオフを明らかにした。
    • 近年のモデル設計の成功例を説明し,新たな系列モデル設計のための指針を提供する。

    Link: https://arxiv.org/abs/2510.09389

  • データ可視化コード生成のための曖昧なユーザー目標の特定と対話的な改善 [cs.CL, cs.AI, cs.CV, cs.HC, cs.MA]目的:データ可視化コード生成における曖昧なユーザー目標の特定と改善
    • 人間とAIのコミュニケーションにおいて,共通目標の確立は不可欠である。可視化はデータ分析の重要な要素であり,その自動化が求められている。
    • 自然言語による指示の曖昧さが,期待通りの可視化結果を得る妨げとなる場合がある。既存手法では,曖昧さを十分に捉えられていない。
    • 本研究は,曖昧さの分類と定量化を行い,対話を通じて曖昧さを解消し,コード生成の精度向上を目指す。
    • 曖昧さの種類に関する分類体系を構築し,その定量化のための指標を提案した。
    • 提案指標は,既存の不確実性ベースラインよりも人間の評価との相関性が高いことが示された。
    • Griceの協調原理等のプラグマティックモデルに基づいた対話戦略が,曖昧さの低減とコード精度の向上に貢献することがシミュレーション実験で示された。

    Link: https://arxiv.org/abs/2510.09390

  • ハイブリッド遺伝的最適化(HyGO)による高速かつ堅牢なパラメトリックおよび関数学習 [cs.NE, math.OC]目的:複雑な工学問題におけるパラメトリックおよび関数学習を支援する,効率的で統合的な最適化フレームワーク
    • 工学分野では,複雑な問題解決のため,効率的な最適化手法が不可欠である。
    • 従来の進化アルゴリズムは,特に終盤学習において収束が遅いという課題があった。
    • HyGOは,探索と利用のバランスにより,収束速度を向上させ,より堅牢な最適化を実現する。
    • HyGOは,標準的な遺伝的アルゴリズムと比較して,パラメトリック最適化ベンチマークでより高速かつ堅牢な収束を示した。
    • ダンピングされたランダウオシレーターの制御を含む関数最適化タスクにおいても有効性が確認された。
    • Ahmedボディの空力抵抗低減において,20%を超える抵抗低減効果が確認され,実用性が示された。

    Link: https://arxiv.org/abs/2510.09391

  • ChoirRec:LLMを用いたセマンティックなユーザーグルーピングによる低アクティビティユーザーのコンバージョン率予測 [cs.IR, cs.AI]目的:低アクティビティユーザーのコンバージョン率予測の向上
    • 大規模ECサイトにおいて,低アクティビティユーザーのコンバージョン率予測は,収益向上に不可欠である。
    • 従来の予測手法は,ノイズの多いデータ,ユーザー情報の不足,高アクティビティユーザーへの偏りといった課題を抱える。
    • 本研究は,LLMを活用したユーザーグルーピングにより,これらの課題を克服し,予測精度を向上させる。
    • ChoirRecは,LLMを用いて信頼性の高いユーザーグループを生成し,ノイズの多いシグナルを除去する。
    • グループレベルの情報をユーザー埋め込みに統合することで,データ不足の問題を軽減する。
    • オフライン評価でGAUCが1.16%向上,オンラインA/Bテストで注文数が7.24%増加するなど,実用的な効果が確認された。

    Link: https://arxiv.org/abs/2510.09393

  • 単一粒度プロンプトを超えて:グラフのためのマルチスケールChain-of-Thoughtプロンプト学習 [cs.CL, cs.AI]目的:グラフに対するマルチスケールChain-of-Thoughtプロンプト学習フレームワーク
    • グラフ構造データは,ソーシャルネットワークや知識グラフなど,多様な分野で重要性が増している。
    • 既存のグラフプロンプト調整手法は,ノードレベルなど単一粒度でのプロンプト生成に限定され,多様性が低い。
    • グラフデータの持つ固有のマルチスケール構造情報を活用し,プロンプトの多様性と表現力を向上させる。
    • 本研究では,軽量な低ランク粗化ネットワークを用いて,マルチスケール構造特徴を効率的に捕捉する。
    • 粗から細への動的な情報統合により,段階的な粗から細へのプロンプトチェーンを形成する。
    • 8つのベンチマークデータセットでの実験により,MSGCOTが最先端手法を上回ることが示された。

    Link: https://arxiv.org/abs/2510.09394

  • 放射線科におけるエージェントシステム:設計,応用,評価,および課題 [cs.AI]目的:放射線科におけるエージェントシステムの設計,応用,評価,課題に関する検討
    • 放射線科は,多様なデータと複雑なワークフローを扱うため,AI技術の応用が期待されている。
    • 既存のLLMは単独では,多段階の複雑なワークフローを十分に支援できない。
    • LLMに外部ツールとフィードバック機構を組み込み,自律的なシステムを構築することを目指す。
    • LLMを活用したエージェントシステムは,情報抽出やレポート要約などの個別タスクで有望な結果を示している。
    • LLMに外部ツールを連携させることで,より複雑なワークフローの自動化や意思決定支援が可能となる。
    • エージェントシステムの評価方法,エラーの連鎖,効率性,ヘルスITとの統合などが課題として挙げられる。

    Link: https://arxiv.org/abs/2510.09404

  • RFフィンガープリント識別における特徴量分離と敵対的学習による受信機間汎化 [cs.LG]目的:RFフィンガープリント識別における受信機間汎化性能の向上
    • 無線ネットワークセキュリティにおいて,ハードウェアの特性を利用した識別技術は重要である。
    • 受信機に起因する変動が,RFFIモデルの過学習を引き起こし,実用的な展開を妨げている。
    • 受信機固有のパターンからの分離を通じて,受信機変更時の性能劣化を抑制することを目指す。
    • 敵対的学習とスタイル転送を統合したフレームワークにより,送信機と受信機の特性を明確に分離することに成功した。
    • ドメイン不変な表現学習を強制することで,ハードウェアの真のシグネチャを受信機のアーティファクトから分離した。
    • マルチ受信機データセットでの実験により,提案手法が最先端のベースラインを安定的に上回り,平均精度が最大10%向上した。

    Link: https://arxiv.org/abs/2510.09405

  • 時間的グラフ学習モデルは何を学習しているか? [eess.SY, cs.SY, cs.LG, cs.SI]目的:時間的グラフの属性学習能力の評価
    • グラフ表現学習は重要であり,時間的グラフはその応用範囲が広い。
    • ベンチマーク結果の信頼性に疑問が生じており,単純なヒューリスティックとの比較で課題がある。
    • 時間的グラフ学習モデルが実際に利用するグラフ特性を特定し,限界を明らかにすること。
    • モデルは密度や更新頻度などの一部の属性は捉えられるが,他の属性の再現には苦戦している。
    • 時間的グラフ学習モデルには重要な限界が存在することが明らかになった。
    • 本研究は,時間的グラフ学習モデルの応用に関する洞察を提供し,解釈可能性を重視した評価を促進する。

    Link: https://arxiv.org/abs/2510.09416

  • 大規模言語モデルの能動的モデル選択 [cs.CG, cs.CL, cs.LG]目的:大規模言語モデルの最適なモデル選択
    • 言語モデルの性能向上は,自然言語処理の応用範囲を拡大し,社会に貢献する。
    • 言語モデルの評価には大量のアノテーションが必要であり,コストと時間がかかる。
    • アノテーションコストを削減しつつ,最適な言語モデルを効率的に選択すること。
    • LLM SELECTORは,アノテーションの少ない状況で最適なLLMを効率的に特定するフレームワークである。
    • 実験結果から,LLM SELECTORはタスクに適した最良またはそれに近いLLMを選択する際,アノテーションコストを最大59.62%削減できることが示された。
    • LLM SELECTORは,判断ベースのオラクルアノテーションモデルを活用することで,更なるコスト削減を実現する。

    Link: https://arxiv.org/abs/2510.09418

  • 自己回帰型大規模言語モデルにおけるエンティティの表現について [eess.SY, cs.SY, cs.CL, cs.AI]目的:大規模言語モデルにおけるエンティティの内部表現
    • テキスト内の知識の基礎であり,事実情報や言語構造を支えるため。
    • エンティティの表現自体は未解明な部分が多く,先行研究は関係性に偏っている。
    • 大規模言語モデルがどのようにエンティティを表現・操作しているかを解明する。
    • エンティティ言及の再構成という新しいフレームワークを提案し,内部表現からの生成可能性を調査した。
    • タスクベクトルを活用することで,様々なエンティティ表現から複数トークンのエンティティ言及を生成できることを示した。
    • LLMは,学習時に未見の複数トークンエンティティを含むエンティティ固有のメカニズムを開発しているという証拠が得られた。

    Link: https://arxiv.org/abs/2510.09421

  • 深層ニューラルネットワークと大規模言語モデルにおける重みの初期化と分散の動態 [cs.LG]目的:深層ニューラルネットワークにおける重みの初期化と分散の動態に関する研究
    • 深層学習は,画像認識や自然言語処理など,多くの分野で目覚ましい成果を上げている。
    • 重みの初期化は学習の初期段階における信号伝播と勾配の流れに影響するため重要だが,適切な初期化方法は未だ確立されていない。
    • 本研究は,安定した学習を可能にする重みの初期化方法を理論と実験の両面から解明することを試みる。
    • ReLU多層パーセプトロンとGPT-2形式のTransformerにおいて,初期標準偏差の対数的なスイープにより,消失・爆発の領域が明らかになった。
    • ReLUにおいては,Kaiming初期化がXavier初期化よりも高速かつ安定的に収束することが確認された。
    • GPT-2形式のモデルでは,層ごとにQ/K/V重みの分散が層の深さに応じて平衡化することが観察された。

    Link: https://arxiv.org/abs/2510.09423

  • Speech-LLMが全てを担う:真にエンドツーエンドな音声対話状態追跡アプローチ [cs.CL, cs.AI, cs.LG, eess.AS]目的:音声対話状態追跡における文脈管理戦略の比較
    • 対話システムにおいて,文脈を正確に把握することは,自然な対話を実現する上で不可欠である。
    • 従来の手法では,文脈情報の取り扱いに限界があり,対話状態追跡の精度向上が課題となっていた。
    • 本研究は,Speech-LLMを用いたエンドツーエンドな状態追跡において,最適な文脈管理戦略を確立することを目指す。
    • Speech-LLMを用いたエンドツーエンド型音声対話状態追跡において,完全な音声履歴を入力として提供することが,最も高い性能を発揮することが示された。
    • 従来のモデルと比較して,有意な性能向上が確認された。
    • アテンションプーリングに基づく音声履歴の圧縮は,文脈サイズを削減しつつ,競争力のある精度を維持する有効な手法である。

    Link: https://arxiv.org/abs/2510.09424

  • 単峰型選好と限られた資源を持つバンディット問題 [cs.LG, cs.AI]目的:累積報酬最大化を目指すオンライン確率的マッチング
    • 資源配分や推薦システムなど,様々な分野で重要な問題設定である。
    • 最適なマッチングはNP困難であり,オンライン学習は計算量的に困難である。
    • 単峰型選好という構造的仮定に基づき,効率的なアルゴリズムを開発する。
    • 単峰型選好を持つユーザーに対するオフライン予算マッチング問題を効率的に解くアルゴリズムを開発した。
    • そのアルゴリズムを活用し,リグレットが$\tilde O(UKT^{2/3})$の効率的なオンラインアルゴリズムを実現した。
    • PQ木を用いた新しい順序近似手法が,この成果の鍵となっている。

    Link: https://arxiv.org/abs/2510.09425

  • 推薦モデルにおけるクロスアテンションは密かに直交なアラインメントを実行する [cs.CL, cs.LG, cs.IR]目的:クロスドメイン逐次推薦におけるクロスアテンションのメカニズム解明
    • 推薦システムの精度向上は,ビジネスやユーザーエクスペリエンスにとって不可欠である。
    • クロスドメイン推薦では,異質なデータを統合するアラインメントが課題となる。
    • クロスアテンションの新たなアラインメントメカニズムを明らかにし,性能向上を目指す。
    • クロスアテンションが,クエリ入力に存在しない新たな情報を発見する「直交アラインメント」を行うことを示した。
    • 直交アラインメントは,モデルの出力と入力が直交する場合に顕著に現れ,性能を大幅に向上させる。
    • 直交アラインメントは,明示的な制約なしに自然に発生し,パラメータ効率の良いスケーリングに貢献する。

    Link: https://arxiv.org/abs/2510.09435

  • 一様スケーリングフロー:深部ワンクラス分類への密度整合アプローチ [cs.LG]目的:深部ワンクラス分類と密度推定の理論的関係性の解明
    • 異常検知は,製造やセキュリティなど,様々な分野で重要な役割を担っている。
    • 深部ワンクラス分類と密度推定は別アプローチであり,相互の理解が不足している。
    • 一様スケーリングフローを用いて,両アプローチを統合し,理論的基盤を確立すること。
    • 一様スケーリングフロー(USF)の最尤推定による学習は,Deep SVDDと等価であることが示された。
    • USFは,密度推定の正確性と距離に基づく推論能力の両方を獲得していると考えられる。
    • 実験的に,USFは既存手法に対し,性能向上と学習安定性の改善を示すことが確認された。

    Link: https://arxiv.org/abs/2510.09452

  • SilvaScenes:自然林における林床画像からの樹木セグメンテーションと樹種分類 [cs.CV, cs.AI, cs.LG, cs.RO]目的:自然林における林床画像からの樹木セグメンテーションと樹種分類のためのデータセット
    • 森林管理におけるロボット技術への関心が高まっているが,複雑な自然環境での知覚が課題となっている。
    • 既存のデータセットは都市環境に焦点を当てているか,対象樹種が限られており,精緻な樹種分類システムの開発を阻害している。
    • 本研究は,多様な樹種を含む自然林における樹木セグメンテーションと樹種分類のためのデータセットを提供し,課題解決を目指す。
    • SilvaScenesは,カナダ・ケベック州の5つのバイオクライメート領域で収集された1476本の樹木(24種)を含むデータセットである。
    • 樹木のセグメンテーションは比較的容易であるが(mAP 67.65%),樹種分類は依然として困難である(mAP 35.69%)ことが示された。
    • データセットとソースコードは公開されており,今後の森林管理技術開発に貢献することが期待される。

    Link: https://arxiv.org/abs/2510.09458

  • 生成ロボットポリシーの実行時故障予測 [cs.RO, cs.AI, cs.LG]目的:生成型模倣学習における実行時故障予測手法
    • ロボットの複雑なタスク遂行能力向上は重要である。特に,人間の生活空間での安全な運用が求められている。
    • 環境変化や行動誤差の累積により,ロボットの予測不能な行動や故障が発生する可能性がある。
    • 未知の状況下での故障を早期に検出し,安全性を確保することを目的とする。
    • FIPERは,埋め込み空間での分布外検出と行動チャンクエントロピーを用いて故障兆候を特定する。
    • FIPERは,実際の故障と良性の分布外状況を区別し,既存手法よりも正確かつ早期に故障を予測できる。
    • 本研究は,より解釈可能で安全な生成ロボットポリシー実現に向けた重要な一歩であると考えられる。

    Link: https://arxiv.org/abs/2510.09459

  • 信頼できる監視システムに対する適応的攻撃がAI制御プロトコルを侵害する [cs.LG, cs.AI, cs.CR]目的:AI制御プロトコルの監視システムに対する適応的攻撃の脆弱性
    • AI制御は,自律的な環境におけるLLMエージェントによる有害な行為を防止する上で重要である。
    • 現在のAI制御プロトコルは,LLM監視システムに依存しており,これが単一障害点となり得る。
    • 本研究は,監視モデルを知る攻撃モデルによる適応的攻撃の有効性を評価し,その対策を促す。
    • 最先端モデルは,様々な監視システムを回避し,悪意のあるタスクを完了する。
    • 最近提案されたDefer-to-Resampleプロトコルは,プロンプトインジェクションを増幅し,攻撃を助長する結果となる。
    • 監視モデルに対する適応的攻撃は,現在の制御プロトコルの大きな盲点であり,将来の評価に不可欠である。

    Link: https://arxiv.org/abs/2510.09462

  • スタートアップの資金調達,特許取得,および撤退予測のための解釈可能な機械学習 [cs.SI, cs.LG, q-fin.GN]目的:スタートアップの成果予測のための解釈可能な機械学習フレームワーク
    • スタートアップの成長を予測することは,イノベーションファイナンスの効率化に不可欠である。
    • 既存の手法では予測の根拠が不明瞭で,透明性と再現性に課題がある。
    • 予測の精度を高めつつ,その根拠を明確にすることで,より信頼性の高い情報を提供する。
    • 特許予測,資金調達予測,撤退予測において,それぞれ0.921,0.817,0.872のAUROC値を達成した。
    • このフレームワークは,イノベーションファイナンスにおける透明性と再現性の高いランキングを提供できる。
    • 漏洩を防ぐため,開発期間(2010-2019年)で前処理を学習し,以降のコホートに適用した。

    Link: https://arxiv.org/abs/2510.09465

  • 潜在空間上の測地計算 [cs.LG]目的:潜在空間における幾何学的演算子の離散的なリーマン幾何学
    • データ解析において,高次元データを低次元で表現する技術は重要である。潜在空間はその有効な手段の一つである。
    • 潜在空間の幾何学的構造を正確に把握することは困難であり,ノイズや近似誤差の影響を受けやすい。
    • 潜在空間上の測地線計算を可能とし,幾何学的な解析を促進することを目指す。
    • オートエンコーダの潜在多様体を,周囲の潜在空間の暗黙的な部分多様体として記述する手法を提案した。
    • この手法は,暗黙的な表現の不正確さに対してロバストであり,様々なリーマン幾何学をサポートする。
    • 潜在多様体への近似射影を学習することで,測地線の計算や指数写像の利用を可能にした。

    Link: https://arxiv.org/abs/2510.09468

  • 衝突を考慮した動的アラートマスクとハイブリッド実行戦略を用いたスケーラブルなマルチエージェントパスファインディング [cs.MA, cs.AI, cs.RO]目的:マルチエージェントパスファインディングにおける効率的な経路計画
    • ロボティクスや自律システムにおいて,共有空間での効率的なナビゲーションは不可欠である。
    • 大規模な環境下では,計算コストが指数関数的に増加し,実用的な経路計画が困難となる。
    • 分散型アプローチの拡張性を維持しつつ,経路計画の品質を向上させることを目指す。
    • 提案手法では,強化学習を用いた分散型計画と,軽量な集中型コーディネーターを組み合わせる。
    • コーディネーターからの動的アラートにより,効率的な衝突回避を実現している。
    • 大規模なシナリオにおいて,実用的な衝突回避経路を効率的に見つけることが確認された。

    Link: https://arxiv.org/abs/2510.09469

  • 自然言語推論のためのハイブリッドモデル:三段論理の場合 [cs.CL, cs.CL, cs.LG, cs.LO]目的:自然言語推論における,構成性と再帰性の二つの側面に関する研究
    • 論理的推論能力は,応用展開において極めて重要であり,汎化能力が鍵となる。
    • ニューラルモデルは汎化能力に課題を抱えており,特に論理的推論において顕著である。
    • 構成性と再帰性の区別を明確にし,ハイブリッドモデルによる論理的推論の改善を目指す。
    • 大規模言語モデル(LLM)は再帰性にはある程度堪能であるものの,構成性においては苦戦していることが判明した。
    • 記号推論とニューラル計算を統合したハイブリッドアーキテクチャが,堅牢かつ効率的な推論を可能にする。
    • 比較的小さなニューラルコンポーネントでも,高い効率性を維持できることが実験で示された。

    Link: https://arxiv.org/abs/2510.09472

  • D-TPT:視覚言語モデルにおけるテスト時プロンプトチューニングのキャリブレーションのための次元エントロピー最大化 [cs.CV, cs.LG]目的:視覚言語モデルにおけるテスト時プロンプトチューニングのキャリブレーション改善
    • 視覚言語モデルは多様なタスクに対応可能であり,その汎化能力が重要視されている。
    • テスト時プロンプトチューニングでは,キャリブレーション性能の低下が課題となっている。
    • モーダル間の特徴量の依存性を軽減し,キャリブレーション性能を向上させることを目指す。
    • 対照的な視覚言語モデルにおいて,モーダル間の単一の支配的な特徴次元によって生じるギャップを特定した。
    • 支配的な次元の影響を抑制することで,キャリブレーションエラーを改善できることを示した。
    • 次元エントロピー最大化により,テキスト特徴量の分布を均一化し,テスト時プロンプトチューニングのキャリブレーション性能を向上させた。

    Link: https://arxiv.org/abs/2510.09473

  • 会話型エージェントのためのマルチモーダルポリシー内包化 [cs.CL, cs.AI]目的:マルチモーダルポリシー内包化
    • 対話型エージェントの性能向上には,メタデータや応答スタイルを制御するポリシーが不可欠である。
    • 大規模言語モデルベースのシステムでは,ポリシーが複雑化し,忠実な遵守と計算コストが課題となっている。
    • マルチモーダルなポリシーをモデルパラメータに組み込み,推論時の固定コストを削減することを目的とする。
    • 提案手法TriMPIは,継続的な事前学習,教師ありファインチューニング,そしてPolicyRolloutによる強化学習の3段階で構成される。
    • 合成データおよび実世界のタスクを用いた実験により,TriMPIはエンドツーエンドの精度,汎化性能,忘却への頑健性を向上させた。
    • 本研究は,マルチモーダルポリシー内包化の初期研究として,データセット,学習レシピ,および包括的な評価を提供し,今後の研究を促進する。

    Link: https://arxiv.org/abs/2510.09474

  • LoRAを用いたスタイル一貫性のあるキャラクター生成のための少数ショット多トークンDreamBooth [cs.CV, cs.LG]目的:スタイルと共有視覚的特徴を維持した,新規キャラクターの無制限生成
    • 映像産業はAI技術を取り入れ変化しており,新たな表現手法の創出が期待される。
    • 少数精度のデータでキャラクターの詳細を捉え,スタイルを維持することが困難である。
    • 参照キャラクターのスタイルを維持しつつ,多様なキャラクターを生成する。
    • 提案手法は,参照キャラクターの独特な美学特徴を維持しつつ,高品質で多様なキャラクターを生成できる。
    • 多トークン戦略とLoRAによるパラメータ効率的なファインチューニングが,その有効性を支えている。
    • 人間による評価も,提案手法の有効性と可能性を示唆する結果となった。

    Link: https://arxiv.org/abs/2510.09475

  • CRPS-LAM:周辺分布の一致に基づく地域アンサンブル天気予報 [cs.RO, cs.LG]目的:地域アンサンブル天気予報モデルの構築
    • 気象予測において,確率的予報は不可欠であり,その精度向上が求められている。
    • 拡散モデルは高精度だが,サンプリングに時間がかかり,実用性に課題がある。
    • CRPSに基づく学習により,高速かつ高精度な地域アンサンブル予報を実現する。
    • CRPS-LAMは,単一の潜在ノイズベクトルからアンサンブルメンバーを生成し,サンプリング速度を最大39倍に向上させた。
    • MEPSデータセットでの評価により,CRPS-LAMは拡散モデルと同等の低誤差を達成した。
    • 微細な予報詳細も保持しており,効果的な確率的地域天気予報手法となりうる。

    Link: https://arxiv.org/abs/2510.09484

  • 局所最適プライベートサンプリング:グローバルなミニマックスの限界を超える [cs.LG, cs.CR, cs.CY, cs.IT, math.IT]目的:局所的微分プライバシー下での分布からのサンプリング
    • プライバシー保護は重要であり,特に個人情報を含むデータ分析においては不可欠である。
    • 既存手法はグローバルな最適性に焦点を当てており,特定の分布周辺における局所的な最適性は未解明であった。
    • 特定の分布周辺における局所的なミニマックスリスクを解明し,最適なサンプラーを設計すること。
    • 局所的ミニマックスリスクは,分布クラスを固定分布P0の近傍に制限した場合,グローバルなミニマックスリスクによって決定されることが示された。
    • 汎用的な関数型LDP枠組みへの拡張と,関数型LDPサンプラーの最適性が証明された。
    • 提案手法は,既存のグローバル手法と比較して,公開データを持つプライベートサンプリングにおいて一貫して良好な性能を示した。

    Link: https://arxiv.org/abs/2510.09485

  • モデルベースの敵対的模倣学習に対する準最適な二次の保証 [cs.LG]目的:敵対的模倣学習のサンプル複雑性の理論的保証
    • ロボット工学等において,報酬なしでの学習は重要であり,模倣学習はその有望な手法である。
    • オンラインインタラクションの利点や確率性の影響が十分に理解されていない点が課題である。
    • モデルベースの敵対的模倣学習アルゴリズムにより,サンプル複雑性の理論的限界を明らかにする。
    • 提案手法は,専門家データの分散とポリシーの分散に応じてサンプル複雑性が変化する。
    • 構築した困難な事例群に対する情報理論的な下限との比較から,提案手法がミニマックス最適性を持つことが示された。
    • 実験結果は理論的知見を検証し,既存手法と同等またはそれ以上のサンプル効率を達成することを示した。

    Link: https://arxiv.org/abs/2510.09487

  • 慢性腎臓病予測における機械学習アルゴリズムの性能分析 [cs.HC, cs.LG, cs.AI]目的:慢性腎臓病予測のための機械学習アルゴリズムの性能評価
    • 腎臓は体内のフィルターであり,世界人口の約10%が慢性腎臓病に罹患している。
    • 早期発見と適切なモニタリングが重要だが,従来の診断方法には限界がある。
    • 機械学習を用いて,より迅速かつ正確な慢性腎臓病の予測システムの構築を目指す。
    • Random ForestとLogistic Regressionが99%という高い予測精度を示した。
    • AdaBoost,XGBoost,Naive Bayes,Decision Tree,SVMも比較的高い精度を示した。
    • KNN分類器は73%の精度にとどまり,他のアルゴリズムと比較して劣った。

    Link: https://arxiv.org/abs/2510.09493

  • VQ-VAEとGNNを用いた多重ユーザFDDシステムにおけるプリコーダ設計 [cs.IT, cs.AI, eess.SP, math.IT]目的:多重ユーザ無線システムにおける合計レート向上
    • 無線通信において,電波伝搬環境に適応した効率的なプリコーディングは,通信品質向上の鍵となる。
    • 従来のGMMを用いた手法では,フィードバックビット数が増加すると計算量が指数関数的に増加する問題があった。
    • VQ-VAEを用いることで,GMMの欠点を克服し,少ないフィードバックビットで高性能なプリコーディングを実現する。
    • 提案手法では,VQ-VAEとGNNを共同学習させることで,従来のサブDFTパイロット行列や反復プリコーダアルゴリズムを上回る性能を示す。
    • シミュレーション結果から,提案フレームワークは少ないパイロットやフィードバックビットでシステムを展開できることが示された。
    • 特に,合計レートの点で顕著な改善が確認された。

    Link: https://arxiv.org/abs/2510.09495

  • 模倣学習による自律ソフトロボットガイドワイヤナビゲーション [cs.RO, cs.AI]目的:ソフトロボットガイドワイヤの自律ナビゲーション
    • 血管内手術の精密化と安全性の向上は医療現場での重要な課題である。
    • ロボットガイドワイヤの制御は複雑であり,正確なモデリングが困難である。
    • 模倣学習を用いて,複雑な血管構造下での自律ナビゲーションを実現する。
    • 提案手法は,未知の血管構造において83%の成功率でロボットの先端を目標とする動脈瘤の位置まで自律的に誘導できる。
    • 目標条件付け,相対的な行動出力,造影剤の自動注入が,汎用性の高いナビゲーションを可能にしている。
    • 多様な血管構造における36種類の分岐構造を学習し,効果的なナビゲーションを実現した。

    Link: https://arxiv.org/abs/2510.09497

  • 臨床に基づいたインタラクティブセグメンテーション評価手法 [cs.CV, cs.AI, cs.LG]目的:インタラクティブセグメンテーション評価の標準化
    • 医療画像セグメンテーションは,診断・治療計画において不可欠であり,その精度向上が求められている。
    • 既存の評価方法は一貫性がなく,臨床現場での現実的な状況を反映していないため,アルゴリズムの性能を正確に評価できない。
    • 臨床的に妥当な評価タスクと指標を定義し,客観的な性能比較を可能にすることを目指す。
    • ユーザーインタラクションの情報の損失を最小化することが,モデルの頑健性に重要であることが示された。
    • 適応的なズーム機構は,頑健性を高め,収束を加速させる効果が確認された。
    • 検証時のプロンプト行動や予算が学習時と異なると,性能が低下する傾向が明らかになった。

    Link: https://arxiv.org/abs/2510.09499

  • 異なる空間領域とスケールにおける河川水温予測のための地理認識モデル [cs.LG]目的:河川水温予測のための地理認識空間的・時間的モデリングフレームワーク
    • 地球の持続可能な管理には,環境生態系の理解が不可欠である。生態系の変化を正確に捉えることが重要。
    • 既存モデルは,実際の環境生態系に見られるデータ異質性のため,空間領域やスケール間で汎化性能が低いという課題がある。
    • 地理情報を用いて空間領域とスケール間で共有される原理を捉え,データが乏しい状況下でも予測精度を向上させる。
    • 提案手法Geo-STARSは,地理認識埋め込みとゲート付き空間的・時間的グラフニューラルネットワークを統合することで,複雑な空間的・時間的パターンを学習する。
    • アメリカ東海岸の複数の流域における37年間の実データを用いた評価により,Geo-STARSは既存手法を上回る汎化性能を示すことが示された。
    • 本研究成果は,スケーラブルでデータ効率の良い環境モニタリングと意思決定に貢献する可能性を示唆する。

    Link: https://arxiv.org/abs/2510.09500

  • 推論の形成による過剰思考の緩和 [cs.CL, cs.AI]目的:過剰思考の緩和
    • 大規模言語モデルの推論能力向上は,複雑な問題解決に不可欠である。
    • 推論過程における過剰な思考は,計算コスト増大の原因となる。
    • 推論の粒度を制御し,効率と精度のバランスを取ることを目指す。
    • 提案手法GRSPは,トークン消費量を削減しつつ,高い精度を維持する。
    • 特に難易度の高い問題において,GRSPの有効性が顕著に示された。
    • GRSPは,RL学習の安定化とモデルサイズの拡張性に貢献する。

    Link: https://arxiv.org/abs/2510.09535

  • SPG:マスク拡散言語モデルのためのサンドイッチ型方策勾配 [cs.CL, cs.AI]目的:マスク拡散言語モデルにおける方策勾配の最適化
    • 拡散言語モデルは並列処理能力が高く,効率的な代替手段として注目されている。
    • 拡散言語モデルの対数尤度が計算困難なため,標準的な方策勾配法が適用できない。
    • 真の対数尤度の上下界を利用し,方策勾配のバイアスを軽減することを目指す。
    • 提案手法SPGは,従来のELBOに基づく手法やワンステップ推定と比較して,大幅な性能向上を示す。
    • GSM8K,MATH500,Countdown,Sudokuといったタスクにおいて,最先端のRL手法よりもそれぞれ3.6%,2.6%,18.4%,27.0%の精度改善を達成した。
    • SPGは,拡散言語モデルのファインチューニングにおける有効性が示された。

    Link: https://arxiv.org/abs/2510.09541

  • タイタンズの再検証:テスト時メモリモデルの軽量再実装と批判的分析 [cs.LG, cs.AI]目的:テスト時学習モデル「タイタンズ」の再現性と性能評価
    • 機械学習モデルのテスト時学習は,データ効率や適応性に優れるため重要である。
    • オリジナルのタイタンズはコードが公開されておらず,詳細な説明も不足しているため,再現が困難であった。
    • 本研究は,タイタンズを再実装し,その性能を客観的に評価することで,その有効性と限界を明らかにする。
    • 軽量な再実装により,タイタンズの再現性を確保した。
    • タイタンズは,必ずしも既存のベースラインを上回る性能を示すわけではないことが判明した。
    • しかし,ニューラルメモリコンポーネントは,アテンションのみのモデルと比較して,一貫して性能を向上させる。

    Link: https://arxiv.org/abs/2510.09551

  • リソース効率の良いニューラルネットワーク学習のための自動進化最適化 [cs.LG]目的:ニューラルネットワークの学習におけるリソース効率の最適化
    • 近年,AIの応用範囲拡大に伴い,計算資源の効率的な活用が重要となっている。
    • ニューラルネットワークの学習には,計算コストが高く,モデルサイズが大きいという課題がある。
    • 本研究では,自動化された進化最適化により,モデルのサイズと学習効率を改善することを目指す。
    • PETRAは,モデルのアーキテクチャと学習戦略を進化的に最適化するAutoMLフレームワークである。
    • 金融イベントシーケンス,画像,時系列データを用いた実験により,PETRAがモデル性能とスケーラビリティを向上させることが示された。
    • モデルサイズは最大75%削減,遅延は最大33%削減,スループットは13%向上し,精度低下は見られなかった。

    Link: https://arxiv.org/abs/2510.09566

  • 安全で信頼性の低い「証明付き」AIエージェント:エージェント対応データレイクハウスへ [cs.AI, cs.DB]目的:データレイクハウスにおける安全なエージェントワークフローの実現
    • データレイクハウスは機密性の高い処理を行うため,安全性とガバナンスが重要である。
    • AIによる自動化が進む中で,信頼性,正確性,ガバナンスが課題となっている。
    • 信頼できないAIエージェントが安全にデータ操作を行うための仕組みを確立すること。
    • API優先型プログラマブルレイクハウスが,安全なエージェントワークフローを実現するための適切な抽象化を提供することを示した。
    • データブランチングと宣言的な環境がエージェントに拡張され,再現性と可視性が向上し,攻撃対象領域が縮小されることを確認した。
    • 証明付きコードに触発された正確性チェックにより,AIエージェントがデータパイプラインを安全に修復できることを実証した。

    Link: https://arxiv.org/abs/2510.09567

  • 擬似触覚フィードバックの差異分析:心理物理学的評価のための視覚・聴覚的キュー統合に関する新規比較研究 [cs.HC, cs.GR, cs.NE, cs.RO, physics.med-ph]目的:視覚および聴覚的刺激の組み合わせによる擬似触覚圧感覚の誘発機構の定量化
    • 触覚技術は,VR/AR体験のリアリティ向上や,遠隔操作の臨場感付与に不可欠である。
    • 従来の触覚ハードウェアは高価であり,小型化も困難であるため,手軽な代替手段が求められている。
    • 低コストで擬似触覚を実現し,リハビリや訓練シミュレーターへの応用可能性を探る。
    • 視覚と聴覚の刺激強度が増加すると,平均的な触覚力も系統的に増加した。
    • 高周波の音と高密度な視覚テクスチャは,より強い筋活動を引き起こし,相乗効果により表面変化の知覚に必要な力を減少させた。
    • 安価なデバイスでも,特殊なアクチュエーターなしで,段階的な擬似触覚フィードバックを信頼性高く誘導・測定できることが示された。

    Link: https://arxiv.org/abs/2510.09570

  • ダイナマインド:経験からのシミュレーション学習によるAIエージェントの性能向上 [cs.RO, cs.CL, cs.AI, cs.CV]目的:AIエージェントのシミュレーション能力の向上
    • AIは数学やコーディングで進歩したが,ウェブナビゲーションなどインタラクティブなタスクでは課題が残る。
    • 複雑な環境で,AIエージェントが行動前に将来を予測する能力が不足している。
    • 人間の認知にヒントを得て,AIエージェントに仮想的な試行錯誤を学習させる。
    • 提案手法ReSimは,実際の環境との相互作用から得られた経験に基づき,AIエージェントにシミュレーション能力を効果的に組み込む。
    • Dyna-GRPOは,結果報酬と中間状態を活用することで,長期的な計画が必要なタスクにおいて,より優れたポリシーを学習する。
    • シミュレーションが,AIエージェントがより効果的に推論,計画,行動するために中心的な役割を果たすことが示された。

    Link: https://arxiv.org/abs/2510.09577

  • GraphMERT:非構造化データからの信頼性の高い知識グラフの効率的かつスケーラブルな蒸留 [cs.AI, cs.CL]目的:非構造化テキストから高品質な知識グラフを蒸留すること
    • ニューロシンボリックAIは,抽象化と汎化を組み合わせ,AIの進歩を促進する可能性を秘めている。
    • 既存のニューロシンボリックAIフレームワークは,スケーラビリティに課題があり,解釈可能性と信頼性に欠ける場合がある。
    • 信頼性のある知識グラフを自動的に抽出することにより,ニューロシンボリックAIの課題を解決すること。
    • GraphMERTは,小型のグラフエンコーダーモデルであり,非構造化テキストから高品質な知識グラフを効率的に蒸留できる。
    • 糖尿病に関するPubMed論文のテキストにおいて,GraphMERTはLLMのベースラインモデルを上回るFActScoreとValidityScoreを達成した。
    • GraphMERTとそれに対応する知識グラフは,検証可能な推論のためのニューロシンボリックスタックを形成する。

    Link: https://arxiv.org/abs/2510.09580

  • 構造を意識した統計的ウィンドウマージによる時間的系列要約 (STaTS) [cs.CL, cs.LG, cs.CV]目的:時間的系列データの効率的な要約
    • 時系列データは,様々な分野で観測され,その分析は重要性が高い。
    • 従来のモデルは,全ての時間ステップを均等に扱うため,長系列やノイズに弱い。
    • 時系列データの潜在的な構造を考慮し,効率的な要約を実現することを目指す。
    • STaTSは,時系列データをコンパクトなトークン系列に圧縮する軽量なフレームワークである。
    • BICに基づく統計的収束判定基準を用いて変化点を検出し,各セグメントを要約する。
    • 実験により,STaTSは高い性能を維持しつつ計算コストを大幅に削減できることが示された。

    Link: https://arxiv.org/abs/2510.09593

  • 複雑な系の構成的表現学習:動力学的専門家の混合モデル [cs.LG, q-bio.MN]目的:複雑な系の動力学的表現の構成的学習
    • 生命科学における動力学系の理解は,細胞の挙動や発生過程の解明に不可欠である。
    • 従来のモデリング手法では,ノイズや不規則な遷移に対応できず,正確な予測が困難である。
    • 本研究は,ノイズの多い遷移に対応できる新しいモデリング手法を開発し,細胞の運命予測を目指す。
    • MODEは,動力学系を解釈可能な要素に分解し,行動様式の発見と長期予測を可能にする。
    • 合成データを用いた評価で,ノイズの多いデータやサンプル数の少ない状況下でも高い分類性能を示した。
    • 実際の単一細胞RNA配列データへの適用により,細胞の増殖と分化を識別し,将来の運命を予測することに成功した。

    Link: https://arxiv.org/abs/2510.09594

  • LiveOIBench:大規模言語モデルは情報オリンピックの競技者よりも優れたパフォーマンスを発揮できるか [cs.AI, cs.CL, cs.LG]目的:情報オリンピックレベルの競技プログラミング問題を用いた,大規模言語モデルのコーディング能力評価
    • プログラミング能力の評価において,複雑かつ検証容易な競技プログラミング問題が有用である。
    • 既存のコーディングベンチマークは,問題の難易度,テストケースの網羅性,アクセシビリティに課題がある。
    • 情報オリンピックの問題を用いて,大規模言語モデルの能力をより正確に評価し,改善点を明らかにする。
    • LiveOIBenchは,専門家が厳選した403問の情報オリンピックレベルのプログラミング問題で構成される包括的なベンチマークである。
    • GPT-5は81.76パーセンタイルを達成したが,トップレベルの競技者の90パーセンタイルを超えるには至らなかった。
    • 詳細な分析から,高性能なモデルは問題の精確な分析を重視し,無駄な探索を最小限に抑えることが示唆された。

    Link: https://arxiv.org/abs/2510.09595

  • 負の報酬のみを用いた生成モデリングにおける探索事後分布 [cs.LG, cs.AI]目的:生成モデリングにおける探索戦略
    • 生成モデルの性能向上には,大量の教師データと質の高い報酬関数が不可欠である。
    • 報酬信号が極めて低い場合や,報酬関数の評価コストが高いという課題が存在する。
    • 報酬をほとんど得られない状況下でも,効率的にモデルを改善することを目指す。
    • BaNELは,失敗事例のみを用いてモデルをポストトレーニングし,報酬関数の評価回数を最小限に抑える。
    • 失敗事例に内在する規則性を学習することで,新たなデータが過去の失敗事例に類似していないかを判断し,生成を回避する。
    • スパース報酬タスクにおいて,BaNELは既存の手法を大幅に上回り,成功率を向上させることが示された。

    Link: https://arxiv.org/abs/2510.09596

  • テスト時スケーリングによるプロンプティングは,大規模言語モデルの推論データ拡張に強い [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの推論能力を向上させるための,テスト時データ拡張戦略
    • 大規模言語モデルの推論能力は注目されており,様々な応用が期待されている。
    • 大規模な推論データセットの作成は,コストと労力がかかるという課題がある。
    • 少ない注釈データで効率的に推論能力を向上させる手法を確立すること。
    • 本研究で提案するP-TTSは,わずか90個の推論事例を用いて,テスト時にプロンプトの強度を調整することで多様な推論軌跡を生成する。
    • P-TTSを用いてQwen-2.5モデルをファインチューニングした結果,AIME2024およびMATH500等のベンチマークで,既存手法を大きく上回る性能を達成した。
    • P-TTSは,少ない注釈コストで大規模言語モデルの推論能力を引き出し,汎化性能も向上させる有効な手法であることが示された。

    Link: https://arxiv.org/abs/2510.09599