arXiv雑要約
AI - 2026/04/21 公開
微分可能なシミュレータはより良い方策勾配を与えるか? [cs.CL, cs.LG, cs.AI, cs.RO]目的:方策勾配強化学習における勾配推定方法の改善
- 強化学習は,複雑な制御問題において高い性能を発揮する手法であり,その効率化が求められている。
- 微分不可能な環境下では,勾配推定にバイアスが生じ,学習効率が低下するという課題がある。
- バイアスの影響を軽減し,より安定した学習を可能とする手法を開発すること。
- DDCGは,微分不可能な領域で推定器を切り替えることで,ロバストな性能を達成し,少ないサンプル数でも信頼性が高い。
- IVW-Hは,ステップごとの逆分散実装により,明示的な不連続性検出なしに分散を安定化し,強力な結果をもたらす。
- 推定器の切り替えはロバスト性を向上させる一方,現実的な応用では注意深い分散制御が重要であることが示唆された。
MM-JudgeBias:MLLMを評価器とする際の構成的バイアスの評価ベンチマーク [cs.CL, cs.AI, cs.CV]目的:MLLMを評価器とする際の構成的バイアスの評価
- 近年のMLLMは自動評価器として活用が進んでいる。評価の信頼性確保は重要である。
- MLLM評価器は,視覚的・テキスト的情報の統合が不十分な場合がある。
- 構成的バイアスの定義と評価ベンチマークの開発により,評価器の信頼性向上を目指す。
- MM-JudgeBiasは,クエリ,画像,応答に対する制御された摂動を導入し,バイアスの評価を行う。
- 実験の結果,最先端のMLLMにおいてモダリティの無視や非対称な評価傾向が明らかになった。
- 信頼性の高い評価器開発のために,バイアスに強いMLLMの実現が不可欠であることが示唆された。
再現を超えて:LLMの読解力と創造性を文学翻訳で評価するペアタスクフレームワーク [cs.CL, cs.AI]目的:LLMにおける読解力と創造性の評価
- 文学翻訳は文化交流の要であり,LLMによる自動翻訳の質向上は重要である。
- 翻訳の創造性は評価が難しく,大規模な評価が不足している。
- 読解力と創造性の関係を明らかにし,LLMの翻訳能力を向上させる。
- LLMの読解力は高いものの,人間の翻訳者レベルの創造性には達していないことが示された。
- 英語から中国語への翻訳において,特に創造性の差が大きいことが判明した。
- 創造性を重視したプロンプトは効果が限定的であり,Mistral-Largeが最も人間のレベルに近づいた。
Copy-as-Decode:文法制約による並列プリフィルを用いたLLM編集 [cs.CL, cs.AI]目的:大規模言語モデルの編集における効率的なメカニズム
- LLM編集は,テキストやコードの修正において重要な役割を果たす。
- 既存のLLM編集は,全トークンを再生成するため,計算コストが高いという課題がある。
- 入力テキストのコピーと新規生成を効率的に行うことで,編集速度の向上を目指す。
- Copy-as-Decodeは,入力テキストの範囲をコピーする命令と新規コンテンツ生成命令の2つの基本文法を用いて編集を構造化する。
- Qwen2.5-{1.5B, 7B}において,並列プリフィルによるNトークンのコピーは,自己回帰と比較して最大303倍高速化されることが示された。
- 提案手法は,ProbeEditおよびHumanEvalPack-Fixにおいて,金標準トークンの74%〜98%をカバーし,高い精度を達成する。
QuantumQA:物理整合性のあるデータセットと検証を意識した強化学習による科学的推論の強化 [cs.AI, quant-ph]目的:科学的推論能力の向上
- 科学分野では,厳密な物理的制約が求められるため,一般的な推論能力だけでは不十分である。
- 量子力学のような分野では,検証可能な学習データが不足しており,標準的なアラインメントパラダイムでは粗いフィードバックしか得られない。
- 検証可能なデータセットと,ルールに基づいたフィードバックを強化学習に取り込むことで,パラメータ効率の良いモデル構築を目指す。
- 提案手法は,既存手法や汎用目的の選好モデルと比較して一貫して優れた性能を示す。
- 最適化された8Bモデルは,プロプライエタリモデルに匹敵する性能を達成し,検証可能なフィードバックの有効性を示す。
- 大規模なデータセットQuantumQAと,検証を意識した報酬モデルVRMが,科学的推論の精度向上に貢献する。
STaD:LLMにおける構成的スキルのギャップを特定するための段階的タスク設計 [cs.CL, cs.AI]目的:LLMにおける構成的スキルのギャップの特定
- LLMの能力評価は重要であり,様々な分野での応用を促進する。
- 既存のベンチマークは集約的なスコアしか提供せず,LLMの弱点特定が困難である。
- 段階的な支援により,LLMが欠如する推論スキルの組み合わせを特定し,改善を促す。
- STaDフレームワークは,ベンチマークタスクの段階的な変形を生成し,モデルの弱点を可視化する。
- 6つの異なる規模のモデルを実験した結果,3つの推論ベンチマークにおいて複数の失敗点が見られた。
- 各モデル固有のスキルギャップが明らかになり,モデルごとの改善方向性が示唆された。
ホスト型LLMにおける監査セッション置換検出のためのコミットされたSAE特徴トレース [cs.CR, cs.AI]目的:ホスト型LLMプロバイダによる不正なモデル置換の検出
- LLMの利用拡大に伴い,提供モデルの信頼性確保が重要になっている。
- プロバイダは,より安価なモデルで応答を生成し,高性能なモデルであると偽装する可能性がある。
- SAE特徴トレースを用いて,モデルの整合性を検証し,不正な置換を検出することを試みる。
- 提案手法は,同一系列モデル,異なる系列モデル,LoRA適用モデルなど,多様な攻撃者に対して高い検出率を示した。
- 既存の並行サーブ型検証手法と比較して,より安定した検出性能を実現している。
- コミットメントによる計算オーバーヘッドはわずかであり,実用的なLLMへの適用が可能である。
スケーラブルな近傍ベース多エージェントアクター・クリティック法 [cs.LG, cs.AI]目的:多エージェント環境におけるアクター・クリティック法のスケーラビリティ向上
- 協調・競争環境において,多エージェントの協調行動学習は重要である。
- 中央集権型クリティック法は計算コストが高く,エージェント数増加に課題がある。
- エージェント数増加に対する計算コストを軽減し,スケーラビリティを改善する。
- 提案手法MADDPG-Kは,各エージェントのクリティック入力サイズを一定に保つ。
- 実験の結果,MADDPGと同等以上の性能と,より高速な収束が確認された。
- エージェント数増加に伴う計算時間の増加を抑制する効果が示された。
引力,斥力,摩擦:摩擦を増強したドリフトモデルDMFの導入 [cs.HC, cs.CY, cs.LG, cs.CV]目的:ドリフトモデルにおける収縮閾値の導出と,摩擦係数の線形スケジュールによる誤差軌跡の有限水平線上の制約
- 生成モデルの性能向上は,画像生成やデータ変換といった応用において重要な課題である。
- ドリフトモデルの理論的解析が不十分であり,ドリフト消失が分布の一致を保証する条件が不明確である。
- ドリフトモデルの理論的限界を明らかにし,摩擦項を加えることでモデルの性能と安定性を向上させる。
- 本研究では,代用モデルに対する収縮閾値を導出し,線形スケジュール摩擦係数の有効性を示した。
- ガウスカーネル下では,ドリフト場の平衡が識別可能であり,ドリフト消失は分布の一致を意味することが証明された。
- 提案するDMFモデルは,学習計算コストを16分の1に削減しながら,最適なフローマッチングと同等またはそれ以上の性能を達成した。
ブラックボックス最適化のための類似性に基づくポートフォリオ構成 [cs.NE]目的:ブラックボックス最適化におけるアルゴリズム選択のポートフォリオ構成
- 最適化問題は科学技術の様々な分野で重要であり,効率的な解法が求められている。
- 個々のアルゴリズムには得意不得意があり,未知の問題への適用はリスクを伴う。
- 複数のアルゴリズムを組み合わせることで,ロバスト性と性能向上を目指す。
- 訓練データ全体で構築した単純なポートフォリオが,既存のベースライン手法を上回る性能を示した。
- k近傍法に基づく微調整により,未知の問題に対するポートフォリオ構成をさらに改善した。
- 固定予算のブラックボックス最適化において,ポートフォリオ選択の有効性が確認された。
拡散SAM:リモートセンシング画像のための拡散誘導ゼロショット物体グラウンディング [cs.HC, cs.RO, cs.CL, cs.IR, cs.CV, cs.LG]目的:リモートセンシング画像における物体グラウンディングの精度向上
- リモートセンシング画像解析は,土地利用,環境モニタリング等に不可欠である。
- 複雑なシーンにおける正確な物体検出・位置特定が課題である。
- 拡散モデルとセグメンテーションモデルの融合による高精度化を目指す。
- 本研究では,拡散モデルを基盤とした新たなパイプラインを提案した。
- 提案手法は,既存手法と比較してAcc@0.5で14%以上の性能向上を達成した。
- 拡散モデルとセグメンテーションモデルの組み合わせが,ロバストな物体位置特定に貢献する。
訓練不要なメモリ利用のための制御アーキテクチャ [cs.AI]目的:プロンプト注入されたメモリによる推論能力の向上と,その制御問題の解決
- 大規模言語モデルの推論能力向上のために,モデルの重みを更新せずに知識を活用する手法が求められている。
- プロンプト注入されたメモリは有用だが,適切なタイミングで適用されなければ,かえって性能を低下させる可能性がある。
- 訓練なしで,メモリをいつ活用し,どの程度信頼し,メモリバンクをどのように維持するかを制御する手法を確立すること。
- 提案手法は,不確実性に基づいたルーティング,信頼度に基づいた選択的受容,ルールと事例メモリからのバンク選択,そして証拠に基づいたメモリバンクの管理を組み合わせている。
- ロックされた訓練不要なプロトコル下で,SVAMPとASDivの計算ベンチマークにおいて,ベースラインよりもそれぞれ+7.0ポイント,+7.67ポイントの改善が確認された。
- 同様のアーキテクチャは,QAやエージェントベンチマークにも転移し,主に計算タスクにおいて,制御アーキテクチャが性能向上を牽引していることが示された。
TacticGen:適応可能かつ拡張性のあるサッカー戦術生成 [cs.AI, cs.LG, cs.MA]目的:サッカー戦術の適応的かつ拡張性のある生成
- サッカーの成功には個人の技術と連携が不可欠であり,データ駆動型の戦術分析が重要である。
- 予測分析は進歩しているが,戦略目標達成のための戦術設計は依然として課題である。
- ゲーム状況に応じた戦術生成を可能にし,戦術計画の質を向上させることを目指す。
- TacticGenは,マルチエージェントの動作と相互作用をシーケンスとしてモデル化する生成モデルである。
- 拡散トランスフォーマーと注意機構により,選手間の協調性や競争性を捉え,高精度な軌跡予測を実現した。
- ルール,自然言語,またはニューラルモデルによるガイダンスを通じて,多様な目的への適応的な戦術生成が可能である。
盲源分離を用いた脳波に基づく緊急ブレーキ強度の予測 [cs.HC, cs.LG]目的:緊急ブレーキ強度の予測モデル
- 運転支援システムの安全性向上に貢献し,事故軽減に繋がる重要な研究分野である。
- 脳波信号はノイズの影響を受けやすく,信頼性の高い緊急ブレーキ予測が困難である。
- 脳波信号からノイズを除去し,緊急ブレーキと相関性の高い信号を特定することで,予測精度向上を目指す。
- 脳波信号を盲源分離により分解し,緊急ブレーキに関連する成分を選択することで,従来法よりも高い予測精度を実現した。
- 選択された成分は,安定した時間的パターンと空間的パターンを示し,緊急ブレーキ時の共通の神経活動の特徴を捉えている。
- 公開データセットとシミュレーション実験において,RMSEをそれぞれ8.0%と23.8%削減することに成功した。
WebCompass: コード言語モデル向けマルチモーダルWebコーディング評価へ [cs.SE, cs.AI]目的:Webコーディング能力の包括的評価基準
- Web開発は現代社会において不可欠であり,自動化技術の進展が求められている。
- 既存の評価基準はWeb開発の一側面しか評価せず,視覚的品質やインタラクティブ性が見過ごされている。
- Web開発の全サイクルを評価し,より現実的な能力測定を目指す。
- WebCompassは,テキスト,画像,動画の3つの入力形式と,生成,編集,修正の3つのタスクタイプに対応したマルチモーダルな評価基準である。
- 評価には,LLMをJudgeとするチェックリスト方式と,AgentをJudgeとする自動テストパラダイムを採用している。
- 実験の結果,クローズドソースモデルの方が優れており,編集と修正は異なる難易度プロファイルを示すことが明らかになった。
SAM3は病理セグメンテーションの準備ができているか [cs.CV, cs.AI]目的:病理画像セグメンテーションにおけるSAM3の能力評価
- 病理診断の精度向上には,組織や細胞核の正確なセグメンテーションが不可欠である。
- 従来のセグメンテーション手法は,高コストなアノテーションと汎化性能の低さが課題である。
- SAM3のプロンプトによる概念セグメンテーションの有効性を病理画像において検証し,適用範囲を明確にする。
- テキストのみのプロンプトでは,核の概念が十分に活性化されないことが示された。
- セグメンテーション性能は,視覚プロンプトの種類や予算に大きく依存することが明らかになった。
- 少量学習は性能向上に貢献するものの,SAM3は視覚プロンプトのノイズに弱いという課題が残った。
FSEVAL:特徴選択評価ツールボックスとダッシュボード [cs.CL, cs.LG]目的:特徴選択アルゴリズムの包括的な評価
- 機械学習やデータマイニングにおいて,重要な前処理であり,高次元データの取り扱いに不可欠である。
- アルゴリズムの性能評価が標準化されておらず,研究者による比較が困難であるという課題がある。
- 特徴選択アルゴリズムの評価を容易にし,研究の効率化に貢献することを目指す。
- FSEVALは,特徴選択アルゴリズムを評価するためのツールボックスと視覚化ダッシュボードを提供する。
- 標準化された評価指標と視覚化機能により,アルゴリズムの性能を網羅的に比較することが可能となる。
- 研究者はFSEVALを利用することで,容易に特徴選択アルゴリズムの評価を実施し,より高度な研究に注力できる。
エーテル:エージェント型AIとデジタルツインを用いたネットワーク検証 [cs.MA, cs.AI]目的:ネットワーク変更検証の自動化と効率化
- ネットワーク運用において,変更に伴うリスクを最小限に抑えることは不可欠である。
- 従来の検証手法は手動作業が多く,時間と労力を要し,ヒューマンエラーが発生しやすい。
- 本研究は,AIとデジタルツインを活用し,迅速かつ正確なネットワーク変更検証を実現する。
- エーテルは,生成AIエージェントと多機能なネットワークデジタルツインを統合した新しいアプローチである。
- 5つのネットワーク運用AIエージェントが協調し,意図分析から検証・テストまでを自動化する。
- 検証結果は,エラー検出率100%,診断範囲92-96%,処理時間6-7分と良好な結果を示した。
RAGシステムにおける多段推論の評価:LLMベースの検索器評価戦略の比較 [cs.IR, cs.AI]目的:RAGシステムの検索器評価戦略の比較
- 大規模言語モデルの知識獲得と応答精度向上の鍵となる技術分野であり,その性能評価が重要である。
- 既存の研究は単一の文脈検索に偏っており,複数の文脈を組み合わせる多段推論の評価が十分ではない。
- 多段推論を伴うRAGシステムの検索器評価方法を改善し,システムの信頼性と精度向上を目指す。
- 提案手法CAREは,既存手法と比較して多段推論の評価において一貫して高い性能を示すことが確認された。
- 性能向上は,特に大規模モデルや長いコンテキストウィンドウを持つモデルで顕著であった。
- 文脈を考慮した評価は,複雑なクエリシナリオにおけるRAGシステムの信頼性と精度向上に不可欠である。
負の利点という両刃の剣:深層探索のためのGRPOにおける利点の調整 [cs.CL, cs.AI]目的:深層探索における利点の調整手法
- 深層探索は質問応答において高い能力を示すため,その性能向上は重要である。
- 中間ステップの正誤と最終的な報酬との乖離が課題であり,学習の不安定性を招く。
- 粗粒度の利点割り当てと正負の利点の不均衡を是正し,学習の安定化を目指す。
- 提案手法CalibAdvは,中間ステップの正誤に基づき,過剰な負の利点を詳細レベルで抑制する。
- さらに,回答部分における正負の利点のバランスを再調整することで,性能向上と学習安定化を実現する。
- 3つのモデルと7つのベンチマークにおける実験により,CalibAdvの有効性が確認された。
意味に基づいた分散学習による多様かつ識別的な表現の獲得 [cs.RO, cs.LG, cs.AI]目的:多様かつ識別的な表現の獲得
- 大規模分散環境下では,複雑なタスクに対応するため,ネットワーク間の知的な連携が重要となる。
- 従来のタスク固有のアプローチでは構造的な表現が得られず,同一クラス内のデータの多様性が失われやすい。
- データの内在的な構造を最大限に活用し,多様性と識別性を両立した表現学習を目指す。
- 本研究では,表現の分散を制約することで,分散学習フレームワークにおけるグローバル最適化関数を再構成・分離した。
- 非独立同一分布データに対しては,クラスタリングとノードの仮想複製により,ブロック座標降下法を用いたモデル更新を実現した。
- MNIST,CIFAR-10,CIFAR-100を用いた実験により,提案手法がグローバルな構造表現を捉える有効性が確認された。
嗜好最適化ダイナミクスにおける絡み合い解消:尤度置換を超えて [cs.LG, cs.AI]目的:大規模言語モデルと人間の嗜好の整合
- LLMの性能向上には,人間の嗜好との整合が不可欠である。
- 既存の嗜好最適化手法は,尤度置換という問題を引き起こし,性能低下の原因となる。
- 尤度置換を回避し,より効果的な嗜好最適化を実現すること。
- 嗜好最適化の統一的なインセンティブスコア分解を提示し,多様な目的関数が共通の更新方向を持つことを明らかにした。
- 選好/棄却尤度のダイナミクス分析から,「絡み合い解消バンド (DB)」を特定し,尤度置換回避の条件を示した。
- DBを満たす「報酬較正 (RC)」を提案し,尤度置換の緩和とダウンストリーム性能の向上が確認された。
AJ-Bench:環境を意識した評価のためのエージェントをジャッジとしてベンチマークする [cs.AI]目的:エージェントをジャッジとする評価手法のベンチマーク
- 大規模言語モデルに基づくエージェントの訓練が進む中で,複雑な環境下での挙動検証が重要になっている
- 従来の検証手法は,狭いドメインにしか一般化できず,複雑な環境での信頼性確保が課題である
- エージェントをジャッジとして環境と能動的に相互作用することで検証能力を向上させることを目指す
- AJ-Benchは,検索,データシステム,GUIの3つのドメインで155のタスクと516の軌跡を提供し,エージェントの検証能力を総合的に評価する
- 実験により,情報取得,状態検証,プロセス検証において,LLMをジャッジとするベースラインよりも一貫して性能が向上することが示された
- エージェントベースの検証には,まだ解決すべき課題が残されていることも明らかになった
修正と劣化:LLMプロトコルのエラーフローに関する二段階的視点 [cs.LG]目的:LLMプロトコルにおけるエラーフローの分析
- LLMの利用拡大に伴い,プロトコルとしてのLLMの信頼性評価が重要になっている。
- プロトコルの有効性はエンドツーエンドの精度のみで評価され,中間段階での挙動が不明確である。
- プロトコル各ステップにおける修正と劣化を定量化し,その振る舞いを詳細に分析すること。
- 提案された評価指標(c, γ)は,プロトコルステップの精度変化を予測し,再現性のあるテストを可能にする。
- 混合分布の変化により(c, γ)の推定値が偏る問題に対し,難易度プロキシによる条件付けで安定化が図られる。
- 評価インターフェースを用いて,プロトコルステップの適切な活性化・抑制を判断し,予測精度を向上させた。
リアルタイム天気分類のためのスタイルに基づくニューラルアーキテクチャ [cs.CV, cs.AI, cs.LG, stat.AP]目的:リアルタイム天気条件の分類のためのニューラルネットワークアーキテクチャ
- 気象情報は生活や防災において不可欠であり,正確かつ迅速な分類が求められる。
- 既存の手法では,微妙なスタイルの差異を捉えきれず,分類精度が十分でない場合がある。
- スタイルの要素を捉えることで,より高精度なリアルタイム天気分類を実現する。
- 提案手法の一つである「Multi-PatchGAN」は,複数のパッチサイズを用いて検出タスクに特化した構造を持つ。
- 「Truncated ResNet50」は,進化アルゴリズムにより不要な層を削除し,高周波特徴の抽出を促進する。
- 「Truncated ResNet50 with Gram Matrix and Attention」は,文脈に応じたスタイルの抽出により,既存手法を上回る性能を示す。
LeGo-Code:モジュール式カリキュラム学習は複雑なコード生成を促進するか?Text-to-SQLからの考察 [cs.AI, cs.DB, cs.SE]目的:複雑なText-to-SQLタスクにおけるコードベースLLMの性能向上
- 自然言語と実行可能コードの翻訳において,LLMの能力が向上しており,Text-to-SQLはその重要な応用分野である。
- 既存モデルは,複雑なロジックや構造の悪い現実世界のデータベーススキーマに対し,十分な性能を発揮できていない。
- カリキュラム学習を用いて,複雑なクエリに対するLLMの性能を改善し,モジュール式の学習環境を構築する。
- 単純なカリキュラム学習は破滅的忘却により効果がないことが示された。
- モジュール式アダプター構成(MAC)戦略により,段階的な難易度レベルでの学習が可能となり,性能が向上した。
- 本研究は,複雑なコード生成の習得に,モノリシックなファインチューニングよりも構造化されたモジュール学習が有効であることを示唆する。
ドメイン特化型物体検出のためのモデルレベルの専門家混合 [cs.CV, cs.LG]目的:ドメイン特化型物体検出における性能と解釈性の向上
- 物体検出は,自動運転やロボティクスなど,様々な応用分野で重要な役割を担う。
- 従来のアンサンブル手法では,専門家の貢献度を適切に調整することが難しい場合がある。
- 領域分割されたデータで学習した専門家を組み合わせることで,物体検出の精度向上を目指す。
- 提案するMoEアーキテクチャは,BDD100Kデータセットにおいて,標準的なアンサンブル手法を上回る性能を示した。
- 学習されたゲーティングネットワークは,ドメイン間の専門家特化性に関する洞察を提供する。
- 損失のバランス調整により,専門家の崩壊を防ぎ,安定した学習を実現した。
DocQAC:効果的な文書内クエリ自動補完のための適応的トライ木誘導デコーディング [cs.IR, cs.AI, cs.CL]目的:文書内クエリ自動補完の性能向上
- 検索効率の向上は,情報アクセスにおいて不可欠であり,特に長文中の検索において重要である。
- 文書内検索におけるクエリ自動補完は,ウェブ検索に比べ研究が十分に進んでいない。
- 文書固有の文脈を活かした,効率的かつ高精度なクエリ自動補完手法を開発すること。
- 提案手法は,T5やBARTなどのエンコーダー・デコーダーモデルにおいて,強力なベースラインモデルを上回り,LLaMA-3やPhi-3のような大規模モデルに匹敵する性能を示した。
- 適応的トライ木誘導デコーディングフレームワークは,モデルの確信度とトライ木による誘導のバランスを調整することで,高品質な補完を実現する。
- 文書のタイトル,キーワード,要約などの軽量な文脈情報を活用することで,効率的な文書内クエリ自動補完を可能にした。
構成的なプロンプト分解による長文からの画像生成 [cs.CV, cs.AI]目的:長文プロンプトからの画像生成手法
- 画像生成技術は,テキストによる指示から画像を生成するため,表現の幅を広げ,創造性を支援する。
- 既存の画像生成モデルは,短いキャプションで学習されているため,長文の指示に対する詳細な表現が苦手である。
- 長文プロンプトを分割し,各部分を個別に処理することで,詳細な画像生成を可能にする。
- 提案手法PRISMは,既存の画像生成モデルを微調整せずに,長文プロンプトを処理できる。
- PRISMは,様々なモデルアーキテクチャで良好な性能を示し,微調整モデルと同等の結果を得ている。
- 特に,500トークンを超える長文プロンプトにおいて,既存手法を7.4%上回る優れた汎化性能を示す。
適応的層別サンプリングによるゼロ次最適化の汎用的な性能向上 [cs.LG]目的:大規模言語モデルのゼロ次最適化における効率改善
- 大規模言語モデルの効率的な学習は,計算資源の制約から重要である。
- ゼロ次最適化はメモリ効率が良いが,収束が遅く,推定分散が大きい。
- 層ごとの感度を考慮し,効率的な探索とノイズ低減を実現する。
- 提案手法AdaLeZOは,LLaMAとOPTモデルにおいて,最先端手法と比較して1.7倍から3.0倍の壁時計時間での高速化を達成した。
- AdaLeZOは既存のゼロ次最適化手法に容易に組み込むことができ,追加のメモリオーバーヘッドを発生させない。
- 層選択をMulti-Armed Bandit問題として定式化し,最も感度の高いパラメータに摂動予算を動的に割り当てる。
疑似ラベル誘導生成による表形式異常検知の強化 [cs.AI]目的:表形式データの異常検知性能の向上
- データ品質確保やシステム安定性維持には,表形式データにおける異常の特定が不可欠である。
- 真の異常ラベルが不足しており,既存手法は教師なし学習か,少数のラベルを利用するに留まる。
- 特徴レベルの局所的な異常パターンを捉え,より高精度な異常検知を実現すること。
- 提案手法PLAGは,疑似異常を誘導信号として活用し,表形式データの異常検知を強化する。
- PLAGは,サンプル全体の異常度を特徴レベルの異常度の累積として捉え,真のラベルに依存しない。
- 厳格なデータ選択戦略により生成される合成異常は,既存の異常検知器の性能を平均0.08~0.21のF1スコアで向上させる。
電気機械システムのモデル化と特定のための消散的潜在残差物理情報ニューラルネットワーク [cs.LG]目的:電気機械システムの複雑な消散効果のモデル化
- 組み込みシステムのシミュレーションや制御には正確な動的モデルが不可欠である。
- 電気機械システムの物理モデルは,摩擦や減衰などの消散効果を捉えきれない場合がある。
- 物理モデルの不完全性をデータ駆動的に補う,物理的に整合性のある残差学習手法を提案する。
- 提案手法DiLaR-PINNは,観測不可能な状態成分のみに基づいて残差ネットワークを構築し,エネルギー減少を保証する。
- 実世界のヘリコプターシステムにおける検証により,DiLaR-PINNが消散効果をより正確に捉え,長期間外挿性能が優れていることが示された。
- 従来のモデルやLSTMと比較して,DiLaR-PINNは安定性とデータ効率に優れている。
エージェント・ワールド:汎用エージェント知能の進化のための現実世界環境合成のスケーリング [cs.AI, cs.CL]目的:汎用エージェント知能を促進するためのスケーラブルな環境
- 大規模言語モデルは汎用的なエージェントとして期待されている。現実世界のツール環境との連携が不可欠である。
- 現実的な環境の不足と,継続学習のための原理的なメカニズムの欠如が,頑健なエージェントの訓練を妨げている。
- 多様な環境を自動的に合成し,エージェントの能力ギャップを特定することで,エージェントと環境の共同進化を促進する。
- Agent-Worldは,23のベンチマークにおいて,強力なプロプライエタリモデルや環境のスケーリングベースラインを常に上回る性能を示した。
- 環境の多様性と自己進化ラウンドのスケーリング傾向が明らかになり,汎用エージェント知能構築の洞察を提供する。
- Agent-Worldは,環境探索,タスク合成,継続的な自己進化訓練という2つの主要コンポーネントから構成される。
ゼロ・エグレス精神医学AI:プライバシー保護のためのエッジLLM展開とメンタルヘルス意思決定支援 [cs.AI]目的:プライバシー保護精神医学的意思決定支援のための,デバイス上でのLLM展開
- メンタルヘルスケアにおけるAI導入は重要だが,患者データのプライバシー保護が大きな課題となっている。
- 既存のAIシステムはクラウドベースであり,患者データが外部に送信されることで,プライバシーとセキュリティのリスクが生じている。
- 本研究は,患者データをデバイス外に出さずに精神医学的意思決定を支援するプラットフォームを開発し,その課題を解決する。
- 提案するゼロ・エグレスシステムは,診断精度を維持しつつ,リアルタイムの推論を可能にする。
- Gemma,Phi-3.5-mini,Qwen2といった軽量LLMを統合し,DSM-5に準拠した評価を提供する。
- 臨床医の鑑別診断や患者の自己診断を支援し,メンタルヘルスケアの現場での活用が期待される。
CAARL:解釈可能な共進化時系列予測のための文脈学習 [cs.LG]目的:共進化時系列予測における解釈可能性の向上
- 時系列データは,金融,気象,医療など多岐にわたる分野で重要な役割を担う。
- 従来の時系列予測モデルは,複雑な依存関係や非定常な変動を捉えるのが困難である。
- 文脈情報を活用し,予測根拠を明示することで,予測精度と解釈可能性の両立を目指す。
- CAARLは,時系列を自己回帰セグメントに分解し,時間的依存グラフを構築することで,文脈的なダイナミクスを捉える。
- このグラフをナラティブに変換しLLMに入力することで,予測に至る推論過程を可視化し,解釈性を高める。
- 実データ実験の結果,CAARLは高い予測精度を示し,最先端の手法と競争可能な性能を発揮した。
自然言語AI説明における物語性の重要性と評価 [cs.CL, cs.AI]目的:自然言語AI説明における物語性の評価指標
- AIの意思決定の透明性向上は,信頼性確保や倫理的配慮のために不可欠である。
- 既存の説明手法は解釈が難しく,予測の根拠を明確に示せていない場合が多い。
- 物語性に着目し,人間が理解しやすい説明を生成するための評価方法を確立する。
- 標準的な自然言語処理指標は,説明の物語性を捉えきれないことが示された。
- 提示された7つの自動評価指標は,物語性の高い説明とそうでない説明をより正確に識別できる。
- 問題に依存しないXAIナラティブ生成ルールを提案し,物語性の向上を目指した。
決定論的ダイナミクスと割引報酬のためのスケーリングフリー適応的計画 [cs.LG]目的:決定論的ダイナミクスと割引報酬環境における計画問題
- 強化学習は,自律的な意思決定を可能にする重要な手法である。
- 報酬関数のスケールや滑らかさが未知である場合,効率的な計画が困難となる。
- 未知の報酬関数のスケールと滑らかさに適応する計画アルゴリズムを開発すること。
- Platypoosというスケーリングフリー計画アルゴリズムを提案し,未知の報酬スケールと滑らかさに適応することを示した。
- Platypoosのサンプル複雑度解析を行い,既存研究よりも改善された結果を得た。
- 解析が最適であることを示す整合する下限を確立した。
EVE:実行可能な視覚変換によるMLLMの検証可能な自己進化 [cs.NI, math.CO, cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルの自己進化
- MLLMは多様なタスクに対応可能だが,性能向上には継続的な学習が不可欠である。
- 既存手法では,擬似ラベルの品質低下や変換の多様性不足が課題となっていた。
- 実行可能な視覚変換を用いて,モデルの自己進化を検証可能かつ継続的に行う。
- EVEは,モデルの内部確信度に関わらず,外部からの決定的なフィードバックを活用する。
- 視覚変換コード例の多様性と複雑さを継続的に高めることで,学習分布の多様化を実現する。
- 既存の自己進化手法と比較して,EVEは安定性と拡張性に優れた結果を示した。
PARM:パイプライン適応型報酬モデル [cs.AI, cs.CL]目的:大規模言語モデルと人間の選好を一致させるための報酬モデルの適応
- LLMの性能向上の鍵となる報酬モデルは,人間による評価との整合性が重要である。
- 複数段階のLLMパイプラインにおける報酬誘導は未だ十分に研究されていない。
- パイプライン実行結果と報酬モデル予測の不一致を解消し,品質と安定性を高める。
- PARMは,パイプライン固有のデータと直接的な選好最適化により,報酬をダウンストリームフィードバックと整合させる。
- 最適化ベンチマーク4つで評価した結果,実行率と解の精度においてベースラインを上回る性能を示した。
- GSM8Kによるクロスドメイン実験では,その転移学習能力が確認された。
知識グラフのトリプル集合予測のための離散拡散モデル [cs.RO, cs.SY, eess.SY, cs.AI]目的:知識グラフのトリプル集合予測
- 知識グラフは,現代の情報システムにおいて重要な役割を担う知識の表現形式である。
- 既存のトリプル集合予測手法は,トリプル間の依存関係を十分に捉えられていない。
- トリプル間の依存関係を考慮した一括予測による整合性の確保を目指す。
- 提案手法DiffTSPは,知識グラフにノイズを加える離散拡散過程と,不完全なグラフから完全な知識グラフを復元する逆過程を用いる。
- 構造を考慮したノイズ除去ネットワークにより,関係性コンテキストエンコーダーと関係グラフ拡散Transformerを統合し,知識グラフ生成を行う。
- DiffTSPは,3つの公開データセットで最先端の性能を達成した。
視覚言語モデルのための多言語学習・評価リソース [cs.CL, cs.AI]目的:視覚言語モデルの学習と評価のための多言語リソース群
- 視覚言語モデルは急速に進歩しているが,その発展は英語に偏っている。
- 多言語・マルチモーダルな学習データセットや,言語横断的な包括的な評価ベンチマークが不足している。
- 5つのヨーロッパ言語に対応した学習・評価リソースを構築し,多言語化の課題を解決する。
- 本研究では,既存のデータセットを再生成・翻訳する手法を用いて,高品質な多言語リソース「Multi-PixMo」を構築した。
- 構築したリソースを用いて評価を行った結果,非英語ベンチマークにおいて性能向上が確認された。
- 多言語のマルチモーダルデータを用いた学習は,英語の性能向上にも貢献することが示された。
AdaCluster:ビデオ生成における疎な注意のための適応的クエリキークラスタリング [cs.CV, cs.AI]目的:ビデオ生成における拡散Transformerの推論速度向上
- ビデオ生成の発展に伴い,計算コストが課題となっている。
- 既存の疎な注意機構では,精度低下が生じやすい。
- Transformerの効率的な推論を可能にする新しいクラスタリング手法の提案。
- AdaClusterは,学習を必要としない適応的クラスタリングフレームワークである。
- クエリとキーに対して異なるクラスタリング手法を適用し,高い圧縮率と精度維持を実現した。
- CogVideoX-2B等のデータセットで,最大で4.31倍の高速化を確認した。
レコメンダーシステムにおける埋め込みテーブル圧縮のためのユーザーとアイテムのバランスのとれた共同クラスタリング [cs.CL, cs.IR, cs.LG]目的:埋め込みテーブル圧縮
- レコメンダーシステムは近年発展し,ユーザー/アイテムを密な埋め込みベクトルに変換する。
- 大規模な埋め込みテーブルは,パラメータ数が膨大で,計算・メモリ負荷が大きい。
- BACOは,ユーザーとアイテムの相互作用から協調的なシグナルを活用し,埋め込みテーブルを効率的に圧縮する。
- BACOは,埋め込みパラメータを75%以上削減し,リコールの低下を最大1.85%に抑える。
- BACOは,既存のベースライン手法と比較して,最大346倍高速である。
- BACOは,クラスタ内の接続性を最大化し,クラスタボリュームのバランスを維持するバランスのとれた共同クラスタリング目標を定式化する。
MSTおよびAIMにおける差分プライバシーの厳密な監査 [cs.CR, cs.AI, cs.LG]目的:差分プライバシーの厳密な監査
- データ分析におけるプライバシー保護は重要であり,個人情報漏洩のリスクを低減する必要がある。
- 既存の差分プライバシー生成手法のプライバシー保護性能を正確に評価することが困難である。
- MSTおよびAIMといった最新の差分プライバシー生成手法のプライバシー保護性能を厳密に評価する。
- 提案手法により,MSTおよびAIMのプライバシー保護性能を,誤検出率と見逃し率のトレードオフを用いて厳密に監査することが可能になった。
- 最悪の場合を想定した評価において,$(\epsilon,\delta)=(1,10^{-2})$で$\mu_{emp}\approx0.43$に対し,理論値$\mu=0.45$との僅かな乖離が確認された。
- この結果は,理論と実践の乖離が小さいことを示唆している。
クアンドラリーデンにおける中立的進化と絡み合った複雑性の出現 [cs.NE]目的:複雑性の増大における中立的進化シナリオの探求
- 分子生物学において,タンパク質複合体の協調性は生命活動の根幹をなす。
- 複雑性の進化は適応進化のみで説明されてきたが,中立的な要因も重要である。
- 複雑性が情報量の増加なしにどのように生まれるかを解明する。
- 人工生命モデル「クアンドラリーデン」を用いたシミュレーションから,2つの複雑性増加シナリオが明らかになった。
- サブファンクショナライゼーションにより,機能が複合体全体に拡散する。
- マスキングにより,複合体内の干渉が遺伝的に蓄積し,発現レベルでの抑制が必要となる。
LLMベースのManimアニメーション生成のための訓練とエージェント推論戦略 [cs.CL, cs.IR, cs.AI, cs.GR, cs.MA]目的:LLMベースのManimアニメーション生成における訓練と推論戦略の相互作用
- 科学技術分野における可視化は重要であり,複雑な概念の理解を促進する。
- LLMはドメイン固有APIの知識が不足しており,Manimのようなツールでのアニメーション生成が困難。
- 訓練と推論戦略を組み合わせ,高品質なManimアニメーション生成を可能にすること。
- SFTはコードの品質向上に寄与し,GRPOは視覚的な出力の改善と自己修正能力の向上に貢献する。
- Qwen 3 Coder 30BモデルとGRPO,RITL-DOCの組み合わせが最高の性能を示し,GPT-4.1を上回る結果となった。
- 訓練戦略によってコードと視覚指標の相関が強まり,推論戦略によってその相関が弱まることが示された。
両手首装着IMU信号を用いた自己教師あり二重チャネルクロスアテンションによるパーキンソン病検出 [cs.NI, cs.LG]目的:パーキンソン病の検出
- パーキンソン病は進行性の神経変性疾患であり,早期発見と適切な治療が重要である。
- 従来の臨床診断は,専門家の主観に依存し,時間も要する。
- ウェアラブルIMUセンサーを用いた受動的なモニタリングによる,客観的かつ効率的な診断法の確立。
- 両手首装着IMU信号を用いた自己教師ありクロスアテンションエンコーダにより,健常者とパーキンソン病患者の識別精度は平均93.12%を達成した。
- パーキンソン病患者と鑑別診断が必要な患者の識別精度は87.04%であった。これは,パーキンソン病と他の神経変性疾患との区別が臨床的に難しいことを示唆する。
- ラベル付きデータ20%のみを用いた自己教師あり表現学習では,識別精度がそれぞれ93.56%と92.50%に向上し,転移学習の有効性が示された。
対話型エージェントのためのIceBreaker:パーソナライズされた導入文で最初のメッセージの障壁を打破する [cs.NI, cs.CL, cs.AI]目的:会話開始のためのパーソナライズされた導入文生成
- 対話型エージェントは広く普及し,日常的なアシスタントとして不可欠な存在となっている。
- 会話開始時に,ユーザーは漠然としたニーズはあるものの,明確な意図がないため,会話が始まる前に滞ってしまう。
- 本研究は,パーソナライズされた導入文を生成し,ユーザーとの会話を円滑に開始することを目指す。
- IceBreakerは,人間のアイスブレイクを,セッション概要からトリガーとなる興味を引き出す「共鳴意識のある興味抽出」と,パーソナライズされた嗜好との整合性を最適化する「インタラクション指向の導入文生成」の二段階のハンドシェイクとして捉える。
- オンラインA/Bテストの結果,IceBreakerはユーザーのアクティブ日数を0.184%,クリック率を9.425%向上させ,実運用に導入された。
- 既存の研究は対話中の活性化に焦点を当てていたが,本研究は会話開始という重要な課題に取り組む。
測位衛星軌道情報に基づく動的グラフを用いた電離層不規則性の予測 [cs.LG, eess.SP, physics.geo-ph, physics.space-ph]目的:測位衛星の視線方向における電離層不規則性の予測
- 電離層は電波通信に影響を与えるため,その変動予測は重要である。
- 既存の予測モデルは格子状データに依存し,測位衛星の観測構造の変化に対応できていない。
- 測位衛星の軌道情報を用いてグラフ構造を予測し,電離層不規則性の予測精度向上を目指す。
- 本研究で開発したIonoDGNNは,従来の予測手法と比較してBrier Skill Scoreが35%,Precision-Recall AUCが52%向上した。
- 特に,予測期間が長くなるほど改善効果が大きかった。
- また,グラフ構造と軌道情報に基づく条件付けは予測精度に重要な貢献を果たし,欠測した測位衛星の予測においても近傍ノードからの情報伝達により予測能力を維持した。
AI研究者の武器システム開発における役割 [cs.AI, cs.CY]目的:AI技術による武器システムがもたらす被害におけるAI研究者の関与
- 現代の紛争においてAI兵器利用が増加しており,その影響は甚大である。
- AI兵器開発競争が激化し,更なる死傷者や不平等を招く恐れがある。
- AI研究者の責任を明確にし,被害者との連帯を深める道を探る。
- AI技術がもたらす被害において,AI研究者は当事者として関与している。
- この関与の実態を分析し,被害者との連帯のあり方を模索する。
- AI研究者は,技術的強化された不正義の被害者と連携する姿勢が求められる。
