arXiv雑要約
AI - 2026/03/26 公開
深層ニューラルネットワークを離散力学系として:物理情報学習への示唆 [cs.LG, cs.AI]目的:深層ニューラルネットワークと離散力学系の類似性に関する分析
- 物理現象のモデリングにおいて,ニューラルネットワークの活用が注目されている。
- 物理法則を組み込んだ学習方法(PINN)は計算コストが高く,解釈性に乏しい場合がある。
- PINNが従来の数値解法と異なる計算経路で近似解を得る点を明らかにする。
- 深層ニューラルネットワークは,層ごとの進化がアトラクタに近づく離散力学系と解釈できる。
- PINN学習は,同じダイナミクスを近似する別のアプローチであり,パラメータ設定の多様性が許容される。
- 高次元問題において,従来のグリッドベース手法が困難な場合に,PINNの柔軟性が有効であると考えられる。
ブラインド画像品質評価における純粋なテキスト推論の理解 [cs.CV, cs.AI]目的:ブラインド画像品質評価におけるテキスト情報の貢献度と,テキストによる画像内容の表現能力の解明
- 画像品質評価は,画像処理やコンピュータビジョンの重要な要素であり,様々な応用分野で求められている。
- 従来の画像品質評価手法では,主観評価との乖離や,評価の自動化が課題となっていた。
- テキスト推論を活用することで,画像品質評価の精度向上と,より人間らしい評価を目指す。
- 既存のBIQAモデルは,テキスト情報のみを用いた予測において性能が大幅に低下することが示された。
- Chain-of-ThoughtパラダイムはBIQA性能への改善をもたらさなかった一方,Self-Consistencyパラダイムは画像とテキストによる予測の差を大幅に縮小した。
- Autoencoder類似のパラダイムは差の縮小には効果が限定的だったが,さらなる最適化の方向性を示唆している。
ProFit:SFTにおける確率に基づいたトークン選択による高価値信号の活用 [cs.CY, cs.ET, cs.MA, cs.CL, cs.AI]目的:SFTにおける過学習の緩和
- 大規模言語モデルの性能は,人間との意図合わせに大きく依存しており,SFTはその重要な手法である。
- 従来のSFTは単一の正解に焦点を当て,言語の多様性を無視することで過学習を引き起こす可能性がある。
- トークンの確率に着目し,低確率トークンのマスキングにより,表面的な過学習を抑制することを目指す。
- ProFitは,従来のSFTのベースラインと比較して,一般的な推論および数学的ベンチマークにおいて,一貫して優れた性能を示すことが確認された。
- トークンの確率と意味的な重要性の間に内在的なつながりがあることが示され,高確率トークンが論理的枠組みを担うことが明らかになった。
- 複数の正解を用いることで過学習を緩和できるものの,コストがかかるため,ProFitは戦略的なアプローチとして有効である。
DanQing:最新の大規模中国語ビジョン-言語事前学習データセット [cs.CV, cs.AI]目的:大規模中国語ビジョン-言語データセットの構築
- ビジョン-言語事前学習は,画像とテキストのペアを活用し目覚ましい成果を上げている。
- 中国語VLPモデルの開発は,高品質な大規模オープンソースデータの不足が課題となっている。
- ウェブデータ特有のノイズを軽減し,最新のセマンティックな傾向を捉えたデータセットを構築する。
- DanQingは,Common Crawlから収集した1億件の高品位な画像-テキストペアで構成される。
- SigLIP2モデルの継続事前学習実験により,DanQingは既存の中国語データセットを様々なタスクで上回る性能を示した。
- DanQingは,既存のデータセットと比較して,よりバランスの取れたセマンティック分布と優れたスケーリング能力を備えている。
超長期的自律性を持つ科学的エージェントに向けて:機械学習エンジニアリングのための認知蓄積 [cs.AI]目的:機械学習エンジニアリングにおける超長期的自律性の実現
- AIの発展において,科学的発見を自動化するエージェントの実現が重要視されている。
- 実世界の研究環境では,遅延フィードバックと高次元の複雑さにより,長期間にわたる戦略的整合性を維持することが困難である。
- 短期的な推論に優れたLLMでは対応が難しいため,長期的な指針を導き出す認知蓄積の仕組みを導入する。
- ML-Master 2.0は,認知蓄積の概念に基づき,階層的認知キャッシュ(HCC)を導入することで,長期間にわたる機械学習エンジニアリングを成功させた。
- OpenAIのMLE-Benchにおける評価では,24時間以内の予算で56.44%という最高レベルのメダル獲得率を達成した。
- 本研究は,超長期的自律性が,人間を超える複雑な環境下でのAIの自律的な探求を可能にするスケーラブルな青写真を提供することを示唆する。
PASTA:多岐にわたるAIコンプライアンス評価のためのスケーラブルなフレームワーク [cs.HC, cs.AI]目的:AIコンプライアンス評価の効率化
- AIの発展と普及に伴い,AIコンプライアンスの重要性が増している。
- AIポリシーの増加により,専門知識を持たない担当者の負担が大きい。
- 複数のAIポリシーへの対応を,コスト効率良く実現すること。
- PASTAは,開発段階全体を網羅するモデルカード形式,ポリシー正規化スキーム,効率的なLLM評価エンジンを統合している。
- 専門家による評価では,PASTAの判断が人間の専門家と高い一致度を示した(ρ ≧ .626)。
- 5つの主要なポリシーを2分未満,約3ドルで評価可能であり,スケーラブルな自動AIガバナンスの新たな枠組みを提供する。
LLMはチンパンジーよりも賢いか?視点取得と知識状態推定の評価 [cs.HC, cs.AI]目的:他者の知識状態推定と潜在的行動の評価
- 人間の知性は他者の知識状態を推測する能力に特徴があると考えられている。
- チンパンジーは,人間のような知識状態の推測能力に欠けているとされている。
- LLMにおける知識状態推定と意図理解能力の限界を明らかにする。
- 現状の最先端LLMは,両タスクにおいてランダムに近いパフォーマンスしか示さず,人間には大きく劣る。
- LLMの研究は,知識推定と意図理解能力の向上に注力すべきである。
双層強化学習のためのヘッセ行列を用いないアクター・クリティックアルゴリズム:LLMファインチューニングへの応用 [cs.CL, cs.RO, cs.LG, math.OC]目的:双層最適化問題に対するアクター・クリティックアルゴリズム
- 強化学習は,複雑な意思決定問題を解決するための強力な手法であり,様々な分野で応用が広がっている。
- 既存の双層最適化・強化学習手法は,計算コストが高い,またはサンプルの利用効率が低いという課題がある。
- 本研究では,これらの課題を解決するため,効率的な双層最適化アルゴリズムを提案する。
- 提案手法は,ペナルティベースの定式化と,減衰エントロピー正則化を導入することで,効率的な勾配推定を可能にする。
- 理論的解析により,提案手法が元の双層最適化問題の停留点に収束することが示された。
- GridWorldとRLHFの実験を通して,提案手法の有効性が確認された。
HalluJudge:コードレビュー自動化における文脈不整合のハルシネーション検出 [cs.HC, cs.SE, cs.AI]目的:LLM生成コードレビューコメントのハルシネーション検出
- コードレビュー自動化は開発効率向上に不可欠だが,LLMのハルシネーションが課題となる。
- LLMが根拠のないコメントを生成すると,開発者の信頼を損ね,レビューの質が低下する。
- 参照なしで,LLM生成コメントの文脈適合性を評価し,ハルシネーションを検出することを目指す。
- HalluJudgeは,直接評価と構造化された推論を含む4つの戦略を用いて文脈適合性を評価する。
- Atlassianのソフトウェアプロジェクトを用いた評価で,F1スコア0.85,コスト$0.009で効果と費用対効果が確認された。
- オンライン本番環境では,HalluJudgeの評価と開発者の選好が平均67%一致し,実用性が示唆された。
集合KV: シーケンシャル推薦における共同情報の分離と共有 [cs.AI]目的:シーケンシャル推薦における共同情報の分離と共有メカニズム
- シーケンシャル推薦は様々な応用で利用され,その重要性は増している。
- Transformerの計算コストがシーケンス長に比例し,長シーケンスでの遅延が課題となっている。
- KVキャッシュのストレージオーバーヘッドを削減し,効率的な推薦を実現すること。
- CollectiveKVは,ユーザー間のKV類似性を活用し,グローバルKVプールを導入することで,KVキャッシュサイズを大幅に削減する。
- 実験の結果,KVキャッシュを元のサイズの0.8%に圧縮しながら,モデル性能を維持または向上させることを確認した。
- ユーザー固有のKVと共有KVを組み合わせることで,効率的な推論を実現する。
継続的なGUIエージェント [cs.LG, cs.CV]目的:GUI環境の変化に対する継続学習の安定化
- GUI環境は常に変化するため,適応能力が重要である。新しいGUIデータが継続的に出現する。
- 静的な環境で訓練されたエージェントは,GUI分布が変化すると性能が低下する。
- GUI分布の変化に対応し,継続学習を安定化させる手法を開発する。
- 本研究では,GUI-Anchoring in Flux (GUI-AiF)という新しい強化学習によるファインチューニングフレームワークを提案した。
- GUI-AiFは,変化するインタラクションポイントと領域にエージェントを適合させることで,継続学習を安定化させる。
- 実験の結果,GUI-AiFは最先端のベースラインを上回る性能を示した。
比較判断に基づく画像キャプション評価モデリング [cs.CV, cs.LG]目的:画像キャプション評価のモデリング
- 画像キャプションは記述的な注釈に広く利用されており,その評価は重要である。
- キャプションの正確性評価は時間と労力を要し,主観に左右されやすい。
- 比較判断を利用することで,より効率的かつ客観的な評価を目指す。
- 比較判断に基づく学習モデルは,直接評価に基づく回帰モデルと同等の性能を達成した。
- VICRデータセットにおいて,提案モデルはベースラインモデルを性能面で上回った。
- 比較判断は,直接評価よりも迅速な結果と高いアノテーター間一致度を示すことが示された。
おべっかから意味理解へ:人間とAIの意思決定のための前提管理 [cs.CL, cs.AI]目的:人間とAIの協調的意思決定における前提管理の枠組み
- AIの意思決定支援の拡大に伴い,専門家の負担が増加している。
- LLMが表面的な合意を繰り返すことで,誤った意思決定を招く可能性がある。
- 意思決定において重要な前提を明確にし,協調的に管理することで,信頼性を高める。
- LLMの表面的な合意は,不確実性の高い状況下で,迅速な誤ったコミットメントを増幅させる。
- 前提管理の枠組みは,知識基盤における矛盾を検出し,タイプ化された不一致を通じて誤りを特定する。
- 前提の監査可能性と証拠基準に信頼を置くことで,会話の流暢さではなく,意思決定の質を向上させる。
データに基づいた二分木を用いた画像特徴帰属の決定法:ShapBPT [cs.CV, cs.LG]目的:画像特徴帰属の決定
- 機械学習モデルの予測根拠解明は,信頼性向上や意思決定支援に不可欠である。
- 既存手法では,画像データの多階層構造を活かしきれておらず,計算コストが高い。
- 画像固有の形態構造に沿った,効率的かつ意味のある特徴帰属を目指す。
- ShapBPTは,画像に特化した二分木構造を活用し,特徴帰属と画像形態の整合性を高める。
- 既存手法と比較して,計算効率が向上し,より解釈性の高い帰属マップを生成する。
- ユーザー実験の結果,ShapBPTによる説明が人間の直感に合致することが確認された。
SPARE:パラメータ効率的な削除のための自己蒸留 [cs.CV, cs.AI, cs.LG]目的:機械学習モデルからの特定データや概念の影響除去
- データ保護規制や責任あるAIの実践において,モデルからのデータ削除能力が重要になっている。
- テキストから画像への拡散モデルにおけるアンラーニングは,計算コストが高く,忘却と維持のバランスが難しい。
- SPAREは,拡散モデルにおける効率的かつ制御された概念の削除を目指す。
- SPAREは,勾配に基づく重要度とスパース低ランクアダプタを用いて,パラメータの局所的な修正を可能にする。
- 自己蒸留を通じて,不要な概念をユーザー定義の代替概念で上書きし,他の概念の動作を維持する。
- UnlearnCanvasベンチマークにおいて最先端の結果を達成し,忘却-維持のトレードオフを細かく制御できることを示した。
エージェント評価におけるランダム性の影響 [cs.LG, cs.AI, cs.SE]目的:エージェント評価の信頼性向上
- エージェントシステムの性能評価は,AI研究開発の進展に不可欠である。
- 現在の評価方法では,単一の試行に基づく結果に依存しており,再現性の問題がある。
- 評価におけるランダム性の影響を定量的に評価し,信頼性の高い評価方法を提案する。
- SWE-Bench-Verifiedにおける実験で,単一試行の結果は大きく変動し,2.2~6.0%ポイントの差が生じた。
- わずかな性能向上(2~3%ポイント)が,評価ノイズによるものである可能性が示唆された。
- 複数回の試行,統計的検出力分析,pass@k等の指標の使用を推奨することで,評価の信頼性を高めることができる。
KRONE:階層的・モジュール型ログ異常検知 [cs.DB, cs.AI, cs.SE]目的:システム障害やセキュリティリスクの発見
- システム運用において,ログは問題特定や原因究明に不可欠である。
- 従来のログ解析では,実行構造が失われ,依存関係の把握が困難である。
- ログの階層構造を自動的に抽出し,高精度な異常検知を実現する。
- KRONEは,実行階層を抽出し,モジュール化された多層的な異常検知を可能にする。
- 公開ベンチマークおよびByteDance Cloudのデータセットで,KRONEは高い精度と効率性を示した。
- LLMの使用量を削減しつつ,F1スコアを大幅に向上させた。
自律機械学習エンジニアリングのための適応的カリキュラム強化群相対方策最適化 (AceGRPO) [cs.LG, cs.AI]目的:自律機械学習エンジニアリングにおける持続的かつ反復的な最適化
- 機械学習エンジニアリングの自動化は,開発効率の大幅な向上に繋がる重要な課題である。
- 既存のプロンプトベースエージェントはパラメータが固定されており,学習の停滞が問題となる。
- AceGRPOは,学習効率を最大化するデータ選択と再利用により,この停滞問題を解決する。
- AceGRPOを用いることで,Ace-30BモデルはMLE-Bench-Liteにおいて100%の有効な提出率を達成した。
- 本モデルは,商用最先端モデルに匹敵し,より大規模なオープンソースモデルを上回る性能を示した。
- これにより,AceGRPOが持続的な反復最適化において堅牢な能力を持つことが示された。
OmniCustom:共同オーディオ・ビデオ生成モデルによるオーディオ・ビデオカスタマイズの同期 [cs.CL, eess.SY, cs.SY, cs.SD, cs.AI, cs.MM, eess.AS]目的:オーディオ・ビデオのカスタマイズ同期
- 動画生成技術はエンターテイメントから教育まで幅広く活用され,その重要性は増している。
- 既存手法では,画像とテキストに基づいたカスタマイズが中心で,オーディオの音色との同期が課題であった。
- 画像と音声を同時に制御し,両方の特徴を反映した動画生成を可能にすることを目指す。
- 提案手法 OmniCustom は,参照画像と参照音声を元に,動画の人物と音声を同時にカスタマイズする。
- LoRAモジュールとコントラスト学習により,人物と音色の両方の特徴を高い精度で再現する。
- 大規模なオーディオ・ビジュアルデータセットで学習することで,既存手法を上回る性能を達成した。
Xiaomi-Robotics-0:リアルタイム実行が可能なオープンソースのビジョン・言語・行動モデル [cs.RO, cs.LG]目的:高性能かつリアルタイムな実行を可能にするビジョン・言語・行動モデルの開発
- ロボットの自律性を高める上で,環境認識と行動計画の統合が不可欠である。
- 既存モデルは,推論速度が遅く,実機でのスムーズな動作が困難な場合がある。
- 実機環境での高速かつスムーズな実行を可能にする行動モデルの実現を目指す。
- 大規模なロボット軌跡とビジョン・言語データによる事前学習により,汎用的な行動生成能力を獲得した。
- 非同期実行のための訓練手法と,行動予測のタイムステップ調整により,リアルタイムな動作を実現した。
- シミュレーションと実機環境の両方で,最先端の性能と高い成功率,スループットを達成した。
インタラクションを必要としない逆強化学習:持続可能なアラインメントのためのデータ中心フレームワーク [cs.LG]目的:アラインメントのための報酬アーティファクトの学習
- AIアラインメントの重要性が増しており,安全な行動を学習する手法が求められている。
- 既存手法では,ポリシーパラメータに直接制約を組み込むため,透明性や再利用性が低い。
- 検査可能,編集可能,再利用可能な報酬アーティファクトを分離して学習し,アラインメントの無駄を削減する。
- 本研究は,ポリシー最適化とは別に報酬アーティファクトを学習するInteractionless Inverse Reinforcement Learningを提案する。
- Alignment Flywheelという,自動評価と改良による報酬アーティファクトの反復監査・修正・強化を行うライフサイクルを導入する。
- アラインメントを使い捨ての訓練コストから,検証可能なエンジニアリング資産へと転換することを可能にする。
思考のチーム:オーケストレーションされたツール呼び出しによるエージェントシステムの効率的なテスト時スケーリング [cs.CL, cs.AI, cs.MA]目的:多様なモデルを活用したマルチエージェントシステム
- 複雑な問題を解決するため,複数の専門知識を持つエージェントの連携が重要となる。
- 既存のマルチエージェントシステムは,均質なモデル構成に依存し,多様な専門性を活かせていない。
- 異なるモデルを専門的なツールとして活用し,最適な組み合わせで問題解決を目指す。
- 本研究で提案する「思考のチーム」は,既存のマルチエージェントシステムや個々のモデルと比較して,数学的推論やコード生成において優れた性能を示す。
- 特に,AIME24とLiveCodeBenchにおいて,それぞれ96.00%と77.91%の高い精度を達成し,均質なロールプレイベースラインを大きく上回る。
- オーケストレーターによるモデルの調整と,エージェント自身の自己評価により,最適なエージェントの組み合わせを動的に選択する。
ソフトアドバンテージ方策最適化のための滑らかなゲート関数 [cs.LG, cs.AI]目的:大規模言語モデルの訓練における滑らかなゲート関数の影響
- 大規模言語モデルの性能向上は重要であり,高度な推論能力が求められる。
- 従来の硬いクリッピング手法は不安定性を招き,訓練の効率を阻害する。
- シグモイド関数等の滑らかなゲート関数を用いて,訓練の安定性とモデル性能を改善する。
- 滑らかなゲート関数は,硬いクリッピングよりも安定した更新を可能にする。
- Qwen2.5-7B-Instructモデルを用いた実験で,数学的推論タスクにおいて有効性が確認された。
- 本研究は,より滑らかで堅牢な方策最適化目標を設計するための指針を提供する。
米国電力系統予測における状態空間モデル,Transformer,再帰型ニューラルネットワークのベンチマーク [cs.LG, cs.SY, eess.SY]目的:米国電力系統予測のための深層学習モデルの性能比較
- 電力系統の安定運用には高精度な電力需要予測が不可欠である。
- 最適なモデル選択はデータに依存するため,汎用的な指標が不足している。
- データ環境に応じた最適な予測モデルの選択指針を提示すること。
- 過去の負荷データのみを用いる場合,PatchTSTと状態空間モデルが高い精度を示した。
- 気象データを含めた場合,iTransformerの精度向上がPatchTSTよりも大きかった。
- 太陽光発電,風力発電,卸売価格の予測ではモデルのランキングが変化し,タスク依存性が示された。
言語モデルにおける視床路皮質カラムによる効率的な継続学習 [cs.LG]目的:言語モデルにおける継続学習の効率化
- 実世界で利用される言語モデルは,常に変化するデータに適応する必要がある
- 逐次的な更新により,既存の知識が失われるという問題(破滅的忘却)が存在する
- モデル構造自体に継続学習の能力を持たせることで,その問題を解決する
- TRC$^{2}$は,皮質カラムと視床調節経路,海馬経路を組み合わせた新しいモデル構造である。
- C4,WikiText-103,GSM8Kを用いた実験で,従来のモデルと比較して,タスク境界でのモデリング品質が向上し,累積的な忘却が大幅に減少した。
- 視床と海馬の構成要素が記憶保持に不可欠であり,モデルの処理能力と学習コストも維持されていることが示された。
州ごとのミラー降下を超えて:パラメトリックポリシーによるオフラインポリシー最適化 [cs.CL, cs.CL, cs.LG, cs.AI]目的:オフラインデータからの良好なポリシー学習の理論的側面
- オフライン強化学習は,実世界のデータを活用し,安全かつ効率的な学習を可能にするため重要である。
- 既存のオフライン強化学習アルゴリズムは,有限で小さい行動空間にしか適用できず,実用的なパラメトリックポリシーに対応できていない。
- 大規模または連続的な行動空間におけるパラメトリックポリシークラスに対する理論的保証を拡張し,問題を解決する。
- ミラー降下をパラメトリックポリシーに拡張する際の文脈的結合を特定し,自然方策勾配への接続が新たな分析とアルゴリズムの洞察をもたらす。
- オフライン強化学習と模倣学習との間の驚くべき統一性を示した。
- 計算可能な範囲で,より広範な実用的な設定におけるオフライン強化学習の理論的基盤を確立した。
CIRCLE:現実世界の視点からのAI評価フレームワーク [cs.AI, cs.SE]目的:AIの現実世界における成果とモデル中心の性能指標とのギャップを埋めるためのフレームワーク
- AIの社会実装が拡大する中で,その影響を的確に評価する重要性が高まっている。
- 既存の評価手法は,技術的な側面にとらわれ,組織への影響や実用性に関する情報が不足している。
- ステークホルダーの懸念を測定可能な指標に変換し,AIの実際の効果を評価する手法を確立する。
- CIRCLEは,AIシステムのテスト,評価,検証,妥当性の確認(TEVV)における検証段階を具体化する。
- 現場テスト,レッドチーム,長期研究などを統合し,現場固有の状況に配慮した体系的な知識を生成する。
- 理論的な能力ではなく,現実世界での影響に基づいてAIガバナンスを可能にする。
論理的推論エージェントの評価手法 [cs.CL, cs.AI]目的:論理的推論エージェントの評価とベンチマークの枠組み
- AIシステムの信頼性向上は重要であり,特に論理的推論能力の評価は不可欠である。
- 既存の評価方法は再現性,監査可能性,実行失敗への耐性に課題がある。
- 再現性,監査可能性,耐性を備えた評価フレームワークの構築。
- エージェント化された評価フレームワークを開発し,評価タスクの発行,実行予算の管理,出力の解析,エラーの記録を自動化。
- 第一階述論理(FOL)の自動形式化エージェントを,検証済みFOLIOデータセットで評価した結果,精度86.70%を達成。
- これは,思考連鎖ベースライン(73.89%)を上回る性能であり,提案手法の有効性を示す。
TikZilla:高品質データと強化学習によるテキストからTikZへのスケーリング [cs.AI, cs.CL, cs.CV]目的:テキスト記述からTikZプログラムを生成するタスクにおける性能向上
- 科学研究において,テキストによる記述から高品質な図を生成するニーズが高まっている。
- 既存のテキストからTikZへのデータセットは規模が小さくノイズが多く,複雑なTikZを捉えきれていない。
- 大規模かつ高品質なデータセットと強化学習を用いて,TikZ生成の精度と信頼性を高める。
- 本研究では,DaTikZ-V4という大規模かつ高品質なデータセットを構築した。
- TikZillaは,このデータセットを用いて,SFTと強化学習を組み合わせたQwenモデル(3Bと8B)を学習した。
- 人間による評価の結果,TikZillaはGPT-4oを上回り,GPT-5と同等の性能を示すことが確認された。
OSS-CRS:現実世界のオープンソースセキュリティのためのAIxCCサイバー推論システム解放 [cs.DC, cs.CR, cs.AI]目的:現実世界のオープンソースプロジェクトに対するサイバー推論技術の実行と組み合わせのためのオープンでローカルに展開可能なフレームワーク
- サイバーセキュリティは現代社会において不可欠であり,自動化された脆弱性発見と修正が急務である。
- AIxCCで開発されたシステムは,元のクラウド環境に依存しており,広く利用することが困難であった。
- OSS-CRSは,AIxCCシステムの活用範囲を広げ,現実世界のセキュリティ向上に貢献する。
- OSS-CRSを構築し,上位システムのAtlantisを移植することに成功した。
- OSS-Fuzzプロジェクト8個において,10個の未知のバグ(高重大度3個を含む)を発見した。
- OSS-CRSはパブリックに公開されており,誰でも利用可能である。
MM-tau-p$^2$: 二者制御環境におけるロバストなマルチモーダルエージェント評価のためのペルソナ適応プロンプティング [cs.ET, cs.AI]目的:二者制御環境下でのマルチモーダルエージェントのロバスト性評価
- 顧客体験管理において,エージェントはユーザーの性格を学習し,行動を変化させる必要性が高まっている。
- 既存の評価フレームワークはユーザーのペルソナを考慮せず,ユーザーに依存しない環境で動作している。
- マルチモーダルなエージェントのロバスト性評価と,ユーザーへの適応による改善点を明らかにすること。
- 提案するMM-tau-p$^2$ベンチマークは,ユーザーのペルソナ適応の有無にかかわらず,マルチモーダルエージェントのロバスト性を評価するための指標を提供する。
- 最先端のLLM(GPT-5,GPT-4.1など)においても,マルチモーダル化に伴うターンオーバーヘッドやロバスト性の課題が残ることが示された。
- 12の新規指標を導入し,LLM-as-judgeアプローチを用いて,通信および小売分野におけるこれらの指標の推定値を提供することで,自動評価を可能にした。
GPT4o-Receipt:AI生成文書のフォレンジックに関するデータセットと人間による研究 [cs.AI, cs.CV]目的:AI生成の金融書類の検出能力に関する人間と機械の比較
- AI生成技術の進化に伴い,生成された文書の真偽判定の重要性が高まっている。
- AI生成文書の識別は困難であり,既存の検出手法では誤検知や見逃しが発生しやすい。
- AI生成文書の識別における人間とLLMの能力差を明らかにし,より効果的な検出手法を開発すること。
- 人間はAI生成文書の視覚的特徴の識別には優れるものの,AI生成文書全体の検出精度は低いという逆説的な結果が得られた。
- AI生成レシートに見られる主なフォレンジック信号は,人間には認識できない計算ミスである。
- LLMは計算ミスを高速に検証できるため,人間よりもAI生成文書の検出精度が高い。
OSMDA:OpenStreetMapに基づくリモートセンシングVLMsのドメイン適応 [cs.RO, cs.CV, cs.LG]目的:リモートセンシング用VLMsのドメイン適応手法
- リモートセンシング技術は,環境モニタリングや災害対応など,社会課題解決に不可欠である。
- リモートセンシング画像の高品質なアノテーション作成は,コストと時間がかかるという課題がある。
- OSMデータを利用し,教師モデルに依存しないドメイン適応を実現し,学習コスト削減を目指す。
- OSMDAは,OpenStreetMapとリモートセンシング画像を組み合わせることで,自己完結型のドメイン適応フレームワークを構築した。
- 実データと混合した場合,10のベンチマークで最先端の結果を達成し,既存手法よりも大幅に安価に学習できることを示した。
- 強力な基盤モデルがあれば,クラウドソーシングされた地理データとの連携が,リモートセンシングのドメイン適応の有効な手段となることを示唆する。
品質多様性による多様な指示生成を通じたビジョン-言語-行動モデルの敵対的テスト [cs.RO, cs.AI, cs.CL]目的:ロボットの頑健なポリシーのための敵対的なテスト手法
- 汎用ロボットの実現には,視覚情報と自然言語を理解し,行動に結びつけるVLAモデルが重要である。
- VLAモデルは指示の表現に敏感であり,失敗予測が困難であるという課題がある。
- 多様な指示生成により,VLAモデルの脆弱性を特定し,頑健性を向上させることを目指す。
- Q-DIGは,タスクに関連しつつ,VLAモデルの失敗を引き起こす多様な指示を効率的に生成する。
- シミュレーション実験の結果,Q-DIGは既存手法よりも多様で有意義な失敗モードを発見した。
- 生成された指示でVLAモデルをファインチューニングすることで,タスク成功率が向上し,人間の評価からも自然な指示が生成されることが示された。
エージェントドリフト:LLMエージェントにおけるツール汚染による安全性の低下―ランキング指標では隠蔽される問題 [cs.CL, cs.AI]目的:LLMエージェントにおけるツール汚染が引き起こす安全性低下の評価
- LLMエージェントは高リスクな領域で活用が増加しており,その安全性確保が重要である。
- 従来の評価指標は推奨内容の質のみを測り,安全性への影響を十分に考慮していない。
- ツール汚染がLLMエージェントの安全性に及ぼす影響を定量的に評価し,改善策を提示する。
- ツール汚染下では,推奨品質は維持されるにも関わらず,リスクの高い商品が頻繁に推奨されることが確認された。
- 安全性低下は主に情報伝達経路に起因し,初期段階で発生し,その後のターンでも自己修正されない。
- 安全性に配慮したNDCG(sNDCG)を用いることで,評価指標のギャップが明確になり,安全性評価の重要性が示された。
ビデオLLMにおけるジオメトリ誘導カメラモーション理解 [cs.CV, cs.AI]目的:ビデオLLMにおけるカメラモーション理解の改善
- 視覚知覚や映画表現において,カメラモーションは重要な幾何学的要素である。
- 既存のビデオLLMはカメラモーションを明示的に表現しておらず,微細な動きの認識に課題がある。
- 3D基礎モデルからの幾何学的カメラキューと構造化プロンプティングによるカメラモーション理解の向上を目指す。
- 大規模合成データセットCameraMotionDatasetを構築し,カメラモーションを制約付きマルチラベル認識として定式化した。
- 様々な既存のビデオLLMにおいて,カメラモーションの認識に大きな誤りがあることを確認した。
- 軽量なパイプラインにより幾何学的カメラキューを抽出し,ビデオLLMへの注入を通じてカメラモーション認識を改善した。
浮動小数点数演算下におけるリプシッツに基づくロバスト性検証 [cs.LG, cs.CV, cs.PL]目的:ニューラルネットワークのロバスト性検証
- ニューラルネットワークの安全性確保は,自動運転や医療など,重要な応用分野において不可欠である。
- 既存の検証手法は実数演算を仮定しており,実際の浮動小数点数演算との乖離が問題となっていた。
- 浮動小数点数演算環境下でのロバスト性を保証する理論と実装を提供し,検証の信頼性を高める。
- 実数演算によるロバスト性保証が,浮動小数点数演算下では破綻するケースが存在することが示された。
- 実数演算のリプシッツ定数に基づく感度解析と,浮動小数点数演算の感度解析を結びつける理論が開発された。
- 理論に基づいた検証器を実装し,その実用性が確認された。
1つのトークンでのピクセルレベルのシーン理解:視覚的状態にはwhat-is-whereの構成が必要である [cs.CV, cs.AI, cs.LG, cs.RO]目的:視覚的状態表現の学習
- ロボットが動的な環境で動作するには,視覚情報の効率的な表現が不可欠である。
- 既存の自己教師あり学習法は汎化性能が高いが,良好な視覚的状態が何をエンコードすべきかを明示していない。
- シーン要素の識別と空間位置を同時にエンコードすることで,微妙な変化を捉える視覚的状態の獲得を目指す。
- 提案手法CroBoは,グローバルからローカルへの再構成という学習目標に基づき,コンパクトなボトルネックトークンからシーンを再構築する。
- 学習の結果,ボトルネックトークンはシーン全体の意味的エンティティ,位置,構成に関する詳細な表現をエンコードする。
- 実験により,学習された視覚的状態はシーン要素の動きと相互作用を捉え,ロボットの意思決定を支援することが示された。
非IIDデータに対するロバストなパーソナライズされた学習のためのProximal-Balanced Scaling連合学習モデルFedPBS [cs.LG, cs.AI, cs.DC]目的:非IIDデータ環境下における,ロバストかつパーソナライズされた連合学習の実現
- ヘルスケア等,プライバシー保護が重要な分野での機械学習応用の鍵となる技術である。
- 統計的異質性やクライアント参加の不均衡が,学習の収束とモデル品質を低下させる。
- クライアントのリソースに応じたバッチサイズ調整と,近接補正による学習の安定化を目指す。
- FedPBSは,CIFAR-10やUCI-HAR等のベンチマークデータセットにおいて,最先端手法を凌駕する性能を示した。
- 極端なデータ異質性下でも安定した性能向上が見られ,滑らかな損失曲線から収束の安定性も確認された。
- UCI-HARとCIFAR-10の厳しい非IID条件下で,既存の連合学習手法を安定して上回る結果が得られた。
マルチモーダルLLMにおける関係性を考慮した安全性アンラーニング [cs.AI]目的:マルチモーダルLLMの安全性に関する問題解決
- 生成AIの発展に伴い,安全性確保が不可欠となっている。
- 既存手法では,関係性を考慮せず,誤った安全性の削除が生じやすい。
- 関係性を明示的に表現し,安全でない関係のみを抑制することを目指す。
- 本研究では,オブジェクト-関係-オブジェクト(O-R-O)を明示的に表現するフレームワークを提案した。
- LoRAを用いた効率的なパラメータ編集により,安全でない関係を抑制しつつ,安全な関係は維持する。
- CLIPを用いた実験で,言い換え,文脈,分布外画像に対する頑健性が確認された。
分散型二層強化学習のためのサンプル効率の良いハイパー勾配推定 [cs.LG, cs.AI, cs.GT, cs.MA]目的:分散型二層強化学習におけるハイパー勾配推定手法
- 倉庫ロボットの環境設計など,戦略的決定問題の解決に不可欠な枠組みである。
- リーダーがフォロワーの最適化過程に介入できない分散環境での学習が困難である。
- フォロワーの最適戦略の変化を考慮したハイパー勾配の効率的な推定を実現する。
- ボルツマン共分散トリックを用いることで,リーダーの決定空間が高次元でもサンプル効率の良いハイパー勾配推定が可能となった。
- 本手法は,分散環境下における2人マルコフゲームに対するハイパー勾配最適化を初めて実現した。
- 離散状態および連続状態のタスクにおいて,ハイパー勾配更新の効果と有効性が確認された。
AIクエリ近似によるAI性能分析:コストと遅延を100分の1に削減 [cs.DC, cs.OS, cs.DB, cs.AI]目的:AIクエリ近似によるコストと遅延の削減効果の評価
- データウェアハウスやデータベースにおけるAIクエリの利用が拡大しており,複雑な分析ニーズに対応できる重要性が高まっている。
- AIクエリは非常に強力だが,そのコストと遅延が課題となり,大量のクエリ実行を妨げている。
- 軽量なプロキシモデルを用いてAIクエリを近似することで,コストと遅延を大幅に削減し,実用的なAIクエリの利用を促進すること。
- 提案手法により,セマンティックフィルタ演算子において100倍以上のコストと遅延削減が確認された。
- プロキシモデルは,埋め込みベクトルの精度を維持し,一部のベンチマークデータセットでは精度を向上させた。
- BigQueryおよびAlloyDB向けのオンラインクエリおよびHTAPデータベースに適したアーキテクチャを提示し,プロキシモデルの学習を高速化する手法を提案した。
離散推論のための自己認識マルコフモデル [cs.RO, cs.LG, stat.ML]目的:離散推論における自己修正能力の向上
- 複雑な問題解決において,AIの推論能力は重要であり,その発展は社会に大きな影響を与える。
- 既存の離散拡散モデルは,マスキング経路における自己修正が難しく,問題の複雑さに適応できない。
- 自己認識マルコフモデルにより,自己修正と問題の複雑さに応じた計算ステップ数の調整を実現する。
- 提案手法は,Sudoku-Extremeデータセットにおいて,他のフローベース手法よりも高い有効性(95%)を示した。
- Countdown-4の問題に対し,平均10ステップで約96%を正しく解くことができ,多くの問題をわずか2ステップで解決した。
- 既存の事前学習済みモデルの再利用とファインチューニングを可能にする軽量な予測ヘッドを導入した。
ドメインに基づいた階層型検索によるLLMの幻覚の軽減 [eess.SY, cond-mat.stat-mech, cs.SY, math.OC, nlin.PS, cs.CL, cs.AI]目的:大規模言語モデルの幻覚軽減
- LLMは自然な文章生成能力を持つが,誤情報の生成リスクがある。信頼性が重要な分野では特に問題となる。
- LLMは確率的なパターン認識に依存するため,事実に基づかない内容を生成しやすいという課題がある。
- ドメイン知識に基づいた検索と検証により,LLMの誤情報生成を抑制し,信頼性を高めることを目指す。
- 提案手法は,TimeQA v2において83.7%,MMLU Global Factsにおいて78.0%の勝率を達成し,多様なベンチマークでゼロショットベースラインを上回る性能を示した。
- 事実に基づいた回答の正確性は78.8%から86.4%の間で安定しており,高い信頼性を持つことが確認された。
- 「誤った前提に基づく過剰な主張」という課題が特定されたが,多段階RAGの挙動を詳細に分析する上で貴重な知見を得られた。
非有界コストを持つ一般MDPに対する作用素理論的基礎と方策勾配法 [cs.LG, math.OC]目的:一般MDPにおける最適方策の存在と,それらを求める方策勾配法
- 強化学習は,複雑な意思決定問題を解決するための強力な手法であり,その応用範囲は広い。
- 従来のMDP理論は,コストや状態空間に制約がある場合が多く,より一般的な状況への適用が難しい。
- 非有界コストを持つ一般MDPにおいても,最適方策が存在し,効率的に探索できる手法を確立すること。
- 作用素理論を用いて,一般MDPにおける最適方策の存在に関する新しい結果が得られた。
- 積分確率距離の理論を用いることで,新しい方策勾配アルゴリズム(MM-RKHS)が導出された。
- MM-RKHSアルゴリズムは,計算・サンプル効率,収束速度においてPPOアルゴリズムよりも優れている可能性が示唆された。
進化的に安定なシュタッケルベルク均衡 [cs.RO, cs.GT, cs.AI, cs.MA, econ.TH, q-bio.PE]目的:進化的に安定なシュタッケルベルク均衡の概念
- 動的ゲーム理論は,生物学や経済学における戦略的相互作用を理解する上で重要である。
- 従来のシュタッケルベルクゲームは,フォロワーの行動が安定化されていない場合がある。
- フォロワー集団の進化的に安定な戦略を考慮した均衡概念を提示し,安定性を保証する。
- 本研究では,進化的に安定な戦略(ESS)への侵入を防ぐことを明示的に強制する,新しい均衡概念を提示した。
- 離散ゲームと連続ゲームの両方において,SESSを計算するためのアルゴリズムが開発され,連続ゲームでは経験的に検証された。
- このモデルは,癌治療における医師と癌細胞の表現など,生物学的設定に自然に適用できる。
DRESSによる困難な同型性ベンチマークの打破 [cs.DS, cs.DM, cs.LG]目的:グラフ構造の類似性を反復的に洗練し,正準フィンガープリントを得ること
- グラフ構造の比較は,化学,ソーシャルネットワーク分析など,多様な分野で重要である。
- 既存手法では,複雑なグラフの同型性を効率的に識別することが困難である。
- 本研究は,困難なグラフ構造に対して,高い識別能力を持つフィンガープリント手法を開発する。
- Δ-DRESSは,34種類の困難なグラフファミリーに対して,高い識別性能を示した。
- 特に,SRG(40,12,2,4)ファミリーにおける唯一の衝突は,Δ²-DRESSによって解決された。
- ペアワイズ比較可能なフィンガープリントの分離余裕は,少なくとも137×εであり,数値的な安定性も確認された。
オントロジー誘導拡散によるゼロショット視覚Sim2Real転送 [cs.CV, cs.AI]目的:シミュレーションから現実世界への転送の実現
- ロボット工学やコンピュータビジョンの発展において,シミュレーション環境での学習を現実世界へ応用する技術は重要である。
- 現実世界のラベル付きデータが不足しているため,シミュレーションと現実世界のギャップを埋めることが課題となっている。
- オントロジーを用いて現実世界の構造化された知識を導入し,データ効率の良いSim2Real転送を実現する。
- オントロジー誘導拡散(OGD)は,現実性を解釈可能な特性のオントロジーとして表現するニューロシンボリックなフレームワークである。
- OGDは,既存手法と比較して,現実画像と合成画像の識別性能が向上している。
- ベンチマークテストの結果,OGDは最先端の拡散法よりも優れたSim2Real画像翻訳性能を示した。
エージェント制御プロトコル:エージェント行動の認可制御 [cs.RO, cs.HC, cs.CR, cs.AI]目的:B2B環境における自律エージェントの認可制御に関する技術仕様
- 企業間取引において,エージェントの自律性とセキュリティを両立させる必要性が高まっている。
- 従来のRBACやゼロトラストモデルでは,エージェントの行動を確実に制御し追跡することが困難である。
- エージェントの行動を決定的に強制し,時間的制限と完全な追跡可能性を組織境界を越えて実現することを目指す。
- エージェントの行動は,身元確認,能力範囲,委任チェーン,ポリシー遵守を検証する暗号化された認可チェックを経る。
- プロトコルは計算コストが低く,状態に依存する設計であり,状態バックエンドの変更が容易である。
- 悪意ある評価では,エージェントの隔離性とスループットの維持が確認された。
バリエーションに基づく学習:微分可能な環境におけるAAV軌道学習の変分的誘導 [eess.SY, cs.LG, cs.SY]目的:自律飛行車両(AAV)の軌道最適化手法
- 次世代(6G)IoTネットワークにおいて,機動性によるデータ収集が重要視されているため。
- 従来の強化学習は,報酬の疎らさから,長期的な効果や非線形性を捉えにくく,学習が不安定になりやすい。
- 高分散な報酬信号を,密で解析的に正当化されたポリシー勾配に置き換えることで,この問題を解決する。
- 提案手法L4Vは,AAVの運動学,距離依存型チャネルゲイン,データ収集の進捗を微分可能なグラフとして統合する。
- 時間反伝播を通じて,累積ミッション目標から各制御アクションおよびポリシーパラメータへの正確な感度を伝播させる。
- シミュレーションの結果,L4Vは遺伝的アルゴリズム,DQN,A2C,DDPGなどの代表的なベースラインをミッション完了時間,平均伝送レート,学習コストで上回った。
