arXiv雑要約
AI - 2026/06/16 公開
検索拡張による信頼度を考慮した推論を通じたマルチモーダルシステムにおける視覚的幻覚の軽減 [cs.AI, cs.CV]目的:マルチモーダルシステムの視覚的幻覚軽減
- 視覚と言語を理解するAIは,多様な応用が期待され,その重要性は増している。
- 視覚的証拠が弱く曖昧な場合,マルチモーダル大規模言語モデルは誤った出力を生成しやすい。
- 提示されたフレームワークは,信頼性の推定と選択的な判断により,誤りを減らすことを目指す。
- 提案手法は,ImageNet-100データセットにおいて,正答率を向上させ,誤答率を低下させた。
- 信頼度を考慮した判断ゲートにより,システムのキャリブレーションが改善され,過信による誤りが減少した。
- 大規模モデルの再学習なしに,検索による証拠の統合,信頼性推定,選択的判断により効果が得られた。
潜在時系列埋め込みを用いたベイズネットワーク:アルツハイマー病進行の段階的因果モデリング [cs.CL, cs.LG, cs.CE]目的:アルツハイマー病の進行モデリングのための新たなベイズ構造的フレームワーク
- アルツハイマー病は高齢化社会において罹患率が増加しており,早期診断と進行抑制が重要である。
- 既存のモデルでは,バイオマーカー間の生物学的な関係性を明確に特定することが困難であった。
- 段階的なAT(N)カスケードに基づき,アルツハイマー病の進行予測とメカニズム解明を両立させる。
- BN-LTEは,ADNIデータを用いた繰り返し評価において,タウ病変の空間的再構成において,既存の予測モデルと比較して高い性能を示した。
- BN-LTEは,AT(N)制約に基づいた段階変化する効果を復元し,擬似時間の中間時点におけるアミロイド感受性のウィンドウを特定した。
- モデルから推定されたg-formula,root-adjusted AIPW,メカニズム感受性アブレーションによって,このウィンドウの存在が支持された。
領域知識に基づいたプロンプティングによるセグメンテーション・エニシング・モデルの地震探査への応用:属性,可視化,ハイブリッドプロンプトの役割 [cs.CV, cs.AI, physics.geo-ph]目的:地震探査におけるセグメンテーション・エニシング・モデルのゼロショット適応
- 地震探査はエネルギー資源探査や地殻構造解明に不可欠であり,効率的な解釈手法が求められている。
- 既存手法はラベル付きデータの大量取得や高コストな計算資源を必要とし,汎化性能が低い場合がある。
- 本研究は,ラベルデータ不要で汎化性能を維持しつつ,地震探査のセグメンテーション精度を向上させることを目指す。
- 地震学的ターゲットに合わせた地震属性とカラーマップの選択,およびハイブリッドプロンプティングが地質特徴の分離能と境界の明確化を向上させる。
- 提案手法により,セグメンテーション・エニシング・モデルは追加学習なしに,既存手法と同等以上の性能を発揮する。
- 本研究は,ラベルデータへの依存を低減しつつ,汎化性能を維持した地震探査における基盤モデル活用の実用的な経路を示す。
GAS-Leak-LLM:ブラックボックスLLM脱獄のための遺伝的アルゴリズムに基づく接尾辞最適化 [cs.CR, cs.AI]目的:LLMの脱獄攻撃手法
- LLMはAI技術の中核であり,その安全性確保は重要である。
- 既存の安全対策では,LLMの悪用を防ぎきれない場合がある。
- ブラックボックス環境下でのLLM脱獄攻撃の有効性を示す。
- 本研究では,遺伝的アルゴリズムを用いてLLMの安全対策を回避する接尾辞を自動的に生成する手法を提案した。
- 提案手法は,モデル内部にアクセスすることなく,現実的な脅威を反映したブラックボックス環境で動作する。
- 実験結果から,既存の安全対策の脆弱性と,提案手法の実用性が確認された。
償却型離散サンプリングのための近接方策最適化 [cs.AR, cs.LG, cs.AI, stat.ML]目的:構造化された離散確率分布からのサンプリングを目的とした確率的方策の訓練
- 生成モデルの分野において,複雑な分布からの効率的なサンプリングは重要な課題である。
- GFlowNetの訓練は,収束速度やデータ効率の面で課題が残されている。
- GFlowNetへの近接方策最適化の適用により,訓練の効率化を目指す。
- GFlowNetとエントロピー正則化された強化学習との理論的なつながりを基に,標準的な方策勾配アルゴリズムをGFlowNetの訓練に適用する手法を導出した。
- 近接方策最適化をGFlowNetに適用することで,合成エネルギーから分子グラフ生成まで,様々なベンチマークにおいて,標準的なGFlowNet訓練よりも収束速度とデータ効率が向上した。
- ベースラインの訓練やアドバンテージ推定といった様々な方法論的側面についても実験的に検討した。
DifFRACT:拡散特徴再構成と帰属による回路追跡 [cs.CV, cs.AI]目的:拡散モデルにおける特徴と回路の解明
- 深層学習モデルの解釈性は,モデルの動作原理を理解し,改善に繋げる上で重要である。
- 画像生成拡散モデルは,その複雑さから,内部の情報の流れや表現の相互作用が不明確である。
- 拡散モデルの回路追跡を実現し,意味情報伝播や生成エラーの原因を特定することを目指す。
- 本研究では,FLUX.1のMLPサブ層を忠実に近似する,時間ステップ条件付きトランスコーダーを訓練した。
- トランスコーダーを用いた回路分析により,属性結合やクロスストリーム意味伝播のメカニズムが明らかになった。
- 回路誘導による介入は,従来のSAEに基づく操作よりも精密かつ効果的であることが示された。
コンパイルに基づく多エージェント経路探索における未割り当てエージェント [cs.AI]目的:未割り当てエージェントを含む多エージェント経路探索問題
- 多エージェント経路探索は,ロボット工学や群知能など,複数の主体が協調して行動するシステムの実現に不可欠である。
- 標準的な多エージェント経路探索問題では,すべてのエージェントに目標位置が与えられ,衝突を回避しながら目標に到達することが課題となる。
- 本研究では,目標位置が割り当てられていないエージェントの存在下での経路探索問題に対処し,効率的な解法を開発することを目的とする。
- 未割り当てエージェントを含む多エージェント経路探索問題は,Boolean充足可能性問題としての定式化が可能であることが示された。
- 最近の手法であるSMT-CBSおよびNRF-SATを適応させ,この問題を解決できることが確認された。
- 未割り当てエージェントは目標位置を持たないものの,他のエージェントの経路を妨げないように移動する必要があるという課題に対応した。
離散拡散言語モデルにおける平均場並列デコーディング [cs.LG]目的:離散拡散言語モデルの低遅延デコーディング手法
- 言語モデルの効率的な推論は重要であり,特にリアルタイムな応答性が求められる場面で重要である。
- 並列生成におけるトークン選択の独立性は,整合性のない構成を生む可能性があり,性能を制限する。
- 並列更新を調整し,トークンの同時コミットメントの競合を抑制することで,性能を向上させる。
- 提案手法は,モデルの予測分布から派生したペアワイズ相互作用を用いて,各マスクされた位置にコミットスコアを割り当てる。
- 変分緩和により,単一のフォワードパス内で競合する同時コミットメントを抑制する固定点更新を導出する。
- 推論およびコード生成ベンチマークにおいて,品質と遅延時間のトレードオフが改善されることが示された。
メモリ拡張グラフ液体時間定数ネットワークによる継続的なクロスドメイン交通状態予測 [cs.LG, cs.AI]目的:継続的なクロスドメイン交通状態予測のためのフレームワーク
- 交通状態予測は,インテリジェント交通システムの基礎技術であり,交通渋滞の緩和や効率的な交通管理に不可欠である。
- 十分なセンサーインフラがない地域では交通データが不足し,クロスドメイン知識転移が重要となるが,既存手法は粗い適応や未知のパターンへの対応が課題である。
- 本研究は,データ不足の交通予測問題に対し,より詳細な知識転移と連続的な交通変動のモデル化を目指す。
- 提案手法MA-GLTCは,空間・時間単位を用いて交通ネットワークを転移可能な局所単位に分解し,ドメイン間の微細な知識アラインメントを可能にする。
- グラフ液体時間定数ネットワーク(GLTC)は,グラフ結合再帰伝導率を導入することで,ノード状態の漏洩,適応的な時間定数,近傍認識フィードバックを実現する。
- メモリベース転送ストレージ(MTS)メカニズムにより,ソースドメインの知識を保持し,一致する交通パターンを検索,信頼性の高いターゲットドメインパターンを更新する。
盗まれてもよし:知識ハニーポットを用いた大規模言語モデル抽出攻撃の捕捉 [cs.CR, cs.AI]目的:大規模言語モデルの抽出攻撃に対する防御
- 商業APIとして展開された大規模言語モデルのセキュリティ確保は重要である。
- 既存の防御策は遅効性,または正当なユーザーの利便性を損なう問題がある。
- 攻撃者のクエリ予算を無駄にすることで,抽出攻撃を遅延させ,モデルの保護を目指す。
- Knowledge Trapは,ハニーポット知識グラフと誘導探索により,攻撃を転移しにくい知識に誘導する。
- 実験の結果,Knowledge Trapは,正当なユーザーの精度を損なうことなく,サロゲート合意を平均6.2%削減した。
- 知識空間の探索を防御することが,LLM抽出攻撃の緩和に有効な方向性を示唆する。
ブラウン運動カーネルラダー [cs.LG]目的:階層的な構成的表現を捉える関数空間の数学的扱いやすさ
- 統計学習理論において,複雑なデータ構造を捉える関数空間の構築は不可欠である。
- 深層学習における表現の階層構造を理論的に分析することが困難である。
- ブラウン運動カーネルラダーを用いて,深層学習の構成的表現を数学的に解析する枠組みを提供する。
- ブラウン運動カーネルラダー(BKL)という,積分再生核ヒルベルト空間の階層構造が提案された。
- BKL空間は準バナッハ空間であり,深さ依存的なヘルダ正則性を持つことが示された。
- 正則化された経験的リスク最小化の存在と,次元や深さに対して安定したガウス複雑度境界が導かれた。
SACE:視覚自己回帰モデルにおける意味的特異点での概念消去 [cs.CV, cs.AI]目的:視覚自己回帰モデルにおける安全性を高めるための概念消去手法
- 画像生成AIの進歩は著しいが,生成されるコンテンツの安全性確保が課題となっている。
- 既存の概念消去技術を自己回帰モデルに適用すると,意味崩壊や視覚的欠陥が生じやすい。
- 意味的特異点に着目し,初期段階での介入により,安全性を損なわずに概念を消去することを目指す。
- 意味的特異点という概念を提唱し,その妥当性を検証するIncremental Semantic Saliency Analysis(ISSA)を開発した。
- スケールを考慮した概念消去フレームワークSACEを導入し,初期スケールに介入を限定することで,概念の外科的消去を実現した。
- 様々なドメインにおいて,学習コストを抑えつつ,高い消去性能と安全性確保を両立することを示した。
真実は家族の中に留まる:モデルの血統における継承された真実性ヘッドによる文脈的根拠の強化 [cs.CL, cs.AI, cs.LG]目的:モデルの血統における文脈的根拠の強化
- 大規模言語モデルの発展は目覚ましく,様々な応用が生まれているため,その基盤となるモデル間の関係性を理解することが重要である。
- モデルの血統内において,真実性を損なう問題が存在し,その原因と対策が求められている。
- モデルの血統における真実性ヘッドの継承メカニズムを解明し,文脈的根拠を強化することを目指す。
- LLM及びMLLMの多様な血統において,真実性スコアがモデルファミリー内で強く保存されていることが示された。
- この継承は,アテンションヘッドの重み保存と一貫性があり,真実性ヘッドがクエリに関連する証拠に注意を払うことが確認された。
- 提案手法TruthProbeは,HaluEvalやPOPE等の評価で文脈的真実性を向上させ,マルチモーダルな幻覚を抑制する効果が確認された。
TrustedARI: エージェントAIのための信頼性ネイティブなエージェントルーティングインフラ [cs.AI, cs.CR]目的:エージェントAIにおける信頼性ネイティブなエージェントルーティングインフラの構築
- AIエージェントの利用拡大に伴い,多様な外部サービスとの連携が不可欠となっている。
- 既存のルーティングインフラは,セキュリティリスクやプライバシー侵害の懸念がある。
- エージェントとサービスプロバイダー間の信頼性を確保し,安全な連携を実現すること。
- TrustedARIは,エージェントとサービスプロバイダーを相互認証するTLSハンドシェイクを導入し,セキュリティを強化している。
- プライバシー保護クエリ構築プロトコルにより,機密情報を漏洩することなくクエリを作成できる。
- 検証可能な課金プロトコルにより,公正な利用料金の精算と応答の整合性を保証している。
MSC-CMA-ES:サイクル的近傍最適解盆地探索による構造を意識したCMA-ES再開戦略 [cs.NE, math.OC]目的:CMA-ESの再開戦略における構造を意識した探索
- 最適化問題解決において,CMA-ESは広く用いられる手法であり,その性能向上が重要である。
- 多峰性関数の最適化において,従来の再開戦略は情報の再利用が不十分であった。
- 最適解候補の存在する領域(盆地)を特定し,効率的な探索を実現することを目指す。
- 提案手法MSC-CMA-ESは,4つのCECスイートにおいて,既存手法BIPOP-CMA-ESやDEアルゴリズムと比較して良好な結果を示した。
- 特に,複合関数においては,BIPOP-CMA-ESの2.7倍の固定予算目標カバレッジを達成し,最も高いカバレッジを示した。
- 基本関数では,中央値誤差が最も低い一方,深層ターゲットカバレッジはやや劣るという結果となった。
コンピューティング分野におけるリアルタイムな学生評価とキャリアガイダンス統合システム [cs.AI, cs.LG, cs.NE, cs.SY, eess.SY]目的:コンピューティング分野の学生に対するキャリア予測とガイダンスの提供
- 情報技術分野の人材育成において,学生の能力と興味に合致したキャリア選択は重要である。
- 学生の学業成績,能力,興味が必ずしも一致せず,適切なキャリアパスの特定が困難である。
- AIを活用し,学生の特性に合わせたキャリア選択を支援し,進路決定の課題を解決する。
- 本研究で開発されたシステムは,94.71%の精度で学生のキャリアパスを予測可能であることが示された。
- Webベースの学生評価プラットフォームにより,学生と教員のインタラクションが強化される。
- クラウドベースの安全なインフラストラクチャにより,システムのスケーラビリティと信頼性が確保されている。
SILAGE:ネストされた有限和のための,メモリ効率の良い,フル勾配を用いない非凸最適化 [cs.LG, math.OC]目的:大規模データセットにおけるネストされた有限和構造に対する非凸最適化手法
- 大規模データセットの処理において,データ分割や分散学習などの場面でネストされた有限和構造が頻出する。
- 既存手法は,計算コストやメモリ使用量の点でスケーラビリティに課題があり,実用上のボトルネックとなる。
- SILAGEは,メモリ使用量を抑えつつ,フル勾配計算のコストを削減することで,より効率的な最適化を目指す。
- SILAGEは,ネストされた有限和構造を活かし,全データに対するフル勾配計算を必要とせず,メモリ使用量を$\mathcal{O}(n)$に抑える。
- SILAGEの収束解析では,データ分布の幾何学的な特性(グループ間およびグループ内の異質性)を考慮した,より現実的な複雑度を導出している。
- SILAGEは,いくつかの実用的な条件下で,既存の最先端手法よりも優れた収束性を示す。
AIChilles:AIによって進化されたシステムの隠れた脆弱性を自動的に発見 [cs.CL, cs.AI, cs.CR, cs.SY, eess.SY]目的:AIによって進化されたシステムにおける隠れた脆弱性の発見
- AIによるシステム進化は,人間が設計したアルゴリズムを改善する可能性を秘めており,注目を集めている。
- AIによって生成されたプログラムは,未知のワークロードやスケーラビリティにおいて性能が低下するリスクがある。
- AIChillesは,AIによって進化されたプログラムの潜在的な脆弱性を自動的に検出し,そのリスクを軽減することを目指す。
- AIChillesは,ベースラインプログラムとAI進化プログラムを比較し,脆弱性を示すワークロードを探索する。
- 5つのシステムアプリケーションと30のAI進化プログラムにおいて,49種類の隠れた脆弱性を発見した。
- AIChillesを開発ライフサイクルに組み込むことで,いくつかの脆弱性を緩和できることを示した。
分散型拡散モデルにおけるODEに基づくサンプラーのWasserstein収束:速度場分解による解析 [cs.LG, cs.AI]目的:分散型拡散モデルにおけるODEに基づくサンプラーの収束性
- 拡散モデルは生成タスクで高い性能を示す。理論的な収束性も理解が進んでいる。
- プライバシー保護やスケーラビリティのため分散型アーキテクチャが提案されているが,従来の収束解析が適用できない。
- 確率的な速度場を持つ分散型拡散モデルの収束性をWasserstein距離で保証することを目的とする。
- 本研究では,分散型拡散モデルにおける$N$ステップ離散化が,誤差$\varepsilon$を考慮して$W_2$距離で$\mathcal{O}(N^{-1/2}+\varepsilon)$の収束速度を持つことを示した。
- 確率的な速度場を持つ分散型拡散モデルに対する$W_2$距離での収束結果は,これまで報告例がなかった。
少量トレーニングセットからのサンプリングフリー変分DNNプラグイン学習:不確実性推定によるOODセグメンテーションの改善 [cs.CV, cs.LG, stat.ME, stat.ML]目的:分布外(OOD)医療画像におけるセグメンテーションの改善
- 医療画像診断の精度向上は,患者ケアの質を左右する重要な課題である。
- スキャナや撮影プロトコルの違いにより,深層ニューラルネットワーク(DNN)はOOD画像への汎化性能が低下しやすい。
- 少量データのみでOODセグメンテーションの精度を高め,不確実性も推定すること。
- VarDeepPCAは,小規模な分布内(ID)データセットのみを用いて,有効な解剖学的形状の分布を明示的に学習する。
- 既存手法と比較して,VarDeepPCAはOODデータに対するセグメンテーションマップを改善し,解剖学的妥当性と臨床的有用性を向上させる。
- 追加のトレーニングデータなしでエラーを大幅に削減し,セグメンテーションの不確実性も推定可能である。
予算制約下のLLM検証における不均一な信号:構造的異質性が最適化の利得を制限する [cs.IR, cs.AI]目的:予算制約下のLLM検証における信号の不均一性とその影響の構造的解析
- LLMの性能向上には,計算資源の効率的な配分が不可欠であり,不確実性信号はその判断材料となる。
- 従来のLLMの検証では,入力に対する不確実性信号の信頼性が一様であるという仮定が成り立たない場合がある。
- コスト層間での信号品質のばらつきが,計算資源の配分を歪め,性能低下を引き起こす問題を解決する。
- 検証コスト層によって不確実性の質が異なり,低コスト層では識別能力が低いことが確認された。
- 信号品質の分散が大きい場合,最適化による性能向上は限定的であり,構造的異質性がボトルネックとなる。
- コスト層ごとに閾値を設定するシンプルな介入(CST)により,信号の異質性が強い環境でヒット率が最大17%向上した。
RetailBench:現実的な小売環境におけるLLMエージェントの長期的推論と一貫性のある意思決定のベンチマーク [cs.AI]目的:小売環境におけるLLMエージェントの長期的推論と意思決定能力の評価
- 小売業は経済活動の基盤であり,効率的な運営が社会全体の繁栄に不可欠である。
- 既存のLLMエージェントは,複雑な小売環境のような長期的な意思決定において課題を抱えている。
- 現実的な小売環境下でLLMエージェントの自律性と経済的合理性を検証する環境の提供。
- RetailBenchは,小売店運営をシミュレーション可能なベンチマーク環境として構築された。
- 評価の結果,多くのLLMエージェントが評価期間を最後まで維持できず,性能にばらつきが見られた。
- 性能差は,証拠収集の不完全性,浅い意思決定,長期的な戦略の欠如に起因すると分析された。
STRIDE:検証可能な強化学習のための識別的推定による戦略的軌跡推論 [cs.AI, cs.LG]目的:戦略的軌跡推論における識別的推定
- 大規模言語モデルの推論能力向上は重要であり,その評価と改善が求められている。
- 従来の強化学習による報酬付与は疎であり,各トークンの貢献度を区別できていない。
- 検証可能な結果に基づき,戦略的パターンを識別し,より正確な報酬を付与することを目指す。
- STRIDEは,成功と失敗した軌跡を比較し,戦略的パターンの識別的優位性を推定する。
- この信号と推論の重要度を組み合わせることで,意思決定に重要な戦略的パターンを特定する。
- 実験により,STRIDEが様々なモデルとタスクにおいて推論性能を向上させることが示された。
次活動予測におけるダビデ対ゴリアテ:Argmax対LSTM,Transformer,LLM [cs.LG]目的:次活動予測の性能比較
- 予測型プロセス監視は,業務プロセスの改善に不可欠であり,組織の先見性を高める。
- LLM等の複雑なモデルが発展しているが,それらと既存モデルとの比較が不足している。
- LLM,Transformer,LSTM,Argmaxの性能を包括的に比較し,その有効性を検証する。
- 事前学習は一貫して性能向上をもたらさず,モデルサイズも性能に大きな影響を与えなかった。
- 多くのデータセットにおいて,Argmaxベースラインが数十億パラメータのLLMと同等または近い性能を示した。
- 複雑なモデルの導入が必ずしも性能向上に繋がらないという,意外な結果が得られた。
エージェントハーネスのためのLLMをコードとして扱うエージェントプログラミング [cs.AR, cs.CL, cs.AI, cs.SE]目的:LLMをコードの一部として扱うエージェントプログラミングの提案
- 大規模言語モデル(LLM)エージェントは,様々なタスク自動化の基盤技術として重要性が増している。
- LLMエージェントは,トークン爆発や制御フローの幻覚といった信頼性に関する課題を抱えている。
- 制御フローをプログラムに委ねることで,LLMエージェントの安定性と信頼性を向上させることを目指す。
- 本研究では,LLMをコードの一部として扱うAgentic Programmingを提案し,プログラムが制御フロー全体を管理する。
- LLMのコンテキストは実行履歴のコールツリーから構築され,DAG(有向非巡回グラフ)を形成することで,コンテキスト長を適切に管理する。
- コンピュータ操作エージェントのケーススタディにより,本設計の有効性と長期的な操作シーケンスの安定性向上が示された。
自由エネルギーヒューリスティクス:不確実な精度下における積極的推論としての迅速かつ質素な認知 [cs.CL, cs.AI]目的:大規模言語モデルにおけるメタ不確実性の影響評価
- 大規模言語モデルの性能向上は重要だが,過度な推論が逆効果となる場合がある。
- モデルが自身の証拠の信頼性に不確実な場合に,推論の追加が偽の確信を生む問題がある。
- メタ不確実性が高い状況下で,迅速かつ質素な認知が有効であることを検証する。
- メタ不確実性の高い問題において,より長い連鎖思考(CoT)は精度を低下させる傾向があることが確認された。
- 自由エネルギー最小化の原理と迅速かつ質素な認知は,同一の計算過程を異なる視点から記述していると示唆された。
- 提案された枠組みは,CoTが有効な状況を説明し,ベイズ認知と迅速かつ質素な認知の伝統を統合する。
マルチモーダル大規模言語モデルにおけるフルスペクトルフォレンジック信号知覚のための深層残差注入 [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおけるフルスペクトルフォレンジック信号知覚の実現
- AI生成画像が高度化する中,その真偽判定技術の重要性が増している。
- 従来のセマンティックレベルの不整合だけでは,AI生成画像を確実に検出できない場合がある。
- セマンティック知識を維持しつつ,低レベルな生成アーティファクトを捉える手法を開発する。
- 提案手法Deep-VRMは,セマンティック処理を維持しつつ,アーティファクト信号を注入することで,両方の情報を統合する。
- モデルは入力に応じてフォレンジック信号のレベルを適応的に活用し,堅牢かつ汎化性能の高い検出を実現する。
- 多くのベンチマークにおいて,提案手法が最先端の結果を達成した。
カシュミール語ディアクリティック復元のためのバイトレベルシーケンスツーシーケンスモデル:Koshur Diacritizer [cs.CL, cs.AI]目的:カシュミール語ディアクリティック復元
- デジタル化が進む中で,言語資源の整備が重要となる。
- カシュミール語のデジタルテキストでは,ディアクリティックが省略されがちである。
- カシュミール語ディアクリティックの自動復元を実現し,自然言語処理の精度向上を目指す。
- 提案モデルKoshur Diacritizerは,バイトレベルシーケンスツーシーケンスモデルByT5-smallを基盤とする。
- テストセットにおけるDERmは0.2012,WERは0.2159を達成し,カシュミール語話者による評価では平均精度77.5%を示した。
- データセット,モデル,ソースコードを公開し,今後の研究の基盤を提供する。
知能はボトルネックではない:ピアレビュー結果に対するLLMによる一次稿スコアの妥当性検証 [cs.LG, cs.AI]目的:LLMによる一次稿スコアの,ピアレビューの結果との一致性
- 研究評価の効率化が求められる中で,LLMを活用したピアレビュー支援の重要性が高まっている。
- LLMによるレビュー支援の評価は,生成される文章の質に偏りがちで,スコア自体の妥当性は十分に検証されていない。
- LLMによるスコアリングが,実際のレビュー結果を予測できるかを検証し,その有用性を示す。
- AIPRの全体スコアは,採択/否決を明確に区別でき(AUROC 0.82),ティアごとのランク上昇と平均レビュー評価との相関も示された。
- スコアの有効性は主にモデルに起因し,プロンプトのみによる評価とほぼ同等の識別能力を示した。
- AIPRはスコアの安定性が高く,再現性のある評価と根拠に基づいたレビューを提供できることが示された。
非言語性発声の知覚的品質評価:NVMOS [cs.SD, cs.AI, eess.AS]目的:非言語性発声の知覚的品質の評価基準
- 感情や意図を伝える上で,笑いやため息などの非言語性発声は重要な役割を担う。
- 従来の音声品質評価は自然さに重点を置き,非言語性TTS評価は種類や位置の正確性のみを検証しがちである。
- 非言語性発声自体の知覚的品質に着目し,その評価手法を確立することを試みる。
- 非言語性発声の知覚的品質を評価するためのNV-MOSデータセットを構築し,専門家による評価を得た。
- Gemini等のマルチモーダルLLMは,専門家の評価と乖離があることが示された。
- NVMOSは,非言語性発声に特化したモジュールにより,人間の評価と同等以上の精度を達成した。
UrbanWell:都市のウェルビーイング分析のためのマルチモーダル大規模言語モデルのベンチマーク [cs.AI]目的:都市のウェルビーイング分析におけるマルチモーダル大規模言語モデル(MLLM)の時空間推論能力の評価
- 都市のウェルビーイングは,住民の生活の質に直結し,持続可能な都市開発の重要な指標である。
- 既存のMLLMは,異種な空間情報と時間情報を統合する能力に課題があり,都市のウェルビーイング分析への応用が難しい。
- UrbanWellは,MLLMの時空間推論能力を標準化された方法で評価し,都市のウェルビーイング分析の発展に貢献することを目指す。
- UrbanWellは,衛星画像とストリートビュー画像を用いて,38都市の環境,アクセシビリティ,都市形態,活力,主観的知覚の5つの指標を網羅する大規模ベンチマークである。
- 実験結果から,MLLMは空間的・知覚的な手がかりを捉えるものの,環境や主観的知覚といった異質な都市指標において性能が大きく変動することが示された。
- UrbanWellは,都市のウェルビーイング分析におけるマルチモーダルな時空間推論を評価するための統一的なベンチマークとして機能し,今後の研究開発を促進する。
スカラー経路の忠実度が短距離等方性原子間ポテンシャルの物理的精度を向上させる [cs.LG]目的:短距離等方性原子間ポテンシャルのスカラー経路の忠実度向上
- 物質,分子,界面の分子動力学計算において,原子間ポテンシャルは重要な役割を果たす。
- 等方性ニューラルネットワークポテンシャルでは,局所的な幾何学的表現は改善されているが,スカラーチャネルの集約とスペクトル分解は未検討の点が多い。
- スカラー経路の忠実度を向上させることで,原子間ポテンシャルの精度向上を目指す。
- Physics-Aware Neighborhood (PAN)プーリングとPhysics-Guided Spectral (PGS)ミキサーを導入し,スカラー経路を制御的に探求した。
- 金属Ag,共有結合Si,イオン性LiF/Li--F,MD17/rMD17分子において,MACE力の誤差を22~27%削減し,エネルギー誤差を19~22%削減した。
- ストレスラベル付きシステムでは,ストレス誤差が27~28%減少し,計算コストの増加はわずか5%であった。 AllegroやNequIPにおいても同様の効果が確認された。
LoComposition: 地形適応型エネルギー効率四脚歩行 - 既知の歩行パターンに依存せず [cs.CL, cs.RO, cs.LG]目的:地形適応型エネルギー効率四脚歩行の実現
- ロボット工学における歩行ロボットは,複雑な環境下での自律的な移動を可能にするため重要である。
- 従来の学習ベースの手法では,報酬関数の設計が複雑で,タスク,制約,歩行パターン,地形適応が混在している。
- 本研究は,報酬,制約,エネルギー最小化,知覚を分離することで,より効率的かつ適応的な歩行を実現することを目指す。
- 提案手法は,従来の複雑な報酬ベースラインと同等の地形走破能力を持ちながら,輸送コストを56%削減し,動作限界違反を96%抑制した。
- 明示的な歩行パターン(空中時間,接触数,フットクリアランスなど)を事前に指定しないことで,自然な歩行行動が創発される。
- 学習済みポリシーは,LiDARベースの高度マッピングを用いて,物理的なUnitree Go2ロボットへゼロショットで転移可能であることを示した。
トポロジー的フローマッチング [cs.LG, cs.AI, stat.ML]目的:トポロジーを考慮した生成モデリングフレームワーク
- 複雑なデータ構造の解析において,データのトポロジー的特徴を捉えることは重要である。
- 既存のフローマッチングは,データの持つトポロジー的特徴を無視し,ユークリッド空間上の点として扱うため,表現力に限界がある。
- データのトポロジー構造を捉え,より高精度な生成モデリングを可能にすることを目的とする。
- 本研究では,ラプラシアンからのドリフトを加えることで,トポロジー情報を参照過程に注入する。
- その結果,トポロジー的フローマッチングは,従来のフローマッチングの安定性や決定性などの利点を維持しつつ,構造化されたドメインの構造を捉えることが可能となる。
- 脳fMRI,海洋 currents,地震イベント,交通フローなど,多様な構造化データセットにおける有効性が示された。
SkillVetBench:オープンソースLLMエージェントスキルにおける多次元セキュリティリスク評価のためのLLMを評価者として [cs.RO, cs.CR, cs.AI, cs.HC, cs.LG, cs.MA]目的:オープンソースLLMエージェントスキルに対する多次元セキュリティリスク評価
- LLMエージェントの普及に伴い,そのセキュリティ確保が重要課題となっている。
- 既存の脆弱性スキャンでは,自然言語による指示や多段階エージェント間のリスクを捉えきれない。
- 自然言語の意味理解に基づく,多次元的な評価システムの構築を目指す。
- SKILLVETBENCHは,LLMを評価者として用いることで,エージェントスキルのセキュリティリスクを評価する公開リーダーボードである。
- 提案手法SARSは,5つの次元からリスクを評価する指標であり,78個の悪意のあるスキルに対して誤検出ゼロを達成した。
- 従来の静的解析ツールと比較して,特にプロンプトインジェクション等の脆弱性の検出率が大幅に向上した。
制御平面の配置が忘却に影響する:13のシステム構成におけるエージェントメモリのアーキテクチャ研究 [cs.SI, cs.CY, cs.HC, cs.HC, cs.CL, cs.AI]目的:エージェントメモリにおける忘却の失敗モードとシステムの回復力に関する研究
- 大規模言語モデル(LLM)を用いたエージェントのメモリ管理は,高度な情報処理に不可欠である。
- 既存の研究では,情報の想起に焦点が当てられ,忘却のメカニズムは十分に理解されていない。
- LLMの配置場所に応じた忘却の傾向を明らかにし,より堅牢なメモリシステムを構築することを目指す。
- LLMを情報の書き換えを行う制御平面に配置することで,特定の忘却失敗モードの回復力を高めることができる。
- 決定的な処理のみでは,識別子難読化や多言語対応といった正規化が困難であることが示された。
- 制御平面へのフック導入により,意図に基づいた削除の精度が向上し,全体的なシステム性能が改善された。
MAGE-RAG:長文書QAのためのエージェント型マルチモーダルRAGにおけるマルチ粒度適応グラフエビデンス [cs.IR, cs.AI, cs.CL, cs.DB, cs.MM]目的:長文書マルチモーダル質問応答におけるエビデンスの特定と統合
- 長文資料からの情報検索は,高度な情報処理能力を必要とし,様々な分野で重要性が増している。
- 従来のRAG手法は,固定された粒度での検索に依存し,視覚情報やレイアウト情報を十分に活用できていない。
- 本研究は,動的なグラフ構造を用いてエビデンスを効率的に構築し,コンテキストノイズを抑制することを目的とする。
- MAGE-RAGは,LongDocURLにおいて全体の精度52.75%を達成し,MMLongBench-Docでは53.26%の精度と51.19%のF1スコアを記録した。
- 動的なエビデンスサブグラフ構築により,分散したエビデンスの網羅性とコンテキストノイズの抑制のバランスを取ることを実証した。
- 実験結果から,クエリ時にエビデンスを構築する手法が,既存手法と比較して優れた性能を示すことが確認された。
複数ターンエージェントのためのカリキュラムターンレベルガイダンスを用いたオンポリシー蒸留 [cs.RO, cs.CL, cs.CL, cs.IR, cs.LG, cs.AI]目的:複数ターンエージェントの能力転移
- 複雑なタスク解決において,計画,ツール利用,環境とのインタラクションを行うエージェントの重要性が増している。
- 大規模モデルに依存するため,推論コストが高く,実用化が困難であるという課題がある。
- オンポリシー蒸留における誤差の蓄積を防ぎ,より効率的な能力転移を実現すること。
- 提案手法であるGuided-OPDは,教師と生徒のターンを組み合わせることで,初期段階での軌道教師分布への接近を維持する。
- カリキュラムに沿って教師の介入確率を徐々に減少させることで,推論時の純粋なオンポリシー体制を回復する。
- ALFWorld, ScienceWorld, WebShopにおける実験で,Guided-OPDはvanilla OPDと比較してスコアと成功率を大幅に向上させた。
LLMベースのイベント予測のための強化学習 [cs.CL, cs.HC, cs.RO, cs.LG]目的:LLMベースのイベント予測における強化学習の適用
- LLMの知識範囲を超えた未来予測は,社会情勢の変化に対応する上で重要である。
- 既存のLLMは,知識の截止日以降のイベント予測能力に限界がある。
- LLMに外部情報源を利用させ,予測性能を向上させることを目指す。
- 強化学習手法GRPOを用いて,1.5Bから14BパラメータのLLMをファインチューニングした。
- Qwen 2.5 1.5Bは,市場合意確率とのクロスエントロピーにおいて,Claude Sonnet 3.5を上回る予測性能を示した。
- イベント予測におけるLLMのスケーラビリティや,判断型予測の検証可能性について議論した。
ブール関数を進化させるカルテジアン遺伝的プログラミングの実行時間解析 [cs.NE, cs.AI, cs.LG]目的:カルテジアン遺伝的プログラミングにおける実行時間の解析
- 遺伝的プログラミングは,複雑な問題を自動的に解決する強力な手法であり,様々な分野で応用されている。
- カルテジアン遺伝的プログラミングの効率的な探索能力を理論的に理解することは,アルゴリズムの改善に不可欠である。
- 本研究は,カルテジアン遺伝的プログラミングの実行時間に関する理論的な上限を導出することを目指している。
- カルテジアン遺伝的プログラミングにおいて,n個の入力を持つ論理積を構築する際の期待される適合度評価回数の漸近的上限が,$O(n D^5)$ であることが証明された。
- 厳密な生存選択を用いた場合,$O(n D^5)$,緩やかな生存選択を用いた場合は,$O(n D^4)$ という結果が得られた。
- 等しく良好な解の受け入れが探索を加速させ,実行時間の上限を改善する可能性があることが示された。排他的論理和の進化には指数時間が必要であることも証明された。
機械学習を用いた光プティスモグラフィー信号からの血糖値推定に関する探索的研究 [cs.LG]目的:機械学習を用いた光プティスモグラフィー信号からの血糖値推定
- 世界的に糖尿病や血糖値異常が深刻化しており,血糖値モニタリングの重要性が増している。
- 従来の継続血糖モニタリング(CGM)は侵襲的であり,皮膚への刺激や硬化などのリスクが存在する。
- ウェアラブルデバイスから得られる光プティスモグラフィー(PPG)信号を用いて,非侵襲的な血糖値推定を目指す。
- スマートウォッチ由来のPPG信号とCGMで測定した血糖値のペアデータセットを構築した。
- 初期実験の結果,PPG信号から血糖値を予測できる可能性が示唆された。
- より多くのデータと被験者を用いたさらなる検討が必要である。
ControlMap:交通シナリオシミュレーションのための制御可能な高精度マップ生成 [cs.RO, cs.AI]目的:交通シナリオシミュレーション用高精度マップの制御可能生成
- 自動運転システムの検証においてシミュレーションは不可欠であり,多様なシナリオが重要。
- 高精度マップ作成には高コストがかかり,シナリオの多様性が限られている点が課題。
- 特定の道路構造をターゲットとした高精度マップ生成を可能にすることを目指す。
- 潜在拡散モデルとControlNetによるデータ駆動型パイプラインにより,制御可能な高精度マップ生成を実現。
- 拡散モデルに空間ガイダンス信号を注入する初の試みであり,柔軟な条件付け強度調整が可能。
- 都市レベルのスタイル転送や,制御信号への忠実性,実測マップとの類似性を評価する新規指標を提案。
DeepRoot:歴史的医学テキストにおける治療的推論のための知識グラフ連携マルチエージェントシステム [cs.MA, cs.AI]目的:歴史的医学テキストからの治療薬候補の発見
- 伝統医学は,現代の創薬において重要な情報源であり,その活用が期待されている。
- 過去の医学文献は,標準化された形式でなく,独自の分類体系を用いるため,現代のバイオインフォマティクスパイプラインでの利用が困難である。
- 本研究では,歴史的医学テキストを体系的に解析し,創薬に繋がる検証可能な知見を得ることを目指す。
- DeepRootは,知識グラフを構築・利用するマルチエージェントシステムであり,根拠に基づいた治療的推論を可能にする。
- 「神農本草経」の分析において,DeepRootは,保留されていた化合物-疾患ペアの47.6%(10/21)を再現し,既存のLLMやツール利用型LLMを大きく上回った。
- DeepRootは,他のLLMと比較して,根拠の捏造を大幅に抑制し,推論の整合性においても優れた性能を示した。
ドロップアウト支援における合成データと蒸留データの因果的プライバシー監査ワークフロー [cs.LG]目的:合成データおよび蒸留データの因果的プライバシー監査
- 教育データ分析は学生の成功を支援するが,プライバシー保護が重要である。
- 合成データや蒸留データが,実際のデータと同等の意思決定に利用可能か不明である。
- 生成されたデータが,教育支援の意思決定において適切なプライバシーと精度を両立できるか検証する。
- DPGNetと蒸留データは,敵対的合成やガウスCopulaと比較して,経済状況の効果構造をより確実に維持した。
- DPGNetはエプシロン値に関わらず方向性とランクの一致性を保ち,エプシロン=10でIPWとDMLからの逸脱が最小となった。
- 蒸留データは高い忠実性を維持したが,訓練記録との関連性が強かった。TabularGNetは方向性を保ちつつ効果の大きさを減衰させた。
LLMネイティブソフトウェアにおける生成フローのグラフ確率モデリング [eess.SY, cs.SY, math.OC, cs.SE, cs.AI]目的:LLMネイティブソフトウェアの生成フローの文書化と,LLMベースのソフトウェア設計の特性記述手法
- LLMの急速な発展に伴い,LLMを活用したソフトウェア開発の重要性が高まっている。
- LLMネイティブソフトウェア開発は,体系的な設計手法や分析基盤が不足している現状にある。
- LLMの確率的挙動を考慮しつつ,システムレベルでの性質を記述可能なモデリング手法を確立すること。
- 生成フローを記述するためのグラフ確率モデル「Generation Networks」を提案した。
- このモデルは,LLMネイティブシステム特有の現象を捉え,体系的な議論を可能にする。
- 生成的な相互作用とシステムレベルの特性に関する原理的な推論の基盤を提供する。
Green SARC:エージェント型AIシステムの予測コストと炭素ガバナンス [eess.SY, cs.SY, cs.CL, cs.NI, cs.SY, eess.SY, cs.SE, cs.AI, cs.DC, cs.LG]目的:エージェント型AIシステムのコストと環境負荷を予測・制御するガバナンスフレームワーク
- AIシステムの発展は経済成長と環境保全の両立に不可欠であり,そのガバナンスが重要となる。
- AIシステムの行動範囲が拡大する中で,コストや環境負荷の予測と制御が困難になっている。
- エージェント型AIシステムにおけるコストと炭素排出量を事前に予測し,ガバナンスを確立することを目指す。
- 実世界の計画における状態の雪だるま現象はループの深さの二乗に比例し,線形増加の予測よりも加速が速いことが確認された。
- ノルマル-$\sigma$ゲートはカバー率が低かったが,スプリット確信区間較正によって95%の精度を達成した。
- 予算制約下では,アーキテクチャゲートが予算超過を完全に防ぎ,トークン,USD,炭素の節約効果が確認された(47-55%)。
強い仮定は不要:時間的差分による視覚表現学習 [cs.CV, cs.AI, cs.LG]目的:視覚表現学習における新たなパラダイム
- AIの進歩は,より少ない仮定に基づく手法によって牽引されてきた。大規模データ時代において,弱い帰納的バイアスが有効である。
- 既存の自己教師あり学習は,データ拡張やマスキングなどの強い帰納的バイアスに依存しており,スケール拡大の際のボトルネックとなる可能性がある。
- 本研究は,そのような強いバイアスに頼らず,因果関係に基づいた表現学習を目指す。
- 本研究で提案するTemporal Difference in Vision (TDV)は,過去の状態が未来を決定するという因果的仮定のみに依存する。
- TDVは,画像エンコーダと運動エンコーダを同時に学習し,現在のフレーム表現と運動エンコーダの出力が次のフレーム表現と等価となるようにする。
- 強い帰納的バイアスを用いなくても,TDVは既存の最先端手法と同等の性能を示す。これにより,強い仮定に依存しない表現学習の基盤が構築される。
損失圧縮がニューラル生成的代理モデルに与える影響の定量化 [cs.DC, cs.AI, cs.LG]目的:損失圧縮が生成的代理モデルの品質に与える影響の定量化
- 科学的発見における計算コスト削減の重要性が増しているため
- 大規模な学習データセットの保存・入出力が課題となっている
- 損失圧縮による影響を定量的に評価し,データ圧縮の限界を示す
- 提案手法により,記憶容量・保存要件の大幅な削減と学習速度の向上が確認された。
- データサイズを最大23.7倍,39倍削減でき,代理モデルの品質への影響は軽微であった。
- データロード速度の向上と学習時間の最大3倍短縮も実現した。
PreLort:ランクの異質性下における連合ファインチューニングのための接頭辞ネスト型LoRA [cs.DC, cs.AI, cs.CL, cs.LG]目的:連合ファインチューニングにおけるLoRAの性能向上
- 大規模言語モデルの活用が広がる中,プライバシー保護とカスタマイズが重要である。
- 異なるハードウェア環境での連合学習では,アダプタのランクが異なると集約が困難になる。
- ランクの異質性を考慮し,低ランクのクライアントも高ランクの情報から恩恵を受けられるようにする。
- PreLortは,アダプタ次元を接頭辞階層に編成することで,タスク関連情報を低ランク次元に集中させる。
- セグメントごとの集約ルールと接頭辞ネスト型学習戦略により,一貫した低ランク接頭辞の学習を促進する。
- 実験により,PreLortが既存手法よりも高い精度とROUGE-Lスコアを達成することが示された。
一度形式化すれば,あとは編集のみ:数学的推論のための効率的なLeanベースの解答選択 [cs.CC, cs.CL, cs.CL, cs.AI, cs.LG]目的:数学的推論における解答選択の効率化
- 大規模言語モデルの応用が進む中で,数学的推論の検証には厳密性が求められる。
- 従来のLeanを用いた解答選択では,各候補解答を独立して形式化するコストが高い。
- BASEは,ベースとなる解答のみ形式化し,編集で残りを生成することでコスト削減を目指す。
- 提案手法BASEは,12の(データセット, ソルバー)設定全てにおいて,選択精度を向上させつつ,形式化コストを削減した。
- K=8の場合,自動形式化器の呼び出し回数を約5分の1に削減し,Kの増加に伴い,削減効果はさらに大きくなると期待される。
- LEANSCRIBEという編集器モデルを用いることで,ベース形式化における解答の局所化と再利用可能な編集機能の生成を実現した。
