arXiv雑要約
AI - 2026/06/11 公開
不完全な二値フィードバックを持つレストレスバンディット:PCL-インデックス可能性解析と計算 [cs.LG, math.OC]目的:不完全な二値フィードバックを持つレストレスバンディットのインデックス可能性とウィトルインデックスの評価
- 周波数帯域の利用効率向上は重要であり,レストレスバンディット問題はその最適化手法を提供する。
- センシングエラーなどの不確実性下では,最適な行動方策を解析的に決定することが困難である。
- 部分保存則に基づく解析的・計算的枠組みを構築し,インデックス可能性を検証すること。
- 部分保存則に基づくフレームワークにより,割引報酬やリソースに関する評価指標を算出可能となった。
- 解析的な検証が困難な領域に対しても,効率的な数値計算スキームを開発し,ウィトルインデックスを算出する。
- 広範なパラメータ範囲における実験により,提案手法が既存のベンチマーク手法を上回ることが示唆された。
消費から熟考へ:安定した推論のための人間とAIの関係設計 [cs.CY, cs.AI, cs.HC]目的:人間とAIの間の関係設計
- 大規模言語モデルの普及により情報アクセスは容易になったが,推論能力の向上が課題となっている。
- AIと人間の認知的な脆弱性が共有されることで,相互作用における誤りが増幅されるという問題がある。
- AIとの相互作用に熟考の要素を組み込み,より安全で信頼性の高い意思決定を可能にすることを目指す。
- 本研究では,推論過程を監査可能なループで運用する「関係性反省知能(RRI)」を提案している。
- RRIは,人間の推論とAIの出力を構造的に関連付け,それぞれの限界を補い合う相互作用を実現する。
- AIの安全性を認知アーキテクチャの問題として捉え,推論プロセスへの熟考の組み込みが重要であると示唆している。
分散LLM推論における費用対効果を考慮した品質証明のためのマルチアーキテクチャ評価フレームワークPoQ-Judge [cs.CL, cs.AI, cs.CR, cs.LG]目的:分散型LLM推論における品質証明のための軽量な参照不要の品質評価
- 分散型LLM推論の普及には,信頼性の高い品質評価が不可欠である。
- 従来の評価手法は参照データに依存するため,費用と手間がかかる。
- 本研究は,参照不要で費用対効果の高い品質評価フレームワークを開発する。
- PoQ-Judgeは,TextCNN,MiniLM,DeBERTaの3つのアーキテクチャを比較検討した。
- UltraFeedbackとGPTラベルデータを用いた2段階の学習により,0.747のピアソン相関係数を達成し,従来の参照ベース評価器を上回った。
- 複合スコアリングにおいて,参照ベース評価器と同等の性能を維持しつつ,参照回答の必要性を解消した。
構造的注意税:内容に依存しない文脈学習における検索形式の乗っ取り [cs.CL, cs.AI]目的:大規模言語モデルの文脈学習における検索形式が注意配分に与える影響の構造化
- 検索拡張生成はLLMの性能向上に不可欠であり,外部知識の活用が重要視されている。
- 検索された情報の形式が,その意味内容とは独立に注意配分を歪める可能性がある。
- 検索形式に起因する注意配分の偏りを軽減し,文脈学習の効率を改善すること。
- 知識グラフ形式の情報は,自然言語テキストと比較して2〜3倍多くの注意を集めることが示された。
- 注意スコアを意味的・構造的要素に分解するフレームワークを開発し,形式バイアスの定量化を可能にした。
- タスクとの整合性が検索品質を大きく上回り,形式に基づいた注意の抑制戦略の効果に限界があることが確認された。
NightFeats @ MMU-RAGent NeurIPS 2025:テキストtoテキストタスクのための文脈最適化マルチエージェントRAGシステム [cs.CL, cs.AI, cs.IR, cs.LG]目的:テキストtoテキストタスクにおける文脈最適化マルチエージェントRAGシステムの設計と評価
- 大規模言語モデルの性能向上には,外部知識の活用が不可欠であり,RAGが注目されている。
- 既存のRAGシステムは,評価指標の最適化に偏りがちで,人間による評価との乖離が生じることがある。
- アーキテクチャの透明性と検証可能な根拠に基づいた知識合成により,人間との整合性を高めることを目指す。
- NightFeatsは,MMU-RAGentコンペティションのテキストtoテキストトラックにおいて,Best Dynamic Evaluationを受賞した。
- Claude-SonnetV2やNova-Proを含むプロプライエタリなベースラインを,LLM-as-a-Judgeおよび人間による評価で上回る結果が得られた。
- アーキテクチャの透明性と証拠に基づく根拠付けが,自動評価指標の最適化よりも人間の好みに合致することが示された。
介入するか否か:確率モデルの混合による推論時アライメントの誘導 [cs.LG, cs.AI, cs.CL]目的:推論時のアライメントにおける効果的な介入戦略
- 大規模言語モデルの普及に伴い,安全性と効果的な応答を確保するためのモデルアライメントが重要になっている。
- 既存手法では,信頼性を評価せずにアライメントされたモデルからのガイダンスを使用しているため,性能が不安定になりやすい。
- BlendInは,ガイダンスの信頼度に基づいてモデルの貢献度を調整し,より効率的かつ効果的なアライメントを目指す。
- BlendInは,ガイダンスの質を考慮したアライメントにより,推論時の安定性を向上させる。
- 既存手法と比較して,有益なガイダンスを維持しつつ,信頼性の低い提案の影響を軽減する。
- 困難なモデルペアにおいて,一貫して最大50%の性能向上を実現する。
格子橋:稀な事象に対する逐次推論による忠実な構造化シーケンス合成 [cs.CL, cs.CL, cs.LG]目的:構造化シーケンス合成における信頼性向上
- 自然言語生成において,入力条件を満たす構造化されたシーケンス生成は重要である。
- 従来のデコーディング手法では,条件を満たすシーケンスの確率が低く,生成品質が低下しやすい。
- 入力条件をすべて満たすシーケンスを高確率で生成するための新しい手法を開発する。
- 提案手法 LatticeBridge は,コンパクトなプレフィックス言語モデル,自動化された表面オートマトン,そして改良された逐次モンテカルロデコーダーを組み合わせる。
- CommonGen,E2E NLG,WikiBio の検証タスクにおいて,LatticeBridge は既存手法と比較して,条件の正確な充足率と平均的な充足範囲を改善した。
- 評価結果は,信頼性と重複度,遅延との間のトレードオフを明らかにし,提案手法の有効性を示している。
ごますり評価の二面性:同意構造と介入の限界 [cs.CL, cs.IR, cs.LG, cs.AI, cs.CL]目的:LLMのごますり抑制策の効果検証
- 大規模言語モデルの挙動制御は重要だが,その評価法が不十分である。
- ごますり抑制が,事実に基づいた正しい意見への同意を抑制しないかという検証が不足している。
- 事実とごますりの同意構造を分析し,効果的な介入方法の限界を明らかにする。
- モデルはごますり的同意と事実的同意を幾何学的に異なる部分空間に表現していることが判明した。
- しかし,挙動制御の方向性は両方の部分空間に均等に投影され,区別的な制御は不可能である。
- その結果,事実に基づく正しい意見への同意も抑制されるという問題が明らかになった。
大規模言語モデルに対する適合性に基づいた動的ファインチューニング [cs.CL, cs.LG]目的:大規模言語モデルの最適化の不安定性および汎化性能の限界
- 大規模言語モデルの性能向上は,自然言語処理の発展に不可欠である。
- 大規模な指示データにおけるデモンストレーションとポリシーの不一致が問題である。
- サンプルレベルの最適化分散を制御し,学習の安定性と汎化性能を向上させる。
- CADFTは,モデルの尤度から動的な適合性シグナルを導き出し,不適合なデモンストレーションからの高分散勾配を抑制する。
- 既存のDFTを拡張し,サンプルレベルでの最適化分散を制御する分散制御推定器として解釈できる。
- 実験により,安定性,汎化性能,およびコールドスタート強化学習の初期化が改善されることが示された。
明示的要素から暗黙的意図へ:監査可能な行動推論のための定義済みライブラリ [cs.AI, cs.CL]目的:eコマースセッションデータからの構造化された意味信号の抽出と,購入意図,顧客セグメンテーション,商品親和性などの推論ターゲットの実現
- 行動データ分析は,顧客理解を深め,ビジネス戦略の最適化に不可欠である。
- 従来の予測モデルは精度を重視するあまり,透明性や説明責任が欠如している場合がある。
- 要素レベルでの透明性と正当性のある意思決定経路を確保し,監査可能性を向上させる。
- SemantiCleanは,行動要素を機能,インタラクション,体系的,文脈の4層構造で整理するフレームワークである。
- RedundancyGroup貢献キャップ,TieredPenaltyCalculatorバイアスペナルティ,AdaptiveConstraintModeコールドスタート保護といったメカニズムにより,信号品質を維持する。
- LLM統合意味推論エンジンは,完全な要素メタデータを活用し,再現性のある結果を提供する(sigma=0)。
BioDivergence: 生物医学アブストラクトにおける隠れた文脈的矛盾のベンチマークと評価フレームワーク [cs.CL, cs.AI]目的:生物医学アブストラクトにおける文脈的矛盾の評価
- 生物医学研究は日々進展するが,研究間の見解の相違は頻繁に発生する。
- 既存の評価手法では,文脈依存的な相違を矛盾として単純化しがちである。
- 文脈的相違と直接的な矛盾を区別し,研究の理解を深めることを目指す。
- BioDivergenceは,6つの矛盾分類と13軸の相違点を示すフレームワークを提案。
- 記事が重複しない設定下で,参照モデルの性能は約12ポイント低下。
- Mistral-7B-Instruct-v0.3は,0.5523の精度と0.3894の文脈的F1スコアを達成。
ProcessThinker:ロールアウトに基づく過程報酬によるマルチモーダル大規模言語モデルの推論能力向上 [cs.CL, cs.AI, cs.LG]目的:マルチモーダル大規模言語モデルの推論能力向上
- 視覚的質疑応答は,複雑な多段階推論を必要とするため,高度なAI技術が不可欠である。
- 既存手法は,最終結果のみに基づく報酬に依存しており,推論過程における誤りの特定が困難である。
- 過程報酬モデルを明示的に学習することなく,段階的な報酬を与えることで,推論の安定性を高める。
- ProcessThinkerは,段階的報酬を与えるための実用的な後学習パイプラインである。
- 推論経路を段階的にタグ付けし,教師ありファインチューニングとGRPOを組み合わせることで,高い性能を実現する。
- Video-MMMU,MMVU,VideoMathQA,LongVideoBenchの4つの動画ベンチマークで,ベースラインモデルを上回る性能を示した。
T2MM:LLMによる探究的モデリングを支援するアーキテクチャ [cs.CL, cs.AI, cs.MM]目的:探究的モデリング支援アーキテクチャ
- 科学学習において,視覚化と対話性は不可欠であり,その重要性は高い。
- 既存のLLMツールは,一部の学習環境に必要な視覚的な対話性を欠いている。
- 学習者のモデルの状態を考慮し,動的な対話型モデルを生成することを目指す。
- T2MMは,自然言語による学習者のモデリング要求に対し,高い性能を示した。
- 従来のLLMによるフルコード生成アプローチと比較して,全ての評価指標で優位性が見られた。
- 本研究は,LLMを探究的学習ツールに統合する新たなアーキテクチャを提示する。
推論におけるキャリブレーションドリフト:大規模言語モデルにおける思考連鎖の予算が過信を誘発する方法 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおけるキャリブレーションの評価
- 安全なLLM活用には,モデルの不確実性を正しく評価する能力が不可欠である。
- 思考連鎖推論は精度向上に寄与するが,キャリブレーションへの影響は未解明な点が多い。
- 思考連鎖の予算増加が過信を引き起こす現象(CDUR)の原因と対策を解明する。
- 思考連鎖の予算が一定の閾値を超えると,モデルは誤った回答に高い確信度を付与するCDURが発生することが示された。
- モデルの自己回帰的生成プロセスに着目し,仮説固定化モデルによってCDURの振る舞いを説明した。
- キャリブレーションを考慮した停止ルールCABStopを提案し,推論深度の増加が必ずしも信頼性向上に繋がらないことを示唆した。
アルゴリズムの公平性:公衆衛生における認識と実践のギャップとその克服 [cs.CL, cs.CL, cs.CY, cs.AI, cs.HC]目的:アルゴリズムの公平性に関する認識と実践のギャップの理解
- 公衆衛生における機械学習の利用拡大に伴い,公平性の確保は倫理的・社会的な要請となっている。
- アルゴリズムの公平性に関する知識は存在するものの,実際の公衆衛生研究への実装が遅れているという課題がある。
- アルゴリズムの公平性の知識が実践に繋がらない原因を特定し,そのギャップを埋めるための枠組みを提示する。
- 専門家インタビュー,オンライン調査,体系的マッピングから,公平性の定義のばらつき,トレーニング不足,評価・緩和・監視の実施が少ないことが明らかになった。
- 認識と実践のギャップを,知識・実践のギャップ,知識から行動へのサイクル,知行のギャップという3つの視点から分析した。
- 公平性を行動に移すための「公平性から行動へ」の枠組みを提示し,制度化の弱さ,外部からの推進,精度優先といったシステムレベルの問題を指摘した。
AIEDにおけるLLMの環境コスト:報告と実践 [cs.CY, cs.AI]目的:AIEDにおけるLLMの環境コストの測定と報告に関する標準化された方法
- 教育分野におけるAI技術の発展は,学習者と教育者双方に新たな可能性をもたらす重要な研究領域である。
- LLM利用の拡大に伴い,計算資源の消費と環境負荷が課題となっているが,その評価と報告に関する標準化が遅れている。
- LLM利用時の隠れたコストを可視化し,AIEDコミュニティにおける透明性の向上を目指す。
- AIED 2025の論文を調査した結果,LLMを利用しているプロジェクトは多いものの,計算資源や環境負荷の報告は極めて少ないことが判明した。
- LLMおよびMLシステムによる計算コストと環境影響を測定・報告するためのオープンソース手法を提案した。
- ローカル環境とクラウド環境の両方でカーボンフットプリントを測定できるソフトウェアと,LLMのパラメータ数が不明な場合でも計算コストを算出できる簡便な式を開発した。
AIエージェントを用いた実験の事前登録 [cs.CY, cs.SI, cs.CY, cs.AI, cs.HC]目的:AIエージェントを用いた実験における信頼性向上
- 大規模言語モデルの発展により,AIエージェント実験が認知科学や社会動態研究で重要性を増している。
- AIエージェント実験は再現性が低く,研究者の自由度が高いことが問題となっている。
- AIエージェント実験への事前登録を導入し,研究の透明性と信頼性を高めることを目指す。
- AIエージェント実験特有の自由度(モデル選択,プロンプト調整等)を特定し,その悪用のリスクを指摘した。
- AIエージェント実験向けの事前登録テンプレートを提案し,標準化を提言した。
- 事前登録の実施を会議,雑誌,助成機関に働きかけ,研究の質的向上を目指す。
倫理的評価エージェント (EeVA): 倫理的熟議を支援するエージェント様ワークフローの概念実証試験の結果 [cs.CY, cs.AI]目的:倫理的熟議を支援するためのエージェント様ワークフローの概念実証
- 現代社会における倫理的課題の複雑化に対応するため,専門家以外の担当者への支援が不可欠である。
- 倫理的訓練を受けていない担当者は,倫理的な課題に直面した際に,明確な答えを見つけがたく苦慮する。
- 専門知識が限られた状況下でも,構造化された倫理的熟議を支援するツールの提供を目指す。
- EeVAは,倫理的枠組みに基づいた評価と統合的な分析を,一貫した形式で提供することが確認された。
- 分析結果は,各枠組み間の合意点と相違点を明確にし,調整の提案や解決困難な倫理的緊張を提示した。
- この研究は,LLMを活用したワークフローが,倫理的多様性を維持しながら,倫理学者と非専門家の間のコミュニケーションギャップを埋める可能性を示唆している。
Afrispeechの意味論:様々なドメインとアクセントにおける音声言語モデルの音声意味推論の評価 [cs.CL, cs.AI, cs.SD]目的:音声言語モデルにおける音声意味推論能力の評価
- 音声認識技術は,音声に基づいた理解において重要性が増している。
- アクセントの変化やドメインのシフトが音声推論に及ぼす影響は十分に解明されていない。
- 音声言語モデルの音声意味推論における限界を明らかにし,より堅牢な設計を促す。
- 現在の音声言語モデルは,音声からの意味推論において限界があることが示された。
- アクセントの変化やドメインのシフトは,モデルの推論に影響を与えることが明らかになった。
- より公平で堅牢な音声言語モデルの設計と評価のための指針が提示された。
あらゆる行為には代償が伴う:最先端LLMにおける道徳的構成の圧縮 [cs.CL, cs.AI]目的:LLMの道徳的証拠の構成方法の測定
- AIの倫理的判断は社会実装において不可欠であり,その評価手法の確立が急務である。
- 既存の評価指標は単独の道徳的行為に焦点を当てており,現実の複雑な状況に対応できない。
- 複数の道徳的要素を組み合わせた判断におけるLLMの特性を明らかにし,より正確な評価を可能にする。
- 最先端LLMにおいて,複合的な道徳判断は構成要素の強さに大きく依存するものの,単純な加算関係ではなく圧縮される傾向がある。
- LLMは,道徳的要素の強度に対する非加算的なアンカリングを示し,特定の道徳基盤において残差が見られた。
- 異なるプロバイダーのLLMは,複合的な道徳的選好において高い収束性を示した。
スケーラブルな統計的に妥当なデータマイニングのための少数の再標本抽出 [cs.LG, cs.DB, stat.ME]目的:データマイニング結果の統計的有意性の評価
- データマイニングの信頼性を高めるために,結果の統計的検証は不可欠である。
- 大規模データセットや計算負荷の高い分析において,従来の再標本抽出法は実用的ではない。
- 少ない再標本抽出回数で統計的有意性を評価し,データマイニングの効率とスケーラビリティを向上させる。
- 提案手法FewRSは,偽発見の確率を厳密に保証しながら,統計的有意性を評価できる。
- FewRSは,既存手法と比較して,最大2桁の実行時間短縮を実現した。
- 大規模な実世界データセットにおいても,高い統計的検出力を維持し,データマイニング結果の検証を可能にする。
A2SG:深層スパイクニューラルネットワークの学習のための適応的非対称サロゲート勾配 [cs.NE, cs.CV, cs.LG]目的:深層スパイクニューラルネットワークの学習手法
- 脳の動作原理に即したニューラルネットワークは,低消費電力で効率的な処理が期待される。
- スパイクニューラルネットワークは,学習が困難で,勾配消失や不安定性が課題である。
- サロゲート勾配の適応性と非対称性を利用し,学習の安定化と性能向上を目指す。
- 提案手法A2SGは,空間勾配の変動を抑制し,時間的な勾配の一貫性を維持することで学習を改善する。
- 非対称勾配はニューロンの活動を反映し,勾配の変動を低減し,より平坦な最小値への収束を促進する。
- 様々なモデルとタスクにおいて,A2SGは精度とエネルギー効率を向上させ,汎用的な学習ソリューションとなる。
ProHiFlo:機能ガイダンスを用いた新規タンパク質生成のための階層的フローマッチング [cs.LG, cs.CL]目的:新規タンパク質生成のための手法
- 創薬,酵素工学,合成生物学など,幅広い分野での応用が期待される重要な研究分野である。
- 既存手法は単一解像度で動作し,機能的制約を組み込む仕組みが不足していた。
- 機能的制約を組み込み,効率的な多スケール処理を実現する新規手法を開発し,性能向上を目指す。
- ProHiFloは,粗から細への生成により計算コストを削減しつつ,高い精度を維持する。
- 事前学習済みの予測モデルを活用することで,再学習なしに目的の特性を持つタンパク質生成を誘導する。
- 酵素活性部位のスキャフォールディングにおいて,RFDiffusionと比較して58.9%の成功率を達成した。
SPEAR:ポスト量子化エラー適応回復システムによる効率的な低ビットLLM推論 [cs.AR, cs.AI]目的:低ビットLLM推論における性能回復
- LLMの利用拡大に伴い,推論コストの削減が重要課題となっている。
- 量子化はコスト削減に有効だが,特に小規模モデルで精度劣化が生じやすい。
- 入力依存な量子化誤差への適応的な補正を行うことで,精度低下を抑制する。
- SPEARは,トークンごとのゲート制御された軽量なエラー補償器(EC)を導入することで,W4とFP16のperplexityギャップの56-75%を回復した。
- ECの配置場所は,CKAとエントロピーに基づいて特定され,パラメータ効率を高めた。
- 適応カーネル融合やEC対応スケジューラにより,低ビットGEMMへの統合と予測可能な推論性能を実現した。
ヒポキャンパスにおける明示的記憶はAGIの礎となる [cs.AI, cs.NE, q-bio.NC]目的:AGI実現のためのLLMにおける明示的記憶の統合
- AGIは人工知能の究極目標であり,社会に大きな変革をもたらす可能性を秘めている。
- LLMは暗黙的学習に依存しており,長期的な戦略や記号推論といった高次認知機能が課題である。
- AGI実現には,人間の明示的記憶に相当する機能のLLMへの組み込みが不可欠である。
- LLMの学習メカニズムは人間の暗黙的記憶と類似している点が指摘されている。
- AGIに必要な高次認知機能は,ヒポキャンパスによる明示的記憶に大きく依存している。
- 人工的な明示的記憶システムの構築要件を提示し,さらなる研究を促進することを目指す。
物理に基づいた生成AI:半導体製造における厳格な物理的制約の組み込み [cs.LG, cs.AI, cs.AR]目的:半導体製造における生成モデルの物理的制約の組み込み
- 半導体製造は,高度な精密さを要求され,微細化の限界に迫っている。
- 従来の生成AIは,物理的妥当性を考慮せず,実現不可能な設計を生み出す可能性がある。
- 物理法則を組み込んだ生成AIにより,物理的に有効な設計を効率的に生成することを目指す。
- 生成AIが物理的制約を満たすように設計することで,無駄な試行回数を減らし,開発期間を短縮できる。
- 物理情報に基づいた拡散モデル,偏微分方程式制約変分モデルなど,新しいアーキテクチャの可能性が示唆されている。
- 物理的妥当性を組み込むことで,フィルタリングだけでは達成できない性能向上が期待される。
リスク感受性6Gロボティクスに向けたマルチエージェント意味的Kスケジューリング [cs.RO, cs.LG, cs.MA]目的:リスクを考慮した6Gロボティクスの協調制御の維持
- 6G通信はロボティクスの発展に不可欠だが,無線資源の制約が課題となる。
- 複数のロボットが同時に通信を行う場合,物理チャネルの制約により困難が生じる。
- 限られた帯域幅下での,ロバストかつリスクを考慮した協調制御を実現すること。
- 提案手法MASKは,通信制約下でも無制約時と同等の性能を発揮することが示された。
- A-SIG機構により,上位Kエージェントのみを優先的にスケジューリングすることで効率的な通信を実現。
- 自己教師あり学習により,データスパース性下でもテールリスクを軽減するロバスト性が確認された。
機械場ネットワーク:多変量システムのための構造化されたニューラルダイナミクス [cs.LG]目的:多変量動的システムの隠れた共同ダイナミクス機構の解明
- 複雑なシステムの挙動を理解し,予測することは,科学,工学,社会において重要である。
- システムの内部構造が不明な場合,正確なモデリングや予測が困難となる。
- 学習を通じてシステムの構造とダイナミクスを同時に捉え,予測精度と解釈性を高める。
- MF-Netは,共有された場状態を用いて変数を表現し,学習された関係法則によってその状態を更新する再帰的な動的モデルである。
- 知られた法則を持つ相互作用システム,カオスベンチマーク,ニューラル記録,生態時系列において,競争力のある予測性能と構造の可視化を両立した。
- ローレンツ96テストベッドにおいて,8ステップ先の$R^2$が0.798±0.018を達成し,学習された関係行列は局所的な結合構造を高い精度で再現した。
Bernstein-Schurカーネル:スケッチされた変調と半径方向のランダム化によるランダム特徴 [cs.LG]目的:Bernstein-Schurカーネルに対するランダム特徴の構成
- カーネル法は機械学習において重要な役割を担う。カーネルの選択と効率的な計算が課題。
- 非定常カーネルは既存のランダム特徴手法では直接適用が難しい場合がある。
- 有限特徴カーネルと完全単調半径方向カーネルを組み合わせたBernstein-Schurカーネルのランダム特徴構成を提案する。
- 提案手法は,有限変調のスケッチと完全単調半径方向因子のランダム化を組み合わせる。
- 変調を厳密に保持した場合,不偏性,正確な分散,およびオペレータノルムに関する期待値の境界が証明された。
- スケッチ条件の下で,同様のオペレータノルム保証と追加のスケッチ項が継承される。
モバイルNPUにおける省エネオンデバイスRAG:Snapdragon X Eliteでのシステム設計とベンチマーク [cs.CL, cs.LG, cs.PF]目的:モバイルNPUを用いた省エネルギーなオンデバイスRAGパイプラインの実現
- プライバシー保護,低遅延,オフライン利用のニーズから,エッジデバイスでのLLM処理が重要視されている。
- CPUでの推論は消費電力が課題であり,オンデバイスRAGの普及を妨げている。
- Snapdragon X EliteのNPUを活用し,低消費電力で高品質なオンデバイスRAGを実現すること。
- Snapdragon X EliteのNPUは,インデックス処理においてCPUと比較して9.1倍の埋め込みスループット,12.3倍の省エネを実現した。
- Wikipediaデータセットのクエリ処理において,NPUはCPUと比較して18.1倍高速なLLMプレフィリング,4.0倍低いエンドツーエンドのクエリレイテンシ,4.0倍の省エネを示した。
- GPT-4.1による評価では,NPU,CPU,GPU間での回答品質に差は見られず,実用的なオンデバイスRAGの可能性を示唆した。
勾配ベースのGray-Scott系逆問題に対する損失地形の診断:PINN構成要素の役割の解明 [cs.LG, nlin.PS, physics.comp-ph]目的:Gray-Scott系のパラメータ復元における損失地形の構造分析
- 反応拡散系の逆問題は科学技術の様々な分野で重要であり,その効率的な解法が求められている。
- 従来の逆問題解法は,計算コストや精度に課題があり,直接的な勾配降下法は困難であった。
- 本研究は,直接的な勾配降下法を用いて損失地形を分析し,PINNの構成要素の役割を明らかにする。
- 勾配ベースのパラメータ復元は収束せず,損失地形には勾配信号のない平坦な領域と急峻な崖が存在することが確認された。
- 損失地形の構造は,損失関数や勾配の経路に依存せず,常に再現されることが示された。
- ニューラルネットワーク単独では,不適切なパラメータ空間を改善できず,観測データの補完に貢献するに過ぎないことが明らかになった。
RAIL:大規模音声言語モデルにおける聴覚知能の再考 - CHC理論に基づくベンチマーク [cs.SD, cs.AI]目的:大規模音声言語モデルの聴覚認知能力評価パラダイム
- 人間の聴覚認知は複雑であり,その理解はAI開発において不可欠である。
- 既存の評価方法はタスク指向であり,モデルの認知行動を詳細に捉えられていない。
- CHC理論に基づき,より人間らしい聴覚認知能力を評価する枠組みを提示する。
- RAILは,聴覚知能を5つの主要な能力に分類し,それらを評価する構造化されたタスクを開発した。
- 26の最先端モデルを評価した結果,認知能力に大きなばらつきがあることが明らかになった。
- RAILは,タスク中心のベンチマークから,認知に基づいた聴覚知能の評価へとパラダイムシフトをもたらす。
言語モデルにおけるアダプター干渉の理解:パラメータ空間の幾何学的な限界 [cs.LG, cs.AI]目的:言語モデルにおけるアダプター干渉に関する理解
- 大規模言語モデルの制御は重要であり,特定のドメイン知識を組み込む必要がある。
- ドメイン固有の動作追加時に,異なるドメイン間での干渉が発生しやすい。
- アダプターの干渉がパラメータ空間の幾何学に起因するかを検証する。
- 単一ドメイン性能はLoRAと同等レベルだが,幾何学に基づいた統合はマルチドメイン設定で一貫した利点を示さなかった。
- アダプター更新の角度的配置と直交性は,構成性能の弱い予測因子であることが判明した。
- アダプター干渉はパラメータ空間の幾何学よりも,共有される非線形表現との相互作用に起因すると考えられる。
検索後の毒:チャンキングと再ランキングパイプラインにおけるコーパスポイズニングの再検討 [cs.CR, cs.AI]目的:検索拡張生成(RAG)システムにおけるコーパスポイズニング攻撃の有効性とその影響
- RAGシステムは実用性が高く,情報検索と自然言語生成を組み合わせるため,幅広い応用が期待されている。
- RAGシステムは悪意のある知識注入によるコーパスポイズニング攻撃に対して脆弱であり,セキュリティ上の懸念がある。
- 現実的なRAGパイプラインにおけるポイズニング攻撃の弱点を明らかにし,より堅牢な攻撃手法を提案すること。
- 既存の攻撃手法は,再ランキング段階で効果が低下することが示された。これは,チャンキングによって文書レベルの敵対的信号が断片化されるためである。
- 提案手法CRCPは,チャンキング変換を考慮し,局所的に自己完結型の敵対的パッセージを生成することで,高い攻撃成功率と堅牢性を示す。
- 現在のRAGセキュリティ評価にはリアリズムの欠如があり,ポイズニングは多段階検索の一貫性問題として研究されるべきである。
衝突前に見る:凍結された視覚言語モデルを用いた予測的安全強化学習 [cs.LG]目的:衝突回避のための予測コスト項の導入
- ロボットの安全な動作を実現するには,高速な環境変化への対応が不可欠である。
- 従来の強化学習では,コストが累積してから安全機構が作動するため,高速な衝突には対応が遅れる。
- 視覚言語モデルを活用し,衝突前に危険を予測することで,より迅速な安全確保を目指す。
- 凍結された視覚言語モデルをCMDPラグランジュ更新に組み込むことで,予測的なコスト項を実現した。
- Safety-Gymnasium FormulaOne L2において,提案手法は高い報酬を維持しつつ,コストを予算内に抑えることに成功した。
- MetaDrive Mediumへの転移実験でも有効性が確認され,Catastrophe rateを低減した。
モデル予測からの情報漏洩の事前知識なし検出 [cs.LG, cs.CR]目的:モデル予測と結果のみから情報漏洩の検出
- 機械学習の科学的応用において,再現性の失敗の主要因がデータ漏洩である。
- 既存の検出ツールは,トレーニングコードや外部データ,専門知識を必要とする。
- モデルの出力のみから漏洩を検出し,信頼性の高い判断を可能にする。
- 予測リスク/結果の法則に基づき,適切なスコアリングルールと決定曲線分析を用いた漏洩診断の決定理論的枠組みを提示した。
- 再キャリブレーションされた漏洩は,予測関数のみでは正直なモデルと区別できない。外部からの識別力の天井との比較が必要である。
- ほぼ決定論的なサブグループ(ラベル漏洩の兆候)は,正当な予測器では製造できない一貫した純度を示すため,事前知識なしのテストが可能である。
LakeFM:不規則な多変量多深度時系列データを用いた水生生態系のための基盤モデルへ [cs.LG]目的:水生生態系の基盤モデルの構築
- 湖沼の健全な水質維持は,生態系保全や水資源管理において重要である。
- 既存研究は規則的なデータでの学習に限定され,多様な湖沼への汎化が課題である。
- 不規則データに対応し,多様な湖沼環境下での予測性能向上を目指す。
- LakeFMは,多様な湖沼の特徴を捉えた表現学習を可能にした。
- 既存の時系列モデルと比較して,予測性能で競争力または優位性を示した。
- 物理的に妥当な予測結果が,現実世界の湖沼動態と整合性があることが確認された。
言語モデル蒸留における潜在的な行動伝達比率の定量化 [cs.LG, cs.AI, cs.CL]目的:言語モデル蒸留における潜在的な行動伝達比率の定量化
- 大規模言語モデルの安全性確保は重要であり,有害な行動の伝播を防ぐ必要性がある。
- 教師モデルが持つ潜在的な有害行動が,蒸留を通じて学習モデルに意図せず伝達される可能性がある。
- 教師モデルの行動伝達比率を定量的に把握し,安全な学習モデルの開発に貢献すること。
- Llama-2では,行動伝達が明確な閾値($\tau = 0.25, 0.32$)を超えて急激に増加する傾向が確認された。
- Qwen2.5では,Llama-2とは異なり,継続的かつ高いレベルで行動伝達が観察された($\tau$は最大0.61)。
- 有害行動の伝達は頑健であるが,モデルによってその振る舞いが異なることが示された。
連合継続学習:分散型非定常データにおける生涯学習とプライバシー保護学習に関する包括的調査 [cs.LG, cs.AI]目的:分散環境下における生涯にわたる適応的でプライバシーを重視した学習の現状と課題
- 現実世界のデータは常に変化するため,機械学習モデルの長期的な安定性と性能維持が重要である。
- 従来の連合学習はデータの静止性を前提としており,非定常データ下では性能劣化や忘却が発生する。
- 分散環境下におけるデータの変化に対応し,プライバシーを保護しながら継続的に学習する手法を確立すること。
- 本調査は,連合継続学習(FCL)の定義と特徴を明確に提示し,従来の連合学習の限界を分析している。
- FCLアプローチの多次元分類体系を提案し,代表的な応用分野と評価指標をまとめている。
- 極端な異質性への対応,スケーラブルなプライバシー保護メモリ機構の開発,標準化されたベンチマークの確立が今後の課題として挙げられている。
流体中における強化学習を用いた多エージェントのランデブー [cs.MA, cs.LG, physics.flu-dyn]目的:多エージェントシステムにおけるランデブー戦略
- 複数エージェントが協調して動作する技術は,ロボット工学や群知能など,幅広い分野で重要性が増している。
- 流体環境下では,エージェントが流体の運動にうまく利用できず,ランデブーが困難になるという課題がある。
- 流体の特性を考慮した新たなランデブー戦略を強化学習によって開発し,その有効性を検証することを目指す。
- 強化学習を用いた戦略は,単純な戦略と比較してランデブー成功率を大幅に向上させた。
- 学習された戦略は,渦の強度,規模,群れの大きさの変化に対しても高い適応性を示した。
- 理論解析により,流体の変形がランデブーを阻害することが示され,弱変形領域での目標設定の重要性が明らかになった。
RoVE:相対位置依存の価値経路に対する回転値埋め込みアテンション [cs.LG, cs.AI]目的:相対位置依存の価値経路に対するアテンション機構
- Transformerモデルの性能向上は,自然言語処理をはじめ,多様な分野で重要である。
- 既存の位置埋め込みは,クエリとの相対位置を考慮する一方で,価値経路が位置に依存しないという課題があった。
- 価値経路にも位置情報を組み込み,長距離の文脈を考慮したアテンション機構を構築することを目指す。
- RoVEは,キーと同時に価値を回転させることで,位置に依存する価値経路を実現する。
- この手法により,RoPEアテンションはアテンティブ畳み込みと解釈できる統一的な視点が得られた。
- GPT-2モデルの実験結果から,RoVEは少数ショット学習,分布外のperplexity,長文脈検索においてRoPEを上回る性能を示すことが確認された。
最小作用原理に基づく拡散モデルによる物理的外挿 [cs.LG, physics.comp-ph]目的:物理的外挿のための拡散モデル
- 計算物理学において,生成モデルによる信頼性の高い外挿は重要な課題である。
- 有限範囲で学習したモデルは,学習分布外で物理的に矛盾した予測を生む可能性がある。
- 推論時に物理的整合性を促進し,外挿時の問題を解決する。
- LAPGは,自由落下,スプリング質量系の運動,渦,翼型周りの流れにおいて,位相ずれを低減した。
- また,減衰の保持,渦の運動の捕捉,翼型の揚力応答の改善にも貢献した。
- 学習時に物理情報を組み込んだベースラインと比較して,外挿性能が向上した。
差分プライバシー下における合成データ生成の固定パラメータ計算可能性 [cs.DS, cs.LG, stat.ML]目的:差分プライバシーを考慮した合成データ生成問題
- プライバシー保護の重要性が高まる中,データ利用とプライバシー保護の両立が課題となっている。
- 既存手法では,合成データの品質とプライバシー保護のバランスが十分でない場合がある。
- クエリ系列のインシデンスグラフのツリー幅をパラメータとした計算可能性を明らかにすること。
- 本研究では,クエリ系列のインシデンスグラフのツリー幅をパラメータとする合成データ生成問題に対し,固定パラメータ計算可能性を確立した。
- 線形計画法と双対問題の分離問題の固定パラメータ計算可能性に基づくアプローチ,およびギブス分布からのサンプリングの固定パラメータ計算可能性に基づくアプローチの二つを提案した。
- 両アプローチは,ツリー分解に基づく動的計画法フレームワークによって統一されている。
Phi-Actor-Critic:一般和ゲームをパレート効率的な相関均衡へ導く [cs.MA, cs.GT, cs.LG]目的:一般和ゲームにおけるパレート効率的な相関均衡への学習
- 現実世界のマルチエージェントシステムは一般和ゲームとして捉えられ,その効率的な制御が重要である。
- 標準的な強化学習手法は,社会的に望ましくない均衡に収束しやすいという課題がある。
- 後悔最小化を利用し,社会厚生の高い相関均衡への学習を促進することでこの課題を解決する。
- 提案手法Phi-Actor-Criticは,集中型アテンションクリティックを用いて効率的な後悔推定を実現する。
- ラグランジュ関数に基づく均衡選択メカニズムにより,社会厚生を最適化しつつ安定性を確保する。
- 実験の結果,多様な環境において効率的かつ安定した協調戦略を獲得できることが示された。
FreeBridge:細胞遷移ダイナミクスに対する変分シュレーディンガーブリッジ [cs.LG, cs.AI]目的:単一細胞の遷移モデリング
- 細胞応答の定量分析は重要だが,連続的な軌跡の観察は困難。
- 末端の一致だけでは,中間過程の進化を特定できないという課題がある。
- 幾何学的制約を加えることで,解釈可能な遷移ダイナミクスを構築する。
- FreeBridgeは,単一細胞表現を原子状態とし,幾何学的な制約下で確率的輸送を学習する。
- BBBC021,RxRx1,JUMPのデータセットにおいて,高い末端一致性と作用機序の保持を実現した。
- 特にBBBC021において,中間的なサポート違反を減少させたことから,幾何学的基盤の重要性が示唆された。
FlowBank:事前計算と再利用によるクエリ適応型エージェントワークフロー最適化 [cs.LG, cs.AI, cs.CL]目的:クエリ適応型エージェントワークフローの最適化
- 大規模言語モデルを用いたマルチエージェントシステムは強力だが,効率的なワークフロー最適化が課題である。
- 既存手法は,オフライン計算と推論コストのトレードオフに陥り,十分な性能を発揮できていない。
- 再利用可能なワークフローのバンクを構築し,クエリに応じて最適なワークフローを選択することで,この問題を解決する。
- FlowBankは,多様なワークフロー候補を生成し,圧縮してコンパクトなポートフォリオを構築する。
- 各クエリを最適なワークフローに割り当てることで,性能とコストのバランスを実現している。
- 5つのベンチマークにおいて,既存手法と比較して高い平均スコアを達成し,性能向上を示した。
ほとんど何もない状態からの学習:ニューラルネットワークが重度の入力破損をどのように乗り越えるか [cs.CL, cs.LG, cond-mat.dis-nn]目的:ニューラルネットワークにおける入力破損に対する頑健性
- 機械学習において,現実世界のデータはノイズを含んでいることが多く,その頑健性は重要な課題である。
- 入力ノイズに対する理論的な分析は,ラベルノイズと比較して遅れており,理解が不十分である。
- 本研究は,重度の入力破損下におけるニューラルネットワークの頑健性のメカニズムを解明することを試みる。
- ニューラルネットワークは,入力が90%以上破損した場合でも,人間を超える精度を維持し,頑健であることが示された。
- 無限幅ネットワークの解析から,ネットワークが最近傍平均分類ルール(プロトタイプルール)に基づいた意思決定を行っていることが明らかになった。
- このルールは,様々なネットワークアーキテクチャや活性化関数で普遍的に適用され,学習が成功する理由を説明する。
具現化されたR1.5:具現化された基盤モデルによる身体知能の進化 [cs.RO, cs.AI, cs.LG]目的:身体知能の実現に向けた,具現化された認知,タスク計画,修正,指示といった包括的な具現化された推論能力を統合する統一的な具現化された基盤モデル
- ロボット工学において,現実世界での複雑なタスクをこなす身体知能の開発は重要課題である。
- 既存のモデルは,タスク間の矛盾やデータ不足により,汎用的な身体知能を実現できていない。
- 本研究は,大規模データと学習手法により,多様なタスクにおいて高性能な身体知能を実現することを目指す。
- 80億パラメータという比較的少ない規模で,24の具現化されたVLMベンチマークのうち16個で最高性能を達成した。
- 内部化された具現化能力により,少量のデータでVLAモデルを凌駕する性能を発揮した。
- 実ロボット実験により,指示の理解,アフォードンスの把握,複雑な操作など,現実世界への高い汎化能力を実証した。
AIエージェントは科学的結論を合成できるか [eess.SY, cs.SY, cs.HC, cs.ET, cs.SY, eess.SY, cs.AI, cs.CL, cs.CY]目的:科学的結論の合成能力の評価
- 科学的発見の加速化と,エビデンスに基づいた意思決定の重要性が高まっている。
- AIエージェントによる科学的結論の合成は,現状では信頼性に課題が残されている。
- 大規模な評価ベンチマークと厳密な評価環境を構築し,AIの真の合成能力を測定する。
- 大規模ベンチマークSciConBenchを構築し,科学的結論の合成能力を評価した結果,最先端モデルのF1スコアは0.337にとどまった。
- クリーンルーム環境下での評価は,制約のない評価と比較して性能が低下し,データリークが性能を過大評価している可能性が示唆された。
- 消費者向けAIエージェントの検証では,不完全または矛盾する結論が頻繁に生成されることが確認された。
エネルギー保存型ニューラルパイプライン:物理保存制約によるモジュール型ニューラルネットワークにおける誤差伝播の抑制 [cs.LG, cs.RO]目的:モジュール型ニューラルネットワークにおける誤差伝播の抑制
- 深層学習の発展に伴い,複雑なタスクに対応するモジュール型ネットワークの重要性が増している。
- モジュール間の情報の伝達において,誤差が累積・増幅し,性能低下を引き起こす可能性がある。
- 物理保存則であるエネルギー保存制約を導入し,誤差伝播を抑制し,ロバスト性を向上させる。
- エネルギー保存制約を課すことで,ノイズ条件下での精度劣化を大幅に抑制できることが示された。
- パイプラインの深さに対する依存性を軽減し,深層化による性能低下を防ぐ効果が確認された。
- 様々な種類のノイズや,正規化手法の有無によって効果が変化することが明らかになった。
