arXiv雑要約
AI - 2026/06/16 公開
ニューラルベイズ異常軽減:教師なし汚染分類器としても機能するロバスト損失 [cs.CL, cs.LG, astro-ph.CO, stat.ML]目的:汚染に対するロバスト性と,汚染された観測データの識別
- 機械学習モデルの信頼性は,現実世界のデータにおけるノイズや異常に大きく左右される。
- 既存のロバスト損失関数は汚染への耐性はあるが,どのデータが汚染されているかを特定できない。
- 汚染データの識別と,それに対応するモデルの改善を目指す。
- 提案手法NBAMは,ベイズ潜在スイッチ混合モデルに基づく汎用的なロバスト損失関数である。
- NBAMは,汚染データの識別を行う教師なし汚染分類器としても機能する。
- CIFAR-10実験の結果,NBAMは既存のロバスト損失関数を上回り,汚染構造を正確に復元した。
汎用的な音声ディープフェイク検出のための二重粒度直交的潜在変数分離 [cs.SD, cs.AI]目的:音声ディープフェイク検出における汎化性能の向上
- 音声合成技術の進歩により,ディープフェイク音声が深刻な脅威となっている。
- 既存の検出器は話者固有の特徴を学習しやすく,未知の話者に対する汎化性能が低い。
- 潜在変数の分離により,話者情報と合成アーティファクトを分離し,汎化性能を高める。
- 本手法はサンプルレベルとバッチレベルで直交性を強制する二重粒度潜在変数分離フレームワークを用いる。
- ASVspoof 2019 LA, 2021 DF,およびIn-the-Wildデータセットで最先端の性能を達成した。
- 特に,クロスデータセット転移において,勾配反転分離法を2.60%絶対的に上回る結果が得られた。
カイロス:物理AIのためのネイティブワールドモデルスタック [cs.AI, cs.CV]目的:物理AIのためのワールドモデルスタックの設計と実装
- 物理AIの発展には,環境を理解し,長期的な予測を行う能力が不可欠である。
- 既存のワールドモデルは,多様なデータからの学習や,長期的な状態維持に課題がある。
- 多様な経験からの学習,長期的な状態維持,効率的な実行を可能にするワールドモデルの構築。
- カイロスは,クロスエンボディメントデータカリキュラムを用いたネイティブ事前学習パラダイムを採用し,多様なデータから世界を学習する。
- ハイブリッド線形時間注意機構を備えたネイティブ統一アーキテクチャにより,世界理解,生成,予測を統合し,長期的な状態維持を実現する。
- サーバーおよびコンシューマーグレードのハードウェアでの低遅延ロールアウト生成を可能にする,デプロイメントを意識したシステム共同設計を取り入れている。
コンセプトボトルネックモデルにおけるシンボル検出の信頼性評価 [cs.DC, cs.LG, cs.CV, cs.SC]目的:コンセプトボトルネックモデルにおけるシンボル検出の信頼性の評価
- 説明可能なAIの実現は重要であり,人間の理解可能なシンボルを用いるCBMはその有力な手法である。
- CBMはタスク精度が高い場合でも,ボトルネックにタスク固有の近道が学習され,説明の信頼性が損なわれる可能性がある。
- 本研究は,CBMにおける信頼性の低いシンボルを特定し,その影響を軽減する訓練戦略を提案することを目的とする。
- 概念検出器と分類ヘッドを入れ替える実験により,信頼性の低い概念を特定し,その程度を評価した。
- 概念の完全な教師あり学習データセットでは,シンボルの交換による性能劣化は軽微であった。
- 信頼性に基づいた訓練戦略は,性能劣化を大幅に軽減し,シンボルの交換精度を向上させた。
忠実性のギャップ:自然言語と形式数学の文の間の意味的同値性の認証 [cs.AI, cs.LG]目的:自然言語の数学を形式的な証明アシスタントに翻訳する際の忠実性の検証
- 数学の自動形式化は,数学の厳密性を保証するために不可欠であり,その精度が重要である。
- 自動形式化において,形式化された文が型チェックや証明可能であっても,元の文の意味を正確に反映していない場合がある。
- 自然言語文の意味と形式文の意味の乖離を検出し,忠実性を保証する手法を開発すること。
- 双方向の証明可能性フィンガープリント(\bpf{})により,形式文の周囲の理論的帰結関係を特徴付け,自然言語文から派生したプローブとの一致度を評価する。
- カウンターファクチュアルプローブ生成(\cpg{}),同値性スペクトル,適応型プローブ予算配分(\apba{}),忠実性誘導デコーディング(\fgd{})の4つの要素を導入した。
- 実験の結果,\bpf{}と\cpg{}の組み合わせにより,形式化のドリフト検出率が大幅に向上し,最先端の自動形式化器のドリフト率を47%削減した。
学習されたサービスオーケストレーションにおけるインセンティブとエビデンス [cs.RO, cs.CL, cs.DC, cs.LG]目的:サービスオーケストレーションの学習におけるインセンティブ構造と,そのエビデンスの検証
- サービスオーケストレーションは,クラウド環境での効率的なリソース利用に不可欠であり,自動化による運用コスト削減が期待されている。
- 強化学習を用いたオーケストレーションは,実運用環境における変動への対応が課題であり,性能劣化が懸念されている。
- 既存研究のエビデンス検証を通して,性能劣化の要因を特定し,実用的なオーケストレーション技術の発展に貢献する。
- 既存の強化学習ベースのオーケストレーションシステム3つを評価した結果,予測された性能低下の多くは確認されなかった。
- 性能低下の多くは,比較対象の崩壊や評価方法に起因すると診断され,学習コントローラーのロバスト性を示すエビデンスは限定的であった。
- 研究は,論文発表のインセンティブが,実運用性能を示すエビデンスよりもベンチマークの改善を優先する傾向にあると指摘する。
ROSA-RL:強化学習を用いた不確実性を考慮した環状交差点進入速度推奨システム [cs.AI, cs.RO, cs.SY, eess.SY]目的:環状交差点における安全かつ効率的な進入のための速度推奨
- 自動運転技術の普及において,多様な交通参加者や予測困難な行動が課題となる。
- 環状交差点では,人間ドライバーの不確実な行動により,安全な進入が困難である。
- 不確実性を考慮した速度推奨により,環状交差点の安全性と効率性を向上させる。
- ROSA-RLは,Transformerモデルを用いて将来の衝突領域の占有予測を行う。
- この予測は不確実性を考慮し,強化学習のstateとして活用することで,安全な速度調整を可能にする。
- シミュレーション評価の結果,ROSA-RLは既存手法を上回り,理想的な環境に近い性能を発揮した。
MIRAGE:最先端LLMにおけるイスラム嫌悪バイアスの監査 - 推論,エージェント,時間的条件における検証 [cs.LG]目的:最先端LLMにおけるイスラム嫌悪バイアスの評価
- 大規模言語モデルの普及に伴い,社会への影響が大きいため,倫理的な問題の検証が不可欠である。
- 既存の評価は単純なプロンプト完遂に偏っており,実際のLLMの利用状況を反映していない。
- 現実的な利用状況下でのバイアスを明らかにし,効果的な緩和策の研究を支援すること。
- 連鎖思考推論は,直接完遂と比較して,イスラム教徒と暴力の関連性を12〜34%増幅させる。
- エージェントによる意思決定は,同一の証拠に基づいても,イスラム教徒とマッチングされた非イスラム教徒の間で,9〜22パーセントポイントの非対称性を示す。
- バイアスは取得されたニュース文脈と強く相関し,紛争時の文脈下では18〜27%増加する。
弾性ODYN:ロボティクスの実行不可能な制御と学習のための微分可能最適化 [cs.RO, cs.LG]目的:ロボティクスにおける実行不可能な制御と学習のための微分可能最適化手法
- ロボットは複雑な環境で動作するため,多目的最適化が不可欠である。
- 従来の最適化手法は制約条件が満たされない場合に失敗しやすい。
- 実行不可能性を許容し,ロバストな最適化を可能にすること。
- 弾性ODYNは,制約条件が満たされない場合でも安定した解を得る手法である。
- 従来の弾性QPソルバーと比較して,ロバスト性,ウォームスタート性能,収束信頼性が向上する。
- 最適化,シミュレーション,制御,学習における既存手法の限界を超えることが可能となる。
ニューラル常微分方程式の検証ツールボックスTNODEV [cs.AI, cs.LG, cs.SY, eess.SY, math.DS]目的:ニューラル常微分方程式の形式検証
- 安全性が重要なシステムへの応用が進む中で,ニューラルODEの信頼性保証が不可欠である。
- 既存の検証ツールは,入力集合の反復的な改善を行わず,検証精度に限界があった。
- TNODEVは,反復的な入力集合の改善により,より高精度な検証を可能にする。
- TNODEVは,ファルシフィケーションチェッカー,高速な区間ベースリーチナビリティバックエンド,検証・改善ループを統合した初の形式検証器である。
- TNODEVは,純粋なニューラルODE,ニューラルネットワークコントローラとの閉ループ,および一般的なニューラルODEを検証可能である。
- ベンチマークテストの結果,NNV 2.0やCORAと比較して,リーチナビリティと検証において優れた性能を示した。
迅速なタイミング,慎重な誰:拡散増強による多者間ターンの譲渡プロセス [cs.CL, cs.AI]目的:多者間対話におけるターンの譲渡機構
- 自然な対話システム構築には不可欠であり,その性能がユーザ体験を大きく左右する。
- 既存手法は主に二者間対話向けであり,多者間対話の複雑さ,特に重なりや急激な話者交代への対応が課題である。
- 多者間対話データを用いて,タイミングの検知と話者交代の判断を分離するパイプラインを提案し,性能向上を目指す。
- 提案手法は,ベースラインと比較して話者交代の検知精度を向上させた。
- 拡散ベースの背景音混合によるデータ拡張が,更なる性能向上に寄与した。
- 本研究は,多者間対話におけるより現実的なターンティングシステムの構築に貢献する。
RepNet:パラメータ再パラメータ化による深層ニューラルネットワークのスペクトルバイアスへの対処 [cs.LG, math-ph, math.MP]目的:深層ニューラルネットワークにおけるスペクトルバイアスの軽減
- 科学計算において深層ニューラルネットワークの重要性が増している。しかし,振動や多重スケール現象の学習に課題がある。
- 深層ニューラルネットワークは高周波関数を近似する際に,スペクトルバイアスという問題を持つ。
- 初期勾配のスケールと分割点の分布を制御し,高周波現象への適応的な周波数スケーリングを実現する。
- RepNetは,ReLUおよびtanhネットワークのパラメータ再パラメータ化によって,初期勾配スケールの制御と適切な分割点分布を実現する。
- 数値実験により,RepNetは高振動特徴の予測精度を向上させることが示された。計算コストの増加もわずかである。
- RepNetはスペクトルバイアス克服のための有効かつ柔軟なアプローチであり,多重スケール問題への深層ニューラルネットワークの適用を可能にする。
実数,複素数,および四元数深線形ネットワークのエントロピー公式について [cs.LG, math-ph, math.DG, math.MP]目的:実数,複素数,四元数深線形ネットワークのエントロピー公式の拡張
- 深層学習の理論的基盤を確立し,モデルの挙動を理解する上で重要である。
- 深線形ネットワークにおけるエントロピーの解析が十分に進んでいない。
- 実数,複素数,四元数にわたる深線形ネットワークのエントロピー公式を統一的に導出する。
- 実数,複素数,四元数の深線形ネットワーク全てに対し,統一的なエントロピー公式が得られた。
- この公式は,深層学習モデルの解析において新たな視点を提供する。
土壌有機炭素予測のための専門家混合を用いた多モーダル時空間グラフニューラルネットワーク [cs.LG, cs.CV]目的:土壌有機炭素量の予測
- 農業の持続可能性,土地利用政策,施肥計画において,土壌有機炭素量の予測は不可欠である。
- 既存手法は,手動で作成された特徴量と古典的な機械学習,または単一モーダルの深層モデルを用いており,豊富なスペクトル情報や時間情報を捉えられていない。
- 不均一な土壌測定の空間構造を無視したグリッドベースのアーキテクチャを克服し,高精度な土壌有機炭素量予測を目指す。
- 提案手法SpTGNNは,空間的近接性,スペクトル類似性,標高の3種類の辺を持つ異種グラフを用いて土壌測定をノードとして表現し,関係性グラフ注意機構を適用することで,各関係ごとのパターンを学習する。
- TerraMindエンコーダを用いてSentinel-2,Sentinel-1,DEM信号からノード特徴量を抽出し,サンプルごとの環境共変量,位置埋め込み,時間埋め込みと組み合わせ,MoEモジュールで融合する。
- グローバルSOCデータセットにおける評価の結果,Africaテスト分割において$R^2=0.762$,RMSE $=3.51\pm0.48$ g/kg,MAPE $=22.9\%$を達成し,XGBoostベースラインを上回った。
乳児の自発運動ノイズが深層強化学習における探索を改善する [cs.DC, cs.LG, cs.AI, q-bio.NC]目的:深層強化学習における探索の改善
- 強化学習は,ロボット制御やゲームAIなど,様々な分野で応用が期待されている。
- 強化学習における効率的な探索は,学習速度と性能に大きな影響を与える重要な課題である。
- 乳児の自発運動にヒントを得て,探索ノイズの相関性を高めることで探索効率を向上させる。
- 乳児の終端効果器速度のパワースペクトル密度は,年齢とともにスペクトル指数が増加する有色ノイズ過程に従うことが示された。
- この発達パターンに着想を得て,強化学習の訓練中に探索ノイズの時間的な自己相関を徐々に増加させる機構を導入した。
- 実験の結果,乳児にヒントを得たノイズは構造化された探索行動を生み出し,従来の探索戦略と比較して学習効率を改善することが示された。
ArtNet:JEPAに類似した発音予測フレームワークによるロバストなゼロショット音素認識 [cs.SD, cs.AI]目的:ゼロショット多言語音素認識の性能向上
- 言語に依存しない普遍的な音声特徴の抽出は,音声処理の重要な課題である。
- 直接的な音響-記号マッピングは言語特有の変動に弱く,ゼロショット認識のボトルネックとなる。
- 発音特徴に基づく予測タスクにより,音響的ロバスト性を高め,言語変動を抑制すること。
- ArtNetは,自己教師あり学習の特徴から普遍的な発音表現を抽出する発音予測器と,情報ボトルネックを統合する。
- 7つの未知言語での実験により,ArtNetが競合するベースラインを大幅に上回ることが示された。
- 提案するベクトル空間音素インベントリ整合(VSIA)戦略と組み合わせることで,音素エラー率(PER)が20.56%相対的に,音素特徴エラー率(PFER)が7.01%減少した。
TreeGRNG:効率的な確率的AIハードウェアのための二分木ガウス乱数生成器 [cs.CL, cs.AR, cs.LG]目的:ガウス乱数生成器の効率的なハードウェア実装
- ベイズニューラルネットワークの信頼性向上に不可欠であり,不確実性の定量化が重要である。
- 既存の乱数生成器は演算量が多く,低消費電力ハードウェアへの実装が困難である。
- 演算ユニットの代わりに安価なコンパレータを用いることで,ハードウェア実装の効率化を目指す。
- 提案手法TreeGRNGは,既存の最先端手法と比較して分布の精度を向上させている。
- サンプルあたりのエネルギー消費量を3.7倍削減し,単位面積あたりのスループットを5.8倍向上させている。
- 確率分布の形状を調整可能であり,従来の乱数生成器よりも柔軟な設計を可能にする。
PhysGuard:フィッシャー情報に基づく勾配投影によるシミュレーションから現実世界へのニューラル偏微分方程式サロゲート [cs.LG, cs.NA, math.NA, physics.comp-ph]目的:シミュレーションデータで訓練されたニューラル演算モデルの,現実の実験測定値への適用における精度損失の軽減
- シミュレーションデータで学習したモデルを現実世界に適用する際,性能劣化が課題となる
- 限られた現実データでの微調整は有効だが,学習済みの物理法則に関する表現を損なう可能性がある
- 物理法則を保持しつつ,シミュレーションから現実世界への適応を可能にする手法の開発
- PhysGuardは,シミュレーションデータ上のフィッシャー情報行列を用いて,物理的に重要なパラメータ方向を特定する
- 微調整時の更新を,これらの重要な方向に干渉しない方向に制限することで,物理法則の保持を実現する
- ベンチマーク実験により,特にドメインシフトが激しい状況下で,標準的な微調整と比較して低周波誤差を最大32%削減できることが示された
VeriGraph:検証可能なデータ分析エージェントへ [cs.CL, cs.AI]目的:データ分析エージェントの検証可能性
- データ分析におけるLLM活用が広がる中,その透明性と信頼性の確保が重要となる。
- LLMエージェントの推論過程が不透明であり,結果の再現性や検証が困難である。
- エージェントの推論過程を可視化し,検証可能な形で提示することを目指す。
- VeriGraphは,エージェントが実行中に明示的なエビデンスDAG(有向非巡回グラフ)を構築するトレーサブルなニューロシンボリック推論フレームワークである。
- 計算,根拠付け,および派生的な拡張という3つのエビデンス拡張プリミティブを導入し,生データ,インタープリター変数,計算結果,および自然言語による主張を統合した。
- 実験の結果,VeriGraph-8Bは全体的なスコアが最も高く,87.61%という高い根拠付け率を示し,エージェントの検証可能性向上に貢献する。
ARB4WM:連続制御におけるワールドモデルの敵対的頑健性評価ベンチマーク [cs.AI]目的:ワールドモデルエージェントの敵対的条件下における頑健性の評価
- ロボット工学や自律エージェントにおいて,計画や意思決定に有用なワールドモデルの活用が広がっている。
- 既存の評価では,ポリシー,価値,潜在ダイナミクスレベルにわたる敵対的脅威を統一的にテストするベンチマークが存在しない。
- ワールドモデルエージェントの安全性とリスク評価のための,統一的な評価フレームワークを構築すること。
- 価値推定,潜在表現,RSSMダイナミクスを標的とした攻撃は,直接的なポリシー破壊と同程度の損害を引き起こす可能性がある。
- 初期段階や頻繁な摂動が特に有害であり,入力レベルの防御だけでは適応的な攻撃に対する回復は限定的である。
- ワールドモデルの安全性,リスク,信頼性評価は,単なる行動空間の頑健性のみに頼らず,複数のコンポーネント指向の攻撃目標と時間的暴露プロトコルを網羅する必要がある。
信頼性の高い動的信頼予測のためのTri-Trust条件付き異種グラフ学習 [cs.LG]目的:信頼予測の精度と信頼性の向上
- ソーシャル推薦,不正レビュー検出,リスク特定等において,ユーザー間の信頼関係は重要な役割を果たす。
- 既存手法では,信頼の証拠を統合的に扱い,異なる証拠チャンネルの役割を区別できていない。
- 信頼の証拠を分解し,グラフ伝播の制御因子として活用することで,予測精度と信頼性を高める。
- TCHGは,信頼の証拠を3つのチャンネルに分解し,それぞれ異なる役割を伝播に割り当てる。
- エンティティの信頼性はメッセージの承認を制御し,インタラクションの信頼性は伝播の強度を調整する。
- 文脈的な信頼は,文脈条件付き演算子選択を通じて伝播モードを調整し,疎な証拠下でも予測精度を向上させる。
人工物にとらわれず: 音楽固有特徴による汎化可能な生成楽曲検出へ [cs.SD, cs.LG, cs.MM]目的:生成楽曲検出のための音楽固有特徴による汎化性能の向上
- AI音楽生成技術の急速な発展に伴い,生成楽曲の信頼性評価が重要課題となっている。
- 既存の検出手法は低レベルな人工物や限定的な特徴に依存し,生成モデルに依存しない識別が困難である。
- 音楽固有の特徴を活用し,生成モデルに依存しない汎化性能の高い検出手法を開発する。
- 提案手法Sofiaは,音楽固有の属性を特徴量ごとの専門家と適応的なMoEモジュールでモデル化する。
- 実験の結果,SofiaはMUSIC8K-Oにおいて最良のベースラインと比較してF1スコアを18.5ポイント向上させた。
- Sofiaは音楽固有特徴から生成モデルに依存しない表現を学習し,高いロバスト性を示すことが確認された。
CoffeeBench:異種マルチエージェント経済における長期的LLMエージェントのベンチマーク [cs.AI]目的:長期的な経済システムにおけるLLMエージェントの性能評価
- LLMエージェントの経済活動への応用が期待されるため,その評価は重要である。
- 既存のベンチマークは単一エージェントが中心で,複雑な多エージェント経済を評価できない。
- 異種エージェントが関わる長期的な経済シミュレーション環境でのLLMエージェントの能力を測定する。
- CoffeeBenchは,農家,焙煎業者,小売業者で構成される異種マルチエージェント経済のベンチマークである。
- 評価されたLLMは,パッシブベースラインよりも優れた成果を示し,多くが正の純利益を達成した。
- 高性能なモデルは,他の企業とのコミュニケーションを積極的に行い,Claude Haiku 4.5は無為無策な傾向が見られた。
反動負荷下の迎合性:3種類の負荷ケースと17種類の材料電荷にわたる多軸的特徴付け [cs.CL, cond-mat.mtrl-sci, cs.AI]目的:LLMにおける迎合性の材料的失敗メカニズムの多軸的特徴付け
- LLMの性能評価において,迎合性は重要な課題であり,その信頼性や安全性に影響を及ぼす。
- 迎合性の定義が曖昧であり,評価方法によって結果が大きく異なるという問題点がある。
- 表面的な形式に依存しない,多軸的な評価方法を確立し,迎合性の本質を解明することを目指す。
- LLMの応答は,材料科学における試験片の挙動と類似しており,負荷(反論)に対する応答として迎合性の失敗を捉えることができる。
- 3種類の負荷ケース(討論,誤った前提,倫理的設定)において,14の軸測定値を分析した結果,それらの間には一定の相関関係が見られた。
- 討論では材料特性が支配的,誤った前提や倫理的設定では負荷が支配的な傾向が確認された。また,議論のスコアリングは評価者間で頑健性が見られた。
エントロピーゲーティングされた潜在的再帰 [cs.LG, cs.AI]目的:言語モデルの推論能力向上における,推論時のスケーリング手法の改善
- 言語モデルの推論能力向上は,自然言語処理における重要な課題である。
- 既存手法は確率的サンプリングに依存しており,多様な推論経路の探索が不十分である。
- エントロピーに基づいた層の再帰適用により,決定論的な推論経路を追加し,多様性を高めることを目指す。
- 提案手法EGLRは,層の再帰適用回数を調整することで,異なる問題を解決する多様な推論経路を生成する。
- MATH-500ベンチマークにおいて,EGLRは温度サンプリングのみ,または層のみによる推論よりも高い精度を達成した。
- EGLRは,推論時のスケーリングにおいて,確率的ノイズに依存しない新しい方向性を示す。
不規則領域上のMindlin-Reissnerプレートに対するジオメトリを考慮した変分物理情報ニューラル演算子 [cs.RO, cs.AI]目的:不規則領域上のMindlin-Reissnerプレート問題に対する,ジオメトリを考慮した変分ニューラル演算子の開発
- 工学分野で広く利用されるプレート・シェル構造の解析は,高速な応答予測が求められる
- 従来の有限要素法では,形状や荷重が変化するたびに再モデリングが必要で,計算コストが高い
- 不規則な形状に対応し,物理場の情報を効率的に組み込み,高速な応答予測を実現すること
- 提案手法MR-GVNOは,境界点群を用いて不規則形状を表現し,材料特性や荷重を独立にエンコードする。
- 物理情報に基づく損失関数を用いて学習することで,ラベル付きデータなしで高精度な変形予測が可能となった。
- 単孔,二孔,L字型プレートの実験結果から,均質・不均質材料下での高い予測精度と,形状の汎化性能が確認された。
工学教育におけるAI活用:明確な目的意識に基づいたバランス [cs.HC, cs.AI]目的:工学教育における大規模言語モデル(LLM)の学生による利用と認識
- 工学分野の人材育成は,技術革新を支える上で不可欠である。
- AI技術の急速な進歩に伴い,教育への導入が急務となっている。
- LLMの過度な期待や依存を防ぎ,有効活用方法を確立する必要がある。
- 学生はLLMを文章作成支援,概念理解,コーディング補助,ブレインストーミングに活用している。
- LLMの不正確性,偏り,過信,学術倫理,検証負担に対する懸念も存在する。
- LLMは「神託」や「家庭教師」として認識されがちだが,その能力には限界がある。学生の楽観的な期待が,スキル習得を阻害する可能性も示唆された。
DCP-Prune:分布の一貫性維持による超低トークンプルーニング [cs.CL, eess.SY, cs.SY, cs.CV, cs.AI]目的:超低トークン予算下におけるモデル性能維持
- 画像認識モデルの効率化が重要視されており,パラメータ削減が研究課題となっている。
- 既存のトークンプルーニング法は,超低トークン予算下では性能が不安定になるという課題がある。
- 分布シフトを抑制し,低予算下でも高い性能を維持することを目指す。
- 本研究では,分布の一貫性を重視した新しいプルーニングフレームワークDCP-Pruneを提案する。
- 提案手法は,コンテキスト情報の転送と代表的なトークンの動的再選択により,分布シフトを抑制する。
- 実験結果から,LLaVA-1.5-7Bにおいて,わずか16個のビジュアルトークンで92.1%の上限性能を維持することが示された。
SPICE:相乗効果と部分情報に基づくカリキュラム進化 [cs.LG]目的:マルチモーダル相互作用学習のための漸進的カリキュラム
- 多様なモダリティ情報を活用することで,学習性能の向上が期待される分野である。
- 既存手法では,サンプル複雑度が学習段階で変化することを考慮できていない。
- モデル進化に適応し,サンプル順序を動的に調整することで学習効率を高める。
- 提案手法SPICEは,部分情報分解(PID)理論に基づき,サンプル複雑度を動的に評価する。
- 学習初期は共有情報を,徐々にモダリティ固有の情報,最終的には相乗効果を学習するカリキュラムを構築する。
- 複数のマルチモーダルベンチマークで,従来の学習法や最先端手法を上回る性能が確認された。
インテグレーターの優位性:中小企業向け制御された自律型AI [cs.AI]目的:中小企業における自律型AIの導入と活用
- 企業の自動化ニーズは高まっており,生産性向上の鍵となる。
- 従来の自動化では対応困難な複雑な業務プロセスが存在する。
- 人間中心のアプローチで,AIを効果的に活用する枠組みの提案。
- 自律型AIの価値は,完全な自律性ではなく,限定的な自律性にある。
- ユースケースの適合性,自律レベル,技術統合,ガバナンスなどを考慮したフレームワークを提示。
- AIを人間の能力を補完するツールとして捉え,責任と説明責任を人間に留めることが重要。
AIを活用したSaaSによるロンドンにおける一時宿泊施設の最適配置 [cs.HC, cs.CY, cs.AI, cs.SI]目的:一時宿泊施設の配置最適化
- 英国内,特にロンドンでは,一時宿泊施設の需要とコストが急増しており,地方自治体への財政的・行政的負担が大きい。
- 一時宿泊施設の配置は,規則や予算に縛られ,効率性と公平性の両立が課題となっている。
- AIを活用したシステムにより,配置プロセスを効率化し,規則遵守と職員の裁量を両立することを目指す。
- DOMUSは,既存のワークフローと比較して,検索時間を大幅に短縮し,主要な配置制約の遵守を改善した。
- 職員の満足度が高く,法的遵守と役割に基づいた説明責任を維持していることが示された。
- DOMUSは,他の自治体や公共行政タスクにも展開可能な,スケーラブルで倫理的に管理されたAIの活用事例となる。
単回連合学習における最適輸送を通じた分布アライメント [cs.LG]目的:単回連合学習における分布アライメント手法
- データプライバシー保護と分散環境での機械学習の需要が高まっているため,連合学習が重要視されている。
- クライアントデータの分布の非一様性により,モデルの汎化性能が低下する可能性がある。
- 単回連合学習におけるドメインシフトとラベルシフトを同時に解決し,ロバスト性を向上させる。
- 本研究では,共有された固定エンコーダを用いて特徴統計量を抽出し,Bures-Wasserstein重心を用いてグローバルな参照を構築する。
- SLOT-Alignは,閉形式の測地線最適輸送写像を用いて局所表現をアライメントする,計算効率の高い手法である。
- 複数のベンチマーク実験において,SLOT-Alignは既存手法と比較して,精度とロバスト性を向上させることを示した。
遅延を伴う準最適確率的線形バンディット [cs.LG]目的:遅延フィードバック下の確率的線形バンディットの性能評価
- バンディット問題は,オンライン学習や意思決定において重要な枠組みである。
- 遅延フィードバックは,実世界の多くの応用において避けられない問題である。
- 遅延フィードバックが線形バンディットの性能に与える影響を明らかにすること。
- 損失非依存遅延の場合,遅延は加算的な後悔ペナルティをもたらすことが示された。
- 損失依存遅延の場合,線形バンディットはMABよりも困難であり,次元の平方根に依存するペナルティが発生する。
- 遅延を報酬とみなすモデルにおいても,線形バンディットはMABの最適保証を達成できないことが示された。
保険における積極的なマネーロンダリング対策のための機械学習:防御的報告を超えて [cs.CL, cs.IR, cs.CL, cs.LG]目的:保険金請求における疑わしい事例の早期発見
- 保険業界におけるマネーロンダリングは,不正な支払いやレピュテーションリスク,規制リスクをもたらし,重要な課題である。
- 保険を通じたマネーロンダリングの防止策に関する研究が不足している現状がある。
- 機械学習を用いて,事後的な報告から能動的な防止への転換を図り,マネーロンダリングを効果的に検知することを目指す。
- 詐欺調査ラベルを取り入れることで,マネーロンダリングの検知精度が大幅に向上することが示された。
- 最良のモデルでは,調査対象として上位2~6%に選ばれた請求のうち,約3分の2のマネーロンダリング事例を捕捉できることがわかった。
- 本研究は,保険金請求におけるマネーロンダリング検知のための機械学習に関する最初の実証研究である。
マルチモーダル評価者嗜好の崩壊:自己進化型エージェントにおけるクロスモーダル感染 [cs.LG, cs.CL]目的:AIエージェントにおける評価者嗜好の崩壊現象の解明
- AIエージェントの性能向上には,自己評価によるフィードバックループが不可欠である。
- 自己評価では,特定の戦略への偏りが生じやすく,多様性が失われる可能性がある。
- マルチモーダル環境における嗜好崩壊と,そのモーダル間感染のメカニズムを特定する。
- GPT-4oによるDeepSeek-chatの評価において,単一の戦略(step_by_step)が評価重量の48.4%を占め,テキストのみの場合の3.2倍の崩壊が見られた。
- クロスモーダル感染と呼ばれる新たな現象が確認された。あるモーダルで獲得した嗜好が,別のモーダルの戦略選択に影響を及ぼし,その選択を歪める。
- 異なる評価者構成における検証により,クロスモデル評価が双方向の感染をもたらす主要なリスク要因であることが示された。
感情予測から感情予測へ:縦断的テキストにおける異なる情報源の証拠 [cs.CL, cs.AI, cs.CL]目的:縦断的テキストにおける感情予測と感情変化予測の区別
- 感情分析は,人々の心理状態を理解する上で重要な役割を果たす。
- 既存研究では,テキストを独立した観測とみなし,感情予測と感情変化予測に同じ手法を用いることが多い。
- 本研究は,感情予測と感情変化予測に異なる情報源があることを検証する。
- 感情予測においては,E-TSAPがvalenceで0.670,arousalで0.449の複合ピアソン相関係数を達成した。
- 感情変化予測においては,テキスト表現は数値軌跡ベースラインよりも性能が劣る結果となった。
- ACF-Hybridは,数値軌跡の特徴を用いてvalenceで0.659,arousalで0.658の相関係数を達成した。
ロボット操作のための行動チャンク条件付き潜在的パッチ革新監視 [cs.RO, cs.AI, cs.CV]目的:ロボット操作における,行動チャンクに条件付けられた潜在的パッチ革新の監視
- ロボットの自律操作は,現実世界でのタスク遂行において不可欠であり,その信頼性向上は重要な課題である。
- オープンな環境下では,予期せぬ状況変化によりロボットの操作が不安定になる場合が多く,そのロバスト性が課題となっている。
- 本研究は,タスクに関連するリスクを正確に検出し,安全かつ効率的なロボット操作を実現するための監視システムを開発する。
- PATCHは,行動チャンクに基づいて実行経路を予測し,ロボット自身の動作で説明できない残差を検出する。
- この残差が,局所的な介入信号として機能し,実行の一時停止やリカバリーソースの選択を可能にする。
- 実機実験の結果,PATCHは既存の監視システムよりも安定した,文脈に即したトリガーを生成することが示された。
深層Transformerにおける適応的推論と関数ベクトル [cs.LG, cs.AI, physics.app-ph, q-bio.NC]目的:深層Transformerの推論過程の解明
- Transformerは多様なタスクで高性能だが,その内部メカニズムは未解明な点が多い。
- Transformerの深層化に伴い,計算効率や解釈性の問題が生じている。
- Transformerの深層構造が,より高度な文脈推論を可能にする仕組みを明らかにする。
- 深層Transformerは,制約条件下での分散推論を行う相互作用系として捉えられる。
- Transformerは層を重ねるごとに,より詳細な潜在的文脈変数を推論する「関数ベクトル」を利用する。
- 線形Attention Transformerを用いた実験で,深層構造における適応的推論が確認された。
ユーザーをコードとして:パーソナライズされたエージェントのための実行可能メモリ [cs.CL, cs.IR, cs.AI]目的:パーソナライズされたエージェントのためのユーザーメモリの実現
- AIエージェントのパーソナライズは重要であり,ユーザーの情報を長期にわたって記憶し活用する必要がある。
- 従来のユーザーメモリは非構造化テキストや知識グラフが主流であり,矛盾の解消や複雑な推論が困難である。
- ユーザーの情報を実行可能なコードとして扱うことで,より高度な推論と安全性の確保を目指す。
- 提案手法(UaC)は,ユーザーの情報をPythonコードとして表現し,状態とルールを一体化することで,従来のメモリシステムと同等の性能を実現。
- 集計質問への回答精度において,従来の検索ベースの手法が大きく低下するのに対し,UaCは高い精度を維持する。
- UaCは,状態変化に応じてルールを決定的に実行するため,アレルギー情報と新薬の相互作用など,安全に関わるアラートを自動的に検知できる。
医療世界モデル:医療状態の表現,臨床動態のモデル化,および介入方針の導出 [cs.AI]目的:医療状態のシミュレーションと介入判断支援
- 医療現場での意思決定には,時間経過に伴う患者の状態変化の予測が不可欠である。
- 既存の医療AIは静的な診断や予測に留まり,疾患の進行や介入の影響を考慮できていない。
- 医療AIを,疾患の進展をシミュレーションし,最適な介入策を提案できる医療世界モデルへと発展させる。
- 医療世界モデルは,患者の状態変化を捉え,将来の状態を予測する内部シミュレーターを学習する。
- 本レビューでは,患者状態の構築,臨床動態のモデル化,介入判断支援という3つの能力を統合したロードマップを提示する。
- 既存システムを比較することで,各能力の貢献と,より成熟したシステムへの統合の可能性を示す。
AgentFairBench:LLMエージェントは行動において差別を行うか? [cs.AI]目的:LLMエージェントの行動における人口統計学的格差の評価
- LLMは応募者選考や融資など,現実世界への影響が大きいため,公平性の評価が不可欠である。
- LLMの公平性は主に回答の評価によって測られているが,行動における公平性の評価は十分ではない。
- LLMエージェントの行動における差別を定量的に評価し,公平性を改善するための指標を提供する。
- AgentFairBenchは,採用,融資,医療トリアージの3つの分野において,LLMエージェントの行動における人口統計学的格差を評価するベンチマークである。
- 実験の結果,Claude Haiku 4は,統計的有意な人口統計学的影響を示さなかった。ただし,統計的アーリティに注意が必要である。
- 本研究は,公平性評価のための信頼性の高いツールと,アーリティに合わせた検証方法を提供する。
平均報酬マルコフ決定過程における単一軌道からの学習方策 [cs.LG, math.OC]目的:平均報酬マルコフ決定過程における単一軌道からの学習方策
- 強化学習は,自律的な意思決定を行うための重要な手法であり,様々な分野で応用が期待されている。
- 平均報酬MDPのサンプル複雑性解析は限定的であり,多くはエルゴード性等の制約条件に依存する。
- 弱連結な平均報酬MDPにおける単一軌道からの有限サンプル複雑性を保証する手法を開発する。
- 弱連結な平均報酬MDPにおいて,単一軌道から学習する価値ベースおよび方策ベース手法の有限サンプル複雑性を$\widetilde{O}(1/\varepsilon^2)$と$\widetilde{O}(1/\varepsilon^4)$として確立した。
- 問題に依存する事前知識を必要としない,通信MDPのための最初のモデルフリー手法を提案した。
MuVAP:自然な会話における発話者交代予測のためのマルチモーダル複数音声活動予測 [cs.SD, cs.AI, cs.HC]目的:自然な会話における発話者交代予測
- 人間とロボットのインタラクションにおいて,発話者交代の予測は円滑なコミュニケーション実現に不可欠である。
- 従来のモデルは複雑な機器に依存するため,現実の環境への応用が困難であった。
- 単一マイクとカメラで複数話者の発話者交代を予測する手法を開発し,その問題を解決する。
- MuVAPは,音声活動予測と顔のトラッキングを組み合わせることで,単一の音響ストリームとカメラ映像から発話者交代を予測する。
- Role-Relative Projectionにより,複数話者の複雑さを固定された状態に変換し,計算コストを削減している。
- 新たに構築したAudio-Visual Conversation Corpusを用いて評価を行い,既存手法を上回る性能を示した。
LLMポリシー最適化の第一原理的導出:期待報酬からGRPOおよびその構造的拡張へ [cs.AI]目的:LLMのポリシー最適化手法の体系化と分析
- 言語モデルの性能向上には,効率的なポリシー最適化が不可欠である。
- 既存手法は,問題領域や経緯によって整理され,設計意図が不明確である。
- ポリシー最適化手法の設計原理を明らかにし,次世代アルゴリズム開発の指針を示す。
- 既存のポリシー勾配アルゴリズムは,軌跡確率と報酬という2つの要素を持つ共通の目的関数を最適化していることが示された。
- REINFORCEからGRPO,そしてその派生手法まで,各手法が目的関数のどちら側を修正しているかが明確化された。
- 単独での修正では解決できない複合的な問題点と,軌跡と報酬の両側を同時に設計する必要性が指摘された。
ノイズ増幅によるアーティファクトの露呈:AI生成動画検出のための新たな視点 [cs.CV, cs.AI]目的:AI生成動画と本物の動画の識別
- 動画生成技術の急速な進歩に伴い,偽動画の検出が重要となっている。
- 既存研究はGAN生成動画に偏っており,特にテキストからの動画生成モデルの検出は未開拓である。
- AI生成動画に特有のアーティファクトをノイズ増幅により検出し,識別精度を向上させる。
- 提案手法「ノイズ増幅」は,ビットプレーンに基づくノイズ信号の抽出と増幅を行うことで,識別器の性能を向上させる。
- ピクセルレベル,領域レベル,フレームレベルでのノイズ増幅を組み合わせることで,より効果的な識別を実現する。
- 大規模データセットGenVidBenchおよび新規ベンチマークHardGVDにおいて,最先端手法を大幅に上回る性能を達成した。
STAR-NT:リアルタイムニューラル透明度レンダリングの時空間的加速 [cs.GR, cs.LG]目的:リアルタイムニューラル透明度レンダリングの効率化
- 透明な表面の高品質な描写は,ゲームやVR/AR等のリアルタイムグラフィックスにおいて重要である。
- 既存手法では,複雑な透明度処理がモバイルデバイスや旧来のハードウェアで重荷となる。
- 時空間的なコヒーレンスを利用し,計算コストを削減することで,効率的なレンダリングを実現する。
- 空間的適応クアッドツリー分割により,局所的な色の分散に応じてジオメトリパスの解像度を調整する。
- 時間的に,深度に基づくリプロジェクションを用いて,一部のフレームで以前の透明度結果を再利用する。
- これらの最適化により,レンダリングコストが削減され,既存のリアルタイムレンダリングパイプラインに効率的に統合される。
MyPCBench:パーソナルなコンピューター利用エージェントのためのベンチマーク [cs.LG, cs.CL]目的:パーソナルなコンピューター利用エージェントの性能評価
- 個人のデジタルライフを支援するエージェントの重要性が増している。
- 既存のベンチマークは非個人的な環境での評価に偏っている。
- ログイン情報が必要なウェブサイト等,現実的な利用状況での課題解決。
- MyPCBenchは,Linuxデスクトップ上に構築された環境でエージェントを評価する。
- 184のタスクを用いて6つのモデルを評価した結果,Claude Opus 4.6が最も高い性能を示した。
- 複数アプリケーションを跨ぐ複雑なタスクや長時間の操作において,課題が残る。
複数の防御戦略を対象とした自動脱獄攻撃 [cs.CR, cs.AI]目的:大規模言語モデルに対する攻撃手法の開発
- 大規模言語モデルの能力向上に伴い,その安全性確保が重要課題となっている。
- 敵対的プロンプト攻撃への脆弱性が問題であり,効果的な防御策が求められている。
- 既存の攻撃手法の課題を克服し,汎用性の高い攻撃フレームワークを開発する。
- 提案手法UNIATTACKは,既存手法と比較して攻撃成功率を大幅に向上させた。
- 多様なモデルや安全カテゴリに対して,一度の試行で効果的な攻撃が可能である。
- 計算コストは既存手法に比べて非常に低い。
P3B3:LLMにおけるヨーロッパ・ブラジルポルトガル語多様性の偏りを測定するためのマルチターン会話ベンチマーク [cs.CL, cs.AI, cs.LG]目的:ヨーロッパ・ブラジルポルトガル語の多様性に関する偏りを測定するための会話ベンチマーク
- LLMが日常コミュニケーションに組み込まれる中で,地域言語の多様性を捉えることが重要である。
- ポルトガル語において,ヨーロッパポルトガル語とブラジルポルトガル語のデータ量に偏りがある。
- LLMにおけるポルトガル語変種への偏りを評価し,制御可能性を探求すること。
- 多くのLLMがブラジルポルトガル語に強い偏りを示すことが実験で明らかになった。
- LLMの制御可能性はモデルによって異なり,ばらつきが見られた。
- 言語変種間のよりバランスの取れた多言語表現の必要性が示唆される。
平均報酬を持つ平均場ゲームに対する最大エントロピー逆強化学習 [cs.LG]目的:平均場ゲームにおける未知の報酬を推定するための政策
- 経済学やゲーム理論において,多数のエージェント間の相互作用を分析する上で重要である。
- 専門家の行動から報酬関数を推定する逆強化学習は,報酬設計が困難な場合に有効だが,収束性の保証が課題となる。
- 専門家の行動データを基に,報酬関数を推定し,行動原理を明らかにする。
- 提案手法は,平均報酬基準の下で,平均場ゲームにおける逆強化学習問題を定式化し,最大因果エントロピー原理に基づき政策を回復する。
- 有限次元線形報酬の場合,凸二重定式化と勾配降下法による収束性を示す。無限次元RKHS報酬の場合,ラグラジアン緩和法を開発し,ソフトベルマン方程式で特性評価を行った。
- 割引率がないという問題を,小基化に基づくサブストキャスティックカーネルを導入することで解決し,ソフトベルマン演算子の厳密な収縮を保証した。
