arXiv雑要約
AI - 2026/06/18 公開
共有ワークスペースにおける人間とAIの協働における相乗効果の探索 [cs.AI, cs.HC]目的:人間とAIの協働チームにおけるパフォーマンス向上
- 科学的・専門的タスクには人間の判断が不可欠であり,AIとの協働が重要である。
- 協働チームが増えるほど,調整コストが増大し,パフォーマンスが低下する可能性がある。
- 協働チームにおける調整と専門知識の統合方法の改善。
- 適切な協働者の追加は,チームの構造が不十分な場合,パフォーマンスを低下させる可能性がある。
- 共有メモリと人間の介入ゲートを組み合わせたスキャフォールドが,パフォーマンスを向上させる。
- 特に3人チームにおいて,明確な責任分担と専門知識の活用がパフォーマンス向上に繋がる。
P$^2$CE:モデル非依存の妥当性のあるパレート最適反実仮想説明 [eess.SY, cs.SY, cs.CE, cs.LG]目的:妥当性のあるパレート最適反実仮想説明の生成
- 機械学習の社会実装が進む中で,公平性や透明性への関心が高まっている。
- 既存手法では,実現可能性,妥当性,計算効率のバランスが課題となっていた。
- 様々な実現可能性の概念において,最適なトレードオフを提供する手法を開発する。
- P$^2$CEは,補助的なIsolation Forest外れ値検出器を用いてデータ分布との整合性を確保する。
- SHAP値を利用することで,基盤となるモデルに関わらず,短い計算時間で最適な結果を得る。
- 3つのデータセットにおける実験評価で,P$^2$CEは関連手法と比較して,解の質と計算効率の両面で優れていることが示された。
生体医用予測における非線形モデルの優位性は測定ノイズによって制限される [cs.LG, q-bio.QM, stat.ML]目的:生体医用予測における非線形モデルと線形モデルの優位性に関する限界
- 生体医用データの解析は,疾病の理解や治療法の開発に不可欠であり,その精度向上が求められている。
- 非線形モデルは強力だが,生体医用データでは線形モデルと同等か劣る結果となることが多く,その原因が不明である。
- 本研究は,測定ノイズが非線形モデルの優位性を制限する主要因であることを明らかにし,その影響を定量化することを目指す。
- 測定ノイズは,特徴の信頼性が低い場合に非線形構造を急速に消去し,非線形モデルの利点を消失させる。
- 生体医用データにおける線形モデルと非線形モデルの同等性は,必ずしも生物学的構造の単純さを示すものではない。
- 柔軟なモデルが有効に機能するためには,サンプルサイズ,特徴表現,測定信頼性の3つの条件が整う必要があり,その範囲は狭い。
仕様から実行へ:AI支援科学ワークフロー管理 [cs.SE, cs.AI, cs.DC]目的:科学ワークフローの管理におけるAI支援手法
- 科学研究の再現性と規模拡大には,ワークフロー管理が不可欠である。
- ワークフローの設計,実装,デバッグは専門知識を要し,負担が大きい。
- AIを活用し,ワークフロー設計の自動化とデバッグの効率化を目指す。
- 本研究では,意図,設計,実装を分離する構造化された仕様段階を導入した。
- LLMベースのデバッグエージェントが,システム全体の障害を診断・解決する。
- Pegasus WMSとMCP層を統合し,大規模なワークフローの実行と監視を実現した。
CAOA:補完支援によるオブジェクト-CADアライメント [cs.CV, cs.AI, cs.LG]目的:3Dセマンティック再構成におけるCADモデルとRGB-Dスキャン上の対応オブジェクトの正確なアライメント
- 室内環境の3D理解には不可欠であり,ロボット工学や拡張現実など幅広い応用が期待される。
- ノイズや不完全なスキャン,セグメンテーションエラーがアライメント精度を低下させるという課題がある。
- 実環境スキャンへの汎化性能を高め,高精度なCADモデルアライメントを実現することを目指す。
- 提案手法CAOAは,セマンティックおよびコンテキストを認識した点群補完モジュールと,対称性を考慮した相対姿勢推定アルゴリズムを統合する。
- 実環境データに特化した合成データ生成戦略により,合成データと実データのドメインギャップを縮小することに成功した。
- Scan2CADベンチマークにおいて,最先端手法と比較して17%の精度向上を達成し,高い有効性を示した。
署名フィルタリング:大規模言語モデルにおける統計ウォーターマーク検出の軽量な強化 [cs.LG, cs.CR]目的:大規模言語モデルの出力の帰属を可能にする統計ウォーターマーク検出の精度向上
- 大規模言語モデルの利用拡大に伴い,生成されたテキストの出所を特定する技術の重要性が高まっている。
- 既存のウォーターマーク検出器は,信号が弱い場合やテキストが編集された場合に精度が低下するという課題がある。
- ウォーターマーク検出時に,信頼性の低いトークンを除去することで,検出精度を向上させることを目指す。
- 「署名」トークンを特定し除去するフィルタリングにより,ウォーターマーク検出率が大幅に向上した。
- 弱い信号や低エントロピー環境下において,検出率が8~31%から78~99%に向上し,誤検出も抑制された。
- 文のスクランブルやトークンの摂動といったストレステストにおいても,高い検出精度を維持し,WinMax検出器と同等以上の性能を示した。
予測を超えて:LLM推論のためのテールアウェアなスケジューリング [cs.LG, cs.DC]目的:LLM推論におけるテールレイテンシの最適化
- LLMの利用拡大に伴い,効率的な推論処理が不可欠となっている。
- LLM推論の処理時間変動が大きく,従来のスケジューリング手法では最適化が困難である。
- テールレイテンシ(P90-P99)を改善し,ユーザー体験を向上させる新たなスケジューリング手法を提案する。
- 提案手法は,予測に依存せず,統計的シグナルに基づく優先度ブーストによりテールレイテンシを最大35-50%削減する。
- SRPTと比較して,TTFTも34-47%改善され,様々なワークロードで高い効果を発揮する。
- 本手法は,オンラインLLMサービングにおけるテールレイテンシ最適化のための堅牢な代替手段となる。
時間認識型多関係誘導グラフニューラルネットワークに基づくクレジットカード不正検知 (Jikan Ninshiki Tarei Kankei Yudō Gurafu Nyūraru Nettowāku ni Motobuzuku Kurejitto Kādo Fuzsei Kenshu) [cs.LG, cs.AI]目的:クレジットカード不正検知のための新たなフレームワーク
- クレジットカード不正検知は,金融取引の安全性を確保する上で不可欠な課題である。
- 既存手法では,データ不均衡,不正パターンの変化,取引エンティティ間の複雑な関係への対応が困難である。
- 時間的要素と関係性を考慮したグラフニューラルネットワークにより,不正検知の精度向上を目指す。
- 提案手法TMR-GGNNは,顧客,加盟店,デバイス,IPアドレス間の異種インタラクションを時間窓に基づいてモデル化する。
- 時間認識型関係注意機構により,時間的近接性と意味的コンテキストに基づいて取引の関連性を適応的に重み付けする。
- コントラスト学習とInfoNCEに基づく複合損失関数により,希少な不正事例の識別能力を向上させ,偽陰性を抑制する。
単一画像からの3Dメッシュ品質評価のためのクロスモデルVLMジャッジプロトコル(および安価なプロキシがなぜ不十分なのか) [cs.CL, cs.LG]目的:単一画像から生成された3Dメッシュの品質評価プロトコルの確立
- 単一画像からの3D生成技術は急速に進歩しているが,客観的な品質評価手法が確立されていない。
- 既存の自動評価指標(レンダー空間におけるCLIP類似度やメッシュの幾何学的妥当性)は,人間の知覚と一致するか不明である。
- VLM(Vision-Language Model)を用いた評価プロトコルを提案し,既存のプロキシ指標との比較を行うことで,より信頼性の高い評価手法を提示する。
- 再現可能なVLMジャッジ評価プロトコルを確立し,2つの独立したVLMファミリー間で高い合意度(Cohen's kappa = 0.66)が確認された。
- 安価なプロキシ指標(幾何学的妥当性,レンダーCLIP)は,VLMジャッジプロトコルと同等の性能を示さず,特にレンダーCLIPは偶然レベルであった。
- 幾何学的妥当性は,明らかな幾何学的欠陥がある場合にのみVLMジャッジと一致し,曖昧な場合には有効ではないことが示された。
Veriphi:データセット依存型学習法を用いた敵対的攻撃誘導ニューラルネットワーク検証 [cs.CL, cs.LG, cs.AI]目的:ニューラルネットワークの検証手法
- AIシステムの安全性確保は重要であり,特に誤作動によるリスクを回避する必要がある。
- 既存の検証手法では,複雑なデータセットに対して高い検証性能を維持することが困難である。
- データセットの特性に応じた最適な検証戦略の選択を可能にすることを目指す。
- Veriphiは,高速な敵対的攻撃とalpha,beta-CROWNによる厳密な証明を組み合わせることで,GPU上でニューラルネットワークを効率的に検証する。
- MNISTではIBPが78%の認証精度を達成する一方,CIFAR-10ではPGDによる敵対的学習が94%の認証精度で優位性を示すなど,学習手法の有効性はデータセットに依存する。
- 敵対的攻撃誘導による反証により検証速度を5倍に向上させ,1億5800万パラメータ規模のモデルにも適用可能であることを示した。
再帰的重み空間におけるタスク制限された対称性 [cs.LG]目的:再帰型ニューラルネットワークの重み空間における機能的な冗長性
- 再帰型ニューラルネットワークは強力だが,その内部動作は解釈が難しい。
- 重みのわずかな変化が性能に大きな影響を与えるため,ロバスト性が課題。
- タスクごとに許容される重みの変化範囲を特定し,効率的なネットワーク構築を目指す。
- 固定長コピー問題において,選択された非正規 Schur カップリングの除去は損失をほとんど引き起こさなかった。
- 一方,他のカップリングは正確な自律的リプレイに不可欠であることが示された。
- タスクや学習済みの解によって,損失を維持しながら削除可能な要素のプロファイルが変化する。
GPUにおける汎化線形モデルのための通信回避型混合精度SGD [cs.DC, cs.LG, cs.NA, math.NA, stat.ML]目的:GPUを用いた汎化線形モデルにおける通信回避型混合精度SGDの性能評価
- 分散学習において,計算能力よりも通信がボトルネックとなりやすい。
- 従来のSGDでは,各イテレーションで全ノード間の通信が必要となり,計算効率を低下させる。
- 通信回数を削減し,計算負荷を調整することで,より効率的な分散学習を実現する。
- 提案手法は,ロジスティック,線形,ポアソン問題において,FP32 SGDと同等の損失精度を達成した。
- 特に,epsilon,SUSY,HIGGS,synth,Poisson-synthデータセットにおいて,FP32 SGDと比較して5.1~6.8倍の高速化を実現した。
- GPU世代に依存せず,低精度演算の丸め誤差を考慮したレシピにより,幅広いGPU環境への適用が可能である。
グロッキングにおける重みノルムの制御:クロスエントロピー下のロジットスケール媒介 [cs.LG, cs.AI]目的:グロッキング現象における重みノルムの制御メカニズムの解明
- 深層学習モデルの汎化能力向上は重要であり,グロッキングはその過程を理解する上で不可欠である。
- グロッキングの遅延は重みノルムと相関するとされるが,ノルムが具体的に何を制御しているかは不明であった。
- ロジットスケールがグロッキング遅延の主要因であり,重みノルムはその間接的な指標であるという仮説を検証する。
- 重みノルムを固定し出力温度を変えることで,グロッキングの遅延を制御可能であることを示した。
- 遅延は主にロジットスケールに依存し,重みノルムはその影響はわずかである (R2 = 0.97) ことが明らかになった。
- 損失関数がMSEの場合,ロジットスケールは固定され,重みノルムは異なる経路を通じて作用することが示唆された。
局所線形埋め込みと適応的特徴融合による構造化表現学習 [cs.CL, cs.LG, cs.AI]目的:構造化表現学習の提案
- 脳科学研究から,複雑な行動は低次元多様体と適応的ゲート機構で符号化されることが示唆されている
- 従来の強化学習では,状態の局所構造や特徴の適応的な選択が十分に考慮されていない
- 脳の動作原理に着想を得て,効率的な意思決定を可能にする学習フレームワークを開発する
- 本研究では,局所線形埋め込みを用いて環境の局所的な線形構造を捉え,報酬特有の特徴を抽出する。
- 状態ごとに表現を適応的に融合するアテンションメカニズムを導入し,学習効率と性能を向上させる。
- 実験結果から,提案手法が従来の強化学習手法と比較して優れていることが示された。
改善の錯覚:クレジットスコアリングにおける棄却推論戦略 [cs.LG, cs.CY]目的:クレジットスコアリングにおける棄却推論手法の有効性評価
- 信用リスク評価は金融システムの安定に不可欠であり,正確なスコアリングが重要である。
- 生存バイアスにより,従来の評価指標ではモデルの真の性能を判断しにくい。
- 棄却推論がもたらす誤った改善の認識を防ぎ,より信頼性の高い評価方法を確立する。
- 棄却推論手法は,精度が向上する一方で,回収率が低下するという構造的な問題があることが示された。
- 精度と棄却品質は,探索の必要性について反対の推奨を示すため,標準的な評価指標が誤解を招く可能性がある。
- わずかな探索率(2〜5%)でも,フィードバックループの深刻度をほぼゼロコストで診断できることが確認された。
MagpieTTS-LF: 長文音声生成のための推論時手法 - 長文データでの学習なし [cs.SD, cs.AI, eess.AS]目的:長文音声の生成
- 近年のTTS技術は目覚ましい発展を遂げているが,長文音声生成には課題が残る分野である。
- 既存のTTSシステムでは,長文音声生成時にプロソディのずれ,話者の一貫性の欠如,文境界の問題が発生しやすい。
- 本研究は,長文データでの再学習なしに,より自然な長文音声生成を可能にすることを目的とする。
- 提案手法MagpieTTS-LFは,ソフトアテンションによる単調なアライメント誘導,文区画を跨いだ文脈維持,過去のテキストを利用したプロソディ計画により,長文音声のコヒーレンスを向上させた。
- 実験の結果,MagpieTTS-LFは,既存手法と比較して,長距離明瞭度,プロソディの一貫性,話者の一貫性,境界の自然さにおいて有意な改善を示した。
SFTの過学習が,RLVR下でのエントロピー崩壊を介してランク反転を予測する [cs.LG, cs.AI, cs.CL]目的:SFTの過学習とランク反転の関係性の解明
- 大規模言語モデルの性能向上には,強化学習によるファインチューニングが不可欠である。
- SFT段階での過学習により,強化学習の学習効率が低下する可能性がある。
- SFTの段階数を適切に調整し,過学習を抑制することで,強化学習の性能を向上させる。
- Qwen2.5-Coder-3Bでは,SFTの段階が深くなるにつれて,事前学習時のpass@1は上昇するが,GRPOにおけるpass@10は低下する。
- QwenとGRPOの結果の相関関係は正の値(ρ=+0.69)を示し,事前学習時のエントロピーが高いほどGRPOの性能が向上する傾向がある。
- 事前学習時のエントロピーに基づいたチェックポイントの選定と,GRPO初期段階のエントロピー監視を組み合わせることで,失敗する可能性のある学習を早期に検出できる。
ニューラル位相相関 [cs.CV, cs.AI]目的:画像間の変換関係の学習
- 画像間の対応関係は,その変換を理解する上で重要である。近年,深層学習を用いた手法が発展している。
- 従来の深層学習手法は,変換を直接表現せず,暗黙的に学習しているため,柔軟性に欠ける場合がある。
- 本研究では,変換の基底を学習することで,位相相関の制約を克服し,より汎用的な手法を提案する。
- 提案手法は,心臓MRIのACDCベンチマークにおいて,既存手法と同等以上の性能を示した。
- 心臓エコー検査のCAMUSデータセットにおいても,補助的なスコアリングや平滑化メカニズムなしに,最先端の性能に匹敵した。
- 1次元量子調和振動子の波動関数ペアから,未知のハミルトニアンの固有状態とエネルギー準位を復元することに成功した。
量子アニーリングによる強化学習の強化:正確な残存寿命予測に向けて [cs.CL, cs.LG, stat.ML]目的:残存寿命の正確な予測
- 設備の予知保全は,突発的な故障によるコスト増大を防ぐ上で重要である。
- 従来の統計モデルでは,実際のシステムの非線形性を捉えきれない場合がある。
- 高次元かつ非凸な探索空間における最適解への収束を加速し,予測精度を向上させる。
- 量子アニーリングとQ学習を組み合わせたQAQLフレームワークを提案した。
- QAQLは,NASAのC-MAPSSデータセットとデバイスフリートのデータセットで,古典的および量子的なベースラインを上回る性能を示した。
- 実験結果は,量子アニーリングが産業用途における予知保全のための強化学習ループ内で実用的な最適化手法となる可能性を示唆している。
AHIを超えて:コネクテッド・ヘルスにおける睡眠回復のための解釈可能な因果探索ガイド型フレームワーク [eess.SY, cs.SY, math.DS, math.OC, cs.LG, eess.SP, stat.AP]目的:睡眠回復の階層的スコア(SRS)の導出
- 睡眠の客観的評価は多岐にわたる生理学的要因と患者の主観的感受性の両方を考慮する必要がある。
- 既存のAHIなどの指標は,機能的回復の背後にある多面的な生理機能への洞察が限られている。
- 多変量PSGデータから,患者中心の結果と関連性の高い睡眠回復スコアを構築すること。
- 提示されたフレームワークにより,AHIよりも最大2.5倍,SRSが主観的な回復と強く関連することが示された。
- 呼吸負荷,低酸素負荷,睡眠破綻,睡眠アーキテクチャ,自律神経調節の5つのドメインが,一貫した生理的ドメインとして浮かび上がった。
- この研究は,臨床試験とコネクテッド・ヘルス設定の両方で回復モデリングのための実用的な基盤を提供する。
概念調整モデル:識別可能性と外挿の統一的フレームワーク [cs.CL, cs.IR, cs.LG, stat.ML]目的:条件付き潜在変数モデルにおける識別可能性と外挿の理論的基盤
- 潜在変数モデルは,複雑なデータ構造を理解するための重要なツールである。
- 既存の研究では,モデルごとに識別可能性と外挿が分析されており,統一的な視点が欠けていた。
- 概念調整モデルを用いて,これらの問題を統一的に解決し,モデルの汎化性能向上を目指す。
- 概念調整モデル(CMMs)は,属性に基づき潜在概念を調整し,観測された特徴量を生成する構造を持つ。
- 特徴量の一致が,潜在概念の遷移を制約することを示し,識別可能性を条件付き設定に拡張した。
- 属性ポテンシャルを用いることで,外挿の基準を代数的に定式化し,既存の結果を包括的に説明した。
確率的ルート最適化問題に対する偶然制約付きニューラル組合せ最適化 [cs.HC, cs.RO, cs.LG]目的:確率的ルート最適化問題の解法
- 自動化分野において,複雑なグラフ最適化問題は多様な応用をモデル化する上で重要である。
- 既存のニューラル組合せ最適化は,主に確定的な問題に焦点を当てており,確率的最適化問題への応用は限られていた。
- 偶然制約を組み込むことで,不確実性下での経路選択を効率的に行う手法を確立することを目指す。
- 提案手法N(CO)$^2$は,強化学習フレームワークを統合し,探索と利用のバランスを取りながら経路選択を最適化する。
- 多様な確率的ルート最適化問題インスタンスにおいて,最先端の混合整数計画法(MILP)と比較して競争力のある性能を示す。
- 本研究は,ヒューリスティック設計における人的労力を削減し,不確実な環境下での適応的かつ効率的な意思決定を可能にする。
制約付き最適化によるプライバシー保護型臨床テーブルデータ生成フレームワークPSyGenTAB [cs.RO, cs.LG, cs.AI]目的:プライバシー保護と臨床的有用性の両立
- 医療AIの発展には高品質な臨床データが不可欠だが,データの共有はプライバシー保護の観点から制限されている。
- 既存の合成データ生成手法は,プライバシーと有用性のバランスを適切に管理する仕組みが不足している。
- プライバシーを保護しつつ,医療AIに必要な臨床的有用性を維持する合成データ生成手法を確立する。
- PSyGenTABは,制約付き最適化問題を解くことで,プライバシー保護と臨床的有用性を両立する合成データ生成を実現した。
- 複数のベンチマークテストの結果,PSyGenTABは臨床的に重要な特徴間の関係や少数クラスの診断パターンを維持することが示された。
- 実データで学習したモデルと同等の性能を,合成データで学習したモデルが達成できることが確認された。また,プライバシー侵害リスクも低減された。
ご希望通りに:LLMを用いた形式検証による精密農業におけるミッションプランニング [cs.RO, cs.AI]目的:精密農業におけるミッションプランニングの形式検証
- 農業分野におけるロボット技術の導入は,省力化や生産性向上に不可欠である。
- 自然言語による指示の曖昧さが,ロボットシステムの適切な動作を妨げる場合がある。
- 自然言語と形式検証を組み合わせ,指示の曖昧性を解消し,信頼性の高いミッションプランニングを実現する。
- LLMを用いて生成されたミッションプランが,線形時間論理(LTL)によって検証されるパイプラインが構築された。
- 異なるLLMを仕様策定と検証に用いることで,バイアスを軽減し,ロバスト性を高めることが示された。
- LLMが有用なLTL公式を生成する能力の限界と,それを克服するための実装方法が明らかになった。
疎性の呪い:モデルマージから見るRLVRモデルパラメータ空間の理解 [cs.LG, cs.AI]目的:RLVRモデルのパラメータ空間に関する理解
- 大規模言語モデルの性能向上には,推論能力の獲得と忘却現象の抑制が不可欠である。
- 従来のSFTでは,多様な推論能力を効率的に統合することが課題となっていた。
- RLVRモデルの疎性に着目し,モデルマージにおける脆弱性を克服し,能力の融合を実現する。
- RLVRモデルのパラメータ更新は疎であり,SFTと異なり,パラメータ空間上で近接していない。
- 標準的なモデルマージ手法は,この疎性により性能劣化を引き起こすことが示された。
- 提案手法SAR-Mergingは,RLVRモデル特有のパラメータ空間構造に適応し,性能向上と能力融合を可能にする。
ループ型Transformerの残差スケーリング:安定性と転移性 [cs.LG]目的:ループ型Transformerにおける残差スケーリングの最適化
- Transformerは自然言語処理の基盤技術であり,その性能向上は重要である。
- ループ型Transformerでは,層を繰り返すことで深層化するが,適切な残差スケーリングが課題である。
- 本研究は,ループ型Transformerの安定性と性能を向上させるための残差スケーリング則を導出する。
- 従来の深層ネットワークのスケーリング則では不十分であり,ループ構造を考慮したスケーリングが必要である。
- ループ回数$N$と層数$L$を分離したパラメータ化$\varepsilon = \lambda/(N\!\sqrt{L})$を提案し,理論的に最適解を示した。
- 実験により,提案手法がループ回数に関わらず学習の安定性と性能を向上させることを確認した。
ドメイン分解による階層的注意機構 [cs.LG]目的:二層の重複Schwarzドメイン分解に基づく階層的注意機構
- 機械学習モデルにおける注意機構は,長距離依存関係の学習に不可欠であり,性能向上に大きく貢献する。
- 従来の注意機構は計算コストが高く,大規模問題への適用が困難となる場合がある。
- ドメイン分解を用いることで,計算効率を向上させつつ,高精度な注意機構を実現することを目指す。
- 提案手法は,基線となるグローバルな低ランク注意機構と比較して,学習速度が速く,より正確な近似を与えることが示された。
- 提案手法は,パラメータ数を大幅に削減しながら,同等以上の性能を達成することが確認された。
- この結果は,ドメイン分解に基づく階層的注意機構が,大規模問題への適用に適していることを示唆する。
ドメイン偽装注入攻撃に対するプロンプトベース防御の評価 [cs.CR, cs.CL, cs.LG]目的:ドメイン偽装注入攻撃に対するプロンプトベース防御の有効性
- 大規模言語モデルの利用拡大に伴い,セキュリティリスクの軽減が重要課題となっている。
- 従来の注入攻撃検出器は,構文上の特徴に依存するため,ドメインに適合した語彙を用いた攻撃には脆弱である。
- ドメイン偽装注入攻撃に対する効果的な防御手法を確立し,その有効性を定量的に評価すること。
- 取得コンテンツを処理前に言い換える防御策が最も一貫して効果的であり,モデルによって攻撃成功率を55~84%削減した。
- 防御策の効果はモデルに強く依存し,Claude Haikuではスポットライトが攻撃成功率を半減させたが,Llama 3.1 8Bでは効果がなかった。
- 金融ドメインはベースライン攻撃成功率が26~33%と最もリスクが高く,弱いモデルではプロンプトベース防御で完全に脅威を排除することはできなかった。
AIサンドボックス:脅威モデル,分類,および測定フレームワーク [cs.CR, cs.AI, cs.RO, cs.SE]目的:AIサンドボックスの脅威モデル,分類,および測定フレームワークの構築
- AIシステムの安全性と信頼性確保は,社会実装において不可欠であるため,検証技術の確立が急務。
- 既存のAI検証手法では,物理的な相互作用やサイバー物理システム特有の脅威への対応が不十分である。
- AIサンドボックスにおける検証範囲,リスク封じ込め,証拠の信頼性を明確化し,安全性を高める。
- AIサンドボックスを,デジタルAI,自律型システム,サイバー物理システムにおけるテスト環境として捉え,その境界を形式化。
- サンドボックスのタイプを分類し,物理的な攻撃を含む脅威モデルと,検証に必要な測定指標を定義。
- 実際のサンドボックス事例に基づき,本フレームワークの有効性と適用範囲を実証した。
ローマ人のようにあれ:異種エージェントからの普遍的行動の学習 [cs.LG]目的:異種エージェント群からの普遍的に有用な行動の抽出
- 人間は他者の観察を通して技能を獲得する。そのため,他者の行動から環境での適切な行動を学習する手法は重要である。
- 異種集団からの観察データには矛盾する行動信号が含まれており,模倣すべき行動を特定することが困難である。
- 異なる目標を持つエージェント群から,普遍的な報酬構造を推論し,効率的な学習を実現することを目指す。
- GRIDは,報酬関数を普遍的な報酬と個別報酬に分解することで,異種エージェント群から普遍的に有用な行動を抽出する。
- 普遍的な報酬のみで学習することで,安全性の確保や基本的なタスク遂行能力といった,普遍的な環境コンピテンシーを内包する汎用性のあるエージェントを育成できる。
- GRIDは,合成基底関数分解,マルチエージェントCraftax,Highway-Envなどの実験で,既存手法よりも優れた性能と安定性を実現した。
単純オートエンコーダにおける疎性と重ね合わせが損失に与える影響 [cs.LG, stat.ML]目的:ニューラルネットワークの損失に関する解析
- ニューラルネットワークの解釈可能性向上は,AIの信頼性向上に不可欠である。
- ニューロンが複数のタスクを担うポリセマンティシティが,解釈を困難にしている。
- 疎性と重ね合わせが損失に与える影響を数学的に解明し,Elhageらの知見を裏付ける。
- 入力ベクトルの疎性を利用した重ね合わせにより,低次元空間での効率的なデータ圧縮が可能となる。
- べき乗活性化関数を用いた場合,非常に疎な領域におけるL2再構成損失の上界と下界を導出した。
- 今回の解析は,ニューラルネットワークの数学的基盤の理解を深め,今後の研究課題を示唆する。
TS-Fault:構造的欠陥に対する時系列予測モデルのベンチマーク [cs.LG, stat.ML]目的:時系列予測モデルの構造的欠陥に対する頑健性の評価
- エネルギー,交通,金融,医療など,重要な意思決定を支える時系列予測の信頼性が不可欠である。
- 既存の評価方法はクリーンなデータでの精度に偏っており,実際の欠陥環境下での信頼性を反映していない。
- 構造化された欠陥シナリオを用いたベンチマークにより,予測モデルの実際の頑健性を評価することを目指す。
- クリーンデータでの精度と頑健性には負の相関が認められた。
- 観測レベルの欠陥下では既存のランキングが維持されるが,メカニズムレベルの欠陥下では大きく変動する。
- 壊滅的な失敗は全てメカニズムレベルの欠陥下で発生し,高性能モデルが最も脆弱であることが示された。
CEO-Bench:エージェントは長期的な戦略を実行できるか [cs.AI, cs.CL, cs.SE]目的:長期的な不確実性下での情報収集,変化への適応,目標達成のための複数要素の調整能力の評価
- 現実世界の複雑な課題解決には,高度なスキルセットが不可欠であり,その評価が求められている
- 既存のエージェントは,短期的なタスクに特化しており,長期的な戦略実行能力が検証されていない
- エージェントの持続的な進捗を可能にする知能の測定に向けた第一歩を踏み出す
- CEO-Benchは,仮想的なスタートアップを500日間運営するシミュレーションを通じて,エージェントの能力を評価する
- Claude Opus 4.8とGPT-5.5のみが初期資金100万ドルを上回る成績を収めたが,安定的に利益を上げるには至らなかった
- 最良のエージェントは,顧客層をシミュレーションして将来のキャッシュフローを予測したり,交渉履歴から隠れた顧客の嗜好性を発見したりする
学習者モデリングのためのエンゲージメント強度:適応型AI倫理教育への応用 [cs.CY, cs.AI]目的:適応型AI倫理教育における学習者プロファイリング
- AI技術の急速な発展に伴い,倫理的理解の促進が重要である。
- 従来のAI倫理教育では,学習者の事前知識や経験の考慮が不十分である。
- 学習者のLLM利用状況を把握し,教育内容の個別最適化を目指す。
- LLMの利用頻度は,主要なAI認識指標と有意な関連性を示すことが明らかになった。
- 自己評価によるLLMの習熟度も,一部の指標において関連性が見られた。
- LLM利用状況の簡易な調査が,AI倫理教育における学習者プロファイリングに有用である。
DeFAb:基盤モデルにおける帰納的推論の検証可能なベンチマーク [eess.SY, cs.SY, eess.SP, cs.AI, cs.LG, cs.LO]目的:基盤モデルにおける帰納的推論能力の評価
- 知識ベースに基づく推論は,AIの信頼性と説明可能性を高める上で重要である。
- 既存の言語モデルは,帰納的推論のような論理的推論において課題を抱えている。
- 厳密な論理検証を通じて,AIの創造性と理論的推論能力を定量的に評価することを目指す。
- DeFAbベンチマークは,複数の知識ベースから生成された37万件以上のインスタンスを提供する。
- 最先端の言語モデルは,このベンチマークにおいて,記号論理ソルバーと比較して著しく低い性能を示した。
- DeFAb-HardやCONJUREといった難易度の高いバリアントも公開され,AIの推論能力をより厳密に評価することが可能となった。
ウォッサースタイン敵対的学習によるセンサー誘発分布ドリフトの補正 [cs.LG, cs.AI]目的:センサーによる分布ドリフトの補正手法
- データ駆動型手法の性能はセンサーの安定性に依存する。センサーの劣化は性能低下を招く。
- センサーの動作変化や経年劣化により,データの品質が低下する問題がある。
- 直接的な劣化パラメータのラベルがない環境下でのキャリブレーション戦略をデータ駆動的に実現する。
- 提案手法は,変化した検出器応答分布を基準分布へマッピングする変換パラメータを学習する。
- シミュレーションデータを用いて,個々のセルの経年劣化係数を高い相関で復元できることを確認した。
- キャリブレーション後のエネルギー和分布と基準分布との一致度が向上し,ノイズ増加時の性能劣化も予測通りであった。
低照度環境における群衆数推定のためのマルチモーダルハイパーグラフ融合 [cs.CV, cs.AI, cs.GR]目的:低照度環境における群衆数の推定手法
- 群衆数推定はコンピュータビジョンの基盤技術であり,公共の安全確保や効率的な人員配置に不可欠である。
- 既存手法は十分な光量下での性能は高いものの,暗所や不均一な照明下では信頼性が低下する課題がある。
- 本研究は,低照度環境下でも高精度な群衆数推定を可能にする新たな手法を開発することを目的とする。
- 新たに3つの低照度群衆数推定ベンチマークデータセット(SHA_Dark,SHB_Dark,LC-Crowd)を構築した。
- Retinexモデルに着想を得て,深度情報とCannyエッジを導入し,低照度下での画像表現を強化する。
- マルチモーダルハイパーグラフ融合モジュールと変形矩形スパースアテンションモジュールを提案し,高い性能を達成した。
学習によるバイアス軽減を通じた公正な軽度認知障害検出 [cs.CG, cs.LG, cs.CL, cs.SD, eess.AS]目的:軽度認知障害の検出
- 高齢化社会において,認知機能低下の早期発見は重要性が増している。
- 既存のモデルは,人口統計学的情報に依存し,グループ間での性能差が大きい。
- 人口統計学的属性に左右されない,より公平な検出手法を確立すること。
- 本研究では,音声,テキスト,画像などのマルチモーダル情報を融合し,勾配反転による学習でバイアスを軽減する手法を提案した。
- TAUKADIALおよびPREPAREベンチマークにおいて,最先端の手法を凌駕し,患者サブグループ間の性能差を大幅に縮小した。
- データセット間の転移学習実験からも,人口統計学的属性の学習を抑制することで,よりロバストな表現を獲得できることが示された。
APT:因果的ビデオ・言語理解のための原子物理遷移 [cs.CL, cs.CV, cs.AI]目的:物理現象を構成する因果的な状態変化の明示化
- ビデオと言語の理解において,物理現象の因果関係の理解は重要である。
- 既存の研究では,物理現象のプロセスが隠蔽され,表層的なイベントラベルのみに焦点が当てられている。
- 本研究は,原子物理遷移(APT)を用いて,物理現象の因果的メカニズムを明示的にモデルに学習させることを目指す。
- 原子物理遷移(APT)のデータセットを構築し,現在のVLMsが遷移レベルの物理学を捉えられていないことを示した。
- APT-Tuneと呼ばれるパラメータ効率的なファインチューニング手法を提案し,VLMsが因果的遷移を学習できるようにした。
- APT-Tuneは,イベントレベルのビデオ転移性能を向上させ,APTが人間らしい因果的監督信号であることを示した。
ローカルおよびグローバルアテンションのための二次元性 [cs.CL, cs.AI]目的:距離に応じた表現能力の割り当て
- 自然言語処理におけるTransformerモデルの効率化は重要である。
- TransformerモデルのKVキャッシュサイズがボトルネックとなる場合がある。
- KVキャッシュサイズを削減しつつ性能を維持することを目指す。
- 距離に応じた表現(DAR)を導入することで,フル次元ベースラインと同等の性能を達成した。
- DARは,ローカルなトークンには高次元の表現,遠隔のトークンには低次元の表現を適用する。
- 均一に次元削減を行う手法と比較して,DARは優れた性能を示した。
視覚に基づくロボット操作のための強化学習における行動空間のベンチマーク [cs.HC, cs.CY, cs.RO, cs.AI]目的:強化学習における行動空間の性能評価
- ロボットの自律的な操作能力向上は,産業の自動化や生活支援に不可欠である。
- 行動空間の選択が,ロボットの動作の滑らかさや安全性,タスク達成度に影響する。
- シミュレーションから現実世界への転移を考慮した,最適な行動空間の選択方法を示す。
- 行動空間がシミュレーションから現実世界への性能に大きな影響を与えることが確認された。
- 特に,ジョイント速度による行動空間が,視覚に基づく把持および押し出しタスクにおいて最も優れた結果を示した。
- シミュレーションと現実世界の両方における行動空間選択に関する実践的な指針が提供される。
より高い継続率,より豊かな文脈:睡眠のためのLLM搭載会話型音声日記のフィールド評価 [cs.HC, cs.AI]目的:睡眠日記の継続率向上と,睡眠の質に関するより詳細な自己申告の収集
- 睡眠医療において,睡眠日記は睡眠状態を把握する上で重要な役割を担う。
- 従来の睡眠日記は継続が難しく,睡眠の変動に関する文脈が不足しがちである。
- LLMを活用し,継続率を向上させ,より詳細な文脈情報を取得することを目指す。
- 会話型音声日記は,テキストベースの睡眠日記と比較して,高い継続率を示した。
- 会話型音声日記は,日常の習慣,ストレス,環境など,睡眠に関連するより詳細な自己申告を引き出した。
- 音声入力は,構造化された質問項目の一部の完了率が低下するトレードオフがあることが示された。
地質学的,需要,価格の不確実性下におけるリチウム生産意思決定の最適化:多目的意思決定のためのPOMDPフレームワーク [cs.CL, cs.AI, cs.LG]目的:リチウム生産における意思決定最適化
- リチウムは,電気自動車や蓄電システムに不可欠であり,安定供給が重要である。
- 既存モデルでは,価格変動や需要予測の不確実性,採掘技術の多様性を考慮できていない。
- POMDPフレームワークを用いて,不確実性を考慮した最適な採掘計画を策定すること。
- POMDPソルバーは,人間の直感的なヒューリスティクスよりも,変化するリチウム価格に対応して優れた意思決定を行う。
- 探査,生産,技術選択を最適化することで,需要充足率と経済・環境効果のバランスを改善できる。
- 価格モデルや鉱床の状況が異なる場合でも,一貫して高い成果が得られることが示された。
MIDS:双方向MambaによるCANバスにおけるステルスななりすまし・改ざん攻撃の検出 [cs.CR, cs.AI]目的:CANバスにおけるステルスななりすまし・改ざん攻撃の検出手法
- 自動車のECU間通信で広く使われるCANプロトコルは,セキュリティ脆弱性が深刻化しており,対策が急務である。
- 従来の侵入検知システムは,フレーム注入型攻撃に偏っており,時間周期を維持した巧妙ななりすまし攻撃への対応が遅れている。
- 本研究は,時間周期を維持したなりすまし攻撃を検出し,自動車のCANバスセキュリティを向上させることを目指す。
- MIDSは,CAN識別子とペイロードを並列処理し,双方向選択的状態空間モデリングにより時間的関係を再構築する。
- Tesla Model 3の実際のCANバスデータを用いて評価した結果,F1スコア96.94%を達成し,既存のベースラインを8%以上上回った。
- 公開ベンチマークにおいても高い性能を示し,最良のベースラインを最大13.94%上回るF1スコアを達成した。
報酬モデルの操舵可能な文化的嗜好性の最適化 [cs.DC, cs.RO, cs.CL, cs.AI]目的:多様な文化的嗜好性を均衡良く組み込む報酬モデルの訓練
- 大規模言語モデルは多様な文化コミュニティに対応可能であるべきである。
- 既存の研究は特定の地域のアノテーターの統一的な応答嗜好性に偏っている。
- 地域ごとの嗜好性を正確に表現し,過度な偏りを軽減することを目指す。
- 提案手法SCPOは,PRISMとGlobalOpinionQAデータセットにおいて,少数派報酬モデルの性能を最大7ポイント向上させた。
- SCPOは,報酬モデルのフルデータファインチューニングと比較して,最大280%高いデータ効率を実現する。
- 重み付け手法により,サブコミュニティの嗜好性評価において偏りが軽減されることが示された。
QC-GAN:高忠実度音声強調のためのパラメータ効率の良いクォータニオンコンフォーマーGAN [cs.SD, cs.AI, cs.LG, stat.ML]目的:高忠実度音声強調のためのフレームワーク
- 音声強調は,ノイズ環境下での音声通信や聴覚補助において重要な技術である。
- 既存の深層学習モデルは,パラメータ数が多く計算コストが高いという課題がある。
- 少ないパラメータで高精度な音声強調を実現し,計算コストを削減すること。
- QC-GANは,VoiceBank+DEMANDデータセットにおいてPESQスコア3.48を,わずか0.89Mパラメータで達成した。
- この性能は,パラメータ数が2倍以上の最先端モデルに匹敵する。
- さらに,35Kパラメータの変種は,従来の方式を上回るPESQスコア3.23を記録した。
LLMは医師の支援に準備が整っているか?医師-患者-電子カルテ連携支援のためのPhysAssistBench [cs.CL, cs.AI]目的:医師-患者-電子カルテ連携支援の評価基準
- 医療現場におけるLLM活用は,医療従事者の負担軽減や医療の質の向上に貢献する可能性を秘めている。
- 既存の評価方法では,LLMの臨床知識,電子カルテ操作,患者とのコミュニケーションを個別に評価する傾向があり,連携能力が不十分である。
- LLMが実際に医師を支援する場面を想定し,知識,コミュニケーション,システム操作を統合的に評価することで,臨床応用への課題を明確化する。
- PhysAssistBenchは,実際のMIMIC-IV症例を基に構築された,インタラクティブな医師-患者-電子カルテ連携支援の評価基準である。
- 現状のLLMは,この設定において信頼性が低いことが示され,知識,コミュニケーション,システム間の連携が重要な課題であることが明らかになった。
- 単独の能力向上ではなく,これらの能力を統合的に扱うことこそが,臨床LLMにおける信頼性向上に不可欠である。
AI駆動による家庭教師の評価:研修パフォーマンスと実際の指導の関連性 [cs.CY, cs.AI]目的:家庭教師の研修パフォーマンスと実際の指導におけるスキルの転移の関連性
- 家庭教師の質は学習成果に大きく影響するため,質の高い家庭教師の育成が重要である。
- 既存の研修プラットフォームは,実際の指導に基づいたAIによる評価が少ない。
- 研修の成果を実際の指導の質に結びつけるAI駆動システムの有効性を示す。
- AIを活用した評価システムにより,研修中の応答と実際の指導のトランスクリプトを分析し,スキルの転移を測定した。
- 研修パフォーマンスは,実際の指導トランスクリプトのスコアを有意に予測し(効果量0.25 SD),オープンエンド問題のパフォーマンスが特に予測力が高かった。
- 研修後,家庭教師は指導機会に遭遇する頻度が増加し(61.1%→68.9%),その機会における指導の質も向上した(65.5%→68.1%)。
コードの予言者:仕様推論によるエージェント型脆弱性検出 [cs.CR, cs.AI, cs.SE]目的:エージェント型脆弱性検出における,仕様の明示化と継続的な改良
- ソフトウェアの安全性を確保する上で,脆弱性の早期発見は不可欠である。
- AIエージェントによる脆弱性検出は進歩しているが,その推論過程が不透明であるという課題がある。
- エージェントの暗黙の仮定を明確化し,実行時検証を通じて仕様を改善することで,信頼性を高める。
- Code-Augurは,脆弱性のあるコードを分析し,安全と判断した場合,その根拠をアサーションとしてソースコードに埋め込む。
- ファジングによるアサーションの反証を試み,脆弱性の発見または仕様の修正を行うことで,エージェントの理解を深める。
- 実世界のコードベースにおいて,既存のエージェントよりも多くの脆弱性を検出し,主要なオープンソースプロジェクトで22個の新たな脆弱性を発見した。
情報抽出のためのベイズ型インコンテキスト学習フレームワークBCL [cs.CL, cs.AI]目的:情報抽出におけるインコンテキスト学習の最適化
- 大規模言語モデルの活用が進む情報抽出分野の発展に不可欠である。
- モデルの規模によって性能が変動し,汎用性や最適化が課題となっている。
- ベイズ更新を用いた粒子フィルタでラベル表現を洗練し,汎用的な最適化を目指す。
- 提案手法BCLは,系列ラベリングと関係分類の両方のパラダイムで優れた性能を示した。
- 既存の手法と比較して,一貫した大幅な改善が確認された。
- 粒子フィルタによるベイズ更新で,ラベル表現を系統的に最適化することが可能となった。
