arXiv雑要約
AI - 2026/03/27 公開
Model2Kernel:モデルを意識したシンボリック実行による安全なCUDAカーネル [cs.PL, cs.AI]目的:CUDAカーネルのメモリ安全性の検証
- GPUの利用が不可欠なLLM推論において,CUDAカーネルの安定性が重要である。
- モデル依存のテンソル配置や複雑なメモリインデックスにより,CUDAカーネルはメモリ安全性のバグに弱い。
- LLM推論におけるCUDAカーネルのメモリバグを自動的に検出し,安全性を確保すること。
- Model2Kernelは,vLLM,Hugging Face等のCUDAカーネルで353個の未知のバグを発見した。
- 誤検知はわずか9件であり,高い有効性が確認された。
- モデルの挙動を考慮した動的解析と,CUDA特化のシンボリック実行を組み合わせている。
複数LLMのクエリ最適化 [cs.CG, math.AT, math.OC, stat.ML, cs.DS, cs.LG, math.OC]目的:異種LLMへのクエリ割り当て最適化
- LLMの並列利用は一般的だが,最適なクエリ配分は未解明であり,信頼性向上が課題である。
- 異種LLMの性能差を考慮した,コストと信頼性のバランスを取るクエリ配分が難しい。
- 真のラベルに関わらず信頼性を保証するクエリ計画問題を解決し,コストを最小化すること。
- 本研究では,多クラスエラーをペアワイズ比較とチェルノフ型の集中不等式で近似するサロゲート問題を提案した。
- 提案手法は,誤差許容度が減少するにつれて,真の最適解への収束率が$O\left(\log\log(1/\alpha_{\min}) / \log(1/\alpha_{\min})\right)$であることが示された。
- サロゲート最適解の$(1+\varepsilon)$倍以内のクエリ計画を返す,漸近的に全多項式時間近似スキーム(AFPTAS)を設計した。
AMS回路設計のための因果AI:解釈可能なパラメータ効果分析 [cs.AR, cs.AI, cs.LG]目的:AMS回路設計におけるパラメータ効果の解釈可能性向上
- アナログ回路は複雑であり,設計の最適化が困難であるため,効率的な設計手法が求められている。
- データ駆動型AIはデジタル回路には有効だが,非線形なアナログ回路への適用は難しいという課題があった。
- SPICEシミュレーションデータから因果関係を抽出し,パラメータの影響を定量的に評価することで,設計の理解を深める。
- 提案手法は,シミュレーションに基づくATEを平均絶対誤差25%以下で再現し,ニューラルネットワークの80%を超える誤差と比較して高い精度を示した。
- 因果モデルはパラメータのランキングを人間が理解しやすい形で提示し,設計変更の影響を予測することで,設計者の意思決定を支援する。
- 本研究は,より効率的で信頼性の高いAMS回路設計自動化への道を開くことを示す。
ARC-AGI-3:フロンティア級エージェント知能への新たな挑戦 [cs.NI, eess.SP, cs.AI]目的:エージェント知能の評価
- AI研究の進展において,汎用的な問題解決能力を持つエージェントの実現が重要である。
- 既存のAIシステムは,新しい環境への適応や目標推論において未だ課題が残る。
- 本研究は,明示的な指示なしに環境を探索し,目標を推論するAIシステムの能力向上を目指す。
- ARC-AGI-3は,探索,目標推論,環境モデル構築,行動計画を評価するインタラクティブなベンチマークである。
- 人間の被験者は全ての環境を解決できる一方,2026年3月時点の最先端AIシステムは1%以下のスコアにとどまる。
- 本研究では,ベンチマーク設計,効率に基づく評価フレームワーク,環境構築・検証手法を提示する。
スケッチからシミュレーションへ:マルチエージェント大規模言語モデルによるフローシート自動生成 [cs.SE, cs.AI, cs.MA, cs.SY, eess.SY]目的:プロセスフローシートの自動生成
- プロセスシステム工学において,シミュレーションは設計・最適化に不可欠である。
- フローシート作成には専門知識と多大な手作業が必要であり,ボトルネックとなっている。
- プロセススケッチから直接実行可能なフローシートを生成することで,その課題を解決する。
- 本研究では,プロセス図を直接実行可能なAspen HYSYSフローシートに変換する,エンドツーエンドのマルチエージェント大規模言語モデルシステムを開発した。
- 4つの化学工学の事例研究において,システムはすべてのケースで実行可能なHYSYSモデルを生成し,構造的忠実度も高かった。
- 特に,接続の一貫性は0.93以上,ストリームの一貫性は0.96以上を達成し,実用的なスケッチからシミュレーションへのワークフローの可能性を示した。
TRAJEVAL:コードエージェントの軌跡分解による詳細な診断 [cs.SE, cs.AI]目的:コードエージェントの軌跡の診断的分析
- コード生成AIの発展に伴い,その性能評価の重要性が増している。
- 既存の評価指標では,エージェントの失敗原因の特定が困難である。
- エージェントの行動を分解し,詳細な診断を可能にすることを目指す。
- TRAJEVALは,エージェントの軌跡を「検索」「読解」「編集」の3段階に分解するフレームワークである。
- 実験の結果,全てのモデルで不必要な関数を過剰に調査していることが示された。
- 本フレームワークは,モデルのPass@1予測精度を向上させ,リアルタイムフィードバックによる性能改善を可能にした。
ハンドオーバー最適化のための二重グラフ多エージェント強化学習 [cs.NI, cs.AI, cs.LG]目的:セルラーネットワークにおけるハンドオーバー制御パラメータ最適化
- 無線通信ネットワークの容量増加と品質向上は,現代社会における情報伝達の基盤であり重要である。
- 従来のハンドオーバー制御は,静的なルールに依存しており,変動するトラフィックや移動パターンに対応できないという課題がある。
- 二重グラフを用いた分散型強化学習により,動的なネットワーク環境下でのハンドオーバー制御を最適化し,性能向上を目指す。
- 提案手法TD3-D-MAは,ns-3シミュレータによる評価において,既存のハンドオーバー制御手法や集中型強化学習ベースラインと比較してネットワークスループットを向上させた。
- TD3-D-MAは,様々なトラフィックパターンとネットワークトポロジーにおいて,ロバストな性能を示すことが確認された。
- 二重グラフ構造と共有パラメータのGNNアクターを用いることで,大規模ネットワークにおける分散決定を効率的に実現した。
知識グラフにおけるマルチモーダルイベント予測のための動的マルチスペース表現学習 [cs.LG, cs.AI]目的:マルチモーダルイベント予測のための動的マルチスペース表現学習
- 現実世界のイベント予測には,正確なマルチモーダル知識の表現が不可欠である。
- 既存研究は静的な設定に偏っており,マルチモーダル知識の動的な獲得と融合が課題であった。
- 異なるモーダリティの時間依存性を捉え,進化するマルチモーダル融合特徴を学習することを目指す。
- DyMRLは,ユークリッド,双曲,複素空間からの時間特有の構造的特徴を統合し,深層表現を獲得する。
- DyMRLは,異なるモーダリティへの動的な学習重点を対称的に割り当てる,高度な二重融合進化注意メカニズムを組み込む。
- 構築したベンチマークにおいて,DyMRLは最先端の動的単一モーダルおよび静的マルチモーダルベースライン手法を上回る性能を示した。
制約なし機械学習モデルにおける物理対称性の学習方法 [cs.LG, cond-mat.mtrl-sci, physics.chem-ph, physics.comp-ph, stat.ML]目的:物理対称性の学習内容の評価
- 物理シミュレーションの精度向上には,物理法則に沿ったモデル構築が不可欠である。
- 制約なしモデルは柔軟性が高い反面,物理対称性を無視する可能性がある。
- 学習過程における対称性の情報を分析し,モデルの改善を目指す。
- 制約なしモデルでも,データ拡張戦略により近似的な対称性を獲得できることが示された。
- 学習された表現における対称性の内容を測定する指標が導入され,モデルの層ごとの対称性情報の処理過程が調査された。
- 必要最小限の誘導バイアスを注入することで,安定性と精度を向上させることができた。
自己改善型LLMエージェントのための経験的反射学習 [cs.LG, cs.AI]目的:LLMエージェントの自己改善
- LLMの進化により複雑な問題解決が可能になったが,環境への適応が課題である。
- 過去の経験を活かせず,毎回タスクを最初からやり直してしまう点が問題である。
- 過去の軌跡から汎用的なヒューリスティックを抽出し,自己改善を促す。
- ERLを用いることで,Gaia2ベンチマークにおける成功率がReActベースラインより7.8%向上した。
- タスク完了の信頼性が大幅に向上し,既存の経験学習手法を上回る結果が得られた。
- 選択的なヒューリスティックの検索が重要であり,少数ショットの軌跡プロンプティングよりも有効であることが示された。
自己教師ありグラフニューラルネットワークによるメッシュフリー離散微分演算子の学習 [cs.LG, cs.NA, math.NA, physics.flu-dyn]目的:メッシュフリー離散微分演算子の学習
- 複雑な形状に対する柔軟な離散化が求められる分野であり,数値シミュレーションの精度向上が不可欠である。
- 従来のメッシュフリー法は,計算コストと精度のトレードオフが存在し,高精度化が困難であった。
- グラフニューラルネットワークを用いて,高精度かつ効率的なメッシュフリー離散微分演算子を学習し,その問題を解決する。
- 提案手法は,テイラー展開に基づく多項式モーメント制約を用いて,グラフニューラルネットワークを訓練する。
- 学習された演算子は局所的な形状のみに依存し,解像度に依存せず,様々な問題に再利用可能である。
- 標準的な数値解析診断により,Smoothed Particle Hydrodynamicsよりも精度が向上し,高精度なメッシュフリー法と同等以上の性能を示すことが確認された。
過渡運転条件下の蒸留塔の動的段間モデル化のための物理情報ニューラルネットワークデジタルツイン [cs.LG]目的:過渡運転条件下の二成分蒸留塔の動的段間モデル化
- 蒸留は化学工業における分離プロセスの中核であり,効率的な運転は生産性とコストに大きく影響する。
- 従来のモデルは計算コストが高い,あるいは精度が十分でない場合があり,リアルタイム制御や最適化が困難である。
- 物理情報ニューラルネットワークを用いることで,データと物理法則の両方を活用し,高精度かつ効率的なデジタルツインを構築する。
- 提案モデルは,Aspen HYSYSのシミュレーション結果と物理法則(熱力学的平衡,物質収支,エネルギー収支)を組み込んだ物理情報ニューラルネットワークデジタルツインである。
- HXモル分率予測において,データのみのモデルと比較して,RMSEが44.6%低減し(RMSE=0.00143, R^2=0.9887),熱力学的制約を厳密に満たした。
- 過渡的な擾乱に対する応答や,還流比変動,圧力変化など,蒸留塔の動的挙動を正確に捉えることができた。
LLMは古典的なハイパーパラメータ最適化アルゴリズムを上回れるか? autoresearchに関する研究 [cs.LG, stat.ML]目的:小規模言語モデルのハイパーパラメータ調整における古典的なハイパーパラメータ最適化(HPO)手法とLLMベースの手法との比較
- 機械学習モデルの性能はハイパーパラメータに大きく依存するため,効率的な最適化が重要である。
- 古典的なHPO手法はドメイン知識を欠き,LLMは試行間の最適化状態を追跡するのが困難である。
- 古典的最適化とLLMの強みを組み合わせることで,ハイパーパラメータ最適化の性能向上を目指す。
- 固定されたハイパーパラメータ探索空間では,CMA-ESやTPEなどの古典的なHPO手法がLLMベースのエージェントを上回る。
- 訓練ソースコードを直接編集するLLMエージェントは,古典的手法との差を大幅に縮小する。
- CMA-ESの状態をLLMと共有するハイブリッド手法Centaurが最高の性能を発揮し,0.8Bモデルが27Bモデルを上回った。
水中IoTにおける選択的協調集約を用いたエネルギー効率型階層型異常検知 [cs.LG]目的:水中IoTにおける異常検知のためのエネルギー効率化
- 水中IoTは海洋資源のモニタリングや環境保護に不可欠であり,その効率化は重要である。
- 水中での通信は帯域幅が狭く,エネルギー消費が大きいため,効率的な異常検知が課題である。
- 通信制約下でも高い検知精度を維持しつつ,エネルギー消費を削減することを目的とする。
- 提案手法は,センサーとフォグノードの関連付け,モデル更新の圧縮,フォグノード間の選択的協調集約によりエネルギー効率を向上させる。
- シミュレーション結果から,階層型学習は全センサーの参加を維持し,フォグノード間の協調によりエネルギー消費を31-33%削減できることが示された。
- 実データを用いた実験でも,提案手法は検知精度を維持しつつ,エネルギー効率で優れていることが確認された。
一貫性が偏りとなる時:半構造化臨床面接における面接官の影響 [cs.CL, cs.AI, cs.SD, eess.AS]目的:半構造化臨床面接における面接官の影響の特定
- 自然言語処理の進展により,会話データからの自動感情分析が注目されている。
- モデルの予測根拠が不明確で,高い性能が達成されてもその理由が解明されていない。
- 面接官の発話がモデルの性能に与える影響を分析し,モデルが参加者の言語から学習しているか検証する。
- 面接官の固定的な質問や位置情報が,抑うつと対照群の識別に使用されていることが判明した。
- 参加者の発話のみでモデルを訓練することで,意思決定の根拠がより広範囲に分散し,言語的な手がかりが反映されるようになった。
- 半構造化プロトコルは一貫性を確保する一方で,面接官の発話を含めることで,スクリプトに起因する性能向上が生じている。
表現階層を通して,プルーニングが有効となる条件を解明する [cs.CL, cs.LG]目的:言語モデルにおけるプルーニングの効果に関するメカニズムの解明
- 近年,大規模言語モデルの効率化が重要視されており,その手法としてプルーニングが注目されている。
- プルーニングは,特定のタスクにおいては有効だが,生成タスクにおいては性能が低下することが課題である。
- プルーニングによる性能低下の原因を,表現階層の視点から分析し,プルーニングの適用指針を提示すること。
- 埋め込み表現とロジット空間における表現はプルーニングに対して比較的ロバストであることが示された。
- ロジットから確率への非線形変換が,わずかなずれを増幅させ,生成時の性能劣化に繋がることが明らかになった。
- 非生成タスクにおいては,埋め込み空間の安定性と確率空間の安定性により,プルーニングが有効に機能することが示唆された。
集合知は宝くじか?LLMにおけるミームドリフトのスケーリング則 [cs.AI, cond-mat.dis-nn, cond-mat.stat-mech, physics.bio-ph, physics.soc-ph]目的:LLMを活用したマルチエージェントシステムにおけるミームドリフトのメカニズム解明
- LLMを用いたマルチエージェントシステムは意思決定に影響を与えるため,その挙動理解が重要である。
- エージェント間の合意形成が偶然によるものなのか,集団的推論によるものなのか不明確である。
- 集団的表現形成のメカニズムを明らかにし,その偏りを予測することを試みる。
- 最小モデルQSGを用いて,エージェント間の相互的なインコンテキスト学習が合意形成の根源であることを示した。
- サンプリング駆動の「ミームドリフト」は,初期のランダムな選択が合意へと増幅される現象と捉えられる。
- 集団サイズ,通信帯域,適応率,不確実性に応じたスケーリング則を導出し,シミュレーションと実験で検証した。
自己結合を用いた単一ニューロンによるスパイクニューラルネットワークの再構成 [cs.NE, cs.AI]目的:スパイクニューラルネットワークの再構成
- ニューロモーフィックコンピューティングの発展に不可欠であり,低消費電力な情報処理が期待される。
- 既存のスパイクニューラルネットワークは,大規模なネットワーク構造やメモリ消費が課題である。
- 単一ニューロンによる再構成を通じて,ネットワークの簡素化と効率化を目指す。
- 時間遅延自己結合スパイクニューラルネットワーク(TDA-SNN)は,単一のニューロンとプロトタイプ学習に基づく学習戦略を用いる。
- TDA-SNNは,内部の時間状態を再編成することで,多様なネットワークアーキテクチャを統一的に実現可能である。
- 実験結果から,リザバーや多層パーセプトロン環境で競争力のある性能を示し,畳み込み処理においては空間と時間のトレードオフが確認された。
ランダムクロッピングによる無料のパッチレベル差分プライバシーの増強 [cs.LG, cs.CR, cs.CV]目的:画像データにおける差分プライバシーの増強
- 機械学習モデルのプライバシー保護は重要であり,個人情報漏洩のリスクを軽減する。
- 差分プライバシー確保にはコストがかかり,モデルの精度低下を招く可能性がある。
- ランダムクロッピングの持つ潜在的なプライバシー保護効果を利用し,追加コストなしにプライバシーを増強する。
- ランダムクロッピングが,モデルへの機密コンテンツの入力を確率的に排除することで,差分プライバシーを増強することを確認した。
- パッチレベルでの隣接関係を導入し,ランダムクロッピングとDP-SGDを組み合わせた際の厳密なプライバシー境界を導出した。
- 実験的に,パッチレベルでの増強が複数のセグメンテーションアーキテクチャおよびデータセットでプライバシーと実用性のトレードオフを改善することを示した。
制約付きデータ合成と段階的報酬による,多段階ツールオーケストレーションのためのLLMの訓練 [cs.LG, cs.CL]目的:多段階ツールオーケストレーションの訓練
- LLMの応用範囲拡大のため,複数APIの連携利用は不可欠である。
- 既存環境は単純な関数呼び出しに偏り,現実的な複雑なタスクに対応できない。
- 実API応答を活用し,段階的な報酬設計で正確なオーケストレーションを可能にする。
- 提案手法は,ComplexFuncBenchにおいて,ターン精度の大幅な改善を実証した。
- 報酬の各要素は性能に不可欠であり,単独では効果が低下することが示された。
- データ合成パイプラインにより,制御可能な複雑さの有効なオーケストレーションを生成した。
アクター・クリティック最適化フレームワークはアナログ回路設計最適化を改善できるか? [cs.LG, cs.SY, eess.SY]目的:アナログ回路設計の最適化
- アナログ回路設計は,高性能な回路を効率的に実現するために不可欠である。
- 回路パラメータのわずかな変更がシミュレーションコストを増大させ,最適解の探索が困難である。
- アクター・クリティックフレームワークを用いて,より効率的かつ安定した最適化を実現する。
- 提案手法ACOFは,既存の最適化手法と比較して,性能指標(FoM)のトップ10の平均値を38.9%向上させた。
- 後悔値(regret)の平均を24.7%削減し,最大でFoMは70.5%,後悔値は42.2%低減した。
- 反復的な推論とシミュレーション駆動型探索を組み合わせることで,透明性の高い自動アナログ回路設計が可能となる。
大規模言語モデルにおける3D空間推論のためのスケーラブルな物体関係エンコーディング [cs.CV, cs.AI, cs.LG, cs.MM]目的:3D空間における物体間の関係性をエンコードする手法
- 知的な具現化されたエージェント開発において,3D空間内の物体位置関係を理解する能力は重要である。
- 3Dシーンと自然言語のペアデータが限られており,強力な推論能力を持つモデルをゼロから学習することが困難である。
- 大規模言語モデルの性能を維持しつつ,スケーラブルな形で3D空間の関係性を捉えることを目指す。
- 提案手法QuatRoPEは,物体数に比例する長さの入力でペアワイズな空間関係を計算し,効率的なエンコーディングを実現する。
- QuatRoPEは3D座標のベクトルエンコーディングにより,シーンの幾何学的整合性を維持した空間的一貫性を保証する。
- IGREを用いることで,QuatRoPEの影響を物体関連トークンに限定し,既存の位置埋め込みとの干渉を最小限に抑える。
幾何学だけで十分か?ランドマークに基づく視線推定の評価 [cs.CV, cs.AI]目的:ランドマークに基づく視線推定の性能評価
- 視線推定は,人間とコンピュータ間の自然なインタラクションを実現する上で重要な技術である。
- 深層学習に基づく視線推定は高精度だが,計算コストが高く,解釈可能性に乏しいという課題がある。
- ランドマークに基づく手法の性能向上と汎化性能の解明を目指す。
- ランドマークに基づくモデルは,同一ドメインでの評価では性能が劣る傾向が見られた。
- しかしながら,クロスドメイン評価では,提案するMLPアーキテクチャはResNet18と同程度の汎化性能を示した。
- 疎な幾何学的特徴は,ロバストな視線推定に十分な情報を含んでおり,効率的で解釈可能,かつプライバシーに配慮したエッジアプリケーションへの道を開く。
AutoSAM:SAMコード用入力ファイル生成を自動化するエージェントフレームワーク - マルチモーダル検索拡張生成による [cs.HC, cs.AI, cs.LG]目的:SAMコード用入力ファイルの自動生成
- 先進的な原子炉システムの設計と安全解析は重要であり,高精度な熱流体解析が不可欠である。
- SAM等のシステムレベル熱流体解析コードへの入力ファイル作成は,専門知識と労力を要する作業である。
- 非構造化された設計データを解析し,SAMコードの入力ファイル自動生成を可能にすること。
- AutoSAMは,原子炉システムの設計図や報告書などの非構造化データを読み込み,シミュレーションに必要なパラメータを抽出する。
- 抽出されたパラメータは中間表現として検証され,SAMコードで実行可能な入力デッキを生成する。
- ケーススタディにおいて,期待される熱流体挙動と一致する実行可能なSAMモデルが生成され,欠落データや仮定値が明確に示された。
分散システムにおける分散タスクスケジューリング:深層強化学習アプローチ [cs.DC, cs.AI, cs.LG, cs.MA]目的:分散システムにおけるタスクスケジューリングの効率化
- 大規模分散システムは,現代の計算基盤として重要性が増している。効率的なリソース利用が求められる。
- 従来の集中型アプローチはスケーラビリティに限界があり,動的なワークロードへの対応が困難である。
- 異種分散環境下で,強化学習を用いた自律的なタスクスケジューリング手法を確立すること。
- 提案手法は,Google Cluster Traceデータセットを用いた100ノードの異種システムにおいて,タスク完了時間の平均で15.6%の改善を示した。
- エネルギー効率も15.2%向上し,SLA充足率はベースラインと比較して82.3%から75.5%へと改善された。全ての改善は統計的に有意であった(p < 0.001)。
- 本実装はNumPyのみを使用しており,リソース制約のあるエッジデバイスへの展開が可能である。
信頼の監視としての機能:ユーザーの信頼とAI開発者の行動の進化力学 [cs.AI, cs.LG, cs.MA, nlin.AO]目的:ユーザーの信頼とAI開発者の行動の共進化
- AIの能力向上と普及に伴い,AIの安全性確保が喫緊の課題となっている。
- 既存の研究では,ユーザーの信頼が繰り返しの相互作用によって変化するダイナミズムが考慮されていない。
- AIの安全性と普及を両立させるためのガバナンス体制を明らかにする。
- 進化ゲーム理論の結果,安全性確保と普及が両立する体制は,安全でない行動に対するペナルティが安全対策のコストを上回り,ユーザーが適度な監視を継続する場合にのみ実現される。
- 透明性の確保,低コストな監視体制,そして実効性のある制裁が,安全なAIの普及に不可欠である。
- 規制のみでは不十分であり,ユーザーの信頼も盲信できないため,進化的な危険な状態への移行を防ぐ必要がある。
コントラスト学習が気象データの決定論的および生成モデルを強化する [cs.LG]目的:気象データの低次元埋め込み表現の生成
- 気象データは多変量であり,高次元かつ多峰性であるため,効率的な解析が重要である。
- ラベル付きデータが不足しがちな気象データにおいて,効果的な次元削減手法が求められている。
- 疎な気象データに対するコントラスト学習の有効性を検証し,性能向上を目指す。
- コントラスト学習を用いて,疎な気象データと完全な気象データを整合させるSPARTA(spatiotemporal embeddings)を開発した。
- 時間的認識のあるバッチサンプリング戦略とサイクル整合性損失を導入し,潜在空間の構造を改善した。
- グラフニューラルネットワークを用いた融合手法により,物理知識を組み込み,疎な地球科学データの圧縮性能を向上させた。
グロッキングの検証可能な有限サイズ遷移 [cs.LG, cond-mat.stat-mech, cs.AI]目的:グロッキング現象における相転移の検証
- 機械学習モデルの汎化性能向上は重要であり,そのメカニズム解明が求められる。
- グロッキングは相転移に例えられるが,検証可能な有限サイズ入力が不足していた。
- 有限サイズ入力を用いて,グロッキングにおける相転移の検証を試みる。
- グロッキングは,初期の暗記から遅れて汎化が始まる現象であり,相転移のような振る舞いを示すことが示唆された。
- 群の位数pを拡張変数,ヘッド・テールコントラストを秩序パラメータとして用いた結果,相転移の兆候が確認された。
- Binder様の交差点や感受率比較から,滑らかなクロスオーバー解釈は支持されず,相転移としての検証可能性が示された。
エージェント型ツールプロトコルの形式意味論:プロセス計算アプローチ [cs.AI, cs.MA]目的:エージェント型ツールプロトコルの形式的検証
- 大規模言語モデルエージェントの普及に伴い,外部ツール利用時の安全性確保が重要になっている。
- Schema-Guided DialogueとModel Context Protocolの形式的な関係性が未解明であった。
- 両プロトコルの構造的同値性と,MCPの表現力の限界を明らかにすること。
- Schema-Guided DialogueとModel Context Protocolは,特定の写像下で構造的に同値であることが証明された。
- Model Context ProtocolからSchema-Guided Dialogueへの逆写像は完全ではなく,情報損失が生じる点が示された。
- 完全な行動的同値性には,意味的完全性等の5つの原則が必要条件であり十分条件であることが判明した。
スパースOHC推薦のためのPseudo Label NCF:二重表現学習と分離可能性と精度のトレードオフ [cs.IR, cs.AI, cs.LG]目的:極端なインタラクションのスパース性の下における推薦性能の向上
- オンライン健康コミュニティは患者同士のサポートを提供するが,パーソナライズには過去のインタラクションが不可欠。
- 従来の推薦システムは,インタラクションが少ない新規ユーザーに対して十分な性能を発揮できないという課題がある。
- サーベイ由来の擬似ラベルを用いて,新規ユーザーへの推薦精度を向上させることを目指す。
- 擬似ラベルを用いたNCFモデルは,ランキング性能を向上させる。MLP, NeuMF, MFいずれのモデルでもHR@5が改善。
- 擬似ラベル埋め込み空間は,ベースライン埋め込み空間よりも高いコサインシルエットスコアを示し,解釈可能性が向上。
- 埋め込み空間の分離可能性とランキング精度には負の相関があり,解釈性と性能のトレードオフが存在する。
視覚のための光円錐:視覚階層のための単純な因果事前分布 [cs.LG, cs.CV]目的:視覚階層の発見
- 視覚は知覚において基礎的であり,知能システム構築の鍵となる。
- 既存のモデルは,物体間の階層構造を捉えきれていない。
- 光円錐に基づく因果的構造の導入により,階層構造の発見を目指す。
- ローレンツ幾何学を用いることで,従来のモデルよりも大幅に精度が向上した。
- 尤もらしい幾何学構造は,視覚階層には因果関係が必要であることを示唆する。
- 少ないパラメータ数で,効果的な階層構造の学習が可能となった。
SlopCodeBench:長期的反復タスクにおけるコーディングエージェントの劣化を評価するベンチマーク [cs.SE, cs.AI, cs.CL]目的:コーディングエージェントの長期的な反復タスクにおけるコード品質劣化の評価
- ソフトウェア開発は反復的であり,その品質維持が重要である。
- 既存のベンチマークは単発的な解決に偏っており,拡張性評価が不十分である。
- エージェントが自身のコードを拡張する際の品質劣化を測定し,改善点を見出す。
- SlopCodeBenchは,20の問題と93のチェックポイントを含む,言語非依存のベンチマークである。
- どのエージェントも問題を完全に解決できず,最高チェックポイントの解決率は17.2%であった。
- コードの冗長性や構造的劣化が進行し,人間のコードと比較して劣化が顕著であった。
深層生成モデルを用いた心臓MRI画像合成 [cs.DC, cs.CV, cs.LG]目的:心臓MRI画像の合成手法に関する検討
- 医療画像解析において,質の高い学習データが不可欠である。しかし,アノテーション付きの医療画像は不足している。
- 既存手法では,データセットの制約,ベンダーによる変動,プライバシー侵害のリスクなどが課題となっている。
- 本研究は,忠実性,有用性,プライバシー保護の観点から既存の心臓MRI画像生成手法を比較検討し,臨床ワークフローへの導入を促進する。
- GAN,VAE,拡散モデル,フローマッチングなど,様々な生成モデルが心臓MRI画像の合成に用いられている。
- マスク条件付き生成やベンダー様式による条件付けにより,画像の構造的忠実性や汎化性能が向上することが示されている。
- プライバシー保護の観点から,メンバーシップ推論攻撃や差分プライバシーの導入が検討されている。
ラルフ・ウィグムの監督:工学設計のためのメタ認知協調制御エージェントAIループの探求 [cs.IR, stat.ML, cs.CL, cs.AI]目的:工学設計における設計固定化を軽減し,システム性能を向上させるためのメタ認知協調制御エージェントAIループの提案
- 工学設計は,技術革新の基盤であり,社会の発展に不可欠である。
- LLMエージェントを用いた自動設計システムは,人間の設計者と同様に,既存のパラダイムに固執する傾向がある。
- 本研究は,メタ認知的な協調制御ループを導入することで,設計固定化を抑制し,より優れた設計を可能にすることを目指す。
- 提案する協調制御ループ(CRDAL)は,従来のループと比較して,より性能の高い設計を生み出すことが確認された。
- CRDALは,潜在的な設計空間をより効果的に探索し,設計の多様性を高めることが示された。
- 自己規制ループ(SRL)は,設計性能において有意な改善は見られなかったものの,異なる設計空間を探索した。
小規模低リソース言語における医療転写のためのファインチューニング済みLLMモデルの評価 [cs.CL, cs.AI, cs.LG]目的:小規模な検証済みデータセットを用いた医療転写における,ドメイン適合型大規模言語モデルの有効性
- 医療現場での正確な記録は,患者の安全と診断,継続的なケアに不可欠である。
- 電子カルテの事務負担は医師の燃え尽き症候群の一因であり,特に低リソース言語圏では深刻である。
- ファインチューニングにより,フィンランド語の医療会話を効率的に書き起こす方法を確立すること。
- ファインチューニングされたLLaMA 3.1-8Bは,BLEU=0.1214,ROUGE-L=0.4982,BERTScore F1=0.8230という結果を示した。
- n-gramの一致は低いものの,参照トランスクリプトとの意味的な類似性は高かった。
- ファインチューニングがフィンランド語の医療言説の翻訳に有効であり,臨床文書作成のためのプライバシー重視の特定ドメイン大規模言語モデルのファインチューニングの実現可能性を示唆する。
検証不可能な状態から検証可能な状態へ:LLM時代の形変性テスト [cs.SE, cs.AI]目的:AI/LLM機能を組み込んだソフトウェアシステムのテスト手法
- AI技術の発展に伴い,ソフトウェアへの組み込みが進んでおり,その品質保証が重要となっている。
- LLMは強力だが信頼性が低く,テストのための正解データを用意することが困難である。
- LLMを含むシステムのテストにおける検証問題の解決を目指している。
- 形変性テストを用いることで,複数のテスト実行間の関係性をテストオラクルとして利用可能となる。
- これにより,正解データが不足する状況下でも,ソフトウェアのテストが可能となる。
検証可能な委譲のためのエージェント識別プロトコル:MCPとA2A [cs.CR, cs.AI]目的:MCPおよびA2Aにおける検証可能な委譲のためのエージェント識別プロトコル
- AIエージェントの利用拡大に伴い,セキュリティの重要性が増している。
- 既存のMCPやA2Aプロトコルには,エージェントの身元確認機能が欠如している。
- エージェント間の安全な連携を実現するための身元確認と委譲の仕組みを確立する。
- Invocation-Bound Capability Tokens (IBCTs)という,ID,権限,証跡を統合するトークンチェーンを提案。
- IBCTsは,単一ホップの場合にはJWT,複数ホップの場合にはBiscuitトークンとして機能し,言語間互換性も実現。
- 実環境でのテストでは,オーバーヘッドが少なく,600回の攻撃試行すべてを阻止できることが確認された。
暗闇の中のTransformer:バンディットフィードバックによる未知の探索空間の航行 [cs.LG]目的:未知の探索空間における探索戦略の近似
- 大規模言語モデルの能力向上には,外部探索アルゴリズムとの連携が重要である。
- 外部探索コンポーネントの導入は,問題解決プロセスを複雑化する可能性がある。
- Transformerアーキテクチャによる探索アルゴリズムの近似を目指す。
- Transformerは,理論上,異なる探索戦略を実装できることが示された。
- 初期状態からTransformerを訓練することで,探索戦略を近似できることが確認された。
- 事前学習済みLLMを探索軌跡でファインチューニングすることで,完全な能力を引き出すことができた。
ReLope:KL正則化LoRAプローブによるマルチモーダルLLMルーティング [eess.SY, cs.ET, cs.SY, cs.AI]目的:マルチモーダルLLMにおけるルーティング手法の改善
- LLMの性能とコストのバランスが重要視されており,軽量モデルと大規模モデルの組み合わせが有効。
- 既存のプローブルーティングは,マルチモーダルLLMでは性能が低下する問題がある。
- 視覚入力が隠れ状態の分離性を弱める問題を解決し,効果的なルーティングを実現すること。
- Attention Probeは,注意スコアに基づいて隠れ状態を集約することで,分散した正解信号を回復させる。
- KL正則化LoRA Probe (ReLope) は,軽量なLoRAアダプターを挿入し,KL正則化を適用することで,ルーティングを意識した表現を学習する。
- 提案手法は,既存手法と比較して一貫して高い性能を示し,隠れ状態の品質改善が効果的なルーティングに不可欠であることを示唆する。
物理学習に向けた安定したバックプロパゲーションフリーなニューラルネットワーク学習の局所学習 [cs.LG, cs.CE]目的:バックプロパゲーションや自動微分を用いない安定したニューラルネットワーク学習手法
- チップ製造の物理的限界や環境負荷増大から,物理ニューラルネットワーク等の新たな学習パラダイムが求められている。
- 既存の物理ニューラルネットワークは,物理システムでの実現が困難なバックプロパゲーションに依存している場合が多い。
- バックプロパゲーションフリーな物理システムでの学習を可能にする手法の開発。
- 提案手法FFzeroは,層ごとの局所学習,プロトタイプベース表現,方向微分に基づく最適化を組み合わせることで,バックプロパゲーションを用いない安定した学習を実現した。
- バックプロパゲーションが失敗する条件下でも局所学習が有効であることを示した。
- 多層パーセプトロンや畳み込みニューラルネットワーク,回帰や分類など幅広いタスクへの適用可能性を示し,光ニューラルネットワークによる物理学習への道筋を提示した。
説明可能性駆動型分析による腹部大動脈瘤セグメンテーションにおけるモデルの失敗要因の解明 [cs.CV, cs.AI, cs.LG]目的:腹部大動脈瘤セグメンテーションにおけるモデルの失敗要因の解明
- 腹部大動脈瘤は生命に関わる疾患であり,正確な画像セグメンテーションが診断・治療に不可欠である。
- 複雑な形状や低コントラストにより,既存のセグメンテーションモデルは失敗することが多い。
- モデルの注目領域を制御し,セグメンテーションの精度と信頼性を向上させる。
- 提案手法は,最終エンコーダブロックから得られる注目マップを,出力確率への適合と軽量なリファインメントパスへの組み込みを通じて活用する。
- この手法により,注意散漫な構造物の抑制と微細な構造物の保持が可能となり,セグメンテーション性能が大幅に向上した。
- エンコーダの注目領域をXAIガイダンスで明示的に最適化することは,複雑なセグメンテーションにおいて有効な原理であることが示唆された。
GoldiCLIP:言語画像事前学習における明示的な教師あり学習のバランスをとるゴルディロックスアプローチ [cs.CV, cs.AI, cs.LG]目的:言語画像事前学習のための明示的な教師あり学習のバランス
- 大規模な言語画像モデルの発展には大量のデータが不可欠であり,そのデータ収集は大きな課題となっていた。
- 既存の事前学習手法は,コントラスト学習における弱点を十分に克服できていないという問題があった。
- 限られたデータ量で高性能な言語画像モデルを学習するための,効果的な教師あり学習のバランスを確立すること。
- GoldiCLIPは,自己蒸留,エンコーダ統合デコーダ,不確実性に基づく重み付けの3つの要素を組み合わせたフレームワークである。
- わずか3000万枚の画像で学習されたGoldiCLIPは,データ効率の高いアプローチにおいて最先端の結果を達成した。
- MSCOCO検索,ファイングレイン検索,質問ベース検索において,既存のベースラインを大幅に上回る性能を示した。
時間依存型ロボット動作のための運動プリミティブ生成の高速ワンステップ拡散法 (FODMP) [cs.RO, cs.AI]目的:時間依存型ロボット動作を実現するための運動プリミティブ生成手法
- ロボットの自律性を高める上で,複雑な動作を効率的に学習・実行する技術が不可欠である。
- 既存の拡散モデルは,高速性と時間依存性の高い動作生成の双方立を両立できていない。
- 本研究は,高速かつ時間依存性のある運動プリミティブを生成する新たなフレームワークを提案する。
- 提案手法FODMPは,運動プリミティブのパラメータ空間で拡散モデルを蒸留し,単一ステップのデコーダを用いて高速な動作生成を実現する。
- MetaWorldやManiSkillといったベンチマークにおいて,FODMPはMPDやアクションチャンク拡散ポリシーと比較して最大10倍の高速化を達成し,成功率も同等または上回る。
- FODMPは,高速な加速・減速動作を生成することで,高速で飛来するボールを捕捉するなど,リアルタイムな制御が求められるタスクにおいて優れた性能を発揮する。
局所的な群衆数推定における,パラダイム横断的な転送可能性を持つ敵対的摂動 [cs.CV, cs.AI]目的:群衆数推定および局在化モデルに対する敵対的攻撃の有効性
- 群衆数推定技術は,セキュリティ上の理由から,その堅牢性が重要視されている。
- 密度マップと点回帰という異なるアプローチ間の敵対的攻撃は未だ検討されていない。
- 異なるパラダイムのモデルを同時に攻撃できる敵対的フレームワークを開発すること。
- 提案手法は,元の画像と比較して平均7倍の平均絶対誤差増加を達成し,攻撃の有効性が確認された。
- 7つの最先端群衆数推定モデルへの転送に成功し,転送率は0.55から1.69の範囲であった。
- 攻撃効果と知覚不可能性のバランスが取れており,既存の手法と比較しても優れた性能を示した。
Linuxにおける大規模なパッチ検証の信頼性向上:開発者からの学習 [cs.SE, cs.AI]目的:Linuxカーネルにおけるパッチレビューの課題と,その規模拡大のためのシステム
- オープンソース開発では,パッチレビューがソフトウェア品質を維持する上で不可欠である。
- パッチの増加にレビュー担当者の負担が集中し,レビューの網羅性が低下する可能性がある。
- 開発者間の過去の議論から知識を抽出し,パッチの自動検証を支援するシステムを構築する。
- FLINTは,過去の議論からルールを抽出し,LLMを用いてパッチの妥当性を検証するフレームワークである。
- FLINTはLinux v6.18開発サイクルで2件,過去のバージョンで7件の新たな問題を検出した。
- FLINTは,LLMのみと比較して,同時実行バグの検出精度がそれぞれ21%と14%向上し,誤検出率も35%と低かった。
時系列型深層臨床予測モデルの解釈に関する実践的ガイド:再現性研究 [cs.CL, cs.LG, cs.AI]目的:深層臨床予測モデルの解釈可能性評価
- 臨床判断は重要であり,モデルの根拠説明は監査に不可欠であるため,解釈可能性研究は重要である。
- 既存のベンチマークは拡張性や再現性に乏しく,タスクとモデル構造間の解釈可能性の変化を系統的に調査していない。
- 多様な臨床予測タスクとモデル構造における解釈方法の比較評価を通して,解釈可能性向上の指針を示す。
- 適切な活用法により,Attention機構はモデル予測を忠実に解釈する上で非常に効率的な手法である。
- KernelSHAPやLIME等のブラックボックス型解釈手法は,時系列臨床予測タスクにおいては計算負荷が高すぎる。
- 多くの解釈手法は信頼性が低く,臨床予測パイプラインでの使用には注意が必要である。
同質空間におけるフローマッチング [cs.LG]目的:同質空間におけるフローマッチングの拡張
- 幾何深層学習の発展に伴い,多様体上のデータ解析が重要になっている。
- 従来のフローマッチングは,複雑な幾何構造を持つ空間への適用が困難であった。
- リー群を用いた変換により,同質空間上の問題をより単純化することを目指す。
- 提案手法は,データをリー群に持ち上げ,フローマッチング問題をリー代数上での問題に帰着させる。
- リーマンフローマッチングとは異なり,計量や測地線を定義・計算する必要がない。
- これにより,より簡潔で高速,かつ本質的なフレームワークを実現する。
言語モデルにおける分布推論のための強化学習:単一モードを超える [cs.LG, cs.AI, cs.CL]目的:言語モデルにおける分布推論の改善
- 自然言語処理の発展に伴い,言語モデルの応用範囲は拡大し,多様なタスクへの対応が求められている。
- 従来の言語モデルは,単一の主要な回答に分布が集中しやすく,不確実性を含む問題への対応が困難である。
- 複数の妥当な回答や不確実性を含むタスクにおいて,言語モデルの推論能力を向上させることを目指す。
- 本研究では,複数の回答を生成するための強化学習アプローチを提案し,推論時の探索をモデルの生成過程に組み込んだ。
- 質問応答,医療診断,コーディングのベンチマークにおいて,多様性,網羅性,集合レベルのキャリブレーションの向上が確認された。
- 提案手法は,既存手法と比較して,複数の回答を生成するために必要なトークン数が少なく,特にコーディングタスクにおいては精度も向上した。
NeuroVLM-Bench:神経疾患における臨床推論のためのビジョン搭載大規模言語モデルの評価 [cs.CV, cs.AI, cs.LG]目的:神経疾患の画像診断におけるビジョン搭載大規模言語モデルの性能評価
- 画像診断は神経疾患の診断・治療において不可欠であり,AIによる支援が期待される。
- 既存の大規模言語モデルの画像診断における信頼性や性能が十分に検証されていない。
- 神経画像診断における大規模言語モデルの能力と限界を明らかにし,実用化に向けた指針を示す。
- 複数の大規模言語モデルを用いて,多発性硬化症,脳卒中,脳腫瘍などのMRI・CT画像データに対する診断能力を比較検証した。
- 画像モダリティや撮影平面の識別はほぼ解決されている一方,診断推論,特に亜型予測は依然として困難であることが示された。
- Gemini-2.5-ProやGPT-5-Chatが診断性能で優位性を示し,MedGemma-1.5-4Bはオープンソースモデルとして有望な結果を示した。
視線パターンはAI画像ペア評価における選好と確信度を予測する [cs.HC, cs.AI, cs.CV, cs.CY]目的:AI画像ペア評価時の選好形成
- 人間のフィードバックによる強化学習はAI開発に不可欠であり,その判断基準の理解が重要である。
- 人間の選好判断の認知プロセスは未解明であり,質の高いアノテーションの確保が課題である。
- 視線追跡によって選好形成のメカニズムを解明し,アノテーションの質の評価に役立てる。
- 選好画像へ視線が集中する現象(視線カスケード効果)が再現され,決定の約1秒前にシフトが確認された。
- 視線特徴量は二者択一の選択を68%の精度で予測し,選好画像はより長い注視時間,注視点数,再訪回数を示した。
- 高確信度な判断と不確実な判断を視線遷移で66%の精度で区別でき,低確信度な試行では画像切り替え頻度が高かった。
