arXiv雑要約

AI - 2026/03/26 公開

エッジにおけるLLM推論：持続的な負荷下のモバイル，NPU，GPUパフォーマンス効率のトレードオフ [cs.DC, cs.LG]目的：モバイル，NPU，GPUにおけるLLM推論のパフォーマンス効率の比較
- 常に利用可能なパーソナルエージェント実現には，省電力なエッジデバイスでのLLM活用が不可欠である。
- エッジデバイスは電力，熱，メモリ容量に制約があり，LLMの安定的な推論が困難である。
- 制約のあるハードウェア環境下におけるLLM推論の性能と効率を評価し，最適なプラットフォーム選択を支援する。
- Raspberry Pi 5 (Hailo-10H)，Samsung Galaxy S24 Ultra，iPhone 16 Pro，NVIDIA RTX 4050 GPUの4プラットフォームでQwen 2.5 1.5Bを評価した。
- モバイルプラットフォームでは，熱管理が性能に大きな影響を与え，特にiPhone 16 Proではスループットが大幅に低下した。
- RTX 4050は34.1Wで131.7 tok/s，Hailo-10Hは2W以下で6.9 tok/sを維持し，エネルギー効率では同等であった。
Link: https://arxiv.org/abs/2603.23640
スイスベンチ SBP-002：スイスの法律および規制タスクにおける最先端モデルの比較 [cs.CL, cs.AI]目的：スイスの規制遵守タスクにおける最先端モデルの性能評価
- 法規制遵守は，企業や組織にとって不可欠であり，その自動化が求められている。
- スイスの規制遵守タスクを対象とした既存のベンチマークは存在せず，モデルの性能を客観的に評価できない。
- スイスの規制遵守タスクにおける最先端モデルの性能を定量的に評価し，改善の方向性を示す。
- スイスベンチ SBP-002は，3つの規制分野，7つのタスクタイプ，3つの言語を網羅するトリリンガルベンチマークである。
- 最先端モデル10機種を評価した結果，性能はTier A (35-38%)，Tier B (26-29%)，Tier C (13-21%)の3つのグループに分類された。
- トップモデルの正答率は38.2%にとどまり，オープンウェイトモデルがクローズドソースモデルと同等または優れた性能を示した。
Link: https://arxiv.org/abs/2603.23646
蛍光顕微鏡用自己教師ありコンテンツ認識スペクトル分解：{\lambda}Split [cs.CV, cs.AI, cs.LG]目的：蛍光顕微鏡画像におけるスペクトル分解の性能向上
- 蛍光顕微鏡は生物学研究において不可欠であり，多種類の蛍光色素を同時に可視化する必要がある。
- 従来のスペクトル分解法は，蛍光スペクトルの重なりやノイズに弱く，正確な濃度推定が困難である。
- 学習に基づいた手法では，顕微鏡データに最適化されておらず，汎用性に欠ける場合がある。
- 提案手法{\lambda}Splitは，階層型変分オートエンコーダと微分可能なスペクトルミキサーを用いて，濃度マップの条件付き分布を学習する。
- 66のベンチマークデータセットにおいて，従来の10手法と比較し，競争力のある性能と高いロバスト性を示した。
- {\lambda}Splitは，標準的なコンフォーカル顕微鏡で使用でき，特別なハードウェア変更は不要である。
Link: https://arxiv.org/abs/2603.23647
変数射影によるトラスト領域勾配ブースティング [cs.CL, cs.LG, cs.NA, math.NA, math.OC]目的：分離可能な滑らかな近似器に対する勾配ブースティングアルゴリズム
- 勾配ブースティングは関数近似において実用的かつ理論的に確立された手法である。
- ニューラルネットワークのような滑らかなパラメータモデルの学習手法と理論は未発達である。
- 分離可能なモデルと変数射影を組み合わせることで，より効率的な学習を目指す。
- 提案手法VPBoostは，線形重みの最適性を保証する変数射影と二階弱学習戦略を融合させている。
- VPBoostはトラスト領域法として解釈でき，幾何学的な条件の下で定常点に収束することが証明された。
- 実験結果から，VPBoostは勾配降下法に基づくブースティングよりも優れた評価指標を示し，決定木ブースティングと同等の性能を達成することが示された。
Link: https://arxiv.org/abs/2603.23658
大規模言語モデルにおける倫理的枠組みの表現の探求：構造，絡み合い，方法論的課題 [cs.CL, cs.AI]目的：大規模言語モデルにおける倫理的枠組みの表現構造
- AI倫理の重要性が高まる中，LLMの倫理的判断の根拠を理解する必要がある。
- LLMが複数の倫理観を区別せず，単一の尺度で判断している可能性が指摘されている。
- LLMが倫理的枠組みをどのように表現しているかを明らかにし，その限界を探る。
- LLMの隠れ層表現は，道徳律，功利主義，徳倫理などの倫理的枠組みにおいて差異化された構造を持つことが示された。
- 道徳律と徳倫理のプローブは一部転移が認められたが，常識は正義の判断で著しく失敗する。
- 道徳律と功利主義の判断の相違は，モデルの挙動の不安定性と相関するが，シナリオの難易度も影響する。
Link: https://arxiv.org/abs/2603.23659
GTO Wizardベンチマーク [cs.AI]目的：ヘッドアップNo Limit Texas Hold'emにおけるアルゴリズムのベンチマーク
- ポーカーは不完全情報ゲームであり，AI研究の重要なテストベッドである。
- 既存のベンチマークは性能が頭打ちであり，より強力な評価手法が求められていた。
- 高性能なAIエージェントとの比較を通じて，AIの進歩を定量的に評価すること。
- GTO Wizardベンチマークは，最先端のポーカーAIであるGTO Wizard AIを基準としてエージェントを評価する。
- 本ベンチマークは，2018年のコンピュータポーカー競技チャンピオンを，$19.4±4.1bb/100で上回る性能を示した。
- 大規模言語モデルの初期評価では，近年の推論能力の向上が見られたものの，ベンチマーク基準には及ばなかった。
Link: https://arxiv.org/abs/2603.23660
エコー：意味的に整合性のとれた音楽ディープフェイク検出データセット [cs.RO, physics.app-ph, cs.SD, cs.AI, eess.AS]目的：音楽ディープフェイク検出のためのデータセット
- AI技術の発展に伴い，音楽生成の信頼性確保が重要になっている。
- 既存のデータセットでは，汎化性能が低く，現実的な環境での検出が困難である。
- 多様なプロバイダと意味的な整合性に着目し，より堅牢な検出手法を開発する。
- エコーは，既存のAI生成音楽データセットの中で最も難易度が高いことが示された。
- 既存データセットで学習した検出器は，エコーに対して転移学習が困難である。
- エコーで学習することで，検出器の汎化性能が向上することが確認された。
Link: https://arxiv.org/abs/2603.23667
機械学習のためのエネルギー効率型ソフトウェア・ハードウェア共同設計：TinyMLから大規模言語モデルまで [cs.AR, cs.LG]目的：機械学習システムのエネルギー効率改善
- AIの持続可能性において，エネルギー効率は重要な制約条件となっている。
- データ移動やメモリシステムの動作が，性能とエネルギーの限界要因となっている。
- 異なるプラットフォーム間での最適化戦略の汎用性向上を目指す。
- エッジ推論，学習，データセンター規模のLLMサービスにおけるエネルギー効率型共同設計手法を概観した。
- アクセラレータアーキテクチャやシステムレベル技術における共通の設計指針とトレードオフを特定した。
- 計算役割に応じた階層的分解による最適化戦略のマッピングと，漸進的な適応の可能性を示唆した。
Link: https://arxiv.org/abs/2603.23668
UAV画像からの個体樹高と樹種推定 [cs.CV, cs.AI, cs.LG]目的：個体樹高および樹種の推定
- 森林バイオマス推定は，主要な炭素吸収源としての森林の把握に不可欠である。
- 高精度な個体樹レベルでの情報取得は，コストと効率性の面で課題があった。
- UAV画像を用いた，効率的かつ高精度な個体樹高と樹種推定手法を開発すること。
- 本研究で開発したDINOvTreeは，既存手法と比較して高い精度で樹高を予測し，樹種分類においても競争力のある結果を示した。
- DINOvTreeは，既存の最良手法と比較してパラメータ数を54～58%削減しながら，同等の性能を達成した。
- 新たにBIRCH-Treesデータセットを構築し，個体樹高と樹種推定のベンチマークとして公開した。
Link: https://arxiv.org/abs/2603.23669
3Dマスクへの視覚と言語のグラウンディングによる長期的ボックス再配置 [cs.AI, cs.RO]目的：3D環境における不特定多数の自然言語目標からの長期的計画
- ロボット工学において，複雑な環境でのタスク遂行能力は重要であり，特に人間のような指示理解が求められる。
- 従来の計画手法は，状態や目標の表現が脆弱であったり，2D画像からの推論に限界があったりする。
- 3D VLMsの発展を活かし，3Dマスクに基づく計画手法により，よりロバストで汎用的なタスク遂行を目指す。
- 提案手法RAMP-3Dは，対象物と配置場所を指示する3Dマスクの逐次的な予測を通じて長期的計画を実現する。
- 倉庫環境における実験で，RAMP-3Dは79.5%の成功率を達成し，2D VLMベースの既存手法を大幅に上回った。
- マスクベースのリアクティブポリシーが，長期的計画のためのシンボリックパイプラインに代わる有望な選択肢となることを示した。
Link: https://arxiv.org/abs/2603.23676
プロトタイプ融合：学習不要な多層アプローチによるOOD検出 [cs.CV, cs.AI]目的：異常分布検出の性能向上
- 安全性が求められる応用において，深層学習モデルの信頼性は重要である。異常分布検出はその信頼性を担保する鍵となる。
- 既存手法は最終層の活性化に依存しており，その有効性には限界がある。中間層の情報の活用が課題となっていた。
- 中間層の情報を活用し，よりロバストで汎化性能の高い異常分布検出手法を開発することを目指す。
- 本手法は，複数の層から特徴量を集約し，クラスごとの平均埋め込み表現であるプロトタイプを形成する。
- テストデータの特徴量とプロトタイプのコサイン類似度を異常スコアとして利用することで，高い検出性能を実現した。
- 様々なアーキテクチャにおいて，AUROCが最大4.41%向上し，FPRが13.58%減少した。
Link: https://arxiv.org/abs/2603.23677
PLACID：略語臨床推論と曖昧性解消のためのプライバシー保護大規模言語モデル [cs.CL, cs.AI]目的：臨床略語の推論と曖昧性解消
- 医療現場では，迅速かつ正確な情報伝達が不可欠であり，略語の適切な理解が重要となる。
- 医療データのプライバシー保護の必要性が高く，外部サーバーへの情報送信が制限されている。
- プライバシーを保護しつつ，臨床略語の曖昧性解消の精度を向上させること。
- 汎用モデルの高い略語検出精度(~0.988)に対し，展開能力は低下 (~0.655)することが示された。
- ドメイン特化型医療モデルを組み合わせることで，展開精度が向上 (~0.81)することが確認された。
- プライバシー保護されたオンデバイスモデル(2B-10B)が，高精度な臨床略語の曖昧性解消を支援できることが示された。
Link: https://arxiv.org/abs/2603.23678
収穫可能なものを学習：効率的なロボットによる果物収穫のためのアクティブリーチ可能性推定 [cs.RO, cs.AI]目的：ロボットによる果物収穫のためのリーチ可能性推定の効率化
- 農業は世界的な健康と経済の持続可能性の基盤であり，労働力不足が深刻化している。
- 従来のロボットのリーチ可能性判定は計算コストが高く，迅速な意思決定を妨げていた。
- アクティブラーニングを用いて，少ないデータで高精度なリーチ可能性推定を実現すること。
- 提案手法は，既存手法よりも少ないラベルデータで高い予測精度を達成した。
- 特に，エントロピーベースおよびマージンベースのサンプリングが低ラベル環境下で優れた性能を示した。
- 本研究は，農業ロボットにおけるタスクレベルの知覚におけるアクティブラーニングの有効性を示唆する。
Link: https://arxiv.org/abs/2603.23679
AI時代における評価設計：人間とチャットボットで機能が異なる問題項目の特定法 [cs.HC, cs.AI]目的：人間とチャットボットの間で系統的な回答の差異を示す問題項目の特定
- 教育における大規模言語モデルの急速な普及により，評価設計に大きな課題が生じている。
- 現在のLLM評価はベンチマークに依存することが多く，人間学習者との能力を比較する測定法が不足している。
- AIによる不正使用に脆弱な評価を特定し，より有効な評価設計を支援することを目的とする。
- DIF分析，陰性コントロール分析，項目-全項目相関を用いた統計的アプローチが，人間とチャットボットの能力の違いを理解するための堅牢な枠組みを提供する。
- 高校化学診断テストと大学入学試験の結果から，チャットボットの過剰または過小性能に関連するタスク次元が特定された。
- 本手法は，AI時代における妥当性，信頼性，公平性を備えた評価設計の改善に役立つことが示された。
Link: https://arxiv.org/abs/2603.23682
現代LLMにおける早期終了デコーディングの限界 [cs.CL, cs.AI]目的：大規模言語モデルにおける早期終了デコーディングの有効性評価
- LLMの推論効率化は，実用上の課題解決に不可欠であるため重要性が高い。
- 近年のLLMは層間の冗長性が低減され，早期終了の機会が減少している可能性がある。
- 最新LLMにおける早期終了の可能性を定量的に評価し，その限界を明らかにする。
- 近年のモデル世代において，早期終了の有効性が低下する傾向が確認された。
- 密なTransformerアーキテクチャは，MoEやSSMと比較して，より高い早期終了の可能性を持つことが示された。
- 200億パラメータを超える大規模モデルや，特殊なチューニングを施されていないベースモデルは，早期終了の恩恵を受けやすい。
Link: https://arxiv.org/abs/2603.23701
PostgreSQLデータベースシステムにおけるフィルタ非依存ベクトル検索の詳細な研究：実験と分析 [cs.DB, cs.AI, cs.IR]目的：PostgreSQLデータベースシステムにおけるフィルタ非依存ベクトル検索アルゴリズムの性能評価と分析
- セマンティック検索や生成AI応用の普及に伴い，データベースシステムにおけるベクトル検索の重要性が増している。
- 既存研究は特殊なライブラリ環境で評価されることが多く，実環境のデータベースシステムとの乖離が生じている。
- 実環境データベースシステムにおけるフィルタ非依存ベクトル検索の最適なアルゴリズム選択指針を提示すること。
- フィルタ非依存ベクトル検索の性能は，距離計算コストだけでなく，ページアクセスやデータ取得といったシステムレベルのオーバーヘッドに大きく影響されることが示された。
- NaviX/ACORNなどのグラフベース手法は，ScaNNのようなクラスタリングベースインデックスと比較して，過剰なフィルタチェックやシステムオーバーヘッドが発生し，理論的な利点を相殺することがある。
- 最適なアルゴリズムは絶対的なものではなく，ワークロード特性とデータアクセスコストの相互作用を考慮したシステムに依存する選択となる。
Link: https://arxiv.org/abs/2603.23710
LLMは人間のようにエッセイを採点しない [cs.AI, cs.CL]目的：自動エッセイ採点におけるLLMの採点と人間による採点の比較
- 教育評価において，効率的かつ客観的な採点方法の確立が重要である。
- LLMを用いた自動採点システムは発展途上であり，人間との合意度が課題となっている。
- LLMの採点傾向を分析し，人間とのずれを明らかにすることで，より信頼性の高い自動採点システムの開発を目指す。
- LLMの採点と人間の採点の間には，弱い相関関係しか見られないことが示された。
- LLMは短い，または未発達なエッセイに高い評価を与えがちであり，文法やスペルミスを含む長いエッセイには低い評価を与える傾向がある。
- LLMの採点とフィードバックは一貫性があるものの，人間の採点者とは異なるシグナルに依存していることが示唆された。
Link: https://arxiv.org/abs/2603.23714
CDMT-EHR：混合型時系列電子カルテデータの生成のための連続時間拡散フレームワーク [cs.LG, cs.AI]目的：混合型時系列電子カルテデータの生成
- 臨床研究において電子カルテは不可欠だが，プライバシー保護が課題である。
- 既存の合成データ生成手法は，数値データとカテゴリカルデータの同時処理が難しい。
- 連続時間拡散モデルを用いて，より高精度かつ効率的な電子カルテ合成を目指す。
- 本研究では，連続時間拡散モデルと双方向ゲート付き回帰ユニットを組み合わせた新しいフレームワークを提案した。
- 提案手法は，既存手法と比較して，下流タスクの性能，分布の忠実性，識別能力において優れている。
- サンプリングステップ数を大幅に削減し（1000ステップから50ステップへ），効率的な生成を実現した。
Link: https://arxiv.org/abs/2603.23719
二重ゲートを持つ認識的時間拡張：非同期マルチエージェント強化学習における自律的な計算モジュレーション [cs.MA, cs.LG]目的：マルチエージェント強化学習における計算効率の向上
- エッジデバイス等，計算資源に制約のある環境での強化学習適用が重要視されている。
- 従来の強化学習はフレームごとに計算を行うため，計算負荷が高いという課題がある。
- エージェントが自身の不確実性に基づいて計算頻度を調整することで，計算効率を向上させる。
- 提案手法ETD-MAPPOは，既存のTemporal modelsと比較して，大幅な性能向上（60%以上の相対的改善）を示した。
- Google Research Footballにおいて，ETDは早期のポリシー崩壊を防ぎ，安定した学習を実現した。
- 特にボールを持っていない状態での計算オーバーヘッドを73.6%削減し，タスク遂行能力を維持した。
Link: https://arxiv.org/abs/2603.23722
BXRL：行動説明可能な強化学習 [cs.HC, cs.LG]目的：行動の定義と測定
- 強化学習は，複雑なタスクの自動学習を可能にする重要な技術である。
- 強化学習エージェントは，報酬設計とは異なる行動を学習することがある。
- 行動パターンを形式的に定義し，説明可能性を向上させることを目指す。
- 本研究では，行動を複数エピソードにわたる行動パターンとして定義した。
- 行動を測定する関数を導入し，エージェントの行動傾向を定量的に評価することを可能にした。
- 既存の説明可能性手法を適応させ，行動の説明に活用する可能性を示唆した。
Link: https://arxiv.org/abs/2603.23738
クロネッカー構造を持つ非パラメトリック時空間点過程 [cs.LG]目的：時空間点過程におけるイベントの関係性の解明と高精度な予測
- 様々な現実世界の問題において，時空間的なイベントの解析が重要である。従来のモデルの限界を克服する必要がある。
- 従来のポアソン過程やホークス過程は制約の強い仮定に依存し，複雑な相互作用パターンを捉えきれない。
- イベント間の関係性を透明性を持って明らかにしつつ，高いモデリング柔軟性を実現することを目的とする。
- 提案手法は，空間ガウス過程と時空間ガウス過程を用いて，イベント間の複雑な相互作用を捉える。
- クロネッカー代数を用いることで計算コストを削減し，大規模なイベントデータへの適用を可能にした。
- テンソル積ガウス・ルジャンドル求法により，複雑な尤度積分を効率的に評価できる。
Link: https://arxiv.org/abs/2603.23746
AIエージェントの効率的なベンチマーク [eess.SY, cs.SY, cs.AI]目的：AIエージェントのランキング維持に必要な最小限のタスク集合
- AI技術の発展に伴い，その性能評価の重要性が増している。
- AIエージェントのベンチマークは，対話的な実行と多段階推論が必要で，コストが高い。
- ベンチマーク評価コストを削減しつつ，信頼性の高いランキングを維持すること。
- エージェントの絶対スコア予測はフレームワークによる分布シフトで低下するが，ランキング予測は安定していることが示された。
- 中間的な合格率(30-70%)のタスクに絞ることで，評価タスク数を44-70%削減しつつ，高いランキング忠実度を維持できる。
- ランダムサンプリングや貪欲なタスク選択よりも信頼性の高いランキングが得られることが確認された。
Link: https://arxiv.org/abs/2603.23749
自己ペースのガウス文脈強化学習 [cs.LG, cs.AI]目的：強化学習におけるカリキュラム生成手法
- 強化学習の効率向上が，複雑なタスクへの適用を可能にするために重要である。
- 既存の自己ペース学習法は計算コストが高く，高次元の文脈空間ではスケーラビリティに課題がある。
- ガウス分布の閉形式更新を用いることで，計算コストを抑えつつ効率的なカリキュラム生成を実現する。
- 提案手法SPGLは，既存のカリキュラム学習法と同等またはそれ以上の性能を示すことが実験的に確認された。
- 特に隠れた文脈を持つ環境において，安定した文脈分布の収束が達成された。
- SPGLは，連続的かつ部分的に観測可能な環境におけるカリキュラム生成の，スケーラブルで原理的な代替手段を提供する。
Link: https://arxiv.org/abs/2603.23755
AI駆動の意図ベースネットワーキングによる次世代ネットワークの自己設定 [cs.NI, cs.AI]目的：次世代ネットワークの自己設定
- ネットワーク運用は複雑化の一途を辿っており，効率的な運用が急務である。
- 自然言語による意図の解釈が曖昧で，ポリシーの競合や意図しない副作用が生じやすい。
- AIを活用し，自然言語からポリシーへの変換と障害予測の精度向上を目指す。
- 大規模言語モデルと構造化された検証を用いることで，自然言語からポリシーへの変換の信頼性を高める。
- 多意図設定下での障害予測と根本原因の特定を可能にし，プロアクティブな保証を実現する。
- 運用者が信頼できる自動化を提供し，早期警告，解釈可能な説明，是正のための時間的猶予を確保する。
Link: https://arxiv.org/abs/2603.23772
人間協調型パレート最適化：必要に応じた支援訓練とパフォーマンス評価のためのトレードオフ特性評価 [cs.SI, cs.RO, cs.AI, cs.SY, eess.SY]目的：人間と機械の協調によるパレート最適化を通じた，運動技能訓練やリハビリテーションにおける課題難易度とユーザパフォーマンスのトレードオフ特性評価
- 運動技能訓練やリハビリテーションでは，課題難易度とパフォーマンスのバランスが重要であり，効果的な訓練設計に不可欠である。
- 従来の評価方法では，ユーザの能力や課題の難易度に応じた適切な支援レベルの決定が困難であった。
- 本研究は，ユーザの主観的な課題難易度と客観的なパフォーマンスを考慮したトレードオフ特性評価手法を確立し，最適化された支援訓練プロトコルの設計を目指す。
- 提案手法は，ベイジアン多基準最適化を用いて，人間協調型パレート最適化を効率的に実現することを実証した。
- 特性評価されたトレードオフを用いて，必要に応じた支援訓練プロトコルの設計と，既存手法との有効性比較を実施した。
- 訓練前後でのトレードオフ比較により，個人の進捗を公平に評価可能であり，異なるユーザ間でのパフォーマンス比較も可能であることを示した。
Link: https://arxiv.org/abs/2603.23777
カーネル化された射影とゲート付きアダプターによるLLMベースの推薦システムにおける軽量な公平性 [cs.LG]目的：LLMベースの推薦システムにおけるバイアス軽減手法
- 推薦システムは，ユーザーに適切な情報を提供する上で重要であり，ビジネスや社会に大きな影響を与える。
- LLMは事前学習データに潜む社会的なバイアスを継承・増幅する可能性があり，公平性の問題が生じている。
- 既存手法はパラメータ調整や最適化の不安定さを抱えるため，軽量かつ安定したバイアス軽減手法を確立する必要がある。
- 提案手法は，カーネル化された反復的零空間射影(INLP)とゲート付きMoEアダプターを組み合わせることで，追加の学習パラメータなしにバイアスを軽減する。
- 二重化されたMoEアダプターにより，バイアスを再導入することなく有用な信号を選択的に復元し，タスクの性能を維持する。
- 公開データセットを用いた実験により，複数の保護変数に対する属性漏洩を低減しつつ，競争力のある推薦精度を維持することが示された。
Link: https://arxiv.org/abs/2603.23780
ベイジアン潜在輸送による確率的幾何学的アラインメント：ドメイン適応型ファウンデーションモデルのために [cs.LG, cs.AI, math.OC, math.PR, stat.ML]目的：ドメイン適応型ファウンデーションモデルにおける確率的幾何学的アラインメント
- 大規模モデルの汎用性が重要視される中，未知のドメインへの適応が課題となっている。
- ドメイン間の潜在分布の不一致や最適化の不安定性，不確実性の誤った伝播が問題である。
- 潜在空間における確率質量輸送により，ドメイン適応時の過学習を抑制し，安定性を高める。
- 本手法は，潜在多様体の差異を大幅に縮小し，輸送エネルギーの減衰を加速させることを示した。
- 共分散の較正が改善され，ドメイン間の転移における確率的な信頼性が向上した。
- 確率的最適輸送と統計的汎化理論の間の関係を確立することで，新たな知見を提供する。
Link: https://arxiv.org/abs/2603.23783
潜在的なアルゴリズム構造がグロッキングに先行する：ReLU多層パーセプトロンにおけるモジュラ演算のメカニズム研究 [cs.LG]目的：グロッキング現象におけるニューラルネットワークの入力重み分布の構造
- 深層学習の汎化性能向上には，学習過程におけるアルゴリズム獲得メカニズムの解明が不可欠である。
- グロッキングは，学習データ暗記後に検証精度が向上する現象であり，そのメカニズムは未だ不明な点が多い。
- 本研究は，グロッキングがアルゴリズム発見ではなく，暗記段階で埋め込まれたアルゴリズムの洗練であることを示す。
- ReLU多層パーセプトロンは，正弦波ではなく，ほぼ二値の矩形波入力重みを学習することを示した。
- 出力重み分布は，位相和の関係 $\phi_{\mathrm{out}} = \phi_a + \phi_b$ を満たし，ノイズデータでも維持される。
- 理想化モデルは，ノイズデータで学習したモデルから抽出した周波数と位相を用いて95.5%の精度を達成し，暗記段階でアルゴリズムが既に埋め込まれている可能性を示唆した。
Link: https://arxiv.org/abs/2603.23784
深層学習を用いた眼底画像からの網膜疾患分類 [cs.CV, cs.LG]目的：網膜疾患リスクの二値分類
- 網膜疾患は世界的に視覚障害の主な原因であり，予防可能な疾患である。
- 十分な医療資源がない地域では，早期発見へのアクセスが限られている。
- 眼底画像解析による自動スクリーニングの実現を目指す。
- 転移学習を用いたVGG16モデルは，テスト精度90.8%を達成し，重み付きF1スコアは0.90となった。
- これは，ベースラインCNN（精度83.1%）を大幅に上回る結果である。
- 転移学習は識別能力を向上させる一方で，少数疾患に対する感度には課題が残る。
Link: https://arxiv.org/abs/2603.23785
デジタルツイン支援による測定設計とチャネル統計量の予測 [cs.IT, cs.LG, math.IT]目的：無線システムにおける性能保証のための無線チャネルおよびその統計量の予測
- 無線通信システムの性能を保証するためには，正確なチャネル情報の把握が不可欠である。
- 従来の統計的ラジオマップは柔軟性があるが，性能は関数選択に左右され，環境形状の活用が不十分である。
- オープンソースマップ由来の未校正デジタルツインを活用し，測定効率の良いチャネル統計量予測を実現する。
- 本研究では，未校正のデジタルツインから得られる幾何学的情報を活用し，ガウス過程によるチャネル予測の事前情報を抽出するハイブリッドフレームワークを提案する。
- 提案手法は，少数のチャネル測定と組み合わせることで，環境全体のチャネル統計量をデータ効率良く予測することを可能にする。
- また，ガウス過程の不確実性定量化を活用することで，限られたリソース下での情報量の多いプローブ位置を特定し，測定オーバーヘッドを削減する。
Link: https://arxiv.org/abs/2603.23787
認知ファイアウォール：ハイブリッドエッジクラウド防御によるブラウザベースAIエージェントに対する間接プロンプトインジェクション対策 [cs.CR, cs.AI]目的：ブラウザベースAIエージェントに対する間接プロンプトインジェクション攻撃の防御
- 大規模言語モデルの活用が進む中，AIエージェントのセキュリティ確保が重要となっている。
- 間接プロンプトインジェクション攻撃は検知が難しく，AIエージェントの安全性を脅かす深刻な問題である。
- エッジとクラウドの分散処理により，低遅延かつプライバシーを保護しつつ，効果的な防御を実現する。
- 提案手法「認知ファイアウォール」は，エッジとクラウドの連携により，攻撃成功率を1%以下に抑制することに成功した。
- 特に，エッジでのフィルタリングにより，不要なクラウド処理を削減し，約17,000倍の低遅延化を実現した。
- 確率的な言語モデルと決定的な実行時制約の組み合わせが，インタラクティブなLLMエージェントの安全性を高めることが示された。
Link: https://arxiv.org/abs/2603.23791
拡散モデルにおける多様体一般化は記憶化を伴って証明可能である [cs.LG, stat.ML]目的：拡散モデルにおける多様体一般化のメカニズム解明
- 近年の生成モデル研究は目覚ましく，高品質なサンプル生成が期待されている。
- 従来の拡散モデルの学習理論では，生成性能と密度推定精度の一致が説明困難であった。
- 多様体上のデータ分布に対する拡散モデルの効率的な学習メカニズムを理論的に示す。
- 拡散モデルは，データの詳細な分布構造を推定せずとも，多様体の幾何構造を捉えることで生成性能を発揮することが示された。
- 粗いスコアを用いた学習でも，多様体の滑らかさに応じた高速な一般化が可能となることが証明された。
- データ密度自体が不規則な場合でも，多様体の滑らかさが一般化性能を左右することが示唆された。
Link: https://arxiv.org/abs/2603.23792
解釈可能な医療画像表現学習のためのスパースオートエンコーダ [cs.CV, cs.LG]目的：医療画像表現の解釈可能性
- 医療画像診断の精度向上は，患者ケアにおいて不可欠である。
- 既存の画像表現は抽象的で，臨床医が検証困難である。
- 解釈可能な疎な特徴表現を学習し，臨床応用を促進する。
- スパースオートエンコーダ(SAE)は，元の埋め込みを高い忠実度で再構築し，わずか10個の特徴量で下流タスクの性能を維持する。
- 学習された疎な特徴は，画像検索タスクにおいて意味的忠実性を保持する。
- SAEは，大規模言語モデルを用いて画像に関連する概念を言語で表現し，臨床用語と抽象的な表現間の橋渡しを行う。
Link: https://arxiv.org/abs/2603.23794
物理情報に基づいた疫学モデルにおける勾配病理の解決 [cs.SI, cs.CL, cs.LG, cs.NA, math.NA, math.OC]目的：物理情報に基づいた疫学モデルにおける勾配病理の解決
- 感染症の制御には正確なモデルが不可欠であり，臨床データと数理モデルの統合が重要である。
- 物理情報に基づいたニューラルネットワークの訓練は，データ損失と物理残差の競合により不安定になりやすい。
- 勾配の方向の対立を抑制し，効率的かつ安定した訓練を可能にする手法を開発する。
- 提案手法「Conflict-Gated Gradient Scaling (CGGS)」は，データ勾配と物理勾配のコサイン類似度に基づいて，物理制約の重みを動的に調整する。
- CGGSは，勾配の方向が対立する場合に物理制約を抑制し，データへの適合性を優先することで，訓練の安定性と効率性を向上させる。
- この手法は，滑らかな非凸目的関数に対して標準的な$O(1/T)$収束率を維持し，硬い疫学システムにおけるパラメータ推定を改善する。
Link: https://arxiv.org/abs/2603.23799
部分的に未知の環境におけるLLM情報に基づくモデルベースプランニングとプロンプト選択による物体探索 [cs.RO, cs.AI, cs.LG]目的：部分的に未知の環境における物体探索のための手法
- ロボットが未知の環境で効率的に物体を探索することは，現実世界の様々なタスクにおいて重要である。
- 従来の物体探索手法は，環境の不確実性や，適切な探索戦略の選択に課題がある。
- LLMを活用し，環境情報と組み合わせることで，より効率的な探索を可能にすることを目指す。
- 提案手法は，LLMを用いて探索場所の物体発見確率を推定し，移動コストと組み合わせることで，効果的なプランニングを実現する。
- シミュレーション実験により，LLMのみに依存するベースラインや楽観的な戦略と比較して，最大で11.8%および39.2%の性能向上が確認された。
- 実ロボット実験においても同様の改善が確認され，提案手法の有効性が実証された。
Link: https://arxiv.org/abs/2603.23800
深層ニューラル回帰崩壊 [cs.CY, eess.SY, cs.RO, cs.SY, cs.LG, cs.AI, cs.NE, stat.ML]目的：深層ニューラルネットワークにおける回帰崩壊現象の解明
- 深層学習モデルの解釈可能性向上は，その信頼性と応用範囲拡大に不可欠である。
- 深層回帰モデルの学習過程における構造的な特徴は未だ十分に理解されていない。
- 深層回帰モデルにおける崩壊現象を層ごとに詳細に分析し，そのメカニズムを解明する。
- ニューラル回帰崩壊（NRC）は，最終層だけでなく，より深い層においても発生することが確認された。
- 崩壊層では，特徴量空間が目標次元に対応し，特徴量の共分散が目標共分散と一致し，層の重み入力部分空間と特徴量部分空間が整列する。
- 深層NRCを示すモデルは，低ランク目標の固有次元を学習し，深層NRCを誘導するための正則化の必要性が示唆された。
Link: https://arxiv.org/abs/2603.23805
意図的な不服従：エージェントの行動履歴における失敗の自動検出 [cs.SE, cs.AI]目的：エージェントの行動履歴の検証
- AIエージェントがソフトウェアシステムに組み込まれる機会が増加しており，その安全性と信頼性が重要である。
- 従来の評価方法では，プロセス中の失敗を見逃しやすく，詳細な行動分析が困難である。
- エージェントのプロンプトとシステム指示から行動ルールを抽出し，行動履歴のコンプライアンスを自動的に評価する。
- AgentPexは，異なるモデルのエージェントの行動の違いを明確に区別することが示された。
- 結果から，結果のみを評価する方法では捉えられない仕様違反が検出された。
- ドメインと指標ごとの詳細な分析により，エージェントの強みと弱みを把握することが可能になった。
Link: https://arxiv.org/abs/2603.23806
摂動：言語モデルにおける表現学習のためのシンプルで効率的な敵対的トレーサー [cs.HC, cs.HC, eess.SY, cs.SY, cs.HC, cs.RO, cs.DC, cs.CL, cs.AI, cs.LG]目的：言語モデルにおける表現学習の追跡手法
- 言語モデルの表現学習は，実用面・理論面から長年研究されてきた重要な分野である。
- 表現に不自然な制約を課すか，表現の概念を矮小化するかのジレンマがあり，表現の発見が困難である。
- この研究は，活性化パターンではなく学習の伝達経路として表現を捉え，その問題を解決する。
- 敵対的サンプルで言語モデルを微調整する「摂動」により，その影響が他のサンプルにどのように伝播するかを測定する。
- 摂動は幾何学的仮定を必要とせず，未学習のモデルに誤った表現を見出すこともない。
- 学習済みの言語モデルでは，複数の言語的粒度で構造的な伝播が明らかになり，言語モデルが表現に沿って一般化し，経験から言語的抽象を獲得することを示唆する。
Link: https://arxiv.org/abs/2603.23821
エッジLLMはどれほど脆弱か [cs.CR, cs.CL, cs.LG]目的：量子化されたエッジLLMからの知識抽出の脆弱性
- LLMは多様な応用で活用され，その普及は社会に大きな影響を与えるため，セキュリティ評価は不可欠である。
- エッジ環境へのLLM展開は計算資源の制約から量子化が必須だが，そのセキュリティリスクは十分に検証されていない。
- エッジLLMにおける知識抽出のリスクを定量化し，効率的な攻撃手法を提案することでセキュリティ対策に貢献する。
- 量子化によるノイズは，エッジLLMに埋め込まれた意味的知識の存在を消滅させないことが示された。
- 提案手法CLIQは，既存の手法と比較して，BERTScore，BLEU，ROUGEなどの指標において高い性能を発揮した。
- 量子化のみでは，クエリベースの知識抽出に対する有効な防御策とはなりえないことが明らかになった。
Link: https://arxiv.org/abs/2603.23822
階層的知識追跡の回路複雑性と，ログ精度Transformerへの示唆 [cs.LG, cs.AI]目的：階層的知識追跡における回路複雑性の分析
- 知識追跡は，学習者の知識状態を把握し，最適な学習支援を行う上で重要である。
- Transformer等のモデルは強力だが，知識の階層構造を効果的に学習できない場合がある。
- 知識の階層構造における計算複雑性を明らかにすることで，より効率的な知識追跡モデルの設計を目指す。
- Recursive-majority 伝播は，$O(\log n)$深さの bounded-fanin 回路で $\mathsf{NC}^1$ にあることが示された。
- 単調性の制約下では，ALL/ANY前提ツリーが単調閾値回路に対して厳密な深さ階層を生み出すことが判明した。
- Transformerエンコーダは，recursive-majority ツリーで学習する際，置換不変なショートカットに収束する傾向がある。
Link: https://arxiv.org/abs/2603.23823
深層学習における隠れた凸性の解明：スパース信号処理の視点 [cs.HC, cs.LG, eess.SP, stat.ML]目的：深層学習の凸性に関する理解と，信号処理への応用
- 深層学習は画像認識等の分野で成功を収めているが，理論的理解は不十分である。
- 深層学習の損失関数は非凸であり，最適化が困難であるという課題がある。
- ReLUニューラルネットワークの凸性を利用し，学習と理解の課題解決を目指す。
- ReLUネットワークの損失関数の隠れた凸性が，信号処理モデルとの関連性を通して明らかになった。
- 近年，特定のネットワーク構造において，損失関数の凸性が確認されている。
- 深層学習の数学的進歩と伝統的な信号処理を結びつけ，応用範囲の拡大を促す。
Link: https://arxiv.org/abs/2603.23831
倉庫自動化における学習誘導型優先度計画による生涯マルチエージェント経路探索 [cs.AI, cs.RO]目的：倉庫自動化における生涯マルチエージェント経路探索の効率化
- 現代の倉庫自動化において，複数のロボットが効率的に経路を探索することは，システム全体の処理能力向上に不可欠である。
- 従来の探索ベースの手法では，倉庫環境の複雑さと生涯MAPFの長期的な変動に対応するためのコストが高いという課題がある。
- 本研究では，機械学習と探索ベースの手法を統合し，複雑な空間的・時間的相互作用を効率的に解決することを目指す。
- 提案手法であるRL-RH-PPは，現実的な倉庫シミュレーションにおいて，既存手法と比較して最も高い全体的なスループットを達成した。
- RL-RH-PPは，エージェント密度，計画範囲，倉庫レイアウトの変化に対して効果的に汎化することが示された。
- 分析の結果，RL-RH-PPは混雑したエージェントに優先的に経路を割り当て，交通の流れを円滑にし，スループットを向上させていることが明らかになった。
Link: https://arxiv.org/abs/2603.23838
VehicleMemBench：車載エージェントにおける複数ユーザー長期記憶のための実行可能ベンチマーク [cs.AI, cs.CL]目的：車載エージェントの複数ユーザー長期記憶性能の評価
- 自動車内での知的な体験に対する需要が高まり，エージェントが単なるアシスタントから長期的な伴侶へと進化している。
- 既存のベンチマークはシングルユーザー，静的な質疑応答に限定され，時間経過に伴う嗜好の変化や複数ユーザー環境を捉えきれていない。
- 複数ユーザー環境における長期記憶の進化と，それに対応するエージェントのツール利用能力を客観的に評価する。
- VehicleMemBenchは，実行可能な車載シミュレーション環境上に構築された，複数ユーザー対応の長期記憶ベンチマークである。
- 強力なモデルは直接的な指示タスクには優れるものの，特にユーザーの嗜好が動的に変化する状況下では，記憶の進化に苦戦する。
- 高度なメモリシステムであっても，この環境におけるドメイン固有のメモリ要件を処理するのに困難を抱えていることが示された。
Link: https://arxiv.org/abs/2603.23840
PoliticsBench：大規模言語モデルにおける政治的価値観のベンチマーク - マルチターンロールプレイによる評価 [cs.CL, cs.AI]目的：大規模言語モデルの政治的バイアスの評価
- 情報源としてのLLM利用拡大に伴い，客観性を損なう政治的バイアスの影響が懸念されている。
- 既存のバイアス評価は，ジェンダーや人種に偏っており，政治的バイアスの詳細な価値観評価が不足している。
- LLMに内在する政治的価値観を特定し，バイアスの有無とその変化を評価すること。
- 8つのLLMを評価した結果，Grokを除く7つが左派的な傾向を示した。
- 左派モデルはリベラルな特性を強く，保守的な特性を中程度に示した。
- ロールプレイの段階による価値観の変化はわずかで，明確なパターンは見られなかった。
Link: https://arxiv.org/abs/2603.23841
SCoOP：複数Vision-Languageモデルシステムにおける不確実性定量のための意味的に整合的な意見集約 [cs.AI, cs.MA]目的：複数VLMsの出力の集約における不確実性定量
- マルチモーダルAIの信頼性向上のためには，複数のモデルを組み合わせることが重要である。
- 異質なモデルの出力を集約すると，不確実性が増幅し，誤情報の生成リスクが高まる。
- システムレベルでの不確実性を定量化し，誤情報を検出し，回避すること。
- SCoOPは，ScienceQAにおいて，幻覚検出のAUROCで0.866を達成し，ベースラインを10-13%上回った。
- また，棄権については，AURACで0.907を達成し，ベースラインを7-9%上回る結果となった。
- SCoOPは，ベースラインと比較してごくわずかなオーバーヘッドで済むため，効率的かつ原理的なアプローチである。
Link: https://arxiv.org/abs/2603.23853
シンボリック-KAN: 解釈可能な学習のための離散シンボリック構造を持つコルモゴロフ・アーノルドネットワーク [cs.LG, cs.CE, math.AP, math.DS]目的：支配方程式のシンボリックな発見
- 科学的機械学習において，物理法則の自動発見は重要である。複雑なシステム理解に不可欠。
- 従来のシンボリック回帰は解釈性が高いが，計算コストが高い。ニューラルネットワークはスケーラブルだが，解釈性が低い。
- 解釈性とスケーラビリティを両立し，支配方程式を効率的に発見すること。
- シンボリック-KANは，学習可能な深層ネットワーク内に離散的なシンボリック構造を埋め込むことで，この課題に取り組む。
- データ駆動型の回帰や逆ダイナミカルシステムにおいて，正確な素項と支配構造を確実に復元することが示された。
- 偏微分方程式の順方向および逆方向の物理情報学習にも拡張でき，正確な解とコンパクトなシンボリック表現が得られる。
Link: https://arxiv.org/abs/2603.23854
AIの出力が誤りを生じても気づかれない場合：AIの誤りの法的影響 [cs.HC, cs.AI, cs.CY, cs.SI, nlin.CD, physics.soc-ph]目的：生成AIの法的影響に関する検討
- 法的判断においてAI活用が進む中，その正確性確保は裁判の信頼性を維持する上で重要である。
- AIが虚偽の判例や法律を作り出す「ハルシネーション」が，法的実務上の問題となりうる。
- AIの設計上の特性に起因する誤り発生リスクを認識し，検証プロトコルを確立することが課題である。
- 生成AIは効率性を高める一方で，虚偽の情報を作り出す可能性があり，法的責任を問われるリスクがある。
- AIの誤りはランダムな現象ではなく，技術的な設計に起因する予測可能な結果であることが示唆された。
- 法的専門家は，AIの仕組みを理解し，検証プロトコルを導入することで，誤りのリスクを軽減する必要がある。
Link: https://arxiv.org/abs/2603.23857
活性化関数の最大二階微分が敵対的頑健性に及ぼす影響 [cs.LG, cs.AI]目的：活性化関数の曲率と敵対的頑健性との関係
- 深層学習モデルの敵対的脆弱性は，セキュリティ上の重大な懸念事項である。
- 既存の敵対的訓練法では，頑健性と標準的な精度の間のトレードオフが課題となっている。
- 活性化関数の曲率を制御することで，このトレードオフを解消し，頑健性を向上させる。
- 活性化関数の曲率が不足するとモデルの表現力が制限され，過剰な曲率はその逆の影響を与えることが示された。
- 最適な敵対的頑健性は，最大二階微分$\max|\sigma''|$が4から10の範囲に収まる場合に一貫して実現されることが明らかになった。
- 活性化関数の曲率は損失関数のヘッセ行列の対角要素に影響を与え，対角要素のノルムがU字型を示すことが理論的にも実験的にも確認された。
Link: https://arxiv.org/abs/2603.23860
AIアクセラレーションによる科学シミュレーションのための不変コンパイラ [cs.LG]目的：ニューラル常微分方程式における不変性保証の枠組み
- 科学シミュレーションにおいて，物理法則などの不変性を満たすことは，モデルの信頼性と精度を確保する上で重要である。
- 従来のニューラル常微分方程式は，不変性を満たさない場合があり，長期間予測や代理シミュレーションにおいて誤差が蓄積する可能性がある。
- 本研究は，構造保存アーキテクチャを通じて不変性を保証し，物理的に妥当な解を得ることを目指す。
- 不変コンパイラは，不変性を第一級の型として扱い，LLMを活用したコンパイルワークフローにより，制約を満たす構造を構築する。
- このアプローチは，保存すべき科学的構造とデータから学習するダイナミクスを明確に分離する。
- 不変性を尊重するニューラルサロゲートの設計パターンを様々な科学分野に提供する。
Link: https://arxiv.org/abs/2603.23861
有機分子における最高優先官能基の予測のための深層畳み込みニューラルネットワーク [cs.LG, cs.AI]目的：有機分子の最高優先官能基の予測
- 有機分子の性質は官能基に依存するため，その特定は化学分野において重要である。
- 複数の官能基が存在する場合，優先順位の決定は複雑であり，誤りが生じやすい。
- FTIRスペクトルから最高優先官能基を正確に予測する手法を開発し，課題解決を目指す。
- 深層畳み込みニューラルネットワーク(CNN)が，FTIRスペクトルからの最高優先官能基の予測に有効であることが示された。
- 提案手法は，従来の機械学習手法であるサポートベクターマシン(SVM)よりも高い性能を発揮した。
- CNNがスペクトルの特徴をより効果的に捉え，高精度な予測を実現できる理由が考察された。
Link: https://arxiv.org/abs/2603.23862