arXiv雑要約

AI - 2026/03/04 公開

RIVA：LLMエージェントを活用した信頼性の高い構成ドリフト検出 [cs.HC, eess.SY, cs.SY, cs.SE, cs.AI, cs.MA]目的：インフラ構成のドリフト検出
- クラウド環境の複雑化に伴い，インフラ構成管理の自動化が重要視されている。
- IaCツール導入後も，実際の環境と定義の不一致（構成ドリフト）が発生しやすい。
- 誤ったツール出力に左右されない，堅牢な構成ドリフト検出手法の確立を目指す。
- RIVAは，検証エージェントとツール生成エージェントが反復的なクロスバリデーションを行うことで，誤ったツール出力時でも高いタスク精度を回復する。
- AIOpsLabベンチマークにおいて，RIVAはベースラインReActエージェントと比較して，誤ったツール出力時のタスク精度を27.3%から50.0%に向上させた。
- 誤ったツール出力がない場合でも，タスク精度は28%から43.8%に向上し，信頼性の高いインフラ検証が可能となった。
Link: https://arxiv.org/abs/2603.02345
離散領域における拡散MPC：実行可能性制約，地平線効果，および批判者アラインメント：テトリスを用いたケーススタディ [cs.LG, cs.AI, cs.RO]目的：離散組み合わせ領域における拡散ベースのモデル予測制御の分析
- 近年，強化学習と生成モデルの融合が注目されており，複雑なタスクへの応用が期待されている。
- 離散空間における計画問題では，実行不可能な行動の排除が課題となっている。
- テトリスを例に，拡散MPCにおける制約，地平線，批判者の影響を明らかにすること。
- 実行可能性制約付きサンプリングは，無効な行動の割合を削減し，スコアと生存率を向上させた。
- 単純なDQNによる再ランキングは，ロールアウト品質と乖離しており，高い意思決定後悔を生じた。
- 疎な報酬環境下では，短い計画地平線が長い地平線よりも優れた性能を示した。
Link: https://arxiv.org/abs/2603.02348
メタポピュレーション疫学モデルからのグラフ構造学習 [cs.LG]目的：メタポピュレーション移動グラフの推論
- 大規模な感染症の流行を研究する上で重要なツールである。
- 疫学追跡データの不足から，モデルの主要要素を推論することが困難である。
- 疫学パラメータと移動ネットワークの同時推論問題を解決する。
- 提案手法は，ランダムおよび実証的な移動ネットワークにおいて，最先端のトポロジー推論を上回る性能を示した。
- 追加の病原体に関するデータを使用することで，トポロジー推論の精度が大幅に向上することが示された。
- 本研究は，疫学パラメータとトポロジーを同時に推論するための堅牢なフレームワークを確立した。
Link: https://arxiv.org/abs/2603.02349
最適な探索戦略の学習 [cs.CL, cs.LG, math.PR]目的：駐車問題における最適な探索戦略
- 待ち行列理論や確率過程は，資源配分やサービスシステムの効率化に不可欠である。
- 不均一ポアソン過程のような未知の環境下での最適な停止則の決定は困難である。
- 積分ジャンプ強度を推定することで，効率的な閾値学習アルゴリズムを開発すること。
- 提案アルゴリズムは，幅広い環境下で対数的な後悔成長を達成することが示された。
- 対数的なミニマックス後悔下限を証明し，提案アプローチの最適性を確立した。
Link: https://arxiv.org/abs/2603.02356
観察データからの広告における視覚的属性効果の推定：深偽技術を活用した二重機械学習アプローチ [cs.AI, econ.EM]目的：広告における視覚的属性が消費者エンゲージメントに与える因果効果の推定
- デジタル広告において視覚コンテンツの重要性が増す中，効果測定の厳密な手法が求められている。
- 画像内に埋め込まれた属性（モデルの肌の色など）の因果効果推定は，既存手法では交絡因子の影響を受けやすい。
- 深偽技術を用いて視覚的属性と交絡因子を分離し，より正確な因果効果推定を試みる。
- 提案手法DICE-DMLは，シミュレーションにおいて標準DMLと比較してRMSEを73-97%削減し，特に帰無効果点において高い改善を示した。
- Instagramのインフルエンサー投稿データ分析において，標準DMLは妥当性の低い結果を示したが，DICE-DMLは有効な交絡制御を実現した。
- DICE-DMLによる推定では，肌の色が濃いほどエンゲージメントがわずかに低下する傾向が示唆された（-522 likes，p = 0.062）。
Link: https://arxiv.org/abs/2603.02359
機械は不確実性を持ちうるか [cs.AI]目的：AIシステムにおける不確実性の実現
- AIの高度化には，人間のような判断能力が不可欠であり，不確実性の扱いはその重要な要素である。
- 従来のAIシステムは，不確実性を適切に表現・処理できず，現実世界への適応が課題となっていた。
- 本研究は，AIシステムにおける不確実性の表現方法と，その機能的・行動的側面を明らかにすることを目指す。
- 本研究では，不確実性を「認識的不確実性」と「主観的不確実性」に区別し，それぞれの実現方法を検討した。
- 特に，主観的不確実性に着目し，その表現を「分散型」と「個別型」に分類することで，多様な不確実性の捉え方を提示した。
- さらに，不確実性の状態を質問内容そのものを内容とする「疑問的な態度」として捉えるという新たな視点を提示した。
Link: https://arxiv.org/abs/2603.02365
PlayWrite：XRにおける遊びを通じたAI支援の物語共同執筆システム [cs.HC, cs.AI]目的：XR環境における遊びを通じたAI支援物語共同執筆のためのシステム
- 物語は人間にとって重要なコミュニケーション手段であり，文化を形成する上で不可欠である。
- 既存のAI文章作成ツールは，空間的・インタラクティブな物語作成を十分に支援できていない。
- 直接操作と遊びを通して生まれる物語のアイデアをAIが支援する新しい方法を提案する。
- PlayWriteは，仮想キャラクターや小道具の直接操作を通して物語を執筆する混合現実システムである。
- ユーザーの行動は「意図フレーム」として解釈され，タイムライン上の再配置可能なストーリーマーブルとして視覚化される。
- ユーザー研究の結果，PlayWriteは即興的で遊び心のあるプロセスを促進し，AIを協調的なパートナーとして活用できることが示された。
Link: https://arxiv.org/abs/2603.02366
RO-N3WS：多様なルーマニア語音声ベンチマークによる低リソースASRの汎化性能向上 [cs.CL, cs.LG, cs.SD]目的：低リソースおよび分布外条件における自動音声認識（ASR）の汎化性能の向上
- 音声認識技術は，人間と機械のコミュニケーションにおいて重要な役割を担う
- 低リソース言語における音声データ不足が，認識精度のボトルネックとなっている
- 多様な音声データを用いてASRモデルの汎化性能を高めることを目指す
- RO-N3WSは，放送ニュース，オーディオブック，映画台詞，児童向け読み物，会話型ポッドキャストなど，多様なスタイルのルーマニア語音声を含む126時間以上のデータセットである。
- 実験の結果，RO-N3WSで限定的なファインチューニングを行うことで，ゼロショットベースラインと比較して，実質的なWER（単語誤り率）の改善が確認された。
- 研究の再現性を支援するため，全てのモデル，スクリプト，データ分割を公開する。
Link: https://arxiv.org/abs/2603.02368
CUCo：計算と通信の共同設計のためのエージェント的フレームワーク [cs.DC, cs.AR, cs.LG, cs.MA]目的：大規模言語モデルの学習と推論における高性能CUDAカーネルの自動生成
- GPU利用率最大化にはカスタムCUDAカーネルが不可欠であり，AI研究開発の根幹を支える。
- 既存手法は計算に偏重し，通信カーネルの最適化が遅れており，性能向上に課題がある。
- 計算と通信を同時に最適化することで，既存手法では実現できない新たな最適化を目指す。
- CUCoは，エージェント駆動型ワークフローを用いて，高性能なCUDAカーネルを自動生成する。
- 計算と通信の共同最適化により，従来手法を凌駕し，エンドツーエンドのレイテンシを最大1.57倍削減する。
- 学習を必要とせず，既存の基盤モデルを活用することで，迅速なカーネル最適化を実現する。
Link: https://arxiv.org/abs/2603.02376
COOL-MC：血小板在庫管理のための強化学習ポリシーの検証と説明 [cs.ET, cs.CY, cs.AI, cs.LG]目的：血小板在庫管理における強化学習ポリシーの検証と説明
- 血小板は有効期限が短く，適切な在庫管理が医療現場の安定供給に不可欠である。
- 需要の不確実性から，過剰在庫による廃棄と在庫不足による患者への影響のバランスが課題である。
- 強化学習ポリシーのブラックボックス化を解消し，医療現場での信頼性と導入を促進する。
- 訓練されたポリシーは，200ステップの範囲で2.9%の品切れ確率と1.1%の在庫上限確率を達成した。
- ポリシーは，曜日や未処理注文よりも，在庫年齢分布に主に注目していることが示された。
- 補充戦略の多様性が確認され，中規模から大規模の注文を小規模なものに置き換えても安全確率に大きな変化はないことが示された。
Link: https://arxiv.org/abs/2603.02396
タンパク質設計とコンフォメーションアンサンブルのための剛性認識幾何学的事前学習 [cs.LG, cs.AI]目的：タンパク質設計とコンフォメーションアンサンブルの改善
- タンパク質は生命活動に不可欠であり，その設計は創薬や材料科学に繋がる重要な課題である。
- 既存の手法では，タンパク質の幾何学的構造と設計を同時に学習することが難しく，生成されるタンパク質の多様性や現実性が低い。
- タンパク質の剛性を考慮した事前学習により，幾何学的理解を深め，より現実的で多様なタンパク質を生成することを目指す。
- RigidSSLは，AlphaFoldデータベースの構造と分子動力学軌道を用いて，タンパク質の幾何学的情報を効率的に学習する。
- 事前学習により，タンパク質の設計可能性が最大43％向上し，新規性および多様性が向上した。
- RigidSSL-Perturbはモチーフ足場構築の成功率を5.8％向上させ，RigidSSL-MDはGタンパク質共役受容体のより現実的なコンフォメーションアンサンブルを捉えた。
Link: https://arxiv.org/abs/2603.02406
少ないサンプルから少ないビットへ：データセット蒸留を精度とコンパクト性の共同最適化として再構築 [cs.CV, cs.AI, cs.LG]目的：データセットのコンパクト性と精度に関する共同最適化
- 大規模データセットの取り扱いは計算資源を圧迫し，効率的な学習が課題となるため，データセット圧縮が重要である。
- 既存のデータセット蒸留法はサンプル数の削減に重点を置いており，データ精度と効率の関係が十分に考慮されていない。
- 固定されたビット予算の下で，データセットのコンパクト性と精度を同時に最適化することで，情報効率の良い蒸留を目指す。
- 提案手法QuADDは，蒸留ループに微分可能な量子化モジュールを統合し，合成サンプルと量子化パラメータをエンドツーエンドで共同最適化する。
- レート歪み理論に基づいてビット配分が学習性能に与える影響を分析し，均一および適応的な非均一量子化をサポートする。
- 画像分類および3GPPビーム管理タスクにおいて，既存手法を上回り，ビットあたりの精度において新しい基準を確立した。
Link: https://arxiv.org/abs/2603.02411
スラリー・アズ・ア・サービス：栄養最適化のためのスケーラブルな多元的整合に関するささやかな提案 [cs.CY, cs.AI]目的：栄養最適化のための多元的整合のスケーラビリティに関する研究
- 大規模言語モデルの倫理的利用は，社会的な価値観の多様性を尊重し，潜在的なリスクを軽減する上で重要である。
- 現在の多元的整合の手法は，一貫性のない，または商業的に不利な価値観への対応が不十分である。
- 本研究は，大規模言語モデルがより広範な人間の価値観に整合する可能性を探求する。
- ValueMulchという，多様なコミュニティ規範に沿った「堆肥化モデル」のトレーニング，デプロイ，認証パイプラインを開発した。
- 32のコミュニティにおける実証実験の結果，ValueMulchは既存のモデルよりもコミュニティの堆肥化選好との分布的一致度を向上させた。
- この研究は，倫理的考慮事項と，技術的な問題設定が有害なシステムを生み出す可能性について批判的に考察する。
Link: https://arxiv.org/abs/2603.02420
時間依存型テキスト可視化のデザインと研究のための有向グラフモデルと実験フレームワーク [cs.HC, cs.AI, cs.CL]目的：時間依存型テキスト可視化における関係性の解釈に関するユーザーの能力評価
- デジタル情報が急増し，変化する出来事の状況を把握することが困難になっている。
- テキスト間の関係性を可視化する手法が提案されているが，その解釈の容易性が課題である。
- 有向グラフモデルと合成データを用いて，可視化の解釈におけるユーザーの課題を明らかにする。
- ユーザーは，時間依存型テキストのパターンを正確に識別することが難しいことが判明した。
- 想定外の多様なユーザーの解釈根拠が見られ，可視化の解釈には複雑性が内在している。
- LLMを用いた合成データ生成において，実験制御を損なう可能性が示唆された。パーソナライズされた可視化の必要性を示唆する。
Link: https://arxiv.org/abs/2603.02422
共同線形近似による個別化マルチエージェント平均報酬TD学習 [cs.SC, cs.CC, cs.LG]目的：個別化マルチエージェント平均報酬TD学習における，共通線形表現の学習
- マルチエージェントシステムは，複雑な問題を解決する上で重要な役割を果たす。
- エージェント間の環境の違いや報酬の不一致が学習の妨げとなる場合がある。
- 共通構造を利用することで，学習の効率化と性能向上を目指す。
- 提案手法は，競合する信号をフィルタリングし，学習速度を向上させる。
- エージェント間の誤差ダイナミクスは密接に関連しており，最適な部分空間と推定部分空間間の角度距離の収縮が難しい。
- 実験により，共通構造を利用した学習の有効性が示された。
Link: https://arxiv.org/abs/2603.02426
注意の支払い方を学習する：調査データにおける注意深い回答者と注意散漫な回答者の教師なしモデリング [cs.HC, cs.AI, cs.LG]目的：調査データにおける注意深い回答者と注意散漫な回答者の識別
- 行動科学および社会科学調査の信頼性は，質の高いデータに依存する。データの質を確保することが重要である。
- 注意散漫な回答者を検出する方法は，コストがかかる，事後対応である，または一貫性がない場合がある。
- 調査の設計とデータ品質を結びつけ，回答者に追加の負担をかけずに監査を可能にする診断ツールを開発する。
- 注意深さの検出効果は，モデルの複雑さよりも調査構造に依存することが示された。
- 一貫性のある項目バッテリーを持つ調査では，線形モデルでも注意深い回答者と注意散漫な回答者を信頼性高く分離できる。
- 測定信頼性を最大化する心理測定学的原則は，アルゴリズムによる検出可能性も最大化するという「心理測定-MLアラインメント」が明らかになった。
Link: https://arxiv.org/abs/2603.02427
KLダイバージェンスにおける減衰のないランジュバンモンテカルロ法の次元に依存しない収束性 [cs.LG, math.OC, stat.ML]目的：KLダイバージェンスにおける減衰のないランジュバンモンテカルロ法の次元に依存しない収束性の証明
- 高次元データに対する確率分布のサンプリングは，統計的推論や機械学習において重要な役割を果たす。
- 既存の減衰のないランジュバンモンテカルロ法の収束保証は次元数$d$に依存するため，高次元では実用的な保証が得られない。
- KLダイバージェンスを用いた減衰のないランジュバンモンテカルロ法の次元に依存しない収束保証を確立し，高次元データへの適用を可能にすること。
- 本研究では，KLダイバージェンスにおける減衰のないランジュバンモンテカルロ法の離散化に対する初の次元に依存しない収束性を証明した。
- KL局所誤差フレームワークを改良することで，ヘッセ行列のトレース$\mathrm{tr}(\mathbf{H})$に依存する境界を得ることに成功した。
- その結果，減衰のあるランジュバン法と比較して，$\mathrm{tr}(\mathbf{H})\ll d$の領域において，減衰のないランジュバンモンテカルロ法の反復計算の複雑さの改善が示された。
Link: https://arxiv.org/abs/2603.02429
分類知識蒸留における温度の統一的再検討 [cs.LG, cs.CV]目的：分類知識蒸留における温度選択に関する理解の深化
- 知識蒸留は，教師モデルの知識を生徒モデルへ効率的に伝達する手法であり，性能向上に貢献する。
- 適切な温度パラメータの選択が難しく，探索に時間と労力がかかる場合が多い。
- 温度パラメータの選択が，最適化手法や教師モデルの学習方法に依存することを示す。
- 温度パラメータは，教師モデルの事前学習/ファインチューニングや最適化手法と密接に関連していることが示された。
- 温度選択が，特定の学習設定において顕著な影響を及ぼす一般的な状況が特定された。
- この研究は，知識蒸留の実践者にとって，温度選択の指針を提供する。
Link: https://arxiv.org/abs/2603.02430
MIRAGE：知識グラフ誘導によるコホート間MRI合成とアルツハイマー病予測 [cs.CV, cs.AI]目的：アルツハイマー病予測のためのMRIデータ欠損問題解決
- アルツハイマー病診断にはMRIと電子カルテの組み合わせが重要だが，MRI検査は高価で利用できない場合が多い。
- 電子カルテから直接3D MRI画像を合成することは技術的に難しく，臨床リスクも伴う。
- 本研究は，知識グラフを用いて電子カルテからMRI情報を補完し，MRIデータがなくても高精度なアルツハイマー病予測を実現する。
- MIRAGEは，知識グラフとグラフ注意ネットワークにより，電子カルテの情報をMRIデータを持つコホートから持たないコホートへ伝播させる。
- 凍結された3D U-Netデコーダーを補助的な正則化エンジンとして利用し，生物学的に妥当な病理学的セマンティクスをエンコードする。
- MRIデータのないコホートにおいて，AD分類率を13%改善し，モダリティ欠損の問題を克服した。
Link: https://arxiv.org/abs/2603.02434
VL-KGE：Vision-Languageモデルと知識グラフ埋め込みの融合 [cs.AI, cs.LG]目的：マルチモーダル知識グラフの統一的な表現学習
- 現実世界の知識グラフは多様な情報を扱うため，その表現方法が重要である。
- 既存手法では，マルチモーダル情報を十分に活用できず，モダリティ間の関係が弱い。
- Vision-Languageモデルを用いて，知識グラフのマルチモーダル表現を強化することを目指す。
- 提案手法VL-KGEは，知識グラフ埋め込みとVision-Languageモデルを統合したフレームワークである。
- 実験の結果，WN9-IMGおよびWikiArt-MKGで，既存手法と比較してリンク予測性能が向上した。
- VL-KGEは，大規模かつ異質な知識グラフにおける構造化された推論を可能にする。
Link: https://arxiv.org/abs/2603.02435
限定データを用いた動的システムのNNモデル転移へのSEKFの利用 [cs.LG]目的：動的システムのNNモデル転移手法
- 動的システムモデリングは，制御や予測など，多くの工学的応用において重要である。
- 十分な訓練データを収集することは，コストや安全上の理由から困難な場合が多い。
- 少ないデータで既存のNNモデルを新しいシステムに適用し，データ収集の負担を軽減する。
- Subset Extended Kalman Filter (SEKF)を用いることで，少ないデータで事前学習済みのNNモデルを新しいシステムへ適応可能となった。
- 初期モデルへの小さなパラメータ摂動により，元の訓練データの1%程度のデータ量で目標システムのダイナミクスを捉えることができた。
- 微調整は計算コストが少なく，汎化誤差を低減する効果も確認された。
Link: https://arxiv.org/abs/2603.02439
拡散モデルにおけるスペクトル正則化 [cs.RO, cs.HC, cs.SY, eess.SY, cs.LG]目的：拡散モデルの生成サンプル品質の向上
- 自然信号のスペクトルとマルチスケール構造の理解は，高品質な生成モデル構築に不可欠である。
- 従来の拡散モデルは，信号のスペクトル特性を考慮しないため，高解像度生成において課題が残る。
- 周波数バランスとコヒーレントなマルチスケール構造を導入し，生成品質の向上を目指す。
- 提案手法は，フーリエ変換とウェーブレット変換に基づくスペクトル正則化を導入し，学習時の損失関数に加える。
- この手法は，DDPM，DDIM，EDMといった様々な拡散モデルの定式化と互換性があり，計算コストの増加は軽微である。
- 画像と音声の生成実験において，サンプル品質の一貫した向上が確認され，特に高解像度データセットで顕著な効果が示された。
Link: https://arxiv.org/abs/2603.02447
多様体認識ノイズ除去スコアマッチング (MAD) [cs.LG, cs.AI, stat.ML]目的：多様体上の分布学習における効率化
- 多様体上のデータ分布学習は，機械学習の重要な課題であり，その応用範囲は広い。
- 多様体構造を明示的に学習する必要があり，計算コストが高くなる場合がある。
- 多様体構造の学習負荷を軽減しつつ，効率的な学習を実現することを目指す。
- 本研究では，アンビエント空間でのノイズ除去スコアマッチングを修正し，多様体を暗黙的に考慮する手法を提案した。
- スコア関数を既知成分と残差成分に分解することで，多様体に関する情報を効率的に組み込む。
- 回転行列や離散分布など，複数のケースで既知成分を解析的に導出し，提案手法の有効性を示した。
Link: https://arxiv.org/abs/2603.02452
計算還元可能性はグラフ組合せ最適化のための転移可能なモデルにつながるか？ [cs.LG, cs.AI]目的：グラフ組合せ最適化問題に対する汎化性能の向上
- 組合せ最適化は，現実世界の様々な問題を解決するための基盤技術である。
- 既存のニューラルソルバーは，訓練データに含まれないタスクへの汎化が困難である。
- 計算還元可能性の知見に基づき，タスク間の知識転移を促進する事前学習戦略を提案する。
- GCONモジュールとエネルギーベース損失関数を用いたモデルが，複数の組合せ最適化タスクで高い性能を示した。
- MVC，MIS，MaxClique間，およびMaxCut，MDS，グラフ彩色を含むマルチタスク学習において，効果的な転移学習が確認された。
- leave-one-out設定での事前学習は，残りのタスクの収束を加速し，負の転移を回避する効果があることが示された。
Link: https://arxiv.org/abs/2603.02462
GLoRIA：方言音声認識のためのゲート付き低ランク解釈可能な適応 [cs.CL, cs.AI]目的：方言音声認識における適応手法
- 地域差が大きい方言音声認識は，その実用化において重要な課題である。
- 方言音声認識では，地域ごとのデータ不足が性能向上を阻害する要因となっている。
- 地理情報に基づいた効率的な適応により，方言音声認識の性能向上を目指す。
- GLoRIAは，GCNDコーパスにおいて，既存の全パラメータファインチューニングやLoRA等の手法を上回る性能を達成した。
- モデル全体の10%未満のパラメータを更新するだけで，最先端の単語誤り率を達成し，効率的な適応が可能となった。
- 未知の方言に対しても高い汎化性能を示し，適応パターンを地理空間的に可視化することで解釈可能性も提供する。
Link: https://arxiv.org/abs/2603.02464
転移学習を用いた泥炭地火災検出のための深層学習 [cs.CV, cs.AI]目的：泥炭地火災検出のための深層学習モデル
- 森林火災による環境破壊は深刻であり，早期発見と迅速な対応が重要である。
- 既存の森林火災検出器は，泥炭地火災特有の燃焼形態に対応できていない。
- 泥炭地火災に適応した高精度な火災検出システムの構築を目指す。
- 転移学習により，ラベル付き泥炭地火災データの不足を克服し，効果的な学習を実現した。
- 従来の火災検出器と比較して，検出精度とロバスト性が大幅に向上した。
- 低コントラストの煙や遮蔽物，照明変化といった困難な条件下でも，高い検出性能を示した。
Link: https://arxiv.org/abs/2603.02465
ビデオTokenCom：テキスト意図に基づく多レートビデオToken通信とUEPベース適応ソース・チャネル符号化 [cs.RO, cs.IT, cs.LG, cs.MM, eess.IV, math.IT]目的：テキスト意図に基づいた多レートビデオ通信のための，UEPベース適応ソース・チャネル符号化フレームワーク
- AIモデルの発展に伴い，効率的なセマンティック情報伝送が求められている。
- 帯域制限下でのセマンティック忠実度の確保が課題である。
- ユーザー意図に基づいた重要度に応じた情報伝送を目指す。
- 提案手法は，従来の方式やセマンティック通信のベースラインを上回る性能を示す。
- 知覚的品質とセマンティック品質の両面で，広範囲なSNRにおいて優位性を示す。
- ユーザー意図に合致するトークンは高精度に符号化し，それ以外のトークンは低精度で符号化することで，帯域幅を節約しつつセマンティック品質を維持する。
Link: https://arxiv.org/abs/2603.02470
LLMエージェントのメモリにおける検索と利用のボトルネック診断 [cs.HC, cs.AI]目的：LLMエージェントのメモリにおける，書き込み戦略と検索手法，およびメモリ利用行動が性能に及ぼす影響の分析
- LLMエージェントは過去の対話情報を活用するが，メモリの書き込みと検索の重要度の比較が不明確である
- 既存のメモリパイプラインでは，有用なコンテキストが破棄され，検索メカニズムで補完できない場合がある
- 現在の検索手法下では，書き込みの高度化よりも検索品質の向上がより大きな効果をもたらすことを示す
- LoCoMoデータセットを用いた実験で，検索手法が性能に最も大きな影響を与え，精度は20ポイント以上変動した
- 生チャンクによる保存が，高コストな損失的代替手段と同等かそれ以上の性能を示し，現在のパイプラインが有用なコンテキストを破棄している可能性を示唆した
- 性能低下は主に検索段階で発生し，利用段階での問題は少ないことが分かった
Link: https://arxiv.org/abs/2603.02473
実環境における肌の色調分類のための大規模データセットとベンチマーク [cs.CV, cs.LG]目的：実環境における肌の色調分類のためのデータセットと評価手法
- 機械学習モデルにおけるバイアス問題は重要であり，特に肌の色調のような詳細な分析は課題である。
- 既存データセットは規模が小さく，再現性が低いか，あるいは医療的な尺度に依存しており，視覚的な表現性に欠ける。
- 大規模なデータセットと公平性を考慮した評価手法を開発し，肌の色調分類の精度向上を目指す。
- 大規模な肌の色調データセットSTWを構築し，公開することで，研究の再現性と発展に貢献する。
- 従来の画像処理手法は低い性能を示す一方，深層学習は高い精度を達成することを示す。
- ファインチューニングされたViTモデルSkinToneNetが，未知のデータに対しても高い汎化性能を示す。
Link: https://arxiv.org/abs/2603.02475
PRISM：プロセス報酬モデルによる推論を通じた深層思考の限界を押し広げる [eess.SY, cs.RO, cs.SY, cs.AI]目的：深層思考における推論の改善
- 複雑な数学・科学的問題解決において，深層思考は高い性能を発揮する重要な手法である。
- 既存のフレームワークでは，推論中に信頼性の高い正誤信号が得られず，誤りの増幅や正解の抑制が問題となる。
- PRISMは，ステップレベルの検証に基づき，推論の精度と効率を向上させることを目指す。
- PRISMは，AIME25, HMMT25, GPQA Diamondにおいて，gpt-oss-20bを用いてそれぞれ90.0%, 75.4%, 71.4%の精度を達成した。
- PRISMは，gpt-oss-120bと同等またはそれ以上の性能を示す。
- 解析の結果，PRISMは推論の過程で一貫した修正を行い，初期集団に正解が少ない場合でも高い信頼性を示すことが明らかになった。
Link: https://arxiv.org/abs/2603.02479
MUSE：大規模言語モデルの多角的統一安全性評価のための実行中心プラットフォーム [cs.LG, cs.CL, cs.CV, cs.SD, eess.AS]目的：大規模言語モデルの多角的統一安全性評価
- 大規模言語モデルの利用拡大に伴い，安全性評価の重要性が高まっている。
- 既存の安全性評価はテキスト中心であり，音声，画像，動画など他のモダリティへの対応が不十分である。
- 多角的なモダリティに対応し，より包括的な安全性評価を実現する。
- MUSEは，自動クロスモーダルペイロード生成，多段階攻撃アルゴリズム，プロバイダーに依存しないモデルルーティング，LLMジャッジを統合した実行中心のプラットフォームである。
- デュアルメトリックフレームワークにより，ハードASR（コンプライアンスのみ）とソフトASR（部分コンプライアンスを含む）を区別し，二値指標では捉えきれない部分的な情報漏洩を捉える。
- ターンごとのモダリティを切り替えるITMSにより，モダリティ境界を越えたアライメントの一般化を検証し，モデルごとの効果の方向性が異なることを明らかにした。
Link: https://arxiv.org/abs/2603.02482
時間減衰モデルにおける学習増強モーメント推定 [cs.RO, math.OC, cs.HC, cs.RO, cs.DS, cs.LG]目的：時間減衰モデルにおけるノルム/モーメント推定，頻度推定，カスケードノルム，長方形モーメント推定のための学習増強アルゴリズム
- 機械学習の普及と成功により，ストリーミングモデルにおける学習増強アルゴリズムの研究が活発化している。
- アイテムの重みが不均一な場合，特にプライバシー規制により古いデータを除去する必要があるスライディングウィンドウモデルでは，理解が限られている。
- ヘビーヒッターオラクルを活用し，時間減衰モデルにおける基本的な問題に対する学習増強アルゴリズムを提案する。
- ヘビーヒッターオラクルを利用することで，空間効率が向上した学習増強アルゴリズムを実現した。
- 提案アルゴリズムは，ノルム/モーメント推定，頻度推定，カスケードノルム，長方形モーメント推定といった複数の問題に適用可能である。
- 実データと合成データを用いた実験により，提案アルゴリズムの実用的な効率が実証された。
Link: https://arxiv.org/abs/2603.02488
能力あるエージェントが知っておくべきこと：不確実性下での堅牢な意思決定のための選択定理 [cs.LG, cs.AI, cs.RO, q-bio.NC, stat.ML]目的：不確実性下での意思決定における，エージェントの内部構造の必要性
- 人工知能エージェントの能力向上に伴い，その内部構造の理解が重要となる。
- 最適な制御は実装可能だが，そのような表現が必須であるかは不明だった。
- 行動予測タスクにおける平均後悔を低減することで，予測的内部状態の必要性を明らかにする。
- 平均後悔が低い場合，エージェントは予測的な内部状態を実装する必要があることが示された。
- 完全観測下では，介入的遷移カーネルの近似的な復元が可能となる。
- 部分観測下では，信念のような記憶と予測状態の必要性が示唆される。
Link: https://arxiv.org/abs/2603.02491
良い意思決定を促すための肯定的な・否定的なロールモデルの開示 [cs.AI]目的：社会厚生の最大化
- 社会的ネットワークにおけるロールモデルの影響は大きく，人々の行動に左右されるため，その活用が重要である。
- ロールモデルの真の性質（肯定的か否定的か）が不明な場合，誤った模倣や行動選択が生じる可能性がある。
- ロールモデルの情報を戦略的に開示することで，社会全体の意思決定を改善し，より良い結果を導くことを目指す。
- ロールモデルの肯定的な情報を開示することで，模倣を促進し，否定的な情報を開示することで，行動の転換を促す戦略が有効であることが示された。
- 開示予算が限られている状況下でも，近似解による社会厚生の最大化が可能であり，特に否定的なロールモデルの開示が困難なケースでも一定の近似率を達成できる。
- 異なるグループが存在する場合，グループごとの厚生改善も最適解に近い水準で実現可能であり，介入モデルや可視性拡大モデルなどの拡張も提案された。
Link: https://arxiv.org/abs/2603.02495
NeuroProlog：カクテル効果によるニューロシンボリック数学推論のマルチタスクファインチューニング [cs.HC, cs.RO, eess.SY, cs.SY, cs.AI]目的：ニューロシンボリック数学推論のためのマルチタスクファインチューニング手法
- 数学的推論は，AIの重要な能力の一つであり，その精度向上は様々な分野で求められている。
- 大規模言語モデルは自然言語処理で高い性能を示すものの，数学的推論においては論理的な矛盾を含む解答を生成しやすい。
- 形式的な検証可能性を保証するニューロシンボリックフレームワークを構築し，数学的推論の信頼性を高める。
- カクテル訓練戦略により，数学公式のルールへの翻訳，自然言語からプログラムへの合成，プログラムと解答の整合性を同時に最適化することで，性能向上が確認された。
- 特にQwen-32Bにおいては，GSM8Kデータセット上で5.23%の精度向上を示し，統計的に有意な差が確認された。
- モデル規模に応じて学習ダイナミクスが変化し，32B規模では修正困難な型エラーが修正可能なドメインエラーに変化し，全体の修正率が92.7%に達した。
Link: https://arxiv.org/abs/2603.02504
ParEVO：不規則なデータに対するコード生成：エージェント進化による高性能な並列化 [cs.LG, cs.DC, cs.NE, cs.PF]目的：不規則なデータに対する高性能な並列アルゴリズムの合成
- 現代の高性能アプリケーションでは並列計算への移行が不可欠だが，並行プログラミングの学習コストが高い。
- スパースグラフなどの不規則なデータ構造では，静的スケジューリングが機能せず，データ依存関係が予測困難である。
- 大規模言語モデルの不具合を克服し，実用的な並列アルゴリズムを自動生成すること。
- ParEVOは，実証的に性能の良いアルゴリズムを厳選した「Parlay-Instruct Corpus」データセットと，それを活用したファインチューニングされたLLMを利用する。
- 進化型コーディングエージェント(ECA)により，コンパイラ，レース検出器，プロファイラからのフィードバックに基づき，コードの修正を繰り返すことで正確性を向上させている。
- ParEvalベンチマークにおいて，平均106倍の高速化（最大1103倍）を達成し，特に複雑な不規則グラフ問題で13.6倍の高速化を実現した。
Link: https://arxiv.org/abs/2603.02510
散乱環境における逐次操作のための物体中心空間推論学習 [cs.RO, cs.AI]目的：散乱環境における物体操作の空間推論能力
- ロボットによる自動化において，複雑な環境下での物体操作は不可欠な課題である。
- 大規模モデルは性能を示すものの，データ効率やモジュール性に課題があり，密集した環境での物体取得が困難である。
- 高レベルな空間推論と低レベルな行動実行を分離することで，効率的かつ効果的な物体操作を実現する。
- 提案手法Unveilerは，空間関係エンコーダ（SRE）により，取り除くべき障害物を逐次的に特定する。
- SREは模倣学習とPPOによるファインチューニングにより学習され，ヒューリスティックな戦略を上回る性能を示す。
- シミュレーション環境で最大97.6%の成功率を達成し，実環境へのゼロショット転移も実証された。
Link: https://arxiv.org/abs/2603.02511
AI時代における人間認証モジュールリポジトリ [cs.ET, cs.AI, cs.SE]目的：AI支援開発における信頼性のあるソフトウェア構築のための新たなアーキテクチャモデル
- AI技術の進展に伴い，ソフトウェア開発の効率化が期待される一方，その信頼性が重要課題となっている。
- 現在のソフトウェアサプライチェーンには，出所不明なコンポーネントや不十分なレビューが及ぶリスクが存在する。
- AIによる安全で予測可能なソフトウェア組み立てを可能にする，人間による監視と自動分析を組み合わせたモジュール認証の枠組みを提案する。
- 本研究では，人間によるレビューと自動分析を組み合わせた人間認証モジュールリポジトリ（HCMR）の参照アーキテクチャを提示した。
- HCMRは，モジュールの認証と系統の追跡を支援し，モジュール型エコシステムのセキュリティリスクを分析する。
- HCMRが，信頼性と監査可能性の高いAI構築ソフトウェアシステムの基盤となり得ることを議論した。
Link: https://arxiv.org/abs/2603.02512
エネルギーベースモデルにおける有限時間ギブス学習の熱力学的制御：制限ボルツマン機械の研究 [cs.LG]目的：有限時間ギブス学習における熱力学的制御の枠組み
- エネルギーベースモデルは，機械学習において重要な役割を担う。その学習安定性が課題となる。
- 固定温度での有限時間学習は，学習に伴うエネルギー地形の変化によって不安定化する可能性がある。
- 熱力学的な制御を導入し，学習の安定性を高めることを目指す。
- 提案手法は，学習過程における温度を動的に変化させることで，パラメータの有界性を保証する。
- 熱力学的な制御により，逆温度の増大や凍結現象を抑制し，学習の安定化に貢献する。
- MNISTデータセットでの実験により，提案手法が既存手法と比較して，正規化の安定性と有効サンプルサイズを向上させることが示された。
Link: https://arxiv.org/abs/2603.02525
LLM-MLFFN: 大規模言語モデルを用いた多層自律運転行動特徴融合 [eess.SY, cs.SY, cs.AI, cs.RO]目的：自律運転車の運転行動の正確な分類
- 自動運転技術の安全性検証，性能診断，交通統合分析において，運転行動の正確な理解は不可欠である。
- 既存手法は数値時系列モデリングに依存し，複雑な交通環境下での解釈可能性や頑健性に課題があった。
- 多次元運転データの複雑性に対応し，分類精度と解釈可能性を高めることを目指す。
- 提案手法LLM-MLFFNは，Waymoデータセットにおいて94%を超える分類精度を達成し，既存の機械学習モデルを上回る性能を示した。
- 多層融合，特徴抽出戦略，LLMによる意味推論が，性能向上に大きく貢献することが検証された。
- 構造化特徴モデリングと言語駆動型意味抽象化の統合が，頑健な運転行動分類への有効なアプローチとなることが示唆された。
Link: https://arxiv.org/abs/2603.02528
ホップフィールド力学を通じた拡散ガイダンスとアンダーソン加速の架け橋 [eess.SY, cs.SY, cs.LG, cs.AI]目的：拡散モデルにおける注意空間外挿の理論的枠組みの確立
- 拡散モデルは高品質な画像生成を可能にするが，計算コストが高い。
- 注意空間外挿は効率的だが，その理論的根拠が不明確である。
- 注意空間外挿の安定化とガイダンス効率の最大化を目指す。
- 注意ダイナミクスをモダンホップフィールドネットワーク内の固定点反復としてモデル化する理論的枠組みを提示した。
- 注意空間外挿が，これらのダイナミクスに対するアンダーソン加速の特殊事例であることが示された。
- Geometry Aware Attention Guidance（GAG）を提案し，既存のフレームワークに容易に統合可能である。
Link: https://arxiv.org/abs/2603.02531
焦点エントロピーの機能的性質 [cs.IT, cs.CV, cs.LG, math.IT, math.ST, stat.ML, stat.TH]目的：焦点損失の理論的基盤の解明
- 不均衡なクラス分類は，画像認識を含む多くの分野で重要な課題である。
- 焦点損失は実証的に成功しているが，情報理論的な考察が不十分であった。
- 焦点損失の挙動を理論的に理解し，不均衡学習におけるトレードオフを明確化すること。
- 焦点エントロピーの有限性，凸性，連続性に関する条件が確立された。
- 焦点損失が中間確率を増幅し，高確率の結果を抑制することが厳密に示された。
- 極端なクラス不均衡下では，非常に低い確率がさらに抑制される過剰抑制状態が生じることが明らかになった。
Link: https://arxiv.org/abs/2603.02533
LLMの認知能力の神経心理学的評価 [cs.AI]目的：LLMの認知能力に関する評価
- 大規模言語モデルの能力向上は，AI研究の重要な課題であり，その可能性を最大限に引き出す必要がある。
- 既存の評価指標は，タスクの完了に重点を置いており，基礎的な認知能力を十分に評価できていない。
- 本研究は，LLMの基礎的な認知能力を評価することで，その限界と改善点を示すことを目指す。
- NeuroCognitionベンチマークは，LLMの抽象的推論，空間ワーキングメモリ，認知柔軟性を評価する。
- 画像や複雑さが増すと，LLMの性能は低下する傾向が確認された。
- NeuroCognitionベンチマークは，既存の一般的な能力指標と相関がある一方で，それらだけでは測定できない認知能力も捉えている。
Link: https://arxiv.org/abs/2603.02540
AnchorDrive：アンカー誘導拡散再生による安全性重視シナリオ展開のための大規模言語モデル [cs.AI]目的：安全性重視シナリオの生成
- 自動運転システムの安全性確保には，現実では稀な危険な状況下での評価が不可欠である。
- 実走行データからの収集が困難であり，シミュレーションによる合成が必要とされる。
- 制御性と現実性の両立が課題であり，本研究はそれを解決する。
- AnchorDriveは，大規模言語モデルと拡散モデルの長所を組み合わせた二段階フレームワークである。
- 大規模言語モデルによる制御可能なシナリオ生成と，拡散モデルによる現実的な軌道生成を実現した。
- highDデータセットの実験により，AnchorDriveの有効性が示された。
Link: https://arxiv.org/abs/2603.02542
CoDAR：連続拡散言語モデルはあなたが思うよりも強力である [cs.CL, cs.AI, cs.LG]目的：連続拡散言語モデルの性能向上
- 言語モデルは自然言語処理の基盤であり，様々な応用を可能にする重要な技術である。
- 連続拡散言語モデルは離散拡散アプローチに劣る傾向があり，その原因が不明であった。
- トークン丸めがボトルネックであることを特定し，その問題を解決する新しいフレームワークを提案する。
- CoDARは，埋め込み空間で完全に連続的な拡散を維持しつつ，強力な文脈条件付き離散化器を学習する。
- LM1BおよびOpenWebTextにおける実験により，CoDARは潜在拡散よりも大幅に生成品質が向上し，強力な離散拡散言語モデルと競合できることが示された。
- また，CoDARは流暢さと多様性のトレードオフを制御するための簡単なデコーダ温度調整ノブを提供する。
Link: https://arxiv.org/abs/2603.02547
メスを渡して：手術器具搬送のための衝突回避型デュアルアーム手術支援ロボット [cs.RO, cs.CV, cs.HC, cs.LG]目的：手術器具搬送のための衝突回避型デュアルアーム手術支援ロボットの実現
- 手術の効率化と医療従事者の負担軽減が重要な課題である。
- 従来のロボットは固定経路に依存し，動的な手術環境への対応が困難であった。
- 手術従事者の指示に基づき，柔軟かつ安全に器具搬送を行うことを目指す。
- 提案システムは，手術器具搬送において83.33%の成功率を達成した。
- 視覚と自然言語処理モデルを活用し，ゼロショットでロボットの軌道を生成する。
- リアルタイムな障害物検知と二次計画法により，衝突回避を実現している。
Link: https://arxiv.org/abs/2603.02553
コントラストのレンズを通して：VLMにおける自己改善型視覚的推論 [cs.IR, cs.CV, cs.AI, cs.CL, cs.LG]目的：VLMにおける視覚的推論能力の向上
- 大規模言語モデルの重要な能力として推論が注目されており，その性能向上は様々な応用において不可欠である。
- VLMにおける推論過程での視覚的幻覚は，言語モデルとは異なり，検証や修正が困難であるという課題がある。
- 視覚的コントラストを利用することで，VLMの推論過程における幻覚を軽減し，視覚的推論能力を向上させることを目指す。
- 視覚的コントラストペアを活用するVC-STaRフレームワークを提案し，モデルが生成する推論の根拠における幻覚を軽減することに成功した。
- 多様なVQAデータセットを用いてコントラストペアをキュレーションし，VisCoR-55Kという新しい視覚的推論データセットを構築した。
- VC-STaRは，既存の自己改善アプローチや最先端の視覚的推論データセットでファインチューニングされたモデルを上回り，VLM自身の視覚的推論能力を向上させることを示した。
Link: https://arxiv.org/abs/2603.02556
混乱認識プロンプトチューニング：視覚と言語のずれの軽減 [cs.CV, cs.AI]目的：視覚と言語モデルにおけるカテゴリー間の混同パターン軽減
- 近年，視覚と言語を結びつけるモデルが発展したが，類似カテゴリー間での誤分類が課題となっている。
- 既存モデルは，特定のカテゴリーペア間での混同パターンを示し，詳細な識別能力が不十分である。
- モデル自身のずれから学習し，混同パターンを明示的にモデル化することで，誤分類を減らす。
- 提案手法CAPTは，混同バンクを構築し，カテゴリー間の安定した混同関係をモデル化する。
- SEMとSAMを用いて，セマンティックおよびサンプルレベルの混同情報を効果的に捉え，多粒度差分エキスパートで統合する。
- 11のベンチマークデータセットで，混同によるエラーを大幅に削減し，識別性と汎化性能を向上させた。
Link: https://arxiv.org/abs/2603.02557
SOLAR：特異値分解による長寿命注意機構を用いた推薦システム [cs.IR, cs.CV, cs.LG]目的：推薦システムにおける系列モデリング
- Transformerの注意機構は表現力に優れるが，計算コストが高い。
- 系列長が長くなるほど注意機構の計算量が増大し，現実的な制約となる。
- 特異値分解を利用し，計算コストを削減しつつ，性能を維持すること。
- 提案手法SOLARは，特異値分解による注意機構により，計算量を削減。
- 大規模な行動系列や候補アイテムセットに対して，フィルタリングなしで適用可能。
- Kuaishouのオンライン推薦実験で，動画視聴回数が0.68%向上。
Link: https://arxiv.org/abs/2603.02561
EdgeFLow: エッジネットワークにおける逐次モデル移行によるサーバーレス連合学習 [cs.LG]目的：エッジネットワークにおけるサーバーレス連合学習フレームワーク
- IoT時代において，データ処理方法を再構築する連合学習の重要性が高まっている。
- 従来の連合学習システムは，クライアントとサーバー間のデータ交換による通信ボトルネックが存在する。
- エッジベース局間の逐次モデル移行により，クラウドベースの伝送をなくし，通信コストを削減することを目指す。
- EdgeFLowは，エッジクラスターでのみ集約と伝播を行うことで，グローバルな通信オーバーヘッドを大幅に削減する。
- 非凸目的関数と非IIDデータ分布下で，EdgeFLowの厳密な収束解析を行い，古典的な連合学習の収束理論を拡張した。
- 様々な設定での実験結果は，EdgeFLowが同等の精度向上を達成しつつ，通信コストを大幅に削減することを示している。
Link: https://arxiv.org/abs/2603.02562