arXiv雑要約

AI - 2026/05/07 公開

LLMは紛争モニタリングの準備ができているか？西アフリカからの実証的証拠 [cs.CL, cs.LG]目的：紛争イベント分類における大規模言語モデルの出力の系統的な歪みを評価すること
- 紛争モニタリングは，人道支援活動の責任性と効果を高める上で不可欠である。
- 大規模言語モデルは，潜在的なバイアスを含む歪んだ情報を生成する可能性がある。
- 既存モデルのバイアスを特定し，信頼性の高い紛争モニタリングへの応用可能性を検証する。
- 汎用モデルは，市民への暴力と合法的な戦闘の誤分類に有意なバイアスを示す。
- ドメイン適応モデルは方向性バイアスを軽減するが，アクターに基づく選択バイアスは残存する。
- 地理的な文脈に特有の語彙的フレーミングがモデルの出力に大きな影響を与えることが示された。
Link: https://arxiv.org/abs/2605.04177
MedFabricとEtHER：医療LLMにおける語単位の捏造生成と検出のためのデータ中心フレームワーク [cs.DC, cs.AR, cs.CL, cs.AI]目的：医療LLMにおける語単位の捏造生成と検出のためのデータ中心フレームワーク
- 専門知識を要する分野では，大規模言語モデルの幻覚がリスクとなる。特に医療分野では，事実誤認を含む流暢な文章の生成が問題となる。
- 既存の医療幻覚データセットは，捏造の網羅性，人間とLLMの文体差，幻覚サンプル合成時の分布シフトにより，捏造現象を捉えきれていない。
- 構文と文体の忠実性を保ちつつ，微妙な事実の逸脱を導入する現実的な語単位の捏造を生成し，事実整合性を高めることを目指す。
- MedFabricは，最先端の検出器と比較して，語単位の捏造ベンチマークで15%以上の性能向上を達成した。
- 構造的な類似性の維持と並行して，一貫した性能を維持している。
- 信頼性の高いドメイン固有の事実性検出のための包括的なフレームワークを提供する。
Link: https://arxiv.org/abs/2605.04180
動的デカップルド球面ラジアルスクワッシングに基づく制約強化強化学習 [cs.LG, cs.RO]目的：ロボットの物理的環境における制約付き強化学習手法
- 強化学習を現実世界のロボットに適用するには，アクチュエータの速度制限を考慮する必要がある。
- 既存手法は，関節ごとの制約の違いを幾何学的に扱うことができず，実行可能な領域を十分にカバーできていない。
- 関節ごとに適応的な半径を計算し，制約条件と学習効率を両立させることで，この問題を解決することを目指す。
- 提案手法（DD-SRad）は，ステップごとにハード制約を満たす確率がほぼ100％であり，訓練中の勾配を良好な状態に保つ。
- MuJoCoベンチマーク実験において，制約違反ゼロで最高のタスク報酬を達成し，球面ベースラインと比較して制約空間のカバー率を30～50％向上させた。
- Unitree H1およびG1ヒューマノイドロボットを用いた高精度なIsaacLabシミュレーションにより，ハードウェア仕様から安全な展開への系統的な経路が確認された。
Link: https://arxiv.org/abs/2605.04185
注意に基づいたニューシンボリック微分可能ルール抽出器ANDRE [cs.AI, cs.LG, cs.LO]目的：ノイズと確率的設定における解釈可能なファーストオーダー論理規則の学習
- データから解釈可能なルールを学習するILPは，知識発見や意思決定支援に不可欠である。
- 従来のILPは不確実性に対して脆弱であり，微分可能ILPはテンプレート依存や不正確な演算子に課題がある。
- 注意機構を用いた微分可能な論理演算子により，確率的データ上での正確かつ安定したルール抽出を実現する。
- ANDREは，連続的なルール空間上で注意に基づいた論理演算子を用いてファーストオーダー論理プログラムを学習する。
- ANDREは，従来のILPベンチマークや大規模知識ベースにおいて，競争力またはそれ以上の予測性能を発揮する。
- 特に，ANDREはラベルノイズに対してロバストであり，既存の微分可能ILP手法を上回るルール抽出品質と安定性を示す。
Link: https://arxiv.org/abs/2605.04193
多規模物理ダイナミクスモデル化のための深波ネットワーク [cs.CY, cs.CL, cs.LG, cs.AI, physics.comp-ph, physics.flu-dyn, physics.plasm-ph]目的：深波ネットワークを用いた多規模物理ダイナミクスのモデル化
- 物理科学分野では，高精度な現象シミュレーションが不可欠であり，深層学習はその有力な手法となり得る。
- U-Net型モデルの幅は調整される一方，深さは固定されがちであり，精度と計算コストのトレードオフの最適化が困難である。
- 深波ネットワークは，複数のエンコーダー・デコーダーを重ねることで深さを効果的に増やし，精度とコストのトレードオフを改善する。
- 深波ネットワークは，既存のU-Netモデルと比較して，同等のコストでより高い精度を達成，または同程度の精度でより低いコストを実現した。
- 複数の2D/3D流体ベンチマークにおいて，深波ネットワークはU-Netモデルよりも優れた精度-コストのパレートフロントを示した。
- 深波ネットワークは，同一の学習設定下で，最大3倍少ない学習時間で低エラー領域に到達することが確認された。
Link: https://arxiv.org/abs/2605.04198
多段階選択分類器による逐次戦略的分類 [cs.LG]目的：戦略的分類におけるエージェントの行動適応と，長期的な有用性を最大化するための分類器設計原則
- 個人の利害が判断に影響を及ぼす状況下での，公平な分類システムの重要性が増している。
- 従来の戦略的分類研究は，単一の分類器や反復的な相互作用に焦点を当て，現実の多段階的な意思決定プロセスに対応できていない。
- 本研究は，多段階かつ異なる分類器が連なる状況下でのエージェントの戦略的行動を分析し，誠実な努力を促す設計指針を提示する。
- エージェントは，改善行動と欺瞞行動を繰り返し，分類の難易度と報酬が段階的に変化する環境に適応する。
- 選択的分類器下におけるエージェントの最適な瞬時行動を完全に特徴付け，無改善戦略と無欺瞞戦略の長期的な特性を比較した。
- 分類器のシーケンス設計原則を検討し，長期的な有用性を高めることで，欺瞞行動を抑制し，誠実な努力を促進できることを示した。
Link: https://arxiv.org/abs/2605.04202
乾燥地における自律的緑化機会の気候ベース事前選別：サウジアラビアにおける事例研究 [cs.ET, cs.LG]目的：乾燥地における自律的緑化機会の事前選別
- 土地劣化と生物多様性の喪失への対策として大規模な復元が求められている。
- 水資源が乏しい地域では，長期的な灌漑に頼る復元努力の持続可能性が課題である。
- 費用対効果の高い現地調査を減らし，自律的に緑化可能な場所を特定すること。
- 機械学習モデルを用いて気候適合性スコアを算出し，サウジアラビア全土の予測マップを作成した。
- 植生指標と組み合わせることで，気候は良好だが植生が未発達な地域を特定した。
- 優先順位の高い13ヶ所を特定し，現状の健全な生態系と比較して2.5倍の植生被覆率増加が現実的な目標であることを示した。
Link: https://arxiv.org/abs/2605.04206
モデルパラメータに隠された検出不可能なバックドア：高次元空間におけるスパースな秘密 [cs.CL, cs.CR, cs.AI, cs.LG]目的：事前学習済み画像分類器への，検出不可能なバックドアの埋め込み
- 深層学習モデルのサプライチェーン攻撃に対するセキュリティ確保は重要である。近年，攻撃が巧妙化しているため。
- 既存のバックドア攻撃は，モデルのパラメータの変化や性能低下を通じて検知される可能性がある。
- 本研究は，モデルの機能に影響を与えず，パラメータの変化も検知困難なバックドアの埋め込みを目指す。
- 提案手法「Sparse Backdoor」は，事前学習済みモデルのパラメータに，証明可能な方法で検出不可能なバックドアを埋め込むことができる。
- バックドアは，全結合層の少数のカラムにスパースな摂動を加えることで実現され，ランダムな方向に信号を伝播させる。
- この摂動は，等方性ガウスノイズで隠蔽され，元の分類器との機能的な同等性が理論的に保証される。
Link: https://arxiv.org/abs/2605.04209
予測と拡散：拡散型LLMにおける計算予算に応じた適応的な応答長 [cs.AR, cs.LG, cs.AI]目的：拡散型LLMにおける計算予算に応じた応答長の予測と適用
- 拡散型LLMは生成AIの有望な分野であり，並列トークン生成による効率的な処理が可能である。
- 固定長の応答長が必要であり，長すぎると無駄な計算，短すぎると出力が途切れるという課題がある。
- 入力クエリごとに応答長を予測し，計算資源を効率的に利用する手法を提案する。
- 提案手法Predict-then-Diffuseは，デフォルトの拡散型LLM推論や既存手法と比較して計算コストを大幅に削減する。
- 応答長の予測器AdaRLPと，過小予測を防ぐための安全機構により，計算資源の無駄を抑制しつつ出力品質を維持する。
- 様々なデータセットでの実験により，データ分布の偏りに対してもロバストであることが示された。
Link: https://arxiv.org/abs/2605.04215
ジョルダン-RoPE：複素ジョルダンブロックによる非半単純相対位置エンコーディング [cs.LG, cs.CL]目的：複素ジョルダンブロックを用いた新しい相対位置エンコーディング手法
- Transformerモデルにおいて，位置情報を効率的に扱うことは性能向上の鍵となる。
- 既存の位置エンコーディングは，距離に応じた特徴量の表現に限界がある。
- 距離と位相が結合した特徴量を生成し，より表現力豊かな位置情報を捉える。
- ジョルダン-RoPEは，振動と多項式を組み合わせた特徴量を生成し，距離に応じた位相変調を可能にする。
- この手法は，理論的な枠組みに基づいて構築され，実数値ブロック形式で表現される。
- 小規模な言語モデル実験では，RoPEやRoPE+ALiBiと比較して改善が見られた。
Link: https://arxiv.org/abs/2605.04217
プライバシー保護を考慮した臨床情報抽出のための小規模言語モデルの自己プロンプティング [cs.CL, cs.AI]目的：歯科診療録からの臨床固有表現抽出
- 医療情報の活用は，患者ケアの質向上や医療研究の発展に不可欠である。
- 診療録は非構造化データが多く，専門用語が豊富で，個人情報保護の要件も厳しい。
- 小規模言語モデルによる自動プロンプト最適化で，効率的な臨床情報抽出を目指す。
- 自己生成，検証，改良，評価を行うプロンプト生成フレームワークを開発した。
- QLoRAとDPOを用いたモデル適応により，性能向上が確認された。
- Qwen2.5-14B-InstructとLlama-3.1-8B-Instructは高いF1スコアを示した。
Link: https://arxiv.org/abs/2605.04221
ARMATA：自己回帰型マルチエージェントタスク割当 [eess.SY, cs.RO, cs.SY, cs.MA, cs.AI, cs.RO]目的：マルチエージェントシステムのタスク割当と経路計画
- 広範囲な領域で複数のエージェントを連携させることは，効率的な作業遂行に不可欠である。
- 従来のタスク割当と経路計画は分離されており，互いの影響を考慮できていない場合がある。
- タスク割当と経路計画を同時に最適化することで，より効率的なシステム構築を目指す。
- 本研究では，タスク割当と経路計画を統合的に行う自己回帰型フレームワークを提案した。
- 提案手法は，Google OR-Tools等の既存ソルバーと比較して，最大20%の性能向上を達成した。
- 計算時間を数時間から数秒に短縮することにも成功した。
Link: https://arxiv.org/abs/2605.04225
Pro$^2$Assist：マルチモーダル一人称視覚を用いた長期的手順タスクに対する継続的ステップ認識型プロアクティブ支援 [cs.OS, cs.DC, cs.RO, cs.AI, cs.HC]目的：長期的手順タスクにおける継続的なステップ認識と，ユーザーの状態変化に応じた適切な支援
- 日常生活には複数の段階を経る手順タスクが多く，その支援は生活の質向上に不可欠である。
- 既存システムは，ユーザーの質問に応じた受動的なガイダンスや，短期的なイベントに限定された支援が中心である。
- 本研究は，長期的手順タスク全体を通して，よりタイムリーで適切な支援を実現することを目的とする。
- Pro$^2$Assistは，ARグラスから得られるマルチモーダルデータを利用し，動きに基づいた認識を可能にする。
- 手順理解の精度において，最先端のベースラインを21%以上上回り，プロアクティブなタイミング精度も最大2.29倍向上した。
- ユーザー調査では，90%の参加者がPro$^2$Assistを有用であると評価し，実用性が示された。
Link: https://arxiv.org/abs/2605.04227
マイクロ構造画像次元削減におけるオートエンコーダと主成分分析の能力：位相場シミュレーションの高速化への応用 [eess.SY, cs.DC, cs.SY, cs.LG, cond-mat.mtrl-sci]目的：マイクロ構造画像の低次元削減と時系列解析のためのデータ駆動型フレームワーク
- 材料設計や性能予測において，マイクロ構造の正確な把握が不可欠であるため，その解析手法の重要性が高まっている。
- 位相場シミュレーションは計算コストが高く，大規模なマイクロ構造解析には多大な計算資源が必要となるという課題がある。
- オートエンコーダと主成分分析を組み合わせることで，計算コストを抑えつつ高精度なマイクロ構造解析を実現することを目指す。
- オートエンコーダと主成分分析の組み合わせにより，高い精度（80%以上）を保ちつつ，マイクロ構造画像の次元を1/196に削減できることが示された。
- 潜在次元のデータを用いた解析への洞察が得られ，LSTMニューラルネットワークを用いた次フレーム予測が可能であることが示された。
- 本フレームワークは位相場シミュレーションの高速化を可能にし，計算資源の削減に貢献すると期待される。
Link: https://arxiv.org/abs/2605.04229
深層ネットワークの幾何学的特性を考慮した最適化のための層別LQR [cs.LG, cs.AI]目的：深層ネットワーク最適化における層別線形二次レギュレータ（LQR）の学習
- 深層学習の性能向上には，最適化手法の改善が不可欠である。幾何学的特性を考慮した手法は，その有望性から注目を集めている。
- 既存の幾何学的最適化手法は，計算量の制約から構造的な近似を行い，層間の相互作用を無視する傾向がある。
- 本研究では，層間相互作用を維持しつつ，効率的な第二階微分幾何学に基づく最適化手法を開発する。
- LLQRは，広範なクラスの発散誘導二次モデルにおける最急降下法と有限地平線LQR問題の間の厳密な等価性を示す。
- LLQRは，対角，(E-)クロネッカー因数分解，またはその他の構造化逆事前条件子を学習することにより，LQR目的関数を最小化するスケーラブルな緩和法を提供する。
- ResNetおよびTransformerを用いた実験により，LLQRは最適化のダイナミクスを改善し，最終的なテスト性能の向上につながることが示された。
Link: https://arxiv.org/abs/2605.04230
LLMアンサンブルにおける逐次的な証拠蓄積による適応的合意形成：自動予算特定と校正されたコミット信号 [cs.LG]目的：LLMアンサンブルにおける推論精度の向上と，その限界における精度低下の検出
- 大規模言語モデル(LLM)は推論能力の向上に貢献するが，アンサンブル構成における最適な合意形成手法は未確立である。
- 静的な予算配分では，LLMアンサンブルの精度向上の限界を検出し，適切なタイミングで停止することが難しい。
- 逐次的な証拠蓄積に基づき，最適なタイミングで合意形成を停止し，精度向上と効率化を実現すること。
- 提案手法DASEは，真の合意を早期に検出し，断片的な証拠に対してはグローバル頻度に基づくフォールバックを行うことで，ルーティングギャップを拡大した。
- DASEは，Verbalized Confidenceと相補的なルーティングの区分を提供し，決定の根拠となる推論記録を機械可読形式で記録する。
- 適応的な停止が精度向上に大きく寄与し，注入帯域幅よりもその効果が大きいことが示された。また，DASE-Spatialは自動的に最適な予算を特定した。
Link: https://arxiv.org/abs/2605.04236
道路リスクモニター：ライブ気象データと道路レベルタイルを用いた展開可能な米国道路事故予測システム [cs.LG]目的：米国全土における道路事故予測システムの構築
- 道路交通安全の向上は，社会基盤の安定と国民生活の質に不可欠である。
- 既存の事故予測システムは，データ連携や運用体制が確立されておらず，実用化が困難である。
- 本研究は，データ収集から予測配信までの一貫したシステムを構築し，事故リスクの可視化を目指す。
- Road Risk Monitorは，FARSデータとUS-Accidentsイベントを基盤とした予測パイプラインを構築した。
- リアルタイムAPI，ラスタータイル，JSONタイル，ウェブアプリケーションを通じて予測を提供可能である。
- 全米規模での道路安全スタックを確立し，事故予測サービスの実現可能性を示した。
Link: https://arxiv.org/abs/2605.04242
時間的推論はボトルネックではない：ニューロシンボリックQAのための確率的矛盾フレームワーク [cs.AI]目的：複雑な時間的推論タスクにおけるLLMの脆弱性克服
- LLMの性能向上は目覚ましいが，複雑な推論課題に弱点
- 時間的推論の失敗は，自律回帰型論理的推論の欠如に起因するとされる
- 構造化された表現が正しければ，高精度な時間的推論が可能となる
- 本研究では，時間的推論自体の問題ではなく，テキストからイベントへの表現が課題であると示唆
- 提案フレームワークは，確率的矛盾信号を用いて，知覚的エラーと推論エラーを明確に分離
- ベンチマークテストでは，正確な構造表現下で1.0の精度を達成し，ノイズ下でも75.1%の精度を維持
Link: https://arxiv.org/abs/2605.04243
ブラックボックス強化学習ポリシーを蒸留するための階層的サポートベクター空間分割 [cs.ET, quant-ph, cs.LG, cs.HC]目的：ブラックボックス強化学習ポリシーを模倣するための，人間が解釈可能なサブポリシーの集合
- 強化学習は，複雑なタスクの自動化において重要な役割を担う。
- 既存手法では，抽出されたポリシーの解釈性が低い場合が多い。
- より解釈可能で効率的な蒸留手法の開発が求められている。
- 提案手法（SVSP）は，従来の批評家駆動型空間分割手法（VSP）と比較して平均報酬が7.4\%向上した。
- また，SVSPはオリジナルTD3ポリシーよりも2.8\%報酬が向上し，VSPと比較して必要なサブポリシー数を82.1\%削減した。
- これにより，ブラックボックス挙動の範囲内で，決定境界と代替モデルを柔軟に選択できる蒸留の道が開かれる。
Link: https://arxiv.org/abs/2605.04254
phys-MCP：異種物理ニューラルネットワークのための制御プレーン [cs.DC, cs.ET, cs.NE]目的：異種物理ニューラルネットワークの制御
- エッジコンピューティングの重要性が増しており，特にセンシングや物理プロセスに近い極端なエッジでの計算が求められている。
- 物理ニューラルネットワークは基板ごとに異なるインターフェースや特性を持ち，既存のソフトウェアスタックとの統合が困難である。
- 異種物理ニューラルネットワークを統合的に制御し，エッジ環境での活用を促進することを目指す。
- phys-MCPは，物理ニューラルネットワーク基板を検出し，エッジ，フォグ，クラウドワークフローで利用可能なリソースとして公開する。
- 実験により，phys-MCPは異なる基板間での記述子の移植性，ランタイムに即したマッチング，および障害からの復旧が有効であることが示された。
- また，API経由での「ウェットウェア」への接続も成功しており，基板を意識した制御が実現可能であることが示唆された。
Link: https://arxiv.org/abs/2605.04256
HUGO-CS：ハイブリッドラベリング，不確実性認識型，汎用的なコールドスプレー観測データセット [cs.LG]目的：コールドスプレー実験に関する大規模データセットの構築と，それを用いたモデル構築の支援
- コールドスプレーは，固体状態での製造技術であり，部品の修理や製造において重要性が増している
- 既存の研究データは，報告形式が不統一で，データ利用が困難である
- 科学文献から実験データを効率的かつ正確に抽出し，大規模なデータセットを構築すること
- 本研究では，1,124のソースから4,383件のコールドスプレー実験データを抽出し，HUGO-CSデータセットを構築した
- HUGOと呼ばれるハイブリッドラベリングフレームワークを開発し，LLMと手動ラベリングを組み合わせることで，データ抽出の効率と精度を向上させた
- 構築したデータセットは，コールドスプレープロセス最適化のためのモデリングやベンチマークに利用可能である
Link: https://arxiv.org/abs/2605.04257
敵対的サンプルによるAI権威の偽装 [cs.CR, cs.LG]目的：画像認識モデルにおける権威の偽装のメカニズム
- 画像認識モデルは，事実検証やコンテンツモデレーション等，重要な判断に利用され，社会への影響が大きいため。
- 既存のモデルは，人間が知覚するわずかな変化で欺瞞されやすく，誤った判断を下す可能性があるため。
- 画像認識モデルに対する敵対的サンプルの影響を検証し，その脆弱性を明らかにすること。
- 敵対的サンプルを用いることで，画像認識モデルが誤った入力に対して確信を持って回答する「AI権威の偽装」が可能となった。
- 基本的な攻撃手法を用いても，GPT-5.4やGemini 3を含む主要な画像認識モデルに対して高い成功率（22-100%）で攻撃が成立した。
- この攻撃はモデルの整合性を損なうものではなく，視覚的な脆弱性が安全上の問題であることを示している。
Link: https://arxiv.org/abs/2605.04261
合成繊維ロープの残存寿命推定のための画像データセット [cs.CV, cs.LG]目的：合成繊維ロープの残存寿命推定のための画像データセット
- 洋上クレーンや風力タービン設置など，ロープの破断は重大事故や稼働停止に繋がるため，安全性が重要視される。
- データ駆動型状態監視の研究が進むも，合成繊維ロープの劣化過程全体を捉えた公開画像データセットが存在しない。
- 制御された疲労試験下でロープの劣化ライフサイクルを網羅する画像データセットを提供し，残存寿命推定を支援する。
- 11本のDyneema SK75/78ロープサンプルに対し，60kNから280kNの7段階の荷重で疲労試験を実施し，約34,700枚の高解像度画像を収集した。
- ロープは機械的破壊まで荷重され，疲労寿命は695サイクルから8,340サイクルまで変動した。ロープ表面の劣化を捉えるため，一定サイクル毎に複数箇所から画像を撮影した。
- 各画像にはサイクル数が注釈されており，残存寿命の直接計算が可能である。本データセットは，機械学習による状態監視や予知保全技術の開発に貢献する。
Link: https://arxiv.org/abs/2605.04262
推測生成のための並列接頭辞検証 [cs.AI]目的：大規模言語モデル推論の高速化
- 大規模言語モデルの利用拡大に伴い，推論速度の向上が重要課題となっている。
- 既存の推測デコーディング法はトークンレベルでの検証に依存し，速度向上に限界がある。
- セマンティックレベルでの並列接頭辞検証により，検証効率を向上させることを目指す。
- PARSEは，セマンティックレベルでの並列接頭辞検証を可能にし，逐次検証のオーバーヘッドを解消する。
- PARSEは，対象モデルのスループットを1.25倍から4.3倍に向上させ，EAGLE-3との組み合わせで更に1.6倍から4.5倍の改善を実現した。
- 精度劣化は無視できる程度であり，並列接頭辞検証がLLM推論を加速する有効な手法であることが示された。
Link: https://arxiv.org/abs/2605.04263
反復型RLHFにおけるアラインメント崩壊の説明と防止 [cs.MA, cs.LG, stat.ML]目的：反復型RLHFにおけるアラインメント崩壊のメカニズム解明と，その防止策の提案
- 人間からのフィードバックを用いた強化学習は，AIの価値観を人間と一致させる上で重要である。
- 反復的な学習過程において，報酬モデルがポリシーの影響を受け，報酬が歪む可能性がある。
- 報酬モデルの更新に対するポリシーの影響を考慮し，アラインメント崩壊を防ぐこと。
- 従来の反復型RLHFは，報酬モデルの盲点を悪用し，低品質な高報酬出力を生成するアラインメント崩壊を起こす。
- 提案手法であるFPOは，報酬モデルの更新に対するポリシーのパラメータ制御効果を復元することで，アラインメント崩壊を防ぐ。
- FPOは，制御された環境とLLMアラインメントパイプラインの両方で有効であることが示された。
Link: https://arxiv.org/abs/2605.04266
QUIVER：代償を考慮した適応的選好クエリによる代理モデル支援型多目的進化最適化 [cs.LG]目的：多目的進化最適化における，目的関数の評価と意思決定者の選好の推定にかかるコストの最適配分
- 多目的最適化は，トレードオフの関係にある複数の目的を同時に最適化するため，複雑な問題解決に不可欠である。
- 意思決定者の選好を効率的に推定し，パレート最適解の探索範囲を絞り込むことが課題となっている。
- 選好クエリの種類とコストを考慮し，意思決定品質の向上を最大化する手法を開発すること。
- 提案手法QUIVERは，目的関数の評価と異種な選好クエリの選択を適応的に行い，コストと意思決定品質のバランスを取る。
- DTLZおよびWFGベンチマークにおいて，QUIVERは最終的なユーティリティ後悔を最小化し，既存手法を上回る性能を示した。
- QUIVERは問題の難易度に応じて選好クエリの種類を調整し，コストを意識した選好学習を実現している。
Link: https://arxiv.org/abs/2605.04267
平均曲率を用いた境界検出：教師なし学習のための幾何学的考察 [cs.HC, cs.RO, cs.SY, eess.SY, cs.LG, cs.AI, stat.ML]目的：高次元データにおける境界検出手法
- 教師なし学習において，データの構造を捉えることは重要であり，特に高次元データでは困難である。
- 従来の密度ベースの手法では，非線形構造や不均一な密度を持つデータに対して十分な性能を発揮できない場合がある。
- データ多様体の内在的曲率を明示的にモデル化することで，高次元データにおける境界検出の精度向上を目指す。
- 本研究では，平均曲率境界点（MCBP）という新しい幾何学的枠組みを提案し，データ多様体の曲率を境界構造の記述子として活用する。
- MCBPは，局所k近傍点パッチから形状演算子を近似的に計算し，明示的な多様体パラメータ化なしに点ごとの平均曲率を算出する。
- 実験結果から，MCBPは複雑かつ高次元のデータにおいて，クラスタリング性能を向上させることが示された。
Link: https://arxiv.org/abs/2605.04274
多頭自己注意における勾配フロー構造と定量的動力学 [cs.CL, cs.LG]目的：多頭自己注意の動力学に関する理論的枠組み
- Transformerは自然言語処理の性能を飛躍的に向上させた。そのメカニズム解明は重要である。
- 多頭注意機構における幾何学的干渉が，単一ヘッドの注意とは異なる振る舞いを生み出す。
- 多頭自己注意の動力学における単調性の条件と，クラスター形成のメカニズムを解明する。
- 多頭自己注意において，適切な条件の下でエネルギー汎関数が非減少することを示した。
- ヘッドごとの単調性を妨げるラジアルシャドウ項を特定し，その条件を緩和する十分条件を提示した。
- 簡略化された設定下で，クラスター形成を支配する臨界逆温度を導出し，エントロピー増大則を確立した。
Link: https://arxiv.org/abs/2605.04279
リソース制約デバイス向けハードウェア認識ニューラル特徴抽出 [cs.LG]目的：リソース制約デバイスにおけるニューラル特徴抽出の最適化
- 空間認識システムの核となる技術であり，ロボティクスや拡張現実など幅広い応用が期待される。
- メモリ，帯域幅，量子化といったハードウェア制約から，高性能な学習特徴抽出器の組み込みが困難である。
- ハードウェア制約下でもロバストな特徴抽出を実現し，組み込みシステムへの応用を促進すること。
- Gideonは，SuperPointからの知識蒸留と制約付きニューラルアーキテクチャ探索により，ハードウェアを意識した特徴抽出器である。
- Batch NormalizationをAffine層に置換することで，INT8量子化時の安定性が向上することが示された。
- STM32N6上で，推論時間9.003ms（111fps），メモリ使用量1.5MB以下を達成し，量子化による性能劣化も軽微であった。
Link: https://arxiv.org/abs/2605.04282
フィードフォワードニューラルネットワークを用いたサハラ砂漠の気候確率的分類と不確実性定量化 [cs.LG, stat.AP, stat.CO]目的：サハラ砂漠の気候分類における確率的モデリング
- 気候分類は農業計画，水文研究，気候科学において重要な役割を担う。
- 従来のケッペン・トレワルサ分類は決定論的であり，気候分類の不確実性を考慮していない。
- 本研究は，気候帯の確率的モデリングにより，不確実性を含めたより詳細な気候分類を目指す。
- フィードフォワードニューラルネットワークを用いて，サハラ砂漠の気候を確率的に分類するフレームワークを提案した。
- 提案手法は，従来の決定論的分類法よりも，遷移気候帯をより詳細に理解することを可能にする。
- 変動解析により，サハラ地域の気候帯の時間的変化を明らかにし，砂漠化の動向に関する知見を得た。
Link: https://arxiv.org/abs/2605.04286
Glauber力学テキスト拡散のためのエネルギー関数としての事前学習済み言語モデルの活用 [eess.SY, cs.SY, eess.SY, cs.SY, eess.SP, cs.LG]目的：Glauber力学を用いた離散拡散に基づく言語モデルの構築
- 自然言語処理において，より高品質なテキスト生成技術の確立が重要視されている。
- 従来の拡散モデルは，離散状態空間における学習が困難であり，生成品質が低いという課題があった。
- 事前学習済み言語モデルを活用することで，拡散モデルの生成品質を向上させ，新たなテキスト生成アプローチを提案する。
- 事前学習済み言語モデルをエネルギー関数として用いることで，生成テキストの品質を大幅に向上させることに成功した。
- UL2を組み込んだ拡散パイプラインは，既存の拡散言語モデルを上回り，同程度のモデルサイズの自己回帰モデルと競合できる性能を示した。
- 常識推論や数独，ゼブラパズルといった計画・探索タスクにおいても，既存モデルと同等以上の性能を発揮した。
Link: https://arxiv.org/abs/2605.04291
適応的帰納的意味的エントロピーによるLLMの不確実性定量化 [cs.LG, cs.AI]目的：LLMの不確実性定量化手法
- LLMの安全性確保が重要視される中で，その過信傾向は重大な課題である。
- 既存手法は語彙や確率に偏りがちで，意味的に類似した応答の分散を無視する。
- 意味的特徴に基づいた分散測定により，信頼性の高い不確実性評価を実現する。
- 提案手法（ACSE）は，多様な応答をクラスタリングし，意味的エントロピーを適応的に調整する。
- 帰納的校正により，許容誤差内で応答の誤り率を抑制する保証を提供する。
- TriviaQAデータセットにおいて，AUROCは既存手法（0.65）を上回り0.88を達成した。
Link: https://arxiv.org/abs/2605.04295
SWAN：抽象意味表現を用いた意味ウォーターマーキング [cs.CL, cs.AI, cs.CR, cs.CY]目的：文の抽象意味表現（AMR）を用いた意味ウォーターマーク埋め込みフレームワーク
- 生成AIの普及に伴い，生成されたテキストの出所特定が重要となっている。
- 既存のウォーターマーキング手法は，言い換えに弱く，ロバスト性に課題がある。
- AMRにウォーターマークを埋め込むことで，言い換えに対するロバスト性を高める。
- SWANは，文のAMR表現にウォーターマークを埋め込むことで，意味を保持する言い換えにもウォーターマークが残る。
- RealNewsベンチマークでの実験により，SWANは既存手法と同等の性能を示しつつ，言い換えに対するロバスト性が大幅に向上した。
- SWANは，学習を必要とせず，プロンプトとオフザシェルフのAMRパーサーのみで実現可能である。
Link: https://arxiv.org/abs/2605.04305
記憶をマルコフ行列として：トークンから辞書へのマッピングによる効率的な知識拡張 [cs.HC, cs.LG, cs.AI]目的：大規模言語モデルにおける知識拡張の効率化
- 言語モデルの長期的な進化には，継続的な知識の獲得が不可欠である。
- 従来のパラメータ更新手法では，知識量の増加に伴う忘却が避けられない。
- 本研究は，少ないデータで効率的に知識を拡張し，忘却を抑制することを目指す。
- 本研究では，自己回帰型言語生成をトークンに対するマルコフ過程としてモデル化するフレームワークを提案する。
- このフレームワークでは，新しい知識の獲得は状態空間の拡張に対応し，既存の遷移を保持することで過去の知識の保持を保証する。
- トークンから辞書へのマッピング戦略を用いた際のサンプル複雑度を理論的に証明し，実験によって有効性を検証した。
Link: https://arxiv.org/abs/2605.04308
V1集団活動の解釈：画像とニューラル潜在表現のアラインメント [cs.NE]目的：V1における集団レベルの視覚計算の分析
- 視覚計算の神経メカニズム解明は，神経科学における中心的課題である。
- 既存のアラインメント手法は復号精度向上に貢献するも，その改善の神経計算基盤は不明である。
- 視覚情報処理の計算メカニズムを明らかにするための枠組みを提供する。
- DINAは，視覚刺激とV1集団応答を共有潜在空間にアラインメントする解釈可能なコントラスト学習フレームワークである。
- マウスV1からの大規模な二光子カルシウムイメージングデータを用いて，DINAは高い復号精度と解釈可能な特徴マップを実現した。
- 復号性能は，意味的カテゴリー情報や詳細な情報よりも，粗い低レベルの視覚構造によって主に支持されていることが示された。
Link: https://arxiv.org/abs/2605.04309
エージェントアイランド：マルチエージェントゲームによる飽和・汚染耐性のあるベンチマーク [cs.DC, cs.AI, cs.MA]目的：言語モデルエージェントの能力評価
- AIの能力向上には，客観的かつ信頼性の高い評価方法が不可欠である。
- 従来のベンチマークは飽和や汚染の問題を抱え，進捗状況の正確な把握が困難である。
- 飽和と汚染の影響を受けにくい，動的な評価環境を提供し，能力向上を継続的に追跡する。
- Agent Island環境において，openai/gpt-5.5が平均スキル5.64で他モデルを圧倒した。
- 2位のopenai/gpt-5.2（平均スキル3.10）および3位のopenai/gpt-5.3-codex（平均スキル2.86）と比較して，明らかな性能差が確認された。
- 最終投票において，同一プロバイダーのモデルを支持する傾向が8.3%ポイント高く，特にOpenAIモデルで顕著であった。
Link: https://arxiv.org/abs/2605.04312
NoisyCausal：構造化ノイズ下における因果推論を評価するためのベンチマーク [cs.CL, cs.AI]目的：構造化ノイズ下における因果推論能力の評価
- 自然言語処理において，因果関係の理解は，より高度な推論や意思決定を可能にするため重要である。
- 大規模言語モデルは，相関関係と因果関係の区別が難しく，特にノイズや曖昧な情報が存在する場合，性能が低下する。
- 本研究は，構造化されたノイズを含む状況下での因果推論能力を評価し，その改善を目指す。
- NoisyCausalという新しいベンチマークを提案し，制御可能なノイズを注入することで，因果推論における課題を明確化した。
- 大規模言語モデルと明示的な因果構造を組み合わせたモジュール化された推論フレームワークを開発し，より解釈可能でロバストな推論を可能にした。
- 提案手法は，NoisyCausalおよびCladderといった既存ベンチマークにおいて，既存手法を大きく上回る性能を示した。
Link: https://arxiv.org/abs/2605.04313
LUCAS-MEGA：土壌・環境システムにおける表現学習のための大規模マルチモーダルデータセット [cs.CY, cs.HC, cs.LG, cs.DB]目的：土壌・環境システムの表現学習のための大規模マルチモーダルデータセット
- 土壌理解は農業，炭素循環，環境持続可能性に不可欠であり，その重要性は高い。
- 既存のデータセットは断片的で異質であり，大規模な表現学習を妨げていた。
- 多様な土壌データを統合し，高次元な表現学習を可能とするデータセットを構築する。
- LUCAS-MEGAは，ヨーロッパの土壌・環境観測データを体系的に統合した7万件以上のサンプルと1000以上の特徴量を含む。
- SoilFuserは，異質なデータ形式を標準化し，不整合を解消するデータ融合パイプラインである。
- 自己教師あり学習により事前学習されたSoilFormerは，高い予測性能と不確実性を考慮した予測を可能にする表現を獲得した。
Link: https://arxiv.org/abs/2605.04323
分散型フェデレーションによるドメイン適応：DeFed-GMM-DaDiL [cs.LG]目的：分散環境における複数ソースドメインからの知識伝達
- データ活用において，多様なデータソースを統合的に利用することの重要性が高まっている。
- 中央集権的なデータ収集はプライバシー侵害のリスクを伴い，実現が困難な場合がある。
- 分散環境下でプライバシーを保護しつつ，ドメイン適応を実現する手法の開発。
- 本研究で提案するDeFed-GMM-DaDiLは，中央サーバーなしでドメイン適応を可能にする。
- 各クライアントはGMMを用いて自身のデータをモデル化し，ラベル付きWasserstein重心を用いて共同で表現を学習する。
- ターゲットドメインに欠損クラスが存在する場合でも，安定した表現を維持し，欠損クラスを再構築できることが示された。
Link: https://arxiv.org/abs/2605.04324
ニューラルネットワークのアーキテクチャ的複雑性について [cs.LG, cs.DM, math.CO]目的：深層ニューラルネットワークの厳密な分析と体系的な構築のための統一的な理論的枠組み
- 深層学習は目覚ましい成果を上げており，その理論的基盤の確立が重要である。
- 既存の研究では，Tensor演算の構造が十分に考慮されていなかった。
- アーキテクチャ的複雑性の進化を分析し，新たなアーキテクチャを自動的に構築すること。
- 過去40年間の深層ニューラルネットワークの進化において，画期的なアーキテクチャとアーキテクチャ的複雑性の増加との関連性が見られた。
- 未開拓の高複雑度アーキテクチャのクラスを複数特定し，その可能性を示唆した。
- 3,000以上の高複雑度アーキテクチャのデータセットを構築し，公開することで，今後の研究を促進する。
Link: https://arxiv.org/abs/2605.04325
Transformerにおける暗黙的演繹的推論のスケーリング特性 [cs.RO, cs.AI, cs.CC, cs.LO, cs.SC]目的：Transformerにおける暗黙的演繹的推論のスケーリング特性
- 大規模言語モデルの推論能力向上は，様々なタスクの性能向上に不可欠である。
- 暗黙的演繹的推論のスケーリング則は十分に解明されておらず，深層モデルにおける性能限界が不明である。
- 深層Transformerモデルにおける暗黙的演繹的推論能力の向上と，その限界を明らかにする。
- 十分な深さを持つTransformerモデルにおいて，暗黙的推論がChain-of-Thought (CoT) と同等の性能に近づくことが示された。
- 双方向のprefixマスクを用いることで，推論性能が向上し，問題の幅やグラフ構造に依存しない結果が得られた。
- 深さの範囲外の推論にはCoTが依然として必要であり，暗黙的推論の限界が確認された。
Link: https://arxiv.org/abs/2605.04330
ノイズ除去のための学習に基づく統計的改善 [cs.LG, cs.CV, eess.IV]目的：ノイズ除去結果の改善
- 画像処理において，ノイズ除去は高品質な画像取得や分析に不可欠な処理である。
- 既存手法は正確なノイズモデルやクリーンな画像が必要であり，現実的な状況下では性能が制限される。
- ノイズ分布の知識がない状況下で，ノイズ統計との整合性を高め，ノイズ除去品質を向上させる。
- 提案手法は，ノイズ分布の正確な情報なしに，ノイズ統計との整合性を評価し，ノイズ除去結果を改善する。
- 補助信号のベイズ推定に基づく手法により，ノイズデータから統計情報を活用し，ノイズ除去の質を向上させる。
- 実験結果から，提案手法がノイズ統計との整合性を高め，既存手法よりも優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2605.04332
MRCとSRv6を用いたレジリエントなAIスーパーコンピュータネットワーク [cs.NI, cs.AI, cs.DC]目的：大規模AI学習における高性能ネットワーク構築
- AIモデルの規模拡大に伴い，高性能かつ信頼性の高いネットワークが不可欠となっている。
- 大規模分散学習では，ネットワークのボトルネックや単一障害点となりうる課題が存在する。
- ネットワーク障害に強い，AI学習に特化した高性能なネットワーク基盤の実現を目指す。
- 新しいRDMAベースのトランスポートプロトコルMRCは，複数の経路に分散し，負荷分散を行うことで，フロー衝突の問題を解消する。
- マルチプレーンClosトポロジーとSRv6を用いることで，10万GPUを超える大規模学習クラスタの構築と冗長性の向上を実現する。
- OpenAIやMicrosoftの学習クラスタでの実運用により，MRCがネットワーク障害からの回復に有効であることが示された。
Link: https://arxiv.org/abs/2605.04333
予算型LoRA：効率的な推論のための構造化された計算資源配分としての蒸留 [cs.DL, cs.CY, cs.SI, eess.SY, cs.SY, cs.LG, cs.AI, cs.CL]目的：大規模言語モデルにおける計算資源制約下での蒸留
- 大規模言語モデルの推論コストは高額であり，効率化が求められている。
- 従来のパラメータ効率的な蒸留手法では，推論速度の向上は限定的である。
- 計算資源配分を最適化し，推論速度を向上させる蒸留フレームワークを提案する。
- 予算型LoRAは，標準的なLoRAと同程度の perplexity を実現しつつ，モジュール速度を1.74倍に向上させる。
- 積極的な予算設定では，perplexity のわずかな低下を伴いながら，4.05倍の速度向上を達成する。
- 関数形式の文脈学習プローブにおいても高い精度を維持し，振る舞いの保持が重要であることが示唆される。
Link: https://arxiv.org/abs/2605.04341
遅延型MARLにおける構造的同値性と学習力学 [cs.LG]目的：観測遅延と行動遅延の同値性
- マルチエージェント強化学習は，複雑な協調行動を実現する上で重要である。
- 部分観測環境下では，エージェント間の情報共有と協調が困難となる。
- 遅延を含む環境下での効率的な学習手法の開発が求められている。
- 観測遅延と行動遅延は，認可可能な共同ポリシー集合と状態・行動・観測軌道の分布において構造的に同値であることが示された。
- 遷移独立なMDPにおいては，観測行動履歴は最小限の局所拡張状態に還元される。
- 実験により，最適な解空間は同型であっても，学習力学は大きく異なることが示され，観測遅延から行動遅延へのゼロショットポリシー転移が成功した。
Link: https://arxiv.org/abs/2605.04345
スケーラブルなForward-Forward学習のための共分散を考慮した良さの指標 [cs.LG, cs.CV]目的：スケーラブルなForward-Forward学習における性能向上
- 深層学習モデルの学習には大量の計算資源が必要であり，効率化が求められている。
- 従来のForward-Forward学習法は，特に画像認識のような複雑なタスクでバックプロパゲーションに劣る。
- 特徴量の共分散情報を活用することで，Forward-Forward学習の性能を向上させる。
- Bi-axis Covariance Goodness (BiCovG)を導入し，特徴量間の共分散と空間相関を捉えることで，性能低下を抑制した。
- 提案手法により，Viable Forward-Forward学習の深さを浅いモデルから16層アーキテクチャ（VGG-16）に拡張することに成功した。
- ImageNet-100で73.01%，Tiny-ImageNetで50.30%という結果を得て，メモリ使用量を約50%削減した。
Link: https://arxiv.org/abs/2605.04346
言語モデルにおける代数的罠を用いた構造的数学的推論の探求 [cs.LG, math.GR]目的：言語モデルにおける構造的数学的推論能力の評価
- 近年，大規模言語モデルの能力向上は目覚ましいが，数学的推論能力の評価は十分ではない。
- 既存の評価指標では，言語モデルが真に数学的構造を理解しているか見極めが難しい。
- 代数的罠を利用し，モデルが内在する代数的知識を活用できるか検証する。
- 本研究で開発したベンチマークは，SL(3, Z)における部分群構成問題を利用し，言語モデルの構造的数学的推論能力を評価する。
- あるモデルは，インデックス計算において152分間の推論を行った結果，未解決問題であるメンバーシップ判定のボトルネックを特定し，「わからない」と回答した。
- この結果は，モデルが自身の知識の限界を認識し，適切な判断を下すメタ認知能力を持つ可能性を示唆する。
Link: https://arxiv.org/abs/2605.04352
オンライン自然言語フィードバックによる言語モデルの効率的なアライメント [cs.LG, cs.AI]目的：言語モデルのアライメント
- AIの幅広い応用には，曖昧で監督が難しい領域での高性能なモデルが必要となる。
- 専門家による質の高い監督は限られており，データ効率が課題である。
- オンラインの自然言語フィードバックを活用し，データ効率を向上させる。
- Qwen3-8Bにおいて，ICL法は専門家サンプルを50分の1に減らして最大35%の性能を回復した。
- Qwen3-8Bにおいて，ファインチューニング法は専門家サンプルを最大20分の1，3分の1に減らしてそれぞれ80%，100%の性能を回復した。
- Haiku 4.5においても同様に，ICL法とファインチューニング法によりデータ効率の向上が確認された。
Link: https://arxiv.org/abs/2605.04356
Coral：異種クラウドGPUによる効率的な複数LLM提供 [cs.DC, cs.AI, cs.CL, cs.LG]目的：複数LLMの同時提供における資源配分と提供戦略の最適化
- LLM利用の多様化が進み，単一モデルが優位な状況ではないため，資源効率が重要である。
- 高性能GPUは高価であり，入手が困難な場合がある。低価格なGPUの有効活用が課題である。
- 異種GPU資源を効率的に利用し，複数LLMの提供コスト削減と性能向上を目指す。
- Coralは，資源配分と提供戦略を共同最適化することで，既存システムと比較して最大2.79倍のコスト削減を実現した。
- 限られた資源下では，最大2.39倍の処理能力向上を達成した。
- 2段階分解による最適化手法により，オンラインでの求解時間を大幅に短縮した。
Link: https://arxiv.org/abs/2605.04357
中間表現は強力なAI生成画像検出器である [cs.CV, cs.LG]目的：AI生成画像の検出
- AI技術の急速な発展に伴い，生成画像の利用が拡大している。
- 生成画像の悪用が懸念され，効果的な検出手法が求められている。
- 既存手法の汎化性能と検出精度を向上させる。
- 提案手法は，GenImageおよびForensics Smallの2つのベンチマークにおいて，既存手法を上回る性能を示した。
- Forensics Smallベンチマークでは，最高の訓練不要手法と比較してAUROCスコアが39.61%向上した。
- また，最高の訓練型手法と比較してAUROCスコアが5.14%向上した。
Link: https://arxiv.org/abs/2605.04358