arXiv雑要約

AI - 2026/05/12 公開

  • MAGE:共進化知識グラフによるマルチエージェント自己進化 [cs.RO, cs.AI]目的:自己進化型言語モデルエージェントの学習戦略と知識保存メカニズム
    • 言語モデルエージェントの自律的な学習能力向上は,複雑なタスクの解決に不可欠である。
    • 既存手法では,知識の表現が不十分で,推論時の安定性に課題がある。
    • 知識グラフを活用し,推論バックボーンを固定した状態での安定的な進化を目指す。
    • MAGEは,自己知識を4つのサブグラフからなる共進化知識グラフとして外部化する。
    • タスクに応じた知識検索により,推論モデルへのガイダンスを提供し,性能向上を実現した。
    • 9つのベンチマークで,プロンプトベースのベースラインと比較して高い性能を示した。

    Link: https://arxiv.org/abs/2605.10064

  • NCO:デコーディングにおける否定制約を扱うための汎用プラグイン [cs.CL, cs.AI]目的:否定制約のデコーディング処理
    • 大規模言語モデルの安全性確保が重要視されており,有害なコンテンツ生成の抑制が求められている。
    • 複数制約や正規表現制約を同時に扱う場合,計算コストが増大し,生成品質が低下する課題がある。
    • オンラインパターンマッチングにより計算負荷を軽減し,状態爆発を防ぐことでこの課題を解決する。
    • 提案手法NCOは,既存の推論戦略と互換性を持ち,サンプリングやビームサーチ等の手法と組み合わせて利用可能である。
    • NCOは,ハード制約と正規表現制約の両方を効率的に処理し,確率的な抑制機能もサポートする。
    • 個人情報や侮辱表現の抑制といった実用的なタスクにおいて,NCOの有効性が実験的に示された。

    Link: https://arxiv.org/abs/2605.10065

  • Metis:自己進化型メタ認知ポリシー最適化によるLLMの脱獄学習 [cs.LG, cs.AI]目的:大規模言語モデル(LLM)の脆弱性発見
    • LLMの安全性確保は重要であり,その脆弱性評価は不可欠である。
    • 既存の自動脆弱性評価手法は,静的なヒューリスティックに依存し,高度な安全対策に脆弱である。
    • Metisは,LLMの防御ロジックを分析し,効率的に脱獄を試みる手法を開発する。
    • Metisは,敵対的な部分観測マルコフ決定過程(POMDP)内で,推論時のポリシー最適化を行うフレームワークである。
    • 10種類のLLMに対する評価において,Metisは平均攻撃成功率89.2%を達成し,特に堅牢なモデルでも高い有効性を示した。
    • Metisは,従来のベースライン手法と比較して,トークンコストを平均8.2倍削減することに成功した。

    Link: https://arxiv.org/abs/2605.10067

  • 大規模言語モデルのアクティブテスト:近似ネイマン配分による効率化 [cs.AI]目的:大規模言語モデルの評価における効率的なテスト手法
    • 言語モデルの性能向上には,継続的な評価が不可欠であり,その信頼性が重要である。
    • 評価コストがモデル規模やタスクの複雑さとともに増大し,リソースの制約となる。
    • 限られた評価リソースで高い精度を維持する,アクティブテストの効率化を目指す。
    • 提案手法は,生成タスクにおけるアクティブテストの精度向上に貢献する。
    • 近似ネイマン配分と意味的エントロピーを活用することで,既存手法を大幅に上回る性能を示す。
    • Uniform Samplingと比較して最大28%のMSE削減,平均22.9%の予算削減を実現した。

    Link: https://arxiv.org/abs/2605.10075

  • 航空交通量予測におけるミクロな航空機状態モデリングの解明 [eess.SY, cs.SY, cs.CL, cs.LG]目的:航空交通量予測の精度向上
    • 航空交通管理において,短期的な航空交通量予測は不可欠である。
    • 既存手法では,航空機個々の状態や相互作用が見過ごされ,集計された時系列データに依存している。
    • 本研究は,航空機状態から直接交通量を予測し,より詳細な予測を目指す。
    • AeroSenseは,リアルタイムの航空機状態から将来の交通量を予測する新しいフレームワークである。
    • AeroSenseは,従来の集計ベースの手法と比較して,予測精度が向上し,特に高密度な交通状況下でその効果が顕著である。
    • 航空機状態の瞬時的な状況が,従来の時系列ベースの予測に代わる有効な手段となる可能性を示唆している。

    Link: https://arxiv.org/abs/2605.10083

  • TopoU-Net:トポロジー領域のためのU-Netアーキテクチャ [cs.IR, cs.LG]目的:高次構造を持つデータのエンコーダー・デコーダー設計のための再利用可能なテンプレート
    • 現代のデータセットは多様な構造を含むため,それらを効率的に処理する手法が求められている。
    • 従来のニューラルアーキテクチャはデータを格子状,グラフ状,または系列に変換し,高次の構造を捉えきれない場合がある。
    • 本研究は,トポロジー的複合体を用いてU-Netアーキテクチャを拡張し,様々な高次データに適用可能にすることを目的とする。
    • TopoU-Netは,ノード分類,グラフ分類,ハイパーグラフノード分類,メッシュ分類,画像再構成など,多様なデータセットで有効性を示した。
    • 特に,異種グラフにおけるノード分類において,既存手法と比較して最も高い平均精度を達成した。
    • ボトルトネック圧縮の程度が激しい場合,スキップコネクションの削除が性能低下に最も大きな影響を与えることが示された。

    Link: https://arxiv.org/abs/2605.10091

  • 検索と誘導:生成型VLAのテスト時適応のためのオンライン成功メモリ [cs.AR, cs.RO, cs.AI]目的:生成型VLAのテスト時適応におけるオンライン成功メモリの活用
    • ロボットの汎用的な操作においてVLAモデルは有望だが,実環境での信頼性が課題となる。
    • 既存評価ではテストエピソードを独立した試行と扱うため,環境の特性を活かせない。
    • 過去の成功経験を再利用し,VLAの信頼性を向上させる方法を提案する。
    • 提案手法は,成功した観測-行動セグメントを長期メモリに保存し,関連する行動チャンクを検索する。
    • 検索された行動チャンクは,一貫性チェックを経て,行動生成の事前分布として活用される。
    • シミュレーションと実環境実験により,タスクの成功率と閉ループ安定性が向上することが示された。

    Link: https://arxiv.org/abs/2605.10094

  • HYPERPOSE:3D人体姿勢推定のための双曲運動学的位相空間アテンション [cs.NI, cs.SY, eess.SY, cs.IR, eess.SY, cs.SY, cs.CV, cs.AI]目的:3D人体姿勢推定のための新しいフレームワーク
    • 人体構造理解は,ロボット工学やVR/ARなどに応用され,重要性が増している。
    • 既存手法はユークリッド空間で処理するため,人体骨格の階層構造を歪曲しやすい。
    • 双曲空間を用いることで,骨格構造の歪みを抑制し,幾何学的な精度を向上させる。
    • HYPERPOSEは,双曲空間内で時空間推論を行うことで,人体構造の一貫性を大幅に改善した。
    • 骨長や速度の一貫性に関する物理的な制約を導入し,学習の安定化にも貢献している。
    • Human3.6MおよびMPI-INF-3DHPデータセットにおいて,最先端の精度を達成した。

    Link: https://arxiv.org/abs/2605.10100

  • ViSRA:マルチモーダル大規模言語モデルのためのビデオベース空間推論エージェント [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルの空間推論機構の探求
    • 近年,3D空間に関する知能を持つマルチモーダル大規模言語モデルが注目されている。
    • 既存研究は,構築されたベンチマークでの後学習に偏っており,推論時のアプローチは未解明である。
    • 本研究は,後学習コストをかけずに,モデルの空間推論能力を引き出すことを目指す。
    • ViSRAは,既存モデルに組み込むことで,一貫して性能向上を示すことが確認された。
    • 既存ベンチマークにおいて最大15.6%,未学習の空間推論タスクにおいて最大28.9%の改善が見られた。
    • ViSRAは,タスク固有の過学習を避け,汎用的な3D理解を可能にする。

    Link: https://arxiv.org/abs/2605.10106

  • Arcane:意味クラスタリングとMCTSによるアサーション削減フレームワーク [cs.AI, cs.AR]目的:アサーション数の削減
    • ハードウェア設計の検証において,仕様適合性を保証するアサーションベース検証は不可欠である。
    • 既存のアサーション自動生成手法は,冗長なアサーションを大量に生成し,シミュレーション効率を低下させる。
    • 冗長アサーションによるシミュレーションオーバーヘッドを軽減し,検証効率を向上させる。
    • Arcaneは,大規模なアサーション集合の正確な意味的分類のために二層のアサーションクラスタリング手法を統合している。
    • 効率的なアサーション削減のために,モンテカルロ木探索(MCTS)を用いて最適なルール適用順序を探索する。
    • Assertionbenchでの実験結果により,Arcaneはアサーション数を最大76.2%削減しつつ,形式カバレッジとミューテーション検出能力を維持することが示された。

    Link: https://arxiv.org/abs/2605.10107

  • GLiNER-Relex:固有表現認識と関係抽出の統一的フレームワーク [cs.CL, cs.LG]目的:固有表現認識と関係抽出の同時実行
    • 自然言語処理において,知識グラフ構築の基礎となる技術であり,情報抽出の効率化に貢献する。
    • 従来のモデルは固有表現認識と関係抽出を別タスクとして扱うため,処理が複雑になり,性能が制限される。
    • 単一モデルで両タスクを同時に処理することで,効率と性能の向上を目指す。
    • GLiNER-Relexは,共有の双方向Transformerエンコーダを用いてテキスト,固有表現タイプ,関係タイプを同時に表現する。
    • CoNLL04,DocRED,FewRel,CrossREの4つのベンチマークで競争力のある性能を示した。
    • 推論時に任意の固有表現と関係タイプを指定可能で,高い計算効率を維持している。

    Link: https://arxiv.org/abs/2605.10108

  • CFSPMNet:脳卒中患者におけるMI-EEG運動イメージデコーディングのためのフーリエガイド型空間パッチマンバネットワーク [cs.IR, cs.AR, cs.LG, cs.AI, cs.CV]目的:脳卒中患者のMI-EEGを用いた運動イメージデコーディングの精度向上
    • 脳卒中後のリハビリテーションにおいて,非侵襲的なMI-EEGデコーディングは重要な役割を果たす。
    • 患者ごとの神経再編成により,EEGダイナミクスが変化し,患者外での汎用性が課題となっている。
    • 患者固有のEEGの変化に対応し,未知の患者に対しても高いデコーディング精度を実現すること。
    • 提案手法CFSPMNetは,既存のCNN,Transformer,Mambaなどの手法と比較して,XW-Strokeデータセットで平均68.23%の正解率を達成した。
    • 2019-Strokeデータセットにおいても,平均73.33%の正解率を達成し,最も優れた既存手法を5.63〜8.25%上回った。
    • フーリエ変換を用いたトークン状態の再編成と,精度の高い擬似ラベル更新が,その性能向上に寄与していることが示唆された。

    Link: https://arxiv.org/abs/2605.10111

  • 潜在フローマッチングによる対称性材料の生成 [cs.CL, cs.LG, cond-mat.mtrl-sci]目的:対称性を持つ材料の生成
    • 材料開発において,目的とする機能を持つ新規材料の探索は重要である。
    • 既存の生成モデルでは,生成される材料の対称性が不十分な場合がある。
    • 結晶構造の対称性を考慮した材料生成法の確立を目指す。
    • 提案手法SymADiTは,Wyckoff位置に基づく材料表現と潜在空間での生成モデリングを用いる。
    • 生成モデルの出力に対称性制約を課すことで,より現実的な対称性を持つ材料を生成できる。
    • SymADiTは,既存モデルと比較して競争力のある性能を示し,安定で対称性のある材料を生成した。

    Link: https://arxiv.org/abs/2605.10115

  • 必要に応じて思考:幾何学駆動型適応知覚による自動運転 [cs.CV, cs.AI]目的:自動運転のための,幾何学的な複雑さに応じた知覚処理の適応的制御
    • 自動運転技術は,交通効率の向上や事故削減に不可欠であり,安全性確保が重要である。
    • 従来の3D検出モデルは,全てのフレームに固定の計算資源を割り当てており,非効率である。
    • 幾何学的複雑さに応じて処理経路を切り替えることで,計算資源の効率的な利用を目指す。
    • 提案手法Enhanced HOPEは,LiDARフレームの幾何学的複雑さを統計的に推定し,浅いか深い処理経路を選択する。
    • 既存手法の二次時間計算量を線形時間へと削減し,計算資源を節約することで,過去の物体情報を保持する。
    • nuScenesとCARLAのベンチマークにおいて,レイテンシを38%削減し,稀なケースで平均精度を2.7ポイント向上させた。

    Link: https://arxiv.org/abs/2605.10117

  • Balanced Adamのメモリのスケーリング [cs.RO, cs.LG]目的:Balanced Adamにおけるβ値の適切な設定
    • 最適化アルゴリズムは深層学習モデルの学習において不可欠であり,その性能は学習の成否を左右する。
    • Adam最適化アルゴリズムは広く利用されているが,β値の設定は経験的であり,理論的根拠に乏しい。
    • 本研究は,β値をメモリスケール変数として捉え,最適なβ値の決定方法を提案する。
    • Balanced Adamにおいて,β1とβ2を等しく設定することで,安定した性能が得られることが示された。
    • β値を,学習スケールに応じて調整することで,最悪ケースにおける性能のばらつきを33.4%削減できることが確認された。
    • β値をメモリスケール変数として捉えることで,Adamの挙動をより深く理解し,スケーリング戦略を立てる道が開かれる。

    Link: https://arxiv.org/abs/2605.10119

  • MicroWorld:マルチモーダル大規模言語モデルによる顕微鏡的ドメインギャップの解消とマルチモーダル属性グラフの活用 [cs.CV, cs.AI]目的:マルチモーダル属性グラフ
    • 科学的推論における大規模言語モデルの可能性。特に,専門領域への応用が期待される。
    • 顕微鏡検査などの専門分野では,ドメイン固有の学習データ不足が課題となる。
    • ドメイン知識の符号化の困難さを克服し,推論能力を向上させることを目指す。
    • MicroWorldは,大規模な画像-キャプションコーパスからマルチモーダル属性グラフを構築し,ドメイン固有のファインチューニングなしで,推論時にMLLMの推論を強化する。
    • MicroVQAベンチマークにおいて,Qwen3-VL-8B-Instructの推論性能を37.5%向上させ,GPT-5を13.0%上回る最先端の結果を達成した。
    • MicroBenchベンチマークにおいても6.0%の性能向上を示し,MicroWorldによって導入された汎化能力の強化が実証された。

    Link: https://arxiv.org/abs/2605.10120

  • P300ベース脳コンピュータインターフェースにおける再帰型ニューラルネットワークの説明可能性 [cs.LG, cs.AI, cs.HC]目的:P300を基盤とする脳コンピュータインターフェースの性能と透明性の向上
    • 健康,教育,支援技術など,P300ベースの脳コンピュータインターフェースは応用範囲が広い。
    • 深層学習モデルの解釈性の欠如や個人差が,実用化の障壁となっている。
    • モデルの意思決定プロセスを可視化し,脳波パターンとの整合性を検証すること。
    • 提案手法(PRM)は,最先端の技術と比較して9%の性能向上を示した。
    • 空間的・時間的な特徴を分析することで,P300に関わる重要な脳領域と時間間隔を特定した。
    • モデルの意思決定が,確立された神経生理学的なP300記述と一致することを確認した。

    Link: https://arxiv.org/abs/2605.10121

  • 効率的なニューラル経路ソルバーのための制約認識の再検討 [cs.AI, cs.LG]目的:ニューラル経路ソルバーにおける状態埋め込みの効率化のための制約認識の再考
    • 車両経路問題は物流効率化に不可欠であり,その最適化は経済的・環境的利益をもたらす。
    • 既存のニューラル経路ソルバーは,複雑な制約を持つ問題に対して性能が低下するという課題がある。
    • 本研究は,制約を考慮した状態埋め込みにより,ニューラル経路ソルバーの性能向上を目指す。
    • 本研究で提案する制約認識残差変調(CARM)モジュールは,既存のソルバーの性能を安定的に向上させる。
    • CARMモジュールを搭載したソルバーは,大規模インスタンスへのスケーリングと未知のVRPバリアントへの汎化において顕著な改善を示す。
    • これらの結果は,ニューラル経路ソルバーのアーキテクチャ設計に関する貴重な洞察を提供する。

    Link: https://arxiv.org/abs/2605.10122

  • 複素値位相コヒーレントTransformer [cs.LG]目的:複素値Transformerにおける位相情報を保持する注意機構の設計
    • Transformerは自然言語処理等の分野で広く利用されており,その性能向上は重要な課題である。
    • 従来の複素値Transformerは実数値アーキテクチャからsoftmax attentionを継承しており,位相情報を十分に活用できていない。
    • 位相情報を保持する注意機構を導入することで,Transformerの汎化性能の向上を目指す。
    • 提案手法であるPCTは,実数値の滑らかなゲートを用いて複素数クエリとキーの類似度を調整し,トークン間の競合を抑制する。
    • 様々なベンチマークにおいて,PCTは従来のTransformerや複素値Transformerを上回り,高い汎化性能を示すことが確認された。
    • 位相コヒーレントな構造を注意機構に導入することが,複素値Transformerの性能向上に有効であることが示唆された。

    Link: https://arxiv.org/abs/2605.10123

  • GELATO:生成エントロピーと Lyapunov 関数に基づく適応型トークンオフローディングによるデバイスエッジ推論のための投機的LLM [cs.NI, cs.DC, cs.IT, cs.LG, math.IT]目的:デバイスエッジ協調推論における,エネルギー制約下でのデコードスループット最大化
    • 近年,デバイス上での大規模言語モデル(LLM)推論が活発化し,デバイスエッジ協調推論への関心が高まっている。
    • リソース制約のあるエッジ環境において,推論に必要なリソースをトークンごとに効率的に割り当てることは課題である。
    • GELATOは,トークンごとのリソーススケジューリングを最適化し,エッジ環境に適応した推論を可能にする。
    • GELATOは,生成エントロピーとLyapunov関数に基づき,オンラインでドラフティング予算を決定し,長期的なエネルギー・スループットのトレードオフを管理する。
    • 実験結果から,GELATOは既存の分散SDアーキテクチャと比較して,トークンスループットを64.98%向上させ,エネルギー消費量を47.47%削減することが示された。
    • LLMのデコード品質を維持しつつ,リソース制約のある環境下で最適なトレードオフを実現する。

    Link: https://arxiv.org/abs/2605.10124

  • ['学術研究におけるAIツールの有用性とリスク:評価'] [cs.AI, cs.HC]目的:['学術研究用AIツール(Q&A,文献レビュー)の評価フレームワーク']
    • 研究活動の効率化にAI活用が期待される一方,その信頼性評価は不可欠である。
    • 既存の評価手法では,使いやすさや解釈可能性といった人間中心の視点が不足している。
    • 人間中心とコンピュータ中心の指標を組み合わせた評価フレームワークの提案と適用。
    • Q&Aツールは概要把握や要約に有用だが,正確な情報抽出には信頼性が低いことが示された。
    • 説明可能なAI(xAI)の精度が低く,根拠となる箇所と生成された回答が一致しない場合が多いことが判明した。
    • 文献レビューツールは探索的検索を支援するが,再現性,透明性,情報源の質に課題があり,体系的レビューには不向きである。

    Link: https://arxiv.org/abs/2605.10125

  • 物理情報ニューラルネットワークにおける勾配競合に対するパーロスアダプタ [cs.DB, cs.LG]目的:物理情報ニューラルネットワークにおける勾配競合の解決
    • 物理現象をデータ駆動的に予測するPINNは,科学技術計算の分野で注目されている。
    • 複数の損失関数を同時に最適化する際に,勾配が衝突し,学習が停滞する問題が存在する。
    • 損失関数ごとに異なる介入方法を適用することで,勾配競合を効果的に緩和することを目指す。
    • 勾配競合は一様ではなく,様々な様相を持つことが示された。
    • 損失関数ごとに低ランクアダプタを導入する診断ベースのフレームワークが提案された。
    • 60以上の偏微分方程式設定において,アダプタと重み付けの組み合わせが性能向上に寄与した。

    Link: https://arxiv.org/abs/2605.10136

  • 形式定理証明報酬モデルのベンチマーク:FormalRewardBench [cs.AI]目的:形式定理証明における報酬モデルの評価基準
    • 形式定理証明は数学の自動化に不可欠であり,信頼性の高い検証を可能とする。
    • 従来の強化学習では,部分的な進捗が評価されず,報酬の希薄性が課題となる。
    • 報酬モデルの比較評価が困難であり,効率的な評価基準が求められている。
    • 最先端のLLMが最も高い性能(59.8%)を示し,専門の定理証明モデルは最も低い性能(24.4%)を示した。
    • 定理証明能力は,証明評価には必ずしも移行しないことが示唆された。
    • 様々なエラー注入メカニズムの難易度に関する知見が得られた。

    Link: https://arxiv.org/abs/2605.10141

  • ビジョンモデルのスケールアップは,局所化に基づく説明品質を一貫して向上させない [cs.CV, cs.AI]目的:ポストホック説明の品質とモデルのスケールとの関係性
    • AIの信頼性向上には,予測精度だけでなく,その根拠の説明が不可欠であるため。
    • モデルの規模を拡大しても,説明の質が必ずしも向上するとは限らないという課題がある。
    • モデルのスケールアップが説明品質に与える影響を定量的に評価し,説明の質の指標を明確にすること。
    • ResNet,DenseNet,Vision Transformerモデル群を用いた実験により,モデルの複雑化やパラメータ数の増加が必ずしも説明品質向上につながらないことが示された。
    • 事前学習は予測性能を向上させるものの,局所化のスコアを一貫して向上させるわけではない。
    • 予測性能が高いモデルでも,局所化精度が低い場合があり,性能指標だけでは説明の信頼性を判断できない可能性が示唆された。

    Link: https://arxiv.org/abs/2605.10142

  • 悪意のある知識編集下における知識集約型推論の安全性リスクのベンチマーク [cs.NI, cs.AI, cs.CR]目的:知識集約型推論における悪意のある知識編集下の安全性リスクの評価
    • 大規模言語モデルの利用拡大に伴い,知識編集の安全性確保が重要になっている。
    • 既存のベンチマークは編集の有効性に偏っており,安全性への影響評価が不十分である。
    • 悪意のある知識編集が推論に及ぼす影響を体系的に評価する枠組みを提供する。
    • 悪意のある知識編集は,LLMの推論を容易に誤らせ,安全性リスクを引き起こすことが示された。
    • 編集規模,知識の特徴,推論の複雑さがリスクに影響を与える主要因であることが明らかになった。
    • EditRisk-Benchは,LLMにおける知識編集の安全性リスクを理解し軽減するための拡張可能なテストベッドである。

    Link: https://arxiv.org/abs/2605.10146

  • 確率的線形バンディット問題における疎化学習 [cs.LG, cs.SY, eess.SY, math.OC]目的:確率的線形バンディット問題における疎化戦略の学習
    • 高次元データへの対応が課題であり,効率的な意思決定手法が求められている。
    • 最適な疎な行動を見つけることがNP困難であり,計算コストが高い。
    • 疎な行動を選択しながら累積後悔を最小化するアルゴリズムを開発する。
    • 提案アルゴリズムは,行動集合がユークリッド球の場合,$\tilde{\mathcal{O}}(d\sqrt{T})$ の後悔を達成する。
    • 一般的な凸コンパクト集合では貪欲法を使用し,$\tilde{\mathcal{O}}(d \sqrt{T})$ $\alpha$-後悔を導出する。
    • 強凸性を持たないコンパクト集合では,$\tilde{\mathcal{O}}(d T^{2/3})$ $\alpha$-後悔を達成し,推薦システムへの応用も検証した。

    Link: https://arxiv.org/abs/2605.10151

  • APEX:分類タスクのための音声プロトタイプ説明 [eess.SY, cs.SY, cs.SD, cs.LG]目的:分類器の説明
    • 音声認識の精度向上は,人間と機械の円滑なコミュニケーションに不可欠である。
    • 既存手法は画像処理の技術を流用しており,音声特有の性質を考慮していない。
    • APEXは,音声信号の特性に基づいた,より解釈性の高い説明を生成することを目指す。
    • APEXは,事前学習済みの音声分類器に追加学習なしで適用可能である。
    • APEXは,時間,周波数,時間周波数領域のプロトタイプを用いて,多様な視点から説明を提供する。
    • 実験により,APEXが既存手法よりも直感的で明確な説明を生成することが示された。

    Link: https://arxiv.org/abs/2605.10153

  • 潜在構造スペクトル伝播子による安定した長期的PDE予測 [cs.LG]目的:時間依存偏微分方程式の長期的予測
    • 物理システムの持続的な発展を特徴付ける上で不可欠な技術であり,科学技術の進歩に貢献する。
    • 既存のニューラルオペレーターは誤差の蓄積や動的なドリフトを起こしやすく,長期予測の安定性に課題がある。
    • 伝播指向の潜在空間で構造化スペクトル伝播子を学習し,誤差蓄積を抑制して安定した長期予測を実現する。
    • 本研究では,物理状態を時間的に一貫した空間表現にマッピングし,再現性とロールアウトの規則性を分離する構造化スペクトル伝播子を提案した。
    • 周波数条件付き線形バックボーンと非線形スペクトルクロージャを用いることで,コヒーレントなモード進化に対する強い帰納的バイアスを伝播子に与えた。
    • 実験結果から,提案手法は最先端のベースラインを大幅に上回り,相対$L_2$誤差を最大48.9%削減し,教師ありホライズンを超えた時間的外挿においても安定性が向上することが示された。

    Link: https://arxiv.org/abs/2605.10154

  • 教師なしプロセス報酬モデル [cs.LG]目的:大規模言語モデルの推論を導くプロセス報酬モデルの教師なし学習
    • 複雑な推論タスクにおいて,言語モデルの性能向上は重要な課題である。
    • 従来のプロセス報酬モデルは専門家によるアノテーションが必要で,コストとスケーラビリティに課題がある。
    • 本研究は,人間の監督なしにプロセス報酬モデルを学習し,スケーラビリティを向上させることを目指す。
    • 提案手法であるuPRMは,ProcessBenchデータセットにおいて,誤ったステップの特定精度でLLM-as-a-Judgeを最大15%上回った。
    • テスト時スケーリングにおける検証器として,uPRMは教師ありPRMと同等の性能を示し,多数決ベースラインを最大6.9%上回った。
    • 強化学習における報酬信号としてuPRMを使用することで,教師ありPRMと比較してよりロバストな方策最適化が可能となった。

    Link: https://arxiv.org/abs/2605.10158

  • jNO:ニューラル演算子と基盤モデル学習のためのJAXライブラリ [cs.LG, cs.NA, math.NA, physics.comp-ph]目的:ニューラル演算子と基盤モデルの統一的な学習システム
    • 科学技術計算において,物理法則を組み込んだモデルの重要性が増している。
    • 既存のライブラリでは,データ駆動型と物理情報型学習の切り替えが困難であった。
    • データ駆動型と物理情報型の両方の学習を,シームレスに実行可能にすること。
    • jNOは,ドメイン,モデル呼び出し,残差などを単一の記号言語で記述し,最適化パイプラインにコンパイルする。
    • これにより,オペレーター回帰,メッシュ対応残差評価,PDE制約付き学習をコードの再構成なしに切り替えられる。
    • マルチモデル合成,パラメータレベルの制御,ハイパーパラメータチューニング,JAXネイティブワークフローもサポートしている。

    Link: https://arxiv.org/abs/2605.10159

  • OUIDecay:活性化パターンに基づくCNNの適応的階層別重み減衰 [cs.LG]目的:CNNにおける適応的な階層別および時間依存の重み減衰スケジュール
    • 深層学習の過学習抑制は,モデルの汎化性能向上に不可欠である。
    • 従来の重み減衰は固定係数で適用され,各層の特性を考慮していない。
    • 活性化パターンから過学習傾向を検出し,重み減衰を適応的に調整する。
    • OUIDecayは,活性化に基づく指標OUIを用いて各層の構造的挙動を監視する。
    • OUIに基づいて重み減衰を再調整し,固定減衰や勾配に基づく手法を凌駕する。
    • EfficientNet-B0等での実験により,最良の検証損失平均値が確認された。

    Link: https://arxiv.org/abs/2605.10161

  • 密な結合型記憶におけるハイパーパラメータの転移 [cs.LG, stat.ML]目的:密な結合型記憶のハイパーパラメータ転移手法の開発
    • AI技術の発展において,効率的な学習方法の確立は重要である。
    • 結合型記憶のハイパーパラメータ最適化は,モデルの性能に大きく影響する。
    • 大規模モデルにおけるハイパーパラメータ調整の負担を軽減すること。
    • 小規模モデルで調整されたハイパーパラメータが,大規模モデルへ効果的に転移することが示された。
    • 理論的考察と実験結果が良好に一致し,提案手法の有効性が確認された。
    • 密な結合型記憶という特殊なアーキテクチャへのハイパーパラメータ転移の基礎を確立した。

    Link: https://arxiv.org/abs/2605.10164

  • 標準化損失集約によるタスク非依存のノイズラベル検出 [cs.CV, cs.AI]目的:ノイズラベル検出の枠組み
    • 大規模医療画像データセットの品質確保は重要である。アノテーションコストが高い問題もある。
    • 専門家間や曖昧な症例により,ノイズラベルが混入しやすい。
    • 損失の統計的集約により,ノイズラベルを効率的に特定する。
    • 提案手法SLAは,交差検証における損失の標準化集約により,ラベルの信頼性を定量化する。
    • SLAは,既存手法よりも全てのノイズレベルで性能が向上し,特に低ノイズ環境下での収束が速い。
    • SLAスコアが高いサンプルは曖昧または誤ったラベルの可能性を示唆し,再アノテーションを促す。

    Link: https://arxiv.org/abs/2605.10165

  • 無限状態多項式到達可能性ゲームを解く自動化手法 [cs.RO, cs.CL, cs.IR, cs.AI, cs.GT]目的:無限状態多項式到達可能性ゲームにおけるREACH側の必勝戦略の存在判定と計算
    • 人工知能やリアクティブシンセシスなどへの応用があり,安全性検証や制御システムの設計に不可欠な分野である。
    • 状態数が無限であるため,従来のゲーム解法では計算量が膨大になり,現実的な時間で解くのが困難であった。
    • 多項式制約で定義される無限状態ゲームにおいて,必勝戦略を自動的に計算し,その正当性を形式的に証明することを目指す。
    • ランキング証明書という健全かつ完全な証明規則を提案し,REACH側の必勝戦略を証明する新たな方法を提示した。
    • 多項式到達可能性ゲームに対して,必勝戦略を計算する完全自動化アルゴリズムを開発し,計算時間を亜指数関数的に抑えた。
    • 古典的なシンデレラゲームにおいて,任意の精度パラメータに対する最適な必勝戦略を初めて計算することに成功した。

    Link: https://arxiv.org/abs/2605.10169

  • 深層強化学習による交通信号制御の効率性と公平性の両立 [cs.LG]目的:交通信号制御における効率性と公平性のバランス
    • 都市の交通渋滞は移動性と持続可能性に影響を及ぼす重要な課題である。
    • 従来の信号システムは動的な状況に対応できず,非効率が生じやすい。
    • 車両と歩行者の両方の交通に対する公平性を考慮した制御を目指す。
    • 提案手法は,リアルタイムの需要に応じて交通量を動的に調整し,渋滞を効果的に軽減する。
    • 車両のみに焦点を当てた従来のシステムとは異なり,公平なサービスを確保する。
    • 本研究は,スマートシティ構想に基づいたインテリジェントな交通管理への貢献を目指す。

    Link: https://arxiv.org/abs/2605.10170

  • 査読意見の不一致:科学論文査読における詳細な矛盾分析 [cs.CL, cs.AI]目的:科学論文査読における意見の矛盾の分析
    • 科学研究の質保証において,査読は不可欠なプロセスである。信頼性向上は重要課題。
    • 査読者間の意見の不一致の検出は困難であり,特に大量の投稿論文に対応するには課題が多い。
    • 論文全体の文脈を考慮した,より詳細な矛盾分析手法の開発が求められている。
    • 本研究では,査読意見全体の矛盾を詳細に分析する手法を提案し,矛盾の証拠箇所と強度を特定する。
    • 専門家による注釈付きベンチマークデータセットRevCIを構築し,モデルの性能評価に活用した。
    • 提案手法IMPACTは,既存手法を大幅に上回り,軽量モデルTIDEは高い性能を維持しつつ,推論コストを削減した。

    Link: https://arxiv.org/abs/2605.10171

  • プロンプトがペイロードとなる時:大規模言語モデル駆動型アプリケーションにおけるSQLインジェクション攻撃の緩和フレームワーク [cs.CR, cs.AI]目的:大規模言語モデルを用いたアプリケーションにおけるSQLインジェクション攻撃の緩和
    • 自然言語によるデータベース操作は利便性を高めるが,セキュリティリスクを伴う。
    • プロンプト経由でのSQLインジェクション攻撃が,新たな脆弱性として存在する。
    • プロンプトからSQLへの変換過程におけるSQLインジェクション攻撃を軽減する。
    • 提案フレームワークは,プロンプトのサニタイズ,異常検知モデル,シグネチャベース制御層の多層防御を実現する。
    • 多様な攻撃シナリオ下での評価により,高い検出精度と低い誤検知率を確認した。
    • 本アプローチは,大規模言語モデルを活用したデータベースアプリケーションの安全な展開に貢献する。

    Link: https://arxiv.org/abs/2605.10176

  • MTA-RL:マルチモーダルTransformerに基づく3Dアフォーダンスと強化学習によるロバストな都市部運転 [cs.CV, cs.AI, cs.RO]目的:都市部運転におけるロバスト性の実現
    • 自動運転技術は,交通渋滞の緩和や交通事故の削減に貢献し,社会に変革をもたらす可能性を秘めている。
    • 既存の自動運転システムは,複雑な都市環境下での認識と意思決定の信頼性に課題があり,安全性確保が困難である。
    • 知覚と制御を統合し,ロバストな都市部運転を実現するための新たなフレームワークの構築が求められている。
    • 提案手法MTA-RLは,マルチモーダルTransformerを用いた3Dアフォーダンスの予測と強化学習を組み合わせることで,既存手法を上回る性能を発揮する。
    • 特に,CARLA環境における実証実験では,未学習の街区においても高い汎化性能が確認された。
    • 経路完了率,総移動距離,違反距離あたりの移動距離において,顕著な改善が見られた。

    Link: https://arxiv.org/abs/2605.10177

  • 不規則な多変量時系列分類のためのワンステップグラフ構造ニューラルフロー [cs.LG, cs.AI]目的:不規則な多変量時系列の分類
    • 時系列データは,金融,医療,環境など幅広い分野で重要であり,高精度な分析が求められる。
    • 既存手法では,変数間の相互作用のモデリングが不十分であり,分類精度が制限される場合がある。
    • グラフ構造を導入し,変数間の相互作用を強化することで,分類性能の向上を目指す。
    • 提案手法であるGSNFは,自己教師あり学習戦略によって相互作用学習を強化し,分類性能を向上させる。
    • GSNFは,5つの実データセットにおいて,最先端の分類性能と競争力のある学習時間,メモリ使用量を示す。
    • GSNFは,ダイバージェンスの下限を理論的に導出し,グラフ構造学習の正則化を可能にしている。

    Link: https://arxiv.org/abs/2605.10179

  • 機械学習と深層学習の分布外検出における比較研究 [cs.CV, cs.AI]目的:分布外検出の性能比較
    • AIシステムの信頼性確保は重要であり,無効な入力に対する出力は信頼できないため。
    • 医療画像は標準化されたプロトコルで取得されるため,分布外検出タスクにおける画像変動が限られている。
    • 限られた視覚的複雑さの分布外検出において,軽量な機械学習手法で深層学習と同等の性能を目指す。
    • 機械学習と深層学習は,内部および外部検証データセットで同等の検出性能(AUROC 1.000,精度0.999〜1.000)を示した。
    • 機械学習は,同等の精度を維持しながら,深層学習よりも大幅に低いエンドツーエンドの遅延時間を示し,計算効率が高いことが示された。
    • 視覚的複雑さの限られた分布外検出では,軽量な機械学習アプローチが深層学習レベルの性能を発揮し,実用的な展開を支援する。

    Link: https://arxiv.org/abs/2605.10181

  • 損失を修正し,半径を修正しない:Sharpness-Aware Minimizationの敵対的摂動の再考 [cs.LG]目的:汎化性能の改善
    • 深層学習モデルの汎化性能向上は,過学習を防ぐ上で重要である。
    • 既存のSAMは,摂動半径を固定しており,学習の効率や効果に課題がある。
    • 損失空間での予算を固定することで,より効率的な学習を実現することを目指す。
    • 提案手法LE-SAMは,SAMおよびその変種を安定的に上回り,最先端の性能を達成した。
    • LE-SAMは,勾配ノルムに支配された学習信号を除去し,曲率に支配された項への最適化をシフトさせる。
    • 様々なベンチマークとタスクにおいて,LE-SAMの強力な汎化能力が実証された。

    Link: https://arxiv.org/abs/2605.10183

  • オランダの高解像度リモートセンシングデータのための基盤モデルの開発 [cs.CV, cs.AI]目的:オランダの高解像度衛星画像を利用した基盤モデル
    • リモートセンシング技術は,環境変化の監視や資源管理に不可欠であり,その重要性は増している。
    • 高解像度データの活用には,計算コストや学習データ量の問題があり,汎化性能の向上が課題である。
    • 限られたデータでも汎化性能の高いモデルを開発し,多様なリモートセンシングタスクに応用することを目指す。
    • 本モデルは,畳み込みニューラルネットワークとビジョンTransformerを組み合わせることで,多様な景観特徴を捉えることに成功した。
    • 時間的情報を活用することで,地形や土地被覆の変化といった時間依存性を学習し,曖昧性を低減し,汎化性能を向上させた。
    • オランダ国内のデータに限定しつつ,グローバルベンチマークにおいて,大規模モデルと比較して遜色ない性能を達成した。

    Link: https://arxiv.org/abs/2605.10184

  • DynGhost:量子検出器を用いた動的ゴーストイメージングのための時間モデル化トランスフォーマー [cs.CV, cs.AI]目的:動的ゴーストイメージングにおける画像再構成手法
    • ゴーストイメージングは,単一ピクセル検出器で空間情報を再構成する技術であり,多様な応用が期待される。
    • 従来の深層学習モデルは,時間的な相関を利用せず,ポアソンノイズを考慮していないため,動的シーンや低光量環境で性能が低下する。
    • 時間的相関を考慮したトランスフォーマーアーキテクチャを開発し,現実的な量子検出器の特性を反映した学習を行うことで,再構成性能を向上させる。
    • DynGhostは,空間的・時間的注意ブロックを交互に配置したトランスフォーマーアーキテクチャを採用している。
    • 物理的に正確な検出器シミュレーションとAnscombe変換に基づく学習フレームワークにより,現実的なハードウェア条件下での性能劣化を抑制している。
    • 複数のベンチマーク実験において,DynGhostは従来の再構成手法や既存の深層学習モデルを上回り,特に動的シーンや低光量環境で優れた性能を示した。

    Link: https://arxiv.org/abs/2605.10185

  • LegalCiteBench:法務言語モデルにおける引用の信頼性評価 [cs.CL, cs.AI]目的:法務言語モデルにおける引用回収,引用検証,事件照合の評価
    • 法務分野において,LLMの活用が進む中で,正確な引用は専門家としての責任を果たす上で不可欠である。
    • 既存の法務ベンチマークは,法令解釈や契約理解に偏っており,LLMが根拠なく引用を行う問題に直接対処できていない。
    • LLMが外部情報なしに引用を生成する際の誤りや捏造を検出し,その原因を明らかにすることを目的とする。
    • 21のLLMを評価した結果,外部情報なしでの正確な引用回収は依然として困難であり,最良のモデルでも引用回収・補完タスクで100点満点中7点以下であった。
    • モデルの規模や法務領域での事前学習は,この困難を解決する上で限定的な効果しか示さなかった。
    • 評価プロトコル下では,誤解を招く回答率が21モデル中20モデルで94%を超え,LLMが具体的な誤った引用を提示する頻度が高いことが示された。

    Link: https://arxiv.org/abs/2605.10186

  • ProteinOPD:タンパク質設計のための効果的かつ効率的な嗜好性整合に向けて [cs.LG, cs.AI]目的:タンパク質設計における嗜好性整合の効率化と効果向上
    • 合成生物学や創薬において,所望の機能や特性を持つタンパク質設計は重要な課題である。
    • 近年のタンパク質言語モデルは設計可能な配列を生成するが,嗜好性整合は知識の忘却を引き起こし,基本的な設計能力を低下させる。
    • 本研究は,複数目的間のトレードオフを考慮しつつ,言語モデルの設計能力を維持した嗜好性整合を目指す。
    • ProteinOPDは,複数の嗜好性目標をバランスさせながら,事前学習された言語モデルの設計能力を維持することに成功した。
    • 従来の強化学習ベースの手法と比較して,8倍の学習速度で目標嗜好性を達成した。
    • 本手法は,教師モデルの知識を効率的に生徒モデルに蒸留することで,多目的嗜好性整合における課題を克服した。

    Link: https://arxiv.org/abs/2605.10189

  • TRACE: トークン経路による自己教師あり方策アライメントによる重要部分の蒸留 [cs.AI, cs.LG]目的:方策が自身を指導する自己教師あり方策蒸留における効率的な知識伝達方法
    • 強化学習における報酬の検証可能性向上と,より効率的な学習プロセスの確立が重要である。
    • 既存手法では,全応答に対するKLダイバージェンスが冗長な位置に勾配を費やし,情報漏洩を引き起こす。
    • 重要な箇所のみに焦点を当てることで,効率的な知識伝達と性能劣化の抑制を目指す。
    • 提案手法TRACEは,重要な箇所にのみKLダイバージェンスを適用することで,教師信号を効果的に伝達する。
    • その結果,複数の数学ベンチマークテストにおいて,既存手法と比較して平均2.76%の性能向上を達成した。
    • さらに,外部アノテーターの能力に依存することなく,オンライン自己アノテーションにおいても性能向上が確認された。

    Link: https://arxiv.org/abs/2605.10194

  • 報酬障壁の打破:思弁的探索による思考の木構造推論の加速 [cs.LG]目的:思考の木構造(ToT)推論における効率化
    • 複雑な数学やプログラミング問題を解決する上で,大規模言語モデル(LLM)の推論能力向上は重要である。
    • ToT推論は報酬依存性の障壁により並列化が制限され,遅延が発生しやすいという課題があった。
    • 思弁的探索により報酬依存性の障壁を打破し,ToT推論の効率とスケーラビリティを高めることを目指す。
    • SPEXは,多様なToTアルゴリズムとLLMにおいて,推論速度を1.2〜3倍に向上させることを示した。
    • SPEXはトークンレベルの思弁的デコーディングと組み合わせることで,最大4.1倍の相乗効果による速度向上を実現した。
    • 各技術の貢献は,消去研究によって確認された。SPEXは,LLMの高パフォーマンスな推論時間スケーリングを可能にする重要な一歩となる。

    Link: https://arxiv.org/abs/2605.10195

  • 干し草の針: 摂動実験における活性ヒット探索 [cs.LG]目的:遺伝子摂動実験におけるヒット探索
    • 遺伝子摂動実験は生物学的メカニズム解明に不可欠であり,効率的な手法が求められている。
    • 実験予算の制約下で,多数の候補から効果の高い摂動を効率的に見つけるのが課題である。
    • 閾値を超える効果を持つ摂動を最大限に発見する手法を開発し,実験効率を向上させる。
    • 提案手法「ヒット確率」は,候補がヒットである確率に基づいてランク付けすることで,効率的な探索を実現する。
    • 理論的な漸近最適性が証明され,合成データおよび実際の免疫学データセットで優れた性能を示した。
    • Schmidt IL-2データセットにおいて,ベースラインと比較して最大6.4%の改善が見られた。

    Link: https://arxiv.org/abs/2605.10196

  • 拡散モデルにおける概念消去のためのクロスアテンションの疎性 [cs.LG, cs.AI]目的:拡散モデルからの特定概念の消去
    • 著作権や不適切なコンテンツ生成を防ぐため,画像生成モデルにおける概念制御は重要である。
    • 大規模モデル(例:Stable Diffusion XL)では,従来の概念消去手法の効果が低下する。
    • 大規模モデルにおいても効果的な概念消去を可能にし,メモリ効率を向上させる。
    • SPACEは,クロスアテンションパラメータに疎性を誘導する閉形式更新を繰り返し適用することで,概念消去の効率を向上させる。
    • 実験結果から,SPACEは既存手法と比較して消去効果と,敵対的プロンプトに対する頑健性が高いことが示された。
    • SPACEは80~90%のクロスアテンション疎性を達成し,修正済みパラメータの保存に必要なストレージを70%削減する。

    Link: https://arxiv.org/abs/2605.10198

  • 異種物体間の操作のための汎用的な操作手法:HeteroGenManip [cs.RO, cs.AI]目的:異種物体間の相互作用を伴う汎用的な操作
    • ロボットの応用範囲拡大には,多様な物体を扱う能力が不可欠である。
    • 既存手法では,物体固有の特徴を捉えきれず,複雑なタスクでエラーが蓄積しやすい。
    • 初期把持と複雑な操作実行を分離し,異種物体への適応性を高めることを目指す。
    • HeteroGenManipは,初期把持における位置的不確実性を大幅に低減する。
    • カテゴリー特化型ファウンデーションモデルを用いて,幾何学的情報と多様な部品特徴を統合する。
    • シミュレーションおよび実環境実験で,既存手法と比較して高い汎化性能と性能向上を示す。

    Link: https://arxiv.org/abs/2605.10201