arXiv雑要約

AI - 2026/05/05 公開

サイズ感受型独立性オラクルにおけるマトロイドアルゴリズム [cs.CL, cs.DS, cs.LG]目的：サイズ感受型独立性オラクルモデルにおけるマトロイドアルゴリズムの計算コスト
- マトロイド最適化は，組合せ最適化における重要な分野であり，多様な応用が存在する。
- 従来のオラクルモデルは，クエリサイズの非現実的な仮定に基づき，実用的なアルゴリズム設計を阻害する。
- サイズ感受型モデルを導入し，より現実的なコストモデルに基づいたアルゴリズム設計を目指す。
- サイズ感受型独立性オラクル下で，基底探索，ランク近似，分割サイズ近似の計算コストに関するタイトな上限と下限を確立した。
- 最適なクエリコストは，マトロイドのサイズに対して（対数因子を除き）2次であることが示された。
- 最大回路サイズが $c$ のマトロイドに対し，最大重み基底の計算コストが $\mathcal{O}(n^{2-1/c} \log n)$ となるアルゴリズムを提示した。
Link: https://arxiv.org/abs/2605.00201
状態ストリーム変換器 (SST) V2：潜在空間推論のための非線形再帰の並列学習 [cs.LG, cs.CL]目的：非線形再帰による潜在空間推論の効率的な学習
- Transformerモデルは自然言語処理の分野で重要な役割を果たしており，その性能向上は常に求められている。
- 従来のTransformerモデルは，中間層の潜在的な情報を十分に活用できていないという課題がある。
- 潜在空間における非線形再帰を通じて，Transformerの推論能力を向上させることを目指す。
- SST V2は，潜在状態を水平方向に伝達する機構により，連続的な潜在空間での効率的な推論を可能にする。
- 追加の計算資源を投入することで，抽象的な推論を深めることができ，より精度の高い結果を得られる。
- 27Bモデルに組み込むことで，既存モデルと比較してGPQA-DiamondおよびGSM8Kの精度が大幅に向上し，アーキテクチャの有効性が示された。
Link: https://arxiv.org/abs/2605.00206
モバイル本人確認におけるディープフェイクと注入攻撃対策としての自撮り動作の活用 [cs.DC, eess.SY, cs.SY, cs.CR, cs.ET, cs.LG]目的：モバイル本人確認システムに対するディープフェイクや注入攻撃に対する補助的な信号源としての自撮り動作の有効性
- モバイル本人確認のセキュリティ確保は，オンラインサービス利用における重要な課題である。
- 既存のカメラベースの認証システムは，巧妙な改ざんや偽装攻撃に対して脆弱である。
- 自撮り時の動作情報を活用することで，より堅牢な本人確認システムの構築を目指す。
- 自撮り時の加速度センサーデータは，偽装検出において高い識別能力を示すことが確認された。
- 特に，静止した攻撃プロキシは，加速度センサーデータのみで完全に検知可能であった。
- 同一デバイス内での本人確認において，複数のセンサーデータを組み合わせることで高い精度を達成した。
Link: https://arxiv.org/abs/2605.00218
CompleteRXN：オープンな化学反応データベースの完成に向けて [cs.LG, physics.chem-ph]目的：化学反応の補完
- 化学反応データの活用は，創薬や材料開発など幅広い分野で重要である。
- 既存の化学反応データベースは，副生成物や化学量論的係数の欠如といった不完全性が課題である。
- 現実的な欠損データ条件下での反応補完ベンチマークの構築と評価を目指す。
- CompleteRXNベンチマークにおいて，制約付き復号を用いたConstrained Reaction Balancer (CRB)が優れた性能を示した。
- CRBはランダム分割で99.20%，分布外分割で91.12%の等価精度を達成した。
- ベンチマーク外のUSPTOデータに対する評価では性能が低下し，実用的な頑健性の向上が課題であることが示唆された。
Link: https://arxiv.org/abs/2605.00222
TUR-DPO：トポロジーと不確実性を考慮した直接選好最適化 [cs.AI]目的：大規模言語モデルと人間の選好との整合性向上
- 大規模言語モデルの性能向上の鍵は，人間の価値観との整合性にある。
- 従来のDPOは，選好を単純な勝敗信号として扱うため，ノイズに弱く，推論過程の脆弱性に影響される。
- 推論のトポロジーと不確実性を考慮し，よりロバストな選好最適化を実現する。
- TUR-DPOは，数学的推論，質疑応答，要約，対話など，様々なタスクにおいてDPOよりも高い正答率を示した。
- 回答内容だけでなく，その導出過程を評価することで，より信頼性の高いモデルを構築できる。
- マルチモーダルや長文コンテキストのタスクにおいても一貫した性能向上が見られ，PPOと同等またはそれ以上の結果を達成した。
Link: https://arxiv.org/abs/2605.00224
LLMが戦略的プレイで苦戦する理由：観測，信念，行動の間の断絶 [cs.CL, cs.AI, cs.GT]目的：不完全情報下におけるLLMの戦略的意思決定における課題の特定
- 戦略的意思決定は，交渉や政策立案など，様々な分野で重要であり，高度な知能が求められる。
- LLMは戦略的タスクで成功する一方で，その失敗原因が明確に理解されていないという課題がある。
- LLMの意思決定プロセス内部のメカニズムを分析し，潜在的な脆弱性を明らかにすることを目的とする。
- LLMは内部的に保持する信念が，言語による報告よりも正確であるにもかかわらず，その信念は脆いことが示された。
- 多段階推論，先入観，記憶の偏り，ベイズ整合性の欠如などが，信念の精度低下を引き起こすことが明らかになった。
- 内部信念と行動の結びつきが，プロンプトに外部化された信念よりも弱く，必ずしも高いゲーム報酬に繋がらないことが示された。
Link: https://arxiv.org/abs/2605.00226
注意が向く先に攻撃が集中する [cs.CR, cs.AI]目的：大規模言語モデルの安全性確保メカニズムの解明
- 大規模言語モデルの安全性は重要であり，有害な要求への応答を抑制する必要がある。
- 安全性確保のメカニズムが不明瞭であり，攻撃による安全性の回避が可能である。
- 注意機構を操作することで，安全性確保メカニズムを回避する手法を開発する。
- Attention Redistribution Attack (ARA) により，わずかなトークン数と最適化ステップ数で安全性調整を回避できることが示された。
- 安全性の重要な注意ヘッドを特定し，注意を安全でない位置へ転換することで，攻撃成功率が向上する。
- 安全性は特定のヘッドに局在するのではなく，注意のルーティングから生じることが示唆された。
Link: https://arxiv.org/abs/2605.00236
線形時間におけるベイズ最適化 [cs.LG]目的：ベイズ最適化手法の改良
- 高コストな関数の最適化に広く用いられ，機械学習等の分野で重要性が増している。
- 計算量がデータ数に対して3乗で増加するため，大規模データでは適用が困難である。
- 探索空間の分割とベイズ最適化を組み合わせることで，計算量と最適化性能の課題を解決する。
- 提案手法は，標準的なベイズ最適化ライブラリと比較して，7つのテスト関数において最適化性能が向上した。
- 提案手法の計算量は線形であり，大規模データへの適用が可能となった。
- 柔軟な二分分割を用いて，モデリングと獲得関数を調和させ，標準的な欠点を改善した。
Link: https://arxiv.org/abs/2605.00237
MAEPose: mmWaveビデオにおける人間の姿勢推定のための自己教師あり時空間学習 [cs.CL, cs.HC, cs.CV, cs.AI]目的：mmWaveビデオにおける人間の姿勢推定のための自己教師あり時空間学習手法
- プライバシー保護の観点から，RGBカメラに代わる新しい姿勢推定技術の需要が高まっている。
- 既存手法は，中間表現に依存しており，レーダービデオの持つ時空間情報を十分に活用できていない。
- レーダービデオから直接，汎化性能の高い表現学習を行い，姿勢推定の精度向上を目指す。
- MAEPoseは，自己符号化を用いた手法により，ラベルなしのレーダービデオから時空間情報を学習する。
- 実験の結果，既存手法と比較してMPJPEで最大22.1%の性能向上を達成した（p<0.05）。
- また，外部者の干渉下においても高い精度を維持し，汎化性能の高さを示した。
Link: https://arxiv.org/abs/2605.00242
ARMOR 2025：軍事利用を想定した大規模言語モデルの安全性評価ベンチマーク [cs.AI]目的：大規模言語モデルの軍事利用における安全性評価
- 国防におけるAI活用は，意思決定の迅速化や効率化に不可欠である。
- 既存の安全性評価は，軍事倫理や国際法といった特殊なルールを考慮していない。
- 軍事ドクトリンに基づく評価基準を確立し，安全性を検証することを目的とする。
- ARMOR 2025は，国際法，交戦規定，倫理規定を基盤とする軍事利用に特化したベンチマークである。
- 大規模言語モデル21機種を評価した結果，軍事利用における安全性に重大な課題があることが示された。
- OODAループに基づいた分類体系により，軍事関連の意思決定タイプ別に系統的な評価を可能にする。
Link: https://arxiv.org/abs/2605.00245
集団的能動性の因果的基盤 [cs.NI, quant-ph, cs.AI, cs.GT, cs.MA]目的：集団的能動性の判定基準
- 高度なAIシステムの安全性確保は重要である。複数の単純なエージェントが意図せず集団エージェントを形成する可能性を考慮する必要がある。
- 生物学的・人工システムにおける相互作用やインセンティブにおいて，エージェント集団を統一された集団的能動性として捉えるための基礎的な問いに答えられていない。
- 集団の共同行動を合理的に予測できる場合に，集団に集団的能動性を認められるように，因果モデルを用いてこの問題を解決する。
- 因果ゲームと因果的抽象化を用いることで，集団的能動性を形式化し，多エージェントのインセンティブに関する問題を解決した。
- 異なる投票メカニズムにおける集団的能動性の程度を定量的に評価することが可能になった。
- このフレームワークは，多エージェントAIシステムにおける創発的な集団エージェントの理解，予測，制御のための基盤となることを目指す。
Link: https://arxiv.org/abs/2605.00248
状態空間の迷宮：凍結されたMamba表現の探求 [cs.CL, cs.LG]目的：凍結されたMambaモデルにおけるトークンレベルの出力の性能評価
- Transformerモデルの長所と短所を理解し，より効率的な系列モデルの必要性が高まっている。
- 既存の系列モデルは計算コストが高い，あるいは長系列データの処理に課題がある。
- Mambaモデルの潜在的な利点である，文の要約能力を検証し，その限界を明らかにする。
- 事前学習済みのMambaモデルから得られるパッチ境界の読み出しは，単純な平均プーリングよりも一貫して優れた性能を示さなかった。
- Mambaの最終的なSSM状態には，強い異方性および表現の崩壊という構造的な問題が認められた。
- 直交注入という，新しい情報を制約する修正された再帰構造を提案した。
Link: https://arxiv.org/abs/2605.00253
費用対効果の高いMoE LLM サービングのためのネットワークトポロジーの再検討 [cs.NI, cs.AI]目的：MoE LLM サービングにおけるネットワークの費用対効果分析
- 大規模言語モデル(LLM)の利用拡大に伴い，LLMサービングの計算資源需要が増大している。
- LLMサービングでは通信コストが大きく，高価なネットワークインフラへの投資が不可欠と考えられている。
- 従来のネットワークインフラ投資の必要性を検証し，より費用対効果の高い構成を探求する。
- 大規模なMoE LLMサービングにおいて，高価なスケールアップネットワークが必ずしも必要ではないことが示された。
- スイッチレスなトポロジー（スケールアウト，3Dトーラス，3Dフルメッシュ）は，スケールアップトポロジーよりも費用対効果が高いことが判明した。
- 特に3Dフルメッシュトポロジーは，性能とコストのバランスが最適であり，リンク帯域幅の削減も効果的である。
Link: https://arxiv.org/abs/2605.00254
リモートSAMシング：セグメント何でもからセグメント全てへ [cs.CV, cs.AI]目的：大規模リモートセンシング画像に対するセグメンテーションの精度とカバレッジの向上
- リモートセンシング技術は，地球観測や環境モニタリングに不可欠であり，高精度な画像解析が求められる。
- 既存のセグメンテーション手法では，大規模画像におけるカバレッジと精度を両立することが課題であった。
- 本研究は，セグメンテーション精度を維持しつつ，リモートセンシング画像のセグメンテーションカバレッジを大幅に向上させることを目指す。
- 提案手法「Remote SAMsing」は，SAM2の性能を最大限に引き出し，タイル分割による断片化問題を解決することで，高いカバレッジを実現した。
- 7つのシーンにおける評価により，カバレッジが30～68%から91～98%へと大幅に向上し，建物や車両の検出精度も向上することが示された。
- タイルサイズの調整がスケールパラメータとして機能し，SAM2のマルチスケール機構を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.00256
会計士試験における検索拡張推論 [cs.CL, cs.AI, cs.IR]目的：会計士試験におけるLLMの推論能力向上
- 金融分野でのAI活用が拡大する中で，専門知識と法的規制が不可欠である。
- LLMは複雑な計算や専門知識を要する会計士試験において，信頼性に課題がある。
- リソースが限られた環境でも高性能な推論を可能とする効率的なフレームワークを開発する。
- CA-ThinkFlowは，14BパラメータのモデルとDoclingを用いた検索拡張生成フレームワークである。
- CA-Benベンチマークにおいて，GPT-4oやClaude 3.5 Sonnetの約68.75%の性能を達成した。
- 高い効率性とパラメータ処理能力を持つが，複雑な税法などの規制文書の処理には限界がある。
Link: https://arxiv.org/abs/2605.00257
制約付き非線形最適化のための学習手法：NLPOpt-Net [cs.LG]目的：非線形計画問題のパラメータ的解写像の学習
- 最適化問題は，工学，経済学，データサイエンスなど，幅広い分野で不可欠である。
- 従来の最適化手法は，問題の規模が大きい場合や，複雑な制約条件がある場合に，計算コストが高くなることがある。
- 機械学習を用いて，効率的かつ高精度な最適化手法を開発し，大規模問題への対応を目指す。
- NLPOpt-Netは，制約条件を満たしつつ，最適解に近づくパラメータ的解写像を学習する。
- 大規模な凸QP，QCQP，NLP，非凸問題に対し，最適性ギャップをほぼゼロに，制約違反を機械精度まで低減した。
- 投影部分をC言語でコンパイルすることで，推論時間を大幅に改善し，GPUサポートを含むパッケージとして提供する。
Link: https://arxiv.org/abs/2605.00260
KL正則化による一般和ゲームにおける悲観主義からの解放されたオフライン学習 [cs.RO, cs.LG, cs.GT]目的：一般和ゲームにおけるオフラインマルチエージェント強化学習の安定化と均衡回復
- 強化学習は，複雑な環境下での意思決定に有効だが，データ収集コストが高い。
- オフライン強化学習では，ログデータと目標均衡ポリシーの間の分布のずれが課題となる。
- KL正則化のみで学習を安定させ，均衡回復を達成することで，悲観主義的なペナルティを不要にする。
- 提案手法GANEは，統計的に高速なレート$\widetilde{O}(1/n)$で正則化されたナッシュ均衡を回復する。
- 計算効率を高めるため，GAMDを開発し，標準レート$\widetilde{O}(1/\sqrt{n}+1/T)$で粗い相関均衡に収束する。
- KL正則化が，マルチプレイヤー一般和ゲームにおける悲観主義を排除したオフライン学習の有効なメカニズムであることを示す。
Link: https://arxiv.org/abs/2605.00264
Polaris：階層的概念学習のための結合軌道極性埋め込み [cs.LG]目的：階層的知識表現の学習
- 現実世界の知識は階層構造を持つことが多く，その学習は重要である。
- 階層構造の非対称性やノイズの影響により，効果的な学習が困難である。
- 角度と半径を用いて意味と構造を分離し，学習を円滑に進めることを目指す。
- Polarisは，球面上での埋め込み表現学習により，意味と構造の干渉を回避する。
- 様々な階層構造の拡張タスクにおいて，既存手法を大幅に上回る性能を示した。
- 特に，上位K個の検索精度が最大で約19ポイント向上し，平均順位は最大で約60%削減された。
Link: https://arxiv.org/abs/2605.00265
脱獄された最先端モデルは能力を維持する [cs.LG, cs.AI, cs.CR]目的：最先端言語モデルに対する脱獄攻撃の能力への影響
- 言語モデルの安全性確保は重要だが，攻撃者の巧妙化に伴い，より高度な脱獄手法が開発されている。
- 従来の調査では，脱獄の複雑化はモデルの性能低下を招く「脱獄税」をもたらすと示唆されている。
- 本研究は，モデルの能力と脱獄税の関係を明らかにし，最先端モデルにおける脱獄の影響を評価する。
- 脱獄税はモデルの能力に反比例して変化し，最先端の脱獄手法では能力低下がほとんど見られないことが判明した。
- Claudeモデル（Haiku 4.5～Opus 4.6）における評価で，Haiku 4.5は脱獄により平均33.1%の性能低下が見られたのに対し，Opus 4.6は7.7%に留まった。
- 推論を必要とするタスクは，知識の想起タスクよりも性能低下が顕著であり，境界点脱獄は高い回避率と低い能力低下を両立した。
Link: https://arxiv.org/abs/2605.00267
言語モデルにおける分布外入力の処理：二経路フレームワーク [cs.CL, cs.LG]目的：分布外入力に対する言語モデルの処理メカニズムの解明
- 大規模言語モデルの信頼性確保は，実用化における重要な課題である。
- 既存の分布外検出手法は，入力シーケンス長に依存した誤検出が多い。
- 入力内容と処理過程を分離し，より正確な分布外検出を目指す。
- 言語モデルは，埋め込み表現と隠れ状態の変化という二つの経路で分布外入力を処理する。
- 語彙の差異に着目した手法は分布外検出に有効だが，潜在的な意図を捉えるには処理過程の分析が重要である。
- 層ごとの分析により，初期層の信号がシーケンス長に強く依存することが示された。
Link: https://arxiv.org/abs/2605.00269
君は穴馬鹿なのか？公正で多角的な倫理的推論フレームワーク [cs.CL, cs.AI, cs.CY, cs.HC]目的：倫理的推論の集約方法
- 対立する意見が存在する分野において，人間の判断を集約する際に論理的な整合性が重要である。
- 多数決のような既存の方法では，意見の相違をノイズとして扱い，論理的な矛盾が生じやすい。
- 対立する証言の一貫性を最大化する論理的な集約手法を開発し，より正確な倫理的判断を目指す。
- 本研究で提案するニューロシンボリック集約フレームワークは，重み付き最大充足可能性(MaxSAT)を用いて対立の解決を形式化する。
- Redditのr/AmItheAssholeフォーラムを用いた実験で，本システムは人気に基づくラベルとは62%の確率で異なる，論理的に一貫性のある結果を生成した。
- 生成された結果は独立した人間の評価者と86%の合意率を示し，ニューラル意味抽出と形式ソルバーの組み合わせの有効性が示された。
Link: https://arxiv.org/abs/2605.00270
REALM：RGBとイベントを整列させた潜在多様体によるクロスモーダル知覚 [cs.CV, cs.AI, cs.RO]目的：RGBとイベントデータの潜在空間の整列
- 多様なセンサーからの情報統合は，ロボットや自律システムの知覚能力向上に不可欠である。
- イベントカメラ処理は特定のタスクに限定され，汎用性に欠ける点が課題である。
- RGBモデルの知識を活用し，イベントデータに対する汎用的な処理を可能にすること。
- REALMはイベント表現をRGBモデルの潜在空間に投影することで，クロスモーダルな学習を実現した。
- 学習済みのRGBモデルの知識を活用し，イベントデータに対するタスクを効率的に実行できる。
- WIDE-BASELINE特徴量マッチングにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.00271
拡散モデルはいつ複数のオブジェクトを生成するようになるか [cs.CV, cs.AI]目的：複数オブジェクト生成における拡散モデルの学習メカニズムの解明
- 画像生成AIの発展に伴い，複雑なシーンの再現が求められている。
- 拡散モデルは高画質だが，複数オブジェクトの生成は不安定である。
- データセットの特性と学習における難易度を特定し，改善策を提示する。
- 拡散モデルの複数オブジェクト生成の失敗は，概念の不均衡よりもシーンの複雑さが主な原因である。
- 特に，少数データ環境下でのオブジェクトの数え学習が困難であることが示された。
- 概念の組み合わせを訓練データから除外するほど，合成的な一般化性能は低下する。
Link: https://arxiv.org/abs/2605.00273
旅行計画最適化のためのエージェントAI [cs.HC, cs.AI]目的：旅行計画最適化
- 自動運転車の普及に伴い，効率的な旅行計画の重要性が増している。
- 既存システムは実現可能性に重点を置いており，最適化性能の客観的評価が困難である。
- 最適解を提供するデータセットと，最適化能力を評価するフレームワークを提案する。
- 提案システムはTOPベンチマークで77.4%の精度を達成し，既存手法を大幅に上回った。
- オーケストレーションされたエージェント推論が，頑健な旅行計画最適化に不可欠であることが示された。
- 交通，充電，興味地点に関する専門エージェントを協調させることで，動的な計画改善を実現した。
Link: https://arxiv.org/abs/2605.00276
インテリジェント交通システムにおける侵入検知のための機械学習モデルの比較分析 [cs.CR, cs.LG]目的：インテリジェント交通システムにおける侵入検知のための機械学習モデル比較
- 交通システムは接続性が増し，サイバー攻撃への脆弱性が高まっているため，セキュリティ強化が不可欠である。
- エッジコンピューティング環境は分散化・多様化しており，リソース制約があるため，セキュリティ対策が困難である。
- エッジ環境における侵入検知能力を向上させ，リアルタイム性と効率性を高めることを目指す。
- 提案手法では，ランダムフォレスト，決定木，線形SVMを組み合わせ，エッジサイトごとに異なる交通表現を学習する。
- サーバー側では，信頼度を考慮したモデル更新の集約を行い，全体的な検知精度を向上させる。
- 本研究は，エッジコンピューティングを活用することで，低遅延かつ効率的な侵入検知システムを実現可能であることを示唆する。
Link: https://arxiv.org/abs/2605.00279
分散型確率的最適化における勾配追跡を用いた高確率収束 [cs.HC, cs.LG, cs.MA, math.OC]目的：分散型確率的最適化における高確率収束の保証
- 機械学習の発展に伴い，大規模データセットに対する分散学習の重要性が高まっている。
- 既存の高確率収束解析は，データ異質性や強凸性など強い仮定を必要とする場合が多い。
- 勾配追跡技術を組み込んだ分散型確率的勾配降下法に対し，高確率収束性を保証することで，より緩い仮定下での学習を可能とする。
- 提案手法GT-DSGDは，非凸関数およびポリアク-ロヤシェヴィッツ関数の両方に対し，最適な高確率収束率を達成する。
- GT-DSGDは，平均二乗誤差収束で成立する条件と同様の条件下で高確率収束し，同様の過渡時間を実現する。
- 実データおよび合成データを用いた数値実験により，GT-DSGDの優れた性能が検証された。
Link: https://arxiv.org/abs/2605.00281
ディラック-フレンケル-オンサーガー原理：ゲージ運動量を用いた非線形PDE解の瞬間残留最小化 [cs.LG, cs.NA, math.NA, stat.ML]目的：非線形偏微分方程式解のパラメータ化における瞬間残留最小化
- 偏微分方程式の解法は科学技術の根幹であり，その精度向上が不可欠である。
- パラメータ化手法は計算コスト削減に有効だが，条件数が悪化し，解が一意に定まらない場合がある。
- ゲージ自由度を利用し，安定したパラメータ更新を促すことで，信頼性の高い解を得ることを目指す。
- 提案手法は，従来の正則化とは異なり，瞬間残留最小化を維持しながら，時間的に滑らかなパラメータ進化を実現する。
- ゲージ運動量を取り入れることで，特異な状況やそれに近い状況下でのロバスト性を向上させる。
- この手法は，パラメータダイナミクスの非一意性という問題を，ゲージ自由度として解釈し活用する。
Link: https://arxiv.org/abs/2605.00284
Caracal：スペクトル混合による因果構造 [cs.LG, cs.AI]目的：長系列に対する大規模言語モデルのスケーラビリティ向上
- 大規模言語モデルの性能向上には，より長い系列のデータを扱えることが重要である。
- 従来の注意機構は計算コストが高く，位置エンコーディングにも限界がある。
- 効率的な長系列モデリングを可能にする，新しいアーキテクチャの提案。
- Caracalは，注意機構の代わりにパラメータ効率の良い多頭フーリエ(MHF)モジュールを使用する。
- 周波数領域での因果マスクにより，自己回帰能力を実現し，フーリエベースの生成モデルの課題を克服する。
- 標準ライブラリを使用することで，移植性と展開の容易性を確保し，TransformerやSSMと同等の性能を示す。
Link: https://arxiv.org/abs/2605.00292
Trident: LLMと行動特徴を用いたマルウェア検知の改善 [cs.CR, cs.LG]目的：マルウェア検知のための手法
- マルウェアは情報セキュリティにおける深刻な脅威であり，その検知技術の向上は不可欠である。
- 従来のマルウェア検知は静的特徴に依存しており，巧妙化するマルウェアへの対応が課題となっている。
- 動的解析による行動特徴を活用し，静的特徴だけでは捉えきれないマルウェアを検知すること。
- 大規模言語モデル(LLM)を用いることで，半構造化されたサンドボックスレポートを効率的に処理し，行動特徴に基づいたマルウェア検知ルールを生成できる。
- 生成された行動特徴に基づく検知ルールは，静的特徴のみを用いる手法よりも概念ドリフトに対して頑健である。
- Tridentは，静的特徴，行動特徴，LLMによる直接分析を組み合わせることで，既存手法を上回り，概念ドリフトにも強い。
Link: https://arxiv.org/abs/2605.00297
データ削除は適応型強化学習に役立つ [cs.LG, math.OC]目的：時間変動する環境への適応
- 現実世界への強化学習の応用には，環境変化への対応が不可欠であるため。
- 文脈推定器の精度が，環境の変化に追従できず，性能低下を招く場合がある。
- 古いデータの分布ずれを解消し，文脈推定器の汎化性能を向上させる。
- 訓練バッファからランダムにデータを削除することで，文脈推定器の精度が向上する。
- 削除により，MLPではロバストネスギャップが30%，再帰型ネットワークでは平均6%減少した。
- 分布のずれが大きい場合にデータ削除が有効であり，その閾値はSNRで定量化できる。
Link: https://arxiv.org/abs/2605.00298
トークンアリーナ：AI推論におけるエネルギーと認知を統合する継続的ベンチマーク [cs.AI, cs.DC, cs.LG, cs.PF]目的：AI推論におけるエンドポイントレベルでの性能評価
- AI技術の発展に伴い，効率性とコストが重要な課題となっている。
- 既存のベンチマークはモデルやプロバイダーレベルでの比較に留まり，実際の利用状況を反映していない。
- エンドポイント単位での詳細な性能評価と，エネルギー効率の考慮による最適化を目指す。
- トークンアリーナは，出力速度，初回トークンまでの時間，価格，コンテキスト長，品質の5軸でエンドポイントを評価する。
- 同じモデルでもエンドポイントによって精度が最大12.5ポイント，出力分布の類似度が最大12ポイント変動することが確認された。
- ワークロードに応じた価格設定により，リーダーボードが大きく変化し，チャット用途と検索用途で最適なエンドポイントが異なることが示された。
Link: https://arxiv.org/abs/2605.00300
大規模リモートセンシング画像に対する超解像モデルのベンチマーク：下流タスク統合による評価 [cs.CV, cs.AI, cs.LG]目的：大規模リモートセンシング画像に対する超解像モデルの性能評価
- 地球観測は，都市計画，農業，生態系，災害対応など，幅広い分野で不可欠である。
- 既存の超解像評価指標は，知覚的な品質に偏っており，下流タスクにおける有用性を反映していない。
- 下流タスクの性能向上と超解像モデル開発の連携が求められている。
- 従来の超解像指標の改善が，必ずしも下流タスクの性能向上に繋がるとは限らないことが示された。
- 場合によっては，指標の改善とタスク性能の低下が相関する場合も見られた。
- 超解像モデルの開発と評価に，下流タスクを統合する必要性が明らかになった。
Link: https://arxiv.org/abs/2605.00310
制約ガイド表現合成によるエージェントスキル監査：Semia [cs.CR, cs.AI, cs.PL]目的：エージェントスキルの監査
- LLMを活用したエージェントが普及する中，そのセキュリティ確保は重要課題となっている。
- 従来の静的解析では，エージェントの振る舞いを記述する自然言語部分を解析できない。
- 自然言語による記述を形式化し，セキュリティ脆弱性を効率的に検出することを可能にする。
- Semiaは，エージェントスキルをSDLという形式言語に変換する監査ツールである。
- 13,728の実際のスキルを分析した結果，過半数に重大なリスクが存在することが判明した。
- 専門家がラベル付けした541のスキルにおいて，再現率97.7%，F1スコア90.6%を達成した。
Link: https://arxiv.org/abs/2605.00314
責任あるGeoAIの箱を開ける：気候変動極端現象と災害マッピングの探求 [cs.CY, cs.AI]目的：気候変動極端現象と災害マッピングにおける責任あるGeoAIの概念とガバナンスモデル
- 気候変動による災害が頻発化・深刻化しており，迅速な対応が求められている。
- GeoAIの性能至上主義は，空間的不平等を拡大し，適切な意思決定を妨げる恐れがある。
- GeoAIの責任ある展開のためのガバナンス体制の構築を目指す。
- 本研究は，GeoAIにおける代表性，説明可能性，持続可能性，倫理の重要性を強調する。
- データ，アプリケーション，社会のスコープに焦点を当てた責任あるGeoAIのガバナンスモデルを提案する。
- 気候変動への強靭性を高めるには，アルゴリズムの改良だけでなく，責任あるGeoAIのガバナンス生態系を育成することが不可欠である。
Link: https://arxiv.org/abs/2605.00315
センサーデータを用いた連合学習による気象モデリング [eess.SY, cs.SY, cs.CL, cs.IR, cs.AR, cs.AR, cs.RO, cs.LG]目的：センサーデータを用いた気象モデリングの精度向上
- 気象予測の精度向上は，防災，農業など幅広い分野で重要である。
- データ共有によるプライバシー侵害やセキュリティリスクが課題となる。
- 分散環境下でプライバシーを保護しつつ，高精度な気象モデルを構築する。
- 連合学習により，生データを共有することなく，複数のセンサーデータソースが協調して深層学習モデルを訓練できる。
- この手法は，データプライバシーとセキュリティを保護しながら，地理的に分散した多様なデータセットを活用し，気象モデリングの精度と信頼性を向上させる。
- 予報や異常検知といったグローバル/地域的な気象モデリングタスクへの応用が期待される。
Link: https://arxiv.org/abs/2605.00322
視覚言語モデルにおける幻覚に対するオンライン自己較正 [cs.CV, cs.LG]目的：視覚言語モデルの幻覚軽減
- 画像とテキストを理解するモデルは，多様な応用で重要である。
- 既存モデルは，画像に存在しない情報を記述する幻覚を起こしやすい。
- 自己教師あり学習で幻覚を抑制し，モデルの信頼性を向上させる。
- OSCARは，モンテカルロ木探索と二重粒度報酬メカニズムを統合し，幻覚ベンチマークで最先端の性能を達成した。
- 生成と識別能力のギャップを利用し，信頼性の高い自己教師あり学習を実現する。
- 一般 multimodal 能力も向上し，より実用的なモデルとなる。
Link: https://arxiv.org/abs/2605.00323
インテリジェントな弾力的な特徴量フェーディング：大規模なモデル再学習不要な特徴効率ロールアウトの実現 [cs.IR, cs.LG]目的：大規模ランキングシステムにおける特徴効率ロールアウトの高速化
- 大規模ランキングシステムは多数の特徴量に依存しており，システムの性能向上に不可欠である。
- 従来，特徴量の変更には再学習が必要であり，時間と計算リソースを浪費していた。
- 本研究では，再学習を不要とし，特徴量の効率的なロールアウトを可能とするシステムを提案する。
- IEFFは，特徴量のカバレッジと分布を弾力的に制御することで，再学習なしでの特徴効率ロールアウトを実現した。
- 実験により，段階的な特徴量フェーディングは，急激な特徴量削除と比較して，オンラインパフォーマンスの低下を50～55％抑制できることが示された。
- IEFFは，効率化関連のロールアウトを5倍に加速し，再学習に関連するGPUオーバーヘッドを排除し，より迅速なキャパシティリサイクルを可能にした。
Link: https://arxiv.org/abs/2605.00324
動的嗜好最適化による推薦 [cs.IR, cs.AI]目的：推薦システムにおける嗜好最適化の崩壊防止と精度向上
- 大規模言語モデルを用いた推薦システムは，ユーザーの嗜好に沿った推薦を実現する上で重要である。
- 負例数を増やすことで性能が低下する嗜好最適化の崩壊が，実証実験で明らかになっている。
- 境界付近の重要な負例を優先的に利用し，最適化強度を調整することで，この崩壊を防止する。
- DynamicPOは，負例選択と最適化強度の調整という2つの適応メカニズムにより，嗜好最適化の崩壊を効果的に防止する。
- 3つの公開データセットを用いた実験により，DynamicPOは既存手法と比較して推薦精度を向上させることが示された。
- 計算コストの増加は軽微であり，様々な推薦システムに容易に組み込むことができる。
Link: https://arxiv.org/abs/2605.00327
分布フリー不確実性を持つスケーラブルなオペレーター学習のための共形化量子DeepONetアンサンブル [cs.LG]目的：高次元力学系の高速な代理モデル構築
- 複雑なシステムのシミュレーションには，計算コストを抑えつつ高精度な代理モデルが不可欠である。
- 既存手法は推論の計算量が多く，安全性が求められる場面での不確実性評価が困難である。
- 量子機械学習を活用し，計算効率と信頼性の高い不確実性評価を両立する手法を開発する。
- 量子直交ニューラルネットワークを活用することで，推論計算量を大幅に削減し，スケーラブルな評価を実現した。
- アンサンブル学習と適応共形予測を組み合わせることで，分布フリーなカバレッジ保証を持つ厳密な不確実性評価を可能にした。
- 重ね合わせパラメーター化量子回路を用いることで，複数のモデルを同時に実行し，ハードウェアリソースの効率的な利用を実現した。
Link: https://arxiv.org/abs/2605.00330
借用された幾何学：モダリティを横断した凍結済みテキスト事前学習済みTransformer重みの計算再利用 [cs.LG, cs.CL]目的：モダリティを横断した凍結済みTransformer重みの再利用
- 多様なタスクへの適応能力向上は，AI研究における重要な課題である。
- 大規模言語モデルの汎用性には限界があり，新たなモダリティへの適応が困難である。
- 事前学習済み重みを再利用することで，効率的なモダリティ横断学習を目指す。
- テキストのみで事前学習されたGemma 4 31Bの重みを変更せずに，他のモダリティに転移させることに成功した。
- ロボット操作，強化学習，連想想起などのタスクにおいて，高い性能を発揮し，最先端の結果を達成した。
- 特定のヘッドが言語タスクと非言語タスクの両方で独立して識別可能であり，そのメカニズムが明らかになった。
Link: https://arxiv.org/abs/2605.00333
エージェントフローア：小規模なオープンウェイトモデルは，ツール利用の階層構造をどこまで上り詰めることができるか？ [cs.AI, cs.CL]目的：エージェントワークフローにおける大規模モデルの必要性に関する検証
- エージェントシステムの普及が進む中で，コストと性能のバランスが重要な課題となっている。
- 既存の研究では，エージェントのどの部分に大規模モデルが必要なのかが明確になっていない。
- ルーチンワークと複雑なタスクで必要なモデル規模の違いを明確にすること。
- 小規模・中規模のオープンウェイトモデルは，エージェントパイプラインの大部分を占める短期的な構造化ツール利用において十分な性能を示す。
- 最も高性能なオープンウェイトモデルは，ベンチマークにおいてGPT-5と同等の性能を発揮し，コストと速度の面で優れている。
- 長期的な計画や制約追跡を必要とするタスクでは，依然として最先端モデルが優位性を持つものの，信頼性は低い。
Link: https://arxiv.org/abs/2605.00334
予算を考慮した長文臨床テキストのルーティング [cs.CL, cs.AI]目的：臨床テキストにおけるトークン数の予算制約下での文脈選択
- 大規模言語モデルの利用コストは高く，特に長文の臨床テキストではその課題が顕著である。
- 臨床テキストは冗長性が高く，必要な情報を効率的に抽出することが困難である。
- トークン数の予算内で，高精度な情報を選択し，効率的なテキスト処理を実現する。
- 提案手法RCDは，関連性，網羅性，多様性をバランス良く考慮した目的関数を用いる。
- 実験の結果，最適な戦略は評価設定に依存し，低予算下では位置情報に基づくヒューリスティクスが，生成タスクでは多様性を考慮した手法が有効であることが示された。
- 選択手法が文脈分割手法よりも重要であり，クラスタリングによる分割は性能を低下させる傾向が見られた。
Link: https://arxiv.org/abs/2605.00336
低減フローマッチングによる自由エネルギー表面サンプリング [cs.LG]目的：自由エネルギー表面のサンプリング手法
- 化学反応や構造変化の理解に不可欠であり，統計物理学の重要な課題である。
- 高次元空間でのシミュレーションとCV空間への投影が必要で，計算コストが高い。
- CV空間での動的輸送マップを学習し，自由エネルギー表面の直接サンプリングを可能にする。
- 提案手法FES-FMは，従来の計算コストを大幅に削減しつつ，単位時間あたりの精度を向上させる。
- 多粒子系に対しては，ポテンシャル最小値でのヘッセ行列に基づく事前分布を構築し，物理的に意味のある配置を保証する。
- 様々なポテンシャル関数と集団変数を用いて提案手法を評価し，その有効性を実証した。
Link: https://arxiv.org/abs/2605.00337
教師によるAI導入：懸念，支援，自信，および態度の洞察 [cs.CL, cs.CY, cs.AI]目的：教師によるAIツール導入の状況
- 教育現場でのAI活用は，教育の質向上や個別最適化に不可欠である。
- 教師のAIに対する懸念や自信の低さが，導入の妨げとなる場合がある。
- 組織の支援が教師のAI導入に及ぼす影響を明らかにすること。
- 組織支援は教師の自信とAIへの態度を有意に予測する。
- 教師の懸念は，組織支援と自信・態度との関係を有意に調整しなかった。
- 自信が組織支援から態度への影響を媒介し，間接効果は有意であった。
Link: https://arxiv.org/abs/2605.00343
オデュッセウス：強化学習によるゲームにおける100ターン以上の意思決定へのVLMの拡張 [cs.LG, cs.AI, cs.CL]目的：長期間のゲームプレイにおけるVLM（Vision-Language Model）の意思決定能力の向上
- VLMの能力が急速に進歩しており，ゲームのようなインタラクティブなタスクへの応用が期待されている。
- 既存手法では，大規模な教師あり学習データが必要，もしくは強化学習が短期間のタスクに限られていた。
- 100ターン以上の長期間にわたるゲームプレイにおいて，VLMの安定的な学習を実現すること。
- 提案手法であるOdysseusは，複数のゲームレベルで顕著な改善を示し，既存モデルと比較して3倍以上の平均ゲーム進行度を達成した。
- 事前学習済みのVLMは強力な行動事前分布を提供し，強化学習のサンプル効率を向上させ，行動設計の必要性を低減する。
- 訓練されたモデルは，ゲーム内およびクロスゲームの汎化において一貫した改善を示し，汎用的な能力を維持する。
Link: https://arxiv.org/abs/2605.00347
マイクロサービスにおける多次元根本原因特定のためのハイパーグラフと潜在的常微分方程式学習 [cs.LG, cs.AI]目的：クラウドネイティブマイクロサービスシステムにおける根本原因特定
- マイクロサービスは複雑な依存関係を持つため，障害時の迅速な原因特定が重要である。
- 既存手法では，複雑な依存関係や不規則な時間変化，多様な観測データを統合的に扱うことが困難である。
- ハイパーグラフと潜在的常微分方程式を組み合わせ，多様な観測データを融合することで，より正確な根本原因特定を目指す。
- ハイパーグラフAttention学習により，高次のサービス間相互作用を捉え，根本原因の特定精度を向上させた。
- 潜在的常微分方程式を用いて，不規則な観測データから連続的な異常進化をモデル化することに成功した。
- ログ，トレース，メトリクスなど多様な観測データを文脈を考慮したルーティングで融合し，ロバスト性を高めた。
Link: https://arxiv.org/abs/2605.00351
VQ-SAD：ベクトル量子化構造認識拡散による分子生成 [cs.IR, cs.LG, cs.AI]目的：分子生成のための新たな手法
- 創薬や材料開発において，新たな分子構造を効率的に生成する技術が重要である。
- 既存の拡散モデルは分子の持つ構造情報を十分に活用できていない場合がある。
- ベクトル量子化を用いて分子構造を効率的に表現し，より高品質な分子を生成すること。
- 提案手法VQ-SADは，ベクトル量子化された分子構造情報を拡散モデルに組み込むことで，既存のモデルよりも高い性能を示す。
- 特に，QM9およびZINC250kデータセットにおいて，分子生成性能がわずかに向上した。
- VQ-SADは，神経記号モデルとして，構造情報とニューラル情報を両方活用する点が特徴である。
Link: https://arxiv.org/abs/2605.00354
MemRouter: 長期対話エージェントのためのメモリ埋め込みルーティング [cs.CL, cs.AI]目的：長期対話におけるメモリへの書き込み制御
- 長期対話エージェントの性能は，適切な情報保持に大きく依存するため，メモリ管理が重要である。
- 従来のシステムでは，各ターンごとにLLMを用いてメモリへの書き込みを決定しており，計算コストが高いという課題があった。
- 軽量な埋め込みベースルーティングにより，効率的なメモリ管理を実現し，応答性能を向上させる。
- MemRouterは，LoCoMoデータセットにおいて，LLMベースのメモリマネージャーと比較して，全ての質問カテゴリでF1スコアが向上した（52.0 vs 45.6）。
- メモリ管理のp50レイテンシを970msから58msに大幅に短縮することに成功した。
- 学習による書き込み制御がランダムな保存と比較して平均F1スコアを+10.3%改善し，カテゴリ固有のプロンプトが+5.2%改善することが示された。
Link: https://arxiv.org/abs/2605.00356
二項フロー：離散順序データのノイズ除去とフローマッチング [cs.LG, stat.ME]目的：離散順序データに対する生成モデルの構築
- 連続空間における生成モデリングは発展しているが，離散データへの応用は遅れている。
- 既存の離散データ生成モデルは，スコア関数とレートを個別に学習することに課題がある。
- 二項フローを用いることで，ノイズ除去，サンプリング，尤度推定を同時に行えるモデルを構築する。
- 二項フローは，離散非負順序データに対して，Tweedieの公式を拡張した関係性を提供する。
- 本手法により，ノイズ除去，サンプリング，正確な尤度推定を同時に行う離散拡散モデルの学習が可能となった。
- 合成データと実データセットの両方で，良好な結果が得られた。
Link: https://arxiv.org/abs/2605.00360
AIの教育的有用性と危険性：プログラミング教育におけるChatGPT研究議論のテキストマイニング分析 [cs.CY, cs.AI]目的：プログラミング教育におけるChatGPTに関する学術論文の議論構造
- 教育現場でのAI活用は，学習効果の向上や教育の効率化に貢献する可能性を秘めている。
- ChatGPTのような生成AIの教育利用に関する研究はまだ発展途上で，その効果やリスクに関する体系的な理解が不足している。
- ChatGPTの教育利用における主要なテーマを明らかにし，適切な導入とガバナンスの必要性を示す。
- テキストマイニング分析により，教育的実践，学習者中心学習，AIインフラ，評価の４つの主要なテーマが明らかになった。
- 研究は，ChatGPTを学習支援ツールとして捉える一方で，過度な依存や出力の信頼性，学術的誠実性への懸念も指摘している。
- この結果は，ChatGPTの責任ある統合を促し，より強固な評価とガバナンスのメカニズムの必要性を示唆する。
Link: https://arxiv.org/abs/2605.00361