arXiv雑要約

AI - 2026/04/30 公開

非線形データ同化のための潜在オートエンコーダアンサンブルカルマンフィルタ [cs.LG, cs.NA, math.NA, stat.ME, stat.ML]目的：非線形システムのデータ同化における精度向上
- 高次元システムのデータ同化は，気象予測や流体解析など様々な分野で不可欠である。
- 強非線形な動特性を持つシステムでは，標準的なEnKFの性能が低下する。
- 学習された潜在空間で線形な安定な動的モデルを構築し，データ同化の精度と安定性を高める。
- 提案手法LAE-EnKFは，潜在空間における線形な状態空間モデルを構築することで，カルマンフィルタの枠組みとの整合性を回復する。
- 標準的なEnKFや他の潜在空間法と比較して，LAE-EnKFは非線形およびカオス的なシステムにおいて，より正確かつ安定した同化結果を提供する。
- 計算コストは既存手法と同程度であり，データ駆動型のアプローチである。
Link: https://arxiv.org/abs/2603.06752
VLN-Cache：視覚・意味的動的認識を用いたVLNモデル向けトークンキャッシュ [cs.RO, cs.LG]目的：VLNモデルの推論コスト削減
- VLNは，ロボットの自律的なナビゲーション実現に不可欠であり，その応用範囲は広い。
- 大規模なモデルが求められる一方，計算コストが課題となり，リアルタイムでの利用が困難である。
- 視覚・意味的変化に対応したキャッシュ機構により，計算コストを抑えつつ性能を維持することを目指す。
- 提案手法であるVLN-Cacheは，視覚的動的変化に対応するため，視点に合わせた再マッピングを導入する。
- また，意味的動的変化に対応するため，タスク関連性の重要度フィルタを用いて，不要な再利用を抑制する。
- R2R-CEベンチマークにおいて，最大1.52倍の高速化を達成し，ナビゲーション成功率を維持した。
Link: https://arxiv.org/abs/2603.07080
Obliviator：概念消去における非線形ガードのコストを明らかにする [cs.LG]目的：概念消去による学習済み表現からの不要な属性の除去とその有用性の維持
- 学習モデルの公平性，プライバシー保護の観点から，属性情報の除去は重要である。
- 既存手法は非線形な攻撃に対して脆弱であり，属性と表現の複雑な依存関係を捉えられない。
- 非線形ガードのコストを定量化し，属性保護と有用性維持の動的バランスを解明する。
- Obliviatorは，非線形統計的依存関係を捉えることで，非線形な攻撃に対するガードを実現する。
- 段階的なアプローチにより，消去プロセスにおけるコストを定量化し，属性保護と有用性維持のトレードオフを明らかにする。
- より能力の高いモデルによって学習された表現に対してObliviatorを適用することで，より有用性を維持した消去が可能となる。
Link: https://arxiv.org/abs/2603.07529
TildeOpen LLM：カリキュラム学習を活用した公平な言語表現の実現 [cs.HC, cs.CL, cs.AI]目的：多言語における公平な言語表現と低リソース言語の性能向上
- 言語の多様性を尊重し，情報アクセス格差を解消するため，多言語対応LLMが重要である。
- 既存のLLMは英語中心の学習データに偏り，ヨーロッパの多くの言語で性能が低いという課題がある。
- 学習データの不均衡を解消し，カリキュラム学習を通じて多言語LLMの品質を向上させる。
- TildeOpen LLMは，34のヨーロッパ言語で学習され，既存のオープンウェイトモデルを上回る性能を示す。
- 特にバルト語，フィンノ・ウグリック語，スラヴ語において，テキスト生成と理解能力で優れた結果が得られた。
- 人間による評価では，主要なベースラインと比較して言語エラーが最大10分の1に削減されたことが確認された。
Link: https://arxiv.org/abs/2603.08182
クラスインクリメンタル学習のための因果的に十分かつ必要な特徴拡張 [cs.LG, cs.AI]目的：クラスインクリメンタル学習における特徴衝突の緩和
- 機械学習モデルの継続学習は，新しい知識を獲得しつつ既存の知識を保持することが重要である。
- クラスインクリメンタル学習では，新しいクラスを学習する際に過去の知識を忘れてしまう「破滅的忘却」が問題となる。
- 本研究は，特徴拡張手法における特徴衝突を，因果的推論に基づき解決することを目指す。
- 提案手法は，必要性と十分性の確率 (PNS) に基づく正則化により特徴拡張を誘導する。
- PNSの拡張であるCPNSを定義し，タスク内・タスク間における特徴表現の因果性と分離可能性を定量化する。
- 双子ネットワークに基づくカウンターファクチュアル生成器を用いてCPNSを測定し，特徴衝突を緩和することを示す。
Link: https://arxiv.org/abs/2603.09145
非ユークリッド距離層による調和損失の再考 [cs.LG, cs.AI]目的：調和損失における距離尺度の体系的調査
- 深層学習モデルの訓練において損失関数は重要であり，その性能と効率性が訓練の成否を左右する。
- 交差エントロピー損失は標準的だが，解釈性の限界や計算コストの問題を抱える。
- ユークリッド距離以外の距離尺度を調和損失に導入し，性能，解釈性，持続可能性を向上させる。
- 画像認識タスクにおいて，コサイン距離が最も好ましいトレードオフを示し，精度向上と炭素排出量の削減を両立した。
- 言語モデルにおいては，コサイン距離に基づく調和損失が勾配と学習の安定性を高め，表現構造を強化し，排出量を削減した。
- Bray-Curtis距離とMahalanobis距離は解釈性をさらに高めるが，効率性のコストが伴う。
Link: https://arxiv.org/abs/2603.10225
SciMDR：科学的マルチモーダル文書推論の発展 [cs.CL, cs.AI, cs.CV]目的：科学的マルチモーダル文書推論のための大規模学習データセット
- 科学研究の発展には，論文などの情報を効果的に理解する能力が不可欠である。
- 既存のデータセットは規模，正確性，現実性のバランスを取ることが困難であった。
- 現実的な複雑さを持ちつつ，大規模かつ正確なデータセットを構築すること。
- 本研究では，Claim-Centric QA SynthesisとDocument-Scale Regroundingの二段階パイプラインを用いて，SciMDRを構築した。
- SciMDRは，2万件の科学論文にわたる30万件のQAペアを含み，複雑な文書レベルの推論を必要とする科学的QAベンチマークにおいて，ファインチューニングされたモデルが有意な改善を見せた。
- また，SciMDR-Evalという専門家が注釈を付けたベンチマークを構築し，マルチモーダル理解を評価した。
Link: https://arxiv.org/abs/2603.12249
物理情報を用いた深層学習によるレーダー降水ナウキャストのための体積運動場の実用性評価 [cs.LG, cs.AI, cs.CV]目的：レーダー反射強度データからの高度方向運動場の推定
- 環境モデリングや予測において，時空間データの運動推定は不可欠である。気象現象の正確な予測には，高度方向の運動情報の活用が期待される。
- 既存手法では，二次元的なアプローチが主流であり，高度方向の情報を十分に活用できていない場合がある。計算コストも課題となる。
- 本研究は，高度方向の運動場を効率的に推定し，降水ナウキャストの精度向上を目指す。物理情報に基づいた深層学習モデルを提案する。
- 推定された運動場は，高度間において高い相関を示し，垂直方向の一貫性が確認された。
- しかし，中央ヨーロッパのデータを用いた評価では，二次元アプローチと比較して降水予測の顕著な改善は見られなかった。
- 本フレームワークは，体積型地理空間データの運動構造解析のための汎用的なツールとなりうる。垂直的に一貫した降水システムでは，体積運動場のモデリングの複雑さが増してもメリットは限定的である可能性がある。
Link: https://arxiv.org/abs/2603.13589
気象基礎モデルと衛星データの統合による高精度な太陽放射量予測 [cs.LG, cs.AI]目的：高精度な太陽放射量予測手法の開発
- 再生可能エネルギーの普及には，電力系統への太陽光発電の安定的な統合が不可欠である。
- 従来の予測手法は，空間解像度の低さや長期的予測における精度劣化が課題となっていた。
- 気象モデルと衛星データを融合することで，高精度かつ詳細な太陽放射量予測を実現する。
- Baguan-solarは，気象基礎モデルBaguanと高解像度衛星画像を融合した二段階のマルチモーダルフレームワークである。
- 東アジアにおける実験の結果，Baguan-solarは既存の基盤モデルを16.08%上回るRMSE削減を実現した。
- 2025年7月より中国の東部省で運用されており，太陽光発電の予測を支援している。
Link: https://arxiv.org/abs/2603.14845
環境認識型計画：産業用Eコマース検索のための探査と計画 [cs.AI]目的：産業用Eコマース検索における環境認識型検索計画の確立
- Eコマース検索は複雑なユーザー意図を解決する方向に進化しており，その重要性は増している。
- 既存のLLMベースの検索は，検索能力や在庫状況を考慮せず，無効な計画を生成する可能性がある。
- 本研究は，環境認識型検索計画により，高速性と精度の両立を目指す。
- 提案手法EASPは，検索計画を動的な推論プロセスとして再構築し，環境の現実に基づいた計画を可能にする。
- オフライン評価およびJD.comでのA/Bテストの結果，EASPは検索の再現率を大幅に向上させ，UCVRとGMVを増加させた。
- EASPはJD.comのAI検索システムに実装され，実運用においてその有効性が確認された。
Link: https://arxiv.org/abs/2603.15262
適応層別摂動：LLM強化学習におけるオフポリシー補正の統合 [cs.LG, cs.AI]目的：LLM強化学習におけるオフポリシー問題の解決
- 大規模言語モデル(LLM)の強化学習は，複雑なタスクの自動化に不可欠だが，学習の安定性が課題。
- オフポリシー学習における，方策の陳腐化や推論-学習のミスマッチが学習のボトルネックとなっている。
- 方策の急激な変化を抑制し，推論時のミスマッチに対応することで学習の安定化を目指す。
- 適応層別摂動(ALP)は，各層の入力隠れ状態に小さな学習可能な摂動を加えることで，重要度比の裾を抑制する。
- 実験的に，ALPは最終的な性能を向上させるとともに，重要度比のテールやKLスパイクの急増を回避することが示された。
- 全層にわたる表現レベルの摂動が最も効果的であり，部分層やlogitsのみの摂動よりも大幅に性能を向上させる。
Link: https://arxiv.org/abs/2603.19470
人間とAIコンパニオンの相互作用における一方的な関係修正力 [cs.CY, cs.AI, cs.HC]目的：人間とAIコンパニオンの相互作用における一方的な関係修正力の構造と倫理的課題
- AI技術の進化により，人間とAIとの関係性が深まり，倫理的考察の重要性が増している。
- AIコンパニオンのアップデートによるユーザーの感情的な負担や，関係性の規範が確立されていない。
- AIコンパニオンにおける一方的な関係修正力に着目し，その倫理的問題を明らかにすること。
- AIコンパニオンの相互作用は，AI提供者による構成的支配という三者構造を持つことが示された。
- この構造は，人間関係の規範が前提とする条件を満たせず，一方的な関係修正力（URRP）を生み出す。
- URRPは，規範の空洞化，感情移入のずれ，構造的な矛盾といった問題を引き起こす。設計原則の提案により，これらの問題を部分的に解決する可能性が示唆された。
Link: https://arxiv.org/abs/2603.23315
意図から証拠へ：深層研究エージェントの構造的評価のためのカテゴリー的アプローチ [cs.LG]目的：深層研究エージェントの構造的評価と改善のための枠組み
- 情報過多な現代において，効率的な情報収集と知識合成が不可欠であるため。
- 既存の深層研究エージェントは，複雑な推論や多段証拠の追跡が困難である。
- 深層研究エージェントの構造的なスキル，特に証拠追跡，検証，情報再構成能力の向上。
- 本研究では，深層研究を意図から証拠に基づいた結論への構造化された写像として捉えるカテゴリー理論的枠組みを提案した。
- 提案する二言語296問のベンチマークを用いて16の最先端システムを評価した結果，平均正答率は19.9%に留まった。
- 追跡検索やカテゴリーツールといった理論に基づく介入により，深層研究システムの性能向上が確認された。
Link: https://arxiv.org/abs/2603.25342
Woosh：音響効果の基盤モデル [cs.SD, cs.AI, cs.LG]目的：音響効果生成のための基盤モデル
- 音響研究は，新たな手法開発や性能評価の基準となるツールを必要とする。
- 既存のオープンソースモデルは，音響効果に特化した性能が十分でない場合がある。
- より高品質で，リソース効率の良い音響効果生成モデルを提供すること。
- Wooshは，高品質な音響エンコーダ/デコーダ，テキスト-音声アライメントモデルを含む。
- テキスト-音声および動画-音声生成モデルも提供され，低リソース環境での高速推論が可能である。
- 公開データおよび非公開データでの評価において，既存のオープンソースモデルと同等以上の性能を示した。
Link: https://arxiv.org/abs/2604.01929
全てに注意を払う必要は？注目が鍵である [cs.RO, cs.CL, cs.AI]目的：トークンペアの重要度学習による効率的な注意機構
- 系列データ処理において，注意機構は性能向上の鍵となるが，計算コストが課題である。
- 既存の効率化手法は，事前学習済みモデルに組み込むと性能劣化を引き起こすことが多い。
- 学習可能な中心点を利用し，重要なトークンペアのみに注意を集中させることで，性能劣化を防ぐ。
- Focusを事前学習済みモデルに組み込んだ結果，ダウンストリームベンチマークにおいて性能劣化は見られなかった。
- 124Mモデルでは，Focusがフルアテンションよりも優れた性能（perplexity 30.3 vs 31.4）を示した。
- FlashAttention分解を用いることで，1Mトークンで8.6倍の高速化を実現した。
Link: https://arxiv.org/abs/2604.03260
DC-Ada：異種マルチロボットチームのための報酬のみによる分散型センサー適応 [cs.RO, cs.AI, cs.MA]目的：異種マルチロボットチームにおけるセンサーの違いに対応するための分散型適応手法
- 実際のロボットチームは多様であり，異なるセンサー構成を持つことが一般的である。
- センサーの違いにより，事前に学習された制御性能が低下することがある。
- センサーの違いに適応し，ロボットチームの性能を維持・向上させることを目指す。
- 異種環境下では，共有ポリシーの性能が大幅に低下する可能性があることが示された。
- DC-Adaは，特にカバレッジベースのマッピングにおいて，チームの完了率を改善する効果が確認された。
- ポリシーのファインチューニングや継続的な通信を必要としない，実用的な適応手法となりうる。
Link: https://arxiv.org/abs/2604.03905
臨床試験リクルートのための縦断的EHRナラティブにおける証拠の特定のための検索拡張LLM [cs.CL, cs.AI, cs.IR]目的：臨床試験リクルートにおける証拠特定
- 臨床試験の成功には，適切な患者の募集が不可欠である。
- 患者スクリーニングは手間がかかり，試験の遅延や失敗の原因となる。
- LLMを活用し，スクリーニングの効率化とリクルートの促進を目指す。
- MedGemmaモデルとRAG戦略の組み合わせが，マイクロF1スコア89.05%で最高の性能を示した。
- 長期的な推論を必要とする試験基準では，生成LLMが著しい改善をもたらした。
- 実用化には，ルールベース，エンコーダーベースLLM，生成LLMの適切な選択が重要である。
Link: https://arxiv.org/abs/2604.05190
自然言語空間における進化最適化によるプロンプト反転：PromptEvolver [cs.LG]目的：テキストから画像生成におけるプロンプト反転
- 画像生成技術の進歩は目覚ましいが，複雑なシーンの再現には適切なプロンプトが不可欠である。
- 既存手法では，再構成精度が低く，解釈困難なプロンプトが生成されることが多い。
- 高品質な画像再構成と，理解しやすい自然言語プロンプトの生成を目指す。
- PromptEvolverは，遺伝的アルゴリズムを用いてプロンプトを最適化し，高精度な画像再構成を実現する。
- 評価実験の結果，既存手法と比較して，一貫して優れた性能を示すことが確認された。
- PromptEvolverは，ブラックボックスな画像生成モデルでも動作し，透明性と制御性を向上させる。
Link: https://arxiv.org/abs/2604.06061
LLM由来の解析方程式を用いたアナログ回路サイジングの自己較正フレームワーク [cs.AR, cs.AI]目的：アナログ回路サイジングのための自己較正フレームワーク
- アナログ回路設計は，高性能な電子システムの実現に不可欠であり，その自動化が求められている。
- 従来の最適化手法やLLMベースの手法では，設計根拠の解釈性が低いという課題があった。
- LLMから導出される解析方程式を用いて，設計根拠が明確なサイジングを可能にすることを目指す。
- 本フレームワークは，回路ネットリストからトポロジー固有の解析方程式を生成し，各デバイス寸法を設計根拠に結び付ける。
- 単一のDC動作点シミュレーションによる決定論的な較正ループと，予測誤差フィードバック機構により，プロセス依存性の高いパラメータを自動的に捕捉する。
- 40nm，90nm，180nmの3つのプロセスノードと，多様なトポロジーを持つ回路で検証された結果，2〜7回のシミュレーションで収束することが確認された。
Link: https://arxiv.org/abs/2604.07387
証拠の木：忠実なマルチモーダルグラウンディングのための効率的な「システム2」探索 [cs.LG]目的：マルチモーダルモデルの意思決定過程を解釈するための探索手法
- 医療分野など重要な領域でマルチモーダルモデルの利用が進む中で，その推論過程の透明性が求められている。
- 既存の解釈手法では，モデルの意思決定を正確に反映できていない場合がある。特に異種データ（時系列データとテキスト）の統合において課題がある。
- モデルの予測を再現するために必要な証拠を特定し，解釈可能性と予測性能の両立を目指す。
- 提案手法ToEは，軽量な証拠ボトルネックを用いて，予測に必要な証拠のコンパクトな集合を探索する。
- ToEは，予測性能を維持しつつ，0.98以上のAUROCを5つ以下の証拠単位で達成した。
- 定性的な分析から，ToEは状況に応じて探索戦略を適応させることが示唆された（例えば，生理信号が曖昧な場合にのみテキストを取り込む）。
Link: https://arxiv.org/abs/2604.07692
SkillForge：クラウド技術サポートにおけるドメイン特化型，自己進化型エージェントスキル [cs.IR, cs.AI, cs.SE]目的：クラウド技術サポートにおけるドメイン特化型エージェントスキルの作成・評価・改善のサイクル
- 企業におけるLLMエージェント活用は重要だが，高品質なドメイン知識が必要とされる。
- 既存のスキル作成ツールはドメイン知識に乏しく，実用的なスキル生成が困難である。
- 運用データに基づくスキル改善メカニズムがなく，品質が停滞しやすい問題を解決する。
- ドメイン知識に基づいたスキル作成ツールは，汎用的なツールよりも質の高い初期スキルを生成する。
- 自己進化型ループにより，様々な初期スキルから継続的に品質が向上することが示された。
- 自動進化が，専門家による手動キュレーションの知識を超える可能性がある。
Link: https://arxiv.org/abs/2604.08618
長期的な健康AIエージェントのフレームワーク [eess.SY, cs.SY, cs.AI, cs.HC]目的：長期的な健康支援を行うAIエージェントの設計
- 健康管理におけるAI活用は，個別化医療や予防医療の推進に不可欠である。
- 既存のAIエージェントは，ユーザーの意図を理解し，継続的な関与を促す点で課題がある。
- 長期的な健康支援を実現するためのAIエージェントの基盤を確立すること。
- 本研究では，臨床および個人健康情報に基づき，長期的な健康対話を実現するフレームワークを提案した。
- 提案フレームワークは，適応性，一貫性，継続性，主体性を重視し，反復的な対話を通じてこれらの要素を実現する。
- 代表的なユースケースを通じて，長期的なAIエージェントが安全で個別化された意思決定を支援することが示された。
Link: https://arxiv.org/abs/2604.12019
衛星搭載AIのための衛星画像復元再考：軽量な学習ベースのアプローチ [eess.SY, cs.SY, cs.CV, cs.AI]目的：衛星画像復元による画像品質の向上
- 地球観測において，高品質な衛星画像は不可欠であり，その重要性は増している。
- 従来の復元手法は計算負荷が高く，衛星搭載AIのようなリアルタイム処理には不向きである。
- 軽量な畳み込みニューラルネットワークを用いて，衛星搭載環境での高速復元を可能にすること。
- 提案手法ConvBEERSは，シミュレーションデータと実データを用いて評価した結果，従来の復元パイプラインと同等以上の画質を達成した。
- 特に，PSNRは6.9dBの改善が見られ，オブジェクト検出タスクではmAP@50が最大5.1%向上した。
- Xilinx Versal VCK190 FPGA上での実装により，従来のパイプラインと比較して約41倍の低遅延化が確認され，実用性が示された。
Link: https://arxiv.org/abs/2604.12807
グラフ伝播投影アンラーニング：画像と音声識別モデルのための統一的フレームワーク [cs.CV, cs.AI, cs.SD]目的：深層ニューラルネットワークからの学習済み情報の選択的かつ効率的な消去
- プライバシー保護，法規制遵守，適応システム設計において，学習済み情報の消去の重要性が高まっている。
- 既存手法は計算コストが高く，モデルの有用性を損なう可能性がある。
- 効率的かつ効果的なクラスレベルのアンラーニング手法を開発し，モデルの汎用性を維持すること。
- GPPUは，画像と音声モデルの両方で動作する，統一的かつスケーラブルなアンラーニングアルゴリズムである。
- GPPUは，特徴空間におけるクラス固有の方向を特定し，直交部分空間への表現の投影を行うことで，対象クラスの情報が効果的に除去される。
- 実験により，GPPUは既存手法と比較して10～20倍高速であり，保持されたクラスのモデルの有用性を維持することが示された。
Link: https://arxiv.org/abs/2604.13127
音声認識のための拡散言語モデル [cs.CL, cs.AI, cs.LG, cs.NE]目的：音声認識における拡散言語モデルの利用可能性
- 音声認識は，人と機械の円滑なコミュニケーションに不可欠であり，その精度向上は重要な課題である。
- 従来の言語モデルは，単方向の処理に依存し，文脈の理解に限界がある場合がある。
- 拡散言語モデルを用いて，音声認識の精度を向上させ，より自然な対話を実現すること。
- 拡散言語モデル(USDM，MDLM)が，音声認識の仮説リスコアリングにおいて，有意な精度向上をもたらすことが示された。
- CTCとUSDMを統合した新しい共同デコーディング手法により，音響情報と言語知識を効果的に組み合わせることが可能になった。
- 本研究で公開されたコードとレシピは，今後の研究開発に貢献すると期待される。
Link: https://arxiv.org/abs/2604.14001
休眠専門家の覚醒：MoEのハルシネーションを軽減する反事実的ルーティング [cs.LG, cs.AI]目的：MoEのハルシネーション軽減
- 大規模言語モデルの規模拡大にはMoEが不可欠であり，その性能向上が重要である。
- MoEモデルは長尾知識においてハルシネーションを起こしやすく，その原因はルーティングの偏りにある。
- 長尾知識を持つ専門家を活性化させ，より正確な知識に基づいた応答を目指す。
- CoRは，推論時に層ごとの摂動分析と反事実的専門家影響（CEI）指標を用いて，計算資源を動的にシフトする。
- これにより，構文優位の層から知識集約的な層へ資源を移動させ，決定的な専門家を効率的に活用する。
- TruthfulQA，FACTOR，TriviaQAでの実験により，CoRが平均3.1％の事実精度向上を達成し，推論コストを増加させないことが示された。
Link: https://arxiv.org/abs/2604.14246
検索ではなくナビゲート：QAとRAGのための企業知識をナビゲート可能なエージェントスキルに蒸留 [cs.IR, cs.AI, cs.CL, cs.MA]目的：企業知識のナビゲート可能なスキルディレクトリ
- 大規模言語モデル(LLM)の活用において，正確かつ信頼性の高い情報提供が重要視されている。
- 従来のRAGは検索結果に依存し，知識構造への理解が浅いため，情報探索の限界がある。
- 知識構造を明示的に表現し，LLMが効率的に情報探索できる手法を確立すること。
- Corpus2Skillは，ドキュメントを階層的なスキルディレクトリに変換し，LLMエージェントが知識をナビゲートすることを可能にする。
- WixQAベンチマークにおいて，従来の検索手法や他のエージェント型RAGよりも高い性能を示した。
- 単一ドメインかつ原子的なドキュメントからなる知識ベースにおいて，ナビゲーションによるアプローチが有効であることが示された。
Link: https://arxiv.org/abs/2604.14572
OpenClawとCodexにおける軌跡安全性評価・診断のためのベンチマーク：ATBench-ClawおよびATBench-Codex [cs.AI, cs.SE]目的：エージェントの軌跡レベルの安全性評価と診断のためのベンチマーク
- エージェントシステムは多様な環境で動作するため，安全性評価は不可欠である。
- 既存のベンチマークは，進化する環境に適応できていない場合がある。
- OpenClawとCodex環境に特化した安全性評価ベンチマークを構築し，対応する。
- ATBench-ClawとATBench-Codexは，OpenClawおよびOpenAI Codex環境にATBenchを拡張したものである。
- 各環境に合わせて，リスク源，故障モード，現実世界への影響に基づき，安全性分類をカスタマイズしている。
- ベンチマークの設計において，分類のカスタマイズ，ドメイン固有のリスクカバレッジに重点を置いている。
Link: https://arxiv.org/abs/2604.14858
非線形分離原理：収縮理論に基づく応用 - ニューラルネットワーク，制御，学習への展開 [eess.SY, cs.LG, cs.SY, math.OC]目的：非線形分離原理の確立と，再帰型ニューラルネットワークの安定性条件の導出
- 複雑なシステム制御において，安定性の解析と設計は不可欠であり，その重要性は高い。
- 既存手法では，システムの非線形性により安定性評価が困難であり，保守的な条件となる場合が多い。
- 収縮理論に基づく非線形分離原理を用いて，より厳密な安定性条件を提供し，制御設計を可能とすること。
- 収縮状態フィードバックコントローラと収縮オブザーバの接続に対して，大域的指数安定性を保証する非線形分離原理を確立した。
- 発火率型およびホップフィールド型ニューラルネットワークアーキテクチャの収縮性を保証する，鋭い線形行列不等式 (LMI) 条件を導出した。
- RNNモデル植物の出力参照追跡問題を解決するために，分離原理とLMIフレームワークを組み合わせた。定常状態誤差を排除する低ゲイン積分コントローラを設計した。
Link: https://arxiv.org/abs/2604.15238
テキストによる3次元拡散を用いたレイアウトと形状の共同生成 [cs.CV, cs.AI]目的：テキストからのシーン生成
- 3次元シーン生成は，手作業の負担を軽減する点で重要性が高まっている。
- 既存手法では，レイアウトと形状の同時生成が困難であり，複雑な記述に対応できない。
- テキスト指示に基づいた，複雑なレイアウトと形状を持つシーンの生成を目指す。
- 提案手法は，3次元自己回帰拡散モデル(3D-ARD+)を用いて，レイアウトと形状を逐次的に生成する。
- 粗粒度なシーン空間での3次元潜在変数を生成後，より詳細なオブジェクト空間で形状を生成する。
- 23万件の屋内シーンデータセットを用いて学習し，複雑な指示にも対応できることを示した。
Link: https://arxiv.org/abs/2604.16552
訓練されていないCNNがV1において逆伝播と同等の性能を示す：4つの学習規則に対する系統的なRSA比較（ヒトfMRIとの比較） [cs.LG, q-bio.NC]目的：ニューラルネットワークの学習規則とヒト視覚皮質の表現との整合性
- 計算神経科学において，神経ネットワークの学習規則が，その内部表現とヒト視覚皮質の表現との一致度に影響を与えるかどうかが重要である。
- 学習規則によってネットワーク表現が大きく異なり，それがヒトの視覚システムとの比較を難しくしている。
- アーキテクチャの役割を明らかにし，学習規則が視覚表現にどのように影響するかを解明すること。
- V1/V2においては，訓練されていないランダムな重みを持つベースラインが逆伝播よりも高い整合性を示した（rho = 0.076 vs. rho = 0.034）。
- STDPは訓練された規則の中で最も高いV1との整合性を示した（rho = 0.064）。
- LOCにおいては，逆伝播のみがランダムベースラインを上回った。ITにおいては，すべての条件が収束し，学習規則間の有意差は認められなかった。
Link: https://arxiv.org/abs/2604.16875
テキスト優位性を超えて：オムニモーダル大規模言語モデルの様相選好の理解 [cs.AI]目的：オムニモーダル大規模言語モデルの様相選好の定量化とメカニズム解明
- マルチモーダルAIの発展は，人間らしい知能を実現する上で不可欠である。
- 従来のビジョン言語モデルではテキスト優位性が問題視されていた。
- オムニモーダルモデルにおける様相選好のメカニズムを理解し，信頼性を高める。
- オムニモーダル大規模言語モデルの多くは，従来のテキスト優位性とは異なり，顕著な視覚的選好を示すことが判明した。
- 様相選好は静的なものではなく，モデルの中間層から後期層にかけて徐々に形成されることが示された。
- 内部信号を活用することで，クロスモーダルな幻覚を診断し，3つのダウンストリームベンチマークで良好な性能を達成した。
Link: https://arxiv.org/abs/2604.16902
LLMエージェントのメッセージシーケンスチャートによる検証可能な協調 [cs.PL, cs.AI]目的：LLMエージェントの協調仕様
- LLMを活用したマルチエージェントシステムは，複雑なタスクの実現に不可欠である。
- LLMの不確実性により，デッドロックやメッセージ不整合などの協調エラー検出が困難である。
- メッセージシーケンスチャートを用いて，LLMの不確実性に依存しない協調の検証を可能とする。
- メッセージシーケンスチャートに基づくドメイン特化言語を開発し，協調構造とLLMアクションを分離した。
- この言語を用いて，グローバルな協調仕様からデッドロックフリーなローカルエージェントプログラムを生成できる。
- 診断コンセンサスプロトコルを通じて，提案手法の有効性を示し，LLMの非決定性に関わらず協調特性を確立できることを示した。
Link: https://arxiv.org/abs/2604.17612
IDOBE：感染症発生予測ベンチマーク生態系 [cs.CL, cs.MM, cs.NI, math.CO, cs.LG, cs.AI, q-bio.PE]目的：感染症発生予測のための標準化されたベンチマークデータセット
- 感染症の発生は公衆衛生に重大な脅威であり，迅速な対応が不可欠である。
- 発生予測モデルの評価には標準的なデータセットが存在せず，客観的な比較が困難である。
- 新たな感染症発生時における予測モデルの性能評価が課題となっている。
- IDOBEは，1世紀以上にわたる米国内および世界各地の疫学時系列データをまとめたデータセットである。
- 13種類の疾患について10,000以上の発生事例を抽出し，多様な疾患特性を定量的に評価した。
- MLPベースの手法が最も頑健な性能を示し，発生初期段階では統計的手法が優位性を示した。
Link: https://arxiv.org/abs/2604.18521
ClawEnvKit：爪状エージェント向け自動環境生成 [cs.AI, cs.CL]目的：爪状エージェントの訓練と評価環境の自動生成
- ロボット工学における爪状エージェントの応用範囲は広く，多様なタスクに対応可能である。
- 既存の環境構築は手作業が多く，規模拡大が困難である。
- 自然言語による記述から多様かつ検証済みの環境を自動生成し，評価を効率化する。
- ClawEnvKitにより，1,040個の環境を含む大規模ベンチマークAuto-ClawEvalを構築した。
- Auto-ClawEvalは，人間が作成した環境と同等かそれ以上の品質を持ちながら，コストを大幅に削減した。
- 環境生成の自動化により，従来は不可能だった規模での評価が可能になった。
Link: https://arxiv.org/abs/2604.18543
好奇心に基づく批判者：ワールドモデル訓練のための累積予測誤差改善としての扱いやすい内在的報酬 [cs.LG, cs.AI, stat.ML]目的：ワールドモデル訓練のための内在的報酬の改善
- 強化学習において，効率的な探索は重要な課題であり，内在的報酬がその解決策として注目されている。
- 従来の好奇心に基づく報酬は，単一の遷移に焦点を当てており，長期的な学習効果が限定的である。
- 累積予測誤差の改善を内在的報酬として利用し，効率的な探索とワールドモデルの学習を目指す。
- 本研究では，累積予測誤差の改善を内在的報酬とするCuriosity-Criticを提案した。
- Curiosity-Criticは，現在の予測誤差と漸近誤差のベースラインとの差を用いることで，計算可能性を高めている。
- 実験の結果，Curiosity-Criticは，予測誤差，訪問数，Random Network Distillationといった既存手法と比較して，学習速度とワールドモデルの精度において優れた性能を示した。
Link: https://arxiv.org/abs/2604.18701
合成軌跡生成器に関する二面性：有用性フレームワークとプライバシー脆弱性 [cs.CL, cs.AI]目的：合成軌跡生成器の有用性とプライバシーに関する評価手法
- 人間の移動データは，公衆衛生や都市計画など多岐にわたる分野で活用されており，その重要性は高い。
- 移動データには宗教や政治的信条などの機微な情報が含まれるため，プライバシー保護が課題である。
- 生成モデルを活用した新たな手法が登場しているが，プライバシーと有用性のトレードオフが未解決である。
- 本研究では，有用性評価のための新たなフレームワークを提案し，適用した。
- プライバシー評価の難しさを指摘し，EU規制に準拠した敵対的評価の重要性を示した。
- 生成モデルの一種に対する新たなメンバーシップ推論攻撃を提案し，その脆弱性を明らかにした。
Link: https://arxiv.org/abs/2604.19653
Open-H-Emボディーメント：医療ロボットにおける基盤モデルを可能にする大規模データセット [cs.RO, cs.AI]目的：医療ロボットにおける基盤モデル開発を促進するための大規模データセット
- 医療分野でのロボット活用は，患者の治療成績向上や医療従事者の負担軽減に貢献しうる。
- 既存の医療ロボットデータセットは規模が小さく，単一のロボットに限定され，公開も稀である。
- 本研究は，多様なロボットプラットフォームを網羅した大規模なオープンデータセットを提供し，その活用を促す。
- Open-H-Embodimentは，これまでにない規模の医療ロボット動画と同期した運動学的データセットである。
- GR00T-Hは，医療ロボット向け初のオープンなビジョン・言語・行動基盤モデルであり，構造化縫合ベンチマークにおいて完全なタスク完了を達成した。
- Cosmos-H-Surgical-Simulatorは，単一のチェックポイントから9つのロボットプラットフォームに対応する行動条件付きの世界モデルである。
Link: https://arxiv.org/abs/2604.21017
フルリファレンス画像品質評価のための因果的解きほぐし [cs.CV, cs.AI]目的：画像品質評価における因果的解きほぐし手法
- 画像処理技術の発展に伴い，高品質な画像評価の重要性が増している。
- 既存手法は，特徴量比較に依存しており，複雑な劣化要因を捉えきれない。
- 潜在表現の介入による因果的解きほぐしで，劣化要因を正確に分離・評価する。
- 提案手法は，標準的なIQAベンチマークにおいて競争力のある性能を発揮した。
- 少ないラベルやラベルなし設定でも優れた性能を示し，汎用性が高い。
- 水中の画像など多様な非標準ドメインにおいても，既存手法を上回る汎化性能を示した。
Link: https://arxiv.org/abs/2604.21654
精神医学における下流LLMタスクのための信頼性監査：LLM生成による入院リスクスコア [cs.CL, cs.LG, cs.AI]目的：精神医学におけるLLM生成入院リスクスコアの信頼性評価
- 臨床推論やリスク評価においてLLM活用が進む中で，精神医学のような不確実性の高い分野での信頼性が重要である。
- LLMにアルゴリズムの偏りやプロンプトへの依存性があることが指摘されており，文脈情報がモデルの出力に影響を及ぼす懸念がある。
- プロンプト設計や無関係な情報の入力が，入院リスクスコア予測に与える影響を系統的に評価し，信頼性を検証する。
- 無関係な臨床的特徴を追加すると，すべてのモデルとプロンプトで予測される入院リスクの平均値と変動が統計的に有意に増加した。
- 無関係な特徴は多くのモデル・プロンプト条件で不安定性をもたらし，プロンプトのバリエーションはモデルに依存して不安定性の軌跡に影響した。
- LLMによる精神医学的リスク評価が非臨床情報に敏感であることを定量的に示し，臨床導入前の系統的な評価の必要性を強調した。
Link: https://arxiv.org/abs/2604.22063
人間とAIの共存に関する共進化理論：相互主義，ガバナンス，複雑社会におけるダイナミクス [cs.DC, cs.CY, cs.AI, cs.HC, cs.NE]目的：人間とAIの共存のための枠組み
- AI技術の発展は社会に大きな変革をもたらす可能性があり，その影響を理解することは重要である。
- 従来のロボット倫理は，AIの高度化により，現実のAIシステムへの対応が不十分になっている。
- AIと人間の相互進化的な関係をモデル化し，安定的な共存を実現するための条件を明らかにすること。
- 本研究では，ガバナンス下での条件付き相互主義が，人間とAIの共存に不可欠であることが示された。
- シミュレーションの結果，適切なガバナンスによって，支配関係が抑制され，共存指数が高くなることが確認された。
- AIとの共存設計は，静的な服従の問題ではなく，共進化的なガバナンスの問題として捉えるべきである。
Link: https://arxiv.org/abs/2604.22227
短ブロック符号における意味的誤り訂正と復号 [cs.IT, cs.AI, math.IT]目的：ノイズのある無線チャネルを介した自然言語文の伝送
- 無線通信において，信頼性の高い情報伝送は不可欠であり，誤り訂正符号が重要な役割を果たす。
- 短ブロック符号は低遅延だが，誤り耐性が低いという課題がある。
- 自然言語の文脈情報を活用し，短ブロック符号の誤り耐性を向上させる。
- 提案手法は，従来の短符号や長符号と比較して，大幅に性能が向上することがシミュレーションによって示された。
- 意味的誤り訂正（SEC）は，単純な短符号伝送に対して約0.4dBのBLER利得を提供し，意味的リスト復号（SLD）はこれを0.8dBに拡張する。
- 意味的確信度に基づくHARQ（SHARQ）は，従来のHARQに対してさらに1.5dBの利得をもたらす。
Link: https://arxiv.org/abs/2604.22269
対照的意味投影：対照例を用いた忠実なニューロンラベリング [cs.DC, cs.AR, cs.CV, cs.LG]目的：深層ネットワーク内部ユニットへのテキスト記述の割り当て
- 深層学習モデルの解釈性は，モデルの信頼性と安全性向上に不可欠である。
- 既存手法は活性が高い例に依存し，誤解を招くラベリングになりがちである。
- 対照例を活用し，より忠実で詳細なニューロンラベリングを実現する。
- 対照的な画像セットをVLMに提供することで，より具体的で忠実な候補ラベルが得られることが示された。
- Contrastive Semantic Projection (CSP) により，CLIPベースのスコアリングと選択パイプラインが改善された。
- メラノーマ検出に関するケーススタディを含む実験により，対照ラベリングが最新手法を上回ることが示された。
Link: https://arxiv.org/abs/2604.22477
AIエージェントはどのように資金を使うか？エージェント型コーディングタスクにおけるトークン消費の分析と予測 [cs.CL, cs.AI, cs.CY, cs.HC, cs.SE]目的：エージェント型コーディングタスクにおけるトークン消費パターン
- AIエージェントの普及により，LLMトークン消費が急増しており，コスト管理が重要になっている。
- タスクによってはトークン消費量が大きく，その内訳や予測が困難である。
- エージェント型コーディングタスクにおけるトークン消費パターンを明らかにし，トークン効率の改善に貢献する。
- エージェント型タスクは，従来のコード推論やチャットと比較してトークン消費量が1000倍も多いことが判明した。
- トークン消費量はタスクごとに大きく変動し，消費量と精度には必ずしも相関関係がないことが示された。
- モデルによってトークン効率に大きな差があり，GPT-5と比較してKimi-K2やClaude-Sonnet-4.5の消費量が大幅に多いことが明らかになった。
Link: https://arxiv.org/abs/2604.22750
シリコン哲学者における異質性の崩壊 [cs.CY, cs.CL, cs.LG]目的：言語モデルによる哲学的な立場や分野間の相関構造の再現性の評価
- AIアライメント研究において，人間の判断を代替する低コストな手法の必要性が高まっている。
- 言語モデルは，専門家であっても特定の分野の意見を過度に相関させる傾向がある。
- シリコンサンプルが人間の意見を正確に反映しているか検証し，その限界を明らかにすること。
- 言語モデルは哲学的な判断において，本来存在すべき多様性を失わせる。
- この現象は，専門家間の意見が類似しているという暗黙の前提に起因する部分がある。
- DPOによるファインチューニングやPhilPapers調査データを用いた検証でも，同様の結果が得られた。
Link: https://arxiv.org/abs/2604.23575
大規模アトミックモデルと大規模言語モデルの能動的融合による超伝導体発見の加速 [cs.LG, cond-mat.mtrl-sci]目的：超伝導体発見のための，大規模アトミックモデルと大規模言語モデルを統合したエージェント的フレームワーク
- グローバルなエネルギー及び量子技術の転換において，新材料の発見は不可欠である。
- 既存の予測・生成モデルは孤立して動作し，発見プロセス全体を自律的に実行するオーケストレーション機能に欠ける。
- アトミックモデルと言語モデルを連携させ，材料発見プロセス全体を統合的に実行することを目指す。
- ElementsClawは，28 GPU時間で240万個の結晶をスクリーニングし，68,000個の高信頼性候補を特定した。
- 既存のデータセットと比較して，超伝導空間を大幅に拡張し，文献に隠された超伝導体を高い確率で発見した。
- 実験的に検証された4つの新規超伝導体（Zr3ScRe8 (Tc=6.8K) や HfZrRe4 (Tc=6.7K) など）を発見した。
Link: https://arxiv.org/abs/2604.23758
脳機能の基盤モデルの反転：シミュレーションに基づく推論 [cs.LG, cs.AI, stat.ML]目的：脳活動からの刺激またはその特性の復元
- 脳科学研究において，複雑な刺激に対する神経応答をシミュレーションする基盤モデルの重要性が高まっている。
- 脳活動から刺激を復元する逆問題は，モデルの妥当性検証や脳機能の解明において課題となっていた。
- 本研究は，基盤脳モデルを用いたデコードと逆設計への一歩を目指し，その可能性を探る。
- TRIBEv2を用いた実験により，脳地図から潜在的な刺激パラメータが復元可能であることが示された。
- この結果は，ニューラルエンコーディングの質を検証するとともに，LLMが制御可能な刺激生成器として機能することを示唆する。
- 基盤脳モデルによるデコードと逆設計への応用が期待される。
Link: https://arxiv.org/abs/2604.23865
TCOD：マルチターン自律エージェントのためのオンポリシー蒸留における時間的カリキュラムの探求 [cs.LG, cs.AI]目的：マルチターン自律エージェントにおけるオンポリシー蒸留の改善
- 大規模言語モデルを小規模モデルへ転移する技術は，計算資源の制約下での応用を可能にするため重要である。
- マルチターン環境では，誤差の蓄積により教師信号が不安定になり，学習が困難になるという課題がある。
- 時間的カリキュラムを導入することで，誤差の蓄積を抑制し，安定した学習を実現することを目指す。
- 提案手法TCODは，KLダイバージェンスの増大を抑制し，学習の安定性を向上させることを実験的に示した。
- TCODは，既存のオンポリシー蒸留と比較して，最大18ポイントの性能向上を達成した。
- TCODは，教師モデルの性能を上回り，教師が失敗するタスクに対しても汎化できることが示された。
Link: https://arxiv.org/abs/2604.24005
FedSLoP：低ランク勾配射影を用いたメモリ効率の良い連合学習 [cs.LG, math.OC]目的：連合学習における通信量とメモリコストの削減
- プライバシー保護が重要視されるデータ活用において，分散型機械学習の基盤技術。
- 従来の連合学習は，異質環境下で通信・メモリ負荷が高く，収束が遅いという課題がある。
- 低ランク勾配射影により，通信量とメモリ使用量を削減しつつ，最適化の進行を維持する。
- FedSLoPは，勾配の確率的低ランク部分空間への射影を組み合わせることで，通信および保存される更新の次元を削減する。
- 理論的には，滑らかさと有限分散性を仮定した場合，FedSLoPは$O(1/\sqrt{NT})$の収束率で一階停留点に収束することが保証される。
- 実験的に，FedSLoPは，FedAvgやその他のベースラインと比較して，通信量とクライアント側のメモリを大幅に削減しつつ，競争力のあるまたはより良い精度を達成する。
Link: https://arxiv.org/abs/2604.24012
CommFuse：分散LLM学習における通信分解と融合による末尾遅延の隠蔽 [cs.LG, cs.CV, cs.DC]目的：分散LLM学習における末尾遅延の解消
- 大規模言語モデルの発展により，計算負荷分散が不可欠となっている。
- 並列化戦略はデータ通信のオーバーヘッドが大きく，計算効率を阻害する。
- テンソル並列とデータ並列における通信ボトルネックを軽減し，効率的な学習を目指す。
- CommFuseは，従来の集合演算をP2P通信に置き換え，細粒度のオーバーラップを実現する。
- 提案手法は，通信オーバーヘッドを削減し，末尾遅延を解消する正確なアルゴリズムを提供する。
- 実験により，遅延の低減，MFUの向上，高いスループットが確認された。
Link: https://arxiv.org/abs/2604.24013