arXiv雑要約

AI - 2026/05/07 公開

幻覚のない要件再利用のためのニューロシンボリックエージェント [cs.SE, cs.AI]目的：要件再利用のプロセス
- 要件の再利用は，ソフトウェア開発の効率化と品質向上に不可欠である。
- 従来の要件再利用手法は，厳格なテンプレートに依存し，柔軟性に欠ける。
- 大規模言語モデルの幻覚による無効な要件生成を防ぐ手法の確立。
- 本研究では，ニューロシンボリックなマルチエージェントシステムを提案し，要件再利用をモデル駆動型抽出プロセスとして再定義した。
- 形式的なOOMRAM要件ラティスと大規模言語モデルを組み合わせ，構造的に有効な要件の組み合わせを生成することで，幻覚を効果的に排除した。
- 評価の結果，100%の要件カバレッジと0.2%の制約違反率を達成し，生成された全ての仕様が構造的に有効であることが確認された。
Link: https://arxiv.org/abs/2605.01562
インセンティブと修正によるAIアラインメント [cs.LG, cs.AI]目的：AIアラインメントの達成に向けたインセンティブ設計と修正メカニズム
- AIの能力向上に伴い，その行動が社会に与える影響の重要性が増している。
- AIの意図しない行動や誤りを防ぐための効果的なアラインメント手法が課題となっている。
- AIに対するインセンティブ構造を最適化することで，誤りを検出し，修正し，より安全なAIを構築する。
- AIの行動を，インセンティブと罰則の経済モデルに基づいて分析することで，より現実的なアラインメント戦略を提案した。
- 報酬設計は，直接的な意味だけでなく，それが誘導する行動均衡によって評価されるべきであることを示した。
- LLMのコーディングパイプライン実験により，適応的な報酬プロファイルが，手動設計の報酬よりも優れた結果をもたらすことを確認した。
Link: https://arxiv.org/abs/2605.01643
プローブ幾何学的アライメント：偶然以下でのクロスシーケンス記憶シグネチャの消去 [cs.LG, cs.AI, cs.CR, cs.NE]目的：大規模言語モデルにおける行動的アンラーニング後の内部トレースの除去
- 大規模言語モデルの安全性とプライバシー保護は，その普及に伴い重要性が増している。
- 言語モデルが学習データを記憶し，悪意のあるプローブによってその情報を抽出される可能性がある。
- プローブ幾何学的アライメントによって，記憶シグネチャを効率的に除去し，性能劣化を防ぐことを目指す。
- クロスシーケンスプローブを用いて記憶シグネチャを評価し，その存在とモデルの規模との関係を明らかにした。
- プローブ幾何学的アライメント（PGA）は，記憶シグネチャを偶然レベル以下に抑制することに成功した。
- PGAは，モデルの性能をほとんど損なうことなく，記憶の除去を実現し，再学習による攻撃にも耐性があることを示した。
Link: https://arxiv.org/abs/2605.01699
SignVerse-2M：55以上の手話言語を網羅する200万件のポーズネイティブなデータセット [cs.CV, cs.AI, cs.CL]目的：多言語手話ポーズモデリングと評価のための大規模データセット
- 手話認識・翻訳は，言語的障がいを持つ人々とのコミュニケーションを円滑にする上で不可欠である。
- 既存の手話データセットは，実世界の多様な環境での汎化性能が課題となっている。
- 本研究は，実世界での応用を考慮したポーズネイティブな手話データセットを構築し，その有効性を示す。
- SignVerse-2Mは，公開されている多言語手話動画資源を用いて構築された，200万件以上の動画クリップからなる大規模データセットである。
- 全ての動画はDWPoseを用いて2Dポーズシーケンスに変換されており，ポーズ駆動型生成モデルとの直接的なインターフェースが可能である。
- このデータセットは，55以上の手話言語を網羅し，実世界の多様な環境における手話認識・翻訳の性能向上に貢献する。
Link: https://arxiv.org/abs/2605.01720
NeuroState-Bench：LLMエージェントプロファイルの整合性評価のための人間校正ベンチマーク [cs.AI]目的：LLMエージェントプロファイルの整合性評価
- 大規模言語モデルの応用範囲拡大に伴い，一貫性のあるタスク遂行能力の評価が重要である。
- 従来の成果のみの評価では，マルチターンタスクにおけるコミットメントの維持状況が不明確である。
- NeuroState-Benchは，定義されたサイドクエリを用いてコミットメントの整合性を客観的に評価する。
- 人間による校正の結果，評価の一貫性が高いことが確認された（weighted kappa = 0.977, ICC(2,1) = 0.977）。
- タスク成功率とコミットメント整合性は必ずしも一致せず，整合性に基づいたランキングは，分散データに対してより安定していることが示された。
- 提案する評価指標HCCIS-COREは，タスク失敗の診断において高い識別能力を発揮する（AUC=0.8469）。
Link: https://arxiv.org/abs/2605.01847
ラマンベンチ：ラマン分光法における機械学習の大規模ベンチマーク [eess.SY, cs.RO, cs.SY, cs.LG, cs.AI]目的：ラマン分光法における機械学習の標準化されたベンチマーク
- ラマン分光法は，非侵襲的な分子分析として広く利用されており，様々な分野で重要である。
- データセットの断片化や評価の一貫性の欠如により，機械学習の進捗が制限されている。
- 本研究は，ラマン分光法における機械学習の進展を加速させるための基盤を提供する。
- 本ベンチマークは，74のデータセット (新規公開16件を含む) を統合し，分類と回帰タスクを網羅する。
- Tabular Foundation Model (TFM) が，ドメイン固有の方法や勾配ブースティングよりも一貫して優れた性能を示した。
- しかし，どの手法もデータセット全体で汎化することはできず，根本的な課題が残されている。
Link: https://arxiv.org/abs/2605.02003
多様体整合型ガイダンス付き統合勾配による信頼性の高い特徴量帰属 [cs.LG, cs.AI, cs.CV]目的：深層ニューラルネットワークの特徴量帰属手法
- 深層学習モデルの解釈可能性は，モデルの信頼性を高め，改善に不可欠である。
- 既存の統合勾配法は，ノイズの多い勾配領域を通る経路で不安定になる場合がある。
- 学習された生成多様体に沿った経路を構築し，信頼性の高い帰属を達成すること。
- 本研究で提案するMA-GIGは，潜在空間で経路を構築することで，不自然な入力領域への露出を軽減する。
- 定性的・定量的な評価により，MA-GIGが入力に近い経路の特徴量に基づいて忠実な説明を生成することが示された。
- その結果，多様体外ノイズが減少し，既存手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2605.02167
Anon：SGDとAdamを超えた適応性の外挿 [cs.AI, cs.LG]目的：最適化手法における適応性の限界克服と，その性能向上
- 深層学習モデルの学習において，最適化手法は重要な役割を担う。
- 適応的最適化手法は汎化性能が低い場合がある。
- 多様な最適化状況への適応性を高め，既存手法の性能を上回ること。
- Anonは，SGDとAdamの間の連続的な適応性調整を可能にし，両者の利点を統合する。
- 勾配ノイズに対するロバスト性を高めるIDUメカニズムを導入し，収束性を保証する。
- 画像分類，拡散モデル，言語モデリングタスクにおいて，Anonは最先端の最適化手法を上回る性能を示す。
Link: https://arxiv.org/abs/2605.02317
頑健な方策最適化への原理に基づいたアプローチ：ANO [cs.AI, cs.LG]目的：頑健な方策最適化手法の設計空間
- 強化学習やLLMの調整は，AIの発展に不可欠であり，その安定性と効率性が重要である。
- 既存手法は，勾配の扱いにおいて不安定性や方策崩壊といった問題を抱えている。
- 外れ値への抑制とスムーズな回復力を両立する，原理に基づいた方策最適化手法を開発する。
- 提案手法ANOは，従来のPPOにおけるハードクリッピングの問題を解決し，より効率的な学習を可能にする。
- 連続制御と離散制御の両タスクにおいて，ANOは最先端の結果を達成し，特に高い学習率下でも方策崩壊を防ぐ。
- LLMの調整において，ANOはPPO，SPO，GRPOを上回り，KL divergenceの爆発を防ぎ，高いwin rateを達成する。
Link: https://arxiv.org/abs/2605.02320
Z領域における安定な有理ニューラル演算子：離散時間ダイナミクスのための [cs.LG, cs.NA, math.NA]目的：離散時間ダイナミクスに対する安定な有理ニューラル演算子の開発
- システム同定は，物理現象の理解や制御に不可欠であり，多くの工学分野で重要である。
- 既存の演算子学習手法は連続時間問題に偏っており，離散時間システムへの適用が難しい場合がある。
- 本研究は，安定な有理離散時間ダイナミクスを効率的に学習する新たなモデルを提案し，その性能を検証する。
- ZNOは，$z$平面上で直接パラメータ化された安定な低ランク多入力多出力（MIMO）有理フィルタを用いることで，安定性を保証する。
- 制御されたシステム同定実験において，ZNOは特に安定な有理システムで有効であり，単位円に近い極を持つ場合に優位性を示す。
- 公開されている非線形システム同定ベンチマークにおいても，ZNOは競争力のある性能を示し，特に有理離散時間フィルタに合致するダイナミクスにおいて最良の結果を達成する。
Link: https://arxiv.org/abs/2605.02356
ストレスがシグナルとなる時：マルチエージェントLLMシステムにおける耐脆弱性適合領域の検出 [cs.MA, cs.AI, cs.CE]目的：マルチエージェントLLMシステムにおける耐脆弱性適合領域の検出
- 複雑な課題解決にLLMシステム活用が進む中，その性能評価は重要である。
- 既存評価は主に堅牢性に焦点を当て，ストレスへの学習可能性は未解明である。
- ストレスが示す構造的変動を捉え，将来的な耐脆弱性学習を支援する。
- CAFE（認知的な耐脆弱性評価フレームワーク）を提案し，ストレス分布の差異を統計的に検出した。
- 実験の結果，全アーキテクチャでストレスが平均品質を低下させたが，耐脆弱性適合な形状が確認された。
- CAFEは耐脆弱性学習自体ではないが，その適用可能性を判断するための測定層となる。
Link: https://arxiv.org/abs/2605.02463
物語の因果推論のためのグラフィカル世界モデル：Shadow-Loom [cs.AI, cs.CL]目的：物語の因果関係をグラフィカルな世界モデルとして表現し，読者の感情を分析するフレームワーク
- 物語は読者の興味を引きつけるため，因果関係や伏線が重要である。その構造的分析が求められる。
- 既存の手法では，物語の因果関係と読者の感情を同時にモデル化することが困難であった。
- 物語の構造を分析し，読者の感情（ミステリー，ドラマティック・アイロニー等）を定量化することを目指す。
- 本研究では，Pearlの因果の階層と，Ancestral Multi-World Networksを用いた反事実推論を組み合わせた。
- 読者の感情状態を評価するため，Sternbergの理論に基づき，物語構造に対するスコアリングを行った。
- 大規模言語モデルはデータ抽出と検証に限定し，推論処理は型付きコードで行うことで，透明性と再現性を確保した。
Link: https://arxiv.org/abs/2605.02475
GRAIL：SLM強化インデックスによるリアルタイムエージェント探索のための深層粒度ハイブリッド共鳴フレームワーク [cs.AI, cs.CL, cs.IR]目的：LLMベースのエージェント探索の効率性と正確性の向上
- LLMエージェントの利用拡大に伴い，大規模協調に不可欠なエージェント探索が重要となる
- 既存手法は，遅延と精度に課題があり，実用上のボトルネックとなっている
- 高速かつ高精度なエージェント探索を実現し，大規模協調を促進することを目指す
- 本研究では，従来のLLM解析ベースラインと比較して79倍以上の探索遅延の短縮を達成した。
- また，大規模データセットAgentTaxo-9Kにおいて，従来のベクトル検索よりも高いRecall@10を確立した。
- GRAILは，リアルタイム「エージェントのインターネット」を実現するための，スケーラブルで産業利用可能なソリューションを提供する。
Link: https://arxiv.org/abs/2605.02489
HADESを用いた薬物誘発性肝障害に対する説明可能な仮説駆動型アプローチ [cs.AI]目的：薬物誘発性肝障害のメカニズム解明と予測
- 医薬品開発において，後期臨床試験での失敗要因となる薬物誘発性肝障害の予測は重要である。
- 既存の予測モデルは二値分類に依存しており，汎用性やメカニズム解明に限界がある。
- メカニズムに基づいた仮説生成を通じて，より正確な薬物誘発性肝障害の予測を目指す。
- HADESは，既存モデルと比較して二値分類性能において優れており，ROC-AUCはそれぞれ0.68と0.59を達成した。
- DILER Benchmark上で，HADESはメカニズムに基づく仮説生成の基盤となり，Hypothesis Alignment Fuzzy Jaccard Indexは0.16を示した。
- この結果は，予測毒性学における説明可能なアプローチの必要性を示唆している。
Link: https://arxiv.org/abs/2605.02669
全国医療費請求データからのリアルワールドエビデンスを活用するための基盤モデル [cs.AI, cs.CL]目的：全国的な医療費請求データからのリアルワールドエビデンスの活用
- 医療政策や臨床判断において，大規模なリアルワールドデータの重要性が高まっている。
- 医療費請求データは有用だが，その潜在能力を最大限に引き出すための基盤モデルは未開拓である。
- 医療費請求データを基盤とした基盤モデルを構築し，その有効性を検証する。
- ReClaimは，2008年から2022年にかけてのMarketScanデータから学習した，14億パラメータ規模の生成変換モデルである。
- 1,000以上の疾患発症予測タスクにおいて，AUC平均値は75.6%と，既存モデルを大きく上回った。
- ReClaimは，医療費予測の分散説明率を向上させ，標的試験エミュレーションにおける系統的バイアスを減少させた。
Link: https://arxiv.org/abs/2605.02740
CreativityBench：アフォードンスに基づく道具の再利用を通じたエージェントの創造的推論の評価 [cs.AI, cs.CL, cs.LG]目的：アフォードンスに基づく創造性の評価基準
- 大規模言語モデルの進化は目覚ましいが，創造的な問題解決能力の探求は十分ではない。
- 既存のモデルは，道具の慣例的な使い方に頼りがちで，アフォードンスに基づいた創造的な道具の再利用が苦手である。
- モデルがアフォードンスを理解し，創造的な道具の再利用を可能にするための評価基準を確立すること。
- CreativityBenchは，4000のエンティティと15万件以上のアフォードンス注釈を含む大規模なアフォードンス知識ベースを構築した。
- この知識ベースに基づき，1万4000のタスクを生成し，非自明だが物理的に妥当な解決策を特定する必要性を課した。
- 最新のLLMの評価結果から，モデルは妥当なオブジェクトを選択できるものの，適切な部品やアフォードンス，物理メカニズムの特定に苦戦していることが示された。
Link: https://arxiv.org/abs/2605.02910
構造化拡散ブリッジ：ノイズ除去拡散ブリッジのための誘導的バイアス [cs.LG, cs.AI]目的：モダリティ変換における解空間の特性評価と制約
- モダリティ変換は多様な応用を可能にする重要な技術である。
- 従来のモダリティ変換は，完全なペアデータセットに依存し制約が強い。
- ペアリング要件を緩和し，アンペアデータでも適用可能な枠組みを構築する。
- 拡散ブリッジフレームワークは，アラインメント制約を通じて解空間を制限する。
- ペアデータがなくても，あるいはペアが不完全な場合でも，一貫した性能を示す。
- 完全ペアレベルの品質を，ペアリング要件の大幅な緩和をもって実現した。
Link: https://arxiv.org/abs/2605.02973
ADAPTS：症状の自動プロトコル非依存追跡のためのエージェント分解 [cs.AI, cs.CL, cs.HC, stat.AP, stat.CO]目的：うつ病および不安障害の重症度評価の自動化
- 感情計算における臨床的構築物のモデリングは重要であり，精神疾患の客観的評価に貢献しうる。
- 制約のない臨床的対話から潜在的な臨床的構築物をモデル化することは，困難な課題である。
- プロトコルに依存しない方法で，専門家レベルの精度の精神疾患重症度評価を可能にすること。
- ADAPTSフレームワークは，異なるインタビュー構造を持つ2つの独立したデータセットで評価された。
- 高不一致のインタビューにおいて，自動評価は専門家のベンチマークにより近い精度を示した。
- 質的臨床慣習を組み込んだ「拡張」プロトコルにより，評価の安定性が大幅に向上した。
Link: https://arxiv.org/abs/2605.03212
RLDX-1 技術報告 [cs.RO, cs.AI, cs.LG]目的：汎用ロボットポリシRLDX-1の開発
- ロボット工学の発展は，人間の生活を豊かにし，労働環境を改善する上で不可欠である。
- 既存のビジョン-言語-行動モデルは，複雑な現実世界のタスクにおいて機能的な能力が不足している。
- 本研究は，多様な機能的要件を満たす高度なロボットポリシを開発し，実用的なロボットの実現を目指す。
- RLDX-1は，Multi-Stream Action Transformer (MSAT) アーキテクチャに基づき，多様なモダリティを統合することで，高度な操作能力を実現した。
- シミュレーションベンチマークおよび現実世界タスクにおいて，最新のVLAモデル（$\pi_{0.5}$，GR00T N1.6など）を上回る性能を示した。
- 特に，ALLEX humanoidタスクにおいて86.8%の成功率を達成し，既存モデル（約40%）と比較して優れた制御能力を実証した。
Link: https://arxiv.org/abs/2605.03269
構造的マルチモーダル表現へ：専門化，選択，疎化によるMoE [cs.CL, cs.LG, cs.AI]目的：マルチモーダル表現の構造化
- 多様な情報源の統合が重要であり，より高度なAIシステムの実現に不可欠である。
- 既存手法では，全ての信号を固定長の埋め込みに変換するため，情報損失や効率の悪化が課題である。
- 選択可能な意味的要素としてマルチモーダル表現を構造化し，効率性と性能の両立を目指す。
- 提案手法S3は，マルチモーダル入力を意味的専門家に分解し，タスクごとに選択的にルーティングする。
- 実験結果から，S3は精度向上と，疎性と性能の間に一貫した逆U字型の関係を示すことが確認された。
- 構造化された表現が，対照学習やInfoMaxアプローチに対する実用的かつ原理的な代替案となる可能性を示唆する。
Link: https://arxiv.org/abs/2605.03348
ReasonAudio：テキストと音声の検索におけるマッチングを超えた推論を評価するためのベンチマーク [cs.AI]目的：テキストと音声の検索における推論能力の評価
- マルチモーダルコンテンツの急増に伴い，メディア検索やインテリジェントアシスタントにおいて音声検索技術が重要となっている。
- 既存のベンチマークは意味的なマッチングに重点を置いており，否定理解や時間的順序など，より高度な推論能力を評価できていない。
- テキストと音声の検索において，否定，順序，重複，期間，混合といった基本的な推論タスクに対応できるモデルの評価を目指す。
- 既存の最先端モデル10個を評価した結果，すべてのモデルが推論を必要とする音声検索で苦戦しており，特に否定と期間に関する性能が低いことが明らかになった。
- マルチモーダル大規模言語モデルベースの埋め込みモデルは，コントラスト学習によるファインチューニングを通じて，基盤モデルの推論能力を十分に引き継げていない。
- 現在の学習パラダイムでは，検索設定において推論能力を維持することが困難である可能性が示唆された。
Link: https://arxiv.org/abs/2605.03361
密度に基づく幾何：少数のサンプルを用いたクロスドメインOOD検出 [cs.AI]目的：少数のサンプルと事前学習済みモデルを用いた，未知分布のデータ検出
- 安全なシステム展開には，モデルの学習分布外のデータを識別する機能が不可欠である。
- 既存のOOD検出器は特定のドメインに特化しており，汎用性に欠ける。
- 学習データが少ない状況下でも，様々なドメインでOOD検出を可能にすることを目指す。
- 拡散過程の軌跡を幾何学的に解析するUFCODフレームワークを提案した。
- 拡散過程におけるスコア関数のエネルギー特性（Path Energy，Dynamics Energy）に着目した。
- 単一の学習済みモデルで，12個のクロスドメインベンチマークにおいて，高い検出精度を達成した。
Link: https://arxiv.org/abs/2605.03410
3D異常検知のためのマルチスケール詳細度特徴からの識別符号付き距離関数の学習 [cs.CV, cs.LG]目的：3D点群における異常検知のための識別符号付き距離関数の学習
- 3D点群処理は，自動運転やロボティクス等の分野で重要性が増している。
- 点群の規模が大きく，疎であるため，点ごとの正確な表現学習が難しい。
- マルチスケール詳細度特徴を用いて，異常と正常の識別を可能にする符号付き距離関数を学習する。
- 提案手法は，Anomaly-ShapeNetおよびReal3D-ADデータセットにおいて，平均オブジェクトレベルのAUROCで92.1%と85.9%を達成した。
- 既存の最良手法と比較して，それぞれ2.1%と3.6%高い性能を示した。
- ノイズ生成モジュールとマルチスケール特徴モジュールにより，よりロバストな異常検知が可能となった。
Link: https://arxiv.org/abs/2605.03437
ニューラルネットワークにおける計算を力学系とグラフ理論で統一的に理解する [cs.NE, cs.AI]目的：ニューラルネットワークにおける計算のメカニズム解明
- 脳科学と機械学習において，接続性からの計算原理の理解は重要課題である。
- 構造的接続性と機能的接続性の乖離が問題であり，単純な接続関係だけでは説明できない。
- 多段パスに着目し，構造と機能の関係を明らかにし，スパース性の向上を目指す。
- RNNの空間的・時間的機能をグラフとしてモデル化し，入力と出力間の多段パスを分析することで，ネットワークの情報伝達経路を可視化した。
- 標準的な正則化は単一のホップ構造を制約するのに対し，R-RNNは多段パスを制約し，より高度な時間的スパース性を誘導する。
- R-RNNは，タスク構造に合致した時間的スパース性を誘導することで，L1正則化よりも優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2605.03598
コードから予測へ：NNGPTにおけるニューラルネットワーク性能分類のためのLLMのファインチューニング [cs.LG, cs.CV]目的：ニューラルネットワークのコードから，データセット間の性能予測
- AutoMLの発展に伴い，LLMの活用が重要視されている。
- 既存研究では，LLMの生成結果を評価することに重点が置かれ，性能予測能力は未解明である。
- ニューラルネットワークのコードからデータセット間の性能差を予測する手法を確立すること。
- ファインチューニングされたLLMは，ニューラルネットワークのコードからデータセット間の性能を予測できることが示された。
- コードのみを提示したプロンプトは，メタデータを含めたプロンプトよりも高い汎化性能を示した。
- モデルの容量が，この種のアーキテクチャ推論の性能に影響することが確認された。
Link: https://arxiv.org/abs/2605.03686
正解だけでは不十分：実行に基づいた報酬による推論プランナーの学習 [cs.SI, cs.RO, cs.AI, cs.CL]目的：推論プランナーの学習における，実行器のgroundedな報酬を用いた手法
- 大規模言語モデルにおける明示的な推論能力の向上は重要であり，検証可能な報酬を用いた強化学習が一般的。
- 最終的な正答のみでは，推論過程の信頼性やモデルへの有用性が不明確であり，誤った理由による正答が強化される可能性。
- 推論過程自体を価値ある中間成果物と捉え，実行器による改善度を報酬に反映することで，より質の高い推論を学習する。
- 提案手法TraceLiftは，プランナーが出力した推論を，フリーズされた実行器が最終成果物に変換し，その改善度を報酬としてプランナーにフィードバックする。
- TRACELIFT-GROUPSという，推論のみのデータセットを導入し，質の高い推論と，局所的な摂動を加えた不完全な推論を比較することで，推論の質を直接学習可能にした。
- コードと数学のベンチマーク実験により，この手法が実行のみの学習よりも優れていることが示され，推論の評価は見た目だけでなく，モデルへの貢献度も考慮すべきであることが示唆された。
Link: https://arxiv.org/abs/2605.03862
PHALAR：学習された音楽オーディオ表現のための位相表現 [cs.SD, cs.AI, cs.LG, eess.SP]目的：音楽オーディオのステム検索における精度向上
- 音楽制作において，楽曲の分離・編集は重要な処理であり，その効率化が求められている。
- 既存手法は時間情報を十分に活用できず，精度向上のボトルネックとなっていた。
- 時間情報を考慮した新たな手法により，より高精度なステム検索を実現すること。
- PHALARは，最先端モデルと比較して約70%の精度向上を達成し，パラメータ数と学習時間を大幅に削減した。
- 学習されたスペクトルプーリング層と複素数値ヘッドの導入により，音高と位相に対する偏りを効果的に学習した。
- MoisesDB，Slakh，ChocoChoralesの各データセットで最先端の性能を確立し，人間による評価との高い相関性を示した。
Link: https://arxiv.org/abs/2605.03929
iWorld-Bench：統一的な行動生成フレームワークを備えたインタラクティブなワールドモデルのベンチマーク [cs.CV, cs.AI]目的：インタラクティブなワールドモデルの物理的相互作用能力の評価
- 汎用人工知能実現には，適応的に学習・相互作用するエージェントが不可欠であり，ワールドモデルはそのための重要な基盤となる。
- 大規模なデータセットや，物理的相互作用能力を評価するための統一的なベンチマークが不足している。
- 距離認識や記憶など，相互作用に関連する能力に関するワールドモデルの訓練とテストを行うための包括的なベンチマークを提供する。
- iWorld-Benchは，33万件のビデオクリップを含む多様なデータセットを構築し，2100件の高品位サンプルを選択した。
- 既存のワールドモデルの相互作用モダリティの違いに対応するため，評価を統一するための行動生成フレームワークを導入し，6種類のタスクを設計した。
- 14の代表的なワールドモデルを評価し，その限界を特定するとともに，今後の研究への洞察を提供した。
Link: https://arxiv.org/abs/2605.03941
初期表現への選択的アクセスを持つTransformer [cs.LG, cs.CL]目的：初期表現の再利用における選択的アクセス機構の提案
- Transformerは自然言語処理の基盤技術であり，その性能向上は重要である。
- Transformerの深層化に伴い，初期の低レベル特徴が失われやすいという課題がある。
- 文脈に応じて初期表現へのアクセスを制御することで，性能向上を目指す。
- 提案手法SATFormerは，1億3千万から13億パラメータのモデルで，検証損失とゼロショット精度を改善した。
- 特に検索を要するベンチマークにおいて，静的残差と比較して約1.5ポイントの改善が見られた。
- ゲート分析から，アクセスパターンが疎で，深さ，ヘッド，カテゴリに依存することが示唆された。
Link: https://arxiv.org/abs/2605.03953
分布主成分オートエンコーダ [stat.ML, cs.LG, stat.ME]目的：データの分布を維持した次元削減手法
- 高次元データの解析には次元削減が不可欠であり，計算コスト削減や可視化に貢献する。
- 従来の次元削減は情報を失うことが多く，元のデータの分布を再現できないという課題がある。
- 元のデータの分布を維持しながら次元削減を実現し，より精度の高いデータ解析を可能にすること。
- 提案手法DPAは，データの潜在変数を学習し，その分布を再構築することで，元のデータの分布を維持する。
- 気候データ，シングルセルデータ，画像データを用いた実験で，DPAが元の分布を効果的に再現できることが示された。
- DPAによる埋め込み表現は，降水量の季節サイクルや遺伝子発現の細胞型など，データの意味のある構造を保存することが確認された。
Link: https://arxiv.org/abs/2404.13649
治療結果に対するバイアス補正基準の改善：効果の定量化によるアプローチ [stat.ML, cs.LG, stat.ME]目的：バイアス補正の効果の定量化
- 医療データベースの利用拡大に伴い，観察研究の重要性が増している。
- 観察研究では選択バイアスが発生しやすく，適切な補正が課題である。
- 傾向スコアを用いたマッチングの信頼性向上を目指す。
- 新しい指標A2Aを導入し，マッチング方法の性能を包括的に評価した。
- A2Aと標準化平均差を組み合わせることで，ATE推定誤差を最大50%削減できた。
- 再現性とアクセシビリティを高めるため，自動化パイプラインとPythonパッケージpopmatchを開発した。
Link: https://arxiv.org/abs/2407.14861
モデルフリー確率的シミュレーションにおける並列探索と再開戦略の効率性 [math.PR, cs.LG]目的：モデルフリー環境下の確率的シミュレーションにおける並列化と再開メカニズムの効率性
- 強化学習や稀少事象評価など，システムダイナミクスが未知の状況で重要となる研究分野である。
- 従来の重要度サンプリング等の分散削減手法が適用できないため，稀少状態への到達が課題となっている。
- 限られた計算資源下で稀少状態への到達確率を向上させることを目指している。
- 並列シミュレーション数が増加すると，成功確率が遷移し，最適な数N*が存在することが示された。
- N*を超えると性能は指数関数的に低下する。多様な探索とシミュレーション時間配分のバランスが重要である。
- 停滞した経路から有望な領域へ資源を再配分する再開戦略は，成功確率を指数関数的に改善する可能性がある。
Link: https://arxiv.org/abs/2503.03565
フランス大西洋岸における過去の極端な斜め波浪の多地点モデリングと再構築 [stat.AP, cs.LG, stat.ML]目的：極端な斜め波浪のモデリングと再構築
- 沿岸地域のリスク管理において，極端な現象の正確なモデリングは不可欠である。
- 地点間の極端な依存構造の把握が困難であり，正確な予測を阻害している。
- 限られたデータしかない地点における過去の斜め波浪時系列を再構築する。
- 多変量一般パレート分布を用いて極端値をモデリングし，近隣地点の観測値に基づいた予測モデルを構築した。
- 入力変数のノルムで割った「角度」のみを用いる新しい極端回帰フレームワークが評価された。
- 長期間の記録を持つ地点（ブレスト，サン＝ナゼール）のデータを用いて，過去の斜め波浪時系列を再構築することに成功した。
Link: https://arxiv.org/abs/2505.00835
ネットワーク干渉下におけるスケーラブルな方策最大化 [stat.ML, cs.LG]目的：ネットワーク干渉下における最適な方策学習
- 個々の処置が他者に影響を及ぼす干渉現象は，ワクチンやクーポン等の介入において重要である。
- 既存手法は固定ネットワークの繰り返し観測に依存し，大規模ネットワークへの適用が困難である。
- 本研究は，報酬の線形性を示すことで，大規模ネットワークにおけるスケーラブルな方策学習を目指す。
- 干渉構造に関する一般的な仮定の下で，報酬が線形になることが示された。
- 新たな$n$ノードネットワークを毎ラウンド観測するThompsonサンプリングアルゴリズムを開発した。
- 提案アルゴリズムは，$n$とラウンド数に対して劣線形なベイジアン後悔限界を持つことが証明された。
Link: https://arxiv.org/abs/2505.18118
証明可能な非凸ユークリッド距離行列補完：幾何学，再構成，およびロバスト性 [math.OC, cs.CG, cs.LG]目的：部分的なペアワイズ距離から点の配置の回復
- センサーネットワークの位置特定，分子構造，多様体学習など，幅広い応用分野で重要な問題である。
- 観測される距離が不完全である場合，正確な配置の回復が困難である。
- 正定値グラム行列空間上での低ランク行列補完として問題を定式化し，幾何学的整合性を保証する。
- リーマン最適化フレームワークにより，ベルヌーイサンプリングモデル下で線形収束が確率的に示された。
- ワンステップハード閾値処理による初期化手法が，特定のサンプリング確率下で収束を保証する。
- EDMC設定に合わせた行列の非整合性の幾何学的解釈と，手法のロバスト性保証が提供される。
Link: https://arxiv.org/abs/2508.00091
過去の残響：消失する記憶とエコー状態に関する統一的視点 [stat.ML, cs.LG, math.DS]目的：リカレントニューラルネットワークにおける記憶の概念の統一
- 時系列データ処理においてRNNの重要性が増しており，その記憶メカニズム理解が不可欠である。
- 記憶，エコー状態など概念が散在し，その関係性が明確でなかった。
- RNNにおける記憶概念間の関係を明確化し，より深い理解を目指す。
- 本研究は，既存の記憶概念を共通言語で統一的に表現することに成功した。
- 概念間の新たな関連性と等価性を導き出し，既存の結果に対する別の証明を提供した。
- RNNの時間情報処理能力に対する理解を深めることに貢献する。
Link: https://arxiv.org/abs/2508.19145
天体物理学における深層学習 [astro-ph.IM, astro-ph.CO, astro-ph.EP, astro-ph.GA, astro-ph.HE, cs.AI]目的：天体物理学における深層学習の応用と可能性
- 近年の観測技術の発展により，天文学では膨大なデータが生み出されており，その解析には高度な手法が求められている。
- 既存の統計的手法では，大規模データの解析や複雑な現象のモデリングに限界がある場合がある。
- 深層学習は，物理法則や対称性を組み込むことで，少ないラベル付きデータからでも効果的な学習を可能にする。
- 深層学習は，ネットワーク構造に物理的対称性や保存則を組み込むことで，スケーラビリティ，表現力，データ効率のトレードオフを克服し，限られたラベル付きデータからの学習を可能にする。
- シミュレーションに基づく推論と異常検知は，解析的な尤度関数が利用できない複雑な分布から情報を抽出し，宇宙論解析や珍しい現象の発見に貢献する。
- マルチスケールニューラルモデリングは，天体物理学シミュレーションにおける解像度のギャップを埋め，高精度なシミュレーションから学習し，大規模計算を効率化する。
Link: https://arxiv.org/abs/2510.10713
不完全グラフ信号からの時間変化するグラフの学習 [stat.ML, cs.LG]目的：時間変化するネットワークトポロジーの同時推論と，部分的に観測されたグラフ信号からの欠損データ補完
- ネットワーク分析は，社会システムや生物学的システムなど，複雑な関係性を理解する上で不可欠である。
- 現実のネットワークデータには欠損が多く，正確な分析を困難にする場合がある。
- 欠損データが存在する場合でも，時間変化するネットワーク構造を正確に推定すること。
- 本研究では，グラフと信号の双方から情報を伝達する統合的な最適化フレームワークを提案し，高い欠損率下でも優れた性能を示す。
- 時間的な滑らかさを促す正則化項を導入することで，ノイズの影響を抑制しつつ，グラフの進化を捉える。
- 効率的なアルゴリズムを開発し，大規模ネットワークや長期的な時間スケールへの適用を可能にした。理論的な収束性も保証されている。
Link: https://arxiv.org/abs/2510.17903
学習されたデータ多様体上の等距リーマン最適化 [math.OC, cs.LG, math.DG]目的：学習されたデータ多様体における最適化手法の開発
- 機械学習やデータ科学において，内在的に低次元構造を持つ高次元データが頻繁に出現する。
- 学習された多様体上での最適化は，古典的なリーマン幾何学の理論が適用できず，収束保証がない。
- 等距接続を用いることで，学習された幾何学とユークリッド凸性の整合性を図り，最適化を可能とする。
- 等距リーマン降下法を提案し，詳細な収束解析を行った。
- 等距凸性，等距単調性，等距リプシッツ連続性は，学習された幾何学とユークリッド凸性を調和させる上で適切な仮定である。
- MNIST等のデータセット実験で，解釈可能な重心，改善されたクラスタリング，効率的な逆問題解が得られた。
Link: https://arxiv.org/abs/2510.21033
人間とコンピュータのインタラクションは精神的健康状態を予測する [q-bio.NC, cs.AI, cs.HC]目的：精神的健康状態の予測
- 精神疾患の早期発見・治療は，公衆衛生上の重要な課題である。
- 精神疾患の評価は大規模なデータ収集が困難であり，アクセスや公平性に課題がある。
- 日々のコンピュータ利用データから精神状態を推定し，評価の効率化を目指す。
- MAILAという機械学習フレームワークを開発し，カーソルやタッチスクリーンの操作記録から精神状態を推定することに成功した。
- MAILAは，13の臨床的に関連する次元において精神状態の変動を追跡し，高い精度でグループレベルでの評価を実現した。
- 従来の自己申告による評価では捉えきれない情報も捉えられ，大規模言語モデルによる精神状態の推測能力を向上させた。
Link: https://arxiv.org/abs/2511.20179
分布ロバスト正則化による多変量時系列データの欠損値補完 [stat.ML, cs.LG, stat.AP]目的：多変量時系列データの欠損値補完手法
- 時系列データは，様々な分野で活用される重要なデータ形式である。
- 欠損値の存在は分析の妨げとなり，補完手法の精度が課題となる。
- 時系列データの非定常性や系統的な欠損に起因する分布の不一致を克服する。
- 提案手法DRIOは，再構成誤差とインピュータ分布とデータ分布の最悪の場合のダイバージェンスを同時に最小化する。
- Wassersteinの曖昧性集合を用いることで，無限次元の最適化問題をサンプル軌跡に対する敵対的探索に帰着させる。
- 多様な実データセットでの実験により，DRIOが堅牢な欠損値補完と，様々な欠損シナリオ下での予測精度向上を示すことが確認された。
Link: https://arxiv.org/abs/2602.00844
目標を見つめ，真実を見逃す：AIバイアスに対する人間の責任 [q-fin.GN, cs.AI]目的：大規模言語モデルの行動に対する人間が設定する目標の影響
- AI技術の発展に伴い，その公平性や倫理的な利用が重要課題となっている。
- AIのバイアスはアルゴリズムに起因するだけでなく，人間の設計や利用方法に影響を受ける点が課題である。
- AIバイアスが人間の目標設定に起因すること，その責任所在を明らかにすること。
- LLMに下流タスクの目的（例：株価予測）を明示すると，本来独立であるべき指標にバイアスが生じる。
- 目的を意識したプロンプティングは，指標をその目的に合わせてシフトさせ，過学習を引き起こす。
- バイアスは，LLMの知識カットオフ以前のデータでは性能向上に寄与するが，それ以降のデータでは効果がない。
Link: https://arxiv.org/abs/2602.09504
LLMの著しい性能低下時：モデル劣化を検出するための統計的アプローチ [stat.ML, cs.AI, cs.LG]目的：モデル劣化の検出
- 大規模言語モデルの活用は重要性を増しており，その品質維持が不可欠である。
- モデルの最適化に伴い，性能劣化が起こりうるが，その検出は困難である。
- 本研究は，モデルの性能劣化を統計的に検出し，誤検出率を抑制することを目指す。
- 提案手法では，McNemar検定に基づく仮説検定フレームワークを用い，効率的な劣化検出を可能にした。
- モデルの各サンプルに対するスコアを比較することで，タスクレベルの集計に頼らない精度の高い評価を実現した。
- 複数のベンチマークにおける精度推定値を集約し，単一の判断へと導く3つのアプローチを提案した。
Link: https://arxiv.org/abs/2602.10144
サイートの規準の半連続緩和と，角度最小化としての自由性 [math.AG, cs.LG, math.CO]目的：直線配置の自由性を判定するための関数とその応用
- 直線配置は，代数幾何学や組合せ論において基本的な研究対象であり，その構造は様々な数学的問題に応用される。
- 直線配置が自由であるかどうかを判定することは計算量的に困難であり，効率的な判定方法が求められている。
- サイートの規準を緩和することで，自由性の判定をより現実的な計算で可能にすることを目指す。
- 非負関数$\mathfrak{S}$を導入し，これが自由な配置においてのみゼロとなることを示した。これはサイートの規準の半連続緩和である。
- $\mathfrak{S}$は幾何学的な解釈を持ち，配置が自由な対数微分を許容するかどうかを測る尺度となる。これにより，Terao予想を関数的に表現した。
- $\mathfrak{S}$は，機械学習による探索や代数的拡張手順の高速化など，自由な配置を計算的に探索するための有効な手段となりうることを示した。
Link: https://arxiv.org/abs/2604.02995
幾何学的エントロピーと連続熱密集結合性記憶における検索相転移 [math.CO, cs.DM, cond-mat.dis-nn, cs.LG]目的：連続状態を持つ現代のホップフィールドネットワークにおける熱力学的記憶容量
- 結合性記憶は，脳の情報処理メカニズムのモデルとして重要であり，その理論的基盤の理解が求められている。
- 高容量化に伴い，誤ったパターンの混入による検索性能の低下が問題となっている。
- 幾何学的制約下における記憶容量の限界と，検索のロバスト性を明らかにすることを試みる。
- ホップフィールドネットワークの熱力学的相境界を導出し，ガウスカーネルとエパネチニコフカーネルの比較を行った。
- 連続ニューロンが球面上に配置される場合，幾何学的エントロピーは球面幾何学のみに依存することが示された。
- エパネチニコフカーネルでは，ある閾値以下の負荷において誤ったパターンがノイズフロアに寄与せず，完全な検索が可能となることがわかった。
Link: https://arxiv.org/abs/2604.07401
凸緩和を用いたデータノイズ除去 [math.OC, cs.SY, eess.SY, stat.ME, cs.LG]目的：データノイズ除去手法の開発
- 高次元データ解析において，データの次元削減とノイズ除去は重要な課題である。
- 低次元多様体上のデータにノイズが混入した場合，正確な復元が困難である。
- 凸緩和を利用し，効率的なノイズ除去と復元を実現する。
- 主成分分析による次元削減と，凸包への投影を組み合わせた推定器を提案。
- 経験的なガウス分布のテール確率から超平面を推定する統計的オラクルを構築。
- 潜在分布に関する低質量条件の下で，オラクルの有限サンプル保証と，その結果得られたデノイザーのエラー境界を導出。
Link: https://arxiv.org/abs/2605.02327
治療効果の二重頑健推定における共分散に基づく内生性補正 [stat.ME, cs.AI]目的：治療効果推定における内生性の問題解決
- 医療研究において，観測されない交絡因子が治療効果推定の信頼性を損なう恐れがある。
- 処方箋の補充率など，内生性を持つ変数を用いることで推定バイアスが生じやすい。
- 二重頑健推定法における内生性問題を，道具変数を用いずに解決すること。
- 二重頑健推定は内生性下で大きなバイアスを示す一方，本研究の共分散補正推定器は不偏な治療効果を回復する。
- 栄養指導の血圧への影響を分析した結果，単純な二重頑健推定では血圧上昇が示唆された。
- 共分散補正を適用すると，この効果は統計的に有意でなくなり，既存研究と一致する結果となった。
Link: https://arxiv.org/abs/2605.03278