arXiv雑要約

AI - 2026/03/23 公開

CoverageBench: タスクとドメインにおける情報網羅性の評価 [cs.CG, cs.DM, math.CO, cs.IR, cs.AI]目的：情報網羅性の評価のためのデータセット群
- 検索システムの性能評価において，情報網羅性は重要な指標である。
- 従来の評価指標は情報網羅性を直接的に測れていない。
- 多様なタスクとドメインで情報網羅性を評価できる環境を整備する。
- 本研究では，既存のコレクションから情報網羅性を評価するためのデータセット群CoverageBenchを構築した。
- CoverageBenchは，複数のジャンルとタスクを網羅する統一的なテストベッドを提供する。
- トピック，ナゲット，関連性ラベル，ベースラインランキングはHugging Face Datasetsで公開されている。
Link: https://arxiv.org/abs/2603.20034
適合的なシフト下での共有多様体継続としての継続学習 [cs.LG]目的：継続学習における共有多様体継続のメカニズム
- 継続学習は，機械学習モデルが忘却することなく，新しいタスクを順次学習する上で重要である。
- 既存手法は忘却を抑制するが，潜在表現の進化を直接指定するものではない。
- 共有潜在サポートを維持しつつ，継続学習を実現するための幾何学的アプローチを提案する。
- 提案手法SPMA-OGは，CIFAR10やTiny-ImageNetにおいて，既存手法よりも高い旧タスク保持率と表現保持率を示した。
- 制御された合成データセットでは，アンカー幾何学のほぼ完全な保持と，新しいタスクの精度向上を達成した。
- 幾何学的なアンカー正則化が，新しい潜在サポートを作成するのではなく，共有潜在サポートを維持する継続学習において有効な誘導バイアスであることが示された。
Link: https://arxiv.org/abs/2603.20036
リソース制約のある産業IoT向け連合ハイパー次元計算 [cs.LG, cs.NI]目的：リソース制約のある産業IoTにおける協調学習の実現
- 産業IoTは，製造業の効率化や自動化に不可欠であり，その重要性は増している。
- エッジデバイスの計算資源や通信帯域の制約が，高度なデータ分析の導入を妨げる。
- 通信コストを削減し，分散環境での効率的な学習を可能にする手法の確立を目指す。
- 連合学習とハイパー次元計算を組み合わせることで，通信オーバーヘッドを大幅に削減できることが示された。
- 提案手法は，高速な収束速度と高い通信効率を実現し，大規模な産業IoT環境での利用に適している。
- ハイパー次元計算は，分散型インテリジェンスのための軽量かつ堅牢なフレームワークとして有効であることが示唆された。
Link: https://arxiv.org/abs/2603.20037
LoASR-Bench：多様な語族における低リソース自動音声認識の大型音声言語モデルの評価 [cs.CL, cs.AI]目的：低リソース言語における大型音声言語モデルの自動音声認識性能の評価
- 実用的な音声認識システムは，低リソース言語を確実にサポートする必要がある
- 既存のベンチマークは高リソース言語に偏っており，低リソース言語での性能評価が不十分である
- 異なる語族の低リソース言語における汎化性能の評価を可能にすること
- LoASR-Benchは，9つの語族から25言語を網羅し，ラテン文字と非ラテン文字の両方を含む
- 実験結果は，最新の音声言語モデルが現実世界の低リソース言語の処理に限界があることを示している
- 本研究は，多様な言語環境における音声言語モデルの適用における課題を明らかにする
Link: https://arxiv.org/abs/2603.20042
経験が最高の教師：LLM向け強化学習における効果的な探索の動機づけ [cs.AI]目的：LLMにおける効果的な探索
- LLMの汎用的な推論能力向上は重要であり，強化学習はその有効な手法として注目されている。
- 従来の強化学習は，現在のポリシー分布に閉じ込められた非効率な探索に陥りやすい。
- 報酬で指定された望ましい行動を明示的にLLMに伝えることで，探索を促進し，学習効率を向上させる。
- 提案手法HeRLは，過去の失敗事例と未達成の評価基準を反省的経験として活用し，LLMに望ましい応答の探索を促す。
- 改善の可能性が高い応答にボーナス報酬を与えることで，さらなる学習を促進する。
- 様々なベンチマークにおいて，HeRLはベースラインよりも優れた性能を示し，テスト時の自己改善にも貢献する。
Link: https://arxiv.org/abs/2603.20046
DIAL-KG：動的スキーマ誘導と進化意図評価によるスキーマフリーの漸進的知識グラフ構築 [cs.CY, cs.AI]目的：動的データ環境下における知識グラフの漸進的構築手法
- 知識グラフは検索，質問応答，推薦システム等の基盤技術であり，その重要性は増している。
- 従来の知識グラフ構築は静的で，固定されたコーパスとスキーマに依存するため，動的なデータ更新に対応しにくい。
- 本研究は，動的なデータ更新に対応し，柔軟な知識グラフ構築を実現するフレームワークを提案する。
- 提案手法DIAL-KGは，メタ知識ベースを基盤とした閉ループのフレームワークであり，知識の完全性と鮮度を維持する。
- DIAL-KGは，二重トラック抽出，ガバナンス審査，スキーマ進化のサイクルを通じて，知識グラフを漸進的に構築する。
- 実験結果から，構築されたグラフと誘導されたスキーマの品質において，DIAL-KGが最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2603.20059
レンタル型発見の終焉：AI検索がホテルと仲介業者間の権力をどのように再分配するか [cs.IR, cs.AI]目的：ホテルと仲介業者間の権力再分配
- 旅行業界において，ホテルが顧客獲得に依存している仲介業者の役割は大きい。
- ホテルは仲介業者への手数料支払いが常態化し，発見のコントロールが制限されている。
- AI検索が，ホテル発見のコントロールを仲介業者からホテルへシフトさせる可能性を探る。
- AI検索エンジンにおいて，体験型クエリとトランザクション型クエリで引用元の割合に差が見られた。
- 体験型クエリは非OTA情報源からの引用が55.9%で，トランザクション型クエリの30.8%を大きく上回った。
- 日本語クエリではこの差がさらに顕著であり，より多様な非OTAコンテンツが存在することが示唆された。
Link: https://arxiv.org/abs/2603.20062
強化学習を用いた時系列予測モデルのファインチューニング [cs.LG, cs.AI]目的：金融予測モデルのファインチューニング
- 金融市場予測は経済活動において不可欠であり，精度の向上が重要である。
- 既存の予測モデルは，変化する市場状況への適応が課題となっている。
- 強化学習によるファインチューニングで，予測精度と適応性を向上させる。
- 強化学習を用いたファインチューニングにより，予測性能が向上することが確認された。
- ファインチューニングはモデルに転移学習の特性を付与し，その有用性を示唆する。
- 実務家が実装できるよう，チューニングプロセスと実証結果を詳細に示した。
Link: https://arxiv.org/abs/2603.20063
現実世界のコンパイラのためのエージェント活用基盤 [cs.SE, cs.AI]目的：コンパイラバグの修正を支援するエージェント活用基盤の開発
- 現代の計算機システムにおいて，コンパイラは不可欠であり，その信頼性は極めて重要である。
- コンパイラバグは複雑で，専門知識が必要であり，バグレポートも曖昧になりがちである。
- LLMとコンパイラエンジニアリングの連携を強化し，複雑なシステムのバグ修正を効率化すること。
- llvm-autofixは，LLMエージェントがコンパイラバグを理解し，修正するための初の専用基盤である。
- 大規模言語モデルは，一般的なソフトウェアバグに比べて，コンパイラバグへの対応性能が60%低下することが示された。
- 最小限のエージェントllvm-autofix-miniは，最先端技術を約22%上回る性能を発揮した。
Link: https://arxiv.org/abs/2603.20075
訓練済み拡散モデルにおけるパターン形成を促す非平衡相転移 [cs.LG]目的：訓練済み拡散モデルにおける生成過程の解釈
- 拡散モデルは画像生成等の分野で急速に発展しており，その理論的基盤の理解が重要である。
- 拡散モデルの生成メカニズムは未だ十分解明されておらず，より制御された生成方法が求められている。
- 拡散モデルの生成過程を非平衡相転移として捉え，パターン形成のメカニズムを解明する。
- 拡散モデルの逆拡散過程は，臨界状態を経てパターンが形成されるという理論的枠組みを提唱した。
- アーキテクチャ制約が，不安定性を空間的な集団モードに変換し，一貫したパターンの形成を可能にすると示した。
- 臨界状態への介入によって生成制御が向上することを示し，実用的な意義も明らかにした。
Link: https://arxiv.org/abs/2603.20092
航空宇宙分野における電子部品の資格に関するLLMを活用した意味的データ統合 [cs.IR, cs.AI, cs.DB]目的：電子部品の資格データの統合と検索
- 製造業における情報検索の効率化は，開発期間の短縮とコスト削減に不可欠である。
- 部門間のデータサイロ化により，データの不整合や検索の遅延が生じ，設計効率を低下させている。
- 資格情報の迅速な特定と重複試験の回避による，設計段階における最適化を目指す。
- 仮想ナレッジグラフとLLMを活用したパイプラインにより，異種データソースの一元化を実現した。
- オントロジーに基づいたデータアクセスとベクトル検索を組み合わせ，構造化されたクエリとテキスト類似性に基づく検索を可能にした。
- 提案パイプラインは，RAGなどのLLMのみに依存するアプローチと比較して，長期的な効率性で優れていることを示した。
Link: https://arxiv.org/abs/2603.20094
小規模言語モデルにおけるSFT-DPO相互作用とパラメータ化に関する実証研究 [cs.CL, cs.AI]目的：小規模言語モデルにおけるSFTとDPOの相互作用とパラメータ化の検証
- 言語モデルの性能向上は，自然言語処理の発展に不可欠である。
- 小規模モデルにおけるDPOの挙動は，データ量やモデルの規模に依存し，未解明な点が多い。
- 小規模モデルにおけるSFTとDPOの最適な組み合わせとパラメータ化手法を明らかにすること。
- DPOは，強力なSFTと比較して，タスクに依存した僅かな性能向上を示すに留まる。
- Full Fine-Tuningは，同じ訓練深度においてLoRAよりも一貫して高い性能を示す。
- 小規模モデルにおいては，Full Fine-Tuningによるパラメータ全体の適応が，性能向上の主要な要因となる。
Link: https://arxiv.org/abs/2603.20100
解釈可能性エージェントの評価における落とし穴 [cs.AI]目的：解釈可能性エージェントの評価方法
- モデルの規模拡大に伴い，人間による解釈作業の効率化が求められている。
- 既存の評価方法では，生成された解釈の質を十分に評価できない可能性がある。
- 再現性に基づく評価の限界を克服し，より信頼性の高い評価手法を提案する。
- 再現性に基づく評価では，専門家の解釈が主観的または不完全である場合がある。
- 結果のみの比較では，エージェントの推論プロセスが隠蔽されてしまう。
- 提案する関数的交換可能性に基づく評価は，複雑な解釈可能性システムの評価に有効である。
Link: https://arxiv.org/abs/2603.20101
前方-後方表現におけるスペクトルアラインメント：時間的抽象化によるアプローチ [cs.LG, cs.AI, cs.RO]目的：連続空間における後継表現学習のためのスペクトルミスマッチ軽減
- 強化学習において，状態空間が連続である場合，効率的な表現学習が重要となる。
- 前方-後方表現は低ランク近似を用いるが，環境の遷移ダイナミクスとのスペクトル不一致が課題。
- 時間的抽象化によってスペクトル構造を調整し，低ランク近似の安定性を高める。
- 時間的抽象化は，高周波成分を抑制するローパスフィルターとして機能することが示された。
- この抑制により，誘導された後継表現の有効ランクが低下し，価値関数誤差の上界が維持される。
- 時間的抽象化が，高割引率下での安定した前方-後方学習に不可欠であることが実証された。
Link: https://arxiv.org/abs/2603.20103
LLMのためのYコンビネータ：ラムダ計算による長文脈の劣化問題解決 [cs.LG, cs.AI]目的：長文脈推論のためのフレームワーク
- LLMは汎用的な推論エンジンとして活用されているが，固定長の文脈長が性能のボトルネックとなっている。
- 既存の再帰型言語モデルは，制御コードの生成に依存するため，検証や予測が困難である。
- ラムダ計算に基づく型付き関数型ランタイムを導入し，より信頼性と効率性の高い長文脈推論を実現する。
- $\lambda$-RLMは，標準的なRLMと比較して，29/36のモデル・タスクの組み合わせで性能を上回った。
- 平均精度は最大で+21.9ポイント向上し，待ち時間は最大で4.1倍短縮された。
- 型付き記号制御が，長文脈推論のためのより信頼性が高く効率的な基盤を提供することを示した。
Link: https://arxiv.org/abs/2603.20105
深層予測モデルにおけるトロイの木馬探索：欧州宇宙機関コンペティションからの洞察 [cs.LG, cs.CR]目的：深層予測モデルへのトロイの木馬攻撃の特定
- 宇宙運用などの安全性が重要視される現代において，予測は不可欠である。
- 深層学習モデルの利用拡大に伴い，訓練データやモデルにバックドアが埋め込まれるリスクが生じている。
- 本研究は，時系列予測モデルに隠されたトリガーの効率的な特定を目指す。
- 本コンペティションでは，宇宙船テレメトリの深層予測モデルに隠されたトリガーの特定を200以上のチームが行った。
- 新たな課題設定，ベンチマークセット，評価プロトコル，そして最良の解決策について報告する。
- 時系列予測モデルにおけるトリガー特定に関する重要な知見と今後の研究方向性をまとめた。
Link: https://arxiv.org/abs/2603.20108
GO-GenZip：目標指向型生成サンプリングとハイブリッド圧縮 [cs.LG, cs.IT, math.IT]目的：ネットワークテレメトリにおけるデータ量の削減と分析精度の維持
- ネットワーク運用におけるKPIデータの重要性が増しており，効率的なデータ処理が不可欠である。
- 従来のデータ処理方法は，データ量の増大によりストレージ，伝送，リアルタイム分析が困難になっている。
- 目標に基づいて重要な情報を選別し，データ量を削減することで，持続可能なネットワーク運用を目指す。
- 本研究では，目標指向型の生成AIを用いたサンプリングとハイブリッド圧縮フレームワークを提案した。
- 実ネットワークデータを用いた実験により，サンプリング・データ転送コストを50％以上削減できることを示した。
- ダウンストリームタスクにおける再構成精度と分析忠実度を維持しながら，データ削減を実現した。
Link: https://arxiv.org/abs/2603.20109
Var-JEPA：Joint Embedding予測アーキテクチャの変分定式化 -- 予測的および生成的自己教師あり学習の架け橋 [cs.LG, cs.AI]目的：Joint Embedding予測アーキテクチャの変分定式化
- 自己教師あり学習は，ラベルなしデータから有用な表現を獲得する上で重要な役割を担う。
- 従来のJEPAは生成モデルとは異なるアプローチをとるため，確率的生成モデリングとの整合性が不明確である。
- 変分推論に基づき，JEPAの潜在的な生成構造を明示化し，表現学習と不確実性評価を改善すること。
- Var-JEPAは，Evidence Lower Bound (ELBO)を最適化することで，潜在空間での意味のある表現を獲得する。
- Var-T-JEPAは，T-JEPAよりも優れた表現学習性能と下流タスクでの性能を示す。
- Var-JEPAは，ad-hocなanti-collapse正則化なしで，潜在空間における原理的な不確実性定量化を可能にする。
Link: https://arxiv.org/abs/2603.20111
Adapt4Meのデモンストレーション：非標準的な音声に対する自動音声認識をパーソナライズするための不確実性を意識したオーサリング環境 [cs.HC, cs.AI]目的：非標準的な音声に対する自動音声認識のパーソナライズ
- 音声認識技術は，アクセシビリティ向上に不可欠であり，多様な発話者への対応が求められる。
- 非標準的な音声に対するデータ収集は労力がかかり，モデルの訓練は技術的に困難である。
- 専門家の監督なしに，エンドツーエンドでのパーソナライズを可能にする環境の構築。
- Adapt4Meは，ベイズ活性学習を活用し，データ選択，適応，検証をユーザーが行えるようにする。
- VI-LoRAを用いることで，高速な逐次的なモデル更新が可能となり，モデルのパーソナライズを実現する。
- モデルの不確実性を可視化することで，ユーザーは自身の支援技術の著作者として積極的に関与できる。
Link: https://arxiv.org/abs/2603.20112
ホップフィールドのパターン多重性によるタンパク質生成の条件付け [cs.CL, cs.LG, q-bio.BM, q-bio.QM]目的：タンパク質配列生成における条件付け手法
- タンパク質設計は，創薬やバイオテクノロジーにおいて重要な役割を果たす。
- 既存手法では，特定の機能を持つタンパク質配列を効率的に生成することが困難であった。
- 実験的に特徴付けられた少数の配列から，多様な候補ライブラリを生成すること。
- 確率的注意機構にスカラーパラメータを加えることで，生成を特定のサブセットに誘導できることが示された。
- この手法は，結合，安定性，特異性など，サブセットが何を表すかに関わらず適用可能である。
- ω-コノトキシンペプチドの実験結果から，創薬への応用可能性が示唆された。
Link: https://arxiv.org/abs/2603.20115
適応の連鎖：強化学習による手術用視覚言語モデルの適応 [cs.CV, cs.AI]目的：手術用視覚言語モデルのドメイン知識の統合と汎化性能の維持
- 視覚言語モデルは様々なタスクに応用可能だが，専門分野への適応が課題となる。
- 既存のファインチューニングは，事前学習済みの知識を損ない，汎化性能を低下させる可能性がある。
- ドメイン知識を統合しつつ，事前学習された能力を維持することで，汎化性能の低下を防ぐ。
- 提案手法CoAは，構造化された推論形式を導入し，ドメイン知識と汎用的な能力のバランスを取る。
- 実験の結果，CoAは，標準的な手術用ベンチマークにおいて，精度の向上と安定した挙動を示した。
- Ablation studyにより，CoAが視覚言語能力を効果的に維持し，ドメイン特化への信頼できる経路を提供することが確認された。
Link: https://arxiv.org/abs/2603.20116
進化する脱獄：大規模言語モデルに対する自動多目的ロングテール攻撃 [cs.RO, cs.CR, cs.AI]目的：大規模言語モデルに対するロングテール攻撃戦略の発見
- LLMの普及に伴い，多様な入力への対応が求められるようになり，セキュリティリスクへの対策が重要となっている。
- 既存の脱獄攻撃は手動によるルールに依存しており，セキュリティ脆弱性の網羅的な評価が困難である。
- ロングテール分布を利用した，自動化された脱獄攻撃フレームワークを開発し，セキュリティ脆弱性を明らかにすること。
- EvoJailは，攻撃効果と出力のperplexityを同時に最適化する多目的進化探索フレームワークである。
- EvoJailは，暗号化・復号化ロジックの高レベルな意味的意図と低レベルな構造的変換を捉える表現を用いる。
- 実験により，EvoJailが多様かつ効果的なロングテール脱獄戦略を継続的に発見し，既存手法と競合できる性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.20122
サイバーセキュリティリスク管理のためのエージェント型マルチエージェントアーキテクチャ [cs.RO, eess.SY, cs.AI, cs.CR, cs.SY]目的：中小企業向けサイバーセキュリティリスク評価システムの構築
- サイバーセキュリティリスク管理は，企業活動における重要な課題であり，適切な対策が不可欠である。
- 中小企業では，専門家不足やコストの問題から，十分なリスク評価が行われていない現状がある。
- 本研究は，中小企業でも手軽に利用可能な，自動化されたリスク評価システムの実現を目指す。
- 本システムは，6つのエージェントによるAIシステムであり，各エージェントがリスク評価の各段階を担当する。
- 実際の医療機関での検証では，CISSP保有者による評価との合致率が85%に達し，リスクの網羅率も92%であった。
- 評価時間は15分未満であり，コンテキスト容量がボトルネックとなることが判明した。
Link: https://arxiv.org/abs/2603.20131
階層的特徴選択とAIエージェントの仮想研究会による遺伝子オントロジー知識発見の再検討 [cs.LG]目的：遺伝子オントロジー知識発見のための研究
- 生物学研究において，遺伝子オントロジーは遺伝子機能の理解に不可欠であり，知識発見は重要である。
- 既存の手法では，複雑な生物学的データから意味のある知見を効率的に抽出することが課題である。
- AIエージェントの仮想研究会を用いて，老化関連遺伝子オントロジー項目の知識発見を効率化することを目指す。
- 提案手法は，4つのモデル生物の老化関連遺伝子オントロジー項目を用いて検証された。
- AIエージェントが生成した科学的根拠の多くは，既存の研究文献によって支持されていることが示された。
- 仮想研究会の内部メカニズムが，知識発見フレームワークにおいて重要な役割を果たすことが確認された。
Link: https://arxiv.org/abs/2603.20132
注意機構に基づいたプーリングによる言語ハイパースペース類似表現 (HAL) の強化 [cs.CL, cs.AI, cs.LG]目的：テキスト分類のためのHAL表現の向上
- 自然言語処理において，単語の意味的関係を捉えることは，高精度なテキスト理解に不可欠である。
- 従来のHALモデルでは，文レベルの埋め込みを得る際に平均プーリングを用いると，重要な文脈情報が失われる可能性がある。
- 本研究では，注意機構を導入することで，文脈的に重要な単語に焦点を当て，より効果的な表現を獲得することを目指す。
- 提案手法では，注意機構に基づいたプーリングを用いることで，IMDB感情分析データセットにおいて82.38%のテスト精度を達成した。
- これは，従来の平均プーリングベースライン（75.64%）と比較して，6.74%の絶対的な改善に相当する。
- 注意重みの分析により，ストップワードが抑制され，感情を帯びた単語に選択的に注意が向けられていることが確認された。
Link: https://arxiv.org/abs/2603.20149
Design-OS：制御系設計を事例としたシステム設計のための仕様駆動型フレームワーク [cs.RO, cs.CE, cs.AI, cs.SY, eess.SY]目的：システム設計のための仕様駆動型フレームワーク
- 工学システム設計は，複雑化の一途を辿っており，体系的なアプローチの必要性が高まっている。
- 従来の設計手法では，要求定義が曖昧になりやすく，意図とパラメータ間のトレーサビリティが課題であった。
- 本研究は，人間とAIの協調による物理システムの設計を可能にするフレームワークを提案する。
- Design-OSは，概念定義から設計定義までの五段階で構成され，各段階で構造化された成果物を生成する。
- 仕様は，設計者とAIエージェント間の共通契約として機能し，トレーサビリティを維持し，AIによる実行を支援する。
- 本フレームワークは，ロータリー倒立振子を用いた制御系設計の事例で有効性を示し，異なる実装への適用可能性を確認した。
Link: https://arxiv.org/abs/2603.20151
単一トークンを超えて：離散MMDによる離散拡散モデルの知識蒸留 [eess.SY, cs.SY, cs.LG, cs.CV, stat.ML]目的：離散拡散モデルの知識蒸留
- 拡散モデルは画像生成などで高い性能を示すが，計算コストが高い。
- 離散拡散モデルの蒸留は難しく，計算コスト削減が困難である。
- 連続拡散モデルの成功事例を参考に，離散拡散モデルの効率的な蒸留を実現する。
- 提案手法D-MMDは，離散拡散モデルの蒸留において高品質と多様性を維持できる。
- D-MMDは，テキストと画像データセットの両方で有効性が確認された。
- 蒸留された生成器は，元の教師モデルを上回る性能を示す可能性がある。
Link: https://arxiv.org/abs/2603.20155
大規模言語モデルにおける効率的な不確実性定量のための意味的トークンクラスタリング [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおける不確実性定量
- 大規模言語モデルの応用が拡大する中で，出力の信頼性確保は不可欠である。
- 既存手法は計算コストが高く，実用性に課題がある。
- 意味情報を活用し，計算コストを抑えた不確実性定量手法を確立する。
- 意味的トークンクラスタリングは，既存手法と同等の性能を維持しつつ，計算コストを大幅に削減できる。
- 提案手法は，単一回の生成で不確実性を定量化でき，補助モデルを必要としない。
- トークンを意味的に一貫したクラスタにグループ化し，確率質量を集計することで不確実性を評価する。
Link: https://arxiv.org/abs/2603.20161
ロボットの内的批評家：VLMベースの再計画による社会行動の自己改善 [cs.CL, cs.RO, cs.AI]目的：ロボットの社会行動の自己改善
- ロボットの社会的な相互作用は，人間社会への適応において不可欠である。
- 従来のロボットの社会行動生成は，柔軟性と自律性に限界があった。
- VLMを活用した自己批評・再計画により，ロボットの自律的な社会行動を向上させる。
- 提案手法CRISPは，ロボット自身がVLMを用いて行動を評価・改善する枠組みである。
- 5種類のロボットと20のシナリオにおけるユーザ調査で，従来の方式よりも高い評価と状況適応性を示した。
- ロボットの構造ファイルのみを用いて，多様なプラットフォームで人間らしい動作を生成可能である。
Link: https://arxiv.org/abs/2603.20164
心の理論推論のための動的信念グラフ学習 [cs.AI]目的：大規模言語モデルにおける心の理論推論
- 高度な自律システムや緊急時対応など，不確実性下での人間の行動予測は重要である。
- 従来のモデルは信念を静的・独立と捉え，時間経過に伴う一貫性のない推論が課題であった。
- 動的な信念グラフを用いて，信念の進化と行動の関連性を明示的にモデル化することを目指す。
- 提案手法は，テキスト化された確率的記述を信念グラフに投影する新しい手法を導入した。
- 災害避難データセットにおいて，行動予測の精度が大幅に向上し，人間の推論と一致する信念軌跡を再現した。
- 不確実性の高い環境下で，大規模言語モデルに心の理論を組み込むための原理的なモジュールを提供する。
Link: https://arxiv.org/abs/2603.20170
忠実度測定は測定方法に依存する：LLMの思考連鎖評価における分類器の感度 [cs.CL, cs.AI, cs.LG]目的：LLMの思考連鎖評価における忠実度の測定方法の依存性
- LLMの性能評価は，その信頼性と公平性を担保する上で不可欠である。
- 思考連鎖（CoT）の忠実度評価は，分類器の選択によって結果が大きく変動する点が課題である。
- 異なる分類器による忠実度評価のばらつきを定量化し，その原因を特定すること。
- 異なる分類器を用いた忠実度評価において，結果に有意な差が見られた。
- 分類器の選択がモデルのランキングを逆転させる可能性が示された。
- 忠実度評価は，分類器の厳密性によって結果が変動するため，単一の数値で比較することは困難である。
Link: https://arxiv.org/abs/2603.20172
長編ビデオ理解のための適応的貪欲フレーム選択 [cs.CV, cs.AI, cs.CL]目的：長編ビデオ質疑応答におけるフレーム選択手法
- 長編ビデオの解析は，映像と言語を結びつけることで，新たな知見や応用を生み出す可能性を秘めている。
- 大規模なフレーム数と視覚トークン数は，推論処理のボトルネックとなり，計算コストが増大する。
- クエリへの関連性と意味的代表性の両方を最適化し，効率的なフレーム選択を実現することを目指す。
- 提案手法は，クエリ関連性と意味的類似性を考慮した貪欲なフレーム選択により，既存手法を上回る精度を達成した。
- 特に厳しいフレーム予算下で，より大きな改善が見られ，限られたリソースでの効率的な解析が可能となった。
- クエリの種類に応じた戦略を導入することで，関連性と網羅性のトレードオフを最適化し，性能向上に貢献した。
Link: https://arxiv.org/abs/2603.20180
マルチモーダル対照学習によるサイバーセキュリティタスクの汎化性能向上 [cs.CR, cs.AI]目的：サイバーセキュリティタスクにおける汎化性能の向上
- サイバーセキュリティ分野では，機械学習の活用が不可欠であり，その性能がセキュリティ対策の質を左右する。
- 機械学習モデルが，学習時の表面的なパターンに過剰に適合し，実運用環境での性能が低下する課題がある。
- テキスト情報からペイロードの分類へと知識を転移させ，表面的な学習を抑制することで汎化性能を高める。
- 提案手法は，脆弱性記述からペイロードの分類を誘導する二段階のマルチモーダル対照学習フレームワークを採用している。
- 大規模なプライベートデータセットと公開CVE記述・LLM生成ペイロードを用いたベンチマークテストで，ベースラインと比較して表面的な学習が軽減されることが示された。
- 合成ベンチマークとソースコードはオープンソースとして公開されており，研究の再現性と発展に貢献する。
Link: https://arxiv.org/abs/2603.20181
コルモゴロフ-アーノルド因果生成モデル [cs.RO, cs.MA, cs.LG, stat.ML]目的：観測データからの観察的，介入的，反事実的クエリへの回答のためのフレームワーク
- 因果推論は，データ駆動型の意思決定において重要な役割を果たすため，その精度と解釈性が求められる。
- 既存の深層因果モデルは，解釈性が低く，高リスクな分野での利用が制限される場合がある。
- 学習された因果メカニズムの直接的な検証と可視化を可能にする透明性の高い因果モデルを開発すること。
- 提案手法KaCGMは，構造方程式をコルモゴロフ-アーノルドネットワーク(KAN)でパラメータ化し，因果関係を直接的に調査可能にした。
- 観測データのみを用いた検証パイプラインを導入し，推論された外生変数の分布の一致と独立性を診断することでモデルの評価を行った。
- 合成データおよび半合成データを用いた実験で，最先端手法と同等の性能を示し，心血管疾患のケーススタディで解釈可能な因果効果を抽出した。
Link: https://arxiv.org/abs/2603.20184
VideoSeek：ツールによる誘導探索を用いた長視野ビデオエージェント [cs.CV, cs.AI, cs.CL]目的：ビデオにおける答えの重要な証拠の能動的な探索
- ビデオと言語を結びつけるタスクは高度化している。効率的な処理が求められている。
- 既存のエージェントは，高コストな全フレーム解析に依存し，計算資源を浪費しやすい。
- ビデオの論理的流れを利用し，必要なフレームのみを探索することで効率化を図る。
- VideoSeekは，従来のビデオエージェントやLMMと比較して，大幅に少ないフレーム数で高い精度を実現した。
- LVBenchにおいて，ベースモデルであるGPT-5より10.2ポイントの精度向上を達成し，使用フレーム数は93%削減された。
- ビデオの論理的流れの活用，強力な推論能力，およびツールの設計が，その性能向上に貢献している。
Link: https://arxiv.org/abs/2603.20185
MeanFlowと制御：群制御のためのサンプルドデータ制御のスケーリング [cs.LG, cs.MA, cs.RO, cs.SY, eess.SY]目的：群制御におけるサンプルドデータ制御のスケーリング手法
- 大規模な群制御は，自律分散システムの重要な課題であり，その実現は様々な応用分野で求められている。
- 現実のシステムはサンプルドデータ形式で動作するため，少ない制御更新で大規模群を制御することが困難である。
- サンプルドデータ環境下で効率的に群制御を行うための学習フレームワークを提案し，スケーラブルな制御を実現することを目指す。
- 提案手法は，有限期間の最小エネルギー制御をパラメータ化する係数を学習することで，群制御を実現する。
- 学習された係数は，積分表現とブリッジ軌跡に沿った局所的な微分恒等式を持つことが示され，単純なストップ・グラディエント学習目標につながる。
- このフレームワークは，現実の制御システムのサンプルドデータ構造と整合性があり，少ないステップで大規模群を制御できる。
Link: https://arxiv.org/abs/2603.20189
LumosX：属性と個人を関連付けたパーソナライズされた動画生成 [cs.CV, cs.AI]目的：パーソナライズされた動画生成のための個人と属性の関係性
- 動画生成技術の進展は，コンテンツ作成の可能性を広げている。
- 既存手法では，動画内の個人間の顔と属性の一貫性を保つのが困難である。
- 個人と属性の関係性を明示的にモデル化し，一貫性のある動画生成を実現する。
- LumosXは，データとモデルの両面からパーソナライズされた動画生成を改善するフレームワークである。
- 独自パイプラインと大規模多Modal言語モデルを用いて，動画内の個人と属性の関係性を抽出した。
- 関係性自己注意機構と関係性クロス注意機構により，個人と属性の一貫性と分離性を向上させた。
Link: https://arxiv.org/abs/2603.20192
マスクからピクセル，そして意味へ：VLM画像改ざんのための新たな分類体系，ベンチマーク，評価指標 [cs.CV, cs.AI, cs.LG]目的：VLM画像改ざんの分類，検出，および意味理解の標準化
- 画像改ざん検出は，デジタルコンテンツの信頼性確保に不可欠である。
- 既存のベンチマークはマスクに依存し，微細な改ざんやマスク外の変更を見逃しやすい。
- ピクセル単位での改ざん評価と意味理解に基づく，より精確な検出手法を確立する。
- 新たな分類体系は，改ざんの基本操作と改ざん対象オブジェクトのセマンティッククラスを網羅する。
- ピクセル単位の改ざんマップとカテゴリ監督によるベンチマークを公開し，検出と分類を統一的に評価する。
- 既存手法の評価において，マスクのみの評価指標では過大評価・過小評価が生じることが示された。
Link: https://arxiv.org/abs/2603.20193
様々なファジーおよび不確実な意思決定手法の調査 [cs.AI, cs.CE, cs.CY, cs.LG]目的：不確実性を考慮した多基準意思決定に関する体系的な分類と概観
- 現実の意思決定は，曖昧さ，情報不足，多様なデータ，専門家の意見の対立の影響を受けるため，その重要性が高い。
- 既存の研究は，問題設定，重み付け，基準間の構造に関して体系的な整理が不足しており，手法選択が困難である。
- 不確実な状況下での意思決定手法を分類し，その選択のための指針を提供することで，実用的な応用を促進する。
- 本調査は，意思決定における典型的な入力，主要な計算ステップ，および主な出力を明確化し，手法選択の基準を提供する。
- 様々な意思決定手法（補償的スコアリング，距離に基づく手法，非補償的順位付けなど）を比較対照し，それぞれの特徴を明らかにした。
- 説明可能な不確実性の統合，安定性，大規模および動的な環境におけるスケーラビリティといった今後の研究課題を提示した。
Link: https://arxiv.org/abs/2603.15709
症例ベースの類似検索を用いた画像とテキストのマルチモーダル検索による放射線科所見のドラフト作成 [q-bio.QM, cs.AI, cs.CV]目的：放射線科所見のドラフト作成
- 医療画像診断の精度向上と，放射線科医の負担軽減が重要課題である。
- 深層学習を用いた自動レポート生成は，幻覚や臨床的根拠の欠如といった課題がある。
- 過去の症例に基づいたマルチモーダル検索による，根拠に基づいたドラフト作成を目指す。
- マルチモーダル融合は，画像のみの検索と比較して検索性能を大幅に向上させ，Recall@5で0.95を超える。
- 本システムは，明示的な引用元追跡機能を備え，従来の生成アプローチよりも信頼性の高い出力を生成する。
- 信頼性の高い臨床意思決定支援および放射線科ワークフローの拡張の可能性を示す。
Link: https://arxiv.org/abs/2603.17765
複数銘柄の株価予測におけるニュース融合の一般化 [cs.RO, cs.HC, q-fin.ST, cs.AI, cs.CL, cs.LG]目的：複数銘柄の株価予測モデル
- 金融予測において，正確な株価予測は投資戦略の根幹であり，経済安定に貢献する。
- 既存手法では，株価予測の精度向上が難しく，特に外部要因の組み込みが課題である。
- ニュース情報と株価データを統合し，汎用性の高い予測モデルを構築することで，この課題を解決する。
- 提案手法は，ベースラインと比較して平均絶対誤差を7.11%削減することを示し，ニュースフィルタリングの有効性を証明した。
- 株価に関連するニュースを抽出するために，銘柄名埋め込みとアテンションメカニズムを組み合わせることで，予測精度が向上した。
- 単一の汎用モデルで複数銘柄に対応できるため，個別モデル構築のコストと手間を削減できる。
Link: https://arxiv.org/abs/2603.19286
深層ニューラルネットワークを用いたポートフォリオ構築におけるリターンとリスクの同時モデリング [q-fin.PM, cs.AI, cs.LG]目的：ポートフォリオ構築のための深層ニューラルネットワークによるリターンとリスクの同時モデリング
- 資産運用において，効率的なポートフォリオ構築は重要な課題であり，安定した収益の確保に不可欠である。
- 従来のポートフォリオ構築手法は，過去のデータに依存し，市場の変化に対応できない場合がある。
- 本研究は，深層学習を用いて市場の変動に対応し，より精度の高いポートフォリオ構築を目指す。
- 提案モデルは，リターン予測，リスク推定，ポートフォリオパフォーマンスにおいて良好な結果を示した。
- 2020年から2024年のアウトオブサンプルテストにおいて，RMSEは0.0264，方向性精度は51.9%であった。
- ニューラルポートフォリオ戦略は，年率36.4%のリターンと0.91のシャープレシオを達成し，従来のベンチマークを上回った。
Link: https://arxiv.org/abs/2603.19288
シナプス密集性が説明する創発的なスモールワールド構造とネットワークダイナミクス [q-bio.NC, cond-mat.dis-nn, cs.NE, cs.SI]目的：シナプス密集性に基づくネットワーク構造とダイナミクスの解析
- 脳回路の構造と機能は神経科学において基礎的な課題であり，情報処理のメカニズム解明に不可欠である。
- 大規模ネットワークにおける結合様式は複雑であり，その設計原理の解明が困難である。
- シナプス密集性という制約が，ネットワーク構造とダイナミクスに及ぼす影響を定量的に解明する。
- 本モデルは，ネットワーク規模の対数的な接続性増加と分散の抑制という，シナプス密度の恒常性維持と一致する。
- シナプス密集性ルールは，明示的な距離依存性なしに，おおよそのべき乗則に従う結合長分布を生み出し，スモールワールド特性をもたらす。
- 誘導される次数統計量は，閾値ネットワークダイナミクスにおけるアトラクタ境界を決定し，局所的なクラスタリングは，それらの境界付近での持続的な状態の出現頻度を調整する。
Link: https://arxiv.org/abs/2603.19320
癌細菌療法の数理モデル化：物理情報ニューラルネットワークによる解析と数値シミュレーション [q-bio.QM, cs.LG, cs.NA, math.AP, math.NA]目的：癌細菌療法の数理モデルの解析と数値シミュレーション
- 癌治療において，細菌を利用した新たな治療法への関心が高まっている。
- 腫瘍成長，細菌コロニー形成，酸素濃度等の相互作用が定量的に解明されていない。
- 腫瘍への細菌療法の効果を予測し，治療戦略の最適化を目指す。
- 物理情報ニューラルネットワークを用いて，複雑な反応拡散方程式系を効率的に解くことに成功した。
- シミュレーションの結果，腫瘍の酸素欠乏領域の維持，または好気性細菌の使用が，治療効果の長期化に重要であることが示唆された。
- ネットワークの幅とコロケーション点の数に対する誤差評価を行い，収束性を理論的に保証した。
Link: https://arxiv.org/abs/2603.19326
腫瘍偏向潜在ブリッジマッチング：造影MRI合成のための [eess.IV, cs.LG]目的：非造影MRIからの造影MRI合成
- 脳腫瘍の評価には造影MRIが不可欠だが，造影剤の使用にはコストや安全性の問題がある。
- 既存のGANや拡散モデルは，不安定性や計算コスト，腫瘍コントラストの再現性の問題がある。
- 潜在空間での効率的な変換と，腫瘍領域の忠実度の向上を目指す。
- 提案手法TuLaBMは，学習された潜在空間におけるブラウン運動によるブリッジ輸送を利用し，効率的な学習と推論を実現した。
- 腫瘍領域の忠実度向上のため，腫瘍関連の潜在特徴を増幅するTuBAMと，境界を意識した損失関数を導入した。
- BraTS2023-GLIおよびクリーブランドクリニックのデータセットで，最先端手法を凌駕する性能と，高速な推論速度を達成した。
Link: https://arxiv.org/abs/2603.19386
カーネルGLMを用いた教師なしドメイン適応のための疑似ラベル [nlin.AO, cs.SY, eess.SY, stat.ML, cs.LG, math.ST, stat.TH]目的：教師なしドメイン適応における予測誤差の最小化
- ドメイン適応は，ラベル付けされたデータが少ない場合に有用であり，機械学習の応用範囲を広げる。
- ドメイン間の分布のずれは，モデルの性能を著しく低下させるという課題がある。
- 分布のずれを考慮し，ターゲットドメインでの予測精度向上を目指す。
- カーネルGLMを用いた新しい疑似ラベル生成フレームワークを提案した。
- ソースデータから候補モデルと補完モデルを構築し，ターゲットデータに疑似ラベルを付与する。
- 実験結果から，提案手法がソースデータのみを用いる手法よりも優れていることが示された。
Link: https://arxiv.org/abs/2603.19422
進化するグラフの高速スペクトル埋め込みのための部分空間射影法 [stat.ML, cs.LG, eess.SP]目的：進化するグラフにおける主要な固有ベクトルの更新
- グラフマイニングや機械学習において，隣接行列やラプラシアン行列の固有ベクトルが重要である。
- 行列要素の更新や行・列数の頻繁な増加に対応できない既存手法の限界がある。
- 動的に変化するグラフにおいて，効率的な固有ベクトル更新手法を確立すること。
- 提案手法は，Rayleigh-Ritz射影に基づき，計算・メモリ効率の向上を実現した。
- 固有ベクトル近似の精度に加え，中心ノード識別やノードクラスタリングといった下流タスクにおいても良好な性能を示した。
- 固有ベクトルの摂動解析のアイデアを活用し，射影部分空間の構築に関する新しい方法論を提示した。
Link: https://arxiv.org/abs/2603.19439
動的治療レジメンのための準同等なQ学習ポリシー [stat.ML, cs.LG]目的：動的治療レジメンにおける準同等なポリシー集合の構築
- 個別化医療の実現には，患者の状態に応じた最適な治療法選択が不可欠である。
- 既存手法は単一の最適解に焦点を当てており，代替案の可能性を見過ごしがちである。
- 複数の同程度に有効な治療法を特定し，治療選択の柔軟性を高めることを目指す。
- 提案手法は，許容誤差範囲内で最適解に近いポリシー集合を構築する。
- Q学習をベクトル値から行列値表現へと拡張し，複数の許容可能な価値関数を共存させる。
- シミュレーションにより，治療選択における無差別領域を明示的に特定できることを示した。
Link: https://arxiv.org/abs/2603.19440
強化学習誘導生成プロテイン言語モデルによる，新規AAVカプシドの多様性豊かな設計 [q-bio.BM, cs.LG]目的：新規AAVカプシドの設計
- 遺伝子治療においてAAVベクターは重要な役割を担うため，その改良は治療効果拡大に不可欠である。
- AAVカプシドの設計空間は広大であり，実験的なスクリーニングのみでは効率的な探索が困難である。
- 本研究は，生成モデルと強化学習を組み合わせ，実験データに偏らず新規なAAVカプシドを設計することを目指す。
- プロテイン言語モデルと強化学習を組み合わせた生成設計フレームワークを開発した。
- 強化学習誘導による生成は，予測される生存可能性を維持しつつ，配列空間のより遠い領域に到達することが示された。
- 予測生存可能性，配列新規性，および物理的特性を統合した候補選択戦略を提案した。
Link: https://arxiv.org/abs/2603.19473
地平線認識型随時有効検証のための賭け手法の学習 [math.CO, cs.DM, stat.ME, cs.LG]目的：厳格な締め切り $N$ の下での有界平均に対する地平線認識型随時有効検定と信頼シーケンス
- 統計的仮説検定は科学的推論の基礎であり，様々な分野で意思決定を支援する。
- 従来の検定手法は，時間制約や途中で停止する場合の有効性保証が難しい場合がある。
- 時間制約下でも有効な検定を可能にし，柔軟な停止を支援する手法を開発すること。
- 本研究では，賭け/e-プロセスフレームワークを用いて，地平線認識型賭けを有限地平線の最適制御問題として定式化した。
- 一定の条件下では，ケリー賭けからの逸脱が劣悪であり，ケリー賭けが閾値に到達する確率が高いことが示された。
- スケジュールが遅れている場合はより積極的な賭け，スケジュールが順調な場合はより保守的な賭けが有効である可能性が示唆された。
Link: https://arxiv.org/abs/2603.19551