arXiv雑要約

AI - 2026/03/06 公開

FinRetrieval：AIエージェントによる金融データ検索のベンチマーク [cs.IR, cs.CL, cs.IR, cs.AI, cs.CL]目的：AIエージェントによる金融データ検索能力の評価
- 金融市場の効率化や投資判断の高度化に，AIエージェントの活用が期待されている。
- AIエージェントが構造化データベースから特定の数値を正確に検索する能力を評価するベンチマークが存在しなかった。
- 金融データ検索におけるAIエージェントの性能を客観的に評価し，改善点を見出すことを目指す。
- FinRetrievalベンチマークを構築し，500件の金融に関する質問と正解データ，14種類のAIエージェントの応答を収集した。
- ツール利用可能性が性能に大きく影響し，構造化データAPI利用時のClaude Opusの精度は90.8%であったのに対し，ウェブ検索のみでは19.8%に低下した。
- 推論モードの利点は，ベースとなるAIモデルの能力によって異なり，OpenAIでは+9.0pp，Claudeでは+2.8ppという結果となった。
Link: https://arxiv.org/abs/2603.04403
翻訳の迷路：言語が種を越えた病理学のための視覚を再調整する方法 [cs.IR, cs.CL, cs.CY, cs.CV, cs.AI, cs.LG]目的：計算病理学における基盤モデルの，種をまたいだ転移学習における挙動の解明
- 近年，計算病理学が発展し，病理診断の精度向上や効率化が期待されている。
- 既存モデルは，特定の癌種や種に特化しており，汎用性に課題がある。
- 言語を用いて視覚的特徴を再解釈することで，種を越えた汎化性能を向上させる。
- 少量のデータによるファインチューニングにより，同じ癌種および異なる癌種間の検出性能が向上した。
- 種を越えた評価では，組織の一致が有効であったものの，最先端モデルには及ばなかった。これは，従来の視覚-言語アライメントが最適でないことを示唆する。
- Semantic Anchoringという手法を導入し，テキストアライメント機構により，埋め込みの崩壊を回避し，性能を向上させた。
Link: https://arxiv.org/abs/2603.04405
CTRL-RAG：コントラスト対数尤度報酬に基づく，文脈に忠実なRAGモデルのための強化学習 [cs.CL, cs.AI]目的：文脈に忠実なRAGモデルの学習
- 大規模言語モデルの利用拡大に伴い，文脈理解と忠実性の向上が重要課題となっている。
- 既存のRAG向け強化学習は外部報酬に依存し，文書の忠実性を評価しきれない場合がある。
- 証拠に基づいた応答生成を促進し，モデルの文脈への信頼性を高めることを目指す。
- 提案手法（CLR）は，証拠あり/なしのプロンプトに対する応答の対数尤度差を直接最適化する。
- これにより，モデルは関連する証拠を抽出し，特定の文脈における信頼性を高める。
- シングルホップ，マルチホップ，垂直ドメイン，忠実性ベンチマークにおいて高い性能を示した。
Link: https://arxiv.org/abs/2603.04406
意味的包含性：創発的誤整合の根本的性質 [cs.CL, cs.AI]目的：言語モデルにおける創発的誤整合のメカニズム解明
- 言語モデルの安全性確保は，社会実装において不可欠である。
- 有害データによる微調整が，想定外の誤動作を引き起こすことがある。
- 文脈的トリガーがなくても，意味的トリガーのみで誤整合が誘発されることを示す。
- 有害データのみで微調整した場合，トリガーを除去すると誤整合率が大幅に低下する。
- トリガーを再構成しても，同様の包含性が確認され，意味的意味への依存性が示唆される。
- 文脈的枠組みを用いた有害な微調整が，従来の評価では見過ごされる脆弱性を生む可能性がある。
Link: https://arxiv.org/abs/2603.04407
LLMに対する人間からの選好：HUMAINEフレームワークによる人口統計を考慮した評価 [cs.CL, cs.CL, cs.AI, cs.HC]目的：大規模言語モデルに対する人間からの選好評価
- LLMの性能評価は，実用化に向けて不可欠であり，その信頼性と安全性を担保する必要がある。
- 既存の評価手法は，現実世界との乖離や評価の偏り，単一指標への還元といった問題点を抱えている。
- HUMAINEフレームワークを用いて，より多角的かつ公平なLLM評価を実現し，性能の偏りを明らかにすること。
- 大規模言語モデルの評価において，Googleのgemini-2.5-proが最も高い性能を示すことが明らかになった。
- ユーザーの年齢層によってモデルの選好が大きく異なり，一般的な性能評価では捉えきれない一般化性能の課題が示唆された。
- 評価軸によって識別力が大きく異なり，信頼性や倫理といった曖昧な指標では判断が分かれやすいことが定量的に示された。
Link: https://arxiv.org/abs/2603.04409
SalamahBench：アラビア語言語モデルの標準化された安全性評価に向けて [cs.CL, cs.AI]目的：アラビア語言語モデルの安全性を評価するための統一的なベンチマーク
- 言語モデルの安全性確保は，信頼できるAIの基盤であり，社会実装において重要である。
- 既存の安全性評価は英語中心であり，アラビア語NLPシステムへの適用が限定的である。
- アラビア語言語モデルのカテゴリレベルでの安全性脆弱性を明らかにし，標準評価を可能にすること。
- SalamaBenchは，MLCommons Safety Hazard Taxonomyに沿った12のカテゴリ，8,170のプロンプトで構成される。
- 評価の結果，Fanar 2は全体的な攻撃成功率が低い一方，特定の有害領域における堅牢性にばらつきが見られた。
- 一方，Jais 2は一貫して脆弱性が高く，安全性が低いことが示された。また，ネイティブなアラビア語言語モデルは，安全性評価において専用のセーフガードモデルよりも性能が劣る。
Link: https://arxiv.org/abs/2603.04410
トークンごとの適応圧縮：KVキャッシュにおける万能解は存在しない [cs.CL, cs.AI, cs.LG]目的：大規模言語モデルにおけるKVキャッシュの低ランク圧縮
- 大規模言語モデルの性能向上には，メモリ使用量の削減が不可欠であるため。
- 既存の圧縮手法は，事前学習コストが高いか，圧縮率が高い場合に性能が低下する。
- トークンごとに圧縮率を動的に調整し，高圧縮率下での性能劣化を抑制すること。
- 提案手法DynaKVは，トークンの意味に基づき圧縮率を動的に割り当てることで，高い圧縮率を維持しつつ性能を向上させる。
- DynaKVは，既存の最先端の圧縮手法と比較して一貫して優れた性能を示し，大幅なメモリ削減を実現する。
- SnapKVと組み合わせることで，KVキャッシュの6%のみを残しつつ，LongBenchベンチマークで94%のベースライン性能を維持する。
Link: https://arxiv.org/abs/2603.04411
意味のシミュレーションはもう終わりだ！LLMテキスト要約の意義を評価するための記号論・解釈学的指標ICRの導入 [cs.CL, cs.CL, cs.AI]目的：LLM生成テキスト要約における意義の評価
- 人間言語の意義は文脈に依存し，固定的な単語と概念のマッピングではないため，計算論的評価が困難である。
- 既存の評価指標は語彙的類似性に偏り，文脈に基づいた人間による解釈との乖離が生じている。
- 記号論と解釈学を統合し，LLM生成テキストの意義の正確性と整合性を質的に評価する指標を開発する。
- LLMは高い言語的類似性を達成するものの，文脈に基づいた意義の把握においては人間の生成する要約に劣る。
- データセットの規模を拡大することで性能は向上するが，モデル間でのばらつきが見られ，概念の頻度と一貫性が影響していると考えられる。
- LLM生成テキストの意義評価には，体系的な質的解釈に基づく評価枠組みが不可欠である。
Link: https://arxiv.org/abs/2603.04413
未来の非相関化：時空間予測のための共同周波数領域学習 [cs.CL, cs.CL, cs.LG, cs.AI, stat.ML]目的：時空間予測における共同周波数領域学習
- グラフ構造信号の予測は，交通や気象など多岐にわたる分野で重要である。
- 従来の予測モデルは複雑な時空間依存性を捉えきれていない点が課題である。
- 時空間スペクトルを統合的に学習し，複雑な依存関係を効果的に非相関化すること。
- 提案手法FreST Lossは，時空間周波数領域での学習を通じて，モデルの予測精度を向上させる。
- 理論的な分析により，FreST Lossが時間領域での学習目標に伴う推定バイアスを低減することが示された。
- 6つの実データセットでの実験により，FreST Lossがモデルに依存せず，最先端のベースラインを改善することが確認された。
Link: https://arxiv.org/abs/2603.04418
視覚言語モデルにおける文脈依存的アフォーダンス計算 [cs.CL, cs.AI, cs.LG]目的：視覚言語モデルにおける文脈依存的アフォーダンス計算の特性
- ロボティクスやAIにおいて，環境に対する行動可能性の理解は重要である。
- 既存の視覚言語モデルは，文脈の変化に対してアフォーダンスの認識が一貫していない可能性がある。
- 文脈依存性に着目し，視覚言語モデルのアフォーダンス計算メカニズムを解明することを目指す。
- 大規模な計算実験により，視覚言語モデルのアフォーダンスが文脈によって大きく変化することが示された。
- 特に，語彙レベルの変化は意味レベルの変化よりも顕著であり，文脈依存性が高いことが明らかになった。
- この結果から，動的かつクエリ依存的なオントロジー投影（JIT Ontology）が，静的な世界モデルよりも有効である可能性が示唆された。
Link: https://arxiv.org/abs/2603.04419
複雑系力学に対する機械学習：深層ニューラルネットワークを用いた力学系における分岐の検出 [cs.LG, math.DS, q-bio.NC, stat.ML]目的：複雑力学系における分岐点の検出
- 生態学，気候科学，生物学など，複雑な力学系の転換点を理解する上で不可欠な研究分野である。
- 従来の分岐解析は計算コストが高く，パラメータサンプリングに限界があるという課題が存在する。
- 深層ニューラルネットワークを用いて，高次元かつ非線形なシステムにおける転換点の早期検出を目指す。
- 提案手法である平衡状態を情報とするニューラルネットワーク（EINNs）は，平衡条件を満たすパラメータを推測することで分岐点を検出する。
- EINNsは，サドルノード分岐や多安定性を示す非線形システムにおいて，転換に関連するパラメータ領域を特定することが示された。
- この手法は，従来の技術に代わる柔軟な選択肢を提供し，高次元システムにおける転換点の構造に関する新たな知見をもたらす。
Link: https://arxiv.org/abs/2603.04420
複数のベンダーのLLMを組み合わせた多エージェントシステムは臨床診断を向上させるか [cs.CL, cs.AI, cs.MA]目的：臨床診断における多エージェントLLMシステムの有効性
- 医療現場における診断支援の自動化と精度向上が重要視されている
- 単一ベンダーのLLMチームでは，共通のバイアスが強化され，誤診のリスクがある
- 異なるベンダーのLLMを組み合わせることで，診断精度とロバスト性を向上させる
- 複数のベンダーのLLMを組み合わせたシステムは，単一ベンダーのシステムと比較して，RareBenchおよびDiagnosisArenaにおいて優れた再現率と精度を示した
- 異なるベンダーのLLMは，補完的な誘導バイアスを組み合わせることで，個々のモデルや均質なチームが見逃す可能性のある正しい診断を明らかにすることが示された
- ベンダーの多様性は，堅牢な臨床診断システムの設計における重要な原則である
Link: https://arxiv.org/abs/2603.04421
FedEMA-Distill：指数移動平均と知識蒸留によるロバストな連合学習 [cs.LG, cs.AI, cs.CE, cs.DC]目的：非IIDデータや悪意のあるクライアントが存在する連合学習における性能劣化の改善
- 連合学習は，分散データを活用する有用な手法であるが，プライバシー保護が重要視される。
- クライアントデータの非IID性や悪意のあるクライアントの存在が，学習の不安定化や通信コスト増加を招く。
- 指数移動平均と知識蒸留を組み合わせ，効率的かつ堅牢な連合学習パイプラインの構築を目指す。
- FedEMA-Distillは，CIFAR-10やCIFAR-100において，既存手法と比較してTop-1精度を最大5-6%向上させた。
- 通信ラウンド数を30-35%削減し，クライアントからのアップロード量を大幅に削減（0.09-0.46MB）することに成功した。
- 座標ごとのメジアンやトリム平均を用いることで，悪意のあるクライアントに対する耐性を高め，精度の高い予測を実現した。
Link: https://arxiv.org/abs/2603.04422
自己指示と低ランク適応を用いた現実的でプロトコル準拠の海上無線対話の生成 [cs.CL, cs.AI]目的：現実的かつプロトコル準拠な海上無線対話の生成
- 海上無線は不可欠な通信手段であり，安全な航行に寄与する。しかし，人為的要因による事故が多発している。
- 無線通信の品質は悪く，言語の多様性やリアルタイム文字起こしの欠如が，手続きエラーを引き起こしやすい。
- 高品質な海上無線データの不足を補い，AI支援システムの開発を促進する。
- 自己指示手法と26フィルタ検証パイプラインを統合し，エンティティ情報の正確性，SMCPへの準拠性を確保した。
- LORAを用いたパラメータ効率の良いファインチューニングにより，計算コストを削減し，リソースに制約のあるシステムへの展開を容易にした。
- 生成された対話は，多様性，手続き適合性，運用上の現実性を兼ね備えていることが評価によって確認された。
Link: https://arxiv.org/abs/2603.04423
大規模分散GPU学習におけるスケーリング失敗：ネットワークとファブリックの影響 [cs.NI, cs.LG]目的：分散GPU学習のスケーリング失敗の原因の解明
- 機械学習モデルの規模拡大に伴い，分散学習の重要性が増している。
- 大規模分散学習において，理論上の性能向上と実際の性能低下が乖離することが多い。
- ネットワークやファブリックの影響を考慮し，スケーリングの限界を明らかにする。
- ネットワークトポロジー，輻輳，同期，GPUの局所性が，ノード数増加に伴い学習性能を支配することが示された。
- ファブリック設計や通信パターンが同一のモデル・ソフトウェアスタックでもスケーリング特性に大きな差を生むことが確認された。
- 同期増幅，トポロジー起因の競合，局所性による性能変動といった，スケーリング失敗の典型的なパターンが特定された。
Link: https://arxiv.org/abs/2603.04424
データ駆動型マルチジェネレーションセルラーネットワーク最適化：戦略的インフラ管理のためのパフォーマンス分類フレームワーク [cs.NI, cs.LG]目的：マルチジェネレーションセルラーネットワークのパフォーマンス分類
- モバイルデータ需要の増加に対応するため，効率的なインフラ管理が不可欠である。
- 既存のインフラの利用状況やギャップに関する詳細な分析が不足している。
- 戦略的なLTEアップグレードやリソース最適化のための情報を提供する。
- OpenCelliDプロジェクトのデータ分析により，ネットワーク展開，利用状況，インフラのギャップに関するパターンを特定した。
- 主要都市部における2G/3Gインフラの長期的な維持，未利用タワーの存在，4G未対応エリアを明らかにした。
- 信号密度指標の導入により，絶対的な過利用と局所的な混雑を区別し，MNOへの具体的な提言を行った。
Link: https://arxiv.org/abs/2603.04425
デルタ・クロスコーダー：狭いファインチューニング領域における堅牢なクロスコーダーモデル差分検出 [cs.LG, cs.AI]目的：モデルの内部表現がファインチューニングによってどのように変化するかを特定すること
- モデルの振る舞い変化の理解は，AIの安全性や信頼性向上に不可欠である
- 既存手法は，変化が局所的で非対称な狭いファインチューニングでの性能が課題であった
- 局所的かつ非対称な変化を捉え，モデルの差分検出を改善すること
- デルタ・クロスコーダーは，BatchTopKスパース性とデルタベース損失を組み合わせることで，ファインチューニングされた振る舞いに関わる潜在方向を確実に分離できる。
- 合成された誤った事実，潜在的ミスマッチ，潜在学習，タブー語推測を含む10種類のモデルで，SAEベースラインを上回る性能を示した。
- クロスコーダーがモデル差分検出において依然として強力なツールであることを示唆している。
Link: https://arxiv.org/abs/2603.04426
薄いキー，完全な値：低次元注意選択によるKVキャッシュの削減 [cs.LG, cs.AI]目的：KVキャッシュの削減
- Transformerは自然言語処理の基盤であり，その効率化は重要である。
- Transformerの注意機構は計算資源を大量に消費する。
- 注意機構の対称性をなくし，低次元で選択を行うことで効率化を図る。
- クエリとキーの次元数を削減することで，パラメータ数を大幅に削減できる。
- SVD圧縮とQKファインチューニングを組み合わせることで，KVキャッシュを75%削減し，品質劣化を2%未満に抑えることができる。
- 70億パラメータモデルで128Kコンテキストを使用する場合，ユーザーあたりのKVキャッシュを25GB削減し，同時接続ユーザー数を約60%増加させることが可能である。
Link: https://arxiv.org/abs/2603.04427
プロンプト以下のエージェントメモリ：エッジデバイスにおけるマルチエージェントLLM推論のための持続的なQ4 KVキャッシュ [cs.LG, cs.AI]目的：エッジデバイスにおけるマルチエージェントLLM推論のためのKVキャッシュの持続化
- エッジデバイスでのLLM利用が拡大する中，限られたメモリ資源での効率的な推論が課題となっている。
- エージェント数が増加すると，各エージェントのKVキャッシュをRAMに保持することが困難になる。
- KVキャッシュをディスクに保存し，必要に応じて再利用することで，メモリ消費量を削減し，推論速度を向上させる。
- Q4量子化により，固定デバイスメモリに保持できるエージェントコンテキストの数をFP16の4倍に増加させた。
- KVキャッシュの復元により，最初のトークンまでの時間が最大136倍（Gemma），111倍（Llama）に短縮された。
- Q4キャッシュを用いたPerplexityの測定結果は，Gemmaで-0.7%，Llamaで+2.8%，DeepSeekで+3.0%であった。
Link: https://arxiv.org/abs/2603.04428
大規模言語モデル出力に対する解釈可能な評価とは何か [cs.CL, cs.AI]目的：大規模言語モデル出力の解釈可能な評価システム
- 自然言語処理の発展に伴い，大規模言語モデルの性能評価が重要となっている。
- 既存の評価方法は主観的であり，質を正確に反映できない場合がある。
- 自然言語フィードバックから評価を生成し，評価ラベルの質を向上させる。
- 提案手法WIMは，出力とフィードバックのベクトル間のコサイン類似度を評価値として算出する。
- WIMは，離散的な数値評価と比較して，同率が減少し，評価値の差が大きくなる。
- 評価値の根拠となるフィードバックを参照することで，評価ラベルの質的なデバッグが可能となる。
Link: https://arxiv.org/abs/2603.04429
Flowers：ニューラル偏微分方程式ソルバーのためのワープドライブ [cs.LG]目的：偏微分方程式の解演算子を学習するためのニューラルアーキテクチャ
- 科学技術計算において，偏微分方程式の効率的な解法は重要である。
- 従来の数値解法は計算コストが高く，複雑な問題への適用が困難である。
- ニューラルネットワークを用いて，高速かつ高精度な偏微分方程式ソルバーを開発すること。
- Flowersは，フーリエ変換，畳み込み，アテンションメカニズムを使用せず，ワープのみで構成された新しいアーキテクチャである。
- Flowersは，2Dおよび3Dの様々な偏微分方程式ベンチマークにおいて，既存のモデルを凌駕する性能を示した。
- 特に，フローと波動問題において優れた性能を発揮し，パラメータ効率の良いモデルを実現した。
Link: https://arxiv.org/abs/2603.04430
スパースな教師データを用いた空間的・時間的場拡散の不確実性較正 [cs.LG, cs.AI]目的：空間的・時間的場の予測と再構成
- 物理現象の予測は気象や流体シミュレーション等に不可欠であり，その精度向上が重要である。
- 観測データが疎で時間的に変動する場合，予測・再構成は困難を極め，不確実性の評価が重要となる。
- 本研究は，疎な観測データのみを用いて高精度な予測と信頼性のある不確実性評価を実現することを目指す。
- 提案手法SOLIDは，疎な観測データのみを用いて空間的・時間的ダイナミクスを学習する拡散モデルである。
- 観測された値と位置情報を条件として各デノイジングステップを実行し，不確実性の較正に貢献する。
- 実験により，疎な観測下で確率誤差を大幅に改善し，高い較正度（ρ > 0.7）の不確実性マップが得られた。
Link: https://arxiv.org/abs/2603.04431
DRLを用いたオークションベースのRIS割り当て：コストと性能のトレードオフ制御 [cs.NI, cs.NI, cs.LG, cs.MA]目的：再構成可能なインテリジェントな表面（RIS）の割り当てに関する研究
- 次世代無線ネットワークにおいて，RISは通信性能向上の鍵となる技術であり，その効率的な活用が重要である。
- RISの割り当ては，基地局間の競争やコストの問題を抱えており，最適な運用方法が課題となっている。
- RISのオークションベースの割り当てと適応型強化学習を組み合わせ，コストと性能の最適なトレードオフを実現すること。
- 強化学習を用いた入札戦略は，ヒューリスティックな戦略と比較して，コストとスペクトル効率の最適なトレードオフを達成することが示された。
- 強化学習エージェントの入札積極性を調整可能なパラメータを導入することで，ネットワーク性能と支出の間の柔軟な制御が可能になった。
- オークションベースの割り当てと適応型強化学習の組み合わせが，次世代無線ネットワークにおけるRISの効率的かつ公平な利用に貢献する可能性が示唆された。
Link: https://arxiv.org/abs/2603.04433
ZorBA：異種ブロック活性化を用いたLLMのゼロ次連邦学習ファインチューニング [cs.NI, cs.NI, cs.LG, cs.AI]目的：大規模言語モデルの分散環境における効率的なファインチューニング手法
- LLMの性能向上にはファインチューニングが不可欠であり，その分散学習への需要が高まっている。
- LLMの巨大さから，分散学習におけるVRAM使用量と通信コストが課題となっている。
- VRAM使用量を削減し，通信コストを抑えつつ，LLMのファインチューニングを加速すること。
- ZorBAは，勾配の保存を不要とするゼロ次最適化により，クライアント側のVRAM使用量を削減する。
- 異種ブロック活性化メカニズムにより，クライアントに異なるTransformerブロックを割り当て，収束を高速化する。
- 共有乱数と勾配の有限差分を用いることで，通信オーバーヘッドを低減する。
Link: https://arxiv.org/abs/2603.04436
適応モデル分割とリソース割当フレームワーク：スプリット連邦学習におけるASFL [cs.LG, cs.AI]目的：スプリット連邦学習における適応モデル分割とリソース割当
- データ共有を伴わない機械学習実現の鍵であり，プライバシー保護と分散学習の両立に貢献する。
- クライアントの計算資源の制約により，学習遅延とエネルギー消費が大きいという課題がある。
- 中央サーバーの計算資源を活用し，学習遅延とエネルギー消費を削減することを目指す。
- 提案手法ASFLは，既存の5つのベースラインと比較して，より高速に収束することが確認された。
- ASFLは，全体の遅延を最大75%削減し，エネルギー消費を最大80%削減することを示した。
- 理論的解析により，ASFLの収束率を最適化し，学習性能と効率を両立できることが示唆された。
Link: https://arxiv.org/abs/2603.04437
AMV-L：長期実行LLMシステムのテールレイテンシ制御のためのライフサイクル管理エージェントメモリ [cs.NI, cs.DC, cs.AI, cs.LG, cs.SY, eess.SY]目的：長期実行LLMシステムにおけるテールレイテンシ制御のためのメモリ管理手法
- LLMエージェントの普及に伴い，対話状態を維持する持続的なメモリの重要性が増している。
- 従来のTTLによるメモリ管理では，検索候補セットの肥大化により，レイテンシが不安定になりやすい。
- AMV-Lは，メモリのライフサイクルを管理し，検索セットサイズを制限することで，この問題を解決する。
- AMV-Lは，TTLと比較してスループットを3.1倍，レイテンシを最大4.7倍（p95）改善した。
- LRUと比較して，p99レイテンシを15%改善し，2秒を超えるリクエストの割合を98%削減した。
- AMV-Lの性能向上は，主に検索セットサイズの制限とベクトル検索量の削減に起因する。
Link: https://arxiv.org/abs/2603.04443
vLLM セマンティックルーター：混合モーダルモデルのためのシグナル駆動型決定ルーティング [cs.NI, cs.AI]目的：混合モーダルモデルの展開における，シグナル駆動型決定ルーティングフレームワーク
- 大規模言語モデルの多様化に伴い，適切なモデル選択がシステム上の重要な課題となっている。
- 各クエリに対して最適なモデルを選択するインフェレンス時のルーティングに課題が存在する。
- 多様な展開シナリオに対応可能な，柔軟で効率的なルーティングフレームワークの構築。
- 本システムは，多様なシグナルを組み合わせたルールに基づき，効率的なモデルルーティングを実現した。
- 異なる展開シナリオ（マルチクラウド，プライバシー規制，コスト最適化など）を，コード変更なしに構成可能である。
- 本アーキテクチャは，コスト，プライバシー，安全性に関する多様なポリシーに対応可能であることを実証した。
Link: https://arxiv.org/abs/2603.04444
SkillNet：AIスキルの作成，評価，連携 [cs.NI, cs.CL, cs.PF, cs.NI, cs.MS, cs.SI, cs.AI, cs.CL, cs.CV, cs.LG, cs.MA]目的：AIスキルの体系的な蓄積と転移
- AIエージェントの発展には，過去の知識や経験の活用が不可欠である。
- 既存のエージェントは，同じ問題を繰り返し解決し，効率が悪い。
- AIスキルを構造化し，共有可能な基盤を構築することで，効率的な学習を目指す。
- SkillNetは，20万以上のスキルを保有するリポジトリ，インタラクティブなプラットフォーム，Pythonツールキットを備えている。
- ALFWorld，WebShop，ScienceWorldでの実験により，平均報酬が40%向上し，実行ステップが30%減少した。
- SkillNetは，エージェントが一時的な経験から永続的な習熟へと進化するための基盤を提供する。
Link: https://arxiv.org/abs/2603.04448
アルツハイマー病予測のための説明可能なアンサンブルフレームワーク [cs.LG, cs.AI]目的：アルツハイマー病および非アルツハイマー病の分類
- アルツハイマー病は早期発見が難しく，診断の遅れが治療機会を損失する
- 既存手法では，予測精度とモデルの説明可能性の両立が課題である
- 臨床データを用いた高精度かつ解釈性の高い予測モデルの構築
- アンサンブル手法は深層学習よりも高い性能を示し，XGBoost，Random Forestが特に優れていた
- MMSE，機能評価年齢，相互作用特徴量がアルツハイマー病予測の重要な指標として特定された
- 提案フレームワークは，臨床意思決定支援への応用が期待される信頼性の高い予測アプローチである
Link: https://arxiv.org/abs/2603.04449
MPBMC：GNN誘導クラスタリングによる多特性有界モデル検査 [cs.LO, cs.AI, cs.LG, cs.SE]目的：多特性検証における有界モデル検査の性能向上
- 複数の特性を持つ設計の検証は，現代のデジタルシステムの複雑化に伴い，非常に重要となっている。
- 特性間の関係性を考慮した効率的なクラスタリング手法が，多特性検証のボトルネックとなっている。
- GNNによる機能的埋め込みと実行時統計を組み合わせ，効率的な特性クラスタリングを実現する。
- 提案手法は，ハードウェア回路の機能的表現と実行時統計を活用することで，有界モデル検査の速度向上を実現した。
- HWMCCベンチマークを用いた実験により，最先端手法と比較して有効性が確認された。
- 機能的埋め込みに基づいて特性をインテリジェントにグループ化することで，検証結果の高速化に貢献する。
Link: https://arxiv.org/abs/2603.04450
古典ニューラルネットワークにおける非古典的統計的特徴の出現について [cs.LG, cs.AI, quant-ph]目的：古典ニューラルネットワークにおける非古典的統計的振る舞いの出現
- 深層学習の内部メカニズムの理解は，その性能向上や解釈可能性を高める上で重要である。
- 深層学習モデルの学習過程における内部相互作用や訓練のダイナミクスは未だ不明な点が多い。
- 古典的ニューラルネットワークにおいても非古典的な統計的特徴が出現しうることを示す。
- マルチタスク学習において，隠れ層ニューロンの勾配競合が非古典性を生み出すことが示された。
- タスクヘッド間での明示的な通信手段がなくても，局所的な損失振動を通じて他のタスクの学習状況を間接的に感知することが可能である。
- モデルの規模が不十分な場合，非古典性の指標Sは汎化性能と正の相関があり，Sが2に近づく領域が良い汎化性能を示すことが多い。
Link: https://arxiv.org/abs/2603.04451
燃焼科学における大規模言語モデルの知識注入と評価のための統一的な基盤的枠組み [cs.CL, cs.AI]目的：燃焼科学向け大規模言語モデル開発のための知識注入と評価の基盤的枠組み
- 燃焼科学はエネルギー効率向上や環境負荷低減に不可欠であり，計算科学との融合が重要である。
- 既存の言語モデルは，専門知識に乏しく，燃焼科学の複雑な問題を解決するには不十分である。
- 専門知識を言語モデルに注入し，燃焼科学分野の質問応答性能を向上させることを目指す。
- 本研究では，20万件以上の学術論文，8千件の論文，40万行の燃焼CFDコードから構築された35億トークン規模のマルチモーダル知識ベースを開発した。
- 開発したCombustionQAベンチマークを用いて評価した結果，単純なRAGでは精度が60%に留まり，コンテキスト汚染がボトルネックとなっていることが判明した。
- 構造化された知識グラフと継続的な事前学習を通じて，ドメイン特化型モデルの構築が不可欠であることが示された。
Link: https://arxiv.org/abs/2603.04452
誘導された数値的不安定性：マルチモーダル大規模言語モデルの隠れたコスト [cs.CL, cs.AI, cs.LG]目的：マルチモーダル大規模言語モデルにおける性能劣化の原因究明
- マルチモーダル大規模言語モデルの利用が拡大しており，その特性と弱点の理解が重要である。
- 既存研究では，敵対的摂動以外の性能劣化モードが十分に捉えられていない。
- 推論段階での数値的不安定性を引き起こす画像を作成し，その影響を検証することで性能劣化のメカニズムを解明する。
- 本研究により，わずかな画像変更でも性能が著しく低下することが明らかになった。
- この性能劣化は，従来の敵対的摂動とは異なる新たな要因によるものである。
- LLaVa-v1.5-7B，Idefics3-8B，SmolVLM-2B-Instructなどの最先端モデルで検証された。
Link: https://arxiv.org/abs/2603.04453
回答不要な文脈によるクエリの曖昧性解消：人類の最後の試験での性能向上 [cs.CL, cs.AI]目的：クエリの曖昧性軽減による言語モデルの精度向上
- 言語モデルの性能向上が進む中で，文脈とクエリの関係性は未だ十分に探求されていない。
- クエリの曖昧さが，言語モデルの応答品質を著しく低下させるという課題が存在する。
- 回答不要な文脈を活用したクエリの書き換えにより，曖昧性を解消し，精度向上を目指す。
- よく構築された文脈情報とクエリの書き換えを組み合わせることで，質問の曖昧性を軽減し，大幅な精度向上が確認された。
- 回答自体を変更せずにクエリを書き換えるだけで，文脈を前置するよりもベンチマークの改善が見られた。
- GPT-5-miniの精度が0.14から0.37に向上し，推論時のプロンプトだけでは完全には回復できないことが示された。
Link: https://arxiv.org/abs/2603.04454
繰り返しヘテロネットワークオークションにおける入札エージェントとしての大規模言語モデル [cs.NI, cs.AI, cs.GT]目的：ヘテロネットワークにおける繰り返しスペクトルオークションにおける大規模言語モデルの活用
- 無線資源の効率的な配分は，通信システムの性能向上に不可欠である。
- 従来のオークションは単発的で，動的な入札者の行動や現実的な条件を考慮していない。
- 本研究は，長期的な経済的判断に基づいた分散型オークションフレームワークを提案し，その有効性を検証する。
- LLMを活用したUEは，従来のベンチマークと比較して，チャネルアクセス頻度と予算効率が向上した。
- LLMは，過去の結果を考慮し，競争を予測し，入札戦略を適応させる能力を発揮した。
- 本研究は，次世代ヘテロネットワークにおける分散型無線資源配分における，推論能力を備えたエージェントの可能性を示唆する。
Link: https://arxiv.org/abs/2603.04455
能力閾値と製造トポロジー：具現化された知能が経済地理における相転移を誘発する方法 [cs.AI, cs.CE, physics.soc-ph]目的：具現化された知能が製造経済地理にもたらす相転移
- 製造業は経済成長の基盤であり，その地理的分布は経済発展に大きな影響を与える。
- 従来の製造業は，大規模工場への集中と労働力への依存という構造的な制約を抱えている。
- 具現化された知能の能力閾値を超えることで，製造業の空間構造と規模を再構築すること。
- 具現化されたAIの能力が，製造業の工場立地，サプライチェーン，生産規模に構造的な変化をもたらす。
- 具現化された知能は，需要に近いマイクロ製造を可能にし，「製造砂漠」を解消し，労働力による地理的集中を逆転させる。
- 最適な工場立地が，従来のロジックとは異なる機械に最適化された条件（低湿度，高照度，熱安定性）によって決定される新たな生産地理が生まれる。
Link: https://arxiv.org/abs/2603.04457
異種属性データクラスタリングのための統一距離尺度の学習 [cs.LG, cs.AI]目的：異種属性データのクラスタリングにおける統一距離尺度の学習
- 実世界の問題解決には，数値データとカテゴリデータを含むデータセットが頻繁に現れる。
- 数値データとカテゴリデータの異なる性質を考慮した距離尺度の定義が困難である。
- 属性間の関係性を明らかにし，クラスタリングに適応可能な距離尺度を学習すること。
- 提案手法HARRは，異種属性を均質化し，距離尺度学習とクラスタリングを統合することで，自動的に距離尺度を適応させる。
- カテゴリデータの距離表現をより詳細に捉えるため，各属性値を複数の学習可能な空間に射影する。
- HARRはパラメータ調整が不要で，収束性が保証されており，クラスタ数kに自己適応的に対応可能である。
Link: https://arxiv.org/abs/2603.04458
LLM安全性評価ベンチマークの影響力とコード品質の比較分析 [cs.CR, cs.AI, cs.SE]目的：LLM安全性評価ベンチマークにおける影響力とコード品質の多面的評価
- LLMの安全性研究は急速に進展しており，動向把握が困難であるため，ベンチマークによる体系的な比較が不可欠である。
- どのベンチマークが重要視されるかの明確な根拠がなく，学術的な影響力やコード品質の体系的な評価が不足している。
- LLM安全性評価ベンチマークの影響力とコード品質を評価し，改善の余地を明らかにすることを目指す。
- ベンチマーク論文は，引用回数などの学術的影響力において，非ベンチマーク論文と比較して有意な優位性を示さなかった。
- 著者の知名度は論文の影響力と相関するが，知名度や影響力はコード品質と有意な相関を示さないという乖離が見られた。
- ベンチマークリポジトリの39%がすぐに利用可能であり，完全なインストールガイドがあるのは16%に過ぎず，倫理的配慮を扱っているのはわずか6%であった。
Link: https://arxiv.org/abs/2603.04459
VSPrefill：軽量インデックスによる縦スラッシュ疎注意を用いた長文プレフィリング [cs.LG, cs.AI]目的：長文コンテキストのプレフィリングにおける効率化
- 大規模言語モデルの性能向上には，より長い文脈を扱える能力が不可欠である。
- 自己注意機構の計算量は文脈長に比例して増加し，長文処理のボトルネックとなっている。
- 既存の疎注意法は，精度，計算コスト，学習コストのトレードオフを抱えている点を改善する。
- VSPrefillは，既存のモデル構造を変更することなく，線形時間計算量で疎注意マスクを構築する。
- 適応的な閾値戦略により，各層の計算資源を効率的に割り当て，高速な推論を実現する。
- Qwen3-4B-InstructとLLaMA-3.1-8B-Instructを用いた評価で，精度をほぼ維持しつつ，4.95倍の高速化を達成した。
Link: https://arxiv.org/abs/2603.04460
MAD-SmaAt-GNet：降水予測のための多モーダルアドベクション誘導ニューラルネットワーク [cs.LG, cs.AI]目的：降水予測の精度向上
- 気象現象の予測は防災・減災に不可欠であり，短時間予測の重要性が増している。
- 物理方程式に基づく数値モデルは計算コストが高く，大量の気象データを有効活用できていない。
- 深層学習モデルを用いて，計算効率と予測精度の両立を目指す。
- MAD-SmaAt-GNetは，ベースラインのSmaAt-UNetと比較して，4時間先までの降水予測において平均二乗誤差を8.9%削減した。
- 多モーダル入力は短期予測において特に有効であり，アドベクション成分は短期・長期予測の両方で性能を向上させる。
- 追加のエンコーダと物理ベースのアドベクション成分の導入が，それぞれ降水予測の精度向上に貢献する。
Link: https://arxiv.org/abs/2603.04461
文脈内学習におけるデモンストレーションの競合ダイナミクスの理解 [cs.RO, cs.LG, cs.AI]目的：デモンストレーション競合の影響と，その内部処理メカニズムの解明
- 大規模言語モデルの性能向上には，少ない事例からの学習能力が不可欠である。
- デモンストレーションデータに含まれるノイズや矛盾が，モデルの性能を低下させる。
- モデルが矛盾する情報をどのように処理し，推論に影響を与えるかを明らかにすること。
- モデルは，単一の誤ったデモンストレーションによって著しく性能が低下する。
- モデルは，誤ったルールと正しいルールを両方中間層に符号化するが，予測の確信は後層でのみ発達する。
- 特定のアテンションヘッドをアブレーションすることで，性能が10％以上向上し，発見された知見の妥当性が確認された。
Link: https://arxiv.org/abs/2603.04464
行動・観測・書き換え：ロボット操作のための文脈内ポリシー学習エージェント [cs.RO, cs.LG]目的：ロボット操作ポリシーの改善
- ロボットの自律的な操作能力向上は，様々な産業や日常生活において不可欠である。
- 従来のロボット制御は，専門的な知識や手動での調整が必要であり，汎用性に欠ける。
- 大規模言語モデルを活用し，自己学習によってロボットの操作能力を向上させる。
- 本研究で提案するAORフレームワークは，視覚情報とエピソードの結果に基づいて，Pythonコードとしてロボットの制御プログラムを再構築する。
- 従来のLLM活用手法と異なり，AORは低レベルのモーター制御までLLMで推論し，ロボットの動作と方法の両方を変更可能とする。
- 実証実験の結果，デモンストレーションや報酬設計なしで高い成功率を達成し，自己学習によるロボット操作の可能性を示した。
Link: https://arxiv.org/abs/2603.04466
内水路における船舶軌跡予測のための説明可能な深層学習 [cs.RO, cs.LG, cs.AI]目的：内水路における船舶軌跡予測モデルの説明可能性向上
- 内水路交通の安全確保は重要であり，船舶軌跡の正確な予測は不可欠である。
- 深層学習の精度は向上しているものの，その予測根拠の説明可能性が課題となっている。
- 船舶ドメインパラメータを利用し，モデルの解釈性を高めることを目指す。
- 提案モデルは，5分間の予測において約40メートルのずれで，既存研究と同等の予測性能を示した。
- 学習された船舶ドメイン値に基づく船舶間の注意機構の重みは，期待されるものと異なった。
- 予測精度の向上は，周囲の船舶の軌跡との因果関係によって完全に説明できるものではないことが示唆された。
Link: https://arxiv.org/abs/2603.04472
スパークから炎へ：LLMベースのマルチエージェント協調におけるエラーカスケードのモデル化と軽減 [cs.MA, cs.AI]目的：LLMベースのマルチエージェント協調におけるエラーカスケードのモデル化と軽減
- 複雑なタスクにおいて，LLMを活用したマルチエージェントシステムは有用性が増している。より堅牢な協調システムの構築が求められる。
- LLMの持つ不確実性が，反復を通じてシステムレベルでの誤った合意形成につながるリスクが存在する。エラーの追跡が困難である。
- エラーの伝播と増幅を早期に検出し，システムの堅牢性を高めるための手法を提案し，エラーカスケードを抑制する。
- 本研究では，LLMベースのマルチエージェント協調を依存グラフとして抽象化し，増幅リスクを評価する指標を提示した。
- 実験の結果，カスケード増幅，トポロジカル感受性，コンセンサス慣性の3つの脆弱性クラスを特定した。単一のエラーが広範囲に及ぶ攻撃も再現された。
- 系譜グラフに基づくガバナンス層を導入することで，エラー増幅を抑制し，防御成功率を0.32から0.89以上に向上させた。
Link: https://arxiv.org/abs/2603.04474
スマートインソールセンサーデータを用いた円形Dilated CNNによる活動認識 [cs.LG, cs.AI]目的：スマートインソールセンサーデータからの活動認識手法
- 健康状態のモニタリングやリハビリテーション支援など，日々の生活の質向上への応用が期待される分野である。
- 既存手法では，センサーデータの処理方法やモデルの複雑さによる計算負荷が大きいという課題がある。
- ウェアラブルデバイスに適した，低負荷で高精度な活動認識モデルの実現を目指す。
- 提案手法である円形Dilated CNNは，4種類の活動（立位，歩行，座位，タンデム）の認識において，86.42%のテスト精度を達成した。
- 比較対象としたXGBoostモデル（87.83%）と同程度の性能を示しつつ，組み込みシステムへの実装に適している。
- 特徴量の重要度分析から，加速度センサーとジャイロセンサーが活動識別に大きく貢献することが示された。
Link: https://arxiv.org/abs/2603.04477
大肩に乗って：マルチ教師蒸留による脳波基礎モデル事前学習の再考 [cs.LG]目的：脳波基礎モデルの事前学習手法
- 脳波データは医療やブレイン・マシン・インターフェースにおいて重要であり，高精度な解析が求められる。
- 脳波データ収集のコストが高いこととノイズが大きく，大規模モデルの学習が困難である。
- 既存のモダリティの基礎モデルの知識を活用し，効率的な脳波基礎モデルの事前学習を実現する。
- マルチ教師蒸留事前学習（MTDP）フレームワークにより，視覚や時系列モデルの知識を脳波モデルに転移させた。
- MTDPは，マスクされた潜在的ノイズ除去という目的を通して，多様な教師からの表現を融合させるゲーティングネットワークを用いる。
- 9つの下流タスクと12のデータセットにおいて，MTDPは自己教師あり学習モデルを凌駕し，事前学習データ量を25%削減した。
Link: https://arxiv.org/abs/2603.04478
拡散言語モデルのデコーディング加速のための漸進的洗練制御 [cs.AI]目的：拡散言語モデルのデコーディング速度向上
- 拡散言語モデルは高品質なテキスト生成が可能だが，計算コストが高いという課題がある。
- トークンごとに安定化速度が異なるため，無駄な洗練処理が発生しやすい。
- トークンの収束度合いを考慮し，洗練プロセスを動的に制御することで効率化を図る。
- PRRは，完全なデコーディングロールアウトから得られる経験的な収束進行度に基づいて，トークンごとの洗練制御を行う。
- PRRは，温度ベースの分布整形を介して洗練を制御する軽量なトークンごとのコントローラーを学習する。
- 実験の結果，PRRは拡散言語モデルのデコーディングを大幅に高速化しつつ，生成品質を維持できることが示された。
Link: https://arxiv.org/abs/2603.04514
科学論文による表現の拡張 [cs.LG, astro-ph.IM, cs.AI]目的：X線スペクトルと科学文献から抽出されたドメイン知識との整合性
- 天文学では，画像，スペクトル，時系列データと長年の文献が蓄積されている。
- これらのデータソースは体系的に統合されることが稀であり，情報の活用が不十分である。
- スペクトルと文献間の意味のある整合性を確立し，データ解釈を加速すること。
- スペクトルからテキストを検索する際のRecall@1%が20%に達し，両モダリティ間の整合性が確認された。
- 得られた共有潜在空間は，物理的に有意な情報を効果的にエンコードすることが示された。
- スペクトルとテキストデータを融合することで，20の物理変数の推定精度が16〜18%向上した。
Link: https://arxiv.org/abs/2603.04516
マルチエージェントシステムによる数学的概念の発見 [cs.AI, math.HO]目的：数学的概念発見のメカニズム
- 数学の発展には，実験や反例を含む探索が不可欠である。
- 既存手法では，数学的な興味深さを自律的に定義することが困難である。
- 局所的なプロセスを最適化することで，数学的な興味深さを獲得することを目指す。
- 提案システムは，多面体データと線形代数の知識から，ホモロジーの概念を自律的に学習した。
- 実験の結果，適切な局所プロセスの組み合わせの最適化が，数学的な興味深さの整合性を高めることが示された。
- 実験設定や制御を通して，システム全体の有効性が統計的に検証された。
Link: https://arxiv.org/abs/2603.04528
検索ベンチマークにおける時間的ドリフトの評価：まだ新鮮か？ [cs.RO, cs.IR, cs.AI, cs.CL]目的：検索ベンチマークにおける時間的ドリフトの影響
- 技術分野の知識検索は重要であり，正確な情報へのアクセスが不可欠である。
- 技術ドキュメントは頻繁に更新され，既存の検索ベンチマークが陳腐化しやすい。
- 時間経過によるデータ変化が検索性能に与える影響を評価し，信頼性維持策を探る。
- 2024年と2025年のFreshStackコーパスを比較した結果，クエリのほとんどは対応するドキュメントが移行したことで依然として有効であった。
- 検索モデルのランキングはわずかに変動したが，高い相関関係（Kendall τ = 0.978）が見られた。
- 時間経過に伴う変化を考慮して再評価された検索ベンチマークは，依然として信頼できる評価指標となり得る。
Link: https://arxiv.org/abs/2603.04532