arXiv雑要約

AI - 2026/03/25 公開

  • 作用における因果探索:介入からの連鎖反応メカニズムの学習 [cs.LG, cs.AI]目的:連鎖反応系における因果構造の特定
    • 現実世界のシステムは,連鎖的な構造を持つことが多く,その理解は重要である。
    • 介入データを用いても,因果グラフの特定は困難であり,構造に関する強い仮定が必要となる。
    • 個々のコンポーネントの活性化を妨げる介入によって因果構造を一意に特定することを目指す。
    • 連鎖反応系においては,活性化を妨げる介入から因果構造を一意に特定できることが示された。
    • 提案手法は有限サンプル保証を持ち,指数関数的な誤差減衰と対数的なサンプル複雑度を達成する。
    • 合成モデルと多様な環境での実験により,少数介入からも信頼性の高い復元が可能であることが確認された。

    Link: https://arxiv.org/abs/2603.22620

  • 構造の補間を通じた転移学習 [cs.LG]目的:異種構造間の知識転移
    • 構造物の健全性モニタリングは,社会インフラの安全性を確保する上で重要である。
    • 著しく異なる構造間での知識転移は,依然として困難な課題である。
    • 情報ギャップを埋める中間構造を利用することで,異種転移を実現する。
    • 本研究では,材料特性や形状を変化させることで,ある構造を連続的に別の構造へと変換する手法を提案した。
    • シミュレーションされた橋梁設計間の転移(ケース1)と,橋と航空機の簡略化された物理的表現間の転移(ケース2)を通して有効性を示した。
    • 構造的類似性に基づいて正の転移を予測する文脈で提起された「橋が飛行機でないのはいつか?」という問いに対し,場合によっては異種システム間でも正の転移が可能となることを示した。

    Link: https://arxiv.org/abs/2603.22621

  • 同意するか,それとも正しいか?医療ビジョン-言語モデルにおける根拠と迎合のトレードオフ [cs.CV, cs.AI]目的:医療分野におけるビジョン-言語モデルの幻覚と迎合という二つの故障モードに対する堅牢性評価
    • 医療AIの発展は,診断や治療の精度向上に不可欠であるため,重要性が高い。
    • 既存のビジョン-言語モデルは,幻覚や迎合といった問題点を抱え,臨床応用における安全性に懸念がある。
    • 幻覚と迎合のトレードオフを明らかにし,安全な臨床利用のための評価指標を提案すること。
    • 医療VQAデータセット上で6つのVLMsを評価した結果,幻覚が少ないモデルほど迎合的であるというトレードオフが確認された。
    • モデルの安全性を評価するため,L-VASE,CCS,CSIという3つの指標を提案し,既存モデルの安全性が低いことを示した。
    • 評価したどのモデルもCSIが0.35を超えず,同時によく根拠に基づき,社会的圧力にも強いモデルは存在しないことが判明した。

    Link: https://arxiv.org/abs/2603.22623

  • 忠実なセグメンテーション帰属性評価のためのベンチマークと二重証拠融合 [cs.CV, cs.AI]目的:セマンティックセグメンテーションにおける帰属性評価の改善
    • 画像認識の精度向上に加え,モデルの判断根拠の説明可能性が重要視されている。
    • 帰属性マップの視覚的な妥当性だけでは,モデルの予測への貢献度を正確に評価できない。
    • 帰属性評価の客観性と信頼性を高め,モデルの判断根拠を明確にすること。
    • 本研究では,介入ベースの忠実性,ターゲット外への漏洩,摂動に対するロバスト性などを評価するベンチマークを提案した。
    • 二重証拠アトリビューション(DEA)は,勾配情報と領域レベルの介入シグナルを融合することで,帰属性マップの忠実性を向上させる。
    • ベンチマークは,視覚的な評価では見過ごされる忠実性と安定性のトレードオフを明らかにした。

    Link: https://arxiv.org/abs/2603.22624

  • 低資源言語への適応のための語彙に基づいたサブワード埋め込み初期化 [cs.CL, cs.AI]目的:低資源かつ形態素の豊富な言語への事前学習済み言語モデルの適応
    • 事前学習済み言語モデルは強力だが,低資源言語への適応は困難である。
    • 既存の語彙拡張法は,意味的に一貫性のないサブワード単位を使用し,形態素情報を失う。
    • 形態素情報を活用した埋め込み初期化により,低資源言語での表現品質を向上させる。
    • LGSEは,単語を構成要素の形態素に分解し,事前学習済みの埋め込み表現を平均化することで,意味的に一貫性のある埋め込みを構築する。
    • 実験の結果,LGSEはAmharicとTigrinyaの質問応答,固有表現認識,テキスト分類の全タスクで,ベースライン手法を上回る性能を示した。
    • 新規導入された埋め込みが,初期値から大きく逸脱しないように正則化することで,元の埋め込み空間との整合性を維持しつつ適応を可能にする。

    Link: https://arxiv.org/abs/2603.22629

  • グラフ認識を用いた後期チャンキング:生物医学文献における検索拡張生成 [cs.AI, cs.IR]目的:生物医学文献における検索拡張生成のための構造認識チャンキング手法の確立
    • 生物医学研究では,大量の文献から必要な情報を効率的に抽出することが重要である。
    • 従来の検索拡張生成システムでは,関連性の高い情報を網羅的に取得できていないという課題がある。
    • 文書構造を考慮したチャンキングにより,より多様な情報源からの知識抽出を目指す。
    • 従来のランキング指標では,検索の網羅性が十分に評価されていなかったことが示された。
    • 提案手法GraLC-RAGは,構造を認識することで,最大15.6倍多くのセクションからの情報を取得可能となった。
    • 知識グラフの導入により,回答の質を維持しつつ,セクションの多様性を高めることができた。

    Link: https://arxiv.org/abs/2603.22633

  • 信頼の学習:人間がAIの信頼度シグナルをどのように精神的に再調整するか [cs.HC, cs.AI]目的:AIの信頼度シグナルに対する人間の精神的な再調整の学習
    • 人間とAIの協働は重要性を増している。適切な信頼関係の構築が不可欠である。
    • 既存のAIシステムは,信頼度において過信または過小評価の傾向があるという問題がある。
    • この研究は,人間が経験を通してAIの信頼度シグナルを再調整する能力を明らかにすることを目指す。
    • 実験の結果,参加者はどの条件においても学習し,予測精度,識別能力,信頼度の整合性が向上した。
    • 人間の適応は,基盤となる信頼度と信頼度感受性の更新によって説明できることがモデルから示唆された。
    • 一貫した誤校正には対応できるものの,「逆の信頼度」シナリオでは,学習に限界が見られた。

    Link: https://arxiv.org/abs/2603.22634

  • AwesomeLit:エージェント支援による文献調査を通じた仮説生成へ [cs.CL, cs.HC, cs.AI]目的:文献調査を通じた仮説生成
    • 研究活動において,既存研究の理解と新たな仮説の創出は不可欠である。
    • 未経験の研究者にとって,文献の隙間を見つけ仮説を立てることは困難を伴う。
    • 文献調査を支援し,研究者の仮説生成プロセスを円滑化すること。
    • AwesomeLitは,透明性の高いエージェントワークフロー,動的なクエリ探索ツリー,セマンティックな類似性表示により,文献調査を支援する。
    • 本システムは,一般的な意図から詳細な研究トピックへの移行を可能にする。
    • 予備的なユーザ調査の結果,AwesomeLitは,未知のトピックの探索,有望な研究方向の特定,研究結果への自信向上に有効であることが示された。

    Link: https://arxiv.org/abs/2603.22648

  • 金融文書処理のためのマルチエージェントLLMアーキテクチャのベンチマーク比較研究:オーケストレーションパターン,コスト・精度トレードオフ,およびプロダクションスケーリング戦略 [cs.AI, cs.CL, cs.LG]目的:金融文書からの構造化情報抽出におけるマルチエージェントLLMアーキテクチャの性能比較
    • 金融業界では,文書処理の自動化が効率化とコンプライアンス遵守に不可欠である。
    • LLMの導入は進むものの,実運用における最適なアーキテクチャ選択の指針が不足している。
    • 本研究は,様々なアーキテクチャのコストと精度を比較し,実用的な運用戦略を提示する。
    • 反射型アーキテクチャはフィールドレベルF1値が最も高く(0.943),しかしコストは逐次的なベースラインの2.3倍であった。
    • 階層型アーキテクチャは,コストと精度のパレート最適解上に位置し(F1 0.921,コスト1.4倍),バランスに優れていた。
    • セマンティックキャッシュ等のアブレーション研究により,ハイブリッド構成で反射型アーキテクチャの精度向上効果の89%をベースラインコストの1.15倍で実現可能であることが示された。

    Link: https://arxiv.org/abs/2603.22651

  • 表現の観点からの動力学モデリングの容易な一般化 [eess.SY, cs.SY, eess.SY, cs.SY, math.OC, cs.LG, cs.AI]目的:複雑なシステムの動力学モデリングにおける汎化性能向上
    • 気候,生態系,流体システムなど,現実世界の複雑なシステムの動力学を理解することは重要である。
    • 既存の動力学モデリング手法は,システムごとにモデルを誘導するため,システム間の汎化性能が低い。
    • 事前学習モデルを活用し,多様なシステムの観測を潜在空間へ埋め込むことで,汎化性能の高い動力学モデリングを実現する。
    • 提案手法PDEDERは,Lyapunov指数を最小化する事前学習により,潜在空間における安定した動力学学習を促進する。
    • 観測の埋め込みにおける分散を抑制することで,潜在空間における局所的な安定性と構造化された動力学を促進し,モデリング性能を向上させる。
    • 12の動的システムにおける短期・長期予測実験の結果,PDEDERはin-domainおよびcross-domain設定の両方で高い有効性と汎化性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.22655

  • 単純かつ効率的な外れ値検出のためのバウンディングボックス異常スコアリング [cs.LG]目的:分布外入力の識別
    • 深層ニューラルネットワークの予測信頼性向上のためには,訓練データ分布外の入力を検出することが重要である。
    • 既存手法は,コンパクトなモデルと柔軟なモデルの間でトレードオフの関係にある場合が多い。
    • バウンディングボックス抽象化を用いて,シンプルで更新可能な分布外検出手法を確立する。
    • 本研究で提案するBBASは,特徴量空間におけるバウンディングボックス抽象化を活用した分布外検出手法である。
    • BBASは,活性化の範囲超過に基づく異常スコア,畳み込み層に適応した監視変数,およびデカップリングされたクラスタリングとボックス構築を組み合わせている。
    • 画像分類ベンチマーク実験により,BBASが分布内サンプルと分布外サンプルの分離を堅牢に行うことが示された。

    Link: https://arxiv.org/abs/2603.22660

  • 大規模言語モデルの予測性能向上:層間構造エンコーダによるアプローチ [cs.MM, cs.CL, cs.LG]目的:大規模言語モデルの層間表現を活用した予測性能の向上
    • 自然言語処理の発展に伴い,大規模言語モデルの活用が広がっている。より高度なタスク遂行には,モデルの性能向上が不可欠である。
    • 既存モデルは最終層の表現のみを利用することが多く,中間層が持つ有用な情報が十分に活用されていないという課題がある。
    • 各タスクに適した層の情報を効果的に統合し,予測性能の向上を目指す。
    • 提案手法ILSEは,Cayley-Encoderを用いて層間情報を効率的に伝播させ,13の分類・意味類似度タスクで既存手法を上回る性能を示した。
    • ILSEは,精度が最大44%,類似度指標が最大25%向上し,少ないデータでも高い性能を発揮することを示した。
    • 小規模モデルでも大規模モデルに匹敵する性能を実現可能であり,データ効率の高さも確認された。

    Link: https://arxiv.org/abs/2603.22665

  • 最適な空間写像による非順序型生物医学表形式データセットのビジョンベース深層学習解析 [cs.RO, cs.HC, cs.HC, cs.HC, cs.LG, cs.AI]目的:非順序型生物医学表形式データセットにおける特徴量の空間的トポロジーの学習
    • 生物医学研究において表形式データは不可欠であり,疾患理解や治療法の開発に貢献する。
    • 従来の表形式データ解析は空間的な構造を考慮せず,特徴量間の関係性を十分に活用できていない。
    • 深層学習モデルが表形式データを効果的に処理できるよう,データ内在の構造を空間的に表現することを目指す。
    • Dynomapは,タスクに最適化された特徴量の空間的トポロジーをデータから直接学習する深層学習フレームワークである。
    • 液体生検データにおいて,Dynomapは臨床的に重要な遺伝子シグネチャをまとまりのある空間パターンに組織化し,がんサブタイプ予測精度を最大18%向上させた。
    • パーキンソン病の音声データセットでも同様の効果が確認され,関連する音響記述子をクラスタリングし,精度を最大8%向上させた。

    Link: https://arxiv.org/abs/2603.22675

  • MuQ-Eval:AI音楽生成評価のためのオープンソースサンプル品質指標 [cs.AI, cs.SD]目的:AI生成音楽の品質評価指標の開発
    • AI音楽生成技術の発展に伴い,生成された音楽の客観的評価が重要となっている。
    • 既存の指標は個々の音楽クリップを評価できず,人間の評価との相関も低いという課題がある。
    • 人間の評価と高い相関を持つ,オープンソースのサンプル品質指標を開発することを目指す。
    • MuQ-Evalは,MuQ-310Mの固定化された特徴量に基づき,MusicEvalデータセットで学習された。
    • シンプルなモデルでシステムレベルのSRCC=0.957,発話レベルのSRCC=0.838を達成し,人間の評価と高い相関を示した。
    • 固定化されたMuQ表現が既に品質に関する情報を捉えていることが示唆され,LoRA適応モデルは少量データでも有用であることが確認された。

    Link: https://arxiv.org/abs/2603.22677

  • WiFi2Cap:Wi-Fi CSIからの意味的行動キャプション生成における四肢レベルの意味的アライメント [cs.CV, cs.AI]目的:Wi-Fi CSIからの意味的行動キャプションの生成
    • 屋内センシングにおいて,人間の活動をプライバシーを保護しつつ理解することは重要である。
    • 既存のWi-Fi CSIベースのシステムは,姿勢推定や定義済みの行動分類に偏っており,詳細な言語生成が課題である。
    • 無線信号と言語の間の意味的ギャップ,左右の四肢の認識誤りといった問題を解決し,より自然なキャプション生成を目指す。
    • WiFi2Capは,Wi-Fi CSIから直接行動キャプションを生成する3段階のフレームワークである。
    • ビジョン-言語教師モデルとCSI生徒モデルのアライメント,そしてMirror-Consistency Lossにより,方向感度依存のキャプション精度を向上させている。
    • WiFi2Capは,BLEU-4,METEOR,ROUGE-L,CIDEr,SPICEなどの評価指標において,ベースライン手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2603.22690

  • 線形グリッドにおける座標エンコーディングを用いた物理情報ニューラルネットワーク [cs.DC, cs.LG]目的:偏微分方程式の解法における,物理法則を活用した機械学習手法の改善
    • 物理法則を組み込むことで,メッシュフリー,教師なし学習,高次元問題への対応が可能になる。
    • 従来のPINNは,スペクトルバイアスの問題により学習収束が遅いという課題があった。
    • 線形グリッドセル上の座標エンコーディング層を導入し,学習収束の高速化と計算コストの削減を目指す。
    • 提案手法は,線形グリッドセルを用いて局所領域を分離することで,学習の収束速度を向上させる。
    • 軸独立な線形グリッドセルを使用することで,全体の計算コストを削減することが可能である。
    • 自然三次スプライン補間により,損失関数計算のための連続的な微分関数を保証し,安定したモデル学習を実現する。

    Link: https://arxiv.org/abs/2603.22700

  • 化合物誤差のない模倣学習:ベルマン制約の役割 [cs.CL, cs.DB, cs.CL, eess.AS, cs.LG]目的:模倣学習における化合物誤差の解消
    • ロボット制御等において,人間や専門家の行動を効率的に学習することは重要である。
    • 行動クローニングは単純だが,誤差が蓄積し性能が低下しやすい。
    • 本研究では,誤差蓄積を回避し,汎化性能の高い模倣学習手法を提案する。
    • 従来のIQ-Learnは理論的に行動クローニングと同等であり,誤差蓄積の問題を抱えることが示された。
    • 提案手法Dual Q-DMは,ベルマン制約を導入することで,未訪問状態へのQ値の伝播を可能にし,汎化性能を高める。
    • Dual Q-DMは理論的に敵対的模倣学習と同等であり,化合物誤差を解消できることが証明された。

    Link: https://arxiv.org/abs/2603.22713

  • PopResume: 大規模人口統計データを用いたLLM/VLM履歴書スクリーニングシステムの因果的公平性評価 [cs.CY, cs.AI]目的:LLM/VLM履歴書スクリーニングシステムの因果的公平性評価
    • AI採用システムの普及に伴い,公平性の確保が重要課題となっている。
    • 既存の評価指標は結果の不公平性のみに着目し,その原因の特定が困難である。
    • 人口統計データに基づき,公平性を評価するための新たなフレームワークを構築する。
    • PopResumeは,人口統計データを反映した大規模な履歴書データセットである。
    • 因果効果分析により,適性による正当な差異と,差別的な要因による差異を分離した。
    • LLM/VLMの評価実験から,集約指標では捉えられない5つの差別パターンを特定した。

    Link: https://arxiv.org/abs/2603.22714

  • HyFI:脳と視覚の整合のための双曲的特徴補間 [cs.AI]目的:脳信号と画像特徴間の整合性向上
    • 脳科学とAIの融合は,人間の視覚システム理解を深め,ブレイン・コンピュータ・インタフェース実現に不可欠である。
    • 脳信号と画像特徴は表現レベルに差があり,また意味・知覚特徴が複雑に絡み合っているため,単純な整合が困難である。
    • 双曲空間の特性を利用し,脳信号の表現力制限と特徴の絡み合いを考慮した整合手法を開発し,精度向上を目指す。
    • 提案手法HyFIは,双曲空間における特徴補間により,意味と知覚情報の融合と圧縮を可能にする。
    • THINGS-EEGデータセットにおいて,HyFIは既存手法を最大+17.3%上回るTop-1精度を達成した。
    • THINGS-MEGデータセットにおいても,HyFIは+9.1%のTop-1精度向上を示し,最先端の性能を証明した。

    Link: https://arxiv.org/abs/2603.22721

  • パラメータを持つ微分代数方程式の最適化問題に対する二重結合アーキテクチャと訓練手法 [cs.LG, math.AP]目的:パラメータを持つ微分代数方程式の最適化問題における制約と目的関数を分離する二重物理情報ニューラルネットワークアーキテクチャ
    • 製品開発においてシミュレーションは不可欠であり,効率と品質向上に貢献する。
    • 多様化する製品要件に対応するため,多タスク最適化が求められている。
    • 単一の訓練で複数の目的関数に対応し,リアルタイムな製品要件への応答を実現する。
    • 二重物理情報ニューラルネットワークアーキテクチャが,制約と目的関数を分離することを示した。
    • リラックス変数とグローバルな誤差範囲を導入することで,ネットワーク解と最適化問題解の同等性が理論的に保証された。
    • 遺伝的アルゴリズムによる訓練フレームワークが,訓練精度と効率を向上させ,微分代数方程式の冗長な求解を回避する。

    Link: https://arxiv.org/abs/2603.22724

  • 脳波を用いた個別化連邦学習による没入型コミュニケーション [cs.LG, eess.SP]目的:脳波信号を利用したユーザの状態推定と,それに基づく没入型体験の個別化・安定化
    • 没入型コミュニケーションは,現実世界と仮想世界を融合し,新たな体験を提供する重要な技術である。
    • 個人の脳波の多様性により,没入型体験の個人差が大きく,快適な体験を提供することが課題である。
    • 脳波情報のプライバシー保護と,省エネルギーな個別化学習を実現し,実用的な没入型システムを構築する。
    • 提案手法は,実脳波データを用いて,従来のニューラルネットワークと比較して高い識別精度を達成した。
    • 推論時のエネルギー消費量を6.46倍削減し,エネルギー制約のあるデバイスでの利用を可能にした。
    • スパイクニューラルネットワークと個別化連邦学習を組み合わせることで,プライバシー保護と効率的な学習を両立した。

    Link: https://arxiv.org/abs/2603.22727

  • 行動の多様性を量子に触発された表現として [cs.LG, cs.MA, stat.ME]目的:運転手の行動多様性の表現
    • 運転行動の理解は,自動運転や交通安全の向上に不可欠である。
    • 従来の分類では,動的な行動を静的なカテゴリに圧縮してしまう。
    • 量子に触発された表現を用いて,動的な行動の表現を改善する。
    • 運転手を潜在状態としてモデル化し,密度行列で表現した。
    • 非線形Random Fourier Featuresを用いて行動観測を埋め込んだ。
    • 実データとシミュレーションデータで,運転プロファイルの抽出と分析を実証した。

    Link: https://arxiv.org/abs/2603.22729

  • タブデータにおける文脈学習のためのマルチタスク情報事前知識:鋼材物性予測への応用 [cs.CL, cs.LG]目的:鋼材の物性予測におけるマルチタスク学習フレームワークの構築
    • 鋼材の製造プロセス最適化には,高精度な物性予測が不可欠である。
    • 従来の実験・経験的手法はコストが高く,多様な生産条件への対応が難しい。
    • 既存手法では,物性間の相関を明示的に活用できていない点を解決する。
    • 提案手法は,マルチタスク学習を通じて,鋼材の物性間の相互関係を捉えた事前知識を獲得する。
    • 実験結果から,提案手法は従来の機械学習手法や最新のタブデータ学習モデルを上回る性能を示した。
    • タスク固有のファインチューニングと比較して,予測精度と計算効率の両方を向上させることを実証した。

    Link: https://arxiv.org/abs/2603.22738

  • ハミルトニアンモンテカルロ法のためのアルゴリズム的ウォームスタート [cs.DS, cs.LG, cs.NA, math.NA, math.ST, stat.ML, stat.TH]目的:高次元確率分布からのサンプリング効率改善
    • 統計学,工学,自然科学における重要な課題であり,効率的なサンプリング手法が求められている。
    • ハミルトニアンモンテカルロ法は広く利用されているが,次元数が高くなると収束に要する反復回数が問題となる。
    • ウォームスタートの計算ボトルネックを解消し,高精度サンプリングの効率を向上させる。
    • 強ログ凹性および3次微分条件を満たす分布において,ノンメトロポライズドHMCによるウォームスタートが$\tilde{O}(d^{1/4})$で実現可能となった。
    • ウォームスタートを利用したメトロポライズドHMCにより,$\tilde{O}(d^{1/4})$という最速のアルゴリズムが実現された。
    • これまでの$\tilde{O}(d^{1/2})$を改善し,高精度サンプリングにおける次元複雑性の問題を解決した。

    Link: https://arxiv.org/abs/2603.22741

  • 二者択一を超えて:主観的な企業タスクにおける長期的エージェントの評価のスケール [cs.AI]目的:主観的な企業タスクにおける長期的エージェントの自律実行の評価設計
    • LLMの応用範囲拡大には,客観評価が困難な実務タスクへの対応が不可欠である。
    • 既存の評価方法は,客観的な正誤に偏っており,文脈依存性の高い企業タスクには不向きである。
    • 主観的な企業タスクに対し,信頼性と拡張性を両立する評価手法を確立することを目指す。
    • LH-Benchは,専門家による評価基準,中間成果物による段階的報酬,人間の選好評価の3つの柱から構成される。
    • 専門家が作成した評価基準は,LLMが生成した基準よりも信頼性の高い評価シグナルを提供する(kappa = 0.60 vs. 0.46)。
    • 人間の選好評価は,トップティアモデル間の優劣を検証し,専門家による評価の妥当性を裏付けている(p < 0.05)。

    Link: https://arxiv.org/abs/2603.22744

  • 臨床記録からの医療専門分野分類のための臨床ラベル相互作用グラフネットワーク (CLiGNet) [cs.AI]目的:臨床記録の医療専門分野分類
    • 医療記録の適切な振り分け,コーディング,臨床意思決定支援に不可欠な技術である。
    • 既存研究では,学習データとテストデータを分割前にSMOTEによる過剰サンプリングを行っており,データ漏洩の問題があった。
    • データ漏洩のない新たな評価基準を確立し,より正確な難易度を評価することで,分類精度向上を目指す。
    • データ漏洩のない評価基準により,従来報告されていたよりもタスクの難易度が高いことが明らかになった。
    • CLiGNetは,Bio ClinicalBERTとグラフ畳み込みネットワークを組み合わせた新しいニューラルアーキテクチャであり,マクロF1値0.279を達成した。
    • ラベルごとのPlattスケーリングによるキャリブレーションにより,期待されるキャリブレーション誤差は0.007であり,ランキング性能と確率の信頼性の間のトレードオフを示した。

    Link: https://arxiv.org/abs/2603.22752

  • KALAVAI:独立した専門家モデルの融合が有効となる状況の予測 ― ポストホック協調LLM学習のための定量的モデル [cs.CL, cs.CL, cs.AI, cs.LG]目的:独立した専門家モデルの融合による性能向上とその予測可能性の定量化
    • 大規模言語モデルの専門化は,特定タスクにおける性能向上に不可欠である。
    • 専門家モデルを統合する際,どの程度の性能向上が期待できるか予測が困難である。
    • 複数の専門家モデルを効率的に融合し,その効果を事前に予測することを目指す。
    • 独立して学習させた専門家モデルをポストホックで融合することで,個々の専門家モデルを上回る性能が得られることが示された。
    • 性能向上は,モデル間の乖離度と相関関係があり,「性能向上 = 0.82 x 乖離度 - 2.72」という定量的なモデルが構築された。
    • 特に,乖離度が3.3%未満では性能向上が限定的であり,クロスリンガル融合や複数貢献者によるフェデレーションにおいても高い効果が確認された。

    Link: https://arxiv.org/abs/2603.22755

  • 再構成ガイダンススロットカリキュラム:ビデオオブジェクト中心学習におけるオブジェクトの過剰分割への対処 [cs.CV, cs.LG]目的:ビデオオブジェクト中心学習におけるオブジェクトの過剰分割問題の解決
    • ビデオ理解において,オブジェクト単位での解析は重要であり,より効率的な表現が求められている。
    • 既存のスロットアテンションモデルは,再構成誤差の最小化のために不要なスロットを多く使用する傾向がある。
    • 再構成誤差の高い箇所にのみスロットを割り当てることで,過剰分割を抑制し,効率的な学習を目指す。
    • 再構成を誘導するスロットカリキュラム(SlotCurri)は,まず粗いスロット数から開始し,再構成誤差が高い箇所に徐々にスロットを割り当てる。
    • 構造を意識した損失関数を導入し,各スロットのセマンティック境界を鮮明にすることで,より意味のあるサブパートの出現を促す。
    • フレームシーケンスを通してスロットを前後にロールさせるサイクリック推論により,初期フレームにおいても時間的に一貫性のあるオブジェクト表現を実現した。YouTube-VISとMOVi-CでFG-ARIがそれぞれ+6.8と+8.3向上した。

    Link: https://arxiv.org/abs/2603.22758

  • LLM-Personaを活用した法的領域における語彙・意味的多様性のためのデータ拡張:DALDALL [cs.CL, cs.AI, cs.IR]目的:法的情報検索のためのデータ拡張手法
    • リソースの乏しい分野では,十分なデータがないことが課題である。
    • 既存のデータ拡張手法は,質よりも量を重視し,ドメイン特化戦略が不足している。
    • 法的領域に特化した高品質な学習データ生成を目指す。
    • 本研究で提案するDALDALLは,弁護士,検察官,裁判官などの専門家ペルソナを用いることで,より多様なクエリを生成する。
    • CLERCおよびCOLIEEの評価において,DALDALLはSelf-BLEUスコアによる語彙の多様性向上と,元のクエリに対する意味的忠実性の維持を両立した。
    • DALDALLで拡張されたデータでファインチューニングされたdense retrieverは,オリジナルのデータや汎用的な拡張と比較して,優れた検索性能を示した。

    Link: https://arxiv.org/abs/2603.22765

  • 過負荷から収束へ:ベイジアン可視化による多岐にわたる人間とAIの交渉支援 [cs.HC, cs.AI]目的:人間とAIの交渉における,交渉課題数の影響と,それを緩和する可視化手法
    • AIが交渉を仲介する機会が増加しており,人間の主体性を維持するには,交渉課題数が及ぼす影響の理解が不可欠である。
    • 交渉課題数が増加すると,人間の認知負荷が増大し,交渉パフォーマンスが低下する可能性がある。
    • 交渉課題数増加による認知負荷を軽減し,人間の交渉パフォーマンスと効率を向上させることを目指す。
    • 提案する不確実性に基づく可視化は,合意の可能性が交渉の進行と共に狭まる様子を示し,有望な選択肢の特定を支援する。
    • 実験の結果,可視化の導入により,人間の交渉結果と効率が向上し,人間の制御が維持され,価値の再分配は回避された。
    • 人間とAIの交渉における課題数の限界が明らかになり,複雑な交渉における人間のパフォーマンスに関する理論と,インタラクティブシステムの設計指針の発展に貢献する。

    Link: https://arxiv.org/abs/2603.22766

  • 大規模言語モデルエージェントは現実世界の証拠を生成できるか:医学データベースにおける観察研究の評価 [cs.AI, cs.CL]目的:大規模言語モデルエージェントによる現実世界の証拠生成能力の評価
    • 医療現場では,大規模なデータから臨床的に役立つ知見を得ることが重要である。
    • 観察研究は複雑であり,データの収集から分析,報告まで一貫した意思決定が必要となる。
    • LLMエージェントが,観察研究を完遂し,信頼性のある証拠を生成できるか検証する。
    • 本研究で開発したRWE-benchを用いた評価の結果,タスク成功率は低いことが示された。
    • 最良のエージェントでさえ39.9%の成功率であり,オープンソースモデルは30.4%であった。
    • エージェントの構成やフレームワークが性能に大きく影響し,30%以上の変動が見られた。

    Link: https://arxiv.org/abs/2603.22767

  • 算術から論理へ:パラメータビット反転に対するロジックおよびルックアップベースニューラルネットワークの堅牢性 [cs.LG, cs.AI]目的:ニューラルネットワークアーキテクチャの構造的特性としての堅牢性
    • 安全性重視のエッジ環境における深層学習の応用が拡大しており,ハードウェア障害に対する信頼性が重要である。
    • 数値精度を下げることで耐障害性が向上するという経験的な知見はあるものの,その理論的根拠は不明確である。
    • ニューラルネットワークのアーキテクチャ特性が,ビット反転エラーに対する耐性をどのように左右するかを解明する。
    • 低い精度,高い疎性,有界な活性化,浅い深さは,ビット反転に対する耐性を高める上で一貫して有利であることが示された。
    • ロジックおよびルックアップベースのニューラルネットワークは,これらの設計傾向の限界を実現していると考えられる。
    • MLPerf Tinyベンチマークの結果は,理論的予測と一致しており,LUTベースモデルは,浮動小数点モデルが失敗する領域でも高い安定性を維持した。

    Link: https://arxiv.org/abs/2603.22770

  • IoTネットワークにおける条件付きSHAPとフロー行動モデリングを用いた説明可能な脅威アトリビューション [cs.CR, cs.LG]目的:IoTネットワークにおける脅威アトリビューションの実現
    • IoT機器の普及に伴い,セキュリティ確保が重要課題となっている。
    • 従来の侵入検知モデルは,解釈性の低さが課題となっていた。
    • 攻撃の分類根拠を明確にし,信頼性の高いセキュリティシステムを構築する。
    • 提案手法は,フロータイミング,パケットサイズ,TCPフラグなどの特徴量を用いて,攻撃の種類を識別できる。
    • SHAPを活用することで,各攻撃分類における特徴量の重要度を可視化し,詳細な分析を可能にした。
    • 本研究は,高性能な機械学習と,IoTセキュリティにおける信頼性と説明責任の向上に貢献する。

    Link: https://arxiv.org/abs/2603.22771

  • AgriPestDatabase-v1.0:農業用大規模言語モデル学習のための構造化された昆虫データセット [eess.SY, cs.SY, cs.AR, cs.DC, cs.AI]目的:農業における大規模言語モデル学習のための構造化昆虫情報データセットの構築
    • 農業において,専門知識への迅速かつ正確なアクセスが重要となる中,質の高いラベル付きデータが不足している。
    • 特に,インターネット接続が不安定な地域では,専門家のサポートが得られにくく,現場での問題解決が困難である。
    • 本研究は,現場で活用できる軽量な大規模言語モデルを構築し,農家への意思決定支援を可能にすることを目指す。
    • 構築したデータセットを用いてMistral 7Bをファインチューニングした結果,ドメイン固有のQ/Aタスクで88.9%の正答率を達成した。
    • Qwen 2.5 7B (63.9%) や LLaMA 3.1 8B (58.7%) を大幅に上回り,意味的な整合性が高いことが示された。
    • 専門家によるデータ整理と質の高いQ/Aペアにより,現場レベルの害虫管理ガイダンスを提供する実用的なシステムの実現可能性を示した。

    Link: https://arxiv.org/abs/2603.22777

  • KARMA:淘宝におけるパーソナライズド検索のための知識と行動を正則化するマルチモーダルアラインメント [cs.IR, cs.AI]目的:パーソナライズド検索における知識と行動のギャップを解消するためのフレームワーク
    • 大規模言語モデルは高度な意味知識を有し,パーソナライズド検索の性能向上に貢献する可能性を秘めている。
    • 直接的なファインチューニングでは,事前学習された意味知識の保持とパーソナライズド行動への適応との間で矛盾が生じやすい。
    • 意味的崩壊を抑制し,言語モデルの汎化性能を向上させることで,パーソナライズド検索システムの改善を目指す。
    • KARMAは,意味再構成を正則化項として扱い,検索のための次の関心事項埋め込みを最適化する。
    • その結果,意味的崩壊が緩和され,行動指標と意味的忠実度が向上した。
    • オンラインA/Bテストでは,アイテムクリック率が0.5%向上し,効果が確認された。

    Link: https://arxiv.org/abs/2603.22779

  • 思考の芋虫:大規模言語モデルにおける最適なテスト時アルゴリズム [cs.LG]目的:大規模言語モデルのテスト時計算における最適なアルゴリズムの構造
    • 大規模言語モデルの性能向上は,自然言語処理の発展に不可欠である。
    • テスト時計算の効率的な活用法が確立されておらず,計算資源の浪費が懸念される。
    • テスト時計算の構造を理論的に解明し,計算資源を最適に利用するアルゴリズムを開発する。
    • 本研究では,テスト時計算をマルコフ連鎖との相互作用としてモデル化し,最適なアルゴリズムが芋虫状の探索木を生成することを示した。
    • 提案手法「思考の芋虫(CaT)」は,既存の探索手法(ToT)と比較して,成功率を向上させつつ,トークン生成回数を削減できることを実証した。
    • 限られた計算資源内での効率的な探索を実現し,大規模言語モデルの性能向上に貢献する。

    Link: https://arxiv.org/abs/2603.22784

  • 曝露時間に基づいたベッドおよび椅子からの転倒率:継続的AIモニタリングによる評価 [cs.CV, cs.AI, cs.LG]目的:ベッドおよび椅子からの転倒率の算出
    • 高齢化社会において,転倒は重篤な健康問題を引き起こすため,その予防は重要である。
    • 従来の転倒率の算出方法は,患者のベッド滞在日数に依存しており,実際の曝露時間を考慮していなかった。
    • AIモニタリングを用いて曝露時間を考慮することで,より正確な転倒リスク評価を目指す。
    • 椅子への曝露時間あたり1,000時間で17.8件,ベッドへの曝露時間あたり1,000時間で4.3件の転倒率が推定された。
    • 椅子の転倒率とベッドの転倒率の比は2.35であり,統計的な有意差は認められなかった(p=0.0907)。
    • 直接的な椅子からの転倒の多くは,フットレストの位置調整の失敗に関連していた。

    Link: https://arxiv.org/abs/2603.22785

  • 反復的な改良とトポロジー最適化によるマルチエージェントシステムの自動設計 [cs.HC, cs.RO, cs.AI]目的:マルチエージェントシステムの設計手法
    • 複雑化する問題解決において,エージェント間の協調が不可欠であるため。
    • 従来の設計は専門知識に依存し,設計知識の再利用が困難である。
    • 自然言語による記述と対照的なトレース分析により設計プロセスを自動化する。
    • ABSTRALは,マルチエージェントシステムのアーキテクチャを自然言語ドキュメントとして進化させる。
    • 固定ターン予算下では,アンサンブルのターン効率は26%に留まるものの,単一エージェントより優れている。
    • 設計知識をドキュメントとして保存することで,異なるドメインへの知識転移が可能となる。

    Link: https://arxiv.org/abs/2603.22791

  • 神経記号マルチモーダル推論による信頼性の高い教室AI [cs.RO, cs.AI]目的:教室AIのための信頼性向上フレームワークおよび評価基準
    • 教室環境は多様で複雑であり,生徒の学習を支援するAIの活用が期待される。
    • 教室内のマルチモーダルデータはノイズが多く,プライバシーへの配慮も必要となる。
    • 教室AIの予測の根拠の明確化と,信頼性評価のための基準が求められている。
    • 本研究では,教室AIを神経記号推論フレームワークNSCRを用いて構成し,教室の状態を分析する。
    • NSCRは,知覚的基盤,記号的抽象化,実行可能推論,ガバナンスの4層で教室分析を行う。
    • 新たな実験結果は示されていないが,教室AIの解釈可能性,プライバシー保護,教育的根拠に基づいた開発を促進する。

    Link: https://arxiv.org/abs/2603.22793

  • PhotoAgent:空間と美的な理解を有するロボット写真家 [cs.CV, cs.AI, cs.RO]目的:美的目標に基づいた高品質な写真撮影
    • 写真撮影は,ロボットが現実世界で活動するための重要な課題であり,創造的なタスクの自動化に繋がる。
    • 高レベルな指示と幾何学的な制御の間の意味の隔たりが,ロボット写真の実現を妨げていた。
    • LMMを活用し,幾何学的制約を導き出すことで,高品質な写真撮影を可能にすること。
    • PhotoAgentは,LMMによる推論と新たな制御パラダイムを統合することで,空間的推論と画像品質において優れた性能を発揮する。
    • 主観的な美的目標を幾何学的な制約に変換し,分析的なソルバーで初期視点を計算することで,効果的な写真撮影を実現する。
    • 3D Gaussian Splattingを用いた内部世界モデルによる「精神的シミュレーション」により,試行錯誤のコストを削減し,迅速な収束を可能にする。

    Link: https://arxiv.org/abs/2603.22796

  • 勾配降下法で訓練されたTransformerは,特定の教師モデルを証明的に学習可能である [cs.CL, cs.RO, cs.LG]目的:教師モデル群からの学習におけるTransformerの能力の理論的解明
    • Transformerは多様な応用で成功を収めているが,その理論的基盤は未解明な部分が多い。
    • Transformerの汎化性能を理論的に保証する枠組みが不足している。
    • Transformerが特定の教師モデルを確実に学習できることを証明し,汎化性能を理論的に示す。
    • 1層のTransformerが,畳み込み層やグラフ畳み込み層などの教師モデルのパラメータを完全に復元可能であることを証明した。
    • 教師モデルからの効率的な模倣により,Transformerは穏やかな仮定の下で,分布外データに対しても良好に汎化することが示された。
    • 様々な学習タスクに共通する基本的な双線形構造を特定し,Transformerに対する統一的な学習保証を確立した。

    Link: https://arxiv.org/abs/2603.22801

  • 組み合わせ的プライバシー:ビルキホッフ多面体への隠蔽によるプライベートなマルチパーティビットストリーム総和 [cs.CR, cs.LG]目的:プライベートなブール値総和の実現
    • データプライバシー保護は,個人情報を取り扱う様々な分野において不可欠であり,その重要性は増している。
    • マルチパーティ計算におけるプライバシー保護は,計算結果の漏洩を防ぐことが難しく,高度な技術が求められる。
    • ビルキホッフ多面体を用いた新しいプロトコルにより,プライバシー保護と計算効率の両立を目指す。
    • PolyVeilプロトコルは,サーバーに対して完全なシミュレーションベースのセキュリティを提供する。
    • フルバリアントでは,対数リプシッツ定数が$n^4 K_t$として成長し,差分プライバシーの保証は信号が検出できない場合にのみ有効である。
    • 圧縮バリアントでは,単変量密度比により,適度なSNRで有効な$\varepsilon$が得られ,最適なデコイ数はCLTの精度とノイズの集中間のバランスをとる。

    Link: https://arxiv.org/abs/2603.22808

  • 機械学習原子間ポテンシャルに対する動的注意を用いた普遍的で効率的なグラフニューラルネットワーク [cs.LG]目的:機械学習原子間ポテンシャル(MLIP)の効率性と安定性の向上
    • 分子動力学シミュレーションの精度は原子間ポテンシャルに依存する。高精度な第一原理計算は計算コストが高い。
    • 既存のMLIPモデルは,効率性と安定性の面で課題を抱えている。計算コストが高く,長時間のシミュレーションが困難な場合がある。
    • MLANetは,高い計算効率と安定性を実現し,大規模かつ高精度な原子シミュレーションを可能とする。
    • MLANetは,幾何学的な情報を考慮したメッセージパッシングと多角的なプーリング戦略により,原子環境を高度に正確にモデル化する。
    • 多様なデータセット(有機分子,無機材料,2次元材料,触媒反応など)において,主流の等方モデルと同等の予測精度を維持しつつ,計算コストを大幅に削減した。
    • MLANetは,大規模で高精度な原子シミュレーションを行うための効率的かつ実用的なツールを提供する。

    Link: https://arxiv.org/abs/2603.22810

  • 状況変化に応じた重要度の学習 [cs.CL, cs.AI]目的:状況変化下における動的な優先度推論
    • 人間の意思決定は固定された目的関数ではなく,状況に応じて変化する複数の目的と優先度に基づいている。
    • 従来の強化学習手法は,静的な優先度や既知のスカラー報酬を前提としており,状況変化への適応が困難である。
    • 状況変化に適応し,より高いパフォーマンスを発揮できる動的な優先度推論手法を開発する。
    • 提案手法DPIは,優先度の確率的信念を維持し,経験から更新することで,状況の変化に適応する。
    • DPIは,キューイング,迷路,連続制御環境において,固定された優先度やヒューリスティックなベースラインよりも高い性能を達成した。
    • ベクトル値のリターンを潜在的なトレードオフの証拠として利用し,優先度条件付きアクタークリティックと組み合わせて学習を行う。

    Link: https://arxiv.org/abs/2603.22813

  • 焦点を絞れ,剪定するな:情報豊富な画像理解のための命令関連領域の特定 [cs.CC, cs.CV, cs.AI]目的:情報豊富な画像理解のための命令関連領域の特定
    • 画像とテキストを組み合わせたタスクは,LLMの推論能力を活用し高い性能を示す。
    • 複雑な画像では大量の視覚トークンが必要となり,計算コストが課題となっている。
    • 命令に基づいて関連領域を特定し,効率的な推論と計算コストの削減を目指す。
    • 提案手法PinPointは,既存手法と比較して高い精度を達成した。
    • PinPointは,無関係な視覚トークンを最小限に抑え,計算コストを削減する。
    • InfographicVQA等のベンチマークにおいて,命令関連領域に関するより詳細なアノテーションを新たに導入した。

    Link: https://arxiv.org/abs/2603.22815

  • AIがその過程を示すとき,それは本当に機能しているのか?ステップレベル評価から,最先端言語モデルが自身の推論を頻繁に迂回していることが判明 [cs.CL, cs.AI, cs.LG]目的:最先端言語モデルにおける推論過程の真実性評価
    • 大規模言語モデルの発展に伴い,その推論過程の説明可能性が重要視されている。
    • 言語モデルが示す推論過程が,実際の意思決定に貢献しているのか,事後的な説明に過ぎないのか不明確である。
    • 言語モデルの推論過程をステップごとに評価し,その真実性を検証すること。
    • 最先端モデルの多くは,推論ステップを削除しても回答が変わらない「装飾的な推論」を行うことが示された。
    • MiniMax-M2.5やKimi-K2.5など,一部のモデルは特定のタスクにおいて推論ステップに依存する傾向が見られたが,他のタスクでは同様の結果は得られなかった。
    • モデルの推論過程の真実性は,モデル固有かつタスク固有であり,規模ではなく訓練目的が重要であることが示唆された。

    Link: https://arxiv.org/abs/2603.22816

  • テーブル構造と内容を意識した学習とセルレベルの視覚的アライメントによるEnd-to-Endテーブル認識の改善 [cs.CV, cs.AI]目的:End-to-Endテーブル認識の改善
    • 文書内のテーブルは重要であり,その認識は文書分析の基本的な課題である。
    • 既存の手法は複雑で,大規模なデータが必要であり,データが少ない場合には性能が低下する。
    • テーブル構造と内容を意識した学習とセルレベルのアライメントにより,データ制約下での性能向上を目指す。
    • 提案手法TDATRは,「知覚して融合」戦略を採用し,テーブル構造と内容を同時に学習する。
    • 複数のタスクを通してモデルのロバスト性を高め,少ないデータでも効率的なテーブル認識を可能にする。
    • 7つのベンチマークにおいて,ファインチューニングなしで最先端または非常に競争力のある性能を達成した。

    Link: https://arxiv.org/abs/2603.22819

  • タスクオーケストレーションのためのエージェント通信プロトコルの経験的比較 [cs.HC, cs.AI]目的:エージェント通信プロトコルの比較
    • AIエージェントシステムは複雑化しており,効率的な連携が不可欠である。
    • ツール統合とエージェント間委譲の比較研究が不足している。
    • 標準化されたクエリを用いたベンチマークによって,プロトコルの特性を明らかにする。
    • ツール統合のみ,エージェント間委譲,ハイブリッドアーキテクチャの性能を比較した。
    • 応答時間,コンテキストウィンドウ消費量,コスト,エラー回復,実装複雑さのトレードオフを定量化できた。
    • 複雑度レベルが異なるクエリを用いた評価を行った。

    Link: https://arxiv.org/abs/2603.22823

  • ノルム制約下における多クラス分離可能データに対する暗黙的バイアス [cs.LG, math.OC, stat.ML]目的:多クラス分離可能データにおける最適化幾何学の形状
    • 過パラメータ化モデルの汎化性能を理解する上で,勾配ベースアルゴリズムによる暗黙的バイアスの解明は重要である。
    • 既存手法では,多クラス分離可能データに対する最適化過程で,どのようなバイアスが働くのか明確になっていない。
    • 本研究は,低ランク構造を強制する新しい最適化アルゴリズムを開発し,暗黙的バイアスの影響を詳細に分析することを目指す。
    • 本研究では,核ノルム制約を用いたNucGDという幾何学を考慮した最適化アルゴリズムを提案した。
    • NucGDは,低ランク射影法との関連性を示し,統一的な視点を提供する。
    • ミニバッチサンプリングやモーメンタムによる勾配ノイズが,最大マージン解への収束に及ぼす影響を実験的に解明した。

    Link: https://arxiv.org/abs/2603.22824

  • バランスの取れた直接選好最適化による安全性向上 [cs.AI]目的:大規模言語モデルの安全性向上
    • 大規模言語モデルの急速な発展に伴い,安全性への関心が高まっている。
    • 直接選好最適化は有効だが,過学習が深刻で,実際の性能を制限している。
    • 選好ペアにおける応答の理解度の偏りを解消し,安全性向上を目指す。
    • 提案手法B-DPOは,相互情報に基づいて応答の最適化強度を調整する。
    • B-DPOは,既存手法と比較して,安全性と汎用性を両立できる。
    • 様々なベンチマークにおいて,B-DPOが大規模言語モデルの安全性を向上させることを示した。

    Link: https://arxiv.org/abs/2603.22829