arXiv雑要約

AI - 2026/05/06 公開

  • データリフティングから継続的リスク推定へ:臨床経路の予測モニタリングのためのプロセス認識パイプライン [cs.LG, cs.SE]目的:臨床経路の予測モニタリングのためのプロセス認識パイプライン
    • 医療の質向上には,臨床経路の効率的なモニタリングと早期のリスク予測が不可欠である。
    • 従来のプロセスマイニングは,過去のデータに依存するため,リアルタイムなリスク評価が困難である。
    • 患者の状態変化を継続的に捉え,早期にリスクを推定する手法の開発が求められている。
    • データリフティング,時間的再構成,イベントログ構築,および予測モデリングを統合したパイプラインを開発した。
    • COVID-19の臨床経路を用いた評価では,ICU入室予測において高い性能(AUC 0.906,F1スコア 0.835)を示した。
    • 臨床イベントの進行に伴い予測性能が向上し,早期段階のAUC 0.642から後期段階の0.942へと増加した。

    Link: https://arxiv.org/abs/2605.03895

  • 文脈的マルチ目的最適化:最先端AIシステムの目的再考 [cs.AI]目的:最先端AIシステムにおける目的選択の課題と,文脈に応じた多目的最適化の枠組み
    • AI技術の進展は目覚ましいが,その応用範囲拡大には,より信頼性の高い目的設定が不可欠である。
    • 既存のAIシステムは,目的が曖昧,文脈依存的,遅延的,または部分的にしか観測できない状況で脆弱性を示す。
    • 文脈に応じた多目的最適化により,AIシステムの目的選択の精度向上と,より安全で有用なAIの実現を目指す。
    • 最先端AIシステムの失敗は,規模や能力の限界だけでなく,適切な目的選択の失敗に起因することが示唆された。
    • 本研究では,複数の文脈依存的な目的(有用性,真実性,安全性など)を考慮し,AIが状況に応じて適切な目的を選択する枠組みを提案する。
    • 提案手法の実装経路として,目的の分解表現,文脈-目的ルーティング,階層的な制約,診断評価などが示された。

    Link: https://arxiv.org/abs/2605.03900

  • LLMのように操る:プロンプトを模倣する活性化ベクトル操縦 [cs.CL, cs.CG, cs.CL, cs.AI, cs.LG]目的:プロンプト操縦の成功事例を単純かつ解釈可能なモデルに蒸留することによる活性化ベクトル操縦の性能向上
    • 大規模言語モデルの制御は重要であり,その手法としてプロンプトや活性化ベクトル操縦が挙げられる。
    • 活性化ベクトル操縦は,プロンプトによる制御に比べて性能が劣るという課題があった。
    • プロンプト操縦のメカニズムに忠実な活性化ベクトル操縦手法を開発し,性能差を埋めることを目指す。
    • 提案手法であるPSRモデルは,既存の活性化ベクトル操縦手法と比較して優れた性能を示すことが確認された。
    • 特に,高コヒーレンスな文章生成において,その効果が顕著に現れた。
    • AxBenchやペルソナ操縦においても,プロンプトと同等の性能を示すことが示された。

    Link: https://arxiv.org/abs/2605.03907

  • 生態学的制約に基づくタスク演算による,共有データなしの多種分類バイオ音響分類器 [cs.SD, cs.LG]目的:多種分類バイオ音響分類器の構築
    • 生物音響学研究は,生物多様性保全において重要な役割を担う。
    • 生物音響データは分散しており,一元管理が困難である。
    • データ共有なしに多種分類器を構築し,データプライバシーを保護すること。
    • 独立して微調整されたBEATsエンコーダを,タスクベクトル演算により統合し,661種を識別する分類器を構築した。
    • バイオ音響タスクベクトルはほぼ直交しており,その分離はスペクトル分布距離と一致する。
    • タスクベクトルの平均化が最適であり,種数の多いグループの精度は低下する一方,少ないグループは向上する。

    Link: https://arxiv.org/abs/2605.03914

  • 原子的事実検証が,がん治療意思決定支援における大規模言語モデルの推奨に対する臨床医の信頼性を高める:ランダム化比較試験 [cs.CL, cs.AI]目的:臨床医の信頼性向上
    • 医療現場におけるAI活用は,診断や治療の質向上に貢献しうる重要な課題である。
    • AI推奨の根拠が不透明な場合,臨床医はAIを信頼しにくく,活用が妨げられる可能性がある。
    • AI推奨を検証可能な要素に分解することで,臨床医のAIに対する理解と信頼を深めることを目指す。
    • 原子的事実検証は,臨床医の信頼性を大きく向上させ,信頼を示す臨床医の割合を26.9%から66.5%に増加させた。
    • 従来の透明性メカニズムも,ベースラインと比較して改善が見られたが,その効果は限定的であった。
    • AI推奨を検証可能な要素に分解することが,臨床現場でのAI活用を促進する上で重要であると考えられる。

    Link: https://arxiv.org/abs/2605.03916

  • tabular MDPにおける最適な事後サンプリングによる方策識別 [cs.LG, stat.ML]目的:有限地平線エピソード型マルコフ決定過程における方策識別
    • 強化学習において,最適な方策を効率的に見つけることは重要である。環境モデルが不明確な場合でも有効な方策識別が求められる。
    • 既存手法は計算コストが高く実装が困難であり,δの対数依存性が最適でない場合がある。
    • 事後サンプリングとオンライン学習を組み合わせることで,効率的かつ最適な方策識別を実現する。
    • 提案手法はサンプル複雑度において漸近的な最適性を達成し,標準的なモデルベースアプローチに匹敵する計算量で動作する。
    • MOCAやPEDELといった既存アルゴリズムとは異なり,漸近的枠組みにおいても意味のある保証を提供し,log(1/δ)への劣った多項式依存性を回避する。
    • 本研究は,tabular MDPにおける効率的な方策識別のための理論的洞察と実践的ツールを提供する。

    Link: https://arxiv.org/abs/2605.03921

  • PHALAR:学習された音楽オーディオ表現のための位相表現 [cs.SD, cs.AI, cs.LG, eess.SP]目的:音楽オーディオのステム検索における表現学習
    • 音楽制作において,ステム単位での編集は不可欠であり,効率的な検索手法が求められている。
    • 既存手法は時間情報を無視しており,検索精度に課題があった。
    • 時間情報を考慮し,より高精度なステム検索を実現する。
    • PHALARは,最先端の手法と比較して最大約70%の精度向上を達成した。
    • パラメータ数を50%以下に抑え,学習速度を7倍に向上させた。
    • PHALARは,MoisesDB,Slakh,ChocoChoralesの各データセットで新たな最高性能を確立した。

    Link: https://arxiv.org/abs/2605.03929

  • オープンワールド音響イベント検出への道 [cs.SD, cs.AI]目的:音響イベント検出における,未知のイベントの検出と学習
    • 音響情報理解は,監視,スマートシティ,医療など幅広い分野で重要である。
    • 従来のシステムは既知のイベントに限定され,現実環境での汎用性に課題がある。
    • 未知のイベントにも対応可能な,より実用的なシステム構築を目指す。
    • 提案手法は,従来のクローズドワールド設定において,既存手法と同等以上の性能を示す。
    • オープンワールド設定においては,既存のベースラインと比較して大幅な性能向上を達成した。
    • 変形可能な注意機構と特徴分離により,曖昧なイベントの検出精度を高めている。

    Link: https://arxiv.org/abs/2605.03934

  • 反例ゲーム:言語モデルにおける反復概念分析と修正 [cs.CL, cs.AI]目的:言語モデルにおける概念分析と修正の反復プロセス
    • 哲学における概念分析は,定義の明確化と理解に不可欠であり,言語モデルへの応用が期待される。
    • 言語モデルが生成する反例の妥当性評価は難しく,人間との一致性も課題である。
    • 言語モデルが概念分析の反復プロセスをどの程度遂行できるか,その限界を探る。
    • 言語モデルが生成した反例のうち,人間が妥当と判断する割合よりも,別の言語モデルが妥当と判断する割合が高いことが分かった。
    • 人間同士,および人間と言語モデル間での反例の妥当性判断は,ある程度の整合性が見られた。
    • 反復を重ねるほど定義は冗長になる傾向があり,必ずしも精度向上には繋がらないことが示された。

    Link: https://arxiv.org/abs/2605.03936

  • インタラクティブなワールドモデルのベンチマーク:統一された行動生成フレームワーク [cs.CV, cs.AI]目的:インタラクティブなワールドモデルの評価のためのベンチマークおよび行動生成フレームワーク
    • 汎用人工知能実現には,環境に適応的に学習・相互作用するエージェントが不可欠であり,そのための環境としてワールドモデルが重要である。
    • 大規模なデータセットや,物理的相互作用能力を評価するための統一されたベンチマークが不足している。
    • 距離知覚や記憶など,相互作用に関連する能力を持つワールドモデルを評価するための基準を確立し,モデルの性能向上を目指す。
    • iWorld-Benchは,33万件の動画クリップを含む多様なデータセットを構築し,様々な視点,天候,シーンを網羅する2100件の高品位サンプルを選定した。
    • 既存のワールドモデルの多様な相互作用モダリティに対応するため,評価を統一する行動生成フレームワークを導入し,6種類のタスクと4900件のテストサンプルを生成した。
    • 14の代表的なワールドモデルを評価した結果,主要な限界が明らかになり,今後の研究の方向性に関する洞察が得られた。

    Link: https://arxiv.org/abs/2605.03941

  • TabSurv:最新のテーブル型ニューラルネットワークを生存時間分析へ適応 [cs.LG, cs.AI, stat.ML]目的:テーブル型データの生存時間分析における性能向上
    • 生存時間分析は医療やマーケティング等,幅広い分野で重要であり,予測精度の向上が求められている。
    • 既存の深層学習手法は特定タスクに特化しやすく,汎用性や性能に制約が生じる場合がある。
    • 最新のテーブル型ニューラルネットワークを生存時間分析へ適用し,その有効性を検証すること。
    • 提案手法TabSurvは,10の実際の生存時間データセットにおいて,既存の古典的および深層学習ベースライン(RSF,DeepSurv等)を平均的に上回る性能を示した。
    • 特に,Weibull分布によるパラメトライゼーションを用いた深層アンサンブルが,C-indexで最も高い平均ランクを達成した。
    • 本研究は,最新のテーブル型ニューラルネットワークを生存時間分析に応用するための指針を示し,信頼性の高い手法を提供する。

    Link: https://arxiv.org/abs/2605.03944

  • 差分プライバシーにおける特徴量相関の統合:DP-ERMへの応用 [cs.LG, stat.ML]目的:差分プライバシーにおける特徴量相関を考慮したフレームワーク
    • 個人情報保護は重要であり,データ活用とプライバシー保護の両立が求められている。
    • 従来の差分プライバシーは特徴量全体に一律な制約を課し,プライバシー保護とデータ有用性のバランスが課題。
    • 特徴量の相関を考慮することで,プライバシー保護を維持しつつデータ有用性を向上させることを目指す。
    • 提案手法CorrDPは,特徴量間の相関を考慮し,機密性の低い特徴量に対するプライバシー制約を緩和する。
    • 経験的リスク最小化(DP-ERM)にCorrDPを適用することで,理論的な有用性を保証しつつ,勾配に依存するノイズを導入する。
    • 実験結果から,CorrDPに基づくDP-ERMは,従来のDPフレームワークと比較して,機密性の低い特徴量が存在する場合に優れた性能を発揮する。

    Link: https://arxiv.org/abs/2605.03945

  • MOSAIC-Bench:コーディングエージェントにおける構成的な脆弱性誘発の測定 [cs.CR, cs.AI, cs.SE]目的:コーディングエージェントにおける構成的な脆弱性誘発の評価
    • ソフトウェア開発において,セキュリティは不可欠であり,自動化されたコーディング支援ツールの安全性評価が重要である。
    • 既存の安全性評価は単一のプロンプトに対して行われることが多く,一連の指示による悪意のある最終状態を見抜けない。
    • 本研究は,複数の段階にわたるプロンプト列に対する脆弱性誘発の可能性を評価し,そのメカニズムを解明する。
    • MOSAIC-Benchは,悪意のある目的を無害な一連の指示に変換したベンチマークであり,実際のソフトウェア基盤上で脆弱性を検証する。
    • 評価の結果,主要なコーディングエージェントは,段階的な指示に対して53〜86%の確率で脆弱性のあるコードを生成し,レビュー段階での検知率は低い。
    • レビュー担当者を攻撃者として捉えることで,脆弱性回避率を低下させることができ,オープンウェイトモデルを用いた場合,88.4%の攻撃を検知可能であった。

    Link: https://arxiv.org/abs/2605.03952

  • 初期表現への選択的アクセスを持つTransformer [cs.LG, cs.CL]目的:初期表現の再利用を,接続性問題ではなく検索問題として捉えたTransformerモデルの提案
    • Transformerは自然言語処理の様々なタスクで高い性能を示すが,深層化に伴い初期の低レベル特徴が失われやすい
    • 初期層の情報を再利用する手法は存在するが,計算コストや処理速度の低下を招く場合がある
    • 文脈に応じて初期表現へのアクセスを制御することで,効率的な特徴再利用を目指す
    • SATFormerは,130Mから1.3Bパラメータのモデルで,検証損失とゼロショット精度を既存手法よりも改善した。
    • 特に検索を要するベンチマークにおいて,静的残差と比較して約1.5ポイントの性能向上を示した。
    • ゲート解析により,アクセスパターンが疎であり,深層,ヘッド,カテゴリに依存することが示唆された。

    Link: https://arxiv.org/abs/2605.03953

  • 矛盾データベースと集合攻撃を持つ議論枠組み [cs.DB, cs.AI]目的:矛盾データベースのsubset-maximal repairと議論枠組みにおける受容可能な議論集合の関係性
    • データ整合性確保は,信頼性のある情報システム構築の根幹であり重要である。
    • 整合性制約違反が発生した場合,修理候補が複数存在し,適切な選択が困難である。
    • 制約の種類に応じた修理と議論枠組みの対応付けにより,修理の選択基準を明確化する。
    • 否定制約下におけるsubset-maximal repairは,naive extensionと一致し,結果的にSETAFにおけるpreferred/stable extensionと対応する。
    • tuple-generating dependency下では,preferred extensionがrepairに対応し,前処理によりstableかつnaiveな一意のextensionが得られる。
    • 両種類の制約が混在する場合,その関係は崩れ,preferred semanticsのみがrepairを捉える。

    Link: https://arxiv.org/abs/2605.03954

  • 事前学習済みモデル表現をMLIPの能動学習獲得信号として [cs.SI, cs.LG, physics.chem-ph]目的:反応性化学のための機械学習原子間ポテンシャル(MLIP)の能動学習獲得ルールの検討
    • 反応性化学におけるMLIPの精度向上は,化学反応シミュレーションの効率化に不可欠である。
    • 量子化学計算によるラベル付けコストが高いこと,遷移状態配置の不足がMLIP学習のボトルネックとなっている。
    • 事前学習済みMLIPの潜在空間が,追加の不確実性推定やアンサンブル学習なしに効果的な獲得信号を提供することを示す。
    • 事前学習済みMACEポテンシャルから導出されたニューラル接線核(NTK)および活性化核は,固定記述子ベースラインや委員会不一致よりも優れていた。
    • エネルギー誤差と力誤差の目標性能に到達するために必要なデータ量を,それぞれ平均で38%と28%削減することが示された。
    • 事前学習済みモデルは,化学的に意味のある構造を保持し,信頼性の高い残差不確実性推定を提供することが確認された。

    Link: https://arxiv.org/abs/2605.03964

  • 航空画像からの弱学習事前学習とファインチューニングによるラベル効率的な学校検出 [cs.CV, cs.AI, cs.LG]目的:航空画像からの学校検出
    • 教育インフラ整備やインターネット接続拡大には,正確な学校の位置情報が不可欠である。
    • 多くの地域で,学校情報の記録が古く,不完全,または利用できないという課題が存在する。
    • 手作業によるマッピングは,時間と労力がかかるため,大規模な地域での適用が困難であるという問題を解決する。
    • 本研究では,手動アノテーションの必要性を最小限に抑え,グローバルなマッピング活動を支援する弱学習フレームワークを提案する。
    • 限られた手動アノテーションデータ(50枚)で高い検出性能を実現し,コストのかかるアノテーション作業を大幅に削減する。
    • 本フレームワークは,世界規模での教育および接続イニシアチブを支援するための,効率的かつ拡張可能なアプローチを提供する。

    Link: https://arxiv.org/abs/2605.03968

  • ドメイン・生成モデルを跨いだロバストなAIテキスト検出のための特徴拡張Transformer [cs.CL, cs.AI]目的:AI生成テキストのロバストな検出
    • AI生成テキストの利用拡大に伴い,その検出の重要性が増している。
    • 生成モデルやドメインの変化に対する検出器の汎化性能が課題である。
    • ドメインや生成モデルに依存しない,ロバストな検出手法を確立する。
    • 特徴拡張により,クロスデータセット転移学習における性能が向上した。
    • 提案手法(DeBERTa-v3-base+FeatAttn)は,M4ベンチマークで85.9%のバランスアキュラシーを達成した。
    • 固定閾値プロトコルを用いることで,より現実的な検出器のロバスト性を評価した。

    Link: https://arxiv.org/abs/2605.03969

  • フローサンプリング:ノイズ除去条件付きプロセスによる非正規化密度からのサンプリング学習 [cs.DC, cs.LG, cs.AI]目的:非正規化密度からの効率的なサンプラー学習
    • 生成モデルは様々な応用において重要であり,特にデータが少ない状況での活用が期待される。
    • エネルギー関数に基づくサンプリングでは,エネルギー関数の評価コストが課題となる。
    • エネルギー関数の評価回数を減らし,効率的かつスケーラブルなサンプリング手法を開発する。
    • フローサンプリングは,拡散モデルとフローマッチングを組み合わせたデータフリーなフレームワークである。
    • エネルギー関数からのノイズ除去拡散ドリフトを回帰することで,効率的なサンプリングを実現する。
    • 球面や双曲空間を含む定曲率多様体上でのサンプリングにも拡張可能であり,様々な実験で有効性が示された。

    Link: https://arxiv.org/abs/2605.03984

  • 意図から実行へ:エージェント推薦による自律的ワークフローの構築 [cs.AI]目的:マルチエージェントシステムの自動生成
    • AIエージェントを活用したマルチエージェントシステムは,多様なユーザーの意図を実現し,応用範囲が広い。
    • 既存の手法では,計画の作成,適切なエージェントの選択,実行グラフの作成に手動作業が必要であり,非効率である。
    • 本研究では,これらの手動作業を自動化するフレームワークを提案し,システムの構築を効率化する。
    • 提案手法は,計画立案,エージェント選択,タスク完了を統合的に行うことで,従来手法を上回る再現率を達成した。
    • 動的なコールグラフとエージェント推薦システムにより,ローカルおよびグローバルなエージェント登録から最適なエージェントを効率的に見つけ出す。
    • 批判的評価エージェントの導入により,タスクベースのエージェント選択の再評価・修正が重要であることが示された。

    Link: https://arxiv.org/abs/2605.03986

  • 経験駆動型検索戦略オーケストレーションのためのエージェント指向型プラグ可能なExperience-RAGスキル [cs.AI]目的:異種タスクにおける検索戦略のオーケストレーション
    • 検索拡張生成は,多様なタスクに応じた適切な検索方法の選択が重要である。
    • 既存システムは,固定された検索パイプラインに依存し,タスクごとの検索ニーズに対応できない。
    • 本研究は,経験に基づいた検索戦略の選択を可能にする再利用可能なエージェントスキルを提案する。
    • Experience-RAGスキルは,BeIR/nq,BeIR/hotpotqa,BeIR/scifactにおいてnDCG@10で0.8924を達成した。
    • 固定された単一検索器ベースラインを上回り,Adaptive-RAGと同等の性能を示した。
    • 検索戦略の選択は,上位ワークフローにハードコードするのではなく,再利用可能なエージェントスキルとして効果的である。

    Link: https://arxiv.org/abs/2605.03989

  • 製造におけるトレーサブルでリスクを考慮した人間とAIの意思決定支援のための物理学に基づいたマルチエージェントアーキテクチャ [cs.MA, cs.AI, cs.IR]目的:製造における人間とAIの意思決定支援のためのマルチエージェントアーキテクチャ
    • 航空宇宙部品の精密加工は,高度な知識と補正を必要とし,品質と効率が重要である。
    • 既存のLLMはテキスト生成に優れるが,数値ワークフローの実行や意思決定の根拠の提示が課題である。
    • 物理的妥当性や安全性,トレーサビリティを確保したAIによる意思決定支援を目指す。
    • MAKAアーキテクチャは,意図のルーティング,定量分析,知識グラフの検索,検証を分離することで,リスクを考慮した意思決定を支援する。
    • Ti-6Al-4Vローターブレードの加工実験において,MAKAはツール実行の成功率を最大87.5%向上させた。
    • デジタルツインを用いたシミュレーションにより,MAKAは表面偏差を大幅に低減し,リスクを考慮した人間による意思決定の事前検証信号を提供することが示された。

    Link: https://arxiv.org/abs/2605.04003

  • 多様な精度訓練を用いた3D脳腫瘍セグメンテーションの向上 [cs.IR, cs.CV, cs.LG]目的:3D脳腫瘍セグメンテーションの精度向上
    • 脳腫瘍は幅広い年齢層に影響を及ぼす疾患であり,早期発見が生存率向上に不可欠である。
    • 脳腫瘍のセグメンテーションは,正確な診断と治療計画のために重要だが,困難な課題である。
    • 本研究は,より正確かつ効率的な脳腫瘍セグメンテーション手法を開発することを目指す。
    • SegResNetアーキテクチャと自動マルチプレシジョン訓練を用いることで,高精度な3D脳腫瘍セグメンテーションを実現した。
    • Diceスコアは,腫瘍コアで0.84,腫瘍全体で0.90,腫瘍増強部で0.79と良好な結果を示した。
    • 本研究の結果は,脳腫瘍の早期発見と治療計画の改善に貢献することが期待される。

    Link: https://arxiv.org/abs/2605.04008

  • SymptomAI:日常的な症状評価のための会話型AIエージェントへ [cs.AI]目的:日常的な症状評価を行う会話型AIエージェントの開発と評価
    • 医療現場における診断支援のニーズが高く,AIによる効率化が期待されている
    • 既存研究は複雑な症例に偏り,日常生活での症状報告に対するAIの性能評価が不足している
    • 現実の患者データに基づき,AIエージェントによる症状評価の精度向上を目指す
    • SymptomAIは,臨床医による診断と同等以上の精度で,差分診断(DDx)を行うことが示された。
    • AIが主導する症状インタビューは,ユーザー主導の会話よりも有意に高い精度を発揮した。
    • ウェアラブルデバイスのデータと症状評価を組み合わせることで,感染症と生理的変化の関連性が明らかになった。

    Link: https://arxiv.org/abs/2605.04012

  • エージェント時代のAIレッドチームの再定義:数週間から数時間へ [cs.CL, cs.IR, cs.AI, cs.CR]目的:AIシステムに対する敵対的攻撃の脆弱性評価手法の効率化
    • AIが医療,金融,防衛などの重要領域に進出し,安全性確保が急務となっている。
    • 従来のAIレッドチームは手動作業が多く,ワークフロー構築に時間がかかる。
    • AIエージェントを活用し,ワークフロー構築の自動化と迅速な脆弱性評価を実現する。
    • AIレッドチームエージェントを開発し,自然言語による指示で敵対的攻撃を実行可能にした。
    • 従来の機械学習モデルと生成AIシステムの両方を対象とする統合フレームワークを構築した。
    • Meta Llama Scoutに対する検証で,85%の攻撃成功率と高い危険度を確認した。

    Link: https://arxiv.org/abs/2605.04019

  • マルチビューキャプチャからの大規模高品質3Dガウス頭部再構成 [cs.CV, cs.LG]目的:大規模なマルチカメラセットアップからの高品質3Dガウス頭部再構成
    • 人間認識やコンピュータビジョンにおいて,3D頭部モデルは重要な役割を担う。
    • 既存のデータセットは規模が小さく,高解像度な再構成が困難である。
    • 大規模データセットを用いて,高品質かつ効率的な3D頭部再構成手法を開発する。
    • 提案手法HeadsUpは,効率的なエンコーダ・デコーダ構造により,入力画像をコンパクトな潜在表現に圧縮する。
    • この潜在表現は,UVパラメータ化された3Dガウス群としてデコードされ,高品質な頭部再構成を実現する。
    • 1万人以上の被験者データを用いた実験で,既存手法を上回る再構成品質と汎化性能を確認した。

    Link: https://arxiv.org/abs/2605.04035

  • OpenSeeker-v2:情報豊富な困難な軌跡を用いた検索エージェントの限界への挑戦 [cs.AI, cs.CL]目的:最先端の検索エージェントの訓練
    • 大規模言語モデル(LLM)エージェントにおいて,高度な検索能力は不可欠であり,その重要性は増している。
    • 検索エージェントの開発は,計算資源を大量に消費し,一部の大企業に集中している現状がある。
    • 情報豊富で困難な軌跡を用いた,よりシンプルで効率的な訓練手法を確立し,研究の裾野を広げる。
    • OpenSeeker-v2は,10.6kのデータポイントのみで訓練され,ReActパラダイムにおける最先端の性能を達成した。
    • BrowseComp,BrowseComp-ZH,Humanity's Last Exam,xbenchの4つのベンチマークにおいて,CPT+SFT+RLを用いたTongyi DeepResearchを上回る結果を示した。
    • 本研究は,純粋な学術チームによる,モデル規模とパラダイムにおいて初の最先端検索エージェントの開発を可能にした。

    Link: https://arxiv.org/abs/2605.04036

  • 臨床大規模言語モデルにおける安全性と精度は異なるスケーリング則に従う [cs.CL, cs.AI, cs.LG]目的:臨床大規模言語モデルの安全性評価フレームワークの構築と,スケーリングによる安全性への影響の分析
    • 医療分野における意思決定支援ツールとしてのLLM活用が期待される中で,安全性確保が不可欠である。
    • LLMの精度向上だけでは,医療における重大な誤りを防げないという課題が存在する。
    • LLMの安全性向上のために,エビデンス品質や検索戦略など,展開条件を最適化する必要がある。
    • 質の高いエビデンスを用いることで,精度は大幅に向上し,高リスクな誤りや矛盾,過信も大幅に減少した。
    • 標準的なRAGやエージェントRAGは,安全性のプロファイルを再現できず,高リスクな誤りや過信は高い水準で残存した。
    • スケーリングだけでは安全性は向上せず,エビデンス品質や検索設計,コンテキスト構築が重要な展開特性となる。

    Link: https://arxiv.org/abs/2605.04039

  • 閉形式適応ランドマークカーネルによる認定ポイントクラウドおよびグラフ分類 [cs.LG, math.AT]目的:ポイントクラウドとグラフの分類における,確証可能な識別
    • 多様なデータ構造の識別は,機械学習の重要な課題であり,応用範囲は広い。
    • 従来の識別手法は,確証可能な識別が困難であり,汎化性能の保証が難しい。
    • 確証可能な識別を可能にする,効率的かつ正確なカーネル手法の開発。
    • PALACEは,既存手法と比較して,分類精度と計算効率の両面で優れていることが示された。
    • 特に,Orbit5kデータセットにおいて,Persformerと同等の高い性能を達成した。
    • また,COX2およびMUTAGデータセットにおいても,既存の図ベースの手法を上回る結果が得られた。

    Link: https://arxiv.org/abs/2605.04046

  • テスト時嗜好性アライメントによる制御可能な敵対的シナリオ生成 [cs.AI, cs.RO]目的:自律運転システムの安全性評価のための敵対的シナリオ生成
    • 自動運転技術の安全性確保は社会実装において不可欠であり,多様なシナリオでの検証が求められる。
    • 既存手法は,敵対性と現実性のトレードオフが固定されており,柔軟なシナリオ生成が困難である。
    • テスト時に敵対性と現実性のバランスを動的に制御し,多様なニーズに対応できるシナリオ生成を目指す。
    • 提案手法SAGEは,再学習なしに,テスト時に敵対性と現実性のトレードオフを細かく制御することを可能にする。
    • 階層的なグループベースの嗜好性最適化により,ハードな制約とソフトな嗜好を分離し,効率的にバランスを取る。
    • 反対の嗜好性で訓練された2つのエキスパートを線形補間することで,連続的なポリシーを生成する。

    Link: https://arxiv.org/abs/2509.20102

  • エントロピー的ストレス下における大規模言語モデルの安定性解析のための情報幾何学的フレームワーク [cs.AI, cs.CL, cs.CR, cs.LG]目的:大規模言語モデルの安定性評価
    • 大規模言語モデルの応用範囲拡大に伴い,システムの信頼性評価が重要となっている。
    • 従来の集約的な精度に基づく評価では,システムの信頼性を十分に評価できない問題がある。
    • 不確実性下における大規模言語モデルの安定性を定量的に評価するフレームワークの構築を目指す。
    • 提案されたフレームワークは,タスクの有用性,エントロピー,内部構造の指標を統合し,安定性を評価する。
    • IST-20ベンチマークを用いた分析の結果,提案手法は既存手法よりも平均0.0299高い安定性スコアを示した。
    • 特にエントロピーが高い条件下で効果が顕著であり,不確実性の非線形減衰を捉えている可能性が示唆された。

    Link: https://arxiv.org/abs/2604.24076

  • ケリモフ・アレクバーリモデル:リアルタイムシステム安定性の情報幾何学的フレームワーク [cs.AI, cs.CL, cs.CR, cs.LG]目的:リアルタイムシステムの安定性に関する情報幾何学的フレームワーク
    • AIの進化に伴い,自律システムの安全性確保が喫緊の課題となっている。
    • 従来のAI安全性評価は経験則に頼る部分が多く,厳密な物理的根拠に乏しい。
    • 非平衡熱力学と確率制御の関連性により,AI安全性の物理的基盤を確立すること。
    • ケリモフ・アレクバーリモデルは,非平衡熱力学と確率制御の間の形式的な同型性を示す。
    • システム異常をリーマン多様体からの逸脱として定義し,情報エントロピーの変化と物理的仕事量の関係を明らかにした。
    • NSL-KDDデータセットと無人航空機軌道シミュレーションによる検証で,リアルタイム異常検知の有効性が確認された。

    Link: https://arxiv.org/abs/2604.24083

  • 非剛体点群登録のための構造化解析的コヒーレント点ドリフト [cs.LG, cs.CV, stat.ML]目的:非剛体点群登録における,構造化解析的コヒーレント点ドリフトの提案
    • 点群登録は,3次元形状のモデリングや認識など,様々な応用分野で不可欠な技術である。
    • 従来の非剛体点群登録手法は,計算コストが高く,大規模変形に弱いという課題があった。
    • 本研究は,計算効率と大規模変形への対応力を向上させた新たな登録手法を開発する。
    • 提案手法Analytic-CPDは,標準的なCPDよりも低い最終誤差と高速な収束を実現した。
    • CPDの確率的対応付けと構造化解析的写像を組み合わせることで,コンパクトかつ解釈可能な代替手法を提供する。
    • 次数継続戦略を用いることで,大規模変形登録の安定性を向上させている。

    Link: https://arxiv.org/abs/2605.00934

  • パケットからパターンへ:暗号化されたネットワークトラフィックを縦断的行動シグナルとして解釈する [cs.LG, cs.AI, cs.CY, cs.NI]目的:暗号化されたスマートフォンネットワークトラフィックを用いた睡眠,ストレス,孤独感に関連する行動パターンの捕捉
    • 大規模な行動観察は困難だが,デバイス利用から行動痕跡を計測できるため重要である。
    • 既存のネットワークトラフィック特徴量では,個人の基線からの逸脱といった時間的行動の変化を捉えきれない。
    • 学習された表現を用いて,暗号化されたネットワークトラフィックが行動力学を捉えうることを示す。
    • ストレスは主に個人間の安定した差に関連し,孤独感は個人内の変動に関連することが示された。
    • 睡眠障害は,個人間の差と個人内の変動の組み合わせに関連していた。
    • 暗号化されたネットワークトラフィックが,行動を捉える有効な受動的センシング手段となることが確認された。

    Link: https://arxiv.org/abs/2605.01616

  • 脳ダイナミクスの普遍空間:認知遷移と個人差の解明 [math.DS, cs.SY, eess.SY, math.OC, cs.CC, physics.hist-ph, cs.CC, physics.comp-ph, q-bio.QM, cs.AI]目的:脳ダイナミクスの普遍空間の構築とその定量化
    • 脳機能の理解は,精神疾患の治療や認知機能の向上に不可欠であり,その重要性は高い。
    • 脳活動は状態や個人差が大きく,普遍的な解析手法の確立が課題となっていた。
    • 脳活動の空間的・時間的特性を統合し,普遍的な解析空間を構築することで,この問題を解決する。
    • 開発した普遍的脳ダイナミクス(UBD)は,Human Connectome Projectのデータを用いて検証された結果,fMRI信号を高い精度で予測することに成功した。
    • 休息時fMRIデータを用いて解析した結果,脳活動の基盤となる超緩徐な変動(ISF)の役割が明らかになった。
    • UBDを課題誘発状態に拡張することで,認知遷移を駆動する神経メカニズムや個人差の神経基盤を詳細に解明することができた。

    Link: https://arxiv.org/abs/2605.02936

  • EFGPP:表現型予測のための探索的フレームワーク [physics.plasm-ph, cs.CE, q-bio.GN, cs.LG]目的:遺伝子型から表現型を予測するための枠組み
    • 複雑なヒトの形質は遺伝的要因と環境要因が複雑に絡み合い,解明が困難である。
    • 遺伝子データ,臨床データ,分子データのそれぞれが,予測に必要な情報の一部しか含んでいない点が課題である。
    • 複数の異種データソースを統合し,より高精度な表現型予測を可能にすることを目指す。
    • EFGPPフレームワークを用いて片頭痛予測を試みた結果,単一データタイプでの最高AUCは0.644であった。
    • 複数のデータタイプを組み合わせることで,片頭痛関連入力ではAUCが0.688に向上し,うつ病関連入力でも0.663となった。
    • 遺伝子特徴量のみでは臨床データのみのベースラインを下回らなかったが,遺伝子由来特徴量はポリジェニックリスクスコアよりも優れていた。

    Link: https://arxiv.org/abs/2605.02954

  • PHBench:Product HuntローンチシグナルからのシリーズA資金調達予測ベンチマーク [quant-ph, cs.MS, q-fin.PR, cs.LG]目的:Product HuntのローンチシグナルからシリーズA資金調達を予測するためのベンチマーク
    • スタートアップの資金調達は,成長の重要な鍵であり,成功を左右する。
    • シリーズA資金調達の予測は難しく,信頼性の高い指標が不足している。
    • Product Huntのデータを活用し,シリーズA資金調達の予測精度向上を目指す。
    • PHBenchは,67,292件のProduct Hunt投稿とCrunchbaseの資金調達記録を紐付けたデータセットである。
    • 最良のモデルは,F0.5スコア0.097,APスコア0.037を達成し,ランダムよりも4.7倍高い性能を示した。
    • Geminiモデルの評価では,機械学習モデルを下回る結果となり,さらなる調査が必要であることが示唆された。

    Link: https://arxiv.org/abs/2605.02974

  • 動的ワインコプラ:時間変化する高次相互作用の検出と定量化 [physics.soc-ph, cs.SI, quant-ph, cs.DM, math.CO, stat.ML, cs.LG, q-bio.QM, stat.ME]目的:時間変化する多変量システムの非ガウス的依存性の推定と診断
    • 複雑なシステムの挙動を理解する上で,変数間の依存構造の把握は不可欠である。
    • 従来の相関やガウスGraphicalモデルでは,非ガウス的依存性や条件付き構造の変化を捉えきれない場合がある。
    • 時間変化する依存構造が,ペアワイズなものか条件付きのものかを識別することを可能にする。
    • 動的ワインコプラ(DVC)は,時間変化するStudent-t分布の裾の自由度,Clayton型からGumbel型への変化,および再発的な条件付き相互作用を検出した。
    • DVCは,ベンチマークテストにおいて,従来のガウスモデルでは捉えきれない依存性の変化を識別できることが示された。
    • 脳神経データ解析において,DVCは領域間の同時依存性を示す再現性のある時間依存的信号を特定し,相関のない状態では消失することが確認された。

    Link: https://arxiv.org/abs/2605.03061

  • 知識から行動へ:材料科学と化学における2025年大規模言語モデル(LLM)ハッカソンの成果 [cond-mat.mtrl-sci, cs.AI]目的:材料科学と化学におけるLLMの応用事例の成果分析
    • 材料科学と化学の研究において,科学的知識の発見,整理,活用が重要となっている。
    • 既存のツールでは,LLMの可能性を最大限に引き出し,研究ライフサイクル全体で活用するには課題があった。
    • LLMを活用した科学的推論と行動を促進するための基盤構築を目指している。
    • ハッカソンで開発されたLLMアプリケーションは,知識インフラと行動システムという二つのカテゴリに分類された。
    • 単一目的のツールから,検索,推論,ツール利用を組み合わせた統合型ワークフローへの移行が見られた。
    • LLMが科学的推論と行動のための構成要素となるインフラへと進化していることが示唆された。

    Link: https://arxiv.org/abs/2605.03205

  • 適合パーセンタイル区間:有限サンプルでの妥当性と条件付き性能の向上 [stat.ML, cs.LG]目的:分布フリーな予測区間構築手法
    • 予測区間の信頼性は機械学習モデルの利用において重要であり,不確実性の定量化に不可欠である。
    • 既存手法では,条件付き妥当性や区間長の短さを両立することが困難であった。
    • 条件付き分布の推定誤差に対してもロバストな,より正確な予測区間を構築すること。
    • 確率積分変換(PIT)を用いた応答のキャリブレーションにより,特徴量に依存しない誤カバレッジを軽減し,条件付きキャリブレーションを改善する。
    • 提案手法は有限サンプルでの周辺カバレッジを保証し,穏やかな一貫性条件下で漸近的な条件付きカバレッジを示す。
    • 合成データと実データを用いた実験により,既存手法と比較して,条件付きキャリブレーションと区間長の短さにおいて優れた性能が示された。

    Link: https://arxiv.org/abs/2605.03233

  • 光ROMベースのルックアップテーブルエンジン:フォトニックアクセラレータ向け [physics.optics, cs.AI]目的:フォトニックアクセラレータのための光ROMベースのルックアップテーブルエンジンの開発
    • データ処理速度の向上は重要であり,特にフォトニックコンピューティングはその有望な手段の一つである。
    • 既存の光メモリは,損失,波長制御,集積化の制約により,コンパクトかつ再構成可能な実現が困難である。
    • 損失を抑え,再構成性を確保した高性能な光ROMアーキテクチャを開発し,その実用性を検証する。
    • 集積マイクロリング共振器(MRR)を用いた高速・再構成可能な光ROMアーキテクチャを提案した。
    • 光デバイスのスペクトル応答に直接入出力マッピングを符号化することで,動的な計算を伴わない決定論的ルックアップ動作を実現した。
    • シミュレーション結果は,12.5 GHzまでのデータレートで信頼性の高い動作を示し,様々な非線形活性化関数への応用可能性を示唆した。

    Link: https://arxiv.org/abs/2605.03241

  • 多様体値マルコフ連鎖モンテカルロにおけるカーネル不一致を通じた固有有効サンプルサイズ [stat.ML, cs.LG, math.ST, stat.CO, stat.ME, stat.TH]目的:多様体値サンプルの有効サンプルサイズ評価手法
    • マルコフ連鎖モンテカルロ法は複雑な分布からのサンプリングに不可欠であり,その性能評価は重要である。
    • 多様体上のサンプルの場合,有効サンプルサイズの定義が座標系に依存し,一意に定まらないという問題がある。
    • カーネル不一致に基づいた,座標系に依存しない有効サンプルサイズ評価手法を確立し,その診断可能性を検証する。
    • 提案手法は,経験分布と目標分布間のカーネル不一致の期待値二乗が等しくなる独立サンプルの数を表す。
    • この手法は,有限サンプルリスクの解釈,漸近的な自己相関表現,座標系に依存しない診断を可能にする。
    • 球面上での実験により,提案手法の回転不変性と経験的な分布誤差に対する校正が確認された。

    Link: https://arxiv.org/abs/2605.03266

  • 相乗的因果関係に対する部分有効情報分解 [stat.ML, cs.LG, physics.data-an, physics.soc-ph]目的:多変量変数間の因果関係における相乗的因果関係の識別と分析
    • 科学的探求において因果関係は中心的課題であり,複雑系の理解に不可欠である。
    • 複雑系における相乗的因果関係の特定と分析は依然として困難な課題である。
    • 介入主義的因果関係に基づく分解フレームワークを提案し,相乗的因果関係を定量化する。
    • 提案する部分有効情報分解(PEID)は,複数のソース変数がターゲット変数に与える影響を,ユニーク情報と相乗的情報に分解する。
    • PEIDは最大エントロピー介入下で,入力変数間の相関を取り除き,冗長性を消失させることで相乗的関係を計算可能にする。
    • PEIDは,KnowAir-V2を用いた空気質予測タスクにおいて,学習された動的モデルから解釈可能な局間因果構造を抽出できることを示した。

    Link: https://arxiv.org/abs/2605.03267

  • 治療効果の二重頑健性推定のための共分散に基づく内生性補正 [stat.ME, cs.AI]目的:治療効果推定における内生性の補正手法
    • 医療研究では,観察されていない交絡因子による影響が問題となることが多く,正確な治療効果の推定が重要である。
    • 薬剤処方回数など,観察可能な変数で治療へのアドヒアランスを推測する際,内生性によって推定結果にバイアスが生じる可能性がある。
    • 本研究は,操作変数を用いずに,内生性を補正することで,より正確な治療効果を推定することを目的とする。
    • 二重頑健性推定は,内生性があると大幅なバイアスを示すが,提案手法はバイアスを解消し,不偏な治療効果を回復する。
    • 栄養指導が血圧に与える影響の分析において,単純な二重頑健性推定では血圧上昇の関連が示唆された。
    • 共分散補正を行うことで,その効果は統計的に有意でなくなり,既存研究との整合性が見られた。

    Link: https://arxiv.org/abs/2605.03278

  • IBD分類のためのドナーを意識したscRNA-seqベンチマーク [q-bio.QM, cs.LG, stat.ML]目的:IBDの分類におけるscRNA-seq特徴表現の性能評価
    • 炎症性腸疾患(IBD)の病態解明は,患者の予後改善に不可欠である。
    • シングルセルデータ解析では,ドナー間の混同による過大評価が問題となる。
    • ドナーを考慮した評価方法により,信頼性の高い分類モデルを構築すること。
    • SCP259コホートにおいて,compartment-stratified CLRがAUROC 0.956,GatedStructuralCFNが0.978を達成。
    • Kongコホートでは,CFNが結腸領域で最高の性能を示し(AUROC 0.960),線形CLRを上回った。
    • データセット間転移(CD→UC)ではAUROC 0.833,逆方向は偶然レベルであった。

    Link: https://arxiv.org/abs/2605.03281

  • 直交多ラベルFisher識別法のスペクトル構造と目的関数の等価性について [stat.ML, cs.AI, cs.LG]目的:多ラベルFisher識別法のスペクトル構造と目的関数の等価性の理論的解析
    • 機械学習における識別問題は,データ分類の基礎であり,多様な応用分野で不可欠である。
    • 従来の識別法では,多ラベルデータにおけるラベル間の関係性を十分に考慮できていない場合がある。
    • 多ラベルデータの特性を捉え,より高精度な識別を実現するための理論的基盤を確立すること。
    • 多ラベル間分散行列のランクが,従来の単一ラベル識別法の次元制限を超える可能性を理論的に示した。
    • Stiefel制約下とそれ以外におけるFisher目的関数の等価性を証明し,それらの差異を特徴付けた。
    • 射影距離とラベル空間におけるハミング距離を結びつける二側距離保存境界を導出し,統計的誤差の限界を確立した。

    Link: https://arxiv.org/abs/2605.03283

  • 容量制約下における不均衡分類 [stat.ML, cs.LG, math.ST, stat.TH]目的:不均衡データにおける分類問題の解決
    • 希少疾患検出や不正検知など,実用上の重要性が高い分類問題において,不均衡データは頻繁に発生する。
    • 少数クラスの誤見逃しを減らすために高い再現率が必要だが,検査コストや人員制限などの制約が存在する。
    • 陽性予測の割合をユーザー定義の閾値内に抑えつつ,検出性能を最大化する分類フレームワークを提案する。
    • 提案手法は,既存のSMOTEなどのリサンプリング技術と比較して,容量制約下で著しい改善を示す。
    • 本手法は,標準的な学習方法で実装可能であり,リアルタイムでの意思決定が求められるオンライン設定にも容易に拡張できる。
    • 陽性予測率を明示的に制御することで,限られた資源を効率的に活用し,より効果的な分類を実現する。

    Link: https://arxiv.org/abs/2605.03289

  • A-CODE:統一されたマルチモーダル拡散による完全原子レベルのタンパク質共同設計 [q-bio.QM, cs.LG]目的:タンパク質共同設計のための完全原子レベルの一段階モデル
    • タンパク質設計は,創薬やバイオテクノロジーにおいて重要な役割を果たす。
    • 既存のタンパク質設計手法は,主に二段階式であり,効率や柔軟性に課題があった。
    • 本研究は,原子レベルでの直接設計により,より効率的かつ柔軟なタンパク質設計を可能とする。
    • A-CODEは,既存の一段階式および二段階式の設計モデルと比較して,優れた設計能力を示す。
    • 特に,結合タンパク質設計において,既存の最先端モデルと同等またはそれ以上の性能を発揮し,成功率を10倍に向上させた。
    • 本手法は,非標準アミノ酸(ncAA)のモデリングへの適応も可能であり,汎用性の高い基盤を提供する。

    Link: https://arxiv.org/abs/2605.03360

  • オフラインコンテキストMDPにおける適応推定と最適制御 [stat.ML, cs.LG]目的:オフラインコンテキストMDPにおける適応推定とコスト最適化
    • 生体統計学や機械学習など,幅広い分野で活用可能な手法であり,その重要性は高い。
    • オフラインデータセットへの適用において,堅牢な理論的根拠に基づいた手法が不足している。
    • コンテキストMDPの内在的特性,特に非定常性やモデルの不規則性に起因する課題を克服する。
    • 本研究では,適応推定とコスト最適化のための新規アプローチを提案し,その最適性に関する強い保証を提供する。
    • 提案手法は,サンプルデータから推定量を適切に選択する手順と,2つの異なる損失関数下でのオラクルリスク境界を導出する。
    • さらに,密度推定を利用した最適制御問題の解決と,コスト関数に関する有限サンプル保証を示す。

    Link: https://arxiv.org/abs/2605.03393

  • StreakMind:天体画像における人工衛星の軌跡検出と解析,および自動データベース統合 [astro-ph.IM, cs.LG]目的:天体画像における人工衛星および宇宙ゴミの軌跡検出,幾何学的特徴の特定,そして既知の軌道物とのクロスアイデンティフィケーション
    • 天体観測において,人工衛星や宇宙ゴミによる画像の汚染が深刻化しており,科学的調査に支障をきたしている。
    • 手作業による軌跡の検査は現実的ではなく,データ品質管理と地球周回物体の監視のために,信頼性の高い自動検出が求められている。
    • 本研究は,大規模な天体画像データから人工衛星の軌跡を自動的に検出し,データベースへ統合することで,宇宙状況把握に貢献することを目指す。
    • StreakMindは,YOLO OBBモデルを用いて,FITSフレーム内の軌跡を高い精度(適合率94%,再現率97%)で検出した。
    • 微弱な軌跡の検出,一貫性のある幾何学的再構成,そして堅牢な衛星とのクロスアイデンティフィケーションを達成した。
    • 本システムは,大規模な自動解析に適しており,宇宙状況把握への貢献が期待される。

    Link: https://arxiv.org/abs/2605.03429