arXiv雑要約

AI - 2026/05/06 公開

  • 観察からの世界理解の理論化学習 [cs.LG, cs.AI]目的:世界に関する明示的な説明理論の推論
    • 世界理解は,予測だけでなく,世界がどのように機能するかという内部理論の構築が重要である。
    • 既存のモデルは予測精度に偏り,人間の認知発達における理論構築の側面を捉えきれていない。
    • 非言語的な観察データから,世界の動作原理を記述する理論を学習することを目指す。
    • 提案手法(NEO)は,学習された言語を用いてプログラムを生成し,世界を説明する。
    • このプログラムは,新規現象の説明にも応用可能な汎化能力を持つ。
    • 観察された現象を,それを生成するプログラムという観点から理解することを可能にする。

    Link: https://arxiv.org/abs/2605.03413

  • 自己教師あり表現融合によるディープフェイク音声検出 [cs.CL, cs.CY, cs.NI, cs.SD, cs.AI]目的:ディープフェイク音声検出のための表現融合手法
    • 音声技術の進歩に伴い,ディープフェイク音声による悪用が深刻化しており,検知技術の確立が急務である。
    • 既存の検知手法は,音声と環境音の独立した操作に対応できていない場合があり,高精度な検知が困難である。
    • 音声と環境音の両方を考慮した,よりロバストなディープフェイク音声検出手法を開発すること。
    • 提案手法は,音声と環境音の文脈表現を共同でモデル化する二分枝フレームワークを採用している。
    • 事前学習済みモデルXLS-RとBEATsを活用し,音声と環境音の特徴表現を抽出することで,高い識別性能を実現した。
    • テストセットにおいて,F1スコア70.20%と環境EER16.54%を達成し,ベースラインシステムを上回る結果を示した。

    Link: https://arxiv.org/abs/2605.03420

  • 隠蔽的意味通信のための適応二重経路フレームワーク [cs.AI]目的:隠蔽的意味通信における適応二重経路フレームワークの提案
    • 情報セキュリティの重要性が増す中,検知されにくい通信技術が求められている。
    • 従来の隠蔽通信は,電力領域での信号重ね合わせに依存し,検知されやすいという課題があった。
    • 意味レベルでの情報埋め込みにより,より高度な隠蔽性とタスク性能の両立を目指す。
    • 本フレームワークは,明示経路と隠蔽経路という二重の符号化経路を導入し,適応的なブロック選択を行う。
    • 強力な攻撃者に対しても,検出精度をランダムな推測レベルまで低下させ,高い安全性を示した。
    • 主要な意味タスクの性能を維持しつつ,隠蔽通信のセキュリティを大幅に向上させることを実証した。

    Link: https://arxiv.org/abs/2605.03423

  • FiBeR:フィルターを考慮した革新的バイアス補正を伴う差分プライバシー最適化手法 [cs.LG]目的:差分プライバシー保護された勾配の最適化
    • 個人情報保護が重要視される中,機械学習モデルのプライバシー保護は不可欠である。
    • 差分プライバシー最適化におけるノイズ注入と適応型最適化器の相互作用が課題となっていた。
    • フィルター使用時のバイアス補正の誤調整を修正し,最適化性能を向上させる。
    • FiBeRは,時間的にフィルターされた勾配に対して最適化を行う手法である。
    • 革新空間でのノイズ除去と,フィルターに起因する第二モーメントの校正を行う点が特徴である。
    • 画像認識と自然言語処理のベンチマークにおいて,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.03425

  • パラメータを嗜好で置き換え: 不均一なビジョン言語モデルの連合学習 [cs.AI]目的:不均一なビジョン言語モデルの連合学習における嗜好に基づく協調
    • 医療や金融などプライバシーが重要な分野で,ビジョン言語モデルの応用が期待されている。
    • クライアント間の計算資源,要件,モデル構造の不均一性により,連合学習の実用的な展開が困難である。
    • モデルやデータの不均一性が大きい場合でも,プライバシーを保護しながらモデルを調整することを可能にする。
    • MoRは,GRPOと報酬の混合を組み合わせた連合学習フレームワークである。
    • 各クライアントは,ローカルな嗜好アノテーションから報酬モデルを訓練し,生データを公開せずに評価信号を捉える。
    • 実験結果から,MoRが汎化性能とクライアント間の適応性において,既存の連合学習手法を上回ることが示された。

    Link: https://arxiv.org/abs/2605.03426

  • DynaTab:高次元tabularデータのニューラル再配線による動的特徴順序付け [cs.LG, cs.AI]目的:高次元tabularデータに対する動的特徴順序付けアーキテクチャ
    • tabularデータ解析は,様々な分野で重要な役割を担う。
    • 高次元tabularデータでは,特徴量の自然な順序が存在せず,深層学習モデルの性能が制限される。
    • 本研究は,特徴量の順序を動的に再構成することで,高次元tabularデータの深層学習性能向上を目指す。
    • DynaTabは,ニューラル再配線に着想を得た動的特徴順序付けアーキテクチャである。
    • 提案手法は,データセットの固有の複雑さを定量化し,特徴量の順序変更が有益かを予測する軽量基準を導入する。
    • 36種類の実際のtabularデータセットにおいて,45の最先端手法と比較し,統計的に有意な改善が確認された。

    Link: https://arxiv.org/abs/2605.03430

  • 変分量子回路による量子階層強化学習 [cs.LG, quant-ph]目的:量子階層強化学習における性能向上とパラメータ削減
    • 強化学習は,効率性と有効性が重要であり,複雑な問題解決に不可欠な学習手法である。
    • 従来の階層型強化学習では,計算コストやパラメータ数が増大し,学習効率が課題となっていた。
    • 本研究は,量子回路を活用することで,パラメータ数を削減しつつ,階層型強化学習の性能を向上させることを目指す。
    • 量子特徴抽出器を用いたハイブリッドエージェントは,古典的なベースラインよりも優れた性能を示した。
    • 学習可能なパラメータを最大66%削減できることが示された。
    • 量子オプション値推定が性能を低下させるボトルネックが存在することも明らかになった。

    Link: https://arxiv.org/abs/2605.03434

  • 3D異常検知のためのマルチスケール詳細度特徴からの識別符号付き距離関数学習 [cs.CV, cs.LG]目的:3D点群における異常検知のための識別符号付き距離関数の学習
    • 3D点群データは,自動運転やロボティクス等,幅広い分野で利用が拡大しており,その応用可能性は高い。
    • 点群データの規模が大きく,疎であるため,点ごとの正確な表現学習が困難であるという課題が存在する。
    • マルチスケール詳細度特徴を用いた表面ベースの手法により,点群データの異常検知精度向上を目指す。
    • 提案手法は,Anomaly-ShapeNetデータセットで平均オブジェクトレベルAUROC 92.1%を達成し,既存手法を2.1%上回った。
    • Real3D-ADデータセットにおいても,平均オブジェクトレベルAUROC 85.9%を達成し,既存手法を3.6%上回る性能を示した。
    • ノイズ生成モジュールとマルチスケール詳細度特徴モジュールにより,異常点と正常点を効果的に識別する符号付き距離関数を学習した。

    Link: https://arxiv.org/abs/2605.03437

  • 数学的エンコーディングによるLLMの安全性ギャップの露呈:新たな攻撃と体系的な分析 [cs.CL, cs.CL, cs.CR, cs.AI, cs.CL, cs.LG]目的:LLMの安全性における脆弱性の解明
    • LLMは社会に広く普及しており,その安全性確保は重要な課題である。
    • 既存の安全性対策は意味的なパターンマッチングに依存しており,巧妙な回避策に弱い。
    • 数学的表現を用いることで,意味解析を回避し,有害な出力を誘発する攻撃を可能にすることを示す。
    • 有害なプロンプトを,集合論,形式論理,量子力学などの数学的問題としてエンコードすることで,既存の安全対策を回避できることが示された。
    • 攻撃の成功率はモデルによって異なるが,平均で46%~56%に達し,GPT-5やGPT-5-Miniなどの新しいモデルは古いモデルよりもロバストであることがわかった。
    • 安全性対策が数学的な構造を理解することが重要であり,表面的な意味解析だけでは不十分であることが示唆された。

    Link: https://arxiv.org/abs/2605.03441

  • FinSTaR:時系列推論モデルによる金融推論への取り組み [cs.AI, cs.LG]目的:金融領域における時系列推論の能力向上
    • 金融市場は経済活動の根幹であり,その分析は投資判断やリスク管理に不可欠である。
    • 既存の時系列推論モデルは,金融特有の不確実性や複雑な関係性を捉えきれていない。
    • 金融市場における多様な推論タスクに対応可能な,新たな時系列推論モデルを開発すること。
    • 提案手法FinSTaRは,金融時系列推論のベンチマークFinTSR-Benchにおいて,平均78.9%の精度を達成した。
    • Compute-in-CoTとScenario-Aware CoTという,タスク特性に応じた思考連鎖戦略が有効であることが示された。
    • 異なる能力カテゴリの同時学習により,モデルの性能が相互に向上することが確認された。

    Link: https://arxiv.org/abs/2605.03460

  • 事前学習による汎化可能な行動表現の学習:AEMG [cs.LG, cs.AI]目的:筋電図(EMG)の汎化表現の獲得
    • 人間の運動意図の解読や直感的な人間-コンピュータインタラクションにおいて,筋電図は重要な役割を担う。
    • 被験者間,デバイス間,タスク間のデータの異質性,ラベルの不足,統一された表現枠組みの欠如により,筋電図の汎化性能は著しく制限されている。
    • 多様な条件下での筋電図信号の汎化性能を向上させ,普遍的に適用可能なEMG基礎モデルの構築を目指す。
    • 提案手法AEMGは,自己教師あり学習により筋電図信号を大規模に学習し,既存手法と比較してゼロショット学習の精度を5.79-9.25%向上させた。
    • AEMGは,対象ユーザーのデータ5%のみで90%以上のFew-shot適応性能を達成し,デバイス間の差異に強いことが示された。
    • 本研究は,筋電図信号をクロスデバイスの生理学的言語と捉え,その文法を大規模データから学習することで,普遍的なEMG基礎モデルの基礎を築いた。

    Link: https://arxiv.org/abs/2605.03462

  • FINER-SQL:テキストからSQLへの変換における小規模言語モデルの性能向上 [cs.SC, math.AC, math.CO, cs.DB, cs.AI, cs.CL, cs.HC, cs.MA]目的:テキストからSQLへの変換性能の向上
    • 自然言語処理とデータベース技術の融合は,データ分析の効率化に不可欠である。
    • 大規模言語モデルは計算コストが高く,プライバシーの問題もあるため実用化が難しい。
    • 小規模言語モデルの推論能力を強化し,実用的なテキストからSQLへの変換を実現すること。
    • FINER-SQLは,小規模言語モデルに対して,きめ細かい実行フィードバックを用いることで性能を向上させる。
    • BIRDおよびSpiderベンチマークにおいて,30億パラメータのモデルで最大67.73%および85%の実行精度を達成した。
    • 大規模言語モデルと同等の性能を,低コストかつプライバシーを保護しながら実現可能となった。

    Link: https://arxiv.org/abs/2605.03465

  • メンタルヘルス対話におけるステルスおべっか検出のための動的感情署名グラフ [cs.CL, cs.AI]目的:メンタルヘルス対話における治療的応答の質を評価する手法
    • 会話型AIセラピストの利用拡大に伴い,その質を客観的に評価する重要性が高まっている。
    • 従来の評価指標や大規模言語モデルは,臨床的な方向性への依存により,治療効果を正確に反映できない場合がある。
    • 臨床状態の変化と対話の軌跡を考慮することで,より信頼性の高い評価を目指す。
    • 動的感情署名グラフ(DESG)は,対話ウィンドウを臨床状態とグラフ構造で表現し,非対称な臨床幾何学を用いて評価する。
    • DESGアンサンブルは,構築した診断ストレステストベンチマークにおいて,既存手法を大幅に上回る0.9353のマクロF1スコアを達成した。
    • 臨床状態の多様性が主要な識別要素であり,グラフ構造は解釈可能な診断情報を提供する。

    Link: https://arxiv.org/abs/2605.03472

  • CuraView:グラフRAGを用いた知識検証による医療におけるハルシネーション検出のためのマルチエージェントフレームワーク [cs.CL, cs.AI]目的:医療におけるハルシネーション検出とその根拠説明
    • 退院サマリー作成は患者安全に不可欠だが,手作業では負荷が高い。
    • 大規模言語モデルは効率化に貢献する一方,事実に基づかない誤りを生むリスクがある。
    • グラフRAGを用いて,誤りの検出と根拠の明確化を目指す。
    • CuraViewは,患者のEHRから知識グラフを構築し,閉ループな生成・検出パイプラインを実現した。
    • ファインチューニングされたQwen3-14Bモデルは,E4メトリックでF1値0.831を達成し,ベースモデルや既存手法を上回った。
    • エビデンスチェーンに基づくグラフ検索検証が,臨床文書の信頼性を向上させ,データセットの再利用を可能にする。

    Link: https://arxiv.org/abs/2605.03476

  • MEMSAD:検索拡張エージェントにおけるメモリポイズニングのための勾配結合異常検知 [cs.CR, cs.AI, cs.LG]目的:検索拡張エージェントにおけるメモリポイズニング攻撃の異常検知
    • 大規模言語モデル(LLM)エージェントの性能向上に外部メモリ活用が不可欠。その安全性評価は重要課題。
    • 外部メモリのセキュリティ特性は未解明であり,悪意のあるデータ注入による攻撃リスクが存在する。
    • 勾配結合定理に基づき,メモリポイズニング攻撃を検知する堅牢な防御機構を開発する。
    • 提案手法MEMSADは,エンコーダの正則性下で,異常スコア勾配と検索目的勾配が同一であることを証明した。
    • 最小最大最適性を示すLe Camの方法により,MEMSADが校正サンプル数に関して最適な性能を発揮することを示した。
    • 実験により,複合防御は全ての攻撃に対して真陽性率1.00,偽陽性率0.00を達成。ただし,同義語置換攻撃は検知を回避する脆弱性も確認された。

    Link: https://arxiv.org/abs/2605.03482

  • MHPR:大規模ビジョン言語モデルのための多次元人間知覚・推論ベンチマーク [cs.CV, cs.AI]目的:人間中心のシーンにおける知覚と推論の共同評価
    • 現実世界の応用には人間理解が不可欠であり,特に映画分析やデジタルヒューマン開発において重要である。
    • 既存のベンチマークは単一タスクに偏っており,人間中心のきめ細かい評価が不足している。
    • 人間中心のシーンにおける多次元的な知覚・推論能力の評価基準を確立し,モデルの性能向上を目指す。
    • 本研究で開発したMHPRベンチマークは,個人の特徴,複数人物,人物と物体のインタラクションを網羅的に評価可能である。
    • SFTデータによる事前学習が,指示への追従性と安定性を大幅に向上させることが示された。
    • 難易度の高い事例に特化したRLデータを用いることで,知覚と推論能力がさらに強化され,より大規模なモデルに匹敵する性能が達成された。

    Link: https://arxiv.org/abs/2605.03485

  • 敵対的攻撃下における自律システムのリアルタイム評価 [cs.AI]目的:敵対的攻撃下での自律システムのロバスト性評価
    • 自動運転技術の安全性確保は重要であり,その評価は不可欠である。
    • シミュレーション環境では現実世界の構造的矛盾や制約を捉えきれない。
    • 現実世界のデータを用いた評価フレームワークを構築し,ロバスト性を評価する。
    • 実際の交差点運転データを用いたオフライン学習フレームワークを開発した。
    • モデル構造やアーキテクチャが敵対的安定性に大きく影響することが示された。
    • 推論時の勾配ベースの敵対的摂動により,最大約8メートルの最終位置誤差が生じた。

    Link: https://arxiv.org/abs/2605.03491

  • グラフと構造上のバンディット問題 [cs.LG, stat.ML]目的:グラフおよび構造化されたバンディット問題における構造的特性の調査
    • 現実世界の意思決定問題に応用可能な強化学習の基礎研究である。
    • 大規模な行動空間や複雑な構造を持つ問題への適用が困難である。
    • グラフ構造や関数最適化といった構造化されたバンディット問題に対する解決策を提示する。
    • 本研究では,グラフ構造を持つバンディット問題において,報酬の滑らかさ,側面の観測,影響力最大化といった設定を考察した。
    • また,指数関数的に増加する大規模な行動空間を持つ問題に対して,カーネルバンディット,ポリマトロイドバンディット,関数最適化のためのバンディット,無限腕バンディットなどを扱った。
    • これらの研究成果をまとめることで,グラフおよび構造化されたバンディット問題の分野に貢献する。

    Link: https://arxiv.org/abs/2605.03493

  • 条件異常検知と半教師あり学習のための適応グラフベースアルゴリズム [cs.LG, stat.ML]目的:条件付き異常検知と半教師あり学習のためのグラフベース手法
    • データ解析において,データの構造をグラフで表現する手法は,複雑な関係性の把握に有効である。
    • 大規模データやストリームデータに対し,グラフ構造の計算・保存は計算コストが高いという課題がある。
    • データの歪みを最小限に抑えつつ,効率的なグラフ近似アルゴリズムを開発し,安定性を向上させる。
    • 近傍点を局所的な代表点に集約することで,計算量を削減しつつ,良好な性能を達成できることを示した。
    • 調和解を正則化することで,解の安定性を向上させることができた。
    • 臨床行動の異常検知への応用を通じて,患者管理におけるエラー検出の可能性を示唆した。

    Link: https://arxiv.org/abs/2605.03495

  • 関数最適化への強盗的アプローチ [cs.LG, stat.ML]目的:予算制約下における関数最適化
    • 最適化は科学技術の根幹であり,効率的な手法が求められている。
    • 関数評価回数に制限がある場合,探索と利用のバランスが課題となる。
    • ドメイン分割による効率的な最適化手法を提案し,解の保証を目指す。
    • 提案手法Simultaneous Optimistic Optimization(SOO)は,探索と利用のトレードオフを解決する。
    • SOOはドメイン分割により,解の保証と数値計算効率を両立する。
    • CEC'2014テストスイートを用いた実験により,SOOの有効性が示された。

    Link: https://arxiv.org/abs/2605.03496

  • 不規則領域における関数空間上のグラフ解決不変FEM拡散モデル [cs.LG]目的:関数空間におけるグラフ解決不変FEM拡散モデルの提案
    • 関数値データモデリングにおいて,解像度不変性や不規則離散化への対応が重要視されている。
    • 既存のフーリエニューラルオペレーターは,規則的な格子に偏りがあり,複雑な領域形状への汎化が課題である。
    • 非構造化メッシュや複雑な形状においても自然に扱えるモデルアーキテクチャを開発し,高精度な関数分布の捕捉を目指す。
    • 提案手法は,解像度不変性を維持し,非自明な形状における関数分布を高精度に捉えることが示された。
    • 汎化グラフ畳み込みカーネルを有限要素関数として表現することで,複雑な形状への対応を可能にした。
    • 非凸領域や多連結領域を含む多様な形状での実験により,提案アーキテクチャの有効性が確認された。

    Link: https://arxiv.org/abs/2605.03497

  • 連合学習の汎化誤差を制限するための階層的サンプリングフレームワーク [cs.LG, cs.IT, math.IT, stat.ML]目的:連合学習における汎化誤差の上界
    • プライバシー保護が求められる分散環境での機械学習の重要性が高まっている。
    • 連合学習では,クライアントデータの異質性が汎化性能を阻害する要因となる。
    • 階層的サンプリングによって,クライアントデータ間の依存関係を考慮し,汎化誤差を評価する。
    • Wasserstein距離を用いて,階層的連合学習の汎化誤差の上界を導出した。
    • 提案手法は,既存のCMIに基づく上界を改善し,差分プライバシーとの組み合わせも可能である。
    • ガウス位置モデルにおいて,提案手法の理論的な限界が確認された。

    Link: https://arxiv.org/abs/2605.03499

  • 低照度画像品質改善のためのバタフライ・ホタル最適化Retinexエンハンスメント [cs.CV, cs.AI]目的:低照度画像品質の改善
    • コンピュータビジョンやマルチメディア分野において,低照度環境下での画像処理は不可欠である。
    • 従来のRetinex法はパラメータ調整が手動であり,多様な照明条件への対応が困難である。
    • 本研究は,多様な照明条件に対応可能な自動パラメータ調整手法を確立する。
    • 提案手法BFOREは,LOLベンチマークデータセットにおいて,従来のエンハンスメント手法の中で最高のPSNR(17.22dB)を達成した。
    • BFOREは,ヒストグラム平坦化やMSRCRと比較して,それぞれ20.3%と17.5%のPSNR改善を示した。
    • 学習データ不要で,深層学習ベースラインであるRetinexNetよりもPSNRとSSIMの両方で優位性を示した。

    Link: https://arxiv.org/abs/2605.03509

  • 高次元常微分方程式に対するメタ逆物理情報ニューラルネットワーク [cs.CL, cs.LG, cs.AI]目的:高次元常微分方程式で記述される動力学系の逆問題解決
    • 科学機械学習において,高次元の複雑な現象をモデル化・解析する上で不可欠な研究分野である。
    • 既存の物理情報ニューラルネットワークは,最適化の難しさや汎化性能の低さが課題となっていた。
    • 部分的な情報のみから未知のパラメータや動力学を効率的に推定することを目指している。
    • 提案手法であるMI-PINNは,メタ学習を用いて逆モデリングを効率化し,パラメータ探索の次元を削減することに成功した。
    • 多規模な動力学を持つ高次元ODEシステムに対し,適応的なクラスタリングに基づく多分岐学習が有効であることを示した。
    • 薬物動態モデルを用いた実験により,限られた臨床データから未知のパラメータやメカニズム項を高精度に復元できることを実証した。

    Link: https://arxiv.org/abs/2605.03511

  • 脳の衰退:AIのリスクとして見過ごされているスキル低下と依存症 [cs.CY, cs.AI]目的:生成AIにおけるスキル低下と依存症のリスクの認識の現状と対策
    • AI技術の急速な発展は,社会に大きな変革をもたらす一方で,新たなリスクを生み出している。
    • AIの安全性研究は,差別や有害コンテンツに偏っており,認知機能や精神的健康への影響が軽視されている。
    • 認知機能の低下や依存症といった,AIがもたらす潜在的なリスクに焦点を当て,対策を検討する。
    • 既存のAI安全性研究と社会的な議論との間に,認知機能や精神的健康に関するリスク認識のずれが存在することが示された。
    • 認知機能のオフローディングによるスキル低下や,AIへの過度な依存が,個人の思考力や判断力を低下させる可能性が指摘された。
    • 情報キャンペーンや規制を通じて,これらのリスクを軽減するための対策の必要性が提言された。

    Link: https://arxiv.org/abs/2605.03512

  • グラフトークン化大規模言語モデルの再検討:グラフトークン理解の体系的な評価 [cs.CL, cs.AI, cs.LG]目的:グラフトークン理解の評価
    • グラフ構造データは現実世界の様々な情報を表現でき,その解析は重要である。
    • 大規模言語モデルへのグラフデータの適用は有望だが,その理解度には疑問が残る。
    • グラフトークン化言語モデルのグラフトークン理解の限界を明らかにすること。
    • 既存のグラフトークン化言語モデルは,グラフトークンを完全に理解していないことが示された。
    • 指示の変更に過敏または鈍感であり,推論にテキストに大きく依存している。
    • 追加の指示チューニングは性能を向上させるが,グラフトークン理解の課題を完全に解決するものではない。

    Link: https://arxiv.org/abs/2605.03514

  • 潜在分布一致性による自己教師あり学習の理解 [cs.LG, stat.ML]目的:自己教師あり学習における潜在表現の獲得原理
    • データから汎用的な特徴量を学習する自己教師あり学習は,様々な応用分野で重要性が増している。
    • 既存手法の理論的基盤が確立されておらず,新規手法設計の指針が不足している点が課題である。
    • 潜在分布一致性という視点から,自己教師あり学習の原理を統一的に説明し,新たなアプローチを導く。
    • 自己教師あり学習を,潜在モデルとの確率最大化と潜在エントロピー最大化という潜在分布一致性として捉えた。
    • この視点により,独立成分分析やコントラスト学習を含む多様な手法を統一的に理解することが可能となった。
    • 高次元時系列データに対する非線形ベイズフィルタモデルを導出し,潜在表現の識別可能性を証明した。

    Link: https://arxiv.org/abs/2605.03517

  • SURE-RAG:選択的検索拡張生成のための十分性と不確実性を考慮した証拠検証 [cs.CL, cs.IR, cs.LG]目的:選択的検索拡張生成における証拠の十分性検証
    • 検索拡張生成は,知識集約型タスクにおいて重要な役割を担う技術である。
    • 検索された文書が必ずしも回答を正当化するとは限らず,根拠の信頼性が課題となる。
    • 根拠の十分性を検証し,安全かつ信頼性の高い回答生成を可能にすること。
    • SURE-RAGは,証拠の十分性を集合レベルで評価する透明性の高い集約プロトコルである。
    • HotpotQA-RAG v3ベンチマークにおいて,既存手法やGPT-4ojudgeを上回る性能を示した(Macro-F1: 0.9075)。
    • リスク評価においても,SURE-RAGは危険な回答を37%削減し,安全性も向上させた。

    Link: https://arxiv.org/abs/2605.03534

  • スキルベースAIエージェントパイプラインによる米国議会図書館主題索引の自動化 [cs.DL, cs.AI]目的:米国議会図書館主題見出し(LCSH)を用いた主題索引の自動化
    • 図書館資料の効率的な検索・利用には,正確な主題索引が不可欠である。
    • 主題索引作成は専門知識を要し,時間と労力を消費する作業である。
    • AI技術を用いて主題索引作成を効率化し,専門家の負担を軽減すること。
    • 提案システムは,概念分析,量的フィルタリング,権威性検証,MARCフィールド合成の4つのスキルで構成される。
    • 評価実験では,ハーバード大学図書館のデータセットを用いて,専門家による主題索引との高い概念的整合性が確認された。
    • ただし,詳細度や区分法,2026年以降のLCSHポリシーへの対応には差異が見られた。

    Link: https://arxiv.org/abs/2605.03537

  • ランダムテスト関数,$H^{-1}$ノルム同値性,確率的変分物理情報ニューラルネットワーク [math.NA, cs.LG, cs.NA]目的:二階線形楕円型偏微分方程式の弱解の双対ノルム表現の計算可能性向上
    • 偏微分方程式の弱解は理論的に重要だが,その計算は困難である。
    • 弱解の$H^{-1}$ノルム評価には無限次元関数空間での探索が必要であり,計算コストが高い。
    • ランダムテスト関数を用いた$H^{-1}$ノルムの近似により,計算を効率化し,より高精度な解を得る。
    • ランダムテスト関数による$H^{-1}$ノルムの期待値は,元のノルムと同値であることが証明された。
    • この同値性に基づき,確率的変分物理情報ニューラルネットワーク(SV-PINN)が提案された。
    • SV-PINNは,標準的なPINNと比較して,8つの難しい楕円型問題で一貫して優れた性能を示した。

    Link: https://arxiv.org/abs/2605.03542

  • DALPHIN:デジタル病理AIアシスタントの性能を多施設共同オープンデータセットで評価 [cs.CV, cs.AI]目的:デジタル病理におけるAIアシスタントの性能評価
    • 病理診断の精度向上と効率化が医療現場で求められているため。
    • AIアシスタントの性能評価は,客観的で標準化されたベンチマークが不足している。
    • 多施設共同のオープンデータセットを用いて,AIアシスタントの性能を客観的に評価すること。
    • PathChat+は6つのタスク中4つで,熟練病理医と同等の性能を示した。
    • Geminiは2/6,GPT-5は1/6のタスクで同等の性能を示した。
    • DALPHINは公開されており,堅牢なベンチマーク評価を促進する。

    Link: https://arxiv.org/abs/2605.03544

  • ProgramBench:言語モデルは最初からプログラムを再構築できるか [cs.SE, cs.AI]目的:ソフトウェアエンジニアリングエージェントによるソフトウェア開発能力の評価
    • ソフトウェア開発における言語モデルの活用が広がり,自動化のニーズが高まっている
    • 既存のベンチマークは限定的なタスクに偏っており,大規模なソフトウェア開発能力を評価できない
    • プログラムとドキュメントから,参照実行可能ファイルの動作に一致するコードベースを構築する能力を測る
    • ProgramBenchは,エージェント駆動のファジングによって生成された包括的な動作テストを用いて評価を行う。
    • 評価した9つの言語モデルはいずれもタスクを完全に解決できず,最も優れたモデルでもタスクの3%のみで95%のテストに合格した。
    • モデルは,人間が書いたコードとは大きく異なる,単一ファイルでモノリシックな実装を好む傾向がある。

    Link: https://arxiv.org/abs/2605.03546

  • ペルソナを消去し,伝承を忘却する:大規模ビジョン言語モデルにおける多Modal著作権アンラーニングのベンチマーク [cs.CV, cs.AI]目的:大規模ビジョン言語モデルにおける著作権コンテンツのアンラーニング評価のためのベンチマーク
    • Web規模のデータで学習するモデルが著作権コンテンツを記憶・再生するリスクがあるため,その対策が重要である。
    • 既存の評価方法は,頑健性に欠けるか,クロスモーダル概念の消去のニュアンスを捉えられないという課題がある。
    • LVLMにおける著作権コンテンツのアンラーニングの評価を可能にする標準化されたツールを提供することを目的とする。
    • 本研究では,法的に安全な合成データと系統的な視覚バリエーションを用いて,新しいベンチマーク CoVUBench を提案した。
    • CoVUBenchは,著作権保有者の視点からの忘却効果と,デプロイヤーの視点からの汎用的なモデルの有用性の維持を評価する。
    • この評価を通じて,責任あるアンラーニング手法の開発を促進するための標準化されたツールを提供することができた。

    Link: https://arxiv.org/abs/2605.03547

  • PerFlow:効率的な再構成と空間的時間的ダイナミクスの不確実性定量化のための物理埋め込み修正フロー [cs.LG, cs.AI]目的:疎で不規則な測定値からの偏微分方程式(PDE)に支配される場の再構成と不確実性定量
    • 科学技術計算において,物理現象の正確な予測は不可欠であり,そのために場の再構成技術が重要である。
    • 測定値が少ない場合や不規則な場合,場の再構成は困難であり,既存の手法では精度と効率が課題となる。
    • PerFlowは,効率的な再構成と不確実性定量化を実現し,既存手法の速度と安定性の問題を解決することを目指す。
    • PerFlowは,観測条件付けと物理法則の適用を分離することで,高速かつ安定した推論を可能にする。
    • 理論的に,サンプリング中に物理的に整合性のある多様体に軌跡が留まることを保証する不変性を示す。
    • 様々なPDEシステムにおいて,高い再構成精度と物理整合性,そして既存手法と比較して最大320倍高速な推論を実証した。

    Link: https://arxiv.org/abs/2605.03548

  • 医療記録からの学習による退院後死亡率予測の向上 [cs.CC, math.CO, math.PR, cs.ET, cs.LG]目的:退院後死亡率予測の精度向上
    • 電子カルテの普及により,医療データの活用が重要視されている。
    • 医療記録は非構造化テキストであり,品質が低く,学習が困難である。
    • 医療記録から有益な情報を抽出し,死亡率予測の精度を向上させる。
    • 医療記録の情報を用いたモデルは,用いないモデルよりAUC-ROCが一般的に0.1向上する。
    • 提案するDNNモデルは,従来の機械学習モデルよりも高い予測性能を示す。
    • 提案手法は,15日,30日,60日,365日後の退院後死亡率予測において,従来のモデルよりAUC-ROCが2%~14%向上する。

    Link: https://arxiv.org/abs/2605.03560

  • KVキャッシュ量子化におけるモデル可視化による歪みとスコア空間補正 [cs.DC, cs.PF, cs.LG, cs.AI]目的:KVキャッシュ量子化における歪みをモデル可視的な座標で測定し,補正すること。
    • Transformerモデルの効率化には,KVキャッシュの量子化が重要である。量子化による精度劣化を抑制する必要がある。
    • 既存の量子化手法は,ストレージ空間の再構成に重点を置いており,モデルへの影響を直接的に評価していない。
    • モデル可視的な歪みを測定し,スコア空間における補正を行うことで,量子化による精度劣化を軽減する。
    • HeadQは,クエリ空間で学習された低ランク残差サイドコードを用いて,キー側の誤差を補正する手法である。
    • スコア空間における誤差は,生のキーMSEよりも注意KLをより良く予測することが示された。
    • HeadQは,2ビット量子化において,過剰なパープレキシティを大幅に削減し,モデルの性能を改善する。

    Link: https://arxiv.org/abs/2605.03562

  • マルチモーダル臨床データからの共有表現とタスク固有表現の分離 [cs.DC, cs.DM, cs.NI, cs.LG, cs.AI]目的:マルチモーダル臨床データからのアウトカム予測における共有表現とタスク固有表現の分離
    • 臨床データは多様な形式で存在し,複数の関連アウトカムを総合的に評価する必要がある。
    • 既存のマルチタスク学習手法では,共有表現学習とタスク固有モデリングのバランスが課題である。
    • 非冗長な共有表現とタスク固有表現を学習し,マルチアウトカム予測の性能向上を目指す。
    • 提案手法 OrthTD は,12,430人の手術患者データで4つのアウトカム予測において,平均AUC 87.5%を達成した。
    • OrthTD は,高度な既存手法と比較して,平均AUPRC 37.2%で一貫して高い性能を示した。
    • 特に,AUPRC の大幅な向上は,不均衡な臨床データにおける稀なイベントの識別能力の高さを示唆する。

    Link: https://arxiv.org/abs/2605.03570

  • 特許審査のための全段階のオフィスアクションと反論生成ベンチマークPatRe [cs.CL, cs.AI]目的:特許審査ライフサイクルのモデル化
    • 特許審査は技術と法律の両方の専門知識を必要とし,申請件数の増加に伴い,その複雑さが増している。
    • 既存のベンチマークは特許審査を識別的な分類や静的な抽出として捉えており,反論を含む反復的な性質を捉えられていない。
    • 特許審査を動的な多段階の正当化と応答のプロセスとして捉え,LLMの能力と限界を評価すること。
    • PatReは,特許審査の全段階をモデル化した初のベンチマークであり,480件の実際の事例を含む。
    • 様々なLLMを用いた実験により,プロプライエタリモデルとオープンソースモデルの性能差や,審査官と申請者のタスクの非対称性が明らかになった。
    • これらの結果は,特許審査における複雑な法的推論と技術的新規性の判断において,LLMの潜在能力と現在の限界を示している。

    Link: https://arxiv.org/abs/2605.03571

  • 対称空間上のフローマッチング [cs.LG, cs.AI]目的:リーマン対称空間におけるフローマッチングの訓練に関する枠組み
    • 多様体上の生成モデルは,画像や形状などの複雑なデータを扱う上で重要である。
    • 対称空間上のフローマッチングは,その幾何学的な複雑さから計算が困難である。
    • 等距変換群のリー代数の部分空間上でのフローマッチングとして問題を線形化する。
    • リーマン対称空間上のフローマッチングを,その等距変換群のリー代数の部分空間上でのフローマッチングとして定式化できる。
    • この定式化により,問題が線形化され,測地線の扱いが大幅に簡素化される。
    • 実グラスマン多様体$\operatorname{SO}(n) / \operatorname{SO}(k) \times \operatorname{SO}(n-k)$への応用例を示す。

    Link: https://arxiv.org/abs/2605.03588

  • Workspace-Bench 1.0:大規模ファイル依存性を持つワークスペースタスクにおけるAIエージェントのベンチマーク [eess.SY, cs.SY, cs.AI, cs.CL, cs.DB, cs.LG]目的:大規模ファイル依存性を持つワークスペース学習におけるAIエージェントの評価
    • 現実世界のタスク自動化には,ファイル間の複雑な依存関係を理解し活用する能力が不可欠である。
    • 既存のベンチマークは,現実的なファイル依存性を十分に考慮しておらず,高度なワークスペース学習の評価が難しい。
    • 現実的なファイル依存性を持つワークスペース環境において,AIエージェントの学習能力を詳細に評価する手段を提供する。
    • Workspace-Benchは,5種類のワーカープロファイル,74種類のファイルタイプ,20,476個のファイルを収録した大規模ベンチマークである。
    • 現在のAIエージェントは,ワークスペース学習において人間のパフォーマンス(80.7%)に大きく劣り,最高でも68.7%の精度しか達成できていない。
    • Workspace-Bench-Liteは,評価コストを約70%削減しつつ,ベンチマークの分布を維持した100タスクのサブセットである。

    Link: https://arxiv.org/abs/2605.03596

  • ニューラルネットワークにおける計算を力学系とグラフ理論で統一的に理解する [cs.NE, cs.AI]目的:ニューラルネットワークにおける計算の実装機構の解明
    • 脳科学と機械学習において,結合構造から計算がどのように生まれるかは重要な課題である。
    • 構造的結合と機能的結合の乖離が問題であり,単純な結合関係だけでは説明できない場合がある。
    • 多段パスによる情報伝達に着目し,ニューラルネットワークの計算機構を解明することを目的とする。
    • 再帰型ニューラルネットワークの空間的・時間的機能をグラフとしてモデル化し,入力と出力ユニット間の多段パスを分析した。
    • パスの長さを分解することで,ネットワークが情報を時間的にどのように伝達するかを明らかにした。
    • 多段パスを制約するResolvent-RNNs(R-RNNs)は,L1正則化よりも優れた性能を示し,疎なタスク構造に適応した時間的疎性を誘導した。

    Link: https://arxiv.org/abs/2605.03598

  • ReLUネットワークは識別可能なパラメータを持つ [cs.LG, cs.DM, math.CO]目的:深層ReLUネットワークのパラメータ同定可能性
    • 深層学習の理論的理解深化は,モデルの性能向上や解釈可能性に不可欠である。
    • ネットワーク構造やパラメータ設定の冗長性が,学習の安定性や汎化性能に影響を及ぼす。
    • ネットワークパラメータの同定可能性を明らかにし,効率的な学習手法の確立を目指す。
    • 入力層と隠れ層の幅が2以上のアーキテクチャでは,識別可能なパラメータの開集合が存在する。
    • アーキテクチャの機能次元は,パラメータ数から隠れニューロン数を引いたものと一致する。
    • 最小の機能表現においてもパラメータの冗長性が残存することが示された。

    Link: https://arxiv.org/abs/2605.03601

  • LLMを用いた多エージェント戦略ゲーム [cs.GT, cs.AI, cs.CY]目的:紛争と協力の戦略的基盤の研究
    • 国際関係における協力と対立のメカニズム解明は,世界平和の実現に不可欠である。
    • 既存の研究では,複雑な戦略的相互作用を実験的に検証することが困難であった。
    • LLMを用いることで,戦略的状況における行動メカニズムを大規模に分析することを目指す。
    • 多極化は紛争の可能性を高め,有限期間は後方帰納法に沿った行動を引き起こすことが示された。
    • コミュニケーションは,シグナリングや互恵性を可能にし,紛争を減少させる効果が確認された。
    • LLMの思考過程やメッセージにアクセスすることで,戦略的ロジックと行動の関連性が明らかになった。

    Link: https://arxiv.org/abs/2605.03604

  • 道が分岐する場所:大規模言語モデルにおける倫理的推論の局所的・較正された制御 [cs.AI, cs.LG]目的:大規模言語モデルにおける倫理的枠組みへの誘導と,汎用的な能力の維持
    • AIの倫理的側面は,社会実装において重要な課題であり,安全性と信頼性の確保が不可欠である。
    • 大規模言語モデルは倫理的判断にばらつきがあり,一貫性のある倫理的行動を保証することが困難である。
    • 特定の倫理的枠組みに沿った推論を可能にしつつ,モデルの汎用性を損なわない制御手法を開発する。
    • 提案手法であるConvergent-Divergent Routingは,倫理的枠組みに関連する経路の分岐点で介入することで,特定の倫理的推論を強化する。
    • Dual Logit Calibrationにより,残差ベクトルを特定の倫理的枠組みに沿って調整し,ユーザーの嗜好に合わせた較正を実現する。
    • 実世界の倫理的ジレンマに対する実験の結果,提案手法は既存手法を上回り,解釈可能なメカニズムを提供する。

    Link: https://arxiv.org/abs/2605.03609

  • コードの自己同型性を活用した症候群に基づくニューラル復号の性能向上 [cs.IT, cs.LG, math.IT]目的:症候群に基づくニューラル復号の性能向上
    • 誤り訂正符号は,通信やデータストレージにおける信頼性確保に不可欠である。
    • 従来の復号手法は計算量が多く,リアルタイム処理が困難な場合がある。
    • ニューラル復号モデルの学習データ不足による性能低下を改善する。
    • コードの自己同型性を利用したデータ拡張により,小規模なデータセットでも高性能なモデルを構築できる。
    • 提案手法は,最大尤度復号(MLD)の性能に匹敵する結果を達成した。
    • 既存研究におけるニューラル復号モデルの性能評価は,学習不足により過小評価されている可能性がある。

    Link: https://arxiv.org/abs/2605.03620

  • ポリツリー学習のための正確および近似アルゴリズム [cs.DS, cs.CC, cs.LG]目的:ポリツリー学習における最適化と効率的な近似手法
    • ベイジアンネットワークは複雑なシステムをモデル化する上で重要であり,推論の効率化が求められる。
    • 最適なポリツリー学習はNP困難であり,大規模データへの適用が困難である。
    • 効率的なアルゴリズムを開発し,実用的な時間で近似解を得ることを目指す。
    • 本研究では,任意の入次数制約下で,$O((2+\epsilon)^n)$時間で最適ポリツリーを求めるアルゴリズムを開発した。
    • 既存のアルゴリズム($O(3^n)$)よりも高速であり,計算量の改善に貢献する。
    • 任意のスコア関数に対し,$k$以内の近似解を多項式時間で求められるアルゴリズムも提示した。

    Link: https://arxiv.org/abs/2605.03622

  • 累積フローマップに基づく少数ステップ生成モデル [cs.LG, cs.GR]目的:確率空間における長距離輸送のための生成モデリング手法
    • 物理輸送やダイナミクスにおけるフローマップの考え方を応用し,確率モデルの長距離輸送を効率的に行う重要性。
    • 既存の拡散モデルやフローベースモデルは,生成に多くのステップを必要とし,計算コストが高いという課題。
    • 累積フローマップにより,少ないステップ数で高品質な生成を可能にし,計算コストを削減することを目指す。
    • 累積フローマップという概念を導入し,局所的な更新と有限時間輸送を繋ぐことで,少ないステップ数での生成を実現した。
    • 拡散モデルやフローベースモデルへの適用が容易であり,モデルの容量を増やすことなく,生成品質を維持できることを示した。
    • 画像生成,幾何分布モデリング,ジョイント予測,SDF生成など,多様なタスクにおいて有効性を実証し,推論コストを削減した。

    Link: https://arxiv.org/abs/2605.03623

  • 高速かつ高品質なプラン生成のための自己改善 [cs.CL, cs.AI]目的:高速かつ高品質なプラン生成
    • 汎用的なプランニングはAIの重要な課題であり,現実世界の複雑な問題を解決する鍵となる。
    • 既存手法では,有効なプランの発見に重点が置かれ,プランの品質は十分とは言えない。
    • 合成データで学習した生成モデルを用いて,高品質なプランを効率的に生成することを目指す。
    • 最適データを用いて学習したデコーダー専用Transformerが,未知の問題インスタンスに対して高品質なプランを生成可能であることが示された。
    • 劣ったデータで学習した初期モデルを自己改善することで,プランの品質を向上させることができた。
    • Blocksworld等の4つのドメインで,従来のプランナーと比較して平均30%のプラン長の短縮,80%以上のプランが最適解となった。

    Link: https://arxiv.org/abs/2605.03625

  • 二値ニューラルネットワークの情報平面分析 [cs.LG]目的:二値ニューラルネットワークにおける情報平面分析
    • 深層学習の学習過程を理解する上で,情報平面分析は有用な手法である。
    • 高次元かつ決定論的な表現からの相互情報量の推定は統計的に困難を伴う。
    • 二値ニューラルネットワークにおいて信頼性の高い相互情報量推定の条件を明らかにする。
    • 二値ニューラルネットワークでは,相互情報量が有限であるため,情報平面分析が可能となる。
    • サンプルサイズと表現次元数に応じて,信頼性の高い相互情報量推定の範囲が特定された。
    • 圧縮段階が頻繁に観測されるものの,圧縮された潜在表現と汎化性能の間に一貫した相関関係は見られなかった。

    Link: https://arxiv.org/abs/2605.03636

  • AdapShot:意味認識型KVキャッシュ再利用による適応多ショット文脈学習 [cs.AI]目的:大規模言語モデルにおける文脈学習の最適化
    • 大規模言語モデルの推論能力を引き出す文脈学習は,自然言語処理の重要な研究分野である。
    • 従来の文脈学習は固定されたショット数に依存し,クエリの難易度に適応できない場合がある。
    • AdapShotは,クエリに応じてショット数を動的に最適化し,効率的な推論を実現する。
    • AdapShotは,最先端のDBSAと比較して,平均で約10%の性能向上を達成した。
    • また,推論速度は4.64倍向上し,計算コストの大幅な削減に貢献する。
    • 出力エントロピーに基づいた最適なショット数の決定と,意味認識型KVキャッシュ再利用が,その性能向上を支えている。

    Link: https://arxiv.org/abs/2605.03644