arXiv雑要約

AI - 2026/06/03 公開

  • 非対称な情報源を用いたアンラーニング:公開データによるアンラーニングと実用性のトレードオフ改善 [cs.CL, cs.LG, cs.CR]目的:機械アンラーニングと実用性の間のトレードオフ緩和
    • プライバシー保護の重要性が増す中,機械学習モデルからの個人情報削除技術が求められている。
    • 大規模な削除要求に対し,モデルの有用性を損なわずにアンラーニングを行うことが困難である。
    • 公開データの活用により,アンラーニングコストを抑制し,実用性を維持することを目的とする。
    • 提案手法Asymmetric Langevin Unlearning (ALU)は,公開データ注入によりアンラーニングコストを$O(1/n_{\mathrm{pub}}^2)$のオーダーで抑制する。
    • ALUは,標準的な手法では困難な定数割合のデータセットの大量削除を,高い実用性を維持しつつ実現可能にする。
    • 分布の不一致下でも,ALUはプライバシー攻撃を効果的に阻止し,実用性を維持することが実証された。

    Link: https://arxiv.org/abs/2605.11170

  • LLMに基づく社会科学的測定における誤校正の評価と緩和 [cs.AI]目的:LLMを用いた社会科学的測定における誤校正の評価と緩和
    • 社会科学研究において,大規模なテキストデータを定量的な変数に変換する手段としてLLMの利用が拡大している。
    • LLMの出力に対する信頼度(確信度)が,実際の正答率と乖離しているという問題が存在する。
    • LLMの信頼度を校正し,測定の妥当性を高める手法を開発すること。
    • LLMの信頼度が誤校正されている場合,フィルタリングが回帰分析の結果に影響を与えることをFOMCのケーススタディで示した。
    • GPT-5-mini,DeepSeek-V3.2などのモデルを含む14の社会科学的構成概念について,校正の監査を行った結果,報告された信頼度と実際の正答率との間にずれが見られた。
    • BertモデルをLLMを用いてソフトラベル蒸留することで,ECEとBrierスコアをそれぞれ43.2%と34.0%削減することに成功した。

    Link: https://arxiv.org/abs/2605.11954

  • AgentLens:SWEエージェント評価における幸運合格問題の解明 [cs.SE, cs.AI]目的:SWEエージェントのプロセスレベル評価
    • ソフトウェア開発における自動化の重要性が増しており,SWEエージェントの性能評価が不可欠である。
    • 従来のSWEエージェント評価は,最終的なテストの合否のみに依存しており,プロセスを考慮していない。
    • テスト通過率だけでなく,プロセス品質を評価することで,より信頼性の高いエージェント開発を目指す。
    • AgentLensは,SWEエージェントの軌跡をプロセスレベルで評価するためのフレームワークである。
    • 評価データセットAgentLens-Benchは,1815件の軌跡に品質スコアや無駄のシグナルなどを付与している。
    • テストに合格した軌跡の10.7%が「幸運合格」であり,モデルの順位付けに品質スコアを用いることで評価が大きく変動することが示された。

    Link: https://arxiv.org/abs/2605.12925

  • X-Restormer++:UG2+ CVPR 2026 全天候画像復元チャレンジ1位受賞ソリューション [cs.CV, cs.AI]目的:全天候下における画像復元手法の開発
    • 近年,屋外環境で撮影された画像の品質劣化が問題となっており,実用的な復元技術の確立が求められている。
    • 多様な天候条件下での画像劣化パターンに対応した汎化性能の高い復元モデルが不足している。
    • 大規模データを用いた事前学習とドメイン適応による,ロバストな画像復元モデルの構築を試みる。
    • X-Restormer++は,チャンネル間のグローバル依存性と空間的な局所構造情報を捉える二重注意機構と,空間適応入力スケーリング機構を組み合わせる。
    • 大規模データセットによる二段階の学習戦略と,勾配誘導エッジ認識損失関数(GGEA Loss)の導入により,構造的詳細の保存を強化。
    • Model AとModel Bの予測を重み付け平均することで,高い汎化能力を活かし,UG2+ CVPR 2026 全天候画像復元チャレンジで1位を達成した。

    Link: https://arxiv.org/abs/2605.13258

  • マルチンゲールニューラル演算子:Doob-Meyer因数分解による確率的周辺の学習 [cs.CL, cs.DC, cs.CL, cs.LG]目的:確率的偏微分方程式における確率的周辺の学習
    • 不確実性定量は,科学技術の幅広い分野で不可欠であり,確率的な記述が求められる。
    • 従来のニューラル演算子は,確率的PDEに対して条件付き平均に収束し,分散や裾野構造を失う。
    • Doob-Meyer定理に基づくマルチンゲールニューラル演算子(MNO)を導入し,効率的かつ高解像度な確率的周辺の学習を目指す。
    • MNOは,初期条件から終端法則の条件付き平均と共分散を直接的に予測し,従来の条件付き拡散モデルよりも高速に評価できる。
    • 1D確率的偏微分方程式,粗いボラティリティ,2D演算タスクにおいて,$\phi^4$場理論と確率的Burgers方程式でWasserstein距離を大幅に削減した。
    • 2Dタスクでは,ゼロショット解像度転送と乱流においてFNOと同等の性能を示したが,Gray-Scottのような準決定論的システムは依然として課題であった。

    Link: https://arxiv.org/abs/2605.15806

  • 推定と最適化の誤指定が競争を上回る価格につながる [cs.GT, cs.AI, econ.TH]目的:複数企業市場における共謀的な価格形成
    • 価格設定は企業の収益に直結するため,最適な価格設定戦略の研究は重要である。
    • 従来の価格設定モデルは競合他社の価格を考慮せず,非現実的な仮定に基づいている場合がある。
    • 本研究は,競合他社の価格を考慮しない単純な価格設定ルールが,共謀的な価格形成につながる可能性を検証する。
    • 企業が同様の価格帯で探索を開始した場合,ナッシュ均衡を上回る価格に収束することが示された。
    • 対称的な探索下では,価格が独占レベルに達する可能性も明らかになった。
    • 実際の集合住宅賃貸市場のシミュレーションでも,理論的予測と一致する共謀的な結果が確認された。

    Link: https://arxiv.org/abs/2605.16064

  • 小規模データに対する時系列予測のためのデータ拡張指向拡散モデル DAD4TS [cs.LG]目的:小規模データにおける時系列予測のためのデータ拡張手法
    • 時系列データは,経済,気象,医療など幅広い分野で重要であり,正確な予測が不可欠である。
    • 時系列予測において,データ量が少ない場合,モデルの性能が低下するという課題がある。
    • 本研究は,データ拡張を通じて,小規模データにおける時系列予測の精度向上を目指す。
    • DAD4TSは,拡散モデルと強化学習を組み合わせたデータ拡張手法であり,時系列モデルの予測精度を効率的に改善する。
    • 拡散モデルの学習には,従来のVAEではなく,時系列データを幾何学的空間に投影する数学的手法を用いることで,小規模データにも対応可能である。
    • 6つの実データセットと8つの時系列モデルを用いた実験により,DAD4TSの有効性が5つのデータセットで確認された。

    Link: https://arxiv.org/abs/2605.17866

  • Vision Inference Former:マルチモーダル大規模言語モデルにおける視覚的一貫性の維持 [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおける視覚的一貫性の維持
    • 近年,視覚情報とテキスト情報を統合する手法が発展し,マルチモーダル大規模言語モデルの性能向上に寄与している。
    • 既存手法では,視覚情報がテキストトークンと同等に扱われ,視覚情報の独自性が損なわれる場合がある。
    • 生成長が長くなるほど,モデルの視覚情報への依存度が低下し,視覚情報と生成内容の整合性が失われるという課題を解決する。
    • 提案手法であるVision Inference Former (VIF) は,視覚表現と出力空間を直接接続する軽量なモジュールである。
    • VIFは推論時のデコーディング段階を通して継続的に視覚的意味を注入することで,生成中にモデルが視覚内容に確実に根ざすようにする。
    • 14のベンチマークタスクにおける実験結果から,VIFは多様なアーキテクチャで一貫して性能を向上させ,オーバーヘッドを最小限に抑えることが示された。

    Link: https://arxiv.org/abs/2605.18160

  • 整列学習:スパースオートエンコーダ(SAE)の特性と安定性を向上させるパラメータフリーな手法 [cs.LG]目的:スパースオートエンコーダ(SAE)の特性と安定性の改善
    • 深層ニューラルネットワークの内部動作を解釈する上で,SAEは主要な手法の一つである。
    • SAEでは,多くの特徴量が活性化されず,不安定になるという問題が存在する。
    • SAEの学習における退化源を取り除き,特性と安定性を向上させることを目指す。
    • 提案手法である「整列学習」は,追加のデータや再学習を必要とせず,再構成品質を向上させる。
    • 整列学習は,不活性な特徴量を排除し,学習の安定性を大幅に向上させる。
    • 複数のモデルや設定で,SAEBenchベンチマークにおいて性能が向上することを示した。

    Link: https://arxiv.org/abs/2605.18629

  • Vision-OPD:マルチモーダルLLMのための詳細な視覚理解学習(オンポリシー自己蒸留による) [cs.CV, cs.AI, cs.CL, cs.LG]目的:マルチモーダルLLMにおける詳細な視覚理解能力の向上
    • マルチモーダルLLMは,画像とテキストの両方を処理することで,より高度なAIシステム構築に不可欠である。
    • 既存のLLMは,画像内の小さな手がかりを見落とし,詳細な視覚理解において課題を抱えている。
    • 本研究は,LLMが画像内の重要な領域に焦点を当てられるようにすることで,視覚理解の精度向上を目指す。
    • Vision-OPDは,モデル自身の局所的な視覚情報を全体的な判断に活かす自己蒸留フレームワークである。
    • 教師モデル(画像の一部に条件付け)と生徒モデル(画像全体に条件付け)を用いて,トークンレベルでの分布のずれを最小化する。
    • 複数のベンチマークにおいて,Vision-OPDは大規模モデルと同等またはそれ以上の性能を達成した。

    Link: https://arxiv.org/abs/2605.18740

  • マスク拡散言語モデルへのバックドア攻撃 [cs.LG, cs.CR]目的:マスク拡散言語モデルに対する学習時バックドア攻撃の体系的な研究
    • テキスト生成において,マスク拡散言語モデルが新たなパラダイムとして注目を集めている。
    • これらのモデルの学習時のセキュリティは十分に検討されておらず,脆弱性がある可能性がある。
    • 本研究では,この脆弱性を悪用したバックドア攻撃手法を開発し,その有効性を検証する。
    • 提案手法SHADOWMASKは,トリガーマスク混合事前分布を用いることで,バックドア攻撃を可能にする。
    • DiTベースのMDLMおよびLLaDA-8B-Instructを用いた評価により,SHADOWMASKはほぼ100%の攻撃成功率を達成した。
    • 本手法は,従来のデータポイズニングよりも性能が優れており,フルモデルやパラメータ効率的なファインチューニングに対しても有効である。

    Link: https://arxiv.org/abs/2605.19262

  • 不規則多変量時系列のための潜在ラプラス拡散 [cs.LG, cs.AI, stat.ML]目的:不規則な多変量時系列の長期的予測
    • 時系列分析は,経済,気象,医療など様々な分野で不可欠であり,将来予測の精度が求められる。
    • 不規則な時系列データは,時間構造の歪みやドリフトの問題を抱えており,正確な予測が困難である。
    • 本研究は,時間構造を歪めることなく,長期間の予測を可能にする新しいモデルを提案し,その問題を解決する。
    • 提案手法LLapDiffは,潜在的な軌跡を低次元でモデル化することで,物理時間に対する逐次的な積分を必要とせず,水平線全体にわたる生成を可能にする。
    • LLapDiffは,確率的なポートハミルトニアン力学に動機付けられた安定したモーダルパラメータ化を利用し,ラプラス領域における平均進化を学習可能な複素共役極でパラメータ化する。
    • 実験の結果,LLapDiffは長期的予測において既存手法を上回り,欠損値補完にも活用できることが示された。

    Link: https://arxiv.org/abs/2605.19805

  • WildRoadBench:視覚言語モデルと自律エージェントのための野生の航空路面損傷位置付けベンチマーク [cs.CV, cs.LG]目的:野生の航空路面損傷位置付けベンチマークの構築と評価
    • インフラの老朽化が進み,道路損傷の自動検出・修復が急務となっている。
    • 既存のベンチマークは,現実世界の多様な環境を十分にカバーできていない。
    • 現実世界の道路損傷検出における視覚言語モデルと自律エージェントの性能評価。
    • WildRoadBenchは,専門家が注釈を付けたUAVコーパスを用いて,視覚言語モデルとLLM駆動エージェントの性能を評価する。
    • VLMトラックでは,既存の高性能モデルでも性能に限界があり,半数以上の指標が未達成のままである。
    • Agentトラックでは,エージェントの性能はVLMを上回らず,多くが予算内で有効な提出に失敗している。

    Link: https://arxiv.org/abs/2605.20306

  • LLM強化学習におけるMXFP4量子化誤差の分解:還元可能なバイアス,回復可能なデッドゾーン,および不可避な下限 [cs.LG, cs.AI]目的:LLMの強化学習におけるMXFP4量子化誤差の構造解析
    • LLMの推論速度向上には量子化が不可欠であり,MXFP4はその有望な手法の一つである。
    • MXFP4量子化は精度劣化を引き起こし,強化学習における性能低下の要因となる。
    • 量子化誤差のメカニズムを解明し,精度低下を抑制する手法を開発する。
    • MXFP4量子化誤差は,スケールバイアス,デッドゾーン切捨て,グリッドノイズの3つの成分に分解可能である。
    • 各成分は異なるRLの訓練経路に影響を与え,それぞれ特有の失敗モードを引き起こす。
    • 提案手法(マクロブロックスケーリング,外れ値フォールバック,適応量子化ノイズ)により,BF16と同等の精度を達成し,場合によってはそれを上回る結果が得られた。

    Link: https://arxiv.org/abs/2605.20402

  • TASTE:AI生成グラフィックデザインのためのデザイナー注釈付き多次元嗜好データセット [cs.CV, cs.AI, stat.AP]目的:AI生成グラフィックデザインの嗜好評価に関する多次元データセット
    • AIによるグラフィックデザインの自動化が進む中で,高品質なデザイン生成に不可欠な人間の嗜好評価の重要性が高まっている。
    • 既存のデータセットは単一の評価指標に依存しており,デザインの多様な側面を捉えきれていないという課題があった。
    • デザイナーによる多次元評価に基づいたデータセットを構築し,AIモデルの嗜好学習能力向上を目指す。
    • TASTEデータセットは,タイポグラフィ,レイアウト,色彩調和など,デザインの9つの基準に基づいた評価データを含んでいる。
    • 設計者間の合意度は有意であるが,完全ではないことが,検証フレームワークにより示された。
    • TASTEデータセットで訓練した小規模なMLPモデルは,既存のVLMモデルよりも設計者との合意率が向上した。

    Link: https://arxiv.org/abs/2605.20731

  • 洪水環境下における自動運転のためのマルチモーダルデータセットFRED [cs.CV, cs.AI, cs.RO]目的:洪水環境下での自動運転のためのデータセット
    • 自動運転技術は,安全性向上や移動の効率化に不可欠であり,その応用範囲は広い。
    • 既存の自動運転データセットは,洪水などの悪天候下での走行データを十分に含んでいない。
    • 本研究は,洪水環境下における自動運転システムの開発・検証を可能にするデータセットを提供する。
    • 本データセットFREDは,洪水環境下での走行データを収集した初のマルチモーダルデータセットである。
    • カメラ,LiDAR,IMU等の多様なセンサーデータに加え,KITTI形式とRTMaps形式で提供される。
    • 水域危険検知や位置推定,SLAM等のタスクにおけるアルゴリズム開発・評価に活用できる。

    Link: https://arxiv.org/abs/2605.22018

  • 評価認識の分解と測定 [cs.LG, cs.AI, cs.CL]目的:言語モデルにおける評価認識の構造的理解と測定
    • 言語モデルの性能評価は,その実用性や発展において不可欠である。
    • 言語モデルが評価状況を認識し,意図的に挙動を変化させることで,評価の信頼性が損なわれる可能性がある。
    • 評価状況の認識と,それに対する行動を分離し,評価認識の要因を特定することで,評価の信頼性を高める。
    • 言語モデルの評価認識率は,モデルとベンチマークの組み合わせに依存する傾向がみられた。
    • 評価認識が行動の変化に繋がることは稀であり,変化する場合は評価の種類によって方向性が異なる。
    • 言語モデルは能力評価よりも安全性評価に対してより敏感であり,安全性ベンチマークの信頼性がより高いリスクに晒されている。
    • EvalAwareBenchを用いることで,複数の要因を組み合わせることで評価認識率が上昇することが示された。

    Link: https://arxiv.org/abs/2605.23055

  • 医学画像解析のためのタスク適合型自己教師あり学習:系統的レビューと実践的な設計ガイドライン [cs.CV, cs.AI]目的:医学画像解析における自己教師あり学習の現状と設計指針
    • 医療画像解析は疾患の早期発見や正確な診断に不可欠であり,その精度向上は医療の発展に大きく貢献する。
    • 医療画像の注釈には専門知識とコストがかかるため,ラベルなしデータからの学習が課題となっている。
    • タスクと注釈の適合性を考慮した自己教師あり学習の最適な設計方法を提示することを目的とする。
    • 自己教師あり学習の効果は,プレテキストタスクの設計と臨床目標との整合性に大きく依存することが示された。
    • コントラスト学習は分類に適している一方,生成的アプローチはセグメンテーションなどの密な予測タスクに適している。
    • モダリティ特有の設計が重要であり,ラベルが少ない状況で自己教師あり学習の利点が最も大きいことが明らかになった。

    Link: https://arxiv.org/abs/2605.23995

  • CRISP:病理症例表現と検索のためのクラスタリングに基づく冗長性削減インスタンスサンプリング [cs.CV, cs.AI, cs.IR]目的:病理症例の表現と検索のための,冗長性を削減したインスタンスサンプリング手法
    • デジタル病理は診断精度向上に不可欠だが,巨大画像データの効率的な処理が課題である。
    • 既存手法は通常一枚のスライドのみを使用するため,症例内の情報が十分に活用されていない。
    • 複数のWSIから代表的なパッチを抽出し,症例全体の多様性を捉えることで検索精度を向上させる。
    • CRISPは,個々のWSI内の冗長性を削減し,クラスタリングに基づいたサンプリングを行うことで,効率的な症例表現を構築する。
    • Mayo Clinicの乳癌データセットを用いた評価で,CRISPは既存の手法と同等以上の性能を示した。
    • 本手法は,主観的なWSI選択を自動化し,複数のWSIに分散する臨床的に重要な情報を活用できる可能性がある。

    Link: https://arxiv.org/abs/2605.24253

  • MX-SAFE:オンザフライ指数・仮数ビット割り当てによる,推論・学習両対応の汎用マイクロスケール形式 [cs.AR, cs.AI]目的:深層学習における量子化によるコスト削減
    • 深層学習の需要拡大に伴い,計算コストの削減が重要課題となっている。
    • 従来の量子化手法では,精度低下や動的範囲の狭窄といった問題が存在する。
    • 推論と学習の両方に対応し,精度と省電力性を両立するマイクロスケール形式の開発。
    • 提案手法MX-SAFEは,FP8 E2M5モードとFP5 E3M2モードを適応的に利用することで,推論・学習両方で高い精度を実現した。
    • 推論とフルトレーニングにおいて,それぞれMXFP8 E2M5,MXFP8 E4M3と比較して,平均で0.05%/11.1%と3.55%/3.57%の精度向上を達成した。
    • MX-SAFEに対応したトレーニング・推論アクセラレータは,BF16と同等の精度を維持しつつ,総消費電力を24.9%削減した。

    Link: https://arxiv.org/abs/2605.24391

  • JudgmentBench:品質評価における評価基準と選好評価の比較 [cs.RO, cs.CL, cs.AI, cs.CY]目的:品質評価手法の比較
    • AIの性能評価は,信頼性と公平性を担保する上で不可欠である。
    • 既存の評価基準は,主観的であり,一貫性に欠ける場合がある。
    • 専門家による評価方法の有効性を検証し,より適切な評価手法を確立する。
    • 比較判断は,意図された品質順序を評価基準よりも大幅に良く再現することが示された(Spearmanの順位相関係数は0.908対0.150)。
    • 比較判断は,評価基準の半分以下の注釈時間で同等の結果を得ることが可能である。
    • このデータセットは,検証可能な正解がない分野における専門家の判断の収集,集約,および利用に関する研究を支援する。

    Link: https://arxiv.org/abs/2605.25240

  • 解剖学的アンカーを用いた自己教師あり学習:不変超音波表現のためのビジョンファウンデーションモデルの知識蒸留 [cs.CV, cs.AI]目的:超音波画像における不変表現の学習
    • 医療画像分析において,転移可能な表現学習は重要であり,特に超音波画像では臨床に合致した表現が求められる。
    • 既存の超音波画像に対する自己教師あり学習は,画像またはフレームレベルでのみ行われ,臨床的に重要な解剖学的文脈が考慮されていない。
    • 本研究では,解剖学的構造を基盤とした自己教師あり学習により,臨床的に意味のある表現を獲得することを目指す。
    • 提案手法ANAUSは,既存の公開画像・マスクペアを用いたドメイン適応と学習可能な潜在的プロンプトエンジンにより,アノテーション不要な大規模な解剖学的区分けを可能にした。
    • 二つの自己教師あり学習戦略(異なる視点間の意味認識解剖学的分離アライメントと文脈的コア領域予測)により,解剖学的領域内の一貫性と構造間の識別能力を高めた。
    • 6つの公開データセットにおける広範な評価により,ANAUSが既存の最先端手法を凌駕し,臨床展開に不可欠な計算効率を維持することが示された。

    Link: https://arxiv.org/abs/2605.25402

  • Google Cloud TPUにおけるGemma 4 31Bのファインチューニングと提供:GPUベースラインとの技術比較 [cs.DC, cs.AI]目的:Gemma 4 31BモデルのTPUハードウェアでのファインチューニングと提供に関する実験的比較
    • 大規模言語モデルの利用拡大に伴い,効率的な学習・推論基盤の重要性が増している。
    • 大規模言語モデルのTPUへの実装には,ソフトウェアスタックの互換性や最適化が課題となる。
    • 本研究は,Gemma 4のTPUでの学習・推論を可能にする再現可能なレシピを提供する。
    • TPUを用いた学習は,2xH100 GPUと比較して1.61倍高速かつ2.12倍低コストで完了する。
    • 推論のスループットは両プラットフォーム間で3%以内に収まり,TPUは最初のトークンまでの時間が2倍短い(235ms vs 475ms)。
    • 代表的な学習と提供のワークロードにおいて,TPU構成は1.82倍低コストである。

    Link: https://arxiv.org/abs/2605.25645

  • ファインチューニングの事前情報を読み解く:コントラストデコーディング差分による逐語的コンテンツ復元 [cs.LG]目的:ファインチューニングされた言語モデルに埋め込まれたコンテンツの逐語的な復元
    • 言語モデルの透明性と説明可能性は,その信頼性と安全性を確保する上で重要である。
    • ファインチューニングされたモデルが何を学習したかを,モデルの重みや学習データにアクセスせずに検証することが困難である。
    • モデルの重みへのアクセスなしに,ファインチューニングされたモデルに埋め込まれた事実を正確に復元することを目指す。
    • コントラストデコーディング差分 (CDD) は,モデルの重みにアクセスせずに,出力レベルのロジット分布のみを用いて,埋め込まれた事実を復元する。
    • CDDは,既存手法であるADLを凌駕する性能を示し,4つのアーキテクチャ(10億~320億パラメータ)で正確な復元を達成した。
    • CDDは,データパイプラインの意図しないアーティファクト(LLMデータジェネレーターによる架空のペルソナ)を検出・抽出することに成功した。

    Link: https://arxiv.org/abs/2605.25902

  • 大規模言語モデルにおける幻覚検出のための自動レイヤー選択 [cs.AI, cs.LG]目的:大規模言語モデルにおける幻覚検出のための最適なレイヤーの自動選択
    • 大規模言語モデルの信頼性向上は重要であり,幻覚(事実に基づかない生成)の検出が不可欠である。
    • 幻覚検出において,どのレイヤーが有効か手動で決定する必要があり,自動化された原理的な手法が不足している。
    • LLMの内部表現に着目し,幻覚検出に最適なレイヤーを自動的に選択することで,検出性能の向上を目指す。
    • 中間層における幻覚関連信号の出現理由に関する仮説を立て,自動レイヤー選択の基準を評価したが,一貫した性能は得られなかった。
    • 新たに「固有次元の最初の有効ピーク(FEPoID)」という基準を提案し,既存手法やベースラインと比較して優れた性能を示した。
    • LLMの生成行動を分析し,単純な切り捨て戦略を導入することで,幻覚関連信号を増幅し,検出性能を大幅に向上させた。

    Link: https://arxiv.org/abs/2605.26366

  • SL-BiLEM:予測と政策評価のための構造化された学習型行動ループ疫学モデル [cs.LG, cs.AI]目的:疫学予測における課題解決と政策評価の支援
    • 感染症予測は公衆衛生対策の根幹であり,正確な予測は被害軽減に不可欠である。
    • 人々の行動が感染状況に影響を及ぼし,予測モデルの分布シフトを引き起こす点が課題である。
    • 行動ループを考慮し,分布シフトに対するロバスト性を高めた予測モデルを開発する。
    • SL-BiLEMは,ニューラルメカニスティックベースラインと比較して予測精度が76%向上した。
    • 政策介入による分布シフト下では,SL-BiLEMのOOD劣化は53%に抑えられ,ニューラルベースラインの1142%と比較して大幅に改善された。
    • 合成ベンチマークでの反事実的復元において,100%のブートストラップCIカバレッジと0.85を超える処置効果精度を達成した。

    Link: https://arxiv.org/abs/2605.26704

  • PEAM:Minecraftにおける経験の対照的内包を通じたパラメトリック具現化エージェントメモリ [cs.AI]目的:具現化エージェントのメモリ枠組み
    • 人工知能分野において,環境と相互作用するエージェントの能力向上は重要課題である。
    • 従来のメモリシステムは,想起に依存するため,長期的なタスク遂行や継続学習に課題があった。
    • 経験をパラメータに変換し,継続的な学習を可能にすることで,上記課題を克服する。
    • PEAMは,Minecraft環境において,長期的なタスク性能を向上させることを示した。
    • 過去に獲得したスキルを忘却することなく,効率的にパラメータ学習を行うことを可能にした。
    • 想起型エージェントや他のパラメータメモリモデルと比較して,効率性と性能に優れることが示された。

    Link: https://arxiv.org/abs/2605.27762

  • クイト:クエリベースの不規則時系列埋め込み [cs.LG, cs.AI]目的:不規則多変量時系列データの効果的なモデリング
    • 現実世界では不規則な時系列データが一般的であり,その分析は重要である。
    • 不規則なサンプリングがモデリングを複雑化し,既存手法には課題がある。
    • 不規則時系列データの埋め込み表現を改善し,時系列モデリングの性能向上を目指す。
    • 提案手法QuITEは,既存の多変量時系列モデルに容易に組み込むことができる。
    • QuITEは学習可能なクエリを用いて不規則な観測値を集約し,人工的な値の生成を回避する。
    • 様々なデータセットとバックボーンアーキテクチャにおいて,予測と分類の両方で性能が向上した。

    Link: https://arxiv.org/abs/2605.28166

  • TASTE:エージェントベンチマークの網羅性と難易度向上 [cs.RO, cs.SY, eess.SY, cs.AI]目的:エージェントベンチマークの自動生成手法
    • エージェントの能力向上に伴い,その評価基準となるベンチマークの重要性は増している。
    • 既存ベンチマークは飽和状態にあり,新たなタスク作成はコストと労力を要する。
    • ツール利用パターンの網羅性と難易度を高めたベンチマークの自動生成を目指す。
    • TASTEは,ツールシーケンスの進化からタスクを合成する自動手法である。
    • 生成されたベンチマーク ($\tau^c$-Bench) は,既存ベンチマーク ($\tau^2$-Bench) を大幅に上回る難易度を示す。
    • 既存ベンチマークの高スコアが飽和状態によるものである可能性を示唆する。

    Link: https://arxiv.org/abs/2605.28556

  • 臨床要約のための幻覚検出誘導による嗜好性最適化 [cs.CL, cs.AI]目的:臨床要約における幻覚の低減
    • 医療分野では,情報の正確性が極めて重要であり,誤った情報は患者の安全を脅かす可能性がある。
    • 大規模言語モデルは幻覚を起こしやすく,根拠のない情報を生成することで信頼性を損なう。
    • 幻覚検出を活用し,要約の修正を繰り返すことで,事実に基づいた正確な要約の生成を目指す。
    • 提案手法HDSRは,LlamaおよびGemmaモデルにおいて,臨床ノートの要約における幻覚を大幅に低減した。
    • 特に,Llama-3.1-8B-Instructにおいては,HDSRが24%,HDSR-PLが48%幻覚を減少させた。
    • これらの手法は,要約の流暢性,一貫性,関連性を維持しつつ,事実の正確性を向上させることを示した。

    Link: https://arxiv.org/abs/2605.28910

  • 臨床データに対する離散化ベイズネットワーク分類器の並列適応多目的進化学習 [cs.LG]目的:臨床データに対する離散化ベイズネットワーク分類器の学習
    • 説明可能なAIの観点から,意思決定支援に透明な確率モデルを提供するベイズネットワークは重要である。
    • 既存のベイズネットワーク学習手法は,計算時間が長く,実データへの適用例が少ないという課題があった。
    • 本研究では,並列化戦略と過学習抑制機構により,計算効率を向上させ,臨床タスクへの適用を目指す。
    • 並列化により,16コアCPU上で最大54倍の高速化を達成した。
    • 実臨床データセットにおいて,既存手法と同等以上の予測性能を示し,簡潔で解釈可能なベイズネットワークを生成した。
    • 得られた複数のベイズネットワーク分類器は,既存の臨床因子と一致する予測因子を含んでいた。

    Link: https://arxiv.org/abs/2605.29058

  • 自己と他者を理解するAIに向けて:認知的多様性と整合性の世界モデル理論 [cs.RO, cs.AI, cs.CY, cs.HC]目的:認知的多様性と整合性に関する世界モデル理論
    • 現代社会では情報過多であり,共通理解の欠如が課題となっている。
    • 意見の不一致は価値観の衝突と捉えられがちだが,より根本的な原因が存在する。
    • 限られた情報・表現・観測・行動制約下で認識を再構築し,AIの相互理解を促進する。
    • 観察と推論の分離に基づき,情報処理の段階における対象選択のメカニズムを提案した。
    • 多様な世界モデル間のコミュニケーションを分析するため,整合性マップと変換損失を導入した。
    • AIシステムが異質な知性の相互理解を可能にし,それぞれの誤り検出能力を維持することを目指す。

    Link: https://arxiv.org/abs/2605.29930

  • ニューラルネットワーク検証における部分多ニューロン緩和 [cs.LO, cs.AI]目的:ニューラルネットワークの安全性特性の形式的保証
    • 深層学習の重要システムへの組み込みが進み,安全性の保証が不可欠となっている。
    • 既存手法では,検証の精度と計算量のバランスが課題となっていた。
    • 検証に必要な精度を保ちつつ,計算コストを削減することを目指す。
    • 本研究では,一部のニューロンのみに対して多ニューロン緩和を適用する手法を提案した。
    • Marabou検証器に提案手法を組み込み,既存手法と比較して良好な結果が得られた。
    • 本手法は,ニューラルネットワーク検証の可能性を広げることが期待される。

    Link: https://arxiv.org/abs/2605.30155

  • SAHG:ソーシャルボット検出のためのセクター異方性双曲グラフモデル [cs.SI, cs.LG]目的:ソーシャルボットの検出
    • SNSにおけるボットの蔓延は,情報の信頼性を損ない,社会に悪影響を及ぼすため対策が急務である。
    • 従来のボット検出手法は,ボットが人間らしいテキストを生成する能力向上により,精度が低下している。
    • ボットの行動パターンや関係性をグラフ構造で捉え,より高精度な検出を目指す。
    • SAHGは,構造的方向性に応じて幾何学的解像度を調整するセクター異方性双曲グラフモデルである。
    • Fox8-23,BotSim-24,MGTABの3つのベンチマークにおいて,既存手法を凌駕する最高精度とF1スコアを達成した。
    • 異方性幾何学とデュアルチャネル設計の有効性が,実験と幾何学的分析によって確認された。

    Link: https://arxiv.org/abs/2605.30166

  • ExDBSCAN:反事実的推論によるDBSCANの説明 [cs.LG]目的:DBSCANクラスタリングにおける割り当ての説明
    • データ分析において,データの構造理解は不可欠であり,クラスタリングはその重要な手段である。
    • DBSCANは解釈性が低く,なぜ特定の点が特定のクラスタに割り当てられたのかが不明確である。
    • DBSCANの割り当て根拠を説明し,割り当ての頑健性を評価することを目的とする。
    • ExDBSCANは,密度を考慮した反事実的説明を提供し,その妥当性に関して理論的な保証を有する。
    • 密度連結加重グラフを用いて複数の反事実を生成し,多様性と近接性を両立する物理学に基づいたモデルを採用する。
    • 30個のテーブルデータセットにおける実験的評価により,ExDBSCANが他のベースライン手法を上回り,高い妥当性と多様性,近接性を示すことが示された。

    Link: https://arxiv.org/abs/2605.30225

  • 自己認証輸送MCMC:二重スペクトルギャップ証明による [cs.LG, stat.CO, stat.ME]目的:学習輸送マルコフ連鎖モンテカルロ法における自動的かつ厳密な収束証明
    • ベイズ推論は,不確実性の定量化と複雑なモデルの学習に不可欠である。
    • マルコフ連鎖モンテカルロ法は収束判定が難しく,計算コストが高い。
    • 学習輸送MCMCの収束を自動的に証明し,次元への依存性を考慮する。
    • 提案手法CerT-MCMCは,正規化フローを用いて,提案分布とスペクトルギャップの評価を行う。
    • 二種類の証明(カバレッジ証明と分位コア証明)を開発し,高次元における有効性を実証した。
    • 分位コア証明は,カバレッジ証明が役に立たないケースでも有効な収束境界を提供し,実効サンプルサイズとの一致性も確認された。

    Link: https://arxiv.org/abs/2605.30722

  • GRPOにおけるポリシーレベル多様性のための小型モデルは自然な探索者である [cs.LG, cs.AI]目的:LLMのGRPOにおけるロールアウト多様性の向上
    • LLMの性能向上には,多様なロールアウトによる探索が不可欠である。
    • 既存手法はトークンレベルのランダム性を導入するが,ノイズとなり一貫性を損なう場合がある。
    • ポリシーレベルの多様性を活用し,構造的な探索信号を提供することを目指す。
    • 小型モデルは,トークンレベルのノイズとは異なり,時間的な相関を持つ多様性を示す。
    • S2L-POは,小型モデルの探索能力を活用し,大規模モデルの学習を効率化する。
    • AIME 24において,1.7Bの小型モデルで8Bモデルを指導することで,8.8%の精度向上を達成した。

    Link: https://arxiv.org/abs/2605.30789

  • 量子ガウス過程カーネルのスペクトル解剖 [cs.CL, cs.LG]目的:量子ガウス過程カーネルのスペクトルエントロピーによる特性評価
    • 量子機械学習は,古典計算機では困難な問題を解決する可能性を秘めている。
    • 量子ガウス過程の高速化には課題があり,過学習などの問題も存在する。
    • カーネルのスペクトルエントロピーを用いて,量子ガウス過程の性能を診断・改善すること。
    • カーネルのスペクトルエントロピーが,高速化の限界と最適化における問題の両方を決定づけることが示された。
    • Nyström近似誤差や分散収縮に関する理論的な上限が,スペクトルエントロピーを用いて導出された。
    • スペクトルエントロピーは,量子デバイスのシミュレーターとIBM Heron上で良好な一致を示し,実機への適用可能性が示された。

    Link: https://arxiv.org/abs/2605.30952

  • LLMに人間のような属性があるならば,Age of Empires IIにもそれはある [cs.RO, cs.CL, cs.RO, cs.CL, cs.AI, cs.CY]目的:大規模言語モデルにおける人間的属性の帰結に関する考察
    • 近年,LLM研究が急速に進展しており,その能力と限界の理解が重要となっている。
    • LLMに人間のような属性を安易に付与する傾向があり,それが誤った結論につながる可能性がある。
    • LLMの属性を客観的に評価するための基準を明確化し,議論の質を高めることを目指す。
    • Age of Empires IIを基盤としたシンプルなニューラルネットワークを構築し,複雑なシステムであれば同様の属性が発現しうることを示した。
    • LLMの属性は基盤に依存するため,普遍的な人間的属性として議論することは妥当ではないと論じた。
    • 実験設定において,LLMの属性を仮定するのではなく,非一意性を仮定する「帰無仮説」の提案を行った。

    Link: https://arxiv.org/abs/2605.31514

  • 多様性よりも頻度:視覚的思考連鎖エージェントにおける道具使用の再考 [cs.CV, cs.AI]目的:視覚的思考連鎖エージェントにおける道具使用の役割に関する研究
    • 視覚的エージェントは,複雑な視覚的推論において,道具を利用することで性能向上が期待される分野である。
    • 従来の道具使用研究は単純な視覚探索に偏り,複雑な推論タスクにおける道具使用のメカニズムが不明であった。
    • 道具使用の崩壊現象を解消し,多様な探索を促すことで,視覚的推論性能を向上させることを目指す。
    • モデルは高いタスク精度を維持しながら道具の使用を徐々に停止する「道具使用の崩壊」現象が確認された。
    • 道具使用を完全に排除すると性能が低下する一方,道具使用を奨励しても性能向上は限定的であることが示された。
    • ロールアウト多様性の低下が,高い道具使用頻度と強い推論性能の間に見られる乖離の原因であることが示唆された。

    Link: https://arxiv.org/abs/2606.00096

  • MoEベースLLM強化学習のための予測的ルーティングリプレイ [cs.LG, cs.AI]目的:MoEベースLLMにおける強化学習の訓練不安定性の軽減
    • 大規模言語モデルの性能向上に不可欠であり,専門家混合モデル(MoE)はその有効性が示されている。
    • MoE-LLMの強化学習では,ルーターのドリフトによりロールアウトと訓練の不一致が生じやすい。
    • ルーティングリプレイの限界を克服し,ルーターの進化を予測することで訓練の安定化を図る。
    • 提案手法PR2は,ルーターの短期的な進化を予測する軽量な予測器を導入する。
    • ロールアウト時に予測ルーティング分布を使用し,訓練時に予測されたルートをリプレイすることで,一貫性を維持する。
    • 理論的分析と実験により,PR2がルーティングによる不一致を軽減し,性能を向上させることが示された。

    Link: https://arxiv.org/abs/2606.00395

  • ProjQ:アダプター対応LLM圧縮のための射影と量子化 [cs.LG]目的:効率的なLLM展開のための量子化雑音の抑制
    • LLMの巨大さから,実用的な展開にはモデル圧縮が不可欠である。
    • PTQ後の雑音がLoRAで修正困難となり,性能向上の妨げとなる。
    • 量子化雑音を低ランク多様体に制約し,LoRAの効率を高める。
    • ProjQは,直交部分空間への射影によって量子化雑音を抑制する。
    • 理論的分析により,ProjQが標準的なPTQよりも高いモデルの柔軟性を維持することが示された。
    • LLaMA-2等での実験で,ProjQは既存手法を凌駕し,3ビットで4ビットベースラインと同等の性能を達成した。

    Link: https://arxiv.org/abs/2606.00494

  • クロネッカー分解最適化器におけるブレグマンダイバージェンスの再考 [cs.LG]目的:ブレグマン行列ダイバージェンスを用いたクロネッカー分解近似の役割
    • 深層学習の高速化には,最適化アルゴリズムの性能向上が不可欠である。
    • クロネッカー分解に基づく事前条件付けは近似であるため,精度向上の余地がある。
    • ブレグマンダイバージェンスの選択が近似誤差の分布に与える影響を明らかにすること。
    • フロベニウス,フォンノイマン,LogDetダイバージェンスは,共分散行列のスペクトル全体にクロネッカー近似誤差を異なって分散させる。
    • これらのダイバージェンスのクロネッカー因子は,生の近似誤差ではなく,ダイバージェンスで重み付けされた残差によって決定される。
    • 上位共分散固有空間はヘッセ行列と著しく整合性が高く,下位スペクトルはノイズが多いことが観察された。

    Link: https://arxiv.org/abs/2606.00542

  • 構造ベース創薬におけるLLMエージェントのためのプローブ先行型分子最適化 [cs.AI, q-bio.BM]目的:LLMエージェントによる構造ベース創薬における分子最適化の改善
    • 創薬において,標的タンパク質への結合親和性と薬物動態特性の両立が重要である。
    • 既存のLLMエージェントは,親和性と薬物動態特性を同時に改善することが困難である。
    • ポケットとリガンドの相互作用を予測し,最適な編集部位を特定することで,同時改善を目指す。
    • 本研究で開発したPROBEは,編集応答プローブを活用し,結合親和性と薬物動態特性の改善を両立させる。
    • PROBEは,サイトマップとEditManualに基づいて,反復的なマルチエージェントループを実行する。
    • CrossDocked2020ベンチマークにおいて,PROBEは最先端の性能を示し,既存手法の課題を軽減する。

    Link: https://arxiv.org/abs/2606.00555

  • 事後ハイブリッドベイズ信念を用いた正則化オフラインポリシー最適化 [cs.AR, cs.PF, cs.AI, cs.LG]目的:オフライン強化学習におけるポリシー最適化
    • 既存データからポリシーを最適化するオフライン強化学習は,実世界への応用が期待される。
    • データ不足や遷移ダイナミクスの特定困難性により,不確実性の管理が課題となる。
    • ベイズRLの理論的利点を活かし,計算効率の良いポリシー最適化手法を開発する。
    • 提案手法PhyBは,ダイナミクスモデルの期待値を凸結合で近似することで,計算コストを削減する。
    • PhyBに基づいた反復正則化ポリシー最適化アルゴリズムは,単調な改善を保証する。
    • 様々なベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2606.00680

  • RADE:ランダムなエッジ追加・削除による正則化 [cs.HC, cs.LG]目的:グラフニューラルネットワークにおける過学習と長距離情報の圧縮問題への対処
    • グラフニューラルネットワークは様々なタスクで高性能だが,過学習や情報の伝播阻害が課題である。
    • 既存手法では,過学習の抑制と長距離情報の伝播促進を同時に達成することが困難である。
    • 訓練と推論の不一致なく,過学習と長距離情報の圧縮問題を同時に解決することを目指す。
    • RADEは,エッジのランダムな追加と削除を組み合わせることで,過学習の抑制と長距離情報の伝播を同時に実現する。
    • RADEは,訓練と推論の分布を一致させるように設計されており,分布シフトを抑制し,長期的な情報伝達をサポートする。
    • ミニバッチの勾配ノルムバランスアルゴリズムにより,削除と追加のレートを適応的に調整し,ハイパーパラメータフリーを実現する。

    Link: https://arxiv.org/abs/2606.00757

  • NBQ:動的なプロファイリングのための次善質問 [cs.AI]目的:知識発見のための会話における次善質問の特定
    • 実世界の会話設定において,個人の理解は重要であり,ポッドキャストや採用選考など多様な場面で活用される。
    • 会話の目的を達成するために,これまでの情報に基づいた最適な質問選択が課題であった。
    • 会話を通して得られる情報を最大化し,効率的なユーザープロファイリングを実現することを目指す。
    • NBQフレームワークは,質問候補の多様性確保,ユーザー状態のコンパクトな更新,質問選択の適応性向上,構造化されたユーザープロファイルの生成を可能にする。
    • マッチングの相互適合性を考慮した応用例として,NBQを実装し,ユーザーの自己記述と相手先好みの両方をモデル化した。
    • 検索効率を高めるQuickMatchを導入することで,大規模なマッチングを近似ベクトル検索により高速化し,高い再現率を達成した。

    Link: https://arxiv.org/abs/2606.00809

  • AIによる論文レビューは論文作成の質を向上させ得るか:コンピュータアーキテクチャ分野の20件の投稿に関する実証研究 [cs.OS, cs.DC, cs.AI, cs.AR]目的:論文作成の改善に対するAIレビューの有効性
    • AI技術の急速な発展に伴い,研究論文の数が増加の一途を辿っており,研究の効率化が求められている。
    • 査読プロセスへの負担増大と,AI生成論文の増加が,査読の質や公平性への懸念を引き起こしている。
    • 本研究は,AIレビューが論文ドラフトの改善に貢献しうる可能性を検証し,その限界を明らかにすることを目的とする。
    • AIレビューは,人間によるレビューで指摘された問題点の多くを網羅することが示された。
    • AIレビューは,人間が見落とす可能性のある問題点を新たに提起することも明らかになった。
    • 現段階ではAIを査読に利用することを推奨するものではないが,論文作成の改善ツールとしての可能性を示唆する。

    Link: https://arxiv.org/abs/2606.01013

  • LeAP:異種・疎なレコメンダーシステムにおける特徴選択のための学習可能な適応的置換 [cs.CL, cs.LG]目的:異種・疎なレコメンダーシステムにおける効率的な特徴選択
    • 高精度な予測のため,多様な特徴量利用が重要であり,レコメンダーシステムの性能向上に不可欠である。
    • 特徴量の次元が不均一であったり,極端な疎性により,既存手法では計算コストが増大し,性能が低下する。
    • 学習可能な置換機構により特徴重要度の評価を高速化し,疎なデータに対しても優れたランキングを実現する。
    • LeAPは,特徴量の無駄な次元を特定し,性能を損なわずに削減することに成功した。
    • 大規模産業検索ランキングモデルにおいて,既存手法の2〜10倍の冗長次元を削除できた。
    • 公開された4つのレコメンダーシステムデータセットで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2606.01111

  • スキル修正: 実行軌跡条件付きスキル修正によるLLM作成エージェントのスキル向上 [cs.AI]目的:LLMエージェントのスキル修正手法
    • LLMエージェントの能力向上は,複雑なタスクの自動化において不可欠である。
    • 初期スキルが不完全な場合,既存の自己進化法は性能が低下する。
    • 初期スキルの欠陥を特定し,実行に基づいた修正を行うことでスキルを向上させる。
    • SkillReviseは,スキル実行の証拠から欠陥を診断し,一般的な知識ベースから修正原理を検索する。
    • 実行に基づいた編集を適用し,再実行と実用性の測定によって最適なスキルバージョンを維持する。
    • SkillsBenchにおける成功率を36.05%から61.63%に大幅に向上させ,モデル間の汎化性能も示している。

    Link: https://arxiv.org/abs/2606.01139