arXiv雑要約

AI - 2026/05/15 公開

  • 大規模言語モデルに知らないことを教える:事前推論のための時間的批判学習 [cs.AI]目的:時間的制約下における大規模言語モデルの推論能力向上
    • 大規模言語モデルの活用が広がる中で,時間的文脈を考慮した推論能力が重要になってきた。
    • 大規模言語モデルは,過去のある時点での視点から応答する際に,後から得られた知識を利用してしまう。
    • 時間的制約を遵守した推論能力を,プロンプトやファインチューニングを通じて獲得することを目指す。
    • プロンプトの記述方法,特に制約箇所の位置が時間的漏洩に大きく影響することが示された。
    • 時間的批判ファインチューニング(TCFT)は,プロンプトやSFTよりも大幅に時間的漏洩を減少させた。
    • TCFTは,モデルが時間的境界に沿った検証能力を獲得することを可能にした。

    Link: https://arxiv.org/abs/2605.14636

  • CAMの評価と改良方法 [cs.CV, cs.AI]目的:CAMの評価基準と改良手法
    • 深層学習の解釈性は,モデルの信頼性と応用範囲を拡大する上で不可欠である。
    • 既存のCAM評価指標は,正解データがないため,信頼性の評価が困難である。
    • CAMの評価方法の改善と,高解像度CAM生成手法の開発。
    • 本研究では,正解アトリビューションを持つ合成データセットを導入し,既存の評価指標を厳密に比較した。
    • 新規指標ARCCは,より信頼性の高い説明を識別することが示された。
    • 提案手法RefineCAMは,複数層のCAMを統合することで高解像度アトリビューションマップを生成し,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.14641

  • 高次元偏微分方程式に対するバイアス除去と二階微分フリーな学習 [eess.SY, cs.SY, math.OC, cs.LG, cs.NA, math.NA, math.OC]目的:高次元偏微分方程式の解法
    • 高次元の偏微分方程式は,科学技術計算において重要な役割を果たす
    • 従来の数値解法は,次元の呪いにより計算コストが増大する
    • EM法によるバイアスを解消し,計算効率を維持した学習手法の確立
    • 本研究では,EM法に起因する損失関数のバイアスを解析し,それを除去するフレームワークを提案した。
    • 提案手法は,二階微分を必要とせず,計算コストを抑えつつ高精度な解を得ることが可能である。
    • これにより,BSDEに基づく手法の適用範囲を拡大し,高次元偏微分方程式の解法に貢献する。

    Link: https://arxiv.org/abs/2605.14643

  • 視覚に基づく水位と流量の推定 [cs.CV, cs.AI]目的:水位と流量の推定手法
    • 水資源管理や防災において,正確な水位と流量の把握は不可欠である。
    • 従来の計測方法では,設置やメンテナンスにコストがかかる場合がある。
    • 環境変化に強く,高精度な水位・流量推定を目指す。
    • 最新の画像認識モデルと統計モデリングを統合したフレームワークを提案した。
    • 物理的な事前知識とロバストなフィルタリングにより,推定精度を向上させた。
    • 本研究のコードは公開されており,今後の研究に貢献する。

    Link: https://arxiv.org/abs/2605.14645

  • 一般化の遅延,記憶の加速:アルゴリズム学習における最適な点 [cs.DC, cs.LG]目的:アルゴリズム学習における一般化と記憶の関係性
    • 機械学習モデルの学習効率向上は,実用的な応用において重要である。
    • データ量の増加が必ずしも学習の加速に繋がらない場合がある。
    • 最適なデータ量が存在し,それによって学習効率が変化することを示す。
    • Needleman-Wunsch行列生成において,Transformerモデルは中間的なデータ量で最も迅速に高い検証精度を達成する。
    • データ量が最適点を超えると一般化は可能だが,より多くの勾配更新が必要となる。
    • 初期段階では,より大きなデータセットがより少ない更新で高い訓練精度を達成可能であり,ルール構造の出現が例ごとの記憶を超えた適合を加速する。

    Link: https://arxiv.org/abs/2605.14659

  • 心的間隙:トラウマ後ストレス障害における神経可塑性介入のための会話型AIフレームワーク [cs.AI]目的:トラウマ後ストレス障害(PTSD)に対する神経可塑性リハビリテーションの構造化された提供
    • PTSDは神経可塑性の問題であり,脳内の神経経路に影響を与える。効果的な治療法の開発が重要である。
    • 既存の治療法は,反応性のカスケードの「下流」に焦点を当て,根本的な神経経路の解消には至らない。
    • 本研究は,反応性経路の解体による持続的な神経再編成を促す「上流」介入を目指す。
    • MindGapは,依存起源という仏教心理学の枠組みを用いて,PTSD患者の神経可塑性を促進する会話型AIフレームワークである。
    • MindGapは,感情の兆候の観察,自己発生としての認識,潜在的な信念の認識という3つの段階を通して,前頭前皮質の関与を深め,反応性経路を弱める。
    • デバイス上で完結し,データ漏洩がないため,機密性の高い臨床・軍事環境への導入が可能である。

    Link: https://arxiv.org/abs/2605.14660

  • Falkor-IRAC:インドの司法AIにおける検証可能な法的推論のためのグラフ制約生成 [cs.AI, cs.CL, cs.IR]目的:インドの司法における法的推論を検証可能にするためのグラフ制約生成フレームワーク
    • 法的推論は,正義へのアクセスに関わる重要な課題であり,効率的かつ正確な支援が求められている。
    • 既存のLLMベースの法的AIは,幻覚や誤った引用,根拠のない推論といった問題が頻発している。
    • 本研究は,グラフ制約生成により,これらの問題を解決し,より信頼性の高い法的推論を実現することを目指す。
    • Falkor-IRACは,IRAC知識グラフに基づき,法的根拠を構造的に表現することで,生成の信頼性を向上させている。
    • Verifiability oracle (Verifier Agent) により,生成された回答がグラフ上の有効な経路で裏付けられているか検証し,誤った引用を排除している。
    • 51件の最高裁判決のテストにおいて,Verifier Agentは正しい引用を検証し,捏造された引用を正しく拒否することが示された。

    Link: https://arxiv.org/abs/2605.14665

  • データに配慮した時間的性質の監視(拡張版) [cs.AI]目的:LTLfMTにおける線形時間特性の先制監視
    • AIシステムの複雑化に伴い,形式手法による検証が困難になっており,実行時監視の重要性が増している。
    • 未知の動的システムに対する監視は,状態が過去の軌跡と可能な将来に依存するため,高度な課題を伴う。
    • 表現力豊かなLTLfMTの断片に対する,正確な監視フレームワークを構築し,その実用性を検証すること。
    • 本研究で提案するフレームワークは,時間的側面を扱う自動有限状態機械と,一階述語論理を扱う自動推論技術を組み合わせる。
    • 線形算術と未定義関数を組み合わせた断片が決定可能であり,データに配慮したビジネスプロセスや読み取り専用データベースの監視に応用可能である。
    • プロトタイプ実装と予備評価により,提案手法の実現可能性が示されている。

    Link: https://arxiv.org/abs/2605.14666

  • 画像解析AIモデルは取得パラメータにどの程度影響を受けるか [cs.AI]目的:画像解析AIモデルの取得パラメータに対する感度定量化
    • 臨床応用には,多施設間での画像取得プロトコルのばらつきが課題となる。
    • 画像取得パラメータの違いにより,AIモデルの性能が低下することが問題である。
    • AIモデルの性能を維持し,施設間の頑健性を高めるためのパラメータ設定を示す。
    • 最適な設定は,X線管電流≥200 mA,螺旋ピッチ≤1.5,スライス厚≤1.25 mmである。
    • この設定により,低品質スキャンの感度0.79±0.04,特異度0.47±0.10から,高品質スキャンの感度0.90±0.10,特異度0.79±0.13へと改善する。
    • 診断品質と低線量照射を両立する設定が示唆された。

    Link: https://arxiv.org/abs/2605.14667

  • AQKA:ショット予算下における活性量子カーネル獲得 [cs.LG]目的:ショット予算下での量子カーネル学習におけるカーネル獲得戦略
    • 量子機械学習は,古典計算機では困難な問題を解決できる可能性を秘めている。
    • 量子カーネルの推定には多大な測定ショットが必要であり,実機への実装のボトルネックとなっている。
    • 測定ショットの効率的な割り当てにより,限られたリソースでの量子カーネル学習を実現すること。
    • 提案手法AQKAは,ショット予算が限られた状況下で既存手法を上回り,特に疎な感度を持つKRRにおいて性能向上を示す。
    • AQKAは,ペアレベルでの獲得理論を導出し,カーネル獲得の効率的な指標を提示することで,理論的保証も提供する。
    • 実機量子コンピュータ上でのオンライン適応型ショット割り当て実験により,AQKAの有効性が実証された。

    Link: https://arxiv.org/abs/2605.14672

  • π-Bench:長期的ワークフローにおけるプロアクティブなパーソナルアシスタントエージェントの評価 [cs.AI]目的:長期的ワークフローにおけるプロアクティブなパーソナルアシスタントエージェントの評価
    • 大規模言語モデルの進化に伴い,日常生活や業務を支援するパーソナルアシスタントの重要性が高まっている。
    • 既存のベンチマークは,明示的に述べられていない隠れた意図をエージェントが特定し行動できるかを十分に評価していない。
    • ユーザーの潜在的なニーズを先回りして対応する能力を,現実世界の利用状況に近い形で評価することを目的とする。
    • π-Benchを用いた実験により,プロアクティブな支援は依然として困難であることが示された。
    • タスクの完了とプロアクティビティの間には明確な違いが存在することが確認された。
    • 過去の対話が,後のタスクにおけるプロアクティブな意図解決に有効であることが示唆された。

    Link: https://arxiv.org/abs/2605.14678

  • AI支援による文化遺産の発信:岩絵文書におけるニューラル機械翻訳と用語集拡張大規模言語モデル翻訳の比較 [cs.CL, cs.AI]目的:文化遺産に関する学術テキストの翻訳品質向上
    • 文化遺産のグローバルな普及は重要だが,多言語対応にはコストと人員の制約がある。
    • 岩絵研究のような専門分野では,専門用語の正確性が翻訳品質を左右し,誤訳は誤解を招く。
    • 用語集を活用したプロンプトによる翻訳の品質と効率の改善を目指す。
    • 用語集拡張大規模言語モデル(Gemini-RAG)は,専門用語の完全一致精度において,他のモデル(Gemini-Simple, DeepL)を上回った。
    • Gemini-RAGは,全体的な翻訳品質を維持しつつ,DeepLを上回る評価を得た。
    • 用語集を活用したプロンプトは,文化遺産翻訳における用語管理の低コストな手法となりうる。

    Link: https://arxiv.org/abs/2605.14679

  • 自発的対称性の破れと深層情報伝播のためのゴルドストーンモード [cs.RO, cs.SY, eess.SY, cs.LG, cond-mat.stat-mech, cs.AI]目的:深層情報伝播のメカニズム
    • 物理学における対称性の破れは,長距離・長時間の情報伝播を可能にする重要な現象である。
    • 深層ニューラルネットワークでは,情報の安定的な伝播が課題であり,残差結合などに依存している。
    • 本研究は,深層ネットワークにおけるゴルドストーンモードを利用し,安定的な情報伝播を実現することを目指す。
    • 連続対称性を持つ深層ニューラルネットワークにおいて,ゴルドストーンモード様の自由度が確認された。
    • これらの自由度は,ネットワークの深さ方向や再帰的イテレーションを通じて,コヒーレントな信号伝播を可能にする。
    • これにより,残差結合などのアーキテクチャ的安定化手法に頼らず,学習性と表現的多様性が向上する。

    Link: https://arxiv.org/abs/2605.14685

  • ReMIA:合成データ生成器に対するメンバーシップ推論攻撃の強力かつ効率的な代替手法 [cs.LG]目的:合成データ生成器に対するメンバーシップ推論攻撃のリスク評価
    • プライバシー制約下での表形式データ共有は,研究協力において重要性が増している。
    • 合成データは脆弱であり,訓練データに含まれていたかを判定するメンバーシップ推論攻撃のリスクがある。
    • ReMIAは,わずかな計算資源で,より実用的なプライバシー評価を可能とする。
    • ReMIAは,従来のメンバーシップ推論攻撃と同程度の感度を持ちながら,必要なSDGの訓練実行回数を大幅に削減する。
    • ReMIAは,元の訓練データと同程度の補助データでリスク評価が可能である。
    • 合成データ生成器は,従来のノイズベースの匿名化手法では実現できないプライバシーと有用性のトレードオフを達成できる。

    Link: https://arxiv.org/abs/2605.14686

  • SAEにおけるレート・歪み・多義性のトレードオフ [cs.LG]目的:SAEにおけるレート・歪み・多義性の間の関係性の特徴付け
    • 機械解釈可能性の向上はAIの信頼性・安全性確保に不可欠である。
    • SAEは効率的な特徴量利用と解釈性の両立が困難である。
    • SAEの多義性がデータ分布に依存することを示す。
    • SAEにおいて,単義性を強要するとレートと歪みが増加するという理論的・実験的証拠が得られた。
    • SAEの最適な多義性の程度は,入力データの分布,特に特徴量の共起確率によって決定される。
    • 未知のデータ生成過程下で,多義性指標が満たすべき条件を導出し,大規模言語モデルで訓練されたSAEで評価した。

    Link: https://arxiv.org/abs/2605.14694

  • NeuroAtlas:臨床脳波およびブレイン・コンピュータ・インターフェースのための基盤モデルのベンチマーク [cs.LG, cs.AI]目的:臨床脳波とブレイン・コンピュータ・インターフェースにおける基盤モデルの性能評価
    • 脳波は,神経疾患の診断やブレイン・コンピュータ・インターフェース等の幅広い応用が期待される重要な生体信号である。
    • 脳波解析におけるモデルの性能評価は,データセットや前処理,評価指標の違いにより一貫性に欠けることが課題となっていた。
    • 統一的な脳波データセットと評価指標を用いて,基盤モデルの臨床的有用性を客観的に評価し,今後の発展を促す。
    • 脳波に特化した基盤モデルは,脳波データに特化していない時系列モデルと一貫して性能が上回るわけではなかった。
    • 従来の機械学習指標だけでは臨床的有用性を評価するには不十分であり,イベントレベルでの意思決定や睡眠特徴量などの適切な指標が必要である。
    • 同一分野内でもモデルのランキングや性能に大きなばらつきが見られ,現時点では汎用的な脳波モデルは未だ実現していない。

    Link: https://arxiv.org/abs/2605.14698

  • SceneFunRI:タスク駆動型機能オブジェクトの局所化における不可視領域の推論 [cs.CV, cs.AI, cs.RO]目的:タスク駆動型機能オブジェクトの局所化における不可視領域の推論
    • 現実世界のシーン理解において,隠れたオブジェクトの存在を推論する能力は重要である。
    • 現在のビジョン言語モデルは,文脈や常識知識を用いた不可視オブジェクトの場所の推論が苦手である。
    • 不可視領域の推論能力が不安定であることを明らかにし,今後のモデル開発の方向性を示す。
    • SceneFunRIベンチマークを構築し,2D空間推論問題として不可視オブジェクトの局所化を定式化した。
    • 最先端モデル(Gemini 3 Flash)でも,CAcc@75が15.20,mIoUが0.74,Distが28.65と,性能が低いことが示された。
    • プロンプト分析の結果,タスク意図,常識知識,空間的根拠付け,不確実性対応検索の統合が課題であることが示唆された。

    Link: https://arxiv.org/abs/2605.14704

  • 脳卒中予後予測のためのVision-Core誘導対照学習によるバランスの取れたマルチモーダル学習 [cs.CV, cs.AI]目的:脳卒中予後予測のためのマルチモーダルモデル
    • 医療診断において,深層学習とマルチモーダル融合は多様なデータ源の統合により大きな可能性を示している。
    • 既存のマルチモーダルアプローチの限界から,脳卒中の正確な予後予測は依然として困難である。
    • 画像,臨床データ,テキストのトリプルモーダル融合を実現し,異質性を軽減する。
    • 大規模言語モデルを用いてMRIから診断テキストを自動生成することで,専門家によるアノテーションの不足を補い,マルチモーダル融合の堅牢性を高めている。
    • Vision-Conditioned Dual Alignment Fusion Module (VDAFM) は,視覚特徴を条件とする事前情報として活用し,テキストとの詳細な相互作用を誘導する。
    • 臨床データセットでの実験により,提案モデルが最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2605.14710

  • IntentVLA:曖昧性解消のための短期意図モデル [cs.RO, cs.AI, cs.CL, cs.CV]目的:ロボット操作における短期意図のモデル化
    • ロボットの模倣学習は,多様なタスクへの適応を可能にする重要な技術である。
    • 視覚と言語の情報が曖昧な場合,ロボットは意図を正確に理解できず,不安定な動作になる。
    • 短期的な意図を明示的にモデル化することで,曖昧な状況下でのロボットの動作を安定化させる。
    • IntentVLAは,過去の視覚情報を基に短期意図を表現し,行動生成に活用することで,ロールアウトの安定性を向上させる。
    • 提案するAliasBenchは,短期的な観測の曖昧性を評価するためのベンチマークであり,IntentVLAはその性能を実証している。
    • 既存のVLAベースラインと比較して,IntentVLAは複数の環境で優れた性能を示した。

    Link: https://arxiv.org/abs/2605.14712

  • アンカールート:区間経路指定による疎な制御を用いた人体モーション合成 [eess.SY, cs.SY, cs.GR, cs.CV, cs.LG]目的:人体モーション合成のためのフレームワーク
    • 人間らしい自然な動きの生成は,バーチャルリアリティやロボット工学など多くの分野で重要である。
    • 既存手法では,詳細なモーションキャプチャデータが必要であり,汎用性に欠ける場合がある。
    • 少ない制御点(アンカー)のみを用いて,高品質なモーションを生成・修正することを目指す。
    • アンカールートは,生成と修正の両方にアンカーを共有するスキャフォールドとして活用する。
    • 事前学習済みのテキスト-モーションモデルの品質を維持しつつ,疎な空間制御を学習可能にした。
    • アンカー条件生成器と区間経路ソルバーの組み合わせにより,テキスト品質とアンカーへの追従性を両立した。

    Link: https://arxiv.org/abs/2605.14716

  • マルチタスク学習を用いたラベルフリーシングルセル表現型解析への道 [cs.CV, cs.AI]目的:ラベルフリーシングルセルイメージングからの分子表現型推論
    • シングルセル解析は,疾患メカニズムの解明や個別化医療に不可欠な技術である。
    • 従来の蛍光染色法は高コストであり,細胞への影響も懸念される。
    • ラベルフリーイメージングによる,簡便かつ非侵襲的な表現型解析の実現。
    • 提案手法は,白血球の分類において91.3%の精度を達成した。
    • CD16発現量の回帰分析では,0.72のピアソン相関係数を示した。
    • 本研究は,コスト効率の良い血液学的プロファイリングの可能性を示唆する。

    Link: https://arxiv.org/abs/2605.14717

  • 論理プログラミングと抽象的議論における強い同値性の概念について [cs.AI]目的:論理プログラミングと抽象的議論における強い同値性の概念の調査
    • 非単調推論において,推論結果に影響を与えない知識ベースの置換を可能にする強い同値性は重要である。
    • 静的な設定では同値性が認められるが,動的な状況では更新概念の違いから形式間での整合性が失われる。
    • 論理プログラムと抽象的議論フレームワーク間の翻訳下で強い同値性を維持し,形式間の互換性を回復すること。
    • 本研究では,強い同値性のずれを調査し,論理プログラムに対する新しい強い同値性の概念を導入した。
    • 提案手法は,特定の論理プログラムとDung形式および主張拡張型議論フレームワーク間の翻訳下で強い同値性を維持する。
    • これにより,これらの形式間の互換性が回復される。

    Link: https://arxiv.org/abs/2605.14721

  • LLMにおける患者ダイナミクスのエージェント化:臨床的ワールドモデルとの相互作用を通じて [cs.DL, cs.AI, cs.CL, cs.LG]目的:敗血症治療に関するLLMエージェントの開発
    • 集中治療における敗血症管理は,迅速に変化する患者の状態に対応した継続的な意思決定が求められる
    • LLMは広範な臨床知識を持つものの,行動に起因する患者の変化を捉えられていない
    • 患者の動態をシミュレーションし,最適な治療方針を提案するエージェントを構築すること
    • SepsisAgentは,臨床的ワールドモデルを用いて治療介入による患者の反応をシミュレーションし,提案・シミュレーション・改善のサイクルを繰り返す
    • MIMIC-IVの敗血症データを用いた評価で,SepsisAgentは既存のRLやLLMベースラインを凌駕するオフポリシー価値と安全性を示した
    • ワールドモデルとの反復的な相互作用により,患者の病態進行の規則性を学習し,シミュレーターアクセスがなくても有効であることが示された

    Link: https://arxiv.org/abs/2605.14723

  • IsoNet:複雑な音響環境における空間認識型音声・視覚ターゲット音声抽出 [cs.SD, cs.LG]目的:複雑な音響環境下でのターゲット音声抽出手法
    • 近年,コンパクトデバイスでの音声処理需要が高まる中で,高品質な音声抽出が重要視されている。
    • 単一マイクのニューラルモデルは空間情報に乏しく,従来のビームフォーマは小型アレイでは性能が低下する。
    • IsoNetは,視覚情報と空間情報を統合し,従来の空間フィルタリングが困難な状況下での性能向上を目指す。
    • IsoNetは,4マイクアレイを用いて,-1dBから10dBのSNR範囲において9.31dBのSI-SDRを達成した。
    • これは,元の混合音に対して4.85dBの改善であり,Oracle delay-and-sumやMVDRビームフォーマよりも優れている。
    • 視覚情報,GCC-PHAT特徴量,遅延ビンエンコーディングの拡張が,一貫して性能向上に貢献することが示された。

    Link: https://arxiv.org/abs/2605.14736

  • TAPIOCA:タスクを意識したプルーニングがOODモデルの能力を向上させる理由 [cs.LG, cs.AI]目的:タスクを意識したプルーニングによるOODデータに対する性能向上
    • モデルの汎化性能向上は,機械学習の重要な課題であり,特に分布外(OOD)データへの対応は重要である。
    • OODデータに対するモデルの性能は,一般的に分布内(ID)データに比べて低いという課題がある。
    • タスクを意識したプルーニングがOODデータにおいて有効である理由を解明し,性能向上メカニズムを明らかにする。
    • タスクを意識したプルーニングは,IDデータ上では性能向上をもたらさないが,OODデータ上では一貫して精度が向上することが示された。
    • OODデータは,IDデータとは異なる層ごとのノルムやペアワイズ距離プロファイルを示すことが確認された。
    • タスクを意識したプルーニングは,OOD入力によって歪められたタスク適応幾何学を修正し,OOD入力とモデルの幾何学を再調整することで性能を向上させることが示された。

    Link: https://arxiv.org/abs/2605.14738

  • データ駆動型デマンドレスポンス計画における終端制約への対処 [eess.SY, cs.AI, cs.SY]目的:データ駆動型デマンドレスポンス計画における終端制約の解決
    • 電力市場の変動に対応した化学プロセスの柔軟な運用が求められており,デマンドレスポンスが重要である。
    • 長期間にわたる計画において,動的安定性を維持するための終端制約が課題となっている。
    • 強化学習の信用割り当て問題を軽減し,効率的な計画立案を可能にすることを目指す。
    • 提案手法は,標準的なDDPGと比較してサンプル効率を向上させることが示された。
    • 終端制約を満たしつつ,近視眼的制御行動を緩和することに成功した。
    • 空気分離ベンチマークシミュレーションにおいて,その有効性が確認された。

    Link: https://arxiv.org/abs/2605.14741

  • LLMガバナンスにおける機械的強制:金融意思決定システムにおけるガバナンス・タスクの乖離に関する証拠 [cs.SI, math.OC, cs.CL, cs.AI, cs.CY]目的:LLMガバナンスにおけるガバナンス・タスクの乖離
    • 金融分野では,規制遵守が不可欠であり,AIシステムの透明性と説明責任が求められている。
    • LLMが解釈する自然言語ポリシーでは,コンプライアンスと実際の挙動の乖離が生じやすい。
    • 機械的強制により,LLMの解釈に依存しないガバナンスを実現し,より堅牢なシステムを構築する。
    • テキストのみのガバナンスでは,27%の保留決定に意思決定に関連する情報が含まれていない。
    • 機械的強制は,この割合を73%削減し,保留情報の情報量を2倍以上に向上させ,タスク精度を0.43から0.88に向上させた。
    • 構造的ストレス下では,テキストのみのガバナンスは両側面で劣化する一方,機械的強制はガバナンスの質を維持する。

    Link: https://arxiv.org/abs/2605.14744

  • 価値フィルタリングによる選択的安全性制御 [cs.LG]目的:言語モデルの安全性と有用性の両立
    • 大規模言語モデルの社会実装が進む中で,安全性確保が不可欠である。
    • 既存手法では,安全な応答も過剰に修正し,有用性を損なう場合がある。
    • 不要な介入を抑制しつつ,安全性を高める手法の開発。
    • 提案手法は,価値に基づいた安全性基準でトークンをフィルタリングすることで,不要な介入を削減する。
    • 単一の閾値パラメータで介入頻度と安全性のバランスを調整可能である。
    • 複数のデータセットで,既存手法を上回り,安全性,有用性,ベースモデルとの類似性のトレードオフを改善した。

    Link: https://arxiv.org/abs/2605.14746

  • Video2GUI:汎用GUIエージェント事前学習のための大規模インタラクション軌跡の合成 [cs.CL, cs.AI, cs.CV, cs.LG]目的:GUIエージェントの汎化性能向上に資する大規模な学習データセットの構築
    • GUIエージェントは,多様なアプリケーション操作を自動化する可能性を秘めており,注目を集めている。
    • 高品質な学習データの不足が,GUIエージェントの汎化性能を制限している主要な課題となっている。
    • インターネット上の動画から自動的にGUIインタラクション軌跡を抽出し,大規模データセットを構築することで,この課題を解決する。
    • 提案手法Video2GUIは,5億件の動画メタデータから1200万件のインタラクション軌跡を含む大規模データセットWildGUIを構築した。
    • WildGUIを用いた事前学習により,複数のGUI関連ベンチマークにおいて,Qwen2.5-VLとMimo-VLの性能が5-20%向上した。
    • 構築したデータセットとパイプラインは公開され,今後のGUIエージェント研究を支援する。

    Link: https://arxiv.org/abs/2605.14747

  • 大規模言語モデルに対する非線形介入 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの内部表現の理解
    • LLMの能力向上に伴い,その内部メカニズムの解明が不可欠となっている。
    • 既存の介入手法は線形表現仮説に依存し,非線形にエンコードされた特徴への対応が課題であった。
    • 非線形に表現された特徴への介入を可能にし,LLMの制御性を向上させる。
    • 提案手法は,線形ベースラインよりも精度の高い拒否回避の制御を可能にした。
    • このフレームワークは,直接的な出力シグネチャを持たない暗黙的な特徴への介入も学習を通じて実現する。
    • 非線形多様体上にエンコードされた特徴への介入を可能にする汎用的な介入の定式化を提示した。

    Link: https://arxiv.org/abs/2605.14749

  • EVA:脱獄攻撃に対する汎用的な調整のための編集 [cs.CR, cs.AI]目的:大規模言語モデルと視覚言語モデルにおける安全性調整
    • 大規模言語モデルの能力向上に伴い,悪意のある利用を防ぐ安全性確保が不可欠である。
    • 既存の安全性対策は計算コストが高く,安全性と性能のトレードオフが生じやすい。
    • モデル全体の再学習ではなく,特定のニューロンを編集することで効率的な安全性調整を実現する。
    • EVAは,大規模言語モデルと視覚言語モデルの両方において,従来のベースライン手法を上回る脱獄攻撃の軽減効果を示した。
    • EVAは,モデルの大部分を変更せずに特定のニューロンを外科的に編集することで,有害な行動を効果的に中和する。
    • EVAは,デプロイ後の安全性調整のための,正確かつ効率的なソリューションを提供する。

    Link: https://arxiv.org/abs/2605.14750

  • 認知的不確実性に基づく知識蒸留による生徒の誤概念の正確な分類 [cs.LG, cs.AI]目的:生徒の誤概念の正確な分類
    • 個別最適化された教育の実現には不可欠だが,質の高いデータ収集が困難である。
    • 誤概念のカテゴリ間の境界が曖昧で,アノテーションノイズが多いという課題がある。
    • 既存データから有益なサンプルを抽出することで,これらの課題を克服することを目指す。
    • 提案手法は,教師モデルの不確実性と信頼度の差に基づいて,重要なサンプルを特定する二層の周辺選択メカニズムを導入する。
    • MAP-Chartingデータセットにおいて,フィルタリングされたサンプルのわずか10.30%で,MAP@3を0.9585(+17.8%)と大幅に向上させた。
    • 4Bパラメータのモデルを使用し,中学校代数の誤概念ベンチマークのクロスTopicテストで84.38%の精度を達成し,最先端のLLM(67.73%)や72Bモデル(81.25%)を上回った。

    Link: https://arxiv.org/abs/2605.14752

  • XDomainBench:高次元科学知識の構成における推論崩壊の診断 [cs.AI]目的:科学知識構成における推論崩壊の診断
    • 科学的知識の合成にLLMの活用が進む中で,その能力評価が重要である。
    • 既存の評価基準は単一ターンに限定され,現実の複雑な科学的ワークフローを捉えられていない。
    • 複雑な科学的推論を評価し,LLMの限界を明らかにすることを目的とする。
    • LLMの評価により,構成の順序が増加するにつれて推論が崩壊することが示された。
    • その原因は,ドメイン構成による直接的な難易度増加と,軌跡パターンによるエラー蓄積である。
    • 結果として,ドメインの混乱やセッション全体の崩壊に繋がることが明らかになった。

    Link: https://arxiv.org/abs/2605.14754

  • 単一および複数エージェント強化学習のための再帰型ニューラルネットワークの確率的検証 [cs.AI]目的:再帰型ニューラルネットワークに基づく方策における望ましくない振る舞いの尤もらしさの推定
    • 部分観測強化学習において,再帰型ニューラルネットワークは重要な役割を担うが,検証は困難である。
    • 既存の検証ツールは,制約的なモデリング仮定や隠れ状態空間の粗視化に依存し,保守的または結論の出ない結果となる場合がある。
    • 本研究では,より定量的な,実現可能性を考慮した確率的保証を提供する手法を開発する。
    • 提案手法RNN-ProVeは,訓練された方策の下で実現可能な隠れ状態集合を方策駆動型サンプリングで近似する。
    • 統計的誤差限界を導き出し,有界誤差と高い信頼性を持つ行動違反の推定値を生成する。
    • 部分観測単一エージェントおよび協調的複数エージェントタスクにおいて,既存ツールよりも優れた性能を示す。

    Link: https://arxiv.org/abs/2605.14758

  • Crys-JEPA:埋め込みスクリーニングと生成的洗練による結晶発見の加速 [cs.LG]目的:新規結晶の探索
    • 材料開発において,新しい機能を持つ結晶材料の発見は重要な課題である。
    • 既存の生成モデルは既知の材料に偏りがちで,安定性と新規性の両立が困難である。
    • 安定性と新規性のトレードオフを回避し,有用な結晶を発見する。
    • Crys-JEPAは,エネルギーを考慮した潜在空間を学習し,安定性評価を効率化する。
    • スクリーニングと洗練のパイプラインにより,有望な結晶を特定し,生成モデルを改善する。
    • MP-20とAlex-MP-20データセットで,V.S.U.N指標において最大82.6%の改善を達成した。

    Link: https://arxiv.org/abs/2605.14759

  • LLMベースのインタビューと意味的特徴抽出による,パーソナライズされた画像美的評価においてAIが人間を上回る [cs.AI, cs.HC]目的:画像に対する個人の美的評価の予測精度向上
    • 画像美的評価は,画像検索や推薦システムなど,多様な応用分野で重要である。
    • 美的感覚は主観的で個人差が大きいため,従来の画像特徴だけでは正確な予測が困難である。
    • LLMを活用し,高レベルな意味的特徴と個人の好みを組み合わせて,より正確な予測を目指す。
    • 提案システムは,従来のシステム,人間,および時間経過後の自己評価と比較して,すべての評価において優れた性能を示した。
    • 特に高評価画像に対する性能が顕著であり,予測誤差は個人間の変動よりも小さかった。
    • これらの結果は,AIが特定の時点における個人の美的感覚を捉える上で,人間よりも優位性を持つ可能性を示唆している。

    Link: https://arxiv.org/abs/2605.14761

  • ニューラルアーキテクチャ設計における構成的疎性 [cs.LG, cs.AI]目的:深層ニューラルネットワークの次元の呪いを克服するための構造的事前知識
    • 深層学習は高次元データを扱うが,次元が増えるほど学習が困難になる。
    • 効果的な高次元学習には,疎な依存構造が重要であると考えられている。
    • 構成的な疎性を利用することで,より効率的なニューラルアーキテクチャを設計する。
    • 情報フィルタリングネットワークとホモロジーニューラルネットワークを組み合わせることで,疎な依存構造を抽出・表現するパイプラインを構築した。
    • ホモロジーニューラルネットワークは,標準的な深層ニューラルネットワークよりも大幅に疎であり,ハイパーパラメータの調整も容易である。
    • 合成データおよび実世界のデータセットにおいて,ホモロジーニューラルネットワークは,パラメータ数を削減しつつ,同等またはそれ以上の性能を示した。

    Link: https://arxiv.org/abs/2605.14764

  • ストリーミング音声-テキスト翻訳のためのSpeechLLM [cs.CL, cs.AI, eess.AS]目的:ストリーミング音声-テキスト翻訳の実現
    • 音声翻訳は国際コミュニケーションにおいて不可欠であり,その効率化が求められている。
    • 従来のシステムは,音声認識とテキスト翻訳の分離により,エラーの伝播が課題であった。
    • リアルタイムな音声翻訳を実現するため,低遅延かつ高精度なシステムを開発する。
    • 提案手法は,音声全体を待たずに,部分的な音声データから翻訳を開始できる。
    • 実験の結果,従来のシステムと同程度の翻訳品質を,1~2秒の低遅延で達成した。
    • LLMが翻訳に必要な音声の長さを判断することで,ストリーミング翻訳を可能にした。

    Link: https://arxiv.org/abs/2605.14766

  • 構成可能な結晶:概念学習による制御可能な材料探索 [cs.LG]目的:新規結晶の生成
    • 材料開発において,新しい結晶構造の発見は,革新的な機能性材料の創出に不可欠である。
    • 既存の手法は確率的探索に依存するため,生成される結晶構造の制御が難しく,探索範囲が限定的である。
    • 概念学習を用いて,結晶構造生成の制御性と探索範囲を拡大し,新規材料探索を効率化すること。
    • ベクトル量子化された変分オートエンコーダにより,再利用可能な結晶概念が自動的に発見された。
    • 学習された概念を組み合わせることで,既存のデータ分布を超えた新規結晶の制御可能な探索が可能となった。
    • MP-20とAlex-MP-20の実験で,V.S.U.N.指標においてベースモデルをそれぞれ53.2%,51.7%向上させた。

    Link: https://arxiv.org/abs/2605.14769

  • MediaClaw:マルチモーダル知能エージェントプラットフォーム技術レポート [cs.AI]目的:マルチモーダルAIGC能力のプラットフォーム構築
    • AIGCの活用は,コンテンツ制作の効率化や新たな表現の可能性を拓く重要な技術である。
    • AIGC能力の断片化,多様なインターフェース,生産プロセスの分断が課題となっている。
    • 高品質な制作ワークフローの再利用を促進し,AIGC導入の課題を解決すること。
    • MediaClawは,統合的な抽象化,プラグインによる拡張,ワークフローオーケストレーションの3層アーキテクチャを採用している。
    • AIGC能力を統一された呼び出しモデルに抽象化し,プラグインによる機能拡張と,タスク指向のSkillsによるワークフロー資産化を実現している。
    • 本レポートは,MediaClawのアーキテクチャ設計思想,中核能力モデルの設計ロジック,実装における主要な設計トレードオフについて解説する。

    Link: https://arxiv.org/abs/2605.14771

  • BioHuman:ビデオからの生体力学的人間表現の学習 [cs.CV, cs.GR, cs.LG]目的:生体力学的人間表現の学習
    • 人間運動の理解は,運動分析,リハビリテーション,傷害リスク評価において重要である。
    • 大規模な生体力学的注釈付きデータセットの不足が課題となっていた。
    • 視覚的観察から内部の生体力学的状態を直接推論する。
    • 本研究では,モーションキャプチャデータセットから筋活動を推定するシミュレーションベースのフレームワークを導入した。
    • BioHumanは,単眼ビデオを入力とし,人間の動きと筋活動を同時に予測する。
    • 実験の結果,BioHumanは運動学的運動と筋活動の両方を正確に再構成し,様々な被験者や動きに一般化できることが示された。

    Link: https://arxiv.org/abs/2605.14772

  • 選択対象を超えて:効率的なモデル学習のためのプラグアンドプレイ振動的データボリュームスケジューリング [cs.LG, cs.AI]目的:効率的なモデル学習のためのデータボリュームの動的スケジューリング
    • モデル学習において,計算資源の制約は常に存在する。データ選択は学習効率向上に不可欠。
    • 既存手法は,どのデータを選択かに重点を置いており,選択するデータ量は固定されている場合が多い。
    • 選択データ量を動的に調整することで,正則化効果と最適化の安定性のバランスを取ることを目指す。
    • 提案手法PODSは,既存のデータ選択手法に容易に組み込むことができる軽量なモジュールである。
    • ImageNet-1kの学習コストを50%削減し,精度を向上させるなど,様々なタスクで効率性と汎化性能のトレードオフを改善した。
    • LLMの命令チューニングを2倍以上高速化し,性能劣化は認められなかった。

    Link: https://arxiv.org/abs/2605.14773

  • 深層決定方策勾配による深層学習調査:犯人特定 [cs.AI]目的:犯罪者特定のための手法
    • AI技術の発展に伴い,犯罪捜査における効率的な犯人特定が重要視されている。
    • 従来の捜査方法は,限られたデータ分析に依存しており,誤認や見落としのリスクがある。
    • 複雑なデータから効率的に犯人を特定し,誤認を最小限に抑える方法を確立すること。
    • 本研究では,深層決定方策勾配(DDPG)アルゴリズムを用いて,犯罪現場の証拠や証言,容疑者情報を学習させた。
    • DDPGはノイズの影響を抑制し,犯人特定確率を最大化するように設計されている。
    • 実験の結果,DDPGは既存手法と比較して95%という高い精度で犯人を特定できた。

    Link: https://arxiv.org/abs/2605.14774

  • オフライン強化学習における保守的価値推定のためのPeng's Q($\lambda$) [cs.LG]目的:オフライン強化学習における保守的価値推定手法
    • 強化学習は,ロボティクスやゲームなど幅広い分野で活用が期待されている。
    • オフライン強化学習では,十分なデータが必要であり,価値推定の過小評価が問題となる。
    • 過去の行動データを用いて,より安全かつ効率的な学習を実現する。
    • 提案手法CPQLは,既存のオフライン強化学習手法と比較して,D4RLベンチマークにおいて優れた性能を示す。
    • CPQLは,価値推定の過小評価を軽減しつつ,行動ポリシー以上の性能を達成する。
    • オフラインで事前学習したQ関数を用いることで,オンライン学習における初期性能低下を抑制できる。

    Link: https://arxiv.org/abs/2605.14779

  • リハーサルベースのクラス継続学習における不均衡な忘却の理解 [cs.DC, cs.LG, cs.CV]目的:クラス継続学習における不均衡な忘却現象の解明
    • ニューラルネットワークの継続学習において,以前の知識を保持することは重要課題である。
    • リハーサルによる忘却の抑制策は存在するものの,クラスによって忘却の度合いに偏りが見られる。
    • この不均衡な忘却のメカニズムを解明し,抑制策の指針を得る。
    • 不均衡な忘却は,リハーサルベースのクラス継続学習において系統的かつ深刻に発生することが示された。
    • 勾配レベルの干渉を示す3つの係数が,各クラスの忘却度合いを予測することが確認された。
    • 特に,自己誘起干渉を捉える係数が最も強い予測因子であり,クラス間の忘却の不均衡を軽減する手がかりとなる。

    Link: https://arxiv.org/abs/2605.14785

  • 行動から知る:UIトレースによるLLMブラウザエージェントのフィンガープリント [cs.CR, cs.AI, cs.HC, cs.LG]目的:LLMブラウザエージェントの識別可能性
    • LLMエージェントの利用拡大に伴い,セキュリティリスクの評価が重要となる。
    • LLMエージェントを特定され,脆弱性を突く標的型攻撃を受ける可能性がある。
    • UIトレースからLLMエージェントを識別する攻撃手法とその対策を検討する。
    • 14種類のLLMと4つのウェブ環境において,UIトレースからエージェントの基盤モデルを最大96%のF1スコアで識別可能であることが示された。
    • モデルサイズや系列に関わらず,エージェントの行動から学習した分類器は高い汎化性能を持つ。
    • 行動間のランダムな遅延挿入は分類精度を低下させるものの,再学習によって性能が回復することから,堅牢な防御策とはなり得ない。

    Link: https://arxiv.org/abs/2605.14786

  • 研究のグラフ:引用進化グラフによる研究アイデア生成の監督 [eess.SY, cs.SY, cs.CL, cs.AI]目的:研究アイデア生成の監督手法
    • 科学研究の発展には,新しいアイデアの創出が不可欠である。
    • 既存手法では,引用文献間の構造的関係が十分に活用されていない。
    • 引用進化グラフを活用し,LLMによるアイデア生成の精度向上を目指す。
    • 引用進化グラフを監督信号として用いることで,LLMベースの研究アイデア生成において最先端の結果を達成した。
    • 提案手法GoR-SFTは,gpt-4oをベースラインとする評価において優れた性能を示した。
    • この研究は,引用進化グラフの利用障壁を下げ,自動科学イノベーションの加速に貢献すると期待される。

    Link: https://arxiv.org/abs/2605.14790

  • 長期LLMペルソナ一貫性を保つための異種時間的メモリガバナンスフレームワーク [cs.RO, cs.AI]目的:長期対話におけるLLMのペルソナ一貫性の維持
    • 大規模言語モデルの利用拡大に伴い,長期的な対話での一貫性維持が重要課題となっている。
    • LLMは,長期間のインタラクション中に事実の喪失,時間軸の混乱,ペルソナの変化などの問題が生じやすい。
    • 本研究は,LLMの長期対話におけるペルソナ一貫性を,追跡可能で監査可能,かつ転送可能なガバナンス問題として捉え,解決を目指す。
    • ノイズ比が1:5の場合,CSVによる再現率は54.0%であったが,手動レビューでは100.0%に向上し,自動ルールが再現率を過小評価する可能性があることが示された。
    • 対話履歴検索を無効化すると,厳密な精度が100%から66.7%に低下し,BM25を無効化すると80.0%に低下。意味的検索だけでは修正と追跡が不十分であることが示された。
    • ARPMは,ノイズの多い状況下やモデル間のハンドオフにおいても,意味的連続性,境界的連続性,ペルソナ一貫性を維持できることが確認された。

    Link: https://arxiv.org/abs/2605.14802

  • GFMate:テスト時プロンプト調整によるグラフ基盤モデルの強化 [cs.LG]目的:グラフ基盤モデルの汎化性能向上
    • グラフ学習は,複雑な関係性を捉える上で不可欠であり,様々な応用分野で重要性が増している。
    • 既存のグラフプロンプトは特定のドメインに依存し,異なるモデルへの汎化が課題となっていた。
    • ドメイン知識に依存しないテスト時プロンプト調整により,汎化性能の向上を目指す。
    • GFMateは,事前学習に依存しないテスト時グラフプロンプト調整を導入することで,特定のドメインへの偏りを回避する。
    • ラベル付きデータに加え,ラベルなしデータも活用する新しい学習目的関数を設計し,テスト時のプロンプト調整を効果的に行う。
    • 12のベンチマークデータセットで,GFMateが最先端技術を最大30.63%上回る優れた性能と効率を示すことが確認された。

    Link: https://arxiv.org/abs/2605.14809

  • ToMAToMP:ロバストで多パラメータなトポロジカルクラスタリング [cs.LG, math.AT]目的:多パラメータトポロジカルクラスタリング手法
    • データ解析における新たなアプローチとして,トポロジカルデータ解析が注目されている。
    • 従来のToMAToは,グラフ構造の調整や外れ値の影響を受けやすいという課題があった。
    • 複数の関数を同時に扱える,ロバストなトポロジカルクラスタリング手法を開発すること。
    • 本研究で提案するToMAToMPは,多パラメータ持続ホモロジーに基づくMMA分解を活用している。
    • ToMAToMPは,グラフ構造の調整に依存せず,外れ値に対してもロバストであることが理論的に示された。
    • 様々なデータセットにおいて,既存の手法と比較してクラスタリングの精度と効率が向上することが確認された。

    Link: https://arxiv.org/abs/2605.14824