arXiv雑要約

AI - 2026/05/19 公開

  • スタイルテキスト:スタイル保持型シーンテキストインペインティングのための大規模データセットとベンチマーク [cs.CV, cs.AI]目的:スタイル保持型シーンテキストインペインティングのための大規模データセットおよびベンチマーク
    • 画像編集技術の発展は,現実世界の多様なシーンを自然に再現する上で重要である。
    • 既存のデータセットでは,シーンの文脈を考慮したテキストの自然な補完が困難であった。
    • シーンのスタイルを維持しつつ,局所的なテキストのインペインティングを評価するための基盤を構築する。
    • StyleTextデータセットは,28,518組の画像・マスク・プロンプトの組を含み,シーン文脈下でのテキスト可読性と視覚的一貫性の評価を可能とする。
    • 提示された評価プロトコルとFluxFill+LoRAベースラインにより,大幅なOCR精度の向上とシーンスタイルの維持が確認された。
    • 本研究は,今後のシーンテキストインペインティング技術の比較評価のための強力な基準点を提供する。

    Link: https://arxiv.org/abs/2605.17309

  • 注意の乗っ取り:ビジョン言語モデルにおけるクエリを跨いだ応答操作 [cs.CV, cs.AI]目的:ビジョン言語モデルにおけるクエリを跨いだ応答操作
    • ビジョン言語モデルは画像とテキストを理解し,高度なタスクをこなすため,その信頼性確保が重要である。
    • 既存の攻撃手法はクエリが変わると効果が低下し,汎用性に課題があった。
    • クエリに依存せず,様々な状況下で応答を操作する攻撃手法を開発すること。
    • 提案手法「Attention Hijacking」は,画像への注意を強く誘導することで,クエリの変化に対する応答操作の安定性を高める。
    • 多様なターゲット応答や未見のクエリに対しても,高い応答操作の転移性を実現した。
    • 本研究は,ビジョン言語モデルにおける注意の安定性が,応答操作の転移性に重要な役割を果たすことを示唆する。

    Link: https://arxiv.org/abs/2605.17310

  • 不適合な誤った草案による弱から強への知識獲得 [cs.CL, cs.AI, cs.LG]目的:より強力な学習者の能力を引き出すこと
    • 強化学習は,複雑な問題解決に不可欠であり,その性能向上が求められている。
    • 既存の強化学習手法では,性能限界に達することがあり,新たなアプローチが必要である。
    • より小さなモデルからの知識を活用し,より強力なモデルの性能を向上させることを目指す。
    • 不適合な誤った草案を注入することで,標準的な強化学習手法を上回る性能がMATH-500とAIME 2025/2026で確認された。
    • 特に,不適合な草案の使用は,greedy pass@1において$+1.62$ppの性能向上をもたらした。
    • 本手法は,Mathstral-7B-v0.1において,これまでに公表されている最高の結果(71.98% MATH-500)を達成した。

    Link: https://arxiv.org/abs/2605.17314

  • 不完全な時空間データからの高次構造の学習:ニューラルな改良を伴う多スケールハイパーグラフラプラシアン [cs.LG, cs.AI]目的:不完全な時空間データからの高次構造学習
    • 現代のインフラはセンサーネットワークに大きく依存しており,その重要性は増している。
    • 既存手法は,データ欠損パターンが単純なランダムであると仮定しており,現実の構造的欠損に対応できない。
    • 本研究は,センサー間の高次関係を活用し,構造的欠損を持つ時空間データの学習を改善することを目指す。
    • 提案手法MSHLは,多スケールハイパーグラフを構築し,欠損パターンから高次の構造を学習する。
    • MSHLは,既存のペアワイズグラフベースの手法と比較して,高次構造が識別可能な場合に優れた性能を示す。
    • 欠損データは,補完すべき孤立したエントリではなく,構造を発見するための証拠として扱うべきであるという原理を支持する。

    Link: https://arxiv.org/abs/2605.17316

  • TClone:コンピュータ利用エージェントのためのライブGUI環境の低遅延フォーク [cs.CY, cs.ET, cs.OS, cs.AI]目的:コンピュータ利用エージェントのためのライブGUI環境のフォークシステム
    • エージェントが個人ワークスペース内で動作する場面が増加しており,安全かつ高品質な動作が求められている。
    • 既存の仮想化技術では,インタラクティブなワークスペースの低遅延なバージョン管理が困難である。
    • ライブGUIワークスペースの高速な分岐,ロールバック,選択的なコミット/マージを実現し,エージェントの安全性を高める。
    • TCloneは,ライブGUIワークスペースのスナップショット,フォーク,ロールバック,および選択的なコミット/マージを可能にする。
    • TCloneは,高速な分岐作成と耐久的なチェックポイントを分離し,KVMやCRIUと比較してタスクの総遅延を最大で1.9倍削減する。
    • ワークスペースのバージョン管理を基本的なシステム機能とすることで,現実の個人コンピューティング環境でのエージェント実行の安全性と品質を向上させる。

    Link: https://arxiv.org/abs/2605.17320

  • ASPI:曖昧性解消の試みがLLMエージェントのプロンプトインジェクション脆弱性を増大させる [cs.CR, cs.AI]目的:LLMエージェントにおける曖昧性解消行動が,プロンプトインジェクション攻撃に対する脆弱性に与える影響の評価
    • LLMエージェントの活用が進む中で,その安全性確保は重要課題である。特に,人間とのインタラクションにおけるリスク評価が不可欠である。
    • LLMエージェントは曖昧な指示に対して質問を繰り返す性質を持つが,それがセキュリティ上の弱点となりうる可能性が指摘されてきた。
    • 曖昧性解消というエージェントの状態が,プロンプトインジェクション攻撃に対する脆弱性をどのように変化させるかを定量的に明らかにすること。
    • 曖昧性解消の試みが,LLMエージェントのプロンプトインジェクション攻撃成功率を大幅に上昇させることが示された(例:o3で1.8%から34.0%,Gemini-3-Flashで2.2%から35.7%)。
    • この脆弱性増大は,モデルが入力内容を処理する方法の変化と,エージェントが質問を通じて得られる追加情報に起因することが分析により明らかになった。
    • 従来の実行時セキュリティ評価では,インタラクティブなエージェントの攻撃対象領域が過小評価されている可能性が示唆された。

    Link: https://arxiv.org/abs/2605.17324

  • 単眼ビジュアル・インシャル航法システムにおけるフィードフォワード3Dモデルを用いた効率的な特徴量不要初期化 [cs.RO, cs.AI, cs.CV]目的:単眼ビジュアル・インシャル航法システムにおける初期化の成功率向上
    • 単眼ビジュアル・インシャル航法システムは,ロボットの自律移動に不可欠な技術である。
    • 従来の初期化手法は特徴点追跡に依存し,計算コストが高く,環境に左右されやすい。
    • フィードフォワード3Dモデルを活用し,特徴点追跡を不要とした効率的な初期化手法を開発する。
    • 提案手法は,90%を超える高い成功率を達成し,初期化に必要なデータ時間を大幅に短縮した。
    • 特に,従来の技術が失敗しやすい視覚的に劣悪な環境においても堅牢な性能を発揮した。
    • フィードフォワード3Dモデルによる点群を用いることで,システム複雑性を低減し,初期化の信頼性を高めた。

    Link: https://arxiv.org/abs/2605.17327

  • LPG:潜在的ポリシーガードレールにおける効率性とポリシー推論のバランス [cs.CR, cs.AI]目的:動的な安全ポリシーに対する安全性の確保
    • AIシステムの安全性は重要であり,特にLLMをカスタマイズされたアシスタントとして利用する場合,その重要性は増す。
    • 従来のガードレールは静的であり,変化する安全ポリシーに迅速に対応できないという課題があった。
    • 本研究は,低遅延性と高い安全性を両立する動的なガードレールフレームワークを開発し,その有効性を示す。
    • LPGは,動的なポリシーの解釈と安全ポリシーへの対応に必要な内部検討を,決定に関連する意味論によって監督される連続的な状態に圧縮する。
    • LPG-4Bは,安全ポリシーのベンチマークにおいて,平均84.5%の安全精度と77.9%のF1スコアを達成し,最も強力な動的ベースラインを上回った。
    • 単一サンプル評価において,Qwen3-4B-Thinkingと比較して約11倍の高速化を実現し,監査可能性を維持しながら遅延を回避した。

    Link: https://arxiv.org/abs/2605.17329

  • 強化学習におけるグループ展開でのエラー多様性の活用 [cs.LG]目的:強化学習における検証可能な報酬からの学習の改善
    • 近年,大規模言語モデルの能力向上を目指し,強化学習の応用が注目されている
    • 検証可能な報酬からの強化学習では,回答の多様性が十分に活用されていない
    • グループ展開におけるエラーの多様性を活用し,学習効率を向上させる
    • エラー多様性に基づくアドバンテージ形状化(EDAS)は,誤った展開に対するペナルティを,グループ内のエラー多様性に基づいて調整する
    • EDASは,反復的なエラーを抑制し,探索的なエラーを促進することで,多様な推論経路を維持する
    • Qwen3-8Bを用いた実験で,EDASはDAPOと比較して平均で6.29ポイントの性能向上を示し,グループ展開における潜在情報の活用が有効であることが示された

    Link: https://arxiv.org/abs/2605.17333

  • 疎行列の並べ替えと因数分解のギャップを埋める:フィリン削減のための深層学習フレームワーク [cs.LG]目的:疎行列のフィリン削減のための深層学習フレームワーク
    • 疎行列計算は,科学技術計算において不可欠であり,計算資源の効率的な利用が求められる。
    • 最小フィリン順序の探索はNP困難であり,大規模疎行列に対して効率的な並べ替えが課題である。
    • 並べ替えと因数分解の間の矛盾を解消し,フィリンを最小化する新たな手法を開発する。
    • 本研究では,スペクトル埋め込みに基づくフィリン代替関数を最小化する深層学習フレームワークを提案する。
    • マルチグリッド様式のGNNアーキテクチャを用いて,グラフラプラシアン行列の最小固有ベクトルを近似し,行列の構造情報を捉える。
    • 実験結果から,提案手法は従来のグラフ理論アルゴリズムや深層学習手法と同等の性能を示すことが示された。

    Link: https://arxiv.org/abs/2605.17339

  • オリビア:パワースペクトル密度を用いた時系列基礎モデルの調和 [cs.LG]目的:時系列データのパワースペクトル密度を用いた調和による,時系列基礎モデルの性能向上
    • 時系列データは様々な分野で重要であり,その分析と予測は不可欠である。
    • 異なる時系列データの間のパターン不一致は,学習の効率と汎化性能を低下させる。
    • パワースペクトル密度による調和を通じて,データ間の不一致を軽減し,学習を促進する。
    • 提案手法Harmonizerは,データセット間のスペクトル構造を整形し,パワースペクトル密度を暗黙的に調和させる。
    • 理論解析により,Harmonizerを用いたトークン間の相互作用は,コンパクトな共振器セットによって効率的に媒介されることが示された。
    • Oliviaは,これらの調和メカニズムを基盤とした新しい時系列基礎モデルであり,ゼロショット,Few-shot,フルショットの予測シナリオで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.17340

  • クロスモーダル意味的アライメントによる視覚言語モデルに対するシングルサンプルブラックボックスメンバーシップ推論攻撃 [cs.CV, cs.AI]目的:視覚言語モデルのトレーニングデータに含まれていたかどうかの判定
    • 視覚言語モデルは性能向上しているが,大規模データセットに依存し,意図せぬトレーニングデータの記憶がデータセキュリティリスクとなる。
    • 既存のメンバーシップ推論攻撃は,内部情報へのアクセスが必要な場合や,大量の統計的分布に依存し,単一サンプルでは困難である。
    • クロスモーダル意味的アライメントの観点から,メンバー画像における画像とキャプションのアライメントの強さを利用し,単一サンプルでも判定可能にする。
    • 提案手法は,画像とキャプションの共同埋め込み空間におけるアライメントを定量化することで,厳密なブラックボックスかつシングルサンプル環境下での攻撃を実現する。
    • VL-MIA/Flickerデータセットにおいて,LLaVA-1.5に対してAUC0.821を達成し,既存手法を大幅に上回る性能を示す。
    • 様々な画像摂動に対してもロバストであり,実用性も高い。

    Link: https://arxiv.org/abs/2605.17341

  • 推移性と循環性:動的大規模言語モデル調整のための明示的な選好分解 [cs.CL, cs.AI]目的:人間の選好の循環的性質を捉え,大規模言語モデルの調整を行うための選好分解手法
    • 言語モデルの調整は,人間の価値観と合致する安全で有用なAIを開発する上で不可欠である。
    • 従来の強化学習は,人間の選好が持つ循環性を考慮しておらず,最適解の導出が困難である。
    • 選好を推移的要素と循環的要素に明示的に分解し,よりロバストな調整を可能にすること。
    • 提案手法HRCは,推移的・循環的混合設定において,GPMよりも高速に収束し,高い精度を達成した。
    • RewardBench 2の実験において,HRCはBTやGPMのベースラインと比較して,一貫した性能向上を示した(例:Gemma-2B-itで+1.23%)。
    • AlpacaEval 2.0やArena-Hard-v0.1などの評価において,HRC+DSPPOはSPPOベースラインを大きく上回り,優れた有効性が確認された。

    Link: https://arxiv.org/abs/2605.17342

  • 年齢推定モデルは生体データを処理しない [cs.CY, cs.CV, cs.LG]目的:年齢推定モデルにおける生体データ処理の有無
    • 顔認識技術の発展に伴い,プライバシー保護の重要性が増している。
    • 年齢推定モデルが個人識別能力を持つ場合,法規制に抵触する可能性がある。
    • 年齢推定モデルが生体データを処理しないことを実証し,法規制の明確化を促す。
    • 14のモデルを3つの顔認証ベンチマークで評価した結果,年齢推定モデルは個人識別閾値を大幅に下回った。
    • 年齢推定モデルは個人を特定できないことが示された。
    • 研究者に対し,システムが保存・実行可能なことの透明性確保を求め,規制当局に対し,一時的な処理とテンプレート保存の区別を促す。

    Link: https://arxiv.org/abs/2605.17347

  • HyperPersona:テキストに基づく自動パーソナリティ予測のための多層ハイパーグラフフレームワーク [cs.AI, cs.CL]目的:テキストからのパーソナリティ推論
    • 言語は社会心理的に重要な特性を反映し,行動や感情のパターンを言葉にエンコードする。
    • 既存手法はテキストの階層構造(ドキュメント,文,単語)を十分に活用できていない。
    • テキストの多層構造を明示的にモデル化することで,パーソナリティ予測の精度向上を目指す。
    • HyperPersonaは,ドキュメントと文をハイパーエッジ,単語をノードとして表現するハイパーグラフ構造を導入した。
    • Transformerベースのグラフエンコーダを用いて,言語層間の相互作用を学習し,文脈に依存した特徴量を生成する。
    • Big Fiveの性格特性の実験で,最先端の手法と比較して優れた性能を達成した。

    Link: https://arxiv.org/abs/2605.17355

  • MasFACT:幾何学に基づいた事後確率転移による継続的多エージェントトポロジー学習 [cs.LG, cs.AI]目的:多エージェントシステムのトポロジー学習
    • 複雑な問題解決において,LLMを活用した多エージェントシステムが注目されている。
    • 既存手法は単一タスクに最適化されており,連続的なタスク変化に対応できない。
    • 過去の有効な協調パターンを保持し,トポロジー忘却の問題を解決する。
    • MasFACTは,幾何学に基づいた事後確率転移フレームワークにより,過去の協調知識を転移可能にする。
    • Fused Gromov-Wasserstein最適輸送とPAC-Bayesによる保守的な事後確率適応を組み合わせる。
    • 様々な継続学習設定において,既存手法と比較して平均精度向上とトポロジー忘却の抑制を確認した。

    Link: https://arxiv.org/abs/2605.17361

  • 疎行列に対するグラフポリシー最適化によるフィルイン削減順序学習 [cs.LG]目的:疎行列のフィルイン削減順序の学習
    • 大規模疎行列計算において,メモリと計算量を削減するため,効率的な行列順序付けが重要である。
    • 最小フィルイン順序問題はNP困難であり,既存手法では大域的なフィルインを捉えきれない,または局所的な正確なフィードバックがない。
    • 大域的・局所的な視点を取り入れたグラフポリシー最適化により,既存手法の課題を克服することを試みる。
    • 提案手法は,SuiteSparse Matrix Collectionにおいて,フィルインが平均29.3%削減された。
    • ピークメモリ使用量は,最先端のベースラインと比較して平均31.3%削減された。
    • ポリシーと価値ネットワークの両方が多段グラフニューラルバックボーンを使用し,大域的なフィルインを埋め込む。

    Link: https://arxiv.org/abs/2605.17362

  • CBT-Audio:CBTセッション録音における患者側の苦痛度推定のための音声言語モデルの評価 [cs.AI]目的:CBTセッションにおける患者の苦痛度推定
    • 認知行動療法は広く用いられ,患者の心理的苦痛の理解と管理を支援する。
    • AI研究は主にテキストに限定されており,音声データは倫理的・プライバシー上の制約から不足している。
    • 音声言語モデルを用いた患者の苦痛度推定を可能にし,AI評価の新たな道を開く。
    • 音声データはテキスト情報だけでは捉えきれない,患者の苦痛度推定に有用な情報を提供する。
    • テキストと音声を組み合わせることで,8割のモデルにおいて苦痛度推定の精度が向上し,特に内容と声の調子が異なる場合に効果が明確であった。
    • CBT-Audioデータセットは,CBT関連タスクにおけるAI評価のための患者の音声行動を測定可能にする。

    Link: https://arxiv.org/abs/2605.17370

  • FML-bench:探索ダイナミクスの観点からのAI研究エージェント戦略の制御された研究 [cs.LG, cs.AI]目的:AI研究エージェント戦略の性能に影響を与える要因の解明
    • 機械学習研究の自動化が加速しており,その効率化は重要な課題である。
    • 既存の研究では,エージェント戦略と実行基盤が混在しており,戦略自体の性能評価が困難である。
    • エージェント戦略と実行基盤を分離し,探索行動を評価するベンチマークの提供。
    • FML-Benchは,18の基本的な機械学習タスクと12の行動指標を備えたベンチマークである。
    • 単純な貪欲探索法が,高性能な木構造探索エージェントに匹敵する性能を示すことがわかった。
    • 改善の機会密度に応じて,探索戦略を適応的に切り替えることで,より高い性能が得られることが示唆された。

    Link: https://arxiv.org/abs/2605.17373

  • より良いトークンによる高速学習:専門分野テキスト要約のためのパラメータ効率的な語彙適応 [cs.CL, cs.AI]目的:専門分野テキスト要約のための語彙適応手法
    • 大規模言語モデルの性能は,トークン化の効率性に大きく依存する。
    • 専門分野への適用時,汎用コーパスで事前学習されたモデルはトークン化の非効率性を示す。
    • 既存の語彙ミスマッチを解決し,専門分野テキスト要約の効率を向上させる。
    • 提案手法は,ドメイン固有のトークンを追加し,学習不足なトークンを置き換えることで,パラメータ増加を抑制する。
    • Llama-3.1-8BとQwen2.5-7Bを用いた実験により,生成要約と参照間の意味的類似性が向上することが確認された。
    • 継続事前学習と比較して,学習時間を35-55%削減し,パラメータ数を最大37%削減する効果が示された。

    Link: https://arxiv.org/abs/2605.17379

  • 企業向けエージェントAIセキュリティのための能動的検知システムADR [cs.AI, cs.CR, cs.LG]目的:企業環境におけるAIエージェントのセキュリティ確保
    • AIエージェントの普及に伴い,そのセキュリティ対策が重要性を増している。
    • 既存のセキュリティツールは,エージェントの思考過程を可視化できず,攻撃に対応できない場合がある。
    • AIエージェント特有の攻撃手法に対応し,効率的な検知を実現することが課題である。
    • ADRは,高精度なエージェントのテレメトリ収集,事前評価,そしてスケーラブルなオンライン検知を組み合わせることで,これらの課題を解決する。
    • Uberでの10ヶ月以上の運用で安定した検知性能を示し,26カテゴリーで数百件の認証情報漏洩を検出した。
    • ADR-Benchにおいて,既存の最先端システムをF1スコアで2~4倍上回る性能を発揮し,誤検知ゼロで67%の攻撃を検出した。

    Link: https://arxiv.org/abs/2605.17380

  • QQJ:生成AIの評価における質的判断の定量化 [cs.AI, cs.CL, cs.GR]目的:生成AIの評価のためのスケーラブルで人間との整合性の高い手法
    • 生成AIの進化は目覚ましいが,評価手法の限界が露呈している。
    • 従来の自動評価指標は表面的な類似度に依存し,人間の認識との乖離がある。
    • 質的判断を定量化し,人間とAIの評価の一致度を高める。
    • QQJは,専門家が設計した多次元評価基準に基づき,LLMを人間の判断に沿うように調整する。
    • 実験の結果,QQJは従来の指標や制約のないLLMよりも人間の判断と強く一致することが示された。
    • QQJは,幻覚や意図の不一致といった重大な問題点の特定にも優れている。

    Link: https://arxiv.org/abs/2605.17382

  • NOETHER:演算子代数からのメタモルフィックパターンの発見のための構成的フレームワーク [cs.CE, cs.MS, cs.SE, cs.LG, cs.LO]目的:演算子代数からメタモルフィックパターン集合への導出を機械的かつ証明可能にするフレームワーク
    • ソフトウェアテストやAIシステムの品質保証において,メタモルフィックテストの重要性が増している。
    • 既存のアプローチは帰納的な根拠に基づいており,起源,閉包性,転移可能性といった基礎的な課題が未解決である。
    • 領域固有の代数層への帰納を置き換え,プログラムごとのMRサンプリングからの帰納を解消することを目指す。
    • NOETHERは,ボルツマン反応炉物理学における既存のカタログを体系化し,実用的なメタモルフィックパターンを生成した。
    • 同フレームワークは,回転不変性,随伴双対性,学習軌道の可逆性といった等変MLにおける実行可能なMRを導出した。
    • PWR炉拡散の反例を通じて,完全性に関する仮説(定理1')を反証し,翻訳拡張の次元を特定した。

    Link: https://arxiv.org/abs/2605.17390

  • マルチエージェント強化学習のための異種情報ボトルネック協調グラフ [cs.AI, cs.LG, cs.MA]目的:協調グラフの学習
    • 協調学習は,複雑なタスクを複数のエージェントに分散させる上で不可欠である。
    • 既存手法では,エッジの存在や情報量は経験則に依存し,理論的保証がない。
    • エッジの存在と情報量を理論的に正当化し,構造的な関係に応じた通信容量を割り当てる。
    • 異種情報ボトルネック協調グラフ(HIBCG)を提案し,グループを考慮した疎グラフを学習する。
    • HIBCGは,エッジの維持基準とメッセージ容量制御に情報ボトルネックを利用する。
    • グループ構造に基づいた事前分布が,トポロジー学習のバリアント境界を厳密に絞り込むことを証明した。

    Link: https://arxiv.org/abs/2605.17393

  • MiniGPT:最初の原理からGPTを再構築 [cs.CL, cs.LG]目的:GPTスタイル自己回帰型言語モデルの実装と評価
    • 大規模言語モデルの理解と応用は,自然言語処理の発展に不可欠である。
    • 既存のGPT実装は複雑であり,学習と理解が困難な場合がある。
    • GPTの基本構造を理解し,再現可能な実装を提供することで,学習の障壁を下げる。
    • MiniGPTは,PyTorchを用いてGPTの主要なパイプラインをゼロから実装した。
    • Tiny Shakespeareデータセットを用いた評価で,0.83Mパラメータモデルは1.7236の検証損失を達成した。
    • 10.77Mパラメータモデルは,より良い設定で1.4780の検証損失を達成し,Shakespeare風の文章を生成した。

    Link: https://arxiv.org/abs/2605.17398

  • 疎行列の並べ替えのための自己教師あり学習 [cs.LG]目的:疎行列の並べ替えによるメモリ使用量と計算時間の削減
    • 疎行列は科学技術計算で頻出であり,効率的な処理が重要である。
    • 最適な並べ替えを見つけるのはNP困難であり,近似解法に頼る必要がある。
    • Fill-Path定理に基づき,構造情報と不等式を用いた並べ替え学習を行う。
    • 提案手法は,マルチグリッドグラフネットワークを用いて行列構造を捉える。
    • Triplet sampling戦略とend-max chain loss関数により,Fill-inを削減する。
    • SuiteSparseコレクションでの実験により,Fill-in削減とLU分解の高速化が示された。

    Link: https://arxiv.org/abs/2605.17403

  • トークンエコノミクスにおける計算上の課題:経済理論とAIシステム設計の架け橋 [cs.AI]目的:トークンエコノミクスの計算上の課題の特定と分析
    • 大規模言語モデルにおける資源配分,価値創造,価格設定の理解に,トークンエコノミクスが有用な視点を提供する。
    • 高度な経済理論と,現代のAIインフラの計算上の現実との間に大きな隔たりが存在する。
    • トークンエコノミクスとAIシステム設計を結びつける研究アジェンダを提示し,未解決問題を明確にする。
    • 本研究では,リアルタイム推論システムにおけるトークンエコノミクス原則の実装に伴う主要な計算上の課題を特定した。
    • 計算上の制約が,トークンエコノミクスの支配的な制約条件であり,粒度,リアルタイム性能,最適性の間にトレードオフが存在することを示した。
    • 「計算トークンエコノミクス」の概念と「トークンエコノミクスのジレンマ」を導入し,技術的課題を分類した。

    Link: https://arxiv.org/abs/2605.17410

  • 言語モデルにおける安全性除去:セキュリティ応用におけるアライメント除去のメカニズム [cs.CR, cs.AI]目的:言語モデルのアライメント除去メカニズムの評価
    • サイバーセキュリティの重要性が高まる中,言語モデルの活用が期待されている。
    • セキュリティ関連のタスクにおいて,安全性への配慮から意図しない拒否反応が生じることがある。
    • セキュリティ評価の曖昧さを解消し,言語モデルの安全な活用範囲を明確にすること。
    • アライメント除去を評価プロトコルとして捉え,認可されたセキュリティタスクにおける様々な手法を比較検討した。
    • 単一ベクトルの拒否投影ではセキュリティスコアの改善は限定的で,有害なコンプライアンスが増加した。
    • タスクのみに特化したLoRAはセキュリティスコアを大幅に向上させ,有害なコンプライアンスを抑制する効果が示された。

    Link: https://arxiv.org/abs/2605.17413

  • IVF-TQ:コードブック不要残差層によるストリーミングに強い近似最近傍探索 [cs.LG, cs.AI, cs.DB, cs.IR]目的:ストリーミングデータに対する近似最近傍探索における性能劣化の抑制
    • 大規模データセットの検索効率化は,様々な応用分野において不可欠である。
    • 従来のコードブックを用いたANNインデックスは,ストリーミングデータの継続的な取り込みにより性能が劣化しやすい。
    • コードブックを用いない残差層を導入することで,ストリーミング環境下での性能劣化を抑制する。
    • 提案手法IVF-TQは,ストリーミングDeep-10Mデータセットにおいて,IVF-PQと比較して性能劣化が少ないことを示した。
    • IVF-TQは,コードブックの再学習が不要であり,メモリ使用量に依存しない安定した性能を発揮する。
    • 分割のみを更新するAdaptive IVF-TQにより,最悪の場合でも高い検索性能を回復できることが確認された。

    Link: https://arxiv.org/abs/2605.17415

  • ミトス関連バグの再発見に関するベンチマーク評価 [cs.SE, cs.AI]目的:ミトスに関連するバグの再発見性能の評価
    • ソフトウェアの脆弱性発見は,システムの安全性と信頼性を高める上で不可欠である。
    • 既存の脆弱性発見手法では,特定のファイルやシステムに依存したバグの再発見が困難である。
    • 大規模言語モデルを用いたバグ再発見の有効性を検証し,その限界を明らかにする。
    • GPT-5.5 xhighは18回の試行中5回,Claude Opus 4.7は1回,Kimi K2は0回のターゲット再発見に成功した。
    • モデルは,正しいターゲットファイル内の代替候補に早期にコミットする傾向があり,ミトス修正証拠が示す特定の不変量を見逃すことが多かった。
    • この結果はAnthropicの非公開ワークフローを否定するものではないが,この有利な条件下では,システム固有のプロンプトでは54回の試行中に6回のターゲットマッチしか得られなかった。

    Link: https://arxiv.org/abs/2605.17416

  • 降雨予測の不確実性下における地すべり早期警戒のための変位ロバストな表現学習 [cs.LG, cs.AI]目的:地すべり早期警戒システムの信頼性向上
    • 気候変動により豪雨が増加し,地すべりリスクが世界的に高まっているため,早期警戒が重要である。
    • 既存の地すべり予測手法は,正確な降雨データに依存しており,予測の不確実性を考慮していない。
    • 降雨予測の変位誤差に強く,信頼性の高い地すべり予測モデルを開発することを目指す。
    • 提案手法は,降雨と地形データから,降雨変位に対して安定した潜在表現を学習する。
    • Rainfall-Motion-Aware Contrastive Learning (RMCL)を用いて,降雨駆動型時空間環境データストリームにおける予測誤差を模倣した。
    • 日本の19地域における実験で,最先端のベースラインと比較して,最大37%高い精度を達成した。

    Link: https://arxiv.org/abs/2605.17419

  • 可動性導入が来場者動線に与える影響を予測するヒューマンフローデジタルツイン [cs.CE, cs.MS, cs.MA, cs.LG]目的:可動性導入が来場者動線に与える影響の予測
    • 観光地運営において,来場者の動線把握と効果的な誘導は集客と満足度向上に不可欠である。
    • 従来の動線分析では,可動性導入のような変化に対する予測が困難であった。
    • 本研究は,可動性導入による動線変化を予測可能なモデルの構築を目指す。
    • 提案手法は,マルチエージェントシミュレーションを用いて,来場者の行動を再現する。
    • 和歌山城公園での実証実験において,可動性導入後の動線分布の空間的な類似度が0.7を超えた。
    • これにより,提案手法が可動性導入による動線変化を高い精度で再現できることが確認された。

    Link: https://arxiv.org/abs/2605.17426

  • 深層結合RND-PPOとドメイン優先ノイズ注入によるロバストな作物管理強化学習のための漸進的汎化拡張 [cs.LG, cs.AI]目的:作物のロバストな強化学習による管理手法の改良
    • 農業分野における精密農業の推進は,食糧生産の安定化と資源の効率的利用に不可欠である。
    • 従来の強化学習は,環境ノイズに弱く,実際の農業環境への適用が困難であるという課題がある。
    • 本研究は,環境変化に対するロバスト性を向上させ,実用的な農業強化学習システムを実現することを目的とする。
    • 提案手法は,フロリダにおいて最先端のBERT-DQNと比較して,8.43%の収量増加と16.42%の窒素利用効率の改善を示した。
    • サラゴサでは,収量において5.61%の改善が見られたものの,地中海性気候の過酷さにより経済スコアは3.67%低下した。
    • 複合摂動下での性能維持率は,94.4%に対し,従来の強化学習では80.0%であった。

    Link: https://arxiv.org/abs/2605.17428

  • ノイズラベル学習における信頼性のある更新診断のための放射状・角度的幾何学 [cs.LG, cs.CV]目的:ノイズラベル学習における更新の信頼性診断
    • 機械学習モデルの性能はラベルの質に大きく依存する。ノイズラベルは学習を阻害するため,その影響を軽減する技術が重要である。
    • 従来のノイズラベル検出手法は,損失や確信度といった前方空間の信号に依存し,更新の信頼性を直接評価できていない。
    • ラベル付き更新の診断を通じて,ノイズラベルの影響を正確に特定し,モデルの精度向上を目指す。
    • 提案手法であるRGCは,観測ラベル勾配とEMA教師によって誘導される基準勾配との間の競合を比較することで,信頼性の低い更新を識別する。
    • RGCは,ハードなクリーンサンプルと誤ラベルサンプルの区別を容易にし,クリーンサンプルの保持率と精度を向上させる。
    • 合成データセットと実際のデータセットにおける実験により,RGCの有効性が確認された。

    Link: https://arxiv.org/abs/2605.17429

  • MATE:累積遷移埋め込みの記憶を用いた文脈マルコフ決定過程の解法 [cs.LG, cs.AI]目的:文脈マルコフ決定過程に対する記憶アーキテクチャ
    • 強化学習は,環境との相互作用を通じて最適な行動を学習する手法であり,ロボティクス等に応用が期待される。
    • 文脈マルコフ決定過程は,観測できない文脈に依存するため,最適な行動決定が困難である。
    • 文脈の事後分布の近似により,効率的に最適な行動を決定することを試みる。
    • MATEは,事後分布の置換として累積メモリを用いることで,表現力を維持しつつ計算量を削減する。
    • TransformerやRNNと比較して,ステップごとの計算コストや勾配消失問題が軽減される。
    • 多様なベンチマークにおいて,標準的な系列モデルと同等の性能を示す。

    Link: https://arxiv.org/abs/2605.17431

  • DP-SelFT:大規模言語モデルに対する差分プライバシーを考慮した選択的ファインチューニング [cs.LG, cs.CR]目的:大規模言語モデルにおける差分プライバシーを保ちつつ,ユーティリティを向上させる選択的ファインチューニング手法
    • 大規模言語モデルは様々なタスクに応用されるが,学習データに含まれる個人情報の漏洩リスクが存在する。
    • 差分プライバシーは情報漏洩を防ぐが,大規模言語モデルへの適用では,精度低下が課題となっている。
    • 選択的ファインチューニングを通して,差分プライバシーを維持しつつ,ユーティリティの低下を抑制すること。
    • DP-SelFTは,合成データセットを用いてパラメータ選択を行うことで,プライバシーコストの重複を回避している。
    • 層レベルでの選択的ファインチューニングにより,ノイズの影響を受けにくいロバストな層サブセットを選択する。
    • ベンチマークタスクにおいて,既存の差分プライバシーファインチューニング手法と比較して,プライバシーとユーティリティのトレードオフを改善している。

    Link: https://arxiv.org/abs/2605.17432

  • 科学計算プログラムにおける変異関係の妥当性を評価する意味的変異指標 [cs.SE, cs.LG]目的:科学計算プログラムにおける変異関係の妥当性を評価するための意味的変異指標の開発
    • 科学計算は,現実世界の複雑な問題を解決するために不可欠であり,ソフトウェアの信頼性が特に重要である。
    • 従来の変異テストは,構文的な変異に焦点を当てており,ドメインの意味的側面を捉えられていないという課題がある。
    • 意味的変異指標によって,科学計算プログラムにおけるより効果的なテストと信頼性の向上を目指す。
    • 意味的変異指標(SMS)は,5つのドメイン意味的演算子に基づき,古典的な変異テストの範囲内で整合性のある結果を提供する。
    • 実験では,SMSの大きな効果の閾値は満たされなかったものの,中程度の効果が認められた。
    • LLMによって生成された変異と従来の構文的変異との間の重なりは小さく,SMSが新たな変異を捉える可能性が示唆された。

    Link: https://arxiv.org/abs/2605.17437

  • GUIエージェントによる信頼性のあるソフトウェア評価のための軌跡条件付き診断 [cs.SE, cs.AI]目的:LLM生成インタラクティブソフトウェアの信頼性評価における診断手法
    • LLMを活用したソフトウェア開発が活発化しており,その品質評価が重要となっている。
    • GUIを持つソフトウェアの評価は,単一の実行経路のみ観測でき,誤りの原因特定が困難である。
    • 評価エラーとソフトウェア欠陥の区別を明確にし,より正確なソフトウェア評価を実現する。
    • DiagEvalは,失敗した軌跡を再利用し,的を絞った診断プローブを選択することで,誤ったソフトウェア欠陥の特定を改善する。
    • WebDevJudge-UnitおよびRealDevBenchにおける実験により,DiagEvalは既存手法と比較して,45.6-62.1%の誤検出された欠陥を回復した。
    • 評価精度をWebDevJudge-Unitで69.9%から78.3%に,RealDevBenchで65.0%から81.6%に向上させた。

    Link: https://arxiv.org/abs/2605.17439

  • カタログ数を超えて:低リソース多言語NLPにおけるデータセット可視性の非対称性 [cs.CL, cs.AI, cs.IR]目的:低リソース多言語NLPにおけるデータセットの可視性に関する非対称性の実態解明
    • 多言語NLPの発展には,各言語のデータ資源量の正確な把握が不可欠である。
    • 既存のカタログは,データセットの登録状況のみを反映し,実際の利用状況を捉えきれていない。
    • カタログ情報と論文引用情報に基づき,データ資源の隠れた可視性を明らかにすること。
    • カタログ情報ではデータが少ないと見なされる言語でも,研究論文においてデータセットの活動が確認された。
    • Resource Density Index(RDI)の分析により,多くの言語でカタログに登録されているデータセットが極めて少ないことが示された。
    • データ不足は,単なるデータ生成の問題だけでなく,記録,発見可能性,長期的なアクセス可能性の問題でもあることが示唆された。

    Link: https://arxiv.org/abs/2605.17442

  • MemRepair:エージェントによるリポジトリレベル脆弱性修復のための階層型メモリ [cs.SE, cs.AI, cs.CL]目的:リポジトリレベルの脆弱性修復における,エージェントによる反復的・経験的プロセス
    • ソフトウェアエコシステムでは脆弱性が増加の一途をたどっており,自動修復技術の重要性が高まっている。
    • 既存のLLMベースのエージェントは,過去の修正や検証結果を再利用する仕組みが不十分である。
    • 本研究は,リポジトリ固有の修復パターンと過去の成功例を活用し,より信頼性の高い脆弱性修復を目指す。
    • MemRepairは,History-Fix,Security-Pattern,Refinement-Trajectoryという3層のメモリ構造を採用。
    • SEC-Bench,PatchEval,Multi-SWE-benchにおける評価で,最先端の修復率を達成した(58.0%, 58.2%, 30.58%)。
    • OpenHandsやSWE-agent,InfCode-C++などの既存手法を上回り,効率的な修復コストを維持している。

    Link: https://arxiv.org/abs/2605.17444

  • ホールスライドマルチプルインスタンス学習における空間盲目性 [cs.CV, cs.AI]目的:ホールスライドマルチプルインスタンス学習モデルの空間盲目性
    • 病理診断では組織構造が重要であり,画像全体を考慮した解析が不可欠である。
    • 既存モデルは空間情報を利用していると見せかけるが,実際には空間構造を無視した予測を行う場合がある。
    • 空間情報を活用し,より正確な病理診断を可能とするモデルを開発すること。
    • ResTopoMILは,座標をシャッフルしても性能が低下しない空間盲目性を克服する。
    • プロトタイプヒストグラムを固定化し,残差学習に軽量なグラフ構造を用いることで実現した。
    • 9つの公開WSIベンチマークにおいて,分類および生存予測の精度を向上させた。

    Link: https://arxiv.org/abs/2605.17449

  • ContraFix:差分実行証拠とスキル再利用によるエージェント脆弱性修復 [cs.SE, cs.AI, cs.CL, cs.CR]目的:脆弱性修復のためのエージェントフレームワーク
    • ソフトウェアの脆弱性は深刻な脅威であり,自動修復技術の重要性が高まっている。
    • 既存のエージェントは,根本原因の誤認により,現実世界の脆弱性修復に苦戦している。
    • 差分実行証拠とスキル再利用により,より正確な原因特定と効率的な修復を目指す。
    • ContraFixは,脆弱性の境界を特定するPoC生成,状態プローブによる差分分析,検証済みのパッチ生成を行う。
    • 修復成功事例は,修復仕様と変異戦略を含むスキルベースに蓄積され,再利用される。
    • SEC-BenchとPatchEvalにおいて,最先端の性能を達成し,既存の基盤と比較してコストを削減した。

    Link: https://arxiv.org/abs/2605.17450

  • 多者多目的最適化における合意探索:当事者間組換えの実行時間解析 [cs.AI]目的:多者多目的最適化問題における合意形成と,当事者間組換えの実行時間
    • 多者間での意思決定が必要な問題への対応が求められており,現実世界の複雑な課題解決に不可欠である。
    • 既存の多目的最適化の理論は単一の主体を対象としており,複数主体間の共通解探索を十分に説明できない。
    • 当事者間組換えの効率性を示し,共通解探索のボトルネックを特定し,実行時間解析を行う。
    • MP-JCG問題において,報酬誘導変異法は\( \Theta(n^2) \)の評価回数が必要となるボトルネックが存在することが証明された。
    • 一方,解析的CPR-NSGA-II変種は,\(O(n\log n)\)で共通パレート最適解を発見し,当事者間組換えの有効性を示した。
    • BPBOMST問題では,補助的な二目的MSTインスタンスの解析を通じて,\(2\lambda\)共通近似被覆が\( \lambda\in[1,2] \)で得られることが示された。

    Link: https://arxiv.org/abs/2605.17454

  • GCE-MIL:ホールスライド画像における複数インスタンス学習のための信頼性と再現性のあるエビデンス [cs.CV, cs.AI]目的:複数インスタンス学習におけるエビデンスの質向上
    • 病理画像解析は,診断精度向上や個別化医療の実現に不可欠であり,近年重要性が増している。
    • 既存のMILモデルでは,注意機構が分類精度に最適化されており,診断を裏付けるエビデンスとして適切でない場合がある。
    • 分類とエビデンスの質の最適化を分離し,信頼性・必要性・再現性の高いエビデンス抽出を目指す。
    • GCE-MILは,9つのバックボーンと9つのデータセットでMacro-F1を平均0.024,C-indexを0.014向上させた。
    • 連続的な注意スコアと離散的なパッチ部分集合の乖離を4-7%縮小し,補完劣化を2-4%増加させた。
    • オプションのタイルプレフィルタリングにより,推論速度を最大5倍向上させつつ,full-bag utilityを0.989を維持した。

    Link: https://arxiv.org/abs/2605.17456

  • ClaHF:分類タスク改善のための人間フィードバックに着想を得た強化学習フレームワーク [cs.LG]目的:テキスト分類の性能および信頼性校正の向上
    • テキスト分類は自然言語処理の基盤技術であり,様々な応用分野で重要である。
    • 教師あり学習は,インスタンスごとのラベルに依存するため,サンプル間の相対的な選好関係を捉えきれない。
    • 人間のフィードバックに着想を得た強化学習を用いて,より高度な選好モデリングを行うことで,その問題を解決する。
    • ClaHFは,候補予測とその相対的な順位関係を構築し,報酬モデル内でTop-1の選好と非最適な候補間の順序を共同でモデル化する。
    • これにより,従来のラベルによる教師あり学習を,ポリシー最適化に直接適用可能な選好シグナルに変換する。
    • 8つの分類タスクにおける評価により,ClaHFが多様な言語モデルにおいて,分類性能と信頼性校正を一貫して向上させることが示された。

    Link: https://arxiv.org/abs/2605.17458

  • 求職者の表情と頭部運動から,AIが人間面接官よりも正確に売上や嘘を見抜く [cs.HC, cs.AI, cs.CY]目的:求職者の表情と頭部運動の分析による,正直さと欺瞞の識別
    • 採用活動において,応募者の誠実さを判断することは重要である。
    • 人間の面接官による判断は主観的であり,誤りが生じる可能性がある。
    • AIによる客観的な評価手法を確立し,採用の精度向上を目指す。
    • AIモデルは,求職者の正直さと欺瞞に関する自己申告データと高い相関を示した。
    • AIモデルは,人間の面接官よりも高い精度で自己管理印象を予測できた。
    • AIモデルは,正直な自己管理印象の91%,欺瞞的な自己管理印象の84%の分散を説明した。

    Link: https://arxiv.org/abs/2605.17461

  • TriOpt:線形因果探索のためのスケーラブルなアルゴリズム [cs.HC, cs.CY, cs.LG]目的:線形因果探索のスケーラビリティ向上
    • 観測データからの因果関係学習は,変数の数が増えるにつれて計算量が指数関数的に増加する。
    • 既存手法では,高次元データに対するスケーラビリティが課題であり,実用性が制限されている。
    • 既存手法の利点を統合し,高次元データにおける効率的な因果探索を実現すること。
    • TriOptは,Sherman-Morrisonの公式と線形カーネルの加法構造を利用し,高速なトポロジカル順序推定を可能にする。
    • トポロジカル順序が与えられた場合,TriOptはコストのかかる非巡回制約なしに,凸連続最適化問題として構造学習を再定式化する。
    • 実験的に,TriOptは合成データ,半合成データ,実データにおいて,最先端の線形因果探索手法と比較して,大幅な高速化と同等以上の精度を達成する。

    Link: https://arxiv.org/abs/2605.17465

  • 非同期プレゼンテーション訓練における多Modal感情フィードバックのための解釈可能な閉ループ型インテリジェントチュータリングシステム [cs.CL, cs.HC, cs.AI]目的:プレゼンテーション能力の向上を支援するインテリジェントチュータリングシステムの開発
    • プレゼンテーションスキルは,教育,ビジネス,コミュニケーションにおいて不可欠であり,効果的な訓練手法が求められている。
    • 従来のプレゼンテーション訓練は,主観的評価に頼ることが多く,客観的で個別化されたフィードバックが不足している。
    • 本研究は,客観的な多Modal分析に基づき,解釈可能なフィードバックを提供することで,プレゼンテーション能力の向上を目指す。
    • 本システムは,表情,音声,テキスト,視線などの多Modalデータを活用し,客観的な評価指標と専門家の評価との高い一致性を示した。
    • 30日間の練習期間において,参加者は全ての評価項目において有意な改善が見られ,練習頻度と成績向上との間に強い正の相関関係が認められた。
    • 多Modal分析の結果を可視化することで,学習者は自身の行動を改善し,パフォーマンス向上につなげることが可能となった。

    Link: https://arxiv.org/abs/2605.17468

  • WinQ:言語モデルの量子化対応学習における鞍点周辺の高速化 [cs.LG, cs.NA, math.NA]目的:言語モデルの量子化対応学習の高速化
    • 近年,大規模言語モデルの効率的な推論が重要であり,量子化はその有力な手法である。
    • 量子化対応学習では,低ビット幅における収束の遅延と性能の停滞が課題となっている。
    • 損失表面のヘッセ行列のスペクトル解析に基づき,鞍点周辺の学習を改善する手法を提案する。
    • 提案手法WinQは,重みを定期的にフル精度と量子化重みの線形補間へリセットすることで,量子化格子への距離を縮小し,ヘッセ行列の固有値の大きさを増大させる。
    • また,WinQはノイズ注入された重みの勾配を計算することでヘッセ行列を正則化し,学習を促進する。
    • 実験結果から,WinQは様々な量子化手法とモデルにおいて,量子化対応学習を最大4倍に高速化し,低ビット量子化性能を最大8.8%向上させることを確認した。

    Link: https://arxiv.org/abs/2605.17471

  • 能力のパラドックス:より賢い監査人がマルチエージェントシステムをより安全でないものにする方法 [cs.AI]目的:マルチエージェントシステムにおけるセキュリティ脆弱性の存在とその原因の解明
    • 大規模言語モデルの応用範囲拡大に伴い,マルチエージェントシステムの重要性が高まっている。
    • マルチエージェントシステムでは,分散型の意思決定プロセスが新たな攻撃対象領域を生み出している。
    • 能力の高いエージェントがシステム全体のセキュリティを低下させるという逆説的現象の解決を目指す。
    • 能力の高いWorkerは,敵対的な記述を正当なものと判断し,Managerに自信を持って伝達し,実行を促す傾向があることが示された。
    • この現象は「言語的確実性」によって駆動されており,確実性が実行への影響の74%を媒介することが明らかになった。
    • 非対称なドメイン能力を持つWorkerを組み合わせることで,確実性から実行への連鎖を断ち切り,攻撃成功率を大幅に削減できることが示された。

    Link: https://arxiv.org/abs/2605.17480