arXiv雑要約

AI - 2026/05/29 公開

  • 動的グラフにおける時間的・構造的適応の統合:忘却を抑制し,汎化性能を高める [cs.LG, cs.AI]目的:動的グラフにおける表現学習の課題解決
    • グラフ構造が時間と共に変化する現実世界のデータ分析において,その重要性が増している。
    • 既存手法は,時間減衰や構造伝播の深さを固定しており,多様なグラフへの対応が難しい。
    • 時間的記憶と構造的文脈を統合的に捉え,汎化性能の高いモデルを開発すること。
    • 提案手法DSRDは,時間的ダイナミクスと構造伝播を単一の再帰的定式で統合的にモデル化する。
    • DSRDは,学習可能な時間感受性パラメータを持つ適応的減衰カーネルにより,短期的な応答性と長期的な保持のバランスを自動的に調整する。
    • 14の実世界ベンチマークにおいて,リンク予測とノード分類の両タスクで最先端の性能を達成し,高い汎化性を示した。

    Link: https://arxiv.org/abs/2605.29453

  • 機械学習におけるメンバーシップ推論攻撃の評価のためのフルパイプラインフレームワーク [cs.LG]目的:機械学習パイプライン全体にわたるプライバシーリスクの体系的な評価
    • 機械学習の普及に伴い,プライバシー保護の重要性が増しているため。
    • メンバーシップ推論攻撃(MIA)の有効性は状況によって異なり,評価方法が確立されていない。
    • 実世界のデータセットにおけるMIAの有効性を評価し,プライバシー評価のガイドラインを提供する。
    • 提案フレームワークは,データ,アーキテクチャ,アルゴリズム,後処理モジュールなど,機械学習パイプライン全体を網羅する。
    • MIAの有効性は,想定される脅威モデルと選択された評価指標に大きく左右されることが示された。
    • 実践者がより適切なプライバシー評価を行うための,ガイドラインと監査ツールキットが提供される。

    Link: https://arxiv.org/abs/2605.29454

  • LLMにおけるペルソナシミュレーションのための適応型面接:根拠に基づいた推論が意思決定の整合性を高める [cs.CL, cs.AI]目的:LLMにおける特定の個人の意思決定シミュレーションの精度向上
    • LLMの応用範囲拡大には,人間らしい多様な意思決定の再現が不可欠である。
    • 従来のペルソナ情報は静的な記述に留まり,個人の価値観や経験の反映が不十分である。
    • 面接を通じて得られた個別情報をLLMに活用し,より正確な意思決定シミュレーションを実現する。
    • 適応型面接は,精度を一律に向上させるのではなく,選択的な根拠付けメカニズムとして機能する。
    • 面接中の追加質問から得られた根拠に基づいた予測は,コア質問のみの予測よりも高い精度を示す。
    • 豊かなペルソナ情報だけでは不十分であり,モデルがユーザー固有の根拠に基づいて意思決定することが重要である。

    Link: https://arxiv.org/abs/2605.29458

  • クロネッカー埋め込み:パラメータ効率の良い言語モデルのためのバイトレベル構造化トークン表現 [cs.CL, cs.LG]目的:パラメータ効率の良い言語モデルを実現するための,バイトレベルの構造化トークン表現
    • 大規模言語モデルの性能向上には,莫大なパラメータが必要であり,計算コストが課題となっている。
    • 従来の埋め込みテーブルは,語彙サイズに比例してパラメータ数が増加するという問題を抱えている。
    • 埋め込みテーブルを削減し,パラメータ効率を向上させることで,計算コストの削減を目指す。
    • クロネッカー埋め込みは,従来の埋め込みテーブルを固定エンコーダと学習可能な射影に置き換えることで,パラメータ数を91~94%削減できる。
    • nanoGPT GPT-2 124Mを用いた実験では,クロネッカー埋め込みはBPEベースラインよりも2.5±0.2%低い検証損失を達成した。
    • スペルミスに対するロバスト性評価では,クロネッカー埋め込みはBPEよりも上位1位の予測を55.5%のペアで保持し,KLダイバージェンスも低下させた。

    Link: https://arxiv.org/abs/2605.29459

  • CFMMEベンチマーク:中国金融マルチモーダル評価データセットによる大規模視覚言語モデルの性能評価 [cs.CV, cs.AI]目的:大規模視覚言語モデルの中国金融分野における認識,理解,推論,認知能力の包括的評価
    • 近年,画像とテキストの両方を処理できる大規模言語モデルが進化し,金融を含む様々な分野での応用が期待される。
    • 既存の評価データセットでは,中国金融分野に特化したマルチモーダルな評価が不十分である。
    • 中国金融分野におけるマルチモーダルタスクの性能向上を目指し,モデル開発を促進する。
    • CFMMEベンチマークを用いて代表的な大規模視覚言語モデルを評価した結果,全体的な正答率は66.11%であった。
    • 検出,認識,情報抽出タスクの平均スコアは77.18であり,現状のモデルには改善の余地があることが示唆された。
    • エラー原因,クロスモーダル能力,多角的設定に関する詳細な分析から,今後の研究への示唆を得られた。

    Link: https://arxiv.org/abs/2605.29462

  • 正直な嘘:自己反省型エージェントにおける記憶捏造の理解 [cs.LG, cs.AI]目的:自己反省型エージェントにおける記憶捏造現象
    • 自己反省型エージェントは,その能力向上に不可欠であり,AIの自律性向上に貢献する。
    • エージェントが自己診断の誤りを繰り返し,誤った記憶に固執する問題が存在する。
    • エージェントの記憶捏造を特定し,その対策を講じることで,より信頼性の高いAIを目指す。
    • 自己反省型エージェントは,タスクの誤った解釈を自信を持って記憶し,繰り返し利用することがある。
    • 記憶捏造の検出指標であるReflection Repetition Rate(RRR)を用いることで,問題を抱える環境を特定した。
    • 環境からの明示的な失敗信号に基づく改善策により,記憶捏造を大幅に軽減し,タスク解決率を向上させた。

    Link: https://arxiv.org/abs/2605.29463

  • 閉形式変分推論を用いた非共役因子グラフの構築 [cs.LG, cs.AI]目的:閉形式変分推論を維持しつつ,確率的構成要素をより深い構造に積み重ねること
    • 深層確率モデルの推論は重要である。しかし,複雑化により閉形式推論が困難になることが多い。
    • 深層アーキテクチャでは,閉形式推論が破綻し,近似推論に頼らざるを得ないという課題がある。
    • 閉形式変分推論を維持できるような,確率的構成要素の組み合わせを特定し,深層モデルの構築を可能にすること。
    • 特定の因子グラフ素子(二項因子,指数リンク,ガンマ事前分布,ガウス尤度,等価ノード)の組み合わせは,閉形式変分推論を可能にする。
    • このフレームワークは,静的アンサンブルから入力依存型ゲート,スプリットブランチルーティングまで,様々な深さでの組み合わせを可能にする。
    • 時系列予測に適用した結果,専門家選択に対する不確実性を適切に捉えたベイズ混合エキスパートが得られた。

    Link: https://arxiv.org/abs/2605.29467

  • SciIntBench:敵対的フレーミング下でのLLMの研究倫理遵守度測定 [cs.CR, cs.AI]目的:LLMの研究倫理遵守度
    • 科学研究におけるLLM利用が増加しており,その倫理的影響を評価する必要がある。
    • LLMが研究倫理を遵守するか,または侵害するかの判断が困難である。
    • 敵対的な状況下におけるLLMの倫理的判断能力を評価し,改善点を見出す。
    • LLMは,露骨な不正行為の拒否反応は比較的高いが,隠れた不正行為に対しては判断が甘い傾向がある。
    • 特に,不正行為が圧力による近道として提示された場合,拒否反応が著しく低下する。
    • 透明性,盗用,捏造といった研究倫理のカテゴリーにおいて,LLMの境界線が曖昧である。

    Link: https://arxiv.org/abs/2605.29468

  • 情報提供,コーチング,共感,傾聴:LLMによる介護支援役割の監査 [cs.HC, cs.AI, cs.CL, cs.CY, cs.SI]目的:LLM介護支援における役割ごとの安全性評価
    • 高齢化社会において,LLMを用いた介護支援の重要性が高まっている。
    • 既存の安全性評価は一般的なプロンプトに偏っており,役割に応じた安全性変化が不明である。
    • 介護支援におけるLLMの役割別に安全性を評価し,より安全な対話支援を目指す。
    • LLMの支援役割は,対話上のリスクの発生率と構成に系統的な影響を与えることが判明した。
    • 指示的な役割は有用性・信頼性が高いと評価される一方,対話上のリスクも高くなる傾向が見られた。
    • 約9万件の役割に応じた応答とリスク注釈を公開し,研究資源として提供する。

    Link: https://arxiv.org/abs/2605.29473

  • MOOSE-Copilot:統一的な探索的・詳細な科学的仮説発見のためのWebベース対話型アシスタント [cs.CL, cs.AI, cs.CE, cs.HC]目的:科学的仮説発見の統一的フレームワーク
    • 科学研究の加速には,新たな仮説創出と既存仮説の精密化が不可欠である。
    • 既存手法は,探索的思考と精密化を分離し,人間の介入が少ないという課題がある。
    • 人間とAIの協調による仮説発見の効率化と,研究者の利用障壁の低減を目指す。
    • MOOSE-Copilotは,初期設計,段階的ルーティング,再生成フィードバックにより,研究者が生成プロセスを制御可能にする。
    • 構造化された専門家からの信号注入が,自律型ベースラインを大きく上回り,性能上限を確立した。
    • 直感的なWebインターフェースにより,コマンドラインツールに不慣れな研究者でも容易に利用できる。

    Link: https://arxiv.org/abs/2605.29475

  • 真多値OneMax関数におけるコンパクト遺伝的アルゴリズムの実行時間解析 [cs.CL, cs.NE]目的:真多値OneMax関数上のコンパクト遺伝的アルゴリズムの実行時間解析
    • 多値最適化問題は,現実世界の様々な問題をモデル化する上で重要である。
    • 既存の解析は二値近似可能な関数に限定されており,真多値関数への適用が課題であった。
    • 真多値関数に依存するコンパクト遺伝的アルゴリズムの実行時間解析を改善し,理論的な限界に迫る。
    • 実行時間の上限を,AdakとWittの結果から$\textrm{O}\bigl(n r^3 \log^2( n)\log (r)\bigr)$から$\textrm{O}\bigl(n r \log^3(n)\log^3(r)\bigr)$へと改善した。
    • この結果は,二値近似可能な$r$値OneMax関数の既存の上界と,多項式対数因子を除いて一致する。
    • 高自己ループ確率を持つ過程に対する改良されたドリフト定理と,多値頻度行列における確率質量移動の解析に貢献した。

    Link: https://arxiv.org/abs/2605.29477

  • 企業倒産予測モデルからの進化規則抽出 [cs.NE, cs.AI]目的:中小企業の倒産予測要因の解明と,説明可能なAI技術を用いた解釈性の向上
    • 経済の大部分を占める中小企業は,財務制約や経営リスクに弱いため,倒産予測は重要である。
    • 機械学習モデルの予測精度は向上しているが,複雑さゆえに透明性や規制遵守への懸念がある。
    • 機械学習と進化規則抽出を組み合わせ,予測精度と解釈性の両立を目指す。
    • 機械学習モデルは,従来のロジスティック回帰よりも,Balanced AccuracyとPR-AUCにおいて有意に高い予測性能を示した。
    • 新開発のDEXiRE-EVOフレームワークにより,中小企業の財務状況と倒産リスクを結びつける経済的に意味のある規則が抽出された。
    • 内部流動性の低さ,資本の減少,高いレバレッジ,業務効率の悪化などが倒産リスクを高める要因として明らかになった。

    Link: https://arxiv.org/abs/2605.29478

  • VitalAgent:ウェアラブルヘルスデータを用いた反応的・予測的生理学的モニタリングのためのツール拡張エージェント [cs.AI]目的:ウェアラブルヘルスデータを用いた生理学的モニタリングにおける反応的質疑応答と予測的モニタリングの実現
    • ウェアラブルデバイスの普及により,心電図や光血積波形などの生理信号の継続的なモニタリングが可能となった。
    • 既存のmHealthシステムは,特定のタスクに限定された予測や静的な要約に基づく応答に留まり,長期的な信号ストリームにおける時間的推論や文脈の維持が困難である。
    • 本研究は,動的なツール利用と長期的な生理学的モニタリングの重要性を明らかにし,より高度なヘルスケアを可能にする。
    • VitalAgentは,生理学的記憶とツール拡張型推論インターフェースを基盤とし,反応的質疑応答と予測的モニタリングの両方をサポートする。
    • 実験の結果,VitalAgentは,反応的評価においてプロンプトベースやReActのベースラインと比較して30%以上の性能向上を達成した。
    • VitalAgentは,長期的な生理信号に対して予測的なアラートモニタリングを可能にし,動的なツール利用と長期モニタリングの有効性を示した。

    Link: https://arxiv.org/abs/2605.29483

  • PhoneWorld:スマートフォン利用エージェント環境の拡張 [cs.HC, cs.CL, cs.AI, cs.LG]目的:スマートフォン利用エージェント環境の構築と拡張
    • スマートフォン利用エージェントは,日常生活において重要な役割を担うため,その開発が不可欠である。
    • 大規模なスマートフォン利用環境の構築は難しく,再現性も担保が困難である。
    • 現実のGUI操作記録から,制御可能な環境を効率的に生成し,エージェントの学習を促進すること。
    • PhoneWorldは,実際のGUI操作記録とスクリーンショットを活用し,スマートフォン利用環境を構築するパイプラインである。
    • PhoneWorldを用いた学習により,既存のAndroidベースラインの評価指標が全体的に向上した。
    • PhoneWorldの適用範囲拡大と学習データの増加が,更なる性能向上に繋がることを示した。

    Link: https://arxiv.org/abs/2605.29486

  • AnyMo:マスクモデリングを用いたあらゆるモダリティ条件付きモーション生成のスケーリング [cs.CV, cs.AI]目的:あらゆるモダリティ条件付きモーション生成のスケール拡大
    • 視覚とロボティクスにおいて,条件付きの人間モーション生成は重要な課題である。
    • 既存手法は固定されたモダリティ構成に制約され,汎化性能が低い。
    • 多様な制御信号に対応可能な汎用的なモーション生成モデルの実現。
    • AnyMoは,残差FSQベースのモーショントークナイザーとスケーラブルなマスクモデリングTransformerを組み合わせた統一フレームワークである。
    • 大規模データセットOmniHuMoを活用することで,任意のモダリティ組み合わせ下での高品質なモーション合成が可能となった。
    • 実験により,AnyMoが空間的・様式的な属性の両方を柔軟に制御しながら,高忠実度な合成を実現することが示された。

    Link: https://arxiv.org/abs/2605.29488

  • アクセスセットが重要:スケーラブルな重み空間モデルのマージのための専門家読み込み予算 [cs.LG, cs.SY, eess.SY]目的:大規模言語モデルのマージにおける専門家重みの読み込み予算
    • 大規模言語モデルの発展に伴い,モデルサイズが巨大化し,計算資源の効率的な利用が重要になっている。
    • モデルマージにおいて,全重みを読み込むことはボトルネックとなり,効率的な手法が求められている。
    • 読み込み予算内で,どの専門家の重みブロックにアクセスするかを最適化し,マージの効率化を図る。
    • MergePipeは,読み込みI/Oを最大で1桁削減し,最大で11倍の高速化を実現した。
    • 固定係数加算演算子において,省略された更新による誤差は省略されたデルタのノルムによって制限される。
    • 予算スイープの結果,完全な読み込みマージからのパラメータ逸脱はO(10^{-3})程度であり,下流のベンチマークで単調な性能劣化は見られなかった。

    Link: https://arxiv.org/abs/2605.29489

  • 有害な親切心:DistractionIFによる注意散漫な指示に対するロバスト性の逆スケール則 [cs.AI]目的:注意散漫な指示を含む参照テキストに対する大規模言語モデルのロバスト性
    • 大規模言語モデルはエージェントやRAGシステムで活用され,外部参照テキストを用いたタスク遂行が求められる。
    • 参照テキストには,編集コメントやシステムログなどの指示に似たノイズが含まれることが多く,誤った指示解釈を引き起こす。
    • ノイズを指示として誤解する傾向を抑制し,参照テキストに依存したタスクにおける指示追従のロバスト性を向上させる。
    • モデルの規模が大きくなるにつれて,注意散漫な指示に対するロバスト性が低下する逆スケール則が確認された。
    • perplexity分析により,モデル規模の拡大が,ロバストな行動と注意散漫な行動の確率的境界を曖昧にすることが示された。
    • 強化学習(GRPO)を用いることで,この境界を回復し,指示追従能力を損なわずにロバスト性を最大15.5%向上させることができた。

    Link: https://arxiv.org/abs/2605.29491

  • 生成AIと連邦民事自己代理の急増:新たな素人原告 [cs.CY, cs.AI]目的:生成AIツールの普及に伴う連邦民事訴訟における自己代理原告の増加とその変化の分析
    • 司法へのアクセスは,公正な社会を維持する上で不可欠である。しかし,法的サービスの利用にはコストがかかる。
    • 自己代理の原告は,法的知識や手続きに不慣れなため,不利な立場に陥りやすい。
    • 生成AIが司法に及ぼす影響を評価し,司法アクセスの課題に対処するための対策を検討する。
    • 生成AIの普及後,連邦民事訴訟における自己代理原告の割合が11.33%から16.94%に増加した。
    • AIによる起草と推定される訴状は,引用が多く,初出訴えの原告に多く,地域的に偏りが見られた。
    • AIが起草した可能性のある訴状は,却下される可能性が高く,手続きの初期段階で終結する傾向にある。

    Link: https://arxiv.org/abs/2605.29493

  • 勾配摂動:適応的学習のための勾配摂動学習 [cs.LG]目的:勾配摂動の統一的枠組みと,それを用いた適応的学習手法
    • 深層学習の性能向上には,効果的な最適化手法が不可欠である。
    • 既存手法では,勾配の摂動が十分に活用されていない。
    • クラスレベルでの勾配摂動を学習することで,汎化性能を向上させる。
    • 勾配摂動を統一的に捉え,既存手法をその特殊ケースとして解釈する枠組みを提案した。
    • 勾配ノルムの増幅が学習を促進し,減衰が過学習を抑制するという仮説に基づき,LPGを開発した。
    • LPGは,様々な分類タスクにおいて既存手法を上回り,汎用性の高さを示した。

    Link: https://arxiv.org/abs/2605.29494

  • 継続的な教師ありファインチューニングのためのオンポリシーリプレイ [cs.LG]目的:継続学習におけるキャタストロフィック・フォゲッティングの軽減
    • 大規模言語モデルの応用範囲拡大には,新しいタスクへの適応が不可欠である。
    • 従来の継続学習手法では,過去の能力を忘れてしまう「キャタストロフィック・フォゲッティング」が課題となる。
    • オンポリシーリプレイは,モデル自身の出力を活用し,より安定的にフォゲッティングを抑制する。
    • 提案手法であるオンポリシーリプレイ(OPR)は,過去のプロンプトに対するモデルの生成結果をフィルタリングし,リプレイデータとして活用する。
    • OPRは,教師モデルや補助的な損失関数を必要とせず,既存のVanilla Replayよりも大幅にフォゲッティングを軽減する。
    • 複数の大規模言語モデルで,TRACEベンチマークにおいて,OPRはVanilla Replayと比較して,BWTの絶対値を最大46%削減することを確認した。

    Link: https://arxiv.org/abs/2605.29495

  • 単一指数モデル損失関数の凸盆地:強固な敵対的破損に対するロバストな回復への応用 [cs.LG]目的:重い裾を持つノイズと敵対的に破損された共変量および応答が存在する場合における,ガウス単一指数モデルのロバストな学習
    • 機械学習において,データ汚染に対するロバスト性はモデルの信頼性を確保する上で不可欠である。
    • 非単調なリンク関数を持つ単一指数モデルに対するロバストな回復保証はこれまで存在しなかった。
    • 非単調なリンク関数を持つ広範な非線形単一指数モデルに対して,初めてロバストな回復保証を提供する。
    • 敵対的汚染下でも,真の値の周囲に次元に依存しない一定半径の凸盆地が存在することを証明した。
    • ロバストなスペクトル初期化により,この凸盆地へ効率的に到達可能である。
    • 提案手法は,$\tilde{O}(nd)$時間,$\tilde{O}(d)$サンプルで$O(\sigma\sqrt{\epsilon})$の最終推定誤差に収束する。

    Link: https://arxiv.org/abs/2605.29497

  • オフポリシー評価のための商DAG:前方フロー重要サンプリングと正確なスレート傾向 [cs.LG, cs.AI]目的:オフポリシー評価における性能向上
    • オンラインテストが困難な場面で,既存データによる性能評価が不可欠である。
    • 標準的な重要サンプリングは,評価対象に無関係な生成過程の詳細に影響を受ける。
    • スレート推薦における正確な無順序スレート傾向を効率的に計算すること。
    • 商DAGの視点と前方フロー重要サンプリングにより,無順序スレート傾向を正確に計算可能になった。
    • Forward-DPという部分DAG動的計画法を導入し,計算量を削減した。
    • 文脈依存型自己回帰スレートロガーに対する実用的な性能評価とモデル選択を可能にした。

    Link: https://arxiv.org/abs/2605.29500

  • 低リソースターゲット言語生成のためのソースに基づく意味的強化学習 [cs.CL, cs.AI]目的:低リソースターゲット言語生成における意味的根拠の強化
    • 機械翻訳の発展には,多様な言語への対応が不可欠である。特に,データが少ない言語への対応は重要な課題。
    • 低リソース言語の機械翻訳では,並行コーパスの不足が性能低下の主要因となっている。
    • 豊富なソース言語のモノリンガルデータを活用し,ターゲット言語生成の質を向上させることを目指す。
    • 提案手法SG-SRLは,ソース言語のモノリンガルデータからクロスリンガルな意味的教師信号を生成し,ターゲット言語生成に利用する。
    • SG-SRLは,ソース言語データに対する参照なしの強化学習を行い,ソース入力とターゲット言語生成間の意味的関連性を評価する。
    • 実験結果から,SG-SRLはコールドスタートSFTと比較して,意味的根拠と事実のカバレッジを向上させることが示された。

    Link: https://arxiv.org/abs/2605.29502

  • 密な検索におけるメカニズムの説明 [cs.DC, cs.AI, cs.IR]目的:密な検索における関連度スコアの根拠
    • 情報検索の精度向上は,知識発見や意思決定の基盤となるため重要である。
    • 密な検索では,高次元の埋め込み表現が不透明であり,判断根拠の説明が困難である。
    • 埋め込みレベルでのメカニズムを解明し,検索判断の根拠を明確にすること。
    • Xetrievalは,埋め込み空間でChain-of-Thought推論を近似する軽量な推論内包化モジュールを導入した。
    • これにより,埋め込み表現が推論情報で強化され,人間が解釈可能な疎な特徴量に分解される。
    • 実験の結果,Xetrievalは一貫性のある解釈可能な特徴量を明らかにし,タスクレベルでの特徴量制御を可能にした。

    Link: https://arxiv.org/abs/2605.29507

  • DynaGraph:動的トポロジー再構成による軽量マルチモデル相互作用フレームワーク [cs.MA, cs.CL, cs.LG]目的:複雑な推論タスクにおける計算冗長性の問題解決
    • 複雑な推論は大規模言語モデルに依存するが,計算コストが高い
    • 静的な構造はエラーに弱く,動的な構造は制御が難しい
    • 動的トポロジー再構成により,効率的かつ堅牢な推論を実現する
    • DynaGraphは,共有ベースモデル上で時間分割PEFTアダプタを多重化することで,単一のコンシューマーグレードGPUでの学習と推論を可能にする。
    • 実行中の信頼度を監視し,局所的なデータギャップに対する微調整と,論理的な断絶に対するサブグラフ再構成を行う自己修復メカニズムを備える。
    • StrategyQA,MATH,FinQAにおける実験で,72Bモデルに匹敵する性能を示し,レイテンシとトークン消費量を大幅に削減した。

    Link: https://arxiv.org/abs/2605.29511

  • MINDGAMES:マルチエージェントLLMにおける社会的・戦略的推論を評価するためのライブアリーナ [cs.AI]目的:マルチエージェントLLMにおける社会的・戦略的推論能力の評価
    • LLMを対話的エージェントとして活用する場面が増加しており,その能力評価が重要である。
    • 既存の評価方法では,長期的な相互作用における多面的な推論能力を捉えきれない。
    • 隠れた情報下での信念帰属,相手モデルの構築,欺瞞など,より高度な推論能力を評価する。
    • Mindgamesは,4つのゲーム環境(Colonel Blotto,Iterated Prisoner's Dilemma,Codenames,Secret Mafia)を含む評価プラットフォームである。
    • 分析の結果,ルール遵守の脆弱性や構造への依存が課題として浮き彫りになった。
    • Secret Mafiaでは,相手のミスへの耐性が戦略的能力よりも高く評価される傾向が見られた。

    Link: https://arxiv.org/abs/2605.29512

  • 自律走行車のネットワーク最適化:課題と将来展望 [cs.IR, cs.NI, cs.AI]目的:自律走行車のネットワーク最適化に関する包括的なレビュー
    • 都市化や人口増加に伴い,コネクテッド・オートノマスビークル(CAV)産業が急速に発展しているため。
    • CAVに対する誤解や過度な期待が存在し,現実的な課題の理解が不足している。
    • CAVのネットワーク最適化における課題を明確にし,将来的な発展の方向性を示す。
    • 本研究は,協調型知覚などの学際的な手法を用いて,CAVのネットワーク最適化に関する包括的なレビューを提供した。
    • CAVに関する経験と知見を共有し,具体的なユースケースと実験結果を提示した。
    • CAVに対する誤解を解消し,将来的な発展の可能性を示すことで,より現実的な技術開発を促進する。

    Link: https://arxiv.org/abs/2605.29518

  • DeepSurvey:自動調査生成における分析深度と引用信頼性の向上 [cs.AI]目的:自動調査生成の分析深度と引用信頼性の向上
    • 科学文献の急増に伴い,AI研究者や研究者にとって自動調査生成は不可欠な能力である。
    • 既存システムは,抄録への依存と単独の論文処理により分析深度が限定的であり,不正確な検索と事後的な根拠付けから信頼性の低い引用が生成される。
    • DeepSurveyは,論文全文からの構造化された要点の抽出,論文間の関係のモデリング,コードリポジトリ分析により,分析深度と引用信頼性の問題を解決する。
    • DeepSurveyは,コンテンツスコア(8.644/10)と引用品質(リコール12.3%・適合率9.3%の改善)において,最も高い性能を達成した。
    • 分野横断的な汎化性能に優れ,CS分野から非CS分野への性能低下が少ない(0.14 vs 0.22 to 0.69 CS-to-non-CS drop)。
    • ドメイン専門家による評価において,DeepSurveyは人間が作成した調査よりも好まれる(全体品質83.3%,コンテンツ深度100%)。

    Link: https://arxiv.org/abs/2605.29522

  • K-FinHallu:韓国金融におけるマルチターンRAGのハルシネーション検出ベンチマーク [cs.LG]目的:韓国金融におけるマルチターンRAGにおけるハルシネーション検出のベンチマーク
    • 金融自動化は重要であり,LLMはRAGによってその進歩を促している。
    • 既存のベンチマークは単一ターン,英語中心であり,韓国金融特有の課題に対応できていない。
    • 韓国金融RAGにおけるハルシネーション検出の評価基準を確立し,モデルの性能向上を目指す。
    • K-FinHalluは,実際の韓国金融文書から作成されたマルチターン対話と,コンテキスト回答可能性に基づくハルシネーション注入を含む。
    • 最先端モデルを含む様々なLLMを評価した結果,金融診断や拒否行動において課題が残ることが判明した。
    • 8Bモデルのファインチューニングは,最先端モデルと同等の性能を示したが,正当な棄権が依然として弱点である。

    Link: https://arxiv.org/abs/2605.29523

  • KBF:言語モデルとブラックボックスAPI監査のための知識境界 [cs.CR, cs.AI]目的:言語モデルAPIのフィンガープリンティング手法
    • 大規模言語モデルの利用拡大に伴い,APIの信頼性確保が重要となる。
    • API提供元が主張するモデルと実際に提供されるモデルが一致しているか検証が困難である。
    • 知識境界付近での安定した数値再現性を用いて,APIのモデルを識別し,不正な置き換えを検出する。
    • KBFは,16のLLMエンドポイントにおいて,155件の経済的に重要な置き換えを検出し,同一モデルのコントロールは誤検知しなかった。
    • 展開時の変動に対して安定しており,わずか5〜10%のトラフィック置き換えで高分離混合ルーティング攻撃を検出できる。
    • 6つのプラットフォームのシャドウAPI監査において,27のプラットフォームモデルセルのうち7つが参照エンドポイントと統計的に不一致であった。

    Link: https://arxiv.org/abs/2605.29524

  • 隠れ層表現の摂動学習による汎化性能の高い深層学習 [cs.LG]目的:深層学習における汎化性能向上
    • 深層学習は画像認識や自然言語処理など多様な分野で高い性能を発揮するが,過学習が課題である。
    • 既存手法では入力層や出力層の摂動は研究されているが,計算量の大部分を占める隠れ層の摂動解析は不十分である。
    • 本研究では隠れ層の摂動を最適化し,汎化性能の向上を目指す。
    • 隠れ層の摂動は,活性化ノルムの増減によって正のデータ拡張または負のデータ拡張として機能することが示唆された。
    • 提案手法LPAは,敵対的摂動を用いて隠れ層の活性化をクラスごとに適応的に摂動する。
    • 多様なデータセットで既存手法を上回り,LPLのような出力層の摂動手法との相乗効果も確認された。

    Link: https://arxiv.org/abs/2605.29525

  • 時間的モチーフを意識したグラフテスト時適応によるOODブロックチェーン異常検知 [cs.CR, cs.AI, cs.LG]目的:ブロックチェーンにおける異常検知の精度向上
    • ブロックチェーン技術の発展に伴い,取引パターンが複雑化し,異常検知が困難になっている。
    • 悪意のある攻撃者による取引パターンの変化と,ブロックチェーンの多様な取引セマンティクスが課題である。
    • 時間的なモチーフに着目し,テスト時のグラフ適応戦略を通じて,これらの課題を解決する。
    • 提案手法TEMG-TTAは,既存のグラフ異常検知手法と比較して平均54.88%高い性能を示す。
    • 解釈可能なモチーフパターン分析により,TEMG-TTAが異常アドレスの複雑な取引パターンを明確に捉えていることが確認された。
    • 学習データとテストデータの共通パターン共有を促進するテスト時適応戦略が有効であることが示された。

    Link: https://arxiv.org/abs/2605.29526

  • 交差注意特徴融合を用いた半真実局所化による音声ディープフェイク検出 [eess.SY, cs.SY, cs.SD, cs.CV, cs.LG]目的:音声ディープフェイクの検出と,操作箇所の局所化
    • 音声データの信頼性は重要であり,悪意のある改ざんから保護する必要がある。
    • 既存の手法では,部分的に操作された音声(半真実)の検出と局所化が困難である。
    • 半真実音声の検出と,操作箇所の正確な局所化を可能にする手法の開発。
    • 提案手法CAFNetは,音声の真偽判定(本物,完全な偽物,半真実)と操作箇所の局所化を同時に行う。
    • MLADDC T2+T3テストセットにおいて,92.71%の精度と0.9910のAUC,0.075秒のMAEを達成した。
    • 少ないパラメータ数で,既存のモデル(XLS-R 300M,AST 87M)を大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2605.29531

  • GUITestScape:探索的GUIテストにおけるオープンセット評価へ向けて [cs.SE, cs.AI]目的:探索的GUIテストにおける評価手法
    • GUIテストはソフトウェア品質確保の重要なプロセスであり,ユーザーエクスペリエンスに直結する。
    • 既存の評価指標はインタラクションの欠陥に偏っており,表示に関する欠陥が評価されない。
    • 定義済みの欠陥アノテーションに縛られず,テストの過程を詳細に評価する手法が求められる。
    • GUITestScapeは61のAndroidアプリと508の欠陥を含むインタラクティブなベンチマークである。
    • GUIJudgeは,エージェントのテスト軌跡を独立して診断可能な能力に分解するオープンセット評価器である。
    • GUIJudgeは定義済みの注釈を超えた信頼性の高いプロセス認識評価を達成し,既存モデルを上回る。

    Link: https://arxiv.org/abs/2605.29532

  • UI-KOBE:軽量グラフ誘導GUIエージェントのための知識指向行動探索 [cs.ET, cs.AI]目的:モバイルGUIタスク自動化のための知識指向行動探索フレームワーク
    • モバイルGUI自動化は実用性が高いが,大規模モデルへの依存が課題である。
    • 軽量エージェントはリソース制約から,GUIタスクの完全自動化が困難である。
    • アプリ知識グラフを用いて,軽量エージェントの行動計画能力を向上させる。
    • UI-KOBEは,アプリのUI状態と遷移をグラフとして表現する知識グラフを構築する。
    • 軽量エージェントは,グラフを用いて行動選択を行うことで,計画の負担を軽減する。
    • 実験により,UI-KOBEが軽量モデルのGUIタスク実行性能を向上させることが示された。

    Link: https://arxiv.org/abs/2605.29534

  • AsymVLM:効率的な視覚言語モデル推論のための非対称トークンプルーニング [cs.LG]目的:視覚言語モデルの推論効率向上
    • 視覚言語モデルは多様なタスクで高性能だが,計算コストが高い。
    • 既存の圧縮手法は,視覚とテキストのモダリティを均一に扱うため非効率。
    • 視覚とテキストの特性の違いに着目し,非対称なプルーニングで効率化を目指す。
    • AsymVLMは,最先端手法と比較して最大54%のFLOPs削減を達成した。
    • ドキュメントやグラフ理解タスクにおいて,既存手法を2-3%上回る性能を示した。
    • テキスト主導のシナリオでは,標準的なLLMキャッシュ圧縮手法を大幅に上回る。

    Link: https://arxiv.org/abs/2605.29535

  • 量子化された環境下におけるフィードフォワードニューラルネットワークの検証の複雑性 [cs.CC, cs.LG, cs.LO]目的:量子化されたフィードフォワードニューラルネットワークの検証の計算複雑性
    • AIの安全性が重要視される中で,ニューラルネットワークの検証は,その信頼性を保証する上で不可欠である。
    • ニューラルネットワークの検証は,一般にNP困難であり,現実的な規模のネットワークへの適用が難しい。
    • 量子化による計算コスト削減と,検証可能性の維持の両立を目指す。
    • 固定精度量子化されたFNNにおけるLPおよびBV仕様による検証は,有理数の場合と同等のNP困難であることが示された。
    • 動的量子化されたFNNとBV仕様の組み合わせにおいて,上限が確立され,既存のPSPACE困難結果を補完する。
    • 本研究は,量子化されたニューラルネットワークの検証問題の複雑性に関する理解を深めることに貢献する。

    Link: https://arxiv.org/abs/2605.29537

  • GiPL:クロスドメイン少数ショット物体検出のための生成拡張反復擬似ラベリング [cs.CV, cs.AI]目的:クロスドメイン少数ショット物体検出における性能向上
    • 画像と言語を組み合わせた大規模モデルが,多様なデータへの対応能力を持つことが重要視されている。
    • ターゲットドメインのサンプル数が極端に少ない場合,過学習が深刻な課題となる。
    • 限られたサポートセットを有効活用し,過学習を抑制することで,検出精度を高めることを目指す。
    • GiPLは,2つのブランチを持つ効率的な学習フレームワークである。
    • 擬似ラベリングによる自己学習と,大規模言語モデルを用いたデータ拡張により,性能を向上させている。
    • RUOD,CARPK,CarDDの3つのデータセットで,最先端手法を上回る顕著な性能改善が確認された。

    Link: https://arxiv.org/abs/2605.29539

  • 航空管制の復唱監視のための軽量学習LLMフレームワークSCOPE [cs.DM, cs.LG, cs.AI, cs.CL, cs.HC, cs.IR]目的:航空管制の復唱監視における異常検出と修正
    • 航空交通の安全確保において,管制官とパイロット間の確実なコミュニケーションは不可欠である。
    • 復唱時の異常が航空事故の約80%に関与しており,交通量の増加と負荷増大が課題となっている。
    • 既存手法の汎化性能の低さを克服し,実用的な航空管制の復唱監視システムを開発すること。
    • 提案手法SCOPEは,オープンセット分類器と少数ショット学習を組み合わせ,高い精度と低遅延を実現した。
    • 実験結果から,SCOPEはオープンセット検出において91.05%の精度,異常復唱の修正において96.63%の精度を達成した。
    • この結果は,解釈可能性と制御可能性を備えた実用的な航空管制復唱監視システムの実現可能性を示唆する。

    Link: https://arxiv.org/abs/2605.29543

  • 特異点に配慮した最適化:確率的幾何学的探査による安定した非滑らかな最適化へ [cs.LG, cs.AI, math.OC]目的:非滑らかな最適化における安定性向上
    • 深層学習の性能は最適化に大きく依存し,その安定性が重要である。
    • ReLUや量子化演算などにより損失関数が非滑らかになり,最適化が不安定になる問題がある。
    • 局所的な幾何学的不安定性を考慮し,最適化の安定化と収束性向上を目指す。
    • S-Adamは,局所的な幾何学的不安定性を評価するLGI指標を導入し,ステップサイズを動的に調整することで学習を安定化させる。
    • 理論解析により,S-Adamがほぼ確実に($\delta$,$\epsilon$)-Clarke定常点に収束することが示された。
    • QATや小バッチ学習の実験で,S-AdamがAdamWやProx-SGDよりも高い精度を達成し,勾配の振動を抑制することが確認された。

    Link: https://arxiv.org/abs/2605.29547

  • なぜより大きなモデルがより多くを学習するのか:容量,干渉,および稀なタスクの保持効果 [cs.LG]目的:大規模モデルが小規模モデルでは学習できないタスクを学習する要因の解明
    • 機械学習モデルの規模拡大は性能向上に寄与するが,その根本的な理由は不明確であった。
    • 小規模モデルは,頻度の高い単純なタスクにリソースを集中し,稀で複雑なタスクの学習が困難になるという課題があった。
    • 大規模モデルが,このデータによるリソース配分の偏りを克服し,より多くのタスクを学習するメカニズムを明らかにする。
    • 大規模モデルは,稀で複雑なタスクを学習できる一方で,小規模モデルは学習できないことが確認された。
    • 大規模モデルは,一般的なタスクに対する勾配更新を弱めることで,稀なタスクの特徴の書き換えを抑制し,干渉を低減する。
    • 実験結果は,大規模モデルの優位性が,データに起因するリソース競合の緩和に由来することを示唆している。

    Link: https://arxiv.org/abs/2605.29548

  • Opt-Verifier:双方向検証によるLLMの最適化モデリングの可能性の解放 [cs.CL, cs.AI]目的:最適化モデリングにおけるLLMの活用
    • オペレーションズ・リサーチにおいて,数学的最適化モデリングは不可欠である。
    • 既存手法では,生成された最適化モデルの正しさを検証することが困難である。
    • 生成モデルの構造と解の両面から検証し,モデリング精度を向上させる。
    • 提案手法Opt-Verifierは,構造面と解の面から双方向検証を行うことで,モデリング精度を向上させる。
    • 構造面検証は,生成されたモデルが元の問題記述と整合しているかを確認する。
    • 解の面検証は,解の妥当性を評価し,モデルの論理性と数学的健全性を確認する。ベンチマークテストで20%以上の精度向上を達成した。

    Link: https://arxiv.org/abs/2605.29556

  • バッテリーSimエージェント:LLMエージェントを活用したバッテリーパラメータ逆推定 [cs.CL, cs.AI]目的:バッテリーパラメータの逆推定
    • バッテリー技術革新の加速には,高精度なバッテリーモデルが不可欠である。
    • 従来の最適化手法は,サンプル効率が悪く,物理的根拠に基づかない。
    • LLMエージェントによる推論に基づく逆推定フレームワークを構築し,課題を解決する。
    • 本研究では,LLMエージェントと高精度バッテリーシミュレーターを連携させる新たなフレームワーク「Battery-Sim-Agent」を提案した。
    • 多様なバッテリー化学,動作条件,難易度レベルを含むベンチマークにおいて,提案手法はベイズ最適化などの既存手法を凌駕した。
    • 長期劣化フィッティングや実データへの適用においても有効性が示され,科学的発見へのLLMエージェントの可能性を示唆する。

    Link: https://arxiv.org/abs/2605.29560

  • ParaTool:ツール表現をコンテキストからパラメータへ [cs.AI, cs.SE]目的:ツール利用における言語モデルの性能向上
    • 大規模言語モデルの外部ツール連携は,現実世界の問題解決に不可欠である。
    • コンテキスト長が伸びると,推論コストが増大し,幻覚のリスクが高まる。
    • ツール情報をパラメータ化することで,効率的なツール利用を目指す。
    • ParaToolは,従来のコンテキスト学習手法と比較して,大幅な性能向上を達成した。
    • ツール情報をパラメータとして扱うことで,推論コストを削減し,幻覚のリスクを低減した。
    • Stable ToolBenchおよびBFCLでの実験により,ParaToolの有効性が確認された。

    Link: https://arxiv.org/abs/2605.29561

  • VLA-Pro:ビジョン・言語・行動モデルにおけるタスク間手続き記憶の転移 [cs.RO, cs.AI, cs.CV]目的:タスク間における手続き記憶の転移機構
    • 汎用ロボット操作において,VLAモデルの重要性が高まっている。
    • 未知のタスクへの汎化性能が,オブジェクトや状況の変化に弱点を持つ。
    • タスク関連情報を記憶し,状況に応じて活用することで汎化性能を向上させる。
    • VLA-Proは,訓練時にタスク固有のLoRAアダプターを手続き記憶として保存する。
    • 推論時には,マルチモーダルな文脈に基づいて関連する手続き記憶を検索し,動的に融合させる。
    • RoboTwin,RLBench,実世界操作タスクで,最大207%の性能向上,実世界成功率を5.8%から65.0%に向上させた。

    Link: https://arxiv.org/abs/2605.29562

  • 視点自己探索による視点計画 [cs.AI, cs.CV, cs.RO]目的:視点計画の性能向上
    • 現実世界のナビゲーションやロボット工学において,視点の理解と計画は不可欠である。
    • 既存の視覚言語モデル(VLM)は,単一のアクションによる視点変化は理解できるものの,複数ステップにわたる計画においては性能が低い。
    • 視点グラフ蒸留と自己探索を組み合わせることで,VLMの視点計画能力を向上させる。
    • 提案手法は,Qwen2.5-VL-7Bのインタラクティブな視点計画の成功率を2.5%から47.8%に大幅に向上させた。
    • この性能は,GPT-5.4 Pro(18.5%)やGemini 3.1 Pro(21.4%)を上回る。
    • 自己探索は,3次元空間におけるVLMの推論と計画能力を向上させる有望なアプローチである。

    Link: https://arxiv.org/abs/2605.29563

  • DeepTool:プロセス監視型強化学習によるツール統合推論における段階的な熟考のスケーリング [cs.AI]目的:ツール統合推論における段階的な熟考のスケーリング
    • LLMの能力拡張として外部環境の活用が重要視されている。
    • 戦略的計画や自己修正に必要な逐次的なツール利用時の熟考が不足している。
    • 中間的な推論ステップとツール利用を監督するプロセス監視型学習による解決を目指す。
    • DeepToolは,思考,行動,観察を繰り返す過程で段階的な熟考をスケーリングする新しいフレームワークである。
    • 実験の結果,DeepToolはQwen2.5-7Bの性能を大幅に向上させ,複数のベンチマークで優れた結果を示した。
    • トークンコストの効率性分析により,DeepToolが性能と効率性のバランスに優れていることが確認された。

    Link: https://arxiv.org/abs/2605.29568

  • 季節空間事前分布とLLMに基づく活動連鎖生成によるGPS強化観光者移動モデル [cs.AI]目的:観光客の移動モデリング手法
    • 都市交通計画において,観光客の移動は居住者の通勤とは異なり,特有の課題を提起する。
    • 既存手法では,個別の行動計画の生成と集計的な空間パターンの把握が両立していない。
    • 月ごとの需要変動やグループ旅行といった観光客特有の特性を考慮した移動モデルの構築。
    • GPSデータから抽出した空間事前分布が,調査データと一致する観光客の訪問パターンを再現することを示した。
    • 提案手法は,人口統計学的特徴に基づいた合成スケジュールを生成し,地域レベルでの訪問シェアが調査データや滞在ポイントからの月別訪問パターンと一致することを示した。
    • 地理的・人口統計学的な情報を考慮した観光客移動モデリングの有効性が実証された。

    Link: https://arxiv.org/abs/2605.29578

  • LoRAに基づくベイズ推論における低損失谷の構築と示唆 [cs.LG, stat.ML]目的:LoRA空間における低損失谷の構造とその機能的多様性
    • 大規模言語モデルの利用拡大に伴い,モデルの不確実性評価が重要視されている。
    • LoRAのようなパラメータ効率の良いファインチューニング手法では,不確実性の推定が困難である。
    • LoRA空間における低損失谷の存在を示し,それを利用したベイズ推論の改善を目指す。
    • 提案手法LoRA-Curveは,損失関数が連続的に変化する低損失谷をLoRA空間に構築できることを示した。
    • LoRA-Curveと平坦な極小値摂動,Jensen-Shannon divergence正則化の組み合わせにより,予測分布の相互情報量を向上させた。
    • 連続的なパラメータ空間探索が機能的多様性に繋がり,性能劣化を招かないことを実証した。

    Link: https://arxiv.org/abs/2605.29580

  • PEARL:教育的に整合した強化学習によるソクラテス型チューターの訓練 [cs.LG, cs.CL]目的:ソクラテス型チューターの訓練
    • 教育分野において,個別最適化された学習支援が重要視されている。
    • 既存のチューターシステムは,学生の理解度に応じた指導や多角的な評価が不十分である。
    • 教育的目標と正答率を両立する,効果的なチューターの訓練方法を確立すること。
    • PEARLは,制御可能な学生シミュレーター,生成報酬モデル,安定した多目的強化学習スキームを組み合わせている。
    • 実験の結果,PEARLはオープンソースモデルの中で最高の性能を示し,大手プロプライエタリLLMに対抗できる。
    • PEARLは30Bモデルのみを使用しながら,優れた結果を達成している。

    Link: https://arxiv.org/abs/2605.29582