arXiv雑要約

AI - 2026/05/06 公開

  • 構造化拡散ブリッジ:ノイズ除去拡散ブリッジのための帰納的バイアス [cs.LG, cs.AI]目的:モダリティ変換における解の空間の特性評価と制約
    • モダリティ変換は,クロスモーダルな対応付けが複数存在し,制約が少ないという課題がある。
    • 既存のアプローチは,完全なペアデータセットに依存しており,単一のデータ駆動型制約を課している。
    • ペアリング要件を緩和し,アンペアリング環境でも適用可能な柔軟なモダリティ変換基盤の確立。
    • 提案手法は,合成データと実データを用いて,アンペアリング,セミペアリング,ペアリングの様々な設定で性能を検証した。
    • ペアリングの程度を大幅に緩和しつつ,完全ペアリングと同等の品質を達成し,アンペアリング環境下でも適用可能であることを示した。
    • 拡散ブリッジが,完全ペアリングデータに依存しないモダリティ変換の柔軟な基盤として有効であることを示した。

    Link: https://arxiv.org/abs/2605.02973

  • 安定的な能動的制御:自律的なサイバー防御のためのツール媒介LLMアーキテクチャ [cs.AI, cs.CR, cs.SY, eess.SY]目的:高度な意思決定を必要とするエージェントシステムの形式的な保証
    • サイバー攻撃は巧妙化の一途を辿り,セキュリティ対策の自動化と高度化が不可欠である。
    • 既存のシステムは,敵対的状況下での形式的な保証を提供できていない。
    • 敵対的環境下でも安定性と制御性を保証するアーキテクチャの実現。
    • 提案アーキテクチャは,決定論的なツールと有限な行動カタログを使用することで,システムの制御性と可観測性を保証する。
    • Lean 4による形式検証により,コントローラと敵対者のカタログからの選択に対する安定性が証明された。
    • 実環境の攻撃グラフを用いた評価で,攻撃者の期待ペイオフを59%削減し,アーキテクチャの安定性がLLMの能力に依存しないことを示した。

    Link: https://arxiv.org/abs/2605.03034

  • 双極性躁病検出におけるオンデバイス特性・状態分離のための混合精度情報ボトルネック [cs.NI, cs.LG, cs.AI, cs.HC, cs.SD]目的:双極性躁病の音声バイオマーカーによる継続的モニタリングのための特性と状態の分離
    • 精神疾患の早期発見・介入は,患者のQOL向上に不可欠である。
    • エッジデバイスでの資源制約が,高精度な状態分離の妨げとなっている。
    • 数値精度制御による情報ボトルネックを用いて,効率的な分離を実現する。
    • MP-IBは,厳格な話者独立クロスバリデーションにおいて,高い相関係数(ρ=0.117)を示した。
    • 94MパラメータのWavLM-Adapter等の既存手法を,絶対値で2.8~15.9ポイント上回る性能を実現した。
    • 低コストデバイス上でのリアルタイムモニタリングを実現し,実用性を実証した(レイテンシ23.4ms, フットプリント617KB)。

    Link: https://arxiv.org/abs/2605.03039

  • ARIS:敵対的マルチエージェント協調による自律研究 [cs.SE, cs.AI]目的:自律研究のための研究支援システムの開発
    • AI研究の加速には,効率的な研究ワークフローと信頼性の確保が不可欠である。
    • LLMを活用した研究システムでは,根拠の不十分な主張が生成されるリスクがある。
    • 敵対的マルチエージェント協調により,研究の信頼性と客観性を向上させる。
    • ARISは,実行モデルとレビューモデルが相互にチェックし合うことで,不確実な主張を抑制する。
    • 65種類以上の再利用可能なスキル,モデル統合,研究wiki,決定論的な図生成機能を備える。
    • 実験結果の根拠検証,主張監査,科学編集パイプラインなど,多段階の品質保証プロセスを導入している。

    Link: https://arxiv.org/abs/2605.03042

  • TCD-Arena:因果探索手法における仮定違反に対する頑健性の評価 [cs.LG]目的:時系列因果探索アルゴリズムの仮定違反に対する頑健性の評価
    • 科学的探求において重要な枠組みである因果探索の利用を促進するため。
    • 多くの因果探索手法は強い仮定に依存しており,その検証や頑健性の評価が困難である。
    • 仮定違反に対する頑健性を評価し,より信頼性の高い因果探索手法の開発を支援すること。
    • TCD-Arenaは,仮定違反の程度を段階的に高めながら,時系列因果探索アルゴリズムの頑健性を評価するテストキットである。
    • 33種類の仮定違反に対し,約3000万回の因果探索試行を行い,詳細な頑健性プロファイルを明らかにした。
    • 因果探索のアンサンブルは,全体的な頑健性を向上させる可能性があり,実世界への応用が期待される。

    Link: https://arxiv.org/abs/2605.03045

  • コントラスト階層的除去による大規模言語モデルからのニューロン固定ルール抽出 [cs.LG, cs.AI]目的:大規模言語モデルの意思決定ロジックを記号形式で表現し,内部メカニズムとの関連付け
    • 説明可能なAI(XAI)は,AIシステムの透明性と信頼性を向上させる上で不可欠である。
    • 既存のルール抽出手法は,モデルの回路にルールを基づかせることができていない。
    • モデル回路に根ざしたルール抽出により,AIの解釈性を高めることを目指す。
    • MechaRuleは,ルールに関連する振る舞いを破壊するスパースなニューロン(アゴニスト)を効率的に特定する。
    • アゴニストの活性化を中和することで,算術の精度や脱獄成功率を最大71.1%および8.8%まで低下させる。
    • MechaRuleは,Qwen2とGPT-Jにおける実験で,高効果なアゴニストの96.8%を再現可能であった。

    Link: https://arxiv.org/abs/2605.03058

  • 要約統計量と弱い教師あり学習を用いたセグメンテーション学習 [cs.CV, cs.LG]目的:セグメンテーションモデルの学習
    • 医療画像解析において,正確なセグメンテーションは診断精度向上に不可欠である。
    • 専門家による手動アノテーションは負担が大きく,データ不足も課題である。
    • 要約統計量と弱い教師信号を用いて,効率的なセグメンテーション学習を目指す。
    • 要約統計量のみではセグメンテーション精度は十分ではないことが示唆された。
    • 領域内の少数のピクセルという弱い教師信号を加えることで,性能が大幅に向上した。
    • 提案手法は,画像,超音波,CTスキャンデータにおいて有効であることが確認された。

    Link: https://arxiv.org/abs/2605.03059

  • OGPO:生成制御ポリシーのサンプル効率の良いフルファインチューニング [cs.LG, cs.RO]目的:生成制御ポリシーのファインチューニングにおけるサンプル効率の向上
    • ロボット学習において,生成制御ポリシーは効果的な表現方法として注目されている。
    • 既存手法では,データ効率が悪く,パラメータ調整が難しい場合がある。
    • オフポリシー学習によるデータ再利用と,勾配伝播を通じて効率的なファインチューニングを実現する。
    • 提案手法OGPOは,多様な操作タスクにおいて最先端の性能を達成した。
    • 初期化された行動クローニングポリシーを,オンラインリプレイバッファに専門家のデータなしでほぼ完全なタスク成功にファインチューニングできる。
    • 成功バッファ正則化など,オフポリシー学習における過剰な批判を抑制する安定化手法を導入した。

    Link: https://arxiv.org/abs/2605.03065

  • 区間選挙におけるチーレ則の計算と一般化 [cs.AI, cs.GT]目的:区間選挙におけるチーレ則の計算可能性
    • 承認型委員会投票は社会的選択理論で重要であり,チーレ則は比例表現性などの望ましい特性を持つ。
    • 一般的なチーレ則の計算はNP困難であり,効率的な計算方法が課題であった。
    • 候補者区間(CI)以外の区間である有権者区間(VI)における計算可能性を解決する。
    • 有権者区間(VI)においても,標準的な線形計画法(LP)で最適な整数解が得られることを示した。
    • この手法は,有権者候補者区間(VCI)や線形一貫性(LC)といった,より一般的な領域にも拡張可能である。
    • 線形一貫性(LC)と有権者候補者区間(VCI)の関係をグラフ理論を用いて明らかにし,LCがVCIを厳密に包含することを示した。

    Link: https://arxiv.org/abs/2605.03067

  • プライバシー保護のための分散型深層変分アプローチ [cs.CR, cs.LG]目的:プライバシー保護データ公開のための手法
    • データ活用において,プライバシー保護は不可欠であり,個人情報保護とデータ利活用の両立が求められている。
    • 連合学習ではデータ漏洩リスクが残存し,機密属性が推測される可能性がある。
    • データ公開時のプライバシー保護と有用性の両立を目指す。
    • 提案手法GPPは,入力データから低次元の匿名化表現を学習することで,プライバシーを保護する。
    • GPPは,相互情報量を最小化し,同時に有用性を維持するように設計されている。
    • MNIST,CelebA,HAPT-Recognitionのベンチマークで,GPPは高い有用性を維持しつつ,敵対者のAUCを大幅に低減した。

    Link: https://arxiv.org/abs/2605.03069

  • 長期的計画のためのCompositional Diffusionの改良 [cs.RO, cs.AI, cs.LG]目的:長期的計画の信頼性向上
    • ロボットの自律的な行動計画において,複雑なタスクをこなすためには,長期的な計画が不可欠である。
    • 既存のCompositional Diffusion法は,局所的な計画分布が多峰性の場合,モード平均化を引き起こし,計画の実現可能性や一貫性を損なう。
    • モード平均化を軽減し,高密度でグローバルに一貫性のある計画を生成すること。
    • RCDは,事前学習済みの拡散モデルの自己再構成誤差を,合成計画の対数密度のおおよその指標として活用することで,サンプリングを集中させる。
    • RCDは,セグメント境界での一貫性を強制するオーバーラップ一貫性項と組み合わせることで,モード平均化を軽減する。
    • OGBenchの様々なタスクにおいて,既存手法と比較して,RCDは一貫して優れた性能を発揮する。

    Link: https://arxiv.org/abs/2605.03075

  • グラフ対照学習における適応的負例スケジューリング [cs.LG]目的:グラフ対照学習の性能向上
    • 計算知能分野における自己教師あり表現学習の主要な手法であり,推薦,異常検知などに活用。
    • 既存手法は静的な負例サンプリングに依存しており,負例の動的な重要度と計算コストを考慮していない。
    • 損失に基づいた予算制約下での負例選択を最適化し,計算コストを制御しながら多様性を維持する。
    • 提案手法AdNGCLは,9つのベンチマークグラフデータセットで最先端の性能を達成し,7つのデータセットで最高精度を記録。
    • 損失の変化に応じてステップサイズを動的に調整するHANSにより,計算コストを明示的に制御可能。
    • 予算を意識した損失感受性スケジューリングは,表現学習の堅牢性と効率性を向上させる汎用的な戦略である。

    Link: https://arxiv.org/abs/2605.03076

  • 見えざるものを見えるように:AI導入における組織目標と従業員経験の乖離の理解 [cs.AI, cs.HC]目的:AI導入における組織目標と従業員経験の乖離
    • AI技術の発展は,組織の革新と効率化に不可欠である。
    • AI導入の過程で,従業員の視点が軽視される傾向がある。
    • AIの成功導入のため,従業員を中心とした導入戦略が求められる。
    • AI導入における失敗は,従業員の抵抗や統合の困難さに起因する。
    • ユーザビリティの低さ,期待の不一致,コントロールの不足,コミュニケーション不足が主な障壁として特定された。
    • AIシステムの設計と実際の業務フローとの間にギャップが存在する。

    Link: https://arxiv.org/abs/2605.03078

  • 感情条件下の音素レベル深偽検出:自己教師あり埋め込みの利用 [cs.SD, cs.LG, eess.AS]目的:感情的な音声合成における深偽検出手法
    • 音声合成技術の進歩により,感情表現豊かな音声が生成可能となり,その悪用が懸念される。
    • 既存手法は音声全体を均質に扱い,音素構造に着目しないため,感情条件下の検出に限界がある。
    • 感情操作された合成音声の音素レベルでの分析を通して,深偽検出の精度向上を目指す。
    • 音素の挙動は種類によって異なり,複雑な母音や摩擦音は変動が大きく,単純な音素は安定していることが示された。
    • 分布の違いが大きい音素は,感情や合成システムの種類に関わらず,検出が容易であることが確認された。
    • 音素レベルでの分析は,感情操作された合成音声を検出するための効果的かつ解釈可能な手法である。

    Link: https://arxiv.org/abs/2605.03079

  • 記憶制約下継続学習のための適応的データ圧縮と再構成 [cs.LG]目的:記憶制約下における脳波継続学習のための適応的データ圧縮と再構成手法
    • 脳波は高時間分解能だが,ノイズや個人差が大きく,限られたデータでの個人最適化が困難である。
    • 既存の継続学習手法は過去の全データを保存するため,再学習回避という継続学習の目的を損なう。
    • 脳波信号の形態的特徴を利用し,効率的な圧縮と再構成による記憶効率の向上を目指す。
    • 提案手法ADaCoReは,厳しいメモリ制約下において,最新のベースライン手法を安定的に上回る性能を示す。
    • ISRUCおよびFACEDデータセットにおいて,それぞれ少なくとも+2.7%および+15.3%の正解率向上を達成した。
    • 圧縮時の忠実度とトレードオフの関係や,各設計要素の貢献を定量的に評価し,主要な脳波形態の保持を確認した。

    Link: https://arxiv.org/abs/2605.03085

  • 障壁から橋へ:AIデータセンターと電力グリッドの共同設計の提案例 [cs.DC, cs.AI, cs.SY, eess.SY]目的:AIデータセンターと電力グリッドの共同設計
    • 電力供給の安定は社会基盤であり,AI技術の発展には不可欠である。
    • 既存の電力グリッドは多様な負荷を前提としており,AIデータセンターのような大規模集中需要に対応できない。
    • AIの持続可能な発展のために,データセンターと電力グリッドの連携を強化する必要がある。
    • AIデータセンターの需要は従来の電力グリッドの前提を覆し,連携の必要性が高まっている。
    • データセンターと電力グリッドは,異なる設計思想,運用哲学,経済的インセンティブを持つため,連携が困難である。
    • 共同キャパシティプランニング,マルチタイムスケール制御,新たな市場メカニズムなどの研究が求められる。

    Link: https://arxiv.org/abs/2605.03090

  • 属性誘導型マスキングによるロバストなクロスドメイン感情分類 [cs.LG]目的:クロスドメイン感情分類における汎化性能の向上
    • 自然言語処理において,感情分類は重要なタスクであり,顧客対応や市場調査など,多様な応用が期待される。
    • 事前学習済みTransformerモデルは,特定のドメインでは高い精度を示すが,異なるドメインへの転移学習において性能が著しく低下することが課題である。
    • ドメイン固有の不要なトークンへの依存を抑制し,汎化性能を高めることを目指す。
    • 属性誘導型マスキング(AGM)は,学習時に重要なドメイン固有のトークンを動的に検出し,ペナルティを科すことで汎化性能を改善する。
    • 特に困難な転移学習のケース(Sentiment140)において,AGMは既存手法(DANN, DRO, Fish, IRM)と同等以上の性能を示す。
    • 定性的な分析により,AGMが@メンション,ハッシュタグ,スラングといったドメイン固有のトークンへの属性を抑制し,ドメイン不変の感情マーカーへの依存を高めることが確認された。

    Link: https://arxiv.org/abs/2605.03091

  • プロンプト間の相互作用:分布シフト下での混同因子除去のためのプロンプト演算の評価 [cs.LG, cs.CL]目的:分布シフト下における混同因子への依存性を軽減するプロンプト演算の有効性
    • 機械学習モデルの性能向上には,データの背後にある因果関係の理解が不可欠である。
    • モデルが混同因子に依存することで,分布シフト時に性能が著しく低下する。
    • プロンプト演算を用いて混同因子を除去し,モデルの汎化性能を向上させることを目指す。
    • HyPAは,プロンプト演算のベースラインと比較して,分布シフト下における頑健性と性能のトレードオフを一貫して改善する。
    • HyPAは,予測に対する混同信号の影響を軽減するか,表現におけるそれらの抑制によって,混同因子を緩和すると考えられる。
    • HyPAは,評価された設定において,頑健性を向上させるためのパラメーター効率の良い有望なアプローチであることを確立する。

    Link: https://arxiv.org/abs/2605.03096

  • LLMベースの記号回帰のためのプログラムによるコンテキスト拡張 [cs.AI]目的:LLMベースの記号回帰におけるプログラムによるコンテキスト拡張
    • 科学的発見の根幹をなす課題であり,データから数学的表現を発見する重要性が高まっている。
    • 従来の遺伝的アルゴリズムには,スケーラビリティと表現力の限界が存在する。
    • データセットに埋め込まれた豊富な情報を活用し,LLMベースの記号回帰の効率と精度を向上させる。
    • 提案手法は,データセットとのコードベースのインタラクションを可能にし,集約された評価スコア以上の情報抽出を実現する。
    • LLM-SRBenchなどの高度なベンチマークにおいて,提案手法は既存の強力なベースラインと比較して優れた効率と精度を示す。
    • プログラムによるコンテキスト拡張により,LLMベースの記号回帰の性能が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2605.03101

  • MedStruct-S:キーの発見,キー条件付きQA,OCR臨床レポートからの半構造化抽出のベンチマーク [cs.CL, cs.AI, cs.LG]目的:OCR臨床レポートからの半構造化情報抽出における,キー発見,キー条件付きQA,キーと値のペア抽出の評価
    • 患者の縦断的な病歴を効率的に再構築するためには,OCRから得られた臨床レポートからの情報抽出が不可欠である。
    • 既存の評価では,キーの多様性や不完全性,OCRノイズへの対応が不十分であり,実用的な頑健性を評価しにくい。
    • 未知のキーとOCRノイズ下でのタスク評価を可能にするベンチマークを提供し,モデルの選択と比較の基盤となる。
    • MedStruct-Sは,3,582ページの臨床レポートを含むベンチマークであり,未知のキーとOCRノイズを考慮した評価が可能である。
    • エンコーダーのみのモデルは,非null値のキー条件付きQAにおいて,デコーダーのみのモデルよりも優れた性能を示した。
    • モデルの規模を考慮しない場合,ファインチューニングされたデコーダーのみのモデルが全体として最も優れた結果を示した。

    Link: https://arxiv.org/abs/2605.03103

  • 基礎ポーズモデルとアンサンブル方向カルマンフィルターによる姿勢追跡 [cs.LG, math.DG, stat.AP]目的:姿勢追跡のためのアンサンブル方向カルマンフィルター
    • ロボット工学やコンピュータビジョンにおいて,対象物の姿勢推定は不可欠である。
    • 従来のカルマンフィルターは,方向の不確かさを適切に捉えられない場合がある。
    • 方向統計の考え方を取り入れ,姿勢と位置を同時に推定する手法を提案する。
    • 提案手法であるEnDKFは,既存の方法と比較して誤差を大幅に削減できることを実験で示した。
    • 基礎ポーズアルゴリズムを用いたデジタルツインヘッドトラッキングシナリオで有効性が確認された。
    • 単位四元数表現を用いることで,方向の不確かさをより正確に捉えることが可能になった。

    Link: https://arxiv.org/abs/2605.03105

  • Transformer加速のためのゲート付き部分空間推論 [cs.LG, cs.AI]目的:Transformer言語モデルの推論高速化
    • Transformerは自然言語処理の基盤技術であり,高性能が求められている。
    • Transformerの計算量は大きく,特に推論速度がボトルネックとなる場合がある。
    • 有効ランクの低さを利用し,メモリ帯域幅を削減して推論を高速化する。
    • AMD MI300X上での検証で,線形層の重み読み出しにおいて3.0倍から10.5倍の高速化が確認された。
    • Perplexity比は1.00以下,トップ1トークン一致率は98%以上を維持している。
    • 追加学習やアーキテクチャ変更は不要であり,Attention機構への近似も行わない。

    Link: https://arxiv.org/abs/2605.03109

  • Transformer Attention高速化のためのカスケードトークン選択 [cs.LG, cs.AI]目的:Transformer Attention層における代表トークン選択のコスト削減
    • Transformerモデルは自然言語処理で高い性能を示すが,計算コストが高いという課題がある。
    • Attention機構の計算量は入力系列長に対して二乗で増加するため,長文処理が困難になる。
    • 代表トークン選択を効率化し,Attention計算量を削減することで高速化を図る。
    • 提案手法では,層間での代表トークンセットの一貫性を利用し,計算コストを削減した。
    • GPT-2,GPT-J,OPT等のモデルで,Gram演算の削減率が22%から63%に達した。
    • 層間の代表トークンのJaccard係数は0.83から0.94と高く,トークンセットの構造的な一貫性が確認された。

    Link: https://arxiv.org/abs/2605.03110

  • ARISE:エージェント型障害局所化とプログラム修復のためのリポジトリレベルのグラフ表現とツールセット [cs.SE, cs.AI]目的:エージェント型障害局所化およびプログラム修復のためのリポジトリレベルグラフ表現とツールセット
    • 大規模なソフトウェア開発において,迅速かつ正確な障害局所化と自動修復は,開発効率とソフトウェア品質を向上させる上で不可欠である。
    • 既存のシステムは,リポジトリの構造的表現に焦点を当てており,変数値の流れを詳細にモデル化していないため,関数レベルや行レベルでの正確な局所化が困難である。
    • 本研究は,変数値の流れを考慮したより詳細なグラフ表現を提供することで,エージェントの局所化精度を高め,プログラム修復の成功率を向上させることを目指す。
    • ARISEは,構造的関係に加えて,手続き内定義-使用エッジで接続された文レベルのノードを持つ多粒度プログラムグラフをLLMベースのエージェントに追加する。
    • SWE-bench Liteにおける評価の結果,ARISEはFunction Recall@1を17.0ポイント,Line Recall@1を15.0ポイント改善した。
    • ARISEは,Pass@1で22.0%(66/300)を達成し,SWE-agentと比較して4.7パーセントポイントの改善を示した。

    Link: https://arxiv.org/abs/2605.03117

  • 大規模状態空間における線形関数近似を用いたロバストマルコフゲームにおける多エージェント問題の克服 [cs.LG]目的:ロバストマルコフゲームにおける多エージェント問題の克服
    • 環境不確実性下での多エージェント強化学習は大きな可能性を秘めているが,ロバスト性に課題がある。
    • エージェント数増加に伴い状態・行動空間が指数的に増大し,多エージェントの呪いが存在する。
    • 大規模(無限)状態空間を持つロバストマルコフゲームにおける多エージェントの呪いを打破する。
    • 総変動距離で定義された不確実性集合に対し,データ効率の良いアルゴリズムを開発した。
    • 提案手法は,生成モデル設定と新たに提案するオンラインインタラクティブ設定の両方において,多エージェントの呪いを打破する。
    • 大規模(無限)状態空間を持つロバストマルコフゲームにおいて,サンプル複雑性に関する多エージェントの呪いを打破する初の成果である。

    Link: https://arxiv.org/abs/2605.03125

  • PIIGuard:敵対的サニタイズ下におけるPII収集の軽減 [cs.HC, cs.CR, cs.AI, cs.CL]目的:ウェブページレベルでのPII(個人識別情報)収集の軽減策
    • LLMアシスタントの普及に伴い,WebからのPII収集のリスクが増大している。
    • 既存の防御策はモデル側やサービス側に依存しており,Webサイト所有者が利用できる選択肢が限られている。
    • Webサイト所有者が,自身のページ上でPII漏洩を軽減するための手法を提供する。
    • PIIGuardは,最適化された隠れたHTMLフラグメントを埋め込むことで,LLMがPIIを直接または再構築的に開示するのを防ぐ。
    • GPT-5.4-nano,Claude-haiku-4.5,DeepSeek-chat(v3.2)を用いた評価で,97.0%以上の防御成功率を達成。
    • Webブラウジングや攻撃者側のサニタイズ下においても,一定の有効性が確認されたが,モデルやインターフェースによって効果が変動する。

    Link: https://arxiv.org/abs/2605.03129

  • 詳細な分類器評価のためのインスタンスレベルコスト [cs.LG]目的:分類誤りのインスタンスごとのコストの評価
    • コンテンツモデレーション等の分野で,誤りの重大度がケースによって異なるため,コストを考慮した評価が重要である。
    • 従来の評価指標では,誤りの重大度の違いを捉えられず,実際の損失を正確に反映できないという問題がある。
    • インスタンスごとのコストを考慮した新たな評価指標を導入し,より現実的な分類器の性能評価を目指す。
    • 提案手法である正規化超過コスト(NEC)は,従来の誤り率よりも低い値を示すことが多く,誤りの多くが曖昧で低コストな例に集中することが示された。
    • コストを損失関数に組み込んだ学習戦略は,入力特徴からコストが予測可能な場合にのみ改善が見られ,実データでは効果が限定的であった。
    • 本研究は,インスタンスレベルの誤りコストを導き出し評価するための実用的な手法を提供する。

    Link: https://arxiv.org/abs/2605.03135

  • エージェント的生態系のための振付言語:Pact [cs.MA, cs.PL, cs.AI, cs.DC]目的:エージェント的生態系における協調のための振付言語Pactの設計
    • 近年,自律的に行動するエージェントの重要性が増しており,安全な協調の仕組みが求められている。
    • 従来の振付プログラミングは協調的な参加者を前提としており,エージェントの利己性を考慮できない。
    • エージェントの選択や嗜好を記述することで,ゲーム理論に基づいた協調プロトコルの設計を目指す。
    • Pactは振付言語を拡張し,エージェントの意思決定を形式的なゲームとしてモデル化する。
    • Pactプロトコルはゲーム理論的特性を分析可能であり,最適な意思決定方策を導き出すことができる。
    • Pactの設計と,限定的な合理性を持つソルバーの実装,そして応用事例が示された。

    Link: https://arxiv.org/abs/2605.03143

  • チームタスクにおけるメンタルモデルの不一致検出フレームワーク:あなたは理解していますか? [cs.AI]目的:チーム対話におけるメンタルモデルの不一致の分類と予測
    • チームワークにおいて,メンバー間の共通理解はパフォーマンスに不可欠である。
    • タスク遂行中の情報共有不足により,メンタルモデルに不一致が生じやすい。
    • リアルタイムな対話分析を通して,不一致を検出し,将来の不一致を予測することを目指す。
    • 本研究では,不支援な信念,誤った信念,信念矛盾,および省略という4種類のメンタルモデルの不一致を分類するフレームワークを提案した。
    • コラボレーションオブジェクト識別タスクを用いた実験により,対話中の不一致パターンが将来の不一致を予測するシグナルを含むことを実証した。
    • 過去の不一致回数の単純平均による予測は,ある程度の精度を示し,不一致の種類によって予測精度に差が見られた。

    Link: https://arxiv.org/abs/2605.03149

  • OCRR:分布シフト下におけるオンライン修正回復のベンチマーク [cs.LG, cs.CL]目的:分布シフト下でのオンライン修正回復率の評価
    • 機械学習モデルの性能は,実運用環境での分布シフトに大きく左右される。
    • 既存のベンチマークでは,ユーザーによる修正を考慮した回復速度を測定できない。
    • 分布シフト下でモデルがユーザーの修正を通じてどのように回復するかを評価する。
    • 提案手法OCRRは,Banking77とCLINC150データセットにおいて,新規クラスの精度と元の分布の精度を同時に回復した。
    • 特に,既存の継続学習ベースラインよりも32.6ポイント,LoRA-on-DeBERTa-v3-largeよりも84.6ポイント高い性能を示した。
    • 近似最近傍探索の精度が低下しても,分類精度は99%を維持しており,手法のロバスト性が確認された。

    Link: https://arxiv.org/abs/2605.03153

  • 例示から正しい行動を学習:自律エージェントにおける逐次実行の検証 [cs.AI, cs.SE]目的:自律エージェントにおける逐次行動の検証手法
    • 自律エージェントの高度化に伴い,その行動の正当性確認が重要となる。
    • 従来の検証手法は,手動での仕様記述や厳密なシーケンス一致,大量の学習データが必要である。
    • 少数の実行例から正しい行動を学習し,新しい実行を検証することを目指す。
    • 本手法は,わずか2〜10の成功事例から正しい行動を学習し,検証が可能である。
    • ドミネーター分析と大規模言語モデルを活用することで,本質的な状態を特定し,非決定的な行動に対応する。
    • UIテスト,コード生成,ロボットプロセスなど,多様な分野で高い精度を実証した。

    Link: https://arxiv.org/abs/2605.03159

  • スパースオートエンコーダのペアワイズ行列:単一特徴量検査が因果軸を誤識別する [cs.LG]目的:スパースオートエンコーダの解釈可能性評価プロトコルにおける問題点の指摘と,新たな評価手法の提案
    • 大規模言語モデルの内部動作の理解は,その制御と改善に不可欠である。
    • 既存の解釈可能性評価手法は,特徴量の因果関係を正確に捉えられていない可能性がある。
    • ペアワイズ行列プロトコルを用いて,特徴量の因果関係をより正確に評価することを試みる。
    • 標準的な単一特徴量検査では見逃される,特徴量のラベルと実際の挙動の不一致を発見した。
    • 複数の特徴量を同時に操作することで,単一特徴量操作では見られない,モデルの出力に対する影響を特定した。
    • 特徴量の操作方向と出力の変化パターンとの関係性が,操作の大きさではなく方向性に依存することを示唆した。

    Link: https://arxiv.org/abs/2605.03160

  • 持続ホモロジーとオイラー特性量のバイアスを用いた,大域・局所トポロジー認識型注意機構:時系列予測への応用 [cs.LG, cs.AI]目的:時系列データの予測におけるトポロジー構造の活用
    • 科学的時系列データには,予測に役立つ幾何学的構造が存在する。
    • 従来の注意機構は,これらのトポロジー構造を明示的に捉えられていない。
    • 持続ホモロジーを用いた注意機構を導入し,予測精度向上を目指す。
    • 提案手法は,CO2,S&P 500,NASA IMSのベアリング劣化といった実データで有効性が確認された。
    • 軽量注意機構/Ridgeでは,RMSEの平均相対減少率が12.5%で有意な改善が見られた(p=7.2e-4)。
    • PatchTSTとTimeSeriesTransformerにおいても,それぞれ23.5%と47.8%のRMSE減少率で有意な改善が示された(p<1e-4)。

    Link: https://arxiv.org/abs/2605.03163

  • 深層学習を用いたノイズ除去技術によるAIベース心電図波形検出現場向上 [cs.LG, eess.SP]目的:犬用心電図解析のための心電図ノイズ除去
    • 犬の心電図は臨床的に重要だが,ノイズの影響を受けやすい。
    • 従来のノイズ除去技術では,多様なノイズと波形の特徴を両立できない。
    • 本研究は,AIで波形のノイズを除去し,正確な解析を可能とする。
    • 提案手法は,ノイズを含む心電図とそうでない心電図の両方で良好な性能を示した。
    • 様々な信号条件下での堅牢性を示し,後続の波形検出現場に適していることが示唆された。
    • ノイズ除去による波形劣化を防ぎながら,効果的なノイズ低減を実現した。

    Link: https://arxiv.org/abs/2605.03183

  • Terminus-4B:エージェントタスクにおいて,より小型なモデルは最先端LLMに取って代わるか? [cs.DC, cs.AI, cs.SE]目的:エージェントタスクにおけるターミナル実行性能の比較検証
    • 近年のエージェント技術発展は目覚ましく,複雑なタスク処理への応用が期待されている。
    • 最先端LLMは計算コストが高く,実用上の制約となる場合がある。
    • 小型言語モデルによる代替は,効率的なエージェント構築に貢献しうる。
    • Terminus-4Bは,最先端モデルと同等以上の性能を発揮し,トークン使用量を最大約30%削減した。
    • サブエージェントの利用により,メインエージェントが実行するターミナルタスク数を削減することに成功した。
    • Terminus-4Bは,ベースモデルであるQwenを上回り,最先端モデルを超える性能を示す場面も見られた。

    Link: https://arxiv.org/abs/2605.03195

  • 幾何学的偏差を,事前生成信頼性シグナルとして:LLM表現における回答可能性の探求 [cs.CL, cs.LG]目的:言語モデルの事前生成における信頼性シグナルとしての幾何学的偏差の可能性
    • 言語モデルの信頼性は重要であり,知識外の質問に対する応答を避ける必要がある。
    • 現在の言語モデルは,自身の知識範囲外の質問を識別することが困難である。
    • 隠れ状態の幾何学的偏差を用いて,ラベル付きデータやモデル出力なしに回答可能性を判断する。
    • 数学の問題において,回答不可能な入力は回答可能な入力の中心から一貫して乖離し,高い識別性能を示した。
    • この幾何学的シグナルは,単純な拒否応答のベースラインよりも優れており,自己整合性とも比較できる結果となった。
    • シグナルは早期層で生成され,出力層に向かって減衰することから,回答可能性の幾何学的特徴は生成の初期段階で確立されると考えられる。

    Link: https://arxiv.org/abs/2605.03196

  • ピアレビューの自動化を厳密な評価なしに行わない [cs.NI, cs.AI]目的:ピアレビューの自動化に関する厳密な評価の必要性
    • 学術論文の質を保証する上で,ピアレビューは不可欠なプロセスである。
    • ピアレビューには時間と労力がかかるため,負担軽減が課題となっている。
    • LLMによる自動化の潜在的リスクを評価し,適切な利用方法を模索する。
    • 現在のAIシステムによる論文レビューは,過度な合意と多様性の欠如という問題がある。
    • 論文の言い換えによってAIレビューの評価が操作可能であり,科学的な内容よりも文体で左右される。
    • ピアレビューの自動化には,厳密な評価と科学的なアプローチが不可欠である。

    Link: https://arxiv.org/abs/2605.03202

  • AI飽和市場における人間由来性の検証は労働インフラとして扱われるべきである [cs.CY, cs.AI, econ.GN, q-fin.EC]目的:AI飽和市場における人間由来性の検証
    • AI技術の進展は経済構造に大きな変化をもたらす可能性があり,労働市場への影響は重要である。
    • AIによる代替が進む中で,中間層の知識労働の価値が低下し,格差が拡大する懸念がある。
    • 人間由来性の検証を労働インフラとして捉えることで,AI時代における新たな価値創造と労働のあり方を模索する。
    • AIの普及により,標準化された認知,創造,調整タスクのコストが低下し,中間層の知識労働が空洞化する可能性がある。
    • これにより,AIインフラ所有者による大量合成生産と,人間由来の存在が評価される希少な高ステータス労働との間に,非対称な価値構造が生じる可能性がある。
    • 人間由来性の検証システムを労働インフラとして扱うことで,AIガバナンスにおける人間労働の価値を維持し,新しい労働市場を構築することが期待される。

    Link: https://arxiv.org/abs/2605.03210

  • ADAPTS:症状の自動プロトコル非依存追跡のためのエージェント的分解 [cs.AI, cs.CL, cs.HC, stat.AP, stat.CO]目的:うつ病と不安症の重症度自動評価
    • 感情計算における臨床的潜在構成概念のモデリングは重要な課題である。
    • 非構造化臨床対話からの潜在的臨床概念抽出は困難を伴う。
    • 異なるインタビュー構造への適応性を高め,客観的かつ大規模な精神疾患評価を実現する。
    • ADAPTSは,混合エージェントLLMアーキテクチャを用いて,症状に特化した推論タスクに長文の臨床インタビューを分解する。
    • 高い不一致のあるインタビューにおいて,ADAPTSによる評価は専門家のベンチマークにより近く,人間の評価よりも絶対誤差が小さかった。
    • 質的な臨床慣習を取り入れた「拡張」プロトコルにより評価の安定性が向上し,絶対的合意はICC(2,1) = 0.877に達した。

    Link: https://arxiv.org/abs/2605.03212

  • エージェントが秘密を扱う場合:エージェントAIのための秘密計算に関する調査 [cs.CR, cs.AI]目的:エージェントAIにおける秘密計算の設計空間
    • AIエージェントの普及に伴い,そのセキュリティ確保は喫緊の課題となっている。
    • 既存のソフトウェアベースの防御策は,権限のある攻撃者によって回避される可能性がある。
    • ハードウェアに基づいた秘密計算により,エージェントAIのセキュリティを向上させることを目指す。
    • 本調査では,Intel SGX,TDX,AMD SEV-SNPなど,6つのTEEプラットフォームを包括的に比較検討した。
    • エージェントAI特有の脅威モデルを提示し,知覚,計画,メモリ,行動,連携の各層におけるセキュリティ目標を定義した。
    • 現在の秘密計算ベースの防御策の現状を分析し,マルチホップエージェントチェーンやGPU-TEE性能に関する課題を提示した。

    Link: https://arxiv.org/abs/2605.03213

  • MenuNet:マッチング市場のための戦略的安全性を持つメカニズム [cs.MA, cs.GT, cs.AI]目的:戦略的安全性と安定性を両立するマッチング市場メカニズムの設計
    • 市場メカニズム設計は,資源配分の効率性と公平性を高める上で不可欠である。
    • 現実の市場では制約条件が複雑であり,安定したマッチングを得ることが難しい。
    • 制約下で戦略的安全性を保ちつつ,不安定性を公平に分配するメカニズムを構築する。
    • 提案手法MenuNetは,ニューラルネットワークを用いてパーソナライズされたメニューを生成する。
    • MenuNetは,Random Serial Dictatorship(RSD)やDeferred Acceptance(DA)よりも,羨望と無駄の点で優れている。
    • 学習ベースのメニューメカニズムは,制約の厳しい現実世界の環境において柔軟性と拡張性を提供する。

    Link: https://arxiv.org/abs/2605.03216

  • LLMにおける道徳的感受性:行動プロファイリングとメカニズム解釈による文脈的バイアスの階層的評価 [cs.LG, cs.CY]目的:LLMにおける文脈依存的なバイアスの出現様相の段階的評価
    • LLMは倫理的判断が求められる場面で利用が増加しており,その倫理的側面に関する評価が重要である。
    • 従来のバイアス評価は「バイアスあり/なし」の二分法であり,バイアスの微妙な変化や文脈依存性を捉えきれていない。
    • バイアスの段階的変化を定量化し,そのメカニズムを解明することで,より安全なLLM開発に貢献する。
    • 道徳的感受性指標(MSI)を導入し,LLMのバイアス発現度を7段階で評価した結果,モデルによって特徴的な行動パターンが確認された。
    • Gemini 1.5は社会経済的文脈下でMSIが72.7%に達した一方,Claudeはアイデンティティに基づく安全対策によりバイアスが抑制される傾向がみられた。
    • 回路レベル分析から,モデルの規模とバイアスの関係がU字型であることが示された。蒸留によって推論痕跡が圧縮され,浅い統計的関連が再活性化される可能性が示唆された。

    Link: https://arxiv.org/abs/2605.03217

  • 活性化アラインメントを超えて:ニューラル感度の幾何学 [cs.LG, stat.ML]目的:ニューラル感度の幾何学的特徴の解析
    • 脳と人工ニューラルネットワークの表現比較は,神経科学とAI研究の発展に不可欠である。
    • 既存手法はグローバルなタスクレベルでのアラインメントに偏り,局所的な刺激証拠の利用方法を捉えきれていない。
    • 局所的な識別能力に着目し,表現の微小な摂動に対する感度を定量化する新しいフレームワークを提案する。
    • 本研究では,Fisher情報と局所的な表現幾何学に基づき,期待される射影プルバック/Fisher指標を用いて表現を要約する。
    • 提案手法S-RASは,独立に学習されたニューラルネットワーク間で対応する層を特定し,汎化性能の高いクラス条件付きプローブを可能にする。
    • マウスの視覚皮質データを用いた実験により,標準的およびロバストな学習間,また刺激座標族の効果に関して有意な差異が明らかになった。

    Link: https://arxiv.org/abs/2605.03222

  • 安全ファインチューニングのための自己生成困難度 [cs.LG, cs.AI, cs.CR]目的:言語モデルの安全ファインチューニング手法
    • 言語モデルの安全性確保は,社会実装において不可欠であり,その重要性は増している。
    • 既存の安全ファインチューニングは,専門家による有害なプロンプトの作成に依存し,コストが高い。
    • モデル自身で困難なプロンプトを特定し,それを用いて安全性を向上させる方法を模索する。
    • 本手法は,Llama-3モデルにおいて,WildJailbreak攻撃の成功率を大幅に削減することに成功した。
    • しかし,無害なプロンプトに対する拒否率が上昇するという課題も明らかになった。
    • 有害プロンプトと無害プロンプトを混合して学習することで,拒否率を抑制しつつ,攻撃成功率を低減することができた。

    Link: https://arxiv.org/abs/2605.03226

  • LLMにおける決定論的計算のためのプロンプティングと実行ベース手法の評価 [cs.AI]目的:LLMにおける決定論的計算の精度向上
    • 自然言語処理の発展に伴い,LLMの活用範囲が拡大しているため,その能力の限界を知ることは重要である。
    • LLMは自然言語理解や推論に優れる一方,厳密な計算能力は必ずしも高くなく,信頼性に課題がある。
    • LLMにおける決定論的計算の実現可能性を探り,より信頼性の高い計算手法を確立することを目指す。
    • 標準的なプロンプティング手法では,系列ベースのタスクにおいて中程度の精度しか得られないことが示された。
    • PoTは実行可能なコード生成により完璧な精度を達成し,Self-Consistencyは多数決によりロバスト性を向上させた。
    • ドメイン特化型モデル(CodeT5-small)は,最小限の学習コストで完璧な精度を達成し,LLMの限界と外部ツールとの組み合わせの有効性を示唆した。

    Link: https://arxiv.org/abs/2605.03227

  • MAGE:長期的な脅威からLLMエージェントを保護するシャドウメモリ [cs.CR, cs.AI, cs.CL]目的:LLMエージェントに対する長期的な脅威の防御
    • LLMエージェントの利用拡大に伴い,安全性確保が重要課題となっている。
    • 従来の防御手法では,複数ターンにわたる攻撃に対応が困難である。
    • エージェントの行動履歴を安全に管理し,早期に脅威を検知・軽減する。
    • MAGEは,エージェントの安全に焦点を当てた独立したメモリを維持することで,長期的な脅威を効果的に検出する。
    • 既存の防御手法と比較して,検出精度が大幅に向上し,攻撃の早期発見を実現する。
    • エージェントの有用性への影響は軽微であり,実用的な防御フレームワークとなりうる。

    Link: https://arxiv.org/abs/2605.03228

  • スパースメモリファインチューニング:LoRAおよびフルファインチューニングに対する低忘却の代替手法 [cs.CL, cs.LG]目的:事前学習済み言語モデルの新たなタスクへの適応における忘却問題の軽減
    • 大規模言語モデルは様々なタスクに応用可能だが,新たなタスク学習時に既存能力が失われる場合がある。
    • ファインチューニングは性能向上に有効だが,既存知識の忘却という副作用を伴うことが多い。
    • スパースメモリファインチューニングを用いて,性能向上と忘却抑制の両立を目指す。
    • スパースメモリファインチューニングは,MedMCQAにおいて2.5%の性能向上を達成した。
    • 既存の知識の喪失を示す忘却プローブ(WikiText perplexity, TriviaQA accuracy)の劣化を,LoRAやフルファインチューニングよりも抑制した。
    • 行選択規則(KL divergenceとTF-IDF)の違いが,忘却指標に異なる影響を与えることが確認された。

    Link: https://arxiv.org/abs/2605.03229

  • cotomi Act:あなたの行動を観察して作業を自動化する学習 [cs.AI]目的:作業自動化学習
    • 日常的なPC作業の効率化が求められており,自動化技術への期待は大きい。
    • 既存の自動化ツールは,設定が複雑であったり,変化への対応が難しいという課題がある。
    • ユーザーの行動を観察・学習することで,柔軟かつ容易な作業自動化を実現する。
    • cotomi Actは,ブラウザ上でユーザーの行動を観察し,多段階のタスク実行と知識の獲得を可能にする。
    • WebArenaの評価において,80.4%の成功率を達成し,人間のベースライン(78.2%)を上回った。
    • ユーザーの行動から得られた知識を,タスクボードやWikiなどの形式で共有し,タスク成功率の向上に貢献する。

    Link: https://arxiv.org/abs/2605.03231

  • エージェントの安全性判断の向上:欺瞞的な分布外シナリオにおける制御されたベンチマークの書き換えと類推的推論 [cs.AI]目的:欺瞞的かつ曖昧な状況下におけるエージェントの安全性判断能力の評価と改善
    • LLMを活用したツール使用エージェントの利用が拡大しており,その安全性確保は重要である。
    • 既存の安全性ベンチマークは明示的なリスクに焦点を当てており,欺瞞的状況への対応が不足している。
    • 欺瞞的な分布外シナリオを再現するベンチマークを構築し,エージェントの安全性判断を検証・改善する。
    • ROMEパイプラインを用いて,リスクラベルを維持しつつ,より欺瞞的な評価インスタンスを300個生成した。
    • 生成されたチャレンジセットは,特に隠れたリスクを持つケースにおいて,安全性判断の性能を著しく低下させた。
    • ARISEは,類推的推論により安全性判断の質を向上させるが,再学習は不要であり,タスク固有の堅牢性向上策である。

    Link: https://arxiv.org/abs/2605.03242

  • S^2tory:映画脚本の要約のためのストーリー・スパイン蒸留 [cs.CL, cs.AI]目的:映画脚本要約のためのストーリー・スパイン蒸留フレームワーク
    • 物語の構造理解は,娯楽や情報伝達において重要であり,自動要約技術への応用が期待される。
    • 従来の要約手法は,映画脚本の非線形的な構造に対応できず,物語の本質を捉えきれないという課題がある。
    • 物語の核となる出来事を特定し,冗長な情報を除去することで,より高品質な映画脚本要約を実現することを目指す。
    • 本研究で提案するS^2toryは,登場人物の成長軌跡に基づき,物語の核となるプロットを識別する。
    • MovieSumデータセットにおける実験により,S^2toryは最先端の性能を示し,約3.5倍の圧縮率で高い意味的忠実性を実現した。
    • BookSumデータセットでのゼロショット評価により,異なるドメインへの高い汎化性能も確認された。

    Link: https://arxiv.org/abs/2605.03244