arXiv雑要約

AI - 2026/05/15 公開

テスト時の学習と進化する知識ライブラリ [cs.LG]目的：テスト時学習における知識の蓄積，再利用，進化
- 大規模言語モデルの性能向上には，事前学習に加え，タスク適応が重要である。
- 従来のテスト時学習手法では，汎化性能や長期的な知識の維持が課題であった。
- モデルパラメータ更新なしに，知識の進化と再利用を可能にする枠組みを提案する。
- EvoLibは，モデルの推論過程から抽出された知識抽象（モジュールスキルや反省的知見）の共有ライブラリを維持する。
- 即時的な有用性と長期的な価値を両立させる重み付けと統合メカニズムを導入し，知識抽象の継続的な改善を支援する。
- 数学的推論，コード生成，マルチターンエージェント環境において，既存手法を大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2605.14477
検索がコード補完を阻害する場合：陳腐化したリポジトリコンテキストの診断研究 [cs.SE, cs.AI, cs.CL]目的：陳腐化したリポジトリスニペットが，無害なノイズとなるか，あるいは現在の状態と互換性のないコードを誘発するかという検証
- コード生成において，ファイル間のリポジトリコンテキストの活用が重要である。特に大規模言語モデルの性能向上に寄与する。
- 検索拡張型コード生成では，古い状態のリポジトリスニペットが利用される可能性があり，その影響が不明確である。
- リポジトリコンテキストの鮮度とコード生成モデルの頑健性の関係を明らかにすることで，より信頼性の高いコード生成を目指す。
- 鮮度を中立化したプロンプト下で，陳腐化したスニペットのみを利用した場合，Qwen2.5-Coder-7B-Instructとgpt-4.1-miniにおいてそれぞれ15/17，13/17のサンプルで陳腐化したヘルパー参照が生じた。
- 検索を行わない場合は，陳腐化した参照は発生しなかったが，合格するコード補完は1/17にとどまった。
- 両モデル間で，陳腐化を誘発するサンプルに75.0%のJaccard係数が認められ，有効な現在のエビデンスを追加することで，陳腐化による失敗をある程度改善できることが示された。
Link: https://arxiv.org/abs/2605.14478
カウンターファクチュアル強化学習による実行可能マルチエージェントオーケストレーション学習：LEMON [cs.CL, cs.AI]目的：マルチエージェントシステムの実行可能オーケストレーション仕様の生成
- LLMを活用したマルチエージェントシステム構築において，オーケストレーション設計が重要である。
- 既存手法は部分最適化や逐次的な設計，限られた報酬帰属による課題がある。
- 局所的なカウンターファクチュアル信号による報酬コントラストを利用し，オーケストレーション設計を改善する。
- LEMONは，MMLU，GSM8K等の6つの推論・コーディングベンチマークにおいて，最先端の性能を達成した。
- タスク固有の役割，義務，能力レベル，依存構造を統合した実行可能なオーケストレーション仕様を生成する。
- オーケストレーションレベルのGRPO目標に，役割，能力，依存関係を編集した局所的なカウンターファクチュアル信号を加える。
Link: https://arxiv.org/abs/2605.14483
ヘッド強制：ヘッドの異質性による長尺自己回帰型ビデオ生成 [cs.CV, cs.AI]目的：長尺ビデオ生成におけるエラー蓄積と文脈消失
- ビデオ生成技術は，現実世界の表現を可能にする重要な分野であり，その進化が求められている。
- 自己回帰型ビデオ拡散モデルは，長尺の生成においてエラーの蓄積や文脈の消失といった課題を抱えている。
- アテンションヘッドの役割分担を最適化し，長尺かつ高品質なビデオ生成を可能にすることを目的とする。
- 提案手法「ヘッド強制」は，学習を必要とせずに，ビデオ生成時間を5秒から数分に延長することに成功した。
- 各ヘッドタイプに最適化されたKVキャッシュ戦略を適用することで，メモリ効率と生成品質を向上させた。
- マルチプロンプトによるインタラクティブな生成にも対応し，既存手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2605.14487
Deepchecks：検索拡張生成（RAG）の評価 [cs.AI]目的：検索拡張生成システム評価のための包括的フレームワーク
- LLMとRAG技術は様々な分野で活用が拡大しており，その性能評価が重要である。
- RAGシステムの評価は，生成の確率的性質と検索・生成間の複雑な相互作用により困難である。
- 本研究は，RAGシステムの信頼性，関連性，ユーザー満足度を評価するための堅牢な基盤を提供する。
- Deepchecksは，RAGアプリケーションの評価を多面的に行うためのフレームワークである。
- 根本原因分析と本番環境モニタリングを通じて，RAGシステムの評価を支援する。
- アプリケーション固有の要件への適合性を確保し，RAGシステムの信頼性向上に貢献する。
Link: https://arxiv.org/abs/2605.14488
安定な状態空間ニューラルネットワーク構造のための新しいSchur分解に基づく重み投影法 [cs.LG, cs.SY, eess.SY]目的：動的システムの安定な状態空間ニューラルネットワーク構造の設計
- 機械学習において，データから動的システムのブラックボックスモデルを構築する重要性が増している。
- 漸近安定性の保証が必要な場合，安定性を確保しながら学習を行うことが課題となっている。
- 状態行列のSchur分解に基づく投影法により，安定性を確保しつつ効率的な学習を目指す。
- 提案手法は，状態行列のSchur分解を利用し，安定なダイナミクスを保証しながら，最小限の過剰パラメータ化を実現する。
- 合成された線形システムに対する実験により，本手法が最先端の安定システム同定技術と同等の精度と収束率を達成することが示された。
- 本手法は，実世界のデータセットを対象としたスタックされたニューラルネットワークにおいても，高い精度を維持しつつ収束を促進する。
Link: https://arxiv.org/abs/2605.14489
離散不確実性を持つ二段階ロバスト最適化のためのシナリオ削減 [cs.AI, cs.LG]目的：二段階ロバスト最適化におけるシナリオ削減手法の開発
- 不確実性下での意思決定は重要であり，ロバスト最適化はそのための強力な手法である。
- シナリオ数が増加すると計算コストが大きくなり，現実的な規模の問題への適用が困難になる。
- 計算効率を維持しつつ，ロバスト最適化の解質を損なわないシナリオ削減手法を開発する。
- 提案手法NeurPRISEは，既存手法と同等の性能を維持しつつ，計算時間を大幅に短縮できる。
- NeurPRISEは，問題規模やシナリオ数が増加した場合でも，高いスケーラビリティを示す。
- NeurPRISEは，未知の問題に対しても高い汎化性能を発揮し，実用的な応用範囲が広い。
Link: https://arxiv.org/abs/2605.14494
マルチモーダル検証のためのアリーナベースの議論計算を用いた，論争可能なマルチエージェント討論 [cs.MM, cs.AI]目的：マルチモーダル検証における透明性と論争可能性の確保
- マルチメディア情報の信頼性確保は，社会における情報操作や誤情報拡散を防ぐ上で重要である。
- 既存の検証手法は，結論の根拠が不透明で，議論の余地がない場合がある。
- 本研究は，透明性と論争可能性を備えた検証システムの構築を目指す。
- マルチモーダル大規模言語モデル，外部検証ツール，アリーナベースの定量二極的議論計算(A-QBAF)を統合したフレームワークを提案した。
- 提示された手法は，各事例をクレーム中心のセクションに分解し，証拠を構造化された支持と攻撃の議論に変換する。
- セクションごとの検証レポートは透明性が高く，編集可能であり，実世界のマルチメディア検証に実用的である。
Link: https://arxiv.org/abs/2605.14495
オフラインからオンラインへの強化学習のための適応的データ混合：二層最適化によるROAD [cs.LG, cs.AI]目的：オフラインからオンラインへの強化学習における，データ混合戦略の最適化
- 強化学習は，自律的な意思決定システムの開発に不可欠であり，その応用範囲は広い。
- オフラインデータとオンラインポリシー間の分布のずれが，学習の安定性と性能を損なう。
- 動的なデータ混合により，環境や学習状況の変化に適応し，性能向上を目指す。
- 提案手法ROADは，二層最適化を用いてデータ選択問題を解決し，データ混合戦略を自動化する。
- ROADは，既存手法における目的の不一致を解消し，オフラインデータの事前知識を維持しつつ，過大評価を防ぐ。
- 実験結果から，ROADが様々なデータセットで既存手法を上回り，安定性と漸近的な性能を向上させることが示された。
Link: https://arxiv.org/abs/2605.14497
ドックレス自転車シェアリングシステムにおける深層強化学習を用いた完全動的再配置 [eess.SY, cs.AI, cs.LG, cs.SY]目的：ドックレス自転車シェアリングシステムの再配置戦略
- 都市部の交通渋滞緩和や環境負荷軽減に貢献するシェアリングシステムの普及が重要である。
- 既存の再配置方法は周期的なシステム全体への介入に依存し，柔軟性に欠けるという課題がある。
- リアルタイムな需要変動に対応し，効率的かつ公平な再配置を実現することでサービス品質を向上させる。
- 深層強化学習エージェントが単一のトラックをリアルタイムで制御し，局所的な集荷，配達，充電アクションを実行することに成功した。
- 実際のデータを用いた実験により，最小限のフリート規模で利用不可の発生を大幅に削減できることが示された。
- 空間的な不平等や移動困難地域を抑制し，効率的で信頼性の高いシェアリングモビリティの実現に貢献する。
Link: https://arxiv.org/abs/2605.14501
電力電子システムにおけるインピーダンスに基づく攻撃到達可能領域によるサイバー脆弱性の定量化 [eess.SY, cs.AI, cs.SY]目的：電力電子システムのサイバー脆弱性評価指標
- 電力電子システムはデジタル制御・通信網との連携が進み，その重要性は増している。セキュリティ確保が不可欠である。
- 既存の評価指標では，攻撃者がどの程度システムを不安定化させられるかの定量的な評価が困難であった。
- 攻撃者の権限を考慮した上で，システムを不安定化させる攻撃の可能性を定量的に評価することを目指す。
- 本研究では，インピーダンスに基づく攻撃到達可能領域（ARD）フレームワークを提案し，攻撃可能なアクションと固有値の移行を関連付けた。
- 提案手法により，安定余裕の浸食度と攻撃成功の容易さを考慮した攻撃侵入指数を定義し，ノードレベルのサイバー脆弱性を定量化した。
- シミュレーション結果から，多層的な攻撃の方が単層的な攻撃よりも破壊的であり，提案指標がグリッド強度の指標だけでは捉えられない脆弱性を明らかにすることが示された。
Link: https://arxiv.org/abs/2605.14502
ロボットがお手伝いをする：長期間の家事タスク実行のためのベンチマークとエージェント [cs.AI]目的：長期間の家事タスクにおける計画レベルの自律性の評価
- 家庭用ロボットの普及には，複雑なタスクを自律的に実行する能力が不可欠である。
- 既存のAIベンチマークは短期間のタスクに焦点を当てており，長期間の計画能力を評価できていない。
- 自由形式の指示に基づいて，長期間の家事タスクを自律的に実行できるエージェントの開発。
- LongActベンチマークを導入し，高度な認知能力の評価を可能にした。
- VLM駆動型エージェントHoloMindを提案し，長期間タスクの性能を大幅に向上させた。
- 現在の最先端モデルでもタスク完了率が低く，長期間の計画能力の向上が必要であることを示した。
Link: https://arxiv.org/abs/2605.14504
非対称生成推薦：多専門家射影と多面的階層量子化による [eess.SY, cs.SY, cs.IR, cs.AI]目的：生成推薦モデルにおける情報ボトルネックの緩和
- 推薦システムは，情報過多な現代において，ユーザーに最適な情報を提供する上で不可欠である。
- 既存の生成推薦モデルは，セマンティックIDの量子化による情報損失や偏りが課題となっていた。
- 入力と出力表現を分離し，セマンティック情報の損失を抑制することで推薦精度向上を目指す。
- 提案手法AsymRecは，多専門家射影により，連続埋め込みからTransformerの潜在空間へのマッピングを改善し，少ないアイテムへの汎化性能を高める。
- 多面的階層量子化により，高容量で構造化された離散ターゲットを構築し，次元崩壊を防ぎながら，きめ細かい識別能力を維持する。
- 実験結果から，AsymRecは最先端の生成推薦モデルを平均15.8%上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2605.14512
HASTE：ヘッドごとの適応的疎な注意による，学習不要の動画拡散加速 [cs.CV, cs.AI]目的：動画拡散モデルの高速化手法
- 動画生成技術は進歩しているが，計算コストが課題となっている。
- 既存の疎な注意機構は，マスク予測や閾値設定にコストがかかる。
- ヘッドごとの適応的調整により，高速化と品質維持を両立する。
- 提案手法は，Wan2.1-1.3BとWan2.1-14Bにおいて，XAttentionとSVG2の速度を最大1.93倍に向上させた。
- 動画品質と類似性指標を維持しつつ，高速化を実現している。
- Temporal Mask ReuseとError-guided Budgeted Calibrationの2つのコンポーネントが有効であることが示された。
Link: https://arxiv.org/abs/2605.14513
大規模言語モデルの次元レベル意図忠実性評価：構造化プロンプト除去実験による検証 [cs.CL, cs.AI]目的：大規模言語モデルの出力における構造と意図の忠実性を次元レベルで評価する枠組み
- 近年，大規模言語モデルの性能向上は目覚ましいが，出力の質を的確に評価する方法が課題となっている。
- 従来の包括的な評価指標では，構造の再現性と意図の保持を区別できず，詳細な分析が困難である。
- 本研究は，次元レベルでの評価を通じて，LLMの出力における意図の忠実性をより正確に把握することを目的とする。
- 構造化プロンプト除去実験の結果，言語やタスクの種類によっては，包括的な評価スコアが満点であっても，次元レベルで意図の欠如が見られるケースが少なくないことが判明した。
- 特に英語の出力においては，この傾向が顕著であり，全体の58.6%に達した。人間による評価も，これらの結果を支持している。
- 意図の欠如の度合いとモデルの出力品質の関係を分析した結果，深刻な次元レベルの反転は一貫して有害であることが示された。
Link: https://arxiv.org/abs/2605.14517
ArcGate：適応逆正接関数ゲート活性化関数 [cs.CV, cs.LG]目的：深層ネットワークにおける活性化関数の最適化
- 深層学習の性能は活性化関数に大きく依存し，その重要性は高い。
- 従来の活性化関数は形状が固定されており，データやタスクへの適応性に課題がある。
- データ分布や特徴階層に合わせて非線形性を最適化する活性化関数を開発する。
- ArcGateはPatternNetにおいて99.67%の最高精度を達成し，既存の活性化関数を上回った。
- ArcGateはノイズ環境下でReLUと比較して26.65%高い性能を維持し，構造的な堅牢性を示した。
- 学習されたパラメータの分析から，深い層ほどゲートの強度が強まり，信号伝播が向上することが示唆された。
Link: https://arxiv.org/abs/2605.14518
RMSNormの計算効率を活用したレイヤー正規化の享受 [cs.LG]目的：レイヤー正規化をRMSNormで置き換える可能性の判定
- 深層学習においてレイヤー正規化は不可欠だが，計算コストが高い。
- RMSNormは効率的だが，中心化の利点を失う可能性がある。
- モデルの予測を変えずに，レイヤー正規化をRMSNormに変換すること。
- 提案手法により，多くの一般的なアーキテクチャにおけるレイヤー正規化がRMSNormに変換可能であることが示された。
- 変換により，推論時間の加速が2%から12%で実現された。
- 実用的な訓練設定下では，完全に等価でなくても，レイヤー正規化と同等の性能を維持しながら効率が向上した。
Link: https://arxiv.org/abs/2605.14521
Lang2MLIP：自律的エージェントワークフローによる言語から機械学習間原子間ポテンシャル開発 [cs.LG, cond-mat.mtrl-sci, physics.comp-ph]目的：複雑材料系の機械学習間原子間ポテンシャル開発
- 材料設計において，原子レベルでのシミュレーションは不可欠であり，その精度が重要である。
- 従来のMLIP開発は専門知識を要し，多様な材料系への適応が難しいという課題がある。
- Lang2MLIPは，自然言語入力を基にMLIP開発を自動化し，専門家以外のアクセス性を向上させる。
- Lang2MLIPは，大規模言語モデル（LLM）を用いたマルチエージェントフレームワークであり，事前のパイプライン定義を不要とする。
- エージェントは，データセット，モデル，評価結果，実行ログを観察し，自動的に最適な行動を選択してモデルを改善する。
- 固体電解質界面（SEI）システムでの評価により，LLMベースのマルチエージェントシステムがMLIP開発の自動化に有望であることが示された。
Link: https://arxiv.org/abs/2605.14527
PROVE：視覚メディアのための知覚的除去一貫性ベンチマーク [cs.CL, cs.CV, cs.AI, cs.MM]目的：画像および動画におけるオブジェクト除去の一貫性評価
- 視覚メディアの編集技術は高度化しており，その品質評価が重要となっている。
- 既存の評価指標は人間の知覚と一致せず，不自然な結果を高く評価する傾向がある。
- 人間の知覚に合致する，より正確なオブジェクト除去の評価指標を開発すること。
- 提案手法RC（Removal Coherence）は，空間一貫性（RC-S）と時間一貫性（RC-T）を測定する。
- RCは，既存の評価プロトコルよりも人間の判断との相関が大幅に向上した。
- PROVE-Benchという二段階のベンチマーク（PROVE-MとPROVE-H）を新たに導入した。
Link: https://arxiv.org/abs/2605.14534
大規模言語モデルにおける活性化パッチングを通じた地理的相対空間の探求 [cs.LG]目的：大規模言語モデルにおける地理的相対空間の処理機構の解明
- 地理学分野へのLLM活用が進む中，その安全性確保が重要課題となっている。
- LLMの内部動作原理が不明瞭なため，地理的分析への応用における潜在的リスク評価が困難である。
- 活性化パッチングを用いて，LLMが地理的相対空間をどのように認識・処理するかを明らかにすること。
- 活性化パッチングは，LLMの内部メカニズムを解釈するための有用な手法であることが示唆された。
- 本研究は，LLMが地理的空間情報をどのように符号化し，利用しているかに関する洞察を提供する。
Link: https://arxiv.org/abs/2605.14535
家畜取引：LLMのブラフ，入札，交渉のためのマルチエージェントベンチマーク [cs.AI]目的：LLMエージェントの戦略的推論能力の評価
- 高度なAIエージェント開発において，戦略的思考と不完全情報下での意思決定は不可欠である。
- 既存のベンチマークは個別の能力に焦点を当てており，複数の能力の統合的な評価が困難である。
- 複雑な経済環境におけるエージェントの総合的な能力を評価するベンチマークを開発すること。
- Cattle Tradeベンチマークは，入札，交渉，ブラフといった複数の戦略的要素を統合したゲームである。
- LLMの戦略的整合性，特に支出効率とリソース管理がランキングと強く関連していることが示された。
- 一部のヒューリスティックコードエージェントは，多くのLLMよりも優れた性能を示し，LLMの弱点（過剰入札，自己入札など）が明らかになった。
Link: https://arxiv.org/abs/2605.14537
販売促進型ライブコマースのための知的なバーチャルホスト VerbalValue [cs.CL, cs.DC, cs.AI]目的：販売促進を目的としたバーチャルホストの構築
- ライブコマースは急速に成長しており，販売に大きな影響を与える重要なチャネルである。
- 既存のAIシステムは，製品知識や感情的な応答，効果的なセールストークが不足している。
- 製品知識と販売スキルを兼ね備えた，販売を促進するAIバーチャルホストを開発すること。
- VerbalValueは，製品仕様と販売用語の知識ベースを活用し，正確な情報を提供する。
- ライブコマースのインタラクションデータを学習し，共感的で商業的な応答を生成する。
- 既存のLLMと比較して，情報量，正確性， tactfulness，視聴者のエンゲージメントにおいて優れている。
Link: https://arxiv.org/abs/2605.14542
RxEval：LLM薬剤推奨能力を評価するための処方レベルベンチマーク [cs.LG, cs.AI]目的：LLM薬剤推奨能力の評価
- 入院患者の薬剤選択は頻繁に行われ，患者の状態変化に対応する必要がある。
- 既存のベンチマークは粗い薬剤コードで評価し，時間経過に伴う情報や詳細な処方内容を考慮していない。
- より現実的な処方状況を反映した，LLM薬剤推奨能力の精密な評価を目指す。
- RxEvalは，詳細な患者情報と時間経過の臨床データに基づき，適切な薬剤・投与量・投与経路を選択させる多肢選択式の質問で構成される。
- 16種類のLLMを評価した結果，F1スコアは45.18%から77.10%の範囲，Exact Matchは最高で46.10%にとどまり，課題が残る。
- エラー分析から，最先端モデルでも患者情報を見落としたり，臨床的推論が不十分なケースが確認された。
Link: https://arxiv.org/abs/2605.14543
甘んじること，迎合することなく：大規模言語モデルの再構築と，甘んじる機械のためのAIリテラシーの設計 [cs.AI]目的：大規模言語モデルの行動特性に関する理解の再構築と，それに対応するためのAIリテラシー教育のあり方
- AI技術の発展に伴い，その影響は社会全体に及んでおり，技術の適切な理解と活用が重要である。
- 大規模言語モデルがユーザーの意見に迎合的に反応することに対する誤解が存在し，AIの倫理的な問題が議論されている。
- 大規模言語モデルの「甘んじる」特性を理解し，ユーザーの確証バイアスに対抗する教育方法を確立すること。
- 大規模言語モデルの行動は，戦略的な意図による迎合ではなく，訓練データや報酬設計に起因する「甘んじる」特性として捉えられる。
- モデル自体は「甘んじる」だけであり，開発者や制度側に責任の所在があるという視点が重要である。
- AIリテラシー教育においては，確証バイアスに対抗するための戦略に焦点を当てるべきである。
Link: https://arxiv.org/abs/2605.14544
重み空間における物理方向の発見：ニューラル偏微分方程式専門家の合成 [cs.LG]目的：ニューラル偏微分方程式専門家を合成するための物理的な方向性の発見
- 偏微分方程式のシミュレーションは科学技術の発展に不可欠であり，計算コストが課題となることが多い。
- 既存のニューラルオペレーターは汎化性能に課題があり，特に未知の領域への予測精度が低い。
- 本研究は，ニューラルオペレーターの重み空間における物理的な方向性を明らかにし，未知領域への汎化性能を向上させる。
- 複数の物理パラメーターに対して微調整されたニューラルネットワークの重み更新は，物理パラメーターに沿った方向性を持つことが示された。
- 提案手法CCMは，物理メタデータや観測データを用いて，重み空間における適切な組み合わせを推論し，高い予測精度を実現した。
- 反応拡散系，ナビエ-ストークス方程式，ダムブレイク現象のベンチマークにおいて，CCMは未知領域での誤差を大幅に削減した。
Link: https://arxiv.org/abs/2605.14546
多次元モデルの完全性と責任評価指標及びスコアリングフレームワーク [cs.LG]目的：表形式データにおけるAIモデルの完全性と責任の評価
- 高リスクな表形式データ領域では，AIの性能評価に倫理的側面が不可欠である。
- 説明可能性，公平性，堅牢性等の評価が個別に行われ，統合的な視点が欠如している。
- モデルの多次元的な側面を統合的に評価し，責任あるモデル選択を支援すること。
- 提案するMIRAI指標は，予測性能に加え，説明可能性，公平性等の多次元評価を統合する。
- 実験の結果，予測性能が高いモデルが必ずしも完全性・責任において優れているとは限らないことが示された。
- より単純なモデルが，複雑なモデルよりも次元間のバランスに優れる場合があることが明らかになった。
Link: https://arxiv.org/abs/2605.14550
SeesawNet：共通依存性と固有依存性のバランスモデルによる非定常時系列予測へ [cs.LG]目的：非定常時系列予測における共通依存性と固有依存性のバランスモデル
- 時系列データは様々な分野で出現し，将来予測は重要な課題である。
- 非定常性により，時系列データの分布が変化し，予測精度が低下する。
- インスタンスごとの非定常構造に適応的に共通・固有依存性をモデル化する。
- 提案手法SeesawNetは，適応的 Stationary-Nonstationary Attention (ASNA) を用いることで，正規化系列からの共通依存性と，生系列からの固有依存性を動的にバランスさせる。
- SeesawNetは，時間的およびチャネル次元の両方で，共通依存性と固有依存性のモデリングを交互に行うことで，長距離および交変量間の依存関係を捉える。
- 複数の実世界ベンチマークにおける実験により，SeesawNetが最先端手法を常に上回ることが示された。
Link: https://arxiv.org/abs/2605.14551
純粋探索バンディットによる効率的な多目的プロンプト最適化 [cs.LG, cs.AI]目的：多目的プロンプト選択問題
- 大規模言語モデルの能力を引き出す上で，プロンプトエンジニアリングが不可欠となっている。
- プロンプトの性能は多面的であり，単一の指標では捉えきれないという課題がある。
- 多目的プロンプト選択問題を効率的に解決し，性能向上を目指す。
- 提案手法は，パレートプロンプト集合の回収と最適なプロンプトの特定において，既存手法を上回る性能を示した。
- 多目的バンディットアルゴリズムを応用し，構造化バンディットにおける最適なアーム識別に関する新たな設計を導入した。
- 理論的な誤差限界を保証しつつ，大規模言語モデルを用いた実験で有効性を確認した。
Link: https://arxiv.org/abs/2605.14553
ブレイク・ザ・ビート！制御可能なMIDI-to-ドラム音響合成 [cs.SD, cs.AI]目的：ドラムMIDIと参照オーディオの音色を用いたドラム音響のレンダリング
- デジタル音楽制作において，ドラムループの作成は不可欠であり，その効率化が求められている。
- 既存手法では，サンプルやリサンプリングに手間がかかる上，生成モデルは制御性に欠ける。
- 高解像度MIDIに基づく高品質なドラム音響生成を通じて，制作ワークフローを改善すること。
- 提案手法「ブレイク・ザ・ビート！」は，MIDI情報と参照音源の音色を組み合わせ，ドラム音響を合成可能である。
- 事前学習済みのテキストtoオーディオモデルをファインチューニングし，コンテンツエンコーダとハイブリッド条件付け機構を導入した。
- 音質，リズム精度，ビートの連続性に関する評価において，高い性能が確認された。
Link: https://arxiv.org/abs/2605.14555
TeachAnything：対称的現実における具現化されたAIエージェントの訓練のためのマルチモーダルクラウドソーシングプラットフォーム [cs.AI]目的：対称的現実に対応した具現化されたAIエージェント開発のための実用的な基盤
- 人間とエージェントが共存する未来において，エージェントに人間らしい知能が求められているため。
- 既存の手法では，多様な人間からの指導やデータ収集が困難であった。
- 多様なシーン，タスク，具現化に対応したデモンストレーションデータの収集を可能にする。
- TeachAnythingは，マルチモーダルなデモンストレーション信号を統合する3段階のデモンストレーションパラダイムを実装した。
- 仮想環境と物理環境の両方における相互作用を統一することで，多様なデータを効率的に収集するクラウドソーシングプラットフォームである。
- このプラットフォームは，対称的現実に対応した具現化されたAIエージェント開発の基礎となる。
Link: https://arxiv.org/abs/2605.14556
行動ボトルネックの解消：トークンレベルエネルギーに基づくエージェント強化学習 [cs.LG, cs.AI, cs.CL]目的：行動ボトルネック現象の解明と，それに対応するトークン再重み付け手法の開発
- 大規模言語モデルの強化学習は，複雑なタスクの自動化において重要性が増している。
- 従来の強化学習手法では，トークンごとの貢献度が均一に評価され，学習効率が低い。
- 行動トークンに学習信号を集中させ，強化学習の性能向上を目指す。
- 本研究では，トークンレベルのエネルギーに基づいて行動ボトルネックという現象を特定した。
- 提案手法ActFocusは，推論トークンの勾配を抑制し，行動トークンの重みを増加させることで，PPOやGRPOを上回る性能を発揮した。
- ActFocusは，追加の計算コストなしに，最大65.2%および63.7%の最終ステップの改善を達成した。
Link: https://arxiv.org/abs/2605.14558
PyCSP3-Scheduling：PyCSP3のスケジューリング拡張 [cs.AI]目的：PyCSP3におけるスケジューリング抽象化の提供
- 組合せ最適化問題解決において，制約プログラミングは強力な手法である。
- PyCSP3は制約モデリングに優れるが，スケジューリング抽象化のサポートが不足している。
- PyCSP3のモデリング/求解分離を維持しつつ，スケジューリング問題をより簡潔に表現すること。
- PyCSP3-Schedulingライブラリは，53個の制約と27個の式を追加することでスケジューリング抽象化をPyCSP3に統合した。
- 261個のテストインスタンスで，最適解が検証されたペアでは同一の結果が得られた。
- 一部のモデルファミリーでは実行時間が最大5.8倍向上する一方，コンパイルのオーバーヘッドにより低下するケースもあった。
Link: https://arxiv.org/abs/2605.14559
プロンプト分割と注釈最適化：最適化されたセグメントレベル注釈によるLLMの行動制御 [cs.AI]目的：プロンプト最適化の制御性と効率性の向上
- 生成AIとの効果的な対話にはプロンプトエンジニアリングが不可欠であり，その重要性は増している。
- 既存の最適化手法は，構造化されていない広大なプロンプト空間で動作し，計算コストが高い。
- セグメントレベルの注釈最適化により，LLMの応答品質を向上させ，意図の歪みを防ぐことを目指す。
- プロンプトを解釈可能なセグメントに分割し，人間が読める注釈を加えることで，LLMの応答改善に繋がる。
- 最適化されたセグメントレベル注釈は，推論精度と自己整合性を向上させる効果が確認された。
- 本研究は，セグメントレベル注釈最適化の実現可能性を示す概念実証であり，さらなる研究の基盤となる。
Link: https://arxiv.org/abs/2605.14561
行動駆動型ソフトウェアテストスイートにおけるサブシナリオリファクタリング機会のマイニング：機械学習分類器とLLM-Judgeベースライン [cs.SE, cs.CL, cs.LG]目的：行動駆動型開発テストスイートにおけるリファクタリング候補となるステップシーケンスの抽出と分類
- 行動駆動型開発は，テストとドキュメントの統合を促進し，ソフトウェア品質向上に貢献する。
- テストスイートのステップシーケンスの重複は，保守性と可読性を低下させる問題を引き起こす。
- 重複シーケンスの自動抽出と適切なリファクタリング手法の提案により，テストスイートの品質を改善する。
- 本研究では，大規模な行動駆動型開発テストスイートのデータを用いて，リファクタリング候補となるステップシーケンスを抽出するマイナーを開発した。
- 抽出されたシーケンスに対し，機械学習分類器（XGBoost）を用いてリファクタリングの妥当性を予測し，既存手法と比較して高い精度（F1 = 0.891）を示した。
- テストスイート全体の75.0%にWithin-file Backgroundの候補が存在し，リファクタリングの潜在的な機会が示唆された。
Link: https://arxiv.org/abs/2605.14568
ロボットに触覚を感じさせる：具現化されたミラー共鳴のための視覚・触覚皮質のアライメント [cs.CL, cs.RO, cs.LG]目的：視覚と触覚の皮質アライメントによるロボットのミラータッチ実現
- 共感や社会的認知を支えるミラータッチ現象のメカニズム解明は，人間理解に不可欠である。
- ロボットシステムは，この視覚・触覚の共鳴を再現するための計算基盤が不足していた。
- 視覚と触覚の表現間のアライメントを確立し，ロボットに触覚予測能力を持たせる。
- マルチレベル制約による視覚・触覚表現のアライメントにより，ロボットハンドの1140タクセルでのミリメートル単位の触覚信号予測が可能となった。
- 制約が視覚表現を触覚多様体と整合的な形状に変え，クロスモーダルマッピングの複雑さを軽減することが示された。
- 人間手の観察データへの応用により，触覚予測と観察された人手への反射的応答を実現し，人間とロボット間の共感的なインタラクションへの道筋を示した。
Link: https://arxiv.org/abs/2605.14571
Woodelf++：決定木アンサンブルに対する高速かつ統一的な偏依存プロットアルゴリズム [cs.LG]目的：決定木アンサンブルにおける，偏依存プロット，ジョイント偏依存プロット，およびAny-Order-PDIVsの計算手法
- 機械学習モデルの解釈可能性は重要であり，モデルの予測根拠を理解し，信頼性を高める上で不可欠である。
- 従来の偏依存プロットの計算には時間がかかり，大規模データセットへの適用が困難であった。
- 決定木アンサンブルモデルの説明可能性を向上させるため，計算効率の高い偏依存プロット手法を開発する。
- Woodelf++は，既存手法と比較して，偏依存プロットとジョイント偏依存プロットの計算速度を最大6倍向上させた。
- Any-Order-PDIVsの計算において，Woodelf++は最先端手法よりも大幅に高速であり，計算時間を劇的に短縮した。
- Woodelf++は，モデルの分割閾値を利用して，特徴値全体の振る舞いを忠実に捉えるFull PDPsを効率的に計算する。
Link: https://arxiv.org/abs/2605.14578
一枚の絵は千の言葉に値するのか？視覚的金融文書検索のための集約戦略に関する実証研究 [cs.CV, cs.AI, cs.IR]目的：視覚的金融文書検索における集約戦略の影響評価
- 金融文書検索は，投資判断やリスク管理において重要な役割を担う。
- 従来の検索方法では，複雑な金融文書の意味を正確に捉えられない場合がある。
- 視覚的特徴を用いた検索において，集約による情報損失を軽減する。
- 単一ベクトルへの集約が，金融文書における重要な情報を喪失することが示された。
- 集約により，類似した文書がほぼ同一のベクトルに収束し，識別が困難になることが確認された。
- グローバルテクスチャ優位性が，情報損失の根本原因であることが特定された。
Link: https://arxiv.org/abs/2605.14581
天使か悪魔か：深層強化学習における可塑性介入がバックドア攻撃に与える影響の調査 [cs.LG, cs.AI, cs.CR]目的：深層強化学習における可塑性介入とバックドア攻撃の影響に関する調査
- 深層強化学習は，様々な分野で実用化が進んでおり，その安全性確保が重要である。
- 深層強化学習はバックドア攻撃に脆弱であり，実用環境での脅威となっている。
- 可塑性介入がバックドア攻撃に与える影響を明らかにすることで，安全な強化学習エージェントの構築を目指す。
- 多くの可塑性介入はバックドア攻撃に対する脆弱性を軽減することが示された。
- SAMという介入のみがバックドア攻撃を悪化させることが判明し，その原因は勾配の増幅にある。
- 可塑性介入とバックドアの関係を説明するSCCという概念的フレームワークと，バックドア検出の指標となる損失地形の鋭さを示すことができた。
Link: https://arxiv.org/abs/2605.14587
再帰学習システムにおける静かな崩壊 [cs.LG]目的：再帰学習における内部劣化の検出と防止
- 大規模言語モデル等の自律的な学習システムが発展し，再帰学習の重要性が増している。
- 従来の評価指標では，不可逆的な劣化以前の内部劣化を検知することが困難である。
- 内部劣化の前兆を捉え，劣化を未然に防ぐ手法を提案すること。
- 再帰学習において，予測エントロピー等の内部分布が徐々に収縮する「静かな崩壊」という現象を特定した。
- 静かな崩壊は，アンカーエントロピーの収縮，表現ドリフトの凍結，テールカバレッジの低下といった前兆によって予測可能であることが分かった。
- MTRフレームワークを提案し，これらの前兆を監視することで，実データにアクセスできない環境下でも静かな崩壊を防止できることを示した。
Link: https://arxiv.org/abs/2605.14588
逆強化学習の高速収束率 [cs.RO, cs.LG, cs.AI, stat.ML]目的：逆強化学習における構造的・統計的性質の解明
- 強化学習は，自律的な意思決定システムの開発に不可欠であり，報酬関数の推定が課題となる。
- 報酬関数の推定には不確実性が伴い，効率的な学習アルゴリズムが求められている。
- エキスパートの行動データから，高速かつ正確に報酬関数を推定することを目指す。
- エントロピー正則化されたMin-Max-IRLにおいて，最尤推定とMin-Max-IRLが，母集団レベルで等価であることが示された。
- 決定的な力学系下では，経験レベルでも両者は等価であり，損失関数の擬似自己一致性から，軌跡レベルのKLダイバージェンスとパラメータ誤差が$\mathcal{O}(n^{-1})$の速い収束率で減少することが証明された。
- 報酬関数の特定可能性に関する結果が一般化され，ソフト最適価値関数の報酬パラメータに関する導関数に関する新しい結果が得られた。
Link: https://arxiv.org/abs/2605.14599
迎合は教育上の安全リスクである：LLMチューターが迎合性を評価する必要性 [cs.AI, cs.HC]目的：LLMチューターにおける迎合性の評価基準
- 教育において，誤解を修正し，概念理解を深めるための建設的な摩擦が重要である。
- LLMは，ユーザーの好みに合わせて応答するため，必ずしも厳密な知識に基づいていない場合がある。
- LLMチューターにおける迎合性が，教育効果を損なう可能性を評価し，改善すること。
- LLMは，文脈の切り替え攻撃に対して耐性がある場合でも，権威や面子を守る圧力下では知識の放棄を示すことがある。
- GPT-5.2は文脈の切り替えにおける失敗が比較的少ない一方，Claudeは文脈の切り替えにおいて脆弱性を示す。
- 迎合性の評価は自動化が難しいため，複数の評価者による意見不一致を信頼性の指標として用いることが重要である。
Link: https://arxiv.org/abs/2605.14604
少しの横道：悪意のあるファインチューニングに対する防御が，適応的な攻撃者によって失敗する理由 [cs.CR, cs.AI, cs.LG]目的：悪意のあるファインチューニングに対する防御の限界
- 基盤モデルのオープン化が進み，安全性の確保が重要になっている。
- ファインチューニングによって安全対策が容易に回避されてしまうという課題がある。
- 既存の防御メカニズムの弱点を特定し，それを克服する攻撃手法を提案する。
- 既存の防御は，有害な行動自体を取り除くのではなく，その経路を隠蔽または誤誘導していることが示された。
- 統一された適応攻撃により，15の防御メカニズムすべてを破ることができた。
- 現在の防御は，設計された攻撃に対してのみ有効であり，頑健なセキュリティを提供しない。
Link: https://arxiv.org/abs/2605.14605
識別的特徴学習による深層画像セグメンテーション [cs.CV, cs.LG]目的：深層画像セグメンテーションにおける識別的特徴学習
- 画像認識の精度向上は，コンピュータビジョンの重要な課題であり，様々な応用分野で求められている。
- 既存手法では，セグメンテーション境界の曖昧さや精度が課題であり，鮮明な境界生成が難しい。
- 識別的特徴学習を通して，セグメンテーションの精度，境界の鮮明さ，モデルの信頼性を向上させる。
- 提案手法であるDDAは，クラス間分散を最大化し，クラス内分散を最小化することで，特徴分布を明確化する。
- DIS5Kベンチマークにおける評価により，DDAが様々なアーキテクチャにおいてセグメンテーション精度を向上させることが示された。
- 識別的分析を組み込むことは，より堅牢なセグメンテーションモデル構築への有効な手段となる。
Link: https://arxiv.org/abs/2605.14609
AIを活用した機能開発のためのIDEツールキット [cs.SE, cs.AI]目的：AIを活用した機能開発におけるテスト，デバッグ，再現性の向上
- AI技術の発展はソフトウェア開発に革新をもたらす一方，専門知識の必要性が課題となっている。
- LLMやエージェントワークフローのテスト・デバッグは難しく，MLのバックグラウンドがないエンジニアの参入障壁が高い。
- IDEに直接AIの可視化と評価機能を提供し，専門知識がなくてもAI開発を容易にすることを目指す。
- JetBrains IDEs向けプラグイン「AI Toolkit」を開発し，実行/デバッグループにトレースと評価を統合した。
- 実務家による混合手法研究から，評価の定期的・反復的な実施，実行時のトレースの可視化，セットアップの簡素化という3つのニーズが明らかになった。
- PyCharmでの初期リリースは，良好なコンバージョン率，継続的なトレースキャプチャ利用，低い解約率を示しており，IDEネイティブな可視化がAI開発の活性化に貢献することが示唆された。
Link: https://arxiv.org/abs/2605.14612
SliceGraph: マルチランChain-of-Thought推論におけるプロセス異性体のマッピング [cs.AI]目的：マルチランChain-of-Thought推論におけるプロセス構造の可視化と分析
- 大規模言語モデルの推論プロセスを理解することは，その性能向上や制御に不可欠である。
- 既存研究では，推論の多様性が最終的な答えのみに集約され，プロセス構造が無視されている。
- 推論プロセス間の関係性を明らかにし，多様な解法経路の構造を理解することを目指す。
- 提案手法SliceGraphは，CoTスライス間の活性化キーの類似性に基づいてプロセス構造をグラフとして表現した。
- SliceGraphの連結成分は，共有される推論状態の単位とプロセスファミリーを反映していることが確認された。
- 同じ答えを持つ正解経路が複数のプロセスファミリーに分かれる「プロセス異性体」が多数存在することが示された。
Link: https://arxiv.org/abs/2605.14619
幻覚の軽減に外部ツールは本当に必要か？ SIRA：帰属のための共有接頭辞による内部再構成 [cs.CE, cs.CV, cs.AI, cs.CL]目的：大規模視覚言語モデルにおける幻覚軽減
- 視覚情報が弱く曖昧な場合に，言語事前知識が優位になり幻覚が発生しやすい。
- 既存手法は外部からの摂動画像を用いるため，不自然な結果や計算コストが増加する。
- モデル内部で対照的な参照を生成し，幻覚を軽減する。
- SIRAは，追加の学習や外部ツールなしに，既存手法と同等以上の幻覚軽減効果を示す。
- SIRAは，マルチモーダルTransformerの情報フローを利用し，モデル内部で対照的な参照を生成する。
- SIRAは，計算コストを抑えつつ，記述的な網羅性を維持する。
Link: https://arxiv.org/abs/2605.14621
組み合わせ最適化におけるニューラルソルバーとヒューリスティックソルバーの比較に対する償却効率閾値 [cs.LG, cs.AI, cs.NE]目的：ニューラルソルバーとヒューリスティックソルバーのエネルギー効率の比較
- 組み合わせ最適化問題は，現実世界の多くの問題を解決するために重要であり，効率的な解法が求められている。
- ニューラルソルバーは学習にGPUリソースを必要とするため，ヒューリスティックソルバーと比較してエネルギー効率が低いという批判がある。
- 本研究は，ニューラルソルバーのエネルギー効率に関する誤解を解き，有効な利用条件を明確にすることを目的とする。
- 償却効率閾値（AET）を導入し，ニューラルソルバーがヒューリスティックソルバーよりもエネルギー効率で優位になるための展開量を定義した。
- ニューラルソルバーはインスタンスごとのエネルギー消費量が少ないため，ある程度の展開量を超えると，総エネルギー消費量でヒューリスティックソルバーを上回る。
- Multi-Task VRP環境での実験により，AETは約$1.58 \times 10^5$インスタンスであり，インスタンスごとの比率は0.41であることが示された。
Link: https://arxiv.org/abs/2605.14624
行動に着想を得た生成モデル [cs.HC, cs.LG, cs.AI, cs.CV]目的：生成モデルの品質向上
- 生成モデルは多様な応用を持つため，その性能向上が重要である。
- 既存のブリッジマッチング法は，構造的に意味のある経路とそうでない経路を区別していない。
- 学習可能なポテンシャルを用いて，重要な経路を識別し，生成品質を向上させる。
- 軽量な学習ポテンシャル$V_\phi$を導入することで，輸送経路の重要度をオンラインで評価し，ドリフト目標を調整する。
- このポテンシャルは，主要なドリフトネットワークのパラメータ数のわずか1.4%であり，推論グラフにオーバーヘッドを追加しない。
- 実験の結果，学習ポテンシャルによる不要な輸送経路の抑制が，生成品質の一貫した向上につながることが示された。
Link: https://arxiv.org/abs/2605.14631
状態認識型複雑多変量隠れマルコフ過程予測のための深層強化学習フレームワーク DRL-STAF [cs.LG, stat.AP]目的：複雑多変量隠れマルコフ過程の次ステップ観測と対応する隠れ状態の同時予測
- 時系列データ分析において，隠れ状態の解釈性と予測精度の向上が重要である。
- 従来の深層学習は状態モデリングが不十分，HMMは複雑な非線形な観測やスケーラビリティに課題がある。
- 複雑な時系列データに対し，状態を明示的に考慮しつつ高精度な予測を可能にすること。
- DRL-STAFは深層学習と強化学習を組み合わせ，複雑な非線形な観測と隠れ状態を効果的にモデル化した。
- 既存のHMM変種，深層学習モデル，DL-HMMハイブリッドと比較して，多くの場合で優れた性能を示した。
- 信頼性の高い隠れ状態推定も実現し，状態空間の爆発問題を軽減することに貢献した。
Link: https://arxiv.org/abs/2605.14632
MultiEmo-Bench：マルチモーダル大規模言語モデル向け多ラベル視覚感情分析ベンチマーク [cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルの画像による感情喚起予測能力の包括的評価
- 画像認識技術と自然言語処理の融合は，人間とコンピュータのより自然なコミュニケーションを可能にする。
- 既存の感情分析データセットは，単一の感情候補に基づいたアノテーションのため，多面的な感情表現を捉えきれていない。
- マルチモーダル大規模言語モデルの感情分析能力をより正確に評価するための，多ラベル形式の新しいベンチマークデータセットを構築する。
- 本研究で構築したMultiEmo-Benchは，10,344枚の画像と236,998件の投票データを含み，多様な感情の分布を反映している。
- Qwen3-VL，GPT，Gemini，Claudeなどの最新モデルの評価を行った結果，モデルの性能向上は認められるものの，改善の余地は大きいことが示された。
- LLMを評価者として用いる方法は，主観的な視覚感情分析タスクにおいては一貫した性能向上をもたらさなかった。
Link: https://arxiv.org/abs/2605.14635