arXiv雑要約

AI - 2026/05/08 公開

正の重みを持つカーネル数値積分の凸幾何学的誤差限界 [math.NA, cs.LG, cs.NA, math.PR, stat.ML]目的：カーネル数値積分の誤差限界の解析
- カーネル数値積分はRKHSのスペクトル構造を利用し，滑らかな被積分関数に対してモンテカルロ法を上回る性能を示す。
- 最適化されたカーネル重みは負の値を取り得るため，数値的に不安定になる可能性がある。
- 重みを正値に制約した場合でも，スペクトル加速が可能かどうかを検討する。
- 固定プール設定において，ランダム凸包が誤差の主要な要因となることが示された。
- 有界なd次元ランダムベクトルの平均は，N個の独立同一分布サンプルを用いてO(d/N)の精度で近似可能であることが証明された。
- スペクトル減衰が指数関数的な場合に，モンテカルロ法を上回る収束率が達成されることが示された。
Link: https://arxiv.org/abs/2605.05705
個別化医療のための確率的因果表現学習によるバイアスと精度のパラドックスの解決 [cs.AI, q-bio.QM]目的：個別化治療効果の推定
- データ駆動型医療において，個別化された治療法の選択は重要であり，その実現には患者データの活用が不可欠である。
- 交絡因子への対処が，患者固有の重要な情報を損ない，予測精度を低下させるという課題が存在する。
- バイアスと精度の間のトレードオフを解消し，より正確な個別化治療効果予測を実現することを目指す。
- 提案手法であるsMMDは，既存手法と比較して，分布シフト下での予測精度を最大11.5%向上させた。
- 高リスクタスクにおいて，sMMDは再現率を大幅に向上させ，臨床的に重要な変数を選択的に保持することが示された。
- 医師候補生や大規模言語モデルを上回り，医師の意思決定精度を14.7%改善し，意思決定時間も短縮した。
Link: https://arxiv.org/abs/2605.05706
隠蔽，再構成，脱獄：MLLMにおける再構成-隠蔽のトレードオフの悪用 [cs.RO, cs.AI]目的：マルチモーダル大規模言語モデル(MLLM)に対する意図を隠蔽する脱獄攻撃のメカニズム解明
- MLLMは多様なタスクで高性能を示す一方，安全性の確保が重要課題となっている。
- 既存の安全対策は，巧妙に隠蔽された有害な意図を見抜くことが困難である。
- 再構成-隠蔽のトレードオフを最適化し，より効果的な脱獄攻撃手法を開発すること。
- 意図を隠蔽しつつ再構成可能な入力の作成が，MLLMへの脱獄攻撃の鍵となることを示した。
- 文字削除変種が，既存の手法よりも再構成-隠蔽のトレードオフのバランスを取れることを示した。
- 有害キーワードに関連する注意散漫画像を用いることで，攻撃の成功率が向上することを示した。
Link: https://arxiv.org/abs/2605.05709
弱い教師あり学習から強い教師あり学習への一般化における事前学習の恩恵 [cs.LG]目的：弱い教師あり学習から強い教師あり学習への一般化のメカニズム解明
- 機械学習において，より少ないデータで高性能なモデルを構築することは重要である。事前学習はそのための有望な手法の一つである。
- 事前学習が一般化性能に与える影響は，理論的にも実験的にも十分に解明されていないという課題がある。
- 事前学習が弱い教師あり学習から強い教師あり学習への一般化を可能にする必要条件であることを明らかにすること。
- 理論的に，事前学習をスペクトル初期化とみなし，高次元単一指標モデルを用いてW2SG問題を定式化した。
- 事前学習がモデルを「有効領域」内に配置することでW2SGが達成可能となり，厳密な一般化限界を導出した。
- 大規模言語モデルの事前学習チェックポイントを用いた実験により，W2SGは事前学習の進行と密接に関連した相転移を通じて出現することが示された。
Link: https://arxiv.org/abs/2605.05710
LLM-RL結合による3Dシーン生成と没入型インタラクションの統合 [cs.CV, cs.GR, cs.HC, cs.LG, cs.MM]目的：言語駆動型3Dシーン生成と没入型ユーザインタラクションの統合フレームワーク
- 近年，マルチメディア体験の質を向上させるため，3D環境の自動生成が重要視されている。
- 既存手法では，シーン生成とユーザインタラクションが分離されており，適応性と没入感に課題があった。
- 言語による指示に基づき，シーン生成とインタラクションを統合し，より自然で適応的な体験を実現する。
- 大規模言語モデルと強化学習を組み合わせた統合フレームワークを提案し，生成とインタラクションの閉ループを確立した。
- ALFREDベンチマークにおいて，タスクベースのシーン生成において最先端の性能を達成した。
- ユーザスタディの結果，没入感，インタラクションの質，タスク効率が向上することが示された。
Link: https://arxiv.org/abs/2605.05711
固定残差ストリーム線形操舵によるデコードは可能だが修正は困難：医療LLMの失敗領域からの証拠 [cs.AI, cs.CL, cs.LG]目的：LLMの隠れ状態における線形的にデコード可能な失敗シグナルを活用して，その失敗を修正できるかどうかの検証
- LLMの性能向上は，医療分野における意思決定支援において不可欠であり，その信頼性向上は喫緊の課題である。
- LLMは，特定の状況下で誤った回答を生成することがあり，その失敗の原因特定と修正が困難である。
- 線形操舵によるLLMの失敗修正の可能性を探り，失敗構造の理解と信頼性向上を目指す。
- 医療QAにおいて，モデルはリサンプリング下では正答するものの，拡張CoTでは失敗する「Overthinking(OT)」という安定した行動様式が確認された。
- OTは線形的にデコード可能であったが，5種類の固定線形操舵（29構成，n=1,273）はいずれもデルタ値がほぼ0であり，修正効果は認められなかった。
- 失敗構造のデコードは可能であるが，固定線形操舵による修正は困難であり，その構造は信頼性推定には活用できることが示された。
Link: https://arxiv.org/abs/2605.05715
より多くは必ずしも良いとは限らない：LLMエージェントの構成要素間の干渉 [cs.AI, cs.CL]目的：LLMエージェント構成における構成要素間の干渉の解明
- LLMエージェントは複雑化の一途を辿っており，その性能向上には最適化が不可欠である。
- 多くの構成要素を組み合わせることが必ずしも性能向上に繋がるとは限らない点が課題である。
- タスク固有の構成要素の最適な組み合わせを特定し，干渉を最小化することを目的とする。
- 全構成要素を搭載したシステムは，HotpotQAにおいて単一ツールエージェントよりもF1スコアが32%劣る結果となった。
- GSM8Kにおいては，3つの構成要素の組み合わせが全構成要素システムを79%上回る結果が得られた。
- 最適な構成要素数はタスクとモデル規模に依存し，規模が大きいほど組み合わせの有用性が変化することが示唆された。
Link: https://arxiv.org/abs/2605.05716
連合推論を教師なしコンセンサス埋め込みによって実現 [eess.SY, cs.SY, cs.LG]目的：分散環境下における連合推論の実現
- データ分散が進み，プライバシー保護の重要性が増す中，複数モデルの協調が求められている。
- 既存手法はデータやモデル共有が必要であり，プライバシーや組織間の連携に制約がある。
- モデルや入力データの共有なしに，異なるモデル間の協調推論を可能にすること。
- 提案手法CE-FIは，教師なし学習により，異なるモデルの表現を共通の埋め込み空間に変換し，協調推論を実現する。
- 画像分類タスクにおいて，CE-FIは単独推論よりも高い性能を示し，従来の共有を前提とする手法と同等の性能を達成した。
- テキストや時系列データへの適用も示唆されたが，性能はアンサンブル戦略に依存する。表現アライメントがボトルネックであることが示唆された。
Link: https://arxiv.org/abs/2605.05718
専門エージェントによる自動研究が効果的な学習レシピを開発 [cs.MA, cs.AI]目的：効果的かつ自明でない学習レシピの開発
- 機械学習モデルの性能向上には，継続的なレシピ最適化が不可欠である。
- レシピ最適化は，試行錯誤の繰り返しであり，人的コストが高いという課題がある。
- 専門エージェントによる自動研究を通じて，レシピ最適化の効率化を目指す。
- 専門エージェントが，外部評価者の結果（クラッシュ，予算超過等）を，単発の提案ではなく，後のプログラムレベルのレシピ修正に活用できることを実証した。
- 1197回の実行試験と600回のパラメータゴルフ制御試験の結果，人間の介入なしに，Parameter GolfのValidation bpbを0.81%削減，NanoChat-D12 COREを38.7%向上，CIFAR-10 Airbench96のウォールクロック時間を4.59%短縮した。
- 本研究で開発された自動研究ループは，コードの自動生成，実験の実行，フィードバックの吸収，既知のテクニックの応用・組み合わせ，そして公開されている初期レシピの改善を自律的に行う。
Link: https://arxiv.org/abs/2605.05724
専門家のように時系列異常を検出：特殊な解析器を備えたマルチエージェントLLMフレームワーク [cs.AI]目的：時系列異常検出のためのマルチエージェントフレームワーク
- 時系列データは，金融，医療，製造など幅広い分野で不可欠であり，異常検出は重要な課題である。
- 既存の手法は汎用モデルに依存し，複雑な異常パターンに対する制御性，解釈可能性，信頼性が低い。
- 専門的な解析器による構造化された異常診断を通じて，より信頼性の高い異常検出と診断レポートの生成を目指す。
- SAGEは，点，構造，季節性，パターン異常に対応する4つの特殊な解析器で構成される。
- 各解析器は，数値ツールと可視化を用いて証拠を生成し，Detectorが証拠を統合して異常レコードを作成する。
- 3つのベンチマークにおいて，SAGEは既存のML/DLベースラインおよび言語モデルベースラインよりも優れた性能を示した。
Link: https://arxiv.org/abs/2605.05725
SkillRet：LLMエージェントにおけるスキル検索のベンチマーク大規模データセット [cs.AI]目的：LLMエージェントにおけるスキル検索の性能評価と改善
- LLMエージェントの普及に伴い，再利用可能なスキルライブラリの活用が重要になっている。
- 大規模なスキルライブラリにおいて，適切なスキルを迅速に選択することが課題となっている。
- 現実的なスキルライブラリにおけるスキル検索の性能向上を目指す。
- SkillRetは，17,810のスキルを含む大規模なベンチマークデータセットである。
- 既存モデルは大規模なスキルライブラリにおいて十分な性能を発揮できていないことが示された。
- SkillRetを用いた特定タスクへのファインチューニングにより，検索性能が大幅に向上した。
Link: https://arxiv.org/abs/2605.05726
WARP：内点法ソルバーの双対ワーミングスタートのベンチマーク [cs.DC, cs.LG, cs.AI, cs.SY, eess.SY, math.OC]目的：交流最適潮流計算(AC-OPF)における内点法ソルバーの効率化
- 電力市場運用において，AC-OPFの高速な解法は不可欠であり，安定供給と経済性に貢献する。
- 従来のワーミングスタート手法は，評価基準に誤りがあり，実際の性能向上が見られなかった。
- 完全な双対情報を含む初期値を予測することで，内点法の収束を大幅に加速させることを目指す。
- 既存の初期値予測手法は，適切な評価基準下では効果がないことが示された。
- 完全な双対情報を予測することで，内点法の反復回数を大幅に削減できることが実験的に確認された。
- WARPは，複雑な制約グラフを持つAC-OPFにおいて，反復回数を76%削減し，系統構成の変化にも柔軟に対応できる。
Link: https://arxiv.org/abs/2605.05728
深層学習とLLMを活用した膝関節症重症度評価：計算資源制限下での最適化 [cs.IR, cs.AI]目的：膝関節症の重症度分類の自動化
- 膝関節症は，運動能力の低下や慢性的な痛みを引き起こし，生活の質を著しく損なう一般的な疾患である。
- 従来の評価方法では，主観性や評価者間のばらつきが問題となり，正確な診断が困難な場合がある。
- 本研究では，限られた計算資源でも利用可能な，迅速かつ正確な重症度評価システムの構築を目指す。
- ResNet-18を基盤とした深層学習モデルが，公開データベースを用いてトレーニングされ，94.48%のテスト精度を達成した。
- 最適化されたモデルはTensorFlow Lite形式に変換され，オフライン環境でも動作可能な軽量なデバイス展開を実現した。
- Gemini-2.0-flashなどの大規模言語モデルを活用し，症状，リスク要因，予防策などの構造化された解釈可能な情報を提供することで，診断支援を強化する。
Link: https://arxiv.org/abs/2605.05731
CRAFT：忘却を考慮した介入に基づく継続学習への適応 [cs.LG, cs.AI]目的：継続学習における忘却の軽減と性能向上
- 大規模言語モデルの能力拡張は重要だが，継続学習は忘却を引き起こしやすい。
- 継続学習において，新たな知識獲得と既存知識の保持を両立することが課題である。
- 表現空間における適応を制御し，忘却を抑制することで継続学習を可能にする。
- CRAFTは，モデルの重みを更新せず，隠れ表現に対する低ランク介入を学習することで忘却を回避する。
- 出力分布のdivergenceに基づきタスクをグルーピングし，KLダイバージェンスを用いて忘却を制御する。
- LoRAベースの手法と比較して，複数のベンチマークとモデル規模で性能が向上し，タスク順序にも頑健である。
Link: https://arxiv.org/abs/2605.05732
SDFlow：類似度駆動型フローマッチングによる時系列生成 [cs.AI]目的：時系列生成のための類似度駆動型フローマッチング手法
- 時系列データは，金融，気象，医療など幅広い分野で重要な役割を果たす。
- 従来の自己回帰モデルは，長期間の予測において誤差が蓄積し，品質が低下しやすい。
- 本研究は，誤差の蓄積を抑制し，高品質かつ効率的な時系列生成を実現することを目指す。
- SDFlowは，VQとARトークンモデリングの枠組みにおける暴露バイアスを解消する。
- 低ランク多様体分解と学習されたアンカー事前分布により，高次元のVQトークン空間の問題に対処する。
- Discriminative Scoreを向上させ，Context-FIDを大幅に削減し，特に長系列生成において最先端の性能を達成する。
Link: https://arxiv.org/abs/2605.05736
ReFlect：複雑な長期的LLM推論のための効果的なハーネスシステム [cs.AI, cs.CL]目的：大規模言語モデルにおける複雑な長期的推論の性能向上
- LLMの推論能力は，様々なタスクにおいて重要性が増している。
- 既存手法では，長期的・多段階タスクにおいてエラーが累積しやすく，自己修正が困難である。
- ReFlectは，LLMの推論エラーを検出し，回復するためのシステムを提供し，性能向上を目指す。
- ReFlectは，LLMの推論をラップする決定論的エラー検出・回復機構を提供する。
- 6つの推論ドメインで実験した結果，gpt-4o-miniからClaude Sonnet 4.5まで，様々なモデルでDirect CoTと比較して+7〜+29ppの性能向上が見られた。
- 特に，Direct CoTの性能が低いモデルほどReFlectによる改善が大きかった(相関係数-0.76)。
Link: https://arxiv.org/abs/2605.05737
CoMemNet：メモリ再現ネットワークを用いたコントラストサンプリングによる継続的交通予測 [cs.LG, cs.AI]目的：継続的交通予測のための枠組み
- 交通ネットワークの予測は，都市計画や交通管理において不可欠である。
- 従来のモデルは静的なグラフ構造に依存しており，変化し続ける交通パターンに対応できない。
- 動的なネットワーク構造を捉え，過去の知識の忘却を防ぐことが課題である。
- 提案手法CoMemNetは，オンライン学習とターゲットブランチを組み合わせ，動的なコントラストサンプリングを実現した。
- 動的特徴量の変化が大きいノードを選択することで，忘却現象を効果的に抑制する。
- 大規模な実データセットを用いた実験により，最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.05738
LLMによる判断と閉ループ強化学習フィードバックを用いたエージェント型株式予測システムの多次元行動評価 [cs.LG, cs.AI, cs.CL, q-fin.CP]目的：エージェント型株式予測システムの行動特性評価
- 株式市場予測は経済活動において重要な役割を担い，その精度向上は社会的なニーズが高い。
- 既存の評価指標では，システム個々の意思決定プロセスがブラックボックス化し，改善点が不明確である。
- LLMを活用し，システムの行動特性を詳細に評価することで，改善方向性を明確にすることを目指す。
- LLMによる行動評価において，特定の次元でスコアが意図した通りに低下することを確認した。
- 行動評価スコアとオフラインバックテストにおけるシャープレシオとの間に高い相関関係が認められた。
- 行動評価に基づいた報酬調整による強化学習により，株式予測のMAPEが約11.5%改善，シャープレシオが18%向上した。
Link: https://arxiv.org/abs/2605.05739
HyperLens：LLMにおける認知的な努力を詳細な確信度軌跡で定量化 [cs.AI]目的：LLMにおける認知的な努力の定量化
- 大規模言語モデルの利用拡大に伴い，その内部動作の理解が重要になっている。
- 既存の分析ツールでは，LLMの推論ダイナミクスを十分に捉えられていない。
- LLMの推論過程における認知的な努力を定量的に評価する手法を確立すること。
- HyperLensは，LLMの層ごとの確信度の微小な変化を拡大するメカニズムを明らかにした。
- 複雑なタスクと単純なタスクの間で，確信度軌跡に一貫した差異が確認された。
- 教師ありファインチューニングが認知的な努力を低下させ，結果として性能を低下させるメカニズムを診断した。
Link: https://arxiv.org/abs/2605.05741
弱い教師からの学習による性能向上がほぼ必然である (線形モデルにおいて) [cs.LG]目的：弱い教師からのフィードバックによる学習を通じた性能向上
- 機械学習モデルの性能向上は重要であり，より効率的な学習方法が求められている。
- 教師あり学習では，教師の性能が学習者の性能の上限となりやすい。
- 弱い教師からの学習でも性能向上が可能となるメカニズムを解明する。
- 線形ロジスティック回帰において，弱い教師からの学習による性能向上が確認された。
- この現象は，教師と学習者のモデル容量に差がない場合でも起こりやすいことが示された。
- 弱い教師からの学習による性能向上は，線形モデルにおいてもほぼ必然的に起こりうることが示唆された。
Link: https://arxiv.org/abs/2605.05742
一般化線形バンディットにおけるハイブリッドフィードバックを通じた最良腕の識別 [cs.AI]目的：一般化線形バンディットにおける最良腕の識別
- 腕選択問題は，医療，広告，推薦システムなど，様々な分野で重要な課題である。
- 従来のバンディット問題では報酬フィードバックのみを用いるが，効率的な学習のためにはより情報量の多いフィードバックが必要である。
- ハイブリッドフィードバックを用いて，最良腕を効率的に識別し，サンプル効率を向上させることを目指す。
- 提案手法では，一般化線形モデルの異質性を統合する尤度比に基づく信頼区間を導入した。
- 適応的にクエリを割り当てるハイブリッドTrack-and-Stopアルゴリズムを提案し，理論的な性能保証を得た。
- 実験結果から，提案アルゴリズムが既存手法よりもサンプル効率を大幅に改善することが示された。
Link: https://arxiv.org/abs/2605.05745
安全性が求められるATRシステムにおける説明可能性の評価：事後的アプローチの限界と堅牢なXAIへの道 [cs.AI]目的：安全性が求められる自動標的認識（ATR）システムにおける説明可能性の評価
- 機械学習の応用範囲拡大に伴い，安全性確保の観点からAIの説明可能性が不可欠となっている。
- 既存の説明手法は，その解釈の信頼性や検証可能性に課題が残る場合がある。
- 安全性が重要となるATRシステムにおいて，より堅牢で信頼性の高い説明手法を確立する。
- 既存の説明手法（サリエンシー，注意機構，代理モデルなど）の評価により，その限界が明らかになった。
- 特に，誤った説明，摂動に対する不安定性，視覚的に魅力的な出力による過信などの問題点が指摘された。
- 安全性が求められるATRシステムへの導入には，より因果関係に基づき，物理的に妥当な説明手法が不可欠である。
Link: https://arxiv.org/abs/2605.05748
RVPO：分散正則化によるリスク感受性アラインメント [cs.LG, cs.CL]目的：多目的報酬のアラインメントにおけるリスク感受性
- LLMのアラインメントは，安全性や形式などの重要な制約を考慮する必要がある。
- 既存手法は，単一の目的における高い成功が他の目的の失敗を隠蔽しやすい。
- 報酬の分散をペナルティ化し，一貫性を重視することで制約の無視を軽減する。
- RVPOは，報酬の分散を抑制することで，HealthBenchのスコアを向上させた（14BモデルでGDPOより0.261 vs 0.215，p < 0.001）。
- GPQA-Diamondでは，他の多報酬手法で見られるような終盤の性能劣化を防ぎ，競争力のある精度を維持した。
- 分散正則化は，モデルの規模に関わらず，制約の無視を緩和し，汎用的な能力を損なわないことが示された。
Link: https://arxiv.org/abs/2605.05750
フルスペクトルグラフニューラルネットワーク：表現力とスケーラビリティ [cs.CL, cs.LG]目的：ノード信号の普遍近似
- グラフニューラルネットワークは，グラフ構造データの解析に不可欠であり，様々な応用分野で活用されている。
- 既存のスペクトルグラフニューラルネットワークは，表現力に限界があり，高次の信号に対する普遍近似が困難である。
- ノードペア信号の普遍近似を可能にし，特にヘテロフィリックグラフ学習における性能向上を目指す。
- フルスペクトルGNN (FSpecGNN) は，ノードペア領域への信号の持ち上げと，固有値ペアに対する二変量スペクトルフィルタの拡張により，表現力を向上させる。
- FSpecGNNは，古典的なスペクトルGNNを特殊なケースとして包含し，Local 2-GNNと同等の表現力を持ちながら，ノードペア信号を普遍的に近似する。
- 大規模グラフへの適用を可能にするスケーラブルな実装と低ランク近似により，実証的な評価で予測された表現力と優れた性能が確認された。
Link: https://arxiv.org/abs/2605.05759
プライバシー保護連合学習におけるLoRAコンポーネントの適応的選択 [cs.HC, cs.CL, cs.LG, cs.AI, cs.CL]目的：プライバシー保護連合学習におけるLoRAコンポーネントの適応的な選択方法
- 大規模モデルの学習には多大な計算資源が必要であり，連合学習は分散環境で効率的に学習を行う手段として重要である。
- LoRAの乗算構造により，連合学習における集約誤差が発生しやすく，差分プライバシーノイズによってさらに増幅される。
- 層ごとの自由度とラウンドごとの適応性を導入し，損失の2次近似に基づくスコアを用いてLoRAコンポーネントを最適に選択する。
- 提案手法AS-LoRAは，層に固定されたスケジュールによる再構成誤差の底取りを解消し，収束を加速する。
- GLUEやSQuAD等のベンチマークにおいて，既存の連合LoRAベースラインと比較して最大$+7.5$ ppの性能向上を達成した。
- SVDベースの集約方法と同等以上の性能を，集約コストを$33\text{--}180 \times$削減し，通信オーバーヘッドを無視できる範囲に抑えつつ実現した。
Link: https://arxiv.org/abs/2605.05769
確信度こそが鍵：共形予測が透過性ペプチドの生成的設計を強化する方法 [cs.AI]目的：透過性ペプチドの生成的設計における共形予測の活用
- 創薬において，ペプチドは高い修飾性と大きな相互作用面を持つため，治療薬としての可能性を秘めている。
- 予測モデルの適用範囲外の分子を探索すると，予測の信頼性が低下し，不確実性の高い設計につながる可能性がある。
- 共形予測を用いて予測の不確実性を定量化し，信頼性の高いペプチド設計を可能にすること。
- 共形予測に基づいた報酬を与えることで，ペプチド最適化の信頼性と効率が向上することが示された。
- 予測モデルの適用範囲外の探索を抑制し，より現実的な分子設計を促進する効果が確認された。
- 生成モデルと共形予測の組み合わせにより，予測の不確実性と強化学習による探索のギャップを埋めることができた。
Link: https://arxiv.org/abs/2605.05770
CircuitFormer：自然言語プロンプトからのアナログトポロジー設計のための回路言語モデル [cs.IR, cs.AI]目的：アナログ回路トポロジーの設計
- アナログ回路設計の自動化は，電子設計自動化（EDA）における長年の課題である。
- アナログ回路設計に関する自然言語記述とネットリストのペアのデータセットが不足している。
- 既存のトークナイザーが回路のグラフ構造を効率的に捉えられていないという問題を解決する。
- 大規模な回路ネットリストデータセットを構築し，回路グラフを効率的にエンコードする新しいトークナイザー「CKT」を提案した。
- CKTは，従来のトークナイザーよりも回路トポロジー表現において優れた性能を示し，シーケンス長を短縮し，圧縮率を向上させた。
- CircuitFormerは，主要なアナログ回路カテゴリにおいて，文法的に正しく，かつ機能的に成功する割合が高く，既存のLLMを上回る性能を示した。
Link: https://arxiv.org/abs/2605.05773
autoPET3チャレンジ -- 全身PET/CTにおける自動病変セグメンテーション - マルチトレーサー多施設汎化 [cs.CV, cs.AI]目的：全身PET/CT画像における自動病変セグメンテーションの性能評価
- PET/CTは，がんの診断，病期分類，治療効果判定において重要な役割を担う。
- 異なる施設やトレーサー間での画像特性のばらつきが，セグメンテーション精度を低下させる。
- 未知のトレーサー・施設組み合わせに対する汎化性能の向上を目指す。
- 最上位アルゴリズムは，DSC平均0.66，FNV 3.18mL，FPV 2.78mLを達成し，ベースラインよりDSCが8%向上，FNVが5mL減少した。
- セグメンテーション性能は，患者および病変レベルで詳細に分析された。
- ドメイン内でのマルチトレーサーPET/CTセグメンテーションは十分な精度に達している一方，未知の組み合わせへの汎化は依然として課題である。
Link: https://arxiv.org/abs/2605.05775
HEDP：ドメイン増分学習のためのハイブリッドエネルギー距離プロンプトフレームワーク [cs.AI]目的：ドメイン増分学習における性能劣化の軽減と汎化性能の向上
- 機械学習モデルを現実世界で運用するには，継続的な学習が不可欠であるため。
- ドメインシフトにより，モデルの性能が著しく低下するという課題が存在する。
- ドメイン表現の分離性を高め，エネルギーベースと距離ベースの手がかりを融合する。
- HEDPは，既存の手法と比較して，未学習ドメインにおいて2.57％の精度向上を達成した。
- エネルギー正則化損失により，ドメイン表現の分離性が強化され，破滅的忘却が効果的に抑制された。
- エネルギー距離重み付けメカニズムが，ドメイン選択と汎化性能の向上に貢献している。
Link: https://arxiv.org/abs/2605.05776
ノイマンネットワーク [cs.CL, cs.AI, cs.CV, cs.LG]目的：特殊な役割を学習可能な人工ニューロンの構築
- 人間の脳をモデル化した計算システムの研究は，知能のメカニズム解明に不可欠である。
- 従来の深層学習は，パラメータ効率や汎化性能に課題が残されている。
- ノイマンネットワークは，自己設計可能なアーキテクチャで，これらの課題を克服する。
- ノイマンネットワークは，入力と出力の構造に依存する自己設計アーキテクチャを持つ。
- 従来の深層学習モデルと比較して，パラメータ効率が向上し，基本的なタスクで優れた性能を示した。
- ノイマンネットワークは，現代のコンピュータアーキテクチャの拡張を細胞レベルで実現可能にする。
Link: https://arxiv.org/abs/2605.05780
理解度に基づく指導による統一マルチモーダルモデルにおける視覚生成の制御 [cs.CV, cs.AI]目的：統一マルチモーダルモデルにおける視覚生成の制御メカニズム
- 理解と生成を統合するモデルは，AI研究において重要な課題であり，多様な応用が期待される。
- 既存モデルは理解と生成を分離しており，相互の相乗効果が十分に発揮されていないという課題がある。
- 理解度を生成プロセスに直接反映させることで，生成性能の向上を目指す。
- 本研究では，理解度を生成の指導信号として活用する「Understanding-Oriented Post-Training (UNO)」を提案した。
- UNOは，セマンティック抽象化と構造的詳細を組み込むことで，理解から生成への効果的な勾配の流れを実現する。
- 画像生成や編集の実験により，理解度が生成の触媒として機能することが示された。
Link: https://arxiv.org/abs/2605.05781
適応データ適合Q反復法に対する測度論的有限サンプル理論 [cs.HC, cs.LG]目的：適応データ適合Q反復法における有限サンプル性能限界
- 強化学習は複雑な非線形ロボットシステムの制御に革命をもたらす可能性を秘めている。理論的基盤の確立が急務である。
- 深層強化学習の経験的な成功と，表形式または線形化可能な設定に限定された理論との間に乖離が存在する。
- 測度論的MDP，誤差伝播解析，PAC一般化限界を統合し，FQIの理論的基盤を確立する。
- 一般測度空間におけるFQIに対し，測度論的確率とバナッハ空間におけるベルマン演算子の収縮性を結びつけた有限サンプル性能限界を導出した。
- 方策依存的なデータ収集下におけるベルマン回帰の一般化誤差を，逐次ラデマッハー複雑性によって制御できることを示した。
- 連続空間におけるFQIに対する初の累積的なパスワイズオンライン後悔保証を提供した。
Link: https://arxiv.org/abs/2605.05791
大規模言語モデルにおけるモジュール勾配ノイズの不均衡の解明：SNRによるAdamの調整 [cs.NI, cs.LG, cs.AI]目的：大規模言語モデルの最適化におけるモジュールごとの学習率の自動調整
- 大規模言語モデルの性能向上には，モデルの規模拡大とモジュール構成の多様性が不可欠である。
- モジュール構成の多様性により，最適化が困難となり，収束の遅延や不安定性を招く可能性がある。
- モジュールごとのノイズレベルを考慮し，学習率を調整することで，最適化の効率化を目指す。
- 提案手法MoLSは，モジュールごとのSNRを推定し，Adamの更新を調整することで，学習率の自動調整を実現する。
- 複数のLLM学習ベンチマークにおいて，MoLSは収束速度と汎化性能を向上させ，手動調整されたモジュール固有の学習率と同等の性能を達成する。
- MoLSは，メモリ効率の高い学習アルゴリズムとも互換性がある。
Link: https://arxiv.org/abs/2605.05794
行動木とLLMを用いた複合タスクにおける報酬成形と行動マスク [cs.LG]目的：複合タスクにおける報酬成形と行動マスクの自動化
- 複雑なタスクを効率的に学習するには，タスクを分割することが重要である。
- 従来の報酬成形や行動マスクは，手動での定義が必要で，柔軟性に欠ける。
- タスクの失敗への対応や，多様なオブジェクトへの対応を可能にする報酬成形手法を開発する。
- 行動木を用いた報酬成形・行動マスク（MRBT）を開発し，タスクの失敗に反応的に対応可能にした。
- LLMを用いてMRBTを自動生成するパイプラインを構築し，タスクオブジェクトの変化に対応できるようにした。
- 実験により，MRBTがベースラインと比較して学習効率とタスク成功率を向上させることが示された。
Link: https://arxiv.org/abs/2605.05795
選択的ロールアウト：多サンプルエージェントRLにおける途中終了 [cs.LG]目的：多サンプルエージェントRLにおける計算効率の向上
- 大規模言語モデルを用いたエージェント環境では，対話の繰り返しが必要となり，計算コストが課題となる。
- グループ相対的RLでは，ロールアウトグループ内の報酬分散が重要だが，分散がゼロとなるグループが多く存在し，無駄な計算が発生する。
- ロールアウト途中の情報を用いて，早期に報酬分散がゼロになるグループを特定し，計算資源を節約することを目指す。
- 提案手法により，ALFWorld環境における学習時間を10.7%短縮することに成功した。
- 未知のタスクにおける成功率を2.5%ポイント向上させ，報酬分散ゼロによる勾配希釈を軽減した。
- 行動系列の編集距離を閾値と比較することで，早期終了の判断を行うゲート機構を導入した。
Link: https://arxiv.org/abs/2605.05802
注意機構に基づくモデルの内在的な検索能力 [cs.LG]目的：注意機構に基づくモデルにおける内在的な検索能力の検証
- 大規模言語モデルの性能向上には，外部知識の活用が不可欠である。
- 従来のRAGパイプラインでは，検索器と生成器の間の不整合が課題となっていた。
- 注意機構を活用し，外部モジュールを追加せずに検索能力を引き出すことを目指す。
- INTRAは，注意機構を用いて内部表現から直接情報を検索するフレームワークである。
- INTRAは，検索と生成を統合し，RAGパイプライン特有の不整合を解消する。
- 質問応答ベンチマークにおいて，INTRAは既存の検索パイプラインよりも高い性能を示した。
Link: https://arxiv.org/abs/2605.05806
LCC-LLM：コード中心の大規模言語モデルを用いたマルウェアの属性特定 [cs.CR, cs.AI]目的：マルウェアの属性特定と多課題静的マルウェア解析のためのコード中心ベンチマークデータセットおよびフレームワーク
- サイバーセキュリティ脅威の高度化に伴い，マルウェアの迅速かつ正確な分析が不可欠となっている。
- 既存のLLMベースのマルウェア属性特定は，十分なコードレベルの裏付けが不足している点が課題であった。
- コード中心表現と知識検索による推論を通じて，LLMのマルウェア分析の信頼性と実用性を向上させる。
- 大規模なリバースエンジニアリングパイプラインで処理された約3万4千件のPEサンプルから構成されるLCCDデータセットを構築した。
- LangGraphを活用した静的解析と，様々なサイバーセキュリティ知識ソースを統合したフレームワークLCC-LLMを開発した。
- 43種類のマルウェア分析タスクにおいて平均セマンティック類似度0.634を達成し，実世界のケーススタディで10/10の構造化分析パス率を記録した。
Link: https://arxiv.org/abs/2605.05807
シートをトークンとして：マルチシートスプレッドシート理解のためのグラフ拡張表現 [cs.AI]目的：マルチシートスプレッドシート理解のためのグラフ拡張表現
- データ分析エージェントの重要性が増しており，スプレッドシート理解が不可欠である。
- 複数のシートに情報が分散し，スキーマやレイアウトが異なり，関係性が不明確である。
- シートレベルでの理解を促進し，スケーラブルなマルチシートスプレッドシート処理を実現する。
- シートを単一のセマンティック単位として扱う「シートをトークンとして」フレームワークを提案。
- シートレベルのトークン化により，安定した表現を獲得できることが示された。
- グラフ拡張によるシート間の推論が，リスト形式検索の性能を向上させることを確認。
Link: https://arxiv.org/abs/2605.05811
長期的Q学習：n段階不等式による高精度な価値学習 [cs.AI]目的：長期的行動価値関数の学習
- 強化学習は，人間の介入なしに最適な行動戦略を獲得できるため，様々な分野で注目されている。
- Q学習のような価値ベースの手法は，誤差が累積し，長期的な学習が不安定になりやすい。
- 誤差の累積を抑制し，より安定した長期的な学習を可能にすること。
- 提案手法LQLは，n段階不等式を用いて誤差の累積を抑制し，Q学習の安定性を向上させる。
- LQLは，追加のネットワークや計算コストを必要とせず，既存のQ学習に容易に組み込むことができる。
- オンラインおよびオフライン環境でのベンチマークテストで，LQLは1段階TDおよびn段階TD学習を凌駕する性能を示した。
Link: https://arxiv.org/abs/2605.05812
教師主導型VAEにおける定数崩壊に対する検証可能な証明 [cs.LG, cs.AI]目的：変分オートエンコーダにおける定数崩壊の判定基準の確立
- 変分オートエンコーダは潜在空間の学習に有用だが，学習が不安定になりやすい。
- 変分オートエンコーダの崩壊は，KL項やデコーダの性能から間接的に判断されることが多い。
- 入力に依存しない定数崩壊という具体的な失敗モードに対し，明確な閾値を設定する。
- 定数崩壊の判定に利用可能な閾値が，教師分布とデータセット平均教師分布の関係から導出された。
- 実験の結果，教師分布とのアライメントを維持することで定数崩壊を防ぐことができた。
- アライメントを削除すると定数崩壊が起こり，アライメントを再開すると崩壊から回復することが確認された。
Link: https://arxiv.org/abs/2605.05813
LeakDojo：RAGシステムの情報漏洩脅威の解読 [cs.CR, cs.AI, cs.CL]目的：RAGシステムの漏洩リスクの体系的な評価
- LLMの活用が進む中，外部知識の利用は不可欠であり，RAGはその重要な手段である。
- RAGシステムは情報漏洩リスクを孕んでおり，既存研究ではその評価が十分でない。
- RAGシステムの漏洩リスクを定量的に評価し，その対策に資することを目的とする。
- LeakDojoフレームワークを用いて，14種類のLLMと4つのデータセットで6つの攻撃手法を検証した結果，クエリ生成と指示文が漏洩に寄与することが明らかになった。
- LLMの指示追従能力が高いほど，漏洩リスクが高まる傾向が確認された。
- RAGシステムの忠実性が向上すると，漏洩リスクが増加する可能性が示唆された。
Link: https://arxiv.org/abs/2605.05818
リソース制約デバイス向け誤り補償による効率的な推論システム HCInfer [cs.LG]目的：リソース制約デバイスにおける大規模言語モデルの効率的な推論
- 大規模言語モデルの活用は，様々な分野で重要性が増している。
- 大規模言語モデルはパラメータ数が多く，メモリ容量の限られたデバイスでの実行が困難である。
- 本研究は，CPUへの処理オフロードによる推論速度の向上と精度劣化の抑制を目指す。
- HCInferは，圧縮されたバックボーンをGPUで実行し，残差補償をCPUにオフロードすることで，高い効率を実現する。
- 下流タスクにおいて，圧縮モデルと比較して最大5.2%の精度向上を達成した。
- 全精度モデルと比較して最大10.4倍の高速化を達成し，推論速度を大幅に向上させた。
Link: https://arxiv.org/abs/2605.05819
AGPO：検証可能な推論とJDにおける検索広告の関連性向上のための非対称グループポリシー最適化 [cs.RO, cs.AI]目的：大規模言語モデルの推論能力向上と検索広告関連性最適化
- 大規模言語モデルの推論能力は，様々な応用において重要であり，その向上は重要な課題である。
- 従来の強化学習による推論能力向上手法では，探索能力が低下し，ベースモデルの性能を超えることが難しい。
- AGPOは，探索能力を維持しつつ，正解経路に焦点を当て，推論能力の限界縮小を抑制することを目指す。
- AGPOは，誤った推論経路を抑制する負の優位性強化学習戦略と，正解経路に焦点を当てるグループ優位性メカニズムを導入する。
- 数学的ベンチマーク5つにおいて，AGPOは最先端の精度を達成し，大規模なデータセットにおいてもpass@$k$性能を向上させた。
- 検索広告関連性最適化の産業応用において，AGPOはデータアノテーションの質を向上させ，下流の学習モデルの性能向上に貢献した。
Link: https://arxiv.org/abs/2605.05826
MolRecBench-Wild：現実世界の化学構造光学認識ベンチマーク [cs.AI]目的：化学構造光学認識の性能評価のためのベンチマーク
- 化学文献の構造式をデジタル化することで，研究の効率化やデータ解析の促進が期待される。
- 既存の光学化学構造認識システムは，現実世界の複雑な画像に対して信頼性が低いという課題がある。
- 現実世界の化学構造認識における課題を明確化し，よりロバストなシステム開発を促す。
- MOSAICという二次元難易度フレームワークを提案し，視覚的干渉と化学的意味的課題を評価可能にした。
- 5,029構造を含むベンチマークMolRecBench-Wildを構築し，現実世界の化学論文における難易度分布を網羅した。
- CARBONという表現言語を提案し，標準的でない化学構造の表現を可能にし，より忠実な意味評価を可能にした。
Link: https://arxiv.org/abs/2605.05832
自動入札における言語表現の役割：知見と示唆 [cs.AI]目的：リアルタイム広告市場における自動入札戦略の最適化
- 広告市場の効率化に不可欠であり，費用対効果の向上が求められている。
- 従来の数値的状態表現では，意図や戦略を明示的に制御することが困難である。
- 言語モデルを活用し，数値情報との統合により入札戦略の精度と制御性を向上させる。
- 大規模言語モデル埋込みは入札に関連する情報を包含するものの，数値特徴量の代替にはならないことが示された。
- SemBidは，言語モデルでエンコードされた意味情報をトークンレベルで入札軌跡に注入することで，制御性と汎化性能を向上させる。
- 多様なシナリオにおいて，オフライン強化学習や生成シーケンスモデリングのベースラインと比較して，SemBidは優れた性能を示した。
Link: https://arxiv.org/abs/2605.05833
ステップワイズモーメンタムによるデルタ線形注意の並列化 [cs.LG, cs.NE]目的：大規模言語モデルにおける長系列処理効率の向上
- 近年，大規模言語モデルの性能向上には長系列の処理が不可欠であり，計算効率が課題となっている。
- 自己注意機構は計算量が膨大であり，線形注意は代替手法として注目されるが，最適化が難しい。
- 線形注意における情報減衰と最適化の停滞を，モーメンタムベースの最適化手法で解決することを目指す。
- 線形注意モデルにおいて，ステップワイズモーメンタムを適用する並列アルゴリズムMomentum DeltaNet(MDN)を開発した。
- MDNは，Tritonカーネルを活用し，Mamba2やKDAといった既存モデルと同等の学習速度を実現した。
- 400Mおよび1.3Bパラメータモデルでの実験により，Transformer，Mamba2，GDNを含む複数のベースラインに対して一貫した性能向上が確認された。
Link: https://arxiv.org/abs/2605.05838
Taklif.AI：LLMを活用した興味に基づいた個別最適化された大学課題プラットフォーム [cs.AI]目的：学生の多様な興味や認知能力に対応した，個別最適化された大学課題の自動生成
- 教育現場において，学生の興味を引き出し，学習意欲を高める課題作成は重要である。
- 従来の画一的な課題は，学生のモチベーション低下や不正行為の増加を招く可能性がある。
- Taklif.AIは，学生の興味や文化的背景を考慮した課題生成により，この問題解決を目指す。
- Taklif.AIは，大規模言語モデル(LLM)を活用し，学生の興味に基づいた課題を自動生成するプラットフォームである。
- 従来のプラットフォームと異なり，学業成績だけでなく，課外活動や文化的背景も課題生成に組み込んでいる。
- 予備的なユーザビリティテストの結果，参加者の84%が個別最適化機能を有益であると評価している。
Link: https://arxiv.org/abs/2605.05842
LLMエージェントに対する終端ポイズニング攻撃：LoopTrap [cs.CR, cs.AI]目的：LLMエージェントの終端判断の歪みによる無限計算を引き起こす攻撃手法の定義と特性評価
- LLMエージェントは複雑なタスクを反復処理で解決するため，その自律性は重要である。
- LLMエージェントの自己評価メカニズムは，悪意のあるプロンプトによって操作される脆弱性がある。
- エージェントの行動特性に基づいた自動化された攻撃手法を開発し，脆弱性を評価する。
- LLMエージェントの行動パターンを分析し，効果的な攻撃戦略を特定した。
- LoopTrapという自動化された敵対的テストフレームワークを開発し，特定のLLMエージェントに対する攻撃を合成する。
- LoopTrapは，主要なLLMエージェントにおいて平均3.57倍のステップ増加，最大25倍のステップ増加を達成した。
Link: https://arxiv.org/abs/2605.05846
ビデオRouter：効率的な長尺ビデオ理解のためのクエリ適応型デュアルルーティング [cs.CV, cs.AI]目的：長尺ビデオ理解における効率的な証拠配分
- ビデオ大規模マルチモーダルモデルの応用拡大に伴い，計算資源の効率的な利用が重要になっている。
- 長尺ビデオは過度に長い視覚トークン列を生み出し，推論時のメモリと遅延が課題となっている。
- 視覚的証拠の分布の偏りを考慮し，クエリに応じて最適な圧縮ポリシーを適用することを目指す。
- 提案手法VideoRouterは，既存のInternVLを基盤とし，予算内で証拠を効率的に配分するデュアルルーティングフレームワークである。
- セマンティックRouterとImage Routerの連携により，重要度の低いフレームの圧縮率を高めつつ，重要なフレームの詳細を保持する。
- VideoMME，MLVU，LongVideoBenchにおける実験で，VideoRouterはInternVLと比較して，トークン数を最大67.9%削減できることが示された。
Link: https://arxiv.org/abs/2605.05848
大規模言語モデルにおける仮説の生成と更新 [cs.LG]目的：大規模言語モデルにおける仮説生成・更新のメカニズムの解明
- 問題解決支援において，LLMの活用が拡大しており，その推論過程の理解が重要である。
- LLMの仮説生成・更新能力は未知数であり，その最適性や人間の推論との比較が課題である。
- LLMの推論パターンを明らかにし，その限界を特定することで，より高度な問題解決能力の実現を目指す。
- LLMはベイズモデルで近似できるが，狭い仮説を好む傾向や，思考モードによる事前分布への依存度変化が見られた。
- 仮説評価時には正解率が高いが，生成時にはより単純な規則に基づいた仮説を生成する傾向がある。
- このベイズ的偏りパターンは，観察データ範囲外への一般化において必ずしも有効ではないことが示された。
Link: https://arxiv.org/abs/2605.05851