arXiv雑要約

AI - 2026/05/12 公開

往復検証と修正による忠実な自動形式化 [cs.CL, cs.AI]目的：自然言語の形式化における忠実性の検証と改善
- 大規模言語モデルの活用が期待されるが，形式化の正確性保証が課題である。
- 自然言語から形式言語への変換において，意味の誤りや忠実性の欠如が起こりやすい。
- 往復検証と局所的な修正を通じて，形式化の信頼性を向上させる。
- 提案手法では，形式化された文を自然言語に戻し，再度形式化することで忠実性を検証する。
- 診断機能を用いた局所的な修正が最も効果的であり，診断の信頼性が重要となる。
- 等価性チェックに失敗したルールは，合格したルールに比べてNLIドリフトが1.4倍から2.5倍大きかった。
Link: https://arxiv.org/abs/2604.25031
LLMの強化学習における性能飽和への対処：精密なエントロピー曲線制御による解決 [cs.CL, cs.LG, cs.CL, stat.ML]目的：LLM強化学習における性能飽和問題の解決
- 大規模言語モデル(LLM)は複雑な推論能力を持つが，性能向上の限界が課題となっている。
- 強化学習アルゴリズムは性能飽和に陥りやすく，学習のスケールアップに伴い改善が停滞する。
- エントロピーの低下を抑制し，長期的な学習の安定性と性能向上を実現すること。
- 提案手法Entrocraftは，利点分布をバイアスすることで，ユーザー定義のエントロピースケジュールを実現する。
- Entrocraftは，正則化やクリッピングに依存せず，汎用的に性能飽和に対処可能である。
- 実験的に，Entrocraftは汎化性能，出力多様性，長期的な学習において大幅な改善を示した。
Link: https://arxiv.org/abs/2604.26326
Bian Que：オンラインシステム運用における柔軟なスキル配置のためのエージェント的フレームワーク [cs.CL, cs.AI, cs.MA]目的：大規模オンラインシステムの運用における，リリース監視，アラート対応，根本原因分析の効率化
- オンラインシステムの規模拡大に伴い，運用保守の負担が増大しており，自動化の必要性が高まっている。
- LLMエージェントの導入が進むが，適切なデータや知識の選択・編成がボトルネックとなっている。
- イベントに応じたデータと知識のマッピングを自動化し，運用効率と精度を向上させる。
- Bian Queは，運用行動を「リリース迎撃」「積極的検査」「アラート根本原因分析」の3パターンに抽象化。
- 事前に定義されたスキルが，必要なデータと知識を明確化し，LLMやエンジニアによって自動生成・最適化される。
- KuaiShouのeコマース検索エンジンへの導入により，アラート数75%削減，根本原因分析の精度80%達成，解決までの平均時間を50%以上短縮。
Link: https://arxiv.org/abs/2604.26805
データフローを意識した事前学習と制約付きデコーディングによる言語モデルを用いた静的プログラムスライシング [cs.SE, cs.AI, cs.PL]目的：静的プログラムスライシングの自動化
- ソフトウェアの品質向上に不可欠であり，保守性や信頼性の向上に貢献する重要な技術である。
- 従来の学習ベースのアプローチでは，正確な依存関係のモデリングが難しく，幻覚的なトークンや文の生成が課題となっていた。
- データフローを正確に捉え，幻覚を抑制することで，より正確なプログラムスライシングを実現することを目指す。
- 提案手法Sliceformerは，データフローグラフを活用した事前学習と制約付きデコーディングを導入することで，スライスの予測精度を向上させた。
- JavaとPythonのベンチマークにおいて，最先端のベースラインと比較して，ExactMatchで最大22%の改善が確認された。
- 本研究は，言語モデルを用いた静的プログラムスライシングの新たな方向性を示すものである。
Link: https://arxiv.org/abs/2604.26961
DeepTutor：自律型個別指導への道 [cs.CY, cs.AI, cs.CL]目的：個別最適化された指導の実現
- 教育はLLMの有望な応用分野であり，学習成果の向上に貢献する可能性を秘めている。
- 既存のLLMは知識が静的であり，学習者への適応が不十分である。RAGシステムも個別指導には課題がある。
- 学習者固有のニーズに合わせた，動的な個別指導システムを構築し，教育の質を向上させる。
- DeepTutorは，引用に基づいた問題解決指導と難易度調整された質問生成を統合した，オープンソースのエージェントフレームワークである。
- 学習者のプロファイルに基づいたパーソナライズエンジンにより，個別指導の精度が平均10.8％向上した。
- また，5つの基盤モデルにおけるエージェントの推論能力を平均29.4％強化することが示された。
Link: https://arxiv.org/abs/2604.26962
WaferSAGE：合成データ生成と評価基準に基づく強化学習によるウェーハ欠陥分析 [cs.RO, cs.AI]目的：ウェーハ欠陥の視覚的質問応答
- 半導体製造において，欠陥検査は品質管理の重要な要素であり，歩留まり向上に不可欠である。
- 欠陥データの収集にはコストがかかり，十分な学習データが得られないことが課題である。
- 合成データ生成と強化学習により，限られたデータでも高精度な欠陥分析を実現する。
- 本研究では，小規模なビジョン言語モデルを用いて，ウェーハ欠陥の視覚的質問応答フレームワーク「WaferSAGE」を提案した。
- 構造化された評価基準を用いた合成データ生成により，欠陥の種類，分布，形状，根本原因の分析を網羅した学習が可能となった。
- 4BパラメータのQwen3-VLモデルは，Gemini-3-Flashに匹敵する性能を，オンプレミス環境で実現した。
Link: https://arxiv.org/abs/2604.27629
法的・安全原則に基づいたニューロシンボリック因果ルール合成，検証，評価に向けた試み [cs.LO, cs.AI]目的：法的・安全原則に根ざしたニューロシンボリック因果ルール合成，検証，評価の枠組み
- 安全性重視の分野ではルールベースシステムが重要だが，規模拡張や柔軟性の課題がある。
- AIシステムの目的設定が不適切だと，意図しない最適化や形式検証の失敗につながる。
- 人間の専門家による高レベルな目標と原則から，論理的なルールを生成・検証するパイプラインを構築する。
- 人間の指示に基づき，必要最小限のルールセットを導出し，論理的制約として形式化することに成功した。
- 本パイプラインは，既存の法的・安全原則に則った，段階的でモジュール化されたルール合成を支援する。
- 大規模言語モデルを活用することで，目標の分解，意味の統合，ルールの翻訳，因果集合の構築を実現した。
Link: https://arxiv.org/abs/2604.28087
教師ありファインチューニングにおける大規模言語モデルの多様性 [cs.LG]目的：大規模言語モデルの多様性低下の原因特定と改善策の提案
- 大規模言語モデルは自然言語処理の発展に不可欠であり，その性能向上は様々な応用を可能とする。
- 教師ありファインチューニングは性能向上に有効だが，生成されるテキストの多様性を損なうという課題がある。
- 本研究では，教師ありファインチューニングによる多様性低下の原因を特定し，それを克服する損失関数を提案する。
- 教師ありファインチューニング後，大規模言語モデルの生成するテキストの幅が狭まることが確認された。
- 提案手法Tempered Focal (TOFU) lossは，出力の多様性を高めながら，高い応答品質を維持することが示された。
- TOFU lossは，低頻度パターンの軽視と既存知識の忘却という，多様性低下の二つの主要な要因に対処する。
Link: https://arxiv.org/abs/2605.00195
カーネルホップフィールドネットワークにおけるアトラクタ境界と記憶容量の幾何学的・力学的解析 [cs.NE, cs.LG]目的：カーネルロジスティック回帰（KLR）に基づく高容量連想記憶の安定性に関わる動的・幾何学的メカニズムの解明
- 連想記憶は，人間の記憶システムを模倣する重要な技術であり，大規模データ処理への応用が期待される。
- KLRネットワークの記憶容量は高いものの，その安定性を担保するメカニズムが十分に理解されていない。
- KLRネットワークのアトラクタ構造と記憶容量限界を解析し，安定性を向上させるための知見を得る。
- ランダム系列を用いた実験では，ネットワークの記憶容量はP/N≈16まで到達し，構造化データではP/N≈20付近で安定した想起が維持された。
- アトラクタは「最適化の尾根」上に存在し，その間には急峻な相転移のような境界が確認された。この境界は，高い有効ポテンシャル障壁と臨界的な減速を特徴とする。
- SNR分析とCoverの定理に基づく幾何学的基準との比較から，記憶容量限界は特徴空間の幾何学的分離性ではなく，クロストークノイズに対する動的安定性の喪失によって律速されることが示された。
Link: https://arxiv.org/abs/2605.00366
InvEvolve：大規模言語モデルによる性能保証付きホワイトボックス在庫ポリシーの進化 [cs.LG, cs.AI]目的：大規模言語モデルを用いたオンライン・非定常環境における在庫ポリシーの進化
- 在庫管理はサプライチェーンの効率化に不可欠であり，経済活動全体に大きな影響を与える。
- 従来の在庫ポリシーは変化する需要に対応できず，最適な性能を発揮できない場合がある。
- 本研究は，動的な在庫環境下で統計的に安全かつ改善されたポリシーを進化させることを目指す。
- InvEvolveは，信頼区間に基づく認証により，統計的安全性を保証するホワイトボックス在庫ポリシーを生成する。
- 理論モデルを導入することで，InvEvolveが安全かつ改善されたポリシーを進化させる確率の下限を導出した。
- 合成データおよび実世界の小売データにおいて，古典的な在庫ポリシーや深層学習ベースの手法を上回る性能を示した。
Link: https://arxiv.org/abs/2605.00369
集団認知学習：統制された二段階エージェント協調による全体最適化 [cs.LG, cs.CY, cs.MM]目的：マルチモーダル信号の最適化における優位性および偽相関の軽減
- 近年，言語，音声，視覚情報を統合するマルチモーダル学習が重要視されている。
- 既存手法では，一部モダリティに最適化が偏ったり，不要なモダリティ間相関が発生しやすい。
- 本研究は，モダリティ間の協調を促進し，よりロバストな学習を実現することを目指す。
- 提案手法であるGCLは，二段階の協調プロトコルにより，モダリティ間の支配と偽相関を抑制することを示した。
- ルーティングエージェントと監査エージェントによる選択的相互作用により，予測精度に貢献する情報交換を促進する。
- 公開因子エージェントと集約エージェントによるコンセンサス形成により，各モダリティの専門性を維持しながら予測を行う。
Link: https://arxiv.org/abs/2605.00370
RTPrune：DeepSeek-OCR効率的推論のための二段階読み取りに着想を得たトークンプルーニング [cs.CV, cs.LG]目的：DeepSeek-OCR推論における効率化
- OCR技術は，文書のデジタル化に不可欠であり，その高速化と低コスト化が求められている。
- 既存のトークンプルーニング手法では，テキストの忠実性を損なう可能性があり，OCR特有の構造的情報を考慮できていない。
- DeepSeek-OCRのデコード過程に着目し，冗長な情報を削減しつつ，テキストの精度を維持する効率的なプルーニング手法を開発する。
- RTPruneは，DeepSeek-OCRの二段階読み取りプロセスに着想を得て，高ノルムトークンを優先的に保持する。
- 残りのトークンに対しては，最適輸送理論に基づいたペアリングとマージを行い，特徴量の集約を効率化する。
- OmniDocBenchにおいて，99.47%の精度と1.23倍の高速化を達成し，最先端の性能を示すことが示された。
Link: https://arxiv.org/abs/2605.00392
順序の力：敵対的テーブル並び替えによるLLMの欺瞞 [cs.LG]目的：大規模言語モデルにおけるテーブル構造への脆弱性の検証
- LLMはテーブルデータを利用した応用で成功を収めているが，入力構造への耐性が重要課題である。
- テーブルデータの行や列の並び替えは意味を変えないにも関わらず，モデルの出力に影響を与える場合がある。
- モデルの性能を最大限に低下させるような並び替えを効率的に特定する手法を開発し，脆弱性を明らかにすること。
- 敵対的テーブル並び替え（ATP）は，多様なLLMの性能を著しく低下させることを示した。
- ATPはモデルサイズやアーキテクチャに関わらず，脆弱性が広く存在することを示唆する。
- 現在のLLMが構造化データを処理する際の根本的な弱点を露呈し，堅牢なモデル開発の必要性を示している。
Link: https://arxiv.org/abs/2605.00445
自分自身からクリック場所を学習する：GUIグラウンディングのためのオンポリシー自己蒸留 [cs.RO, cs.AI, cs.CV]目的：GUIグラウンディングにおける自己蒸留フレームワーク
- GUIエージェントの自律性を実現する上で，自然言語指示とGUI要素の視覚的座標間のマッピングは不可欠である。
- 既存の強化学習手法は，多数のロールアウトが必要であり，難易度の高いサンプルでは学習信号が希薄になるという課題がある。
- 単一のロールアウトから密なトークンレベルの教師信号を得る自己蒸留をGUIグラウンディングに応用し，効率性と精度を向上させる。
- 提案手法GUI-SDは，代表的なGUIグラウンディングベンチマークにおいて，GRPOベースの手法や単純な自己蒸留よりも一貫して高い精度と学習効率を示す。
- GUI-SDは，ターゲットバウンディングボックスとガウスソフトマスクを用いた視覚的に豊かな特権コンテキストを構築し，正確な座標を漏洩することなく有益なガイダンスを提供する。
- エントロピーをガイドした蒸留により，重要な桁と教師の信頼度に基づいてトークンに重みを付け，最適化を最も影響力のある信頼できる位置に集中させる。
Link: https://arxiv.org/abs/2605.00642
CLEAR：ノイズと曖昧さが医療用LLMの信頼性を低下させる要因の解明 [cs.CL, cs.AI, cs.LG]目的：医療用LLMの信頼性低下要因の特定
- 医療現場におけるAI活用は，診断・治療の質向上に不可欠である。
- 既存のLLM評価は単純化された形式であり，実際の医療現場の曖昧さを反映していない。
- 曖昧さと不確実性がLLMの推論に与える影響を評価し，信頼性向上に貢献する。
- CLEARフレームワークを用いて評価した結果，選択肢数を増やすと正答率と棄権率のバランスが崩れることが示された。
- 特に，棄権オプションの表現が「分からない」に変化すると，誤った回答選択が増加する傾向が確認された。
- モデルの規模が大きくなると，正答と誤答の識別能力の差（謙虚さの欠如）が悪化することが明らかになった。
Link: https://arxiv.org/abs/2605.01011
SiNFluD：シンド語の比喩表現データセットの作成と評価 [cs.CL, cs.AI]目的：シンド語の比喩表現分類のためのベンチマークデータセット
- 自然言語処理において，比喩表現の理解は重要な課題である。
- シンド語における比喩表現のデータセットは存在しなかった。
- シンド語の比喩表現分類モデルの性能向上を目指す。
- SiNFluDというシンド語の比喩表現分類データセットを作成した。
- アノテーター間の一致度は0.81であった。
- 事前学習済みのXLM-RoBERTa-XLが最も高い性能を示した。
Link: https://arxiv.org/abs/2605.01323
視覚言語モデルにおける知覚帯域幅のボトルネック：逐次実験計画による能動的視覚推論 [cs.CV, cs.AI, cs.LG]目的：視覚言語モデルにおける知覚帯域幅のボトルネックとその克服
- 視覚言語モデルの性能は，画像と自然言語の理解に不可欠であり，幅広い応用が期待される。
- 高解像度画像における詳細な情報把握が難しく，複雑な推論のボトルネックとなっている。
- 限られた知覚帯域幅下で，タスクに関連する証拠を効率的に取得する手法を開発すること。
- 本研究では，逐次ベイズ最適実験計画（S-BOED）を導入し，視覚的証拠の取得を形式化することで，推論能力の向上を目指した。
- 提案手法FOVEAは，訓練を必要とせず，VLMのクロップ提案を改善し，優れた性能を示した。
- 特に，リモートセンシングの検索タスクにおいて，大幅な性能向上が確認された。
Link: https://arxiv.org/abs/2605.01345
AI専門家ツイン：人間中心の，実践に基づいた学習のための専門家の認知の捕捉 [cs.HC, cs.AI]目的：専門家の認知構造のモデル化
- 実践的な分野における専門家の知識は重要であり，効果的な教育に不可欠である。
- 専門家の暗黙知を形式化し，規模拡大することが困難である。
- AIを活用し，専門家の認知構造を学習システムに組み込むことで，実践的な学習を可能とする。
- AI専門家ツインは，手続き的行動，意味的概念，意思決定プロセスを構造化・計算可能な表現としてモデル化する。
- 専門家の判断に影響する価値観，トレードオフ，不確実性も考慮する。
- 文化遺産ワークショップでの事例研究により，本手法の現実世界での実現可能性が示された。
Link: https://arxiv.org/abs/2605.01401
強化学習による分布認識の多modal大規模言語モデルへの注入：深層不均衡回帰に向けて [cs.CL, cs.CV, cs.LG]目的：長尾ターゲット分布下における数値回帰の性能向上
- 多modal大規模言語モデルは，画像とテキストを理解し活用する能力が期待され，幅広い応用が考えられる。
- 既存モデルは，長尾分布のデータに対する回帰タスクにおいて，高密度領域への偏りが生じやすい。
- サンプル間の関係性を考慮した学習により，分布全体の予測精度を高めることを目指す。
- 提案手法は，グループ相対方策最適化に基づく強化学習フレームワークであり，予測分布と真の分布の相関，スケール，平均を整列させる。
- アーキテクチャの変更は不要で，既存のモデルに容易に組み込むことができる。
- 長尾回帰ベンチマークにおける実験で，特に少shotおよび中shot環境において，SFTや既存手法を上回る一貫した改善が確認された。
Link: https://arxiv.org/abs/2605.01402
双方向知覚と多層アライメントによるヒューマン・ビークル協調のための仲介エージェントシステムMILD [cs.AI]目的：ヒューマン・ビークル協調のための仲介エージェントシステム
- 部分運転自動化は，ドライバーの認知負荷を増加させる可能性が指摘されている。
- 車両の意図や判断ロジックの透明性の欠如，ドライバーの状態把握の限界が課題である。
- 双方向の認識不足による状況認識のずれを解消し，協調的な運転を可能にすること。
- MILDシステムは，ドライバーと車両の双方を理解し，安全で説明可能な行動提案を生成する。
- ECPOにより，安全性と人間価値観に沿った行動を保証し，検証可能なポリシー最適化を実現した。
- 実車実験の結果，MILDは既存システムと比較して，知覚精度と戦略品質において優れた性能を示した。
Link: https://arxiv.org/abs/2605.01507
インセンティブと修正によるAIアライメント [cs.RO, cs.RO, cs.LG, cs.AI]目的：AIアライメントのためのインセンティブ設計と修正メカニズム
- AIの能力向上に伴い，人間の意図と一致したAI開発が不可欠となっている。
- AIの行動を制御するためには，報酬設計が重要だが，不適切な設計は望まない行動を招く可能性がある。
- AIの誤りを検出し修正する仕組みを強化し，より安全で信頼できるAIを実現することを目指す。
- 法経済学モデルにおける抑止と執行の考え方をAIアライメントに応用し，AIの行動をインセンティブとして捉えた。
- AIの行動と監査者の監視を二者ゲームとしてモデル化し，報酬設計を最適化する手法を提案した。
- LLMのコーディングパイプラインにおける実験により，適応的な報酬プロファイルが従来の報酬設計よりも優れた結果をもたらすことを示した。
Link: https://arxiv.org/abs/2605.01643
SplitZip：分散LLMサービングのための超高速ロスレスKV圧縮 [cs.DC, cs.AI, cs.LG]目的：大規模言語モデル（LLM）サービングにおけるKVキャッシュ転送の高速化
- LLMの規模拡大に伴い，計算とメモリの負荷分散が重要になっている。
- 分散環境におけるKVキャッシュの転送がボトルネックとなっている。
- KVキャッシュ転送の高速化により，LLMサービングのスループット向上を目指す。
- SplitZipは，KVテンソルをビット単位で正確に圧縮し，既存のサービングフレームワークに容易に統合できる。
- BF16アクティベーションテンソルにおいて，613.3GB/sの圧縮スループットと2181.8GB/sの解凍スループットを達成した。
- KVキャッシュ転送速度が最大1.32倍，TTFTが1.30倍，リクエストスループットが1.23倍向上した。
Link: https://arxiv.org/abs/2605.01708
MAGIC：多段階の利点ゲートによる因果的影響を用いたマルチエージェント強化学習 [cs.MA, cs.LG]目的：マルチエージェント強化学習における協調性を促進するための学習信号の設計
- マルチエージェント環境では，各エージェントの行動が全体に影響するため，協調的な学習が重要である。
- 従来の学習信号では，エージェント間の長期的な相互作用における影響を正確に捉えることが困難である。
- エージェント間の多段階的な行動効果を推定し，報酬として活用することで協調性を向上させる。
- MAGICは，エージェント間の多段階的な行動効果を推定し，それを内発的報酬に変換するフレームワークである。
- 反事実介入を用いてチームメイトの将来を比較し，利点に基づいたゲートで探索をタスク目標に沿った方向に誘導する。
- MPEおよびStarCraftのベンチマークにおいて，既存手法を大きく上回り，平均的に26.9％と10.1％の性能向上を達成した。
Link: https://arxiv.org/abs/2605.01805
施設間HPCトレーニングのためのキュー認識型連合学習：FedQueue [cs.DC, cs.LG]目的：複数施設間HPC環境における連合学習の効率化
- 高性能計算(HPC)は科学技術の発展に不可欠だが，資源共有は課題である。
- 既存の連合学習は，バッチスケジューラの遅延や，異なる施設間の非IIDデータの影響を受けやすい。
- キュー遅延を考慮し，遅延の影響を抑制することで，連合学習の収束性と効率性を改善する。
- 提案手法FedQueueは，施設ごとのキュー遅延をオンラインで予測し，学習量を調整することで，遅延の影響を軽減する。
- また，遅延の大きい参加者の影響を抑制する admission control と，非均質なワークロードに対応する aggregation を採用する。
- 実環境およびシミュレーション実験により，FedQueueが既存手法と比較して，20.5%から34%の性能向上を示すことが確認された。
Link: https://arxiv.org/abs/2605.02125
プライバシー保護のための合成ドメイン適応による異種モデル融合マルチカメラ監視 [cs.CV, cs.DC, cs.LG]目的：プライバシー保護，クラス不均衡，異種アーキテクチャへの対応を目的としたマルチカメラドメイン適応オブジェクト検出フレームワーク
- 都市の安全確保や交通管理など，監視システムの重要性は増している。しかし，プライバシー保護との両立が課題。
- 既存手法では，プライバシー保護と高精度な物体検出を両立することが困難であった。特に，データ量の少ない状況下で問題が生じやすい。
- 単一のターゲットドメイン画像から視覚スタイルを学習し，特定のオブジェクトを合成することで，プライバシーを保護しつつ高精度な物体検出を実現する。
- 提案手法HeroCrystalは，既存のプライバシー保護アプローチと比較してmAPを+2.1%向上させ，33.4%という最先端の精度を達成した。
- 生成段階では，プロンプトベースの制御により，特定のオブジェクトの生成を可能にし，希少オブジェクトの生成によるクラス不均衡の緩和に貢献する。
- 連合学習段階では，動的なモデルコントラスト戦略によりドメイン固有のバイアスを抑制し，異種アーキテクチャ間のモデル融合を可能にした。
Link: https://arxiv.org/abs/2605.02169
介入複雑度：普遍的な報酬および知能の尺度 [cs.DB, cs.AI]目的：普遍的な知能尺度としての介入複雑度
- 汎用人工知能の実現には，知能を定量的に評価する枠組みが不可欠である。
- 既存の知能尺度は，外部からの報酬関数の定義に依存しており，恣意性がある。
- 環境から自然に導出される報酬関数を定義し，知能評価の客観性を高める。
- 介入複雑度は，環境由来性，普遍性，最小性，感度，達成選好という5つの性質を持つ。
- 資源関数（プログラム長，実行時間など）を導入することで，普遍的な報酬関数として機能する。
- 行動回数に基づく介入複雑度は多項式時間で計算可能だが，プログラム長に基づくものはオラクルなしでは計算不可能である。
Link: https://arxiv.org/abs/2605.02175
LEO衛星ネットワークにおける競合型DDQNに基づく適応的マルチ目的ハンドオーバー最適化 [cs.IT, cs.LG, math.IT]目的：LEO衛星ネットワークにおける適応的マルチ目的ハンドオーバー最適化手法
- LEO衛星通信は，地球規模での通信網構築に不可欠であり，その効率的な運用が重要である。
- 従来のハンドオーバー手法では，変化するネットワーク状況への適応が難しく，最適な性能を発揮できない場合がある。
- 本研究では，動的なトレードオフ学習を通じて，スループット，ブロック確率，スイッチングコストを最適化する。
- 提案手法は，スループット，ブロック確率，スイッチングコストの間で動的にトレードオフを学習することが確認された。
- シミュレーション結果から，提案手法は従来手法と比較して，最大10.3%のスループット改善を達成することが示された。
- また，提案手法は典型的な動作条件下でほぼゼロのブロック確率を実現することが確認された。
Link: https://arxiv.org/abs/2605.02416
暗黙的な特徴による誘導を通じた誤った価値観の伝播の軽減 [cs.RO, cs.AI, cs.CL]目的：言語モデルにおける誤った価値観の伝播軽減策
- 多主体環境における言語モデルの利用が増加しており，指示遵守と価値観整合が重要である。
- 従来の価値観整合研究は単一のLMとユーザー間の相互作用に焦点を当て，LM間の誤った価値観の伝播リスクを無視していた。
- 複数LM間の対話において発生する価値観の伝播を抑制し，LMのプロソーシャル行動を維持することを試みる。
- 複数LMが参加する会話型社会的ジレンマゲームにおいて，LMはプレイ後に反社会的な傾向を示すことが確認された。
- 他のプレイヤーが悪意を持って行動するように誘導されると，この反社会化効果はさらに強まる。
- 暗黙的な特徴による誘導は，LMの初期設定を強化し，プロソーシャル行動の維持に有効であることが示された。
Link: https://arxiv.org/abs/2605.02751
AsymTalker: 非対称蒸留による一貫性のある長期トークングヘッド生成 [cs.LG, cs.AI, cs.SD]目的：長期動画におけるトークングヘッド生成の実現
- 動画生成技術は，エンターテインメントやコミュニケーションにおいて重要な役割を担う。
- 既存手法では，長尺動画生成時に時間軸・空間軸のずれや，人物同一性の変動が課題となる。
- 本研究では，非対称蒸留と時間的参照符号化により，これらの課題を解決し，高品質な長尺動画生成を目指す。
- 提案手法AsymTalkerは，HDTFおよびVFHQデータセットにおいて最先端の結果を達成した。
- 600秒の動画に対して，高精度かつ一貫性のある人物生成が可能となった。
- リアルタイム推論速度は66FPSに達し，実用的な応用への道を開く。
Link: https://arxiv.org/abs/2605.02948
SkCC：クロスフレームワークLLMエージェント向けポータブルかつ安全なスキルコンパイル [cs.CR, cs.AI]目的：LLMエージェントにおけるスキル移植性とセキュリティの向上
- LLMエージェントの能力拡張に再利用可能なスキルが重要となる場面が増加している。
- 既存のスキルはフレームワーク依存性が高く，同じスキルでも性能にばらつきが生じるという課題がある。
- フレームワークに依存しないスキル開発を実現し，セキュリティ脆弱性を低減することを目的とする。
- SkCCは，スキル意味とフレームワークの書式を分離する中間表現SkIRを導入することで，スキルの移植性を実現した。
- 静的最適化により，セキュリティ制約を事前に適用し，脆弱性を抑制することで，安全性を高めた。
- SkillsBenchにおける実験で，Claude CodeとKimi CLIにおいて，それぞれ21.1%から33.3%，35.1%から48.7%の正答率向上を確認した。
Link: https://arxiv.org/abs/2605.03353
低照度画像品質改善のためのバタフライ・ホタル最適化Retinexエンハンスメント [cs.CV, cs.AI]目的：低照度画像品質の改善
- コンピュータビジョンやマルチメディア分野において，低照度下で撮影された画像の可視性向上が重要である。
- 従来のRetinex法は，様々な照明条件に対応できない手動調整パラメータに依存している。
- 本研究は，多様な照明条件下で自動的にパラメータを調整する手法を提案し，低照度画像の品質改善を目指す。
- 提案手法BFOREは，LOLベンチマークデータセットにおいて，従来のエンハンスメント手法中で最高のPSNR（17.22dB）を達成した。
- BFOREは，ヒストグラム均等化やMSRCRと比較して，それぞれ20.3%，17.5%高いPSNRを示す自然な明度バランスを実現した。
- BFOREは，訓練データなしで，深層学習ベースラインであるRetinexNetよりも高いPSNRとSSIMを達成した。
Link: https://arxiv.org/abs/2605.03509
Workspace-Bench 1.0: 大規模ファイル依存性を持つワークスペースタスクにおけるAIエージェントのベンチマーク [cs.DC, cs.PF, cs.AI, cs.CL, cs.DB, cs.LG]目的：大規模ファイル依存性を持つワークスペース学習におけるAIエージェントの評価
- 現実世界のタスク遂行において，ファイル間の依存関係を理解・活用する能力は重要である。
- 既存のベンチマークは，現実的なファイル依存関係を持つワークスペースの評価が不足している。
- 現実的なファイル依存関係を持つ大規模ワークスペースにおいてAIエージェントの性能を評価するベンチマークを提供する。
- Workspace-Benchは，5つの労働者プロファイル，74種類のファイル，20,476個のファイルを含む現実的なワークスペースを提供する。
- 現在のAIエージェントは，ワークスペース学習において人間に比べて大幅に劣る性能しか示していない。
- Workspace-Bench-Liteは，評価コストを約70%削減しながら，ベンチマークの分布を維持する100タスクのサブセットである。
Link: https://arxiv.org/abs/2605.03596
AniMatrix：芸術を思考するアニメ動画生成モデル [cs.CV, cs.AI]目的：アニメ動画生成における芸術性の向上
- アニメは世界中で人気が高く，その表現技術は特異であるため，自動生成は困難な課題である。
- 既存の動画生成モデルは物理的なリアリズムを優先し，アニメ特有の表現を十分に再現できていない。
- アニメの芸術的特徴を捉え，物理法則に縛られない自然な動画生成を実現することを目指す。
- AniMatrixは，物理的な正しさよりも芸術的な正しさを重視する二重チャネル条件付けメカニズムを導入した。
- 制作知識システムとAniCaptionを用いて，アニメの制作変数を構造化し，その変数を動画生成に反映させる。
- 専門家による評価において，プロンプト理解度と芸術的な動きにおいて，既存モデルを大きく上回る結果が得られた。
Link: https://arxiv.org/abs/2605.03652
PHALAR：学習された音楽オーディオ表現のための位相表現 [cs.CL, cs.DM, q-bio.PE, cs.SD, cs.AI, cs.LG, eess.SP]目的：音楽オーディオの部分混合に欠けているステムをマッチングするタスクに関する研究
- 音楽情報処理分野において，音楽の構造を理解することは重要な課題である。
- 既存モデルは時間情報を無視するため，ステム分離の精度向上が課題となっていた。
- 時間情報を考慮したモデルを開発し，ステム分離の精度と効率を向上させる。
- PHALARは，最先端モデルと比較して最大で約70％の精度向上を達成した。
- パラメータ数を50％以下に抑え，学習速度を7倍に向上させた。
- PHALARは，MoisesDB，Slakh，ChocoChoralesの各データセットで新たな最先端性能を確立した。
Link: https://arxiv.org/abs/2605.03929
SymptomAI：日常的な症状評価のための会話型AIエージェントに向けて [cs.AI]目的：日常的な症状を報告する患者に対する会話型AIエージェントの症状評価能力
- 医療現場における診断支援の効率化と精度向上が重要視されている。
- 既存研究は複雑な症例に偏っており，日常的な症状に対するAIの性能評価が困難である。
- 現実世界の患者データを活用し，より実用的な症状評価AIの開発を目指す。
- SymptomAIは，臨床医による診断と同等かそれ以上の精度で，症状評価を行うことが示された。
- 特に，追加の症状情報を引き出すための専用の症状インタビュー戦略が，従来のユーザー主導型会話よりも著しく高い性能を示すことが確認された。
- ウェアラブルデバイス利用者以外にも結果が一般化すること，また，急性感染症と生理的変化の強い関連性が明らかになった。
Link: https://arxiv.org/abs/2605.04012
妥当性較正による推論蒸留 [cs.LG, cs.AI]目的：大規模言語モデルの多段階推論能力を，より小型で効率的なモデルへ伝達すること
- 大規模言語モデルの推論能力は強力だが，計算コストが高い。実用化のためには，軽量なモデルへの知識伝達が不可欠である。
- 既存の蒸留手法は，教師モデルの軌跡を単純に模倣する傾向があり，推論の局所的な曖昧性を捉えきれていない。
- 推論過程における局所的な妥当性を考慮し，学習信号の配分を調整することで，より効果的な知識伝達を実現する。
- 提案手法は，数学的推論，コード生成，指示追従といった様々なベンチマークにおいて，既存の蒸留手法を凌駕する性能を示した。
- 有効なLLM推論蒸留は，厳密な軌跡模倣ではなく，原理に基づいた局所的に較正された学習信号の配分によって制御されることが示唆された。
- 本研究は，推論蒸留を経路アライメントではなく，局所的な学習信号配分問題として捉える新しい枠組みを提示する。
Link: https://arxiv.org/abs/2605.04078
平均曲率を用いた境界検出：教師なし学習のための幾何学的洞察 [eess.SY, cs.DC, cs.SY, cs.LG, cs.AI, stat.ML]目的：高次元データの境界検出
- 教師なし学習において，データの構造を正確に把握することが重要である。
- 非線形構造や不均一な密度を持つデータにおける境界検出は困難である。
- データの内在的曲率をモデル化することで，境界検出の精度向上を目指す。
- 本研究では，平均曲率境界点（MCBP）という新しい幾何学的枠組みを提案する。
- MCBPは，データの局所的なk近傍パッチから形状演算子を近似的に計算し，点ごとの平均曲率を算出する。
- 実験結果から，MCBPは複雑かつ高次元のデータにおけるクラスタリング性能を向上させることが示された。
Link: https://arxiv.org/abs/2605.04274
RLearner-LLM：大規模言語モデルにおける論理的根拠と流暢性のバランスを，ハイブリッド直接選好最適化によって実現 [eess.SY, cs.SY, math.OC, cs.CL, cs.AI]目的：大規模言語モデルの論理的根拠と流暢性のバランス改善
- 知識集約型生成における大規模言語モデルの性能向上は，様々な分野での応用を促進する。
- 従来の選好信号には流暢性を過大評価する傾向があり，論理的な正確性が損なわれる問題がある。
- DeBERTa-v3と検証用LLMの信号を融合することで，この問題を解決し，論理的な整合性を高めることを目指す。
- RLearner-LLMは，5つの学術分野において，SFTモデルと比較して最大6倍のNLIスコアの改善を実現した。
- 特にGemma 4 E4B-itモデルでは，5つの分野のうち4つでNLIスコアが向上し，推論速度も向上した。
- Qwen3-8Bモデルを用いた比較では，ベースラインのSFTモデルに対して95%のペア比較で勝利を収めた。
Link: https://arxiv.org/abs/2605.04539
ウェアラブルヒューマンアクティビティ認識における効率的なテスト時適応のための時間構造の重要性 [cs.CV, cs.HC, cs.LG]目的：ウェアラブルヒューマンアクティビティ認識におけるテスト時適応の性能向上
- ウェアラブルデバイスの普及により，個人の活動認識の需要が高まっている。
- 異なるユーザー間でデータ分布が異なると，認識精度が低下しやすい。
- 時間的な構造を考慮した適応手法により，認識精度の低下を抑制する。
- 提案手法SIGHTは，既存のテスト時適応手法と比較して，高い認識精度を達成した。
- SIGHTは，軽量かつバックプロパゲーションフリーであるため，リアルタイムなエッジ展開が可能である。
- 特徴量のずれと時間的な連続性を活用することで，予測の安定化と精度向上を実現している。
Link: https://arxiv.org/abs/2605.04617
ITBoost：情報理論的信頼性に基づくロバストなブースティング [cs.CL, cs.LG]目的：勾配ブースティングにおけるノイズ耐性の向上
- 表形式データ学習において，勾配ブースティングは強力かつ広く利用されている。
- ラベルにノイズが含まれる場合，勾配ブースティングの性能が低下する問題がある。
- 信頼性の低いラベルによる影響を軽減し，ロバスト性を高めることを目指す。
- 提案手法ITBoostは，残差軌跡の複雑さを評価することで，信頼性の低いサンプルを減衰させる。
- 理論的に，ラベルノイズ下でのITBoostの一般化誤差の上界を導出した。
- 様々な表形式データベンチマークにおいて，ITBoostは既存手法よりも優れたロバスト性を示した。
Link: https://arxiv.org/abs/2605.04671
OSAQ：正確な低ビットLLM量子化のための外れ値自己吸収 [cs.LG]目的：LLMの低ビット量子化における外れ値抑制と性能向上
- 大規模言語モデルは高性能だが，その規模が大きいため，計算資源と推論速度が課題となる。
- 量子化はモデルサイズを削減し推論を高速化するが，重みの外れ値が性能低下の主な原因となっている。
- ヘッセ行列の低ランク性を利用し，外れ値を抑制する新しい量子化手法を提案することで，性能改善を目指す。
- 提案手法OSAQは，ヘッセ行列の安定した零空間を利用し，重みへの加算変換を行うことで外れ値を抑制する。
- OSAQは，GPTQと組み合わせることで，2ビット量子化において従来のGPTQと比較して40%以上perplexityを低減することを確認した。
- 本手法は，層間変換や推論オーバーヘッドを発生させない効率的な外れ値抑制を実現する。
Link: https://arxiv.org/abs/2605.04738
アノテーション品質の不均衡下における信頼性のある連合ラベル分布学習 [cs.MA, cs.LG]目的：アノテーション品質の不均衡下における連合ラベル分布学習の信頼性向上
- ラベル分布学習は，曖昧さを考慮した粒度の細かい学習を可能にする重要な手法である。
- 連合学習環境では，データ分離によりクライアント間のアノテーション品質にばらつきが生じやすい。
- アノテーション品質の不均衡がもたらす信頼性の問題を解決し，連合学習の性能を向上させる。
- 提案手法FedQualは，グローバルなセマンティックアンカーを用いて低品質クライアントを調整し，高品質クライアントの自律性を維持する。
- サーバ側では，生サンプル数ではなく，有効な信頼情報に基づいてクライアントの貢献度を再重み付けする。
- 実験結果から，提案手法が新たなベンチマークにおいて有効であることが示された。
Link: https://arxiv.org/abs/2605.04827
言語モデルの出力分布サンプリングによる誤差の幾何学的関係 [cs.LG]目的：言語モデルの出力分布サンプリングによる誤差の幾何学的性質
- 言語モデルの性能向上には，生成過程における微妙な変化の影響理解が不可欠である。
- 確率分布が分散している状況下では，単一トークンの変更がモデルの出力に大きな影響を与える。
- トークン埋め込みの幾何学に基づき，モデル内部表現の問題解決能力を解明する。
- トークン埋め込みの幾何学のみに依存する $\mathfrak{so}(n)$-値1形式を導出した。
- その曲率は意味的に有意であり，チェス推論タスクにおいて，モデルの内部世界モデルと関連性が見られた。
- この結果は，トークン空間の幾何学がモデルの問題表現に直接反映されている可能性を示唆する。
Link: https://arxiv.org/abs/2605.04899
KernelBenchX: LLM生成GPUカーネル評価のための包括的ベンチマーク [cs.LG, cs.PF]目的：LLM生成GPUカーネルの正当性とハードウェア効率のカテゴリ別評価
- LLMによるGPUカーネル生成は注目されているが，その限界と原因の解明が課題である。
- 既存の研究では，LLM生成カーネルの性能がタスクの種類によって大きく左右されることが示唆されている。
- 本研究は，LLM生成カーネルの限界を明らかにし，性能向上のための指針を示すことを目指す。
- タスク構造がカーネルの正当性に，生成手法よりも大きな影響を与えることが示された。
- 反復的な改善は正当性を向上させるが，性能は向上しないことが明らかになった。
- 正当なカーネルでもPyTorchのベースラインより遅い場合が多く，ハードウェア間での速度変動が大きい。
Link: https://arxiv.org/abs/2605.04956
テキストコーパスを概念場と捉える：ブラックボックスな幻覚検出と新規性評価 [cs.CL, cs.AI, cs.CY]目的：テキストコーパスにおける概念場の推定とその応用
- 大規模言語モデルの利用拡大に伴い，生成されるテキストの信頼性確保が重要になっている。
- 言語モデルが生成する内容は，時に事実に基づかない「幻覚」を含む可能性が指摘されている。
- コーパスに内在する概念場を捉え，テキストの根拠の有無や新規性を評価する手法を提案する。
- 概念場は，文埋め込み空間における連続する文間の差分から推定され，その場との整合性をスコア化する。
- この手法は，U.S. Code of Federal RegulationsとProject Gutenbergにおいて，幻覚検出と新規性評価で高い性能を示した。
- 概念場の発散と回転を計算することで，意味的なパターン（論理の源泉，終端，潜在的なトピック）を可視化できる可能性を示唆した。
Link: https://arxiv.org/abs/2605.05103
インテリジェントシステムのための制御されたメタプログラミング：eval を制御された副作用として再分類 [cs.PL, cs.AI]目的：インテリジェントシステムにおける実行可能構造の動的合成に関する研究
- AIシステムの進化に伴い，実行時のプログラム生成や自己改善が重要性を増している。
- 従来の言語では，コード表現から実行への移行が制限がなく，セキュリティ上の問題が生じうる。
- eval操作を制御された副作用として扱うことで，権限増幅を抑制し，安全性を高めることを目指す。
- 本研究では，プログラム表現を第一級の値とし，形式操作を純粋な計算とし，実行への変換を制御された副作用とする「制御されたメタプログラミング」を提案する。
- 提案手法は，プログラムの能力要件，ポリシー準拠，リソース見積もりを分析し，実行を許可するガバナンスシステムを組み込む。
- MashinTalkというDSLで実装し，既存の454個のRocq定理との統合を報告することで，有効性を検証した。
Link: https://arxiv.org/abs/2605.05248
ダーウィンの直接的な影響：進化の第一原理からの高度な最適化手法の導出 [cs.NE, cs.LG, q-bio.PE, q-bio.QM]目的：高度な最適化手法の導出
- 最適化は，機械学習や科学計算において不可欠であり，その効率性が重要視される。
- 既存の最適化アルゴリズムは，進化の忠実性を犠牲にし，生物学的なメタファーに頼ることが多い。
- 進化の第一原理に基づいた最適化手法を導出し，科学的に妥当な進化シミュレーションを実現すること。
- ダーウィンの進化論におけるフィッシャーとライトの対立する見解が，実は数学的に同等であることが示された。
- 適切な記録保持には特定の種類の構造化ノイズが必要であり，これを満たすことで忠実な進化シミュレーションが可能になる。
- 確率的勾配降下法やニュートン法など，既存の最適化アルゴリズムが進化動力学と整合性があることが証明された。
Link: https://arxiv.org/abs/2605.05284
ニューラル共同状態ポリシー：再帰型強化学習における隠れ状態の構造化 [cs.LG]目的：部分観測下における知能エージェントの推論と行動
- 現実世界は部分的にしか観測できないため，部分観測下での強化学習が重要である。
- 再帰型ポリシーの隠れ状態は解釈が難しく，内部の動的挙動が不明瞭である。
- ポンチャギン最小原理との関連性を示すことで，隠れ状態の構造化を目指す。
- 隠れ状態がポンチャギン最小原理の共同状態に直接対応することを示した。
- 共同状態損失を導入することで，内部動的な構造を明示的に制御するアプローチを提案した。
- 部分観測環境において，既存手法と同等またはそれ以上の性能を達成した。
Link: https://arxiv.org/abs/2605.05373
SLAM：言語モデルのための構造言語活性化マーキング [cs.CL, cs.AI]目的：言語モデルへのウォーターマーク埋め込み手法
- LLMの生成テキストの信頼性確保が重要であり，悪用防止策が求められている。
- 既存のウォーターマーク手法はテキスト品質を低下させるという課題がある。
- テキスト品質を損なわずに，高精度なウォーターマーク埋め込みを実現すること。
- SLAMは，トークン頻度ではなく構造的な特徴にウォーターマークを埋め込むことで，テキスト品質の低下を抑制する。
- Gemma-2B/9Bにおいて，100%の検出精度を達成し，品質コストはKGW等と比較して大幅に低い。
- 単語レベルの編集には強いが，構文を再構築する言い換えには弱いという特性がある。
Link: https://arxiv.org/abs/2605.05443
X-Voice：ゼロショット多言語音声クローニングによる30言語への対応 [cs.SD, cs.AI, eess.AS]目的：ゼロショット多言語音声クローニングモデルの開発
- グローバル化が進む中で，言語の壁を超えたコミュニケーションの重要性が高まっている。
- 既存の音声合成システムでは，言語ごとのデータが必要であり，多様な言語への対応が困難である。
- 学習データが少ない言語でも，高品位な音声クローニングを実現し，多言語コミュニケーションを支援する。
- X-Voiceは，42万時間の多言語音声コーパスを用いて学習された0.4Bパラメータのモデルである。
- 国際音声記号（IPA）を統一的な表現として用いることで，30言語での音声クローニングを可能にした。
- 既存のflow-matchingベースの多言語システムや，数十億規模のモデルと比較して，同等以上の性能を示す。
Link: https://arxiv.org/abs/2605.05611