arXiv雑要約

AI - 2026/05/29 公開

サービス分類のLLMネイティブな再帰的構築と検索：可読性のないインデックス化 [cs.AI]目的：サービス分類の階層的な構造化と，クエリ時にレイヤーを段階的に探索する検索手法の開発
- エージェント間の連携が活発化する中で，LLMが利用可能なサービスの発見効率が重要となる。
- 大量のサービス記述をプロンプトに含めると，コンテキストウィンドウの制約や「Lost-in-the-Middle」現象により性能が低下する。
- LLMのコンテキスト制約を回避しつつ，サービス発見の精度と効率を向上させることを目指す。
- 提案手法A2Xは，サービス登録数の増加に関わらず，LLMの有効コンテキストの制約を克服する。
- A2Xは，フルコンテキストダンプと比較して，ヒット率を6.2ポイント向上させ，プロンプトトークンコストを9分の1に削減した。
- 最先端の埋め込みベースラインと比較して，ヒット率を20ポイント以上改善した。
Link: https://arxiv.org/abs/2605.29270
CoHyDE：LLM書き換え器と密なエンコーダの反復的共同学習によるツール検索 [cs.AI, cs.IR, cs.LG]目的：大規模APIカタログにおけるツール検索の性能向上
- LLMエージェントの性能は，APIカタログからの適切なツール検索に大きく依存する。
- APIカタログの専門用語と，自然言語でのユーザーの曖昧なクエリ間のギャップが存在する。
- この研究は，LLMとエンコーダを共同で学習することで，そのギャップを埋めることを目指す。
- CoHyDEは，既存の単一コンポーネントのベースラインと比較して，標準的なクエリでNDCG@5が+2.5pp，曖昧なクエリで+6.3pp改善された。
- 最も難しい曖昧なクエリ層では，最大+8ppの改善が認められた。
- 共同学習が重要な要素であり，単独で使用してもCoHyDEと同等の性能は得られなかった。
Link: https://arxiv.org/abs/2605.29271
決済ネットワークにおける因果ラベル復元 [cs.LG, cs.AI, stat.ML]目的：決済ネットワークにおける不正検知性能の限界克服
- 決済ネットワークの不正検知は金融システム全体の安全性を保つ上で不可欠である。
- 不正検知ラベルにはバイアスが内在しており，正確なモデル構築の妨げとなっている。
- ラベルのバイアスを修正し，理論上の性能限界に到達することを目指す。
- Sequential Triply Robust (STR)推定器を開発し，4つのバイアス要因を同時に修正することを可能にした。
- STR推定器は半パラメトリック効率限界を達成し，理論上最適な性能を示すことが証明された。
- 最適な学習遅延を導出し，モデルの鮮度とラベル品質のバランスを改善した。
Link: https://arxiv.org/abs/2605.29272
新規適応学習アルゴリズムの理論的・実験的研究 [cs.LG, math.OC]目的：機械学習アルゴリズムにおける損失関数最小化手法の開発
- 機械学習は，画像認識や自然言語処理など幅広い分野で活用されており，その重要性は増している。
- 既存の適応学習率最適化手法は収束を保証せず，不安定性を示す場合がある。
- AdamやAMSGradの限界を克服し，より安定した収束を保証する最適化手法を提案すること。
- 提案手法C-Adamは，線形探索アプローチに基づき，AdamやAMSGradの課題を克服する。
- C-Adamの収束性に関する理論的証明が提供され，実用的な数値実験によってその有効性が検証された。
- C-Adamは，従来の最適化手法と比較して，計算コストを抑えつつ，より安定した学習を実現する可能性を示す。
Link: https://arxiv.org/abs/2605.29273
Code-QA-Bench：リポジトリレベルQAにおけるコード推論とドキュメント記憶の分離 [cs.CL, cs.CL, cs.SE, cs.AI]目的：リポジトリレベルのコード理解ベンチマークの生成
- ソフトウェア開発において，コードの理解は不可欠であり，高品質なソフトウェアの作成に繋がる。
- 従来のQAタスクでは，コード理解とドキュメントの暗記が混同されており，真のコード理解能力の評価が困難である。
- コードの構造に基づいた質問と回答を生成し，ドキュメントの有用性を定量的に評価することで，コード理解能力を正確に評価する。
- Code-QA-Benchフレームワークは，コードアクセスがQA性能に大きな影響を与えることを示した（closed-bookと比較して平均0.23の向上）。
- ドキュメントは，ドキュメント依存型タスクにおいてわずかな利点を提供するが，コードのみのアクセスとドキュメントありのアクセスは，コード由来型タスクで同程度の性能を示した。
- このフレームワークは，Pythonリポジトリに適用可能であり，コード理解モデルの評価に貢献する。
Link: https://arxiv.org/abs/2605.29277
LoopFM：基盤モデルの履歴表現を用いた推薦システム学習 [cs.CL, cs.LG, cs.AI, cs.IR]目的：推薦のための基盤モデルの履歴表現からの学習
- 推薦システムは，情報過多な現代において，ユーザーに適切な情報を提示するために不可欠である。
- 基盤モデルの知識をコンパクトなモデルに転移する際の転移率が低下することが課題となっている。
- 基盤モデルの中間表現を活用し，転移率を向上させることを目指す。
- LoopFMは，基盤モデルの中間埋め込みを特徴量として利用することで，高帯域幅の知識転移を実現する。
- 実験結果から，LoopFMはAUCを大幅に改善し，KDとの相乗効果も確認された。
- 産業規模のシステムでは，KDに加えて知識転移率を約2倍に向上させ，コンバージョン率を改善した。
Link: https://arxiv.org/abs/2605.29280
物理の基礎モデルは汎化可能な物理を学習するか？様々な物理領域と分布シフトにおけるバイアスを考慮したベンチマーク [cs.LG, cs.AI]目的：物理の基礎モデルの汎化性能評価
- 物理現象の予測は科学技術の発展に不可欠であり，その自動化が求められている。
- 既存の評価方法では，特定の分布下での性能しか評価できず，汎化能力の判断が困難である。
- 様々な物理領域と分布シフト下でのモデルの性能を評価し，汎化能力の限界を明らかにする。
- 現在の物理基礎モデルは，普遍的な一般化性能を持つのではなく，物理領域，時間スケール，初期条件に依存した条件付きの一般化性能を示す。
- 学習データの分布を改善するだけでは，この限界を完全に克服することは難しい。
- 事前学習やモデルの規模拡大も，バイアスを確実に除去することはできない。汎化性能向上のためには，より転移可能な物理知識を獲得するメカニズムが必要である。
Link: https://arxiv.org/abs/2605.29283
解答正解の長CoT学習履歴における有害な継続の診断 [cs.AI]目的：長CoTデータにおける解答後の不要な継続の特定と，その学習への影響の評価
- 大規模言語モデルの推論能力向上には，CoTによるSFTが不可欠である。
- 解答が正しくても，CoTの継続部分が学習結果に悪影響を及ぼす可能性がある。
- 有害な継続を特定し，除去することで，より効果的なSFTを実現することを目指す。
- 解答正解のCoTデータから，不要な継続部分を除去することで，SFTの性能が向上することが示された。
- 有害な継続は，局所的な不確実性と，終端方向への進捗の減衰を特徴とする「不確実性-形状の不一致」を示す。
- 編集器によって特定された有害な継続の境界を近似する軽量なプロキシ「有害継続カット（HCC）」が提案された。
Link: https://arxiv.org/abs/2605.29288
EvoGM：進化的生成最適化によるLLMの統合学習 [cs.MA, cs.NE]目的：LLM統合手法の性能向上
- 大規模言語モデル(LLM)の性能向上は，自然言語処理の発展に不可欠である。
- 既存手法は手動で設計された演算子に依存し，性能空間の最適化が不十分である。
- 生成モデルを用いた係数の最適化により，LLM統合の効率性と性能を向上させる。
- EvoGMは，二重生成器アーキテクチャとサイクル整合学習により，有望な統合候補を効率的に探索する。
- 過去の探索履歴から勝者-敗者ペアを構築することで，高性能なパラメータ分布を捉え，データ効率を最大化する。
- 多様なベンチマークにおいて，EvoGMは最先端のベースラインを大幅に上回り，未学習タスクでも堅牢な性能を示す。
Link: https://arxiv.org/abs/2605.29295
Pocket-Dentist：効率的なマルチモーダル大規模言語モデルによるオンデバイス歯科画像理解 [cs.RO, cs.CV, cs.AI]目的：歯科画像理解のための効率的なマルチモーダル大規模言語モデルの性能評価
- 歯科医療における画像診断は，疾患の早期発見や治療計画の策定に不可欠である。
- 既存の歯科画像・言語モデルの評価は断片的であり，計算コストが実用上の課題となっていた。
- 省電力かつ迅速な推論が可能な歯科画像理解モデルの開発を目指す。
- コンパクトな大規模言語モデル（20億パラメータ）が，より大規模なモデルよりも高い精度で歯科画像理解を実現した。
- iPhone 17 Pro上で動作するPocket-Dentist-2Bは，70億パラメータのベースラインと比較して，処理時間を4.9倍，メモリ使用量を2.3倍削減した。
- 本研究は，専門医のいない場所でも，プライバシーを保護しつつ，迅速な歯科スクリーニングを可能にする可能性を示した。
Link: https://arxiv.org/abs/2605.29299
MusTBENCH：音楽LLMにおける時間的根拠付けのベンチマークと進歩 [cs.CL, cs.AI, cs.SD]目的：音楽LLMの時間的根拠付けの評価と改善
- 音楽理解において，重要な情報は時間的に局在したイベントとして現れることが多い。
- 既存の音楽LLMは，時間的な根拠付けがどの程度正確か十分に検証されていない。
- 音楽LLMの時間的根拠付け能力を評価し，その改善を目指す。
- 既存の音楽LLMは，正確な時間的根拠付けに苦戦していることが示された。
- 提案手法MusTは，強力なベースラインと比較して，時間的根拠付けの性能を大幅に向上させた。
- 本研究は，時間的根拠付けを音楽LLMの重要な課題として確立し，MusTBENCHを新たなベンチマークとして提示した。
Link: https://arxiv.org/abs/2605.29300
エントロピー・KLダイバージェンスに基づくトークンマスキング：大規模言語モデルの選択的ファインチューニングのための新しいアプローチ [cs.AI]目的：大規模言語モデルの選択的ファインチューニング手法
- 大規模言語モデルは，その性能向上が様々な分野で求められている。
- ファインチューニングデータが少ない場合，モデルが過学習し，事前学習時の分布から乖離しやすい。
- 事前学習分布を維持しつつ，タスク関連能力を活性化することで，より効果的なファインチューニングを目指す。
- 提案手法EKSFTは，エントロピーまたはKLダイバージェンスの高いトークンを選択的にマスキングする。
- EKSFTは，数学的推論ベンチマークにおいて，標準的なファインチューニング手法を上回る性能を示す。
- EKSFTでファインチューニングしたモデルからRLによる追加学習を行うことで，更なる性能向上が確認された。
Link: https://arxiv.org/abs/2605.29303
GrepSeek：直接コーパス対話のための検索エージェントの学習 [cs.CL, cs.AI, cs.IR, cs.LG]目的：知識集約型言語タスクにおける検索エージェントの学習
- 大規模言語モデルの知識獲得能力向上が重要視されている。
- 従来の検索システムは，キーワード検索に依存し，柔軟性に課題がある。
- コーパスを直接操作するエージェントによる情報検索の可能性を探求する。
- GrepSeekは，大規模テキストコーパスから証拠を見つけ，フィルタリング，合成する検索エージェントである。
- 2段階の学習パイプラインと並列実行エンジンにより，効率的なコーパス対話を実現した。
- 7つの質問応答ベンチマークで，GrepSeekは高いF1スコアとExact Matchを達成した。
Link: https://arxiv.org/abs/2605.29307
段階的モデルルーティングに対する評価基準に基づくプロセス報酬 [cs.AI, cs.CL]目的：段階的モデルルーティングにおけるルーティングポリシーの最適化
- 大規模言語モデルの推論効率化が求められており，適切なモデル選択が重要である。
- 既存手法は最終的な正解のみを評価するため，中間的なルーティング判断の質が改善されない。
- ルーティングの各ステップの質を評価し，より効果的なルーティングを可能にすること。
- RoRoは，多様なルーティング軌跡から評価基準を作成し，ルーティングの質をスコアリングする。
- プロセス報酬と最終結果の報酬を組み合わせることで，ルーティングポリシーを最適化する。
- 5つの推論ベンチマークで，既存手法を上回り，精度とコストのトレードオフを改善した。
Link: https://arxiv.org/abs/2605.29310
NeuroEdge：深層学習を用いた高密度筋電図によるリアルタイムハンドジェスチャー認識のエッジコンピューティング [cs.LG]目的：高密度筋電図を用いたリアルタイムハンドジェスチャー認識システムの開発
- 近年，義肢制御やリハビリテーションへの応用が期待され，神経機械インタフェースの研究が活発である。
- 深層学習モデルの高い計算負荷が，組み込みハードウェアへの実装を困難にしている。
- 計算資源の限られたマイクロコントローラ上でのリアルタイム処理を実現し，エッジデバイスでの応用を目指す。
- NeuroEdgeは，高密度筋電図データを無線で受信し，マイクロコントローラ上でリアルタイムにジェスチャーを認識するシステムである。
- 1次元CNNを最適化することで，低遅延かつ高精度（90%）なジェスチャー認識を実現した。
- 192チャンネルの筋電図データを用いて，平均遅延時間83msでの動作を確認した。
Link: https://arxiv.org/abs/2605.29326
活性化を考慮した初期化による大規模言語モデルの効率的な蒸留と推論能力の維持 [cs.CL, cs.LG]目的：大規模言語モデルの効率的な蒸留と推論能力の維持
- 大規模言語モデルは高性能だが，計算コストが高い。効率化が求められている。
- 既存の蒸留手法では，汎用性能は向上するものの，複雑な推論能力が低下する問題がある。
- 活性化を考慮した初期化により，推論能力の低下を防ぎつつ，効率的な蒸留を実現する。
- 提案手法REDは，投影行列をチャネル選択行列として初期化することで，有効ランクの低下を抑制する。
- LlamaやQwenシリーズの実験により，REDが推論能力を大幅に回復させ，高い学習効率と汎用性能を維持することが示された。
- REDは，既存の蒸留手法が抱える推論能力の崩壊という問題を解決し，より実用的な大規模言語モデルの構築に貢献する。
Link: https://arxiv.org/abs/2605.29327
参照データセットの幾何学を通じたFIDの再考 [cs.CV, cs.AI]目的：画像生成器の評価指標としてのFIDの不一致に関する考察
- 画像生成技術の発展に伴い，生成画像の品質評価が重要になっている
- FIDは広く利用されているが，必ずしも生成品質と一致しないという問題がある
- 参照データセットの幾何学構造がFIDに与える影響を解明し，より信頼性の高いベンチマーク手法を提案する
- FIDスコアの変化は，参照データセットの分布密度と有効ランクによって大きく左右されることが示された
- データセットが集中しているほどFIDは改善傾向にある一方，分散している場合はFIDが悪化する可能性がある
- FIDのような分布指標は，参照データセットの幾何学構造と合わせて解釈されるべきである
Link: https://arxiv.org/abs/2605.29335
ConMoE：MoE圧縮のためのプロトタイプ再割り当てによるエキスパートプール統合 [cs.CL, cs.DC, cs.AI]目的：MoEモデルの圧縮によるデプロイメモリ削減
- 大規模言語モデルの効率化が，実用的な利用を促進する上で重要である。
- MoEモデルは計算コストを削減する一方，すべての専門家を保存する必要がある。
- プロトタイプ再割り当てを通じて，専門家プールの統合とメモリ効率化を図る。
- ConMoEは，強化学習を用いずに，既存の専門家をプロトタイプとして再割り当てする。
- 実験の結果，ConMoEは既存のプルーニングやマージ手法と同等またはそれ以上の性能を示す。
- 特にdeepseek-moe-16b-baseにおいて，ルーテッドエキスパート数を25%と50%削減した場合に最高のスコアを達成した。
Link: https://arxiv.org/abs/2605.29350
注意機構を文脈的経験ベイズ法と捉える：粒子力学を通じた二段階的視点 [cs.LG, math.DS, stat.ML]目的：全トークン破損下における注意機構のみのTransformerの解析
- 近年，Transformerモデルの性能が向上しているが，その内部メカニズムの解釈は困難である。
- 注意機構は重要な役割を担うものの，その統計的性質や学習原理は未だ不明な点が多い。
- 注意機構を統計的な枠組みで解釈し，文脈学習のメカニズムを明らかにすることを目指す。
- 注意機構は，文脈によって定義される経験分布に対するカーネル重み付き事後平均を計算する処理と解釈できる。
- 深層ネットワークは粒子力学を通じてこの分布を洗練し，残差接続は事後推論のためのクエリとして機能する。
- 明示的なノイズスケジュールなしに，固定されたカーネル帯域幅と有限の積分範囲で効果的なノイズ除去が可能となる。
Link: https://arxiv.org/abs/2605.29351
無害に見えて有害：エージェントのスキルにおけるステルスな幻覚誘導のための中立的なプロンプト攻撃 [cs.CR, cs.LG]目的：エージェントのスキルにおける幻覚誘導の脆弱性
- LLMを活用したコーディングエージェントがソフトウェア開発に不可欠となり，その安全性確保が重要である。
- エージェントが架空のパッケージを幻覚し，悪意のある第三者がその名前を登録することでサプライチェーンリスクが生じる。
- 一見無害なプロンプトが幻覚行動を誘導し，サプライチェーンリスクを高める可能性を調査する。
- 中立的なプロンプト攻撃（NPA）は，明示的な悪意を含まず，LLMの幻覚傾向を高める。
- NPAは，既存の静的解析，LLMベース，およびエージェントベースの防御策を回避できる。
- NPAは，幻覚発生率（Hallucination ASR）とPipインストール成功率（Pip Install ASR）の両方を増加させる。
Link: https://arxiv.org/abs/2605.29354
サルにおける自然な全身運動の神経行動表現 [cs.LG, q-bio.NC]目的：サルにおける自然な全身行動の神経活動表現
- 霊長類の運動制御機構の解明は，神経科学とロボティクスにおける重要課題である。
- 全身運動の多様性と大規模神経表現の取得困難さから，研究は限定的なタスクに偏りがちである。
- 大規模神経活動から自然な全身運動を復元し，運動制御の神経基盤を明らかにすること。
- 本研究では，運動と感覚に関連する広範囲の皮質信号と，多視点モーションキャプチャデータを統合する枠組みを構築した。
- 自己回帰型エンコーダー・デコーダーモデルを用いて，全身運動の運動学的情報を再構成し，コンパクトな行動事前分布を学習した。
- 神経信号に基づいて，物理的な制約なしに，正確かつ現実的な全身運動の復元に成功した。
Link: https://arxiv.org/abs/2605.29355
PassNet：グラフコンパイラパス生成のための大規模言語モデルの拡張 [cs.AI, cs.LG, cs.PL]目的：グラフコンパイラパス生成のための大規模言語モデルの拡張
- 現代のテンソルコンパイラは，主流のモデルで大幅な高速化を実現するが，末尾のワークロードでは性能限界に直面している。
- コンパイラは，特定のサブグラフにおいて，デフォルトのコンパイル設定下で処理速度が低下することが示されている。
- 大規模言語モデルを活用し，コンパイラパイプラインに統合可能な構造化グラフ変換を自動生成することを目指す。
- PassNetは，10万件の実モデルから収集された18千件以上の計算グラフを含むPassNet-Datasetと，200件のキュレーションされたタスクからなるPassBenchを含む，大規模なエコシステムを提供する。
- PassBenchの評価指標ES_tを用いて，正確性，安定性，性能を統合的に評価し，体系的なLLMの悪用に対する多層的な防御策を導入している。
- 実験により，PassBenchは識別力が高く，飽和状態にないことが示され，LLMはサブグラフにおいて最先端コンパイラを最大3倍上回る高速化を達成している。
Link: https://arxiv.org/abs/2605.29357
Claude 3 Sonnetからの解釈可能な特徴抽出：単義性の拡張 [cs.AI]目的：Claude 3 Sonnetからの解釈可能な特徴の抽出
- 大規模言語モデルの内部動作解明は，その能力向上と安全性の確保に不可欠である。
- 大規模言語モデルの内部表現は複雑であり，その解釈が困難であるという課題がある。
- 言語モデルの内部表現から意味のある特徴を抽出し，その振る舞いを理解することを目指す。
- スパースオートエンコーダを用いて，Claude 3 Sonnetから解釈可能な特徴を抽出することに成功した。
- 抽出された特徴は多言語・多岐にわたり，具体的な事例や抽象的な概念にも対応する。
- 特徴の操作によって，言語モデルの出力に影響を与え，欺瞞，権力欲，偏見などの有害な特性を特定した。
Link: https://arxiv.org/abs/2605.29358
分散学習は計算ガバナンスを損なうか [cs.CY, cs.AI]目的：計算ガバナンスの有効性に対する分散学習の影響の評価
- 最先端AI開発には大規模計算資源が必要であり，その管理は重要である。
- 分散学習により，大規模データセンターを必要とせず，規制回避が可能になる。
- 分散学習による規制回避の可能性を評価し，対策を提案すること。
- 分散学習を用いることで，大規模な計算クラスタを隠蔽し，規制を回避できる可能性が示された。
- 規制当局は，内部告発，チップ追跡，会計監査などの対策を講じる必要がある。
- クラスタのメモリと計算能力に関する閾値を設けることも有効な対策となりうる。
Link: https://arxiv.org/abs/2605.29359
MiraBench：ロボットワールドモデルにおける行動条件付き信頼性の評価 [cs.AI]目的：ロボットワールドモデルにおける行動条件付き信頼性の評価
- ロボット学習において，シミュレーション環境は効率的な学習に不可欠である。
- 既存の評価基準は主に視覚的な忠実度に焦点を当て，物理的な妥当性や行動追従性に課題がある。
- 行動条件付き信頼性を評価することで，より現実的なシミュレーション環境を構築することを目指す。
- MiraBenchは，物理的整合性，行動追従性，楽観的バイアスの検出という3段階の評価基準を導入した。
- 視覚的忠実度は行動の忠実性の低いプロキシであり，モデル規模を拡大しても行動追従性が必ずしも向上しないことが示された。
- 現在のシステムには楽観的バイアスが広範囲に存在し，信頼性の高いシミュレーションが困難であることが明らかになった。
Link: https://arxiv.org/abs/2605.29360
並列焼きなまし法による整数線形計画問題の解決 [cs.CL, cs.LG]目的：整数線形計画問題に対する求解手法
- 組合せ最適化問題を幅広くモデル化可能であり，現実世界の様々な問題を解決するための基盤技術である。
- 既存手法は汎化性能が低い，あるいは外部ソルバーに依存するなど，課題が残されている。
- 学習や外部ソルバーに依存せず，線形構造を活用した効率的な求解を目指す。
- 提案手法は，ベンチマークテストにおいてSCIPを常に上回り，Gurobiと同等またはそれ以上の性能を示した。
- 特に，200秒の制限時間内において，4つのタスクのうち2つでGurobiに匹敵する性能を発揮した。
- また，分布シフトに対する頑健性が高く，問題特有のチューニングなしでMIPLIB 2017インスタンスでも良好な結果を得た。
Link: https://arxiv.org/abs/2605.29366
SURGENT：周術期ワークフローを対象とした手術支援マルチエージェントシステム [cs.CL, cs.CY, cs.SI, cs.CL, cs.AI]目的：周術期ワークフローにおける手術支援
- 現代手術は複雑化の一途を辿っており，高度な支援システムの必要性が高まっている。
- 既存のLLMは，入力長制限や記憶管理の不備，トレーサビリティの欠如により手術支援には不向きである。
- SURGENTは，これらの課題を解決し，より安全で信頼性の高い手術支援を目指す。
- SURGENTは，Tree-of-Thoughtプランナー，部門間連携エージェント，そして臨床ガイドラインと医学文献を用いた検索拡張推論を組み合わせる。
- 実験の結果，SURGENTはベースラインLLMや既存の医療マルチエージェントフレームワークよりも優れた性能を示し，患者の病歴に沿った推奨を提供することが示された。
- ローカル展開可能なDeepSeekをバックボーンモデルとして使用することで，プライバシー保護された環境での運用が可能となる。
Link: https://arxiv.org/abs/2605.29368
逆問題におけるベイズ推論のための深層適応的次元削減 [cs.LG, cs.NA, math.NA]目的：逆問題におけるベイズ推論の精度向上
- 高次元の偏微分方程式を伴う逆問題は，科学技術分野において頻繁に現れる重要な課題である。
- 複雑な事後分布や高コストなモデル評価，不適切な事前情報が，逆問題の解決を困難にしている。
- バリエーションフローモデルとニューラル演算子を用いて，効率的かつ高精度なベイズ推論を実現すること。
- 提案手法は，従来のMCMCやUKI，SVGDなどの手法と比較して，競争力のある，あるいはより優れた精度を示すことが確認された。
- 特に，ノイズの多い観測や高次元パラメータ空間といった困難な条件下で，その利点が顕著に現れる。
- バリエーションフローとニューラル演算子の相互作用により，事後分布に集中したサンプル生成とモデルの改良が繰り返され，適応的なループが形成される。
Link: https://arxiv.org/abs/2605.29373
BrahmicTokenizer-131K：o200k_baseの代替となるインド言語対応トークナイザー [cs.RO, cs.CL, cs.LG]目的：インド言語の圧縮率向上
- 近年，大規模言語モデルの多様な言語への対応が重要視されている。
- 既存のトークナイザーは，インド言語の圧縮率が低いという課題があった。
- 本研究では，既存モデルのインターフェースを維持しつつ，インド言語の圧縮率を向上させる。
- BrahmicTokenizer-131Kは，同じ語彙サイズにおいて，Mistral-Nemo Tekken/Sarvam-mよりも平均で26.7%少ないトークン数で済む。
- 特にオリヤー語においては，4.31倍の圧縮率を実現した。これは，Tekken/Sarvam-mにオリヤー文字ブロックのトークンが含まれていなかったためである。
- 英語，EU言語，コード，数学の性能においても，既存のo200k_baseと同等またはそれ以上の性能を発揮する。
Link: https://arxiv.org/abs/2605.29379
TRACER：ロバストなマルチモーダルファインチューニングのための持続的な正則化 [cs.LG, cs.AI, cs.CV]目的：マルチモーダルモデルのロバスト性向上に焦点を当てた正則化手法の開発
- 事前学習済みモデルの活用は，様々なタスクで高い性能を発揮するが，汎化性能の維持が課題である。
- ファインチューニングによる性能向上は，分布外データに対する頑健性を損なう「破滅的忘却」を引き起こしやすい。
- 標準的なEMA教師の崩壊問題を解決し，安定した正則化を可能とするWMA教師の有効性を示す。
- 本研究では，マルチモーダルコントラスティブファインチューニングの理論的枠組みを構築し，各戦略の幾何学的分解を明らかにした。
- 提案手法TRACERは，コントラスティブ学習とWMAによる多視点蒸留を組み合わせることで，CLIPファインチューニングにおいて一貫したOOD精度とキャリブレーションの向上を実現した。
- 実験結果から，TRACERが原理的であり，ハイパーパラメータ選択に頑健であることが確認された。
Link: https://arxiv.org/abs/2605.29380
潜在項：密な検索器は容易に抽出可能なBM25対応Zipf分布語彙を含む [cs.IR, cs.AI, cs.CL]目的：密な検索器における潜在的な語彙の抽出
- 情報検索の性能向上は，大量のデータから関連情報を効率的に見つけ出す上で不可欠である。
- 従来の密な検索器は，表現力豊かな構造を持つ一方で，その構造を十分に活用できていない。
- 密な検索器に内在する表現力を引き出し，より効果的な検索を実現すること。
- 密な検索器は，容易に抽出可能な疎な特徴量を含むことが示された。
- Sparse Autoencodersを用いて潜在的な語彙を抽出し，Zipf分布に従う語彙統計量が得られた。
- 抽出された語彙は，BM25などの古典的な疎な検索手法に直接適用可能であり，既存手法と同等以上の性能を示した。
Link: https://arxiv.org/abs/2605.29384
ニューラルスケーリング則における最適化手法依存性 [eess.SY, cs.SY, cs.LG, cs.AI, stat.ML]目的：ニューラルスケーリング則におけるスケーリング指数αの最適化手法依存性
- 深層学習モデルの性能向上には，モデルサイズの拡大が有効である。スケーリング則は，その効果を予測する上で重要。
- 従来の認識では，スケーリング指数αはモデル構造やデータに依存するとされ，最適化手法の影響は考慮されていなかった。
- 本研究は，最適化手法がスケーリング指数αに与える影響を明らかにすることで，スケーリング則に基づく予測の精度向上を目指す。
- 実験の結果，最適化手法によってスケーリング指数αが系統的に変化することが示された。特に，事前条件付き最適化手法はより急峻なスケーリングを示す。
- 自然言語処理に特徴的なスペクトル条件（s≈1.0）において，自然勾配法は勾配降下法と比較して2.6倍大きいスケーリング指数αを示した。
- この結果は，スケーリング則を用いた予測において最適化手法を考慮する必要性を示唆し，高度な最適化手法の適用可能性を予測するスペクトル診断を提供する。
Link: https://arxiv.org/abs/2605.29387
EvoMD-LLM：反応分子動力学における種進化の言語学習 [cs.AI]目的：種レベルの分子動力学の言語モデル化
- 分子動力学は物質のダイナミクス理解に不可欠であり，様々な科学分野で応用が広がっている。
- 従来の言語モデルは時間依存性の高い物理過程のモデリングに課題を抱えていた。
- 時間的な構造を考慮した言語モデルにより，分子動力学の予測精度向上を目指す。
- EvoMD-LLMは，反応分子動力学の軌跡を言語モデルとして表現する新しい枠組みを提案している。
- イベントの持続時間を明示的に言語的要素として扱うことで，無効な分子出力の発生を抑制し，予測精度を向上させている。
- 複数の時間予測タスクにおいて，最先端のニューラルネットワークや言語ベースラインを上回る精度を達成している。
Link: https://arxiv.org/abs/2605.29394
整列は堅牢だが脆弱：ゼロ次最適化によるLLMの安全性堅牢性の向上 [cs.AI]目的：大規模言語モデルの安全性堅牢性の向上
- LLMの安全性は，その有用性を損なわずに有害な行動を抑制する上で重要である。
- 安全性整列の効果は脆く，わずかな操作で安全性が低下する可能性がある。
- 最適化手法自体に焦点を当て，摂動下での評価に基づくゼロ次最適化を提案する。
- 本研究では，標準的な一階最適化とゼロ次最適化を組み合わせたハイブリッドフレームワークを提案する。
- ゼロ次最適化によるわずかな追加ステップで，安全性と堅牢性を両立できることを理論的・実験的に示す。
- レイヤーごとのロバスト性感度を推定し，重要層に焦点を当てることで，効率的なゼロ次最適化を実現する。
Link: https://arxiv.org/abs/2605.29396
GDSD：拡散言語モデルのためのガイダンス付きノイズ除去自己蒸留 [cs.CL, cs.LG, cs.AI]目的：拡散言語モデルのポリシー（ノイズ除去器）の改善
- 大規模言語モデルは様々なタスクで高い性能を示すが，更なる性能向上が求められている。
- 強化学習による性能向上は，ポリシー尤度の計算困難さによって阻害されてきた。
- 尤度を代理するELBOを用いる手法のバイアスを解消し，安定した学習を実現する。
- 提案手法GDSDは，自己教師信号を用いてノイズ除去器を直接蒸留することで，ELBOに基づく既存手法を上回る性能を示す。
- 計画，数学，コーディングのベンチマークにおいて，最先端のELBOベース手法と比較して，最大$+19.6\%$のテスト精度向上を達成した。
- 学習報酬の変動が少なく，より安定した学習が可能であることが示された。
Link: https://arxiv.org/abs/2605.29398
画面条件付き行動予測のためのアーキテクチャに依存する教師ありファインチューニング：PiSARベンチマーク [cs.HC, cs.SI, cs.AI, cs.CL, cs.HC]目的：画面に固定された行動の根拠に関する大規模データセットPiSARを用いた，教師ありファインチューニングの効果検証
- 行動予測は，人間とAIのインタラクションにおいて重要な役割を果たす。より自然な対話を実現するために不可欠である。
- 大規模言語モデルを用いた行動予測は，汎化性能に課題がある。特に，特定の画面表示に対する予測精度が低い。
- 画面表示と行動の関連性を学習させることで，より精度の高い行動予測を実現する。
- 最先端のゼロショットベースラインと比較して，ファインチューニングされたQwen3-VL-8B-Instructモデルが大幅に高い意味的類似度（sem_sim）を達成した。
- Qwenモデルは79%の行でsem_sim >= 0.7をクリアしたが，ベースラインモデルでは1〜2%にとどまった。
- Gemma-4-26B-A4B-ITモデルはベースラインと同程度の性能しか発揮せず，モデルとレシピの相性の問題が示唆された。
Link: https://arxiv.org/abs/2605.29400
マルチモーダル時系列予測のためのポストトレーニング手法の再考 [cs.LG]目的：マルチモーダル時系列予測におけるポストトレーニング手法
- 時系列データは現実世界の様々な現象を捉え，予測は意思決定や計画に不可欠である。
- 既存の時系列モデルは数値データに特化しており，非数値のマルチモーダルなコンテキストを扱えない。
- 数値モデルの予測を，マルチモーダルなコンテキストに基づいて修正する手法を確立すること。
- PostTimeは，SFTとRLVRを組み合わせることで，LLMが時系列モデルの予測をコンテキストに応じて修正することを学習する。
- PostTimeは，TimesXベンチマークにおいて，既存手法や単独のモデルと比較して，有意に高い性能を示す。
- LLMが生成する予測修正の根拠を自動的に生成する手法も開発された。
Link: https://arxiv.org/abs/2605.29401
効率的な長編ビデオ推論のための意味的・視覚的証拠：HD-EPIC VQA チャレンジへの解決策 [cs.CV, cs.AI]目的：長編ビデオ推論における意味的証拠と視覚的証拠の活用
- マルチモーダル大規模言語モデルの性能向上には，長時間のビデオ理解が不可欠である。
- 既存モデルは，文脈長の制限や視覚的詳細の認識不足により，長編ビデオの理解が困難である。
- 意味的・視覚的証拠を構造化し，統合することで長編ビデオ理解の精度向上を目指す。
- 本手法は，HD-EPIC-VQA チャレンジにおいて，複数のタスクカテゴリで競争力のある性能を達成した。
- 意味的証拠と視覚的証拠を分離し，動的に情報を選択・統合するフレームワークが有効であることが示された。
- マルチモーダル大規模言語モデルによる長編ビデオ理解には，明示的な証拠構造化が重要である。
Link: https://arxiv.org/abs/2605.29402
情報指向オフライン-オンライン強化学習 [cs.LG]目的：オフラインデータセットからの意思決定における残余不確実性の定式化と，情報獲得と即時後悔のトレードオフに基づく情報指向サンプリング法の開発
- 強化学習は，ロボティクスや自動運転など，様々な分野で重要な役割を担う技術である。
- オフラインデータのみでの学習は，探索不足に陥りやすく，オンラインでの相互作用を伴わない場合，性能が制限される。
- オフラインデータから得られる情報とオンライン探索を組み合わせることで，より効率的な学習を目指す。
- 提案手法である情報指向サンプリング(IDS)は，残余不確実性を考慮し，情報獲得を重視した行動選択を行う。
- 理論的に，IDSは参照となるトムソンサンプリング方策と同等のベイズ後悔限界を持つことが証明された。
- 実験結果から，IDSはオフラインデータが有益である一方で，偏りや低確率な残余不確実性が残る場合に特に有効であることが示された。
Link: https://arxiv.org/abs/2605.29405
マルコフ境界の善悪：表形式予測における考察 [cs.RO, eess.SY, cs.RO, cs.SY, cs.RO, cs.LG, cs.AI, stat.ME, stat.ML]目的：表形式予測におけるマルコフ境界の有用性評価
- 因果推論の分野において，変数の間の依存関係を理解することは重要である。
- 高次元の表形式データにおいて，不要な特徴量を削減することは計算コスト削減に繋がる。
- マルコフ境界を利用することで，予測に必要な特徴量を特定し，モデルの効率性を高める。
- 理想的なマルコフ境界に制限した場合，予測精度が大幅に向上し，特に特徴量空間が大きい場合にその効果が顕著になる。
- 因果探索で得られた境界を用いてモデルを訓練するアプローチは，計算資源の制約や誤検出の影響により，必ずしも期待通りの結果が得られない。
- 予測性能に焦点を当てた特徴量選択や，因果構造を学習可能な表形式モデルの開発が，今後の課題として示唆される。
Link: https://arxiv.org/abs/2605.29411
チャンドラヤーン3月面着陸のための制御可能境界を用いたリアルタイム再ターゲット化 [eess.SY, cs.LG, cs.SY]目的：チャンドラヤーン3月面着陸ミッションのためのリアルタイム再ターゲットガイダンスポリシー
- 月面着陸は，宇宙探査の重要な要素であり，将来の有人ミッションへの道を開く。
- 着陸地点の環境変化や誤差により，当初の着陸地点が安全でなくなる可能性がある。
- 当初の着陸地点が利用不可能になった場合に，安全な代替地点への迅速な軌道変更を可能にする。
- 提案手法は，制御可能境界の凸表現を活用することで，高速な実現可能性チェックとリアルタイムの目標更新を実現した。
- 本研究は，運用中の月面着陸ミッションにおけるデータ駆動型再ターゲットフレームワークの初の応用例である。
- 事前のシミュレーションとチャンドラヤーン3の飛行結果により，提案アプローチの有効性が確認された。
Link: https://arxiv.org/abs/2605.29412
二言語間転移を超えて：命令チューニングにおける多言語コードスイッチング [cs.CL, cs.AI]目的：多言語コードスイッチング命令チューニング
- 大規模言語モデルの性能向上には，多言語対応が不可欠である。
- 既存研究は主に英語と特定の言語間の二言語間転移に焦点を当てていた。
- 本研究は，３言語以上の多言語環境におけるコードスイッチングの効果を検証する。
- 単純な文レベルでの多言語コードスイッチングデータが，４言語全てにおいて平均的な多言語性能を向上させた。
- この結果は，コードスイッチングが二言語間転移を超えて有効であることを示唆する。
Link: https://arxiv.org/abs/2605.29414
いつペルソナプロンプティングが実際に役立つのか？LLMにおける専門家ロール注入の検索と指標分析 [cs.AI, cs.LG]目的：LLMにおける専門家ロール注入の効果の検証
- 大規模言語モデルの活用が拡大する中で，その性能を最大限に引き出すプロンプティング手法の探求が重要である。
- ペルソナプロンプティングの有効性に関する明確な結論がなく，一貫した品質向上効果があるか不明である。
- ペルソナプロンプティングがどのような場合に有効か，具体的な条件を明らかにすること。
- ペルソナプロンプティングは，専門知識の深さを高める一方で，明確さを低下させる傾向が見られた。
- 特に，助言を求める質問や，医療，心理学といった分野で効果が高かった。
- ハイブリッド検索手法が，埋め込みベースのロール検索よりも優れていることが示された。
Link: https://arxiv.org/abs/2605.29420
ReasonLight：マルチモーダル基盤モデル強化強化学習フレームワークによるゼロショット交通信号制御 [cs.AI]目的：ゼロショット交通信号制御のための，マルチモーダル基盤モデル強化強化学習フレームワーク
- 交通渋滞の緩和は都市の持続可能性と経済活動に不可欠であり，信号制御はその重要な要素である。
- 従来の強化学習は，訓練データに存在しない状況への対応が難しく，現実世界の複雑な交通環境への適応が課題である。
- IoTセンサーとカメラによる多様な情報を活用し，予期せぬ事態への適応能力を高めることが本研究の目的である。
- ReasonLightは，構造化された交通計測データ，マルチビューカメラ画像，事前学習済みの強化学習コントローラーからの候補フェーズ決定を統合する。
- 緊急車両の優先対応において，従来の強化学習のみの場合と比較して，最大88.7%待ち時間を削減できることが示された。
- ReasonLightは，再学習なしにゼロショット適応を達成し，通常の交通状況における性能も維持する。
Link: https://arxiv.org/abs/2605.29425
エージェントによる修正と意味評価を用いた人間らしいインタラクティブな音声認識 [cs.AI, cs.CL]目的：インタラクティブな音声認識の実現
- 人間とコンピュータの対話において音声認識は不可欠であり，LLMを活用したアシスタントの性能を左右する。
- 従来の音声認識は一回の処理で完結するため，人間のように対話を通じて誤りを修正する点が苦手である。
- 意味レベルでの誤りを修正し，より人間らしい対話を実現することを目指す。
- 本研究では，インタラクティブな音声認識を多段階の洗練タスクとして捉え，エージェントによる修正機能を持つ「Agentic ASR」を提案した。
- 新たな評価指標である「Sentence-level Semantic Error Rate ($S^2ER$）」を導入し，大規模なベンチマークテストを実施した。
- 実験結果から，反復的な対話が意味的誤りを減らし，$S^2ER$において従来の評価指標よりも大幅な改善が見られた。
Link: https://arxiv.org/abs/2605.29430
AliMark：文レベル透かしのロバスト性向上 - 文章の言い換えに対する [cs.CR, cs.AI, cs.CL, cs.LG]目的：文章の言い換えに対する文レベル透かしのロバスト性向上
- 自然言語処理の発展に伴い，生成されたテキストの信頼性確保が重要になっている。
- 既存の手法は，文章構造の変化（分割・結合）に対して脆弱であるという課題がある。
- 文章構造の変化に強い，よりロバストな透かし技術の開発を目指す。
- AliMarkは，文レベル透かしをビット列のエンコードとアラインメント問題として再構築する。
- 複数の文章構造変形版を生成し，コストを最小化するようにアラインメントすることで，結合・分割に対する耐性を向上させている。
- 多様な言い換え攻撃下で，既存の手法を大幅に上回る性能を示すことが実験的に確認された。
Link: https://arxiv.org/abs/2605.29434
SkillBrew：LLMエージェントのためのスキルバンクの多目的キュレーション [cs.CL, cs.AI, cs.IR]目的：LLMエージェントにおけるスキルバンクのキュレーション
- LLMエージェントの性能向上には，タスク遂行を導く再利用可能な知識基盤が不可欠である。
- 既存手法では，スキルバンクが肥大化し，冗長性，陳腐化，有害性といった問題が生じやすい。
- スキルバンクの効率的かつ効果的な維持・改善を目指す。
- SkillBrewは，有用性，多様性，クエリ分布のカバレッジを多目的最適化により実現する。
- 提案・検証ループを通じて，制約条件下でのPareto最適解を探索する。
- 公開ベンチマークでの評価により，原理に基づいたキュレーションの有効性が示された。
Link: https://arxiv.org/abs/2605.29440
コーディングエージェントがユーザーに失敗する様相：20,574件の現実世界におけるセッションを対象とした開発者-エージェント間の不整合の大規模分析 [cs.SE, cs.AI, cs.HC]目的：開発者とエージェント間の不整合の様相
- AIコーディングエージェントの利用拡大に伴い，その効果的な活用が重要となる。
- 既存の研究では，実際の開発者の経験する不整合が十分に捉えられていない。
- 現実世界のセッションにおける不整合を分析し，改善策を提示すること。
- 20,574件のセッションを分析した結果，不整合は主に開発者の修正によって解決されることがわかった。
- 不整合の形は7種類に分類され，プロジェクトの読解から進捗の報告まで，幅広い問題領域に及ぶ。
- IDEとCLI環境で不整合パターンに違いが見られ，時間経過とともに変化する傾向がある。
Link: https://arxiv.org/abs/2605.29442
CrystalXRD-Bench：多様な結晶材料におけるXRDピークインデックス作成のためのビジョン言語モデルのベンチマーク [cs.AI]目的：粉末XRDパターンからのミラー指数同定の性能評価
- 結晶構造解析は，材料科学や化学における物質の特性解明に不可欠である。
- 既存のベンチマークでは，科学的な図から正確なピーク位置を読み取り，結晶学的推論を行う能力が十分に評価されていない。
- 本研究では，現在のビジョン言語モデルが定量的な科学図で失敗する条件を特定し，性能向上を目指す。
- CrystalXRD-Benchは，10の公開結晶データベースから構築された250サンプルからなるベンチマークである。
- 最も性能の良いGPT-5.4でも，Jaccardスコアは0.5888，完全一致率は37.6%にとどまり，課題は未解決である。
- 二重ピークのケースや，過剰な予測を行うモデル，CIFテキストへのアクセスが計算精度のギャップを埋めることはないという傾向が見られた。
Link: https://arxiv.org/abs/2605.29446
データセットの価値はどの程度か？スケーリング則，Vendiスコア，および行列スペクトル関数 [cs.LG, cs.AI, cs.CV, cs.IT, math.IT]目的：データセットの価値評価
- 機械学習の性能向上には，良質な学習データが不可欠であり，データセットの価値を定量的に評価する手法が求められている。
- 既存手法では，データセットの価値を正確に予測することが難しく，効率的なデータ選択が困難である。
- データセットの価値をより正確に評価し，効率的なデータ選択を可能にする新たな手法を提案する。
- Vendiスコアや一般的なニューラルスケーリング則の目的関数は，劣モジュール性を持つことが示された。
- Vendiスコアは，より広範な行列スペクトル関数の特殊なケースであり，弱行列単調関数を用いることで，実用的なデータ評価の目的関数が導出された。
- 高速な最適化手法の開発により，ImageNet-1K規模のデータセットに対してもVendiスコアの直接最適化が可能になり，様々な目的関数を用いて評価を行った結果，施設配置法が最も優れた性能を示した。
Link: https://arxiv.org/abs/2605.29448