arXiv雑要約

AI - 2026/06/16 公開

SMEPilot：スケーラブルな行列拡張を用いたLLM推論の特性評価と最適化 [cs.DC, cs.AI, cs.PF]目的：LLM推論における行列拡張の特性評価と，それに基づいた演算子レベルでの実行選択
- LLMの普及に伴い，効率的な推論処理が重要となっている。
- CPUの行列拡張ユニットとコアの間で，演算負荷やメモリ帯域競合のミスマッチが生じている。
- 行列拡張ユニットとCPUコアの協調実行により，LLM推論の性能向上を目指す。
- SMEPilotは，演算子ごとにCPUのみ，行列拡張のみ，または両者の協調実行を選択するエンジンである。
- SMEPilotは，行列演算をタイル単位で分割し，行列拡張とCPUコアの並行実行を最適化する。
- Llama-3.2-3B，Qwen3-4B，Qwen3-30BA3Bにおいて，エンドツーエンドの推論性能を最大3.94倍に向上させた。
Link: https://arxiv.org/abs/2606.16332
不規則な3Dオブジェクトの微分可能なパッキングと適応型コンテナ推定 [cs.CV, cs.GR, cs.LG]目的：不規則な3Dオブジェクトの効率的なパッキングと，それに伴うコンテナサイズの最適化
- 3Dオブジェクトのパッキングは，輸送，保管，製造など，様々な分野で重要である。
- 従来のパッキング手法では，コンテナサイズを固定するか，手動での調整が必要となる場合が多い。
- コンテナサイズとオブジェクトの配置を同時に最適化することで，より効率的なパッキングを可能にすること。
- 提案手法は，オブジェクトの姿勢とコンテナのサイズを同時に最適化する微分可能なフレームワークである。
- 実験の結果，提案手法は既存手法と比較して，11～32％小さいコンテナを実現した。
- また，本手法は高速であり，単一のコンシューマーGPU上で4分以内に処理を完了する。
Link: https://arxiv.org/abs/2606.16333
医療ヒューリスティック学習：解釈可能かつ監査可能な臨床的意思決定ルールのためのLLM駆動型フレームワーク [cs.HC, cs.AI, cs.HC, cs.LG]目的：臨床タブラーデータの予測モデリング
- 臨床意思決定支援において中心的であり，高い予測性能と透明な意思決定ロジックが求められる。
- 深層学習やアンサンブル学習は高精度だが，ブラックボックス性が臨床での導入を妨げる主要な障壁となっている。
- 限られたサンプルサイズ，クラス不均衡，診断基準の変化といった課題を克服し，解釈性と監査可能性を確保すること。
- MHLは，勾配降下法に依存せず，LLM駆動型ワークフローを用いて，解釈可能な意思決定システムを最適化する。
- その結果，不透明なパラメータではなく，バージョン管理された純粋なPythonの意思決定ルールとしてモデルが表現される。
- 実験により，MHLは最先端の手法と同等の性能を維持しつつ，小規模データや不均衡なデータセットでも優れた振る舞いを示した。
Link: https://arxiv.org/abs/2606.16337
フィルタリングされたANNにおける相転移：選択性推定誤差がプラン後悔を引き起こすとき [cs.LG, cs.DB]目的：属性述語の選択性に基づく近似最近傍探索における最適な実行戦略の選択
- 大規模データセットにおける効率的な類似検索は，様々な応用において不可欠である。
- 選択性の推定誤差が，最適な実行戦略の選択を誤らせる可能性がある。
- 選択性推定誤差がプラン後悔を引き起こす条件と，その影響範囲を特定すること。
- 選択性推定誤差によるプラン後悔は，実行戦略が変化する境界領域でのみ発生する。
- 後悔の大きさは，推定誤差と境界の急峻さに比例することが示された。
- 実験により，後悔が境界付近に集中し，データセットサイズに依存しない普遍的なパターンに従うことが確認された。
Link: https://arxiv.org/abs/2606.16341
AIはどのホテルを推奨するか？LLMを活用したホテル選択における評判シグナルのアルゴリズム監査 [cs.AI, cs.CL, cs.CY, cs.LG]目的：LLMを活用したホテル選択における評判シグナルの影響
- 旅行計画においてAIの利用が拡大しており，ホテル選択への影響は無視できない。
- LLMがどのような基準でホテルを推奨しているか透明性がなく，公平性が懸念される。
- LLMによるホテル推奨のメカニズムを解明し，公平性と説明責任を向上させる。
- ホテル評価と価格が推奨に大きく影響し，高い評価は31.6%の推奨確率向上，高価格は30.0%の低下をもたらす。
- 環境認証は過大評価され，運営側のレビューへの対応は無視される傾向にある。
- ホテルリストの表示順位が推奨に因果的に影響を与え，一晩あたり約12ドル相当の価値を持つことが示された。
Link: https://arxiv.org/abs/2606.16344
LLM推論のための通信効率の良い検証可能注意機構 [cs.CL, cs.LG, cs.AI]目的：LLM推論の検証可能性
- LLMの利用拡大に伴い，リモート環境での計算の信頼性が重要になっている。
- TransformerベースのLLMに既存手法を適用すると，TEEの計算負荷や通信コストが増大する。
- 通信効率を向上させ，TEEとGPUの協調によりLLM推論を高速化することを目指す。
- 提案手法VeriAttnは，注意機構の線形および非線形計算をGPUにオフロードし，TEEで検証することで高速化を実現した。
- 特に，prefill段階においては，データ移動，TEE処理，GPU計算をオーバーラップさせる二段階パイプラインを用いることで，大幅な性能向上を達成した。
- デコーディング時には，key-valueキャッシュの分割により，GPUメモリ不足によるkey-value転送の繰り返しを抑制し，効率的な推論を可能にした。
Link: https://arxiv.org/abs/2606.16352
ストリーミング動画モデルは何を記憶すべきか [cs.CV, cs.AI]目的：ストリーミング動画理解における，限られたメモリと計算資源下でのクエリ応答能力の向上
- 動画コンテンツの利用拡大に伴い，動画理解技術の重要性が増している。
- 既存手法では，過去の情報を効果的に利用できず，現在のシーン認識が損なわれる場合がある。
- 限られたメモリ資源を，クエリに応じて選択的に活用するメカニズムの開発。
- 提案手法SelectStreamは，固定されたVLMに対し，クエリに応じて過去情報を選択的に提供する。
- SelectStreamは，StreamingBenchで82.67%，OVO-Benchで67.03%という高いオンラインストリーミング性能を達成した。
- オフライン動画ベンチマークでも高い精度を示し，既存手法を上回る性能を証明した。
Link: https://arxiv.org/abs/2606.16353
集約予測のためのシミュレーション拡張型多段階スプリット確信区間予測 [cs.LG]目的：集約予測タスクにおける不確実性定量
- 経済や環境など，年次合計や前年比成長率といった集約予測は重要である。
- 集約予測における不確実性の定量は難しく，信頼性の高い予測区間を構築することが課題である。
- シミュレーションを用いて確信区間予測を強化し，集約時系列予測における不確実性定量に貢献する。
- 提案手法SA-MSCPは，集約予測と成長率予測において，シミュレーションパスベースラインよりも経験的なカバレッジを向上させた。
- SA-MSCPは，ブロックブートストラップを用いて交差検証残差から将来のパスを生成し，経験的な分位点から予測区間を構築する。
- シミュレーションによる確信区間予測の校正は，集約時系列予測における不確実性定量のための有効かつ一般的なフレームワークである。
Link: https://arxiv.org/abs/2606.16356
プロキシは知りすぎている：アテストされたTEEでLLM APIルーターを保護する [cs.CR, cs.AI, cs.ET, cs.MA]目的：LLM APIルーターのセキュリティ脆弱性とその対策
- LLM利用が拡大する中で，APIルーターは重要な役割を担うが，セキュリティリスクも存在する。
- 従来のクライアント側防御では，APIルーターを介した攻撃を完全に防ぐことは困難である。
- アテストされたTEEを用いることで，APIルーターのセキュリティを強化し，攻撃を防ぐことを目指す。
- AEGISは，プロバイダーに依存しないアテストされたAPIルーターであり，クライアントが検証可能な忠実なパススルーを提供する。
- AEGISは，プレーンテキスト処理を小さなハードウェアエンクレーブコンポーネントに限定し，認証や管理は信頼できないホスト上で行う。
- 実験により，AEGISは4種類の悪意のあるルーター攻撃をブロックし，オーバーヘッドも小さいことが示された。
Link: https://arxiv.org/abs/2606.16358
FEnc$^2$: 効率的なプライベート推論のための畳み込みとアーキテクチャを意識した断片エンコーディングの統合 [cs.CR, cs.LG]目的：畳み込みニューラルネットワークのプライベート推論におけるデータパッキングの効率化
- 完全準同型暗号はプライバシー保護機械学習を可能にするが，計算・メモリコストが大きい。
- 既存のパッキング戦略は隣接データまたは特徴量グルーピングのいずれかを優先し，暗号文スロットが無駄になる。
- 暗号化されたワークロード構造を再構築し，準同型演算を大幅に削減することを目指す。
- FEnc2は，Conv-aware EncodingとArch-aware Ct Compressionにより，スロット利用率，回転複雑性，暗号文密度を最適化する。
- FEnc2は，LeNet on MNISTでGPUで最大228.83倍，CPUで226.06倍，MobileNet on ImageNetでGPUで4.55倍，CPUで9.43倍の高速化を達成した。
- 暗号化された推論のためのアプリケーションレベルのデータレイアウトは，重要なアーキテクチャ設計次元であることが示された。
Link: https://arxiv.org/abs/2606.16359
言語モデルにおける型付き潜在的推論：いつ，何を計算し，どれだけ割り当てるか [cs.CL, cs.AI]目的：言語モデルにおける潜在的推論のタイミング，計算の種類，および予算配分に関するポリシー学習
- 大規模言語モデルの推論能力向上は，自然言語処理の重要な課題である。
- CoTプロンプティングは冗長性や推論コストが高いという課題がある。
- 潜在的推論の最適化により，効率的かつ高精度な推論を実現することを目指す。
- Tylerは，テキストトークン生成と潜在的計算モジュールへの切り替えを，各デコーディングステップで選択するポリシーを学習する。
- 3つの基盤LLMを用いた実験で，TylerはCoTや既存のベースラインよりも高い精度を達成した。
- 多様な推論領域での汎化性能も高く，最終段階のパフォーマンスと忘却の抑制に優れている。
Link: https://arxiv.org/abs/2606.16360
視認は選択ではない：LLMエージェントにおけるツール選択失敗に対する注意セグメントの説明 [cs.AI, cs.CR, cs.SE]目的：LLMエージェントにおけるツール選択失敗の原因の解明
- 大規模言語モデル(LLM)エージェントの活用は，複雑なタスクの自動化に不可欠である。
- LLMエージェントは，利用可能なツールの中から適切なものを選択する際に誤りを犯すことがある。
- 本研究は，ツール定義セグメントへの注意メカニズムに着目し，その失敗原因を特定し，改善策を提案する。
- 実際のBFCL失敗例において，モデルは正解のツールに注意を向けることが約80%のケースで確認された。
- プロンプトの修正や読み出し側の介入により，ツールの選択失敗をそれぞれ最大91%まで回復させることができた。
- セグメントごとの注意に基づいた選択器は，BFCLとSeal-Toolsにおいて高い性能向上を示し，各モデルで有意な結果が得られた。
Link: https://arxiv.org/abs/2606.16364
大規模言語モデルのパーソナライズ評価における意味的制約検証 [cs.CL, cs.LG]目的：大規模言語モデルのパーソナライズ制約の検証方法
- 自然言語処理の発展に伴い，大規模言語モデルの応用範囲は拡大しており，個別のニーズに対応したパーソナライズが重要になっている。
- 既存の評価手法は，表面的な一致度や計算コストの高さが課題であり，評価結果の解釈が困難である。
- 意味に基づいた検証により，より解釈可能で効率的なパーソナライズ評価を実現すること。
- 提案手法であるNLICVは，自然言語推論モデルを用いて，文の意味と真理条件を対応させ，パーソナライズ制約を検証する。
- 実験の結果，NLICVは人間の評価と高い一致性を示し，LLM-as-a-judge方式と比較して，推論速度を最大2100倍向上させた。
- 制約検証を駆動する具体的な文を特定できるため，評価結果の根拠を明確に説明することが可能である。
Link: https://arxiv.org/abs/2606.16368
CacheMuon：時間的前処理を用いた極因子近似 [cs.RO, cs.LG]目的：極因子の近似手法
- 最適化アルゴリズムの高速化は，大規模な機械学習モデルの訓練に不可欠である。
- Muonの極因子計算は，計算コストが高いという課題がある。
- 過去の最適化ステップの情報を再利用し，計算コストを削減する。
- CacheMuonは，過去の情報を活用することで，Muonの極因子計算を近似的に行う。
- この手法は，計算量の削減と精度維持のトレードオフを制御可能にする。
- 言語モデルや画像認識の訓練において，Muonと同等の性能を維持しつつ，計算量を削減できることが示された。
Link: https://arxiv.org/abs/2606.16371
順序類似度に基づくスケーラブルで解釈可能な表現アラインメント [eess.SY, cs.SY, math.OC, cs.LG, stat.ML]目的：表現アラインメントの評価
- 表現学習において，表現の類似性を評価することは基礎的な課題である。
- 既存の評価指標は，解釈性の欠如，外れ値への脆弱性，大規模データセットへの適用困難などの課題がある。
- 順序関係の一貫性を定量化することで，これらの課題を解決し，スケーラブルなアラインメント評価を実現する。
- 提案手法であるTriplet Similarity Index (TSI) および Quadruplet Similarity Index (QSI) は，解釈性，外れ値へのロバスト性，計算効率において優れている。
- TSIは，局所近傍アラインメント（Mutual Nearest Neighbors）と形式的に等価であることが示された。
- 実験結果から，順序類似度が表現のアラインメントを測定するためのスケーラブルなアプローチとなり，表現の理解と設計に役立つことが確認された。
Link: https://arxiv.org/abs/2606.16379
嗜好に基づく多目的進化最適化における目的関数の正規化の影響 [cs.NE]目的：嗜好に基づく多目的進化最適化における関心領域の定義
- 現実の問題は目的関数のスケールが異なることが多く，最適化の性能に影響する。
- 目的関数の正規化を行うか否かで，関心領域の定義が大きく変わる点が未検討であった。
- 目的関数の正規化が関心領域の定義と最適化性能に及ぼす影響を明らかにすること。
- 目的関数のスケールが異なる場合，正規化の有無で定義される関心領域が大きく異なることが示された。
- 正規化された目的空間で定義された関心領域は，理想点と最悪点の近似精度が低いため，近似が困難である。
- 正規化されていない目的空間で定義された関心領域の方が，近似が容易であることが示された。
Link: https://arxiv.org/abs/2606.16382
帯域幅効率の良いコンテキスト並列学習のための部分空間の混合 [cs.CL, cs.LG]目的：言語モデルのコンテキスト並列学習における通信効率の向上
- 大規模言語モデルの性能向上には，より長い文脈を考慮することが重要である。
- 従来のコンテキスト並列学習法は，低帯域幅環境では通信コストが高く，実用的ではない。
- 低帯域幅環境下でも効率的に大規模言語モデルを学習できる手法を開発する。
- 活性化出力の低ランク構造を利用し，学習された部分空間の混合によって再パラメータ化を行うことで，95％以上の圧縮率を達成した。
- 300Mbps程度の低速ネットワーク上で，100Kトークンを超えるコンテキスト長を持つ数十億パラメータの分散モデルを学習することができた。
- 分散学習のウォールクロック収束速度は，100Gbpsのインターコネクトを持つ集中学習と同等であった。
Link: https://arxiv.org/abs/2606.16384
バイアス補正と適応的初期化によるロバストなニューラルタッカー分解 [cs.IR, cs.LG]目的：高次元不完全テンソルの補完
- 交通や気候などへの応用が広く，データ分析において重要性が高い。
- 観測データが少ない場合，正確な補完が困難であるという課題がある。
- 初期化やバイアス設定を改善し，安定した最適化を実現する。
- 提案手法KaBiNは，従来のNeuTucFと比較して，より高い性能を示す。
- カイミング初期化とバイアス補正により，最適化の安定性が向上する。
- 計算コストの増加は最小限に抑えられている。
Link: https://arxiv.org/abs/2606.16388
LLMにおける代名詞の忠実性に関するメカニズム的理解 [cs.CL, cs.LG]目的：LLMにおける代名詞の忠実性のメカニズム
- 自然で公平な文章生成には，正確な代名詞の使用が不可欠である。
- 複数の参照対象が存在する場合，LLMは代名詞を正しく使用できないことが多い。
- LLM内部のメカニズムを分析し，代名詞の忠実性を向上させる方法を探る。
- グループエンティティ結合，直近性バイアス，ステレオタイプバイアスの3つのメカニズムが，LLM内に因果的な部分空間として存在することを確認。
- これらのメカニズムの組み合わせにより，モデルの行動の91～99.5%を説明可能。
- 注意機構の分析から，代名詞の忠実性は，同時活性な因果的部分空間間の競争によって生じることが示唆された。
Link: https://arxiv.org/abs/2606.16407
MUNI：コヒーレントなあらゆるものからあらゆるものへの生成のためのマルチモーダル統一潜在拡散 [cs.LG]目的：あらゆるものからあらゆるものへの生成のためのマルチモーダル潜在拡散フレームワーク
- マルチモーダルなデータ処理は，AI研究において重要な課題であり，多様な情報を統合的に理解する必要がある。
- 既存のマルチモーダル生成モデルは，テキストペアデータに依存したり，次元の制約を受けるなどの課題があった。
- テキストに依存せず，多様なモダリティ間の一貫性を保ちながら生成を行うことを目指す。
- MUNIは，モダリティ固有のエンコーダー，デコーダー，共有事前分布を同時に学習するエンドツーエンドのフレームワークを実現した。
- ルーテッドトレーニング目的関数により，生成されるモダリティ間の一貫性，部分的な潜在変数の予測能力，潜在コンテンツの最小性を確保した。
- PolyMNIST-Quadrant-Labelsおよび大規模画像・テキスト・音声ベンチマークにおいて，既存手法を上回るまたは同等の性能を示した。
Link: https://arxiv.org/abs/2606.16408
すべての Jensen-Shannon 散度の推定方法は等しくない [cs.CL, cs.LG]目的：合成された表形式データの忠実度を測る指標としての Jensen-Shannon 散度の推定方法の評価
- 合成データ生成の品質評価は重要であり，その指標として Jensen-Shannon 散度が広く用いられる。
- 推定プロトコルが明確に定義されていない場合があり，測定に問題が生じ，結果の比較が困難となる。
- 異なる推定プロトコルが与える影響を分析し，より適切な評価方法を提案することで，比較可能性を高める。
- 周辺ベースの推定方法は，結合分布の依存関係を無視するため，散度を過小評価する可能性がある。
- 分類器ベースの推定方法は，結合構造を捉えることができるが，推定方法に依存しやすいという問題がある。
- クラス不均衡下では，事前分布シフトバイアスが生じるが，閉形式の事後補正を導出することで対応可能である。
Link: https://arxiv.org/abs/2606.16411
事後性双子：企業意思決定のための行動分布シミュレーション [cs.AI]目的：企業意思決定における行動分布のシミュレーション
- 企業活動において，行動シミュレーションは重要な役割を担う。
- 従来のシミュレーションでは，行動の分布を正確に捉えることが困難であった。
- 提案手法は，意思決定状況下での行動分布の予測精度向上を目指す。
- 提案手法であるPosterior Twinsは，過去のデータに基づいて行動分布を更新する。
- 評価実験の結果，TL-Twin Alphaが最も低いWasserstein-1距離（$W_1 = 1.16$）を示した。
- 行動モデルのルーティング，シナリオ編成，分布集約などが，意思決定エビデンスの再利用に必要である。
Link: https://arxiv.org/abs/2606.16415
Lect\=uraAgents：適応的個別化AI支援学習および具現化された教育のためのマルチエージェントフレームワーク [cs.CL, cs.AI, cs.HC]目的：個別化された教育を可能にする，マルチエージェントに基づく適応的な具現化された教育フレームワーク
- 効果的な学習には，学習者一人ひとりに合わせた教材と指導方法が不可欠である。
- 既存の教育エージェントは，講義内容の自動化やシミュレーションに偏っており，学習者への適応性に課題がある。
- 本研究は，学習者のニーズに動的に適応する，個別化された具現化された教育を実現することを目指す。
- Lect\=uraAgentsは，教授エージェントと複数の下位エージェントが連携する階層型マルチエージェントアーキテクチャを採用している。
- 教授エージェントは，学習者のニーズに応じて講義内容を研究，計画，レビューし，具現化された形で提示する。
- 実験の結果，既存のアプローチと比較して，講義内容の質，教育の質，評価，個別化において一貫した改善が見られた。
Link: https://arxiv.org/abs/2606.16428
テイラー較正：ハイブリッド線形注意蒸留のための原理に基づいた初期化 [cs.LG, cs.CL]目的：ハイブリッド線形注意モデルの初期化手法
- 長文脈推論の高速化が求められる中で，線形注意モデルが注目されている。
- 事前学習済みTransformerからの変換は不安定であり，初期化が重要である。
- 変換後のモデルが良好な学習状態から開始できるように初期化を改善する。
- テイラー較正は，教師モデルの注意統計量を用いて，値射影，メモリタイムスケール，ゲートなどを設定する。
- その結果，初期状態から学習を開始でき，蒸留に必要なトークン数を大幅に削減できる。
- 実験により，テイラー較正は，従来の変換手法と比較して，大幅な性能向上を示すことが示された。
Link: https://arxiv.org/abs/2606.16429
行動条件付きコンテキストグラウンディング：言語エージェントのための [cs.CL, cs.AI]目的：言語エージェントにおける，環境からのコンテキストの特定と活用
- AIエージェントが実世界で活動するには，環境理解が不可欠である。
- 現在のAIエージェントは，文脈を正確に把握できず，誤った推論を行う場合がある。
- AIエージェントが，環境情報を能動的に収集し，行動に反映させることを目指す。
- ACCORDは，各行動前に環境から不足情報を積極的に探り，関連コンテキストを統合する。
- 追加の学習や報酬信号を必要とせず，AppWorldでのタスク達成率を最大20.6%向上させた。
- GPT-5-mini, Claude-4.5-sonnet, Qwen3.5-27B-FP8, AlfWorldなど，様々なモデルで効果が確認された。
Link: https://arxiv.org/abs/2606.16432
時系列対照表現学習によるバッテリーシステムの自律エンドツーエンドSOH予測サービス [cs.LG, cs.AI]目的：バッテリーシステムのSOH予測サービス
- バッテリーの安全かつ効率的な運用には，劣化状態の正確な把握が不可欠である。
- 従来のSOH推定は，手作業による特徴量エンジニアリングやブラックボックスモデルに依存し，実用化が困難である。
- 本研究は，生データから直接劣化情報を抽出する手法を開発し，SOH予測の自動化と透明性の向上を目指す。
- TC-SOHは，時系列対照メカニズムとクロスウィンドウ予測事前タスクにより，劣化に関連する表現を抽出する。
- 学習された特徴は，専門家が選択した記述子と一致し，SOH予測に重要な時間的文脈を保持していることが示された。
- 4つの公開データセットにおいて，TC-SOHは既存の手法と比較して，MAPEを1.91倍，RMSEを2.13倍削減した。
Link: https://arxiv.org/abs/2606.16434
NeuronFabric：オンチップTransformer学習とローカルAdamのためのソフトウェア参照アーキテクチャ [cs.HC, cs.AR, cs.AI, cs.LG]目的：オンチップTransformer学習とローカルAdam更新のためのソフトウェア参照アーキテクチャ
- Transformerモデルは自然言語処理等の分野で急速に発展しており，その大規模化が課題となっている。
- Transformerの学習には多大な計算資源とメモリ容量が必要であり，特にオンチップ実装が困難である。
- オンチップでのTransformer学習を可能にするための，効率的なアーキテクチャとソフトウェア基盤を確立すること。
- NeuronFabricは，FPGAやASIC実装を視野に入れたTransformer学習のためのソフトウェア参照アーキテクチャである。
- BF16Wという新しい数値表現形式を導入し，メモリ使用量を削減することに成功した。
- 334KパラメータのTransformerモデルで，BF16W構成はFP32 GPUと同等の性能を達成し，BRAM容量に適合するメモリ使用量を示した。
Link: https://arxiv.org/abs/2606.16440
長いコンテキスト長を持つ拡散ポリシーの学習と評価 [cs.RO, cs.AI]目的：長いコンテキスト長での拡散ポリシー学習手法
- ロボットの高度な操作は重要であり，模倣学習はその実現に貢献する。
- 従来の模倣学習は短い過去の観察に依存するため，記憶が必要なタスクで限界がある。
- コンテキスト長を拡張し，記憶を必要とするタスクへの対応を目指す。
- コンテキスト長を単純に拡張しても，これまで考えられていたほど不安定ではないことが示された。
- 適切な条件付け手法とUNet+Cross-Attentionを用いることで，高い成功率を達成した。
- 複数のコンテキスト長でポリシーを同時に学習するアルゴリズムにより，学習効率が向上した。
Link: https://arxiv.org/abs/2606.16447
SDS-LoRA：低ランク適応における異方性勾配スケーリングの克服 [cs.NI, cs.ET, cs.LG, cs.AI]目的：低ランク適応における勾配スケーリングの異方性の問題とその解決策
- 大規模言語モデルの効率的な適応は，計算資源の制約下で重要な課題である。
- LoRAはパラメータ効率が良いが，勾配のスケーリングによって性能が制限される場合がある。
- SDS-LoRAは，勾配のスケーリングを抑制し，より効率的な適応を目指す。
- SDS-LoRAは，低ランク行列の特異値とbackward passを構造的に分離する。
- 実験結果から，SDS-LoRAはlossの収束を改善し，full fine-tuningとの性能差を縮小することが示された。
- 理論解析により，SDS-LoRAは低ランク行列の条件数に依存しない収束性を持つことが確認された。
Link: https://arxiv.org/abs/2606.16454
SPRI：データ制約下MoE再利用のためのSVD分割残差初期化 [cs.LG, cs.AI]目的：データ制約下におけるMoE再利用の性能向上
- MoEモデルは効率的なスケーリングを可能にするが，学習コストが高い。
- 既存の再利用手法は，データ制約下では性能が低い。
- 事前学習済みの構造を活用しつつ，専門家の多様性を導入する。
- SPRIは，事前学習済みのFFN重みから導出されたSVD分割残差を専門家に分配することで，制御された専門家の多様性を実現する。
- CoVoST2データセットで，SPRIはdenseモデルと比較してBLEUとCOMETスコアをそれぞれ2.58点，3.32点向上させた。
- SPRIは，既存のMoE再利用ベースラインをBLEUで3.39点，COMETで4.34点上回る結果を示した。
Link: https://arxiv.org/abs/2606.16456
対称性からのプライバシー：LLM推論のための直交等変変換器 [cs.RO, cs.LG]目的：LLM推論におけるプライバシー保護
- LLMのローカル実行は困難であり，機密テキストの推論が外部プロバイダに依存する傾向がある。
- 分割推論は一部緩和するが，隠れ表現から埋め込みテーブル検索で元のテキストが復元される可能性がある。
- 直交変換による秘匿化と，対称性を構造に組み込むことでプライバシー保護を強化する。
- 直交秘匿化により，コサイン最近傍探索による直接的な復元が排除され，トークン復元率が大幅に低下した。
- ファインチューニング後のパープレキシティ増加はわずか0.4%であり，実用的なプライバシー保護策となりうる。
- アーキテクチャレベルでの対称性強制が，ノイズ注入や暗号化技術を用いずにプライバシー保護に貢献する。
Link: https://arxiv.org/abs/2606.16461
被験者固有エンコーダによる整列された脳波表現の学習 [cs.LG, cs.AI]目的：脳波表現の整列
- 脳波解析は，脳の活動を直接的に反映するため，ブレイン・マシン・インターフェース等の応用が期待される。
- 被験者間での脳波データの分布のずれが大きく，汎用的なモデル構築が困難である。
- 被験者固有のエンコーダを用いて，脳波データの分布のずれを学習的に解決する。
- 被験者固有のエンコーダは，従来の共分散中心化による方法と同程度の効果を持つことが示された。
- 被験者固有の分類器を導入することで，クラス識別性が向上し，各被験者は自身の潜在空間に近づく。
- 未知の被験者に対する分類器の選択が，今後の課題として残る。
Link: https://arxiv.org/abs/2606.16462
['エージェント自動化が収益性となる瞬間：トレーセコノミックによる自律型AIリスクの定量化と保険'] [cs.AI, cs.CE]目的：['自律型AIのリスク定量化と保険によるリスク移転']
- AIエージェントの活用は業務効率化に繋がるが，そのリスク評価と責任の所在が不明確である。
- AIによる損害発生時の補償体制が整っていないため，利用者は損失を被る可能性がある。
- トレーセコノミックによるリスク評価と保険を通じて，AIの経済的受容性を高めることを目指す。
- トレーセコノミックによる価格設定は，平均絶対誤差を17.7Kドルから569ドルに大幅に削減した。
- トレーセコノミックによる条件付き制御は，CVaR95を72%削減することに成功した。
- 専門家によるトレーシングラベルの監査において，295個のラベルが変更なしで承認された。
Link: https://arxiv.org/abs/2606.16465
AIシステム，熟練人間を説得力で上回る [cs.CY, cs.AI]目的：AIシステムと熟練人間の説得力の比較
- 社会における意思決定は説得を通じて行われることが多く，そのメカニズムの理解は重要である。
- AIによる説得の可能性は高いが，熟練した人間説得者を上回るかどうかの検証が課題であった。
- AIシステムが人間を説得力で凌駕できるかを実証し，その要因を解明すること。
- AIシステムは，一般の人々から世界大会の討論チャンピオンまで，様々な熟練説得者に対して，一貫してより高い説得力を持つことが示された。
- AIの優位性は，人間の応答速度とメッセージ長に制限を加えることで，熟練人間もAIと同等の結果を得られるようになったことから，情報量の多さに起因すると考えられる。
- 実際の募金活動において，AIシステムは専門のキャンベサーを上回り，Save the Childrenへの寄付金集めに約3倍の効果を発揮した。
Link: https://arxiv.org/abs/2606.16475
テンソル・コープ：マルチエージェントLLM計画のための関節計画テンソルの代数的分解 [cs.AI]目的：マルチエージェント計画における協調性の欠如を解消するためのフレームワーク
- 複数エージェント間の協調は，ロボット工学や分散AIシステムにおいて不可欠な要素である。
- LLMによる計画は独立して生成されるため，空間的衝突や資源競合といった協調性の問題が発生しやすい。
- 計画テンソル分解によって協調構造を抽出し，競合を局所化・解決することを目指す。
- 提案手法Tensor-Coordは，エージェント，時間ステップ，行動の3次テンソルを用いて計画を表現する。
- CP分解とTucker分解により潜在的な協調構造を特定し，協調複雑度の指標CC(Pi)を定義した。
- 実験結果から，2エージェント問題では100%の成功率，3/4エージェント問題でも高い成功率が確認された。
Link: https://arxiv.org/abs/2606.16478
VGGTの不確実性品質：DTUベンチマークデータセットにおける分析 [cs.CV, cs.AI]目的：VGGTの不確実性予測の品質に関する分析
- 測量や3Dモデリングにおいて，リアルタイム性とスケーラビリティが求められている。
- 既存手法は計算コストが高く，大規模データへの適用が困難である場合がある。
- VGGTのようなニューラルネットワークの信頼性を高めるための不確実性評価が重要である。
- VGGTの出力に対する有効な信頼度閾値が特定された。
- 不確実性品質の向上は，3D再構成の精度向上に大きく貢献する可能性が示された。
- VGGTは，複数の画像から直接カメラ姿勢，深度マップ，3D構造を予測する革新的な手法である。
Link: https://arxiv.org/abs/2606.16479
HOLO-MPPI：階層型方策最適化によるマルチシナリオ動作計画 [cs.RO, cs.AI, cs.SY, eess.SY]目的：マルチシナリオにおける動作計画の実現
- 実世界でのロボット利用拡大に伴い，多様な環境下での動作計画が不可欠である。
- 従来の強化学習は，分布の変化や報酬の誤りにより，汎化性能が脆弱になりやすい。
- 方策学習と確率的最適制御を組み合わせることで，ロバストかつリアルタイムな動作計画を実現する。
- HOLO-MPPIは，MPPIと強化学習の弱点を克服し，マルチシナリオにおける動作計画性能を向上させる。
- 学習された高レベル方策が，MPPIのサンプリング分布を生成し，局所的な擾乱への適応を可能にする。
- 自動運転シミュレーションにおいて，既存手法と比較して優れた結果が得られ，リアルタイム制御も維持されている。
Link: https://arxiv.org/abs/2606.16480
感情療法のための感情ダイナミクスの制御：階層的ガイドLLMエージェントによる制御可能な物語脚本生成 [cs.AI]目的：感情療法を支援するための物語脚本生成における感情軌跡の制御
- 感情は精神的な健康に不可欠であり，創作活動はその表現手段として重要な役割を果たす。
- 既存の物語生成技術では，指定された感情の軌跡に沿った脚本を生成することが困難である。
- 感情の軌跡に厳密に沿った物語脚本を生成し，感情に基づいた心理療法を支援することを目的とする。
- 提案手法EC-Scriptは，感情軌跡計画，キャラクター駆動型シーン生成，感情制御型脚本執筆の階層構造により，感情軌跡への高い一貫性を実現した。
- 実験結果から，EC-Scriptは既存手法と比較して，感情軌跡への追従性と感情制御において有意に優れた性能を示した。
- これにより，AI支援による感情療法の実現に向けた有効な技術的サポートを提供する。
Link: https://arxiv.org/abs/2606.16481
脳MRI補完と理解のための統一マルチモーダルモデル [cs.CV, cs.AI, cs.MM]目的：脳MRIデータの補完と理解
- 医療分野における画像診断の精度向上に貢献し，疾患早期発見や治療効果の改善に繋がる。
- 高品質な学習データが不足しており，実際の臨床現場ではデータ欠損が頻繁に発生する。
- 脳MRIデータの欠損に対処し，高精度な画像補完と疾患診断を実現すること。
- UniBrainは，複数の脳MRIモダリティの欠損に対応し，高精度な画像補完と理解を可能にする。
- 自己アライメント戦略により，詳細な画像キャプションなしで，脳の微細な解剖学的特徴を学習できる。
- 動的隠れ状態メカニズムによって，長文脈マルチモーダル推論における暴露バイアスを軽減した。
Link: https://arxiv.org/abs/2606.16484
BRICKS-WM：構造化されたワールドモデルにおけるインターフェース構成力学を通じた再利用性の構築 [eess.SY, cs.SY, math.OC, cs.LG]目的：構造化されたワールドモデルのモジュール化による再利用性の向上
- モデルベース強化学習は，連続制御において顕著な成果を上げており，その基盤となるのが潜在的ワールドモデルである。
- 既存手法では，環境ダイナミクスが結合された単一の潜在的ダイナミクスに依存し，再利用性が低いという課題がある。
- 本研究は，環境が一定の場合でも，エージェントの変更時にワールドモデル全体を再学習する必要がないようにすることを目的とする。
- BRICKS-WMは，物理世界が独立したエンティティで構成されているという考えに基づき，潜在的インターフェースを介して相互作用する異なるダイナミックモジュールの構成としてグローバルダイナミクスをモデル化する。
- 潜在状態空間を，作動するエージェントモジュールと外部の背景モジュールに分割し，学習された潜在的インターフェースで接続する。
- 実験結果から，BRICKS-WMはゼロから学習した場合に，強力なモノリシックなベースラインと同等の制御性能を達成し，固定された背景ダイナミクスをエージェント間で再利用できることが示された。
Link: https://arxiv.org/abs/2606.16489
マルチモーダル検索拡張型質問応答における最初優位性 [cs.RO, cs.RO, eess.SY, cs.SY, math.RA, cs.CL, cs.AI, cs.CV]目的：マルチモーダルKB-VQAにおける読者側の位置依存性の制御された調査
- 知識ベースVQAは，既存の知識を超える質問に答える能力を持つビジョン-言語システムを実現する重要な分野である。
- 大規模言語モデルでは，検索された文脈の利用において「中間部喪失効果」が問題となっている。
- マルチモーダルKB-VQAにおいても同様の効果が確認され，読者側の改善が必要とされている。
- マルチモーダルKB-VQAにおいて，正解の文脈が最初に配置された場合に，最後に配置された場合よりも16～26ポイント高い性能が確認された。
- テキストのみの環境でも最初優位性は確認されたが，マルチモーダル設定によってその効果が2.2～4.5倍に増幅された。
- 検索側の修正（MMR，オラクル再ランキング，ランクベース再配置）では効果が見られず，読者側の介入が不可欠である。
Link: https://arxiv.org/abs/2606.16494
REFLEX：LLM経験からの反復進化 [cs.CL, cs.LG]目的：解釈可能なプログラムポリシーへの進化探索の誘導
- LLMは複雑なタスクの自動化に貢献し，プログラム合成の新たな可能性を開く。
- 従来のフレームワークでは，診断と修正が一体化しており，進化の過程が不透明である。
- 視覚的診断とコード生成の分離により，透明性と効率性を高めた進化探索を実現する。
- REFLEXは，視覚情報を基にしたCriticと，コードを生成するActorを分離したフレームワークである。
- Criticはタスク固有の行動証拠から構造化された診断を抽出し，Actorはそれを用いてポリシーを合成する。
- 実験の結果，REFLEXは高いサンプル効率を示し，透明性の高いポリシーの発見を加速させた。
Link: https://arxiv.org/abs/2606.16496
daVinci-kernel：強化学習によるGPUカーネル最適化のためのスキル選択，要約，利用の共進化 [cs.LG, cs.AI, cs.CL]目的：GPUカーネル最適化のためのスキル発見と活用
- GPUの性能向上は，科学計算や機械学習などの幅広い分野において不可欠である。
- 従来のカーネル最適化手法は，専門知識や手動チューニングに依存し，効率が低い場合がある。
- 強化学習を用いて，自動的に効率的なカーネルを生成し，最適化プロセスを加速する。
- daVinci-kernelは，スキル選択，カーネル生成，スキル要約の3つのエージェントを連携させ，GPUカーネルを最適化する。
- KernelBenchにおいて，Fast$_1$閾値下でLevel 1, Level 2, Level 3でそれぞれ37.2%, 70.6%, 32.2%の性能向上を達成し，既存のDr.Kernel-14Bを上回った。
- 再現性のある高速化を確認した候補スキルのみを追加することで，スキルライブラリの質を維持している。
Link: https://arxiv.org/abs/2606.16497
事後マージだけでは不十分：損失ギャップバランスによる多回ショットモデルマージ [cs.AI]目的：多タスク大規模言語モデル構築のためのモデルマージ手法
- 大規模言語モデルは多様なタスクに対応可能だが，個別の専門モデルを統合する必要がある
- 既存のマージ手法は単一の統合しか行わず，タスク間の干渉による情報損失が課題となる
- 反復的な多回ショットマージと損失ギャップバランスにより，情報損失を軽減し性能を向上させる
- 提案手法METISは，タスクごとの損失ギャップ重み付けとコンセンサスに基づくマスキングにより，情報損失を抑制する。
- 最悪成績のタスクにおいて有意な性能改善が確認され，情報損失の軽減効果が示された。
- 事後マージを多回ショットマージに置き換えることが，多タスク性能向上に有効であることが示された。
Link: https://arxiv.org/abs/2606.16501
擬似ラベリングとWhisper埋め込みを用いた半教師あり音声自信度検出 [cs.RO, cs.SD, cs.LG]目的：話者自信度の検出
- 教育現場において，学習効果向上に話者自信度の理解が不可欠である。
- 学習データが不足しているため，高精度な自信度検出が困難である。
- 擬似ラベリングとWhisper埋め込みを活用し，データ不足を克服する。
- 本研究では，人間が設計した特徴量とWhisperエンコーダからの埋め込みを統合する新たなフレームワークを提案した。
- 擬似ラベリングにより，ラベル付きデータセットを拡張し，モデルの学習を促進した。
- 提案手法は，全体で75%の精度を達成し，個別学習や発話スキル開発を支援する音声分析技術の発展に貢献する。
Link: https://arxiv.org/abs/2606.16505
知識グラフ補完のためのモデルグラフ帰納学習 [cs.AI]目的：知識グラフのリンク予測における埋め込み表現の品質向上
- 知識グラフは，様々な情報間の関係を構造的に表現するため，AI分野で重要性が増している。
- 既存手法は局所的な近傍情報のみを用いており，知識グラフ全体の構造を捉えきれていない。
- 本研究は，知識グラフの全体構造を考慮した埋め込み表現を学習することで，リンク予測の精度向上を目指す。
- 本研究で提案するMGILは，エンティティを関係構造やエンティティタイプに基づいてクラスタリングし，モデルグラフを構築する。
- 構築されたモデルグラフにGNNを適用することで，知識グラフ全体の構造を捉えた埋め込み表現を獲得する。
- 標準的および最近提案された帰納的ベンチマークにおける実験で，MGILが最先端または非常に競争力のある性能を達成した。
Link: https://arxiv.org/abs/2606.16509
特異摂動問題に対するPetrov-Galerkin変分物理情報ニューラルネットワークフレームワーク [math.NA, cs.LG, cs.NA]目的：二次元特異摂動問題の効率的な解法
- 工学・科学における境界層問題の正確な解析は，現象の理解と予測に不可欠である。
- 特異摂動問題は，多重解尺度を持つため，従来の数値解法では高精度な解を得るのが困難である。
- 本研究は，多重解尺度問題を克服し，高精度な数値解を効率的に得ることを目指す。
- 提案手法は，Petrov-Galerkin変分法と物理情報ニューラルネットワークを組み合わせることで，高い精度を実現した。
- 二次元特異摂動問題において，最大誤差およびL_2ノルムの両方で高い精度が確認された。
- 本手法は，多重解尺度特徴を捉える上で効率性とロバスト性を示すことが明らかになった。
Link: https://arxiv.org/abs/2606.16510
LLM評価における尾部形状推定の脆弱性：偽陽性診断のためのプロトコル [cs.LG]目的：LLM評価における偽陽性の診断プロトコル
- LLMの性能評価において，平均値に基づく評価から，より詳細な尾部を考慮した評価への移行が求められている。
- 従来の尾部形状推定は，統計的な信頼性に関する検証が不十分であり，誤った結論を導く可能性がある。
- 本研究は，LLM評価における尾部形状推定の信頼性を検証し，偽陽性を検出するための厳密なプロトコルを提案する。
- 提案されたプロトコルをLLMの毒性評価に適用した結果，naiveな分析では見過ごされる3種類の偽陽性モードを検出した。
- 既存の研究で主張されていた尾部形状に関する主張は，両方のスコアラーにおいてプロトコルによって否定された。
- LLM毒性評価における尾部形状推定は，これまで報告されているよりも脆弱であり，同様の評価における尾部指数主張の出発点としてプロトコルを推奨する。
Link: https://arxiv.org/abs/2606.16511
方向条件付き方策：オンラインゴール条件付き強化学習のための構成的サブゴールスコアリング [cs.RO, cs.LG, cs.AI, cs.RO]目的：オンラインゴール条件付き強化学習における方向条件付き方策の開発
- 強化学習は，複雑な環境下での最適な行動決定を可能にする重要な技術である。
- 従来のゴール条件付き強化学習は，ゴール情報の利用効率が低く，遠方のゴールに対して性能が低下する。
- ゴール到達距離勾配に基づく方策により，効率的な学習と汎化性能の向上を目指す。
- 提案手法DCPは，サブゴールスコアリングと方向条件付きアクターの2つのコンポーネントで構成され，オンラインでの学習が可能である。
- 理論的解析により，最適な行動はゴールの勾配のみに依存すること，そして提案手法における学習時と実行時の入力が一致することが示された。
- 実験結果から，DCPは従来のContrastive RLと比較して，特に操作や障害物との相互作用タスクにおいて性能が向上することが確認された。
Link: https://arxiv.org/abs/2606.16515
後学習が生物学的推論モデルをどのように形成するか [cs.AR, cs.LG, q-bio.QM]目的：生物学的推論モデルにおける後学習段階の影響
- 生物学分野では，ゲノムやタンパク質など多岐にわたるデータに基づいた推論が重要となる。
- 既存モデルは過学習を起こしやすく，未知のデータへの汎化性能が課題となっていた。
- 後学習段階における各手法が推論能力と汎化性能に与える影響を明らかにすること。
- 継続事前学習（CPT）は，生物学的言語との整合性向上により下流タスクの性能を改善する。
- 教師あり微調整（SFT）は，ID性能は向上させるものの，OOD性能は早期にピークを迎え，その後低下する。
- 報酬を調整した強化学習（RL）は，OOD性能を向上させ，汎化性能を部分的に回復させる。
Link: https://arxiv.org/abs/2606.16517