arXiv雑要約

AI - 2026/03/02 公開

現実世界の冬期道路維持のための二段階強化学習-ヒューリスティック最適化 [cs.AI]目的：冬期道路維持計画の最適化
- 冬季の道路維持は公共の安全確保と環境負荷低減に不可欠であり，その効率化が重要である。
- 大規模なルーティング問題への対応が困難であり，人的判断に頼る部分が多い。
- 現実世界の道路ネットワークにおける効率的な計画立案と資源配分を実現する。
- 提案手法は，既存の手法に比べ，大規模ネットワークにおいて効率的に機能し，車両固有の制約や道路区間の要件を考慮する。
- ワークロードの均等化，最大移動時間の目標値（2時間以内）達成，排出量削減，コスト削減などの顕著な改善が確認された。
- 本研究は，高度なAI駆動型二段階最適化が現実世界の輸送・物流における意思決定を直接的に改善し得ることを示唆する。
Link: https://arxiv.org/abs/2602.24097
人工エージェント・プログラム：好奇心，圧縮，そしてエージェントにおけるコミュニケーション [cs.AI, cs.LG]目的：現実埋め込み型・制約条件下のAIシステム開発における好奇心に基づく学習進捗の指針
- AI技術は，人間の知覚・理解・行動能力を拡張し，人，道具，環境間の摩擦を軽減するツールシステムとして重要である。
- 既存のAI研究は，現実世界との相互作用や資源制約といった条件を十分に考慮していない場合がある。
- 好奇心に基づいた学習プロセスを通じて，効率的な情報処理と自律的な行動を可能にするAIフレームワークを構築する。
- 本研究では，予測圧縮，内在的動機付け，エンパワーメント，インターフェース品質，言語/自己コミュニケーションを統合する人工エージェント・プログラム（AAP）を提案する。
- 提案手法を検証するため，観察，行動，熟考に予算を配分するマルチモーダルなトークン化テストベッドを構築し，段階的な実験を行う。
- 内在的動機付け，情報理論，熱力学，有界合理性，最新の推論システムを結びつける概念的・実験的フレームワークを提供する。
Link: https://arxiv.org/abs/2602.24100
説得的議論における物語的特徴の影響：ARGUS [cs.CL, cs.AI]目的：議論的テキストにおける説得への物語的特徴の影響
- 物語は古来より人々の心を動かす力を持つと考えられており，コミュニケーションにおいて重要な役割を果たす。
- オンライン議論における物語の役割は十分に解明されておらず，説得効果への具体的な影響は不明である。
- 物語的特徴がオンライン議論における説得成功にどのように影響するかを大規模に分析し，解明すること。
- ARGUSというフレームワークを構築し，ChangeMyViewコーパスに物語の有無と6つの物語的特徴を注釈した。
- エンコーダーベースの分類器と大規模言語モデルを用いて物語と特徴を識別し，説得成功への影響を検証した。
- 物語的特徴はオンライン議論の説得力に影響を与える可能性が示唆された。
Link: https://arxiv.org/abs/2602.24109
再利用の失敗：RLVRにおける微細なオフポリシーガイダンスによる探索の救済 [cs.AI, cs.CL]目的：検証可能な報酬を用いた強化学習における探索空間の狭窄抑制
- 大規模な推論モデルの複雑な推論能力向上に，RLVRが有効な手法として注目されている。
- 標準的な結果に基づく指導法では，わずかな誤りを含む軌跡も完全に誤った軌跡と同等にペナルティが与えられ，多様性が失われる。
- 部分的に正しい軌跡を救済し，探索空間の多様性を維持することで，推論精度向上を目指す。
- 提案手法SCOPEは，プロセス報酬モデルを用いて誤りのあるステップを特定し，微細なオフポリシーによる修正を行う。
- 部分的に正しい軌跡を効果的に再利用することで，探索空間の多様性を13.5%向上させる。
- 数学的推論で46.6%の平均精度を達成し，分布外推論タスクでも堅牢な汎化性能を示す。
Link: https://arxiv.org/abs/2602.24110
視覚言語モデルにおける臨床推論の保証：形式検証によるアプローチ [cs.CV, cs.AI, cs.CL, cs.LO]目的：視覚言語モデルの臨床推論における論理的な一貫性の検証
- 医療現場でのAI活用が期待される中，正確な診断支援は不可欠である。
- 既存の評価指標では，臨床的な言い換えを適切に評価できず，論理的誤りを検出できない。
- 視覚言語モデルの生成する報告書の論理的整合性を形式検証により保証すること。
- 提案手法は，自由記述のX線所見を構造化された論理表現に変換し，SMTソルバーを用いて検証する。
- 検証の結果，既存の指標では見過ごされていた，保守的な観察や確率的な幻覚といった推論エラーを特定した。
- ソルバーによる検証を組み込むことで，根拠のない幻覚を排除し，診断の正確性と精度を大幅に向上させた。
Link: https://arxiv.org/abs/2602.24111
エージェントAI-RAN：意図駆動型，説明可能，自己進化型オープンRANインテリジェンスの実現 [cs.LG]目的：オープンRANにおけるインテリジェンスの実現
- 通信ネットワークの柔軟性と効率化が求められており，オープンRANはその重要な技術基盤となる。
- オープンRANの複雑性から，安全で監査可能な運用が困難になっている。
- エージェントAIを活用し，オープンRANの運用を効率化し，セキュリティとプライバシーを向上させる。
- エージェントAIコントローラは，従来のML/RL xAppsと比較して，ネットワークスライスのライフサイクルと無線リソース管理の性能を向上させる。
- 提案手法は，３つの代表的なネットワークスライスにおいて，平均8.83％のリソース使用量削減を達成した。
- セキュリティ，プライバシー，コンプライアンスは，標準準拠の展開におけるアーキテクチャ制約および未解決の課題として議論された。
Link: https://arxiv.org/abs/2602.24115
低資源古代言語のLLM翻訳における破滅的な失敗を予測する用語の稀少性：古代ギリシア語からの証拠 [cs.CL, cs.AI]目的：古代ギリシア語技術文献のLLM機械翻訳の品質評価
- 古典学研究において，古代文献の翻訳は重要な役割を担う。LLMの活用は研究の加速化に貢献しうる。
- 低資源言語である古代ギリシア語の翻訳は，データ不足により翻訳精度が課題となる。
- LLM翻訳における用語の稀少性が翻訳品質に及ぼす影響を明らかにすることで，翻訳の限界を特定する。
- 既存の英訳がある文献では，LLMは高い翻訳品質（平均MQMスコア95.2/100）を達成し，専門家レベルに近づいた。
- 未翻訳の薬学文献では，品質は低下（79.9/100）したが，特に用語密度が高い箇所で変動が大きかった。それらを除外すると，品質は翻訳済みのテキストに近づいた。
- 古代ギリシア語コーパスにおける用語の頻度が低いほど，翻訳の失敗率が高くなることが示された（未翻訳テキストの相関係数r = -.97）。
Link: https://arxiv.org/abs/2602.24119
手術ロボットにおける教師なし時間的セグメンテーションのための多imodal最適輸送 [cs.CV, cs.AI]目的：手術中の段階とステップの認識
- 手術支援介入において，動画からの段階認識は不可欠であり，その精度向上が求められている。
- 既存手法は大規模な事前学習に依存し，計算コストやデータ収集の負担が大きいという課題がある。
- 動画内に内在する情報のみで，高精度な手術段階認識を可能にすることを目的とする。
- 提案手法TASOTは，動画から生成されるテキスト情報を活用することで，事前学習なしでの手術段階認識を実現した。
- TASOTは，視覚的特徴とテキスト情報を組み合わせた多imodal最適輸送問題を解くことで，フレームと手術アクションの対応付けを効果的に行う。
- 複数の手術データセットにおいて，既存のzero-shot手法と比較して大幅な性能向上を示し，その有効性を実証した。
Link: https://arxiv.org/abs/2602.24138
CoME：情報に基づいたハイブリッド能力推論によるモバイル専門家チャネルの強化 [cs.CL, cs.AI]目的：モバイルエージェントにおけるハイブリッド能力推論の実現
- モバイルエージェントは自律的にユーザー指示を実行するため，様々な分野への応用が期待されている。
- 既存エージェントは，各能力の独立した強化とバランスの取れた統合を両立することが困難である。
- CoMEは，各能力段階に対応する専門家を活用し，ハイブリッド能力推論を可能にする。
- 提案手法CoMEは，AITZおよびAMEXデータセットにおいて，既存のモバイルエージェントやMoE手法を上回る性能を示した。
- 出力指向型アクティベーションによる専門家チャネルと，段階的な学習戦略により，各能力の分離と強化，協調を可能にした。
- Info-DPOにより，中間ステップの貢献度を評価し，より情報に基づいた推論へと導くことで，エラー伝播を抑制することに成功した。
Link: https://arxiv.org/abs/2602.24142
予算制約下での学習：リソース制約下における最良アームの特定 [cs.LG]目的：リソース制約下における最良アームの特定
- 様々な選択肢の効果を評価する際に，コストやリソース使用量に差が生じる場面が多い。
- リソースが限られている状況下での，効率的な最良アーム特定手法が不足している。
- リソース制約を考慮した，より実用的な最良アーム特定アルゴリズムの確立を目指す。
- 提案手法であるSH-RRアルゴリズムは，リソースを考慮した割り当てを古典的なSuccessive Halvingフレームワークに統合する。
- SH-RRアルゴリズムは，確率的および決定論的な消費設定の両方に対して統一的な理論的解析を可能にする。
- 新しい「有効消費量」の指標を導入し，リソース消費の効率性を定量的に評価する。
Link: https://arxiv.org/abs/2602.24146
読んでいる内容が分類結果に反映される：テキストおよびテキスト類似入力に対する属性の強調 [cs.LG, q-bio.GN]目的：離散トークン入力（テキストなど）に対する解釈可能なAI手法の開発
- AIの信頼性向上には，モデルの判断根拠を理解することが不可欠である。
- 現在の解釈可能なAI手法は，テキストのようなトークン系列データに適用しにくい。
- テキスト全体の重要部分を特定し，人間が理解しやすい説明を提供する。
- 提案手法は，画像処理のマスクベースの解釈可能なAIアルゴリズムをトークン分類器に一般化したものである。
- 訓練されたExplainerネットワークが，分類に重要でない情報を隠すマスクを作成する。
- ヌクレオチド配列の分類器を用いた実験で，マスクされたセグメントが分類に重要でないことが示された。
Link: https://arxiv.org/abs/2602.24149
RAViT：解像度適応型ビジョンTransformer [cs.RO, cs.CV, cs.LG]目的：計算コスト削減と精度維持を両立する画像分類フレームワーク
- 画像認識分野において，Transformerは高性能を示すが，計算コストが高い点が課題である。
- 従来のVision Transformerは，高い計算資源を必要とするため，実用上の制約がある。
- 異なる解像度の画像を多分岐で処理し，早期終了機構を導入することで，効率的な画像分類を目指す。
- RAViTは，従来のVision Transformerと同等の精度を，約70%のFLOPsで達成した。
- 提案手法は，複数の解像度で画像を処理することで，計算コストを削減しつつ，高精度を維持する。
- 早期終了機構により，推論時に精度と計算コストの適切なトレードオフを選択できる。
Link: https://arxiv.org/abs/2602.24159
大規模言語モデルを用いた議論的推論のためのインタラクティブシステムArgLLM-App [cs.CL, cs.AI]目的：大規模言語モデルを活用した議論的推論システム
- 意思決定における説明可能性と透明性は重要であり，人間の理解と信頼を得る上で不可欠である。
- 従来の意思決定システムでは，その根拠が不透明であり，人間による検証が困難であることが課題であった。
- 本研究は，大規模言語モデルを用いて議論の構造を可視化し，人間との対話を通じて推論の誤りを特定・修正することを試みる。
- ArgLLM-Appは，ウェブベースのシステムであり，二値タスクにおける議論的推論を支援する。
- システムは，生成された説明を可視化し，ユーザーが推論の誤りを特定し，異議を唱えるためのインタラクションを可能にする。
- 信頼できる外部情報源からの情報を取り込むことが可能であり，モジュール性が高い。
Link: https://arxiv.org/abs/2602.24172
LemmaBench：LLMの数学能力を評価するライブ研究レベルベンチマーク [cs.AI]目的：LLMの数学能力評価のためのベンチマーク
- 数学研究の発展には，高度な推論能力が不可欠であり，その評価方法が重要である。
- 既存のベンチマークは静的で，実際の研究レベルの問題を十分に反映していない。
- 最新の研究成果を直接評価し，継続的なベンチマーク更新を可能にすること。
- arXivから抽出した補題を，自明な仮定や定義を明示することで独立した記述に変換するパイプラインを構築した。
- 現在の最先端LLMの定理証明の正答率は10-15%であり，人間レベルには大きな差があることが示された。
- 本ベンチマークは定期的に更新可能であり，過去のデータは学習に利用可能である。
Link: https://arxiv.org/abs/2602.24173
タスク指向の小規模言語モデルの高速化 [cs.CL, cs.AI, cs.IT, math.IT]目的：タスク特化型アプリケーションにおける小規模言語モデルの効率向上
- 大規模言語モデルと比較し，小規模言語モデルは効率的であり，リソース制約のある環境に適している。
- 高頻度な処理要求と低遅延性が求められる状況では，さらなる効率化が課題となる。
- タスクに適応したシーケンス圧縮により，小規模言語モデルの推論・学習効率を向上させる。
- TASC-ftは，トークナイザー語彙を拡張し，高頻度な出力n-gramを活用することで，ファインチューニングの効率を改善する。
- TASC-specは，タスクの出力コーパスからn-gramドラフトモデルを構築し，追加学習なしで推論時の効率を向上させる。
- 複数のタスクにおいて，提案手法は推論効率を維持しつつ，タスク性能を向上させることを示した。
Link: https://arxiv.org/abs/2602.24174
低次元内在次元を持つ幾何学的概念に対する多項式の挟み込み [cs.CY, cs.LG, cs.CC]目的：低次元内在次元を持つ関数クラスと周辺分布に対する多項式挟み込み近似の度数上限の改善
- 分布シフト，テスト可能な学習，汚染学習など，困難な学習設定における多項式近似の有効性が示されている。
- 既存手法では，関数クラスの次元が増加すると，多項式近似の度数が指数関数的に増加してしまうという課題があった。
- 滑らかな境界を持つ低次元関数クラスに対して，より効率的な多項式挟み込み近似を構成し，既存手法の度数上限を改善すること。
- ガウス分布におけるk個の半空間関数の多項式挟み込みについて，既存の$2^{O(k)}$から$\mathrm{poly}(k)$へと指数関数的な改善を達成した。
- 標的関数の境界の滑らかさを利用することで，簡潔な証明が可能となり，高次元近似理論の結果を適用した。
- ガウス分布に対する低次元多項式閾値関数(PTF)においては，KaneのFT-mollification法を用いずに，二重指数関数的な改善を実現した。
Link: https://arxiv.org/abs/2602.24178
限られたバッファと資材キット制約下におけるフレキシブルジョブショップスケジューリング学習 [cs.AI]目的：フレキシブルジョブショップスケジューリング問題におけるバッファ制約と資材キット制約を考慮したスケジューリング手法
- 現実の生産現場の効率化が求められており，ジョブショップスケジューリングはその重要な課題の一つである。
- 既存研究では，バッファ容量の制限や資材キット制約といった現実的な制約が十分に考慮されていない場合がある。
- バッファ利用率の向上と，長期的なスケジューリングにおけるパレット交換回数の抑制を目指す。
- 提案手法は，合成データと実際の生産ラインデータにおいて，既存のヒューリスティックおよび高度な強化学習手法よりも優れた性能を示した。
- 特に，メークスパンとパレット交換回数において優位性が見られ，解の品質と計算コストのバランスも良好である。
- 異種グラフネットワークを活用することで，複雑な依存関係と長期的な制約を効果的にモデル化することができた。
Link: https://arxiv.org/abs/2602.24180
混合データがDINOを雑食性ビジョンエンコーダにする [cs.CV, cs.AI]目的：異なるモダリティ間の特徴表現の整合性向上
- 画像認識技術は，自動運転やロボティクスなど，様々な応用分野で不可欠である。
- 既存のビジョンエンコーダでは，異なるモダリティ間の特徴表現にずれが生じやすい。
- 本研究は，モダリティに依存しない汎用的な特徴空間を学習することで，この問題を解決する。
- 提案手法であるOmnivorous Vision Encoderは，異なるモダリティ間の特徴整合性を最大化する。
- DINOv2などの教師モデルからの知識蒸留により，識別能力の高い表現を獲得する。
- その結果，入力モダリティに関わらず，一貫性のある強力な埋め込み表現を生成できる。
Link: https://arxiv.org/abs/2602.24181
大規模フルフィルメントセンターにおける多目的強化学習を用いたトート割り当て [cs.LG]目的：コンテナ型フルフィルメントセンターにおけるトート割り当ての最適化
- 物流効率化が求められる中，フルフィルメントセンターの処理能力向上が重要である。
- 処理速度，資源利用，空間利用のトレードオフが複雑で，最適化が困難である。
- 人間とロボットの協働による効率的なトート割り当て手法を開発すること。
- 本研究では，大規模な多目的強化学習(MORL)を用いて，現実的な制約下での最適なトート割り当てを実現した。
- 提案手法は，複数の目的を同時に考慮し，制約を満たす単一のポリシーを学習できることをシミュレーションで示した。
- また，時間平均解の振動を抑制する理論的枠組みを提示し，安定した最適解の獲得に貢献する。
Link: https://arxiv.org/abs/2602.24182
医療画像分類における系統的失敗検出と説明のためのマルチモーダルスライス発見フレームワーク [cs.CV, cs.LG]目的：医療画像分類における系統的失敗の検出と説明
- 医療画像診断の精度向上は重要だが，機械学習の安全性・信頼性が課題となっている。
- 既存の監査手法は解釈性に乏しく，隠れた系統的失敗を捉えきれない場合がある。
- マルチモーダル表現を用いた自動監査フレームワークを開発し，失敗検出と説明を可能とする。
- 提案フレームワークは，MIMIC-CXR-JPGデータセットを用いた実験で，失敗検出と説明において高い性能を示した。
- マルチモーダル情報は，より包括的かつ効果的な分類器の監査を可能にする。
- 画像以外の単一モーダル入力でも，リソース制約下で有望な結果が得られた。
Link: https://arxiv.org/abs/2602.24183
MT-PingEval：秘匿情報ゲームによる多段階協調の評価 [cs.CL, cs.LG]目的：言語モデルにおける多段階インタラクションの評価手法
- 現実のコミュニケーションにおいて，秘匿情報の扱いは重要であり，その能力向上は不可欠である。
- 現在の言語モデルは，多段階の協調会話において計画力や実行力に課題を抱えている。
- 言語モデルの秘匿情報に基づいた協調コミュニケーション能力の限界を明らかにする。
- 多くのケースで，言語モデルはインタラクティブな協調によって，非インタラクティブなベースラインを超えることができないことが示された。
- 対照的に，人間はより一貫性のある対話を生成することで，優れたトークン効率で同等のタスク成功率を達成する。
- 本研究は，言語モデルの協調性の弱点に関する理解を深め，今後の能力向上を促進することを目指す。
Link: https://arxiv.org/abs/2602.24188
確率的システムにおける強靭性戦略：勝利戦略を打ち破るにはどれだけのものが必要か [cs.GT, cs.AI, cs.LO]目的：不確実性下における強靭性戦略の検討
- 現実世界のシステムは不確実性に満ちており，ロバストな意思決定が不可欠である。
- システムの故障など，予期せぬ擾乱によって意思決定が覆される可能性が課題となる。
- 確率的環境下での強靭性を定量的に評価し，システム設計に役立つ知見を得る。
- 本研究では，確率的マルコフ決定過程における到達可能性と安全性という観点から強靭性を議論した。
- 擾乱量の集約方法として，期待値や最悪ケースを提示し，その影響を分析した。
- 無限に発生する擾乱に対処するため，発生頻度のような定量的な指標を用いることを提案した。
Link: https://arxiv.org/abs/2602.24191
マルチモーダル大規模言語モデルにおける非一貫性調整済み意味的体積による不確実性定量化 [cs.RO, cs.AI, cs.CL, cs.CV, cs.LG]目的：マルチモーダル大規模言語モデルの不確実性定量化
- 大規模言語モデルの性能向上に伴い，その信頼性評価が重要となっている。
- 既存の不確実性指標は，特定のモダリティに限定される，外部ツールに依存する，計算コストが高いなどの課題がある。
- モデル自身の内部表現を用いて，効率的に不確実性を定量化することを目指す。
- UMPIREは，外部ツールを用いず，様々な入力・出力モダリティに対応可能な，トレーニング不要な不確実性定量化フレームワークである。
- UMPIREは，モデルの内部モダリティ特徴量に基づき，サンプリングされたMLLM応答の意味的体積と非一貫性を考慮することで，不確実性を捉える。
- 実験の結果，UMPIREは，画像，音声，動画-テキストベンチマークにおいて，エラー検出と不確実性較正において，既存指標を上回る性能を示した。
Link: https://arxiv.org/abs/2602.24195
扱いにくい分布に対するフローに基づく密度比推定：ゲノミクスへの応用 [cs.LG]目的：扱いにくいデータ分布間の密度比推定
- 確率モデルにおいて，異なる条件や共変量下でのサンプル尤度を比較する上で重要な課題である。
- 正規化フローのような正確な尤度モデルは有望だが，計算コストが高く，各分布の尤度積分を個別に計算する必要がある。
- 生成軌跡に沿った密度比を追跡するための単一の動的定式化を導き，計算効率を向上させる。
- 提案手法は，閉形式の比推定のためのシミュレーションベンチマークで競争力のある性能を示した。
- 単一細胞ゲノミクスデータ分析における多様なタスクをサポートし，細胞状態の実験条件間での比較を可能にした。
- 治療効果の推定やバッチ補正の評価といった応用が期待される。
Link: https://arxiv.org/abs/2602.24201
Performative Prediction におけるオンラインアルゴリズムの安定性 [cs.RO, cs.LG, cs.CY, cs.GT, stat.ML]目的：Performative Prediction環境下におけるオンラインアルゴリズムの安定性
- 意思決定におけるアルゴリズム予測の利用が拡大しており，その影響を理解することは重要である。
- アルゴリズムがデータ分布に影響を与える状況下での安定性確保が課題となっていた。
- モデルがデータ分布を変化させる状況下でも安定な均衡点に収束することを示す。
- 本研究では，無条件の還元により，Performative Prediction 環境で展開された後悔しないアルゴリズムが，Performatively Stable Equilibrium に収束することを示した。
- 既存研究とは異なり，モデルが分布に与える影響に関する強い制限を設けることなく，この結果を得ている。
- マルチンゲール議論とランダム化を用いることで，安定モデルを見つけることの困難さを回避し，勾配降下法などのアルゴリズムが自然に安定化する理由を解明した。
Link: https://arxiv.org/abs/2602.24207
SenCache：感度を考慮したキャッシュによる拡散モデル推論の高速化 [cs.CV, cs.LG]目的：拡散モデル推論の高速化
- 高品質な動画生成が可能だが，計算コストが高い点が課題となっている。
- 既存のキャッシュ手法は，キャッシュするステップ選択に試行錯誤が必要である。
- 感度分析に基づき，キャッシュエラーを最小化する動的なキャッシュポリシーを開発する。
- 提案手法SenCacheは，既存のキャッシュ手法と比較して，同程度の計算量でより高品質な動画を生成できる。
- モデル出力の入力摂動に対する感度が，キャッシュエラーの重要な予測因子であることを理論的に示した。
- サンプルごとにキャッシュステップを適応的に選択する動的なキャッシュポリシーを実現した。
Link: https://arxiv.org/abs/2602.24208
異種IoTネットワークにおける異常検知のための効率的な教師なし連合学習アプローチ [cs.LG, cs.AI]目的：異種IoTネットワークにおける異常検知のための連合学習手法
- IoTデバイスの普及に伴い，分散環境でのデータ活用が重要視されている。
- IoTデータの多様性により，連合学習におけるモデル性能とプライバシー保護が課題となっている。
- 異なるデータセット間の共通特徴を活用し，異常検知の精度向上を目指す。
- 提案手法は，異常検知とデバイス識別という異なるIoTデータセットの共有特徴を活用することで，従来の連合学習手法よりも高い異常検知精度を達成した。
- 説明可能なAI技術（SHAP）を用いることで，局所モデルの決定に影響を与える重要な特徴を特定し，透明性と解釈性を向上させた。
- 本研究は，補完的なデータセット間の共有特徴を利用することで，分散型IoT環境における教師なし連合学習を最適化し，優れた異常検知結果を得る可能性を示唆する。
Link: https://arxiv.org/abs/2602.24209
制御可能な推論モデルはプライバシーを重視する [cs.CL, cs.AI]目的：推論モデルにおける指示追従能力の向上を通じたプライバシー保護
- AIエージェントの高度化に伴い，推論モデルの安全性と信頼性が重要になっている。
- 推論過程の制御が難しく，意図せず機密情報が漏洩するリスクが存在する。
- 推論過程における指示追従能力を高めることで，プライバシー保護を強化することを目指す。
- 推論過程と回答生成を分離する手法と，指示追従データセットを用いることで，指示追従性能が最大20.9ポイント向上した。
- プライバシーベンチマークにおいては，最大51.9パーセントポイントの改善が見られた。
- 指示追従性能の向上は，タスクの有用性を損なう可能性があるというトレードオフも示唆された。
Link: https://arxiv.org/abs/2602.24210
XOR問題における古典的および量子変分分類器の比較 [cs.LG, quant-ph]目的：XOR問題に対する古典モデルと量子変分分類器の性能比較
- 機械学習は，データ分析やパターン認識において不可欠な技術であり，その応用範囲は広い。
- 量子機械学習は発展途上であり，古典的な手法と比較して優位性を示す課題が多い。
- 本研究は，量子変分分類器の性能を評価し，古典モデルとの比較を通して課題を明らかにすることを目指す。
- ロジスティック回帰や浅い量子回路はXOR問題を適切に表現できなかった。
- 多層パーセプトロンと深い量子回路は，高い精度でXOR問題を解くことができた。
- 量子回路の深さが性能を左右するが，古典ニューラルネットワークに比べて優位性を示す根拠は見出されなかった。
Link: https://arxiv.org/abs/2602.24220
MuViT：顕微鏡検査におけるスケール間学習のためのマルチ解像度Vision Transformer [cs.CV, cs.LG]目的：顕微鏡検査におけるスケール間学習のためのマルチ解像度Vision Transformerのアーキテクチャ
- 現代の顕微鏡はギガピクセル画像を出力し，細胞構造から組織構造まで様々なスケールの情報を含むため，解析にはスケールを組み合わせる必要がある。
- 既存のVisionモデルは単一解像度で動作するか，単一の視点からマルチスケール特徴を抽出するため，顕微鏡データの本来持つマルチ解像度性を活かせない。
- MuViTは，同一画像から得られた真のマルチ解像度情報を融合することで，この問題を解決することを目指している。
- MuViTは，全てのパッチを共有の世界座標系に埋め込み，回転位置埋め込みをこれらの座標系に拡張することで，広範囲のコンテキストと高解像度な詳細を統合する。
- 合成ベンチマーク，腎臓組織病理，高解像度マウス脳顕微鏡検査において，MuViTは強力なViTおよびCNNベースラインに対して一貫した改善を示した。
- マルチ解像度MAE事前学習は，下流タスクを強化するスケール整合性のある表現を生成する。
Link: https://arxiv.org/abs/2602.24222
適応的組合せ実験計画：意思決定と推論のためのパレート最適性 [cs.IR, cs.DL, cs.LG]目的：組合せ多腕バンディット問題における後悔最小化と統計的検定力のトレードオフ
- 意思決定や機械学習において，最適な行動選択と正確な評価が不可欠であるため。
- 組合せ多腕バンディット問題では，探索と活用のバランスが難しく，効率的な学習が課題である。
- パレート最適性に基づき，後悔と推定誤差の両方を最小化する適応的な実験計画手法を提案する。
- 本研究では，組合せ実験計画における適応的なアプローチの重要性を示し，パレート最適性の概念を導入した。
- 提案手法MixCombKLとMixCombUCBは，いずれもパレート最適であり，後悔と腕間ギャップ推定誤差に対して有限時間の保証を持つ。
- 豊富なフィードバックはパレート最適フロンティアを改善し，提案手法による推定精度の向上が主要な要因である。
Link: https://arxiv.org/abs/2602.24231
距離空間における学習拡張スパニング木アルゴリズムの改善：メトリックフォレスト補完による手法 [cs.DS, cs.LG]目的：近似最小スパニング木の探索
- グラフ構造の最適化は，ネットワーク設計やデータ分析など，幅広い分野で重要である。
- 既存手法では，大規模なグラフに対する計算効率や近似精度の向上が課題となっていた。
- メトリックフォレスト補完の枠組みを一般化し，計算効率と近似精度のトレードオフを改善する。
- 提案手法は，既存のメトリックフォレスト補完アルゴリズムの近似比を2.62から2に改善した。
- 同様に，メトリックMST問題における近似比を$(2\gamma+1)$から$2\gamma$に改善した。
- 最悪ケースにおいては限界があるものの，インスタンス固有の近似精度は向上する。
Link: https://arxiv.org/abs/2602.24232
SafeGen-LLM：ロボットシステムにおけるタスクプランニングの安全性汎化の向上 [cs.RO, cs.AI]目的：ロボットシステムのタスクプランニングにおける安全性汎化
- ロボットの安全な動作は重要であり，高度なタスクプランニングが不可欠である。
- 従来のプランニング手法は拡張性に乏しく，強化学習は汎化性能が低いという課題がある。
- 安全性と汎化性能を両立するタスクプランニング手法の確立を目指す。
- SafeGen-LLMは，既存のLLMが抱える安全性確保の課題を克服し，タスクプランの安全性を向上させる。
- 本手法は，新しい安全要件にも対応可能な汎化性能を持つことを実証した。
- 多岐にわたるドメインと入力形式において，最先端の既存モデルを上回る性能を示した。
Link: https://arxiv.org/abs/2602.24235
交通予測における強固なベースラインとしての時系列基盤モデル：大規模ベンチマーク分析 [cs.DC, cs.LG]目的：交通予測における時系列基盤モデルの有効性
- 都市の移動やインフラ計画において，交通状況の正確な予測は不可欠である。
- 既存の深層学習モデルは，データセット固有の調整や設計が必要であり，汎用性に課題がある。
- データセット固有の調整なしに，時系列基盤モデルが交通予測タスクに適用可能か検証する。
- 最新の時系列基盤モデルChronos-2は，多くのデータセットで最先端または競争力のある精度を示した。
- 特に予測期間が長い場合，従来の統計的ベースラインや専門的な深層学習アーキテクチャを上回った。
- Chronos-2は，データセット固有の学習なしで，有用な不確実性定量化も実現することが示された。
Link: https://arxiv.org/abs/2602.24238
チャンクごとの注意トランスデューサによる高速かつ高精度なストリーミング音声認識 [cs.LG]目的：ストリーミング音声認識の効率と精度向上
- リアルタイム性が求められる音声処理において，効率的なモデルが不可欠である。
- RNN-Tモデルはストリーミング性に優れるが，計算コストが高いという課題がある。
- チャンクごとの注意機構により，RNN-Tの効率性と精度を改善する。
- 提案手法CHATは，ピーク時の学習メモリを最大46.2%削減し，学習速度を最大1.36倍に向上させた。
- 推論速度も最大1.69倍に向上し，リアルタイム処理への応用が期待できる。
- 音声認識では最大6.3%のWER相対削減，音声翻訳では最大18.0%のBLEUスコア改善を達成した。
Link: https://arxiv.org/abs/2602.24245
潜在多様体圧縮による病理組織画像正規化 [eess.SY, cs.SY, cs.HC, cs.LG, cs.CV]目的：病理組織画像のバッチ効果軽減
- 病理診断の精度向上に不可欠な画像解析の発展のため，データ間のばらつきを抑える技術が重要である。
- 染色プロトコル等の技術的差異によるバッチ効果が，モデルの汎化性能を著しく低下させる。
- 単一のソースデータからバッチ不変な埋め込み表現を学習し，未知データへの汎化性能を高める。
- 提案手法LMCは，潜在多様体を圧縮することでバッチ効果を大幅に低減することを示した。
- 複数のデータセットにおいて，既存の正規化手法を上回る性能を，クロスバッチ分類・検出タスクで確認した。
- これにより，臨床現場へのモデル展開における信頼性を高めることが期待される。
Link: https://arxiv.org/abs/2602.24251
FaultXformer：PMU統合型能動配電システムにおけるTransformerエンコーダに基づく故障分類と場所特定モデル [eess.SY, cs.SY, eess.SY, cs.AI, cs.LG, cs.SY]目的：配電システムにおける故障の分類と場所の特定
- 配電システムの信頼性向上は重要であり，特に分散型エネルギー資源(DER)の導入により複雑性が増している。
- DERの導入により，グリッド運用が複雑化し，正確な故障検知と場所特定が困難になっている。
- DERが普及した配電システムにおいて，高精度な故障分類と場所特定を実現することを目指す。
- 提案手法FaultXformerは，IEEE 13ノードテストフィードを用いたシミュレーションで，故障の種類分類において98.76%の平均精度を達成した。
- また，故障の場所特定においても98.92%の平均精度を達成し，従来の深層学習モデル（CNN，RNN，LSTM）を大きく上回った。
- この結果は，DERが普及した配電システムにおいても，提案手法が有効であることを示している。
Link: https://arxiv.org/abs/2602.24254
ドメイン特化型サプライヤー発見のためのカバレッジを考慮したウェブクローリング：ウェブ--知識--ウェブパイプライン [eess.SY, cs.SY, eess.SY, cs.SY, math.OC, cs.LG]目的：特定産業分野の中小企業に関する包括的な情報収集
- サプライチェーンの強靭化には，専門分野の中小企業を網羅的に把握することが不可欠である。
- 既存のビジネスデータベースは，特に下位サプライヤーや新興市場企業において，情報カバレッジに課題がある。
- ウェブからの情報収集と知識グラフ構築を繰り返すことで，情報カバレッジの低い領域を効率的に探索する。
- 提案手法（W$\to$K$\to$Wパイプライン）は，半導体製造装置分野において，既存手法よりも高い適合率（0.138）とF1スコア（0.118）を達成した。
- 限られたクローリング予算（213ページ）内で，765エンティティと586の関係を含む知識グラフを構築することに成功した。
- 生態学的種豊度推定法に基づいたカバレッジ推定フレームワークにより，発見の網羅性を定量的に評価した。
Link: https://arxiv.org/abs/2602.24262
視覚埋め込みモデルにおける合成汎化には線形かつ直交な表現が必要である [cs.CV, cs.LG]目的：視覚埋め込みモデルにおける合成汎化に必要な表現の構造
- 知的なシステムの重要な特性として，合成汎化能力の理解が求められている。
- 大規模データセットで訓練されたモデルでも，入力の組み合わせ空間のごく一部しかカバーできない。
- 合成汎化を可能にする表現の幾何学的制約を明らかにすること。
- 合成汎化の望ましい条件（分割可能性，転移可能性，安定性）は，線形性と直交性を必要とする。
- ニューラル表現において広く観測される線形構造は，合成汎化の必要条件であると考えられる。
- CLIP，SigLIP，DINOなどのモデルにおいて，概念ごとの低ランクでほぼ直交な因子による線形分解が確認された。
Link: https://arxiv.org/abs/2602.24264
ニューラルメカニズムスパース化による近似因果抽象の効率的な発見 [cs.IR, cs.HC, cs.LG, cs.AI]目的：近似因果抽象の発見
- AIの解釈可能性向上に不可欠であり，より信頼性の高いAIシステムの構築に繋がる。
- 既存手法は計算コストが高く，大規模ネットワークへの適用が困難である。
- 構造化プルーニングを用いて，効率的に近似因果抽象を発見すること。
- 本研究では，ニューラルネットワークを決定論的SCMとみなし，介入リスクの二階微分展開からユニット置換・統合の基準を導出した。
- 活性化分散に基づいたプルーニングを特殊ケースとして包含し，その限界を明確化した。
- 提案手法は，事前学習済みのネットワークから疎な介入忠実な抽象を効率的に抽出できることを検証した。
Link: https://arxiv.org/abs/2602.24266
自動定理証明のための最小エージェント [cs.AI]目的：AIを用いた定理証明器アーキテクチャ間の系統的な比較を可能にする最小エージェントの基盤
- 定理証明は，数学，論理学，計算機科学の基礎であり，AI分野における知能のベンチマークとなる。
- 既存の定理証明器は複雑で，アーキテクチャの比較や再現が困難であるという課題がある。
- 本研究は，シンプルな基盤を提供することで，定理証明器の研究開発を促進し，AIの進歩に貢献する。
- 提案する基盤は，反復的な証明の改良，ライブラリ検索，コンテキスト管理という主要な機能を実装している。
- 多様なベンチマークにおける評価により，最先端のアプローチと同等の性能を示し，より単純なアーキテクチャでそれを実現している。
- 反復的なアプローチは，一度だけの生成と比較して，サンプル効率と費用対効果において一貫した利点を示すことが示された。
Link: https://arxiv.org/abs/2602.24273
ニュースの信頼性評価を支援するRetrieval-Augmented Generationシステム自動評価のためのリソース [cs.IR, cs.AI]目的：ニュースの信頼性評価を支援するRetrieval-Augmented Generationシステムの評価リソースの再利用可能性
- 現代社会において，誤情報が蔓延する中，ニュースの信頼性を判断する能力が重要になっている。
- オンラインニュースの信頼性評価は難しく，信頼できる情報と誤情報の区別が困難である。
- 本研究は，ニュースの信頼性評価を支援するシステムの評価を自動化し，効率化することを目指す。
- TREC 2025 DRAGUNトラックで開発されたタスクと評価リソースを再利用可能にした。
- 自動評価システムAutoJudgeは，Task 1でKendall's τ = 0.678，Task 2でτ = 0.872という良好な相関を示した。
- これらのリソースは，ニュース信頼性評価支援RAGシステムの評価，および自動評価手法の改善研究に貢献する。
Link: https://arxiv.org/abs/2602.24277
学習された表現の識別可能性評価の課題：誰が守護者を監視するのか [cs.LG]目的：表現学習における識別可能性の評価方法
- 表現学習は，複雑なデータから有用な特徴を抽出する上で重要であり，機械学習の性能向上に不可欠である。
- 既存の識別可能性評価指標は，特定の条件下でのみ有効であり，現実のデータセットでは誤った結果をもたらす可能性がある。
- データ生成プロセスとエンコーダの構造に関する仮定を分離し，既存指標の適用範囲を明確化することで，より信頼性の高い評価を可能にする。
- 従来の識別可能性評価指標は，データ生成プロセスとエンコーダに関する暗黙の仮定に依存しており，仮定違反時には誤った結果を生じる。
- データ生成プロセスとエンコーダの構造に関する仮定を分類するタクソノミーを提示し，既存指標の有効範囲を特徴付けた。
- 再現性のあるストレステストと指標比較のための評価スイートを公開し，研究コミュニティへの貢献とした。
Link: https://arxiv.org/abs/2602.24278
メモリキャッシュ：成長するメモリを持つRNN [cs.FL, cs.LG, cs.AI]目的：RNNのメモリ容量拡張による性能向上
- 系列モデリングにおいてTransformerが主流だが，計算コストが高いという課題がある。
- 固定サイズのメモリを持つRNNは，Transformerに比べて想起性能が劣ることが知られている。
- RNNのメモリ容量を動的に拡張し，Transformerとの性能差を縮小することを目指す。
- メモリキャッシュ（MC）は，RNNの隠れ状態をキャッシュすることで，有効なメモリ容量を系列長とともに増加させる。
- MCには，ゲート集約や疎選択機構など4つの変種があり，線形および深層メモリモジュールへの影響が議論されている。
- 言語モデリングや長文理解タスクにおいて，MCはRNNの性能を向上させ，Transformerに匹敵する性能を示した。
Link: https://arxiv.org/abs/2602.24281
モーメンタムの制御：低ランク近似によるオプティマイザの状態再考 [cs.LG, cs.AI, cs.CL]目的：大規模言語モデルの効率的な事前学習とファインチューニングのための低ランクオプティマイザの開発
- 大規模言語モデルの学習は，計算資源を大量に消費するため，効率化が重要である。
- AdamやMuonといった現代的なオプティマイザは，メモリ使用量が大きく，スケーラビリティが課題となっている。
- オプティマイザの状態を低ランク近似することで，メモリ効率を向上させ，スケーラビリティを改善することを目指す。
- LoRA-Preは，Llamaアーキテクチャを用いた事前学習において，モデルサイズにかかわらず最高の性能を達成した。
- LoRA-Preは，ベースライン手法の1/8のランクで同等またはそれ以上の結果を達成し，ランク効率の高さを示した。
- ファインチューニングにおいても，LoRA-Preは標準的なLoRAと比較して，Llama-3.1-8Bで3.14ポイント，Llama-2-7Bで6.17ポイントの大幅な性能向上を示した。
Link: https://arxiv.org/abs/2602.24283
CUDA Agent：高性能CUDAカーネル生成のための大規模エージェント強化学習 [cs.LG, cs.AI]目的：高性能なCUDAカーネル生成のための大規模エージェント強化学習システム
- 深層学習の性能向上に不可欠なGPUカーネル最適化は，高度なハードウェア知識を必要とする。
- 既存のLLMは，CUDAカーネル生成においてコンパイラベースのシステムに劣るという課題がある。
- LLMのCUDA最適化能力を根本的に向上させ，高性能なカーネル生成を実現することを目指す。
- CUDA Agentは，KernelBenchにおいてtorch.compileを最大100%上回る性能を示した。
- 特に難易度の高いLevel-3設定では，Claude Opus 4.5やGemini 3 Proなどの強力なモデルを約40%上回った。
- データ合成パイプライン，スキル拡張開発環境，強化学習アルゴリズムの組み合わせが，CUDAカーネルの専門知識獲得を可能にした。
Link: https://arxiv.org/abs/2602.24286
LLMは自身の応答から恩恵を受けるか？ [cs.CL, cs.AI]目的：大規模言語モデルにおける自身の過去の応答の利用可能性
- LLMの対話性能向上は，自然なコミュニケーション実現に不可欠である。
- 対話履歴の長さが，LLMの処理能力や応答速度を低下させる可能性がある。
- 自身の応答を含めた履歴の利用が，本当に効果があるのか検証する。
- 多くの対話において，自身の過去の応答を除外しても応答品質に大きな影響はなかった。
- 対話履歴の約36.4%が独立した質問であり，現在の質問のみで回答可能であることが示された。
- 過去の応答が文脈汚染を引き起こし，誤りや幻覚を生じさせる場合があることが判明した。選択的な文脈フィルタリングが有効である。
Link: https://arxiv.org/abs/2602.24287
DARE-bench：データサイエンスにおけるLLMのモデリングと指示忠実性の評価 [cs.AI, cs.CL]目的：大規模言語モデルのデータサイエンスにおける性能評価と学習データ
- データサイエンス分野では，複雑なタスクを自動化するLLMの活用が急速に進んでおり，正確な評価が不可欠である。
- 既存のベンチマークは，プロセス全体を評価する標準化された手法や，正確なラベル付き学習データが不足している。
- LLMのモデリングと指示追従能力を客観的に評価し，性能向上に貢献する学習データを提供すること。
- DARE-benchは，6,300件のKaggleタスクから構成され，客観的な評価を可能にする検証可能な正解データを提供する。
- 高性能モデル（gpt-o4-miniなど）でさえ，特に機械学習モデリングタスクにおいて十分な性能を発揮できないことが示された。
- DARE-benchの学習データを用いたファインチューニングにより，Qwen3モデルの精度が大幅に向上することが確認された。
Link: https://arxiv.org/abs/2602.24288
モード探索と平均探索の融合による高速長尺動画生成 [cs.CV, cs.LG]目的：長尺動画生成における忠実性と長期的整合性の両立
- 動画生成技術は，エンターテイメントやコンテンツ制作において不可欠であり，その重要性は増している。
- 長尺動画の学習データは不足しており，高品質な生成が困難であるという課題がある。
- 限られた長尺動画から長期的整合性を学習し，短尺動画のリアリズムを継承することを目指す。
- 提案手法は，長尺動画のナラティブ構造を捉えるグローバルなFlow Matchingヘッドと，短尺動画教師へのアラインメントによるローカルなDistribution Matchingヘッドを組み合わせる。
- これにより，長尺動画の生成における忠実性と長期的整合性のギャップを効果的に縮小することに成功した。
- 結果として，限られた学習データから数ステップで高速に長尺動画を生成可能となった。
Link: https://arxiv.org/abs/2602.24289
QD-MAPPER：多様なマップにおけるマルチエージェントパスファインディングアルゴリズムを自動評価するための品質多様性フレームワーク [cs.MA, cs.AI]目的：マルチエージェントパスファインディングアルゴリズムの性能評価
- ロボット工学や群知能において，複数のエージェントの効率的な経路計画は重要課題である。
- 既存の研究では，限られた人手設計マップで評価しており，汎化性能の検証が不十分である。
- 多様なマップを自動生成し，アルゴリズムの性能を網羅的に評価することで，公平な比較を可能にする。
- QD-MAPPERは，ニューラルセルオートマトンを用いた品質多様性アルゴリズムにより，多様なマップを生成する。
- 実験結果から，探索ベース，優先度ベース，ルールベース，学習ベースのアルゴリズムを比較・評価できた。
- 各アルゴリズムの得意分野や，実行時間・成功率の差異を特定し，アルゴリズム選択・設計に役立つ情報を提供する。
Link: https://arxiv.org/abs/2409.06888