arXiv雑要約

プログラム - 2026/02/03 公開

  • 幻覚は空間最適性の結果である:メンバーシップテストのためのレート歪み定理 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CL, cs.DS, cs.IT, math.IT]目的:大規模言語モデルにおける幻覚の発生メカニズムの解明
    • 言語モデルの性能向上は,知識の効率的な表現と記憶に依存する。
    • 大規模言語モデルは,根拠の薄弱な情報に対して高い確信度で誤った情報を生成する。
    • 限られた容量下で,情報圧縮の限界から生じる幻覚の必然性を理論的に示す。
    • 本研究では,幻覚をメンバーシップテスト問題として定式化し,レート歪み定理を導出した。
    • 定理は,最適な記憶効率が事実と非事実のスコア分布間のKLダイバージェンスによって特徴づけられることを示している。
    • 理論的枠組みは,容量制限下では幻覚が情報理論的に最適な戦略であると説明する。

    Link: https://arxiv.org/abs/2602.00906

  • MCP-Atlas:実MCPサーバーを用いたツール利用能力の大規模ベンチマーク [cs.SE, cs.AI]目的:大規模言語モデルのツール利用能力の評価
    • LLMの能力向上には,外部ツールとの連携が不可欠であり,その評価手法の確立が重要である。
    • 既存の評価は現実世界の複雑さを捉えきれておらず,ツールセットやワークフローが限定的である。
    • 現実的な多段階ワークフローにおけるツール利用能力を評価し,より堅牢なエージェント開発を促進する。
    • MCP-Atlasは,36の実際のMCPサーバーと220のツールを含む大規模なベンチマークである。
    • 最先端モデルは50%を超える合格率を達成するものの,ツール利用の不適切さやタスク理解の不足が主な失敗要因である。
    • タスクスキーマ,コンテナ化されたハーネス,およびベンチマークデータセットの一部を公開し,再現性のある比較を可能にする。

    Link: https://arxiv.org/abs/2602.00933

  • 本番環境向けクラウドサービスシステムの自動復元力テスト:Cast [cs.SE]目的:マイクロサービスアーキテクチャにおける復元力の検証
    • マイクロサービス化はシステムのスケーラビリティ向上に寄与するが,分散故に障害時の挙動が複雑になる。
    • 従来のテスト手法では,本番環境の複雑さを再現できず,十分な復元力を確認することが困難である。
    • 本研究は,本番環境のトラフィックを再現し,アプリケーションレベルの障害を注入することで,より現実的な復元力テストを可能にする。
    • Castは,Huawei Cloudにおいて8ヶ月以上にわたり運用され,多くのサービスチームに採用されている。
    • 分析の結果,4つの大規模アプリケーションから137件の潜在的な脆弱性が発見され,そのうち89件が開発者によって確認された。
    • 48個の再現可能なバグに対する評価では,90%の高いカバレッジを達成し,Castの実用性と有効性が示された。

    Link: https://arxiv.org/abs/2602.00972

  • モーフィス:時間変化するコールグラフを持つマイクロサービスのためのSLOを意識したリソーススケジューリング [cs.RO, cs.RO, cs.CC, cs.SE]目的:マイクロサービスにおけるSLO(サービスレベル目標)を考慮したリソーススケジューリング手法
    • マイクロサービスは現代のシステムにおいて不可欠であり,効率的なリソース管理が重要である。
    • 既存のリソース管理手法は,マイクロサービスの動的な性質に対応できていない。
    • 動的な実行環境下で,SLOを満たしつつCPU使用量を削減することを目指す。
    • モーフィスは,安定した実行バックボーンと解釈可能な偏差サブグラフにトレースを分解する構造的フィンガープリンティングを導入する。
    • リソース割り当てを,予測されたパターン分布に基づく制約付き最適化問題として定式化し,CPU使用量を最小化しつつ,エンドツーエンドのテールレイテンシーSLOを満たす。
    • TrainTicketベンチマークを用いた評価では,モーフィスは最先端のベースラインと比較してCPU消費量を35~38%削減し,98.8%のSLOコンプライアンスを維持した。

    Link: https://arxiv.org/abs/2602.01044

  • 円弧交点の数え上げ [cs.CL, cs.CG, cs.DS]目的:円弧交点の数
    • 計算幾何学における基本的な問題であり,様々な応用分野で重要である。
    • 既存のアルゴリズムは計算量が大きく,大規模データへの適用が困難である。
    • より効率的なアルゴリズムを開発し,円弧交点の数え上げの計算量を削減する。
    • 本研究では,既存のアルゴリズムよりも高速な,$O(n^{4/3}\log^{16/3}n)$ の計算量を達成するアルゴリズムを提案した。
    • さらに,交点の数が少ない場合に,$O(n^{1+\epsilon}+K^{1/3}n^{2/3}(\frac{n^2}{n+K})^{\epsilon}\log^{16/3}n)$ の計算量で解くアルゴリズムを開発した。
    • 30年以上進展のなかった問題に対し,計算量の改善に貢献した。

    Link: https://arxiv.org/abs/2602.01074

  • MedBeads:信頼性の高い医療AIのための,エージェントネイティブで不変なデータ基盤 [cs.HC, cs.RO, cs.AI, cs.CR, cs.DB, cs.DC, cs.SE]目的:信頼できる医療AIのためのデータ基盤の構築
    • 医療AI分野は,診断や治療の質を向上させる可能性を秘めている。しかし,データ信頼性が課題となっている。
    • 既存の電子カルテやFHIRは人間向け設計であり,AIエージェントが利用するには文脈の断片化や推論の誤りが生じやすい。
    • AIエージェントが利用可能な,改ざん検知可能な決定論的なデータ基盤を提供し,医療AIの信頼性を高める。
    • 臨床イベントを不変の「Beads」として表現し,Merkle DAGを用いることで,改ざんを数学的に検出可能にした。
    • FHIRデータをDAGに変換することで,因果関係に基づいたデータ構造を実現し,リアルタイムな意思決定支援を可能にした。
    • 構造化されたBeadフォーマットは,AIネイティブな言語として機能し,効率的な情報伝達を促進する。

    Link: https://arxiv.org/abs/2602.01086

  • 多様体仮説に基づく高速k-means初期値設定法 [cs.DS]目的:k-means問題における典型的なインスタンスのモデル化
    • データクラスタリングは,様々な分野で重要な役割を果たすため,効率的な手法が求められている。
    • 既存の理論的アプローチは,k-meansの最適解に対する仮定に依存しており,現実のデータへの適用が難しい。
    • 現実世界のクラスタリングインスタンスをモデル化する合理的な仮説に基づき,高速な初期値設定法を開発すること。
    • 本研究では,データが内在次元dの低次元多様体の周りに集中するという多様体仮説を提唱した。
    • この仮説に基づき,量子化指数ε=2/dに基づいて予測可能なスケーリング則を持つデータセットの幾何学的性質を特定した。
    • 特定された規則性を活用することで,時間計算量O(nD) + widetilde{O}(ε^{1+ρ}ρ^{-1}k^{1+γ})でO(ρ^{-2} log k)近似解を提供する高速初期値設定法Qkmeansを設計した。

    Link: https://arxiv.org/abs/2602.01104

  • LLMを用いたプログラム編集の合成 [cs.SE, cs.AI, cs.LG]目的:プログラムAPI移行の自動化
    • ソフトウェア開発において,ライブラリ移行は頻繁に発生し,その品質が重要である。
    • 既存の移行ツールは,事例データに依存しており,データが少ない場合に困難が生じる。
    • LLMから移行事例を抽出し,汎用的な変換スクリプトを生成することで,この問題を解決する。
    • LLMから移行事例を抽出し,PolyglotPiranhaで再利用可能な変換スクリプトを生成する。
    • この手法は,既存の移行データや手動による作業を必要とせずに,移行ロジックを構造化する。
    • Pythonライブラリを用いた実験により,実世界のコードベースに適用可能なスクリプトが生成されることが示された。

    Link: https://arxiv.org/abs/2602.01107

  • 高い非線形複雑性を持つ周期的な二値列の構造と列挙 [cs.IT, math.IT]目的:非線形複雑性が高い周期的な二値列の構造と個数の決定
    • 暗号技術や擬似乱数生成において,列のランダム性は重要な性質である。
    • 非線形複雑性の評価は計算量が多く,効率的な列挙方法が課題であった。
    • 非線形複雑性が高い周期列の構造を明確化し,正確な個数を算出すること。
    • 非線形複雑性が3n/4以上のn周期二値列の構造が特徴づけられた。
    • その構造に基づき,そのような周期列の正確な個数を求める公式が導出された。

    Link: https://arxiv.org/abs/2602.01134

  • 潜在的思考連鎖の能力と基本的限界 [cs.AI, cs.IT, cs.LG, math.IT, math.OC]目的:潜在的思考連鎖モデルにおける探索と実行のトレードオフの解明
    • 大規模言語モデルの推論能力向上は,多様な課題解決に不可欠である。
    • 潜在的思考連鎖モデルは,探索と実行において性能の矛盾が見られる。
    • 決定的な確実性が,探索と実行のトレードオフを支配することを明らかにすること。
    • 潜在的思考連鎖モデルにおける探索・実行のトレードオフは,決定的な確実性によって制御されることが理論的に示された。
    • シンボリックインデックスという指標が,このトレードオフの核心的なメカニズムであり,実行の安定性と探索能力に因果関係があることが確立された。
    • カリキュラム学習が理論的に必要であり,直接的な学習は分布の不一致により失敗することが証明された。

    Link: https://arxiv.org/abs/2602.01148

  • 回文/逆相補重複を訂正する符号について [cs.IT, math.IT]目的:重複を訂正するための符号
    • 生体内のDNAストレージなどへの応用が期待される分野であり,データの信頼性が重要である。
    • DNAデータは重複エラーを受けやすく,既存の符号では対応が困難な場合がある。
    • 回文的,逆相補的な重複エラーを訂正可能な効率的な符号を構築すること。
    • 長さ$k$の重複に対し,冗長性を1つ追加する符号を構築し,任意の数の重複を訂正可能であることを示した。
    • 逆相補重複または回文的重複を訂正可能な符号のGilbert-Varshamov限界を導出し,最適な冗長性の上限を明らかにした。
    • 長さ1の逆相補重複を$t$個訂正可能な符号について,符号化・復号の複雑さを考慮した2つの構成を提示した。

    Link: https://arxiv.org/abs/2602.01151

  • 関数体からの擬似乱数列の一種 [cs.RO, cs.IT, math.IT]目的:関数体に基づく擬似乱数列の性質
    • 通信セキュリティにおいて,高品質な擬似乱数列は暗号化や拡散技術の基盤となるため重要である。
    • 既存の擬似乱数列は,線形性や相関といった脆弱性を持ち,セキュリティ上の懸念がある。
    • 関数体を利用することで,より優れた性質を持つ擬似乱数列を構成し,その安全性を高めることを目指す。
    • 本研究では,関数体上の指数和の限界を利用し,擬似乱数列の周期,線形複雑性,線形複雑性プロファイルなどを解析した。
    • 既存の研究を一般化し,$r$-パターン分布や非線形複雑性などの評価を行った。
    • 関数体に基づく擬似乱数列の性能向上に貢献し,より安全な通信システムの構築に繋がる可能性がある。

    Link: https://arxiv.org/abs/2602.01154

  • 自動車におけるエラーパターンルール自動化のためのマルチエージェント因果推論システム [cs.AI, cs.SE]目的:エラーパターンルールの自動生成
    • 自動車の複雑化に伴い,故障診断の効率化と安全性確保が重要課題となっている。
    • エラーパターンルールは専門家による手作業で作成されており,コストとエラーの課題がある。
    • 高次元なDTCイベント系列からエラーパターンルールを自動的に発見し,診断を効率化すること。
    • CAREPは,DTCとエラーパターン間の潜在的な関係を特定し,メタデータや記述情報を統合する。
    • 大規模な自動車データセットにおいて,CAREPは未知のエラーパターンルールを高精度に自動発見した。
    • LLMのみのベースラインと比較して性能が向上し,透明性の高い因果関係の説明を提供した。

    Link: https://arxiv.org/abs/2602.01155

  • ASP-Bench:自然言語から論理プログラムへ [cs.CL, cs.CL, cs.AI, cs.CL, cs.LO]目的:自然言語の問題記述から論理プログラムへの翻訳能力の評価
    • ニューロシンボリックエンジニアリングにおいて,自然言語による仕様を自動的に論理プログラムに変換することは重要な課題である。
    • 自然言語を論理プログラムに変換する際の,問題の複雑さや論理プログラムの機能網羅性が課題となっていた。
    • 自然言語の問題記述のモデリング難易度を多角的に評価し,より信頼性の高い翻訳手法を確立することを目指す。
    • ASP-Benchは,128個の自然言語問題インスタンスと,それぞれに簡単なバリアントと難しいバリアントを含む64個の基本問題を網羅するベンチマークである。
    • ReActフレームワークに基づくエージェントアプローチを用いたテストの結果,ベンチマークは完全に飽和し,ソルバーからのフィードバックを活用した反復的な改善が有効であることが示された。
    • 複数のエージェント実行にわたる分析から,問題のモデリング難易度に影響を与える要因に関する知見が得られた。

    Link: https://arxiv.org/abs/2602.01171

  • 偏ガウス消去法によるORBGRAND遅延の低減 [cs.IT, math.IT]目的:ORBGRANDの符号化遅延低減策
    • 現代通信システムでは,信頼性と低遅延が重要課題である。
    • ORBGRANDは並列化が可能だが,劣悪な通信環境下で高い遅延が発生する。
    • 偏ガウス消去法を用いて,不要な誤りパターン探索を削減し遅延を低減する。
    • 提案手法は,ORBGRANDにおいて50%以上の誤りパターンを削減することを示した。
    • ブロック誤り率は低下せず,計算複雑性を低減することに成功した。
    • これにより,超高信頼・低遅延通信への応用が期待される。

    Link: https://arxiv.org/abs/2602.01174

  • 自己回帰的でありながら修正可能:セキュアなコード生成のためのデコーディング時の修正 [cs.SE, cs.AI]目的:セキュアなコード生成におけるデコーディング時の修正メカニズム
    • 近年のLLMを用いたコード生成技術は,ソフトウェア開発の効率化に大きく貢献している。
    • 既存のコード生成手法は,一度生成したコードを修正することが難しく,誤りや脆弱性の修正に手間がかかる。
    • LLM自身が自身の生成結果を修正することで,より安全で効率的なコード生成を実現することを目指す。
    • Stream of Revisionは,LLMが自身の生成過程を遡り,コードを直接修正する新しいパラダイムを提案する。
    • 特定の行動トークンを用いることで,モデルは外部ツールに依存することなく,内部で修正ループを活性化できる。
    • 実験結果から,Stream of Revisionは脆弱性を大幅に削減し,推論オーバーヘッドは最小限に抑えられることが示された。

    Link: https://arxiv.org/abs/2602.01187

  • AoA BLE CTE計測のための4パラメータKappa分布によるLモーメントに基づくLOS/NLOSチャネル特性評価 [cs.IT, math.IT, math.PR]目的:BLE CTE計測におけるLOS/NLOSチャネル特性の評価
    • BLE技術は,位置情報サービスなど様々な分野で活用が広がっており,その性能向上が求められている。
    • 従来のチャネルモデルでは,電波の多重経路による影響を十分に捉えきれず,AoA推定精度が低下する課題があった。
    • Lモーメント分析とKappa分布を用いることで,より正確なチャネルモデルを構築し,AoA推定精度を向上させることを目指す。
    • 実験により,LOSとNLOSの特性が明確に分離できることが統計的に確認された。
    • NLOS環境では,LOS環境に比べて分布の裾が厚く,歪みが大きいことがLモーメント比図から示された。
    • Lモーメントに基づくKappa分布は,従来のモデルよりもデータへの適合性が高く,クラスタリングによる分離性能も向上した。

    Link: https://arxiv.org/abs/2602.01229

  • 閉鎖型ソーシャルネットワークにおける利益最大化 [cs.CY, cs.SI, cs.DS]目的:閉鎖型ソーシャルネットワークにおける利益最大化
    • ソーシャルネットワークは情報,革新,アイデアの伝播において重要な役割を果たす。
    • 既存の研究では,拡散範囲に制限のある閉鎖型ネットワークの利益最大化は未解決の課題である。
    • 本研究は,限られた拡散範囲を持つ閉鎖型ネットワークにおける,最適なシードノード選択による利益最大化を目指す。
    • 提案手法は,拡散プロセスにおいて各ノードが最大で$\ell$個のリンクを選択する制約下で,予算$B$内のシードノードを選択する。
    • 実験結果から,提案手法が既存手法と比較して高い利益をもたらすことが示された。
    • 本研究で提案する手法は,サンプリングに基づいた近似解と,周辺利益に基づくヒューリスティック解を提供する。

    Link: https://arxiv.org/abs/2602.01232

  • TraceLLM:プロンプトエンジニアリングによる大規模言語モデルの活用と要件トレーサビリティの強化 [cs.SE]目的:要件トレーサビリティの向上
    • システム品質確保には,要件と開発成果物間の関連性の維持が不可欠である。
    • 従来手法は手間とエラーが多く,精度が低いという課題があった。
    • プロンプトエンジニアリングによるトレーサビリティ抽出の精度向上を目指す。
    • TraceLLMは,プロンプトエンジニアリングとデモンストレーション選択による体系的なフレームワークである。
    • 8つの最先端LLMと4つのベンチマークデータセットを用いた評価で,最先端のF2スコアを達成した。
    • トレーサビリティ性能はモデル能力だけでなく,プロンプトエンジニアリングの質に大きく左右されることが示された。

    Link: https://arxiv.org/abs/2602.01253

  • 構成検証:Lean 4における応用数学のベンチマーク [cs.NI, cs.LO]目的:応用数学における構成と検証のワークフローを評価するためのベンチマーク
    • 形式的な数学的推論は,計算の正確性と信頼性を保証する上で重要である。
    • 既存のベンチマークは,命題の論理的検証に偏っており,具体的な解の合成が不足している。
    • 応用数学における解の構成と検証の能力を評価し,その課題を特定すること。
    • 現在の言語モデルは,応用数学における構成的なタスクに苦戦していることが示された。
    • 汎用的な推論モデルが,専門的な定理証明器よりも優れた性能を発揮することが確認された。
    • 証明コーパスでのファインチューニングは,複雑な構成的要求への適合性を損なう「戦術的過学習」を引き起こす可能性がある。

    Link: https://arxiv.org/abs/2602.01291

  • 進捗の実現:非整礎領域における簡約候補と切除除去 [cs.LO]目的:非整礎証明系における切除除去の実現
    • 帰納的・余帰納的推論の自然な枠組みとして,非整礎証明系の重要性が増している。
    • 無限切除除去のもとで,健全性を保つための進捗性条件の維持が技術的な課題である。
    • TaitとGirardの簡約候補技法に基づき,進捗性の維持を直接示す切除除去議論を提供する。
    • 非整礎μMALLに対する2つの切除除去議論を提示した。μMALLは固定点を拡張した線形論理の断片である。
    • 両議論において,進捗性の維持は簡約候補の定義特性から直接導かれる。
    • 特に,2番目の議論は,LeighとAfshariによって開発された内部閉集合の位相的概念に基づいている。

    Link: https://arxiv.org/abs/2602.01299

  • n8nを用いたワークフロー自動化効率の評価:小規模ビジネスケーススタディ [cs.SE]目的:ワークフロー自動化による効率改善
    • 業務効率化は,企業の生産性向上や競争力強化に不可欠である。
    • 小規模ビジネスでは,ソフトウェア開発の専門知識がないため,自動化の導入が困難である。
    • ローコードプラットフォームによる小規模ワークフローの自動化可能性を検証する。
    • n8nを用いた自動化により,リード処理の平均実行時間が185.35秒から1.23秒へと大幅に短縮された。
    • 自動化実行におけるエラー発生率は0%であり,手動実行の5%と比較して信頼性が向上した。
    • ローコード自動化は,小規模ワークフローの効率性,信頼性,運用の一貫性を改善する有効な手段である。

    Link: https://arxiv.org/abs/2602.01311

  • 集合分割アルゴリズムのベンチマーク [cs.DS, cs.DM, cs.SE, math.CO]目的:集合分割のアルゴリズムの性能評価
    • 組合せ最適化など,多様な分野で集合分割は基本的かつ重要な操作である。
    • 集合のサイズが大きくなると,全ての集合分割を効率的に列挙することが困難となる。
    • 実用的な集合分割アルゴリズムの選定基準を提示し,効率的な列挙方法を確立すること。
    • 集合分割の数に対する近似式を提示し,小規模および大規模な集合サイズに対応できることを示した。
    • 複数の集合分割列挙アルゴリズムを比較検討した結果,Djokicらのアルゴリズムが実用的に優れていると結論付けた。
    • ベンチマークテストの結果は,アルゴリズムの選択とパフォーマンス評価に役立つ情報を提供する。

    Link: https://arxiv.org/abs/2602.01350

  • 自同型と微分を持つ歪多項式からのMDS行列 [cs.IT, math.IT]目的:MDS行列の構成
    • 符号理論や暗号理論において,最適拡散性を持つMDS行列は重要な役割を果たす。
    • 既存のMDS行列の構成法では,適用可能なパラメータに制限がある場合がある。
    • 歪多項式環を用いたMDS行列の新しい構成法を確立し,応用範囲を広げる。
    • 歪多項式環における$\delta_{\theta}$-巡回行列の構造的性質を明らかにした。
    • $\delta_{\theta}$-巡回行列がMDS行列となるための必要十分条件を導出した。
    • 準再帰的MDS行列の構成に成功し,既存の構成よりも優れた結果を得た。

    Link: https://arxiv.org/abs/2602.01383

  • 最小カット被覆問題に対する5-近似解析 [cs.DS]目的:最小カット被覆問題におけるWGMVプライマル・デュアルアルゴリズムの近似比解析
    • ネットワーク設計や通信網において,信頼性向上のための重要な問題である。
    • 既存のアルゴリズムでは,近似比が十分に小さく,実用上の課題が残されていた。
    • WGMVアルゴリズムの近似比をより厳密に評価し,性能向上を目指す。
    • 本研究により,WGMVプライマル・デュアルアルゴリズムの近似比が5であることが示された。
    • 対称性と構造的劣モジュール性というより強い概念を用いることで,既存研究よりも改善された。
    • これにより,最小カット被覆問題に対する効率的なアルゴリズム設計に貢献する。

    Link: https://arxiv.org/abs/2602.01462

  • チームベースの自律型ソフトウェアエンジニアリングのためのマルチエージェントシステム:Agyn [cs.AI, cs.SE]目的:チームベースの自律型ソフトウェアエンジニアリングシステムの構築
    • ソフトウェア開発はチームで行われるため,その構造を再現した自律システムの開発が重要である。
    • 既存の自律システムは,課題解決を単一またはパイプライン処理として扱うことが多く,現実のチーム開発とは異なる。
    • チーム構造,方法論,コミュニケーションを再現することで,自律型ソフトウェアエンジニアリングの性能向上を目指す。
    • 本システムは,コーディネーション,調査,実装,レビューといった役割をエージェントに割り当てることで,組織的なプロセスを模倣している。
    • SWE-bench 500において,72.4%のタスクを解決し,単一エージェントのベースラインを上回る性能を示した。
    • 組織設計とエージェントインフラの改善が,モデルの改良と同様に重要である可能性を示唆している。

    Link: https://arxiv.org/abs/2602.01465

  • フルダイバーシティと高い符号ゲインを同時に達成するルートプロトグラフLDPC符号の設計 [cs.IT, math.IT]目的:フルダイバーシティとニアキャパシティ性能を両立するプロトグラフLDPC符号の設計
    • 無線通信において,信頼性の高いデータ伝送は不可欠であり,誤り訂正符号はその重要な役割を担う。
    • 従来の符号設計は,フェージング環境とAWGN環境のいずれかに最適化される傾向があり,両環境で優れた性能を示す符号は少ない。
    • 本研究では,両環境において高い性能を発揮する符号を設計することで,通信システムの信頼性向上を目指す。
    • 提案手法では,Boolean近似に基づくDivE解析により,フルダイバーシティを保証する構造的制約を導出している。
    • 導出された制約に基づき,二ブロックBFCsに特化したプロトグラフテンプレートを提案し,遺伝的アルゴリズムを用いて最適化を行っている。
    • 設計された符号は,ダイバーシティ重視型と容量重視型の設計の中間的な性能を示し,両方のチャネル環境で堅牢な性能を発揮する。

    Link: https://arxiv.org/abs/2602.01555

  • AdNanny:オフライン広告推薦タスク全般に対応する単一の推論LLM [cs.SE]目的:オフライン広告推薦における様々なタスクを統一的に処理する推論型LLM
    • オンライン広告システムでは,LLMの低遅延性が課題であり,オフラインでの活用が求められている。
    • 既存手法ではタスクごとにLLMを個別学習するため,モデルの冗長性や維持コストが高い。
    • 共通の知識と推論パターンを利用し,複数のタスクを単一のモデルで効率的に処理すること。
    • AdNannyは,6710億パラメータのDeepSeek-R1を基盤とし,大規模な学習システムを用いてファインチューニングされている。
    • 構造化された教師データと自然言語によるステップバイステップの説明を組み合わせた推論拡張コーパスを構築した。
    • Bing Adsへの導入により,手動ラベリング作業の削減とオフラインタスクの精度向上が確認された。

    Link: https://arxiv.org/abs/2602.01563

  • AIベースのチャネルデコーダの小さなチャネル摂動に対する脆弱性 [cs.IT, cs.AI, cs.LG, math.IT]目的:AIベースのチャネルデコーダのロバスト性
    • 通信システムにおいて,信頼性の高い情報伝送は不可欠であり,誤り訂正符号は重要な役割を担う。
    • 深層学習を用いた誤り訂正デコーダは性能向上が期待される一方,そのロバスト性については十分な検証がなされていない。
    • チャネル出力分布の変化に対するAIデコーダの脆弱性を評価し,その潜在的なリスクを明らかにすること。
    • 最近のAIデコーダ(ECCTやCrossMPT)は,i.i.d. AWGNチャネル下では優れた性能を示すものの,小さな摂動に対しては著しい性能劣化を示すことが示された。
    • 敵対的摂動はAIデコーダ間で比較的強く転移するが,BPベースのデコーダへの転移は弱い。
    • 普遍的な摂動は,同じノルムのランダム摂動よりも遥かに有害であり,AIデコーダの性能向上にはロバスト性のコストが伴う可能性が示唆された。

    Link: https://arxiv.org/abs/2602.01582

  • スペクトルアラインメントによる普遍誤り訂正符号Transformerのプルーニング [cs.IT, math.IT]目的:普遍誤り訂正符号Transformerの効率的なプルーニング手法
    • 誤り訂正符号は,信頼性の高い通信やデータストレージに不可欠であり,その重要性は増している。
    • Transformerベースのデコーダは高性能だが,計算コストが高く,メモリ消費量が大きいという課題がある。
    • 異なる誤り訂正符号間でプルーニングマスクを共有し,計算量とメモリ使用量を削減することを目指す。
    • 提案手法であるスペクトルアラインメントプルーニング(SAP)は,コード固有のプルーニングに匹敵する性能を達成する。
    • SAPは,カーネルレベルの構造化プルーニングにより,計算コストとモデルのメモリフットプリントを大幅に削減する。
    • 異なるコード間でのプルーニングマスクの再利用と,パラメータ効率的なLoRAによるコード固有の回復を可能にする。

    Link: https://arxiv.org/abs/2602.01602

  • 多層インテリジェントメタサーフェス支援安全通信のための低複雑度マルチエージェント継続学習 [cs.IT, eess.SP, math.IT]目的:多層インテリジェントメタサーフェスを用いた無線通信セキュリティの向上
    • 無線通信のセキュリティは,プライバシー保護や情報保全の観点から極めて重要である。
    • 従来のセキュリティ手法は,計算量が多く,ハードウェアコストが高いという課題があった。
    • 本研究は,低複雑度な手法で無線通信のセキュリティを確保し,実用性を高めることを目指す。
    • 提案手法であるMHACLは,動的な環境下で堅牢な性能を発揮し,安全通信の要求に応える。
    • SIMHACLは,MHACLと同等の加重総秘密率を達成しつつ,計算時間を30%削減することに成功した。
    • シミュレーション結果は,提案手法がミリ秒レベルの反復学習時間を実現し,既存手法を大きく上回ることを示している。

    Link: https://arxiv.org/abs/2602.01653

  • ProjDevBench:エンドツーエンドのプロジェクト開発におけるAIコーディングエージェントのベンチマーク [cs.CL, cs.AI, cs.SE]目的:AIコーディングエージェントのプロジェクト開発能力の評価
    • AIによるソフトウェア開発の自動化は,生産性向上や開発コスト削減に貢献しうる重要な分野である。
    • 既存の評価方法は,個別のバグ修正に焦点を当てており,実際のエンドツーエンド開発能力の評価が遅れている。
    • エンドツーエンドのプロジェクト開発におけるAIエージェントの能力を総合的に評価し,課題を明らかにすることを試みる。
    • ProjDevBenchは,AIエージェントにプロジェクト要件を与え,生成されたリポジトリを評価するベンチマークである。
    • システムアーキテクチャ設計,機能的正確性,反復的なソリューション改善の3つの側面から評価を行う。
    • 評価の結果,エージェントの総合的な受入率は27.38%であり,複雑なシステム設計や最適化において課題が残る。

    Link: https://arxiv.org/abs/2602.01655

  • ゴレイ符号と関連する格子:PAC符号の視点からの復号 [cs.IT, math.IT]目的:ゴレイ符号の復号手法
    • 符号理論は,情報伝送における誤り訂正の基盤であり,信頼性の高い通信を実現する上で重要である。
    • ゴレイ符号の復号は計算量が多く,効率的な復号アルゴリズムが求められている。
    • PAC符号の視点から,ゴレイ符号の効率的な並列リスト復号アルゴリズムを開発し,復号性能を向上させる。
    • 本研究では,ゴレイ符号をPAC符号の視点から復号する手法を提案し,効率的な並列リスト復号アルゴリズムを実現した。
    • 提案手法は,既存手法におけるインデックス置換や符号パンクチャリングを不要とし,近最大尤度性能を達成する。
    • この新しい復号手法を用いることで,リーチ格子やその主要な部分格子などの関連格子も効率的に復号できる。

    Link: https://arxiv.org/abs/2602.01657

  • オンライン逆線形最適化における有限かつ腐敗に強い後悔限界 [cs.LG, cs.DS, stat.ML]目的:時間とともに変化する実行可能集合における最適な行動の観察から,エージェントの隠れた目的ベクトルを推論すること
    • コンテキスト推薦は,多様な意思決定問題に応用可能であり,高い実用性を持つため重要である。
    • 既存研究では,後悔限界が次元数$d$に依存しており,高次元問題での性能が課題となっていた。
    • M-凸実行可能集合下において,$d$の多項式時間で収束する有限の後悔限界を確立することを目指す。
    • M-凸集合において,後悔限界を$O(d\log d)$に抑えることが可能であることを示した。
    • 最適な解の構造的特徴付けと幾何学的体積の議論を組み合わせることで,この結果を得た。
    • 最悪$C$ラウンドにおける敵対的な腐敗フィードバックに対しても,$O((C+1)d\log d)$の後悔限界を導出した。

    Link: https://arxiv.org/abs/2602.01682

  • Phoenix:C/C++ポインタ解析のためのモジュール性と汎用性を備えたフレームワーク [cs.CL, cs.PL]目的:C/C++ポインタ解析フレームワーク
    • C/C++プログラムの安全性と信頼性確保には,正確なポインタ解析が不可欠である。
    • 既存のポインタ解析ツールは分散しており,比較や組み合わせが困難である。
    • ポインタ解析の効率性と精度を向上させ,ツール間の連携を容易にすること。
    • Phoenixは,様々なポインタ解析アルゴリズムを統一的なインターフェースで提供する。
    • SVFとの比較実験で,Phoenixは高速化を実現し,精度においても優位性を示した。
    • Phoenixは,静的解析やファジングツールに利用され,多くのバグ検出に貢献している。

    Link: https://arxiv.org/abs/2602.01720

  • 高帯域グラフ認識のための多項式時間アルゴリズム [cs.DS, cs.DM]目的:高帯域グラフの認識
    • グラフ理論は,ネットワーク分析や最適化問題など,様々な分野で基礎的な役割を担う。
    • グラフの帯域幅問題はNP困難であり,効率的なアルゴリズムが求められていた。
    • 大規模な帯域幅に対して,多項式時間でグラフ認識を可能にすること。
    • 本研究では,十分に大きな帯域幅 $k$ に対して,二部マッチングを用いて $O(n^{n - k + 1})$ 時間でグラフ認識を行うアルゴリズムを開発した。
    • このアルゴリズムは, $k$ または $n - k$ が小さい場合に多項式時間での認識を可能にする。
    • 既存の動的計画法アプローチと比較して,大規模な帯域幅における計算効率を大幅に向上させた。

    Link: https://arxiv.org/abs/2602.01755

  • CodeOCR:コード理解における視覚言語モデルの有効性 [cs.CL, cs.SE]目的:コード理解のための視覚言語モデルの有効性
    • ソフトウェアの規模拡大に伴い,効率的なコード理解が不可欠となっている。
    • 大規模言語モデルは計算コストが高く,大規模コードベースへの適用が課題である。
    • コードを画像として扱うことで,計算効率を向上させる可能性を探る。
    • 視覚言語モデルは,大幅なトークン削減(最大8倍圧縮)によりコードを効果的に理解できることが示された。
    • シンタックスハイライト等の視覚的情報が,コード補完性能の向上に貢献することが確認された。
    • クローン検出のようなタスクは,圧縮によって性能が低下せず,場合によってはテキスト入力よりも優れている。

    Link: https://arxiv.org/abs/2602.01785

  • ハードコア規制とスケジューリングを備えたセルラーネットワークの性能保証 [cs.IT, math.IT]目的:セルラーネットワークにおける性能保証の確立
    • 通信ネットワークにおいて,性能保証は重要な課題であり,特に今後の発展に不可欠である。
    • セルラーネットワークでは,無線リンクレベルの性能を保証するための確実な手法が課題となっている。
    • 基地局配置の規制とスケジューリングが性能に与える影響を評価し,性能保証の最適化を目指す。
    • ハードコア規制下にあるセルラーネットワークにおける総干渉電力の上限を導出した。
    • 基地局のスケジューリングが,常に基地局がアクティブな場合と比較して,より良いリンクレベルのレート保証をもたらす条件を特定した。
    • 特定の性能目標を達成するために必要な空間的規制,スケジューリングの選択,電力消費削減に関する知見を提供した。

    Link: https://arxiv.org/abs/2602.01802

  • レート適応型デジタル意味通信のためのゼロショット知識ベースサイズ変更 [cs.IT, math.IT]目的:知識ベースのサイズ変更によるレート適応手法
    • 無線ネットワークの発展において,効率的な情報伝送が不可欠であり,意味通信はその鍵となる。
    • 従来の知識ベースサイズは固定されており,レート適応には多大な計算資源とストレージが必要となる。
    • 再学習なしで知識ベースを動的に変更し,柔軟なレート適応を実現することを目指す。
    • 提案手法は,既存の知識ベースから即座にサイズ変更可能であり,再学習のコストを大幅に削減する。
    • 再学習で訓練された知識ベースと同等の再構成品質を,はるかに低い計算コストで実現する。
    • 特に低レート環境において,従来の知識ベースの劣化を防ぎ,高いロバスト性を示す。

    Link: https://arxiv.org/abs/2602.01829

  • 展開不変クラスの保存定理:様相論理とグラフニューラルネットワークに対する統一的アプローチ [cs.LO]目的:様相論理およびグラフニューラルネットワークにおける展開不変クラスの保存定理
    • 様相論理とグラフニューラルネットワークは,知識表現やデータ解析において重要な役割を担う。
    • モデルの構造を保存する定理の確立は,論理的推論や表現力の限界を理解する上で不可欠である。
    • 限定的な演算で構造を保存する条件を明確化し,論理とGNNの表現力を特徴づける。
    • 埋め込みに対する保存は,存在的 graded 様相論理における定義可能性と一致する。
    • 単射準同型に対する保存は,存在的 positive graded 様相論理における定義可能性と一致する。
    • 準同型に対する保存は,存在的 positive 様相論理における定義可能性と一致する。単調GNNの表現力は,存在的 positive graded 様相論理で特徴づけられる。

    Link: https://arxiv.org/abs/2602.01856

  • COLT:共有MCTS推論による軽量マルチLLM協調 - モデルコンパイル [cs.LG, cs.AI, cs.PL]目的:モデルコンパイルのための軽量マルチLLM協調フレームワーク
    • AIシステムのコストはモデル提供が大部分を占めるため,スケーラブルなデプロイにはコンパイラ最適化が不可欠である。
    • 単一の巨大LLMは高コストであり,小規模LLM単体では信頼性が低いという課題が存在する。
    • 小規模LLMを中心としたマルチLLM協調推論が,巨大LLMと同等以上の性能を発揮できるか検証する。
    • 本研究では,複数のLLM間で共有する単一のMCTS木構造を用いることで,軽量な協調フレームワークCOLTを提案した。
    • COLTは,LLM間の変換接頭辞の再利用とクロスモデルの価値伝播を可能にし,重い内部推論機構やエージェント機構を回避する。
    • モデル認識型探索方針とコース変更メカニズムにより,探索の偏りを維持しつつ,小規模モデルによる回帰を抑制している。

    Link: https://arxiv.org/abs/2602.01935

  • モバイルアプリの成功におけるCI導入の役割:オープンソースAndroidプロジェクトの経験的研究 [cs.SE]目的:モバイルアプリ成功におけるCI導入の影響
    • モバイルアプリは,迅速かつ信頼性の高い更新を求められているため,開発効率が重要である。
    • CI導入は一般的だが,モバイル開発特有の状況下における効果は十分に解明されていない。
    • 本研究は,モバイルアプリ開発におけるCI導入の影響とパターンを明らかにすることを目的とする。
    • CIを導入しているプロジェクトは,規模が大きく,活動が活発であり,リリース頻度が高いことが示された。
    • CI導入は,金融や生産性といった統合・信頼性が重視されるカテゴリで多く見られた。
    • CI導入は,Google Play Storeでのダウンロード数やレビュー数の増加と関連しており,評価の低下は見られなかった。

    Link: https://arxiv.org/abs/2602.01957

  • LLMを用いた最適化問題の定式化とコード生成のための正準中間表現 [cs.AI, cs.SE]目的:最適化問題の定式化とコード生成に関する研究
    • オペレーションズ・リサーチの分野において,自然言語からの自動モデリングは重要性が増している。
    • 複雑な運用ルールに対応するためには,複合制約と適切なモデリングパラダイムが必要となるが,既存のLLMベースのアプローチは苦戦している。
    • 本研究は,複雑な運用ルールに対応可能な定式化を可能にすることを目的とする。
    • 正準中間表現(CIR)を導入し,LLMが問題記述と最適化モデルの間に明示的に生成するスキーマを定義した。
    • CIRは,制約の原型と候補となるモデリングパラダイムを通じて運用ルールの意味をエンコードすることで,ルールロジックと数学的具現化を分離する。
    • 提案するR2Cフレームワークは,新しいCIR知識ベース上で動作し,問題テキストを解析し,ドメイン知識を検索してCIR実装を合成し,最適化モデルをインスタンス化する。構築したベンチマークにおいて,最先端の精度(47.2%)を達成した。

    Link: https://arxiv.org/abs/2602.02029

  • 情報ボトルネックとベクトル量子化による帯域効率の良いマルチエージェント通信 [cs.RO, cs.AI, cs.IT, cs.LG, cs.MA, math.IT]目的:マルチエージェント環境における帯域効率の良い通信手法
    • ロボット工学等の実世界応用において,エージェント間の協調は重要であり,通信はその鍵となる。
    • 現実のロボットシステムでは通信帯域が限られており,協調性能のボトルネックとなっている。
    • 帯域制約下でタスクに必要な情報のみを選択的に伝達する通信手法を確立すること。
    • 提案手法は,情報ボトルネック理論とベクトル量子化を組み合わせ,通信メッセージを効率的に圧縮・離散化する。
    • 協調タスクにおいて,非通信ベースラインと比較して181.8%の性能向上,帯域使用量は41.4%削減を実現した。
    • 成功率と帯域使用量のトレードオフ分析において,既存手法を上回る優れた性能を示した。

    Link: https://arxiv.org/abs/2602.02035

  • 大規模言語モデルエージェントにおけるツール利用行動の最適化におけるエントロピーの役割の再考 [cs.HC, cs.AI, cs.SE]目的:大規模言語モデルエージェントのツール利用行動の最適化
    • 大規模言語モデルは,数学的推論や多段階質問応答など多様なタスクで高い性能を示すため,その応用が期待されている。
    • 長時間の行動においては,不要なツール呼び出しが増加し,推論の遅延や性能低下を引き起こすことが課題である。
    • エントロピー減少を利用した報酬設計により,効率性と性能の向上を目指す。
    • エントロピー減少と高品質なツール呼び出しとの間に強い正の相関関係が認められた。
    • 提案手法により,ツール呼び出し回数をベースライン平均と比較して72.07%削減することに成功した。
    • また,性能は22.27%向上し,実世界への適応可能性が示唆された。

    Link: https://arxiv.org/abs/2602.02050

  • 関数の近似:最適なサンプリングと複雑性 [math.NA, cs.IT, cs.NA, math.IT]目的:関数の近似または復元
    • 最適回復,機械学習,数値解析など広範な分野で重要な課題である。
    • 限られたデータ量から,どれだけ正確な近似が可能かという情報理論的な限界が不明確であった。
    • 情報理論的な限界に近づくアルゴリズムとサンプリング戦略を提示し,その関係性を明らかにする。
    • 有限個の関数評価に基づく近似・復元の情報理論的限界について議論した。
    • 非線形,適応的,ランダムな測定を含むより広範なサンプリングについても検討した。
    • 情報に基づく複雑性の観点から,異なる設定間の関係性を明らかにした。

    Link: https://arxiv.org/abs/2602.02066

  • AI生成コード検出のための挑戦的なベンチマーク:AICD Bench [cs.LG, cs.SE]目的:AI生成コード検出の評価
    • LLMによるコード生成能力向上に伴い,著作権やセキュリティ等の問題が重要視されている。
    • 既存のデータセットは規模が小さく,現実的な状況での検出性能評価が困難である。
    • 分布の変化や混合コードなど,より現実的な検出タスクに対応できるベンチマークの構築。
    • AICD Benchは,200万例,77モデル,11のモデルファミリー,9つのプログラミング言語を網羅する大規模なベンチマークである。
    • ロバストな二値分類,モデルファミリーの特定,詳細なヒューマン・マシン分類という3つの現実的な検出タスクを導入している。
    • 現状の検出器は,特に分布の変化やハイブリッドコードに対して,実用レベルの性能に達していないことが示された。

    Link: https://arxiv.org/abs/2602.02079

  • ループを閉じる:RPGエンコーダによる汎用リポジトリ表現 [cs.CL, cs.SE]目的:リポジトリの理解と生成における統一的なサイクル
    • ソフトウェア開発におけるリポジトリ理解の重要性が増しており,効率的なツールが求められている。
    • 既存手法はAPIドキュメントや依存グラフに依存し,意味的な深みが欠けている。
    • RPGエンコーダは,リポジトリを意図と実装を結びつける高精度な表現として構築する。
    • RPGエンコーダは,コードをRPGにエンコードし,意味的特徴とコード依存性を統合する。
    • トポロジーを漸進的に進化させ,リポジトリ規模に依存しない効率的なメンテナンスを可能にする。
    • SWE-bench Verifiedで93.7%のAcc@5,SWE-bench Live Liteで既存手法を10%以上上回る性能を達成した。

    Link: https://arxiv.org/abs/2602.02084

  • 高階ベータマッチングの機械的判定不能性 (拡張版) [cs.LO]目的:高階ベータマッチングの判定不能性
    • 関数型言語の型システムやプログラム検証の基礎となる理論的課題である。
    • 高階ベータマッチング問題は,長年未解決の判定不能問題であった。
    • 形式的な証明支援系を用いて,判定不能性の証明を検証することを目指す。
    • 本研究では,文字列書き換えを高階ベータマッチングにエンコードすることで,新たな判定不能性の証明を提示する。
    • 提示されたアプローチは,証明の検証が容易であり,停止性問題からの多対一還元を証明的に確立する。
    • 高階ベータマッチング,ラムダ定義可能性,交差型存在可能性の判定不能性を示す統一的な構成を特定する。

    Link: https://arxiv.org/abs/2602.02091

  • 最大フォン・ノイマンエントロピー原理:理論と機械学習への応用 [cs.LG, cs.IT, math.IT]目的:カーネル行列とカーネル共分散演算子に対する多様性のスペクトル的測度としてのフォン・ノイマンエントロピーの最大化
    • 機械学習における多様性の評価は重要であり,モデルの汎化性能に影響を与える。
    • 既存手法では,部分情報下での解釈や,最少コミットメント推論の明確化が課題であった。
    • フォン・ノイマンエントロピー最大化のゲーム理論的根拠を提示し,情報理論的基盤を確立すること。
    • フォン・ノイマンエントロピーの最大化原理を,GrünwaldとDawidのminimax定式化へ拡張した。
    • これにより,部分情報下での解釈が明確になり,スペクトル領域における最少コミットメント推論の役割が明らかになった。
    • カーネル表現の選択やカーネル行列の補完など,機械学習への応用例を示し,その有効性を実証した。

    Link: https://arxiv.org/abs/2602.02117