arXiv雑要約

プログラム - 2026/02/04 公開

PAC学習可能なオラクルを持つ学習拡張型滑らかな整数計画法 [cs.DS, cs.AI, cs.LG]目的：滑らかな整数計画法における学習拡張アルゴリズム
- 組合せ最適化問題の近似解法において，効率的な手法が求められている。
- 従来の稠密なケースでは近似解法が存在するものの，疎なケースでは困難な場合がある。
- 予測オラクルを用いて線形近似を行うことで，疎なケースへの適用を目指す。
- 予測オラクルを組み込むことで，線形計画法と丸め手続きによる解法が有効となる。
- 本手法は，稠密なケースの近似解法をほぼ稠密なケースに拡張できる。
- オラクルのPAC学習可能性を証明し，多項式個のサンプルで近最適な性能を達成できることを示した。
Link: https://arxiv.org/abs/2602.02505
相互情報正則化VQ-VAEを用いたプリコーディング指向CSIフィードバック設計 [cs.IT, cs.AI, eess.IV, math.IT]目的：大規模MIMOシステムにおける正確なチャネル再構成とプリコーダ設計
- 大規模MIMOシステムにおいて，高精度なチャネル情報は通信性能を大きく左右するため重要である。
- 限られたフィードバック資源内で，CSIの圧縮効率と下りリンクレートのバランスを取ることが課題である。
- 固定長のフィードバックで，変数長ニューラル圧縮と同等の性能を実現し，チャネル状態情報の効率的な利用を目指す。
- 提案手法は，既存の変数長ニューラル圧縮方式と同程度のレートを達成し，固定長のフィードバックで動作する。
- 学習されたコードワードは均一な利用頻度を示し，基盤となるチャネル状態情報と相関のある解釈可能な構造を捉えている。
- 相互情報の下界推定量を正則化項として導入することで，固定されたフィードバック予算下でのコードブックの有効活用を促進している。
Link: https://arxiv.org/abs/2602.02508
BatCoder: バック翻訳による自己教師あり双方向コード-ドキュメント学習 [cs.LG, cs.AI, cs.SE]目的：コードとドキュメントの生成の同時最適化
- コード関連タスクのLLM学習には高品質なコード-ドキュメントペアが不可欠である。
- 高品質なペアの作成コストが高い上に，ニッチな言語では入手が困難である。
- コードのみを用いて学習し，利用可能な学習データを大幅に増加させる。
- BatCoderは，HumanEvalで83.5%，MBPPで81.0%のpass@1を達成し，既存のオープンソースモデルを上回った。
- バック翻訳戦略により，コードからドキュメントを生成し，それを元にコードを再構築する。
- 元のコードと再構築されたコードの間の意味的類似度が，強化学習の報酬として機能する。
Link: https://arxiv.org/abs/2602.02554
MathlibLemma: 数学的フォークロア補題の生成と形式数学のベンチマーク [cs.LO, cs.AI, cs.LG]目的：数学的フォークロア補題の自動発見と形式化
- 形式数学は，数学的推論の厳密性と信頼性を保証する上で重要である。
- Mathlibには多くのフォークロア補題が欠けており，数学者にとって使いにくい。
- LLMを活用して，Mathlibの補題不足を解消し，実用性を高める。
- MathlibLemmaは，LLMベースのマルチエージェントシステムとして，数学的フォークロア補題の発見と形式化を自動化する。
- 生成された補題群の一部はMathlibに統合され，システムの有用性と専門家基準への適合性が確認された。
- 4,028の型チェック済みLean文を含むMathlibLemmaベンチマークを構築し，LLMの役割を消費者から貢献者へと変化させた。
Link: https://arxiv.org/abs/2602.02561
LLMベースの推薦システムにおける不確実性と公平性への意識 [cs.AI, cs.CL, cs.CY, cs.IR, cs.LG, cs.SE]目的：LLMベースの推薦システムにおける不確実性と公平性の評価
- 推薦システムは多様な情報から最適な提案を行うため，ユーザー体験向上に不可欠である。
- LLMは知識が豊富だが，予測の不確実性や潜在的な偏りが信頼性と公平性を損なう恐れがある。
- LLM推薦システムの信頼性と公平性を高めるための評価手法とベンチマークの確立を目指す。
- LLM（Gemini 1.5 Flash）は特定の属性において系統的な不公平性を示すことが定量的に確認された。
- 不確実性（エントロピー）を考慮した評価手法と，性格特性を考慮した公平性ベンチマークを提案した。
- 提示された課題は，より安全で解釈可能なLLM推薦システム開発の基盤となり，さらなる研究を促進する。
Link: https://arxiv.org/abs/2602.02582
憲法に基づく仕様駆動型開発：AI支援コード生成における構築によるセキュリティ確保 [cs.SE, cs.AI, cs.CR]目的：AI支援コード生成におけるセキュリティ確保手法
- ソフトウェア開発の高速化が求められる中，AI支援が不可欠となっている。
- AIによるコード生成は機能優先になりがちで，セキュリティリスクが高まる。
- AI生成コードがセキュリティ要件を満たすよう，開発段階で確保すること。
- 憲法（セキュリティ制約の文書）を仕様層に組み込むことで，AI生成コードのセキュリティを向上。
- 銀行マイクロサービスアプリケーションへの適用で，10個のCWE脆弱性に対処可能。
- 憲法に基づく制約により，セキュリティ欠陥が73%減少し，開発速度は維持。
Link: https://arxiv.org/abs/2602.02584
エージェントによる可視性：Adobe Eコマースの自動アラートトリアージ [cs.SE, cs.AI]目的：アラートトリアージの自動化
- 現代のエンタープライズシステムは複雑化の一途を辿っており，可視性とインシデント対応の重要性が増している。
- 手動アラートトリアージはボトルネックであり，平均復旧時間(MTTR)の短縮を阻害する要因となっている。
- 本研究は，アラートトリアージを自動化することで，MTTRを大幅に短縮することを目的とする。
- 本研究で開発されたエージェントによる可視性フレームワークは，アラート検出時に影響を受けるサービスを特定し，関連ログを分析する。
- 実稼働環境での検証結果から，手動トリアージと比較して，インサイトまでの平均時間が90%削減されたことが示された。
- エージェントAIは，トリアージの遅延を大幅に削減し，解決の精度向上に貢献する。
Link: https://arxiv.org/abs/2602.02585
ストレージシステムの正当性検証：課題，ファジングの限界，そしてAIによる可能性 [cs.SE, cs.AI, cs.CR]目的：ストレージシステムの正当性検証に関する既存技術の整理と課題の明確化
- 現代のコンピューティング基盤において，ストレージシステムは不可欠であり，その信頼性が求められる。
- ストレージシステムの非決定的な並行処理や，長期にわたる状態遷移が原因で，システムの不具合を網羅的に検出することが困難である。
- 従来のテスト手法の限界を克服し，ストレージシステムの信頼性を向上させるための新たなアプローチを模索する。
- ストレージシステムのテストは，対象とする実行特性や障害メカニズムに応じて様々な技術が存在する。
- ファジングは自動テストとして有効だが，ストレージシステムの特性とのミスマッチが存在する。
- 近年進展するAI技術を活用することで，ファジングの効率化や，より高度なテストが可能になる可能性がある。
Link: https://arxiv.org/abs/2602.02614
daVinci-Agency：長期的なエージェントデータを効率的に活用する [cs.LG, cs.AI, cs.SE]目的：長期的なエージェントワークフローにおけるデータ効率性の向上
- 大規模言語モデルの応用範囲拡大のため，長期的なタスク遂行能力が重要視されている。
- 長期的な依存関係や進化のダイナミクスを捉えた学習データの不足が課題となっている。
- 実際のソフトウェア進化の過程に着目し，高品質な学習データを効率的に生成することを目指す。
- プルリクエストのシーケンスを活用することで，複雑なタスクを検証可能な単位に分解し，一貫性を維持する。
- daVinci-Agencyは，継続的なコミット，統一された目的関数，バグ修正の軌跡を通じて学習データを生成する。
- GLM-4.6のファインチューニングにおいて，239サンプルでToolathlonにおいて47%の相対的な改善を達成した。
Link: https://arxiv.org/abs/2602.02619
LLMの知識制限を克服：全般的なカーネルクラッシュ解決ベンチマーク [cs.SE]目的：カーネルファザーによって発見されたシステムクラッシュの修復
- カーネルはOSの中核であり，その安定性はシステム全体の信頼性に不可欠である。
- 既存のLLMベースのクラッシュ解決ベンチマークは静的で，カーネルの進化やLLMの知識制限の影響を受ける。
- 動的に変化するカーネルのバグに対して，公平かつスケーラブルな評価環境を提供する。
- 新たに開発したベンチマークフレームワークLive-kBenchを用いて，534個のカーネルバグを評価した。
- LLMの知識制限以前に修正されたバグに対して，エージェントのパッチ成功率は最大25%向上した。
- クラッシュ解決のフィードバックを組み込むことで，解決率が29%改善された。
Link: https://arxiv.org/abs/2602.02690
AROLA：スケーラブルな自律レースのためのモジュール型階層アーキテクチャ [cs.RO, cs.SE]目的：スケーラブルな自律レースにおけるソフトウェアアーキテクチャ
- 自律レース技術は急速に進歩しており，対応するソフトウェア基盤の進化が求められる。
- 既存のソフトウェアは，断片的でモノリシックな設計が多く，変更や評価が困難である。
- モジュール性と標準化されたインターフェースにより，開発の加速と再現性の向上を目指す。
- AROLAは，ROS 2インターフェースを介して接続された，交換可能な層とコンポーネントで構成されたモジュール型階層アーキテクチャである。
- レースモニターフレームワークは，ラップタイム，軌跡品質，計算負荷をリアルタイムで記録し，標準化されたレース後の分析を生成する軽量システムである。
- シミュレーションとRoboRacerプラットフォームでの検証により，AROLAの有効性が確認された。
Link: https://arxiv.org/abs/2602.02730
プロンプトを超えて：ソフトウェアエンジニアリングにおける高次元LLM最適化のためのドメイン知識戦略の評価 [cs.SE]目的：ソフトウェアエンジニアリングにおける高次元LLM最適化のためのドメイン知識戦略
- LLMはソフトウェア開発の自動化に期待されており，その最適化は生産性向上に不可欠である。
- 高次元問題において，LLMはベイズ法に劣り，ドメイン知識の活用方法が不明確である。
- LLMにドメイン知識を統合することで，高次元最適化における性能を向上させることを目指す。
- 人間とAIによるドメイン知識生成戦略を比較し，4つのアーキテクチャを評価した。
- 次元を考慮した段階的な改良や，統計的探索とRAGを組み合わせたハイブリッド手法が有効であった。
- LLMが生成したウォームスタートの品質は，Chebyshev距離とScott-Knottクラスタリングによって評価された。
Link: https://arxiv.org/abs/2602.02752
光学的受動型視覚圧縮のレート歪み解析 [cs.IT, math.IT]目的：光学的受動型視覚圧縮スキームのレート歪み性能評価
- 自律的な意思決定における遠隔視覚センサーの利用が重要である。帯域幅制約下でのリアルタイムデータ伝送が課題となる。
- ロボットや制御システムでは，システムが不安定になりやすく，より高いサンプリング周波数が求められる場合がある。
- イベントカメラと光学的変換を組み合わせることで，効率的な視覚圧縮を実現し，データ伝送の課題を解決することを目指す。
- 提案する光学的受動型視覚圧縮(OPVC)スキームは，既存のイベントカメラ(SAEC)と比較して，レート歪み性能が優れていることが示された。
- イベントカメラの空間解像度が高くなるほど，OPVCスキームとSAECのレート歪み性能の差は拡大する。
- OPVCスキームは，計算コストを抑えつつ，効率的な動画圧縮を実現する新たなセンシングパラダイムとなり得る。
Link: https://arxiv.org/abs/2602.02768
効率的なコミュニケーションが凸性を説明する [cs.CL, cs.IT, math.IT]目的：意味類型論における効率的なコミュニケーションによる説明の成功要因
- 言語は，単純さと情報量のバランスを取ることで進化してきたと考えられ，その研究は言語学の根幹に関わる
- コミュニケーションの効率性と意味表現の多様性の関係性は未解明であり，説明力に限界がある
- 効率的なコミュニケーションが意味類型論を説明する理由を，情報ボトルネック理論を用いて解明する
- 情報ボトルネック理論における最適性と，凸性の一般化との間に相関関係が認められた。
- コミュニケーションニーズの分布の凸性が，この相関関係を促進する重要な要因であることが示された。
- 効率的なコミュニケーションが意味類型論を説明する要因を特定することで，研究の深化に貢献する。
Link: https://arxiv.org/abs/2602.02821
対偶に基づく古典線形ラムダ計算 [cs.LO]目的：古典多重指数線形論理のための線形ラムダ計算
- 線形論理は，計算機科学や言語学における資源の消費と生成をモデル化する上で重要である。
- 古典線形論理は，直観的線形論理に比べて，推論規則が複雑になり，計算が困難になる。
- 古典線形論理の計算規則を簡素化し，効率的な計算を可能にするラムダ計算を開発すること。
- 対偶を用いた線形モーダストレンス規則の導入により，古典多重指数線形論理を復元できることが示された。
- 対偶置換という新しい概念が定義され，指数を持つ線形ラムダ計算における振る舞いに基づいて多重指数線形論理へと拡張された。
- 提案された計算が線形論理に対して健全かつ完全であり，型付きプログラミング言語としての標準的な性質（主題簡約，一意性，強い正規化）を満たすことが証明された。
Link: https://arxiv.org/abs/2602.02822
包括的なナビゲーションのための要求工学における代理ステークホルダーアプローチ [cs.RO, eess.SY, cs.SY, cs.SE]目的：認知機能に障害のある人々のナビゲーション支援における代理ステークホルダーの戦略
- 移動能力は自立した生活に不可欠であり，社会参加において重要な役割を果たす。
- 既存のナビゲーション技術は，認知機能に障害のある人々の多様なニーズに対応できていない。
- ナビゲーション技術の要求工学に代理ステークホルダーの概念を導入し，包容性を高める。
- 代理ステークホルダーは，認知機能に障害のある人々のナビゲーションを支援するために，多様な戦略を用いていることが明らかになった。
- カスタマイズ性，共同利用，ルーチンベースのナビゲーション支援が重要な設計要素として抽出された。
- 本研究は，ナビゲーション技術の設計において，認知支援の複雑な現実を反映させるための実践的な指針を提供する。
Link: https://arxiv.org/abs/2602.02869
学習を取り入れた形式的推論：契約合成から成果物再利用，形式意味論まで [cs.CL, cs.SE, cs.AI]目的：形式手法と人工知能の融合による，次世代検証システムの実現
- ソフトウェアの信頼性確保は重要であり，形式手法はその核となる技術である。
- 従来の形式手法は，個別検証に偏り，知識の再利用が困難である。
- 過去の検証努力を活かし，将来の検証を加速する仕組みの構築。
- 大規模言語モデルとグラフ表現を組み合わせたハイブリッドフレームワークを提案する。
- これにより，スケーラブルな意味的マッチングと形式的な検証成果物の再利用が可能となる。
- 学習ベースのコンポーネントが意味的指針を提供し，記号的マッチングが形式的な健全性を保証する。
Link: https://arxiv.org/abs/2602.02881
大規模言語モデルによるコード生成の障害対応強化：意思決定フレームワークに関する実証研究 [cs.SE]目的：大規模言語モデルのコード生成における障害対応戦略の有効性評価と，それに基づいた意思決定フレームワークの提案
- ソフトウェア開発の自動化が期待され，生産性向上に貢献する分野である。
- 高度なプロンプト技術を用いても，要件を満たせないケースが存在する。
- 障害の種類に応じた最適な対応策を提示し，開発者の試行錯誤を減らす。
- プログレッシブプロンプトは直接プロンプトよりも高いタスク完了率を示したが，未完了プロジェクトが残存した。
- 自己批判はコードレビュー可能な論理エラーに有効だが，外部サービス連携では効果がなかった。
- 検索拡張生成（RAG）は全ての障害タイプで最も高い完了率と効率を示した。
Link: https://arxiv.org/abs/2602.02896
責めを超えて：知識グラフ検索によるSZZの再考 [cs.SE]目的：バグを引き起こすコミットの特定
- ソフトウェアの欠陥理解と，欠陥予測や自動プログラム修復といった下流タスクに不可欠な研究分野である。
- 既存のSZZベースのアプローチは，git blameに依存するため，修正された行を直接変更したコミットに検索範囲が限定される。
- git blameだけでは解決できないケースに対応し，より広範囲なコミット履歴を探索することで，バグを引き起こすコミットの特定精度を向上させる。
- AgenticSZZは，Temporal Knowledge Graphs (TKG) をソフトウェアの進化分析に適用する最初の試みである。
- 3つのデータセットにおける評価で，AgenticSZZはF1スコア0.48〜0.74を達成し，最先端の手法と比較して最大27%の統計的に有意な改善を示した。
- TKGによる探索範囲の拡大と，LLMエージェントによる知的な選択が，BIC特定における探索・利用のトレードオフを実現していることが確認された。
Link: https://arxiv.org/abs/2602.02934
大規模言語モデルによるテストフレームワーク移行 [cs.SE]目的：ユニットテストからPytestへのテストフレームワーク移行の自動化
- Python開発において，テストは品質保証の重要な要素であり，効率的なテスト手法が求められる。
- 既存のユニットテストをPytestに移行するには，手作業が必要で時間と労力がかかる。
- 大規模言語モデルを活用し，テストフレームワーク移行の自動化による効率化を目指す。
- GPT-4oとClaude Sonnet 4を用いて，様々なプロンプト戦略と温度設定で移行を試みた結果，48.5%の移行が成功した。
- Claude Sonnet 4は保守的な移行（クラスベースのテストの維持など）を，GPT-4oはより積極的な変換（関数ベースのテストへの変更など）を好む傾向が見られた。
- 大規模言語モデルはテスト移行を加速できる可能性があるが，注意が必要である。
Link: https://arxiv.org/abs/2602.02964
バグ再現テストの理解：最初の経験的研究 [cs.SE]目的：バグ再現テストの特性の理解
- ソフトウェアの品質保証において，テストは不可欠であり，バグの早期発見に貢献する。
- バグ再現テストは，デバッグを支援する重要なテストだが，その特性に関する研究は不足している。
- バグ再現テストの特性を明らかにすることで，テストスイートの効率的な構築に繋げる。
- バグ再現テストは，行数，アサーション数，複雑さの点で，他のテストと統計的に有意な差は見られなかった。
- バグ再現テストは，try/exceptブロックや「弱いアサーション」をわずかに多く含む傾向があることが示された。
- バグ再現テストの大多数（95％）は単一のバグを再現するのに対し，少数のテスト（5％）は複数のバグを再現する。
Link: https://arxiv.org/abs/2602.02965
貢献ガイドラインはソフトウェアテストについて何を述べているか [cs.SE]目的：オープンソースプロジェクトの貢献ガイドラインにおけるソフトウェアテストに関する記述の現状
- オープンソース開発において，貢献の品質を維持し，プロジェクトの進化を促進する上で，テストは不可欠である。
- 貢献者がテストを記述することが求められる一方で，具体的なテストに関する指示が不足している場合がある。
- 貢献ガイドラインにおけるテストに関する記述の現状を把握し，改善点を見出す。
- 200件のPythonおよびJavaScriptのオープンソースプロジェクトの貢献ガイドラインを分析した結果，78%が何らかのテストに関するドキュメントを含んでいることがわかった。
- テストドキュメントは主にCONTRIBUTINGファイル(58%)に記載され，外部ドキュメント(24%)やREADMEファイル(8%)にも見られた。
- テストの実行方法に関する記述は一般的(83.5%)であるが，テストの書き方に関するガイダンスは少ない(37%)。ユニットテストは多く取り上げられる一方，統合テスト(20.5%)やE2Eテスト(15.5%)は少ない傾向にある。
Link: https://arxiv.org/abs/2602.02966
階層的モーダルML：構文と完全抽象化 [cs.PL]目的：MetaML様式のメタプログラミング言語における型安全性とプログラム同値性の保証
- プログラムを操作・実行可能なメタプログラミングは，プログラムの自動化や最適化に不可欠である。
- 高階参照の存在下では，自由変数が束縛を脱出し，型安全性を確保することが難しい。
- オープンコードの安全な保存・実行を可能にする型システムと，プログラム同値性の意味論的モデルを構築する。
- 階層的モーダルML (LMML) は，文脈的モーダル型を用いて自由変数を明示的に追跡し，型安全性を保証する初のメタプログラミング言語である。
- LMMLのプログラム同値性を捉える意味論モデルを構築し，初めてMetaML様式の命令型言語に対する完全抽象化結果を得た。
- オペレーショナルゲーム意味論に基づくトレースを用いてモデル化し，call-by-value/call-by-name両方の閉包置換定理を確立した。
Link: https://arxiv.org/abs/2602.03033
ProOPF：プロフェッショナルレベルの電力システム最適化モデリングのためのLLMのベンチマークと改善 [cs.SI, cs.DB, eess.SY, cs.SE, cs.SY]目的：プロフェッショナルレベルの電力システム最適化モデリングのためのLLMのベンチマークと改善
- 再生可能エネルギーの導入増加により，電力系統運用における不確実性が増大しており，高度な専門知識が求められる。
- 既存のLLMデータセットやベンチマークは，電力システム特有の厳密な評価に乏しい。
- プロフェッショナルレベルのOPFモデリングにおけるLLMの性能を評価し，改善することを目指す。
- ProOPF-DとProOPF-Bという，プロフェッショナルレベルのOPFモデリングのためのデータセットとベンチマークを新たに開発した。
- ProOPF-Dは，自然言語による要求とOPFパラメータ調整・構造拡張を組み合わせた12,000件のインスタンスを含む。
- ProOPF-Bは，正解コード付きの専門家による注釈付きテストケース121件を提供し，様々なモデリング手法での評価を可能にする。
Link: https://arxiv.org/abs/2602.03070
定義論理における弱い層状化について [cs.LO]目的：定義論理における層状化条件の緩和
- 定義論理は，推論規則で定義される判断を符号化し推論するための論理体系である。
- 従来の層状化条件は，論理関係の定義など，一部の定義を制限していた。
- 層状化条件を緩和し，より広範な定義を可能にすることを目指す。
- 本研究により，緩和された層状化条件が総称量化と一般的な帰納法と整合性があることが示された。
- これにより，Abella証明支援系における定義の拡張が正当化される可能性が開かれた。
- Tiuの研究を拡張し，より強力な論理体系における緩和された層状化条件の適用範囲を広げた。
Link: https://arxiv.org/abs/2602.03072
ストラングラー対応符号化多項式集約 [cs.IT, math.IT]目的：分散コンピューティングシステムにおけるストラングラーへの対応策
- 分散コンピューティングの効率化は，大規模データ処理において不可欠である。
- 従来の符号化多項式集約スキームは，処理速度の遅いストラングラーに弱い。
- ストラングラーが存在する環境下での，効率的かつ正確な集約を可能にする。
- 本研究では，事前にストラングラーパターンが分かっている場合に，従来の多項式符号よりも少ない応答数で正確な回復が可能となることを示した。
- 正確な回復の実現可能性は，非ストラングラーパターンの共通部分の構造によって特徴付けられる。
- 共通部分のサイズが特定の閾値を超えると，符号化多項式集約スキームの構築が可能となる。
Link: https://arxiv.org/abs/2602.03074
ソフトウェア工学研究における多様性の維持 [cs.SI, cs.SI, cs.CE, cs.SE]目的：ソフトウェア工学研究の組織における多様性の維持
- ソフトウェア工学は学際的な分野であり，その発展には多様な研究アプローチが不可欠である。
- 近年，資金提供型研究モデルが優勢となり，多様性が脅かされている。
- ソフトウェア工学研究の多様性を維持し，学際性を損なわないことを目指す。
- ソフトウェア工学の発展には，資金提供型と実践型の研究モデルという多様性が歴史的に重要であった。
- しかし，資金提供型モデルが支配的になりつつあり，その多様性が脅かされている現状が示されている。
- 研究コミュニティに対し，ソフトウェア工学研究の多様性を維持することの重要性を訴えている。
Link: https://arxiv.org/abs/2602.03093
インテリジェントなフロントエンドパーソナライゼーション：AI駆動のUI適応 [cs.CL, cs.RO, cs.HC, cs.AI, cs.SE]目的：AI駆動によるフロントエンドパーソナライゼーション戦略
- ユーザ体験の向上は，ウェブサービスの競争力を高める上で不可欠である。
- 従来のパーソナライゼーションは静的であり，ユーザ行動の多様性を捉えきれない。
- ユーザ行動予測に基づいた動的なUI適応によるパーソナライゼーションの実現。
- ユーザの行動経路予測に基づく動的レイアウト適応戦略を提案した。
- 強化学習を用いたコンテンツ優先度付けによるパーソナライゼーションを確立した。
- AI駆動型とルールベースのパーソナライゼーションの比較分析を行った。
Link: https://arxiv.org/abs/2602.03154
思考連鎖によるユニットテスト生成のためのファイルレベルデータ合成：自己デバッグを介して [cs.SE]目的：ユニットテスト生成のための高品質な学習データセットの構築
- ソフトウェア品質保証において，自動ユニットテスト生成は不可欠である。
- 既存手法では，意味のあるアサーションと信頼性の高い思考連鎖の説明を持つ人間レベルのテストを生成することが難しい。
- 開発者の思考連鎖データが不足している問題を，自己デバッグによるデータ蒸留で解決する。
- 提案手法により，74,518件の高品質な<関数の焦点，テスト，思考連鎖>事例を含むデータセットを構築した。
- 構築したデータセットを用いたファインチューニングにより，テストアサーションの合格率が36.17%に達した。
- また，ブランチカバレッジが43.90%，ミューテーションスコアが88.66%となり，既存の商用モデルを上回る成果が得られた。
Link: https://arxiv.org/abs/2602.03181
効果ハンドラに対する完全な圏論的意味論 [eess.SY, cs.SY, cs.LO]目的：効果ハンドラに対する圏論的モデルの健全性と完全性の確立
- プログラミング言語の圏論的意味論において，健全性と完全性は基礎的な性質である。
- 代数的効果とハンドラを持つ言語に対する完全性の結果は未確立であった。
- 効果ハンドラに対する圏論的モデルの正確な特徴づけを行うことで，完全性を解決する。
- この研究により，既存の自由モノイドモデルに加えて，CPS意味論も効果ハンドラの有効なモデルとして捉えられることが示された。
- 効果ハンドリング構成要素に対する特定の等式理論に関して，健全性と完全性の結果が確立された。
Link: https://arxiv.org/abs/2602.03275
会話型AIシステムの多層的テスト [cs.SE]目的：会話型AIシステムのテスト手法
- AI技術の発展に伴い，人間との自然な対話を実現する会話型AIの重要性が増している。
- 既存のテスト手法は，会話の特性やAIコンポーネントの振る舞いに対応しきれていない。
- 会話型AIシステムの各要素を多層的に検証し，テストの効率化と精度向上を目指す。
- 本研究では，言語とAIコンポーネントの連携から，個々の会話エージェント，さらにはマルチエージェント実装まで，様々なレベルでのテスト手法を検討する。
- 会話型AIシステムを構成する要素の検証に焦点を当て，既存のテスト手法の限界を克服する。
Link: https://arxiv.org/abs/2602.03311
材料設計における標的指向型適応サンプリングのための情報理論的マルチモデル融合 [cs.CL, cs.LG, cond-mat.mtrl-sci, cs.IT, math.IT]目的：標的指向型適応サンプリングのための情報理論的フレームワーク
- 材料設計において，実験や高精度シミュレーションはコストがかかるため，効率的な探索が重要である。
- 限られた評価予算内で信頼性の高い進捗を確保することが困難であり，高次元空間での探索が課題である。
- 標的関連の方向へ探索を集中させ，サンプル効率と信頼性を向上させることを目指す。
- 本手法は，最適化を軌跡発見として捉え，低エントロピーな情報状態を維持・精緻化することで，標的関連方向への探索を効率化する。
- 異質なサロゲート貯留庫を用いた適応ブートストラップ蒸留や，構造を考慮した候補多様体解析とカルマンフィルターに触発されたマルチモデル融合を組み合わせる。
- 14の材料設計タスクで，データセット特有の調整なしに，サンプル効率と信頼性の向上が確認された。
Link: https://arxiv.org/abs/2602.03319
Vigemers：XORに基づくミニマイザーを共有するk-merの数について [cs.CY, cs.DM, cs.DS, math.CO]目的：k-merのミニマイザーを共有する数の計算方法
- バイオインフォマティクスにおいて，k-merの効率的な処理は，配列データの解析に不可欠である。
- 既存のミニマイザー法では，得られる分割の品質に関する理論的根拠が不足していた。
- XORハッシュ関数を用いた分割の理論的性質を解明し，よりバランスの取れた分割を可能にすること。
- XORハッシュ関数を用いたk-merのミニマイザー数を効率的に計算する組み合わせ方程式を提案した。
- 提案手法は，動的計画法によりO(km^2)の時間，O(km)の空間で計算可能である。
- この研究は，配列データの効率的な分割と解析に貢献し，バイオインフォマティクスの発展に繋がる。
Link: https://arxiv.org/abs/2602.03337
ランク1母体を含む極端線を持つポリマトロイド領域の二次元面上のエントロピー関数 [cs.IT, math.IT]目的：ポリマトロイド領域の二次元面上のエントロピー関数の特徴づけ
- 情報理論において，エントロピー関数の特徴づけは基本的な重要性を持つ。
- エントロピー関数の制約条件と構造は十分に理解されていない。
- ランク1母体を含む特定の二次元面上のエントロピー関数を分類し明確化する。
- n次ポリマトロイド領域の二次元面を，もう一つの極端線に含まれる母体によって4つのタイプに分類した。
- これにより，特定のポリマトロイド領域におけるエントロピー関数の構造に関する理解が深まる。
Link: https://arxiv.org/abs/2602.03363
実践における精度：産業界の期待に基づいた知識誘導型コード要約 [cs.CL, cs.RO, cs.SE, cs.AI]目的：産業界の期待に沿ったコード要約の生成
- コード理解の効率化と，保守・共同開発コストの削減は，ソフトウェア開発において不可欠である。
- 既存のコード要約手法は，開発者の期待するドキュメントの質を満たしていない場合がある。
- 開発者の期待に応え，実用的なコード要約を生成することを目指す。
- 提案手法ExpSumは，HarmonyOSプロジェクトにおいて，BLEU-4スコアで最大26.71%，ROUGE-Lスコアで最大20.10%の改善を達成した。
- ExpSumは，関数メタデータの抽象化，ドメイン知識の活用，制約付きプロンプティングにより，開発者の期待に沿った構造化された要約を生成する。
- 他のプロジェクトにおけるLLM評価でも，ExpSum生成の要約が開発者の期待により合致することが示された。
Link: https://arxiv.org/abs/2602.03400
普遍コストス行列：コストス配列構成の包括的フレームワークに向けて [cs.RO, cs.IT, math.CO, math.IT]目的：コストス配列の解析と新たな発見のための統一的フレームワーク
- レーダー，無線通信等に応用され，信号処理における性能向上に不可欠である。
- コストス配列の設計は複雑であり，効率的な構成方法が課題となっていた。
- 普遍コストス行列と周波数行列を活用し，コストス配列の生成を加速させる。
- 普遍コストス行列（UCM）と普遍コストス周波数行列（UCFM）の構造的特徴を調査した。
- UCMとUCFMを統合したフレームワークを提案し，AI支援による配列探索への道を開いた。
- UCFMからのUCM再構成に基づく探索法により，探索速度が大幅に向上した。
Link: https://arxiv.org/abs/2602.03407
SWE-Master: ポストトレーニングによるソフトウェアエンジニアリングエージェントの潜在能力の解放 [cs.SE, cs.CL]目的：ソフトウェアエンジニアリングエージェント構築のためのポストトレーニングフレームワーク
- ソフトウェア開発の自動化は，生産性向上やコスト削減に不可欠である。
- 既存のオープンソースエージェントは，複雑なソフトウェア開発タスクにおいて性能が十分でない。
- ポストトレーニングを通じて，既存モデルのソフトウェア開発能力を最大限に引き出す。
- SWE-Masterは，教師データ生成，SFT，強化学習，推論フレームワークを体系的に最適化する。
- Qwen2.5-Coder-32Bを用いた評価において，既存のオープンソースベースラインを大幅に上回る61.4%の解決率を達成した。
- テスト時スケーリング(TTS)を導入することで，70.8%という高い性能が確認された。
Link: https://arxiv.org/abs/2602.03411
Docker環境なしでのソフトウェアエンジニアリングエージェントの構築：SWE-World [cs.IR, cs.CL, cs.RO, cs.SE, cs.CL]目的：ソフトウェアエンジニアリングエージェントの学習と評価のためのDockerフリーなフレームワーク
- ソフトウェア開発の自動化は，生産性向上や人的資源の効率化に不可欠である。
- 従来のソフトウェアエージェントはDocker環境に依存し，セットアップや維持にコストがかかる。
- Docker環境に依存しないことで，エージェントの学習とスケーラビリティを向上させる。
- SWE-Worldは，物理的な実行環境の代わりに学習された代替モデルを使用する。
- SWE-Worldは，Qwen2.5-Coder-32Bの性能をDockerフリーなSFTで6.2%から52.0%に向上させた。
- さらに，DockerフリーなRLとTTSを組み合わせることで，性能は68.2%に達した。
Link: https://arxiv.org/abs/2602.03419
ノイズのあるチャネルと非シグナリング相関を通じたネットワーク oblivious transfer の (不)可能性について [cs.IT, cs.CR, math.IT]目的：ネットワーク oblivious transfer の限界
- 情報セキュリティにおいて，秘密情報の安全な伝送は重要な課題である。
- 現実の通信チャネルにはノイズが伴い，情報漏洩のリスクがある。
- ノイズのあるチャネルと非シグナリング相関下での oblivious transfer の限界を明らかにすること。
- 本研究により，完全な oblivious transfer は不可能であることが示された。
- リソースの繰り返し使用は，受信者によるメッセージ識別能力を増大させ，無視できる程度の情報漏洩も達成できない。
- 受信者自身のプライバシーは，普遍的な不可能性の制約を受けない。
Link: https://arxiv.org/abs/2602.03421
高さ制限のある木に対する最大/閉頻出木マイニングの複雑性について [cs.RO, cs.IR, eess.SY, cs.SY, cs.RO, cs.DS]目的：最大/閉頻出木の列挙
- データマイニングにおける古典的かつ重要な課題であり，実用的なアルゴリズムが多数開発されている。
- 木の高さを制限した場合の計算複雑性が不明であり，高さ60以上の場合に困難になることが知られている。
- 木の種類や制約条件を考慮し，高さ制限における計算複雑性を明らかにすることで，この課題を解決する。
- 順序付き木および順序なし木，最大木と閉木といった様々な設定において，計算複雑性の結果を得た。
- 木の高さを制限することで，以前よりも低い複雑さで頻出木マイニングが可能となる場合があることが示された。
- この研究により，現実的な仮定の下での頻出木マイニング問題の複雑さに対する理解が深まった。
Link: https://arxiv.org/abs/2602.03436
ブロックチェーン検証と構築におけるマルチコア並列性の活用 [cs.CL, cs.DC, cs.DS]目的：ブロックチェーン検証と構築におけるマルチコア並列性の最適化
- ブロックチェーン技術は，分散型システムの基盤として重要性が増している。
- ブロックチェーンの処理速度は，スケーラビリティのボトルネックとなっている。
- マルチコア並列性を活用し，ブロック処理時間を短縮することを目指す。
- 本研究では，ブロックの検証と構築において，マルチコア並列性を活用するための最適化問題を定式化し，効率的なヒューリスティック手法を提案した。
- 提案手法は，トランザクションの競合，順序，および容量制約を考慮した混合整数計画法(MILP)に基づいている。
- Ethereumのメインネットデータを用いた実験により，提案手法の有効性と，最適性と実行時間のトレードオフを定量的に評価した。
Link: https://arxiv.org/abs/2602.03444
RAL-Bench：アプリケーションレベルの機能的正確性と非機能的品質属性のベンチマーク [cs.SE]目的：アプリケーションレベルのコード生成における機能的正確性と非機能的品質属性の評価
- 近年，コード生成技術が発展しており，ソフトウェア開発の効率化が期待されている。
- 既存のベンチマークは，アプリケーションレベルでの機能性と品質の評価が不十分である。
- 本研究は，アプリケーションレベルのコード生成におけるLLMの性能評価を可能にするベンチマークの提供を目指す。
- RAL-Benchは，高品質な参照プロジェクトから要件を抽出し，機能・非機能テストを構築する。
- 16種類のLLMを評価した結果，機能的正確性がボトルネックであり，45%を超える機能テスト合格率は見られなかった。
- 非機能的品質はISO/IEC 25010に基づき，AHPを用いて評価される。
Link: https://arxiv.org/abs/2602.03462
コードの行間を読む：セキュリティ分析における自己申告技術的負債の利用について [cs.CR, cs.HC, cs.SE]目的：セキュリティ関連の自己申告技術的負債と静的解析ツールによる出力の相互補完性
- ソフトウェアの安全性確保は重要であり，脆弱性の早期発見が不可欠である。
- 静的解析ツールは誤検知が多く，対応可能な脆弱性クラスが限定的である。
- 自己申告技術的負債に着目し，静的解析ツールの限界を補完する手法を確立する。
- 静的解析ツールは，セキュリティ関連の自己申告技術的負債の135件のうち114件を検出した。
- 自己申告技術的負債のコメントからは33種類のCWEタイプが確認され，そのうち6つは静的解析ツールが苦手とするカテゴリと一致した。
- セキュリティ専門家の調査では，静的解析ツールの出力と自己申告技術的負債の洞察を組み合わせて脆弱性の影響と根本原因を理解する事例が多数報告された。
Link: https://arxiv.org/abs/2602.03470
生成的復元：分布の不一致に対する最適な損失圧縮復号 [cs.IT, cs.AI, cs.LG, math.IT]目的：分布の不一致を考慮した損失圧縮における最適な復号戦略
- 通信システムにおいて，効率的なデータ伝送は不可欠であり，圧縮技術はその重要な役割を担う。
- 固定エンコーダを用いる場合，エンコーダと復号器で分布が異なる場合に性能が低下する。
- 分布の不一致下においても，最適な性能を発揮する復号戦略を確立すること。
- 本研究で提案する生成的復元は，従来のセントロイド則を厳密に上回り，高い性能を示す。
- ノイズチャネル上での伝送においても，ロバストな復号則を導出し，標準的な分離アーキテクチャの非効率性を定量化する。
- タスク指向の復号においても，最適な戦略が条件付き平均推定から最大事後確率(MAP)検出へと変化することを示す。
Link: https://arxiv.org/abs/2602.03505
ZORフィルタ：ヒューズフィルタより高速かつ小型 [cs.DS]目的：高速近似メンバーシップクエリの実現
- ストレージ，分析，ネットワーク等で活用され，効率的なデータ管理が求められている。
- 既存手法では，決定的な構築が困難な場合があり，信頼性確保が課題となっている。
- 決定的な構築を保証しつつ，高速なクエリ性能を維持することを目標とする。
- ZORフィルタは，決定的な構築が可能でありながら，XOR/ヒューズフィルタと同等のクエリメカニズムを維持する。
- ZORフィルタは，情報理論的な下限にほぼ近いオーバーヘッドで動作し，ヒューズフィルタと同等のクエリ性能を示す。
- 負のクエリにおいて補助チェックによるコスト増が発生するが，放棄されるキーの割合は低い。
Link: https://arxiv.org/abs/2602.03525
ロボットソフトウェアモデルに対する保証事例のための形式的証拠生成 [cs.SE, cs.FL, cs.LO, cs.RO]目的：ロボットソフトウェアの保証事例における形式的証拠の生成
- ロボット技術は安全性が求められる分野で普及しており，その安全性確保は重要である。
- 保証事例の証拠生成は手作業が多く，誤りやすく，システム変更時に一貫性を保つのが困難である。
- 形式検証を組み込むことで，保証事例の証拠を体系的に生成し，効率化を目指す。
- 本研究では，自然言語要求から形式的アサーションを自動的に導出し，複数の形式検証ツールを連携させる。
- RoboChartを用いてモデル検査と定理証明を組み合わせ，形式的証拠の生成を保証事例のワークフローに統合する。
- ケーススタディの結果，提案手法が有効であることが示された。
Link: https://arxiv.org/abs/2602.03550
大規模産業用データベース管理システムにおける不安定なテスト：SAP HANAの修正済み問題報告に関する経験的調査 [cs.SE]目的：不安定なテストの根本原因カテゴリの分類
- ソフトウェア品質確保において，テストの信頼性は極めて重要である。自動化された変更評価の妨げとなる不安定なテストの理解が求められる。
- 不安定なテストの原因は多岐に渡り，手動でのラベル付けは時間と労力を要する。
- 大規模データベース管理システムであるSAP HANAにおける不安定なテストの主要な原因を特定すること。
- SAP HANAのテストにおいて，最も一般的な不安定性の原因は並行性関連の問題であり，問題報告の23%（559件中130件）を占めた。
- テストの種類によって異なる不安定性の課題が存在することが示唆された。
- 今後の不安定性軽減研究において，提案手法の様々なテストタイプへの一般化可能性を評価することが推奨される。
Link: https://arxiv.org/abs/2602.03556
関数からクラスへのテスト駆動型コード生成のスケーリング：実証研究 [cs.SE]目的：関数レベルからクラスレベルへのテスト駆動型コード生成のスケーリング
- 大規模言語モデルのコード生成において，テストは実行可能な仕様として重要である
- 既存研究は関数レベルに限定されており，クラスレベルの複雑な依存関係に対応できていない
- クラスレベルのコード生成における信頼性向上を目指す
- 提案手法は，クラス内のメソッド依存関係を分析し，実行可能な生成スケジュールを導出する。
- 8つのLLMを用いた実験により，クラスレベルの正答率が12～26ポイント向上することが示された。
- 本研究は，テスト駆動型生成が関数レベルを超えてスケーリング可能であることを実証した。
Link: https://arxiv.org/abs/2602.03557
ベクトル区間の記号的モデル検査 [cs.LO]目的：ペトリネットの印の記号的符号化手法
- ソフトウェアの検証において，モデル検査は強力な手法である。安全性や信頼性確保に不可欠。
- 状態爆発問題が深刻であり，大規模なシステムの検証が困難である。
- ベクトル区間を用いた新たな符号化により，状態爆発問題の緩和を目指す。
- ベクトル区間を用いることで，CTLモデル検査における同型演算が可能になることを形式的に証明した。
- 提案手法は良好な性能特性を持つ正準形を提供し，グローバルモデル検査を効率的に行う。
- MCC 2022の事例を用いた評価で，有望な結果が得られた。
Link: https://arxiv.org/abs/2602.03565
ターゲットデータサイズに対する安全な分散型柔軟性インデックス符号化 [cs.IT, cs.CR, math.IT]目的：分散型システムにおける効率的な情報交換
- 分散システムにおいて，中央サーバーなしでの効率的なデータ共有は重要である。
- 従来の符号化手法は，クライアントの事前情報量や要求が均一であることを仮定している。
- クライアントの事前情報量の不均一性下での効率的な符号化手法を確立すること。
- 提案手法は，クライアントのブロードキャストを調整し，符号化効率を最大化する。
- 各クライアントが共通のターゲットレベルTを達成することを保証する。
- セキュリティ制約のもとで，通信コストを分析し，クライアントがT個のメッセージを確実に受信する。
Link: https://arxiv.org/abs/2602.03579