arXiv雑要約

プログラム - 2026/02/04 公開

  • コードカバレッジがバグ導入に与える影響に関する因果推論 [cs.SE]目的:コードカバレッジとバグ導入との因果関係の定量化
    • ソフトウェア品質保証において,コードカバレッジは重要な指標である。
    • 最適なコードカバレッジ量が不明確であり,研究者や開発者の間で議論がある。
    • 既存研究の相関関係のみでは,交絡因子の影響を排除できない問題を解決する。
    • 大規模なJavaScript/TypeScriptオープンソースプロジェクトの変更データから,コードカバレッジとバグ導入の因果関係を推定した。
    • 因果推論手法であるGeneralized Propensity Score Adjustmentを用いて,交絡因子の影響を調整した。
    • コードカバレッジのレベルに応じたバグ導入リスクの変化や,非線形な関係性を明らかにした。

    Link: https://arxiv.org/abs/2602.03585

  • 制御フローグラフ上の部分制約充足問題に対する効率的なアルゴリズム [cs.CL, cs.CL, cs.PL]目的:制御フローグラフ上の部分制約充足問題の効率的な解法
    • コンパイラ最適化はプログラムの性能向上に不可欠であり,その基盤技術として制約充足問題が重要である。
    • 従来の制約充足問題では,制約を全て満たす解の探索に重点が置かれ,柔軟性に欠ける場合がある。
    • 本研究は,制約違反を許容し,コストを最小化する部分制約充足問題に焦点を当て,実用的な解法を提案する。
    • シリーズパラレルループ(SPL)グラフに対するアルゴリズムを開発し,計算量をO(|G|・|D|^6)とすることで,線形時間での解法を実現した。
    • 本アルゴリズムは,レジスタ割当てやLOSPREといった既存のSPLベース手法を一般化・統合するものである。
    • バンク選択最適化問題に対する実験を行い,既存の最先端手法と比較して4倍の高速化を達成した。

    Link: https://arxiv.org/abs/2602.03588

  • コミットを超えて:AIコーディングアシスタントによる生産性に関する開発者の視点 [cs.SC, cs.SE]目的:AIコーディングアシスタントが開発者の生産性に与える影響の測定方法
    • 開発者の生産性向上は,ソフトウェア開発の効率化に不可欠であり,ビジネスの競争力に直結する。
    • 従来の生産性測定指標は,AIアシスタントの導入によって変化する開発者の働き方を捉えきれていない可能性がある。
    • AIアシスタントの導入が,開発者の短期・長期的な生産性に与える影響を多角的に評価すること。
    • 調査結果から,AIツールの有用性に関する開発者の意見が分かれていることが明らかになった。
    • インタビューからは,生産性の短期・長期的な側面を捉える6つの要因が抽出された。
    • 従来の研究とは異なり,技術的専門性や仕事の所有権といった長期的な指標の重要性が示唆された。

    Link: https://arxiv.org/abs/2602.03593

  • NOMAを活用したバック散乱ネットワークにおける二重モード省電力設計 [cs.IT, math.IT, math.OC]目的:NOMAを用いたバック散乱ネットワークのシステムエネルギー効率の最大化
    • IoTデバイスの急増により,スペクトル効率と省電力性を両立する通信システムが求められている。
    • バック散乱通信は低消費電力だが,高密度な環境下ではスペクトル効率が低下する。
    • NOMAを導入することで,バック散乱通信のエネルギー効率を向上させ,大規模IoT展開を可能とする。
    • 提案手法は,電力状況や回伝条件に応じて時間配分を適応的に調整する。
    • 固定電力やスリープなしのベースラインと比較して,最大8%高いエネルギー効率を達成した。
    • 直交多重アクセス(OMA)に対して最大127%のエネルギー効率向上を示し,拡張性と省電力性を両立した。

    Link: https://arxiv.org/abs/2602.03607

  • CALM:小規模言語モデルベースシステムにおけるQoSを意識したルーティングのための自己適応オーケストレーション手法 [cs.SE]目的:小規模言語モデル群の協調運用による,QoS(品質のサービス)の向上
    • AIシステムは,動的なワークロードやリソース変動に影響を受け,QoSが重要となる。
    • 単一の小規模言語モデルでは,多様な要求や大規模な処理に対応できない場合がある。
    • 複数の小規模言語モデルを動的に組み合わせ,状況に応じた最適なモデル選択を実現する。
    • CALMは,ユーザーのクエリを監視し,小規模言語モデルのQoSを分析することで,最適なモデルを選択する。
    • 実験結果から,CALMは従来のシングルLLMと比較して,レイテンシを約40%,エネルギー消費量を約50%削減できることが示された。
    • ドメイン固有のタスクパフォーマンスを維持しながら,効率的なルーティングとキャッシュ,スケジューリングを実現している。

    Link: https://arxiv.org/abs/2602.03632

  • 最小費用流問題に対する容量スケーリングアルゴリズムの形式的解析 [cs.LO]目的:最小費用流問題に対する容量スケーリングアルゴリズムの正当性
    • ネットワーク最適化は,輸送,物流,通信など,様々な分野で不可欠な技術である。
    • 最小費用流問題の効率的な解法は計算量が大きく,アルゴリズムの検証が困難である。
    • Orlinのアルゴリズムを含む容量スケーリングアルゴリズムの形式的な検証を目指す。
    • Isabelle/HOLを用いて,最小費用流問題を解く実行可能なアルゴリズムの正当性を形式的に証明した。
    • 特にOrlinのアルゴリズムの最悪ケースの実行時間解析を形式的に検証し,実装をグラフアルゴリズムの再利用可能な形式ライブラリに統合した。
    • Orlinのアルゴリズムの適用範囲の制限に対応するため,一般的な最小費用流問題への帰着も検証した。

    Link: https://arxiv.org/abs/2602.03701

  • SWE-Refactor: 現実世界のLLMベースのコードリファクタリングのためのリポジトリレベルのベンチマーク [cs.CL, cs.CL, cs.PF, cs.CL, cs.SE]目的:LLMベースのコードリファクタリングの評価用ベンチマーク
    • ソフトウェア開発の効率化と品質向上のためには,コードの保守性と可読性が重要である。
    • 既存のベンチマークは,リファクタリングのシナリオが限られていたり,現実的なコンテキストが不足していたりする。
    • LLMによるコードリファクタリングの性能を正確に評価するための,より現実的なベンチマークの提供。
    • SWE-Refactorは,18のJavaプロジェクトから抽出された1,099件のリファクタリング事例で構成されている。
    • 評価の結果,複合的なリファクタリングがLLMの主な失敗の原因となっていることが示された。
    • 本ベンチマークと評価結果を公開することで,LLMベースのコードリファクタリング研究の促進に貢献する。

    Link: https://arxiv.org/abs/2602.03712

  • 機械学習を用いた深層学習ライブラリテストの改善 [cs.SE]目的:深層学習ライブラリのテストにおける入力の有効性判定
    • 深層学習ライブラリはMLモデル開発を容易にするが,その複雑さからバグが発生しやすい。
    • API仕様が不正確なため,バグ検出技術は誤検出が多く,効率的なテストが困難である。
    • 機械学習を用いてAPIの制約を学習し,精度の高い入力有効性判定を実現すること。
    • TensorFlowとPyTorchの183個のAPIで評価した結果,学習済み分類器は未知のデータに対しても91%以上の精度を示した。
    • この分類器をACETestに統合したところ,合格率が約29%から約61%に向上した。
    • 機械学習による入力分類は,深層学習ライブラリのテスト規模拡大に貢献する可能性が示唆された。

    Link: https://arxiv.org/abs/2602.03755

  • 分離コンパイルから健全な言語構成へ [cs.PL, cs.SE]目的:プログラミング言語の拡張における属性文法の健全性の検証
    • プログラミング言語開発は,モジュール性と再利用性を高める上で重要であり,言語拡張は不可欠である。
    • 分離コンパイルは複雑性から見過ごされがちだが,再利用性と依存関係システムとの統合を損なう。
    • 属性文法の管理における問題を解決し,コンパイル時のエラー検出を実現することを目指す。
    • 本研究で開発したnlgcheckは,データフロー解析に基づき,Neverlang言語ワークベンチにおける潜在的な実行時エラーをコンパイル時に検出する。
    • nlgcheckは,分離コンパイルを維持しつつ,厳格な静的検証保証を提供することで,柔軟性と堅牢性を両立する。
    • ミューテーションテストの結果,nlgcheckはモジュール性や柔軟性を損なうことなく,効果的に堅牢性を向上させることが示された。

    Link: https://arxiv.org/abs/2602.03777

  • フルスタック・エージェント:開発重視のテストとリポジトリ後翻訳によるエージェントによるフルスタックWebコーディングの強化 [cs.SE, cs.CL, cs.CV]目的:フルスタックWebアプリケーション開発を支援するエージェントシステムの開発
    • LLMを活用したコードエージェントの需要が高まる中,複雑なWebサイト開発の支援が重要である。
    • 既存のエージェントはフロントエンドに偏っており,実質的なバックエンド処理やデータ管理が不十分である。
    • 本研究は,データフロー制御,依存関係管理,バグ特定といった課題を解決し,実用的なフルスタック開発を実現する。
    • 本研究で開発したFullStack-Agentは,フロントエンド,バックエンド,データベースのテストケースにおいて,既存手法をそれぞれ8.7%,38.2%,15.9%上回る性能を示した。
    • FullStack-Learnによる自己改善は,30Bモデルの性能を,各テストケースにおいてそれぞれ9.7%,9.5%,2.8%向上させた。
    • これにより,開発重視のアプローチとリポジトリ後翻訳が,フルスタックWeb開発におけるLLMの有効性を高めることが示された。

    Link: https://arxiv.org/abs/2602.03798

  • オンラインとオフラインRLの架け橋:複数ターンコード生成のための文脈的バンディット学習 [cs.LG, cs.AI, cs.CL, cs.SE]目的:複数ターンコード生成における文脈的バンディット学習手法
    • LLMを実世界タスクに応用する上で,強化学習は重要なアプローチである。
    • オンラインRLは性能が高いが,コストと不安定性が課題となっている。
    • オフラインとオンラインRLの利点を組み合わせ,効率的な学習を目指す。
    • Cobaltは,既存のオンラインRLベースラインをLiveCodeBenchにおいて上回る性能を示した。
    • R1-Distill 8BとQwen3 8BのPass@1スコアを最大9.0と6.2ポイントそれぞれ改善した。
    • LLMの文脈内報酬ハッキング行動を分析し,Cobaltの学習に摂動軌跡を加えることで軽減した。

    Link: https://arxiv.org/abs/2602.03806

  • 多項式時間における完全なネットワーク耐障害性 [cs.DS, cs.NI]目的:ネットワーク耐障害性の達成条件の完全な特徴付け
    • 現代の通信ネットワークにおいて,迅速な障害回復は不可欠であり,そのためのローカルな迂回メカニズムが重要である。
    • 完全な耐障害性の実現可能性は限定的であり,その達成条件についての詳細な理解が不足していた。
    • ネットワーク構造における完全な耐障害性の条件を特定し,効率的な判定アルゴリズムを開発すること。
    • 本研究により,完全な耐障害性が達成可能な条件が完全に明らかになった。
    • 与えられたネットワークインスタンスが完全な耐障害性を満たすか否かを,O(n)時間で判定するアルゴリズムが開発された。
    • 完全な耐障害性を満たす迂回ルールを,O(nm)時間で計算するアルゴリズムも提案された。

    Link: https://arxiv.org/abs/2602.03827

  • VAAに基づくBLE測距におけるToAとDoAの同時推定:位相曖昧性への深層学習アプローチ [eess.SP, cs.AI, cs.IT, math.IT]目的:BLE測距におけるToAとDoAの同時推定
    • BLEデバイスの小型化が進む中,アンテナアレイのコストが課題となっている。
    • BLEの持つ位相曖昧性が,VAAを用いたDoA推定の直接的な適用を妨げている。
    • 位相曖昧性を解決し,BLEを用いた高精度なToA/DoA推定を実現すること。
    • 提案手法は,非均一なVAA環境下で優れた性能を発揮する。
    • 推定精度は,SNR 5dB以上でCramer-Rao下限に近づく。
    • VAAとBLEの二方向CFRを統合したモデルと,深層学習に基づく位相復元フレームワークが有効である。

    Link: https://arxiv.org/abs/2602.02503

  • 多変量ガウス分布間のカルバック・ライブラー発散に対する緩和された三角不等式 [stat.ML, cs.IT, cs.LG, math.IT]目的:多変量ガウス分布間のカルバック・ライブラー発散における緩和された三角不等式の上界
    • カルバック・ライブラー発散は情報理論の基本概念であり,機械学習など広範な分野で活用されている。
    • カルバック・ライブラー発散は距離の公理を満たさないため,理論的な解析に課題が生じることがある。
    • 本研究は,多変量ガウス分布における緩和された三角不等式の上界を厳密に評価することを目的とする。
    • 多変量ガウス分布間のカルバック・ライブラー発散に対する緩和された三角不等式の上界が,$\epsilon_1+\epsilon_2+\sqrt{\epsilon_1\epsilon_2}+o(\epsilon_1)+o(\epsilon_2)$であることが示された。
    • 上界が達成されるための条件についても解析され,具体的な条件が明らかになった。
    • 本研究の結果は,分布外検出や安全な強化学習などの応用分野への展開が期待される。

    Link: https://arxiv.org/abs/2602.02577

  • 意図的意味論のためのベクトル論理 [math.LO, cs.CL, cs.FL, cs.LO]目的:意図的意味論における形式意味論と分布意味論の構造的適合性
    • 言語の意味理解において,形式意味論と分布意味論は重要なアプローチである。
    • 形式意味論と分布意味論は,意味の表現方法が異なり,互換性が課題となっていた。
    • 両アプローチの構造的適合性を示すことで,意図的意味論の新たな枠組みを提示する。
    • クリプキ様式の意図モデルが,ベクトル空間に射入可能であることが証明された。
    • 意味関数は,線形写像に拡張され,合成を保存することが示された。
    • 連続パラメータを持つ非古典論理が,測度論的な一般化によって導出された。

    Link: https://arxiv.org/abs/2602.02940

  • 漸近最適量子普遍的迅速変化検出 [quant-ph, cs.IT, math.IT]目的:量子状態の迅速変化検出における漸近最適性
    • 量子情報処理の安全性や効率に不可欠であり,応用範囲は広い。
    • 未知の事後状態における迅速な変化検出は未解決の問題である。
    • 普遍的な設定下での漸近最適解法を提示し,検出遅延を最小化する。
    • 本研究では,量子相対エントロピーを精密に保存するブロックPOVMを用いる二段階アプローチの漸近最適性が示された。
    • 最初の段階で情報を集め,続くCUSUMアルゴリズムにより未知分布での検出を最適化する。
    • これにより,最悪平均遅延の観点から,量子状態変化の迅速な検出が可能となる。

    Link: https://arxiv.org/abs/2602.02950

  • 認知課題中の情報処理過程の計測:機能的磁気共鳴画像法を用いたアプローチ [q-bio.NC, cs.IT, math.IT]目的:認知課題中の情報処理過程の計測法の確立
    • 認知科学において情報処理は重要だが,脳活動の解釈は限定的である。
    • fMRI研究では,活性化や機能的結合が中心で,情報処理の定量化が困難であった。
    • 課題ベースfMRIから情報処理量を推定し,その測定法を確立すること。
    • 活動的情報貯蔵量(AIS)は,ワーキングメモリ負荷の上昇に伴い,前頭頭頂葉領域で増加した。
    • 伝達エントロピー(TE)は,制御経路における情報フローの強化を示した。
    • 正味相乗性は,冗長性へのグローバルなシフトを示唆した。

    Link: https://arxiv.org/abs/2602.03240

  • 回転不変ノイズを持つ矩形スパイク行列モデルに対する直交近似メッセージ伝達アルゴリズム [math.ST, cs.IT, math.IT, stat.ML, stat.TH]目的:矩形スパイク行列モデルにおける信号推定
    • 高次元データ解析において,スパイク行列モデルは信号抽出の重要な枠組みである。
    • 既存のアルゴリズムは,ノイズ構造によっては最適な性能を発揮できない場合がある。
    • 回転不変ノイズを持つ場合でも,効率的かつ最適な信号推定を可能とする。
    • 提案する直交近似メッセージ伝達(OAMP)アルゴリズムは,高次元におけるアルゴリズムのダイナミクスを正確に記述する厳密な状態進化を確立した。
    • OAMPの最適な変種を導出し,各反復で予測される平均二乗誤差を最小化する。
    • 独立同一分布ガウスノイズの場合,提案アルゴリズムの固定点は標準AMPアルゴリズムと一致し,一般化された回転不変ノイズモデルにおいても最適な性能が期待される。

    Link: https://arxiv.org/abs/2602.03283

  • ニアフィールドセルフリー超大規模MIMOシステムにおける低複雑度分散結合設計 [math.OC, cs.SY, eess.SY, math.OC, cs.SY, eess.SY, eess.SP, cs.IT, math.IT]目的:ニアフィールドセルフリー超大規模MIMOシステムにおける低複雑度分散結合スキームの設計
    • 無線通信容量の増大と通信品質の向上が求められる現代において,MIMO技術は不可欠である。
    • セルフリーMIMOシステムでは,集中処理が必要となり計算複雑性が課題となる。
    • 分散処理による計算量の削減と,それに伴う性能劣化の抑制を目指す。
    • 集中型および分散型処理スキームの上昇スペクトル効率(SE)性能解析フレームワークを構築した。
    • CMMSEおよびLMMSE結合スキームを任意のチャネル推定器に対して導出した。
    • 行列近似法または対称SORアルゴリズムに基づく5つの低複雑度分散結合スキームを提案した。

    Link: https://arxiv.org/abs/2602.03581

  • セルフリーMassive MIMOにおける統計近似を用いた分散ビームフォーミング [eess.SP, cs.IT, math.IT]目的:セルフリーMassive MIMOネットワークにおける分散ビームフォーミング手法
    • 無線通信容量の増大と,より多くのユーザへの対応が求められているため。
    • 集中処理が必要なため,スケーラビリティが課題となっている。
    • 統計近似により分散処理を可能にし,スケーラビリティを向上させる。
    • 提案手法GSLI-MMSEは,安定したLoS条件下で最適な集中MMSEスキームと同等の性能を示す。
    • 各APは,局所的な瞬時情報とグローバル統計情報を用いて分散ビームフォーミングを実施する。
    • 統計近似手法を用いて,他のAPに関連する瞬時項をチャネル統計で近似する。

    Link: https://arxiv.org/abs/2602.03590

  • 狭帯域フルアナログ多アンテナ送信機 [eess.SP, cs.IT, math.IT]目的:狭帯域フルデジタル多アンテナ送信機の機能をエミュレートする,狭帯域フルアナログNアンテナ送信機の提案
    • 無線通信において,アンテナ数増加による通信容量拡大が重要な課題となっている。
    • デジタル処理による多アンテナ送信は消費電力が大きいという課題がある。
    • アナログ回路による低消費電力な多アンテナ送信機の実現を目指す。
    • 提案手法は,受動的干渉プログラマブルネットワークを用いて,単一のRFトーンから任意の複素励起ベクトルを合成する。
    • ネットワークの伝送はユニタリであり,アンテナポート間でRF電力を分散させることができる。
    • N≦16の場合,フルアナログアーキテクチャはフルデジタルアレイと比較してRFフロントエンドの電力消費量を大幅に削減できることが示された。

    Link: https://arxiv.org/abs/2602.03718

  • ブラック・ショールズモデルを超えたデリバティブ価格決定における量子加速 [quant-ph, cs.DS, q-fin.CP, q-fin.MF]目的:エキゾチックなデリバティブの価格決定のための量子アルゴリズムの進歩
    • 金融工学において,デリバティブ価格決定は不可欠であり,その計算効率が重要である。
    • 古典的なモンテカルロ法は実用的だが,高次元問題や高精度な計算において課題がある。
    • より現実的なモデルにおいて量子アルゴリズムの優位性を示し,計算コストを削減することを目指す。
    • コックス・インガソール・ロス(CIR)モデルやヘストンモデルの変種において,量子アルゴリズムによる二次的な加速が確認された。
    • 「ファストフォワーダビリティ」という確率微分方程式の特徴を利用し,既存のフレームワークを拡張した。
    • 一般的なモデル向けに量子ミルシュタインサンプラーを導入し,特定の相関関係を持つ多次元確率過程で二次的な加速を実現した。

    Link: https://arxiv.org/abs/2602.03725

  • ANSエントロピーエンコーダの効率性 [cs.IT, cs.DS, math.IT]目的:ANSエントロピーエンコーダの冗長性に関する最適境界の導出
    • データ圧縮技術において,ANSは算術符号化やハフマン符号化に代わる重要な手法として注目されている。
    • ANSの冗長性(エントロピーとの関係)に関する厳密な漸近的性質は,未だ完全には解明されていなかった。
    • tANS(テーブル化ANS)の冗長性の理論的な上限を導き,Dudaの予想を反証すること。
    • tANSにおける冗長性は,記号数σとビット数rに依存する項を含み,従来のDudaの予想よりも大きいことが示された。
    • 特定の条件下において,標準的なrANSよりも高速に動作する可能性のあるrANSの変種(固定精度rANS)を提案した。
    • 固定精度rANSの冗長性についても理論的な上限を導出し,その性能評価を行った。

    Link: https://arxiv.org/abs/2201.02514

  • ガウス周辺における任意のReLU活性化の無制約学習 [cs.CL, cs.LG, cs.DS, stat.ML]目的:任意のReLU活性化の学習
    • 現代のニューラルネットワークの基礎であり,その学習可能性は重要である。
    • バイアスが任意の場合,多項式時間で学習可能か不明であった。
    • 任意のバイアスに対する定数近似アルゴリズムを開発する。
    • 本研究では,任意のバイアスに対して初めて定数近似を実現する多項式時間統計的クエリ(SQ)アルゴリズムを提案する。
    • 提案アルゴリズムは,最適なReLU活性化による損失にO(OPT) + εの損失を達成し,従来の勾配降下法に基づくアルゴリズムとは異なる。
    • また,多項式時間相関統計的クエリ(CSQ)アルゴリズムでは定数近似が不可能であることを示す。

    Link: https://arxiv.org/abs/2411.14349

  • 言語統合型再帰クエリ [cs.PL]目的:大規模システムの解析における再帰クエリの安全性と性能向上
    • プログラム,ネットワーク等の大規模システム解析において,固定小数点計算が不可欠である。
    • SQLにおける再帰クエリは強力だが,言語の曖昧性から安全性と正確性の検証が困難である。
    • 再帰クエリのエラー(データベースエラー,誤った結果,非終端)を自動的に検出し,安全性を確保する。
    • 埋め込み型再帰クエリから数学的性質を自動的に導出する演算規則を提案した。
    • TyQLの実装により,クエリの移植性と安全性を確保し,SQL文字列と同等の性能を維持した。
    • 再帰的でないSQLクエリと比較して,3桁の速度向上を達成した。

    Link: https://arxiv.org/abs/2504.02443

  • 量子普遍仮説検定へ向けて [cs.IT, math.IT, quant-ph]目的:量子普遍仮説検定の枠組み
    • 仮説検定は,科学研究や意思決定において不可欠な手法である。
    • 従来の普遍仮説検定は,量子状態を考慮したものではなかった。
    • 量子状態を考慮した普遍仮説検定の理論的基盤を確立すること。
    • 提案する検定は,量子状態トモグラフィを用いて未知の状態を再構成する。
    • 量子状態トモグラフィの集中特性を利用し,検定の指数的一貫性を確立した。
    • タイプIIエラー確率は,真の状態と公称状態のトレース距離によって決定される指数関数的に減衰する。

    Link: https://arxiv.org/abs/2504.16299

  • Code2Bench:動的ベンチマーク構築におけるソースと厳密性の拡張 [cs.SE, cs.AI]目的:コード生成LLMの評価に関する課題解決と,評価パラダイムの確立
    • LLMの性能評価は,ソフトウェア開発の自動化において不可欠であり,その信頼性は開発効率に直結する。
    • 既存のベンチマークは問題ソースの汚染やテストの低品質といった問題を抱え,LLMの真の能力を正確に評価できていない。
    • 動的なソースと厳密なテストを組み合わせることで,LLMの性能をより正確かつ包括的に評価することを目指す。
    • CODE2BENCHは,Scope Graph分析と100%のブランチカバレッジを特徴とし,PythonとJavaのベンチマークスイートCODE2BENCH-2509を構築した。
    • 10種類の最先端LLMの評価により,API利用タスクとアルゴリズム合成タスクに明確な性能差があることが示された。
    • 言語エコシステムの特性がモデルの性能に大きく影響することが定量的に明らかになり,既存ベンチマークにおける「正しさの錯覚」を露呈した。

    Link: https://arxiv.org/abs/2508.07180

  • CP-Agent:エージェントを活用した制約プログラミング [cs.AI, cs.CL, cs.LG, cs.SE]目的:制約プログラミング問題解決のためのエージェントワークフローの有効性
    • 制約プログラミングは,組み合わせ最適化問題など,複雑な問題を効率的に解決する強力な手法である。
    • 自然言語から形式的な制約モデルへの変換には,専門知識とモデリングフレームワークの理解が必要となる。
    • 少ない指示で,問題解決能力を持つエージェントによる自動モデリングを目指す。
    • CP-Agentは,ReActフレームワークと持続的なIPythonカーネルを活用したPythonコーディングエージェントである。
    • CP-Benchの101個の制約プログラミング問題に対し,100%の正答率を達成した。
    • 詳細な手順指示よりも,最小限のガイダンスの方が効果的であることが示された。

    Link: https://arxiv.org/abs/2508.07468

  • 分散のパラドックス:AIが多様性を減らし,新規性を高める仕組み [cs.HC, cs.AI, cs.IT, math.IT]目的:AIによる多様性の減少と新規性の向上に関するメカニズムの解明
    • 発見の源泉である人間の表現の多様性は,科学,文化,専門分野において不可欠である。
    • AIの生成能力は革新を加速すると期待される一方,表現の多様性を脅かすという矛盾が存在する。
    • AIによる情報の圧縮と,それに対する人間の受容がどのように相互作用し,創造性に影響を与えるかを明らかにする。
    • AIシステムは統計的最適化を通じて情報分散を圧縮し,ユーザーはその効果を増幅する。
    • 圧縮によって標準化された形式が領域境界を越え,組み換えを促す「パラドックス的架橋」が生じる。
    • 多様性が一時的に減少し,その後,人間の積極的な管理によって再構築されるU字型の時間的ダイナミクスが示唆される。

    Link: https://arxiv.org/abs/2508.19264

  • エントロピーを考慮した分散最適化拡散推論 (EVODiff) [cs.CV, cs.IT, cs.LG, math.IT, math.OC, stat.ML]目的:拡散モデルの推論効率改善
    • 画像生成において高性能な拡散モデルは,計算コストが大きいという課題を抱えている。
    • 拡散モデルの推論速度は遅く,学習時と推論時で性能に差が生じることがある。
    • エントロピーの削減を通して,より効率的な推論を実現し,高品質な画像生成を目指す。
    • 提案手法EVODiffは,最先端の勾配ベースソルバーと比較して,再構成誤差を大幅に低減する。
    • CIFAR-10においては,再構成誤差を最大45.5%削減し,FIDを5.10から2.78に改善する。
    • ImageNet-256では,高品質なサンプル生成に必要な関数評価回数を25%削減する。

    Link: https://arxiv.org/abs/2509.26096

  • 生成AIによるソフトウェア工学プロセスと製品の拡張に関する研究ロードマップ [cs.SE, cs.AI, cs.ET, cs.LG, cs.MA]目的:生成AIを活用したソフトウェア工学の拡張に関するロードマップ
    • ソフトウェア工学は,現代社会における基盤技術であり,その発展は社会全体の効率化と革新に不可欠である。
    • 生成AIの急速な進歩はソフトウェア工学に大きな変化をもたらす一方,その影響範囲と具体的な応用方法が明確になっていない。
    • 生成AIがソフトウェア工学に与える影響を体系的に分析し,将来の研究方向性を示すことで,この分野の発展を促進する。
    • 本研究では,生成AIがソフトウェア工学プロセスと製品を拡張する4つの基本的な形態を特定し,それぞれの研究課題と機会を体系的に整理した。
    • FSE 2025ワークショップの議論,文献調査,専門家からのフィードバックを統合する反復的なプロセスを通じて,透明性と再現性の高いロードマップを構築した。
    • その結果,2030年のソフトウェア工学に関する10個の予測を提示し,この急速に進化する分野における将来の研究を方向付ける基盤を提供した。

    Link: https://arxiv.org/abs/2510.26275

  • Fréchet平均とKarcher準算術平均の尺度 [cs.DC, cs.CG, cs.IT, math.IT]目的:Fréchet平均とKarcher準算術平均に関する尺度
    • 幾何学や統計学において,平均の概念は重要な役割を果たす。特に,多様な距離空間における平均の一般化は,応用範囲が広い。
    • 既存の研究では,Fréchet平均の構成が特定の条件に限定されており,より一般的な構成方法が求められていた。
    • 実数の開区間上の任意の点がFréchet平均として解釈できることを示すことで,平均の概念の拡張を目指す。
    • 本研究では,べき乗平均族を用いて実数の正区間だけでなく,任意の開区間上の点もFréchet平均として表現できることを証明した。
    • ユークリッド線上の2点間の重心を様々な座標系で表現することで,Fréchet平均とKarcher平均の双対性を明らかにした。
    • 高次元における二乗ヘッセ行列量体は,原始座標系における多変量準算術平均と一致し,左側ブレグマン重心と関連することを示した。

    Link: https://arxiv.org/abs/2511.21173

  • 実運用におけるエージェントの計測 [cs.CY, cs.AI, cs.LG, cs.SE]目的:実運用エージェントの成功要因となる技術手法の解明
    • LLMベースのエージェントは様々な産業で実用化が進んでおり,その技術的基盤の理解が不可欠である。
    • 実運用エージェントの導入成功要因に関する体系的な研究が不足している。
    • 実運用エージェントの現状を把握し,今後の研究開発の方向性を示す。
    • 実運用エージェントは,多くの場合,人間介入前のステップ数が10回以下と,シンプルな制御可能な手法で構築されている。
    • オフザシェルフモデルへのプロンプティングに依存する割合が70%と高く,ファインチューニングは少数である。
    • 信頼性(時間経過に伴う一貫した正確な動作)が最大の課題であり,システムレベルでの設計によって対処されている。

    Link: https://arxiv.org/abs/2512.04123

  • AI TAを欺く方法:LLMコード評価におけるアカデミック・ジェイルブレイクの体系的研究 [cs.CE, cs.SE, cs.AI]目的:LLMコード評価におけるアカデミック・ジェイルブレイクの脆弱性とその影響の評価
    • 教育現場でLLMによる自動採点が普及しつつあり,その信頼性確保が重要である。
    • 学生がLLMを欺くための巧妙なプロンプト戦略を用いる可能性があり,公平な評価が損なわれる恐れがある。
    • アカデミック・ジェイルブレイクの手法を明らかにし,LLMベースの評価システムの堅牢性を高める。
    • 20以上のジェイルブレイク戦略をアカデミックな文脈に適用し,新しい攻撃クラス「アカデミック・ジェイルブレイク」を定義した。
    • 25K件の悪意のある学生の提出データセットを構築し,多様な課題と評価基準に対応した。
    • 6つのLLMに対し,ジェイルブレイク攻撃を評価した結果,特に説得的・ロールプレイに基づく攻撃に対して高い脆弱性が確認された(JSR最大97%)。

    Link: https://arxiv.org/abs/2512.10415

  • Cargo Sherlock:ソフトウェア信頼コストのSMTベースチェッカー [cs.LO, cs.SE]目的:ソフトウェアサプライチェーンにおける信頼コストの定量化
    • オープンソースソフトウェアは広く利用されているが,サプライチェーン攻撃のリスクが存在する。
    • 第三者依存ソフトウェアの信頼性を評価する客観的な指標が不足している。
    • ダウンロード数や作成者などの要素を組み込み,信頼性を定量的に評価する手法を確立する。
    • Cargo Sherlockは,Rustライブラリの依存関係を分析し,潜在的なサプライチェーン攻撃を検出できる。
    • 最小信頼問題に基づく形式化により,コードの安全性を証明するための仮定のコストを最小化する。
    • 本手法は,タイポスクワッティングやAIによるメンテナンス不足のクレートに関する既知のインシデントも特定可能である。

    Link: https://arxiv.org/abs/2512.12553

  • カーネルモジュール支援によるバイナリプログラムのホローイング解析フレームワークHALF [cs.CL, cs.SE]目的:バイナリプログラムの解析手法
    • システムセキュリティの根幹をなす分野であり,脆弱性発見やマルウェア解析に不可欠である。
    • 従来の動的解析は,オーバーヘッドやアドレス空間の競合により,正確な解析が困難であった。
    • カーネル支援によるホローイング機構でアドレス空間の競合を解消し,高精度な解析を実現する。
    • HALFは,従来のインプロセス解析ツールが抱えるアドレス空間の競合をカーネルモジュールを活用して解決する。
    • その結果,従来の解析手法と比較して,より高い性能と分析精度を維持することが示された。
    • 特に,既存のフレームワークでは解析が困難な高度なステルス型脅威の解析において有効性が確認された。

    Link: https://arxiv.org/abs/2512.22043

  • GLiSE:ソフトウェア工学における自動グレー文献抽出のためのプロンプト駆動・機械学習搭載ツール [cs.SE, cs.DL]目的:ソフトウェア工学におけるグレー文献の自動抽出
    • ソフトウェア工学研究において,学術的な場では捉えきれない実践や意思決定をグレー文献が含むため重要である。
    • グレー文献は多様な情報源,形式を持ち,再現性のある大規模な統合が困難であるという課題がある。
    • GLiSEは,この課題に対し,検索意図に応じたグレー文献を効率的に抽出・分類することで解決を目指す。
    • GLiSEは,研究トピックのプロンプトからプラットフォーム固有のクエリを生成し,GitHub,Stack Overflow,Google検索から結果を収集する。
    • 埋め込みベースのセマンティック分類器を用いて,検索意図との関連性に基づいて結果をフィルタリング・ランキングする。
    • 再現性を重視した設計であり,設定は全て構成ファイルに基づき,生成されたクエリは全てアクセス可能である。

    Link: https://arxiv.org/abs/2512.23066

  • 符号化多項式集約の基礎的限界 [cs.IT, cs.DC, math.IT]目的:符号化多項式集約における,ストラグラーを考慮した分散計算システムにおける厳密な復元可能性
    • 分散計算において,計算資源の非効率な利用が課題であり,効率的なデータ集約手法が求められている。
    • 従来の多項式符号化計算では,全てのワーカーからの応答が必要であり,ストラグラーの影響を受けやすい。
    • ストラグラーを考慮し,非ストラグラーパターンの交差構造に基づいて,より少ないワーカー応答で厳密な復元を可能にする。
    • ストラグラーを考慮した符号化多項式集約において,従来の多項式符号化計算よりも少ないワーカー応答で厳密な復元が可能であることが示された。
    • 厳密な復元可能性は,非ストラグラーパターンの交差構造によって特徴付けられ,交差サイズの閾値が厳密な復元のための必要十分条件であることが示された。
    • 許容される非ストラグラー集合の数が十分に多い場合,この閾値は必要かつ十分であり,実現可能な符号化多項式集約スキームの構成が提示された。

    Link: https://arxiv.org/abs/2601.10028

  • 合成データからの学習:ERMの限界 [cs.HC, cs.LG, cs.DS, stat.ML]目的:合成データと自然データの混合環境における学習の可能性と限界
    • LLMの普及により合成コンテンツが増加しており,その影響を理解する必要がある。
    • 自然データと合成データが混在する環境下での学習理論は未解明な点が多い。
    • 合成データ混入環境下におけるERMの性能限界を明らかにし,改善策を探る。
    • 平均推定問題において,ERMは真の平均に収束するものの,重み付けアルゴリズムに劣る。
    • PAC学習においては,ERMが真の概念に収束しない場合があることが示された。
    • VCクラスと汚染量に関わらず正しい仮説を学習可能なアルゴリズムが存在する。

    Link: https://arxiv.org/abs/2601.15468

  • LogPrism:効果的なログ圧縮のための構造と変数エンコーディングの統合 [cs.SE]目的:ログ圧縮における構造と変数エンコーディングの統合手法
    • システム運用において,ログデータは問題診断やセキュリティ対策に不可欠である。しかし,そのデータ量は増大の一途を辿っている。
    • 従来のログ圧縮手法は,解析と圧縮を分離しているため,テンプレートと変数の間の深い相関性を活かせず,圧縮効率が限定的である。
    • 本研究は,構造抽出と変数エンコーディングを統合し,より高効率なログ圧縮を実現することを目標とする。
    • LogPrismは,Unified Redundancy Tree (URT) を構築することで,構造と変数の共起パターンを効率的にマイニングする。
    • 16のベンチマークデータセットにおいて,既存手法を平均6.12%~83.34%上回る圧縮率を達成し,最先端の性能を確立した。
    • 単一アーカイブモードでは,圧縮率が273.27%向上し,最良のベースラインを19.39%上回り,処理速度も2.62倍に向上した。

    Link: https://arxiv.org/abs/2601.17482

  • Pythonにおける不透明ポインタデザインパターン:モジュール性,カプセル化,安定性に向けたPythonic PIMPL [cs.SE, cs.PL]目的:Pythonライブラリにおける安定したpublic APIの維持
    • Pythonライブラリは,内部実装の変化に対応しつつ,長期的な保守性を保つ必要があり,その重要性は高い。
    • Pythonでは内部オブジェクトが容易に検査・インポート可能であり,本来publicでない内部構造への依存が生じやすい。
    • public API変更なしに,依存関係の分離,遅延インポート,ランタイムでのバックエンド選択を可能にすること。
    • 本研究では,C++のPIMPLイディオムをPythonに適用し,不透明な委譲によるPythonicパターンを提案した。
    • このパターンは,既存のモジュールレベル間接参照やファサードオブジェクト等のカプセル化手法との関連性を示している。
    • Python標準ライブラリや科学技術計算エコシステムにおけるPIMPLライクな構造の存在も確認された。

    Link: https://arxiv.org/abs/2601.19065

  • SERA:ソフト検証された効率的なリポジトリエージェント [cs.CL, cs.LG, cs.SE]目的:プライベートなコードベースに特化したコーディングエージェントの迅速かつ安価な作成
    • オープンウェイトモデルは,クローズドソースシステムと比較して,コードベースの情報を組み込みやすい利点がある。
    • 従来の学習コストと複雑さにより,その利点が十分に活かされてこなかった。
    • 本研究では,教師ありファインチューニングを用いて,効率的かつ低コストな学習方法を確立し,この問題を解決する。
    • SERAは,完全にオープンソースのモデルでありながら,最先端の結果を達成し,Devstral-Small-2のような高性能なオープンウェイトモデルに匹敵する性能を示す。
    • SERAモデルの作成コストは,強化学習よりも26倍,既存の合成データ法よりも57倍安価である。
    • 本研究で開発したソフト検証生成(SVG)は,単一のリポジトリから数千件の軌跡を生成し,プライベートコードベースへの特化を可能にする。

    Link: https://arxiv.org/abs/2601.20789

  • 論理制約項の部分的書き換えと値解釈 [cs.LO]目的:論理制約項書き換えシステムの解析
    • 組込みデータ構造を持つシステムの形式的検証において,書き換え規則は重要な役割を果たす。
    • 既存の制約項書き換えシステムは,効率性や表現力に課題が残されていた。
    • 部分的制約書き換えの概念を導入し,既存手法との違いを明確にすること。
    • 部分的制約書き換えと最も一般的な制約書き換えの間の直接的な対応関係が確立された。
    • 制約項のインスタンス化による解釈を用いて,それぞれの書き換えの特性が明確化された。
    • 値解釈という新たな概念が導入され,部分的書き換えと最も一般的な書き換えの微妙な違いが浮き彫りになった。

    Link: https://arxiv.org/abs/2601.22191

  • T_{h+1}-フリーエッジ削除問題の困難性と計算可能性 [cs.CL, cs.DS, cs.CC]目的:T(h+1)-フリーエッジ削除問題のパラメータ化された複雑性
    • グラフ理論は,ネットワーク,データベース,最適化など,様々な分野に応用される基盤技術である。
    • NP困難な問題が多く,効率的な解法を見つけることが課題となっている。
    • 困難なパラメータ化において,固定パラメータによる扱いやすさの限界を示す。
    • 解のサイズとフィードバックエッジ集合のサイズにパラメータ化された場合,W[1]-困難であることが証明された。
    • 頂点削除距離,双子被覆数などを用いたパラメータ化においても同様の困難性が示された。
    • クラスター頂点削除や近傍多様性などを用いたパラメータ化では,固定パラメータによる扱いやすさが回復することを示した。

    Link: https://arxiv.org/abs/2602.00644

  • 幻覚は空間最適性の結果である:メンバーシップテストのためのレート歪理論 [cs.HC, cs.LG, cs.AI, cs.CL, cs.DS, cs.IT, math.IT]目的:大規模言語モデルにおける幻覚のメカニズム解明
    • 言語モデルの性能向上に伴い,その信頼性確保が重要課題となっている。
    • 言語モデルは事実に基づかない内容を高い確信度で生成する「幻覚」を起こしやすい。
    • 有限のモデル容量下での情報圧縮の限界が,幻覚発生の根本原因を解明する。
    • 本研究では,幻覚をメンバーシップテスト問題として定式化し,レート歪理論を用いて理論的枠組みを構築した。
    • 理論的考察から,最適な情報圧縮戦略として,一部の誤った情報に高い確信度を与えることが示された。
    • 合成データを用いた実験により,幻覚が損失圧縮の自然な結果として発生することが確認された。

    Link: https://arxiv.org/abs/2602.00906

  • モーフィス:変動するコールグラフを持つマイクロサービスのためのSLOを意識したリソーススケジューリング [cs.SE]目的:マイクロサービスの実行パターン分析に基づく,SLOを満たすリソースプロビジョニング手法
    • マイクロサービスアーキテクチャは柔軟性や拡張性をもたらす一方,複雑な運用管理が課題である。
    • 既存のリソース管理手法は,動的なコールグラフの変化に対応できず,最適化が困難である。
    • 実行パターンの安定性を活用し,SLOを満たしつつリソース消費量を削減することを目指す。
    • モーフィスは,実行トレースを安定したバックボーンと変動するサブグラフに分解する構造的フィンガープリンティングを導入した。
    • リソース割り当てを,予測されるパターン分布に基づく制約付き最適化問題として定式化することで,CPU使用量を最小化しつつ,エンドツーエンドの遅延SLOを満たす。
    • TrainTicketベンチマーク評価により,最先端のベースラインと比較して,CPU消費量を35~38%削減し,98.8%のSLOコンプライアンスを維持することが示された。

    Link: https://arxiv.org/abs/2602.01044

  • 車両におけるエラーパターンルール自動化のためのマルチエージェント因果推論システム [cs.AI, cs.SE]目的:エラーパターンルールの自動生成
    • 自動車の複雑化に伴い,安全性確保のための故障検出が重要になっている。
    • エラーパターンルールは専門家が手動で作成しており,コストとエラーの温床となっている。
    • 高次元なDTCイベント系列から,エラーパターンルールを自動的に発見することを試みる。
    • CAREPは,DTCとエラーパターン間の関係を特定し,メタデータと記述を統合する。
    • 大規模な自動車データセットを用いた評価で,CAREPは既存手法やLLMよりも高い精度を示した。
    • CAREPは,解釈可能な因果関係の説明を提供し,効率的な車両メンテナンスに貢献する。

    Link: https://arxiv.org/abs/2602.01155

  • ループを閉じる:RPGエンコーダによる汎用リポジトリ表現 [cs.CL, cs.CL, cs.SE]目的:リポジトリの理解と生成の間の統一的なサイクル
    • ソフトウェア開発において,リポジトリの理解はコードの保守性と進化に不可欠である。
    • 既存の手法はAPIドキュメントや依存グラフに依存し,意味的な深さが不足している。
    • セマンティックな特徴とコード依存性を統合した高精度なリポジトリ表現を構築する。
    • RPG-Encoderは,SWE-bench Verifiedにおいて93.7%のAcc@5を達成し,最先端のローカライゼーション性能を示した。
    • SWE-bench Live Liteにおけるローカライゼーション精度も,既存のベースラインを10%以上上回る結果となった。
    • RepoCraftにおける再構成カバレッジは98.5%に達し,RPGの高い忠実性と意図と実装の間のループの閉鎖を証明した。

    Link: https://arxiv.org/abs/2602.02084

  • エージェントベースのソフトウェア成果物評価 [cs.SE]目的:ソフトウェア成果物の自動評価手法
    • ソフトウェア工学研究における再現性の確保は重要であり,成果物評価はその中心的役割を担う。
    • 成果物評価はレビュー担当者の手作業に依存しており,論文提出数の増加に伴い,人的コストが膨大化している。
    • 本研究は,自動化による成果物評価の効率化とスケーラビリティ向上を目指す。
    • 提案手法ArtifactCopilotは,環境構築,実行,エラー回復を自動化し,人間による評価と同等の成果を85.42%の成果物で達成した。
    • ArtifactCopilotは,既存のAIモデル(Claude Code)を大幅に上回り,平均コストは0.091ドルと低コストである。
    • 48個の実世界の成果物に対して,人間の介入なしに評価を完了することができた。

    Link: https://arxiv.org/abs/2602.02235

  • SafeGround:GUIグラウンディングモデルの信頼性を不確実性校正で判断 [cs.AI, cs.SE]目的:GUIグラウンディングモデルの信頼性評価
    • GUI自動操作の信頼性確保は,誤操作による損失を防ぐ上で重要である。
    • 既存のGUIグラウンディングモデルは,誤った座標を生成する可能性があり,リスクが高い。
    • モデルの不確実性を定量化し,リスクを制御することで,安全なGUI操作を実現する。
    • SafeGroundは,GUIグラウンディングモデルの出力の空間分散を捉えることで,不確実性を定量化する。
    • 校正プロセスにより,誤検出率を統計的に保証された閾値を導き出し,リスク管理を可能にする。
    • ScreenSpot-Proベンチマークにおいて,既存手法よりも正確な予測の識別性能が向上し,システムレベルの精度を最大5.38%改善した。

    Link: https://arxiv.org/abs/2602.02419