arXiv雑要約

プログラム - 2026/01/30 公開

  • 免疫反応複雑性の非計算可能性:効果的な制約下におけるアルゴリズム情報ギャップ [cs.IT, math.IT]目的:免疫反応の複雑性評価
    • 免疫システムの複雑さは,生命現象の理解と制御において重要な課題である。
    • 従来の評価方法では,反応の有効性や情報量の定量化が困難であった。
    • アルゴリズム情報理論に基づき,反応の複雑性を厳密に評価する指標を提案する。
    • アルゴリズム情報理論に基づくNormalized Advice Quantile (NAQ)を定義し,タスク間の比較を可能にした。
    • NAQは,入力に依存しない実行者にとって必要な最小限の情報量と密接に関連することが示された。
    • 経験的なNAQ推定値の収束性も保証され,データ駆動型キャリブレーションへの応用が期待される。

    Link: https://arxiv.org/abs/2601.20865

  • サブナイキスト多重波形パラメータ推定におけるCramer-Rao 限界分析と同期ナイキスト・フォールディング固有値法 (SNGEM) のほぼ最適性能 [cs.IT, math.IT]目的:サブナイキストレートにおける多重波形信号の周波数/振幅/位相推定
    • 信号処理において,限られたデータから高精度なパラメータ推定は重要である。
    • 従来の圧縮センシング法は,DFTグリッドバイアスやエイリアシングノイズにより誤差が生じやすい。
    • SNGEMの統計的最適性を検証し,高圧縮率下での性能限界を明らかにする。
    • SNGEMはノイズが存在しない状況下で機械精度に達し,あらゆるSNRレベルにおいて導出されたCRBに近づく。
    • SNGEMは10~20倍の圧縮率下でも良好な性能を維持し,古典的な圧縮センシング法 (OMP) のような誤差の平坦化を回避する。
    • これらの結果から,SNGEMは統計的にほぼ最適な決定論的サブナイキストスペクトル分析法であると結論できる。

    Link: https://arxiv.org/abs/2601.20866

  • 大規模言語モデルがソフトウェアの進化性と保守性に与える影響:良い点,悪い点,醜い点,そして対策 [cs.SE]目的:ソフトウェアシステムの保守性と進化性に及ぼす大規模言語モデルの影響
    • ソフトウェア開発における生産性向上や品質向上が求められており,そのための新たな技術の導入が不可欠である。
    • 大規模言語モデルの導入は進んでいるが,その効果やリスクに関する体系的な知見が不足している。
    • 大規模言語モデル導入に伴う潜在的なリスクを特定し,長期的なソフトウェア開発における持続可能性を確保すること。
    • 大規模言語モデルは,解析容易性,テスト容易性,コード理解,デバッグ支援,自動修正といった利点をもたらす。
    • 一方で,誤った出力の生成,コンテキストへの脆弱性,ドメイン知識の限界,不安定な性能といったリスクも存在する。
    • 大規模言語モデルの責任ある採用には,安全対策,厳格な評価,そして構造化された人間による監視が不可欠である。

    Link: https://arxiv.org/abs/2601.20879

  • DevOps-Gym:ソフトウェアDevOpsサイクルにおけるAIエージェントのベンチマーク [cs.SE, cs.AI, cs.CR]目的:ソフトウェアDevOpsサイクルにおけるAIエージェントの評価
    • ソフトウェア開発の自動化は,生産性向上と品質確保に不可欠である。
    • 既存のベンチマークは限定的な問題に焦点を当て,DevOps環境に対応できていない。
    • AIエージェントによるDevOpsサイクルの完全な自動化に向けた課題を明確にすること。
    • DevOps-Gymは,ビルド,監視,問題解決,テスト生成を含むDevOpsワークフローを評価するための初の包括的なベンチマークである。
    • 評価の結果,最先端モデルはJavaとGoにおける問題解決とテスト生成に苦戦し,監視やビルドといった新しいタスクにも対応できないことが判明した。
    • これらの結果は,AIエージェントによるDevOpsサイクルの完全な自動化には更なる研究が必要であることを示唆する。

    Link: https://arxiv.org/abs/2601.20882

  • IDE-Bench:実世界ソフトウェアエンジニアリングタスクにおけるIDEエージェントとしての大規模言語モデルの評価 [cs.SE, cs.LG]目的:大規模言語モデルのIDEエージェントとしての性能評価
    • ソフトウェア開発の生産性向上は,現代社会における重要な課題である。
    • 既存の評価手法では,IDE環境下での複雑なタスクを再現できず,実用的な性能評価が困難である。
    • IDE環境下でのソフトウェアエンジニアリングタスクをより現実的に評価し,AIエージェントの能力を正確に測定すること。
    • IDE-Benchは,Docker化されたテストハーネスを用いて,モデルに構造化されたツールエコシステムを提供する。
    • 80の未公開リポジトリを対象に,C/C++,Java,MERNスタックを含む多様なタスクで評価を実施した。
    • エージェントが報告する意図と,プロジェクトレベルでの修正成功との相関関係を初めて体系的に評価した。

    Link: https://arxiv.org/abs/2601.20886

  • アジャイルな労力とコスト見積もりに関する系統的文献レビューの批判的分析:もう一つの系統的レビューか? [cs.SE]目的:アジャイルソフトウェア開発における労力とコスト見積もりに関する系統的文献レビューの重複とその正当化に関する分析
    • ソフトウェア工学研究において,系統的文献レビューは重要な手法であり,信頼性の高い知見を得るために不可欠である。
    • 既存レビューの調査不足により,類似テーマで重複したレビューが頻発し,研究リソースの浪費を招いている。
    • 重複レビューを減らし,ソフトウェア工学研究の進捗を加速化するための対策を提案することを目的とする。
    • 分析の結果,著者は既存レビューの網羅性の不足,方法論的限界,陳腐化,技術的進歩などを追加レビューの正当化根拠として主張していることが明らかになった。
    • 狭いテーマにおける詳細な分析を通して,ソフトウェア工学全体の系統的レビューにおける課題が明らかになった。
    • 設計・レビューガイドラインや会議・ジャーナルのポリシーにおいて,既存レビューの特定と追加レビューの正当化を重視することで,重複を減らせると示唆された。

    Link: https://arxiv.org/abs/2601.20893

  • 生成AIを活用したドメイン駆動設計の強化 [cs.SE, cs.LG]目的:ドメイン駆動設計におけるメタモデル生成の自動化
    • 顧客志向のソフトウェア開発に不可欠であり,正確なドメインモデリングが重要である。
    • メタモデルの作成は手作業で行われるため,時間と労力がかかる。
    • 生成AIを用いてメタモデル生成を部分的に自動化し,設計プロセスを効率化する。
    • 生成AIは,簡単なプロンプトに基づいて構文的に正しいJSONオブジェクトを生成できることが示された。
    • 消費者向けGPUと4bit量子化,LoRAを用いて,限られたリソースでも高い性能を達成した。
    • 本研究は,生成AIをドメイン駆動設計に組み込むことの実現可能性を示し,効率向上とリソース削減に貢献する。

    Link: https://arxiv.org/abs/2601.20909

  • AI支援ソフトウェア進化における信頼性確立のためのブロックチェーン活用:体系的文献レビュー [cs.SE]目的:AI支援ソフトウェア進化におけるブロックチェーン活用の現状と課題
    • ソフトウェア開発における信頼性は,高品質なシステム提供と社会実装の根幹である。
    • AIの活用拡大に伴い,データ改ざんやモデルの不透明性による信頼性低下が懸念される。
    • ブロックチェーン技術でAI支援ソフトウェア進化の信頼性を高める方法を整理し,課題を明確化する。
    • レビュー対象の研究の多くはAIのSEへの統合に焦点を当てており,信頼性に着目したものは31%に留まる。
    • ブロックチェーンは,データの改ざん防止,モデルの透明性確保,ライフサイクル全体の責任追跡により,信頼性を向上させる。
    • 信頼性の定義の不統一や実証実験の不足が課題であり,信頼性の測定可能なフレームワーク開発が求められる。

    Link: https://arxiv.org/abs/2601.20918

  • 非決定性分子アーカイブのための確率的インデックスプリミティブ [cs.DS]目的:DNAベースデータストレージにおける高速・並列なコンテンツアドレス可能検索の実現
    • DNAストレージは,その高密度性から次世代のデータ保存技術として期待されている。
    • 従来のDNAストレージシステムでは,ランダムアクセスがボトルネックとなり,高速な検索が困難である。
    • HBFを用いることで,ワンショットでの連想検索を可能にし,次元,データセットサイズ,ノイズ間のトレードオフを定量化する。
    • 本研究では,キーとポインタの関連を単一の高次元メモリベクトルに格納する確率的インデックスプリミティブ「Holographic Bloom Filter (HBF)」を提案した。
    • HBFは,円形畳み込みを用いてキーベクトルと値ベクトルを結合し,すべてのレコードにわたって結合を重ね合わせることで,検索時にクエリキーとの相関を計算し,最適な値を選択する。
    • 理論解析により,メモリ破損やクエリ/キー不一致に対するロバスト性,および次元数に対する指数的なエラー減衰が確認された。

    Link: https://arxiv.org/abs/2601.20921

  • サプライチェーンセキュリティのための研究ソフトウェアの運用化 [cs.SE, cs.CR]目的:研究ソフトウェアのサプライチェーンセキュリティに関する研究の範囲と境界を明確化する分類体系
    • サプライチェーンセキュリティは,現代社会におけるシステム全体の安全性に不可欠である。
    • 研究ソフトウェアの定義が曖昧で,研究間の比較が困難になっている。
    • 研究ソフトウェアサプライチェーンのセキュリティリスクを考慮した分類体系を確立し,セキュリティ評価の精度向上を目指す。
    • 既存の研究をレビューし,その定義,包含基準,分析単位,識別ヒューリスティックを抽出した。
    • 抽出結果を統合し,統一された分類体系とマッピングを構築した。
    • Research Software Encyclopedia のデータセットに対し,構築した分類体系を適用し,セキュリティ分析を行った結果,分類に応じたセキュリティシグナルの違いが確認された。

    Link: https://arxiv.org/abs/2601.20980

  • 予算内で上位k件を特定:弱・強オラクルを用いた適応的ランキング [cs.LG, cs.DS]目的:上位k件のアイテム特定における,効率的なランキング手法
    • 正確な評価はコストがかかる場合が多く,上位k件の特定は重要な課題である。
    • 高精度な強オラクルは利用が限られており,弱オラクルだけでは精度が不十分である。
    • 強オラクルの利用回数を削減しつつ,上位k件を正確に特定することを目指す。
    • 単純なスクリーニングと認証のベースライン(STC)の強オラクル呼び出し回数の上限を理論的に示した。
    • 適応的な認証アルゴリズムACEを提案し,境界付近のアイテムに焦点を当てることで,実用上強オラクル呼び出し回数を削減した。
    • 弱オラクル予算を適応的に割り当てる二段階法ACE-Wにより,強オラクルコストをさらに削減した。

    Link: https://arxiv.org/abs/2601.20989

  • ELAA支援ISACシステムにおける電力消費量削減 [cs.IT, math.IT]目的:ELAAを用いた統合センシング・通信(ISAC)システムにおける電力消費量削減
    • 高分解能近傍電波センシング実現にはELAAが不可欠であり,その重要性は増している。
    • 従来のデジタルアーキテクチャでは,全アンテナ素子を稼働させると電力消費量が過大になるという課題がある。
    • QoS制約下で最適なサブアレイ選択を行い,電力消費量を最小化することを目的とする。
    • 提案手法は,既存のデジタルアーキテクチャと比較して,大幅な電力消費量削減を達成した。
    • センシングおよび通信の両方の性能を維持しながら,電力効率を向上させることが確認された。
    • 逐次凸近似(SCA)に基づく反復アルゴリズムにより,効率的な最適化が可能となった。

    Link: https://arxiv.org/abs/2601.21010

  • Meta-ROS:適応性と拡張性のあるロボットシステムのための次世代ミドルウェアアーキテクチャ [cs.RO, cs.MA, cs.OS, cs.SE]目的:適応的・拡張的ロボットシステムを実現するための次世代ミドルウェアアーキテクチャ
    • ロボット開発は重要性が増しており,複雑なシステムを効率的に構築する必要がある。
    • 既存ミドルウェアは複雑で相互運用性に課題があり,新規開発者の参入障壁となっている。
    • 開発の容易性,性能向上,プラットフォーム非依存性を実現し,現代的なロボットAI開発を支援する。
    • Meta-ROSはROS2と比較して,最大30%高いスループットを達成した。
    • メッセージ遅延を大幅に削減し,リソース利用率を最適化した。
    • 堅牢なハードウェアサポートと開発者中心設計により,シームレスな統合と容易な利用を実現する。

    Link: https://arxiv.org/abs/2601.21011

  • ソフトウェア工学における大規模言語モデルの包括的ベンチマーク基盤に向けて [cs.SE, cs.AI]目的:大規模言語モデルのソフトウェア工学における評価基盤の構築
    • ソフトウェア開発において,コード生成AIの利用が増加しており,その性能評価が不可欠である。
    • 既存のベンチマークは狭範なタスクに偏り,頑健性や実用性などの重要な側面が評価されていない。
    • ソフトウェア工学の文脈に基づいたデータセットと評価指標,再現性のあるパイプラインを確立し,より信頼性の高い評価を実現する。
    • 既存のベンチマークに関する調査とワークショップを通じて,信頼性の高い評価における3つの課題を特定した。
    • BEHELMを提案する。これは,ソフトウェアシナリオの仕様と多角的評価を統合した包括的なベンチマーク基盤である。
    • BEHELMは,タスク,言語,粒度,品質次元にわたるモデルの評価を構造化し,ベンチマーク構築の負担を軽減する。

    Link: https://arxiv.org/abs/2601.21070

  • マゼラン:AlphaEvolveによる新規コンパイラ最適化ヒューリスティクスの自律的発見 [cs.AI, cs.LG, cs.PL]目的:新規コンパイラ最適化ヒューリスティクスの発見
    • 現代のソフトウェアとハードウェアの複雑化に対応したコンパイラの最適化が重要である。
    • 手動で作成されたヒューリスティクスは,変化への適応が難しく,保守に負担がかかる。
    • LLMと進化探索を組み合わせ,コンパイラ最適化の自動化と性能向上を目指す。
    • マゼランは,LLMと進化探索を組み合わせたフレームワークで,コンパイラパスを進化させる。
    • LLVMの関数インライン化において,従来の人間による設計を上回るヒューリスティクスを生成した。
    • レジスタ割り当てでは,大規模なワークロードで人間が設計したポリシーに匹敵する優先ルールを学習した。

    Link: https://arxiv.org/abs/2601.21096

  • 静かな貢献:AI生成によるサイレントプルリクエストに関する考察 [cs.SE]目的:AI生成によるサイレントプルリクエストの受容・拒否理由の解明
    • AIによるコード生成は開発効率向上に不可欠であり,その活用はますます重要になっている。
    • AI生成プルリクエストには議論が伴わない場合があり,その品質や意図の評価が困難である。
    • サイレントプルリクエストの品質評価指標と受容/拒否の関係を明らかにすること。
    • 4,762件のサイレントプルリクエストを分析した結果,コード複雑度や品質問題に一定の影響が見られた。
    • セキュリティ脆弱性の観点からは,AI生成プルリクエストが必ずしも改善をもたらすとは限らないことが示唆された。
    • 受容/拒否の判断材料として,コード品質指標が有用である可能性が示された。

    Link: https://arxiv.org/abs/2601.21102

  • 情報アクセスがLLM監視者の妨害行為検出能力に及ぼす影響 [cs.CL, cs.AI, cs.SE]目的:LLM監視者の妨害行為検出性能に対する情報アクセスの影響
    • 大規模言語モデルの安全性確保は重要であり,誤った行動や意図しない目的の追求を抑制する必要がある。
    • LLMを監視者として利用する場合,情報過多が性能低下を招く「less-is-more効果」が課題となる。
    • 情報アクセスを最適化することで,LLM監視者の妨害行為検出能力を向上させることを目指す。
    • 情報アクセス量を減らすことで,従来のシステムよりもLLM監視者の性能が向上する「less-is-more効果」を実証した。
    • 提案手法である「抽出・評価」監視(EaE)は,BigCodeBench-Sabotageにおいて,誤検出率を増加させることなく,妨害行為検出率を16.8%向上させた。
    • 監視対象が監視されていることを認識していない場合や,より長い推論過程を評価する場合,情報フィルタリングの効果が高まることがわかった。

    Link: https://arxiv.org/abs/2601.21112

  • AI支援エンジニアリングにおける建築的決定の認識状態と時間的妥当性の追跡 [cs.SE, cs.AI]目的:建築的決定の認識状態と時間的妥当性の追跡メカニズム
    • ソフトウェア開発における意思決定の質が,システムの信頼性や保守性に大きく影響する。
    • AIの進化により意思決定の速度は向上したが,根拠の検証が追いついていない現状がある。
    • AI支援環境下での意思決定の信頼性を担保するための枠組みを提案し,検証すること。
    • 本研究では,検証されていない仮説と経験的に検証された主張を分離する「認識層」の必要性を提唱した。
    • 根拠の弱さが自信を過大評価するのを防ぐ「保守的な確実性集約」の重要性を示した。
    • 過去のプロジェクトの調査から,2ヶ月以内に根拠の陳腐化した意思決定が20-25%存在することが確認された。

    Link: https://arxiv.org/abs/2601.21116

  • 論理からツールチェーンへ:TypeScriptエコシステムのバグに関する経験的研究 [cs.SE]目的:TypeScriptエコシステムにおけるバグの分類と実態
    • 現代のWeb開発においてTypeScriptの利用が拡大しており,その品質保証は重要である。
    • TypeScript導入がソフトウェアの信頼性に与える影響は,十分には解明されていない。
    • TypeScriptにおけるバグの傾向を把握し,より堅牢な開発手法を確立することを目指す。
    • バグの多くは論理的・構文エラーではなく,ツールや設定,APIの誤用,非同期エラー処理に起因する。
    • ビルドの複雑さや依存関係の多様性が,これらのバグの発生と強い相関関係にあることが示された。
    • TypeScriptの静的型付けは従来の実行時エラーを減少させたが,脆弱性はビルドシステムやツールチェーンへと移行している。

    Link: https://arxiv.org/abs/2601.21186

  • 人間とエージェントのプルリクエスト:テストに焦点を当てた特性評価と比較 [cs.SE]目的:人間とエージェントのプルリクエストにおけるテストの実践
    • ソフトウェア開発におけるテストは,品質保証と信頼性確保に不可欠である。
    • AIエージェントが導入されつつあるが,人間との協調におけるテストへの影響は不明である。
    • 人間とエージェントの協調がテストの実践にどのように影響するかを明らかにすること。
    • AIエージェントによるプルリクエストは,人間によるプルリクエストと比較して,テストの規模が大きいことが示された。
    • 共同進化において,AIエージェントは新しいテストを追加する傾向が強く,人間は既存のテストを変更する傾向が強い。
    • テストスメルのカテゴリに統計的な差は見られたものの,品質に有意な差はないと考えられた。

    Link: https://arxiv.org/abs/2601.21194

  • N回繰り返される要素問題に対する正確な比較回数 [cs.DS]目的:N個の要素がN+1種類の異なる値を持つ2N個の配列において,N回繰り返される要素を見つけるための正確な比較回数
    • データ検索効率の向上は,計算機科学における重要な課題であり,アルゴリズムの性能評価に不可欠である。
    • 比較回数の下限を厳密に証明することは難しく,既存の研究では上限や近似的な下限にとどまる場合が多い。
    • この研究では,単純な問題に対して厳密な下限を導き出し,複雑な問題への応用可能性を示す。
    • 2N個の配列内でN回繰り返される要素を特定するための正確な比較回数はN+2回である。
    • 提案アルゴリズムはN+2回の比較でこれを達成し,他のアルゴリズムがこれより少ない比較回数で正しく動作することは不可能である。
    • この結果は,グラフ理論を用いた厳密な下限導出手法を具体的に示すものであり,より複雑な問題への応用が期待される。

    Link: https://arxiv.org/abs/2601.21202

  • 敵対的ナノポアチャネルに対する削除訂正符号 [cs.IT, cs.DM, cs.DS, math.IT]目的:敵対的ナノポアチャネルにおける削除訂正符号の構成
    • ナノポアシーケンスは,安価かつ迅速なゲノム解析を可能にするため,重要性が増している。
    • ナノポアシーケンスでは,DNA配列の削除エラーが頻繁に発生し,正確な解析を妨げる。
    • 本研究は,削除エラーに強い符号を構成することで,シーケンスの信頼性向上を目指す。
    • 敵対的ナノポアチャネルにおいて,長さnのq進符号を,2t logq n + Θ(log log n) 個の冗長シンボルで明示的に構成できることを示した。
    • この符号の冗長性は,理論的な上限にほぼ一致し,既存の削除訂正符号よりも効率的である。
    • 古典的な敵対的q進削除チャネルと比較して,本研究の構成は,冗長性の点で優れている。

    Link: https://arxiv.org/abs/2601.21236

  • 言語生成におけるノイズの定量化 [cs.DS, cs.CL, cs.LG]目的:言語生成におけるノイズの影響の定量化
    • 言語生成は,人工知能における重要な課題であり,その限界と可能性を理解することが求められている。
    • 従来の言語生成モデルは,ノイズの影響を考慮した評価が十分でなかった。
    • 本研究は,ノイズが言語生成に与える影響を数学的に定量化し,よりロバストなモデルの構築に貢献する。
    • 一意のノイズ文字列の追加は,生成可能な集合を厳密に減少させることを示した。
    • 一意のノイズ文字列での生成は,有限量のノイズでの生成と同等であることを示した。
    • 非一様ノイズ依存生成可能性に関する初の特性評価を提供した。

    Link: https://arxiv.org/abs/2601.21237

  • CovAgent:エージェントAIと動的計測によるモバイルアプリケーションカバレッジ30%の壁の克服 [cs.SE]目的:AndroidアプリケーションのGUIテストにおけるカバレッジ向上
    • モバイルアプリの品質確保において,自動GUIテストは不可欠である。信頼性の高いアプリ開発に貢献する。
    • 既存のGUIテスト手法では,実用的なアプリにおいて30%を超えるアクティビティカバレッジを達成するのが困難である。
    • 複雑な入力生成や起動条件の未充足,GUI経由では到達困難なコードパスといった問題を解決し,カバレッジを向上させる。
    • CovAgentは,既存のファジング手法を大幅に改善し,最先端のLLMDroidと比較して,アクティビティカバレッジを101.1%向上させた。
    • FastbotやAPEなどのベースラインに対しても,それぞれ116.3%と179.7%高いアクティビティカバレッジを達成した。
    • エージェントAIによる起動条件推論の精度やアクティビティ起動成功率の調査により,自動アプリテストにおける有効性が示された。

    Link: https://arxiv.org/abs/2601.21253

  • 東南アジアにおける銀行アプリのアクセシビリティ悪用脆弱性を検出するための仮想化ベースの侵入テスト研究 [cs.CL, cs.CR, cs.SE]目的:銀行アプリにおけるアクセシビリティ悪用脆弱性の検出
    • モバイルバンキングの普及に伴い,金融データの安全確保が重要課題となっている。
    • 悪意のあるアクセシビリティサービスを悪用した攻撃が,既存のセキュリティ対策を回避し得る。
    • 仮想化技術を用いた攻撃に対する銀行アプリの脆弱性を明らかにし,対策を提案する。
    • 本研究では,東南アジアの銀行アプリがFjordPhantomと呼ばれるマルウェアに対して脆弱であることを実証した。
    • 現在の保護対策の有効性を分析し,その限界を明らかにした。
    • 脆弱性の特定と軽減策の提案を通じて,今後の攻撃検出・防御に貢献する。

    Link: https://arxiv.org/abs/2601.21258

  • ソフトウェア組織における少数者に対する偏見形成における社会的アイデンティティの役割 [cs.SE]目的:ソフトウェア組織における少数者に対する偏見
    • 多様性が高まる現代において,職場環境の公平性は重要である。公正な機会提供が,組織の成長に不可欠である。
    • ソフトウェア業界における潜在的な偏見は認識されているものの,具体的な影響の解明が不足している。
    • 本研究は,ソフトウェア組織における偏見の実態を明らかにし,その要因と影響を分析することを目的とする。
    • キャリア開発やタスク選択における偏見が最も多く,被害者の2/3以上が複数回経験していることが判明した。
    • 女性は男性と比較して,キャリア開発,タスク選択,そして不快な環境に直面する可能性が3倍以上高かった。
    • 少数民族は,アイデンティティ攻撃の標的となりやすい傾向が示され,年齢や経験年数も偏見の要因となることが確認された。

    Link: https://arxiv.org/abs/2601.21259

  • より多くのコード,より少ない再利用:AI生成プルリクエストのコード品質とレビュー担当者の感情の調査 [cs.HC, cs.SE, cs.AI, cs.HC]目的:AI生成プルリクエストの特性
    • ソフトウェア開発において,コードの品質と保守性は重要であり,長期的な開発効率に影響する。
    • 従来の評価指標は合格率のみに焦点を当てており,コードの可読性や保守性といった重要な側面が考慮されていない。
    • AI生成コードにおける品質問題と,開発者による評価との乖離を明らかにすること。
    • AIエージェントが生成するコードは,人間が書いたコードと比較して再利用が少なく,冗長性が高い傾向にある。
    • レビュー担当者は,AI生成のプルリクエストに対して,人間が書いたものよりも中立的または肯定的な感情を示す傾向がある。
    • AIコードの表面的な妥当性により,冗長性が隠蔽され,技術的負債が静かに蓄積される可能性がある。

    Link: https://arxiv.org/abs/2601.21276

  • 複雑に絡み合ったコードコミットにおける複数意味の関心の検出 [cs.RO, cs.SY, eess.SY, cs.SE]目的:複雑なコードコミットにおける複数意味の関心検出
    • コードのバージョン管理は,ソフトウェア開発において不可欠であり,変更履歴の追跡や共同開発を円滑に進める上で重要である。
    • 実際の開発では,複数の関心を一つのコミットにまとめることが多く,コードの意図を不明確にし,保守性を低下させるという問題がある。
    • 本研究は,複雑なコミットに含まれる複数意味の関心を検出し,コード理解と保守作業の効率化を目指す。
    • ファインチューニングされた14BパラメータのSLMは,単一の関心を持つコミットにおいて,最先端のLLMと同等の性能を発揮することが示された。
    • 最大で3つの関心を持つコミットに対しても実用的な性能を維持し,SLMの有効性が確認された。
    • コミットメッセージを含めることで,検出精度が最大44%向上し,遅延はわずかであることから,メッセージが重要な意味的手がかりであることがわかった。

    Link: https://arxiv.org/abs/2601.21298

  • AI時代における開発者:AIソフトウェアエンジニアリングツールの採用,政策,普及 [cs.SE]目的:AIソフトウェアエンジニアリングツールの利用状況と開発への影響
    • ソフトウェア開発の効率化と品質向上が,経済成長と社会発展に不可欠である。
    • AIツールの導入は進むものの,効果や利用方法に関する実証的な知見が不足している。
    • AIツールの利用状況と開発者の認識を分析し,効果的な導入戦略を提示する。
    • AIツールの頻繁かつ広範な利用は,開発者の生産性向上と品質向上に強く関連していることが示された。
    • AIツールの利用に関する品質のパラドックスは確認されず,生産性の向上とコード品質の改善が相関関係にあることが判明した。
    • AIテストツールの導入がコーディングツールに遅れ,テストギャップが存在することが明らかになった。

    Link: https://arxiv.org/abs/2601.21305

  • 対称q進純状態チャネルにおける量子メッセージを用いた信念伝播 [cs.IT, math.IT, quant-ph]目的:対称q進純状態チャネルにおける信念伝播の解析と閾値の推定
    • 古典-量子チャネルにおける通信において,効率的な復号手法の確立が重要である。
    • 従来の信念伝播法は二進数に限定されており,一般のq進数チャネルへの拡張が課題であった。
    • グラム行列の固有値に基づく効率的な再帰計算により,q進数チャネルにおける復号閾値の解析を可能とする。
    • 本研究では,対称q進純状態チャネルに対して,閉形式の再帰計算を用いた効率的な信念伝播法を提案した。
    • 提案手法は,チャネルの物理的な実現に依存せず,入力チャネルの忠実度から復号閾値を解析できる。
    • LDPC符号や極符号といった符号化方式への応用が期待され,通信性能向上に貢献する。

    Link: https://arxiv.org/abs/2601.21330

  • 協調学習のための動的フレームワーク:適応的フィードバック機構を備えた高度なLLMの活用 [cs.AI, cs.HC, cs.SE]目的:協調学習プラットフォームにおける学生のエンゲージメント,批判的思考,包容性の向上
    • 教育現場における個別最適化された学習のニーズは高まっており,効果的な学習支援システムの開発が求められている。
    • 既存の教育システムでは,静的なモデレーションやパーソナライズの不足が,学習効果の阻害要因となっている。
    • 本研究は,動的なモデレーションと適応的なフィードバックを通じて,より公平で効果的な学習成果を目指す。
    • 本フレームワークは,リアルタイムな議論の促進と学習者のニーズへの適応により,学生の協調学習を大幅に改善することが示された。
    • 高度なLLMを動的モデレーターとして活用することで,より深い理解の促進と幅広い科目・ユーザーグループへの拡張性を実現した。
    • 堅牢なフィードバック機構は,AIモデレーションの改善,内省的学習の促進,およびユーザー間の参加バランスに貢献する。

    Link: https://arxiv.org/abs/2601.21344

  • グラフを用いない根本原因分析 [cs.LG, cs.SE]目的:複雑系における根本原因の特定
    • 複雑なシステムの障害発生時,迅速な原因究明は被害拡大防止に不可欠である。
    • 既存手法は,異常スコアが最も高い箇所を根本原因と仮定するため,伝播経路の影響を考慮できない。
    • 依存グラフがない状況でも,正確かつ迅速に根本原因を特定することを目指す。
    • PRISMは,依存グラフが不要な環境下で根本原因分析を行うための簡潔かつ効率的なフレームワークである。
    • 理論的な保証のもと,特定条件下でPRISMは根本原因分析を実行する。
    • 9つの実データセットにおける735件の障害に対し,PRISMは68%のTop-1精度を達成し,最良のベースラインを258%上回った。

    Link: https://arxiv.org/abs/2601.21359

  • コンプライアンスのパラドックス:自動コード評価における意味と指示の分離 [cs.CL, cs.AI, cs.ET, cs.LG, cs.SE]目的:大規模言語モデルを用いた自動コード評価における,意味と指示の乖離
    • 教育評価へのLLM活用が急速に進む中で,その信頼性確保が重要課題となっている。
    • LLMの指示追従能力が,客観的なコード品質の評価に直結するという前提が検証されていない。
    • LLMの「親切さ」に特化した調整が,悪意ある操作に対して脆弱性を作り出す問題を解決する。
    • 最先端モデルにおいて,95%を超える高い割合で,コードの正しさよりも書式制約を優先する現象が確認された。
    • 新しく開発したSPACIフレームワークとAST-ASIPプロトコルにより,構文的に無害な領域に悪意のある指示を埋め込むことが可能となった。
    • 現在のLLM調整方法が,自動採点に「トロイの木馬」のような脆弱性を生み出す可能性が示唆された。

    Link: https://arxiv.org/abs/2601.21360

  • AI生成コード提案に対する開発者の受容性の予測 [cs.SE]目的:開発者によるAI生成コード提案の受容性に関わる要因の特定
    • AI支援プログラミングは生産性向上に貢献するが,提案の質が重要。
    • AI提案が開発者の作業を妨げる場合があり,受容性を定量的に分析する研究は少ない。
    • 受容性を予測し,開発者の中断を減らすためのフィルタリング手法を開発すること。
    • 過去の受容率やプロジェクトにおける受容率が高い提案ほど,開発者に受け入れられやすいことが明らかになった。
    • 提案生成までの時間間隔が長く,先行するコードの記述量が少ない提案も受容されやすい傾向にある。
    • 開発したCSAPは,既存手法と比較して,提案の受容性を高精度に予測可能であり,開発者の作業効率向上に貢献する。

    Link: https://arxiv.org/abs/2601.21379

  • 局所的および全体的な切手問題に対するアルゴリズム [cs.DS]目的:切手問題における最小実現不可能な値の算出
    • 暗号化された値に対する多項式の効率的な同型評価が求められている
    • 切手問題はNP困難であり,計算資源が必要となる
    • 局所問題の計算効率とメモリ使用量の改善を目指す
    • 局所問題に対し,時間計算量とメモリ使用量で既存手法を上回る新しいアルゴリズムを提案した。
    • 全体問題に対しては,多項式近似アルゴリズムとその計算量解析を提示した。
    • 提案アルゴリズムは,安全な多人数計算において,より効率的な同型評価を可能にする。

    Link: https://arxiv.org/abs/2601.21423

  • 学習可能なGray-Wynerネットワークにおける損失のある共通情報 [cs.LG, cs.CV, cs.IT, math.IT]目的:複数の視覚タスクにおける共通情報とタスク固有情報の分離
    • 視覚タスクは共通情報を持つため,効率的な表現が重要である。
    • 従来のコーデックは共通情報を無視し,冗長な表現になりやすい。
    • 共通情報とタスク固有情報を分離し,冗長性を削減することを試みる。
    • 提案手法は,独立したコーディングと比較して,冗長性を大幅に削減した。
    • 3種類のコーデックアーキテクチャを用いて,6つの視覚ベンチマークで性能を評価した結果,提案手法が常に良好な結果を示した。
    • この研究は,最新の機械学習においてGray-Wyner理論を再考することの有用性を示唆している。

    Link: https://arxiv.org/abs/2601.21424

  • 局所と非局所が交わる点:独立集合クエリを用いたエッジ推定の二乗改善 [cs.DS]目的:未知のグラフにおけるエッジ数の推定
    • グラフ構造の解析は,ソーシャルネットワークやウェブグラフなど,様々な分野で重要である。
    • エッジ数の正確な推定は計算量的に困難であり,効率的なアルゴリズムが求められている。
    • 本研究は,既存の手法よりも効率的なエッジ数推定手法を提案し,その限界を示す。
    • 独立集合,次数,隣接ノードのクエリを組み合わせることで,単一のクエリタイプのみを用いるよりも効率的なエッジ数推定が可能となる。
    • 提案アルゴリズムは,$O\left(\min\left(\sqrt{m}, \sqrt{\frac{n}{\sqrt{m}}}\right)\cdot\frac{\log n}{\varepsilon^{5/2}}\right)$ クエリで $(1\pm\varepsilon)$-近似解を導出する。
    • この結果は,既存の局所クエリモデルや独立集合クエリモデルと比較して,二乗の改善を示す。

    Link: https://arxiv.org/abs/2601.21457

  • 効率的かつ最適化されたコード生成のためのマルチエージェント協調における適応的確信度ゲーティング [cs.SE, cs.AI]目的:小規模言語モデルにおける複雑な論理的要件への対応能力向上
    • 大規模言語モデルの進歩がある一方,小規模言語モデルの活用が重要視されている。
    • 小規模言語モデルは,複雑な論理的要件において推論のボトルネックや失敗ループに陥りやすい。
    • 小規模言語モデルの推論能力を向上させ,効率的なコード生成を実現すること。
    • DebateCoderは,HumanEvalで70.12%のPass@1を達成し,MapCoderを上回った。
    • APIオーバーヘッドを約35%削減し,効率的なソフトウェアエンジニアリングへの貢献を示唆した。
    • 協調プロトコルが,小規模モデルの限界を緩和し,高品質な自動ソフトウェア開発を可能にする。

    Link: https://arxiv.org/abs/2601.21469

  • 遅延を考慮した安定なリモート状態推定のための学習に基づくセンサスケジューリング [cs.IT, math.IT]目的:遅延を考慮したリモート状態推定におけるセンサスケジューリング手法
    • 無線リモート状態推定は,ロボティクスやIoTなど様々な分野で重要性が増している。
    • センサ-推定器間の遅延は予測不可能であり,状態推定の精度とエネルギー効率を低下させる。
    • 遅延の影響を考慮したセンサスケジューリングにより,状態推定精度とエネルギー効率を両立することを目指す。
    • 提案手法は,遅延を明示的にモデル化し,遅延に依存する情報ゲインを定量化する統一的なフレームワークを提供する。
    • 遅延のある測定値を状態拡張なしに取り込む効率的な事後融合更新手法を導入し,安定な状態推定を可能にする。
    • シミュレーション結果から,提案手法はランダムスケジューリングや既存の強化学習ベースラインよりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2601.21482

  • LLaMEA-SAGE:説明可能なAIからの構造的フィードバックによる自動アルゴリズム設計の誘導 [cs.RO, cs.SY, eess.SY, cs.AI, cs.NE, cs.SE]目的:自動アルゴリズム設計における構造的フィードバックの活用
    • アルゴリズム設計は,複雑な問題解決の基盤であり,効率化が求められている。
    • 既存の自動アルゴリズム設計は,性能評価のみに依存し,コード構造の情報を活用できていない。
    • コード構造から得られる情報を活用し,より効率的なアルゴリズム設計を可能にすること。
    • 提案手法LLaMEA-SAGEは,既存手法LLaMEAと同等の性能をより迅速に達成できることを示した。
    • MA-BBOBスイートを用いた大規模実験において,最先端の自動アルゴリズム設計手法と比較して優れた性能を発揮した。
    • コードから得られる情報が,LLMによるアルゴリズム進化を効果的に誘導できることを実証した。

    Link: https://arxiv.org/abs/2601.21511

  • 量子CSS符号に対する横断ゲート [cs.IT, math.IT, quant-ph]目的:量子CSS符号を固定する対角横断ゲートの集合
    • 量子誤り訂正は,量子コンピュータの実現に不可欠な技術である。
    • CSS符号に対する効率的な横断ゲートの構成は未解決の問題である。
    • 単項式符号から得られる任意のCSS符号に対する横断ゲートを決定すること。
    • 対角横断ゲートの論理作用と,非自明な論理ゲート及び論理恒等式を誘起する横断ゲート群を特定した。
    • 群を定義する方程式の集合を明示的に提示し,アプローチの主要な利点を明らかにした。
    • 単項式符号から生じる任意のCSS符号に対する完全な横断安定化子と横断ゲートを計算した。

    Link: https://arxiv.org/abs/2601.21514

  • KAPSO:知識に基づいた自律的なプログラム合成と最適化のフレームワーク [cs.CL, cs.IR, cs.AI, cs.CL, cs.SE]目的:自律的なプログラム合成と最適化のためのフレームワーク
    • ソフトウェア開発の自動化が求められており,特に複雑なタスクの効率化が重要である。
    • 既存のプログラム合成手法は,長期的視点での改善や知識の再利用が不十分である。
    • 実験管理,知識体系,記憶メカニズムを統合し,プログラム合成の最適化を支援する。
    • KAPSOは,gitを利用した実験エンジンにより,実験の再現性と追跡可能性を確保する。
    • 多様な知識源を取り込み,構造化された表現にすることで,効率的な知識の検索と利用を可能にする。
    • 実験履歴から得られる教訓を記憶し,エラーの繰り返しを減らし,収束を加速する。

    Link: https://arxiv.org/abs/2601.21526

  • GPUプログラムにおける難解なメモリバグの追跡 [cs.CL, cs.SE]目的:GPUプログラムにおける境界外アクセス(OOB)の検出
    • GPUは科学技術計算等に不可欠であり,その安全性と信頼性の確保が重要である。
    • 従来のOOB検出ツールは実行時依存であり,特定の入力でのみ発生するOOBを見つけられない。
    • プログラム変数間の意味的関係を利用し,静的にOOBの可能性を検証することで,検出率向上を目指す。
    • SCuBAは,CPUおよびGPUコードを解析し,変数間の意味的関係を捉えることで,OOBの可能性を静的に検証する。
    • SCuBAは,入力依存型OOB,およびアロケーション内部でのOOBを検出できる。
    • 20プログラムでNVIDIAのCompute Sanitizerが見逃した45個のバグを,SCuBAは誤検出なく検出した。

    Link: https://arxiv.org/abs/2601.21552

  • ソフトウェアの認知的な複雑さ低減のための多目的整数計画法アプローチ [cs.SE, cs.CL]目的:ソフトウェアの認知的な複雑さ低減
    • ソフトウェア保守性は重要であり,理解しやすいコードがバグや脆弱性を防ぐ上で不可欠である。
    • 認知的な複雑さを低減しつつ,コードの機能を維持することが課題である。
    • 多目的整数計画法モデルを用いて,認知的な複雑さとコード行数のバランスをとる。
    • 本研究では,SonarSourceが定義する認知的な複雑さの指標を用いて,コードの抽出問題に多目的整数計画法を適用した。
    • 提案モデルは,認知的な複雑さを低減し,コードの可読性を向上させる解を生成する。
    • 開発されたツールは,ソフトウェアの認知的な複雑さ低減問題をパラメータ付きで解決可能にする。

    Link: https://arxiv.org/abs/2601.21565

  • RPC応答は信頼できるか? EthereumブロックチェーンクライアントにおけるRPCバグ検出 [cs.SE]目的:EthereumブロックチェーンクライアントのRPCバグ検出
    • ブロックチェーンは分散型アプリケーションの基盤であり,クライアントの信頼性が重要である。
    • RPCメソッドの実装にバグが存在し,予期せぬ応答やDoS攻撃の脆弱性を引き起こす可能性がある。
    • コンテキストに依存するRPCバグを検出するための効果的な手法が求められている。
    • 提案手法EthCRAFTは,ブロックチェーンクライアントの状態遷移プログラムを探索し,コンテキストを生成する。
    • EthCRAFTは,既存のRPC検出器よりも多くのバグを検出し,主要なEthereumクライアントで6つの新バグを発見した。
    • 発見したバグのうち3件はEthereum Foundationからバグ報奨金を受け,1件はクライアントのアップデートに反映された。

    Link: https://arxiv.org/abs/2601.21593

  • 年齢は重要である:アプリレビューにおける年齢関連の議論の分析 [cs.RO, cs.SE, cs.HC, cs.LG]目的:アプリレビューにおける年齢関連の議論
    • モバイルアプリは生活に不可欠であり,様々な年齢層のニーズに応えることが重要である。
    • 年齢層別の課題が認識されつつも,アプリ開発者は具体的な問題を把握しにくい。
    • アプリが異なる年齢層のユーザーにどのように対応すべきか,ユーザーの視点から洞察を得る。
    • 本研究では,Google Play Storeの4,163件のアプリレビューを分析し,1,429件の年齢関連レビューを特定した。
    • RoBERTaモデルが最も高い精度(92.46%)を示し,年齢関連議論の自動検出に有効であることがわかった。
    • 定性分析の結果,ユーザーの懸念を反映する6つの主要なテーマが明らかになった。

    Link: https://arxiv.org/abs/2601.21605

  • SWE-Spot:リポジトリ中心型学習による小規模リポジトリ専門家の構築 [cs.LG, cs.AI, cs.CL, cs.SE]目的:小規模言語モデルにおけるリポジトリ特化型知識獲得
    • プライバシー保護やリソース制約のある環境でコーディングエージェントの利用が進み,高性能な小規模言語モデルが求められている。
    • 既存の小規模言語モデルは,複雑で未知のコードベースへの汎化能力が低いという課題がある。
    • リポジトリ中心型学習を通じて,モデルが特定のソフトウェア環境の特性を内部化し,効率的な推論を可能にすること。
    • リポジトリ中心型学習は,タスク中心型学習と比較して,より高い学習効率と低い推論コストを実現することが示された。
    • SWE-Spot-4Bは,既存のオープンウェイトモデルや商用モデルを凌駕する性能を示し,スケーリングの従来の傾向を覆した。
    • リポジトリの専門知識は,一般的なコーディング能力を補完する,効率的な知能構築における重要な要素であることが強調された。

    Link: https://arxiv.org/abs/2601.21649

  • ダイアル・ア・ライド問題に対する近似解法の改良 [eess.SY, cs.SY, cs.DS]目的:複数車両によるダイアル・ア・ライド問題の近似解法
    • 配車や輸送の効率化に不可欠であり,経済的にも重要な課題である。
    • 既存の解法では,計算時間と解の精度のバランスが課題となっていた。
    • 計算時間と精度を両立した,より効率的な近似解法を提案すること。
    • 提案アルゴリズムの一つは,既存の近似比を維持しつつ,計算時間を改善した。
    • もう一つのアルゴリズムは,異なる近似比を達成し,状況に応じた選択肢を提供する。
    • 特定の条件下では,単一車両版のダイアル・ア・ライド問題における既存の最良近似比も改善された。

    Link: https://arxiv.org/abs/2601.21652

  • 分割不可能な容量制車両経路問題に対する近似解の改良 [cs.DS]目的:分割不可能な容量制車両経路問題の近似解法
    • 組合せ最適化問題の中でも特に重要な問題であり,物流コスト削減に貢献する。
    • 既存の近似アルゴリズムでは,最適な解への距離がまだ大きく,改善の余地がある。
    • より効率的な近似アルゴリズムを開発し,解の精度向上を目指す。
    • 固定容量制車両の場合,既存のアルゴリズムより良い近似比である3.0897を達成した。
    • 一般的な容量制車両の場合,近似比3.1759を達成し,こちらも既存のアルゴリズムを上回る。
    • Blauthらの結果を用いることで,両方の近似比はさらに改善可能である。

    Link: https://arxiv.org/abs/2601.21660

  • オープンワールドにおけるインクリメンタルフィンガープリンティング [cs.MM, cs.CL, physics.data-an, eess.SY, cs.SY, cs.CR, cs.LO]目的:ネットワークプロトコルの実装識別手法
    • ネットワークセキュリティにおいて,プロトコル識別の重要性は高まっている。
    • 従来のフィンガープリンティングは,全ての実装モデルを事前に把握している前提で動作する。
    • 未知の実装に対する誤分類を減らし,正確なプロトコル識別を可能にすること。
    • 本研究では,アクティブオートマト学習とクローズドワールドフィンガープリンティングを組み合わせた手法を提案。
    • 提案手法は,既存モデルとのマッチングを迅速に行い,マッチしない場合は新たなモデルを学習する。
    • 実験結果から,誤分類の削減とブラックボックスとのインタラクションの低減が確認された。

    Link: https://arxiv.org/abs/2601.21680