arXiv雑要約

プログラム - 2026/04/02 公開

保証 2.0 論証における信頼度の定量化 [cs.AR, cs.DC, cs.SE, cs.LO]目的：保証ケース論証の確率的信頼度評価手法
- 安全性評価において，信頼度は不可欠であり，その定量化が重要視されている。
- 既存手法では，信頼度評価が主観的であり，客観性に課題がある。
- 保証ケース論証の信頼度を，確率論に基づき客観的に評価すること。
- 提案手法は，既存手法の反例に該当せず，信頼度評価の有効性が確認された。
- 本手法は，論理的不可謬性や弁証法的検討と併用することで，より高度な評価が可能となる。
- リスクレベルに応じた費用対効果の検討や，論証全体の信頼度バランス評価に役立つ。
Link: https://arxiv.org/abs/2604.00034
プログラムの終了判定のためのTransformer [cs.PL, cs.LG]目的：プログラムの終了判定
- プログラムの正当性，検証，セキュリティ確保において，プログラムの終了判定は不可欠である。
- 非終了プログラムのサンプルが極端に少ないため，正確な終了判定が困難である。
- Transformerを用いたアンサンブル学習により，終了判定の精度向上を目指す。
- コンパクトなTransformerエンコーダのアンサンブルを構築し，不均衡損失関数とクラス対応サンプリング技術を組み合わせることで，単一のTransformerよりも高い性能を達成した。
- 強力な既存のLLMやグラフベースの手法と比較しても，本研究のアプローチは優れた性能を示すことが確認された。
- 構文を考慮した終了判定の説明を生成するアトリビューションパイプラインを導入した。
Link: https://arxiv.org/abs/2604.00039
DriftScript：非公理的推論エージェントのためのドメイン特化言語 [cs.PL, cs.AI]目的：非公理的推論システムにおける利用性の高いプログラミング言語の開発
- 不確実な状況下での意思決定を支援する人工知能研究において重要である。
- 既存のNarsese言語は記述が難しく，可読性や保守性に課題があった。
- Narseseの課題を克服し，より直感的で使いやすいプログラミング環境を提供する。
- DriftScriptは，NarseseにコンパイルされるLispライクなドメイン特化言語として設計された。
- 本研究では，DriftScriptの言語設計，コンパイラアーキテクチャ，および性能評価を行った。
- DriftScriptプログラムは，外部システムとの連携が可能であり，自律エージェントの実現に貢献する。
Link: https://arxiv.org/abs/2604.00043
非構造化ドキュメントにおけるエンタープライズアーキテクチャ負債分析のための大規模言語モデル [cs.SE, cs.LG]目的：エンタープライズアーキテクチャ負債の特定と定量化
- ITシステムの複雑化に伴い，アーキテクチャの健全性維持が重要になっている。
- アーキテクチャ負債の早期発見が困難であり，手動による分析に依存している。
- 非構造化ドキュメントからアーキテクチャ負債を自動的に検出し，分析を支援すること。
- 大規模言語モデルが非構造化テキスト中のEA Smellを複数検知できることが示された。
- カスタムGPTベースのモデルは，より高い精度と処理速度を示した。
- ファインチューニングされたオンプレミスモデルは，データ保護の利点を提供する。
Link: https://arxiv.org/abs/2604.00046
LLMベースの環境分析のエネルギー消費量：LLMとドメイン製品 [cs.SE, cs.AI]目的：LLMベースの環境分析におけるエネルギー消費量の評価
- 気候変動や環境問題への関心の高まりから，LLMの応用が拡大しており，そのエネルギー消費量の把握が重要である。
- LLMの運用は膨大なエネルギーを消費する可能性があり，環境負荷の軽減が課題となっている。
- ドメイン特化型LLMシステムの設計がエネルギー消費量に与える影響を明らかにすること。
- ドメイン特化型RAGシステムのエネルギー消費量は設計に大きく依存し，特に高度なエージェントパイプラインでは増加する傾向にある。
- 追加の精度や検証チェックはエネルギー消費量を増加させるが，必ずしも応答品質の向上に繋がるとは限らない。
- 本研究は，ドメイン特化型LLM製品の設計がエネルギー消費量と出力品質の両方に与える影響に関する新たな知見を提供する。
Link: https://arxiv.org/abs/2604.00053
企業自動化にはターミナルエージェントで十分 [cs.SE, cs.AI, cs.CL]目的：企業における有意義なタスクの自律的な実行
- 企業活動の効率化が求められる中，自動化技術の重要性は増している。
- 複雑なエージェントシステムは，コストや運用面で課題を抱えている。
- よりシンプルで効率的な企業自動化手法の確立を目指す。
- ターミナルとファイルシステムのみを備えたコーディングエージェントが，多くの企業タスクにおいて効果的に機能することが示された。
- 複雑なエージェントアーキテクチャと同等またはそれ以上のパフォーマンスを，多様な実世界システムで実現した。
- 強力な基盤モデルとシンプルなプログラミングインターフェースの組み合わせが，実用的な企業自動化に十分であることが示唆された。
Link: https://arxiv.org/abs/2604.00073
ラベルが少ない状況下におけるコード脆弱性検出：体系的マッピング [cs.CR, cs.SE]目的：ラベル効率の良いコード脆弱性検出手法の体系的分類
- ソフトウェアの安全性確保は重要であり，脆弱性検出は不可欠なプロセスである。
- 脆弱性ラベルの作成にはコストと労力がかかり，品質もプロジェクトや言語によってばらつく。
- 人的なラベルへの依存度を低減し，実用的な脆弱性検出手法の選択を支援する。
- 既存の研究を5つのパラダイムファミリーに分類し，各手法のメカニズムを体系的に整理した。
- トークン，グラフ，ハイブリッド，知識ベースといったコード表現との関連性を明らかにした。
- 手法選択におけるトレードオフや失敗モードをまとめた「デザインマップ」と「決定ガイド」を提示した。
Link: https://arxiv.org/abs/2604.00079
マイクロサービスアーキテクチャのトポロジーが性能とエネルギー消費に与える影響に関する実証研究 [cs.SE, cs.PF]目的：マイクロサービスアーキテクチャにおけるトポロジーと性能・エネルギー消費の関係の定量化
- 現代のソフトウェアシステムにおいて，マイクロサービスアーキテクチャは重要な役割を担っている。
- クラウド環境での利用拡大に伴い，マイクロサービスのエネルギー効率が課題となっている。
- マイクロサービスアーキテクチャのトポロジーがエネルギー効率に与える影響を明らかにすること。
- 実験の結果，マイクロサービスのエネルギー効率はトポロジーに依存することが示された。
- システム規模が大きくなるにつれてエネルギー消費が増加し，特にMeshやChainトポロジーで顕著であった。
- ProbabilisticやParallel Fan-Outトポロジーは，CPU負荷の高い条件下で最もエネルギー効率が良いことが示唆された。
Link: https://arxiv.org/abs/2604.00080
Transformerに基づくモデルを用いた効率的なソフトウェア脆弱性検出 [cs.DB, cs.CR, cs.LG, cs.SE]目的：ソフトウェア脆弱性の効率的な検出手法
- 現代のコンピュータシステムの安全性と信頼性を確保する上で，ソフトウェアの脆弱性検出は不可欠である。
- 深層ニューラルネットワークは脆弱性検出で成果を上げているが，脆弱なコード全体の文脈情報を捉える能力に課題がある。
- Transformerの能力を活用し，脆弱なコードの局所的・大域的な文脈情報を捉え，高精度な脆弱性検出を実現する。
- Transformerを用いた脆弱性検出により，C/C++コードの脆弱性を高精度に特定できることが示された。
- プログラムスライスを用いることで，API関数呼び出し，配列使用，ポインタ操作，算術式などの重要な構文・意味特徴を捉えることができた。
- データバランス調整とハイパーパラメータの最適化により，限られた計算資源と学習時間でロバストかつ効率的な脆弱性検出が可能となった。
Link: https://arxiv.org/abs/2604.00112
ドメイン理解から設計準備へ：GenAI支援によるソフトウェアエンジニアリング学習プレイブック [eess.SY, cs.SY, math.OC, cs.SE, cs.AI]目的：GenAI（生成AI）を用いたソフトウェアエンジニアリング学習における教育実践
- ソフトウェア開発には，専門知識に加え，ドメイン理解やモデリング手法など，周辺知識の迅速な習得が不可欠である。
- 従来の教育方法では，ドメイン知識の習得に時間がかかり，実践的な設計能力の育成が課題となっている。
- 本研究では，GenAIを活用し，ドメイン知識の習得と設計能力の向上を支援する教育方法を模索する。
- カスタマイズされたChatGPT（GPT-3.5）を用いた実験の結果，回答の正確性は98.9%と高く，関連性も92.2%であった。
- 教育的価値も高く（89.4%），認知負荷も適切（82.78%）であったが，サポート性は低め（37.78%）であった。
- 学生の自己効力感は，GenAI支援によるドメイン学習とDDDの応用において，有意に向上した。
Link: https://arxiv.org/abs/2604.00120
オープンで信頼性が高く，協調的なツール利用AIエージェントのためのコミュニティ主導型フレームワーク [cs.AI, cs.SE]目的：ツール利用AIエージェントのための信頼性向上
- AIエージェントの活用範囲拡大には，外部ツールとの連携が不可欠である。
- 既存研究はツール利用の正確性に偏りがちで，ツールの信頼性自体が課題となっていた。
- ツールの信頼性を高め，再現性とタスク性能の向上を目指す。
- OpenToolsは，標準化されたツールスキーマとプラグアンドプレイ可能なラッパーを提供し，ツールの評価を容易にする。
- コミュニティからの貢献により，既存のツールボックスを上回る高品質なタスク固有ツールが開発された。
- 実験結果から，OpenToolsは再現性とタスク性能を向上させ，ツールの信頼性が重要であることが示された。
Link: https://arxiv.org/abs/2604.00137
リポジトリ規模のコード修復タスクにおける故障局所化粒度の影響に関する研究 [cs.SE, cs.AI]目的：リポジトリ規模のコード修復タスクにおける故障局所化粒度の影響の評価
- 大規模なソフトウェア開発では，バグの修正が不可欠であり，自動化技術の重要性が高まっている。
- リポジトリ規模のコード修復では，故障局所化の精度が課題であり，粒度の影響は十分に解明されていない。
- 本研究は，故障局所化の粒度がコード修復の成功率に与える影響を定量的に評価することを目的とする。
- 故障局所化において，関数レベルの粒度が，行レベルおよびファイルレベルよりも高い修復率を示すことが確認された。
- ただし，最適な粒度はタスクに依存する可能性が示唆された。
- 本研究は，リポジトリ規模のコード修復における故障局所化とコード修復の関係を調査するための概念実証を提供する。
Link: https://arxiv.org/abs/2604.00167
生成AIによって開発された情報システムの統一アーキテクチャメタモデル [cs.SE, cs.AI, cs.LO]目的：LLM指向アプリケーションのための統一アーキテクチャの構築
- AI技術の進化は，情報システム開発に革新をもたらしており，その重要性は増している。
- 情報システムの表現が体系化されておらず，層間の整合性が欠けているという課題がある。
- LLMを活用した開発における，体系的で再現性のあるアーキテクチャを確立することを目標とする。
- 提案された統一アーキテクチャメタモデルは，人間とモデル間のインターフェースとして有効であることが確認された。
- 構造化されたアーキテクチャコンテキストを用いることで，生成されるドキュメントとコードの品質が安定することが示された。
- アーキテクチャ図の最適化や文脈オーケストレーションの拡充により，さらなる改善が期待される。
Link: https://arxiv.org/abs/2604.00171
AIエージェントの喧騒を理解する：導入，アーキテクチャ，実務家の教訓 [cs.SE, cs.AI, cs.NI]目的：AIエージェントの導入状況とアーキテクチャに関する実務家の知見
- AI技術の進化に伴い，自律的なシステムへの期待が高まっているため。
- 実務におけるAIエージェントの設計・導入に関する体系的な理解が不足している。
- 実務家の発表内容を分析し，AIエージェントの導入パターンを明らかにすること。
- 企業におけるAIエージェントの導入は，自動化，効率化，新たな価値創造を目的としている。
- LLMを基盤とするエージェントアーキテクチャの共通パターンが特定された。
- 応用分野は多岐にわたり，技術スタックも多様である。
Link: https://arxiv.org/abs/2604.00189
単一基準メトリック$r$-支配集合問題に対するマイナー保存サポート [eess.SY, cs.SY, cs.DB, cs.DS, cs.CG]目的：頂点重み付きメトリック$r$-支配集合問題の$O(1)$-近似アルゴリズム
- グラフ理論は，ネットワーク分析や最適化問題に応用され，現実世界の様々な問題をモデル化する上で重要である。
- 大規模グラフにおける$r$-支配集合問題は，計算困難であり，効率的な近似アルゴリズムの開発が求められている。
- この研究は，平面グラフ上の頂点重み付きメトリック$r$-支配集合問題に対し，効率的な単一基準近似アルゴリズムを開発することを目指す。
- 平面グラフ上の頂点重み付きメトリック$r$-支配集合問題に対し，多項式時間で動作する$O(1)$-近似アルゴリズムを提案した。
- 提案手法は，Chanらの準一様サンプリングと，半径$r$のボールシステムのシャローセル複雑性を線形に抑えることに基づいている。
- Voronoi細胞の縮約に基づくサポートグラフの構築や，深度3の細胞の数え上げに関する幾何学的議論が鍵となる。
Link: https://arxiv.org/abs/2604.00219
パフォーマンス回帰検出のためのリスクを考慮したバッチテスト [cs.SE, cs.LG, cs.PF]目的：パフォーマンス回帰の検出における，リスクを考慮したバッチテストの有効性
- 大規模CIシステムにおいて，パフォーマンス回帰テストは不可欠だが，全テストの実行はコストが嵩む
- 従来のバッチテスト戦略は，コミットごとの異質性を考慮せず，実用性に課題があった
- 機械学習によるコミットリスクと適応的バッチングを統合し，CIリソース消費を削減すること
- Mozilla Firefoxを用いた実験により，CodeBERTを用いたリスク推定でROC-AUC 0.694を達成
- リスクを考慮したバッチテスト戦略（RAPB-la）により，テスト実行回数を32.4%削減
- RAPB-laは，フィードバック時間を3.8%短縮し，年間インフラコストを約491Kドル削減
Link: https://arxiv.org/abs/2604.00222
タルスキー固定点のクエリ複雑性：謎は深まる [cs.CC, cs.DS]目的：タルスキー固定点探索におけるクエリ複雑性の解析
- 計算複雑性理論において，問題解決に必要な計算資源の定量化は重要である。
- タルスキー固定点問題のクエリ複雑性には未解決の問題が多く残されている。
- 高次元格子におけるタルスキー固定点探索の効率的なアルゴリズムを設計すること。
- ４次元格子$[n]^4$におけるタルスキー固定点探索に対し，$O(\log^2 n)$クエリのアルゴリズムを提示した。
- 定数$k$に対し，$O(\log^{\lceil (k-1)/3\rceil+1} n)$クエリのアルゴリズムを導出し，既存の上界を改善した。
- 新たな枠組みである「安全な部分情報関数」を導入し，アルゴリズム設計に直接活用した。
Link: https://arxiv.org/abs/2604.00268
完全動的凸包の構築 [cs.CG, cs.DS]目的：凸包の動的維持と幾何学的クエリのサポート
- 幾何学計算の基礎であり，様々な応用分野で利用されているため。
- 点の挿入・削除に対する効率的な動的更新が課題であった。
- 効率的な更新とクエリを両立する新たなアルゴリズムを提案する。
- 提案手法は，更新処理において漸近的に$O(\log n \log \log n)$の計算量を達成する。
- クエリ処理は$O(\log^2 n)$の計算量で実行可能であり，特に点の数が多い場合に優位性を示す。
- 既存の手法と比較して，ロバスト性においても安定した結果が得られた。
Link: https://arxiv.org/abs/2604.00271
大規模言語モデルを用いたステートマシンモデリングのための構造駆動型・イベント駆動型フレームワーク [cs.SE]目的：自然言語要求からUMLステートマシンの自動生成
- ソフトウェア工学において，ステートマシン設計は重要なプロセスである。高品質なソフトウェア開発に不可欠な要素。
- 従来のステートマシン作成は手作業であり，時間と労力を要する。また，人的ミスが発生しやすいという課題がある。
- 自然言語要求からステートマシンを自動生成し，ソフトウェア開発の効率化と品質向上を目指す。
- 大規模言語モデルは，自然言語要求からステートマシンを生成する潜在能力を示す。特にClaude 3.5 Sonnetは高い性能を示す。
- 構造駆動型およびイベント駆動型フレームワークを導入することで，モデルの生成精度が向上する。
- 現在のLLMには限界もあるため，完全な自動化には更なる研究が必要である。ハイブリッドアプローチはGPT-4oの性能を向上させる。
Link: https://arxiv.org/abs/2604.00275
VeriAct：検証可能性を超えて - 正確かつ完全な形式仕様の能動的合成 [cs.SE, cs.AI]目的：正確かつ完全な形式仕様の自動合成
- ソフトウェアの信頼性確保において，形式仕様は不可欠な役割を担う分野である。
- 高品質な形式仕様の自動合成は難しく，専門知識が要求されるという課題がある。
- 検証合格だけでは不十分な，形式仕様の正確性と完全性を高めることを目指す。
- 従来のプロンプトベースのアプローチとVeriActを比較した結果，VeriActの方が検証合格率，正確性，完全性の全てで優れていることが示された。
- 検証合格仕様の多くが，実際には不正確または不完全であり，入力と出力に関して過剰または不十分な制約を持っていることが判明した。
- Spec-Harnessを用いることで，検証器だけでは見えない仕様の不備を検出可能となり，より信頼性の高い形式仕様の作成に貢献する。
Link: https://arxiv.org/abs/2604.00280
生成コードが理解困難になるのはいつか？AIエージェントPythonコードの習熟度評価 [cs.SE]目的：AIエージェント生成Pythonコードの習熟度
- ソフトウェア開発において，コード読解は重要な時間的コストを占める。
- AIエージェント生成コードの言語的習熟度と複雑さは未解明な点が多い。
- AI生成コードの維持に必要な開発者のスキルレベルを特定すること。
- AIエージェントが生成するコードは，主に基礎レベル(A1, A2)に集中しており，高度なレベル(C2)のコードは1%未満であった。
- AIエージェントと人間のプルリクエストは，全体的に類似した習熟度プロファイルを示した。
- AIエージェントによる高習熟度コードは，機能追加やバグ修正タスクで生成される傾向があった。
Link: https://arxiv.org/abs/2604.00299
安定アルゴリズムは孤立したパーセプトロン解を確実に発見できない [cs.DB, cs.CC, cs.DS, math-ph, math.MP, math.PR]目的：孤立したパーセプトロン解のアルゴリズム的発見可能性
- 制約充足問題の難易度とアルゴリズムの限界を理解する上で重要。
- 孤立解は発見が困難であり，効率的なアルゴリズムが存在しない可能性がある。
- 安定アルゴリズムによる孤立解の発見限界を明らかにすること。
- 安定アルゴリズムが孤立解を確実に発見できる確率は，約0.84233以下であることが示された。
- 高確率で解を見つける安定アルゴリズムは，孤立解を見つける確率は無視できる程度である。
- この結果は，強孤立解の発見には指数時間が必要であることを示唆している。
Link: https://arxiv.org/abs/2604.00328
ランダム化貪欲マッチングアルゴリズム解析のための統一的枠組み [eess.SY, cs.SY, cs.DS]目的：ランダム化貪欲マッチングアルゴリズムの近似率向上
- グラフマッチングは，ネットワーク構造の分析や最適化において重要な役割を果たす。
- 既存の貪欲アルゴリズムは，近似率の改善の余地が残されている。
- 様々なランダム化貪欲アルゴリズムを統一的に解析し，近似率を向上させる。
- Rankingアルゴリズムの近似率を0.560まで向上させ，既存の0.5469を上回る結果を得た。
- FRankingアルゴリズムの近似率を0.539まで向上させ，既存の0.521を上回る結果を得た。
- 短奇サイクルを持たないグラフや，特定のサイクル構造を持つグラフにおいても，より高い近似率を証明した。
Link: https://arxiv.org/abs/2604.00331
EvolveTool-Bench：LLM生成ツールライブラリのソフトウェア成果物としての品質評価 [cs.RO, cs.SY, eess.SY, cs.SE, cs.AI]目的：LLM生成ツールライブラリのソフトウェア品質の評価
- LLMエージェントの進化に伴い，動的にツールを生成する重要性が増している。
- 既存の評価は，タスク完了のみに焦点を当て，ソフトウェア品質が見過ごされている。
- LLM生成ツールライブラリを，ソフトウェア成果物として評価する新たなベンチマークを提案する。
- EvolveTool-Benchは，再利用性，冗長性，安全性など，ライブラリレベルのソフトウェア品質指標を定義した。
- タスク完了率が同程度でも，ツールライブラリの健全性には最大18%の差が見られた。
- LLM生成ツールは，ブラックボックスではなく，ソフトウェア成果物として評価・管理する必要がある。
Link: https://arxiv.org/abs/2604.00392
効率的なDPFベースの誤り検出型情報理論的秘密情報検索（リング上） [cs.CR, cs.IT, math.IT]目的：リング上での情報理論的な誤り検出型秘密情報検索の効率化
- データ利用者のプライバシー保護は重要であり，秘密情報検索はそのための基盤技術である。
- 従来のAPIRは，有限体構造に依存し，鍵サイズが巨大化したり，通信オーバーヘッドが生じる問題があった。
- 素数冪剰数環に基づく新しい方式により，鍵サイズの削減と通信効率の向上を目指す。
- 提案手法は，従来のAPIRが抱える有限体構造の制約を打破し，効率的なDPF利用を可能にする。
- 鍵サイズの増大を抑制し，高セキュリティなシナリオでの実現可能性を高める。
- 単一のitDPF鍵設計により，クエリ側の通信オーバーヘッドを半減させ，プライバシーや検証可能性を損なわない。
Link: https://arxiv.org/abs/2604.00411
シャプレー値に基づく導関数を用いないニューラルネットワーク修復アプローチ [cs.SE, cs.LG]目的：ニューラルネットワークの欠陥修復
- 深層学習モデルの信頼性は重要であり，バックドア攻撃や不公平性といった欠陥への対策が不可欠である。
- 既存手法は勾配計算に依存したり，解釈性の低い局所化と修復を行うため，汎用性に課題がある。
- 本研究は，勾配計算を必要とせず，解釈可能な局所化と進化最適化を組み合わせた修復手法を提案する。
- SHARPENは，Deep SHAPを用いた解釈可能な欠陥局所化戦略により，各層・ニューロンの貢献度を定量化する。
- CMA-ESを導入することで，勾配計算なしで変数間の依存関係を考慮した修復が可能となる。
- バックドア除去，敵対的緩和，不公平性修復の各タスクにおいて，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2604.00422
チャットによるプログラミング：11,579件の実世界AI支援IDEセッションの大規模行動分析 [cs.SE, cs.HC]目的：AI支援IDEセッションにおける開発者の行動様式
- ソフトウェア開発においてAIの役割が増加しており，その影響を理解する必要がある。
- AI支援IDEの実際の利用状況に関する大規模な実証研究が不足している。
- AI支援IDEにおける開発者の行動変容を明らかにすること。
- 会話型プログラミングは，完全なタスクを一括指定するのではなく，開発者が出力を反復的に洗練させる漸進的な仕様として機能する。
- 開発者は，診断，理解，検証といった認知的な作業をAIに委ね，直接コードや出力と対峙する頻度を減らしている。
- 開発者は，計画を永続的な成果物として外部化し，コンテキスト注入や行動制約を通じてAIの自律性を交渉するなど，協調作業を積極的に管理している。
Link: https://arxiv.org/abs/2604.00436
確率的探索における大きな決定優先法：書記官問題，預言者問題，確率的プロービング [cs.DS, cs.GT]目的：不確実性下アルゴリズムにおける書記官問題，預言者問題，確率的プロービングの近似解法
- 不確実性下での意思決定は，最適解を見つけることが難しく，実用的な近似解法が求められる。
- 既存手法では，値が二値でない場合に，二値化による性能劣化が発生し，近似率にギャップが生じる。
- 大きな価値を持つ決定を早期に解決することで，近似解の精度向上を目指す。
- 書記官問題と預言者問題については，$\tilde{\Omega}(\log^2 n)$の困難性を示すことができた。
- 確率的プロービングについては，$O(\log n)$近似アルゴリズムを開発した。
- これらの結果は，不確実性下では，高リスクの決定を優先的に行うことが有効であるという「大きな決定優先法」に基づいている。
Link: https://arxiv.org/abs/2604.00437
LDMDroid：Androidアプリにおけるデータ操作エラー検出のためのLLM活用 [cs.SE]目的：Androidアプリにおけるデータ操作エラーの検出
- Androidアプリの信頼性確保において，データ操作機能の正確性は不可欠である。
- UI操作シーケンスへの依存や論理的なバグとして現れるため，データ操作エラーの検出は困難である。
- LLMを活用し，データ操作機能のトリガー成功率向上とエラー検証精度の改善を目指す。
- LDMDroidは，状態を考慮したプロセスを通じてLLMがUIイベントシーケンスを生成し，データ操作機能のトリガー成功率を向上させる。
- 視覚的特徴を用いてデータ状態の変化を検出し，データ操作エラーの検証精度を改善する。
- 24のAndroidアプリでの評価で，既存手法と比較してデータ操作機能のトリガー成功率が向上し，17個のバグを発見した。
Link: https://arxiv.org/abs/2604.00458
生成と実行の同時実行：LLM コード生成における実行待ち時間の隠蔽 [cs.CL, eess.SY, cs.SY, cs.PL, cs.AI, cs.SE]目的：LLM コード生成における実行待ち時間の削減
- 大規模言語モデル(LLM)によるコード生成は，ソフトウェア開発の自動化に貢献し，生産性向上に不可欠である。
- 従来のLLMコード生成は逐次実行のため，生成時と実行時のアイドル時間が発生し，全体の待ち時間が長くなる。
- 生成と実行を並行して行うことで，アイドル時間を削減し，コード生成から実行までの時間を短縮することを目指す。
- 提案手法Eagerは，ASTに基づくチャンク分割，動的バッチ処理，早期エラー中断により，実行待ち時間を大幅に削減する。
- 実験結果から，Eagerは非オーバーラップ実行待ち時間を最大99.9%，エンドツーエンド実行待ち時間を最大55%削減できることが示された。
- LLMがコードトークンを逐次的に生成することに着目し，人間とは異なる特性を活かした並列実行パイプラインを構築した。
Link: https://arxiv.org/abs/2604.00491
オープンセットテストストリームにおける多数からの学習と未知への適応 [cs.LG, cs.IT, math.IT]目的：大規模言語モデルの，進化するタスクと継続的な分布シフト下での脆弱性の克服
- 自然言語処理の進歩は，多様なタスクへの適応能力に依存しており，その重要性は高い。
- 現在の適応手法は，既存知識の保持と適応信号の信頼性に課題が残されている。
- 本研究は，効率的なパラメータ更新とノイズ抑制により，継続的な変化への安定した適応を目指す。
- 提案手法SyCoは，低ランクアダプターを通じて効率的にモデルを適応させる。
- Rac1とMAPK経路を模倣した構造化TTAにより，既存知識の保持と信頼性の高い更新を実現した。
- 18のNLPデータセットとMOA設定において，既存手法を上回り，高い適応性能を示した。
Link: https://arxiv.org/abs/2604.00533
オントロジー制約によるニューラル推論：企業エージェントシステムにおけるドメインに基づいたAIエージェントのためのニューロシンボリックアーキテクチャ [cs.DL, cs.AI, cs.CL, cs.SE]目的：企業向けエージェントシステムのニューラル推論におけるオントロジー制約の導入
- 企業におけるLLM活用は進むが，ハルシネーションやドメインドリフト，規制遵守の課題が存在する。
- LLMは知識の根拠が不明確であり，企業での信頼性と正確性が求められる。
- オントロジーを用いてLLMの推論を制約し，信頼性と正確性を向上させる。
- 本研究では，役割，ドメイン，相互作用の3層オントロジーを導入し，LLMベースのエージェントに形式的な意味的根拠を提供した。
- オントロジーとの結合により，金融，保険，医療，ベトナムの銀行・保険業界など，5つの業界で高い指標精度，規制遵守，役割一貫性が確認された。
- LLMのパラメータ的知識が弱いドメイン，特にベトナムローカライズド領域において，オントロジーによる制約の効果が大きかった。
Link: https://arxiv.org/abs/2604.00555
量子安全コード監査：LLM支援による静的解析と，ポスト量子暗号への移行のための量子リスクスコアリング [cs.CR, cs.SE, quant-ph]目的：量子コンピュータの脅威に対するコードベースの脆弱性特定と移行優先順位付け
- 現代のソフトウェアセキュリティの基盤であり，量子コンピュータによる攻撃から保護する必要がある。
- 既存のコードベースでは，古典的暗号化の利用状況を自動的に把握し，量子リスクに基づいて移行を優先化するツールが不足している。
- 量子リスクを考慮したコード監査を通じて，ポスト量子暗号への移行を効率化し，ソフトウェアのセキュリティを向上させる。
- 本研究では，15種類の量子脆弱性のある暗号化プリミティブを特定するための静的解析フレームワークを開発した。
- LLMを用いて利用状況と深刻度を分類し，VQEモデルを用いて量子リスクスコアリングを実現した。
- 5つのオープンソースライブラリの評価により，71.98%の適合率，100%のリコール，83.71%のF1スコアを達成した。
Link: https://arxiv.org/abs/2604.00560
有限体上のテンソル同型完全問題の平均計算量複雑性地形について [cs.CC, cs.DS, math.PR]目的：有限体上のテンソル同型完全問題に対する平均計算量アルゴリズムの解析
- テンソル同型問題は，群，代数，多項式などの同型性問題に応用可能であり，計算複雑性理論において重要である。
- 既存のアルゴリズムは指数時間で動作するか，成功率が低いという問題があった。
- 有限体上のテンソル同型完全問題に対する効率的な平均計算量アルゴリズムを開発し，複雑性地形を明らかにすること。
- 有限体上の代数同型性および行列コード共役問題に対し，入力の$1/\Theta(q)$の割合で成功する平均計算量多項式時間アルゴリズムを開発した。
- 4-テンソル同型性問題に対し，$1/q^{\Theta(1)}$の割合で成功する平均計算量多項式時間アルゴリズムを開発した。
- ランダム行列のスペクトル特性をテンソル同型完全問題のアルゴリズムに導入し，新たな疑問を提起した。
Link: https://arxiv.org/abs/2604.00591
エラー訂正・検知のための最小距離：一般化ネットワーク符号について [cs.HC, cs.IT, math.IT]目的：一般化ネットワーク符号におけるエラー訂正と検知のための最小距離の定義と特徴付け
- ネットワーク符号は，通信における信頼性向上のために不可欠な技術である。
- 非線形ネットワーク符号では，訂正と検知の最小距離が一致しない場合がある。
- 一般化ネットワークチャネルと符号の枠組みで，訂正・検知距離を体系的に定義し，その関係を明確にする。
- 一般化ネットワーク符号におけるエラー訂正と検知の最小距離を明確に定義した。
- 訂正と検知の距離に関する上限を導出し，距離間の関係性の理解を深めた。
- 訂正と検知を同時に行う際の距離を特徴付け，包括的な評価を可能にした。
Link: https://arxiv.org/abs/2604.00647
LibScan：反復的フィードバックと静的検証によるスマートコントラクトライブラリの誤用検出 [cs.SE, cs.CR]目的：スマートコントラクトにおけるライブラリの誤用
- ブロックチェーン技術は金融取引の安全性を高めるが，その脆弱性は重大な損失につながる。
- ライブラリの誤用は発見が難しく，既存の自動ツールでは意図の理解が不可欠となる。
- ライブラリの誤用を検出し，スマートコントラクトのセキュリティ向上に貢献すること。
- LibScanは，LLMベースのセマンティック推論とルールベースのコード分析を組み合わせることで，8種類のライブラリ誤用を検出する。
- 反復的な自己修正メカニズムと大規模な実証研究に基づいた構造化された知識ベースを組み込むことで，検出信頼性を高めている。
- 662個の実世界スマートコントラクトの実験で，全体検出精度85.15%を達成し，既存ツールを16%以上上回る結果を得た。
Link: https://arxiv.org/abs/2604.00657
SCPatcher：検索拡張生成と知識グラフによるスマートコントラクトコードの自動修復 [cs.SE]目的：スマートコントラクトの脆弱性自動修復
- スマートコントラクトは不変性ゆえに，脆弱性が多大な経済的損失につながる可能性がある。
- 既存のツールは脆弱性の検出はできるが，効果的な修復は困難である。
- 検索拡張生成と知識グラフを組み合わせ，脆弱性を正確に修正する。
- SCPatcherは，5,000件の検証済みEthereumコントラクトから知識グラフを構築し，関数レベルの関係性を活用した。
- 2段階の修復戦略（知識誘導修復とChain-of-Thought推論）により，多様な脆弱性に対して81.5\%の修復率を達成した。
- コンパイル成功率は91.0\%であり，既存手法を大幅に上回る結果が得られた。
Link: https://arxiv.org/abs/2604.00687
葉の数が多いか少ないかの幅優先探索木 [cs.DS, cs.CC, cs.DM]目的：最大（最小）葉スパン木問題の解析
- グラフ探索アルゴリズムは，様々な問題に応用され，その効率性が重要である。
- スパン木の葉の数を最大化/最小化する問題は，計算困難であることが知られている。
- 幅優先探索木における葉の数の最大化/最小化問題の計算複雑性を明らかにする。
- 汎用探索，幅優先探索，辞書順幅優先探索の探索木において，葉の数でパラメータ化するとFPTとなる。
- 汎用探索，幅優先探索，辞書順幅優先探索の探索木において，内部頂点の数でパラメータ化するとW[1]-困難となる。
- 古典的およびパラメータ化された複雑性解析を行った。
Link: https://arxiv.org/abs/2604.00691
アクセスポリシー違反検査とインジェクション攻撃によるREST APIファジングの強化 [cs.NI, cs.SE, cs.CR]目的：REST APIにおけるアクセスポリシー違反およびインジェクション攻撃の検出
- REST APIは広く利用されており，そのセキュリティ確保は重要である。脆弱性はクラウド基盤に深刻な影響を及ぼす可能性がある。
- 既存のファジング技術は主にクラッシュ検出に焦点を当てており，セキュリティ脆弱性の検出は十分ではない。
- 本研究は，アクセスポリシー違反やSQLインジェクション等のセキュリティ問題を自動的に検出する技術を開発し，APIのセキュリティテストを強化することを目指す。
- 提案手法は，既存のファザーに組み込むことが可能であり，ファジング後にセキュリティテストフェーズを実行する。
- 実験結果から，提案手法はREST APIにおけるセキュリティ問題を検出できることが示された。
- 検出されたセキュリティ脆弱性に対しては，Java, Kotlin, Python, JavaScript等のテストコードを自動生成可能である。
Link: https://arxiv.org/abs/2604.00702
AutoEG：ブラックボックス型Webアプリケーションにおける既知の第三者脆弱性の悪用 [cs.CR, cs.AI, cs.SE]目的：Webアプリケーションにおける既知の第三者脆弱性の実用的な悪用可能性の検証
- Webアプリケーションは複雑な第三者コンポーネントを使用し，セキュリティリスクが内在するため，継続的な評価が不可欠である。
- 既存のペネトレーションテスト手法は，信頼性の高いエクスプロイトを自動生成できず，実用的なセキュリティ評価の妨げとなっている。
- AutoEGは，脆弱性情報の解析とフィードバック駆動型反復を通じて，エクスプロイトの自動生成と改善を試みる。
- AutoEGは，脆弱性情報を再利用可能なトリガー関数に変換し，攻撃目標に合わせてエクスプロイトを洗練させる。
- 104の実際の脆弱性に対して660件の悪用タスクを実行した結果，平均成功率は82.41%に達した。
- これは，最先端のベースライン（最高32.88%）を大幅に上回る成果である。
Link: https://arxiv.org/abs/2604.00704
高速通信システムのためのエネルギー効率強化された信号星座 [cs.CL, cs.IT, math.IT]目的：多次元信号星座の構築手法
- 通信速度の向上とエネルギー効率の最適化は，現代の通信システムにおいて不可欠である。
- 従来の信号星座設計では，エネルギー効率と信頼性の両立が課題であった。
- シャノン限界以下の信号対雑音比でも信頼性のある通信を実現する。
- 提案手法SCOPTは，信号の持続時間を調整することで，従来の方式よりもエネルギー効率を大幅に向上させる。
- SCOPTは，QAMやAPSKといった標準的な変調方式と互換性があり，実用的な実装に適している。
- 数値解析により，SCOPTが従来のシャノン型星座SCSHと比較して，エネルギー効率で顕著な性能向上を示すことが確認された。
Link: https://arxiv.org/abs/2604.00710
コードグラフにおけるco-3-プレックスを見つけるためのカラム生成アルゴリズム [cs.DS, cs.DM]目的：コードグラフにおける最大co-3-プレックスの発見
- グラフ理論は，ネットワーク構造の解析に不可欠であり，様々な応用分野で利用されている。
- co-3-プレックスの最大化問題はNP困難であり，効率的な解法が求められている。
- コードグラフに特化することで，多項式時間でco-3-プレックスを見つけるアルゴリズムを開発する。
- コードグラフにおけるco-3-プレックスは，孤立した三角形と誘導パスの集合として表現できることが示された。
- 最大co-3-プレックス問題を，補助グラフにおける最大安定集合問題に帰着させることで，効率的なカラム生成アルゴリズムが実現した。
- この手法は，最大頂点・辺重み付き誘導パス問題への新たな応用を示す。
Link: https://arxiv.org/abs/2604.00721
高速決定性分散次数分割 [cs.CL, cs.DS, cs.DC]目的：ローカル環境における，よりバランスの取れた向き付けと次数分割の計算アルゴリズム
- 分散アルゴリズムは，大規模ネットワークにおける効率的な問題解決に不可欠である。
- 既存の次数分割アルゴリズムは計算複雑性が高く，実用性に課題があった。
- 分散環境において，より効率的かつ実用的な次数分割アルゴリズムを開発すること。
- 本研究では，各頂点vにおける次数差異がε・deg(v)以下のバランスの取れた向き付けを，計算複雑度O(ε⁻¹・log n)で実現するアルゴリズムを設計した。
- この結果は，先行研究と比較して計算複雑性を改善し，より効率的な次数分割を可能にする。
- このアルゴリズムを応用することで，(3/2 + ε)Δ-辺彩色問題を，O(ε⁻¹・log² Δ・log n + ε⁻²・log n)ラウンドで解決できることを示した。
Link: https://arxiv.org/abs/2604.00724
CEFRに基づいたファジーC-meansによる分類フレームワーク：Scratchプログラミング技能の自動評価 [cs.CY, cs.AI, cs.LG, cs.SE]目的：Scratchプロジェクト評価のための教育的フレームワーク
- 教育現場や企業において，プログラミング技能を大規模かつ客観的に評価する需要が高まっている。
- 既存の評価方法は，学習者のレベルを明確に区別できず，個別最適化された学習支援が困難である。
- CEFRに基づき，学習者のレベルを客観的に判定し，カリキュラム改善に役立つ情報を提供する。
- ファジーC-meansクラスタリングを用いて200万件以上のScratchプロジェクトを分析し，CEFRレベル（A1-C2）に対応する分類を実現した。
- 「B2ボトルネック」と呼ばれる，Logic SynchronizationやData Representationの認知負荷により，B2レベルの学習者が13.3%に留まっているという課題を特定した。
- 自動評価と教員によるレビューを組み合わせることで，より効果的な学習支援が可能となることを示した。
Link: https://arxiv.org/abs/2604.00730
マルコフ情報源における最適なサンプリングと作動ポリシー [cs.RO, cs.CC, math.CO, math.PR, cs.IT, cs.NI, cs.SY, eess.SY, math.IT]目的：マルコフ過程の状態推定と信頼性の高い作動決定を可能にするデータ管理と情報伝達の効率化
- リアルタイム監視システムにおいて，正確な状態推定と迅速な意思決定は重要な課題である。
- 無線チャネル環境下では，情報の鮮度と正確性を維持することが困難である。
- 不確実性下での誤作動を抑制し，システムの性能を向上させること。
- 誤った情報の年齢（AoII）を最小化するための最適サンプリングと伝送ポリシーを導出した。
- 状態推定の不確実性を考慮した作動コスト関数（CoAU）を導入し，誤作動を削減するランダム化作動ポリシーを提案した。
- 提案ポリシーは，誤作動の確率を大幅に減少させ，システムの性能を向上させることを示した。
Link: https://arxiv.org/abs/2604.00748
ソフトウェアリポジトリマイニングにおける言語モデルの台頭：サーベイ [cs.SE]目的：ソフトウェアリポジトリマイニングにおける言語モデルの利用状況
- ソフトウェア開発の効率化や品質向上に役立つ知見を得る上で，リポジトリ分析は不可欠である。
- 大規模なリポジトリデータを扱うには高度な技術が必要であり，既存手法では限界がある。
- 言語モデルの適用状況を整理し，今後の研究課題を明確にすること。
- 本調査では85本の論文を分析し，言語モデルが幅広いMSRタスクに活用されている現状を明らかにした。
- 言語モデルの利用方法，分析対象，モデルの種類，および経時的な変化に関する分類体系を提案した。
- 今後の研究に向けた課題と方向性を提示し，MSR分野における言語モデルの発展に貢献する。
Link: https://arxiv.org/abs/2604.00787
マルチチャネル影響力最大化における予算配分に対する近似アルゴリズム [cs.DS, cs.DB]目的：マルチチャネルにおける予算配分最適化
- 広告戦略において，限られた予算で最大の効果を得ることは重要である。
- 複数の広告媒体への予算配分は未だ研究が少ない。
- 複数の広告媒体における相乗効果を考慮した予算配分方法を確立する。
- 本研究では，相互作用効果を考慮した影響力関数を提案した。
- 提案手法は，既存手法よりも高い影響力を実現することを示した。
- 近似保証を持つランダム化貪欲法と二段階適応貪欲法を提案した。
Link: https://arxiv.org/abs/2604.00796
エージェント，推論，コーディングLLMに対する「より少なく，さらに良く」 [cs.SE]目的：エージェント能力の向上
- ソフトウェア開発エージェントの性能向上は，ソフトウェア産業の効率化に不可欠である。
- 効果的なエージェント学習には大量のデータが必要であり，データ構築コストが課題となる。
- 高品質な少量のデータで，エージェントの性能を最大化することを目指す。
- STITCHを用いることで，ベースモデルと比較してSWE-bench Verifiedにおいて最大63.16%の性能向上が確認された。
- Multi-SWE-bench (Java)では，MiniMax-M2.5-STITCHがCodeArts Agent scaffoldと組み合わせることで43.75%の性能向上を実現した。
- HarmonyOS (ArkTS)では，GLM-4.7-STITCHが1K未満の学習データでコンパイル成功率を61.31%（+43.34%）に向上させた。
Link: https://arxiv.org/abs/2604.00824
グラフストリームにおけるほぼ最適な4サイクル数え上げ [cs.DS]目的：グラフストリームにおける4サイクル数の$(1+\varepsilon)$-近似
- 大規模グラフ分析において，基本的な構成要素であるサイクル検出は重要である。
- ストリームデータに対する効率的なサイクル数え上げアルゴリズムは未だ課題である。
- 限られたメモリ内で，4サイクルを効率的に数え上げる手法を確立すること。
- 本研究では，$\widetilde{O}(m/\sqrt{T})$ の空間で4サイクル数を$(1+\varepsilon)$-近似する3パスアルゴリズムを提案。
- 提案手法は，Vorotnikovaのアルゴリズムよりも空間効率が向上し，McGregorとVorotnikovaの理論限界に一致。
Link: https://arxiv.org/abs/2604.00828
デザイン合成における大規模言語モデルの信頼性：分散，プロンプトへの感度，および方法論のスキャフォールディングに関する経験的研究 [cs.SE]目的：大規模言語モデルによるデザイン合成の信頼性評価
- ソフトウェア開発の自動化は，開発効率と品質の向上に不可欠である。
- 大規模言語モデルは構文的に正しい図を生成できるが，意味のある設計を保証しない。
- 設計指向の推論を維持しつつ，大規模言語モデルによる信頼性の高いデザイン合成を実現する。
- 優先度ベースのプロンプトは，オブジェクト指向原則とパターンの一貫性を満たす設計を促進する。
- モデルの行動がデザインの信頼性に強く影響し，プロンプトのみでは非決定性を排除できないことが示された。
- 信頼性の高いLLM支援ソフトウェア設計には，効果的なプロンプトだけでなく，モデルの振る舞いと堅牢性への配慮が必要である。
Link: https://arxiv.org/abs/2604.00851