arXiv雑要約

プログラム - 2026/05/19 公開

中間巡回符号とスカラー剰余リード・ミューラー層 [cs.IT, math.IT]目的：中間巡回符号の最小距離の決定
- 符号理論は，情報伝送やデータ保存における誤り検出・訂正の基盤技術である。
- 中間巡回符号の最小距離の正確な決定は困難であり，未解決問題が多い。
- 本研究は，特定の中間巡回符号の最小距離を厳密に決定することを目的とする。
- Sun, Ding, Wangによる符号$C(q,m,r,\ell)$の最小距離に関する上限が，すべての許容されるパラメータに対して正確であることが証明された。
- 非終端スカラー剰余層の最小アフィンサポートが決定され，特定の剰余クラスでのみ最初のReed-Muller重みが存続することが示された。
- 評価モデルの隠れたスカラー同質性，最小Reed-Mullerサポートに対する軌道計数障害，および同種鉛筆構成が証明に利用された。
Link: https://arxiv.org/abs/2605.17022
大規模言語モデルにおけるコード生成におけるタスク拒否 [cs.SE, cs.AI]目的：大規模言語モデルのコード生成におけるタスク拒否のメカニズム
- コード生成の自動化は，ソフトウェア開発の効率化に不可欠である。
- 大規模言語モデルは，誤ったコードを生成する「幻覚」を起こす可能性がある。
- 幻覚のリスクが高いタスクを特定し，コード生成を回避すること。
- 提案手法は，複数の仮説検定に基づいた校正済みの拒否ルールを用いる。
- コード実行結果による生成の一貫性を評価し，正確な拒否判断を可能にする。
- 既存手法と比較して，幻覚を誘発するタスクからの拒否性能が向上し，安全なコード生成に貢献する。
Link: https://arxiv.org/abs/2605.17029
スターグラフにおけるオンライングラフ埋め込み [eess.SY, cs.SY, math.OC, cs.DS]目的：オンライングラフ埋め込み問題における最適なアルゴリズム
- グラフ埋め込みは，仮想ネットワークやVLSI設計など，様々な分野で重要な役割を果たす基盤技術である。
- 現実のグラフは動的に変化するため，静的な埋め込みでは効率が悪いという問題がある。
- 動的な需要に応じてリアルタイムに適応する効率的なオンライン埋め込みアルゴリズムを開発することを目指す。
- スターグラフにおいて，決定的なオンライン埋め込みアルゴリズムの競争率が1.5であることが示された。
- 乱数化アルゴリズムでは，競争率が11/9 ≈ 1.222と，決定的なアルゴリズムよりも改善された。
- 提案された決定論的および確率的アルゴリズムは，競争率の下限によって最適であることが証明された。
Link: https://arxiv.org/abs/2605.17051
範囲は狭まるが，脅威は残る：2026年最先端モデル群におけるLLMパッケージの幻覚の再評価 [cs.CR, cs.LG, cs.SE]目的：LLMパッケージの幻覚率の評価と，それによるサプライチェーン攻撃の可能性
- ソフトウェアサプライチェーンのセキュリティは，現代のソフトウェア開発において極めて重要である。
- LLMが生成する存在しないパッケージ名が，悪意のあるパッケージ登録（slopsquatting）を誘発するリスクがある。
- 最新のLLMにおける幻覚率を測定し，モデル間での共通の幻覚パッケージを特定すること。
- 評価の結果，幻覚率はSpracklenらの研究と比較して大幅に減少したが，脅威は依然として残存していることが示された。
- 5つのモデル全てで同一の幻覚パッケージが127個特定され，モデルに依存しないサプライチェーン攻撃の潜在的な攻撃対象となりうる。
- PythonとJavaScriptにおける幻覚率には非対称性が認められ，Anthropicモデル内ではHaikuとSonnetで逆転した結果が得られた。
Link: https://arxiv.org/abs/2605.17062
次数付きおよび部分構造論理の統一 [cs.LO]目的：次数付きおよび部分構造論理の機構を統合した型システム
- 資源に制約のある計算を扱う型システムは，プログラムの信頼性や効率性に不可欠である。
- 既存の型システムは，資源管理の柔軟性に欠け，特定の計算様式に制限される場合がある。
- 資源管理の柔軟性を高め，多様な計算様式に対応できる型システムの構築。
- GRASS型システムを開発し，変数使用量の制御において最大限の柔軟性を実現した。
- GRASSは，異なる資源概念を同一プログラム内で扱えるように，任意の次数代数群を共存させることを可能にした。
- GRASSの圏論的意味論を確立し，LNL，随伴論理，mGLなど既存のシステムを包含することを示した。
Link: https://arxiv.org/abs/2605.17112
「カスタムメモリ割り当て」の再検討 [cs.PL, cs.SE]目的：カスタムメモリ割り当て戦略の効果検証
- パフォーマンス最適化において，メモリ管理は重要な要素である。
- 汎用メモリ割当器の断片化が，プログラムの実行効率を低下させる場合がある。
- 現代のハードウェア環境下で，カスタム割当器の優位性を改めて検証する。
- Bergerらの結論を支持し，領域ベースのカスタムメモリ割当器の局所性の優位性を実証した。
- ClangとBlenderという大規模な実用アプリケーションを用いた評価を行った。
- 汎用割当器におけるメモリ断片化が局所性に与える影響を分析するための手法を導入した。
Link: https://arxiv.org/abs/2605.17119
1ビットシグマデルタ量子化の軌道に基づく安定性解析とその二次の事例への応用 [cs.IT, math.IT]目的：1ビットシグマデルタ量子化における安定性解析手法の開発
- シグマデルタ量子化は，帯域制限された信号のデジタル表現において重要な役割を担う。
- 従来の安定性条件は保守的であり，実際の安定性限界を超えた性能が期待される。
- より厳密で効率的な安定性条件を導出し，より短いフィルタ長で安定性を保証することを目指す。
- 本研究では，状態変数の軌跡解析を用いることで，従来の条件よりも優れた安定性保証を確立した。
- 特に，二次のシグマデルタスキームにおいて，安定性保証に必要なフィルタ長が大幅に短縮されることを示した。
- この手法は，高次元のインバリアント集合解析が困難な長尺フィルタの解析にも応用可能である。
Link: https://arxiv.org/abs/2605.17127
ニューラルネットワーク検証器に対する，証明可能なロバストな事例を用いたストレステスト [cs.CL, cs.LG, cs.LO, math.OC]目的：ニューラルネットワーク検証器の性能評価のための枠組み
- 機械学習モデルの安全性確保が重要視される中で，検証器はモデルの振る舞いを形式的に保証する役割を担う。
- 既存の検証ベンチマークは正解ラベルの欠如により，検証器の評価が間接的なヒューリスティックに依存している。
- 正解ラベルが事前にわかっている検証事例を生成し，検証器の信頼性向上に貢献する。
- 本研究で開発した枠組みにより，既存の検証器における数値許容誤差や実装上のバグが複数発見された。
- 検証の難易度プロファイルを用いることで，検証器の弱点や改善点を特定することが可能となった。
- 異なる事例が検証パイプラインの異なる側面をストレステストすることが示され，今後の検証器開発に役立つ知見が得られた。
Link: https://arxiv.org/abs/2605.17153
Charon：大規模LLMの学習と推論のための統合的かつ詳細なシミュレータ [cs.DC, cs.AI, cs.LG, cs.PL]目的：大規模言語モデルの学習と推論における性能予測
- 高性能なLLM運用は重要であり，並列化戦略等の最適化が不可欠である。
- 複雑なシステム設計空間のため，最適化は困難であり，評価に時間がかかる。
- シミュレーションを通じて，効率的な最適化とシステム研究を支援すること。
- Charonは，様々なモデルと設定で高い精度を達成し，全体的な予測誤差は一貫して5.35%未満である。
- 大規模GPUクラスタを用いた学習では，予測誤差は3.74%以下に抑えられた。
- 実用的な推論環境において，Charonはエンジニア調整済みのベースラインを上回る性能改善の構成を発見した。
Link: https://arxiv.org/abs/2605.17164
実行を超えて：静的解析による報酬とヒント条件付き拡散RLによるコード生成 [cs.SE, cs.AI]目的：拡散言語モデルを用いたコード生成における性能向上
- コード生成における機能的正確性は重要であり，強化学習はそのための有望な手法である。
- 複雑なタスクでは，実行に基づく報酬が学習信号として不十分になる「能力の崖」が存在する。
- 実行フリーな報酬やヒント条件付きサンプリングを活用し，難易度に応じた最適な手法を模索する。
- 静的チェックが最も強力な実行フリー報酬であり，HumanEvalのDiffuCoderの性能を53.9から67.1に向上させた。
- LiveCodeBenchにおいても性能が14.9から15.5に向上し，ロールアウト時間を9.4％削減した。
- 難易度が高いベンチマークではASTベースのヒントが有効であり，タスク難易度に応じて最適な報酬設計が異なる。
Link: https://arxiv.org/abs/2605.17174
実行可能から出荷可能へ：要件からフルスタックWebアプリケーションを生成するためのマルチエージェントテスト駆動開発 [eess.SY, cs.SY, cs.SE]目的：要件からのフルスタックWebアプリケーション生成のためのテスト駆動開発フレームワーク
- Webアプリケーション開発の自動化は，開発効率の大幅な向上に貢献しうる。
- 既存のコード生成AIは，生成されたアプリケーションが要件を満たさない場合が多い。
- 本研究は，テスト駆動開発を自動化することで，Webアプリケーションの生成品質を向上させる。
- TDDevフレームワークにより，要件を構造化された受け入れテストに変換し，ブラウザシミュレーションで検証する。
- TDDの導入により，生成品質が34～48パーセントポイント向上し，モデルの生成スタイルによって最適なプロトコルが異なることが示された。
- ユーザー調査の結果，TDDevは開発者の手動介入をゼロに削減し，自律的な改善を可能にすることが確認された。
Link: https://arxiv.org/abs/2605.17242
分布シフト下での学習における反復 Chow フィルタリング [cs.DS, cs.LG]目的：分布シフト下での学習問題
- 機械学習において，訓練データとテストデータの分布が異なる分布シフトは頻繁に発生する。
- 既存手法は，強い近似条件を必要とし，基本的な関数クラスに対して劣悪な性能を示す場合がある。
- より弱い条件で効率的な学習アルゴリズムを開発し，分布シフト問題の解決を目指す。
- 本研究では，L1 sandwiching が効率的な PQ 学習に十分であることを示した。
- その結果，一様分布下における DNF の quasipolynomial 時間 PQ 学習アルゴリズムを初めて実現した。
- また，定数深さ回路や定数次多項式閾値関数など，他のクラスに対しても指数的な改善をもたらした。
Link: https://arxiv.org/abs/2605.17251
回転式ライトトレイル画像センサー通信におけるISIモデリングとBER性能 [cs.IT, math.IT]目的：回転式ライトトレイル画像センサー通信の光出力と画素値の関係をモデル化し，ビット誤り率(BER)を解析的に導出すること。
- 画像センサー通信は，低消費電力かつ小型化が期待できるため，IoT等の分野で重要性が増している。
- 回転式ライトトレイル画像センサー通信では，隣接区間からの干渉(ISI)がBER性能に影響を与える。
- 隣接区間のみを考慮したISIモデルの妥当性と，それを用いた最適な制御角度の選定を目指す。
- 提案モデルは，光出力と画素値の対応関係，および確率的なノイズモデルを組み込み，BERを閉形式で表現した。
- 隣接区間のみのISIモデルが十分な精度を持つ条件を導出し，モンテカルロシミュレーションや実験で検証した。
- 導出されたBERに基づき，目標BER信頼性を満たしつつスループットを最大化する制御角度を選択できることを示した。
Link: https://arxiv.org/abs/2605.17272
LLMを用いた文脈を意識した競合解決手法 Rover [cs.SE, cs.AI]目的：大規模プロジェクトにおけるコードマージ時の競合解決
- ソフトウェア開発において，複数人での共同作業は不可欠であり，効率的なコード統合が重要である。
- 既存手法は，開発者の意図の理解や複雑な依存関係への対応が不十分であり，手動での解決が必要となる場合が多い。
- LLMとプログラム解析を組み合わせ，文脈を考慮した競合解決により，自動解決率の向上を目指す。
- Roverは，Multi-layer Code Property Graph (MtCPG)を用いてコード間の依存関係を表現し，文脈に応じたプロンプトを生成する。
- Roverは，グラフ連結アルゴリズムにより競合箇所を意味のある「文脈」にクラスタリングし，LLMによる正確な解決策の生成を支援する。
- 評価実験の結果，Roverは既存手法と比較して，コード競合解決の精度が向上し，正解との類似性が高かった。
Link: https://arxiv.org/abs/2605.17279
ContractBench：LLMエージェントは観測契約を遵守できるか [cs.SE, cs.AI]目的：観測契約の遵守状況の評価
- LLMエージェントのAPI利用が拡大する中で，APIの出力が後続処理に影響を与えるため，その正確性が重要である。
- 既存のベンチマークでは，API出力の有効期限切れやデータ破損といった観測契約違反を評価していない。
- 観測契約違反を引き起こす要因を特定し，LLMエージェントの信頼性を向上させる。
- ContractBenchは，API出力の有効期限とデータ整合性を評価する33のタスクから構成される。
- 評価の結果，最先端モデルでも観測契約の遵守率は80%に達せず，Claude-Opus-4.6が77.8%で最も高い結果を示した。
- 失敗分類は，モデルへの報酬信号として活用でき，GPT-5.1のパフォーマンスを7.1%向上させた。
Link: https://arxiv.org/abs/2605.17281
人間のようにデバッグする：ブロックレベルの命令指向スライスによるLLMベースの障害特定をプロセッサ設計に拡張 [cs.SE]目的：プロセッサ設計における障害の特定
- 現代のプロセッサ設計は複雑であり，検証には膨大な時間と労力がかかる。
- 大規模なプロセッサ設計における自動的な障害特定は，依然として困難な課題である。
- LLMを活用し，人間のデバッグ手法を模倣することで，障害特定を効率化する。
- 提案手法BluesFLは，RISC-Vプロセッサの実際のコードベースにおいて，既存手法を大幅に上回る成果を示した。
- BluesFLは，24個の障害をTop-1で正しく特定し，障害特定成功率を242.9%向上させた。
- 1つの障害を特定するためのコストは平均0.257ドルと，低コストで済むことが示された。
Link: https://arxiv.org/abs/2605.17290
クラスタ型セルフリーネットワークにおける下りリンクレート推定のための安定要素ごとの手法SERE [cs.IT, math.IT]目的：クラスタ型セルフリーネットワークにおける下りリンクレートの正確かつ効率的な推定
- 次世代無線通信システムにおいて，セルフリーネットワークは高密度化と協調通信を実現する有望な技術である。
- 従来のレート推定手法は計算コストが高いか，クラスタ型ネットワーク特有の干渉を考慮できていない。
- クラスタ型セルフリーネットワークにおけるレート推定の効率と精度を向上させることを目指す。
- 提案手法は，モンテカルロシミュレーションと比較して計算量を大幅に削減しつつ，相対誤差6%以下で高い精度を実現する。
- Resolvent行列の対角要素ごとの収束性を示すことで，サブネットワーク間干渉と下りリンクレートの決定論的等価物を導出した。
- 正則化パラメータが小さい場合でも数値的な不安定性を解消する安定化変数変換を導入し，幅広いプレコーディング方式に対応した統一的な定式化を可能にした。
Link: https://arxiv.org/abs/2605.17297
巡回符号，負巡回符号，および定数巡回符号における7つの未解決問題に対する代数的解法 [cs.IT, math.IT]目的：巡回符号，負巡回符号，および定数巡回符号をサポートするデザインに関する7つの未解決問題の代数的解法
- 符号理論は，通信や情報セキュリティなど，幅広い分野に応用される重要な研究領域である。
- デザイン符号の構成は複雑であり，効率的な解法が求められている。
- 本研究は，デザイン符号をサポートする巡回符号の存在条件を明確にすることを目指す。
- 巡回符号\[ C\left(\frac{p^s-1}{2},\frac{p^s+1}{2}\right) \]について，単位円のCayleyパラメータ化により，トレースゼロ条件が$\PG(1,q)$上の半線形方程式に帰着される。
- 長さ$q^2+1$の負巡回符号について，$\U_{2(q^2+1)}$から$\U_{q^2+1}$への商輸送と単位円パラメータ化により，最小零集合が$\PG(1,q^2)$のBaer部分線であることが示された。
- 定数巡回卵形符号の存在条件は，\[ \lambda\in\F_q^*,\qquad \exists\ \lambda\text{-constacyclic ovoid code} \Longleftrightarrow \lambda\notin(\F_q^*)^2 \]で与えられ，負巡回卵形符号は$q\equiv3\pmod4$のときに存在することが明らかになった。
Link: https://arxiv.org/abs/2605.17371
ソフトウェア言語の基礎に関するオントロジーの構築に向けて [cs.SE]目的：ソフトウェア言語の基礎を整理するためのオントロジー
- ソフトウェア開発は複雑化の一途を辿っており，その基礎概念の体系化が不可欠である。
- ソフトウェア言語間の関連性や共通点が明確でなく，教育や研究の効率を阻害している。
- ソフトウェア言語の基礎概念を統一的に表現し，知識の共有と再利用を促進すること。
- 「ソフトウェア言語の基礎」(FSL)オントロジーを構築し，ソフトウェア言語の種類，概念，ツール，手法等を体系化した。
- FSLは，コンピュータサイエンス教育における知識資源として，複数の分野を繋ぐ役割を果たす。
- オントロジーエンジニアリングにおいて，GenAIを活用し，効率的な構築を支援した。
Link: https://arxiv.org/abs/2605.17374
高密度LEDアレイ向けチャネルモデリングとLEDスポット検出 [cs.IT, eess.SP, math.IT]目的：画像センサーを用いた可視光通信におけるチャネルモデリングとLEDスポット検出の改善
- 高密度LEDアレイは高速伝送を可能にし，画像センサーを用いた可視光通信の性能向上に不可欠である。
- 焦点ずれや解像度制限，干渉によりスポットがぼやけ重なると，シンボル間干渉が発生し，復号性能が低下する。
- 光学的歪みや周辺光の影響を補正し，信頼性の高い信号検出を実現することで，高効率な可視光通信を可能とする。
- 提案手法は，パイロット信号を用いた幾何学的認識と，ハフ変換および円の中心位置の微調整を行うことで，重なり合ったLED信号を分離する。
- さらに，ラジアル歪み補正と周辺光を考慮した補償を組み込むことで，幾何学的な一貫性を回復し，エッジに関連する検出エラーを抑制する。
- 実験結果から，提案手法が従来のハフ変換ベースの手法や低密度ベースライン手法と比較して，優れた復号精度とスループットを達成することが確認された。
Link: https://arxiv.org/abs/2605.17375
NOETHER：演算子代数からのメタモルフィックパターンの発見のための構成的フレームワーク [cs.CE, cs.MS, cs.SE, cs.LG, cs.LO]目的：演算子代数からメタモルフィックパターン集合への導出を機械的かつ証明可能にするフレームワーク
- ソフトウェアテストやAIシステムの品質保証において，メタモルフィックテストの重要性が増している。
- 既存のアプローチは帰納的な根拠に基づいており，起源，閉包性，転移可能性といった基礎的な課題が未解決である。
- 領域固有の代数層への帰納を置き換え，プログラムごとのMRサンプリングからの帰納を解消することを目指す。
- NOETHERは，ボルツマン反応炉物理学における既存のカタログを体系化し，実用的なメタモルフィックパターンを生成した。
- 同フレームワークは，回転不変性，随伴双対性，学習軌道の可逆性といった等変MLにおける実行可能なMRを導出した。
- PWR炉拡散の反例を通じて，完全性に関する仮説（定理1'）を反証し，翻訳拡張の次元を特定した。
Link: https://arxiv.org/abs/2605.17390
さらなる一歩：クロスプラットフォーム逆アセンブルと関数レベルの意味解析によるPLCバイナリの理解 [cs.SE]目的：産業用制御システムを標的とする攻撃が増加する中，PLCのセキュリティ確保
- 重要インフラを支えるICSのセキュリティは，社会機能維持に不可欠である。
- PLCバイナリはプラットフォームが異なり，解析が困難である。
- PLCバイナリのクロスプラットフォーム解析を可能にし，意味的な理解を深める。
- PLC-BinXは，4つのPLCプラットフォームのバイナリを解析し，関数レベルの情報を復元した。
- ツールチェーンの予測において，100.00%の精度，再現率，F1スコアを達成した。
- 機能の予測において，約50%の精度と再現率を達成し，有効性を示した。
Link: https://arxiv.org/abs/2605.17392
ブランチ幅に対する高速かつ実用的な単指数時間アルゴリズム [cs.DS]目的：ブランチ幅の計算
- グラフ理論における重要なパラメータであり，様々な最適化問題への応用がある。
- ブランチ幅の厳密解を求める計算量は指数関数的に増加するため，大規模グラフへの適用が困難である。
- 単指数時間アルゴリズムを開発し，実用的な計算時間を実現すること。
- 本研究では，ブランチ幅を計算する高速な指数時間アルゴリズムを提案した。
- 提案アルゴリズムは，$n$頂点ハイパーグラフに対して$\mathcal{O}^*(4^n)$時間でブランチ幅を計算できることを示した。
- グラフに対するアルゴリズムは，既存の最良アルゴリズムよりも高速であり，実験的にも優れた性能を示した。
Link: https://arxiv.org/abs/2605.17396
オブジェクト，履歴，トランザクションを単一の動詞カーネルで [cs.DC, cs.PL]目的：複数主体によるオブジェクト連携の構造的性質の実現
- 分散システムにおけるオブジェクト連携は，現代の情報システム構築において不可欠である。
- 既存システムは層状化されており，それらの組み合わせは脆さを孕む。
- これらの性質を単一のカーネルで統合し，堅牢なシステム構築を目指す。
- 本研究では，s-expressionと一様な「send」インターフェース，トランザクションを基盤とした最小限のカーネルを提案する。
- このカーネルは，認証された起源，不透明なカプセル化，アトミックなマルチオブジェクトコミットなど，6つの構造的性質をカーネルレベルで保証する。
- オペレーターに対する信頼性も考慮し，暗号コンパイラによるオペレーター敵対的環境への対応も可能である。
Link: https://arxiv.org/abs/2605.17401
モジュール格子安全性（第３部）：対数単位格上の構造化CVP距離 [cs.DS, cs.CR, math.NT, math.ST, quant-ph, stat.TH]目的：対数単位格上のCVP距離の収束性に関する証明
- 暗号安全性における格子問題の難易度は，現代暗号の根幹をなす重要な研究分野である。
- 格子問題の近似アルゴリズムの効率化は，既存暗号システムの安全性を脅かす可能性がある。
- 対数単位格上のCVP距離を厳密に評価することで，より安全な暗号パラメータ設定に貢献する。
- CVP距離は，$n$が大きくなるにつれて$\frac{\pi}{2\sqrt{6}}\sqrt{n}$に収束することが証明された。
- このターゲットは，$k\ge 4$において原点のボロノイセル内に存在することが示された。
- 本研究の成果により，ML-KEMのCDPR係数が準多項式的に改善され，安全性向上が期待される。
Link: https://arxiv.org/abs/2605.17404
ミトス関連バグの再発見に関するベンチマーク評価 [cs.SE, cs.AI]目的：ミトスに関連するバグの再発見性能の評価
- ソフトウェアの脆弱性発見は，システムの安全性と信頼性を高める上で不可欠である。
- 既存の脆弱性発見手法では，特定のファイルやシステムに依存したバグの再発見が困難である。
- 大規模言語モデルを用いたバグ再発見の有効性を検証し，その限界を明らかにする。
- GPT-5.5 xhighは18回の試行中5回，Claude Opus 4.7は1回，Kimi K2は0回のターゲット再発見に成功した。
- モデルは，正しいターゲットファイル内の代替候補に早期にコミットする傾向があり，ミトス修正証拠が示す特定の不変量を見逃すことが多かった。
- この結果はAnthropicの非公開ワークフローを否定するものではないが，この有利な条件下では，システム固有のプロンプトでは54回の試行中に6回のターゲットマッチしか得られなかった。
Link: https://arxiv.org/abs/2605.17416
科学計算プログラムにおける変異関係の妥当性を評価する意味的変異指標 [cs.SE, cs.LG]目的：科学計算プログラムにおける変異関係の妥当性を評価するための意味的変異指標の開発
- 科学計算は，現実世界の複雑な問題を解決するために不可欠であり，ソフトウェアの信頼性が特に重要である。
- 従来の変異テストは，構文的な変異に焦点を当てており，ドメインの意味的側面を捉えられていないという課題がある。
- 意味的変異指標によって，科学計算プログラムにおけるより効果的なテストと信頼性の向上を目指す。
- 意味的変異指標(SMS)は，5つのドメイン意味的演算子に基づき，古典的な変異テストの範囲内で整合性のある結果を提供する。
- 実験では，SMSの大きな効果の閾値は満たされなかったものの，中程度の効果が認められた。
- LLMによって生成された変異と従来の構文的変異との間の重なりは小さく，SMSが新たな変異を捉える可能性が示唆された。
Link: https://arxiv.org/abs/2605.17437
GUIエージェントによる信頼性のあるソフトウェア評価のための軌跡条件付き診断 [cs.SE, cs.AI]目的：LLM生成インタラクティブソフトウェアの信頼性評価における診断手法
- LLMを活用したソフトウェア開発が活発化しており，その品質評価が重要となっている。
- GUIを持つソフトウェアの評価は，単一の実行経路のみ観測でき，誤りの原因特定が困難である。
- 評価エラーとソフトウェア欠陥の区別を明確にし，より正確なソフトウェア評価を実現する。
- DiagEvalは，失敗した軌跡を再利用し，的を絞った診断プローブを選択することで，誤ったソフトウェア欠陥の特定を改善する。
- WebDevJudge-UnitおよびRealDevBenchにおける実験により，DiagEvalは既存手法と比較して，45.6-62.1%の誤検出された欠陥を回復した。
- 評価精度をWebDevJudge-Unitで69.9%から78.3%に，RealDevBenchで65.0%から81.6%に向上させた。
Link: https://arxiv.org/abs/2605.17439
MemRepair：エージェントによるリポジトリレベル脆弱性修復のための階層型メモリ [cs.SE, cs.AI, cs.CL]目的：リポジトリレベルの脆弱性修復における，エージェントによる反復的・経験的プロセス
- ソフトウェアエコシステムでは脆弱性が増加の一途をたどっており，自動修復技術の重要性が高まっている。
- 既存のLLMベースのエージェントは，過去の修正や検証結果を再利用する仕組みが不十分である。
- 本研究は，リポジトリ固有の修復パターンと過去の成功例を活用し，より信頼性の高い脆弱性修復を目指す。
- MemRepairは，History-Fix，Security-Pattern，Refinement-Trajectoryという3層のメモリ構造を採用。
- SEC-Bench，PatchEval，Multi-SWE-benchにおける評価で，最先端の修復率を達成した（58.0%, 58.2%, 30.58%）。
- OpenHandsやSWE-agent，InfCode-C++などの既存手法を上回り，効率的な修復コストを維持している。
Link: https://arxiv.org/abs/2605.17444
ContraFix：差分実行証拠とスキル再利用によるエージェント脆弱性修復 [cs.SE, cs.AI, cs.CL, cs.CR]目的：脆弱性修復のためのエージェントフレームワーク
- ソフトウェアの脆弱性は深刻な脅威であり，自動修復技術の重要性が高まっている。
- 既存のエージェントは，根本原因の誤認により，現実世界の脆弱性修復に苦戦している。
- 差分実行証拠とスキル再利用により，より正確な原因特定と効率的な修復を目指す。
- ContraFixは，脆弱性の境界を特定するPoC生成，状態プローブによる差分分析，検証済みのパッチ生成を行う。
- 修復成功事例は，修復仕様と変異戦略を含むスキルベースに蓄積され，再利用される。
- SEC-BenchとPatchEvalにおいて，最先端の性能を達成し，既存の基盤と比較してコストを削減した。
Link: https://arxiv.org/abs/2605.17450
Event-B エージェント：形式モデルの合成と修正に向けたLLMエージェント [cs.SE]目的：形式モデルの合成と修正
- ソフトウェアの信頼性は重要であり，設計段階での検証が求められる。
- 形式手法は学習コストが高く，専門知識が必要で普及が進んでいない。
- 自然言語要求から形式モデルを合成し，検証フィードバックで修正する。
- Event-B Agentは，形式モデルの合成と修正において，既存手法を大幅に上回る性能を示す。
- モデルと証明を反復的に改善することで，より高品質なモデルを開発できる。
- 本研究は，信頼性の高いソフトウェア開発に向けた重要な一歩となる。
Link: https://arxiv.org/abs/2605.17475
不確実な符号付きグラフのバランス率の算出 [cs.DS]目的：不確実な符号付きグラフにおけるバランスの度合いを定量化する指標
- 社会，政治，生物ネットワークなど複雑なシステムの分析に符号付きグラフが活用されており，その重要性は高い。
- 現実世界のネットワークは接続に不確実性を持つ場合が多く，従来の安定性評価手法では対応が困難である。
- 不確実な符号付きグラフにおけるバランスの度合いを効率的に推定し，スケーラブルな分析を可能にすることを目指す。
- バランス率の算出がNP困難であることが証明された。
- グラフ分解と構造的性質を活用したRao-Blackwellized spanning-tree推定法を提案した。
- デルタ法を用いた漸近的に妥当な信頼区間を構築し，実データでの有効性を実証した。
Link: https://arxiv.org/abs/2605.17492
SaaSBench：長期間のエンタープライズSaaSエンジニアリングにおけるコーディングエージェントの限界探求 [cs.SE, cs.AI]目的：エンタープライズSaaSエンジニアリングにおけるコーディングエージェントの能力評価
- ソフトウェア開発の自動化は，生産性向上とコスト削減に貢献し，ビジネスの迅速な展開を可能にする。
- 既存のベンチマークは簡略化されたアプリケーションに限定され，実際のSaaSシステムの複雑さを捉えられていない。
- 本研究は，現実的なエンジニアリング制約下でのAIエージェントの性能評価を可能にするベンチマークの提供を目指す。
- SaaSBenchは，6つのSaaSドメイン，8つのプログラミング言語，6つのデータベース，13のフレームワークを含む複雑なタスクで構成される。
- 実験の結果，最先端のエージェントの主なボトルネックは，単独のコードロジックの生成ではなく，マルチコンポーネントシステムの構成と統合であることが明らかになった。
- タスクの95%以上の失敗は，ビジネスロジックに到達する前に発生し，過信や誤ったデバッグループが原因であることが示唆された。
Link: https://arxiv.org/abs/2605.17526
エージェントモダナイズ：マルチエージェントLLMと行動仕様グラフによるレガシーシステム移行におけるビジネスロジックの維持 [eess.SY, cs.RO, cs.SY, cs.DL, physics.hist-ph, physics.soc-ph, cs.SE]目的：レガシーシステムの移行におけるビジネスロジックの維持
- 企業の基幹システムは老朽化しており，現代的なシステムへの移行が急務である。
- 従来の移行手法では，暗黙のルールや例外処理が失われやすい。
- 本研究は，ビジネスロジックを明確化し，正確な移行を実現することを目指す。
- AgentModernizeは，ビジネスロジックを明示化する行動仕様グラフ（BSG）を中間成果物として利用する。
- GPT-4o-mini, GPT-4o, GPT-5.3-codexを用いた評価の結果，AgentModernizeのみが全てのバックボーンで非ゼロの平均BER（ビットエラーレート）を達成した。
- BSGはゴールドスタンダードのルールの91.2%を捕捉しており，ボトルネックはコード生成にあることが示唆された。
Link: https://arxiv.org/abs/2605.17535
双曲空間におけるLipschitz測地凸最適化のためのワンショットクライン切断平面 [cs.DS]目的：双曲空間におけるLipschitz測地凸最適化問題の解決
- 最適化問題は，機械学習，制御理論，経済学など多くの分野で基盤となる技術である。
- 双曲空間における最適化問題は，ユークリッド空間とは異なる幾何学的な性質を持つため，効率的な解法が確立されていない。
- 本研究は，双曲空間におけるLipschitz測地凸最適化問題を効率的に解くための新しい手法を提案する。
- 提案手法は，クライン切断平面を用いて，負の定曲率を持つ双曲空間における最適化問題を解く。
- この手法は，限られた回数のオラクル呼び出しで，目的関数値の最小値との誤差を許容範囲内に抑えることができる。
- 本手法は，双曲空間の歪みを考慮し，Riemann幾何学的な性質を効率的に利用することで，既存手法よりも優れた性能を発揮する。
Link: https://arxiv.org/abs/2605.17540
AI時代におけるコードレビューの再考：エージェントによるコードレビューの展望 [cs.SE, cs.AI]目的：AIを活用したコードレビューのワークフローの展望
- ソフトウェア開発において，コードレビューは品質確保の重要なプロセスである。
- AIコーディングアシスタントの普及により，レビューすべきコード量が増加し，ボトルネックとなっている。
- AIエージェントと人間の判断を組み合わせた，効率的かつ質の高いコードレビューを実現すること。
- 本研究では，コードレビューの歴史的変遷と，LLMやエージェントAIシステムの影響を分析した。
- PR作成，拡充，レビューアー選定，AI支援レビュー，振り返りを含む，AIを活用したコードレビューの5段階フレームワークを提案した。
- 信頼性，偏り，プライバシー，自動化バイアスなどの課題と，人間とAIの協調に関する研究課題を提示した。
Link: https://arxiv.org/abs/2605.17548
Firefly：実APIからの大規模検証済みツールコールデータ生成 [cs.SE, cs.CL]目的：実APIからの検証済みツールコールデータの生成
- ツール利用型エージェント開発には大量のデータが必要であり，その品質が性能を左右する。
- 既存手法では，実APIとの乖離や検証可能な正解ラベルの欠如が課題となっていた。
- 実APIを探索し，結果からタスクを逆算することで，正確なラベル付きデータを生成する。
- FireFlyパイプラインにより，240サーバー，993ツールを網羅する5,144件の検証済みタスクを生成した。
- 生成されたデータで学習した4Bパラメータモデルは，Claude Sonnet 4.6と同等の性能を示した。
- Tau2-Bench，MCPMark，MCP-Atlasなどのツールコールベンチマークで性能向上が確認された。
Link: https://arxiv.org/abs/2605.17558
無効なバグレポートの自動原因分類とノーコード修正生成 [cs.SE, cs.AI, cs.MA]目的：無効なバグレポートの原因分類とノーコード修正の生成
- ソフトウェア利用における問題報告は重要であり，効率的な解決が求められる。
- バグレポートの多くが無効であり，サポート担当者のリソースを浪費している。
- 無効なバグレポートの分類と，迅速な解決策の提案を自動化することを目指す。
- 無効なバグレポートの原因分類において，Retrieval Augmented Generationが最も高い性能(F1スコア0.66)を示した。
- 再現性の問題に関する分類性能は最も高く(F1スコア0.85)，機能要望や質問も高い性能(F1スコア0.79)を示した。
- ノーコード修正生成においては，Agentic Web Searchが最も高い成功率(68.9%)を達成し，特に「設計通り」のケースで高い性能(87.4%)を示した。
Link: https://arxiv.org/abs/2605.17561
擬似MEM選択のための構文インデックス [cs.DS]目的：擬似MEMの選択方法
- 長文の繰り返しテキスト内でのパターン検索は，計算コストが高く，効率化が求められている。
- 既存のKeBaB法では，閾値設定の誤りにより，重要なMEMを誤って除外するリスクがある。
- 構文インデックスを利用することで，MEMの損失リスクを回避し，より効率的なMEM選択を目指す。
- 本研究では，構文インデックスを用いて擬似MEMを選択する手法を提案した。
- 提案手法により，パラメータ$k$の選択が不要となり，より柔軟な検索が可能となる。
- 擬似MEMの選択リスクを解消し，MEM検索の効率と正確性を両立できる。
Link: https://arxiv.org/abs/2605.17574
ソフトウェア障害予測のための特徴駆動型フレームワーク [cs.SE, cs.LG]目的：ソフトウェア障害予測における特徴選択とパラメータ調整の組み合わせの効果
- ソフトウェア品質向上と保守コスト削減のため，早期の障害特定が重要である。
- 機械学習モデルの性能は，特徴選択やパラメータ調整に大きく依存する。
- 最適な特徴選択とパラメータ調整の組み合わせを特定し，障害予測精度を向上させる。
- CFSとGAの組み合わせが最も高い精度（88.40%）を達成し，ベースラインモデルより18%向上した。
- 特徴選択により次元削減と重要な属性（WMC，CBO）の特定が実現した。
- パラメータ調整により，特徴セットへのモデルの適合性が最適化され，汎化性能が向上した。
Link: https://arxiv.org/abs/2605.17611
検証器誘導によるコード変換：メタステップデコーディング [cs.LG, cs.SE]目的：コード変換における検証器誘導デコーディングの枠組み
- 大規模言語モデルの性能向上は重要であり，特に決定論的な検証器を持つタスクでその効果が期待される。
- 従来の検証器の適用は生成後に限定され，初期段階での誤りが文脈を損ない修正が困難となるという課題があった。
- 構造境界をメタステップとして扱うことで，検証器誘導デコーディングを効率化し，誤り伝播を防ぐことを目指す。
- DTVはC-to-Rust変換において，合格率を72.3%から82.0%に向上させた。
- JavaScript-to-TypeScript変換においても，合格率を33.3%から46.0%に向上させる効果が確認された。
- 検証器誘導デコーディングは，コード変換における推論時計算資源の有効活用に貢献する。
Link: https://arxiv.org/abs/2605.17626
ピンチングアンテナと可動アンテナを備えたISACシステムのDL駆動型最適化 [cs.IT, math.IT]目的：ピンチングアンテナと可動アンテナを備えたISACシステムの合計レートの最適化
- 通信とセンシングを同時に行うISACは，将来の無線システムの効率化に不可欠である。
- 従来の固定アンテナでは，ISACシステムの性能向上が限界に達している。
- ピンチングアンテナと可動アンテナの導入により，ISAC性能のさらなる改善を目指す。
- ピンチングアンテナと可動アンテナをISACシステムに適用することで，固定アンテナのみの場合よりも高い合計レートが実現された。
- 通信性能は，センシング性能に比べて，センシング信号対干渉雑音比の閾値の影響をより受けることが示された。
- 深層学習ネットワークを用いることで，アンテナ配置やプレコーディング行列などの最適値を効率的に算出できる。
Link: https://arxiv.org/abs/2605.17629
AI支援科学ソフトウェア開発における透明性とトレーサビリティの確立 [cs.SE, cond-mat.mtrl-sci]目的：AI支援科学ソフトウェア開発における適切な管理方法
- 科学ソフトウェアは研究の根幹であり，その品質は科学的成果の信頼性に直結する。
- AI支援開発の利用が拡大する一方，品質保証やトレーサビリティの確保が課題となっている。
- 厳格な品質保証基準（NQA-1等）下でのAI支援開発のガイドラインを提案し，リスクを軽減する。
- AI支援コード開発のフレームワークを提案し，検証・妥当性確認（V&V）ケース開発への応用を示した。
- TMAP8というトリチウム移行コードを用いて，提案手法がNQA-1基準を満たすことを実証した。
- AI支援開発における人間の責任を維持し，透明性とレビュー基準を確立することが重要である。
Link: https://arxiv.org/abs/2605.17675
EGI：スクラムマスターのリアルタイムな自己認識を向上させるためのマルチモーダル感情AIフレームワーク [cs.AR, cs.AI, cs.SE]目的：スクラムマスターのリアルタイムな自己認識向上
- アジャイルチームの感情的幸福度は重要であり，チームダイナミクスへの影響が大きいスクラムマスターへの注目が不可欠である。
- スクラムマスターの感情モニタリング研究は不足しており，チームの状況を的確に把握する手段が限られている。
- スクラムマスターの無意識に表出する感情をモニタリングし，よりポジティブで効果的なチームインタラクションを促進すること。
- 本システムは，シミュレーションされた会議環境において10%のWER(単語誤り率)を達成した。
- リアルタイムフィードバックにより，シミュレーションされたアジャイル会議中の感情認識が有意に向上した。
- スクラムマスターは，本システムを通じて，ネガティブな感情の表現を迅速に特定し，抑制するための実践的な提案を得ることができる。
Link: https://arxiv.org/abs/2605.17684
ユニークゲームに対する寛容性テスト [cs.DS]目的：ユニークゲームにおける近似解の識別
- 組み合わせ最適化問題の近似困難性を示す上で重要な研究分野である。
- 既存のテスト手法は，グラフ構造に関する強い仮定を必要とする場合が多い。
- 構造的仮定を必要とせず，より広範なインスタンスに対するテストを可能とする。
- 本研究では，ユニークゲームに対し，準線形クエリ複雑度を持つ寛容性テスト器を提案した。
- このテスト器は，最適解の制約違反率がε以下であるインスタンスと，ρ以上であるインスタンスを識別する。
- 二部グラフに関する特殊なテスト器では，より高い寛容性と低いクエリ複雑度を達成した。
Link: https://arxiv.org/abs/2605.17760
微分可能関数の情報理論的複雑性 [cs.IT, cs.NA, math.IT, math.NA, nlin.CG]目的：微分可能関数の複雑性の評価
- 複雑系の理解には，その構造や振る舞いを定量化する複雑性指標が不可欠である。
- 既存の複雑性指標は，関数の性質や近似方法に依存し，一意な評価が困難である。
- 関数の近似性と分割数に基づき，客観的な複雑性指標を定義し，評価すること。
- 微分可能関数に対するV-複雑性という新しい指標が提案され，関数の単純さや複雑さの直感を形式化する。
- V-複雑性は，関数の近似における圧縮率と等価であることが仮説として示された（ランレングス符号化，Lempel Ziv 77アルゴリズム）。
- V-複雑性を有効複雑性(EC)の定義に組み込み，コーヒーにクリームが拡散するモデルに適用することで，その有用性が示された。
Link: https://arxiv.org/abs/2605.17801
再構成可能ピクセルアンテナを用いたHAPS通信のためのTransformerベースハイブリッドビームフォーミング [cs.HC, cs.IT, math.IT]目的：高高度プラットフォームステーション通信における再構成可能ピクセルアンテナ搭載大規模MIMOのハイブリッドビームフォーミングの枠組み
- HAPS通信は，広範囲なエリアへの安定した通信提供に有効であり，災害対策等において重要である。
- 従来のビームフォーミング手法では，計算量が増大し，リアルタイム処理が困難となる場合がある。
- Transformerを用いて効率的なパターン決定を行い，計算量を削減し，より実用的なビームフォーミングを実現する。
- 提案手法であるPR-HBFNetは，貪欲法ベンチマークに近いスペクトル効率を達成する。
- PR-HBFNetは，従来のビームフォーミング手法と比較して，計算量を大幅に削減できる。
- Transformerエンコーダとモデル駆動型残差学習を組み合わせることで，効率的なハイブリッドビームフォーミングを実現した。
Link: https://arxiv.org/abs/2605.17858
最適化の最適化：egglogによる数学最適化の高階関数への適用 [cs.PL, cs.MS, math.OC]目的：数学最適化における高階関数の最適化
- 最適化問題は科学技術計算の根幹であり，効率的な解法が求められている。
- 高階関数を用いると，数式表現が複雑になり，可読性や計算効率が低下することがある。
- egglogを用いた最適化により，高階関数の表現を改善し，制約検出の効率化を図る。
- egglogを用いて，LaTeX出力における数式表現を改善。高階関数を糖化し，一時変数の再束縛を最小化することで，自然な数式表記を実現した。
- egglogを制約検出の宣言的エンジンとして活用し，多段階の検出ロジックを直接表現することで，外部のRustコードによるオーケストレーションを削減した。
- 高階項の糖化処理を制約検出の前処理に適用することで，大規模なドメイン集合条件を削減し，検出時間を大幅に短縮した。
Link: https://arxiv.org/abs/2605.17884
エシカル・ハイパーベロシティ：エージェントシステム向け，証明可能な決定性ガバナンス対応JITコンパイラアーキテクチャ [cs.AI, cs.LO]目的：AIガバナンスポリシーの実行時検証のためのアーキテクチャフレームワーク
- 自律エージェントシステムが重要インフラで拡大する中，安全性確保が喫緊の課題となっている。
- 高頻度なポリシー更新のメカニズムに基づいたハードウェアレベルでの強制が不足している。
- ポリシー遵守をリアルタイムに強制し，デプロイ速度とガバナンスの整合性のトレードオフを解消する。
- EHVは，推論パイプラインにガバナンス対応JITコンパイラを統合することで，ポリシー強制時点を最適化した。
- CRDTとTEEを活用し，サブミリ秒の形式的決定性を実現し，非準拠な行動を計算的に不可能とした。
- ガバナンス遅延を従来のO(days)からO(1)に短縮し，デプロイ速度とガバナンス整合性を両立できることを証明した。
Link: https://arxiv.org/abs/2605.17909
LLMによるループ不変式合成における局所的な推論誤りに対するフィードバックによる誘導 [cs.PL]目的：LLMを用いたループ不変式合成における成功率向上
- ソフトウェアの信頼性確保は重要であり，プログラムの正当性検証が不可欠である。
- ループ不変式合成は自動化が難しく，既存手法では成功率が低い場合がある。
- LLMの推論過程の誤りを特定し，的確なフィードバックを提供することで，合成成功率の向上を目指す。
- 提案手法LORISは，460個のCプログラムのベンチマークにおいて，93.1%という高い成功率を達成した。
- LORISは，線形および非線形特性を含むプログラムの両方で堅牢性を示した。
- LLMの推論ステップを形式論理に変換し，検証することで，論理的誤りを特定し，精密なフィードバックを生成する。
Link: https://arxiv.org/abs/2605.17914