arXiv雑要約

プログラム - 2026/06/05 公開

  • AppAgent-Claw:GUI自動化に必要なのはCLIだけ [cs.HC, cs.SE]目的:GUIワークフローを信頼性が高く再利用可能なスキルに変換するシステム
    • GUI操作は多くの実用的なタスクに不可欠だが,APIがない場合が多く,自動化が困難である。
    • 既存のLLMベースのGUIエージェントは汎用性が高いものの,処理速度が遅く,コストが高く,一貫性がない。
    • GUI操作を効率的に自動化し,OpenClawエコシステムに統合するための実用的な解決策を提供すること。
    • AppAgent-Clawは,GUIワークフローを「一度記録して何度も再生」するシステムであり,ランタイム推論を必要としない。
    • 豊富なコンテキストメタデータを記録し,視覚的な変化に対応する多層的なローカリゼーション戦略を採用することで,堅牢な実行を実現する。
    • 実行中の妥当性検証により,画面上の意図した効果を保証し,診断可能性も向上させる。

    Link: https://arxiv.org/abs/2606.05171

  • 非地球ネットワークにおけるセマンティック通信:アーキテクチャ,手法,課題に関する包括的調査 [cs.IT, cs.ET, math.IT]目的:非地球ネットワークにおけるセマンティック通信の現状と展望
    • 次世代無線通信において,地上インフラではカバーできない地域への接続が求められている。
    • 非地球ネットワークは,電波減衰,遅延,ドップラーシフトなどの課題を抱えている。
    • セマンティック通信は,これらの課題を解決する可能性を秘めている。
    • セマンティック通信は,データの本質を伝達することで,帯域幅の制約を緩和し,低S/N比環境下での通信を可能にする。
    • 本調査では,非地球ネットワークの課題と,それに対応するセマンティック通信のデザイン選択を対応付けた。
    • 衛星通信,UAV/HAPS通信,SAGINシステムなど,プラットフォームごとに詳細な分析を行った。

    Link: https://arxiv.org/abs/2606.05216

  • 大規模言語モデルは競技プログラミングでどこで失敗するのか?アルゴリズムの種類と難易度による失敗の分類 [cs.SE, cs.PL]目的:競技プログラミングにおける大規模言語モデルの失敗パターン
    • AI技術の進歩は,プログラミング分野への応用が期待されており,自動プログラミングの可能性を広げている。
    • 既存研究では,大規模言語モデルの能力を総合的に評価する傾向があり,特定のアルゴリズムや難易度における弱点が明確になっていない。
    • 大規模言語モデルの弱点を特定し,競技プログラミングにおける性能向上に繋げる。
    • GPT-4oにおいて,Chain-of-Thought (CoT) を強制すると,正答率が低下し,Greedyアルゴリズムにおける弱点が顕著になった。
    • Claude Sonnet 4.6はCoT下で高い論理的基盤を維持する一方,テキスト生成の増加により,Markdown指示への準拠性が低下し,コンパイルエラーが大幅に増加した。
    • 両モデルともに,誤答 (WA) が最も多いエラーであり,標準的なプロンプトエンジニアリング技術では,競技プログラミングにおけるアルゴリズム推論のギャップを埋めることができないことが示された。

    Link: https://arxiv.org/abs/2606.05228

  • DeployBench:研究成果の展開のためのLLMエージェントのベンチマーク [cs.SE]目的:研究成果の展開タスクにおけるLLMエージェントの性能評価
    • 研究の再現性は科学的進歩の基礎であり,成果の利用を促進する。
    • 研究成果の環境構築は複雑で時間がかかり,再現性のボトルネックとなっている。
    • LLMエージェントによる研究成果の自律的な展開能力の向上を目指す。
    • DeployBenchは,AI/ML,コンピュータシステム,科学計算の分野を網羅する51の展開タスクから構成される。
    • 最新のLLM4モデルのPass率は7.8%~51.0%であり,自律展開には課題が残る。
    • 失敗の主な原因は,エージェントが目標設定を誤り,不十分な検証で自己終了することである。

    Link: https://arxiv.org/abs/2606.05238

  • プレイスハ極値スタックの最悪の場合の更新複雑性 [cs.DS, math.FA]目的:プレイスハ極値スタックの最悪の場合の更新複雑性の解明
    • 計算可能な速度非依存汎関数を扱う上で,最小十分統計量の理解は重要である。
    • 従来の更新アルゴリズムは,最悪の場合に深さに比例する計算量を要する。
    • プレイスハ極値スタックの最悪の場合の複雑性を,出力変化,境界検出,検索・削除のレベルで明らかにすること。
    • 最悪の場合,コンパクトな正確な表現では出力変化が深さに比例する。
    • プレイスハ消去特性の単調性は二分探索を可能にし,境界検出を対数時間で実現する。
    • 指針木の実装により,検索と削除の両方の最悪の場合の時間が対数時間となる。

    Link: https://arxiv.org/abs/2606.05245

  • マルチセルMIMOネットワークにおける結合ビームフォーミングとスケジューリングのためのバウンドされた深層アンフォールディング [cs.IT, eess.SP, math.IT]目的:マルチセルMIMOダウンリンクネットワークにおける加重和レート最大化のための,リソースブロックグループ(RBG)スケジューリングとビームフォーミングの最適化
    • セル間干渉を抑制し,システム全体の通信品質を向上させることは,現代の無線通信システムの重要な課題である。
    • 従来の最適化手法は計算量が多く,現実的なネットワーク規模での適用が困難であるという問題がある。
    • 深層学習を用いて,高速かつ高性能なリソース割り当てとビームフォーミングを実現し,最適化のボトルネックを解消すること。
    • 提案手法は,従来のモデル駆動型ベースラインと比較して,より高い加重和レートと高速な実行時間を達成した。
    • 学習済みネットワークは,再学習なしに,未知のネットワーク規模,アンテナ構成,チャネル条件に対しても頑健に一般化することが示された。
    • P-NetとK-Netという2つのコアモジュールにより,連続ビームフォーミングと離散RBGスケジューリングを効率的に最適化している。

    Link: https://arxiv.org/abs/2606.05246

  • SWE-InfraBench:クラウドインフラコードにおける言語モデルの評価 [cs.RO, cs.SE]目的:クラウドインフラコードにおける言語モデルの性能評価
    • クラウド環境構築は,現代のソフトウェアシステムの信頼性,拡張性,セキュリティを支える重要な要素である。
    • 既存のIaCベンチマークは,Terraformなどの宣言的なパラダイムに焦点を当てており,現実の反復的なコード編集に対応できていない。
    • AWS CDKといった命令型のツールを用いた現実的なコード修正能力を評価し,言語モデルの課題を明確にすること。
    • 大規模言語モデルは,AWS CDKリポジトリにおける現実的なコード修正タスクにおいて,顕著な限界を示すことが判明した。
    • 最先端モデルであるSonnet 3.7でさえ,成功率はわずか34%であり,DeepSeek R1のような専門的な推論モデルは24%にとどまる。
    • SWE-InfraBenchデータセットは,クラウドリソース依存性や実装パターンに関する高度な推論能力の必要性を示唆している。

    Link: https://arxiv.org/abs/2606.05249

  • 自律型データサイエンスのための持続的な事例ベース記憶:小規模言語モデルをローカルに展開可能なCBR拡張R&Dエージェント [cs.SE]目的:自律型データサイエンスエージェントにおける持続的な事例ベース記憶の実現
    • データサイエンスの自動化は,専門知識の民主化と効率化に不可欠である。
    • 既存のエージェントはクラウドモデルに依存し,セッションを跨ぐ記憶の維持が困難である。
    • 事例ベース推論(CBR)と小規模言語モデル(SLM)を活用し,持続的な記憶とローカル展開を可能にする。
    • CBRを搭載したR&Dエージェントは,Spaceship Titanicコンペにおいて,CBR非搭載のベースラインよりも高い精度(0.8147 vs. 0.8098)を示した。
    • ヒューリスティックな再利用検出により,高意味類似度(平均埋め込み類似度0.882)と可変な構造的近接度(平均コードフィンガープリント類似度0.305)が確認された。
    • 事例の再利用は,コードの逐語的なコピーではなく,概念的なガイダンスに基づいていることが示唆された。

    Link: https://arxiv.org/abs/2606.05250

  • XバンドUAVを用いた車両ネットワークのための統合センシングと通信 [cs.IT, cs.AI, math.IT]目的:UAVによる統合センシングと通信システムの最適時間配分
    • 車両ネットワークの高度化に貢献するUAVの活用が期待されている。
    • センシング精度と通信性能のトレードオフが課題となっている。
    • 実用的なUAV制約下での時間配分最適化により,両性能のバランスを取る。
    • UAVと地上のチャネル状態,目標距離がセンシングと通信のバランスに影響を与えることが示された。
    • 最小通信レートと十分なセンシング信頼性を保証しつつ,時間配分を最適化するフレームワークが開発された。
    • シングルシャドーイング,ダブルシャドーイング両方のチャネルモデルを考慮したシミュレーションにより,適応的な時間配分戦略が確認された。

    Link: https://arxiv.org/abs/2606.05262

  • 植えられた構造の識別における鋭い低次数閾値 [cs.LG, cs.CC, cs.DS, math.CO, math.PR, math.ST, stat.TH]目的:植えられた構造の識別問題における閾値の特定
    • グラフ構造の分析は,社会ネットワークや生物学的システムなど,様々な分野で重要である。
    • 既存手法では,構造を正確に識別するための閾値が不明確である場合が多い。
    • 植えられた構造を識別するための鋭い閾値を導出し,識別能力の限界を明らかにすること。
    • 植えられた部分行列モデルと植えられた高密度部分グラフモデルにおいて,低次数の計数問題に対する上限と下限が一致することが示された。
    • テスト閾値は,既知の低次数回復閾値と一致し,鋭い定数まで一致することを確認した。
    • 弱テスト(ランダムな推測よりも優れた性能を達成すること)は鋭い閾値を持たず,滑らかな移行を示すことが判明した。

    Link: https://arxiv.org/abs/2606.05266

  • モデルコンテキストプロトコルサーバーにおける実行時故障の分類 [cs.CL, cs.SE, cs.AI]目的:モデルコンテキストプロトコルサーバーにおける実行時故障の分類
    • 大規模言語モデルのツール利用が普及する中で,信頼性確保が重要課題となっている。
    • 設定パラメータの不備や未実装が原因で,意図しない動作や故障が発生しやすい。
    • 実行時故障の特性を明らかにすることで,AIソフトウェアの保守・進化を支援する。
    • MCPサーバーの実行時故障スレッド837件を分析し,11のカテゴリと27のサブカテゴリからなる分類体系を構築した。
    • この分類体系は,プロトコル間相互作用,ツール呼び出し,スキーマ適用など,様々な故障を網羅している。
    • 開発者アンケートの結果,27のサブカテゴリのうち平均20件が実際に経験されており,分類体系の妥当性が確認された。

    Link: https://arxiv.org/abs/2606.05339

  • 確率的プログラムにおける効率的なプログラム可能推論のための漸進的計算 [cs.PL, cs.LO, stat.CO]目的:確率的プログラムにおける効率的な推論手法
    • 確率的プログラムは不確実性を扱う上で重要であり,様々な分野での応用が期待されている。
    • 大規模データセットに対する推論処理は計算コストが高く,効率化が課題となっている。
    • 中間計算結果の再利用を通して,推論処理の高速化を目指す。
    • 確率的プログラムを決定論的なプログラムに変換し,密度関数を計算可能とした。
    • 漸進的ラムダ計算に基づき,関数型プログラムを構成的に漸進化する汎用的な手法を開発した。
    • Juliaによるプロトタイプ実装の結果,データセットサイズに応じて実行時間の大幅な改善が確認された。

    Link: https://arxiv.org/abs/2606.05348

  • ストリーミング設定におけるMax-$k$SAT近似のための指数的な量子空間優位性 [cs.DS]目的:Max-$k$SAT近似の量子ストリーミングアルゴリズム
    • 計算資源が限られた環境での効率的な問題解決が求められている
    • 古典的なストリーミングアルゴリズムでは,近似精度と空間計算量のトレードオフが存在する
    • 量子計算を用いることで,古典アルゴリズムの限界を超える空間効率を実現すること
    • 本研究では,Max-$k$SATに対して,$\operatorname{polylog}(n)$空間を使用する量子ストリーミングアルゴリズムを提案した。
    • 提案アルゴリズムは,0.7172の近似率を達成し,古典アルゴリズムの限界を超える指数的な量子空間優位性を示す。
    • Max-2ORに対するアルゴリズムも提案し,Boolean Max-2CSPsに対する量子空間優位性の完全な分類を得た。

    Link: https://arxiv.org/abs/2606.05366

  • 双方向予測を用いたオンライン最小化学習の拡張 [cs.DS, cs.LG]目的:オンライン最小化問題に対する学習拡張アルゴリズム
    • 動的な環境下での迅速な意思決定は,様々な応用において重要である。
    • 既存のオンラインアルゴリズムは,最適解への追随が遅れる場合がある。
    • 双方向予測を用いて,オンライン最小化問題における性能向上を目指す。
    • 双方向線形計画法の最適解予測を学習することで,理論的な性能保証を改善した。
    • 双方向解は,インスタンスのわずかな変化に強く,安定した予測が可能である。
    • k-server問題と駐車許可問題の実験により,有効性を確認した。

    Link: https://arxiv.org/abs/2606.05380

  • 実運用における自律型システムに対する人間の監視:ソフトウェアエージェントを使用する開発者の監視作業,課題,および経験則の調査 [cs.MA, cs.SE, cs.AI]目的:ソフトウェアエージェントを使用する開発者の監視作業の実態解明
    • 開発者の生産性向上に貢献する自律型エージェントの活用が期待される分野である。
    • エージェントの誤りや予期せぬ挙動への対処法が確立されておらず,人間の監視が不可欠である。
    • エージェント監視に関する理論的議論を実証的な知見で補強し,実用的な監視手法を提示する。
    • 開発者は,事前制御,共同計画,リアルタイム監視,事後レビューといった,様々な監視作業を行っていることが明らかになった。
    • 監視作業は,従来のReactive/Retrospectiveな側面だけでなく,Preventive/Proactiveな側面も持つことが示された。
    • エージェント生成コードのレビューの困難さなどが課題として挙げられ,テスト結果をコードの正当性の保証として利用する等の経験則が活用されている。

    Link: https://arxiv.org/abs/2606.05391

  • 意欲はあるが実行できない:コードLLMにおける拒否と能力の分離 - 削除による手法 [cs.CR, cs.AI, cs.SE]目的:コードLLMにおける拒否反応を分離し,脆弱性注入の可能性を探求する研究
    • 脆弱性検出はソフトウェアの安全性確保に不可欠であり,その自動化が求められている。
    • 学習データに含まれる誤ったラベルや,LLMの安全対策による拒否反応が課題となっている。
    • LLMの拒否反応を取り除くことで,脆弱性注入の実験を可能にし,より正確な脆弱性検出を目指す。
    • LLMのサイズやプロンプトによって拒否率は大きく異なり,特に大規模モデルでは拒否反応が顕著である。
    • 提案手法である削除(abliteration)により,拒否反応をほぼゼロに抑えつつ,コードの構文的妥当性を維持することが可能となった。
    • 削除後においても脆弱性注入率はモデルの能力に依存しており,拒否反応と能力は分離できることが示唆された。

    Link: https://arxiv.org/abs/2606.05396

  • 因果的CSITを用いた古典多重アクセスチャネルにおける量子エンタングルメント支援による指数的かつ無制限のロバストな容量向上 [cs.IT, math.IT, quant-ph]目的:古典多重アクセスチャネルのShannon容量向上
    • 通信ネットワークの容量は現代社会における情報伝達の基盤であり,その向上は重要な課題である。
    • 従来の古典多重アクセスチャネルでは,容量向上の限界があり,特にユーザー数が増加するとその傾向が顕著である。
    • 量子エンタングルメントを活用することで,古典チャネルの容量を飛躍的に向上させ,通信効率を改善することを目指す。
    • 因果的チャネル状態情報が存在する場合,量子エンタングルメント支援はユーザー数Kに応じて指数的に増加する乗法的容量利点を提供する。
    • 状態アルファベットのサイズが大きくなるにつれて,乗法的容量利点は無制限に増加し,ユーザー数(K=3)と入力/出力アルファベット(バイナリ)は固定される。
    • バイナリ入力,出力,状態の場合,K=5およびK=7のユーザーに対して,それぞれ21倍と88倍を超える乗法的利得が確認された。また,ノイズの多い量子資源でもこれらの利得は維持される。

    Link: https://arxiv.org/abs/2606.05412

  • DeFi合成の経済的セキュリティに関する形式的枠組み [cs.CR, cs.SE]目的:DeFi合成における経済的セキュリティの形式的保証
    • DeFiは金融の民主化を促進する一方,その複雑な構造が新たなセキュリティリスクを生み出している。
    • DeFiのコンポジション性は利便性をもたらすものの,既存のコントラクトとの相互作用による経済的損失の可能性が課題である。
    • MEV非干渉性という新たなセキュリティ概念を導入し,DeFi合成の安全性を形式的に検証する。
    • MEV非干渉性という概念を定義し,新たにデプロイされたコントラクト群から最大抽出可能な価値が既存のブロックチェーン状態との相互作用によって増加しないことを保証する。
    • ローカルMEVという,特定の被害コントラクト群への経済的攻撃の指標を導入し,安全なコンポジション性のモジュール化された推論を可能にする条件を確立した。
    • 交換,AMM,オプション,レンディングプールなどの代表的なDeFi合成にフレームワークを適用し,安全な構成と脆弱な構成を区別できることを示した。

    Link: https://arxiv.org/abs/2606.05418

  • 置換チャネルにおける系列復元:新たな十分条件とアルゴリズム [cs.IT, math.IT]目的:系列復元問題における一意な復元の条件とアルゴリズム
    • 情報伝送において,誤り訂正は信頼性確保に不可欠であり,復元問題はその基礎となる。
    • 既存の研究では,復元に必要な最小読出回数のみが考慮され,読出間の距離の情報が未活用だった。
    • 読出回数と読出間の距離の両方を考慮することで,より効率的な復元を可能とする。
    • 本研究では,系列の一意な復元のための新たな十分条件を提案した。
    • 提案手法は,読出回数と読出間の距離を同時に考慮する新しい枠組みに基づいている。
    • 理論的解析と効率的な復元アルゴリズムを提示し,その有効性を確認した。

    Link: https://arxiv.org/abs/2606.05454

  • 一歩を踏む前に確認を:型タグチェックの現状 [cs.CE, cs.PL, cs.MS, cs.PF]目的:型タグチェックの性能評価
    • シンボリック計算や動的言語システムにおいて,汎用的な動的値のタグ付けは重要である。
    • 機械アーキテクチャやワークロードの変化により,従来の型タグに関する知識は陳腐化している可能性がある。
    • 現代のプラットフォームにおける型タグチェックの性能を再評価し,最適化手法を特定すること。
    • オブジェクトヘッダ,低ビットタグ付け,NaNボックス化の性能をAArch64やx86-64を含む様々なプラットフォームで比較した。
    • ヒープ割り当てを避けることで得られるコスト削減と,値ワードからタグ情報を取得することによるコスト削減を分離して評価した。
    • 低ビットタグ付けがシンボリックワークロードに対して最も高速であり,NaNボックス化はヒープ割り当てのコストを回避できることが示された。

    Link: https://arxiv.org/abs/2606.05466

  • カスケードログ:階層化された追記シーケンスに対する参照安定ウィンドウ [cs.DS]目的:参照安定性を有する階層化追記構造
    • 大規模データ処理において,データの追記履歴の効率的な管理が重要である。
    • 従来の階層化システムでは,参照がデータの移動によって不安定になる問題がある。
    • データの参照安定性を保ちつつ,メモリ効率の良い追記履歴管理を実現すること。
    • カスケードログは,参照の安定性を保つための単一の持続的な統合間隔マップを使用する。
    • 実験結果から,本手法は参照異常が発生せず,断片化の限界値と一致することが確認された。
    • 追記が多い履歴においては,インデックスのサイズはサブ線形に,断片化編集下でのみ線形に増加する。

    Link: https://arxiv.org/abs/2606.05467

  • REStack:Stack Exchangeにおけるリバースエンジニアリング議論の大規模データセット [cs.SE]目的:Stack OverflowとReverse Engineering Stack Exchangeから収集されたリバースエンジニアリング関連の議論
    • ソフトウェア工学とサイバーセキュリティにおいて不可欠な活動であり,マルウェア解析などに貢献する。
    • 実務における課題や知識のギャップに関する実証的理解が限られており,体系的なデータセットが存在しない。
    • リバースエンジニアリングの実践をデータに基づいて支援するための研究を促進すること。
    • REStackは,12,000件以上のリバースエンジニアリング関連投稿を含む大規模データセットである。
    • 潜在的ディリクレ分配(LDA)と遺伝的アルゴリズム(GA)を用いて,23のトピックを特定した。
    • 議論は主に実践的・タスク指向であり,デバッグ,逆アセンブル,システムレベル解析に重点が置かれていることが明らかになった。

    Link: https://arxiv.org/abs/2606.05493

  • STMutants:産業用オートメーションにおける構造化テキストプログラムのミューテーションテストデータセット [cs.SE]目的:産業用オートメーションソフトウェアのミューテーションテストのためのデータセット
    • PLCはリアルタイム性・安全性が求められるため,ソフトウェアの品質保証が不可欠である。
    • 構造化テキスト(ST)プログラムのミューテーションテスト用公開ベンチマークが存在しなかった。
    • STプログラムに対する再現性のあるミューテーション解析を可能にするデータセットの提供。
    • STMutantsは,OSCAT基本ライブラリと産業関連ソースから収集した11のSTプログラムから生成された110個の1次ミュータントを含む。
    • LLMを用いたテストケース生成とミューテーションキル/サバイブ予測実験で,86.1%~94.4%のミューテーション検出精度を達成した。
    • 本データセットは,PLCソフトウェアの品質保証に関する自動テスト生成,ミューテーション解析,およびAI支援研究を促進する。

    Link: https://arxiv.org/abs/2606.05499

  • オンライン最小コストマッチング:一般的な到着モデルにおける考察 [cs.CL, cs.DS, cs.GT]目的:動的に到着する要求と静的なサーバー間の最小コストマッチング
    • リソース配分やタスク割り当てなど,多様な応用分野で重要な課題である。
    • 従来のモデルでは,片側のみがオンラインで到着することに制約があった。
    • 両側がオンラインで到着する場合の競争率を解明し,アルゴリズムの限界を示す。
    • 敵対的およびランダム順序の入力モデルでは,競争率は無限大となることが示された。
    • 独立同一分布(i.i.d.)の到着モデルでは,O(log^2{n})の競争率を達成するアルゴリズムが提案された。
    • ランダム順序モデルと未知のi.i.d.モデル間の競争率の分離例が示された。

    Link: https://arxiv.org/abs/2606.05546

  • ADKアリーナ:LLMを開発者として評価する [cs.SE, cs.AI]目的:エージェント開発キット(ADK)の選択がエージェントの性能に与える影響の評価
    • 大規模言語モデル(LLM)を活用した自律エージェントの重要性が高まっている。
    • ADKの増加に伴い,どのフレームワークが効果的か,その評価が追いついていない。
    • LLMを開発者として用いることで,ADKの使いやすさと効果を定量的に評価する。
    • 51のPython ADKフレームワークを評価した結果,生成が成功するのは57%のケースであった。
    • APIの複雑さを示す生成コストはフレームワーク間で最大5.6倍の差があり,コストだけでは成功を予測できない。
    • 特定のベンチマークにおいて,最良のADKは80%のタスクを解決し,汎用的なコーディングエージェントを凌駕することもあった。

    Link: https://arxiv.org/abs/2606.05548

  • Reed-Solomonコードの堅牢な修復 [cs.ET, cs.HC, cs.RO, physics.app-ph, cs.IT, math.IT]目的:Reed-Solomonコードにおける単一消去の堅牢な修復
    • データ保存において,信頼性と効率的な修復は不可欠である。大規模なデータストアでは特に重要。
    • 従来の修復方法は,通信帯域幅が制限された環境では,誤った応答による修復失敗のリスクがある。
    • 誤った応答が存在する場合でも,正しく修復可能なReed-Solomonコードの枠組みを確立すること。
    • Guruswami-Woottersのトレース修復フレームワークにおいて,修復トレースコードの特性を解析した。
    • q=2の場合,単一誤り訂正における次元の最適境界を導出した。
    • BCH境界を保証する効率的な堅牢修復スキームと,より多くの誤りを許容する別のスキームを提案した。

    Link: https://arxiv.org/abs/2606.05573

  • SmellBench:リファクタリングタスクにおけるコードエージェントのきめ細かい評価に向けて [cs.SE]目的:コードエージェントのリファクタリング能力評価のためのベンチマーク
    • ソフトウェア開発において,コードの品質維持は,長期的なプロジェクトの成功に不可欠である。
    • 既存の評価基準は,機能の正当性に偏っており,コードの保守性評価が不十分である。
    • コードの潜在的な問題(コードスメル)を検出し,効果的にリファクタリングする能力を評価すること。
    • SmellBenchは,現実世界のコードリポジトリから取得したクリーンなコードスニペットにコードスメルを注入する拡張可能なベンチマークである。
    • 実験の結果,Qwen CodeとClaude Sonnet 4.5の組み合わせでも,スメルの除去率は50.34%に留まった。
    • このギャップは,局所的なコードスメルへの集中と,ファイル間の理解不足に起因することが示唆された。

    Link: https://arxiv.org/abs/2606.05574

  • 差分プライバシーを用いた多目的サブモジュラ最大化 [cs.DS, cs.CR]目的:多目的サブモジュラ最大化問題における,カーディナリティ制約と差分プライバシーの実現
    • データプライバシー保護の重要性が増す中,機密データに対するプライバシー保護アルゴリズムが求められている。
    • 単目的サブモジュラ最大化における差分プライバシー研究はあるものの,多目的化における研究は未開拓である。
    • 差分プライバシーを保証しつつ,多目的サブモジュラ最大化問題を効率的に解決することを目指す。
    • 提案アルゴリズムは,古典的な貪欲法を拡張し,さらにTruncation技術を導入することでプライバシー保護を実現した。
    • 提案手法は,多目的サブモジュラ最大化問題に対する近似保証を持つことが示された。
    • 最大カバレッジ問題と施設配置問題における数値実験により,提案アルゴリズムの有効性と効率性が確認された。

    Link: https://arxiv.org/abs/2606.05596

  • 回転アンテナを利用したアップリンクNOMAシステムのエネルギー効率最適化 [cs.IT, math.IT]目的:回転アンテナを用いたアップリンクNOMAシステムのエネルギー効率最大化
    • 通信需要の増加に伴い,無線リソースの効率的な利用が不可欠となっている。
    • 従来のNOMAシステムでは,ユーザー間の電力分配最適化が課題である。
    • 回転アンテナを活用し,ビームフォーミングと電力配分を最適化することで,エネルギー効率の向上を目指す。
    • 提案手法は,既存のベンチマークと比較して,エネルギー効率において優れていることが示された。
    • 受信ビームフォーミングは最小二乗誤差基準を用いて更新され,電力配分と回転アンテナの回転は分数値計画法と逐次凸近似により最適化される。
    • 回転アンテナとNOMAを組み合わせることで,地上・空中ユーザー両方に対するエネルギー効率が向上することが確認された。

    Link: https://arxiv.org/abs/2606.05600

  • ソフトウェアエンジニアリングの終焉:AIエージェントがソフトウェアパラダイムを根本的に再構築する方法 [cs.SE, cs.AI]目的:AIエージェントによるソフトウェアパラダイムの根本的再構築
    • ソフトウェアは現代社会の基盤であり,その開発効率向上は社会全体の発展に不可欠である。
    • 従来のソフトウェア開発は,人間の能力に依存しており,複雑さの増大に伴い限界を迎えている。
    • AIエージェントを活用することで,ソフトウェア開発のあり方を根本から変革し,より効率的な開発を実現すること。
    • AIエージェントは,問題を分解し,コードを生成・破棄する新しいソフトウェア開発パラダイムを提示する。
    • コードが意思決定の主体ではなく,LLM駆動の推論ループのためのツールとなる点が従来のソフトウェア開発との違いである。
    • SWE-bench Verified等のベンチマーク結果から,エージェントパラダイムの変革的潜在力と現在の限界が示されている。

    Link: https://arxiv.org/abs/2606.05608

  • 閉ループメモリ最適化によるソフトウェアエンジニアリングの強化 [cs.RO, cs.SE, cs.AI]目的:ソフトウェアエンジニアリングにおけるメモリ最適化の枠組み
    • ソフトウェア開発の効率化と品質向上が求められる現代において,自動化技術の重要性が増している。
    • 大規模言語モデルを用いたエージェントは,過去の経験を活かせず,タスクごとに同じ過ちを繰り返すという課題がある。
    • エージェントのメモリ利用を改善し,汎用性と評価可能性を高めることを目指す。
    • 提案手法「\ours」は,タスクに依存しないメモリの有用性を評価基準として確立し,最適化信号として活用する。
    • 単一エピソードおよび複数エピソードでの評価により,「\ours」が様々な環境でソフトウェアエンジニアリングエージェントの性能を向上させることが示された。
    • 成功率が最大5.25%向上,解決効率が4.63%向上,計算コストが9.79%以上削減されるという結果が得られた。

    Link: https://arxiv.org/abs/2606.05646

  • ミッションエンジニアリング要件策定のための構造化アプローチの開発 [eess.SY, cs.SE, cs.SY]目的:ミッション効果の系統的な定義または近似
    • ミッション遂行において,効果の定量的な把握が不可欠である。
    • 顧客要件が不明確または欠落する場合,従来の要件定義に課題がある。
    • 顧客要件がない状況下での効果定義手法を確立すること。
    • ミッション意図を,ミッションコンテキスト,機能,制約などに分解する。
    • Best-Worst Scalingを用いてミッションに重要な要素を優先順位付けする。
    • ミッションの複雑さを定量化する要因を導入し,外部要因の影響を評価する。

    Link: https://arxiv.org/abs/2606.05651

  • 表面形変化がモデレーション判断に与える影響:コード混合ワークフローの不安定性に関するペア比較研究 [cs.SE, cs.AI, cs.LG]目的:コード混合言語入力におけるヘイトスピーチモデレーションのワークフロー変化
    • ヘイトスピーチの検出は,オンラインプラットフォームの安全性確保に不可欠である。
    • 既存のヘイトスピーチ検出システムは,クリーンな英語データでの評価が中心であり,現実のコード混合言語への対応が課題である。
    • コード混合言語入力がモデレーション判断に与える影響を定量的に評価し,改善策を探る。
    • クリーンな英語データで調整された閾値を用いてコード混合言語入力を評価した結果,判断の不安定性が顕著に現れた。ペア間の判断が反転する割合は0.265に達した。
    • コード混合言語入力により,レビューの負担が増加し(0.138から0.297へ),ヘイトではないコンテンツの誤検知率も上昇した(0.069から0.104へ)。
    • 不一致に基づく保留ルールを導入することで,不安定な入力における自動エラーを減らすことができたが,レビュー負荷の増加という代償を伴った。

    Link: https://arxiv.org/abs/2606.05654

  • 反復閾値追跡法と継続法による$\ell_{1-2}$正則化スパース復元 [math.NA, cs.IT, cs.NA, math.IT, math.OC]目的:$\ell_{1-2}$正則化されたスパース復元における性能向上
    • 信号処理や画像処理において,データの効率的な表現と復元は重要な課題である。
    • 従来のスパース復元アルゴリズムは,計算コストや収束速度に課題が残されている。
    • 本研究は,より効率的かつ高精度なスパース復元手法を開発し,その性能を向上させることを目指す。
    • 提案手法ITP-Cは,$\ell_{1-2}$近接ステップと制限付き最小二乗法を組み合わせることで,より迅速かつ正確なスパース復元を実現する。
    • 厳密な下降チェックを導入することで,アルゴリズムの安定性を保ちつつ,継続法の下降構造を維持している。
    • 数値実験の結果,ITP-Cは既存手法と比較して,復元性能が向上することが示された。

    Link: https://arxiv.org/abs/2606.05657

  • CASS-RTL:LLMを用いたRTL生成における正確性重視のサブスペースステアリング [cs.PL, cs.AR, cs.LG]目的:LLMを用いたRTL生成における機能的に正確な出力の導出
    • チップ設計の加速にLLMを活用することの可能性が示されている
    • RTLコード生成では厳密なサイクル正確性が必要であり,わずかな誤りも致命的となりうる
    • LLM内部の注意メカニズムに着目し,RTLの正確性向上を目指す
    • CASS-RTLは,正しいRTLと誤ったRTLを区別する注意ヘッドを特定する
    • 正確性に関連する信号を捉える低次元サブスペースを構築し,推論時にモデルを誘導する介入機構を設計する
    • VerilogEvalとCVDPにおいて,それぞれ10〜20%,5%のpass@1/5/10精度向上を確認した

    Link: https://arxiv.org/abs/2606.05680

  • マイクロスキルアーキテクチャ:AIネイティブなコード生成のためのモジュール型スキル駆動フレームワーク [cs.SE, cs.AI]目的:AIネイティブなコード生成のためのモジュール型スキル駆動フレームワークの設計
    • ソフトウェア開発において,AIの活用が進む中で,大規模言語モデルの能力を最大限に引き出す必要性が高まっている。
    • 大規模言語モデルのコンテキストウィンドウの制約により,精度と効率の低下,トークンコストの増大,アーキテクチャの不安定化といった問題が生じている。
    • マイクロスキルアーキテクチャにより,これらの問題を解決し,より効率的で信頼性の高いAIネイティブな開発システムの構築を目指す。
    • マイクロスキルアーキテクチャは,知識を原子的なスキルカプセルに分割し,動的なルーティングにより関連性の高いカプセルを選択することで,トークン消費量を90%以上削減する。
    • 初回コンパイル成功率をほぼ2倍に向上させ,アーキテクチャ違反を完全に排除することに成功した。
    • 自己学習メカニズムにより,7つの新しいスキルカプセルの自動抽出と登録が可能となり,システムの進化能力を示唆している。

    Link: https://arxiv.org/abs/2606.05720

  • ファインチューニングされた言語モデルと誘導型木探索によるシャノン型エントロピー不等式の自動証明 [cs.IT, cs.LG, math.IT]目的:シャノン型エントロピー不等式の自動証明
    • 情報理論の基礎課題であり,効率的な証明手法が求められている。
    • 変数の数が増加すると,証明に必要な制約の線形結合の探索が困難になる。
    • 小規模言語モデルと木探索を用いて,この証明プロセスを自動化する。
    • ファインチューニングされた0.6Bパラメータの言語モデルが,木探索と組み合わせることで,85%の証明成功率を達成した。
    • GPT-5.5はゼロショットプロンプトで1.7%,Psitipは33.3%のサンプルを解決した。
    • 4096トークン,偏りのない学習データ分布が最適な性能を示し,長いコンテキスト長や偏ったデータは改善に繋がらなかった。

    Link: https://arxiv.org/abs/2606.05729

  • ソフトマスクを超えて:頑健なGNN説明可能性のためのハード摂動ミクスアップ説明器 [cs.NI, cs.LG, cs.AI, cs.IT, math.IT]目的:GNNの説明可能性向上
    • グラフ構造データへの応用が拡大しており,意思決定の透明性が重要である。
    • 既存の説明手法では,関連性の低い情報が残り,説明の精度が低下する。
    • ラベル无关情報を徹底的に圧縮し,分布シフトを軽減する説明手法を開発する。
    • 提案手法HPMEは,グラフ情報ボトルネックに基づき,離散的な説明サブグラフを抽出する。
    • 構造レベル置換に基づく新しいミクスアップ戦略により,分布シフトを効果的に軽減する。
    • 合成データおよび実データにおいて,最先端の説明性能を達成した。

    Link: https://arxiv.org/abs/2606.05756

  • PivCo-ハフマン符号 [cs.DS, cs.PF]目的:ハフマン符号化の新しい手法
    • データ圧縮は情報技術の根幹であり,効率化が常に求められている。
    • 従来のハフマン符号化は,SIMD命令による高速化が難しい場合がある。
    • 高速なSIMD処理を可能にするハフマン符号化手法の開発。
    • 提案手法PivCo-ハフマン符号は,最新のハフマン符号化コーデックを凌駕する復号スループットを達成した。
    • 偏ったノードにANS符号化を適用することで,ANSベースのコーデックに匹敵する圧縮率を維持しつつ,高速な復号を可能にした。
    • ウェーブレットツリーのデータ構造に基づく新しいハフマン符号化アプローチである。

    Link: https://arxiv.org/abs/2606.05765

  • AI支援ソフトウェアエンジニアリングにおける人間による監視と過負荷:二つの隠れたコスト [cs.SE, cs.AI]目的:AI支援ソフトウェアエンジニアリングにおける人間の監視と認知的な過負荷
    • ソフトウェア開発におけるAI活用は進むが,その影響を理解し最適化する必要がある。
    • AI生成物の品質保証には人間の監視が不可欠だが,その負担が軽視されている。
    • AIによる提案過多がエンジニアの認知負荷を増大させる問題を解決する。
    • AI支援ツールによる提案の増加が,エンジニアの精神的な負担を増大させていることが示唆された。
    • AI生成物のレビュー,検証,修正といった人間による監視作業は,無視できないコストを伴う。
    • 実践者の意見に基づき,AI支援ソフトウェアエンジニアリングにおける課題と対策について議論を促した。

    Link: https://arxiv.org/abs/2606.05770

  • LLMは正しいTLA+仕様を作成できるか:自然言語からTLA+への生成の評価 [cs.AI, cs.LG, cs.LO, cs.SE]目的:LLMによる自然言語からのTLA+仕様合成の正確性評価
    • TLA+は,ソフトウェアの形式検証において重要な役割を担い,信頼性の高いシステム開発に貢献する。
    • TLA+仕様の作成には専門知識と時間が必要であり,その敷居の高さが普及の妨げとなっている。
    • LLMを活用して,自然言語から正確なTLA+仕様を自動生成し,検証プロセスを効率化すること。
    • LLMは構文的には最大26.6%の正答率を示すが,意味的には8.6%に留まり,段階的プロンプティングでのみ成功が見られた。
    • モデルの規模は品質を予測せず,DeepSeek r1:8bが70B版よりも優れた性能を発揮するなど,推論能力の重要性が示唆された。
    • コード特化モデルは,主流言語での学習の影響により,一貫して性能が劣る傾向が見られ,学習データバイアスが原因の5つの幻覚カテゴリを特定した。

    Link: https://arxiv.org/abs/2606.05792

  • 動的ネットワークにおける大規模準完全グラフの検出 [cs.DS]目的:動的ネットワークにおける大規模準完全グラフの検出手法
    • 現実世界の複雑なネットワーク構造を分析する上で,準完全グラフの検出は重要な課題である。
    • 大規模グラフにおける準完全グラフの厳密な検出は計算困難であり,近似アルゴリズムの性能向上が求められている。
    • 本研究は,変化するネットワーク構造に効率的に対応する準完全グラフ検出手法を開発することを目的とする。
    • エッジの挿入・削除に対応する完全動的アルゴリズムを提案し,既存手法と同等の準完全グラフを維持する。
    • エッジの挿入のみを許容する増加的ケースでは,頂点の$\gamma$-次数を動的に維持する新手法により,最大207倍の高速化を実現した。
    • 完全動的設定においても高速化を達成し,準完全グラフのサイズと密度への影響は限定的であった。

    Link: https://arxiv.org/abs/2606.05809

  • 密度融合における構成的境界 [cs.CL, cs.IT, cs.AI, math.IT, stat.ME]目的:確率密度融合の順序不変性に関する代数的構成性問題の解決
    • 分散型不確実性管理システムは重要であり,通信,プライバシー,スケジューリング制約下で確率モデルを組み合わせる。
    • 中間ノードの結合順序に依存しない,最終的な密度を保証することが課題である。
    • 順序不変性を保ちながら階層的に実行可能な局所融合ルールを特定する。
    • 正規化された重み付き線形プールが,加法的な出力重みと重みのみの係数を持つ連続二項ルールに対して順序不変な階層的実行を特徴づける。
    • 端点から候補への$f$-ダイバージェンスバランスは異なる局所的形状を持ち,ペアワイズな可解性だけではスケジュール非依存融合に不十分である。
    • ガウス混合モデルは,厳密な融合が構成的であり,ステップごとの圧縮は非正規化された成分測度の合同条件の下でのみ構成的であることを示す。

    Link: https://arxiv.org/abs/2606.05871

  • Asuka-Bench:曖昧な意図と多段階修正に対するコードエージェントのベンチマーク [cs.SE, cs.CL]目的:曖昧なユーザー意図と多段階修正におけるコードエージェントの性能評価
    • Web開発の現場では,要件が明確でない段階から改善を重ねるのが一般的である。
    • 既存のベンチマークは完全なプロンプトに対する一発応答のみを評価しており,現実のWeb開発を反映していない。
    • 曖昧な指示から反復的な改良を通してWebタスクを完成させる能力を評価するベンチマークを開発する。
    • Asuka-Benchは,50のWebタスク,784の評価基準,2402の期待される結果を含む。
    • 8つのLLMと2つのエージェントフレームワークを比較した結果,タスクの成功率はモデル間で最大38ポイント差が生じた。
    • どのモデルも3回の反復でプロジェクトの52%しか完了できず,さらなる改善の余地があることが示された。

    Link: https://arxiv.org/abs/2606.05920

  • 統計支援機械学習を用いた双方向無線チャネルモデル化 [cs.IT, cs.SY, eess.SP, eess.SY, math.IT]目的:双方向無線チャネルの統計的モデリング
    • 現実的なシステム設計には,完全な伝搬情報が不可欠であり,双方向チャネルモデルが重要である。
    • 既存の機械学習手法は,短い時間範囲に限定されるか,多径成分数が変動する場合に対応できないという課題がある。
    • 統計情報を活用することで,固定長の入力に対応し,時間変動するチャネルを予測する。
    • 提案手法では,上位M個の多径成分を選択し,TimesNet-TimeFilterモデルを学習させる。
    • 生成されたチャネルの統計量が,実際のチャネルの統計量と一致するように学習を支援する。
    • シミュレーションの結果,提案手法は最先端の手法と比較して有効であることが示された。

    Link: https://arxiv.org/abs/2606.05993

  • ラショモン集合を用いた変態テスト:機械学習における説明の忠実性 [cs.SE, cs.AI, cs.LG]目的:機械学習における説明の忠実性の評価
    • 機械学習の信頼性向上は,社会実装において不可欠である。
    • 説明可能性を持つ機械学習モデルでも,説明の解釈にばらつきが生じる。
    • 説明の忠実性を検証する手法を確立し,信頼できるモデルを選定すること。
    • 変態テストに基づいたフレームワークを提案し,正解ラベルなしで説明の忠実性を評価する。
    • 5つの変態関係を形式化し,モデルの挙動と特徴量の重要性の整合性を検証した。
    • 提案手法は,テーブルデータとSHAP,LIMEを用いた実験で有効性を示した。

    Link: https://arxiv.org/abs/2606.06056

  • 非同期HyperLTLの複雑性 [cs.LO]目的:非同期HyperLTLのモデル検査と充足可能性の複雑性の決定
    • システムのセキュリティや信頼性の検証において,複数の実行パスを考慮するHyperpropertyが重要である。
    • 既存のHyperLTLでは非同期のHyperpropertyを表現できないという課題があった。
    • 非同期HyperLTL(AHLTL)におけるモデル検査と充足可能性の厳密な複雑性を解明する。
    • モデル検査は第二階算術における真理と同等であることが示された。
    • 軌跡が実存的に量化される場合の充足可能性は$\Sigma_1^1$-完全であることが示された。
    • 軌跡が普遍的に量化される場合の充足可能性は$\Sigma_1^1$-困難であり,$\Sigma_2^1$に属することが示された。

    Link: https://arxiv.org/abs/2606.06091

  • TLA-Prover:嗜好度最適化された低ランク適応による検証可能なTLA+仕様合成 [cs.HC, cs.CY, cs.DB, cs.RO, cs.SE, cs.AI, cs.LG, cs.LO]目的:TLA+仕様の合成
    • 分散システムや安全性重視のプロトコルの検証において,形式仕様記述言語TLA+は不可欠である。
    • 大規模言語モデル(LLM)が生成するTLA+仕様は,意味的な理由でTLCモデルチェッカーに失敗することが多い。
    • LLMによるTLA+仕様生成の信頼性を向上させ,TLCによる検証を通過する仕様を生成すること。
    • TLA-Proverは,200億パラメータのモデルを用いてTLA+仕様の合成を行い,既存のベースラインを大幅に上回る成果を得た。
    • 特に,GoldおよびDiamondレベルにおいてそれぞれ30%のpass@1を達成し,従来の8.6%から3.5倍以上の改善を示した。
    • TLCによる直接的な報酬信号と,モデル自身による仕様修正学習が,その性能向上に貢献している。

    Link: https://arxiv.org/abs/2606.06133

  • 平方根分解におけるブロックサイズのワークロードを考慮した自動調整 [cs.DS]目的:ブロックサイズの自動調整による性能向上
    • データ構造とアルゴリズムの効率的な実装は,大規模データ処理において不可欠である。
    • 平方根分解における最適なブロックサイズは,ワークロードに依存するため,固定値では性能限界がある。
    • ワークロードモデルを学習し,ブロックサイズを動的に調整することで,性能を向上させる。
    • 学習されたワークロードモデルを用いることで,固定の平方根分解よりも性能が向上することが示された。
    • 最良の結果は,特徴量全体を用いたKNN-9モデルであり,平均後悔を1.2882から1.0646に低減し,幾何平均速度を1.151倍に向上させた。
    • 信頼性ゲートを導入することで,性能向上を維持しつつ,速度低下を抑制することができた。

    Link: https://arxiv.org/abs/2606.06145

  • マルチタスク表現エンジニアリングによるLLM生成コードの可読性向上 [cs.SE, cs.AI]目的:LLM生成コードの可読性向上
    • ソフトウェア開発において,コードの品質は重要であり,可読性は理解と保守に不可欠である。
    • LLM生成コードの正確性は向上しているが,可読性は十分とは言えず,改善が求められている。
    • マルチタスク表現エンジニアリングを用いて,コードの可読性と正確性の両立を目指す。
    • マルチタスク表現エンジニアリングフレームワークを提案し,可読性と正確性のトレードオフについて理論的な考察を行った。
    • 複数のタスクにわたる制御が,コードの可読性向上に有効であることを実験的に示した。
    • 提案手法の実装は公開されており,必要に応じて提供可能である。

    Link: https://arxiv.org/abs/2606.06214