arXiv雑要約
プログラム - 2026/05/15 公開
AIエージェント設計パターンの二次元フレームワーク:認知機能と実行トポロジー [cs.AI, cs.MA, cs.SE]目的:AIエージェント設計パターンの分類
- LLMベースのエージェント開発が活発化しており,その設計原則の体系化が求められている。
- 既存のフレームワークは,実行トポロジーか認知機能のどちらか一方に偏っており,構造的に異なるシステムを区別できない。
- 認知機能と実行トポロジーの両側面からエージェントを分類し,設計の指針を提供する。
- 認知機能軸と実行トポロジー軸を組み合わせた二次元分類を提案し,27個の設計パターンを特定した。
- 提示されたフレームワークは,金融,法律,ネットワーク運用,医療などの実世界ドメインにおける有効性を実証した。
- 環境制約とアーキテクチャ選択の関係を規定する5つの経験則を導き出した。
GPUコード生成のためのソース間変換 [cs.PL]目的:GPUプログラミングにおける安全性と性能の両立
- 現代の高性能計算においてGPUは不可欠だが,そのプログラミングは複雑である。
- 同期処理やメモリ管理の誤りが并发バグを引き起こしやすく,性能低下の原因となる。
- 安全性を確保しつつ,GPUの性能を最大限に引き出すための手法を提供する。
- OptiGPUは,データ競合,デッドロック,完全な機能的正確性を保証するGPUプログラミングシステムである。
- OptiGPUは,CPUプログラムの検証済みコードを改良することでGPUプログラムを検証する,検証保持コンパイルを適用する。
- 評価実験により,OptiGPUが手書きのCUDAコードと同等の性能を持つコードを生成できることが示された。
定量的シンボリックパッチ影響分析 [cs.PL, cs.SE]目的:ソフトウェアパッチの影響度評価
- ソフトウェアの安全性確保が重要であり,脆弱性修正パッチの正確な影響把握が不可欠である。
- 従来の同値性検証ではパッチの影響範囲が不明であり,脆弱性修正の信頼性評価が困難である。
- パッチ適用による挙動の変化を定量的に分析し,影響範囲を明確にすることを目的とする。
- 提案手法は,シンボリック解析を用いて,パッチ適用前後のプログラムの挙動の違いを定量化する。
- 90件のCVEパッチとJuliet Test Suiteを用いた実験により,パッチの影響を効果的に特性評価できることを示した。
- EqBenchベンチマークにおいて,同値と誤ってラベル付けされた5組のCプログラムの挙動の違いを特定した。
レガシーコードのニューラルコード変換:APLからC#へ [cs.SE, cs.PL]目的:APLからC#へのコード変換
- プログラミング言語間の自動翻訳は,ソフトウェア開発の効率化に不可欠である。
- APLのような特殊な言語は,文法が簡潔で,大規模な並列コーパスが少ないため,翻訳が困難である。
- APLからC#への翻訳において,ニューラル機械翻訳の性能向上を目指す。
- ニューラルコード変換により,幅広いAPLプログラムをC#に変換できることが示された。
- 自然言語による説明,検索拡張,反復改善といったガイダンス戦略が,翻訳性能を大幅に向上させた。
- 構文コンパイルと機能実行の両方を検証する自動評価パイプラインを開発した。
変容的テストと大規模言語モデルの双方向エンパワーメント:体系的サーベイ [cs.SE]目的:変容的テストと大規模言語モデルの相互作用に関する研究動向の体系化
- 大規模言語モデルの急速な発展に伴い,ソフトウェア品質保証の重要性が増している。
- 従来型のテスト手法では,大規模言語モデルの生成性や確率性に対応できない課題がある。
- 変容的テストと大規模言語モデルの相乗効果により,より信頼性の高いAI品質保証を目指す。
- 本サーベイでは93件の主要な研究を分析し,変容的テストと大規模言語モデルの双方向のエンパワーメントを体系的にまとめた。
- 変容的テストによる大規模言語モデルの検証,大規模言語モデルによる変容関係の発見支援,といった二つの方向性に関する分類を提案した。
- 今後のAI品質保証手法の構築に向けた基盤を提供し,研究の発展方向を提示した。
AI駆動型薬物情報学のためのレガシー臨床報告システムの近代化手法:SAS事例研究 [cs.SE, cs.AI]目的:レガシー臨床報告システムをAI駆動型薬物情報学に対応させるための非破壊的な方法論的枠組み
- 医薬品開発と安全性監視において,臨床報告システムの効率化は不可欠である。開発期間の短縮,コスト削減に貢献する。
- 既存のレガシーシステムはAIとの連携が難しく,データ活用を阻害する要因となっている。
- レガシーシステムのソースコードを変更せずに,AI連携を可能にする方法論を確立すること。
- 本研究で提案するメタデータ層は,レガシーシステムの出力を構造化データとしてLLMが利用できるようにする。
- SASの臨床報告ライブラリを用いた検証で,AI対応とコード削減効果が確認された。
- Phase III試験データやCDISCパイロットデータを用いた検証で,高い整合性が確認され,自動化された安全性監視等の応用可能性が示された。
局所的無知を用いたクラスタリング [cs.DS, cs.CC]目的:相関クラスタリングにおける計算複雑性
- グラフ構造の分析は,様々な応用分野において重要な役割を果たす。
- 相関クラスタリングはNP困難であり,大規模グラフへの適用が課題。
- ファジーエッジグラフの構造に着目し,計算複雑性を軽減する。
- ファジーエッジグラフの退化度 $d$ とパラメータ $k$ の和 $k+d$ を用いたパラメータ化により,多項式カーネルが得られた。
- ファジーエッジグラフの閉包 $c$ とパラメータ $k$ の和 $k+c$ を用いたパラメータ化でも,同様に多項式カーネルが得られた。
- 特定の制限されたグラフ構造においては,問題の困難性が示された。
CA2:コード認識型自動ゲームテストエージェント [cs.SE, cs.LG]目的:自動ゲームテスト戦略の学習
- ゲームの品質保証において,機能検証は不可欠であり,その自動化は効率化に繋がる。
- 従来手法では,網羅的なテストが難しく,エッジケースを見落とす可能性がある。
- コールスタック情報を活用し,より効果的なテスト戦略を自動的に獲得すること。
- CA2は,コールスタック情報を活用することで,従来のコード非認識型エージェントと比較して,一貫した性能向上を達成した。
- 状態ベース及び画像ベースの環境において,効率的なコールスタック抽出を可能にする仕組みを導入した。
- コールスタックのようなコード信号の組み込みが,より効果的でターゲットを絞ったゲームテストを実現することが示された。
線形時間におけるTゲート最適化:ランダム抽象化による手法 [cs.RO, cs.PL, quant-ph]目的:Tゲート数の最小化
- 量子計算は,暗号,化学,最適化問題において指数関数的な高速化が期待されており,その実現には誤り耐性が不可欠である。
- 既存の誤り耐性方式では,Tゲートを効率的に実装できず,複雑なマジック状態蒸留プロトコルが必要となり,Tゲート数が計算資源のボトルネックとなっている。
- 大規模量子計算で求められるTゲート数の削減を実現し,量子計算の優位性への道を拓く。
- 本研究では,位相畳み込みに対する線形時間で実行可能なランダム化アルゴリズムを提案し,その理論的および実用的な有効性を証明した。
- 提案手法は,量子状態の到達可能性を定常的なビットストリングで近似することにより,従来のツールと比較して大幅な高速化を実現した。
- 実装したTZAPは,標準的なベンチマークで同等のTゲート数削減を達成し,数百万ゲート規模の回路を短時間で最適化できる。
ホアール論理の基礎的特徴づけ [cs.LO, math.LO]目的:ホアール論理における正当性証明の基礎
- プログラムの信頼性確保は,現代社会におけるソフトウェア開発において不可欠である。
- ホアール論理の基礎が明確に確立されておらず,形式的な検証が困難な場合がある。
- ホアール論理の理論的な基盤を明確にし,形式的検証の信頼性を高める。
- 反復プログラムの正当性証明が,ホアール論理と第二階述語論理において同値であることが示された。
- 過去の同値性の主張には誤りがあったが,本研究で初めて正確な証明が与えられた。
- ホアール論理の基礎的な性質が形式的に明確化され,理論的基盤が強化された。
低次数対称ブール制約充足問題の冗長性のなさ [cs.DS, cs.CC]目的:低次数対称ブール制約充足問題における冗長性の漸近的成長の分類
- 制約充足問題は,組み合わせ最適化やAIの根幹をなす問題群であり,効率的な解法が求められている。
- 既存手法では,問題規模が大きい場合に計算量が指数関数的に増加し,実用的な解を得ることが困難な場合がある。
- 問題の構造的パラメータである冗長性を利用し,効率的な解法開発を目指す。
- 次数が5以下の対称ブール述語について,冗長性の漸近的成長をほぼ完全に分類した。
- 新しい概念である$t$-balancednessを導入し,多変数多項式との関係を証明することで,上界を導出した。
- Carbonnelの枠組みを用いて下界を導出し,未解決の述語について極値集合系の問題への帰着を示した。
エージェント型ソフトウェアエンジニアリングによるデジタル楽器の迅速な開発:事例研究と考察 [cs.DC, cs.SE, cs.SD]目的:デジタル楽器開発におけるエージェント型ソフトウェアエンジニアリングの応用
- デジタル楽器開発は,音楽表現の可能性を広げる上で重要である。
- 既存のツールは,寿命,相互運用性,参入障壁の高さが課題である。
- エージェント型ソフトウェアエンジニアリングによるこれらの問題解決を目指す。
- エージェント型ソフトウェアエンジニアリングを用いて,C++とJUCEフレームワークでオーディオソフトウェアを3つの事例で開発した。
- ローリー・スピゲルの「Music Mouse」をネイティブプラグインとして再実装し,パシェの「Continuator」システムをPythonからネイティブプラグインへ移植した。
- 既存のトラッカーシーケンサーに対し,OpenGLを用いた3Dユーザーインターフェースを新たに開発し,開発者の経験を自己民族誌的に分析した。
一般ハミング符号メンバーシップに対する最適データ保護機能補正 [cs.IT, math.IT]目的:一般ハミング符号メンバーシップ関数に対する単一誤り訂正機能補正符号の構成
- 通信・情報理論において,誤り訂正符号はデータの信頼性確保に不可欠である。
- 既存の符号化方式では,誤り訂正能力とデータ保護のバランスが課題となる場合がある。
- ハミング符号における効率的な機能補正符号の設計により,誤り訂正性能の向上を目指す。
- 単一誤り訂正機能補正符号の有効なパリティ割り当ての条件を確立した。
- 距離3の符号語グラフが,全てのnに対して連結な二部構造を誘導することを示した。
- 最適パリティ割り当てを導出するための新たなフレームワークを開発し,ベント関数との関連性を明らかにした。
地域的フルフィルメントによる迅速化 [cs.DS, math.OC]目的:電子小売における注文フルフィルメントの迅速化
- 顧客満足度向上において,注文フルフィルメント速度は重要な指標である。
- グローバルなフルフィルメントネットワークが効率化に繋がると考えられていた。
- ネットワークを地域分割することで,フルフィルメント遅延の低減を目指す。
- 大規模ネットワークではなく,地域分割されたネットワークの方が,より迅速なフルフィルメントを実現しうる。
- 欲張りフルフィルメント戦略に基づく均衡条件を満たすフルフィルメント割り当てを特徴付けた。
- 低遅延割り当てを計算するためのアルゴリズムと,シミュレーション結果を示した。
CRANE:ナルスペース編集によるコードエージェントのための制約付き推論注入 [cs.SE, cs.AI, cs.CL]目的:コードエージェントにおける推論能力とツール利用プロトコル遵守の向上
- コードエージェントは,ソフトウェア開発の自動化において重要な役割を担うため,その性能向上は不可欠である。
- 指示(Instruct)モデルと推論(Thinking)モデルは,それぞれ異なる強みを持つが,それらを効果的に統合することが難しい。
- Instructモデルの効率性とThinkingモデルの推論能力を両立させ,コードエージェントの性能を最大限に引き出す。
- CRANEは,InstructモデルとThinkingモデルの差分を利用し,ツール利用を維持しつつ推論能力を向上させる。
- Roo-Evalにおいて,Qwen3-30B-A3Bで66.2%(+19.5%),Qwen3-Next-80B-A3Bで81.5%(+8.7%)のpass1達成率を記録した。
- SWE-bench-VerifiedとTerminal-Bench v2においても,既存手法を上回る改善が確認された。
パリティSATと,その制限出現バージョンに対する新しいアルゴリズム [cs.DS]目的:パリティSAT問題の効率的な解法
- SAT問題は計算複雑性理論の根幹であり,AIや検証技術への応用が期待される。
- パリティSATはNP困難であり,効率的なアルゴリズムが存在しないと考えられている。
- 変数の出現回数に制限を加えることで,既存の指数時間障壁を打破する。
- 変数出現回数$d$が固定の場合,$O^*(2^{m(1-1/O(d))})$時間でパリティ-$d$-occ-SATが解ける。
- 特に$d=2$の場合,$O^*(1.1193^n)$時間または$O^*(1.3248^m)$時間で解けるアルゴリズムを開発した。
- 一般的なパリティSATに対し,$O^*(1.1052^L)$時間で解けるアルゴリズムを導出した。
オラクルモデルにおける高速なリーフから祖先への最小値クエリ [cs.DS, cs.CC]目的:リーフから祖先への経路における最小値クエリの効率的な手法
- 木構造データは,ネットワーク,データベース,階層構造など様々な分野で利用され,高速なデータアクセスが求められる
- 従来の最小値クエリは,比較演算の回数が多く,特に大規模な木構造では処理速度が課題となる
- オラクルモデルを用いて,前処理コストを抑えつつ,クエリ時の演算回数を削減する
- 提案手法は,O(n log h)の前処理時間,空間,オラクル呼び出し回数でデータ構造を構築する。
- 構築後,任意のリーフから祖先へのクエリをO(1)の最悪ケース時間で答え,クエリ時にはオラクルを呼び出さない。
- 本手法は,エッジの重みをノードの重みに変換し,決定論的なタイブレークを適用することで全順序を得る。
スコア一致による学習における有限サンプル限界 [cs.LG, cs.DS, stat.ML]目的:スコア一致を用いた指数族の構造学習のサンプル複雑度
- 高次元統計において,連続変数の指数族分布の学習は重要である。
- スコア一致は計算が容易だが,その統計的性質に関する理論的理解が不足している。
- 指数族の多項式におけるスコア一致を用いた構造学習のサンプル複雑度の解析を行う。
- 本研究は,モデル次元に関する多項式依存性を示すサンプル限界を導出した。
- これは,これまで存在しなかった結果であり,既存研究は漸近的なサンプル複雑度のみを示していた。
量子LDPC符号に対する多基底信念伝播リスト復号 [cs.CL, cs.IT, math.IT]目的:量子LDPC符号の復号性能向上
- 量子情報処理において,誤り訂正は量子ビットの信頼性を担保する上で不可欠である。
- 量子LDPC符号の復号は計算コストが高く,実用化のボトルネックとなっている。
- 多様な復号経路を効率的に探索し,復号性能と速度の両立を目指す。
- 提案手法MBBP-LDは,既存のBPベース復号器(BP-OSD, BPGD)と比較して性能が向上した。
- 特に,自転車符号において,低〜中程度の誤り率領域で最大20〜30%の誤り率低減を達成した。
- 大規模なB1符号においても,BPGDと同等またはそれ以上の性能を維持しつつ,BPと同様の遅延を実現した。
単変量自転車型量子LDPC符号:明示的な論理構造と距離上限 [cs.IT, math.IT]目的:単変量自転車型量子LDPC符号の論理構造と距離上限
- 量子誤り訂正は,量子コンピュータの実現に不可欠な技術である。
- 従来の量子LDPC符号の設計は複雑であり,効率的な探索が困難である。
- 単変量自転車型符号の構造を利用し,効率的な符号設計を目指す。
- 単変量自転車型符号は,二変量自転車型符号よりも設計空間を削減できる。
- 論理演算子の完全なパラメータ化を可能にする論理コセット空間の代数的な特徴付けを提示した。
- 関連する巡回行列のサイクル密度と距離上限の関係を導出した。
局所スパース化による確率的マッチング [cs.CL, cs.DS, cs.LG]目的:確率的マッチングにおける局所スパース化手法
- 現代の分散システムでは,マッチングのタイミングよりも局所通信帯域幅がボトルネックとなる場合が多い。
- 従来の確率的マッチング問題は即時かつ不可逆な決定を必要とし,現実の制約を考慮していない。
- 限られた局所的な情報制約下で,より効率的なグローバルマッチングを実現すること。
- 提案手法は,期待されるインスタンスの分数解に基づいて局所的な選択戦略を行う。
- 理論的に,解の「スプレッド」に応じて近似率が定量化され,十分なスプレッド下で期待される最大マッチングサイズが維持されることが証明された。
- ニューヨーク市のライドヘイリングデータセットを用いた実験結果から,限られた局所予算下でも最適なグローバルマッチングが可能であることが示された。
LLMに基づくマイクロサービスアプリケーションの堅牢性テスト:実証研究 [cs.SE, cs.AI]目的:マイクロサービスAPIの異常,欠損,境界値入力による信頼性への影響評価
- マイクロサービスは現代のソフトウェアアーキテクチャの主流であり,システムの信頼性は不可欠である。
- マイクロサービスAPIの入力検証不足が,システム全体への連鎖的な障害を引き起こす可能性がある。
- LLMを活用したテストケース生成により,多様かつ効果的な堅牢性テストを実現することを目指す。
- プロンプト戦略がモデルサイズよりも多様性に与える影響が大きいことが判明した。
- 特定のプロンプト戦略(Structured)は多様性を損ない,一方,適切なプロンプト戦略を用いた単一モデルが優れた性能を示した。
- 変異タクソノミーを埋め込んだGuidedFewShot戦略が,両システムで最も高い故障モードカバレッジを達成した。
失敗誘導型ファジングによるハイブリッド量子古典プログラムのテスト [cs.SE, quant-ph]目的:ハイブリッド量子古典プログラムのテスト手法
- 近接将来の量子コンピュータ開発において,ハイブリッド量子古典アルゴリズムが不可欠である。
- 古典オプティマイザ設定と量子回路パラメータの組み合わせ空間が広大であり,テストが困難である。
- 失敗事例を活用することで,効率的なテストを実現し,潜在的な問題を検出する。
- 失敗事例を起点とした局所的なファジングが,ランダムテストと比較して大幅な改善をもたらすことが示された。
- VQEインスタンスでは,コンコリックシード探索が追加的な利点をもたらしたが,QAOAインスタンスでは安定性に欠けることが示された。
- 失敗情報の再利用がHQCテストの有望な方向性であり,コンコリックシード探索の価値はワークロードに依存することが示唆された。
セキュアMIMO通信のための送受信アンテナ向き設計 [cs.CL, cs.CY, cs.IT, math.IT]目的:セキュアMIMO通信における送受信アンテナ向きの最適化
- 6G無線ネットワークの安全性を高める物理層セキュリティの重要性が増している。
- 従来の物理層セキュリティは固定アンテナ向きのため,性能が制限される場合がある。
- 回転可能なアンテナを用いて,安全性を高めつつ情報漏洩を抑制する手法を提案する。
- 提案手法は,送信ビームフォーミング,人工ノイズ共分散行列,送受信アンテナ向きを同時に最適化する。
- シミュレーション結果から,提案手法は固定アンテナ向き方式よりも高い秘密率を達成することが示された。
- 提案するアルゴリズムは高速に収束し,多受信機シナリオにも拡張可能である。
Webエージェントは計画・実行パラダイムを採用すべきである [cs.CR, cs.AI, cs.CL, cs.SE]目的:Webエージェントにおける計画・実行パラダイムの採用
- Webエージェントは複雑なタスクを自動化する上で重要であり,その性能向上は社会に大きな便益をもたらす。
- 現在のLLMエージェントの多くはReActアーキテクチャを採用しているが,Web環境においては脆弱性や効率性の問題がある。
- Webエージェントにおける計画・実行パラダイムの有効性を検証し,安全かつ効率的なWebタスク実行を目指す。
- WebArenaのタスク分析の結果,計画・実行パラダイムは全てのタスクに対応可能であり,80%のタスクは純粋なプログラム計画で完了することが示された。
- ReActアーキテクチャと比較して,計画・実行パラダイムはプロンプトインジェクションに対する耐性が高く,より安全なWebエージェントを実現できる。
- Web環境における計画・実行パラダイムの普及には,セマンティックなアクションにマッピングされ,実行前に効果が予測できるツール群の整備が不可欠である。
部分モジュラ最大化におけるランダム到着順の準ストリーミングアルゴリズム [cs.DS]目的:部分モジュラ最大化の準ストリーミングアルゴリズム
- 組合せ最適化問題への応用が期待され,計算資源に制約のある環境下での効率的な解法が求められている。
- 最悪ケースを仮定したアルゴリズムでは性能が限界があり,現実的なデータ分布を考慮したアルゴリズムが課題である。
- ランダムなデータ到着順を仮定することで,アルゴリズムの性能向上を目指す。
- マトロイド,マトロイド$p$-parity,$p$-交換システム,$p$-システムなど,幅広い制約クラスに対して改善された結果が得られた。
- マトロイドにおいては,最悪ケースとランダム順の準ストリーミングアルゴリズム間に分離が存在することが示された。
- 単調部分モジュラ関数をマトロイド制約下で最大化する際の近似率に関するパス数が指数関数的に減少する。
マルチユーザーMIMO通信におけるUAV群の容量特性評価と隊形最適化 [cs.IT, math.IT]目的:マルチユーザーMIMO通信におけるUAV群の最大和容量とその最適な配置
- ロボット技術の発展に伴い,通信環境の制御可能性が重要になってきている。
- 従来の通信システムでは,ユーザーの配置はランダムであり,最適化の余地が少ない。
- UAV群の制御可能な機動性を活用し,通信容量を最大化する隊形を決定すること。
- UAV群の協調的な機動性により,従来のMIMOシステムよりも大幅な容量向上が確認された。
- BSがULAの場合,空間多重化ゲインとビームフォーミングゲインを同時にMまで達成できることが示された。
- UPAの場合,漸近的にπM/4個のユーザーがビームフォーミングゲインMを享受できることが示された。
OpenAPIドキュメントをエージェント対応にする:マルチエージェントLLMシステムによるドキュメントとRESTの課題検出 [cs.SE]目的:OpenAPIドキュメントとREST APIにおける課題の検出
- AIエージェントの普及に伴い,既存のREST APIをエージェントが利用可能なツールとして提供する重要性が高まっている。
- API自体は安定していても,エージェント経由での利用時にタスク計画,ツール選択,ペイロード構築で問題が発生しやすい。
- APIドキュメントの品質がエージェント利用の成否に大きく影響することに着目し,その課題を特定・解決することを目指す。
- HermesというマルチエージェントLLMシステムを開発し,エンドポイントレベルでのドキュメントとRESTの課題を検出した。
- 600のエンドポイントに対して2,450の課題を特定し,全ての操作に何らかの欠陥が存在することを確認した。
- 実務者による検証の結果,検出された課題の妥当性と,修正における状況に応じた判断の重要性が確認された。
マルチモーダル意味源に対する安全な共同ソースチャネル符号化 [cs.IT, math.IT]目的:マルチモーダル意味源の安全な共同ソースチャネル符号化
- 情報セキュリティの重要性が増す中,多種多様な情報を安全に伝送する技術が求められている。
- マルチモーダル情報の伝送における,秘匿性と情報量の両立が課題となっていた。
- ノイズのある盗聴チャネル上のマルチモーダル情報の伝送における,秘匿性,忠実性,レートの限界を明らかにすること。
- 提案手法により,圧縮レベル,秘密鍵レート,盗聴チャネル統計の3要素が秘匿性の限界を決定することが示された。
- マルチモーダルソースに対するレート歪み・知覚問題の定式化を拡張し,伝送レート,忠実度,秘匿性の限界に関する上限と達成可能なレートを確立した。
- 各モダリティごとの歪み制約と知覚制約,および部分集合ごとの等価性制約の下で,秘匿性を確保した情報伝送が可能となった。
最大有効コンテキストウィンドウ制約下における正当性に基づいたリポジトリフィルタリング [cs.HC, cs.CL, cs.SE, cs.AI]目的:リポジトリスキャンにおける非コードファイルの排除による,LLMベースのツールにおけるコンテキスト効率の向上
- LLMを活用した開発ツールにおいて,コンテキストウィンドウのサイズは性能に大きく影響する。
- リポジトリには,コンテキストウィンドウを圧迫する非コードファイルが多数含まれている。
- OSレベルのメタデータを用いた高速なフィルタリングにより,必要なコードを優先的にコンテキストに含める。
- 提案手法であるSizeFilterは,1MBの閾値で平均79.6%のトークン削減を実現し,オーバーヘッドは0.30msと低い。
- HybridFilterは,89.3%のトークン削減率と低い分散性を達成した。
- フィルタリング適用時のファイルレベル精度は72%となり,ベースラインの25%と比較して大幅に向上,ハルシネーション頻度も減少した。
小規模メッセージを用いた高速ゴシップ型噂の拡散 [cs.DC, cs.DC, cs.DS]目的:噂の拡散
- ネットワークにおける情報伝達の迅速化は,緊急時の対応や情報共有において不可欠である。
- 従来のゴシップ型アルゴリズムは高速だが,大規模なメッセージサイズが通信負荷を高める。
- 小規模メッセージを用いて高速な噂の拡散を実現し,通信効率を向上させる。
- 本研究では,ネットワークサイズ$n$に対し対数オーダーのメッセージサイズで噂を拡散する2つのゴシップ型アルゴリズムを提案する。
- 提案アルゴリズムの一つは,$O(c \log n / \Phi_c)$ラウンドで動作し,弱導電率に基づいた最適に近い性能を示す。
- もう一つのアルゴリズムは,ネットワーク直径に依存し,$\tilde{O}(D+\sqrt{n})$ラウンドで動作し,最小全域木も生成可能である。
SWE-Chain:連鎖的なリリースレベルのパッケージアップグレードに関するコーディングエージェントのベンチマーク [cs.SE, cs.AI, cs.CL]目的:連鎖的なリリースレベルのパッケージアップグレードにおけるコーディングエージェントの性能評価
- ソフトウェアの進化は継続的であり,現実的なメンテナンス能力の評価が不可欠である。
- 既存のベンチマークは,パッケージのリリース単位での継続的なメンテナンスを十分に捉えていない。
- 一連のリリースアップグレードを通して,エージェントの性能を客観的に評価する手段を提供すること。
- SWE-Chainは,9つのPythonパッケージ,155のバージョン移行,1,660の要件を含むベンチマークである。
- 9つの最先端エージェント構成において,平均解決率は44.8%,適合率は65.4%,F1スコアは50.2%であった。
- Claude-Opus-4.7(Claude Code)が,解決率60.8%,適合率80.6%,F1スコア68.5%で最も高い性能を示した。
Zスコア分割を用いた安定ソート:zSort [cs.DS]目的:安定ソートにおける性能向上
- 現代のデータ処理において,ソートは基盤技術であり,高性能データパイプラインの速度に影響する。
- 安定性とスループットはトレードオフの関係にあり,安定性を重視すると速度が低下する。
- 安定性を保証しつつ,従来の性能ギャップを埋める効率的なソート手法を提案する。
- zSortは,マイクロアーキテクチャ解析において,誤推測オーバーヘッドが低い(19.7%)ことが示された。
- 実験結果から,zSortは広く使われている安定ソートアルゴリズムを3~4.5倍上回り,LSDラディックスソートに対しても優位性が見られた。
- zSortは,安定性を維持しつつ,高性能な不安定ソートアルゴリズムと同等のスループットを達成する。
行列乗算時間における表現されたマトロイドの分岐幅 [cs.DS, math.CO]目的:マトロイドの分岐幅の計算
- 組合せ最適化問題の効率的な解法は,計算機科学やオペレーションズリサーチにおいて重要である。
- マトロイドの分岐幅の計算はNP困難であり,実用的なアルゴリズムが求められている。
- 行列乗算の時間を活用し,マトロイドの分岐幅を効率的に求めることを目指す。
- 本研究により,マトロイドの分岐幅を既存アルゴリズムより高速に計算できるアルゴリズムが提案された。
- 標準形式で入力されたマトロイドの場合,計算量はO(n^2)となり,非常に効率的である。
- 無限体上のマトロイドに対する近似アルゴリズムも提示し,実用性も考慮した結果となった。
FuzzAgent:進化型ライブラリファジングのためのマルチエージェントシステム [cs.SE, cs.CR]目的:ライブラリファジングの進化プロセス
- ソフトウェアサプライチェーンのセキュリティ確保は重要であり,ライブラリの脆弱性発見が不可欠である。
- 大規模なライブラリファジングにはコストがかかり,環境構築やAPI制約への対応が課題である。
- ランタイムフィードバックを活用し,ハーネスを反復的に改善することで,より深遠な脆弱性を発見する。
- FuzzAgentは,20のC/C++ライブラリに対し,OSS-Fuzz等の既存手法を凌駕し,より多くのブランチを網羅した。
- 全ライブラリのファジングライフサイクルを自動で完遂し,OSS-Fuzzと比較して45.1%のブランチ網羅率向上を達成した。
- 102件の真のライブラリバグを特定し,そのうち78件が既に修正された。
POMDPポリシーの合成:サンプリングとモデル検査の融合による学習 [cs.AI, cs.FL, cs.LO]目的:部分観測マルコフ決定過程におけるポリシーの合成
- 不確実性の下での意思決定を扱う標準的なフレームワークであり,現実世界の様々な問題に応用可能である。
- サンプリングベース手法はスケーラビリティに優れるものの,形式的な正確性の保証がないという課題がある。
- サンプリングとモデル検査を融合することで,安全性が重要なアプリケーションに適した合成手法を開発する。
- 提案手法は,サンプリングをメンバーシップオラクル,モデル検査を同値性オラクルとして利用し,有限状態コントローラーの合成を実現する。
- 合成されたポリシーが正則であれば,形式的な保証を持つことが示された。
- 実験結果から,提案手法が既存の形式合成ツールでは困難な閾値安全性問題を解決できることが示された。
大規模サンプル領域におけるCP-OFDMは周波数拡散波形よりも低いレンジングCRBを達成する [cs.IR, cs.IT, eess.SP, math.IT]目的:通信・センシング統合におけるレンジング精度に対する変調波形の影響
- 通信とセンシングの統合は,リソース効率を高める上で重要であり,新たな技術革新の可能性を秘めている。
- 通信シンボルのランダム性は,センシング精度に影響を及ぼすため,波形設計が重要となる。
- 通信シンボルのランダム性を考慮し,レンジングCRBを最小化する最適な波形を特定することを目指す。
- CP-OFDMはPSK変調において,レンジングCRBの理論的な下限を正確に達成することが示された。
- シンボル数Nが大きくなるにつれて,CP-OFDMは周波数拡散直交波形よりも低いレンジングCRBを達成する。
- CP-OFDMは,振幅推定や遅延・振幅同時推定においても優れていることが示された。
LLMエージェントサプライチェーンにおけるペイロード不要型スキルの悪用 [cs.CR, cs.SE]目的:LLMエージェントサプライチェーンにおける新たな攻撃手法の検証
- LLMエージェントの利用拡大に伴い,外部スキルによる機能拡張が一般化している。
- 既存のセキュリティ監査は,明示的なコードペイロードに焦点を当てており,動的に生成される悪意のある行為への対応が遅れている。
- 本研究は,ペイロードを伴わない攻撃手法「Semantic Compliance Hijacking」による脆弱性を明らかにする。
- Semantic Compliance Hijacking (SCH)は,自然言語による指示を通じて,エージェントに不正なコードを生成・実行させる。
- 主要なエージェントフレームワークと基盤モデルを用いた実験で,機密情報漏洩やリモートコード実行の成功率がそれぞれ最大77.67%と67.33%に達した。
- Multi-Skill Automated Optimization (MS-AO)の導入により攻撃効果が向上し,既存のスキャンツールによる検出を回避した。
PiL の証明網 [cs.LO]目的:PiL の証明網
- プロセス計算の形式化に不可欠であり,論理学と計算機科学の架け橋となる。
- 線形論理の証明の表現方法が効率的でない場合がある。
- PiLにおける証明の標準的な表現方法を確立すること。
- PiL の証明網の正当性判定基準,逐次化手順,証明変換アルゴリズムを提示した。
- 証明網は,規則の置換を許容する範囲で,順序推論の導出の標準的な表現を提供する。
検索がコード補完を阻害する場合:陳腐化したリポジトリコンテキストの診断研究 [cs.SE, cs.AI, cs.CL]目的:陳腐化したリポジトリスニペットが,無害なノイズとなるか,あるいは現在の状態と互換性のないコードを誘発するかという検証
- コード生成において,ファイル間のリポジトリコンテキストの活用が重要である。特に大規模言語モデルの性能向上に寄与する。
- 検索拡張型コード生成では,古い状態のリポジトリスニペットが利用される可能性があり,その影響が不明確である。
- リポジトリコンテキストの鮮度とコード生成モデルの頑健性の関係を明らかにすることで,より信頼性の高いコード生成を目指す。
- 鮮度を中立化したプロンプト下で,陳腐化したスニペットのみを利用した場合,Qwen2.5-Coder-7B-Instructとgpt-4.1-miniにおいてそれぞれ15/17,13/17のサンプルで陳腐化したヘルパー参照が生じた。
- 検索を行わない場合は,陳腐化した参照は発生しなかったが,合格するコード補完は1/17にとどまった。
- 両モデル間で,陳腐化を誘発するサンプルに75.0%のJaccard係数が認められ,有効な現在のエビデンスを追加することで,陳腐化による失敗をある程度改善できることが示された。
重み付き点による軸平行線分へのヒット [cs.CL, cs.CG, cs.DS]目的:軸平行線分族を全てヒットする,最小重み部分集合
- 幾何学的問題は計算機科学の基礎であり,効率的なアルゴリズムが求められる。
- 軸平行線分に対するヒット集合問題はNP困難であり,近似アルゴリズムの性能向上が課題である。
- 既存の近似比を改善し,より効率的なヒット集合問題の解法を確立すること。
- 重み付き問題に対し,$(1+2/e)$-近似のランダム化アルゴリズムを提案した。
- 非重み問題では,$(1+1/(e-1))$近似というより鋭い解析結果を得た。
- 線分ではなく線で構成される部分問題に対し,$1+1/e$の近似率を達成した。
ソフトウェアエンジニアリングタスクにおけるRAGの性能差:コンポーネント単位での実証的研究 [cs.SE]目的:ソフトウェアエンジニアリングタスクにおけるRAGのコンポーネントの性能評価
- 大規模言語モデルの活用が期待される中で,ソフトウェア開発の生産性向上に貢献する技術としてRAGが注目されている。
- RAGの各コンポーネントの最適な組み合わせが不明確であり,試行錯誤による開発コストが高いという課題がある。
- ソフトウェアエンジニアリングタスクにおけるRAGの性能を最大化するための具体的な指針を提供すること。
- 検索器側のコンポーネント,特に検索アルゴリズムの選択が,最終的なシステム性能に大きな影響を与えることが示された。
- 古典的なBM25検索器が,多様なタスクにおいて優れた性能を示すことが確認された。
- 本研究は,ソフトウェアエンジニアリングにおける効果的なRAGシステム構築のための実証的な指針を提供する。
CSLibPremiseBench:構造誘導型前提検索とLean 4コンピュータ科学定理のラベル頑健性 [cs.LO]目的:CSLibに特化した前提検索ベンチマークおよび実験的研究
- 形式検証は,ソフトウェアやハードウェアの信頼性向上に不可欠であり,その自動化が求められている。
- 既存の定理証明ベンチマークは,コンピュータ科学の形式化に特化したCSLibの特性を十分に捉えられていない。
- CSLibにおける前提検索の性能評価と,ラベルの頑健性を検証し,改善策を検討すること。
- CSLibPremiseBenchは,801個のタスクと1875個の候補宣言を含むベンチマークを提供し,再現性のある評価を可能にする。
- 構造誘導型グラフ・語彙的再ランキング(CSG-Rerank)は,厳格なポリシー下でBM25と比較してわずかなMRRの向上が見られたが,BM25+symbolよりも信頼性が高くなかった。
- ベンチマークの構造や候補ポリシーがCSLibにおける前提検索に大きく影響すること,プロキシラベルには明示的な注意が必要であることが示唆された。
コードリポジトリ全体の一貫性と階層性に基づいた,記憶を活用する長期的エージェントフレームワーク [cs.SE, cs.CL]目的:コードリポジトリレベルのドキュメント生成
- 大規模コードベースの理解・保守には,質の高いドキュメントが不可欠である。開発者やコーディングエージェントの生産性向上に寄与する。
- 既存手法はコンポーネントを独立して処理するため,冗長性や矛盾が生じやすい。また,階層構造が欠如している点が課題である。
- リポジトリ全体を統合的に捉え,依存関係と階層構造を考慮したドキュメント生成により,これらの問題を解決することを目指す。
- MemDocAgentは,依存関係を考慮した巡回戦略と,過去の作業履歴を記憶する共有メモリを活用する。
- オープンソースおよびクローズドソースの既存手法と比較し,多角的な評価において最良の性能を発揮した。
- 実際のソフトウェア開発ワークフローへの適用可能性も実証されている。
行動駆動型ソフトウェアテストスイートにおけるサブシナリオリファクタリング機会のマイニング:機械学習分類器とLLM-Judgeベースライン [cs.SE, cs.CL, cs.LG]目的:行動駆動型開発テストスイートにおけるリファクタリング候補となるステップシーケンスの抽出と分類
- 行動駆動型開発は,テストとドキュメントの統合を促進し,ソフトウェア品質向上に貢献する。
- テストスイートのステップシーケンスの重複は,保守性と可読性を低下させる問題を引き起こす。
- 重複シーケンスの自動抽出と適切なリファクタリング手法の提案により,テストスイートの品質を改善する。
- 本研究では,大規模な行動駆動型開発テストスイートのデータを用いて,リファクタリング候補となるステップシーケンスを抽出するマイナーを開発した。
- 抽出されたシーケンスに対し,機械学習分類器(XGBoost)を用いてリファクタリングの妥当性を予測し,既存手法と比較して高い精度(F1 = 0.891)を示した。
- テストスイート全体の75.0%にWithin-file Backgroundの候補が存在し,リファクタリングの潜在的な機会が示唆された。
2つの生成元による単体複体からの新しいパラメータを持つ4元符号 [cs.IT, math.IT]目的:4元符号の構成とそのリー重み分布の決定
- 符号理論は,情報伝送やデータ圧縮において重要な役割を担う
- 既存の4元符号のパラメータ改善が課題となっている
- 単体複体を用いた新しい4元符号の構成と性能評価
- 2つの生成元による単体複体を利用して,無限個の4元$\mathcal{C}_{D}$符号族を構成した。
- 既知の最良の4元線形符号データベースにおいて,少なくとも32個の新しいあるいは改善された符号を発見した。
- 6つの射影的4元線形符号が,現在報告されている最良の符号を上回る可能性を示すパラメータを持つことがわかった。
AIを活用した機能開発のためのIDEツールキット [cs.SE, cs.AI]目的:AIを活用した機能開発におけるテスト,デバッグ,再現性の向上
- AI技術の発展はソフトウェア開発に革新をもたらす一方,専門知識の必要性が課題となっている。
- LLMやエージェントワークフローのテスト・デバッグは難しく,MLのバックグラウンドがないエンジニアの参入障壁が高い。
- IDEに直接AIの可視化と評価機能を提供し,専門知識がなくてもAI開発を容易にすることを目指す。
- JetBrains IDEs向けプラグイン「AI Toolkit」を開発し,実行/デバッグループにトレースと評価を統合した。
- 実務家による混合手法研究から,評価の定期的・反復的な実施,実行時のトレースの可視化,セットアップの簡素化という3つのニーズが明らかになった。
- PyCharmでの初期リリースは,良好なコンバージョン率,継続的なトレースキャプチャ利用,低い解約率を示しており,IDEネイティブな可視化がAI開発の活性化に貢献することが示唆された。
モバイル埋め込み型AIネットワークにおけるエージェント型知能を用いたデジタルツイン同期 [cs.IT, math.IT]目的:デジタルツイン同期の効率化
- デジタルツインは,現実世界の物理的システムを仮想空間で再現し,様々な分野で活用が期待されている。
- 従来のデジタルツイン同期フレームワークでは,協調センシングと自律移動の可能性が十分に活かされていない。
- 本研究は,センシングエージェントの自律性と協調性を活用し,デジタルツインの同期精度向上を目指す。
- 提案手法は,最大ツイン偏差の最小化という目的で,トポロジー配置と多次元リソース割り当て問題を最適化する。
- シミュレーション結果から,提案アルゴリズムは既存手法と比較して,同期偏差の低減において顕著な性能向上を示すことが確認された。
- セマンティック圧縮は,帯域幅が制限された環境下での遅延削減に有効であり,自律的な速度適応はエネルギーと時間のトレードオフを解消する。
ドキュメント駆動型CからRustへのコードベース移行 [cs.SE]目的:レガシーCリポジトリのRustへの移行
- 大規模な既存コードベースを安全かつ効率的に更新することが重要である。
- 従来の翻訳ツールは,コードの構造や意図を十分に考慮していない。
- ドキュメントを基盤としたエージェント連携により,リポジトリ全体の移行を可能にする。
- RustPrintは,Kimi-K2-InstructおよびGPT-5.4の両バックボーンでリポジトリ全体のコンパイルに成功した。
- Kimi-K2-Instructを使用した場合,RustPrintは機能保持率とテスト合格率でClaude Codeを上回った。
- ドキュメント駆動型の連携が,大規模コードベース移行において有効であることが示唆された。
マルチユーザ流体アンテナ通信のためのLLMを活用した自動アルゴリズム設計 [cs.IT, math.IT]目的:流体アンテナシステムにおける最適化アルゴリズムの自動設計
- 無線通信における自由度向上に貢献する流体アンテナ技術の発展は重要である。
- 流体アンテナのポート選択は大規模な組み合わせ最適化問題であり,解決が困難である。
- LLMを用いて,手動での調整なしに最適化アルゴリズムを自動設計し,性能向上を目指す。
- 提案手法は,従来の遺伝的アルゴリズムや深層学習アプローチと比較して,優れた性能を示すことがシミュレーションによって確認された。
- LLMを用いて遺伝的アルゴリズムのクロスオーバーや突然変異操作を最適化する戦略が有効であることが示された。
- LLMがゼロから設計したAutoPortという新しいヒューリスティックも,最適化問題に対して高い性能を発揮する。
