arXiv雑要約
プログラム - 2026/04/29 公開
ソフトウェア脆弱性検出のための汎化可能なマルチモーダル表現学習 [cs.CL, cs.IR, cs.SE, cs.AI]目的:ソフトウェア脆弱性検出における汎化可能なマルチモーダル表現
- ソフトウェアの安全性確保は重要であり,脆弱性検出は不可欠である。
- 従来の脆弱性検出手法はコードのみに依存し,コメントの意味情報を活用できていない。
- コードとコメントの相補的な情報を統合し,脆弱性検出の精度向上を目指す。
- MultiVulは,コードとコメントの表現を対照学習と一貫性正則化によって整合させる新しいフレームワークである。
- 多様なコード・テキストペアを用いることで,モデルのロバスト性を向上させている。
- 実験結果から,MultiVulは既存手法と比較してF1スコアで最大27.07%の改善を示した。
ニューラルネットワークの検証(講義ノート) [cs.IR, cs.LO, cs.AI, cs.FL]目的:ニューラルネットワークの検証に関する理論的考察
- AIの安全性確保には,その動作を保証する検証が不可欠である。
- 複雑なニューラルネットワークの形式的な検証は困難である。
- 様々なネットワーク構造に対する検証手法の基礎を確立すること。
- 本講義ノートでは,ニューラルネットワークの検証について理論的な入門を提供する。
- フィードフォワードネットワーク,再帰型ネットワーク,注意機構,Transformerなどの検証対象を網羅している。
- 仕様記述言語とアルゴリズムによる検証手法についても議論している。
Ulam距離における順列クラスタリング:パラメータ複雑性に関する研究 [cs.DS, cs.CC]目的:順列集合の代表的な順列を求める順位集約問題における複雑性
- 社会的選択,情報検索,計算生物学など,多様な分野で順位付けの集約が重要である。
- Ulam距離を用いた順位集約問題のパラメータ複雑性については,未解明な点が多い。
- Ulam距離におけるk-center,k-medianクラスタリング問題のパラメータ複雑性を解析する。
- Ulam k-center問題は,d=1でNP困難だが,k+dで固定パラメータ実行可能である。
- このアルゴリズムは,Ulam距離の非局所性を考慮した新しい局所探索フレームワークに基づいている。
- Ulam k-median問題は,全距離dでのW[1]-困難性,およびXPアルゴリズムが示された。
SAFEdit:マルチエージェント分解は指示型コード編集の信頼性課題を解決するか [cs.SE, cs.AI]目的:指示型コード編集の信頼性向上
- LLMのコード編集能力は,汎用的なコード生成とは異なり,実行可能なテスト制約下での課題が多い。
- 既存モデルのEditBenchでのタスク成功率は低い(40モデル中39モデルが60%未満)。
- SAFEditは,マルチエージェント分解により信頼性を高め,意図しないコード変更を減らすことを目指す。
- SAFEditはEditBenchにおいて68.6%のタスク成功率を達成し,シングルモデルベースラインを3.8%上回った。
- 反復改善ループは,SAFEditの全体的な成功率に17.4%貢献した。
- SAFEditの自動エラー分析は,シングルエージェントアプローチと比較して指示レベルの幻覚を減少させることを示唆した。
分散ロボットアプリケーションのためのシナリオベースシステムテスト [cs.RO, cs.SE]目的:分散ロボットシステムのシステムレベルテストの自動生成と実行
- ロボットの自律性と連携が進む中で,システムの信頼性検証が不可欠である。
- システム規模の拡大と非決定性により,従来のモデルベーステストでは限界がある。
- 動的なシステム構成変化に対応可能なテスト手法を確立すること。
- SCSLは,シナリオを通じてテスト対象システムの期待される動作や刺激を記述する。
- オンラインテストをサポートすることで,実行中にテストステップを選択・実行する。
- 動的な再構成機構により,コンポーネントの追加・削除やインターフェースの再配線に対応する。
コード評価指標はコードの盗用を検出できるか [cs.CL, cs.SE, cs.AI, cs.IR]目的:コードの盗用検出性能の評価
- ソフトウェア教育における公正性や学術的誠実性の維持は重要であるため,コード盗用検出が不可欠である。
- コード生成タスク評価指標は存在するが,改変レベルに応じた盗用検出の信頼性については不明な点が多い。
- 様々な改変レベルにおけるコード評価指標の盗用検出能力を検証し,その有効性を明らかにすること。
- 前処理なしではDolosが全体ランキングで最も高い性能を示したが,個別の指標ではCrystalBLEU,CodeBLEU,RUBYがJPlagを上回った。
- 性能はL1レベルで最も高く,L4以降から低下する傾向が見られたが,CrystalBLEUはL6レベルでも競争力があった。
- 前処理を施すと,CrystalBLEUがDolosを上回り,全体的に最高の性能となった。データセットごとに見ると,ConPlag rawではDolosが,それ以外のデータセットではCrystalBLEUが優れていた。
マイクロサービスにおけるキーデベロッパーの役割と組織的結合:縦断的分析 [cs.SE]目的:マイクロサービスシステムにおける組織的結合の貢献度合いを示すデベロッパーの役割
- マイクロサービスアーキテクチャの普及に伴い,組織間の連携が重要となっている。
- デベロッパーの役割が組織的結合に与える影響に関する理解が不足している。
- デベロッパーの役割に着目し,組織的結合の発生メカニズムを解明すること。
- コネクターは,組織的結合のレベルが高いことと一貫して関連していることが示された。
- 単一のデベロッパーが複数の役割を担う場合,結合効果がさらに増幅されることが明らかになった。
- ジャックとマベンは,より局所的かつ役割固有の影響力を持つことが示された。
ソフトウェアエンジニアリングにおいて社会的なアイデンティティは重要か? 研究ソフトウェアエンジニアの場合 [cs.SE]目的:研究ソフトウェアエンジニアの社会的なアイデンティティの形成と専門職の幸福への影響
- ソフトウェア開発は社会に不可欠であり,その担うエンジニアの労働環境改善が重要である。
- 研究ソフトウェアエンジニアという職種は,専門的なアイデンティティが確立されていない。
- 研究ソフトウェアエンジニアのアイデンティティ形成とその幸福度への影響を明らかにすること。
- ソーシャルメディア,ブログ,アンケート調査から,研究ソフトウェアエンジニアの集団的アイデンティティが形成されていることが示された。
- このアイデンティティは,専門職としての幸福に影響を与えることが明らかになった。
- 社会心理学とソフトウェアエンジニアリングを融合させ,専門職アイデンティティの進化とその重要性を示した。
マルチクリーク幅パラメータ化された一部のW[1]-困難問題に対するタイトな上限 [cs.DS]目的:マルチクリーク幅パラメータ化された問題の微細な複雑性
- グラフ理論におけるパラメータ化複雑性研究の重要性。問題サイズの指数関数的な縮小を目指す。
- クリーク幅やツリー幅といったパラメータ化手法では,問題によっては上限が緩すぎる場合がある。
- マルチクリーク幅パラメータ化におけるタイトな計算時間境界を定めることで,より効率的なアルゴリズム開発を促す。
- ETH仮説の下で,Max Cut問題はマルチクリーク幅kのグラフ上では$n^{2^{o(k)}} \cdot f(k)$時間で解くことが難しい。
- Hamiltonian CycleとEdge Dominating Set問題は,マルチクリーク幅kのグラフ上で$n^{\mathcal{O}(k)}$時間で解くことができる。
- これにより,クリーク幅パラメータ化とマルチクリーク幅パラメータ化でタイトな計算時間境界が異なる問題が初めて示された。
エージェント的ハーネスエンジニアリング:コーディングエージェントハーネスの観測可能性に基づいた自動進化 [cs.CL, cs.SE]目的:コーディングエージェントハーネスの自動進化
- コーディングエージェントの性能は,ハーネスに大きく依存しており,その重要性は増している。
- ハーネスエンジニアリングの自動化は,多様な行動空間,疎でノイズの多い評価シグナル,膨大な軌跡データなどにより困難である。
- 観測可能性を向上させることで,ハーネスの進化を自律的に進め,試行錯誤による限界を克服することを目指す。
- 提案手法AHEは,Terminal-Bench 2におけるpass@1を69.7%から77.0%に向上させ,人間が設計したCodex-CLIや既存の自己進化ベースラインを上回った。
- 進化させたハーネスは転移学習が可能であり,SWE-bench-verifiedにおいてトークン数を削減し,Terminal-Bench 2では異なるモデルファミリ間でも性能向上が確認された。
- これらの結果から,観測可能性に基づいた進化は,コーディングエージェントハーネスの継続的な改善を可能にする実用的な手法であると考えられる。
RESTestBench:自然言語要件からのLLM生成REST APIテストケースの効果評価ベンチマーク [cs.SE, cs.AI]目的:LLM生成REST APIテストケースの効果評価のためのベンチマーク
- APIテストはソフトウェア品質の確保に不可欠であり,効率的なテスト手法が求められている。
- 従来のテスト指標は,自然言語要件からのテスト生成の妥当性を評価するには不十分である。
- 自然言語要件に基づいたテスト生成の効果を正確に測定できるベンチマークの提供。
- RESTestBenchは,3つのRESTサービスと検証済み自然言語要件(明確/曖昧版)から構成される。
- 要件ベースのミューテーションテスト指標を導入し,生成されたテストケースの欠陥検出能力を評価する。
- 曖昧な要件に対して,SUTとのインタラクションがテスト効果を低下させる場合があることが示された。
空間制御多重アクセス無線ネットワークにおける逐次干渉除去を用いた復号遅延保証の解読 [cs.CL, cs.NI, cs.IT, math.IT]目的:無線ネットワークにおける復号遅延保証の定量化
- 無線通信の発展に伴い,信頼性と効率が重要視されているため。
- 干渉環境下での復号遅延を理論的に保証する手法が不足している。
- 空間制御と空間ネットワークカルカラスを用いた遅延保証手法を確立する。
- セルフリーネットワークの上りリンクにおいて,最悪の場合の復号遅延を定量化できた。
- 空間ネットワークカルカラスが,復号遅延保証の有効なツールとなることを示した。
- 空間制御を用いることで,厳しい時間制約下での復号を可能にする。
ねじれ線形化リード・ソロモン符号,LCDおよびACD MDS構成 [cs.IT, math.IT]目的:ねじれ線形化リード・ソロモン符号の特定のサブファミリーに関する研究
- 符号理論は,情報伝送やデータ保存において誤りを訂正するために不可欠である。
- 既存の符号は,特定の環境下で十分な性能を発揮できない場合がある。
- 新しい符号の構成を通じて,より優れた誤り訂正性能を目指す。
- ねじれ線形化リード・ソロモン符号が線形補完双対符号(LCD)となるための必要十分条件が,ねじれパラメータη^2 ≠ -1であることが示された。
- この条件は,評価部分群,次元パラメータ,ねじれ指数に依存せず,符号長に軽い制限があるのみである。
- 二次拡大体上において,加法的なねじれ線形化リード・ソロモン符号の無限個の族が,加法的な補完双対(ACD)かつ最大距離分離(MDS)である構成が示された。
スレッドから軌跡へ:GitHub Issueディスカッションからのコミュニティ知識抽出のためのマルチLLMパイプライン [cs.SC, math.CO, math.RA, cs.SE]目的:GitHub Issueディスカッションからのコミュニティ知識抽出
- 大規模OSS開発では,複雑な問題解決に多くの認知資源が必要となる。
- Issueディスカッションは長文で構造化されておらず,情報が分散している。
- Issue解決の軌跡を構造的に把握し,開発者の負担軽減を目指す。
- 提案手法SWE-MIMIC-Benchは,複数のLLMを用いてIssueディスカッションから軌跡データセットを生成する。
- 個々のコメントを分析・分類し,ラベルに基づいた情報を統合することで,一貫性のある軌跡を抽出する。
- 800件の実Issueデータセットで91.7%の成功率を達成し,高精度な軌跡抽出が可能であることを示した。
炭素税を課したTransformer:巨大言語モデルのグリーン圧縮パイプライン [cs.SE, cs.LG]目的:巨大言語モデルの効率性と環境負荷の軽減
- ソフトウェア工学へのLLM導入が進む中,計算コストの増大が課題となっている。
- LLMはサイズが大きく,展開に時間とメモリを要し,環境負荷も高い。
- 効率性と環境コストを重視した圧縮パイプラインを構築し,持続可能なAIを目指す。
- 提案手法Carbon-Taxed Transformers(CTT)は,モデルのメモリ使用量を最大49倍削減する。
- コードクローン検出,要約,生成において,推論速度を最大10倍,CO2排出量を最大81%削減する。
- 精度はクローン検出で約98%,要約で約89%,生成でテキスト指標で最大91%,pass@1で最大68%を維持する。
ハイパーフラクタルネットワークにおける駐車探索の漸近的性質 [math.PR, cs.IT, math.IT]目的:ハイパーフラクタル構造を持つ再帰的なマンハッタン街路網における最初の空き駐車スペースまでの距離の漸近的振る舞い
- 都市交通計画において,効率的な駐車探索は交通渋滞緩和と都市機能の向上に不可欠である。
- 複雑なネットワーク構造における駐車探索の距離分布は解析が難しく,予測精度が低い。
- ハイパーフラクタル次元と期待距離の関係を明らかにし,駐車探索の効率向上に貢献する。
- 期待距離は総強度が増加するにつれてべき乗則に従って減衰し,その指数はハイパーフラクタル次元の逆数となることが示された。
- べき乗則の指数はネットワークの大規模幾何学的形状のみに依存し,街路強度のランダムな変動に対してロバストであることが証明された。
- 分散,駐車前の旋回回数,ジャンプオーバー戦略においても同様のスケール則が成り立つことが確認された。
量子LDPC符号のネットワーク実現 [quant-ph, cs.IT, math.IT]目的:量子LDPC符号のネットワーク実装
- 量子コンピュータ実現において,誤り耐性量子計算は不可欠であり,低オーバーヘッドな符号が求められる。
- 従来のQLDPC符号は長距離結合が必要で,量子ビットの移動コストが高いという課題があった。
- 本研究では,より高性能なQLDPC符号をネットワーク上で実現し,実用的な制約下での性能評価を行う。
- ネットワーク化された表面符号をStimを用いて再現し,回路レベルでのノイズ性能に関する新たな知見を得た。
- 二変数自転車符号をノード間で分割する最適な量子ビット分割を,X-Zタナグラフの最小カット分割を用いて特定した。
- 安定化子をまたぐゲートにはテレポーテーションCNOTを実装し,ベル対の忠実度を変化させることで,性能への影響を評価した。
ハードウェア制約下における論理回路コンパイルの安定化要因 [quant-ph, cs.IT, math.IT]目的:量子論理回路コンパイルにおける最適化手法
- 量子計算の実現には,誤り耐性とコンパイルが不可欠である。実用化には,これらを効率的に解決する必要がある。
- 量子デバイスの制約(接続性など)により,理想的なコンパイルが困難になる場合がある。
- 誤り訂正符号の冗長性を利用し,ハードウェア制約を回避するコンパイル手法を開発する。
- 誤り訂正符号の導入により,物理的に異なる演算子を論理的に区別不能にすることで,コンパイルの自由度を高める。
- コンパイルにおける理想的な選択を,最小二乗問題として定式化し,閉じた形の解を提供する。
- 提案手法により,コストのかかるスワップゲートの挿入を回避し,ハードウェアにネイティブにアクセス可能なハミルトニアンを用いて論理ターゲットを実装できる。
混合次元量子MacWilliams恒等式:異種系における符号と絶対最大エンタングルメント状態に対する上限 [eess.SP, cs.DC, quant-ph, cs.IT, math.CO, math.IT]目的:異種系における量子誤り訂正符号および絶対最大エンタングルメント状態の特性評価
- 量子アーキテクチャの発展に伴い,異なる物理基盤の組み合わせが重要になっている。
- 従来の量子誤り訂正の指標は,異種系では不十分である。
- 混合次元ヒルベルト空間における符号パラメータの制約を厳密に導出する。
- 混合次元量子MacWilliams恒等式を確立し,Shor-Laflamme列挙子とユニタリー重み列挙子の間の代数的関係を明らかにした。
- 混合次元量子Hamming,Singleton,Scott上限を導出し,符号の実現可能性を評価する線形計画法を開発した。
- シャドウ不等式を用いて絶対最大エンタングルメント状態の存在を制約し,混合次元三分割AME状態の明示的な構成法を導入した。
普遍的に頑健な動的デカップリング系列のエラー縮小の証明 [quant-ph, cs.IT, math.IT]目的:普遍的に頑健な動的デカップリング系列におけるエラー補償の次数
- 量子情報処理において,ノイズ環境下での量子ビットのコヒーレンス維持は重要課題である。
- 従来のデカップリング手法では,パルス不完備性がエラー抑制の性能を制限する。
- 本研究は,パルス不完備性に対するロバスト性を数学的に証明し,性能限界を明確化する。
- 偶数次UR$n$ DD系列のエラー縮小次数がn次であることを厳密に証明した。
- フィデリティFの級数展開を用いて,係数消去の必要十分条件を導出した。
- UR$n$系列がこれらの条件を満たすことを示し,その堅牢性の構造を明らかにした。
高階数学的演算意味論に向けて [cs.LO, cs.PL, math.CT]目的:高階言語に対する抽象GSOS仕様の理論
- 高階言語の形式的意味論は,プログラムの正当性保証に不可欠である。
- 既存の抽象GSOSフレームワークは,高階言語への適用が困難であった。
- 高階言語における抽象GSOSの適用可能性を示す。
- 本研究で開発された理論により,高階言語の演算意味論が特定のdinatural変換として表現可能となった。
- この理論に基づき,全てのシステムに対して一般的な合成可能性の結果が得られる。
- SKI calculusとラムダ計算に対する合成可能性が,本理論のインスタンスとして導出された。
Σ₀²における位置性と完全性に関する結果 [cs.LO]目的:無限持続ゲームにおける先手プレイヤーの位置戦略の存在
- ゲーム理論は,人工知能や経済学など,様々な分野における意思決定のモデル化に不可欠である。
- 位置戦略の判定は複雑であり,特定の条件下でのみ効率的なアルゴリズムが存在する。
- Σ₀²の目的が位置性を持つための必要十分条件を特定し,その完全性を証明すること。
- Σ₀²において位置性を持つprefix-independentな目的は,可算順序数上の履歴決定的単調co-Büchiオートマトンによって認識されることが示された。
- 平均報酬目的が任意のゲームグラフ上で位置性を持つことが証明された。
- 有限ゲームグラフ上で位置性を持つ目的に対し,任意のゲームグラフ上で位置性を持つ同等の目的が存在することが示された。
部分和問題に対する改良された擬多項式時間アルゴリズム [cs.DS]目的:部分和問題の解法
- 組合せ最適化問題の基礎であり,様々な応用分野で重要である。
- 多項式時間で解けることが知られていないNP困難な問題である。
- 既存のアルゴリズムの計算量を改善し,より高速な解法を目指す。
- 本研究では,$\tilde{O}(n + \sqrt{wt})$ 時間で部分和問題を解くアルゴリズムを提案した。
- これは,Bringmannのアルゴリズムよりも改善された結果である。
- 最大値$w$と目標値$t$の関係性に基づいた時間計算量を実現した。
AIモデル品質に関する実務家からの視点:認識,課題,および解決策 [cs.SE]目的:AIモデル品質に対する実務家の認識,課題,および解決策の特定
- AI技術は広く普及しており,信頼性・安全性確保のため,AIモデルの品質が不可欠である。
- 従来の正確性だけでなく,多様な品質属性への対応が求められるが,その重要度評価が不十分である。
- 実務家が重視する品質属性を明確にし,より実用的なAIモデル開発を支援すること。
- 実務家は,状況に応じて品質属性の優先順位を異にする。リアルタイム処理では効率性,高可用性システムでは正確性が重視される。
- データ不均衡は,モデルの正確性・頑健性を維持する上での大きな障害であり,アクティブラーニング等の緩和策が用いられる。
- 本研究の結果は,研究者が実務家が最も重視する属性に焦点を当て,他の属性とのトレードオフを考慮した開発を行う上で役立つ。
自律走行車における相互依存する要件のテストのための強化学習:実証研究 [cs.DM, cs.IR, cs.SE, cs.LG, cs.RO]目的:自律走行車の要件テストにおける強化学習の比較評価
- 自動運転技術の発展に伴い,安全性と信頼性の確保が不可欠となっている。
- 既存のテスト手法では,複雑な要件間の相互依存関係を考慮しきれない場合がある。
- 単一目的強化学習と多目的強化学習の有効性を比較し,最適なテスト戦略を明らかにすること。
- 多目的強化学習と単一目的強化学習は,違反の発生様式に違いが見られるものの,多くのケースで同程度の有効性を示した。
- 多目的強化学習はより多くの違反シナリオを生成する傾向がある一方,単一目的強化学習はより深刻な違反を露呈する可能性が高い。
- シナリオの多様性に関しては,多目的強化学習が優れており,要件の網羅性を重視する場合は適している。
AI駆動ソフトウェア品質の設計図:LLMと確立された標準の統合 [cs.CL, cs.SE, cs.AI, cs.CL]目的:AI駆動型ソフトウェア品質保証手法と既存の標準との統合
- 信頼性,安全性,効率性を担保するため,ソフトウェア品質保証は不可欠である。
- 既存の品質保証プロセスは,手作業が多く,時間とコストがかかるという課題がある。
- LLMを活用し,ソフトウェア品質保証プロセスを自動化し,効率化することを目指す。
- 本研究では,LLMベースのSQA手法と確立された標準との関連性を調査し,AI駆動ソリューションが従来の品質保証を強化する方法を明らかにした。
- 要件検証,欠陥検出,テスト生成,ドキュメント保守など,様々なLLMベースのSQAアプリケーションが,各標準の特定の要件と指標に対応可能であることが示された。
- データプライバシー,モデルのバイアス,説明可能性といった課題に対処するためのガバナンスと監査の重要性が強調された。
ベイエSL: ベイズネットワークの検証のための論理的フレームワーク [cs.AI, cs.LO]目的:ベイズネットワークの挙動の仕様,クエリ,検証のための論理的フレームワーク
- AIの説明可能性向上は重要である。ベイズネットワークは透明な構造を持つが,形式的な検証方法が不足している。
- ベイズネットワークの挙動検証は,アドホックなクエリや手動操作に頼っており,体系的な検証が困難である。
- ベイズネットワークの挙動を形式的に検証し,モデルの信頼性を保証することを目的とする。
- ベイエSLは,確率的推論クエリとモデルチェック形式のクエリをサポートする構造化言語である。
- ベイエSLは,モデルの修正を必要とせずに,因果関係や反事実的なシナリオに関する推論を可能にする。
- 診断ケーススタディとベンチマークモデルを用いて,ベイエSLがベイズネットワークの挙動を明確化し,信頼性と説明可能性を向上させることが示された。
リー距離チャネルにおけるPlotkin類似の上界と関数訂正符号の明示的構成 [cs.IT, math.IT]目的:関数評価の誤りに対する保護と冗長性の最小化を目的とした関数訂正符号の理論的枠組み
- 情報伝送において,誤り訂正は信頼性向上のために不可欠であり,符号化技術が重要な役割を果たす。
- 従来の符号化方式では,関数自体の正確性維持が課題であり,冗長性が高くなる傾向がある。
- 関数訂正符号を用いることで,冗長性を抑えつつ関数評価の正確性を保証することを目指す。
- 本研究では,リー距離符号に対するPlotkin類似の上界を提案し,不規則なリー距離符号の限界を示す。
- リー重み,リー重み分布,モジュラ和,局所的に有界な関数など,特定の関数クラスに対する明示的な関数訂正符号を構成した。
- 提案された構成は,特定のケースにおいて最適であり,従来の符号と比較して冗長性を大幅に削減できることが示された。
グラフにおけるGrundy支配とゼロ強制問題のパラメータ化された複雑性について [cs.CC, cs.DM, cs.DS, math.CO]目的:グラフ支配問題におけるGrundy支配とゼロ強制問題のパラメータ化された複雑性の解析
- グラフ理論は,ネットワーク分析,最適化,情報科学など,幅広い分野に応用されており重要な研究分野である。
- 支配問題はNP困難であることが多く,大規模グラフへの適用には計算量の問題が存在する。
- パラメータ化された複雑性を用いて,特定のパラメータに関する効率的なアルゴリズムの存在可能性を探る。
- Grundy支配問題の4つの変種(Grundy支配,Grundy全支配,L-Grundy支配,Z-Grundy支配)全てが解サイズに関してW[1]-完全であることが示された。
- ゼロ強制問題の3つの変種についても,Grundy支配問題との関係から,特定の条件下で多項式時間アルゴリズムが存在することが示された。
- L-Grundy支配問題は,支配に含まれない頂点数をパラメータとした場合,W[1]-困難であることが示された。
準周期グラフアンサンブルと西森温度におけるランダム結合イジングモデルによる自然画像分類 [cs.LG, cs.CV, cs.IT, math.AT, math.IT]目的:自然画像分類における高次元特徴量の圧縮と分類精度の向上
- 自然画像分類は,画像認識の基盤技術であり,様々な応用分野で重要である。
- 従来の画像分類は,計算コストが高く,特徴量空間の幾何学的構造を捉えきれていない。
- グラフ構造と物理モデルを組み合わせることで,計算効率の良い高精度な分類器を開発する。
- MobileNetV2の特徴量をイジングスピンとして捉え,準周期LDPCグラフを構築することで,特徴量の次元削減を実現した。
- 西森温度での演算により,グラフのトラップ集合と位相不変量との間の対応関係を利用し,分類精度を向上させた。
- ImageNet-10で98.7%,ImageNet-100で84.92%のトップ1精度を達成し,計算量を大幅に削減した。
「あなたのAI,私のシェル」: エージェントAIコーディングエディターに対するプロンプトインジェクション攻撃の解明 [cs.CR, cs.SE]目的:エージェントAIコーディングエディターにおけるプロンプトインジェクション攻撃の脆弱性
- AIによる自動化が進む中で,開発者の生産性向上に貢献するAIエディターの重要性が増している。
- AIエディターが持つ強力なシステム権限が,悪意のある攻撃者による不正利用のリスクを高めている。
- AIエディターのセキュリティ脆弱性を評価し,攻撃手法とその成功率を明らかにすること。
- エージェントAIコーディングエディターは,外部リソースへの悪意のある命令の注入により,攻撃者に乗っ取られる可能性があることが示された。
- 開発された自動テストフレームワークAIShellJackを用いて,GitHub CopilotとCursorに対する大規模な評価を実施した。
- 攻撃成功率は最大84%に達し,攻撃対象となる範囲が広範に及ぶことが確認された。
非同期認識論理におけるメッセージ送受信の公理化 [cs.LO, cs.MA]目的:非同期アナウンスメント論理の公理化
- エージェントの知識やコミュニケーションに関する形式的な推論が必要とされている。
- 従来の認識論理では,メッセージの送信と受信を適切に扱えていない。
- メッセージ送受信を考慮した認識論理の完全な公理系を構築すること。
- 本研究では,メッセージ送受信履歴を考慮した公理系AA*を提案した。
- AA*はAAの拡張ではないものの,無限公理系であり,AAのような簡約系ではない。
- これにより,メッセージ送受信を含む動的なアナウンスメント論理の妥当性を形式的に検証できるようになった。
ポインタ知識グラフを用いたCからRustへのプロジェクトレベル変換 [cs.SE, cs.AI]目的:Cコードから安全なRustコードへの変換
- メモリ安全性を確保する上で,CコードをRustに変換することは重要である。
- 既存のLLMベース手法は,ポインタのグローバルな利用状況の把握が難しく,プロジェクトレベルでの変換が困難である。
- ポインタ知識グラフを用いて,LLMに包括的なポインタ情報を与え,安全で自然なRustコードを生成することを目指す。
- 提案手法PtrTransは,従来のルールベースやLLMベースの手法と比較して,変換されたRustコードにおけるunsafeな利用を99.9%削減した。
- ファジング強化型LLMアプローチよりも29.3%高い関数レベルの正答率を達成した。
- ポインタ知識グラフが,LLMによる安全で自然なRustコードの生成を導くことを実証した。
グローバルプラットフォームの特性分類:集中型,分散型,連合型,草の根型 [cs.CL, cs.DC, cs.MA, cs.SE, cs.SI]目的:グローバルプラットフォームの分類
- 現代社会において,グローバルプラットフォームは不可欠なインフラであり,その理解が重要である。
- 既存のプラットフォーム分類は曖昧で,数学的厳密性に欠ける。
- 多エージェント原子トランザクションに基づく形式的枠組みでプラットフォームを分類し,その本質を明らかにする。
- グローバルプラットフォームを,必要不可欠なエージェントの数によって,集中型,分散型,連合型,草の根型に分類する形式的枠組みを提案した。
- ソーシャルネットワークを例に,各プラットフォーム型の形式仕様を提示し,基本的な正当性特性を満たすことを証明した。
- 草の根型プラットフォームの既存の定義との整合性を示し,より広範な形式的文脈の中で位置付けた。
FRIENDS GUI:受動的ベイピングモニタからのベイピング行動のデータ収集と可視化のためのグラフィカルユーザーインターフェース [cs.SE]目的:ベイピング行動データの収集と可視化のためのグラフィカルユーザーインターフェース
- 電子タバコ利用の実態把握は,健康影響の評価や規制策の検討に不可欠である。
- ベイピング時のパフの形状(持続時間,間隔,回数)の解析が複雑で,専門知識を要する。
- FRIENDSデバイスで収集したデータの利便性と解釈性を向上させ,研究へのアクセスを容易にする。
- FRIENDS GUIは,FRIENDSデバイスから24時間のベイピングデータを抽出し,デコードし,可視化するPythonベースのツールである。
- 24時間の実験データを用いた検証により,正確なタイムスタンプ変換,信頼性の高いイベントデコード,効果的な行動の可視化が確認された。
- 本ソフトウェアはGitHubで公開されており,誰でも利用可能である。
空間・空中・地上統合ネットワーク:ビット誤り率,残差ドップラー,ドップラー解析 [cs.PF, cs.AR, eess.SY, cs.IT, cs.SY, math.IT]目的:空間・空中・地上統合ネットワークにおけるビット誤り率の性能評価
- 宇宙・航空・地上を統合したネットワークは,広範囲な通信を可能にするため重要性が増している。
- マルチパスドップラー効果や相対性理論の影響により,ドップラー補償と同期が困難である。
- 残差ドップラーと同期遅延を考慮し,より正確なビット誤り率評価を目指す。
- 低軌道衛星(LEO)300km高度において,現実的な楕円軌道の周期は理想的な円軌道より約0.8秒長いことが示された。
- LEO衛星が昇りから沈むまでの全軌道において,相対論的遅延は1マイクロ秒以下であることが示された。
- 残差ドップラー,大気遮蔽,同期誤差,パイロットオーバーヘッドがビット誤り率に与える影響を定量的に評価した。
DockSmith:エージェントによるDockerビルダーを通じた信頼性の高いコーディング環境のスケーリング [cs.AI, cs.SE]目的:ソフトウェアエンジニアリングエージェントの実行に基づく学習と評価のスケーリングにおけるボトルネック解消
- ソフトウェア開発の効率化において,再現性のある環境構築は不可欠である。
- Docker環境構築の信頼性不足が,エージェントの学習と評価の際の大きな障壁となっている。
- Docker環境構築をエージェントの能力として捉え,ツール利用や依存関係の推論能力向上を目指す。
- DockSmithは,Multi-Docker-Evalにおいて,Fail-to-Pass率39.72%,Commit Rate 58.28%を達成し,オープンソースの最先端性能を示した。
- SWE-bench Verified,SWE-bench Multilingual,Terminal-Bench 2.0といった,分布外のデータに対しても性能向上が確認された。
- Docker環境構築をエージェントの主要な能力とすることで,他のタスクにも応用可能な汎用的なエージェント能力を獲得した。
CodeOCR: ビジョン言語モデルによるコード理解の有効性について [cs.CL, cs.SE]目的:コード理解におけるビジョン言語モデルの有効性
- ソフトウェアの規模拡大に伴い,効率的なコード理解が不可欠となっている。
- 従来のテキストベースの手法では,コンテキスト長の増加に伴い計算コストが増大する。
- 画像表現を利用することで,計算コストを削減し,効率的なコード理解を目指す。
- ビジョン言語モデルは,大幅なトークン削減(最大8倍圧縮)下でもコードを効果的に理解できることが示された。
- 構文ハイライトなどの視覚的要素を活用することで,コード補完性能が向上することが確認された。
- クローン検出タスクは,圧縮によって性能が向上する場合もあり,視覚的圧縮に対する耐性があることが示された。
孤立頂点を持たない最大共通頂点部分グラフ問題のパラメータ複雑性 [cs.CC, cs.DS]目的:孤立頂点を持たない最大共通頂点部分グラフの存在判定
- グラフ理論における古典的な問題であり,社会選択理論などへの応用も期待される分野である。
- 最大共通部分グラフ問題はNP困難であり,効率的なアルゴリズムの設計が難しい。
- パラメータ化された複雑性を用いて,問題の効率的な解法を見出すことを目指す。
- 孤立頂点を持たない最大共通頂点部分グラフ問題がNP困難であることが示された。
- パラメータ数$h$に関してFPTアルゴリズムが提供された。
- 頂点被覆数,最大次数,木深さなどの構造パラメータを用いたパラメータ化において,計算複雑性の二分法が導かれた。
エージェントDiff:状態差分に基づく評価を用いた,LLMエージェントのエンタープライズAPIタスクにおけるベンチマーク [cs.RO, cs.SE, cs.CL]目的:LLMエージェントのエンタープライズAPIタスクにおける性能評価
- LLMの活用が広がる中,実世界タスクでの性能評価が不可欠となっている。
- 既存のベンチマークは,環境制御と実用性のトレードオフに悩んでいる。
- API利用時の状態変化に着目し,厳密かつ実用的な評価を可能にすること。
- Agent-Diffフレームワークにより,9つのLLMを224のタスクで比較評価した。
- 状態差分に基づく評価は,従来の曖昧な評価方法と比較して優れていることが示された。
- APIドキュメントへのアクセスが,ベンチマーク性能に与える影響も検証した。
ほぼ最適なオーバーヘッドを持つ展開分解 [cs.DS]目的:近似的なフロー展開分解の計算
- グラフ理論において,グラフの連結性を保ちつつ効率的な処理を実現するため,展開の性質が重要である。
- 既存手法では,展開分解の際に大きなオーバーヘッドが生じ,グラフの効率的な利用が制限されていた。
- 本研究は,グラフの連結性を維持しつつ,最小限のエッジ削除で効率的な展開分解を実現する。
- 提案手法は,グラフのエッジの$\phi\log^{1+o(1)}n$分の最大削除で,各連結成分を$\phi$-フロー展開グラフにできる。
- これは,カット展開分解の下限$\Omega(\log n)$にほぼ一致し,既存手法よりも大幅にオーバーヘッドを削減する。
- 従来手法では$O(\phi\log^{1.5}n)$または$O(\phi\log^{2}n)$の削除が必要だったが,本手法はより効率的である。
LLM のチューニング:推論ハイパーパラメータの可変性モデルの活用 [cs.CL, cs.CL, stat.ME, cs.LG, cs.SE]目的:LLM推論におけるハイパーパラメータの最適化手法
- LLMの利用拡大に伴い,計算資源消費と持続可能性が重要課題となっている。
- 推論時の設定空間が膨大であり,網羅的な評価が困難である。
- 可変性モデルを用いて,効率的なハイパーパラメータ探索と予測を可能にすること。
- 可変性モデルは,LLM推論設定の複雑さを効果的に管理できることが示された。
- ハイパーパラメータの影響と相互作用の体系的な分析,トレードオフの可視化が可能となった。
- 少数の測定値から推論動作を予測する学習モデルの構築に貢献する。
指数規則関数 [cs.FL, cs.LO]目的:指数規則関数の定義と性質
- 文字列処理における関数クラスの理論的基礎を深めることは重要である。
- 多規則関数クラスの拡張として,より表現力の高い関数クラスの定義が求められていた。
- 指数規則関数という新たな関数クラスを定義し,その性質を明らかにする。
- 指数規則関数を記述するための3つのモデル(MSO集合解釈,yield-Hennie機械,Ariadne変換器)が提案された。
- MSO集合解釈からyield-Hennie機械への変換が示され,MSO集合解釈が規則性を反映することが証明された。
- yield-Hennie機械とAriadne変換器,そしてMSO集合解釈の3つのモデルが同値であることが証明された。
Sublime:偏ったストリームに対する準線形エラーと空間効率 [cs.DS, cs.DB, cs.IT, math.IT]目的:偏ったストリームにおける頻度推定の精度とメモリ効率の向上
- リアルタイムな頻度追跡は,データストリーム処理において不可欠であり,様々な応用を支えている。
- 既存の頻度推定スケッチは,偏ったデータに対するメモリ効率が悪く,ストリーム長に伴う誤差の増大が課題である。
- Sublimeは,メモリ使用量を削減し,ストリームの長さに対する誤差を抑制することで,これらの課題を解決する。
- Sublimeは,カウンターの長さを動的に拡張することで,偏ったデータのメモリ効率を改善する。
- Sublimeは,カウンター数を拡張することで,ストリーム長に対する精度劣化を抑制する。
- 理論的分析と実験評価により,Sublimeが既存手法と比較して精度とメモリ効率を大幅に向上させることが示された。
Solidityのみによる学習を用いた低リソーススマートコントラクトにおけるゼロショット脆弱性検出 [cs.CR, cs.SE]目的:低リソースなスマートコントラクトにおける脆弱性検出手法
- 分散型金融の発展に貢献するスマートコントラクトの安全性確保が重要である。
- Vyper等の低リソース言語の脆弱性検出ツールや学習データが不足している。
- Solidityの知識をVyperへ転移し,学習データ不足を克服する。
- Sol2Vyは,Solidityのみで学習したモデルを用いてVyperの脆弱性検出を可能にする。
- 実証実験の結果,Sol2Vyは既存手法を大きく上回る検出性能を示した。
- Solidityで学習したモデルでもVyperコントラクトに対し高い検出性能を達成した。
C/C++プログラムにおけるメモリリークの検出:ニューロシンボリック拡張静的解析 [cs.SE, cs.CR]目的:C/C++プログラムのメモリリーク検出
- C/C++は広く利用されているが,メモリリークは頻繁に発生し,ソフトウェアの信頼性と安定性を損なう。
- 既存の静的解析ツールは,プロジェクト固有のメモリ管理関数を認識できず,パスに依存する制御フローのモデリングが不十分である。
- LLMとZ3によるニューロシンボリック解析を用いて,既存ツールの限界を克服し,より正確なメモリリーク検出を実現する。
- MemHintは,LLMを用いて関数をメモリ割り当て/解放関数に分類し,メモリ所有権情報を要約する。
- Z3による検証により,到達不可能なメモリ操作の要約を排除し,CodeQLおよびInferに注入することで解析精度を向上させる。
- 7つの実プロジェクトで,MemHintは49件のメモリリーク(うち4件はCVEとして提出)を検出,既存ツールを大きく上回った。
パーミッションゲートの測定:Claude Codeの自動モードのストレステスト評価 [cs.IR, cs.SE, cs.AI, cs.CR]目的:AIコーディングエージェントのための最初のパーミッションシステムであるClaude Codeの自動モードの性能評価
- AIコーディングエージェントの普及に伴い,セキュリティと制御の重要性が増している。
- 既存のパーミッションシステムは,曖昧な認可シナリオに対する評価が不足している。
- 曖昧な認可シナリオにおける自動モードの範囲拡大カバレッジを明確にすることを目的とする。
- AmPermBenchベンチマークを用いた評価の結果,自動モードの全体的な偽陰性率は81.0%であり,実運用データで報告された17%よりも大幅に高い。
- この差は,評価に使用したワークロードの違いによるものであり,矛盾ではないと結論付けられる。
- 特に,Tier 2(プロジェクト内ファイル編集)に該当する状態変更アクションの多くが分類器の範囲外にあることが,高い偽陰性率の一因となっている。
一様決定木問題に対する定数因子近似アルゴリズム [cs.DS, cs.IR, cs.LG]目的:一様分布仮説における平均ケース決定木問題に対する定数因子近似アルゴリズムの存在証明
- 機械学習の分野において,学習アルゴリズムの効率性と精度は重要な課題である。
- 決定木学習問題は計算困難であり,効率的な近似アルゴリズムが求められていた。
- 既存の近似アルゴリズムの性能向上と,定数因子近似アルゴリズムの実現を目指す。
- 本研究により,一様決定木問題に対する近似比が11.57未満の多項式時間アルゴリズムが開発された。
- 階層的クラスタリングで用いられる分解技術と,最大被覆問題への帰着が鍵となる。
- 既存の貪欲法アルゴリズム(O(log n/log log n)近似)を大幅に改善する結果となった。
自律型プログラミングエージェントにおける計画遵守の評価 [cs.SE, cs.AI, cs.CL]目的:自律型プログラミングエージェントにおける計画遵守度
- プログラミング支援AIの発展は,ソフトウェア開発の効率化に不可欠である。
- エージェントが指示された計画をどの程度遵守しているかは不明であり,その評価が課題となっている。
- 計画遵守度を定量的に評価し,より効果的な計画の提示方法を模索すること。
- 明示的な計画がない場合,エージェントは学習データに内在するワークフローに依存し,不完全または過学習の問題が生じやすい。
- 標準的な計画の提示は問題解決能力を向上させるが,定期的な計画の想起は計画違反を軽減し,タスク成功率を高める。
- 質の低い計画は,計画がない場合よりもパフォーマンスを悪化させ,初期段階での不要なフェーズの追加は問題解決能力を低下させる可能性がある。
PlanB:線形化$B^+$木を用いた効率的なソフトウェアIPv6ルックアップ [cs.IR, cs.CL, cs.DS, cs.NI]目的:IPv6アドレスルックアップの高速化
- IPv6の普及に伴い,パケット転送における高速なIPルックアップが不可欠となっている。
- 従来のルックアップアルゴリズムは,IPv6 FIBの特性である長大なプレフィックス群に対応しきれていない。
- プレフィックス値とプレフィックス長という二次元検索を,一次元検索に変換し高速化を目指す。
- PlanBは,プレフィックス値と長さを統合的に検索可能とする線形化$B^+$木を提案している。
- ベクトル化,バッチ処理,分岐回避,ループアンローリング等の最適化により,CPU並列性を最大限に活用している。
- AMDプロセッサ上での実測結果は,単一コアで3億9千万ルックアップ/秒,12コアで34億ルックアップ/秒を達成し,既存のソフトウェア手法を上回る性能を示している。
