arXiv雑要約
プログラム - 2026/05/07 公開
ポストトレーニングにおける教師ありファインチューニングと強化学習の非分離性 [cs.LG, cs.AI, cs.IT, math.IT]目的:大規模言語モデルのポストトレーニングにおける教師ありファインチューニングと強化学習の相互作用
- 大規模言語モデルの性能向上は,様々な学習手法の組み合わせによって進められている。
- 教師ありファインチューニングと強化学習は目的が異なり,互いに影響を及ぼす可能性が指摘されている。
- 本研究は,両者の学習を分離することの理論的な限界を明らかにし,最適な学習順序と期間を導く。
- 教師ありファインチューニング後に強化学習を行う場合,強化学習は教師ありファインチューニングの損失を増加させる。
- 強化学習後に教師ありファインチューニングを行う場合,教師ありファインチューニングは強化学習の報酬を低下させる。
- 実験結果は,教師ありファインチューニングと強化学習を分離すると,従来の性能が低下することを確認した。
自己回帰的でありながら修正可能:セキュアなコード生成のためのデコーディング時の修正 [cs.SE, cs.AI]目的:セキュアなコード生成におけるデコーディング時の修正手法
- LLMによるコード生成は,ソフトウェア開発の自動化に不可欠であり,生産性向上に貢献する。
- 既存のコード生成モデルは単調なプロセスに限定され,人間のような試行錯誤による修正が困難である。
- モデル自身が内部的に修正を行うことで,遅延なくセキュアなコード生成を可能にすることを目指す。
- Stream of Revisionにより,モデルは自身の生成履歴を遡って編集できるようになり,動的な自己修正が可能となった。
- 実験結果から,Stream of Revisionは脆弱性を大幅に削減し,推論オーバーヘッドを最小限に抑えることが示された。
- 本手法は,外部ツールに依存せず,モデルの潜在能力をリアルタイムで活用する。
SWEコンテキストベンチ:コーディングにおける文脈学習のベンチマーク [cs.SE, cs.AI]目的:コーディングにおける文脈学習の評価
- ソフトウェア開発において,LLMを活用する重要性が増している。
- 既存のベンチマークは独立したタスク評価に偏り,過去の経験の再利用能力を測れていない。
- 過去の経験の再利用による効率向上を定量的に評価するベンチマークの必要性。
- SWE-ContextBenchは,1100件の基本タスクと376件の関連タスクで構成され,GitHubのIssueとPull Requestの関係に基づいている。
- 実験結果から,正確に要約・検索された過去の経験は,特に難しいタスクにおいて,解決精度を向上させ,実行時間とトークンコストを削減することが示された。
- 文脈管理と検索の精度が重要であり,SWE-ContextBenchはコーディングエージェントの文脈学習を研究するための基準となる。
情報理論に基づくカテゴリー化の合理的な説明 [cs.AI, cs.IT, cs.LG, math.IT]目的:カテゴリー化の合理性
- 認知科学において,人間がどのように概念を形成し,分類するのか理解することは重要である。
- 既存のモデルでは,カテゴリー化のプロセスを完全に説明できていない場合がある。
- 情報理論に基づき,カテゴリー化の合理性を説明する新しいモデルを提案し,検証する。
- 本研究で提案する理論は,Hayes-Roth & Hayes-Roth (1977), Medin & Schaffer (1978), Smith & Minda (1998) の古典的なカテゴリー化実験の結果をよく説明できる。
- その説明力は,独立した手がかりモデルやコンテキストモデル,合理的なカテゴリー化モデル,階層的ディリクレ過程モデルと同等かそれ以上である。
SWE-ZEROからSWE-HEROへ:ソフトウェアエンジニアリングエージェントの実行不要から実行に基づくファインチューニングへ [cs.SE, cs.CL]目的:ソフトウェアエンジニアリングエージェントのファインチューニング手法
- ソフトウェア開発の自動化に対する需要が高まっており,大規模言語モデルの活用が注目されている。
- 既存のモデルは,実行環境への依存度が高く,リソース消費が大きいという課題があった。
- 実行環境への依存を軽減し,効率的な学習と汎用性の高いモデル構築を目指す。
- 本研究では,大規模言語モデルの知識蒸留により,SWE-benchにおいて最先端の結果を達成した。
- SWE-ZEROとSWE-HEROという二段階のファインチューニングパイプラインにより,実行不要な学習と実行に基づく学習を組み合わせた。
- Python以外の言語にも高いゼロショット転移性能を示し,多様な言語への適用可能性を実証した。
均一ネットワークキャッシングはキャッシュ数による固定パラメータ困難である [cs.DS, cs.CC]目的:均一ネットワークキャッシング問題における計算困難性
- ネットワークキャッシングは,コンテンツ配信効率化の鍵であり,遅延時間削減に貢献する。
- 既存研究では,キャッシュ数やユーザ数などパラメータに関する計算困難性が未解決であった。
- キャッシュ数のみをパラメータとした場合の計算困難性を解明し,固定パラメータ困難性を示す。
- 均一ネットワークキャッシングは,キャッシュ数に関して固定パラメータ困難であると証明された。
- この結果は,他のパラメータによる固定パラメータ困難性も同時に解決することになる。
- 整数計画法による定式化が,この問題の構造を明らかにする上で重要な役割を果たした。
エージェントはルートシェルを夢見るか? CTFチャレンジにおけるLLMエージェントの段階的評価 [cs.CL, cs.CL, cs.AI, cs.CR, cs.SE]目的:LLMエージェントのCTFチャレンジにおける能力評価
- サイバーセキュリティの自動化は,人的資源の不足を補い,脅威への迅速な対応を可能にする点で重要である。
- LLMエージェントの実際の攻撃環境における能力は不明であり,その評価方法も確立されていない。
- 現実的なCTF環境でLLMエージェントの能力を詳細に分析し,課題の特定を試みる。
- DeepRedというCTF評価ベンチマークが開発された。これにより,LLMエージェントの実行ログを詳細に分析できる。
- 10種類のLLMを10種類のCTFチャレンジで評価した結果,平均的なチェックポイント完了率は35%にとどまった。
- 一般的な課題は比較的得意だが,非標準的な探索や長期的な適応を要する課題は苦手であることが示された。
コードブローカー:自動コード品質評価のためのマルチエージェントシステム [cs.SE, cs.AI, cs.CL, cs.PL]目的:Pythonコードの自動コード品質評価
- ソフトウェア開発において,高品質なコードは信頼性と保守性の確保に不可欠である。
- 従来のコード品質評価は,静的解析ツールに依存しており,より高度な評価が課題であった。
- LLMと静的解析を融合し,多角的なコード品質評価を実現すること。
- 本システムは,正確性,セキュリティ,スタイル,保守性の4つの品質次元を定量的に評価する。
- 並列化された専門エージェントにより,開発者向けの読みやすいフィードバックを生成し,従来のリンティングを補完する。
- 評価の深さ,セキュリティツール,大規模リポジトリへの対応,メモリ内永続化への依存といった限界も明らかになった。
相互接続された多岐にわたる情報源の活用による脆弱性特定 [cs.SE]目的:脆弱性特定と脆弱性種類の分類の効率化
- 現代のソフトウェア開発では,オープンソースライブラリの利用が一般的であり,セキュリティの根幹をなす。
- ライブラリの脆弱性は,依存関係を通じて下流ソフトウェアに潜在的な脅威をもたらすが,通知が不十分な場合が多い。
- 多様な情報源間の繋がりに着目し,AIモデルを用いて脆弱性の特定と分類の精度向上を目指す。
- 提案手法VPFinderは,脆弱性特定において0.941という高いF1スコアを達成し,既存手法を5.4%上回る性能を示した。
- また,脆弱性種類の分類においても0.610のF1スコアを達成し,良好な結果を得ている。
- VPFinderは,多頭注意メカニズムを活用し,多様な情報源から高度な意味情報を抽出することでこれらの結果を実現した。
モバイルアプリへの小型言語モデル統合の課題:Less Is More [cs.SE, cs.AI, cs.CL]目的:モバイルアプリにおけるオンデバイス小型言語モデル統合のエンジニアリング課題
- モバイル環境でAIを活用する需要が高まる中で,プライバシー保護とオフライン環境での利用が重要視されている。
- オンデバイスでの言語モデル利用は,計算資源の制約やモデルの不安定性など,多くの技術的課題を抱えている。
- 実用的なモバイルアプリへの統合における課題を特定し,その解決策を提示することで,オンデバイスAIの実現可能性を探る。
- モバイルアプリPalabritaへのSLM統合事例では,LLMによる完全なパズル生成から,単語リストと短いヒント生成への設計変更が必要となった。
- 出力形式違反,制約違反,コンテキスト品質低下,レイテンシの問題,モデル選択の不安定性など,SLM統合特有の5つの失敗カテゴリが特定された。
- 防御的な解析,失敗フィードバックによる再試行,セッションローテーション,プロンプトの段階的な強化などが,これらの課題を軽減する効果的な戦略として示された。
LLMによる未テストコード領域からの課題生成 [cs.SE]目的:未テストコード領域におけるバグ検出と,優先順位付けされた実行可能な課題報告の自動生成
- AIによる課題報告の増加に伴い,開発者の負担が増大しているため,信頼性の高い自動バグ検出が求められている。
- AI生成の課題報告は,具体性や再現性に欠ける場合が多く,開発者の信頼を損ねている。
- 未テストコードに着目し,LLMを活用することで,より質の高い課題報告を生成し,開発者の負担を軽減することを目指す。
- IssueSpecterは,13のPythonプロジェクトで10,467件の課題報告を生成し,上位130件の報告のうち84.6%が有効または調査に値するものと評価された。
- LLMによる課題の優先順位付けは,ルールベースの手法と比較して,P@3で50%,MRRで41%高い性能を示した。
- 生成された課題は,ロジックエラーからセキュリティ脆弱性まで多岐にわたり,開発者が重点的に対応すべきバグを特定するのに役立つことが示された。
静的ネットワークにおける時間的ルーティング:スケジュール完了問題 [cs.DS]目的:時間的辺非交差な$k$個の経路による時間的辺要求集合の充足
- 鉄道網などの現実世界のインフラにおける効率的な資源配分が重要であるため。
- 時間的制約とネットワークの静的性質を同時に考慮したルーティング問題は未解決である。
- 時間的制約下での最小経路数を見つける効率的なアルゴリズムを開発すること。
- 時間的辺非交差スケジュール完了問題(TEDSC)に対して,多項式時間アルゴリズムが提案された。
- 距離または時間制約付きTEDSCの変種が,パラメータ$k + h$で解けることが示された。
- 必要な経路数の近似アルゴリズムが提案され,近似率が$(2-h^{-1})$であることが示された。
構造化NP探索における情報アクセシビリティの限界 [cs.IT, cs.CC, math.IT, math.OC]目的:構造化行列族における違反主小行列の特定
- 大規模な線形計画問題などに応用され,計算効率が重要である。
- P行列の境界付近では,違反の特定が困難となる場合がある。
- 局所的な問い合わせのみでは違反箇所を特定できない問題を解決する。
- 違反の探索は情報獲得問題と捉えられ,強い構造を持つにも関わらず,違反箇所がグローバルに符号化されていることが示された。
- 問い合わせごとに得られる情報はごくわずかであり,多項式個の問い合わせでは違反部分集合を特定するのに十分な情報が得られない情報理論的なボトルネックが存在する。
- 相互情報量とファノの不等式を用いて,多項式個の問い合わせに制限されたアルゴリズムは,一定の確率で違反部分集合を復元できないことが証明された。
幻覚のない要件再利用のためのニューロシンボリックエージェント [cs.SE, cs.AI]目的:要件再利用のプロセス
- 要件の再利用は,ソフトウェア開発の効率化と品質向上に不可欠である。
- 従来の要件再利用手法は,厳格なテンプレートに依存し,柔軟性に欠ける。
- 大規模言語モデルの幻覚による無効な要件生成を防ぐ手法の確立。
- 本研究では,ニューロシンボリックなマルチエージェントシステムを提案し,要件再利用をモデル駆動型抽出プロセスとして再定義した。
- 形式的なOOMRAM要件ラティスと大規模言語モデルを組み合わせ,構造的に有効な要件の組み合わせを生成することで,幻覚を効果的に排除した。
- 評価の結果,100%の要件カバレッジと0.2%の制約違反率を達成し,生成された全ての仕様が構造的に有効であることが確認された。
RNmatrix意味論に対する効率的な決定手続き [cs.LO]目的:RNmatrix意味論に基づく決定手続きの開発
- 非古典論理の基礎理論として重要であり,様々な論理体系を統一的に扱える可能性を持つ。
- 既存のNmatrixでは健全性・完全性が保証されない場合があり,論理的推論に誤りが生じうる。
- RNmatrixを用いて健全かつ完全な推論を実現し,効率的な決定手続きを確立することを目指す。
- RNmatrixフレームワークを実装し,様々な論理に対する自動定理証明器を開発した。
- パラスコンシステント論理において,既存の最先端の証明器を上回り,C_n階層全体の実装を初めて実現した。
- 直観主義論理や様相論理においても,汎用性の高い証明器が競争力のある性能を達成した。
Kerncap:AMD GPU向けカーネルの自動抽出と分離 [cs.SE]目的:AMD GPUにおけるカーネル抽出と分離の自動化
- GPUの性能向上には,カーネルレベルでの最適化が不可欠であり,その効率化が求められている。
- カーネルの分離・再コンパイルには手間がかかり,開発サイクルを遅延させる要因となっている。
- カーネルの自動抽出と分離により,開発者は迅速なカーネルの編集と検証が可能になる。
- Kerncapは,HIPとTritonの両方のHSAランタイムにおいて,カーネルのdispatchをインターセプトすることにより,自動的にカーネルを抽出する。
- llama-cppを用いたケーススタディでは,従来のワークフローと比較して,カーネルの分離・再コンパイル・検証ループを13.6倍高速化した。
- 抽出されたカーネルは,自動チューニングエージェントやLLMによるカーネル生成における,迅速な評価基盤として利用可能である。
ASIC暗号通貨マイナーのファームウェア配布が攻撃対象領域となる:セキュリティ調査 [cs.CR, cs.SE]目的:ASIC暗号通貨マイナーのファームウェア配布におけるセキュリティ脆弱性の特定と攻撃経路の再構築
- 暗号通貨の基盤を支えるASICマイナーは経済的に重要であり,そのセキュリティ確保は喫緊の課題である。
- ASICマイナーのセキュリティ評価は体系的に行われておらず,サプライチェーンにおける脅威は未解明な部分が多い。
- 本研究は,ファームウェア配布という新たな攻撃対象領域に着目し,その脆弱性を明らかにすることを目的とする。
- 公開されているファームウェアのみを用いて,主要メーカー(Bitmain, MicroBT, Canaan, Iceriver)の134個のイメージを分析した。
- ファームウェアから内部アーキテクチャを復元し,セキュリティ上の弱点や攻撃経路を特定することに成功した。
- ファームウェアフィッシングやStratum V1の脆弱性など,大規模攻撃シナリオを現実的に再現できることが示された。
Rustプログラムの静的メモリ安全性解析における誤検出の軽減:強化学習によるアプローチ [cs.SE]目的:Rustプログラムの静的メモリ安全性解析における誤検出の分類と抑制
- Rustは安全性重視の分野での採用が進んでおり,メモリ安全性の保証は不可欠である。
- 既存の静的解析ツールは誤検出率が高く,開発者の信頼を損ない,手動レビューの負担を増大させている。
- 本研究では,強化学習を用いて誤検出を自動的に抑制し,メモリ安全性解析ツールの実用性を向上させることを目指す。
- 提案手法は,最先端のLLMベースラインを大幅に上回り,65.2%の精度と0.659のF1スコアを達成した。
- 本手法は,真のバグの約3分の2を特定しながら,誤検出を大幅に削減し,精度を25.6%から59.0%に向上させた。
- 動的ファジングを組み込むことで,精度とF1スコアがさらに向上し,パフォーマンスが向上した。
対称線形弧単項Datalogとガジェット還元 [math.RA, cs.CC, cs.LO]目的:有限領域制約充足問題に対する対称線形弧単項Datalogプログラムの表現可能性
- 制約充足問題の効率的な解決は,人工知能や組み合わせ最適化において重要である。
- Datalogの様々なフラグメントが存在するが,その表現力と計算可能性のバランスが課題となる。
- 対称線形弧単項Datalog (slam Datalog) によって表現可能な制約充足問題の特性を明確にすること。
- 制約充足問題がガジェット還元可能である特定のブール制約充足問題を持つ場合に,slam Datalogプログラムで解ける。
- 折り畳み芋虫双対性というホモモルフィズム双対性によっても表現可能性が特徴づけられる。
- 準Maltsev演算と $k$-吸収演算の存在という既知のマイナー条件を用いて代数的に表現可能である。
現代無限領域制約充足問題における三つの根本的な問い [math.OC, cs.SY, eess.SY, math.LO, cs.LO]目的:制約充足問題に関するBodirsky-Pinsker予想の適用範囲に関する根本的な問いの提起と解答
- 制約充足問題は,AI,オペレーションズリサーチなど幅広い分野で重要な役割を果たす組み合わせ最適化問題である。
- 無限テンプレートに対するBodirsky-Pinsker予想は未解決であり,その適用範囲の特定が課題となっている。
- Bodirsky-Pinsker予想の適用範囲を絞り込み,その構造と代数的性質を解明することを目指す。
- Bodirsky-Pinsker予想は,代数的でないテンプレートに制限しても同値であることが示された。
- テンプレート内の高次不変量は,本質的に単射であると仮定できることが明らかになった。
- ある非自明な扱いやすいテンプレートは,有限領域Promise制約充足問題の扱いやすさを示す証拠となる。
量子マルグリス符号の構成と復号 [quant-ph, cs.IT, math.IT]目的:量子マルグリス符号の構成と復号性能の検証
- 量子誤り訂正は,量子コンピュータの実現に不可欠な要素である。
- 既存の量子LDPC符号は,復号の複雑さや誤り訂正性能に課題がある。
- マルグリス符号を用いることで,効率的な復号と高い誤り訂正性能を両立することを目指す。
- 量子マルグリス符号は,従来の二変数自転車符号とは異なり,標準的なmin-sumデコーダを用いて線形時間で効率的に復号できる。
- これは,マルグリス符号のタンナーグラフ構造が群対称性を持たないことに起因し,量子LDPC復号における誤り退化問題を軽減するためである。
- シミュレーションにより,量子マルグリス符号は,min-sumデコーダ下でBB符号よりもエラーフロア領域で優れた性能を示すことが確認された。
カラフルなマイナー [math.CO, cs.DM, cs.DS]目的:グラフにおけるカラフルマイナーの概念の導入と,その構造理論の確立
- グラフ理論は,ネットワーク構造の分析に不可欠であり,様々な応用分野で利用されている。
- 古典的なマイナー関係では捉えきれない,頂点集合の注釈に関する問題が存在する。
- 頂点集合の注釈を考慮した,より洗練されたグラフ構造の解析を目指す。
- カラフルマイナー関係は,古典的なマイナー関係を拡張し,グラフと頂点への色割り当てを同時に考慮する。
- カラフルマイナー排除に関する構造理論を確立し,特定のグラフクラスの構造を明らかにした。
- カラフルマイナーに関するErdős-Pósa性質を持つグラフの分類を完了させ,カラフルマイナーテストが固定パラメータ時間で実行可能であることを示した。
MCDMにおける方法論的感受性への対処:データ変換感受性分析のための体系的なパイプラインアプローチ [math.OC, cs.SE]目的:多基準意思決定における方法論的感受性の評価
- 意思決定の質を左右する多基準意思決定は,幅広い分野で不可欠である。
- 正規化手法の選択が結果に大きく影響するが,系統的な評価が不足している。
- 正規化手法の選択による影響を定量化し,意思決定の頑健性を高めることを目指す。
- 本研究では,データ変換空間を自動的に探索するフレームワークを提案し,方法論的感受性の評価を可能にした。
- 暗号通貨の評価データセットを用いた分析により,手法間の相関関係と,方法論的感受性の範囲を明確に示した。
- 既存のScikit-Criteriaを活用することで,様々な方法論的組み合わせを効率的に比較分析できることを示した。
誘導小グラフと粗い木分解 [math.CO, cs.DM, cs.DS]目的:距離$r$独立数の最大化に関する研究
- グラフ理論は,ネットワーク構造の解析や最適化に応用され,情報科学やオペレーションズリサーチ等の分野で重要である。
- グラフの構造に関する一般的な性質の証明は困難であり,特定のグラフクラスに限定した研究が必要となる場合が多い。
- 特定のグラフクラスにおける木分解の効率的な構成を目指す。
- グラフ$G$が$K_{t,t}$と$\boxplus_t$を誘導小グラフとして含まない場合,木分解の各バッグの距離$16(\log n + 1)$-独立数は最大で$c(\log n)^d$となることが示された。
- 同様に,各バッグの距離$8$-独立数は最大で$2^{c (\log n)^{1-(1/d)}}$となることが証明された。
H-フリーグラフにおける最適b彩色とフォール彩色 [math.CO, cs.CC, cs.DM, cs.DS]目的:H-フリーグラフにおける彩色問題の計算複雑性の分類
- グラフ理論は,ネットワーク分析やスケジューリングなど,様々な応用分野において重要な役割を果たす。
- 彩色問題はNP困難であることが知られており,特定のグラフクラスにおける効率的な解法が求められている。
- H-フリーグラフという特定のグラフクラスにおける彩色問題の計算複雑性を明らかにすること。
- b彩色数,フォール彩色数,フォールアクロマティック数の計算複雑性をH-フリーグラフにおいて完全に分類した。
- タイトb彩色数に関して,多項式時間で解ける新たなHのグラフを特定し,NP完全であるHのグラフも特定した。
- b彩色数がNP困難でありながら,タイトb彩色数が多項式時間で解けるHのグラフが存在することを示した。
