arXiv雑要約
プログラム - 2026/05/27 公開
ナッシュ社会厚生関数,予算制約付き配分,GAP問題に対する困難性の改善 [cs.GT, cs.DS]目的:ナッシュ社会厚生関数,予算制約付き配分,GAP問題の近似困難性
- 資源配分は,経済学,計算機科学など幅広い分野で重要な問題である。
- これらの問題はNP困難であり,現実的な時間で最適解を得ることが難しい。
- ユニークゲーム予想を用いて,近似アルゴリズムの限界を示す。
- ナッシュ社会厚生関数の近似比の限界を$\sqrt[3]{\frac{81}{65}} - \varepsilon \approx 1.0761$に改善した。
- 予算制約付き配分の近似比の限界を$\frac{243}{227} - \varepsilon \approx 1.07$に改善した。
- 最大汎用割り当て問題(GAP)の近似比の限界を$\frac{145}{129} - \varepsilon \approx 1.124$に改善した。
ProDebug:Prologの自動デバッグシステム [cs.IR, cs.PL, cs.SE]目的:Prologの学生課題における故障の特定と修正提案
- Prologは論理と推論の入門コースでよく用いられるが,効果的な学習には課題がある。
- Prologには命令型言語のような使い慣れたデバッグ機能がなく,学生が苦戦しやすい。
- 大規模なクラスにおいて,自動化されたフィードバックによる学習支援の必要性に対応する。
- ProDebugは,スペクトルベースとミューテーションベースの手法に加え,LLMを活用した初の自動デバッグツールである。
- 故障の検出には3つのアプローチ(スペクトルベース,ミューテーションベース,LLM推論)を用い,修正はミューテーションベースの手法とLLMで生成される。
- 学部レベルのプログラミングクラスの1499件のバグのある学生提出物を対象とした評価で,その有効性が示された。
仮想メモリを用いたパワソート [cs.DS, cs.PF]目的:アダプティブマージソートのより省スペースな実装
- 大規模データセットの効率的なソートは,計算機科学における重要な課題である。
- 既存のパワソートは,メモリ消費量が大きいという問題点がある。
- メモリ消費量を削減しつつ,既存のパワソートと同等の性能を維持すること。
- 本研究では,バッファリング技術により,必要なバッファ領域を $n/2$ 個から $O(\sqrt{n \log n})$ 個に削減した。
- 標準的なマージアルゴリズムを置き換える手法と比較して,移動と比較の回数はほとんど変わらない。
- 実験結果から,ほぼその場での安定ソートを,ほとんどオーバーヘッドなしに実現できることが示された。
測定可能な欠陥まで許容する木オートマトン受理 [cs.LO, cs.FL]目的:木オートマトンの受理性
- ソフトウェア検証において,システムの正当性を保証する上で,オートマトン受理性は重要な役割を果たす。
- 従来のオートマトン受理は厳密であり,現実のソフトウェアにおける許容可能な欠陥を考慮できないという課題がある。
- 測定可能な欠陥の許容範囲を導入することで,より現実的なソフトウェア検証を可能にすることを目指す。
- ε-受理ゲームの導入により,許容誤差ε内に受理可能な木構造の存在条件を明確化した。
- 受理可能な木構造T'と元の木構造Tの間のビシミュレーション距離がε以下である場合に,Tはε-受理されることを証明した。
- 本研究は測度論との関連性を示唆しており,今後のさらなる検討の可能性を示している。
EviACT:エージェントによるプログラム修理のための証拠から行動へのフレームワーク [cs.SE]目的:エージェント型プログラム修理のための証拠駆動型フレームワーク
- プログラムの自動修正は,ソフトウェア開発の効率化に不可欠であり,人的コストの削減に貢献する。
- 既存のエージェント型修理システムは,実行結果の証拠を効果的に活用できていない点が課題である。
- 実行証拠を活用し,プログラムの局所化,パッチ生成,検証を改善することを目指す。
- EviACTは,4つのベンチマークにおいて,最も強力なベースラインと比較して,修正成功率を1.6〜6.0パーセントポイント向上させた。
- ベースラインのコストが利用可能な場合,EviACTは1件のバグあたりのAPIコストを70.1〜88.6%削減した。
- これらの改善は,証拠から行動への連携によってもたらされており,エージェント型プログラム修理の有効性と効率を向上させる。
多様な論理,単一の方法論:形式化された推論における論理多元主義への提言 [cs.LO, cs.AI, math.LO]目的:非古典論理の古典高階論理への浅い埋め込みの研究
- 形式化された推論は,厳密な数学的根拠に基づいた知識表現と推論を可能にする。
- 単一の基盤論理に固執することで,学際的な再利用が阻害される場合がある。
- 論理多元主義を促進し,学際的な知識の再利用を可能にすること。
- 二十年間の研究を通して,非古典論理を古典高階論理に埋め込む手法が発展してきた。
- LogiKEyという論理多元主義的な知識表現・推論の方法論が提案されている。
- 論理的帝国主義を避け,多元主義的なアプローチを支援することが重要である。
バーマン符号と関連するアーベル符号の自己同型群について [cs.IT, math.GR, math.IT]目的:バーマン符号とその双対符号,および関連するアーベル符号の自己同型群の特定
- 符号理論は,通信やデータストレージにおける誤り検出・訂正の基礎であり,その効率性が重要である。
- 符号の自己同型群は符号の構造を理解する上で重要だが,複雑な符号では決定が困難である。
- バーマン符号とその派生符号の自己同型群を明らかにすることで,より効率的な符号設計に貢献する。
- バーマン符号とその双対符号の自己同型群を正確に特定した。
- n≧5の場合の,バーマン符号と双対バーマン符号の交差および部分空間和から得られるアーベル符号の自己同型群を特定した。
- n=3の場合のアーベル符号について,パラメータ選択の大部分で部分的な自己同型群の特性付けを行い,一部では完全な特性付けを実現した。
実行可能オペレーショナル認知によるエージェントランタイムの制御された進化 [cs.SE, cs.AI, cs.MA]目的:エージェントランタイムの制御された進化の枠組み
- エージェントシステムの進化は,柔軟性と適応性向上に不可欠である。
- 生成された成果物のライフサイクル管理と進化が未定義である。
- 成果物のライフサイクルを考慮した進化メカニズムを確立すること。
- 本研究では,エージェント生成成果物を永続的なランタイム機能として捉える枠組みを提案する。
- HarnessMutationというライフサイクルを意識したランタイム適応メカニズムを導入し,検証,トレーサビリティ,評価,ロールバック制約下で運用される。
- ランタイム適応を制限されたプロセスとしてモデル化し,進化を明示的,監査可能,かつ制約されたものにする。
EdgeFlow:エッジマップ拡張VLMベースフローチャート処理による産業要件エンジニアリング [cs.SE, cs.AI, cs.CV]目的:産業要件エンジニアリングにおけるフローチャートからMermaidへの変換の改善
- フローチャートは産業界で広く利用されているが,その活用は画像として限定的である。
- 既存のビジョン言語モデルは,フローチャートの構造的詳細を正確に捉えきれない。
- 構造的情報を活用し,学習データなしで変換精度を向上させる。
- EdgeFlowは,VLMへの入力にCannyエッジマップを付加することで,フローチャートの変換精度を大幅に向上させた。
- IndusReqFlowデータセットでの評価において,ノードレベル,エッジレベル,パスレベルのF1スコアがそれぞれ大幅に改善された。
- 実データを用いた評価結果から,EdgeFlowが産業要件エンジニアリングにおいて実用的な手法であることが示された。
弱い制約を持つ2-ASP(Q)プログラム:複雑性と効率的な実装 [cs.AI, cs.CC, cs.CL, cs.LO]目的:2-ASP(Q)プログラムの複雑性と実装方法
- 組み合わせ最適化問題など複雑な問題を扱うための強力な手法である。
- ASP(Q)のプログラムの計算複雑性が十分に解明されていなかった。
- 2-ASP(Q)^wプログラムの計算複雑性の完全な特徴付けと効率的な実装を目指す。
- 2-ASP(Q)^wプログラムの主要な計算タスクの複雑性に関する完全な特徴付けが得られた。
- Casperシステムにおいて,ASP(Q)に特化したCEGAR技術に基づく新しい計算戦略を導入した。
- 様々な応用分野からの難易度の高いベンチマークテストで,提案手法の有効性が確認された。
古典的な預言者不等式に対する閾値規則 [math.PR, cs.DS]目的:古典的な預言者不等式における単一閾値停止規則の閾値/余剰分解
- 資源配分や意思決定において,将来の価値を予測し最適な選択を行うことは重要である。
- 預言者不等式は最適な戦略の限界を示すが,具体的な閾値設定は困難であった。
- 様々な閾値規則の正当性を検証し,ランダム化閾値に対する平均的な証明を与える。
- 単一閾値停止規則に対する共通の閾値/余剰分解が確立された。
- 中央値,平均値の半分,バランスの取れた余剰といった決定論的閾値が証明された。
- 最大値として分布するランダム化閾値に対する平均的な証明が得られた。
オープンウェイトAIモデルにおける倫理的制約のガバナンスの限界 [cs.AI, cs.CY, cs.SE]目的:オープンウェイトAIモデルにおける倫理的制約の追跡可能性
- AI技術の急速な発展に伴い,倫理的な問題が顕在化しており,そのガバナンスが重要である。
- AIモデルの派生過程で倫理的制約が失われやすく,サプライチェーン全体の責任追跡が困難である。
- AIモデルの派生系列における倫理的制約の伝播限界を定量的に評価し,ガバナンスの改善策を提案する。
- Hugging Face Hub上の214万件以上のモデルリポジトリの監査により,倫理的制約の証拠は,平均1.31ステップの派生ごとに半減することが示された。
- 7世代以上の派生モデルの80%以上は,ガバナンス判断に必要な情報が不足しており,この限界を「ガバナンスの地平線」と定義した。
- ライセンスメタデータの回復実験から,単なる施行だけでなく,政策設計が重要な要素であり,宣言義務化がガバナンスの地平線を大きく改善することが示された。
ターゲット指向型統計的圧縮:十分性,逆マルチンゲール,逐次モニタリング [stat.ME, cs.IT, math.IT, math.ST, stat.TH]目的:ターゲットに対する推論,予測,意思決定に関連する情報を保持する有用な要約
- 統計的推論や機械学習において,データの効率的な表現と情報圧縮は重要である。
- 既存の手法では,データ全体の詳細を保持しようとし,不要な情報まで圧縮してしまう場合がある。
- ターゲットに重要な情報のみを保持し,不要な情報を除去する圧縮手法を確立すること。
- 本研究では,ターゲット指向型統計的圧縮という概念を提唱し,その理論的基盤を構築した。
- 圧縮マップによって保持される情報と,ターゲットの期待値を結びつける逆マルチンゲールという概念を導入した。
- 逐次二値問題への応用を通して,境界付近での評価における安定性の重要性を示唆した。
高プライバシー領域における最適な量子局所差分プライバシーメカニズム [quant-ph, cs.IT, math.IT]目的:高プライバシー領域におけるプライバシーと有用性のトレードオフの最適化
- プライバシー保護は情報社会における重要な課題であり,個人の権利保護に不可欠である。
- 従来の差分プライバシーでは,有用性とプライバシーのバランスが課題となっていた。
- 本研究は,量子的なアプローチにより,より高いプライバシー保護と有用性の両立を目指す。
- 本研究では,高プライバシー領域において古典的および量子的な最適な局所差分プライバシーメカニズムを確立した。
- その結果,高プライバシー領域における量子的な優位性($Q/C\ge3/2$)が,n-aryデータ(n≥3)において確認された。
- 有用性関数に関わらず,漸近的な比$Q/C$が同一の値を取ることが示された。
二段階型理論とその応用 [cs.LO]目的:二段階型理論の定義と発展
- 型理論は,プログラムの正当性保証や数学基礎付けに不可欠であり,近年,ホモトピー型理論との融合が進んでいる。
- ホモトピー型理論のメタ理論的な議論は,型理論内部では表現が難しく,新たな枠組みが必要とされている。
- 本研究は,ホモトピー型理論のメタ理論的な議論を形式化し,型理論への新たな公理の導入を可能にする。
- 二段階型理論(2LTT)は,内部型理論(ホモトピー型理論)と外部型理論(一意性証明の正当性を持つ型理論)を組み合わせたものである。
- 2LTTを用いることで,外部で固定された自然数nに対するレベルnまでの半単体型をホモトピー型理論内で構成できることを形式的に証明できる。
- ヴォエヴォドスキーのホモトピー型システム(HTS)は,2LTTの具体的な例であり,自然数の型が外部自然数と振る舞うようにする公理を持つ。
優先順位付き知識ベースの一貫性のない部分に対するクエリと修復:複雑性解析と抽象的な議論との関連性 [cs.LO, cs.AI, cs.DB]目的:優先順位付き知識ベースにおける不整合の処理
- 知識ベースは,情報に基づいた意思決定や推論に不可欠であり,その信頼性は重要である。
- 知識ベースに不整合が存在する場合,クエリに対する適切な回答を得ることが困難になる。
- 不整合を許容する意味論に基づいた最適な修復の複雑性を解析し,議論枠組みとの関連性を明確化する。
- 優先順位付き知識ベースにおけるグローバル最適,パレート最適,完全性最適の修復概念を定義した。
- これらの修復概念に基づいたクエリ包含,一意な最適修復の存在,すべての最適修復の列挙に関するデータ複雑性が解析された。
- パレート最適修復は安定拡張と密接に関連し,グラウンデッド拡張に触発された新しい意味論が提案された。
フォールトトレラントなST-直径オラクル [cs.DS]目的:グラフのST-直径推定
- ネットワークの信頼性確保が重要であり,障害に対する堅牢性が求められる。
- エッジ障害が発生した場合,正確なST-直径の計算が困難となる。
- エッジ障害に耐性を持つST-直径オラクルの構築を目指す。
- 本研究では,既存の距離感度オラクルを利用し,ST-直径オラクルの構築を帰着することで,新たなトレードオフを実現した。
- 特に,オラクルのサイズ,ストレッチ,クエリ・前処理時間に関するトレードオフを明らかにしている。
- また,近似ST-直径オラクルの空間要件に関する下界を証明し,特定のグラフ群においてΩ(n^{3/2})ビットが必要となることを示した。
PersianMedQA:ペルシア語・英語バイリンガル医療質疑応答ベンチマークにおける大規模言語モデルの評価 [cs.CL, cs.IT, math.IT]目的:ペルシア語と英語における大規模言語モデルの医療分野における質疑応答能力の評価
- 医療分野は人命に関わるため,高い精度と信頼性が求められる。
- 低リソース言語における大規模言語モデルの医療応用は,十分な検証がなされていない。
- ペルシア語の医療質疑応答データセットを用いて,言語や文化適応の重要性を示す。
- 本研究で構築した PersianMedQA データセットを用いた評価で,GPT-4.1 がペルシア語(83.09%)および英語(80.7%)で最も高い性能を示した。
- ペルシア語に特化したモデル Dorna は,性能が著しく劣り,指示理解やドメイン知識の推論に課題があることが示された。
- 翻訳の影響分析から,文化や臨床的背景が失われるため,ペルシア語でしか正答できない問題が3~10%存在することが明らかになった。
非信号アシストによるCSITの仮想シグナリング [cs.IT, math.IT]目的:非信号相関を通じた古典通信ネットワークの容量への量子非局所性の影響
- 通信ネットワークの容量向上は,情報伝達の効率化に不可欠である。
- 従来の古典通信では,利用可能な情報に限界があり,容量に制約が生じる。
- 非信号相関を利用することで,古典通信の容量限界を突破する可能性を探る。
- 非因果的チャネル状態情報(CSIT)を持つ点対点離散無記憶チャネルにおいて,非信号アシストによるシャノン容量が古典的な容量と一致することが示された。
- 2ユーザーブロードキャストチャネル(BC)において,非信号アシストが送信機とUser 1の間でのみ利用可能な場合のシャノン容量領域が得られた。
- 半決定性BCでは,完全な三者間非信号アシストによるシャノン容量領域が,送信機と非決定性ユーザー間の二者間非信号アシストによる容量領域と同等であることが示された。
解けるタプルパターンとそのプログラム検証への応用 [cs.PL]目的:再帰的データ構造を扱うプログラムの不変式の表現と推論
- プログラム検証は,ソフトウェアの信頼性確保に不可欠であり,自動化技術の進展が求められている。
- 再帰的データ構造を扱うプログラムの完全自動検証は,依然として難しい課題である。
- タプルパターンを用いて不変式を効率的に推論し,プログラム検証の自動化を促進すること。
- 解けるタプルパターン(STP)と,その連言(CSTP)という新しい形式主義を提案した。
- STPは少数の正例から効率的に推論可能であり,負例を必要としない点が特徴である。
- CSTP推論を組み込んだCHCソルバーは,CHC-COMP 2025のADT-LINカテゴリで大幅な優位性を得た。
モーフリング:大規模なグラフニューラルネットワーク学習のための高速,融合,柔軟な手法 [cs.LG, cs.DC, cs.PL]目的:グラフニューラルネットワークの学習における高性能化
- グラフニューラルネットワークは,様々な分野で重要な役割を担うようになってきている。
- 既存のフレームワークは,不規則なグラフ処理と密行列演算の特性に対応できていない。
- アーキテクチャに最適化されたコード生成により,GNN実行の性能向上を目指す。
- モーフリングは,CPUで平均20倍,GPUで平均19倍,分散環境で平均6倍,学習スループットを向上させた。
- メモリ効率の高いレイアウトにより,ピーク時のメモリ消費量を最大15倍削減し,汎用ハードウェアでの大規模GNN学習を可能にした。
- アーキテクチャに特化したコード生成が,多様な並列・分散プラットフォームにおける高性能なGNN実行への有効な道を示す。
GNN様計算の論理的視点と活性化関数の役割 [cs.LG, cs.LO]目的:グラフニューラルネットワークの計算能力の定量的・論理的表現
- グラフ構造データ処理の重要性が増しており,GNNはその中心的な手法である。
- 活性化関数がGNNの表現力に与える影響は十分に解明されていない。
- 活性化関数の種類によるGNNの表現力の違いを明確にすることを目的とする。
- 活性化関数がないA-MPLangの表現力は,ウォークサム特徴で特徴づけられる。
- 有界な活性化関数は,一定条件のもとで同じ表現力を持つことが示された。
- ReLUは,切り捨てReLUのような有界な活性化関数よりも数値クエリにおいて表現力が高いことが証明された。
表現学習における情報理論的視点 [cs.IT, cs.LG, math.IT]目的:回帰タスクにおける学習された表現の分析
- 機械学習において,データの表現学習は性能向上に不可欠である。
- 表現の質を理論的に評価する枠組みが不足している。
- 入力と出力の間の情報量を定量的に評価する。
- 表現レートと表現容量の限界が,入力源のエントロピーによって決定されることが示された。
- 摂動下における表現容量,圧縮された出力に対する表現レート歪みを導出した。
- これらの結果を統合し,統一的な枠組みを構築した。
レガシー有限差分コードのリバースエンジニアリングとDevitoへの変換のためのAIエージェント [cs.RO, cs.SY, eess.SY, eess.SY, cs.SY, cs.AI, cs.SE]目的:レガシー有限差分コードをDevito環境に変換するためのAIエージェントフレームワーク
- 科学技術計算において,既存のFortranコードは重要だが,保守・拡張が困難な場合が多い。
- レガシーコードはドキュメント不足や複雑な構造により,自動変換が難しく,人的コストがかさむ。
- AIを活用し,レガシーコードのリバースエンジニアリングとDevitoへの自動変換を効率化すること。
- AIエージェントは,ドキュメント解析,構造分割,エンティティ関係抽出などを通してDevito知識グラフを構築した。
- Fortranソースコードの静的解析に基づき,RAG検索のための三段階クエリ戦略を導出した。
- 強化学習に着想を得たフィードバック機構を組み込み,静的なコード変換から動的で適応的な分析行動への移行を実現した。
LLMと停止問題:プログラムの終了判定に関する考察 [cs.CL, cs.AI, cs.PL]目的:プログラムの終了判定に関するLLMの推論能力の評価
- プログラムの終了判定は計算機科学の根幹であり,ソフトウェアの信頼性向上に不可欠である。
- チューリングの停止問題により,プログラムの終了判定は原理的に不可能であることが示されている。
- LLMがプログラムの終了判定をどの程度行えるか,その限界を明らかにすること。
- GPT-5とClaude Sonnet 4.5は,既存の検証ツールと同程度のスコアを達成した。
- しかし,LLMは終了を正しく推論できても,証明となる根拠を提示できない場合が多い。
- コードの長さが長くなるにつれて,LLMの性能は低下する傾向が見られた。
SWE-Adept:大規模コードベース分析と構造化された問題解決のためのLLMベースのエージェントフレームワーク [cs.SE, cs.CL, cs.LG]目的:大規模コードベースにおける問題の特定と解決
- ソフトウェアの規模拡大に伴い,コード理解と修正の自動化が重要になっている。
- 既存LLMは,リポジトリ全体を考慮したソフトウェアエンジニアリングタスクに課題がある。
- LLMを用いたエージェントフレームワークにより,コードベース分析と問題解決の精度向上を目指す。
- SWE-Adeptは,問題箇所特定エージェントと修正エージェントの二重エージェントフレームワークである。
- 問題箇所特定では,エージェント誘導深さ優先探索により,関連性の低いコードを削減し,精度を向上させている。
- SWE-Bench LiteおよびSWE-Bench Proにおける実験で,既存手法を上回り,問題解決率を最大4.3%改善した。
BeyondSWE:現在のコードエージェントは単一リポジトリのバグ修正を超えて生き残れるか? [cs.CL, cs.SE]目的:単一リポジトリのバグ修正を超えたコードエージェントの評価
- ソフトウェア開発における自動化の重要性が増しており,コードエージェントの能力向上は不可欠である。
- 既存のベンチマークは局所的な問題解決に偏っており,広範な知識やリポジトリ全体の変更を必要とするタスクの評価が不十分である。
- 外部知識を活用し,より複雑なソフトウェアエンジニアリングタスクを解決できるコードエージェントの開発を目指す。
- BeyondSWEベンチマークは,クロスリポジトリの問題解決,ドメイン固有の問題解決,依存関係に基づいた移行,ドキュメントからリポジトリへの生成を含む4つの設定を網羅している。
- OpenHandsベースのエージェントとGPT-5.4(xhigh)を含むCodexハネスの評価結果から,BeyondSWEベンチマークはまだ飽和状態ではないことが示された。
- 検索アクセスはモデルの性能を向上させるものの,得られる改善は限定的であり,外部情報の活用とリポジトリ固有の推論・実行に基づく検証を組み合わせる能力が重要であることが示唆された。
バッファと無制限乗り換えに対応するためのダイクストラ法の適応 [cs.DS, cs.AI, cs.RO]目的:公共交通機関における無制限乗り換え経路探索
- 効率的な経路探索は,都市交通システムの最適化や利便性向上に不可欠である。
- 従来のダイクストラ法は,時刻表ベースの手法に取って代わられ,公平な比較が不足していた。
- バッファ時間の影響を考慮した,より正確かつ高速な経路探索アルゴリズムを開発すること。
- 時間依存ダイクストラ法(TD-Dijkstra)が,既存のMR法よりも優れた性能を示すことが示された。
- バッファ時間を持つ停留所において,既存の接続フィルタリングが誤っていることが明らかになった。
- Transfer Aware Dijkstra (TAD)により,バッファ時間を考慮しつつ,MR法に対して2倍以上の高速化を実現した。
公共交通経路探索における早期枝刈り [cs.DS, cs.AI, cs.RO]目的:公共交通経路探索の効率化
- 都市交通の円滑化に不可欠であり,利用者の利便性向上に貢献する。
- 大規模ネットワークでは,乗り換え時の計算コストが課題となる。
- 乗り換え時の不要な探索を削減し,経路探索の高速化を図る。
- 提案手法「Early Pruning」は,既存の経路探索アルゴリズムに容易に組み込める。
- 乗り換え接続を時間順にソートし,最適な解が得られない場合は早期に枝刈りを行う。
- スイスとロンドンの交通ネットワークにおいて,最大57%のクエリ時間短縮を達成した。
コードと自然言語が出会う場所:LLM統合アプリケーションのためのタクソノミー駆動型情報フロー解析 [cs.CL, cs.NI, cs.SE, cs.AI]目的:LLM統合アプリケーションにおける情報フロー解析手法
- ソフトウェアの安全性と信頼性確保は重要であり,特にLLMを活用するアプリケーションでは,その複雑さから脆弱性が懸念される。
- LLM呼び出しは既存のプログラム解析ツールでは解析が困難であり,データフローの追跡を阻害する「NL/PL境界」が存在する。
- LLM呼び出しを通じた情報フローを解析可能にするためのタクソノミーを定義し,その有効性を検証すること。
- 24種類のラベルからなるタクソノミーを定義し,実世界のPythonコードから9,083件のプレースホルダー出力を分類した。信頼性はCohen's $\kappa = 0.82$で確認された。
- タクソノミーに基づいたフィルタリングとLLM検証を組み合わせた汚染伝播パイプラインは,$F_1 = 0.923$を達成し,クロス言語検証でも有効性が確認された。
- タクソノミー情報に基づいた逆スライスにより,スライスサイズを平均15%削減でき,特に情報が伝播しないケースのフィルタリング基準として有効であることが示された。
REST APIテスト生成戦略のログカバレッジによる評価 [cs.SE]目的:REST APIテスト生成戦略の有効性評価
- REST APIは現代のソフトウェアアーキテクチャにおいて不可欠であり,その品質保証は重要である。
- ブラックボックステストではソースコードカバレッジが取得できないため,テストの網羅性を評価することが難しい。
- ログカバレッジを用いて,テスト生成戦略が捉える実行時挙動の違いを定量的に評価する。
- Claude Opus 4.6によるテストは,人間が作成したテストに比べて約28.4%多くのユニークなログテンプレートを発見した。
- EvoMasterとGPT-5.2-Codexはそれぞれ26.1%と38.6%少なく,戦略間で異なる挙動を捉えることが示された。
- 人間作成テストとClaude Opus 4.6を組み合わせることで,総ログカバレッジがそれぞれ78.4%と38.9%向上し,相乗効果が確認された。
量子ベイズネットワーク:線形論理による構成性と型付け [cs.LO]目的:量子ベイズネットワークにおける構成性と型付けの原理
- 古典・量子データを含むシステムにおける因果関係,相関,測定結果の確率予測の数学的基盤。
- 既存の量子ベイズネットワークでは,システムの安全な構成と型付けが十分でない。
- 線形論理に基づく型システムを導入し,量子ベイズネットワークの構成性と健全性を保証する。
- 古典的な原因のみの場合,標準的なベイズネットワークの意味と一致し,純粋な量子的な場合にはテンソルネットワークに還元される。
- 線形論理の証明網に基づいた型付き形式を提案し,システムの健全性と完全性を証明した。
- 提案された型システムは,量子ベイズネットワークにおけるシステムの適切な構成を保証する。
SWE-Edit:効率的なSWE-Agentのためのコード編集の再考 [cs.SE, cs.CL]目的:ソフトウェアエージェントにおけるコード編集効率の改善
- ソフトウェア開発において,大規模言語モデルエージェントの活用が重要性を増している。
- 従来のコード編集インターフェースは,コードの確認,修正計画,編集実行が混在し,効率が悪い。
- コンテキスト分離により,エージェントの推論集中と編集処理の効率化を目指す。
- SWE-Editは,コードの表示と編集をそれぞれ担当する2つのサブエージェントにインターフェースを分割する。
- SWE-Bench Verifiedにおいて,解決率が2.1pp向上し,推論コストが17.9%削減された。
- 編集フォーマット選択の学習により,小規模モデルでも高い編集成功率を達成し,GPT-5-nanoと同等の性能を示した。
AIワークフローアーキテクチャにおける効果透明なガバナンス:意味的保存,表現的最小性,決定可能性境界 [cs.AI, cs.LO, cs.PL]目的:AIワークフローアーキテクチャにおける効果レベルのガバナンスの形式化と検証
- AIの利用拡大に伴い,その安全性と制御可能性が重要課題となっている。
- 既存のガバナンス手法は,表現力を低下させる場合や,決定可能性に問題がある。
- ガバナンスと計算表現力の両立と,ガバナンスの透明性の確保を目指す。
- AIワークフローアーキテクチャの効果レベルガバナンスが,内部計算表現力を損なわずに実現可能であることを形式的に証明した。
- ガバナンスオペレータGを定義し,メモリアクセスや外部API呼び出しなど,あらゆる副作用のある命令を仲介することによって実現した。
- ガバナンスと計算表現力は直交する次元であり,ガバナンスはプログラムの効果境界を制約しつつ,内部計算に対しては意味的に透明であることを示した。
統治される実行の代数的意味論:モノイダル圏,効果代数,および境界 [cs.AI, cs.LO, cs.PL]目的:統治される実行の代数的意味論の定式化
- プログラムの安全性確保は重要な課題であり,特に複雑化するシステムにおいて不可欠である。
- 既存の安全性モデルでは,プログラムの統治と表現力の限界が明確に定義されていない場合がある。
- 表現力と統治の境界を明確にし,プログラムの安全性を形式的に保証することを目指す。
- 統治代数(安全性,透明性,適切性)を定義し,これにより,プログラムの安全性を形式的に検証可能な枠組みを構築した。
- 能力に基づくプログラムの合成により,能力境界を静的に検証し,安全なプログラムの実行を保証する。
- 形式モデルと抽出されたOCamlコードが等価であることを,広範なテストによって確認した。
認知ワークフロー実行者に対する認証された純粋性:静的解析から暗号的証明まで [cs.CR, cs.AI, cs.PL]目的:認知ワークフローシステムにおけるガバナンスの執行方法の構造化
- 認知ワークフローの信頼性とセキュリティ確保は,自動化システムの普及において不可欠である。
- 既存のガバナンス手法は,悪意のあるバイパスに対して脆弱であり,完全なガバナンスを保証できない。
- 本研究は,実行モジュールのバイパスを防ぎ,ガバナンスの完全性を保証するアーキテクチャを提案する。
- 提案アーキテクチャは,WebAssemblyコンパイルターゲット,純粋性証明書,ランタイム検証ゲート,リモートアテステーションにより構成される。
- 構造的な純粋性,バイパス排除,証明書の完全性,ゲートの完全性に関する4つの定理が証明された。
- 評価実験では,検証遅延時間が39~42μs,プランサイクルが400μs未満,ランタイムオーバーヘッドが0.4%未満であり,決定性の逸脱は確認されなかった。
暗号学的レジストリ由来:AIパッケージエコシステムにおける依存関係混乱に対する構造的防御 [cs.CR, cs.AI, cs.SE]目的:依存関係混乱攻撃に対する構造的防御機構
- ソフトウェアサプライチェーンのセキュリティ確保は,現代社会におけるシステム信頼性維持に不可欠である。
- 既存のパッケージ管理システムには,レジストリの真正性を検証する仕組みがなく,攻撃の余地がある。
- 暗号学的証明を用いることで,レジストリの信頼性を保証し,依存関係混乱攻撃を効果的に防ぐ。
- 本研究では,レジストリのIDを暗号的に確立し,パッケージの署名を二重化することで,多層防御を実現した。
- 8つのエコシステムにおける比較の結果,提案手法のように全ての防御要素を組み合わせたシステムは存在しないことが示された。
- 本システムはAI生成物の由来追跡にも応用可能であり,ガバナンスに基づく依存関係解決を強化する。
知的なシステムのための制御されたメタプログラミング:eval を制御された副作用として再分類 [cs.PL, cs.AI]目的:知的なシステムにおける実行構造の動的合成
- AI技術の発展に伴い,プログラム生成や自己改善といった実行時の構造合成が不可欠となっている。
- 従来の言語では,コード表現から実行への移行が制限されておらず,セキュリティリスクや制御困難性がある。
- eval のような操作を制御し,安全かつ信頼性の高い動的構造合成を実現すること。
- 本研究では,プログラム表現を第一級の値とし,操作を純粋な計算とし,実行への移行を制御された副作用とする「制御されたメタプログラミング」を提案。
- 提案手法は,プログラムの実行前に能力要件,ポリシー準拠,リソース見積もりを分析することで,権限の増幅を抑制する。
- mashinTalkというDSLで実装し,既存のRocq定理との統合により,その有効性を実証した。
ツール呼び出しは言語モデルにおいて線形に読み取り可能かつ制御可能である [cs.CL, cs.AI, cs.LG, cs.SE]目的:言語モデルにおけるツール呼び出しのメカニズム解明と制御
- 大規模言語モデルの応用範囲拡大に伴い,ツール呼び出しの信頼性が重要となっている。
- ツール呼び出しの誤りは実行時まで検出困難であり,重大な損害をもたらす可能性がある。
- モデル内部の状態を解析し,ツール選択の誤りを事前に検出・修正することを目指す。
- 言語モデルにおいて,特定のツール対ごとに活性化空間の単一の方向がツール選択を担っていることが示された。
- この方向を操作することで,モデルが選択するツールを83-100%の精度で切り替えることが可能である。
- ツール選択に迷いのあるクエリは,迷いのないクエリと比較して21倍多く失敗する傾向が確認された。
CUDABeaver:LLMベースのCUDA自動デバッグのベンチマーク [cs.LG, cs.PL, cs.SE]目的:LLMベースのCUDA自動デバッグの性能評価
- GPU利用の拡大に伴い,CUDAデバッグの重要性が増している。
- 既存の評価方法では,単にテストをパスするだけで最適化構造が失われる可能性がある。
- 実際のCUDA生成時のエラーから,真にデバッグ能力を評価するベンチマークの必要性。
- CUDABEAVERは,LLMベースのCUDA生成中に発生した実際の失敗事例を基にしたベンチマークである。
- 提案する評価指標pass@k(M,C,A)は,性能維持率の変化に敏感であり,より現実的な評価を可能にする。
- 性能維持率のわずかな厳格化でも,LLMのデバッグ成功率が最大40%低下することが示された。
クラウチュック多項式を用いた次元$m+2$の最小3進線形符号の構成 [cs.IT, math.IT]目的:次元$m+2$の最小3進線形符号の構成
- 秘密分散法や安全な二者間計算などに応用があり,近年注目されている研究分野である。
- アシーフミン・バーグ条件を満たさない最小線形符号の構成と,その重み分布の決定が課題となっていた。
- クラウチュック多項式に基づき,アシーフミン・バーグ条件に反する新たな最小3進線形符号を構成し,重み分布を特定すること。
- 本研究では,次元$m+2$の3進線形符号を構成する一般的な手法を提示し,符号が最小となるための必要十分条件を導出した。
- この条件とクラウチュック多項式を用いることで,アシーフミン・バーグ条件を満たさない新たな最小3進線形符号が得られた。
- 得られた符号の完全な重み列挙子を決定し,符号の特性を詳細に明らかにした。
球状KV:効率的な長文脈推論のための角度領域アテンションとレート歪み保持 [cs.LG, cs.CL, cs.IT, math.IT]目的:長文脈推論におけるKVキャッシュ効率の改善
- 大規模言語モデルの性能向上には,長文脈を処理する能力が不可欠である。
- 長文脈の処理には,KVキャッシュのサイズとHBMへのアクセスがボトルネックとなる。
- 角度領域アテンションとレート歪み保持により,KVキャッシュのサイズを削減し,効率的な推論を実現する。
- 球状KVは,KVの割り当てをアテンション幾何学に基づいたレート歪み問題として捉えることで,効率的なデコードを実現する。
- 角度領域アテンション(ADA)は,キーを球面パラメータで表現し,密なキーを再構築することなくアテンションロジットを計算する。
- レート歪み保持(RDR)は,トークンとヘッドごとに保持/破棄の決定と精度レベルを共同で選択し,軽量なメタデータを持つページを作成する。
ProcCtrlBench:LLMコーディングエージェントにおけるプロセスレベルの欠陥と制御維持の評価 [cs.SE, cs.AI]目的:LLMコーディングエージェントの実行プロセス評価
- LLMの活用が拡大する中で,その信頼性評価が重要になっている。
- 既存の評価指標は最終的な結果のみに焦点を当て,実行中の欠陥を見落とす場合がある。
- 実行プロセス中の欠陥を捉え,LLMの制御維持能力を定量的に評価すること。
- ProcCtrlBenchは,11種類の欠陥タイプを網羅するプロセス欠陥のオントロジーを構築した。
- 従来の最終結果に基づく評価では見過ごされがちな,実行品質の違いを明らかにすることができた。
- 制御維持の指標を用いることで,実行の解釈可能性,中断可能性,修正可能性などを定量化できることを示した。
AgentAtlas:LLMエージェントの成果ランキングを超えて [cs.AI, cs.CL, cs.LG, cs.SE]目的:LLMエージェントの評価に関する診断的語彙および監査プロトコル
- LLMエージェントの活用が拡大する中で,その性能評価の重要性が高まっている。
- 従来の評価は最終的なタスク成功のみに焦点を当て,エージェントの行動プロセスが詳細に分析されていない。
- エージェントの意思決定の質や行動軌跡を評価し,より詳細な診断を可能にすること。
- 本研究では,エージェントの意思決定を分類するための6つの状態(Act/Ask/Refuse/Stop/Confirm/Recover)を定義した。
- 行動軌跡における失敗原因と影響を記述するための語彙を提示し,15の既存ベンチマークに対する網羅性を評価した。
- 提示された分類体系を用いた評価では,ラベルの提示方法や軸の選択がランキングに影響を与える可能性を示唆された。
設定可能なSRAシステムの検証 [cs.LO]目的:設定可能なSRAシステムの正当性証明
- デジタルシステムは非同期プロセス群で構成されることが多く,その検証は重要である。
- プロセス間およびプロセスとスケジューラ間の相互作用により,SRAの検証は困難である。
- 設定制約を満たすSRAの無限のバリエーションに対して,一括して正当性を証明することを目指す。
- 提案手法は,契約に基づいた演繹的検証であり,スケジューラを抽象化する合成的証明規則を用いる。
- スケジューラが呼び出すメソッドの自動集約と設定空間の性質に応じた簡略化を組み合わせる。
- Dafnyソフトウェア検証器をバックエンドとして活用し,複雑なパラメータ化された振る舞いについての実用的な推論を実現した。
モデル解釈における無視されてきたベースライン [cs.CV, cs.SE]目的:モデル解釈のタスクと解釈原理の再定式化
- 機械学習モデルの信頼性向上が不可欠であり,解釈可能性が鍵となる。
- 既存の研究ではベースラインが無視されており,不正確な解釈を招く。
- ベースラインの重要性を明確化し,より正確なモデル解釈を目指す。
- 既存のモデル解釈手法はベースラインを無視する傾向があり,解釈の精度が損なわれる。
- 勾配ベースの手法,Integrated Gradients (IG)法,テイラー展開を統一的に捉え,各手法のベースラインを特定した。
- IGを修正し,明確なベースラインを持つ新たな解釈手法を開発し,より良い結果を得た。
隠蔽的エンタングルメント生成と秘匿性 [quant-ph, cs.IT, math.IT]目的:ノイズのある量子チャネルにおけるエンタングルメント生成の隠蔽容量
- 量子情報理論は,安全な通信や量子コンピュータ実現のための基盤技術であり,重要性が増している。
- 従来の通信では,秘匿性と検出回避が両立せず,情報漏洩や通信傍受のリスクが存在する。
- 本研究は,秘匿性を保ちつつ,通信自体が検出されない隠蔽通信の理論的限界を明らかにする。
- 隠蔽通信下における古典情報伝送容量と秘匿容量を解析し,単一文字式で表現した。
- この結果を基に,隠蔽的エンタングルメント生成のための符号化方式を構築した。
- エンタングルメント生成数はチャネル使用回数の平方根に比例する(SRL)ことが示された。
符号付き脳ネットワークにおける(不)均衡の評価 [math.AT, cs.CG, physics.soc-ph, cs.IT, math.IT, physics.data-an, physics.med-ph, stat.ME]目的:多元時間系列データに基づく符号付きグラフ構築手法の開発
- 複雑系解析において,要素間の相互作用を明らかにする重要性
- 時間的な状態のみから静的な関係性を推論する難しさ
- 脳ネットワークのフラストレーションの程度を定量的に評価すること
- 提案手法により,脳ネットワークがフラストレーション状態にあることが示された。
- 負のサブグラフへの主要な寄与は,皮質下構造(および,いくぶんか辺縁系領域)から来る。
- ベイズ情報量規準に基づくモジュール構造解析の結果,リラックスド・バランス理論の統計的変種と整合するモジュールが明らかになった。
バンディットフィードバックを用いたPAC学習:実現可能設定におけるシャープなサンプル複雑度 [stat.ML, cs.DS, cs.LG, math.ST, stat.TH]目的:バンディットフィードバックを用いた多クラスPAC学習のサンプル複雑度
- 機械学習において,限られたデータから効率的に学習することは重要な課題である。
- 従来のPAC学習ではラベル情報が必要だが,ラベル取得コストが高い場合がある。
- ラベル情報なしで,バンディットフィードバックのみから効率的な学習を可能にすること。
- 本研究では,バンディットフィードバックを用いた多クラスPAC学習のサンプル複雑度を厳密に特徴づけることができた。
- 新しい組合せ次元である「バンディットDS次元」を導入し,概念クラス全体に対して最適なサンプル複雑度を導出した。
- 提案するListCascadeアルゴリズムは,バンディット学習とリスト学習を結びつけ,理論的な上限を達成する。
- 1
- 2
