arXiv雑要約

プログラム - 2026/03/27 公開

Model2Kernel：モデルを意識したシンボリック実行による安全なCUDAカーネル [cs.PL, cs.AI]目的：CUDAカーネルのメモリ安全性の検証
- GPUの利用が不可欠なLLM推論において，CUDAカーネルの安定性が重要である。
- モデル依存のテンソル配置や複雑なメモリインデックスにより，CUDAカーネルはメモリ安全性のバグに弱い。
- LLM推論におけるCUDAカーネルのメモリバグを自動的に検出し，安全性を確保すること。
- Model2Kernelは，vLLM，Hugging Face等のCUDAカーネルで353個の未知のバグを発見した。
- 誤検知はわずか9件であり，高い有効性が確認された。
- モデルの挙動を考慮した動的解析と，CUDA特化のシンボリック実行を組み合わせている。
Link: https://arxiv.org/abs/2603.24595
複数LLMのクエリ最適化 [cs.CG, math.AT, math.OC, stat.ML, cs.DS, cs.LG, math.OC]目的：異種LLMへのクエリ割り当て最適化
- LLMの並列利用は一般的だが，最適なクエリ配分は未解明であり，信頼性向上が課題である。
- 異種LLMの性能差を考慮した，コストと信頼性のバランスを取るクエリ配分が難しい。
- 真のラベルに関わらず信頼性を保証するクエリ計画問題を解決し，コストを最小化すること。
- 本研究では，多クラスエラーをペアワイズ比較とチェルノフ型の集中不等式で近似するサロゲート問題を提案した。
- 提案手法は，誤差許容度が減少するにつれて，真の最適解への収束率が$O\left(\log\log(1/\alpha_{\min}) / \log(1/\alpha_{\min})\right)$であることが示された。
- サロゲート最適解の$(1+\varepsilon)$倍以内のクエリ計画を返す，漸近的に全多項式時間近似スキーム（AFPTAS）を設計した。
Link: https://arxiv.org/abs/2603.24617
ReSyn：汎用的な再帰的正規表現合成フレームワーク [cs.PL, cs.SE]目的：正規表現の自動合成
- ソフトウェア開発における自動化ニーズの増加に対応するため，形式手法によるプログラム生成が重要視されている。
- 既存のPBEシステムは，現実世界の複雑な正規表現に対応できず，性能が低下する問題がある。
- 複雑な正規表現合成問題を分割統治法で解決し，合成精度を向上させることを目指す。
- ReSynは，様々な合成器において大幅な精度向上を実現した。
- Set2Regexとの組み合わせにより，困難な現実世界のベンチマークにおいて最先端の結果を達成した。
- ReSynは合成器に依存しない汎用的なフレームワークであり，複雑な合成問題を効率的に解決できる。
Link: https://arxiv.org/abs/2603.24624
スケッチからシミュレーションへ：マルチエージェント大規模言語モデルによるフローシート自動生成 [cs.SE, cs.AI, cs.MA, cs.SY, eess.SY]目的：プロセスフローシートの自動生成
- プロセスシステム工学において，シミュレーションは設計・最適化に不可欠である。
- フローシート作成には専門知識と多大な手作業が必要であり，ボトルネックとなっている。
- プロセススケッチから直接実行可能なフローシートを生成することで，その課題を解決する。
- 本研究では，プロセス図を直接実行可能なAspen HYSYSフローシートに変換する，エンドツーエンドのマルチエージェント大規模言語モデルシステムを開発した。
- ４つの化学工学の事例研究において，システムはすべてのケースで実行可能なHYSYSモデルを生成し，構造的忠実度も高かった。
- 特に，接続の一貫性は0.93以上，ストリームの一貫性は0.96以上を達成し，実用的なスケッチからシミュレーションへのワークフローの可能性を示した。
Link: https://arxiv.org/abs/2603.24629
TRAJEVAL：コードエージェントの軌跡分解による詳細な診断 [cs.SE, cs.AI]目的：コードエージェントの軌跡の診断的分析
- コード生成AIの発展に伴い，その性能評価の重要性が増している。
- 既存の評価指標では，エージェントの失敗原因の特定が困難である。
- エージェントの行動を分解し，詳細な診断を可能にすることを目指す。
- TRAJEVALは，エージェントの軌跡を「検索」「読解」「編集」の3段階に分解するフレームワークである。
- 実験の結果，全てのモデルで不必要な関数を過剰に調査していることが示された。
- 本フレームワークは，モデルのPass@1予測精度を向上させ，リアルタイムフィードバックによる性能改善を可能にした。
Link: https://arxiv.org/abs/2603.24631
121を法とする二次剰余符号 [cs.IT, math.IT, math.NT]目的：121を法とする二次剰余符号の構成と性質
- 符号理論は，通信や情報セキュリティにおける誤り検出・訂正に不可欠である。
- 有限体上の符号の構成は重要だが，効率的な符号の設計は依然として課題である。
- 121を法とする二次剰余符号の特性を明らかにすることで，新たな符号の設計に貢献する。
- 本研究では，特定の素数pに対する121を法とする二次剰余符号を生成多項式を用いて構成した。
- 構成された符号の性質，および拡張された二次剰余符号のGray像について議論した。
- 拡張符号は大きな置換自己同型群を持つことが示され，置換復号が可能となった。パラメータ[55,5,33]と[77,7,44]の新たな符号を構成した。
Link: https://arxiv.org/abs/2603.24689
IndustriConnect: MCPアダプタとモックファースト評価によるAI支援型産業オペレーション [cs.RO, cs.SE, cs.RO, cs.SY, eess.SY]目的：AI支援型産業オペレーションのためのMCPアダプタ群のプロトタイプ
- 産業の自動化・効率化にAIを活用する重要性が高まっている。
- AIが産業プロトコルを直接扱えず，連携が課題となっていた。
- AIと産業機器の安全な連携を可能にするアダプタ群を開発・評価する。
- IndustriConnectは，Modbus，MQTT/Sparkplug B，OPC UA等の産業プロトコルをAIが扱えるようにするMCPアダプタ群である。
- アダプタの動作確認は，実際の機器接続前にモック環境で行うことで安全性を確保している。
- 正常系，異常系，負荷系，復旧系のベンチマークテストの結果，アダプタの正当性，並行処理性能，エラーハンドリングが確認された。
Link: https://arxiv.org/abs/2603.24703
複合整合性ルールによるITプロジェクト構築の自動化 [cs.SE]目的：ITプロジェクト構築における整合性確保のための自動化手法
- ITシステムの複雑化に伴い，設計の一貫性確保が重要視されている。
- UMLモデルの整合性は手動での検証に頼りがちで，誤りや非効率が生じやすい。
- 整合性ルールをより体系的に再利用可能な形で実現し，自動化を促進する。
- 複合整合性ルールは，設計者の慣習を反映し，体系的でエラーに強いモデル開発を支援する。
- Sparx Enterprise Architect上でJScriptとして実装することで，自動化を向上させ，設計の冗長性を削減し，加速を実現した。
- これにより，UMLアーキテクチャの整合性と完全性が向上し，プロジェクト横断的な再利用が可能となる。
Link: https://arxiv.org/abs/2603.24726
SlopCodeBench：長期的反復タスクにおけるコーディングエージェントの劣化を評価するベンチマーク [cs.SE, cs.AI, cs.CL]目的：コーディングエージェントの長期的な反復タスクにおけるコード品質劣化の評価
- ソフトウェア開発は反復的であり，その品質維持が重要である。
- 既存のベンチマークは単発的な解決に偏っており，拡張性評価が不十分である。
- エージェントが自身のコードを拡張する際の品質劣化を測定し，改善点を見出す。
- SlopCodeBenchは，20の問題と93のチェックポイントを含む，言語非依存のベンチマークである。
- どのエージェントも問題を完全に解決できず，最高チェックポイントの解決率は17.2%であった。
- コードの冗長性や構造的劣化が進行し，人間のコードと比較して劣化が顕著であった。
Link: https://arxiv.org/abs/2603.24755
アジリティと計画のギャップを埋める [cs.SE]目的：マイルストーン駆動型アジャイル実行
- 変化の激しい現代において，迅速な対応と計画性の両立が重要である。
- アジャイル開発は柔軟だが，長期的な計画性や戦略との整合性が課題となる。
- アジャイルの経験的制御と計画性を融合させ，戦略目標の達成を目指す。
- マイルストーン駆動型アジャイル実行(MDAX)は，アジャイルの経験的制御を維持しつつ，マクロ計画に基づいてバックログを優先順位付けする。
- MDAXは方法論に依存せず，組織が最適な開発アプローチを選択可能にする。
Link: https://arxiv.org/abs/2603.24773
検証不可能な状態から検証可能な状態へ：LLM時代の形変性テスト [cs.SE, cs.AI]目的：AI/LLM機能を組み込んだソフトウェアシステムのテスト手法
- AI技術の発展に伴い，ソフトウェアへの組み込みが進んでおり，その品質保証が重要となっている。
- LLMは強力だが信頼性が低く，テストのための正解データを用意することが困難である。
- LLMを含むシステムのテストにおける検証問題の解決を目指している。
- 形変性テストを用いることで，複数のテスト実行間の関係性をテストオラクルとして利用可能となる。
- これにより，正解データが不足する状況下でも，ソフトウェアのテストが可能となる。
Link: https://arxiv.org/abs/2603.24774
代数的拡大子符号 [cs.IT, math.IT]目的：低レート領域における正の符号レート保証
- 符号理論は，通信やデータストレージにおける信頼性の高い情報伝送に不可欠である。
- 従来の制約数カウントによるレート下界は，低レート領域では符号レートの正を保証できない。
- 代数的局所制約を持つ応用において，低レート領域でも正のレートを確保する符号の構築。
- 代数的拡大子符号という，Reed-Solomon制約を持つ新しい代数的なTanner型符号を導入した。
- この符号族は，固定されたレートr∈(0,1)において，符号レートが0から離れた下界を持つことを示した。
- 符号は，非可換部分群の軌道上の多項式部分空間を評価することで定義され，強いスペクトル拡大性を示す。
Link: https://arxiv.org/abs/2603.24788
ライブラリ学習のための数値超最適化 [cs.RO, cs.PL]目的：浮動小数点演算カーネルの高速化・高精度化に貢献する新たな数学用基本関数の特定
- 数値ソフトウェアの性能は，sin, exp, logといった数学用基本関数の実装精度に大きく依存する。
- 既存の超最適化技術では，利用可能な基本関数に対する最適化は可能だが，新規基本関数の必要性を見出すことは困難である。
- 超最適化技術を応用し，数値ライブラリの改善に寄与する新規基本関数を自動的に発見し，性能向上を目指す。
- GrowLibmは，Herbie超最適化ツールを数値ライブラリ学習器として再利用することで，効率的に候補となる基本関数を抽出・評価する。
- 実験の結果，PROJ, CoolProp, Basiliskといった科学計算アプリケーションにおいて，最大2.2倍の速度向上と精度向上が確認された。
- LLVMマッチャをプロトタイプし，学習済みの基本関数を認識・置換することで，アプリケーション全体の性能を改善することに成功した。
Link: https://arxiv.org/abs/2603.24812
ゲルフォント・シュナイダーの定理の形式化 [cs.LO]目的：ゲルフォント・シュナイダーの定理およびその証明の形式化
- 超越数論の基礎であり，代数数論と複素解析を結びつける重要な定理である。
- 定理の証明は複雑であり，形式的な検証が困難であった。
- 定理の証明を形式的な証明アシスタントを用いて検証し，その正確性を保証すること。
- ヒルベルトの第7問題と，その解であるゲルフォント・シュナイダーの定理をLean 4で形式化した。
- 定理は，代数数αと無理数βに対し，αのβ乗が超越数となることを示している。
- この形式化により，超越数論の定理の形式的な検証が可能となった。
Link: https://arxiv.org/abs/2603.24823
Linuxにおける大規模なパッチ検証の信頼性向上：開発者からの学習 [cs.SE, cs.AI]目的：Linuxカーネルにおけるパッチレビューの課題と，その規模拡大のためのシステム
- オープンソース開発では，パッチレビューがソフトウェア品質を維持する上で不可欠である。
- パッチの増加にレビュー担当者の負担が集中し，レビューの網羅性が低下する可能性がある。
- 開発者間の過去の議論から知識を抽出し，パッチの自動検証を支援するシステムを構築する。
- FLINTは，過去の議論からルールを抽出し，LLMを用いてパッチの妥当性を検証するフレームワークである。
- FLINTはLinux v6.18開発サイクルで2件，過去のバージョンで7件の新たな問題を検出した。
- FLINTは，LLMのみと比較して，同時実行バグの検出精度がそれぞれ21％と14％向上し，誤検出率も35％と低かった。
Link: https://arxiv.org/abs/2603.24825
宇宙機設計のためのデータ指向モデリング [cs.CL, cs.SE]目的：宇宙機設計におけるデータ管理手法
- 宇宙開発において，設計の効率化とコスト削減は重要な課題である。
- 従来のMBSEツールは複雑であり，既存の解析ツールとの連携が困難である。
- データ指向アプローチにより，設計の複雑性を軽減し，テストを容易にすること。
- データ指向モデリングにより，宇宙機設計のデプロイメントの複雑さを低減できることが示された。
- 本手法は，既存の文書ベースのシステム工学のトレーサビリティの利点を維持しながら，テストを簡素化する。
- VVERDADのプロトタイプ実装により，データ指向の原理の有効性が実証された。
Link: https://arxiv.org/abs/2603.24841
二重閾値確率的知値論理 [cs.HC, cs.MA, cs.AR, cs.LO, math.LO]目的：不確実なマルチエージェント環境における知値論理の形式化
- マルチエージェントシステムの推論や意思決定において，不確実性の扱いは重要である。
- 従来の論理では，確率は情報源の信頼度と価値の確実性を同時に扱えない場合がある。
- プライバシー保護の観点から，高確度な値の推測と真偽の区別を明確にすることを目指す。
- 二重閾値を用いることで，命題と値に対する確度閾値を分離し，論理的な枠組みを構築した。
- 値に対する閾値を高く設定することで，複数の値が閾値を同時に満たすことを防ぎ，一意性を保証する。
- 型空間分布と割り当て構成マッピングに基づく二層構造により，確率的質量配分と価値に敏感な制約の問題を解決した。
Link: https://arxiv.org/abs/2603.24865
実践におけるガバナンス：オープンソースプロジェクトが役割を定義し文書化する方法 [cs.SE, cs.HC]目的：オープンソースプロジェクトにおける役割定義と権限構造
- OSSの持続可能性はコード貢献だけでなく，意思決定プロセスを支えるガバナンスが重要である。
- OSSプロジェクトにおける役割と権限の明確な定義と文書化が不足している現状がある。
- OSSプロジェクトのガバナンス文書から役割定義を抽出し，構造化することで課題解決を目指す。
- オープンソースプロジェクトでは，同じ役割名でも責任範囲が異なる「役割の漂流」が見られる。
- 一部の貢献者は，技術，管理，コミュニティの役割を兼任し，ガバナンスのボトルネックとなりやすい。
- 明確な役割設計，作業の分散，リーダーシップの負担軽減が，健全なコミュニティ育成に不可欠である。
Link: https://arxiv.org/abs/2603.24879
AutoCSF：歪んだキーバリュワークロードの省スペースインデックス化：フィルタ拡張圧縮静的関数による [cs.DS, cs.DB]目的：歪んだ値分布を持つ大規模キーバリューデータセットのための省スペースなインメモリインデックス構築
- データ集約型アプリケーションにおいて，効率的なインデックス構造は不可欠である。特にゲノム計算において重要性が増している。
- 既存のインデックス構造は，極端な値の偏りに対して空間効率が悪化しやすいという課題がある。
- 本研究は，歪んだ分布に対して最適な空間効率を持つインデックス構造を理論的に保証する形で実現することを目指す。
- 本研究で提案するAutoCSFは，圧縮静的関数とプレフィルタを組み合わせることで，空間効率を大幅に改善する。
- フィルタ拡張の利点に関する厳密な決定基準を数学的に導出し，Bloomフィルタ以外の最新の集合メンバーシップデータ構造との統合を可能にした。
- AutoCSFの実装は，既存手法と比較して空間削減と低遅延クエリを両立することを示した。
Link: https://arxiv.org/abs/2603.24882
立方体型理論における正規形 [cs.DB, cs.DB, cs.LO, math.LO]目的：立方体型理論における正規形の仕様
- 型理論は，プログラムの正当性検証などに用いられ，計算機科学の基礎理論として重要である。
- 型理論の正規形判定は，計算可能性や証明可能性の議論に不可欠だが，形式化が難しい。
- 立方体型理論における正規形の定義を明確にし，理論の基礎を強化すること。
- 本研究では，立方体型理論の正規化証明に存在する定義を，より伝統的な形式で明示的に提示している。
- これにより，立方体型理論における正規形を，参照しやすい形で明確に定義することに貢献する。
Link: https://arxiv.org/abs/2603.24923
LogitScope：情報量尺度によるLLMの不確実性分析フレームワーク [cs.AI, cs.CL, cs.IT, math.IT]目的：大規模言語モデルの出力における不確実性の分析
- LLMの信頼性確保には，モデルの出力に対する不確実性の理解が不可欠である。
- 従来の評価手法では，生成時のトークンごとのモデルの確信度を把握することが困難である。
- トークンレベルの情報量尺度を用いて，LLMの不確実性を定量的に評価し，問題点を特定すること。
- LogitScopeは，エントロピーやバレントロピー等の情報量尺度を計算することで，生成過程におけるモデルの確信度のパターンを明らかにする。
- 本フレームワークは，ラベル付きデータや意味解釈を必要とせず，潜在的な幻覚や不確実性の高い意思決定ポイントを特定できる。
- LogitScopeは，不確実性の定量化，モデルの挙動分析，本番環境での監視など，多様な応用が可能である。
Link: https://arxiv.org/abs/2603.24929
知識グラフ統合型プログラミング学習システムにおける適応型および生成AIに基づくフィードバックと推奨の評価 [cs.PL, cs.AI]目的：適応型および生成AIに基づくフィードバックと推奨の有効性
- プログラミング学習の効率化が求められており，個別最適化された学習支援が重要である。
- 従来の適応型学習システムでは，十分な質のフィードバックや推奨が難しい場合がある。
- 大規模言語モデルを活用し，質の高いフィードバックと推奨を実現することで学習効果を高める。
- 生成AIを用いたフィードバックを受けた学習者は，適応型フィードバックを受けた学習者と比較して，正答率が高く，本質的なプログラミングロジックを欠いたコード提出数が少なかった。
- 特に，ハイブリッド型（生成AIと適応型）のモードは，正答数の増加と誤りや不完全な試行の減少において，他の2つのモードを上回る結果となった。
- アンケート調査の結果，生成AIによるフィードバックは有用であると広く認識されており，すべてのモードは使いやすさと有用性の点で肯定的に評価された。
Link: https://arxiv.org/abs/2603.24940
MobileDev-Bench：モバイルアプリケーション開発における言語モデルの評価のための包括的ベンチマーク [cs.SE, cs.LG]目的：モバイルアプリケーション開発における言語モデルの性能評価
- ソフトウェア開発の自動化は生産性向上に不可欠であり，言語モデルの活用が期待されている。
- 既存のベンチマークは汎用ライブラリやWebアプリケーションに偏っており，モバイルアプリ特有の制約が考慮されていない。
- モバイルアプリ開発における言語モデルの性能ボトルネックを特定し，改善に資することを目的とする。
- MobileDev-Benchは，Android Native，React Native，Flutterの18のプロダクションモバイルアプリから収集された384の現実的な問題解決タスクで構成される。
- GPT-5.2，Claude Sonnet 4.5，Gemini Flash 2.5，Qwen3-Coderを含む4つの最先端のLLMの評価では，エンドツーエンドの解決率は3.39%-5.21%と低かった。
- 主なボトルネックは，複数のファイルや成果物への変更にまたがる欠陥の特定にあり，従来のベンチマークと比較して性能に大きな差が見られた。
Link: https://arxiv.org/abs/2603.24946
LLM-DLを用いたプログラミングコードのエラー多重ラベル分類 [cs.SE]目的：プログラミングコードのエラーの多重ラベル分類
- プログラミングはコンピュータ科学の基盤であり，エラーの特定と解決は重要な課題である。
- エラーの多重ラベル分類は複雑であり，特に大規模言語モデル（LLM）の適用は未開拓の領域である。
- LLMと深層学習（DL）を組み合わせることで，エラー分類の精度向上を目指す。
- CodeT5+\_GRUモデルが，加重F1スコア0.8243，平均正解率91.84%と最も優れた性能を示した。
- 事前学習済みの意味エンコーダと効率的な再帰型デコーダの組み合わせが有効であることが確認された。
- 本研究は，プログラミング教育やソフトウェアエンジニアリングにおける自動コードフィードバックツールの開発基盤となる。
Link: https://arxiv.org/abs/2603.25005
命令干渉：言語モデルにおける指示のトポロジーは社会的な語用論に影響される [cs.IR, cs.CL, cs.AI, cs.SE]目的：大規模言語モデルにおける指示のトポロジー形成への社会的な語用論の影響
- 言語モデルの性能は，多様な言語環境下での指示理解に依存する。
- 言語や文化によって，指示の解釈や強制力が異なり，モデルの汎化を阻害する。
- 異なる言語間での指示トポロジーの差異を軽減し，モデルの公平性を高める。
- 英語とスペイン語で同じ意味内容のシステム指示が，異なる相互作用トポロジーを示すことが確認された。
- このトポロジーの反転は，命令法の社会的な語用論的差異によって媒介されている。
- 指示文を宣言的な表現に書き換えることで，言語間格差を大幅に削減できることが示された。
Link: https://arxiv.org/abs/2603.25015
ブロードキャスト輻輳クリッカーにおける高速な最小全域木サンプリング [cs.DS, cs.DC]目的：ブロードキャスト輻輳クリッカーモデルにおけるランダムな最小全域木のサンプリング
- 分散アルゴリズムにおいて，ネットワークの構造把握は不可欠であり，最小全域木はその基本的な構成要素である。
- 従来の輻輳クリッカーモデルにおける最小全域木サンプリングは，計算ラウンド数が多く，効率が課題であった。
- 本研究は，輻輳クリッカーモデルにおける最小全域木サンプリングのラウンド数を飛躍的に削減することを目指す。
- 本アルゴリズムは，$O(n^{-c})$の全変動距離で一様最小全域木分布からサンプリングを$c \cdot \log^{O(1)}(n)$ラウンドで実現する。
- 既存のアルゴリズムと比較して，計算ラウンド数において指数関数的な改善を達成した。
- 隠された指数$O(1)$は，$c$と$n$に依存しない絶対定数である。
Link: https://arxiv.org/abs/2603.25018
ハイブリッドグラフ位置エンコーディング下におけるノード局在化の情報理論的限界 [cs.IT, cs.SC, math.IT]目的：ノード局在化における情報理論的限界
- グラフ学習は，複雑な関係性を捉える上で不可欠であり，その性能向上は様々な応用分野に貢献する。
- 位置エンコーディングは重要だが，その識別可能性は十分に理解されておらず，性能限界が不明である。
- ハイブリッド位置エンコーディングにおける識別可能性の限界を情報理論的に解明し，設計指針を提供する。
- アンカー数，スペクトル次元，量子化レベルが，ノード局在化の識別可能性に影響を及ぼすことが示された。
- ランダムなグラフでは，予測されるスケーリングと実験結果が一致し，理論的限界を裏付けた。
- DDIグラフでは，グラフ構造に依存して識別可能性が大きく異なり，構造の冗長性が問題となる場合がある。
Link: https://arxiv.org/abs/2603.25030
組合せグラフ特性に対する有界独立辺サンプリング [cs.DS, cs.CC]目的：グラフにおける有界独立辺サンプリングの理論的基盤の確立
- グラフアルゴリズムの効率化に不可欠であり，大規模ネットワーク分析等に応用が期待される。
- 既存手法では，確率的アルゴリズムの解析が複雑で，決定論的アルゴリズムへの変換が困難。
- 有界独立サンプリングを用いて，グラフの連結性や無サイクル性を効率的に維持・検証すること。
- 最小カットが一定以上の場合，$O(\log(m))$次の独立性でグラフの連結性を確率的に維持できることが示された。
- 最小サイクル長が一定以上の場合，$O(\log(m))$次のほぼ独立性でグラフの無サイクル性を確率的に保証できることが示された。
- グラフマトロイド基底探索アルゴリズムの決定論的化が可能となり，並列アルゴリズムの最適化に貢献する。
Link: https://arxiv.org/abs/2603.25095
SEVerA：自己進化型エージェントの検証合成 [cs.LG, cs.PL, cs.SE]目的：自己進化型エージェントの安全性と正当性の形式的な保証
- 近年，プログラム修復や科学的発見において自己進化型LLMエージェントの有効性が示されており，その重要性が増している。
- 既存の自己進化型エージェントフレームワークは，安全性や正当性の形式的な保証を提供しておらず，信頼性やセキュリティ上の懸念がある。
- 形式的な制約とタスクの有用性を組み合わせることで，エージェント生成における安全性と正当性を確保し，高品質なエージェントを合成すること。
- SEVerAは，形式的な行動制約を導入することで，制約違反ゼロを達成し，既存の手法と比較して性能を向上させた。
- 形式的な制約は，正当性を保証するだけでなく，より高品質なエージェントの合成を促進する。
- Dafnyプログラム検証，記号数学合成，ポリシー準拠のエージェントツール使用など，様々なタスクで有効性が確認された。
Link: https://arxiv.org/abs/2603.25111
AI生成コードの品質に影響を与える要因：実証的証拠の統合 [cs.SE, cs.AI]目的：AI生成コードの品質に影響を与える要因の体系的統合
- ソフトウェア開発において，AI技術の導入が加速しており，その影響は大きい。
- AI生成コードの品質，信頼性，セキュリティに対する懸念が，学術界と産業界で高まっている。
- AI生成コードの品質を向上させるための要因を特定し，ソフトウェア品質への影響を分析すること。
- AI支援開発におけるコード品質は，人間の要因，AIシステムの特徴，および人間とAIの相互作用によって影響を受けることが明らかになった。
- プロンプト設計，タスク仕様，開発者の専門知識が，品質に影響を与える主要な要因として特定された。
- AI生成コードは有望であるものの，開発ワークフローへの慎重な検証と統合が求められる。
Link: https://arxiv.org/abs/2603.25146
AI支援が安全工学にもたらす限界：理論と範囲 [cs.AI, cs.ET, cs.HC, cs.RO, cs.SE]目的：AI支援による安全分析の質的向上と，それに伴う潜在的な盲点の特定
- 物理AIシステムの安全確保は重要であり，その過程における安全工学の役割は不可欠である。
- 安全工学においては，絶対的な安全性の証明が難しく，専門家の意見も分かれる場合がある。
- AI支援が安全分析に与える影響を定量的に評価し，AIの適切な活用方法を提示すること。
- AI支援は，単なるツール導入ではなく，人間とAIの協調設計が重要であることが示された。
- AIが生成した分析結果に頼りすぎると，人間側の思考が狭まり，重要な視点を見落とす可能性がある。
- 安全性の高いワークフローを構築することで，AI支援による潜在的なリスクを軽減できると考えられる。
Link: https://arxiv.org/abs/2603.25197
血管様分子通信路における分散に基づく送信機位置推定 [eess.SY, cs.SY, cs.IT, cs.ET, math.IT]目的：血管様分子通信路における送信機位置推定手法
- 医療分野への応用が期待される分子通信において，位置推定は重要な課題である。
- 従来の解析解は，送信時刻の知識を必要とするか，多数の受信機を必要とする点が課題であった。
- 受信信号の分散を利用して，送信時刻情報なしで距離を推定する手法を提案する。
- 提案手法は，受信信号ピーク近傍のガウス近似に基づいて導出され，分散と距離の明示的な関係式を与える。
- 物理的に妥当な毛細血管スケールでのシミュレーション結果から，提案手法は1%程度の誤差で距離予測を達成する。
Link: https://arxiv.org/abs/2603.25213
絶対収束とテイラー展開：線形論理のウェブベースモデルにおける研究 [cs.LO]目的：線形論理のモデルにおける絶対収束とテイラー展開の理論
- プログラムの定量的な側面を形式化する上で，線形論理は重要な役割を果たす。
- 既存のテイラー展開の公理系では，ウェブベースモデルへの適用が限定的であった。
- ウェブベースモデルにおけるテイラー展開の理論を拡張し，統一的な証明を提供する。
- ウェブベースモデルの一般的な構成を提示し，コヒーレンス空間から確率的コヒーレンス空間，有限性空間，ケーテ空間までを包含するモデルを捉えた。
- 係数が非正であっても成立するテイラー展開の理論を拡張した。
- 提示したウェブベースモデル構成を用いて，上記のモデル全てがそのようなテイラー展開を持つことを統一的に証明した。
Link: https://arxiv.org/abs/2603.25215
WebTestBench：エンドツーエンドの自動Webテストに向けたコンピュータ利用エージェントの評価 [cs.HC, cs.SE, cs.AI, cs.CL, cs.MA]目的：エンドツーエンドの自動Webテストを評価するためのベンチマーク
- LLMの登場により自然言語でのプログラミングが可能となり，Web開発の自動化が進んでいる。
- 既存手法は静的な視覚的類似性や事前定義されたチェックリストに依存し，汎用性に欠ける。
- Webアプリケーションの機能が確実に実装されているか自動で検証する手法の確立を目指す。
- WebTestBenchは，多様なWebアプリケーションカテゴリーに対応した包括的な評価基準を提供する。
- LLMを用いた自動テストにおいて，テストの網羅性不足，欠陥検出のボトルネック，長期的相互作用の信頼性不足が明らかになった。
- 現在のコンピュータ利用エージェントの能力と産業利用のニーズの間には大きな隔たりが存在することが示された。
Link: https://arxiv.org/abs/2603.25226
リスト推定 [cs.IT, math.IT, math.ST, stat.TH]目的：未知のd次元ベクトルに対するリスト推定の性能評価
- ベクトルの推定は，機械学習や信号処理など広範な分野で基盤となる技術である。
- 古典的な推定では単一点推定に留まり，推定誤差の低減には限界がある。
- 複数候補によるリスト推定が，単一点推定の限界を克服する可能性を検討する。
- 集中型リスト推定は，事後分布の固定レートk点ベクトル量子化と同等であることが示された。
- 高レート漸近展開により，kの冪乗として明確な減衰率k^-2/dが得られた。
- 分散型ベンチマークと比較し，特定の条件下で集中型推定がより優れた性能を発揮する。
Link: https://arxiv.org/abs/2603.25280
CSIタプルに基づく3次元チャネルフィンガープリント構築：マルチモーダル学習支援 [eess.SY, cs.SY, cs.IT, cs.AI, cs.ET, cs.LG, eess.SP, math.IT]目的：3次元チャネルフィンガープリントの構築
- 低高度通信は，空中と地上ワイヤレスリソースの統合を促進し，ネットワークカバレッジを拡大，伝送品質を向上させる。
- 従来手法では，チャネル状態情報の推定に計算コストがかかり，リアルタイム性が課題であった。
- 提案手法は，マルチモーダル学習を用いて3次元チャネルフィンガープリントを効率的に構築し，推定コストを削減する。
- 提案手法は，Ricianフェージングチャネルに基づきCSIタプルを用いて3次元チャネルフィンガープリントモデルを構築する。
- 数値実験により，提案フレームワークは最先端アルゴリズムと比較して少なくとも27.5%高い精度を達成することを示した。
- 計算複雑性分析の結果，推論時間の面でも優れていることが示された。
Link: https://arxiv.org/abs/2603.25288
フィボナッチ数列に基づくブロック分割による線形サイズのGödel数符号化 [cs.DB, cs.LO, cs.IT, math.IT]目的：有限文字列の自然数への符号化
- データ圧縮や情報伝送において効率的な符号化は重要である。
- 既存のGödel数符号化法は，符号化後の桁数が指数関数的に増加する場合がある。
- フィボナッチ数列のブロック分割を利用し，線形サイズの符号化を実現する。
- 固定された有限アルファベットを持つ有限文字列を自然数として符号化する手法を提案した。
- この符号化方式は単射であり，文字列長は符号から復元可能である。
- 符号化された数の最悪ケースの桁数は文字列長mに対してΘ(m)のオーダーで増加し，情報理論的な下限に達する。
Link: https://arxiv.org/abs/2603.25307
多値関数の線形ラムダ項による表現可能性：高階多型型システムを用いた考察 [cs.PL, cs.LO]目的：多値関数の線形ラムダ項による表現
- 計算機科学における関数型プログラミングの理論的基盤を深める上で重要である。
- 既存の型システムでは，多値関数の表現に限界がある場合がある。
- 高階多型型システムを用いた線形ラムダ項による多値関数の表現手法を確立する。
- 任意の多値関数は，回路スタイルと帰納的スタイルの二つの方法で線形ラムダ項によって表現可能であることが示された。
- 回路スタイルはスイッチング理論における組合せ回路を模倣し，帰納的スタイルはより伝統的な数学的アプローチに従う。
- これらの表現に対する最適化手法が議論され，様々な分野への応用可能性を示す事例研究が提示された。
Link: https://arxiv.org/abs/2603.25337
ガウス整数上のコードに対するマンハッタン距離に基づく新しい限界 [cs.IT, math.IT]目的：ガウス整数上の線形符号の限界値の導出
- 通信やデータストレージにおいて，誤り訂正符号は信頼性確保に不可欠である。
- ガウス整数上の符号における，効率的な限界値の決定が困難である。
- マンハッタン距離に基づく新しい限界値を導き，符号の性能評価に貢献する。
- マンハッタン距離を用いたガウス整数上の符号に対する，古典的な限界値の類似物を開発した。
- マンハッタンボールの体積に関する明示的な公式を導出し，球面充填限界や完全符号のパラメータ制約を得た。
- 自己双対符号に関する上限や，残留環上の復号アルゴリズムについても検討した。
Link: https://arxiv.org/abs/2603.25362
LACY：コードツアーを用いたソフトウェアオンボーディングにおける専門家による指導のシミュレーション [cs.SE]目的：ソフトウェアオンボーディングのための専門家指導シミュレーションシステム
- ソフトウェア開発において，新規開発者の早期戦力化は，プロジェクトの成功に不可欠である。
- 既存のオンボーディング手法は，コストがかかる，反復作業となる，拡張性に欠けるなどの課題がある。
- 本研究は，専門家の知識を再利用可能なコードツアーとして提供し，効率的なオンボーディングを実現することを目指す。
- Lacyは，AIによる自動生成と専門家による監修を組み合わせたハイブリッドなコードツアーシステムである。
- 専門家が作成したコードツアーを用いた学習者は，AIのみのツアーと比較して，クイズの正答率が有意に高かった。
- Beko社ではLacyが組織全体のオンボーディングに採用され，本研究の成果が実用的に活用されている。
Link: https://arxiv.org/abs/2603.25391
構成により決定可能：信頼性のあるAIのための設計時検証 [cs.PL, cs.AI, cs.LG, cs.LO]目的：信頼性の高いAIシステムの設計時検証手法
- AIの安全性と信頼性が重要視される中，設計段階での検証は不可欠である。
- 既存手法は，モデルの検証を訓練後に実施するため，計算コストが高いという課題がある。
- 有限生成アベル群に基づき，設計時に検証可能なフレームワークを構築し，そのコストを削減する。
- 本研究では，既存の３つの結果を組み合わせたフレームワークを提案し，設計時にAIモデルの信頼性を検証できることを示した。
- このフレームワークは，Hindley-Milner unificationを用いてSolomonoffの普遍的事前分布を計算し，普遍的帰納と同じ形式的根拠を持つ。
- 既存のAI信頼性アプローチと比較し，本フレームワークがオーバーヘッドを排除し，より効率的であることを示した。
Link: https://arxiv.org/abs/2603.25414
基礎限界の探求：ハイブリッドニューラルアーカイブの実現可能性研究 [cs.IT, math.IT]目的：LLMを用いたアーカイブシステムの実現可能性
- 情報量の増大に対応するため，より高効率なデータ圧縮技術が求められている。
- 従来の圧縮手法では，情報密度の限界に近づいている。
- LLMの潜在能力を活用し，新しい圧縮技術の可能性を検証する。
- LLMを基盤としたアーカイブシステム「Hybrid-LLM」を開発し，その性能を評価した。
- GPUのハードウェア非決定性によるデータ復元不可という課題を，ロジット量子化プロトコルで解決した。
- LLMは古典的手法では捉えられない意味的冗長性を捉え，将来的なセマンティックファイルシステムの基盤となりうることを示した。
Link: https://arxiv.org/abs/2603.25526
欠損に強いマルチモーダル融合による統一マイクロサービスインシデント管理 [cs.CL, cs.LG, cs.SE]目的：マイクロサービスにおけるインシデント管理の最適化
- マイクロサービスアーキテクチャの普及に伴い，システムの信頼性確保が重要課題となっている。
- 既存手法では，データ欠損時の性能低下が課題であり，ノイズによる誤検知のリスクがある。
- データ欠損に強く，高い診断精度を維持できるインシデント管理手法の確立を目指す。
- 提案手法ARMORは，異なる特性を持つ各モダリティを適切に処理する非対称エンコーダを備えている。
- 欠損モダリティを考慮したゲート融合機構により，不完全な入力からの干渉を抑制し，ロバスト性を高めている。
- 実験の結果，完全なデータ条件下で最先端の性能を達成し，データ欠損時でも高い診断精度を維持することが示された。
Link: https://arxiv.org/abs/2603.25538
回転アンテナを活用した無線ネットワーク：チュートリアル [cs.IT, cs.ET, eess.SP, math.IT]目的：回転アンテナを活用した無線ネットワークの基礎，アーキテクチャ，応用に関する包括的な解説
- 無線通信技術の発展において，電波の利用効率向上と通信品質の改善は常に重要な課題である。
- 従来の固定アンテナでは，空間的な自由度が限られており，複雑な環境への適応が困難である。
- 回転アンテナの特性を理解し，その最適化手法を明らかにすることで，無線通信の性能向上を目指す。
- 回転アンテナは，アンテナの向きを調整することで，従来のビームフォーミングに加えて，新たな空間的自由度を提供する。
- 本研究では，回転アンテナの数理モデル，チャネルモデル，最適化手法，チャネル推定戦略などを包括的にまとめた。
- 実験結果は，アンテナの回転が無線通信の性能向上に有効であることを示唆している。
Link: https://arxiv.org/abs/2603.25559
ゲート優先度による量子回路の修復 [cs.RO, cs.SE]目的：量子回路の故障修復手法
- 量子コンピュータ実用化には，信頼性の高い量子回路が不可欠である。
- 量子回路はノイズに弱く，故障が発生しやすいという課題がある。
- 故障箇所特定と効率的な回路修復が求められている。
- QRepは，40の回路（実回路と合成回路）において70%の完全修復に成功した。
- 残りの回路においても，実際の故障ゲートは上位44%以内にランクインし，故障局在化の有効性を示した。
- QRepは既存手法と比較して，より大規模で複雑な回路（最大13量子ビット）にも対応可能である。
Link: https://arxiv.org/abs/2603.25587
カケヤ予想と条件付きコルモゴロフ複雑性 [cs.IT, math.CA, math.IT]目的：規則的な識別可能なファイバリングの下でのアルゴリズム複雑性に関する情報理論的枠組み
- 幾何学的構造の複雑性を評価する上で，情報理論的アプローチは不可欠である。
- ファイバ構造が適応的に選択される場合，次元を下げることが困難になる。
- 適応的なファイバリングによる障害を特定し，幾何学的測度論とアルゴリズム複雑性の関係を考察する。
- 効果的に双リプシッツ連続で，識別可能かつ計算可能なファイバリングの下では，点の複雑性はファイバラベル複雑性とファイバ沿いの残差複雑性の和に分解される。
- この分解は，コルモゴロフ複雑性の連鎖律を通じて，対数的なオーバーヘッドまで実現される。
- カケヤ予想は，この枠組みの動機付けとなっており，適応的なファイバ選択が一般的なケースで単純な条件付き分割を妨げる点が重要な課題である。
Link: https://arxiv.org/abs/2603.25611
効率的な非凸サンプリングの幾何学 [cs.CL, cs.DS, cs.LG, math.ST, stat.ML, stat.TH]目的：効率的な非凸サンプリング手法
- 高次元データ解析において，確率分布からのサンプリングは重要な役割を果たす。
- 既存手法は凸集合や星型集合に限定され，一般的な非凸集合への適用が困難であった。
- 任意のコンパクト集合からの効率的な一様サンプリングアルゴリズムを開発すること。
- 本研究では，等周性および自然な体積成長条件の下で，任意のコンパクト集合からの効率的な一様サンプリングアルゴリズムを提案した。
- 提案手法は，凸集合や星型集合に対する既知の結果を大幅に一般化したものである。
- アルゴリズムの計算量は，次元，集合のポアンカレ定数，および体積成長定数に関して多項式時間である。
Link: https://arxiv.org/abs/2603.25622
厳密および近似グループ近接中心性最大化における進歩 [cs.DL, cs.CL, cs.DS]目的：グループ近接中心性の最大化
- ネットワーク分析において，影響力のあるノード集合を特定する重要性が高まっている。
- グループ近接中心性の最大化はNP困難であり，効率的なアルゴリズムが求められている。
- 既存のアルゴリズムの速度と近似率の改善を目指す。
- 提案手法により，最先端の厳密アルゴリズムが3.6倍高速化された。
- 最大で22.3倍の速度向上が確認された。
- 1/5近似アルゴリズムへの改良も施され，近似率を損なうことなく性能が向上した。
Link: https://arxiv.org/abs/2603.25642
SHAPR：構造化された知識生成を通じた人間とAIの共同研究の運用化 [cs.SE]目的：人間中心の意思決定とAI支援機能を統合した研究ソフトウェア開発フレームワークの運用化
- AI技術の進展に伴い，研究プロセスにおけるAIの活用が不可欠となっている。
- AI支援研究の透明性，再現性，体系的な改善が課題となっている。
- AI支援研究における知識の蓄積と研究プロセスの体系化を目指す。
- SHAPRフレームワークは，探索・構築・利用・評価・学習の反復サイクルを通じて研究活動を組織化する。
- 構造化知識ユニット（SKU）を用いることで，実践から得られた洞察をモジュール化し，知識の蓄積を支援する。
- SHAPRは，生成AIシステムが研究ワークフローを誘導できるよう，AI実行可能な研究フレームワークとしても機能する。
Link: https://arxiv.org/abs/2603.25660
不確実性に基づくラベル再均衡化によるCPS安全監視 [cs.LG, cs.SE]目的：CPS安全監視のための不確実性を活用したデータセット再均衡化手法
- CPSの安全性確保は不可欠であり，リアルタイムな監視が求められる。
- CPS運用における異常事象は稀少であり，データ不均衡が監視性能を低下させる。
- 不確実性を活用し，データ不均衡を解消することで安全監視の精度向上を目指す。
- 行動不確実性と安全性の間に，中程度だが有意な相関関係が確認された。
- 提案手法U-Balanceは，既存の最良手法と比較して14.3%高いF1スコア（0.806）を達成した。
- U-Balanceの有効性は，ゲート付きMLPに基づく不確実性予測器とuLNRメカニズムの両方に起因することが示された。
Link: https://arxiv.org/abs/2603.25670