arXiv雑要約

プログラム - 2026/06/16 公開

  • 知識に基づくゼロリプレイによるマルチエージェントLLMトレースのデバッグ [cs.SE, cs.AI]目的:マルチエージェントLLMシステムのデバッグ手法
    • LLMエージェントの信頼性確保は重要であり,複雑なシステムの挙動理解が不可欠である。
    • LLMの実行トレースは膨大で,原因特定イベントの特定が困難である。
    • トレース分析のコストを削減し,効率的なデバッグを実現することを目指す。
    • イベント知識グラフを用いて,リプレイコストを伴わずに効果の高いイベントを予測する手法を提案した。
    • 学習済みランキング勾配ブースティングモデルにより,トレースローカライズ性能が大幅に向上した。
    • グラフ中心性のみで十分な場合と,学習された証拠が必要な場合を明らかにすることで,コストと精度を両立したシステムを実現した。

    Link: https://arxiv.org/abs/2606.14805

  • 義務を生み出す行為 [cs.LO, cs.MA]目的:義務を生み出す行為に対する状況計算の解法
    • 人工知能における行為のモデル化は,自律エージェントの設計に不可欠である。
    • 義務を生み出す行為は,状況の変化を伴うため,フレーム問題の解決が難しい。
    • 義務の推論における状況計算の枠組みを改良し,より直感的な義務の性質を実現する。
    • 本研究では,義務のセマンティクスで使用されるアクセシビリティ関係を捉える新たな流暢を導入した。
    • Demolombeらのアプローチを簡略化し,状況の理想性という概念を排除することで,Kripkeスタイルの様相論理との整合性を高めた。
    • Reiterの回帰演算子を拡張することで,義務に関する推論を初期状況まで遡って行うことを可能にした。

    Link: https://arxiv.org/abs/2606.14810

  • エンティティコンポーネントシステムの本質 [cs.PL, cs.DC]目的:エンティティコンポーネントシステムの形式化と実験的評価
    • ゲーム開発において,パフォーマンスと柔軟性が重要であり,ECSはそのための有望な手法である。
    • ECSのアーキテクチャは実装依存性が高く,厳密な検証や並列処理の最適化が困難であった。
    • ECSのアーキテクチャを形式的に定義し,性能評価を行うことで,その有効性と限界を明確にすること。
    • アーキテクチャECSは,データと振る舞いを分離することで,モジュール性と性能向上を促進する。
    • Tower Defenseシミュレーションにおいて,アーキテクチャECSは代替設計よりも高いフレームレートと安定性を示した。
    • キャッシュ効率の向上と一貫したエンティティアクセスが,性能向上に貢献していることが示された。

    Link: https://arxiv.org/abs/2606.14919

  • 再現性のあるデータ分析のためのPandas:スプレッドシートから研究レベルのPythonワークフローへ [cs.SE]目的:スプレッドシート中心のデータ分析から,再現性・監査可能性の高いPythonワークフローへの移行
    • ビジネス分析や研究において,データ分析の重要性は増しており,その信頼性が求められている。
    • スプレッドシートは手動編集やコピー&ペーストに依存し,規模拡大に伴い監査や再現が困難になる。
    • Pandasを用いることで,スプレッドシートの利便性を保ちつつ,分析の透明性と再現性を向上させる。
    • 本研究では,ExcelからPandasへの移行マップ,ワークフローの分類,実用例,失敗モードカタログを提示した。
    • Pandasは,再現性,監査可能性,信頼性が求められる分析において有効であり,Excelとの連携も可能である。
    • Pandasをレイヤーとして活用することで,スプレッドシートの慣れ親しんだ概念を維持しつつ,より高度な分析が可能となる。

    Link: https://arxiv.org/abs/2606.14924

  • コードLLMにおける体系的な推論の強化:エージェントによる判断を用いたスケーラブルなラベリングを通じて [cs.SE, cs.AI]目的:コードLLMにおける体系的な推論能力の向上
    • ソフトウェア開発において,単なる正しさだけでなく,コードの体系的な理解が不可欠である。
    • 体系的な理解の評価は手作業ではコストが高く,テストだけでは検証が困難である。
    • 専門家による体系的な評価を代替する,スケーラブルなエージェント判断パイプラインを開発すること。
    • 強力なLLMを用いたエージェント判断パイプラインを構築し,コードベース固有の体系的な理解の要求度を評価する。
    • リポジトリ固有の体系的な慣習へのパッチの適合性を,ソースコードに基づいた評価基準を用いて評価する。
    • Qwen3モデルのファインチューニングにより,SWE-bench Verifiedにおいて最大27.2%の解決率を達成し,ベースモデルやフィルタリングなしのファインチューニングを大幅に上回った。

    Link: https://arxiv.org/abs/2606.14948

  • ナップサック制約下における差分プライバシーを用いた部分モジュール最大化 [cs.DS, cs.CR]目的:ナップサック制約下での部分モジュール最大化問題
    • 機械学習等の分野で広く応用され,データ効率が求められている。
    • 個人情報を含むデータへの適用において,プライバシー保護が課題となっていた。
    • 差分プライバシーを保証しつつ,高い精度で部分モジュール最大化を行うこと。
    • 単調目的関数に対し,最適な$(1-1/e)$-近似アルゴリズムを提案。誤差とクエリ複雑性を改善した。
    • 単調目的関数に対し,$1/2$-近似アルゴリズムも提示し,計算効率を高めた。
    • 非単調目的関数に対し,初めて保証された差分プライバシーアルゴリズムを開発し,$1/4$-近似を達成した。

    Link: https://arxiv.org/abs/2606.14951

  • 疎なネットワーク設計におけるランダム正則グラフの最適性 [eess.SY, cs.SY, cs.DS, math.CO]目的:疎なネットワーク設計における最適性
    • 資源配分やオペレーションズリサーチにおいて,疎なネットワーク設計は頻繁に発生する。
    • 既存研究では,理論上の限界に近づく設計の特定が課題であった。
    • ランダム正則グラフが,疎なネットワーク設計において理論上の最適条件を満たすことを証明する。
    • 本研究により,ランダム正則グラフが二部および単一のネットワーク設定の両方で,この鋭い最適条件を達成することが示された。
    • 実験結果は,この最適性を裏付けている。
    • 本研究は,疎な柔軟性ネットワーク設計において,次数規則性と低いエッジ相関を組み合わせることが最適性能につながるという実践的な指針を提供する。

    Link: https://arxiv.org/abs/2606.14995

  • Rumoca:Rustネイティブコンパイラによる万能代数フロントエンドとしてのModelica [cs.PL]目的:Modelicaを様々なツール向けの万能代数フロントエンドとして実現するRustネイティブコンパイラ
    • サイバー物理系のモデリング言語としてModelicaは広く利用されている。
    • 最適化や微分可能なシミュレーションなど,既存のModelicaツールチェインでは対応が難しいケースがある。
    • Modelicaモデルを様々な環境で利用可能にし,情報損失を伴うことなく再実装を避ける。
    • RumocaはModelicaを解析からDAE構築,コード生成までの明確な段階を経てRustネイティブのシミュレーションバックエンドに変換する。
    • Modelica Standard Libraryのカバー率,コンパイル時間,シミュレーション時間のベンチマークをオープンソースの参照実装と比較して評価した。
    • VS Code拡張機能やWebAssemblyとして提供され,リアルタイム制御やマルチバックエンド対応を実現している。

    Link: https://arxiv.org/abs/2606.14998

  • Vegaデータ変換の形式意味論と型システム [cs.RO, cs.PL]目的:Vegaデータ変換の形式意味論および型システムの定義
    • インタラクティブなデータ可視化は重要であり,データ理解を深める上で不可欠である。
    • Vegaのセマンティクスは曖昧で,ドキュメントが不足しており,誤った可視化や理解困難なエラーを引き起こす。
    • Vegaのセマンティクスを明確にし,データ変換におけるエラーを静的に検出することを目指す。
    • グラフベースの操作セマンティクスを定義し,Vegaのストリーミングデータフローアーキテクチャの正確なモデルを提示した。
    • Vegaの中核となるデータ変換言語のための型システムを提案し,一般的なエラーを防止できることを示した。
    • 提案する型システムがセマンティクスに対して健全であることを証明し,実用的なエラーチェックツールを開発した。

    Link: https://arxiv.org/abs/2606.15013

  • ドリフトする順位における比較パトロール:認定ランク維持,進化する平面最大値,およびドリフトする適応度下での選択 [cs.RO, cs.DS, cs.NE]目的:動的な環境下における順位に基づく選択の効率的なランク維持手法の開発
    • 進化計算や最適化問題において,適応度分布は時間とともに変化するため,効率的な順位情報の維持が重要である。
    • 既存の順位維持手法は,順位情報の陳腐化や,再評価のコストとのトレードオフが存在する。
    • 順位情報の陳腐化を最小限に抑え,効率的なランククエリを可能にする新しい順位維持構造の提案。
    • 比較パトロールと呼ばれる新しい順位維持構造を提案し,その理論的な性能限界を証明した。
    • 比較パトロールは,定数時間でのランククエリ応答,低い更新コスト,および証明可能な整合性を持つ。
    • 実験的に,比較パトロールが,特定の条件下で完全な再評価よりも優れていることを示した。

    Link: https://arxiv.org/abs/2606.15022

  • 状態空間に対する述語ベースの計算モデル [cs.CL, cs.PL]目的:状態空間に対する計算の抽象化
    • 手続き的な計算モデルの限界から,より高次の問題解決手法が求められている。
    • 状態空間を扱う問題は,手続き的な記述では複雑になりがちである。
    • 宣言的な問題記述と様々な実行環境を結びつける統一的な抽象化を提案する。
    • 本研究では,状態空間と述語によって計算問題を表現する抽象化モデルを形式化し,意味を保存する契約を導入した。
    • このモデルは,手続き的アルゴリズム,ソルバー,確率的メソッド,量子オラクルなど,多様な実行方法を統一的に扱える。
    • 有限かつ表現可能な述語は,可逆的な量子オラクルとして具現化でき,宣言的な問題記述と量子計算の橋渡しとなる。

    Link: https://arxiv.org/abs/2606.15027

  • セキュアなデュアルUAV支援アンダーレイシステムにおける3D軌跡設計とリソース配分 [cs.IT, math.IT]目的:デュアルUAV支援アンダーレイシステムにおける,UAVの3次元飛行経路,妨害UAVの電力,GDの電力,およびGDスケジューリングの同時設計
    • UAVは機動性と展開の容易さからデータ収集に活用され,地上デバイスからの情報収集において重要な役割を担っている。
    • 空中盗聴者の存在下におけるセキュアなデータ収集は,情報漏洩のリスクを考慮し,解決すべき課題である。
    • 本研究は,セキュアなデータ収集環境下におけるシステム性能向上を目指し,UAVの軌跡設計とリソース配分を最適化する。
    • 提案手法により,UAVの3次元軌跡設計がシステムの平均秘密スペクトル効率(ASSE)を顕著に向上させることが数値結果により示された。
    • 複雑な最適化問題を,近似的な下限とブロック座標降下法,および逐次凸近似法を用いて効率的に解くことに成功した。
    • UAVの軌跡,GDの送信電力,ユーザーのスケジューリングを同時に最適化することで,最大限のASSEを達成可能とした。

    Link: https://arxiv.org/abs/2606.15042

  • 型付き拡張決定図によるスケーラブルな確率的プログラム検証 [cs.PL]目的:確率的プログラム検証のスケーラビリティ向上
    • 確率的プログラムの信頼性確保は,安全性が重要なシステムにおいて不可欠である。
    • 確率的プログラムの検証は,状態空間爆発により規模が拡大しにくい。
    • 型付き拡張決定図を用いて,確率的プログラム検証のスケーラビリティ問題を解決する。
    • 型付き拡張決定図(TEDD)を用いることで,弱最弱前提条件の計算が可能となった。
    • SMTベースのプルーニングにより,TEDDの表現をさらに削減することに成功した。
    • TEDDを利用することで,既存手法と比較して検証のスケーラビリティが大幅に向上した。

    Link: https://arxiv.org/abs/2606.15043

  • 人間,エージェント,ツール向けの仕様 [cs.SE]目的:ソフトウェア開発における意図,要件,制約の伝達機構
    • ソフトウェア開発において,仕様は関係者間の連携と協調に不可欠である。
    • 従来の仕様記述は,曖昧さや信頼性の問題から,開発効率を阻害することがある。
    • エージェントAIシステムのセキュリティとコーディングにおける課題を解決する。
    • Bosque API (BAPI) エコシステムは,現代的な仕様中心開発を支援するソフトウェア環境である。
    • BAPI仕様言語は,高い表現力,テスト生成,検証,サンドボックス機能を提供する。
    • これにより,アプリケーション開発ライフサイクル全体をサポートし,多言語環境での利用を可能にする。

    Link: https://arxiv.org/abs/2606.15084

  • プログラム解析のヒッチハイカーガイド,第3部:概ね無害なLLM [cs.CL, cs.SE]目的:バグ分析におけるLLMの利用と,その妥当性検証
    • コードの品質保証において,バグの検出と誤検知の削減は重要な課題である。
    • LLMによるバグ分析は有望視されるものの,根拠の信頼性が課題となっている。
    • LLMの助力を借りつつ,形式的な解析を用いてバグの判定を行うことを目指す。
    • Evidentは,LLMの役割を分析ハーネスの構築に限定し,プログラムの振る舞いの推論はバックエンド分析に委ねる。
    • 200件のAndroidカーネルドライバー警告に対する評価で,76%のケースを正しく分類し,111件の誤検知を解消した。
    • 既存のLLMベースのフィルタリングや手動トリアージで見過ごされていた脆弱性を再発見した。

    Link: https://arxiv.org/abs/2606.15122

  • 動的メタサーフェスアンテナを用いたダウンリンク多重ユーザー送信のための二時間スケール設計 [cs.IT, math.IT]目的:動的メタサーフェスアンテナによるダウンリンク多重ユーザー送信の二時間スケール設計
    • 大規模MIMOのエネルギー消費とハードウェアコストが高い点が課題であり,その解決策が求められている。
    • メタサーフェスアンテナの設計において,パイロットオーバーヘッド,複雑さ,スペクトル効率のバランスが重要である。
    • 統計的チャネル状態情報に基づいた効率的なメタサーフェスアンテナ設計により,無線ネットワークの性能向上を目指す。
    • 提案手法では,統計的CSIに基づくDMA係数の設定と,それを用いたデジタルプレコーダの更新を二つの時間スケールで行う。
    • 最適化フレームワークは,広く用いられる確率的逐次凸近似法よりも優れた性能を示すことが確認された。
    • シングルユーザー送信の場合には,デジタルプレコーダの閉形式解が得られ,提案手法が将来の無線ネットワークに有効であることが示唆された。

    Link: https://arxiv.org/abs/2606.15183

  • ニューラルネットワークは最適な計算統計的トレードオフを達成できるか? 単一指数モデルに関する分析 [cs.LG, cs.DS, math.ST, stat.ML, stat.TH]目的:ガウス単一指数モデル学習におけるニューラルネットワークの計算統計的トレードオフの最適性
    • 機械学習モデルの性能向上には,計算資源と統計精度のバランスが重要である。
    • 統計的クエリ(SQ)フレームワーク下では,サンプル数の理論的下限が存在する。
    • 本研究は,ニューラルネットワークがSQ下限と同等のサンプル複雑度を達成できるか検証する。
    • 提案手法は,多層ニューラルネットワークを多項式時間で学習する統一的な勾配法に基づくものである。
    • 実験により,提案手法が生成指数$s^\star \geq 1$に対して,SQ下限と同等のサンプル複雑度$\widetilde{O} (d^{s^\star/2} \lor d)$を達成することが示された。
    • さらに,$k$-スパースな$\theta^\star$に対して,重み摂動技術を導入し,SQ下限$\widetilde{\Omega}(k^{s^\star})$を達成した。

    Link: https://arxiv.org/abs/2606.15219

  • 知識グラフにおけるProvenance(来歴)強化されたステートメント [cs.LO, cs.AI, cs.DL]目的:知識グラフにおけるProvenance(来歴)強化されたステートメントの解釈と推論
    • 知識グラフは,事実だけでなく解釈や仮説を含む情報を扱うことが求められている。
    • 従来のProvenanceモデルは来歴を単なるメタデータとして扱い,意味的な解釈が不十分である。
    • 来歴を認識的立場として解釈し,ステートメントを「認知世界」にグループ化することで,意見の不一致を解消する。
    • DECフレームワークは,来歴述語を認識的立場を示す指標として解釈し,認知世界間の整合性を保ちながら推論を可能にする。
    • DECは,RDF1.2の意味論を保持しつつ,意味論と同一性(スーパーマンのパラドックスを含む)の役割を明確にする。
    • DECは,Fusekiデータセットモジュールとして実装され,事実化と意見の不一致の検出をサポートする。

    Link: https://arxiv.org/abs/2606.15246

  • AI駆動型ソフトウェア開発:自律的開発プロセスへの実用的な道筋 [cs.SE]目的:AI駆動型ソフトウェア開発への移行のための組織的枠組み
    • ソフトウェア開発は経済活動の基盤であり,その効率化は社会全体の発展に不可欠である。
    • AI導入による生産性向上の効果は限定的であり,品質管理やガバナンスの課題も存在する。
    • AIをソフトウェア開発プロセス全体に組み込むための技術的・組織的基盤を構築すること。
    • 本研究では,AI利用の非公式な段階から,統合されたワークフロー,そして制御された自律的開発プロセスへの移行経路を提示する。
    • プロジェクトの文脈,ツールアクセス,検証,権限,ロギング,そして人的承認を連携させるハーネスの重要性を強調する。
    • 中規模ソフトウェア企業を事例研究として用いることで,枠組みの妥当性と,組織的文脈における具体的な形成方法を評価した。

    Link: https://arxiv.org/abs/2606.15283

  • 閾値最小カットと端末割当量:対数近似と平面近似アルゴリズム [cs.DS, cs.CC]目的:閾値最小カット問題における近似アルゴリズムの開発
    • ネットワーク信頼性や通信網設計において,重要な問題であり,効率的な解法が求められている。
    • 割当量を満たすカットを見つける問題はNP困難であり,大規模グラフに対しては近似アルゴリズムが必要となる。
    • グラフ構造に応じた近似アルゴリズムを開発し,実用的な解を効率的に求めることを目指す。
    • 一般的なグラフに対する閾値最小カット問題に対し,期待値でO(log n)の近似アルゴリズムを提案した。
    • 平面グラフに対する閾値最小カット問題に対し,2倍近似アルゴリズムを提案した。
    • 有界次数平面グラフに対する閾値最小ノードカット問題に対し,2Δ近似アルゴリズムを提案した。

    Link: https://arxiv.org/abs/2606.15324

  • テンソルネットワーク次元削減による指数規模線形代数 [math.NA, cond-mat.str-el, cs.DS, cs.NA, quant-ph]目的:指数規模線形代数問題の効率的な解法
    • 現代科学計算において,次元の呪いに対処することは重要である。問題の規模が大きくなるにつれ,計算量が指数関数的に増加する。
    • テンソルネットワークは指数規模のデータを扱う有用なツールだが,必ずしも安定したアルゴリズムに繋がるとは限らない。
    • テンソルネットワークデータのランダム次元削減技術により,指数規模線形代数問題を解く。
    • 提案手法は,トレース推定や固有値近似といった問題に対し,有効なアルゴリズムを提供する。
    • 数値実験では,量子多体系物理学における最大$2^{200}$次元のデータに対して,手法の有効性を確認した。
    • ランダム次元削減により,テンソルネットワークの表現を安定化させ,計算効率を向上させることが示された。

    Link: https://arxiv.org/abs/2606.15350

  • 挿入または削除に対する被覆符号の新たな上限 [cs.IT, math.IT]目的:挿入および削除に対する被覆符号の研究
    • 同期エラー研究において自然に生じる問題であり,古典的なハミング距離の符号とは大きく異なる。
    • 挿入/削除訂正と異なり,挿入/削除被覆は等価ではない。効率的な上限や構成が不足している。
    • 大規模アルファベット下における挿入/削除被覆符号の上限を導き,構成を提案すること。
    • 挿入被覆符号に関して,単一挿入の組合せ的アプローチを拡張し,任意の固定挿入半径に対する新たな下限を確立した。
    • 削除被覆符号に関して,ハイパーグラフ被覆との関係を明らかにし,アルファベットサイズが無限大に近づくときの基本的なカウント下限の漸近的タイトさを証明した。
    • 微分Varshamov-Tenengolts (VT) 符号を用いて漸近的に最適な二進単一削除被覆符号の構成を提示した。

    Link: https://arxiv.org/abs/2606.15379

  • 有界樹木幅グラフにおける最適ラウンドとメッセージサイズでの分散支配集合 [cs.NI, cs.DS]目的:有界樹木幅グラフにおける分散最小支配集合問題の近似解法
    • グラフ理論における基本的な問題であり,ネットワーク設計や資源配分などへの応用が期待される。
    • 既存手法では,近似率とラウンド数のトレードオフが課題であり,最適な解を得るのが難しい。
    • 近似率とラウンド数,メッセージサイズを最適化し,実用的な分散アルゴリズムを開発することを目指す。
    • 本研究では,$\alpha$ の事前知識なしに,$O(\alpha \log \Delta / \log\log \Delta)$ の近似解を,$O(\log \Delta / \log\log \Delta)$ の最適ラウンド数と1ビットのメッセージサイズで実現する決定性アルゴリズムを提案する。
    • 提案アルゴリズムは,LenzenとWattenhoferのアルゴリズムを簡略化し,近似率を改善する。ただし,$\Delta$ の事前知識が必要となる点は課題である。
    • Dory, Ghaffari, Ilchiのアルゴリズムと比較して,ラウンド数の複雑さに$log n$の依存性がない点が優れている。

    Link: https://arxiv.org/abs/2606.15411

  • 有限クリプケ意味論における有界不可識別性のGPU加速探索と検証 [cs.LO, cs.GR]目的:有限クリプケ意味論における様相式探索と検証問題
    • 様相論理は,知識,信念,時間といった概念の形式化に不可欠であり,AIや検証分野で応用が拡大している。
    • 有限モデルにおける様相式の検証は計算コストが高く,大規模な探索には限界がある。
    • GPUの並列処理能力を活用し,有限モデルにおける様相式検証の効率化を目指す。
    • GPUによる高速な探索と検証により,5,624個の様相式を5つの状態を持つ全てのフレーム上で45分で評価した。
    • 検証された反駁モデル証明書は全て正当であり,計算効率の高さが示された。
    • ある条件下では,反駁可能な様相式は2つの状態での反駁モデルを持つことが示され,標準的なフィルタリング限界を下回る結果となった。

    Link: https://arxiv.org/abs/2606.15437

  • 保証事例における定量的な信頼性評価手法のスケーラビリティ分析 [cs.SE, cs.HC]目的:保証事例への定量的な信頼性評価手法の適用に必要な意思決定の複雑さと労力に関する推定モデル
    • 安全性,信頼性,セキュリティ等の保証活動において,証拠に基づいた意思決定の重要性が高まっている。
    • 定量的な信頼性評価手法の適用には相応の労力が必要であり,実用上の障壁となっている。
    • 定量的な信頼性評価手法のスケーラビリティを分析し,適用に必要な労力を予測すること。
    • 提案モデルは,保証事例の規模に応じて必要な労力がどのように変化するかを特性化する。
    • Certus法は最悪の場合の意思決定の複雑性は高いが,平均的な労力はBBN法やDST法よりも低いことが示された。
    • 本モデルは,既存手法の改良や新規手法開発における労力見積もりに活用できる。

    Link: https://arxiv.org/abs/2606.15480

  • エージェントAI製品における代理の問題:開発者がリスクをどのように認識し,優先順位をつけ,対処するか [cs.CL, cs.CY, cs.AI, cs.HC, cs.LG, cs.SE]目的:エージェントAI製品におけるリスクの認識,優先順位付け,対処方法
    • AI技術の進展により,自律的に行動するエージェントAIの活用が拡大している。
    • エージェントAIの自律性や実世界での運用は,予期せぬリスクを生み出す可能性がある。
    • エージェントAI開発におけるリスク管理の現状と課題を明らかにすること。
    • 開発者のリスク認識は,エージェントAIの自律性,ツール利用,実世界での活用といった特性と密接に関連していた。
    • 開発者は,社会的なリスクよりも,製品やビジネスリスクを優先する傾向が見られた。
    • エージェントAIのリスク抑制策は未成熟であり,有用性を損なうことなくリスクをコントロールすることが課題である。

    Link: https://arxiv.org/abs/2606.15485

  • 1986年Icon実験パッケージにおけるユークリッド領域アルゴリズムのLean 4形式化 [cs.RO, cs.CL, cs.LO, cs.SC]目的:ユークリッド領域のアルゴリズムとドメイン型の形式化
    • 形式検証は,ソフトウェアの信頼性向上に不可欠であり,数学的基礎に基づいた厳密な検証が求められる。
    • 既存のアルゴリズム実装は,検証が困難な場合が多く,特に複雑な数値計算アルゴリズムにおいて課題がある。
    • 1986年のIconパッケージを形式化し,アルゴリズムの正確性と数学的根拠を明確にすること。
    • 本研究では,Lean 4を用いて,1986年のIcon実験パッケージに含まれるユークリッド領域アルゴリズムを形式化することに成功した。
    • 形式化されたアルゴリズムは,Mathlibの\texttt{EuclideanDomain}階層に基づいて数学的に定義され,計算可能な鏡像も提供される。
    • これにより,アルゴリズムの検証境界を明確にし,定理によって裏付けられた部分と回帰テストによって検証された部分を区別することが可能となった。

    Link: https://arxiv.org/abs/2606.15520

  • SDVDiag:ソフトウェア定義車両におけるオンライン診断のためのマルチモーダル因果探索 [cs.SE, cs.DC, cs.LG]目的:ソフトウェア定義車両におけるオンライン診断のためのマルチモーダル因果探索パイプライン
    • 車両機能がソフトウェアに集中するにつれ,障害の早期発見と迅速な対応が不可欠となっている。
    • 従来の根本原因分析は単一の観測モダリティに依存し,リアルタイムな車両運用に対応できていない。
    • ログとメトリクスの両方を利用し,リアルタイムで根本原因を特定するシステムを構築すること。
    • マルチモーダルパイプラインは,メトリクスのみの場合と比較して,より疎な因果グラフを生成した。
    • 専門家の知識グラフに対するエッジ重み付き報酬において,継続的に優れた性能を示し,60回のフィードバッククエリ後に2.4倍の改善が見られた。
    • エンドツーエンドのフォールトインジェクションシナリオにおいて,観察された症状から2ホップ上流にある真の根本原因を正しく特定できた。

    Link: https://arxiv.org/abs/2606.15559

  • 最小限の監視:委任されたAIシステムの不確実性に対応したガバナンス [cs.AI, cs.IT, cs.MA, math.IT]目的:委任されたAIシステムにおけるガバナンス戦略
    • AI技術の発展に伴い,AIシステムの自律性が高まる中で,安全かつ効率的な運用が重要になっている。
    • AIシステムの委任先における不確実性を考慮したガバナンス手法が確立されていない。
    • 不確実性を考慮した上で,最小限の監視でAIシステムの自律性を確保する手法を提案する。
    • 最小十分な監視の原理(MSO)を提案し,タスク空間におけるガバナンスの委任を最適化する水割り配分を実現した。
    • 定常的な記号ごとのレビューポリシーに対するキャパシティ定理を証明し,ワークフローの複雑さと品質劣化の関係を近似した。
    • 介入タイミング,有効容量,複雑さ,ドリフトを結びつける自律性-時間スケーリング則を導出した。また,マスキングがAIガバナンスの構造的な問題点であることを示した。

    Link: https://arxiv.org/abs/2606.15563

  • エージェントはゲノムを持つ:LLM搭載自律エージェントのシーケンスレベル行動分析と実行時ガバナンス [cs.AI, cs.LG, cs.MA, cs.SE]目的:LLM搭載自律エージェントの実行時行動を記号シーケンスとして分析し,ガバナンス手法を開発すること。
    • LLMエージェントは複雑なタスクを自律的に実行するが,その行動の予測や制御は困難である。
    • エージェントの行動パターンを定量的に把握し,問題行動を特定する手段が不足している。
    • エージェントの行動シーケンス分析により,潜在的なリスクパターンを検出し,実行時介入によって成功率を向上させる。
    • エージェントの行動シーケンス分析の結果,P-X-Pのトリグラムが有意にリスクが高いパターンであることが判明した。
    • 計画(P)の比率が成功の最も強い負の予測因子であり,実行から検証への遷移確率が低いことが示された。
    • 開発したGovernorは,タスク成功率を6.2%向上させ,トークン消費量を44%削減することに成功した。

    Link: https://arxiv.org/abs/2606.15579

  • 八角形抽象領域の最小比較 [cs.SE]目的:抽象状態の最小比較
    • 数値抽象領域はプログラム解析の精度を左右する重要な要素である。
    • 抽象領域によっては,不要な制約が含まれ,解析精度を低下させる場合がある。
    • 八角形抽象領域における不要な制約の除去手法を開発し,精度向上を目指す。
    • 本研究で提案するアルゴリズムにより,八角形抽象領域における不要な制約を効率的に除去できることが示された。
    • 6,930個の不変量の比較実験の結果,最小比較により多くの不変量が同等と判定され,八角形抽象領域の表現力の影響が軽減されることが確認された。

    Link: https://arxiv.org/abs/2606.15582

  • SIMベースのミリ波近接場通信における疎チャネル推定 [cs.IT, eess.SP, math.IT]目的:SIMベースの多重ユーザミリ波近接場通信システムにおけるチャネル推定
    • ミリ波通信は,大容量通信を実現する鍵となる技術であり,今後の通信インフラにおいて不可欠である。
    • ミリ波通信では,高い周波数帯域を用いるため,経路損失や障害物による遮蔽の影響を受けやすい。
    • 本研究は,近接場におけるチャネル特性を考慮し,高精度なチャネル推定を実現することで,通信品質の向上を目指す。
    • 本研究では,SIMに集積されたメタアトムの数を考慮し,アンダーデターミナント問題を解決するため,圧縮センシングに基づくチャネル推定プロトコルを提案した。
    • 特に,近接場通信におけるエネルギー拡散効果に対処するため,極座標領域でのチャネル表現を用いることで,より効率的な推定を実現した。
    • また,高次元辞書を扱う際のスパースベイズ学習の計算複雑性を軽減するため,低複雑度な極座標領域スパースベイズ学習(LCPD-SBL)アルゴリズムを開発した。

    Link: https://arxiv.org/abs/2606.15634

  • 学術界におけるテスト教育の重要性 [cs.SE]目的:テスト教育における実践と経験的性質との整合性
    • システムが複雑化しAIが組み込まれる中,テストの重要性は増している。
    • 現在の教育課程は規範的な手法に偏り,不確実な状況下での批判的思考を阻害している。
    • 経験的で探求的なスキルとしてテスト教育を再構築し,実践能力を育成すること。
    • 本研究では,4C/IDモデルに基づいた教育設計を提案し,全体的なタスク学習を支援する。
    • P4TESTという教育フレームワークを提示し,テストに必要な主要な能力,認識的な動き,思考習慣を明確化する。
    • P4TESTは,ソフトウェアテスト教育におけるカリキュラム設計,スキャフォールディング,評価を導くことができる。

    Link: https://arxiv.org/abs/2606.15677

  • ソフトウェアテストにおける因果性の応用:迅速レビュー [cs.SE]目的:ソフトウェアテストにおける因果性応用の現状と課題
    • ソフトウェアの信頼性確保は重要であり,テストはその核となる活動である。
    • 従来のテスト手法では,複雑なシステムの挙動を正確に分析しにくい。
    • 因果推論を用いてテストを体系化し,効率性と精度を向上させる。
    • 因果推論のパイプライン(表現,発見,識別,効果推定)に基づき27の研究を分析した。
    • 識別と推定に関する研究が中心で,表現と発見は未開拓な領域が多いことが示された。
    • モデルの誤指定,未検証の仮定,限られた実証評価が課題として特定された。

    Link: https://arxiv.org/abs/2606.15683

  • セルフリーISACシステムにおける位置・速度推定の双方向ループ最適化と根本限界 [cs.IT, math.IT]目的:セルフリー統合センシング通信(ISAC)システムにおける位置・速度推定の限界と最適化
    • デジタルツインネットワークの実現には無線センシングとの密接な連携が不可欠であり,その性能向上が求められている。
    • 既存研究では,流体型インテリジェントメタサーフェス(FIM)を用いたセルフリーISACシステムにおける位置・速度推定の限界が明確にされていなかった。
    • 本研究は,セルフリーISACシステムにおける位置・速度推定の理論的限界を明らかにし,FIMの最適化による性能向上を目指す。
    • 双方向ループ構造とクラメール・ラオ下限(CRB)フレームワークにより,セルフリーシステムが2次元速度推定において完全な可観測性を実現することを示した。
    • FIM形状の最適化は位置精度を向上させるが,等方性波形下では速度CRBに影響を与えないこと,またドップラー結合が位置推定精度を非対称的に向上させることを明らかにした。
    • セルフリーシステムの角度多様性がデジタルツイン予測誤差を軽減し,最適な同期周期と信頼度を考慮したスケジューリング戦略がDT更新レートを削減することを示した。

    Link: https://arxiv.org/abs/2606.15688

  • 大規模言語モデルによる自動コードレビューの比較評価:大きい方が常に良いとは限らない [cs.SE]目的:自動コードレビューのための大規模言語モデルの性能比較
    • ソフトウェア品質の維持・向上は,現代のソフトウェア開発において不可欠である。
    • 大規模なコードベースでは,手動によるコードレビューの負荷が大きく,効率的な自動化手法が求められている。
    • 大規模言語モデルの性能とコストのバランスを評価し,実用的な自動コードレビューの実現を目指す。
    • Claude Haiku 4.5は,より大きなモデルであるClaude Sonnet 4.6よりも,F1値,再現率,定性評価において一貫して高い性能を示した。
    • 合成データでの評価はモデルの能力を過大評価する傾向があり,実際のPull RequestではF1値が大幅に低下する。
    • 修正規模が大きいDiffではレビュー品質が低下し,性能関連のバグに対するモデルの再現率はほぼゼロであった。

    Link: https://arxiv.org/abs/2606.15689

  • コード編集における不完全な視覚的検証:TikZ を事例とした研究 [cs.RO, cs.SE, cs.AI]目的:TikZ を用いた視覚的成果物生成プログラムのカスタマイズにおける,反復的な改良の効果検証
    • 近年,LLM の発展によりコード生成の性能は向上しているが,視覚的成果物を伴うコードのカスタマイズは依然として課題である。
    • 視覚的な正しさの自動評価が困難であるため,信頼性の低い検証者しか利用できないという問題がある。
    • 不完全な検証者を用いた反復改良が,どの程度有効であるかを検証することを目的とする。
    • 不完全な検証者でも,視覚的な指示がコードに適用されているかどうかを,中程度の精度で判断できることが示された(F1スコア最大0.815)。
    • フィードバックは反復改良を改善し,特に弱いモデルに対して顕著な効果が見られた(Qwen3-vl-30b-a3b-Instruct で11~20件の完璧なカスタマイズ増加)。
    • 強力なモデル(Gemini-3)は改善の度合いは小さいものの,正確な検証によって早期の受理を防ぐことによるメリットが大きい。

    Link: https://arxiv.org/abs/2606.15693

  • クロム論理プログラムの代数 [cs.LO, cs.AI, math.LO]目的:クロム論理プログラムの代数的構造
    • 論理プログラミングは,知識表現と推論の強力なツールである。
    • クロムプログラムの代数的性質は,未だ十分に解明されていない。
    • クロムプログラムの代数的構造を明らかにし,拡張を定義すること。
    • クロムプログラムは自然なモノイド構造を持つことが示された。
    • この構造は,クロム半環,準環,コンウェイ半環,オメガ半環などへの代数的拡張を許容する。
    • 有限クロムモノイドは,変換モノイドや有限オートマトンと関連付けられた。

    Link: https://arxiv.org/abs/2606.15719

  • 補間とクエリ書き換え [cs.LO]目的:論理式またはデータベースクエリの簡略化
    • 論理学やデータベースの効率化に不可欠な研究分野である。
    • 複雑な式やクエリの簡略化が困難である。
    • 証明から補間式や定義を生成するアルゴリズム開発。
    • クレイグ補間とベス定義可能性の応用が,論理式やデータベースクエリの簡略化に役立つことが示された。
    • 定義可能性や補間可能性の結果を有効にするための新たな視点が得られた。
    • 補間と定義可能性がモデル理論における保存定理と関連していることが明らかになった。

    Link: https://arxiv.org/abs/2606.15737

  • Snyk VulnBench JS 1.0:LLMは同じバグを二度発見できるか [cs.CR, cs.AI, cs.SE]目的:JavaScriptコードに対するLLMセキュリティレビューの再現性評価
    • ソフトウェアの脆弱性は常に存在し,その発見と修正はセキュリティ維持に不可欠である。
    • LLMによる脆弱性検出は新しいアプローチだが,その再現性や信頼性には課題がある。
    • LLMと従来のSASTの組み合わせによる効果的な脆弱性検出手法を確立すること。
    • LLMによるセキュリティレビューは,参照一致した結果では安定していたが,追加されたレポートは実行ごとに大きく変動した。
    • ClaudeがSnyk Codeの参照結果と一致した場合,再現性が高かった。一方,一致しなかった結果は,再現性が低い傾向にあった。
    • LLMと決定論的なSASTを組み合わせることで,それぞれの技術の利点を活かし,脆弱性検出の精度を高めることができる。

    Link: https://arxiv.org/abs/2606.15762

  • ScratchLens:Scratchプログラムに対するレンズパラメータ的行動同値性 [cs.CL, cs.PL, cs.SE]目的:Scratchプログラムの行動同値性判定
    • 教育分野において,プログラミング学習の自動評価やフィードバックは重要であり,そのためには正確な行動同値性判定が不可欠である。
    • 従来のプログラム比較手法は厳格すぎたり,並行性やタイミング依存性を考慮できないため,Scratchのようなブロックベースのプログラミング言語における行動同値性判定は困難である。
    • プログラムの行動を多角的に捉える「レンズ」の概念を用いて,より正確かつ効率的な行動同値性判定手法を開発し,その問題を解決する。
    • SPECTRAは,Scratchプログラムを因果関係に基づく中間表現に変換し,名前の変更や順序の違いを正規化することで,行動同値性を判定する。
    • 実世界のScratchプロジェクトから収集された変異体データセットを用いて評価した結果,SPECTRAは444組の検証済みペア全てを判定し,誤った同値性主張はなかった。
    • 既存の比較手法やLLMと比較して,SPECTRAは優れた性能を示し,レンズパラメータ的アプローチと部分順序削減の有効性が確認された。

    Link: https://arxiv.org/abs/2606.15817

  • AGENTS.mdファイルの構成スメル:コーディングエージェント設定における一般的な誤り [cs.SE]目的:コーディングエージェント設定ファイルの共通問題のカタログ
    • ソフトウェア開発における自動化のニーズが高まり,コーディングエージェントの利用が拡大している。
    • エージェント設定ファイル(AGENTS.md等)の定義・維持に関する問題点が未解明である。
    • コーディングエージェント設定ファイルに存在する問題点を特定し,改善策を提案すること。
    • 構成スメルに関する最初のカタログを提示し,自動検出のためのヒューリスティックを提案した。
    • 100件のオープンソースリポジトリを分析した結果,構成スメルが広く存在することが明らかになった。
    • Lint Leakageが最も多く(62%),Context Bloat(42%)とSkill Leakage(35%)がそれに続いた。

    Link: https://arxiv.org/abs/2606.15828

  • エージェントハーネスのためのLLMをコードとして扱うエージェントプログラミング [cs.AR, cs.CL, cs.AI, cs.SE]目的:LLMをコードの一部として扱うエージェントプログラミングの提案
    • 大規模言語モデル(LLM)エージェントは,様々なタスク自動化の基盤技術として重要性が増している。
    • LLMエージェントは,トークン爆発や制御フローの幻覚といった信頼性に関する課題を抱えている。
    • 制御フローをプログラムに委ねることで,LLMエージェントの安定性と信頼性を向上させることを目指す。
    • 本研究では,LLMをコードの一部として扱うAgentic Programmingを提案し,プログラムが制御フロー全体を管理する。
    • LLMのコンテキストは実行履歴のコールツリーから構築され,DAG(有向非巡回グラフ)を形成することで,コンテキスト長を適切に管理する。
    • コンピュータ操作エージェントのケーススタディにより,本設計の有効性と長期的な操作シーケンスの安定性向上が示された。

    Link: https://arxiv.org/abs/2606.15874

  • LLMネイティブソフトウェアにおける生成フローのグラフ確率モデリング [eess.SY, cs.SY, math.OC, cs.SE, cs.AI]目的:LLMネイティブソフトウェアの生成フローの文書化と,LLMベースのソフトウェア設計の特性記述手法
    • LLMの急速な発展に伴い,LLMを活用したソフトウェア開発の重要性が高まっている。
    • LLMネイティブソフトウェア開発は,体系的な設計手法や分析基盤が不足している現状にある。
    • LLMの確率的挙動を考慮しつつ,システムレベルでの性質を記述可能なモデリング手法を確立すること。
    • 生成フローを記述するためのグラフ確率モデル「Generation Networks」を提案した。
    • このモデルは,LLMネイティブシステム特有の現象を捉え,体系的な議論を可能にする。
    • 生成的な相互作用とシステムレベルの特性に関する原理的な推論の基盤を提供する。

    Link: https://arxiv.org/abs/2606.15943

  • サイズ変更可能な検索 [cs.DS]目的:動的検索データ構造の空間複雑性
    • データ検索は情報処理の根幹であり,効率的なデータ構造が不可欠である。
    • 従来のデータ構造はサイズが固定されており,変化するデータ量に対応できない場合がある。
    • 現在のデータサイズに依存する空間複雑度を持つデータ構造を開発すること。
    • 本研究では,サイズ変更可能な動的検索データ構造を提案し,O(1)時間での操作と現在のサイズnに依存する空間複雑度を達成した。
    • 提案手法は,空間と時間のトレードオフにおいて最適な性能を示すことを理論的に証明した。
    • メモリ割り当てや動的フィルタリングといった応用分野への応用可能性も示唆した。

    Link: https://arxiv.org/abs/2606.15944

  • Green SARC:エージェント型AIシステムの予測コストと炭素ガバナンス [eess.SY, cs.SY, cs.CL, cs.NI, cs.SY, eess.SY, cs.SE, cs.AI, cs.DC, cs.LG]目的:エージェント型AIシステムのコストと環境負荷を予測・制御するガバナンスフレームワーク
    • AIシステムの発展は経済成長と環境保全の両立に不可欠であり,そのガバナンスが重要となる。
    • AIシステムの行動範囲が拡大する中で,コストや環境負荷の予測と制御が困難になっている。
    • エージェント型AIシステムにおけるコストと炭素排出量を事前に予測し,ガバナンスを確立することを目指す。
    • 実世界の計画における状態の雪だるま現象はループの深さの二乗に比例し,線形増加の予測よりも加速が速いことが確認された。
    • ノルマル-$\sigma$ゲートはカバー率が低かったが,スプリット確信区間較正によって95%の精度を達成した。
    • 予算制約下では,アーキテクチャゲートが予算超過を完全に防ぎ,トークン,USD,炭素の節約効果が確認された(47-55%)。

    Link: https://arxiv.org/abs/2606.15954

  • 失われたログの略奪者:同期型並列インプレースモデルとアルゴリズム [cs.DC, cs.DS]目的:同期型並列インプレースモデルとアルゴリズムの開発
    • 組み込みシステムやIoTの発展に伴い,メモリ消費を抑えた並列アルゴリズムが重要になっている。
    • 既存モデルは非同期処理を前提としており,中間的なプロセッサ数でのインプレース保証がない。
    • 本研究は,全てのプロセッサ数において効率的かつ厳密なインプレース性を保証するモデルを提案する。
    • 本研究で提案する同期型PIPモデルは,追加の共有メモリを必要とせず,プロセッサあたりのプライベートメモリも定数で済む。
    • 並列拡張スウィープ技術を用いることで,同期型PIPアルゴリズムの効率性とインプレース性を全てのプロセッサ数で維持できる。
    • これにより,高プロセッサ数での並列処理においても,メモリ使用量を最小限に抑えた計算が可能となる。

    Link: https://arxiv.org/abs/2606.15969

  • GPUにおける安全な並行処理 [cs.PL]目的:GPUカーネルの安全かつ慣用的な記述
    • GPUは並列処理に不可欠だが,プログラミングは複雑でエラーが発生しやすい。
    • GPUカーネルの記述では,メモリ安全性が課題となりやすい。
    • Rustの所有権システムをGPUカーネルに適用し,安全性を確保する。
    • cuTile Rustは,高性能GPUにおいても性能を維持できることが示された。
    • NVIDIA B200 GPUにおいて,cuTile Rustは要素ごとの演算で7 TB/s,GEMMで2 PFlop/sを達成した。
    • Groutは,Qwen3の推論において,vLLMやSGLangに匹敵する性能を示した。

    Link: https://arxiv.org/abs/2606.15991

  • 直交制約下における共有表現の情報理論的利点 [cs.CL, cs.LG, cs.IT, math.FA, math.IT]目的:直交制約下における共有表現の記述長効率性
    • 深層学習はマルチタスク・マルチモーダル化が進み,汎化性能向上が重要課題である。
    • 複数のタスクを個別に近似する場合と,結合して近似する場合のパラメータ複雑さの差が不明確である。
    • 共有潜在特徴を持つタスクにおいて,結合近似が単独近似よりも少ないビット数で表現可能となることを示す。
    • 本研究では,直交制約下で結合近似が単独近似よりも厳密に少ないビット数で済むことを情報理論的に証明した。
    • 共有ハード特徴をラダメッハー・ハール波動系列で実現し,鋸歯状・ウォルシュ読み出しにより出力座標の直交性を強制することで,この結果を得た。
    • この結果は,幾何学的制約下でもニューラルネットワークが表現力を維持できる理由を説明する理論的根拠を提供する。

    Link: https://arxiv.org/abs/2606.16028

  • Open-SWE-Traces: ソフトウェアエンジニアリングエージェントのためのデュアルモード多言語蒸留の推進 [cs.SE, cs.AI]目的:ソフトウェアエンジニアリングエージェントの学習のための大規模な多様な軌跡データセット
    • 自律的なソフトウェアエンジニアリングの実現には,質の高い学習データが不可欠である。
    • 大規模で多様なソフトウェアエンジニアリングエージェントの軌跡データが不足している。
    • 高品質な軌跡データセットを提供し,ソフトウェアエンジニアリング能力を向上させる。
    • Open-SWE-Tracesは,9つのプログラミング言語における207,489件の軌跡データを含む大規模データセットである。
    • Qwen3-30B-A3Bモデルのファインチューニングにより,SWE-bench Verifiedで61.7%の解決率を達成した。
    • このデータセットは,オープンソースのエージェントLLMへの人間レベルのソフトウェアエンジニアリング能力の蒸留に貢献する。

    Link: https://arxiv.org/abs/2606.16038