arXiv雑要約

プログラム - 2026/06/19 公開

LLMを用いたQiskitコード移行 [cs.SE]目的：Qiskitコードのバージョン間移行の自動化
- 量子ソフトウェア開発の発展は加速しており，コードの保守性と再利用性が重要である。
- 量子開発キットの急速な進化により技術的負債が生じ，コードの維持が困難になっている。
- LLMとRAGを組み合わせることで，Qiskitコード移行の信頼性と精度を向上させる。
- 提案手法は，移行シナリオの自動生成された分類体系を活用し，LLMによる移行提案の精度を高める。
- 特に制約付き検索を用いた分類体系ベースのRAGアーキテクチャは，幻覚を大幅に低減し，記述品質を改善する。
- Google Gemini Flash-2.5は，複雑なリファクタリングシナリオの検出において優れた性能を示した。
Link: https://arxiv.org/abs/2606.20173
部分モジュール線形順序問題に対するタイトなアルゴリズムと困難性 [cs.DS]目的：部分モジュール関数を持つ線形順序問題の近似アルゴリズムの限界と性能
- 組合せ最適化の分野において，線形順序問題は様々な問題のモデルとして重要である。
- 部分モジュール関数に対する線形順序問題の近似アルゴリズムは，十分な性能を持つものが知られていなかった。
- 本研究では，部分モジュール関数に対する線形順序問題の近似可能性を厳密に評価することを目的とする。
- 部分モジュール関数に対する線形順序問題に対し，$O(\sqrt{n/\ln n})$ 近似アルゴリズムを提案した。
- 提案アルゴリズムの近似率が，情報理論的な下限 $o(\sqrt{n/\ln n})$ に一致することを示した。
- 以前の近似困難性の最良結果は2であり，本研究で得られた結果は大幅な改善である。
Link: https://arxiv.org/abs/2606.20202
QMFOL：定量的単項一階述語論理テストケース生成による大規模言語モデルの推論能力ベンチマーク [cs.CL, cs.AI, cs.SE]目的：大規模言語モデルの推論能力を評価するためのベンチマーク
- 高ステークスな意思決定において，推論能力は不可欠であり，その評価手法の確立が重要である。
- 既存のベンチマークは論理的複雑さの制御が難しく，意味的多様性と論理的一貫性のバランスが課題である。
- 論理的複雑さを定量的に制御できるベンチマークを構築し，言語モデルの推論能力をより正確に評価すること。
- QMFOLは，論理的構造を自動生成し，自然言語に翻訳するフレームワークであり，論理的一貫性を保証する。
- QMFOLBenchは，多様な論理的・意味的次元を持つ2880件のインスタンスで構成されるベンチマークである。
- 論理的複雑性の増加に伴い，モデルの性能が低下し，計算コストが増加することが示された。
Link: https://arxiv.org/abs/2606.20227
再生可能エネルギーコミュニティのためのSysMLによるデジタルツインモデリング [cs.SE]目的：再生可能エネルギーコミュニティのデジタルツインモデル構築
- 再生可能エネルギーの地域分散型利用が重要性を増しており，その最適化が課題。
- 多様な機器，契約，運行データにより，再生可能エネルギーコミュニティのデジタルツイン化が困難。
- SysMLを用いたモデルベースシステムエンジニアリングによるデジタルツイン構築の第一歩。
- 産業界で検証済みの再生可能エネルギーコミュニティドメインモデルをSysMLで再表現した。
- デバイス分類とコミュニティ組織構造を表現するブロック定義図を作成した。
- SysMLのセマンティックギャップをSAREF4ENER ontologyの導入で埋める可能性を示唆した。
Link: https://arxiv.org/abs/2606.20230
知性の熱力学的尺度 [cs.AI, cond-mat.stat-mech, cs.IT, math-ph, math.IT, math.MP, nlin.AO]目的：稀有だが有効な未来の法則的な増幅
- 知性の定量化は，AI研究や認知科学において重要な課題である。普遍的な知性の定義が求められている。
- 従来の知能評価は，特定のタスクに依存し，汎用性や本質的な知性を捉えきれていない。
- 法則的な増幅という熱力学的な尺度を用いて，知性を普遍的に測定可能なものとすることを目指す。
- 知性は，受動的なダイナミクス下では起こりにくいが，ドメインの制約下では許容される結果の確率を高めるものと定義される。
- 内部シミュレーションによる稀有だが有効な未来の識別精度が高い場合，達成可能な増幅は，駆動に制限される最適値に近づく。
- 再帰的な自己シミュレーションは，知性の単なる特徴ではなく，高熱力学的な知性にとって必要かつほぼ十分な条件となる。
Link: https://arxiv.org/abs/2606.20231
Phoenix: マルチエージェントLLMによる安全なGitHub課題解決 [cs.SE, cs.MA]目的：GitHub課題のトリアージからプルリクエスト作成までの解決
- ソフトウェア開発において，課題の迅速かつ正確な解決は生産性向上に不可欠である。
- 自動化された課題解決は，誤った修正やセキュリティ上の脆弱性を引き起こすリスクを伴う。
- LLMを活用し，安全性を確保しながら自動で課題解決を行うこと。
- Phoenixは，SWE-bench Liteの24件の課題において，75%の成功率で自動解決を実現した。
- 実際のGitHub課題42件のパイロットテストでは，100%の正解率を維持し，平均122秒で解決した。
- プルリクエストの約半分は適切な修正であったが，残りはパスの誤りが認められ，プランナーのローカリゼーション改善が必要である。
Link: https://arxiv.org/abs/2606.20243
汎用活性化関数に対するシフトに基づく最適化可能な線形緩和 [cs.LG, cs.LO]目的：活性化関数に対する最適化可能な線形緩和手法
- 近年，ニューラルネットワークの利用が拡大しており，安全性・セキュリティが求められる分野でも活用が進んでいる。
- 既存の検証手法は，活性化関数ごとに手動で緩和関数を設計する必要があり，最新の関数への対応に労力がかかる。
- 本研究は，リプシッツ定数または臨界点のみを用いて，幅広い活性化関数に対応可能な緩和手法を提案する。
- 提案手法SLiRは，入力領域において健全な上限と下限を保証するシフト手順により，効率的な最適化を可能にする。
- 実験の結果，SLiRは様々な実用的な活性化関数に対して，既存手法よりも最大7.8倍多くのプロパティ検証を可能にすることが示された。
- SLiRは，既存手法と比較して，よりタイトな緩和関数を生成することが確認された。
Link: https://arxiv.org/abs/2606.20292
大規模モデル向けトークン操作による推論最適化技術 [cs.SE, cs.CL]目的：大規模モデルの推論最適化
- 大規模言語モデルの普及に伴い，低コストで安定したサービス提供が不可欠となっている。
- 現在の推論処理は，計算コストが高く，効率改善の余地が大きい。
- トークン処理に着目し，コスト削減と効率向上を目指す。
- 本研究では，マルチモデル融合，モデル最適化，計算モデル融合，計算ネットワークモデル融合の4層構造技術アーキテクチャを提案する。
- 各層における主要技術と業界動向を分析し，実務での応用価値を検討した。
- 大規模モデルサービスを「利用可能」から「運用可能」へ移行するための実践的な技術パスを示す。
Link: https://arxiv.org/abs/2606.20295
強化学習環境ファミリ開発のためのモデル駆動アプローチ [cs.SE, cs.LG]目的：強化学習環境ファミリの自動生成手法
- 現実世界での学習はコストと危険を伴うため，仮想環境での学習が重要である。
- 環境ファミリの手動開発は，労力がかかり，エラーが発生しやすく，拡張性に乏しい。
- モデル駆動アプローチにより，環境ファミリの効率的かつ自動的な生成を目指す。
- 本研究では，遺伝的アルゴリズムとモデル変換エンジンを組み合わせた環境ファミリ生成手法を提案した。
- 提案手法は，モデル変換を介して環境の変異と制約を表現し，環境ファミリを生成する。
- 山火事対策シミュレーションとカリキュラム学習において，本手法の有効性を実証した。
Link: https://arxiv.org/abs/2606.20324
ツイン幅の計算：ツリー深さと頂点完全性によるアプローチ [cs.DS, cs.CC]目的：グラフのツイン幅の計算と近似
- グラフ理論における重要なパラメータであり，一階述語モデル検査の固定パラメータ計算可能性を説明する上で中心的な役割を果たす。
- ツイン幅の計算は困難であり，ツイン幅が4以下のグラフの認識でさえNP困難である。ツイン幅自体をパラメータとする固定パラメータ近似は知られていない。
- ツリー深さと頂点完全性をパラメータとして，ツイン幅の近似と正確な計算を可能にすることを目指す。
- ツリー深さをパラメータとする近似計算が固定パラメータ時間で可能であることが示された。これにより，削除距離に依存しない新しいアプローチが確立された。
- 頂点完全性をパラメータとする正確な計算が固定パラメータ時間で可能であることが示された。これは，最適な縮約系列を計算するための最初の非自明なパラメータ化アルゴリズムである。
- 指向性ツイン幅の扱いやすさを示す最初の構築的な証拠が得られた。
Link: https://arxiv.org/abs/2606.20331
条件独立，ベイズ条件付け，パールd-分離の健全性の立方体形式化 [cs.LO, cs.PL]目的：条件独立，ベイズ条件付け，パールd-分離の健全性の形式化
- 確率的推論は，不確実性下での意思決定や知識表現において不可欠な役割を果たす。
- 従来の形式化では，ベイズ条件付けを完全にサポートするのに十分な強度がなかった。
- 立方体Agdaを用いて，ベイズ条件付けの形式化における構造的な不一致を解決することを目指す。
- 本研究では，有限分布を帰納的型として表現し，条件独立を立方体経路としてモデル化した。
- 標準的な形式化を一般化することで，ベイズ条件付けにおける構造的な不一致を解消した。
- パールd-分離定理の健全性を，任意の有限DAG上で検証し，確率モナドがマルコフ圏となることを確認した。
Link: https://arxiv.org/abs/2606.20351
AutoPass：コンパイラ性能調整のための証拠に基づくLLMエージェント [cs.RO, cs.MA, cs.CL, cs.SE, cs.AI]目的：コンパイラ性能調整のためのLLMエージェントフレームワーク
- 現代のプロセッサは複雑であり，性能を最大限に引き出すには高度なコンパイラ最適化が不可欠である。
- 従来の自動調整手法は，コンパイラの内部構造を考慮せず，性能改善が限定的である。
- LLMを活用し，コンパイラの内部状態を分析することで，より効果的な性能調整を実現する。
- AutoPassは，コンパイラと実行時の証拠を用いてLLMによる最適化決定を導くマルチエージェントフレームワークである。
- x86-64およびARM64システムにおいて，LLVM -O3と比較してそれぞれ1.043倍，1.117倍の幾何平均スピードアップを達成した。
- AutoPassは学習を必要とせず，新しいベンチマークやプラットフォームへの適用が容易である。
Link: https://arxiv.org/abs/2606.20373
畳み込みニューラルネットワークと動的Sボックス生成に基づく画像暗号化アルゴリズム [cs.CR, cs.SE]目的：画像暗号化の安全性と柔軟性向上
- デジタルコンテンツ保護の重要性が高まり，画像データの安全な扱いは不可欠である。
- 従来の暗号化方式は，固定的なSボックスの使用により，線形・差分攻撃に脆弱性を持つ場合がある。
- CNNを用いて動的にSボックスを生成することで，より高い非線形性と耐攻撃性を実現する。
- CNNを用いて学習した特徴に基づき，適応的なSボックスを生成する新しい画像暗号化方式を提案した。
- 生成されたSボックスは，従来の固定Sボックスと比較して，より高い非線形性，一意性，入力画像依存性を示す。
- エントロピー，ヒストグラム分析，相関，NPCR，UACIの結果から，本手法はより堅牢かつ柔軟であることが示された。
Link: https://arxiv.org/abs/2606.20444
A-COMPASS: マイクロデータにおける匿名性分析の形式的基礎 [cs.CR, cs.LO]目的：マイクロデータにおける匿名性分析の形式的基礎
- 情報化社会において個人情報保護は重要であり，適切なプライバシーモデルが求められている。
- プライバシーモデルの形式的検証は不十分であり，基本的なモデルにおいても検証が課題である。
- A-COMPASSを開発し，マイクロデータに対する匿名性条件の検証と匿名化処理を実現する。
- A-COMPASSは，従来のCOMPASSを修正し，マイクロデータに直接適用可能にした。
- A-COMPASSは，匿名性条件のチェックに加え，匿名化処理の実行機能も新たに提供する。
- A-COMPASSの文法と意味論を定義し，決定性と合成性といった重要な性質を証明した。
Link: https://arxiv.org/abs/2606.20492
理解を伴わないキャリブレーション：システムソフトウェアの脆弱性検出におけるLLMのファインチューニングの限界の診断 [cs.CE, cond-mat.mtrl-sci, cs.CR, cs.AI, cs.SE]目的：システムソフトウェアの脆弱性検出のためのLLMのファインチューニングの限界の診断
- ソフトウェアの脆弱性はセキュリティリスクの根源であり，その自動検出は重要である。
- LLMの脆弱性検出性能が，セキュリティに関する真の推論能力によるものか，汚染されたデータによるパターンマッチングに過ぎないか不明である。
- LLMのファインチューニングがセキュリティ推論能力を向上させるのではなく，単なる出力調整に留まることを明らかにすること。
- データ汚染はLLMの性能向上に寄与しないことが示された。汚染されたサンプルの多くは有用な情報を持ち合わせていない。
- LLMは，データセットを跨いでも一貫した誤り傾向を示す。ファインチューニングは出力閾値を変化させるだけで，根本的な判断ポリシーは変わらない。
- 脆弱性の検出と理解は分離された能力であり，現在のLLMはシステムソフトウェアの信頼できるセキュリティ推論能力を欠いている。
Link: https://arxiv.org/abs/2606.20502
リポジトリガイダンスのプローブと改良によるコーディングエージェントのチューニング [cs.SE, cs.LG]目的：コーディングエージェント向けリポジトリガイダンスの最適化
- 近年，LLMを活用したコーディングエージェントが注目を集めている。開発効率の向上が期待される。
- リポジトリに関する知識の不足が，エージェントの性能を制限している。適切なガイダンスの提供が課題。
- 合成的なバグ修正プローブを用いて，リポジトリガイダンスファイルを反復的に診断・修正する手法を提案。
- 提案手法（プローブと改良チューニング）は，SWE-bench Verifiedにおいて，初期知識ベースや無ガイダンスベースを上回る解決率を示した。
- 性能向上は，修正可能なインスタンス数の増加に起因し，パッチごとの精度はほぼ変化しなかった。
- ガイダンスの存在が，エージェントがより大きなステップ予算を有効に活用することを可能にすることが示された。
Link: https://arxiv.org/abs/2606.20512
Multi-LCB：LiveCodeBenchを複数プログラミング言語へ拡張 [cs.AI, cs.PL]目的：複数プログラミング言語におけるLLMのコード生成能力の評価
- LLMの能力評価において，現実のソフトウェア開発で必要となる多様な言語への対応が重要である。
- 既存のコード生成ベンチマークは特定の言語に限定されており，汎用的な言語対応能力の評価が困難であった。
- LLMのクロス言語コード生成能力を評価し，Python以外の言語への過学習や汚染の有無を明らかにする。
- Multi-LCBは，Pythonの課題を12言語に変換することで，LLMの言語依存性や汚染の問題を明らかにした。
- 評価の結果，LLMにPythonへの過学習や言語固有の汚染が存在することが示唆された。
- Multi-LCBは，複数言語に対応したコード評価の新たなベンチマークとして，LLMの能力を厳密に評価できる。
Link: https://arxiv.org/abs/2606.20517
キャッシュの費用対効果：クラウドからのデータ転送コストを考慮したオフライン参照と，それが有効となる転換点 [cs.DB, cs.DS]目的：クラウドからのデータ転送コストを最小化するためのオフライン参照点の提供
- クラウドストレージの利用拡大に伴い，データ転送コストが重要な課題となっている。
- 従来のキャッシュ戦略はミス率の最小化に偏っており，費用対効果を考慮していない。
- 本研究では，クラウドの実際の価格に基づいた費用対効果を最大化するキャッシュ戦略を検討する。
- オフラインで最適化されたキャッシュ戦略は，従来の戦略と比較して費用を大幅に削減できることが示された。
- LRU等の費用を考慮しない戦略と，費用を考慮したGreedyDual戦略の性能差が，データのアクセス頻度と費用によって変動することが確認された。
- データ転送コストとGETリクエストの費用との比率（s*）が，費用対効果を考慮したキャッシュが必要かどうかを判断する指標となることが明らかになった。
Link: https://arxiv.org/abs/2606.20539
ブレーン間の呼びかけ：カルツァ＝クラインタワーを重力情報チャネルとして [hep-th, cs.IT, gr-qc, hep-ph, math.IT]目的：隣接するブレーン間における重力のみによる通信の可能性
- 高次元物理学は，我々の知る宇宙の構造をより深く理解するための鍵となる。
- ブレーン宇宙論では，ブレーン間の相互作用に関する理論的な考察が不足している。
- カルツァ＝クラインタワーを情報伝達の手段として捉え，ブレーン間通信の可能性を探る。
- カルツァ＝クラインタワーは，質量を持つ重力状態のスペクトルであると同時に，通信の担い手としての役割を持つ。
- コンパクト化の形状が，KK質量，波動関数，ブレーンオーバーラップ，伝播位相を決定し，多入力多出力(MIMO)チャネル行列を定義する。
- 近傍のブレーンワールドは，重力のみを介して，我々の宇宙から微小な距離に存在し得る。
Link: https://arxiv.org/abs/2606.09969
最適なアンザッツフリーハミルトニアン学習：インシトゥでの実現 [quant-ph, cs.IT, cs.LG, math.IT]目的：アンザッツフリーハミルトニアンの学習
- 量子デバイスの較正，信号センシング，誤り訂正には，量子系の支配的なハミルトニアンの特性把握が不可欠である。
- 既存手法は，深い回路や高分解能の時間分解能を必要とし，近未来の量子実験への実装が困難である。
- 制御不要かつ補助量子ビット不要な効率的なアルゴリズムにより，インシトゥでのハミルトニアン学習の実現を目指す。
- 提案手法は，パウリ積状態の準備と測定のみを使用し，総進化時間$\Theta(\frac{\Lambda}{\epsilon^2}\log(\frac{\Lambda}{\epsilon}))$でハミルトニアンを学習する。
- 本手法の進化時間コストは，制御不要なプロトコルにおいて最適であり，その下限$\Omega(\frac{\Lambda}{\epsilon^2}\log(\frac{\Lambda}{\epsilon}))$を証明した。
- 高精度センシングや較正への応用が期待できる。較正後の局所的なハミルトニアンに対しては，SPAMノイズが存在しても同様の漸近的な進化時間を維持する。
Link: https://arxiv.org/abs/2606.19486
有限領域における関係の関数的完全性と原始正分解 [physics.soc-ph, cs.SI, nlin.AO, math.LO, cs.LO, math.RA]目的：有限領域における関係の原始正分解
- 制約充足問題やクローン理論，関係データベースなど，幅広い分野で関係の分解が重要である。
- 高次関係を効率的に二項関係へ分解する手法が確立されていなかった。
- 多値論理における関数的完全性を利用し，有限領域における関係の原始正分解を実現する。
- 本研究では，高次関係を二項関係へと分解する新しい手法を提示した。
- この構成は関数分解の確立された手法に基づき，計算効率が高い。
- 本構成により，有限領域におけるピュースの還元定理の統一的な証明と，シェファー関数のグラフが関係を全て構成することを示す。
Link: https://arxiv.org/abs/2606.19492
一般化ピンチングアンテナシステム：無線ストライプに基づく実現 [eess.SP, cs.IT, math.IT]目的：一般化ピンチングアンテナの実用的な実現手段としての無線ストライプの検討
- 無線通信技術の発展に伴い，エネルギー効率の良いアンテナシステムの需要が高まっている。
- 従来のピンチングアンテナは，誘電体導波路に依存するため，設置の柔軟性や周波数帯域に制約がある。
- 無線ストライプを用いて，柔軟な設置と幅広い周波数帯域に対応可能な低消費電力アンテナシステムを実現する。
- 提案する無線ストライプベースの一般化ピンチングアンテナフレームワークは，従来の方式と比較して消費電力を大幅に削減できる。
- 送信側においては，回路電力と送信電力のバランスを考慮したAPUの選択的アクティブ化とビームフォーミングにより，省電力化を実現する。
- 受信側においても，APUの選択的アクティブ化とユーザの送信電力制御により，効率的な通信が可能となる。
Link: https://arxiv.org/abs/2606.19715
ガウス過程のスパース化に関する最適解 [math.PR, cs.DS]目的：ガウス過程の suprema の最適スパース化
- 機械学習や統計における高次元データへの対応は重要であり，計算効率が課題となる。
- ガウス過程の計算量は次元数やデータ数に依存するため，高次元データでは計算コストが増大する。
- ガウス過程の近似計算を効率化し，高次元データへの適用を可能にすること。
- 本研究では，ガウス過程の suprema を，元の点数の指数関数的に少ない点数で近似できることを示した。
- この近似の誤差は，集合のガウス幅に依存し，次元数や元の点数に無関係である。
- この結果は，既存の結果を指数関数的に改善し，ガウス空間におけるジュタ定理や学習問題への応用を可能にする。
Link: https://arxiv.org/abs/2606.19763
ジョンエリプソイド近似における平均化を超えて：レバレッジスコアモデルの高精度アルゴリズム [math.OC, cs.DS, cs.LG]目的：対称多面体のジョンエリプソイドの計算における高精度アルゴリズムの開発
- 最適化問題において，多面体の近似は計算効率と精度の両立が求められる重要な課題である。
- 既存のレバレッジスコアアルゴリズムは，計算コストと近似精度のトレードオフが課題であった。
- ジョンエリプソイドの近似計算における各コスト（認証，識別，精度）を分離し，効率化を図る。
- 従来のアルゴリズムにおける計算複雑度のボトルネックが認証プロセスにあることを示した。
- ウォームスタートされた加速法を用いることで，条件数に依存する初期設定後，対数的に精度が向上するアルゴリズムを提案した。
- 最適面が特定されれば，ダンピングされたニュートン法により対数対数スケールでさらに高速な収束が可能となる。
Link: https://arxiv.org/abs/2606.20082
ハイブリッドTRP-UEセンシングによる標的局在化の高度化 [eess.SP, cs.IT, math.IT]目的：標的局在化精度の向上
- 通信と環境センシングを統合するISAC技術は，多様な応用展開が期待されている。
- 複雑な電波環境下では，ネットワークベースのセンシング性能に課題が残る。
- TRPとUEを組み合わせたセンシングメカニズムにより，センシング性能の向上を目指す。
- 提案手法は，3GPPに準拠したISACチャネルモデルを用いた評価により有効性が確認された。
- 特に，屋内工場のような困難な伝搬環境において，TRPセンシングとUE支援センシングの相乗効果が示された。
- 本研究は，ネットワークベースセンシングの性能向上に貢献するものと考えられる。
Link: https://arxiv.org/abs/2606.20413
量子LDPC符号の狭いフロンティアによる最適復号の近似 [quant-ph, cs.IT, math.IT]目的：量子誤り訂正の効率的な復号手法
- 量子コンピュータ実現に向け，量子情報の保護が不可欠であり，誤り訂正符号が重要な役割を果たす。
- 既存の復号アルゴリズムは計算量が膨大であり，実用的な量子コンピュータへの実装が困難である。
- 計算量を削減しつつ，高い復号性能を達成する手法を開発することで，量子誤り訂正の実用化を促進する。
- フロンティアデコーダは，表面符号やカラー符号において，最適解に近い閾値に達する性能を示した。
- 回路レベルのノイズモデルにおいて，平均保持リストサイズ100以下で最先端の性能を達成した。
- リストサイズが一定の場合，線形時間複雑度となり，低遅延実装の可能性を示唆する。
Link: https://arxiv.org/abs/2606.20513
効率的なε-近似最小エントロピー結合 [cs.IT, cs.DS, math.IT]目的：最小エントロピー結合の計算
- 情報理論や統計推論における確率分布間の関係性を理解する上で重要である。
- 最小エントロピー結合の厳密解を求めることはNP困難であり，近似アルゴリズムの性能向上が課題である。
- ε-近似最小エントロピー結合を多項式時間で計算するアルゴリズムを設計し，PTASの存在を示す。
- 本研究で提案するアルゴリズムは，定数個の確率分布に対してPTASが存在することを示した。
- アルゴリズムの実行時間は，εの関数とmの指数関数によって制限される。
- 既存手法と比較して，近似精度において改善が見られた。
Link: https://arxiv.org/abs/2509.19598
Transformerの頑健性に対する影響力誘導型コンコリックテスト [cs.SE, cs.LG]目的：Transformerモデルの頑健性を評価するためのコンコリックテスト手法
- 深層学習モデルのセキュリティ確保は重要であり，敵対的攻撃に対する耐性が求められる。
- 既存の敵対的サンプル探索手法は効率が悪く，計算コストが高い場合がある。
- 影響力分析を用いて，効率的に敵対的サンプルを発見し，Transformerモデルの脆弱性を評価する。
- 提案手法は，CIFAR-10データセットにおいて，3つのTransformerモデルで60%の成功率を達成した。
- 従来のブラックボックスアプローチと比較して，成功率が大幅に向上し，攻撃時間も短縮された。
- SHAP値に基づく経路優先順位付けにより，コンコリックテストの実用性が高まったことが示された。
Link: https://arxiv.org/abs/2509.23806
大規模言語モデルは複雑な実行経路について推論できるか？ Pythonにおける実証研究 [cs.SE]目的：Pythonにおける実行経路の推論能力の評価
- プログラム理解において，実行経路の推論は重要なステップである。テストケース生成やバグ検出に不可欠。
- 従来の記号実行は複雑なデータ構造やAPI呼び出しに弱く，特にPythonのような柔軟な言語では実用的なツールが少ない。
- AIベースのアプローチを用いて，Pythonプログラムにおける実行経路の推論可能性を検証する。
- 最先端のLLMは実行経路の推論を行い，実際のソフトウェアのテストカバレッジを向上させることが示された。
- ただし，より強力な推論能力を持つモデルが常に弱いモデルを上回るわけではないことが明らかになった。
- LLMをパス認識型コード推論の補完的なヒューリスティックとして活用する可能性が示唆された。
Link: https://arxiv.org/abs/2511.18288
SAGE：大規模言語モデルを用いたセマンティクスを考慮したゲーム回帰テスト [cs.SE]目的：ゲームの回帰テストにおける効率的なテストケース生成，維持，選択
- ゲームの品質維持には回帰テストが不可欠。頻繁なアップデートに対応する必要がある。
- テストケース作成は手動に頼る部分が多く，テストスイートの肥大化やテストの優先順位付けが困難。
- テストコスト削減とバグ検出率向上を目指し，効率的かつ適応的な回帰テストを実現する。
- SAGEは，LLMを活用した強化学習により，多様なテストケースを自動生成する。
- セマンティクスに基づく多目的最適化により，テストスイートを効率的に削減し，テスト価値を高める。
- アップデートログのセマンティック分析により，変更点に関連するテストケースを優先的に実行する。
Link: https://arxiv.org/abs/2512.00560
Triosecuris: 投機的制御フローハイジャックに対する形式検証済みの防御 [cs.CR, cs.PL]目的：投機的制御フローハイジャックに対する形式検証済みの防御機構
- 近年のSpectre攻撃は，現代的なプロセッサの脆弱性を突くため，情報セキュリティにおいて重大な脅威である。
- 従来の防御策は，多くの場合，完全な安全性を提供できず，複雑なプログラムに対する適用が困難である。
- この研究は，形式検証を通じて，より強固なセキュリティを保証する新たな防御策を開発する。
- Triosecurisは，CET様のハードウェア支援による制御フロー整合性と，コンパイラによる投機的ロード強化（SLH）を組み合わせる。
- 形式検証により，変換されたプログラムは，元のプログラムと同程度の情報漏洩しか起こさないことが証明された。
- 暗号化定数時間プログラミングの規律に従わない任意のプログラムに対しても，このセキュリティ保証が適用される。
Link: https://arxiv.org/abs/2601.22978
PCBSchemaGen：プリント基板回路図設計のための報酬誘導型LLMコード合成と構造化検証 [cs.AI, cs.LG, cs.SE]目的：プリント基板回路図の検証可能な生成
- 電子機器設計において，回路図の正確性は不可欠であり，設計効率と信頼性に直結する。
- 従来のLLMコード合成の評価指標であるユニットテストは，プリント基板回路図設計には適用できない。
- 実ICパッケージやピン配置の物理的制約を考慮した回路図の自動生成と検証を目指す。
- 提案手法PCBSchemaGenは，LLMを活用し，検証可能なプリント基板回路図を生成するフレームワークである。
- 31Bのオープンウェイトモデル(Gemma-4-31B)を用いた評価では，PCBBenchタスクの81.3%をパスした。
- このフレームワークは，検証器や知識グラフライブラリ，プロンプトを固定した状態で，異なるベンチマークへの転移が可能である。
Link: https://arxiv.org/abs/2602.00510
採点精度を超えて：TAとLLMの評価の一致度調査 [cs.CY, cs.SE]目的：TAとLLMのUMLクラス図採点における評価一致度
- 教育の質向上には，効果的かつ効率的な評価手法が不可欠である。
- 自動採点システムの評価は，全体的な精度だけでなく，評価基準ごとの詳細な分析が不足している。
- オープンソースLLMを活用し，TAの評価との一致度を検証することで，自動採点の信頼性向上を目指す。
- 提案手法により，個別の評価基準におけるLLMの採点精度は最大88.56%を達成した。
- TAの評価とLLMの評価の間には，最大0.78のピアソン相関係数が確認された。
- 本研究は，オープンソースLLMがUMLクラス図採点においてTAの支援ツールとして有効であることを示唆する。
Link: https://arxiv.org/abs/2603.16357
FM-Agent：LLMに基づくHoare論理的推論による大規模システムへの形式手法の拡張 [eess.SY, cs.RO, cs.SY, cs.SE, cs.AI]目的：大規模システムに対する形式手法の適用可能性向上
- ソフトウェアの規模拡大に伴い，コードの信頼性確保が重要課題となっている。
- 大規模コードの複雑性から，形式手法による検証作業が困難である。
- LLMを活用し，関数レベルの仕様を自動生成することで，検証の負担を軽減する。
- FM-Agentは，LLMを用いて関数呼び出し元から期待される動作に基づいて仕様を自動生成する。
- 自然言語による仕様記述に対応することで，既存の検証器の限界を克服する。
- 大規模システム（最大143k LoC）において，開発者によるテストで発見されなかった522個のバグを検出した。
Link: https://arxiv.org/abs/2604.11556
情報理論と統計的学習 [cs.IT, eess.SP, math.IT, stat.ML]目的：情報理論と統計的学習の交差
- 機械学習の性能向上には，情報理論的視点が不可欠である。
- モデル学習における理論的な限界が十分に解明されていない。
- モデル学習における収束の原理を情報理論的に考察する。
- 本研究は，線形回帰や拡散モデルなど，多様なモデルにおいて，ダイバージェンス測度の役割を明確にする。
- エビデンス下限(ELBO)，f-ダイバージェンス，フィッシャーダイバージェンスを紹介し，理論的基盤を提供する。
- 特に，生成拡散モデルの導出をより体系的に行うことで，既存研究の理解を深める。
Link: https://arxiv.org/abs/2605.02989
ニューラルネットワークのファジー論理式としての表現 [cs.LO]目的：ニューラルネットワークの表現力に関するファジー論理的特徴付け
- 現代AIの基盤であり，多様な機械学習モデルの根幹をなすため。
- 単純なニューラルネットワークの論理的特徴付けが十分に進んでいない。
- ニューラルネットワークの機能をファジー論理を用いて形式的に記述する。
- ReLU活性化関数を持つニューラルネットワークをRational Pavelka論理で特徴付けた。
- Rational Pavelka論理の拡張であるRPL(⊙)≤1も用いて特徴付けを行った。
- ReLU関数を許容した一般化多項式環についてもファジー論理による特徴付けを示した。
Link: https://arxiv.org/abs/2605.03064
自動証明検証のための準形式化 [cs.LO, cs.LG]目的：困難な数学的推論におけるAIシステムの訓練と評価におけるボトルネックである証明の信頼性向上
- 数学的推論におけるAIの性能評価において，証明の検証は不可欠である。厳密な検証方法が求められている。
- 既存の自然言語による証明は曖昧でモジュール性が低く，形式言語への変換が困難である。
- 自然言語の柔軟性を保ちつつ，形式的な証明の厳密性とモジュール性を実現する準形式化手法を提案する。
- 提案手法「準形式化（PF）」と「ブロック検証（BV）」は，オリンピック数学および研究レベルの数学のベンチマークにおいて，LLMによる判断ベースラインを凌駕する性能を示した。
- 特に，誤り検出の精度と再現率において，優れた結果が得られた。
- 研究レベルの証明検証ベンチマーク「ArxivMathGradingBench」を公開し，今後の研究を支援する。
Link: https://arxiv.org/abs/2605.20531
世界最速のマッチングエンジンアルゴリズム [cs.DC, cs.DB, cs.DS, cs.PF]目的：高頻度取引における注文処理の高速化
- 金融市場の効率性は，注文処理速度に大きく依存する。迅速なマッチングは，市場の流動性と価格発見に不可欠である。
- 従来の注文簿の実装は，ポインタ参照や木構造探索のコストが高く，レイテンシのボトルネックとなっている。
- 既存のデータ構造の非効率性を解消し，注文処理のレイテンシとスループットを向上させる。
- シングルコアCPUにおいて，毎秒3200万件の注文メッセージをマイクロ秒以下のレイテンシで処理することに成功した。
- 96コアの汎用サーバーでは，10,000のシンボルに対して毎秒約6億4000万件のメッセージを処理し，アメリカの統合相場情報フィードの処理能力を20倍以上超えた。
- Priority-Indicated Node（PIN）や近傍認識型挿入・削除アルゴリズムにより，従来のデータ構造のオーバーヘッドを削減し，高性能を実現した。
Link: https://arxiv.org/abs/2606.01183
テンソル代数特性スケルトン：AIコンパイラの特性ベーステストの強化 [cs.CL, eess.AS, cs.SE]目的：AIコンパイラに対する特性ベーステストの強化
- 深層学習の普及に伴い，AIコンパイラの最適化と検証の重要性が増している。
- 既存のファジングテストでは，代数的な不変量の維持という観点で，意味的なずれを捉えきれない。
- テンソル代数に基づいた実行可能な特性ベーステストを効率的に構築し，AIコンパイラの信頼性を高める。
- Propilotは，テンソル代数知識を再利用可能な特性スケルトンとして表現することで，テスト生成の効率と精度を向上させた。
- 生成されたテストの冗長性を49%削減し，無効なテストを排除することで，より効果的なテストスイートを実現した。
- TVMを用いた評価により，Propilotが意味的エラーや数値的な差異を発見できることを示した。
Link: https://arxiv.org/abs/2606.06747
インデックス付きベルマン情報複雑性 [cs.RO, cs.LG, cond-mat.stat-mech, cs.IT, math.IT, math.OC, math.ST, stat.TH]目的：対話的意思決定における情報指標と参照履歴を中心とした表現レベルの理論
- 意思決定問題において，効率的な情報利用は重要であり，最適な行動選択に不可欠である。
- 既存の手法では，問題固有の構文に依存し，汎用的な情報量評価が困難であった。
- 動的計画法と情報会計に必要な要素のみを残し，統一的な理論的枠組みを構築すること。
- インデックス付きベルマン情報複雑性は，UCB，E2D/DEC，AMS/EBOなどの既存手法を同一の理論的枠組みで説明できる。
- 下限においては，事後参照軌跡が情報望遠鏡とゴーストquantileを提供し，有効次元スケールでの限界を示す。
- DECは，インデックス付きベルマン情報複雑性の1段階緩和と捉えることが適切であり，普遍的にタイトな変換機構ではない。
Link: https://arxiv.org/abs/2606.11171
FastContext：コーディングエージェント向け効率的なリポジトリ探索手法 [cs.SE]目的：コーディングエージェントにおけるリポジトリ探索の効率化
- ソフトウェア開発において，コードの検索・理解は重要な課題である。
- LLMエージェントはリポジトリ探索に多くのトークンを消費し，無関係なコードでコンテキストが汚染されやすい。
- リポジトリ探索と問題解決を分離し，専用モデルで効率化を図る。
- FastContextは，リポジトリ探索に特化したサブエージェントであり，効率的な探索を実現する。
- SWE-bench Multilingual, Pro, SWE-QAにおいて，Mini-SWE-AgentにFastContextを組み込むことで，解決率が最大5.5%向上した。
- エージェントのトークン消費量は最大60%削減され，わずかなオーバーヘッドで済んだ。
Link: https://arxiv.org/abs/2606.14066
マイクロサービスアーキテクチャにおける組織的結束：複数プロジェクトによる実証研究 [cs.SE]目的：マイクロサービスエコシステムにおける組織的結束の概念とその測定方法
- マイクロサービスアーキテクチャの普及に伴い，開発組織とソフトウェアモジュール間の整合性が重要になっている。
- 従来の技術的特性の分析が中心で，開発者の活動とサービス境界の関係性が十分に解明されていない。
- 開発者の貢献状況から組織的結束を定量的に評価し，マイクロサービス開発の構造を分析する。
- マイクロサービスにおいて，コアサービスと周辺サービスの間で組織的結束に系統的な違いが確認された。
- ペアワイズチーム結束（PTC）と平均組織結合（AOC）は，プロジェクト間で弱い相関しか示さなかった。
- 組織レベルでの「高い結束，低い結合」原則を拡張し，マイクロサービス開発の社会技術的構造の評価に貢献する。
Link: https://arxiv.org/abs/2606.16725
公平なオンライン資源配分 [cs.DS, cs.GT, cs.LG, math.OC]目的：公平性制約下における資源配分問題の最適化
- 難民の再定住や航空機のスケジュールなど，資源配分は社会にとって重要な課題である。
- 従来の資源配分では，公平性が無視され，類似した状況の個人の間で不公平が生じる可能性がある。
- 本研究は，公平性と全体の厚生を両立する資源配分アルゴリズムを開発し，そのトレードオフを明らかにする。
- 提案アルゴリズムは，最適なオフライン流体ベンチマークに対して亜線形な後悔を達成することが示された。
- 最適な公平な配分値は，最適な不公平な配分値の少なくとも $\Omega(1/\gamma)$ 倍であることが証明された。
- 難民経済プログラムからの現実世界のデータを用いた検証により，アルゴリズムの性能と厚生最大化と公平性施行のトレードオフが実証された。
Link: https://arxiv.org/abs/2606.18679
ESBMC-GraphPLC：SMTベースモデル検査によるグラフィカルPLCopen XMLラダー図プログラムの形式検証 [cs.PL, cs.CL]目的：グラフィカルPLCopen XMLラダー図プログラムの形式検証
- 産業用制御システムの信頼性確保が重要であり，形式検証はその手段の一つである。
- 従来のPLC検証ツールは，グラフィカルなラダー図の解析に課題があり，不完全な検証結果となる場合があった。
- グラフィカルラダー図を正確に解析し，形式検証を可能にすることで，制御システムの安全性向上を目指す。
- ESBMC-GraphPLCは，グラフィカルラダー図をDFSベースで解析するresolverを実装した。
- resolverは，ラダー図の接続グラフを辿り，真偽値の論理積として表現することで，中間表現(IR)を生成する。
- 3つのグラフィカルLDプログラムで検証した結果，全てのプログラムが完全なIRを生成し，SAFE条件を満たすことが確認された。
Link: https://arxiv.org/abs/2606.18941
カスケードアキュムレータを用いた時間指数加重和の効率的計算 [eess.SP, cs.DS, cs.NA, math.NA]目的：時間指数加重和の効率的計算
- 信号処理やデータ分析において，加重和は基本的な演算であり，その効率性は重要である。
- 大規模なデータセットに対して，従来の直接計算は計算コストが高く，実用的ではない。
- アキュムレータの特性を活用し，メモリ使用量を削減し，計算コストを低減することを目指す。
- 提案手法は，従来の直接計算と比較して，乗算回数を大幅に削減できる。
- 大規模データやリアルタイム処理において，効率的な実装が可能となる。
- メモリ使用量を抑えつつ，時間指数加重和を高速に計算できる。
Link: https://arxiv.org/abs/2509.15069
量子代数多様性：群構造化測定による単一コピー密度行列推定 [quant-ph, cs.IT, eess.SP, math.IT]目的：単一コピーの量子状態に対する群構造化正演算子値測度(POVM)を用いた密度行列推定
- 量子情報理論は，量子コンピュータや量子通信といった次世代技術の基盤であり，その発展は重要である。
- 量子状態の完全な再構成には多大な測定が必要であり，効率的な推定手法が求められている。
- 群構造化測定を用いることで，少ない測定回数で高精度な密度行列推定を目指す。
- 量子代数多様性(QAD)の定理により，群平均された密度行列推定子は真の密度行列の固有基底と固有値の順序を追跡することが示された。
- 古典的共分散推定と量子状態トモグラフィの間の古典-量子双対写像，および古典的群最適性の量子設定への伝播が確立された。
- シフトされたアダマール基盤(SIC-POVM)と相互に偏った基底は，それぞれハイゼンベルク・ワイル群とクリフォード群における代数多様性であることが示された。
Link: https://arxiv.org/abs/2604.03725