arXiv雑要約
プログラム - 2026/04/21 公開
OFDM-ISACセルフリーMassive MIMOネットワークにおける同時検出と速度推定 [eess.SP, cs.IT, math.IT]目的:OFDMベースの統合センシング・通信(ISAC)におけるドップラーを考慮したセンシングフレームワーク
- セルフリーMassive MIMOは,通信とセンシングを同時に行うことで,ネットワーク性能の向上に貢献する。
- 従来のセンシング手法では,移動体の速度変化によるドップラーシフトの正確な処理が課題であった。
- 分散型アクセスポイント(AP)間の3D二方向ドップラー幾何学を考慮し,高精度な速度推定を実現する。
- 提案手法では,ユーザーとターゲットを中心にAPを関連付けることで,スケーラビリティ問題を解決している。
- 粒子群最適化(PSO)を用いた検出器が,精度と複雑さのバランスに優れていることがシミュレーションで示された。
- ドップラーミスマッチは,高移動度シナリオにおいてセンシングSNRを大幅に低下させる可能性がある。
OFDMおよびAFDMシステムにおける候補ランキングによる低複雑度トーン注入法 [eess.SP, cs.IT, math.IT]目的:OFDMおよびAFDMシステムにおけるPAPR低減のためのトーン注入法
- 無線通信において,PAPR(ピーク対平均電力比)の低減は,電力増幅器の効率向上に不可欠である。
- 既存のトーン注入法は,ランダムな候補生成やクリッピングノイズスペクトルに依存し,PAPR低減性能に限界がある。
- 時間領域の局所ピークを考慮した候補ランキングにより,PAPR低減性能を向上させ,複雑さを抑えることを目指す。
- 提案手法は,既存のトーン注入法と同程度の複雑度で,1dB以上のPAPRゲインを達成することを示した。
- サブキャリア数の変化や,1イテレーションあたりの計算量制限下でも,一貫したPAPRゲインが得られた。
- OFDMとAFDMの両システムにおいて,性能と複雑さのトレードオフの点で優れていることが確認された。
ブロック符号化としてのプログラミング抽象化:Eclipse Qrisp ブロック符号化インターフェース [quant-ph, cs.ET, cs.LG, cs.MS, cs.PL]目的:ブロック符号化インターフェースの提供
- 量子アルゴリズムの発展には,非ユニタリ演算を効率的に実装する技術が不可欠である。
- ブロック符号化の実装は理論的には強力だが,コンパイル可能な実装を生成することが困難である。
- Eclipse Qrispフレームワークにおけるブロック符号化インターフェースを通じて,その実装を容易にすること。
- Eclipse Qrispフレームワーク内にブロック符号化インターフェースを実装し,高レベルなプログラミング抽象化を提供した。
- インターフェースは,ブロック符号化の構築や量子ビット化といった概念を抽象化し,CKSアルゴリズムへの統合を可能にする。
- このインターフェースにより,高度な量子アルゴリズムの実装とリソース見積もりが簡素化されることを示した。
BBP転移と不均一ノイズを持つ棘状ウィグナーモデルの主要固有ベクトル [cond-mat.dis-nn, cs.IT, math.IT, math.ST, stat.TH]目的:棘状ウィグナーモデルのスペクトル特性
- 高次元推論の基礎モデルであり,統計物理学や機械学習に応用がある。
- ノイズの分布が不均一な場合,信号検出の閾値が不明確である。
- 不均一ノイズ下でのBBP転移線を特定し,信号検出可能性を評価する。
- BBP転移線はスペクトルエッジ,外れ値固有値,およびその固有ベクトルの成分分布を決定する。
- ノイズ分散が truncated power-law 分布に従う場合,BBP転移線は非単調となることが示された。
- 不均一ノイズが信号検出可能性を向上させる可能性が明らかになった。
オフライン確率的マッチングのための新しい順序付き競合解決スキームによる保証の改善 [cs.DM, math.CO, cs.DS, cs.DM]目的:オフライン確率的マッチングにおける近似アルゴリズムの性能向上
- マッチング問題は,幅広い分野で基本的な問題であり,現実世界への応用が期待される。
- 入力の不確実性に対応するため確率的マッチングが研究されているが,近似率の改善が課題である。
- 頂点ごとの忍耐制約下におけるマッチングの近似率向上を目指す。
- 一般的なグラフにおける忍耐制約付き確率的マッチングに対し,忍耐度が2以上の場合,0.382近似アルゴリズムを提案した。
- 忍耐制約がない場合,エッジ到着順序でのランダムな探索アルゴリズムにおいて0.432の近似率を達成した。
- 二部グラフにおいて,片方のパーティションに忍耐制約が1の場合,0.632近似アルゴリズムを導出した。
結合クエリにおける集約への直接アクセス [cs.DB, cs.DS, cs.LO]目的:グループ化と集約を含む結合クエリのファイングレイン複雑性
- データベースの効率的なクエリ処理は,情報システムの性能を大きく左右する重要な課題である。
- 結合クエリに集約を加えた場合,回答の数が入力サイズに対して指数関数的に増加し,効率的な処理が困難になる。
- 集約クエリに対して,対数時間で回答に直接アクセスできるデータ構造の構築を目指す。
- 一般的な集約関数(min,max,count,sumなど)を用いることで,クエリを適切な可換半環で注釈付けされたデータベース上の結合クエリとして表現できる。
- 注釈自体が辞書順序に関与しない場合,既存の結果は注釈付きデータベースにおいても有効であることが示された。
- count-distinct集約に対する実現可能性条件を新たに確立し,集約値と注釈値を辞書順序に含めた場合の複雑度変化を分析した。
並列k-中心クラスタリングについて [cs.DS]目的:並列環境下におけるk-中心問題の近似解法
- k-中心問題はクラスタリングの基本的な問題であり,様々な分野で利用されている。
- 従来の並列アルゴリズムは大規模なクラスタ数に対してメモリ使用量が大きくなるという課題があった。
- 本研究では,低ローカル空間モデルにおいて,大規模なクラスタ数に対しても効率的な並列アルゴリズムを開発する。
- 本研究では,Bateniらのアルゴリズムを拡張し,O(log log n)ラウンドでk-中心問題に対するO(log*n)-近似解を提供する。
- 提案手法は,各マシンあたりO(n^δ)のローカル空間を使用し,効率的な並列処理を実現する。
- 本手法は,大規模なクラスタ数に対してもスケーラブルであり,実用的な応用が期待できる。
多搬送波変調:時間周波数領域から遅延ドップラー領域への進化 [cs.IT, eess.SP, math.IT]目的:直交遅延ドップラー分割多重化(ODDM)変調の検討
- 無線通信技術において,データ伝送効率と信頼性の向上が常に求められている。
- 従来の多搬送波変調は,時間変動チャネルにおいて性能劣化が生じることが課題である。
- 遅延ドップラー領域での多搬送波変調により,時間変動チャネルにおける性能改善を目指す。
- 提案手法ODDMは,遅延ドップラー領域における直交パルスを利用し,効率的な多重化を実現する。
- 時間周波数領域における従来の設計指針を緩和し,帯域制約下での柔軟な変調設計を可能にする。
- 高遅延・高ドップラーシフト環境や,センシングと通信を統合した次世代システムへの応用が期待される。
立方型理論における境界充填の自動化 [cs.LO]目的:立方型理論における境界充填問題の自動化手法の開発
- 型理論は,プログラムの正当性証明に役立ち,信頼性の高いソフトウェア開発に不可欠である。
- 立方型理論は,高次元構造を扱う上で複雑な計算を伴い,自動化が困難である。
- 本研究は,高次元構造の等式証明を自動化するための簡潔な立方型言語とソルバーを開発することを目指す。
- 本研究では,立方体を指定された境界に適合させる「歪み解消」と,複数の立方体を貼り合わせる「Kan解消」という2つの自動化問題を定義した。
- DedekindおよびDe Morgan歪み理論という複雑な歪み理論に対し,順序集合写像を用いた歪み解消ソルバーを実装した。
- 制約充足プログラミングを用いることで,Kan解消問題を歪み理論に依存せずに解決する手法を開発し,実用的な例において有効性を示した。
2020年アメリカ国勢調査は,あなたが考えるよりもプライバシーが保護されている [cs.CR, cs.DS, stat.AP, stat.ML]目的:2020年アメリカ国勢調査におけるプライバシー保護の程度評価
- 国勢調査は,連邦政府の資金配分や選挙区割りなど,重要な政策決定の基盤となるため,その信頼性が重要である。
- プライバシー保護とデータ有用性の両立が課題であり,個人情報の漏洩リスクを抑えつつ,正確な統計データを提供する必要がある。
- 本研究は,2020年国勢調査のプライバシー保護がどの程度機能しているかを詳細に分析し,改善の可能性を検討する。
- 2020年アメリカ国勢調査は,公式に発表されているプライバシー保証よりも,実際には強いプライバシー保護を提供していることが示された。
- 国勢調査局がプライバシー保護のために導入したノイズのレベルは,実際よりも高く設定されていた可能性があり,その結果,統計データの精度が低下していたと考えられる。
- ノイズレベルを15.08%~24.82%削減することで,プライバシー保護を維持しつつ,統計データの精度を向上させることができる。
古典変数を含む実用的な量子ホアロジック,I [cs.PL, cs.LO, quant-ph]目的:古典変数を含む量子プログラムの検証
- 量子コンピューティングの信頼性確保が重要であり,プログラムの検証技術が不可欠である。
- 既存の量子ホアロジックでは,古典変数や量子配列の扱いに限界があった。
- 古典変数を含む量子プログラムを,より直感的かつ効率的に検証する手法を確立する。
- 本研究では,量子配列やパラメータ化された量子ゲートを含むプログラムに対応可能なホアロジックを提案した。
- 古典論理と量子述語を組み合わせた直感的なプログラム仕様により,検証の明確性を高めた。
- 量子測定に関する新たな推論規則により,古典ホアロジックからの移行を容易にし,既存のツールを量子プログラム検証に適用しやすくした。
短い区間グラフと二重カウント区間グラフのオンライン彩色 [cs.DS, math.CO]目的:σ-区間グラフと二重カウント区間グラフのオンライン彩色における競合比の限界
- グラフ彩色問題は,計算機科学やオペレーションズ・リサーチにおける重要な問題であり,様々な応用分野が存在する。
- オンライン彩色問題は,グラフの構造が事前に分からない状況下で彩色を行うため,より困難である。
- σ-区間グラフと二重カウント区間グラフにおけるオンライン彩色アルゴリズムの性能限界を明らかにすること。
- σ-区間グラフに対し,競合比3未満のオンライン彩色アルゴリズムが存在しないσの値が存在する。
- 二重カウント区間グラフに対し,区間表現が未知の場合,競合比2.5未満のオンライン彩色アルゴリズムが存在しない。
- 二重カウント区間グラフに対し,区間表現が既知の場合,競合比2未満のオンライン彩色アルゴリズムが存在しない。
XOXO:AIコーディングアシスタントに対する巧妙なクロスオリジンコンテキストポイズニング攻撃 [cs.CR, cs.LG, cs.SE]目的:AIコーディングアシスタントに対するクロスオリジンコンテキストポイズニング攻撃
- AIコーディングアシスタントの利用拡大に伴い,コード生成におけるセキュリティリスクの重要性が高まっている。
- 自動コンテキスト収集機能は,悪意のあるコード変更による脆弱性を生み出す可能性があり,検知が困難である。
- 本研究は,既存の解析技術では検出困難な,意味的に等価な攻撃を可能にする脆弱性を明らかにし,対策を模索する。
- 提案手法XOXOは,わずかなコード変更でAIアシスタントの出力を操作し,脆弱なコード生成やエラー導入を可能にする。
- GCGSアルゴリズムは,Cayleyグラフを用いて効率的に攻撃空間を探索し,GPT-4.1やClaude 3.5 Sonnet v2を含む11モデルで平均75.72%の攻撃成功率を達成した。
- 敵対的ファインチューニングなどの既存防御策は,本攻撃に対して効果がないことが示され,新たなセキュリティ対策の必要性が浮き彫りになった。
一意な固定点のための超マルチンゲール:下界検証への統一的アプローチ [eess.SY, cs.SY, cs.LO]目的:確率的プログラムの定量的な性質に関する下界検証
- 確率的プログラムの検証は,信頼性の高いソフトウェア開発において不可欠である。
- 定量的な性質の下界検証は,既存の手法では困難な場合が多い。
- 固定点の唯一性を活用し,下界検証をより効率的に行うことを目指す。
- 提案手法は,固定点の唯一性とプログラムの停止性の間の関係を拡張し,下界検証に利用する。
- ランキング超マルチンゲールの一般化が,固定点の唯一性の証明に役立つ。
- 停止確率,最弱事前期待値など,様々な定量的な性質に対して適用可能な統一的な原理を提供する。
LLMを用いたCからより安全なRustへの変換:生ポインタの書き換え [cs.SE, cs.AI, cs.PL]目的:Cコードから生成されたRustプログラムにおける生ポインタの除去
- Rustはメモリ安全性を重視しており,Cコードの移植先として注目されている。
- 既存のCからRustへの変換ツールは,生ポインタを多用し,Rustの安全性を損なう場合がある。
- LLMを活用し,生ポインタを適切なRustのデータ構造に置き換えることで,安全性を向上させる。
- PR2は,28のCプロジェクトにおいて,ローカルな生ポインタの約18.57%を効果的に除去した。
- 決定木に基づいたプロンプトとコード変更分析により,書き換え時のエラーを修正し,コンパイルとテストの成功率を高めた。
- 1プロジェクトの変換には平均5.02時間,費用は1.13ドルであった。
意味と感度:長文コード推論における意味的想起の影響 [cs.CL, cs.LG, cs.SE]目的:長文コード推論における意味的想起の影響
- 大規模コードベース理解は重要性が増しており,LLMの活用が期待される。
- LLMがコードの意味を理解しているのか,パターンマッチングに頼っているのかが不明である。
- 長文コードにおける意味的想起の低下とその原因を明らかにすること。
- 最先端LLMは,ほぼ完璧な字句的想起能力を持つ一方,意味的想起能力はコードの位置に大きく依存して低下する。
- 既存のコード理解ベンチマークは,パターンマッチングの抜け道を利用している可能性が高い。
- 新しいタスクSemTraceは,予測不可能な操作により高い意味的想起感度を実現し,LLMの精度がコードの位置によって大きく変動することを示した。
ReGA:LLMの表現誘導抽象化によるモデルベースの安全対策 [cs.CL, cs.CR, cs.AI, cs.LG, cs.SE]目的:大規模言語モデル(LLM)の安全性を確保するためのモデルベース分析手法
- LLMは様々なタスクで成功を収める一方,安全性への懸念が高まっている。
- LLMの巨大な特徴空間のため,モデルベース分析のスケーラビリティが課題である。
- LLMの安全性を高めるための,スケーラブルなモデルベース分析フレームワークの提供。
- ReGAは,安全に関わる低次元表現を活用することで,抽象モデル作成時のスケーラビリティ問題を軽減する。
- プロンプトレベル,会話レベルともに高い識別性能を示し(AUROC 0.975, 0.985),実世界の攻撃に対する堅牢性も確認された。
- 解釈性とスケーラビリティの点で既存手法を上回り,AI安全のための新たなパラダイムへの道を開く。
プログラミング言語間の壁を超えて:検索拡張コード生成におけるクロスリンガルな研究 [cs.SE]目的:クロスリンガル検索拡張コード生成におけるコード知識の転移
- 現代のソフトウェア開発において,異なるプログラミング言語間のコード移行と再利用は不可欠である。
- 既存の研究では,単一言語での検索拡張コード生成に焦点が当てられており,クロスリンガルな効果は十分に検討されていない。
- 異なるプログラミング言語間での知識転移の可能性を探り,効果的なクロスリンガル検索拡張コード生成システムの設計を支援する。
- クロスリンガル検索拡張コード生成における知識転移は,単純な直接注入でも容易ではないことが明らかになった。
- 言語間の親和性やLLMの事前学習データの多様性によって,知識転移の効率が大きく左右される。
- コード特化型検索器を備えた場合,コードに含まれる自然言語情報の利用は限定的である。
最小十分集合:有効性,堅牢性,および計算 [cs.CL, cs.HC, cs.FL, cs.DS, math.CO]目的:反復文字列の本質情報を捉える組合せ対象である十分集合の最小サイズ
- 文字列処理において,文字列の反復性を定量的に評価する指標の重要性が認識されている。
- 既存の反復性指標では,計算効率や表現力に課題が残されている場合がある。
- 文字列の反復性をより効率的に,かつ正確に捉える新しい指標の確立を目指す。
- 最小十分集合のサイズχは,文字列への文字の付加や接頭辞の付加によって高々2しか増加しないことが示された。
- 文字列の反転によるχの増加量は最大でO(n)となるものの,χ(T)/χ(T^R)≤2が常に成立することが証明された。
- χは,Burrows-Wheeler変換におけるrunの数rに対してχ = O(r)の関係が示され,他の反復性指標との比較も行われた。
逆問題,パラメータ推定,およびドメイン汎化について [cs.CL, cs.IT, cs.LG, math.IT]目的:逆問題におけるパラメータ推定の理論的分析フレームワーク
- 現実世界のデータサイエンス応用において,信号復元と逆問題は不可欠である。
- 現代の生成モデルによる逆処理が必ずしもパラメータ推定を改善するとは限らない。
- ドメイン汎化を強化する現在の試みの脆弱性を明らかにする。
- 理論的知見は情報理論的なデータ処理不等式と一致しており,逆処理が必ずしもパラメータ推定を改善するわけではないことを示唆する。
- 「二重の意味の定理」と名付けた,ドメインシフト問題と離散パラメータ推定の関係を明らかにした。
- 画像鮮明化や医用画像のスプーキュル抑制の実験により,理論的発見を裏付けた。
条件付きサンプルを用いた分布の精密なシミュレーション [cs.DS]目的:分布シミュレーションのアルゴリズム
- 確率モデルは,機械学習や統計物理など幅広い分野で基礎となる。
- 既存手法では,シミュレーションの精度と計算コストのバランスが課題。
- 効率的な分布シミュレーション手法の開発による精度向上。
- 本アルゴリズムは,従来の$\tilde{O}(\log^3 N / \varepsilon^2)$から改善された$O(\log^2 N / \varepsilon^2)$のサンプル複雑度を達成。
- シミュレーションされた分布は, Kullback-Leibler divergenceにおいて$O(\varepsilon^2)$-近いことが示された。
- 提案手法は,個々の要素の質量推定においても最適性を持つ。
MetaLint:コードリンティングにおける容易から困難への汎化 [cs.RO, cs.SE, cs.CL, cs.LG]目的:コードリンティングの汎化性能向上
- コードの品質維持はソフトウェア開発において不可欠であり,自動リンティングはその重要な役割を担う。
- 既存のリンティングモデルは,学習データにないコーディング規約への対応が困難である。
- 自然言語による仕様に基づいた評価により,未知の規約にも対応可能なリンティング手法を確立する。
- MetaLintは,コードリンティングを指示追従タスクとして捉え,自然言語による規約に基づいてコードを評価する。
- 合成データのみで学習しても,自動リンターでは対応できない高度な規約への汎化が可能であることが示された。
- Qwen3-4Bは,Fスコアを2.7倍に向上させ,大規模モデルに匹敵する性能を達成した。
EyeMulator:人間の視覚的注意を模倣することによるコード言語モデルの改善 [cs.SE, cs.AI, cs.HC]目的:コード言語モデルの注意機構と人間の視覚的注意の整合性向上
- コード理解において,人間の視覚的注意は重要な役割を果たす。効率的なコード解析に不可欠である。
- 既存のコード言語モデルは統計的相関のみに基づいており,人間の注意パターンを反映していない。
- 人間の視覚的注意を模倣することで,コード言語モデルの性能向上を目指す。
- EyeMulatorは,StarCoder,Llama-3.2,DeepSeek-Coderにおいて,ベースラインモデルを大幅に上回る性能を示した。
- 翻訳タスクではCodeBLEUが30ポイント以上,要約タスクではBERTScoreが最大22ポイント向上した。
- この性能向上は,人間の注意動態の再現に起因することが,消去実験によって確認された。
偏波を考慮した単一のリッドベリウム原子受波器によるDoA検出 [cs.IT, math.IT]目的:偏波を意識した到来方向(DoA)検出方式
- 電磁波の偏波特性は,通信やレーダー技術において重要な役割を果たす。
- 従来のDoA検出は,空間的多様性や位相参照が必要であり,システムが複雑化しやすい。
- 単一の受波器で高精度なDoA検出を実現し,システムを簡素化することを目指す。
- 本研究では,単一のリッドベリウム原子気体セルを用いて,電磁波の偏波情報を高精度に検出する方式を提案した。
- 電気双極子遷移と磁気双極子共鳴を利用することで,偏波と向きの同時推定が可能となる。
- シミュレーションの結果,適切なパラメータ設定により,0.1°以下の角度分解能が期待できることが示された。
TEEコンテナにおける信頼境界の脆弱性に関する実証的調査 [cs.CR, cs.SE]目的:TEEコンテナの信頼境界における脆弱性の特性
- 機密コンピューティングの重要性が増しており,TEEはその基盤技術として注目されている
- 既存のコンテナ技術では,OSやオーケストレーション層からの攻撃リスクが残存する
- TEEコンテナの攻撃対象領域を明らかにし,より安全なコンテナソリューションの構築に貢献する
- 本研究により,既存のTEEコンテナに存在する根本的な欠陥と,それらを悪用可能な脆弱性が明らかになった
- 具体的には,コード実行,DoS攻撃,情報漏洩などの攻撃ベクトルを6つ,新たなバグを12個特定し,CVEを3つ報告した
- これらの発見は,TEEコンテナの過小評価されていた攻撃対象領域に対する新たな知見を提供する
RefineStat:確率的プログラム合成における効率的な探索 [cs.LG, cs.PL]目的:確率的プログラム合成のための効率的な探索手法
- 不確実性のモデリングに有用な確率的プログラミングの分野において,効率的なモデル探索は重要な課題である。
- 小規模言語モデルによる確率的プログラム生成では,構文的・意味的エラーが頻発し,信頼性の高いプログラムを得ることが困難である。
- 確率的プログラミングの専門家の知識に着想を得て,RefineStatは意味的制約と診断に基づいた改良によって,より信頼性の高いプログラム生成を目指す。
- RefineStatは,合成されたプログラムが有効な分布と適切なパラメータを持つことを保証する意味的制約を適用する。
- 信頼性チェックに失敗した場合,事前分布または尤度成分を再サンプリングすることで診断に基づいた改良を行う。
- 実験の結果,RefineStatは構文的に正しく,統計的にも信頼性の高いプログラムを生成し,大規模言語モデルと同等またはそれ以上の性能を示す。
リドバーグ原子量子受信機のためのチャネル推定:ホログラフィックスナップショットからの展開位相復元 [cs.IT, math.IT]目的:リドバーグ原子量子受信機におけるチャネル推定
- 量子情報処理の発展には,量子状態を正確に受信する技術が不可欠である。
- 従来のチャネル推定法は,非線形性やノイズの影響を受けやすく,性能が制限される。
- ホログラフィックスナップショットを用いた効率的なチャネル推定手法を開発し,受信性能を向上させる。
- 提案手法であるURformerは,古典的な反復アルゴリズムや従来のニューラルネットワークと比較して,有意に高い性能を示す。
- URformerは,Transformerモジュールにより非局所的なチャネル依存性を捉え,残差誤差を効果的に修正する。
- 少ないパイロットオーバーヘッドで高精度なチャネル推定が可能となり,受信機の効率向上に貢献する。
高品質なコード生成のためのマルチLLMオーケストレーション:相補的なモデルの強みを活用 [cs.SE]目的:高品質なコード生成の実現
- コード生成の自動化は,ソフトウェア開発の効率化に不可欠である。
- 単一のLLMでは,全てのプログラミング言語や問題に対応できない。
- 複数のLLMの強みを活かすことで,より高品質なコード生成を目指す。
- PerfOrchは,コード生成を分類,生成,デバッグ,改善の4つのエージェントに分割する。
- HumanEval-XとEffiBench-Xにおいて,平均pass@1レートはそれぞれ97.19%と95.83%を達成した。
- HumanEval-Xでのランキングが,EffiBench-Xにも一般化可能であり,モデル自身の特性が反映されていることが示された。
VeriEquivBench:形式検証可能なコードの根拠不要評価のための同値性スコア [cs.PL, cs.AI]目的:大規模言語モデル生成コードの正確性評価のための新たなベンチマークと評価指標
- コードの正確性保証において,形式検証が次世代の手法として重要視されている。
- 既存の評価方法は正解仕様とのマッチングに依存し,データセットの規模が限られ信頼性も低い。
- 正解仕様を必要としない評価指標を用いて,形式検証可能なコード生成の課題を明らかにする。
- VeriEquivBenchは2,389個の複雑なアルゴリズム問題を内包するベンチマークである。
- 本研究で提案する同値性スコアは,生成された仕様とコードの品質を厳密に検証する。
- 最先端の大規模言語モデルによる形式検証可能なコード生成は依然として困難であることが示された。
情報ボトルネック源符号化問題に対する指数的誤差限界 [cs.CL, cs.IR, cs.CL, cs.IT, math.IT]目的:情報ボトルネック源符号化問題における過剰歪み確率の収束速度
- 情報圧縮技術は,通信,データストレージなど幅広い分野で不可欠である。
- 従来の符号化理論では,損失のある圧縮における誤差の評価が困難であった。
- 情報ボトルネックにおける誤差の指数関数的な上限と下限を確立し,収束速度を明確化すること。
- 情報ボトルネック源符号化問題に対して,正確な誤差指数と強い逆指数を導出した。
- これらの指数は補助確率変数に関する最適化を含む。
- 情報ボトルネックとヘルパーを用いた符号化との間のコードレベルでの繋がりを明らかにした。
Neptune:GPUにおけるローカリティと並列性のための高度なML演算子融合 [cs.PL, cs.LG]目的:GPU上での深層学習演算の効率的な融合手法
- 深層学習の高速化には,演算の最適化が不可欠であり,特にメモリ転送の削減は重要である。
- 既存のコンパイラでは,ループ依存性を含む複雑な削減演算の融合が困難であった。
- Neptuneは,依存関係を意図的に断ち切り,代数的な補正式を用いることで,この問題を解決する。
- Neptuneは,FlashAttentionやFlashDecodingと同等の演算子を生成できる。
- 10種類のAttentionベースのベンチマークで,TritonやTVMなどの既存コンパイラを上回る性能を示した。
- NVIDIAとAMDのGPUアーキテクチャにおいて,平均1.35倍の高速化を実現し,最大で3.32倍の高速化を示した。
ContractEval:コード生成における契約充足アサーションを評価するためのベンチマーク [cs.CL, cs.AI, cs.SE]目的:コード生成モデルにおける契約(事前条件)充足の評価
- コード生成技術の発展は,ソフトウェア開発の自動化を促進する上で不可欠である。
- 既存の評価指標は機能的な正しさに偏っており,暗黙の事前条件の充足を評価していない。
- コード生成モデルが実際に要求される事前条件を遵守しているかを評価する手段を提供する。
- ContractEvalベンチマークは,HumanEval+とMBPP+を基盤とし,364のタスクで構成されている。
- 評価の結果,既存のLLMは機能的な正しさは高いが,契約充足率は非常に低いことが明らかになった(0-41%)。
- 契約充足は,コード生成品質の重要な側面であり,これまで見過ごされてきた問題であることが示唆された。
AI研究の再現性を高めるもの:実行可能な知識グラフとしての科学的知識表現 [cs.CL, cs.AI, cs.LG, cs.MA, cs.SE]目的:AI研究の再現性の向上
- AI研究の進展には,再現性が不可欠である。研究成果の検証や発展に必要不可欠な要素である。
- 既存手法では,十分な背景知識の不足やRAGの限界により,実行可能なコード生成が困難である。
- 科学文献からコードや技術情報を統合し,再現性を高める知識表現の構築を目指す。
- 提案手法である実行可能知識グラフ(xKG)は,PaperBenchにおいて10.9%(o3-mini)の性能向上を示した。
- xKGは,異なるLLMやエージェントフレームワークにおいても有効であることが確認された。
- xKGは,AI研究の自動再現のための汎用的かつ拡張可能なソリューションとなりうる。
チャートからコードへ:マルチモーダルモデルのための階層的ベンチマーク [cs.SE, cs.AI]目的:チャート理解とコード生成能力の評価
- データ視覚化は意思決定に不可欠であり,その自動化ニーズは高い。
- 既存のベンチマークは実用的なシナリオを網羅せず,複雑性のスケーリングも不十分。
- 実用的なチャートからコードへの変換タスクを体系的に評価するベンチマークの提供。
- Chart2Codeは,チャートの再現,編集,長表からのチャート生成という3つのレベルで構成される。
- 最先端モデルであるGPT-5でさえ,編集タスクにおいてコードとチャート品質の評価で低いスコアしか得ていない。
- このベンチマークは,マルチモーダル推論の進歩を促進し,より汎用的なLMMの開発を支援すると期待される。
Sockeye:ハードウェアドキュメント解析のための言語 [cs.CR, cs.OS, cs.PL]目的:ハードウェアのセマンティクス記述,ソフトウェアの動作仮定,およびセキュリティ特性の記述
- ハードウェアプラットフォームの複雑化により,システムプログラミングの難易度が増している。
- ハードウェアの仕様が自然言語で記述され,曖昧で不正確な場合が多い。
- ハードウェアのセキュリティに関する厳密な検証とドキュメントのエラー発見。
- 8つのプラットフォームの参照マニュアルから機械可読な仕様を作成し,セキュリティの(不)安全性を形式的に証明した。
- メモリの機密性と完全性に関するセキュリティ証明に加え,ドキュメントのエラーをいくつか発見した。
- 実世界のサーバーチップにおける脆弱性を発見し,ベンダーが広く展開されているネットワークアプライアンスにも適用されることを確認した。
REFLEX:大規模言語モデルによる参照なしログ要約評価 [cs.CL, cs.AI, cs.LG, cs.SE]目的:ログ要約システムの評価
- システムログの分析効率化が求められ,その要約技術の重要性が増している。
- 高品質な参照要約が不足しており,既存の評価指標では精度に限界がある。
- 参照不要で,より信頼性の高いログ要約の評価手法を確立すること。
- REFLEXは,大規模言語モデルを用いて,関連性,情報量,一貫性などの観点から要約の質を評価する。
- 既存の指標よりも,モデル出力の差異をより効果的に識別できることが示された。
- 参照データが不足している実環境でのログ要約評価に,スケーラブルな代替手段を提供する。
GNNを用いたコードスメルリファクタリング手法 [cs.SE, stat.ME]目的:コードスメルリファクタリングのためのグラフニューラルネットワークの活用
- ソフトウェアの品質維持には,保守性と進化可能性の向上が不可欠であり,コードスメルはその阻害要因となる。
- 既存手法は,手動による定義に依存,またはデータセットの制約,モデル設計の困難さを抱えている。
- グラフニューラルネットワークを用いて,コードスメルを効率的に検出し,リファクタリングを支援することを目指す。
- 本研究では,クラスレベルとメソッドレベルのグラフを入力とし,グラフ分類とノード分類のタスクを組み合わせた。
- 提案手法は,GCN,GraphSAGE,GATといった古典的なGNNアーキテクチャを用いて実装し,性能を評価した。
- 実験結果から,提案手法が従来の技術や最新の深層学習手法と比較して,優れたリファクタリング性能を示すことが明らかになった。
ω-正則性の検証のための超マルチンゲール階層 [cs.LO]目的:ω-正則性の性質に対するほぼ確実な充足の検証のための超マルチンゲールに基づく証明
- モデル検査は,システムの正確性を保証する上で不可欠であり,特に複雑なシステムにおいて重要である。
- ω-正則性の検証は計算コストが高く,既存の証明手法では適用範囲が限られていた。
- 既存の超マルチンゲール証明よりも強力な新しい証明手法を開発し,ω-正則性の検証能力を向上させる。
- 一般化されたStreett超マルチンゲール(GSSM)など,新しい超マルチンゲール証明を提案した。
- 提案された証明は,既存のStreett超マルチンゲールよりも強力であることが示された。
- 分布値Streett超マルチンゲール(DVSSM)は,理論的には最も強力な証明である。
逆アッカーマン深さエンコーダによる容量達成符号 [cs.IT, math.IT]目的:容量達成符号の効率的なエンコーディング回路の構築
- 通信における誤り訂正は,信頼性の高い情報伝送に不可欠である。効率的な符号化手法が求められている。
- 従来の符号化回路は,規模や深さの点で課題があり,特に容量達成符号の効率的な実装が困難であった。
- 線形符号と分散グラフを組み合わせることで,線形規模かつ逆アッカーマン深さのエンコーディング回路を構築し,符号化の効率化を目指す。
- 任意の加法性ノイズチャネルにおいて,チャネル容量に近づく誤り訂正符号が存在することが証明された。
- これらの符号は,サイズがO(n),深さが2α(n)の算術回路(重み付き加算ゲート)でエンコード可能である(α(n)は逆アッカーマン関数)。
- 構築された符号は,線形符号と分散グラフを組み合わせたものであり,確率的議論により,容量以下のレートで2^(-Ω(n))の誤り確率を達成する決定的なエンコーダの存在が示された。
DynaFix:実行レベル動的情報駆動による反復自動プログラム修復 [cs.SE, cs.AI]目的:実行レベルの動的情報を活用した反復的な自動プログラム修復手法
- ソフトウェアの信頼性確保は重要であり,バグ修正は不可欠なプロセスである。
- 既存の自動プログラム修復は,静的解析に偏り,実行時の振る舞いを十分に捉えられていない。
- DynaFixは,動的情報を反復的に活用し,複雑なバグの修復を効率化することを目的とする。
- DynaFixは,変数の状態,制御フロー,コールスタックといった実行レベルの動的情報を構造化されたプロンプトに変換し,LLMのパッチ生成を誘導する。
- Defects4Jのベンチマークにおいて,既存手法を10%上回り,186個のシングルファンクションバグを修復し,38個の未修復バグを解決した。
- 最大35回の試行で正しいパッチを生成し,探索空間を70%削減することで,有効性と効率性を実証した。
スパースな葉の発生率カーネルによる森林近傍性の再検討 [cs.LG, cs.DS, cs.PF]目的:森林近傍性の計算の効率化
- 決定木アンサンブルは,多様なデータ解析タスクにおいて高い性能を発揮する。
- 森林近傍性の計算は,サンプル数に対して二次時間となり,大規模データへの適用が課題となる。
- 葉の発生率に基づいた効率的な近傍性計算手法を開発し,計算コストを削減すること。
- 提案手法は,既存の近傍性計算手法を統一的に捉え,葉空間におけるスパースな表現を導出した。
- このスパース表現により,近傍性行列の正確な計算を,ペアごとの比較を回避しつつ,線形時間・メモリで実現した。
- 実験結果は,理論的予測と一致し,提案手法が様々なデータセットや森林設定で有効であることを示した。
EET:経験に基づいた早期終了による,費用対効果の高いソフトウェアエンジニアリングエージェント [cs.SE]目的:ソフトウェアエンジニアリングエージェントの費用削減
- 大規模言語モデルを活用したソフトウェアエンジニアリングエージェントの利用が拡大している。
- これらのエージェントは,高いコストがかかるという課題がある。
- 過去の実行経験を活用し,無駄な反復を減らすことで,エージェントのコストを削減する。
- EETは,SWE-bench Verifiedベンチマークにおいて,3つの代表的なSEエージェントの総コストを平均32%削減した。
- 問題解決率は最大0.2%の低下にとどまり,性能への影響は軽微である。
- EETは,11%の問題において早期終了の機会を特定し,APIコール,入力トークン,出力トークンをそれぞれ21%,30%,25%削減した。
1標本および2標本問題に対する漸近最適検定 [cs.CL, cs.IT, math.IT]目的:1標本および2標本検定問題における漸近最適性
- 統計的仮説検定は,科学研究や意思決定において不可欠な役割を果たす。
- 分布が未知の場合,検定力の向上が課題となる。
- 漸近最適検定を通じて,検定力を最大化することを目指す。
- 1標本問題において,Hoeffdingの尤度比検定の漸近最適性がより簡潔に証明された。
- 2標本問題においても,同様の形式のHoeffding検定が漸近最適であることが示された。
- 2標本問題に対する強い逆定理も得られた。
ノイズを含む量的グループ検定問題 [cs.IT, math.IT]目的:量的グループ検定問題における検定回数の上限
- 集団検査は,限られた資源で効率的に異常を特定するために重要である。
- ノイズ環境下での検定回数の理論的限界が明確でなかった。
- ノイズ環境における検定回数の上限と下限を導出すること。
- ノイズのないモデル,ガウスノイズモデル,Zチャネルモデルを解析した。
- ガウスノイズモデルにおいては,上限と下限が一致する結果が得られた。
- 相関スコアに基づく線形推定子と最小二乗推定子を比較検討した。
クエリベース更新システムにおける鮮度最大化のための知覚年齢の活用 [cs.IT, cs.SY, eess.SY, math.IT]目的:クエリベース更新システムにおける鮮度最大化のための最適サンプリングポリシー
- データ鮮度は,変化する情報を正確に把握する上で不可欠であり,システム品質を左右する重要な要素である。
- 従来のクエリベースサンプリングは,クエリ遅延の分布や応答時間の即時性を仮定しており,現実的な環境への適用が困難である。
- 一般的な遅延分布下でのCTMC監視における最適サンプリングポリシーを導き出し,鮮度向上を目指す。
- 待ち行列戦略を用いたクエリベースサンプリングにより,平均二値鮮度(MBF)を大幅に向上させることが示された。
- 従来の仮定を緩和することで,より現実的な環境での性能向上が期待できる。
- 知覚年齢の活用により,システム全体の鮮度を最大化する可能性が示唆された。
Transformer推論におけるレート歪み最適化 [cs.LG, cs.IT, math.IT]目的:Transformer推論効率化のための損失圧縮手法
- Transformerは多くのタスクで高性能だが,計算資源とメモリを大量に消費する。
- 推論時の計算量削減が課題であり,中間表現の圧縮が有効な手段となる。
- レートと精度のトレードオフを考慮した損失圧縮により,効率的な推論を実現する。
- 提案手法は,既存手法と比較して大幅なレート削減を達成した。
- Transformerのレート歪み特性を分析し,表現符号化におけるパフォーマンスを理解する上で統一的な視点を提供する。
- 学習可能なコーデックの達成可能なレートに関する情報理論的な限界を導出した。
MerLin:フォトニックおよびハイブリッド量子機械学習の探索エンジン [cs.LG, cs.PL, quant-ph]目的:フォトニックおよびハイブリッド量子機械学習における量子モデルの利点発見
- 量子機械学習は,従来の機械学習の限界を突破し,新たな可能性を開く分野である。
- 量子モデルの適用可能性の評価が,アルゴリズム,データセット,ハードウェア制約に依存し,体系的な探索が不足している。
- 体系的なベンチマークと再現性を実現し,アルゴリズム,ベンチマーク,ハードウェアの共同設計を可能にする。
- MerLinは,線形光学回路の最適化されたシミュレーションをPyTorchおよびscikit-learnに統合し,量子層の微分可能なトレーニングを可能にする。
- 既存の18の研究を再現し,カーネル法,リザバーコンピューティング,畳み込み,再帰型アーキテクチャなど,幅広いモデルに対応した再利用可能な実験基盤を確立した。
- MerLinは,既存の機械学習ツールを活用し,アブレーションスタディ,クロスモーダル比較,ハイブリッド古典量子ワークフローを可能にする。
SACS:半自動生成アプローチによるコードスメルのデータセット [cs.CL, cs.SE]目的:コードスメルのデータセットの作成
- ソフトウェアの保守性向上のためには,コード品質の評価が不可欠であり,コードスメルの検出はその重要な要素である。
- 機械学習を用いたコードスメル検出の研究が進む一方で,高品質なデータセットの不足が課題となっている。
- 半自動生成アプローチを用いて,ラベルの信頼性とデータ品質を確保したコードスメルのデータセットを構築すること。
- 本研究では,自動生成ルールと手動レビューを組み合わせた半自動生成アプローチにより,大規模なコードスメルデータセットSACSを構築した。
- SACSは,Long Method,Large Class,Feature Envyの3種類のコードスメルを包含し,各カテゴリで10,000以上のラベル付きサンプルを提供する。
- 本データセットは,コードスメル検出や自動リファクタリングの研究におけるベンチマークとして活用できる。
ReflexiCoder:強化学習によるコード生成モデルの自己省察と自己修正 [cs.CL, cs.CL, cs.LG, cs.SE]目的:大規模言語モデルによるコード生成における自己省察と自己修正能力の獲得
- コード生成AIの発展は,ソフトウェア開発の効率化に大きく貢献する重要な分野である。
- 複雑なアルゴリズム問題において,単一パスでのコード生成は性能限界に達しやすい。
- 外部からのフィードバックに依存しない,モデル内部での自己改善メカニズムを確立する。
- ReflexiCoderは,自己省察と自己修正の能力をモデルの重みに組み込む強化学習フレームワークである。
- HumanEval (Plus)で94.51% (87.20%),MBPP (Plus)で81.80% (78.57%)など,複数のベンチマークで最先端の性能を達成した。
- 推論時の計算コストを約40%削減し,トークン効率の向上にも貢献している。
s2n-bignum-bench:LLMの低レベルコード推論能力を評価する実用的なベンチマーク [cs.PL, cs.AI, cs.CR, cs.LO]目的:LLMによる低レベルコードの推論能力評価のためのベンチマーク
- 近年,LLMと形式手法を組み合わせたニューロシンボリックアプローチが数学的定理証明で成果を上げている。
- 競技スタイルの数学問題の成功は,実際の実装に関する証明を構築する能力を必ずしも示さない。
- 産業用暗号ライブラリの形式検証を通じて,LLMの低レベルコード推論能力を評価する。
- 本ベンチマークは,HOL Lightで検証済みの産業用暗号ライブラリs2n-bignumを対象としている。
- LLMに形式仕様を与え,HOL Lightで検証可能な証明スクリプトを生成させることで評価を行う。
- 本ベンチマークは,低レベル暗号アセンブリルーチンの機械検証可能な証明合成に焦点を当てた初の公開ベンチマークである。
