arXiv雑要約
プログラム - 2026/05/06 公開
StateSMix:Mamba状態空間モデルと疎なn-gram文脈混合によるオンラインロスレス圧縮 [cs.LG, cs.IT, math.IT]目的:Mamba様式状態空間モデルと疎なn-gram文脈混合,算術符号化を組み合わせた,自己完結型のロスレス圧縮手法
- データ圧縮は,データ保存・転送コスト削減のため不可欠であり,効率的な圧縮技術が求められている。
- 既存の圧縮アルゴリズムは,計算資源の制約や事前学習済みモデルへの依存といった課題を抱えている場合がある。
- 本研究は,学習済みの重みを用いず,GPUを必要とせず,外部依存関係もない,オンラインで学習可能な圧縮手法を提案する。
- StateSMixは,enwik8ベンチマークにおいて,xz -9e(LZMA2)を最大8.7%上回る圧縮性能を達成した。
- 状態空間モデルが圧縮の主要エンジンであり,周波数カウントベースラインに対して46.6%のサイズ削減を実現した。
- 疎なn-gramハッシュテーブルは,正確な文脈記憶を通じて,相補的な4.1%の圧縮性能向上に貢献した。
eOptShrinkQ:最適なスペクトルノイズ除去と量子化によるほぼ無損失のKVキャッシュ圧縮 [cs.LG, cs.IT, math.IT]目的:KVキャッシュ圧縮の最適化
- Transformerモデルの性能向上には,KVキャッシュの効率的な圧縮が不可欠である。
- 従来のKVキャッシュ圧縮手法では,精度と圧縮率のバランスが課題であった。
- スペクトルノイズ除去と量子化を組み合わせ,KVキャッシュの圧縮性能を向上させる。
- 提案手法eOptShrinkQは,共有コンテキストとトークンごとの残差に分解し,それぞれに最適化された処理を行う。
- 理論的な保証により,自動的なランク選択,内積バイアスの低減,量子化歪みの抑制が実現される。
- 実験結果から,eOptShrinkQはTurboQuantと比較して同等の品質で圧縮率が向上し,検索タスクにおいても高い性能を示す。
エキスパート混合と大規模言語モデルによるエージェント型AIベースの協調計算・ネットワーク [cs.LG, cs.IT, math.IT]目的:将来の6Gモバイルネットワークにおける最適化専門家の選択,組み合わせ,オーケストレーションのメカニズム
- 6Gネットワークは多様な最適化専門家を活用するため,効率的な連携が不可欠である。
- 専門家間の最適な組み合わせを決定するスケーラブルな仕組みが課題となっていた。
- 人間の意図に基づき,動的に最適化エージェントを構成する手法を確立すること。
- 提案手法は,大規模言語モデルをセマンティックゲートとして活用し,最適化エージェントを動的に構成する。
- シミュレーション結果から,提案手法は網羅的な組み合わせと比較してほぼ最適な性能を達成することが示された。
- 遅延最小化やスループット最大化など,多様な目的において個々の専門家を上回る性能を発揮した。
コード生成のための強化学習における合格率報酬の探求 [cs.LG, cs.AI, cs.SE]目的:コード生成における合格率報酬の効果検証
- 大規模言語モデルの性能向上は,ソフトウェア開発の自動化に不可欠である。
- 従来の二値報酬では,課題が難しい場合に学習が進まないという問題がある。
- 合格率報酬が,二値報酬よりも有効な学習信号となるか検証する。
- 合格率報酬は,二値報酬に比べ報酬の疎性を緩和するものの,性能向上は安定的に見られなかった。
- 合格率報酬は,密度が高い一方,全正解解への確率質量移動が一貫しないことが示唆された。
- 合格率報酬は,完全な正しさへの進捗を正確に反映しておらず,相反する勾配方向が生じる原因となる。
分散テンソルプログラムのための分散マルチレベルタイリングコンパイラDITRON [cs.PL]目的:分散並列環境におけるテンソルプログラムの高性能化
- 大規模言語モデルの性能向上の鍵は分散処理の効率化にあり,その重要性は増している。
- 既存の分散プログラミング手法は柔軟性に欠け,変化するモデルアーキテクチャへの対応が困難である。
- 異種分散ハードウェア上での効率的なテンソルプログラムのマッピングを実現し,分散カーネル開発を容易にすること。
- DITRONは,専門家が調整したCUDAライブラリと同等以上の性能を発揮し,個々のカーネルで6%~30%の高速化,vLLMでのエンドツーエンド推論で5%~30%の高速化を達成した。
- NVIDIAおよびAMDプラットフォームの両方で有意な高速化を実現し,高い移植性を示した。
- トレーニングタスクではMFUが10%以上向上し,毎月のGPU時間コストを約50万時間削減,推論タスクではエンドツーエンドで20%以上の改善を達成した。
Hoare論理のための定義的インタプリタへ向けて [cs.PL]目的:Hoare論理の導出に対する定義的インタプリタの実現可能性
- プログラムの正当性保証にはHoare論理が広く用いられ,信頼性の高いソフトウェア開発に不可欠である。
- 既存の定義的インタプリタは抽象構文木を扱うため,型安全性の制約を直接活用できないという課題があった。
- 型導出に基づいた定義的インタプリタにより,Hoare論理の動的意味論を定義し,型安全性による制約を組み込む。
- Rocqを用いて,基本的なHoare論理と,ヒープ,動的フレーム,健全関数,行動的サブタイピングを含む現実的なHoare論理に対する定義的インタプリタを開発した。
- 健全性証明と健全関数を解釈するために,エントリインデックスという新しい技術を導入した。
- 動的フレームと健全関数,行動的サブタイピング,完全性を含むHoare論理の初の形式化を達成し,完全に機械化されたHoare論理を実現した。
AutoRAGTuner:RAGパイプラインの自動最適化のための宣言的フレームワーク [cs.LG, cs.AI, cs.CL, cs.DC, cs.SE]目的:RAGパイプラインの自動最適化
- LLMの性能向上に不可欠なRAG技術の重要性が高まっている。
- RAGパイプラインの設計・ハイパーパラメータ調整が手動で行われ,非効率である。
- RAGパイプラインのライフサイクル全体を自動化し,効率的な最適化を実現する。
- AutoRAGTunerは,RAGパイプラインの構築,実行,評価,最適化を自動化する宣言的なフレームワークである。
- 多様なRAGパイプラインにおいて,AutoRAGTunerはデフォルト設定を上回る性能を示した。
- 宣言的な設定言語により,アーキテクチャ調整のためのコード変更量を最大95%削減できる。
LLMを用いた自己適応型ロボットにおける人間介入型不確実性分析 [cs.RO, cs.SE]目的:自己適応型ロボットにおける不確実性の体系的な分析手法
- ロボットは現実世界で活動するため,安全確保と運用継続には不確実性への対応が不可欠である。
- 複雑な環境やロボット自身の動的な挙動により,不確実性の特定・分析は困難である。
- LLMを活用し,設計段階での不確実性分析を支援することで,安全かつ信頼性の高いロボット開発を目指す。
- 本研究で開発したRoboULMは,不確実性の体系的な分析を人間が介入しながら行うことを可能にする。
- 産業利用事例における16名の専門家による評価で,RoboULMの有用性と理解しやすさが確認された。
- 特に,構造化されたプロンプトと反復的な改善支援が,参加者から高く評価された。
情報理論と統計的学習 [cs.IT, eess.SP, math.IT, stat.ML]目的:情報理論と統計的学習の交差
- 機械学習の性能向上には,情報理論的な理解が不可欠である。
- モデル学習における理論的な限界が明確に理解されていない。
- モデル学習における収束性や汎化性能の解明を目指す。
- 情報理論と統計的学習の接点について,簡潔かつ理解しやすい解説が提供される。
- 線形回帰や自己回帰モデルから,拡散モデルやGANに至る多様なモデルにおける,ダイバージェンス測度の役割が示される。
- 特に,拡散生成モデルの導出がより体系的かつ詳細に行われる。
環Z2[u,v](u^2(1+u),v^2(1+v^2))上の巡回符号 [cs.IT, math.IT, math.RA]目的:環Z2[u,v](u^2(1+u),v^2(1+v^2))上の線形符号および巡回符号の記述
- 符号理論は,通信や情報セキュリティにおいて重要な役割を担う分野である。
- 特定の環上の符号の研究は,既存の符号の構造を拡張し,より良い符号を設計するために不可欠である。
- この研究は,新しい環上の符号構造を明らかにし,符号設計の可能性を広げることを目指す。
- 本研究では,環Z2[u,v](u^2(1+u),v^2(1+v^2))上の線形符号と巡回符号について記述した。
ARIS:敵対的マルチエージェント協調による自律研究 [cs.SE, cs.AI]目的:自律研究のための研究支援システムの開発
- AI研究の加速には,効率的な研究ワークフローと信頼性の確保が不可欠である。
- LLMを活用した研究システムでは,根拠の不十分な主張が生成されるリスクがある。
- 敵対的マルチエージェント協調により,研究の信頼性と客観性を向上させる。
- ARISは,実行モデルとレビューモデルが相互にチェックし合うことで,不確実な主張を抑制する。
- 65種類以上の再利用可能なスキル,モデル統合,研究wiki,決定論的な図生成機能を備える。
- 実験結果の根拠検証,主張監査,科学編集パイプラインなど,多段階の品質保証プロセスを導入している。
ニューラルネットワークのファジー論理公式としての表現 [cs.LO]目的:ニューラルネットワークの表現力に関する研究
- 現代AIの基盤であり,多様な機械学習モデルに応用されているから。
- 単純なニューラルネットワークに対する論理的特徴づけが不足している。
- ReLU活性化ニューラルネットワークの表現力をファジー論理で明確化する。
- 本研究では,ReLU活性化ニューラルネットワークをRational Pavelka LogicやL Π 1/2を用いて特徴づけた。
- 活性化値は任意の実数であり,一般化された多項式環についても同様の表現が可能である。
- この結果は,ニューラルネットワークの論理的解釈を深める上で貢献する。
劣モジュラー最大化のためのポアソン過程 [cs.DS]目的:劣モジュラー関数の最大化
- 組合せ最適化の重要な問題であり,様々な現実世界の応用が存在する。
- 既存手法は離散化や丸めが必要であり,計算コストが高い場合がある。
- ポアソン過程を用いた新しいアプローチにより,効率的な近似解を求める。
- 本研究では,劣モジュラー最大化問題に対し,$(1-\frac{1}{e})$というタイトな近似保証を達成する新しい手法を提案した。
- 提案手法は,離散化や丸めを必要とせず,要素の交換回数も少なく,計算効率が高い。
- サブモジュラー厚生最大化や一般・分離可能な割当問題への応用も示され,高速アルゴリズムが得られた。
ARISE:エージェント型障害局所化とプログラム修復のためのリポジトリレベルのグラフ表現とツールセット [cs.SE, cs.AI]目的:エージェント型障害局所化およびプログラム修復のためのリポジトリレベルグラフ表現とツールセット
- 大規模なソフトウェア開発において,迅速かつ正確な障害局所化と自動修復は,開発効率とソフトウェア品質を向上させる上で不可欠である。
- 既存のシステムは,リポジトリの構造的表現に焦点を当てており,変数値の流れを詳細にモデル化していないため,関数レベルや行レベルでの正確な局所化が困難である。
- 本研究は,変数値の流れを考慮したより詳細なグラフ表現を提供することで,エージェントの局所化精度を高め,プログラム修復の成功率を向上させることを目指す。
- ARISEは,構造的関係に加えて,手続き内定義-使用エッジで接続された文レベルのノードを持つ多粒度プログラムグラフをLLMベースのエージェントに追加する。
- SWE-bench Liteにおける評価の結果,ARISEはFunction Recall@1を17.0ポイント,Line Recall@1を15.0ポイント改善した。
- ARISEは,Pass@1で22.0%(66/300)を達成し,SWE-agentと比較して4.7パーセントポイントの改善を示した。
エージェント的生態系のための振付言語:Pact [cs.MA, cs.PL, cs.AI, cs.DC]目的:エージェント的生態系における協調のための振付言語Pactの設計
- 近年,自律的に行動するエージェントの重要性が増しており,安全な協調の仕組みが求められている。
- 従来の振付プログラミングは協調的な参加者を前提としており,エージェントの利己性を考慮できない。
- エージェントの選択や嗜好を記述することで,ゲーム理論に基づいた協調プロトコルの設計を目指す。
- Pactは振付言語を拡張し,エージェントの意思決定を形式的なゲームとしてモデル化する。
- Pactプロトコルはゲーム理論的特性を分析可能であり,最適な意思決定方策を導き出すことができる。
- Pactの設計と,限定的な合理性を持つソルバーの実装,そして応用事例が示された。
例示から正しい行動を学習:自律エージェントにおける逐次実行の検証 [cs.AI, cs.SE]目的:自律エージェントにおける逐次行動の検証手法
- 自律エージェントの高度化に伴い,その行動の正当性確認が重要となる。
- 従来の検証手法は,手動での仕様記述や厳密なシーケンス一致,大量の学習データが必要である。
- 少数の実行例から正しい行動を学習し,新しい実行を検証することを目指す。
- 本手法は,わずか2〜10の成功事例から正しい行動を学習し,検証が可能である。
- ドミネーター分析と大規模言語モデルを活用することで,本質的な状態を特定し,非決定的な行動に対応する。
- UIテスト,コード生成,ロボットプロセスなど,多様な分野で高い精度を実証した。
三項式に関連する有限連鎖環上の歪多項式環 [cs.IT, math.IT]目的:中央三項式で定義される有限連鎖環上の歪多項式符号の研究
- 符号理論は,通信や情報伝送における誤り検出・訂正に不可欠であり,その効率性と信頼性が重要である。
- 非可換な歪多項式符号の分類は困難であり,効率的な手法が求められている。
- 歪多項式符号の同値関係を明らかにし,分類問題をより扱いやすい形に帰着させることを目指す。
- 定義する三項式に対する同値関係を導入し,シュル積を備えた二項式の群によって群論的に特徴付けられることを示した。
- 歪多項式符号が特定の三項式 $x^n-(x^\ell+1)$ で定義されるものとハミング同値となるための条件を決定した。
- 基礎となる連鎖環の単位群の分解を用いて,対応する同値類のサイズを決定した。
反復構成の代数 [cs.LO]目的:反復構成の代数
- 計算機科学において不動点は重要な概念であり,様々な分野で頻繁に現れる。
- 不動点の構成は,通常,インデックスを用いた明示的な計算が必要となる。
- 等式論理を用いて不動点定理を導出し,インデックス計算を回避する。
- 反復構成の代数 (AIC) を用いることで,Kleeneの不動点定理を含む様々な不動点定理を代数的に証明できる。
- Tarski-Kantorovichの原理や,ソフトウェア検証で用いられるk-誘導法の一般化も証明可能である。
- また,適切な連続性条件の下で,不動点を格子理論的な下極限および上極限として得る新しい不動点定理が示された。
悪意のあるコード生成のための検証済みプロンプトバンク:1554の合意ラベル付きプロンプトにおける実行可能な武器とセキュリティ知識の分離 [cs.CR, cs.SE]目的:悪意のあるコード生成に関する言語モデルの拒否に関するプロンプトの分類
- 言語モデルの安全性評価において,悪意のあるコード生成を抑制することが重要である。
- 既存のベンチマークでは,実行可能な悪意のあるソフトウェアの要求と有害なセキュリティ知識の要求が混同されている。
- 言語モデルの拒否メカニズムを分離し,より正確な安全評価を行うためのプロンプトバンクを構築する。
- 本研究では,五つの大規模言語モデルによる合意プロトコルを用いて,3133のプロンプトを「武器」と「知識」に分類した。
- その結果,1554のプロンプトからなるCODEバンクと388のプロンプトからなるKNOWLEDGE比較セットを作成した。
- 五つのモデル間の一致度は高く,Fleiss' kappaは0.876であり,「ほぼ完全な」一致を示した。
情報射影による単期間ポートフォリオ選択 [cs.IT, math.IT, q-fin.MF, q-fin.PM]目的:単期間ポートフォリオ選択問題における最適解の導出
- 金融市場において,リスクとリターンのバランスを考慮したポートフォリオ構築は不可欠である。
- 伝統的なポートフォリオ最適化手法では,計算負荷が高く,現実的な市場環境への適用が困難な場合がある。
- 情報理論に基づき,効率的なポートフォリオ選択手法を開発し,計算コストを削減することを試みる。
- CRRA効用関数を用いたポートフォリオ選択において,確実同等成長率は,Rényiダイバージェンス項,Rényiエントロピー項,対数分割項に分解できることが示された。
- Rényi順序が投資家の相対的リスク回避係数と一致することが明らかになり,ポートフォリオ選択がRényi情報射影問題と同等であることが示された。
- 変分表現を用いることで,Blahut-Arimoto型の反復最適化アルゴリズムが得られ,低リスク回避領域において効率的な計算が可能であることが確認された。
Terminus-4B:エージェントタスクにおいて,より小型なモデルは最先端LLMに取って代わるか? [cs.DC, cs.AI, cs.SE]目的:エージェントタスクにおけるターミナル実行性能の比較検証
- 近年のエージェント技術発展は目覚ましく,複雑なタスク処理への応用が期待されている。
- 最先端LLMは計算コストが高く,実用上の制約となる場合がある。
- 小型言語モデルによる代替は,効率的なエージェント構築に貢献しうる。
- Terminus-4Bは,最先端モデルと同等以上の性能を発揮し,トークン使用量を最大約30%削減した。
- サブエージェントの利用により,メインエージェントが実行するターミナルタスク数を削減することに成功した。
- Terminus-4Bは,ベースモデルであるQwenを上回り,最先端モデルを超える性能を示す場面も見られた。
Kerncap: AMD GPU向けカーネルの自動抽出と分離 [cs.SE]目的:AMD GPUのカーネル抽出と分離の自動化
- GPUの性能向上には,カーネルレベルでの最適化が不可欠である。高速な反復的チューニングが求められる。
- カーネル単体の分離には手間がかかり,ビルド設定や実行時の入力を手動で再構成する必要がある。
- カーネルの抽出と分離を自動化し,開発者が迅速にカーネルを編集・再コンパイル・検証できるようにすること。
- Kerncapは,HIPとTritonの両方のHSAランタイムでディスパッチをインターセプトし,カーネルを自動的に抽出・分離する。
- 抽出されたカーネルは,152MBから30GBの範囲で検証され,ポインタ間接参照を通じてアクセスされる大規模なデータセット(例:vLLMのMixture-of-Experts)も正確にキャプチャできる。
- llama.cppを用いたケーススタディでは,従来のワークフローと比較して,編集・再コンパイル・検証ループの速度が13.6倍向上し,カーネル分離時間を大幅に短縮した。
動的迂回 [cs.DS]目的:動的グラフにおける特定のパスの存在判定
- グラフ理論はネットワーク分析や最適化問題に応用され,様々な分野で不可欠である。
- 動的に変化するグラフにおける効率的なパス探索は計算量的に困難である。
- グラフの変化に対応しつつ,長さに制約のあるパスを高速に判定することを目指す。
- 動的グラフにおいて,指定された長さ以上のパスの存在を効率的に判定するデータ構造を提案。
- 提案手法は,更新およびクエリ処理に $2^{O(k^3)} \log n + O(\log^2 n \log^2 \log n)$ (または $O(\log^2 n \log^2 \log n)$) の漸近的な計算時間を用いる。
- 最短経路長よりも長い迂回路の検出にも対応し,既存の限界を超える結果が得られた。
TeamUp:大規模学習における意味的プロジェクトマッチングとチーム編成 [cs.SE, cs.CL]目的:大規模学習環境における意味的プロジェクトマッチングとチーム編成の仕組み
- プロジェクトベース学習は,学生の学習意欲と成果の向上に寄与する重要な手法である。
- 大規模なコースにおいて,適切な難易度のプロジェクトへの学生の割り当てと,認知的多様性を備えたチームの編成が課題となっている。
- TeamUpは,スキルレベルに応じたプロジェクトのマッチングと,認知的な補完性を考慮したチーム編成を通じて,学習成果と公平性の向上を目指す。
- TeamUpは,事前学習済み言語モデルから得られる意味的埋め込みを用いて,学生とプロジェクトをスキルレベルに応じてマッチングする。
- 実験結果から,TeamUpは既存手法と比較して,マッチングの質,難易度の整合性,チームの多様性において大幅な改善が確認された。
- TeamUpは,学生一人あたりの運用コストを0.10ドル以下に抑えつつ,サブ秒単位のレコメンデーション遅延を実現した。
コード品質とテストカバレッジ指標による科学ソフトウェアの持続可能性の探求 [cs.SE]目的:科学ソフトウェアの持続可能性評価手法
- 科学研究の基盤であり,再現性と信頼性が求められる。
- 長期的な維持・発展が難しく,ソフトウェアの老朽化が懸念される。
- コード品質とテスト指標に基づき,持続可能性を定量的に評価する。
- 持続可能なプロジェクトは,テストカバレッジが高く,コードとテストの関連性が明確である。
- 持続不可能なプロジェクトは,テストカバレッジが低く,コードとテストの関連性が弱い。
- 科学ソフトウェア全体のテストカバレッジは低く,複雑なコード構造がテストの困難さを招いている。
ソフトウェア工学理論の実践的検証のための具体化 [cs.SE]目的:ソフトウェア工学理論の具体的な検証手順
- ソフトウェア工学は複雑な社会技術システムを扱うため,社会科学の理論的枠組みが活用される。
- 抽象的な概念を測定可能な要素に変換する「具体化」の段階が,実践的有用性を確保する上で課題となる。
- 抽象概念と実証的検証の間のギャップを埋め,厳密かつ実用的な理論構築を支援することを目的とする。
- 本研究では,Sj{\o}bergらの枠組みを拡張し,Dubinのアプローチに沿って非因果仮説を導出する体系的手順を提案する。
- 変数定義,指標選択,仮説導出を系統的に行うことで,エビデンスの明確な連鎖を維持し,実践的な検証を可能にする。
- DevOpsチームタクソノミ理論を例に,理論から検証可能な要素への透明な連鎖を示し,研究者と実務家の双方を支援する。
暗号学的レジストリ由来:AIパッケージエコシステムにおける依存性混乱に対する構造的防御 [cs.CR, cs.AI, cs.SE]目的:依存性混乱攻撃に対する構造的な防御機構
- ソフトウェアサプライチェーンのセキュリティ確保は,現代のソフトウェア開発において不可欠である。
- パッケージ管理システムには,配布元を検証する仕組みが不十分な点が課題である。
- ソフトウェア配布元を暗号学的に証明し,依存性混乱攻撃を防止すること。
- 本研究では,レジストリの暗号学的識別,二重署名モデル,権威あるネームスペースのバインディングという三層防御システムを提案した。
- 既存の8つのエコシステムにおいて,これらの要素を全て満たすシステムは存在しないことが示された。
- 本システムは,AI生成物の由来証明にも拡張可能であり,ランタイムガバナンスアーキテクチャとの統合も可能である。
単純多角形における可視性クエリ [cs.CG, cs.DS]目的:単純多角形における可視性クエリに対するデータ構造の構築
- 計算幾何学は,コンピュータグラフィックスやロボティクスなど,幅広い分野で重要な役割を果たす。
- 可視性問題は計算コストが高く,効率的なデータ構造とアルゴリズムが求められる。
- 既存手法の空間効率の悪さを改善し,高速なクエリ処理を実現することを目指す。
- 本研究では,空間計算量が$O(n^{2+\epsilon})$のデータ構造を提案し,$O(\log n + k)$のクエリ時間を達成した。
- 空間計算量が$O(n^2)$の場合,$O(\log n \log \log n + k)$のクエリ時間を実現する改良されたアルゴリズムを提示した。
- 空間計算量が$O(n \log n)$の場合,$O(n^{1/2+\epsilon} + k)$のクエリ時間を達成するデータ構造を構築した。
埋め込み表現における次元不整合下での証明可能な精度崩壊 [cs.NI, cs.DS, cs.LG]目的:埋め込み表現の次元と精度間の関係性の解明
- 機械学習において,データの関係性を忠実に捉えつつ,モデルの効率性を高めるため,低次元埋め込み表現が重要である。
- 埋め込み次元が適切に設定されていない場合,データ表現の能力が著しく低下し,精度の低下を引き起こす可能性がある。
- 埋め込み次元と精度間の理論的な限界を明らかにし,適切な次元選択の指針を示す。
- 埋め込み次元が真の次元に近い場合にのみ高い精度が実現でき,それ以外では精度が急激に低下することが証明された。
- この現象は,教師データが限られたコントラスティブ学習においても同様に発生することが示された。
- Unique Games Conjectureのもと,次元に関わらず,単純な精度以上のアルゴリズムは存在しないことが示唆された。
POSTCONDBENCH:形式事後条件推論における正確性と完全性のベンチマーク [cs.SE]目的:形式事後条件の生成の評価基準
- プログラムの正確性確保には,正確な振る舞いの記述が不可欠であり,テストや検証の基盤となる。
- 既存の評価基準は限定的で,実用的なソフトウェアに対する十分な評価が困難である。
- 大規模言語モデルによる事後条件生成の性能を客観的に評価し,改善点を明らかにする。
- POSTCONDBENCHは,現実のソフトウェアから抽出された420件のPythonとJavaのタスクで構成される。
- 正確性と完全性の間に大きな差があり,リポジトリレベルの依存関係やメソッドの複雑さがその差を拡大することが示された。
- 欠陥識別を介して完全性を評価し,より多くの欠陥実装で違反される事後条件セットをより完全と定義した。
汎関数訂正分割符号 [cs.HC, cs.IT, math.IT]目的:複数のメッセージ空間分割に対する異なる誤り数からの同時保護
- 誤り訂正符号は,通信やデータストレージにおいて情報の信頼性を確保する上で不可欠である。
- 従来の符号は,単一の関数やデータに対する保護に特化しており,複数の分割に対応できない場合がある。
- 複数の分割に対する効率的な誤り訂正を可能にし,冗長性を削減することを目指す。
- 汎関数訂正分割符号(GFCPC)の概念を導入し,複数の分割に対する異なる誤り数からの保護を可能にした。
- GFCPCの最適な冗長性に関する上限と下限を導出し,分割の結合条件における上限を考慮した。
- 二つの分割を持つ場合において,特定の条件下で最適な冗長性の新たな下限を確立した。
MPCモデルにおける大幅に超線形複雑性問題の$N^{o(1)}$ラウンドでの解決について [eess.SY, cs.SY, cs.OS, cs.DC, cs.CC, cs.DS]目的:大幅に超線形多項式時間(逐次)複雑性を持つ問題に対する$N^{o(1)}$ラウンドプロトコルの設計可能性
- 大規模並列計算は,計算集約的な問題を効率的に解決するための強力なパラダイムである。
- ローカルメモリが小さく,機械数が入力サイズ$N$を超えない場合,ラウンドあたりの計算コストが課題となる。
- この研究では,そのような制約下でのプロトコル設計における計算コストの限界を明らかにすることを試みる。
- 本研究では,マシンが比較的大きなローカルメモリを備えておらず,その数が$N$を超えない場合,そのようなプロトコルのラウンドあたりのローカル計算の平均時間複雑度の指数が,与えられた問題の時間複雑度の指数よりも大きくなることを示した。
ARGUS:文脈を認識したプロンプトインジェクションに対するLLMエージェントの防御 [cs.CR, cs.SE]目的:LLMエージェントに対する文脈を認識したプロンプトインジェクション攻撃のベンチマークと防御機構
- LLMエージェントの利用拡大に伴い,セキュリティリスクが顕在化している。
- 既存の防御法は,文脈に依存しない単純な攻撃を想定しており,現実世界の複雑な状況に対応できない。
- 文脈に依存するプロンプトインジェクション攻撃に対応し,エージェントの安全性を確保すること。
- 本研究では,文脈依存型タスクと攻撃を評価するベンチマークAgentLureを提案した。
- 提案手法ARGUSは,信頼できる証拠に基づいて意思決定を検証することで,攻撃成功率を大幅に低減した。
- ARGUSは既存の防御法を凌駕し,タスクの有用性を維持しながら堅牢な防御を実現した。
2変数論理におけるカウントと剰余カウント量化子を持つ高速モデル数え上げアルゴリズム [cs.LO, cs.AI]目的:2変数論理におけるカウントと剰余カウント量化子を持つWFOMCの効率的な計算手法
- リフテッド確率推論における中核的課題であり,有限領域における命題のモデルの重み付き合計を求める。
- 既存アルゴリズムは,カウント量化子を削減する多段階の手法に依存し,領域サイズが増加すると実用的なオーバーヘッドが大きくなる。
- カウント量化子を直接扱うことで,計算効率を向上させ,より大規模な問題への適用を可能にすることを目指す。
- 新しいアルゴリズム IncrementalWFOMC3 は,カウントパラメータに関するデータ複雑度を二次から線形に削減することに成功した。
- 剰余カウント拡張 $\mathbf{C}^2_{\text{mod}}$ が領域リフト可能であることが証明され,より表現力豊かなフラグメントへの適用範囲が拡大された。
- 実験評価により,IncrementalWFOMC3 が既存の WFOMC アルゴリズムや最先端の命題モデルカウンターと比較して,大幅な実行時間改善とスケーラビリティの向上を実現することが示された。
カーディナリティ制約付き直径分割のための最適アルゴリズム [cs.DS]目的:カーディナリティ制約付き直径分割問題における最適解の算出
- データ分析や機械学習において,データの分割は重要な処理であり,その品質が結果に大きく影響する。
- 分割後のクラスの直径を最小化する問題は計算量が多く,効率的なアルゴリズムが求められていた。
- 既存手法の計算量を削減し,より迅速に最適解を求めることを目指している。
- 提案アルゴリズムは,要素数nに対してO(n^2)の計算量で最適解を算出できることが示された。
- 重み間のクエリのみを許可する場合,下界であるΩ(n^2)も示されており,計算量の最適性が証明された。
- ユークリッド距離を用いた場合,固定次元においては2次時間よりも高速なアルゴリズムが得られた。
TinyGoからgcコンパイラへ:Zoryaの動的解析フレームワークを実用的なGoバイナリへ拡張 [cs.CR, cs.SC, cs.SE]目的:実用的なGoバイナリにおける脆弱性検出
- ソフトウェアのセキュリティ確保は重要であり,バイナリ解析はそのための不可欠な手法である。
- 既存のバイナリ解析ツールは,多スレッド環境や実用的なコードベースへの対応が課題であった。
- Go言語の標準コンパイラgcで生成されたバイナリに対する脆弱性検出能力の向上を目指す。
- Zoryaをgcコンパイラで生成された多スレッドバイナリに対応するように拡張した。
- Kubernetes,Go-Ethereum,CoreDNSなど,実世界のGoプロジェクトから11件の脆弱性を解析した結果,7件のバグを検出した。
- 検出されたバグの中には,他のツールでは手動でオラクルを用意しない限り検出できないものも含まれる。
連合学習の汎化誤差を制限するための階層的サンプリングフレームワーク [cs.LG, cs.IT, math.IT, stat.ML]目的:連合学習における汎化誤差の上界
- プライバシー保護が求められる分散環境での機械学習の重要性が高まっている。
- 連合学習では,クライアントデータの異質性が汎化性能を阻害する要因となる。
- 階層的サンプリングによって,クライアントデータ間の依存関係を考慮し,汎化誤差を評価する。
- Wasserstein距離を用いて,階層的連合学習の汎化誤差の上界を導出した。
- 提案手法は,既存のCMIに基づく上界を改善し,差分プライバシーとの組み合わせも可能である。
- ガウス位置モデルにおいて,提案手法の理論的な限界が確認された。
マイクロサービスにおける根本原因分析のためのマルチエージェントシステム [cs.SE]目的:マイクロサービスにおける根本原因分析の自動化
- マイクロサービスアーキテクチャの普及に伴い,障害発生時の迅速な原因特定が重要になっている。
- 従来の根本原因分析は,単一の診断経路に依存し,複雑なシステムでは限界がある。
- 本研究は,マルチエージェントシステムを用いて,より高精度かつ効率的な根本原因分析を目指す。
- 提案手法LATS-RCAは,LLMを活用したマルチエージェントフレームワークであり,ツリー構造探索によって根本原因を特定する。
- オープンソースシステムLight-OAuth2 (LO2)を用いた評価では,高い診断精度が確認された。
- 実稼働環境での評価では,LO2と比較して精度が低下し,計算コストが増加するものの,実用可能性が示された。
ProgramBench:言語モデルは最初からプログラムを再構築できるか [cs.SE, cs.AI]目的:ソフトウェアエンジニアリングエージェントによるソフトウェア開発能力の評価
- ソフトウェア開発における言語モデルの活用が広がり,自動化のニーズが高まっている
- 既存のベンチマークは限定的なタスクに偏っており,大規模なソフトウェア開発能力を評価できない
- プログラムとドキュメントから,参照実行可能ファイルの動作に一致するコードベースを構築する能力を測る
- ProgramBenchは,エージェント駆動のファジングによって生成された包括的な動作テストを用いて評価を行う。
- 評価した9つの言語モデルはいずれもタスクを完全に解決できず,最も優れたモデルでもタスクの3%のみで95%のテストに合格した。
- モデルは,人間が書いたコードとは大きく異なる,単一ファイルでモノリシックな実装を好む傾向がある。
有限ブロック最適性:制約マルコフ源に対するパレート型アプローチ [cs.SI, cs.IT, math.IT]目的:注入型符号化における有限ブロック最適性のパレート型概念の検討
- 情報理論において,効率的な符号化はデータ圧縮の鍵であり,通信や記憶媒体の効率化に不可欠である。
- 従来の符号化理論では,非制約的なソースを前提とする場合が多いが,実際には制約が課される場合がある。
- 制約付きマルコフ源におけるパレート最適性を評価し,効率的な符号化手法を確立することを目指す。
- ダルアイ・レオナルディが提示した4シンボル制約マルコフ源に対し,canonicalな注入型二進マッピングを構成した。
- 構成された符号化において,ブロック長nの期待符号長がnに対して線形よりも小さいことが示された。
- この結果は,ダルアイ・レオナルディの可逆符号が有限ブロック平均長に関してパレート最適ではないことを示唆する。
偶数強度の直交配列の被覆半径に関する新しい上限 [cs.IT, math.IT]目的:強度2kの二値直交配列の被覆半径の新しい上限
- 組み合わせ最適化において,効率的な符号化や実験計画法に直交配列は不可欠である。
- 直交配列の被覆半径の評価は困難であり,既存の上界は必ずしも最適ではない。
- 既存の上界を改善し,二値直交配列の被覆半径をより正確に評価すること。
- 線形計画法により,既存の Tiet{\"a}v{\"a}inen bound よりも優れた上限を得ることができた。
- BCH,Melas,Zetterberg コードの双対に関連する無限個の二値直交配列族について,下界を導出した。
- 線形計画法と代数幾何学的手法を組み合わせることで,被覆半径のより正確な推定が可能となった。
関手圏を用いたD機関の定式化 [cs.LO]目的:D機関の定式化
- 論理学において変数は不可欠であり,論理を公理化する機関理論でも扱われる重要な要素である。
- 変数を直接導入せず,変数の拡張を用いる手法は,条件が煩雑になり議論を複雑化させる場合がある。
- 関手圏の一般化により変数の構造を直接導入することで,より簡潔な定式化を目指す。
- 述語論理の圏を定義し,複合文の導入を関手として定式化した。
- 証明系を導入し,完全性定理を証明した。
符号付き二部グラフにおける小さな平衡(p,q)-二部クリック数の算出 [cs.DS]目的:符号付き二部グラフにおける平衡(p,q)-二部クリック数の算出
- 大規模ネットワーク構造の理解にはモチーフ分析が不可欠であり,二部グラフも例外ではない。
- 符号付き二部グラフにおけるモチーフ分析は,符号なしグラフと比較して十分な注目を集めていない。
- 固定サイズの頂点集合を持つ二部モチーフの算出という,実用的な状況で重要な課題を解決する。
- 既存のBCList++アルゴリズムを拡張したSBCList++をベースラインとして実装した。
- 制約を考慮したwedge-centricアプローチBBWCと,頂点ベースの枝刈り法BBVPを提案した。
- BBVPはSBCList++と比較して平均636倍の高速化を達成し,優れた性能を示した。
命題論理プログラムに対する集合演算 [cs.LO]目的:命題論理プログラムの構成と分解に関する代数的枠組み
- 論理プログラムはAIや知識表現の中核であり,その効率的な構築と解析が重要である。
- 既存の手法では,プログラムのモジュール化と再利用が難しく,複雑なプログラムの解析が困難である。
- プログラムを構成要素に分解し,それぞれの意味論から全体の意味論を再構築・近似する手法を確立する。
- 命題論理プログラムに対し,規則の本体を構造的に操作する集合演算を導入した。
- 最小限プログラムは,本体が1つの原子のみからなるKromプログラムへと分解でき,その最小モデルは構成要素の最小モデルから計算可能である。
- 任意のプログラムに対しても,同様の近似結果が得られた。これは論理プログラムに対する新たな代数的視点を提供する。
コードの自己同型性を活用した症候群に基づくニューラル復号の性能向上 [cs.IT, cs.LG, math.IT]目的:症候群に基づくニューラル復号の性能向上
- 誤り訂正符号は,通信やデータストレージにおける信頼性確保に不可欠である。
- 従来の復号手法は計算量が多く,リアルタイム処理が困難な場合がある。
- ニューラル復号モデルの学習データ不足による性能低下を改善する。
- コードの自己同型性を利用したデータ拡張により,小規模なデータセットでも高性能なモデルを構築できる。
- 提案手法は,最大尤度復号(MLD)の性能に匹敵する結果を達成した。
- 既存研究におけるニューラル復号モデルの性能評価は,学習不足により過小評価されている可能性がある。
ポリツリー学習のための正確および近似アルゴリズム [cs.DS, cs.CC, cs.LG]目的:ポリツリー学習における最適化と効率的な近似手法
- ベイジアンネットワークは複雑なシステムをモデル化する上で重要であり,推論の効率化が求められる。
- 最適なポリツリー学習はNP困難であり,大規模データへの適用が困難である。
- 効率的なアルゴリズムを開発し,実用的な時間で近似解を得ることを目指す。
- 本研究では,任意の入次数制約下で,$O((2+\epsilon)^n)$時間で最適ポリツリーを求めるアルゴリズムを開発した。
- 既存のアルゴリズム($O(3^n)$)よりも高速であり,計算量の改善に貢献する。
- 任意のスコア関数に対し,$k$以内の近似解を多項式時間で求められるアルゴリズムも提示した。
遷移代数の誘導規則 [cs.LO]目的:遷移代数におけるコンパクトな証明系の構築
- 書き換えシステムの形式的解析に不可欠であり,プログラム検証や自動推論への応用が期待される。
- 既存の証明系は完全性を有するもののコンパクト性を持たず,現実的な問題への適用が困難である。
- 誘導規則に限定したコンパクトな証明系を構築し,その完全性を保証することでこの問題を解決する。
- 遷移代数に対し,誘導規則に制限した新たな証明系を提案した。
- 提案された証明系は完全性を持ち,コンパクト性も満たすことが示された。
- モデル理論的な証明を通して,Craig補間定理が成立することも確認された。
準双対行列に基づく量子二重包含CSS LDPC符号の設計と解析 [cs.IT, math.IT, quant-ph]目的:準双対行列に基づく高レート量子二重包含CSS LDPC符号の構成
- 大規模量子コンピュータ実現には,信頼性の高い量子誤り訂正符号が不可欠である。
- 既存の量子誤り訂正符号は,誤り訂正性能と実装の複雑さのトレードオフがある。
- ハダマールゲートの横断的実装を可能にし,低複雑度デコードを実現する符号を設計する。
- 本研究で提案する符号は,サイクル特性や自己同型群,最小距離に関して理論的な解析を行った。
- 数値シミュレーションにより,提案符号は既存の二重包含符号と比較して,有限長誤り率性能が優れていることを示した。
- 異なるブロック長や符号レートにおいて,優れた誤り訂正性能が確認された。
バックトラッカブルインプロセッシング [cs.LO]目的:インクリメンタルSATソルビングにおける,任意の決定レベル・任意時点でのインプロセッシングの適用
- SATソルバの性能向上は,ハードウェアやソフトウェアの検証を含む様々な分野において不可欠である。
- 従来のインプロセッシングは,グローバルな決定レベルでのみ実行可能であり,その有効性に限界があった。
- 本研究は,任意の決定レベルでのインプロセッシングを可能にし,SATソルバの性能向上を目指す。
- バックトラッカブルインプロセッシング(BI)フレームワークを提案し,インプロセッシングの適用範囲を大幅に拡大した。
- サブサムプション,自己サブサム消去,Bounded Variable Elimination (BVE)といった効率的な技術を組み合わせた。
- Hardware Model Checking Competition 2017のBMCベンチマークにおいて,BIの有効性が実証された。
Stack Overflowのコード品質における地理的変動:コーディング慣行に関する地域間研究の証拠 [cs.SE, cs.CY, cs.SI]目的:Stack Overflowのコード品質に関する地理的変動の特定
- ソフトウェア開発において,Stack Overflowは重要な知識源であり,コードの再利用が頻繁に行われている。
- Stack Overflowのコード品質は一様ではなく,特に地理的な文脈において,その理解は不十分である。
- コード品質と地域特性との関係を明らかにすることで,より安全で効率的なコード再利用を促進する。
- 可読性の問題が最も多く,次いで信頼性,パフォーマンス,セキュリティの違反が頻発していることが示された。
- 主要なテクノロジーハブは解析可能なコードを多く生成するが,違反密度は必ずしも低いとは限らない。
- コンピューティングデバイスへのアクセス,インターネット利用率,所得,富の分配が均等な州では,コード品質違反が少ない傾向にある。
