arXiv雑要約
プログラム - 2026/04/06 公開
俳句から大作まで,わずか10ビットで:LLMが大規模な圧縮率の向上を可能にする [cs.LG, cs.AI, cs.IT, math.IT]目的:LLM生成テキストの圧縮性能の評価
- LLMの利用拡大には,効率的なデータ圧縮が不可欠である。
- LLM生成テキストは情報量が多いため,圧縮が困難である。
- LLMを活用し,より効率的なテキスト圧縮手法を開発する。
- LLMのドメイン適応LoRAアダプターは,ベースLLM単体での算術符号化よりも2倍の圧縮性能を示す。
- LLMに簡潔な書き換えを指示後,算術符号化を適用することで,約0.03の圧縮率を達成し,元の応答を圧縮するよりも2倍の改善が見られた。
- 質疑応答型圧縮(QA)は,わずか10回の質問で,小規模モデルと大規模モデルの性能差の23%〜72%を回復可能であり,従来のLLM圧縮手法を100倍以上上回る圧縮率を実現した。
DrugPlayGround:創薬における大規模言語モデルと埋め込み表現のベンチマーク [cs.LG, cs.AI, cs.SE, q-bio.BM]目的:創薬のための大規模言語モデルおよび埋め込み表現の性能評価
- 創薬研究は,人々の健康に直接関わる重要な分野であり,効率化が求められている。
- 大規模言語モデルの客観的な性能評価がなく,従来の創薬プラットフォームとの比較が困難である。
- 大規模言語モデルの化学・生物学的推論能力を検証し,創薬における利用を促進する。
- DrugPlayGroundというフレームワークを開発し,大規模言語モデルの性能を評価した。
- 物理化学的特性,薬物相乗効果,薬物・タンパク質相互作用など,創薬に関連する記述の生成能力をベンチマークした。
- 専門家による予測の根拠の説明を通じて,大規模言語モデルの推論能力を検証した。
省エネなコード生成のためのコントラストプロンプトチューニングの初期探索 [cs.LG, cs.AI, cs.SE]目的:省エネなコード生成の促進
- ソフトウェアのエネルギー消費量は増加の一途を辿っており,持続可能な開発が重要である。
- LLMが生成するコードは機能的には正しくとも,人手で書かれたコードに比べてエネルギー効率が低い場合がある。
- LLMによる省エネなコード生成を可能にし,グリーンソフトウェア開発を支援すること。
- コントラストプロンプトチューニング(CPT)は,2つのモデルでコードの精度向上に一貫して貢献した。
- しかし,効率の向上はモデル,言語,タスクの複雑さによって異なり,必ずしも安定した改善には至らなかった。
- コントラスト学習とプロンプトチューニングを組み合わせることで,効率的なコードと非効率的なコードを区別する能力を高めることが可能となった。
KAIJU:意図ゲートによるLLMエージェントの実行のための実行カーネル [cs.SE, cs.PL]目的:LLMエージェントの意図ゲート実行と実行カーネル
- LLMエージェントは自動化の可能性を秘めるが,課題も多い。
- 既存手法は,遅延,コンテキスト増大,脆弱性といった問題がある。
- 意図に基づいた実行制御による,より安全で効率的なエージェントの実現。
- KAIJUは,計画と実行を分離するシステムレベルの抽象化を提案する。
- 意図ゲート実行(IGX)により,実行時にセキュリティを確保し,LLMの推論層から実行メカニズムを切り離す。
- 実験結果から,複雑なクエリにおいて並列データ収集により構造的な優位性を示す。
敵が何をしているか?戦術,技術,手順の抽出の自動化:体系的レビュー [cs.SE]目的:攻撃戦術,技術,手順の抽出に関する研究状況の分析
- サイバー攻撃は高度化しており,防御側は攻撃者の行動を常に把握する必要がある。
- 既存研究は目的,データセット,手法,評価方法が異なり,全体像の把握が困難である。
- 攻撃戦術,技術,手順の抽出に関する研究動向を明確にし,今後の課題を提示する。
- 技術レベルの分類が主流であり,戦術レベルの分類や技術の検索は未開拓である。
- ルールベースや従来の機械学習から,Transformerベースのアーキテクチャ(BERT等)への移行が進んでいる。
- 単一ラベル分類,限定的な評価設定,狭いデータセットが普及の妨げとなっており,汎化性能が課題である。
ILACによるセマンティクス認識協調型無線エージェントネットワーク [cs.NI, cs.NI, cs.IT, cs.MA, math.IT]目的:エージェントAIを活用した無線エージェントネットワークにおける効率的な協調
- 無線ネットワークは,単なるデータ伝送から,学習と通信を統合するインテリジェントな協調エコシステムへと進化しつつある。
- セマンティックな冗長性の処理や,通信・計算・制御を統合するメカニズムの不足が,エージェント間の効率的な協調の課題となっている。
- セマンティクスを認識した協調により,無線エージェントネットワークのエネルギー効率とスケーラビリティを向上させることを目指す。
- 提案フレームワークは,セマンティック圧縮による冗長性の排除,送信電力の最適化,物理的な軌跡調整を通じて知識を集約する。
- 階層的なアルゴリズムにより,リソース最適化とトポロジー進化を統合し,長期的なエネルギー最小化を実現する。
- シミュレーション結果は,提案フレームワークが従来のベンチマークと比較して,優れたエネルギー効率とスケーラビリティを達成することを示した。
曖昧性解消によるインタラクティブなクラウドインフラストラクチャコード合成 [cs.SE, cs.AI]目的:クラウドインフラストラクチャコードのインタラクティブな合成
- クラウドインフラの規模拡大と複雑化に伴い,IaCが不可欠となっている。
- 自然言語からのIaC生成において,ユーザー要求が曖昧であることが課題である。
- 曖昧性の構造的な解決と,対話的な明確化による高精度なIaC生成を目指す。
- 提案手法は,候補仕様の多様性生成と構造的差異の特定により,曖昧性を解消する。
- 構造と属性の評価において,既存の最良手法をそれぞれ+18.4%,+25.4%上回る性能を示す。
- Ambig-IaCベンチマークと評価フレームワークを新たに提供し,研究を促進する。
有向ネットワークにおける錯覚の除去 [cs.DS, cs.CC, cs.MA]目的:有向ネットワークにおける錯覚除去問題
- ソーシャルネットワーク分析において,ネットワーク構造とノードの属性の関係を理解することは重要である。
- ネットワーク構造とノードの色の分布が矛盾し,誤った認識を生む「錯覚」という問題が存在する。
- ネットワーク内のノードの色を最小限に変更し,この「錯覚」を解消することを目指す。
- 本研究により,錯覚除去問題はNP困難であることが示された。特にグリッドグラフや二部DAGにおいても困難である。
- しかし,外平面ネットワーク,外向きグリッド,木,サイクルなどの疎なネットワークでは,多項式時間で解けるアルゴリズムが存在する。
- また,基盤となる無向グラフのトレewidthや錯覚下にあるノード数に着目したアルゴリズムの効率性についても検討された。
大規模言語モデルとバグレファレンスによるMPIエラー検出・修復の改善 [cs.SE, cs.AI]目的:MPIプログラムにおけるエラー検出と修復手法
- 高性能計算においてMPIは不可欠であり,大規模シミュレーションや分散学習に広く利用されている。
- MPIプログラムはプロセス間連携が複雑であり,エラーの発見と修正が困難であるという課題がある。
- 大規模言語モデルを活用し,MPI特有のバグ情報を参照することで,エラー検出・修復の精度向上を目指す。
- 大規模言語モデルに,Few-Shot Learning,Chain-of-Thought,RAG等の技術を組み合わせることで大幅な性能向上が見られた。
- エラー検出精度は,ChatGPTを直接利用した場合の44%から77%へと,有意に改善された。
- 提案手法は,他の大規模言語モデルに対しても汎用性を持つことが実験的に示された。
プッシュダウンカラー付き Petri ネットに基づいた安全な Rust コードの合成手法 [cs.SE, cs.AI, cs.FL, cs.PL]目的:安全な Rust コードの合成
- メモリ安全性の重要性が増しており,安全なプログラミング言語の需要が高まっている。
- 所有権,借用,ライフタイム制約を満たすRustコードの自動合成は困難である。
- APIシグネチャから制約を直接モデル化し,有効な呼び出しシーケンスを合成することを目指す。
- 提案手法では,動的リソース状態とライフタイム領域を表現するプッシュダウンカラー付き Petri ネット(PCPN)を用いる。
- PCPNの推移規則は,型の一致,インタフェース義務,およびリソース状態の可用性に基づいており,コンパイラによる制約チェックと整合性があることが証明された。
- PCPNに基づく自動合成ツールを開発し,実験的に生成されたコードが全て正しいことを示した。
線上ターゲットに対するオンラインドローンカバレッジ [cs.DS]目的:ドローンまたはセンサーによるターゲット監視におけるカバレッジ最適化
- 監視対象の増加に伴い,効率的なドローンによるカバレッジ手法の需要が高まっている。
- ターゲット位置が逐次的に現れる状況下では,最適な移動経路の決定が困難である。
- オンライン環境におけるドローンの移動距離を最小化するアルゴリズムを開発する。
- 提案するアルゴリズム\FAは,他のアルゴリズムと比較して,$\pi/6 < \alpha < \pi/3$において優れた性能を示す。
- 視野角$\alpha = \pi/4$の場合,\FAの競争比は1.25であり,他のアルゴリズムの$\sqrt{2}$よりも低い。
- 視野角$\alpha \in [0, \pi/4]$におけるオンラインアルゴリズムの競争比の下限は,$\alpha = \pi/4$で$(1+\sqrt{2})/2 \approx 1.207$となる。
AIコーディングエージェントにおける開発者体験:ドキュメントポータルのHTTP行動特性 [cs.SE]目的:AIコーディングエージェントのドキュメント利用に関する行動特性の分析
- 開発者体験の向上は,ソフトウェア開発の効率性と品質に不可欠である。
- AIエージェントの台頭により,従来のドキュメント利用指標の信頼性が低下している。
- AIエージェントの行動特性を把握し,ドキュメントポータルの最適化を目指す。
- AIエージェントは,複数ページのナビゲーションを1~2回のリクエストに圧縮する傾向がある。
- 従来のセッション深度,滞在時間,クリックパスなどの指標は,AIエージェントによるドキュメント消費量を正確に反映しない。
- ドキュメント設計,機械可読規格の採用,フィードバックチャネルの構築,AI紹介トラフィックの分析が推奨される。
解決率を超えて:コーディングエージェントの成功と失敗の行動要因 [cs.SE]目的:コーディングエージェントの成功と失敗を引き起こす行動要因の解明
- ソフトウェア開発の自動化は,生産性向上やコスト削減に不可欠であり,その重要性は増している。
- 既存のコーディングエージェントは依然として多くの問題を抱えており,高いエラー率が課題となっている。
- エージェントの失敗原因を特定し,成功に繋がる行動パターンを明らかにすることを目指す。
- 大規模な実験により,単純な修正作業でも,アーキテクチャに関する理解やドメイン知識の不足が失敗の原因となることが示された。
- タスクの難易度を考慮すると,軌跡の長さと失敗の相関関係は逆転し,エージェントの行動構造が成功をより正確に予測することが明らかになった。
- LLMの能力がエージェントのパフォーマンスと行動の主要な要因であり,フレームワークの設計よりも大きな影響を与えることが示された。
最適誤差によるロバスト学習 [cs.DB, cs.CL, cs.IR, cs.DS, cs.LG]目的:敵対的ノイズ下における学習アルゴリズムの最適誤差構築
- 機械学習の信頼性を高める上で,ノイズの影響を軽減することは重要である。
- 決定論的仮説では達成できない誤差率が存在する点が課題であった。
- ランダム化仮説を用いることで,最適な誤差率を達成し,既存の課題を解決する。
- 悪意のあるノイズ環境において,最適誤差が決定論的仮説を上回ることを示した。
- 不快なノイズ環境において,分布非依存学習者および固定分布学習者において,決定論的仮説より最適誤差が改善されることを示した。
- 無知なノイズと不快な分類ノイズモデルにおいて,最適誤差が決定論的仮説よりも優れていることを示した。
支配集合に対する非シグナリング局所性下界 [cs.DS]目的:支配集合問題に対する非シグナリング分布の局所性下界の導出
- 分散計算における基本的な局所被覆問題であり,重要な課題である。
- 既存の研究では,アルゴリズムと下界の間には大きな隔たりが存在する。
- LOCALモデルを超えた非シグナリングモデルにおける局所性の下界を確立する。
- 支配集合に対する$O(\log\Delta)$-近似の非シグナリング分布には,局所性$\Omega(\log n/(\log\Delta \cdot \mathrm{poly}\log\log\Delta))$が必要となる。
- ある$\beta \in (0,1)$に対して,$O(\log^\beta \Delta)$-近似の非シグナリング分布には,局所性$\Omega(\log n/\log\Delta)$が必要となる。
- この結果とKMWの定理を組み合わせることで,量子LOCALモデルにおける$\Omega(\sqrt{\log n/\log\log n})$の下界が得られる。
形式表現に基づく定理の探索可能性の実現 [cs.CL, cs.CY, cs.HC, cs.AI, cs.PL]目的:定理とその証明の探索可能性
- 複雑な定理の理解には,詳細な検討と段階的な確認が不可欠である。
- 従来のテキスト形式の証明では,インタラクティブな操作や検証が困難である。
- 形式表現を用いることで,定理の理解を深める探索的な学習環境を構築する。
- LLMを用いて定理と証明をLeanコードに変換し,ステップごとの実行と検証を可能にした。
- 読者は具体例や反例を試すことで,証明の論理的依存関係を追跡し,理解を深めることができる。
- ユーザ調査の結果,探索機能を利用した参加者は,証明の理解度に関する質問への回答において,より正確で詳細な回答を示した。
触媒ペブリングによるほぼ対数空間での多項式時間木評価 [cs.CC, cs.DS]目的:木評価問題の多項式時間,ほぼ対数空間アルゴリズム
- 計算複雑性理論において,PとLの分離を示す問題候補として重要である。
- 既存のアルゴリズムは,空間使用量は対数空間に近いものの,多項式時間で動作しないという課題があった。
- 空間使用量と時間複雑性のトレードオフにより,多項式時間で動作するアルゴリズムを開発する。
- 本研究では,木評価問題を多項式時間かつほぼ対数空間で解くアルゴリズムを初めて提案した。
- 提案アルゴリズムは,任意のε>0に対して,時間O(poly(n)),空間O(log^(1+ε)n)で木評価問題を解く。
- さらに,本アルゴリズムはO(log n)ビットの自由空間しか必要とせず,残りは触媒空間として利用可能である。
相関を用いた確率的関数認証 [cs.RO, cs.DS]目的:確率的ブール関数認証問題における,期待されるプローブ回数の最小化
- 確率的ブール関数認証は,ランダムな入力に対する関数評価において重要であり,効率的なプローブ戦略が求められる。
- 既存研究では独立性を仮定することが多く,相関のある分布下での認証性能は未解明であった。
- 相関のある分布における確率的関数認証問題に対し,近似アルゴリズムを開発し,性能評価を行う。
- マトロイドの全域木判定問題において,任意の分布に対して $O(\log n)$ 近似アルゴリズムが実現可能であることを示した。
- 一様マトロイドに対しては,定数倍の近似アルゴリズムが構築でき,さらに負の相関を持つ場合,2近似アルゴリズムに改善できる。
- k-一様マトロイドにおけるグラフプローブ問題に対し,$O(\log k)$ 近似アルゴリズムを提示し,既存の情報理論的下界を大幅に改善した。
実行トレースに基づく多エージェント討論による自動プログラム修復 [cs.SE]目的:複雑な論理エラーや潜在的欠陥に対する自動プログラム修復の改善
- ソフトウェアの信頼性向上は,社会インフラやビジネスにおいて不可欠であるため,自動プログラム修復技術の発展が求められる。
- 従来のAPR技術は,複雑なロジックや動的なデータ依存関係を捉えきれず,誤った修復パッチを生成する可能性がある。
- 実行トレースを客観的制約として活用し,より正確で汎用性の高い修復パッチを生成することを目的とする。
- TraceRepairは,Defects4Jベンチマークにおいて392件の欠陥を正しく修正し,既存のLLMベースのアプローチを大幅に上回る性能を示した。
- 実行時の事実を共有制約として利用する多エージェントフレームワークにより,動的な推論に基づいた修復が可能となった。
- 新たに構築された最近のバグのデータセットにおいても,高い効率と汎用性を示し,性能向上が暗記によるものではないことを確認した。
GBQA:LLMを品質保証エンジニアとして評価するためのゲームベンチマーク [cs.SE, cs.AI]目的:LLMによるソフトウェアバグの自律的な検出能力の評価
- ソフトウェア品質の確保は,現代のソフトウェア開発において不可欠であり,その自動化が求められている。
- 動的な実行環境の複雑さから,LLMによるバグ検出はコード生成に比べて難易度が高い。
- ゲーム開発を代表的な領域として,LLMの自律的なバグ検出能力を評価するためのベンチマークを構築する。
- GBQAは,30のゲームと124の人間が検証したバグを含むベンチマークであり,難易度レベルも考慮されている。
- 最良のモデルであるClaude-4.6-Opus(思考モード)でさえ,検証されたバグの約48.39%しか特定できないという結果が出た。
- GBQAは,自律的なソフトウェアエンジニアリングの進歩を促すための適切なテストベッドおよび評価基準となり得る。
AgentSZZ:バグを引き起こすコミットを検出するためにLLMエージェントに探偵の役割を教える [cs.SE]目的:バグを引き起こすコミットの特定
- ソフトウェアの品質向上は重要であり,バグの早期発見と修正が不可欠である。
- 従来のバグ特定手法では,ファイル内変更の追跡に依存し,クロスファイルやゴーストコミットの検出が困難である。
- LLMエージェントを活用し,適応的なバグ追跡と効率的なコンテキスト圧縮を実現することで,バグ特定精度の向上を目指す。
- AgentSZZは,既存のSZZアルゴリズムを凌駕し,F1スコアを最大27.2%向上させた。
- 特に,クロスファイルやゴーストコミットといった難易度の高いケースにおいて,リコールが最大300%,60%それぞれ向上した。
- タスク固有のツールとドメイン知識の重要性が確認され,圧縮モジュールはトークン消費量を30%以上削減した。
単体モデルにおける秘密の論理 [cs.LO, math.LO]目的:多エージェントシステムのための単体モデルにおける秘密の論理
- 知識の表現に幾何学的意味論を用いる単体モデルは,知識モデリングにおいて重要な役割を果たす。
- 従来の単体モデルでは,秘密を既存の知識構造のみでは完全に捉えきれないという問題点がある。
- 本研究は,単体モデルに秘密の層を追加することで,より正確な秘密のモデリングを目指す。
- 単体秘密モデルを定義し,エージェントの局所状態に関連付けられた秘密近傍関数を導入した。
- 秘密演算子$S_a\varphi$を定義し,エージェント$a$が$\varphi$を知っており,かつ$\varphi$の真理集合が$a$の秘密近傍に属する場合に真となるようにした。
- システム$\mathsf{SSL}$の健全性と,多エージェントの場合($|A|\ge 2$)における完全性を証明した。
TypePro:手続き間スライシングによるLLMベースの型推論の強化 [cs.SE, cs.PL]目的:動的言語における型推論の精度向上
- 動的言語の柔軟性は便利だが,型関連エラーが増加し,型推論の負担が増大する。
- 既存手法では,型推論の文脈が局所的であり,十分な情報が得られないという課題がある。
- 手続き間スライシングにより文脈情報を補完し,LLMの型推論能力を向上させる。
- 提案手法TypeProは,ManyTypes4PyデータセットでTop-1 EM率88.9%を達成した。
- ManyTypes4TypeScriptデータセットにおいても,Top-1 EM率86.6%を記録した。
- TypeProは,既存手法と比較してTop-1 EM率を7.1%p,10.3%pそれぞれ改善し,有効性を示した。
チョムスキー階層を通して見る大規模言語モデルの形式的推論能力の評価 [cs.CL, cs.AI, cs.LG, cs.SE]目的:大規模言語モデルの形式的推論能力の評価
- 自動ソフトウェア工学の進展には,大規模言語モデルの形式的推論能力が不可欠である。
- 既存のベンチマークは,計算と複雑さに基づく体系的な評価が不足しており,形式的推論能力の理解に課題がある。
- チョムスキー階層の視点から,大規模言語モデルの形式的推論能力を体系的に評価するベンチマークを開発し,その限界を明らかにすること。
- 大規模言語モデルの性能は,チョムスキー階層の複雑さレベルと明確な相関関係があることが示された。
- タスクの難易度が増すと,推論長と性能が大幅に低下することが明らかになった。
- より大規模なモデルや高度な推論手法は相対的な改善をもたらすが,実用的な信頼性を達成するには膨大な計算コストがかかり,効率性の問題が示唆された。
IndustryCode:産業コード生成のベンチマーク [eess.SY, cs.SY, cs.MA, cs.SE, cs.AI, cs.CL]目的:産業コード生成の評価
- 産業分野における知能化・意思決定最適化において,大規模言語モデルのコード生成・理解能力が重要になっている。
- 既存のベンチマークは単一分野・言語に偏り,実世界での汎用性や複雑な産業シナリオへの対応が不十分である。
- 複数分野・言語に対応した包括的なベンチマークを提供し,産業応用におけるLLMの能力を評価する。
- IndustryCodeは,125の産業課題から派生した579の小問題で構成されており,厳格な問題記述とテストケースを伴う。
- 評価の結果,最高性能モデルであるClaude 4.5 Opusは,小問題で68.1%,主要問題で42.5%の正答率を達成した。
- ベンチマークデータセットと自動評価コードは,採択後に公開される予定である。
プロンプト駆動型テストスクリプト生成における小規模言語モデルの持続可能性に関する実証研究 [cs.SE]目的:プロンプト駆動型テストスクリプト生成における小規模言語モデルの持続可能性
- 自動テストの重要性が増す中で,その環境負荷への関心が高まっている。
- 大規模言語モデルの環境影響分析は存在するが,小規模言語モデルのそれは不足している。
- 小規模言語モデルを用いたテストスクリプト生成の環境負荷と性能を明らかにする。
- 小規模言語モデルは,モデルの種類によってエネルギー使用量,実行速度,安定性,テストカバレッジに異なる特性を示す。
- プロンプトの構造とモデル選択が,環境負荷と性能の両方に影響を与えることが示された。
- 本研究は,持続可能な小規模言語モデルを用いたテストスクリプト生成に関する実証的根拠を提供する。
信頼性の低いシグナルを用いた最適価格設定 [cs.GT, cs.DS]目的:AI支援意思決定やLLM予測の利用増加に触発された,信頼性の低い顧客情報に基づく単一バイヤーの価格設定問題
- AIやLLMの活用が進む中,意思決定の質を左右する情報の信頼性評価が重要になっている。
- 価格設定において,売り手は顧客の評価に関する不確実性と,情報自体の信頼性という二重の不確実性に直面する。
- 情報の信頼性に関する非対称性が存在する状況下で,最適な価格設定メカニズムを明らかにすること。
- 一貫性(正確なシグナル下での性能)と堅牢性(幻覚的なシグナル下での性能)のトレードオフを特徴付けるパレート最適解を導出した。
- 信頼性の低いシグナルを秘匿することが価値を生み出し,公開シグナルベンチマークを厳密に上回るトレードオフを実現することを示した。
- 完全な一貫性を維持しつつ,意味のある幻覚に対する保護(ロバストネスの保証)を実現するメカニズムが存在することを示した。
SLMベース自動テスト生成におけるプロンプト戦略の持続可能性分析 [cs.RO, cs.HC, cs.SE]目的:SLMベース自動テスト生成におけるプロンプト戦略の持続可能性
- ソフトウェアテスト自動化の重要性が増す中,その環境負荷への配慮が求められている。
- AI駆動型テストにおける持続可能性研究はLLMに偏っており,SLMにおけるプロンプト戦略の影響は未解明である。
- SLMを用いた自動テスト生成において,持続可能性を考慮したプロンプト戦略の選択を支援すること。
- プロンプト戦略は,モデル選択よりも大きな影響を及ぼし,持続可能性に有意な影響を与えることが示された。
- Chain of ThoughtやSelf-Consistencyといった高度な戦略はカバレッジ向上に貢献するが,実行時間やエネルギー消費量,炭素排出量が増加する。
- Zero-ShotやReActなどのシンプルな戦略は,環境負荷を抑えつつ,競争力のあるテスト品質を実現する。
SLMとプロンプトエンジニアリングによるコード生成の環境影響評価 [cs.SE]目的:SLMとプロンプトエンジニアリングを用いたコード生成における環境影響の定量化
- AIの普及に伴い,AI技術の環境負荷が重要課題となっている。
- SLMのローカル実行は環境負荷を分散させるが,その可視化が課題である。
- プロンプトエンジニアリングが環境負荷に与える影響を明らかにすること。
- プロンプト戦略と精度は必ずしも相関せず,環境負荷を改善する余地がある。
- Chain-of-Thoughtは,推論能力とエネルギー効率のバランスに優れている。
- 電力網の炭素強度(grid carbon intensity)が,排出量に最も影響を与える。
依存関係に基づいたリポジトリレベルのCからRustへの翻訳と強化学習によるアラインメント [cs.SE]目的:CからRustへの自動移行
- ソフトウェアのセキュリティ向上は重要であり,パフォーマンスを犠牲にすべきではない。
- 従来のルールベース手法では多様なCのイディオムに対応できず,柔軟性に欠ける。
- リポジトリレベルでの依存関係を正確にモデル化し,構文的正確性と機能的な等価性を検証する。
- 提案手法DepTransは,強化学習を活用した構文学習により生成品質を向上させている。
- 依存関係に基づいた反復的な改良により,ファイル間の依存関係を捉え,Rustコードを洗練させる。
- 実験の結果,DepTransはコンパイル成功率60.7%と計算精度43.5%を達成し,既存のベースラインを上回る性能を示した。
メタバースにおける協調的なユーザーアソシエーション,タスクオフローディング,リソース割り当てのためのデジタルツイン支援型インネットワーク・エッジ協調 [cs.DC, cs.IT, math.IT]目的:メタバース環境におけるユーザーアソシエーション,タスクオフローディング,リソース割り当ての最適化
- 拡張現実(XR)技術の発展によりメタバースが注目を集めており,リアルタイムな処理能力が重要となっている。
- メタバースにおける2Dから3Dへの変換処理は計算負荷が高く,非対称なアップリンク・ダウンリンク特性が課題である。
- デジタルツインとインネットワークコンピューティングを活用し,効率的なリソース利用と低遅延化を実現することを目指す。
- 提案手法は,システムユーティリティ,アップリンク速度,エネルギー効率を大幅に向上させることをシミュレーションで実証した。
- デジタルツインを活用することで,リアルタイムな同期と協調的な計算が可能となり,メタバース環境のパフォーマンスを最適化する。
- 分散型の強化学習アルゴリズムにより,ユーザーアソシエーションと送信電力の最適化を実現し,ナッシュ均衡に到達する。
act仕様および検証言語の形式的定義とメタ理論 [cs.PL, cs.LO]目的:act仕様および検証言語の形式的定義とメタ理論
- ソフトウェアの信頼性確保において,形式手法の重要性が高まっている。
- 既存の仕様記述言語では,厳密な意味論の定義が不足している場合がある。
- act言語の厳密な意味論を確立し,検証の基礎を築くことを目指す。
- act言語の構文,演算的ポインタ意味論,型システムを形式的に定義した。
- 型安全性の主要なメタ理論的結果を証明することで,言語の信頼性を保証した。
最小距離,リスト復号,対称チャネル性能の関係に関する重み分布の限界 [cs.IT, math.IT]目的:誤り訂正符号の最悪の場合とランダムノイズ特性との関係
- 誤り訂正符号は,通信やデータストレージにおいて信頼性を確保する上で不可欠である。
- 符号の性能評価は複雑であり,最小距離だけでは十分な指標とはならない場合がある。
- リスト復号や対称チャネル性能との関連性を明確化し,より正確な性能評価を目指す。
- 最近の結果を一般符号に拡張し,リスト復号半径と対称チャネル性能の密接な関係を明らかにした。
- 相対距離δを持つq進符号が,対称チャネル上で消失する誤り確率を示すJohnson半径J_q(δ)まで成り立つことを示した。
- 線形符号の場合,δの範囲においてこの限界を改善し,消去特性と重み分布の不等式を活用した汎用的な手法を提示した。
リアプノフ関数の構成性:Assume-Guarantee推論による [cs.LO, math.CT, math.DS]目的:Assume-Guarantee推論によるリアプノフ関数の構成性
- システムの安全性検証は,信頼性の高いシステム開発に不可欠であり,その自動化が求められている。
- 複雑なシステム全体を一度に検証することは困難であり,モジュールごとの検証手法が課題である。
- Assume-Guarantee推論を応用し,システムのモジュール構造を考慮した安全性検証を可能にすること。
- Assume-Guarantee推論を,Generalized Moore Machineというシステムモデルに適用する枠組みを提案した。
- 特に,パラメータ化された常微分方程式系に対する(L)ISSリアプノフ関数の検証のための新しいAssume-Guarantee推論を提示した。
- この枠組みは,カテゴリー論的に自然であり,システム構成要素の組み合わせに対して容易に適用できる。
BugForge:DBMSバグレポジトリの構築と利用によるDBMSテストの強化 [cs.RO, cs.SE]目的:DBMSバグレポジトリの構築と,それを利用した高品質なテストケース生成
- DBMSは複雑なシステムであり,バグはシステム障害やデータ整合性の問題を引き起こす可能性があるため,品質確保が重要である。
- バグレポートの多様性や不完全性により,統一されたリポジトリの構築と高品質なテストケースへの変換が困難である。
- バグレポジトリを構築し,DBMSテストの自動化やバグ発見を支援することで,DBMSの信頼性向上を目指す。
- BugForgeは,PostgreSQL,MySQL,MariaDB,MonetDBの37,632件のバグレポートを統合したDBMSバグレポジトリを構築した。
- 構築したリポジトリを用いて,開発者によって22件が確認された35件の新たなバグを発見した。
- バグレポジトリの構築と利用が,DBMSテストの有効性を高めることを示した。
孤立したタスクを超えて:シーケンシャルなソフトウェア進化におけるコーディングエージェントを評価するためのフレームワーク [cs.SE, cs.AI]目的:コーディングエージェントのシーケンシャルなソフトウェア進化における評価フレームワーク
- ソフトウェア開発の自動化は生産性向上に不可欠であり,その評価手法が重要である。
- 既存の評価データセットは単一のタスクに焦点を当てており,現実のソフトウェア開発における複雑さを捉えられていない。
- 長期的な視点でのエージェントの性能評価と,ソフトウェアの健全性維持を目指す。
- 既存のデータセットによる評価は,現実的な設定と比較して過大評価されていることが判明した。
- エージェントが問題を解決できたとしても,人間と比較してコードの複雑性や技術的負債が増加する傾向にある。
- 連続したプルリクエストの連鎖を通して,シーケンシャルな実行能力,回帰検証,長期的なリポジトリの状態を評価できるフレームワークを提案した。
二値入力無記憶対称チャネルにおける事後一致法:漸近的でない境界と低複雑度符号化 [cs.IT, math.IT]目的:二値入力無記憶対称チャネルにおける可変長フィードバック符号の性能限界
- 通信効率向上のためには,チャネル容量に近づく符号化方式の検討が重要である。
- 既存研究は,離散出力チャネルに限定されており,連続出力チャネルへの適用が困難であった。
- 本研究では,より広範なチャネルに適用可能な事後一致法を解析し,性能限界を導出する。
- 事後一致法を用いた可変長フィードバック符号の期待復号時間を,通信・確認・回復項に分解した漸近的でない達成可能領域を導出した。
- 符号化アルゴリズムとして,対数尤度比に基づくメッセージのグルーピングとバッチ修正を行う低複雑度なエンコーダを提案した。
- 連続出力チャネルに対しては,精度の高い量子化を行うことで,容量損失を抑制し,実用的な符号化を可能とした。
静的コード解析と大規模言語モデルの組み合わせによるアルゴリズム認識の正確性と性能の向上 [eess.SY, cs.SY, cs.SE]目的:アルゴリズム認識の自動化における,大規模言語モデルと静的コード解析の組み合わせの効果
- 開発者の時間の多くがソースコードの理解に費やされるため,自動アルゴリズム識別は重要である。
- 既存手法では,アルゴリズム認識の精度や処理速度に課題が残されている。
- 静的コード解析とLLMの組み合わせにより,アルゴリズム認識の精度と効率を改善すること。
- 大規模言語モデルと軽量な静的解析を組み合わせることで,LLMの呼び出し回数を72.39-97.50%削減できた。
- この組み合わせにより,実行時間が大幅に短縮され,F1スコアが最大12%向上した。
- 2つの事例を用いたIn-Context Learningが,分類性能と実行時間のバランスに優れていた。
現実系システム形式解析モデルに関する第7回ワークショップ議事録 [cs.LO, cs.SE]目的:現実系システムの形式モデル開発
- 複雑なシステムに対する形式的な検証は,信頼性確保に不可欠である。
- 玩具問題が多く,現実的な規模のシステムへの適用が課題。
- モデル構築の過程で得られる知見を重視し,形式化の意義を再評価する。
- 本ワークショップは,現実系システムの形式モデル開発における課題解決を目指す。
- モデル構築の重要性を強調し,検証に偏りがちな既存研究のバランスを改善する。
- 大規模な事例研究を通じて,形式的な手法の適用可能性を検証する。
HistMSO:MONAを用いた整合性モデルの推論のための論理 [cs.PF, cs.LO, cs.DC, cs.FL]目的:レプリケーションデータシステムにおける整合性モデルの推論
- 分散システムにおけるデータ整合性は,信頼性と可用性の確保に不可欠である。
- 既存の検証手法は複雑であり,人的な専門知識に依存し,自動化が困難である。
- 整合性モデルの形式的な表現と,自動化された推論手法の開発。
- HistMSOは,Burckhardtが導入した履歴および抽象実行の形式モデルを表現できる。
- ViottiとVukolicの整合性モデル階層における42モデルのうち39モデルを表現可能である。
- HistMSOの充足可能性およびモデル検査問題を,単語上のMSO問題に帰着できる。
SkillRT:至るところで効率的な実行のためのスキルのコンパイル [eess.SY, cs.SY, cs.SE, cs.LG]目的:LLMエージェントにおけるスキルの移植性と実行効率の向上
- LLMエージェントの能力向上には,再利用可能なスキルが不可欠である。多様なプラットフォームでの利用が求められている。
- 現在のシステムでは,スキルを単なるコンテキストとして扱うため,エージェント間でスキルの挙動が不一貫になるという課題がある。
- スキルをコードとして扱い,LLMを異種プロセッサとすることで,移植性と効率性を実現するシステムを開発する。
- SkillRTは,多様なモデルと環境においてタスク完了率を大幅に向上させる。
- トークン消費量を最大40%削減し,効率的なスキル実行を可能にする。
- 並列処理の強化により最大3.2倍の高速化,コード固めにより19-50倍のレイテンシ削減を実現した。
PAFT:最小編集プログラム修復のための保存を意識した微調整 [cs.CL, cs.SE]目的:最小編集プログラム修復における性能向上
- プログラムの自動修復は開発効率を向上させる上で重要である。大規模言語モデルの活用が期待されている。
- 既存手法では,修正箇所が局所的であるにも関わらず,必要以上にコード全体を書き換えてしまう問題がある。
- PAFTは,変更すべき箇所と維持すべき箇所を明示的に識別し,より局所的な修正を促すことを目指す。
- PAFTは,標準的な微調整手法と比較して,pass@1スコアを最大65.6%向上させることが示された。
- 平均編集距離(AED)も最大32.6%削減され,より効率的なプログラム修復が可能となった。
- Defects4Jデータセットにおいて,PAFTはAdaPatcherよりも高い性能を示し,pass@1スコアを向上させた。
AI支援によるユニットテスト作成とテスト駆動型コードリファクタリング:事例研究 [cs.SE, cs.AI]目的:AI支援によるユニットテスト作成と安全なリファクタリングの実現
- ソフトウェア開発における長期的な保守性は重要である。迅速な開発のみでは,将来的な変更が困難なコードベースとなる。
- 初期のプロトタイプやMVPは,保守性よりも迅速なリリースが優先されるため,変更に弱いコードになりがちである。
- AIを活用し,ユニットテストを自動生成することで,安全かつ効率的なコードリファクタリングを可能にすること。
- AIモデルを用いて約16,000行の信頼性の高いユニットテストを短時間で生成することに成功した。
- 主要モジュールにおいて最大78%のブランチカバレッジを達成し,大規模リファクタリング時の回帰リスクを大幅に低減した。
- 本研究は,ソフトウェア工学における経験科学の重要性を示し,高速かつ安全な反復を支援するデータ収集と制約メカニズムを強調する。
動的貪欲的集合被覆のためのアルゴリズム設計 [cs.DS]目的:動的集合被覆問題に対する貪欲的アルゴリズムの性能評価
- 集合被覆問題は,様々な最適化問題に応用可能であり,実用的な重要性が高い。
- 理論的な進歩はあるものの,実用的な性能に関する体系的な検証が不足していた。
- 現実的なシナリオにおいて,どのアルゴリズム戦略が最も有効か明らかにする。
- 最新のフレームワークを簡略化し,4つの貪欲的アルゴリズムを実装・評価した。
- アルゴリズムのパラメータβが品質と効率のトレードオフに与える影響を調査した。
- 現実的なデータセットにおいて,効率性と解の質を比較分析した結果を示した。
ガウスフェージングからギルバート・エリオットへ:閉形式における物理層とリンク層チャネルモデルの接続 [cs.DL, cs.CL, cs.IT, eess.SP, math.IT]目的:ガウスフェージングモデルとギルバート・エリオットモデル間の正確な接続
- 無線通信における信頼性の高いデータ伝送には,チャネル特性の正確なモデル化が不可欠である。
- 物理層とリンク層では,チャネルモデルの抽象化レベルが異なり,互いの変換が困難である。
- ガウスフェージングモデルからギルバート・エリオットモデルへの閉形式な変換式を導出すること。
- ガウス過程を離散的なスロット境界で閾値処理することにより,任意の閾値に対するGE遷移確率を導出した。
- 遷移確率は,一次相関係数ρのみに依存するため,任意の定常ガウスフェージングモデルに適用可能である。
- カーネルの滑らかさがリンク層のダイナミクスを決定し,相関長TcとGEの持続時間の関係がカーネルの種類によって異なることが示された。
二元線形符号における完全ランク特性付けのための代数的手法 [cs.CY, cs.IT, math.IT]目的:二元体上の記号行列の完全ランク同値条件導出手法
- 通信・情報理論における線形符号問題の基礎となる重要な概念である。
- 完全ランク制約が最適化問題を複雑化させる点が課題である。
- 完全ランク制約を三角形式の等式制約で表現し,最適化を容易にすること。
- 本研究では,特性集合(CS)に基づく手法を用いて,二元体上の記号行列の完全ランク同値条件を導出するアルゴリズム(BCSFR)を提案した。
- BCSFRアルゴリズムは,特性集合の零点として完全ランク同値条件を効率的に導出し,線形ネットワーク符号や分散ストレージ符号など,特定の線形符号問題における実行可能な符号化方式を特徴付けることができる。
- 導出された同値条件を用いることで,最適化問題における複雑な完全ランク制約を,より単純な三角形式の等式制約として明示的に表現することが可能となる。
高次元信号圧縮:格子点限界と測度エントロピー [cs.IT, cs.NA, math.IT, math.NA, math.NT]目的:高次元信号圧縮におけるコードブックサイズの理論的上限
- 情報伝送やデータ圧縮において,信号を効率的に表現する技術は重要である。
- 高次元信号の圧縮においては,次元の呪いにより,必要な表現精度が指数関数的に増加する。
- 座標依存型量子化精度下での格子点数を評価し,圧縮効率の上限を厳密化する。
- 座標依存量子化精度を持つ$\ell^2$エネルギー制約下での最悪ケース信号圧縮を解析した。
- 平衡精度プロファイルにおいて,対数コードブックサイズに関する次元依存の上界を導出した。
- Olenkoの均一ベッセル限界と明示的なアベルの総和を用いて,Landauの古典的な格子点推定を改良した。
産業界の主張から実証的現実へ:プルリクエストにおけるコードレビューエージェントの実証研究 [cs.SE]目的:プルリクエストにおけるコードレビューエージェントの効果
- ソフトウェア開発において,コードレビューは品質維持と知識共有の重要なプロセスである。
- 自動コードレビューエージェントの普及に伴い,そのレビュー品質が開発効率に与える影響が不明確である。
- コードレビューエージェントのレビュー品質とプルリクエストの成功率の関係を実証的に解明すること。
- コードレビューエージェントのみによるプルリクエストの統合率は45.20%であり,人間のみによるレビューの68.37%を下回る。
- コードレビューエージェントのみによるプルリクエストの破棄率は人間のみによるレビューよりも有意に高い。
- 分析の結果,コードレビューエージェントによるフィードバックの信号対雑音比は低く,無駄なレビューにつながる可能性が示唆された。
グロタンディーク定数に関する下界 [math.FA, cs.DS]目的:グロタンディーク定数 $K_G$ の下界の推定
- 関数解析学において,線形演算子の性質を評価する上で重要な定数である。
- 長年,グロタンディーク定数の正確な値を決定することが困難であった。
- 既存の下界を改善し,$K_G$ のより精密な値を求めることを目指す。
- グロタンディーク定数 $K_G$ が $K_G\geq c+10^{-26}$ を満たすことを示した。
- これは,1984年と1991年のデイヴィーとリードによる下界 $c=1.676956674215576\ldots$ を改善するものである。
ストリーミングCSPに対するほぼ最適な空間下限 [cs.CC, cs.DS]目的:ストリーミング制約充足問題における制約充足率の近似における空間下限の評価
- 制約充足問題は,AIや探索問題など,幅広い分野で基礎となる重要な問題である。
- 大規模な制約充足問題では,制約が逐次的に入力されるため,メモリ使用量が課題となる。
- メモリ使用量と近似精度のトレードオフを明らかにし,効率的なアルゴリズム設計を目指す。
- 本研究では,既存研究よりも強い空間下限を導き,ストリーミングCSPの性能限界を明確化した。
- 特に,pパスアルゴリズムにおいて,近似精度と必要な空間との関係を示す下限を改善した。
- 特定のCSPに対しては,近似精度を向上させるために必要な空間が線形に増加することを示した。
- 1
- 2
