arXiv雑要約
プログラム - 2026/03/18 公開
IQuest-Coder-V1技術報告書 [cs.CE, cs.AI, cs.CL, cs.SE]目的:コード大規模言語モデルの開発と性能評価
- ソフトウェア開発の自動化は,生産性向上や人的資源の有効活用に不可欠である。
- 既存モデルは,複雑なソフトウェアの論理的進化を捉えきれていない。
- 動的なソフトウェアの論理的進化を捉えたモデルを構築し,コード理解能力を向上させる。
- IQuest-Coder-V1は,エージェント型ソフトウェア開発,競技プログラミング,複雑なツール利用において,最先端の性能を達成した。
- コードフロー多段階学習という新しいパラダイムを導入し,モデルの論理的基盤を強化した。
- IQuest-Coder-V1-Loopは,モデル容量とデプロイメントのフットプリントのトレードオフを最適化する再帰機構を備えている。
ランダム定常ストリームにおける弾性スケッチ:極限振る舞いとほぼ最適な設定 [cs.CL, cs.DS, cs.PF]目的:データストリームにおけるアイテム出現回数のカウント手法
- データストリーム処理において,メモリ使用量と精度のトレードオフが重要である。
- 既存手法では,メモリ効率と精度を両立させるのが難しい場合がある。
- ストリーム特性が未知の場合でも最適なパラメータ設定を可能にする。
- 弾性スケッチの性能がストリーム特性と退去閾値に強く依存することを明らかにした。
- 定常乱数ストリームモデル下で,カウンタの極限分布と期待カウント誤差を導出した。
- メモリ分割と退去閾値の効率的な調整を可能にし,最適な閾値の構造を特徴づけた。
InCoder-32B:産業用途向けコード基盤モデル [cs.SE, cs.AI]目的:産業用途におけるコードインテリジェンスの統合
- 近年のLLMの進歩は目覚ましいが,ハードウェアや制約条件への対応が課題である。
- 汎用プログラミングタスクでは高性能だが,産業分野では性能が著しく低下する。
- チップ設計,GPU最適化等,特殊なドメインにおけるコード生成能力の向上を目指す。
- InCoder-32Bは,14の汎用コードベンチマークと9の産業ベンチマークで高い性能を示した。
- 汎用タスクにおいて競争力のある性能を発揮し,産業ドメインで強力なオープンソースベースラインを確立した。
- 効率的なアーキテクチャと,段階的なコンテキスト拡張,実行検証による学習を実施した。
初心者プログラマのための認知負荷を考慮した自動リファクタリングによるコード理解の向上 [cs.SE]目的:初心者プログラマのコード理解の改善
- プログラミング学習において,コードの理解は不可欠であり,学習効率を大きく左右する。
- 初心者は曖昧な命名,深いネスト,構造の乱れにより,コード理解に苦労しがちである。
- 認知科学に基づいたリファクタリングにより,コードの複雑さを軽減し,理解を助けることを目指す。
- CDDRefactorERは,リファクタリングの失敗率を54-71%削減し,サイクロマティック複雑度と認知複雑度の増加を抑制した。
- 人間による実験では,初心者の関数識別能力が31.3%向上し,構造的可読性が22.0%向上した。
- 認知に基づいたリファクタリングは,初心者のコード理解を効果的に高める実用的な方法であると考えられる。
実現可能な汚染下における高次元ガウス平均推定 [cs.LG, cs.DS, math.ST, stat.ML, stat.TH]目的:高次元ガウス分布の平均推定
- データ解析において,データの分布を正確に把握することは重要である。
- 欠損データは一般的な問題であり,欠損メカニズムによっては推定が困難になる。
- 欠損メカニズムが特定可能な範囲で,効率的な推定手法を確立すること。
- 実現可能な汚染モデルにおいて,情報理論的な限界と計算量のトレードオフが存在することが示された。
- 統計的クエリモデルにおいて,サンプル数と計算時間の間にギャップがあることが証明された。
- 提案されたアルゴリズムは,理論的な限界に近いサンプル・時間トレードオフを実現している。
ManiTwin: 10万件のデータ生成対応デジタルオブジェクトデータセットへの拡張 [cs.RO, cs.AI, cs.GR, cs.LG, cs.SE]目的:データ生成対応デジタルオブジェクトデータセットの構築
- ロボットの操作能力向上にはシミュレーション学習が有効だが,大規模かつ多様なデジタルアセットが不足している。
- シミュレーション学習に必要な,高品質な3Dアセットの準備がボトルネックとなっている。
- 単一画像からシミュレーション可能な3Dアセットを自動生成し,データセットを大規模化することでこの課題を解決する。
- ManiTwinは,単一画像からシミュレーション可能な3Dアセットを効率的に生成するパイプラインである。
- ManiTwin-100Kは,10万件の高品質なアノテーション付き3Dアセットを含むデータセットである。
- 実験により,ManiTwinが効率的なアセット合成・アノテーションワークフローを提供し,多様なアセットが操作データ生成などに有用であることが示された。
記述から設計へ:望ましい創発特性を持つ複雑系の自動設計 [physics.soc-ph, cs.IT, math.IT, nlin.AO]目的:複雑系における望ましい創発特性の自動設計手法
- 複雑系科学は,様々な分野で重要性を増しており,その理解が不可欠である。
- 複雑系のマクロな特性はミクロな特徴から予測が難しく,設計が困難である。
- 記述統計を損失関数として利用し,創発特性を自動的に設計する手法を開発する。
- 記述統計を損失関数に変換することで,複雑系の設計を自動化するパイプラインを提案した。
- Kuramotoモデルを用いた実験で,本手法が非自明なグローバル特性を再現できることを示した。
- 接続コストやトポロジー制限といった制約条件を考慮した設計も可能であることを示した。
量子場の理論の形式化 [hep-th, cs.LO, math-ph, math.MP]目的:量子場の理論における自由ボソン量子場の理論の形式化
- 量子場の理論は,素粒子物理学の基礎であり,現代物理学において不可欠な理論である。
- 量子場の理論の厳密な数学的基礎付けは難しく,証明の検証に手間がかかる。
- 機械検証可能な証明を通じて,量子場の理論の厳密性を高めることを目指す。
- 本研究では,Lean 4を用いて量子場の理論の重要な結果を形式化し,数学的な証明を機械的に検証することに成功した。
- 以前は仮定としていたMinlosの定理,Schwartz空間の核性,Goursatの定理がLeanとMathlibのみで証明された。
- AI支援による形式化は,理論物理学の発展に新たな道を開き,証明の信頼性を向上させる可能性を示す。
ほぼ独立同一分布情報理論 [quant-ph, cs.IT, math.IT]目的:ほぼ独立同一分布状態における情報処理性能の評価
- 情報理論は,資源記述に独立同一分布を仮定するが,操作的な正当性は不明である。
- 現実の資源には相関が存在し,完全な独立同一分布状態は理想化されている。
- ほぼ独立同一分布状態が,理想的な独立同一分布状態と遜色ない性能を示すか検証する。
- ほぼ独立同一分布状態の条件エントロピーは,漸近的に独立同一分布状態と一致する。
- この結果は,スクワッシュドエンタングルメントがほぼ独立同一分布状態に対しても頑健であることを示す。
- スクワッシュドエンタングルメントの値は,ほぼ独立同一分布状態と独立同一分布状態において漸近的に一致する。
ブルート順序におけるコクセター群からのCSSコード [quant-ph, cs.CC, quant-ph, cs.IT, math-ph, math.IT, math.MP]目的:興味深い符号パラメータを持つCSSコードの族の生成
- コクセター群は,群論と幾何学を結び,様々な数学的構造の研究に不可欠である。
- 量子誤り訂正符号の設計には,効率的で高性能な符号構造の確立が課題となる。
- ブルート順序を利用し,コクセター群に基づく新たなCSSコードの設計を目指す。
- ブルート順序と面ポセットの構造を利用することで,様々なCSSコードを生成できる。
- 生成されたCSSコードは,制御された安定化子重みを持つものや,不規則な重み分布を持つものを含む。
- 重い安定化子を扱うための重み削減法も開発され,より実用的な符号設計に貢献する。
二重切断確率変数の累積残余区間エントロピーについて [math.PR, cs.IT, math.IT]目的:二重切断確率変数の累積残余区間エントロピーの理論的性質
- データ分析において,不確実性の定量化は重要な課題である。
- 既存のエントロピー指標では,区間内に限定されたデータの不確実性を適切に評価できない場合がある。
- 区間データに対する不確実性指標として,累積残余区間エントロピーを提案し,その性質を明らかにすること。
- 累積残余区間エントロピーのいくつかの表現形式を,信頼性指標,共分散,関連変換などを利用して導出した。
- 累積残余区間エントロピーの上限と下限,および単調性に関する結果を得た。
- この指標は,累積残余エントロピーの一般化であり,二重切断データの分析に有用である。
ワイヤレスデジタルツインの較正:DFT領域チャネル情報の洗練 [eess.SP, cs.IT, math.IT]目的:ワイヤレスデジタルツインの較正手法
- 大規模MIMOシステムでは,チャネル状態情報(CSI)取得のオーバーヘッド削減が重要である。
- 高精度なデジタルツイン構築には計算コストがかかり,リアルタイム処理が困難である。
- 低計算量で高精度なチャネル情報生成を実現し,リアルタイムシステムへの応用を目指す。
- 提案手法は,デジタルツインモデル自体を較正するのではなく,DFT領域のチャネル情報を較正する。
- コードブックに基づくCSIフィードバックにおいて,適切なDFTコードワードを特定する精度が向上する。
- シミュレーション結果から,提案手法はCSI取得精度を高めつつ,デジタルツインの計算負荷を低減できることが示された。
高エネルギー物理における計測機器ソフトウェアと機械学習に関する若手研究者向けトレーニング品質調査の結果 [hep-ex, cs.SE]目的:高エネルギー物理における若手研究者向けの計測機器ソフトウェアと機械学習のトレーニングプログラムの現状
- 高エネルギー物理実験では,計測機器ソフトウェアと機械学習の活用が不可欠である。
- 若手研究者はオープンソースソフトウェアを頻繁に利用するが,十分なトレーニングを受けていない現状がある。
- 若手研究者へのトレーニングプログラムの改善に向けた指針を提供することを目指す。
- 調査の結果,174名の参加者のうち71%が計測作業でオープンソースソフトウェアを利用していることが明らかになった。
- しかし,その70%がこれらのツールに関するトレーニングを受けていないという課題が示された。
- 本報告書は,トレーニングプログラム改善のための指針として活用されることが期待される。
一般化退化文字列における量子パターンマッチング [quant-ph, cs.DS]目的:量子計算モデル下でのパターンマッチングの高速化
- 文字列処理は情報科学の根幹であり,データ検索や解析に不可欠である。
- 退化文字列のパターンマッチングは計算コストが高く,大規模データへの適用が課題となる。
- 量子計算を用いることで,退化文字列におけるパターンマッチングの計算量を削減する。
- 従来のアルゴリズムではO(mn+N)の時間がかかっていたが,量子アルゴリズムを用いることで,$\tilde{O}(\sqrt{mnN})$の実行時間となる。
- これにより,大規模な退化文字列データにおけるパターン検索の効率が向上すると期待される。
不完全情報下におけるISACのための最適無線資源管理:資源経済主導型アプローチ [physics.plasm-ph, cs.DC, eess.SP, cs.IT, cs.NI, math.IT, math.OC]目的:不完全情報下での統合センシング・通信システムにおける無線資源管理設計
- 通信とセンシングを統合することで,より効率的な無線資源利用と新たな応用が可能になる。
- 現実のシステムでは,モーション,量子化,遅延などにより情報に不確実性が伴う。
- エネルギーと時間の消費を最小化し,特に時間節約を優先することで資源の経済性を高める。
- 提案手法は,従来の方式と比較して最大88%の性能向上を実現する。
- 無線資源管理の構成要素間の重要な相互依存性が明らかになった。
- 問題の隠れた凸性を活用することで,厳密な混合整数半正定計画問題(MISDP)として定式化できる。
FAlCon:量子ドットデバイスのアルゴリズム制御のための統一フレームワーク [quant-ph, cond-mat.mes-hall, cs.PL, physics.ins-det]目的:量子ドットデバイスのアルゴリズム制御に関する統一的なフレームワーク
- スピンベース量子システムは発展が著しいが,大規模化に伴い制御の複雑性が増大している。
- デバイス間のばらつきや制御システムの異質性により,実験手順の再利用が困難である。
- 実験装置に依存しない制御ロジックを共有し,実験手順の自動化と効率化を目指す。
- FAlConは,ハードウェアに依存しないドメイン固有言語と量子ドットデータ構造を提供する。
- これにより,実験装置や研究室が異なっても,自動化された測定ワークフローを移植可能にする。
- このフレームワークは,量子ドット実験以外にも,他の量子ビットや科学実験への応用が期待される。
欠損データにおける高次元推定:統計的・計算的限界 [physics.soc-ph, cs.CY, math.ST, cs.DS, cs.LG, stat.ML, stat.TH]目的:欠損データ下の母集団パラメータ推定
- データ解析において,欠損データは頻繁に遭遇する課題であり,その適切な処理が重要である。
- 欠損メカニズムが未知の場合,推定のバイアスや効率低下を引き起こす可能性がある。
- 統計的限界と計算的限界を明らかにし,効率的な推定手法を確立すること。
- 真のデータがガウス分布に従う場合,平均推定において,統計的・計算的なギャップが存在することが示された。
- 効率的なアルゴリズムはサンプル数がより多く必要であり,sum-of-squaresに基づくアルゴリズムが理論限界に近づくことが示された。
- 線形回帰においては,そのようなギャップは存在せず,強凸な経験リスク最小化が情報理論的下限をほぼ達成することが示された。
単一レール量子ビットにおける非エンタングル補助量子ビットを用いたブーストされた線形光学的測定 [quant-ph, cs.IT, math.IT]目的:単一レール量子ビットの測定手法
- 光情報処理の発展には,光の量子状態に対する精密な測定が不可欠である。
- 従来の測定方法では,強い非線形性が要求され,効率的な測定が困難であった。
- 非エンタングル補助量子ビットを用いることで,効率的な測定の実現を目指す。
- 8ポート干渉計と光検出器を用いることで,$XY$ブロッフ平面における単一レール量子ビット測定が実現可能となった。
- 成功確率は$147/256$であり,従来の$1/2$の限界を超える結果が得られた。
ハーン・バナッハの定理の計算可能性に関する再検討 [math.LO, cs.LO]目的:ハーン・バナッハの定理の計算複雑性
- 数学基礎における計算可能性理論の重要性。計算可能な数学の範囲を明らかにする。
- ハーン・バナッハの定理の計算量に関する明確な理解の欠如。空間の変数が影響していた。
- $\ell^1$空間におけるハーン・バナッハの定理の完全な計算複雑性を解明すること。
- ハーン・バナッハの定理は,$\ell^1$空間においてその完全な複雑性を達成することが示された。
- $\ell^1$空間におけるワンステップハーン・バナッハの定理は,中間値の定理と同値であることが証明された。
- 無限積を用いたハーン・バナッハの定理から弱いケーニヒの補題への新しい簡潔な帰着が示された。
不完全な情報源を活用したブラックボックス監査におけるフェアウォッシングの検出 [cs.MA, cs.LG, cs.CY, cs.SE]目的:フェアウォッシング検出のための二重情報源監査モデル
- AI規制の強化に伴い,アルゴリズム監査の重要性が高まっている。
- 監査APIはプラットフォーム側に制御されており,欺瞞的な操作が可能である。
- 複数の情報源を用いることで,プラットフォーム側の操作を検出しようとする。
- 提案手法である二重情報源監査モデル(2SAM)は,監査APIと信頼できる独立したデータストリームを比較する。
- シミュレーションにより,単一情報源の監査では操作を見抜けない割合が明らかになった。
- UCI Adultデータセットを用いた実験で,70%の検出率を127回の検証クエリで達成した。
混雑クリックにおける最適(次数+1)彩色 [cs.DS]目的:混雑クリックモデルにおける(次数+1)リスト彩色問題の複雑性
- 分散計算における基本的な問題であり,並列処理の効率向上に不可欠である。
- 既存手法では,最適解を得るためのラウンド数が多く,スケーラビリティに課題がある。
- 混雑クリックモデルにおいて,決定的に定数ラウンドで解けることを示す。
- 本研究により,(次数+1)リスト彩色問題が混雑クリックモデルで効率的に解けることが示された。
- これにより,大規模グラフの彩色問題に対する実用的なアルゴリズム開発の道が開かれる。
- 古典的な$(\Delta+1)$-彩色問題やリスト彩色問題の拡張として,新たな知見が得られた。
型,方程式,次元とパイの定理 [cs.PL, cs.LO]目的:数学物理およびモデリングにおける次元の文法
- 物理法則は次元を持つため,正確な計算と検証に不可欠である。
- 既存のプログラミング言語は次元を適切に表現できない。
- 次元解析を形式化し,物理学と計算科学の融合を促進する。
- 依存型ドメイン特化言語をIdrisに埋め込み,次元の文法を捉えた。
- 次元関数,物理量,ホモモルフィック測定,共変性原理,バックンガムのパイの定理を形式化した。
- この言語は,計算科学者とモデラー/物理学者の間のアクセス性を向上させる。
LLAMAFUZZ:大規模言語モデルによるグレイボックスファジングの強化 [cs.CR, cs.AI, cs.SE]目的:構造化データに対するグレイボックスファジングの性能向上
- ソフトウェアの脆弱性発見において,ファジングは重要な役割を担う。
- 構造化データに対するランダム変異戦略は効果が限定的である。
- 大規模言語モデルを活用し,構造化データの有効な入力を生成する。
- LLAMAFUZZは,既存のファザーと比較して平均で41個多くのバグを発見した。
- 47個のユニークなバグが,全テストにおいて特定された。
- AFL++と比較して,実世界のプログラムセットにおいて平均で27.19%多くのブランチをカバーした。
ICCheck:言語非依存なコードクローン同期ツール [cs.SE]目的:コードクローンの一貫性維持
- ソフトウェア品質の維持には,コードの重複排除と一貫性確保が不可欠である。
- 異なる言語や環境におけるクローン同期ツールは存在せず,手動修正に頼らざるを得ない。
- 多様な環境でクローンの一貫性を保つための自動化ツールを提供すること。
- ICCheckは,既存の言語非依存クローン検索技術を活用し,Gitリポジトリへの依存を最小限に抑えた。
- 30以上のプログラミング言語でコードクローン修正を検出し,エディタ環境で0.27秒の平均応答時間で対話的な提案を行った。
- Language Server Protocolに対応することで,様々な開発環境への容易な統合を可能にした。
連続論理と有限領域を持つ連続構造における収束法則 [cs.LO, cs.AI, math.LO]目的:連続論理と有限領域を持つ連続構造における収束法則の証明
- 現代論理学は,従来の二値論理を超え,より柔軟な多値論理を必要としている。
- 多値論理における複雑な集約関数の取り扱いは,解析的な理解を困難にしている。
- 集約関数を持たない公式への漸近的等価性を示すことで,多値論理の解析を簡略化する。
- CLAにおける全ての公式は,漸近的に集約関数を持たない公式と同等であることが証明された。
- 変数のないCLAの公式について,確率が特定の区間に収束する値αが存在することが示された。
- この収束法則は,多値論理の確率的振る舞いを理解するための基礎となる。
オラクル量子プログラムのブラックボックステストフレームワーク [cs.SE, quant-ph]目的:オラクル量子プログラムのテスト手法
- 量子コンピューティングの発展において,古典コンピューティングとの連携は重要である。
- オラクル量子プログラムの信頼性確保には課題があり,体系的なテスト手法が存在しない。
- オラクル量子プログラムのテストを可能にし,量子ソフトウェアの信頼性向上に貢献すること。
- 本研究では,汎用的なオラクル量子プログラム向けのブラックボックステストフレームワークを提案した。
- 提案フレームワークにより,開発者はオラクル量子プログラムのテストを効率的に行えることが示された。
- 実験評価の結果,フレームワークが量子ソフトウェアの信頼性向上に役立つことが確認された。
最小歪みによる非バイアス低ランク近似について [cs.RO, cs.DS, cs.IT, cs.LG, math.IT, math.PR, math.ST, stat.TH]目的:固定されたターゲット行列Pの最適な低ランク近似
- 行列計算はデータ解析や機械学習の基盤であり,効率的な近似手法が不可欠である。
- 既存の低ランク近似はバイアスを持つ場合が多く,精度低下や歪みの問題がある。
- 非バイアスかつ最小歪みを持つ低ランク近似アルゴリズムを開発し,精度向上を目指す。
- 提案手法はターゲット行列Pの特異成分に対して適用することで,期待されるフロベニウスノルム誤差を最小化する。
- このアルゴリズムは,ベクトルに対する効率的な非バイアス疎化問題の解決策を拡張したものである。
- 最適性も証明されており,既存の下限との誤差が一致することを示している。
VERINA:検証可能なコード生成のベンチマーク [cs.LG, cs.AI, cs.LO, cs.PL, cs.SE]目的:検証可能なコード生成に関する包括的な評価
- LLMがソフトウェア開発に不可欠となる中,生成コードの正確性確保が重要課題となっている。
- 既存のベンチマークは個別の要素に焦点を当てており,全体的な評価フレームワークが不足している。
- コード,仕様,証明の生成およびそれらの組み合わせを総合的に評価できるベンチマークの提供。
- VERINAは,Lean言語で記述された189のコーディングタスクを含む高品質なベンチマークである。
- 最新のLLMの評価により,検証可能なコード生成,特に証明生成における課題が明らかになった。
- OpenAI o3は,コード正答率72.6%,仕様の健全性・完全性52.3%であったが,証明の成功率はわずか4.9%であった。
部分的な制約緩和がもたらす複雑性:有界木幅グラフ上の部分一般支配集合問題 [cs.DS, cs.CC]目的:部分一般支配集合問題における,制約緩和が問題の複雑性に与える影響の解明
- グラフ理論は,ネットワーク構造の解析に不可欠であり,様々な応用分野で重要な役割を果たす。
- 一般支配集合問題はNP困難であり,効率的な解法が求められている。特に大規模グラフにおける計算困難性が課題。
- 制約を緩和することで,問題が簡略化される可能性があり,より効率的なアルゴリズム設計を目指す。
- 固定された$\sigma$と$\rho$に対して,部分支配集合問題の計算複雑性を,Primal Pathwidth Strong Exponential Time Hypothesisの下で厳密に評価した。
- 特定の$\sigma$と$\rho$の組み合わせでは,部分支配集合問題は非部分的な場合と同程度の複雑性を持つことが示された。
- 一方で,別の組み合わせでは,部分的な制約緩和が問題の複雑性を大幅に増加させることが確認された。
環境認識型非直視界センシングおよび通信のための同一チャネル知識マップ利用 [cs.RO, cs.HC, cs.SY, eess.SY, cs.IT, eess.SP, math.IT]目的:環境認識型非直視界ISACの実現
- 次世代無線通信6Gにおいて,センシングと通信の統合ISACが効率的な手法として注目されている。
- 従来の無線センシング技術は,主に直視界を前提としており,複雑な環境下での応用が困難である。
- チャネル知識マップを利用し,非直視界環境下でのセンシング性能向上を目指す。
- 通信向けに構築したチャネル知識マップを,そのままセンシングに利用する革新的な手法を提案した。
- 提案手法は,通信とセンシングで共通のチャネル知識マップを使用することで,効率的な環境認識型ISACを実現する。
- シミュレーション結果から,古典的な幾何学的センシング手法と比較して,有意な性能向上が確認された。
無線通信のための大規模言語モデル:適応から自律性へ [cs.MA, eess.SY, cs.SY, cs.AI, cs.IT, math.IT]目的:無線システムにおける大規模言語モデルの役割
- 無線通信は社会基盤であり,高度化・複雑化が進んでいる。
- 従来の無線システムは変化への対応が遅く,最適化が困難である。
- 大規模言語モデルを活用し,無線システムの知能化・自律性を実現する。
- 大規模言語モデルは,無線通信における推論,汎化,ゼロショット学習能力を飛躍的に向上させる可能性を示す。
- 事前学習済みモデルの適応,無線特化型基盤モデルの開発,自律的な推論・協調機能を備えたエージェント型モデルが有望である。
- マルチモーダル融合,軽量モデルとの連携,自己改善能力が今後の課題として挙げられている。
機能バッチ符号とPIR符号の長さ [cs.SI, cs.CL, cs.IR, cs.IT, math.IT]目的:機能バッチ符号とPIR符号の最小長の算出
- 情報理論における符号化は,効率的な情報伝送と安全な情報保護に不可欠である。
- 機能バッチ符号とPIR符号の長さに関する厳密な上限・下限は未だ確立されていない。
- 有限体上の符号における最小長を特定し,機能バッチ予想への示唆を得る。
- 固定次元とリストサイズにおける最小長に関する既知の結果を一般化・改良した。
- 新たな上限と下限を提示し,最小長の漸近的な振る舞いを議論した。
- 特定のパラメータセットに対して最小長を計算し,非バイナリ有限体における適切なリストサイズの考察を行った。
SR-Eval:段階的要件洗練下でのコード生成におけるLLMの評価 [cs.SE]目的:段階的要件洗練下でのコード生成におけるLLMの評価
- ソフトウェア開発の現場では,要件が段階的に変化し,反復的な作業が不可欠である。
- 既存のベンチマークは静的な問題設定に偏っており,現実のソフトウェア開発ワークフローを捉えられていない。
- 現実的な開発ワークフローを反映した評価により,LLMの能力をより正確に把握することを目的とする。
- SR-Evalは,PythonとJavaにおける関数レベルおよびリポジトリレベルのタスクを網羅し,進化する要件に対するきめ細かい評価を可能にする。
- 評価の結果,段階的要件洗練下での反復的なコード生成は依然として困難であり,最高性能モデルでも関数レベルタスクの完了率は22.67%にとどまる。
- プロンプティング戦略が性能に大きく影響することが示され,高度な手法の開発の必要性が浮き彫りになった。
ロボット計画の対照的な説明のための存在論的基盤 [cs.RO, cs.AI, cs.IR, cs.LO]目的:ロボット計画の比較と,それらの相違点を説明する能力
- 人間とロボットの協調作業において,ロボットの行動理解は不可欠である。
- ロボットの意思決定の根拠を説明する能力が十分ではない。
- ロボットが異なる計画を比較し,その違いを明確に説明する手法の確立。
- 新たな存在論モデルを提案し,競合する計画間の差異を形式化・推論することを可能にした。
- 既存の説明生成アルゴリズムの限界を指摘し,それらを克服する新たなアルゴリズムを開発した。
- 実験評価の結果,提案手法は既存手法よりも優れた説明を生成することが示された。
基盤モデルによる実行可能ワークフローの信頼性向上への道 [cs.SE]目的:基盤モデルによる実行可能ワークフローの自動生成の信頼性向上
- 複雑なタスク実行には,複数の要素の連携が必要であり,その自動化は効率化に不可欠である。
- タスクを論理的な手順に分解し,ワークフローとして記述するには専門知識と労力がかかる。
- 基盤モデルが生成するワークフローの欠陥を検出し,修正する仕組みを確立すること。
- 基盤モデルが生成するDSLワークフローには高い割合で欠陥が含まれることが判明した(89.23%)。
- ワークフローの静的解析により,その欠陥の9種類を特定可能であることが示された。
- 静的解析からのフィードバックを活用することで,基盤モデルによるワークフローの自動修正が可能となった。
ジェンセン・シャノンとカルバック・ライブラーのダイバージェンスの接続:表現学習のための新しい上限 [cs.LG, cs.IT, math.IT]目的:表現学習における情報量最大化のための,カルバック・ライブラー・ダイバージェンスとジェンセン・シャノン・ダイバージェンスの関係性の解明
- 表現学習は,データから有用な特徴を抽出する上で重要であり,様々な機械学習タスクの性能向上に寄与する。
- 情報量の直接最適化は困難であり,実用的な代替指標が必要とされている。
- ジェンセン・シャノン・ダイバージェンスに基づく情報量推定の理論的根拠を明確にし,より安定した推定を可能にする。
- ジェンセン・シャノン・ダイバージェンスとカルバック・ライブラー・ダイバージェンスの間に新たな上限を導出し,理論的な繋がりを明確にした。
- 導出した上限は,情報量推定において既存の手法と比較して安定した低分散な推定値を提供することが実験的に示された。
- この結果は,情報ボトルネックフレームワークにおける識別学習の有用性を理論的にも実証的に裏付けるものである。
離散点警備における最適密度限界 [cs.DS]目的:離散点警備問題の密度限界に関する研究
- リアルタイムスケジューリングは,資源配分やタスク管理において重要であり,様々なシステムへの応用が期待される。
- 従来の密度限界は十分な性能を発揮せず,より効率的なスケジューリングアルゴリズムの設計が課題となっていた。
- 本研究は,離散点警備問題における密度限界を厳密に決定し,より実現可能なスケジューリング可能性を明らかにすることを目指す。
- 離散点警備問題において,密度が1.264以上のインスタンスは必ずスケジューリング可能であることが証明された。
- この結果は,既存の最良の密度限界1.546を大幅に改善し,最適性も示された。
- 竹刈り込み問題に対する効率的な9/7近似アルゴリズムが開発され,既存の4/3近似アルゴリズムよりも性能が向上した。
プロンプトとプログラム間の状態共有 [cs.PL, cs.AI]目的:プロンプトとプログラム間の状態共有の抽象化
- 大規模言語モデルの登場により,自然言語によるプログラミングが注目されている。
- プロンプトとプログラムの状態を連携させるには,手動での作業が必要であり,負担が大きい。
- プロンプトとプログラムの状態を直接共有することで,開発効率の向上を目指す。
- Nightjarシステムにおいて,プロンプトとプログラムの状態共有を実装した。
- Nightjarプログラムは,手動実装と同等かそれ以上のタスク精度を達成した(+4-19%)。
- 平均してコード量が39.6%削減されたが,実行時のオーバーヘッドが発生する(0.4-4.3倍)。
Aletheia:コード検証器のRLVRを駆動するものは何か? [cs.SE, cs.AI]目的:コード検証器におけるRLVRの性能とコストに影響する要素の解明
- 近年,強化学習による検証可能な報酬(RLVR)を用いた多ドメイン思考検証器が重要視されている。
- コード生成への応用は,RLVRパイプラインのコストにより遅れている。
- モデルサイズに応じた最適な訓練方法を提示し,検証器訓練の効率化を目指す。
- 小規模な検証器では,オンポリシー学習が主要な性能向上因子であることが示された。
- 大規模な検証器では,中間的な思考トレースが最も重要な要素となることが明らかになった。
- 負例の学習は大規模モデルの訓練を安定化させ,推論時の計算量増加ではRLVRの主要要素の代替は不可能である。
意味的同一性の圧縮:厳密な無誤り律動,レート歪み,そして神経記号的必然性 [cs.IT, cs.PL, math.IT]目的:意味的同一性を圧縮する際の,情報量の必要性に関する厳密な限界の特定
- 記号システムは正確な同一性に基づき,効率的なデータ処理に不可欠である。
- ニューラル埋め込みは,意味的詳細を圧縮する際に,同一性の衝突という曖昧さを生む。
- ニューラル埋め込みにおける意味的同一性の損失を定量化し,その限界を明らかにする。
- 表現写像の衝突ファイバー幾何学 $A_{\pi}$ が,必要な情報量の下限を決定づけることが示された。
- 無誤り律動,有限ブロックのスケーリング則,レート歪みトレードオフなどの厳密な限界が導出された。
- 記号的な同一性メカニズムは,非単射的な意味表現を補完するシステムレベルの必要条件であることが示された。
GitHub Actions ワークフローのためのセキュリティスキャナーの検証 [cs.SE, cs.CR]目的:GitHub Actions ワークフローセキュリティスキャナーの比較分析
- ソフトウェアサプライチェーン攻撃の増加に伴い,自動化基盤のセキュリティ確保が重要となっている。
- GitHub Actions ワークフローにおける権限過多,バージョン曖昧さ,完全性チェックの欠如が問題となっている。
- ワークフローのセキュリティ脆弱性を網羅的に検出し,開発者の対策を支援することを目的とする。
- 9種類のワークフローセキュリティスキャナーを比較した結果,対象範囲,検出能力,性能に多様性が見られた。
- スキャナーは異なる分析戦略を採用しており,検出される脆弱性の種類と数に大きな差があることが明らかになった。
- 本研究の結果に基づき,GitHub Actions ワークフローを強化するための具体的な提言を行った。
視覚言語行動制御ロボットの変態テスト [cs.RO, cs.SE]目的:視覚言語行動(VLA)制御ロボットにおけるテストオラクル問題を軽減すること
- ロボットの自律性が向上し,多様な環境での活用が期待される分野である。
- タスクごとにテストオラクルを定義する必要があり,汎用性に欠ける点が課題である。
- テストオラクルが不要な状況でも,VLAモデルの品質を評価する手法を確立すること。
- 変態テスト(MT)が,テストオラクル問題の軽減に有効であることが示された。
- 提案された変態関係パターンと関係は,異なるVLAモデル,ロボット,タスクに適用可能である。
- MTにより,未完了タスクを含む多様な不具合を自動的に検出できることが確認された。
部分的な視点下での厳密な整合性:多地点エンコーディングにおけるグラフ彩色可能性,容量,および等価性 [cs.RO, cs.DB, cs.IT, cs.PL, math.IT]目的:多地点エンコーディングの失敗に関する構造的理論
- データの正確性は,信頼性のあるシステム構築の根幹であるため重要である。
- 多地点エンコーディングでは,部分的な視点から整合性を保証することが難しい。
- 部分的な視点下での整合性の条件を明確にし,その限界を特定すること。
- 許容可能な部分的な視点は,潜在的なタプルの混同グラフを誘導し,正確な座標ビューモデルでは,このグラフクラスは座標合意セットの上向き閉じた族によって正確に特徴付けられる。
- T-aryタグによる正確な回復は,T-彩色可能性と同等であり,繰り返し合成は強い冪乗を生み出し,正規化されたブロックレート系列はLovász-θによって制限された漸近的なシャノン容量に収束する。
- 混同が推移的な場合,上限理論は鋭く,meet-witnessingとfiber coherenceは,その崩壊のためのチェック可能な十分条件を提供する。
効率的な具現化プランニングのためのKVキャッシュ中心メモリ管理システムKEEP [cs.RO, cs.AI, cs.SE]目的:効率的な具現化プランニングを実現するためのKVキャッシュ中心メモリ管理システム
- 大規模言語モデルの能力向上には,過去の経験と環境状態の追跡が不可欠である。
- 既存手法では,メモリをrawテキストで保存するため,プロンプトが長くなり,推論速度が低下する。
- KVキャッシュの効率的な再利用とメモリ更新の最適化による高速化を目指す。
- KEEPは,混合粒度メモリグループによるKVキャッシュ再計算の削減を実現した。
- 複数のメモリグループ間での重要なクロスアテンションを動的に特定し,反復的にメモリ間の相互作用を再構築する。
- ALFREDデータセットにおいて,テキストベースのメモリ法と比較して2.68倍の高速化を達成し,CacheBlendよりも高い成功率とTTFTの短縮を示した。
SWE-CI:継続的インテグレーションによるコードベース維持におけるエージェント能力の評価 [cs.SE, cs.AI, cs.CL]目的:コードベースの維持におけるエージェント能力の評価
- ソフトウェア開発は複雑化の一途を辿り,長期的な品質維持が重要課題となっている。
- 既存の評価手法は静的で短期的な機能検証に偏り,長期的な保守性の評価が困難である。
- 継続的インテグレーションを基盤とした評価ベンチマークを通じて,長期的な保守性を評価する。
- SWE-CIは,現実世界のコードリポジトリにおける233日間の変更履歴と71回のコミットから構成される。
- エージェントは,継続的な分析とコーディングを通じてタスクを解決する必要がある。
- SWE-CIは,エージェントが長期的なコード品質を維持できるかどうかの貴重な洞察を提供する。
製品開発におけるエンジニアリング解析のLLMによるエージェント的オーケストレーションDUCTILE [cs.SE, cs.AI, cs.HC]目的:製品開発におけるエンジニアリング解析の自動化支援
- 製品開発の効率化には,エンジニアリング解析の自動化が不可欠である。
- 従来の自動化は,ツールやデータ形式の変更に脆弱であり,変更が生じると機能停止する。
- LLMを活用し,柔軟なオーケストレーションにより,既存の自動化の課題を解決する。
- 本研究で提案するDUCTILEは,LLMエージェントが設計慣行を解釈し,入力データに応じて処理経路を適応させる。
- 実際の航空宇宙メーカーにおける構造解析タスクで,DUCTILEは従来のスクリプト型パイプラインを阻害する入力の偏差に対応した。
- 専門家が定義した受容基準と実践的なエンジニアによる検証の結果,DUCTILEは10回の独立した実行で正確かつ方法論的に準拠した結果を生み出した。
浮動小数点数実行下におけるLipschitzに基づくロバスト性保証 [cs.LG, cs.CV, cs.PL]目的:ニューラルネットワークのロバスト性保証手法の健全性
- ニューラルネットワークの安全性確保は重要であり,検証可能な保証が求められている。
- 既存のロバスト性保証は実数演算を前提としており,浮動小数点演算との乖離が生じる。
- 浮動小数点演算下でのロバスト性低下を評価し,保証条件を導出すること。
- 実数演算によるロバスト性保証が,浮動小数点数実行下では成立しない具体例が示された。
- ReLU活性化関数を持つフィードフォワードネットワークに対し,実数と浮動小数点数の感度を関連付ける理論が開発された。
- 浮動小数点数実行下でのロバスト性に関する健全な条件と,オーバーフロー回避のための条件が得られた。
草の根の絆:市場流動性のための草の根基盤 [cs.DC, cs.MA, cs.PL]目的:草の根債券の導入とその可能性
- グローバルな暗号通貨は裏付けがなく,取引コストが高い。地域経済圏での新たな金融システム構築が求められている。
- 草の根暗号通貨は1対1での交換を前提とし,金利を伴う信用取引が困難という課題があった。
- 草の根債券は,草の根暗号通貨の機能を拡張し,地域経済における流動性を生み出すことを目指す。
- 草の根債券は,草の根暗号通貨に満期日を付与することで,現金としての機能を拡張し,金利を生む取引を可能にする。
- デジタルソーシャルコントラクトを通じて,信用枠,融資,債務売却などの多様な金融商品を表現できる。
- GLP(Dart実装)を用いたプロトタイプの実装により,スマートフォン上での展開が可能であることが示された。
ほぼ一様エッジサンプリング:独立集合と局所グラフクエリの活用 [cs.DS]目的:サブ線形グラフアルゴリズムにおける計数とサンプリングの関係性
- グラフアルゴリズムの効率化は,大規模ネットワーク分析において重要である。
- エッジ計数と一様サンプリングの複雑性には,依然として差が存在する。
- 独立集合と局所クエリを組み合わせたモデルでの効率的なサンプリング手法の確立
- 独立集合クエリと局所クエリのハイブリッドモデルにおいて,エッジ計数推定と同等の複雑性での一様エッジサンプリングが可能となった。
- 独立集合クエリのみを用いたモデルにおいても,エッジ計数推定と同等の複雑性での一様エッジサンプリングが可能となった。
- 各クエリモデルにおいて,一様エッジサンプリングの下限が,近似エッジ計数の既知の下限とほぼ一致することが示された。
見ることと習得することは異なる:プライベートライブラリを利用したコード生成をLLMに教える [cs.CE, cs.SE, cs.AI, cs.CL]目的:プライベートライブラリを利用したコード生成
- LLMはコード生成に強い潜在力を持つが,プライベートライブラリ特化の生成は課題である
- 既存手法はAPIドキュメントの検索に頼るが,正確な知識があってもAPIの呼び出しは困難である
- 自動合成されたデータを用いてLLMにプライベートAPIの呼び出しを学習させる
- PriCoderは,プライベートライブラリのデータ合成をグラフ構造でモデル化し,多様性と品質を向上させる。
- 新たに構築したベンチマークにおいて,PriCoderは主要なLLMで20%以上のpass@1向上を示した。
- 一般的なコード生成能力への影響は軽微である。
