arXiv雑要約
プログラム - 2026/05/07 公開
損失なしコンテキスト管理:LCM [cs.AI, cs.PL, cs.SE]目的:LLMのメモリに関する決定論的アーキテクチャ
- 大規模言語モデルの性能向上には,長文コンテキストの効率的な処理が不可欠である。
- 既存のLLMでは,長文コンテキストを扱う際に性能が低下する問題がある。
- 損失なしコンテキスト管理により,長文コンテキスト処理の性能限界を打破することを目指す。
- LCMは,長文コンテキストタスクにおいて,Claude Codeよりも優れた性能を示す。
- LCMを組み込んだコーディングエージェントVoltは,Opus 4.6を用いた評価で,32Kから1Mトークンまでの全コンテキスト長で,Claude Codeを上回るスコアを達成した。
- 再帰的パラダイムを拡張し,コンテキスト操作における決定論的なアプローチを確立する。
LAWS:実ワークロードからの記号的学習 - ニューラル推論,ロボティクス,エッジ展開のための自己認証パラメトライズドキャッシュアーキテクチャ [cs.LG, cs.AI, cs.IT, cs.NE, math.IT]目的:実ワークロードから記号的に学習する自己認証推論キャッシュアーキテクチャの構築
- ニューラルネットワークの推論速度向上は,様々な応用において不可欠であり,計算資源の効率的な利用が求められている。
- 既存のキャッシュ手法では,キャッシュの精度と安全性の保証が難しく,誤った推論結果を招く可能性がある。
- LAWSは,安全性が保証されたキャッシュにより,ニューラル推論の効率性と信頼性を高めることを目指す。
- LAWSは,実環境でのワークロード観察から専門家関数ライブラリを構築し,入力空間を定義する確率的言語トライを用いて自己認証を行う。
- LAWSの近似誤差は,モデルのLipschitz定数,埋め込み直径,専門家訓練誤差によって制限され,これらは展開時に検証可能である。
- LAWSは,MoEやKVプレフィックスキャッシュを一般化し,固定KのMoEや有限キャッシュよりも表現力に優れていることが示された。
TSCG:エージェント型LLM展開のための決定論的なツールスキーマコンパイラ [cs.SE, cs.AI, cs.CL]目的:エージェント型LLMにおけるツールスキーマの変換
- LLMの能力を最大限に引き出すためには,ツールとの連携が不可欠である。
- JSON形式のツールスキーマはLLMにとって解釈が難しく,ツール利用の失敗を招く。
- LLMへのアクセスやファインチューニングなしに,この問題を解決することを目指す。
- TSCGは,JSONスキーマを効率的なテキスト形式に変換することで,ツール利用の精度を大幅に向上させる。
- Phi-4 14Bにおいては,ツール数が20個で精度を0%から84.4%に,50個で90.3%に改善した。
- TSCGは,トークン数を52-57%削減しつつ,実際のMCPスキーマでも高い精度を維持することが示された。
ChatGPT,Gemini,Claude AIを用いたレガシーソフトウェアのセマンティックリバースエンジニアリング [cs.CG, cs.SE, cs.DB]目的:レガシーデータベースソフトウェアのセマンティックリバースエンジニアリング
- 企業の基幹システムにはレガシーソフトウェアが多く,保守・改修が困難であるため。
- レガシーソフトウェアのドキュメントが失われたり,不完全であったりすることが多い。
- AIを用いてレガシーソフトウェアの機能を理解し,効率的な保守・改修を支援すること。
- ChatGPT,Gemini,Claude AIを用いて,レガシーソフトウェアのセマンティックリバースエンジニアリングが可能であることが示された。
- これらのAIモデルは,ソフトウェアのコードからその機能を推測し,自然言語で説明できる能力を持つ。
- 本研究は,AIを活用したレガシーソフトウェアの保守・改修の自動化に貢献する可能性がある。
人間中心型要求工学における二つの統合経路:構造的ギャップの体系的マッピング研究 [cs.SE, cs.HC]目的:人間中心型要求工学における統合経路の構造的ギャップ
- 要求工学において,ユーザーの認知,感情,社会性を考慮することが重要視されている。
- 学際的な貢献が細分化しており,要求工学ライフサイクル全体を通して統合が進んでいない。
- 人間中心型成果と形式的な要求仕様との間の翻訳メカニズムの欠如を解消すること。
- 本研究では,認知・形式的経路と参加型・反復的経路という二つの統合経路が確認された。
- それぞれの経路は独自の強みを持つが,両者の間の断絶がライフサイクルへの集中と理論と実践のギャップを引き起こしている。
- 経験中心型要求工学への基盤が確立され,ユーザーエクスペリエンスを要求仕様の主要な要素として扱う方向性が示唆された。
t\"{a}k\={o}Formal: プログラム可能なメモリ階層向け堅牢なソフトウェアの実現(拡張版) [cs.CL, cs.AR, cs.LO]目的:プログラム可能なメモリ階層t\"{a}k\={o}の動作を捉えるISAレベルのメモリ整合性モデルの構築
- アクセラレータは性能とエネルギー効率を向上させるが,ハードウェアとソフトウェアのインターフェースを大きく変える。
- t\"{a}k\={o}の導入は複雑性を増大させ,直感に反する結果をもたらす可能性がある。
- t\"{a}k\={o}プログラムの形式的推論を可能にするISAレベルのメモリ整合性モデルを確立すること。
- 本研究で開発したISAレベルのメモリ整合性モデルは,t\"{a}k\={o}の動作を正確に捉えることが示された。
- 実装モデルの検証により,ISAレベルのモデルの健全性が証明された。
- マイクロアーキテクチャのモデリングと検証に関する有用な知見が得られ,一般的なハードウェアにも適用可能であることが示された。
ゾノトープ包含に関するほぼタイトな上限とその先 [cs.DS, math.MG]目的:ゾノトープの包含問題に対する近似アルゴリズムの開発
- 凸集合の包含判定は,最適化,機械学習など広範な分野で基礎となる問題である。
- 一般に,凸集合の包含判定は計算コストが高く,効率的な近似アルゴリズムが求められている。
- オラクルモデルにおける下限に迫る,ゾノトープ包含問題の近似アルゴリズムを提案する。
- 提案アルゴリズムは,$\Omega(\sqrt{d/\log d})$という下限にほぼ一致する$O(\sqrt{d})$近似を達成する。
- タラグランド予想が成立する場合,最適近似率$\Theta(\sqrt{d/\log d})$が得られる。
- $\Delta$-モジュラーゾノトープに対するタラグランド予想の証明と,ゾノイドスパース化とスペクトルスパース化の関係性が示された。
安定したソフトウェアリモジュール化のためのマルチエージェント合意プロトコル [cs.SE]目的:ソフトウェアのリモジュール化における合意形成
- ソフトウェアの保守性向上には,適切なモジュール構造が不可欠である。
- 構造的凝集性と進化安定性の両立が,既存手法では困難であった。
- マルチエージェントによる合意形成を通して,安定性を重視したリモジュール化を実現する。
- 提案する非対称単調譲歩プロトコル(AMCP)は,多属性ユーティリティ閾値を尊重した分解を可能にする。
- プロトコルの終了性,譲歩行動,局所パレート最適性が形式的に証明された。
- 実験結果から,緩やかな安定性制約下では既存の最適化手法と同等,厳格な制約下では安定性を担保できることが示された。
ソフトウェアテストツール出力の視覚的比較分析 [cs.HC, cs.SE]目的:ソフトウェアテストツール出力における共通要素とパターン
- ソフトウェア開発においてテストは不可欠であり,結果の視覚化がテスト担当者の判断を支援する。
- テスト出力の視覚化に関するHCI研究は,ツール間の一貫性に着目した分析が不足している。
- テストツール出力の視覚化における共通要素と傾向を明らかにすること。
- 50のソフトウェアテストツール(CLI 44,GUI 6)の出力を4つのプログラミング言語で比較分析した。
- CLI環境とGUI環境の両方で,テスト出力のフォーマットや色の使用傾向に共通性が見られた。
- 本研究は,テストツール開発者への応用可能な知見を提供する。
注意に基づいたニューシンボリック微分可能ルール抽出器ANDRE [cs.AI, cs.LG, cs.LO]目的:ノイズと確率的設定における解釈可能なファーストオーダー論理規則の学習
- データから解釈可能なルールを学習するILPは,知識発見や意思決定支援に不可欠である。
- 従来のILPは不確実性に対して脆弱であり,微分可能ILPはテンプレート依存や不正確な演算子に課題がある。
- 注意機構を用いた微分可能な論理演算子により,確率的データ上での正確かつ安定したルール抽出を実現する。
- ANDREは,連続的なルール空間上で注意に基づいた論理演算子を用いてファーストオーダー論理プログラムを学習する。
- ANDREは,従来のILPベンチマークや大規模知識ベースにおいて,競争力またはそれ以上の予測性能を発揮する。
- 特に,ANDREはラベルノイズに対してロバストであり,既存の微分可能ILP手法を上回るルール抽出品質と安定性を示す。
濃度不等式による確率的浮動小数点丸め誤差解析 [cs.LO, cs.NA, cs.PL, math.NA]目的:確率的丸め誤差閾値の導出
- 科学計算や最適化など,数値計算を多用する分野において,浮動小数点丸め誤差は不可避である。
- 厳密な丸め誤差閾値は保守的になりがちで,実際には小さな確率で発生する大きな誤差を過剰に考慮してしまう。
- 確率的閾値を用いて,丸め誤差が閾値を超える確率を許容範囲内に抑えることを目指す。
- テイラー展開に濃度不等式を適用することで,新たな確率的丸め誤差解析手法を提案した。
- 絶対値演算を含む多項式表現の過近似により,期待値計算の困難さを克服し,分数的表現も多項式に変換した。
- 実験結果から,提案手法は既存手法と同程度の精度を保ちつつ,大幅に計算時間を短縮できることが示された。
位置BWTにおける高速反復φクエリ [cs.DS]目的:ハプロタイプパネルの効率的な表現と分析のための反復φクエリの高速化
- 大規模ハプロタイプパネルの解析において,ハプロタイプ情報を効率的に扱うことは重要である。
- 既存手法では,反復φクエリの空間・時間効率が課題となっていた。
- ハプロタイプパネルにおけるハプロタイプマッチングとバリエーション分析を高速化する。
- ハプロタイプの共起順序における前駆ハプロタイプを効率的に特定する新たな分解スキームを提案した。
- 空間・時間トレードオフを2つ提示し,既存手法よりも空間効率を向上させた。
- 特に現代のゲノムデータセットにおいて,ハプロタイプ数が多い場合に有効であることが期待される。
根本原因に基づいた自動脆弱性修正 [cs.CR, cs.SE]目的:脆弱性の根本原因の特定と,それに基づく自動修正
- ソフトウェアの安全性確保は重要であり,脆弱性修正は不可欠なプロセスである。
- 既存の脆弱性修正手法では,根本原因の特定が難しく,表面的な修正に留まる場合がある。
- 本研究は,脆弱性の根本原因を特定し,より効果的な自動修正を実現することを目的とする。
- Kumushiは,多様化された動的障害局所化とエビデンスに基づいたランキングを組み合わせることで,LLMを欠陥に関連するコードに集中させる。
- 178個のC/C++の脆弱性に対して,既存の専門的な修正エージェントよりも大幅に優れた性能を示した。
- 専門家による評価では,Kumushiはより根本原因に基づいた修正を行い,表面的な修正が少ないことが示された。
サフィシエントアレイの再構築 [cs.DS]目的:サフィシエントアレイの構築
- テキスト検索の高速化に不可欠であり,大規模データ処理の効率を向上させる。
- 既存の構築アルゴリズムは,複数のスキャンが必要で効率が低い場合がある。
- 単一パスで線形時間でサフィシエントアレイを構築することを目指す。
- 本研究では,標準RAMモデル下で線形時間でサフィシエントアレイを構築する新しい単一パスアルゴリズムを提案した。
- 提案アルゴリズムは,既存手法と比較して効率的な構築が可能となる。
EngThrive:質の高い仕事の遂行を迅速かつ容易にする [cs.SE, cs.HC]目的:開発者生産性の測定と改善システム
- 開発者生産性は,組織の成功に不可欠であり,その向上は競争力を高める。
- 従来の測定方法では,多角的な生産性を捉えきれず,具体的な改善策が不明確であった。
- 開発者の生産性向上と幸福度の両立を目指し,具体的な測定指標と改善方法を提供する。
- EngThriveは,スピード,容易性,品質という3つの次元で開発者生産性を測定・改善する。
- システムテレメトリと開発者調査を組み合わせることで,定量的なデータと定性的なコンテキストの両方を提供する。
- 適切な指標選択により,ゲーム化行動を真の改善につなげ,組織全体の持続的な改善を可能にする。
コードメトリクスとトークン特徴からの軽量脆弱性検出 [cs.CR, cs.SE]目的:C/C++コードの関数レベル脆弱性トリアージパイプライン
- ソフトウェアの安全性確保は重要であり,脆弱性検出は不可欠なプロセスである。
- 従来の脆弱性検出は計算コストが高く,実用的なワークフローでの迅速なトリアージが課題である。
- コードメトリクスとトークン特徴を活用し,高速かつ再現可能な脆弱性トリアージ基盤を構築すること。
- 提案手法は,TF-IDFトークン特徴とロジスティック回帰分類器を組み合わせることで,軽量な脆弱性検出を実現した。
- ランダム分割では,PR-AUC 0.642,Recall@10% 0.161を達成したが,クロスプロジェクト汎化性能は低い。
- 単純なトークンとメトリクス特徴は有用な基盤となる一方,字面的な特徴に敏感であり,汎化性能が課題である。
JavaのSWE問題に対する再現テスト生成 [cs.DC, cs.SE]目的:Javaのソフトウェア問題に対する再現テストの生成
- ソフトウェア品質維持には,問題の正確な診断と修正検証が不可欠である。
- ソフトウェア問題の再現テストは不足しており,開発効率を阻害する要因となっている。
- Javaにおける再現テスト生成の技術を確立し,ソフトウェア開発の信頼性向上に貢献する。
- 本研究では,Javaのオープンソースリポジトリから250件の事例を含むベンチマークTDD-Bench-Javaを新たに開発した。
- Python向け最先端の再現テスト生成器e-Otter++をJava向けに改良し,高い性能を達成した。
- 社内データセットを用いた評価により,実用的な環境下での有効性が確認された。
Transformerにおける暗黙的演繹的推論のスケーリング特性 [cs.RO, cs.AI, cs.CC, cs.LO, cs.SC]目的:Transformerにおける暗黙的演繹的推論のスケーリング特性
- 大規模言語モデルの推論能力向上は,様々なタスクの性能向上に不可欠である。
- 暗黙的演繹的推論のスケーリング則は十分に解明されておらず,深層モデルにおける性能限界が不明である。
- 深層Transformerモデルにおける暗黙的演繹的推論能力の向上と,その限界を明らかにする。
- 十分な深さを持つTransformerモデルにおいて,暗黙的推論がChain-of-Thought (CoT) と同等の性能に近づくことが示された。
- 双方向のprefixマスクを用いることで,推論性能が向上し,問題の幅やグラフ構造に依存しない結果が得られた。
- 深さの範囲外の推論にはCoTが依然として必要であり,暗黙的推論の限界が確認された。
ノルム制約下ビームフォーミングのための適応的対角荷重 [eess.SY, cs.IT, cs.SD, cs.SY, math.IT, stat.AP]目的:大規模マイクロホンアレイにおける信頼性の高い適応ビームフォーミングの実現
- 大規模アレイは,騒音環境下での音声認識や定位において重要である。その性能はビームフォーミングに大きく依存する。
- 動的な音響環境下では,空間相関行列の推定に必要なデータが不足し,ビームフォーミングの性能が低下しやすい。
- 本研究は,ビームフォーミングの安定性とロバスト性を向上させ,目標信号のキャンセルを抑制することを目的とする。
- 提案手法は,ホワイトノイズゲイン(WNG)が指定された範囲内に収まることを保証する適応的対角荷重法である。
- WNGと相関行列の条件数の上限との関係をKantorovichの不等式を用いて明らかにした。
- トレースベースのboundingから完全な固有値分解まで,計算複雑度の異なる3つの荷重レベル推定手法を提示した。
文脈が邪魔になる時:マルチエージェント設計探索における知識伝達のクロスオーバー効果 [cs.AI, cs.SE]目的:マルチエージェントソフトウェア設計における知識伝達の影響
- マルチエージェントシステムは複雑であり,効率的な設計手法の確立が重要である。
- 既存研究では文脈情報が多いほど設計が向上すると考えられている。
- 文脈情報が必ずしも設計を向上させない状況を明らかにすること。
- 文脈情報がタスクによっては設計探索を改善する一方で,悪化させる場合があることが示された。
- 改善効果は最大で20倍,悪化効果は最大で46%に及んだ。
- 文脈情報の効果は,文脈情報なしでの初期探索性能によって予測可能であることが分かった。
改良型型システムによるハイブリッド同期プログラムの形式検証へ [cs.PL]目的:ハイブリッド同期プログラムの形式検証手法
- 自動運転車などサイバー物理システムは安全性確保が不可欠であり,信頼性向上が重要である。
- 複雑なシステムに対し,形式検証は抽象モデルで行われることが多く,実行コードとの乖離が課題である。
- 微分方程式を含むハイブリッドシステムの形式検証を可能にし,モデルと実行コードの乖離を解消する。
- 初期値問題とゼロクロッシング検出の動作意味論を形式化し,検証のための型システムを拡張した。
- 型システムの健全性が証明され,プログラムの正確な検証が可能となることが示された。
- 厳密なモデル化と実行可能な制御コード実装を両立し,より広範なプログラムの検証と実行を可能にする。
低S/N通信のための文脈記憶増強されたソース符号化 [cs.IT, cs.LG, math.IT]目的:低S/N環境におけるテキスト伝送の信頼性向上
- 通信効率の向上は,情報伝達において不可欠であり,特に低S/N環境下では重要性が増す。
- 従来のソース符号化は,ノイズの影響を受けやすく,わずかな誤りでも復号を困難にする場合がある。
- 残差誤りに対するソースモデルの脆弱性を解消し,低S/N環境での伝送性能を改善すること。
- 提案手法MASCは,送信側と受信側で共有する文脈記憶を用いてソースモデルを強化することで,ソース確率推定の精度を向上させる。
- MMERにより,必要な記憶のみを動的に活性化することで,平均符号長を短縮し,残差誤りに対する感度を軽減する。
- 実験結果から,MASCが既存手法と比較して,RayleighフェージングおよびAWGNチャネルにおいて優れた性能を示すことが確認された。
部分集合選択における基底集合の枝刈り:単調性と非単調性の分離 [cs.DS]目的:大規模な部分集合選択における効率的な基底集合の削減手法
- データ量が膨大化する現代において,有効なデータ部分集合の抽出は重要な課題である。
- 部分集合選択の計算コストが高く,大規模データセットへの適用が困難である。
- 基底集合の枝刈りによって計算コストを削減し,効率的な部分集合選択を実現する。
- 単調な目的関数に対し,貪欲法が最適な削減率(1-1/e)を達成することを示した。
- 非単調な目的関数に対しては,カーディナリティ制約下で1/2-εの包含アルゴリズムを提案した。
- 枝刈りが最適化よりも容易であり,実証実験でMaxCut問題の求解速度を約620倍に向上させた。
強化学習による大規模言語モデルのポストトレーニングの堅牢性向上:強化学習微調整における自動故障管理 [cs.SE, cs.AI]目的:強化学習微調整における故障管理の体系化
- 大規模言語モデルの性能向上には強化学習微調整が不可欠であり,その重要性は増している。
- 強化学習微調整のプロセスは不安定であり,熟練者による手動での検査・修正に依存している。
- 強化学習微調整における故障の自動検出,診断,そして修復を実現し,安定性を高める。
- 本研究では,強化学習微調整の故障を網羅するベンチマークRFT-FaultBenchを構築した。
- 実験により,故障は訓練の動態から観察可能であり,故障の指紋を識別できることが示された。
- 自動故障管理フレームワークRFT-FMを提案し,故障検出,診断,修復において高い能力を示した。
能力を超えて:力の四分象限と完全な無能の論理 [cs.LO, math.LO]目的:力のスペクトルの分類と,完全な無能の論理的構造
- 協力関係における力の行使や制約を分析する上で,その論理的基盤を明確にすることは重要である。
- 従来の論理では,無能を単なる能力の欠如として捉え,否定能力との区別が曖昧であった。
- 協力関係における力の状態をより詳細に分類し,完全な無能という概念を明確化し,その論理的構造を明らかにする。
- 従来の二分法を超え,力のスペクトルを「完全制御」「肯定決定」「否定決定」「完全な無能」の四つのカテゴリーに分類した。
- これらのカテゴリーは,協力関係の戦略的状態を網羅的に,かつ排他的に区分し,その代数的,順序論的構造を確立した。
- 完全な無能を原始的な様相として扱う論理体系を構築し,健全性,完全性,保守性を証明した。
モデルレベル評価のみでは,実用的なアラインメントは推測できない [cs.AI, cs.HC, cs.LG, cs.SE]目的:機械学習におけるアラインメント評価の妥当性
- AIの安全性と信頼性を確保するため,アラインメントの評価は不可欠である。
- 既存のアラインメント評価はモデルレベルに偏っており,実世界での挙動との乖離が懸念される。
- 評価レベル(モデル,応答,インタラクション,デプロイメント)を明確化し,実用的なアラインメント評価を確立する。
- 既存の16個のアラインメントベンチマークを分析した結果,ユーザー検証のサポートが皆無であり,プロセス制御可能性もほとんど存在しないことが判明した。
- 3つの最先端モデルと4つのスキャフォールドを用いたストレステストにより,スキャフォールドの有効性がモデルに依存することが示された。
- アラインメント評価においては,単一のスコアではなくプロファイル,比較可能なインタラクショナル評価のための固定スキャフォールドプロトコルが必要である。
メッシングとビームサーチを用いたランダム部分和問題に対するロバストな逆二次誤差減衰 [cs.DS]目的:ランダム部分和問題におけるロバストな誤差減衰手法の開発
- 暗号学や組合せ最適化の基礎問題であり,現実世界に多くの応用が存在する
- 部分和問題の効率的な解法は難しく,近似解法においても誤差の安定性が課題である
- メッシングとビームサーチを組み合わせることで,誤差減衰の安定性と実用性を高める
- 提案手法は,Da Cunha et al. (2023)と同等のメッシュを高い確率で構築し,効率的な探索を実現する。
- メッシングを活用したビームサーチにより,標準的な平均場仮定下で期待誤差$O\!\left(\frac{B}{nw^2}\right)$を達成し,実用的な有効性を示す。
- 様々な入力分布に対してロバストであり,スコアリングヒューリスティックの変更により他の問題への拡張も容易である。
ソフトウェア工学における説明責任あるエージェント:利用規約の分析と研究ロードマップ [cs.SE, cs.AI]目的:AIを活用した開発ツール利用における説明責任の所在
- ソフトウェア開発におけるAIの利用拡大に伴い,その安全性と信頼性の確保が重要となっている。
- AIエージェントが生成・変更・提案したコードに関する責任の所在が不明確である。
- AIエージェントによるソフトウェア開発における説明責任の枠組みを確立すること。
- 主要なAIコーディングアシスタントの利用規約を比較分析した結果,責任の多くがユーザーに転嫁されていることが判明した。
- プロバイダー間では,損害賠償,データ利用,許容可能な利用に関する規定に大きなばらつきが見られた。
- 現在のポリシーフレームワークが,エージェントを介したソフトウェア開発に適応できていないため,説明責任に関する研究ロードマップを提示した。
Z-Opt:ほぼ最適で低複雑度な二次元グラスマン多様体星座 [cs.CC, cs.IT, eess.SP, math.IT]目的:非コヒーレント通信におけるグラスマン多様体星座の効率的な構成
- 無線通信容量向上の鍵となる,フェージングチャネルにおける最適な信号設計。
- グラスマン多様体星座は高性能だが,その構成は計算量が大きく実用的ではない。
- 低複雑度で,かつ性能劣化の少ないグラスマン多様体星座の構築と検出手法の確立。
- S-Opt星座は,Bloch球上での球充填解に基づき,理論的な上限に達する。
- Z-Opt星座は,Bloch球上に正多角形を積み重ねることで構成され,その最小コード距離は上限に近づく。
- 提案手法は,受信アンテナ数に対して線形時間複雑度でGLRT検出と同等の性能を示す。
検索を超えて:コード検索のためのマルチタスクベンチマークとモデル [cs.SE, cs.AI]目的:コード検索パイプライン全体の評価
- ソフトウェア開発において,コード検索は開発効率を大きく左右する重要な要素である。
- 既存のベンチマークは,データ汚染,ラベルノイズ,二値関連性の問題を含んでいる。
- より現実的なコード検索パイプライン全体の評価と改善を目指す。
- 新たに構築されたCoREBベンチマークは,データ汚染を抑制し,複数のタスクに対応している。
- コード間検索においては,コード特化型埋め込みが汎用エンコーダより優れていることが示された。
- 開発者スタイルの短いキーワードクエリでは,全てのモデルで検索性能が著しく低下した。CoREB-Rerankerは3つのタスク全てで一貫した改善を実現した。
連結符号による局所訂正符号の構成 [cs.IT, math.IT]目的:局所訂正符号の構成
- 分散ストレージシステムにおいて,データの信頼性確保が重要であり,局所訂正符号はその鍵となる技術である。
- 既存の局所訂正符号の構成法では,符号化・復号の複雑さや性能に課題が残されている。
- 連結符号を利用し,最適な二元局所訂正符号を効率的に構成することで,上記課題の解決を目指す。
- 本研究では,連結符号を用いて局所訂正符号を構成する体系的な手法を提示した。
- 特に,$\mathbb{F}_4$ 上の線形符号を外符号として選択することで,最適な二元局所訂正符号の構築が可能となった。
- また,局所性$r=2$において,MaとGeによる既存の限界を改善し,その限界に達する符号を構成した。
AuditRepairBench:エージェント修理における評価者チャネルランキング不安定性のためのペア実行トレースコーパス [cs.AI, cs.SE]目的:評価者チャネルランキング不安定性の問題に対する,エージェント修理手法の評価用コーパス
- エージェント修理は,ソフトウェアの自動修復において重要な技術であり,その信頼性向上が求められている。
- 評価者の構成変更によりランキングが変動し,評価者由来の信号に依存する手法で問題が生じている。
- 評価者チャネルのランキング不安定性を定量的に評価し,その影響を軽減するための手法を提供する。
- AuditRepairBenchは,576,000個のセル(実行済み96,000個)を含むペア実行トレースコーパスである。
- モジュール化されたスクリーニングアーキテクチャにより,ランキング変動の原因となるチャネルを特定可能。
- スクリーニングガイド型ブラインドパッチは,ランキングの変動を55〜74%(平均62%)削減し,手法のロバスト性を向上。
SWE-WebDevBench:仮想ソフトウェアエージェンシーとしてのコーディングエージェントプラットフォームの評価 [cs.MA, cs.SE]目的:コーディングエージェントプラットフォームの評価フレームワーク
- 自然言語によるアプリケーション開発が普及し,ソフトウェア開発の自動化が重要になっている。
- 既存のコードレベルのベンチマークでは,プラットフォームのビジネス要件理解度を十分に評価できない。
- ビジネス要件から本番コード生成までの一連のプロセスを評価するフレームワークを構築し,プラットフォームの課題を特定する。
- SWE-WebDevBenchは,7つのグループ,25の主要指標と43の診断指標で構成される68指標の評価フレームワークである。
- 現在のAIアプリビルダーには,仕様のボトルネック,フロントエンドとバックエンドの分離,本番環境への移行の困難さ,セキュリティとインフラの脆弱性といった課題があることが判明した。
- 本研究で開発したSWE-WebDevBenchは,コミュニティベンチマークとして公開され,より大規模な検証とプラットフォーム改善に貢献することが期待される。
文脈自由ハイパープロパティに対する論理 [eess.SY, cs.SY, cs.LO, cs.FL]目的:文脈自由ハイパープロパティの仕様
- セキュリティが重要な再帰システムにおいて,情報の流れを検証する上で不可欠な研究分野である。
- 既存の論理では,複雑な再帰システムにおける情報の流れを正確に記述することが困難である。
- 文脈自由ハイパープロパティを記述するための新しい論理を提示し,その検証可能性を明らかにすること。
- 単一の量化子交代を持つ公式に対するモデル検査が,特定の条件下で決定可能であることが示された。
- スタックの高さが最初の量化子ブロックに束縛されたトレースにのみ依存する場合に,その決定可能性が保証される。
- 単一の量化子交代を持つ公式であっても,スタックの振る舞いが2番目の量化子ブロックに依存する場合は,モデル検査が決定不能になることが示された。
CodeEvolve:LLM駆動による進化最適化 - 実行時間情報を活用したターゲット選択による多言語コード改善 [cs.SE, cs.AI]目的:プログラム性能およびコード品質の向上
- ソフトウェアの性能改善は,システム全体の効率性と応答性に不可欠である。
- 従来の最適化手法は,ボトルネックの特定や手動チューニングに依存し,時間と労力がかかる。
- LLMを活用し,自動化されたターゲット選択とコード改善により,効率的な最適化を実現する。
- CodeEvolveは,Java Flight Recorderを活用し,実行コストの高いコンポーネントを自動的に特定する。
- 大規模Javaコードベースにおいて,7つのホットスポット関数で平均15.22倍の速度向上を達成した。
- Apex最適化実験では,MCTS拡張構成により,20プログラム中平均19.5個の有効なプログラムが生成された。
連結ソフトランダム幾何グラフのエントロピーと分散ソース符号化 [cs.IT, math.IT, math.PR]目的:連結性閾値を超えるソフトランダム幾何グラフの分散圧縮
- グラフ理論は,ネットワーク構造の解析に不可欠であり,様々な分野で応用が拡大している。
- 分散環境におけるグラフデータの効率的な圧縮手法は未だ十分とは言えない。
- 分散圧縮におけるレート領域を確立し,効率的な符号化手法を開発すること。
- 連結性閾値を超えるソフトランダム幾何グラフに対するSlepian-Wolfレート領域を確立した。
- グラフのエントロピーに関する新しい極限定理と漸近等分配性を証明した。
- これらの結果を用いて,分散圧縮のためのランダムビンニング技術を適用した。
UVMarvel:LLMを活用したサブシステムレベルRTL検証のための自動UVMマシン [cs.AR, cs.SE]目的:サブシステムレベルRTL検証用UVMテストベンチの自動生成
- IC開発において検証はボトルネックであり,全体の7割の労力を消費する重要な工程である。
- UVMは再利用性を向上させるが,テストベンチ構築や高品質な刺激生成には専門知識と手作業が必要である。
- LLMを活用し,サブシステムレベルUVMテストベンチの自動生成による検証効率の向上を目指す。
- UVMarvelは,中間表現とバスプロトコルライブラリを用いて,様々な仕様から正確なUVMテストベンチを自動生成する。
- シグナルトラッカーとVerilogパッチングライブラリにより,LLMによる刺激の改良を支援する。
- 主流のバスプロトコルに対応し,平均95.65%のコードカバレッジを達成,検証時間を大幅に短縮する。
相互情報セキュリティ基準を用いた安全なソース符号化のフレームワーク:普遍符号化と強い逆定理 [cs.CG, cs.CC, math.OC, cs.SC, math.AG, cs.CL, cs.IT, math.IT]目的:ソース暗号化のフレームワーク
- 情報セキュリティの重要性が高まる中で,データ保護の理論的基盤確立が求められている。
- 従来の暗号化手法は計算コストが高く,効率的な情報保護が課題であった。
- 相互情報セキュリティ基準に基づき,効率的かつ安全なソース暗号化フレームワークを構築すること。
- 本研究では,相互情報を情報漏洩の指標として用いることで,信頼性と安全性を両立するソース暗号化フレームワークを提案した。
- 信頼性と安全性のための必要十分条件が,誤り確率と情報漏洩の上限値に依存しないことが示され,強い逆定理が導かれた。
- 提案する暗号化/復号スキームは,平文および鍵の分布に依存せず,普遍的に機能することが証明された。
プログラミング知識追跡における信頼性の確保:アテンション拡張モデルと実験プロトコルの再評価 [cs.IR, cs.LG, cs.SE]目的:プログラミング知識追跡モデルの信頼性評価に関する研究
- プログラミング学習支援において,学習者の知識状態を正確に把握することは重要である。
- 既存研究では,モデル設定や実験手順の違いにより,評価結果にばらつきが生じる可能性がある。
- 一貫性のある評価プロトコルを確立し,モデルの性能を客観的に比較することを目指す。
- アテンション機構の次元設定が性能評価に影響を与えることが示された。
- 学生の解答順序が時間的因果関係に違反し,楽観的な結果をもたらす可能性があることが示された。
- 厳密な評価プロトコル下では,アテンション拡張モデルと標準DKTの性能差は縮小し,複雑なアーキテクチャが常に優れた性能をもたらすわけではないことが明らかになった。
AISSA:AIベースの学生スライド分析ツールの実装と展開 [cs.HC, cs.AI, cs.SE]目的:学生の学術発表用スライドに対する形成的フィードバックの提供
- 高等教育において,口頭発表スライドへの適切なフィードバックは学習効果に不可欠である。
- 大規模なクラスでは,教員が詳細な形成的フィードバックを事前に提供することは現実的に困難である。
- スライドの評価基準に基づいた,大規模な形成的フィードバックの効率的な提供を目指す。
- AISSAは,LLMとラーニングアナリティクスダッシュボードを組み合わせ,スライドの定量的なスコアと定性的なフィードバックを自動的に生成する。
- パイロット展開の結果,AISSAは技術的に信頼性が高く,経済的にも実行可能であることが示された。
- 学生は,AISSAを反復的なスライド改善に役立つと評価しており,その有用性が確認された。
AICoFe:高等教育におけるAIを活用した協調的フィードバックシステムの導入と展開 [cs.HC, cs.AI, cs.SE]目的:高等教育における批判的思考力育成のためのAIを活用した協調的フィードバックシステム
- 高等教育において,学生の批判的思考力育成は重要であり,ピアフィードバックはその有効な手段の一つである。
- 学生によるピアフィードバックの質が安定せず,その効果が十分に発揮されないという課題がある。
- AIを活用し,質の高いフィードバックを提供することで,ピアフィードバックの効果を高めることを目指す。
- 本システムは,GPT-4.1-mini,Gemini 2.5 Flash,Llama 3.1などのLLMを組み合わせたパイプラインを用いて,定量的な評価基準と定性的な観察を統合し,一貫性のある実行可能なフィードバックを生成する。
- 教師がAI生成のドラフトを修正・調整する「教師ループ型」のワークフローを導入し,フィードバックの質を担保する。
- SQLとMongoDBを組み合わせたハイブリッドなデータインフラストラクチャにより,フィードバックのトレーサビリティとバージョン管理を実現している。
AFL-ICP:仕様に基づいたファジングによる産業制御プロトコルの信頼性向上 [cs.CR, cs.NI, cs.SE]目的:産業制御プロトコルの信頼性向上のためのファジング技術
- 産業インフラの安定運用に不可欠な産業制御プロトコルは,セキュリティリスクに晒されている。
- 既存のファジング手法は,仕様を考慮せず,深いプロトコル状態の検証や微細なセマンティックな誤りの検出が困難である。
- 仕様に基づいたファジングにより,より効果的な脆弱性検出と信頼性向上を目指す。
- AFL-ICPは,複雑な仕様を厳密な文法に変換する仕様形式化パイプラインを導入し,LLMを活用してプロトコル適応とシード生成を自動化した。
- AFL-ICPは,4つの代表的な産業制御プロトコルにおいて,既存のファジング手法を凌駕するカバレッジを示し,24件の未知の脆弱性を発見した。
- 発見された脆弱性のうち16件は,産業運用を静かに中断させる可能性のあるセマンティックおよびロジックバグであった。
チャンク分割は検索拡張型コード補完にどのように影響するか:制御された実証研究 [cs.SE]目的:検索拡張型コード補完におけるチャンク分割戦略の効果
- コード補完は開発効率を向上させる上で重要であり,その精度向上が求められている。
- 検索拡張型コード補完ではチャンク分割が重要だが,その戦略選択には根拠が乏しい。
- 様々なチャンク分割戦略を比較検証し,最適な戦略を明らかにすること。
- チャンク分割戦略は,検索拡張型コード補完の品質に統計的に有意な影響を与えることが示された。
- 関数ベースのチャンク分割は,他の戦略と比較してRepoEvalで3.57〜5.64ポイント劣る結果となった。
- コンテキスト長を2,048トークンから8,192トークンに増やすと,最大で4.2ポイントの改善が見られた。
プログラミングにおける生成AIの生産性と学習への影響に関するメタ分析 [cs.SE, cs.HC]目的:プログラミングにおける生成AIの生産性および学習効果の定量的な評価
- ソフトウェア開発の効率化が求められており,AI技術はその重要な手段となる。
- 生成AIの導入は進んでいるが,効果の程度や学習への影響は明確ではない。
- 生成AIが生産性向上に寄与する状況,および学習効果への影響を特定すること。
- 生成AIの利用は,開発者の生産性に関して統計的に有意な正の効果が認められた(効果量g = 0.33)。
- ただし,その効果は環境によって異質性が高く,特に実験環境では効果が大きくなる傾向が見られた。
- 一方,学習成果に対する生成AIの利用は,統計的に有意な効果は認められなかった(効果量g = 0.14)。
同心円盤・環状領域または球殻領域におけるノード間距離分布 [cs.IT, eess.SP, math.IT]目的:同心円盤・環状領域または球殻領域に配置された2つのノード間の距離の確率密度関数
- 無線通信環境の性能評価において,ノード間距離の分布は重要な要素である。
- 複雑な形状の領域におけるノード間距離分布の解析的解は得ることが困難であった。
- 同心円盤・環状領域または球殻領域におけるノード間距離分布の解析解を導出すること。
- 同心円盤・環状または球殻領域におけるノード間距離の確率密度関数の閉形式表現が得られた。
- 2つのシナリオ,すなわち両ノードが異なる領域に独立に分布する場合,一方のノードが静止し,他方がランダムウェイポイントモデルに従う場合について解析を行った。
- 得られた式は,同心円状の無線領域における性能評価のための解析ツールとして利用可能である。
オンライン直交ベクトルの再検討 [cs.DS, cs.CC]目的:オンライン直交ベクトル問題に対する上限と下限の導出
- データ量の増加に伴い,効率的な検索アルゴリズムの重要性が高まっている。
- 直交ベクトル問題は,計算複雑性が高く,効率的な解法が未だ十分に確立されていない。
- 既存手法の改善と,計算量の理論的な限界の明確化を目指す。
- 低次元(d = c log n)においては,既存のランダム化アルゴリズムと同等の性能を持つ決定性データ構造を設計した。
- 中程度の次元(d=n^{\varepsilon})においては,2002年以来初となる性能向上を実現した。
- ノンユニフォーム強指数時間仮説の下で,サブ線形クエリ時間を持つ任意のオンライン直交ベクトルデータ構造に対する多項式空間の下限を証明した。
最短一意部分文字列および最短不在部分文字列を求める高速アルゴリズム [cs.DS]目的:最短一意部分文字列および最短不在部分文字列の計算
- 文字列処理は,生物情報学やデータ圧縮など,多くの分野で基礎となる重要な技術である。
- 既存のアルゴリズムは,特に小規模なアルファベットにおいて,計算効率が必ずしも最適ではない。
- 小規模なアルファベットにおける最短部分文字列の計算効率を向上させることを目指す。
- 本研究では,最短一意部分文字列を計算するための新しいアルゴリズムを提案し,$\mathcal{O}(n \log \sigma/\sqrt{\log n})$時間で実行できることを示した。
- 提案手法では,部分文字列の長さと周期に基づいて問題を分解し,同期集合やウェーブレット木などのツールを活用している。
- 同様の手法を応用することで,最短不在部分文字列の計算も$\mathcal{O}(n \log \sigma/\sqrt{\log n})$時間で実現した。
バグ局所化ツール利用時の開発者行動の理解に向けて [cs.SE]目的:開発者によるバグ局所化ツール利用時の行動様式
- ソフトウェア開発において,バグ修正は不可欠であり,その効率化が重要である。
- 既存研究はツールの精度に偏重しており,実際の開発者の利用状況は不明である。
- 開発者のツール利用の実態を把握し,より効果的なツールの開発に貢献する。
- 開発者はツールとのインタラクションに加え,社会的・状況的情報を活用していることが示された。
- バグ局所化は複雑なプロセスであり,ツールの精度だけでは十分な効果が得られない可能性が示唆された。
- 本研究は,バグ局所化ツール導入の成功には,精度以外にも考慮すべき要素があることを示している。
LLM生成コードリファクタリング提案の開発者による採用パターン [cs.SE, cs.HC]目的:LLM生成コードリファクタリング提案の採用に関するパターン
- ソフトウェア開発の生産性向上は重要であり,LLMはその可能性を秘めている。
- LLM提案の実際の利用状況は不明であり,効果的な活用方法が課題である。
- 開発者のLLM提案の採用パターンを分析し,利用状況の理解を深める。
- 開発者は,LLMの提案をほとんど修正せずにそのまま採用していることがわかった。
- 修正が行われる場合,その変更は大規模であり,5つのパターンに分類された。
- これらのパターンは,リファクタリング活動,プロンプト,ChatGPTの応答の妥当性に依存する。
実世界の自動車アプリケーションにおける安全度水準と基本ソフトウェア制約の解明:Driveratorフレームワークを用いた事例研究 [cs.SE, cs.OS]目的:自動車アプリケーションにおける安全度水準制約,基本ソフトウェアの影響,メモリ要件の特性評価
- 自動車ECUは複雑化の一途を辿り,安全性確保が重要課題となっている。
- 安全度水準に応じたタスク配置戦略が不適切だと,システムの安全性が損なわれる可能性がある。
- 安全度水準と基本ソフトウェア,メモリ要件がタスク配置に与える影響を明らかにすること。
- 実世界の自動車アプリケーションを分析し,安全度水準制約がシステム設計に及ぼす影響を詳細に示した。
- 基本ソフトウェアがタスク特性と安全度水準カテゴリによって異なる複雑性をもたらすことを明らかにした。
- スケーラブルなシステム分析のためのDriverator構成フレームワークを導入し,その有効性を示した。
