arXiv雑要約
プログラム - 2026/05/29 公開
オープンソースの安全ガードモデルのベンチマーク:包括的評価 [cs.CL, cs.AI, cs.SE]目的:オープンソースの安全ガードモデルの性能評価
- LLMの利用拡大に伴い,安全性確保が重要課題となっている。
- 既存の安全ガードモデルの性能にはばらつきがあり,適切な選択が困難である。
- 安全性評価ベンチマークを通じて,実用的なモデル選択の指針を示す。
- LLMにおける安全性の確保は重要であり,コンテンツモデレーションの信頼性が求められる。
- 4BパラメータのQwen Guardが最も高い再現率(83.97%)を示し,モデルサイズと安全性検出性能には相関がないことが判明した。
- 汎用ガードモデルが特化型モデルよりも高い性能を示すことが明らかになり,実用的なモデル選択に役立つ知見が得られた。
LLMエージェントの整合性:マルチステップツール呼び出しパイプラインにおける行動の再現性測定 [cs.CL, cs.AI, cs.SE]目的:LLMエージェントの行動再現性の評価
- LLMエージェントは実用システムで活用が増加しており,その信頼性は重要な課題である。
- 同じエージェントが,同じ状況下で一貫した行動をとるかどうかの検証が不足している。
- 構造化されたツール呼び出しインターフェースにおける行動の整合性を定量的に評価する。
- マルチステップツール呼び出しエージェントにおける行動の一貫性を系統的に測定した。
- ツール選択,順序,引数の整合性を,同一の入力に対して繰り返し検証した。
- 従来のReActエージェント研究とは異なり,型付きパラメータと副作用を持つインターフェースに着目した。
LogDx-CI:LLMの根本原因診断のためのログ削減ツールのベンチマーク [cs.CL, cs.SE, cs.AI]目的:LLMによる根本原因診断の精度を向上させるためのログ削減手法の比較
- 大規模なCIログは,ソフトウェア開発におけるデバッグ効率化に不可欠である。
- CIログは大規模かつノイズが多く,効果的なログ削減手法が存在しない。
- LLMの診断精度を維持しつつ,コストを削減する最適なログ削減手法を特定する。
- ハイブリッドなgrep+tailルーターが,コストと品質のトレードオフにおいて優位性を示す。
- エージェントループにおいては,ログ削減手法による品質の差は縮小するが,コストの違いは残存する。
- 異なるLLMによる要約とデバッグの組み合わせが,同一LLMによる組み合わせよりも高い診断精度を達成した。
ベクトル値定量的言語に対する円錐誘導観測同値性 [cs.FL, cs.LO]目的:ベクトル値定量的言語に対する円錐によって誘導される観測同値性
- 制御システムや検証において,状態空間の構造理解が不可欠であるため。
- 既存の手法では,複雑な定量的システムの観測同値性の判定が困難である。
- 円錐を用いた観測同値性の判定によって,より効率的な検証を可能にすること。
- 有理多面体円錐の極端な線が,本質的な共ベクトルを定義し,これら共ベクトルが将来の状態を有限の符号セルで分類する。
- この構築は,観測洗練対応,円錐洗練計算,定性的円錐観測商と数値的残差キャリアの分離を通して組織化される。
- 有限地平線フラグメントは,蓄積された将来の列挙によって完全に計算可能であり,円錐層が数値洗練前に定性的障害セルを検出することが実験的に示された。
LLM連携時の脆弱性の解明と修復に向けて [cs.SE, cs.CR]目的:LLM連携ソフトウェアにおける脆弱性リスク分析の促進
- 近年のソフトウェアシステムにLLMが不可欠な要素として組み込まれ,その重要性は増している。
- LLM自身や関連コンポーネントに起因する脆弱性が新たに生じており,既存のソフトウェアレベルの分析ではLLM特有の脅威を捉えきれない。
- LLM連携時の脆弱性に関する理解を深め,リスク分析を可能とするデータセットの構築を目的とする。
- 本研究では,2,888件の脆弱性情報を収集・分析し,LLM連携時の脆弱性として厳密に分類される205件を特定した。
- 分析の結果,LLMは脆弱性の根本原因というよりは,標的や伝播経路として機能することが多いことが示された。
- 構築したデータセットLLMCVEを用いた評価により,LLM連携時の脆弱性は従来のソフトウェア脆弱性よりも修復が難しいことが示された。特に,プロンプトインジェクション脆弱性のPass@1率は28.57%にとどまる。
微分プライバシーを考慮した仮説検定における最適なレート [cs.CR, cs.DS, cs.IT, cs.LG, math.IT]目的:ε-値を用いた仮説検定における,達成可能な最適なe-power
- データ分析において,仮説検定は重要な役割を担う。特に,プライバシー保護が求められるデータへの応用が不可欠である。
- プライバシー保護と統計的検定力の両立が課題であった。既存手法ではデータ効率が低い場合がある。
- ε-微分プライバシーを満たすe-値を用いた仮説検定において,最適なレートを導き出すことを目指す。
- ε-値を用いた仮説検定における最適なe-powerのレートを数学的に導出した。
- 提案アルゴリズムは,このレートを完全に達成し,既存のDP-SPRTよりも少ないデータで同等の性能を示す。
- 逐次検定において,プライベートなe-processの停止時間に関する上限と下限を一致させた。
汎用ソフトウェアプロダクトライン抽出 [cs.MA, cs.SE, cs.PL]目的:既存のソフトウェアアーティファクトからの特徴モデル抽出およびソフトウェアプロダクトの構成・派生に関するプロトコル
- ソフトウェア開発において,モジュール化された特徴の組み合わせによりシステムを構築するプロダクトライン工学は成功を収めている。
- 従来の抽出手法は特定の技術環境に依存し,技術空間に対する強い仮定を必要とするため,再利用性や環境への適応性が課題である。
- 多様なプロダクトラインに対応可能な,ワークベンチに依存しない汎用的な抽出プロトコルを提案し,その適用性を示す。
- 提案するプロトコルは,軽量な依存単位「アトム」に基づいたボトムアップのアプローチを採用し,ワークベンチ非依存のSPLサーバーと,ワークベンチ固有のバックエンドと汎用フロントエンドを持つSPLクライアントを中心に抽出・構成プロセスを組織する。
- 言語プロダクトライン(LPL)への適用例を通じて,ワークベンチ非依存性を維持しながら,具体的なシナリオへの適用可能性を実証した。
- 実装は,Neverlang言語アーティファクト,Java SPLクライアントバックエンド,GoとPrologで記述された再利用可能なSPLサーバー,JavaScript SPLクライアントフロントエンドで構成される。
変換されたものと等価ではない:観測的同値性によるコードベース変換のベンチマーク [cs.CL, cs.HC, eess.SY, cs.SY, cs.SE, cs.CL]目的:コードベース変換のベンチマーク
- コード生成AIの発展に伴い,大規模コードベースの変換支援が重要になっている。
- 既存の評価方法では,表面的な一致のみを確認し,意味的な整合性を保証できない場合がある。
- 意味的な整合性を評価できるベンチマークを作成し,AIの信頼性を検証すること。
- T2J-Benchは,固定された同値性契約の下でコードベース変換を転移学習として再定義した。
- 355回の変換試行において,最高のシステムでも全体的な合格率は26.7~28.9%に留まり,Spec合格率は最大91.1%であった。
- トークン予算の広がりは合格率の向上に繋がらず,自己検証の不備が主な原因であることが示唆された。
SCDBench:LLMベースのスマートコントラクト逆コンパイラのためのベンチマーク [cs.SE, cs.AI, cs.CR]目的:LLMベースのスマートコントラクト逆コンパイラ評価のためのデータセットおよびベンチマーク手法
- ブロックチェーン技術の安全性と透明性向上には,スマートコントラクトの解析が不可欠である。
- 既存の逆コンパイラ評価はデータセットや指標が限定的で,セマンティックな整合性検証が不十分である。
- LLMが生成するソースコードのセマンティックな正確性を評価し,信頼性の高い逆コンパイラ開発を促進する。
- 最先端のLLMは構造化されたSolidityコードを生成できるものの,セマンティックな整合性は依然として課題である。
- 最良のモデルでも,600件のコントラクトのうち42件のみを完全に逆コンパイルできる結果となった。
- 同じモデルによるコンパイル・修正により,わずかなコストで性能が大幅に向上することが示された。
ルーティングとアトム予算に基づく学習インデックスの残差エントロピー会計 [cs.DS, cs.DB]目的:ルーティング,アトム予算,および検証可能な修復機能を備えた学習インデックスアーキテクチャにおける,正確な前駆体およびランク検索
- 学習インデックスは,大規模データセットにおける効率的な検索を実現するため,重要な研究分野である。
- 従来のインデックス構造では,メモリ使用量と検索速度のトレードオフが存在する。
- 本研究では,残差エントロピー会計を用いて,このアーキテクチャにおけるクエリ処理時間とシステムコストを定量化する。
- 残差エントロピーは,クエリ処理時間と局所的な予測子・アトム予算との関係を記述する重要な指標であることが示された。
- 実データセットに対する評価実験の結果,提案手法のオーバーヘッドとボトルネックが明らかになった。
- 特に,カウントされた区分線形セグメントに対するランクスプレッドの特殊化が議論され,非オラクルなプロファイル項が導出された。
出力空間への射影によるモデルのマージ [cs.DB, cs.LG, cs.IT, math.IT]目的:ファインチューニングされたチェックポイントの統合
- 複数タスクへの対応が求められる現代の機械学習において,効率的なモデルの統合手法は重要である。
- 既存のマージ手法は経験的に成功するものの,理論的な最適性は保証されていなかった。
- 出力空間における最適化を通じて,より高品質なモデルマージを実現すること。
- モデルのマージを凸二次計画問題として定式化することで,既存手法を包含する汎用的な枠組みを確立した。
- 残差エネルギーの捕捉率という診断指標が,マージの品質を予測できることが示された。
- 言語と画像の両方のベンチマークにおいて,提案手法が既存手法と同等以上の性能を発揮した。
距離空間における$k$-平均法に対する改善された貪欲近似 [cs.DS]目的:距離空間における$k$-平均法の近似解の精度向上
- データ分析や機械学習において,クラスタリングは基本的なタスクであり,その最適化は重要な研究課題である。
- 既存の$k$-平均法近似アルゴリズムは,精度に限界があり,計算コストが高い場合がある。
- より効率的かつ高精度な$k$-平均法近似アルゴリズムを開発し,実用的なデータ分析への応用を目指す。
- 本研究では,$k$-平均法に対する新しい近似アルゴリズムを提案し,既存の最良の結果よりも大幅な改善を達成した。
- 提案手法は,施設配置問題におけるLagrangian Multiplier Preserving (LMP) 近似の適応を通じて実現された。
- 特に,距離の二乗を用いる場合にLMPアルゴリズムを適用するための障壁を克服し,精度向上に貢献した。
Code-QA-Bench:リポジトリレベルQAにおけるコード推論とドキュメント記憶の分離 [cs.CL, cs.CL, cs.SE, cs.AI]目的:リポジトリレベルのコード理解ベンチマークの生成
- ソフトウェア開発において,コードの理解は不可欠であり,高品質なソフトウェアの作成に繋がる。
- 従来のQAタスクでは,コード理解とドキュメントの暗記が混同されており,真のコード理解能力の評価が困難である。
- コードの構造に基づいた質問と回答を生成し,ドキュメントの有用性を定量的に評価することで,コード理解能力を正確に評価する。
- Code-QA-Benchフレームワークは,コードアクセスがQA性能に大きな影響を与えることを示した(closed-bookと比較して平均0.23の向上)。
- ドキュメントは,ドキュメント依存型タスクにおいてわずかな利点を提供するが,コードのみのアクセスとドキュメントありのアクセスは,コード由来型タスクで同程度の性能を示した。
- このフレームワークは,Pythonリポジトリに適用可能であり,コード理解モデルの評価に貢献する。
PassNet:グラフコンパイラパス生成のための大規模言語モデルの拡張 [cs.AI, cs.LG, cs.PL]目的:グラフコンパイラパス生成のための大規模言語モデルの拡張
- 現代のテンソルコンパイラは,主流のモデルで大幅な高速化を実現するが,末尾のワークロードでは性能限界に直面している。
- コンパイラは,特定のサブグラフにおいて,デフォルトのコンパイル設定下で処理速度が低下することが示されている。
- 大規模言語モデルを活用し,コンパイラパイプラインに統合可能な構造化グラフ変換を自動生成することを目指す。
- PassNetは,10万件の実モデルから収集された18千件以上の計算グラフを含むPassNet-Datasetと,200件のキュレーションされたタスクからなるPassBenchを含む,大規模なエコシステムを提供する。
- PassBenchの評価指標ES_tを用いて,正確性,安定性,性能を統合的に評価し,体系的なLLMの悪用に対する多層的な防御策を導入している。
- 実験により,PassBenchは識別力が高く,飽和状態にないことが示され,LLMはサブグラフにおいて最先端コンパイラを最大3倍上回る高速化を達成している。
パーソナライズされたコードインテリジェンスへの道:IDE内行動に基づく開発者の描写と支援 [cs.SE]目的:開発者のIDE内行動の継続的なキャプチャと解釈による開発者モデルの構築
- ソフトウェア開発は高度に個別化されており,開発者のスキルや戦略は多様である。
- 従来のコードインテリジェンスシステムは,個々の開発者のニーズに対応できていない。
- 開発者の行動データに基づき,適応的でパーソナライズされたコードインテリジェンスを実現する。
- VirtualMEは,IDEに埋め込まれたデータ基盤であり,開発者の行動を多次元的にモデル化する。
- VirtualMEを活用した知識Q&Aは,汎用的なベースラインと比較して,5つの次元で平均33.80%の性能向上を示した。
- 継続的な開発者行動データが,適応的でパーソナライズされたコードインテリジェンスへの道を開く。
オフローディングスコア:反事実的ワークフローによるAI依存度の測定 [cs.SE, cs.CL, cs.CY, cs.HC]目的:AI依存度の定量化
- AI技術の社会実装が進む中で,人間の認知負荷とAIの役割分担を理解することが重要である。
- 既存の依存度測定は,AIの採用や自己申告に頼るため,認知負荷の実際の分配を捉えきれていない。
- 本研究は,AI利用有無でのワークフローの違いから,AIへの認知負荷オフローディング量を定量的に評価する。
- オフローディングスコアは,AI利用時のタスクステップ削減率を測定することでAI依存度を評価する。
- 実験の結果,時間制約下でオフローディングスコアは依存度の増加を検出し,既存指標では差が見られなかった。
- オフローディングスコアは,AI依存度とタスク結果を組み合わせることで,適切な依存度を判断するための指標となりうる。
意味的経路順序と重み付き経路順序の統合 [cs.LO]目的:項書き換えシステムの終結性の証明における削減順序の統合
- 項書き換えシステムは,計算可能性の理論において重要な役割を果たす。
- 項書き換えシステムの終結性を判定することは,一般に困難である。
- より強力で簡潔な削減順序を確立し,終結性判定を容易にすること。
- 意味的経路順序と重み付き経路順序は,削減順序および削減対として単純に統合できることが示された。
- 統合された順序は,基礎的な完全削減順序としても利用可能であることが示唆された。
分散型ガウス平均検定:通信制約下におけるメッセージ,サンプル,コイン [cs.DS]目的:通信制約下におけるガウス平均検定問題
- データ分析において,分布の特性を把握する事は重要であり,特にガウス分布は様々な分野で現れる。
- 分散環境下では,通信コストが制約となるため,効率的な検定方法が求められる。
- 不均一なサンプル数や通信ビット数下でもガウス平均検定を可能にする手法を確立する。
- 本研究では,ユーザーが共有するランダムビット数を削減した場合,各ユーザーが異なるサンプル数を持った場合,および各ユーザーが裁判官に送信するビット数が異なる場合に,問題を大幅に一般化している。
- これまでの研究では,各ユーザーが正確に1つまたはm個のサンプルを持つという前提があったが,本研究ではその制約を取り除いている。
- 本研究の結果は,通信制約の厳しい分散環境におけるガウス分布の統計的検定に貢献する。
MDS楕円コードの最大長について [cs.RO, cs.IT, math.IT]目的:MDS楕円コードの最大長の決定
- 誤り訂正符号は,情報伝送やデータ保存において信頼性を担保する上で不可欠である。
- 楕円曲線から生成されるMDSコードの最大長は未解決問題であり,符号設計のボトルネックとなっていた。
- 本研究は,楕円曲線から得られるMDSコードの最大長を完全に決定することを目的とする。
- 本研究により,q+1+⌊2√q⌋が偶数の場合,MEC(k,q)=(q+1+⌊2√q⌋)/2となることが示された。
- q+1+⌊2√q⌋が奇数の場合,MEC(k,q)=(q+⌊2√q⌋)/2となることが証明された。
- Gの支持が Fq-有理点からなるとき,偶数次元kに対して上限が低下することが明らかになった。
極値理論によるセルフリーRANにおけるuRLLC向けユーザ中心クラスタリング [cs.IT, math.IT]目的:セルフリーRANにおけるuRLLC向けユーザ中心クラスタリングの設計
- B5G/6Gネットワークにおいて,超高信頼・低遅延通信(uRLLC)は重要な技術要素である。
- 従来のクラスタリング設計は平均的な指標に焦点を当てており,遅延分布の裾部に現れる極端な事象への対応が不十分である。
- 極値理論を用いて,厳しい遅延制約下でのエネルギー効率最大化問題に取り組む。
- 提案手法は,極値理論を用いてキュー遅延違反の確率を正確に評価し,クラスタ構成を動的に適応させる。
- シミュレーション結果から,提案手法は信頼性と効率性のトレードオフを改善し,極端な遅延事象を大幅に抑制することが示された。
- リヤプノフ最適化と逐次凸近似を組み合わせた効率的なオンラインアルゴリズムにより,問題を解決する。
コーディングエージェントがユーザーに失敗する様相:20,574件の現実世界におけるセッションを対象とした開発者-エージェント間の不整合の大規模分析 [cs.SE, cs.AI, cs.HC]目的:開発者とエージェント間の不整合の様相
- AIコーディングエージェントの利用拡大に伴い,その効果的な活用が重要となる。
- 既存の研究では,実際の開発者の経験する不整合が十分に捉えられていない。
- 現実世界のセッションにおける不整合を分析し,改善策を提示すること。
- 20,574件のセッションを分析した結果,不整合は主に開発者の修正によって解決されることがわかった。
- 不整合の形は7種類に分類され,プロジェクトの読解から進捗の報告まで,幅広い問題領域に及ぶ。
- IDEとCLI環境で不整合パターンに違いが見られ,時間経過とともに変化する傾向がある。
隠れたグループボーナスによるランキングの説明 [cs.DS, cs.CY, cs.DB]目的:観測された候補者ランキングと相関する線形効用関数の決定
- 入学,採用,推薦システムなど,ランキングは多くの分野で重要な役割を果たすため
- 公平性を促進するための隠れた属性やグループボーナスがランキングに影響を与える場合がある
- 隠れたグループボーナスを考慮したランキング説明問題を解決することを目指す
- 提案手法は,制約充足と自動推論を用いて,線形スコアリングパラメータと潜在的なグループボーナスを同時に推論する
- グループ固有のボーナスを持つ線形関数を見つけることは一般にNP困難だが,特徴次元とグループ数が一定の場合,多項式時間で解ける
- 実データおよび合成データを用いた実験により,隠れたボーナス構造を効果的に回復し,観察されたランキング結果を忠実に説明できることが示された
データセットの価値はどの程度か?スケーリング則,Vendiスコア,および行列スペクトル関数 [cs.LG, cs.AI, cs.CV, cs.IT, math.IT]目的:データセットの価値評価
- 機械学習の性能向上には,良質な学習データが不可欠であり,データセットの価値を定量的に評価する手法が求められている。
- 既存手法では,データセットの価値を正確に予測することが難しく,効率的なデータ選択が困難である。
- データセットの価値をより正確に評価し,効率的なデータ選択を可能にする新たな手法を提案する。
- Vendiスコアや一般的なニューラルスケーリング則の目的関数は,劣モジュール性を持つことが示された。
- Vendiスコアは,より広範な行列スペクトル関数の特殊なケースであり,弱行列単調関数を用いることで,実用的なデータ評価の目的関数が導出された。
- 高速な最適化手法の開発により,ImageNet-1K規模のデータセットに対してもVendiスコアの直接最適化が可能になり,様々な目的関数を用いて評価を行った結果,施設配置法が最も優れた性能を示した。
マルチモーダル大規模言語モデルを用いたコンフィギュレータUIのユーザビリティ分析 [cs.SE, cs.HC]目的:コンフィギュレータUIのユーザビリティ分析
- 複雑なシステムや製品のカスタマイズにはコンフィギュレータが不可欠であり,その成功にはユーザビリティが重要である。
- 汎用的なユーザビリティ評価基準はあるものの,コンフィギュレータ特有の基準や分析ツールは限られている。
- マルチモーダル大規模言語モデルを用いて,コンフィギュレータUIのユーザビリティ分析を効率化し,改善点を提案すること。
- 本研究では,文献から18のコンフィギュレータ特有のユーザビリティ基準を抽出し,16の実際のコンフィギュレータに適用した。
- 大規模言語モデルは,コンフィギュレータ特有のユーザビリティ問題を信頼性高く特定し,ドメイン知識に基づいた改善提案を行うことが確認された。
- 人的検証は必要だが,本手法はコンフィギュレータのユーザビリティ分析に必要な労力を大幅に削減する可能性がある。
CODEFUSE-DEBENCH:可読性,再コンパイル可能性,機能性に関する実証研究 [cs.SE, cs.CR]目的:デコンパイラの品質評価における可読性,再コンパイル可能性,機能性の3次元評価
- バイナリ解析はセキュリティやリバースエンジニアリングにおいて重要であり,その効率化が求められている。
- 既存のデコンパイラ評価は構文類似性や単一軸の可読性指標に偏っており,実用的な再利用性を捉えられていない。
- デコンパイラの多次元評価フレームワークを構築し,実用的な再利用性を考慮した評価を行うことで,デコンパイラの改善を促進する。
- 提案されたフレームワークDEBENCHを用いて5つの主要なデコンパイラと3つの修復LLMを評価した結果,デコンパイラとLLMの組み合わせによるプログラムレベルの行動的重複率は最大22.3%であった。
- 最適化レベル-O3は可読性が最も低いが,機能性が最も高いという結果が得られ,可読性の最大化が必ずしも機能性の最大化に繋がらないことが示された。
- デコンパイラ間の機能レベルでのばらつきはLLM間のばらつきの20倍であり,デコンパイラエンジンの進歩がより重要であることが示唆された。
GUITestScape:探索的GUIテストにおけるオープンセット評価へ向けて [cs.SE, cs.AI]目的:探索的GUIテストにおける評価手法
- GUIテストはソフトウェア品質確保の重要なプロセスであり,ユーザーエクスペリエンスに直結する。
- 既存の評価指標はインタラクションの欠陥に偏っており,表示に関する欠陥が評価されない。
- 定義済みの欠陥アノテーションに縛られず,テストの過程を詳細に評価する手法が求められる。
- GUITestScapeは61のAndroidアプリと508の欠陥を含むインタラクティブなベンチマークである。
- GUIJudgeは,エージェントのテスト軌跡を独立して診断可能な能力に分解するオープンセット評価器である。
- GUIJudgeは定義済みの注釈を超えた信頼性の高いプロセス認識評価を達成し,既存モデルを上回る。
量子化された環境下におけるフィードフォワードニューラルネットワークの検証の複雑性 [cs.CC, cs.LG, cs.LO]目的:量子化されたフィードフォワードニューラルネットワークの検証の計算複雑性
- AIの安全性が重要視される中で,ニューラルネットワークの検証は,その信頼性を保証する上で不可欠である。
- ニューラルネットワークの検証は,一般にNP困難であり,現実的な規模のネットワークへの適用が難しい。
- 量子化による計算コスト削減と,検証可能性の維持の両立を目指す。
- 固定精度量子化されたFNNにおけるLPおよびBV仕様による検証は,有理数の場合と同等のNP困難であることが示された。
- 動的量子化されたFNNとBV仕様の組み合わせにおいて,上限が確立され,既存のPSPACE困難結果を補完する。
- 本研究は,量子化されたニューラルネットワークの検証問題の複雑性に関する理解を深めることに貢献する。
ParaTool:ツール表現をコンテキストからパラメータへ [cs.AI, cs.SE]目的:ツール利用における言語モデルの性能向上
- 大規模言語モデルの外部ツール連携は,現実世界の問題解決に不可欠である。
- コンテキスト長が伸びると,推論コストが増大し,幻覚のリスクが高まる。
- ツール情報をパラメータ化することで,効率的なツール利用を目指す。
- ParaToolは,従来のコンテキスト学習手法と比較して,大幅な性能向上を達成した。
- ツール情報をパラメータとして扱うことで,推論コストを削減し,幻覚のリスクを低減した。
- Stable ToolBenchおよびBFCLでの実験により,ParaToolの有効性が確認された。
有向オイラー巡路のサンプリングを$\widetilde O(m^{3/2})$時間で [cs.DS, math.PR]目的:有向オイラー多重グラフのほぼ一様分布なオイラー巡路のサンプリング
- グラフ理論は,ネットワーク分析,最適化問題など,様々な分野に応用されており,その重要性は高い。
- 疎なグラフにおけるオイラー巡路のサンプリングは,計算量に制約があり,効率的なアルゴリズムが求められていた。
- 本研究は,疎なグラフ上でも効率的にオイラー巡路をサンプリングするアルゴリズムを開発し,その問題を解決する。
- 本研究では,$m$個の弧を持つ有向オイラー多重グラフのほぼ一様分布なオイラー巡路を$\widetilde O(m^{3/2})$時間でサンプリングするランダム化アルゴリズムを提案した。
- 提案アルゴリズムは最悪の場合でも保証され,任意の有向オイラー多重グラフに適用可能である。
- アルゴリズムの核となるのは,flip--repair walkと呼ばれる新しい局所マルコフ連鎖であり,効率的な混合が確認された。
TC-MIS:テンソルコアにおける最大独立集合 [cs.DC, cs.DS, cs.PF]目的:グラフにおける最大独立集合の算出
- 資源配分,スケジューリング,ネットワーク最適化など,幅広い分野で基礎的な問題として重要である。
- グラフ構造は不規則であり,GPUの並列処理に適さないメモリアクセスやワークロードの不均衡が課題である。
- テンソルコアを活用し,不規則なグラフ探索を規則的な計算に変換することで,高速化を目指す。
- TC-MISは,グラフの隣接行列をタイル化し,WMMA演算を用いてスパース行列ベクトル積を高速化する。
- RTX A5000で平均2.84倍,H200で最大44.38倍の高速化を達成し,既存手法を凌駕する。
- 解の質は,確立されたヒューリスティックと同等の水準を維持している。
動的コード読み込みに対するシンボリックライブラリ解決による制御フローグラフ復元 [cs.CR, cs.SE]目的:動的コード読み込み環境下における制御フローグラフの復元
- ソフトウェア分析において,制御フローグラフは重要なデータソースであるため,その復元技術は不可欠である。
- 動的コード読み込みは静的解析を回避する手法であり,制御フローグラフの静的復元を阻害する問題がある。
- シンボリック実行と推測的ライブラリプリロードを組み合わせ,動的読み込み時の制御フローグラフを復元する。
- 提案手法により,静的解析のみと比較して,平均で29.8%多くの制御フローグラフノードと26.5%多くのエッジを復元できた。
- ライブラリ検出において,100%の精度と再現率を達成し,Fridaを用いた動的計測により検証された。
- 本手法は,マルウェア解析における安全性も確保しており,悪意のあるコードを実行することなく分析が可能である。
マルチ導波路PASSにおけるレート最大化:階層型ユーザスケジューリングと結合最適化フレームワーク [cs.IT, math.IT]目的:マルチ導波路PASSにおける合計レートの最大化
- 無線通信において,周波数資源の効率的な利用が重要であり,柔軟なアンテナ技術が求められている。
- 従来のアンテナ技術では,柔軟なビーム制御や干渉抑制が困難であり,性能向上の限界がある。
- 誘電体粒子を用いた導波路型アンテナ(PASS)の性能を最大限に引き出すための最適化手法を開発する。
- 提案手法である階層型ユーザスケジューリング(HUS)は,ランダムペアリングと比較して明らかな性能向上を示す。
- パワーアロケーションアルゴリズムは,最大比率伝送アルゴリズムと比較して,著しい性能改善を示す。
- 導波路内伝搬損失と結合効果がPASSの性能に大きな影響を与えることが明確に示されている。
多入力多出力-流体アンテナシステムにおけるチャネル推定とポート選択のための統一的な二段階生成拡散フレームワーク [cs.HC, eess.SP, q-bio.NC, cs.CL, cs.IT, eess.SP, math.IT]目的:多入力多出力-流体アンテナシステムにおけるチャネル推定とポート選択の同時最適化
- 次世代無線通信システムにおいて,流体アンテナシステムは有望な技術である。効率的な無線通信の実現に不可欠。
- 限られたRFチェーンから高次元チャネル状態情報(CSI)を獲得することと,そのCSIに依存するポート選択問題の組み合わせが困難。
- CSI推定とポート選択を統合的に解決し,システム性能を向上させること。
- 提案手法は,最大事後確率(MAP)推論問題として問題を定式化し,プラグイン近似を通して二段階のサンプリングステージに分解する。
- 第1段階では,連続フローベースの拡散モデルが2Dチャネルの事前分布として機能し,低いサブサンプリング比率下でも高精度なチャネル復元を可能にする。
- 第2段階では,教師あり学習と強化学習を組み合わせた離散拡散モデルにより,ポート選択を最適化し,最小達成レートを大幅に向上させる。
大規模言語モデルにおける選好に基づく充足可能性最大化による信頼性の高い推論 [cs.AI, cs.LO]目的:大規模言語モデルを用いた,複数制約とユーザー定義の選好を含む最適化タスクにおける信頼性向上
- 自然言語処理の進展により,大規模言語モデルの応用範囲は拡大している。複雑な最適化問題への対応が求められている。
- 大規模言語モデルは,制約が多く,ユーザーの選好が絡む最適化タスクで苦戦し,誤った解を生成する可能性がある。
- 大規模言語モデルで生成されたコードと選好に基づく充足可能性最大化を組み合わせ,検証可能な最適化を実現する。
- 提案手法は,オープンソースおよびクローズドアクセスLLMを用いた実験で,従来の基盤モデルと比較して大幅に高い受容率を達成した。
- LLMによるコード生成と選好に基づくMaxSATの組み合わせにより,生成されたエンコーディングに対する検証可能な最適化が可能となった。
- 独立した検証により,参照意味論に基づく正確性が大幅に向上することが示された。
集合形状理論を用いたRAMアクセスとCPU計算のトレードオフ [cs.IT, math.IT]目的:データベースインデックスにおける集合形状理論(SST)の有効性評価
- データベース性能向上は,情報社会の基盤であり,高速なデータアクセスが不可欠である。
- 従来のハッシュ法では,クラスタリングによる性能劣化が課題となっていた。
- SSTを既存のインデックスアルゴリズムの前処理層として適用し,RAMアクセス回数を削減する。
- SSTは,検索時のRAMアクセス回数を削減し,メモリジャンプ回数,プローブ数,テールレイテンシを低減する。
- SSTは,データの配置を静的に捉えるのではなく,構造的に適応可能な可逆的な表現として扱う新しいデータストレージの考え方を提供する。
- SSTシミュレーターを利用することで,本研究の一部結果を再現可能である。
最小限のプロンプト摂動がコードの脆弱性につながる:コーディングLLMにおけるプロンプトの脆弱性と隠れ状態のシグナル [cs.CL, cs.CR, cs.CL, cs.SE]目的:コーディングLLMにおけるプロンプトのわずかな変化がコードのセキュリティに及ぼす影響の評価
- LLMを活用したコーディング支援は開発効率を向上させるが,生成されたコードのセキュリティが重要となっている。
- プロンプトの小さな変化がコードの機能的な正確性を損なうことは知られているが,セキュリティへの影響は未解明であった。
- プロンプトのわずかな変化がコードのセキュリティを侵害するかどうかを検証し,脆弱性の原因を特定すること。
- わずかなプロンプトの変化(一文字の変更など)が,安全なコードを脆弱なコードに変化させることが示された。
- モデルの隠れ状態を分析した結果,脆弱性はプロンプト表現に一部符号化されていることが明らかになった。
- 入力処理の脆弱性は予測しやすい一方,安全なデフォルト設定の脆弱性は,デコーディング段階での介入が必要となることが示唆された。
安全な分散仮説検定 [cs.IT, cs.CR, math.IT]目的:分散仮説検定における安全性確保
- センサーネットワーク等のデータ活用において,プライバシー保護は不可欠であるため。
- 中央サーバが個々のデータ内容を知らずに検定を行うことは困難である。
- 共有鍵を用いることで,プライバシーを保護した仮説検定を実現する。
- 標準的な設定では,サーバが分布に関する情報を一切学習せずに仮説検定を行うことは不可能であることが示された。
- 単一ビットの共有鍵を用いることで,単純な仮説クラスに対する完全な安全な検定が可能となる。
- 有限領域上の任意の仮説クラスに対し,PSMプロトコルを用いた多項式的な通信量と鍵長で仮説検定への帰着が示された。
純粋パスによる強力な(D)QBF依存スキーム:証明検証への応用 [cs.LO]目的:量化ブール論理式(QBF)および依存量化ブール論理式(DQBF)の証明
- QBF/DQBFは,AIや形式検証等で活用され,その効率的な検証手法の開発が重要である。
- 既存のQBF/DQBF証明システムは,証明の複雑性から効率的な検証が困難であった。
- 独立拡張規則と同等の強力な依存スキームを構築し,証明検証の効率化を目指す。
- 本研究では,新たな依存スキームDpureを提案し,Blinkhornの証明システムDQRATを独立拡張規則と同等に強化した。
- DQRATは理論上は存在したが,本研究でプロトタイプチェッカーDQRAT-checkを実装し,Dpureの有効性を実証した。
- Dpureは既存の依存スキームと同様の特性を示し,依存学習ソルバーQuteへの統合など,更なる応用が期待される。
角度認識クラスタリングとRSMAによるHAPSネットワークにおける干渉対策 [cs.IT, cs.SY, eess.SY, math.IT]目的:HAPSネットワークにおける干渉軽減手法
- 次世代無線ネットワークの普及に貢献し,広範囲なエリアで安定した通信を可能にする。
- HAPSと地上ユーザー間の強い見通し波(LoS)により,干渉が深刻化しやすい。
- 角度情報を活用したクラスタリングとRSMAにより,干渉を効果的に抑制する。
- 提案手法は,ユーザーごとのスペクトル効率において,既存手法を大幅に上回る性能を示す。
- 角度認識クラスタリングによって,干渉の影響を受けにくいユーザーグループを形成する。
- RSMAを用いることで,リソースブロック内での干渉をさらに軽減することが可能となる。
仕様からコードの正当性を推論する [cs.SE, cs.AI]目的:LLM生成コードの正当性検証
- ソフトウェア開発においてLLM利用が進む中,生成コードの品質保証が重要課題となっている。
- 既存手法はコスト高や動的バグへの脆弱性,順序依存性といった問題を抱えている。
- 仕様に基づいた入力と出力のペアを用いて,LLMによる推論を具体化し,正当性を評価する。
- TRAILSは,LiveCodeBenchとCoCoClaNeLデータセットで,Zero-Shot COTと比較してマシュー相関係数を最大39\%向上させた。
- HoarePromptよりも常に優れた性能を示し,LLMの非決定性に対する安定性も向上した。
- 競合手法よりも多くのユニークなコードサンプルに対して正しいラベルを付与できることが示された。
レーダーセンシングにおけるZak-OTFS波形におけるパルス整形フィルタの効果 [cs.IT, eess.SP, math.IT]目的:レーダーセンシングにおける複数のターゲットの検出・識別性能向上
- レーダーセンシングは,自動運転や監視システムなど幅広い分野で重要な役割を担う技術である。
- 従来のレーダー波形では,ターゲット間の識別性能と誤検出抑制を両立することが課題であった。
- Zak-OTFS波形を用いたレーダーにおいて,より優れた波形整形フィルタを探索し,性能向上を目指す。
- シンクフィルタとガウス-シンクフィルタは,ガウスフィルタと比較して,ターゲット密集環境下でより優れた識別性能を示す。
- ガウスフィルタは,サイドローブが低く抑えられており,ターゲット疎な環境下では良好な性能を発揮する。
- ターゲット間干渉軽減処理を施した受信機では,シンクフィルタとガウス-シンクフィルタは,ターゲットの密度に関わらずガウスフィルタを上回る性能を示す。
TagDebt:技術的負債管理を支援するボット [cs.SE]目的:技術的負債の管理
- ソフトウェア開発において,保守性を損なう可能性のある,短期的な妥協は避けられない。
- 技術的負債の追跡・管理が不十分だと,長期的に大きな問題を引き起こす可能性がある。
- 既存の開発ワークフローに容易に組み込める,専門的な技術的負債管理ツールが不足している。
- TagDebtは,GitHubリポジトリに統合し,Issueに自動的にラベルを付与することで,技術的負債の特定を支援する。
- 実務家へのインタビュー調査の結果,TagDebtはIssueの整理や手作業の削減に役立ち,使いやすいと評価された。
- チーム規模や開発者の役割などの文脈要因が,TagDebtの採用に影響を与えることが示唆された。
OVA-IB:多種多様なモダリティのアライメントのためのOne vs All情報ボトルネック [cs.CL, cs.LG, cs.IT, math.IT]目的:多種多様なモダリティのアライメント手法
- マルチモーダル学習は,多様なデータソースの統合を可能にし,AIの性能向上に不可欠である。
- 既存手法は,ペアワイズな比較に依存し,複数モダリティ間の高次の関係性を捉えきれていない。
- 情報ボトルネック原理に基づき,各モダリティが他のモダリティとの関係で情報を保持・圧縮する基準を確立する。
- 提案手法OVA-IBは,One-vs-Allの視点から情報ボトルネックを最適化するフレームワークである。
- 実験の結果,OVA-IBは分類,回帰,モダリティに依存しない評価,クロスモーダル検索などのベンチマークで優れた性能を示した。
- これにより,多種多様なモダリティのアライメントにおける新しいアプローチの有効性が実証された。
アゴラ:LLMエージェントによるプロダクションレベルのコンセンサスプロトコルの自律的なバグ検出に向けて [cs.SE, cs.AI]目的:プロダクションレベルのコンセンサスプロトコルにおけるバグの自律的な検出
- 分散システムやブロックチェーンの根幹をなすコンセンサスプロトコルの信頼性は極めて重要である。
- 実装上のバグはデータ破損や経済的損失を引き起こす可能性があり,検出が困難である。
- 複雑な状態依存性を持つプロトコルレベルの論理バグを,LLMを活用して効率的に発見すること。
- アゴラは,仮説駆動型テストとLLM機能を統合したドメイン認識型のマルチエージェントフレームワークである。
- アゴラは,Raft,EPaxos,HotStuff,BullSharkの4つのコンセンサス実装において,15個の未知のプロトコルレベルの論理バグを発見した。
- 既存のLLMベースのエージェントでは,これらのプロトコルレベルのバグは検出できなかった。
ジェスチャー感知屋内THz ISACシステムによる適応的リソース割り当て [cs.IT, cs.LG, math.IT]目的:屋内THz ISACシステムにおける適応的通信のためのジェスチャー認識
- 無線通信において,より高精度なセンシングと通信の同時実現が求められている。
- 従来のシステムでは,通信品質とセンシング精度を同時に最適化することが困難である。
- ジェスチャー認識に基づく動的なリソース割り当てにより,通信とセンシング性能の向上を目指す。
- 提案手法は,ジェスチャーの動きに効果的に対応し,従来の最適化手法よりも優れたセンシング精度と通信性能を達成する。
- 拡張カルマンフィルタを用いてジェスチャー追跡を行い,アクセスポイントが動的にリソース割り当てを調整することで,センシング精度を向上させている。
- ジェスチャー認識結果に基づき,通信品質要件を更新することで,効率的なリソース割り当てを実現している。
選択型ハイパーヒューリスティクスは最適な学習期間を自動調整し,擬似ブール問題を最適に解くことができる [cs.NE, cs.AI, cs.DS, math.OC]目的:擬似ブール問題の最適解探索における学習期間の自動調整
- 組合せ最適化問題の複雑さが増す中,効率的な解法開発が重要となっている。
- 従来のハイパーヒューリスティクスは逐次的な成功に基づいて行動を変化させ,学習期間の最適化が困難であった。
- 新たなアルゴリズムパラメータである学習期間を自動的に設定し,ユーザーの負担を軽減すること。
- 提案手法は,最適近傍サイズを反復のほぼ全てで選択することが示された。
- その結果,LeadingOnesベンチマークを可能な限り短い時間で最適化できることが確認された。
- このハイパーヒューリスティクスは,学習期間を自動調整することで,高い性能を発揮する。
CRBに基づく屋内ミリ波ISCCシステムのためのフレームワーク設計とリソース割当て [cs.CY, cs.IT, cs.LG, math.IT]目的:屋内ミリ波ISCCシステムにおける人体姿勢予測誤差の最小化
- 屋内における人間中心アプリケーションの実現において,統合センシング・通信・計算(ISCC)が重要な役割を担う。
- ISCCシステムでは,限られたリソース下での高性能なセンシングと計算が課題となる。
- 本研究では,CRBを用いてリソース割当てを最適化し,姿勢予測誤差を低減することを目的とする。
- 提案手法は,CRBに基づいてセンシング電力とモデル深度の関係を定量化し,リソース割当て問題を効率的に解決する。
- シミュレーション結果は,提案手法が既存手法と比較して姿勢予測誤差を大幅に削減することを示しており,その有効性を検証している。
- 本研究は,リソース制約のある屋内人間中心ISCCシステムへの応用可能性を示唆する。
深層学習によるデータ依存型重ね合わせ訓練のための低オーバーヘッド受信機設計 [cs.PF, cs.CL, cs.AR, cs.IT, eess.SP, math.IT]目的:データ依存型重ね合わせ訓練の低オーバーヘッド化
- 無線通信において,スペクトル効率の向上が常に求められており,パイロット信号の効率的な利用が重要である。
- 従来の直交パイロット方式ではパイロット信号にオーバーヘッドが生じ,重ね合わせパイロット方式ではパイロットとデータ間の結合が問題となる。
- 本研究は,パイロットとデータの結合を緩和し,低オーバーヘッドで効率的な受信処理を実現することを目指す。
- 提案手法は,準静的ブロックフェージングチャネルにおいて,データ依存型の代数構造を活用することで,非反復的なパイロット-データ分離を実現する。
- 変動の激しい環境下では,直交パイロット方式と重ね合わせパイロット方式を組み合わせることで,信頼性の高い復調と干渉抑制を実現する。
- Vision Transformerベースのニューラル受信機は,パイロットとデータの直交構造,およびチャネル相関を捉え,干渉分離の制約を緩和する。
ソフトウェア定義型車両の台頭:アーキテクチャ,実現技術,および将来の機会 [cs.ET, cs.SE]目的:ソフトウェア定義型車両に関するアーキテクチャ,実現技術,および運用フレームワークの包括的な調査
- 自動車産業は,自動運転,コネクテッドサービスなど,ソフトウェアによる進化を加速させている
- 従来の車両システムは,ハードウェア中心であり,柔軟性や拡張性に課題がある
- ソフトウェア定義型車両の技術的課題を明らかにし,将来の研究方向性を示す
- 本研究では,分散型ECUシステムからドメインベース,ゾーン,集中型コンピューティングプラットフォームへの車両アーキテクチャの進化を分析した。
- ソフトウェア指向アーキテクチャ,ミドルウェア,AIメカニズムなど,ソフトウェア定義型車両を実現する主要な技術を体系的に分類した。
- ソフトウェア定義型IoT車両(SDIoV)のパラダイムを提示し,拡張性のある車載通信とデータ処理を可能にするエッジコンピューティングとの統合を検討した。
チェックポイント修復による思考プログラムの回復可能性 (REPOT) [cs.CL, cs.CY, cs.SE, cs.AI, cs.CL]目的:思考プログラムの回復手法
- 大規模言語モデルの推論能力向上には,複雑な問題を段階的に解決する思考過程の構築が不可欠である。
- 従来の思考プログラムは,一つの誤った行動により計画全体が無効になるという脆弱性を持つ。
- この研究は,誤りを検出し,検証済みの部分から再開することで,思考プログラムの信頼性を高めることを目指す。
- RePoTは,PoTが失敗する約14%の問題に対して,最大で1回の追加のLLM呼び出しコストで問題を解決する。
- PuzzleZoo-775およびgpt-5.4-mini-mediumにおいて,RePoTはPoTを3〜11pp上回り,最高で96.9%の精度を達成した。
- Derail-550ベンチマークでは,チェックポイント情報へのアクセスにより,GPT-mediumで30%以上,Geminiで70%以上の問題を解決できた。
