arXiv雑要約

プログラム - 2026/02/02 公開

COL-Tree：道路ネットワークにおける効率的な階層的オブジェクト検索 [cs.DB, cs.AI, cs.DS]目的：道路ネットワークにおける効率的なオブジェクト検索手法
- 位置情報サービスは，近隣の施設検索に不可欠であり，その効率性が重要である。
- 既存手法は単一の検索に特化しており，複数エージェントや逆方向の検索に対応できない。
- 道路ネットワークに適したランドマークに基づく効率的な階層的探索を実現する。
- 提案手法COL-Treeは，従来のユークリッド距離に基づく手法と比較して，より正確なランドマークヒューリスティクスを用いることで，効率的なグラフ探索を可能にする。
- AkNN，kFNなどのクエリに対して，既存手法を最大4桁のオーダーで上回る性能を示すことが，実データおよび合成データを用いた実験で確認された。
- 前処理のオーバーヘッドは比較的小さく，実用的な効率性を有している。
Link: https://arxiv.org/abs/2601.22183
論理制約項の部分的書き換えと値解釈 [cs.LO]目的：論理制約項書き換えシステムの研究
- 形式的検証やプログラム変換において，正確かつ効率的な推論が不可欠である
- 既存の制約項書き換えシステムは，表現力や効率性の点で課題が残されている
- 部分的制約書き換えの概念を導入し，既存手法との違いを明確にすること
- 部分的制約書き換えと最も一般的な制約書き換えの間に直接的な対応関係が確立された
- 制約項のインスタンス化による解釈を用いて，それぞれの書き換えの特徴が明確化された
- 値解釈という新しい概念が導入され，部分的書き換えと最も一般的な書き換えの微妙な違いが示された
Link: https://arxiv.org/abs/2601.22191
Linuxカーネルの鮮度が重要であり，CVEの深刻度は関係なく，経年劣化が進む [cs.SE, cs.CR]目的：カーネルCVEの解剖と動態に関する分析
- Linuxカーネルは広く利用されており，そのセキュリティは重要である。
- CVEの深刻度だけでは，パッチ適用状況を予測できない。
- カーネルの鮮度がパッチ適用に影響する要因を解明する。
- CVEの深刻度やCVSSメトリクスはパッチ適用遅延との関連性は低い。
- 新しいカーネルはより早く修正され，古いカーネルは未解決のCVEを抱えやすい。
- 脆弱性を導入するコミットは，修正コミットよりも広範囲かつ複雑である傾向がある。
Link: https://arxiv.org/abs/2601.22196
停滞，偏り，混乱：クラウドベースの根本原因分析におけるLLMの推論失敗の解明 [cs.SE]目的：クラウドベースのシステムにおける根本原因分析のためのLLMの推論失敗の特定と分類
- クラウドシステムの複雑化に伴い，システム信頼性を確保するための根本原因分析の重要性が増している。
- 複雑なクラウド環境では，多段的な障害伝播により根本原因の特定が困難である。
- LLMの推論能力を活用することで，根本原因分析の自動化を改善し，その限界を明らかにすること。
- 現在のオープンソースLLMは，多段的な根本原因分析において成功と失敗が混在し，入力データ形式に敏感であることが示された。
- 16種類の一般的な根本原因分析における推論失敗の分類体系が作成され，最終的な正解を予測する指標として機能することが確認された。
- 本研究は，推論駆動型システム診断の将来の研究を導く，透明性と再現性のある実験結果を提供する。
Link: https://arxiv.org/abs/2601.22208
FunPRM：メタ報酬補正を用いた関数型ステップ報酬モデルによるコード生成 [cs.LG, cs.SE]目的：コード生成における性能向上
- 大規模言語モデルの主要な応用分野であり，複雑なタスクの自動化に不可欠である。
- コードのステップ分解が困難であり，部分解の正誤評価にノイズが多いという課題がある。
- 関数単位でのステップ分解とメタ学習による報酬補正により，この課題を解決する。
- FunPRMは，既存のテスト時スケーリング手法と比較して，5つのベースLLMで一貫して性能を上回った。
- 特に，O4-miniと組み合わせることで，LiveCodeBenchで最先端の性能を達成した。
- 生成されたコードは，可読性および再利用性が向上し，開発者の利便性を高める。
Link: https://arxiv.org/abs/2601.22249
SPARK：多面的なプログラミング演習のリアルタイム監視 [cs.HC, cs.SE]目的：多面的なプログラミング演習における学生の進捗状況の監視
- 授業内でのプログラミング演習は，学生の困難や課題を把握する上で重要である。
- 複数のステップや複雑な依存関係がある演習の進捗を理解することは困難である。
- SPARKは，演習の要件に基づいたチェックポイントの設定と進捗状況の可視化により，この課題を解決する。
- SPARKは，演習のサブステップを柔軟にグループ化し，自動テストの提案，進捗状況の可視化を可能にする。
- SPARKは，中間的な出力を検査する機能を備え，ソリューションのバリエーションに関するより深い洞察を提供する。
- 22人の学習者のキーストロークデータを分析し，16人のプログラミングインストラクターによる主観的な有用性評価を行った。
Link: https://arxiv.org/abs/2601.22256
Few-Shot Fine-Tuning を用いた言語モデルによる断続的なジョブ失敗カテゴリの予測 [cs.SE, cs.AI, cs.CL, cs.LG]目的：断続的なジョブ失敗カテゴリの予測
- 継続的インテグレーションは開発者に重要なフィードバックを提供するが，その信頼性は重要課題である。
- 非決定的なテスト等により，ジョブが断続的に失敗し，診断に時間がかかるという問題がある。
- Few-Shot Learning を用いて，少ないラベル付きデータで失敗カテゴリを予測し，診断を効率化する。
- 提案手法 FlaXifyer は，カテゴリあたりわずか12のラベル付きサンプルで，Macro F1 が 84.3%，Top-2 正確度が 92.0% を達成した。
- LogSift により，1秒未満で重要なログ文を特定し，レビュー工数を74.4%削減，関連情報を87%のケースで提示した。
- TELUS のデータを用いた評価により，FlaXifyer と LogSift が効果的な自動トリアージと迅速な障害診断を可能にすることが示された。
Link: https://arxiv.org/abs/2601.22264
移動信号による支援を受けた二元無線システムの容量 [cs.IT, eess.SP, math.IT]目的：二元無線システムにおける容量領域の特性評価
- 無線環境の知能化が求められており，その実現手段として様々な技術が研究されている。
- 従来の技術では，十分な容量増加や周波数利用効率の向上が課題であった。
- 移動信号を用いることで，多重化利得を向上させ，システム全体の性能を改善すること。
- 移動信号は，動作周波数を調整することでユーザー間のチャネルを直交化させ，容量領域を拡大できる。
- 限られた周波数範囲内での周波数最適化により，固定信号と比較して最大45%の総レート向上が確認された。
- 本研究は，移動信号が多重アクセスチャネルおよびブロードキャストチャネルにおいて有効であることを示した。
Link: https://arxiv.org/abs/2601.22358
線形論理の証明複雑性 [cs.LO, cs.CC, math.LO]目的：古典命題論理の逐次推論システムLKに対する証明サイズの決定下界
- 論理学の基礎研究であり，計算可能性や証明可能性といった根源的な問題に迫る。
- LKに対する決定下界の証明は長年の未解決問題であり，証明の効率性評価が困難。
- 構造規則の役割を明らかにすることで，証明サイズの複雑性への新たな洞察を得る。
- 構造規則の組み合わせが，個々の規則よりも格段に強力であることが示された。
- 縮約や弱化のないLKに対する，短LK証明を持つ公式の指数関数的な証明サイズの下界が確立された。
- 線形論理の様々なシステム間における証明サイズの速度向上を明らかにした。
Link: https://arxiv.org/abs/2601.22393
PriviSense：Androidにおけるマルチセンサー欺瞞のためのFridaベースフレームワーク [cs.SE, cs.CR, cs.HC]目的：Androidデバイスにおけるセンサーおよびシステム信号のランタイム欺瞞
- モバイルアプリはユーザーコンテキストに適応するため，リアルタイムのセンサーデータに依存している。
- 物理デバイスでのコンテキスト依存アプリの再現性のあるテストが困難である。
- エミュレーターやアプリの再構築なしに，物理デバイスで再現性のあるテストを可能にする。
- PriviSenseは，ルート化されたAndroidデバイス上でセンサーおよびシステム信号をランタイムで欺瞞するツールキットである。
- 加速度計，ジャイロスコープ，ステップカウンターなどのセンサーデータや，バッテリーレベル，システム時間などのシステム値をスクリプトで注入可能である。
- 5つの代表的なセンサー可視化アプリでリアルタイム欺瞞の検証が完了している。
Link: https://arxiv.org/abs/2601.22414
LLMとファジーTOPSISの統合による，自動プロファイル分析を通じた人事選考 [cs.AI, cs.SE]目的：人事選考のための自動化システム
- 競争の激しい雇用環境下において，適切な人材の選定は組織の成功に不可欠である。
- 候補者の評価には，主観や曖昧さが伴い，客観的な判断が難しいという課題がある。
- 自然言語処理とファジー決定理論を融合させ，人事選考の精度と効率の向上を目指す。
- LLM-TOPSISフレームワークを開発し，候補者のランク付けに活用した結果，専門家の評価と高い一致度を示した。
- 特に，経験に関する評価と総合評価において，最大91%の精度を達成した。
- 本研究は，自然言語処理を活用したフレームワークが，採用プロセスの拡張性，一貫性，偏りの軽減に貢献できる可能性を示唆する。
Link: https://arxiv.org/abs/2601.22433
5G LDPCコードにおける多様性アラインメントによる根底LDPCコード化 [cs.IT, math.IT]目的：非エルゴード性ブロックフェージングチャネルにおける準巡回低密度パリティチェック（QC-LDPC）コードの多様性
- 5G通信などの無線通信において，信頼性の高いデータ伝送が不可欠であるため，誤り訂正符号技術の重要性が高まっている。
- 従来のLDPCコード設計では，多様性の最適化が難しく，特にフェージングチャネル環境下での性能向上が課題となっていた。
- 本研究は，LDPCコードのブロックマッピングを最適化することで，情報ビットの多様性を最大化し，伝送性能を向上させることを目指す。
- 提案手法は，5G New Radio LDPCコードにおいて，既存のグラフ構造を変更することなく，全情報ビットの多様性を保証するブロックマッピングを探索可能である。
- その結果，高SNR領域における傾斜が顕著に急になり，従来のランダムマッピングと比較してBLERが大幅に低下することが確認された。
- Boolean関数に基づく多様性進化（DivE）解析を用いることで，LDPCデコーディングにおける信念伝播メッセージのフェージング依存性を定量的に評価できる。
Link: https://arxiv.org/abs/2601.22470
拡張リード・ソロモン符号の逐次キャンセルリスト復号 [cs.IT, math.IT]目的：拡張リード・ソロモン符号のリスト復号方式
- 現代の通信・データストレージシステムにおいて，バースト誤りを訂正する能力が重要視されている。
- 既存の復号方式では，計算量が多く，高速化が課題となっていた。
- 拡張リード・ソロモン符号を効率的に復号する新しい手法を提案し，性能評価を行う。
- 拡張リード・ソロモン符号をn個のバイナリ極符号に変換することで，逐次キャンセル復号が可能となった。
- 変換行列の列線形独立性が，復号性能に大きく影響することが理論的に示された。
- 数値シミュレーションにより，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2601.22482
高移動体環境におけるLEO衛星-地上通信のための柔軟なFTN-OTFS [cs.IT, math.IT]目的：LEO衛星支援型柔軟型高速ニークイスト（FTN）-直交時間周波数空間（OTFS）スキーム
- 宇宙通信は，地上網が届かない地域への通信手段として重要であり，その需要は増加の一途を辿っている。
- LEO衛星通信では，衛星の高速移動による時間変動チャネルが深刻な問題となっており，通信品質の低下を招いている。
- 本研究は，衛星搭載機の消費電力制約下で，高速移動チャネル環境下における通信効率と信頼性を向上させることを目指す。
- 提案手法は，信号圧縮率をSNRに応じて最適化することで，スループットと信頼性の両立を実現している。
- 理論解析により，有効スループット，エネルギー効率，ビット誤り率を定量的に評価し，性能を明らかにした。
- シミュレーション結果から，提案手法が従来のFTNベンチマークと比較して，より高いスループットと堅牢性を示すことが確認された。
Link: https://arxiv.org/abs/2601.22526
LeanArchitect：人間とAIのためのブループリント生成の自動化 [cs.LO]目的：ブループリントデータの抽出，管理，エクスポート
- 形式的な数学の記述を正確に行うには，ブループリントが不可欠である。人間とAIの協調作業を円滑にする基盤となる。
- 従来のツールは，非形式と形式の記述を分離しており，保守性が低く，AIとの連携が限定的である。
- 形式と非形式の記述間の二重性を解消し，人間とAI双方の進捗追跡を容易にすること。
- LeanArchitectは，Leanコードから直接ブループリントデータを抽出し，管理し，エクスポートすることで，保守性を向上させる。
- 既存のブループリントにおける潜在的な不整合を明らかにし，形式化のワークフローを改善する。
- AIツールを現実世界の形式化ワークフローに統合するための効果的なインターフェースを提供する。
Link: https://arxiv.org/abs/2601.22554
分離論理における再帰的ミューテックス [cs.PL, cs.LO]目的：再帰的ミューテックスの仕様
- 並行処理におけるデータ競合を防ぐために，ロック機構は不可欠である。
- 再帰的ミューテックスの形式的な検証は困難であり，既存の技術では不十分である。
- 再帰的ミューテックスに対する一貫性のある仕様を提供し，検証を容易にすること。
- 分離論理を用いて再帰的ミューテックスを，不変量の保護または状態の原子的な変更として仕様化できることを示した。
- 同じスレッドによる複数回の獲得を統一的に扱い，ロック不変量へのアクセス時にミューテックスを保持しているか否かをクライアントが判断するだけで済むようにした。
Link: https://arxiv.org/abs/2601.22557
量子(r,δ)-局所回復可能BCHコードとホモセティック-BCHコード [cs.IT, math.IT, quant-ph]目的：量子(r,δ)-局所回復可能コードの構成
- 大規模分散ストレージやクラウドシステムにおけるデータ信頼性確保の重要性が高まっている。
- 従来の符号化方式では，複数の障害からの回復に限界がある。
- BCHコードとホモセティック-BCHコードから量子(r,δ)-局所回復可能コードを構成し，その最適性を追求する。
- BCHコードおよびホモセティック-BCHコードから量子(r,δ)-局所回復可能コードを構成する方法を提示した。
- 得られた量子(r,δ)-局所回復可能コードは，Singleton類似の限界に対して最適であることが示された。
Link: https://arxiv.org/abs/2601.22567
近似単調部分モジュラ最適化によるスケーラブルな公平性影響ブロック最大化 [cs.DS]目的：負の影響拡散を抑制するための最適なポジティブシード集合の選択
- ソーシャルネットワーク分析において，情報の拡散を制御することは重要な課題である。
- 既存の影響ブロック最大化手法は公平性を考慮せず，コミュニティ間の不均衡を生じさせる可能性がある。
- 本研究は，公平性を考慮した影響ブロック最大化問題に効率的に取り組むことを目指す。
- 提案手法は，効率的な最適化を可能にする近似単調部分モジュラ構造を持つ目的関数を導入する。
- 公平性と効果の間のトレードオフを調整可能なスカラー化によって実現し，実用的な解を提供する。
- 実験結果から，提案アルゴリズムCELF-Rが既存手法を凌駕し，高い効率性と近似精度を両立することが示された。
Link: https://arxiv.org/abs/2601.22584
小さきは美なり：実用的かつ効率的なログ解析フレームワーク [cs.SE]目的：ログ解析における効率化と実用性向上
- システム運用においてログ分析は不可欠であり，問題の早期発見やパフォーマンス改善に繋がる。
- 大規模言語モデルに依存する従来の解析手法は，小規模モデルでは性能が著しく低下する。
- 小規模モデルでも高性能なログ解析を実現し，実環境への適用を容易にすること。
- EFParserは，適応的な更新機構を持つデュアルキャッシュシステムにより，既存のテンプレートを効率的に再利用する。
- 検証モジュールがLLM生成テンプレートを厳密にチェックし，エラーの注入を防ぐことで高い精度を維持する。
- 小規模LLMを用いた評価において，既存の最先端手法を平均12.5%上回り，大規模モデルを凌駕する性能を示す。
Link: https://arxiv.org/abs/2601.22590
TimeMachine-bench：リポジトリレベルの移行タスクにおけるモデル能力を評価するためのベンチマーク [cs.SE, cs.CL]目的：ソフトウェア移行タスクにおけるモデル能力の評価
- ソフトウェア開発の自動化が進む中で，実務を反映した課題への注目が集まっている。
- コードを進化する環境に適応させる重要なプロセスであるソフトウェア移行は，十分な研究が行われていない。
- 現実のPythonプロジェクトにおける依存関係の更新に対応した移行タスクの自動化を目指す。
- TimeMachine-benchは，依存関係の更新によりテストが失敗するGitHubリポジトリから構成される。
- 大規模言語モデル(LLM)を含む11のモデルを基盤としたエージェントベースラインを検証した結果，移行タスクにおいて一定の可能性を示したが，信頼性に課題が残る。
- 特に，テストカバレッジの低さを利用した誤った解決策や，最適化されていないツール利用戦略による不要な編集が問題となる。
Link: https://arxiv.org/abs/2601.22597
凸位置にある中心を持つ円グラフにおける支配集合の計算 [cs.CG, cs.DS]目的：凸位置にある点の集合の円グラフにおける支配集合問題の解法
- グラフ理論は，ネットワークや関係性を分析する上で不可欠なツールである。
- 一般的な円グラフにおける支配集合問題はNP困難であり，効率的な解法が求められている。
- 凸位置にある中心を持つ円グラフにおける支配集合問題を，多項式時間で解くことを目指す。
- 凸位置の仮定の下で，最小支配集合サイズを$k$としたとき，$O(k^2 n \log^2 n)$時間で支配集合を計算するアルゴリズムを提案した。
- 重み付き円グラフにおける支配集合問題に対し，$O(n^5 \log^2 n)$時間で最小総重量の支配集合を計算するアルゴリズムを開発した。
Link: https://arxiv.org/abs/2601.22609
高齢者向けHealthMag：シニアユーザー向けデジタルヘルスソフトウェアの特定と評価ツール体系の構築と較正 [cs.SE, cs.HC]目的：シニアユーザー向けデジタルヘルスソフトウェアの要求事項特定と評価のためのツール
- 高齢化社会において，デジタルヘルスソフトウェアの普及が重要である。健康管理を支援するツールへのニーズが高まっている。
- 既存のソフトウェア開発では，高齢者の特性を考慮した設計が不足しており，利用における課題が生じている。
- 高齢者の健康状態やデジタルリテラシーに合わせた，より包括的なソフトウェア開発を支援することを目的とする。
- HealthMagというツールを，インクルーシブな設計フレームワークに基づいて体系的に構築・較正した。
- 既存のAgeMag手法を較正し，高齢者の健康状態という二つの視点からソフトウェアを評価する「高齢者向けHealthMag」を開発した。
- 認知ウォークスルーにより，既存のシニアユーザー向けデジタルヘルスアプリケーションにおける包括性の欠如を特定した。
Link: https://arxiv.org/abs/2601.22627
意味の罠：ファインチューニングされたLLMは脆弱性の根本原因を学習しているのか，それとも機能的パターンを学習しているだけなのか [cs.CE, cs.CR, cs.SE]目的：ソフトウェア脆弱性検出におけるLLMの理解度評価
- ソフトウェアの安全性確保は重要であり，脆弱性検出の自動化が求められている。
- LLMによる脆弱性検出は進んでいるものの，その判断根拠が曖昧である。
- LLMが機能的パターンに頼らず，脆弱性の根本原因を理解しているか検証する。
- ファインチューニングされたLLMは，脆弱なコードと修正されたコードの区別が困難であることが示された。
- わずかな意味変化に対するLLMの頑健性は著しく低下することが明らかになった。
- ベンチマークのスコアが高いからといって，LLMが脆弱性の真の因果関係を理解しているとは限らない。
Link: https://arxiv.org/abs/2601.22655
水平レイヤー化から垂直統合へ：AI駆動型ソフトウェア開発パラダイムの比較研究 [cs.SE, cs.AI]目的：生成AI導入における組織への影響
- ソフトウェア開発は経済活動の基盤であり，その効率化は重要である。
- 従来の機能別専門特化型組織では，連携コストが増大し，開発効率が低下する。
- AI活用による組織構造の変革と，その最適化戦略を提示する。
- 生成AIの導入により，従来の8倍から33倍のリソース消費量削減が確認された。
- AIによって役割の境界を越える「スーパー・エンプロイー」の出現が，この改善に寄与している。
- 組織の最適化目標として，個人の生産性ではなく，人間とAIの協調効率が重要となる。
Link: https://arxiv.org/abs/2601.22667
VarParser：LLMベースのログ解析における変数の潜在能力の解放 [cs.SE]目的：LLMベースのログ解析における変数情報の活用
- 大規模オンラインサービスシステムの障害診断において，ログは重要な情報源であるため，効率的な解析が不可欠である。
- 既存のLLMベースのログ解析手法は定数部分に焦点を当てており，変数部分の貢献を無視している。
- 変数に着目した解析戦略により，ログのグルーピングやキャッシュ効率を改善し，より正確でコスト効率の高い解析を実現する。
- 提案手法VarParserは，変数情報のサンプリング，キャッシュ，そして文脈学習を通じて，変数部分の活用を可能にする。
- 実験結果から，VarParserは既存手法と比較して高い精度を達成し，解析効率を向上させ，LLMの利用コストを削減することが示された。
- VarParserは変数単位を導入することで，より詳細な変数情報を保持し，ログ解析結果の完全性を高める。
Link: https://arxiv.org/abs/2601.22676
有限束縛同質構造上の制約充足問題：FOとL困難性の間の二分性 [cs.CC, cs.LO]目的：有限束縛同質構造上の制約充足問題の計算複雑性の分類
- 制約充足問題は，組合せ最適化やAIの分野で重要な問題であり，様々な応用がある。
- 無限構造における計算複雑性の分類は，有限構造よりも遥かに難しく，未解決の問題が多い。
- 有限束縛同質構造の一次論理拡張に関する複雑性二分性問題を解決し，より一般的な結果を得る。
- 一次論理で定義可能な制約充足問題は，非一様AC$^0$内にあり，計算が容易である。
- 一次論理で定義不可能な制約充足問題は，L困難であり，NP完備と同程度に難しい。
- Larose-Tessonの定理の新しい証明を与え，それを無限構造に一般化することで，この結果を得た。
Link: https://arxiv.org/abs/2601.22691
単一の Rydberg 原子受波器による多標的到来方向推定：空間分解された蛍光のスペクトル解析 [cs.IT, math.IT]目的：多標的到来方向推定手法
- 電波方向探知は，通信，レーダー，音響など広範な分野で不可欠な技術である。
- 従来の Rydberg 原子受波器は，受波アレイの複雑さや単一標的・狭帯域制限が課題であった。
- 空間分解された蛍光解析により，多標的かつ広帯域な到来方向推定を可能にすることを目指す。
- 空間分解された蛍光プロファイルを解析することで，多標的問題を効率的に解決できることを示した。
- 局所発振器との信号重畳により，複雑な吸収パターンを単純な正弦波の重ね合わせとして線形化する。
- 提案手法 (ISE) は，Prony 法を用いてスペクトル推定を行い，複数の標的を検出可能である。
Link: https://arxiv.org/abs/2601.22704
RealSec-bench：現実世界のコードリポジトリにおける安全なコード生成の評価のためのベンチマーク [cs.DC, cs.CR, cs.SE]目的：現実世界のコードリポジトリにおける安全なコード生成の評価
- LLMによるコード生成は進歩するが，安全性は重要な課題である。
- 既存のベンチマークは合成的な脆弱性に依存，安全性と機能性の関連性を捉えられない。
- 現実世界のコードに基づいた，安全なコード生成の評価ベンチマークを構築する。
- RealSec-benchは，高リスクなJavaリポジトリから構築された105の事例を含む。
- SecurePass@Kという指標を導入し，機能性と安全性を同時に評価した。
- RAGは機能性は向上させるが，安全性にはほとんど影響を与えないことが示された。
Link: https://arxiv.org/abs/2601.22706
AutoMerge：効果的なモデル再利用のための検索ベースのモデルマージフレームワーク [cs.SE]目的：モデル再利用の効率化
- ソフトウェア開発において，コスト削減や品質向上に貢献する重要な研究分野である。
- 異なるモデルアーキテクチャやドメインにおけるモデルマージの体系的な検討が不足していた。
- モデルアーキテクチャやドメインを超えたモデルマージの適用可能性を高めることを目指す。
- 既存のモデルマージ手法を直接適用すると，結果に一貫性がなく，LLMにおける成功を再現できないことが判明した。
- AutoMergeは，モデルを異質なブロックに分割し，マージ手法とハイパーパラメータの最適な組み合わせを探索する。
- AutoMergeは，多様なモデルアーキテクチャとドメインにおけるモデルマージの有効性を高める可能性を示す。
Link: https://arxiv.org/abs/2601.22748
LLM設計GUIの質的評価 [cs.HC, cs.AI, cs.SE]目的：LLM設計GUIのユーザビリティと適応性
- 生成AIの進化に伴い，GUI設計の自動化が期待される分野である。
- LLMが生成するGUIは，アクセシビリティやインタラクティブ性に課題が残る。
- 多様なユーザニーズに応えるGUIの生成におけるLLMの限界を明らかにする。
- LLMは構造化されたレイアウトの作成には有効であるが，アクセシビリティ基準を満たすことが難しい。
- LLMは異なるユーザペルソナに対応したGUIを部分的に調整できるものの，文脈理解が不十分である。
- LLMはUIプロトタイピングの初期段階で有望なツールとなりうるが，ユーザビリティ向上のためには人間の介入が不可欠である。
Link: https://arxiv.org/abs/2601.22759
AscendCraft：DSL誘導トランスコンパイルによる自動Ascend NPUカーネル生成 [cs.DC, cs.LG, cs.PF, cs.SE]目的：自動Ascend NPUカーネル生成手法
- 深層学習モデルの性能は効率的なカーネル実装に依存するが，開発には専門知識と時間がかかる。
- NPU向けカーネル生成は，GPUと比較してドメイン固有のプログラミングモデルや情報不足から進んでいない。
- DSL誘導トランスコンパイルにより，LLMによる高性能なNPUカーネル生成を可能にすること。
- AscendCraftは，Ascend固有の実行セマンティクスを明示的にモデル化する軽量DSLを導入した。
- MultiKernelBenchにおける評価で，98.1%のコンパイル成功率と90.4%の機能的正確性を達成した。
- 生成されたカーネルの46.2%がPyTorchのeager実行性能を上回り，新アーキテクチャmHCでも良好な性能を示した。
Link: https://arxiv.org/abs/2601.22760
AIシステムの安全性を証明する事例：再利用可能なテンプレートフレームワークの構築 [cs.SE]目的：AIシステムの安全性に関する事例の構築手法
- AI技術の発展に伴い，安全性確保が不可欠であるため，そのための体系的な手法が求められている。
- 従来の安全ケース構築手法は，AIシステムの動的な特性や不確実性に対応できないという課題がある。
- AIシステムの特性に特化した再利用可能なテンプレートを提供することで，安全性の証明を支援する。
- AIシステムの安全ケース構築における現状分析から，従来の安全工学アプローチの限界が明らかになった。
- AI固有の主張タイプ，議論タイプ，証拠体系を含む再利用可能な安全ケーステンプレートフレームワークを提案した。
- 提案フレームワークは，グラウンドトゥルースなしでの評価や動的なモデル更新といったAI特有の課題に対応可能である。
Link: https://arxiv.org/abs/2601.22773
境界における理解：LLM生成境界テストの説明 [cs.SE]目的：境界値分析およびテストの説明の品質評価
- ソフトウェア品質保証において，入力の極端な値に欠陥が集中しやすいことが知られている。
- テスターは，意味のある境界となる入力と出力のペアを理解し，正当化することに苦労することが多い。
- LLMを活用し，境界値の説明を生成することで，テストの効率化と信頼性向上を目指す。
- GPT-4.1が生成した境界説明について，ソフトウェア専門家による評価では，肯定的な評価が63.5%を占めた。
- 明確な構造，権威ある情報源の引用，読者の専門知識に応じた説明の深さが，好ましい説明の特徴として挙げられた。
- LLMベースのツールが，テストワークフローにおいて境界説明をより実用的に信頼できるものにする可能性が示唆された。
Link: https://arxiv.org/abs/2601.22791
難易度を考慮した強化学習による効率的なコード検証器 [cs.AI, cs.SE]目的：LLMによるコード生成後のコード検証の効率化
- LLMのコード生成の信頼性向上のためには，コード検証が不可欠である。
- 既存の教師あり学習は，データ不足，高い失敗率，低い推論効率が課題である。
- 難易度を考慮した報酬設計により，難しい分岐やサンプルに対する効果的なテスト生成を目指す。
- CVeDRLは，0.6Bパラメータで最先端の性能を達成し，GPT-3.5と比較して最大28.97%高い合格率と15.08%高い分岐網羅率を実現した。
- 競合するベースラインと比較して，20倍以上の高速な推論が可能である。
- 構文と機能に基づいた報酬と，分岐・サンプル難易度を考慮した強化学習によって，検証の信頼性が向上した。
Link: https://arxiv.org/abs/2601.22803
Metaにおける即時捕捉テスト生成 [cs.HC, cs.SE, cs.AI]目的：大規模バックエンドシステムにおけるバグの防止
- 大規模システムでは，バグの早期発見がシステム安定性に不可欠である。
- 従来のテストでは，誤検出が多く，開発の遅延を引き起こす可能性がある。
- 誤検出を減らし，バグを効率的に発見するテスト手法の確立。
- コード変更を考慮した手法により，捕捉テスト候補の生成効率が向上した。
- ルールベースおよびLLMベースのアセッサーにより，人的レビュー負荷を70%削減できた。
- 生成された捕捉テストは，深刻な障害を未然に防ぐ効果が確認された。
Link: https://arxiv.org/abs/2601.22832
検証可能なソフトウェアエンジニアリングのためのスケーラブルな多言語環境構築 [cs.SE, cs.AI]目的：検証可能なソフトウェアエンジニアリングタスクインスタンスのスケーラブルな生成
- ソフトウェア開発におけるLLMエージェント活用は重要だが，検証可能なデータセット不足が課題。
- 多様な言語に対応した実行可能な環境構築の複雑さが，データセット作成のボトルネックとなっている。
- 多言語環境の自動構築フレームワークにより，検証可能なタスクインスタンス生成を可能とする。
- MEnvAgentは，10言語1000タスクからなるMEnvBenchにおいて，ベースラインを8.6%上回る性能を示した。
- 環境再利用メカニズムにより，計算コストを43%削減することに成功した。
- MEnvAgentを用いて，現実的な検証可能なDocker環境の大規模オープンソースデータセットMEnvData-SWEを構築した。
Link: https://arxiv.org/abs/2601.22859
AnoMod：マイクロサービスシステムにおける異常検知と根本原因分析のためのデータセット [cs.SE]目的：マイクロサービスシステムにおける異常検知と根本原因分析のためのデータセット
- クラウドサービスアーキテクチャとしてマイクロサービスが普及しているため，その運用管理技術の重要性が増している。
- マイクロサービスシステムの異常検知と根本原因分析のための高品質な公開データセットが不足している。
- 多様な異常モードとモニタリング手法に対応できる，より現実的なデータセットを提供し，研究を促進すること。
- AnoModデータセットは，SocialNetworkとTrainTicketの二つのオープンソースマイクロサービスシステム上に構築されている。
- 性能レベル，サービスレベル，データベースレベル，コードレベルの四種類の異常を注入し，ログ，メトリクス，トレース等の五つのモダリティを収集した。
- これにより，クロスモーダル異常検知の評価や，サービス・コード領域にわたる詳細な根本原因分析が可能となる。
Link: https://arxiv.org/abs/2601.22881
統合センシング・通信による状態更新：鮮度最適化 [cs.IT, math.IT, math.OC]目的：遠隔ナビゲーションエージェントの状態更新における戦略的設計
- ロボティクスやIoTにおいて，リアルタイムな状況把握と制御が重要であるため。
- センシングと通信のコスト，および情報の鮮度を考慮した最適化が困難である。
- 情報の鮮度（AoI）を考慮した，効率的なセンシング・通信戦略を確立すること。
- 本研究では，遠隔ソースの情報を最適に更新するための，割引無限ホライズンマルコフ決定過程を提案した。
- 最適な定常ポリシーは，AoI状態空間における単調増加のスイッチング曲線によって特徴付けられることが示された。
- 数値解析により，価値関数と最適な決定マップの構造が明らかになり，鮮度に基づいた目的をISAC設計に組み込むことができた。
Link: https://arxiv.org/abs/2601.22901
統合センシングと通信によるフィードバック制御：不確実性最適化 [cs.IT, math.IT, math.OC]目的：サイバー物理システムのフィードバック制御のための統合センシング通信（ISAC）アーキテクチャの戦略的設計
- サイバー物理システムの制御は，産業オートメーションやロボティクスなど，様々な分野で重要性が増している。
- センシングと通信のトレードオフ最適化が難しく，システムの性能を最大限に引き出すことが課題である。
- ISACシステムにおけるセンシングと通信の最適な切り替え戦略を，不確実性を考慮して明らかにすること。
- 提案手法により，ISACシステムの最適なスイッチングポリシーが，ソースと基地局の推定共分散に基づいて決定されることが示された。
- 最適な制御ポリシーは，ソースの状態推定値に線形であり，効率的な制御を実現できることが確認された。
- ソースの不確実性が増すと通信が優先され，基地局の不確実性が増すとセンシングが優先される閾値領域が変化することが示された。
Link: https://arxiv.org/abs/2601.22912
自律走行のためのサーバーレスエッジネイティブなデータ処理アーキテクチャ [cs.SE]目的：自律走行モデル学習のためのデータ処理アーキテクチャ
- 機械学習は自動運転の鍵であり，大量のセンサーデータが不可欠である。
- 稀な事例を含むバランスの取れたデータ収集が困難である。
- エッジ環境での効率的なデータフィルタリングと処理を可能とする。
- Lambdaフレームワークは，ユーザー定義関数を用いた車載データフィルタリングを実現する。
- NVIDIA Jetson Orin Nano上での評価で，ROS 2と比較して優れた性能と低遅延性を示した。
- サーバーレス抽象化が組み込み型自動運転システムにおけるリアルタイム処理をサポートする。
Link: https://arxiv.org/abs/2601.22919
ノイズの選別：脆弱性誤検知フィルタリングにおけるLLMエージェントの比較研究 [cs.SE]目的：脆弱性誤検知のフィルタリング
- ソフトウェアの安全性を確保するためには，脆弱性の検出が不可欠であり，SASTはその重要な手段である。
- SASTツールは誤検知が多く，開発者の手動での確認に大きな負担をかけるという課題がある。
- LLMエージェントを活用し，SASTの誤検知を効果的に削減し，開発者の負担を軽減することを目指す。
- LLMエージェントはSASTのノイズを大幅に削減し，OWASP Benchmarkにおける誤検知率を最大6.3%まで低減できることが示された。
- 実世界のJavaプロジェクトにおいて，CodeQLアラートの誤検知を最大93.3%の精度で特定可能であることが確認された。
- LLMエージェントの性能は，基盤モデルや脆弱性の種類に大きく依存し，強力なモデルほど効果的であることが示唆された。
Link: https://arxiv.org/abs/2601.22952
SWE-Manager：コーディング前に最適な提案を選択・合成する [cs.SE]目的：ソフトウェア修正提案の選択と合成
- ソフトウェア開発において，問題解決の質と速度は重要であり，適切な提案選択が不可欠である。
- 複数の提案が存在する場合，その長所・短所を理解し，最適なものを選択することは困難である。
- 本研究は，提案の選択と合成を自動化することで，より信頼性の高い問題解決を目指す。
- SWE-Managerは，提案を比較・選択し，その理由を説明し，最終的な提案を合成する8Bモデルである。
- SWE-Lancer Managerベンチマークにおいて，53.21%の選択精度と57.75%の報酬率を達成し，GPT-5などのベースラインを上回った。
- P2Aフレームワークを用いた評価により，現実世界のissue解決におけるSWE-Managerの有効性が示された。
Link: https://arxiv.org/abs/2601.22956
SpecIBT：投機的制御フローハイジャックに対する形式的検証済みの保護 [cs.CR, cs.PL]目的：投機的制御フローハイジャックに対する保護機構
- 近年，Spectre攻撃などの投機的実行を悪用した脆弱性が顕在化しており，セキュリティ上の重要性が高まっている。
- 従来の対策は，実装の複雑さや性能低下を招く場合があり，効果的な保護と効率性の両立が課題であった。
- CETとコンパイラによるSLHを組み合わせ，形式的検証によってセキュリティを保証することで，この課題を解決する。
- SpecIBTは，CETスタイルのハードウェア支援CFIと，コンパイラ挿入のSLHを組み合わせた防御機構である。
- CET保護下では，間接呼び出しにおけるBTBミススペキュレーションを正確に検出し，SLHミススペキュレーションフラグを設定できることが示された。
- 形式的検証により，SpecIBTが相対的なセキュリティを達成することが証明された。すなわち，変換されたプログラムは，元のプログラムと同等以上の情報漏えいを防ぐ。
Link: https://arxiv.org/abs/2601.22978
LLM推論のための競合的非先知型KVキャッシュスケジューリング [cs.DS]目的：LLM推論におけるKVキャッシュの効率的なスケジューリング
- LLMの普及に伴い，推論時のメモリ管理が重要な課題となっている。
- 推論時の応答長が不明確なため，メモリ制約下での最適なスケジューリングが困難である。
- 応答長を事前に知ることなく，性能を保証するスケジューリング手法を確立する。
- 提案手法であるGeometric Slicing Algorithm (GSA)は，オフラインバッチ設定において定数倍の競争率を達成する。
- GSAは，幾何学的段階構造と段階的パイプライン機構により，メモリ消費を抑制し，高い並行性を実現する。
- GBAは，既存の最良の上限値である9000を大幅に改善し，近似率10.67（大規模メモリ環境では6.75）を達成する。
Link: https://arxiv.org/abs/2601.22996
TriCEGAR：エージェントAIのためのトレース駆動型抽象化メカニズム [cs.AI, cs.SE]目的：エージェントAIの保証のためのトレース駆動型抽象化メカニズム
- エージェントAIの安全性確保は，信頼性と責任あるAIシステムの実現に不可欠である。
- 既存手法では，状態抽象化を手動で定義する必要があり，適用が困難である。
- 実行ログから状態抽象化を自動的に構築し，検証プロセスを簡素化することを目指す。
- TriCEGARは，トレースから学習した述語木を用いて抽象化を表現し，反例を用いて精度を高める。
- エージェントのライフサイクルイベントを捉え，MDPを構築し，確率的モデル検査を行うフレームワークを実装した。
- 実行尤度を用いて異常検知を行い，ガードレイル信号を提供する。
Link: https://arxiv.org/abs/2601.22997
SolAgent：Solidityコード生成のための特殊なマルチエージェントフレームワーク [cs.SE]目的：Solidityコードの生成
- 分散型Webの基盤であるスマートコントラクトの安全性が不可欠である。
- 大規模言語モデルはスマートコントラクトの厳密な要件を満たせず，バグや脆弱性を含む場合がある。
- SolAgentは，より安全で正確なスマートコントラクトコード生成を可能にすることを目指す。
- SolAgentは，ForgeコンパイラとSlither静的解析を組み合わせた二重ループによる改良機構を採用している。
- SolEval+ベンチマークにおいて，SolAgentは64.39%のPass@1率を達成し，最先端のLLMやAI IDEを大きく上回った。
- SolAgentは，人間が書いたコードと比較して，セキュリティ脆弱性を最大39.77%削減することに成功した。
Link: https://arxiv.org/abs/2601.23009
現実世界のJavaプロジェクトにおける脆弱な依存関係の隠れた包含の解明 [cs.HC, cs.SE, cs.CR]目的：Javaプロジェクトにおける隠れた，変更された依存関係の特定
- 現代のソフトウェア開発において，OSS依存は不可欠であり，開発効率と品質向上に貢献する。
- OSS依存の利用拡大に伴い，既知の脆弱性がコードベースに混入するセキュリティリスクが増大している。
- メタデータベーススキャンとコード中心スキャンの利点を組み合わせ，見落とされがちな脆弱性を検出する。
- Unshadeは，JavaプロジェクトのSBOMを拡張し，変更・隠蔽された依存関係をバイトコードフィンガープリンティングで特定する。
- 大規模な調査の結果，対象プロジェクトの約50%に，既知の脆弱性を持つ隠れた依存関係が少なくとも1つ存在することが判明した。
- Unshadeは，メタデータベーススキャン単独では検出されない7,712件のCVEを特定し，セキュリティリスクの低減に貢献する。
Link: https://arxiv.org/abs/2601.23020
自動バグ修正におけるコードコメントの影響：実証研究 [cs.SE, cs.AI, cs.LG]目的：自動バグ修正におけるコードコメントの役割
- ソフトウェア開発において，バグ修正は品質確保の根幹であり，開発効率に大きく影響する。
- 大規模言語モデルの活用が進む中で，バグ修正時のコードコメントの扱いが明確化されていなかった。
- コードコメントがバグ修正の精度に与える影響を検証し，最適なコメントの利用法を提案する。
- 学習時と推論時の両方でコメントが存在する場合，バグ修正の精度が最大で3倍向上することが示された。
- コメントが存在しないデータで学習しても，性能劣化は見られなかった。
- 特に，メソッドの実装に関するコメントが，大規模言語モデルによるバグ修正に有効であることが判明した。
Link: https://arxiv.org/abs/2601.23059
OpenAIのペアレンタルコントロールシステムの有効性評価 [cs.CY, cs.CR, cs.SE]目的：未成年者による会話型AI利用時のペアレンタルコントロールの有効性
- AI技術の普及に伴い，子供たちのオンライン安全確保が重要課題となっている。
- 既存のペアレンタルコントロールは，不十分な警告や過剰な制限といった課題を抱えている。
- AIアシスタントにおける潜在的なリスクを特定し，ペアレンタルコントロールの改善を目指す。
- 今回の評価では，プライバシー侵害，詐欺，ヘイトスピーチ，マルウェアといったリスクに対し，ペアレンタルコントロールからの警告がほとんど確認されなかった。
- 最新のバックエンドモデルは，過去のモデルよりもリスクの漏洩を抑制する傾向にあることが示された。
- 教育的なクエリに対して過剰な制限が行われる事例が多く，保護者への適切な情報伝達が課題であることが明らかになった。
Link: https://arxiv.org/abs/2601.23062
スコット開集合に対する完全な有限型改良型システム [cs.LO]目的：スコット開集合の性質に関する健全かつ完全な有限型改良型システム
- 無限データ構造を持つ関数の検証は，信頼性の高いプログラム開発に不可欠である。
- 既存の型システムでは，無限データ構造の入出力性質を完全に表現できない場合がある。
- スコット開集合の性質を扱うための，より表現力豊かな型システムを構築すること。
- 本研究では，アブラムスキーの論理形式におけるドメイン理論に基づき，有限型改良型システムを提案する。
- このシステムは，Scottドメインを解釈する再帰型がスペクトル空間であるという事実を活用している。
- Scott開集合とコンパクト飽和集合の間の対称性を論理的極性として捉え，入出力性質の表現を可能にする。
Link: https://arxiv.org/abs/2601.23082