arXiv雑要約
プログラム - 2026/04/06 公開
MatClaw: エンドツーエンドの材料探索のための自律型コード優先LLMエージェント [cond-mat.mtrl-sci, cs.SE]目的:材料探索における自律的なワークフロー実行
- 材料科学の発展には計算機シミュレーションが不可欠であり,LLMによる効率化が期待される。
- 既存のLLMエージェントは特定のコードに依存し,汎用的なワークフローの構築が困難である。
- LLMによる自律的なコード生成と実行を通して,材料探索の効率化を目指す。
- MatClawは,Pythonコードを直接記述・実行することで,複数のコードを組み合わせたワークフローをHPCクラスタ上で実行できる。
- 四層メモリ構造とドメインソースコードに基づくRetrieval-Augmented Generationにより,API呼び出しの精度が向上し,長期間のワークフローでもコンテキストの喪失を防ぐ。
- 強化学習による分子動力学の力場学習,キュリー温度予測,パラメータ空間探索のデモンストレーションで有効性が示された。専門家の知識介入により,更なる性能向上が期待できる。
結合定数有界のハードコアモデルの零点非存在性 [cond-mat.stat-mech, cs.DS, math-ph, math.MP, math.PR]目的:ハードコアモデルの分配関数の零点非存在領域
- 統計物理学における相転移現象の理解に不可欠な研究分野である。
- 既存の零点非存在の結果は,最大次数 $\Delta$ に依存しており,より精密な構造複雑度指標が必要とされていた。
- 結合定数 $\sigma$ を用いた零点非存在領域を確立し,無限格子上の自由エネルギーの解析性を拡張すること。
- 有限グラフに対する結合定数の適切な定義を導入し,その下限 $\mu$ を用いて分配関数の零点非存在領域を証明した。
- 結合定数閾値 $\lambda_c(\mu)$ まで,無限格子上の自由エネルギー密度の一意性と解析性が確立された。
- 相関減衰特性を複素領域に拡張するブロック縮約技術が用いられた。
AIモデル品質に関する実務家の視点:認識,課題,および解決策 [cs.SE]目的:AIモデル品質の認識,課題,解決策に関する実務家の視点
- AI技術は普及しており,信頼性・安全性確保のため,AIモデル品質が重要である。
- 従来は正確性が重視されてきたが,実務では多様な品質属性が必要とされている。
- 実務家が重視する品質属性を特定し,研究開発の方向性を示す。
- 実務家は文脈に応じて品質属性の優先順位を変えており,リアルタイム応用では効率性が正確性よりも重要視される。
- データ不均衡がモデルの正確性・頑健性を損なう主要な要因として浮かび上がり,アクティブラーニング等の対策が用いられている。
- 調査結果から,研究者は実務家が最も重視する属性に焦点を当て,他の重要な属性の改善を犠牲にしないことが重要である。
ブールネットワークへの記憶の導入:統一的な枠組み [cs.LO]目的:記憶を持つ更新モードの定義と,それらの包括的な比較
- 複雑系の動的挙動を解析する上で,ブールネットワークは重要なモデルである。
- 既存のブールネットワークは過去の状態を考慮しないため,現実の複雑系の表現に限界がある。
- 過去の状態を記憶する更新モードを導入し,より現実的な複雑系のモデル化を目指す。
- 本研究で提案された枠組みは,既存の更新モードを自然に表現できる。
- 新たに,履歴ベース,トラッピング,サブキューブベースの更新モードが提案された。
- 記憶の導入は,軌跡やアトラクタの概念に影響を与えることが示された。
精度か危険か:量子化された大規模言語モデルによるPythonコード品質のPoC [cs.SE]目的:Pythonコード生成における,より小型のLLMの性能と量子化の影響の検証
- LLMは高度なコード生成能力を持つが,計算資源とエネルギー消費が大きい。
- 量子化はリソース削減に有効だが,コード品質の低下が懸念される。
- 量子化がコード品質に与える影響を明らかにし,検証手法を確立する。
- 小型LLMは機能するコードを生成できるものの,ベンチマーク性能には限界がある。
- 量子化の影響は様々であり,生成されたコードには品質と保守性の問題が見られる。
- LLM生成コードは,ソフトウェアプロジェクトに組み込む前に慎重な検証が必要である。
インターシンボル干渉ワイヤータップチャネルのための連結符号の設計と解析 [cs.IT, math.IT]目的:インターシンボル干渉ワイヤータップチャネルにおける信頼性と安全性の高い通信
- 情報セキュリティの重要性が増す中,盗聴されにくい通信技術の確立が求められている。
- ワイヤータップチャネルでは,通信内容が盗聴されるリスクがあり,情報漏洩対策が課題である。
- 本研究は,ワイヤータップチャネルにおける秘匿容量を最大化し,安全な通信を実現することを目指す。
- 提案する二段構成の連結符号化方式は,秘匿容量を向上させ,安全な通信を可能にする。
- 外側のLDPC符号と内側のトレリス符号を組み合わせることで,秘匿容量の下限をタイトにすることができた。
- 不規則LDPC符号の次数分布を最適化することで,情報漏洩率を実質的にゼロに近づけ,弱秘匿条件を満たすことが確認された。
PDL,連言クエリ,単項否定一次論理の共通祖先 [eess.SY, cs.SY, cs.AR, cs.LO, cs.DB]目的:PDL,連言クエリ,単項否定一次論理を含む論理の表現力に関する研究
- 知識表現と推論の基礎として,論理の表現力とその計算可能性は重要である。
- 既存の論理体系では,特定の問題に対して表現力や効率的な計算が困難な場合がある。
- より強力で,かつ効率的に扱える新しい論理体系の構築を目指す。
- UCPDL+ は,既存の論理体系(ICPDL,連言クエリ等)よりも強力な表現力を持つことが示された。
- UCPDL+ は,単項否定一次論理の拡張UNFO*と同等であることが証明された。
- CPDL+ の木幅によって表現力が変化し,木幅2以下はICPDLと等価であることが示された。また,UCPDL+ の充足可能性問題は2ExpTimeで決定可能である。
大規模言語モデルによるコード生成の堅牢性:多言語的視点 [cs.SE]目的:大規模言語モデルによるコード生成の堅牢性評価
- 近年のLLMの進化は,コード生成への応用を促進している。開発効率の向上に不可欠な分野である。
- 既存研究は主にPythonに偏っており,他の言語での堅牢性評価が不足している。
- 複数の言語におけるコード生成モデルの堅牢性を比較し,改善策を検討する。
- 提示されたプロンプトの4つの要素(DocString,関数名,構文,フォーマット)に摂動を加えた実験の結果,全てのモデルで性能が低下した。
- モデルサイズが大きいからといって,必ずしも堅牢性が向上するわけではないことが示された。
- LLMによるDocStringの修復は,単純な摂動には効果があるものの,意味的な摂動では性能を低下させる場合がある。
StructEval:構造化出力生成能力のLLMベンチマーク [cs.CL, cs.CL, cs.ET, cond-mat.mtrl-sci, physics.app-ph, cs.SE, cs.AI, cs.CL]目的:大規模言語モデルの構造化出力生成能力の評価
- ソフトウェア開発におけるLLMの重要性が増しており,構造化出力能力が不可欠である。
- 既存のベンチマークは,多様な形式における構造的忠実性を体系的に評価していない。
- 多様な形式とタスクを通じて,LLMの構造化出力生成能力の課題を明確化する。
- StructEvalは,非表示形式(JSON, YAML, CSV)と表示形式(HTML, React, SVG)の両方を評価する包括的なベンチマークである。
- 生成タスクと変換タスクという2つのパラダイムで構造的忠実性を評価し,18の形式と44種類のタスクを網羅している。
- 最新モデルでも平均スコアは75.58であり,生成タスクは変換タスクよりも難しく,視覚コンテンツの生成はテキスト構造の生成よりも難しいことが示された。
実行可能な解のためのプログラミング言語 [cs.SC, math.OC, cs.CL, cs.PL]目的:実行可能な計算を保証するプログラミング言語の設計
- プログラム検証において,実行時間効率と終端性は重要な性質である。
- 既存の手法では,これらの性質を個別に対処する必要がある。
- 設計段階でこれらの性質を保証する堅牢なフレームワークを確立すること。
- 本研究では,全ての定義可能なプログラムが多項式時間で実行されることを保証する静的型システムに基づく新しい命令型プログラミング言語を提案した。
- また,多項式時間で解ける問題は,この言語のプログラムによって解けることを示す基礎的な同値性定理を確立した。
- さらに,このアプローチがプログラム分析と検証を効率化する可能性を示唆し,言語のインタプリタを実装して実現可能性を実証した。
ReDef:コード言語モデルは,ジャストインタイムソフトウェア欠陥予測のためのコード変更を真に理解しているか? [cs.CL, cs.CL, cs.DL, cs.IR, cs.SE, cs.AI]目的:ジャストインタイムソフトウェア欠陥予測のためのコード変更理解度評価
- ソフトウェア開発において,迅速な欠陥検出は品質向上に不可欠であり,開発効率を大きく左右する。
- 既存の欠陥予測データセットは,ノイズが多く,バグを引き起こすコミットの特定精度が低いという課題がある。
- 高精度なデータセットを用いて,コード言語モデルのコード変更理解の真偽を検証し,改善点を見出す。
- ReDefデータセットは,22のC/C++プロジェクトから収集された3,164件の欠陥のある変更と10,268件のクリーンな変更を含む信頼性の高いベンチマークである。
- コンパクトなdiff形式の入力表現が,コード言語モデルにおいて,変更情報を効果的に伝えることが示された。
- カウンターファクチュアルなテストの結果,コード言語モデルが表面的な手がかりに依存しており,真のセマンティックな理解に欠けることが明らかになった。
オープンソースAIエージェントフレームワークとエージェントアプリケーションにおけるテスト慣行の経験的研究 [cs.SI, cs.SE, cs.ET]目的:AIエージェントフレームワークとアプリケーションにおけるテスト慣行の現状把握
- AIエージェントは多様な分野で急速に普及しているが,その品質保証は重要な課題である。
- AIエージェントの非決定性と非再現性はテストの難易度を高めている。
- フレームワークとアプリケーションのテスト慣行を明らかにし,改善策を提示する。
- オープンソースのAIエージェントフレームワークとアプリケーションを大規模に調査した結果,10種類のテストパターンが特定された。
- テスト工数の大部分(70%以上)が,決定的なコンポーネント(ツールやワークフロー)に費やされており,プランニングを行う基盤モデルには5%未満しか費やされていないことが明らかになった。
- プロンプト(Trigger)のテストが著しく不足しており,AIエージェントの信頼性向上に向けた改善が求められる。
k彩色グラフに対するオンライングラフ彩色 [cs.DS, cs.DM]目的:k彩色グラフに対するオンライングラフ彩色アルゴリズムの性能向上
- グラフ彩色問題は,コンピュータ科学における古典的な問題であり,様々な応用分野を持つ。
- オンライングラフ彩色問題は,グラフの構造を事前に知らずに彩色を行うため,困難である。
- 既存のアルゴリズムの限界を打破し,より効率的なオンライングラフ彩色アルゴリズムを開発する。
- k≧5の場合,既存の上限であるO(n^(1-1/k!))よりも大幅に改善されたO(n^(1-1/(k(k-1)/2)))を実現した。
- k=4の場合,既存の上限であるO(n^(5/6))よりも改善されたO(n^(14/17)))を実現した。
- k=2の場合,乱数化アルゴリズムにおいて,上限と下限の差を1.09の係数に縮小した。
SWE-benchにおけるテスト過学習の調査 [cs.SE, cs.LG]目的:テスト過学習の現象とその影響の解明
- コード品質維持において,テストは重要な役割を担う。
- 自動生成テストは不完全であり,過学習を引き起こす可能性がある。
- テスト過学習の実態を定量的に把握し,対策を検討する。
- テスト過学習は,SWE-benchにおいて広く観測された。
- 自動生成テストとコードの共同進化が,過学習を悪化させる要因となることが示された。
- テストケースの多様性向上が,過学習の軽減に繋がる可能性がある。
普遍的な双曲線は存在しない:記号的AIと生成AIにおける確実性と範囲の間のトレードオフの形式的否定 [cs.CY, cs.AI, cs.IT, math.IT]目的:確実性と範囲の間のトレードオフの形式的否定
- AIの性能評価において,確実性と範囲のバランスは重要な課題である。
- 既存の研究では,確実性と範囲の間に普遍的なトレードオフが存在すると仮定されている。
- 本研究は,その普遍的なトレードオフが存在しないことを数学的に証明する。
- 本研究は,最近提唱された確実性と範囲の間のトレードオフを形式的に否定した。
- プレフィックス・コルモゴロフ複雑性を用いた場合,内部矛盾が生じ,通常のコルモゴロフ複雑性を用いた場合,反例が存在することが示された。
- エンタルピーに基づく修正版も,普遍性を回復できないことが示された。
ROS 2におけるリアルタイム性に関する調査,分析,および進展 [cs.RO, cs.DC, cs.SE]目的:ROS 2のリアルタイム実行をサポートするための研究努力の概要
- ロボティクス分野では,モジュール性や分散処理を容易にする中間件体プラットフォームの重要性が高まっている。
- ROS 2はリアルタイム性を必ずしも保証しておらず,その性能評価や改善が課題となっていた。
- ROS 2のリアルタイム性能の理解と向上に貢献し,研究者や実務家を支援することを目的とする。
- ROS 2の内部スケジューリング機構や階層型アーキテクチャ,DDSベースの通信との連携が詳細に記述された。
- シングルスレッドおよびマルチスレッドエクゼキュータに対するタイミング解析,応答時間,データエイジなどの指標に関する研究がレビューされた。
- ROS 2ランタイムの改善,リアルタイムGPU管理,マイクロコントローラサポートなど,コミュニティ主導の進展がまとめられた。
UniCon: 効率的なロボット学習転移のための統合システム [cs.RO, cs.SE]目的:ロボット学習の転移における効率化
- ロボットの多様化が進み,学習済みの制御器を異なるロボット間で共有する必要性が高まっている。
- プラットフォームの違いやインターフェースの不整合により,ロボット間での学習転移が困難である。
- ロボットプラットフォーム間の学習転移を容易にし,開発効率を向上させることを目指す。
- UniConは,状態,制御フロー,計測を標準化する軽量なフレームワークである。
- ワークフローを再利用可能なコンポーネントに分解し,システム状態と制御ロジックを分離することで,様々なロボット形態へのプラグアンドプレイでの展開を可能にする。
- UniConは,ROSベースのシステムと比較して,コードの冗長性を減らし,より高い推論効率を実現する。
有限束縛同質構造上の制約充足問題:FOとL-困難性の間の二分性 [cs.CC, cs.LO]目的:有限束縛同質構造のファーストオーダー拡張における制約充足問題の計算複雑性
- 制約充足問題は,組合せ最適化や人工知能における重要な問題であり,広範な応用分野を持つ。
- 無限構造における計算複雑性二分性の問題は未解決であり,理論的進展が求められている。
- ファーストオーダーモデル完備コアの拡張に対する制約充足問題の複雑性を決定し,二分性を示す。
- 本研究では,有限構造におけるLarose-Tessonの定理の新しい証明を与え,それを無限構造に一般化した。
- ファーストオーダー拡張における制約充足問題は,ファーストオーダーで定義可能か,またはファーストオーダー還元下でL-困難であるかのいずれかとなる。
- これは,Bodirsky-Pinsker予想に関する構造の範囲において,最も一般的な複雑性二分性の一つと考えられる。
継続観測下における,無頓着型と適応型差分プライバシーの分離 [cs.RO, cs.CR, cs.DS]目的:無頓着型と適応型差分プライバシーの分離問題
- データプライバシー保護は,現代社会において不可欠であり,個人情報保護の観点から重要性が増している。
- ストリーミングアルゴリズムにおけるプライバシー保護は,データが逐次的に処理されるため,より複雑な課題を抱えている。
- 無頓着型と適応型のプライバシーモデルの違いを明確にし,それぞれの限界を示すことが目的。
- 本研究では,無頓着型と適応型差分プライバシーの分離問題に対する具体的な例を提示した。
- 無頓着型アルゴリズムは,入力次元の指数関数的なステップ数に対して正確性を維持できる。
- 一方,適応型アルゴリズムは,定数個のステップ数で正確性を失うことが示された。
整合性が増幅する:行動のばらつきがエージェントの精度に与える影響 [cs.SE, cs.AI]目的:LLMベースのAIエージェントにおける行動の一貫性と精度の関係
- LLMエージェントの実用化が進む中で,信頼性を確保するための行動の一貫性評価が重要になっている。
- 複雑なタスクにおいて,LLMエージェントの行動はばらつきやすく,その一貫性を高めることが課題となっている。
- 本研究は,LLMエージェントの行動の一貫性と精度との関係を定量的に明らかにし,実用化に向けた指針を示す。
- モデル間では,行動の一貫性が高いほど精度も高くなる傾向が見られた。Claude 4.5 Sonnetが最も高い精度を示した。
- ただし,一貫性は正しい解釈だけでなく,誤った解釈も増幅する。Claudeの誤りの71%は「一貫した誤った解釈」に起因する。
- 解釈の正確性が,実行の一貫性よりも実用化において重要であることが示唆された。エージェントの評価・訓練に影響を与える。
現実世界のレポジトリにおけるAI生成コードの大規模実証研究 [cs.SE]目的:AI生成コードの実態把握
- ソフトウェア開発におけるAI活用が拡大しており,その影響を理解する必要がある。
- 既存研究は小規模な環境に限定されており,実世界のAI生成コードの実態が不明である。
- 現実世界のレポジトリから収集したAI生成コードを分析し,その特性を明らかにすること。
- AI生成コードは,人間が書いたコードと比較して,複雑さや構造に特徴が見られた。
- AI支援による開発は,従来の人間中心の開発とは異なるコミットパターンや進化の傾向を示した。
- 本研究は,AI支援プログラミングの実世界への影響を理解するための基礎となる。
企業自動化にはターミナルエージェントで十分 [eess.SY, cs.SY, cs.SE, cs.AI, cs.CL]目的:企業における有意義なタスクの自律的な実行
- 企業活動の効率化が求められる中,自動化技術の重要性は高まっている。
- 複雑なエージェントシステムは,コストと運用負荷が高いという課題がある。
- ターミナルとファイルシステムのみを備えたエージェントで,企業タスクを効果的に解決すること。
- 本研究により,シンプルなターミナルエージェントが,複雑なアーキテクチャと同等以上の性能を示すことが明らかになった。
- プラットフォームAPIとの直接的な連携により,ターミナルエージェントは効率的な自動化を実現する。
- 強力な基盤モデルと組み合わせることで,高度な企業自動化が,よりシンプルな方法で可能となる。
ProdCodeBench:AIコーディングエージェント評価のための実運用由来ベンチマーク [cs.SE, cs.AI, cs.LG]目的:AIコーディングエージェントの評価
- 実運用環境を反映した評価が,産業界におけるAI活用において重要である。
- 既存のベンチマークは,言語分布,プロンプト形式,コードベース構造が実利用と異なる。
- 実運用データを用いたベンチマーク構築手法を確立し,AIモデルの適切な選択を支援する。
- ProdCodeBenchは,実際の開発者-エージェントセッションから構築されたベンチマークである。
- 4つの基盤モデルの解決率は53.2%から72.2%であり,モデル選択における指標となりうる。
- オフライン評価とオンラインA/Bテストを組み合わせることで,実運用への導入判断を支援する。
SATとMaxSATによる2次元単一サイズ切断在庫問題の解決 [eess.SY, cs.SY, cs.AI, cs.LO]目的:2次元単一サイズ切断在庫問題に対する最適解の導出
- 製造業における材料の無駄を削減し,コスト効率を高めることは重要である。
- 2次元切断問題は計算複雑性が高く,大規模なインスタンスに対する最適解の発見が困難である。
- 本研究は,SATおよびMaxSATソルバーを用いて2次元切断在庫問題を効率的に解決することを目指す。
- 提示されたSATベースのフレームワークは,Cui--Zhaoベンチマークにおいて,より多くのインスタンスを最適解として証明することができた。
- 本研究で得られたSAT構成は,OR-Tools,CPLEX,Gurobiといった既存ソルバーよりも低い最適性ギャップを達成した。
- 回転の有無によってSATアプローチの相対的な優位性が異なり,それぞれノンインクリメンタルSATとインクリメンタルSATが有効であることが示された。
正確なGPUデータ競合検出器の実現に向けて [cs.SE]目的:GPUプログラムにおけるデータ競合の正確な検出
- GPUの並列処理能力は重要だが,データ競合は信頼性を損なう可能性がある。
- 既存の動的解析では競合を見落とす場合があり,静的解析では誤検出が多い。
- CPUコードの情報を活用し,誤検出を最小限に抑えた正確な競合検出を目指す。
- 提案手法HGRDは,CPUとGPU両方のコードを解析することで,真のデータ競合を正確に検出する。
- 既存の動的解析手法が見落とす競合をHGRDは検出でき,静的解析手法よりも誤検出が少ない。
- GPUVerifyやFaialAAが多数の誤検出を報告するのに対し,HGRDは誤検出を発生させない。
滑らかな相対エントロピー間の緊密な関係と等価性 [quant-ph, cs.IT, math-ph, math.IT, math.MP]目的:滑らかな相対エントロピーの間の関係と等価性に関する厳密な評価
- 古典・量子情報理論において,操作的タスクの厳密な特性評価は,滑らかなエントロピー量に依存する
- 仮説検定相対エントロピーと滑らかな最大相対エントロピー間の関係は重要だが,明確な理解が必要
- 情報スペクトルダイバージェンスに基づく滑らかな最大相対エントロピーとの等価性を示すことで,より厳密な評価を目指す
- 仮説検定相対エントロピーは,情報スペクトルダイバージェンスに基づく滑らかな最大相対エントロピーと等価であることが示された
- DattaとRennerの基本補題を改良し,行列幾何平均と改良された穏やかな測定補題に基づく証明技術を導入した
- 滑らかな最大相対エントロピーと仮説検定相対エントロピー間の厳密な境界を確立し,他の発散不等式も洗練させた
ギブス分布の分配比の単純な並列推定 [math.PR, cs.DS]目的:ギブス分布の分配関数推定におけるサンプル数の削減
- 統計物理学や機械学習において,分配関数は系の熱力学的性質や確率モデルの評価に不可欠である。
- 分配関数の正確な計算は,通常,指数関数的な計算コストを伴うため,高次元問題では困難である。
- 本研究は,より少ないサンプル数で分配比を効率的に推定するアルゴリズムを開発し,計算コストを削減することを目指す。
- 本研究では,非適応型アルゴリズムのサンプル数をO(q log^2 n / ε^2)に改善することに成功した。
- さらに,2ラウンドの適応性を持つアルゴリズムでは,O(q log n / ε^2)という,逐次型アルゴリズムと同程度の計算量を達成した。
- 既存の手法と比較して,単一の推定器のみを使用することでアルゴリズムを簡素化している。
適応的ランダムピボットとボリュームサンプリング [stat.ML, cs.DS, cs.LG, cs.NA, math.NA, stat.CO]目的:列部分集合選択
- データ分析において,高次元データの取り扱いは重要であり,計算コストの削減が求められる。
- 列数が多いデータセットでは,効率的な列選択が課題となっている。
- 適応的ランダムピボット法の分析と高速化を通して,列選択の精度向上を目指す。
- 適応的ランダムピボット法とボリュームサンプリング分布,能動学習アルゴリズムとの関連性を示した。
- ARPアルゴリズムの新たな解析を提示し,拒否サンプリングを用いた高速な実装を可能にした。
- 1
- 2
