arXiv雑要約
AI - 2026/03/20 公開
コード空間の理論:コードエージェントはソフトウェアアーキテクチャを理解しているか [eess.SY, cs.SY, cs.SE, cs.AI]目的:ソフトウェアアーキテクチャ理解度評価
- AIによるソフトウェア開発の自動化が期待される中で,アーキテクチャ理解が不可欠である。
- 既存のAIコードエージェントは,単一ファイルのタスクには優れるが,複数ファイルにわたるソフトウェアエンジニアリングでは苦戦する。
- AIエージェントのアーキテクチャ理解能力を定量的に評価し,その改善に資することを目的とする。
- AIエージェントのコード探索方法によって,性能が大きく異なることが示された。
- 構造化された信念マップの利用は,モデルによって効果が異なり,自己支援メカニズムとして機能する場合とそうでない場合がある。
- 小規模モデルは安定した信念を維持できる一方で,大規模モデルは信念崩壊を起こすなど,モデルサイズによる差が確認された。
シフトが大きいほど表現は疎になる:LLMにおけるOODメカニズムの分析 [cs.CL, cs.RO, cs.CL, cs.AI]目的:LLMにおける分布外(OOD)シフトの度合いに応じた内部表現の変化
- 大規模言語モデル(LLM)の性能向上は,様々な応用を可能にするため重要である。
- LLMは未知のデータや複雑な入力に対して,性能が低下する問題がある。
- LLMがOODシフトにどのように適応しているかを解明し,そのメカニズムを改善すること。
- LLMは,より難しいタスクや長いコンテキスト,選択肢の追加など,入力の難易度が増すにつれて,最終隠れ層の状態が著しく疎になる。
- この疎さと難易度の関係は,様々なモデルやドメインで観察され,LLMが未知または複雑な入力に対して,最終隠れ層の特定のサブ空間に計算を集中させていることを示唆する。
- この知見を利用して,表現の疎さを活用して少数のデモンストレーションをスケジュールするSparsity-Guided Curriculum In-Context Learning (SG-ICL)を設計し,性能が向上した。
AI4S-SDS:疎なMCTSと微分可能な物理アライメントによるニューロシンボリック溶媒設計システム [cs.AI]目的:ニューロシンボリックな溶媒設計システムの開発
- 材料科学において,化学組成の自動設計は重要な課題であり,新規材料の発見に不可欠である。
- 既存のLLMエージェントは,長い推論や探索において,コンテキストウィンドウの制限やモード崩壊の問題を抱えている。
- AI4S-SDSは,これらの課題を克服し,多様性を重視した探索による科学的発見を目指す。
- AI4S-SDSは,採用したHSPベースの物理的制約下で完全な有効性を達成した。
- ベースラインエージェントと比較して,探索の多様性が大幅に向上した。
- 予備的なリソグラフィー実験において,市販のベンチマークと同等またはそれ以上の性能を示す新規フォトレジスト現像液を特定した。
効率的かつ安定な海洋状態予測に向けた連続時間クープマンアプローチ [cs.RO, cs.LG, cs.AI, physics.app-ph, physics.comp-ph, physics.geo-ph]目的:海洋状態の長期的予測のための軽量な代替モデル
- 気候変動予測の精度向上が不可欠であり,計算負荷の軽減が課題である。
- 既存の数値モデルは計算コストが高く,長期的予測では誤差が蓄積しやすい。
- クープマンアプローチを用いて,効率的かつ安定な長期的予測を可能にすること。
- 連続時間クープマンオートエンコーダ(CT-KAE)は,長期的な予測において誤差の増加が抑制され,大規模統計量も安定している。
- 従来の自己回帰型Transformerモデルと比較して,CT-KAEは大幅に高速な推論が可能である。
- 微細な乱流構造は一部減衰するものの,エネルギースペクトルや自己相関構造は一貫性を保っている。
協調のギャップ:反復ゲームにおける時間的公平性のためのマルチエージェント交互性指標 [cs.MA, cs.GT, cs.LG]目的:マルチエージェントにおける時間的公平性の評価指標の開発
- マルチエージェントシステムは,個々の最適化と集団的厚生の間の緊張関係を露呈する
- 従来の評価指標は時間構造を考慮せず,不公平を適切に識別できない
- 時間的要素を考慮した協調性の評価指標を提案し,公平性をより正確に評価する
- 従来の報酬公平性指標は高い値を示すものの,提案する交互性指標ではランダムベースラインを下回る結果が得られた
- 集団的な報酬が高い場合でも,時間的な協調性が低い状況が存在することが示された
- マルチエージェントゲームにおける協調性を分析するには,時間的要素を考慮した指標が不可欠である
クリックフローマーによるオフライン材料最適化 [cs.AI, cs.CE]目的:材料の目標特性を最適化する手法
- 材料探索は,新機能材料開発に不可欠であり,社会課題解決に貢献する。
- 生成モデルは材料空間の探索が限定的で,有望な領域への大胆な進出が難しい。
- クリックフローマーは,直接的な最適化と生成を融合し,効率的な材料探索を実現する。
- クリックフローマーは,従来の生成モデルよりも優れた材料を生成できることが示された。
- 本手法は,材料特性の直接最適化を生成プロセスに組み込むことで,探索効率を向上させる。
- コードは公開されており,様々な材料最適化問題への応用や学際的な研究を支援する。
網膜VLMにおけるドメイン特化知識のアンカリングのための深層専門家注入 [cs.CV, cs.AI]目的:網膜VLMにドメイン特化知識を注入し,信頼性の高い眼科診断を可能にすること。
- 眼科診断におけるAI活用は,熟練した専門家の負担軽減や診断精度の向上に貢献しうるため重要である。
- 汎用的なVLMは眼科領域特有の知識に乏しく,微細な病理学的徴候の認識や根拠のない幻覚生成といった課題が存在する。
- 本研究は,VLMの認識能力と推論能力のギャップを埋め,視覚的証拠に基づいた正確な診断を実現することを目指す。
- 提案手法EyExInは,専門家知識を効率的に注入し,網膜VLMの性能を大幅に向上させることを実証した。
- Expert-Aware Dual-StreamエンコーディングとSemantic-Adaptive Gated Fusionモジュールが,病理学的情報の抽出とノイズ除去に効果的である。
- Adaptive Deep Expert Injectionメカニズムにより,VLMの推論過程を視覚的証拠に固定化し,幻覚生成を抑制することに成功した。
AutoResearch-RL:自律的なニューラルアーキテクチャ探索のための永続的な自己評価強化学習エージェント [cs.LG]目的:ニューラルアーキテクチャおよびハイパーパラメータの自動探索
- 機械学習モデルの性能向上には,適切なアーキテクチャとハイパーパラメータの選択が不可欠である。
- 手動での探索は時間がかかり,最適解を見つけることが困難である。
- 人間の介入なしに,自動的に最適なアーキテクチャを発見する。
- AutoResearch-RLは,強化学習エージェントが人間の監督なしに継続的にニューラルアーキテクチャの研究を行うフレームワークである。
- 実験環境,編集可能なファイル,メタ学習エージェントの分離が設計の鍵である。
- nanochat事前学習ベンチマークにおいて,AutoResearch-RLは300回の反復で手動調整されたベースラインと同等またはそれ以上の性能を発見した。
部分観測環境におけるロバストな方策のための敵対的潜在状態学習 [cs.LG, cs.AI, stat.ML]目的:部分観測強化学習における潜在分布シフトに対するロバスト性向上
- 現実世界のタスクでは観測が不完全であり,潜在状態に依存するロバスト性が重要である。
- 潜在分布のシフトに対するロバスト性は,部分観測強化学習における大きな課題である。
- 敵対的な潜在初期状態POMDPという設定で,ロバストな方策学習を目指す。
- 敵対的潜在初期状態POMDPにおいて,潜在的ミニマックス原理を証明し,最悪の場合の防御分布を特徴づけた。
- 有限サンプル集中不等式を用いて,最適化およびサンプリング項を明示的に表現する近似最良応答不等式を導出した。
- Battleshipベンチマークにおいて,シフトされた潜在分布への標的曝露により,SpreadとUniform分布間のロバスト性ギャップが縮小することを示した。
ドリフトモデルとスコアベースモデルの統一的見解 [cs.LG, cs.AI, cs.CV]目的:データ分布とモデル分布間の平均シフト不一致に基づくワンステップ生成器の学習
- 生成モデルは,現実世界の複雑なデータ分布を再現する上で重要な役割を担う。
- 既存のモデルでは,データ分布とモデル分布の乖離を効率的に解消することが課題となっていた。
- カーネル平滑化された分布におけるスコアベース定式化を通じて,ドリフトモデルと拡散モデルの関係を明確化すること。
- ドリフトモデルは,カーネル平滑化された分布上でのスコアマッチング定式化を持つことが示された。
- ガウスカーネルの場合,平均シフト場はデータとモデルのガウス平滑化分布間のスコア差と一致する。
- 一般のラジアルカーネルに対する正確な分解が導出され,ラプラスカーネルにおける誤差限界が証明された。
順位に基づく符号化:系列から構造への架け橋 [cs.NE]目的:構造化された系列情報の神経システムにおける表現と一般化のメカニズム解明
- 音響入力から構造化された知覚への移行をモデル化するには,系列情報の表現が不可欠である。
- 従来のモデルでは,系列データの構造を効率的に捉え,文脈に応じた一般的な表現を学習することが困難である。
- 本研究は,順位に基づく符号化が,コンパクトな表現と階層的構造の捕捉を両立することを示す。
- 提案モデルは,入力の圧縮と完全な発話を部分的情報から再構成する能力を効率的に実現した。
- ネットワークは,P3B波に類似した全体的な新規性検出を示すことが確認された。
- 順位に基づく符号化は,階層的な一般化に重要な構造的侵害に対する感受性を示すことが明らかになった。
強化学習によるマルチターンマルチエージェントLLMゲームのためのメモリアウグメント化モデルコンテキスト最適化 [cs.AI]目的:マルチターンマルチエージェントLLMゲームにおける実行間のばらつきの低減と性能向上
- LLMゲームは,LLMの戦略的思考能力を評価する上で重要な手段である。
- LLMゲームの評価は実行間のばらつきが大きく,信頼性の高いランキングが難しい。
- プロンプト選択や初期偏差の影響を軽減し,より安定した高性能なLLMゲームを実現する。
- MEMOは,GPT-4o-miniの平均勝率を25.1%から49.5%に,Qwen-2.5-7B-Instructの平均勝率を20.9%から44.3%に向上させた。
- 自己対戦を通して獲得した知見を記憶バンクに保存し,推論時のコンテキストに活用することで,実行間のばらつきを抑制した。
- 交渉ゲームや不完全情報ゲームにおいて特に大きな改善が見られ,RLは完全情報ゲームでより効果的であった。
埋め込みパラメータクリッピングによるノンパラメトリック変分微分プライバシー [cs.LG]目的:ノンパラメトリック変分微分プライバシーの改善
- 言語モデル等のプライバシー保護は重要であり,個人情報漏洩リスクを軽減する必要がある。
- 変分情報ボトルネックでは,潜在表現が情報量の多い領域に漂い,プライバシー保護が不十分になりやすい。
- 潜在表現のドリフトを抑制し,プライバシーと実用性のバランスを改善することを目指す。
- 提案手法は,Rényi Divergenceの上界を最小化する目的から導出されたパラメータクリッピング戦略である。
- 実験の結果,クリッピングを適用したモデルは,よりタイトなRD境界を達成し,プライバシーが向上した。
- 同時に,いくつかの下流タスクにおいて高い性能を維持し,プライバシーと実用性のトレードオフを改善した。
MedMASLab:マルチモーダル医療マルチエージェントシステムベンチマークのための統合オーケストレーションフレームワーク [cs.AI]目的:マルチモーダル医療マルチエージェントシステムのベンチマークのための統合フレームワーク
- 臨床意思決定支援におけるMASの有用性が期待される一方,標準化と統合が課題となっている。
- 医療MAS研究では,データ取り込みパイプラインの非統一性や,視覚的推論評価の一貫性欠如が問題である。
- 異種MASアーキテクチャの統合と,臨床推論の評価方法を標準化し,ベンチマーク環境を提供する。
- MedMASLabは,11の異種MASアーキテクチャと24の医療モダリティを統合する標準化プロトコルを導入した。
- 大規模ビジョン言語モデルを活用したゼロショットセマンティック評価により,診断ロジックと視覚的根拠付けの検証を可能にした。
- 11の臓器系と473の疾患を網羅する大規模なベンチマークを提供し,専門領域間の性能ギャップを明らかにした。
シンボル空間時間動作抽象の漸進的学習によるスケジューリングと経路計画の連携 [cs.RO, cs.AI]目的:多目的空間におけるスケジューリングと経路計画問題の解決
- ロボットの自律的な作業遂行において,タスク計画と経路計画の統合が不可欠である。
- 現実の複雑な環境下では,安全かつ効率的なタスク実行のための制約条件の充足が課題である。
- 既存のスケジューラと経路計画器を連携させ,動作可能な計画を効率的に生成することを目指す。
- 提案手法は,既存のスケジューラと経路計画器を組み合わせた反復学習ループにより,複雑な時空間制約下でも有効な計画を生成する。
- 経路計画器からの空間的衝突や時間調整に関するシンボルフィードバックが,スケジューラを動作可能な解へと導く。
- 物流やジョブショップのスケジューリングベンチマークを用いた評価により,提案手法の有効性が実証された。
AIネイティブクラウド具現知能インフラのための1000 GPU大規模学習・最適化手法 [eess.SY, cs.SY, cs.RO, cs.AI, cs.DC]目的:具現知能インフラの大規模学習と最適化
- 具現知能は汎用人工知能(AGI)実現の重要なステップであり,ロボット工学の発展に不可欠である。
- データ,フレームワーク,インフラ,評価システムなど,具現知能開発には多くの課題が存在する。
- データパイプラインの最適化,学習時間の短縮,およびエンドツーエンド評価システムの構築を目指す。
- 1000 GPUクラスターと大規模データを用いて,GR00T-N1.5モデルの単回学習時間を15時間から22分に短縮した。
- Variable-length FlashAttentionとData Packingの組み合わせにより,学習速度を188%向上させた。
- 高性能ストレージ,RDMAネットワーク,Rayベースのデータレイクにより,データ,ストレージ,通信,計算間の相乗効果を実現した。
WebWeaver:LLMマルチエージェントシステムにおけるトポロジーの秘匿性を,巧妙な文脈ベース推論によって打破する [cs.CR, cs.AI]目的:LLMマルチエージェントシステムの通信トポロジー推論
- LLMマルチエージェントシステムの有用性と安全性は,通信トポロジーに大きく依存する。
- 既存の研究は,現実的でない前提に依存しており,防御を容易に回避されてしまう。
- 単一のエージェントを侵害するだけでトポロジーを推論し,現実的な攻撃に対する対策を提案する。
- WebWeaverは,単一のエージェントの侵害のみでLLMマルチエージェントシステムの完全なトポロジーを推論する攻撃フレームワークである。
- WebWeaverは,エージェントIDではなく文脈のみに依存するため,既存手法よりもステルス性が高い。
- 実験の結果,WebWeaverは既存の最先端手法を大幅に上回り,防御下で約60%高い推論精度を達成した。
大規模言語モデルにおける脱獄攻撃の系統的スケーリング分析 [cs.LG, cs.CR]目的:大規模言語モデルの脱獄攻撃のスケーリングに関する理解
- 言語モデルの安全性確保は重要であり,悪意ある利用を防ぐ上で不可欠である。
- 脱獄攻撃に対する脆弱性が残存しており,攻撃の規模や種類に応じた対策が不十分である。
- 攻撃者の努力と成功率の関係を明らかにし,効率的な防御策の構築に貢献する。
- 脱獄攻撃を計算資源制約のある最適化問題と捉え,FLOPs(浮動小数点演算回数)を軸にスケーリング則を分析した。
- プロンプトベースの手法は,最適化ベースの手法と比較して計算効率が高い傾向にあることが示された。
- 誤情報の拡散を目的とした攻撃は,他の有害な目的の攻撃よりも容易に成功しやすいことが明らかになった。
継続学習のための表現微調整 [cs.LG, cs.AI]目的:継続学習における表現の微調整手法
- 現実世界は常に変化するため,モデルが変化するデータに継続的に適応する能力が重要である。
- 従来のパラメータ効率の良い微調整手法は,表現のドリフトを制御できず,ドメインシフトや破滅的忘却を引き起こしやすい。
- 表現空間での微調整により,過去のタスクの安定性と新しいタスクへの適応性を両立させることを目指す。
- 本研究で提案するCoReは,重み空間ではなく表現空間での微調整という新たなパラダイムを提示する。
- CoReは低ランク線形部分空間内でのタスク固有の介入により,パラメータ効率を維持しつつ,既存の最先端手法を凌駕する性能を示す。
- 表現微調整は,継続学習のための,より効果的で解釈可能な新たな手法となりうる。
非線形マルチアダプターを用いたビジョン言語モデルによる単純な効率的増分学習フレームワーク [cs.CV, cs.AI]目的:増分学習における効率向上
- 人工知能の発展において,継続的な学習能力は不可欠である。特に,新しいタスクを効率的に学習し,既存の知識を保持することが重要となる。
- 従来の増分学習手法は,学習効率の低さ,過去データの保存に依存する点,強力なバックボーンアーキテクチャの必要性といった課題を抱えていた。
- 本研究は,ビジョン言語モデルとアダプターを活用することで,これらの課題を克服し,より効率的で高性能な増分学習フレームワークを構築することを目指す。
- SimEフレームワークは,TinyImageNetにおいて従来の方式を9.6%上回り,CIFAR-100ではCLIPベースの手法を5.3%上回る性能を達成した。
- アダプター接続数とモデルの増分学習能力の間には非線形な相関関係が存在することが示された。特に,Transformerブロック間の接続が有効である。
- CLIPモデルをより大規模なデータセット(LAION2Bなど)や強力なアーキテクチャ(ViT-L/14など)で学習させることで,SimEの性能をさらに向上させることが期待される。
意味的ルーティングに基づくLoRAによる可逆的生涯学習モデル編集 [cs.AI]目的:大規模言語モデルにおける生涯学習モデル編集のための手法
- 現実世界の動的な変化に対応するため,大規模言語モデルの継続的な編集が不可欠である。
- 既存手法では,セマンティックドリフトや知識の忘却が課題となっている。
- セマンティックルーティングにより,編集の追跡と正確な取り消しを可能にすること。
- SoLAは,各編集を独立したLoRAモジュールとしてカプセル化し,セマンティックルーティングによって動的に活性化する。
- これにより,セマンティックドリフトを抑制し,破滅的な忘却を軽減する。
- SoLAは,編集の取り消しを可能にし,モデルの元の動作を復元できる,初の可逆的なロールバック編集機能を実現した。
WORKSWORLD:分散パイプラインワークフローの統合的な数値計画とスケジューリングのためのドメイン [cs.DC, cs.AI]目的:分散データパイプライン,あるいはワークフローの自動計画とスケジューリング
- データ処理の効率化が求められる現代において,ワークフローの自動化は不可欠である。
- 複雑なワークフローを手動で計画・スケジューリングすることは,時間と労力を要する。
- ワークフロー全体を明示的に定義することなく,計画とスケジューリングを自動化すること。
- WORKSWORLDは,数値ドメイン非依存プランナー向けの新ドメインであり,永続的にスケジュールされたワークフローに適している。
- 本フレームワークでは,データソース,ワークフローコンポーネント,目的のデータ形式などを定義するだけで,ワークフローグラフの構築とコンポーネントのスケジュールを同時に解決できる。
- 実験結果から,最新の数値プランナーが,8つのサイトにわたる最大14個のコンポーネントからなる線形チェーンワークフローを解決できることが示された。
バランスの取れた思考による効率的な推論 [cs.AI, cs.CL, cs.LG]目的:大規模推論モデルにおける効率的な推論の実現
- 推論能力はAIの重要な要素であり,その効率化は実用化に不可欠である。
- 大規模言語モデルは過剰思考や思考不足に陥りやすく,資源効率や精度に課題がある。
- 過剰思考と思考不足を同時に抑制し,より効率的で正確な推論を実現すること。
- ReBalanceは,学習を必要としないフレームワークであり,自信度を指標に推論の軌跡を調整する。
- 実験の結果,ReBalanceは出力の冗長性を低減し,様々なタスクにおいて精度を向上させた。
- ReBalanceは汎用性が高く,既存のモデルに容易に組み込むことができる。
エージェントドリフト:LLMエージェントにおけるツール汚染による安全性の低下とランキング指標の限界 [cs.CL, cs.AI]目的:LLMエージェントのツール汚染による安全性低下の分析
- LLMエージェントは,重要な領域での助言者として利用が拡大しており,その信頼性確保が不可欠である。
- 既存の評価指標は推奨の質を測るのみで,安全性を考慮していないため,潜在的なリスクを見過ごしやすい。
- ツール汚染がLLMエージェントの安全性に与える影響を定量的に評価し,安全性を考慮した評価指標の必要性を示す。
- 評価指標では推奨の質は維持されるものの,ツールが汚染された場合,リスクの高い商品が65~93%のターンで出現する。
- 安全性低下は主に情報伝達経路に起因し,汚染されたターンで発生後,自己修正されることなく継続する。
- 安全性にペナルティを加えたNDCG(sNDCG)を使用すると,評価ギャップが縮小し,安全性の重要性が明確になる。
PCA加重検索とベイズ平均集約による手術時間予測:PREBA [cs.LG, cs.AI]目的:手術時間の予測精度向上
- 病院資源管理において,手術時間の正確な予測は不可欠である。
- 質の高いラベル付きデータが必要であり,計算コストが高いという課題がある。
- 機関固有の臨床的文脈に基づいた,安定した予測を実現する。
- PREBAは,PCA加重検索とベイズ平均集約により,LLM予測を臨床的証拠と統計的事前分布に基盤させる。
- MAEを最大40%削減し,R^2を-0.13から0.62に向上させるなど,ゼロショット推論と比較して大幅な性能向上を示した。
- PREBAは,教師あり機械学習と同等の精度を達成し,高い有効性と汎用性を示す。
安定性を考慮した凍結オイラーオートエンコーダによる連続体力学における物理情報に基づく追跡 (SAFE-PIT-CM) [cs.LG]目的:連続体力学における物理情報に基づく追跡のための,安定性を考慮した凍結オイラーオートエンコーダの開発
- シミュレーションの精度向上は,工学分野における材料挙動の予測や設計において不可欠である。
- 既存手法では,物理モデルのパラメータ推定に大量の教師データが必要となる場合が多い。
- 物理法則に基づいた学習により,教師データなしでパラメータを推定し,高精度な追跡を実現すること。
- 提案手法SAFE-PIT-CMは,凍結された微分方程式ソルバーをオートエンコーダ内に組み込むことで,拡散係数alphaの推定を可能にした。
- 粗い時間間隔での前進オイラー法による不安定性を,サブステップによって解消し,数値的な安定性を確保した。
- テスト時学習(TTT)により,事前学習なしでalphaの推定が可能であり,事前学習による推論と同等の精度を達成した。
IoTにおけるプライバシー保護機械学習:クロスパラダイム調査と将来展望 [cs.LG, cs.CR]目的:IoT環境におけるプライバシー保護機械学習メカニズムの包括的な分析
- IoTの急速な普及により,生成される機密データの保護が不可欠となっている。
- 分散環境下での従来の匿名化や集中保護戦略は,IoTの制約上不十分である。
- IoT環境に適したプライバシー保護機械学習のパラダイムを特定し,課題を明確化する。
- 本調査は,差分プライバシー,連合学習,準同型暗号など,多様なプライバシー保護技術を分類し,比較検討している。
- 各パラダイムのプライバシー保証,計算・通信コスト,スケーラビリティ,脅威への耐性などを詳細に分析している。
- 次世代モバイルアーキテクチャにおけるプライバシー,通信量,モデル収束,システム効率のトレードオフについても議論している。
VTC-Bench:構成的な視覚ツール連鎖によるエージェント型マルチモーダルモデルの評価 [cs.DB, cs.AI]目的:エージェント型マルチモーダルモデルのツール利用能力の評価
- マルチモーダルLLMは視覚タスクの高度化に貢献しているが,複雑なタスク遂行能力の評価が課題である。
- 既存のベンチマークはツールセットが限られており,多様なツール間の相互作用を捉えきれない。
- 現実的なコンピュータビジョンパイプラインに沿った,複雑なツール利用能力の評価を目指す。
- VTC-Benchは,32種類のOpenCVベースの視覚操作を含む包括的なベンチマークである。
- 19の主要なMLLMの実験により,現在のモデルの視覚エージェント能力に限界があることが明らかになった。
- 特に,モデルは多様なツールセットへの適応や未知の操作への一般化に苦戦しており,Gemini-3.0-Proでも51%のスコアにとどまる。
LLMにおけるプライベートライブラリ利用のためのコード生成指導:習得と視認の違い [cs.SE, cs.AI, cs.CL]目的:プライベートライブラリを用いたコード生成能力の向上
- コード生成AIは開発効率を飛躍的に高める可能性があり,ソフトウェア開発の重要な技術である。
- 既存手法では,プライベートライブラリのAPIを効果的に利用できず,コード生成性能が制限されている。
- 自動合成されたデータを用いてLLMにプライベートライブラリAPIの使用方法を習得させ,性能向上を目指す。
- 提案手法PriCoderは,グラフ構造を用いたデータ合成により,多様性と品質を両立した学習データを生成する。
- 構築した評価ベンチマークにおいて,PriCoderは主要なLLMのプライベートライブラリ利用におけるコード生成性能を20%以上向上させた。
- PriCoderは,汎用的なコード生成能力への影響を最小限に抑えつつ,プライベートライブラリ利用に特化した性能向上を実現した。
エコーに耳を傾ける:スカラー・バーバルハイブリッド強化学習によるユーザー反応を意識した方策最適化 [cs.AI]目的:ユーザー反応を意識した方策最適化
- 感情サポート対話システムの重要性が高まっているが,適切な評価指標の設計が課題となっている。
- 既存の評価指標は情報が疎であり,対話の失敗原因やユーザー状態の変化への適応が困難である。
- ユーザーの継続的な反応を学習信号として活用し,より自然で効果的な対話システムを構築することを目指す。
- 提案手法RAPOは,対話における反応を重視し,ユーザーの感情軌跡を大きく変化させる重要なターンを特定する。
- ユーザーの反応を対比ランキング信号や自然言語による批評に変換することで,高密度な学習信号を生成する。
- スカラー報酬による全体的な整合性と,バーバルフィードバックによる詳細な意味的洗練を組み合わせることで,対話性能を向上させる。
訓練軌道のスペクトルエッジダイナミクス:スケールにわたる信号-ノイズ幾何学 [eess.SY, cs.SY, cs.LG, cs.AI]目的:訓練軌道のスペクトルエッジダイナミクスを通じた信号とノイズの幾何学的構造の定量化
- 大規模言語モデルの学習は,計算資源を大量に消費する。効率的な学習方法の確立が重要である。
- モデルのパラメータ数が多くなると,学習軌跡の構造を理解することが困難になる。
- 学習軌跡の構造を捉え,効率的な学習や汎化性能の予測に役立つ指標を開発する。
- 訓練軌道は,比較的少数のコヒーレントな方向に沿って進化することが示された。
- スペクトルエッジは,コヒーレントな最適化方向と確率的ノイズを区別する鋭い境界として定義された。
- スペクトルエッジは,モデルの規模やタスクの複雑さに応じて,普遍的な三相パターンを示すことが確認された。
AsgardBench:最小限のフィードバック下における視覚的根拠に基づいたインタラクティブプランニングの評価 [cs.AI, cs.CV, cs.RO]目的:視覚的根拠に基づいた高レベル行動シーケンス生成とインタラクティブプランニングの評価
- 具現化されたAI研究は,現実世界での応用を目的とし,ますます重要になっている。
- 既存のベンチマークは,ナビゲーションや詳細なフィードバックに依存し,純粋なプランニング能力の評価が困難である。
- 視覚情報のみを用いて,環境の変化に適応できるプランニング能力を評価することを目指す。
- AsgardBenchを用いた評価により,視覚入力なしでは性能が著しく低下することが示された。
- これは,視覚的根拠と状態追跡の弱点により,インタラクティブプランニングが損なわれることを示唆する。
- ベンチマークは,モデルが予期せぬ事態に対応してプランを適応させる能力に焦点を当てている。
安全性は非構成的である:能力に基づくAIシステムの形式的枠組み [cs.AI]目的:能力依存性における安全性の非構成性
- AIシステムの安全性の保証は,社会実装において不可欠である。
- 個々の構成要素が安全でも,組み合わせによって危険が生じる可能性がある。
- 能力の組み合わせによる潜在的な危険性を形式的に証明すること。
- 本研究は,能力依存性における安全性の非構成性に関する初の形式的証明を提供する。
- 2つのエージェントがそれぞれ危険な能力に到達できない場合でも,組み合わせることで到達可能になることを示す。
- これは,能力の結合によって新たな危険性が生じる可能性を示唆する。
ワークフロー自動化から機能閉包へ:安全かつ収益を意識した顧客サービスAIのための形式的フレームワーク [cs.AI]目的:顧客サービスAIの安全確保と収益最大化
- 顧客サービスは企業の重要な機能であり,その自動化は効率化と顧客満足度向上に不可欠である。
- AIエージェントの組み合わせによる連携では,個別に安全性が確認されても,予期せぬ危険な状態が生じうる。
- 複数のAIエージェントの組み合わせにおける潜在的な危険性を特定し,安全性を保証する。
- 現在のプラットフォームでは,個別に安全なエージェントの組み合わせが,新たな危険な目標を達成する可能性があるという安全性のギャップが存在する。
- 本研究では,この課題に対処するため,安全性を形式的に検証できるフレームワークを提案する。
- このフレームワークは,顧客サービスAIの安全性を高め,収益を最大化するための基盤を提供する。
階層型強化学習における内在的スキル進化によるエージェントの推論 [cs.AI]目的:言語モデルにおける数学的推論能力の向上
- 言語モデルの数学的推論能力向上は,高度な問題解決能力を実現する上で不可欠である。
- 既存手法では,各問題を独立して扱うため,学習中に獲得した再利用可能な戦略が活用されていない。
- 獲得したスキルを体系的に蓄積し,新たな問題に応用することで推論能力を向上させる。
- ARISEは,スキル管理と応答生成を同時に行う階層型強化学習フレームワークである。
- スキルライブラリの品質と推論能力が,学習を通じて相乗的に向上することが確認された。
- 競争数学とOmni-MATHの7つのベンチマークにおいて,既存手法を上回る性能を示した。
LICA:グラフィックデザイン研究のための階層型画像合成注釈 [cs.CV, cs.AI]目的:グラフィックデザインにおけるレイヤー構造の理解と生成を促進するための大規模データセット
- グラフィックデザインの自動化や効率化は,クリエイティブ産業の発展に不可欠である。
- 既存のデータセットは,デザイン要素間の構造的な関係性を捉えきれていない。
- デザイン構造を直接操作するモデルの研究を支援するデータセットの提供。
- LICAは,155万件以上の多層グラフィックデザイン構成からなる大規模データセットである。
- 各デザインは,テキスト,画像,ベクターなどの要素を持つ階層的な構成として表現され,豊富なメタデータが付与されている。
- LICAは,レイヤー認識インペインティング,構造化されたレイアウト生成など,新たな研究課題を可能にする。
高次元イベント系列における予測,発見,推論の学習 [cs.AI, cs.LG]目的:高次元イベント系列の予測,発見,推論のための手法
- 自動車の複雑化に伴い,故障診断の重要性は増しており,効率的な手法が求められている。
- 従来の故障診断は専門家による手作業に頼っており,コストがかかり,エラーも発生しやすい。
- 高次元イベント系列を言語として捉え,機械学習を用いて故障診断を自動化することを目的とする。
- Transformerベースのアーキテクチャを導入し,予測保全の精度向上を実現した。
- 大規模なサンプルおよび集団レベルでの因果関係発見フレームワークを開発した。
- Boolean型のエラーパターンルールを自動的に合成するマルチエージェントシステムを構築した。
VAE-EM推定による電子顕微鏡較正のシミュレーションと現実のギャップの解消 [cs.CV, cs.LG]目的:電子顕微鏡の較正パラメータ推定手法
- 科学的発見を支える電子顕微鏡において,光学収差による画質劣化が課題である。
- 診断画像の高次元性・ノイズ性,および単一画像からの最適パラメータ特定困難性が問題となる。
- シミュレーションデータと現実データの乖離を解消し,高精度な較正を可能にすること。
- シミュレーションデータで学習させたVAEを用いて,画像の低次元表現を獲得することで,従来のscalar値のみ抽出する方法を凌駕した。
- 期待最大化(EM)法により,較正パラメータと低次元表現の間のマッピングモデル,および最適パラメータを同時に推定した。
- 実STEMにおいて,既存手法よりも高速かつ一貫性のある較正を達成し,推定誤差を2倍削減,必要な観測回数を減らした。
顔比較のためのMLLMベースのテキストによる説明 [cs.CL, cs.CV, cs.AI]目的:顔比較における説明可能性の評価
- 顔認識技術は,セキュリティや個人認証など幅広い分野で利用が拡大している。
- 顔認識の判断根拠がブラックボックス化しており,人間による解釈が困難である。
- MLLMによる説明の信頼性を評価し,より信頼できる説明手法を確立すること。
- MLLMが正しい顔認証判断を下した場合でも,説明が視覚的証拠に基づかない虚偽の情報を含む場合が多いことが示された。
- 従来の顔認識システムの情報を追加しても,説明の信頼性は必ずしも向上しないことが確認された。
- 説明の妥当性を評価するための尤度比に基づくフレームワークが提案され,現在のMLLMの限界が明らかになった。
AIエージェントにおける非標準誤差 [cs.AI, cs.SI]目的:AIコーディングエージェントにおける実証結果の再現性
- AI技術は政策評価や実証研究への応用が拡大しており,その信頼性が重要である。
- AIエージェントの分析選択のばらつきが,結果の信頼性に影響を与える可能性がある。
- AIエージェントの分析における非標準誤差を定量化し,その原因を解明すること。
- 最先端のAIコーディングエージェントは,同じデータと研究課題でも異なる実証結果を生み出すことが確認された。
- エージェント間の分析選択のばらつき(非標準誤差)は,人間研究者間でも見られるものと同様である。
- 優れた論文事例への学習は,エージェント間の推定値のばらつきを大幅に縮小するが,それは模倣によるものである。
大規模言語モデルにおける著者プロファイリングを通じた文化的シグナルの探求 [cs.CL, cs.LG]目的:大規模言語モデルにエンコードされた文化的バイアスの検出と定量化
- 大規模言語モデルは社会に影響を与える様々な用途に利用されており,その公平性が重要視されている。
- 言語モデルが潜在的に持つ文化的バイアスは,公平性の観点から問題となっている。
- 言語モデルが持つ文化的バイアスの存在と程度を,著者プロファイリングを通じて明らかにすること。
- 大規模言語モデルは,特定のタスクに対するファインチューニングなしに,歌詞から著者のジェンダーや民族性をある程度推測できることが示された。
- 多くのモデルは北米の民族性を優先する傾向がある一方,DeepSeek-1.5Bはアジアの民族性とのより強い一致を示した。
- Ministral-8Bは最も強い民族バイアスを示し,Gemma-12Bはよりバランスの取れた振る舞いを示した。MADとRDという公平性指標が提案された。
エッジにおける具現化された基盤モデル:展開の制約と緩和戦略に関する調査 [cs.RO, cs.AI]目的:具現化されたエッジシステムにおける基盤モデル展開の制約とその緩和戦略
- ロボティクスやIoTデバイス等の分野で,高性能なAIモデルの活用が重要視されている。
- エッジデバイスの計算資源やメモリ容量の制約から,基盤モデルの直接的な展開は困難である。
- エッジ環境における基盤モデルの信頼性ある動作を実現するためのシステムレベルでの共設計を目指す。
- 展開の障害を8つの制約として整理し,それらが具現化された基盤モデルの動作に与える影響を分析した。
- 自己回帰型Vision-Language-Actionポリシーはメモリ帯域幅に,拡散ベースのコントローラは計算遅延に主に制約されることが示された。
- メモリ,スケジューリング,通信,モデルアーキテクチャ等のシステムレベルでの共設計が,信頼性の高い展開に不可欠である。
HopChain:汎用的な視覚言語推論のための多段階データ合成 [cs.CV, cs.AI, cs.CL]目的:視覚言語モデルの汎用的な視覚言語推論能力向上
- 視覚言語モデルはマルチモーダルな能力を持つが,高度な推論は課題である。
- 既存のデータセットは複雑な推論チェーンを含まず,モデルの弱点が露呈しにくい。
- 多段階推論を促すデータセットを構築し,視覚言語モデルの性能向上を目指す。
- HopChainは,検証可能な報酬を用いた強化学習(RLVR)のための多段階視覚言語推論データを合成するフレームワークである。
- 合成されたデータは,特定のベンチマークに特化せず,STEM,VQA,文書理解など幅広いタスクで性能向上を示した。
- 多段階クエリの有効性は,半段階や単段階クエリと比較して明確に確認され,特に長尺のCoT推論で顕著な効果が見られた。
SCALE:仮想細胞摂動予測のためのスケーラブルな条件付きアトラスレベルエンドポイント輸送 [cs.LG, cs.AI, q-bio.QM]目的:仮想細胞摂動予測のための大規模基盤モデルの開発
- 細胞実験をコンピューター上でシミュレーションすることで,時間やコストを削減できるため重要である。
- 大規模な摂動予測において,学習・推論の効率,高次元空間での安定性,評価プロトコルの問題が存在する。
- 上記課題を解決し,より現実的な仮想細胞モデルの構築を目指す。
- SCALEは,データ処理能力を向上させ,学習・推論速度を大幅に改善した。
- 摂動予測を条件付き輸送として定式化し,より安定した学習と摂動効果の再現性を実現した。
- Tahoe-100Mベンチマークにおいて,PDCorrとDE Overlapを大幅に向上させた。
最終的なテキストのみが残る場合:マルチエージェントアトリビューションのための暗黙的な実行追跡 [cs.AI, cs.CL]目的:マルチエージェントアトリビューションの実現
- AIシステムの利用拡大に伴い,責任の所在を明確にする必要性が高まっている。
- マルチエージェントシステムでは,実行ログやエージェントIDが利用できない場合が多い。
- 最終的なテキストからエージェントの貢献度を特定し,協調構造を復元すること。
- IET(Implicit Execution Tracing)という,メタデータに依存しないアトリビューションフレームワークを提案した。
- 生成されたテキストと秘密鍵のみを用いて,トークンレベルでのアトリビューションと相互作用トポロジーの復元を可能にした。
- 実験により,高い精度でエージェントのセグメントと協調構造が復元され,生成品質も維持されることが示された。
エントロピー正則化を用いたフローマッチングポリシー [cs.LG]目的:強化学習における複雑な非ガウス分布の表現
- 近年,強化学習において拡散モデルに基づくポリシーが注目されており,複雑なタスクへの応用が期待されている。
- 従来の拡散ポリシーは,正確なエントロピー計算の困難さや,計算コストの高い勾配計算が課題となっていた。
- 本研究では,フローマッチングとエントロピー正則化を組み合わせることで,効率的かつ安定的な学習を目指す。
- 提案手法FMERは,最適輸送理論に基づき,直線的な確率経路に沿って行動をサンプリングする。
- FMERは,生成モデルの性質を利用して,高価値領域へのポリシー更新を誘導するアドバンテージ重み付きターゲット速度場を構築する。
- 実験の結果,FMERはFrankaKitchenなどのベンチマークタスクにおいて,既存手法を上回り,計算時間も大幅に短縮された。
有害かユーモアか:露顕的・隠蔽的な有害なユーモアのための多言語マルチモーダルベンチマーク [cs.CL, cs.AI]目的:有害および攻撃的なユーモアの検出と理解のためのベンチマーク
- 近年の大規模言語モデルの発展に伴い,安全性評価の重要性が増している。
- 既存のベンチマークは静的なテキストのみに焦点を当てており,文脈を考慮した評価が不足している。
- 文化的ニュアンスや暗黙の合図を伴う有害なユーモアを正確に評価できるベンチマークの構築。
- 本研究では,英語とアラビア語のテキスト,画像,動画を含む多言語マルチモーダルデータセットを構築した。
- クローズドソースモデルはオープンソースモデルよりも大幅に優れた性能を示し,言語間でも性能差が見られた。
- 文化的な背景を考慮した,推論能力を備えた安全性評価の重要性が示唆された。
TDAD:テスト駆動型エージェント開発 - グラフベースの影響分析によるAIコーディングエージェントのコード回帰軽減 [cs.SE, cs.AI]目的:AIコーディングエージェントにおけるコード回帰の軽減
- AIによるソフトウェア開発の自動化が期待される中で,その品質保証は重要な課題である。
- AIエージェントは問題解決能力を持つ反面,既存のテストを破壊する回帰を引き起こしやすい。
- TDADは,変更前の影響分析により,エージェントが検証すべきテストを特定し,自己修正を可能にする。
- TDADをSWE-bench Verified上で評価した結果,回帰が70%減少(6.08%から1.82%へ)した。
- TDDの手順指示のみでは回帰が増加(9.94%)したが,TDADは文脈情報を提供することで,問題解決率を向上(24%から32%へ)させた。
- TDADは軽量なエージェントスキルとして提供され,異なるモデルやフレームワークでも効果を発揮することが確認された。
「キャリベッティング」:予測者の得意分野を上回る [econ.TH, cs.GT, cs.LG, stat.ML]目的:予測者の専門性評価方法
- 予測市場など,予測の精度評価は意思決定の質に影響を与える重要な分野である。
- 従来のキャリブレーションスコアは改善が容易で,専門性を測るには不十分である。
- キャリブレーションと専門性を同時に向上させる手法を確立すること。
- キャリブレーションを向上させつつ,専門性を損なわない「キャリベッティング」が可能である。
- 決定的なオンライン手順によって,あらゆる予測をキャリベッティングできる。
- キャリブレーションされた確率的手順でもキャリベッティングを実現可能である。
隠れていても定量可能:ランダム化試験を用いた交絡強度の下限 [stat.ML, cs.LG]目的:未観察交絡強度の定量化
- 臨床現場での迅速な個別化医療において,観察研究は治療効果評価で重要な役割を担う。
- 非ランダム化データからは,未観察交絡が因果推論を著しく損なう可能性がある。
- ランダム化試験を利用し,未観察交絡強度の上限を推定することで,交絡の影響を評価する。
- 提案手法は,一定の閾値を超える交絡の存在を検出する統計的検定を可能にする。
- この検定を用いて,未観察交絡強度の漸近的に妥当な下限を推定できることが示された。
- シミュレーションおよび実際のデータセットを用いた評価により,提案手法の有効性が確認された。
