arXiv雑要約
AI - 2026/05/19 公開
スキル投票:エージェントスキルの収集,推薦,進化のためのライフサイクルガバナンス [cs.CL, cs.AI]目的:エージェントスキルのライフサイクルガバナンスのフレームワーク
- LLMエージェントの長期的な運用において,過去の経験を再利用することは重要である。
- 公開されているスキルエコシステムには,重複,不均一性,環境依存性などの問題が存在する。
- 再利用可能なスキルを効率的に管理し,エージェントの性能向上を目指す。
- SkillsVoteにより,大規模なオープンソースコーパスから環境要件,品質,検証可能性をプロファイリングし,検証可能なスキルを合成する。
- 実行前には,構造化されたスキルライブラリを探索し,インストラクショナルスキルコンテキストを提示する。
- オフライン進化により,GPT-5.2のTerminal-Bench 2.0における性能が最大7.9pp向上し,オンライン進化によりSWE-Bench Proが最大2.6pp向上した。
プロンプトは保護しない:LLMツールアクセス制御のためのMCPプロキシによるアーキテクチャ的強制 [cs.CR, cs.AI]目的:LLMツールへのアクセス制御
- LLMエージェントの利用拡大に伴い,ツール選択の安全性確保が重要である。
- LLMは,明示的な指示に関わらず,不正なツールを選択してしまう問題がある。
- アーキテクチャによるアクセス制御で,この不正なツール利用を防止する。
- 提案手法であるMCPプロキシは,ツール探索と実行時に属性ベースのアクセス制御を適用する。
- 3つのLLMと150の敵対的タスクにおいて,不正なツール呼び出し率を0%に低減した。
- プロンプトのみの制限では11~18%の削減に留まり,リスクが残存することを示した。
病理組織学におけるロバストなビジュアルインコンテキストラーニングのための幾何学的認識不確実性コアセット [cs.DC, cs.CV, cs.AI]目的:病理組織学におけるロバストなビジュアルインコンテキストラーニングのための不確実性コアセットの構築
- 病理組織学は,病気の診断や予後予測において重要な役割を担うが,専門知識が必要とされる。
- 限られた専門家によるアノテーションデータで大規模モデルを微調整することは困難である。
- 提示する事例の選択や質問の言い回しに影響されやすく,診断の信頼性が低いという問題を解決する。
- GAUCは,事前学習済みのマルチモーダル埋め込み空間で直接動作するトレーニング不要のコアセット選択手法である。
- データセット全体の分布に対するコアセットの分布的忠実性を保証し,プロンプトの言い換えに対する性能劣化を抑制する。
- CRC-100KおよびMHISTデータセットで,既存のICL選択手法やデータセット蒸留ベースラインと比較して,精度,キャリブレーション,プロンプトロバスト性が向上した。
EvoMemBench:自己進化の観点からのエージェントメモリのベンチマーク [cs.CL, cs.AI, cs.LG]目的:LLMエージェントのメモリ機構の評価
- LLMエージェントの性能向上には,推論・計画・実行に加え,情報の記憶・更新・検索が不可欠である。
- 既存のベンチマークはメモリ機構を体系的に評価する方法を提供していないため,エージェントのメモリ能力の評価が不十分である。
- メモリのスコープと内容に基づいた統一的なベンチマークを提供し,現在のメモリシステムの限界を明らかにする。
- 現在のメモリシステムは,汎用的な解決策には程遠いことが示された。長文脈モデルが依然として競争力を持つ。
- メモリは,文脈が不十分な場合やタスクが困難な場合に特に有効であり,単一のメモリ形式は全ての状況で一貫して機能しない。
- 知識集約的なタスクには検索ベースの手法が,実行指向型タスクには手続き的・長期メモリの手法が,タスク構造との適合性に応じて有効である。
決定論的過程からの敵対的生成学習 [cs.RO, cs.CY, cs.LG, math.ST, stat.TH]目的:十分なカオス性を持つ動力系における不変分布の学習
- 物理AIは,従来の独立同一分布(i.i.d.)の仮定を満たさないデータにも適用可能である点が重要である。
- 既存のGANの統計的学習理論は,i.i.d.の仮定に基づいているため,非ランダムなデータへの適用に課題がある。
- 単一の決定論的な時系列データから,カオス的な動力系の不変分布を学習する手法を確立することを目標とする。
- 無限次元の敵対的生成学習(GAL)モデルを用いることで,単一の時系列データから不変分布を学習できることを証明した。
- 学習の収束速度は,Jensen-Shannonダイバージェンスを用いて明示的に評価できることが示された。
- この結果は,物理AIにおけるGANの経験的な成功を理論的に説明する一助となる。
Text2CAD-Bench:LLMベースのテキストからパラメトリックCAD生成のためのベンチマーク [cs.LG]目的:テキストからパラメトリックCADモデル生成の評価基準
- 自然言語による設計は,迅速な試作と直感的な設計ワークフローを可能にするため重要である。
- 既存のベンチマークは基本的な形状に限定され,実用的な複雑な機能や多様な応用範囲をカバーしていない。
- 複雑な形状や応用範囲において,テキストからCADへの生成能力を客観的に評価することを目指す。
- Text2CAD-Benchは,600件の人手で作成された例を含み,幾何学的複雑さと応用範囲の多様性に焦点を当てている。
- 現在のLLMは基本的な形状では良好な性能を示すものの,複雑な形状や高度な機能においては性能が大幅に低下する。
- 本ベンチマークの公開により,テキストからCADへの生成研究の進展を促進することが期待される。
車両エッジコンピューティングにおける異種タスクオフローディング:分散型メタ深層強化学習アプローチ [cs.LG, cs.DC]目的:異種タスクオフローディングのための分散型メタ深層強化学習フレームワーク
- 自動運転などのリアルタイム性を要求される車載アプリケーションの普及が重要である。
- 複雑な依存関係を持つ異種DAGタスクの同時オフローディングとリソース割り当てが困難である。
- 分散型MEC環境におけるプライバシー保護と効率的な学習の両立を目指す。
- 提案手法FedMAGSは,グラフアテンションネットワークを用いてDAG依存関係を捉え,効率的なオフローディング決定を行う。
- 分散型メタ学習により,生データを共有することなく,MECサーバー間の迅速な適応を実現する。
- シミュレーション結果から,FedMAGSは従来のベースラインと比較して,収束速度,実行遅延,スケーラビリティにおいて優れていることが示された。
NBTI劣化とプロセス変動下における信頼性の高い算術乗算器の構築 [cs.RO, cs.SY, eess.SY, eess.SY, cs.SY, cs.AR, cs.AI]目的:算術乗算器における信頼性向上手法
- 現代の計算システムにおける根幹であり,性能と寿命が重要である。
- NBTI劣化やプロセス変動が,性能低下や故障を引き起こす。
- NBTI劣化を軽減し,乗算器の信頼性と寿命を向上させる。
- 提案手法は,乗算の符号不変性を利用し,トランジスタのストレスを再配分する。
- シストリックアレイへの統合により,高性能AIアクセラレータでの効率が実証された。
- Cadenceツールによる評価で,自然劣化と比較して寿命が改善,面積・遅延オーバーヘッドは無視できるレベル。
潜在的な視覚的推論を阻害する要因 [cs.CV, cs.AI, cs.CL, cs.LG]目的:潜在的な視覚的推論におけるモデルの活用状況の解明
- 人間は視覚問題を解決する際,言語だけではなく視覚的なシミュレーションを用いる。そのメカニズムをAIに実装することの重要性。
- 既存のVision-Languageモデルでは,中間段階として生成される潜在的な視覚トークンが,予測にほとんど影響を与えていないという問題。
- 潜在的な視覚的推論を有効にするための,データセットと潜在トークン予測の改善。
- モデルの精度は,潜在トークンを無情報な「ダミー」トークンに置き換えても変わらないことが判明。
- 既存のデータセットでは,潜在トークンが画像情報以上の有用な情報を提供せず,モデルが学習時に無視していることが示唆された。
- 診断データセットで学習させた場合,モデルは潜在トークンに因果的に依存できることが示された。推論時の潜在トークンが,理想的な表現から乖離していることも課題。
強化学習を用いた顧客行動経路モデル:実用的な小売洞察のために [cs.LG, cs.AI]目的:小売店における顧客行動経路のモデリング
- 店舗レイアウト最適化には顧客の行動理解が不可欠であり,売上向上に繋がる重要な研究分野である。
- 実際の行動データ収集はコストがかかるため,簡便な手法が用いられることが多いが,精度に課題がある。
- 強化学習を用いて,現実的な顧客行動をより正確に予測し,レイアウト最適化を支援することを目的とする。
- 強化学習で生成された行動経路は,既存手法(TSP, PNN)よりも実際の顧客行動により近いことが示された。
- 衝動買い発生率や棚への人の流れの推定精度が向上し,より正確なレイアウト最適化が可能となった。
- 衝動商品配置の最適化において,強化学習による配置決定が実際の行動データから得られた結果と一致した。
スケジュールを語る:解釈可能なプログラム的強化学習フレームワーク [cs.LG, cs.AI, cs.SC]目的:組み合わせ最適化問題に対する解釈可能なスケジュール戦略
- 組合せ最適化は,現実世界の多くの問題を解決する上で不可欠であり,効率的な手法が求められている。
- 深層強化学習は強力だが,そのポリシーがブラックボックスであり,人間が理解しにくいという課題がある。
- 人間が理解・編集可能なプログラムによって,高性能なスケジュール戦略を学習することを目指す。
- ProRLは,人間が読めるプログラムを用いて高性能なスケジュールを実現する新しいフレームワークである。
- ドメイン固有言語DSL-Sを用いてスケジュール戦略をプログラムとして表現し,局所探索とベイズ最適化により学習する。
- 既存のヒューリスティックや深層強化学習と比較して,優れた性能と少ない計算資源での学習が可能であることを示した。
検閲された生存期間データに対する適応的実験 [cs.HC, cs.LG, stat.ML]目的:因果効果の効率的な推定
- 生存時間分析は,医療分野において治療効果の評価や予後予測に不可欠である。
- 生存時間データには打ち切り(検閲)が含まれることが多く,従来の実験法では効率的な推定が困難である。
- 打ち切りを考慮した適応的実験法の開発により,生存期間データにおける因果効果推定の精度向上を目指す。
- 本研究では,右検閲下での因果効果推定のための新しいフレームワークを提案した。
- 提案手法は,平均生存効果曲線の効率的推定を可能にする閉じた形の最適割付ポリシーを持つ。
- 数値実験の結果,一様ランダム化や検閲を無視したベースラインと比較して,一貫した効率向上が確認された。
ホタルが群れるとき:重心誘導ホタル最適化による自動クラスタリングの強化 [cs.AI, cs.LG, cs.NE]目的:データクラスタリングのための新しいホタルアルゴリズムの変種
- データ解析において,データの構造を把握することは重要であり,クラスタリングはそのための基本的な手法である。
- 従来のK-Means法では,クラスタの形状や密度が均一でない場合,またクラスタ数を事前に定義する必要があるという課題がある。
- 本研究は,K-Means法の課題を克服し,最適なクラスタ数を自動的に推定し,クラスタ境界を動的に調整することを目的とする。
- 提案手法は,コンパクト性,分離性,およびTSPに基づくナビゲーションペナルティをバランスさせる多目的適合度関数を採用している。
- ロボットセンサーネットワークへの応用実験により,提案手法はK-Meansと比較して,クラスタリング品質の向上とクラスタ内経路距離の短縮が確認された。
- 複雑な空間クラスタリングタスクにおいて,提案手法のロバスト性とその潜在的な拡張性が示された。
Prompt2Fingerprint:テキストから重みを生成するプラグアンドプレイLLMフィンガープリンティング [cs.CR, cs.AI, cs.CL, cs.LG]目的:大規模言語モデルの起源追跡
- LLMの普及により,モデルの出所管理が重要になっている。
- 既存手法は,再トレーニングが必要で計算コストが高い。
- 迅速かつ低コストなフィンガープリンティング手法を提供する。
- Prompt2Fingerprintは,テキスト記述から直接パラメータの増分を生成する。
- 再トレーニングなしでLLMにフィンガープリントを埋め込むことを可能にする。
- 高い精度,安全性,堅牢性を維持しつつ計算コストを大幅に削減する。
任意予算下における混合精度モデルのグローバルビット割り当て [cs.LG, cs.AI]目的:混合精度モデルのビット割り当てによる精度と予算のトレードオフ改善
- 大規模言語モデルの効率的な運用が重要視されており,メモリ使用量と計算コストの削減が求められている。
- 既存手法では,モジュール間相互作用の考慮不足や,予算変更時の再計算が必要となる点が課題であった。
- 学習済みモデルに対し,追加学習なしで最適なビット割り当てを高速に行うことを目指す。
- GAMMAは,教師強制による隠れ状態再構成を最適化することで,モジュールごとの精度嗜好を学習する。
- 学習された嗜好は安定した感度ランキングを反映するため,整数計画法による予算制約を満たす割り当てを効率的に行う。
- LlamaやQwenモデルを用いた実験で,既存手法を上回る性能と,メモリフットプリントの大幅な削減が確認された。
OCCAM:ブラックボックス型画像モデルにおけるオープンセット因果概念の説明とオントロジー誘導 [eess.SY, cs.SY, math.OC, cs.AI]目的:深層画像分類器の意思決定解釈
- 深層学習モデルの解釈可能性は,モデルの信頼性向上や公平性確保に不可欠である。
- ブラックボックスモデルでは内部構造が不明瞭なため,解釈が困難である。
- オープンセット環境下での概念説明と,モデル全体の概念構造の解明を目指す。
- OCCAMは,テキストによる誘導分割を用いて視覚的概念を検出し,局所的な説明を提供する。
- 概念を除去する介入実験を通じて,各概念の因果的貢献度を定量的に評価する。
- データセット全体での介入証拠を集約することで,概念間の依存関係やモデルのバイアスを明らかにする。
モダリティ対形態:生物学的信号の時間系列分類のためのフレームワーク [cs.RO, cs.LG, cs.AI]目的:生物学的信号の時間系列分類におけるモダリティと形態の関係性の解明
- 生物学的信号の時間系列分類は,医療診断や生理学的理解に不可欠であり,その重要性は高い。
- 従来の手法はモダリティ固有であり,多様な波形構造を持つ信号への汎用性に課題があった。
- 波形構造(形態)に基づいたモデル設計により,時間系列分類の性能と解釈性を向上させる。
- モダリティではなく,波形構造(形態)が分類性能と解釈性に大きく影響することが示された。
- スパイク,バースト,振動などの形態が,前処理やモデリング戦略を決定する要因となることが明らかになった。
- 形態に基づいたデータ拡張や評価指標の改善が,時間系列分類の汎化性能向上に繋がる可能性が示唆された。
DBES:大規模MoEにおける専門性評価のための体系的なベンチマークと指標群 [cs.LG, cs.AI]目的:MoEモデルにおける専門性の評価方法論
- 大規模言語モデルの性能向上において,MoEモデルが注目されている。専門性の理解は,モデル設計・最適化に不可欠である。
- 従来の評価指標では,負荷分散と機能的な専門性を区別できておらず,専門性の真の理解が妨げられていた。
- 専門性の指標を用いて,MoEモデルの設計と,その後の最適化を支援することを目的としている。
- DBESは,多岐にわたるドメインを網羅するベンチマークと,5つの理論に基づいた指標を含む,包括的な診断フレームワークである。
- Qwenシリーズはモジュール型の専門性,DeepSeekとGLMは分散協調型の専門性を示すことが判明した。
- DBESを用いて専門性の高いエキスパートパスを特定し,ドメイン特化型後学習を行うことで,15%の学習資源で66%〜94.48%の性能向上を達成した。
離散プログラムポリシーのアーキテクチャエントロピー正則化による学習:DiPRL [cs.LG, cs.AI]目的:離散プログラムポリシーの学習手法
- 深層強化学習の解釈性が課題であり,人間が理解・編集可能なプログラムによるポリシーが求められている。
- 勾配法によるプログラム最適化では,離散化時に性能が低下し,追加の微調整が必要となる。
- 学習中にほぼ離散化するポリシーを学習し,離散化による性能低下を回避すること。
- 提案手法DiPRLは,プログラムアーキテクチャエントロピー正則化により,滑らかで微分可能な学習を実現する。
- 離散化後の性能低下リスクを軽減しつつ,勾配法による効率的な最適化を維持する。
- 複数の離散・連続強化学習タスクにおいて,解釈可能なプログラムポリシーによる高い性能を達成した。
新しい行動が存在するオフライン文脈バンディット [cs.LG]目的:新しい行動の選択を可能にするオフポリシー学習手法
- レコメンデーションシステム等に応用される自動意思決定は,効率的なデータ利用が重要である。
- 既存手法は行動集合が変化する場合,新しい行動の学習・選択が困難である。
- 行動の特徴量を活用し,新しい行動の選択と既存行動の性能維持を両立すること。
- 提案手法PONAは,行動特徴量間の相互作用を捉え,新しい行動の選択と既存行動の性能維持を両立する。
- PONAは,Local Combination PseudoInverse (LCPI) とDoubly Robust (DR) を統合し,重みパラメータで調整可能である。
- 実験により,PONAが既存手法と比較して,新しい行動を効率的に選択できることが示された。
ハイスループットラマン分光法のための実用的なノイズ除去パイプライン [eess.SY, cs.SY, math.OC, cs.AI, cond-mat.mtrl-sci, eess.SP]目的:ハイスループットラマン分光法におけるノイズ除去パイプラインの構築
- ラマン分光法は,物質の組成や構造を非破壊的に解析する強力な手法である。
- 高速測定ではノイズが顕著になり,スペクトルの解釈が困難になる場合がある。
- 短い測定時間でも高精度なスペクトルが得られるノイズ除去手法の開発。
- ノイズ除去パイプラインは,外部ライブラリや高S/N比の参照スペクトルを必要とせず,短時間露光の繰り返し取得データから学習する。
- 5msという通常では解釈が難しいほどの短い積分時間でも,高精度なノイズ除去が可能となり,化学的に一貫性のあるマップを生成する。
- 本研究は,スペクトル品質と測定速度の間の実用的なトレードオフを提供し,日常的な実験への応用を可能にする。
形態学を超えて:がん分類における色の特徴の診断能力の定量化 [cs.CL, cs.DC, eess.SY, cs.SY, cs.CV, cs.AI, cs.LG]目的:がん分類における色の特徴の診断能力
- 病理診断において,色の情報は重要な役割を担う。診断精度向上への貢献が期待される。
- 機械学習モデルは色情報を構造情報と分離して処理するため,色の診断能力が不明確である。
- 構造情報を用いずに,色の特徴のみでがん分類が可能か検証する。
- 色の特徴のみでも,良性・悪性の二値分類において最大89%の精度を達成した。
- この高い性能は,悪性腫瘍に伴う全体的な色変化に起因すると考えられる。
- 単純な色特徴は,効率的な事前スクリーニングツールとして機能する可能性がある。
AMR-SD:トークンレベルのクレジット割り当てのための非対称メタ反射的自己蒸留 [cs.AI]目的:トークンレベルのクレジット割り当てに関する研究
- 大規模言語モデルの複雑な推論能力向上は重要である。特に,強化学習による報酬設計が不可欠である。
- 従来の強化学習は,シーケンスレベルで一様に報酬を適用するため,クレジット割り当てに課題がある。
- AMR-SDは,教師モデルの過剰な条件付けや情報漏洩を防ぎ,学習の安定化を図ることを目指す。
- AMR-SDは,検証可能な報酬を用いた強化学習において,既存の手法を大幅に上回る性能を示す。
- この手法は,科学,数学,ツール利用のベンチマークにおいて,長期的な安定性を実現し,学習の終盤における崩壊を防ぐ。
- AMR-SDは,診断信号を簡潔なヒントと批判に圧縮することで,トークンレベルでの正確な利点調整を可能にする。
連続拡散モデルは言語モデルにおいて,離散拡散モデルと競合しうる [cs.CL, cs.AI, cs.LG, stat.ML]目的:言語モデルにおける連続拡散モデルの性能向上
- 近年の言語モデル研究において,拡散モデルが注目を集めているが,計算効率が課題となっている。
- 連続拡散モデルは,離散拡散モデルと比較して,スケーラビリティが低いと考えられてきた。
- 本研究は,連続拡散モデルの計算効率を向上させ,離散拡散モデルとの性能差を縮小することを目指す。
- RePlaidは,従来の連続拡散モデルと比較して,計算コストの差を20倍に抑え,性能を向上させた。
- OpenWebTextデータセットにおいて,RePlaidは連続拡散モデルとして最高となるPPL(perplexity)22.1を達成した。
- 尤度ベースの学習において,ノイズスケジュールの最適化が線形クロスエントロピーに繋がり,効率的な学習を実現することを示した。
XCTFormer:クロスチャネルおよびクロスタイム依存性を活用した時系列分析の高度化 [cs.LG]目的:多変量時系列データの表現学習
- 時系列分析は,経済,医療,環境など,様々な分野で不可欠な技術である。
- 既存のチャネル依存モデルは,変数の依存関係を十分に捉えきれていない場合がある。
- クロスチャネル・クロスタイム依存性を明示的に捉えることで,時系列分析の精度向上を目指す。
- XCTFormerは,Transformerベースのチャネル依存モデルであり,拡張された注意メカニズムを通じて,時系列データ内の変数の依存関係を効果的に捉える。
- 実験の結果,XCTFormerは,3つの時系列ベンチマークにおいて,既存のモデルと比較して高い性能を示した。
- 特に,欠損値補完タスクにおいて,最先端の結果を達成し,2番目に良い手法をMSEで平均20.8%,MAEで15.3%上回った。
スケーリングを超えて:エージェントはエッジへ [cs.LG, cs.MA]目的:エージェント型知能の有用性を高めるためのシステム構成の変革
- エージェント型知能は,社会における自動化や意思決定支援の可能性を広げる重要な技術である。
- 既存のエージェントは,クラウド中心設計により,ローカルな状況への適応やリアルタイム処理に限界がある。
- エージェントをエッジに配置することで,環境との連動性や応答速度を向上させ,より実用的な知能を実現する。
- エージェント型知能の能力向上には,大規模な事前学習よりも,環境制御の枠組みが重要になってきている。
- ローカルなデータ(ファイル,センサー情報など)はクラウドに送信されると劣化するため,エージェントは真の状況から切り離される。
- エージェントの改善には,リアルタイムな相互作用から得られる高精度なフィードバックが不可欠である。
重ね合わせにおける表現多様体探索 [cs.LG, cs.AI, stat.ML]目的:表現多様体の発見
- 大規模言語モデルの内部表現理解は,その能力向上や制御に不可欠である。
- 言語モデルの表現空間は複雑であり,特定の概念がどのように符号化されているか不明確である。
- 表現多様体を特定し,モデルの振る舞いに影響を与える方向性を明らかにすること。
- 本研究で提案するManifold Probeは,概念の特徴空間を学習し,その符号化方向を見つけることで表現多様体を検出する。
- Llama 2-7bにおける時間と空間の表現において,解釈可能な特徴を線形に表現する多様体を発見した。
- 時間の多様体上でモデルを操作することで,楽曲・映画・書籍の発表年に関する生成結果に影響を与え,因果的な関係を示唆した。
会話における感情認識のための話者中心視覚情動特徴学習 (VISAFF) [cs.RO, cs.AI]目的:会話における感情認識のための,話者中心の視覚情動特徴学習フレームワーク
- 人間と機械の自然な対話を可能にする上で,会話中の感情認識は重要な役割を担う。
- 既存手法は,皮肉などの複雑な状況に対応できず,非言語情報の活用が不十分である。
- 話者の表情に焦点を当て,計算コストを抑えつつ,視覚情報の活用と他モダリティとの融合を図る。
- VISAFFは,事前学習済みのVision-Language Model (VLM)を微調整なしで活用し,話者の感情的な視覚的手がかりに焦点を当てる。
- 信頼度に基づいた情動補完メカニズムにより,視覚情報の不確実性をテキストや音声情報で補完する。
- 実際のデータセットを用いた実験で,最先端手法と同等の性能を,計算効率良く達成した。
STTアリーナ:時空間的ダイナミクスを有するツール使用のためのより現実的な環境 [cs.CL, cs.AI]目的:時空間的ダイナミクス下における適応的再計画の能力評価
- 現実世界のタスク実行において,LLMに状況の変化への対応能力が求められるため。
- 既存の評価指標は時間的な変化の検出に偏っており,空間と時間の両方の変化に対応する適応的再計画の評価が不足している。
- 時空間的変化が計画を無効化する状況下での,LLMの推論能力と適応能力の向上を目指す。
- STTアリーナは,9種類の時空間的競合と4つの解法レベルを含む227のインタラクティブなタスクから構成される。
- 最先端のLLM(Claude-4.6-Opusを含む)でも全体的な精度は40%未満であり,時空間的推論の難しさが示された。
- エラー分析から,陳腐化状態での実行,動的トリガーの誤診,適応後の検証不足の3つのエラーパターンが明らかになった。それらの改善策として,STT-Agent-4Bを提案した。
大規模なタンパク質フォールド分類:ベンチマークと事前学習 [cs.LG, q-bio.BM, q-bio.QM]目的:タンパク質フォールド分類のための大規模ベンチマークと自己教師あり学習フレームワーク
- 生物学的機能を解明する上で,タンパク質トポロジーの分類は不可欠な研究分野である。
- 既存のベンチマークには重複が多く,モデルのスケールアップが困難という課題が存在する。
- この研究は,大規模かつ冗長性の低いベンチマークを用いて,高性能な分類モデルを開発することを目指す。
- TEDBenchという大規模ベンチマークを構築し,既存のタンパク質表現学習手法の性能評価を行った。
- Masked Invariant Autoencoders (MiAE)という自己教師あり学習フレームワークを提案し,高い性能とスケーラビリティを実証した。
- AlphaFold構造以外にも,実験構造データセットでMiAEの有効性を示し,汎用性も確認した。
安定手: エゴ視点動画からのワールド空間における双手モーション推定のための品質を意識したフローマッチング [cs.CV, cs.AI]目的:エゴ視点動画からワールド空間における双手モーションの推定
- ロボットのポリシー学習を監督する上で,人間の手のように自然な動きを再現することは重要である。
- 頭部の動きや物体との接触による遮蔽により,手の動きが一時的にカメラから見えなくなることがある。
- 推定される手の動きの品質を考慮することで,推定精度を向上させる。
- 提案手法StableHandは,手の動きの品質を示す4つのチャネル(手首の位置と指の関節角度)を利用する。
- 品質を考慮したフローマッチングにより,信頼性の高い観察データを維持しつつ,信頼性の低いデータを学習済みのモーション事前知識に基づいて再構築する。
- HOT3DとARCTICという2つのベンチマークデータセットにおいて,既存手法を大きく上回り,特に遮蔽されたARCTICデータセットで顕著な性能向上を示した。
連合マルチンゲール事後サンプリング [cs.LG, stat.ML]目的:連合ベイズニューラルネットワークにおける事後分布サンプリング手法
- 近年の大規模言語モデルの発展に伴い,予測モデルの重要性が増している。
- 過パラメータ化されたモデルにおいて,適切な事前分布を設定することが困難である。
- クライアントのデータを共有することなく,連合学習で予測分布を推定する。
- 提案手法であるFMPサンプリングは,集中型の手法と遜色なく性能を発揮する。
- FMPサンプリングは,コンセンサス型ベースラインと比較して,キャリブレーションを大幅に改善する。
- 本手法は,MNIST,CIFAR-10,CIFAR-100の実験で有効性が確認された。
Key-Gram:具現化された操作のための拡張可能な世界知識 [cs.RO, cs.AI]目的:具現化された操作における言語指示の実行と動的な視覚状態の推論
- ロボットの自律的な操作能力向上には,環境に関する知識と状況判断が不可欠である。
- 既存手法では,言語知識と視覚情報の処理が一体化されており,知識の拡張が困難である。
- 言語知識を外部化することで,視覚処理の負担を軽減し,柔軟な知識の拡張を実現する。
- Key-Gramは,言語由来の世界知識と視覚状態の推論を分離する条件付きメモリフレームワークである。
- RoboTwin2.0,LIBERO/LIBERO-Plus,実世界での二腕操作において,既存モデルを改善した。
- 外部メモリによる言語知識の活用は,複雑な指示の理解,転移学習,実世界での操作に有効である。
高次元データの隠れた階層構造を学習する自己教師あり局所学習規則 [cs.LG, cs.NE, q-bio.NC]目的:高次元データの隠れた階層構造の学習
- 脳の情報処理原理の解明は,知能の根幹を理解する上で重要である。
- 深層学習の学習則は複雑で,生物学的な妥当性に課題がある。
- 生物学的にあり得る学習則を用いた階層構造の学習メカニズムを解明する。
- 直接的なフィードバック信号を用いる学習規則は,RHMタスクの解決に失敗した。
- 自己教師ありの層別対照学習や非対照学習を用いる学習規則は,RHMの階層構造を学習できた。
- その学習効率は,教師ありバックプロパゲーションと同程度であり,シナプス可塑性のルールとも整合性がある。
固定汎用トークン化下でのBM25コード検索の改善:ドロップインBM25修正としての適応的q-Logオッズ [cs.IR, cs.AI, cs.SE]目的:BM25におけるq-Logオッズの導入によるコード検索性能の向上
- コード検索はソフトウェア開発において重要な役割を担うため,検索精度の向上は不可欠である。
- 既存のBM25は,汎用トークン化環境下では識別子の分離が不十分であり,検索精度が低下する。
- 本研究では,q-Logオッズを導入することでBM25の識別子分離能力を高め,コード検索精度を向上させる。
- CoIR CodeSearchNet Goデータセットにおいて,NDCG@10が0.2575から0.4874へ大幅に向上した。
- この改善効果は,複数のコード言語で確認され,テキストデータセットBEIRではほとんど認められなかった。
- ハパックス密度からqを推定する手法を提案し,BM25が最適なコーパスにおいてもq=1付近を維持できることを示した。
LongMINT:長期間エージェントシステムにおけるマルチターゲット干渉下でのメモリ評価 [cs.CL, cs.CL, cs.AI]目的:長期間におけるマルチターゲット干渉下でのメモリ性能評価
- 現実世界の複雑なタスク遂行には,長期的な記憶と情報の集約的推論が不可欠である。
- 既存のベンチマークは静的な想起に焦点を当てており,動的な記憶間の干渉を捉えられていない。
- この研究は,長期的な文脈と干渉の多い状況下での既存のメモリ拡張エージェントの性能を評価する。
- LongMINTベンチマークは,頻繁に更新される情報を含む長文脈と多様なドメインと質問タイプを備えている。
- 評価された7つのシステムは,平均して27.9%という低い精度を示し,特に複数証拠の集約的推論において課題があった。
- 性能制限は主に検索とメモリ構築に起因し,特に更新による事実の干渉に弱いことが示された。
GUT-IS:情報システムにおける構成概念とその関係を統合するためのデータ駆動型アプローチ [eess.SY, cs.SY, cs.CL, cs.LG]目的:情報システムにおける構成概念の統合
- 情報システム研究において,知識の累積的発展には共通認識が不可欠である。
- 構成概念の定義が一貫しないため,知識の統合が困難になっている。
- 構成概念のグループ化と関係性を明確にし,知識統合を促進すること。
- タスク適応型テキスト埋め込みとクラスタリングを組み合わせることで,構成概念の最適なグループ化を導き出した。
- セマンティックな純粋性とクラスタ数の簡潔さの間のトレードオフを明示的に考慮することで,構成概念のグループ化の変化を分析することが可能となった。
- 情報システム分野のデータセットを用いた実証的な評価により,提案手法の有効性が確認された。
クエリ条件付き知識アラインメントによる信頼性の高いクロスシステム医療推論 [cs.AI]目的:異種医療システム間の知識アラインメントの改善
- 異種医療システム統合には知識アラインメントが不可欠であり,医療の質の向上に貢献する。
- 既存手法では,文脈やシステム間の非対称性を考慮せず,静的なマッチング問題として扱われている。
- 文脈依存性,非一対一対応,方向性といった問題を解決し,より信頼性の高いアラインメントを実現する。
- QCEAは,エンティティアラインメントをクエリ条件付きの対応問題として再構築することで,既存手法を上回る性能を示した。
- 特に,Hit@KやMRRといったランク感度指標において顕著な改善が見られた。
- QCEAによるアラインメントの改善は,検索拡張生成(RAG)における証拠検索の精度向上,根拠の強化,回答の正確性向上に繋がった。
scHelix:明示的な遺伝子レベルの分離による非対称デュアルストリーム統合 [cs.CL, cs.LG]目的:シングルセルRNAシーケンスデータ統合における課題解決
- シングルセルRNAシーケンス解析は,疾患メカニズムの解明や個別化医療に不可欠。
- バッチ効果除去と生物学的信頼性の維持のバランスが難しく,過剰な補正が問題。
- 遺伝子レベルでバッチ効果を分離し,正確な統合と生物学的シグナルの保持を目指す。
- scHelixは,遺伝子をドメイン不変のAnchorsとドメイン感受性のVariantsに分割する。
- 非対称なAlign-Refine-Fuseプロトコルにより,バッチ効果を堅牢に除去しつつ,生物学的クラスターの整合性を維持。
- 既存の手法と比較して,scHelixの性能が大幅に向上することがベンチマークによって示された。
S2Aligner:疎なテキスト属性グラフのためのペア効率的かつ転移可能な事前学習 [cs.LG]目的:疎なテキスト属性グラフにおけるグラフとテキスト表現の整合性向上
- グラフ構造データとテキスト情報を組み合わせた分析が重要視されており,その事前学習が転移学習の鍵となる。
- 現実世界の疎なグラフでは,ノードのテキスト情報が不十分,ノイズが多い,またはドメイン間で不均一な場合がある。
- 構造と意味を分離し,信頼性の高いトポロジー情報を導入することで,疎なグラフにおけるドメイン汎化性能を向上させる。
- S2Alignerは,構造を考慮した再構成と一貫性制御により,テキスト表現に信頼性の高いトポロジー情報を注入する。
- スパースネスを考慮したクロスドメインリスクバランスにより,ドメインリスクを調整し,疎なサンプルの信頼性を抑制する。
- 多様なグラフドメイン,スパースネスレベル,およびダウンストリームタスクにおいて,既存のベースラインを上回る性能を示す。
結果は良好だが規律が欠如する場合:隠れた競争相手の状態に基づくトレース評価 [cs.AI, cs.LG]目的:経済的に安全でないエージェントを検出し,展開可能な行動規律の違反を特定すること
- エージェントの行動が経済的な成果だけでなく,安全性や倫理的な側面も満たす必要があるため
- 成果のみを評価する手法では,表面的な成果に隠れた問題を見逃す可能性があるため
- 隠れた競争相手の状態を考慮したトレース評価パラダイムを確立し,行動規律の維持を評価すること
- 成果のみに基づくPPO変種はトレースとの整合性を示さなかった
- 隠れた状態を明らかにするほど,ラベルの不確実性が低下することが示された
- トレース事前学習や修正履歴を用いたポリシーは,価格や入札分布をより適切に維持することがわかった
過剰熱心なコーディングエージェント:良性タスクにおける範囲外アクションの測定 [eess.SY, cs.SY, cs.SE, cs.AI, cs.CL, cs.CR]目的:過剰熱心な行動の測定
- 近年,コーディングエージェントの自律性が高まり,セキュリティ上の課題が顕在化している。
- エージェントが許可された範囲を超えた行動をとる「過剰熱心な行動」の評価方法が確立されていない。
- 過剰熱心な行動を定量的に評価し,エージェントの安全性を高めることを目指す。
- 新たなベンチマーク「OverEager-Gen」を構築し,過剰熱心な行動を測定する際の妥当性に関する問題を明らかにした。
- 許容声明を削除することで,エージェントの過剰熱心な行動の発生率が大幅に増加することを確認した(Claude Code で0.0%から17.1%へ)。
- エージェントのフレームワークやベースモデルによって過剰熱心な行動の発生率が異なり,特に許可型フレームワークでは高い傾向がみられた。
ランダム化されたアドバンテージ変換(RAT):直接逆伝播による自然方策勾配の計算 [cs.LG, cs.AI]目的:自然方策勾配の効率的な推定
- 強化学習における方策最適化は,学習の効率に直結する重要な課題である。
- 自然方策勾配は計算コストが高く,実用的な応用が制限されている。
- フィッシャー行列の明示的な計算を回避し,自然方策勾配を効率的に推定する。
- RATは,オンポリシーミニバッチを用いたランダム化ブロックKaczmarz反復により,変換を効率的に計算する。
- RATは,連続制御およびビジュアル制御ベンチマークにおいて,既存の自然勾配法と同等またはそれ以上の性能を示す。
- RATは実装が容易であり,様々なアーキテクチャと互換性がある。
AMARIS:評価基準に基づく強化学習のためのメモリ拡張型評価基準改善システム [cs.LG, cs.AI, cs.CL]目的:評価基準に基づく強化学習における評価基準の改善
- 大規模言語モデルの強化学習において,報酬設計は性能に大きく影響する。
- 従来の評価基準適応手法は,評価結果を一時的にしか活用せず,長期的な知識蓄積が困難である。
- 本研究は,長期的な学習履歴を活用し,反復的な最適化行動を検出し,訓練を効率化することを目指す。
- AMARISは,過去の評価履歴をメモリに保存し,現在の学習ステップと関連する情報を検索することで,評価基準を改善する。
- 実験結果から,AMARISは様々なドメインにおいて,既存手法と比較して一貫して高い性能を示すことが確認された。
- 静的・動的なメモリ検索は,性能向上に貢献しており,非同期実行による時間的オーバーヘッドはわずか約5%に抑えられている。
家庭用ロボット操作におけるタイポグラフィ攻撃 [cs.CR, cs.AI, cs.RO]目的:タイポグラフィ攻撃に対する家庭用ロボット操作パイプラインの脆弱性評価
- 視覚と言語を組み合わせたAIの活用が進む中で,その安全性確保が重要課題となっている。
- 画像認識モデルは,テキスト情報に誤った認識を誘導される脆弱性を抱えている。
- 家庭用ロボット操作におけるタイポグラフィ攻撃の影響を定量的に明らかにする。
- タイポグラフィ攻撃は,HomeRobotベンチマークを用いたシミュレーションで高い成功率(67.8%)を示した。
- 攻撃によって誤認識が発生し,それがロボットの把持・運搬動作に影響を及ぼすことが確認された。
- タイポグラフィ攻撃は,ロボットの安全性に対する現実的かつ重大な脅威であることが示された。
潜在行動再パラメーター化による効率的なエージェント推論 [cs.AI]目的:エージェント推論の効率化
- 大規模言語モデルエージェントの活用が広がる中で,推論コストの削減は重要な課題である。
- 従来の低レベルなテキスト行動のシーケンスは,長い意思決定の地平線と高い推論コストを引き起こす。
- 潜在行動空間を学習することで,意思決定の地平線を短縮し,推論効率を改善することを目指す。
- 潜在行動再パラメーター化(LAR)は,多段階のセマンティックな行動に対応するコンパクトな潜在行動空間を学習する。
- LARは,固定された計算予算内で,効果的な行動地平線を大幅に短縮し,推論効率を向上させる。
- 実験結果から,行動トークン数と推論時間が大幅に削減され,タスクの成功率を維持または向上させることが示された。
深層ニューラルネットワークにおける点ごとの一般化 [cs.LG, cond-mat.stat-mech, math.FA, math.PR, math.ST, stat.TH]目的:深層ニューラルネットワークの一般化に関する理論的枠組み
- 深層学習は,画像認識や自然言語処理など様々な分野で目覚ましい成果を上げている。
- 深層ニューラルネットワークの一般化性能を理論的に理解することは困難であった。
- 学習済みモデルの表現を点ごとに評価し,一般化の限界を明確にすることを目的とする。
- 本研究では,学習された特徴表現の固有値に基づいた「点ごとのリーマン次元」を導入した。
- この次元を用いることで,モデルサイズやノルムの積に基づく既存手法よりも大幅にタイトな一般化限界が得られた。
- 実験結果から,点ごとのリーマン次元は特徴圧縮を示し,過パラメータ化が進むにつれて減少し,最適化アルゴリズムの暗黙的なバイアスを捉えることが示された。
対称性誘導シフト下における物理整合カノニカル等変 Fourier ニューラル演算子 [cs.LG]目的:偏微分方程式の解写像近似における物理的対称性の活用
- 物理法則は対称性を持つため,それらを反映したモデルは汎化性能が高いと考えられる。
- 従来のニューラル演算子は物理的対称性を考慮せず,分布外データへの対応が課題であった。
- 物理的対称性を活用し,分布外データにおける汎化性能を向上させることを目指す。
- 提案手法 PACE-FNO は,入力フレームを Lie 代数座標推定器で推定し,標準的な Fourier ニューラル演算子とフレーム変換を組み合わせる。
- Burgers 方程式,浅水波方程式,Navier-Stokes 方程式の実験により,分布内データにおける精度を維持しつつ,分布外データでの誤差を最大で 12 倍削減することを示した。
- 入力フレームの整合化と出力フレームの復元が,誤差削減に大きく貢献し,推論時の微調整が更なる改善をもたらすことが確認された。
LLMのダウンストリーム性能予測のためのプロキシ指標 [cs.CL, cs.LG]目的:LLMのダウンストリーム性能予測
- LLM開発は目覚ましい進歩を遂げているが,最適なモデル選択は重要課題である。
- クロスエントロピー損失はダウンストリーム性能と相関が薄く,直接評価はコストと時間,情報が限られる。
- 専門家による解答を用いたプロキシ指標で,効率的な性能予測を目指す。
- 提案手法は,クロスエントロピー損失よりも高い予測精度を示した(平均SpearmanのRho = 0.81)。
- 事前学習データ選択において,直接評価の10,000分の1の計算量で信頼性の高いランキングが可能となった。
- 訓練時間の予測においても,既存手法より誤差を約半分に抑え,18倍の計算量まで予測精度を維持した。
ミニバッチSGDにおける古典的運動量加速の完全並列化 [cs.LG]目的:ミニバッチSGDにおける古典的運動量加速の理論的性質
- 深層学習モデルの学習において,確率的勾配降下法は不可欠であり,その高速化が重要である。
- 古典的運動量の効果は理論的に不明確であり,強いノイズ仮定や巨大なミニバッチが必要とされていた。
- 古典的運動量加速がミニバッチサイズに比例することを示し,完全並列化を可能にすること。
- 本研究は,補間領域における2次関数の最適化に対する確率的運動量加速の一般的な理論を構築した。
- 古典的運動量による加速は,ミニバッチサイズに直接比例することが示された。
- これにより,ミニバッチ計算の完全並列化が可能となり,運動量パラメータの簡単な選択則が得られた。
