arXiv雑要約
AI - 2026/05/12 公開
主要AI会議における分母操作の可能性:完全自動科学エージェントによる脅威 [cs.NI, eess.SY, cs.SY, cs.CL, cs.AI, cs.CY]目的:AI会議における分母操作という新たな脅威の分析
- AI研究の発展は加速しており,主要会議への投稿数も急増している。
- 会議の受理率を一定に保とうとする慣例が,構造的な脆弱性を生んでいる。
- 自動エージェントによる分母操作を抑制するための対策を検討する。
- 主要なAI会議では,受理率を安定的に維持しようとする中で,悪意のあるアクターがAIエージェントを用いて大量の低品質な論文を投稿する「エージェント的分母操作」のリスクが指摘されている。
- この操作は,低品質な論文の受理を目的とするのではなく,投稿数を増やし,査読能力を低下させることで,特定の高品質な論文の出版確率を高めることを意図する。
- この脅威の実現可能性を分析し,査読者の負担増加や査読品質の低下などの影響を評価するとともに,システムレベルでの政策変更の必要性を主張している。
NaiAD:LLM広告のためのデータ駆動型研究の開始 [cs.LG, cs.AI, cs.CY]目的:LLMネイティブ広告のための包括的なデータセット
- LLMの広告利用は収益性とユーザー体験の両立が課題であり,データに基づいた研究基盤の構築が不可欠である。
- 既存のLLMは,広告とユーザー体験のバランスが取れていない,または評価指標が不十分である可能性がある。
- LLM広告のユーザーと広告主双方の価値を最大化するためのデータセットと評価手法を確立すること。
- NaiADは,58,999件の広告埋め込み応答とユーザークエリから構成される初の包括的なデータセットである。
- NaiADを活用することで,ユーザーと広告主双方の価値を向上させつつ,それぞれの目的を独立して制御することが可能となった。
- 広告の統合における成功要因は,4つの明確な意味戦略に分類される推論経路に依存することが明らかになった。
大規模言語モデルのための検証者不要な強化学習:内生勾配ノルム報酬 [cs.LG, cs.AI]目的:大規模言語モデルの強化学習における報酬関数の設計
- 大規模言語モデルの性能向上には,ファインチューニング後の最適化が重要である。
- 従来の検証者付き強化学習は,タスクやドメインへの適応性が低いという課題がある。
- 検証者なしで,モデル自身の情報を用いて報酬を定義し,汎化性能を高める。
- 提案手法VIGORは,教師強制負対数尤度勾配の$\ell_2$ノルムを報酬に用いることで,モデルの自己整合性を評価する。
- 数学の問題解決ベンチマークにおいて,VIGORは既存のRLIFベースラインを上回り,ドメイン間の転移学習も可能であることを示した。
- Qwen2.5-7B-Baseモデルにおいて,数学とコードの精度をそれぞれ+3.31%,+1.91%向上させ,学習の安定性も改善した。
LLMのファインチューニングのための二重適応重み付けを用いたチームベースの自己対戦 [cs.CL, cs.AI]目的:LLMのアライメント改善
- LLMの性能向上には,大量の学習データが不可欠であり,高品質なデータ収集が課題となる。
- 自己教師あり学習では,合成データの質に依存しやすく,学習の不安定性やバイアスの増幅が問題となる。
- 合成データ品質への依存を軽減し,効率的な最適化を実現することでアライメントを改善すること。
- 提案手法TPAWは,現在のモデルと過去のチェックポイントが協力・競争するチームベースの枠組みを採用し,安定した学習を可能にする。
- 応答の重要度を調整する応答重み付けと,チームメンバーの貢献度を動的に調整するプレイヤー重み付けという二つの適応重み付けメカニズムを導入した。
- 実験結果から,TPAWは様々なベースモデルとLLMベンチマークにおいて,既存手法を安定して上回ることが示された。
適応KL制御とガウス分布に基づくカリキュラムサンプリングによる探索優先型方策最適化 [cs.AI]目的:LLMの数学的推論における方策最適化手法の改善
- 大規模言語モデルの数学的推論能力向上は,AI研究における重要な課題である。
- 既存の方策最適化アルゴリズムは,探索の制限やサンプル効率の低さが課題となっていた。
- 探索を促進し,学習効率を高めることで,数学的推論能力を向上させることを目指す。
- 提案手法EXPOは,既存手法GRPOと比較して,一貫して高い性能を示すことが確認された。
- AIME 2025 pass@32において,13.34%の絶対的な改善が認められ,63.33%から76.67%へと向上した。
- pass@32の改善幅がpass@1よりも大きいことから,EXPOが固定された推論コスト内でモデルの探索範囲を効果的に拡大していることが示唆される。
TeleResilienceBench:通信分野におけるLLM推論の回復力評価 [cs.IR, cs.DB, cs.LG, cs.SE]目的:大規模言語モデルの通信分野における推論回復力の定量化
- 通信分野では,高い精度に加え,現実的な状況下でのLLMの信頼性が不可欠である。
- 既存の評価は知識の網羅性を測る傾向にあり,推論能力の評価が不十分である。
- 中断された推論や誤った推論からの回復能力を評価し,改善に資する。
- TeleResilienceBenchは,通信分野の7つのサブドメインにおける推論回復力を定量化する。
- 最も性能の良いモデルでも,平均的な回復率は29.1%にとどまり,モデルの規模拡大だけでは回復力向上は期待できない。
- Nemotron-3-nano 4bは,Qwen3.5モデルを含む他のモデルを上回り,コストパフォーマンスに優れる。
推論時ツールコール剪定による効果的かつ効率的なツール統合推論 [cs.CL, cs.AI]目的:ツール統合推論の推論時における性能向上
- 大規模言語モデルの能力拡張において,外部ツールとの連携が重要視されている。
- ツール利用可能なLLMにおいて,推論時の誤ったツールコールが性能低下の原因となる。
- 誤ったツールコールの影響を軽減し,LLMが問題解決に陥るのを防ぐことを目指す。
- PruneTIRは,ツール統合推論においてPass@1を大幅に向上させる。
- 推論効率を改善し,LLMの動作コンテキスト長を短縮する。
- 成功トリガー剪定,停滞トリガー剪定・リサンプリング,再試行トリガーツール中断により効果を発揮する。
都市イメージネット:都市空間知覚のための大規模マルチモーダルデータセットと評価フレームワーク [cs.CV, cs.IR, cs.LG]目的:都市空間知覚に関する大規模なマルチモーダルデータセット及び評価基準
- 都市の形態や機能は社会活動に影響を与え,都市計画や社会科学の研究において重要である。
- 既存のデータセットは都市空間の多様性や社会的な文脈を十分に捉えられていない場合が多い。
- 都市空間に関するAIの知覚能力を評価し,都市研究に貢献できる基盤を構築すること。
- 本研究では,200万人以上のソーシャルメディア画像とテキストを含む「Urban-ImageNet」を構築した。
- 構築したデータセットを用いて,画像認識,画像とテキストの関連付け,インスタンスセグメンテーションの3つのタスクを評価した。
- 大規模なデータセットを用いることで,AIモデルの都市空間知覚能力が向上することを示した。
HAGE:強化学習駆動の重み付きグラフ進化によるエージェント的記憶の活用 [cs.DC, cs.FL, cs.RO, cs.AI]目的:エージェント的LLMにおける関係性に基づく記憶の活用方法
- LLMの性能向上には,過去の情報を適切に活用することが不可欠であり,記憶機構はその鍵となる。
- 既存の記憶機構は,静的な構造であり,関係性の強弱や文脈に応じた関連性を捉えきれない。
- 関係性の変化に対応可能な,動的な記憶構造を構築し,より効果的な情報想起を実現すること。
- HAGEは,関係性に着目したグラフ構造と強化学習を組み合わせ,記憶の検索と活用を最適化する。
- クエリに応じてグラフの重みを動的に変化させることで,関連性の高い情報へのアクセスを優先し,ノイズを抑制する。
- 実験結果から,HAGEは既存システムと比較して,長期間の推論精度と効率性の両面で優れていることが示された。
サブグループの公平性制約下における最適なポリシー選択 [cs.RO, cs.LG]目的:サブグループに対する公平性制約を満たすポリシーの中から,平均パフォーマンスが最も高いポリシーの特定
- 医療,公共政策など,重要な意思決定において,多様な集団に適用されるポリシーの選択は不可欠である。
- 集団全体での平均パフォーマンスだけでなく,各サブグループでのパフォーマンスを考慮する必要がある。
- サブグループごとの最低限のパフォーマンス閾値を満たすポリシーの中から最適なものを効率的に選択すること。
- 本研究では,SBFC問題に対するサンプル複雑度の理論的な下限を導出した。
- 新たに開発したT-a-S-CSアルゴリズムが,漸近的にこの下限を達成することを示した。
- 国際脳卒中試験を用いた実験により,既存手法と比較して大幅な効率向上を確認した。
LoopVLA:ビジョン言語行動モデルにおける反復的な洗練による十分性の学習 [cs.AI, cs.CV, cs.RO]目的:ビジョン言語行動モデルにおける表現の洗練,行動予測,および十分性の推定の同時学習
- ロボット操作は精密な制御に不可欠な幾何学的情報を含むため,効率的な計算が重要である。
- 既存モデルは,深層表現を最適とみなすため,低レベルの情報を失い,無駄な計算となる場合がある。
- 表現が行動予測に十分であるかを判断し,不要な計算を削減すること。
- LoopVLAは,マルチモーダルトークンを反復的に洗練し,各ステップで行動候補と十分性スコアを出力する。
- パラメータを45%削減し,推論スループットを最大1.7倍向上させながら,タスク成功率を既存モデルと同等または上回る。
- 十分性の学習に直接的な教師信号がないため,中間的な信頼度スコアをアクション品質に合わせる自己教師あり分布整合目的を導入する。
構文から意味へ:SMILES翻訳モデルにおけるキラリティーの創発の解明 [cs.LG]目的:SMILES翻訳モデルにおけるキラリティー学習のメカニズム
- 化学表現学習と化学分野における機械学習の発展において,分子構造の意味理解は重要である。
- 既存の化学言語モデルは,キラリティーのような複雑な化学的特性の識別において課題を抱えている。
- 本研究は,SMILES翻訳モデルにおけるキラリティー情報の学習プロセスを解明し,そのメカニズムを明らかにする。
- Pan-COREモデルの学習過程において,キラリティー識別精度が長期的な停滞の後,急激に向上する現象が再現性をもって観察された。
- この現象は,モデルの容量だけでは説明できず,キラリティー制約の複雑さが原因である可能性が示唆された。
- エンコーダーに注目した分析により,キラリティー情報の表現が一時的に不安定化し,再構築されるメカニズムが明らかになった。
高次元データからの特徴選択のための新規GPU Borutaアルゴリズム [cs.LG, cs.AI]目的:高次元データからの特徴選択
- データ分析において,特徴選択は重要な前処理であり,モデルの性能向上に不可欠である。
- CPUベースの特徴選択アルゴリズムは計算コストが高く,大規模データセットへの適用が困難である。
- GPUの並列処理能力を活用し,大規模データセットにおける特徴選択の効率化を目指す。
- 提案するGPU加速アルゴリズムは,計算効率を大幅に向上させ,元のBorutaアルゴリズムと同等の特徴選択精度を維持する。
- 不純度減少に基づくバージョンは,一部の特徴の重要度を過大評価する傾向があることが観察された。
- GPU上でのBoruta特徴選択は,大規模データ分析における効果的かつ費用対効果の高いソリューションとなり得る。
エージェントベースモデルを用いた合成電子カルテデータ生成:大量傷病者発生時の機械学習ロバスト性の評価 [cs.LG]目的:大量傷病者発生時における機械学習モデルのロバスト性評価
- 医療における機械学習活用は進むが,実運用環境の変化への対応が課題である。
- 実際の電子カルテデータでは,災害のような特殊な状況を網羅的に評価できない。
- エージェントベースモデルで合成データを生成し,災害時の機械学習性能低下を評価する。
- 機械学習モデルは,通常時と比較して,災害時シナリオ下でリコールが低下する傾向が見られた。
- リコール低下により,入院期間延長患者の見逃しが増加することが確認された。
- エージェントベースモデルによる合成データ生成は,機械学習の安全な医療システムへの導入を支援する。
SDTalk:構造化された顔面事前知識と二分岐モーションフィールドによる汎用的なガウス型トークングヘッド合成 [cs.CL, cs.CV, cs.AI]目的:汎用的なガウス型トークングヘッド合成のための手法
- リアルタイムなトークングヘッド合成は,コンピュータビジョンの重要な課題である。
- 既存手法は特定の個人に依存するため,個人を跨いだ汎化性能が低い。
- 未知の個人に対しても,個別学習や微調整なしに適用可能な手法を開発する。
- SDTalkは,構造化された顔面事前知識と二分岐モーションフィールドを導入することで,高画質かつ効率的なトークングヘッド合成を実現した。
- 提案手法は,単一画像からの完全な頭部再構成と,詳細な表情および唇の同期性を向上させた。
- 実験により,SDTalkが既存手法よりも優れた視覚品質と推論効率を示すことが確認された。
G-Zero:ゼロデータからの無限生成のための自己対戦 [cs.LG, cs.AI, cs.CL, cs.ET]目的:無限生成のための自己進化型LLMの枠組み
- LLMの性能向上は重要だが,外部評価への依存が限界となる場合がある。
- 外部LLMを評価者として用いる場合,性能のボトルネックや報酬ハッキングが発生する。
- 内部分布力学のみから監督信号を得て,外部評価者の限界を超える自己進化を目指す。
- G-Zeroは,検証者不要の自己進化型フレームワークであり,継続的な自己改善を可能にする。
- Hint-$\delta$という内部報酬を用いることで,生成モデルの盲点を効率的に学習する。
- 理想的なDPO条件下において,G-Zeroは最適解に近い性能を示すことが理論的に保証される。
タンパク質間相互作用予測のための相互作用事前知識の学習:モデルに依存しないアプローチ [cs.AI, q-bio.QM]目的:タンパク質間相互作用予測における相互作用事前知識の学習
- 細胞機能や疾患メカニズムにおいて,タンパク質間相互作用は基礎となる。
- 既存の手法は強力なタンパク質表現学習に注力するが,分類ヘッドの設計を怠っている。
- 生物学的な「L3ルール」に基づく,情報に基づいたPPI分類器を設計すること。
- 提案手法L3-PPIは,タンパク質表現に基づき仮想的なL3パスを含むプロンプトグラフを生成する。
- L3-PPIは,タンパク質埋め込みペアの分類を生成されたプロンプトグラフ上のグラフレベル分類タスクに再構成する。
- 実験の結果,L3-PPIは既存の高度な競合手法を凌駕する性能向上を達成した。
テンソル積表現プローブが線形方向における共通構造を明らかにする [cs.LG]目的:言語モデルにおける線形方向の共通構造の解明
- 言語モデルの性能向上には,内部表現の理解が不可欠である。
- 線形方向のみでは,言語モデルの構造的関係性を捉えきれない。
- テンソル積表現プローブを用いて,線形方向の背後にある構造を明らかにすること。
- オセロのボード状態表現において,線形デコード可能性に加え,テンソル積表現の存在が確認された。
- テンソル積表現プローブは,ボード状態表現を構成する,平方埋め込み,色埋め込み,結合行列へと分解された。
- TPRプローブの重みに,ボードの構造と一致する幾何学的特徴が見られ,線形プローブはTPRプローブのパラメータから直接復元可能であった。
コンソリデーション・拡張演算子メカニズム:適応的学習のための統一的フレームワーク [cs.LG, math.OC, stat.ML]目的:適応的学習におけるコンソリデーションと拡張の演算構造の精密化
- 知識獲得と更新を繰り返す適応学習は,機械学習の重要なパラダイムである。
- コンソリデーションと拡張のタイミングや方法が学習の安定性や効率に影響する。
- 学習の収束判定と停止基準を明確化し,よりロバストな学習システムを構築すること。
- 提案されたフレームワーク「演算子メカニズム」は,コンソリデーションと拡張の非可換性を定量化する「オーダーギャップ」を用いる。
- オーダーギャップは学習軌跡から計算可能であり,リアルタイムな制御信号として機能する。
- オーダーギャップに基づく停止則は,ノイズ環境下を含む様々な条件下で理論的な保証を持つ。
生成トークンの真実は,中間にある [cs.LG, cs.CL]目的:言語モデルの内部状態を反映する表現
- 言語モデルの理解と制御は,AI技術の発展に不可欠である。
- 生成されたトークンにおける情報の分散が不明確である。
- 生成トークン間の情報分布を定量的に評価し,表現力を高める。
- トークンを逐次生成する言語モデルにおいて,平均プーリングが単一トークンよりも意味のある表現を生み出す。
- 平均プーリングによる改善は,情報が単一の位置に局在せず,生成トークン全体に分散していることを示唆する。
- 生成トークンから得られた表現は,プロンプトトークンからの表現を上回り,生成プロセス全体の整合性が見られる。
触覚LDM:テキストから触覚振動生成のための拡散モデル [cs.HC, cs.AI]目的:テキストから触覚振動を生成する手法の開発
- メタバースやゲームなど,インタラクティブな体験を豊かにする触覚技術の重要性が高まっている。
- 既存手法では,テキストの意味を正確に反映した,高品質な振動生成が困難であった。
- 拡散モデルを用いて,テキストの意味に沿った自然で多様な触覚振動を生成することを目的とする。
- 提案手法HapticLDMは,テキストの意味と振動の整合性を向上させ,よりリアルな触覚体験を実現した。
- データ処理戦略により,微細な振動の動的変化を高精度にモデル化することが可能となった。
- ユーザースタディの結果,HapticLDMは触覚デザインのワークフローを簡素化し,多様で繊細な振動を生成することが示された。
個人識別情報の抽出のための多言語モデル GLiNER2-PII [cs.CL, cs.AI]目的:個人識別情報の抽出
- データ処理システムにおいて,個人情報の信頼性確保が重要である。
- 個人情報の抽出は,多様性,地域性,文脈依存性から困難である。
- 共有可能な注釈データ不足とプライバシーリスクを解決する。
- GLiNER2-PIIは,42種類の個人情報エンティティタイプを認識する。
- SPYベンチマークにおいて,他のシステムと比較して最高のF1スコアを達成した。
- モデルはHugging Faceで公開され,今後の研究と実用化を支援する。
多目的最適化とPINN学習のためのチェビシェフ中心に基づく方向選択 [cs.LG, math.OC]目的:PINN学習における方向選択手法
- 偏微分方程式の数値解法において,PINNは有望な手法であるため,その学習効率向上は重要である。
- PINNの学習は,複数の損失項を同時に最適化する必要があり,その方向選択が困難であるという課題がある。
- チェビシェフ中心問題として方向選択を定式化することで,より効率的で解釈可能な学習手法を開発する。
- 提案手法は,双対錐におけるチェビシェフ中心問題を解くことで,方向を選択する。
- この定式化により,既存手法が目指していた望ましい特性が,単一の幾何学的基準から自然に導出される。
- 複数のPINNベンチマークテストにおいて,提案手法が良好な性能を示すことが確認された。
ミリ波センシングのためのスパイクニューラルネットワークにおける周波数整合 [cs.NE]目的:ミリ波センシングにおけるスパイクニューラルネットワークのメカニズムとデータ整合性
- ミリ波センシングは,プライバシーを保護しつつ常時エッジ環境で知覚を実現する技術であり,重要性が増している。
- ミリ波センシングの計測データは疎で,時間的に不規則であり,高周波ノイズの影響を受けやすいという課題がある。
- 本研究は,スパイクニューラルネットワークの特性を活かし,ノイズ抑制と効率的な処理を実現することを目指す。
- 提案手法により,ミリ波データセットにおける平均テスト精度が6.22%向上した。
- 理論上のエネルギー消費量は,従来の人工ニューラルネットワークと比較して3.64倍削減された。
- LIFダイナミクスの帯域幅をデータの識別スペクトルコンテンツに合わせることで,性能向上が確認された。
幾何学的4次元スティッチングによる,実世界に基づく4次元生成 [cs.CV, cs.AI, cs.LG]目的:実世界に基づく4次元生成における幾何学的整合性の向上
- 4次元生成は,現実世界のシーンを再現する上で重要であり,新たな視点からの体験を可能にする。
- 既存手法では,生成されたコンテンツに幾何学的な不整合が生じやすく,最適化にもコストがかかる。
- 幾何学的な整合性を明示的に確保し,効率的な4次元シーン生成を実現することを目指す。
- 提案手法である幾何学的4次元スティッチングは,不足している幾何学的領域を特定し,幾何学的に整合性の取れた4次元スティッチングで補完する。
- 単一のNVIDIA RTX 5090 GPUで,ワンステップのシーン拡張に10分未満で4次元シーン表現を構築できる。
- この明示的な4次元スティッチングは,4次元メッシュの反復的な拡張や,4次元シーンの編集をサポートする。
人間の抽象化学習における将来予測的圧縮 [cs.AI, cs.LG, cs.NE]目的:人間の抽象化学習における将来予測的圧縮のメカニズム解明
- プログラム合成において,再利用可能な抽象化を学習することは重要である。変化する状況下での学習能力向上に繋がる。
- 既存手法は過去のタスク分布に基づいており,非定常的な環境への対応が課題であった。
- 将来のタスクを予測し圧縮することで,より効率的な抽象化学習を実現することを目指す。
- 実験の結果,人間の抽象化行動はタスク生成過程の潜在的な非定常構造に敏感であることが示された。
- この行動は将来予測的圧縮と一致し,既存の後ろ向き圧縮アルゴリズムでは再現できない。
- LLMベースのプログラム合成における誘導バイアスでも説明できないことが確認された。
オプティマイザー誘導モード連結性:AdamWからMuonへ [cs.CL, cs.AI, cs.LG, math.OC]目的:オプティマイザーが誘発するモード連結性の解析
- 深層学習モデルの汎化性能向上には,損失関数の形状理解が不可欠である。
- モード連結性は重要だが,オプティマイザーの影響は十分に解明されていない。
- オプティマイザーが誘発する正則化がモード連結性に与える影響を明らかにすること。
- 2層ReLUネットワークにおいて,特定のオプティマイザー(AdamW, Muon等)は十分な幅を持つ場合,連結な解空間を形成する。
- 幅が広い場合,異なるオプティマイザーの領域は正則化によって分離または重複する。
- GPT-2の事前学習では,同一オプティマイザー間はスペクトルを維持し,異なるオプティマイザー間は滑らかな遷移を示すことが確認された。
注意の漂流:自己回帰的投機的デコーディングモデルが学習するもの [cs.LG, cs.AI]目的:LLM推論の高速化手法である投機的デコーディングにおける注意機構の振る舞い
- LLMの高性能化に伴い,推論速度の向上が重要な課題となっている。
- 投機的デコーディングモデルは,テンプレートの変更や長文入力に対して性能が低下しやすい。
- 注意機構の漂流現象を抑制し,より安定した投機的デコーディングを実現すること。
- 研究により,ドラフターモデルが生成するトークンが進むにつれて,注意がプロンプトから自身の生成トークンへとシフトする「注意の漂流」が確認された。
- この漂流は,ドラフターの隠れ状態の大きさが連鎖の深さとともに単調増加することに起因することが示された。
- 隠れ状態の正規化などのアーキテクチャ変更により,テンプレートの変更や長文入力に対する性能が最大で2倍向上することが確認された。
リーマン多様体上のグラフのグラフ基盤モデル学習 [cs.LG]目的:グラフ基盤モデルの学習
- グラフ構造データは,社会や科学の様々な分野で普遍的に存在する。
- 既存のグラフ基盤モデルは固定長のサブグラフサンプリングを用いるため,多様なタスクに対応できない。
- 異なるスケールでの構造的文脈を考慮した基盤モデルを構築し,汎化性能を向上させる。
- 提案手法R-GFMは,リーマン多様体上のグラフのグラフを用いて,多スケールな構造情報を学習する。
- 理論的分析により,R-GFMが固定スケールモデルよりも構造的ドメイン汎化誤差を低減することが示された。
- 様々なデータセットでの実験により,R-GFMが最先端の性能を達成し,最大49%の相対的な改善が見られた。
大規模基盤モデル学習のための整合的かつブローカーレスなデータプレーン,Lakestream [cs.DC, cs.LG]目的:大規模基盤モデル学習のためのデータプレーンの構築
- 近年,大規模基盤モデルの学習が注目されており,効率的なデータパイプラインが不可欠となっている。
- 既存システムは,耐障害性やバッチレベルのセマンティクス表現の欠如といった課題を抱えている。
- Lakestreamは,これらの課題を解決し,安定したデータ供給と耐障害性を提供する。
- Lakestreamは,トランザクション型グローバルバッチ(TGB)を導入し,ACIDストレージの整合性を活用することで,高効率な学習を実現した。
- 分散学習における耐障害性を確保し,既存のコローケート型データローダーの性能を上回った。
- メッセージキューであるApache Kafkaと比較して,データ取り込みスループットを向上させ,低レイテンシを実現した。
継続的ハーネス:自己改善型基盤エージェントのためのオンライン適応 [cs.LG, cs.AI]目的:自己改善型基盤エージェントのためのオンライン適応メカニズム
- 近年,汎用AIモデルの能力向上は目覚ましいが,複雑な環境下での長期的な意思決定は課題である。
- 既存のAIエージェントは,環境変化への適応や自己改善が難しく,人間による介入が必要となる場合が多い。
- 本研究は,人間介入なしにエージェントが継続的に自己改善し,より高度なタスクを遂行することを目指す。
- Gemini Plays Pokemonの実験で,AIがポケモンBlue, Yellow Legacy(ハードモード),Crystalをクリアした。
- 継続的ハーネスは,環境インターフェースのみから開始し,プロンプト,サブエージェント,スキル,メモリを自己改善する。
- ポケモンRedとEmeraldにおいて,継続的ハーネスはボタン操作回数を大幅に削減し,専門家レベルのハーネスに匹敵する性能を発揮した。
アンカー誘導ハイパーグラフ凝縮と二重レベル識別 [cs.RO, cs.PF, cs.SY, eess.SY, cs.LG]目的:大規模ハイパーグラフの効率的な学習
- ハイパーグラフは複雑な関係性を表現可能であり,様々な分野で重要性が増している。
- 大規模ハイパーグラフの学習には計算コストが高く,実用上の課題となっている。
- ハイパーグラフ凝縮により,計算コストを削減しつつ,有用な情報を保持することを目指す。
- AHGCDDは,構造生成と特徴学習を同時に最適化することで,既存手法よりも凝縮構造の精度を向上させた。
- 熱核PageRankに基づくノード初期化とアンカー誘導ハイパーエッジ合成により,効率的な凝縮を実現した。
- 二重レベル識別損失関数を用いることで,冗長なHNN学習を回避し,実用的な性能を維持した。
機械的推論とエージェント的推論の組み合わせによるMoveの仕様推論 [cs.PL, cs.AI, cs.LO, cs.SE]目的:Move Proverのための仕様推論ツール
- スマートコントラクトの安全性確保は重要であり,Moveはそのための形式検証をサポートする。
- Moveでの形式検証には仕様記述が必要だが,手動での記述は手間がかかる。
- AIを活用し,仕様記述の自動化と形式検証の効率化を目指す。
- 本研究では,Moveのbytecodeに対する最弱事前条件(WP)解析と,Claude Codeのようなエージェント的コーディングCLIを組み合わせた。
- WP解析が機械的な基盤を提供し,AIはWPが苦手とするループ不変式や高レベルな仕様の推論を担当する。
- Move Proverが仕様の妥当性を検証し,エージェントは検証成功までヒント生成と仕様の改良を繰り返す。
逐次意思決定におけるメカニズム事前知識の価値 [cs.LG]目的:逐次意思決定におけるメカニズム事前知識の価値の評価
- 意思決定は,科学技術,医療,社会システムなど,あらゆる分野で不可欠である。
- データ依存性が高く,効率的な学習が難しいという課題が存在する。
- メカニズム事前知識を導入することで,データ効率を向上させ,より安全な意思決定を実現すること。
- メカニズム事前知識の価値を,漸近的および初期学習の段階で評価するための指標を導入した。
- 漸近的段階では,ベイズ後悔が残差エントロピーに依存し,理論的なサンプル複雑性を低減できることを示した。
- 初期学習段階では,誤った事前知識がもたらすペナルティの下限を確立し,物理に基づいた事前知識の重要性を示した。
二つの時計とイノベーションの窓:生成モデルがルールを学習する時期と方法 [cs.LG, cs.AI, cs.CC, stat.ML]目的:生成モデルにおけるルール学習の時期とメカニズム
- 生成モデルの性能向上は,様々な応用分野において不可欠である。
- 有限なデータで学習した場合,生成モデルは真の分布ではなく,訓練データの分布に収束しやすい。
- 生成モデルが真のルールを学習し,イノベーションを生み出す条件を特定すること。
- 生成モデルは,ルールを学習し始める時期(τrule)と訓練サンプルを再現し始める時期(τmem)という二つの時計を持つことが示された。
- イノベーションの窓は,この二つの時期の間の期間であり,データセットのサイズやルールの複雑さに依存して変化する。
- 拡散モデルと自己回帰モデルの両方で同様の構造が確認され,学習スコアの最適化風景における変化が明らかになった。
経路生成のためのトポロジーを意識したブロック拡散言語モデルTrajDLM [cs.LG]目的:高精度なGPS軌跡の合成
- 交通,都市計画,シミュレーション等に応用が期待され,プライバシー保護の観点からも重要性が高まっている
- 既存モデルは,効率性と道路ネットワークの忠実性の間でトレードオフの関係にあった
- 効率性と道路ネットワークの忠実性を両立した軌跡生成手法を提案し,その有効性を検証する
- TrajDLMは,道路ネットワークのトポロジーを考慮しつつ,高速な軌跡生成を可能にする
- 3つの都市規模データセットにおいて,詳細な局所的類似性指標で高い性能を発揮し,従来手法の最大2.8倍の速度を実現した
- 未知の交通手段を含むドメイン間でのゼロショット転移性能も高く,ブロック単位の離散拡散の有効性を示した
タグベースの事例選択によるFew-shot学習を用いた医療事故の原因因子と予防策の生成 [cs.IR, cs.CL, cs.AI]目的:医療事故の原因因子と予防策の生成
- 医療分野では,LLMの信頼性が重要であり,特に事故報告からの臨床的知見の生成において重要である。
- 既存手法では,不適切な出力や安全性フィルターの作動といった課題が存在する。
- 人間が解釈可能なデータセットタグに基づいた事例選択により,生成の精度と安定性を向上させる。
- タグベースのアプローチが,GPT-4oおよびLLaMA 3.3において,最も高い精度と安定した生成性能を示した。
- 類似度ベースの選択は,意図しない出力や安全性フィルターの作動を引き起こすことが多かった。
- データセットタグに基づいた事例選択が,臨床LLMアプリケーションにおける生成の精度と安定性を改善する可能性が示唆された。
LLMを用いた音声による心理的危機評価 [cs.CL, cs.AI]目的:心理的危機レベルの自動分類
- メンタルヘルス不調者への支援は重要であり,迅速な対応が求められる。
- 現状の評価は担当者の経験に依存し,人的資源の制約も存在する。
- LLMを活用し,音声からの感情情報を考慮した危機評価の自動化を目指す。
- 提案手法では,音声の非言語的感情情報をテキストに注入することで,LLMの推論能力を向上させた。
- 診断推論チェーン生成を補助タスクとして組み込むことで,分類性能を改善した。
- 5分割交差検証の結果,マクロF1スコア0.802,正解率0.805を達成した。
単一ステップ編集応答から多段階分子最適化へ [cs.CL, cs.RO, cs.AI]目的:指定された特性変化を実現するための分子編集
- 分子最適化は,新薬開発や材料設計において重要な役割を果たす分野である。
- 類似構造の分子データが不足しており,逐次的な編集選択が困難である。
- 外部評価器への依存を減らし,効率的な最適化経路を見出すことを目指す。
- 本研究では,単一ステップの分子編集応答予測モデルと多段階プランナーを組み合わせたSMER-Optを提案する。
- SMER-Optは,編集アクションに関する方向性評価モデルを学習し,制約を考慮した計画を可能にする。
- 弱関連の分子ペアから編集単位を抽出し,プロセスの水準での指導を行うことで,再利用可能なアクションプリミティブを獲得する。
認知の断絶を乗り越えて:6Gエージェント型AI-RANのための統一メモリパラダイム [cs.NI, cs.AI]目的:6Gにおけるエージェント型AI-RANを実現するための統一メモリパラダイム
- 6Gでは,ネットワークが自律的に進化するため,知的な無線アクセスネットワークが不可欠である。
- 既存のネットワーク構成では,物理層の状態が圧縮され,AIエージェントの推論能力が制限されている。
- 本研究は,セマンティックなボトルネックを解消し,AIエージェントがリアルタイム性と長期的な文脈を両立することを目指す。
- 本研究では,生物学的メモリ階層をヘテロジニアスコンピューティングファブリックにマッピングする統一メモリパラダイムを提案する。
- これにより,センシングと推論の境界が溶解し,マイクロ秒レベルの反射,ミリ秒レベルの推論,長期的な進化が共有状態となる認知的な連続体を実現する。
- メッセージパッシングをゼロコピー可視性に置き換えることで,AIエージェントが真に自律的な6Gネットワークを構築するための能力を向上させる。
TimeClaw:探索的実行学習を用いた時系列AIエージェント [cs.AI]目的:時系列データにおける探索的実行学習の枠組み
- 金融や気象など,予測,監視,意思決定に時系列分析が不可欠である。
- 既存システムは,現在の問題解決に集中し,探索的実行から学習が不十分である。
- 探索的経験を比較・蒸留・再利用することで,システム性能の向上を目指す。
- TimeClawは,探索,比較,蒸留,再注入の4段階ループを通じて,探索的実行を再利用可能な階層的蒸留経験へと変換する。
- 評価実験では,金融と気象予測に関する17のタスクにおいて,TimeClawがベースラインと比較して一貫した改善を示す結果が得られた。
- 科学システムにおいて,ボトルネックは実行時能力だけでなく,探索的経験の比較・蒸留・再利用の方法にあることが示唆された。
二値フィードバックによるLLMのパーソナライズ:嗜好修正最適化フレームワーク [cs.CL, cs.AI]目的:LLMパーソナライズのための嗜好修正最適化
- LLMは汎用性が高いが,個々のユーザーの嗜好に合わせることで,より実用的な価値を提供できる。
- 既存手法は単一ユーザーの履歴に偏りがちで,ユーザー間の差異を十分に考慮できていない。
- ユーザー間の差異を捉え,LLMの出力を個々の嗜好に最適化することを目的とする。
- 提案手法C-BPOは,ターゲットユーザーデータを正例,他ユーザーデータを負例として扱うことで,ユーザー間の差異を捉える。
- Positive-Unlabeled学習理論に基づき,共有知識の誤ペナルティを軽減する「正例バイアス」の除去を行う。
- 様々なパーソナライズタスクとLLMでC-BPOがベースラインを上回り,その有効性が示された。
マルチチャンクQ値推定による適応的行動チャンキング [cs.LG, cs.AI]目的:行動チャンキングの適応的制御
- 模倣学習や強化学習において,効率的な行動決定が重要であり,行動チャンキングはその一手法である。
- 従来の行動チャンキングは固定長であり,最適な長さを状態やタスクごとに変化させることが困難であった。
- 状態に応じて最適なチャンク長を動的に選択することで,学習効率と汎化性能の向上を目指す。
- 提案手法ACHは,Transformerベースのアーキテクチャを用いて,様々なチャンク長における行動価値を同時に推定する。
- ACHは,34の複雑なタスクにおいて,固定長ベースラインと比較して一貫して優れた性能を示した。
- これにより,複雑な環境下での学習効率と汎化性能の向上が確認された。
ピクセルフローキャスト:潜在空間を用いないピクセル平均フローによる短期降水予測 [cs.CV, cs.LG, cs.MA]目的:短期降水予測の精度と推論効率の向上
- 気象災害の早期警戒に不可欠であり,高精度な予測が求められている。
- 拡散モデルは推論に時間がかかり,実用化が困難である。
- 潜在空間圧縮を用いず,高精度かつ高速な降水予測を実現すること。
- ピクセルフローキャストは,既存手法と比較して予測精度と推論効率の両方で優れている。
- 特に長期間の予測において,その効果が顕著に示された。
- 提案手法は,実運用への導入可能性が高いことが示唆された。
不均衡学習における損失再重み付けの再考:逆問題としての捉え方とニューラル崩壊点からの考察 [cs.LG, cs.AI]目的:不均衡学習のための損失再重み付け戦略
- データセットのクラス分布の不均衡は,機械学習モデルの性能に大きな影響を与える。
- 既存の再重み付け戦略は経験則に頼ることが多く,明確な目標設定が不足している。
- ニューラル崩壊の観点から理想的な損失分布を導き,それを目標とする再重み付け手法を提案する。
- 提案手法は,損失の不均衡係数を効果的に低減し,ニューラル崩壊幾何学との整合性を高める。
- 様々なデータセットにおいて,提案手法は既存の強力な不均衡学習手法を上回る性能を示す。
- 損失再重み付けを逆問題として捉え,動的にクラス重みを推論することで,理想的な目標に適合させる。
誘導ストリーミング確率的補間方策 [cs.RO, cs.AI]目的:生成ロボット方策の動的目標への誘導
- ロボットの自律行動において,動的な状況への適応は不可欠である。
- 既存手法は遅延が大きく,リアルタイムでの嗜好合わせや障害物回避が困難。
- 遅延を抑え,リアルタイムで状況に適応できる誘導方策を開発する。
- 本研究では,確率的補間における最適な誘導項を導出し,目標分布からのサンプリングを保証する。
- ストリーミング構造と組み合わせることで,高速かつ反応性の高い制御を実現した。
- 実証実験により,従来のchunkベースの方策と比較して反応性が大幅に向上することが示された。
群れの技能:協調エンジニアリングのための移植可能で自己進化するマルチエージェントシステム仕様 [cs.CL, cs.AI]目的:マルチエージェント協調の仕様化と体系的な改善
- AI技術が多人数エージェント協調へ移行しており,その実現方法が重要課題となっている。
- 既存の協調プロトコルは特定のフレームワークに依存し,共有や自動改善が困難である。
- フレームワークに依存せず,エージェント群が協調戦略を自己進化させることを目指す。
- Swarm Skillsは,マルチエージェントのワークフローを配布可能な資産として定義する仕様である。
- 自己進化アルゴリズムにより,成功事例から新たな技能を抽出し,既存の技能を継続的に改善する。
- フレームワークに依存しない移植性と,エージェント群の自律的な協調戦略進化を実証した。
状態によるルーティング,トレースからの回復:失敗を意識したマルコフルーティングによるマルチエージェント時空間推論 [cs.AI, cs.MA]目的:異種エージェント間のルーティング戦略
- 複雑な時空間推論には多様な専門家が必要であり,その連携が重要となる。
- 既存システムではルーティングが暗黙的で,失敗時の回復が困難である。
- 失敗の種類に応じたルーティングにより,より堅牢な時空間推論を実現する。
- 失敗時のトレースを学習データに含めることで,エラー状態におけるルーティングポリシーの表現力が向上する。
- 3つの時空間ベンチマークと8つの基盤LLMにおいて,STARは複数のベースラインを上回り,特に標準ルーティングからの逸脱時に顕著な改善が見られた。
- 失敗をタイプ別に意識したルーティングが,単なる専門家構成だけでなく,性能向上に重要な役割を果たすことが示された。
LLMエージェント市場における戦略的搾取:eコマース信頼性のためのシミュレーションフレームワーク [cs.AI]目的:LLMエージェント市場における戦略的搾取の分析
- 経済学における行動研究の重要性が高まる中,LLMエージェントは新たなシミュレーション手法を提供する。
- eコマース市場における情報非対称性が存在し,売り手の品質情報の隠蔽や買い手の判断の難しさがある。
- LLMエージェントの戦略的な行動を分析し,eコマースにおける信頼性を向上させる方法を探る。
- LLMエージェントは,従来の市場においてレピュテーションに基づくガバナンスの弱点を自律的に利用する。
- 保証執行は,欺瞞を減らし,戦略的思考を再構築する効果が認められた。
- LLMエージェントシミュレーションは,制度が管理する自律市場の研究ツールとしての可能性を示した。
奇妙ではない愛:言語モデルと生成文法理論は,見かけ以上に両立しうる [cs.CL, cs.AI]目的:言語モデルを用いた理論検証の可能性
- 言語学において,言語の獲得や理解のメカニズム解明が重要である。
- 生成文法と用法に基づいた言語理論は,対立すると見なされることが多い。
- 言語モデルが両方の理論を検証できる可能性を示唆する。
- 本研究は,言語モデルが形式構造に基づいた生成文法理論も具現化できると主張する。
- これにより,言語モデルで検証可能な理論の範囲が広がる。
- 用法に基づいた理論と生成文法理論の間の和解を促す可能性が示唆される。
