arXiv雑要約
AI - 2026/04/06 公開
Holos:エージェントWebのためのウェブ規模LLMベースマルチエージェントシステム [cs.AI, cs.MA]目的:エージェントWebにおける,自律的相互作用と共進化を可能にするマルチエージェントシステム
- 大規模言語モデル(LLM)の進化に伴い,汎用人工知能(AGI)実現への重要なステップとなり得る
- 既存のLLMベースマルチエージェントシステムは,スケーラビリティ,協調性,価値分散の問題に直面している
- Holosは,長期的な生態系としての持続可能性を追求し,これらの課題解決を目指す
- Holosは,効率的なエージェント生成・ホスティングエンジン,市場主導のオーケストレーター,内生的な価値循環を含む五層アーキテクチャを採用している
- このアーキテクチャは,マイクロレベルの協調性とマクロスケールの創発を繋ぐことで,自己組織化されるAgentic Webの基盤を構築する
- Holosは公開されており,大規模エージェントエコシステムの研究と開発のためのリソース及びテストベッドを提供する
3D離散亀裂・基質テンソルアップスケーリングのための畳み込みサロゲート [cs.LG, cs.NA, math.NA]目的:3次元離散亀裂・基質(DFM)シミュレーションにおける等価な水理伝導率テンソルの予測
- 地下水流モデリングにおいて,亀裂による空間的な異質性が重要であり,その正確な評価が求められる。
- 詳細なDFMシミュレーションは計算コストが高く,特に反復計算が必要な場合に問題となる。
- 計算コストを削減するため,多段階モンテカルロ法と数値同質化を組み合わせ,効率的なアップスケーリングを実現する。
- 訓練されたモデルは高い精度を示し,ほとんどのテストケースで正規化二乗平均平方根誤差が0.22以下であった。
- サロゲートに基づくアップスケーリングは,精度を維持しながら計算コストを大幅に削減し,GPU上では100倍以上の高速化を達成した。
- 数値的に同質化された伝導率とサロゲート予測を比較することで,実用的な適用可能性が示された。
現実世界データからの反事実的患者経過生成 [cs.LG]目的:反事実的患者経過の生成
- 個別化医療やin silico試験への応用が期待され,医療分野における重要な研究課題である。
- 反事実的シミュレーションを実現するための方法論的な制約が存在する。
- 現実世界データを用いて,臨床的に妥当な反事実的経過を生成し,シミュレーションの基盤を確立すること。
- 30万人以上の患者データと4億件の患者経過記録を用いて学習した自己回帰生成モデルが,臨床的に妥当な反事実的経過を生成できることが示された。
- 2023年のCOVID-19入院患者に対し,年齢,CRP,クレアチニンを変化させたシミュレーションで,年齢が高いほど,CRPとクレアチニンが高いほど,入院死亡率が上昇した。
- CRPが高いシミュレーションではレムデシビル処方が増加し,腎機能が低下したシミュレーションでは減少した。これらの結果は,既知の臨床パターンを再現している。
LiME:効率的なマルチモーダルマルチタスク学習のための軽量な専門家混合 [cs.LG, cs.CL, cs.CV]目的:効率的なマルチモーダルマルチタスク学習のためのLiMEという手法
- 近年,複数のタスクを同時に学習するマルチタスク学習の重要性が高まっている。
- 既存のMoE-PEFT法は,専門家数が増加するとパラメータ数も線形に増加する。
- LiMEは,軽量なモジュレーションにより専門家の特殊化を実現し,パラメータ数を削減する。
- LiMEは,専門家ごとにアダプターを複製する代わりに,共有のPEFTモジュールと軽量な専門家ベクトルを使用する。
- 実験の結果,LiMEはMMT-47ベンチマークにおいて,従来法と同等またはそれ以上の性能を,より少ない学習パラメータ数と高速な学習時間で達成した。
- LiMEは,既存の表現を活用したゼロパラメータルーティングを導入し,ルーターパラメータの学習を不要とした。
SIEVE:自然言語からの効率的なパラメトリック学習 [cs.LG, cs.CL]目的:自然言語からの効率的なパラメトリック学習手法
- 言語モデルの適応には文脈が重要であり,その性能向上に寄与する。
- パラメトリック学習は大量のデータが必要で,高品質なデータや検証器に依存する。
- 少ないサンプルで自然言語からの効率的なパラメトリック学習を実現すること。
- SIEVEは,文脈を分解可能な洞察を利用した新しい合成データ生成パイプラインSIEVE-GENを用いる。
- わずか3つのクエリ例で,既存の文脈蒸留手法を上回る性能を示す。
- 推論設定やカスタムドメイン,RuleArena,One Book翻訳タスクで有効性が確認された。
マスク拡散言語モデルにおけるモデルスケジュール:高速化のための重要度の異なるノイズ除去ステップ [cs.LG, cs.CL]目的:マスク拡散言語モデルのサンプリング高速化
- 言語モデルの性能向上は自然言語処理の発展に不可欠であり,その効率化が求められている。
- マスク拡散言語モデルは計算コストが高く,特にノイズ除去ステップの回数が課題となっている。
- ノイズ除去ステップにおけるモデルスケジューリングにより,計算量を削減しつつ性能を維持すること。
- 拡散過程の初期および終盤のステップは,より小さなモデルへの置き換えに対して頑健であることが示された。
- この結果により,計算量の最大17%削減が可能となり,生成パープレキシティへの影響は軽微である。
- 拡散過程の中間ステップが最も重要であり,スケジュール戦略の鍵となることが示唆された。
結果重視のステップのためのプロセス報酬によるLLMの推論 [cs.LG, cs.AI]目的:数学的推論におけるLLMの性能向上
- LLMの数学的推論能力は,自動検証可能な報酬を用いた強化学習により大きく向上している。
- 最終的な正答のみを最適化すると,多段階の解答におけるフィードバックが疎になり,中間段階での誤りを指導しにくい。
- プロセス報酬を相対的な優先度として扱い,最終的な正答を重視することで,報酬ハッキングを防ぎ,より安全で効果的な学習を目指す。
- PROGRSは,プロセス報酬を相対的な優先度として扱うフレームワークであり,最終的な正答を維持しつつ性能を向上させる。
- アウトカム条件付きセンタリングにより,誤った軌跡のプロセス報酬をシフトさせ,バイアスを除去し,情報的なランキングを維持する。
- MATH-500など複数のデータセットで,PROGRSはPass@1を改善し,少ないロールアウト数でより高い性能を達成した。
同質性に着目した教師あり対照学習・反事実拡張による公平なグラフニューラルネットワーク [cs.LG]目的:グラフニューラルネットワークにおける公平性の向上
- グラフ構造データ分析の重要性が増す中,モデルの公平性確保が課題となっている。
- ノード属性だけでなく,グラフ構造自体に起因する偏りが存在する。
- グラフの同質性を調整し,公平性と予測精度を同時に向上させる。
- 本研究では,既存のCAFフレームワークを改善し,二段階の学習戦略を導入した。
- グラフの同質性を調整することで,分類精度と公平性の両方を高めることを示した。
- 実際のデータセットを用いた実験で,既存手法を上回る性能を実証した。
俳句から大作まで,わずか10ビットで:LLMが大規模な圧縮率の向上を可能にする [cs.LG, cs.AI, cs.IT, math.IT]目的:LLM生成テキストの圧縮性能の評価
- LLMの利用拡大には,効率的なデータ圧縮が不可欠である。
- LLM生成テキストは情報量が多いため,圧縮が困難である。
- LLMを活用し,より効率的なテキスト圧縮手法を開発する。
- LLMのドメイン適応LoRAアダプターは,ベースLLM単体での算術符号化よりも2倍の圧縮性能を示す。
- LLMに簡潔な書き換えを指示後,算術符号化を適用することで,約0.03の圧縮率を達成し,元の応答を圧縮するよりも2倍の改善が見られた。
- 質疑応答型圧縮(QA)は,わずか10回の質問で,小規模モデルと大規模モデルの性能差の23%〜72%を回復可能であり,従来のLLM圧縮手法を100倍以上上回る圧縮率を実現した。
LLM推論におけるWebGPUディスパッチオーバーヘッドの特性:4ベンダー,3バックエンド,3ブラウザでの検証 [cs.LG, cs.DC, cs.PF]目的:LLM推論におけるWebGPUディスパッチオーバーヘッドの特性
- 機械学習モデルの高速化は,AI技術の発展と普及に不可欠である。
- WebGPUはセキュリティを重視する設計のため,ディスパッチ処理のオーバーヘッドが大きい可能性がある。
- 本研究は,WebGPUのディスパッチオーバーヘッドを正確に評価し,最適化の方向性を示す。
- WebGPUのディスパッチコストは,従来のベンチマークで20倍も過大評価されていることが判明した。
- Vulkan上ではカーネルフュージョンがスループットを53%向上させた一方,CUDAフュージョンは効果がなかった。
- バッチサイズ1では,カーネルの品質に関わらず,ディスパッチオーバーヘッドが性能を大きく左右することが示された。
UI-Oceanus:合成環境ダイナミクスによるGUIエージェントのスケーリング [cs.LG, cs.AI]目的:GUIエージェントのスケーリングにおける課題克服
- GUI自動化は,労働コスト削減や効率化に貢献し,様々な分野での応用が期待される。
- 高品質な学習データの収集コストが高いこと,教師あり学習の限界がスケーリングのボトルネックとなっている。
- 環境フィードバックを活用し,自己教師あり学習によって内部モデルを構築することで,スケーラビリティを向上させる。
- UI-Oceanusは,GUIエージェントの学習において,高レベルな軌跡の模倣から,環境物理の習得に焦点を移す。
- 合成ダイナミクスを用いた継続的事前学習(CPT)は,オフラインベンチマークで平均7%の成功率向上を示し,オンラインナビゲーションでは16.8%の改善に繋がる。
- ナビゲーション性能は合成データ量に比例して向上し,汎用性と合成能力を備えたスケーラブルなGUI自動化への有効性が確認された。
DrugPlayGround:創薬における大規模言語モデルと埋め込み表現のベンチマーク [cs.LG, cs.AI, cs.SE, q-bio.BM]目的:創薬のための大規模言語モデルおよび埋め込み表現の性能評価
- 創薬研究は,人々の健康に直接関わる重要な分野であり,効率化が求められている。
- 大規模言語モデルの客観的な性能評価がなく,従来の創薬プラットフォームとの比較が困難である。
- 大規模言語モデルの化学・生物学的推論能力を検証し,創薬における利用を促進する。
- DrugPlayGroundというフレームワークを開発し,大規模言語モデルの性能を評価した。
- 物理化学的特性,薬物相乗効果,薬物・タンパク質相互作用など,創薬に関連する記述の生成能力をベンチマークした。
- 専門家による予測の根拠の説明を通じて,大規模言語モデルの推論能力を検証した。
FTimeXer:外生変数を考慮した周波数認識型時間系列Transformerによるロバストなカーボンフットプリント予測 [cs.LG]目的:電力グリッドのカーボンフットプリントのロバストな予測
- 製品のカーボンフットプリント算出や脱炭素化判断において,正確なグリッドのカーボンフットプリント予測が不可欠である。
- グリッドのカーボン強度には非定常性が高く,既存手法では周期性や振動パターンを十分に活用できていない。
- 不規則な外生入力(欠損データやずれ)に対するロバスト性を高め,予測精度を向上させる。
- FTimeXerは,高速フーリエ変換(FFT)に基づく周波数ブランチとゲート付き時系列-周波数融合により,多規模周期性を効果的に捉える。
- 確率的外生マスクと一貫性正則化を組み合わせることで,擬似的な相関を減らし,安定性を向上させる。
- 3つの実データセットを用いた実験で,FTimeXerは強力なベースラインと比較して一貫した改善を示した。
文脈知能:強化学習の次の飛躍 [cs.LG]目的:強化学習における文脈知能の実現
- 強化学習はゲーム等で成果を上げる一方,実世界への応用には汎化性能が課題である。
- 既存研究では文脈を静的な観察対象と捉え,汎化能力の限界を招いている。
- 文脈を環境とエージェントの要因に分類し,文脈を考慮した学習メカニズムを確立する。
- 文脈を環境要因とエージェント要因に分類する新たな分類体系を提案した。
- 異質な文脈下での学習,複数時間スケールでのモデリング,高レベルな文脈の統合が重要であると指摘した。
- 文脈を基本的なモデリング要素として捉え,より安全で効率的なエージェント開発を目指す。
オフライン強化学習におけるデータ内探索を通じた嗜好に基づく学習 (OPRIDE) [cs.LG, cs.AI]目的:オフライン嗜好に基づく強化学習におけるクエリ効率の向上
- 人間の意図に沿った学習が可能であり,複雑な報酬設計を回避できるため,実世界への応用が期待されている。
- 人間のフィードバック取得コストが高く,時間もかかるため,嗜好に基づく強化学習の普及が阻害されている。
- オフラインデータを用いた探索効率の低さと,学習された報酬関数の過剰最適化という問題を解決する。
- 提案手法OPRIDEは,既存手法と比較して少ないクエリ数で高い性能を達成し,クエリ効率を大幅に改善した。
- クエリの情報の質を最大化する探索戦略と,過剰最適化を抑制する割引スケジュールという2つの主要な特徴を備えている。
- 様々なロボットの運動,操作,ナビゲーションタスクにおいて,手法の有効性と汎用性が確認された。
微分可能な記号的プランニング:学習された実現可能性を用いた制約推論のためのニューラルアーキテクチャ [cs.LG, cs.AI]目的:制約推論におけるニューラルアーキテクチャ
- ニューラルネットワークはパターン認識に優れるが,論理的・物理的制約の充足判定は困難である。
- 既存のニューラルアプローチは,正と負のクラスのバランスを保てず,性能が低下しやすい。
- 制約充足の証拠を追跡し,離散的なルール選択を可能にするアーキテクチャを開発する。
- 提案手法(UCK+DSP)は,プランニング,SAT,グラフ到達可能性のベンチマークで高い精度を達成した。
- 特にプランニング問題では,汎化性能が向上し,既存手法を大きく上回る結果が得られた。
- 学習された実現可能性信号(phi)は解釈可能な意味を持ち,実現可能/不可能を明確に区別した。
時間分布変化下における展開信頼性のモデル化と制御 [cs.LG]目的:時間分布変化下での展開信頼性のモデル化と制御
- 機械学習モデルの現実環境での利用が拡大する中で,性能維持が重要となっている。
- 非定常環境下では,時間分布変化によりモデルの予測信頼性が低下しやすい。
- 展開後の信頼性変化を捉え,介入コストと安定性のバランスを取ることを目指す。
- 信頼性を識別力と校正の動的状態として捉え,信頼性の変動を定量化するフレームワークを提案。
- 状態に依存する介入ポリシーを定義し,コストと変動のパレート最適解を実証的に特徴付けた。
- 信用リスクデータセットを用いた実験で,ドリフトトリガー型介入が継続的な再学習よりもコスト削減効果が高いことを示した。
省エネなコード生成のためのコントラストプロンプトチューニングの初期探索 [cs.LG, cs.AI, cs.SE]目的:省エネなコード生成の促進
- ソフトウェアのエネルギー消費量は増加の一途を辿っており,持続可能な開発が重要である。
- LLMが生成するコードは機能的には正しくとも,人手で書かれたコードに比べてエネルギー効率が低い場合がある。
- LLMによる省エネなコード生成を可能にし,グリーンソフトウェア開発を支援すること。
- コントラストプロンプトチューニング(CPT)は,2つのモデルでコードの精度向上に一貫して貢献した。
- しかし,効率の向上はモデル,言語,タスクの複雑さによって異なり,必ずしも安定した改善には至らなかった。
- コントラスト学習とプロンプトチューニングを組み合わせることで,効率的なコードと非効率的なコードを区別する能力を高めることが可能となった。
強化学習における解釈可能な戦略マッピングによるポリシー再利用:PRISM [cs.LG, cs.AI]目的:強化学習エージェントの戦略の再利用
- 強化学習は,複雑な意思決定問題を解決する強力な手法である。
- 異なるアルゴリズムで学習したエージェント間の知識転移は困難である。
- 解釈可能な戦略表現を用いて,知識転移を可能にすることを目指す。
- PRISMは,エージェントの決定を因果的に検証された離散的な概念に基づいており,異なるアルゴリズムで学習されたエージェント間のゼロショット転移を可能にする。
- 概念の重要度と使用頻度は必ずしも一致せず,一部の概念はわずかな頻度で高い影響力を持つことが示された。
- Go7x7において,概念アライメントによる知識転移は,ランダムエージェントと比較して大幅な性能向上をもたらし,幾何学的アライメントの質は予測力を持たないことが確認された。
広範な探索から安定した合成へ:エントロピーに基づく自己回帰型画像生成の最適化 [cs.LG, cs.CV]目的:自己回帰型画像生成における最適化戦略
- 画像生成技術は,創造的なコンテンツ制作やデータ拡張など,様々な応用分野で重要性が増している。
- テキストから画像を生成する際に,生成される画像の品質の安定性と多様性を両立させることが課題である。
- CoTとRLの相互作用を理解し,エントロピーに着目することで,画像の品質と安定性を向上させる。
- CoTは生成探索空間を拡大し,RLは高報酬領域へ収縮させるという関係が明らかになった。
- 最終的な報酬は,画像トークンのエントロピーの平均と分散と強い負の相関関係にあることが示された。
- 提案手法EG-GRPOは,標準的なT2Iベンチマークにおいて最先端の性能を達成した。
MLFCIL:LEO衛星における連合クラス増分学習のための多層忘却緩和フレームワーク [cs.NI, cs.LG]目的:LEO衛星における連合クラス増分学習における忘却緩和
- LEO衛星の搭載コンピューティングは増加傾向にあり,効率的な機械学習が不可欠である。
- 厳格なメモリと通信制約下で,新しいクラスが継続的に出現し,学習が困難になっている。
- 軌道力学によるデータ不均衡や忘却の増幅といったLEO衛星特有の課題に対処する。
- MLFCILは,クラス重み付け損失,知識蒸留,クラス認識集約という多層的なアプローチで忘却を緩和する。
- ラウンドレベルの適応的損失バランスとステップレベルの勾配投影によるデュアル粒度協調戦略を採用している。
- NWPU-RESISC45データセットでの実験により,MLFCILがベースラインを精度と忘却緩和の両面で上回ることが示された。
都市型車載ネットワークにおける動的マスク強化知能マルチUAV配置 [cs.NI, cs.AI]目的:都市型車載ネットワークにおける車両接続性とマルチUAVエネルギー消費の最適化
- 車両と道路の連携やインテリジェント交通システムの実現に不可欠な分野である。
- 都市部では,頻繁なリンク切断やサブネットの断片化が信頼性の高い接続を阻害する。
- マルチUAVを配置し,通信中継を行うことで,接続性を向上させることを目指す。
- 提案手法Q-SDAMは,既存アルゴリズムと比較して,車両接続性を18.2%向上させた。
- また,Q-SDAMはマルチUAVのエネルギー消費を66.6%削減することに成功した。
- スコアベースの動的アクションマスク機構により,大規模な行動空間探索を効率化している。
LLMを裁判官/陪審員として活用し,精神病症状を示すユーザーへのモデル応答の安全性評価を拡大・臨床的に検証する [cs.CL, cs.AI]目的:LLMによる応答の安全性評価における臨床的妥当性と拡張性
- メンタルヘルスサポートにおけるLLM利用の拡大に伴い,その安全性評価の重要性が高まっている。
- 既存のLLM評価は,臨床的な検証と評価の拡張性の両面で課題を抱えている。
- 精神病という重要な状態を対象に,LLMの安全性評価における臨床的根拠に基づいた拡張可能な手法を開発する。
- LLMを裁判官として利用した場合,人間の合意と高い一致性を示した(Cohen's κ = 0.75, 0.68, 0.56)。
- 最良の裁判官モデルは,複数のLLMによる陪審員モデルよりもわずかに高い一致性を示した(Cohen's κ = 0.74)。
- これらの結果は,メンタルヘルス分野におけるLLMの安全性評価において,臨床的に根拠があり,拡張可能な方法論の可能性を示唆している。
AI対AI:学生評価中のLLMサービスに対するAIエージェントによるDNS遮断 [cs.NI, cs.LG]目的:学生評価中のLLMサービス遮断のためのAIエージェント強化DNSフレームワーク
- 教育におけるLLMの可能性は大きいが,批判的思考を損なう懸念がある。
- LLMの利用は,思考力の低下や不正行為を助長する可能性があり対策が急務である。
- 試験中のLLM利用を検出し遮断することで,公正な評価環境を確保する。
- AI-Sinkholeは,LLMサービスを動的に検出し分類し,DNS遮断を行う。
- 量子化LLMを用いた分類は,高い説明性とクロスリンガル性能(F1スコア>0.83)を示した。
- Pi-Holeと連携し,ネットワーク全体でのLLMサービスの一時的な遮断を実現する。
TRACE:アンサンブル学習を用いたトレースルートに基づくインターネット経路変更分析 [cs.NI, cs.AI, cs.LG]目的:インターネット経路変更の検出
- インターネットの安定運用には,経路変更の迅速な検知が不可欠である。
- 従来の経路変更検出手法は,制御平面情報に依存する傾向があった。
- トレースルートの遅延データのみで経路変更を検出する手法を開発する。
- TRACEは,時系列データと集約されたコンテキストパターンを特徴量として活用する。
- 勾配ブースティング決定木を組み合わせたアンサンブル学習モデルを用いることで,高いF1スコアを達成した。
- TRACEは,従来のベースラインモデルと比較して,有意に高い経路変更検出性能を示した。
CIPHER:高密度脳波からの音素推論のためのConformerベース手法 [cs.CL, cs.AI, cs.SD]目的:高密度脳波からの音素推論
- 脳活動と音響情報の関係解明は,ブレイン・マシン・インターフェース等の応用において重要である。
- 脳波信号はノイズが多く,空間分解能が低いため,音響情報の正確な解読が困難である。
- 脳波信号の特性を考慮したモデルを開発し,音素の識別精度向上を目指す。
- 提案手法CIPHERは,ERP特徴量とDDA係数という二つの経路を用いることで,音素推論のパフォーマンスを向上させた。
- ただし,TMS-target blocking等の交絡要因の影響を受けやすく,実用的な音声認識システムとしての性能には至っていない。
- 本研究は,脳波からの音素推論におけるベンチマークおよび特徴量比較研究としての意義が大きい。
XpertBench:評価基準に基づいた専門レベルのタスク [cs.CY, econ.GN, q-fin.EC, cs.NI, cs.CL, cs.AI, cs.CL]目的:大規模言語モデルの専門的な認知能力評価
- AIの専門分野への応用が期待される中,その能力を測る客観的な評価が重要である。
- 既存の評価方法は,対象分野が狭い,汎用的なタスクに偏っている,自己評価バイアスがあるなどの問題がある。
- 本研究は,より現実的で専門的なタスクを用いて,AIの専門家レベルの能力を客観的に評価することを目指す。
- XpertBenchは,金融,医療,法律など80分野にわたる1,346の専門タスクを含む,高品質な評価基盤である。
- 最先端のLLMでも,XpertBenchでの成功率は約66%に留まり,平均スコアは約55%であり,専門家レベルには達していないことが示された。
- モデルは分野特有の強みと弱みを示し,定量的な推論と言語合成能力に差が見られた。
メッセージパッシングを超えて:意味的に整合したエージェントコミュニケーションへ [cs.NI, cs.AI]目的:エージェントコミュニケーションプロトコルの体系的な分析と改善
- LLMシステムがツール利用や協調,異種環境での運用を行う上で,エージェント間の円滑なコミュニケーションが不可欠である。
- 既存のプロトコルは,データ転送や構造化には優れるものの,意味レベルの調整や検証機能が不足している。
- プロトコル設計の改善により,相互運用性や保守性を高め,エージェント間の共通理解を促進することを目指す。
- 現在のプロトコル設計には,信頼性のある伝送と構造化されたインタラクションのサポートに偏りがあり,意味レベルの調整が不十分である。
- 意味的な責任がプロンプトや外部ロジックに委ねられることで,相互運用性と保守性の問題が生じている。
- 技術的負債の特定とプロトコル選択の指針を示すことで,より相互運用的で安全かつ意味的に堅牢なエージェントエコシステム構築への道筋を示す。
6GにおけるAI:課題と機会に関する調査 [cs.NI, cs.AI]目的:6GネットワークにおけるAIの役割に関する包括的な概要
- 無線通信は進化を続け,各世代で接続方法が変化。AIは次世代通信の鍵となる。
- 6Gでは高性能化と複雑化が進み,スケーラビリティ,セキュリティ,省エネが課題。
- AI技術を活用し,6Gネットワークの課題解決と新たな可能性を探求する。
- 本調査は,深層学習,強化学習,連合学習など,6Gを支えるAI技術の現状を詳細に分析した。
- AIはURLLC,eMBB,mMTC,ISACといった6Gサービスドメインの高度化に貢献すると示唆された。
- 標準化,倫理,持続可能性に関する懸念事項を整理し,今後の研究方向性を示した。
長文ビジュアルドキュメント理解のための内部化された推論 [cs.CV, cs.AI, cs.CL]目的:長文ビジュアルドキュメント理解における推論能力の向上
- 企業,法律,科学分野での応用が重要であり,ドキュメント理解の性能向上は不可欠である。
- 既存手法では,数学やコード処理で進歩の鍵となる推論能力が十分に活用されていない。
- 推論能力を組み込み,長文ドキュメント理解の性能を向上させることを目指す。
- 合成データパイプラインを用いて推論の思考過程を生成し,モデルの内部に推論能力を組み込んだ。
- Qwen3 VL 32Bを用いてMMLongBenchDocで58.3を達成し,より大規模なQwen3 VL 235B A22Bを上回った。
- Mistral Small 3.1 24Bでは,合成推論が思考版からの蒸留よりも高い性能を示し,出力トークン数も削減された。
分散型ポストトレーニングに対するバックドア攻撃 [cs.CR, cs.LG]目的:大規模言語モデルの分散型ポストトレーニングにおけるバックドア攻撃の脆弱性
- 大規模言語モデルの利用拡大に伴い,その安全性確保が重要課題となっている。
- 分散型ポストトレーニングは,悪意のある参加者による攻撃に対して脆弱である可能性が指摘されている。
- パイプライン並列化におけるバックドア攻撃の有効性と,その対策を明らかにすること。
- 本研究では,パイプライン並列化に対する初のバックドア攻撃を提案し,モデルの誤動作を引き起こすことを示した。
- 攻撃者はモデル全体やデータセットではなく,パイプラインの中間段階を制御するだけでバックドアを注入可能である。
- トリガーワードの挿入により,モデルのアライメント率が大幅に低下し,安全アライメント訓練後も高い成功率で攻撃が成立した。
YC Bench:Y Combinatorのバッチにおける有望なスタートアップの予測のためのライブベンチマーク [cs.LG, q-fin.GN]目的:スタートアップの早期の好調予測
- スタートアップの成功予測は困難であり,迅速な評価が求められている。
- 成功を示す指標が現れるまでに時間がかかり,評価サイクルが遅い点が課題である。
- Y Combinatorのバッチを活用し,短期間での予測モデルの評価を可能にする。
- YC Benchは,Y Combinatorのバッチにおけるスタートアップの早期の好調予測を可能にするライブベンチマークである。
- W26バッチを事例として,Demo Day前のスコアとWebの可視性に基づいた指標が有効性を示した。
- Googleでの言及回数を指標とすることで,上位スタートアップの55%を回収できた。
曖昧性解消によるインタラクティブなクラウドインフラストラクチャコード合成 [cs.SE, cs.AI]目的:クラウドインフラストラクチャコードのインタラクティブな合成
- クラウドインフラの規模拡大と複雑化に伴い,IaCが不可欠となっている。
- 自然言語からのIaC生成において,ユーザー要求が曖昧であることが課題である。
- 曖昧性の構造的な解決と,対話的な明確化による高精度なIaC生成を目指す。
- 提案手法は,候補仕様の多様性生成と構造的差異の特定により,曖昧性を解消する。
- 構造と属性の評価において,既存の最良手法をそれぞれ+18.4%,+25.4%上回る性能を示す。
- Ambig-IaCベンチマークと評価フレームワークを新たに提供し,研究を促進する。
音声空間誘導融合によるオーディオビジュアルナビゲーション [cs.DM, cs.FL, math.CO, cs.RO, cs.SD, cs.AI, eess.AS]目的:オーディオビジュアルナビゲーションにおける汎化性能の向上
- ロボット工学や自動運転において,環境認識と経路計画は不可欠な要素である。
- 既存手法は学習データへの依存度が高く,未知の環境や音源に対して汎化が難しい。
- 未知の環境や音源分布下でもロバストなナビゲーションを実現すること。
- 提案手法は,音声強度アテンション機構を用いて音源空間情報を効果的に抽出する。
- 音源空間状態誘導融合(ASGF)により,マルチモーダル特徴の動的アライメントと適応的融合を実現した。
- ReplicaおよびMatterport3Dデータセットで,未知のタスクにおいて高い汎化性能を実証した。
音響視覚情報に基づくナビゲーションのための空間認識条件付き融合 [cs.SD, cs.AI, eess.AS]目的:音響視覚情報を用いたナビゲーションにおけるターゲットの探索と到達
- ロボット工学において,環境中のターゲットを自律的に探索・到達する技術は重要である。
- 既存手法は特徴量の単純な連結や後処理に頼る傾向があり,ターゲット位置の明示的な表現が不足している。
- ターゲットの位置情報を活用し,効率的かつ汎化性能の高いナビゲーションを実現すること。
- 提案手法SACFは,音響視覚情報からターゲットの相対的な方向と距離を離散化し,分布を予測する。
- SACFは,予測された分布をコンパクトな記述子として利用し,視覚特徴を条件付き線形変換により調整する。
- 実験により,SACFが計算コストを抑えつつナビゲーション効率を向上させ,未知の音に対しても高い汎化性能を示すことが示された。
ロバストなオーディオビジュアルナビゲーションのための信頼性に基づいた幾何学的融合 [cs.SD, cs.AI, eess.AS]目的:オーディオビジュアルナビゲーションにおけるロバスト性の向上
- ロボットやエージェントが現実世界で活動する上で,視覚と聴覚を統合したナビゲーションは重要である。
- 複雑な音響環境下では,二音源定位の信頼性が低下し,未知の音響カテゴリへの汎化が課題となる。
- 音響に基づく信頼性指標を用いて,視覚と聴覚の情報を動的に調整し,ナビゲーションの精度を高める。
- RAVNは,音響から得られる信頼性指標に基づいてクロスモーダル融合を調整するフレームワークである。
- アコースティックジオメトリ推論器(AGR)は,幾何学的プロキシ監督学習により,観測依存的な分散を信頼性指標として学習する。
- 実験の結果,RAVNはSoundSpaces環境においてナビゲーション性能を向上させ,特に未知の音源に対するロバスト性が確認された。
多層パーセプトロンにおける消失勾配と過学習の動的構造 [cs.LG, nlin.AO]目的:多層パーセプトロンにおける学習の動的記述
- 機械学習の発展には,モデルの学習メカニズムの理解が不可欠である。
- 消失勾配と過学習は,深層学習の性能を阻害する主要な問題である。
- 学習の背後にある動的なメカニズムを解明し,過学習への収束を回避する。
- 本研究では,最小限のモデルを用いて,学習過程がサドル構造を含む平坦領域や準最適な領域を経由することを示した。
- 適切な条件下では,過学習領域が対称性に関して単一の吸引域に崩壊し,過学習に対応することが証明された。
- 有限でノイズのあるデータセットで学習した場合,理論的な最適解に到達せず,必然的に過学習解に収束することが示された。
車両通信のための環境認識型チャネル予測:マルチモーダル視覚特徴融合フレームワーク [cs.CV, cs.AI]目的:環境認識型チャネル予測のフレームワーク
- 通信と知能・センシングの融合が進み,環境認識型チャネル予測が重要技術となっている。
- 従来のモデルは,精度,汎化性能,実用性のバランスが課題であった。
- 搭載・路側センサーからの環境情報を活用し,高精度なチャネル予測を実現する。
- 提案手法は,位置,セマンティック,深度特徴を抽出する3分岐アーキテクチャと,適応的なマルチモーダル融合モジュールを採用した。
- パス損失(PL),遅延拡散(DS),ASA,ASD,APSの同時予測を達成した。
- 実都市V2I測定データを用いた実験で,PLのRMSEは3.26dB,DS, ASA, ASDのRMSEはそれぞれ37.66ns, 5.05度, 5.08度を示し,高い精度と汎化性能を実証した。
プライバシー保護機能設計に基づく,グループ感情認識のための変分エンコーダ・マルチデコーダ [cs.CV, cs.AI]目的:グループ感情認識における集団の感情推論
- 社会環境における集団の感情理解は,教育,セキュリティ,マーケティングなど幅広い分野で重要である。
- 既存手法は個人レベルの処理に依存し,プライバシー侵害のリスクがある。
- 個人識別を回避し,集団レベルの感情推論に特化したモデルを構築すること。
- VE-MDは,個人の顔や追跡情報を用いず,集団全体の感情を認識する。
- 構造的表現の学習と予測により,表現学習の精度が向上する。
- GAF-3.0やVGAFにおいて,最先端の性能を達成した。
大規模言語モデルとバグレファレンスによるMPIエラー検出・修復の改善 [cs.SE, cs.AI]目的:MPIプログラムにおけるエラー検出と修復手法
- 高性能計算においてMPIは不可欠であり,大規模シミュレーションや分散学習に広く利用されている。
- MPIプログラムはプロセス間連携が複雑であり,エラーの発見と修正が困難であるという課題がある。
- 大規模言語モデルを活用し,MPI特有のバグ情報を参照することで,エラー検出・修復の精度向上を目指す。
- 大規模言語モデルに,Few-Shot Learning,Chain-of-Thought,RAG等の技術を組み合わせることで大幅な性能向上が見られた。
- エラー検出精度は,ChatGPTを直接利用した場合の44%から77%へと,有意に改善された。
- 提案手法は,他の大規模言語モデルに対しても汎用性を持つことが実験的に示された。
プッシュダウンカラー付き Petri ネットに基づいた安全な Rust コードの合成手法 [cs.SE, cs.AI, cs.FL, cs.PL]目的:安全な Rust コードの合成
- メモリ安全性の重要性が増しており,安全なプログラミング言語の需要が高まっている。
- 所有権,借用,ライフタイム制約を満たすRustコードの自動合成は困難である。
- APIシグネチャから制約を直接モデル化し,有効な呼び出しシーケンスを合成することを目指す。
- 提案手法では,動的リソース状態とライフタイム領域を表現するプッシュダウンカラー付き Petri ネット(PCPN)を用いる。
- PCPNの推移規則は,型の一致,インタフェース義務,およびリソース状態の可用性に基づいており,コンパイラによる制約チェックと整合性があることが証明された。
- PCPNに基づく自動合成ツールを開発し,実験的に生成されたコードが全て正しいことを示した。
LumiVideo:ビデオの色調補正のための知的なエージェントシステム [cs.RO, cs.SY, eess.SY, cs.CY, cs.RO, cs.CV, cs.AI]目的:ビデオの色調補正における自動化手法の開発
- 映像制作において,色調補正は映像表現の質を大きく左右する重要な工程である。
- 既存の自動化手法は,解釈可能性や反復的な制御に欠け,プロフェッショナルなニーズに応えられない。
- プロのカラリストの思考プロセスを模倣し,高品質な色調補正を自動化することを目指す。
- LumiVideoは,映像の物理的照明と意味内容を分析し,自動的に映画のようなベースグレードを生成する。
- LLMとRAGフレームワークを組み合わせることで,非線形なカラーパラメータ空間を効果的に探索する。
- 生成されたパラメータは,ASC-CDL設定や3D LUTとして出力され,時間的な一貫性を保証する。
事前学習によるインシチュトレーニングを用いた光コンボリュショナルニューラルネットワーク [cs.ET, cs.LG, physics.optics]目的:光ドメインにおけるMNIST画像分類のための,完全な光コンボリュショナルニューラルネットワーク
- 従来の電子回路の限界を克服する光コンピューティングは,エネルギー効率が課題の機械学習応用に不可欠である。
- 光-電気-光変換の頻繁な繰り返しが,光コンピューティングの効率低下の原因となっている。
- 本研究は,変換を最小限に抑え,効率的な光コンボリュショナルニューラルネットワークを実現する。
- 提案するPCNNは,MNIST画像分類において94%のテスト精度を達成した。
- 熱干渉に対して高いロバスト性を示し,厳しい結合条件下でも精度劣化は0.43%にとどまった。
- 単一画像推論において,最先端の電子GPUと比較して100~242倍のエネルギー効率を実現した。
自己指示タスク特定 [cs.LG, cs.AI]目的:自己指示タスク特定
- データサイエンスの進展には,効率的なデータ利用が不可欠である。
- 従来の機械学習では,適切なターゲット変数の特定に手作業による注釈が不可欠であった。
- データ注釈の負担を軽減し,自律学習システムの拡張性を高めることを目指す。
- 本研究で提案するSDTIは,事前学習なしでデータセットの適切なターゲット変数を自律的に特定できる。
- 標準的なニューラルネットワーク構成のみを用いて,問題設定とアーキテクチャ設計によってSDTIを実現した。
- 合成タスク特定ベンチマークにおいて,ベースラインアーキテクチャをF1スコアで14%上回る性能を示した。
構成的ニュー記号的推論 [cs.IR, cs.AI]目的:抽象化と推論コーパス(ARC)における構造化された抽象化に基づく推論
- 汎化能力がAI研究の重要な課題であり,複雑な問題解決に不可欠である。
- ニューラルネットワークは,組み合わせの汎化が信頼性に欠ける場合がある。
- 知覚的根拠付けと記号的推論を組み合わせることで,汎化能力の向上を目指す。
- 提案アーキテクチャは,ARC-AGI-2において,ベースLLMの性能を16%から24.4%に向上させた。
- ARC Lang Solverと組み合わせることで,さらに30.8%という結果を得た。
- 知覚,変換提案,整合性フィルタリングを分離することで,タスク固有のファインチューニングなしに汎化性能を改善した。
オフライン強化学習のための物理情報に基づく深層生成モデルによるデータ不足の緩和 [cs.LG]目的:宇宙飛行アプリケーションにおけるオフライン強化学習のためのデータ不足緩和手法
- 宇宙探査は高コストであり,実データ取得が困難。シミュレーションから現実世界への移行が課題となる。
- 現実世界のデータ不足は,強化学習における汎化性能の低下を招き,実用化の障壁となっている。
- 物理モデルの制約を考慮した生成モデルを用いて,データ拡張による強化学習の性能向上を目指す。
- 提案手法であるMI-VAEは,物理モデルとの差異を学習することで,物理法則を尊重した合成データ生成を可能にする。
- 惑星着陸問題における評価実験により,MI-VAEによるデータ拡張が,従来のVAEと比較して強化学習の性能を向上させることが示された。
- 本研究は,データ制約のある複雑な環境における自律制御システムの堅牢性を高めるためのスケーラブルな戦略を示す。
時系列異常検知のための行列プロファイル:TSB-ADにおける再現可能なオープンソースベンチマーク [cs.RO, cs.OS, cs.DB, cs.LG]目的:時系列異常検知のための行列プロファイル手法のベンチマーク性能評価
- 時系列データは,金融,医療,センサネットワークなど,様々な分野で広く利用されている。
- 時系列データの異常検知は,その精度と計算効率において課題が残されている。
- 行列プロファイルを用いた異常検知の再現性とベンチマーク性能向上を目指す。
- 本研究では,TSB-ADベンチマークにおいて,行列プロファイルを用いた異常検知システムの性能を評価した。
- 提案システムは,多次元集約,効率的なk近傍探索,移動平均後処理を組み合わせることで,高い性能を発揮した。
- 実装,ハイパーパラメータ設定,およびベンチマーク結果を公開し,再現性を確保した。
標高マップから等高線へ:SVMと決定木によるバイオリン幅減少の検出 [cs.CV, cs.AI]目的:バイオリン幅減少の自動検出
- 楽器製作や修復において,バイオリンの形状変化を正確に把握することは重要である。
- バイオリンの形状変化を自動で検出する手法は確立されておらず,熟練した専門家の目視による評価に頼っている。
- 3Dフォトグラメトリデータを用いて,バイオリン幅減少を自動で検出し,その精度を評価する。
- 標高マップと等高線に基づいた特徴量を用いて,SVMと決定木によるバイオリン幅減少の検出を比較した。
- 等高線に基づく手法の方が,標高マップのみを用いる手法よりも高い性能を示した。
- 今回の結果は,バイオリンの形状解析において等高線データの有効性を示唆する。
多様なマルチエージェントプレイ生成のための混合ガウス分布軌道予測フレームワークPlayGen-MoG [cs.CV, cs.AI, cs.LG]目的:チームスポーツにおける多様なプレイと,選手間の現実的な空間協調の生成
- チームスポーツ分析において,効果的な戦略立案や選手育成にプレイ生成が不可欠である。
- 既存の生成モデルは,プレイの多様性や空間協調の表現に課題があり,結果が偏りがちである。
- 初期フォーメーションからリアルなプレイを生成するためのフレームワークを開発し,その問題を解決する。
- PlayGen-MoGは,全エージェントの軌道を組み合わせるプレイシナリオを選択する混合ガウス分布(MoG)出力ヘッドを用いる。
- 相対空間注意機構により,選手間の位置関係と距離を学習済みのアテンションバイアスとして符号化する。
- 初期フォーメーションからの絶対変位を非自己回帰的に予測し,累積誤差のドリフトを排除し,単一の静的フォーメーションからリアルなプレイ生成を可能にする。
数学的証明を検証する際に,最先端モデルは必要か? [cs.LG, cs.AI, cs.CL]目的:数学的証明の検証における最先端モデルの必要性の検証
- 数学は科学技術の根幹であり,厳密な証明が不可欠である。
- 大規模言語モデル(LLM)による証明検証は発展途上で,信頼性確保が課題である。
- 小規模モデルの能力を引き出し,最先端モデルと同等の検証性能を実現すること。
- 小規模オープンソースモデルは,最先端モデルと比較して検証精度は10%程度劣るものの,一貫性において25%程度の差が見られた。
- 検証精度はプロンプトの選択に左右され,全てのモデルで影響が確認された。
- LLMによるプロンプト探索により,小規模モデルの検証精度と一貫性が向上し,Gemini 3.1 Proと同等の性能が実現された。
