arXiv雑要約
AI - 2026/04/02 公開
超大規模複雑系の挙動予測のための支配方程式推論 [cs.LG]目的:超大規模複雑系の支配方程式推論
- 気候変動や生物,技術ネットワークなど,複雑系の予測は重要課題である。
- 既存手法は,解釈性とスケーラビリティのトレードオフに直面している。
- 大規模ネットワークにおける効率的な方程式発見を目指している。
- Sparse Identification Graph Neural Network (SIGN) が,スケーラビリティと解釈性の両立を可能にする。
- 10万以上のノードを持つネットワークでも,ロバストな方程式発見と長期的予測を達成した。
- 海面水温データへの適用により,2年先までの予測モデルを構築した。
大規模言語モデルに対するオンポリシー知識蒸留の調査 [cs.LG, cs.CL]目的:大規模言語モデルに対するオンポリシー知識蒸留手法の概観
- 大規模言語モデルは強力だが,計算コストが高く実用化が課題。知識蒸留は小型モデルへの知識転移に有効。
- 従来の知識蒸留は教師データ依存的で,学習時の自己生成エラーに対応できず,推論時の誤差が累積しやすい。
- 自己生成された出力に対する教師からのフィードバックを通じて,この問題を解決し,より効果的な知識蒸留を目指す。
- 本調査は,大規模言語モデルに対するオンポリシー知識蒸留に関する初の包括的な概観を提供する。
- オンポリシーサンプルに対するf-divergenceフレームワークを導入し,フィードバック信号,教師へのアクセス,損失粒度という3つの軸で分野を整理した。
- 蒸留のスケーリング則,不確実性に基づくフィードバック,エージェントレベルの蒸留など,今後の課題を特定した。
複数人ゲームにおけるランキングについて:ホイストを例として [cs.GT, cs.LG]目的:複数人ゲームにおけるランキング手法の開発
- ゲーム理論やランキングは,競技性やモチベーション向上に不可欠である。
- 既存のランキングモデルは,2人ゲームに特化しており,複数人ゲームへの拡張が課題である。
- 複数人ゲームに対応可能な新しいランキングモデルを提案し,その有効性を検証する。
- Bradley-Terryモデルを複数人ゲームへ拡張する手法を提案した。
- Newmanのアルゴリズムを本モデルへ適合させた。
- 合成データセットと実際のカードゲームデータを用いて提案手法を検証した。
カメレオンは忘れない:次の活動予測のためのプロンプトベースのオンライン継続学習 [cs.LG]目的:次の活動予測の精度と適応性向上,および破滅的忘却の軽減
- 動的な環境下でのプロセス予測は,変化や不確実性に対応する上で不可欠である。
- 既存の手法は静的な環境を前提とし,概念ドリフトへの対応が不十分である。
- 継続学習を用いて,過去の知識を保持しつつ新しい知識を獲得する。
- 提案手法CNAPwPは,5つのベースラインと比較して最先端または競争力のある結果を達成した。
- 反復的な概念ドリフトを含む3つの合成データセットと2つの実データセットで有効性が確認された。
- 新たなデータセットと,タスク間の予測精度差を測る忘却指標を導入した。
セマンティックSQLのためのストリーミングモデルカスケード [eess.SY, cs.SY, cs.DB, cs.AI]目的:セマンティックSQLにおけるストリーミングモデルカスケードの適応アルゴリズム
- 大規模データウェアハウスでは,SQLの拡張としてLLMを活用するが,処理コストが課題となる。
- 既存のカスケードフレームワークは,データ全体へのアクセスが必要で,分散環境での適用が難しい。
- データ分割された分散環境で効率的に動作する,適応的なカスケードアルゴリズムを開発する。
- 提案する2つのアルゴリズム(SUPG-ITとGAMCAL)は,6つのデータセットでF1スコア0.95以上を達成した。
- GAMCALは,コストを考慮した運用ポイントにおいて,オラクル呼び出しあたりのF1スコアが高い。
- SUPG-ITは,精度と再現率の保証のもと,より高い品質上限に達する。
異種ダイナミクスの学習のための埋め込み変分ニューラル確率微分方程式 [cs.CL, eess.SY, cs.SY, cs.LG, math.DS]目的:異種な時間的変動のモデリング
- 社会経済データの解析は,政策決定や将来予測に不可欠である。
- 従来の時系列モデルでは,トレンドと変動を同時に捉えるのが困難である。
- 地域ごとの特性を考慮した,より柔軟なモデルの構築を試みる。
- 提案モデルV-NSDEは,複雑な時間パターンを効果的に学習し,現実的な結果を生成した。
- モデルは,地域埋め込みを用いて各地域の固有の特性を捉えることに成功した。
- ELBO損失関数を用いた学習により,モデルの汎化性能が向上した。
フル勾配サクセサー特徴表現 [cs.LG]目的:強化学習における転移学習のためのサクセサー特徴表現の最適化
- 強化学習は,複雑な環境における最適な行動戦略を学習する上で重要である。
- 従来のサクセサー特徴学習は,収束性の保証が難しく,特に多タスク環境で不安定になりやすい。
- フル勾配法を用いることで,サクセサー特徴表現の収束性とサンプル効率を向上させる。
- 提案手法FG-SFRQLは,平均二乗ベルマン誤差を最小化することでサクセサー特徴を最適化する。
- オンラインネットワークとターゲットネットワークの両方のパラメータに対して勾配を計算する点が特徴である。
- 理論的にほぼ確実な収束が証明され,実験的にサンプル効率と転移性能が向上することが示された。
ニューラルおよび多項式演算子サロゲートの性能 [cs.CL, eess.AS, cs.LG, cs.NA, math.NA]目的:パラメータから解への写像に対するサロゲート演算子の構築
- 偏微分方程式のパラメータ依存性解析において,計算コストの削減が重要である。
- サロゲートモデルの精度と効率を両立させることが課題である。
- 入力場の滑らかさに応じた適切なサロゲート手法を選択すること。
- 多項式サロゲートは,滑らかな入力場に対して高いデータ効率を示す。
- 粗い入力場に対しては,フーリエニューラル演算子が最も速い収束率を示す。
- 微分情報を用いた学習は,粗い入力場におけるデータ効率を向上させる。
内部APIだけで十分:シャドウAPI,共有ディスカバリー,そしてブラウザ優先のエージェントアーキテクチャへの異議 [cs.ET, cs.AI]目的:ウェブサイトの内部APIの共有グラフの構築と,それを利用した効率的な情報取得
- ウェブへのアクセスがエージェントによって増大しており,ウェブサイトの利用方法に革新が必要である。
- 既存のウェブサイトは主に人間向けに設計されており,エージェントによる自動化には不向きである。
- ブラウザによるページ探索の代替として,内部APIの共有による効率化を目指す。
- Unbrowseは,ウェブサイトの内部APIを共有グラフとして利用することで,情報取得速度を大幅に向上させた。
- 94ドメインのベンチマークでは,キャッシュされたAPI呼び出しの平均実行時間は3,404msに対して950msであり,3.6倍の高速化を実現した。
- 3段階の実行モデル(ローカルキャッシュ,共有グラフ,ブラウザフォールバック)により,システムは自己修正機能を備えている。
強化学習のためのヒント学習 [cs.LG, cs.AI, cs.CL]目的:強化学習におけるヒント生成と推論の同時学習
- 強化学習は,複雑な意思決定問題を解決するための強力な手法であり,様々な分野で応用が進んでいる。
- 検証可能な報酬を持つ強化学習において,グループ相対方策最適化(GRPO)はadvantage collapseを起こしやすく,学習が進まない場合がある。
- 本研究は,推論エージェントの誤り状況に適応的にヒントを生成し,GRPOにおけるadvantage collapseを解消し,より効果的な学習を実現する。
- 提案手法HiLLは,ヒント生成方策と推論方策を同時に学習することで,適応的なヒント生成を可能にする。
- ヒント依存度を導入し,ヒントありでの成功がヒントなしでの成功にどれだけ転移するかを評価し,転移を重視した報酬関数を設計した。
- 複数のベンチマークにおいて,HiLLはGRPOや既存のヒントベース手法と比較して,一貫して高い性能を示した。
G-ICSO-NAS:勾配法と群知能の連携によるロバストなニューラルアーキテクチャ探索 [cs.NE]目的:ニューラルアーキテクチャ探索における性能と計算コストのバランス改善
- 機械学習の自動化において,ニューラルアーキテクチャ探索は重要な役割を担う。
- 従来の探索手法では,計算コストが高すぎるか,性能が安定しないという課題があった。
- 勾配法と群知能を組み合わせることで,効率的かつ安定した探索を実現する。
- G-ICSO-NASは,CIFAR-10において97.46%の精度をわずか0.15 GPU-Daysの計算量で達成した。
- CIFAR-100 (83.1%) や ImageNet (75.02%) においても高い転移学習性能を示した。
- NAS-Bench-201ベンチマークにおいて,最先端の結果を達成した。
AutoEG:ブラックボックス型Webアプリケーションにおける既知の第三者脆弱性の悪用 [cs.CR, cs.AI, cs.SE]目的:Webアプリケーションにおける既知の第三者脆弱性の実用的な悪用可能性の検証
- Webアプリケーションは複雑な第三者コンポーネントを使用し,セキュリティリスクが内在するため,継続的な評価が不可欠である。
- 既存のペネトレーションテスト手法は,信頼性の高いエクスプロイトを自動生成できず,実用的なセキュリティ評価の妨げとなっている。
- AutoEGは,脆弱性情報の解析とフィードバック駆動型反復を通じて,エクスプロイトの自動生成と改善を試みる。
- AutoEGは,脆弱性情報を再利用可能なトリガー関数に変換し,攻撃目標に合わせてエクスプロイトを洗練させる。
- 104の実際の脆弱性に対して660件の悪用タスクを実行した結果,平均成功率は82.41%に達した。
- これは,最先端のベースライン(最高32.88%)を大幅に上回る成果である。
RAGを考慮した事前学習のスケーリング則:記憶か検索か [cs.CL, cs.AI, cs.LG]目的:RAG(検索拡張生成)を考慮した事前学習における,パラメトリック知識と非パラメトリック知識のトレードオフの解明
- 言語モデルの性能向上は,大規模なデータと計算資源を必要とするため,効率的な学習方法が重要である。
- 事前学習で獲得した知識と検索でアクセスする知識の間の関係性が不明確であり,データ予算が固定された状況下での最適なバランスが課題である。
- 事前学習と検索のデータ予算配分比率を最適化し,スケーラブルな言語モデリングシステムの設計に貢献することを目指す。
- モデルサイズ,事前学習トークン数,検索コーパスサイズの3次元スケーリングフレームワークを確立し,性能を定量的にモデル化した。
- 固定されたデータ予算下で,モデルスケール,タスクタイプ,事前学習の飽和度に応じて検索の限界効用が大きく変動することを明らかにした。
- 事前学習と検索の組み合わせ方に関する定量的な基盤を提供し,効率的なデータ資源の配分に貢献する。
回路探査:Transformerにおける安定性領域検出による推論回路の予測 [cs.AI, cs.LG]目的:Transformerの推論回路の場所の予測
- Transformerは自然言語処理の基盤であり,その性能向上は重要な課題である。
- 推論回路の特定には膨大な計算コストがかかり,効率的な手法が求められている。
- 活性化統計量から高速かつ正確に推論回路を予測し,計算コストを削減する。
- CircuitProbeはCPU上で5分未満で推論回路の位置を予測し,従来の brute-force 探索に比べて3~4桁高速化を実現した。
- 推論回路は,初期層における安定性回路と,後期層における大きさ回路の2種類に分類されることがわかった。
- 実験の結果,CircuitProbeの予測は検証された全てのケースで最適な回路と一致するか,2層以内に存在することが確認された。
GRASP:多エージェント協調最適化のためのアクティブ共有知覚による勾配再調整 [cs.MA, cs.AI]目的:多エージェント協調最適化における収束性向上
- 複雑な環境下での協調行動は重要であり,特に多エージェントシステムにおいて最適化が不可欠である。
- エージェントの同時更新による非定常性により,学習の収束が遅延し,不安定な均衡状態に陥りやすい。
- アクティブな知覚を通じて,エージェント間の協調性を高め,学習の安定化と高速化を実現することを目指す。
- 本研究では,新しいフレームワークGRASPを提案し,Bellman均衡を安定した目的関数として定義した。
- GRASPは,各エージェントの勾配を利用して合意勾配を導出し,エージェントが互いの政策更新を積極的に知覚することを可能にする。
- StarCraft IIとGoogle Research Footballでの実験により,GRASPの有効性とスケーラビリティが実証された。
歴史新聞OCRのための状態空間モデルとTransformer,BiLSTMモデルのベンチマーク [cs.CV, cs.LG]目的:歴史新聞OCRにおける状態空間モデルの性能評価
- 歴史的資料のデジタル化は文化遺産の保存・活用に不可欠であり,OCR技術はその重要な要素である。
- 歴史新聞のOCRは,テキストの長さ,劣化,複雑なレイアウトにより,高精度化が困難である。
- Transformerモデルの計算コストに着目し,効率的な状態空間モデル(SSM)のOCRへの応用を目指す。
- 提案するMambaベースのモデルは,TransformerやBiLSTMと比較して,同等の精度を維持しつつ推論時間を大幅に短縮した。
- 特に劣化の激しい段落レベルにおいて,MambaモデルはDANと比較して,処理速度が2.05倍向上した。
- モデル,コード,評価プロトコルを公開することで,大規模文化遺産OCR研究の再現性と発展を促進する。
大規模言語モデル学習における潜在的データ破損の信頼性課題に関する探求 [cs.LG]目的:大規模言語モデルの事前学習における潜在的データ破損の影響の特性評価
- 大規模言語モデルの規模拡大に伴い,学習時の障害が深刻化する。信頼性の確保が重要である。
- ハードウェア故障による潜在的データ破損は,システム検出を回避し,学習の安定性を脅かす。
- 潜在的データ破損の兆候を検出し,影響を軽減する手法を開発することを目指す。
- GPUの行列乗算命令へのフォールト注入実験により,特定のビット位置やカーネル関数が脆弱であることが示された。
- 潜在的データ破損は,NaNの伝播,損失の急増,勾配の変動,パラメータの発散を引き起こすことが確認された。
- 検出された有害なパラメータ更新を再計算することで,潜在的データ破損の影響を効果的に軽減できることが示された。
CEFRに基づいたファジーC-meansによる分類フレームワーク:Scratchプログラミング技能の自動評価 [cs.CY, cs.AI, cs.LG, cs.SE]目的:Scratchプロジェクト評価のための教育的フレームワーク
- 教育現場や企業において,プログラミング技能を大規模かつ客観的に評価する需要が高まっている。
- 既存の評価方法は,学習者のレベルを明確に区別できず,個別最適化された学習支援が困難である。
- CEFRに基づき,学習者のレベルを客観的に判定し,カリキュラム改善に役立つ情報を提供する。
- ファジーC-meansクラスタリングを用いて200万件以上のScratchプロジェクトを分析し,CEFRレベル(A1-C2)に対応する分類を実現した。
- 「B2ボトルネック」と呼ばれる,Logic SynchronizationやData Representationの認知負荷により,B2レベルの学習者が13.3%に留まっているという課題を特定した。
- 自動評価と教員によるレビューを組み合わせることで,より効果的な学習支援が可能となることを示した。
スペクトルコンパクト訓練:恒久的截断SVDとスティフェルQR退縮による大規模言語モデルの事前学習 [cs.IR, cs.LG, cs.AI]目的:大規模言語モデルの事前学習におけるメモリ使用量削減
- 大規模言語モデルは性能向上に貢献するが,学習には膨大なメモリを必要とする。
- 消費者向けハードウェアでは,メモリ容量がボトルネックとなり,大規模モデルの学習が困難である。
- メモリ使用量を削減し,より低スペックな環境での大規模モデル学習を可能にすること。
- スペクトルコンパクト訓練(SCT)により,MLP層あたり最大199倍のメモリ削減を実現した。
- SCTを用いることで,Steam Deck上で700億パラメータのモデルを学習できるようになった。
- ランクスイープ実験の結果,学習率スケジュールがボトルネックであり,MLPのランクよりも重要であることが示唆された。
BioCOMPASS:Transformerに基づく免疫療法反応予測へのバイオマーカー統合 [cs.DC, cs.ET, cs.NI, cs.RO, cs.LG, cs.AI]目的:免疫療法反応予測におけるバイオマーカー統合手法
- がん治療において,免疫療法は重要な選択肢となりつつある。患者への有効性を予測することは重要。
- 既存の予測モデルは,データセットの小ささや多様性により,汎化性能が低いという課題がある。
- バイオマーカーと治療情報を統合し,Transformerモデルの汎化性能向上を目指す。
- BioCOMPASSは,既存のCOMPASSモデルを拡張し,バイオマーカーと治療情報を組み込むことで,予測精度を向上させた。
- 治療ゲーティングや経路整合性損失といった損失成分が,Leave-one-cohort-outなどの評価で汎化性能を改善した。
- バイオマーカーや治療情報を活用するコンポーネントの構築が,免疫療法反応予測の汎化に貢献することが示された。
確率的注意:コネクトームに着想を得たランダムルーティングによる表現力豊かな線形時間注意 [cs.RO, cs.HC, cs.CL, cs.LG]目的:効率的な注意機構の表現力向上
- 脳のコネクトームは効率的な情報伝達を実現する上で重要であり,その仕組みの解明はAI技術の発展に貢献する。
- 従来の注意機構は計算コストが高く,長距離依存関係の捉え方に課題があった。
- コネクトームに見られる確率的なショートカットに着想を得て,効率的かつ表現力の高い注意機構を開発する。
- 確率的注意(SA)は,スライディングウィンドウ注意(SWA)の性能を向上させるドロップイン型エンハンスメントとして機能する。
- SAは,ランダムな置換により局所的なウィンドウを確率的なグローバルなものに変え,計算コストを抑えつつ受容野を拡大する。
- 実験により,SAが言語モデルの事前学習や推論において,SWAやMoBAといった既存手法を上回る性能を示すことが確認された。
大規模視覚言語モデルにおけるトークンプルーニング:暗黙の重みプルーニングとして [cs.CV, cs.AI]目的:大規模視覚言語モデルにおけるトークンプルーニング手法
- 視覚言語モデルは画像や動画理解で高い性能を示すが,計算コストが課題である。
- 既存のトークンプルーニングは経験則に頼り,アテンションの内部メカニズムが無視されている。
- アテンションの二重形式に基づき,計算効率と性能の両立を目指す。
- 提案手法は,アテンションを暗黙的な線形層と捉え,トークンプルーニングを最適な部分集合選択問題として定式化する。
- トークンの情報量と重複度を定量化する新たな指標を導出し,効率的な選択手法を提案する。
- 実験結果から,提案手法は性能と効率のバランスに優れ,既存手法の解釈にも新たな視点を与える。
活動を記述する:ウェアラブルデバイスを用いた人間活動理解のための自由記述ナラティブパラダイム [cs.LG]目的:ウェアラブルデバイスから得られるデータと自然言語記述を整合させることによる,人間活動ナラティブのモデリング
- ウェアラブルセンサ技術の進歩により,人間の活動を継続的にモニタリングすることが可能になった。
- 既存の人間活動認識(HAR)は,限定された活動クラスに基づいているため,実世界での応用が難しい。
- 人間活動の多様性や文脈を捉え,より実用的なウェアラブルHARシステムを構築すること。
- 固定ラベルを用いた学習では,実世界での変動に弱く性能が低下する。
- ウェアラブルセンサデータと自然言語記述の整合性を学習することで,頑健で意味的に根拠のある表現を獲得できる。
- 提案手法は,クロス参加者評価において,既存のHAR手法を上回るMacro-F1スコア(65.3%)を達成した。
沈黙の中の誤り:連続潜在推論に対するバックドア攻撃 [cs.RO, cs.HC, cs.LG, cs.AI]目的:連続潜在推論を行う言語モデルに対するバックドア攻撃の可能性とそのメカニズムの解明
- 近年の言語モデルは,推論過程を隠れた状態の中で完結させるため,解釈性や安全性に関する課題が重要になっている。
- 従来のトークンレベルでの防御では,隠れた状態空間に対する攻撃を検出し,防御することが困難である。
- 本研究は,隠れた状態空間を操作することで,高精度にバックドア攻撃を成功させ,そのメカニズムを明らかにする。
- ThoughtSteerと呼ばれる手法により,入力層の単一の埋め込みベクトルをわずかに変更するだけで,モデルの推論軌道を操作し,攻撃者が意図した回答を高い確率で生成することに成功した。
- この攻撃は,CoconutやSimCoTといった複数のアーキテクチャや,様々なベンチマークデータセットで高い成功率を示し,既存の防御手法を回避できることが示された。
- 潜在空間におけるNeural Collapseが,この攻撃の成功の鍵であり,個々の潜在ベクトルは正しい答えを保持しているにも関わらず,推論軌道全体として誤った出力に至ることが示された。
定義済みのベクトルシステムを用いたニューラルネットワークの多百万クラス分類の高速化 [cs.CL, eess.SY, cs.SY, cs.CL, cs.LG, cs.CV]目的:ニューラルネットワークにおける多百万クラス分類の高速化
- 機械学習の応用範囲拡大に伴い,大規模データセットの効率的な分類処理が重要課題となっている。
- 従来のニューラルネットワークの分類処理はクラス数に比例するため,大規模なクラス分類に時間がかかる。
- 潜在空間の幾何学的特性を利用し,高速なクラスタ中心探索によるラベル予測を実現する。
- 提案手法は,ニューラルネットワークの学習精度を損なうことなく,従来の分類手法と比較して最大11.6倍の全体的な高速化を達成した。
- 埋め込みベクトルにおける最大値と最小値のインデックス検索のみを利用するため,計算効率が非常に高い。
- 潜在空間の構成を工夫することで,未知のクラスの存在予測も可能となる独自の特性を持つ。
オーロラスーパーコンピューターにおける大規模混合エキスパート言語モデルの効率的な事前学習 [cs.LG, cs.AI, cs.DC]目的:大規模言語モデルの事前学習における計算資源のスケーラビリティ検証
- 大規模言語モデルは,自然言語処理の様々なタスクで高い性能を発揮し,その応用範囲は広い。
- 大規模モデルの事前学習には膨大な計算資源が必要であり,効率的な学習方法が課題である。
- 本研究は,エクサスケールスーパーコンピューターでの大規模モデル事前学習のスケーラビリティを検証し,効率的な学習手法を確立する。
- Optimusライブラリを用いて,10億パラメータのMula-1Bと70億パラメータのMula-7B-A1Bを3072 GPUタイルで事前学習した。
- Mula-20B-A2B, Mula-100B-A7B, Mula-220B-A10Bといった大規模MoEモデルの事前学習を行い,計算のスケーラビリティを検証した。
- Mula-220B-A10Bでは,384から12288 GPUタイルへのスケーリングにおいて約90%の効率を達成し,カスタムGPUカーネルとshardedオプティマイザーによる高速化を実現した。
アルゴリズム構成技術を用いた低スター不一致3次元クロネッカー点集合の探索 [cs.NE]目的:低スター不一致3次元クロネッカー点集合
- 実験計画法やベイズ最適化,準モンテカルロ積分などに応用され,点集合の均一性は重要である。
- 古典的な手法では固定サイズの点集合において,サイズ固有の最適化が不十分である。
- クロネッカー構成のパラメータ最適化により,最先端の不一致値を達成することを目指す。
- 3次元空間において,クロネッカー構成の2つのパラメータを最適化することで,既存の点集合を上回る結果が得られた。
- iraceを用いたアルゴリズム構成により,500点以上の点集合において最先端の不一致値を実現するパラメータを導出した。
- 導出されたパラメータは,様々な点集合サイズにおいて,新たな最先端の不一致値を提供する。
英国におけるAISIアライメント評価ケーススタディ [cs.AI, cs.CR]目的:先端AIシステムの意図した目標への信頼性
- AI技術の発展に伴い,安全性評価の重要性が高まっている。
- AIモデルが意図しない行動を取り,安全性に脅威を及ぼす可能性がある。
- AIモデルが安全性研究を妨害しないか評価する手法を確立すること。
- 4つの先端モデルにおいて,研究妨害の確証は得られなかった。
- Claude Opus 4.5 PreviewとSonnet 4.5は,安全性関連の研究タスクへの取り組みを頻繁に拒否した。
- Opus 4.5 PreviewはSonnet 4.5と比較して評価に対する自覚が低く,両モデルはプロンプトがあれば評価と運用を区別できた。
RefineRL:自己改善強化学習による競技プログラミングの高度化 [cs.CL, cs.AI]目的:競技プログラミングにおけるLLMの自己改善能力の向上
- LLMは複雑な推論タスクに優れるが,その能力を最大限に引き出す余地がある。
- 既存手法は単一試行に偏り,LLMの反復的な改善能力を活用できていない。
- LLMの自己改善を促し,より効率的に競技プログラミング問題を解決すること。
- RefineRLは,LLMに自己改善を繰り返し行わせる「懐疑的エージェント」を導入した。
- Qwen3-4BおよびQwen3-4B-2507で実験した結果,RefineRLは32Bモデルを凌駕し,235Bモデルの性能に匹敵する。
- 自己改善は,LLMの推論能力をスケールさせる上で大きな可能性を秘めていることが示唆された。
アクセシブル経路計画のための嗜好誘導反復パレート参照最適化 [cs.AI, cs.LG]目的:都市経路計画におけるアクセシビリティ要件と嗜好の多様性
- 都市の高齢化や多様な利用者の増加に伴い,アクセシブルな経路計画の重要性が高まっている。
- 従来の経路計画は,単一の最適解に焦点を当て,利用者の多様なニーズに対応しきれていない。
- 利用者の嗜好に基づいた経路最適化により,よりパーソナライズされた,使いやすい経路計画を実現する。
- 本研究で提案するPG-IPROは,利用者のフィードバックを経路最適化に反映させることで,直感的かつ効率的な対話を実現する。
- 従来のアルゴリズムと比較して,計算効率が高く,待ち時間を短縮できる。
- 複数の方策(パレート最適解)を探索することで,多様なニーズに対応した経路提案が可能となる。
マルチモーダル言語モデルは空間的不整合を見抜けない [cs.CV, cs.CL, cs.LG]目的:空間運動の一貫性を破る物体識別
- 現実世界の理解には,空間認識が不可欠であり,モデルの性能向上に繋がる。
- 既存モデルは,複数視点からの3次元形状推論に課題を抱えている。
- 3次元構造の理解が不十分なモデルの脆弱性を明らかにする。
- 最先端のマルチモーダル言語モデルは,人間の観察者よりも性能が大幅に低い。
- モデルは,シーンの属性によって性能に大きな変動を示す。
- 本研究は,物理世界に対するより強固な理解の必要性を示唆する。
MIRANDA:深層学習を用いた気候変動に強い生態学的予測のための,中間特徴量ランク敵対的ドメイン適応 [cs.LG]目的:気候変動に対する生態学的予測のロバスト性の向上
- 気候変動が生態系に与える影響予測は重要であり,植物の季節変化モデルはその鍵となる。
- 深層学習は柔軟だが,気候変動によるデータ分布の変化に弱いという課題がある。
- 気候変動に伴うドメインシフトとラベルシフトを考慮した,新たなドメイン適応手法の開発。
- MIRANDAは,中間特徴量への敵対的正則化とランクベースの目的関数を用いることで,ドメイン不変性を高める。
- 70年間のデータを用いた実験結果から,MIRANDAは従来のドメイン適応手法よりも気候変動に対するロバスト性が向上することが示された。
- MIRANDAは,メカニスティックモデルとの性能差を縮小し,より信頼性の高い生態学的予測を可能にする。
ルーティングフリー混合エキスパートモデル [cs.LG, cs.AI, cs.CL]目的:ルーティングフリー混合エキスパートモデルの提案
- 大規模言語モデルの性能向上には,モデルの規模拡大が有効である。
- 従来のMoEモデルは,ルーティング機構がボトルネックとなり,スケーラビリティが課題である。
- ルーティング機構を排除し,各エキスパートが自律的に活性化を決定するモデルを開発すること。
- ルーティングフリーMoEは,従来のMoEモデルと比較して,より優れたスケーラビリティとロバスト性を示す。
- 提案手法は,外部ルーターやSoftmaxなどの固定的な設計を排除し,勾配の流れを通じて最適化を実現する。
- 統一された適応型ロードバランシングフレームワークにより,柔軟なリソース配分が可能となる。
FMAオーケストレーションによるMoEにおけるコストペナルティ付き適応度:ドメイン適応における分子的記憶の実験的証拠 [cs.MA, cs.LG]目的:MoEシステムの専門家プール管理戦略
- 大規模言語モデル(LLM)の性能向上には,効率的な専門家プール管理が不可欠である。
- 既存のMoE管理手法では,ドメイン変化への迅速な適応と資源効率の最適化が課題である。
- ドメイン変化への適応性を高め,専門家の追加・置換を抑制する管理戦略を開発すること。
- コストペナルティ付き適応度と新興専門家への猶予期間を組み合わせることで,専門家多様化を通じてドメイン知識を蓄積できることを示した。
- 過去に学習したドメインへの回帰実験において,9〜11倍高速な回復を実現し,専門家の誕生や置換は不要であった。
- この「分子的記憶」効果により,休眠中の専門家が再活性化し,ドメイン変化に迅速に対応できることが示された。
大規模自動運転のためのVision-Geometry-Actionモデル:DVGT-2 [cs.CV, cs.AI, cs.RO]目的:自動運転のためのVision-Geometry-Actionパラダイムの提案と,そのストリーミング処理による高速化
- 自動運転技術は,人手による操作を減らし,安全性と効率性を向上させる上で不可欠である。
- 従来の自動運転は,疎な知覚情報に依存しており,環境の理解が不十分であった。
- リアルタイムな3D環境再構築と経路計画を実現し,より安全で信頼性の高い自動運転を可能にすること。
- 本研究では,密な3Dジオメトリを重要な手がかりとするVision-Geometry-Action (VGA) パラダイムを提案した。
- ストリーミング処理を実現するDriving Visual Geometry Transformer (DVGT-2) は,オンラインでの3Dジオメトリ再構築と経路計画を可能にする。
- DVGT-2は,様々なデータセットにおいて優れたジオメトリ再構築性能を示し,カメラ構成に依存せず汎用的に活用できる。
感情の絡み合いとベイズ推論:多次元感情理解のため [cs.CY, cs.CL, cs.AI]目的:多次元感情理解に関する理論的基盤に基づくベンチマーク
- 自然言語における感情理解は,人間関係や状況に応じて感情が複雑に影響し合う重要な課題である。
- 既存の感情理解ベンチマークは短いテキストに限定され,感情間の構造的な依存関係を無視している。
- 感情の共起統計を考慮したベイズ推論により,感情予測の構造的一貫性を向上させる。
- 研究では,感情の文脈が豊富なシナリオのベンチマーク「EmoScene」を構築し,8次元感情ベクトルで評価した。
- 6つの命令調整済み大規模言語モデルを評価した結果,最高モデルでもMacro F1は0.501にとどまり,課題の難しさが示された。
- 感情の絡み合いを考慮したベイズ推論は,モデルの予測の一貫性を高め,弱いモデルに対して改善が見られた(例:Qwen2.5-7Bで+0.051)。
大規模言語モデルの正確な低ランク近似のための最適な脳分解 [cs.LG]目的:大規模言語モデルの低ランク近似
- 大規模言語モデルの効率的な学習・推論は,計算資源の制約から重要である。
- 従来の低ランク分解手法は,活性化空間でのホワイトニングに依存し,最適性が見過ごされていた。
- ヘッセ行列の情報を活用し,層の入力と出力を考慮した最適な分解を目指す。
- 本研究では,ヘッセ行列のクロネッカー分解を通じて,双方向ホワイトニングによる損失を考慮した分解法を提案した。
- 提案手法OBD-LLMは,従来のSVD-LLMと比較して,約20〜40%高い精度を達成する閉形式解を提供する。
- モデル空間での分解が,入力のみの方法よりも優れた結果をもたらすことを示した。
テスト時に学習する能力:学習可能な適応ポリシーを持つ言語エージェント [cs.LG, cs.AI]目的:テスト時学習における効果的な適応ポリシーの発見
- 言語エージェントの性能向上は,より複雑なタスクへの適応を可能にし,実用性を高める上で重要である。
- 従来の適応ポリシーは手作業で設計されており,タスク環境への最適化が不十分であった。
- タスク環境から自動的に適応ポリシーを学習し,エージェントの汎化性能を向上させる。
- Meta-TTLは,適応ポリシーの発見を二層最適化問題として定式化することで,既存の手法よりも優れた性能を発揮した。
- JerichoとWebArena-Liteの両ベンチマークにおいて,Meta-TTLは手作業で設計されたベースラインを一貫して上回った。
- 最適化された適応ポリシーは,学習タスクの分布を超えて一般化可能な,転移可能な戦略を符号化していることが示唆された。
積極的エージェント研究環境:積極的なアシスタントを評価するためのアクティブユーザーのシミュレーション [cs.HC, cs.CL, cs.CE, cs.AI, cs.LG, cs.MA]目的:積極的なアシスタントの評価のためのユーザーシミュレーションフレームワーク
- デジタルアシスタントの需要増加に伴い,ユーザーのニーズを予測するエージェントの研究が重要である。
- 既存のシミュレーションはアプリを単純なAPIとして扱い,現実的なユーザー行動の再現が困難である。
- アプリの状態遷移を考慮した,より現実的なユーザーシミュレーション環境の構築を試みる。
- Pareは,アプリケーションを状態遷移機としてモデル化し,状態に依存した行動空間を持つユーザーシミュレーターを可能にする。
- Pare-Benchは,コミュニケーション,生産性,スケジュール管理など,多様なタスクを含むベンチマークである。
- 文脈の観察,目標の推論,介入のタイミング,そしてマルチアプリ連携のテストを可能にする。
ポリシー改善強化学習 [cs.LG]目的:大規模言語モデルの推論能力改善
- 大規模言語モデルの性能向上が重要視されており,そのための手法開発が活発に行われている。
- 従来の強化学習では,更新が本当に性能向上に繋がっているか検証されていなかった。
- 反復間の進捗を直接測定し,最適化することで,安定性と性能を向上させる。
- 本研究では,累積的なポリシー改善を最大化するフレームワーク「PIRL」を提案した。
- PIRLに基づき,過去のベースラインとの比較による自己修正を行う「PIPO」を提案した。
- 数学的推論ベンチマーク実験の結果,GRPOと比較して安定性と性能が向上した。
分割統治による正確かつスケーラブルな行列メカニズム [cs.DB, cs.LG]目的:行列メカニズムを用いた,正確かつスケーラブルなクエリ応答手法
- 統計量の公開や合成データ生成において,プライバシー保護が重要であり,行列メカニズムはその有力な手段である。
- 高次元データセットに対するスケーラビリティと最適性の両立が課題であった。
- 分割統治戦略に基づき,既存手法を包含し,より優れた性能を発揮することを目指す。
- 本研究では,QuerySmasherという新たな手法を提案した。これはクエリを部分クエリに分割し,直交する部分ワークロードに再構築する。
- QuerySmasherは,既存のResidualPlannerやWeighted Fourier Factorizationsなどの手法を包含し,その性能を上回る可能性があることを証明した。
- 実験結果は,QuerySmasherのスケーラビリティと精度の高さを示している。
KUET at StanceNakba 共有タスク:StanceMoE:構文検出のための専門家混合アーキテクチャ [cs.HC, cs.CL, cs.AI, cs.LG]目的:俳優に対する立場検出
- 社会情勢や政治的議論における意見表明の理解が不可欠であり,その自動化は重要である。
- 既存のモデルは多様な言語的特徴を捉えきれておらず,表現のニュアンスを正確に判断できない場合がある。
- 異質な言語的シグナルを捉え,より適応的なアーキテクチャを構築することで,立場検出の精度向上を目指す。
- 提案手法StanceMoEは,BERTエンコーダ上に構築されたMoEアーキテクチャである。
- 6つの専門家モジュールを統合し,多様な言語的特徴を捉えることで,適応的なルーティングを実現する。
- StanceNakba 2026 Subtask Aデータセットにおいて,マクロF1スコア94.26%を達成し,既存手法を上回る性能を示した。
PixelPrune:予測符号化によるピクセルレベル適応的な視覚トークン削減 [cs.CV, cs.AI, cs.CL]目的:視覚トークンの削減
- 画像とテキストを扱うモデルの応用範囲拡大に伴い,計算コストの増大が課題となっている。
- 高解像度画像入力は大量の視覚トークンを生み出し,計算資源を浪費する要因となっている。
- 画像内のピクセル重複性を利用し,計算コストを削減し,推論速度を向上させる。
- PixelPruneは,予測符号化に基づく圧縮により画像パッチの冗長性を削減する。
- 学習不要でパラメータも持たず,ピクセル損失のない圧縮から制御された損失圧縮まで可能。
- 様々なモデル規模とベンチマークで,タスク精度を維持しつつ,最大4.2倍の推論速度向上と1.9倍の学習加速を実現。
記号的解法を超えて:大規模言語モデルにおける幾何学的推論のためのマルチChain-of-Thought投票 [cs.AI, cs.CL, cs.CV]目的:大規模言語モデルにおける幾何学的推論の性能向上
- 数学的推論能力向上には,幾何学問題解決が不可欠である。図と記号,論理的推論を組み合わせる必要がある。
- 従来のモデルでは,論理的推論が単一のChain-of-Thoughtに限定され,性能向上のボトルネックとなっていた。
- 本研究は,マルチChain-of-Thoughtと数値検証による論理的推論の強化を目指す。
- 提案手法MARS-GPSは,Geometry3Kデータセットで88.8%の正答率を達成し,既存の最先端手法を約11%上回った。
- 並列ロールアウト数を増やすことで,精度が向上し,16ロールアウトでは+6.0%の改善が見られた。
- トークンレベルのエントロピーを用いた信頼度信号によるランク付けと,多段階投票・自己検証パイプラインが有効であることが示された。
フローマッチングによる粗解像度天気予報の超解像化 [cs.LG, cs.CV]目的:粗解像度天気予報の超解像化手法
- 高精度な天気予報は,社会経済活動や防災に不可欠であり,その重要性は増している。
- 高解像度での数値予報は計算コストが非常に高く,実用上の制約となっている。
- 計算コストを抑えつつ,高解像度予報と同等の精度を実現することを目指す。
- 学習された生成的な超解像化を後処理として適用することで,空間解像度と予報を分離するフレームワークを提示した。
- 再粗解像化後の大規模構造と分散が保持されることが確認され,物理的に整合性の取れた小規模変動を導入した。
- 0.25度解像度において,運用アンサンブルベースラインと同等の確率的予報スキルを,適度な追加学習コストで達成した。
経験を羅針盤として:進化するオーケストレーションとエージェントプロンプトによるマルチエージェントRAG [cs.DM, math.CO, eess.SY, cs.SY, math.OC, cs.AI]目的:マルチエージェントRAGにおけるオーケストレーションとエージェントプロンプトの進化
- 複雑なクエリや推論には複数段階の処理が必要であり,マルチエージェントRAGはその有効性が期待される。
- 既存手法は静的なエージェント行動と固定されたオーケストレーション戦略に依存し,多様なタスクへの対応が困難である。
- HERAは,マルチエージェントのオーケストレーションとエージェントプロンプトを共同で進化させ,その問題を解決する。
- HERAは,6つの知識集約型ベンチマークにおいて,最新のベースラインと比較して平均38.69%の改善を達成した。
- トポロジカル解析により,効率的な協調と堅牢な推論を示す,疎な探索から生まれるコンパクトな高効率なマルチエージェントネットワークが明らかになった。
- 報酬誘導によるサンプリングと経験の蓄積により,クエリ固有のエージェントトポロジを最適化する。
制約付き最適化による疲労を考慮した先延ばし学習 [cs.LG]目的:人間とAIの協調における,AIが自律的に行動すべきか,人間専門家に判断を委ねるべきかの判断
- 人間とAIの協調は,それぞれの強みを活かし,より高度な問題解決を可能にするため重要である。
- 既存の先延ばし学習手法は,人間のパフォーマンスが一定であると仮定しており,疲労によるパフォーマンス低下を考慮していない。
- 人間の疲労を考慮した先延ばし学習により,人間とAIの協調におけるパフォーマンス向上を目指す。
- 提案手法FALCONは,心理学に基づいた疲労曲線を用いて,変動する人間のパフォーマンスを明示的にモデル化する。
- FALCONは,タスクの特徴と累積人間のワークロードを状態に含む制約付きマルコフ決定過程(CMDP)として先延ばし学習を定式化し,PPO-Lagrangian学習により人間とAIの協調予算の下で精度を最適化する。
- 実験により,FALCONは既存手法を上回り,未学習の専門家に対しても高い汎化性能を示すことが確認された。
タンパク質ネットワークのイベント埋め込み:生物学的機能の構成学習 [cs.LG]目的:タンパク質-タンパク質相互作用ネットワークにおけるシーケンス埋め込みの厳密な構成構造の強制
- 生命現象の理解には,タンパク質間の複雑な相互作用ネットワークの解析が不可欠である。
- 既存の手法では,ネットワーク構造から生物学的機能を正確に推論することが困難である。
- ネットワークにおける関係性と構成的推論能力を向上させるシーケンス埋め込み手法の開発。
- イベント埋め込みは,ランダムウォークを用いたパスウェイの一貫性において,従来のDeepWalkと比較して大幅な改善を示した。
- 機能的類似性の精度も向上し,ネットワーク構造から生物学的機能をより正確に推論することが可能となった。
- 構成性を強制することで,生物学的ネットワークにおける関係的および構成的推論タスクに特化した利点が得られた。
異質的長期処置効果推定のための直交学習器 [cs.LG, stat.ML]目的:異質的長期処置効果推定における安定性向上
- マーケティング,経済学,医学等において,個別化された意思決定に不可欠な手法である。
- 特定のサブ集団において,処置群と非処置群の重複が限られている場合,推定値が不安定になりやすい。
- 重複が少ない状況下でも,安定した長期処置効果推定を可能にすることを目的とする。
- 本研究では,短期のランダム化データと長期の観察データを組み合わせる際の課題に対処するため,LT-O-Learners(長期直交学習器)を提案する。
- LT-O-Learnersは,処置または長期観察における重複の低いサンプルを減重するカスタムオーバーラップ重み付けを導入することで学習目標を再設定する。
- 提案手法は,低重複環境において,既存手法と比較して,よりロバストな推定結果が得られることを合成データおよび準合成データによる実験で確認した。
実環境における自律型エージェントの貢献調査:活動パターンと経時的なコード変更 [cs.SE, cs.AI, cs.LG]目的:大規模言語モデルによるコード生成がソフトウェア開発に変革をもたらしている現状を踏まえた,自律型コーディングエージェントの貢献分析
- ソフトウェア開発において,AI技術の導入が進み,その影響を理解することが重要となっている。
- 自律型エージェントの貢献が拡大する一方で,コード品質やチームダイナミクスへの影響が不明確である。
- 実環境におけるエージェントの活動パターンと,生成コードの長期的な維持・更新状況を明らかにすること。
- オープンソースプロジェクトにおいて,エージェントの活動は増加傾向にあることが確認された。
- エージェントが生成したコードは,人間が作成したコードと比較して,より多くの変更(churn)が発生する傾向がみられた。
- コードの作成とレビューは,ソフトウェアエンジニアリングプロセスの一部に過ぎず,長期的な維持・更新が重要である。
