arXiv雑要約
AI - 2026/04/06 公開
平面系分散基底不変制御のための複素数値GNN [cs.LG]目的:平面系の分散基底不変制御のための複素数値GNNのパラメータ化
- ネットワーク化された動力学系の学習制御において,GNNは分散配置の有効性から重要視されている。
- 既存の分散GNNアーキテクチャは,全てのノードが互換性のある基底で幾何学的観測を収集することを前提とする点が課題である。
- 本研究は,局所基底の選択に依存しないグローバル不変性を持つGNNアーキテクチャを開発し,その問題を解決する。
- 提案アーキテクチャは,複素数値線形層と位相等価活性化関数を用いることで,局所基底の選択に対する厳密な不変性を実現する。
- シミュレーション実験の結果,本アーキテクチャは,実数値ベースラインと比較して,データ効率,追跡性能,および汎化性能が向上することが示された。
- 特に,GPSやコンパスが利用できない環境下での制御性能向上が期待される。
AutoVerifier:大規模言語モデルを用いたエージェント型自動検証フレームワーク [cs.AI, cs.CR, cs.IR, cs.LG, cs.SI]目的:科学技術情報の検証
- 科学技術情報の分析において,技術的な主張の検証は不可欠である。
- 既存手法では,表面的確実性と深い方法論的妥当性のギャップを埋めることが困難である。
- ドメイン専門知識を必要とせず,技術的根拠の検証を自動化することを目標とする。
- AutoVerifierは,技術的根拠を(主語,述語,目的語)の形式で構造化し,知識グラフを構築することで,段階的に検証を行う。
- 量子コンピューティングに関する議論において,専門知識を持たない分析者でも,過剰な主張や指標の不一致を特定できた。
- 情報源の矛盾,開示されていない利害関係を明らかにし,証拠に基づいた評価を生成することが示された。
OntoKG:固有関係ルーティングによるオントロジー指向知識グラフ構築 [cs.AI]目的:オントロジー分析,エンティティの曖昧性解消,ドメインのカスタマイズ,LLMによる抽出のためのスキーマ設計
- 知識グラフは,大量の情報を構造化し,効率的な情報検索と推論を可能にする重要な技術である。
- 既存のアプローチでは,スキーマが構築プロセスに強く依存し,再利用が困難であるという課題がある。
- オントロジー指向のアプローチにより,スキーマの移植性と再利用性を高め,多様な応用を可能とする。
- 提案手法をWikidataのデータに適用した結果,3400万のノードと6120万のエッジからなる知識グラフを構築した。
- 構築されたスキーマは,オントロジー構造分析,ベンチマーク注釈監査,エンティティの曖昧性解消,ドメインカスタマイズ,LLMによる抽出といった応用で検証された。
- 固有関係ルーティングにより,カテゴリのカバレッジ93.3%とモジュール割り当て98.0%を達成し,高い精度を確保した。
LLMを判別者とする強化学習に基づく知識蒸留 [eess.SY, cs.SY, cs.CL, cs.LG]目的:LLMを判別者とする強化学習フレームワークによる知識蒸留
- 言語モデルの推論能力向上は,自然言語処理の重要な課題であり,より高度なAIシステムの開発に不可欠である。
- 従来の強化学習は,正解ラベルに依存するため,ラベルなしデータの活用が困難であった。
- LLMを判別者として活用することで,ラベルなしデータを用いた知識蒸留を可能にし,教師なし学習の課題を解決する。
- 提案手法は,大量のラベルなしデータに対してLLMがモデル出力を評価し,報酬を生成する。
- 検証可能な報酬と組み合わせることで,数学推論ベンチマークにおいて大幅な性能向上を達成した。
- LLMベースの評価者が,強化学習のファインチューニングのための効果的な訓練信号を提供できることが示唆された。
一度毒を盛れば,永遠に悪用可能:Webエージェントに対する環境注入型メモリーポイズニング攻撃 [eess.SY, cs.SY, cs.CR, cs.AI]目的:環境観察のみによるWebエージェントのメモリーポイズニング攻撃手法
- LLMを活用したWebエージェントは強力だが,その記憶機構はセキュリティ上のリスクとなりうる。
- 既存研究は直接的なメモリーアクセスや共有メモリーの脆弱性に焦点を当てており,環境観察による汚染は未解明であった。
- 環境観察のみでエージェントのメモリーを汚染し,クロスセッション・クロスサイトでの攻撃を可能にすること。
- 本研究で提案するeTAMPは,直接的なメモリーアクセスなしに,高い攻撃成功率(GPT-5-miniで最大32.5%)を達成した。
- エージェントが困難な状況に陥ると,攻撃成功率が大幅に向上する「フラストレーション悪用」現象が確認された。
- より高性能なモデル(GPT-5.2)であっても,環境注入型メモリーポイズニングに対する脆弱性が存在する。
スマート転送:視覚基盤モデルを活用した地震後高解像度画像による迅速な建物被害マッピング [eess.SY, cs.SY, cs.CV, cs.AI, cs.MM]目的:地震後の高解像度画像を用いた迅速な建物被害マッピング
- 気候変動により自然災害が頻発化・深刻化しており,迅速な災害対応が不可欠である。
- 従来の被害調査は,都市構造や災害の種類によって汎用性が低く,手作業によるアノテーションに時間がかかる。
- 視覚基盤モデルを活用し,異なる地域や災害への適応性を高め,迅速な被害マッピングを実現する。
- 提案手法Smart Transferは,Pixel-wise ClusteringとDistance-Penalized Tripletにより,ロバストな特徴量アライメントと空間的相関を学習する。
- 2023年のトルコ・シリア地震のデータを用いた実験により,複数地域への転送学習において良好な性能が確認された。
- Smart Transferは,災害対応の迅速化と地域社会のレジリエンス向上に貢献する,スケーラブルなGeoAIソリューションを提供する。
耳を傾け,話し,遊ぶ玩具:子供たちのAI玩具との意味形成とインタラクションの理解 [cs.HC, cs.AI]目的:子供たちのAI玩具に対する意味形成とインタラクション
- 現代社会において,AI技術は子供たちの生活に浸透しつつあり,その影響を理解することは重要である。
- AI玩具が提供する擬似的な社会的つながりが,子供たちの認識や行動にどのような影響を与えるか不明である。
- AI玩具とのインタラクションにおける子供たちの認識と期待のずれを明らかにすること。
- 子供たちはAI玩具を社会的な存在として認識し,積極的に関わろうとした。
- インタラクションの途切れや,玩具の形態と知性のギャップが,遊びの期待を阻害し,対立的な遊び方につながった。
- AI玩具のデザインは,透明性,発達段階への適合性,倫理的な配慮に基づいて行われるべきである。
非事例継続グラフ学習のための解析ドリフト抵抗器 [cs.LG, cs.AI]目的:継続グラフ学習における特徴ドリフトの抑制
- グラフニューラルネットワークは多様なデータ構造に対応でき,多くの応用分野で重要性が増している。
- 継続学習では,過去のタスクを忘却することなく新しいタスクを学習することが課題である。
- 本研究は,プライバシー保護と忘却抑制を両立し,継続グラフ学習の性能向上を目指す。
- 提案手法ADRは,凍結された事前学習モデルの制約を打破し,タスクグラフ分布の変化に適応する。
- 階層的解析マージ(HAM)は,リッジ回帰を用いてGNNの線形変換を層ごとにマージし,特徴ドリフトを完全に抑制する。
- 実験結果から,ADRは既存の最先端手法と同等の性能を維持することが示された。
AXELRAM:一度量子化したら,非量子化しない [eess.SY, cs.SY, cs.CL, cs.LG, cs.AR]目的:量子化されたKVキャッシュインデックスから直接注意スコアを計算するスマートSRAMマクロアーキテクチャ
- 大規模言語モデルの推論コスト削減は,限られたハードウェアリソースでの利用を可能にする上で重要である。
- 量子化はメモリ使用量を削減するが,精度劣化や計算量の増加を引き起こす可能性がある。
- AXELRAMは,非量子化を不要にすることで,量子化に伴う精度劣化と計算量増加を同時に解決する。
- AXELRAMは,直交変換に基づく量子化と非対称パス設計により,クエリごとの乗算回数を大幅に削減できる。
- 一部のモデルでは符号パターンに敏感であり,PPLが急増する現象が確認されたが,これはKVキャッシュにも起こりうる。
- 層ごとの正規化の不均一性が原因であり,勾配を用いない符号パターン選択により,この問題を解決できることが示された。
関節型車両における自己教師あり全方位深度推定のためのクロス車載3D幾何学的整合性 [cs.CV, cs.AI]目的:関節型車両における全方位深度推定の精度向上
- 自動運転における3D環境認識の重要性が高まっており,低コストな深度推定技術が求められている。
- 既存の自己教師あり深度推定法は,主に乗用車を対象としており,関節型車両への適用は困難である。
- 関節構造と運動連動に起因する幾何学的整合性の問題を解決し,深度推定の精度を向上させる。
- 提案手法ArticuSurDepthは,クロスビューおよびクロス車載幾何学的整合性を活用し,関節型車両の深度推定性能を向上させる。
- マルチビュー空間コンテキストエンリッチメントとクロスビュー表面法線制約により,空間的・時間的な構造的コヒーレンスを改善する。
- 自社構築データセットに加え,DDAD,nuScenes,KITTIベンチマークにおいて,最先端の性能を達成した。
ウォーターシュタイン・オートエンコーダと三角輸送による条件付きサンプリング [cs.CL, cs.HC, cs.HC, cs.RO, cs.LG, math.OC]目的:条件付きシミュレーションのためのフレームワーク
- 複雑なシステムにおける不確実性の定量化は,リスク管理や意思決定に不可欠である。
- 従来のシミュレーション手法は,高次元空間での計算コストや精度が課題となる。
- 低次元構造を活用し,効率的かつ高精度な条件付きシミュレーションを実現する。
- 条件付きウォーターシュタイン・オートエンコーダ(CWAE)は,条件付けられた変数と条件付け変数双方の低次元構造を利用する。
- CWAEは,低次元構造の活用と条件付きシミュレーションを両立するオートエンコーダを提供する。
- 数値実験の結果,CWAEは低ランクアンサンブルカルマンフィルター(LREnKF)と比較して近似誤差を大幅に削減する。
言語について:NLPにおけるメタ言語研究の考察 [cs.CL, cs.AI]目的:NLPにおけるメタ言語研究
- 言語理解の深化は,自然言語処理の根幹であり,高度なAI開発に不可欠である。
- メタ言語に関する研究は未成熟であり,その定義や応用範囲が明確でない部分が多い。
- メタ言語の多角的分析を通じて,今後の研究方向性を示唆することを試みる。
- 本研究では,メタ言語の定義とNLP,LLMとの関連性を提示した。
- メタ言語を中心とした研究室の取り組みを紹介し,メタ言語の4つの側面を議論した。
- 未解明なメタ言語関連タスクを特定し,将来の研究課題を提案した。
GBQA:LLMを品質保証エンジニアとして評価するためのゲームベンチマーク [cs.SE, cs.AI]目的:LLMによるソフトウェアバグの自律的な検出能力の評価
- ソフトウェア品質の確保は,現代のソフトウェア開発において不可欠であり,その自動化が求められている。
- 動的な実行環境の複雑さから,LLMによるバグ検出はコード生成に比べて難易度が高い。
- ゲーム開発を代表的な領域として,LLMの自律的なバグ検出能力を評価するためのベンチマークを構築する。
- GBQAは,30のゲームと124の人間が検証したバグを含むベンチマークであり,難易度レベルも考慮されている。
- 最良のモデルであるClaude-4.6-Opus(思考モード)でさえ,検証されたバグの約48.39%しか特定できないという結果が出た。
- GBQAは,自律的なソフトウェアエンジニアリングの進歩を促すための適切なテストベッドおよび評価基準となり得る。
通信なしサンプリングと4次元ハイブリッド並列化によるスケーラブルなミニバッチGNN学習 [cs.CL, cs.LG, cs.AI, cs.DC]目的:大規模グラフにおけるミニバッチGNN学習のスケーラビリティ向上
- 現実世界の多様なデータからグラフデータセットが生成され,GNNはその学習に広く利用されている
- 大規模グラフ学習には分散学習が不可欠だが,既存のミニバッチ手法はサンプリングやデータ並列化にボトルネックが存在する
- 通信コストを削減し,大規模GPU環境での並列化性能を向上させることを目指す
- ScaleGNNは,通信なし分散サンプリング,3次元並列行列乗算,データ並列化を組み合わせた4次元並列フレームワークである
- 各GPUデバイスがプロセス間通信なしにローカルミニバッチを構築可能にする均一な頂点サンプリングアルゴリズムを導入した
- Perlmutter環境において,ScaleGNNは最先端のベースラインと比較して,ogbn-productsデータセットでエンドツーエンドの学習速度を3.5倍向上させた
強化学習によるアライメントの一般化限界 [cs.LG, cs.AI]目的:強化学習を用いたアライメントの一般化性に関する限界
- 大規模言語モデルの安全性確保は重要であり,アライメント技術が不可欠である。
- 強化学習によるアライメントは,新たな能力を獲得するのではなく,既存の能力の利用確率を再配分する可能性がある。
- アライメントの一般化の失敗を利用した攻撃手法を提示し,安全性の評価手法の改善を目指す。
- 複数の攻撃手法を組み合わせることで,攻撃成功率が大幅に向上した(14.3%から71.4%へ)。
- この結果は,安全性のための学習がモデルの能力ほど広範囲に一般化しないという仮説を支持する。
- 複合的な攻撃シナリオを用いた多面的な安全性評価の必要性を示唆する。
プロダクト安定性:安定性の限界における勾配降下の収束性証明 [cs.LG]目的:勾配降下の収束性
- 深層学習の訓練は,損失関数の鋭さを示す安定性の限界付近で行われることが一般的である。
- 既存の理論的説明は,制限的な仮定に依存するか,特定の損失関数にのみ適用される。
- プロダクト安定性という損失関数の構造的性質に着目し,安定性の限界下での収束を証明する。
- プロダクト安定性を持つ損失関数において,勾配降下法は安定性の限界下でも局所最小値に収束する。
- この枠組みは,既存の結果を大幅に一般化し,二値交差エントロピー損失を含む幅広い損失関数に適用可能である。
- 分岐図を用いて訓練ダイナミクスを特徴づけ,安定した振動の発生と収束時の鋭さを定量化した。
事前学習済みモデルのランダム部分空間反復による低ランク圧縮 [cs.DB, cs.LG, cs.AI, cs.NA, math.NA, stat.ML]目的:事前学習済みモデルの効率的な圧縮
- 事前学習済みモデルの規模拡大に伴い,実用的な展開には効率的な圧縮が不可欠である。
- 特異値スペクトルが緩やかに減少する場合,ランダムSVDのような既存手法では近似精度が低下する。
- ランダム部分空間反復(RSI)によって近似精度を向上させ,高性能なモデル圧縮を実現する。
- RSIは,ランダムSVDと比較して,より優れた予測精度を達成する。
- RSIは,softmax摂動の分析を通じて,低ランク近似誤差と予測性能の間に明確な関係があることを示す。
- RSIはスペクトル分離を改善し,制御可能なメカニズムによって近似品質を高める。
パラメータ化された物理情報ニューラルネットワークと有限差分法を結合する数値手法:高度な熱水力システムシミュレーションへの応用 [cs.CL, cs.LG, cs.NA, math.NA]目的:原子力安全評価におけるパラメータスタディおよび不確実性定量化の効率化
- 原子力安全確保のため,MELCOR等のシステムレベルコードによる事故解析は不可欠である。
- パラメータスタディや不確実性定量化のためには多数のシミュレーションが必要であり,計算コストが課題である。
- 物理情報ニューラルネットワークと有限差分法を結合し,再学習なしで高精度なシミュレーションを実現する。
- 提案手法(P2F)は,MELCORのCVH/FPモジュールにおいて,運動量保存方程式をデータフリーで代替する。
- 6タンク重力排水シナリオにおいて,水面および速度の平均絶対誤差はそれぞれ$7.85 \times 10^{-5}$ m, $3.21 \times 10^{-3}$ m/sであった。
- 時間ステップ幅0.2~1.0秒で一貫した精度を維持し,5つの初期条件にも再学習なしで適用可能であった。
対話による最適化:インタラクティブな最適化のためのLLMエージェントの設計と評価 [cs.AI, math.OC]目的:最適化エージェントの対話を通じた評価手法
- 最適化問題解決は,問題設定が重要であり,関係者との対話が不可欠である。
- 従来の最適化手法では,対話的なやり取りの評価が困難であった。
- LLMエージェントを用いた対話的最適化の有効性を定量的に評価すること。
- 一括評価では捉えきれない,対話を通じた最適化エージェントの性能向上が確認された。
- ドメイン知識に基づいたプロンプトやツールを組み込むことで,より高品質な解を少ない対話回数で得ることが示された。
- AIと最適化の連携による,実用的な最適化技術の応用範囲拡大の可能性が示唆された。
多すぎる丁寧さ:マルチエージェントシステムにおけるおべっか行動の伝播に関する理解 [cs.CL, cs.AI, cs.MA]目的:マルチエージェントシステムにおけるおべっか行動の伝播
- 複雑な問題を解決するためには,複数エージェント間の協調が不可欠である。
- エージェントがおべっか行動を示すと,誤った合意形成につながる可能性がある。
- エージェントのおべっか傾向を認識することで,議論の質を向上させる。
- 他エージェントのおべっか傾向を認識させることで,おべっか行動の影響を軽減できる。
- エラーの連鎖を防ぎ,最終的な議論の精度を10.5%向上させることが確認された。
- 議論におけるおべっか行動を抑制し,精度を向上させるための,軽量かつ効果的な手法である。
敵対的・教師あり対照学習とInception-Attentionネットワークによる被験者間筋疲労検出 [cs.CL, cs.LG]目的:筋疲労の検出
- リハビリテーションにおいて,筋疲労の正確な検出は重要であり,運動機能回復の評価や訓練計画の策定に役立つ。
- 筋電図(sEMG)の特徴量は,動的収縮や被験者によって変動するため,筋疲労検出の安定性に課題がある。
- 本研究は,被験者間の変動を抑え,筋疲労の普遍的な特徴量を学習することで,よりロバストな検出を目指す。
- 提案モデルは,3クラス分類タスクにおいて93.54%の精度,92.69%の再現率,92.69%のF1スコアを達成した。
- Inception-Attentionモジュールとドメイン分類器の組み合わせにより,被験者間の特徴量の差異を効果的に抑制した。
- 教師あり対照学習の導入により,モデルの汎化性能が向上し,筋疲労検出の信頼性が高まった。
エージェント社会は知的なエリートを育成するか? LLMマルチエージェントシステムの集合的認知における隠れたべき乗則 [cs.MA, cs.AI]目的:LLMマルチエージェントシステムにおける協調ダイナミクスの法則性
- LLMエージェント社会の応用が増加しており,その能力向上は重要である。
- システム規模拡大に伴い,性能が低下したり不安定になる原因が不明である。
- 大規模な協調ダイナミクスの法則性を明らかにし,システム改善に繋げる。
- 協調はべき乗則に従うカスケードとして発生し,少数の知的なエリートに集中する。
- システム規模が大きくなるにつれて,極端な事象の頻度が増加する。
- 統合のボトルネックがこれらの効果を繋げており,DTIによって統合を促すことで性能が改善された。
スパースオートエンコーダによる信念幾何学の探索 [cs.HC, cs.CY, cs.IR, cs.LG, cs.AI]目的:大規模言語モデルにおける信念幾何学的表現の発見
- 機械解釈可能性において,内部表現の幾何学的構造の理解は不可欠である。
- 自然言語で学習した大規模言語モデルが同様の幾何学的表現を獲得するか不明であった。
- スパースオートエンコーダを用いて,Transformer表現内の信念幾何学的構造候補を発見すること。
- Gemma-2-9Bにおいて,13個の優先クラスタが候補となる単体幾何学的構造を示すことが判明した。
- 近頂点サンプルにおいて有意な予測優位性を示すクラスタが3つ,単体内部サンプルで4つ確認された。
- クラスタ768_596は,受動的予測と能動的介入の両方において最も高いスコアを示し,信念幾何学の存在を示す初期的な証拠となった。
意味操作を超えて:報酬モデルに対するトークン空間攻撃 [cs.LG, cs.AI]目的:報酬モデルへのトークン空間攻撃手法の開発
- 強化学習における人間のフィードバック活用は重要であり,報酬モデルはその最適化の鍵となる。
- 既存の攻撃は意味空間で行われ,人間が読める文章で報酬モデルの偏りを悪用する点が課題。
- トークン空間直接操作で報酬モデルを攻撃し,言語的な整合性を無視した脆弱性を明らかにする。
- トークンマッピング摂動攻撃(TOMPA)により,最先端の報酬モデルで極めて高い報酬を獲得可能。
- Skywork-Reward-V2-Llama-3.1-8Bにおいて,GPT-5の参照回答の報酬をほぼ2倍にし,98.0%のプロンプトで上回る。
- 生成された出力は意味不明なテキストに退化し,報酬モデルが意味領域を超えて悪用可能であることが示された。
Efficient3D:3D大規模マルチモーダル言語モデルにおける適応的・バイアス除去トークン削減のための統合的フレームワーク [eess.SY, cs.SY, cs.CV, cs.AI]目的:3D大規模マルチモーダル言語モデルの効率的な推論
- 3D領域における空間理解能力の向上は,ロボティクスやAR/VRなど,多様な応用分野を拓く重要な研究課題である。
- 大規模モデルと高次元入力により計算コストが増大し,リソース制約のある環境での実用展開が課題となっている。
- 計算コストを削減しつつ,3D大規模マルチモーダル言語モデルの性能を維持・向上させることを目指す。
- Efficient3Dは,信頼性の高い視覚トークン重要度推定モジュール(DVTIE)と,シーンの複雑さに応じて削減強度を調整する適応的トークンリバランス(ATR)戦略を導入した。
- 5つの3Dベンチマークにおいて,Efficient3Dは非削減ベースラインと比較して優れた性能を示し,Scan2CapデータセットでCIDErスコアが+2.57%向上した。
- Efficient3Dは,3D大規模マルチモーダル言語モデルにおける効率的な推論を実現するためのスケーラブルで効果的な解決策を提供する。
ワイヤレス画像伝送のための専門家混合メカニズムを活用した適応的意味通信 [cs.IR, cs.LG]目的:ワイヤレス画像伝送における適応的意味通信の実現
- 無線画像伝送は,多様なアプリケーションにおいて重要な役割を担う技術である。
- 既存の意味通信システムは,固定モデルに依存しており,多様な画像内容やチャネル状況への適応性に欠ける。
- リアルタイムCSIと画像セマンティクスを共同評価する動的エキスパートゲーティング機構による適応的意味通信を実現する。
- 提案手法は,従来の適応的アプローチの硬直的な結合を打破し,シングル駆動ルーティングのボトルネックを克服する。
- シミュレーション結果は,既存手法と比較して再構成品質が大幅に向上することを示している。
- また,伝送効率を維持しつつ,高い性能を発揮することが確認された。
DocShield:証拠に基づく推論を通じたAI文書安全性の追求 [cs.CV, cs.AI]目的:生成AIによる文書偽造に対する安全性評価手法
- 文書は重要な情報伝達手段であり,その真正性は社会活動の根幹をなすため,安全性の確保は不可欠である。
- 既存の文書フォレンジック技術は視覚的な特徴に依存し,テキストの微妙な操作を見抜くための根拠に基づいた推論が不足している。
- 視覚情報とテキストの意味を組み合わせた推論により,文書偽造の検出,位置特定,説明をより信頼性の高いものにすること。
- 提案手法DocShieldは,文書の偽造分析を視覚的・論理的共同推論問題として捉え,Cross-Cues-aware Chain of Thought(CCT)メカニズムによって高精度な分析を実現した。
- T-IC13およびT-SROIEベンチマークにおいて,既存手法やGPT-4oと比較して大幅な性能向上を示し,特にT-IC13ではF1スコアで41.4%の改善を達成した。
- RealText-V1という多言語文書画像データセットを構築し,公開することで,今後の研究促進に貢献する。
LieTrunc-QNN:リー代数の切り捨てと量子表現力相転移 - LiePruneから証明可能な安定量子ニューラルネットワークへ [cs.LG]目的:量子ニューラルネットワークの学習可能性に関する理論的枠組みの確立
- 量子機械学習は,従来の機械学習の限界を超える可能性を秘めているが,実用化には課題が多い。
- 量子ニューラルネットワークは,勾配消失問題やノイズに対する脆弱性といった学習上の困難を抱えている。
- リー代数に基づく構造化された量子回路により,学習の安定化と表現力の維持を目指す。
- LieTrunc-QNNは,量子状態の到達可能な多様体の次元と幾何学を通して表現力を再解釈する。
- 有効次元の増加は勾配抑制につながる一方,リー代数の切り捨てによる多様体の収縮は勾配の消失を防ぐ。
- 実験結果は,LieTrunc-QNNが安定した勾配と高い有効次元を維持し,勾配分散と有効次元の間のスケーリング則を支持することを示した。
些細な語彙制限が,深層的な言語制約よりもLLMの推論能力を向上させる [cs.CL, cs.AI]目的:LLMにおける推論能力向上策の検討
- LLMの性能は様々なタスクで目覚ましいが,推論能力には改善の余地がある。
- LLMは,学習データに依存した表層的な応答パターンに陥りやすい。
- 出力の正則化によって,LLMの浅薄な応答パターンを抑制することを目指す。
- 先行研究で示唆された特定の語彙と認知の関係は,実験によって確認されなかった。
- 単に「very」や「just」といった中立的な語彙を禁止するだけで,最も大きな推論能力の向上が見られた。
- 任意の制約が,LLMのデフォルトの生成経路を逸脱させ,推論能力を向上させる可能性が示唆された。
チョムスキー階層を通して見る大規模言語モデルの形式的推論能力の評価 [cs.CL, cs.AI, cs.LG, cs.SE]目的:大規模言語モデルの形式的推論能力の評価
- 自動ソフトウェア工学の進展には,大規模言語モデルの形式的推論能力が不可欠である。
- 既存のベンチマークは,計算と複雑さに基づく体系的な評価が不足しており,形式的推論能力の理解に課題がある。
- チョムスキー階層の視点から,大規模言語モデルの形式的推論能力を体系的に評価するベンチマークを開発し,その限界を明らかにすること。
- 大規模言語モデルの性能は,チョムスキー階層の複雑さレベルと明確な相関関係があることが示された。
- タスクの難易度が増すと,推論長と性能が大幅に低下することが明らかになった。
- より大規模なモデルや高度な推論手法は相対的な改善をもたらすが,実用的な信頼性を達成するには膨大な計算コストがかかり,効率性の問題が示唆された。
V2X-QA:自律運転におけるエゴ,インフラ,協調的視点横断的なマルチモーダル大規模言語モデルの包括的推論データセットとベンチマーク [cs.RO, cs.AI, cs.CV]目的:自律運転におけるマルチモーダル大規模言語モデルの性能評価
- 自動運転技術は,安全性向上や交通効率化に不可欠であり,その高度化が求められている。
- 既存のベンチマークはエゴ視点に偏っており,インフラや協調的運転状況での性能評価が不十分である。
- 多様な視点からの推論能力を評価し,自動運転の信頼性と協調性を向上させる。
- V2X-QAは,車両,インフラ,協調という3つの視点から評価できるデータセットとベンチマークである。
- 実験結果から,視点へのアクセス可能性が性能に大きく影響することが示された。
- インフラ側の推論は,交通状況の理解を深める上で有効であり,協調的な推論にはさらなる研究が必要である。
FluxMoE: 高性能MoE推論のための専門家居住の分離 [cs.LG]目的:大規模言語モデルの高性能なMoE推論
- 大規模言語モデルの性能向上にはMoEが不可欠だが,その巨大なパラメータサイズが課題となっている。
- GPUメモリの効率的な利用がボトルネックであり,KVキャッシュ容量が推論処理能力を制限している。
- GPUメモリをKVキャッシュに優先的に割り当てることで,推論時の性能低下を解消することを目指す。
- FluxMoEは,専門家のパラメータをGPUに常駐させないことで,メモリ使用効率を大幅に改善した。
- メモリ制約が厳しい環境下でも,vLLMと比較して最大3.0倍の推論処理能力を実現した。
- モデルの精度を損なうことなく,スループットの向上に成功した。
拡散言語モデルの評価の重要性:生成の最前線 [cs.LG, cs.CL]目的:拡散言語モデルの評価方法論の改善
- 言語モデルは自然言語処理の基盤であり,その性能向上が様々な応用を促進する。
- 拡散言語モデルは柔軟性を持つ一方,従来の評価指標では信頼性の高い比較が困難である。
- 拡散言語モデルの生成品質をより正確に評価するための方法論を確立すること。
- OpenWebTextが標準的なベンチマークとして採用されている理由と,LM1Bなどの代替案の限界を議論した。
- 尤度評価の限界を指摘し,生成パープレキシティのみに依存することの問題点を明らかにした。
- 生成パープレキシティとエントロピーをKLダイバージェンスの構成要素として捉え,生成フロンティアという評価手法を提案した。
MOMO:火星周回探査のための基盤モデル [cs.CV, cs.AI, cs.LG]目的:火星リモートセンシングのためのマルチセンサー基盤モデル
- 火星探査において,多様なセンサーデータの統合的利用は重要である。
- 異なる解像度を持つセンサーデータ間の整合性が課題となっていた。
- 最適なチェックポイント選択戦略によるモデルマージを試みる。
- MOMOは,HiRISE,CTX,THEMISの3つの主要な火星センサーから学習した表現を統合する初のマルチセンサー基盤モデルである。
- Mars-Benchの9つの下流タスクにおいて,ImageNetで事前学習されたモデルやセンサー固有の事前学習よりも優れた性能を示した。
- 特にセグメンテーションタスクにおいて,MOMOは一貫した大幅な性能向上を達成した。
競技プログラミングにおけるエージェント型強化学習によるグランドマスターレベルの達成 [cs.CY, cs.AI]目的:競技プログラミングにおけるAIの能力向上
- AI技術の進歩は,プログラミング分野においても人間の能力を超える可能性を示唆している。
- 既存のAIシステムは,競技プログラミングにおいてトップレベルの人間のパフォーマンスに及ばない。
- エージェント型強化学習を用いて,競技プログラミングで人間を超えるAIシステムの構築を目指す。
- GrandCodeは,複数のエージェントモジュールを連携させ,強化学習を通じて共同で改善するシステムである。
- Agentic GRPOにより,遅延報酬とオフポリシードリフトの問題に対処し,多段階のエージェントロールアウトを可能にした。
- GrandCodeは,Codeforcesのライブコンテストで3連覇を達成し,全人類参加者の中で常に1位となった。
IndustryCode:産業コード生成のベンチマーク [eess.SY, cs.SY, cs.MA, cs.SE, cs.AI, cs.CL]目的:産業コード生成の評価
- 産業分野における知能化・意思決定最適化において,大規模言語モデルのコード生成・理解能力が重要になっている。
- 既存のベンチマークは単一分野・言語に偏り,実世界での汎用性や複雑な産業シナリオへの対応が不十分である。
- 複数分野・言語に対応した包括的なベンチマークを提供し,産業応用におけるLLMの能力を評価する。
- IndustryCodeは,125の産業課題から派生した579の小問題で構成されており,厳格な問題記述とテストケースを伴う。
- 評価の結果,最高性能モデルであるClaude 4.5 Opusは,小問題で68.1%,主要問題で42.5%の正答率を達成した。
- ベンチマークデータセットと自動評価コードは,採択後に公開される予定である。
DeltaLogic:最小限の前提編集が論理的推論モデルにおける信念修正の失敗を明らかにする [cs.AI]目的:論理的推論モデルにおける信念修正能力の評価
- 動的な環境下では,固定された前提からの正解導出だけでなく,最小限の証拠変化に対する信念修正が重要である。
- 既存の推論ベンチマークは,信念修正能力を十分に評価できていない。
- DeltaLogicは,信念修正能力を評価するための新たなベンチマークを提供する。
- DeltaLogicは,自然言語推論事例を短い修正エピソードに変換するプロトコルである。
- 初期推論の精度は,信念修正の精度を必ずしも示唆しないことが,Qwenの評価で示された。
- Phi-4-mini-instructは比較的高い性能を示したが,信念修正における不安定性も確認された。
進捗と実現可能性の整合:長期的LLMエージェントのための神経記号二重メモリフレームワーク [cs.AI]目的:長期的タスクにおけるLLMエージェントの進捗と実現可能性の整合
- LLMは複雑な環境での意思決定に優れるが,長期的タスクでは課題が残る。
- エージェントは,無限の試行錯誤や目標からの逸脱といった問題を抱える。
- 進捗のずれと実現可能性の違反という2つの根本的な課題を分離し,解決を目指す。
- 提案手法は,ALFWorld,WebShop,TextCraftにおいて既存の基盤モデルを大幅に上回る性能を示した。
- 無効な行動率と平均軌跡長を劇的に削減することに成功した。
- 神経ネットワークベースの進捗メモリと,記号論理ベースの実現可能性メモリを同期的に活用する。
ソーシャルメディアにおける人災に関するクロスイベント検出と話題進化マイニング [cs.SI, cs.AI]目的:ソーシャルメディアにおける人災に関連するクロスイベントの検出と話題進化
- 災害発生時,ソーシャルメディアは情報共有の重要な手段であり,迅速な状況把握に不可欠である。
- 関連する複数のイベントが同時期に発生した場合,それらの関連性を特定し,影響を評価することが困難である。
- 主要なイベントに起因する類似のイベントを検出し,話題の変遷を分析することで,より包括的な理解を目指す。
- 提案手法であるCEEDフレームワークは,時間的に近いクロスイベントを高精度に検出できることを示した。
- ツイートのセグメンテーションとクラスタリングに基づき,イベントの重複と文脈の類似性を評価し,人為的な過失の影響を分析する。
- 話題進化アルゴリズムは,イベントのライフサイクルにおける話題の変化を捉え,多角的な視点を提供する。
Fisher幾何学による潜在拡散性の理解 [eess.SY, cs.SY, cs.LG]目的:潜在空間における拡散性の定量化と解析
- 潜在空間での拡散モデルは生成AIにおいて重要な役割を担う。
- 潜在空間での学習は,その幾何学的構造により性能劣化を引き起こす可能性がある。
- 拡散性の劣化原因を特定し,それを改善するための指標を提案する。
- 潜在空間拡散性は,拡散過程における最小二乗誤差の変化率によって定量化可能。
- この変化率はFisher情報とFisher情報率に分解され,エンコーダの幾何学的特性が重要な役割を果たす。
- 提案された指標を用いることで,潜在空間の幾何学的歪みを診断し,拡散モデルの性能改善に繋げることができる。
物理法則に基づいた群衆シミュレーションのための深層学習フレームワークSTDDN [cs.DC, cs.LG]目的:群衆シミュレーションの精度向上
- 公共安全管理,緊急避難計画,交通システムにおいて,正確な群衆シミュレーションは不可欠である。
- 従来のシミュレーション手法は,個々の軌跡に焦点を当てており,大規模な物理法則の表現が不十分である。
- 流体 dynamics の連続方程式を制約として導入し,シミュレーションの安定性と効率性を高める。
- 提案手法STDDNは,既存の最先端手法と比較して,長期的なタスクにおいて大幅に優れたシミュレーション性能を示す。
- STDDNは,推論速度の遅延を大幅に削減し,大規模シミュレーションへの応用を可能にする。
- 密度と速度を結合した動的グラフ学習モジュールにより,密度場の微分を効果的に計算し,誤差の蓄積を抑制する。
自由なクラス増分学習のための現実的なアプローチ [cs.LG]目的:自由なクラス増分学習におけるロバストな学習戦略
- 機械学習の応用範囲拡大には,継続学習が不可欠である。
- 既存のクラス増分学習は,固定されたタスクサイズを前提としている。
- 現実的なデータストリームに対応できる学習手法の確立。
- 既存のクラス増分学習手法は,自由なクラス増分学習において性能劣化を示すことが確認された。
- 提案手法は,クラスごとの平均目的関数と調整戦略により,ロバストな学習を実現する。
- 蒸留の制約,損失の正規化,DIWA導入が性能向上に貢献する。
ランダムサンプリングは打ち破りが難しい:最新LLMを用いたオンラインDPOにおける能動的選択 [cs.LG, cs.AI]目的:オンラインDPOにおける能動的選択の有効性評価
- 大規模言語モデルの性能向上には,効果的な学習データの選択が不可欠である。
- 事前学習済みモデルの知識が豊富であるため,データ選択戦略の効果が限定的になる場合がある。
- 能動的選択が,ランダムサンプリングと比較してデータ効率を向上させるか検証する。
- 能動的選択は,有害性,有用性,指示への追従において,ランダムサンプリングと比較して明確な改善を示さなかった。
- 勝率が向上する一方で,標準的なベンチマークによる評価では,一般的な能力が低下するという乖離が観察された。
- 能動的選択は,能力低下を緩和したり,分散を大幅に低減したりする効果がランダムサンプリングよりも優れていない。
センチネルエージェント:連邦型マルチエージェントAIシステムの安全性を確保するための意図検証付き委譲チェーン [cs.CR, cs.AI, cs.MA]目的:連邦型マルチエージェントAIシステムにおける検証可能な委譲チェーンの構築
- AIシステムの高度化に伴い,エージェント間の連携とセキュリティの確保が重要課題となっている。
- 既存のフレームワークでは,委譲の連鎖における権限の所在とポリシー違反の特定が困難である。
- 委譲チェーンの各段階における権限と意図の検証を通じて,AIシステムの安全性を高めることを目指す。
- センチネルエージェントは,委譲チェーンの検証可能性を確保するための形式的なフレームワークである。
- DelegationBench v4において,真陽性率100%,偽陽性率0%を達成し,攻撃に対する高い防御性能を示した。
- 自然言語推論モデルの微調整により,意図検証の精度を大幅に向上させることが確認された。
多エージェント協調における役割一貫性の向上:定量的役割明瞭化によるアプローチ [eess.SY, cs.SY, cs.AI]目的:多エージェントシステムの役割一貫性改善
- 大規模言語モデルによる多エージェントシステムは,複雑なタスク解決において重要性が増している。
- 役割の定義や割り当てが曖昧な場合,エージェントが役割を逸脱し,システム全体の性能が低下する。
- 定量的役割明瞭化を用いて,エージェントの行動と役割定義の整合性を高め,役割一貫性を改善する。
- 提案手法では,エージェントの行動軌跡と役割記述の間の意味的類似性に基づいて役割明瞭化行列を定義する。
- この行列を正則化項として軽量なファインチューニングに適用することで,役割一貫性を向上させ,タスク性能を改善する。
- ChatDev環境での実験により,QwenとLlamaにおいて,役割逸脱率が大幅に減少し,役割明瞭化スコアが向上し,タスク成功率も改善された。
認知的な受動性を打破する:認知的な整合性の視点からAI支援データリテラシーを再考する [cs.HC, cs.AI]目的:AI支援データリテラシーにおける認知的な受動性の打破
- データ分析能力は,情報に基づいた意思決定や問題解決に不可欠である。
- AIの過度な支援は,利用者の思考力を低下させ,受動的な学習を招く恐れがある。
- AIと利用者の認知的な要求との整合性を図り,より効果的な学習を促す。
- AIの応答モード(伝達的または熟慮的)と利用者の認知的な要求(受容的または熟慮的)の対応関係が示された。
- 認知的な整合性を損なうと,認知的な受動性または摩擦が生じることが示唆された。
- データリテラシー向上のための,AIと人間のより動的で適応的な相互作用の重要性が強調された。
LumaFlux:物理に基づいた拡散Transformerによる8ビット世界をHDRリアリティへ [cs.RO, cs.CV, cs.AI]目的:SDRからHDRへの再構成
- HDRデバイスの普及により,SDRコンテンツをHDRに変換する需要が高まっている。
- 既存のITM手法は,実世界の劣化やカメラパイプラインへの対応が難しく,画質劣化が生じやすい。
- 物理的・知覚的なガイドを用いた新しいSDR-HDR変換手法を開発し,画質劣化を改善することを目指す。
- LumaFluxは,物理と知覚の両方を考慮した拡散Transformer(DiT)であり,既存手法を上回る輝度再構成と知覚的な色再現性を実現した。
- 物理的ガイダンスモジュール,知覚的クロス変調層,HDR残差結合器などの要素を導入することで,HDR画像を高品質に再構成する。
- 大規模なSDR-HDR学習コーパスと評価ベンチマークを新たに構築し,公平かつ再現性のある比較を可能にした。
ネットワーク制約のあるユニットコミットメントにおける構造を考慮したコミットメント削減:ソルバーの最適性保証付き [cs.LG]目的:ネットワーク制約のあるユニットコミットメント問題における計算負荷軽減
- 電力系統の複雑化に伴い,ユニットコミットメント問題の計算量が飛躍的に増加しており,効率的な解法が求められている。
- 従来の解法では,ユニットごとのオンオフの組み合わせ探索に膨大な時間を要し,大規模問題への適用が困難である。
- 大規模なユニットコミットメント問題に対し,最適性を損なわずに計算時間を大幅に短縮することを目指す。
- 提案手法では,構造的に安定なコミットメント変数を事前に固定することで,探索空間を削減し,計算効率を向上させている。
- 大規模な電力系統モデルを用いた実験により,提案手法がソルバーの最適性保証を維持しつつ,計算時間を大幅に短縮することが確認された。
- 特に,複雑な制約条件を持つケースにおいて,提案手法は顕著な高速化効果を示し,実用的な解法となりうる。
CharTool:グラフ理解のためのツール統合型視覚的推論 [cs.MA, cs.SY, eess.SY, cs.CY, cs.HC, cs.AI]目的:グラフ理解のためのツール統合型視覚的推論手法
- 科学・金融分野においてグラフは不可欠であり,データに基づいた意思決定を支援する重要な要素である。
- 既存のマルチモーダル大規模言語モデルは,高品質な学習データの不足や,詳細な視覚的情報との対応付け,正確な数値計算の難しさから,グラフの推論が困難である。
- 本研究は,グラフ内容に基づいたツール統合型推論を可能にし,グラフ理解の性能向上を目指す。
- 合成グラフと実世界のグラフを組み合わせた大規模な学習データパイプラインDuoChartを提案し,多様で高品質な学習データを構築した。
- 画像クロッピングやコードベースの計算といった外部ツールをマルチモーダル大規模言語モデルに統合したCharToolを開発し,ツールを用いた推論能力を獲得させた。
- CharToolは,6つのグラフベンチマークにおいて既存モデルを大きく上回り,CharXiv (Reasoning)で+8.0%,ChartQAProで+9.78%の性能向上を達成した。
評価基準からトークンへ:指示応答タスクにおける評価基準とトークンレベル報酬の架け橋 [cs.CL, cs.AI]目的:大規模言語モデルの指示応答タスクにおける性能向上
- 複雑な指示応答タスクにおいて,大規模言語モデルを適切に調整することが重要である。
- 既存手法は応答レベルの報酬に依存しており,報酬の疎性と曖昧さの問題を抱えている。
- 応答レベルとトークンレベルの報酬を統合し,より詳細な報酬配分を実現すること。
- 提案手法「Rubrics to Tokens (RTT)」は,既存手法と比較して,指示応答と評価基準の精度において一貫して優れた性能を示した。
- RTTは,応答中のどのトークンが特定の制約に貢献しているかを予測するトークンレベル関連識別器を導入する。
- また,トークンレベルの報酬空間への移行に対応するため,新しいグループ正規化手法「Intra-sample Token Group Normalization」を提案した。
