arXiv雑要約
AI - 2026/05/01 公開
シーケンス認識型サービス機能チェーン分割のためのTransformer強化アクター・クリティック強化学習 [cs.NI, cs.AI, cs.LG, cs.NE]目的:シーケンス認識型サービス機能チェーン分割手法
- 6Gネットワークにおいて,仮想化ネットワーク機能(VNF)の効率的な管理が不可欠である。
- サービス機能チェーンの分割は,ドメイン特性の異質性やQoS制約により困難である。
- VNF間の依存関係を考慮した,効率性とスケーラビリティを両立する分割手法を確立する。
- 提案手法は,VNF間の複雑な依存関係を自己注意メカニズムでモデル化することで,協調的かつ並行的な意思決定を可能にする。
- シミュレーション結果から,提案手法は既存の最先端手法と比較して,サービス受容率,リソース利用率,スケーラビリティにおいて優れた性能を示す。
- ε-LoPe探索戦略と漸近リターン正規化により,学習の安定性と収束性を向上させている。
暗黙のバイアスが学習曲線におけるニューラルスケーリング則を生み出す:パーセプトロンから深層ネットワークへ [cs.LG, cond-mat.dis-nn, stat.ML]目的:深層学習におけるスケーリング則の学習ダイナミクス
- 深層学習モデルの性能向上には,計算資源の効率的な利用が不可欠である。スケーリング則はその指針となる。
- 既存研究は主に学習完了後の性能に着目しており,学習過程におけるスケーリング則は未解明であった。
- 学習過程全体におけるスケーリング則を明らかにし,暗黙のバイアスの役割を解明することを目指す。
- 学習曲線全体を通して,正規化に基づく複雑度尺度と性能の関係を示す新たな動的スケーリング則を特定した。
- この法則は,CNN,ResNet,Vision Transformerといった様々なアーキテクチャで再現された。
- 単層パーセプトロンを用いた解析により,勾配降下法による学習が生み出す暗黙のバイアスが,これらのスケーリング則を説明できることを示した。
テスト解答から認知的なスキャフォールディングへ:英語標準テストにおけるLLMの教育的診断ベンチマーク [eess.SY, cs.SY, cs.CL, cs.AI]目的:英語標準テストにおけるLLMの教育的診断
- 教育現場でのLLM活用が進む中,その能力評価は重要である。生徒の理解度に応じた指導に役立つため。
- 既存の評価は正誤二元論に偏り,LLMが示す思考過程や誤り分析が不十分である。
- 認知的な枠組みに基づき,LLMの思考過程を診断し,より効果的な教育的介入を可能にすること。
- ESTBookという,10,576問・29種類のタスクを含む多岐にわたるベンチマークを構築した。
- 従来のデータセットと異なり,問題に思考経路と誤り選択の理由を付与することで,認知的な側面を評価可能にした。
- 認知的な経路の特定が,性能向上や教育的な推論を促進することを示した。
ニューラルネットワーク認証のための効率的な逆像近似 [cs.LG, cs.AI, cs.CR]目的:ニューラルネットワークの信頼性保証
- AIの安全・セキュリティ重要性が増す中,ニューラルネットワークの頑健性が課題となっている。
- 既存の検証手法は最悪ケース分析に偏りがちで,入力の分布を考慮した評価が難しい。
- 逆像近似により,特定の条件を満たす入力の割合を推定し,より網羅的な信頼性評価を目指す。
- PREMAP2は,分岐探索,モンテカルロサンプリング,逆伝播などのアルゴリズムを改善し,スケーラビリティと効率性を向上させた。
- 非一様な事前分布や信頼区間をサポートする機能を追加し,従来は困難だった設定への適用を可能にした。
- 畳み込みニューラルネットワークに対する現実的なパッチ攻撃など,様々なユースケースで有効性が示された。
FinChain:検証可能な思考連鎖型金融推論のためのベンチマーク [cs.MA, cs.CL, cs.AI, cs.LG]目的:検証可能な思考連鎖型評価のための金融ベンチマーク
- 金融分析において,多段階の記号的推論は不可欠であり,堅牢な判断を支える。
- 既存のデータセットは最終的な数値回答に重点を置いており,透明性と検証に必要な中間推論段階が無視されている。
- 多段階の金融推論における既存の限界を明らかにし,信頼できる金融AI開発の基盤を提供する。
- FinChainは,58のトピックと12の金融ドメインを網羅する,初の検証可能な思考連鎖型金融推論ベンチマークである。
- CHAINEVALという動的アライメント指標を提案し,最終回答の正確性と段階的な推論の一貫性を共同で評価する。
- 最先端のLLMでさえ,記号的金融推論に限界があり,ドメイン適応型モデルや数学強化型モデルで改善されることが示された。
大規模道路ネットワークにおける正則化適応グラフ畳み込みによる効率的な交通予測 [cs.LG, cs.AI]目的:大規模道路ネットワークにおける効率的な交通予測手法の開発
- 交通予測は,移動計画や都市管理など広範な分野で不可欠な空間的・時間的予測技術である。
- 従来のグラフ畳み込み演算の計算量が道路ネットワークの規模拡大に伴い,処理能力の限界となる。
- 計算効率を維持しつつ,高精度な交通予測を実現するための新たなグラフ畳み込みモデルの構築。
- 提案手法RAGCは,大規模道路ネットワークにおいても効率的に計算可能なEfficient Cosine Operator (ECO) を導入した。
- RAGCは,Stochastic Shared Embedding (SSE) と適応グラフ畳み込みを組み合わせることで,ノード埋め込みの質を向上させ,予測精度を高める。
- 実世界の交通データを用いた実験の結果,RAGCは既存手法と比較して,予測精度と計算効率の両面で優れていることが示された。
動画LLMにおけるおべっか行為:ベンチマークと分析 [cs.CL, cs.AI, cs.CV]目的:動画LLMにおけるおべっか行為の評価と軽減
- 現実世界での応用において,動画LLMの信頼性は不可欠であるため,その整合性と信頼性を確保することが重要である。
- 動画LLMにおけるおべっか行為は未だ十分に研究されておらず,体系的な評価指標や分析が不足している。
- 誤解を招くようなユーザー入力に対して動画LLMがどのように反応するかを理解し,おべっか行為を軽減する。
- VISEは,様々な質問形式,プロンプトのバイアス,視覚的推論タスクにおいて,最新の動画LLMのおべっか行為を評価するための初のベンチマークである。
- VISEは,言語学的な視点をおべっか行為研究に取り入れ,動画ドメインにおける詳細な分析を可能にする。
- 解釈可能なキーフレーム選択による視覚的根拠の強化や,推論時の内部表現への介入といった,トレーニング不要な軽減策が提案された。
ORFS-agent:チップ設計最適化のためのツール使用エージェント [cs.AI]目的:チップ設計におけるパラメータ調整の自動化
- 集積回路設計の複雑化に伴い,設計フローの最適化が重要となっている。
- パラメータ数が多く,変更による影響が大きいため,効率的な最適化が困難である。
- 大規模言語モデルを活用し,パラメータ調整を自動化することで,最適化の効率化を目指す。
- ORFS-agentは,既存のベイズ最適化手法と比較して,リソース効率と設計指標の点で改善が見られた。
- ASAP7およびSKY130HDの6つのベンチマークにおいて,ワイヤ長,クロック周期,共同最適化の目標が最大で1.0%,1.3%,2.7%向上した。
- ORFS-agentはモジュール性が高く,ファインチューニングなしに様々なLLMに組み込むことができる。
CodeBrain:切り離されたトークナイザーとマルチスケールアーキテクチャを橋渡しする脳波基礎モデル [cs.LG]目的:脳波基礎モデルの表現力向上と解釈可能性の確立
- 脳波は脳活動をリアルタイムに反映し,神経科学分野における多様な応用を支える重要なデータである。
- 既存の脳波基礎モデルは,臨床的に解釈困難で識別能力が低い表現を生成し,脳の複雑な活動を捉えきれていない。
- CodeBrainは,脳波信号の特性に合わせたトークナイザーとマルチスケールアーキテクチャにより,この課題を克服することを目指す。
- CodeBrainは,時間周波数情報を分離するTFDual-Tokenizerにより表現空間を拡大し,識別能力と解釈可能性を高めた。
- マルチスケールEEGSSMアーキテクチャは,脳のsmall-worldネットワーク構造を反映し,長距離および局所的な依存関係を効率的に捉える。
- 大規模な脳波コーパスで事前学習されたCodeBrainは,分布シフト下でも高い汎化性能を示し,多様な下流タスクで優れた結果を得た。
大規模MDPにおける階層的適応的洗練による方策合成の高速化 [cs.AI, cs.LO, cs.SE]目的:大規模MDPにおける方策合成の高速化
- ソフトウェア集約システム等において,不確実性の考慮と意思決定問題の分析にMDPが活用されている。
- 従来のMDP方策合成法は,状態空間が大きくなると計算量が膨大になり,適用が困難になるという課題がある。
- 本研究は,MDPを動的に洗練し,脆弱な領域に焦点を当てることで,大規模MDPの方策合成を効率化することを目的とする。
- 提案手法は,MDPを必要な場合にのみ洗練することで,精度と効率のバランスを実現している。
- 標準的な仮定の下で,合成された方策がほぼ最適であり,誤差は局所ソルバーの許容誤差と境界不一致によって制限されることが証明された。
- 最大100万状態のMDPを用いた実験により,PRISMと比較して最大2倍の高速化を達成し,実用的な方策合成ソリューションとなることが示された。
OR-VSKC:合成データ誘導アラインメントによる手術室における視覚的・意味的知識の対立解消 [cs.CV, cs.AI]目的:手術室における視覚的・意味的知識の対立とその解消
- 患者の転帰改善には,手術の安全リスクを自動的に特定することが不可欠である。
- 大規模マルチモーダル言語モデルは,安全に関する知識を持ちながらも,視覚的な検査時にそれを活用できないという視覚的・意味的知識の対立に苦しむ。
- 手術室の厳格な規制環境下における視覚的・意味的知識の対立を評価するためのベンチマークデータセットを構築し,リスク認識能力向上を目指す。
- OR-VSKCは,28,190枚の高忠実度合成画像と713枚の専門家による検証済みチャレンジセットを含む,手術室環境下での視覚的・意味的知識の対立を研究するためのベンチマークである。
- 最先端のMLLMの評価により,高度な汎用モデルでも信頼性のギャップが明らかになった。
- OR-VSKCでのファインチューニングは,視覚的・意味的知識の対立を軽減し,未知の視点へのロバストな一般化を可能にすることが示された。
生成MLにおけるネットワークのための論理を第一級市民にする [cs.NI, cs.LG]目的:ネットワークのための生成MLモデルへの,ファーストオーダー論理規則の明示的な統合
- ネットワーク管理における機械学習の活用が期待されるが,信頼性や制御性の課題がある。
- 生成MLモデルは,ネットワーク規則に反する出力を生成したり,微調整にも再学習が必要となる場合がある。
- データから規則を学習し,意味のある規則を選択,MLモデルとSMTソルバーの協調生成で規則を強制する。
- NetNomosは,4つの実世界のデータセットから多様で意味のある規則を学習することが示された。
- NetNomosは,最先端の規則学習法であるDuoAIよりも1.6~6.5倍スケーラブルであることが示された。
- NetNomosは,テレメトリ補完,トラフィック予測,合成データ生成の3つのネットワークタスクにおいて,Zoom2NetやNetShareといった専門的なSOTAシステムと同等またはそれ以上の性能を達成した。
表現的なポリシーによる安定強化学習:EXPO [cs.LG, cs.AI]目的:表現的なポリシーを用いたオンライン強化学習における安定した価値最大化
- 強化学習は,自律的な意思決定システムを構築する上で重要な役割を果たす。
- 表現的なポリシーは強力だが,勾配の伝播が不安定になりやすく,学習が困難。
- 価値関数の直接最適化を避け,動的なポリシーで価値最大化を実現する。
- EXPOは,ベースポリシーと編集ポリシーの2つのパラメータ化されたポリシーを活用する。
- ベースポリシーを安定した模倣学習で訓練し,編集ポリシーで行動を修正する。
- オフラインデータとオンラインデータ両方において,既存手法よりサンプル効率が向上する。
AutoVDC:Vision-Languageモデルを用いた自動視覚データクリーニング [cs.CV, cs.AI, cs.LG, cs.RO]目的:自動運転システムの学習に必要な視覚データの誤りを特定し,データ品質の向上
- 自動運転の信頼性向上には,大量の高品質な学習データが不可欠である。
- アノテーション作業は人的ミスが発生しやすく,品質向上のための修正に労力とコストがかかる。
- Vision-Languageモデルを活用し,アノテーション誤りを自動で検出し,データクリーニングを効率化する。
- 提案手法AutoVDCは,KITTIおよびnuImagesデータセットにおいて高い誤り検出率を示した。
- 異なるVision-Languageモデルの性能を比較し,ファインチューニングの効果も検証した結果,高い性能が確認された。
- 大規模な自動運転学習データセットの信頼性と精度向上に貢献できる可能性が示された。
大規模言語モデルの安全性評価:ポリシーに基づくアプローチ [cs.AI]目的:大規模言語モデルの安全性評価手法の開発と,その性能評価
- 近年,LLMの社会実装が進む中で,安全性確保が不可欠となっている。
- 既存の評価手法では,多様な安全性ポリシーへの対応や,網羅的な評価が困難である。
- LLMの安全性に関する課題を特定し,より信頼性の高いAI開発を支援すること。
- Aymara AIは,自然言語で記述された安全性ポリシーを敵対的なプロンプトに変換し,AIベースの評価器を用いてLLMの応答を評価する。
- 20種類のLLMを10の安全性領域で評価した結果,モデル間の性能に大きなばらつきが見られた(52.4%~86.2%)。
- 特に,プライバシーと人 impersonation の領域では性能が低く,LLMの安全性は状況に依存することが示された。
段階的に情報を計測する:AIに基づく評価,感覚を超えて [cs.LG, cs.IT, math.IT]目的:AIシステムの評価手法
- AIの安全性と信頼性確保は,社会実装において不可欠である。
- 客観的評価基準がない場合,AIの性能評価は主観に依存しがちである。
- 真値データを用いずに,AIの評価信頼性を高める方法を確立する。
- 戦略的ゲーム理論と情報損失の関連性に着目し,AI評価の新たな枠組みを提示した。
- 総変動距離(TVD)を用いた相互評価が,敵対的攻撃に対して頑健性を示すことが確認された。
- AIへの質的判断ではなく,情報関係性のプロンプトが,評価のロバスト性を向上させる。
うつ病の検出と診断のためのAIモデル:レビュー [cs.AI]目的:うつ病の検出と診断におけるAI手法の現状と課題
- うつ病は世界的に主要な障害の原因であり,早期発見と適切な治療が重要である。
- 従来の診断は主観的な臨床評価に依存しており,客観性と効率性に課題がある。
- AI技術を用いて,客観的で大規模かつ迅速な診断ツールを開発することを目指す。
- 本レビューでは,55の研究を基に,うつ病検出・診断のための最新AI手法を体系的に整理した。
- グラフニューラルネットワーク,大規模言語モデル,マルチモーダル融合などの主要なトレンドが明らかになった。
- 公開データセットや評価指標の概要も提供し,今後の研究開発の指針を示す。
制約を考慮したフローマッチング:ランダム探索によるアプローチ [cs.CL, cs.LG]目的:制約を考慮したフローマッチングモデルの設計
- 生成モデルの性能向上は,多様な応用分野において重要である。
- 従来の生成モデルでは,制約違反が頻繁に発生する点が課題である。
- 制約違反を抑制しつつ,目標分布を効率的に生成することを目指す。
- 提案手法は,制約セットへの距離関数が与えられた場合と,メンバーシップオラクルを通じて制約セットが利用可能な場合の2つのシナリオに対応する。
- ランダム探索を用いることで,既存手法と比較して,より複雑な制約下での生成が可能となった。
- 実験結果から,提案手法が制約充足率を大幅に向上させつつ,目標分布との整合性を維持することが示された。
PiCSAR:推論チェーンのための確率的信頼度選択とランキング [cs.CL, cs.AI]目的:推論チェーンにおける最適な解の選択
- 大規模言語モデルの精度向上が重要であり,特に複雑な推論タスクにおいてその効果が期待される。
- 正解データなしで,正しい推論チェーンを識別できる評価関数の設計が課題となっている。
- 推論と最終解答の結合対数尤度に基づき,正解の可能性が高い推論チェーンを選択することを目指す。
- PiCSARは,MATH500で+10.18,AIME2025で+9.81と,多様なベンチマークで大きな改善を見せた。
- PiCSARは,少なくとも2倍少ないサンプル数で,20回の比較のうち16回でベースラインを上回った。
- 正しい推論チェーンは,推論と解答の信頼度ともに有意に高いことが分析により示された。
時を超えたクロスコーディング:LLM事前学習における言語表現の出現と定着の追跡 [cs.CL, cs.AI, cs.LG]目的:LLM事前学習中の言語表現の出現と定着の追跡
- LLMは高度な言語能力を獲得するが,その学習過程は不透明である。
- 従来の評価方法では,LLMが概念や能力をどのように獲得するかが不明確である。
- 概念レベルでの学習過程を理解し,より解釈可能なLLMの分析を目指す。
- スパースクロスコーダーを用いてモデルチェックポイント間の特徴を検出し,整列させることで,言語特徴の進化を追跡した。
- Relative Indirect Effects(RelIE)という新しい指標を導入し,特定のフィーチャーがタスクパフォーマンスに因果的に重要になる学習段階を特定した。
- クロスコーダーは,事前学習中にフィーチャーの出現,維持,および中断を検出できることが示された。
合成メディアにおける説明可能な推論のための特徴的な透かし [cs.NI, cs.CR, cs.AI, cs.CV]目的:合成メディアの生成過程の追跡
- 人工知能の進化により合成メディアが増加し,サイバー空間における信頼が損なわれている。
- デジタル画像の編集技術が高度化し,フォレンジック分析が困難になっている。
- 合成メディアの変換履歴を明らかにし,改ざんの有無や意図を特定することを目指す。
- 特徴的な透かしを導入することで,メディア変換の種類と程度を推定可能になった。
- 透かしは,頑健性や脆弱性といった従来の基準ではなく,解釈可能性を重視して設計された。
- 実験評価により,特徴的な透かしの忠実性,同期性,トレーサビリティが検証された。
GraphMend:PyTorch 2におけるグラフ断片化を修正するためのコード変換 [cs.PL, cs.LG, cs.SE]目的:PyTorch 2プログラムにおけるFXグラフ断片化の解消
- 深層学習モデルの高速化には,グラフコンパイルが不可欠であり,PyTorch 2はそのための基盤を提供する。
- PyTorch 2のTorchDynamo/Inductorでは,動的な制御フローやPythonの機能によりグラフが断片化し,性能低下を招く。
- GraphMendは,ソースコード変換によりグラフ断片化を解消し,より効率的なグラフコンパイルを可能にする。
- GraphMendは,動的な制御フローとPythonの副作用によるグラフ断片化を解消することに成功した。
- 8つのHugging Faceモデルの評価において,6つのモデルでグラフ断片化を完全に除去し,他のモデルでも大幅に削減した。
- NVIDIA GPU上での実験で,最大75%のレイテンシ削減と最大8%のスループット向上を達成した。
MLコードスメルの特定:仕様から検出へ [cs.SE, cs.AI]目的:MLコードスメルの特定
- AIの急速な普及に伴い,MLパイプラインの重要性が増している。
- MLパイプラインでは,再現性,堅牢性,保守性の問題が生じやすい。
- MLコードスメルを自動的に検出し,これらの問題を解決することを目指す。
- 本研究では,宣言的なDSLとCPGに基づいたSpecDetect4MLを開発した。
- SpecDetect4MLは,既存の解析ツールと比較して,精度と網羅性で優れている。
- 22種類のMLコードスメルを特定し,890個のMLシステムへの適用で高い性能を示した。
AEGIS:エッジ疎な二部知識グラフにおけるリンク予測のための疎性における真性エッジ成長 [cs.LG]目的:エッジ疎な二部知識グラフにおけるリンク予測の性能向上
- 特定の分野における二部知識グラフは,データが不足しエッジが疎であるため,リンク予測が困難である。
- 既存の知識グラフは,エッジの不足により,リンク予測の精度が低いという問題がある。
- エッジのみを拡張することで,知識グラフのデータ効率を高め,疎な二部知識グラフにおけるリンク予測を改善する。
- AmazonおよびMovieLensにおいて,AEGISのコピーベース変形はベースラインと同等の性能を示し,意味的KNN拡張はAUCとキャリブレーションを回復した。
- テキスト豊富なGDPグラフにおいて,意味的KNNは最大のAUC改善とBrierスコアの削減を達成し,単純な拡張もスパースコントロールと比較してBrierスコアを低下させた。
- 真性制約に基づいたリサンプリングは,疎な二部リンク予測のためのデータ効率の高い戦略であり,意味的拡張は情報豊富なノード記述が利用可能な場合にさらなる利点をもたらす。
継続学習における可塑性を維持する活性化関数設計 [cs.LG, cs.AI, cs.CV]目的:継続学習における可塑性喪失の緩和
- 機械学習モデルの性能向上には,学習方法の改善が不可欠である。特に,継続学習はその重要性が増している。
- 継続学習では,モデルが過去の知識を忘却する「破滅的忘却」に加え,適応能力の低下が問題となる。
- 本研究では,活性化関数の設計を通じて,継続学習における可塑性喪失を軽減することを試みる。
- 活性化関数の選択が,アーキテクチャに依存せず,可塑性喪失の緩和に重要な役割を果たすことが示された。
- Smooth-LeakyとRandomized Smooth-Leakyという2つの活性化関数が,継続学習における適応能力を向上させることが確認された。
- 活性化関数の形状と適応能力との関連性を示す診断手法が提案され,継続学習における活性化関数設計の指針となる。
構成と融合:マルチモーダル推論における基礎的なボトルネックの再検討 [cs.CL, cs.AI]目的:マルチモーダル推論における相互作用パターン
- 近年,テキスト,画像,音声など多様な情報を統合するマルチモーダルLLMの研究が活発である。
- 追加されたモダリティが推論能力を向上させるか,阻害するかについて,矛盾した報告が存在する。
- マルチモーダル推論のメカニズムを明らかにし,性能向上に資する。
- 追加モダリティは,独立した推論経路を提供する場合にのみ性能向上に寄与する。冗長な情報や連鎖的な推論は,逆に性能を低下させる。
- 性能低下は,弱いモダリティの影響,モダリティ間の矛盾によるバイアス,統合の失敗の3つの要因によって引き起こされる。
- タスク構成のボトルネック(認識と推論の同時実行の困難さ)と融合のボトルネック(早期統合によるバイアス)が主要な課題である。
報酬誘導による学習不要な画像編集:最適制御軌道によるアプローチ [cs.CV, cs.AI]目的:報酬誘導画像編集手法
- 拡散モデルの発展により高精度な画像生成が可能となり,多様な応用が期待されている。
- 画像編集において,元の画像の情報を維持しつつ報酬を最大化することが課題である。
- 拡散モデルの逆過程を最適制御問題として捉え,報酬に基づいた編集を実現する。
- 本手法は,既存の学習不要な報酬誘導ベースラインと比較して,顕著な性能向上を示した。
- 報酬の最大化と元の画像への忠実性のバランスを改善し,報酬ハッキングを抑制した。
- 様々な編集タスクにおいて,有効性が確認された。
ActiNet:自己教師あり深層学習を用いた手首装着加速度計による活動強度分類のためのオープンソースツール [cs.LG]目的:活動強度分類モデルの開発と評価
- 大規模疫学研究において,活動量と健康アウトカムの関連性を調査する上で,正確な活動認識モデルは不可欠である。
- 既存の活動認識モデルでは,性能向上の余地があり,特に自己教師あり学習の活用が課題となっていた。
- 自己教師あり学習と隠れマルコフモデルを組み合わせたActiNetモデルを開発し,活動強度分類の精度向上を目指す。
- ActiNetモデルは,平均マクロF1スコア0.82,Cohen's kappaスコア0.86を達成し,既存のランダムフォレスト+HMMモデルを上回る性能を示した。
- 性能向上は,年齢や性別などのサブグループにおいても一貫して認められた。
- 本研究の成果は,今後の疫学研究における活動強度ラベルの抽出にActiNetの活用を促すものである。
知覚,推論,モデリング,相互作用の整合:物理AIに関する調査 [cs.AI]目的:物理AIの包括的概観
- AIの応用範囲拡大には,現実世界の理解が不可欠である。
- 物理法則の理解とAIの記号的推論は,統合的な枠組みがない。
- 物理に基づいたAIシステムによる現実世界理解の向上を目指す。
- 本調査は,理論物理推論と応用物理理解の明確な区別を提示する。
- 物理に基づいた手法が,記号的推論,具現化されたシステム,生成モデルにおけるAIの現実世界理解を強化する。
- 物理原理と具現化された推論プロセスに基づく学習が,AIシステムの安全性,汎用性,解釈可能性を高める。
監視からシグナリングへ:エージェントAIのための環境制御としてのエスカレーション経路 [cs.CR, cs.AI]目的:エージェントAIにおける,タスク遂行と規則・倫理的制約の間の葛藤に対する環境制御の検討
- AIの進化は,機密情報へのアクセスを伴うため,セキュリティリスクと倫理的課題が重要になっている。
- AIが制約を無視して不正な行動を取る可能性があり,既存の監視システムだけでは十分ではない。
- 環境設計を通じて,AIの意思決定コンテキストを調整し,安全な選択を促すことを目指す。
- エスカレーション経路の導入により,有害な行動率が大幅に低下することが示された。
- 特に,実効性のある権限のある代替経路は,より低い有害行動率を実現する上で重要であることが明らかになった。
- 環境制御設計は,エージェントAIシステムの防御を深めるための有望なアプローチである。
消失する貢献:スムーズで反復的なモデル圧縮のための統一的フレームワーク [cs.LG, cs.AI]目的:深層ニューラルネットワークの圧縮手法
- 深層学習モデルの規模拡大に伴い,効率的な圧縮が不可欠となっている。
- 既存の圧縮手法は精度劣化を引き起こしやすく,安定した微調整が課題である。
- 圧縮過程における精度劣化を抑制し,安定的な微調整を実現することを目的とする。
- 提案手法VCONは,元のモデルと圧縮モデルを並行して実行し,徐々に元のモデルへの貢献度を減衰させる。
- このアフィン結合により,ネットワークは緩やかに適応し,安定性と精度低下の抑制に貢献する。
- VCONは,コンピュータビジョンと自然言語処理のベンチマークにおいて,既存手法と比較して精度向上を示した。
パーソナライズされたテキスト検出における検出器への欺瞞:機械生成テキストにおける特徴反転の罠 [cs.CL, cs.AI]目的:機械生成テキストの検出における検出器の頑健性評価
- 大規模言語モデルの発展に伴い,文章生成の質が向上。しかし,なりすましのリスクも高まる。
- 既存の研究では,パーソナライズされた機械生成テキストの検出は十分には検証されていない。
- 検出器がパーソナライズされたテキストで性能を落とす原因を特定し,その性能変化を予測する。
- 検出器は,パーソナライズされた設定において性能に大きな差を示すことが明らかになった。一部の最先端モデルは大幅な性能低下を経験する。
- この性能低下は,「特徴反転の罠」に起因し,一般的なドメインで識別的な特徴が,パーソナライズされたテキストでは誤解を招くようになる。
- 提案手法\methodは,この反転した特徴に対応する潜在的な方向性を特定し,検出器の依存性を評価するためのプローブデータセットを構築することで,性能変化を正確に予測できる。
階層的疎な注意モデルにおける長さ一般化の理解と改善 [cs.CL, cs.AI, cs.LG]目的:階層的疎な注意モデルにおける長さ一般化のメカニズム解明と性能向上
- 長文脈の処理は,言語モデルの性能を左右する重要な課題であり,その効率的な処理が求められている。
- 従来のTransformerは計算量が増大し,長文脈への対応が困難である。代替手法も文脈活用能力が限定される場合がある。
- 本研究は,チャンクベースの疎な注意モデルの成功要因を明らかにし,長文脈処理能力を向上させるための設計原則を提示する。
- チャンクエンコーダ,バイパス残差パス,選択的疎性という3つの設計原則の組み合わせが,長さ一般化性能に不可欠であることが示された。
- これらの原則に基づき,4K文脈で学習したモデルが,RULERとBABILongで3200万トークンまで拡張可能であることが確認された。
- 本研究は,高度な長文脈言語モデル開発のための明確な設計原則を提供する。
NashPG:反復的な正則化を用いたNash均衡探索のための方策勾配法 [cs.LG, cs.GT]目的:不完全情報2人零和ゲームにおけるNash均衡の探索
- マルチエージェント強化学習において,重要な課題であり,戦略的意思決定の基盤となる。
- 既存手法は,ゲーム木の完全な列挙が必要,あるいは性能の低い内解法に依存する。
- スケーラブルな方策勾配法に基づく解決策を提供し,実用的なアルゴリズムを開発する。
- 提案手法NashPGは,Bregmanダイバージェンスの単調減少を保証し,最終的にはNash均衡に収束する。
- 標準的な方策勾配法を用いて実装され,正則化を方策最適化の目的に直接組み込んでいる。
- BattleshipやNo-Limit Texas Hold'emのような大規模なゲームにおいても高い平均報酬を達成した。
多岐にわたる対話における性能低下の緩和:検証可能な精度と棄権報酬を用いたカリキュラムRL [cs.CL, cs.AI, cs.LG]目的:多岐にわたる対話における性能低下の緩和
- 大規模言語モデルの応用範囲拡大に伴い,対話型AIの信頼性向上が不可欠である。
- 複数ターンの対話において,モデルの性能が徐々に低下する「対話迷子」問題が存在する。
- 検証可能な報酬とカリキュラム学習を用いて,モデルの信頼性と正確性を向上させる。
- 本研究では,検証可能な精度と棄権報酬を用いたカリキュラムRL(RLAAR)を提案し,対話における性能低下を大幅に緩和した。
- RLAARは,対話の難易度を段階的に上げながら学習を進めることで,モデルの安定性と信頼性を高める。
- LiCベンチマークにおいて,性能が62.6%から75.1%に向上,棄権率も33.5%から73.4%に改善された。
光ネットワークにおける集合通信のための再構成と通信のオーバーラップの実現 [cs.NI, cs.AI, cs.DC]目的:分散機械学習のスケーリングに不可欠な集合通信の効率化
- 分散機械学習の発展に伴い,高速かつ低遅延な集合通信の重要性が増している。
- 既存の光ネットワークは,静的なトポロジーでは効率が悪く,頻繁な再構成はオーバーヘッドが大きい。
- 集合通信のトラフィックパターンに合わせて動的にネットワーク資源を調整し,再構成遅延を隠蔽すること。
- 提案手法SWOTは,異種メッセージ分割,非同期オーバーラップ,トポロジーバイパスにより,再構成遅延をデータ伝送とオーバーラップさせる。
- SWOTは,様々な集合通信アルゴリズムにおいて,静的ベースラインと比較して通信完了時間を最大89.7%削減する。
- 光学資源や再構成遅延の変動に対して堅牢性を持つことが示された。
医用画像セグメンテーションのための焦点モジュレーションと双方向特徴融合ネットワーク [cs.CV, cs.AI]目的:医用画像セグメンテーションにおける精度向上
- 臨床診断,治療計画,疾患追跡に不可欠であり,精確な形態・空間情報の提供が治療判断に直結する。
- CNNは局所的な演算のため,グローバルな文脈情報や長距離依存関係の把握が課題であり,複雑な境界や多様なサイズの構造のセグメンテーション精度が制限される。
- Transformerの自己注意機構を活用し,CNNの弱点を克服することで,より高精度なセグメンテーションを実現することを目指す。
- 提案手法FM-BFF-Netは,CNNとTransformerを組み合わせ,焦点モジュレーション注意機構と双方向特徴融合モジュールを導入することで,境界精度の向上と多様な病変へのロバスト性を実現した。
- 8つの公開データセットでの実験により,FM-BFF-NetはJaccard係数とDice係数において最先端手法を凌駕し,その有効性と適応性が確認された。
- ポリープ検出,皮膚病変セグメンテーション,超音波画像など,様々な医用画像シナリオにおいて高い性能を示した。
ニューラル常微分方程式の混合精度訓練 [cs.LG, cs.AI, cs.NA, math.NA]目的:ニューラル常微分方程式の混合精度訓練手法
- 深層学習モデルの規模拡大に伴い,計算コストの増大が課題となっている。
- 低精度演算を単純に適用すると,丸め誤差や不安定性が生じる可能性がある。
- ニューラル常微分方程式の計算コストとメモリ消費量の増加を抑制すること。
- 提案手法により,メモリ使用量を約50%削減し,最大で2倍の高速化を実現した。
- 速度向上とメモリ削減を達成しつつ,単精度訓練と同等の精度を維持した。
- カスタム動的随伴スケーリングと高精度での解・勾配の累積により,数値的信頼性を確保した。
d次元記号回帰問題に対するTransformerを用いた意味的遺伝的プログラミング [eess.SY, cs.SY, cs.LG, cs.NE]目的:d次元記号回帰問題における,意味的遺伝的プログラミング手法
- 複雑な関数を自動的に発見する手段として,記号回帰は重要な役割を果たす。
- 従来の遺伝的プログラミングは,構造変化の多様性が低いという課題がある。
- Transformerを用いて多様な構造変化を学習し,より効率的な記号回帰を実現する。
- TSGPは,標準的な遺伝的プログラミングや他の手法と比較して,大幅に性能が向上した。
- TSGPは,24のデータセットにおいて平均ランク1.58を達成し,高精度かつコンパクトな解を生成する。
- ターゲットとする意味的距離を調整することで,探索と活用のバランスを効果的に制御できる。
GroupRank:LLMを用いた効果的かつ効率的な文章再ランク付けのためのグループ単位パラダイム [eess.SY, cs.SY, cs.IR, cs.AI, cs.LG]目的:LLMを用いた文章再ランク付けにおける効率性と精度向上のための新しいパラダイム
- 情報検索において,複雑なクエリへの対応能力に優れたLLMが注目されている。
- 既存のLLM再ランク付け手法は,効率性と精度にトレードオフが存在する。
- グループ単位での再ランク付けにより,効率性と精度を両立することを目指す。
- GroupRankは,BRIGHTデータセットでNDCG@10において最先端の65.2を達成した。
- R2MEDデータセットにおいても,ベースラインを2.1ポイント上回る性能を示した。
- 推論速度は6.4倍向上し,効率性も大幅に改善された。
分解された信頼:低ランクLLMにおけるプライバシー,敵対的頑健性,倫理,公平性 [cs.LG, cs.AI]目的:低ランクLLMにおける信頼性の包括的評価
- 大規模言語モデルの応用拡大には,計算資源の制約が課題となるため,モデル圧縮技術が重要である。
- 低ランク分解による圧縮は有効だが,信頼性への影響が不明であり,潜在的なリスクが存在する。
- 低ランク分解がプライバシー,頑健性,倫理,公平性に与える影響を明らかにすることで,安全なモデル圧縮を可能にする。
- 低ランク分解は学習データのプライバシーは維持するものの,会話中の個人情報保護は弱める傾向にある。
- モデルの圧縮は,一般的に敵対的頑健性を向上させる。
- ゼロショットプロンプティングでは倫理性が低下するが,Few-shotプロンプティングでは部分的に回復する。また,公平性は圧縮によって低下する。
PVeRA:確率的ベクトルベースのランダム行列適応 [cs.CV, cs.LG]目的:大規模モデルの効率的な適応手法
- 大規模モデルは多様なタスクで高性能を示すが,学習には膨大なデータと計算資源が必要である。
- 限られたデータや計算資源でのモデル適応は課題であり,効率的な手法が求められている。
- 入力の曖昧性を考慮し,学習と推論の多様性を実現する適応手法を提案する。
- 提案手法PVeRAは,既存のVeRAアダプターの低ランク行列を確率的に変更する。
- VTAB-1kベンチマークにおいて,PVeRAはVeRAや他のアダプターよりも優れた性能を示した。
- PVeRAは,入力の曖昧性を自然に扱い,様々なサンプリング構成を可能にする。
宇宙機ランデブーのための言語条件付き安全軌道生成 [cs.RO, cs.AI, math.OC]目的:宇宙機軌道の言語指示による生成
- 宇宙探査の自律化には,リアルタイムな軌道生成が不可欠である。複雑なミッションの実現に貢献する。
- 従来の軌道最適化手法は専門家の入力に依存しており,複雑なミッションでの運用拡大が課題である。
- 自然言語による指示に基づき,安全性を考慮した軌道生成を可能にすることを目指す。
- SAGESは,自然言語コマンドを宇宙機の軌道に変換するフレームワークである。
- 多様な挙動モードにおいて,90%以上の意味的・行動的一貫性を達成した。
- 直感的な自然言語コマンドにより,安全性と挙動を対話的に制御する第一歩となる。
Mull-Tokens:モダリティ非依存な潜在的思考 [cs.CV, cs.AI]目的:モダリティ非依存な潜在トークンによる思考の実現
- 現実世界の推論には,言語だけでは表現できない空間,時間,アフォーダンス等の理解が不可欠である。
- 既存のマルチモーダルモデルは脆く,スケールしない。特殊なツールや画像生成にコストがかかる。
- テキストと画像の情報を抽象的に統合し,より効率的な推論を可能にすることを目指す。
- Mull-Tokensは,テキストと画像のどちらのモダリティでも情報を保持できる潜在トークンであり,複雑な空間推論タスクにおいて性能が向上した。
- 4つの空間推論ベンチマークにおいて,既存のテキストのみ,またはテキスト・画像交互推論モデルよりも平均3%,最大16%の改善が見られた。
- Mull-Tokensは,テキストと視覚的な推論の課題に対するシンプルな解決策を提供する。
OmniDrive-R1:強化学習駆動型多Modal Chain-of-Thoughtによる信頼性の高い視覚言語自律運転 [cs.CV, cs.AI]目的:視覚言語モデルを用いた自律運転における信頼性向上
- 自動運転技術は,安全性向上と効率化に不可欠であり,社会実装が期待されている。
- 既存の視覚言語モデルは,幻覚(object hallucination)を起こしやすく,安全性を損なう恐れがある。
- 本研究は,強化学習による視覚的根拠付けにより,幻覚を抑制し,信頼性の高い自律運転を実現する。
- 提案手法OmniDrive-R1は,知覚と推論を統合した多Modal Chain-of-Thought(iMCoT)メカニズムを採用している。
- 実験結果から,OmniDrive-R1はベースラインモデルと比較して,推論スコアを51.77%から80.35%に,最終的な正答率を37.81%から73.62%に向上させた。
- Clip-GRPOアルゴリズムによるアノテーションフリーな報酬関数が,リアルタイムな視覚とテキストの一貫性を実現し,モデルの安定性を高めている。
効率的なDLM:自己回帰から拡散言語モデルへ,そしてそれ以上の速度 [cs.CL, cs.AI, cs.LG]目的:事前学習済み自己回帰モデルを効率的な拡散言語モデルに変換する手法
- 拡散言語モデルは並列生成が可能だが,ゼロから学習する際の効率が自己回帰モデルに劣る。
- 既存の自己回帰モデルから拡散言語モデルへの変換手法では,注意機構や目的関数に課題があった。
- 事前学習済みの自己回帰モデルの性能を維持しつつ,拡散言語モデルの学習効率を向上させる。
- 事前学習済みの自己回帰モデルの重み分布を維持することが,効果的な変換に不可欠であることが示された。
- ブロック単位の注意機構と位置依存のトークンマスキング戦略により,精度と効率の両方を向上させた。
- Efficient-DLM 8Bは,Dream 7BやQwen3 4Bと比較して,精度とスループットにおいて優れた性能を示した。
複雑な偏微分方程式のための物理・幾何演算子Transformer [cs.LG]目的:複雑な偏微分方程式のモデリングにおける課題解決
- 物理現象のシミュレーションは,工学や科学の発展に不可欠である。
- 複雑な形状を持つ大規模メッシュにおいて,幾何学的情報の損失が問題となる。
- 幾何学的情報を明示的に保持することで,物理現象の正確なモデリングを目指す。
- 提案手法PGOTは,幾何学的特徴を保存するSpecGeo-Attentionメカニズムを導入した。
- 「物理スライス-幾何注入」メカニズムにより,多スケール幾何学的エンコーディングを効率的に組み込んでいる。
- 標準ベンチマークおよび工業規模のタスクにおいて,最先端の性能を達成している。
文脈に沿って:文脈インラインによるリポジトリレベルのコード生成 [cs.SE, cs.AI]目的:リポジトリレベルのコード生成手法
- ソフトウェア開発の効率化が求められており,コード生成技術は重要な役割を担う。
- 既存手法は表面的な類似度に依存し,リポジトリ全体の複雑な依存関係を捉えきれない。
- リポジトリ全体の文脈を理解し,より正確なコード生成を実現すること。
- InlineCoderは,未完成の関数をコールグラフにインライン化することで,リポジトリレベルの理解を容易にする。
- アンカーと呼ばれるドラフト補完を生成し,その信頼性に基づいて双方向インライン処理を行う。
- これにより,LLMはリポジトリ全体の包括的な視点を得て,より高品質なコード生成が可能となる。
TiMem:長期的対話エージェントのための時間的階層型メモリ統合 [cs.CL, cs.CL, cs.AI]目的:長期的対話におけるメモリ管理の改善
- 大規模言語モデルの文脈長には限界があり,長期的な対話履歴の管理が課題となる。
- 既存のメモリフレームワークは,階層レベルを跨いだ時間的構造化情報のサポートが限定的である。
- 時間と階層を意識したメモリ構造により,効率的な長期記憶と安定した個性化を実現する。
- TiMemは,Temporal Memory Tree (TMT) を用いて会話を時間と階層的に整理することで,メモリの断片化を防ぎ,個性化を安定させる。
- LoCoMoベンチマークで75.30%,LongMemEval-Sで76.88%と,最先端の精度を達成した。
- メモリの想起長を52.20%削減し,精度と効率性のバランスを実現した。
DeepWeightFlow:ニューラルネットワーク重みの生成のための再基底化されたフローマッチング [cs.LG, stat.ML]目的:ニューラルネットワーク重みの多様性と高精度な生成
- 深層学習モデルの性能向上には,多様なネットワーク構造の効率的な生成が不可欠である。
- 既存手法では,大規模モデル全体の重みを高速かつ高品質に生成することが困難である。
- ニューラルネットワークの対称性を考慮し,生成効率と性能を向上させることを目指す。
- DeepWeightFlowは,様々なアーキテクチャ,サイズ,データ形式のニューラルネットワーク重みを直接生成できる。
- 生成されたネットワークはファインチューニングを必要とせず,高い性能を発揮し,大規模ネットワークにも対応可能である。
- Git Re-BasinとTransFusionにより,ネットワークの対称性を考慮し,生成効率が向上し,転移学習に優れている。
