arXiv雑要約
AI - 2025/10/14 公開
中間エンコーダ層からの優れた分子表現 [cs.LG, cs.AI, physics.chem-ph, q-bio.BM]目的:分子表現の最適化
- 計算化学において,分子の性質予測や分子生成等のタスクに不可欠な役割を担っている。
- 最終層のみを使用すると,有用な情報が失われる可能性がある。
- 中間層を活用し,分子表現の性能向上と計算効率化を目指す。
- 中間層の埋め込み表現を用いることで,最終層のみを使用する場合と比較して,平均5.4%から最大28.6%の性能向上が確認された。
- 中間層で切り捨てたエンコーダをファインチューニングすることで,平均8.5%から最大40.8%の更なる性能向上が見られた。
- 複数のベンチマークにおいて,最新の最高性能を達成した。
関数近似下における単調かつ保守的な方策反復法 [cs.LG, cs.AI, math.OC]目的:関数近似下での方策反復法の信頼性確保
- 強化学習は,複雑な意思決定問題を解決する上で重要な手法である。
- 関数近似を用いる場合,既存の方策反復法の理論的保証が失われる場合がある。
- 関数近似下でも保証が成立する,より信頼性の高い方策反復法を開発する。
- 提案手法であるRPIは,方策評価において新規なベルマン制約最適化を用いる。
- RPIは,価値関数の単調性を回復し,真の期待リターンを下回らないことを保証する。
- CRPIはRPIの評価を利用しつつ,関数近似誤差を考慮した保守的な方策更新を行う。
静的から適応的防御へ:UAV群ネットワークにおけるDoS攻撃に対するフェデレーテッドマルチエージェント深層強化学習駆動型移動標的防御 [cs.CL, cs.CR, cs.AI, cs.LG]目的:UAV群ネットワークにおけるDoS攻撃に対する能動的緩和
- UAVの普及により低高度ネットワークが重要視されている。スマートシティや緊急対応など,様々な重要用途への応用が期待されている。
- UAVネットワークは無線環境の開放性,動的なトポロジー,リソース制約から,深刻なDoS攻撃に脆弱である。
- 変化する環境に迅速に対応可能な,分散型防御メカニズムを確立し,ネットワークの信頼性と拡張性を向上させる。
- 提案手法は,最先端のベースラインと比較して,攻撃緩和率を最大34.6%向上させた。
- 平均復旧時間を最大94.6%短縮し,エネルギー消費量と防御コストをそれぞれ最大29.3%と98.3%削減した。
- これらの結果は,インテリジェントで分散型の防御メカニズムが低高度ネットワークを保護する可能性を示している。
LLMを定性的な評価者として:自然言語生成におけるエラー分析の自動化 [cs.CL, cs.AI]目的:自然言語生成システムの出力における共通の問題種類の構造化された報告書
- 自然言語生成の性能向上には,エラーの特定と改善が不可欠である。
- 従来の評価方法は数値スコアに偏重し,エラーの根本原因の特定が困難である。
- 自然言語生成システムの改善に向けた示唆を得るための定性的なエラー分析を自動化する。
- 提案手法は,人間が注釈したエラーとの一致率が2/3を達成し,高い精度を示す。
- LLMを定性的な評価者として活用することで,人間が作成したレポートと同様のエラータイプ報告書が生成可能。
- 事例研究において,提案手法を用いることで自然言語生成システムの性能を大幅に改善できることを示した。
視覚トークンにおける言語優先度を再検討:LVLMデコーディングのための情報開示 [cs.CV, cs.AI, cs.CL]目的:大規模ビジョン言語モデルのデコーディング過程における視覚情報の役割解明
- マルチモーダルタスクにおいて,視覚情報と言語理解の統合が重要である。
- 既存のLVLMは幻覚を起こしやすく,視覚情報がデコーディングにどのように貢献しているかが不明である。
- 視覚トークンが持つ意味情報を活用し,より正確なテキスト生成を可能にすること。
- 視覚トークンは幻覚が発生した場合でも意味のある視覚情報を含んでいることが示された。
- ReVisiTは,視覚トークンを参照してテキスト生成を誘導する,トレーニング不要のデコーディング手法である。
- ReVisiTは,5つのベンチマークにおいて,計算コストを削減しながら,最先端のデコーディング手法と同等またはそれ以上の性能を達成した。
連合学習における悪意のあるクライアントのオフライン検出のためのウェーブレット散乱変換とフーリエ表現 [cs.LG]目的:連合学習における悪意のあるクライアントの検出
- 分散環境での機械学習を可能にし,プライバシー保護が重要視される分野である。
- 悪意のあるクライアントがモデル性能を著しく低下させる可能性がある。
- 生データにアクセスせずに,悪意のあるクライアントを事前に検出すること。
- 提案手法WAFFLEは,ウェーブレット散乱変換またはフーリエ変換を用いてクライアントを効率的に識別する。
- WAFFLEは,低次元の埋め込み表現を活用し,軽量な検出器により高い検出精度を実現した。
- ベンチマークデータセット実験の結果,既存手法と比較して検出精度と分類性能が向上した。
VITA:テスト時適応によるゼロショット価値関数 [cs.CV, cs.AI]目的:ビジョン言語モデルのテスト時適応によるゼロショット価値関数学習
- ロボット工学において,環境への適応能力は重要であり,汎化性能が求められる。
- 事前学習済みのビジョン言語モデルは,一般化と時間的推論に限界がある。
- テスト時適応により,価値関数の推定精度を向上させ,時間的推論を可能にすること。
- VITAは,テスト時に自己教師あり損失を用いて軽量な適応モジュールを更新する。
- VITAは,単一の学習環境から,多様なタスクや環境,ロボット形態へ汎化する。
- VITAのゼロショット価値推定は,オフライン強化学習における報酬形成に活用でき,Meta-Worldベンチマークで高い性能を示す。
ツヴェルスキニューラルネットワーク:微分可能なツヴェルスキ類似度を用いた心理学的に妥当な深層学習 [cs.LG, cs.AI, cs.CL, cs.CV]目的:深層学習における類似度のモデルの心理学的妥当性の向上
- 深層学習の性能向上には,人間の認知特性に基づいたモデルの構築が不可欠である。
- 従来の深層学習の類似度モデルは,心理学的な知見と整合性が低いという課題があった。
- ツヴェルスキの類似度理論を深層学習に取り込み,より人間らしい学習モデルを実現すること。
- ツヴェルスキ類似度を用いた投影層は,線形投影層と比較して画像認識タスクで24.7%の精度向上を実現した。
- GPT-2の言語モデリングにおいて,ツヴェルスキ投影層の導入により,perplexityが7.8%減少し,パラメータ数が34.8%削減された。
- 提案手法は,線形投影層とツヴェルスキ投影層を学習されたプロトタイプへの入力刺激の類似度計算として統一的に解釈できる。
広範な思考とシミュレーションに基づく評価による,多面的な制約を持つ現実世界LLM計画 [cs.CL, cs.AI, cs.CL]目的:現実世界のLLM計画における,広範な思考とシミュレーションに基づく評価
- 現実世界の計画は,多様な情報や制約を統合する必要があり,AIの応用範囲は広い。
- 既存の長期的計画手法は,多面的な制約を扱うのが難しく,最適でない解につながる。
- 多面的な制約下での計画問題を解決するために,広範な思考をLLMに付与すること。
- 本研究では,Multiple Aspects of Planning (MAoP)を提案し,様々な側面からの事前計画を行う戦略家を活用する。
- MAoPは,計画の青写真をプランナーに提供することで,推論時のスケーラビリティを向上させる。
- 制約間の因果関係を考慮した新しいベンチマークTravel-Simを提案し,現実世界のシミュレーションを通じて計画を評価する。
推論モデルのアンラーニング:解答だけでなく,推論の痕跡を忘れ,推論能力を維持する [cs.AI, cs.LG]目的:大規模推論モデルにおける機械アンラーニングの問題と解決策
- 大規模言語モデルの進化により,高度な推論能力が実現し,様々な応用が期待されている。
- 学習データに機密情報が含まれる場合,モデルから完全に削除することが困難である。
- 推論過程における機密情報の痕跡を消去しつつ,推論能力を維持すること。
- 従来のアンラーニング手法は,推論モデルの特性に対応できておらず,推論過程に機密情報が残存する。
- 提案手法R^2MUは,推論過程の痕跡を抑制し,機密情報の漏洩を大幅に削減する。
- R^2MUは,DeepSeek-R1などの最新モデルにおいて,安全性と推論能力の両方を維持する。
類似性を保持するルーターによるエキスパート混合の負荷分散 [cs.CL, cs.LG]目的:スパース混合エキスパートモデルにおける負荷分散手法
- 大規模ニューラルネットワークの効率的な学習には,計算資源の有効活用が不可欠である。
- エキスパート選択において負荷が偏り,モデルの潜在能力が十分に発揮されない場合がある。
- 類似入力に対する一貫性のあるエキスパート選択を促し,冗長性を低減することを目指す。
- 提案手法は,一般的な負荷分散損失と比較して,36%高速な収束を実現した。
- モデルの冗長性が低減され,学習効率が向上した。
- 入力間の類似性を考慮することで,より安定したエキスパート選択が可能になった。
敵対的バンディットフィードバックによるオンライン選択的生成 [cs.LG]目的:大規模言語生成モデルにおける幻覚抑制のための選択的生成手法
- 近年,人間との対話が増える中で,生成モデルの誤った応答が問題視されている。
- 不確実な状況での応答を控える選択的生成は有効だが,敵対的な環境下での学習法は不足している。
- 敵対的環境下で,誤検出率を制御しつつ,効率的な選択的生成を可能にすることを目的とする。
- 敵対的バンディットアルゴリズムを応用したオンライン選択的生成アルゴリズムを提案した。
- 提案手法は,後悔から誤検出率への変換補題と,部分フィードバックの再利用により,誤検出率を制御可能である。
- 多様な学習環境下での実験により,ベースラインと比較して,誤検出率の制御と選択効率の維持が確認された。
熱力学コモゴロフ・アーノルドモデルによる構造化生成モデリング [cs.LG]目的:潜在空間におけるエネルギーベースモデルの学習
- 多様なデータモダリティに対応する生成モデルの枠組み構築が重要である。
- モデルの解釈可能性がモデル設計や生成品質向上,学習時間短縮に繋がっていない。
- 構造的・誘導的バイアスを活用し,高速かつ正確な推論を可能にする。
- 提案手法T-KAMは,ユニバリアートな関係性で事前分布を制約することで,逆変換法による高速な推論を実現する。
- 低次元の潜在空間と適切な誘導的バイアスにより,Importance Samplingが有効な事後サンプラーとなる。
- ISが失敗する場合,Population-based LMCを用いて,アニーリングされた分布の系列で事後サンプリングを改善する。
思考連鎖プロンプティングの再検討:ゼロショットが数ショットよりも強力になりうる [cs.CE, math-ph, math.MP, physics.comp-ph, physics.flu-dyn, cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける思考連鎖プロンプティングの効果検証
- 大規模言語モデルの能力向上に伴い,より高度な推論能力が求められている
- 思考連鎖プロンプティングは有効だが,最新モデルでは必ずしも有効とは限らない
- 最新モデルにおいて思考連鎖プロンプティングの効果を検証し,その限界を明らかにする
- Qwen2.5シリーズなどの最新モデルでは,従来の思考連鎖例はゼロショット思考連鎖と比較して推論性能を向上させない。
- 思考連鎖例の主な役割は,出力形式を人間の期待に合わせることであることが示唆された。
- Qwen2.5-MaxやDeepSeek-R1などの高度なモデルの回答で作成した強化された思考連鎖例も,推論性能の向上にはつながらなかった。
ストリートレンズ:ストリートビュー画像からの地域評価のための人間中心AIエージェントの実現 [cs.HC, cs.AI]目的:地域環境評価のためのスケーラブルな手法の開発
- 地域環境は,発達や健康に影響を与えるため,その評価は重要な研究課題である。
- 従来の評価手法は,時間と専門知識を要し,効率性に課題があった。
- 確立された調査プロトコルに基づき,VLMを活用して効率的かつ柔軟な評価を可能にする。
- ストリートレンズは,研究者がVLMの役割を定義することで,専門知識を分析の中心に据える。
- 既存の調査データとの統合により,信頼性を高め,評価可能な特性の範囲を拡大する。
- 研究者とAIが連携し,地域研究の加速とスケールアップを実現する。
点火段階:高速な敵対的頑健性のための標準的な訓練 [cs.LG, cs.AI]目的:敵対的頑健性の効率的な獲得
- 機械学習モデルのセキュリティ確保は重要であり,敵対的攻撃に対する頑健性が不可欠である。
- 従来の敵対的訓練は計算コストが高く,必ずしも最適な特徴表現を獲得できていない。
- 標準訓練による特徴表現の事前調整を通して,敵対的訓練の効率と効果を向上させる。
- 敵対的進化訓練(AET)は,標準訓練と敵対的訓練を組み合わせることで,従来の敵対的訓練と同等かそれ以上の頑健性をより迅速に達成する。
- AETはクリーンな精度を向上させ,訓練コストを8-25%削減する。
- 様々なデータセットとアーキテクチャにおいて,その有効性が確認された。
AIのための新たな知識資源に関するコミュニティ主導のビジョン [cs.RO, cs.AI]目的:AIのための新たな知識資源のビジョン
- AI発展には,多様なタスクに対応できる知識資源が不可欠である。
- 既存の知識資源は,検証可能性や汎用性に課題が残っている。
- 実用的な応用における知識モジュールの有効活用を目指す。
- 本研究では,AI分野の研究者50名以上の意見をまとめ,コミュニティ主導による新たな知識基盤の構築を提言する。
- 現代の知識表現・推論技術を活用し,オープンなエンジニアリングフレームワークを構築することが重要である。
- 貢献者間の合意形成を促す規範と社会構造を含むフレームワークの必要性が示唆された。
SAFEx:MoEベースLLMの脆弱性分析 - 安定した安全クリティカルな専門家識別による [cs.LG, cs.AI, cs.CR]目的:MoEベースLLMにおける位置的脆弱性の形式化と体系的な分析
- LLMは高性能だが,安全性の確保が重要課題。特にMoEアーキテクチャでは,その特性上新たな脆弱性が生じる可能性が指摘されている。
- 従来のLLMの安全性対策は,MoEアーキテクチャ特有の位置的脆弱性への対応が不十分であった。
- 安全クリティカルな専門家を特定し,MoEモデルの安全性を効率的に向上させる手法を開発することを目指す。
- SAFExフレームワークにより,安全に関わる専門家を安定的に識別・特徴付け・検証することが可能となった。
- 識別された専門家は,有害コンテンツ検出グループと有害レスポンス制御グループの2つの機能グループに分類された。
- Qwen3-30B-A3Bにおいて,12個の専門家を無効化することで,拒否率が22%低下した。LoRAを用いた軽量な適応により,さらなる安全性向上が確認された。
パラメータを超えて:スケーリング則のための仮想論理的深さの探求 [cs.AI]目的:大規模言語モデルのスケーリングにおける仮想論理的深さの影響
- 言語モデルの性能向上には,モデルの規模拡大が不可欠であり,計算資源の効率的な利用が課題である。
- 既存のスケーリング手法では,パラメータ数増加が中心であり,それ以外の次元でのスケーリングは未解明な点が多い。
- パラメータ数を増やさずに論理的な深さを増やすことで,スケーリングの新たな可能性を探求することを試みる。
- 仮想論理的深さ(VLD)は,パラメータ数を固定したまま知識容量をほぼ変えずに,推論能力を大幅に向上させることが示された。
- VLDによる推論能力の向上は,モデルのアーキテクチャや再利用スケジュールに依存せず,汎用的なスケーリング挙動を示すことが確認された。
- これらの結果は,将来のスケーリング戦略に示唆を与え,超知能の実現には巨大なモデルだけが必要ではなく,パラメータの再利用と論理的深さの増加が重要である可能性を示唆する。
構造化コルモゴロフ・アーノルドニューラルODE:解釈可能な学習と非線形ダイナミクスの記号的発見 [cs.LG, cs.AI, cs.SC, nlin.CD, physics.data-an]目的:非線形動的システムの解釈可能なモデルの発見
- 科学技術における非線形動的システムの理解・モデル化は重要課題である。
- 深層学習は複雑な挙動を捉えるが,精度と解釈性の両立が困難である。
- 本研究は,物理的に解釈可能なモデルをデータから発見することを目的とする。
- SKANODEは,予測精度において優れた性能を示す。
- 物理法則に合致するダイナミクスを発見し,複雑な非線形挙動を明らかにする。
- F-16機におけるヒステリシス現象を特定し,簡潔な記号式で記述することに成功した。
畳み込み,内在次元,拡散モデルについて [cs.DL, physics.data-an, physics.soc-ph, cs.CL, cs.LG, cs.AI, stat.ML]目的:拡散モデルにおける局所内在次元の推定精度向上
- 高次元データ解析において,データは低次元多様体上に存在すると仮定される。多様体の性質理解は重要である。
- 既存の局所内在次元推定手法は,現実離れした仮定に基づいていることが課題であった。
- より現実的な仮定下で,拡散モデルにおける局所内在次元推定手法FLIPDの正当性を証明すること。
- 本研究により,FLIPDが現実的な条件下でも正確に局所内在次元を推定できることが数学的に証明された。
- ガウス畳み込みの代わりに一様畳み込みを用いた場合にも同様の結果が成立することが示された。
- この結果は,多様体構造の理解や異常検知など,幅広い応用が期待される。
グラフ構造フィードバックによるマルチモデルオンライン適合予測 [cs.LG]目的:オンライン適合予測における有効モデル部分集合の識別
- 機械学習モデルの信頼性評価は重要であり,特に分布シフトへの対応が求められる。
- 候補モデル過多は計算コスト増大,無関係モデルの包含は予測性能低下を招く。
- グラフ構造フィードバックを用いて効率的に有効モデルを選定し,予測精度向上を目指す。
- 提案手法は,逐次的に有効モデルを特定することで,計算コストを削減し,予測集合のサイズを縮小する。
- 予測集合サイズをフィードバックに利用することで,保証されたカバレッジを維持しつつ,効率的な予測が可能となる。
- 実データおよび合成データ実験により,提案手法が既存手法よりも小型の予測集合を生成することが確認された。
複雑度を考慮したファインチューニング [cs.LG, cs.CL]目的:複雑度に応じた効率的なファインチューニング手法
- 汎用LLMの特定の分野での性能向上が求められている
- CoT蒸留は高コストであり,大量のデータが必要となる
- エントロピーに基づき複雑なデータのみを推論し,データ量を削減する
- 提案手法は,標準的なSFTアプローチと比較して平均精度が向上した(0.58 vs 0.45)
- また,蒸留アプローチと比較しても平均精度が向上した(0.58 vs 0.56)
- データ使用量は81%削減された
科学文献からの構造活性相関の高精度抽出のための相乗的フレームワークDoc2SAR [cs.CL, cs.AI, cs.IR]目的:科学文献からの構造活性相関の抽出
- 医薬品開発や材料研究において,文献からの構造活性相関の抽出は不可欠である。
- 多様な文献形式と既存手法の限界により,構造活性相関の抽出は依然として困難な課題である。
- 本研究は,ドメイン特化的なツールとファインチューニングされたMLLMを組み合わせることで,この課題を解決する。
- 提案手法Doc2SARは,科学文献からの構造活性相関抽出において最先端の性能を達成した。
- DocSAR-200データセットにおいて,Table Recall 80.78%を達成し,GPT-4oを51.48%上回った。
- 効率的な推論とウェブアプリケーションを通じて,実用性も実証された。
ViFusionTST:荷重信号からの時系列画像表現の深層融合による早期ベッド離床予測 [cs.CV, cs.AI]目的:早期ベッド離床意図の予測
- 病院や介護施設における転倒は重大な傷害の原因であり,予防が重要である。
- 既存の転倒検知アラームは,患者がベッドから離れてから作動することが多い。
- ベッド下の低コストな荷重セルのみを用いた早期離床予測を目指す。
- 提案手法ViFusionTSTは,荷重信号を画像に変換し,深層学習モデルで融合することで高い予測精度を達成した。
- 実際の介護施設データにおいて,F1スコア0.794,正解率0.885という良好な結果が得られた。
- この結果は,荷重センサー信号の画像ベースの融合が,実用的かつプライバシーを保護しながら転倒予防に有効であることを示唆する。
強化学習による人間フィードバックとコントラスト学習の隠れた関連性 [cs.LG, cs.AI, stat.ML]目的:大規模言語モデルの人間価値との整合性向上
- LLMの性能向上には,人間との整合性が不可欠であり,その手法が注目されている。
- 従来のRLHFはコストが高く,DPOにも改善の余地がある。
- 相互情報最大化の視点からRLHF/DPOを解釈し,より効率的な手法を提案する。
- RLHFとDPOは,コントラスト学習として解釈可能であり,相互情報最大化に基づいていることが示された。
- MIOは,DPOで観測される選択確率の低下を緩和し,推論や数学的ベンチマークで優れた性能を発揮する。
- 相互情報の推定方法をJS推定器に置き換えることで,性能向上を実現している。
進歩の錯覚か? ビジョン言語モデルにおけるテスト時適応の批判的考察 [cs.LG, cs.CV]目的:ビジョン言語モデルにおけるテスト時適応手法の評価基準
- 画像と言語を理解するAIモデルの性能向上は,様々な応用分野において重要である。
- テスト時適応の研究は,実験設定の不統一や評価指標の少なさにより,公平な比較が困難である。
- 本研究は,より信頼性の高いテスト時適応手法の開発を促進するための公平な評価基盤を提供する。
- 既存のテスト時適応手法は,初期の研究と比較して限定的な改善しか示していないことが明らかになった。
- 現在のテスト時適応手法は,学習時の微調整手法との連携が不十分であるという課題が示された。
- 精度向上が,モデルの信頼性低下を招く場合があることが示された。
LLM自己改善訓練ダイナミクスのソルバー・ベリファイアーギャップによる理論的モデリング [cs.LG, cs.AI]目的:LLM自己改善訓練のダイナミクス
- LLMは急速に進化しており,その性能向上は様々な応用分野で不可欠である。
- LLMの自己改善プロセスにおける性能進化のメカニズムは未だ解明されていない。
- ソルバー・ベリファイアーギャップの概念を用いて,自己改善訓練のダイナミクスを定量的に分析する。
- 自己改善は,外部データに頼らずLLMの性能を向上させる重要な手法である。
- 理論モデルを実験結果に適合させることで,自己改善の能力限界を定量化できる。
- 限られた外部データ下では,データ追加のタイミングが最終的な性能に大きく影響しないことが示された。
PULSE:大規模マルチモーダルモデルのアンラーニングに関する実用的な評価シナリオ [cs.LG, cs.AI]目的:大規模マルチモーダルモデルのアンラーニング評価のためのプロトコル
- プライバシー保護や著作権侵害への対応が重要視される中,モデルの「忘却」技術が注目されている。
- 大規模マルチモーダルモデル(LMM)におけるアンラーニングの実用的な評価フレームワークが不足している。
- LMMにおける,事前学習知識のアンラーニングと長期的な持続可能性という2つの観点を評価する。
- 既存のアンラーニング手法は,ファインチューニングで獲得した知識のアンラーニングには成功するものの,事前学習で獲得した知識の除去には苦戦する。
- 一括してターゲットデータをアンラーニングできる手法は,データを分割して逐次的にアンラーニングすると性能が大幅に低下する。
- PULSEプロトコルは,LMMのアンラーニングにおける現実的なシナリオを評価するための新たな枠組みを提供する。
勾配に対するEquivariantアーキテクチャGradMetaNet [cs.RO, cs.LG, cs.AI]目的:勾配学習のためのアーキテクチャ
- ニューラルネットワークの勾配は,最適化,編集,分析に有用な情報を含むため重要である。
- 既存の勾配学習アルゴリズムは,勾配処理に特化したアーキテクチャではないため,適用範囲が限られる。
- 勾配処理に特化したアーキテクチャを設計し,勾配学習の性能向上を目指す。
- GradMetaNetは,ニューロン置換対称性を保存するEquivariant設計,複数データポイント間の勾配セット処理,rank-1分解による効率的な勾配表現に基づいている。
- GradMetaNetは,従来の勾配ベース関数を近似できない既存手法に対し,自然勾配に基づく関数を近似可能である。
- MLPおよびTransformerを用いた実験で,学習最適化,INR編集,損失地形の曲率推定といった様々な勾配ベースタスクにおいて,GradMetaNetの有効性が示された。
再帰モデルにおける系列長一般化の理解と改善 [cs.CY, cs.LG]目的:系列長一般化の理解と改善
- 系列長が長いデータ処理は重要だが,計算コストが課題となる。
- 再帰モデルは理論上任意の長さの系列を扱えるが,学習時の系列長を超える場合に性能が低下することがある。
- 学習時に経験する状態の分布を広げ,系列長一般化性能を向上させる。
- モデルが到達可能な状態の多様性が不足していることが,系列長一般化の失敗要因である可能性が示された。
- 状態の初期化にガウスノイズや別の系列の最終状態を用いることで,系列長一般化が改善された。
- 学習後処理のわずかなステップ数で,訓練コンテキストの桁違いに長い系列に対して一般化性能が向上した。
新たなハイブリッドグレイウルフ差分進化アルゴリズム [cs.NE, cs.SY, eess.SY, physics.app-ph, physics.comp-ph]目的:グレイウルフ最適化と差分進化のハイブリッドアルゴリズムの提案
- 最適化問題は,科学技術の様々な分野で不可欠であり,効率的な解法が求められている。
- 既存の最適化アルゴリズムは,複雑な問題に対して局所最適解に陥りやすいという課題がある。
- グレイウルフ最適化と差分進化の利点を組み合わせ,よりロバストな最適化手法を開発する。
- 提案アルゴリズムGWO-DEは,様々な数値ベンチマーク関数において優れた性能を示した。
- 従来のアルゴリズムと比較して,解の質と収束速度の両方で良好な結果が得られた。
- このハイブリッド手法は,複雑な最適化問題への適用可能性を示唆している。
認知心理学的視点からのVLMハルシネーションの調査:解釈に向けた第一歩と興味深い観察 [cs.CV, cs.CL, cs.LG]目的:VLMにおけるハルシネーションの原因となる認知バイアス
- 近年,画像とテキストを扱うVLMの応用が進む中で,その信頼性が重要視されている。
- VLMは誤った情報を生成するハルシネーションを起こしやすく,その原因が技術的な問題に限ると考えられていた。
- 本研究は,ハルシネーションを人間の認知バイアスと比較することで,新たな解釈の可能性を探る。
- VLMにおけるハルシネーションに,同調性,論理的不整合,権威への訴えといった認知バイアスが関与することが示された。
- モデル規模が大きくなるにつれて,同調性は強まり,権威バイアスは減少する傾向が確認された。
- 人間を対象とした実験により,VLMと人間の応答パターンの違いが明らかになり,VLM評価における心理学的原理の重要性が示唆された。
MLLM-Fabric:ファブリックの選別・選択のためのマルチモーダル大規模言語モデル駆動型ロボットフレームワーク [cs.RO, cs.AI]目的:ファブリックの選別と選択に関するロボットフレームワーク
- ロボットによる繊維製品製造やアパレル生産,スマートリテールにおいて,適切なファブリックの選択は重要である。
- ファブリックの特性を正確に評価し,目的に合った選択を行うことが難しいという課題がある。
- マルチモーダル大規模言語モデルを活用し,ファブリックの選別と選択の信頼性を向上させることを目指す。
- 提案するFabric-Llama-90Bは,ファブリックの属性ランキングと選択の信頼性において,既存のビジョン言語モデルを上回る性能を示した。
- RGB画像,視覚触覚データ,圧力データを組み合わせたデータセットを新たに公開した。
- 教師ありファインチューニングと説明による知識蒸留により,ファブリック特性のランキング精度を高めた。
推論モデルの強化学習ファインチューニングを加速するためのプロンプト難易度のオンライン予測は可能か? [cs.AI, cs.LG]目的:推論モデルの強化学習によるファインチューニング加速のためのプロンプト難易度オンライン予測
- 大規模言語モデルの推論能力向上には強化学習が有効だが,計算コストが高い。
- プロンプト評価と選択に多くの計算資源が必要であり,効率的な改善が課題である。
- プロンプトの難易度をオンラインで予測し,効率的なプロンプト選択を実現する。
- 本研究では,プロンプトの成功率を潜在変数としてモデル化し,ベイズ推論を用いることで,LLMのインタラクションコストを削減する。
- 提案手法MoPPSは,プロンプトの難易度をオンラインで信頼性高く予測し,数学,計画,視覚幾何学タスクにおいて学習を加速することを示した。
- 多腕バンディット機械を用いたサンプリングにより,効率的かつ適応的なプロンプト選択を可能にした。
テスト前の学習が言語モデルのランキングを調和させる [cs.LG, cs.AI]目的:言語モデルの潜在能力の評価
- 大規模言語モデルの性能評価は,モデルの選択や比較において不可欠である。
- 既存の評価基準では,ランキングに一貫性がなく,モデル選択が困難になっている。
- 本研究は,テスト前の学習によって,より一貫性のあるランキングを確立することを目指す。
- テスト前の学習によって得られたモデルの潜在能力ランキングは,あらゆる評価基準において著しい一貫性を示すことが示された。
- 従来のランキングとは異なり,テスト前の学習によるランキングは,ある評価基準から別の評価基準への高い外部妥当性を示す。
- テスト前の学習は,事前学習時のパープレキシティと下流タスクの性能との関係を回復させ,モデルの潜在能力がランキングの一貫性に反映されることを示唆する。
分散学習における単一のグローバルマージの驚くべき効果 [cs.LG, cs.DC, cs.MA, stat.ML]目的:分散学習の汎化性能向上
- 大規模データセットに対する効率的な機械学習手法の重要性が高まっている。
- 分散学習では,ピアツーピア通信の制限が性能を阻害する問題がある。
- データ異質性が高い状況下での分散学習の汎化性能向上を目指す。
- 分散学習の後半段階で通信予算を集中させることが,汎化性能を大幅に向上させる。
- 最終ステップでの完全接続通信である単一のグローバルマージが,高いデータ異質性下で性能を改善する。
- 分散型SGDと並列SGDの収束速度が等しくなることを理論的に証明した。
物理情報ニューラルネットワークによる三次元乱流のシミュレーション [cs.LG, cs.AI, physics.comp-ph, physics.flu-dyn]目的:物理情報ニューラルネットワークを用いた乱流シミュレーションの実現
- 流体現象の理解と予測は,工学や気象など幅広い分野で不可欠である。
- 従来の数値シミュレーションは計算コストが高く,高精度な乱流解析が困難である。
- 物理法則を直接学習するPINNを用いて,効率的な乱流シミュレーションを可能とする。
- 物理情報ニューラルネットワークが,二次元および三次元の完全乱流をシミュレーションできることを示した。
- 従来の計算格子や訓練データを用いず,基礎流体方程式から直接解を学習した。
- エネルギー スペクトル,運動エネルギー,エンストロフィー,レイノルズ応力などの主要な流れ統計量を正確に再現した。
柔軟な表現誘導を用いた拡散モデルの学習 [cs.LG, cs.AI, cs.CV]目的:拡散モデルにおける表現誘導の体系的な枠組み
- 拡散モデルは画像生成等の分野で注目されており,その性能向上は重要である。
- 拡散モデルの性能は表現の質に左右されるが,表現の最適化は課題である。
- 事前学習モデルとの表現整列による生成品質向上と学習の高速化を目指す。
- 本研究では,表現誘導を組み込むための新しい戦略を2つ提案した。
- マルチモーダルペアに対する同時学習と,表現学習とデータ生成のバランスを取る最適な学習カリキュラムである。
- 画像,タンパク質配列,分子生成タスクで優れた性能と学習速度の向上を確認した。
Prompt4Trust:マルチモーダル大規模言語モデルにおける臨床的に整合した信頼度較正のための強化学習プロンプト拡張フレームワーク [cs.CV, cs.AI, cs.CL]目的:マルチモーダル大規模言語モデルにおける信頼度較正
- 医療分野での大規模言語モデル活用が期待される一方で,その信頼性確保が重要課題となっている。
- プロンプト設計への依存性や,誤った回答に高い信頼度を示す傾向が,安全性が求められる医療現場での導入を阻害している。
- 臨床意思決定において重要な信頼度と精度の整合性を高め,モデルの信頼性を向上させることを目指す。
- Prompt4Trustは,プロンプト拡張を通して信頼度較正を目的とした初の強化学習フレームワークである。
- 臨床的意思決定に重要な較正に焦点を当てた結果,タスク精度も向上し,PMC-VQAベンチマークで最先端の性能を達成した。
- 小規模なモデルで学習したフレームワークは,大規模モデルへのゼロショット汎化も示唆しており,計算コストを抑えた信頼性向上に繋がる可能性がある。
RedOne:ソーシャルネットワーキングサービスにおけるドメイン特化型LLMの後学習 [cs.LG, cs.AI, cs.SI]目的:ソーシャルネットワーキングサービスのためのドメイン特化型LLMの性能向上
- 現代の情報伝達の主要な手段であるSNSの利用拡大に伴い,コンテンツ管理と対話品質の改善が重要である。
- 既存研究は個別のタスクに焦点を当てており,データ規模の拡大による効果の限界や,多様な状況への適応性の欠如が課題である。
- RedOneは,個別のタスクの限界を打破し,SNS全体を網羅する基盤モデルとして,汎用性と実用性を両立させる。
- RedOneは,8つの主要なSNSタスクにおいて,ベースモデルと比較して平均14.02%の性能向上を達成した。
- SNSにおける二言語評価ベンチマークでも7.56%の性能向上が認められた。
- オンラインテストの結果,有害コンテンツ検出の誤検知率を11.23%削減し,投稿検索のクリック率を14.95%向上させた。
LOFベース前処理とYOLO-v11nを用いたリアルタイム大腸ポリープ検出のための軽量かつ堅牢なフレームワーク [cs.CV, cs.AI]目的:大腸ポリープ検出のための軽量かつ効率的なフレームワーク
- 大腸癌は世界的に主要な死亡原因であり,早期発見と予防が重要である。
- 既存の大腸ポリープ検出手法は,計算コストが高く,リアルタイム処理が困難な場合がある。
- 本研究では,ノイズ除去とモデル効率化により,臨床現場でのリアルタイム検出を可能にする。
- 提案手法は,ポリープ検出において,精度95.83%,再現率91.85%,F1スコア93.48%を達成した。
- mAP@0.5は96.48%,mAP@0.5:0.95は77.75%であり,既存のYOLOベースの手法と比較して,精度と効率が向上した。
- これらの結果は,本手法が臨床現場でのリアルタイム内視鏡支援に適していることを示唆している。
イベント時系列データの疎な自己符号化器による表現学習:異常検知,類似性検索,教師なし分類への応用 [cs.LG, astro-ph.HE, astro-ph.IM, cs.AI]目的:イベント時系列データの表現
- 多様な科学・産業分野でイベント時系列データが活用されており,その解析が重要である。
- 不規則な構造のため,従来の技術では有益なパターン抽出や重要な現象の特定が困難である。
- イベント時系列データの潜在的な表現を学習し,解析を容易にすることを目的とする。
- 提案手法は,イベント時系列データの2次元・3次元テンソル表現と疎な自己符号化器を組み合わせる。
- X線天文学のデータを用いた実験により,時間的・スペクトル的な特徴を捉え,多様なX線トランジェントを分離できることが示された。
- 本手法は,複雑で不規則なイベント時系列データの解析に,柔軟かつ拡張性の高い解を提供する。
べき乗則を持つ実世界時系列におけるロバストな因果探索 [cs.LG, physics.data-an, stat.ML, stat.OT]目的:実世界時系列におけるロバストな因果関係の発見
- 金融,経済,神経科学など幅広い分野で因果関係の解明が不可欠である。
- 既存の因果探索アルゴリズムはノイズに弱く,誤った因果推論を生みやすい。
- べき乗則に着目し,ノイズの影響を受けにくいロバストな因果探索手法を開発する。
- 実世界時系列の周波数スペクトルがべき乗則に従う点に着目し,因果関係の抽出を試みた。
- 提案手法は,合成データと実データにおいて,既存手法よりも優れた性能を示した。
- 特に,ノイズの多い実世界データにおいて,そのロバスト性と実用性が確認された。
ベイズ最適化におけるコストを考慮した停止戦略 [cs.LG]目的:ベイズ最適化における,コストを考慮した停止基準の確立
- 機械学習の自動化や科学的発見において,高コストな関数の評価回数を最適化することは重要である。
- 既存の適応的停止規則は,過剰な評価コストを抑制する保証が不足しているという課題がある。
- 評価コストの変動に対応し,ヒューリスティックな調整を必要としない停止基準を提案することで,この課題を解決する。
- 提案手法は,最先端のコストを考慮した獲得関数であるPandora's Box Gittins Index (PBGI)およびコストごとの対数期待改善値との理論的な関連性に基づいている。
- 提案手法とPBGIを組み合わせた場合,コスト調整された単純後悔の指標において,他の獲得関数と停止規則のペアと同等またはそれ以上の性能を示すことが実験的に確認された。
- 提案手法は,期待される累積評価コストを理論的に保証することで,過剰なコストを抑制する。
S²M²: 信頼性の高い深度推定のためのスケーラブルなステレオマッチングモデル [cs.CV, cs.AI, cs.RO]目的:汎用的なステレオマッチングモデルの実現
- 自動運転やロボティクスなど,3次元空間の認識は様々な分野で重要である。
- 既存手法は,特定のデータセットに依存したり,計算コストが高いといった課題がある。
- 高精度かつ効率的なグローバルマッチングアーキテクチャを開発し,汎化性能を高める。
- 提案手法S²M²は,既存のステレオマッチングモデルと比較して,高い精度と効率を達成した。
- 特に,Middlebury v3およびETH3Dベンチマークにおいて,主要な評価指標で優れた性能を示した。
- S²M²は,長距離対応のためのマルチ解像度Transformerと,実行可能なマッチに確率を集中させる新しい損失関数を統合している。
レート符号化を超えて:代理勾配がスパイクニューラルネットワークにおけるスパイクタイミング学習を可能にする [cs.RO, cs.NE, cs.AI]目的:スパイクタイミング学習の可能性
- 脳の情報処理はレート符号化だけでなく,スパイクタイミングによっても行われることが示唆されている。
- 既存のスパイクニューラルネットワーク学習法は,レート符号化に偏っており,スパイクタイミングの重要性を十分に活用できていない。
- 本研究は,代理勾配法による学習がスパイクタイミング学習を可能にするかを検証する。
- 代理勾配法によって学習されたスパイクニューラルネットワークは,レート情報のみでは識別できないタスクにおいて,有意に高い性能を示した。
- スパイクタイミングを逆転させたデータに対しては性能が著しく低下し,遅延学習を行ったネットワークほどその低下が顕著であった。
- 本研究で利用した修正版のSpiking Heidelberg DigitsとSpiking Speech Commandsデータセットを公開し,時間符号化の研究を促進する。
オンデバイス大規模言語モデルのための効率的な構成的マルチタスク学習 [cs.CL, cs.AI, cs.LG]目的:オンデバイス環境におけるテキストベースの構成的マルチタスク処理
- 大規模言語モデルの応用範囲拡大のため,限られた計算資源下での高性能化が重要である。
- 既存研究では,単一タスクの事例に限定されており,複数タスクの同時実行に対応できていない。
- 複数タスクを同時に処理可能な,リソース効率の良い手法を開発し,実用的なマルチタスク環境を実現する。
- 本研究では,構成的マルチタスクを評価するためのベンチマークを新たに提案した。
- オンデバイス環境に特化した効率的な手法(学習可能なキャリブレーション)を開発し,その有効性を検証した。
- この成果は,現実世界における大規模言語モデルのマルチタスク処理能力向上に貢献すると期待される。
IoT向けSAGINにおける多機能RIS:圧縮型双子モデルを用いたハイブリッド深層強化学習アプローチ [cs.RO, cs.AI, eess.SP]目的:IoTデバイスの長期的なエネルギー効率の最大化
- IoTネットワークの普及には,持続可能なエネルギー供給が不可欠である。
- 低軌道衛星は影領域でエネルギー不足に陥りやすい。
- 多機能RISを活用し,エネルギー効率を向上させる。
- 提案手法CHIMERAは,従来のベンチマークと比較してエネルギー効率が大幅に向上した。
- SAGIN-MF-RISアーキテクチャは,単独の衛星,航空機,地上のみの展開よりも優れたエネルギー効率を実現した。
- セマンティックな状態行動圧縮とパラメータ共有により,複雑な行動を効率的に探索することが可能となった。
大規模言語モデルに対する量子化技術の包括的評価 [cs.LG]目的:大規模言語モデルの量子化技術に関する評価
- 近年の大規模言語モデルの発展に伴い,計算資源の効率的な利用が重要となっている。
- 量子化手法は多数存在するが,評価条件が異なるため,公平な比較が困難である。
- 既存手法を共通条件で評価し,量子化のメカニズムの理解を深めることを目指す。
- 量子化前のデータ分布平坦化と誤差軽減が,量子化の主要なステップであることが示された。
- 回転とスケーリングによる最適化が,量子化前の性能向上に効果的であることが確認された。
- FP4形式の性能は,スケーリング因子と精度に大きく依存し,INT4向け戦略がMXFP4/NVFP4に有効でない場合がある。