arXiv雑要約
AI - 2026/03/25 公開
創始者効果がオープンLLMファミリーにおける多様性の進化ダイナミクスを形作る [cs.CV, cs.AI, cs.CL]目的:オープンLLMファミリーにおける多様性の進化とその伝播の定量化
- 大規模言語モデルは急速に進化しており,その能力向上は重要である。特に,マルチモーダルな能力の進化は注目されている。
- オープンLLMファミリーにおけるマルチモーダル能力の出現と伝播の速さ,メカニズムは不明であった。
- オープンLLMファミリーにおけるマルチモーダル能力の導入経路と進化パターンを明らかにすること。
- マルチモーダルなタスクは,主要なオープンLLMファミリーよりも広範なエコシステムで普及していることが判明した。
- LLMファミリー内では,2024年から2025年にかけてマルチモーダル性が急増し,特に画像とテキストの処理能力が中心であった。
- マルチモーダル性は,既存のVLM系統内で主に拡大しており,創始者効果による迅速な増幅と多様化が見られた。
大規模言語モデルを用いた表質疑応答に対するプロンプト戦略の評価 [cs.CL, cs.AI, cs.LG]目的:表質疑応答におけるプロンプト戦略の効果
- 大規模言語モデルの発展に伴い,データに基づいた推論能力の重要性が増している。
- 表形式データに対する質疑応答において,効果的なプロンプト戦略が十分に検討されていない。
- 表データに特化したプロンプト戦略を評価し,最適な手法を特定すること。
- Few-Shot Chain-of-Thoughtプロンプトが,GPT-3.5,GPT-4,GPT-4oにおいて最も高い精度(最大78.2%)を示した。
- 特に,推論を要する質問において,Few-Shot Chain-of-Thoughtの有効性が確認された。
- Few-Shotプロンプトは,回答形式の正確性を向上させる効果が認められた。
MERIT:解釈可能な知識追跡のためのメモリ増強型検索 [cs.CL, cs.AI]目的:解釈可能な知識追跡のためのフレームワーク
- 個別最適化された教育を実現するための基盤技術であり,学習者の理解度向上に不可欠である。
- 従来の深層学習モデルは精度が高い反面,解釈性に乏しいという課題がある。
- 大規模言語モデルの弱点を補い,解釈性とスケーラビリティを両立する。
- MERITは,パラメータ更新を必要としないため,計算コストを削減し,動的な知識更新を可能にする。
- 学習者のインタラクションログを解釈可能なメモリバンクに変換し,潜在的な認知スキーマを特定する。
- 実世界のデータセットにおいて,最先端の性能を達成し,教育診断の透明性とアクセス性を向上させる。
厳格な制約を超えて:予算制約付き到達可能性と安全なオフライン強化学習 [cs.CL, cs.IR, cs.CL, cs.LG, cs.AI, cs.RO]目的:安全なオフライン強化学習のための到達可能性の検討
- 現実世界の応用において,意思決定は安全性と報酬の最大化という相反する目標を伴う。
- 従来の到達可能性に基づく手法は厳格な安全制約のみに対応しており,累積コスト制約への拡張は少ない。
- 報酬最大化と累積安全コスト制約を分離し,安全性を保証するオフライン強化学習アルゴリズムを開発する。
- 本研究では,報酬最大化と累積安全コスト制約を分離した安全条件付き到達可能性集合を定義した。
- この集合により,不安定な最適化手法を用いずに安全制約を強制し,固定データセットから安全なポリシーを学習するアルゴリズムを提案した。
- 標準的なベンチマークおよび実世界の航海タスクにおいて,提案手法は最先端手法と同等またはそれ以上の性能を示した。
検索拡張LLMのためのターンレベル情報ポテンシャル報酬シェイピング [cs.CL, cs.AI, cs.LG]目的:検索拡張LLMにおける強化学習の安定化と性能向上
- LLMは高度な質問応答能力を持つ一方,学習には課題が多い。
- 報酬の疎らさや,推論とツール利用の功績配分が困難である。
- ターンレベルでの報酬付与により,学習の安定性と精度向上を目指す。
- TIPSは,教師モデルに基づき,各ターンにおける正解率増加を報酬として付与する。
- 7つの質問応答ベンチマークで,GRPO/PPOと比較して一貫して高い性能を示す。
- Qwen-2.5 7B Instructモデルにおいて,正解率が11.8%,F1スコアが13.6%向上した。
複雑な推論タスクのための効率的な埋め込みベース合成データ生成 [cs.LG, cs.AI]目的:複雑な推論タスクに対する合成データ生成
- 大規模言語モデルの活用が重要視される中で,より小規模なモデルの性能向上が求められている。
- 合成データ生成において,生成されるデータの品質と多様性の確保が課題となっている。
- 埋め込み空間におけるデータの分布に基づき,多様性を高めた合成データ生成を目指す。
- 埋め込み空間におけるデータの密度と予測精度との間に強い相関関係が確認された。
- 埋め込みベースのサンプリングパイプラインにより,データの多様性が向上し,複数のベンチマークで性能が改善された。
- 本手法は,資源や計算効率に優れたモデルの性能向上に貢献すると考えられる。
どちらか,であるか:機械的解釈可能性はLLMにおける情動受容と感情分類の分離を明らかにする [cs.CL, cs.AI]目的:LLMにおける情動受容と感情分類のメカニズムの分離
- 近年,LLMが情動を表現する能力が注目されており,AIの安全性や倫理的な利用において重要な課題となっている。
- 既存研究では,明示的な感情キーワードを含む刺激を使用しており,LLMが真に感情を理解しているのか,キーワードを認識しているだけなのかが不明であった。
- 臨床心理学に基づき,キーワードを含まない臨床的シナリオを用いて,LLMの情動処理能力を検証し,そのメカニズムを解明することを目指す。
- 情動受容(感情的に重要な内容の検出)は,ほぼ完璧な精度(AUROC 1.000)で機能し,モデル間で一貫性が見られた。
- 感情分類(情動を特定の感情ラベルにマッピング)は,キーワードに依存する部分があり,キーワードがない場合,精度が1〜7%低下したが,モデルの規模が大きくなるにつれて改善された。
- キーワードを含む刺激と含まない刺激は,表象空間を共有し,感情カテゴリーの同一性ではなく,情動的な重要性を伝達することが確認された。
層間の真実:LLMにおける層内ローカル情報スコアを用いた不確実性推定 [cs.LG, cs.AI]目的:大規模言語モデルにおける不確実性推定手法
- LLMの応用範囲拡大に伴い,その出力の信頼性評価が重要課題となっている。
- 既存手法では,簡便なヒューリスティックは脆弱,内部表現の解析は高次元で汎化が難しい。
- 層間の一貫性に着目し,軽量かつ汎化性能の高い不確実性推定手法を開発する。
- 提案手法は,内部表現の解析による手法と同程度の性能を,学習データ内で実現している。
- データセットを跨いだ評価において,提案手法は内部表現の解析による手法を安定的に上回る。
- 4bit量子化下でも頑健性を保ち,内部表現の解析による手法よりも改善が見られた。
特徴疎性によるアテンションのスケーリング [cs.LG, cs.AI]目的:長文脈におけるTransformerの効率的なアテンション機構
- Transformerは自然言語処理の基盤技術であり,長文脈の処理能力が重要である。
- Transformerのアテンション計算量は系列長の二乗に比例し,長文脈において計算コストが課題となる。
- 特徴疎性を活用し,アテンション計算量を削減しつつ,精度を維持することを試みる。
- Sparse Feature Attention (SFA)は,既存手法と比較して精度を損なうことなく,処理速度を最大2.5倍向上させた。
- SFAは,GPT-2とQwen3の事前学習において,FLOPsとKVキャッシュ使用量を約50%削減することに成功した。
- 長文脈における検索精度とロバスト性を維持し,特徴多様性の低下を防ぐことが示された。
大規模言語モデルにおける潜在的意味多様体 [cs.LG, cs.AI]目的:大規模言語モデルの潜在的意味多様体の構造
- 自然言語処理の進展に伴い,大規模言語モデルの理解が不可欠となっている。
- 言語モデルの内部表現と離散的な出力との間の不整合が課題である。
- 語彙離散化による意味歪みを定量化し,モデルの表現能力を評価する。
- 言語モデルの隠れ状態は,Fisher情報計量を持つリーマン多様体上の点として解釈できる。
- 語彙サイズと歪みの関係にはレート-歪みの下限が存在し,表現ギャップは線形にスケーリングする。
- モデルのスケールによらず,境界に近い表現の硬核が存在し,perplexityの分解に貢献する。
K-meansアルゴリズムに基づく個性クラスター化とキャリアパス適応に関する研究 [cs.LG, cs.CY, stat.AP]目的:大学生への的確なキャリアガイダンス提供
- 情報技術の発展に伴い,教育分野におけるAI・機械学習の応用が期待されている
- 既存研究はキャリアパス予測に偏りがちで,個性の組み合わせと適性の関係性は未解明である
- 個性の組み合わせに応じたキャリア適性を明らかにし,個別最適化されたガイダンスを提供する
- K-meansクラスタリングにより,学生を4つのグループに分類した。
- 個性特性の組み合わせによって,適したキャリア方向性が異なることが示された。
- 本研究は,個別化されたキャリアガイダンスの科学的根拠となり,就職成功率の向上に貢献する。
大規模言語モデルにおける幻覚検出のためのサンプル変換コストに基づく学習不要手法 [cs.LG, cs.AI]目的:大規模言語モデルにおける幻覚の検出
- 大規模言語モデルの信頼性は重要であり,その利用拡大には幻覚の抑制が不可欠である。
- 既存の幻覚検出手法は,精度,軽量性,汎用性のバランスが課題であった。
- 本研究は,分布の複雑性を指標として,学習不要で高精度な幻覚検出手法を確立する。
- 提案手法は,プロンプトに対する応答のトークン埋め込み間のWasserstein距離行列を計算することで,分布の複雑性を定量化する。
- Wasserstein距離行列から導出されるAvgWDとEigenWDは,幻覚検出において既存の不確実性ベースラインと同等以上の性能を示す。
- AvgWDとEigenWDは,モデルやデータセットを跨いで相補的な挙動を示し,分布の複雑性がLLMの真実性に関する有効な指標となることを示唆する。
漸進的量子化によるロバストなベクトルトークン化のための早期離散化の軽減 [cs.LG]目的:ベクトルトークン化における早期離散化の軽減
- マルチモーダル大規模言語モデルや拡散合成において,ベクトル量子化は重要な役割を担っている。
- 従来のベクトル量子化は,エンコーダーがデータ多様体を捉える前に離散化を行うという根本的な問題があった。
- この研究は,量子化の硬度を考慮した漸進的な学習により,ベクトル量子化の性能向上を目指す。
- 提案手法ProVQは,連続潜空間から離散潜空間へのスムーズな移行を実現し,コードブックをデータ多様体へと効果的に誘導する。
- ImageNet-1KおよびImageNet-100ベンチマークにおいて,ProVQは再構成性能および生成性能を向上させ,生成モデリングを促進する。
- ProVQはタンパク質構造トークン化のStrutTokenBenchリーダーボードで新たな性能上限を確立し,複雑な生物学的配列のモデリングにも有効であることが示された。
CN-Buzz2Portfolio:LLMベースのマクロ・セクター資産配分に関する中国市場データセットとベンチマーク [cs.LG, cs.AI]目的:LLMを用いたマクロ・セクター資産配分評価のためのデータセットとベンチマーク
- 金融市場において,LLMを活用した意思決定支援の重要性が高まっている。
- 既存のベンチマークは個別銘柄に偏っており,市場全体の動向を捉えきれていない。
- 中国市場のトレンドニュースから資産配分を導き出す評価環境を構築し,LLMの性能を検証する。
- CN-Buzz2Portfolioは,中国市場におけるトレンドニュースを元に,マクロ・セクター資産配分をシミュレーションするデータセットである。
- LLMの圧縮,認識,配分を行うTri-Stage CPA Agent Workflowを提案し,ETFなどの広範な資産クラスへの応用を評価した。
- 複数のLLM実験の結果,モデル間でポートフォリオの重み付けに大きな差が見られた。
マルチモーダル情動知能のためのMemory Bear AIメモ理科学エンジン:技術報告 [cs.AI]目的:マルチモーダル情動知能のためのメモ理中心フレームワーク
- 人間は過去の経験や文脈に基づいて情動を判断するため,情動知能研究は重要である。
- 既存のマルチモーダル情動認識システムは,短期的な推論に偏り,長期的な依存関係のモデリングが不十分である。
- 本研究は,情動情報を継続的に記憶・更新し,ノイズに強いロバストな情動知能を実現することを目指す。
- Memory Bear AIメモ理科学エンジンは,情動情報を構造化されたメモ理としてモデル化することで,既存システムよりも高い精度とロバスト性を示す。
- 特に,ノイズやモダリティ欠損といった条件下で,その効果が顕著である。
- 本フレームワークは,局所的な情動認識から,より継続的で実用的な情動知能への移行を可能にする。
拡散モデルに基づく全波形反転法 [cs.LG]目的:高分解能地下モデルパラメータの取得
- 地下構造探査において,高精度なモデル構築は資源開発や防災に不可欠である。
- 従来の全波形反転法は,非線形性と初期モデル依存性により,局所解に陥りやすいという課題がある。
- 本研究は,拡散モデルを用いて反転の安定性と精度を向上させることを目指す。
- 提案手法は,密度情報を条件入力として拡散モデルに組み込むことで,反転結果の解像度と構造の忠実性を大幅に向上させた。
- 特に複雑な条件下においても,安定性とロバスト性が向上することが確認された。
- 密度情報を活用することで,反転を効果的に制約し,実用的な価値が高いことが示された。
UniFluids:条件付きフローマッチングによる統一的なニューラル演算子学習 [cs.LG, cs.AI]目的:多様な偏微分方程式に対する解演算子の統一的な学習
- 科学研究において偏微分方程式シミュレーションは重要であり,その効率化が求められている。
- 既存手法では,様々な偏微分方程式に対応した汎用的な解演算子の学習が困難であった。
- 異なる次元や物理変数を持つ偏微分方程式を統一的に学習可能な手法を開発する。
- UniFluidsは,拡散Transformerを活用した条件付きフローマッチングフレームワークであり,並列シーケンス生成を実現している。
- 統一的な時空表現を用いることで,異種データセットの同時学習と条件付きエンコーディングが可能となった。
- 偏微分方程式データセットの実効次元がパッチ次元よりも低いことを利用し,x-predictionを導入することで予測精度を向上させた。
効率減衰現象:思考言語仮説に対する計算論的挑戦 [cs.AI, cs.CL, cs.LG]目的:思考が思考言語仮説で提唱されるような言語様式を必要とするかの計算論的検証
- 認知科学において,思考のメカニズムは長年議論されてきた。思考の基盤を理解することは重要である。
- 思考言語仮説は有力だが,その妥当性を検証する決定的な証拠は不足している。
- AIエージェントの効率的なコミュニケーションから,思考における記号的構造の役割を検証することを目指す。
- 多主体強化学習により,AIエージェント間で効率的かつ不可解な通信プロトコルが創発されることが示された。
- 人間が理解可能な言語の使用を強制されると,エージェントのパフォーマンスが低下し,効率減衰現象が確認された。
- この結果は,最適な協調的認知が記号的構造によって媒介されるのではなく,非記号的計算と自然に結合している可能性を示唆する。
マルチヘッドアテンションとフォーカル損失を用いた多モーダルCNN-LSTMフレームワークによるリアルタイム高齢者転倒検知 [cs.LG, cs.AI]目的:高齢者の転倒をリアルタイムで検知するための手法
- 世界的な高齢化の進行により,高齢者の健康状態を監視するシステムの需要が高まっている。
- 単一の加速度データのみに依存する従来の転倒検知手法は誤検知率が高く,特徴量エンジニアリングに手間がかかる。
- 複数のセンサー情報を統合し,高精度かつリアルタイムな転倒検知を実現すること。
- 提案手法はSisFallデータセットにおいて,F1スコア98.7%,リコール98.9%,AUC-ROC99.4%を達成し,既存手法を大きく上回った。
- エッジデバイス上での推論時間が50ms未満であり,実用的なリアルタイム転倒検知システムとして利用可能であることが示された。
- UCI HARデータセットからの転移学習により,SisFallデータセットにおける性能向上に貢献している。
AIを活用した熱帯低気圧の進路・強度予報の精度向上:系統的バイアス補正による改善 [cs.LG, cs.AI]目的:熱帯低気圧の進路・強度予報精度の向上
- 熱帯低気圧は,生命,インフラ,経済に甚大な被害をもたらすため,正確な予報が不可欠である。
- AIモデルは粗解像度のデータで訓練されることが多く,予測位置の精度や強度の過小評価が課題となっていた。
- 連続的な空間分布をモデル化し,高解像度な内部表現を活用することで,予報精度を大幅に改善する。
- 提案手法BaguanCycloneは,主要な熱帯低気圧発生海域において,既存の数値予報モデルやAIモデルを上回る性能を示した。
- 特に,再発達,急旋回,双子低気圧,蛇行といった複雑な気象現象の予報において高い精度を達成した。
- 中心位置の確率的洗練モジュールと,領域認識強度予報モジュールが,進路・強度の正確な予測に貢献している。
緊急事態におけるオンライン探索を伴わない優先制御:決定トランスフォーマーのアプローチ [cs.LG, cs.AI]目的:緊急車両の迅速な現場到着を目的とした,信号制御の最適化
- 緊急車両の現場到着時間は生存率に大きく影響するため,迅速な対応が不可欠である。
- 従来の信号優先制御は反応的で制御が難しく,最適化の余地が大きい。
- 本研究では,オフライン学習により,より効果的かつ制御可能な信号優先制御を実現する。
- 決定トランスフォーマーは,4x4グリッドにおいて,固定タイミング制御と比較して緊急車両の平均移動時間を37.7%削減した。
- 民間車両の遅延(11.3秒/台)および緊急車両の停止回数(1.2回)も最小限に抑えられた。
- マルチエージェント決定トランスフォーマーは,8x8グリッドにおいて,グラフ注意機構による連携により,決定トランスフォーマーを上回る45.2%の移動時間削減を達成した。
ST-GDance++:長尺グループ振り付けのためのスケーラブルな空間-時間拡散モデル [cs.LG, cs.AI, cs.CV, cs.SD]目的:音楽に合わせた複数人のダンス生成
- 映画製作,ゲーム,アニメーションなどへの応用が期待される分野であり,重要性が高い。
- 双方向アテンション依存性により,インタラクティブな場面での利用が困難である。
- 空間-時間依存性の分離により,効率的かつ衝突を回避したグループ振り付け生成を目指す。
- ST-GDance++は,既存手法と比較して大幅な低遅延で,競争力のある生成品質を達成した。
- 空間モデリングに軽量な距離認識グラフ畳み込み層を導入し,計算コストを削減した。
- 時間モデリングに拡散ノイズスケジューリング戦略と効率的な時間整合アテンションマスクを設計し,ストリーミング生成を可能にした。
グラフ表現学習のための曲率誘導適応ルーティングによる幾何学的混合エキスパート [cs.LG, cs.AI]目的:グラフ構造データの多様な幾何学的構造への適応的な表現融合
- グラフ構造データは複雑なトポロジーを持つため,正確なモデル化が困難である。
- 既存手法はタスク依存のルーティングに頼り,幾何学的な根拠に欠ける場合がある。
- オルヴィエ・リッチ曲率を用いて幾何学的な整合性のあるルーティングを実現する。
- 提案手法GeoMoEは,多様なグラフタイプに対するベンチマークデータセットで最先端の性能を達成した。
- オルヴィエ・リッチ曲率を事前知識として活用し,専門家の協調を制御するゲートネットワークを設計した。
- 曲率整合性に基づいて正負ペアを構成することで,幾何学的識別能力を高めるコントラスト学習を導入した。
燃焼応用のためのグラフニューラルネットワークに基づく化学反応機構削減手法 [cs.LG]目的:燃焼シミュレーションにおける計算コスト削減のための化学反応機構の簡略化
- 燃焼シミュレーションは,エネルギー効率向上や環境負荷低減に不可欠な技術である。
- 詳細な化学反応機構を用いると計算量が膨大になり,実用的な時間でシミュレーションが困難となる。
- 機械学習を用いて,高精度を保ちつつ化学反応機構を効率的に削減することを目指す。
- 提案手法であるGNN-SMは,既存手法DRGEPと同程度の削減率と精度を実現した。
- GNN-AEは,DRGEPよりも大幅な削減率(最大95%)を達成し,対象条件内ではより高い精度を示した。
- 本研究は,化学反応機構の自動削減を可能にする機械学習ベースの新たな手法を提供する。
物理情報に基づいたシュレーディンガーブリッジによる疎なデータ同化 [cs.LG, cs.AI]目的:偏微分方程式で記述されるシステムの疎な高精度観測データからの時空間場の再構成
- 偏微分方程式を伴うシステムの予測精度向上は,気象,海洋,流体解析等,広範な科学技術分野で不可欠である。
- 高精度な再構成には計算コストが高く,リアルタイムな応用が困難な場合がある。十分な高精度な学習データも不足している。
- 疎な観測データと物理法則制約下での高精度な時空間場の効率的な再構成を実現することを目指す。
- 提案手法PICSBは,高精度な教師データなしに,低精度な初期値から観測データに基づいた高精度な解への変換を可能にする。
- PICSBは,反復的な代理エンドポイント更新スキームと,物理法則の残差を学習に組み込むことで,効率的な学習を実現する。
- 流体PDEのベンチマーク実験により,PICSBが高速かつ高精度な時空間場の再構成能力を持つことが示された。
気候科学と機械学習の連携による気候モデルエミュレーションの進展 [cs.LG, stat.AP, stat.ML]目的:気候モデルエミュレーションにおける課題克服のための枠組み
- 地球温暖化対策には正確な気候予測が不可欠であり,気候モデルはその基盤となる。
- 高精度な気候モデルは計算負荷が大きく,迅速な分析や意思決定の妨げとなる。
- 機械学習を活用し,計算コストを削減しつつ気候モデルの予測能力を維持すること。
- 気候科学と機械学習の双方の視点を取り入れた枠組みが,その障壁を乗り越える上で有効である。
- 明確に定義された課題に対応し,信頼性を示すことで,両分野の連携を促進できる。
- 容易に導入可能なエミュレータの開発が,その有望な道筋を示唆している。
指示から支援へ:マルチモーダルLLMの評価のための組立マニュアルと組立ビデオを対応付けるデータセット [cs.CV, cs.AI, cs.CL]目的:マルチモーダルLLMの技術タスク支援能力の評価
- LLMの進化により,AIは複雑な現実世界のタスクを支援可能になり,マルチモーダルな研究へと進んでいる。
- LLMベースの支援システムは普及しているが,MLMを活用したリアルタイム支援は未だ発展途上である。
- MLMの技術タスクにおける支援能力を評価し,効率的なアノテーション手法を確立することを目指す。
- 家具の組立に関するデータセット(M2AD)を用いてMLMの性能を評価した結果,手順理解は一部可能であるものの,アーキテクチャやハードウェアに制約があることが示された。
- 詳細なラベル付けの必要性を低減できる可能性が示唆され,効率的なアノテーションの実践に貢献する可能性が示された。
- MLMは組立手順の進行を追跡し,マニュアルのページを参照できるか評価した結果,画像とテキストを組み合わせた推論の重要性が浮き彫りになった。
AEGIS:米国およびEU規制下における適応型医療AIのポストマーケットガバナンスのための運用インフラ [cs.LG, cs.AI, cs.CY]目的:適応型医療AIのポストマーケットガバナンスのための運用インフラ
- 医療AIは急速に進化しており,安全性と有効性を確保するための適切なガバナンスが不可欠である。
- AIモデルの継続的な改善と規制遵守を両立させるための明確なフレームワークが不足している。
- 米国およびEUの規制に準拠しつつ,医療AIの安全な継続学習を可能にするガバナンス手法を提供する。
- AEGISは,データセットの再学習,モデル監視,条件付き意思決定という3つのモジュールから構成される。
- シミュレーション結果から,AEGISは様々な臨床状況において,適切なモデルの承認・条件付き承認・臨床レビュー・却下を適切に行えることが示された。
- AEGISは,モデルの性能劣化前にドリフトを検出し,安全な継続学習を支援する実行可能なガバナンス手順を確立する。
リチウムイオン電池の健全性および残存寿命予測のためのマルチタスク指向学習フレームワーク [cs.LG, cs.AI]目的:リチウムイオン電池の健全性(SOH)および残存寿命(RUL)の予測
- 電気自動車の安全かつ効率的な運用に不可欠であり,関連するリスクを最小限に抑えることが求められている。
- 既存の深層学習手法は,SOHとRULの2つのパラメータに対する特徴選択的抽出と時間依存性のモデリングが不十分である。
- SOHとRUL予測における特徴抽出と時間依存性のモデリングの改善を目指す。
- 提案手法は,従来の技術や最先端技術と比較して,SOHおよびRUL予測の平均RMSEをそれぞれ111.3%と33.0%削減することを示した。
- マルチスケールCNNによる詳細な局所的電池劣化パターン抽出モジュールを設計した。
- 拡張LSTMネットワークとデュアルストリームアテンションモジュールを統合し,長期的な時間情報を保持し,重要な特徴に選択的に焦点を当てた。
差分認識量子化:ポストトレーニングLLM重みの圧縮 [cs.LG, cs.AI]目的:ポストトレーニングLLM重み圧縮のための差分認識量子化
- 大規模言語モデルの効率化は,計算資源の制約や実用的な利用を可能にする上で重要である。
- 量子化はモデルサイズを縮小するが,微調整後の知識を損なう場合がある。
- 微調整によって獲得された知識を保持しつつ,量子化による圧縮を実現すること。
- 差分認識量子化(DAQ)は,符号保持率とコサイン類似度という2つの差分を意識した指標を用いて,重み変化の方向性を最適化する。
- 従来の量子化手法では失われたスタイル特有の能力を,DAQは回復させる。
- DAQは,ベースモデルとポストトレーニングされた重み行列のみを必要とする。
ハイブリッド連想記憶 [cs.LG, cs.AI]目的:再帰型ニューラルネットワークと自己注意機構の利点を組み合わせたハイブリッド連想記憶層の提案
- 系列データ処理において,RNNと自己注意機構は広く用いられ,それぞれ異なる特性を持つ。
- 自己注意機構はメモリ消費量と計算コストが高く,RNNは長期依存関係の学習が苦手である。
- RNNと自己注意機構の補完的な利点を活かし,効率的な系列データ処理を実現すること。
- ハイブリッド連想記憶層は,RNNで系列全体を圧縮し,RNNが予測困難な情報を自己注意機構で補完する。
- KVキャッシュの成長率をデータに応じて制御することで,損失と性能のトレードオフを調整可能。
- 提案手法は,RNNやTransformerと比較して,KVキャッシュ使用量を大幅に削減しつつ,同等の性能を達成する。
重度のクラス不均衡下における信頼性の高い風力発電変動予測のための直接分類アプローチ [cs.LG, cs.AI]目的:風力発電変動予測の精度向上
- 低炭素電力システムでは,系統安定性の維持が重要であり,風力発電所のリアルタイム監視が不可欠である。
- 風力発電変動データはクラス不均衡であり,変動イベントは通常,観測イベントの15%未満である。
- 既存の機械学習モデルは多数派クラスを優先するため,この不均衡に対処する必要がある。
- 提案手法では,多変量時系列分類タスクとして風力発電変動予測を行い,特徴抽出と欠損値マスク処理を導入した。
- 多数派クラスのアンダーサンプリングとアンサンブル学習を組み合わせることで,クラス不均衡下での予測性能を向上させた。
- 実際のデータセットを用いた数値シミュレーションの結果,提案手法は85%以上の精度と88%の重み付きF1スコアを達成し,既存の分類器を上回った。
AgentSLR:エージェントAIによる疫学分野におけるシステマティック・レビューの自動化 [cs.IR, cs.AI, cs.DL]目的:疫学分野におけるシステマティック・レビューの自動化
- 科学的根拠に基づいた政策立案に不可欠だが,時間とコストがかかるため,効率化が求められている。
- システマティック・レビューは,人手による作業が多く,規模拡大が困難であるという課題がある。
- エージェントAIを用いて,文献検索から報告書作成までの全工程を自動化し,レビューの加速を目指す。
- AgentSLRは,専門家によるレビューと同等の性能を達成し,レビュー時間を大幅に短縮した。
- WHO指定の優先病原体9種類を対象とした検証で,約7週間かかっていたレビューを20時間に短縮(58倍の高速化)した。
- モデルの性能は,規模よりも個々のモデルの能力に依存することが明らかになった。
平均を超えて:二峰性回帰のための分布を考慮した損失関数 [cs.LG, cs.AI, stat.ML]目的:二峰性回帰における予測信頼性の評価
- 機械学習の応用範囲拡大に伴い,予測の信頼性評価が重要課題となっている。
- 予測誤差の分布が二峰性を示す場合,標準的な回帰手法では不確実性を適切に表現できない。
- 二峰性分布を捉え,信頼性の高い不確実性推定を可能とする手法を開発する。
- 提案手法は,標準的な回帰モデルに組み込むことで,混合モデルの不安定性なしに二峰性分布を再現できる。
- Wasserstein損失を用いることで,一峰性タスクにおけるMSEと同等の安定性を維持しつつ,複雑な二峰性データセットにおいてJensen-Shannon Divergenceを45%削減した。
- 提案手法は,MDNと比較して精度と頑健性の両面で優れており,信頼できるAIシステムの不確実性推定に貢献する。
凍結されたデコーダー専用LLMのための学習済み持続的メモリ [cs.LG, cs.AI]目的:凍結されたデコーダー専用LLMに持続的な潜在空間メモリを付与する手法の開発
- 大規模言語モデルの性能向上が期待される分野であり,効率的な知識保持が課題である。
- 従来のデコーダー専用LLMは状態を持たず,セッション間で情報を保持できないという問題がある。
- 自己注意機構を通してメモリを組み込むことで,デコーダー専用LLMに持続的メモリを付与し,性能改善を目指す。
- GPT-2を対象とした実験で,6つの手法のうち,アーキテクチャに強い事前知識を持つ3手法が有意な結果を示した。
- これらの手法は,メモリ保持スコア7-18%,知識獲得量ΔKが7-10となり,他の3手法は失敗した。
- メモリ容量を増やすと,すべての手法が収束し,アーキテクチャの差が性能に影響することが示された。
安全重視の山火事避難地図作成のための共形リスク管理:表形式,空間,グラフベースのモデルの比較研究 [cs.LG, cs.AI]目的:山火事の延焼予測における共形リスク管理の適用
- 山火事は人命と財産に甚大な被害をもたらすため,迅速かつ的確な避難計画が不可欠である。
- 既存の山火事延焼予測モデルは,予測の誤りに対する保証を提供していないという課題がある。
- 本研究は,山火事延焼予測に共形リスク管理を適用し,誤検出率の上限を保証することで,安全な避難計画を支援する。
- 共形リスク管理を適用することで,3種類のモデル(LightGBM,Tiny U-Net,Hybrid ResGNN-UNet)において,延焼予測の網羅率が大幅に向上した。
- 空間モデル(Tiny U-Net)は,共形リスク管理によって高い網羅率(約95%)と効率性(約15%のピクセルをフラグ付け)を両立した。
- グラフモデル(Hybrid ResGNN-UNet)は,単純なU-Netと比較して,効率性の向上は認められなかった。
欠損値補完のための大規模言語モデル:挙動,幻覚効果,制御メカニズムの理解 [cs.LG, cs.AI]目的:大規模言語モデルを用いた欠損値補完の性能評価とメカニズム解明
- 現実世界のデータセットには欠損値が頻繁に存在し,適切な処理がデータ分析の精度に不可欠である。
- 大規模言語モデルを用いた欠損値補完の研究は,計算コストや評価データの規模,欠損メカニズムの扱いなどで課題があった。
- 多様なデータセットと欠損メカニズム下で大規模言語モデルの性能を包括的に評価し,その限界と強みを明らかにする。
- Gemini 3.0 FlashやClaude 4.5 Sonnetなどの主要な大規模言語モデルは,オープンソースの現実データセットにおいて従来の補完手法を上回る性能を示した。
- 大規模言語モデルの有効性は,統計的な再構成能力よりも,インターネット規模のコーパスで学習したドメイン固有のパターンへの事前知識に強く依存することが示唆された。
- 大規模言語モデルは補完の質に優れる一方,計算時間とコストが大幅に高くなるというトレードオフが存在する。
グラフ信号処理とMamba2の融合:デルタ変調による適応フィルタバンク [cs.LG, cs.AI]目的:Mamba2をグラフ信号処理の視点から再解釈し,効率的な適応フィルタバンクの構築
- 近年,系列モデリングにおいて,注意機構に代わる線形時間再帰モデルの効率性が注目されている。
- Mamba2は高性能だが,多頭再帰処理が独立しており,構造的な活用や分析が不足している。
- グラフ信号処理の概念を取り入れ,パラメータ効率の良い階層的フィルタバンクを実現する。
- 提案手法HADESは,言語モデリング,常識推論,長文脈検索といった様々なベンチマークにおいて,Mamba2と同等の性能を達成した。
- HADESは,元のパラメータの58.9%のみを使用することで,性能を維持している。
- 本研究は,グラフ信号処理とニューラル系列モデリングの架け橋となり,効率的かつ解釈可能なフィルタリングを可能にする。
分布ロバストな生成レコメンデーションのための因果的直接選好最適化 [cs.IR, cs.AI]目的:分布外(OOD)環境におけるLLMベースの生成レコメンデーションモデルの一般化性能の向上
- レコメンデーションシステムは,情報過多な状況下でユーザーに適切なアイテムを提示するために不可欠である。
- 既存の直接選好最適化(DPO)は,環境共変因子の偽相関を増幅し,OOD環境での性能低下を招く。
- 因果的DPOは,因果不変学習メカニズムにより,環境共変因子の影響を排除し,安定した選好構造を捉える。
- 提案手法CausalDPOは,DPOの拡張として,環境共変因子の干渉を除去するバックドア調整戦略を導入する。
- CausalDPOは,ソフトクラスタリングにより潜在的な環境分布を明示的にモデル化し,不変性制約を通じて多様な環境間でロバストな一貫性を高める。
- 実験結果から,CausalDPOは4つの評価指標で平均17.17%の性能向上を示し,その有効性が確認された。
チンチラアプローチ2の問題点2:IsoFLOP放物線フィッティングにおける系統的バイアス [cs.LG, cs.CL, stat.ML]目的:ニューラルスケーリング則の近似におけるバイアスの検証
- 近年,大規模言語モデルの性能向上には,計算資源の効率的な配分が不可欠である。
- 既存の計算資源配分手法には,系統的なバイアスが存在し,最適なモデル性能を阻害する可能性がある。
- 本研究は,広く利用されているチンチラアプローチ2のバイアスを定量的に評価し,改善策を提案する。
- チンチラアプローチ2は,計算量最適化の推定に系統的なバイアスをもたらし,Llama 3のデータでは6.5%の計算資源の無駄遣いを招くことが示された。
- このバイアスの原因は,IsoFLOPサンプリンググリッド幅,中心化されていないサンプリング,損失曲面の非対称性にあることが明らかになった。
- チンチラアプローチ3はこれらのバイアスを軽減するものの,実装の複雑さなどが課題であったが,Variable Projectionを用いることで克服可能であることが示された。
大規模グラフRAG:ラベル付きプロパティグラフとRDFを用いた,複雑かつ未知の検索空間における検索拡張生成の限界克服 [cs.IR, cs.AI]目的:複雑かつ未知の検索空間における検索拡張生成の性能向上
- 知識集約型タスクにおいて,検索拡張生成は近年急速に発展しており,重要な役割を担っている。
- 従来の検索拡張生成手法は,検索空間が不明確である場合や,半構造化・構造化された文書に対しては性能が低下する。
- ラベル付きプロパティグラフとRDFを活用することで,これらの課題を克服し,より高度な検索拡張生成を実現する。
- 提案手法は,従来の埋め込みベースの検索拡張生成と比較して,精度,応答品質,推論能力において著しい性能向上を実証した。
- 文書をRDFトリプルに変換する革新的な手法により,半構造化データのシームレスな統合が可能となった。
- テキストからCypherへの変換フレームワークは,リアルタイムで90%以上の精度を達成し,オンラインアプリケーションに適した高速かつ信頼性の高いクエリ生成を可能にした。
T-MAP:軌跡を考慮した進化探索によるLLMエージェントのレッドチーム化 [cs.CR, cs.AI, cs.CL]目的:LLMエージェントの脆弱性発見手法
- LLMの活用が拡大する中で,安全性確保が重要課題となっている。
- マルチステップのツール実行におけるエージェント特有の脆弱性が未解明である。
- 実際のツール連携を通して有害な目的を達成する攻撃を自動生成すること。
- 提案手法T-MAPは,実行軌跡を活用し,効果的に攻撃プロンプトを発見できる。
- 多様なMCP環境において,既存手法を大幅に上回る攻撃成功率を達成した。
- GPT-5.2,Gemini-3-Proを含む最先端モデルに対する新たな脆弱性を明らかにした。
ロバストな太陽光発電予測のためのクラウド・エッジ協調大規模モデル [cs.LG, cs.NI]目的:太陽光発電量のロバストな予測
- 電力系統の安定運用には,正確な太陽光発電予測が不可欠である。
- 異常気象や予測困難な事象発生時,既存予測モデルの精度が低下する。
- 遅延時間,通信コストを抑えつつ,予測精度とロバスト性を向上させる。
- 提案手法は,通常時と異常時で予測モデルを使い分け,精度と遅延時間のバランスを取る。
- 予測不確実性や分布外のリスクに応じて,エッジ側またはクラウド側のモデルを活用する。
- 実データを用いた実験で,予測精度,ロバスト性,システム効率の面で良好な結果が得られた。
AI支援による医学文献検索におけるエラー:比較研究 [cs.IR, cs.LG, stat.AP, stat.ME]目的:医学文献検索におけるAI支援の誤りの定量評価と,その要因の特定
- 医学研究の進展には,正確かつ迅速な文献検索が不可欠である。
- AI支援検索は便利だが,誤った情報や不正確な引用が混入するリスクがある。
- AI支援検索の信頼性を高め,適切な文献情報を提供するための改善を目指す。
- LLMプラットフォームによる正しい参照データの取得失敗率は47.8%に達した。
- 5つのLLMプラットフォームの平均スコア比は0.29であり,Grokが0.57,Geminiが0.11とプラットフォーム間でばらつきが見られた。
- LLMプラットフォームと掲載誌が,それぞれスコア比および完全ミスの発生率に独立して関連していることが示された。
会話における多Modal感情認識のための動的Fusion-Awareグラフ畳み込みニューラルネットワーク [cs.AI]目的:会話における多Modal感情認識
- 対話システムの高度化には,発話者の感情を正確に理解することが不可欠である。
- 既存手法では,感情タイプごとに固定パラメータで多Modal特徴量を処理し,柔軟性に欠ける。
- 多Modal特徴量の動的なFusionにより,特定の感情に対する認識精度向上を目指す。
- 提案手法DF-GCNは,グラフ畳み込みネットワークに常微分方程式を組み込み,発話間の感情的依存関係を捉える。
- DF-GCNは,発話全体の情報ベクトルに基づき,多Modal特徴量の動的Fusionを誘導する。
- 公開データセットでの実験により,DF-GCNが既存手法を上回り,動的Fusionの有効性が確認された。
勾配ブースティングの説明における最初動者バイアス:メカニズム,検出,および解決策 [cs.LG, cs.AI]目的:勾配ブースティングにおける最初動者バイアスのメカニズム解明と,その検出・解決法の提案
- 機械学習モデルの説明可能性は,モデルの信頼性向上と意思決定の透明化に不可欠である。
- 勾配ブースティングは,特徴量の重要度ランキングが変動しやすく,安定性に課題がある。
- 多重共線性による特徴量重要度の不安定性を,最初動者バイアスというメカニズムで解決する。
- 最初動者バイアスは,勾配ブースティングにおける特徴量選択の順序依存性が原因で発生する。
- モデルの独立性を確保することで,最初動者バイアスを軽減できることが示された。
- 提案手法DASHとStochastic Retrainは,特徴量重要度の安定性を大幅に向上させる。
知性慣性:物理的原理と応用 [cs.AI, cond-mat.stat-mech, cs.LG]目的:知性における計算負荷の定量化
- 情報処理の根源的な熱力学的限界や情報量の測定方法の確立が求められている。
- 高度な知性システムの再構成における計算・エネルギーコストの増大を既存理論が説明できない。
- 知性慣性という概念を通じて,構造適応のコストを物理的に説明する。
- 知性慣性は,ルールと状態の非可換性から生じることが数学的に示された。
- 実際の適応コストと情報理論的推定値の乖離から,ローレンツ因子に類似した非線形コスト式が導出された。
- 実験により,知性慣性を考慮したスケジューラが深層ネットワークの学習を最適化することが示された。
COMPASS-Hedge:世界を知らずに安全に学習する [cs.LG, cs.GT]目的:敵対的環境と確率的環境における後悔保証のバランスと,固定比較対象に対する基本的な安全性の確保
- オンライン学習は,変化する状況に対応するため不可欠であり,その性能向上は重要な課題である。
- 既存手法は,敵対的,確率的環境,安全性といった要素を同時に満たせず,性能低下や事前知識の必要性がある。
- 敵対的・確率的環境下での最適な後悔保証と,比較対象に対する安全性を同時に実現することを目指す。
- COMPASS-Hedgeは,敵対的環境においてミニマックス最適の後悔を,確率的環境においてインスタンス最適の間隔依存型後悔を達成する。
- また,指定されたベースラインポリシーに対する$\tilde{\mathcal{O}}(1)$の後悔を,対数因子まで保証する。
- 本手法は,環境の性質や確率的劣最適性のギャップに関する事前知識を必要としないことが特徴である。
セッションリスクメモリ(SRM):決定論的事前実行安全ゲートのための時間的認可 [cs.IR, cs.DB, cs.AI, cs.CR]目的:分散攻撃の検知
- エージェントシステムの安全性確保は重要であり,役割に基づいた行動の認可が不可欠である。
- 既存のシステムは,個々の行動は認可されても,複数段階にわたる攻撃を検知できない。
- セッション全体の行動履歴を考慮し,時間的な一貫性を評価することで,攻撃を検知する。
- SRMをILIONに組み込むことで,F1スコアが1.0000に向上し,誤検知率が0%となった。
- SRMは,確率的推論や追加のモデル学習を必要とせず,軽量かつ決定論的に動作する。
- SRMは,空間的認可一貫性と時間的認可一貫性の概念を導入し,エージェントシステムの安全性を高める。
WIST:ドメイン特化型推論能力向上のためのWebに基づいた反復自己対戦木 [cs.LG, cs.AI]目的:ドメイン特化型推論能力の向上
- 言語モデルの性能向上は,様々な応用において重要であり,特に複雑な推論能力が求められる。
- 自己対戦による学習は,モデルの進化が不安定になる場合があり,また,既存のデータに依存する場合がある。
- Webの情報から学習し,安定した自己対戦による推論能力の向上を目指す。
- WISTは,既存の言語モデルと比較して,一貫して性能向上を示した。
- Qwen3-4B-Baseでは+9.8,OctoThinker-8Bでは+9.7の全体的な改善が見られた。
- 特に医療分野ではQwen3-8B-Baseで+14.79,PhyBenchではQwen3-4B-Baseで+5.28の向上が確認された。
