arXiv雑要約
AI - 2025/12/18 公開
オーディオ・マルチチャレンジ:自然な人間対話における音声対話システムのマルチターン評価 [cs.SD, cs.CL, cs.LG]目的:自然な人間対話における音声対話システムのマルチターン能力の評価
- 音声対話システムは,人間とAIのインタラクションにおいて重要な役割を担う技術である。
- 既存の評価基準は,合成音声や単一ターンタスクに偏っており,現実的なマルチターン対話能力の評価が不十分である。
- 本研究は,自然なマルチターン対話パターンにおける音声対話システムの評価基準を確立し,その性能向上を目指す。
- 本研究で開発されたAudio MultiChallengeは,音声編集,推論記憶,指示保持,自己整合性の4つの軸でE2E音声対話システムを評価する。
- 最先端モデルであるGemini 3 Pro Preview (Thinking)でさえ,54.65%の合格率にとどまり,特に新たな評価軸において課題が残ることが示された。
- エラー分析の結果,音声編集の追跡,音声キューの認識,長距離文脈の把握が困難であることが,モデルの失敗の主な原因であることが判明した。
ウィーンブリッジ発振器ネットワークによるニューロモーフィック計算のためのアトラクタの自律学習 [cs.NE, cs.ET, nlin.AO]目的:ニューロモーフィック計算のためのアトラクタの自律学習
- 脳のエネルギー効率に着目し,低消費電力な計算システムが求められている。
- 既存のニューロモーフィック計算では,学習と推論が分離されている場合が多い。
- 連続的なアナログダイナミクスの中で学習と想起を同時に実現する。
- ウィーンブリッジ発振器のネットワークを用いて,パターンを位相関係として符号化。
- 局所的なヘブ学習則により結合を連続的に適応させ,アトラクタ状態の形成を確認。
- 2-4-2アーキテクチャにより,複数の内部状態が同一の出力状態を生成可能。
フーリエ解析ネットワークの動作原理:メカニズム分析と新たな二重活性化層の提案 [cs.LG]目的:フーリエ解析ネットワークの動作メカニズム解明と,より効率的な学習加速層の開発
- 深層学習の性能向上は重要な課題であり,活性化関数の改善はその有効な手段の一つである。
- ReLUの勾配消失問題は,深層学習の学習を妨げる主要な要因として知られている。
- 本研究では,FANの改善メカニズムを明らかにし,ReLUの課題を克服する新たな活性化層を提案する。
- FANにおける性能向上は,正弦関数によるものであり,余弦関数はむしろ悪影響を及ぼすことが示された。
- 正弦関数の局所的な特性が勾配消失問題を軽減し,ReLUの死滅を抑制することが明らかになった。
- 提案する二重活性化層(DAL)は,様々なタスクにおいて,従来の活性化層と比較して高速な収束と高い精度を達成した。
エントロピー貯留庫ブレグマン射影:モデル崩壊の情報幾何学的統一 [cs.LG, cs.AI]目的:モデル崩壊の現象と対策の成功例を説明する単一の原理の提示
- 自己参照学習はスケーラビリティに優れるが,モデル崩壊という深刻な問題を抱える。
- 既存の対策は場当たり的であり,モデル崩壊の本質的な原因が不明確である。
- エントロピー貯留庫ブレグマン射影(ERBP)によって,モデル崩壊を定量的に制御する。
- ERBPは,分布空間における確率的ブレグマン射影系列として自己学習ループをモデル化する。
- 有限サンプルノイズは,システムを縮小する経験的サポートに射影させ,エントロピーを低下させる。
- エントロピー貯留庫を導入することで,ダイナミクスを安定化させ,非自明なエントロピー下限を保証する。
タスク行列:クロスモデルファインチューニング転移のための線形写像 [cs.LG, cs.CL, cs.CV]目的:クロスモデルファインチューニング転移のための線形写像の存在とその有効性
- 大規模言語モデルや画像モデルの解釈可能性向上は,AIの信頼性向上に不可欠である。
- ファインチューニング後のモデルと事前学習済みモデル間の線形表現の存在は,未検証のままであった。
- ファインチューニングされたモデルの状態を線形写像で近似し,効率的な知識転移を実現すること。
- タスク行列を用いることで,線形プローブよりも高い性能が示され,場合によってはファインチューニングに近い結果が得られた。
- 事前学習済みモデルとファインチューニング済みモデルの間に存在するクロスレイヤー線形エンコーディングの存在が確認された。
- データに基づいた線形エンコーディングの近似が,効率的かつ汎用性が高いことが示された。
大規模言語モデルと知識グラフの統合によるニュースメディアにおける政治的視点の把握 [cs.CL, cs.AI, cs.IR]目的:ニュースメディアにおける政治的視点の把握
- 民主社会において,メディアは世論形成に重要な役割を担うため,その動向を理解することが不可欠である。
- メディアが特定の視点や意見を強調することで,偏った報道が行われる可能性がある。
- 多様な政治的視点を正確に分類し,公平な報道を実現するための手法を開発すること。
- 大規模言語モデル(LLM)のファインチューニングと,Wikidataからの情報付加により,視点分類の性能が向上した。
- LLMと知識グラフを統合することで,特に長いテキストの処理において,分類精度が最も高くなった。
- 本研究は,イギリスの移民問題を対象としたベンチマークデータセットで検証された。
多変量データストリームにおけるオンライン加重平均線形回帰:OLR-WA [cs.LG, cs.AI]目的:多変量データストリームにおけるオンライン線形回帰モデル
- データ量の増大に伴い,効率的なモデル更新が不可欠であり,オンライン学習はその解決策となる。
- 既存のオンライン学習モデルは,データ分布の変化(ドリフト)への対応や収束速度に課題が残る。
- データ分布の変化に対応しつつ,高速な収束を実現するオンライン線形回帰モデルを開発すること。
- 提案手法OLR-WAは,バッチ回帰と同等の性能を達成し,他の最先端オンラインモデルと比較しても遜色ないか,むしろ優れた性能を示す。
- 初期データ点が少ない場合でも,高い決定係数(r2値)を早期に達成し,他のオンラインモデルを上回る収束速度を示す。
- 時間的ドリフトだけでなく,信頼度に基づく難しいシナリオにも効果的に対応できる唯一のモデルである。
多ターンLMエージェントのためのオンポリシー専門家修正による模倣学習 [eess.SY, cs.SY, cs.LG, cs.AI]目的:多ターンLMエージェントにおける covariate shift の軽減
- 大規模言語モデルエージェントの学習において,模倣学習は重要な手法の一つである。
- 模倣学習はオフポリシーであるため,エージェントの行動と専門家の行動が乖離すると,学習効率が低下する。
- 本研究では,オンポリシーな専門家修正データを用いることで,covariate shift を抑制し,学習性能を向上させることを目指す。
- 提案手法であるオンポリシー専門家修正(OEC)は,ソフトウェアエンジニアリングタスクにおいて,従来の模倣学習と比較して,7bモデルで14%,32bモデルで13%の性能向上を示した。
- OECは,エージェントのロールアウトを学生モデルで開始し,途中で専門家モデルに切り替えることで,部分的にオンポリシーなデータを生成する。
- 本研究の結果は,効果的な多ターンLMエージェント学習には,専門家のデモンストレーションとオンポリシーデータの組み合わせが不可欠であることを示唆する。
DrugRAG:検索拡張生成パイプラインによる薬剤LLM性能の向上 [cs.CL, cs.AI]目的:薬剤師免許試験形式の質問応答における大規模言語モデルの性能評価と,その精度向上を目的とした外部知識統合手法の開発
- 薬剤分野におけるAI活用は,医療安全の向上や効率化に貢献しうるため重要である。
- 大規模言語モデルは知識不足や誤情報を含む可能性があり,特に専門性の高い薬剤分野では精度が課題となる。
- 本研究は,外部知識を統合することで,薬剤分野におけるLLMの精度を向上させることを目指す。
- 既存の11種類のLLMを評価した結果,GPT-5が92%と最も高い精度を示し,80億パラメータ以下のモデルは50%を下回った。
- 開発したDrugRAGパイプラインは,全てのLLMにおいて精度を7〜21%向上させ,例えばGemma 3 27Bは61%から71%に,Llama 3.1 8Bは46%から67%に改善された。
- DrugRAGを用いることで,LLMの内部構造を変更することなく,薬剤知識の統合による精度向上が可能であることが示された。
ATLAS:ホモフィリックおよびヘテロフィリックグラフのためのスケーラブルなトポロジーベース適応学習 [cs.LG]目的:ホモフィリックおよびヘテロフィリックグラフにおけるスケーラブルなトポロジーベース適応学習手法
- グラフ構造データは,ソーシャルネットワークや分子構造など,様々な分野で重要性が増している。
- グラフニューラルネットワークはヘテロフィリックグラフにおいて精度が低下しやすいという課題がある。
- 大規模グラフへの適用を可能にするためのスケーラビリティの向上が求められている。
- ATLASは,グラフコミュニティのトポロジー情報を多段階で抽出し,特徴ベクトルに付加することで,従来のGCNと比較してヘテロフィリックグラフにおいて最大20%の精度向上を達成した。
- ATLASは,MLPよりもスケーラブルであり,大規模グラフへのサンプリングを必要としない。
- マルチ解像度のコミュニティ特徴は,ホモフィリックおよびヘテロフィリックな設定の両方で性能を系統的に調整し,解釈可能なグラフ学習への道を開く。
AgroAskAI:世界中の小規模農家からの問い合わせを支援するマルチエージェントAIフレームワーク [cs.AI, cs.CY]目的:小規模農家の気候変動適応のための意思決定支援
- 農業地域は気候変動リスクに晒されており,適応策が不可欠である。
- 既存システムは静的な機能に限定されるか,動的な協調推論が不十分である。
- 動的な協調推論と状況に応じた情報提供を可能にするアーキテクチャの提供。
- AgroAskAIは,役割を専門化したモジュール構造と責任の連鎖による協調により,気候変動適応に関する意思決定を支援する。
- 組み込まれたガバナンス機構は,幻覚を抑制し,一貫性のある地域に根ざした戦略を可能にする。
- 多言語対応により,非英語圏の農家にもアクセス可能であり,より実用的で包括的な情報を提供する。
ルーマニア語Vision Languageモデルのためのパラメータ効率の良いマルチモーダル命令チューニング [cs.CL, cs.CL, cs.AI, cs.LG]目的:ルーマニア語の視覚的質問応答能力の向上
- 生成AIの民主化には,リソースの少ない言語への対応が不可欠である。
- ルーマニア語のような言語に対するマルチモーダルNLPのリソースが不足している。
- ルーマニア語の視覚的質問応答と画像記述生成における性能向上を目指す。
- 翻訳されたFlickr30kデータセットと,LLMを活用した視覚的質問応答データセットを構築した。
- LoRAを用いたファインチューニングにより,LLaMA 3.2,LLaVA 1.6,Qwen2の性能が向上した。
- 70億パラメータのQwen2-VL-RoVQAがBERTScore F1で+6.05%と+2.61%の改善を示し,文法誤りも大幅に減少した。
低ランクMMSEフィルタ,クロネッカー積表現,および正則化:新たな視点 [cs.LG]目的:低ランクMMSEフィルタにおける正則化パラメータの効率的な決定
- 情報処理において,ノイズ低減は重要な課題であり,フィルタ設計が不可欠である。
- 低ランクMMSEフィルタでは,適切な正則化パラメータの選択が困難である。
- ランク選択の問題と関連付けることで,正則化パラメータの選択を容易にする。
- クロネッカー積表現を用いることで,正則化パラメータとランク選択が密接に関連することが示された。
- 提案手法はシミュレーションにより検証され,既存手法と比較して有意な改善が確認された。
- 低ランク設定において,適切な正則化パラメータの選択が重要であることが明らかになった。
AIを活用したクラウドセキュリティ:マルウェアとログ行動検知のための融合型AISOC [cs.CR, cs.LG]目的:マルウェアおよびログ行動の検知に関する融合型AI拡張セキュリティ運用センター(AISOC)の構築
- クラウド環境の拡大に伴い,クラウドセキュリティの重要性が増している。
- クラウド環境では,リソースの動的変化と大量のテレメトリデータの処理が課題である。
- 限られた予算内で,クラウドセキュリティ運用センターの能力を向上させる。
- AIとクラウドネイティブな計測を組み合わせたAISOCをAWS上に構築した。
- マルウェア検知器とログ異常検知器を訓練し,スコアを融合させることで,多角的な脅威インテリジェンスを実現した。
- 制御された環境下での評価では,高いマクロF1スコア(最大1.00)を達成し,融合によるクラウドSOC能力の向上が示唆された。
事前学習済みセグメンテーションモデルのポスト処理による改善 [cs.CV, cs.AI]目的:glioblastoma(神経膠腫)のセグメンテーション精度向上
- 脳腫瘍の中でも最も一般的な神経膠腫は致死率が高く,正確な画像解析が重要である。
- 大規模事前学習モデルは汎化性能が低く,誤検出やスライス不連続などの問題が生じやすい。
- 大規模モデルの訓練コストを抑えつつ,セグメンテーション精度を高めることを目指す。
- ポスト処理技術により,サブサハラアフリカチャレンジにおいてランキング指標が14.9%向上した。
- 成人神経膠腫チャレンジにおいても,ランキング指標が0.9%向上した。
- 複雑なモデル開発から,効率的で臨床的に有用なポスト処理戦略への転換を促進する。
TalkVerse:1分間の音声駆動型動画生成の民主化 [cs.CV, cs.AI, cs.MM, cs.SD]目的:1分間の音声駆動型動画生成のための大規模なオープンコーパス
- 動画生成技術は,エンターテイメント,教育,コミュニケーションなど幅広い分野で重要性が増している。
- 既存の高品質な動画生成システムは,データセットが非公開であったり,計算コストが高く,研究の障壁となっている。
- 本研究は,高品質で再現性のある動画生成を,より多くの研究者が利用できるようにすることを目指す。
- TalkVerseは,230万件以上の高解像度(720p/1080p)の音声・動画同期クリップから構成される大規模なデータセットである。
- 50億パラメータのDiTベースラインモデルを構築し,長時間の動画生成におけるドリフトを低減することに成功した。
- 本モデルは,140億パラメータのモデルと同等の品質を,10分の1の計算コストで実現し,ゼロショットの動画ダビングも可能である。
PINNsによる境界条件強制:3次元形状における比較研究と検証 [math.NA, cs.LG, cs.NA]目的:PINNsにおける境界条件強制手法の比較と,複雑な3次元形状への適用可能性の検証
- 物理現象や工学問題を数値的に解く上で,境界条件の正確な設定は非常に重要である。
- 複雑な3次元形状においては,従来のメッシュベースの手法で境界条件を強制することが困難である。
- PINNsの境界条件強制手法を体系的に比較し,複雑な3次元形状問題への適用を可能にすること。
- PINNsの境界条件強制手法を比較した結果,手法によって精度や安定性に差が見られた。
- 提案手法は,様々な偏微分方程式や境界条件に対して,汎用的に適用可能であることが示された。
- 本研究は,PINNsを既存の数値解法と競合できる成熟した手法として確立するためのステップとなる。
EVICPRESS:効率的なLLMサービングのためのKVキャッシュ圧縮と退去の統合 [cs.OS, cs.AI, cs.LG]目的:大規模言語モデル(LLM)サービングにおけるKVキャッシュの効率的な管理
- LLMの推論効率において,KVキャッシュの再利用は不可欠である。高速な処理とメモリ使用量の最適化が求められている。
- KVキャッシュのフットプリントがGPUメモリ容量を超えやすく,性能低下の原因となる。既存手法では,圧縮と退去のいずれか一方に注力していた。
- 圧縮と退去の決定を統合的に最適化し,生成遅延を最小限に抑えつつ,品質を維持することを目的とする。
- EVICPRESSは,複数のストレージ階層にわたるKVキャッシュに対して,損失のある圧縮と適応的な退去を適用するシステムである。
- EVICPRESSは,品質と遅延への影響を定量化する統合的なユーティリティ関数を提案し,KVキャッシュの配置を最適化する。
- 12のデータセットと5つのモデルによる評価の結果,EVICPRESSは従来のベースラインと比較して,最速で2.19倍のトークン生成時間を実現した。
言語モデル蒸留のためのクロス・トークナイザー尤度スコアリングアルゴリズム [cs.RO, cs.HC, cs.CL, cs.LG]目的:言語モデル蒸留におけるクロス・トークナイザー尤度スコアリング手法
- 知識蒸留は,大規模言語モデルの効率的な転移学習に不可欠であり,その性能向上に貢献する。
- 教師モデルと生徒モデルでトークナイザーが異なる場合,尤度計算が困難となり,知識蒸留のボトルネックとなる。
- 異なるトークナイザーを持つモデル間での尤度スコアリングを可能にし,メモリ効率と性能向上を目指す。
- 提案手法は,Byte-Pair Encoding(BPE)の再帰的構造を利用し,異なる語彙を持つモデル間の尤度計算を可能にする。
- 生徒モデルの語彙が教師モデルのサブセットの場合,正確な尤度計算とO(1)のモデル評価でシーケンス尤度を評価できる。
- Qwen2.5-1.5Bモデルの蒸留において,メモリフットプリントを最大12%削減し,性能を最大4%向上させた。また,数学的推論タスクにおいて,GSM8Kの精度を2%以上改善した。
機械学習を用いた車載ネットワークにおける侵入検知 [cs.CR, cs.LG]目的:車載ネットワークの悪意のあるCANバス通信の分類
- 自動車のコネクティビティ向上に伴い,安全確保が重要視されている。
- 車両はサイバー攻撃に対して脆弱であり,DoS攻撃やメッセージ偽装のリスクがある。
- 機械学習による侵入検知システムを構築し,車両の安全性を高める。
- CiCIoV2024データセットを用いた分析により,攻撃パターンと正常データの構造的差異が確認された。
- DoS攻撃やガス,RPM,速度,ステアリングホイールの偽装など,複数の攻撃タイプが識別可能であることが示された。
- 本研究は,車載ネットワークにおける機械学習モデル構築の基礎となる知見を提供する。
深層学習とエリス可能性:共通ノイズを持つMcKean-Vlasov FBSDEs [cs.HC, cs.LG, q-fin.CP, q-fin.MF]目的:McKean-Vlasov FBSDEsの数値解法
- 金融工学や経済学において,確率的微分方程式はリスク管理や均衡モデルの構築に不可欠である。
- 複雑な相互作用を持つMcKean-Vlasov FBSDEsの解析解を得ることが困難であり,高精度な数値解法が求められる。
- エリス可能性と深層学習を組み合わせることで,計算コストを抑えつつ高精度な数値解を求めることを目指す。
- エリス可能性を利用した損失関数を導出し,ニューラルネットワークによる効率的な学習を可能にした。
- 金融モデルや経済成長モデルへの適用により,提案手法の有効性と柔軟性を実証した。
- 共通ノイズやquantile-mediated interactionへの対応など,既存手法では困難だった問題に対処可能となった。
拡散モデルのためのソフト制約ノイズ除去器 [eess.SY, cs.DC, cs.SY, cs.HC, cs.LG]目的:拡散モデルにおける制約条件の遵守
- 科学的応用において,制約条件を満たすサンプルの生成は不可欠である。
- 既存手法は制約条件を強制する過程で,生成モデルを真のデータ分布から偏らせる。
- 制約条件の誤指定が一般的な問題であり,それを回避する手法が求められている。
- 提案手法は,ノイズ除去器自体に制約条件への誘導を組み込むことで,制約条件の遵守性を向上させる。
- 制約条件が誤指定された場合でも,観測データに基づいて柔軟に逸脱できる。
- 標準的なノイズ除去器と比較して,制約条件に関する知識を活用し,高い遵守性を実現する。
プロンプトの繰り返しは,推論を用いないLLMの性能を向上させる [cs.LG, cs.AI, cs.CL]目的:推論を用いないLLMにおける性能向上
- 大規模言語モデルは,様々な自然言語処理タスクにおいて重要な役割を担っている。
- LLMは,しばしば入力に対する頑健性に欠け,わずかな入力の変化で性能が変動する。
- 入力プロンプトの繰り返しによって,LLMの性能を安定化させ,向上させることを目指す。
- プロンプトの繰り返しは,Gemini,GPT,Claude,Deepseekなどの主要モデルにおいて,性能向上をもたらすことが確認された。
- 生成トークン数や応答速度への影響はなく,効率的な性能向上が可能である。
多岐にわたる化学オリンピックの問題に対する大規模言語モデルの評価 [cs.CL, cs.AI, cs.CV]目的:大規模言語モデルにおける多角的科学的推論能力の評価
- 科学分野,特に化学において,高度な推論能力が求められるため,AIによる問題解決の自動化が重要である。
- 現在のLLMは,図や分子構造などの視覚情報を言語情報と統合し,科学的推論を行うことが困難である。
- LLMの多角的科学的推論能力の限界を明らかにし,より堅牢で解釈可能なシステム開発の方向性を示す。
- 多くのモデルにおいて,画像とテキストの統合に課題があり,場合によっては画像を削除した方が精度が向上することが示された。
- Chain-of-Thoughtプロンプトは,精度と視覚的根拠の強化に一貫して効果的であることが確認された。
- 本研究は,特定の分野における多角的AIの進捗を測定するためのベンチマークを提供し,さらなる発展の必要性を示唆する。
イミテーションゲーム:知能エージェントを活用した深層学習バグの再現 [cs.SE, cs.AI, cs.LG]目的:深層学習バグの再現
- 深層学習は様々な分野で活用されているが,バグや脆弱性が存在する。
- 深層学習モデルの非決定性とハードウェア・ソフトウェア環境との密結合により,バグの再現は困難である。
- 本研究は,深層学習バグの再現における自動化と効率化を目指す。
- RepGenは,プロジェクトから学習されたコンテキストを構築し,バグ再現のための計画を立てる。
- 106個の実世界の深層学習バグに対する評価で,80.19%の再現率を達成した。
- 開発者調査では,RepGenがバグ再現の成功率を23.35%向上させ,再現時間を56.8%削減し,認知負荷を軽減することが示された。
拡散過程の確率的制御のための適応的分割と学習 [cs.LG, math.OC, q-fin.PM]目的:拡散過程の確率的制御における強化学習
- 金融,経済,オペレーションズリサーチ等で重要であり,連続状態空間を持つ問題に適用可能である。
- 連続かつ高次元の空間における学習は,次元の呪いにより困難を伴う。
- 推定バイアスと統計的信頼区間のバランスを取り,非有界領域での効率的な学習を実現する。
- 本研究では,適応的に状態と行動の空間を分割するモデルベースのアルゴリズムを提案した。
- このアルゴリズムは,推定誤差に基づいて分割を洗練し,探索と近似のバランスを実現する。
- 理論的な後悔の限界を確立し,多資産平均分散ポートフォリオ選択への応用を検証した。
ウォーターマークはどこにあるか?ブロックレベルでの解釈可能なウォーターマーク検出 [cs.CV, cs.AI]目的:デジタルコンテンツの信頼性,所有権,不正利用に関する懸念への対処
- 生成AIの進化に伴い,デジタルコンテンツの真正性保護が重要となっている。
- 既存のウォーターマーク技術はブラックボックス的であり,透明性に欠ける。
- 画像内のウォーターマークの位置や改ざん箇所を特定すること。
- 本研究では,離散ウェーブレット変換領域での統計的なブロック単位の埋め込みにより,局所的な埋め込みと領域レベルでの解釈可能性を組み合わせたウォーターマーク検出手法を提案。
- 提案手法は,一般的な画像変換に対して高い堅牢性を持ちながら,意味的な操作に敏感であり,ウォーターマークの知覚可能性も低い。
- 従来のポストホック手法と比較して,より解釈可能な検出結果と競争力のある堅牢性を両立している。例えば,画像全体の半分までのクロッピングに強い。
近接性を超えて:乳用牛における親和的および攻撃的な社会ネットワークを分類するためのキーポイント・軌跡フレームワーク [cs.CV, cs.AI]目的:乳用牛の親和的・攻撃的社会ネットワーク分類のためのキーポイント・軌跡に基づくフレームワーク
- 精密畜産において,群れの福祉をモニタリングするためには,社会行動の客観的な評価が不可欠である。
- 既存のアプローチは,静的な近接性閾値を用いて相互作用を推測するため,複雑な環境下での親和性・攻撃性の区別が困難である。
- 本研究は,キーポイント軌跡の時空間的幾何学をモデル化することで,より正確な社会行動の分類を目指す。
- 提案フレームワークは,YOLOv11,ByteTrack,ZebraPoseなどの技術を統合したコンピュータビジョンパイプラインとして実装された。
- 乳用牛の行動に関する注釈付きデータを用いた実験の結果,姿勢情報のみで77.51%の精度で親和的・攻撃的な行動を識別できた。
- 近接性のみを用いるベースラインと比較して,特に親和的な行動の識別において,大幅な性能向上が認められた。
DreamPRM-Code:ラベル修正による関数型ステップ報酬モデル - LLMコーディングへの応用 [cs.LG, cs.AI, cs.CL]目的:LLMコーディングにおける性能向上
- LLMの性能向上には,テスト時スケーリングが重要であり,その鍵となるのがプロセス報酬モデルである。
- コードのステップ分解が難しく,モンテカルロ法で生成される部分的なラベルにノイズが多いことが課題である。
- 関数を推論ステップとして扱うことで,より有効なPRMを構築し,ラベルノイズを軽減することを目指す。
- DreamPRM-Codeは,Chain-of-Functionプロンプティングを用いてモジュール化されたコード生成を促し,PRMの訓練と応用を数学的な推論タスクに類似させる。
- メタ学習に基づくラベル修正メカニズムを導入し,クリーンな最終解のユニットテストラベルを活用して,中間ラベルを改良する。
- LiveCodeBenchにおいて80.9%のpass@1レートを達成し,OpenAI o4-miniを上回る最先端の性能を示した。
アナログ回路による高密度連想記憶 [cs.NE]目的:高密度連想記憶(DenseAM)のアナログアクセラレータの構築手法
- 現代AIの計算需要増大により,デジタルハードウェアの限界が露呈し,効率的な推論のための代替パラダイムが求められている。
- 既存のデジタルソルバーはモデルサイズに比例して計算時間が増加するため,大規模モデルの高速化が課題となっている。
- アナログ回路の並列性と連続時間動作を利用し,高速かつスケーラブルなAIハードウェアを実現することを目指す。
- 提案手法により構築されたアナログDenseAMハードウェアは,モデルサイズに依存しない定数時間で推論を実行可能であることが示された。
- XOR,Hamming(7,4)コード,バイナリ変数の単純な言語モデルの3つのモデルに対して,アナログ実装を提案し,そのスケーリング特性を分析した。
- アンプの仕様に基づいた時間定数の下限を推定した結果,既存のアナログ技術でも数十から数百ナノ秒の推論時間を達成可能であることが示唆された。
SeBERTis:セキュリティ関連の問題報告を分類するためのフレームワーク [cs.CR, cs.LG, cs.SE]目的:セキュリティ関連の問題報告の分類器の作成
- ソフトウェア保守において,問題追跡システムの監視は不可欠であり,リスクの高いセキュリティ関連のバグの優先順位付けが重要である。
- 既存の手法は,語彙的な手がかりを記憶しがちで,複雑な報告に対して検出率が低いという課題がある。
- 語彙的な手がかりに依存しない深層ニューラルネットワークの分類器を訓練し,未知のセキュリティ関連の問題を高精度に検出することを目指す。
- SEBERTISは,マスクされた言語モデリングを用いて,セマンティックに等価な語彙を用いてラベルを予測することで,語彙的な手がかりに依存しない分類器を訓練する。
- SEBERTISによって訓練された分類器は,10,000件のGitHubの問題報告のデータセットで0.9880のF1スコアを達成し,既存の分類器を大幅に上回った。
- 機械学習ベースラインと比較して,精度,再現率,F1スコアがそれぞれ14.44%-96.98%,15.40%-93.07%,14.90%-94.72%向上し,LLMベースラインよりもさらに優れた性能を示した。
専門知識の引き出しにおける動画質問生成能力の評価 [cs.CV, cs.AI]目的:専門家の知識を引き出すための質問生成モデルの評価プロトコル
- 専門家へのインタビューは貴重な情報を得る手段であり,効果的な質問の重要性が認識されている。
- 既存の動画質問生成モデルの評価は,質問への回答可能性に偏っており,質問自体の質に着目した評価が不足している。
- 本研究は,専門家から未知の知識を引き出す質問の質を評価するプロトコルを提案し,動画質問生成モデルの改善を目指す。
- 提案する評価プロトコルは,より豊富な文脈にアクセスできるモデルほど高い評価を得るという結果が得られ,意図した通りに機能していることが示唆された。
- 専門家との質疑応答をシミュレーションすることで質問の質を評価する新しいデータセットEgoExoAskを構築した。
- EgoExoAskデータセットは,動画質問生成モデルの継続的な改善に貢献することが期待される。
株式パターンアシスタント(SPA):株式市場における構造的プライスラン抽出とイベント相関のための決定論的かつ説明可能なフレームワーク [cs.LG]目的:構造的プライスランの抽出とイベント相関に関する決定論的かつ説明可能なフレームワーク
- 金融市場分析において,価格変動の構造を理解することはリスク管理や投資戦略の策定に不可欠である。
- 既存のテクニカル指標や予測モデルは,透明性や説明可能性に課題を抱えており,監査可能性が低い場合がある。
- 本研究は,透明性,再現性,説明可能性を重視した,構造的プライスラン抽出とイベント相関のフレームワークを提案する。
- SPAは,日次のOHLCVデータと正規化されたイベントストリームのみを用いて,構造的プライスランを抽出し,関連するイベントとの相関を明確にする。
- 評価実験の結果,SPAは様々なボラティリティとセクター特性を持つ銘柄において,安定した構造分解と文脈的ナラティブを提供することが示された。
- アブレーション実験により,決定論的セグメンテーション,イベントアライメント,制約された説明が,解釈可能性にそれぞれ貢献することが確認された。
言語モデル間の認識的多様性が知識の崩壊を軽減する [cs.LG, cs.AI, cs.CY, cs.MA]目的:言語モデルにおける知識崩壊の軽減
- AIの利用拡大に伴い,知識の偏りや均一化が懸念されるため,多様性の確保が重要である。
- 単一モデルの自己学習による性能劣化(知識崩壊)が報告されている。
- モデル群の多様性を高めることで,知識崩壊を抑制し,AIシステムの安定性を高める。
- 言語モデル間の認識的多様性を高めることは,知識崩壊の軽減に有効であることが示された。
- しかし,多様性が高すぎると,各モデルの学習能力が低下し,性能が悪化する可能性がある。
- 適切な多様性を維持することが,AIシステムの性能と安定性の両立に重要である。
精度を超えて:チェス評価における大規模言語モデルの幾何学的安定性分析 [cs.AI]目的:大規模言語モデルのチェス評価における幾何学的安定性
- 複雑な推論領域において,大規模言語モデルの評価は重要な課題である。
- 従来の精度指標は,真の幾何学的推論と表面的な記憶との区別が困難である。
- 幾何学的安定性フレームワークを用いて,モデルの頑健性を評価し,推論能力を検証する。
- GPT-5.1のようなモデルは標準的な局面では高い精度を示すが,幾何学的変換(特に回転)に対しては劇的な性能低下が見られた。
- Claude Sonnet 4.5とKimi K2 Turboは,全ての変換軸において高い一貫性を維持し,優れた二重の頑健性を示した。
- 幾何学的安定性は,AI評価のための重要な指標であり,データ汚染や過学習からの推論能力の分離を可能にする。
スペクトル表現に基づく強化学習 [cs.LG, cs.AI]目的:強化学習におけるスペクトル表現の有効性
- 大規模な状態・行動空間を扱う強化学習は,現実世界の問題解決に不可欠である。
- 関数近似を用いるものの,理論的曖昧さ,最適化の不安定性,計算コストが課題となっていた。
- スペクトル表現を用いることで,これらの課題を克服し,効率的な強化学習を実現すること。
- スペクトル分解に基づくフレームワークにより,システムダイナミクスの効果的な抽象化が可能となった。
- 潜在変数構造やエネルギーベース構造を持つ遷移オペレータに対するスペクトル表現の構築法が示された。
- DeepMind Control Suiteにおいて,最先端のモデルフリーおよびモデルベース手法と同等以上の性能を達成した。
LADY:Transformerを用いない自律運転効率のための線形アテンション [cs.AI]目的:自律運転のためのエンドツーエンド型生成モデル
- 自動運転は,安全性向上や効率化に貢献し,社会実装が期待されている分野である。
- Transformerモデルは計算コストが高く,リソース制約のある環境での実用性が課題となっていた。
- 線形アテンションを活用し,計算コストを抑えつつ,高性能な自動運転モデルを実現すること。
- LADYは,線形アテンションのみで構成された初の自律運転用生成モデルである。
- NAVsimおよびBench2Driveのベンチマークで,最先端の性能を達成した。
- エッジデバイスでの実証実験により,リソース制約下での実用性も確認された。
統合センシングと通信のためのエージェントAI:分析,フレームワーク,事例研究 [cs.AI, cs.NI]目的:統合センシングと通信システムにおけるエージェントAIの応用価値と将来展望
- 次世代通信6Gにおいて,センシングと通信の統合が重要な役割を担う。効率的な情報収集と伝送が求められる。
- 無線環境の複雑化に伴い,従来のシステムでは効率性や適応性を維持することが困難になっている。
- エージェントAIを活用することで,動的な環境下での自律性と効率性を高め,ISACシステムの性能向上を目指す。
- エージェントAIとISACシステムの主要な特徴を包括的にレビューし,両者の関連性を明らかにした。
- 生成AIに基づくエージェントAIがISACシステムの最適化において大きな利点を持つことを示した。
- 新たなエージェントAIベースのISACフレームワークを提案し,その優位性を事例研究を通じて検証した。
HERO:移動可能な障害物の中での具現化されたナビゲーションのための階層的トラバース可能な3Dシーングラフ [cs.RO, cs.AI, cs.CL, cs.CV]目的:移動可能な障害物環境下での具現化されたナビゲーションのための階層的トラバース可能な3Dシーングラフの構築
- 現実世界でのロボットの自律的な行動には,環境の構造的理解が不可欠である。
- 既存の研究は静的な環境を前提としており,動的な障害物への対応が不十分である。
- 障害物を経路の一部として認識し,ナビゲーションの効率と到達範囲を向上させる。
- HEROは,障害物を経路としてモデル化することで,従来のモデルの課題を克服する。
- 部分的に遮蔽された環境において,パス長(PL)を35.1%削減することに成功した。
- 完全に遮蔽された環境において,成功率(SR)を79.4%向上させ,効率と到達範囲を大幅に改善した。
多Modal大規模言語モデルのためのニューロンレベル解毒による安全メガネ:SGM [cs.CL, cs.AI]目的:多Modal大規模言語モデルにおける有害性軽減
- 近年,画像とテキストを扱うモデルが増加し,その安全性確保が重要となっている。
- 既存の解毒手法では,敵対的入力に対する安全性確保が困難である。
- 特定の有害なニューロンを抑制することで,安全性を高めることを目指す。
- 提案手法SGMは,特定の専門家ニューロンをソフトに抑制することで,有害な活性化を中和する。
- 標準的および敵対的な条件下でSGMは有害率を48.2\%から2.5\%に大幅に削減した。
- SGMは既存の解毒手法と組み合わせることで,さらなる安全性向上が可能である。
メタ・プロンプティング・プロトコル:敵対的フィードバックループによるLLMのオーケストレーション [cs.CL, cs.AI, cs.LG, cs.SE]目的:大規模言語モデルのオーケストレーションに関する厳密な理論的枠組み
- LLMはチャットインターフェースから信頼性の高いソフトウェアコンポーネントへ移行しており,その重要性が増している。
- 従来のプロンプトエンジニアリングでは,ミッションクリティカルなアプリケーションに必要な決定論的な保証が得られない。
- LLMをプログラム可能で自己最適化するシステムとして構築し,幻覚を軽減し,モデル崩壊を防ぐことを目指す。
- メタ・プロンプティング・プロトコルは,生成器(P),監査者(A),最適化器(O)からなる敵対的トリニティを導入した。
- 自然言語命令を意味計算グラフ内の微分可能な変数として扱い,テキスト批判を勾配として利用することで,安定性を向上させている。
- DSPyとTextGradを用いた実験により,このアプローチの理論的可能性が示され,「観測可能なソフトウェアエンジニアリング」の基盤となる。
ウェーブレット解析とメモリバンクによる超音波長尺動画における空間的・時間的詳細の追跡 [cs.CV, cs.AI]目的:超音波長尺動画における病変領域と標的臓器のセグメンテーション精度向上
- 医療検査,疾患診断,手術計画において超音波動画の利用が不可欠であり,高精度なセグメンテーションが求められる。
- 超音波動画はコントラストが低くノイズが多い為,臓器境界のセグメンテーションが困難であり,小さな病変の見落としや境界誤差が生じやすい。
- 長尺動画における物体追跡の課題を克服し,特に小さな病変のセグメンテーション精度を向上させる。
- 提案手法は,ウェーブレット解析とメモリバンクを組み合わせることで,超音波動画から空間的・時間的な詳細を効果的に捉える。
- 実験結果から,提案手法は既存手法と比較して,セグメンテーション指標において顕著な改善が確認された。
- 特に,小さな甲状腺結節のセグメンテーション精度が向上しており,長尺動画中の小さな超音波オブジェクトに対する有効性が示された。
ワイヤレスネットワークにおける信頼性の高い周波数選択的電磁界予測のための条件付き拡散フレームワークEMFusion [cs.LG, cs.AI, cs.SY, eess.SY]目的:ワイヤレスネットワークにおける周波数選択的電磁界予測の信頼性向上
- 無線インフラの急速な発展に伴い,コンプライアンス確保や健康影響評価,効率的なネットワーク計画のため,正確な電磁界レベルの推定・予測が不可欠である。
- 既存研究は広帯域の集約電磁界データの単変量予測に依存しており,プロアクティブなネットワーク計画に重要な事業者間・周波数間変動を捉えられていない。
- 多様な文脈要素を統合し,明確な不確実性推定を提供することで,信頼性の高い電磁界予測を実現することを目指す。
- EMFusionは,時間帯,季節,祝日などの文脈要素を統合する条件付き多変量拡散ベースの確率的予測フレームワークである。
- EMFusionは,残差U-Netバックボーンとクロスアテンションメカニズムにより,外部条件を動的に統合し予測プロセスを導く。
- 実験結果から,EMFusionは既存モデルと比較して,CRPSで23.85%,NRMSEで13.93%の改善が見られ,予測CRPSエラーを22.47%削減した。
意味の錯覚:RAGシステムにおける埋め込みベースの幻覚検出の限界 [cs.LG, cs.AI, cs.CL]目的:RAGシステムにおける幻覚検出の限界の定量化
- RAGはLLMの知識不足を補い有用だが,幻覚のリスクは依然として存在する。
- 現在の幻覚検出手法は意味的類似性に基づき,その限界は明確にされていなかった。
- 埋め込みベースの手法が抱える問題点を明確にし,実用的なRAGへの導入を阻害する要因を特定する。
- 埋め込みベースの幻覚検出は,偽陽性率が高く,実用には不向きであることが示された。
- GPT-4のような推論能力を持つLLMは,低い偽陽性率で幻覚検出が可能であり,タスクの解決可能性を示唆する。
- 意味的に妥当な幻覚は,ソース文書との類似性を保ちながら事実誤認を含む「意味の錯覚」が原因である。
ポーズ誘導マルチビューマルチモーダル拡散による人物生成 (PMMD) [cs.CV, cs.AI]目的:人物生成のためのポーズ誘導マルチビューマルチモーダル拡散モデル
- 仮想試着や画像編集など,現実的な人物画像生成のニーズが高まっている。
- 既存手法では,隠蔽,服装スタイルのずれ,ポーズの不整合といった課題がある。
- マルチモーダルな情報を活用し,高品質で整合性の高い人物画像生成を目指す。
- PMMDは,マルチビュー参照,ポーズマップ,テキストプロンプトを条件に,写実的な人物画像を合成する。
- マルチモーダルエンコーダが,異なるモダリティ間のずれを減らし,人物同一性の忠実度を高める。
- DeepFashion MultiModalデータセットでの実験により,PMMDが既存手法を上回る性能を示すことが確認された。
LLMシステムにおけるセキュリティ対策の費用対効果の定量化 [cs.RO, cs.CR, cs.AI, cs.CL]目的:LLMシステムにおけるセキュリティ対策の費用対効果の定量化
- LLMはセキュリティ上重要なワークフローで利用が増加しており,その保護が不可欠である。
- セキュリティ対策の有効性を定量的に評価するガイダンスが不足しており,対策の優先順位付けが困難である。
- LLMシステムのセキュリティ対策の費用対効果を定量的に評価するフレームワークを提供する。
- 本研究では,攻撃成功確率と損失額の分布をモンテカルロシミュレーションで推定し,セキュリティ対策による損失削減効果を定量化した。
- 属性ベースアクセス制御(ABAC)はPII漏洩やプロンプトインジェクション攻撃をほぼ完全に阻止し,費用対効果が9.83と最も高かった。
- 固有表現認識(NER)による秘匿化もPII漏洩を解消し,費用対効果は5.97であった。NeMo Guardrailsは効果が限定的であった。
意味構造設計者:FEAMLが構造化データとLLMを橋渡しし,マルチラベルタスクを実現する [cs.LG]目的:マルチラベル分類のための自動特徴量エンジニアリング手法
- 機械学習の性能は特徴量に大きく左右されるため,その自動化は重要である。
- 既存の特徴量エンジニアリング手法は,マルチラベル学習の特性に特化していない。
- LLMを活用し,ラベル間の依存関係を考慮した高品質な特徴量を自動生成すること。
- FEAMLは,LLMのコード生成能力を活用し,データの特徴とタスク目標の関係性を学習する。
- 生成された特徴量はモデル精度で評価され,その結果がLLMへのフィードバックとして活用される。
- 複数のマルチラベルデータセットにおいて,既存手法よりも優れた性能を示すことが確認された。
弾性シミュレーションのためのニューラルモジュール物理 [cs.LG, cs.CE]目的:弾性シミュレーションにおけるニューラルモジュール物理の提案
- 物理シミュレーションは,現実世界の挙動を再現する上で重要であり,様々な分野で活用されている。
- 従来のニューラルネットワークによる物理シミュレーションは,物理的な解釈性や信頼性に課題があった。
- 物理的に意味のあるモジュールに分解し,中間変数を直接監視することで,物理的整合性と汎化性能の向上を目指す。
- 本研究で提案するニューラルモジュール物理は,未知の初期条件や解像度に対する汎化性能が向上した。
- 長時間の安定したシミュレーションが可能となり,他のニューラルシミュレーターと比較して物理的特性の保存が改善された。
- 従来のシミュレーターでは困難な,未知のダイナミクスを持つシナリオにおける実行可能性も示された。
物理情報に基づく分割ペナルティ深層演算ネットワーク [cs.LG, physics.comp-ph]目的:パラメータ化された偏微分方程式の解を高速化するための演算子学習手法
- 偏微分方程式は自然科学・工学の基礎であり,その効率的な解法は重要である。
- 既存の深層演算子ネットワークは,大量のデータや不安定な学習,表現力の限界などの課題がある。
- 分割統一体法に着想を得て,物理情報とペナルティ項を導入し,より安定かつ高精度な演算子学習を目指す。
- 提案手法であるPIP$^2$ Netは,3つの非線形偏微分方程式において,既存手法よりも予測精度と安定性に優れていた。
- 特に,PIP$^2$ Netの簡略化された分割ペナルティは,より協調的な特徴抽出を可能にし,表現力を向上させた。
- 本研究は,深層演算子ネットワークの物理情報組み込みと安定化に貢献し,より実用的な応用を可能にする。
SigMA:fBm駆動SDEにおけるパラメータ学習のためのパス署名とマルチヘッドアテンション [cs.LG, q-fin.MF]目的:fBm駆動SDEのパラメータ推定における精度とモデル複雑さのトレードオフ改善
- 金融や信頼性工学など,粗い力学と長距離依存性を持つシステムのモデリングにおいてSDEの利用が増加している。
- fBm駆動SDEはマルコフ性を持たず,半マルチンゲール構造も欠如するため,古典的なパラメータ推定技術の適用が困難である。
- パス署名とアテンション機構を組み合わせることで,複雑なSDEのパラメータ推定をより効率的に行うことを目指す。
- SigMAは,パス署名とマルチヘッド自己注意機構を統合した新しいニューラルアーキテクチャであり,合成データと実データにおいて,既存モデルよりも高い精度を示した。
- 特に,Hurstパラメータの推定や複数パラメータの同時推定において,SigMAはロバスト性とモデルのコンパクトさにおいても優れている。
- パス署名とアテンション機構の組み合わせが,粗い時間構造を持つ確率的システムのパラメータ推論に対する効果的かつスケーラブルなフレームワークを提供する。
