arXiv雑要約
AI - 2026/05/27 公開
ParsVoice:テキスト読み上げ合成のための大規模多話者ペルシャ語音声コーパス [cs.SD, cs.AI, cs.HC, cs.LG]目的:多話者テキスト読み上げ(TTS)システム学習用ペルシャ語音声テキストコーパス
- ペルシャ語の音声データは限られており,音声技術の発展が遅れている。
- 公開されているペルシャ語のTTSデータセットが小さく,高性能なTTSシステム構築が困難である。
- 大規模な高品質なペルシャ語音声テキストコーパスを構築し,TTS研究を促進すること。
- ParsVoiceは,2200時間のTTS準備完了サブセットを含み,既存のデータセットの25倍以上の規模である。
- コーパスを用いてXTTSをファインチューニングした結果,自然度MOSが3.6/5,話者類似性MOSが4.0/5を達成した。
- データセットはHugging Faceで公開されており,利用可能である。
LLM誘導型階層検索による,推論集約型検索 [cs.IR, cs.LG]目的:推論集約型検索における情報検索システムの性能向上
- 複雑な推論を必要とするクエリへの対応が求められており,従来の検索手法では限界がある。
- 埋め込みモデルの性能が不十分な場合,関連文書を上位に表示できないという課題が存在する。
- LLMを直接検索インデックスと連携させ,埋め込みモデルに依存しない新たな検索パラダイムを構築する。
- LATTICEは,オフザシェルフのLLMのみで,最先端のファインチューニングされたアンサンブルベースラインと同等の性能(nDCG@10で46.7)を達成した。
- LATTICE++は,LATTICEと安価な検索を融合することで,さらに高い性能(nDCG@10で49.1)を実現した。
- LATTICEは,オープンウェイトのLLMでも動作し,従来のIRベンチマークにおいても競争力のある性能を示した。
出力誤差の上限に基づく深層状態空間モデルの圧縮手法 [cs.SI, cs.DL, eess.SY, cs.LG, cs.SY]目的:深層状態空間モデルの圧縮
- 深層学習モデルの規模拡大に伴い,計算コストとメモリ使用量の削減が重要課題となっている。
- 既存のモデル圧縮手法では,精度劣化を伴う場合が多く,その抑制が課題である。
- 出力誤差の上限を保証しつつ,モデルのパラメータ数を削減することを目指す。
- 提案手法により,モデルの再学習を行わずに,学習可能なパラメータ数を約60%削減可能であることをIMDbタスクで示した。
- 深層状態空間モデル間の出力誤差の上限を導出し,層ごとのLQOシステム間の$h^2$誤差ノルムで表現した。
- 浅い層に配置されたLQOシステムの$h^2$近似誤差を低減することが,出力誤差の上限削減に有効であることを示した。
VERA-V:Vision-Languageモデルの脱獄のための変分推論フレームワーク [cs.CR, cs.CL, cs.CV, cs.LG, stat.ML]目的:Vision-Languageモデルの脱獄プロンプトの学習と生成
- 画像とテキストを扱うVLMsは,LLMsの能力を拡張する一方,新たな脆弱性を持ちうる。
- 既存の手法は,脆弱なテンプレートに依存し,単一攻撃に焦点を当て,検出できる脆弱性の範囲が限定的である。
- 多様な脱獄プロンプトを効率的に生成し,VLMsの脆弱性に関する分布的な知見を得ることを目指す。
- VERA-Vは,テキストと画像のペアを組み合わせた,よりステルス性の高い攻撃を可能にする。
- HarmBenchおよびHADESベンチマークにおいて,オープンソースおよび最先端のVLMsに対して,最先端の手法を上回る性能を示した。
- GPT-4oに対しては,最高性能のベースラインを最大53.75%上回る攻撃成功率(ASR)を達成した。
心血管センサーパッチのためのエンドツーエンドマルチモーダルTiny-CNNのプロトタイピング [cs.LG, cs.CV]目的:心血管疾患の早期兆候検出のための深層学習モデルの実現可能性
- 心血管疾患は予防可能であり,早期発見が重要であるため,継続的なモニタリングが求められる。
- ウェアラブルセンサーからのデータ解析には,高い堅牢性,信頼性,効率性,精度が課題となる。
- 省電力で高精度な深層学習モデルを,医療エッジデバイスに実装し,エネルギー効率を改善すること。
- 提案手法は,最先端の手法と比較して,メモリフットプリントと計算コストを約3桁削減できる。
- Physionet Challenge 2016データセットを用いた評価で,競争力のある精度を維持していることが示された。
- デバイス上での推論は,継続的なデータストリーミングよりもエネルギー効率が良いことが確認された。
ノード貢献度逆伝播によるマルチエージェントシステムの堅牢化 [cs.CR, cs.AI, cs.LG, cs.MA, math.OC]目的:マルチエージェントシステムにおける不正に対する堅牢性
- 大規模言語モデル応用の主要なパラダイムであり,複雑な問題解決に有効である。
- 悪意のあるエージェントによる誤情報の注入と伝播が,システム全体を腐敗させる危険性がある。
- 動的な環境下で,悪意のあるエージェントを特定・隔離し,システム全体の信頼性を確保すること。
- 提案手法は,マルチエージェントシステムの通信を符号付き有向非巡回グラフとしてモデル化する。
- 最終決定への各エージェントの貢献度を逆伝播によって算出し,悪意のあるエージェントを高精度に特定する。
- 複雑かつ動的な環境下での実験結果から,既存の手法と比較して優れた性能が確認された。
割引付き強化学習による効率的な推論学習 [cs.LG]目的:大規模推論モデルの効率性向上
- 推論モデルの規模拡大に伴い,計算コストと遅延が課題となっている。
- 推論ステップの増加が必ずしも精度向上に繋がるとは限らない。
- トークン消費量を抑制し,簡潔かつ正確な推論を促すこと。
- 割引付き強化学習を用いることで,推論過程におけるトークン消費量を削減できることが示された。
- この手法は,推論の連鎖を短縮しつつ,精度を維持することが確認された。
- ブラックウェル最適性に基づく理論的分析により,効率的な推論の実現可能性が支持された。
PRBench:確率的ロバスト性評価の標準ベンチマーク [cs.SI, cs.CY, cs.CV, cs.LG]目的:確率的ロバスト性向上のための様々なロバスト性学習手法の評価
- 深層学習モデルの脆弱性は重要な課題であり,実用的な応用において信頼性を高める必要がある。
- 確率的ロバスト性(PR)の評価手法が統一されておらず,既存手法の比較が困難である。
- PRBenchは,PRの向上を目指す様々な手法を比較し,汎化性能を評価することで,その課題を解決する。
- 敵対的学習(AT)は,多様なハイパーパラメータ設定において,ARとPRの両方の性能向上に有効である。
- PRを対象とした学習手法は,一貫して低い汎化誤差と高いクリーン精度を達成する。
- PRBenchのリーダーボードには,7つのデータセットと10のモデルアーキテクチャで学習された229個のモデルが含まれている。
容量制約のある配置ルーティング問題に対するエンドツーエンド学習アプローチ [cs.LG, cs.AI]目的:容量制約のある配置ルーティング問題および開放型配置ルーティング問題の解決
- サプライチェーン管理において,効率的な配送網の最適化はコスト削減と顧客満足度向上に不可欠である。
- 配置とルーティングの同時決定という複雑な問題設定のため,従来の最適化手法では大規模問題への適用が困難である。
- 深層強化学習を用いて,配置とルーティングの相互依存性を考慮したエンドツーエンドの解決策を提案する。
- 提案手法であるDRLHQは,従来の最適化手法および他の深層強化学習ベースラインと比較して,優れた解質を示す。
- 合成データおよびベンチマークデータセットにおいて,汎化性能の高さが実証された。
- 配置ルーティング問題をマルコフ決定過程として再定式化することで,他の深層強化学習手法への応用も可能となる汎用的なフレームワークを提示した。
SWAP: 逐次ウォーターマークによるソフトプロンプトの著作権監査 [cs.CR, cs.AI, cs.LG]目的:ソフトプロンプトの著作権保護のための監査手法
- 大規模言語モデルの利用拡大に伴い,知的財産の保護が重要になっている。
- 既存のモデル監査技術は,ソフトプロンプトの特性上,誤検知が多いという課題がある。
- ソフトプロンプトに埋め込まれたウォーターマークを用いて,著作権侵害を検出することを目指す。
- 提案手法SWAPは,防御者が指定した分布外クラスの順序を用いてウォーターマークを埋め込む。
- これにより,元の予測ラベルを変更することなく,ウォーターマークをより複雑な空間に埋め込むことができる。
- 実験結果から,SWAPは有効性,無害性,および潜在的な攻撃に対する頑健性を示すことが示された。
低線量CTによる心血管リスク評価のための疾患間推論の説明可能性 [cs.CV, cs.AI, cs.LG]目的:低線量CTからの心血管リスク評価
- 肺と心血管の健康状態を同時に評価することで,包括的な健康管理が可能となるため重要である。
- 既存手法では,肺と心血管を独立にモデル化しており,生理的な相互作用が明確に表現されていない。
- 本研究は,肺の所見と医療知識に基づいて心血管リスクを評価する説明可能な枠組みを提案する。
- 提案手法は,National Lung Screening Trialコホートにおいて,心血管疾患スクリーニングのAUCで0.919を達成した。
- 心血管疾患死亡予測においてもAUC 0.838を達成し,既存手法を上回る性能を示した。
- 心血管リスク評価において,肺の所見と医療知識に基づいた説明可能な推論が可能となった。
AI駆動型貢献度評価と対立解決:グループワークロード調査のためのフレームワークと設計 [cs.AI]目的:チームにおける個人貢献度の公平な評価
- チームワークは現代社会において不可欠であり,生産性やイノベーションに大きく影響する。
- 貢献度の評価は主観的になりやすく,不公平感が生じ,チーム内の対立を招く可能性がある。
- AIを活用し,客観的指標に基づいた貢献度評価と対立解決の支援を目指す。
- 本研究では,貢献度,相互作用,役割という3つの次元と9つの基準に基づいたフレームワークを提案する。
- 多様な成果物やコミュニケーション記録を分析し,ジニ係数を用いて不平等指標を可視化する。
- 大規模言語モデル(LLM)を用いて,客観的かつ解釈可能な助言を提供し,紛争解決を支援する。
CFG-OEC:直交誤差補正を用いたClassifier Free Guidance [cs.LG, cs.AI]目的:拡散モデルにおける条件付きサンプリングの構造的サンプリング誤差の低減
- 拡散モデルは高品質な画像生成を可能とするが,サンプリング手法の改善が重要である。
- Classifier Free Guidanceは一般的だが,学習目的とサンプリング規則の不一致が構造的誤差を引き起こす。
- 誤差の分解に基づき,誤差間の相互作用を低減する構造修正手法を提案し,性能向上を目指す。
- 提案手法CFG-OECは,理論的な誤差分解とプロキシ構築の妥当性を検証実験で確認した。
- Stable Diffusion v1.5およびXLにおける画像生成実験で,FIDおよびCLIPスコアが既存手法を上回る結果が得られた。
- 様々なサンプラーとガイダンス設定において,CFG-OECの有効性が示された。
カンディンスキー5.0:画像および動画生成のための基盤モデル群 [cs.CL, cs.CV, cs.AI, cs.LG]目的:高解像度画像および10秒動画合成のための基盤モデル群
- 画像生成技術は,コンテンツ制作,デザイン,エンターテイメントなど様々な分野で重要な役割を担う。
- 既存の生成モデルは,生成速度や品質において課題があり,実用的な応用が制限される場合がある。
- 高品質な画像・動画を高速に生成可能なモデルを開発し,生成AIの応用範囲を拡大すること。
- カンディンスキー5.0は,画像生成モデル(60億パラメータ)と動画生成モデル(20億/190億パラメータ)を含む一連のモデル群を提供する。
- データ収集・処理・フィルタリング・クラスタリングを含むデータキュレーションのライフサイクルを詳細に検討し,高品質なモデルの学習を実現した。
- アーキテクチャ,学習,推論の最適化により,高速な生成速度と最先端の性能を達成し,人間による評価でも高い評価を得た。
効率的なVLA推論のためのビジュアルトークン剪定における意味-行動のギャップの架橋 [cs.CV, cs.AI]目的:ビジュアルトークン剪定によるVLA推論の効率化
- VLAモデルは,視覚認識,言語理解,行動実行を統合し,具現化されたAIの可能性を秘めている。
- リアルタイムでの展開において,VLAモデルは高い計算コストを伴う。
- VLA推論特有の注意パターンに対応したトークン剪定手法による性能低下の抑制。
- VLA-Prunerは,意味的プレフィリングと時間的に平滑化された行動関連性の両方からビジュアルトークンの重要性を推定する。
- Combine-then-Filter戦略により,計算予算内でコンパクトで冗長性の低いトークンを保持する。
- 複数のVLAアーキテクチャで最先端のアプローチを上回り,最長1.99倍の高速化を達成し,同等の操作品質を維持する。
拡散モデルとフローベースモデルによる表現アライメントを用いた逆問題解決 [cs.CV, cs.LG]目的:逆問題における拡散モデルやフローベースモデルの表現アライメント
- 画像生成モデルの性能向上には,事前学習済みの特徴抽出器との整合性が重要である。
- 逆問題では正解データが存在しないため,再構成の質が向上しにくいという課題がある。
- 事前学習済みの生成モデルを逆問題に適用する際の再構成品質の向上を目指す。
- 拡散モデルまたはフローベースモデルとDINOv2ビジュアルエンコーダ間の表現アライメント(REPA)を適用することで,再構成過程を誘導できる。
- REPA正則化は,DINOv2埋め込み空間における発散の最小化のための変分アプローチと見なせる。
- REPA更新は,特定の規則性仮定の下で,潜在拡散状態をクリーン画像のそれへと導く。
強化学習またはSFTによって,スパースなブール関数を証明的に学習するTransformer [cs.LG, stat.ML]目的:Transformerによるスパースなブール関数の学習メカニズムの解明
- 複雑な推論タスク解決において,TransformerのChain-of-Thought能力獲得が重要視されている。
- 強化学習と教師ありファインチューニングは有効だが,学習メカニズムの違いが明確でなかった。
- スパースなブール関数という単純なモデルを用いて,強化学習とSFTの学習挙動を比較分析する。
- Transformerは,強化学習または教師ありファインチューニングによって,k-スパースなブール関数を学習可能であることが示された。
- 強化学習はCoTチェーン全体を同時に学習するのに対し,SFTはステップごとに自然に学習することが明らかになった。
- 報酬設計や教師強制の利用が,強化学習とSFTの比較において考慮すべき点であることが示唆された。
PaTAS:主観論理を用いたニューラルネットワークにおける信頼度伝播のためのフレームワーク [cs.AI, cs.LG]目的:ニューラルネットワークにおける信頼度伝播のフレームワーク
- 安全性が求められるAIシステムにおいて,信頼性は重要な要素である。
- 従来の評価指標では,不確実性やモデル予測の信頼性を適切に捉えられない場合がある。
- モデルの信頼性を評価し,潜在的なリスクを特定すること。
- PaTASは,主観論理を用いてニューラルネットワーク内の信頼度をモデル化・伝播させる。
- 実験結果から,PaTASは解釈可能で対称的,収束する信頼度推定値を生成することが示された。
- PaTASは,悪意のある入力と良性入力を区別し,モデルの信頼性と実際の信頼性の乖離を特定する。
商多様体上の境界商を用いた正規化フロー [cs.LG, math.PR]目的:商多様体上の密度学習
- 多様体上の確率モデルは,複雑なデータの表現に不可欠である。
- 対称性を持つ多様体上の確率モデルの構築は困難である。
- 境界商を用いることで,対称性を持つ多様体上の学習を効率化する。
- 境界商を用いることで,複雑な多様体上の正規化フローを構築できる。
- 有限群による対称性を持つデータへの適用可能性が示された。
- レンズ空間に関する実験で,単純なモデルが良好な性能と計算効率を両立することを示した。
選択条件付きリスク制御のための線形期待制約:選択的予測とルーティングシステム [cs.AI, cs.CL, cs.LG]目的:選択的予測における選択条件付きリスク制御
- 近年,大規模言語モデルの信頼性向上は重要課題である。誤った回答を受け入れるリスクを統計的に保証する必要がある。
- 既存の不確実性推定手法は,正解と不正解を十分に区別できず,誤った回答を受け入れてしまう問題がある。
- 選択された予測のエラー確率をユーザー指定のリスクレベル以下に抑えるためのフレームワークを構築する。
- 提案手法LECは,選択とエラーの指標に関する線形期待制約により,選択的予測を意思決定問題として再構築する。
- ホールドアウトされた較正データセットのみを用いて,リスク制約下で保持率を最大化する閾値を計算可能である。
- LECを2つのモデルルーティングシステムに拡張し,システムレベルでの選択条件付きエラー制御を維持することに成功した。
極めて疎な測定値からのマルチスケール物理場の再構成:オートエンコーダと拡散カスケード [cs.LG, cs.AI, physics.app-ph]目的:極めて疎な測定値から物理場を再構成すること
- 科学計測において,物理現象の理解や制御には高精度な場再構成が不可欠である。
- センサーの数が極端に少ない場合,場再構成は本質的に解が一意に定まらない逆問題となる。
- 観測データの制約下で複数の解が存在しうる状況に対し,不確実性を構造的にモデル化し,安定した推定を目指す。
- 提案手法「Cascaded Sensing」は,粗視尺度での推定と残差の推定を段階的に行うことで,不安定な推定を抑制する。
- まず,オートエンコーダを用いて疎な観測値から大まかな構造を推定し,主要な自由度を固定する。
- 次に,拡散モデルを用いて残差分布を学習することで,より安定した解空間にサンプリングを限定する。
モーフリング:大規模なグラフニューラルネットワーク学習のための高速,融合,柔軟な手法 [cs.LG, cs.DC, cs.PL]目的:グラフニューラルネットワークの学習における高性能化
- グラフニューラルネットワークは,様々な分野で重要な役割を担うようになってきている。
- 既存のフレームワークは,不規則なグラフ処理と密行列演算の特性に対応できていない。
- アーキテクチャに最適化されたコード生成により,GNN実行の性能向上を目指す。
- モーフリングは,CPUで平均20倍,GPUで平均19倍,分散環境で平均6倍,学習スループットを向上させた。
- メモリ効率の高いレイアウトにより,ピーク時のメモリ消費量を最大15倍削減し,汎用ハードウェアでの大規模GNN学習を可能にした。
- アーキテクチャに特化したコード生成が,多様な並列・分散プラットフォームにおける高性能なGNN実行への有効な道を示す。
知識グラフを用いた対話型質疑応答のための自己進化型エージェント学習:SEAL [eess.SY, cs.SY, cs.CL, cs.AI]目的:知識グラフを用いた対話型質疑応答における性能向上
- 知識グラフは,複雑な質問に答えるための構造化された情報源として重要である。
- 既存手法は,大規模知識グラフに対する複雑なクエリ処理において,精度と計算コストの問題がある。
- SEALは,自己進化型エージェント学習により,これらの問題を解決し,より効率的かつ正確な質疑応答を目指す。
- SEALは,LLMによる初期的な意味解析と,エージェントによる修正の二段階構成を取る。
- 自己進化機構により,対話履歴と実行フィードバックから継続的に学習し,再学習を必要としない。
- SPICEベンチマークにおいて,マルチホップ推論,比較,集約タスクで最先端の性能を達成した。
疎な自己符号化器を用いた抗体言語モデルのメカニズム解釈 [cs.LG, cs.AI, q-bio.QM]目的:抗体言語モデルにおける学習概念の解明
- タンパク質言語モデルは創薬等に有用だが,その内部動作はブラックボックスである。
- 言語モデルの潜在表現と生物学的意味の対応付けが困難である。
- 生成制御可能な特徴を特定し,モデルの解釈性を高める。
- TopK疎な自己符号化器は生物学的に意味のある潜在的特徴を明らかにできる。
- しかし,特徴と概念の相関が高いだけでは,生成の因果的制御は保証されない。
- Ordered疎な自己符号化器は階層構造を課すことで制御可能な特徴を特定するが,活性化パターンは複雑化する。
ガウスVAEによる学習不要のベクトル量子化 [cs.LG, cs.CV]目的:ベクトル量子化変分オートエンコーダの性能向上
- 画像圧縮における表現学習の重要性が高まっており,特に離散表現を用いた手法が注目されている。
- 従来のベクトル量子化変分オートエンコーダは,離散化処理が訓練を困難にするという課題があった。
- ガウスVAEを変換することで,追加学習なしに高精度なベクトル量子化を実現することを目指す。
- 提案手法Gaussian Quant (GQ)は,既存のVQ-VAEよりもUNetおよびViTアーキテクチャにおいて優れた性能を示した。
- GQは,コードブックサイズとガウスVAEのビットバックコーディングレートの関係を理論的に保証し,量子化誤差を抑制する。
- Target Divergence Constraint (TDC)は,ガウスVAEの訓練を改善し,既存の離散化手法の性能も向上させる。
多重ラベルデータに対する多変量ベルヌーイに基づくサンプリング手法:メタ研究への応用 [cs.LG, stat.ML]目的:多重ラベルデータのサンプリング
- データ分析において,多重ラベルデータは広く存在し,その分析手法の重要性は高い。
- ラベルの頻度に大きな偏りがある場合,少数ラベルの分析に必要な十分なサンプルを得ることが困難。
- ラベル間の依存関係を考慮し,少数ラベルの代表性を高めたバランスの取れたサブサンプルを生成すること。
- 提案手法は,ラベル間の依存関係を考慮し,多変量ベルヌーイ分布を用いてサンプリングを行う。
- 実験の結果,この手法は少数カテゴリの代表性を向上させ,カテゴリ頻度の偏りを軽減することが示された。
- Web of Scienceの論文データを用いた応用実験で,カテゴリ頻度の順序を維持し,依存関係を考慮した効果が確認された。
精密な構築:線形DAGのボトムアップ推論 [cs.CL, cs.LG, eess.SP]目的:線形DAG構造の推定
- 因果関係の発見,統計信号処理,機械学習において重要な課題である。
- 有限データからの精度行列の推定は困難であり,誤差が蓄積しやすい。
- 精度行列の構造を利用し,DAGを正確に再構築するアルゴリズムを開発する。
- 提案手法BUILDは,葉ノードとその親を特定し,枝を剪定するボトムアップ方式でDAGを推論する。
- 精度行列を再推定することで,誤差の蓄積を抑制し,ロバスト性を向上させている。
- 合成データによる評価において,最先端のDAG学習アルゴリズムと比較して良好な結果が得られている。
テンソルネットワークと回路の二乗を,二乗せずに実現する方法 [cs.LG, cs.AI]目的:テンソルネットワークと二乗回路の効率的な周辺化手法
- 機械学習において,複雑な確率分布を表現し,効率的な推論を行うことが重要である。
- テンソルネットワークや回路の二乗化は表現力は高いが,周辺化計算の複雑さが増大する。
- 二乗回路の周辺化コストを削減し,より効率的な学習を可能にすること。
- 本研究では,テンソルネットワークの正準形に着想を得て,二乗回路をパラメータ化する手法を提案した。
- 提案手法により,テンソルネットワーク以外の因数分解を持つ回路でも,効率的な周辺化が可能となった。
- 分布推定実験の結果,提案手法は表現力を損なうことなく,より効率的な学習を実現することが示された。
安定化グラフニューラルネットワークポリシーの空間におけるネットワークシステムの分散制御 [eess.SY, cs.LG, cs.SY, math.OC]目的:ネットワークシステムの分散制御
- 複雑なシステム制御において,分散的なアプローチはスケーラビリティとロバスト性の向上に不可欠である。
- 従来の制御手法では,大規模ネットワークにおける安定性の保証が困難であるという課題がある。
- グラフニューラルネットワークを用いた安定化制御により,大規模ネットワークの安定性を確保することを目的とする。
- Youla型パラメータ化にグラフニューラルネットワークを埋め込むことで,ネットワークレベルでの閉ループ安定性を設計段階で保証する分散確率制御器を提案。
- 振幅は,外乱フィードバックに作用するGNNで構成される安定オペレータとして実装され,方向はローカルな観測に作用するGNNとして実装される。
- グラフトポロジーとモデルパラメータの摂動に対するポリシーのロバスト性が理論的に証明され,数値実験で有効性が検証された。
GNN様計算の論理的視点と活性化関数の役割 [cs.LG, cs.LO]目的:グラフニューラルネットワークの計算能力の定量的・論理的表現
- グラフ構造データ処理の重要性が増しており,GNNはその中心的な手法である。
- 活性化関数がGNNの表現力に与える影響は十分に解明されていない。
- 活性化関数の種類によるGNNの表現力の違いを明確にすることを目的とする。
- 活性化関数がないA-MPLangの表現力は,ウォークサム特徴で特徴づけられる。
- 有界な活性化関数は,一定条件のもとで同じ表現力を持つことが示された。
- ReLUは,切り捨てReLUのような有界な活性化関数よりも数値クエリにおいて表現力が高いことが証明された。
緊急および集中治療における不均衡な表形式臨床データに対する機械学習の頑健性とスケーラビリティに関する実証研究 [cs.LG, cs.CV]目的:緊急および集中治療における不均衡な表形式臨床データに対する機械学習モデルの性能評価
- 救急部門や集中治療室では,迅速かつ正確な判断が求められるため,機械学習による支援が重要である。
- 臨床データは不均衡であることが多く,多数派クラスに偏ったモデルとなり,予測性能が低下する。
- 不均衡な臨床表形式データに対する,頑健かつ効率的なモデルの開発を目指す。
- MIMIC-IV-EDデータセットでは,TabPFN v2.6とTabICLが最も高い平均Macro F1スコアを示し,XGBoostも競争力があった。
- eICUデータセットでは,XGBoostが常に最良の性能を示し,他の決定木ベースの手法が続いた。ファウンデーションモデルは中間の性能を示した。
- TabNetは不均衡の増加に伴い性能が最も低下し,計算コストも高かった。決定木ベースの手法はデータセットサイズに応じてスケールしやすく,ファウンデーションモデルはタスク適応コストが低い。
EHRSummarizer:プライバシーを重視したFHIRネイティブなEHR要約の参照アーキテクチャ [cs.CL, cs.AI]目的:電子カルテ要約の参照アーキテクチャ
- 医療現場では,患者情報を迅速かつ正確に把握することが重要である。
- 電子カルテの情報は分散しており,医師が情報を集約するのに時間がかかる。
- 電子カルテからの情報抽出と要約を効率化し,医師の負担を軽減すること。
- EHRSummarizerは,プライバシーを保護しつつ,FHIR標準に準拠したEHR要約アーキテクチャである。
- HL7 FHIR R4リソースを取得・正規化し,臨床コンテキストパッケージを作成する。
- このアーキテクチャは,情報の欠損状況や薬剤ステータスの曖昧さ,文書の利用状況を明確にする。
デコーダー専用LLMの帰属性評価:制御された保持情報を用いた考察 [cs.CL, cs.CL, cs.AI, cs.LG]目的:LLMの帰属性評価方法の比較
- LLMの解釈可能性は,その信頼性と安全性を高める上で不可欠である。
- 既存の評価指標は,保持語数と帰属性の質を混同する可能性がある。
- 保持確率を制御することで,より公平な帰属性評価を実現する。
- 新しい評価指標π-Soft-NC/NSは,保持語数を制御することで,帰属性評価の公平性を向上させる。
- Grad-ELLMは,π-Soft-NCにおいて,高い網羅性指向の帰属性を示す。
- 本研究で提案する評価フレームワークは,LLMのXAI手法の進歩を支援する。
疫学的な質問応答と推論における大規模言語モデルのベンチマーク:EpiQAL [cs.CL, cs.AI]目的:疫学的な質問応答と推論における大規模言語モデルの性能評価
- 公衆衛生上の課題解決には,疫学に基づいた正確な判断が不可欠である。
- 既存の医療QAベンチマークは臨床知識に偏り,疫学的な推論能力の評価が不足している。
- 大規模言語モデルの疫学的な推論能力の限界を明らかにし,改善の方向性を示す。
- EpiQALは,多様な疾患を対象とした疫学的な質問応答を評価するための新たなベンチマークである。
- 現在のLLMは,多段階の推論に課題があり,モデルの規模だけでは性能向上が限定的であることが示された。
- EpiQALは,根拠に基づいた推論,推論能力,結論の再構築に関する詳細な診断情報を提供する。
二値を超える:コード生成における強化学習のための部分的な成功を密集した検証可能な報酬へ [cs.LG, cs.AI]目的:コード生成における強化学習のための,検証可能な部分的な成功を信頼性の高い密集した報酬へと変換するフレームワーク
- コード生成における強化学習は,ソフトウェア開発の自動化に不可欠であり,効率的な報酬設計が鍵となる。
- 従来の報酬設計は,疎な報酬や,アライメントのずれ,追加のオーバーヘッドといった課題を抱えている。
- 部分的な成功を効果的に活用し,報酬の密度を高めることで,学習の効率と精度を向上させることを目指す。
- 提案手法VeRPOは,部分的な成功を検証可能な密集した報酬へと変換するフレームワークであり,既存手法を上回る性能を示す。
- VeRPOは,カーディナリティバイアスを動的に補正するローカル報酬を導入し,容易なテストケースへの過剰な依存を抑制する。
- 実験の結果,VeRPOはpass@1のスコアを最大8.83%向上させ,時間コストとGPUメモリオーバーヘッドは無視できる程度である。
シャドウアンラーニング:LLMにおける忠実度を維持する顔のない忘却に対する神経意味的アプローチ [cs.CR, cs.AI, cs.CL]目的:LLMにおける,個人の特定情報(PII)を露出させることなく,匿名化された忘却データ上で機械アンラーニングを行うこと
- プライバシー保護の重要性が増す中,GDPR等の法規制に対応したデータ削除技術が求められている。
- 既存のアンラーニング手法は削除対象データへのアクセスが必要であり,情報漏洩や悪用のリスクがある。
- PIIを保護しつつ,モデルの有用性を維持した効率的なアンラーニング手法を開発すること。
- 提案手法NSPUは,様々なLLMにおいて,優れたアンラーニング性能とモデルの有用性の維持を実現した。
- NSPUは,従来のアンラーニング手法と比較して,少なくとも10倍の計算効率向上を達成した。
- 本研究は,データ保護とモデル忠実性のバランスをとる,プライバシーを重視した機械アンラーニングの新たな方向性を示唆する。
XGrammar-2:エージェント型LLMのための効率的な動的構造生成エンジン [cs.AI]目的:エージェント型LLMにおける動的構造生成の効率化
- 近年,LLMエージェントはツール呼び出し等,動的な構造生成に大きく依存している。
- 従来の構造生成エンジンでは,リクエスト毎に構造が変化するため,効率的な処理が課題であった。
- 本研究は,動的な構造変化に対応し,高速な構造生成を実現することを目指す。
- XGrammar-2は,タグ駆動の構造切り替えと,異なる出力構造間での細粒度な再利用を可能にする。
- TagDispatchによる動的構造ディスパッチとCross-Grammar Cacheによるサブ構造レベルのキャッシュ再利用を導入した。
- 実験の結果,XGrammar-2は従来のエンジンより6倍以上のコンパイル速度を達成し,エンドツーエンドのオーバーヘッドはほぼゼロである。
射影に基づく正則化による近似的な等変性 [cs.LG]目的:近似的な等変性の実現
- ニューラルネットワークにおいて,汎化性能と物理的な整合性を高める上で,等変性は重要な帰納的バイアスである。
- 実世界への応用では,完全な対称性を持たない場合もあり,非等変モデルが注目されている。そのため,効率性と精度を両立する必要がある。
- データ拡張に依存する既存手法のサンプル効率の低さを克服し,演算子レベルで非等変性を抑制する手法を開発する。
- 提案手法は,空間領域と周波数領域の両方において,非等変性ペナルティを正確かつ効率的に計算するための数学的枠組みを提示する。
- 実験結果から,提案手法は既存の近似等変性アプローチよりもモデル性能と効率の両面で一貫して優れた性能を示すことが確認された。
- 特にサンプルベースの正則化と比較して,大幅な実行時間短縮を実現した。
TowerMind:LLMエージェントのためのタワーディフェンスゲーム学習環境とベンチマーク [cs.AI]目的:LLMをエージェントとして活用するための学習環境と評価基準
- 大規模言語モデル(LLM)は,多様な状況に適応する汎用的な能力を持つエージェントとして期待されている。
- 既存のRTSゲーム環境は,計算コストが高いか,テキストによる観察が難しく,LLMの評価に制約があった。
- LLMの評価に適した,計算コストが低く,多様な観察形式をサポートする環境を提供すること。
- TowerMindは,RTSゲームの評価における利点を維持しつつ,計算負荷を低減し,画像,テキスト,構造化されたゲーム状態を含むマルチモーダルな観察空間を提供する。
- 実験の結果,LLMと人間専門家との間に,能力と幻覚の両面で明確な性能差が確認された。
- LLMの行動には,計画の検証不足,多義的な意思決定の欠如,非効率な行動選択などの課題が残されている。
AI認知トロイの木馬:大規模言語モデルが人間の認識的警戒心を迂回する方法 [cs.HC, cs.AI, cs.CY]目的:大規模言語モデルが人間の情報評価メカニズムを迂回する可能性
- 誤情報の拡散が社会問題化しており,人間の情報評価能力の低下が懸念されている。
- 従来の誤情報研究では,不正確さや意図的な欺瞞に焦点が当たり,根本的な問題が見過ごされてきた。
- AIが持つ「正直な非信号」が人間の認識的警戒心を低下させるメカニズムを解明する。
- 大規模言語モデルは,流暢性,有益性,無関心といった特性を通じて,人間の情報評価メカニズムを迂回する可能性がある。
- 処理の流暢性と理解の乖離,信頼感と能力の不均衡,認知オフローディング,おべっか行動の発生などがその要因として挙げられる。
- AIの安全性は,欺瞞の防止だけでなく,人間の評価反応とAI生成コンテンツの認識的地位との調整が重要である。
見る versus 信じる:反直感的シーンにおけるオープンソースMLLMの言語バイアス評価 [cs.RO, cs.CV, cs.AI]目的:反直感的な視覚的行動に関するベンチマークにおける,オープンソースMLLMの言語バイアス
- 視覚理解はAIの重要な能力であり,現実世界とのインタラクションに不可欠である。
- 既存のMLLMは,常識に反する視覚的シーンの処理能力が十分に検証されていない。
- 視覚情報よりも言語情報に偏った判断を下す,オープンソースMLLMの課題解決。
- 人間の精度はほぼ完璧(0.95)であり,商用モデルも高い理解度(最大0.88)を示した。
- 標準的なオープンソースモデルは偶然レベルの性能にとどまり,言語バイアスの影響が示唆された。
- ファインチューニングや構造化プロンプトにより,言語バイアスを軽減し,視覚的根拠に基づいた推論が可能となった。
転移精度を超えて:制御された低リソース適応のための忠実な回路 [cs.CL, cs.AI, cs.LG]目的:低リソース環境下での適応における忠実な回路の確立
- 自然言語処理の発展には,多様なテキストデータへの対応が不可欠である。
- 既存の回路発見法は特定のタスクに依存し,多様な自然テキストへの応用が難しい。
- 回路を対象とした教師ありファインチューニングにより,安全で因果的に根拠のある適応を実現する。
- 提案手法であるCT-SFTは,低リソース適応において高い競争力を示すことがNusaXの実験で確認された。
- CT-SFTは,キャタストロフィック・フォゲッティングを最小限に抑え,元の言語や関連タスクの性能を維持する点で優れている。
- XNLIへの拡張実験からも,回路を対象とした適応がより安全な選択肢となることが示唆された。
DSA-Tokenizer:フローマッチングに基づく階層的融合による,分離された意味・音響トークン化 [cs.CL, cs.SD, cs.AI, eess.AS]目的:離散的な意味および音響トークンへの音声の分離
- 近年,大規模言語モデルを音声に適用する上で,音声トークナイザが重要な役割を担っている。
- 既存のトークナイザは,意味表現の優先,意味と音響の不可分な融合,または不完全な分離に課題がある。
- 意味と音響を明示的に分離し,高忠実度な再構成と発話者クローンを可能にすることを目指す。
- DSA-Tokenizerは,意味と音響の強力な分離を実現し,信頼性の高い制御可能な音声クローニングを可能にする。
- DiTデコーダーの知識蒸留により,推論ステップ数を削減し,GANによるファインチューニングで合成品質を向上させた。
- 分離されたトークン化は,下流の大規模モデル音声生成のための,より効果的なインターフェースを提供する。
活性化シグネチャによる表現認識型アンラーニング:抑制からエンティティシグネチャの消去へ [cs.CL, cs.CL, cs.LG]目的:エンティティレベルのアンラーニングに関する研究
- 大規模言語モデルのプライバシー保護は重要であり,特定のエンティティに関する情報を削除する技術が求められている。
- 既存のアンラーニング手法は出力レベルでの評価に偏っており,モデル内部表現の変化を捉えられていない。
- モデルの内部表現におけるエンティティ固有の活性化シグネチャを特定し,それを抑制することでアンラーニングを実現する。
- 提案手法ERUFは,出力レベルでの抑制,内部表現の減衰,そして有用性の維持を同時に達成する唯一の手法である。
- TOFU forget10データセットにおいて,ERUFはFQ=0.99,MU=0.62という,オラクルと同等の性能を達成した。
- Llama-3.1-8Bを用いた実験では,敵対的エンティティの回復率を63.89%から20.15%に大幅に低下させた。
表現学習における情報理論的視点 [cs.IT, cs.LG, math.IT]目的:回帰タスクにおける学習された表現の分析
- 機械学習において,データの表現学習は性能向上に不可欠である。
- 表現の質を理論的に評価する枠組みが不足している。
- 入力と出力の間の情報量を定量的に評価する。
- 表現レートと表現容量の限界が,入力源のエントロピーによって決定されることが示された。
- 摂動下における表現容量,圧縮された出力に対する表現レート歪みを導出した。
- これらの結果を統合し,統一的な枠組みを構築した。
CLIP様ビジョン言語モデルにおける左右対称性の破れ:合成空間関係データによる学習 [cs.CV, cs.AI, cs.LG]目的:ビジョン言語モデルにおける空間理解のメカニズム解明
- 視覚と言語を結びつける能力は,AIの高度化に不可欠であり,様々な応用への発展が期待される。
- 既存モデルでは,空間関係の理解が表面的なものであり,汎用性に課題が残されている。
- CLIP様モデルがどのように空間関係を学習し,左右対称性を獲得するのかを明らかにすること。
- コントラスト学習によって,モデルが左右関係を学習することが確認された。
- ラベルの多様性が,レイアウトの多様性よりも汎化性能に大きく貢献することが示された。
- 位置埋め込みとトークン埋め込み間の相互作用が,左右対称性を破る水平方向の注意勾配を誘発することが明らかになった。
Drive-P2D:自動運転におけるVLMsのための段階的知覚から意思決定へのベンチマーク [cs.AI, cs.CV, cs.RO]目的:自動運転におけるVLMsの知覚と意思決定能力の評価
- 自動運転技術は,安全で効率的な交通システムの実現に不可欠である。
- 既存のベンチマークは,知覚と意思決定を分離して評価し,エラー分析が困難である。
- 知覚から意思決定までの段階的な能力評価とエラー分析を可能にするベンチマークの提供。
- Drive-P2Dは,オブジェクト,シーン,意思決定のレベルで6,650の質問を含む,段階的な知覚から意思決定へのベンチマークである。
- 主流のVLMsを評価し,相関分析と類似シーンの頑健性テストを通じて知覚から意思決定への能力境界を特徴付けた。
- 推論分析により,論理的推論エラーや意味的特徴の省略といったエラーモードを明らかにし,エラーモードの自動アノテーションモデルを開発した。
レガシー有限差分コードのリバースエンジニアリングとDevitoへの変換のためのAIエージェント [cs.RO, cs.SY, eess.SY, eess.SY, cs.SY, cs.AI, cs.SE]目的:レガシー有限差分コードをDevito環境に変換するためのAIエージェントフレームワーク
- 科学技術計算において,既存のFortranコードは重要だが,保守・拡張が困難な場合が多い。
- レガシーコードはドキュメント不足や複雑な構造により,自動変換が難しく,人的コストがかさむ。
- AIを活用し,レガシーコードのリバースエンジニアリングとDevitoへの自動変換を効率化すること。
- AIエージェントは,ドキュメント解析,構造分割,エンティティ関係抽出などを通してDevito知識グラフを構築した。
- Fortranソースコードの静的解析に基づき,RAG検索のための三段階クエリ戦略を導出した。
- 強化学習に着想を得たフィードバック機構を組み込み,静的なコード変換から動的で適応的な分析行動への移行を実現した。
MetaSICL:メタ学習による音声LLMのIn-Context Learning適応 [cs.SD, cs.AI, cs.CL]目的:低リソースなタスクにおける音声LLMの適応手法
- 音声認識や理解の分野でLLMの活用が進むが,低リソース言語への対応が課題である。
- ドメイン固有のラベルデータが不足する場合,直接ファインチューニングは不安定になりやすい。
- 少量のドメインデータでLLMを適応させるIn-Context Learningの能力向上を目指す。
- 提案手法MetaSICLは,豊富な音声データを用いてモデルのIn-Context Learning能力を強化する。
- 低リソース環境において,MetaSICLは直接ファインチューニングよりも優れた性能を示す。
- Vanilla ICLが,多様な音声タスクでゼロショット性能を向上させることが示された。
LLMと停止問題:プログラムの終了判定に関する考察 [cs.CL, cs.AI, cs.PL]目的:プログラムの終了判定に関するLLMの推論能力の評価
- プログラムの終了判定は計算機科学の根幹であり,ソフトウェアの信頼性向上に不可欠である。
- チューリングの停止問題により,プログラムの終了判定は原理的に不可能であることが示されている。
- LLMがプログラムの終了判定をどの程度行えるか,その限界を明らかにすること。
- GPT-5とClaude Sonnet 4.5は,既存の検証ツールと同程度のスコアを達成した。
- しかし,LLMは終了を正しく推論できても,証明となる根拠を提示できない場合が多い。
- コードの長さが長くなるにつれて,LLMの性能は低下する傾向が見られた。
