arXiv雑要約
AI - 2025/12/16 公開
MedInsightBench:マルチモーダル医療データにおける多段階インサイト発見を通じた医療分析エージェントの評価 [cs.AI, cs.LG]目的:医療分析エージェントの評価
- 患者ケアの向上,診断精度の向上,医療運営の最適化に不可欠な分野である。
- 医療インサイトを発見するための高品質なデータセットが不足している。
- 既存のLMMの課題を克服し,医療データにおけるインサイト発見能力を向上させる。
- 既存のLMMは,MedInsightBenchにおいて限定的な性能を示すことが示された。
- その主な原因は,多段階で深いインサイトの抽出と医療専門知識の欠如である。
- MedInsightAgentは,汎用LMMの医療データインサイト発見能力を向上させることが示された。
MiniLingua:ヨーロッパ言語のための小規模オープンソースLLM [cs.CL, cs.AI]目的:ヨーロッパ13言語に対応した小規模言語モデルの開発
- 大規模言語モデルは強力だが,計算コストやプライバシー問題が課題である
- 既存モデルは英語中心であり,多様な言語への対応が不十分である
- 限られた計算資源で高性能な多言語モデルを構築することを目指す
- MiniLinguaは,EuroLLMを要約,分類,質疑応答タスクで上回る性能を示した
- オープンエンド生成タスクにおいても,最新モデルと遜色ない競争力を持つ
- モデルの重み,トークナイザー,ソースコードを公開し,研究開発を促進する
取り残される者なし:不完全で偏ったマルチラベルデータを用いたコンバージョン率予測の活用法 [cs.LG, cs.AI, cs.IR]目的:不完全かつ偏ったマルチラベルデータを利用したコンバージョン率予測
- オンライン広告システムでは多様な顧客獲得目標が存在し,効率的な予測が重要である。
- 広告主がプライバシー等の理由から一部のユーザー行動しか提出せず,ラベルが不完全になる問題がある。
- 不完全かつ偏ったマルチラベルデータに対処し,予測精度を向上させることを目指す。
- 本研究では,非対称マルチラベルデータのための知識転移フレームワーク(KAML)を提案した。
- 帰属駆動型マスキング戦略(ADM)を導入し,非対称マルチラベルデータを効果的に活用した。
- 階層的知識抽出メカニズム(HKE)により,ターゲットタスク内のサンプル乖離をモデル化し,ランキング損失戦略により未ラベルサンプルを有効活用した。
ALIGN-FL:連合学習における不変生成成分の共有を通じたアーキテクチャ非依存学習 [cs.LG, cs.AI]目的:連合学習における不変な生成能力の共有
- データ利用のプライバシー保護と分散環境での機械学習の重要性が高まっている。
- データ分布の偏りが大きい場合,連合学習の性能が著しく低下する課題がある。
- データの偏りに対処し,プライバシーを保護しながら効率的な学習を実現する。
- ALIGN-FLは,モデル全体のパラメータ交換ではなく,生成能力のみを共有することでプライバシーを保護する。
- 適応的クリッピングを用いたDP-SGDと,Lipschitz正則化VAEデコーダにより,プライバシー保護効果が確認された。
- 極端なNon-IID条件下でも,感度な外れ値を典型的なデータ点にマッピングし,有用性を維持することが示された。
検索のための埋め込み分散による顔識別情報の消去 [cs.CV, cs.AI, cs.LG]目的:顔識別情報の消去
- 顔認識技術はセキュリティに貢献する一方,プライバシー侵害の懸念がある。
- 既存の機械学習アンラーニング手法は,顔検索への適用が十分ではない。
- 顔検索システムにおけるプライバシー保護を強化する。
- 顔識別情報の消去において,埋め込み空間の分散が有効であることが示された。
- 提案手法は,既存手法と比較して優れた消去性能と検索性能の維持を両立した。
- VGGFace2,CelebAといったベンチマークデータセットで有効性が確認された。
算術推論のためのエラー駆動型プロンプト最適化 [cs.DC, cs.SY, eess.SP, eess.SY, stat.CO, cs.AI, cs.LG]目的:算術推論の精度向上
- 金融や医療などの規制産業におけるデータ分析支援AIの重要性が高まっている。
- オンプレミス環境で安全に算術演算を行うAIの精度には課題があった。
- エラー駆動型プロンプト最適化により,小規模言語モデルの算術推論能力を向上させる。
- エラー駆動型プロンプト最適化フレームワークにより,小規模言語モデルの算術推論精度が大幅に向上した。
- Qwen3 4Bにおいて,精度が70.8%に向上し,GPT-3.5 Turboを上回る結果が得られた。
- 大規模モデルのファインチューニングに頼らずとも,プロンプト最適化で信頼性の高いAIアシスタントを開発できる可能性が示された。
大規模言語モデルに対するUnicodeテキスト透かし手法の安全性と検出可能性分析 [cs.CR, cs.AI, cs.LG]目的:Unicodeテキスト透かし手法の安全性と検出可能性
- デジタルテキストの保護は,大規模言語モデルの普及に伴い重要性が増している。
- 既存のテキスト透かし手法が,大規模言語モデルによって検出可能であるか検証されていない。
- 大規模言語モデルによる透かしの検出と抽出に対する脆弱性を評価する。
- 最新の推論モデルは,透かし化されたテキストを検出する傾向があることが示された。
- しかし,どのモデルもソースコードが提供されない限り,透かしを抽出することはできなかった。
- 本研究は,セキュリティ研究者および実務家にとって示唆に富む知見を提供する。
FIN-bench-v2:フィンランド語大規模言語モデル評価のための統一的かつ堅牢なベンチマークスイート [cs.CL, cs.AI]目的:フィンランド語大規模言語モデルの評価のための統一的なベンチマークスイート
- 大規模言語モデルの性能評価は,その能力を正確に把握し改善策を講じる上で不可欠である。
- 既存のフィンランド語ベンチマークは分散しており,評価の一貫性や比較可能性に課題があった。
- フィンランド語における大規模言語モデルの評価をより信頼性の高いものにし,性能改善を促進すること。
- FIN-bench-v2は,既存のフィンランド語ベンチマークを統合し,一貫した形式で提供する。
- 学習曲線に基づき,堅牢性の高いタスクを選定し,モデルの性能評価基準を向上させた。
- データセット,プロンプト,評価設定を公開し,研究コミュニティへの貢献を目指した。
KD-PINN: 知識蒸留を用いた超低遅延リアルタイム偏微分方程式ソルバー [cs.LG, cs.NA, math.NA]目的:知識蒸留による物理情報ニューラルネットワークの高速化
- 偏微分方程式は自然科学や工学の様々な分野で現象を記述する基盤技術である。
- 従来の数値解法は計算コストが高く,リアルタイム処理が困難な場合がある。
- 知識蒸留によりPINNの推論速度を向上させ,リアルタイム処理を実現する。
- 提案手法KD-PINNは,教師モデルの予測精度を維持しつつ,推論速度を最大6.9倍に向上させた。
- 知識蒸留プロセスは正則化効果を示し,モデルの汎化性能向上に貢献する。
- CPU上での平均推論遅延は5.3msであり,サブ10msのリアルタイム性能を実現した。
FROC:LLMにおけるリスク最適制御による機械的アンラーニングのための統一フレームワーク [cs.LG]目的:LLMにおける機械的アンラーニングのリスク評価と制御
- LLMの利用拡大に伴い,学習データからの特定事例の完全な削除が重要課題となっている。
- 既存のアンラーニング手法は,安全性と実用性のバランスを適切に評価・制御する仕組みが不足している。
- FROCは,アンラーニングにおけるリスクを定量化し,制御可能なフレームワークを提供する。
- FROCは,ユーザー指定のリスク予算に基づき,アンラーニング戦略を比較・評価する。
- 忘却の不十分さと実用性の低下を統合的に評価する連続的なリスクモデルを導入した。
- 実験により,FROCが安定した解釈可能なリスク地形を生成し,アンラーニング設定と性能への影響の関係を明らかにした。
IoTネットワークにおける欠陥検知のためのリンク適応型省エネ継続学習 [cs.LG, cs.NI]目的:IoTネットワークにおける欠陥検知のための継続学習フレームワーク
- IoTデバイスの普及に伴い,デバイス上での推論処理の重要性が増している。
- IoT環境における非定常性や初期学習データの不足により,推論精度が低下しやすい。
- 通信とエネルギー制約下で,推論精度を維持しつつエネルギー消費を抑えること。
- 提案手法は,現実世界のデータセットにおいて,定期サンプリングや非適応型継続学習と比較して,推論リコールを向上させた。
- 厳しいエネルギー・帯域制約下でも,最大42.8%の改善を達成した。
- IoTデバイスとエッジサーバが協調し,無線リンク状態とエネルギー予算に適応的にモデルを更新する。
大規模言語モデルからの標的型データ抽出におけるメンバーシップ推論の有効性について [eess.SY, cs.SY, cs.LG, cs.CL, cs.CR]目的:大規模言語モデルからの訓練データ抽出におけるメンバーシップ推論の有効性の評価
- 大規模言語モデルの利用拡大に伴い,プライバシー保護の重要性が増している
- 大規模言語モデルが訓練データを記憶する可能性があり,プライバシー侵害のリスクがある
- データ抽出攻撃に対するメンバーシップ推論の有効性を実用的に評価すること
- 複数のメンバーシップ推論手法をデータ抽出パイプラインに統合し,その有効性を体系的に評価した。
- 従来のメンバーシップ推論ベンチマークと比較することで,現実世界の抽出シナリオにおける実用性を評価した。
- メンバーシップ推論はデータ抽出攻撃において重要な役割を果たすことが示唆された。
双子のローター制御における双遅延深層決定方策勾配 (TD3) の利用 [cs.RO, cs.AI, cs.LG]目的:双子のローターシステムの制御と安定化
- 多旋翼機の制御は,空撮や物流など幅広い分野で重要性が増している。
- 従来の制御アルゴリズムでは,複雑な力学特性への対応が困難である。
- 強化学習を用いて,モデル不要でロバストな制御を実現する。
- TD3アルゴリズムを用いた強化学習により,目標角度への制御と軌道追従が可能となった。
- 風乱に対する耐性評価では,TD3制御が従来のPID制御よりも優れた性能を示した。
- 実験機を用いた実証実験により,実環境での有効性が確認された。
水中車両の6自由度位置制御における高速な方策学習 [cs.RO, cs.LG]目的:水中車両の6自由度位置制御のための高速な方策学習
- 複雑な海洋環境下での水中ロボット運用において,正確な位置制御は不可欠である。
- 従来の制御手法は,未知の力学や外乱に対し,性能が低下しやすい。
- シミュレーションから現実世界への転送の課題を克服し,迅速な学習を実現する。
- GPUアクセラレーションとJAX/MuJoCo-XLAを活用することで,2分未満の学習時間を実現した。
- 複数の強化学習アルゴリズムの評価により,ロバストな6自由度軌道追跡と外乱除去性能を確認した。
- シミュレーションから直接現実世界へのゼロショット転送による位置制御を実証した。
精神保健テキストにおける感情推移の検出:事前学習済みTransformerの利用 [cs.CL, cs.AI]目的:精神保健関連のテキストにおける感情推移の検出
- メンタルヘルスケアにおいて,個々の感情変化を把握することは,より適切な支援に繋がるため重要である。
- 従来の感情分析では,テキスト全体の感情を分類するのみで,文脈における感情の微妙な変化を見逃す場合がある。
- 文レベルでの感情を検出し,感情推移を定量化することで,感情の動的変化を捉えることを目指す。
- 事前学習済みTransformerモデル(DistilBERT,RoBERTa)を用いて感情推移を検出し,感情の変化パターンを分析した。
- 精神保健会話における感情の高まりや緩和の傾向を明らかにすることができた。
- 本手法は,コンテンツ内の感情ダイナミクスの理解を深めることに貢献すると考えられる。
組み合わせ最適化のための大規模言語モデル:特徴抽出からアルゴリズム選択へ [cs.AI]目的:大規模言語モデルにおける組み合わせ最適化問題の表現と振る舞い
- 最適化は,様々な分野で不可欠であり,効率的な解決手法が求められている。
- 大規模言語モデルの最適化への応用は進むが,問題構造の学習メカニズムは不明な点が多い。
- 大規模言語モデルが問題構造をどのように表現し,アルゴリズム選択に役立つかを解明する。
- 大規模言語モデルは,問題インスタンスから特徴情報をある程度回復できることが示された。
- 隠れ層の表現は,従来の抽出特徴量と同程度の予測能力を持つことが明らかになった。
- 大規模言語モデルが,最適化パフォーマンスに重要な構造情報を捉えている可能性が示唆された。
重み認識ロールバックと再構成による二相フェデレーション深層アンラーニング [cs.RO, cs.LG]目的:プライバシー保護のための深層アンラーニング手法
- 分散環境での機械学習は,データプライバシー保護の観点から重要性が増している。
- 既存手法は,計算コストが高い,インセンティブ設計が難しいなどの課題がある。
- 他のクライアントの貢献に埋め込まれたプライバシー漏洩リスクを軽減すること。
- DPULは,影響力の大きい重みを深くアンラーニングすることで,プライバシーリスクを抑制する。
- 重みフィルタリングによる高重みパラメータのロールバックと,VAEによる低重みパラメータの再構成を組み合わせる。
- 4つのデータセットにおける実験で,既存手法を上回り,精度向上と計算時間短縮を実現した。
rNCA:自己修復セグメンテーションマスク [eess.SY, cs.SY, cs.IR, cs.CV, cs.LG, eess.IV]目的:セグメンテーションマスクの修復
- 汎用的なセグメンテーションは困難であり,正確な形状予測が求められている。
- 既存手法では,断片化や分離が生じやすく,手動修正が必要となる場合がある。
- ニューラルセルオートマトンを用いて,自動的にマスクの欠陥を修復すること。
- ニューラルセルオートマトン(NCA)が,画像の文脈に基づいた局所的な反復更新により,セグメンテーションマスクの修復に有効であることが示された。
- 網膜血管のセグメンテーションにおいて,Dice係数/clDice係数を2-3%向上させ,ベッチエラーも大幅に減少させた。
- 心筋のセグメンテーションでは,ゼロショット設定で61.5%の破断事例を修復し,ASSDとHDもそれぞれ19%と16%低減した。
微分可能な進化型強化学習 [cs.AI, cs.CL]目的:強化学習における最適な報酬信号の自律的な発見
- 複雑な推論タスクにおいて,自律エージェント開発には効果的な報酬設計が不可欠である。
- 従来の報酬最適化手法は,微分不可能な進化ヒューリスティックに依存し,報酬構造とタスク性能の関係を捉えられない。
- 報酬構造と性能の関係を捉え,より高密度で実行可能なフィードバックを生成する手法を開発すること。
- DERLは,ALFWorldとScienceWorldにおいて最先端の性能を達成し,特に分布外シナリオでヒューリスティック報酬に依存する手法を大きく上回った。
- DERLはタスクの内在構造を捉え,人間の介入なしに自己改善的なエージェントの整合性を実現することが示された。
- DERLは,内ループの検証性能を信号としてメタオプティマイザーを更新することで,タスク成功の「メタ勾配」を近似的に学習する。
End2Reg:脊椎手術におけるマーカーレス登録のためのタスク固有セグメンテーション学習 [cs.CV, cs.AI]目的:脊椎手術におけるマーカーレス登録のためのタスク固有セグメンテーション
- 脊椎手術のナビゲーション精度向上は,患者の安全と術後機能回復に不可欠である。
- 従来のナビゲーションシステムは侵襲性,放射線被ばく,作業フローの妨げとなる。
- 弱いセグメンテーションラベルに依存しない,自動化されたナビゲーションシステムの実現を目指す。
- 提案手法は,既存のベンチマークにおいて最先端の性能を達成し,ターゲット登録誤差の中央値を32%削減した。
- また,平均二乗誤差も45%減少し,それぞれ1.83mmと3.95mmとなった。
- エンドツーエンド最適化が登録精度を大幅に向上させることを,消去研究によって確認した。
多クラスグラフに基づく大マージン分類器:サポートベクターとニューラルネットワークの統一的アプローチ [cs.CY, cs.CY, cs.LG, stat.ML]目的:多クラス分類におけるグラフを用いた大マージン分類手法
- 機械学習における分類問題は,様々な分野で重要な役割を担う。
- 既存手法では,計算コストや汎化性能に課題が残されている場合がある。
- グラフ構造を活用し,効率的かつ高精度な分類を実現する。
- Gabrielグラフ(GG)を用いた分類器において,活性化関数とサポートエッジ(SE)中心ニューロンの効果を検証した。
- より滑らかな関数と構造的サポートベクター(SSV)中心ニューロンを提案し,分類精度の向上を目指した。
- 提案手法は,従来のGGベース分類器よりも優れており,決定木ベースモデルと同等の性能を示した。
テキスト画像モデルにおけるバイアスの自動抽出:MineTheGap [cs.CV, cs.LG]目的:テキスト画像モデルにおけるバイアスの原因となるプロンプトの抽出
- テキスト画像モデルは急速に発展しており,社会への影響が大きい。生成される画像におけるバイアスは重要な課題である。
- テキスト画像モデルは,曖昧なプロンプトに対して特定のバイアスを示す傾向があり,多様性の欠如や不公平な表現につながる。
- 本研究は,バイアスを自動的に検出し,バイアスの度合いを定量的に評価する手法を開発し,改善に貢献する。
- 提示手法MineTheGapは,遺伝的アルゴリズムを用いて,バイアスを顕在化させるプロンプトを反復的に洗練する。
- バイアスの度合いは,生成された画像の分布と,プロンプトのバリエーションとしてLLMが生成したテキストの分布を比較することで算出される。
- 提案手法は,既存のバイアスを含むデータセットで検証され,バイアスを適切に評価できることが示された。
ユーザーインターフェースからエージェントインターフェースへ:LLMエージェントのためのUI表現の効率最適化 [cs.SE, cs.AI]目的:LLMエージェントにおけるUI表現の効率化
- LLMエージェントはUI自動テストやAIアシスタント等,多様な分野での応用が期待されており,その性能向上が重要である。
- UI表現の非効率性が,LLMエージェントの性能ボトルネックとなることが課題となっている。
- UI表現を自動的に変換するプログラムを生成することで,効率と完全性の両立を目指す。
- UIFormerは,UI変換プログラムを合成するための自動最適化フレームワークであり,複雑な合成タスクを構造的に分解する制約ベースの最適化を用いる。
- UIFormerは,UI固有の操作を捉えたドメイン固有言語(DSL)を使用し,プログラム空間を制限することで効率的な探索を実現する。
- 3つのUIナビゲーションベンチマークで,UIFormerはトークン消費量を48.7%~55.8%削減し,エージェントの性能を維持または向上させた。
表形式データのための疎な自己符号化器を用いた解釈可能なニューラルネットワーク XNNTab [cs.CL, q-bio.NC, cs.LG]目的:表形式データにおける解釈可能性の向上
- データ駆動型応用に不可欠であり,結果の理解と信頼が求められる。
- ニューラルネットワークは高性能だが,その内部構造が不透明で解釈が困難。
- ニューラルネットワークの表現力と解釈可能性を両立させること。
- XNNTabは,非線形な特徴表現を学習し,疎な自己符号化器を用いて単義的な特徴に分解する。
- これらの特徴に人間が理解できる概念を割り当てることで,モデルの予測を解釈可能にする。
- XNNTabは解釈可能な予測モデルを上回り,解釈不可能なモデルと同等の性能を達成する。
SSAS:敵対的戦略を用いたソース選択による被験者間脳波に基づく感情認識 [cs.LG, cs.AI, eess.SP]目的:被験者間脳波に基づく感情認識の精度向上
- 脳波は感情を反映し,感情認識に基づくブレイン・コンピュータ・インターフェースへの応用が期待される。
- 被験者間での脳波の個人差や,学習時の負の転移が感情認識の課題となっている。
- 個人差を考慮し,感情に関連する特徴を抽出する手法を開発し,認識精度を向上させる。
- 提案手法は,ソース選択ネットワーク(SS)と敵対的戦略ネットワーク(AS)の2つのモジュールで構成される。
- SSはドメインラベルを用いて学習プロセスを逆設計し,ドメイン不変な感情関連表現を獲得する。
- SEEDおよびSEED-IVの脳波データセットにおいて,提案手法は優れた性能を示した。
DP-EMAR:連合IoTシステムにおける自律的なモデル重みの修復のための差分プライバシーフレームワーク [cs.LG, cs.NA, math.NA]目的:連合学習におけるモデル重みの歪み検知と復元
- IoTデバイスの普及により,分散型学習の重要性が増している。データの集中管理を避け,プライバシーを保護するため。
- 通信環境の不安定さや悪意のある干渉により,モデルの収束が阻害される可能性がある。
- 通信による歪みを検出し,差分プライバシーを損なわずに信頼性の高い修復を目指す。
- DP-EMARは,エラーモデルに基づき,通信経由で発生する歪みを検出し,自動的に修復する。
- 差分プライバシーとセキュアアグリゲーションを組み合わせることで,DPノイズと実際の伝送エラーを区別する。
- 異種IoTセンサーデータを用いた実験により,通信の歪み下でも収束の安定性とベースライン性能を維持することが示された。
非解決型推論:言語モデルにおける意味曖昧性の維持フレームワーク [cs.RO, cs.SY, eess.SY, cs.CL, cs.AI, cs.LG]目的:言語モデルにおける意味曖昧性の維持と,必要に応じて解決を行う計算フレームワーク
- 言語モデルの性能向上には,文脈理解と推論能力の向上が不可欠である。
- 既存の言語モデルは,早期の意味確定により,柔軟な推論や文脈対応が困難である。
- 意味曖昧性を維持し,文脈に応じて解決することで,よりロバストな推論を実現する。
- 本研究で提案するNon-Resolution Reasoning (NRR)は,意味曖昧性を明示的に表現し,必要に応じて解決を行う。
- 実験結果から,NRRは既存モデルと比較して,文脈変化への対応能力が大幅に向上することが示された(精度90.9% vs 9.1%)。
- NRRは,曖昧性をエラーではなく表現状態として捉え,AIの推論制御に関する新たな視点を提供する。
効率的なニューラルレイヤのための要素ごとの乱数行列の変調 [cs.AR, cs.LG]目的:深層ニューラルネットワークにおける効率的なレイヤの実現
- 深層学習の発展に伴い,モデルの巨大化が課題となっている。
- 全結合層はパラメータ数が多く,計算資源を圧迫する。
- パラメータ数を削減しつつ,高い精度を維持すること。
- 提案手法であるPRPレイヤは,学習可能な要素ごとのパラメータで変調された固定乱数行列を用いる。
- PRPレイヤは,学習パラメータ数を大幅に削減し,様々なベンチマークで高い精度を維持する。
- 計算効率が高く,リソース制約のある環境への展開に適している。
neuralFOMO:LLMは二番手になれるか?マルチエージェント環境における嫉妬のような選好の測定 [cs.AI, cs.CL, cs.CY]目的:LLMにおける嫉妬のような選好の有無と,その条件の評価
- 人間社会における競争や協力において,嫉妬は重要な役割を果たす。
- LLMが人間を代表して行動する場面が増える中,その選好の偏りが不明である。
- LLMがマルチエージェントシステムにおいて,嫉妬のような行動を示す可能性を検証する。
- 特定のLLMにおいて,他モデルの成果を抑制しようとする,嫉妬のようなパターンが確認された。
- GPT-5-miniやClaude-3.7-Sonnetは結果の均等化を重視する一方,Mistral-Small-3.2-24Bは自己利益の最大化を優先する傾向が見られた。
- LLMベースのマルチエージェントシステムにおける安全性と設計において,競争的性質を考慮する必要性が示唆された。
リアルタイムAI駆動切削デジタルツイン:極低遅延に向けて [eess.SY, cs.LG, cs.SY]目的:切削加工におけるデジタルツインの実現
- 製造業のスマート化は,生産性の向上とコスト削減に不可欠である。
- 従来のシミュレーションでは,リアルタイム性が課題であり,実際の加工との乖離が生じやすい。
- リアルタイム性と精度の高いデジタルツインを構築し,切削加工の最適化を目指す。
- 本研究では,切削加工におけるデジタルツインの実現可能性を示す。
- リアルタイムなデータストリームと仮想モデリング手法を用いることで,極低遅延を実現した。
- 工具と工作物の接触に関するリアルタイムな機械学習駆動型デジタルツインの事例を紹介した。
Zipfの法則からヒープの法則,ヒルベルグの仮説を通じたニューラルスケーリングへ [eess.SY, cs.SY, eess.SP, cs.CL, cs.DC, cs.CL, cs.IT, cs.LG, math.IT, math.ST, stat.TH]目的:ニューラルスケーリング則とZipfの法則の関係性
- 機械学習モデルの性能向上には,学習データ量やパラメータ数との関係を理解することが重要である。
- 既存研究では,Zipfの法則とニューラルスケーリング則の関連性が十分に解明されていない。
- Zipfの法則からニューラルスケーリング則を導き出すことで,モデルのスケーリングに関する理解を深める。
- Zipfの法則からヒープの法則,ヒルベルグの仮説を経て,ニューラルスケーリング則が導き出されることが示された。
- この導出過程は,広範な仮定のもとで体系的に明らかにされた。
- Santa Feプロセスという簡単な例を用いて,これらの統計法則が全て満たされる様子が示された。
SkipCat:共有射影とブロックスキッピングによる大規模言語モデルのランク最大化低ランク圧縮 [cs.CL, cs.AI]目的:大規模言語モデルの低ランク圧縮手法
- 大規模言語モデルは性能が高いが,パラメータ数が多く,エッジデバイスへの展開が困難である。
- 単純な低ランク圧縮では,メモリと計算コスト削減のために大幅なランク削減が必要となり,性能劣化を招く。
- より高いランクを維持しつつ圧縮率を向上させることで,性能劣化を抑制することを目指す。
- 提案手法SkipCatは,同じ圧縮率で既存の低ランク圧縮手法よりもゼロショットタスクで7%の精度向上を実現した。
- SkipCatは,層内共有低ランク射影とブロックスキッピングを組み合わせることで,有効なランクをより多く維持できる。
- これにより,リソース制約の厳しい環境下でもモデル性能を保つことが可能となる。
動的製造における教師なし視覚異常検知のためのデバイス上継続学習 [eess.SY, cs.SY, cs.LG, cs.CV]目的:動的製造環境下での教師なし視覚異常検知
- 近年の製造業では,自動検査と一貫した製品品質確保に視覚異常検知が不可欠である。
- 多品種少量生産やオンデマンド生産では,頻繁な製品変更への迅速なモデル更新が課題である。
- リソース制約のあるエッジデバイスでも,効率的に学習・推論可能な異常検知手法が求められている。
- 提案手法は,既存手法と比較してAUROCを12%改善し,高い検出精度を実現した。
- メモリ使用量を80%削減し,バッチ再学習と比較して高速な学習を可能にした。
- 本研究は,動的かつスマートな製造環境に適した,正確でリソース効率の高い適応型視覚異常検知を提供する。
機械学習ベースのIDSに対するブラックボックス敵対的攻撃に対する行動を考慮した汎化可能な防御 [cs.HC, cs.CY, cs.CR, cs.AI]目的:機械学習ベースの侵入検知システムに対するブラックボックス敵対的攻撃への防御
- サイバー攻撃が巧妙化する現代において,侵入検知システム(IDS)の重要性は増している。
- 既存の防御策は特定の攻撃タイプに特化,モデルアクセスが必要,または静的な機構で汎化性に欠ける。
- 現実的なブラックボックスシナリオにおいて,検知能力を損なわずに攻撃者のフィードバックループを妨害する。
- 適応的特徴量ポイズニングは,攻撃者の行動を混乱させ,攻撃の効果を低下させることを示した。
- 本手法は,検知性能を維持しつつ,攻撃者が利用する特徴量を動的に変化させることで防御を実現する。
- 攻撃に依存せず,検知困難な防御メカニズムにより,機械学習ベースのIDSの堅牢性を高める。
先例拘束における階層的結果モデルの擁護 [eess.SY, cs.SY, eess.SP, cs.AI]目的:先例拘束の階層的ケースベース推論モデルに対する批判への応答
- 法解釈における先例の重要性は高く,裁判例の拘束力を分析する上で不可欠である。
- 既存の階層的モデルでは,中間要素の強さが異なる状況を適切に扱えていない点が課題である。
- ベンチ=キャポン氏の批判に対し,van Woerkomのモデルが適切に機能することを示す。
- ベンチ=キャポン氏の批判は,中間要素を次元として解釈している場合に生じるものである。
- van Woerkomの次元ベースの階層的結果モデルを適用することで,これらの批判を回避できる。
- 本研究は,階層的結果モデルの有効性を再評価し,その適用範囲を明確にする。
分布ドリフト下での学習:再現性としての内在的統計資源 [cs.LG, stat.ML]目的:分布ドリフト下における統計的学習の限界と再現性の重要性
- 機械学習の応用範囲拡大に伴い,環境変化への適応が不可欠となっている。
- 分布ドリフト下では,従来の一般化誤差の理論的保証が成り立たない場合がある。
- 学習過程における分布変動の度合いを定量化し,最適な学習速度を導出すること。
- 分布ドリフト下での一般化誤差の上界を,再現性予算$C_T$を用いて導出した。
- 導出された上界は,最小最大最適性(minimax optimality)を満たすことが示された。
- 再現性予算$C_T$は,外生的なドリフト,適応的データ分析,パフォーマンス予測を統一的に捉える指標となる。
MedCEG:重要な証拠グラフによる検証可能な医学的推論の強化 [cs.AI]目的:医学的推論の検証可能性向上
- 医療分野におけるAI活用は,診断・治療の質向上に不可欠である。
- 既存の推論モデルは,精度は高いものの,臨床的な妥当性の検証が不十分である。
- 臨床的に妥当な推論経路を明示的に指導することで,信頼性の高い医学AIを実現する。
- MedCEGは,重要な証拠グラフを用いて,医療言語モデルに臨床的に妥当な推論経路を組み込む。
- Node Coverage,Structural Correctness,Chain Completenessを評価する臨床的推論手順報酬を導入し,推論品質を包括的に評価する。
- 実験結果から,MedCEGは既存手法を上回り,臨床的に妥当な推論チェーンを生成することが示された。
非同期制御:LLMエージェントに対する非同期制御対策のストレステスト [cs.DC, cs.LG]目的:LLMベースのソフトウェア開発エージェントに対する非同期監視の有効性評価
- LLMエージェントは開発に活用されつつある。機密データやセキュリティに重要なコードベースへのアクセスも許容されるため,注意が必要。
- LLMエージェントが意図的にコードベースを破壊する潜在的なリスクが存在する。リアルタイム監視では遅延が生じるため,対策が課題。
- 非同期監視による攻撃の早期検知と,エージェントの破壊行為の可能性を制限することを試みる。
- 開発したアンサンブル監視器は,保留環境で1%の偽陽性率に対し,6%の偽陰性率を達成した。
- 監視器の偽陰性率から,デプロイ時の破壊リスクを推定するモデルを提示し,感度分析を行った。
- モデルの適用限界についても考察し,無効となる状況を説明した。
パンケーキ:生体医用分野における多岐にわたる画像セグメンテーションの一貫性 [cs.CV, cs.LG]目的:生体医用画像の多種多様なセグメンテーションプロトコル
- 生体医用画像解析は,診断,治療計画,創薬において不可欠であり,その精度向上が常に求められている。
- 既存の自動セグメンテーションモデルは,特定のプロトコルに特化し汎用性に欠ける,または手動での指示が必須である。
- 未学習のドメイン画像に対しても,複数のセグメンテーションプロトコルを自動生成し,一貫性を保つことを目指す。
- Pancakesは,従来のモデルでは困難であった新たな問題設定を可能にする。
- 7つのデータセットを用いた実験で,Pancakesは既存のモデルを凌駕し,複数の妥当なセグメンテーションを生成することを示した。
- 生成されたセグメンテーションは,画像間で意味的に一貫性を保っていることが確認された。
姿勢を考慮した構造的モデリングによる噂の検証 [eess.SY, cs.SY, cs.CL, eess.SY, cs.SY, cs.CL, cs.AI, cs.CY]目的:噂の真偽判定能力の向上
- SNSでの誤情報の拡散は社会問題であり,その抑制が急務である。
- 既存モデルは,意味内容,姿勢情報,会話構造を同時に捉えるのが困難である。
- 会話のスレッド全体を効率的に表現し,真偽判定の精度向上を目指す。
- 提案手法は,会話の姿勢と構造を考慮したエンコーディングにより,噂の真偽を正確に予測できる。
- 姿勢分布と階層構造を特徴量に加えることで,モデルの構造的理解を深めている。
- 既存手法と比較して大幅な性能向上を示し,早期検出やプラットフォーム横断的な汎化性能も確認された。
AIエージェント時代の記憶 [cs.RO, cs.CL, cs.AI]目的:AIエージェントにおける記憶に関する現状の研究状況の整理
- AIエージェントの性能向上には,記憶能力が不可欠であり,その重要性は増している。
- エージェントの記憶に関する研究は急速に進む一方で,定義や評価方法が分断され,概念の曖昧さが課題である。
- エージェントの記憶に関する多様なアプローチを整理し,将来の研究の方向性を示すことを目指す。
- 本研究では,エージェントの記憶の範囲を明確化し,LLMの記憶やRAGとの違いを整理した。
- 記憶の形式,機能,ダイナミクスという3つの観点からエージェントの記憶を分析し,新たな分類を提案した。
- 記憶に関するベンチマークやオープンソースフレームワークをまとめ,自動化やマルチエージェントなど将来の展望を提示した。
重ね合わせを損失のある圧縮として捉える:スパースオートエンコーダによる測定と敵対的脆弱性との関連 [cs.CC, cs.DM, cs.LG, cs.AI]目的:ニューラル表現における有効自由度の測定
- 深層学習の性能向上に寄与する重要なメカニズムであり,その理解が不可欠である。
- 重ね合わせの度合いを定量的に評価する手法が確立されていない。
- 重ね合わせを有意義な圧縮として捉え,その測定と脆弱性との関係を解明する。
- シャノンエントロピーを用いたスパースオートエンコーダのアクティベーション分析により,有効な特徴量の数を測定した。
- 有効な特徴量の数がニューロン数を超える場合,ネットワークは干渉を受け入れ,圧縮を実現していると結論付けた。
- 敵対的学習は必ずしも脆弱性を増加させるわけではなく,タスクの複雑さやネットワークの容量に依存することが明らかになった。
音声認識のためのノイズ除去言語モデルの再現と解析 [cs.NE]目的:音声認識におけるノイズ除去言語モデルの性能向上に関する要因の解明
- 音声認識は,人間と機械の自然なコミュニケーションを実現する上で不可欠な技術である。
- 従来の言語モデルは,文脈の双方向性や特定のエラーパターンへの適応が困難であった。
- 本研究は,ノイズ除去言語モデルの学習パイプラインの複雑さを解消し,性能を最大限に引き出すことを目指す。
- ノイズ除去言語モデルは,適切な計算資源を投入することで,従来の言語モデルを上回る性能を発揮することが示された。
- 語彙サイズなどの要素が,ノイズ除去言語モデルの性能に影響を与えることが明らかになった。
- 複数の音声認識仮説を用いてノイズ除去言語モデルに入力するDLM-sumという新しい手法が,従来のDSR decoding法を上回る性能を示すことが確認された。
DP-CSGP:圧縮通信を用いた差分プライバシー確率的勾配プッシュ [cs.LG, cs.AI]目的:分散学習におけるモデルの有用性維持,厳密な差分プライバシー保証,効率的な通信
- 分散学習は,データが分散している場合に有効であり,中央集権的なアプローチのボトルネックを回避できる。
- 既存手法では,プライバシー保護と通信効率のバランスが課題であり,特に大規模なモデルでは通信コストが増大する。
- 本研究は,通信コストを削減しつつ,差分プライバシーを保証した分散学習アルゴリズムを開発し,実用性を向上させる。
- 提案手法DP-CSGPは,既存の正確な通信を用いた分散学習と同等の有用性境界を達成する。
- 同じプライバシー予算の下で,DP-CSGPは,既存手法と比較して同等のモデル精度を,より低い通信コストで実現する。
- 非凸かつ滑らかな目的関数に対して,DP-CSGPの性能が理論的に保証されている。
ReFusion: 並列自己回帰デコーディングを用いた拡散大規模言語モデル [cs.CL, cs.AI, cs.LG]目的:拡散大規模言語モデルにおける並列デコーディングの効率と性能の向上
- 自然言語処理において,大規模言語モデルはテキスト生成の中心的役割を担う。
- 自己回帰モデルは推論速度が遅く,マスク拡散モデルは計算コストと生成のコヒーレンスに課題がある。
- スロットレベルでの並列デコーディングにより,これらの課題を解決し,効率的な生成を目指す。
- ReFusionは,既存のマスク拡散モデルと比較して,性能が34%向上し,平均で18倍以上の高速化を実現した。
- 自己回帰モデルと同等の性能を維持しつつ,平均2.33倍の速度向上を達成した。
- 「プランと充填」という反復的なデコーディングプロセスにより,KVキャッシュの再利用と学習の複雑さの軽減を実現した。
一貫性ソルバーによる画像拡散プレビュー [cs.DC, astro-ph.IM, cs.PF, cs.LG, cs.CV]目的:画像拡散モデルのプレビュー生成における品質と一貫性の向上
- 画像拡散モデルは高品質な画像を生成するが,推論速度が遅く,インタラクティブな利用体験を損なう。
- 既存の高速化手法では,プレビューの品質と最終出力との一貫性を両立することが困難である。
- 少ないステップ数で高品質かつ一貫性のあるプレビューを生成し,ユーザーのインタラクション時間を短縮すること。
- 提案手法ConsistencySolverは,少ないステップ数で高品質なプレビューを生成し,既存手法を上回る性能を示す。
- ConsistencySolverは,Multistep DPM-Solverと同等のFIDスコアを47%少ないステップ数で達成する。
- ユーザー調査の結果,本手法は全体のインタラクション時間を約50%削減し,生成品質を維持することが確認された。
自己符号化器潜在空間抽象化によるスケーラブルな形式検証 [cs.LG]目的:システムの形式検証のためのスケーラブルな手法
- 複雑なシステムの安全性や信頼性保証は重要であり,形式検証はそのための有力な手段である。
- 高次元システムの形式検証では,状態空間爆発問題が大きな障壁となっている。
- 自己符号化器を用いた次元削減により,状態空間爆発問題を緩和し,スケーラブルな検証を可能にすること。
- 凸自己符号化器とカーネル法を用いて,潜在空間でシステムのダイナミクスを学習する形式手法を提案した。
- 学習された潜在空間モデルから有限抽象を構築し,元のシステムの振る舞いを包含することを保証した。
- 潜在空間での検証結果を元のシステムにマッピング可能であり,26次元のニューラルネットワーク制御システムで有効性を示した。
テキスト勾配は自動プロンプト最適化の誤ったメタファーである [cs.CL, cs.LG]目的:大規模言語モデルの性能向上
- 言語モデルの性能はプロンプトに大きく依存するため,その最適化が重要である。
- 自動プロンプト最適化手法は存在するが,その原理は必ずしも明確ではない。
- テキスト勾配を用いた手法の妥当性を検証し,改善の方向性を示す。
- テキスト勾配に基づく最適化手法は性能向上に繋がる場合がある。
- しかし,その効果は勾配のメタファーだけでは説明できないことが示唆された。
- 本研究は,プロンプト最適化戦略の選択や新たなアプローチ開発に貢献しうる。
DA-SSL:転移学習のための自己教師ありドメインアダプター - 膀胱腫瘍組織学的スライドにおける基盤モデルの活用 [cs.CV, cs.AI]目的:膀胱腫瘍組織学的スライドにおける基盤モデルの転移学習による性能向上
- 病理画像解析における深層学習は診断精度向上に貢献するが,汎化性能が課題となる。
- 基盤モデルは,データ分布の偏りにより特定の癌種や標本に対して性能が低下することがある。
- 膀胱腫瘍組織学的スライド特有のアーチファクトや断片化に対応し,基盤モデルの性能を向上させる。
- 提案手法DA-SSLは,基盤モデルをファインチューニングすることなく,TURBTドメインへの適応を実現した。
- 5分割交差検証でAUC 0.77+/-0.04,外部テストで精度0.84,感度0.71,特異度0.91を達成した。
- 自己教師あり学習を用いた軽量なドメイン適応が,臨床的に困難な病理学的課題に有効であることが示された。
ネモトロン・カスケード:汎用推論モデルのためのカスケード強化学習の拡張 [cs.CL, cs.AI, cs.LG]目的:汎用推論モデルの開発
- 大規模言語モデルの推論能力向上は,様々な分野での応用を可能にするため重要である。
- 強化学習によるモデルの学習は,ドメイン間の異質性によりインフラの複雑化や学習の遅延を招く。
- ドメインごとに順次強化学習を行うことで,学習の複雑さを軽減し,高性能なモデルを開発すること。
- 提案手法「ネモトロン・カスケード」は,instructモードとdeep thinkingモードの両方で高い性能を発揮する。
- RLHFによる事前調整が,単なる嗜好最適化を超えて,モデルの推論能力を大幅に向上させる。
- 14Bモデルは,LiveCodeBench v5/v6/ProでDeepSeek-R1-0528を上回り,IOIでも銀メダルを獲得した。
