arXiv雑要約
AI - 2025/12/22 公開
基底選択:ターゲットアプリケーションのための事前学習済み大規模言語モデルの低ランク分解 [cs.LG, cs.AR, cs.CL]目的:大規模言語モデルの効率的な圧縮手法
- 近年,様々な応用で性能が向上する大規模言語モデルの活用が重要視されている。
- 計算コストや消費電力が大きく,リソースに制約のある環境への導入が困難である。
- 特定の用途に必要な要素のみを残し,冗長な部分を取り除くことで圧縮を実現する。
- 提案手法は,Llama 2-7bおよび-13Bモデルに対し,数学的推論やコード生成といったタスクで有効性を示した。
- モデルサイズを大幅に削減しつつ,既存の低ランク圧縮技術と同程度の精度を維持できる。
- 事前学習済みモデルには,特定のアプリケーションに不要な冗長な要素が多く含まれることが示唆された。
言語モデルにおけるプライバシーバイアス:文脈的整合性に基づく監査指標 [cs.RO, cs.SY, eess.SY, cs.CL, cs.HC, cs.LG, cs.AI, cs.CR, cs.CY]目的:言語モデルの応答における情報フローの適切性値としてのプライバシーバイアス
- LLMは社会技術システムに組み込まれるため,倫理的・社会的な影響を評価する必要がある。
- LLMのプライバシーバイアスは,文脈に応じて変化するため,評価が困難である。
- LLMにおけるプライバシーバイアスを信頼性高く評価する手法を開発すること。
- プライバシーバイアスを文脈的整合性に基づいて評価する新しい手法を提案した。
- プロンプトのバリエーションがプライバシーバイアスの評価に与える影響を考慮した。
- モデルの性能と最適化がプライバシーバイアスに及ぼす影響を調査した。
逐次深層学習のための低ランクフィルタリングと平滑化 [eess.SY, cs.SY, physics.ao-ph, cs.LG, stat.ML]目的:逐次学習における知識保持と適応性のバランス
- 深層学習は多様なタスクに応用されるが,逐次学習環境下での性能向上が課題である。
- 従来の正則化手法はタスク間の関係性を考慮せず,将来のタスクへの情報伝達が制限される。
- タスク間の関係性を明示的に組み込み,過去の知識を将来の学習に活用する手法を確立する。
- ベイズ枠組みを導入し,ネットワークパラメータを非線形ガウスモデルの状態空間として扱うことで,課題を解決した。
- 低ランク近似を用いた効率的なフィルタリングと平滑化手法(LR-LGF)を提案し,その有効性を示した。
- プライバシー保護の観点からも,過去のデータに直接アクセスせずに知識の伝達が可能となる。
セマンティック空間アラインメントを用いた階層型マルチモーダルLLMによる時系列分類の性能向上 [cs.FL, cs.LG]目的:時系列分類の性能向上
- 時系列分類は現実世界の様々な応用において重要な役割を担う。
- 数値系列と言語的意味論の間には表現のギャップが存在し,LLMの直接的な応用が難しい。
- 時系列表現とテキストの意味論の間のギャップを埋め,LLMの生成能力を活用する。
- 提案手法HiTimeは,データ固有エンコーダとタスク固有エンコーダを組み合わせた階層的特徴エンコーディングモジュールを備える。
- セマンティック空間アラインメントモジュールにより,時系列表現とテキストの意味論間の埋め込みギャップを軽減する。
- 複数のベンチマークにおいて,提案手法は最先端のベースラインを継続的に上回る性能を示す。
UniGaussian:複数カメラモデルによる統一ガウス表現を用いたドライビングシーン再構築 [cs.CV, cs.AI]目的:都市部ドライビングシーンの再構築
- 自動運転シミュレータのリアリティ向上に不可欠であり,現実世界の再現性が求められる。
- 既存手法は主にピンホールカメラに焦点を当てており,魚眼カメラのシミュレーションが課題である。
- 魚眼カメラを含む複数カメラモデルに対応可能な再構築手法を開発し,シミュレーションの精度向上を目指す。
- 本手法は,魚眼カメラのレンズ歪みを考慮した微分可能なレンダリング手法を提案し,3Dガウス表現との互換性を高めた。
- 異なるカメラモデルに適応するためのアフィン変換を適用し,複数のモダリティからの教師あり正則化を行うことで,統一的な3Dガウス表現を学習するフレームワークを構築した。
- 実験結果から,提案手法は従来のシミュレーションよりも高いレンダリング品質と高速なレンダリング速度を実現することが示された。
独立性に基づく公平性:(条件付き)距離共分散フレームワーク [cs.LG, cs.CY, stat.ML]目的:予測と保護属性の独立性の評価
- 機械学習の社会実装が進む中,公平性の確保は重要な課題である。
- 既存手法では,公平性と精度のトレードオフが課題となる場合がある。
- 距離共分散を用いたペナルティ項を導入し,公平性と精度を両立させる。
- 条件付き距離共分散または距離共分散を用いて,予測と保護属性の独立性を測ることで公平性を評価する。
- モデルの学習に距離共分散に基づくペナルティを追加することで,公平性を向上させる。
- 並列計算のための(条件付き)距離共分散の行列形式を提示し,計算効率を高めた。
埋め込み駆動型データ蒸留による残差認識を用いた360度IQA [cs.CV, cs.LG]目的:360度画像品質評価のためのデータ選択とモデル効率化
- 360度画像はVR/AR等で普及し,高品質な評価手法の重要性が高まっている。
- データ駆動型IQAでは,データ選択の効率性が課題であり,冗長なデータが存在する。
- 埋め込み類似度に基づき,情報量の多いデータサブセットを抽出することで効率的なIQAを目指す。
- 提案手法は,既存のIQAモデルに容易に組み込むことが可能であり,汎用性が高い。
- データ量を40-50%削減しつつ,既存モデルと同等以上の性能を実現した。
- モデルの計算負荷を20-40%削減し,効率性と頑健性を両立できることを示した。
人工知能における意識の不可知論 [cs.AI]目的:人工知能が意識体験を持つ可能性に関する考察
- 意識研究は,人間理解の根幹であり,倫理や社会への影響も大きいため重要である。
- 意識の科学的定義が難しく,客観的な検証方法が確立されていないという課題がある。
- 現状では,人工知能の意識に関する確証的な証拠が得られず,判断を保留することが求められる。
- 本研究は,証拠に基づかない憶測や独断を避け,意識に関する正当化可能な立場は不可知論であると主張する。
- 生物学的視点と機能主義的視点の双方に,証拠の解釈の過大評価という誤りがあることを指摘する。
- 科学的証拠に忠実であるならば,人工知能の意識については現時点では判断を保留すべきであると結論付ける。
数学コパイロットのためのデータ:機械学習のための証明の提示方法の改善 [cs.LG]目的:AI 数学コパイロットの数学的能力を向上させるためのデータセットと評価基準の改善
- AI技術の数学分野への応用は,複雑な問題解決や新たな発見を促進する可能性を秘めている。
- 既存のデータセットは数学的複雑さの範囲が狭く,証明に至る思考過程を捉えきれていないという課題がある。
- 既存の評価基準に起因する問題点を克服し,AIの真の数学的能力を測るためのデータセットを構築すること。
- 既存のデータセットの限界を明らかにすることで,AI数学コパイロット開発における課題を指摘した。
- 証明の背景や思考過程を重視した「動機付けられた証明」の概念を導入し,より効果的なデータセット設計の方向性を示唆した。
- 結果のみに着目した従来の評価方法から脱却し,数学研究の実践を反映したデータセットの必要性を訴えた。
コスト補助付きバンディット問題に対するインスタンス依存型保証を持つペアワイズ削除法 [cs.LG]目的:報酬制約下での総コスト最小化
- オンライン意思決定において,未知の報酬分布を持つ多腕バンディットは広く用いられている。
- 総報酬最大化だけでなく,報酬制約下でのコスト最小化が重要な場合がある。
- 既知の参照腕や補助付き最適腕との報酬比較によるコスト最小化を目指す。
- 提案手法PEおよびPE-CSは,コストと品質に関する後悔の上界をオーダーワイズ対数的に抑えることを理論的に証明した。
- PEは,既知の参照腕問題に対して最適解に近い性能を示すことが示された。
- MovieLens 25MとGoodreadsデータセットを用いた実験により,PE-CSが既存手法よりも性能と信頼性のバランスに優れることが確認された。
人間が導く,データ中心のLLMコパイロットへの道 [cs.LG, stat.ML]目的:データ中心のアプローチによるLLMコパイロットの構築
- 機械学習は様々な分野に革命をもたらす可能性を秘めている。専門知識とMLツール間のギャップが課題。
- 既存のLLMコパイロットはモデル中心であり,データの品質や特性といったデータ中心の課題への対応が不十分である。
- 複雑な実世界データの問題(欠損値,ラベルノイズ等)に対応し,ML活用の障壁を低減することを目的とする。
- CliMB-DCは,高度なデータ中心ツールとLLMの推論を組み合わせた,人間が導くデータ中心のフレームワークである。
- 複数のエージェントによる推論システムを採用し,動的な計画と精確な実行を実現する。
- 実際の医療データセットを用いた実験により,既存のコパイロットを上回るデータ処理能力を示すことができた。
組合最適化のための正則化ランジュバン動力学 [cs.LG, stat.ML]目的:組合最適化問題に対する効率的なサンプリング手法
- 組合最適化は,現実世界の様々な問題を解決するための重要な分野である。
- 従来のランジュバン動力学は,局所最適解に陥りやすく,探索能力に限界がある。
- 局所最適解への陥入を防ぎ,探索能力を向上させることで,組合最適化問題を効率的に解決すること。
- 提案手法である正則化ランジュバン動力学(RLD)は,シミュレーテッドアニーリングとニューラルネットワークの両方に基づくソルバーにおいて,最先端の性能を達成した。
- 特に,RLDに基づくシミュレーテッドアニーリングアルゴリズムは,従来の最先端手法と比較して,最大80%の実行時間短縮を実現した。
- RLDは,従来のヒューリスティックとニューラルネットワークモデルの両方を強化するための有望なフレームワークを提供する。
より安全なチャットボットへ:カスタムGPTのポリシー遵守評価の自動化 [cs.CL, cs.AI]目的:カスタムGPTのマーケットプレイス利用規約遵守状況の評価
- 大規模言語モデルを基盤とするチャットボット利用が拡大しており,安全性確保が重要課題となっている。
- カスタムGPTの規模と不透明性から,体系的なポリシー執行が困難であり,違反GPTが公開される問題がある。
- 自動化された手法により,カスタムGPTのポリシー遵守状況を効率的に評価し,安全性を高めることを目指す。
- 本研究では,ブラックボックスな対話を通じてカスタムGPTのポリシー遵守状況を評価する完全自動化手法を提案した。
- 評価コンポーネントは人間によるアノテーションデータに対して0.975のF1スコアを達成し,高い精度が確認された。
- GPTストアから取得した782個のカスタムGPTの評価では,58.7%が少なくとも1つのポリシー違反を示す応答を示した。
測地ウォーターシュタイン距離による3D細胞オーバーセグメンテーション補正 [cs.CV, cs.LG]目的:3D細胞オーバーセグメンテーションの補正
- 細胞の形態や機能解析には正確なセグメンテーションが不可欠であり,生物学研究の基礎となる。
- 3D細胞セグメンテーションでは,細胞が過剰に分割されるオーバーセグメンテーションが頻繁に発生し,精度を低下させる。
- 本研究は,オーバーセグメンテーションを幾何学的に捉え,それを補正する手法を開発することで,セグメンテーション精度向上を目指す。
- 提案手法は,2D幾何学的特徴と3Dトポロジー特徴を用いた事前学習済みの分類器により,オーバーセグメンテーションを特定し,補正する。
- 新しい指標である測地ウォーターシュタイン距離を導入し,細胞マスク形状の変化を幾何学的に定量化することに成功した。
- 植物および動物細胞データセットを用いた実験により,提案手法の有効性と汎化性能が確認された。
階層型強化学習エージェントのための離散階層的計画法 (DHP) [cs.RO, cs.AI, cs.LG]目的:階層型強化学習における長期的視覚計画の実現
- ロボットの自律的な行動計画において,複雑なタスクを効率的に達成するためには不可欠な研究分野である。
- 従来のHRLエージェントは,距離指標の誤差により長期的計画が困難になるという課題を抱えている。
- 距離推定に代えて到達可能性のチェックを用いることで,よりロバストな計画手法を確立することを目指す。
- 提案手法DHPは,視覚的な長期的計画において,従来の基盤モデルと比較して100%の成功率を達成した。
- オフライン評価においても,OGBenchベンチマークで最先端の結果を示し,最大71%の絶対的な性能向上を実現した。
- 本手法は様々なアーキテクチャに適用可能であり,運動量に基づく制御タスクにも一般化できることが示された。
学習済みモデルの調査のためのサンプル生成 [cs.LG]目的:学習済み機械学習モデルのデータ嗜好性
- 機械学習の利用拡大に伴い,モデルの内部動作理解が不可欠となっている。
- モデルの予測根拠や挙動はブラックボックスであり,解明が課題である。
- モデルが好むサンプルを特定し,モデルの特性を理解すること。
- 提案手法により,予測リスクの高いサンプルやパラメータに敏感なサンプルを生成できることが示された。
- 生成されたデータを用いることで,モデルがどのようなデータを好むかを定量的に評価することが可能となった。
- 分類と回帰の両タスクにおいて,多様なモデルに対して手法の有効性が確認された。
小誤差領域における無知的なPAC学習について [cs.LG, stat.ML]目的:小誤差領域における無知的なPAC学習の限界と学習可能性
- 機械学習の理論的な限界を理解することは,効率的なアルゴリズム設計に不可欠である。
- 実現可能な分布と非実現可能な分布では,学習の難易度が大きく異なる。
- 小誤差領域における学習の限界を明らかにし,最適な学習アルゴリズムを開発する。
- 本研究では,誤差項に$\tau$を導入したより詳細なモデルにおいて,誤差下限と一致する学習器を提示した。
- 提案学習器は,$\tau \approx d/m$のとき,誤差$c \cdot \tau + O \left(\sqrt{\frac{\tau (d + \log(1 / \delta))}{m}} + \frac{d + \log(1 / \delta)}{m} \right)$を達成する。
- また,提案学習器は計算効率が高く,ERM分類器の慎重な集約に基づいている。
グラフ構造に基づく位置依存形状偏差予測・補正モデル [cs.CV, cs.LG]目的:3Dプリンティングにおける形状偏差の予測と補正
- 工業規模の生産には高い幾何学的精度が不可欠であり,形状偏差のモデリングと補正は重要である。
- 複雑な形状への汎用性や,バッチ生産における位置依存性の変動への対応が課題である。
- 位置依存性のあるAM生産における幾何学的精度と正確性を保証することを目指す。
- 提案手法はグラフベースのニューラルネットワークとGANを用いた新しいフレームワークである。
- 様々な形状と位置での実験により,複雑な形状の偏差を予測し,バッチ生産に対応できることが示された。
- 印刷空間全体での補正精度が大幅に向上し,位置依存性の変動に対応できることが確認された。
深層モデルに対する事前条件付き不正確確率的ADMM [cs.LG]目的:深層モデルの学習における最適化手法の提案
- 近年,基盤モデルの発展が著しく,様々な分野に革新をもたらしている。
- 分散環境下でのデータ不均一性は,従来の最適化手法の理論的・数値的性能を著しく阻害する。
- データ不均一性に強く,効率的な並列計算が可能な新たな最適化手法を開発すること。
- 提案手法PISAは,勾配のLipschitz連続性という緩い条件のもとで収束が保証される。
- PISAの亜種であるSISAとNSISAは,様々な深層モデルの学習・ファインチューニングにおいて,既存の最適化手法を上回る性能を示す。
- 特に,セカンドオーダー情報や直交化モーメンタムなどの事前条件を取り入れることで,計算効率が向上する。
LLM推論のスケーリングにおけるサンプリング多様性の効果 [cs.LG]目的:LLM推論のスケーリングにおけるプロンプト多様性の効果
- LLMの性能向上には,スケーリングが不可欠であり,多様性の活用が有効とされている。
- 多様性の導入方法や,多様性と性能のトレードオフが明確に理解されていない。
- 多様なプロンプトによるサンプリングが,LLM推論のスケーリングに及ぼす影響を解明する。
- 多様なプロンプトからのサンプリングは,Best-of-Nスケーリングにおいてエラー率を低減する。
- 多様性と精度(fidelity)の間にはトレードオフが存在し,サンプリング戦略の設計に指針を与える。
- 適切な多様性の活用により,推論タスクにおいて10.8%のEM@100スコア向上,数学で9.6%,コード生成で9.5%のPass@100スコア向上を実現した。
LookAhead Tuning: 部分的な回答プレビューによる安全な言語モデル [cs.CL, cs.CL, cs.AI, cs.CV, cs.LG, cs.MM]目的:言語モデルの安全性維持
- 言語モデルは多様なタスクに対応できるが,安全性確保が重要である。
- ファインチューニングは安全性への配慮が不十分になりやすい。
- ファインチューニング時の安全性低下を抑制する手法の開発。
- LookAhead Tuningは,回答のプレビューを通して,ファインチューニング時の安全性低下を抑制する。
- 初期トークン分布への影響を最小限に抑え,組み込みの安全メカニズムを維持する。
- 実験により,LookAhead Tuningは安全性と性能を両立することが示された。
作る前に売る:パーソナライズされたAI生成アイテムによるEコマースの革新 [cs.HC, cs.IR, cs.AI, cs.CV]目的:AI生成アイテムによるEコマース製品デザインの効率化と,それを用いた新たなビジネスモデルの実現
- Eコマースは小売業を大きく変革したが,製品デザインや在庫管理には依然として多くのコストがかかる。
- 既存のEコマースワークフローは非効率であり,物理的なプロトタイプの作成に時間と資源を要する。
- テキスト記述に基づいたパーソナライズされた画像生成により,需要予測に基づいた生産による効率化を目指す。
- 提案手法PerFusionは,ユーザーのグループレベルでのパーソナライズされた嗜好を捉え,画像生成モデルの性能を向上させる。
- オフラインおよびオンライン実験の結果,AI生成アイテムはクリック率とコンバージョン率でそれぞれ13%以上の相対的な改善が見られた。
- AI生成アイテムは返品率を7.9%削減し,Eコマースプラットフォームに変革をもたらす可能性を示した。
サンプル不要:言語モデルにおけるテスト時アライメントの再考 [cs.CL, cs.LG, stat.ML]目的:言語モデルのテスト時アライメント手法の改善
- 言語モデルの性能向上は,自然言語処理の重要な課題である。
- テスト時の計算量増加は有効だが,報酬モデルの不完全性により性能が低下する場合がある。
- 報酬モデルの近似誤差に起因する性能劣化を抑制し,より効果的なアライメントを目指す。
- QAlignは,テスト時の計算量が増加しても,最適な分布に収束する。
- 数学的推論ベンチマークにおいて,既存手法と比較して一貫した性能向上を示した。
- Tulu 3データセットで学習したより現実的な報酬モデルを用いても,DPO等の既存手法を上回った。
LLMを活用したコード編集における開発者のプロンプト作成の実態理解と支援 [cs.SE, cs.AI, cs.HC]目的:LLMを活用したコード編集における開発者のプロンプト作成の実態と課題
- ソフトウェア開発における生産性向上は,ビジネス競争力に直結する重要な課題である。
- LLMを活用したコード編集ツールは普及しているが,開発者の利用状況に関する理解が不足している。
- 開発者のプロンプト作成における課題を特定し,より効果的なツール利用を支援すること。
- 開発者のTransform Code利用ログ分析から,頻繁な再プロンプトが利用の難しさを示す指標となることが明らかになった。
- 不十分なリクエストの定性的分析により,開発者のプロンプトから欠落している情報の5つの主要なカテゴリが特定された。
- コード文脈から欠落情報を推論しプロンプトを自動改善するAutoPrompterを提案・評価した結果,編集の正確性が27%向上した。
スコアベース拡散モデルの地球システム科学への応用:衛星ナウキャスティングの事例 [cs.FL, cs.LG, physics.ao-ph]目的:地球システム科学におけるスコアベース拡散モデルの利用可能性の検証
- 地球科学分野では,機械学習の利用が拡大しており,気象予測の精度向上が期待されている。
- 従来の機械学習手法は予測がぼやける傾向があり,高精度な予測が困難であった。
- 拡散モデルを用いて,より鮮明で現実的な地球科学データの予測を可能にすること。
- 拡散モデルは,既存の雲の移動に加え,雲の生成・消滅を再現できることが示された。
- 特に,残差補正拡散モデル(CorrDiff)が,従来のU-Netや持続予測よりも優れた性能を示した。
- 拡散モデルは,アンサンブル生成も容易に実現し,高い精度でのキャリブレーションが可能であることが確認された。
BOLT:行列関数のトレース推定のためのブロック直交ランツォス法 [math.NA, cs.DS, cs.LG, cs.NA]目的:行列関数のトレース推定効率の向上
- 大規模データ処理において,行列式,行列ノルム,分布の相違などの計算は重要であり,効率的なトレース推定が不可欠である。
- 大規模行列は保存やアクセスが困難であり,単純な行列ベクトル積すら実現できない場合がある。
- 部分行列や制限されたインデックス集合での行列ベクトル積のみが可能な状況下での高精度なトレース推定を目指す。
- BOLTは,Hutch++と同等の精度を,直交ブロックプローブとランツォス反復に基づく,より単純な実装で実現する。
- BOLTは,SLQフレームワークを基盤とし,ほぼ平坦なスペクトル領域においてHutch++よりも優れた性能を示す。
- メモリ制約や部分アクセス制約に対応するため,小さな主部分行列のみを扱うSubblock SLQを導入し,KLダイバージェンスやWasserstein-2距離の効率的な計算を可能にした。
より公正な投票方法による民主主義の高度化 [cs.RO, cs.CY, cs.AI, cs.ET, cs.HC, cs.MA]目的:民主主義の高度化
- 民主主義は市民の意思を反映する基盤であり,その制度設計は社会の安定と発展に不可欠である。
- 現代社会の多様性を反映できない旧来の投票方法が,民主主義の機能を十分に発揮できない状況にある。
- より公正な投票方法を導入し,市民の多様な意見を反映した民主主義を実現することを目指す。
- 優先順位付き投票方式(累積投票や平等配分法など)の導入により,同じ予算内でより多くのプロジェクトが承認された。
- 選出されたプロジェクトは,地理的および市民の選好の多様性が高まり,特にこれまで代表性が低かった層の意見が反映された。
- 市民は比例代表制の投票方法を好み,専門的な説明なしに高い正当性を持つことが示された。
VideoGameQA-Bench:ビデオゲーム品質保証のためのビジョン言語モデルの評価 [cs.CL, cs.CV, cs.AI]目的:ビデオゲーム品質保証におけるビジョン言語モデルの性能評価
- ゲーム産業はエンタメ業界で最大の収益を上げ,開発効率向上が重要課題である。
- 品質保証は労働集約的であり,自動化が困難な分野である。
- 既存のベンチマークはゲームQA特有のニーズに対応できていない点を解決する。
- 本研究では,ビデオゲームQAタスクを網羅する包括的なベンチマーク「VideoGameQA-Bench」を提案する。
- このベンチマークは,視覚的な単体テスト,回帰テスト,グリッチ検出,バグレポート生成などを評価可能である。
- ビデオゲームの画像および動画に対して,多様なゲームQA活動を評価できる。
球体上での等面積天気予報:PEAR [cs.LG, physics.ao-ph]目的:球体上での等面積グリッドを用いた深層学習による天気予報
- 気象予測はAI4Scienceの重要な応用分野であり,機械学習モデルが従来の数値シミュレーションに匹敵する性能を示す。
- 多くの既存モデルは,赤道付近よりも極域で格子の細かさが著しく異なる等角グリッドに依存している。
- 等面積グリッドHEALPixをネイティブに利用することで,偏りのない天気予報を実現する。
- PEARはHEALPix特徴量上で直接動作するTransformerベースの天気予報モデルである。
- 等角グリッド上の対応モデルと比較して,計算オーバーヘッドなしに性能を向上させた。
- HEALPixグリッドのサポートが気象学や気候科学で高まっていることが,本研究の動機となっている。
ResSVD:大規模言語モデル圧縮のための残差補償型特異値分解 [cs.CL, cs.AI]目的:大規模言語モデルの効率的な圧縮手法
- 大規模言語モデルは自然言語処理で高い性能を示すが,巨大なサイズとメモリ使用量が実用上の課題となっている。
- 従来の特異値分解法では,切り捨てによる損失が大きく,モデル全体の圧縮は性能劣化を招きやすい。
- 残差行列を活用し,圧縮時の損失を低減することで,性能劣化を抑制し,実用的な圧縮を実現する。
- 提案手法ResSVDは,既存の圧縮手法と比較して,様々な大規模言語モデルとベンチマークデータセットで優れた性能を示す。
- ResSVDは,特異値分解の切り捨て時に生成される残差行列を活用することで,切り捨て損失を効果的に低減する。
- 全体的な圧縮率を固定した上で,モデルの最後の数層を選択的に圧縮することで,誤差伝播を抑制し,性能を向上させる。
特徴相関を利用した疎な自己符号化器の効率的な学習 [cs.LG, cs.CL]目的:言語モデルの隠れ状態の解釈
- 言語モデルの解釈性は,モデルの信頼性と制御可能性を高める上で重要である。
- 大規模な語彙サイズを持つ自己符号化器の学習と解釈は,計算コストが課題となる。
- 計算コストとメモリ使用量を削減し,解釈性と性能を向上させること。
- 提案手法KronSAEは,クロネッカー積分解により潜在表現を効率的に因数分解する。
- 新たな活性化関数mANDは,二値AND演算を近似し,解釈性と性能を改善する。
- KronSAEは,メモリと計算オーバーヘッドを大幅に削減できることが示された。
SMELLNET:実世界の匂い認識のための大規模データセット [cs.AI]目的:実世界の匂い認識に関するAIシステムの訓練と評価のための大規模ベンチマークの構築
- 匂い情報の活用は,アレルギー検出や健康状態のモニタリングなど,幅広い分野での応用が期待されている
- 実世界の匂いをAIで認識するための大規模なベンチマークデータセットが存在せず,研究の進展が阻害されていた
- 多様な匂いをデジタル化し,AIシステムの性能評価を可能にする大規模データセットを構築し,新たなモデルを開発すること
- 本研究では,50種類の単一匂いと43種類の混合匂いを含む約82万8千個のデータポイントからなるSmellNetを構築した。
- 開発したScentFormerは,SmellNet-Base分類タスクで58.5%のTop-1精度,SmellNet-Mixture分布予測タスクで50.2%のTop-1@0.1を達成した。
- ScentFormerは,時間的な変化を捉えることで,匂いデータのモデリングにおいて優れた汎化性能を示した。
ソースデータへのアクセスなしにおける確証的なアンラーニング手法 [cs.LG, cs.CR, stat.ML]目的:データプライバシー保護のためのモデルからの情報削除
- データプライバシー規制の強化に伴い,モデルからの個人情報削除が重要課題となっている。
- 従来のアンラーニング手法は,ソースデータへのアクセスを前提としており,現実的でない場合が多い。
- 本研究は,ソースデータにアクセスできない状況下での確証的な情報削除手法を提案する。
- 提案手法は,ソースデータの統計的性質を近似する代替データセットを利用し,統計的距離に基づいたノイズのスケーリングを行う。
- 理論的な保証は厳密な統計的距離の知識を前提とするが,近似的な実装でも実用的なプライバシー保護が可能である。
- 合成データと実データを用いた実験により,提案手法の有効性と信頼性が確認された。
LLMを定性的評価者として:自然言語生成におけるエラー分析の自動化 [cs.CL, cs.AI]目的:自然言語生成システムの出力における一般的な問題種類の構造化された報告
- 自然言語生成の評価は,システム改善に不可欠であり,より人間らしい自然な文章生成が求められる。
- 従来の評価手法は,数値スコアに依存しており,開発者への具体的な改善指針が不足している。
- 自然言語生成システムのエラーを詳細に分析し,改善のための具体的な知見を提供する。
- 提案手法は,人間の注釈者によるエラー特定と2/3のケースで一致することを示した。
- LLMを定性的評価者として用いることで,人間の注釈者が作成するレポートに類似したエラータイプ報告書を生成できる。
- ケーススタディでは,提案手法の活用が自然言語生成システムのパフォーマンスを大幅に向上させることを実証した。
拡散の二重性 [cs.LG, cs.AI, cs.CL]目的:離散拡散モデルの性能向上
- 自然言語生成の効率化が求められており,拡散モデルはその有力候補の一つである。
- 離散拡散モデルは自己修正能力を持つものの,自己回帰モデルやマスク拡散モデルに劣る場合が多い。
- ガウス拡散の技術を応用し,離散拡散モデルの学習とサンプリングを改善し,性能ギャップを縮小する。
- 本研究では,ガウス過程に基づいたカリキュラム学習を導入し,学習速度を2倍に向上させた。
- カリキュラム学習により,7つのベンチマークのうち3つでゼロショットパープレキシティにおいて自己回帰モデルを上回る結果を得た。
- また,離散設定へのConsistency Distillationを適用し,拡散言語モデルのサンプリング速度を2桁向上させた。
OntoGSN:アシュアランスケースのセマンティック管理と拡張のためのオントロジーベースのフレームワーク [cs.AI, cs.SE]目的:アシュアランスケースのセマンティック管理と拡張
- システムの安全性や堅牢性を保証するため,アシュアランスケースは不可欠な成果物である。
- アシュアランスケースの管理は知識の維持に手間がかかり,開発者の負担となる。
- OntoGSNを用いて,アシュアランスケースの変更に対する知識管理を効率化し,信頼性を高める。
- OntoGSNは,GSN標準に基づき,アシュアランスケースを管理するためのオントロジーとミドルウェアを提供する。
- GSNコミュニティスタンダードv3をOWLオントロジーとして形式化し,自動的な更新と評価を可能にする。
- 大規模言語モデルにおける敵対的堅牢性の保証を例に,動的なアシュアランスケース管理の実用性を示した。
現在の電力市場における小型モジュール炉のコスト競争力評価:炉コスト不確実性を考慮 [cs.NE, physics.soc-ph]目的:小型モジュール炉のコスト競争性
- 地球温暖化対策として,安定したエネルギー供給が求められる現状において,小型モジュール炉は重要な選択肢となる。
- 小型モジュール炉のコストは不確実性が高く,経済的な実現可能性が課題となっている。
- 炉コストの不確実性を考慮し,最適な設計を特定することで,小型モジュール炉の経済的競争力を向上させる。
- 遺伝的アルゴリズムによる最適化の結果,小型モジュール炉は生産税額控除(PTC)の支援があれば,48.21ドル/MWhから78.32ドル/MWhでコスト競争力を持つことが示された。
- 初期資本コスト(OCC)がLCOEに最も大きな影響を与え,運転維持費や燃料コストの不確実性は影響が小さいことが明らかになった。
- PTCのようなエネルギー政策はLCOEを22〜24%削減し,コスト変動があっても小型モジュール炉の経済性を改善する。
マルチモーダル表現学習と融合 [cs.LG, cs.MM]目的:マルチモーダル表現学習と融合の技術
- AIの高度化には,画像,テキスト,音声など多様な情報を統合する技術が不可欠である。
- 異なる形式のデータ処理,欠損,敵対的攻撃への脆弱性などが課題となっている。
- 効率化とスケーラビリティ向上,そして客観的な評価手法の確立を目指す。
- マルチモーダル学習は,コンピュータビジョン,自然言語処理,音声認識など,幅広い分野への応用が期待される。
- 未指導学習やAutoMLツール等の活用により,モデルの効率化と拡張性が向上すると考えられる。
- 人間のように柔軟かつ文脈を理解できるAIシステムの構築に貢献することが期待される。
ベクトル検索のためのグラフインデックスのカーネル [cs.LG]目的:ベクトル検索のためのグラフインデックス構築手法
- ベクトル検索は,大規模データセットにおける類似データ探索の基盤技術である。
- 既存のグラフインデックスはユークリッド空間に限定され,汎用的なベクトル空間への適用が困難である。
- カーネル法を用いて,ユークリッド空間に限定されないグラフインデックスを構築し,探索性能を向上させる。
- カーネル法に基づく新しいグラフインデックスであるSupport Vector Graph (SVG) を提案した。
- 既存のHNSWやDiskANNといったグラフインデックスをSVGの特殊なケースとして解釈し,新たなインデックス設計の指針を示した。
- $\ell_0$ スパース制約を導入したSVG-L0を提案し,ノードの出次数を制御しつつ効率的な探索を実現した。
大規模言語モデルのデータセット来歴検証のためのゼロ知識アプローチ:ZKPROV [cs.CR, cs.AI, cs.LG]目的:大規模言語モデルのデータセット来歴検証手法
- LLMの利用拡大に伴い,特に機密性の高い分野におけるデータ利用の透明性と信頼性が重要になっている。
- 既存手法では,完全な検証に高コストがかかるか,あるいは機密情報が漏洩する可能性がある。
- データセットの機密性を保ちつつ,LLMの応答が信頼できるデータセットで学習されたことを検証する。
- ZKPROVは,モデル応答が権限のあるデータセットで学習されたことを検証可能にする暗号化フレームワークである。
- データセットの内容とユーザのクエリの関連性を保証しつつ,機密情報を保護する。
- 生成・検証のオーバーヘッドが小さく,8Bパラメータまでのモデルで3.3秒以下の実用的なソリューションである。
OptScale:推論時スケーリングの確率的最適性 [cs.LG, cs.AI, cs.CL]目的:推論時スケーリングの最適性に関する確率的フレームワーク
- 大規模言語モデルの推論性能向上が重要視されているため。
- 既存手法は経験則に頼る傾向があり,理論的根拠に乏しい。
- 計算効率の良いスケーリングを実現するための指針を提示すること。
- OptScaleは,確率的枠組みに基づいて,必要なサンプル数を動的に決定する。
- 言語モデルを利用して事前確率パラメータを推定し,性能閾値と信頼水準を満たす最小限のサンプル数を選択する。
- MATH-500,GSM8Kなどのベンチマークで,OptScaleはサンプリングオーバーヘッドを削減しつつ,最先端の推論性能を維持・向上させた。
Holmes: パーソナライズされた大規模ビジョンモデルの有効かつ無害なモデル所有権検証:共通特徴の分離によるアプローチ [cs.CV, cs.AI]目的:大規模ビジョンモデルのモデル盗難に対する所有権検証方法
- 大規模ビジョンモデルは様々なタスクで高い性能を発揮し,企業にとって重要な知的財産となっている。
- 既存の防御方法は,ファインチューニングされたモデルには有効でなく,誤判定や新たなセキュリティリスクをもたらす可能性がある。
- 本研究は,共通特徴を分離することで,個人化された大規模ビジョンモデルのモデル盗難を検出し,所有権を検証することを目的とする。
- 提案手法では,まず被害モデルの共通特徴を保持しつつ,データセット固有の特徴を撹乱するシャドウモデルを作成する。
- 次に,シャドウモデルと被害モデルの出力差分からデータセット固有の特徴を表現し,メタ分類器を用いて盗難モデルを識別する。
- 最後に,仮説検定を用いてランダム性を軽減し,ロバスト性を向上させることで,モデルの所有権を検証する。
並列性と適応性の融合:マルチエージェントLLMシステムにおけるスケーラブルな文書理解 [cs.MA, cs.AI, cs.IR]目的:マルチエージェントLLMシステムにおけるスケーラブルな文書理解の実現
- 複雑なタスク遂行において,LLMエージェントの協調が重要視されている。
- 既存のフレームワークは静的なワークフローに依存し,柔軟性に欠ける点が課題である。
- 動的なタスクルーティングと競争による,適応性の高いシステムを構築する。
- 提案フレームワークは,タスクの再配分,双方向フィードバック,並列評価を実現した。
- 実験により,事実の網羅性,一貫性,効率において既存手法を上回る結果が得られた。
- 適応性と構造化された競争の組み込みが,マルチエージェントLLMシステムの性能向上に貢献する。
GenAIに基づく画像合成によるAI皮膚病変分類器の公平性評価の促進 [cs.CV, cs.AI, cs.LG]目的:AI皮膚病変分類器の公平性評価
- 皮膚がん検診の効率化が期待される一方,AIのバイアスによる不公平性が懸念される。
- 性別,年齢,人種などの多様な属性を反映した評価データセットの構築が困難である。
- 生成AIを用いて公平性評価用の合成データを作成し,バイアスの検証を可能にする。
- 実画像データセット(MILK10K)を用いた評価で,実画像と生成画像でモデルの分類傾向が類似していることが確認された。
- DeepGuide,MelaNet,SkinLesionDensnetの3モデルで同様の結果が得られた。
- 高品質な合成画像が,モデルの公平性検証を促進することが示された。
平均集約を持つGNNの論理的特徴づけ [cs.CL, cs.AI, cs.LO]目的:平均を集合関数とするグラフニューラルネットワークの表現力
- グラフ構造データは現実世界の複雑な関係性を表現可能であり,その解析が重要である。
- GNNの表現力は,解くべき問題の複雑さに大きく依存するため,その評価が課題となる。
- 平均集約を用いたGNNの表現力の限界を明確にし,より効率的なモデル設計に貢献する。
- 非一様設定において,平均集約GNNは比率モダール論理と同等の表現力を持つことが示された。
- 一様設定下では,MSOに対する表現力はモダール論理と等しく,max集約GNNと同等の表現力となる。
- 連続関数と閾値関数を仮定した場合,平均集約GNNはalternation-freeモダール論理と同等の表現力に制限される。
ブースティングの再考:LPベースのアンサンブル手法のベンチマークと発展 [cs.LG]目的:LPベースのアンサンブル手法の性能評価と改良
- 機械学習の分野で,高性能な予測モデル構築は重要な課題である。
- ブースティングは強力だが,計算コストが高い場合がある。
- 線形計画法を用いたブースティング手法の性能向上を目指す。
- LPベースのブースティング手法は,浅い決定木を使用することで,XGBoostやLightGBMと同等以上の性能を示す。
- これらの手法は,疎なアンサンブルを生成し,モデルの解釈性を高める。
- 事前学習済みのアンサンブルを効率的に削減し,性能を維持することが可能である。
教師モデル洗練による強化学習:機械翻訳のための段階的模倣学習 [cs.NI, cs.DC, cs.HC, cs.CL, cs.AI]目的:機械翻訳における段階的模倣学習
- 機械翻訳の品質向上は,グローバルコミュニケーションにおいて不可欠であり,その重要性は増している。
- 従来の機械翻訳の学習法では,高品質な学習データやドメインへの適応が課題となっていた。
- 教師モデルの洗練を通じて,より安定かつ効果的な学習信号を生成し,翻訳品質の向上を目指す。
- 提案手法RLfRは,既存の機械翻訳のSFT,DPO,固定参照RLなどのベースラインをFLORES-200データセットにおいて上回った。
- RLfRは,意味的品質とエンティティ保持の改善に貢献し,特にLLMベースの評価においても優れた性能を示した。
- 静的なトリプレットに依存せず,教師モデルからの動的な洗練を用いることで,汎化性能の向上を実現した。
大規模言語モデルによるソフトウェア脆弱性検出に関する系統的文献レビュー [cs.SE, cs.AI]目的:大規模言語モデルを用いたソフトウェア脆弱性検出の研究動向
- ソフトウェアの安全性確保は重要であり,脆弱性検出はその根幹をなす。
- 研究が急速に進む中で,手法やデータセットにばらつきがあり,比較が困難。
- LLMを活用した脆弱性検出研究の現状を整理し,今後の方向性を示す。
- 本研究では,2020年から2025年までに発表された263件の研究を系統的にレビューした。
- タスク設定,入力表現,システム構成などの観点から研究を分類し,脆弱性検出手法の分類体系を構築した。
- データセットの特徴,脆弱性の網羅性,多様性についても分析し,今後の研究課題を提示した。
テキストからSQLタスク指向型対話オントロジーの構築 [cs.CL, cs.AI, cs.DB, cs.IR]目的:タスク指向型対話オントロジーの構築
- 大規模言語モデルの知識源としての重要性が高まっているが,説明可能性と信頼性に課題がある。
- 既存のオントロジー構築には,手動ラベル付けや教師あり学習が必要であり,コストが高い。
- LLMのSQL生成能力を用いて,オントロジーを自動的に構築することで,その課題を解決する。
- TeQoDOは,プロンプト内のモジュール型タスク指向システム概念とLLMのSQL能力を組み合わせ,オントロジーを自律的に構築する。
- TeQoDOは,転移学習アプローチを上回り,構築されたオントロジーは対話状態追跡タスクにおいて競争力がある。
- WikipediaとarXivデータセットを用いた実験により,より大規模なオントロジー構築への応用可能性が示された。
確率的エージェント超ネットワークサンプリングによる解釈可能で適応的な胸部X線画像推論 [cs.AI, cs.LG]目的:解釈可能かつ適応的な胸部X線画像推論のためのフレームワーク
- 医療分野において,マルチモーダルデータを用いた推論は重要であり,高い精度と安全性が求められる。
- 既存のエージェントシステムは,推論過程の不透明性,マルチモーダル統合の不備,効率性の問題がある。
- PASSは,これらの課題を解決し,解釈性と適応性に優れた医療用エージェントシステムの実現を目指す。
- PASSは,マルチツールグラフ上でエージェントのワークフローを適応的にサンプリングし,解釈可能な確率付きの意思決定経路を提供する。
- 学習されたタスク条件付き分布を活用し,各超ネットワーク層で最適なツールを選択することで,医療AIの安全性を向上させる。
- CAB-Eという新しいベンチマークを用いて評価した結果,PASSは既存のベースラインよりも高い精度と効率性を示した。
