arXiv雑要約
AI - 2026/05/15 公開
オフポリシー評価のためのログ収集ポリシー設計 [quant-ph, cs.AR, cs.DC, cs.PF, stat.ML, cs.AI, cs.IR, cs.LG, stat.ME]目的:オフポリシー評価における誤差最小化を目的としたログ収集ポリシーの設計
- 推薦システム等の方策評価において,実環境での展開前に効果を検証する手段として重要である。
- オフポリシー評価の精度は,データ収集に用いられるログ収集ポリシーに大きく依存するという課題がある。
- 目標とする方策に対する誤差を最小化するログ収集ポリシーを設計することで,この課題を解決する。
- 報酬と探索のトレードオフを明らかにし,高い報酬をもたらす行動に確率を集中させることの重要性を示した。
- 目標方策と報酬分布が既知,未知,または事前情報に基づいて部分的に既知の場合の最適なログ収集ポリシーを導出した。
- 推薦システムの選択において,データ収集時の行動選択が重要であり,理論的な最適アプローチと実用的な設計原則を提示した。
RoSHAP:安定した特徴量帰属のための分布フレームワークとロバストな指標 [quant-ph, cond-mat.str-el, cs.CC, hep-th, stat.ML, cs.LG]目的:機械学習モデル解釈と信頼性の高いデータ駆動型意思決定の支援
- 機械学習のモデル解釈は,モデルの信頼性向上と,公平性,透明性の確保に不可欠である。
- 特徴量帰属の指標は確率的な変動が大きく,結果の一貫性に課題がある。
- 特徴量帰属の確率的性質を考慮し,安定した特徴量ランキングを実現する。
- RoSHAPはSHAP値を基に,ブートストラップリサンプリングとカーネル密度推定により分布をモデル化する。
- RoSHAPは,活性,強さ,安定性の高い特徴量を同時に評価し,ロバストな特徴量ランキングを可能にする。
- シミュレーションと実データ実験により,RoSHAPは標準的な指標よりも信号特徴の識別性能が高いことが示された。
組織に対するサイバー脅威の標的予測のためのベンダー条件付き対照学習 [cs.CR, cs.LG]目的:組織に対するサイバー脅威の標的予測
- サイバー攻撃は年間数十億ドルの損害をもたらし,その対策は喫緊の課題である。
- サイバー脅威インテリジェンス(CTI)において,攻撃対象組織の特定が困難である。
- 大規模データを用いた組織の標的分類と,時間的変化へのロバスト性を実現する。
- 提案手法TRACEは,9つのエクスプロイトデータベースとハッカーフォーラムのデータを用いて高い性能を発揮した。
- 時間的分布シフトに対する評価において,TRACEはマクロF1=97.00%を達成し,既存手法を大幅に上回った。
- ベンダー条件付き対照学習により,組織の標的分類とベンダー整合性の高い表現を同時に最適化した。
比較に基づく勾配推定を用いた逐次的な資源取引 [cs.MA, cs.AI, math.OC]目的:多岐にわたる資源の逐次取引における,比較に基づく勾配推定アルゴリズム
- 資源配分は経済活動の根幹であり,効率的な取引メカニズムの確立が重要である。
- 相手の効用関数が不明な状況下では,効率的な取引戦略の設計が困難である。
- 相手の反応から効用関数の勾配を推定し,互いに利益のある取引を効率的に発見すること。
- 提案アルゴリズムは,受諾・拒否のフィードバックを状態の比較と解釈し,繰り返し相手の勾配を推定する。
- 受諾された取引は両エージェントの効用を確実に向上させ,有限回の拒否後には,互いに利益のある取引を特定するか,弱パレート最適解を証明する。
- シミュレーションとユーザースタディの結果,提案手法は標準的な手法と比較して,より高い社会的利益をより少ないオファー数で達成できることが示された。
複雑な制御システムのための加法ガウス過程による安全なベイジアン最適化 [cs.RO, cs.AI]目的:複雑な制御システムの安全な自動コントローラー同調
- ロボット工学やメカトロニクスにおいて,正確なモデル化が困難なシステムの自動調整は重要である。
- ブラックボックス最適化は危険を伴う可能性があり,安全性を保証する手法が求められている。
- 複数の連携コントローラーの同時同調におけるサンプル効率の改善と安全性の確保。
- 提案手法SafeCtrlBOは,加法ガウス過程カーネルを用いることでサンプル数を削減し,効率的な最適化を実現した。
- SafeOptスタイルの計算コストの高い処理を,幾何学的条件を満たす境界ベースの拡張規則に置き換えた。
- シミュレーションと実機実験(PMSM速度制御)の結果,SafeCtrlBOは安全性を維持しつつ,既存手法よりも少ない試行回数で高性能なパラメータに到達した。
GitHub Copilotが協調型オープンソースソフトウェア開発に与える影響 [cs.SE, cs.AI, cs.HC, econ.GN, q-fin.EC]目的:GitHub Copilotによるオープンソースソフトウェア開発への影響の評価
- ソフトウェア開発は現代社会の基盤であり,その効率化と質の向上が重要である。
- オープンソース開発では,分散した開発者間の連携が課題となる場合がある。
- 生成AIが開発者の生産性や参加に与える影響を明らかにすることが求められている。
- GitHub Copilotの利用は,プロジェクトレベルのコード貢献量を5.9%増加させる。
- この増加は,開発者のコーディング参加率の向上(3.4%)と,個々の生産性の向上(2.1%)によって促進される。
- しかし,Copilotの利用はコードに関する議論の増加により,連携時間の増加(8%)も招く。
LLMのファインチューニングにおけるキャリブレーションのための機能レベル不確実性定量化 [cs.LG]目的:LLMのファインチューニングにおけるキャリブレーションのための不確実性定量化手法
- LLMの信頼性向上には,正確な不確実性定量化が不可欠であり,様々な応用において重要性が増している。
- ファインチューニングされたLLMは,限られた適応データ下で過信傾向を示すことが課題となっている。
- プロンプト依存LoRAエキスパートの混合による関数空間上で不確実性を定量化し,キャリブレーションを改善する。
- 提案手法UQ4CTは,複数選択問題と生成質疑応答タスクにおいて,期待キャリブレーション誤差(ECE)を25%以上削減した。
- 分布シフト下においても,UQ4CTは優れたキャリブレーションを維持し,高い精度を保った。
- ファインチューニングされたLLMの信頼性と汎化性能の向上が示された。
マルチモーダル回帰に対する適合予測 [cs.DC, cs.LG]目的:マルチモーダル回帰における不確実性定量
- データ解析において,予測の信頼性評価は不可欠であり,リスク管理や意思決定に貢献する。
- 従来の適合予測は数値データに限定され,画像やテキストを含むマルチモーダルデータへの適用が困難であった。
- マルチモーダルデータへの適合予測の適用可能性を示し,信頼性の高い不確実性定量を実現する。
- 本研究では,画像とテキスト処理ネットワークの内部特徴を用いて適合予測を行い,予測区間を構築する手法を提案した。
- 提案手法により,マルチモーダルデータにおける分布フリーな不確実性定量が可能となり,幅広い分野への応用が期待される。
- ニューラルネットワークの収束点から抽出した内部特徴が,適合予測の有効な入力となり得ることが示された。
癌検出における畳み込みニューラルネットワークの可能性 [cs.CV, cs.LG]目的:癌検出のための畳み込みニューラルネットワークの応用可能性
- 早期発見は癌治療の成功率向上に不可欠であり,医療分野において重要性が高い。
- 癌の種類ごとに異なるデータセットとCNNアーキテクチャが用いられ,比較検討が不十分である。
- 臨床現場でのCNN導入による診断能力の向上を目指す。
- 癌の種類ごとに異なるCNNアーキテクチャが用いられていることが確認された。
- 各アーキテクチャの利点と欠点が明らかになった。
- CNNを臨床診断に統合することで,診断能力の向上が期待される。
DUET:未踏評価タスクからのフィードバックによる学習データ混合の最適化 [cs.LG, cs.AI, stat.ML]目的:未踏評価タスクに対するLLMの性能を最大化するための学習データ混合の最適化
- LLMの性能は学習データの関連性に大きく依存する。データが重要であることは言うまでもない。
- 未踏評価タスクにおいては,関連データが不明であるため,最適なデータ混合が困難である。
- 未踏評価タスクからのフィードバックを活用し,データ混合を最適化することでこの問題を解決する。
- 提案手法DUETは,影響関数とベイズ最適化を組み合わせた新しいアルゴリズムである。
- 理論的には,DUETはタスクに関する事前知識なしでも,最適なデータ混合に収束することが示されている。
- 様々な言語タスクにおいて,既存手法と比較してDUETが優れた性能を示すことが確認された。
単一チャンネル脳波の時間周波数モチーフ学習によるトークン化 [cs.DM, cs.LG, cs.AI, eess.SP]目的:単一チャンネル脳波信号からの時間周波数モチーフの語彙学習と,それらを離散的なトークンへエンコードするトークン化フレームワーク
- 脳波解析は,脳の活動を理解するための重要な手法であり,医療やブレイン・マシン・インターフェースなど,幅広い応用が期待される。
- 既存の脳波トークン化手法は,十分な性能を発揮できない場合があり,特に汎化性能に課題が残る。
- 本研究は,単一チャンネル脳波を用いた効率的かつ高性能なトークン化手法を開発し,脳波解析の精度向上を目指す。
- 提案手法TFM-Tokenizerは,様々な脳波ベンチマークにおいて,既存手法と比較して一貫して高い性能向上を示し,Cohen's Kappaで最大11%の改善を達成した。
- TFM-Tokenizerは,BIOTやLaBraMなどの多様なファウンデーションモデルに組み込むことができ,性能向上に貢献する。
- 本手法は,10-20システムに依存せず単一チャンネルで動作するため,デバイスに依存しないトークン化が可能であり,ear-EEG睡眠段階分類において14%の性能向上を示した。
プロシーダル拡散ガイダンスによる建築ファサード生成 [cs.GR, cs.AI, cs.CV, cs.LG]目的:建築ファサード画像の生成
- 建築デザインは都市景観や快適性に影響する重要な要素である。
- ファサードデザインの変更には専門知識と労力がかかり,効率的な方法が求められる。
- プロシーダルな手法を用いて,ファサードデザインの編集を容易にすること。
- 本手法は,階層的なプロシーダルルールを用いて,高品質な建築ファサード画像を生成する。
- 入力画像とセグメンテーションからファサードの階層的レイアウトを特定し,構造編集を可能にする。
- 実験の結果,本手法は建築的アイデンティティの保持と正確な制御において優れた性能を示した。
Progent:AIエージェントに対する権限制御による保護 [cs.CR, cs.AI]目的:AIエージェントの権限制御を通じた保護
- AIエージェントの利用拡大に伴い,外部環境とのインタラクションにおけるセキュリティ確保が重要となっている。
- AIエージェントは自律的に行動するため,不正な操作や攻撃に対する脆弱性が存在する。
- 本研究は,AIエージェントが実行可能な操作を制限することで,セキュリティと実用性の両立を目指す。
- Progentは,ツール名と引数に基づいた記号規則によるセキュリティポリシーを用いて,AIエージェントを保護するフレームワークである。
- ポリシーは,LLMによってタスク内容から自動生成され,実行状況に応じて更新される。更新は安全性を損なわないように厳密に制御される。
- 評価実験の結果,Progentは攻撃成功率を大幅に低減しつつ,高い実用性を維持することが示された。
合成表形式データの評価における課題とガイドライン:体系的レビュー [cs.LG, cs.AI, cs.CY]目的:合成表形式データ評価の課題と標準化された評価方法
- 医療データは機密性が高く,プライバシー保護が重要であるため,合成データ利用が注目されている。
- 合成データの評価方法に合意がなく,評価指標の適用も一貫性がないという問題点が存在する。
- 合成データの信頼性と臨床的妥当性を高めるための評価方法を標準化し,適切な利用を促進すること。
- 合成データ評価における重要な課題が,評価方法のコンセンサス欠如,指標の不一貫性,専門家の関与不足などであると特定された。
- 合成データ生成と評価方法を分類し,より堅牢で標準化された評価を支援するための実践的なガイドラインが提示された。
- 透明性,再現性,ガバナンスへの期待に応え,合成データの潜在能力を最大限に引き出すことを目指している。
適応型ビデオストリーミングにおける深層強化学習のためのサイレントニューロン理論と可塑性維持 [cs.LG, cs.AI]目的:適応型ビデオストリーミングにおける深層強化学習の可塑性維持
- ビデオストリーミングは普及が著しく,QoEの最適化は重要である。
- 現実のネットワーク環境は学習環境と異なり,汎化性能が課題となる。
- ニューロンの可塑性損失がボトルネックであり,その定量化と維持が求められる。
- 既存の手法ではニューロンの可塑性損失が無視されており,適応能力が制限されている。
- 提案手法ReSiNは,サイレントニューロン理論に基づき,ニューロンのリセットにより可塑性を維持する。
- ReSiNは,ビットレートを最大168%向上,QoEを108%改善し,多様なネットワーク環境下で高い適応性を示す。
通信効率の良い連合学習によるファインチューニング [cs.LG, cs.DC]目的:連合学習における言語モデルのファインチューニング手法
- データ活用が困難だった分散データを活用できるため,様々な分野での応用が期待されている。
- モデルのパラメータを頻繁に交換する必要があり,通信コストが課題となっている。
- 既存手法のパラメータ調整の難しさや同期スキームの制約を克服し,より実用的な手法を提案する。
- 提案手法FDA-Optは,既存のFedOptと比較して,特にハイパーパラメータの最適化が難しい場合に優れた性能を発揮する。
- FDA-Optは,FedOptの置き換えとして容易に導入でき,追加の設定なしに高い性能を達成する。
- 自然言語処理タスクにおける言語モデルのファインチューニングにおいて,その有効性が実験的に示された。
オートフォーカス検索:半構造化知識を用いた多段質問応答のための効果的なパイプライン [cs.IR, cs.AI, cs.CL]目的:半構造化知識ベースに基づく,多段質問応答のためのモジュール型フレームワーク
- 機械学習と対話システムにおいて,構造化知識と非構造化コンテンツの統合が重要視されている。
- 従来のシステムは,構造化知識か非構造化コンテンツのいずれかに偏っていた。
- 半構造化知識ベースを活用し,多段質問応答の精度向上を目指す。
- AF-Retrieverは,STaRK QAベンチマークにおいて,ゼロショットおよびワンショットの両方で最高の結果を達成した。
- 最初の正答率において,次点の手法を32.1%上回る性能を示した。
- 大規模言語モデルを活用したエンティティ属性抽出や関係制約の解析,ベクトル類似度検索,動的な範囲拡張などが貢献している。
LLMベースのマルチエージェント協調のための包括的最適化フレームワークOMAC [cs.MA, cs.AI, cs.LG]目的:LLMベースのマルチエージェントシステムの包括的最適化
- 高度なLLM搭載エージェントは多様な分野で活用され,その能力が期待されている。
- マルチエージェントシステムの設計・最適化に関する体系的な研究は未だ不足している。
- LLMベースのマルチエージェントシステムの機能と協調構造を最適化することを目指す。
- OMACは,エージェントの機能と協調構造の両面から,マルチエージェントシステムを包括的に最適化するフレームワークである。
- Semantic InitializerとContrastive Comparatorという二つの要素を用いて,各最適化次元を最適化する一般的なアルゴリズムを提案した。
- 複数の次元にわたる同時最適化アルゴリズムを提示し,多様なタスクで既存手法を上回る性能を実証した。
逆問題に対する二重上昇拡散法 [cs.CV, cs.AI, cs.LG, eess.IV]目的:逆問題解決のための新しいアプローチ
- 天文学から医療画像処理まで,多くの分野で基礎となる逆問題の重要性が高い。
- 既存手法は計算近似に依存し,不正確または最適でないサンプルとなる課題がある。
- 拡散モデルに基づく二重上昇最適化フレームワークで,より正確な解を導くことを目指す。
- 画像復元問題において,様々な評価指標に基づき,より高品質な画像が得られた。
- 測定ノイズに対してよりロバストであり,高速な計算が可能である。
- 観測データをより忠実に反映した解を推定できることが示された。
LoVeC:長文生成におけるより良い言語化された確信度のための強化学習 [cs.CL, cs.AI]目的:長文生成における言語化された確信度の向上
- 大規模言語モデルの安全かつ信頼できる展開には,事実に基づいたコンテンツ生成が不可欠である。
- 言語モデルのハルシネーション(幻覚)が依然として大きな課題となっている。
- 長文生成において,効率的かつ解釈可能な確信度推定手法を確立すること。
- 本研究で提案するLoVeCは,生成された各文に確信度スコアを付与することで,事実に基づいた生成を促す。
- 自由形式タグ付けと反復タグ付けという2つの評価設定により,確信度推定手法の性能を検証した。
- 実験の結果,LoVeCは従来の自己整合性手法よりも高速かつ高精度に確信度を推定できることが示された。
隠れ状態を持つ微分プライバシーゼロ次最適化におけるプライバシー増強 [cs.LG]目的:微分プライバシーゼロ次最適化におけるプライバシー増強の理論的限界
- 大規模言語モデルのプライバシー保護付きファインチューニングは重要であり,メモリ制約下での効率的な手法が求められている。
- ゼロ次最適化における反復によるプライバシー増強(PABI)の保証は未解決であり,プライバシー保護と実用性の両立が課題である。
- 異方的な更新による問題点を克服し,ゼロ次最適化における収束するプライバシー境界を確立すること。
- 本研究では,ハイブリッドノイズ機構と新しい結合解析により,隠れ状態を持つゼロ次最適化における収束するDP境界を初めて提供する。
- 従来のシフトされたレーニィエントダイバージェンスのアプローチを回避し,結合補助プロセスを構築することで,グローバルなリプシッツ障壁を回避し,収束するプライバシー境界を実現した。
- 本研究の結果は,既存の研究では知られていなかった,より優れたDPゼロ次最適化アルゴリズムの設計を可能にする。
ActivePusher: 活性学習と残差物理モデルを用いた非把持操作の学習と計画 [cs.RO, cs.LG]目的:非把持操作における学習と計画のためのフレームワーク
- ロボットによる現実世界の操作は,多様な作業を可能にする上で重要である。
- 学習に基づく手法では,データ収集コストが高く,効率が悪いという課題がある。
- データ効率を向上させ,計画の成功率を高めることを目指す。
- 残差物理モデルと不確か性に基づく活性学習を組み合わせることで,効率的なデータ収集を実現した。
- ActivePusherは,モデルベースの計画手法とシームレスに統合され,信頼性の高い行動選択を可能にする。
- シミュレーションと実環境の両方で有効性が検証され,ベースライン手法と比較して高い性能を示した。
BiTrajDiff:オフライン強化学習のための拡散モデルによる双方向軌道生成 [cs.LG]目的:オフライン強化学習におけるデータ拡張による性能向上
- 強化学習は,ロボット制御やゲームなど,様々な分野で活用が期待されている。
- 既存のオフライン強化学習は,偏ったデータセットに起因する汎化性能の限界がある。
- BiTrajDiffは,過去と未来の両方の軌道を生成することで,データセットの多様性を高める。
- BiTrajDiffは,拡散モデルを用いて,任意の時点から過去と未来の軌道を生成する新しいデータ拡張フレームワークである。
- この手法により,重要な状態を起点として,潜在的に価値のある未探索領域への拡張が可能となる。
- D4RLベンチマークにおいて,BiTrajDiffは既存の高度なデータ拡張手法と比較して優れた性能を示した。
行動としての分布:多様な行動空間のための統一的フレームワーク [cs.CL, cs.LG, cs.AI]目的:多様な行動空間に対する統一的フレームワークの提案
- 強化学習は,ロボット制御やゲームAIなど,様々な分野で重要な役割を担う。
- 従来の強化学習は,離散・連続・混合といった多様な行動空間への対応が課題であった。
- 行動分布を直接操作することで,多様な行動空間を統一的に扱うことを目指す。
- 提案手法DA-ACは,離散,連続,混合制御といった様々な環境で良好な性能を示す。
- 行動分布をパラメータ化することで,より滑らかで安定した学習が可能となる。
- 新しい勾配推定器DA-PGは,元の行動空間における勾配よりも分散が低い。
力学の視点を通じた時系列予測 [cs.CL, cs.LG, cs.AI]目的:時系列予測における学習力学
- 時系列データは,金融,気象,交通など,多くの分野で重要である。
- 深層学習モデルは多様なモダリティで均質化されつつあるが,時系列予測においては線形モデルに劣る場合がある。
- 過去のデータから未来のデータへの直接的な繋がりを学習する能力,すなわち学習力学の重要性を明らかにする。
- 既存のモデルを力学の視点から分析する新たな命名法PRO-DYNを提案した。
- 性能の低いモデルは学習力学を部分的にしか学習していないこと,および力学ブロックの位置が重要であることが示された。
- モデル設計と改善を導く,シンプルでプラグアンドプレイ可能な手法を提案する。
シャプレー値を異常局所化に利用することに関する統計的調査 [cs.LG, eess.SP]目的:センサーデータシステムにおける異常局所化手法
- センサーネットワーク等の状態把握において,異常検知と局所化はシステム安定性の確保に不可欠である。
- シャプレー値計算は計算コストが高く,現実的なシステムへの適用が課題となっていた。
- シャプレー値計算の簡略化による,計算コスト削減と誤り確率の維持を目指す。
- 単一固定項を用いたシャプレー値計算は,全ケースにおいて従来のシャプレー値と同等の誤り確率で異常局所化テストを実施可能である。
- 独立観測ケースにおいては,上記の結論が数学的に証明された。
- 依存観測ケースにおいては,現時点では証明は得られていない。
ReasonCache:KVキャッシュ共有による大規模推論モデルの高速化 [cs.LG, cs.AI]目的:大規模推論モデルのサービス品質向上
- AI推論システムの高度化に伴い,大規模推論モデルの利用が不可欠となっている。
- 大規模推論モデルは,長い自己回帰推論プロセスによりメモリ消費量が大きく,スループット低下やレイテンシ増加の原因となる。
- 推論過程で類似する中間ステップに着目し,KVキャッシュの再利用による効率化を目指す。
- ReasonCacheは,協調フィルタリングアルゴリズムを用いて再利用可能なKVキャッシュブロックを効率的に特定し,ゼロコピーキャッシュ再利用を可能にする。
- 実験評価の結果,ReasonCacheはピークスループットを最大89.2%向上させ,平均で40-60%の改善を達成した。
- 既存のKVキャッシュ管理手法と比較して,精度を維持しつつ,応答性とコスト効率の高いAI推論サービスを実現する。
教師なし学習による解釈可能な部分空間への表現空間の分解 [cs.LG, cs.AI, cs.CL]目的:ニューラルモデルの内部表現の解釈可能性向上
- AIの信頼性向上には,モデルの内部動作の理解が不可欠である。
- 高次元の表現空間は複雑であり,特定の意味を持つ情報を分離して捉えるのが困難である。
- 教師なし学習により,自然な部分空間を特定し,モデルの内部構造を明らかにする。
- 近傍距離最小化(NDM)により,基底に依存しない部分空間を教師なしで学習することが可能となった。
- 得られた部分空間は,多くの場合解釈可能であり,入力間で抽象的な概念を共有する傾向にある。
- GPT-2の既知の回路を用いた定量的な実験により,部分空間と回路変数の間に強い関連性が見られた。
BOOST:ベイズ最適化におけるカーネル関数と獲得関数の自動同時選択のためのデータ駆動型フレームワーク [cs.LG, stat.ML]目的:カーネル関数と獲得関数の最適な組み合わせの自動選択
- ベイズ最適化は高コストなブラックボックス問題に有効だが,ハイパーパラメータの選択が性能を大きく左右する。
- 適切なカーネル関数と獲得関数の組み合わせを見つけるには,経験則やコストのかかる手動チューニングに頼らざるを得なかった。
- カーネル関数と獲得関数の組み合わせを自動的に選択することで,ベイズ最適化の効率と性能を向上させる。
- BOOSTは,カーネル関数と獲得関数の組み合わせの性能を事前に予測するオフライン評価ステージを用いる。
- 実験結果から,BOOSTは固定ハイパーパラメータのベイズ最適化よりも一貫して性能が向上し,最先端の適応手法と競合できることが示された。
- BOOSTは多様な状況において,その堅牢性が確認された。
レコメンデーションシステムの安定性と可塑性の測定 [cs.IR, cs.LG]目的:レコメンデーションモデルの安定性と可塑性の評価方法
- レコメンデーションシステムは,情報過多な状況下で有用な情報を提供し,ユーザーの意思決定を支援する。
- 従来の評価プロトコルはスナップショット的な性能しか示せず,時間経過に伴うシステムの進化に対応できない。
- モデルの再学習による性能変化を評価し,安定性と可塑性の両立を目指す。
- 提案手法により,データセット,アルゴリズム,評価指標に依存しない長期的なモデル挙動の評価が可能となった。
- GoodReadsデータセットを用いた実験では,アルゴリズムの種類によって異なる安定性と可塑性のプロファイルが確認された。
- 安定性と可塑性の間にはトレードオフの関係が存在する可能性が示唆された。
LoRAの中のLoRA:継続的な視覚的指示チューニングのためのパラメータ効率的なアーキテクチャ拡張 [cs.CV, cs.AI]目的:継続的な視覚的指示チューニングにおけるパラメータ効率的なアーキテクチャ拡張
- マルチモーダル大規模言語モデルの応用拡大に伴い,新しいタスクへの適応能力が重要になっている。
- 既存手法では,タスクごとにレイヤー全体を拡張するため,パラメータ数が増大し,スケーラビリティが課題である。
- LoRAの共有と低ランク分解により,パラメータ効率を向上させ,逐次学習における性能低下を抑制することを目指す。
- LiLoRAは,既存手法と比較して,逐次タスク学習において優れた性能を安定的に達成する。
- LoRA行列Aをタスク間で共有し,行列Bに追加の低ランク分解を適用することで,タスク固有のパラメータ数を最小限に抑える。
- コサイン正則化された安定化損失を導入することで,時間経過に伴う共有表現の一貫性を維持する。
GeoLaux:補助線が必要な長手順問題におけるMLLMの幾何学性能を評価するためのベンチマーク [cs.AI]目的:多段階幾何学問題における,マルチモーダル大規模言語モデル(MLLM)の性能評価
- 幾何学問題解決は,図の理解,知識の応用,論理的思考力を必要とするため,AI研究において重要である。
- 既存のベンチマークは,補助線作図が必要な長手順問題に対する詳細な評価が不足している。
- 長手順問題と補助線作図能力に焦点を当て,MLLMの幾何学的な推論能力を評価・改善すること。
- 本研究では,2186件の計算と証明問題を収録した,詳細な注釈付きデータセットGeoLauxを構築した。
- 23の主要なMLLMを5つの側面から評価した結果,長手順問題での性能が大幅に低下することが示された。
- 補助線作図の理解・能力の向上が,幾何学的な推論能力全体を向上させる上で不可欠であることが明らかになった。
AVEX:動物の音声符号化において重要な要素 [cs.SD, cs.AI, cs.IR, cs.LG]目的:動物の音声符号化のための汎用エンコーダの開発
- 生物音響学は,保全,生物多様性のモニタリング,行動研究に不可欠な分野である。
- 既存のエンコーダは,対象種が限定的,モデル構造が単一,評価タスクが少ないという課題がある。
- 多様なデータとモデル構造を用いて,汎用性の高い音声符号化エンコーダを構築することを目指す。
- 自己教師あり事前学習と,生物音響データと汎用音声データの混合による教師あり事後学習が,最も優れた性能を示すことが判明した。
- データの多様性が,事前学習と事後学習の両段階で重要であることが示された。
- 26のデータセットにおいて,種分類,検出,個体識別,音声レパートリーの発見などのタスクで最先端の結果を達成した。
高次元多重スケール問題に対する周波数適応テンソルニューラルネットワーク [cs.LG, math-ph, math.MP]目的:高次元多重スケール問題に対するテンソルニューラルネットワークの性能向上
- 高次元問題の解決は,科学技術計算において重要であり,様々な分野への応用が期待される。
- 従来のニューラルネットワークと同様に,テンソルニューラルネットワークは高周波特徴の捕捉に課題があった。
- テンソルニューラルネットワークの高周波特徴表現能力を向上させ,複雑な多重スケール問題への適用を目指す。
- フーリエ分析によりテンソルニューラルネットワークの学習ダイナミクスを解析し,ランダムフーリエ特徴を取り入れた。
- テンソル構造を活用し,一次元成分関数に対する離散フーリエ変換により高次元関数の周波数特徴を抽出した。
- 周波数適応テンソルニューラルネットワークアルゴリズムを提案し,数値実験で有効性とロバスト性を検証した。
MD-PNOP:最小データ外挿と偏微分方程式ソルバー加速のための方程式再構成ニューラル演算子 [cs.LG]目的:偏微分方程式ソルバーの加速と最小データ外挿
- 大規模なパラメータスタディや設計最適化において,計算コストが大きな課題となっている。
- ニューラル演算子は外挿能力に限界があり,未知のパラメータ設定への適用が困難である。
- 事前学習済みのニューラル演算子を活用し,方程式を再構成することで外挿問題を解決する。
- 本研究で提案するMD-PNOPは,物理法則を厳密に守りつつ,パラメータ依存性のある偏微分方程式ソルバーを加速する。
- ニューラル演算子の予測を反復ソルバーの初期推測に組み込むことで,収束イテレーション数を削減し,精度を維持する。
- 単一のパラメータセットで学習したニューラル演算子を用いて,様々なパラメータ分布を持つ問題に対して,計算時間を約50%削減することを示した。
拡散モデルによる因果時系列生成 [cs.LG]目的:因果時系列生成タスクファミリー
- 時系列データは社会や自然現象の理解に不可欠であり,予測や意思決定に利用される。
- 既存の時系列生成モデルは,観察された相関関係のみを学習し,潜在的な交絡因子を考慮していない。
- 介入や反事実推論を可能にする,より信頼性の高い時系列シミュレーションを実現すること。
- CaTSGは,バックドア調整によるガイダンスにより,観察データの忠実性を保ちつつ,介入や反事実への生成を可能にする。
- CaTSGは,合成データセットと実データセットの両方で,既存手法よりも優れた生成性能を示す。
- 本研究は,因果時系列生成の概念を提示し,介入・反事実生成の新たな方向性を示すものである。
視覚的思考の混合:汎用的な視覚推論のための文脈適応型推論モード選択の探求 [cs.AI, cs.CV]目的:汎用的な視覚推論モデル構築のための文脈適応型推論モード選択
- 視覚推論は,画像や映像から意味を理解し,高度な知能を実現する上で重要である。
- 既存手法は特定の推論モードに偏りがちで,汎用性に欠ける点が課題である。
- 文脈に応じて最適な推論モードを選択することで,汎用的な視覚推論を実現することを目指す。
- 提案手法MoVTは,複数の推論モードを統合し,文脈に応じて適切なモードを選択する。
- AdaVaRという学習フレームワークにより,推論モードの識別と選択能力を効果的に獲得する。
- 多様なシナリオにおいて一貫した性能向上を示し,汎用的な視覚推論モデルとして有効性を示す。
欺瞞,検知,そして暴露:大規模言語モデルによるミニマフィア [cs.AI]目的:大規模言語モデルの社会的知性を評価するためのベンチマーク
- 多主体環境における言語モデルの応用が増加しており,その社会的相互作用能力の評価が重要である。
- 既存研究は経験的なものが多く,相互作用が集合的な結果にどう影響するかという理論的理解が不足している。
- ミニマフィアというゲームを通して,言語モデルの欺瞞,検知,暴露能力を定量的に評価し,分析的枠組みを提供する。
- ミニマフィアのゲーム結果は,マフィアの欺瞞力,探偵の暴露力,村人の検知力を反映した数式によって予測可能であることが示された。
- ミニマフィアベンチマークは,わずかなパラメータ数でモデル間の対戦結果を予測でき,5分割交差検証で高いBrierスコア減少率を達成した。
- Grok 3 Miniは最強の探偵,GPT-5 Miniは最強の暴露者であり,DeepSeek V3.1やClaudeシリーズを上回る結果となった。
Kairos:適応性とパラメータ効率に優れた時系列基礎モデルへ [cs.LG]目的:時系列基礎モデルにおけるゼロショット汎化性能の向上
- 時系列データは,金融,気象,医療など幅広い分野で重要であり,その分析は不可欠である。
- 従来の時系列基礎モデルは,パラメータ数を増やすことで多様な時間的パターンに対応してきたが,非効率である。
- Kairosは,動的なトークン化と位置エンコーディングにより,モデルのパラメータ数を抑えつつ,時間的異質性に適応することを目指す。
- Kairosは,動的なパッチングトークナイザーとサイズ混合エンコーディングを導入し,観測粒度を局所的な情報密度に適応させる。
- 動的なロータリーエンコーディングに基づく多粒度位置埋め込みにより,多様な時間的依存関係をロバストにモデル化する。
- Predictability-Stratified Time-Series (PreSTS) コーパスで学習した結果,GIFT-EvalとTime-Series-Libraryで優れたゼロショット性能とパラメータ効率を示した。
エージェント的評価:大規模言語モデルの自律的・進化型安全性評価に向けて [cs.AI]目的:大規模言語モデルの安全性およびコンプライアンス評価に関する研究
- 大規模言語モデルの社会実装が進む中で,安全性確保は重要な課題となっている。
- 既存の静的な評価基準は,変化するリスクや規制に対応できず,安全性のギャップが生じている。
- 本研究は,継続的かつ自己進化する評価パラダイムを確立し,潜在的な脆弱性を発見することを目指す。
- 提案手法AgenticEvalは,非構造化ポリシー文書を自律的に解析し,包括的な安全基準を生成・進化させる。
- 実験の結果,AgenticEvalによる評価が厳格化されるにつれて,モデルの安全性は低下することが示された。
- 例えば,GPT-5のEU AI Act適合率は,繰り返し評価によって72.50%から36.36%に低下した。
KVキャッシュ圧縮の落とし穴 [cs.LG, cs.AI]目的:KVキャッシュ圧縮における問題点の特定と改善策の提案
- 大規模言語モデル(LLM)の効率的な運用には,メモリ使用量の削減が不可欠である。
- KVキャッシュ圧縮は性能劣化を引き起こす可能性があり,その影響は十分に評価されていない。
- マルチインストラクションプロンプティング環境下での圧縮による性能低下要因を解明し,改善策を提示する。
- 特定の指示が圧縮によって大きく劣化し,LLMに無視される現象を確認した。
- システムプロンプトの漏洩が圧縮の影響を受けやすく,指示追従能力に悪影響を及ぼすことを実証した。
- KVキャッシュの削除ポリシーを変更することで,システムプロンプト漏洩を軽減し,マルチインストラクションタスクの性能を向上させることが可能である。
LEAP:グラフの局所ECTに基づく学習可能な位置エンコーディング [cs.LG]目的:グラフ構造の表現学習における新たな位置エンコーディング手法
- グラフニューラルネットワークは,様々なデータ構造の分析に不可欠であり,その性能向上は重要である。
- 標準的なメッセージパッシングニューラルネットワークには,理論的・実用的な限界が存在する。
- グラフのトポロジー特徴を効果的に捉え,表現力を高める位置エンコーディングを開発する。
- LEAPは,効率的に計算可能な幾何学的・トポロジー不変量であるECTと,その局所変種である$\ell$-ECTを組み合わせている。
- 実世界のデータセットと,トポロジー特徴の抽出能力をテストする合成タスクにおいて,その有効性が確認された。
- LEAPに基づくエンコーディングは,グラフ表現学習パイプラインの強力な要素となりうる可能性を示唆している。
2人いれば十分:あなたのGRPOは密かにDPOである [cs.LG, cs.CL]目的:LLMのポストトレーニングにおける強化学習アルゴリズムGRPOの有効性の根源
- LLMの性能向上には,効率的な強化学習手法が不可欠である。
- GRPOは大規模なグループサイズを必要とすると考えられており,計算コストが高い。
- GRPOの効率性と性能を向上させるための新しい視点と手法を提供する。
- GRPOの有効性は,暗黙的なコントラスト学習目標に由来することが示された。
- 2-GRPOは,わずか2回のロールアウトでGRPOの性能の97.6%を維持する。
- ロールアウト回数と学習時間を大幅に削減し,効率的な学習を実現する。
最終回答を超えて:ツール拡張エージェントの推論軌跡の評価 [cs.CL, cs.AI, cs.CL]目的:ツール拡張LLMの推論軌跡の多角的評価
- 複雑なタスク解決において,LLMをツールと組み合わせる研究が重要視されている。
- 既存の評価方法は最終回答の一致に偏り,推論過程の効率性や正確性が評価されていない。
- 正解の推論軌跡の注釈コストが高い問題を解決し,より包括的な評価手法を提供する。
- TRACEは,過去のステップから知識を蓄積するエビデンスバンクを利用し,正解に依存しない多次元評価を可能にする。
- 新しく開発したデータセットを用いて評価した結果,TRACEは小規模なLLMでも複雑な軌跡を正確に評価できることが確認された。
- ツール拡張タスクにおけるエージェントの軌跡を評価することで,これまで明らかにされていなかった知見が得られた。
ContextFlow: 空間オミクスデータからの軌跡推論のための文脈を考慮したフローマッチング [cs.LG]目的:空間オミクスデータからの構造および機能的な組織変化のダイナミクス理解
- 発生,再生,疾患進行,治療反応など,組織の変化を理解する上で不可欠な研究分野である。
- 従来の軌跡推論手法では,生物学的な文脈が十分に考慮されておらず,精度が課題であった。
- 組織構造やリガンド受容体間のコミュニケーションを考慮し,生物学的に意味のある軌跡推論を実現する。
- ContextFlowは,空間オミクスデータから構造的な組織ダイナミクスを推論する新しいフレームワークである。
- ContextFlowは,既存のフローマッチング法と比較して,精度と生物学的整合性において優れた性能を示した。
- 組織構造やリガンド受容体間の情報を取り込むことで,統計的に一貫性があり,生物学的に意味のある軌跡を生成する。
TiTok:コントラスト過剰を利用したトークンレベル知識の転移によるLoRAの移植 [cs.CL, cs.AI]目的:LoRAの移植を通じた効果的なトークンレベル知識転移
- 大規模言語モデルの活用が広がる中で,計算コストとストレージコストが課題となっている。
- LoRAなどのPEFT手法では,モデル固有のパラメータに依存するため,異なる基盤モデルへの転移が困難である。
- トークンレベルのコントラスト過剰により,基盤モデルを問わずLoRAを移植し,知識転移を可能にすること。
- TiTokは,ソースモデルにおけるLoRAの有無間のトークンごとのコントラスト過剰を捉えることで,タスクに関連する情報を抽出する。
- この過剰な情報は,情報量の多いトークンを強調し,追加モデルやオーバーヘッドなしで合成データの選択的フィルタリングを可能にする。
- 3つのベンチマークにおける実験により,TiTokがベースラインと比較して平均+4〜10%の性能向上を達成することが示された。
基礎モデル蒸留と動的ルーティングによるロボット学習のためのVision Expert Transformer [cs.RO, cs.AI, cs.LG]目的:ロボット学習における視覚表現の汎化性能向上
- ロボットの自律性向上には,環境を正確に認識する視覚能力が不可欠である。
- 既存の事前学習済み視覚モデルは特定のドメインに特化し,多様なタスクへの適応が困難である。
- 複数のモデルを統合し,タスクに応じて柔軟に特徴を選択する手法が求められている。
- VERは,複数の視覚モデルを蒸留したExpertライブラリと,動的にExpertを選択する軽量なルーティングネットワークで構成される。
- ルーティングネットワークは,全体のパラメータの0.4%以下で,タスクに応じたExpert選択を可能にする。
- 17のロボットタスクで最先端の性能を達成し,タスク関連領域への集中と無関係領域のノイズ低減を確認した。
非定常環境における代理損失を用いたオンライン構造予測 [cs.CL, cs.LG]目的:非定常環境下でのオンライン構造予測における累積目標損失の上界
- 機械学習における予測精度向上は,様々な応用分野において重要な課題である。
- 従来のオンライン構造予測では,定常環境を仮定しており,非定常環境下では性能が劣化する問題がある。
- 本研究は,非定常環境下でも有効なオンライン構造予測手法を開発し,目標損失の上界を導出する。
- 提案手法は,累積代理損失と経路長を用いて累積目標損失の上界を導き出すことに成功した。
- この上界は,$T$(時間軸)への依存性を低減し,非定常環境下でのより堅牢な保証を提供する。
- また,Polyak型学習率の有効性を理論的に示し,実験的にもその有用性を確認した。
TRIM:データ効率的な指示チューニングのためのトークン単位の注意由来の重要度 [cs.CL, cs.LG]目的:指示チューニング用データセットの質の向上
- 大規模言語モデルの性能は,指示チューニングの質に大きく左右されるため,効率的なチューニング手法が求められている。
- 大規模なデータセットが一般的だが,質の高い小規模データセットのキュレーションが困難である。
- 注意機構を利用し,計算コストを抑えつつ,高品質な指示チューニングデータセットを効率的に構築する。
- TRIMは,従来の勾配ベースの手法と比較して,計算効率が格段に向上する。
- TRIMによって選択されたコアセットは,最先端の手法を最大9%上回り,フルデータでのファインチューニングを凌駕する性能を示す場合もある。
- TRIMは,スケーラブルかつ効率的な指示チューニングデータセット構築手法として確立された。
時空間交通予測のためのVision-LLM [cs.LG]目的:都市部のモバイルネットワークにおける効率的なリソース管理
- 都市部のモバイルネットワークでは,交通量の正確な予測が不可欠であり,効率的なリソース管理に繋がる。
- 従来の交通予測モデルは,空間的な依存関係を十分に捉えきれず,予測精度が課題となっていた。
- 大規模言語モデルの限界を克服し,空間情報を効果的に活用することで,高精度な交通予測を実現すること。
- 本研究では,時空間予測をビジョンと言語の融合問題として捉え,Vision-LLMを用いることで,過去の交通状況を画像としてモデルに提供する。
- 浮動小数点数値を効率的に処理するため,専用の語彙を用いたトークン化スキームと,二段階の数値アラインメントファインチューニングを導入した。
- 実世界のモバイルトラフィックデータを用いた評価により,ST-Vision-LLMは既存手法を大幅に上回り,特にデータが少ない環境での汎化性能が高いことが示された。
