arXiv雑要約
AI - 2026/03/19 公開
ネットワーク攻撃の分類における機械学習と,ネットワーク攻撃分類のための機械学習の統計的評価,および合成データ生成のための敵対的学習手法 [cs.CR, cs.AI, stat.AP, stat.ML]目的:ネットワーク攻撃の分類と,合成データ生成の評価
- ネットワークセキュリティは,個人情報保護において不可欠である。巧妙化する攻撃に対抗するため,AI技術の活用が重要である。
- 既存のデータセットは,特徴空間が統一されておらず,多様な攻撃に対応したモデル構築が困難である。
- 様々なデータセットを統合し,安定した機械学習モデルと高精度な合成データ生成手法を開発すること。
- 複数のデータセットを統合した統一的なデータセットを用いて機械学習モデルを構築し,ネットワーク攻撃の分類精度を検証した。
- 敵対的学習によって合成データを生成し,SDVフレームワークや統計的検定を用いて,実データとの比較評価を行った。
- 合成データは高い忠実度と有用性を示し,プライバシー保護の観点からも有効であることが確認された。
成人女性におけるLong COVID軌跡予測:因果関係の解明の重要性 [cs.RO, cs.LG, cs.CY]目的:成人女性におけるLong COVIDの軌跡予測
- 女性の健康において,Long COVIDの早期予測は喫緊の課題である。
- Long COVIDと更年期などのホルモン変化による症状の重複が診断を困難にしている。
- 交絡因子の特定と考慮による,正確な長期予測の実現。
- 本研究では,NIH RECOVERデータセットを用いて,臨床プロファイルとウェアラブルデータから因果ネットワークを構築した。
- その結果,PASC重症度予測において86.7%の精度を達成した。
- 因果分析により,病理と基線ノイズを区別し,交絡因子を抑制することを示した。
SARE:サンプルごとの適応的推論によるトレーニングフリーな微細粒度視覚認識 [cs.CV, cs.AI]目的:トレーニングフリーな微細粒度視覚認識のためのサンプルごとの適応的推論フレームワーク
- 画像と言語を結びつける大規模モデルの発展は,微細粒度視覚認識の可能性を広げている。
- 下位レベルのカテゴリにおける視覚的な曖昧さが,効果的な活用を妨げる要因となっている。
- サンプルごとの難易度に応じた推論と過去の失敗事例の活用により,認識精度と効率を向上させる。
- SAREは,迅速な候補検索と微細粒度推論を組み合わせたカスケード設計を採用している。
- 推論過程において,過去の失敗から得られた知見を活用し,転移可能な識別的ガイダンスを提供する。
- 14のデータセットを用いた実験により,SAREが最先端の性能を達成し,計算コストを大幅に削減することが示された。
表形式モデルへの世界知識の埋め込み:埋め込みパイプライン設計におけるベストプラクティスの探求 [cs.LG]目的:表形式予測のためのLLMベースの埋め込みパイプライン設計に関する有効性の評価
- 機械学習モデルへの知識注入は,性能向上に不可欠であり,LLMはその有力な手段となる。
- 表形式データに対するLLM埋め込みパイプラインの設計方法論は確立されておらず,最適な構成が不明である。
- 効果的な埋め込みパイプライン設計の指針を提供し,表形式予測の性能向上を目指す。
- 埋め込みの利用は,パイプライン設計に強く依存し,必ずしも予測性能の向上に繋がるとは限らない。
- 元の列を埋め込みで置換するよりも,埋め込みを連結する方が一般的に良好な結果を示す。
- 大規模な埋め込みモデルはより良い結果をもたらす傾向があるが,リーダーボードランキングやモデルの人気度は性能指標として信頼できない。
無限に長いニューラルシミュレーションへ: 動的システムの自己改善型ニューラルサロゲートモデル [cs.LG]目的:動的システムの長期シミュレーションにおける精度と一貫性の両立
- 動的システムは科学技術の様々な分野で不可欠であり,高精度なシミュレーションが求められている。
- 自己回帰型ニューラルサロゲートモデルは高速化に貢献するが,長時間のシミュレーションで誤差が蓄積しやすい。
- 誤差の蓄積を抑制し,長期間にわたるシミュレーションの信頼性を高めることを目指す。
- 本研究では,短期精度と長期一貫性の間のトレードオフを数学的に明確化するフレームワークを提案した。
- 条件付き拡散モデルに基づく自己改善型ニューラルサロゲートモデル(SNS)を開発し,パラメータ調整なしで精度と一貫性を両立した。
- SNSは,単独モデルまたは既存のサロゲートモデルへの追加として,複雑な動的システムの長期シミュレーションを可能にした。
有害かユーモアか:露骨および隠蔽的な有害なユーモアの多言語マルチモーダルベンチマーク [cs.CL, cs.AI]目的:有害および攻撃的なユーモアの検出と理解のためのベンチマーク
- ダークユーモアは文化的なニュアンスに依存し,安全性の評価が困難である。
- 既存のベンチマークは文脈を捉えきれず,有害なユーモアの検出に課題がある。
- 文化的な背景と推論能力を考慮した安全性の評価手法を確立する。
- 本研究では,英語とアラビア語のテキスト,画像,動画からなる新しいベンチマークデータセットを構築した。
- クローズドソースモデルがオープンソースモデルよりも有意に高い性能を示した。
- 英語とアラビア語で性能差が見られ,文化的な背景を考慮した安全性の調整の重要性が示唆された。
シャッフルを用いた重なり合った音声のモデル化 [cs.RO, cs.SD, cs.CL, cs.LG]目的:重なり合った音声の整列と話者帰属による転写
- 音声認識の精度向上には,実際の環境下での複雑な音声信号の扱いが不可欠である。
- 複数の話者が同時に発話する重なり合った音声の処理は,依然として困難な課題である。
- 重なり合った音声の効率的かつ正確な整列と話者帰属を可能にするアルゴリズムの開発。
- シャッフル積と部分順序有限状態オートマトン(FSA)を用いた重なり合った音声の整列と話者帰属転写が可能となった。
- FSA上の総スコアを損失関数として学習することで,サブワード,単語,句レベルでの重なり合ったシーケンスの全ての直列化を考慮した。
- 部分順序FSAを構築することでグラフサイズを削減し,一回のパスによる整列を実現するアルゴリズムを提案した。
アテンション・シンクが勾配のシンクを誘発する [cs.LG, cs.AI]目的:Transformerモデルにおけるアテンション・シンクと巨大な活性化の関連性解明
- Transformerは自然言語処理の基盤技術であり,高性能なモデル開発が不可欠である。
- アテンション・シンクや巨大な活性化はTransformerの学習を阻害する要因となりうる。
- 学習時の勾配の流れを解析し,アテンション・シンクと巨大な活性化のメカニズムを解明する。
- 因果マスク下において,アテンション・シンクが顕著な勾配集中,すなわち勾配のシンクを誘発することが示された。
- RMSNormを用いた事前正規化アーキテクチャでは,巨大な活性化が学習中の局所的な勾配圧力に対する適応的な応答として理解できることが示唆された。
- V-scaleを導入した事前学習モデルでは,アテンション・シンクは維持されつつ,巨大な活性化は抑制された。
CoVerRL:ラベルなし推論における合意の罠の打破 - 生成器と検証器の共進化による [cs.CY, cs.HC, cs.CL, cs.AI, cs.LG]目的:ラベルなし強化学習による大規模言語モデルの推論能力向上
- 大規模言語モデルの推論能力は重要であり,その向上は様々な応用を可能とする。
- 従来のラベルなし強化学習では,自己整合性を高める過程で出力の多様性が失われやすい。
- 生成器と検証器の共進化により,自己整合的な誤りを抑制し,多様性を維持することを目指す。
- CoVerRLは,QwenおよびLlamaモデルにおいて,既存のラベルなし基盤モデルを4.7~5.9%上回る性能を示した。
- 自己検証の精度は55%から85%以上に向上し,生成器と検証器の能力が共進化していることが確認された。
- 本手法は,多数決によるノイズの多い教師信号と,改善された検証器による誤りフィルタリングを組み合わせることで,好循環を実現する。
ファクトを一次オブジェクトとして:永続的なLLMメモリのための知識オブジェクト [eess.SY, cs.SY, cs.AI]目的:大規模言語モデルにおける持続的な知識保持戦略の評価
- LLMの知識労働者としての活用が進む中で,長期的な知識保持方法が重要である。
- プロンプト内の文脈記憶は限界があり,大規模な知識を保持・利用できない問題がある。
- 知識オブジェクトを用いることで,より効率的かつ正確な知識保持を実現する。
- 知識オブジェクトは,文脈記憶と比較して,252倍低いコストで100%の精度を達成した。
- 多段階推論において,知識オブジェクトは31.6%から78.9%へと大幅に性能が向上した。
- プロンプトの圧縮による情報の損失は,モデルに依存しないアーキテクチャ上の問題であることが確認された。
ResNet-50,クラス重み付け,および解剖学的誘導型時間的デコーディングによる消化管ビデオ分析 [cs.CV, cs.LG]目的:消化管ビデオ分析パイプライン
- 消化管内視鏡検査は,消化器疾患の診断において重要な役割を担う。
- 消化管ビデオにおける病変の検出は,稀な病態のラベル不足が課題である。
- 稀な病態の検出精度向上と,時間的なイベントの整合性改善を目的とする。
- クラス重み付けにより,稀な病態の学習性能が向上した。
- 解剖学的誘導型時間的デコーディングにより,最終的なmAPが0.3801から0.4303へと改善した。
- GTスタイルイベント合成,解剖学的投票平滑化,および解剖学的ゲート処理の組み合わせが有効であった。
制御された記憶:マルチエージェントワークフローのための生成アーキテクチャ [cs.AI, cs.CL, cs.MA]目的:マルチエージェントワークフローにおけるメモリ管理の構造的課題解決
- 企業AIの普及に伴い,複数の自律エージェントが連携するワークフローが不可欠となっている。
- エージェント間には共有メモリや共通のガバナンスが存在せず,データのサイロ化や品質低下が課題である。
- 共有メモリとガバナンス層を導入し,エージェント間の連携とデータ品質の向上を目指す。
- Governed Memoryは,アトミックファクトと型付きプロパティを組み合わせた二重メモリモデルを採用し,99.6%の事実再現率を達成した。
- 階層化されたガバナンスルーティングにより,コンテキスト配信の効率化を実現し,92%のルーティング精度を確立した。
- LoCoMoベンチマークでは,ガバナンスとスキーマ強制が検索品質に影響を与えないことを確認し,74.8%の全体精度を達成した。
RangeAD:高速なモデル内異常検知 [cs.LG, cs.AI]目的:異常検知の効率化
- 機械学習モデルの信頼性確保には,異常な入力や分布の変化を検知することが不可欠である。
- 既存手法は,異常検知のために別のモデルを用意する必要があり,計算コストが高いという課題がある。
- 主モデルが持つ分布に関する情報を活用し,効率的な異常検知を実現する。
- 提案手法RangeADは,主モデルのニューロン出力範囲を利用することで,高性能な異常検知を可能にする。
- 特に高次元タスクにおいて,従来手法を上回る性能を示す。
- 推論コストが大幅に削減され,実用的な異常検知フレームワークとしての可能性を示唆する。
実行可能なロボット行動のための逆ダイナミクス報酬によるビデオ世界モデルの整合 [cs.AR, eess.SY, cs.SY, cs.PF, cs.HC, cs.RO, cs.AI]目的:ビデオ世界モデルと実行可能なロボット行動との整合性向上
- ロボティクスにおける世界モデルの重要性が高まっており,視覚情報に基づく行動計画が求められている。
- 現在のビデオ世界モデルは,物理的な実行可能性の制約が不足しており,不安定な制御指令を生成する可能性がある。
- 視覚的な生成と物理的に実行可能な制御との間の乖離(実行可能性ギャップ)を埋めることを目指す。
- 提案手法EVAは,ビデオ生成モデルと逆ダイナミクスモデルを整合させ,より現実的な行動を生成する。
- EVAは,速度,加速度,ジャークを考慮した滑らかな運動を促し,ロボットの制約を違反する行動を抑制する報酬モデルを用いる。
- RoboTwinベンチマークおよび実機ロボット実験で,生成されたロールアウトのアーティファクトを低減し,タスク実行の成功率を向上させることを示した。
大規模ビジョン言語モデルに対する量子化認識統合勾配を用いた微細粒度ポストトレーニング量子化 [cs.CV, cs.AI]目的:大規模ビジョン言語モデルの量子化戦略
- マルチモーダルなタスクにおいて高性能を示す一方,計算・メモリコストが大きい。
- 既存手法では,トークン間の複雑な相互作用を捉えきれない。
- トークンレベルでの量子化誤差を定量的に評価し,精度低下を抑制する。
- 提案手法は,W4A8およびW3A16設定下で複数の大規模ビジョン言語モデルにおいて精度を向上させる。
- 例えば,3ビットの重みのみの量子化において,LLaVA-onevision-7Bの平均精度を1.60%改善した。
- フル精度モデルとの精度差を1.33%に縮小し,実用的なデプロイメントに貢献する。
Transformerモデルにおけるドロップアウト堅牢性と認知プロファイリング:確率的推論による分析 [cs.LG, cs.AI]目的:Transformerモデルのドロップアウトに対する堅牢性と,認知的な特性の分析
- Transformerモデルは推論タスクで広く利用されており,その信頼性評価は重要である。
- 推論時の確率的要素(ドロップアウト)がモデルの挙動に与える影響は十分に解明されていない。
- モデルのアーキテクチャごとのドロップアウトの堅牢性を評価し,認知的な特性を分析することで,不確実性を考慮した応用におけるモデル選択の指針を提供する。
- モデルのサイズによってドロップアウトに対する堅牢性が異なり,比較的小さいモデルでは安定した予測が可能であった。
- 中規模モデルは全体的な性能が高いが,大規模モデルは記憶タスクに優れていることが示された。
- 多くのモデル(53%)において,基本的なMC Dropoutによって精度が低下し,特にタスク特化型モデルで顕著であった。
ChopGrad:潜在ビデオ拡散におけるピクセルごとの損失のための切り捨て逆伝播 [cs.CV, cs.AI, cs.LG]目的:潜在ビデオ拡散の効率的なファインチューニング手法
- ビデオ生成モデルの高品質化が求められる一方で,計算コストが課題となっている。
- ピクセル領域での学習は,アクティベーションの蓄積によりメモリ消費量が膨大になる。
- 長尺または高解像度ビデオに対するピクセルごとの損失を用いたファインチューニングの実現。
- ChopGradは,勾配計算を局所的なフレームウィンドウに制限することでメモリ消費量を削減する。
- 理論的分析により,この近似が有効であることが示され,フレームごとの損失を用いた効率的なファインチューニングが可能となる。
- ビデオ超解像,インペインティング,ニューラルレンダリングシーンの品質向上,制御された運転ビデオ生成など,様々なタスクで良好な結果が得られた。
分布型強化学習における分散型学習と分布型批判器の正則化 [cs.CL, cs.LG]目的:分散型強化学習における分布型批判器の正則化手法の開発
- 強化学習は,複雑な問題解決に有効だが,データ収集の効率化が課題である。
- 従来の分散型強化学習は期待リターンに偏り,安全性評価で重要な分布の多峰性や裾を無視する。
- 分布情報を保持し,安全性と性能を向上させる分散型学習手法を提案する。
- 提案手法TR-FedDistRLは,クライアントごとのリスクを考慮したWasserstein中心を構築する。
- この中心を参考にパラメータ平均化された批判器を制約することで,分布情報の消失を防ぐ。
- 実験結果から,平均化の偏りが減少し,安全性指標が改善されることが示された。
大規模言語モデルにおける分離された機能モジュールの発見 [cs.LG, cs.CL]目的:大規模言語モデルにおける機能モジュールの発見
- 大規模言語モデルの信頼性と性能向上には,内部の機能構造の理解が不可欠である。
- 大規模言語モデルが機能をどのようにモジュール化しているかについては,未だ解明されていない点が多い。
- 本研究は,大規模言語モデル内の機能モジュールを自動的に発見し,解釈可能性を高めることを目指す。
- 提案手法ULCMODは,大規模言語モデルのニューロンを意味のあるモジュールに効率的に分解できることを示した。
- 発見されたモジュールは,明確な意味的 coherence を持ち,解釈可能な専門性を反映していることが確認された。
- 本研究は,大規模言語モデルの解釈可能性研究における重要な空白を埋める新たなツールを提供する。
テンセグリティー力学の対称性低減物理情報学習 [cs.LG]目的:テンセグリティー力学の予測
- 構造物の動的挙動解析において,対称性は重要な役割を果たす。
- 既存の物理情報ニューラルネットワークは対称性を活用せず,計算負荷が高い。
- 対称性を考慮した学習モデルにより,効率的な力学予測を目指す。
- 提案手法SymPINNは,群論に基づいた対称性をネットワークに組み込んだ。
- 対称性に基づく座標表現と制約により,計算効率と予測精度が向上した。
- Tバーやランダー構造の実験で,標準モデルより優位性が示された。
FailureMem:故障を意識した自律ソフトウェア修理のためのマルチモーダルフレームワーク [cs.SE, cs.AI]目的:自律ソフトウェア修理のためのマルチモーダルフレームワーク
- ソフトウェアの信頼性向上は不可欠であり,自動化された修理技術の発展が求められている。
- 既存の修理システムは,柔軟な探索や局所的な視覚的根拠付けが不十分である。
- 過去の失敗事例を再利用し,修理の成功率を向上させることを目指す。
- FailureMemは,構造化された局所化と柔軟な推論を両立させるハイブリッドなワークフロー・エージェントアーキテクチャを統合する。
- 領域レベルの視覚的根拠付けを可能にするアクティブパーセプションツールを導入する。
- 過去の修理試行を再利用可能なガイダンスに変換するFailure Memory Bankを構築し,SWE-bench MultimodalにおいてGUIRepairよりも3.7%高い解決率を達成した。
CodeScout:コード検索エージェントの強化学習のための効果的なレシピ [cs.SE, cs.AI, cs.CL]目的:コード検索における強化学習のための効果的なレシピ
- 大規模なコードリポジトリを扱うエージェント開発において,関連コードの特定は不可欠である。
- 既存手法は複雑なツールに依存し,汎用的な環境での学習が困難である。
- 標準的なUnix端末のみで強化学習を行い,高性能なコード検索エージェントを実現する。
- CodeScoutは,SWE-Benchの各ベンチマークで,大規模なLLMや商用モデルに匹敵する性能を示す。
- 従来の環境を再利用する手法,報酬設計,RL最適化が,高い性能に貢献している。
- CodeScoutのモデル,コード,データは公開されており,コミュニティでの発展に貢献する。
RPMS:ルール拡張メモリ相乗効果によるLLMベースの具現化プランニングの強化 [cs.AI]目的:LLMベースの具現化プランニングにおける性能向上
- AIエージェントの自律的な問題解決能力向上は,ロボティクスや自動化の発展に不可欠である。
- LLMエージェントは,厳密な事前条件の存在や希薄なフィードバックにより,閉じた環境でのプランニングが困難である。
- ルールとメモリを活用し,実行可能な行動選択と状態維持の安定化を図る。
- RPMSは,ルールに基づいた行動検証とメモリの適用制御により,LLMエージェントの性能を大幅に向上させる。
- ALFWorldにおいて,Llama 3.1 8Bで23.9%,Claude Sonnet 4.5で11.9%の成功率向上を達成した。
- 特にルール検索による性能向上は顕著であり,8Bモデルでの改善の主要因となっている。
長編物語からの舞台設定:空間配置の生成 [cs.CL, cs.AI, cs.LG]目的:長編物語から舞台劇のレイアウトの推論
- 映像制作等において,物語の内容を視覚的に表現する重要性が高まっている。
- 物語テキストからは空間情報が明示的に得られず,舞台設定の自動化が課題である。
- 物語から舞台の配置,登場人物の位置,動きを推論する手法を開発する。
- 言語モデルによる空間推論能力を検証し,従来のモデルよりもキャラクターの属性,空間の妥当性,動きの経済性で改善が見られた。
- Best-of-NサンプリングとGRPOによる強化学習を組み合わせた学習レシピが有効であることが示された。
- LLMによる評価や主観的な人間評価との整合性も確認された。
生成制御:最適化としての制御,適応的かつ堅牢なロボット制御のための時間非依存フローマッチング [cs.RO, cs.AI]目的:ロボット制御における適応性と堅牢性の向上
- ロボットの模倣学習において,拡散モデルやフローマッチングは重要な役割を担っている。
- 従来のフローマッチングは,状態の複雑さに応じて計算資源を調整できず,非効率な点が存在する。
- 状態の複雑さに応じた計算資源の割り当てによる,効率的かつ安全なロボット制御を実現する。
- GeCOは,行動合成を軌跡積分から反復最適化へと変換する時間非依存フレームワークである。
- GeCOは,専門家の行動が安定した引数となる行動系列空間内の静止速度場を学習する。
- 最適化された行動における場ノルムは,分布外検出器として機能し,安全な展開を可能にする。
動力系統シミュレーションにおける物理情報を取り入れた代替コンポーネントモデルの検証と妥当性確認 [eess.SY, cs.LG, cs.SY]目的:動力系統シミュレーションの加速化に資する物理情報を取り入れた代替コンポーネントモデルの検証と妥当性確認
- 電力系統の規模拡大と複雑化により,シミュレーションの高速化が不可欠であるため。
- 代替モデルの単体テストでの精度はあっても,他のコンポーネントとの連立計算で精度が低下する可能性がある。
- シミュレータ内での代替モデルの精度を保証する検証と妥当性確認の枠組みを確立すること。
- 代替モデルの単体での精度だけでは,シミュレータ内での正確な動作は保証されないことが示された。
- 大きな誤差は,特に負荷の高い運転領域に集中することが確認された。
- 小さな方程式の残差が,必ずしも小さな状態軌道の誤差を意味するわけではないことが明らかになった。
LLMにおける言語的確信度の算出方法 [cs.CL, cs.CL, cs.AI, cs.LG]目的:言語モデルにおける言語的確信度の算出メカニズムの解明
- 大規模言語モデルの信頼性評価は,その応用において不可欠であり,より安全なAI開発に繋がる。
- 言語モデルが生成する確信度スコアが,どのように算出されているのか不明確な点が課題である。
- 言語モデルが確信度をどのように自動評価しているかを明らかにすることで,モデルのキャリブレーション改善に貢献する。
- Gemma 3 27BおよびQwen 2.5 7Bを用いた実験から,確信度はキャッシュされた情報を再利用して算出されることが示唆された。
- 確信度表現は,回答生成時の隣接位置で生成され,キャッシュされた後,出力時に取り出されることが明らかになった。
- 確信度表現は,単なるトークン対数確率だけでなく,回答の質に関するより高度な評価を反映していることが示された。
地震・火山信号解釈のための物理に基づいた機械学習 [eess.SY, cs.SY, math.DS, cs.RO, cs.RO, cs.LG]目的:地震・火山信号分析における機械学習手法の現状と課題
- 防災・減災のため,地震・火山活動の正確な監視が不可欠である。
- 従来の解析手法では,ノイズや非定常な信号からの情報抽出が困難である。
- 機械学習の汎化性能を高め,信頼性の高い火山・地震監視を実現する。
- 機械学習は,地震・火山信号の検出,位相識別,分類,ノイズ除去,異常追跡に活用されている。
- モデルの信頼性は,ドメインシフトや不確実性の評価が重要であり,物理的な制約との整合性が求められる。
- 自己教師あり学習や生成モデリングは,ラベル依存性を低減し,転移学習を促進する。
機械学習におけるアルゴリズム発見タスクのプロシージャル生成 [cs.LG, cs.AI]目的:機械学習のアルゴリズム発見タスクのプロシージャル生成
- 機械学習の発展には,新たなアルゴリズムの自動生成が不可欠である。その評価手法が課題となっていた。
- 既存のタスクスイートは,評価方法の不備,データ汚染,類似問題の多さといった問題を抱えていた。
- 多様かつ複雑なタスクを生成し,アルゴリズム発見エージェントの評価と改善を可能にすること。
- 本研究では,DiscoGenという機械学習のアルゴリズム発見タスクのプロシージャルジェネレーターを開発した。
- DiscoGenは,様々な難易度と複雑さを持つ数百万のタスクを生成可能であり,アルゴリズム発見エージェントの最適化に利用できる。
- また,DiscoBenchという評価用ベンチマークを提示し,DiscoGenを活用した今後の研究方向性を示唆した。
RHYME-XT:時空間制御システムのニューラル演算子 [cs.CG, math.DG, cs.LG, cs.SY, eess.SY, math.OC]目的:時空間制御システムのサロゲートモデリング
- 複雑なシステムの挙動を効率的に予測する技術が重要である。
- 従来のモデリング手法では,高コストな計算や離散化誤差が課題となる。
- ニューラル演算子を用いて,連続時間で離散化誤差のない表現を目指す。
- RHYME-XTは,最先端のニューラル演算子と比較して優れた性能を示した。
- 異なるデータセットで学習したモデル間での知識転移が,ファインチューニングを通じて効果的に行えることが示された。
- 入力に依存する非線形偏微分積分方程式を効率的に近似できる。
ドメインに基づいた階層型検索によるLLMの幻覚の軽減 [cs.CL, cs.AI]目的:LLMの幻覚を軽減するためのドメインに根ざした階層型検索および検証アーキテクチャ
- LLMの応用が拡大する中で,その信頼性は重要な課題となっている。
- LLMは事実に基づかない,または根拠のない内容を生成する「幻覚」を起こしやすい。
- 本研究は,LLMの幻覚を抑制し,事実に基づいた回答を生成することを目指す。
- 提案アーキテクチャは,5つのベンチマークにおいて,ゼロショットベースラインを常に上回る性能を示した。
- TimeQA v2では83.7%,MMLU Global Factsでは78.0%の勝率を記録し,高い有効性が確認された。
- 事実に基づいた回答の正確性は,78.8%から86.4%の範囲で安定していた。ただし,「誤った前提に基づく過剰な主張」という課題が残る。
有界コストを持つ一般MDPに対する作用素理論的基礎と方策勾配法 [cs.LG, math.OC]目的:一般MDPにおける目的関数の最適化
- 強化学習は,複雑な意思決定問題を解決する上で重要な役割を果たす。
- 従来の強化学習手法は,状態・行動空間が有限の場合に限定されることが多かった。
- 一般的な状態・行動空間を持つMDPにおける効率的な強化学習アルゴリズムの開発。
- 線形作用素の摂動理論を用いることで,目的関数の導関数を特定可能となった。
- この手法により,強化学習の多くの既知の結果を,より一般的な設定に拡張できる。
- 一般的な状態・行動空間を持つMDPに対する,低複雑度のPPO型強化学習アルゴリズムが導出された。
不均衡マルチラベルビデオカプセル内視鏡分類のための微分注意・拡張BiomedCLIPと非対称焦点最適化 [cs.CV, cs.AI]目的:不均衡マルチラベルビデオカプセル内視鏡画像分類のためのフレームワーク
- 消化管疾患の早期発見には,カプセル内視鏡検査の重要性が増している。
- カプセル内視鏡画像には病変が極めて少ないという不均衡の問題が存在する。
- 病変の少ないデータでも高い分類精度を実現することを目指している。
- 提案手法は,BiomedCLIPの注意機構を改良し,注意ノイズを抑制することで性能向上を実現した。
- 不均衡データに対応するため,様々な損失関数やサンプリング手法を組み合わせた。
- RARE-VISIONテストセットにおいて,mAP@0.5が0.2456,mAP@0.95が0.2353を達成した。
AI支援による目標設定が社会的説明責任を通じて目標達成を向上させる [cs.CL, cs.HC, cs.AI]目的:AI支援による目標設定と目標達成の関係性
- キャリア目標の設定は重要であり,個人の成長やキャリア形成に不可欠である。
- キャリアコーチングは効果的だが,費用やアクセスの制限がある。
- AIを活用して,キャリアコーチングの代替手段を提供し,目標達成を支援すること。
- AIキャリアコーチングは,対照群と比較して,目標達成度を有意に向上させた。
- AIと書面による自己省察の比較では,全体的な目標達成度に差はなかったが,AIは社会的説明責任の認識を高めた。
- 社会的説明責任が,AIによる目標達成度向上の媒介要因として認められた。
RAMP:効率的なオンデバイスLLM推論のための強化学習適応混合精度量子化 [cs.LG, cs.AI]目的:大規模言語モデルの量子化による,リソース制約のあるハードウェアでの推論効率の最適化
- 大規模言語モデルの利用拡大には,計算資源の制約を克服する必要がある。
- 従来の量子化手法は,層ごとに均一なビット幅を使用するため,精度と効率のトレードオフが最適化されていない。
- 層ごとに最適なビット幅を決定することで,精度劣化を最小限に抑えつつ,モデルサイズを削減することを目指す。
- RAMPは,Llama 2 7Bにおいて,3.68GB(実質3.65ビット)で5.54のパープレキシティを達成し,既存の4ビット量子化手法AWQやGPTQを凌駕した。
- Llama 2 7Bで学習したポリシーは,Llama 2 13BやMistral 7Bに対してゼロショットで一般化し,モデル構造が量子化感度に大きく影響することを示唆した。
- HALOパイプラインはGGUF形式で量子化モデルをエクスポートし,CPU,GPU,エッジデバイスでの推論を可能にし,FP16の常識推論性能の99.5%を維持する。
scicode-lint:LLM生成パターンを用いた科学的Pythonコードにおける方法論的バグの検出 [cs.SE, cs.AI, cs.LG]目的:科学的Pythonコードにおける方法論的バグの検出
- 科学研究における再現性の確保は重要であり,コードの信頼性が不可欠である。
- 従来のlinterでは検出困難な,妥当だが誤った結果を生む方法論的バグが存在する。
- LLMを活用し,自動化された方法論チェックによるバグ検出の効率化を目指す。
- Kaggleノートブックの検証で,データリーク検出において100%の再現率と65%の適合率を達成した。
- 38の学術論文に対する検証では,LLMによる判断で62%の適合率が得られた。
- 制御されたテストでは,66のパターンに対して97.7%の精度を示した。
生成AIエージェントにおける差分プライバシー:分析と最適なトレードオフ [cs.SI, cs.CY, cs.SI, cs.CY, cs.CR, cs.AI]目的:生成AIエージェントにおけるプライバシー漏洩の分析と,プライバシーと有用性の最適なバランス
- 企業システムへのAI導入が進む中,内部データの保護が不可欠である。
- 既存研究は主にユーザーの入力プライバシーに焦点を当てており,企業データ側のリスクは軽視されている。
- 企業データに起因するプライバシーリスクを定量化し,適切なプライバシー保護策を設計すること。
- 提案手法では,応答生成を確率的メカニズムとしてモデル化し,差分プライバシーに基づいたプライバシー漏洩の解析を可能にした。
- トークンレベルおよびメッセージレベルの差分プライバシーを導入し,生成パラメータとプライバシー漏洩の関係を定量化した。
- 温度パラメータの最適な選択を可能にするプライバシー・有用性設計問題を定式化し,トレードオフの分析を行った。
IndicSafe:南アジアにおける多言語LLM安全性の評価ベンチマーク [cs.CL, cs.AI]目的:南アジアの12のインド言語におけるLLMの安全性評価
- 多言語環境でのLLM利用が拡大する中,文化的背景を考慮した安全性の検証が重要である。
- LLMの学習データに偏りがあり,低リソース言語における安全性評価が不十分である。
- 文化的背景を考慮したベンチマークを通じて,多言語LLMの安全性問題を明らかにする。
- LLMの言語間での安全性の一貫性は低く,言語ごとの安全応答率に大きなばらつきが見られた。
- 一部のモデルでは,無害な質問に対して過剰に拒否反応を示したり,政治的に敏感なトピックを過剰に検知したりする傾向が確認された。
- 本研究の知見は,多言語LLMにおける安全性向上のための言語固有の対策の必要性を示唆している。
重みクラスタ化された大規模言語モデルにおける相対的なランクのみが重要である [cs.LG, cs.CL]目的:大規模言語モデルにおける重みの相対的なランクの重要性
- 大規模言語モデルは高性能だが,膨大なパラメータ数により計算コストが高い。
- モデルの圧縮は重要だが,精度を大きく損なわずに効率的に行うのは困難である。
- 重みクラスタ化によりモデルを圧縮し,精度低下を最小限に抑える手法を検証する。
- 事前学習済みモデルに重みクラスタ化を適用した結果,再学習なしで高い精度を維持することができた。
- クラスタ平均の微調整により,残りの精度ギャップの30〜40%を回復することができた。
- クラスタの相対的なランクをランダム化すると,精度が大幅に低下する一方,ランクを保存したランダム化ではほとんど影響が見られなかった。
CARE:共分散を考慮したランク拡張分解によるマルチヘッド潜在的注意の実現 [cs.CL, cs.LG, cs.AI]目的:事前学習済み注意モジュールのマルチヘッド潜在的注意への変換手法
- Transformerモデルの効率的な推論が重要であり,KVキャッシュサイズの削減が課題となっている。
- 既存手法は重みのみの近似に頼り,活性化の共分散構造や層ごとの適切なランク配分が考慮されていない。
- 活性化を考慮した近似とランク配分により,注意性能の低下を抑制し,モデルの精度を回復すること。
- 提案手法CAREは,活性化を保存する因数分解,調整されたランク配分,KVパリティマッピングを導入することで,既存手法を大幅に改善する。
- Qwen3とLlama-3に対する実験により,ワンショットパープレキシティを最大215倍,平均精度を最大1.70倍向上させることを確認した。
- SVD後の微調整により,元のモデルの精度を完全に回復することができた。
迅速な適応のための統一されたポリシー価値分解 [cs.LG, q-bio.NC]目的:複雑な制御システムにおける迅速な適応手法
- 強化学習において,複雑な制御システムへの迅速な適応は重要な課題である。
- 従来の強化学習では,新しいタスクへの適応に再学習が必要であり,時間がかかる。
- 本研究は,表現の再学習なしに,新しいタスクに即座に適応できるメカニズムを提案する。
- ポリシーと価値関数が,タスクの同一性を捉える低次元の係数ベクトル(目標埋め込み)を共有するフレームワークを導入した。
- 学習済み価値基底関数と互換性のあるポリシー基底関数を,事前学習中に共同で学習することで,迅速な適応を実現した。
- MuJoCo Ant環境において,8方向への移動を要求する実験で有効性を示し,目標埋め込み空間における補間により,未知の方向にも対応可能であることを確認した。
VideoAtlas:対数計算による長尺ビデオのナビゲーション [cs.CV, cs.AI]目的:長尺ビデオを扱うための,損失のない,ナビゲート可能,スケーラブルな環境の提供
- ビデオ理解は,人間の知能を実現するための重要な課題であり,その応用範囲は広い。
- 既存手法は,ビデオの情報をテキストに変換する際に画質劣化が生じやすいという問題がある。
- 本研究は,ビデオ情報を損失なく保持しつつ,効率的なナビゲーションを実現することを目指す。
- VideoAtlasは,ビデオを階層的なグリッドとして表現することで,対数的な計算量で長尺ビデオを扱えることを示した。
- グリッド構造の再利用により,マルチモーダルキャッシュのヒット率が向上し,計算効率がさらに高められた。
- 探索深度を制限する環境予算の設定により,計算量と精度を調整できることが確認された。
ロボティクス基盤モデルのための仕様を考慮した分布形状化 [cs.RO, cs.AI]目的:ロボティクス基盤モデルにおける時間依存仕様への準拠
- ロボティクスは,人間の生活を豊かにする可能性を秘めているため,重要性が増している。
- 既存のロボティクス基盤モデルは,安全性や時間的制約の保証が不十分である。
- 本研究は,時間依存仕様を満たしつつ,安全性とタスク遂行能力を向上させることを目指す。
- 提案手法は,事前学習済みのロボティクス基盤モデルのパラメータを変更することなく,STL制約を課すことができる。
- 各決定ステップで,残りの時間範囲を考慮し,最小限の変更でSTL制約を満たす行動分布を計算する。
- シミュレーション実験により,複数の環境と複雑な仕様において,提案手法の有効性が確認された。
ミューオンを超えて:Transformer高速化のためのMUD(モーメンタム装飾相関除去) [cs.LG, cs.NA, math.NA, math.OC]目的:Transformer学習の高速化
- Transformerは自然言語処理の基盤技術であり,その効率的な学習は重要である。
- 既存の最適化手法では,計算コストが高く,学習速度がボトルネックとなる場合がある。
- MUDは,最適化のオーバーヘッドを削減し,Transformerの学習を加速することを目的とする。
- MUDは,AdamWやMuonと比較して,10-50%の壁時計時間の短縮を実現した。
- MUDは,Muonと同程度の検証パースplexityを,より短い時間で達成した(ESM-2 150Mモデル)。
- A100環境において,MUDはMuonに対し,トークン/秒を1.3-2.6倍,最大で3倍に向上させた。
TDAD:テスト駆動型エージェント開発 - グラフベースの影響分析によるAIコーディングエージェントのコード回帰削減 [cs.SE, cs.AI]目的:AIコーディングエージェントにおけるコード回帰の削減
- AI技術はソフトウェア開発の自動化を促進するが,品質保証が重要な課題である。
- AIエージェントは問題解決能力を持つ一方で,既存のテストを失敗させる回帰を引き起こしやすい。
- テストの影響分析を通じて,AIエージェントが変更の影響を受けやすいテストを特定し,回帰を抑制する。
- TDADは,SWE-bench Verifiedにおいて,テストレベルでの回帰を70%削減することに成功した。
- TDADのGraphRAGワークフローにより,問題解決率も24%から32%に向上した。
- TDDプロンプト単体では回帰が増加する一方,小規模モデルは文脈情報からより大きな恩恵を受けることが示された。
ソフトウェア脆弱性検出のためのスケーラブルなリポジトリレベルデータセットの構築 [cs.SE, cs.AI]目的:ソフトウェア脆弱性検出のための,正確なラベル付きデータセット
- ソフトウェアの脆弱性は増加の一途をたどっており,その検出は重要な課題である。
- 既存のベンチマークは関数単位に焦点を当てており,現実的な実行環境を捉えられていない。
- 現実的な環境下での脆弱性検出の精度とスケーラビリティの向上を目指す。
- 本研究では,現実的な脆弱性を実際のコードリポジトリに自動的に注入するベンチマークジェネレーターを提案する。
- 再現可能な脆弱性検証(PoV)エクスプロイトを合成し,リポジトリレベルでの脆弱性検出エージェントの学習・評価を可能にする。
- 注入と検出エージェント間の敵対的共同進化ループを通じて,現実的な制約下でのロバスト性を高めることを検討する。
3D形状に対する意味論的トークン化レベル [cs.CV, cs.GR, cs.LG]目的:3D形状の生成モデリングにおける最適なトークン化
- 生成モデリングにおいて,トークン化は基本的な技術であり,特に自己回帰モデルにおいて重要である。
- 従来の3D形状のトークン化手法は,レンダリングや圧縮用に設計された空間階層に依存し,効率性や意味的一貫性に課題があった。
- 意味論的重要度に基づいてトークンを並べることで,より効率的で高品質な3D形状生成を目指す。
- 提案手法LoSTは,幾何学的および意味的再構成の指標において,既存のLoDベース手法を大幅に上回る再構成性能を達成した。
- LoSTは,従来の自己回帰モデルで使用されるトークン数のわずか0.1%~10%で,効率的かつ高品質な3D形状の自己回帰生成を可能にした。
- さらに,LoSTは意味的検索などの下流タスクを可能にする。
エージェントファクトリー:実行可能なサブエージェントの蓄積と再利用による自己進化フレームワーク [cs.AI]目的:LLMベースエージェントの自己進化フレームワーク
- LLMエージェントは重要性が増しており,複雑なタスク実行能力の向上が求められている。
- 既存手法では,成功事例をテキストで記録するため,複雑な状況での再実行の信頼性が低いという課題がある。
- 実行可能なサブエージェントコードとして成功事例を保存し,継続的な改善を目指す。
- AgentFactoryは,成功したタスク解決策を実行可能なサブエージェントコードとして保存する新しい自己進化パラダイムである。
- サブエージェントは実行フィードバックに基づいて継続的に洗練され,より堅牢かつ効率的になる。
- サブエージェントのライブラリは時間とともに成長し,手動介入なしに類似タスクに必要な労力を削減する。
Loc3R-VLM:視覚言語モデルによる言語ベースの局所化と3次元推論 [cs.CV, cs.AI, cs.CL]目的:視覚言語モデルにおける3次元理解能力の向上
- 視覚と言語を結びつけるMLLMは進歩しているが,空間理解と視点に基づいた推論は課題である。
- 既存手法では,モデルに3次元での推論を明示的に教えるのではなく,幾何学的情報を入力に加える傾向がある。
- 単眼ビデオ入力から3次元のシーン構造を理解し,視覚と言語を3次元の文脈に結び付ける。
- Loc3R-VLMは,言語ベースの局所化において最先端の性能を達成した。
- 既存の2次元およびビデオベースの手法を上回り,3次元質問応答ベンチマークで優れた結果を示した。
- 空間的監督により,モデルの3次元理解能力が向上することが示された。
効率的なビデオVLMのための統一された時空間トークンスコアリング [cs.CV, cs.AI, cs.LG]目的:ビデオVLMにおける計算効率の向上
- 近年,画像とテキストを扱うVLMの研究が盛んに行われており,その応用範囲は広い。
- ビデオデータは時間的な冗長性が高いため,VLMの計算コストが課題となっている。
- ViTとLLMの両方でトークンを効率的に削減し,性能劣化を最小限に抑える。
- 提案手法STTSは,テキスト条件やトークンマージなしに,ViTとLLM両方のトークンを削減する。
- STTSは,13のビデオQAタスクにおいて,平均パフォーマンスの0.7%低下で62%の効率改善を実現した。
- 長尺ビデオQAでは,テスト時スケーリングにより,さらに0.5-1%の性能向上が見られた。
