arXiv雑要約
AI - 2026/03/10 公開
生産ラインOEE最適化のための因果的基盤モデルを処方保全フレームワークに統合 [cs.AI, cs.SY, eess.SY]目的:生産ラインのOEEを最適化するための処方保全フレームワーク
- 製造業における保全は,生産効率とコスト削減に不可欠であり,その重要性は高い。
- 従来の予測モデルは,因果関係を特定せず,誤診断や効果のない対策につながるという課題がある。
- 本研究は,故障の根本原因を理解し,効果的な対策を提案することで,この課題を解決することを目指す。
- 因果的基盤モデルを用いて,潜在的な修正の効果をシミュレーションし,KPIへの影響を評価することが可能となった。
- 各介入の因果効果を定量化することで,生産ラインに対する具体的なアクションを推奨できる。
- 半合成データを用いた評価により,提案手法が従来の機械学習モデルよりも優れていることが示された。
AltNet:強化学習における可塑性と安定性のトレードオフへの対処 [cs.LG, cs.AI]目的:強化学習における可塑性喪失の回復
- 強化学習は,複雑な問題解決において重要な役割を担う。しかし,継続学習が課題となっている。
- ニューラルネットワークの継続学習能力は低下しやすく,新しい経験から学習する能力が失われる。
- 性能劣化なく可塑性を回復し,サンプル効率と性能を向上させること。
- AltNetは,二つのネットワークを交互に運用することで,リセット時の性能低下を回避する。
- アクティブネットワークは環境で学習し,パッシブネットワークはアクティブネットワークの経験からオフポリシーで学習する。
- DeepMind Control Suiteの複数の高次元制御タスクにおいて,既存手法を上回る性能を示した。
MSPT:並列化されたマルチスケール注意による効率的な大規模物理モデリング [cs.LG]目的:大規模物理シミュレーションにおける効率的な物理モデリング手法
- 産業規模の物理シミュレーションは,科学技術の発展に不可欠であり,その効率化が求められている。
- 従来のニューラルソルバーは,要素数が増加すると計算コストが膨大になり,スケーラビリティに課題がある。
- 本研究は,大規模データにおける局所的相互作用と長距離依存性を効率的に捉える手法を開発し,スケーラビリティを向上させる。
- MSPTは,パッチ内の局所的注意と粗いパッチレベル表現へのグローバル注意を組み合わせたアーキテクチャである。
- 本手法は,不規則な形状の分割に効率的なボールツリーを用いることで,数百万の点までスケール可能となった。
- 標準的な偏微分方程式ベンチマークや大規模空力データセットにおいて,最先端の精度を,大幅に低いメモリ消費量と計算コストで達成した。
二重ランダム平滑化:グローバルノイズ分散を超える [cs.LG, cs.AI]目的:ニューラルネットワークの敵対的摂動に対するロバスト性の保証
- ニューラルネットワークの安全性確保は重要であり,特に敵対的攻撃に対する堅牢性が求められる。
- 従来のランダム平滑化は,小半径と大半径で最適なノイズ分散が異なり,両立が困難であった。
- 入力に依存したノイズ分散を用いることで,従来の制約を克服し,あらゆる半径で高い性能を実現すること。
- 提案手法である二重ランダム平滑化は,CIFAR-10において,従来のグローバルノイズ分散による手法では達成できなかった,小半径と大半径の両方で高い性能を示した。
- ImageNetにおいても,半径0.5,1.0,1.5でそれぞれ8.6%,17.1%,9.1%の性能向上を達成し,有効性が確認された。
- 本手法は,既存の入力依存型ノイズアプローチと比較しても,多くの半径において優位性を示し,ロバスト性と精度のトレードオフを改善する。
エージェント型ソフトウェアシステムのプロセス中心分析 [cs.SE, cs.AI, cs.CL]目的:エージェント型ソフトウェアシステムの実行軌跡の構造化表現と分析
- 近年のソフトウェアはモジュール化が進み,複雑化の一途を辿っているため,その振る舞いを理解し,改善する必要がある。
- 既存の評価方法は結果に焦点を当てており,エージェントの意思決定プロセスや戦略の変化に関する詳細な洞察が不足している。
- エージェント型システムの実行軌跡をグラフ構造で表現し,自動分析することで,システムの振る舞いを深く理解し,改善することを目指す。
- Graphectoryを用いることで,SWE-agentとOpenHandsの4000件の実行軌跡を自動分析し,プロンプトの質やLLMの性能と実行軌跡の複雑さの関連性を示した。
- 問題の難易度や基盤となるLLMによってエージェントの戦略が変化すること,解決済みの問題では局所化,修正,検証のステップが観察されることを明らかにした。
- リアルタイムでGraphectoryを構築・分析し,問題のある軌跡を検出・修正する手法を提案し,問題のある事例において解決率を6.9%-23.5%向上させることを示した。
ダイナミクスシフトに対する二重ロバストなクロスドメインオフライン強化学習 [cs.LG]目的:ダイナミクスシフトに対するクロスドメインオフライン強化学習における二重のロバスト性
- 強化学習は,ロボット制御やゲームなど,幅広い分野で応用が期待されており,データ駆動型学習の重要性が高まっている。
- オフライン強化学習では,データ不足やドメイン間のダイナミクスシフトが性能低下の要因となる場合がある。
- 実環境での頑健性を高めるため,訓練時とテスト時の両方におけるダイナミクスシフトへの対応を目指す。
- クロスドメインオフライン強化学習で訓練されたポリシーは,評価時にダイナミクス摂動に対して脆弱性を示すことが示された。
- 新しいロバストなクロスドメインベルマン演算子(RCB)を導入することで,テスト時のロバスト性を向上させ,分布外のダイナミクス遷移に対して保守的な学習を実現した。
- 動的価値ペナルティとHuber損失を導入したDROCOアルゴリズムは,既存手法と比較して優れた性能とロバスト性を示した。
オンライン強化学習のための進化型拡散およびフローマッチングポリシー [cs.LG]目的:オンライン強化学習における表現力と最適化の安定性の両立
- 強化学習は,複雑な制御問題を解決するための重要な手法であり,その性能向上は様々な分野で求められている。
- 拡散モデルやフローマッチングは表現力に優れるが,オンライン強化学習では最適化の不安定性が課題となっている。
- 潜在空間での最適化と生成の分離により,安定性と表現力の両立を目指す。
- GoRLは,既存の強化学習アルゴリズムに組み込むことが可能な汎用的なフレームワークである。
- HopperStandタスクにおいて,既存の最良手法の3倍以上の高い報酬を獲得することに成功した。
- 二段階の時間スケジューリングとデコーダの固定事前分布への固定化により,安定した最適化を実現している。
付加性の限界を超えて:非線形説明可能性に向けた疎な単調シャプレイ回帰 [cs.LG, cs.AI, stat.ML]目的:説明可能なAIにおける特徴量帰属のゴールドスタンダードであるシャプレイ値を活用し,非線形な関係性を持つデータに対する説明可能性を高めること。
- AIの透明性と信頼性を高める上で,モデルの予測根拠を説明する技術は不可欠である。
- 従来のシャプレイ値の計算では,特徴量間の付加性が前提とされているが,現実のデータではこの前提が満たされない場合が多い。
- 疎な単調シャプレイ回帰(SISR)により,付加性の回復と疎な説明の獲得を同時に実現し,高次元データにおける計算コストを削減する。
- SISRは,様々なシナリオにおいて真の変換を復元し,高ノイズ環境下でも強いサポート回復力を示している。
- SISRは,異なる報酬スキームに対して安定した帰属を可能にし,無関係な特徴量を正確にフィルタリングする。
- 本研究は,特徴量間の依存関係が線形性から逸脱した報酬変換を引き起こす可能性を初めて実証した。
並列デコーダTransformer:プランナーによる潜在的な協調を通じた同期並列デコーディング [cs.FL, cs.DM, math.CO, math.NT, cs.AI, cs.CL]目的:同期並列デコーディングのためのプランナーによる潜在的協調機構
- 言語モデルの並列処理能力向上は,推論速度と効率を飛躍的に改善し,複雑な問題解決を可能にする。
- 標準的なデコーディングでは,並列部分問題を認識できても,モデル内部での同期機構が不足している。
- モデル内部で並列タスクの分解と協調を可能にし,効率的な並列生成を実現することを目指す。
- 本研究では,凍結されたTransformerアーキテクチャにプランナーによる潜在的なワークスペースと同期されたマルチストリーム出力プロトコルを導入した。
- 提案手法PDTは,出力インターフェースを通じてモデル内部での協調機構を確立し,外部からのプロンプト戦略に依存しない並列タスク分解を可能にする。
- プランナー予測とDynamic Notes Busにより,各ストリームは共有状態を参照し,所有権を追跡しながら並列生成を進めることができる。
ベクトル化オフロードネットワーク抽出のための経路中心推論 [cs.CV, cs.AI]目的:オフロード環境におけるベクトル化道路抽出手法の改善
- 地図作成や自動運転において,オフロード領域の正確な道路情報が不可欠である。
- オフロード環境に適した大規模データセットと,ロバストな道路構造推論手法が不足している。
- 経路に沿った視覚的証拠の集約により,オフロード環境における道路接続性をより確実に推論すること。
- 新たに公開したWildRoadデータセット上で,提案手法MaGRoadが最先端の性能を達成した。
- MaGRoadは,都市部のデータセットに対しても高い汎化性能を示すことが確認された。
- 効率的な頂点抽出戦略により,推論速度が約2.5倍向上し,実用性が高まった。
マスク顔検出・認識のための二段階データ拡張:偽のマスクを本物へ [cs.CV, cs.LG]目的:マスク顔検出・認識のためのデータ拡張手法
- マスク着用者の増加に伴い,マスク顔の検出・認識技術の重要性が増している。
- 大規模なマスク顔データセットの不足が,高精度なマスク顔検出・認識の課題となっている。
- ルールベースの手法とGANを組み合わせたデータ拡張により,データセット不足を補い,精度向上を目指す。
- 提案手法は,ルールベースのマスク変換のみと比較して一貫した改善を示した。
- GANのデータ規模を大幅に削減しつつ,相補的な効果が得られることが示された。
- マスク以外の領域の歪みを抑制する損失関数と,多様性を高めるノイズ注入が有効であることが確認された。
SALVE: ニューラルネットワークのメカニスティック制御のためのスパースオートエンコーダ-潜在ベクトル編集 [cs.LG, cs.AI, cs.CV]目的:ニューラルネットワークのメカニスティック制御手法
- 深層学習は高性能だが,解釈性や制御が難しい。透明性・制御可能なAI開発が重要。
- 既存手法では,モデルの内部動作の理解と編集が分離しており,効率的な制御が困難である。
- スパースオートエンコーダを用いて特徴を抽出し,編集を通じてモデルの挙動を制御することを目指す。
- スパースオートエンコーダとGrad-FAMにより,モデル固有の疎な特徴基盤を教師なしで学習し,検証した。
- オートエンコーダの構造を活用し,永続的な重み空間介入による特徴の精密な調整を可能にした。
- クラス定義特徴とクロス特徴の両方を連続的に調整でき,ロバスト性の診断も行える。
エージェント型AIの適応:ポストトレーニング,メモリ,スキルの調査 [cs.AI, cs.CL]目的:エージェント型AIの適応に関する研究動向の整理
- 大規模言語モデル(LLM)を活用したエージェントは,様々な分野での応用が期待されており,その重要性が高まっている。
- エージェントの適応に関する研究は,ポストトレーニング,メモリ,スキルシステムと分散しており,全体像が掴みにくい。
- 本研究は,エージェント,ツール,それらの連携における適応という概念のもと,これらの研究を体系化し,課題を明確にすることを目的とする。
- 研究は,エージェントとツールの適応をそれぞれA1, A2, T1, T2の4つのパラダイムに分類し,整理した。
- 各パラダイムにおけるコスト,柔軟性,汎化性能のトレードオフを比較し,評価方法の違いをまとめた。
- エージェントとツールの協調適応,継続学習,安全性,効率的な展開における今後の課題を提示した。
言語エージェントにおけるメタRLによる探索の誘発 [cs.LG, cs.AI]目的:言語エージェントにおける探索戦略の学習
- 大規模言語モデルの応用範囲拡大のため,環境とのインタラクションや複雑なタスク解決が重要。
- 従来のRLエージェントは,積極的な探索や試行錯誤からの学習が苦手である。
- テスト時に環境からのフィードバックを活用し,探索能力を高めることを目指す。
- 提案手法LaMerは,Sokoban,MineSweeper,Webshopにおいて,それぞれ11%,14%,19%の性能向上を示した。
- LaMerは,より困難なタスクや未知のタスクへの汎化性能が,従来のRLエージェントよりも優れている。
- メタRLは,言語エージェントに探索を促し,新しい環境への適応を可能にする原理的なアプローチである。
ReDepth Anything:自己教師あり再照明によるテスト時深度の改良 [cs.CV, cs.AI, cs.LG]目的:単眼深度推定における性能向上
- 実世界画像の多様性に対応した深度推定は,自動運転やロボティクス等の応用において重要である。
- 既存の基盤モデルは,学習データと異なる分布の画像に対して性能が低下する問題がある。
- 本研究は,2D拡散モデルと基盤モデルを融合し,テスト時の自己教師あり学習によりこの問題の解決を目指す。
- ReDepth Anythingは,入力画像を再照明し,予測された深度マップを改良することで,DA-V2の深度精度とリアリズムを大幅に向上させる。
- DA3と組み合わせることで,最先端の結果を達成し,幾何学的推論による自己教師あり学習の新たな可能性を示す。
- 中間埋め込みとデコーダの重みのみを更新することで,最適化の崩壊を防ぎ,安定した性能を実現する。
コルモゴロフ・アーノルド・ネットワークの並列学習手法:分離データセットとFPGA実装 [cs.LG]目的:コルモゴロフ・アーノルド・ネットワークの学習アルゴリズムにおける並列化による性能向上
- ニューラルネットワークの精度向上と学習時間短縮は,AI技術の発展に不可欠である。
- 従来のニューラルネットワークの学習は逐次処理が中心であり,並列化による高速化が課題である。
- 本研究は,並列化のボトルネックを解消し,学習速度を向上させることを目指す。
- ニュートン・カッツマルツ法に基づくKANsは,多層パーセプトロンと比較して精度と学習時間で優れている。
- 事前学習,分離データセットによる学習,FPGAによる並列化の3つの戦略を提案した。
- FPGAへの実装と検証により,実用的な高速化が可能であることを示した。
ゼロショット汎化のための潜在的形状化:分布外異常検知への多様体学習アプローチ [cs.HC, cs.LG, cs.CR]目的:高次元テーブルデータにおける分布外(OOD)データの異常検知
- 高次元テーブルデータは,金融やサイバーセキュリティなど幅広い分野で利用され,その重要性は高い。
- 教師あり深層学習は,未知のデータに対する汎化性能が低く,分布外データに弱いという課題がある。
- 本研究は,潜在的な多様体の構造を明示的に学習することで,分布外データの検知精度を向上させることを目指す。
- 提案手法であるLatent Sculptingは,高次元テーブルデータの潜在空間を構造化し,異常検知の精度を向上させる。
- 厳格なゼロショットプロトコル下での評価において,既知のシグネチャに対する高い分類性能(F1=0.980)と,分布外データに対する優れたF1スコア(0.867)およびAUROC(0.913)を達成した。
- 特に,ステルス性の高い「Infiltration」攻撃や低ボリュームのDoS攻撃に対する高い再現率(最大97.2%)を示し,既存手法の課題を克服した。
テキストSQL変換における推論型と非推論型大規模言語モデルのコストトレードオフ [cs.DB, cs.AI, cs.DC]目的:テキストSQL変換における大規模言語モデルのクラウドクエリ実行コストのトレードオフ
- テキストSQL変換は,データベース操作を自然言語で記述可能にする重要な技術である。
- 既存の効率性指標は実行時間に着目するが,クラウド課金との関連性が薄い。
- 推論型モデルと非推論型モデルのコスト効率を比較し,効率的なデプロイメント指針を示す。
- 推論型モデルは,非推論型モデルと比較して44.5%少ないバイト量を処理しながら,同程度の正答率(96.7%~100%)を維持する。
- 実行時間はクエリコストと弱い相関(r=0.16)を示すため,速度最適化がコスト効率向上につながらない場合がある。
- 非推論型モデルはコストのばらつきが大きく,パーティションフィルタの欠如や非効率な結合により,最大で3.4倍,クエリあたり36GBを超えるコストが発生する。
忘却される権利の保証:垂直型連合学習におけるサンプルおよびラベル削除のための原始双対最適化 [cs.CR, cs.LG]目的:垂直型連合学習におけるサンプルおよびラベル削除
- AIモデルの学習過程で機密データが記憶されることへのプライバシー懸念が高まっており,その解決策が求められている。
- 水平型連合学習とは異なり,特徴分散型である垂直型連合学習では,データ削除が困難である。
- パーティ間の連携を効率化し,特徴間の依存関係による計算負荷を軽減することを目指す。
- 提案手法FedORAは,サンプルまたはラベルの削除を制約付き最適化問題として定式化し,原始双対フレームワークを用いて解決する。
- 新しいアンラーニング損失関数は,誤分類ではなく分類の不確実性を促進する。
- 実験結果から,FedORAは再学習と同等の効果と実用性を,低い計算・通信コストで実現できることが示された。
プロセスマイニングによるネットワークトラフィック分析:UPSIDEケーススタディ [cs.LG, cs.NI]目的:ゲームネットワークトラフィックの分析手法
- オンラインゲーム市場の成長に伴い,ネットワーク帯域の効率的な利用とセキュリティ確保が重要となっている。
- ゲームネットワークトラフィックの複雑さから,その状態の把握や異常検知が困難である。
- プロセスマイニングを用いて,ゲームネットワークトラフィックの状態を可視化し,ゲームの特定を可能にすること。
- 提案手法により,ゲームネットワークトラフィックの状態を解釈可能な Petri ネットとして表現できた。
- 表現された Petri ネットは,十分な一貫性と特異性を持ち,ネットワーク動作を効果的にモデル化できた。
- 2種類のゲーム(Clash Royale と Rocket League)の分類精度も良好に維持された。
知能の物理理論へ [cs.AI]目的:知能と計算の物理的制約
- 知能研究は,AIの発展や脳科学の解明に不可欠であり,学際的な重要性が増している。
- 従来の知能研究は抽象的なアルゴリズムに偏りがちで,物理的な基盤との接続が希薄であった。
- 本研究は,物理法則に基づいた知能の統一的な理論的枠組みを構築し,知能の物理的限界を明らかにすることを目指す。
- 保存量と整合性のある符号化(CCE)というフレームワークを導入し,知能を物理プロセスとして捉える。
- 不可逆遷移を通じて情報処理が創発し,マクロな状態がミクロな力学から生まれることを示した。
- CCEを量子スケールから宇宙論的スケールまで適用し,重力の創発と宇宙情報量の関係を考察した。
DrivingGen:自律運転のための生成型ビデオワールドモデルの包括的ベンチマーク [cs.CV, cs.AI, cs.RO]目的:生成型ビデオワールドモデルの性能評価と進捗状況の把握
- 自律運転システムにおける安全性と効率性の向上は,社会実装において不可欠である。
- 既存の評価指標では,安全性,軌跡の妥当性,一貫性,制御可能性が十分に検証されていない。
- 多様な条件を網羅したデータセットと包括的な評価指標による性能評価の実現。
- DrivingGenは,多様な運転データとインターネット上の映像から構成される包括的な評価データセットを提供する。
- 開発された評価指標は,視覚的リアリズム,軌跡の妥当性,時間的一貫性,制御可能性を総合的に評価する。
- 14種類の最先端モデルのベンチマークにより,汎用モデルと運転特化型モデルのトレードオフが明らかになった。
バッチ思考:インスタンス間学習によるLLM推論の強化 [eess.SY, cs.SY, stat.AP, cs.AI]目的:LLM推論の性能向上
- LLMは高度な推論能力を持つが,その能力を最大限に引き出すことが重要である。
- 既存のLLMはクエリを独立して処理するため,インスタンス間の有用な情報を活用できていない。
- 複数クエリをまとめて処理することで,推論テンプレートの質の向上と計算コストの削減を目指す。
- バッチ思考(BoT)は,追加学習なしに複数クエリを共同処理することで,インスタンス間学習を実現する。
- BoT-Rは,相互評価を通じて得られる情報により,既存手法よりも高い精度と信頼性を示す。
- 推論コストを最大61%削減し,バッチ思考の有効性を理論的・実験的に示す。
NC-Bench:対話能力を評価するためのLLMベンチマーク [cs.CL, cs.AI]目的:大規模言語モデルの一般的な対話能力の評価
- 自然な会話は人間と機械の円滑なコミュニケーションに不可欠であり,その自動化は重要な課題である。
- 既存のベンチマークは主に内容に焦点を当てており,会話の形式や構造に関する評価が不足している。
- 本研究は,会話の基本的な原則に基づき,LLMの対話能力を体系的に評価するフレームワークを提供する。
- NC-Benchは,基本的な応答,修復,終了シーケンス,RAG,複雑なリクエストの3つのセットで構成される。
- 初期評価では,モデルは基本的な応答は得意だが,修復(特に繰り返しの要求)や複雑な複数ターンのリクエストで課題を抱えていることが示された。
- NC-Benchは,トピックやタスク固有のベンチマークを超えて,LLMの対話能力を評価・改善するための軽量かつ拡張可能なフレームワークを提供する。
画像品質評価におけるアルゴリズムの視線:LAION-Aesthetics Predictor の監査とトレース民俗誌 [cs.HC, cs.AI, cs.CV]目的:画像生成AIモデルの学習に使用される美的評価モデルの評価基準の解明
- 画像生成AIの発展において,美的評価は重要な役割を果たす。その基準は,生成される画像の品質を左右するため。
- 美的評価基準が主観的,文化的背景に依存するため,AIモデルに内在するバイアスが問題となる。
- LAION-Aesthetics Predictor (LAP) のバイアスを検証し,より多様な評価基準への転換を促す。
- LAPは,女性に関するキャプションを持つ画像を優先的に選択し,男性やLGBTQ+の人々に関する画像を排除する傾向が確認された。
- LAPは,西洋および日本のアーティストによる風景,都市景観,ポートレートの写実的な画像を高く評価する傾向があり,西洋美術史における帝国主義的,男性的な視線を強化している。
- LAPの開発過程におけるデータソースが,英語圏の写真家や西洋のAI愛好家に偏っていることが,バイアスの原因の一つとして示唆された。
CaMeLsもコンピュータを使える:コンピュータ利用エージェントのためのシステムレベルセキュリティ [cs.AI]目的:コンピュータ利用エージェントに対するシステムレベルセキュリティの確立
- AIエージェントの活用が拡大する中で,セキュリティ確保は不可欠である。
- プロンプトインジェクション攻撃に対する脆弱性が,AIエージェント利用の大きな障壁となっている。
- UI状態の継続的な監視とセキュリティ分離という相反する課題を解決する。
- UIワークフローの構造的な予測可能性を利用し,計画段階で実行グラフを生成することで,プロンプトインジェクション攻撃を防ぐ。
- Single-Shot Planningを用いることで,制御フローの完全性を保証し,セキュリティと実用性の両立を目指した。
- OSWorldでの評価により,最先端モデルと同等の性能を維持しつつ,小規模モデルの性能向上も確認された。
BoxMind:2024年オリンピックで検証されたエリートボクシング戦略最適化のための閉ループAI [cs.IR, cs.AI]目的:エリートボクシングにおける戦略最適化
- 競技スポーツにおいて高度な戦術分析が不可欠であり,AIによる分析はパフォーマンス向上に貢献する。
- ボクシングのような格闘技は,複雑な動作と構造化された戦術表現の欠如により,AI分析が進んでいない。
- 本研究は,ボクシングの戦術分析をAIで実現し,戦略的意思決定を支援することを目的とする。
- BoxMindは,パンチのイベントを詳細に解析し,18の階層的な技術戦術指標を抽出する。
- 予測モデルは,BoxerGraphテストセットで69.8%,オリンピック対戦で87.5%の精度を達成し,最先端の性能を示す。
- BoxMindは2024年パリ五輪で中国ナショナルチームの3金2銀獲得に貢献し,実用性も証明された。
多面的シナリオ認識ハイパーグラフ学習による次点POI推薦 [cs.SI, cs.AI]目的:次点POI推薦のための多面的シナリオ認識ハイパーグラフ学習手法
- 位置情報ソーシャルネットワークは広く利用され,次点POI推薦はユーザーの嗜好把握に重要である。
- 既存手法は,観光客と地元住民など,多様な文脈における移動パターンの違いを考慮していない。
- 異なるシナリオ間の特徴を捉え,最適化の方向性の衝突を解消することで,推薦精度を向上させる。
- 提案手法MSAHGは,シナリオごとに異なる視点からハイパーグラフを構築し,多様な移動パターンを捉える。
- パラメータ分割メカニズムにより,シナリオ間の最適化方向の衝突を解消しつつ,汎化性能を維持する。
- 3つの実データセットでの実験により,MSAHGが5つの最先端手法を上回り,多シナリオPOI推薦の有効性が確認された。
DevBench:コード生成モデルのための現実的で開発者情報に基づいたベンチマーク [cs.LG, cs.AI, cs.SE]目的:コード生成モデルの評価
- ソフトウェア開発におけるAI支援の重要性が増しており,コード生成モデルの性能評価が不可欠である。
- 既存のベンチマークは現実世界の開発状況を十分に反映しておらず,モデルの真の実用性を測れない場合がある。
- 現実的な開発タスクに基づいた評価を通じて,コード生成モデルの改善点を特定し,実用的な展開を支援する。
- DevBenchは,実際の開発者テレメトリデータに基づいた1800件の評価インスタンスを含む,現実的なコード補完タスクのベンチマークである。
- 9つの最先端モデルの評価により,構文の正確性,意味的推論,および実用性においてモデル間の違いが明らかになった。
- このベンチマークは,モデルの選択と改善に関する具体的な洞察を提供し,実用的な展開と標的を絞ったモデル開発に役立つ。
大規模言語モデルと多腕バンディットの相互作用に関するコンポーネントベースの調査 [cs.CL, cs.LG]目的:大規模言語モデルと多腕バンディットの相互作用
- 言語理解と生成において大規模言語モデルが重要であり,不確実性下での意思決定に多腕バンディットが活用される。
- 大規模言語モデルと多腕バンディットの連携はまだ体系的に調査されていない。
- 両者の相互作用をコンポーネントレベルで分析し,課題と今後の研究方向を示す。
- 大規模言語モデルと多腕バンディットは相互に利点をもたらし,それぞれの課題解決に貢献する。
- 多腕バンディットは,大規模言語モデルの事前学習からRAG,パーソナライゼーションの課題に対処する。
- 大規模言語モデルは,アーム定義や環境モデリングを再定義することで,多腕バンディットの意思決定を改善する。
ELSA:プライバシーを重視した階層型連合学習のための効率的なLLM中心分割集約 [cs.LG]目的:ネットワークエッジにおけるプライバシーを重視した階層型連合学習のための,効率的なLLM中心分割集約フレームワーク
- 大規模言語モデルの活用が期待される一方,エッジデバイスの制約やプライバシー保護が課題となっている。
- エッジデバイスの限られたリソース,データの不均一性,プライバシーリスクが,LLMの学習を困難にしている。
- リソース制約下のエッジ環境で,LLMの効率的かつ安全な分散学習を実現することを目指す。
- ELSAは,分割学習と階層型連合学習を組み合わせることで,エッジデバイスのリソース制約を克服し,効率的なLLMのファインチューニングを可能にする。
- タスクに依存しないクライアントのクラスタリング,動的なモデル分割,軽量な通信スキームにより,データ不均一性,デバイスの信頼性,通信コストを軽減する。
- 多様なNLPタスクにおける実験により,ELSAが既存手法を上回り,スケーラブルかつプライバシーを保護したソリューションであることが示された。
MAS-Orchestra:包括的オーケストレーションと制御されたベンチマークによるマルチエージェント推論の理解と改善 [cs.AI, cs.CL, cs.MA]目的:マルチエージェントシステムの推論能力向上
- 複雑な問題解決において,複数のエージェントが協調することで,単独エージェントよりも高度な知能が期待される。
- 既存の手法では,エージェントのオーケストレーションが複雑で,システム全体としての最適化が困難である。
- マルチエージェントシステムが有効な状況と,そのための条件を明確にすること。
- MAS-Orchestraは,マルチエージェントシステムのオーケストレーションを関数呼び出しによる強化学習問題として定式化し,システム全体を一度に生成する。
- MASBENCHは,タスクの特性を5つの軸(深さ,地平線,広さ,並列性,ロバスト性)で評価し,マルチエージェントシステムの利点を厳密に検証する。
- 実験結果から,マルチエージェントシステムの性能向上は,タスク構造,検証プロトコル,オーケストレーターとサブエージェントの能力に依存することが示された。
再現可能な金融エージェント:ツール利用LLMエージェントのための決定性・忠実性保証フレームワーク [cs.AI, cs.CL]目的:金融サービスにおけるツール利用エージェントの軌跡決定性,意思決定決定性,および証拠条件付き忠実性の測定
- 金融取引は厳格な規制監査が求められるため,エージェントの行動再現性は不可欠である。
- LLMエージェントは,同じ入力に対して一貫した結果を返せない場合がある。
- エージェントの決定性と忠実性を定量的に評価し,監査要件を満たすことを目指す。
- 決定性とタスク精度は相関関係が認められなかった。決定性があっても精度は保証されない。
- 小規模モデルは高い決定性を示すが,精度は低い。大規模モデルは中程度の決定性と可変な精度を示す。
- スキーマファーストアーキテクチャを持つTier 1モデルは,監査要件を満たす決定性レベルを達成した。
FPGAにおけるデータレート適応型CNN推論の連続フロー実装 [cs.LG, cs.AI, cs.AR]目的:CNN推論のためのデータレートを考慮した連続フローアーキテクチャの設計
- 深層学習の推論処理高速化のため,ハードウェアアクセラレータが重要視されている。
- 従来のデータフロー実装は,畳み込みニューラルネットワーク(CNN)のデータレート変動に対応できていない。
- CNNのデータフローを解析し,ハードウェア利用率を最大化するアーキテクチャを提案することでこの問題を解決する。
- 提案手法により,ハードウェアユニットの利用率をほぼ100%に近づけることができた。
- 演算ロジック量を大幅に削減し,MobileNetのような複雑なCNNをFPGAに実装可能になった。
- データレートの低い信号をインターリーブし,ハードウェアユニットを共有することで,高いスループットを実現した。
MeanCache:フローマッチング推論の高速化に向けた瞬間速度から平均速度への移行 [cs.LG, cs.AI, cs.CV]目的:フローマッチング推論における効率的なキャッシュ手法
- 生成モデルの高性能化が求められており,推論速度の向上が重要な課題となっている。
- 既存のキャッシュ手法は瞬間速度に依存し,高い加速度比で軌道ずれや誤差蓄積が生じやすい。
- MeanCacheは平均速度の視点を取り入れ,誤差蓄積を軽減し,推論速度の向上を目指す。
- MeanCacheは,FLUX.1, Qwen-Image, HunyuanVideoにおいて,それぞれ4.12倍,4.56倍,3.59倍の高速化を実現した。
- 既存の最先端キャッシュ手法と比較して,生成品質を維持しつつ,一貫して優れた性能を示した。
- 本手法は,フローマッチング推論に新たな視点を提供し,安定性重視の加速手法の研究を促進すると考えられる。
古典・量子ペアワイズ制約クラスタリングのための認証サブセット修復PASS [cs.LG, cs.ET]目的:ペアワイズ制約クラスタリングにおけるスケーラブルな最適化手法
- クラスタリングはデータ分析の基礎であり,様々な分野で活用されている。
- ペアワイズ制約の導入はクラスタ品質向上に寄与する一方,計算コストが増大する。
- 制約を満たしつつ,大規模データに対する効率的なクラスタリングを実現すること。
- PASSは,最適化を小さなサブセットに集中させ,残りの割り当てを再中心化によって更新するスケーラブルなフレームワークである。
- 制約違反の検出はリスト彩色問題として定式化され,検証可能な修理証明書が得られる。
- 古典および量子計算への問題縮小により,ハイブリッド評価が可能となり,既存手法を上回る性能を示す。
非線形動的システムにおけるモデルフリーニューラル状態推定:ニューラルフィルタと古典的フィルタの比較 [cs.LG]目的:非線形動的システムにおける状態推定の性能比較
- 制御や意思決定問題において状態推定は不可欠であり,システムの正確な把握が重要である。
- 古典的フィルタはシステムモデルに依存するが,モデルが不正確な場合や入手困難な場合がある。
- データのみから学習可能なニューラル推定器による状態推定の可能性を探求する。
- ニューラルモデル(特に状態空間モデル)は,非線形シナリオにおいて強力な非線形カルマンフィルタに匹敵する性能を示す。
- ニューラルモデルはシステムモデルへのアクセスなしで,弱い古典的ベースラインを上回る性能を達成する。
- ニューラルモデルは古典的手法よりも大幅に高速な推論処理を実現する。
TimeSliver:説明可能な時系列分類のための象徴的・線形分解 [cs.LG]目的:時系列分類における各時間セグメントのモデル予測への影響度特定
- 時系列データ分析は,将来予測や異常検知など,多様な分野で不可欠である。
- 既存手法は,参照状態に依存したり,時間的依存性を無視したりする課題がある。
- TimeSliverは,時系列データと象徴的抽象化を統合し,時間構造を維持した表現を構築する。
- TimeSliverは,7つの時系列データセットで他の時間的帰属手法を11%上回る性能を示した。
- 26のUEAベンチマークデータセットにおいて,最先端手法とほぼ同等の予測性能を達成した。
- TimeSliverは,高い説明性と汎用性を兼ね備えた時系列分類フレームワークとなる。
因果的視点からの転移可能なグラフ凝縮 [cs.LG]目的:グラフデータの凝縮による効率的なグラフ表現学習
- グラフ表現学習はデータ規模の拡大で性能が向上しているが,計算資源の制約がある
- 既存のグラフ凝縮手法は特定のタスクに特化し,汎用性に欠ける
- 異なるタスクやドメインでも有効な,転移可能な凝縮グラフの構築
- 提案手法TGCCは,因果的介入によりドメイン不変な特徴を抽出し,凝縮グラフに注入する。
- 5つの公開データセットとFinReportデータセットにおいて,既存手法と比較して最大13.41%の性能向上を達成した。
- 単一データセット・タスクシナリオでは,6つのデータセットのうち5つで最先端の性能を達成した。
BioAgent Bench:バイオインフォマティクスのAIエージェント評価スイート [cs.AI]目的:バイオインフォマティクスにおけるAIエージェントの性能と堅牢性の評価
- バイオインフォマティクスは,生命科学研究において不可欠であり,データ解析の自動化が求められている。
- AIエージェントのバイオインフォマティクス応用は発展途上であり,客観的な性能評価が課題となっている。
- AIエージェントのバイオインフォマティクスにおける性能と弱点を明らかにし,改善の方向性を示す。
- BioAgent Benchは,RNA-seq,バリアントコール,メタゲノミクスなどのタスクを含む評価データセットである。
- 最先端のエージェントは複雑なパイプラインを構築可能だが,入力の摂動に対する脆弱性が確認された。
- 機密データを取り扱う場合は,閉鎖ソースモデルよりもオープンウェイトモデルが適している可能性がある。
RedSage:サイバーセキュリティ汎用LLM [cs.CR, cs.AI, cs.CL]目的:サイバーセキュリティ業務を支援するLLMの開発
- サイバー攻撃は高度化の一途を辿っており,専門知識を持つ人材の需要が高まっている。
- 既存のLLMは,プライバシーリスクやドメイン適応の欠如といった課題を抱えている。
- 機密情報を漏洩させず,専門知識を備えたLLMを開発することで,サイバーセキュリティ対策を強化する。
- RedSageは,28.6K件のサイバーセキュリティ関連ドキュメントと,26.6K件の多岐にわたる対話サンプルを用いて学習された,オープンソースのLLMである。
- RedSageは,既存のサイバーセキュリティベンチマークにおいて,最大5.59ポイントの上昇を示し,汎用的なLLMベンチマークでも高い性能を発揮した。
- ドメイン適応とエージェントによる学習データ拡張が,専門知識の向上と汎用的な推論能力の向上に貢献することが示された。
FlowSymm:物理に基づいた対称性保存グラフ注意機構によるネットワークフロー補完 [cs.LG]目的:ネットワークフロー補完における精度向上
- 輸送,エネルギー,移動性など,多くのシステムにおける逆問題解決の基盤となる技術である。
- 既存手法では,物理法則に基づいた厳密なフロー保存制約を満たすことが困難である。
- 物理法則と対称性を考慮した新しいアーキテクチャにより,高精度なフロー補完を実現する。
- FlowSymmは,物理に基づいた対称性保存グラフ注意機構を用いることで,既存の最先端手法を上回る性能を示す。
- 観測されたフローを不変に保つ許容可能な群作用の直交基底を計算し,有効な解空間をパラメータ化する。
- トラフィック,電力,自転車のリアルワールドフローベンチマークにおいて,RMSE,MAE,相関指標で優れた結果が得られた。
意味を超えたリアルタイム報酬モデル [cs.AI]目的:大規模言語モデルと人間の選好の整合
- 大規模言語モデルの性能向上には,人間のフィードバックが不可欠であり,そのための技術が求められている。
- 既存手法では,報酬モデルへの過剰最適化が発生し,人間の意図を正確に捉えきれない問題がある。
- 報酬モデルが,ポリシー分布の変化にリアルタイムで対応することで,過剰最適化を抑制することを目指す。
- 本研究では,ポリシーからのフィードバックを活用する新しいRLHFフレームワークR2Mを提案した。
- R2Mは,従来の報酬モデルが依存する意味表現に加えて,ポリシーの隠れ状態を利用することで,リアルタイムな分布シフトに対応する。
- ポリシーモデルからのフィードバックをリアルタイムで活用することで,報酬モデルの性能向上に繋がる可能性を示唆した。
Mem-T:長期的記憶エージェントのための報酬の密度化 [cs.CY, cs.LG, cs.CL]目的:長期的な記憶エージェントの記憶管理ポリシーの最適化
- 自律性と適応性が求められる中,記憶処理を自律的に行う記憶エージェントの研究が活発化している。
- 報酬が疎で遅延するため,記憶操作のシーケンス全体を最適化することが困難である。
- 疎な報酬を密なステップごとの教師信号に変換し,記憶の構築と検索を同時に最適化する。
- Mem-Tは,A-MemやMem0などの既存フレームワークを最大14.92%上回る高い性能を示す。
- 精度と効率のトレードオフにおいて優れた位置にあり,クエリごとの推論トークン数を約24.45%削減する。
- 性能を損なうことなく,推論コストを削減できる経済的なエージェントである。
Adamオプティマイザのための実行時データシェープレイ値 [cs.LG, cs.AI]目的:機械学習におけるデータ帰属の信頼性向上
- 機械学習におけるバイアス軽減と計算資源の効率化が重要課題となっている。
- 既存のデータ帰属手法は,Adamのような適応型オプティマイザの複雑な挙動を捉えきれていない。
- Adamオプティマイザに特化した,高精度かつ効率的なデータ帰属手法を開発すること。
- 提案手法であるAdam-Aware In-Run Data Shapleyは,真の貢献度に対する高い忠実性(R > 0.99)を達成した。
- 従来のSGDベースの手法と比較して,データ帰属の精度において顕著な性能向上を示した。
- 標準的な学習スループットの約95%を維持しつつ,効率的な計算を実現している。
シュワルツのより高次の価値観は,文レベルの人間の価値観検出に役立つか? 階層的ゲーティングとキャリブレーションの研究 [cs.HC, eess.SY, cs.SY, cs.CL, cs.AI, cs.LG]目的:文レベルにおける人間の価値観検出の性能向上
- 人間の価値観を理解することは,社会科学,心理学,そしてAI倫理において不可欠である。
- 単一の文からの価値観検出は,データが少なく,偏りがあるという課題を抱えている。
- シュワルツの高次の価値観構造が,この課題解決に役立つかを検証する。
- シュワルツの高次のカテゴリは学習可能であり,成長と自己防衛の二極間ペアはMacro-$F_1=0.58$に達した。
- キャリブレーションとアンサンブルが最も信頼性の高い改善をもたらし,閾値調整によりSocial Focus vs. Personal Focusが向上した。
- 高次の構造は,厳格なルーティング規則よりも誘導的バイアスとしてより有用であることが示された。
潜在メモリ:マルチエージェントシステムのための潜在メモリのカスタマイズ [cs.RO, cs.RO, cs.RO, cs.CL, cs.LG, cs.MA]目的:マルチエージェントシステムにおける継続的な適応機構としてのメモリの最適化
- 大規模言語モデルを活用したマルチエージェントシステムは高度な協調性を示し,その性能向上は重要である。
- 既存のメモリ設計は,役割に応じたカスタマイズの欠如や,きめ細かいエントリによる情報過多の問題を抱えている。
- エージェント固有のメモリを効率的にカスタマイズし,情報過多を抑制することで,システムの性能向上を目指す。
- 提案手法LatentMemは,軽量な形式で対話履歴を保存し,エージェント固有の文脈に基づいて潜在メモリを合成する。
- Latent Memory Policy Optimization(LMPO)は,潜在メモリを通じて最適化シグナルを伝播させ,コンパクトで有用な表現を生成する。
- 多様なベンチマークにおいて,LatentMemは既存手法と比較して最大19.36%の性能向上を達成した。
厚化から薄化へ:LLM推論のための人間風学習ダイナミクスによる報酬形状化 [cs.DB, cs.LG, cs.AI]目的:LLMの推論能力向上を目指した報酬形状化手法
- 大規模言語モデルの推論能力は,様々な分野で重要性が増しており,その改善は不可欠である。
- 従来の強化学習では,エントロピー崩壊や冗長性,探索不足といった課題があり,複雑な問題への対応が難しい。
- 問題解決時の広範な探索と,習得済みの知識の効率的な活用を両立する報酬設計が求められている。
- 提案手法T2Tは,誤った試行では探索を促す「厚化」,正解時には冗長性を抑制する「薄化」の二段階メカニズムを導入する。
- 数学ベンチマーク(MATH-500, AIME, AMC)における実験で,T2TはGRPOや最新手法と比較して優れた性能を示した。
- T2Tは,モデルの自信を高め,推論能力を結晶化させる効果が確認された。
LLMチャットテンプレートにおける隠れた指示を通じた推論時バックドア [cs.DC, cs.CR, cs.LG]目的:LLMチャットテンプレートを悪用した推論時バックドア攻撃手法の研究
- LLMの利用拡大に伴い,セキュリティ上の脅威が顕在化しており,その対策が急務である。
- 既存のバックドア攻撃は学習パイプラインへのアクセスを前提としており,配布後のモデルに対する攻撃は困難であった。
- チャットテンプレートを悪用することで,学習や実行環境へのアクセスなしにバックドアを埋め込むことを目指す。
- チャットテンプレートに悪意のあるコードを埋め込むことで,モデルの重みを変更することなく推論時にバックドアを起動できることを示した。
- 実験の結果,トリガー条件が満たされた場合,事実の正確性が大幅に低下し,攻撃者が制御するURLの出力成功率が80%を超えた。
- この攻撃は様々な推論環境で一般化し,主要なオープンウェイトモデル配布プラットフォームのセキュリティスキャンを回避できることが確認された。
ブラックボックスLLM生成ソフトウェアからの反復脆弱性の抽出 [cs.CR, cs.AI]目的:LLM生成ソフトウェアにおける脆弱性の持続性
- 近年のLLMによるコード生成の普及に伴い,セキュリティリスクの評価が重要になっている。
- LLM生成コードは特定のテンプレートに依存しやすく,予測可能な脆弱性を生み出す可能性がある。
- LLM生成コードに内在する反復的な脆弱性を抽出し,攻撃表面を明らかにする。
- FSTabは,バックエンドへのアクセスなしに,フロントエンドの特徴とLLMの知識から脆弱性を予測する攻撃を可能にする。
- FSTabを用いることで,モデルがプログラムやドメインを跨いで一貫して同じ脆弱性を再現する度合いを定量化できる。
- 実験結果から,訓練データにターゲットドメインを含まない場合でも,高い攻撃成功率と脆弱性カバレッジが確認された。
