arXiv雑要約
AI - 2026/02/04 公開
合成データからの学習:ERMの限界 [cs.HC, cs.LG, cs.DS, stat.ML]目的:合成データと自然データの混合環境における学習の可能性と限界
- LLMの普及により合成コンテンツが増加しており,その影響を理解する必要がある。
- 自然データと合成データが混在する環境下での学習理論は未解明な点が多い。
- 合成データ混入環境下におけるERMの性能限界を明らかにし,改善策を探る。
- 平均推定問題において,ERMは真の平均に収束するものの,重み付けアルゴリズムに劣る。
- PAC学習においては,ERMが真の概念に収束しない場合があることが示された。
- VCクラスと汚染量に関わらず正しい仮説を学習可能なアルゴリズムが存在する。
PRISM:最大符号化レート減少による信号・雑音分解演算子としてのホワイトボックスTransformerの導出 [cs.LG, cs.AI, cs.CL, physics.data-an]目的:Transformerの信号と雑音の分離
- 深層学習モデル,特にTransformerは,その性能から広く利用されているが,解釈可能性に課題がある。
- Transformerは「ブラックボックス」と批判され,内部動作の理解が困難である。
- 信号と雑音を幾何学的に分離することで,解釈性と性能を両立するTransformerの設計を目指す。
- PRISMは,信号(意味)と雑音(構文)の空間を分離する非合理的な周波数分離(π-RoPE)を導入した。
- 実験により,PRISMは注意ヘッドをスペクトル的に異なる領域に自発的に特化させることが示された。低周波ヘッドは長距離因果関係を,高周波ヘッドは局所的な構文制約を処理する。
- PRISMはAttention Sinkの問題を自然に分離し,層間のエントロピー情報を維持することが確認された。
モデルは私たちのように聞いているか? 音声LLMと自然なEEGの表現的アラインメントの探求 [cs.SD, cs.AI, eess.AS]目的:音声LLMと人間の神経活動の表現的アラインメント
- 音声LLMの性能向上に伴い,その内部表現が人間の聴覚処理とどのように関連するかを理解することが重要である。
- 音声LLMの内部表現が,自然な聴覚状況下での人間の神経ダイナミクスと一致しているか不明である。
- 音声LLMの表現メカニズムを神経生物学的に解明すること。
- 音声LLMの表現的アラインメントは,使用する類似度指標によって順位が大きく変動することが示された。
- 層の深さに応じてアラインメントのピークが異なり,N400関連の神経ダイナミクスと一致する250-500msの時間窓でRSAが高くなることが確認された。
- 負のプロソディは幾何学的類似度を低下させ,共分散に基づく依存性を高めることが示された。
期日を考慮した,省エネルギーな家庭用給湯器制御 [cs.IR, cs.CL, cs.AI]目的:家庭用給湯器の期日遵守と省エネルギー化
- 家庭用給湯器は冬期に継続運転されることが多く,効率的な運用が課題である。
- 従来の制御方法は,需要予測や熱損失を考慮せず,非効率な加熱運転になりがちである。
- 期日遵守を前提とした制御により,エネルギー消費量を削減することを目的とする。
- Proximal Policy Optimisation (PPO) は,他の手法と比較して最も省エネルギーな性能を示した。
- PPOは,初期温度,期日,目標温度の範囲で,bang-bang制御やMonte Carlo Tree Search (MCTS) よりも大幅な省エネ効果を発揮した。
- 学習済み制御は,物理的条件が同一の場合,エネルギー消費量を削減し,プランナーは学習なしで部分的な節約,学習済みポリシーは推論コストをほぼゼロに抑える。
ドメイン事前学習が指示整合性を損なう場合:医療LLMにおけるアダプターマージの経験的研究 [cs.CL, cs.AI]目的:医療LLMにおけるアダプターマージを通じたドメイン適応と指示整合性の干渉
- 医療分野では,専門知識が不可欠であり,LLMの性能向上にドメイン事前学習が求められる。
- ドメイン知識注入と指示整合性の両立が困難であり,予期せぬモデルの挙動を引き起こす可能性がある。
- ドメイン事前学習が指示整合性を損なうメカニズムを明らかにし,安全なモデル展開を支援する。
- ドメイン事前学習は,モデルの挙動を系統的に変化させ,推論スタイル出力を生成することが確認された。
- 表面的な評価指標(BLEU/ROUGE)は低下する一方,多肢選択問題の正答率は向上する現象が観察された。
- アダプターマージの検証ルーチンにより,SFTのみの挙動とマージモデルの挙動の誤認を防ぐことが可能となった。
FLOPsの再利用:難問におけるRLのスケーリング - オフポリシー接頭辞による条件付け [cs.HC, cs.LG, cs.AI, cs.CL]目的:LLM推論における難問に対するRL効率の向上
- LLMの推論能力向上は,複雑な課題解決に不可欠であり,RLはその学習手法の一つとして注目されている。
- 従来のRL手法では,難問において有効なオンポリシー軌跡が稀であり,学習が停滞しやすいという課題がある。
- オフポリシー軌跡を活用することで,学習信号を増強し,難問におけるRLの学習効率を高めることを目指す。
- PrefixRLは,オフポリシー軌跡の接頭辞を条件として,オンポリシーRLを実行することで,オフポリシーデータの不安定性を回避する。
- PrefixRLは,難問において,最良のベースラインと比較して2倍の速さで同じ報酬に到達し,最終的な報酬を3倍に増加させる。
- PrefixRLは,異なるモデルファミリーからのオフポリシー軌跡に対しても有効であり,その実用的な柔軟性が示された。
フルランク作用と状態観測可能性を超えたPOMDP学習に向けて [cs.LG, cs.AI, cs.RO]目的:隠れた状態を持つシステムのパラメータ学習
- 自律エージェントの行動計画は重要であり,隠れた状態を持つシステムの推論能力が求められる。
- 従来のPOMDP学習は,状態空間や遷移モデルの構築に課題があり,汎用性に欠ける。
- 観測と行動データからPOMDPの行列を学習し,異なる報酬関数に対応可能な計画立案を可能にする。
- 提案手法は,状態の分割に依存する形で観測行列と遷移行列を学習できる。
- 学習されたモデルを用いることで,異なる目標や報酬関数に対する新たな計画を生成可能となる。
- 連続的なデータからは,状態の分割を超えたPOMDPの学習は不可能であることが示された。
ロバストExplain:推薦のためのLLMベースの説明エージェントの堅牢性の評価 [cs.IR, cs.AI, cs.LG]目的:LLMベースの説明エージェントの堅牢性評価
- 推薦システムにおいて,説明はユーザーの意思決定を支援し,信頼を得る上で不可欠である。
- ユーザー行動履歴にはノイズが伴うため,生成される説明の安定性や信頼性が課題となる。
- LLM生成の説明の堅牢性を定量的に評価し,信頼性の高い推薦システム構築に貢献する。
- RobustExplainという評価フレームワークを開発し,現実的なノイズに対するLLMの説明生成の堅牢性を測定した。
- 実験の結果,現在のLLMは中程度の堅牢性しか示しておらず,モデルサイズが大きいほど安定性が向上する傾向が見られた。
- この研究は,説明エージェントの堅牢性に関する最初のベンチマークを確立し,信頼性の高い推薦システムの重要性を示した。
LLMをオーケストレーターとして:制約条件を満たすマルチエージェントによる推薦システムの最適化 [cs.IR, cs.AI, cs.LG, cs.MA]目的:推薦システムにおける制約条件を満たしたマルチエージェントによる最適化
- 推薦システムは,ビジネス上の要件を満たしつつ,多様な目的を最適化する必要がある。
- 従来の推薦システムでは,制約条件を完全に満たすことが難しく,実運用で問題が発生しやすい。
- LLMを活用して,推薦システムの制約条件を満たしつつ,最適化を達成することを目指す。
- 提案手法DualAgent-Recは,Amazonレビューデータセットにおいて100%の制約条件充足率を達成した。
- 既存手法と比較して,パレートハイパーボリュームを4-6%向上させた。
- LLMが制約条件を満たし,実用的な推薦システムのオーケストレーションエージェントとして有効であることが示された。
SEAFormer:実世界車両経路問題のための空間的近接性とエッジを意識したTransformer [cs.LG]目的:実世界車両経路問題に対する効果的な解法
- 車両経路問題は物流効率化に不可欠であり,コスト削減や顧客満足度向上に貢献する。
- 従来のニューラルネットワークは,系列依存性やエッジ情報を十分に活用できず,実世界の問題に対応が難しい。
- 空間的近接性とエッジ情報を考慮することで,大規模な実世界車両経路問題を効率的に解決すること。
- SEAFormerは,クラスタ化された近接性アテンションにより計算量を削減し,大規模インスタンスでの学習を可能にした。
- 軽量なエッジ認識モジュールにより,エッジ情報を効果的に組み込み,収束を加速させた。
- 実験の結果,SEAFormerは既存手法を凌駕し,1,000以上のノードを持つ実世界車両経路問題を初めて効果的に解決した。
PROTEUS:ラグランジュRLによるSLAを意識したルーティング - マルチLLM提供システム [cs.AI]目的:マルチLLM提供システムにおけるSLA(サービス品質保証)を意識したルーティング手法
- LLMの利用拡大に伴い,顧客層,時間帯,クエリの重要度に応じた多様なワークロードへの対応が求められている
- 既存のLLMルーティングシステムは,パラメータ調整が難しく,精度との関係が不明確である
- 目標精度を直接指定することで,SLAを満たすルーティングを実現し,システム運用を効率化することを目指す
- PROTEUSは,目標精度を入力として受け取り,ラグランジュ双対制御を用いてルーティング決定を行う。
- RouterBenchおよびSPROUTの評価により,PROTEUSは目標精度を満たすルーティングを安定的に実現し,高い精度とコスト削減効果を示した。
- 特に,目標精度適合率は97%~98%と高く,既存手法と比較して大幅な改善が見られた。
タスク中心の誤った動作事前知識からのポリシー最適化 [cs.RO, cs.LG]目的:タスク性能の向上と一貫した動作様式の維持
- ヒューマノイド制御において,人間の動作模倣は自然な行動を促す上で重要である。
- 模倣データには非最適性やロボットとの差異が含まれ,タスク性能を低下させる場合がある。
- タスクと矛盾する模倣の影響を抑制し,安定した学習を実現すること。
- 提案手法は,模倣を条件付き正則化として扱い,タスク改善を最大化する。
- タスクの進捗と一致する場合にのみ模倣信号を組み込み,適応的な更新を行う。
- ノイズの多いデモンストレーション下でも,ロバストなタスク性能と一貫した動作様式が確認された。
NRR-Phi: LLM推論における曖昧性保持のためのテキスト・ツー・ステートマッピング [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルにおける曖昧性保持のためのテキスト・ツー・ステートマッピング
- 自然言語処理において,文脈理解と曖昧性解消は重要な課題であり,より高度な推論能力が求められている。
- 大規模言語モデルは,曖昧な入力に対して早期に意味を確定化し,複数の解釈を失いがちである。
- 本研究は,複数の解釈を共存させる状態空間へのテキストマッピングを提案し,曖昧性保持を可能にする。
- 提案手法は,文の曖昧性を検出し,複数の解釈を抽出,状態空間を構築することで,曖昧性を保持する。
- 実験結果から,提案手法は,曖昧性カテゴリにおいて平均状態エントロピーH=1.087ビットを示し,解釈の多様性を維持していることが確認された。
- 日本語の対立接続詞などを用いたルールベース検出器も実装し,手法の言語移植性を示した。
エッジベースLLMのためのCiM対応ドメイン適応型ノイズ耐性検索拡張生成(CiMRAG) [cs.LG, cs.AI]目的:エッジデバイスにおけるLLMを活用したパーソナライズされた仮想アシスタントのための,CiM対応,ドメイン適応型,ノイズ耐性検索拡張生成手法
- エッジデバイスでのLLM活用が進む中,パーソナライズが重要となり,RAGがその鍵となる技術として注目されている。
- RAGはプロファイルデータ量の増加により効率性が課題であり,CiMアーキテクチャはノイズに弱いという問題がある。
- ノイズ環境下におけるRAGの精度とドメイン適応性を向上させ,エッジデバイスでの実用化を目指す。
- 提案手法TONELは,タスク固有の埋め込み表現を学習することで,CiMハードウェアの制約下でもノイズ耐性を高める。
- パーソナライズベンチマーク実験により,TONELが特にノイズ環境下で強力なベースラインと比較して効果的であることが示された。
- タスク指向のノイズ耐性埋め込み学習により,検索精度が向上し,動的なマルチドメイン環境での適応性が確認された。
GraphAllocBench:嗜好条件付き多目的方策学習のための柔軟なベンチマーク [cs.CY, cs.LG]目的:嗜好条件付き多目的方策学習のためのベンチマーク環境の提供
- 多目的強化学習は,複数の目的を同時に最適化する必要がある問題に対応できるため重要である。
- 既存のベンチマークは単純なタスクに限られ,現実世界への適用やスケーラビリティに課題がある。
- 現実的かつスケーラブルな環境を提供し,嗜好条件付き多目的方策学習の研究を促進することを目指す。
- GraphAllocBenchは,都市管理に着想を得たグラフベースの資源配分環境を提供する。
- 提案された評価指標PNDSとOSは,嗜好の一貫性を直接的に捉え,ハイパーボリューム指標を補完する。
- 実験により,既存の多目的強化学習手法の限界が明らかになり,グラフニューラルネットワークの活用が示唆された。
SERA:ソフト検証された効率的なリポジトリエージェント [cs.CL, cs.LG, cs.SE]目的:プライベートなコードベースに特化したコーディングエージェントの迅速かつ安価な作成
- オープンウェイトモデルは,クローズドソースシステムと比較して,コードベースの情報を組み込みやすい利点がある。
- 従来の学習コストと複雑さにより,その利点が十分に活かされてこなかった。
- 本研究では,教師ありファインチューニングを用いて,効率的かつ低コストな学習方法を確立し,この問題を解決する。
- SERAは,完全にオープンソースのモデルでありながら,最先端の結果を達成し,Devstral-Small-2のような高性能なオープンウェイトモデルに匹敵する性能を示す。
- SERAモデルの作成コストは,強化学習よりも26倍,既存の合成データ法よりも57倍安価である。
- 本研究で開発したソフト検証生成(SVG)は,単一のリポジトリから数千件の軌跡を生成し,プライベートコードベースへの特化を可能にする。
言語モデルにおける表現は会話中に劇的に変化しうる [cs.CL, cs.LG]目的:言語モデル表現の動的変化
- 言語モデルの解釈可能性向上は,AIの信頼性と安全性を高める上で重要である。
- 言語モデルの内部表現は固定されたものではなく,文脈に依存して変化することが問題である。
- 会話における表現変化のメカニズムを解明し,解釈可能性への影響を評価する。
- 会話の進行に伴い,事実情報が非事実情報として表現されるなど,線形表現が大きく変化することが示された。
- 会話に関連する情報の表現は変化する一方,一般的な情報は比較的安定的に保持される傾向にある。
- 表現の変化は,モデルの役割の変化に対応している可能性があり,静的な解釈には注意が必要である。
認識的計画ドメイン定義言語:公式ガイドライン [cs.AI]目的:認識的計画タスクの統一的な仕様
- 多エージェントシステムの計画において,知識と信念を明示的に扱うことが重要である。
- 既存の認識的プランナーは異なるDELフラグメントを対象としており,ベンチマークの表現言語が統一されていない。
- EPDDLにより,認識的計画タスクの比較,再利用,ベンチマーク開発を促進することを目的とする。
- EPDDLは,DELのセマンティクス全体を捉えたPDDLライクな表現を提供する。
- 抽象イベントモデルを導入し,認識的行動を表現する新しい手法を確立した。
- EPDDLの構文とセマンティクスを,DELと抽象イベントモデルに基づいて正式に定義した。
深層複合AIシステムのためのテキスト均衡伝播 [cs.LG, cs.AI]目的:深層複合AIシステムの最適化
- AIシステムの複雑化に伴い,複数のモジュールを連携させる必要性が高まっている。
- 既存手法では,システムの深さが深くなるにつれて性能が低下する問題がある。
- システムの深さによる性能劣化を緩和し,より効率的な最適化を目指す。
- 提案手法であるTEPは,局所的な学習原理に基づき,テキスト勾配の爆発・消失問題を軽減する。
- TEPは,プロンプトの反復的な改良と制御された適応を通じて,グローバルな目標への到達を可能にする。
- 長距離のQAベンチマークやマルチエージェントツール利用データセットにおいて,TEPは既存手法よりも高い精度と効率を示す。
CUA-Skill:コンピュータ利用エージェントのためのスキル開発 [cs.AI]目的:コンピュータ利用エージェントにおけるスキル基盤
- 現実世界のタスクを自律的に実行するエージェントの重要性が増している。
- 既存のエージェントシステムは,GUI操作スキルの再利用性と構造化が課題である。
- 人間のようなGUI操作を可能にするスキル基盤を構築し,スケーラブルな開発を支援する。
- CUA-Skillは,Windowsアプリケーションの利用知識をスキルとして体系化した大規模なライブラリである。
- CUA-Skill Agentは,動的なスキル検索,引数インスタンス化,メモリ管理による復旧機能を備えている。
- WindowsAgentArenaにおいて,CUA-Skill Agentは57.5%の成功率を達成し,既存手法を上回る性能を示した。
精密性の力:複雑システムにおける構造情報に基づいた検出 - 顧客離反から発作発症まで [cs.LG, stat.ML]目的:複雑システムにおける早期検出のための機械学習手法
- 複雑な現象の理解は,社会インフラや医療など,幅広い分野で重要である。
- データ生成過程が不明瞭な場合,潜在的な因果構造の解明が困難である。
- 潜在的な因果構造を明らかにし,重要なイベントの発生を予測すること。
- 提案手法は,経験共分散行列のべき乗を利用することで,システムの潜在構造を捉える。
- 発作検出と顧客離反予測の両方において,競争力のある結果が得られた。
- 最適な共分散行列のべき乗は,構造的な特徴を捉え,解釈可能性と予測性能を両立する。
因果的視点からの転移可能なグラフ凝縮 [cs.LG]目的:グラフデータの凝縮による効率的なグラフ表現学習
- グラフ表現学習の性能向上には大規模データが不可欠だが,計算コストが課題となる。
- 既存のグラフ凝縮手法は,元のデータセットとタスクに依存し,汎用性に欠ける。
- 異なるタスクやドメインへの適応が可能な,転移可能な凝縮手法の開発。
- 提案手法TGCCは,因果的介入を用いてドメイン不変な特徴を抽出し,構造と特徴情報を効果的に凝縮する。
- スペクトル領域におけるコントラスト学習により,凝縮グラフに因果的情報を注入し,性能を向上させる。
- 5つの公開データセットおよびFinReportデータセットで,既存手法と比較して最大13.41%の性能改善を達成した。
サポートベクターマシンおよびニューラルネットワークのための凸損失関数 [cs.LG]目的:サポートベクターマシンおよびニューラルネットワークにおける凸損失関数の提案
- 機械学習は,データから学習し予測を行う上で重要な役割を担う。
- 既存の損失関数では,汎化性能の向上が課題となっている。
- 損失関数にパターン相関を取り入れ,汎化性能の向上を目指す。
- 提案手法は,分類タスクにおいて最大2.0%のF1スコア改善,回帰タスクにおいて1.0%の平均二乗誤差(MSE)削減を達成した。
- 汎化性能の指標は,標準的な損失関数と比較して,悪化することはなく,多くの場合向上した。
- 浅いニューラルネットワークおよび深層ニューラルネットワークとの組み合わせも有効であることが示唆された。
最小抵抗経路:プレフィックス合意によるLLM推論軌道の誘導 [cs.AI, cs.CL]目的:LLMの計算効率の良い推論手法
- 大規模言語モデルの推論能力は高いが,計算コストが大きい点が課題である。
- Self-Consistency等の推論戦略は,全ての推論経路を展開するため計算資源を消費する。
- プレフィックスの一貫性を活用し,計算コストを削減しつつ高精度を維持すること。
- PoLRは,推論の初期段階で共通のプレフィックスを特定し,その経路のみを展開することで計算量を削減する。
- 実験の結果,PoLRはGSM8K,MATH500等のベンチマークでSelf-Consistencyと同等以上の性能を示した。
- PoLRは,トークン使用量を最大60%,壁時計時間遅延を最大50%削減し,既存手法との組み合わせも容易である。
サーロゲートニューラルカーネルによるスケーラブルな線形化ラプラス近似 [cs.RO, cs.RO, cs.CL, cs.LG]目的:線形化ラプラス近似のカーネル近似手法
- 深層ニューラルネットワークの予測不確実性の推定は,安全性を高める上で重要である。
- 大規模な深層ニューラルネットワークにおいて,計算コストが課題となっている。
- 既存手法の計算コストを削減し,より精度の高い不確実性推定を実現する。
- 提案手法は,ニューラルタンジェントカーネルを模倣するコンパクトな特徴表現を学習する。
- 大規模な事前学習済み深層ニューラルネットワークにおいても,予測不確実性の推定が可能である。
- 学習されたカーネルをバイアスすることで,分布外検出性能が向上することが示された。
自己報酬が機能する理由:言語モデルの反復的アライメントに関する理論的保証 [cs.AI]目的:自己報酬型言語モデルの反復的アライメントの理論的保証
- 言語モデルは,自然言語処理の基盤技術であり,その性能向上は様々な応用分野に不可欠である。
- 従来の言語モデルのアライメントは外部フィードバックに依存するため,コストやスケーラビリティに課題があった。
- 自己報酬によるアライメントの理論的根拠を明確化し,初期モデルの品質に依存しない安定的な学習を可能とする。
- 自己報酬型言語モデルの1ステップ更新における限界が明らかになり,初期モデルの品質への依存性が示された。
- サンプルサイズnに対して,性能が$\widetilde{\mathcal{O}}\left(1/\sqrt{n}\right)$の速度で向上することが理論的に証明された。
- 反復回数Tが増加するにつれて,初期モデルへの依存度が指数関数的に減衰することが示され,自己報酬の成功メカニズムの説明となった。
誘導グラフニューラルネットワークを用いたeコマースにおける非侵襲的グラフベースのボット検出 [cs.LG]目的:eコマースにおけるボット検出手法
- eコマースは成長を続けるが,ボットによるデータ搾取や不正行為が深刻化している。
- 従来のIPブロックやCAPTCHAは,ボットの進化により回避されやすく効果が低下している。
- ユーザーセッションをグラフ構造で表現し,ボットを検知することで,より高精度な対策を目指す。
- 提案手法は,セッションレベルの多層パーセプトロンと比較して,AUCおよびF1スコアで優れた性能を示した。
- 敵対的摂動やコールドスタートのシミュレーションにおいても,ロバスト性と汎化能力が確認された。
- 本フレームワークは,既存システムへの統合が容易で,リアルタイム推論やインクリメンタル更新に対応する。
自己進化型合成データから検証可能な報酬を用いた強化学習へ:事後学習型マルチターン対話ツール利用エージェント [cs.AI, cs.CL]目的:マルチターン対話ツール利用エージェントの事後学習
- 現実世界のタスク解決に不可欠であり,人間の指示に従い外部環境と対話する能力が求められる。
- 高品質なマルチターンツール利用データの合成が困難であり,スケーラビリティに課題がある。
- ユーザシミュレーションによるノイズを低減し,学習効率を向上させる手法を確立する。
- 自己進化型データ生成エージェントと検証ベースの強化学習を組み合わせた統一的なフレームワークを提案。
- 合成データを用いてユーザモデルのファインチューニングとGRPO様式による強化学習を行い,一貫した性能向上を実現。
- tau^2-bench評価において,Airlineで73.0%,Telecomで98.3%のpass率を達成し,最先端モデルに匹敵する性能を示した。
黄金のガチョウ:検証不可能なインターネットテキストから無限のRLVRタスクを合成する簡単な手法 [cs.CG, cs.CL, cs.AI]目的:大規模言語モデルにおける複雑な推論能力を強化するための,検証可能な報酬を用いた強化学習(RLVR)のデータ拡張
- 大規模言語モデルの推論能力向上には,強化学習が不可欠であり,その鍵となるのが検証可能な報酬データの質と量である。
- 既存の検証可能なデータは限られており,長期間の学習では改善が飽和してしまうという課題が存在する。
- 検証不可能なインターネットテキストを活用し,無限にRLVRタスクを生成することで,データ不足という課題を解決する。
- 提示手法「Golden Goose」により,科学教科書などの検証不可能なテキストから,大規模なRLVRデータセット「GooseReason-0.7M」を構築した。
- GooseReasonは,既存のRLVRデータで飽和したモデルを効果的に再活性化し,継続的な強化学習において安定した性能向上を実現した。
- セキュリティドメインにおいて,新たに生成されたデータセット「GooseReason-Cyber」で学習したモデルは,7Bの専門モデルを上回る性能を示した。
ShotFinder:ウェブ検索による想像力駆動型オープン・ドメイン動画ショット検索 [cs.CL, cs.CV, cs.AI]目的:動画ショット検索の新たなベンチマークとパイプラインの提案
- 動画検索は情報アクセスの重要な手段であり,その高度化はユーザビリティ向上に不可欠である。
- 既存の動画検索研究はテキストや静的マルチモーダルに偏り,複雑な動画の構造と意味を捉えきれていない。
- 動画の編集要件をキーフレーム指向のショット記述として形式化し,動画検索のベンチマークを確立すること。
- ShotFinderベンチマークは,Temporal order,Color,Visual style,Audio,Resolutionの5種類の制御可能な制約を導入した。
- 提案手法ShotFinderは,動画の想像によるクエリ拡張,検索エンジンによる候補動画検索,記述に基づく時間局在化の3段階パイプラインである。
- 実験の結果,人間のパフォーマンスとの大きな隔たりが示され,特に色と視覚スタイルが課題であることが明らかになった。
異種専門家の編成:異方性保持融合によるスケーラブルなMoEフレームワーク [cs.IR, cs.AI, cs.LG]目的:クロスボーダーECにおける検索関連性モデリングの改善
- 越境ECの拡大に伴い,多様な言語と繊細な意味合いへの対応が重要になっている。
- 単一の巨大言語モデルは,地域ごとの能力に偏りが生じやすいという課題がある。
- 異種言語モデルの組み合わせにより,各地域の特性に最適化された検索を実現する。
- 提案するMoEフレームワークは,6つの東南アジア市場におけるAUCを0.72%向上させた。
- 最適化されたパイプラインは,1秒あたり13.72クエリの処理速度(QPS)を達成し,スループットを9%改善した。
- 異なる言語モデルの埋め込み空間を保持する融合戦略が,複雑な関連性シグナルを捉える上で重要であることが示された。
幸福そうな若い女性,不機嫌そうな高齢男性?感情駆動型による合成顔生成における人口統計学的バイアス [cs.CY, cs.AI, cs.CV]目的:合成顔生成における感情プロンプトが人口統計学的表現に与える影響の評価
- 合成顔生成技術は急速に進歩しており,社会への影響が大きいため,その公正性評価は重要である。
- 既存研究では,人口統計学的バイアスは調査されているが,感情プロンプトの影響は十分に解明されていない。
- 異なる文化的・言語的背景で訓練されたモデルの出力分布の差異を明らかにすること。
- 全てのモデルにおいて,国籍に関わらず,人口統計学的および感情条件によるバイアスが確認された。
- バイアスの評価には,カルバック・ライブラーの発散やジェンセン・シャノン発散といった情報理論的な指標が用いられた。
- これらの結果は,公正性,社会技術的害悪,ガバナンス,透明性の高い生成システムの開発に示唆を与える。
建築スタジオにおける自己省察とデザイン批評における大規模言語モデルの学生の認識 [cs.CY, cs.AI, cs.HC]目的:建築スタジオのフィードバックメカニズムへの大規模言語モデルの統合に関する学生の認識
- 建築教育において,学生の批判的思考力育成は重要であり,その質が設計能力に直結する。
- 従来のフィードバック方法では,学生の認知負荷が高く,抽象的な意見の解釈が困難な場合がある。
- 大規模言語モデルを活用し,学生の自己省察,ピアレビュー,教授からの批評を支援し,学習効果の向上を目指す。
- 学生はLLMを権威ある教師ではなく,批判的思考を促進する「認知的な鏡」として捉えている。
- 自己学習においては,LLMが思考の構造化と「白紙症」の克服に役立つ一方で,文脈的なニュアンスに欠ける限界がある。
- ピアレビューでは,LLMは中立的な仲介者として機能し,社会不安や他人を傷つける恐れを軽減する。
SCPL:分離された局所損失とモデル並列化によるニューラルネットワークの学習スループット向上 [cs.LG, cs.AI]目的:ニューラルネットワークの学習スループット向上
- 企業情報システムへの大規模AIモデル導入は重要だが,高コストと開発期間が課題である。
- 深層ネットワーク学習におけるバックプロパゲーションの非効率性がボトルネックとなっている。
- バックプロパゲーションの分離と勾配フローの短縮による学習効率化を目指す。
- 提案手法SCPLは,バックプロパゲーションを分離し,複数の短い勾配フローに変換することで,モデル並列化を促進する。
- BP,Early Exit,GPipe,ALといった既存手法と比較して,SCPLは高い効率と有効性を示す。
- SCPLは,AIモデル開発・展開のコスト削減と迅速化に貢献し,実用的な道筋を提供する。
SPGCL:SVD誘導構造摂動によるシンプルかつ強力なグラフ対照学習 [cs.LG, cs.AI]目的:グラフ対照学習によるロバスト性の向上
- グラフニューラルネットワークは,様々な応用で高い性能を示すが,構造ノイズに弱いという課題がある。
- 既存のグラフ対照学習手法は,多様性確保と構造情報の維持のバランスが難しく,十分な性能を発揮できない場合がある。
- SVD誘導構造摂動を用いて,多様性と構造情報の両立を図り,GNNのロバスト性と精度を向上させる。
- SPGCLは,軽量な確率的エッジ削除とSVDによるスコアリングを組み合わせることで,構造ノイズに対するロバスト性を高める。
- 重要なエッジはSVD誘導スコアリングによって回復可能であり,意図的な削除や偶発的な削除に対して強い。
- 10のベンチマークデータセットにおいて,最先端のグラフ対照学習手法や構造学習手法を上回る性能を示すことが確認された。
球面座標による埋め込み圧縮 [cs.LG, cs.CV]目的:単位ノルム埋め込みの圧縮手法
- 機械学習モデルのサイズ削減は,計算資源の節約や高速化に不可欠である。
- 既存の可逆圧縮手法では十分な圧縮率が得られていない場合がある。
- 埋め込みベクトルの分布に着目し,より高効率な圧縮を実現する。
- 本研究で提案する手法は,既存の最良の可逆圧縮手法よりも25%高い圧縮率を達成した。
- 球面座標の特性を利用することで,浮動小数点数の指数部が集中し,符号化を効率化できる。
- テキスト,画像,マルチベクトル埋め込みを含む26の構成において,一貫した改善が確認された。
MapDream:視覚言語ナビゲーションのためのタスク駆動型マップ学習 [cs.RO, cs.AI, cs.CV]目的:視覚言語ナビゲーションにおけるタスク駆動型マップ学習
- ロボットナビゲーションにおいて,環境理解と行動計画は不可欠であり,その性能向上は重要な課題である。
- 従来のマップ表現は,手作業で作成されるか,ナビゲーションとは独立しており,効率的な学習が困難である。
- ナビゲーションタスクに特化したマップ表現を学習することで,効率的かつロバストなナビゲーションを実現する。
- MapDreamは,マップ構築を自己回帰的な鳥瞰図画像合成として定式化するループ内フレームワークである。
- マップ生成と行動予測を同時に学習することで,ナビゲーションに重要な環境情報をコンパクトなマップに集約する。
- R2R-CEおよびRxR-CEにおいて最先端の単眼性能を達成し,タスク駆動型生成マップ学習の有効性を実証した。
ジョブショップスケジューリングに対する変分アプローチ [cs.LG, cs.AI]目的:ジョブショップスケジューリング問題に対する変分グラフ・トゥ・スケジューラ(VG2S)フレームワーク
- 製造業における効率化と資源活用に不可欠であり,生産性向上に大きく貢献する分野である。
- 深層強化学習(DRL)では,学習中の非定常性や未知の問題インスタンスへの汎化性能の低さが課題となる。
- 表現学習と方策最適化を分離することで,より安定した学習と頑健性を実現し,汎化性能を向上させる。
- 提案手法VG2Sは,最先端のDRLベースラインや従来のディスパッチルールと比較して,ゼロショット汎化性能が優れていることが実験的に示された。
- 特に,大規模かつ困難なベンチマークインスタンス(DMU,SWV)において,顕著な成果が得られた。
- 変分推論をジョブショップスケジューリング問題に導入することで,安定した学習と汎化性能の向上に成功した。
動的専門家誘導敵対的学習とオンライン分解によるスケーラブルなキャパシティード車両経路問題 [cs.LG]目的:大規模キャパシティード車両経路問題に対する高性能な解法
- 車両経路問題は物流効率化の鍵であり,規模拡大に伴う最適化の重要性が増している。
- 従来の解法は大規模問題に対して計算量が増大し,汎化性能が低いという課題がある。
- 専門家の知識を効率的に学習し,大規模問題に対する高速かつ高品質な解を導くこと。
- OD-DEALは,遺伝的探索とオンラインクラスタリング分解を組み合わせた敵対的学習フレームワークである。
- 専門家ヒューリスティックの知識蒸留により,大規模グラフ上での高性能な推論を可能にしている。
- 10,000ノードの問題に対し,ほぼ一定時間でヒューリスティックと同等の解を得るSOTAな性能を示した。
NEST:多重集合列に対するネスト型イベントストリーム変換器 [cs.DC, cs.RO, cs.LG]目的:多重集合列を扱うイベントストリームデータに対する新たな基礎モデル
- イベントストリームは医療記録など様々な分野で出現し,時系列データの解析に不可欠である。
- 既存モデルはイベントの階層構造を無視し,計算効率と表現の質が低下する問題がある。
- イベントの階層構造をモデルに組み込み,効率性と表現力を向上させることを目指す。
- NESTは,イベントストリームの階層構造を保存することで,既存モデルよりも計算効率と表現品質を向上させる。
- マスク集合モデリング(MSM)という効率的な学習パラダイムを新たに提案し,集合レベルの表現学習を促進する。
- 実際の多重集合列データを用いた実験により,NESTが現実世界の動態を捉え,事前学習と下流タスクの両方の性能を向上させることが示された。
構造化された自己整合性:VirtualHomeにおけるLLMのマルチタスク評価 [cs.AI]目的:LLMのVirtualHomeベンチマークにおける評価
- 具現化AIの発展には,環境理解と行動計画が不可欠である。
- LLMの構造化されたタスク生成における出力品質には課題がある。
- 多様なサンプリングとドメイン固有の投票メカニズムによる出力品質向上。
- 提案手法である構造化された自己整合性(SSC)は,LLMの性能を大幅に向上させた。
- OPENPANGU-7Bは階層的計画に優れ,QWEN2.5-7Bは行動レベルタスクで強みを示した。
- モデルタイプごとの補完的な強みが明らかになり,具現化AI開発に示唆を与える。
少ない情報からの学習:ベンチマーク圧縮のための内部表現の解明 [cs.RO, cs.AI]目的:ベンチマーク圧縮のための内部表現の活用
- 大規模言語モデルの評価コストが高く,効率的な評価方法が求められている。
- 既存手法は,少数のモデルから信頼性の高い評価プロファイルを推定する際に統計的な不安定性がある。
- 隠れ状態にエンコードされた情報を活用し,より少ないモデル数で正確な性能予測を実現する。
- 提案手法REPCOREは,異質な隠れ状態を統一的な潜在空間に配置することで,代表的なコアセットを構築する。
- REPCOREは,わずか10個のモデル数でも,正確な性能予測を可能にする。
- スペクトル分析により,配置された表現が応答傾向とタスク固有の推論パターンを反映していることが示された。
HyperOffload:SuperNodeアーキテクチャにおける大規模言語モデル向けのグラフ駆動階層型メモリ管理 [cs.DC, cs.AI, cs.AR]目的:SuperNodeアーキテクチャにおける大規模言語モデルの効率的なメモリ管理
- 大規模言語モデルの発展により,メモリ需要が急増しており,単一デバイスのHBM容量を超えつつある。
- 既存のソフトウェアスタックは,SuperNodeアーキテクチャのハードウェア能力を十分に活用できていない。
- コンパイラによる最適化を通して,リモートメモリアクセスを隠蔽し,計算パイプラインの停滞を解消することを目指す。
- SuperNodeは,コンパイラ内でデータ移動をキャッシュオペレータとして表現することで,グローバルな視点でのメモリ管理を実現した。
- Tensorのライフタイムと実行依存関係を静的に分析し,リモートメモリの遅延を隠蔽するデータ転送のスケジュールを最適化した。
- MindSporeへの実装による評価の結果,推論時のピークメモリ使用量を最大26%削減し,エンドツーエンドの性能を維持した。
自己相似変数における熱方程式の学習 [cs.LG, math-ph, math.MP]目的:自己相似変数における熱方程式の解学習
- 流体現象の予測は科学技術の発展に不可欠であり,高精度なモデル構築が求められている。
- 従来の物理座標系では,長時間の予測や外挿において精度が低下しやすいという課題がある。
- 自己相似変数を用いることで,長時間のダイナミクスをより正確に学習することを試みる。
- 自己相似変数で学習したネットワークは,物理座標系で学習したネットワークと比較して,訓練範囲外の予測精度と安定性が大幅に向上した。
- 両方のシステムとアーキテクチャにおいて,自己相似変数は長時間の挙動を捉える上で有効な誘導バイアスを提供することが示唆された。
- 自己相似座標系は,熱方程式の長期的挙動を学習するための数学的に正当化された誘導バイアスとなり得る。
幻覚は空間最適性の結果である:メンバーシップテストのためのレート歪理論 [cs.HC, cs.LG, cs.AI, cs.CL, cs.DS, cs.IT, math.IT]目的:大規模言語モデルにおける幻覚のメカニズム解明
- 言語モデルの性能向上に伴い,その信頼性確保が重要課題となっている。
- 言語モデルは事実に基づかない内容を高い確信度で生成する「幻覚」を起こしやすい。
- 有限のモデル容量下での情報圧縮の限界が,幻覚発生の根本原因を解明する。
- 本研究では,幻覚をメンバーシップテスト問題として定式化し,レート歪理論を用いて理論的枠組みを構築した。
- 理論的考察から,最適な情報圧縮戦略として,一部の誤った情報に高い確信度を与えることが示された。
- 合成データを用いた実験により,幻覚が損失圧縮の自然な結果として発生することが確認された。
マルチエージェントチームは専門家を妨げる [cs.MA, cs.AI]目的:マルチエージェントLLMシステムにおけるチームパフォーマンスの低下とその原因の分析
- LLMエージェントの自律的な協働は,様々なタスクの効率化に貢献し,その応用範囲は広い。
- 自律的なチームでは,効果的な連携が事前に設計できず,その実現が課題である。
- LLMチームが専門家の能力を十分に活用できない理由を特定し,改善策を模索する。
- LLMチームは,人間チームとは異なり,専門家のパフォーマンスに一貫して及ばないことが示された。
- パフォーマンス低下の主な要因は,専門家の知識の適切な活用ができていないことである。
- チーム規模が大きくなるほど,専門家の意見と非専門家の意見を平均化する傾向が強まり,パフォーマンスが低下する。
検索クエリ自動補完におけるランキングと生成の統合:検索拡張生成と多目的アライメントによるアプローチ [cs.IR, cs.AI, cs.LG]目的:検索クエリ自動補完におけるランキングと生成の統合
- 検索体験の向上は,ユーザーが意図を明確にし,効率的に情報にアクセスするために不可欠である。
- 従来のランキング手法は,長尾のクエリへの対応が難しく,特徴量エンジニアリングに多くの労力がかかる。
- 生成モデルの幻覚や安全性に関するリスクを軽減しつつ,より効果的な自動補完を実現すること。
- 検索拡張生成(RAG)と多目的直接選好最適化(DPO)を用いた統一的なフレームワークにより,オフライン指標で全体的な改善が確認された。
- 人間による評価では,+0.40から+0.69の選好スコアが得られ,オンライン実験ではキーストローク数が5.44%減少し,サジェストの採用率が3.46%増加した。
- 本研究は,大規模言語モデル,RAG,多目的アライメントを活用したエンドツーエンド生成パラダイムへの転換を示す。
車両におけるエラーパターンルール自動化のためのマルチエージェント因果推論システム [cs.AI, cs.SE]目的:エラーパターンルールの自動生成
- 自動車の複雑化に伴い,安全性確保のための故障検出が重要になっている。
- エラーパターンルールは専門家が手動で作成しており,コストとエラーの温床となっている。
- 高次元なDTCイベント系列から,エラーパターンルールを自動的に発見することを試みる。
- CAREPは,DTCとエラーパターン間の関係を特定し,メタデータと記述を統合する。
- 大規模な自動車データセットを用いた評価で,CAREPは既存手法やLLMよりも高い精度を示した。
- CAREPは,解釈可能な因果関係の説明を提供し,効率的な車両メンテナンスに貢献する。
MiTAアテンション:トップk活性化の混合による効率的な高速重みスケーリング [cs.FL, cs.LG, cs.CV]目的:高速重みスケーリングの効率化
- Transformerの性能向上は,自然言語処理や画像認識など様々な分野で重要である。
- Transformerのアテンション機構は,系列長が長くなるほど計算コストが増大する。
- トップk活性化の混合により,アテンション機構のスケーリングコストを削減することを目指す。
- MiTAアテンションは,アテンション機構を高速重みMLPとして捉え,トップk活性化の混合によって効率化を図る。
- ランドマーククエリを用いてMLPを圧縮し,活性化されたキーバリューペアを集めることで,変形可能なエキスパートを構築する。
- 画像認識タスクにおける予備実験で,MiTAアテンションの有効性が示唆された。
重い裾を持つマルコフ決定過程に対する両者の利点を併せ持つ手法 [cs.CL, cs.LG]目的:重い裾を持つフィードバックを持つエピソードマルコフ決定過程のアルゴリズム開発
- 強化学習は,様々な意思決定問題を解決する強力な手法であり,その応用範囲は広い。
- 重い裾を持つ報酬のマルコフ決定過程では,従来のアルゴリズムは保守的になりやすく,適応性に欠ける。
- 本研究は,敵対的環境と自己バウンディング環境の両方で最適な性能を発揮するアルゴリズムを開発する。
- 提案手法HT-FTRL-OMは,敵対的環境においてインスタンスに依存しない後悔量を,自己バウンディング環境において対数的なインスタンス依存後悔量を達成する。
- 既知の遷移設定において,HT-FTRL-OMは,占有測度に対するFTRLフレームワークを用いることで,$\widetilde{O}(T^{1/\alpha})$ の敵対的環境での後悔量と,$O(\log T)$ の確率的環境での後悔量を達成する。
- 未知の遷移設定に対するHT-FTRL-UOBは,悲観的なスキッピング損失推定器を利用し,$\widetilde{O}(T^{1/\alpha} + \sqrt{T})$ の敵対的環境での後悔量と,$O(\log^2(T))$ の確率的環境での後悔量を達成する。
