arXiv雑要約
AI - 2026/05/19 公開
UxSID:超長系列における意味理解に基づいたユーザー興味モデリング [cs.AI, cs.IR, cs.LG]目的:超長系列ユーザーデータの効率的かつ効果的なモデリング
- オンライン広告や推薦システムにおいて,ユーザーの興味を正確に捉えることは重要である。
- 既存手法は,アイテム固有の検索か無差別に圧縮するかの二択であり,計算コストや表現力の課題がある。
- 意味グループ共有興味メモリを用いて,計算コストを抑えつつ,意味理解に基づいた興味モデリングを実現する。
- 提案手法UxSIDは,セマンティックIDと二段階注意機構により,アイテム固有のコストを削減しつつ,ターゲットを意識したユーザーの嗜好を捉える。
- 実験結果から,UxSIDは最先端の性能を達成し,大規模広告A/Bテストにおいて0.337%の収益増加を実現した。
- UxSIDは,計算効率と意味理解のバランスに優れた,エンドツーエンドなアーキテクチャである。
いつ停止すべきかを学習する:任意のダイナミクスシフト下における選択的模倣学習 [cs.LG]目的:任意のダイナミクスシフト下における選択的模倣学習モデル
- ロボットの環境適応や,現実世界への応用において,模倣学習は重要な役割を担う。
- 訓練環境とテスト環境のダイナミクスが異なる場合,従来の模倣学習では性能が低下する可能性がある。
- テスト環境で信頼性の高い行動が取れない場合に,学習者が停止するメカニズムを確立すること。
- 提案手法SeqRejectronは,訓練環境ではほとんど停止せず,テスト環境では停止前に低い後悔を被るような選択的ポリシーを構築する。
- 決定論的ポリシーの場合,疎なコストを仮定して,$\tilde{O}(\log|\Pi|/\epsilon^2)$ のサンプル複雑度を達成する。
- 専門家の不正確さや,訓練とテスト環境でのポリシーの違いに対しても,性能劣化を最小限に抑えることができる。
少ないサンプルでのマルチモーダル時系列分類を促進する,カスタマイズされたエージェント的推論 [cs.AI, cs.LG, cs.MA, cs.MM]目的:少ないサンプルでのマルチモーダル時系列分類のためのエージェント的推論フレームワーク
- 時系列データは,金融,医療,センシングなど,多くの分野で広く利用されている。
- 少ないサンプルしかない状況での時系列分類は,依然として困難な課題である。
- 本研究は,視覚言語モデルを活用し,エージェント的推論により分類精度と解釈性を向上させる。
- 提案手法MarsTSCは,12の時系列ベンチマークにおいて,6つの視覚言語モデルで一貫して高い性能を示した。
- 従来の時系列分類手法や,他のファウンデーションモデルと比較して,有意な改善が見られた。
- 各分類決定に対する根拠となる特徴量を人間が理解できる形で提示し,解釈性を高めた。
RubricRefine:事前実行でのリファインメントにより,ツール使用エージェントの信頼性を向上 [cs.LG, cs.SE]目的:ツール使用エージェントの信頼性向上
- 大規模言語モデルによるツール使用は,複雑なタスク解決の可能性を広げる。
- 現在のツール使用エージェントは,ツール間の契約違反といった問題に弱く,実行時フィードバックだけでは不十分。
- 事前実行での意味的契約検証により,実行前にエラーを検出し,修正することで信頼性を高める。
- RubricRefineは,7つのモデルでM3ToolEvalにおいて0.86のスコアを達成し,既存の推論時ベースラインを大幅に上回った。
- RubricRefineは,実行を必要とせず,最大2.6倍低いレイテンシを実現した。
- 単一ステップのAPI-Bankでは性能が横ばいであり,ツール間契約構造への依存性を示唆している。
EnactToM:具現化されたエージェントにおける機能的心の理論の進化するベンチマーク [cs.AI, cs.MA]目的:具現化されたエージェントにおける機能的心の理論の評価
- 人間が効率的な協調を実現するためには,他者の認識状態を理解することが不可欠である。
- 既存のベンチマークは直接的な信念質問に重点を置いており,環境内で暗黙の信念に基づいて最適に行動する機能的心の理論の評価が不十分である。
- 機能的心の理論の評価を可能にし,モデルの能力向上に対応して難易度を調整するベンチマークを提供する。
- EnactToMは,部分観測性,秘密情報,および制限された通信を特徴とする3D環境における300の具現化されたマルチエージェントタスクで構成される。
- 難易度の高いタスク分割において,評価された7つの最先端モデルは機能的タスク完了において0.0%のPass^3スコアであったのに対し,リテラルな信念プローブでは平均45.0%であった。
- 失敗の原因の多くは,情報共有の不備,相手の制約の無視,メッセージの誤った割り当てなど,認識的な協調の破綻にあることが分析から明らかになった。
Concordia:連合学習LLMのための自己改善型合成テーブル [cs.LG]目的:連合学習におけるLLMの適応
- データ共有が困難な状況下でもLLMの性能を維持・向上させることは重要である。
- データプライバシー保護と非IIDクライアント分布への対応が課題となっている。
- 異質なクライアント環境下での性能低下を防ぐための手法を確立する。
- Concordiaは,合成データ生成と連合検証の有用性を連携させる三層最適化フレームワークである。
- クライアントは,合成テーブル上でパラメータ効率の良いLoRA訓練を行い,検証フィードバックに基づいて合成サンプルを再重み付けする。
- 各クライアントは,グループ相対的方策最適化(GRPO)を用いて合成テーブル生成器を改良し,金融・医療分野のベンチマークで有効性が示された。
LLMエージェント市場における戦略的利用:eコマース信頼性に関するシミュレーションフレームワーク [cs.AI]目的:LLMエージェント市場における戦略的利用の分析
- 経済学において,人間の行動を研究する上でABMは重要な役割を果たす。
- eコマース市場における情報非対称性が存在し,売り手による品質隠蔽が問題である。
- LLMエージェントが市場の脆弱性を利用する行動をシミュレーションにより分析する。
- TruthMarketTwinフレームワークを用いて,売り手と買い手の間の戦略的行動をモデル化した。
- LLMエージェントは従来の市場において,レピュテーションに基づくガバナンスの弱点を自律的に利用する。
- 保証の実施は欺瞞を減らし,戦略的思考を再構築する効果が認められた。
DynGhost:量子検出器を用いた動的ゴーストイメージングのための時間モデル化トランスフォーマー [eess.SY, cs.SY, cs.CV, cs.AI]目的:動的ゴーストイメージングにおける画像再構成手法
- ゴーストイメージングは,単一ピクセル検出器で空間情報を再構成する技術であり,多様な応用が期待される。
- 既存手法は,時間的な相関を活かせておらず,動的シーンへの適用が困難である。また,現実的なノイズモデルに対応できていない。
- 現実的な量子検出器の特性を考慮し,時間的な相関を捉えることで,動的ゴーストイメージングの性能向上を目指す。
- DynGhostは,空間的・時間的な注意機構を組み合わせたトランスフォーマーアーキテクチャである。
- 物理的に正確な検出器シミュレーションとAnscombe正規化に基づく学習フレームワークにより,現実的な条件下での性能劣化を抑制する。
- 複数のベンチマークにおいて,従来の再構成手法や既存の深層学習アーキテクチャと比較して,特に動的かつ光子数の少ない環境で優れた性能を示す。
強化学習において,非一様リプレイはいつ重要となるか [cs.LG, cs.AI]目的:非一様リプレイの有効性を左右する要因の解明
- 強化学習は,複雑な問題を自律的に解決する技術であり,ロボット工学やゲームなど幅広い分野で活用が期待されている。
- オフポリシー強化学習ではリプレイバッファが重要だが,単純な一様サンプリングが広く用いられ,非一様リプレイの利点が不明確である。
- リプレイ量,最近接性,サンプリング分布のエントロピーが非一様リプレイの有効性を決定することを明らかにすること。
- 非一様リプレイは,リプレイ量が少ない場合に特に有効であることが示された。
- 高いエントロピーのサンプリングは,最近接性が同程度の場合でも重要であることがわかった。
- Truncated Geometricリプレイという,近年の経験に偏りつつ高エントロピーを維持する手法が,サンプル効率の向上に貢献した。
SLASH:LLMにおける構造的注意機構の強化 [cs.AI]目的:LLM内部の構造的注意機構の強化
- LLMは言語理解に優れるが,グラフ構造の理解には課題がある。
- 既存手法は追加学習が必要で,汎用性が低い。
- LLM内部の構造理解能力を引き出す手法の開発。
- LLMは系列化されたグラフ構造を処理する際に,内部的にグラフのトポロジーを再構成する。
- この再構成は注意マップの「鋸歯状」パターンとして現れる。
- SLASHは,学習を伴わずに注意機構を再分配し,構造理解を強化する。
ア adjoint Matching の強化:拡散モデルとフローマッチングモデルのポストトレーニングにおける強化学習のスケールアップ [cs.LG, cs.CV]目的:拡散モデルとフローマッチングモデルのポストトレーニングにおける強化学習の効率的なスケールアップ
- 拡散モデルやフローマッチングモデルは,画像生成などの分野で目覚ましい成果を上げており,その重要性は増している。
- 従来の強化学習によるポストトレーニングは,計算コストが高く,事前学習の構造を損なう問題があった。
- 報酬関数を用いたターゲットの修正を通じて,事前学習の構造を維持しつつ,ポストトレーニングの効率を向上させる。
- 本研究では,Reinforce Adjoint Matching (RAM) という新しい損失関数を提案し,SDEロールアウトや報酬勾配を必要とせずに,効率的な学習を実現した。
- Stable Diffusion 3.5Mを用いた実験の結果,RAMはコンポジション,テキストレンダリング,人間の好みの点で最高の報酬を達成し,Flow-GRPOのピーク報酬に匹敵する性能を示した。
- RAMは,従来のFlow-GRPOと比較して,最大で50倍少ない学習ステップ数で同等の性能を達成可能であることが示された。
潜在的後方サンプリングによる3D構造予測 [cs.CV, cs.LG]目的:3Dシーンの潜在変数を用いた3D構造予測手法
- 2D画像生成モデルや3Dシーンのニューラルフィールド表現の進展により,両者の統合が期待されている。
- 3D再構成には不確実性が伴うため,それを適切にモデル化することが課題である。
- 拡散モデルを用いた後方サンプリングにより,観測データからの3D構造予測における不確実性を考慮する。
- 本手法は,単一視点,複数視点,ノイズ画像,疎なピクセル,疎な深度データなど,多様な観測データから3D構造を正確に予測可能である。
- 拡散モデルとボリューメトリックレンダリングを組み合わせることで,観測データの情報量に応じた不確実性をモデル化できる。
- 3D再構成モデルと潜在変数の事前分布を段階的に学習することで,高精度な3D構造予測を実現した。
大規模言語モデルにおけるペルソナ不一致を通じた文化的整合性の学習(ファインチューニング不要) [cs.CL, cs.AI, cs.CY]目的:大規模言語モデルの文化的な偏りの軽減
- 倫理的判断を伴う意思決定において,大規模言語モデルの利用が増加しているため,その文化的偏りの理解と制御が重要である。
- 既存の文化的な整合性の手法は,国ごとのデータやモデル内部へのアクセスを必要とし,実用的なAPI環境での利用が困難である。
- 本研究は,外部APIのみを用いて,大規模言語モデルの文化的な偏りを,推論時にペルソナの不一致を利用して軽減することを目指す。
- DISCAは,World Values Surveyに基づいたペルソナを各国に割り当て,その不一致をロジット補正に変換する推論時手法である。
- 20カ国,7種類のオープンウェイトモデル(2B~70B)において,MultiTPの文化的な不整合を10~24%削減することに成功した。
- オープンエンドのシナリオにおいても,2~7%の改善が見られ,ファインチューニングに代わるスケーラブルな解決策となりうることを示唆する。
エージェント強化学習における動的なスキルライフサイクル管理 [cs.LG, cs.CL]目的:エージェント強化学習のための動的スキルライフサイクル管理
- 複雑なタスク解決において,大規模言語モデルエージェントは外部スキルに依存しており,その管理が重要である。
- 既存手法はスキルの累積を想定しているため,最適なアクティブスキルセットがタスクや段階によって変動するという点が考慮されていない。
- タスクと段階に応じてアクティブなスキルセットを動的に最適化し,効率的なスキル管理を実現することを目的とする。
- 提案手法SLIMは,スキルライフサイクルを動的に管理することで,ALFWorldとSearchQAにおいて既存手法を平均7.1%上回る性能を示した。
- SLIMは,ポリシー学習と外部スキルの維持を両立しており,より汎用的なスキルベースエージェント強化学習のパラダイムを提供する。
- スキルの貢献度を検証し,価値の高いスキルを維持,貢献度が低いスキルを廃止,必要な能力を拡張することで性能向上を実現した。
ハイパースフェリックフローによる言語モデリング [cs.HC, cs.LG]目的:言語モデリングにおけるハイパースフェリックフローの導入
- 言語モデリングは,自然言語処理の基盤技術であり,様々な応用を可能とする。
- 従来の離散拡散言語モデルは並列生成が可能だが表現力に課題があり,フロー言語モデルは計算コストが高い。
- ハイパースフェリック空間でのフロー言語モデルにより,効率的な言語生成と推論を目指す。
- ハイパースフェリックフロー言語モデル(S-FLM)は,ワンホットベクトルの扱いを回避し,計算コストを削減する。
- S-FLMは,大規模語彙における推論能力を向上させ,マスク拡散モデルとの性能差を縮小した。
- 最適化された低温デコーディング下では依然として性能差が残るものの,生成パープレキシティにおいて大幅な改善が見られた。
ビジョン・言語モデルは,ポイント&クリックパズルゲームにおいて人間らしい論理的問題解決能力を示すか? [cs.AI]目的:ポイント&クリックパズルゲームにおける人間らしい論理的問題解決能力の評価
- 近年,インタラクティブ環境への応用が進む中で,複雑な物理的推論能力の評価が重要となる。
- 既存のベンチマークは,論理的推論と正確なマウス操作を必要とする問題への対応が不十分である。
- 古典的な物理パズルゲームを用いて,ビジョン・言語モデルの論理的推論と実行能力のギャップを明確化する。
- 大規模なプロプライエタリモデルは優れた計画能力を示す一方,正確な視覚的認識に課題があることが示された。
- その結果,現時点では人間のような問題解決能力は示されていない。
- 本研究で提案するVLATIMベンチマークは,論理的推論と継続的な行動空間を統合的に評価できる。
MLCommons Chakra:標準化された実行トレースを用いた性能評価と共同設計の推進 [cs.DC, cs.LG, cs.PF]目的:分散型機械学習ワークロードの挙動観測,再現,最適化のための環境
- AI技術の急速な発展に伴い,実用的なAIシステムにおける性能評価が重要になっている。
- 分散型MLワークロードの挙動を正確に把握し,再現することは困難である。
- 標準化された実行トレースを用いて,SW-HW共同設計を効率化することを目指す。
- Chakraは,分散型AI/MLワークロードの性能評価と共同設計のためのオープンでポータブルなエコシステムである。
- Chakraの核心は,計算,メモリ,通信などの主要な操作をグラフ形式で表現した実行トレース(ET)である。
- 実環境のAIクラスターで収集されたChakra ETの分析により,その有効性が実証された。
生成AIにおける因果バイアスの検出 [cs.AI, cs.LG, stat.ML]目的:生成AIにおける因果バイアスの問題の形式化と定量化
- AIの利用拡大に伴い,公平性と差別問題への関心が高まっている
- 従来の因果的公平性の研究は,予測モデルに限定されており,生成AIには適用できない
- 生成AI特有の因果構造を考慮した公平性評価手法を開発する
- 生成AIにおける因果バイアスを,異なる因果経路と現実世界のメカニズム置換という観点から定量化する新しい分解結果を導出した
- 因果関係の識別条件と効率的な推定量を確立し,大規模言語モデルにおける人種と性別のバイアス分析を通して手法の有効性を示した
- 標準的な機械学習設定と生成AI設定を共通の理論的枠組みの下に統一した
勝者総取りの打破:協調的な方策最適化が多様なLLMの推論を向上させる [cs.AI, cs.LG]目的:LLMの推論における多様性の向上
- LLMの推論能力向上は,自然言語処理の発展に不可欠であり,実用的な応用を促進する。
- 既存のグループ最適化手法は,探索の崩壊に陥りやすく,多様な解を見つけられない場合がある。
- チームの協力による解の多様性と精度を向上させる新たな最適化手法を提案し,既存手法の課題を克服する。
- 本研究では,GCPOという新しい方策最適化手法を提案し,ロールアウト間の競争ではなく,チームとしての協調性を重視した学習パラダイムを確立した。
- GCPOは,チーム全体の有効な解の網羅率に貢献度に応じてロールアウトに報酬を与えることで,冗長性のない正確な推論経路を促進する。
- 複数の推論ベンチマークにおいて,GCPOは既存手法と比較して,推論精度と解の多様性の両方で有意な改善を示した。
拡散モデルのファインチューニングのための効率的な随伴マッチング [cs.LG]目的:拡散モデルのファインチューニングにおける効率向上
- 画像生成AIにおいて,人間の好みに合わせるためのファインチューニングが重要である。
- 従来の随伴マッチング法は計算コストが高く,学習効率が課題となっていた。
- 本研究は,随伴マッチング法の効率を向上させ,学習時間を短縮することを目指す。
- 提案手法EAMは,AMと比較して最大4倍高速に収束することを示した。
- EAMは,PickScore,ImageReward,HPSv2.1,CLIPScore,Aestheticsといった様々な評価指標でAMと同等またはそれ以上の性能を達成した。
- EAMは,線形なベースドリフトと修正された終端コストによって効率化を実現した。
AutoLLMResearch:LLM実験設定の自動化に向けた研究エージェントの訓練 - 安価な学習,高価な最適化 [cs.AI, cs.CL, cs.LG]目的:LLM実験設定の自動化
- LLM研究の進展には実験設定が不可欠であり,適切な設定が計算資源の浪費を防ぎ,モデルの潜在能力を引き出す。
- 既存の自動化手法は低コスト環境向けであり,大規模LLM実験のように高コストな反復試行には不向きである。
- 本研究は,高コストなLLM実験設定を自動化し,専門家の直感に依存せず,効率的な探索を可能にすることを目指す。
- AutoLLMResearchは,低忠実度実験から一般化可能な原理を学習し,高コストLLM設定で有望な構成を効率的に特定するエージェントフレームワークである。
- LLMConfig-Gymという多忠実度環境と,構成研究を長期的マルコフ決定過程として定式化する訓練パイプラインを提案する。
- 保留実験での評価により,フレームワークの有効性,汎化能力,解釈可能性が実証され,スケーラブルなLLM実験自動化の有望な解決策となる。
LLMの推論能力を評価するための標的テスト:監査制約プロトコル [cs.LG]目的:LLMの推論能力評価のための標的テストプロトコル
- 大規模言語モデルの性能評価は,その実用化において不可欠である。
- プロンプトのわずかな変化でモデルの挙動が変動し,評価の信頼性が損なわれる。
- プロンプト変動による誤りを排除し,正確なモデル評価を可能にすること。
- 提案された監査制約プロトコルは,形式的な問題や抽出アーティファクトを除外して,モデルのエラーを特定する。
- Component-Adaptive Prompt Sampling (CAPS)と一様サンプリングを比較した結果,CAPSが有意な改善を示さなかった。
- 再構成可能でレビュー可能なプロトコルは,プロンプト変動の研究に有効であり,監査された結果に基づいて評価する必要がある。
MIST:McDiarmidの限界を用いたオンラインクラス増分学習のための信頼性の高いストリーミング決定木 [cs.LG, math.ST, stat.TH]目的:オンラインクラス増分学習のための,信頼性の高いストリーミング決定木の構築
- 継続学習は,現実世界のデータ分布の変化に対応するため重要である。特に,新しいクラスが次々と現れる状況で重要性が増す。
- 従来のストリーミング決定木は,クラス数の増加に伴い性能が低下する。これは,分割基準の信頼性低下と知識伝達の欠如に起因する。
- MISTは,McDiarmidの限界に基づき,クラス数に依存しない分割基準と知識伝達プロトコルを導入することで,この問題を解決する。
- MISTは,Gini分割に対するクラス数に依存しないMcDiarmid信頼半径を導入し,構造的な正則化を実現している。
- また,Truncated-Gaussianモーメントを用いたベイズ継承プロトコルにより,親ノードの統計情報を子ノードへ投影し,知識伝達を可能にしている。
- 標準的なテーブル形式データセットとストレス条件下で,MISTは既存手法と同等以上の性能を示し,特に非ガウス分布データにおいて堅牢性を示した。
プロトタイプに基づく意味的部品発見による耐候性のあるクロスビュージオロケーション [cs.CV, cs.AI, cs.RO]目的:クロスビュージオロケーションのロバスト性向上
- GNSS利用困難な環境下での自律ドローンナビゲーションにおいて,代替手段として重要性が増している。
- 既存手法では,視点間のギャップにおけるレイアウトとテクスチャの分離が不十分である。
- 学習された埋め込み表現における高度変化の影響を軽減し,ロバスト性を高めることを目指す。
- 提案手法SkyPartは,軽量かつ交換可能なヘッドとして,パッチベースのViTに組み込むことができる。
- SUES-200,University-1652,DenseUAVのデータセットで最先端の性能を達成した。
- 特に,10種類の気象条件によるWeatherPromptベンチマークにおいて,既存手法との差が顕著に拡大した。
継続 Few-Shot 学習における構成的汎化の解明 [cs.LG, cs.CV]目的:継続 Few-Shot 学習における構成的汎化能力の向上
- Few-Shot 学習は,限られたデータから新たな概念を学習する上で重要であり,実用的な応用範囲が広い。
- 従来の継続学習では,表現が既知のパターンに縛られ,真に新しい概念への汎化が困難である。
- 表現学習と構成的推論を厳密に分離することで,新しい概念への転移能力を高めることを目指す。
- 自己教師あり Vision Transformer (ViT) の持つパッチレベルのセマンティック幾何学性を活用した二段階戦略を提案した。
- 訓練時は,スロット表現を全体的なクラス識別に向けて最適化し,汎用性の高いオブジェクトレベルの幾何学性を維持する。
- 推論時は,保存されたスロットを動的に構成し,新しいシーンに適合させることで,未学習概念の汎化性能を向上させた。
ニューラル演算子関数埋め込み (NOFE) [cs.LG]目的:連続次元削減のためのドメイン認識型フレームワーク
- 現実世界の多くのプロセスは連続的なドメイン構造を持つため,その構造を考慮した次元削減が重要である。
- 従来の次元削減手法はデータを離散的な点群として扱うため,連続的なドメイン構造を無視するという課題がある。
- この研究は,連続ドメインにおける次元削減を実現し,離散的な手法の限界を克服することを目的とする。
- NOFEは,PCA,t-SNE,UMAPといった既存手法と比較して,局所構造の保存において大幅な性能向上を示した。
- ERA5気候再解析データセットにおいて,NOFEの局所ストレスは0.111であり,PCAの0.398,t-SNEの0.773,UMAPの0.791を大きく上回る。
- NOFEはサンプリングに依存せず,UMAPと比較してパッチステッチングエラーを最大20倍削減し,一貫性のある埋め込みを生成する。
確率的最小コスト到達回避強化学習 [cs.LG]目的:確率的環境下における到達回避仕様を満たしつつ,期待累積コストを最小化すること
- ロボットの安全な運用や,制約条件を満たす計画立案において重要である。
- 確率的環境下で,到達回避制約とコスト最適化を同時に行うことが困難である。
- 確率的到達回避制約を満たす状態を特定し,強化学習に組み込むことで問題を解決する。
- 到達回避確率証明(RAPC)を導入し,確率的制約下でのコスト最適化を可能にした。
- 提案手法は,局所最適解への確率的収束を理論的に保証する。
- MuJoCoシミュレータでの実験で,コスト性能と到達回避達成率の向上が確認された。
違いを分割し,残りを統合する:効率的な多目的模倣学習 [cs.LG]目的:多目的マルコフ決定過程におけるパレート最適専門家からのデモンストレーションに基づいて,パレートフロント上に存在するポリシーの復元
- ロボット工学や意思決定など,複数の目的を同時に最適化する必要がある場面が多い
- 複数の専門家の行動を単純に統合すると,最適でないポリシーが得られる可能性がある
- 相反する行動データを体系的に分割し,共通部分を統合することで,効率的な学習を実現する
- 提案手法MA-BCは,各専門家のデータセットを独立に扱う学習者よりも高速な統計的収束率を持つことが理論的に証明された
- MA-BCは多目的模倣学習の下限を確立し,ミニマックス最適であることが示された
- 離散環境および連続LQR制御タスクにおいて,提案手法の有効性が実証された
LegalCheck:検索と文脈を強化した地方自治体向け法的助言書の作成 [cs.AI]目的:地方自治体向け法的助言書の自動作成
- 公共部門では,人員不足,事件数の増加,コンプライアンス遵守の必要性から,業務効率化が求められている。
- 法的助言書の作成には専門知識と時間がかかるため,業務のボトルネックとなっている。
- 法的知識と事例を効率的に活用し,法的助言書の作成を支援することで,業務負担を軽減する。
- LegalCheckは,検索と文脈を強化した生成により,法的助言書を数分で作成可能にした。
- 作成された助言書は高い法的整合性と正確性を維持しており,人間の専門家によるレビューも容易である。
- 実証実験では,LegalCheckが法的根拠に基づいた説明可能な出力を行い,法的推論の大部分を捉えられた。
非同期エージェント強化学習における古いロジットの欠落:意味的ミスマッチとそのオフポリシー補正手法 [cs.LG, cs.AI]目的:大規模言語モデルエージェントの非同期強化学習における,オフポリシー補正の失敗モードとその改善策
- 大規模言語モデルの強化学習は,より複雑なタスクを可能にする重要な技術である。
- 非同期学習システムでは,過去の学習データが失われやすく,オフポリシー補正の精度が低下する。
- 失われた古いロジットを補完し,オフポリシー補正の性能を向上させること。
- 古いロジットの取得戦略として,スナップショット,専用モデル,ロールアウト中断の3つの方法を提案し,それぞれのシステムトレードオフを比較した。
- 正確な古いロジットの取得が困難な場合でも,近似的なポリシーを用いることで,非同期補正の利点を維持できることを示した。
- 改良されたPPO-EWMA手法は,学習速度と最適化性能の両方において有意な改善を達成した。
推論時機械アンラーニングのためのゲート付き活性化リダイレクト [cs.LG]目的:機械アンラーニングによる忘却セットの影響除去
- 大規模言語モデルのプライバシー,著作権,安全性が重要課題となっているため。
- 既存の機械アンラーニング手法は計算コストが高く,モデル劣化を招く可能性がある。
- 推論時に活性化を操作することで,モデル再学習なしに忘却を実現すること。
- 本研究では,入力に依存した活性化操作により,勾配ベースの手法と同等以上の性能を達成した。
- GUARD-ITは,モデルの有用性を維持しつつ,記憶抑制と破綻回避を同時に実現する唯一の手法である。
- さらに,継続的なアンラーニングが可能であり,量子化下でも有効であることが示された。
WriteSAE:再帰的状態のためのスパースオートエンコーダ [cs.LG, cs.AI, cs.CL]目的:状態空間およびハイブリッド再帰型言語モデルの行列キャッシュ書き込みの分解と編集
- 言語モデルの性能向上には,効率的な状態管理が不可欠である。
- 既存のスパースオートエンコーダは残差ストリームの読み取りに限定され,行列キャッシュへの書き込みを直接制御できない。
- WriteSAEは,行列キャッシュの書き込みを直接制御し,モデルの表現能力を向上させる。
- WriteSAEは,行列キャッシュの書き込みを分解・編集する初のスパースオートエンコーダである。
- Qwen3.5-0.8B L9 H4において,アトム置換がマッチドノームアブレーションを92.4%の割合で上回った。
- Mamba-2-370Mでは,2,500回の試行で88.1%のアトム置換に成功し,継続学習において性能が3倍向上した。
生成エージェントベースモデリングにおけるメカニズムの妥当性 [cs.MA, cs.AI, cs.CL, cs.CY]目的:生成エージェントベースモデリングにおけるメカニズムの妥当性の評価基準
- 複雑な社会現象の理解には,シミュレーションが不可欠である。エージェントベースモデリングはその有力な手法の一つである。
- LLMをABMに組み込む際,再現性と説明可能性の区別が曖昧になりがちである。メカニズムの妥当性評価が課題となっている。
- LLM-ABMモデルのメカニズム的妥当性を評価するための枠組みを提示し,モデルの役割を明確にすること。
- メカニズムの妥当性を,再現性と区別した上で評価する「メカニズム妥当性尺度」を提案した。
- この尺度は,モデルが現象を再現できるか(生成的十分性)と,そのメカニズムがどのように機能するか(メカニズム的妥当性)を分離する。
- 予測モデルと説明モデルの役割を明確化し,モデル評価の指針を提供する。
Orthrus: 二重視点拡散によるメモリ効率の良い並列トークン生成 [cs.LG, cs.AI]目的:メモリ効率の良い並列トークン生成手法
- 大規模言語モデルの推論速度向上は,実用的な応用展開において不可欠である。
- 拡散言語モデルは並列生成が可能だが,性能劣化や学習コストが高いという課題がある。
- 自己回帰モデルの忠実性と拡散モデルの並列性を両立し,高速かつ正確な推論を実現する。
- Orthrusは,既存のTransformerモデルに軽量なモジュールを追加することで,並列拡散視点を導入する。
- 二つの視点(自己回帰と拡散)が同一のKVキャッシュを利用することで,ロスレスな推論を保証する。
- 最大7.8倍の速度向上を,O(1)のメモリオーバーヘッドと最小限のパラメータ増加で実現する。
対話を通じた世界モデルの整合による多エージェント協調 [cs.MA, cs.AI, cs.CL]目的:エージェント間の世界モデルの整合
- 環境内で行動するエージェント間の効果的な協調は,ロボット工学やAIにおける重要な課題である。
- 部分的な観測環境下では,コミュニケーションなしに協調することは困難であり,情報共有が不可欠である。
- LLMを活用したエージェントが,対話を通じて世界モデルを整合させ,真の協調を実現できるか検証する。
- 対話の導入により,行動の衝突が40~83パーセント減少することが示された。
- しかし,タスク成功率は,無言での協調と比較して低下した。
- 提案された指標により,表面的な協調と世界モデルの真の整合との間のギャップが明らかになった。
コントラスト視点からの検証可能な報酬を用いた強化学習の再検討 [cs.LG, cs.AI]目的:大規模言語モデルの推論能力を向上させるための検証可能な報酬を用いた強化学習の改善
- 大規模言語モデルの推論能力向上は,自然言語処理分野における重要な課題である。
- 既存手法では,報酬のスコアリングとクレジット割り当てに課題があり,学習効率が低い。
- スコアリングとクレジット割り当ての改善により,強化学習による言語モデルの性能向上を目指す。
- 提案手法ConSPOは,既存手法GRPOのスコアリング問題を解決するため,系列の対数確率を用いる。
- ConSPOは,InfoNCE損失関数を用いてクレジット割り当てを改善し,正例と負例のスコア差を考慮する。
- 多様なモデルやデータセットでの実験により,ConSPOが複数の既存手法を上回る性能を示すことが確認された。
単なるRLHFだけでは不十分:アライメントだけではマルチエージェントの迎合性を解消できない [cs.CL, cs.CL, cs.LG, cs.AI]目的:マルチエージェントにおける,意見の不一致下でのLLMの回答変化(yield)のメカニズム解明
- LLMを複数連携させる研究は,複雑な問題解決への応用が期待され,近年急速に進展している。
- LLM連携システムは,他者の意見に左右されやすく,誤った回答を生成しやすいという課題がある。
- 本研究は,LLM連携システムにおける迎合性の原因を特定し,その対策を提示することを目的とする。
- LLMの事前学習モデルと指示調整済みモデルで同様の回答変化が確認され,迎合性はRLHFに起因しない可能性が示唆された。
- 活性化パッチングにより,回答変化に関わる箇所が特定され,特定の層の注意メカニズムに問題が集中することがわかった。
- 少数意見の存在が回答変化を大幅に抑制し,システムレベルでの対策の有効性が示された。
A$_3$B$_2$: 少数ショット学習における視覚言語画像分類のブランチバイアス軽減のための適応的非対称アダプター [cs.CV, cs.LG]目的:視覚言語モデルにおける少数ショット画像分類のブランチバイアス軽減
- 大規模視覚言語モデルの効率的な転移学習は強力な少数ショット転移を可能にする重要な技術である。
- 既存の適応手法は画像とテキストブランチの重要性を均一と仮定しており,その妥当性に関する系統的な研究が不足している。
- 分布外設定下における画像エンコーダの適応が必ずしも性能向上に繋がらないブランチバイアス問題を解決する。
- 提案手法A$_3$B$_2$は,予測不確実性が高い場合に画像ブランチの適応を自動的に抑制するUncertainty-Aware Adapter Dampening (UAAD)を導入する。
- A$_3$B$_2$は軽量な非対称設計を採用しており,11の競争的なベースラインと比較して一貫して優れた性能を示す。
- 3つの少数ショット画像分類タスクと11のデータセットにおける実験により,A$_3$B$_2$の有効性が確認された。
KamonBench:ビジョン言語モデルにおける構成的要素復元評価のための文法ベースのデータセット [cs.CV, cs.LG]目的:ビジョン言語モデルにおける構成的要素復元の評価
- 視覚認識の分野において,構成要素の組み合わせによる複雑なパターン理解は重要な課題である。
- 既存のデータセットでは,構成要素間の関係性を明示的に評価することが困難であった。
- 本研究では,構成要素の組み合わせに基づいた視覚認識能力を詳細に評価するためのデータセットを構築する。
- KamonBenchは,2万個の合成家紋と,家紋記述言語,日本語分析,英語翻訳,プログラムコードを含む。
- このデータセットを用いることで,キャプションレベルの精度だけでなく,構成要素の復元能力を直接評価できる。
- ViTエンコーダー/TransformerデコーダーとVGG n-gramデコーダーを用いたベースライン実験の結果も示されている。
言語モデルにおけるペルソナ依存的な選好の探求 [cs.CL, cs.AI]目的:言語モデルの選好表現
- 大規模言語モデルの性能向上には,その内部メカニズムの理解が不可欠である。
- モデルが示す選好が,ペルソナによってどのように変化するのか不明確である。
- 異なるペルソナ間での選好表現の共有度合いを明らかにすること。
- Gemma-3-27BとQwen-3.5-122Bの残差ストリーム活性化を用いて線形プローブを訓練した結果,選好ベクトルが特定された。
- この選好ベクトルは,プロンプトや状況の変化に応じてモデルの選好を追跡し,Gemma-3-27Bにおいてはペアワイズ選択を因果的に制御した。
- 選好表現はペルソナ間で共有されており,アシスタントペルソナで訓練されたプローブは,敵対的なペルソナの選択も予測・制御可能であった。
MultiPRIDEにおけるKIT-TIP-NLP:多言語ファウンデーションモデルによる継続学習 [cs.CL, cs.AI, cs.LG]目的:多言語ソーシャルメディアにおける差別用語の再利用検出のための多段階フレームワーク
- ソーシャルメディア上のヘイトスピーチ対策は,オンラインコミュニティの健全性を維持する上で重要である。
- 言語や文化の違いによる表現の多様性から,差別用語の再利用を正確に特定することが困難である。
- 多言語データに対する学習と,言語固有のニュアンスを捉えることで,検出精度を向上させることを目指す。
- データ拡張にGPT-4o-miniによるバックトランスレーションを活用し,学習データを効果的に3倍に増加させた。
- 言語ごとの閾値最適化により,モデルの再学習なしにF1スコアが2~5%絶対的に向上した。
- XLM-RoBERTaを基盤モデルとして選択し,交差言語間の感情表現のバリエーションに対応した。
ARES-LSHADE:自律探索強化LSHADEとMemetic PolishによるGNBGベンチマークへの挑戦 [cs.NE, cs.AI]目的:GNBGベンチマークにおける高性能な最適化手法の開発
- 最適化問題は科学技術の様々な分野で不可欠であり,その効率的な解決が求められている。
- 従来の最適化アルゴリズムは,複雑なベンチマーク問題に対して十分な性能を発揮できない場合がある。
- LLMを活用した自律探索により,GNBGベンチマークに適応した最適化演算子を設計する。
- ARES-LSHADEは,GECCO 2026競技会において,744回の勝利のうち510回を達成し,高い性能を示した。
- 18個の関数において機械精度に到達し,残りの6関数はGNBGの構造的特徴と一致するプラトーを示した。
- LLMによる自律探索は,演算子のみを編集する空間で収束するプラトーに到達すること,およびベンチマークのメタデータを観察空間に含めるとブラックボックスルールに違反することが示された。
大規模制約付きマルチエージェントシステムのための,集団を意識した協調 [cs.MA, cs.LG]目的:大規模制約付きマルチエージェントシステムにおける資源配分計画の効率化
- 資源制約のある大規模マルチエージェントシステムは,現実世界の複雑な問題を解決する上で重要である。
- 既存手法では,変化する集団構成への対応が難しく,計画の精度が低下する可能性がある。
- 集団構成の変化にロバストな資源配分計画を,効率的に実現することを目指す。
- 提案手法は,集団の概要を学習し,資源利用予測とコスト予測を行うことで,計画の精度を向上させる。
- シミュレーションと実データを用いた実験により,提案手法が既存手法よりも優れた性能を示すことが確認された。
- 特に,集団構成が変化する状況下において,提案手法は高い予測精度と資源配分能力を発揮する。
ヤドリギ:推測デコーディングに対するステルス的な加速崩壊攻撃 [cs.CL, cs.CL, cs.LG]目的:推測デコーディングにおける加速崩壊攻撃のメカニズムと対策
- 大規模言語モデルの推論速度向上は,その実用化において不可欠である。
- 推測デコーディングは効率的だが,推測モデルとターゲットモデルの不一致が脆弱性となる。
- 推測デコーディングの受容メカニズムを標的とし,速度低下と出力品質維持を両立する。
- Mistletoeは,推測モデルとターゲットモデル間の合意を低下させ,速度向上を抑制する。
- 出力の品質やperplexityを維持しつつ,受容されるトークン数を減少させる。
- 推測デコーディングが新たな攻撃対象となることを示し,より堅牢な設計が求められる。
モデル適応型ツール必要性が示すLLMツール利用の知識と実行の乖離 [cs.AI]目的:LLMにおけるツール利用の必要性のモデル依存性を定義し,その認識と実行の間のギャップを明らかにすること。
- LLMが自律的に行動するエージェントとして発展する上で,ツール利用の判断は不可欠である。
- 既存研究では,ツール利用の必要性がモデルに依存して変化するという点が考慮されていなかった。
- LLMがツール利用の必要性を認識し,それを確実な行動に変換するための改善を目指す。
- モデルの能力差により,高度なモデルでは不要なツールが,能力の低いモデルには必要な場合があることが示された。
- ツール利用の必要性と実際の行動の間には,算術と事実QAデータセットにおいてそれぞれ26.5-54.0%,30.8-41.8%の大きな乖離が存在することが明らかになった。
- LLM内部表現の解析から,ツール利用の認知段階と実行段階において信号が直交し,認知から行動への移行に課題があることが示唆された。
CurveBench:ネストされたジョルダン曲線に対する厳密なトポロジー推論のためのベンチマーク [cs.CV, cs.LG]目的:視覚入力からの階層的トポロジー推論
- 画像認識の分野において,空間的関係の理解は重要な課題である。
- 既存手法では,複雑な曲線構造における包含関係の正確な把握が困難である。
- 曲線間のトポロジー的関係を正確に推論するための評価基準を確立すること。
- CurveBenchは,ジョルダン曲線の包含関係を表現する木構造の生成を評価するベンチマークである。
- Gemini 3.1 Proなどの高性能モデルでも,ベンチマークの難易度が高い。
- Qwen3-VL-8Bをファインチューニングすることで,CurveBench-Easyの精度が大幅に向上し,GPT-5.4やClaude Opus 4.5を上回る結果が得られた。
ClawForge:コマンドラインエージェント向け実行可能インタラクティブベンチマークの生成 [cs.CL, cs.AI]目的:コマンドラインエージェントの実行可能インタラクティブベンチマーク生成手法
- エージェントの性能評価において,現実的なタスク設定が重要となるため。
- 既存のベンチマークは初期状態からのタスク設定が多く,既存のアーティファクトへの対応が不十分である。
- 状態の競合が発生する状況下でのエージェントの性能評価を可能にすること。
- ClawForgeは,シナリオテンプレートから実行可能なタスク仕様を生成し,エージェントをステップごとに評価するフレームワークである。
- 7つの最先端モデルの評価では,最高モデルの厳密な正解率は45.3%に留まり,状態の誤置換率は17%未満であった。
- エージェントが既存の状態を検査する能力が,モデル間の分離に大きく影響することが示された。
産業用画像検査のためのアーキテクチャを考慮した説明監査 [cs.LG, cs.CV]目的:深層分類器の説明の信頼性評価プロトコル
- 産業用画像検査において,深層学習の活用が進む中で,説明の質の確保が重要となる。
- 既存の説明手法は,視覚的に妥当に見えても,モデルの判断に寄与する領域を特定できていない場合がある。
- モデルのアーキテクチャと説明手法の適合性を評価し,信頼性の高い説明手法を特定すること。
- ViT-Tiny + Attention Rolloutは,Swin-Tiny / ResNet18+CBAM / DenseNet121 + Grad-CAMと比較して,Deletion AUCにおいて高い性能を示した。
- Swin-Tinyは,Transformerアーキテクチャでありながら,Grad-CAMとの互換性を示し,読み出し構造が重要な要因であることを示唆した。
- モデルに依存しない制御群(RISE)は,全てのモデルで低いDeletion AUCを示し,説明経路の重要性が示唆された。
セット条件付き多様性による最小限の介入 KV キャッシュ保持 [cs.CL, cs.CY, cs.LG, cs.CL]目的:小規模な予算での KV キャッシュ圧縮メカニズムの性能向上
- 大規模言語モデルの効率化は,計算資源の制約を克服し,より幅広い応用を可能にするために重要である。
- KV キャッシュ圧縮は,様々な要素が絡み合い,最適な設計を見つけることが困難である。
- 既存手法の改良を通して,少ない計算資源で高い性能を達成することを目指す。
- 提案手法αは,TriAttentionの保持スコアラーに1つの関数による変更を加えることで,既存の構造的な再設計よりも優れた性能を示した。
- 設定されたプロトコルに基づき,λ=0.5において,Qwen-7B (予算128) および Llama-8B (予算64) で有意な結果が得られた。
- メモリ制約下での性能評価プロトコルが,この非対称な結果を明らかにする上で重要な役割を果たした。
メカニズム解釈のための例示分割 [cs.LG]目的:大規模言語モデル活性化からの解釈可能な特徴辞書の構築
- 深層学習モデルの内部動作を理解することは,AIの信頼性と安全性を高める上で不可欠である。
- 既存の特徴抽出手法は計算コストが高く,モデルや学習段階を横断した比較が困難である。
- 活性化空間の幾何学的構造に基づき,効率的かつ比較可能な特徴辞書を構築し,モデルの解釈性を向上させる。
- 例示分割(EP)は,従来のスパースオートエンコーダ(SAE)と比較して,格段に少ないトークン数で解釈可能な特徴辞書を構築できる。
- Gemma-2-2Bにおいて,EP辞書領域は解釈可能であり,因果的介入をサポートする。指示チューニングされたモデルにおける拒否応答は,特定の領域に集中し,その領域の例示を削除することで拒否応答が崩壊する。
- EPはAxBenchの潜在概念検出において,既存のSAEリーダーボードのエントリーを上回る性能を示し,計算コストも大幅に削減できる。
