arXiv雑要約
AI - 2026/03/23 公開
記憶駆動型ロールプレイング:LLMにおけるペルソナ知識の活用評価と拡張 [cs.CL, cs.AI]目的:LLMにおけるペルソナ知識の活用能力評価と改善
- 対話型AIの発展において,一貫性のあるキャラクター性を維持することは重要である。
- LLMは,明示的な指示なしにはペルソナ知識を正確に再現できず,長期対話で知識の維持が困難である。
- LLMの内部メモリを活用し,文脈のみからペルソナ知識を想起・適用する能力を評価・向上させる。
- 記憶駆動型ロールプレイングパラダイムと評価フレームワークMREvalを提案し,LLMの4つの能力を詳細に評価した。
- プロンプト設計MRPormptにより,小規模モデル(Qwen3-8B)が大規模モデル(Qwen3-Max,GLM-4.7)に匹敵する性能を発揮することを示した。
- 知識の活用向上と応答品質の向上との間に直接的な相関関係があることを確認し,理論的基盤を検証した。
DPxFin:評判重み付き分散学習によるマネーロンダリング検知のための適応的差分プライバシー [cs.LG, cs.CR]目的:マネーロンダリング検知のための,評判ガイド型適応的差分プライバシー統合型分散学習フレームワーク
- 金融システムにおいて,マネーロンダリング対策は不可欠であり,データプライバシー保護と不正取引の複雑化が課題である。
- 分散学習は有望な手法だが,特に金融データのような表形式データにおいて,プライバシー漏洩のリスクが存在する。
- 本研究は,評判に基づいて差分プライバシーノイズを動的に調整し,プライバシー保護とモデル精度を両立させることを目指す。
- DPxFinは,クライアントの評判を評価し,それに基いて差分プライバシーノイズを調整する。
- 実験結果から,DPxFinは従来の分散学習や固定ノイズDPと比較して,精度とプライバシーのトレードオフが改善されることが示された。
- DPxFinは表形式データの漏洩攻撃に対して耐性があり,実世界の金融環境での有効性が確認された。
MSNetとLS-Net:時系列分類のためのスケーラブルなマルチスケールマルチ表現ネットワーク [cs.LG]目的:時系列分類における入力表現の多様性の重要性に着目した,スケーラブルなマルチスケール畳み込みフレームワーク
- 時系列データは様々な分野で現れ,その分類は重要な課題である。高精度な分類手法の確立が求められる。
- 既存手法では,入力表現の多様性を十分に活用できていない場合があり,分類性能の向上に限界がある。
- マルチスケール・マルチ表現学習による柔軟なモデル設計を通じて,精度,キャリブレーション,効率性のバランスを最適化する。
- LiteMVが最高の平均精度を達成し,MSNetは優れた確率的キャリブレーション(最低NLL)を示した。
- LS-Netは,精度と効率性の最適なトレードオフを提供する。マルチ表現マルチスケールモデリングの有用性が示唆される。
- スケーラブルなマルチ表現マルチスケール学習は,現代の時系列分類における原理的かつ実践的な方向性である。
三項ガンマ半環:ニューラル実装から圏論的基礎へ [cs.DL, cs.LG, cs.AI]目的:ニューラルネットワーク学習と抽象代数的構造の関連性
- 近年,ニューラルネットワークの能力向上は目覚ましいが,その理論的基盤は未だ十分とは言えない。
- 従来のニューラルネットワークは,構成的汎化というタスクにおいて著しい失敗を示す。
- 三項ガンマ半環という論理的制約を導入することで,ニューラルネットワークの汎化性能を向上させる。
- 標準的なニューラルネットワークは構成的汎化タスクにおいて全く成功しない(0%の正解率)ことが示された。
- 三項ガンマ半環を導入することで,同一アーキテクチャが完全に構造化された特徴空間を学習し,新規の組み合わせに対して100%の正解率を達成した。
- 学習された特徴空間は,多数決ルールを実装する有限可換三項Γ-半環であり,Gokavarapuらの分類と一致する。
ハイパーグラフニューラルネットワークを用いた多項式目的整数計画問題への取り組み [cs.NE, cs.LG]目的:多項式目的整数計画問題の解法
- 現実世界の複雑な最適化問題は,離散的な決定と変数間の非線形関係を含む。そのため,効率的な解法が求められている。
- 多項式目的整数計画問題は,非線形性により線形計画問題よりも解くのが難しい。既存手法では性能に限界がある。
- ハイパーグラフニューラルネットワークを用いて,多項式目的整数計画問題のより良い解法を開発することを目指す。
- ハイパーグラフ表現により,高次項の情報と変数制約の相互依存性を捉えることが可能になった。
- 変数と高次項,変数と制約の間の畳み込みを統合したハイパーグラフニューラルネットワークを提案した。
- 提案手法は,既存の学習ベースの手法や最先端のソルバーと比較して,優れた解質と効率性を示すことが実験で確認された。
属性ガイダンスによるプロンプト調整を用いた低リソースエンティティマッチング [cs.DL, cs.CL, cs.CY, cs.CL, cs.AI]目的:低リソース環境におけるエンティティマッチング手法
- エンティティマッチングは,データ統合や知識グラフ構築等に不可欠な基盤技術である。
- 高品質なラベル付きデータの取得コストが高く,実用的な適用が制限されている。
- 属性レベルの情報活用と論理的推論により,少ないラベルデータでも高精度なマッチングを実現する。
- PROMPTATTRIBは,エンティティと属性レベルの両方でプロンプト調整を行うことで,より豊富な文脈情報を組み込む。
- ファジー論理式を用いることで,最終的なマッチングラベルを推論し,属性の理解を深める。
- SimCSEに着想を得たドロップアウトベースのコントラスティブ学習を組み込み,性能を向上させる。
離散制約下における無線リソース割り当てのための汎用深層学習フレームワーク [cs.LG, cs.AI, cs.IT, math.IT]目的:離散制約下での無線リソース割り当て問題に対する深層学習フレームワーク
- 無線通信における効率的なリソース管理は,通信品質とネットワーク容量を向上させる上で不可欠である。
- 従来の深層学習は連続変数に適しているが,離散変数を含む問題では勾配消失などの課題があり,実用化が困難であった。
- 本研究は,離散変数を確率分布として扱うことで,深層学習における離散変数の問題を解決することを目指す。
- 提案手法では,サポートセットを用いて離散変数を表現し,その確率分布を学習することで,勾配消失問題を回避する。
- 離散制約は,学習過程で実現不可能な解をマスクアウトすることで,シームレスに組み込むことができる。
- 動的なコンテキスト埋め込みにより,同一パラメータ同一決定(SPSD)制約を満たす解を自然に生成する。
ターゲット概念チューニングが極端な気象予測を改善 [cs.LG, cs.AI]目的:極端な気象現象の予測改善
- 気象予測は社会インフラや人命に直結する重要な分野である。
- 稀に発生する極端な気象現象の予測精度が課題となっている。
- 既存手法の過学習と汎化性能低下という問題を解決する。
- TaCTは,スパースオートエンコーダと反事実分析を用いて,モデルの故障に関連する内部概念を自動的に発見する。
- 概念が活性化された場合にのみパラメータを更新することで,一般的なシナリオでの性能を維持しながら,故障ケースに特化したモデルの適応を実現する。
- 実験により,他の気象変数の予測精度を損なうことなく,異なる地域における台風予測の精度が向上することが示された。
ゲーデル・コード・プルーバー:最先端のコード検証のための階層的証明探索 [cs.SE, cs.AI]目的:最先端のコード検証における階層的な証明探索
- ソフトウェアの信頼性確保が重要視される中で,コードの形式検証は不可欠な技術である。
- 形式検証は,機械的に検証可能な証明の構築を必要とするが,その自動化は困難である。
- 複雑な検証目標をより単純な部分目標に分解し,効果的な証明探索を行うことで検証の自動化を目指す。
- 提案手法は,分解スコアを用いて分解と証明の最適化を統合し,高い性能を発揮する。
- 427タスクのベンチマークにおいて,62.0%の証明成功率を達成し,既存の強化学習モデルを2.6倍上回った。
- 探索の反復回数とサンプリング予算の増加に伴い,成功率が単調に向上し,効率的な検証を実現した。
PAI:AIによる高速・高精度なフルベンチマーク性能予測 [cs.AR, cs.AI]目的:SoCにおける複雑なIP増加に伴う,ハードウェア・ソフトウェアの電力性能分析の迅速化と高精度化
- ムーアの法則によりIPが複雑化し,SoCの電力性能分析の重要性が増している。
- 従来のシミュレータは速度,開発コスト,正確性に課題があり,事前検証が困難である。
- 詳細なシミュレーションや命令レベルのエンコーディングに依存せず,フルベンチマーク性能を予測する。
- PAIは,マイクロアーキテクチャ非依存の特徴量から性能指標を予測するLSTMベースのモデルである。
- SPEC CPU 2017ベンチマークスイート全体で平均9.35%のIPC予測誤差を2分57秒で達成した。
- 既存技術と同等の精度を,3桁少ない時間で実現している。
FalconBC:潜在的生理境界条件の推論のためのフローマッチング [cs.LG, stat.ML]目的:患者特異的心血管モデリングにおける境界条件調整
- 患者特異的モデリングは,個別化医療の実現に不可欠であり,その精度が治療成績に直結する。
- 既存手法では,開放ループモデルや血管病変部における境界条件の調整が困難である。
- 臨床データと解剖学的特徴を統合的に考慮した,効率的な境界条件推論手法の確立。
- 本研究では,確率的フローに基づく汎用的な推論フレームワークFalconBCを提案した。
- FalconBCは,臨床ターゲット,流入特徴量,患者特異的解剖学的埋め込みを条件変数または同時推定量として扱う。
- 大動脈分岐部および冠動脈樹において,FalconBCの有効性を実証した。
LLMを用いたRTL PPA最適化のための電力重視進化チューニング [cs.AR, cs.AI]目的:LLMベースのRTLコード最適化による電力,性能,面積(PPA)の改善
- RTL設計における電力消費は,システムの信頼性や寿命に影響するため,重要な課題である。
- LLMの幻覚による機能誤り,およびPPAのトレードオフにおける電力削減の優先順位付けが課題となる。
- LLMの幻覚を排除し,電力削減を重視したPPA最適化を実現することを目指す。
- POETは,差分テストに基づくテストベンチ生成パイプラインにより,機能的な正しさを100%保証する。
- 電力消費を最優先する進化メカニズムにより,40件のRTL設計全てで最高の電力性能を達成した。
- 面積と遅延の改善においても,競争力のある結果が得られた。
ポストトレーニングアルゴリズムは本当に異なるのか?モデル規模にわたる統制された研究が,規模依存のランキング反転を明らかにする [cs.LG, cs.AI]目的:ポストトレーニングアルゴリズムの比較と,モデル規模によるランキング変動の解明
- 大規模言語モデルの性能向上には,ポストトレーニングによる調整が不可欠である。
- 多数のアルゴリズムが存在するが,体系的な比較検討が不足している。
- モデル規模がアルゴリズムの性能に与える影響を定量的に評価する。
- モデル規模が小さい場合(1.5B)に優位だったオンラインRLアルゴリズム(SGRPO)が,規模が大きくなると(7B)最悪のパフォーマンスを示すSimPOに逆転されることが示された。
- DPOの20種類の変種を検証した結果,バニラDPOと比較して有意な性能向上が見られなかった。
- アルゴリズムの優位性はタスクに依存し,GSM8Kでは19.3ppの差が見られたが,MATHや汎用ベンチマークではほぼ差がなかった。
拡散モデルによるセマンティック一貫性の誘導:マルチモーダル異質性への対処 [cs.CV, cs.AI]目的:連合学習におけるマルチモーダルデータの異質性問題に対する解決策
- 連合学習は,データが分散した環境での機械学習を可能にし,プライバシー保護に貢献する重要な技術である。
- クライアントデータの非独立同一分布(non-IID)性が連合学習の性能を大きく低下させる主要な課題となっている。
- マルチモーダルデータのセマンティックな差異を解消し,連合学習のロバスト性を向上させることを目指す。
- 提案手法SemanticFLは,事前学習済みの拡散モデルのセマンティック表現を活用し,クライアントのローカル学習をプライバシー保護しながら誘導する。
- 多様な異質性条件下での実験結果から,SemanticFLは既存の連合学習手法を凌駕し,FedAvgと比較して最大5.49%の精度向上を達成した。
- この結果は,SemanticFLが異質かつマルチモーダルデータのロバストな表現学習において有効であることを示している。
デバイス上でのTransformer推論・学習のための分布を考慮した区分的活性化関数DAPA [cs.LG]目的:Transformerアーキテクチャにおける,分布を考慮した区分的活性化関数
- モバイル等のデバイス上でのAI処理の需要増加に伴い,効率的な推論・学習手法が重要となっている。
- 従来の活性化関数は計算コストが高く,デバイス上での性能とエネルギー効率のボトルネックとなる。
- DAPAは,活性化関数の近似精度とハードウェアリソース利用効率を向上させ,デバイス上でのTransformer処理を高速化する。
- DAPAは,GELU計算を16倍高速化し,DSP利用率を16倍削減することを示した。
- 視覚TransformerとGPT-2モデルにおいて,同等またはそれ以上の性能を維持しながら,低遅延かつ低リソースでの推論を実現した。
- 分布重み付き平均二乗誤差による量子化により,ハードウェア実装における遅延とリソース消費を抑制した。
密なパッセージ検索における埋め込み圧縮のためのスペクトルテンパリング [cs.IR, cs.AI, cs.CL]目的:密パッセージ検索における埋め込み圧縮手法
- 大規模な検索システム構築において,計算資源の効率的な利用が不可欠である。
- 従来の次元削減手法は,性能とノイズ抑制の間にトレードオフが存在する。
- コーパスの固有スペクトルから最適なスケーリング強度を導き,学習を不要とする手法を提案する。
- スペクトルテンパリングは,グリッドサーチで最適化されたパラメータと同等の性能を,学習なしで実現する。
- 提案手法は,保持された部分空間の信号対雑音比に基づいて,適応的なスケーリング強度を決定する。
- この手法は,モデルに依存せず,ラベル付きデータや検証のための検索も不要である。
重み付き総和を超えて:ロバストな人工ニューロンのための学習可能な非線形集約関数 [cs.LG, cs.AI]目的:人工ニューロンのロバスト性向上のための学習可能な非線形集約関数の検討
- ニューラルネットワークは様々な応用で広く利用されており,その性能向上は重要である。
- 従来のニューロンは線形集約を用いるため,ノイズや外れ値に弱いという課題がある。
- 非線形集約関数を導入することで,ノイズに対するロバスト性を高めることを目指す。
- 提案手法であるハイブリッドニューロンは,CIFAR-10およびノイズ付加版CIFAR-10において,ロバスト性を大幅に向上させた。
- 特に三方向ハイブリッドニューロンは,ベースラインと比較してロバストネススコアが0.890から0.991へと改善された。
- 学習されたパラメータは,サブ線形集約(p ≈ 0.43--0.50)と高い新規性利用率(α ≈ 0.69--0.79)に収束した。
Verilogコード生成におけるエージェント的フロンティアの探求 [cs.AR, cs.LG]目的:Verilogコード生成のためのエージェント型LLMの体系的評価
- ハードウェア設計の複雑化に伴い,自動化されたVerilogコード生成の重要性が増している。
- 既存のVerilogコード生成手法では,複雑な設計に対応するための性能向上が課題である。
- エージェント型LLMの有効性を検証し,Verilogコード生成の性能向上を目指す。
- 単純なエージェントによるラップは性能を低下させる可能性があるが,構造化されたハーネスがベースラインを上回る場合がある。
- オープンソースモデルとクローズドソースモデルの性能差は,クラッシュ率の高さとツール出力の解釈能力の弱さが原因である。
- 今後のVerilog生成のための特殊なエージェント設計の方向性を示す。
Transformer言語モデルにおける解剖学的異質性 [cs.LG, cs.CL]目的:Transformer言語モデルの層構造の異質性の解明
- 自然言語処理の進展に伴い,大規模言語モデルの効率的な学習が重要となっている。
- Transformerモデルの各層は均一に学習される前提であり,その妥当性が疑問視されている。
- 層ごとの重要度に応じた学習方法で,計算コストを削減し性能を向上させることを目指す。
- Transformerモデルの各層の重みは数学的な規則性を示す一方で,予測された重みを用いた学習は性能を著しく低下させる。
- 層の重要度は非常に幅広く,重要な層と性能改善に寄与する層が存在することが明らかになった。
- 層の重要度に応じた学習予算の配分により,計算コストを約54%削減し,検証損失を大幅に低減することが示された。
理解に関する数学的理論 [cs.LG, cs.IT, econ.TH, math.IT]目的:学習者の前提知識構造に着目した理解の数学的モデル
- 情報技術の発展により情報量は増加しているが,その価値は学習者の理解力に左右される。
- 情報伝達において,学習者の前提知識不足が理解のボトルネックとなる問題が存在する。
- 学習者の知識状態に依存する情報伝達の効率性に着目し,学習速度の限界を明らかにすること。
- 本研究では,学習者を概念間の前提構造を持つシステムとしてモデル化することで,学習速度の上限を構造的限界と認識的限界の二つとして導出した。
- 前提知識の深さが教示範囲よりも深い場合,追加の教示は効果がないという閾値効果が示唆された。
- 多様な学習者への一斉指導は,個別指導と比較して効率が劣る可能性が示された。
IDSにおける自己注意機構とジェンセン・シャノン・ダイバージェンスを用いたゼロデイ攻撃検知の新たな解決策 [cs.CR, cs.AI, cs.LG]目的:ゼロデイ攻撃を模倣したネットワークトラフィックの合成
- サイバー攻撃の高度化に伴い,未知の脆弱性を突くゼロデイ攻撃の検知が喫緊の課題となっている。
- 既存のIDSでは,未知の攻撃パターンに対応できず,誤検知や見逃しのリスクが存在する。
- 本研究は,データ多様性を高め,IDSの汎化性能を向上させることで,ゼロデイ攻撃の検知精度向上を目指す。
- 自己注意機構とジェンセン・シャノン・ダイバージェンスをWGAN-GPに統合することで,IDSの性能が向上することが示された。
- 提案手法は,従来のIDSよりも効果的にゼロデイ攻撃のリスクを検知できることが確認された。
- SA-JS-WGAN-GPは,WGAN-GPのデータ生成能力を向上させ,より高品質なサンプルを生成することができた。
保証された高速テキスト/画像生成のためのウォームスタートフローマッチング [cs.LG]目的:フローマッチングアルゴリズムのサンプル生成時間の短縮
- 高品質なテキストや画像生成モデルの需要が高まっている。
- 既存の生成モデルは計算コストが高く,時間とGPUリソースを消費する。
- 軽量なモデルを利用し,フローマッチングの初期分布を改善することで高速化を目指す。
- 提案手法(WS-FM)は,初期分布を改善することでフローマッチングのステップ数を削減し,生成時間を保証的に短縮する。
- WS-FMは,低品質のサンプルから高品質なサンプルへの学習を行う生成モデルと解釈できる。
- 合成データおよび実世界のテキスト/画像生成タスクで,品質を損なわずに高速化が確認された。
自動メンバーシップ推論攻撃:LLMエージェントを用いたMIAシグナル計算の発見 [cs.CR, cs.LG]目的:メンバーシップ推論攻撃の自動設計と実装
- 機械学習システムの情報漏洩リスク評価において,メンバーシップ推論攻撃は重要な役割を果たす。
- 効果的なメンバーシップ推論攻撃の設計には,モデルの脆弱性を手動で探索する必要があり,困難を伴う。
- LLMエージェントを活用し,メンバーシップ推論攻撃戦略の探索を自動化することで,新たな脆弱性を発見する。
- AutoMIAは,LLMエージェントを用いて,ターゲットモデルとデータセットに特化した新しいメンバーシップ推論攻撃を成功裡に発見した。
- 既存のメンバーシップ推論攻撃と比較して,絶対AUCが最大0.18向上する結果が得られた。
- LLMエージェントが,高性能なメンバーシップ推論攻撃の設計と実装に有効なパラダイムとなりうることを示した。
確実性予測とシナリオ最適化の架け橋:棄却された制約とモジュール型リスク配分 [eess.SY, cs.LG, cs.SY]目的:有限サンプルから安全マージンを導出すること
- システム制御において,安全性と信頼性を保証するための基礎理論研究が重要である。
- 既存の手法では,サンプルサイズが限られた状況下での安全性の保証が難しい。
- 安全性を保証しつつ,より効率的なリスク配分を可能にする手法を開発する。
- 確実性予測とシナリオ最適化の関連性をシステム制御の観点から再検討し,理論的な橋渡しを行った。
- 棄却されたサンプルを許容可能な例外として扱うことで,安全性の保証を拡張した。
- 複数のブロックごとのキャリブレーション証明書を組み合わせるモジュール型構成則を導入し,多出力予測や有限ホライズン制御への応用を示した。
階層型強化学習を用いた多クラス発生時におけるリソース制約下での非薬物介入の最適化 [cs.LG]目的:感染症発生時の非薬物介入におけるリソース配分最適化
- 感染症流行抑制において,検査や隔離といった非薬物介入は不可欠である。
- 初期段階ではリソースが限られ,複数の発生クラスへの同時対応が課題となる。
- 複数の発生クラスへのリソース配分を最適化し,効率的な感染制御を目指す。
- 提案手法は,シミュレーションにおいて,既存手法と比較して発生抑制効果が20-30%向上した。
- 階層型フレームワークは,最大40クラスの同時発生下でも高いスケーラビリティと迅速な意思決定を可能にした。
- グローバルコントローラーがリソース需要を調整し,ローカルポリシーがクラスごとの資源価値を評価する。
微細な潜在タスク発見によるスケーラブルなプロンプトルーティング [cs.CL, cs.AI, cs.LG]目的:プロンプトルーティングにおける性能最適化とコスト管理
- 大規模言語モデルの活用範囲拡大に伴い,適切なモデル選択が重要となる。
- 既存手法では,タスクの細かな違いを捉えきれず,性能向上が課題となっている。
- 潜在的なタスクを自動発見し,タスクに応じた品質推定を行うことで,この問題を解決する。
- 提案手法は,10のベンチマークと11の最先端モデルで既存手法を上回り,コストを抑えつつ高い性能を実現した。
- 二段階ルーティングアーキテクチャにより,タスクレベルの安定性とプロンプト固有の適応性を両立している。
- グラフベースのクラスタリングにより,潜在的なタスクタイプを自動的に発見し,分類器を用いてプロンプトを割り当てている。
対話型エージェントにおける文脈即応型プライバシー学習の調査:ユーザー向けプライバシーツールとの統合を通して [cs.HC, cs.AI]目的:対話型エージェント利用時のユーザーのプライバシー学習促進
- 対話型エージェント利用が普及する中で,ユーザーのプライバシー保護意識の向上が重要となっている。
- ユーザーは対話型エージェントにおけるプライバシーに関する知識が不足しており,保護行動に移しにくい。
- 対話型エージェント利用中にプライバシーツールを提示することで,実践的なプライバシー学習を促す。
- プライバシーパネルの導入により,ユーザーのプライバシーに対する意識が向上することが示された。
- リアルタイムなプライバシー通知や保護措置の提案が,ユーザーの行動変容に繋がる可能性が示唆された。
- ユーザーインターフェースのデザインが,プライバシー学習と保護行動に大きく影響することが明らかになった。
自律性税:防御訓練がLLMエージェントを阻害する [cs.RO, cs.DC, cs.CR, cs.AI, cs.LG]目的:大規模言語モデルエージェントにおける防御訓練の影響
- LLMエージェントの利用拡大に伴い,その安全性確保が重要課題となっている。
- 既存の防御訓練は,安全性向上と能力低下というトレードオフを引き起こす可能性がある。
- 本研究は,多段階タスクにおけるエージェントの信頼性を損なう防御訓練の課題を解決する。
- 防御訓練されたモデルは,外部コンテンツの観察以前に無効な行動を生成するなど,ツール実行において深刻な問題を抱えることが示された。
- 防御訓練は,初期の失敗を繰り返し実行ループで増幅させ,モデルのタイムアウト率を著しく上昇させる。
- 防御訓練されたモデルは,単純な攻撃に対して脆弱であり,防御なしのモデルよりも性能が低下するケースが確認された。
評価認識は単なる形式依存なのか:制御されたプロンプト構造下におけるプローブによる証拠の限界 [cs.RO, cs.CL, cs.AI]目的:大規模言語モデルにおける評価認識の性質解明
- 言語モデルの能力評価は,その性能向上に不可欠であり,モデルの信頼性を担保する上で重要である。
- 評価文脈とベンチマークの形式が混在しており,プローブ信号が評価文脈を反映しているか不明確である。
- プローブが形式に依存せず評価文脈を捉えられるか検証し,評価認識の真のメカニズムを明らかにする。
- プローブは主にベンチマーク特有の構造を追跡し,自由形式のプロンプトへの一般化には失敗する。
- 従来のプローブベースの手法は,評価文脈と構造的要素を明確に区別できない。
- 既存の研究結果の証拠としての信頼性に限界があることが示唆される。
語彙が言語モデルにおける語順学習可能性の言語間変動を形作る [cs.CL, cs.AI, cs.LG]目的:言語モデルにおける語順学習可能性の言語間変動に関する要因の特定
- 言語の普遍性と多様性を理解するため,語順の変動が学習に及ぼす影響の解明が重要である。
- 従来の語順の自由度による分類では,言語間の学習可能性の差異を十分に説明できない点が課題である。
- 語彙構造が語順学習可能性に与える影響を明らかにし,言語モデルの学習効率向上に貢献することを目指す。
- 言語モデルは,語順が不規則であるほど,より高い驚き度を示し,学習が困難になることが示された。
- 文の反転は学習可能性に弱く影響する一方で,語彙構造が驚き度を強く予測することが確認された。
- 語彙構造は,言語間の計算上の語順学習可能性の重要な要因として浮上した。
グランディングと非グランディングがともに不利である場合 -- SATへの計画の部分的グランディングエンコーディング(拡張版) [cs.AI, cs.LO, cs.SC]目的:計画問題をSAT形式にエンコードする手法
- 古典的な計画問題は汎用性があるが,完全なグランディングは計算量が増大する。
- 既存のSATエンコーディングは計画の長さに対して二次関数的にスケールするため,長尺な計画には不向きである。
- アクションはリフトされたまま,述語を部分的にグランディングすることで,線形スケールなエンコーディングを開発する。
- 提案手法は,難しいドメインにおける長さ最適計画において,最先端の手法を凌駕する性能を示す。
- 完全なリフトと完全なグランディングの中間的なアプローチにより,スケーラビリティを改善した。
- 本研究で提案するエンコーディングは,計画の長さに比例して計算量が変化するため,長尺な計画にも適用可能である。
胸部X線画像の局所認識型表現学習:位置情報を考慮したアプローチ [cs.CV, cs.AI]目的:胸部X線画像における局所的な特徴表現の学習
- 医療画像診断において,X線画像中の微細な病変を正確に捉えることが重要である。
- 既存のコントラスト学習モデルは領域レベルの教師信号が不足し,大規模言語モデルは局所的な特徴を捉えにくい。
- 位置情報を考慮した損失関数を用いて局所的な特徴表現を学習し,より精度の高い画像検索と病変の特定を目指す。
- 提案手法LoFiは,シグモイド,キャプション,位置情報を考慮したキャプションの損失関数を同時に最適化する。
- 位置情報を考慮したキャプション損失により,領域レベルでの教師信号を利用し,局所的な特徴表現の学習を促進する。
- MIMIC-CXRおよびPadChest-GRデータセットにおいて,画像検索と病変特定の両方で優れた性能を達成した。
TrustFlow:トピックを意識したベクトル型評判伝播によるマルチエージェント生態系 [cs.MA, cs.AI]目的:マルチエージェント生態系における評判伝播
- エージェント間の信頼関係は,協調行動やシステム全体の効率性に不可欠である。
- 従来の評判システムは,単一の指標に依存し,悪意のある攻撃に脆弱である。
- トピックを考慮したベクトル型評判伝播により,より堅牢で情報豊かな評判評価を実現する。
- TrustFlowは,スカラー値ではなく多次元ベクトルで各エージェントの評判を表現する。
- コンテンツ埋め込みによるトピックゲート付き転送演算子を用いて評判を伝播させ,一意の固定点への収束を保証する。
- 稠密グラフでは98%,疎グラフでは78%という高い多ラベルPrecision@5を達成し,シビル攻撃への耐性も確認された。
GeoLAN:大規模言語モデルにおける潜在的説明方向の幾何学的学習 [cs.LG, cs.CG]目的:大規模言語モデルにおける潜在的説明方向の幾何学的学習
- 言語モデルの性能向上は目覚ましいが,その内部メカニズムの解明が課題となっている。
- 言語モデルの表現が偏りやすく,公平性や解釈性に問題があることが指摘されている。
- 幾何学的な制約を導入し,モデルの表現の多様性と公平性を改善することを目指す。
- GeoLANは,トークン表現を幾何学的軌跡として扱い,Kakeya予想に触発されたスティッキネス条件を適用する。
- KT-CWおよびKT-Attnという2つの微分可能な正則化項を開発し,等方性や多様な注意を促進する。
- 実験結果から,GeoLANはタスク精度を維持しつつ,幾何学的指標を改善し,特定の公平性バイアスを軽減することが示された。
ハイパーエージェント [cs.AI]目的:自己改善型AIシステムの性能向上
- AIの自律的な進化は,人間による設計の限界を超え,問題解決能力の飛躍的な向上に繋がる。
- 従来の自己改善システムは固定的な仕組みに依存し,改善速度が制限されている。
- タスク実行能力と自己改善能力の間のドメイン依存性を解消し,汎用的な自己加速学習を実現する。
- ハイパーエージェントは,タスクエージェントとメタエージェントを統合し,自己改善メカニズム自体を編集可能にすることで,持続的な性能向上を実現した。
- 様々なドメインにおいて,従来の自己改善システムやベースラインモデルと比較して,優れた性能を示した。
- エージェント生成プロセス(メモリ管理,性能追跡など)の改善がドメインを超えて転移し,累積的に効果を発揮することが確認された。
無限次元偏微分方程式と最適制御のための深層ヒルベルト・ガレルキン法 [cs.LG, cs.NA, math.AP, math.NA, math.OC, math.PR]目的:無限次元ヒルベルト空間上の非線形2階偏微分方程式に対する深層学習に基づく近似手法の開発
- 物理学や制御理論など,広範な応用科学分野において,偏微分方程式の効率的な解法が求められている。
- 高次元空間における偏微分方程式の解法は計算コストが大きく,従来の数値解法では困難な場合が多い。
- 深層学習を活用し,無限次元ヒルベルト空間上の偏微分方程式を近似的に解く手法を確立すること。
- 深層学習モデルであるHilbert-Galerkin Neural Operator (HGNO)を用いた近似手法が提案された。
- HGNOの適用範囲を広げるため,ヘッセ行列項に関する新しいトポロジーと,非線形演算子に関する連続性仮定が導入された。
- Kolmogorov方程式やHJB方程式といった最適制御問題に対するHGNOの有効性が,数値実験によって示された。
行列メカニズムにおける乗算的更新のグローバル収束:Gemini 3との共同証明 [cs.RO, cs.LG, cs.AI, math.OC]目的:正則化核ノルム目的関数の最適化における固定点反復の解析
- 機械学習のプライバシー保護において,アルゴリズムの最適化は重要である。
- Hadamard積構造を含む最適化問題における反復計算の収束性証明が未解決であった。
- 本研究は,その未解決の問題を解決し,最適化の収束性を証明することを試みる。
- 固定点反復 $v \leftarrow \phi(v)$ が,ポテンシャル関数 $J(v)$ の唯一のグローバル最適解に単調収束することが証明された。
- この証明の大部分はGemini 3によって提供され,修正と介入が行われた。
- 本研究は,数学の証明におけるAIの実用性に関する考察を提供する。
LLMエージェントセキュリティの形式化のためのフレームワーク [cs.CR, cs.AI]目的:LLMエージェントセキュリティの文脈的性質の体系化
- LLMエージェントの利用拡大に伴い,セキュリティ確保が不可欠となっている。
- 既存のセキュリティ定義は文脈を考慮せず,汎用的な防御策では性能が低下する。
- 文脈を考慮したセキュリティ特性を定義し,攻撃と防御を再定義することで解決を目指す。
- 本研究では,タスク整合性,行動整合性,ソース認証,データ分離という4つのセキュリティ特性を提案した。
- 既存の攻撃(プロンプトインジェクション等)をこれらの特性の侵害として再定義することで,より厳密な定義を確立した。
- 提案フレームワークは,セキュリティ特性を強化する防御メカニズムの設計に役立つと考えられる。
適応層別摂動:LLM強化学習におけるオフポリシー補正の統合 [cs.LG, cs.AI]目的:LLM強化学習におけるオフポリシー問題の解決
- LLMの強化学習は,高度な意思決定能力の実現に不可欠であり,その発展が期待されている。
- オフポリシー学習では,方策の乖離が学習の不安定性や探索の停滞を招くという課題が存在する。
- 本研究は,中間表現への摂動注入により,方策の急激な変化を抑制し,学習の安定化を図ることを目指す。
- 提案手法である適応層別摂動(ALP)は,各層の入力隠れ状態に学習可能な摂動を注入することで,重尾の重要度比率を抑制する。
- 実験の結果,ALPは最終的な性能向上に加え,重要度比率のテールやKLスパイクの発生を抑制し,探索能力を向上させることを確認した。
- 全ての層にわたる表現レベルの摂動が最も効果的であり,部分的な層やロジットのみの摂動よりも大幅に性能が向上することが示された。
都市移動のための状態伝播拡散による軌跡復元:TRACE [cs.DM, cs.DC, cs.LG, cs.AI]目的:都市移動における軌跡の復元
- 位置情報サービスやスマートシティにおいて,高精度なGPS軌跡データは不可欠である。
- 実際の軌跡データは,サンプリング頻度の低さやインフラの制約から,疎で不均一な点が課題。
- 複雑な時空間パターンを持つ軌跡を,高密度かつ連続的に復元する手法の開発。
- 本研究で提案するTRACEは,拡散モデルを用いて疎な軌跡から高密度な軌跡を復元する。
- 状態伝播拡散モデル(SPDM)は,中間結果を記憶するメカニズムを持ち,難しい軌跡セグメントの復元を可能にする。
- 実データでの実験により,TRACEは最先端技術を26%以上上回り,推論コストも低いことが示された。
対称性破壊による任意のサブグループ不変ネットワーク [cs.LG]目的:任意のサブグループに対する不変性を持つネットワークの構築
- 幾何学的データ処理において,対称性を誘導バイアスとして組み込むことは汎化性能向上に繋がる。
- 既存の不変ネットワークは特定の対称性に対して設計され,多様なデータセットへの適用が困難である。
- 複数のグループに対して同時に不変性を持つ汎用的なモデルを構築し,柔軟なデータ処理を実現する。
- 提案手法であるASENは,補助入力特徴を調整することで複数のグループに対する不変性を実現する。
- 厳密な対称性破壊が難しい問題を,2-閉包の概念を用いて近似的な対称性破壊で解決する。
- グラフ,画像,シーケンスデータに対する実験で,ASENが既存手法を上回る性能を示すことが確認された。
ICLAD:教師あり方に応じた統一的な表形式異常検知のための文脈内学習 [cs.LG]目的:表形式データの異常検知における汎化性能の向上
- 表形式データは様々な分野に存在し,異常検知は重要な課題である。
- 既存手法は教師あり方ごとにモデルを学習するため,汎用性に欠ける。
- 異なる教師あり方やデータセットへの適応を可能にする統一的フレームワークの構築
- ICLADはメタ学習によって訓練され,モデルの重みを更新せずに異常スコアを算出する。
- ADBbenchの57データセットで,3つの教師あり方すべてにおいて最先端の性能を達成した。
- 異なるデータセットと教師あり方に対応する,統一的な表形式異常検知フレームワークを確立した。
段階的に部品を描画するエージェントの学習 [cs.AI, cs.CV, cs.GR, cs.LG]目的:ベクター形式のスケッチを部品ごとに生成する手法
- 近年,テキストからの画像生成技術が発展しており,創造的なタスクへの応用が期待されている。
- 複雑なスケッチを生成する際,全体を一度に生成するのではなく,部品ごとに制御したいという課題がある。
- 部品レベルの制御と編集可能性を備えた,解釈可能で制御可能なスケッチ生成を目指す。
- 本研究では,部品レベルのアノテーションを含む新しいデータセット「ControlSketch-Part」を構築した。
- 多段階の教師あり学習と,プロセス報酬を用いた強化学習により,テキストからベクター形式のスケッチを部品ごとに生成するエージェントを学習した。
- 実験の結果,部品レベルの構造化データと視覚的フィードバックの提供が,生成の解釈可能性と制御可能性を高めることが示された。
拡大ネットワークにおけるグラフフィルタリングを用いた確率的逐次意思決定 [cs.LG, eess.SP]目的:拡大するネットワークにおけるフィルタリングに基づく意思決定
- ネットワークデータ解析は,社会システムや情報伝達など広範な分野で不可欠である。
- 既存手法はグラフ構造が固定されている前提であり,動的に変化するネットワークに対応できない。
- グラフの拡大と不確実性を考慮した,長期的な視点を持つフィルタリング手法が求められる。
- 本研究では,グラフの拡大に対応するフィルタリングポリシーを学習する確率的逐次意思決定フレームワークを提案した。
- フィルタの変化を多エージェントシステムとしてモデル化し,マルチエージェント強化学習を用いてポリシーを訓練する。
- コンテキストを考慮したグラフニューラルネットワークにより,グラフとエージェントの情報に基づいたフィルタパラメータ調整を実現した。
実験台の向こう側:科学者の身体的な作業支援におけるAIの障壁と将来の機会 [cs.HC, cs.AI]目的:科学者の身体的な作業におけるAI活用に関する障壁と将来の機会
- 科学研究は実験やフィールドワークを含むため,AIの応用範囲はデスクワークに留まらない。
- 身体的な作業環境では,AIの導入に対する具体的な課題が不明確であった。
- 科学者の身体的な作業におけるAI活用の障壁を特定し,将来のAI支援の方向性を示す。
- 科学者は,実験の重要性からAIエラーのリスクを懸念し,AIの導入に消極的である。
- 限られた環境下や,暗黙知の必要性から,AIの活用が困難になっていることが示された。
- AIは人間の専門知識を代替するのではなく,物理的な作業を支援するインフラとして機能すべきである。
少数クエリに基づく線形社会選択:モーメントに基づくアプローチ [cs.GT, cs.AI]目的:社会選択における情報収集効率の向上
- 多様性を重視する現代の社会において,より効率的な意思決定手法が求められている。
- 既存の社会選択理論では,投票者からの情報が十分に活用されていないという課題がある。
- 投票者一人当たりの情報量を削減しつつ,適切な候補者を選出することを目指す。
- 投票者一人当たり一つのペアワイズ比較で,社会厚生を最大化する候補者を選出できることが示された。
- 二つのペアワイズ比較,または一つの段階的比較により,二次のモーメントを特定可能となる。
- これにより,格差を考慮した社会厚生基準など,より高度な目的関数に対応できる。
尿道鏡下自動腎結石識別のための信頼に基づいたロバストな連合学習戦略:FedAgain [cs.CV, cs.AI]目的:尿道鏡画像からの自動腎結石識別におけるロバスト性と汎化性能の向上
- 医療画像におけるAIの信頼性は,多様なデバイスや環境下での画像変化に対する堅牢性に依存する
- 異なる病院で取得された異種・破損画像に対するAIのロバスト性が課題となっている
- ノイズや悪意のある更新の影響を軽減し,安定した収束を促すことで,信頼性の高い連合学習を実現する
- FedAgainは,ベンチマーク信頼性とモデルの乖離を組み合わせた二重の信頼メカニズムを導入することで,クライアントの貢献度を動的に重み付けする。
- 5つのデータセット(MNIST,CIFAR-10,2つの私的腎結石データセット,MyStone)を用いた実験により,非IIDデータや破損クライアント環境下で,標準的な連合学習手法を上回ることが示された。
- 診断精度と性能安定性を維持することで,臨床利用可能なプライバシー保護型連合AIへの実用的な進歩を示す。
反証の学習:大規模言語モデルによる形式的な反例生成 [cs.AI]目的:形式的な反例生成
- 数学的推論には,証明と反証が不可欠。AI研究は証明に偏りがち。
- 反証の自動生成は難しく,既存のAIでは十分な性能が出ていない。
- LLMを用いて,形式的な反例生成の精度と効率を向上させる。
- 大規模言語モデルを微調整し,形式的な反例生成を可能にした。
- シンボリック変異戦略により,多様な学習データを生成し,性能を向上させた。
- 新たなベンチマークで有効性を検証し,顕著な性能向上を示した。
ItinBench:大規模言語モデルによる多次元認知能力の計画立案能力のベンチマーク [cs.AI]目的:大規模言語モデルにおける多次元認知能力の計画立案能力の評価
- 高度な認知能力を持つLLMが様々な推論・計画タスクで活用され始めているため
- 従来の評価は特定の推論に偏りがちで,多様な認知領域を網羅できていない
- 現実世界の問題を反映した,包括的な推論テストベッドの構築を目指す
- LLMは,複数の認知能力を同時に扱う際に,高いパフォーマンスと一貫性を維持することが難しい
- ItinBenchは,空間推論(経路最適化)を旅行計画に組み込むことで,多様なタスクを同時に評価できる
- 異なる認知領域のタスクを組み込むことで,より現実的な評価が可能となる洞察を提供する
胃癌分析のためのビジョン言語モデルの進歩を促すマルチモーダル多相ベンチマークデータセット Gastric-X [cs.CV, cs.AI]目的:胃癌分析におけるビジョン言語モデルの発展を目的とした,大規模マルチモーダルベンチマークデータセット
- 近年,医療分野における画像とテキストの複合的な解析が重要視されている。
- 臨床ワークフローを網羅した,構造化された医療データセットが不足している。
- 既存のビジョン言語モデルの能力を評価し,臨床現場での応用を促進すること。
- Gastric-Xは,1700件の胃癌症例を含む大規模なマルチモーダルデータセットである。
- 本研究では,主要なビジョン言語モデルを5つの臨床タスクで評価した結果,モデルの性能にばらつきが見られた。
- 今後の課題として,生化学的指標と腫瘍の特徴,テキストレポート間の相関関係を理解できるモデルの開発が挙げられる。
