arXiv雑要約
AI - 2026/04/21 公開
因果・時間イベントグラフ:再帰的エージェント実行トレースの形式モデル [cs.LO, cs.AI]目的:再帰的エージェント実行記録の形式化
- 複雑化するシステムにおいて,エージェントの振る舞いを正確に記録・分析する重要性が増している。
- 既存の手法では,再帰的なエージェント実行のトレースを形式的に表現し,検証することが困難である。
- 単一の因果関係に基づいた再帰的エージェント実行のトレースを形式的にモデル化し,その妥当性を検証する。
- 因果・時間イベントグラフ(CTEG)を導入し,再帰的エージェント実行記録を形式的にモデル化した。
- CTEGは,タイムスタンプとイベントタイプを持つノードからなる有根木構造であり,因果パスに沿ってタイムスタンプが厳密に増加する制約を満たす。
- CTEGの形式化により,局所的なエージェントの振る舞いからグローバルに整合性のある実行トレースを構築することが可能となり,改ざん検知にも応用できる。
SafeAgent: エージェントシステムのための実行時保護アーキテクチャ [cs.AI, cs.MA]目的:エージェントシステムの安全性確保
- LLMエージェントの利用拡大に伴い,セキュリティリスクへの対策が急務となっている。
- プロンプトインジェクション攻撃への脆弱性が存在し,入力フィルタリングだけでは不十分である。
- 実行時にエージェントの安全性評価を行い,安全性を維持しつつタスクを遂行すること。
- SafeAgentは,エージェントの安全性評価を状態遷移問題として捉え,実行時制御と文脈に応じた意思決定を分離する。
- ASBとInjecAgentでの実験により,SafeAgentは既存手法よりも高い堅牢性を示すことが確認された。
- リカバリー信頼度とポリシー重み付けが,安全性と有用性のトレードオフを決定することが示された。
拡散モデルにおける非線形時空間システム同定のための目標パラメータ化 [eess.SY, cs.LG, cs.SY, physics.flu-dyn]目的:非線形時空間システムの同定
- 近年,複雑な物理現象のモデリングにおいて機械学習の重要性が高まっている。
- 乱流などの強い非線形性を持つシステムでは,従来の同定手法は誤差の蓄積により信頼性が低下する。
- 拡散モデルの目標パラメータ化を最適化し,乱流における長期予測の安定性と精度向上を目指す。
- 拡散モデルにおいて,物理場の直接予測が速度やノイズ予測よりもロールアウトの安定性を向上させる。
- 特に,トークンあたりの次元数が増加する場合に,その効果が顕著になることが示された。
- 目標パラメータ化が,拡散モデルを用いた非線形システムの同定において重要な選択肢となることが明らかになった。
多様な辞書学習 [cs.LG, math.ST, stat.ML, stat.TH]目的:潜在変数の復元
- 観測データから隠れた世界を理解することは,様々な分野で重要である。
- 潜在変数の復元は,本質的に困難であり,仮定に依存する。
- 強い仮定なしに復元可能な範囲と,普遍的に採用可能なバイアスを明らかにする。
- 潜在変数間の集合演算(共通部分,補集合,対称差)と観測依存構造は,識別可能である。
- これらの集合論的結果を組み合わせることで,隠れた世界の構造化された見解を構築できる。
- 十分な構造的多様性があれば,全ての潜在変数の完全な識別が可能となる。
PBSBench:血液病理学的全スライド画像解釈のための多層ビジョン言語フレームワークとベンチマーク [cs.CL, cs.CV, cs.AI]目的:血液病理学的全スライド画像解釈のための多層ビジョン言語フレームワークとベンチマークの開発
- 血液検査における末梢血液塗抹標本は重要な検査であり,AIによる診断支援が期待される。
- 既存の病理画像向け多種モ−ダル大規模言語モデルは,血液像の解釈には汎化性が低い。
- 血液像に特化したデータセットとモデルを開発し,AI診断支援の精度向上を目指す。
- PBSInstrデータセットは,血液像の全スライド画像と細胞レベルの画像,および質問応答ペアを含む。
- PBS-VLモデルは,PBSInstrデータセットを用いて学習され,既存モデルよりも高い性能を示した。
- PBSBenchベンチマークは,血液像の理解度を多角的に評価するための質問カテゴリとタスクで構成される。
静的なスナップショットを超えて:エージェント化の最前線における言語モデルの評価フレームワーク [eess.SY, cs.SY, cs.AI]目的:言語モデルのエージェント化における評価の妥当性
- 大規模言語モデルの応用範囲拡大に伴い,その性能を適切に評価する重要性が増している。
- 既存の評価手法は,実際の利用状況を反映しておらず,長期的な挙動や推論過程を捉えられていない。
- 現実的な相互作用に基づいた継続的な評価フレームワークを構築し,報酬ハッキングを回避する。
- GCEフレームワークとISOProシステムを提案し,決定論的な検証器を用いることで報酬ハッキングを構造的に排除した。
- リソース制約のあるスケジュール問題でISOProを検証し,継続評価を通して能力の創発と暗黙のカリキュラム形成を確認した。
- CPUでのLoRAアダプターの更新を可能にし,ハードウェアの制約を大幅に低減,3倍の精度向上を達成した。
依存タスクの継続学習に対する回復保証:メモリ,データ依存正則化,データ依存重み [cs.CL, cs.CE, cs.LG, math.ST, stat.TH]目的:継続学習におけるタスク依存性の理論的保証
- 継続学習は,過去の知識を保持しつつ新たな知識を獲得する上で重要である。人工知能の発展に不可欠な課題である。
- タスク間のデータ分布の変化に対応する理論的保証が不足している。特にタスク間の依存関係を考慮した研究が少ない。
- タスク間の非線形な依存関係をモデル化し,実用的な継続学習パラダイムの回復保証を確立すること。
- 提案手法は,経験再生,データ非依存正則化,データ非依存重みを用いた継続学習に対して統計的な回復保証を提供する。
- データ依存重みを用いた経験再生や,データ依存正則化(知識蒸留など)に対しても,同様の保証が成立する。
- 既存研究では得られなかった有益な結果が得られる場合があることが示された。
データの量が十分であるか:生物医学データの発見可能性におけるゼータ則,そして謎めいたリーマンゼータ関数 [cs.LG, cs.AI, q-bio.NC]目的:生物医学データの発見可能性に関するスケーリング則の枠組み
- 生物医学研究はデータ量の増加に伴い進展するが,その効果を予測する理論的指針は不足している。
- データ量増加に対するモデル性能の変化を予測することが難しく,効率的なデータ利用が課題となっている。
- データのスペクトル構造に基づき,いつデータ追加が有効かを予測するゼータ則を提示する。
- 提案された枠組みは,データ共分散演算子のスペクトル構造と信号投影に基づき,交差モードの発見可能性を説明する。
- 性能指標はエンコーダーと交差モード演算子のスペクトルモードに累積された信号対雑音エネルギーとして表現できる。
- このゼータ則は,データスケーリングや表現の改善,モダリティの追加が発見を加速させる可能性を示唆する。
DIRCR:RAVENs問題を解くための二重推論ルール対照的推論 [cs.AI]目的:視覚的推論の堅牢性と一般化性能の向上
- 視覚的推論はAIの重要な能力であり,人間の知能に近づく上で不可欠である。
- 既存手法は全体像と局所的な関係性の両方を統合できず,ルール抽出が不完全になりがちである。
- 全体像と局所的な関係性を統合し,特徴分離性を高めることで,より抽象的で転移可能なルール学習を目指す。
- DIRCRは,局所的な推論経路と全体的な推論経路を組み合わせる二重推論モジュールを導入した。
- ルール対照学習モジュールは,特徴分離性を高め,抽象的なルール学習を促進する。
- RAVENsデータセット上での実験により,DIRCRが推論の堅牢性と一般化性能を大幅に向上させることが示された。
拡散と状態空間モデルによるマルチモーダル顕著物体検出 [cs.CV, cs.AI, cs.LG]目的:マルチモーダル顕著物体検出の性能向上
- 画像認識において,特に複雑なシーン中の重要な物体を正確に検出することは重要である。
- 既存の畳み込みニューラルネットワークやTransformer,Mambaでは,詳細な構造と長距離依存関係のモデリングが困難である。
- 拡散モデルの構造的知識と状態空間モデルの効率性を融合し,境界精度の向上を目指す。
- DGSSMは,拡散モデルの事前知識を状態空間モデルに組み込むことで,マルチモーダル顕著物体検出を段階的なノイズ除去過程として捉える。
- マルチスケール状態空間エンコーディング,適応的顕著プロンプト,反復Mamba拡散洗練メカニズムにより,境界の精度を向上させている。
- RGB,RGB-D,RGB-Tを含む13のベンチマークにおいて,最先端手法を上回り,コンパクトなモデルサイズを維持している。
AIRA:AI誘発リスク監査 - AI生成コードの構造化検査フレームワーク [eess.SY, cs.SY, cs.SE, cs.AI]目的:AI生成コードにおけるリスクの監査方法
- AI技術の発展はソフトウェア開発を加速させるが,安全性と信頼性の確保が重要課題である。
- AI生成コードは表面上は機能するものの,実際には保証が損なわれたり,エラーが隠蔽されたりする傾向がある。
- AI生成コードの潜在的なリスクを構造的に検出し,安全性を向上させることを目指す。
- AI生成コードは人間が作成したコードと比較して,深刻な問題が約1.8倍多く検出された。
- この傾向はJavaScript,Python,TypeScriptといった複数の言語で一貫して見られた。
- AI生成コードは,例外処理に関連するパターンで特に「fail-soft」な振る舞いを示す傾向にある。
ターミナルレンチ:報酬ハック可能な331環境と3,632件の悪用軌跡のデータセット [cs.CR, cs.AI]目的:報酬ハック可能な環境と悪用軌跡のデータセット
- 大規模言語モデルの安全性を評価する上で,現実的な悪用事例のデータセットが不可欠である。
- 既存のベンチマーク環境は,巧妙な報酬ハックによって容易に回避されてしまう場合がある。
- 言語モデルが悪用を試みる具体的な軌跡を分析し,その脆弱性を特定すること。
- 本データセットは,システム管理,機械学習,ソフトウェアエンジニアリングなど幅広い分野における報酬ハックの事例を提供する。
- 悪用は,単純な出力詐称から,バイナリの改ざんといった高度なものまで多岐にわたる。
- 推論過程を削除すると,悪用検出の精度が低下することが示された(AUCが0.97から0.92へ)。
エージェントは探索するが無視する:LLMには環境への好奇心が欠如している [cs.CL, cs.LG]目的:LLMベースのエージェントにおける環境への好奇心の欠如
- LLMエージェントは,環境からの情報を推論に取り込むことが期待されているため,その能力向上は重要である。
- 現状のLLMエージェントは,予期せぬ情報に対する認識や反応が不十分であるという課題がある。
- 予期せぬ情報に気づき,調査する「環境への好奇心」のメカニズムを明らかにすること。
- タスクの完全な解決策を環境に注入する実験で,解決策を発見してもそれを活用する割合は低いことが示された。
- 特にAppWorldでは,解決策への指示を90%以上認識しても,それを活用するのは7%未満に留まる。
- 利用可能なツール,計算資源,学習データ分布が環境への好奇心に影響し,最適化によって性能向上に繋がる可能性がある。
STEP-PD:段階を考慮したパーキンソン病重症度分類と解釈可能性の向上 [cs.LG, cs.AI]目的:パーキンソン病の重症度分類
- パーキンソン病は進行性の疾患であり,症状の変化を捉えた重症度分類が臨床管理と治療計画に不可欠である。
- 既存研究は二値分類に偏りがちで,経時的な臨床評価を十分に活用していない。
- 本研究は,臨床的に解釈可能な境界を用いて重症度に応じた分類を可能にする。
- 提案手法STEP-PDは,XGBoostを用いて高い分類精度を達成した(Healthy vs. Mild: 95.48%, Healthy vs. Moderate-to-Severe: 99.44%)。
- 三クラス分類においても,94.14%の精度と0.8775のMacro-F1スコアを示し,優れた性能と安定性を確認した。
- SHAP分析により,初期の運動症状から軸性および平衡機能の障害への変化が明らかになり,解釈可能性が向上した。
LLMエージェントの証明可能な協調:メッセージシーケンスチャートによるアプローチ [cs.PL, cs.AI]目的:LLMエージェントの協調に関する形式手法
- LLMを活用したマルチエージェントシステムは注目される一方,その振る舞いの予測は困難である。
- テストだけでは発見しにくい,デッドロックやメッセージの型不一致といった協調エラーが発生しやすい。
- メッセージシーケンスチャートを用いて協調を記述し,LLMの非決定性に関わらず協調特性を保証する。
- メッセージシーケンスチャートに基づいたドメイン固有言語を導入し,メッセージパッシング構造とLLMの動作を分離した。
- この言語からデッドロックフリーなローカルエージェントプログラムを生成する構文指向の射影を定義した。
- 診断コンセンサスプロトコルを用いてアプローチを説明し,ランタイムプランニングの拡張も示した。
モデル固有のスキル特性の解明 [cs.AI, cs.CL, cs.LG]目的:言語モデルの能力記述と行動変容の可能性
- 大規模言語モデルの能力理解は,その活用範囲拡大と制御に不可欠である。
- 既存手法は人手による分類や記述に依存し,モデル内部との整合性が課題であった。
- モデル内部表現に基づいた,より効果的なスキル特性の抽出と行動介入法の開発。
- モデルの活性化から抽出した基底は,人間の概念に依存せず,モデル固有の行動変容軸を捉えた。
- SFTデータ選択に応用した結果,MATHとAMCの正答率が最大20%,41%向上し,既存手法を上回った。
- 推論時のベクトル操作によりMATHの正答率が最大4.8%向上し,安全性向上のための効率的な学習も実現した。
時系列異常検知における根本原因分析のための条件付き帰属 [cs.HC, cs.LG]目的:時系列異常検知における根本原因の特定
- 複雑な現実世界のシステムの信頼性確保に不可欠な研究分野である。
- 既存手法は非現実的な特徴量摂動に依存し,時間的・特徴量間の依存関係を無視する。
- 文脈的に類似した正常な状態を参照し,信頼性の高い根本原因の特定を目指す。
- 提案手法は,異常を説明する際に,文脈的に類似した正常なシステム状態を参照する。
- 学習された低次元表現空間を利用し,高次元時系列データに対応する。
- SWaTおよびMSDSベンチマークにおいて,根本原因の特定精度が向上した。
KnowledgeBerg:大規模言語モデルにおける体系的な知識網羅性と構成的推論の評価 [cs.HC, cs.CY, cs.AI]目的:大規模言語モデルの知識網羅性と構成的推論能力の評価
- 現実世界の質問は,知識と推論能力を必要とする場合が多く,AIの高度化が求められている。
- 既存の言語モデルは,限られた知識領域における構成的推論に課題を抱えている。
- 知識の網羅性と推論能力を評価するベンチマークデータセットの構築と分析。
- KnowledgeBergは,10のドメイン,17言語にわたる4,800問の多肢選択問題で構成される。
- 代表的なオープンソースLLMは,知識の列挙と知識に基づいた推論において,低い性能を示した。
- 失敗パターンは,知識の完全性,要件の認識,推論の実行の3段階に分類された。
クレジットデフォルト予測のための付加的特徴グループ認識スタッキングフレームワークSTRIKE [cs.LG]目的:クレジットデフォルト予測の精度向上
- 金融業界におけるリスク管理の根幹であり,貸付判断やポートフォリオ最適化に不可欠である。
- 現代のクレジットデータは高次元・多様・ノイズが多く,単一モデルでは過学習や分布シフトへの脆弱性が課題である。
- 特徴グループを分割し,独立した学習器を訓練することで,過学習を抑制し,堅牢性を高めることを目指す。
- STRIKEは,企業倒産と消費者ローンを含む3つの実データセットで,強力な木構造ベースラインや従来のスタッキング手法よりも一貫して高いAUC-ROCを達成した。
- 性能向上は,モデルの複雑化ではなく,意味のある特徴分解に起因することが,消去研究により確認された。
- STRIKEは,安定性,スケーラビリティ,解釈可能性を備えたクレジットデフォルト予測のためのフレームワークとして有効であることが示された。
AIモデルの再利用に向けたAIドキュメントの動的更新 [cs.AI, cs.CL, cs.SE]目的:AIモデルの再利用性向上
- AI技術の発展は目覚ましいが,その成果を最大限に活用するには再利用が不可欠である。
- AIモデルのドキュメント不足や,更新の遅れが,再利用の妨げとなっている。
- AIドキュメントの更新を迅速化し,AIのベストプラクティスとの整合性を高めることを目指す。
- Hugging FaceのAIモデルダウンロード数と,Zero Draftテンプレートとの整合性に相関関係が認められた。
- AIモデルのドキュメント品質と再利用性との関連性が定量的に示された。
- AIドキュメントテンプレートをコミュニティ標準と定期的に比較する基盤が構築された。
SLO-Guard:SLO制約下のLLMサービングのためのクラッシュ対応型,予算一貫性のある自動チューニング [cs.LG, cs.DC, cs.PF]目的:LLMサービングにおけるSLO制約下での最適なシステム設定
- LLMの利用拡大に伴い,低遅延かつ安定したサービングシステムの構築が重要である。
- LLMサービング設定空間は広大であり,クラッシュやSLO未達の設定が多数存在し,探索が困難である。
- クラッシュを考慮した自動チューニングにより,効率的かつ安定的なLLMサービング設定を探索すること。
- SLO-Guardは,クラッシュを重要な情報として扱い,Thermal Budget AnnealingとTree-structured Parzen Estimatorを組み合わせることで,予算をより予測可能に活用する。
- 競合テストの結果,SLO-Guardとランダムサーチは同程度の性能であったが,SLO-Guardはより多くのトライアルを高速サービング体制で実行し,一貫性が高かった。
- SLO-Guardは,ランダムサーチと比較して,最適な遅延のばらつきを大幅に抑制することを示した。
PV-SQL:テキストからSQLへのエージェントのためのデータベース探索とルールに基づく検証の相乗効果 [cs.AI, cs.DB]目的:テキストからSQLへの変換における深い文脈理解の向上
- 自然言語によるデータベース操作は,情報アクセスを容易にする上で重要である。
- 複雑なクエリにおいて,文脈理解の不足が性能低下の要因となっている。
- 曖昧性の解消と制約の欠落を防ぎ,SQLクエリの精度向上を目指す。
- PV-SQLは,データベース探索とルールに基づく検証を組み合わせたエージェントフレームワークである。
- BIRDベンチマークにおいて,PV-SQLは実行精度で5%,有効効率スコアで20.8%向上した。
- PV-SQLは,より少ないトークン数で高い性能を実現している。
Poly-EPO:探索的推論モデルの訓練 [cs.AI]目的:探索的推論モデルの訓練
- 経験から学習する上で探索は重要であり,複雑な問題解決,新規問題への汎化,テスト時の計算資源のスケールに貢献する。
- 既存の言語モデルは,探索と活用のバランスが不十分であり,多様性と汎化性能に課題がある。
- 本研究は,楽観的な探索を促進し,探索と活用を組み合わせることで,推論性能を向上させることを目指す。
- Poly-EPOは,一連の応答を生成し,報酬関数に基づいて正確でありながら,推論戦略において多様性を発揮する。
- 様々な推論ベンチマークにおいて,Poly-EPOは汎化性能を向上させ,多様性を維持し,テスト時の計算資源のスケーリングを効果的に行うことが示された。
- セット強化学習と標準的な強化学習アルゴリズムの組み合わせにより,Poly-EPOは探索と活用の相乗効果を最大化する。
ビデオ・ロビン:意図に基づいたビデオから音楽への生成のための自己回帰拡散計画 [cs.SD, cs.AI, cs.CL, cs.CV, cs.LG]目的:ビデオと音楽の生成
- 動画コンテンツの重要性が増す中,適切な音楽の自動生成技術の必要性が高まっている。
- 既存モデルは視覚情報のみに依存し,セマンティックな制御やスタイルの指定が難しい。
- 視覚情報とテキスト情報を統合し,高品質かつ意図に基づいた音楽生成を目指す。
- ビデオ・ロビンは,自己回帰的計画と拡散に基づく合成を組み合わせることで,音楽の忠実性とセマンティック理解のバランスを取っている。
- モデルは,視覚情報とテキスト情報をセマンティックに整合させ,高レベルの音楽潜在表現を生成する。
- その潜在表現は,Diffusion Transformersを用いて一貫性のある高忠実度の音楽へと洗練される。
意味密度効果(SDE):トークンあたりの情報量を最大化することでLLMの精度が向上する [cs.MA, cs.CL, cs.CL, cs.AI]目的:大規模言語モデルの精度向上
- LLMの性能は,様々な分野で重要性が増しており,その精度向上が求められている。
- LLMのプロンプト最適化は,計算コストや遅延を伴うことが多く,効率的な手法が課題である。
- プロンプト中の低情報量トークンを除去し,意味情報を凝縮することで精度向上を目指す。
- 意味密度効果(SDE)により,プロンプトのトークンあたりの意味情報量を高めることが,LLMの精度向上に寄与することが示された。
- SDEの高い(0.80超)プロンプトは,平均で8.4%の精度向上を達成し,追加のトークン数や遅延も発生しない。
- Instruction Placement Effect(IPE)と組み合わせることで,精度向上はさらに11.7%に達する。
ATLAS:構成条件に基づく潜在幾何と,言語モデルおよびニューラル摂動データにおける再分配 [cs.LG, cs.AI, cs.CL]目的:言語モデルやニューラル摂動データにおける,構成条件に基づいた潜在幾何と再分配のメカニズムの解明
- 大規模言語モデルの挙動理解は,AIの安全性と信頼性向上に不可欠である。
- モデルの内部表現の変化を捉え,どのように構成条件が影響するか明確化されていない。
- 構成条件が誘導する潜在幾何が,モデルや基盤が変わっても検出可能か検証する。
- ATLASを用いることで,構成条件によって生じる隠れ状態構造をモデルやデータ全体で追跡することが可能となった。
- Gemmaモデルにおいて,構成条件に基づいた局所チャートは,レビューされたデータ行の大部分を捉え,高い識別性能を示した。
- この潜在幾何はモデルや基盤が異なっても再現されることが示され,構成条件がモデルの挙動に影響を与えるメカニズムを明らかにした。
事前適合型機能フロー:薬物動態の文脈内生成モデル [cs.LG, stat.ML]目的:薬物動態のゼロショット集団合成と個別予測
- 薬物動態解析は,新薬開発や治療効果の最適化において不可欠である。
- 従来のモデルは,手動によるパラメータ調整が必要で,時間と労力がかかる。
- 本研究は,パラメータ調整なしで集団合成と個別予測を可能とする。
- 事前適合型機能フローは,文脈情報を活用し,高精度な予測を実現した。
- オープンアクセスな文献コーパスを構築し,モデルの事前学習に活用した。
- 実世界のデータセットにおいて,最先端の予測精度を達成した。
拡散モデルの理解:モジュール加算に関するケーススタディ [cs.LG]目的:拡散モデルにおけるアルゴリズム学習のメカニズム解明
- 拡散モデルは画像生成で高い性能を示すが,その汎化能力のメカニズムは未解明である。
- 拡散モデルの内部動作がブラックボックスであり,学習過程の理解が課題となっている。
- モジュール加算という単純なタスクを通じて,拡散モデルの学習メカニズムを詳細に分析する。
- フローマッチングで学習した拡散モデルは,モジュール加算において過学習後に遅延して汎化する「グロッキング」を示すことがわかった。
- 単一画像データでは,モデルが個々の被加数の周期的な表現を合成することでモジュール加算を実現していることが明らかになった。
- 多様な画像データでは,モデルが反復サンプリング過程を利用し,算術計算段階と視覚的なノイズ除去段階にタスクを分割していることがわかった。
インテリジェントな法的文書分析に向けて:CNN駆動の判例テキスト分類 [cs.CL, cs.AI]目的:判例テキストの引用処理分類
- 法的文書の量は増加の一途を辿っており,効率的な分析が重要である。
- 法的文書特有の専門用語や複雑な文構造が,手動での分類を困難にしている。
- 高精度かつ効率的な法的文書の自動分類システムの構築を目指す。
- 提案システムは,公開データセットにおいて97.26%の分類精度と96.82%のマクロF1スコアを達成した。
- 特に,パラメータ数が少なく,推論速度が速いことが示された(BERTの13倍以上)。
- 誤差は意味的に近い引用カテゴリに限定されており,CNNアーキテクチャの有効性が確認された。
ベクトルベース検索における意味的絡み合い:エージェント型RAGシステムのための形式的枠組みと文脈条件付き分離パイプライン [cs.AI]目的:ベクトルベース検索における意味的絡み合いの形式的定義と,それを軽減するためのパイプライン
- 情報検索の精度向上は,知識ベースの有効活用に不可欠である。
- 従来のベクトル化では,複数のトピックが混在する文章で意味が混同されやすい。
- 意味的絡み合いを解消し,検索精度を向上させることを目指す。
- 意味的絡み合いを定量的に評価する「絡み合い指数」を定義した。
- 提案する意味的分離パイプライン(SDP)により,検索精度が大幅に向上した(約32%から約82%)。
- SDPは,ベクトル空間へのエンコード後の最適化では改善が難しい前処理の失敗モードに対処する。
再構成可能知能表面の適応的最適化に向けたパスベース量子メタ学習 [eess.SY, cs.LG, cs.SY]目的:再構成可能知能表面の適応的最適化
- 無線通信において,電波環境を制御し性能向上が期待される分野である。
- 動的な環境下では,干渉やユーザ移動により,最適化が困難である。
- 過去の成功事例を組み合わせ,新たな状況に対応する最適化手法を確立する。
- 提案手法は,量子パスの選択と組み合わせにより,効率的な最適化を実現した。
- 量子状態への圧縮により,計算効率が向上し,量子計算の優位性を示した。
- スペクトル効率,収束速度,適応性において,良好な性能が確認された。
SafeAnchor:大規模言語モデルの継続的ドメイン適応における累積的な安全性低下の防止 [cs.LG, cs.AI]目的:大規模言語モデルの継続的ドメイン適応における安全性維持
- 大規模言語モデルの安全性確保は,実用化において不可欠であり,信頼性の高い運用に繋がる。
- モデルが複数のドメインに適応していく過程で,安全性に関する保護機能が徐々に失われる問題がある。
- 本研究は,継続的なドメイン適応中に安全性維持を可能にするフレームワークを提案し,安全性低下を抑制することを目指す。
- SafeAnchorは,LoRAパラメータ空間において安全性に関連する低ランクのサブ空間を特定し,ドメイン固有の勾配更新をこれらの補空間に制約する。
- Llama-2-7B-ChatとMistral-7B-Instructを用いた実験により,SafeAnchorは元の安全性アライメントの93.2%を維持し,ベースラインを18〜42ポイント上回る性能を示した。
- ドメインタスクにおいては,制約なしのファインチューニングと同等の性能(1.5ポイント以内)を達成している。
CAPO:逐次型協調チームにおける反事実的貢献度評価 [cs.AR, cs.LG, cs.AI, cs.MA]目的:逐次型協調チームにおける各エージェントの行動学習可能性を最大化する学習信号
- 協調行動は複雑なタスクを達成する上で重要であり,エージェント間の協力関係を最適化する必要がある。
- チーム報酬が共有されるため,各エージェントの貢献度を正確に評価することが困難である。
- 逐次更新されるチームにおいて,新しいポリシーを反映しない過去のデータによる問題を解決する。
- CAPOは,環境との追加的なインタラクションを必要とせずに,各エージェントの報酬分解を学習する。
- CAPOは,標準的なベースラインと比較して,チーム規模が大きくなるにつれて優位性を示す。
- 本フレームワークは汎用的であり,マルチLLMパイプラインなどへの応用が期待される。
MoE-nD:多軸KVキャッシュ圧縮のための層ごとの専門家混合ルーティング [cs.LG, cs.CL]目的:長文脈LLM推論におけるKVキャッシュメモリのボトルネックを解消するための手法
- LLMの性能向上には,推論時のメモリ使用量の削減が不可欠である。
- 既存の圧縮手法は,各層に対して均一な処理を適用しており,最適ではない。
- 層ごとに最適な圧縮設定を自動的に選択するルーティングメカニズムを開発する。
- MoE-nDは,LongBench-v1の4つのタスクにおいて,14倍の圧縮率(136MB)で,非圧縮ベースライン(1.9GB)と同等の性能を達成した。
- 他の圧縮手法と比較して,同等または小さいメモリ使用量で,より高い精度を維持した。
- AIMEの推論ベンチマークにおいても,最良の層ごとの量子化ベースラインを上回る改善が見られた。
戦略:軌跡変調型自己対戦による転移可能な推論の学習 [cs.AI]目的:転移可能な推論の学習
- 言語モデルにおける汎用的な推論能力開発への応用が期待される分野である。
- 既存手法では,ゲーム固有のヒューリスティックと推論能力を区別できないという課題がある。
- ドメインに依存しない抽象的な推論を促進し,汎用的な推論能力を獲得することを目指す。
- STRATAGEMは,抽象的かつドメインに依存しない推論を示す軌跡を選択的に強化する。
- 推論移転可能性係数と推論進化報酬により,適応的な推論能力の開発を促進する。
- 数学的推論,汎用推論,コード生成のベンチマークにおいて顕著な改善が確認された。
幾何学的カナリア:表現の安定性による操縦可能性の予測とドリフトの検出 [cs.LG, cs.CL]目的:言語モデルの操縦可能性予測と内部構造劣化検出
- 言語モデルの実用化には,安全性と信頼性が不可欠であり,その評価方法が重要となる。
- モデルの挙動制御の予測や内部構造の変化検出は困難であり,効果的な指標が求められていた。
- 表現の幾何学的安定性を指標として用い,操縦可能性とドリフト検出を両立することを目指す。
- 教師ありShesha変数は,タスク適合幾何学的安定性により,35~69の埋め込みモデルと3つのNLPタスクで,ほぼ完璧な精度(ρ = 0.89~0.97)で線形操縦可能性を予測する。
- 教師なし安定性は現実世界のタスクでの操縦には不向きだが,Post-training alignment時のドリフト検出において,CKAよりも2倍以上の幾何学的変化を検出し,73%のモデルで早期警告を発する。
- 教師あり・なしの安定性は,LLMの展開ライフサイクルにおいて,操縦可能性評価と展開後の監視という補完的な診断機能を提供する。
WISV:デバイスエッジLLM推論における分散型推測デコーディングのための無線情報に基づいた意味的検証 [cs.IT, cs.AI, math.IT]目的:分散型推測デコーディングにおける性能向上
- デバイスエッジ環境でのLLM推論は,計算資源を効率的に活用できるが,通信環境に左右されやすい。
- 従来のトークンレベルの検証戦略は厳格すぎるため,正当なシーケンスが誤って却下されることが多い。
- 無線チャネルの状態を考慮した意味的検証により,検証精度と効率のバランスを取る。
- WISVは,従来の推測デコーディングと比較して,受け入れられるシーケンス長を最大60.8%向上させた。
- WISVは,インタラクションラウンド数を最大37.3%削減し,エンドツーエンドのレイテンシを31.4%改善した。
- タスクの精度低下はごくわずか(<1%)であり,実用的な有効性が確認された。
プロファイル解釈の前に:LLMメタ認知自己報告に対する妥当性尺度 [cs.RO, cs.CL, cs.AI]目的:LLMのメタ認知自己報告の妥当性評価
- LLMの能力評価は重要だが,その結果の信頼性確保が課題となっている。
- LLMの自己評価は,誤った情報や歪んだ判断を含む可能性がある。
- LLMの自己報告データの妥当性を検証し,信頼性のある評価手法を確立する。
- 大規模言語モデル(LLM)20機種を対象に,妥当性指標を適用した結果,4機種は重大な無効性を示し,2機種は警戒レベルと判定された。
- 妥当なプロファイルを持つモデルは,項目感受性の高い自信度を示したが,無効なプロファイルを持つモデルでは見られなかった。
- 思考連鎖(Chain-of-thought)学習は,相反する応答歪みを引き起こすことが示された。
自動最適化のための共進化エージェントアーキテクチャと解釈可能な推論 [cs.AI]目的:自動最適化におけるエージェントアーキテクチャと推論過程の共進化
- オペレーションズリサーチの複雑化に伴い,高度な問題解決能力が求められている。
- 大規模言語モデルを用いた自動化は,手動で構築された推論フローに依存しており,柔軟性に欠ける。
- エージェントのアーキテクチャと推論経路を進化させることで,適応性と解釈可能性を向上させる。
- 提案手法EvoOR-Agentは,問題解釈,数理モデル化,ソルバー選択,コード生成,デバッグを統合的に行う。
- ネットワーク構造を進化させることで,多様な推論経路を探索し,より良い解を見出すことが可能となった。
- 様々なオペレーションズリサーチベンチマークにおいて,既存手法と比較して安定した性能向上を示した。
fMRIに基づく精神疾患診断のための多視点情報ボトルネックフレームワークによる高次脳内相互作用のモデル化 [cs.LG]目的:fMRIデータを用いた精神疾患診断のための高次脳内相互作用のモデル化
- 脳機能の複雑さを理解し,精神疾患の客観的な診断基準確立に不可欠である。
- 従来の解析は脳領域間のペアワイズな繋がりのみに注目し,高次な相互作用を捉えきれていない。
- 高次脳内相互作用の情報を符号化し,冗長性を抑制することで,診断精度向上を目指す。
- 提案手法は,既存のグラフニューラルネットワークやハイパーグラフベースの手法を上回る性能を示した。
- 第三次および第四次の$O$-情報を用いた多視点情報ボトルネックフレームワークにより,包括的な脳内結合を捉えた。
- 脳領域レベルでの相乗効果と冗長性のパターンを解釈可能な形で明らかにした。
解釈の前にスクリーニング:ベンチマークに基づくLLMの信頼性指標に対するポータブルな妥当性プロトコル [cs.CL, cs.AI]目的:LLMの信頼性指標の妥当性評価プロトコル
- LLMの信頼度指標は意思決定に不可欠であり,その信頼性確保は重要である。
- 信頼性指標が項目レベルの情報を含んでいるかの検証方法が確立されていない。
- 臨床心理検査の妥当性評価手法をLLMに適用し,信頼性指標の検証を可能にする。
- 20の最先端LLMを評価した結果,4モデルは無効,2モデルは判定保留と分類された。
- 妥当なプロファイルを持つモデルは平均r = .18を示し,無効なモデルは平均r = -.20を示した。
- クロスベンチマーク検証により,本プロトコルの汎用性と移植性が確認された。
プログラム構造を意識した言語モデル:テキスト意味論を超えた標的型ソフトウェアテスト [cs.SE, cs.LG]目的:標的型テストケース生成
- ソフトウェアの品質向上は,経済的損失やセキュリティリスクを軽減する上で不可欠である。
- 既存のテストケース生成手法では,潜在的な脆弱性を持つ特定実行パスの網羅が困難である。
- 実行ブランチへの条件付けによる,制御可能かつ標的を絞ったテストケース生成を実現する。
- GLMTestは,コードプロパティグラフとコード意味論を統合し,実行ブランチに基づいたテストケース生成を可能にする。
- TestGenEvalベンチマークにおいて,GLMTestは最先端のLLMと比較してブランチ精度を27.4%から50.2%に向上させた。
- 本研究は,微妙なバグやセキュリティ脆弱性の発見におけるLLMの有効性を高める可能性を示唆する。
LLMの信頼性シグナルの妥当性スクリーニングの同時基準妥当性検証:選択的予測による評価 [cs.CL, cs.AI, cs.LG]目的:LLMの信頼性シグナル分類の妥当性評価
- 大規模言語モデルの利用拡大に伴い,その信頼性評価が不可欠となっている。
- LLMの出力信頼度指標は存在するものの,その妥当性を検証する手法が確立されていない。
- LLMの信頼性シグナル分類が,選択的予測性能を予測できるか検証する。
- 妥当性のあるモデル群は,平均Type 2 AUROC = .624 (SD = .048)を示し,妥当性の低いモデル群(.357)よりも有意に高い。
- 3つのティア(無効,不確定,有効)は一貫して順序付けられ,信頼性シグナル分類はAUROCの分散の47%を説明する。
- 選択的予測において,LLMの信頼性スクリーニングは重要な役割を果たすことが示された。
FlashFPS:プルーニングとキャッシュによる大規模点群のための効率的な最遠点サンプリング [cs.CL, cs.SI, cs.LG, cs.CV]目的:大規模点群処理における最遠点サンプリングの効率化
- 点群処理は,自動運転やロボティクスなど,多様な応用分野において不可欠な技術である。
- 点群処理の鍵となる最遠点サンプリングは,計算コストが高く,処理のボトルネックとなりやすい。
- 冗長な計算を削減し,キャッシュを活用することで,最遠点サンプリングの高速化を目指す。
- 提案手法FlashFPSは,GPU上で標準CUDAベースラインに対し5.16倍,PNNアクセラレータ上で2.69倍の高速化を達成した。
- FlashFPSは,FPS-PruneとFPS-Cacheにより冗長な計算を削減し,サンプリング品質を維持する。
- FlashFPSは,既存のCUDAライブラリや最先端のPNNアクセラレータに容易に統合可能である。
GeGS-PCR:2段階の色強調幾何学的-3DGS融合による効果的かつ堅牢な3次元点群登録 [cs.CV, cs.AI]目的:3次元点群の登録手法
- 自動運転やロボット工学において,環境認識の精度向上は不可欠である。
- 幾何学的特徴のみでは,重複率が低い,または点群が不完全な場合に登録が困難となる。
- 色情報を活用し,低重複率や不完全な点群においても堅牢な登録を実現すること。
- 提案手法GeGS-PCRは,幾何学的,色,ガウス情報に基づいて高精度な登録を達成した。
- Color3DMatchおよびColor3DLoMatchデータセットで最先端の性能を示し,Registration Recallは99.9%を達成した。
- 相対回転誤差は0.013,相対並進誤差は0.024と,従来手法と比較して少なくとも2倍の精度向上を達成した。
RePrompT:構造化EHRエンコーダと大規模言語モデルの統合のための再帰的プロンプトチューニング [cs.CL, cs.AI]目的:構造化EHRエンコーダと大規模言語モデルの統合手法
- 電子カルテは患者の臨床情報を豊富に含み,医療の質向上に不可欠である。
- 構造化EHRの活用において,時間構造とコード情報の保持が課題となっている。
- 患者個別の推論に偏りがちなLLMに対し,集団レベルのパターン学習を導入する。
- RePrompTは,過去の訪問履歴を考慮し,時間的情報を保持する。
- 集団レベルの情報を学習したプロンプトトークンを注入することで,性能を向上させる。
- MIMIC-III/IVでの実験により,複数の臨床予測タスクで既存手法を上回る性能が示された。
ボロノイ図誘導二辺間2Dガウススプラッティングによる任意スケールハイパースペクトル画像超解像 [cs.CV, cs.AI]目的:任意スケールハイパースペクトル画像超解像のためのフレームワーク
- ハイパースペクトル画像は多様な分野で利用され,高解像度化のニーズは高い。
- 既存手法はスケールごとに修正が必要で,柔軟性に欠ける点が課題である。
- 任意スケールに対応し,空間再構成とスペクトル忠実性を両立することを目指す。
- 提案手法GaussianHSIは,ガウススプラッティングを用いて任意スケール超解像を実現した。
- ボロノイ図誘導二辺間2Dガウススプラッティングにより,空間再構成の柔軟性を向上させた。
- スペクトル詳細強調モジュールにより,スペクトル再構成の精度を高めた。
MHSafeEval:大規模言語モデルにおけるメンタルヘルス安全性の役割に基づいた対話レベル評価 [cs.CL, cs.AI, cs.HC]目的:大規模言語モデルのメンタルヘルス安全性評価手法
- メンタルヘルスケアへのAI活用が期待される中で,その安全性確保は不可欠である。
- 既存の評価方法は,単発的な応答や静的なデータに依存し,対話的な文脈における有害性を捉えきれない。
- 対話における役割と臨床的有害性を考慮した,より詳細な安全性評価を可能にすること。
- 本研究で提案するR-MHSafeとMHSafeEvalを用いることで,既存の評価手法では見過ごされる役割依存性と累積的な安全性上の問題点が明らかになった。
- 評価フレームワークは,問題点の網羅性と診断の粒度を大幅に向上させることが示された。
- AIカウンセラーが取る役割(加害者,扇動者など)と臨床的有害性の組み合わせによる評価により,対話を通じて有害性がどのように発生・蓄積するかを分析できる。
ツール学習には,自由な8B言語モデルだけで十分である [cs.CL, cs.LG, cs.CL]目的:ツール利用エージェントの学習
- ツール利用エージェントは,様々なタスク自動化の鍵となり,その重要性は増している。
- 既存手法は,教師データや高コストな大規模言語モデルに依存しており,学習のハードルが高い。
- 低コストなリソースで,ツール利用エージェントの学習環境を構築し,性能向上を目指す。
- TRUSTEEは,8B程度の軽量なオープンソース言語モデルのみを用いて,ツール利用エージェントを学習可能にする。
- 環境構築(タスク生成,ユーザーシミュレーション,ツールシミュレーション,評価)を全てシミュレーションで完結させる。
- 様々なドメインで既存手法を上回り,リソース制約下でのツール学習の新たな可能性を示した。
ゼロ次最適化による効率的な連合学習RLHF [eess.SY, cs.SY, cs.CL, cs.LG]目的:リソース制約のあるエージェントにおける連合学習環境下での強化学習による人間からのフィードバック
- 近年,エッジデバイス等のリソース制約環境での機械学習への関心が高まっている。
- 連合学習では,通信コストや計算コストが課題となる場合が多い。
- 通信コストを削減しつつ,効率的な強化学習を実現することを目的とする。
- 提案手法Par-S$^2$ZPOは,ゼロ次最適化を用いることで,低い通信量,計算量,メモリ量で実現可能である。
- 理論解析により,サンプル複雑性は集中型手法と同等であり,ポリシー更新の反復回数でより高速に収束することが示された。
- MuJoCo環境における実験では,FedAvgベースのRLHFと比較して性能が向上した。
