arXiv雑要約
AI - 2026/03/10 公開
継続と拒否のせめぎ合い:LLMにおける継続トリガー型脱獄のメカニズム分析 [cs.RO, cs.AI, cs.LG]目的:LLMにおける継続トリガー型脱獄現象のメカニズム解明
- LLMの急速な発展に伴い,安全性確保が喫緊の課題となっている。
- 既存のLLMは脱獄攻撃に脆弱であり,その根本原因の解明が遅れている。
- 継続トリガー型脱獄のメカニズムを分析し,LLMの安全性向上に貢献すること。
- 継続トリガー型脱獄は,モデルの継続意欲と安全対策の間の競争から生じることが示された。
- 特定のアテンションヘッドが安全性に重要な役割を果たしており,その機能はモデル構造によって異なる。
- 本研究は,LLMの脱獄行動の理解と安全対策の改善に新たな視点を提供する。
糖尿病性網膜症および黄斑浮腫に対する深層学習と超広角イメージングの探求 [cs.CV, cs.AI]目的:糖尿病性網膜症および黄斑浮腫の診断・評価
- 視力障害の主要な原因である糖尿病性網膜症と黄斑浮腫の早期発見・治療が重要である。
- 従来の検査法では,網膜周辺部の病変の検出が困難であった。
- 超広角イメージングと深層学習を組み合わせることで,より高精度な診断を目指す。
- 本研究では,超広角イメージングにおける画像品質評価,糖尿病性網膜症の識別,黄斑浮腫の識別に深層学習モデルを適用した。
- Vision TransformerやFoundation Modelといった最新モデルが優れた性能を示し,特徴量レベルでの融合が有効であることが示された。
- Grad-CAMを用いた可視化により,深層学習モデルの判断根拠の解明にも貢献した。
ファイバーバンドル最適化 [cs.HC, cs.AR, cs.LG, cs.AI, cs.CL]目的:大規模言語モデルのポリシー最適化
- LLMは多様なドメインや専門知識を統合する傾向にあり,その学習には安定性の確保が不可欠である。
- 従来の近接目的関数は単一のスケールで動作し,トークン,軌跡,階層レベルの安定性を統合的に制御する手段がない。
- 本研究は,トークンレベルから階層レベルまでの多段階の安定制御を実現する新しい最適化手法を提案する。
- Aggregational Policy Censoring Objective (APC-Obj)を導出し,サンプルベースのTV-TRPOの正確な制約なし再構成を確立した。
- Fiber Bundle Gating (FBG)という代数的なフレームワークを開発し,RLデータをファイバーバンドルとして構造化し,比率ゲーティングを軌跡集約とトークン残差に分解した。
- Fibration Policy Optimization (FiberPO)を提案し,そのヤコビアンが軌跡上でブロック対角化され,オンポリシーで同一となり,トークン効率を向上させた。
患者生理機能の予測を通じた抗生物質切り替えの最適化 [cs.CL, cs.LG, stat.AP]目的:抗生物質切り替えの最適化
- 医療費削減や院内感染予防のため,適切な抗生物質の使用が重要である。
- 切り替え可能基準を満たしていても,IV投与が継続されるケースが存在する。
- 患者生理機能の予測に基づき,臨床医の判断を支援するシステムを開発する。
- 本システムは,ランダムな選択と比較して2.2~3.2倍多くの適切な患者を選出できる。
- 患者生理機能の予測は,抗生物質適正使用のための意思決定支援の原理的な基盤となりうる。
- 予測モデルは解釈可能性が高く,ガイドライン更新時にも再学習が不要である。
非IIDデータ下における適応的パーソナライズされた連合学習:FedPrism [eess.SY, cs.SY, cs.CL, cs.LG]目的:非IIDデータ環境下での連合学習における適応的なパーソナライズ
- 現実のデータは分布が多様であり,プライバシー保護が重要であるため,連合学習の重要性が高まっている。
- 連合学習では,クライアントデータの非IID性が性能低下の大きな要因となっている。
- データ分布の多様性を捉え,パーソナライズと汎化のバランスをとることを目指す。
- FedPrismは,グローバルな基盤モデル,類似クライアントの共有部分,固有データのプライベート部分でモデルを構築するPrism分解を用いる。
- これにより,類似ユーザーの自動グループ化とデータ変化への適応が可能となる。
- 実験の結果,FedPrismは高い異質性下で従来の集約手法やハードクラスタリングよりも優れた精度を達成した。
FlowTouch:視点不変な視覚-触覚予測 [cs.RO, cs.LG]目的:視覚情報からの触覚情報の予測
- 接触操作には触覚が不可欠であり,物体認識や精密制御に貢献する。
- 触覚センサーは接触時のみ有効で,計画段階や初期実行段階での利用が制限される。
- 視覚情報から触覚情報を予測することで,触覚センサーの制約を克服することを目指す。
- FlowTouchは,物体の局所的な3Dメッシュを用いて触覚パターンを予測し,視点依存性を低減する。
- シーン再構成とFlow Matchingに基づく画像生成を統合することで,シミュレーションから実世界への転移を可能にした。
- 予測された触覚画像は,把持安定性の予測にも活用できることが示された。
FinToolBench:現実世界の金融ツール利用におけるLLMエージェントの評価 [cs.RO, cs.AI]目的:現実世界の金融ツール利用におけるLLMエージェントの評価基準
- 金融分野へのLLM導入は急速に進んでおり,その信頼性・安全性の評価が重要である。
- 既存の金融評価はテキスト分析に偏り,実際のツール実行や厳格な金融規制への対応が不足している。
- 金融特有の厳しさや変化に対応できる,実行可能な評価環境を構築し,信頼性の高いAIの実現を目指す。
- FinToolBenchは,760の金融ツールと295の質問からなる初の現実世界ベースの評価基準である。
- 評価フレームワークは,実行の成否に加え,時間性,意図,規制遵守といった金融分野に特化した側面を評価する。
- FATRという金融に特化したツール検索・推論のベースラインを提案し,安定性とコンプライアンスを向上させている。
ニューラルネットワークによるオンライン較正を伴う航空磁気異常航法 [cs.LG]目的:航空磁気異常航法における,ニューラルネットワークを活用したオンライン較正
- 衛星測位への依存を減らし,妨害に強い航法技術の確立が求められている。
- 従来の磁気異常航法は,機体の磁気干渉へのリアルタイム補正が課題であった。
- 機体の磁気特性を飛行中に同定・補正し,事前較正の必要性を解消すること。
- 提案手法は,拡張カルマンフィルタとニューラルネットワークを組み合わせることで,機体の運動状態と磁気特性を同時に推定する。
- オンラインでの自然勾配降下法と同等な数学的構造を持ち,優れた収束性とデータ効率を実現する。
- MagNav Challengeデータセットでの検証により,事前較正なしでオフライン学習モデルと同等の航法精度を達成した。
金融言語モデルにおける効率的なバイアス検出に向けて [cs.AI, cs.CE, cs.LG]目的:金融言語モデルのバイアス検出手法の効率化
- 金融分野における言語モデル活用は重要だが,バイアスが課題となっている。
- 既存手法は計算コストが高く,継続的な再学習やリリースに支障をきたす。
- 複数のモデル間の一貫性を利用し,バイアス検出コストを削減する。
- 全てのモデルにおいて,単一属性および交差属性の両方でバイアスが確認された。
- モデル間でバイアスを示す入力パターンに一貫性があり,再利用によるコスト削減が可能である。
- FinMAモデルの場合,DistilRoBERTaの出力特性を利用することで,入力ペアの20%で73%のバイアスを検出できた。
SAIL:VLMを用いた文脈内模倣学習におけるテスト時スケーリング [cs.RO, cs.AI]目的:文脈内模倣学習におけるテスト時スケーリング手法
- ロボットの技能獲得において,デモンストレーションからの学習は重要であり,環境変化への対応が課題となる。
- 単一の軌道生成は,環境の変化に弱く,汎化性能が十分でないという問題点がある。
- テスト時の計算資源を効果的に活用し,ロバストな技能獲得を目指す。
- 提案手法SAILは,反復的な軌道洗練を通じて,テスト時の計算資源のスケーリングを可能にする。
- SAILは,モンテカルロ木探索を利用し,過去の成功軌道のアーカイブと,VLMによる評価,ステップレベルフィードバックを組み合わせる。
- シミュレーションと実機検証の結果,計算資源の増加に伴い,成功率が向上し,複雑なタスクで95%を達成した。
SCL-GNN:擬似相関学習による汎化性能の高いグラフニューラルネットワークへ [cs.LG, cs.AI]目的:グラフニューラルネットワークの汎化性能向上
- グラフ構造データは現実世界の様々な問題に応用可能であり,その分析は重要である。
- 既存のGNNは,ノード特徴量とラベル間の見かけ上の相関に過度に依存し,汎化性能が低下する。
- GNNが擬似相関を学習することを抑制し,分布シフトに対するロバスト性を高める。
- SCL-GNNは,Hilbert-Schmidt Independence Criterion (HSIC)を用いてノード表現とクラススコア間の相関を定量化する。
- 擬似相関学習メカニズムにより,無関係な相関を特定・軽減し,過学習を防ぐ二層最適化戦略を導入した。
- 実データおよび合成データセットでの実験で,既存手法を上回り,分布シフトに対するロバスト性を示す。
LLM はドキュメント QA シナリオにおいてどの程度幻覚を起こすか? 1720億トークンによる温度,コンテキスト長,ハードウェアプラットフォーム横断的な研究 [cs.RO, cs.MA, cs.CL, cs.AI]目的:大規模言語モデルにおける,ドキュメントに基づく質問応答における幻覚の程度
- 企業向け AI 展開において,LLM の信頼性は不可欠であり,その評価手法の確立が急務である。
- 既存の評価ベンチマークは,データ汚染や LLM による主観的な判断,統計的信頼性の低さといった問題を抱えている。
- 人間によるアノテーションを必要とせず,決定的な評価を可能にする新しい手法を確立し,幻覚の発生率を正確に測定すること。
- 最高性能のモデルでも,32Kトークンで 1.19% の割合で回答を捏造しており,コンテキスト長が長くなるにつれてその割合は急増する。
- モデル選択が最も重要な要素であり,モデルファミリーがモデルサイズよりも捏造への耐性を予測する上で優れている。
- 温度設定は複雑な影響を与え,T=0.0 が全体的な精度で優れている場合が多い一方,高い温度は幻覚を減らし,無限生成ループのリスクを大幅に軽減する。
AdaCultureSafe:大規模言語モデルにおける文化的知識に基づく適応的な文化的安全性 [cs.CL, cs.AI]目的:大規模言語モデルにおける文化的安全性と文化的知識の共同モデリング
- グローバル展開するLLMにおいて,多様な文化への配慮は不可欠であり,その重要性が高まっている。
- 従来のLLM研究では,文化的安全性と知識が分離されており,文化的安全性は知識に基づいているという点が考慮されていない。
- 本研究は,文化的知識に基づいてLLMが文化的に適切な応答を生成できるよう,文化的安全性を向上させることを目指す。
- 文化的安全性と知識に関する対になったデータセットAdaCultureSafeを構築した。約4,800件の文化的記述と48,000件の検証済みの質問を含む。
- 一般的なLLMの評価により,文化的知識と安全性の習熟度には有意な相関関係がないことが明らかになった。
- LLM内のニューロン活性化の分析から,事前学習と後学習の目的の違いが相関の欠如の原因であることが示唆された。知識に基づいた応答生成による文化的安全性の向上が確認された。
時間認識型解釈可能な死亡リスク予測フレームワークTA-RNN-Medical-Hybrid [cs.LG, cs.AI, cs.DC, cs.ET]目的:集中治療における死亡リスクの予測
- 集中治療における迅速かつ正確なリスク評価は,患者ケアの質向上に不可欠である。
- 電子カルテデータの不規則な時間構造や,病状進行の複雑さが予測精度を阻害する。
- 時間的側面と臨床的根拠に基づいた,解釈可能な予測モデルを構築する。
- TA-RNN-Medical-Hybridは,AUC,精度,F2スコアにおいて既存モデルを上回る予測性能を示した。
- モデルは,時間経過と臨床概念に基づいて死亡リスクを分解し,解釈可能な洞察を提供した。
- 本フレームワークは,予測精度と臨床的解釈可能性の両立を目指し,集中治療における意思決定支援に貢献する。
LLMによる助成金提案書の評価:構造的摂動を用いた検証 [cs.CL, cs.AI, cs.CY]目的:LLMを用いた助成金提案書のレビュー能力と限界の評価
- 研究エコシステムにおいて,AI支援による提案書が手動レビュー能力を上回り,レビュー体制の逼迫が課題となっている。
- 既存のレビュープロセスでは,提案書の質を多角的に評価することが難しく,公平性や効率性に課題が残る。
- LLMを活用したレビューシステムの有効性を検証し,その限界と改善点を明らかにすること。
- セクションごとにレビューを行う手法が,検出率とスコアリングの信頼性において他の手法よりも有意に高い性能を示した。
- LLMによるレビューは概ね妥当であるが,包括的な評価よりもコンプライアンスチェックに偏っている傾向が見られた。
- 現在のLLMはEPSRCレビューにおいて補助的な価値を提供できるものの,ばらつきが大きく,評価の優先順位が必ずしも適切ではない。
PolyFormer:複雑な物理的制約下におけるスケーラブルな最適化のための効率的な再構成学習 [cs.CL, cs.LG, cs.SY, eess.SY, math.OC]目的:複雑な物理的制約下でのスケーラブルな最適化のための効率的な再構成手法
- 現実世界の最適化問題は,計算のスケーラビリティを制限する複雑な物理法則によって制約されることが多い。
- 既存手法では,物理や幾何学的知識を組み込むことによる効率的な解法が難しい。
- 物理的・幾何学的知識を用いて問題を単純化し,最適化の効率化を図る。
- PolyFormerは,制約の背後にある幾何学的構造を捉え,効率的な多面体による再構成へと変換する。
- これにより,問題の複雑さと解の難易度を分離し,既存の最適化ソルバーによる効率的な解法を可能にする。
- 大規模なリソース集約,ネットワーク制約最適化,不確実性下での最適化において,最大6,400倍の高速化と99.87%のメモリ削減を達成した。
AI駆動エンジンブレード検査のためのブロックチェーンベースのトレーサビリティシステム [cs.CL, cs.CR, cs.AI, cs.DC]目的:航空機エンジンブレード検査のライフサイクルにおける改ざん不可能なトレーサビリティの実現
- 航空機の安全性を確保するため,部品のメンテナンス記録の正確性と透明性が不可欠である。
- 現在のメンテナンス記録システムは分散しており,監査が困難で,改ざんのリスクが存在する。
- 多段階の利害関係者による承認と,AIモデルの透明性を確保し,改ざんを検知可能なシステムを構築する。
- 提案システムBladeChainは,ブロックチェーン技術を用いて,ブレード検査のライフサイクル全体を追跡し,改ざん不可能な記録を提供する。
- 四者(OEM,航空会社,MRO,規制当局)間のHyperledger Fabricネットワーク上で構築され,ライフサイクルイベントを記録する。
- プロトタイプ評価の結果,最大100ブレードのワークロードで100%のライフサイクル完了と,1分あたり26件の処理能力が確認された。
まず小,後に大:シャープネスアウェア最小化における深さ誘発された暗黙的な鋭さバイアス [cs.LG, cs.AI]目的:線形分離可能な二値分類において,L層の線形対角ネットワークを訓練する際のシャープネスアウェア最小化(SAM)の暗黙的なバイアス
- 機械学習モデルの汎化性能向上は重要であり,そのために最適化アルゴリズムの暗黙的なバイアス理解が不可欠である。
- SAMのような最適化アルゴリズムの深さに対するバイアスの影響は十分に解明されていない。
- 深層ネットワークにおけるSAMのバイアスが,初期値や学習過程にどのように影響するかを解明する。
- L=1の場合,SAMは勾配降下法(GD)と同様に$\ell_2$最大マージン分類器を再現する。
- L=2の場合,$\ell_\infty$-SAMの極限方向は初期値に強く依存し,GDとは異なり,$\mathbf{0}$または任意の標準基底ベクトルに収束する。
- $\ell_2$-SAMでは,学習初期にマイナーな座標に依存し,徐々にメジャーな座標に移行する「逐次的な特徴増幅」という現象が確認された。
多Modal数学的推論の解体:統一された知覚・照合・推論パラダイムに向けて [cs.AI]目的:多Modal数学的推論における知覚,照合,推論のプロセス
- 数学の問題解決にテキストと視覚情報を統合する多Modal数学的推論は,その応用可能性から重要性が高まっている。
- 既存モデルは,図の解釈ミス,記号と視覚的証拠の照合失敗,矛盾した推論ステップが課題である。
- 本研究は,構造化された知覚,明示的な照合,検証可能な推論を統合し,多Modal数学的推論の理解と評価を促進する。
- 本研究では,多Modal数学的推論アプローチを,入力からの抽出,情報表現と照合,推論実行,推論プロセスの評価という4つの基本質問に基づいて体系的に分析した。
- 既存研究の統合的な枠組みにおける,構造化された知覚,明示的な照合,検証可能な推論の重要性が確認された。
- 今後の研究における,未解決の課題と有望な方向性について議論し,多Modal数学的推論の発展に貢献する。
境界条件が変化するパラメトリック問題に対するグラフ指示型ニューラルネットワーク [cs.HC, math.NA, cs.AI, cs.LG, cs.NA]目的:境界条件が変化するパラメトリック偏微分方程式のシミュレーション
- 物理現象のシミュレーションは,科学技術の発展に不可欠であり,その精度と効率が求められる。
- 従来の数値解析手法は,境界条件が変化する場合,計算コストが増大し,リアルタイムでの応用が困難である。
- 境界条件の変化に対応可能な,効率的なパラメトリック偏微分方程式の解法を開発すること。
- 提案手法であるグラフ指示型ニューラルネットワーク(GINN)は,パラメトリック問題と解の対応関係を効果的に学習する。
- GINNは,境界条件の変化にロバストであり,全結合型ニューラルネットワークと比較してスケーラビリティに優れている。
- 本研究の結果は,応用指向の様々な分野において,複雑なパラメトリック偏微分方程式を効率的に扱うための強力なツールとなりうる。
検索による解剖学的ガイダンスを用いたテキストからCT画像生成 [cs.CV, cs.AI]目的:テキストからCT画像生成における解剖学的ガイダンスの統合
- 医療画像生成は,病状理解や診断支援に貢献し,医療の質向上に不可欠である。
- 既存手法では,解剖学的整合性とセマンティック制御のバランスが課題となっていた。
- アノテーションなしでの高精度なCT画像生成と,解剖学的整合性の確保を目指す。
- 検索による関連症例の解剖学的情報を活用することで,生成画像の忠実性と臨床的一貫性が向上した。
- テキストのみのベースラインと比較して,明示的な空間制御が可能となり,より自然な画像生成が実現した。
- 検索の品質が生成結果に大きく影響し,セマンティックに整合性の高い症例が有効であることが示された。
概念誘導型ファインチューニング:ViTの誤った相関からの脱却とロバスト性の向上 [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG]目的:ViTにおけるロバスト性向上のための,概念に基づいたファインチューニング手法
- 画像認識におけるViTの利用が拡大しているが,分布シフトに対する脆弱性が課題となっている。
- ViTは背景情報などの誤った相関に依存しやすく,意味のある特徴を捉えられない場合がある。
- 意味レベルの概念を用いてViTの推論を誘導し,ロバスト性を高めることを目指す。
- 提案手法では,LLMとVLMを用いて概念マスクを自動生成し,モデルの内部的な関連マップを概念領域と一致させる。
- 実験の結果,5つの分布外ベンチマークにおいて,複数のViTベースモデルのロバスト性が向上した。
- 生成された関連マップは,セマンティックなオブジェクトパーツとの強い一致を示し,解釈可能性の向上にも貢献する。
エゴセントリック行動認識における人間とAIの認識差異:空間・時空間操作下での比較 [cs.CV, cs.AI]目的:人間とAIの行動認識性能の差異分析
- 現実世界の複雑な環境下での行動認識は,ロボット工学やヒューマンコンピュータインタラクションにおいて不可欠である。
- AIモデルは,低解像度,遮蔽,視覚的ノイズといった現実環境下で人間の認識能力に劣ることが課題となっている。
- 本研究は,人間とAIの認識差異を最小限の識別可能な領域を用いて明らかにし,より人間らしいAIモデル開発に貢献する。
- 人間は,最小識別領域からさらに縮小された領域への移行時に認識性能が急激に低下し,手と物体の相互作用などの重要な手がかりに強く依存していることが示された。
- 一方,AIモデルは徐々に性能が低下し,文脈や低レベルの特徴に頼ることが多く,空間的縮小下では認識確信度が上昇することもある。
- 時間的な攪乱に対して,人間は重要な空間的手がかりが保持されていれば高い頑健性を示す一方,AIモデルは時間的な変化に鈍感であり,行動クラスによって時間的な感受性が異なることが明らかになった。
CORE-Acu:鍼灸臨床意思決定支援のための構造化された推論トレースと知識グラフ安全性検証 [cs.AI]目的:鍼灸臨床意思決定支援のための,構造化された思考の連鎖(S-CoT)と知識グラフ(KG)安全性検証を統合したニューロシンボリックフレームワーク
- 鍼灸は厳密な解釈性と安全性が求められるため,臨床現場での意思決定支援システムの信頼性が重要である。
- 大規模言語モデル(LLM)はブラックボックスであり,推論の追跡が困難で,幻覚が発生する可能性がある。
- LLMの不透明性を解消し,安全性と説明責任を確保した鍼灸臨床意思決定支援システムの構築を目指す。
- CORE-Acuは,パターン認識から治療原則,治療計画,経穴選択への明確な因果関係を強制することで,従来の中国医学(TCM)の暗黙の推論を解釈可能な制約へと変換する。
- TCMの安全性知識グラフを構築し,決定論的ルールを用いて幻覚を遮断する「生成--検証--修正」の閉ループ推論システムを確立した。
- 1,000件の保留事例における実験で,CORE-AcuはGPT-4oと比較して優れたエンティティ忠実度と推論品質を示し,安全性違反は観察されなかった。
組合せ設計における数理的発見のためのエージェント型神経記号協調 [cs.AI, cs.HC, math.CO]目的:組合せ設計理論における新しい結果の導出
- 数学研究の新たな可能性を模索する上で,AIの活用は不可欠である。
- 既存のAIシステムは,数学的な発見において創造性や批判的思考に課題がある。
- 人間とAIが協調することで,数学的な発見を加速し,新たな知見を得ることを目指す。
- 大規模言語モデルと記号計算ツールを組み合わせたAIエージェントが,人間の戦略的な指示のもと,組合せ設計理論における新たな下界を導出した。
- 特に,$n \equiv 1 \pmod{3}$という困難なケースにおいて,Latin squares の不均衡に関する厳密な下界を確立した。
- この研究は,神経記号システムが純粋数学において真の発見をもたらす可能性を示唆する。
EndoSERV:視覚に基づく腔内ロボットナビゲーションシステム [cs.RO, cs.AI]目的:腔内ロボットナビゲーションの精度向上
- 早期癌治療において腔内ロボット支援手術の重要性が高まっている。
- 腔内解剖学的構造の複雑さから,ロボットナビゲーションは困難を伴う。
- 組織変形やランドマーク不足による局所化誤差を克服する。
- 提案手法EndoSERVは,セグメント分割と実仮想マッピングを組み合わせることで,腔内構造のナビゲーションを可能にする。
- ラベル不足に対応するため,実画像特徴を仮想空間にマッピングし,仮想ポーズのグランドトゥルースを活用する。
- 公開データセットと臨床データセットを用いた実験で,実ポーズラベルなしでも高い有効性が確認された。
アテンションヒートマップを超えて:病理組織学的マルチインスタンス学習モデルに対するより良い説明を得る方法 [cs.CV, cs.LG]目的:マルチインスタンス学習モデルの説明品質評価
- デジタル病理における診断支援において,ギガピクセル画像から得られるパッチを統合しスライドレベルの予測を行うMILは重要である。
- MILモデルの解釈性検証に用いられるヒートマップの妥当性に関する調査は十分ではない。
- MILヒートマップの品質評価フレームワークを提示し,より信頼性の高いモデル検証と生物学的知見の獲得を目指す。
- MILモデルのアーキテクチャとタスクの種類によって説明品質が大きく左右されることが示された。
- 摂動法(Single),LRP,IGが,アテンションベースや勾配ベースのヒートマップよりも一貫して高い性能を示した。
- 遺伝子発現予測モデルのヒートマップと空間トランスクリプトミクスとの相関や,HPV感染予測におけるモデル戦略の発見により,説明性の重要性が示された。
SPD-RAG:サブエージェントを用いたドキュメント検索拡張生成 [cs.CL, cs.AI, cs.IR]目的:大規模ドキュメント群からの複雑な質問応答
- 現実世界の複雑な質問に答えるには,広範な情報源からの知識統合が不可欠である。
- 従来のRAGパイプラインは,証拠の網羅性に課題があり,長文脈LLMは大規模入力の推論に限界がある。
- ドキュメントごとにエージェントを配置し,情報収集と回答合成の効率化を目指す。
- SPD-RAGは,LOONGベンチマークにおいて,GPT-5評価で平均スコア58.1を達成した。
- これは,Normal RAG(33.0)やAgentic RAG(32.8)を上回り,フルコンテキストベースライン(68.0)と比較してAPIコストを38%削減した結果である。
- ドキュメントレベルの専門化と集中型融合により,多様なマルチドキュメント環境での拡張性と回答品質が向上した。
動的ネットワークにおける偽レビューグループの検出:適応的なグラフ学習手法 [cs.FL, cs.SI, cs.AI]目的:偽レビューグループの検出
- オンラインプラットフォームにおいて,消費者の信頼と公正な競争を維持するためには不可欠な研究分野である。
- 従来の検出手法では,特に新製品のようなデータが少ない状況での高度な偽装戦略に対応が困難である。
- 本研究は,新製品における偽レビューグループの早期発見と高精度な検出を目指す。
- 提案手法DS-DGA-GCNは,製品,レビュー,レビューアー間の関係性を考慮することで,ロバストな検出を可能にする。
- ネットワーク特徴量スコアリング(NFS)と動的グラフアテンションメカニズムにより,適応的な検出を実現している。
- AmazonとXiaohongshuのデータセットを用いた実験で,最先端の手法と比較して高い精度(最大89.8%と88.3%)を示した。
注意出力射影の再考:効率的なTransformerのための構造化アダマール変換 [eess.SY, cs.SY, cs.RO, cs.DB, cs.CG, cs.IR, cs.RO, cs.LG, cs.CL]目的:Transformerにおける注意機構の効率化
- Transformerは自然言語処理の基盤であり,高性能なモデル構築に不可欠である。
- 注意機構の出力射影は計算コストが高く,モデルの規模拡大のボトルネックとなっている。
- アダマール変換による効率化で,計算コストを削減し,モデルの性能を維持・向上させる。
- 提案手法は,Transformerのパラメータ数を最大7%削減し,メモリ使用量を8.9%削減,スループットを6.6%向上させた。
- モデル規模,バッチサイズ,シーケンス長が大きくなるほど効率化のメリットが大きくなる。
- 構造化アダマール変換を用いたモデルは,学習FLOPsに対して検証損失がより急激に減少する傾向が見られた。
時系列データに対する反実仮想説明の妥当性向上への試み [cs.LG, cs.AI, stat.ML]目的:時系列分類問題に対する妥当な反実仮想説明の生成
- 機械学習モデルの説明可能性は,信頼性と意思決定の透明性を高める上で重要である。
- 既存の反実仮想説明は,現実的でない時系列構造を持つ場合がある。
- 現実的な時間的構造を持つ反実仮想説明を生成し,説明の質を向上させる。
- 提案手法は,既存手法と同程度の妥当性を達成しつつ,ターゲットクラスとの分布の一致において顕著な性能向上を示した。
- ソフトDTWとk近傍法を用いることで,生成された反実仮想説明の時間的現実性を効果的に高めることができた。
- 定性的な分析により,既存手法が現実的な時間構造を保持することの限界が明らかになった。
言語獲得初期段階における音響および視覚聴覚入力からの計算モデル:言語事前知識なし [eess.SY, cs.SY, cs.CL, cs.CL, cs.AI, eess.AS]目的:言語獲得初期段階の計算モデル
- 言語獲得は発達心理学の根幹であり,認知科学にも大きな影響を与える。
- 音響的な言語情報のみから言語を学習することは情報処理の観点から非常に困難である。
- 事前知識に頼らず,音響および視覚聴覚入力から言語を学習するモデルを構築し,初期言語発達のメカニズムを解明すること。
- 自己教師あり学習や視覚的接地を用いたモデルが,言語事前知識なしで様々な言語的特徴を学習できることが示された。
- 初期言語発達の多くの特徴が,言語獲得と人間の認知に関する複数の理論と一致する,共通の学習原理によって説明可能であることが明らかになった。
- 最新の学習シミュレーションは,入力データと乳幼児の言語発達に関する実証的知見との関連性において,より現実的になっている。
M³-ACE:マルチエージェントによる文脈設計を介したマルチモーダル数学推論における視覚的認識の修正 [cs.AI]目的:マルチモーダル数学推論における視覚的認識の修正
- 近年,マルチモーダル大規模言語モデルが数学的推論で進歩しているが,視覚的認識の精度がボトルネックとなっている。
- モデルは,推論能力よりも誤った,または不完全な視覚的証拠の抽出に失敗することが多い。
- 視覚的認識の修正を目指し,マルチエージェントによる文脈設計フレームワークを提案する。
- M³-ACEは,視覚的証拠リストを中心とした共有文脈を動的に維持することで,視覚的認識と推論を分離する。
- 複数のエージェントが協調し,矛盾を露呈させ,失われた知覚情報を回復させる。
- MathVisionベンチマークで89.1という最先端の結果を達成し,MathVistaやMathVerseなどの関連データセットでも一貫した改善が見られた。
リーダーボードのインセンティブ:戦略的なポストトレーニング下でのモデルランキング [cs.GT, cs.LG]目的:ベンチマークが誘発するインセンティブ構造
- AIモデルの性能評価は,開発競争を促進し,技術進歩の指標となる。
- 現在のベンチマークは,開発者による戦略的な最適化を招き,真の性能評価を妨げている。
- ベンチマーク設計を改善し,モデルの潜在的な質を正確に反映するランキングを実現する。
- 現在のベンチマークは,モデル開発者間のナッシュ均衡が存在しないゲームを誘発することが証明された。
- 最近提案された「tune-before-test」プロトコルは,潜在的な質でモデルをランク付けする一意のナッシュ均衡を持つベンチマークを誘導する。
- ベンチマーク設計次第では,良好なインセンティブを設定でき,現在の評価方法の問題点を克服できる。
マルコフ仮定を超えて:不均衡データにおける分数ワイル積分によるロバスト最適化 [cs.LG, stat.ML]目的:不均衡データにおけるロバスト最適化手法
- 機械学習は様々な分野で活用されているが,データ分布の偏りが課題となる。
- 特に不均衡データでは,多数派クラスの勾配が少数派クラスの信号を上書きしやすい。
- 分数ワイル積分を用いて,過去の情報を動的に加味することで,この問題を解決する。
- 提案手法は,医療診断において過学習を抑制し,金融不正検知ではPR-AUCを約40%向上させた。
- 分数微分の核となる加重分数ワイル積分を用いることで,ロバストな最適化を実現した。
- 分数トポロジーと応用機械学習の架け橋となりうる可能性を示した。
ランクからの構造:順位符号化によるシーケンスから構造への架け橋 [cs.RO, cs.NE]目的:構造化されたシーケンス情報の表現と一般化
- 人間の言語処理の神経メカニズム解明に不可欠な研究分野である。
- シーケンス情報から抽象的な構造を効率的に抽出する方法が課題である。
- 順位符号化がシーケンス情報から構造を抽出する鍵となることを検証する。
- 本モデルは,入力情報を効率的に圧縮しつつ,部分的な情報から完全な発話を再構成できる。
- 文脈一般化された感覚運動状態を表し,それが言語計画段階で文脈特異的な運動計画へと形作られる。
- モデルは,P3B波に類似した新規性検出を示し,階層的な文法符号化を可能にすることを示唆する。
LLMに基づく行動生成を持つ自律エージェントのための階層的エラー修正グラフフレームワーク [cs.AI]目的:LLMを用いた行動生成を行う自律エージェントのための階層的エラー修正グラフフレームワーク
- 複雑化するタスクに対し,自律エージェントの性能向上は重要である。特に,汎用的な問題解決能力が求められている。
- 既存手法では,タスク失敗の原因特定が困難であり,効果的なエラー修正が難しい場合が多い。
- 定量的な性能と意味的文脈の整合性を高め,エラーの原因を詳細に分析し,文脈情報を活用することで,より信頼性の高い行動を可能とする。
- 提案手法は,タスク品質,信頼性,報酬,LLMによる意味推論スコアを統合することで,より質の高い戦略選択を可能にした。
- エラーの種類を10カテゴリーに分類し,エラーの深刻度や復旧可能性を分析することで,タスク失敗の根本原因を特定した。
- 過去の状態,行動,イベントシーケンスをグラフ構造で表現し,文脈情報を考慮した戦略の適応と実行の信頼性向上を実現した。
大規模言語モデルにおける行動の可塑性:トークン条件付きの視点 [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの行動の可塑性
- 言語モデルの性能向上は,人間との自然な対話を可能にし,多様な応用への道を拓く。
- 既存モデルは特定の行動パターンに固定されやすく,柔軟な応答が困難である。
- トークン条件付き生成により,モデルの行動を制御し,安定的に学習させる。
- 大規模言語モデルは,入力トークンに応じて行動を変化させる可塑性を有することが示された。
- 提案手法ToCoRLは,強化学習を用いてこの可塑性を安定化し,学習可能な行動パターンへと変換する。
- ToCoRLにより,能力劣化なく行動の精密な制御が可能となり,数学に強いモデルを質問応答に転用できる。
安定したオフラインマルチエージェント強化学習のためのレシピ [cs.LG, cs.AI, cs.RO]目的:オフラインマルチエージェント強化学習の安定化手法
- マルチエージェント強化学習は,複雑な協調行動を学習する上で重要である。
- オフライン学習はデータ効率が良いが,マルチエージェント環境では不安定になりやすい。
- 非線形価値分解による不安定性を抑制し,オフラインマルチエージェント強化学習の性能向上を目指す。
- 価値スケール増幅と不安定な最適化が,非線形価値分解の不安定性の原因であることを確認した。
- スケール不変価値正規化(SVN)は,ベルマン固定点を変えることなく,アクター・クリティック学習を安定化させる。
- 価値分解,価値学習,ポリシー抽出といったオフラインマルチエージェント強化学習の主要要素間の相互作用を分析し,実用的なレシピを導出した。
錯覚への同調:人間とAIのフィードバックにおける選択盲 [cs.CL, cs.AI]目的:人間およびAIのフィードバックにおける選択盲現象の調査
- 強化学習における人間のフィードバック活用は,AIの性能向上に不可欠である。
- 人間の選好は不安定であり,一貫性がない場合があるという問題がある。
- フィードバックの信頼性を高め,AIの学習における誤りを防ぐことを目指す。
- 人間の選好において,91%の好みのすり替えが検出されず,第三者評価においても選択盲が確認された。
- LLMによる判断は,深い理解ではなく表面的なテキスト一致に依存し,根拠を削除すると選択盲が増加した。
- 報酬信号の半分が失われる程度のラベル汚染でも,標準的な評価指標はほとんど変化せず,方針の悪化につながることが示された。
幾何学的制約を用いた外れ値合成 [cs.LG, cs.AI]目的:画像分類における分布外データに対するロバスト性の向上
- 画像分類の精度向上は重要だが,未知のデータへの対応が課題となっている。
- 深層ニューラルネットワークは,分布外のデータに対して過信しやすいという問題がある。
- 学習時に外れ値を合成することで,よりロバストな特徴表現を獲得することを目指す。
- GCOSは,隠れ特徴空間で分布内データの多様体構造を尊重する形で,仮想的な外れ値を生成する。
- 生成される外れ値は,分布内データと区別しにくく,かつ容易に検出されない範囲で制御される。
- 実験の結果,GCOSは既存手法よりも優れた性能を示し,確実な外れ値検出への道筋を示した。
共有表現を用いたメタ強化学習は,エネルギーシステムにおける迅速な適応を可能にする [cs.MM, cs.LG]目的:エネルギーシステムにおける迅速な適応
- エネルギー管理は,持続可能な社会の実現に不可欠であり,最適化が求められている。
- 従来の強化学習は,タスクの変化や非定常環境への対応が課題であった。
- 本研究は,多様なエネルギーシステムのデータに適応する効率的な学習方法を提案する。
- 提案手法は,外層・内層の最適化と共有表現学習により,サンプル効率とタスク間の適応性を高める。
- 実際の建物エネルギー管理システムのデータを用いて検証した結果,従来の強化学習やメタ強化学習よりも優れた性能を示した。
- タスク準備法により汎化性能を向上させ,長期的な変動にも対応できる適応性を確認した。
自律ラボにおける人間を意識したロボットの振る舞い [cs.RO, cs.AI, cs.HC]目的:自律ラボにおける人間とロボットの協調的な作業効率の向上
- 化学や材料科学の研究加速に貢献する自律ラボの重要性が高まっている。
- ロボットは人間の存在を検知するだけで停止し,効率的な連携が課題である。
- ロボットが人間の意図を予測し,先回りして対応することで効率化を目指す。
- 提案手法は,ロボットが人間の行動を予測し,準備行動と一時的な操作を区別する。
- これにより,ロボットは人間が機器を使用するタイミングを予測し,よりスムーズな連携が可能となる。
- 実験結果から,本手法が自律科学ラボの効率向上に貢献することが示唆された。
シーケンス符号化におけるニューロン解析と摂動のためのフレームワークSYNAPSE [cs.RO, cs.LG, cs.AI]目的:Transformerモデルの内部挙動の理解とストレステスト
- AIは強力な分析ツールだが,透明性不足は信頼性への懸念を引き起こす。
- 既存の解釈手法は限定的で,体系的な頑健性評価が困難である。
- モデル変更なしに内部表現の脆弱性と安定性を評価する。
- SYNAPSEは,ドメインによらず,内部表現に一貫した組織性があることを示した。
- タスク関連情報は,広範かつ重複するニューロン集合に符号化されている。
- わずかな操作で予測が変更されることから,脆弱性と安定性の関係が示唆された。
IronEngine:汎用AIアシスタントへ向けて [cs.AI, cs.HC, cs.LG, cs.MA, cs.SY, eess.SY]目的:汎用AIアシスタントプラットフォームの構築
- AIアシスタントの需要拡大に伴い,高性能で柔軟な基盤技術が求められている。
- 既存のAIアシスタントは,特定のタスクに特化し,汎用性に課題がある場合が多い。
- 多様な環境で利用可能な,汎用的なAIアシスタントプラットフォームの実現を目指す。
- IronEngineは,デスクトップUI,API,モデルバックエンドなどを統合したプラットフォームである。
- 独自の三相パイプラインにより,計画の質と実行能力を分離し,効率的なタスク処理を可能にする。
- ファイル操作ベンチマークにおいて100%のタスク完了率を達成し,既存のAIアシスタントと比較して優位性を示す。
成長,評価,圧縮:メモリ効率の良いクラス増分学習のための適応的バックボーンスケーリング [cs.LG, cs.CV]目的:クラス増分学習におけるメモリ効率の向上
- 機械学習モデルの継続学習能力向上は,実世界での応用において重要である。
- 既存手法では,新しいタスク学習時に過去の知識を忘却する「破滅的忘却」が課題となる。
- モデルの拡張によるメモリ消費を抑制しつつ,破滅的忘却を防ぐ手法を開発する。
- 本研究で提案するGRACE戦略は,モデルの容量を動的に調整することで,既存手法と同等以上の性能を達成した。
- 特に,パラメータ数を最大73%削減し,メモリフットプリントの大幅な削減に成功した。
- 飽和度評価により,バックボーンの拡張または圧縮を適切に判断し,モデルの効率的な学習を実現した。
一つのモデルで十分:LLMエージェントの隠れ状態からのネイティブ検索埋め込み [cs.CL, cs.AI, cs.IR]目的:LLMエージェントのネイティブ検索能力
- 知識検索は,LLMの性能向上に不可欠である。外部知識へのアクセスは,応答の質と信頼性を高める。
- 従来の検索パイプラインは,複数のモデルを必要とし,複雑さと遅延が発生する。冗長性が課題となる。
- LLM自身の隠れ状態を利用し,外部埋め込みモデルを不要にすることで,効率的な検索を実現する。
- 提案手法は,従来の検索品質の97%を維持しながら,LLMエージェントが自身の表現を用いて検索することを可能にする。
- QReCCベンチマークにおいて,標準的な生成・エンコードパイプラインと同等のRecall@10とMRR@10を達成した。
- 各損失関数の貢献度を系統的な消去実験によって確認した。
不確実性のあるアジャイル地球観測衛星スケジューリングのためのハイブリッド評価に基づく遺伝的プログラミングによる効率的なポリシー学習 [cs.AI]目的:不確実性のあるアジャイル地球観測衛星スケジューリング問題の効率的な解決策
- 宇宙技術開発の進展に伴い,迅速かつ柔軟な衛星資源の活用が重要視されている。
- 衛星スケジューリング問題は,不確実性の影響を受けやすく,最適化が困難である。
- 遺伝的プログラミングの評価コストを削減し,よりロバストなポリシーを学習すること。
- 提案手法HE-GPは,既存の手法や遺伝的プログラミングと比較して,計算コストを大幅に削減した。
- HE-GPによって生成された最適なポリシーは,多様なシナリオにおいて高いスケジューリング性能を発揮した。
- HE-GPの平均学習時間は,厳密評価のみを用いた遺伝的プログラミングに比べて17.77%削減された。
外来プライマリケアクリニックにおける会話型診断AIの臨床的実現可能性に関する前向き臨床試験 [cs.HC, cs.AI, cs.CL, cs.LG]目的:会話型診断AIの臨床的実現可能性の評価
- 医療現場におけるAI活用は,医療の質向上や効率化に不可欠である。
- AIシステムの臨床実装には,安全性と有効性の厳格な評価が求められる。
- 本研究は,実際の臨床現場における会話型AIの安全性と有用性を検証する。
- 患者のAMIEとの会話に対する満足度は高く,AIに対する態度も改善された(p < 0.001)。
- AMIEの鑑別診断は,8週間後の診療記録において90%の症例で最終診断を含み,上位3つに最終診断が含まれる割合は75%であった。
- 医師はAMIEの出力が有用であり,診察準備に貢献すると評価した。
ライチークラスター:構造を意識したチャンキングと階層的KVインデックスによる効率的な長文コンテキスト推論 [cs.CL, cs.LG, cs.AI, cs.CL]目的:長文コンテキスト処理における効率的なKVキャッシュ管理
- 大規模言語モデルの性能向上には,長文コンテキストの効率的な処理が不可欠である。
- 既存手法は固定サイズでのチャンキングにより意味の一貫性を損ねたり,線形探索の非効率性といった課題がある。
- 意味的まとまりを保ちつつ,キャッシュ検索を高速化し,効率的なストリーミング生成を実現すること。
- ライチークラスターは,境界を意識したチャンキングと三角形不等式に基づいた階層的インデックスを構築する。
- これにより,キャッシュ検索を線形探索から理論的に時間計算量が制限された対数時間でのプルーニング処理へと変革する。
- 実験の結果,最先端のKVキャッシュ管理手法と比較して,最大3.6倍の推論速度向上を達成し,モデル性能への影響は軽微である。
