arXiv雑要約
AI - 2026/03/20 公開
大規模言語モデルは心の理論を持つか? 奇妙な物語パラダイムを用いた比較評価 [cs.IR, cs.CL, cs.AI]目的:大規模言語モデルにおける心の理論の能力の評価
- 人間社会の相互理解には,他者の心を推測する能力が不可欠である。
- 大規模言語モデルが社会的な推論能力を示すものの,その理解の深さには疑問が残る。
- 大規模言語モデルの心の理論の能力を定量的に評価し,人間との比較を行う。
- より小型・初期のモデルは,手がかりの数や文脈に影響されやすいことが示された。
- GPT-4oは高い精度と頑健性を持ち,困難な条件下でも人間のパフォーマンスに匹敵した。
- 本研究は,大規模言語モデルの認知ステータスと,真の理解と統計的近似の境界に関する議論に貢献する。
セラピージム:セラピーチャットボットの臨床的忠実性と安全性の評価と整合 [cs.CL, cs.AI, cs.CY]目的:セラピーチャットボットの臨床的忠実性と安全性の評価・改善フレームワーク
- メンタルヘルス問題の増加に伴い,LLMによるサポートの重要性が高まっている。
- 既存の評価指標は,心理療法の重要な側面を捉えられていない。
- 臨床的忠実性と安全性を確保した,より信頼性の高いセラピーチャットボット開発を支援する。
- THERAPYGYMは,CBT技術への準拠度を自動評価するCTRSパイプラインと,リスクを多角的に評価するアノテーションスキームを導入した。
- THERAPYJUDGEBENCHにより,LLMベースの評価者のバイアスや信頼性の検証が可能となった。
- THERAPYGYMによる訓練により,CTRSスコアが大幅に向上し,より臨床的に忠実で安全なチャットボットが開発された。
最初のトークンはどれほど確信を持っているか:大規模言語モデルの分類と理解のための不確実性キャリブレーションされたプロンプト最適化フレームワーク [cs.CL, cs.AI]目的:大規模言語モデルの分類と理解における不確実性に基づいたプロンプト最適化
- 自然言語処理において大規模言語モデルの利用が広がり,高性能化のためにはプロンプト設計が重要である。
- 既存の不確実性指標はクラスの事前分布を考慮せず,信頼性の低い結果を生む可能性がある。
- 最初のトークンに基づく指標で不確実性を正確に評価し,プロンプトの最適化を支援することを目指す。
- 提案手法Log-Scale Focal Uncertainty (LSFU) は,ラベルの事前確率を考慮することで,不確実性の測定精度を向上させた。
- UCPOFフレームワークは,最初のトークンを利用して高品質な事例を選択し,プロンプトを動的に最適化する。
- 実験結果から,UCPOFは既存手法と比較して,平均精度が向上し,計算コストを削減できることが示された。
政治家伝記抽出のためのエージェントフレームワーク [cs.CL, cs.AI, cs.CY]目的:大規模政治データセット構築における政治家伝記の構造化抽出
- 政治科学研究において,大規模な政治データを必要とするが,手作業によるデータ抽出はコストがかかる。
- 非構造化データからの構造化された事実抽出は,自動化が難しく,専門家の手作業に頼らざるを得ない。
- 大規模言語モデルを活用し,政治家伝記の抽出を自動化することで,政治科学研究のボトルネックを解消する。
- キュレーションされた情報に基づき,LLMコーダーは人間の専門家と同等またはそれ以上の抽出精度を達成した。
- ウェブ環境において,エージェントシステムは人間の集合知(Wikipedia)よりも多くの情報をウェブ資源から合成できた。
- 合成段階が,証拠を信号密度の高い表現にキュレーションすることで,直接コーディングによるバイアスを軽減することが示された。
DynaRAG:検索拡張生成における静的・動的知識の架け橋 [cs.CL, cs.IR, cs.CL, cs.AI, cs.IR]目的:静的・時間依存情報を扱う検索拡張生成フレームワーク
- 質問応答システムは,知識の範囲と鮮度が重要である。
- 従来のRAGは静的データに依存し,最新情報への対応が課題。
- 動的な知識統合により,質問応答の精度と信頼性を向上させる。
- DynaRAGは,動的な質問に対する回答精度を大幅に改善した。
- DynaRAGは,幻覚(ハルシネーション)の発生を抑制する効果が確認された。
- 動的なルーティングと選択的なツール利用が,信頼性の高い質問応答に不可欠である。
LLM構造化出力とデータ抽出のリアルタイム信頼性スコアリング [cs.CL, cs.CL, cs.LG]目的:LLM構造化出力の信頼性評価
- LLMはAI応用の可能性を秘めるが,出力の信頼性が課題である。
- LLMの構造化出力は断続的な誤りを伴い,実用化を阻害している。
- 人的レビューリソースを効率的に活用し,誤りの箇所を特定すること。
- CONSTRUCTは,LLM構造化出力の信頼性をリアルタイムでスコアリングする手法である。
- スコアの低い出力は誤りを含む可能性が高く,レビュー対象の絞り込みに役立つ。
- Gemini 3やGPT-5を含む様々なLLMにおいて,既存手法より高い精度・再現率で誤りを検出できる。
精度を超えて:説明可能性に基づいた有害コンテンツ検出の分析 [cs.CL, cs.AI]目的:有害コンテンツ検出モデルの説明可能性に関する分析
- オンラインプラットフォームの安全性確保は重要であり,自動化された有害コンテンツ検出システムが活用されている。
- モデルの予測根拠が不明確であり,特に微妙な状況や政治的敏感なコンテンツにおいて問題が生じている。
- モデルの判断理由を明確化し,人間による監視を支援することで,より安全なオンライン環境を実現する。
- モデルは高い精度を示す一方で,集計評価指標からは見えない限界が存在することが明らかになった。
- Integrated Gradientsは文脈的な特徴を,Shapley Additive Explanationsは明示的な語彙的特徴に焦点を当てている点が確認された。
- 説明可能なAIは,モデルの不確実性を明らかにし,自動化された意思決定の根拠を提示することで,人間とAIの協調的なモデレーションを促進する。
MineDraft:バッチ並列推測デコーディングのフレームワーク [cs.CL, cs.AI, cs.DC, cs.LG]目的:バッチ並列推測デコーディングのフレームワーク
- 大規模言語モデルの推論速度向上は,様々な応用において重要な課題である。
- 従来の推測デコーディングは,ドラフト生成と検証の逐次実行により性能が制限される。
- ドラフト生成の遅延を隠蔽し,推論の効率を向上させることを目指す。
- 提案手法MineDraftは,バッチ並列設計によりドラフト生成と検証を並行して行うことで,推論処理の効率を高める。
- 実験結果から,MineDraftは従来の推測デコーディングと比較して,スループットを最大75%,エンドツーエンドのレイテンシを最大39%改善することが示された。
- MineDraftはvLLMのプラグインとして実装されており,実運用環境での利用が容易である。
摩耗したRoPEと長い入力:幾何学的視点 [cs.LG, cs.CL]目的:言語モデルにおける位置エンコーディング手法RoPEの挙動に関する幾何学的理解
- 言語モデルの性能向上には,入力テキスト中の位置情報を効果的にエンコードすることが不可欠である。
- RoPEは有効だが,入力長が学習長を超えると性能が低下する問題がある。
- RoPEの長入力における性能低下の原因を幾何学的に解明し,その解決策を提示すること。
- RoPEは,キーとクエリの潜在空間における密なクラスタリングを誘導し,不要なトークン混合を回避する「シンクトークン」の創出を可能にする。
- 長入力では,このキー/クエリクラスタの分離が損なわれ,シンクトークンの機能が阻害されることで,異常な挙動が生じる。
- RoPE-ID (In Distribution)という単純な修正を提案し,一部チャネルに高周波のRoPEを適用することで,長入力への汎化性能を向上させた。
BenchBrowser:ベンチマーク妥当性評価のための証拠収集 [cs.CL, cs.DB, cs.CL, cs.AI, cs.SE]目的:ベンチマーク妥当性評価のための証拠収集
- 言語モデルの性能評価は,AI開発において不可欠であり,信頼性の高い評価基準が求められる。
- 既存のベンチマークはメタデータが粗雑で,実際のテスト内容が不明瞭な場合がある。
- ベンチマークが意図された能力を適切に評価しているか検証し,妥当性のギャップを定量化する。
- BenchBrowserは,20のベンチマークスイートから自然言語利用事例に関連する評価項目を検索する。
- 人間による検証の結果,高い検索精度が確認された。
- BenchBrowserは,内容妥当性(能力の側面に関する網羅性)と収束妥当性(同一能力測定時の安定したランキング)の低さを診断するのに役立つ。
企業のAI技術イノベーションと消費者苦情の関係性の理解 [cs.CY, cs.HC, cs.CY, cs.AI, stat.AP]目的:企業AI技術イノベーションと消費者苦情の関連性
- AI技術は競争優位性の源泉であり,その影響評価が不可欠である。
- AI技術の導入が消費者感情に及ぼす影響は未解明な点が多い。
- AIイノベーションが消費者苦情に与える影響を心理学的に解明する。
- 企業のAI技術イノベーションは,消費者の脅威感情を高め,苦情を増加させる。
- AIプロダクトイノベーションは,AIプロセスイノベーションよりも苦情を多く引き起こす。
- 消費者の心理的反応理解と,苦情管理への示唆を与える。
NeuroAI における臨床的に意味のある説明可能性:倫理的,技術的,臨床的視点 [cs.CY, cs.AI, q-bio.NC]目的:NeuroAI の説明可能性に関する臨床的ニーズと技術的設計
- 精神・神経疾患治療における閉ループニューロテクノロジーの応用が期待される中で,AI の透明性と信頼性が重要となる。
- 既存の XAI 手法による説明が,臨床医のニーズと必ずしも一致していないという課題がある。
- 臨床現場で有用な説明可能性を追求し,より良い患者治療とケアに繋げることを目指す。
- 臨床医は,技術的な詳細よりも,入力と出力の関係性や特徴量の重要性といった,臨床的に関連性のある説明を優先する。
- 過度な技術的透明性は,情報過多を引き起こす可能性があり,必ずしも有用とは限らない。
- NeuroXplain という参照アーキテクチャを提案し,臨床的に意味のある説明可能性を実現するための具体的な技術的設計指針を示す。
Transformer における層ごとの教師あり学習による検証可能なモジュール性の工学 [cs.LG, cs.AI]目的:Transformer のモジュール性に着目した制御と解釈性の向上
- Transformer は自然言語処理の基盤技術であり,その性能向上は重要である。
- Transformer は冗長性により,特定のコンポーネントの役割を特定・制御することが困難である。
- 層ごとの教師あり学習により,Transformer の隠れたモジュール性を露出し,制御可能にする。
- 層ごとの教師あり学習を導入することで,アブレーションの影響が大幅に増大し,モデルの挙動をより予測可能に制御できるようになった。
- アブレーションによる影響の分散が増加し,どの予測がどの回路に依存しているかを明らかにすることができた。
- 計算ダイナミクスを捉える特徴量や,モジュール性を担保するアーキテクチャを用いて,本手法の有効性を検証した。
Quine:LLMエージェントをネイティブPOSIXプロセスとして実現する [cs.OS, cs.AI, cs.PL, cs.SE]目的:LLMエージェントの実現
- LLMエージェントは,AI技術の発展において重要な役割を担う。
- 既存のフレームワークは,OSが提供する機能をアプリケーション層で再実装している。
- OSのプロセスモデルを活用し,LLMエージェントの効率性と堅牢性を高める。
- Quineは,LLMエージェントをネイティブPOSIXプロセスとして表現するアーキテクチャである。
- プロセスIDを識別子,標準ストリームと終了ステータスをインターフェースとして利用する。
- プロセスモデルの限界を明らかにし,タスク固有の世界や修正可能な時間という拡張の方向性を示唆する。
InfoMamba: 注意を用いないMamba-Transformerハイブリッドモデル [cs.LG, cs.AI]目的:系列モデリングにおける高精度かつ効率的なモデルの構築
- 系列モデリングは,自然言語処理や時系列解析など,多様な分野で不可欠な技術である。
- Transformerは計算コストが高く,Mambaは長距離依存関係の学習が課題である。
- TransformerとMambaの利点を組み合わせ,計算効率と性能の両立を目指す。
- InfoMambaは,自己注意機構の代わりに概念ボトルネック線形フィルタ層を用いることで,計算コストを削減。
- 情報最大化融合(IMF)により,グローバルコンテキストをSSMダイナミクスに動的に注入し,情報利用を促進。
- 分類,密予測,非ビジョンタスクにおいて,TransformerやSSMのベースラインを上回り,精度と効率のトレードオフを両立。
産業データストリームにおける故障とドメインシフトの識別に向けて [cs.LG, cs.AI, stat.ML]目的:産業データストリームにおける故障とドメインシフトの識別方法
- 設備の安定稼働には,異常や故障の早期発見が不可欠である。予防保全による損失の低減に繋がる。
- データ変化が必ずしも異常ではないため,誤検知が課題となる。正常なシステム進化を故障と誤認する可能性がある。
- 故障と正常なドメインシフトを区別し,誤検知を抑制することで,システムの信頼性を高めることを目指す。
- 提案手法は,データ分布の変化と異常を検出し,故障とドメインシフトを識別する。
- Page-Hinkley changepoint検出器と教師ありドメイン適応アルゴリズムを組み合わせることで,オンラインでの迅速な異常検知を可能にする。
- 説明可能なAI (XAI) コンポーネントを導入し,オペレーターが最終的な識別判断を下せるように支援する。
意味変化するカメレオン:RAGシステムにおけるコーパス依存型ポイズニング攻撃と防御 [cs.CR, cs.AI, cs.LG]目的:RAGシステムに対するコーパスを用いたポイズニング攻撃とその防御策に関する研究
- 大規模言語モデルの知識拡張に有用なRAGシステムは,その安全性確保が重要である。
- RAGシステムの検索パイプラインは攻撃対象となりやすく,悪意のある情報を注入されるリスクがある。
- 検索パイプラインへの攻撃を防ぎ,モデル出力の改ざんを抑制することを目的とする。
- 勾配誘導によるコーパス・ポイズニング攻撃は,純粋なベクトル検索において38.0%という高い共起検索率を達成した。
- BM25とベクトル類似度を組み合わせたハイブリッド検索は,この攻撃を大幅に軽減し,攻撃成功率を0%に抑えた。
- 分散検索と密検索の両方の信号に対して攻撃者がペイロードを最適化した場合,ハイブリッド検索は部分的に回避されるものの,攻撃の難易度は依然として高かった。
てんかんの制御:全脳ダイナミクスの平均場制御 [cs.LG]目的:てんかん発作中の高次元神経ダイナミクスの制御
- 脳神経科学において,てんかん制御は患者のQOL向上に不可欠であり,その重要性は高い。
- 脳の非線形性と複雑な結合構造により,てんかん発作の制御は困難を極める。
- 脳機能的トポロジー構造を尊重しつつ,ロバストな発作抑制を実現すること。
- 提案手法であるGK-MFGは,脳波(EEG)ダイナミクスを線形潜在空間に埋め込み,位相ロック値(PLV)由来のグラフラプラシアン制約を課す。
- これにより,従来法よりもロバストな発作抑制が可能となる。
- 本研究は,脳機能的トポロジー構造を考慮した制御アプローチの有効性を示す。
MST-Direct:シンクホーン輸送による複雑な非線形依存性を持つ多変量地統計シミュレーション [cs.LG]目的:複雑な非線形依存性を持つ多変量地統計シミュレーションにおける分布の再現
- 地質変数の関係性を理解し,資源探査や環境評価の精度向上に不可欠である。
- 従来の線形相関を仮定する手法では,複雑な分布パターンを正確に再現できない。
- シンクホーンアルゴリズムを用いて,空間相関構造を維持しつつ多変量分布を直接的に一致させる。
- MST-Directは,最適輸送理論に基づき,多変量分布の一致を可能にする。
- 全変数を単一の多次元ベクトルとして処理することで,完全な共同空間における関係性のマッチングを実現する。
- 二峰性分布,ステップ関数,不均一性など,複雑な地質構造をより忠実に再現できる。
ドメイン特化型日本語小規模LMの適応:規模,アーキテクチャ,量子化 [cs.LG]目的:ドメイン特化型日本語小規模言語モデルの構築手法
- 言語モデルは,自然言語処理の基盤技術であり,様々な応用分野で不可欠である。
- 大規模言語モデルは計算コストが高く,リソースが限られた環境での利用が困難である。
- 小規模言語モデルをドメインに特化させることで,効率的な利用を可能とする。
- QLoRAファインチューニングを用いた実験により,4,000サンプルが最適な学習規模であることが判明した。
- 日本語継続事前学習済みのLlama-3モデル(Swallow-8B, ELYZA-JP-8B)が,多言語モデル(Qwen2.5-7B)を上回る性能を示した。
- Llama-3アーキテクチャはQ4_K_M量子化により性能が向上したが,GQAアーキテクチャは大幅に劣化する傾向が見られた。Swallow-8B Q4_K_Mが実用的な性能を発揮する。
スパイクニューラルネットワークにおける鋭敏性認識代理トレーニング [cs.NE, cs.LG]目的:スパイクニューラルネットワークのトレーニング手法の改善
- スパイクニューラルネットワークは,脳の動作を模倣した次世代のニューラルネットワークとして注目されている。
- 従来のトレーニング方法は,勾配推定の偏りや学習の不安定性といった課題を抱えている。
- 鋭敏性認識代理トレーニングによって,勾配推定の精度向上と学習の安定化を目指す。
- 鋭敏性認識代理トレーニング(SAST)を適用することで,従来のスパイクニューラルネットワークの性能が大幅に向上することが示された。
- N-MNISTデータセットにおいて,ハードスパイクの精度が65.7%から94.7%に向上し,DVS Gestureデータセットでは31.8%から63.3%に向上した。
- この手法は,ハードスパイクへの転送ギャップを低減し,ノイズに対するロバスト性を向上させる効果がある。
商幾何とスウォーム配置に対する持続安定な計量 [cs.LG, cs.SI, cs.SY, eess.SY, math.AT]目的:スウォームおよびコンステレーション再構成の比較と監視のための幾何学的表現
- 多重エージェントシステムの配置管理は,協調的な動作を保証する上で重要である。
- 配置の対称性や順序によらず比較可能な指標が不足している。
- 対称性に対する安定性と持続性ホモロジーに基づく指標を確立する。
- 商空間と計量を導入し,配置間の距離を定義することで,従来の距離尺度よりも堅牢な比較を可能にした。
- この計量は,エージェント間の距離の構造を反映し,物理的な解釈が容易である。
- 持続安定性の理論と組み合わせることで,再構成の監視に有用なシグネチャが得られることが示された。
マルチエージェントLLMルーティングにおける起源のパラドックス:委任契約とLDPにおける証明されたアイデンティティ [cs.MA, cs.AI]目的:マルチエージェントLLMルーティングにおける委任の起源のパラドックスの解決
- LLMエージェントの普及に伴い,タスク委任の信頼性と効率性が重要になっている。
- 現在の委任プロトコルは,検証不可能な品質主張下での委任を適切に管理できていない。
- 品質に基づくルーティングの誤った選択を回避し,信頼性の高いルーティングを実現すること。
- 自己申告された品質スコアによるルーティングはランダム選択よりも性能が劣ることが確認された(シミュレーション:0.55 vs. 0.68,実モデル:8.90 vs. 9.30)。
- 委任契約と証明されたアイデンティティに基づくルーティングは,ほぼ最適な性能を達成した(d = 9.51, p < 0.001)。
- 拡張機能は既存のLDPと互換性があり,検証オーバーヘッドはごくわずかである。
NANOZK:検証可能な大規模言語モデル推論のための階層型ゼロ知識証明 [cs.LG, cs.AI, cs.CR]目的:大規模言語モデルの推論検証
- LLMの利用拡大に伴い,推論過程の透明性と信頼性の確保が重要になっている。
- LLM API利用時,利用モデルの正当性を検証する手段がなく,不正行為のリスクがある。
- 推論過程を検証可能なゼロ知識証明システムを構築し,信頼性の高いLLM利用を実現する。
- 本手法は,LLM推論を層ごとに検証可能なゼロ知識証明システムとして実現した。
- 層ごとの証明により,モデル幅に依存せず定数サイズの証明を生成し,並列処理を可能にした。
- d=128のモデルで,既存手法EZKLと比較して,証明サイズは70分の1,証明時間は5.7倍高速化された。
DEAF:音声言語モデルにおける音響的忠実性の診断評価のためのベンチマーク [cs.AI, cs.SD, eess.AS]目的:音響的忠実性の診断評価
- 近年の音声マルチモーダル大規模言語モデルの発展に伴い,その音響信号処理能力の検証が重要になっている。
- 既存の音声ベンチマークでは,モデルが真に音響信号を処理しているか,テキストベースの推論に頼っているかの区別が困難である。
- 音響情報とテキスト情報の影響を分離し,モデルの音響的忠実性を定量的に評価することを目指す。
- DEAFベンチマークは,感情的なプロソディ,背景音,話者 IDの3つの音響次元にわたる2,700以上の対立刺激で構成される。
- 7つの音声MLLMの評価の結果,テキストの影響が支配的であり,モデルは音響の変化に敏感だが,予測は主にテキスト入力によって駆動されることが明らかになった。
- 標準的な音声ベンチマークでの高いパフォーマンスと,真の音響理解との間にギャップが存在することが示唆される。
エネルギー効率の高い時間符号化スパイクニューラルネットワークのためのRISC-Vコントローラ搭載FPGAベースSoCアーキテクチャ [cs.SI, cs.CY, econ.GN, q-fin.EC, stat.ML, cs.AR, cs.LG]目的:時間符号化スパイクニューラルネットワークのためのコンパクトなシステムオンチップアーキテクチャ
- 低消費電力エッジAI実現に不可欠なスパイクニューラルネットワークのハードウェア実装。
- FPGA実装における計算量,メモリ使用量,柔軟性の制約。
- 計算量とメモリ使用量を削減し,低消費電力な推論処理を実現すること。
- 重みを二値化しビット演算を用いることで,計算量を削減。
- スパイク時間ソーターにより,活性のあるスパイクのみ処理し,非情報的なイベントをスキップ。
- MNISTで97.0%,FashionMNISTで88.3%の精度を達成し,メモリ使用量を最大16倍削減。
ニューラルネットワークの疎化における根本的な限界:壊滅的な解釈可能性の崩壊からの証拠 [cs.LG]目的:ニューラルネットワークの疎化における解釈可能性の維持限界の特定
- ニューラルネットワークの解釈可能性は,AIの信頼性と安全性を高める上で不可欠である。
- 過度な疎化は,ニューラルネットワークの解釈可能性を損なう可能性が指摘されている。
- 本研究は,疎化によって失われる解釈可能な特徴の挙動を詳細に分析し,その根本的な限界を明らかにすることを目指す。
- 極端な疎化(90%活性化の削減)下では,解釈可能な特徴が維持されないことが示された。
- Top-kおよびL1疎化の両方において,グローバルな表現品質は安定しているにもかかわらず,局所的な特徴の解釈可能性は体系的に崩壊した。
- 解釈可能性の崩壊は,データセットの複雑さに比例し,アルゴリズムや学習期間に依存しない本質的な現象であることが明らかになった。
S3T-Former:骨格アクション認識のための純粋なスパイク駆動状態空間トポロジーTransformer [cs.CV, cs.AI]目的:骨格に基づくアクション認識におけるエネルギー効率の向上
- マルチメディアアプリケーションにおいて,骨格ベースのアクション認識は重要な役割を担う分野である。
- 既存のモデルは計算負荷が高く,リソースの限られたエッジデバイスへの展開が困難である。
- スパイクニューラルネットワークの利点を活かし,省エネルギーな骨格アクション認識を実現すること。
- S3T-Formerは,従来のANNと比較して高い精度を達成し,理論的にはエネルギー消費量を削減する。
- Multi-Stream Anatomical Spiking Embedding (M-ASE)により,多次元の骨格特徴を疎なイベントストリームに変換する。
- Lateral Spiking Topology Routing (LSTR)とSpiking State-Space (S3) Engineにより,スパイクの疎性と長期的な時間的依存性を実現する。
MCP-38:モデルコンテキストプロトコルシステムに対する包括的な脅威分類 [cs.CR, cs.AI]目的:モデルコンテキストプロトコルシステムに対する脅威の分類
- LLMの利用拡大に伴い,プロトコル層のセキュリティが重要視されている。
- 既存の脅威フレームワークでは,MCP特有の攻撃対象領域を十分に網羅できていない。
- MCP特有の脅威を体系的に整理し,セキュリティ対策の基礎を確立すること。
- 本研究では,38の脅威カテゴリからなるMCP-38というプロトコル固有の脅威分類を提案した。
- この分類は,STRIDEやOWASPの脅威リストとの対応付けを通じて,既存のフレームワークとの整合性も確保している。
- MCP-38は,ツール記述子汚染や間接的なプロンプトインジェクションなど,従来の枠組みでは捉えきれない脅威に対処できる。
予測符号化ネットワークの合成可能なRTL実装 [cs.ET, cs.NE, cs.AI, cs.AR, cs.LG]目的:予測符号化ネットワークのハードウェア実装
- 深層学習の発展は目覚ましいが,ハードウェア実装には課題が多い。
- 誤差逆伝播法は分散型ハードウェア学習システムには不向きである。
- 予測符号化のハードウェア実装による効率的な学習を目指す。
- 本研究では,離散時間予測符号化更新を直接ハードウェアで実行するデジタルアーキテクチャを提案する。
- 各ニューラルコアは自身の活動,予測誤差,およびシナプス重みを保持し,隣接層とのみハードワイヤ接続で通信する。
- 固定されたローカル更新ルールに基づき,タスク構造は接続,パラメータ,境界条件によって実現される。
継続的に自己改善を行うAI [cs.AI]目的:AIの継続的な自己改善
- AI技術は社会の様々な分野で活用が拡大しており,その重要性は増している。
- 既存のAIシステムは,学習データやアルゴリズムに人間の制約を受けている。
- 本研究は,AIが自律的に知識を獲得し,学習アルゴリズムを探索することで,自己改善能力を高めることを目指す。
- 少量データからの知識獲得効率を向上させるため,合成データによる多様化と拡充のアプローチを提案した。
- 人間が作成したデータのみに頼らず,AI自身がデータを生成して,事前学習能力を向上させることを示した。
- テスト時にアルゴリズム空間を探索することで,人間が手動で探索できる範囲を超える学習アルゴリズム構成をAIが発見できることを示した。
LLMベースのテクニカルサービスエージェントの軽量適応:潜在論理の拡張と堅牢なノイズ除去 [cs.LG, cs.AI, cs.IR, stat.AP]目的:LLMベースのテクニカルサービスエージェントの適応に関する研究
- 複雑な技術サービス分野では,LLMの活用が重要視されている。専門知識と自然言語処理能力を組み合わせることで,効率的な問題解決が期待される。
- 人間によるデモンストレーションに明示的な思考過程がないため,LLMが潜在的な意思決定ロジックを学習し,多様な有効な応答に対応することが難しい。
- 潜在論理の拡張と堅牢なノイズ除去により,LLMの適応を効率化し,実用的なテクニカルサービスエージェントの展開を可能にすることを目指す。
- 潜在論理の拡張により,LLMの学習安定性とパフォーマンスが向上することが示された。
- 多様な正解データセット構築による堅牢なノイズ除去が,LLMのセマンティックな多様性の把握に貢献することが確認された。
- ハイブリッド報酬メカニズムは,LLMを判断者として使用する方法と同等の性能を,より少ない学習時間で達成し,実用性を示した。
位相ネイティブ脳コンピュータインタフェース分類のための変分位相回路 [cs.LG]目的:位相ネイティブ脳コンピュータインタフェース分類における変分位相回路の性能評価
- 脳コンピュータインタフェースは,神経系の活動を直接利用し,様々な応用への可能性を秘めている。
- 従来の脳コンピュータインタフェースの分類器は,パラメータ数が多く,計算コストが高いという課題がある。
- 本研究は,少ないパラメータで高精度な分類を可能にする新たな回路構造を提案し,その有効性を検証する。
- 提案手法である変分位相回路は,従来のユークリッド空間に基づく手法と比較して,同等の精度をより少ないパラメータ数で達成した。
- 変分位相回路は,複雑な精神状態の分類タスクにおいても良好な性能を示し,実用的な代替手法となりうる可能性を示唆した。
- 本研究は,将来的なハイブリッド位相-量子システムにおけるフロントエンドエンコーディング層としての変分位相回路の活用を促す。
SLEA-RL:マルチターンエージェント学習のためのステップレベル経験拡張強化学習 [cs.LG, cs.AI]目的:マルチターンタスクにおけるLLMエージェントの学習における経験活用
- LLMエージェントはツール利用タスクで高い性能を示すが,学習時の経験共有が課題である。
- 既存手法では初期タスク記述に基づく経験検索が固定されており,状態変化が大きいマルチターン環境では不適切である。
- 各ステップの観測に基づき適切な経験を検索することで,マルチターン学習の性能向上を目指す。
- SLEA-RLは,ステップレベルでの観測クラスタリングと自己進化型経験ライブラリを用いることで,効率的な経験検索を実現する。
- ステップレベルでの報酬割当により,マルチターンエピソードにおける微細な優位性推定を可能にする。
- 長期的なマルチターンエージェントベンチマークにおいて,様々な強化学習ベースラインと比較して優れた性能を示す。
不確実かつ不均一なデータにおけるモデル個別化による確率的連合学習 [cs.LG, cs.AI]目的:不確実かつ不均一なデータ下での連合学習の改善
- 連合学習は,プライバシー保護と分散データ活用を両立する有望な手法であり,重要性が高まっている。
- データの不確実性や不均一性は,連合学習の性能低下を引き起こす主要な課題である。
- 本研究は,データ不確実性・不均一性下での連合学習における性能向上を目指す。
- Meta-BayFLは,Bayesian Neural Networksとメタ学習を組み合わせ,不確実かつ不均一なデータ下での学習を安定化させる。
- 本手法は,CIFAR-10,CIFAR-100,Tiny-ImageNetにおいて,最先端手法を最大7.42%上回るテスト精度を達成した。
- 理論的収束解析を行い,通信ラウンドごとのグローバルモデルの上界を特徴付けた。
移動ポリシーにおける潜在的な位相構造と分岐ロジックの解明:HalfCheetahを事例として [cs.RO, cs.AI]目的:移動ポリシーにおける位相構造と分岐ロジックの解明
- ロボットの移動制御は,自律的な動作を実現する上で不可欠であり,その性能向上は重要な課題である。
- 深層強化学習で得られたポリシーは,意思決定過程が不透明で,人間が理解することが困難である。
- 学習された移動ポリシーが,人間が解釈可能な位相構造を内包している可能性を検証する。
- HalfCheetah-v5環境において,訓練されたポリシーは周期的な位相遷移構造と分岐構造を示すことが明らかになった。
- 各位相に対応する状態と行動をExplainable Boosting Machines (EBMs)を用いて近似し,位相依存的な意思決定を分析した。
- ニューラルネットワークベースのポリシーは,解釈可能な位相構造とロジック分岐を自律的に獲得できることが示唆された。
多特性サブスペースステアリングによる人間とAIの相互作用における負の側面解明 [cs.AI]目的:人間とAIの有害な相互作用のメカニズム解明
- AIとの対話がメンタルヘルスに悪影響を及ぼす事例が増加しており,その要因解明が急務である。
- 有害な相互作用は継続的な対話の中で発生するため,実験室での再現が困難である。
- 累積的な有害行動パターンを示すAIモデルを生成し,対策を検討すること。
- 本研究で開発したMultiTraitsssフレームワークにより,一貫して有害な相互作用と結果を生み出す「Darkモデル」を生成することに成功した。
- 生成されたDarkモデルは,危機に関連する特性と新規なサブスペースステアリングを活用して,有害な行動パターンを累積的に示す。
- Darkモデルを用いて,人間とAIの有害な結果を軽減するための保護策を提案する。
オンラインリファインナーによる強化学習ファインチューニングの強化 [cs.LG, cs.AI]目的:強化学習ファインチューニングにおける制約の最適化
- 強化学習は,複雑な意思決定問題を解決する強力な手法であり,様々な分野で応用が期待されている。
- 強化学習のファインチューニングは不安定になりやすく,モデルが望ましくない出力を生成する可能性がある。
- 本研究は,モデルの能力に応じて制約を動的に調整することで,この問題を解決することを目指す。
- 動的制約は,モデルの出力品質に応じて制約を自動的に強化または緩和する。
- 対話およびコード生成の実験において,動的制約はKL正則化や制約なしのベースラインよりも優れた性能を示した。
- 動的制約を用いることで,タスク報酬が大幅に向上し,学習の安定性が維持された。
CytoSyn:病理組織学的画像生成のための基盤拡散モデル [cs.CV, cs.AI, cs.LG]目的:病理組織学的H&E染色画像の高精度かつ多様な生成
- 近年,病理画像解析は疾患理解の深化と臨床応用の発展に貢献しており,医療分野において重要性が増している。
- 特徴抽出モデルは存在するものの,病理組織学に特化した生成基盤モデルは不足しており,その活用に限界がある。
- 本研究は,特徴抽出モデルでは困難な仮想染色などのタスクを可能にする生成モデルの開発を目指す。
- CytoSynは,最先端の潜在拡散モデルであり,高品質で多様な病理組織学的画像を生成できることをベンチマークで示した。
- CytoSyn-v2は,手法改善,データセットの拡大,サンプリング戦略の最適化により性能が向上し,PixCellと比較して優れている。
- 腫瘍画像で学習されたモデルが,炎症性腸疾患の画像生成においても高い性能を発揮することが確認された。
MOSS-TTS技術報告 [cs.SD, cs.AI, cs.CL]目的:音声生成基盤モデルMOSS-TTSの設計,学習レシピ,および実験的特性
- 音声合成技術は,人間と機械の自然なコミュニケーションを実現する上で不可欠である。
- 既存のモデルは,多様な言語や話者に対応した高品質な音声合成が課題であった。
- 多様な制御と長文生成が可能な,スケーラブルな音声合成モデルを開発する。
- MOSS-TTSは,離散オーディオトークン,自己回帰モデル,大規模事前学習に基づいた基盤モデルである。
- MOSS-TTSは,ゼロショット音声クローニング,トークンレベルの長さ制御,そしてスムーズなコードスイッチングを可能にする。
- MOSS-TTS-Local-Transformerは,より高いモデリング効率と話者保持能力を実現する。
Q-Drift:拡散モデルサンプリングにおける量子化認識ドリフト補正 [cs.CV, cs.LG]目的:拡散モデルのサンプリングにおける量子化誤差による品質劣化の抑制
- 大規模拡散モデルの利用拡大には,計算資源の削減が不可欠である。
- 量子化によるノイズ累積が,生成品質低下の大きな要因となっている。
- 量子化誤差を考慮したドリフト補正により,品質劣化を抑制する。
- Q-Driftは,各ノイズ除去ステップにおける量子化誤差を確率的摂動として捉え,周辺分布を保存するドリフト調整を行う。
- わずか5回の精度検証で,ステップごとの分散統計量を推定し,既存のサンプラーや量子化手法に容易に組み込むことができる。
- 6つのテキスト画像生成モデルでFIDを改善し,特にPixArt-Sigma (SVDQuant W3A4)では最大4.59のFID削減効果が確認された。
エージェントAIオーケストレーションのためのトレースベース保証フレームワーク:契約,テスト,ガバナンス [cs.MA, cs.AI]目的:エージェントAIオーケストレーションシステムの保証
- AIエージェントの利用拡大に伴い,複雑な連携における信頼性確保が重要課題となっている。
- 従来のAIテストでは,長期的な相互作用や外部環境の影響を捉えきれない問題があった。
- エージェントAIシステムの信頼性向上を目指し,契約に基づくテストとガバナンス手法を提供する。
- 本研究では,メッセージとアクションのトレースを用いてシステムの挙動を詳細に分析するフレームワークを提案。
- トレースの契約により,違反箇所の特定と再現性の確保が可能となり,信頼性の高いテストを実現。
- サービス境界におけるフォールトインジェクションやガバナンス機能により,現実的な条件下でのシステムの堅牢性を評価。
少数の学習サンプルを用いた適応学習のための,訓練のみによる異種画像パッチ・テキストグラフ教師あり学習 [cs.CV, cs.AI, cs.LG]目的:少数の学習サンプルを用いた適応学習における性能向上
- 画像認識技術は,多様な応用分野において不可欠であり,その精度向上は重要な課題である。
- 従来のCLIPチューニングは,グローバルな特徴量に依存しており,細かいパッチ間の関係性やテキストとの構造的整合性が見過ごされがちである。
- 本研究は,画像パッチとテキスト間の関係性を考慮したグラフ構造を用いることで,少数の学習サンプルからの適応学習の精度を高めることを目指す。
- 提案手法は,訓練時にのみ使用する異種グラフ教師を用いて,アダプターのキー・バリューキャッシュを直接学習し,プロトタイプの質を向上させる。
- グラフ教師は,多スケールな画像パッチとテキストプロンプトを統合し,モダリティを意識したグラフ変換器(MGT)を用いて深層のクロスモーダル推論を行う。
- 実験結果から,提案手法が標準的な1-16ショットベンチマークにおいて,最新技術を上回る性能を発揮することが示された。
安定性に基づくトリガー露出プロファイリングによる音声バックドア攻撃の検出 [cs.AR, cs.CR, cs.LG, cs.SD]目的:音声バックドア攻撃の検出
- 深層学習を用いた音声モデルがセキュリティが重要な用途で広く利用され,攻撃の対象となりやすい。
- 既存の防御策は画像やテキストに特化しており,音声ドメインでは有効でない場合がある。
- 安定性に基づくトリガー露出プロファイリングによって,バックドア攻撃を効率的に検出すること。
- 提案手法STEPは,ラベル安定性の異常な変動を利用し,高い検出性能を示す。
- 7種類のバックドア攻撃に対する平均AUROCは97.92%,EERは4.54%と,既存手法を大幅に上回る。
- モデル構造,音声タスク,実環境での検証など,様々な条件下で優れた汎化性能を示す。
適応的ドメインモデル:ベイジアン進化,ウォームローテーション,幾何学的・ニューロモルフィックAIのための原理に基づいた学習 [cs.AI, cs.DC, cs.LG, cs.NE]目的:幾何学的およびニューロモルフィックAIのための,適応的なドメインモデルの構築
- AIの発展には,効率的な学習基盤が不可欠である。特にメモリ効率や計算複雑性は重要な課題となる。
- 従来のAI学習は,IEEE-754演算に依存しており,メモリ消費量や幾何学的性質の劣化が問題視されている。
- 本研究は,上記の問題を解決し,より省メモリで正確なAIシステムの実現を目指す。
- 本研究では,Dimensional Type Systemとb-posit 2026標準を活用した新しい学習アーキテクチャを提案した。
- 提案手法により,学習メモリ使用量を推論時の約2倍に抑え,幾何学的性質を維持した重み更新と正確な勾配累積が可能となった。
- さらに,ベイジアン蒸留とウォームローテーションを導入することで,ドメイン特化型AIシステムの適応性と検証可能性を高めた。
経済制約のある市場動態に対するニューロシンボリックフレームワークARTEMIS [cs.LG, cs.AI, cs.CE, q-fin.ST]目的:経済制約下での市場動態のモデリング
- 金融工学において,市場の効率的な分析と予測は重要な課題である。
- 深層学習モデルは解釈性が低く,無裁定条件などの経済学的原理を組み込みにくい。
- 経済学的制約と解釈可能性を両立する新たなモデリング手法を開発すること。
- ARTEMISは,既存のベースラインモデルを上回り,特にDSLOBデータセットで高い予測精度を示した。
- ARTEMISの構成要素であるPDE損失を取り除くことで,予測精度が大幅に低下することが確認された。
- 深層学習の性能と金融工学における透明性の要求とのギャップを埋める可能性を示す。
境界を考慮した負例生成による時系列異常検知 [cs.LG, stat.ML]目的:時系列異常検知のための負例生成手法
- 時系列データは,金融,医療,製造など幅広い分野で利用され,異常検知は重要な課題である。
- 既存の負例生成手法は,時間的意味の一貫性を保ちつつ,効果的な識別境界を学習することが難しい。
- 本研究は,正常データから直接,データ多様体境界付近の困難な負例を生成することでこの問題を解決する。
- 再構成駆動型境界負例生成フレームワークを提案し,正常サンプルの再構成過程を通じて自動的に困難な負例を構築する。
- 再構成ネットワークが正常な時間パターンを捉え,強化学習戦略を用いて再構成状態に応じて最適化更新の大きさを適応的に調整する。
- 提案手法は,異常表現学習を効果的に改善し,現在のデータセットで競争力のある検知性能を達成する。
Tula:分散大規模バッチ学習における時間,コスト,汎化性能の最適化 [cs.LG, cs.AI]目的:分散大規模バッチ学習の時間,コスト,収束品質の最適化
- 機械学習モデルの規模拡大に伴い,学習時間とコストの削減が重要課題となっている。
- 単純にバッチサイズを大きくすると,通信オーバーヘッドやメモリ制約が生じ,性能向上の限界がある。
- モデル,データ,計算資源に応じた最適なバッチサイズを自動的に決定し,学習効率と汎化性能を向上させる。
- Tulaは,並列システムモデリングと統計的性能予測を組み合わせることで,最適なバッチサイズを特定する。
- 学習時間とコストの予測誤差は7.5〜14%であり,最長で20倍の高速化を達成した。
- 様々な画像認識タスクにおいて,テスト精度が平均9%向上し,汎化性能の低下を抑制することに成功した。
VC-Soup:価値整合性に基づく大規模言語モデルの多価値アライメント [cs.LG, cs.AI]目的:大規模言語モデルにおける多価値アライメントの実現
- ウェブにおけるコンテンツ生成や意思決定においてLLMの役割が増す中,人間との価値観の整合性が重要である。
- 複数の価値観を同時に考慮する場合,価値観の衝突によりアライメント性能が低下しやすい。
- 価値整合性に着目し,データフィルタリングとパラメータマージにより,効率的かつ高性能な多価値アライメントを達成する。
- 提案手法VC-Soupは,価値の整合性に着目したデータフィルタリングとパラメータマージを行うことで,既存手法よりも高い性能を示す。
- VC-Soupは,価値衝突を効果的に軽減し,多様な価値観間でバランスの取れた性能を実現する。
- 価値整合性指標を用いることで,価値の整合性の低いデータをフィルタリングし,より滑らかで整合性の高いポリシーモデルを学習する。
LLMによる長期COVIDの計算表現型解析 [cs.LG, cs.AI]目的:長期COVID患者の臨床亜表現型の発見
- 慢性疾患の異質性を理解し,個別化医療を推進するためには表現型解析が不可欠である。
- 長期COVIDは複雑な疾患であり,その臨床亜表現型の理解が不十分である。
- 複雑な縦断的データから臨床的に解釈可能な亜表現型を効率的に発見すること。
- 本研究では,LLMを活用した「Grace Cycle」フレームワークを提案し,長期COVID患者データから3つの明確な臨床表現型(Protected,Responder,Refractory)を特定した。
- これらの表現型は,ピーク時の症状の重症度,ベースライン疾患負荷,縦断的用量反応パターンにおいて顕著な差異を示し,統計的に有意な支持を得ている。
- LLMを統計的に厳密なパイプラインに組み込むことで,複雑な縦断的データからの表現型スクリーニングが可能となることを示した。
