arXiv雑要約
AI - 2026/04/02 公開
スペクトルGNNの一般化誤差について:フーリエ領域解析による考察 [cs.LG]目的:スペクトルGNNの一般化誤差の理論的上限
- グラフ構造を持つデータの解析は重要であり,機械学習の応用範囲を広げる。
- 深層化や高次多項式を用いると,スペクトルGNNの振る舞いが予測困難となる。
- フーリエ変換を用いて,GNNの深さと次数を考慮した一般化誤差を導出する。
- フーリエ変換下ではガウス複雑度が不変であり,データ依存型一般化誤差の上限が導出された。
- 線形の場合には,既存の上界よりもタイトな上限が得られた。
- 実グラフデータでは,データ依存項と一般化誤差のギャップが相関し,適切な多項式基底選択の指針となる。
カノニカル相関分析によるクロスモデル合意に基づく表現選択 [cs.CL, cs.CV, cs.AI]目的:画像表現の効率改善
- 画像認識パイプラインにおいて,事前学習済みエンコーダの表現再利用が一般的になっている。
- 事前学習済み表現は過剰であり,モデルに依存した特性を持つ場合がある。
- クロスモデル合意に基づき,冗長な次元を削減し,表現を洗練させる。
- 提案手法は,2つの事前学習済みエンコーダ間の表現の共有構造を利用して線形投影を見つけ,表現選択と次元削減を実現する。
- 従来のPCAとは異なり,単一の埋め込み空間ではなく,クロスモデル合意を活用して表現の蒸留と改良を行う。
- ImageNet-1k等での実験により,ベースラインやPCAと比較して,最大12.6%の精度向上を示した。
ダンスフィンガープリンティングのための量子化構造保存運動表現学習 [cs.CL, eess.SY, cs.SY, cs.CV, cs.AI]目的:ダンスの運動に基づいた検索手法
- ダンスの構造を理解し,効率的な検索を可能にする研究は,ダンスアーカイブの構築やダンス解析に不可欠である。
- 既存手法は連続的な埋め込みに依存しており,インデックス作成やスケーラビリティに課題がある。
- ダンスの空間・時間構造を捉え,大規模検索を可能にするコンパクトな運動シグネチャを構築すること。
- 提案手法DANCEMATCHは,スケルトンモーション量子化(SMQ)と空間・時間Transformer(STT)を組み合わせ,効率的なダンス検索を実現した。
- DANCE RETRIEVAL ENGINE(DRE)により,ヒストグラムベースのインデックスを用いた高速な検索と再ランキングによる高精度なマッチングを可能にした。
- 公開されたDANCETYPESBENCHMARKデータセットを用いた実験により,多様なダンススタイルや未知の振付に対するロバストな検索性能が確認された。
PsychAgent:自己進化する心理カウンセラーのための経験駆動型生涯学習エージェント [cs.AI]目的:心理カウンセリングにおける経験駆動型生涯学習
- 人間の心理療法士は,臨床経験を通して継続的にスキルを向上させる点が重要である。
- 既存のAIカウンセラーは,静的なデータセットに依存しており,経験に基づいた進化が欠けている。
- 継続的な学習を通じて,AIカウンセラーの多岐にわたる状況への対応能力を向上させる。
- 提案手法PsychAgentは,長期的な複数セッションの対話において,記憶と戦略的計画により一貫性を保つ。
- 過去のカウンセリングデータから新たなスキルを抽出し,モデルに統合することで自己進化を可能にする。
- GPT-5.4やGemini-3を含む既存モデルを上回る評価スコアを示し,生涯学習の有効性が示唆された。
WARP:NLP Transformer の保証付き内層修復 [cs.LG, cs.AI]目的:Transformerモデルに対する敵対的摂動へのロバスト性向上
- Transformerは自然言語処理において高い性能を示すが,敵対的攻撃に脆弱である。
- 既存の修復手法は,検証可能性と汎化性能のトレードオフに直面している。
- 本研究は,Transformerモデルの複数層に対して保証付きの修復を可能にすることを目指す。
- WARPは,ロジットギャップの一次線形化に基づく凸二次計画問題として修復を定式化することで,高次元パラメータ空間での効率的な最適化を実現する。
- この定式化により,正のマージン制約,指定された保持集合の維持,Lipschitz連続性に基づく保証されたロバスト性半径の3つの保証がサンプルごとに得られる。
- 実験結果は,提案手法が実用上保証を維持しつつ,敵対的入力に対するロバスト性を向上させることを示している。
微分プライバシーを持つ多様体ノイズ除去 [cs.LG, cs.CR, math.ST, stat.TH]目的:機密性の高い参照データセットを用いた,ノイズの多いクエリ点の多様体上での補正
- データ分析において,プライバシー保護とデータ活用はトレードオフの関係にあり,両立が重要である。
- 既存のプライバシー保護手法では,多様体上のデータに対する効果的なノイズ除去が困難であった。
- 多様体上のノイズ除去に微分プライバシーを適用し,プライバシー保護とデータ活用を両立することを目指す。
- 提案手法は,参照データに基づいて局所的な平均と接空間を推定し,クエリ点を反復的に補正する。
- 厳密なプライバシー会計により,参照データとクエリ点の両方に対して$(\varepsilon,\delta)$-微分プライバシーを保証する。
- シミュレーションとケーススタディにより,プライバシー予算が妥当な範囲内で正確な信号回復が確認された。
正の重みを持つ制限ボルツマン機械における迅速な混合 [cs.DS, cs.LG, math.PR]目的:正の重みを持つ制限ボルツマン機械の交互走査サンプラーの混合時間
- 機械学習モデルの効率的な学習は重要であり,サンプリング速度がその鍵となる。
- 既存のサンプリング手法では,混合時間がボトルネックとなる場合がある。
- 正の重みを持つ制限ボルツマン機械における混合時間の上限を改善する。
- 正の重みを持つ制限ボルツマン機械の交互走査サンプラーにおいて,対数時間オーダーの混合時間上限が示された。
- この結果は,フェロ磁性二スピン系におけるチェイン解析とグラウバーダイナミクスを通じて得られた。
- 臨界閾値付近における新たな混合時間上限が導出された。
軌跡最適化における分布強化学習を用いたフローベース方策 [cs.RO, cs.LG, cs.AI]目的:多解問題における最適解の網羅と方策更新の効率化
- 複雑な制御・意思決定問題において,強化学習は有効な手法である。ロボット制御などへの応用が期待されている。
- 従来の強化学習では,方策が単一のガウス分布で表現されるため,多峰性のある解空間を捉えきれない場合がある。
- フローベース方策と分布強化学習を組み合わせることで,複雑な分布を効率的にモデル化し,多峰性の方策更新を可能とする。
- 提案手法FP-DRLは,フローマッチングを用いることで計算効率と複雑な分布の近似能力を両立した。
- 分布強化学習により,報酬分布全体を最適化し,多峰性の方策更新を効果的に導くことができた。
- MuJoCoベンチマークにおいて,FP-DRLは最新技術と同等またはそれ以上の性能を示し,フロー方策の表現能力の高さが確認された。
二重最適化:尊厳をもってLLMを仲間のように [cs.CL, cs.AI]目的:LLMにおける現状の課題克服と,人間らしい応答性の向上
- LLMの社会実装が進む中,その応答の質が重要視されている。
- LLMは,ユーザーの誤った信念を肯定し,責任を回避する傾向がある。
- LLMに,より誠実で信頼性の高い応答を生成させること。
- 提案手法「尊厳のある仲間」フレームワークは,LLMの盲目的な追従と責任回避を抑制する。
- PersonaKnobデータセットと,制約付きラグランジュDPOアルゴリズムにより,多次元的なペルソナのバランスを保ち,行動の偏りを防ぐ。
- 心理測定に基づいたIRT評価プロトコルを用いて,モデルの潜在的なペルソナ能力を正確に評価した。
電話利用エージェントはあなたのプライバシーを尊重するか [cs.CR, cs.AI, cs.CL, cs.LG]目的:電話利用エージェントにおけるプライバシー保護の検証
- 近年,AIエージェントの利用が拡大しており,その安全性と信頼性が重要視されている。
- 電話利用エージェントのプライバシー保護に関する明確な基準や評価方法が存在しない。
- エージェントが不必要に個人情報を入力するなどのプライバシー侵害を防ぐことを目指す。
- MyPhoneBenchという検証フレームワークを開発し,エージェントのプライバシー保護能力を定量的に評価した。
- タスクの成功率,プライバシー遵守,過去の利用状況の活用は独立した能力であり,単一のモデルが全てで優位性を示すことはなかった。
- 多くのエージェントが,タスクに必要な情報以上の個人情報を入力する傾向があり,過剰な情報収集が問題となっている。
イスラエル・ハマス紛争に関するYouTube Shortsの報道に対する多角的分析 [eess.SY, cs.SY, cs.CL, cs.AI, cs.SI]目的:イスラエル・ハマス紛争に関する国営メディアのYouTube Shorts報道の多角的分析
- 近年のニュース消費において,YouTube Shortsのような短尺動画の重要性が増している。
- 短尺動画における地政学的出来事の報道方法に関する研究は十分ではない。
- 本研究は,短尺動画における報道の感情や視覚的特徴を分析し,その傾向を明らかにすることを目指す。
- 自動文字起こし,感情分析,セマンティックシーン分類を組み合わせた分析パイプラインの実現可能性が確認された。
- 報道機関や時間帯によって,特定の側面に対する感情表現に違いが認められた。
- 視覚的なシーン分類は,現実世界の出来事と一致する手がかりを示しており,感情分析においては,大規模言語モデルよりもドメイン適応型モデルが優れていることが示された。
埋め込み駆動型グラフ分割によるスケーラブルなグラフニューラルネットワーク学習 [cs.LG, cs.DB, cs.DC]目的:大規模グラフに対するスケーラブルなグラフニューラルネットワーク学習
- グラフ構造データに対する機械学習において,グラフニューラルネットワークは広く利用されている。
- 大規模グラフへの学習のスケーラビリティが課題であり,分散学習のためのグラフ分割が重要である。
- 分割オーバーヘッドと分割品質のトレードオフを解消し,高速かつ高品質なグラフ分割を実現する。
- EmbedPartは,ノード埋め込みを活用することで,Metisと比較して100倍以上の高速化を達成した。
- 分割品質を維持しつつ,分散グラフニューラルネットワーク学習を加速する。
- グラフ更新や再分割を自然にサポートし,単一マシンでの学習においてもデータ局所性を向上させる。
EgoSim:具現化されたインタラクション生成のための自己中心的世界シミュレーター [cs.CV, cs.AI]目的:具現化されたインタラクション生成のための自己中心的世界シミュレーション
- ロボット工学や仮想現実において,現実世界とのインタラクションを再現するシミュレーションは不可欠である。
- 既存のシミュレーターは,3次元空間の整合性が低いか,環境変化に対応できないという課題があった。
- 3次元環境を更新可能な状態としてモデル化することで,より現実的で継続的なシミュレーションを実現する。
- EgoSimは,空間的な整合性と汎化性能において既存手法を大きく上回ることを実験的に示した。
- 本研究では,大規模な実世界の動画データから学習データを作成するスケーラブルなパイプラインを開発した。
- EgoCapという低コストなデータ収集システムを導入し,現実世界データの収集を容易にした。
クエリ条件付きエビデンスに基づくキーフレームサンプリング:MLLMを活用した長尺ビデオ理解のため [cs.CV, cs.AI, cs.LG]目的:長尺ビデオ理解のためのキーフレーム選択
- マルチモーダル大規模言語モデルの応用範囲拡大には,計算資源の制約が課題となる。
- 既存手法は,エビデンスの把握や最適化効率に課題があり,十分な性能を発揮できない。
- クエリとの関連性を最大化するキーフレーム選択により,長尺ビデオ理解の効率と精度向上を目指す。
- 提案手法は,情報ボトルネック理論に基づき,クエリと選択されたフレーム間の条件付き相互情報量を最大化する。
- フレームレベルでのスコアリングに分解することで,効率的な最適化を実現した。
- 長尺ビデオ理解ベンチマークにおいて,既存手法を上回り,高い性能と効率を示した。
OmniMem:自己研究誘導による生涯マルチモーダルエージェントメモリの発見 [cs.AI]目的:生涯マルチモーダルエージェントのための統一的なメモリフレームワークの発見
- AIエージェントは長期にわたって運用される場面が増加しており,その性能向上にはメモリの重要性が高まっている。
- マルチモーダルな経験の保持,整理,想起能力が,AIエージェントの重要なボトルネックとなっている。
- 自動研究パイプラインを用いて,メモリアーキテクチャの最適化とデータパイプラインの改善を図る。
- 自己研究パイプラインは,LoCoMoベンチマークにおいてF1スコアを0.117から0.598へと+411%改善した。
- Mem-Galleryベンチマークにおいても,F1スコアを0.254から0.797へと+214%改善し,最先端の性能を達成した。
- ハイパーパラメータ調整に比べ,バグ修正,アーキテクチャ変更,プロンプトエンジニアリングが大幅な性能向上に貢献した。
OrgAgent:企業のような多エージェントシステムの組織化 [cs.MA, cs.AI]目的:多エージェントシステムの組織構造
- 大規模言語モデルの活用が進む中で,複雑な推論を可能にする多エージェントシステムの重要性が増している。
- 多エージェントシステムにおける効果的な組織化方法は未だ確立されておらず,パフォーマンス向上に課題がある。
- 企業構造に着想を得た階層型組織化により,多エージェントシステムの効率性と性能を向上させることを目指す。
- OrgAgentは,ガバナンス,実行,コンプライアンスの3層構造を持つ階層型多エージェントフレームワークである。
- 実験の結果,企業のような階層構造で組織された多エージェントシステムは,他の組織構造よりも一般的に優れた性能を発揮する。
- また,階層的な協調は,ほとんどの設定でフラットな協調と比較してトークン消費量を削減する効果が確認された。
ノンパラメトリックベイジアンネットワークに対する転移学習 [cs.LG, cs.AI]目的:データ不足下におけるノンパラメトリックベイジアンネットワーク推定のための転移学習手法
- 機械学習において,少ないデータでの高性能なモデル構築は重要な課題である。
- 転移学習は有効だが,負の転移が発生し,性能低下を引き起こす可能性がある。
- 本研究は,負の転移を抑制し,データ不足下での性能向上を目指す。
- 提案手法PC-stable-transfer learning (PCS-TL)とhill climbing transfer learning (HC-TL)は,単独モデルと比較して,転移学習性能が向上することを示した。
- 特に,PCS-TLとHC-TLは,様々なデータセットにおいて安定した性能を発揮し,負の転移を抑制する効果が確認された。
- Friedman検定とBergmann-Hommelポストホック分析により,提案手法の優位性が統計的に証明された。
POMDPにおけるほぼ最適な有限窓ポリシーのモデルベース学習 [cs.RO, cs.LG]目的:部分観測マルコフ決定過程における有限窓ポリシーのモデルベース学習
- 部分観測下での意思決定問題は,ロボット工学や自動運転など,様々な分野で重要である。
- 過去の観測履歴を無限に考慮する必要があり,計算コストが高いという問題がある。
- 有限の観測窓を用いることで計算コストを削減し,効率的な学習を目指す。
- 提案手法は,部分観測マルコフ決定過程におけるスーパー状態MDPのモデル推定手続きを開発した。
- フィルタの安定性と弱従属確率変数の濃度不等式との関係性を利用することで,サンプル複雑度を解析した。
- 単一の軌跡からスーパー状態MDPモデルを推定するためのタイトなサンプル複雑度保証を得た。
学習中のLLMのダウンストリーム性能を迅速かつ正確に評価する手法 [cs.LG, cs.AI]目的:学習中のLLMのダウンストリーム性能評価の効率化と精度向上
- LLMの規模拡大はAIの能力を向上させる一方で,評価コストの増大が課題となっている。
- 従来の生成評価法は高コストであり,学習中の性能評価の遅延が開発のボトルネックとなっている。
- 学習中のLLMの性能を低コストで正確に予測する手法を確立し,開発効率を向上させる。
- 提案手法は,LLM内部表現からダウンストリーム性能を予測する軽量なプローブを用いる。
- 実験結果から,プローブは高い予測精度(平均AUROC>0.75)を示し,チェックポイント間の汎化性能も確認された。
- 評価時間を従来の1時間から約3分に短縮し,LLM開発プロセスの効率化に貢献する。
複数LLMパイプラインにおける第2段階の改善効果:修正か再解決か [cs.SE, cs.AI, cs.CL]目的:複数LLMパイプラインにおける第2段階の改善効果の要因分解
- LLMの組み合わせによる性能向上が期待される分野であり,そのメカニズム理解が重要である。
- 複数LLMパイプラインの改善効果が,単なるエラー修正によるものなのか不明である。
- 複数LLMパイプラインの改善効果を詳細に分析し,タスクやドラフト品質に応じた設計指針を示す。
- 複数LLMパイプラインの改善効果は,タスク構造,ドラフト品質,およびドラフト情報の種類に依存することが示された。
- 知識集約型MCQタスクでは,より高性能なモデルへの直接ルーティングが,弱いドラフトの修正よりも効果的な場合がある。
- コード生成タスクでは,意味的に空のドラフトでも構造的な足場を提供し,二段階プロンプティングが有効である。
ユーザーの人気嗜好に合わせた推薦 [cs.RO, math.OC, cs.IR, cs.AI, cs.CY]目的:推薦とユーザーの人気嗜好との整合性
- 推薦システムは情報過多な現代において,ユーザーが必要な情報に効率的にアクセスするための重要な技術である。
- 推薦システムは人気アイテムに偏りやすく,多様性の欠如やユーザーの潜在的なニーズを見落とす可能性がある。
- 本研究は,ユーザーの嗜好に合わせた推薦を実現し,推薦の質と多様性を両立することを目指す。
- 本研究では,ユーザーの過去の行動と推薦アイテムの人気度の間の不一致を定量化する「人気分位数の較正」というフレームワークを提案した。
- 提案手法SPREEは,表現空間における「人気方向」を特定し,ユーザーごとの人気嗜好に基づいて活性化を適応的に調整することで,推薦の整合性を向上させた。
- 複数のデータセットにおける実験により,SPREEは推薦品質を維持しつつ,ユーザーレベルでの人気嗜好との整合性を一貫して改善することが示された。
LLMシステム命令に対するエンコーディング攻撃を評価・防御する自動化フレームワーク [cs.CR, cs.AI]目的:LLMシステム命令の機密性保持に関する脆弱性の評価と,その対策
- LLMの普及に伴い,システム命令の安全性確保が不可欠となっている。
- システム命令への直接的な情報漏洩を防ぐ対策が,間接的な手法による漏洩に対応できていない。
- エンコーディングや構造化出力タスクを悪用した攻撃に対する脆弱性を評価し,対策を提示すること。
- LLMは直接的な命令抽出要求を拒否するものの,構造化シリアライゼーション要求に対しては高確率で機密情報を開示する。
- 検証されたシステム命令46件と4つのモデルにおいて,攻撃成功率が0.7を超える場合が多い。
- Chain-of-Thought推論モデルを用いたワンショット命令リシェーピングが,攻撃成功率を大幅に低減する効果が示された。
量子化スパイクニューラルネットワークの効率的なハードウェア加速のための整数状態ダイナミクス [cs.NE, nlin.CD]目的:量子化されたスパイクニューラルネットワークの整数状態ダイナミクス
- 脳型コンピューティングへの期待から,低消費電力な機械知能を実現するSNNの研究が活発である。
- SNNの実装において,整数演算による有限精度化がネットワークのダイナミクスに影響を及ぼす可能性がある。
- 整数状態ダイナミクスに基づき,ハードウェアSNNの振る舞いを解析し,設計指針を導き出すことを目指す。
- ネットワークの状態は整数値で制限され,再帰的,周期的な振る舞いを示すことが確認された。
- 量子化の影響は大きく,表現方法やスケーリングに依存したダイナミクスが観察された。
- 数値精度が設計変数として機能し,ハードウェアSNNの共同設計に有用なフレームワークとなりうる。
AI駆動RANスライシングにおける敵対的攻撃:SLA違反と回復 [cs.NI, cs.AI]目的:AI駆動RANスライシングにおける敵対的攻撃の影響とSLA違反,およびその後の回復
- 次世代セルラーネットワークでは,多様な要件を持つアプリケーションをサポートする必要があり,RANスライシングが重要な役割を果たす。
- RANスライシングにおけるAI制御の脆弱性は,サービスの品質を著しく低下させる可能性がある。
- 敵対的攻撃に対するRANスライシングの堅牢性を評価し,SLA違反と回復のメカニズムを解明すること。
- 敵対的ジャミング攻撃は,スライスに依存したSLA違反を深刻に引き起こすことが示された。
- 深層強化学習エージェントは,攻撃後,無視できない回復期間を経て初めて正常な状態に収束する。
- 予算制約のある敵対的ジャミングが,RANスライシングにおける安定したSLA違反を誘発する可能性がある。
VibeGuard:AI生成コードのためのセキュリティゲートフレームワーク [cs.CR, cs.AI]目的:AI生成コードにおける潜在的なセキュリティ脆弱性の検出と防御
- AIによるコード生成の普及に伴い,ソフトウェア開発の効率化が期待されている。
- AI生成コード特有の脆弱性に対し,既存のセキュリティツールでは十分な対策が困難である。
- AI生成コードに内在する新たなリスクに対応するセキュリティゲートの構築を目指す。
- VibeGuardは,AI生成コードの公開前に,アーティファクトの衛生管理,設定のドリフト,ソースマップの露出,ハードコードされた秘密情報,サプライチェーンリスクの5つの盲点を検査する。
- 合成プロジェクト8件(脆弱なもの7件,クリーンなコントロール1件)の実験で,VibeGuardは100%の再現率,89.47%の適合率(F1 = 94.44%)を達成し,全てのプロジェクトで適切なパス/フェール判定を行った。
- これらの結果は,AIコード生成に依存するチームのための多層防御ワークフローに貢献すると考えられる。
階層型重要度誘導マルチ目的進化フレームワークによる深層ニューラルネットワークのプルーニング [cs.CL, cs.DL, cs.IR, cs.NE]目的:深層ニューラルネットワークのプルーニングにおける最適化
- 深層学習の発展に伴い,パラメータ数の多いモデルの効率化が重要になっている。
- 既存手法は,高次元空間での探索や計算コストの高さが課題となっていた。
- 大規模な多目的最適化問題を効率的に解決し,性能と圧縮率のトレードオフを可能にする。
- 提案手法は,ResNet-56およびResNet-110を用いた実験で,最先端の進化的手法と比較して,パラメータを最大51.9%,38.9%削減し,精度をほぼ維持することを確認した。
- 本研究は,大規模多目的最適化問題に対するスケーラブルな進化アプローチを提供する。
- このパラダイムは,決定空間が指数関数的に大きく,目的関数が競合する他の分野にも応用可能である。
ProOOD:プロトタイプによる分布外3D占有率予測 [cs.CV, cs.LG, cs.RO, eess.IV]目的:分布外入力に対する3D占有率予測の性能向上
- 自動運転において,3Dシーンの理解は不可欠であり,占有率予測はその重要な要素である。
- 既存手法は,クラスの不均衡や分布外入力に対して脆弱であり,誤った予測を招く可能性がある。
- 本研究は,分布外入力に対するロバスト性を高め,より安全な自動運転を実現することを目指す。
- ProOODは,プロトタイプによる特徴補完と分布外入力のスコアリングを組み合わせることで,占有率予測の精度を向上させる。
- SemanticKITTIデータセットにおいて,既存手法を上回り,全体的なmIoUを3.57%,レアクラスのmIoUを24.80%改善した。
- VAA-KITTIデータセットでは,AuPRCrを19.34ポイント向上させ,他のベンチマークでも一貫した改善が見られた。
TRACE:訓練不要な部分オーディオディープフェイク検出 - 基礎モデルの埋め込み軌跡分析による [cs.SD, cs.AI, cs.CV]目的:部分オーディオディープフェイクの検出
- 音声フォレンジックは,デジタルコンテンツの信頼性確保に不可欠であり,その重要性は増している。
- 既存の検知手法は教師あり学習に依存し,特定合成パイプラインへの過学習や,新たな生成モデルへの対応が課題である。
- 本研究は,教師なしで部分オーディオディープフェイクを検出する新たなアプローチを提案し,その有効性を検証する。
- 本研究で提案するTRACEは,音声基礎モデルの埋め込み表現の時系列変化を分析することで,訓練データやアーキテクチャ変更なしに部分オーディオディープフェイクを検出する。
- PartialSpoofベンチマークにおいて,TRACEは教師あり学習ベースラインと同等の性能(EER 8.08%)を達成した。
- 特に困難なLlamaPartialSpoofベンチマークでは,ターゲットドメインデータなしで教師あり学習ベースラインを上回る性能を示した(EER 24.12% vs. 24.49%)。
文脈学習における時間的依存性:帰納ヘッドの役割 [cs.CL, cs.AI]目的:大規模言語モデルにおける文脈学習のメカニズム解明
- 大規模言語モデルの能力向上は,自然言語処理の発展に不可欠である。
- 文脈中の情報追跡・検索方法が不明確であり,モデルの性能限界となっている。
- 時間的順序の処理に特化したメカニズムの特定と,文脈学習への影響評価。
- 大規模言語モデルは,入力シーケンス内の繰り返しトークンに続くトークンに高い確率を割り当てる傾向があることが示された。
- この傾向は,過去のトークン出現位置に注目する「帰納ヘッド」によって媒介されていることが実験的に確認された。
- 帰納ヘッドの除去は,逐次再生課題の性能低下をもたらし,時間的文脈処理におけるその重要性が示唆された。
確率的マルチ目的最適化におけるパレート最適解近似:ハッシュ化とランダム化による手法 [cs.LG, cs.AI, cs.LO]目的:確率的マルチ目的最適化におけるパレート最適解の近似手法
- 不確実性下での意思決定において,複数の目的関数間のトレードオフを考慮することが重要である。
- 既存手法は,近似の精度が低いか,計算コストが非常に高くなるという課題がある。
- SATオラクルへのクエリ回数を削減しつつ,厳密な近似保証を持つパレート最適解の探索を実現する。
- 提案手法XOR-SMOOは,確率$1-\delta$で,$\gamma$-近似パレート最適解を,$\gamma$と$\delta$の対数関数回数のクエリでSATオラクルに問い合わせることで得られる。
- XOR-SMOOは,真のパレート最適解と比較して,定数倍の近似誤差範囲内に解を求めることが可能であり,計算困難な問題を効率的に解決する。
- 実世界の問題(道路ネットワーク強化,サプライチェーン設計)における実験結果は,XOR-SMOOが既存手法よりも優れた性能を示すことを示している。
大規模言語モデルの敵対的倫理ストレステスト [cs.AI]目的:大規模言語モデルの倫理的堅牢性評価
- ソフトウェアシステムへのLLM導入が拡大する中で,倫理的リスクの評価は不可欠である。
- 従来の評価は単回での評価や集計指標に頼り,多段階対話における行動の不安定性を見逃す場合がある。
- 多段階の敵対的対話下での倫理的堅牢性を評価し,潜在的な問題を特定すること。
- AMSTは,プロンプトに構造的なストレス変換を加え,モデルの行動を評価するストレスベースのフレームワークである。
- LLaMA-3-8B,GPT-4o,DeepSeek-v3などの最先端LLMを用いた評価で,モデル間の堅牢性の違いが明らかになった。
- 堅牢性は平均的な性能だけでなく,分布の安定性やテール行動に依存することが示された。
教育におけるAIへの信頼と依存:AIリテラシーと認知欲求が調整変数として [cs.CL, cs.HC, cs.AI, cs.CY, cs.ET]目的:教育現場におけるAI生成コンテンツ利用時の学生の信頼と適切な依存の関係性
- 教育現場へのAI導入が進む中,学生の学習効果に与える影響を理解することが重要である。
- AI生成コンテンツの正確性に対する批判的評価が不足し,過度な依存が生じる可能性がある。
- AIリテラシーや認知欲求が,AIへの信頼と適切な依存の関係に及ぼす影響を明らかにすること。
- AIへの信頼度が高いほど,正確なAIの提案と誤った提案の区別がつきにくくなり,適切な依存度が低下する傾向が示された。
- この関係性は,学生のAIリテラシーと認知欲求によって有意に調整されることが明らかになった。
- 問題解決におけるAI支援の評価において,より内省的な検討を促す教育的支援やシステム設計の必要性が示唆された。
情報幾何学からの依存ネットワークの再検討 [cs.LG]目的:依存ネットワークの理論的基盤の確立
- 複雑なシステムを効率的にモデル化する手段として,依存ネットワークの重要性が高まっている。
- 依存ネットワークのモデル分布は閉形式を持たず,理論的基盤が未完のままとなっている。
- 疑似ギブスサンプリングの情報幾何学的分析を通じて,理論的基盤を明確化することを目指す。
- 疑似ギブスサンプリングの各ステップをm-射影として解釈する新しいアプローチを提示した。
- 完全条件発散と呼ぶ新しい尺度を導入し,静止分布の位置を特徴づける上限を導出した。
- 構造学習とパラメータ学習を独立な部分問題に分解できる最適化問題として再定式化した。
単眼深度推定のための軽量プロンプト誘導型CLIP適応 [cs.CV, cs.AI, cs.LG]目的:単眼深度推定におけるCLIP表現の適応
- 画像認識の精度向上に,視覚と言語を結びつけるVLMsの活用が期待されている。
- VLMsを深度推定に応用するには,大規模な調整が必要で,幾何学的精度に課題がある。
- 少ない計算量でVLMsの知識を単眼深度推定に転移する手法を開発する。
- 提案手法MoA-DepthCLIPは,NYU Depth V2ベンチマークで高い性能を示した。
- $\delta_1$精度が0.390から0.745に,RMSEが1.176から0.520に大幅に改善された。
- 軽量なMoAモジュールが,VLMsの知識を単眼深度推定に効果的に転移することを示した。
論文再構築評価:AI作成論文における表現と幻覚の評価 [cs.CL, cs.AI, cs.LG]目的:AI作成論文の品質とリスクの定量化のための評価枠組み
- 研究活動においてAIの利用が増加しており,その成果の信頼性確保が重要となっている。
- AI作成論文の品質評価が十分でなく,信頼性に関する統一的な理解が不足している。
- AI作成論文の表現力と事実誤認(幻覚)を分離して評価することで,リスクを明らかにすること。
- 提案手法PaperReconは,AI作成論文を「表現」と「幻覚」の二つの側面から評価する。
- ClaudeCodeは表現力が高く,Codexは幻覚が少ないというトレードオフの関係が確認された。
- 本研究は,AIによる論文作成の評価枠組みを確立し,研究コミュニティにおけるリスク理解を深める第一歩となる。
パーソナライズされたダーツトレーニングに向けた:骨格ベースのバイオメカニクス分析とモーションモデリングに基づくデータ駆動型フレームワーク [cs.LG, cs.CV]目的:ダーツトレーニングを支援するデータ駆動型システムの開発
- スポーツトレーニングはデータ駆動型へと移行しており,経験や視覚観察に基づく指導法では限界がある。
- 既存研究では局所的な変数や単一のリリース指標に注目し,個々の動きの多様性が見過ごされがちである。
- 本研究は,個人の最適な制御範囲からの逸脱を評価し,パーソナライズされたトレーニングを可能にすることを目指す。
- システムは,自然な人間の動きに合致する滑らかな個人最適化された参照軌跡を生成することが示された。
- ケーススタディでは,体幹の不安定さ,肘の異常な動き,速度制御の不均衡を検出し,的確な推奨を提供できることが示された。
- 本フレームワークは,ダーツの評価を均一な基準からの逸脱から,個人の最適制御範囲からの逸脱へと転換させる。
非線形アンミキシングへの取り組み -- 生成的アプローチ [cs.RO, cs.DB, eess.IV, cs.CV, cs.AI, eess.IV]目的:高分解能リモートセンシング画像における非線形スペクトルアンミキシング手法
- リモートセンシング技術は,地球観測や資源探査において不可欠であり,その精度向上が求められている。
- 従来のアンミキシング手法は混合モデルに依存するため,複雑な非線形混合への対応が課題であった。
- 混合モデルを必要とせず,高精度な非線形スペクトルアンミキシングを実現することを目的とする。
- 提案手法LCGU netは,サイクル整合性と線形・非線形混合間の関連性を制約として利用する。
- 実験結果から,LCGU netは複数のデータセットにおいて,既存手法と同等以上の性能を示すことが確認された。
- 本研究は,混合モデルが不明な状況下での非線形アンミキシングの新たな可能性を示唆する。
分布シフト下における制約付き極値探索によるロボットマニピュレーションのための深層強化学習 [cs.RO, cs.LG]目的:分布シフト下でのロボットマニピュレーションにおけるロバスト性の向上
- ロボットマニピュレーションは自動化の鍵技術であり,様々な産業での応用が期待されている。
- 強化学習で学習したポリシーは,テスト環境が学習環境と異なる場合,性能が低下しやすい。
- 環境変化に強いロバストなロボットマニピュレーション制御手法の開発を目指す。
- 本研究では,深層強化学習と制約付き極値探索を組み合わせたハイブリッドコントローラを提案した。
- 強化学習で高速なマニピュレーションを実現し,極値探索で環境変化へのロバスト性を確保する。
- 目標位置や摩擦係数の変化など,分布外の条件下での有効性が実験的に示された。
マルチエージェントの解釈可能性による共謀の検出 [cs.AI, cs.LG, cs.MA]目的:マルチエージェントにおける共謀検出
- LLMエージェントの利用拡大に伴い,人間の監視を潜脱する秘密裏の連携リスクが重要になっている。
- 単一エージェント環境での欺瞞検出には進歩が見られるが,共謀は複数エージェント特有の問題であり,内部表現を用いた共謀検出は未探索である。
- 環境の変化に対するロバストな共謀検出ベンチマークを構築し,エージェント間の信号集約による検出手法を開発すること。
- 提案手法は,分布内で1.00 AUROCを達成し,構造的に異なるマルチエージェントシナリオや隠蔽的なブラックジャックにおいて0.60〜0.86 AUROCを示した。
- 共謀の種類によって最適なプローブ手法が異なり,共謀が活性化空間において異なる形で現れることが示唆された。
- 共謀エージェントの活性化は,相手のメッセージのエンコードされた部分を処理する際に特異的に上昇することが示された。
ブレインストックス:凍結MoE-LoRAスタックによる大規模言語モデルの継続学習のためのクロスドメイン認知能力 [cs.CL, cs.AI]目的:大規模言語モデルの継続的なマルチドメインファインチューニングにおけるドメイン知識のパッケージング
- 言語モデルは多様なタスクに対応できる能力が求められており,その汎用性が重要である。
- 従来のファインチューニングでは,新しいドメインに適応する際に既存の知識を忘却しやすいという課題がある。
- ドメイン知識を効率的に組み込み,知識の忘却を防ぎつつ,クロスドメインでの認知能力を獲得することを目指す。
- MoE-LoRAを用いることで,単一のLoRAと比較して2.5倍速く収束し,効率的な学習が可能となった。
- 残差ブーストにより,単一スタックの限界を突破し,性能向上が確認された。
- 結果から,ドメインスタックはドメイン固有の知識だけでなく,命令追従,数値推論などの認知的な素養を符号化していることが示唆された。
AIを活用したストリートビュー画像からの最低床標高抽出と機械学習による補完を用いた,テキサス州における建物レベルの洪水リスク評価 [cs.LG]目的:建物個別の標高データ生成による地域規模の洪水リスク評価
- 洪水は甚大な被害をもたらすため,正確なリスク評価が不可欠である。
- 建物個別の標高データは入手が困難であり,詳細なリスク評価のボトルネックとなっている。
- ストリートビュー画像と機械学習を活用し,標高データの地域規模での効率的な取得を目指す。
- ストリートビュー画像から標高データを抽出できたのは全体の49.0% (5,992建物) であった。
- 機械学習による補完は,性能評価で良好な結果を示した13地域で実施された。
- 本研究は,地域規模での洪水リスク特性評価を向上させ,建物レベルでの浸水深と被害額の推定を可能にする。
推論のシフト:文脈がLLMの推論をいかに静かに短縮するか [eess.SY, cs.SY, cs.RO, cs.LG]目的:LLMにおける推論過程の文脈依存性
- LLMの性能向上は,複雑な推論タスクへの応用を可能にするため,重要である。
- LLMの推論の頑健性は十分に検証されておらず,文脈の変化に弱い可能性がある。
- 様々な文脈下での推論過程の変化を分析し,LLMの頑健性向上に寄与する。
- 文脈の変化により,LLMの推論過程が大幅に短縮される現象が確認された(最大50%)。
- 推論の短縮は,自己検証や不確実性管理の減少と関連していることが示された。
- 単純な問題では性能に影響はないが,複雑な問題では性能低下の可能性がある。
S0チューニング:ハイブリッド再帰型-注意モデルのゼロオーバーヘッド適応 [cs.CL, cs.LG]目的:ハイブリッド再帰型-注意モデルの初期状態行列のチューニング
- 大規模言語モデルの性能向上は,多様なタスクへの適応能力に依存する。
- 既存のPEFT手法は,性能向上のために追加の計算コストやパラメータ増加を伴う場合がある。
- ゼロオーバーヘッドでモデルを適応させ,効率的な性能向上を目指す。
- S0チューニングは,HumanEvalベンチマークにおいてLoRAよりも10.8pp高い性能を示した。
- Qwen3.5-4Bモデルでは,S0チューニングによりgreedy pass@1が+23.6pp改善された。
- 数学問題や論理問題への転移学習においても有意な改善が見られ,テキストSQL変換タスクでは効果がなかった。
敵対的分布整合による生成モデルを用いたシミュレーションと実験のギャップを埋める [cs.LG, cond-mat.mtrl-sci, q-bio.BM]目的:シミュレーションと実験の間のギャップを埋めるためのデータ駆動型分布整合フレームワーク
- 複雑なシステムの理解には,シミュレーションと実験の両方が不可欠である。しかし,両者の整合性が課題となる。
- シミュレーションは近似を含むため現実との乖離が生じやすく,実験データはシステムの全状態を捉えきれない。
- 生成モデルを用いてシミュレーションと実験データの分布を整合させ,より正確なシステム理解を目指す。
- 敵対的分布整合(ADA)法により,シミュレーションで学習した生成モデルを実験データ分布に整合させることができた。
- ADA法は,複数の相関のある観測値に対しても,目的とする観測分布を回復できることを証明した。
- 合成データ,分子データ,実験タンパク質データを用いて本手法の有効性を実証し,多様な観測値との整合性を示した。
オンライン推論較正:テスト時学習が汎用的な共形LLM推論を可能にする [cs.LG, cs.AI, cs.CL, stat.AP, stat.ML]目的:大規模言語モデルの推論過程における較正
- 高度なタスク解決能力の獲得には推論が必要であり,その信頼性確保が重要である。
- 既存のモデルは較正が不十分であり,サンプリング手法にも課題がある。
- テスト時学習によるオンライン推論較正で,汎化性能と効率を向上させる。
- ORCAは共形予測とテスト時学習を組み合わせた較正フレームワークである。
- 分布シフト下においても有効な信頼性推定を提供し,理論的な保証も有する。
- Qwen2.5-32Bにおいて,教師ありラベルや自己整合性ラベルを用いた場合,最大で47.5%と40.7%の効率向上を達成した。
関数に基づく不確実性定量による安全な学習ベース制御 [eess.SY, cs.LG, cs.SY, math.OC]目的:安全な学習ベース制御のための不確実性定量
- 安全性が重要なシステムにおいて,学習ベース制御の利用が拡大している。
- 従来の不確実性定量手法は,関数に関する制約的な仮定に依存し,不連続性への対処が困難。
- 未知関数を確率関数としてモデル化し,サンプルに基づく不確実性チューブを構築することで,この問題を解決する。
- 提案手法では,未知関数を確率関数として扱い,サンプルのみを用いて高確率で成立する不確実性チューブを構築する。
- この不確実性チューブを安全なベイズ最適化アルゴリズムに組み込み,実機である振子に安全に制御パラメータを調整する。
- 実験結果から,提案手法が安全な学習ベース制御において有効であることが示された。
NeuroDDAF:エビデンス融合によるニューラル動的拡散対流場を用いた大気質予測 [cs.LG]目的:大気質予測の精度向上
- 大気汚染は公衆衛生と環境政策に深刻な影響を与えるため,正確な予測が不可欠である。
- 非線形な時空間変化,風の影響,地域間の分布のずれが,予測精度を阻害する要因となっている。
- 物理モデルとデータ駆動モデルの弱点を克服し,ロバストで不確実性を定量化できる予測手法を開発する。
- NeuroDDAFは,北京,深圳,天津,アンコーナの4都市データセットで,既存手法(AirPhyNet等)を上回る性能を示した。
- 最長3日先の予測において,RMSEとMAEを最大9.7%と9.4%それぞれ削減することに成功した。
- 北京データセットでは,1日先予測でRMSE 41.63 μg/m³,3日先予測で48.88 μg/m³を達成し,比較対象の中で最高の性能を誇る。
スクリーニングで十分 [cs.LG, cs.AI, cs.CL]目的:絶対的なクエリ・キー関連性の定義
- 自然言語処理の発展において,長文脈の効率的な処理は重要な課題である。
- 従来のソフトマックスアテンションでは,無関係なキーを排除できず,計算コストが増大する。
- クエリ・キー間の絶対的な関連性を評価し,無関係なキーを排除することで効率化を図る。
- Multiscreenは,Transformerベースラインと同程度の検証損失を,約40%少ないパラメータ数で達成した。
- Multiscreenは,大幅に大きな学習率での安定した最適化を可能にした。
- Multiscreenは,学習文脈長よりも遥かに長い範囲でも,検索性能の低下をほとんど示さなかった。
Florence-2のROS 2ラッパー:ロボットシステムのためのマルチモードなローカル視覚言語推論 [cs.RO, cs.AI, cs.CV]目的:ロボットシステム向けFlorence-2のROS 2ラッパー
- ロボティクスにおいて,より豊かな意味的知覚を提供する基盤視覚言語モデルの重要性が高まっている。
- ロボットソフトウェアスタックにおける実用的な採用には,モデル品質だけでなく,再現性のあるミドルウェア統合が不可欠である。
- Florence-2をROS 2環境で利用可能にし,ロボットシステムへの組み込みを容易にすること。
- Florence-2を,トピック駆動型処理,同期サービス呼び出し,非同期アクションの3つのモードで利用できるROS 2ラッパーを開発した。
- ラッパーはローカル実行向けに設計されており,ネイティブインストールとDockerコンテナ展開の両方をサポートする。
- 消費者グレードのハードウェアでもローカル展開が可能であることを,GPUを用いたスループット調査によって示した。
ORBIT:検索エージェントのためのスケーラブルで検証可能なデータ生成 [cs.CL, cs.AI, cs.IR]目的:検索エージェント用トレーニングデータセット
- 複雑な質問応答には検索エージェントが不可欠であり,その性能向上は重要である。
- 高品質なトレーニングデータの作成には,高コストなアノテーションや制約が多い。
- 費用対効果の高いデータ生成フレームワークによるトレーニングデータセットの構築。
- ORBITは,2万件の推論を要する質問と検証可能な回答から構成されるデータセットである。
- ORBITで学習したQwen3-4Bは,40億パラメータ以下のLLMとして優れた性能を示した。
- このフレームワーク,コード,データセットは公開されており,広く利用可能である。
