arXiv雑要約
AI - 2026/03/25 公開
遅延を考慮した拡散ポリシー:動的なタスクにおける観測と実行のギャップの解消 [cs.RO, cs.LG]目的:ロボットにおける推論遅延への対応
- ロボットの応用範囲拡大には,現実世界の複雑な環境への適応が不可欠である。
- ロボットのセンサ情報と実際の状態の間に時間差が生じ,制御性能を低下させる。
- 推論遅延を明示的に考慮することで,ロボット制御のロバスト性を向上させる。
- 提案手法DA-DPは,推論遅延を考慮した軌道修正と遅延条件付けを行うことで,遅延に強いポリシー学習を実現した。
- 様々なタスク,ロボット,遅延時間において,従来の遅延を考慮しない手法よりも高い成功率を示した。
- DA-DPは拡散ポリシーに限定されず,遅延を考慮した模倣学習の一般的な枠組みとして適用可能である。
メタファーに基づくテキスト-画像モデルへの脱獄攻撃 [cs.CR, cs.AI, cs.CV]目的:テキスト-画像モデルの安全性脆弱性の解明と,多様な防御機構に対する攻撃手法の開発
- テキスト-画像モデルの安全性確保は重要であり,悪意のある画像生成を防ぐ必要がある。
- 既存の攻撃手法は,防御機構の種類を事前に知っていることを前提としており,未知の防御に対しては有効性が低い。
- 本研究では,防御機構の種類を事前に知らずとも攻撃可能なメタファーに基づく攻撃手法を提案する。
- メタファーに基づく脱獄攻撃(MJA)は,多様な防御機構を持つテキスト-画像モデルに対し,高い攻撃性能を発揮する。
- MJAは,既存の6つのベースライン手法と比較して,少ないクエリ数でより強力な攻撃を実現する。
- メタファーは意味の曖昧性を生み出し,モデルの潜在的な意味解釈を通してセンシティブな画像生成を誘発する。
シュレーディンガーのナビゲーター:ゼロショット物体ナビゲーションのための未来集合の想像 [cs.RO, cs.AI, cs.CV]目的:ゼロショット物体ナビゲーションにおける将来の可能性の検討
- サービスロボットや家庭用ロボットには,未知の環境での物体探索能力が不可欠である。
- 既存手法はシミュレーションでは成功するものの,現実環境の遮蔽や潜在的危険により苦戦している。
- 不確実性下での安全な行動を促すため,複数の未来を考慮したナビゲーションを目指す。
- 本研究で提案するSchr\"odinger's Navigatorは,複数の未来を想像することで,頑健な自己位置推定と物体検出を実現した。
- 遮蔽物や潜在的危険がある環境下でも,既存手法を上回る安全なナビゲーション性能を示した。
- 未来を考慮したナビゲーションは,不確実な現実世界でのゼロショットナビゲーションのスケーラビリティと汎用性を高める有効な戦略である。
AI生成コードはまだ再現性がない:LLMベースのコーディングエージェントにおける依存関係のギャップに関する実証研究 [cs.SE, cs.AI, cs.MA]目的:LLMベースのコーディングエージェント生成コードの再現性
- ソフトウェア開発の効率化が求められており,AIによる自動コード生成技術への期待が高まっている。
- 生成されたコードが,環境依存性により再現性がない場合があるという問題が存在する。
- LLM生成コードの依存関係を詳細に分析し,再現性の問題を定量的に評価すること。
- 評価したLLM生成コードの68.3%が,クリーンな環境で即座に実行可能であった。
- 言語によって再現性に差が見られ,Pythonは89.2%である一方,Javaは44.0%であった。
- 宣言された依存関係と実際の実行に必要な依存関係の間に,平均で13.5倍のギャップが存在した。
VLM-CAD:アナログ回路サイジングのためのVLM最適化協調エージェント設計ワークフロー [cs.CG, cs.DM, cs.MA, cs.AI, cs.AR]目的:アナログ回路サイジングのためのVLM最適化協調エージェント設計ワークフロー
- 近年,マルチモーダル推論に優れたVLMが注目される。しかし,回路図のような構造化された技術コンテンツの解釈には課題がある。
- VLMは空間認識能力が低く,論理的な誤りを起こしやすい。特に,アナログ回路のような複雑な構造の解析には不向きである。
- VLMの解釈を確実にするため,構造解析とベイズ最適化を組み合わせ,説明可能な回路設計を可能にすることを目指す。
- 提案手法VLM-CADは,回路図を構造化されたデータに変換することで,VLMの空間認識精度を向上させる。
- 説明可能なベイズ最適化手法ExTuRBOを用いることで,VLMの決定に対する信頼性と根拠を示す。
- 複雑な回路設計のベンチマークにおいて,VLM-CADは仕様を満たしつつ低消費電力を実現し,66分以内の実行時間で高い性能を示した。
DP-FedSOFIM:正則化されたフィッシャー情報行列を用いた差分プライバシー連合確率的最適化 [cs.RO, cs.LG, cs.CR, cs.DC]目的:差分プライバシー連合学習における収束加速と精度向上
- データプライバシー保護と機械学習の活用が重要視される中,連合学習が注目されている。
- 差分プライバシーを適用した連合学習は,プライバシー保護のためにノイズを加える必要があり,収束が遅れるという課題がある。
- 本研究では,ヘッセ行列の計算や特徴量の共分散推定を必要とせず,効率的な二階最適化手法を提案する。
- 提案手法DP-FedSOFIMは,サーバー側で正則化されたフィッシャー情報行列を構築することで,勾配の質を向上させる。
- DP-FedSOFIMは,CIFAR-10とPathMNISTの実験において,DP-FedGD,DP-SCAFFOLD,DP-FedFCよりも高速に収束し,高い精度を達成した。
- 特に,厳しいプライバシー制約下において,DP-FedSOFIMの優位性が顕著に示された。
ホークス過程から注意機構へ:イベント系列のための時間変調メカニズム [cs.LG, math.ST, stat.AP, stat.TH]目的:イベント系列における時間的効果のモデル化
- 医療,社会,商業,金融など幅広い分野で時間依存的なイベント系列分析が重要である。
- 既存のTransformerモデルでは,位置エンコーディングによる時間情報注入が主流で,多様な時間的効果の捉え方に限界がある。
- ホークス過程理論に基づく注意機構を開発し,イベントタイミングと内容の相互作用を統合的に学習すること。
- 提案手法であるHawkes Attentionは,イベントタイプ固有のカーネルを用いてクエリ,キー,バリューを調整し,従来の注意機構を置き換える。
- 実験結果から,Hawkes Attentionが既存手法と比較して優れた性能を示すことが確認された。
- 本手法は,一般的なイベント系列だけでなく,時系列予測などの特定の時間構造にも適用可能である。
DriveSafe:LLMベース運転支援システムの安全性リスク階層分類 [cs.AI]目的:LLMベース運転支援システムの安全性に関するリスクの体系的な分類
- 自動車へのLLM導入が進む中で,安全性確保は不可欠である。事故や法規制違反に繋がるリスクを未然に防ぐ必要がある。
- 既存のリスク分類は汎用的であり,実際の運転状況特有のリスクを捉えきれていない現状がある。
- LLM運転支援システムの安全性に関する具体的なリスクを特定し,評価を可能にすること。
- DriveSafeは,4階層構造を持つ129の細分化されたリスクカテゴリーで構成される。
- 評価の結果,既存のLLMは不安全または法令違反の運転に関する質問に対して適切に拒否できない場合が多いことが示された。
- 汎用的な安全性調整では,運転状況特有のリスクへの対処が不十分であることが明らかになった。
プライバシーは常に公平性を損なうか? Chernoff情報ニューラル推定によるデータ依存的なトレードオフ [cs.LG, cs.AI, cs.IT, math.IT, stat.ML]目的:公平性,プライバシー,精度の間のトレードオフのデータ依存的な特性評価
- 信頼できる機械学習において,公平性とプライバシーは不可欠な要素である。両者の関係性は重要性が増している。
- 公平性とプライバシーは個別に研究されてきたが,その相互関係については十分な検討がなされていない。
- データ分布に基づいて,公平性とプライバシーの間の根本的なトレードオフを明確にすることを目的とする。
- Chernoff情報を用いて,公平性の新たな指標であるChernoff差分を提案し,ノイズを加えた変種を開発した。
- 簡単なガウス分布の例を通して,ノイズ付きChernoff差分がデータ分布に応じて異なる振る舞いを示すことを示した。
- 未知の分布に対するChernoff情報の最初のニューラルネットワークベース推定器であるCINEを開発し,実データへの適用を試みた。
聴覚視覚エンティティの一貫性とエージェント検索による階層的な長編ビデオ理解 [cs.CV, cs.AI, cs.IR]目的:長編ビデオ理解のためのフレームワーク
- 長編ビデオの理解は,多様な応用において重要であり,その処理能力が求められる。
- 既存手法は,情報の断片化やグローバルな一貫性喪失といった課題を抱えている。
- 聴覚視覚エンティティの一貫性と階層的なビデオインデックスを活用し,問題を解決する。
- 提案手法HAVENは,聴覚と視覚のエンティティ一貫性を統合することで,一貫性のある推論を実現した。
- 階層的なビデオインデックスとエージェント検索メカニズムにより,動的な検索と推論が可能になった。
- LVBenchにおいて,全体精度84.1%,特に推論カテゴリで80.1%を達成し,最先端性能を示した。
クロス感覚脳内パッセージ検索:視覚から聴覚への拡張 [cs.IR, cs.LG]目的:脳波信号とパッセージ表現の直接マッピングによる情報検索
- 情報検索において,人間の認知的な複雑さや身体的な制約が課題であり,より直接的な検索手法が求められている。
- 既存の脳内パッセージ検索(BPR)研究は視覚刺激のみに限定されており,聴覚刺激を用いた検索の可能性が未検証であった。
- 聴覚脳波を用いたBPRの有効性と,異なる感覚モダリティの脳波を組み合わせた学習による性能向上を検証する。
- 聴覚脳波は視覚脳波に一貫して優れており,特にCLSプーリングを用いたクロス感覚学習が著しい性能向上をもたらした。
- クロス感覚学習により,MRRが31%,Hit@1が43%,Hit@10が28%それぞれ向上し,従来のテキストベースラインBM25を上回った。
- 本研究は,聴覚ニューラルインターフェースの有効性と,データ不足に対するクロス感覚学習の有効性を実証した。
入力結合多層パーセプトロンに対する汎用近似定理 [cs.LG, cs.NE, math.FA]目的:入力結合多層パーセプトロンの汎用近似能力
- ニューラルネットワークは,複雑な関数を近似する強力なツールであるため,その理論的基盤の理解は重要である。
- 従来の多層パーセプトロンでは,近似能力に限界がある場合がある。
- 入力層からの直接結合により,近似能力の向上を目指す。
- 入力結合多層パーセプトロン(IC-MLP)は,隠れニューロンが前層の出力に加え,入力からも直接接続を受ける構造である。
- 1変数の場合,IC-MLPが任意の連続関数を近似可能であるための条件は,活性化関数の非線形性である。
- 多変数の場合にも同様の汎用近似定理が成立し,コンパクト集合上の連続関数を近似できることが示された。
表現的準同型写像はTransformer言語モデルにおける構成的汎化を予測し改善する [cs.RO, cs.LG, cs.AI]目的:Transformer言語モデルにおける構成的汎化の予測と改善
- ニューラルネットワークの構成的汎化は,新たな要素の組み合わせを解釈する能力であり,AI研究の重要な課題である。
- モデルが構成的汎化に失敗する原因が,表現レベルでの構造的な不整合である点が不明確であった。
- 言語的統語とモデルの隠れ状態の組み合わせ規則の不整合を測る指標を用いて,構成的汎化を改善する。
- 準同型誤差(HE)は,外分布における構成的汎化性能と0.73の相関係数で関連性があることが示された。
- HEを低く保つように正則化された訓練は,HEを統計的に有意に低減し(p=1.1x10^-4),外分布の精度を向上させた(p=0.023)。
- これらの結果は,HEが構成的汎化を改善するための診断と訓練信号の両方として利用できる可能性を示唆する。
Vision-DeepResearch:マルチモーダル大規模言語モデルにおける深層調査能力の促進 [eess.SY, cs.SY, eess.SP, cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおける深層調査能力の向上
- 画像処理と自然言語処理の融合が,より高度なAIシステムの実現に不可欠である。
- 既存手法では,現実世界におけるノイズや複雑な情報統合が困難である。
- マルチターン,マルチエンティティ,マルチスケールの検索を通して,深層調査能力を向上させる。
- 本研究では,Vision-DeepResearchという新しい深層調査パラダイムを提案し,ノイズの多い環境下での検索を強化した。
- 数百回のエンジンとのインタラクションを可能にし,深層調査能力をモデルに組み込むことで,既存モデルを大幅に上回る性能を実現した。
- GPT-5,Gemini-2.5-pro,Claude-4-Sonnetといった高性能なモデルと比較しても優れた結果を示した。
1S-DAug:少ないショット汎化のためのワンショットデータ拡張 [cs.CV, cs.AI, cs.LG]目的:少ないショット学習におけるロバストな汎化性能の向上
- 機械学習において,少数の学習データから未知のクラスを認識する能力は重要である。
- 従来のテスト時データ拡張は,少ないショット学習においては効果を発揮しにくいという課題がある。
- 本研究では,単一の画像から多様なバリエーションを生成し,汎化性能を向上させることを目指す。
- 1S-DAugは,テスト時に単一の画像から多様で忠実なバリエーションを生成する。
- 従来の幾何学的変換と制御されたノイズ注入,そしてノイズ除去拡散過程を組み合わせることで,ロバストな特徴表現を獲得する。
- 4つの標準ベンチマークデータセットにおいて,モデルのパラメータ更新なしにFSLの性能を改善し,miniImagenetでは最大20%の精度向上を達成した。
機械学習モデルにおける説明可能性問題の解決:予測不確実性の理解 [cs.LG]目的:機械学習モデルの説明可能性に関する問題解決策
- 機械学習は重要度の高い意思決定に利用され,説明可能性は規制要件でもある。
- LIMEやSHAP等の局所線形手法は,決定境界付近で不安定であると批判されている。
- 予測不確実性の高い領域での説明不安定性の誤解を解き,説明可能性を高める。
- 決定境界では予測不確実性が高く,それゆえに説明の不安定性も高くなる。
- 予測可能な範囲が存在するかどうかを最初に確認し,不確実性の低い場合にのみ説明を試みる。
- ReLUネットワーク等の区分線形モデルは,予測不確実性が高いため,見かけ上の説明可能性に過ぎない。
グラフにおける非衝突教授法:アルゴリズム,複雑性,および限界 [cs.CC, cs.DM, cs.DS, cs.LG, math.CO]目的:グラフにおける閉近傍に対する非衝突教授法の効率的な学習アルゴリズムの設計と解析
- 機械学習における能動学習の効率化は重要な課題であり,教授法の設計が鍵となる。
- 従来の教授法では,学習者の共謀を防ぐことが難しく,効率的な学習が阻害される場合がある。
- 共謀回避のベンチマークを満たす非衝突教授法のアルゴリズムを改善し,適用範囲を広げる。
- 閉近傍に対する非衝突教授法において,より一般的なパラメータクラスに対するFPTアルゴリズムを開発した。
- 既存研究と比較して,計算量の面で改善されたアルゴリズムを提案し,より強い下界を示すことができた。
- より広いクラスのグラフに対して,組み合わせ的な上限を導出した。
残差デコーディング:履歴に基づいた残差ガイダンスによる大規模視覚言語モデルの幻覚軽減 [cs.CV, cs.AI]目的:大規模視覚言語モデルにおける幻覚の軽減
- 視覚と言語を統合したAI研究は,多様な応用可能性を秘めており重要である。
- 大規模言語モデルは言語的な先入観に影響されやすく,視覚情報と乖離した幻覚を生じやすい。
- 視覚情報との整合性を高め,言語モデルの先入観による幻覚を抑制すること。
- 提案手法ResDecは,訓練不要で履歴情報を活用し,幻覚を効果的に抑制する。
- ResDecは,視覚的根拠に基づいた応答を改善し,オブジェクトの幻覚を減少させる。
- ResDecは,既存のLVLMベンチマークにおいても優れた性能を示す汎用性を持つ。
FlyPrompt:脳に触発されたランダム拡張ルーティングと時間的アンサンブルエキスパートによる汎用継続学習 [cs.MA, cs.LG, cs.AI, cs.CV]目的:汎用継続学習における課題解決
- 近年,データ駆動型AIの重要性が増しており,継続的に学習する能力が求められている。
- 既存手法は,複数エポックの訓練や明示的なタスク情報に依存し,リアルタイム環境への適応が難しい。
- エキスパートパラメータの割り当てと表現能力の向上を通じて,継続学習の性能向上を目指す。
- FlyPromptは,ショウジョウバエの階層的記憶システムに着想を得たフレームワークである。
- 提案手法は,インスタンスレベルでのエキスパート活性化と動的な決定境界適応を実現し,優れた性能を示す。
- CIFAR-100,ImageNet-R,CUB-200において,最先端手法を最大12.43%上回る成果が得られた。
大規模言語モデルエージェントにおけるツール利用行動の最適化におけるエントロピーの役割の再考 [cs.AI, cs.SE]目的:大規模言語モデルエージェントのツール利用行動の最適化
- 大規模言語モデルの応用範囲拡大のため,ツール利用能力の向上が不可欠である。
- 長時間の推論において,不要なツール呼び出しが多く,性能低下の原因となる。
- エントロピー減少を利用し,効率的かつ高性能なツール利用行動を実現する。
- エントロピー減少と高品質なツール呼び出しの間に強い正の相関が確認された。
- 提案する報酬戦略により,ツール呼び出し回数を平均で72.07%削減した。
- また,性能を22.27%向上させることに成功した。
インフラ運用・保守における関節部品のロボット操作のためのエネルギー効率を考慮した強化学習 [cs.IR, eess.SY, cs.AI, cs.RO, cs.SY]目的:インフラ運用・保守における関節部品のロボット操作のためのエネルギー効率を考慮した強化学習フレームワーク
- スマートシティ化に伴い,インフラの運用・保守におけるロボット活用が不可欠となっている。
- 既存手法は把持または特定オブジェクトに特化しており,エネルギー消費を考慮した最適化が不足している。
- 多様な関節部品に対応可能な,エネルギー効率に優れたロボット操作手法を確立することを目指す。
- 提案手法は,部品形状の3D認識とPointNetによるエンコーディングを組み合わせ,汎用的な幾何学的表現を実現した。
- 制約マルコフ決定過程(CMDP)として操作を定式化し,ラグランジュ関数に基づく制約付きソフトアクタークリティック法を用いてエネルギーを明示的に制御した。
- 実験結果から,エネルギー消費量は16-30%削減,成功までのステップ数は16-32%減少,高い成功率が確認された。
即時クエリのための洗練:暗黙的ニューラル場のための分離された洗練パラダイム [cs.LG, cs.CE, cs.CV, cs.GR]目的:暗黙的ニューラル場の表現の精度と速度のトレードオフの解決
- 大規模な3Dシミュレーションの代替手段として,暗黙的ニューラル表現の重要性が高まっている。
- 深層MLPは推論コストが高く,効率的な埋め込みベースのモデルは表現力が不足するという課題がある。
- 表現力と効率性を両立し,高速な推論を可能にする新しいパラダイムの提案。
- 提案手法であるDRRは,オフラインで表現を洗練し,高速な推論パスを実現する。
- 複数のアンサンブルシミュレーションデータセットにおいて,最先端の精度を達成し,推論速度も大幅に向上した。
- DRRパラダイムは,速度と品質のバランスを保ちながら,強力で実用的なニューラル場サロゲートを構築するための有効な戦略を提供する。
多変量時系列データの欠損値補完のための1対1チャネルヘッドバインディング [cs.LG]目的:多変量時系列データの欠損値補完手法
- 時系列データは様々な分野で利用され,欠損値は分析の精度低下を招くため,適切な補完が重要である。
- 既存手法では,欠損パターンが多様であったり欠損率が高い場合に,十分な性能を発揮できないという課題がある。
- この研究では,変数の間の情報伝達を効果的に行うことで,欠損値が多い状況下でもロバストな補完を実現することを目指す。
- 提案手法T1は,CNNとTransformerを組み合わせたハイブリッドアーキテクチャであり,チャネルヘッドバインディング機構を用いることで,選択的な情報伝達を実現する。
- 実験の結果,T1は11のベンチマークデータセットにおいて最先端の性能を達成し,2番目に良いベースラインと比較して平均でMSEを46%削減した。
- 特に,欠損率が高い状況(70%)下で大きな改善が見られ,再学習なしに未知の欠損パターンにも汎化可能である。
効果はあるが不可解:生体触発探索による古典中国語脱獄プロンプト最適化 [cs.AI, cs.CR]目的:大規模言語モデルに対する古典中国語を用いた脱獄プロンプトの自動生成
- 大規模言語モデルの利用拡大に伴い,そのセキュリティリスクへの関心が高まっている。
- 既存の手法では,言語環境によって脱獄攻撃の有効性が異なり,十分な対策がなされていない。
- 古典中国語の簡潔さと難解さを利用し,言語モデルの安全対策を回避する手法を開発する。
- 提案手法CC-BOSは,多次元のフルーツフライ最適化に基づき,効率的な脱獄プロンプトを自動生成する。
- プロンプトは,役割,行動,メカニズムなど8つの次元で表現され,探索空間を効率的に探索する。
- 実験の結果,CC-BOSは最先端の脱獄攻撃手法を凌駕する有効性を示すことが確認された。
胸部X線画像に対する根拠に基づいた診断推論エージェント:CXReasonAgent [cs.AI]目的:胸部X線画像を用いた診断推論の実現
- 胸部X線は胸部疾患の診断に不可欠であり,正確な診断は医療の質に直結する。
- 大規模ビジョン言語モデルは,診断根拠が不十分であったり,検証のための視覚的証拠を示せない場合がある。
- 診断根拠に基づいた推論を行い,信頼性と適応性の高い診断支援システムを開発すること。
- CXReasonAgentは,大規模言語モデルと臨床的に根拠のある診断ツールを統合し,画像由来の診断および視覚的証拠に基づいた診断推論を実現する。
- 新たに構築したベンチマークCXReasonDialを用いた評価により,CXReasonAgentは大規模ビジョン言語モデルよりも忠実な根拠に基づいた応答を生成することが示された。
- 臨床的に根拠のある診断ツールとの統合が,安全性が必要な臨床環境において重要であることが強調された。
KDFlow:大規模言語モデルの知識蒸留のための使いやすく効率的なフレームワーク [cs.CL, cs.AI, cs.LG]目的:大規模言語モデルの知識蒸留の効率化
- 近年,大規模言語モデルの性能向上は目覚ましいが,計算コストも高い。実用化にはモデルの軽量化が不可欠である。
- 既存の知識蒸留フレームワークは,教師モデルと生徒モデルで同一の学習基盤を用いるため,効率が最適化されていない。
- 教師推論と学習効率を両立させ,通信コストを抑えつつ,知識蒸留の性能を向上させることを目指す。
- KDFlowは,FSDP2の学習効率とSGLangの推論効率を統合し,両方の利点を最大限に活用する分離型アーキテクチャを採用している。
- 教師の隠れ状態のみをゼロコピーデータ転送で伝送し,生徒側でlogitsを再計算することで,通信コストとKD性能のバランスを取っている。
- 実験の結果,KDFlowは既存のKDフレームワークと比較して1.44倍から6.36倍の高速化を実現し,LLM蒸留のプロトタイプ作成とスケーリングを迅速化する。
エージェントAIベースのカバレッジクロージャによる形式検証 [cs.AI]目的:形式検証におけるカバレッジ分析の自動化
- IC開発において,検証の網羅性は品質を保証する上で不可欠である。
- 従来の網羅的なアプローチでは,時間制約から完全なカバレッジ達成が困難である。
- 本研究は,AIを活用してカバレッジギャップを特定し,形式検証を効率化することを目指す。
- 大規模言語モデル(LLM)を活用した生成AIにより,カバレッジ分析と形式プロパティ生成を自動化した。
- オープンソースおよび社内設計での評価により,カバレッジメトリクスの改善が確認された。設計の複雑さとの相関も示された。
- 本研究は,エージェントAIが形式検証の生産性とカバレッジクロージャを向上させる可能性を示唆する。
対立から合意へ:多段階エージェント的RAGによる医療推論の強化 [cs.CL, cs.AI, cs.IR]目的:医療における複雑な質問応答のための,多段階エージェント的RAGフレームワーク
- 医療分野では,高度な推論能力が求められるが,誤情報や知識の陳腐化がリスクとなる。
- 従来のRAG手法はノイズの影響を受けやすく,複雑な推論に必要な多段階の洗練が不足している。
- 本研究は,外部証拠と内部推論履歴を反復的に進化させることで,より正確で信頼性の高い医療推論を目指す。
- MA-RAGは,7つの医療Q&Aベンチマークにおいて,既存のRAG手法を上回り,平均で6.8ポイントの精度向上を達成した。
- MA-RAGは,応答候補間の意味的対立を能動的なクエリに変え,外部証拠の検索と推論履歴の最適化を行う。
- 一貫性の欠如を多段階推論の信号として活用することで,安定した高精度な医療コンセンサスを構築する。
センサー故障時:センサードリフト下におけるロバストなPPOのための時系列モデル [cs.LG, cs.AI]目的:センサー故障による部分観測下でのPPOのロバスト性向上
- 現実世界の強化学習システムでは,観測データの分布シフトが不可避である。
- 既存の強化学習手法は,完全観測とノイズのない状態を暗黙に前提としている。
- センサー故障時の性能劣化を抑制するロバストな方策の構築を目指す。
- 時系列モデル(Transformer,SSM)をPPOに組み込むことで,欠損情報の推論と性能維持が可能となる。
- 確率的なセンサー故障プロセス下で,方策の滑らかさと故障の持続時間と報酬劣化の関係を定量的に示す理論的限界が導出された。
- MuJoCoベンチマーク実験の結果,Transformerベースの方策が,MLP,RNN,SSMと比較して,センサーが利用不可の場合でも高い報酬を維持するロバスト性で優れていた。
共変量時系列における検索拡張生成 [cs.RO, cs.RO, cs.AI]目的:共変量時系列の検索拡張生成に関する研究
- 時系列データは,産業界をはじめとする多くの分野で重要な役割を担う。
- 時系列データの希少性や過渡的な特性,共変量との複雑な関係が課題である。
- 希少,過渡的,共変量結合された時系列データにおける予測精度の向上を目指す。
- 提案手法RAG4CTSは,時系列固有の知識ベースを構築し,物理情報に基づいた検索を可能にする。
- 二段階の重み付け検索メカニズムにより,過去のトレンドを点ごとの類似性と多変量類似性で整合させる。
- 中国南方航空に導入された結果,2ヶ月間でPRSOVの故障を1件検出し,誤報は発生しなかった。
根拠に基づいた検証によるマルチモーダル判断 [cs.LG]目的:マルチモーダル判断の精度向上
- 画像とテキストを組み合わせた判断は,AIの応用範囲を広げる上で不可欠である。
- マルチモーダルモデルは,視覚的根拠に基づいた意思決定が苦手であるという課題がある。
- 視覚的根拠に基づく検証プロセスを導入し,一貫性を重視することで判断精度を高める。
- 本研究で開発したMJ1は,視覚的根拠に基づいた検証メカニズムにより,MMRB2においてベースモデルの精度を向上させた。
- 30億パラメータという比較的少ない規模で,MMRB2においてGemini-3-Proなどの大規模モデルを上回る精度を達成した。
- 根拠に基づいた検証と一貫性に基づく学習が,モデルの規模を拡大することなくマルチモーダル判断を著しく改善することを示した。
博物館ビデオのためのカタログに基づくマルチモーダルアトリビューション:リソースと規制の制約下 [cs.CG, math.MG, eess.SY, cs.SY, cs.MM, cs.CV, cs.LG]目的:博物館ビデオのカタログ様式メタデータ作成の自動化
- 博物館の映像資料は増加の一途を辿っており,その活用が重要である。
- 既存のアーカイブ方法は手作業に依存しており,効率が悪い。
- リソースと規制の制約下で,映像資料の検索性を向上させる。
- 提案手法は,ビデオ内の美術作品を要約し,カタログ様式の説明とジャンルラベルを生成する。
- 構造化されたカタログへの類似性マッチングにより,タイトルとアーティストの特定を試みる。
- 初期の実装結果は,アーカイブの検索性を改善し,リソース制約やデータ主権,規制遵守に対応できる可能性を示す。
複数ステーションWiFi CSIセンシングフレームワーク:ステーションごとの特徴欠損と限られたラベルデータへの対応 [cs.LG]目的:複数ステーション環境におけるWiFi CSIセンシングのフレームワーク
- WiFi CSIは,位置推定や活動認識など,多様なアプリケーションに活用され,その重要性が増している。
- 実際の環境では,ステーションの接続不良などにより,CSIデータの欠損が頻繁に発生する。
- ステーションの欠損やラベル不足といった課題を同時に解決し,実用的なCSIセンシングを実現すること。
- 提案手法では,ステーションの欠損状況を考慮した表現学習と,下流モデルの訓練におけるステーションごとのマスク拡張を組み合わせる。
- 欠損に強い事前学習と拡張だけでは不十分であり,両者を組み合わせることで,欠損とラベル不足の両方に対して頑健な性能を発揮する。
- 本フレームワークは,実世界のWiFi CSIセンシングにおいて,実用的かつ堅牢な基盤を提供する。
連続体力学における物理情報に基づく追跡のための安定性を考慮した固定オイラー型オートエンコーダ (SAFE-PIT-CM) [cs.LG]目的:連続体力学における拡散係数と物理場の同時復元
- 材料特性は加工過程における微細構造場の進化を決定するが,直接測定は困難である。
- 時間間隔がシミュレーション時間ステップより粗い場合,オイラー法は安定性を損ない,学習された係数が崩壊する。
- 安定性を回復させ,物理量と係数の高精度な復元を可能にすること。
- 提案手法SAFE-PIT-CMは,凍結された畳み込み層を微分可能な偏微分方程式ソルバーとして組み込むことで,拡散係数と物理場を同時に復元する。
- サブステップ処理により安定性を回復し,計算コストを抑えつつ,復元誤差を単調に減少させる。
- 金属の熱拡散において,事前学習の有無にかかわらず,ほぼ完璧な精度で拡散係数と物理場を復元できることを確認した。
NCCL EP:NCCL向け統一的なエキスパート並列通信APIへ [cs.DC, cs.AI, cs.AR, cs.LG]目的:エキスパート並列処理のための統一的な通信ライブラリの開発
- 大規模言語モデルの拡張にはエキスパート並列が不可欠であり,高速な通信が求められている。
- 既存のライブラリは分散しており,プラットフォームへの統合が課題となっていた。
- NCCL上に構築することで,様々なプラットフォームで利用可能なエキスパート並列通信を実現する。
- NCCL EPは,NCCLのDevice APIを用いて開発されたMoE通信ライブラリである。
- 低遅延モードと高スループットモードをサポートし,多様なバッチサイズに対応可能である。
- H100クラスタでの評価により,競争力のある性能とvLLMとの統合による有効性が示された。
目標認識としての計画立案:意図モデルからのヒューリスティック導出 -- 拡張版 [cs.RO, cs.AI]目的:意図モデルに基づくヒューリスティックの導出
- 計画立案はAIの根幹技術であり,自律的な行動を可能にする重要な要素である。
- 古典的な計画立案では,計算コストが高く,複雑な問題に対しては効率性が課題となる。
- 目標認識から得られるヒューリスティックを用いて計画立案の効率を改善すること。
- 提案するダイバージェンスに基づくフレームワークは,効率的に計算可能な新たなヒューリスティックの基礎となる。
- 導出されたヒューリスティックは,既存の計画立案プログラムの性能向上に貢献する可能性を示す。
- 本研究は,計画立案のための確率的意図ベースヒューリスティックの研究基盤を提供する。
機械アンラーニングの再考:キー削除による忘却を設計したモデル [cs.LG]目的:機械学習モデルにおける忘却機能の実装
- プライバシー保護の重要性から,データ削除のニーズが高まっている。
- 既存手法は事後対応であり,全訓練データへのアクセスが必要となる。
- 忘却を前提としたモデル設計により,効率的なデータ削除を実現する。
- MUNKEYは,インスタンス識別キーの削除によって,高速な忘却を可能にする。
- 従来の事後対応型手法と比較して,性能が向上する。
- 設計段階での忘却機能の組み込みが,実用的なアンラーニングを実現する。
PRISM:中間トレーニングにおける保持と相互作用の解明 [cs.RO, cs.CL, cs.CY, cs.RO, cs.LG]目的:大規模言語モデルの中間トレーニングにおける設計選択の影響
- 大規模言語モデルの性能向上は,自然言語処理の進歩に不可欠である。
- 中間トレーニングにおけるデータ構成や手法が,性能に大きな影響を与えるが,そのメカニズムは不明確である。
- 中間トレーニングにおける保持能力と,その後の強化学習の効果を解明し,より効果的なトレーニングパイプラインを設計すること。
- 中間トレーニングにより,数学,コーディング,科学のベンチマークで一貫した性能向上が確認された。
- 中間トレーニングと強化学習を組み合わせたPRISMパイプラインは,推論ベンチマークの性能を大幅に向上させた。
- 中間トレーニングはモデルの重みを広範囲に再構成し,強化学習は限られたパラメータを微調整することが示された。
カスケードを意識したマルチエージェントルーティング:空間的・時間的サイドカーとジオメトリスイッチング [cs.AI, cs.LG]目的:ルーティングにおけるカスケードの影響を考慮したシステムの性能向上
- 複雑なタスクを複数のエージェントに分散させることで,効率的な問題解決が可能となる。
- 既存のスケジューラは,グラフ構造における障害伝播の違いを考慮できていない。
- グラフ構造に応じて障害伝播を予測し,適切なルーティングを行うことで,システムの安定性を高める。
- 提案手法では,空間的・時間的なサイドカーを用いてルーティングのジオメトリを予測し,性能が大幅に向上した。
- 特に,木構造のようなカスケードの影響を受けやすいグラフにおいて,高い効果が確認された。
- 学習されたゲートは,高精度でジオメトリの好みを再現できることが示された。
SARE:サンプルごとの適応的推論による訓練不要な詳細視覚認識 [eess.SY, cs.SY, eess.SP, cs.CV, cs.AI]目的:訓練不要な詳細視覚認識のためのサンプルごとの適応的推論フレームワーク
- 大規模なビジョン言語モデルの発展により,詳細な視覚認識が可能になった分野。
- 下位レベルカテゴリの視覚的曖昧さにより,効果的な活用が難しいという課題がある。
- サンプルごとの認識難易度に応じた推論を行い,誤りからの学習を可能にする。
- SAREは,高速な候補検索と詳細な推論を組み合わせたカスケード設計を採用している。
- 過去の失敗事例を活用し,推論時に識別的な指針を提供する自己反省的経験メカニズムを組み込む。
- 14のデータセットにおける実験により,SAREが最先端の性能を発揮し,計算コストを大幅に削減することが確認された。
実行可能なロボット行動を介したビデオ世界モデルのアライメント:逆ダイナミクス報酬によるEVA [cs.RO, cs.AI]目的:ビデオ世界モデルと実行可能なロボット行動とのアライメント
- ロボット工学において,視覚情報を用いた世界モデルは,現実世界の再現と予測に不可欠である。
- 生成されたビデオ映像が,物理的な実行可能性やロボットの制約を満たさない場合がある。
- ビデオ生成と実行可能な制御との間のギャップを埋め,より安定したロボット制御を実現する。
- 提案手法EVAは,生成されたビデオ映像を逆ダイナミクスモデルを用いて評価し,ロボットの実行可能性を向上させる。
- EVAは,速度,加速度,およびジャークを考慮し,滑らかな動作を促し,制約違反を抑制する報酬を学習する。
- RoboTwinベンチマークおよび実ロボット実験により,生成映像のアーティファクト低減とタスク実行成功率の向上が確認された。
継続学習のための適切な弾性重みコンソリデーション [cs.HC, cs.LG, cs.AI, cs.CV]目的:継続学習における壊滅的忘却の軽減
- 機械学習モデルの継続学習は,人間の学習能力に匹敵する汎用的なAI開発に不可欠である。
- 既存の継続学習手法は,過去の知識を忘却しやすく,性能劣化を引き起こすことがある。
- 弾性重みコンソリデーションの重要度推定の誤りを修正し,性能向上を目指す。
- 弾性重みコンソリデーション(EWC)における重要度推定が,勾配消失や不必要な制約によって不正確になることを指摘した。
- ロジット反転(LR)演算を導入することで,EWCの重要度推定を修正し,勾配消失と冗長な保護を防ぐことに成功した。
- 様々な継続学習タスクにおいて,提案手法(EWC-DR)が既存手法を大幅に上回る性能を示すことが確認された。
ビルマ数字手書き文字認識のためのPETNN,KAN,および古典的深層学習モデルのベンチマーク:myMNIST [cs.CV, cs.AI, cs.CL]目的:ビルマ数字手書き文字認識における様々なモデルの性能評価と再現性のある基盤の確立
- ビルマ語の自然言語処理/AI研究の基礎となるデータセットの活用が重要である。
- 既存のビルマ数字手書き文字データセットには,網羅的な性能評価の基準が不足している。
- 多様なモデルに対する客観的な性能比較を通じて,今後の研究を促進すること。
- CNNが最も高い性能を示し(F1=0.9959,Accuracy=0.9970),堅牢な基盤として機能する。
- PETNN (GELU)モデルはCNNに匹敵する性能を示し,LSTM,GRU,Transformer,KANモデルを上回った。
- 本ベンチマークは,ビルマ数字認識研究の促進と,新興アーキテクチャの評価に貢献する。
Mi:dm K 2.5 Pro [cs.CL, cs.AI]目的:企業向け複雑な課題に対応するための推論に焦点を当てた大規模言語モデル
- LLMの進化に伴い,テキスト生成を超えた,多段階推論能力が重要視されている。
- 既存モデルは,特に韓国語や特定ドメインにおいて,企業環境でのスケーリングが不十分である。
- 本研究は,推論能力に特化した最適化により,企業向け課題解決を目指す。
- Mi:dm K 2.5 Proは,主要なグローバルおよび国内モデルと同等の性能を達成した。
- 韓国語特有のベンチマークにおいて,最高水準の結果を出し,深い言語・文化理解を示した。
- 責任あるAI評価により,攻撃に対する安全性が確認され,安全性と応答性のバランスが取れている。
エージェント制御プロトコル:エージェントアクションの許可制御 [cs.CR, cs.AI]目的:B2B環境における自律エージェントの許可制御に関する技術仕様
- 企業間取引における自動化が進む中で,エージェントの安全な動作を保証する必要性が高まっている。
- 既存のRBACやZero Trustモデルでは,エージェントの具体的な行動を統制し,追跡することが困難である。
- エージェントの行動範囲,条件,制限を統制し,組織境界を越えた完全な追跡可能性を確保すること。
- エージェント制御プロトコル(ACP)は,暗号化による許可チェックを導入し,エージェントの識別,能力,委任,ポリシー遵守を検証する。
- ACPは,Ed25519などの暗号化技術,能力ベースの認可,決定論的なリスク評価,検証可能な委任チェーンなどを定義する。
- バージョン1.17では,38の技術文書,Goによる参照実装,テストベクトル,OpenAPI仕様,TLA+形式モデルなどが提供されている。
原子力発電所におけるオペレーターの状況認識の定量評価と予測のための動的ベイジアンおよび機械学習フレームワーク [cs.DB, cs.LG]目的:オペレーターの状況認識の定量評価と予測
- 原子力発電所の安全性確保において,人的要因は重要な役割を果たす。オペレーターの状況認識はその中でも特に重要である。
- 既存の状況認識評価手法は,静的で遡及的であり,状況認識の動的な変化を捉えられていない。
- 本研究は,状況認識の信頼性をリアルタイムに監視し,早期警告を可能とするフレームワークを構築することを目指す。
- 提案手法であるDBML SAは,確率的推論とデータ駆動型インテリジェンスを融合し,状況認識の定量的なモデル化を可能にした。
- 過去の運用事象報告書を用いて,11のパフォーマンス形成要因とSARTスコア間の非線形な関係性を学習し,平均絶対パーセント誤差13.8%を達成した。
- 訓練の質とストレスダイナミクスが状況認識の低下の主要な要因であることが示された。
MemReward:LLMの報酬予測のためのグラフベースの経験記憶(限られたラベルでの利用) [cs.LG, cs.AI]目的:LLM報酬予測のためのグラフベース経験記憶フレームワーク
- LLMの性能向上には強化学習が不可欠であり,報酬関数の精度が鍵となる。
- 報酬計算には正確なラベルが必要だが,人的コストや時間的制約が大きい。
- ラベル不足時でも,LLMの強化学習を効果的に行うための手法を提案する。
- MemRewardは,限られたラベル(20%)で,Oracle性能の97.3%(3B)および96.6%(1.5B)を達成した。
- 特に,ドメイン外タスクにおいてはOracleを上回る性能を示した。
- ラベルの増加に伴い性能は向上し,70%のラベルでOracle性能の99.4%に達した。
Verilogコード生成におけるエージェント的フロンティアの探求 [cs.AR, cs.LG]目的:Verilogコード生成のためのエージェント的LLMの体系的な評価
- ハードウェア設計は,現代の技術の基盤であり,その効率性は重要である。
- Verilogのようなハードウェア記述言語のコード生成は,依然として困難な課題である。
- エージェント的フレームワークがVerilogコード生成に与える影響を明らかにする。
- 単純なエージェント的ラッピングはパフォーマンスを低下させる可能性がある。
- 構造化されたハーネスは,非エージェント的ベースラインと同等かそれ以上のパフォーマンスを達成する。
- オープンソースモデルとクローズドソースモデルの性能差は,クラッシュ率とツール出力解釈の弱さに起因する。
行列メカニズムに対する乗算的更新のグローバル収束:Gemini 3との共同証明 [cs.LG, cs.AI, math.OC]目的:正規化された核ノルム目的関数の最適化における固定点反復の収束性
- プライベート機械学習におけるアルゴリズム最適化において,行列構造の利用は重要である。
- 既存研究では,特定条件下での収束が未解決のまま残されていた。
- 本研究は,その未解決問題の解決を目指す。
- 固定点反復 $v \leftarrow \phi(v)$ が,ポテンシャル関数 $J(v)$ の一意なグローバル最適解へ単調収束することが証明された。
- この証明の大部分はGemini 3によって提供され,修正と介入が行われた。
- 本研究は,数学証明におけるAIの活用に関する考察も含む。
LoD-Loc v3:インスタンスシルエットアラインメントを用いた高密度都市における汎化空中位置推定 [cs.CV, cs.AI, cs.RO]目的:高密度都市環境における汎化空中視覚的位置推定手法
- 都市の構造変化に対応した位置推定は,自動運転や都市インフラの維持管理において重要である。
- 既存手法は,シーン間の汎化性能が低い,あるいは高密度な建物群の中で位置推定が困難であるという課題があった。
- インスタンスシルエットアラインメントにより,シーン間の汎化性能向上と高密度環境における位置推定精度の向上を目指す。
- 本研究で開発したLoD-Loc v3は,既存の最先端手法と比較して,シーン間および高密度都市環境における位置推定性能で大幅な改善を示した。
- 大規模なインスタンスセグメンテーションデータセットInsLoD-Locを構築することで,ゼロショット汎化性能を向上させた。
- セマンティックなシルエットアラインメントからインスタンスシルエットアラインメントにパラダイムシフトすることで,高密度シーンにおける位置推定の曖昧さを低減した。
