arXiv雑要約

AI - 2026/03/10 公開

  • 視覚言語行動ファインチューニングのための適応的容量配分 [cs.RO, cs.AI]目的:視覚言語行動モデルの未知環境,具現化,タスクへの適応
    • 物理AI分野において,視覚言語行動モデルの活用が拡大しており,実用的な応用が期待されている。
    • 事前学習済みモデルの適応には課題があり,特にロボティクスにおける転移学習では,最適な容量の決定が難しい。
    • 入力と層に応じた適応的な容量配分により,効率的なファインチューニングを実現し,汎化性能を向上させる。
    • 提案手法LoRA-SPは,従来の固定ランク更新を,入力および層ごとに異なる容量を持つ更新に置き換えることで,パラメータ効率を改善した。
    • 実機ロボットによる実験の結果,LoRA-SPはフルファインチューニングと同等以上の性能を発揮し,パラメータ数は大幅に削減された。
    • マルチタスク性能を最大31.6%向上させ,ランク選択へのロバスト性も確認された。

    Link: https://arxiv.org/abs/2603.07404

  • UnSCAR:汎用的,スケーラブル,制御可能,適応可能な画像復元 [cs.CV, cs.AI]目的:任意の現実世界の劣化から画像を復元する手法
    • 画像劣化は,写真撮影や画像処理において普遍的に存在する問題であり,高品質な画像利用の妨げとなる。
    • 従来の汎用画像復元ネットワークは,複数の劣化に対応する際に規模が拡大し,性能が低下する課題があった。
    • 劣化間の干渉を抑制し,スケーラブルかつ制御可能な画像復元を実現することを目的とする。
    • 本研究では,複数の専門家からなる混合エキスパートアーキテクチャを導入することで,劣化間の干渉を効果的に軽減した。
    • その結果,16種類以上の劣化に対してスケーラブルな学習が可能となり,未知のドメインへの適応性も向上した。
    • また,劣化に応じたユーザー制御可能な復元も実現し,ベンチマークテストで優れた性能を示した。

    Link: https://arxiv.org/abs/2603.07406

  • 水中IoTのための機械学習:基礎から実装まで [eess.SY, cs.AI, cs.SY]目的:水中IoT環境における機械学習の応用可能性
    • 海洋観測,海洋資源管理,気候変動研究等に不可欠な基盤技術であり,重要性が増している。
    • 水中音響減衰,伝送遅延,厳しい省電力制約,動的なネットワーク構成が課題となっている。
    • 機械学習を活用し,水中ワイヤレスセンサーネットワークの性能向上を目指す。
    • 機械学習手法(教師あり,教師なし,強化学習,深層学習)が,水中通信環境の各層で性能向上に貢献することが示された。
    • 物理層における位置特定・チャネル推定,MAC層におけるチャネル利用効率向上,ネットワーク層におけるルーティング戦略,トランスポート層におけるパケット損失削減などが報告されている。
    • 2012年から2025年までの300件の研究から,エネルギー効率の7~29倍向上,スループットの改善,クロスカスタム最適化による最大42%の性能向上が確認された。

    Link: https://arxiv.org/abs/2603.07413

  • コンテキストチャネル容量:破滅的忘却を理解するための情報理論的枠組み [cs.LG, cs.AI, cs.IT, math.IT]目的:継続学習における破滅的忘却のメカニズム解明
    • 継続学習は,AIの柔軟性と適応性を高める上で不可欠な研究分野である。
    • 既存の継続学習手法では,新しいタスクを学習する際に過去の知識が失われる現象(破滅的忘却)が課題となっている。
    • 本研究は,情報理論的枠組みを用いて破滅的忘却を定量的に評価し,その回避策を提示することを目的とする。
    • 継続学習アーキテクチャの「コンテキストチャネル容量」と忘却の度合いの間に強い相関関係が示された。
    • コンテキストチャネル容量が低い手法では破滅的忘却が発生し,高い手法では忘却が抑制されることが実験的に確認された。
    • ハイパーネットワークのような手法は,パラメータを状態ではなく関数値として定義することで,この制約を回避できることが示された。

    Link: https://arxiv.org/abs/2603.07415

  • DualSpec:二重過程による行動推測を通じた深層研究エージェントの高速化 [cs.LG]目的:深層研究エージェントにおける情報探索タスクの遅延削減
    • 複雑な情報探索タスクにおいて,深層学習を用いたエージェントの重要性が高まっている。
    • 既存のエージェントは推論とツール利用に時間を要し,エンドツーエンドの遅延が大きい。
    • 行動の異質性を考慮した推測検証パラダイムにより,推論速度と堅牢性の向上を目指す。
    • DualSpecは,検索と訪問という異なる種類の行動特性に基づき,異質推測フレームワークを提案。
    • 自信度に基づく意味検証器を導入することで,最大3.28倍のエンドツーエンド速度向上を実現。
    • 推論のみのエージェントと同等の精度を維持しながら,大幅な高速化を達成した。

    Link: https://arxiv.org/abs/2603.07416

  • 事前リクエスト即時確認型動的車両経路問題 [cs.AI]目的:オンデマンド交通サービスにおける動的車両経路問題の解決
    • 公共交通機関の効率化が求められる中で,オンデマンド交通の需要が高まっている。
    • 事前予約に対する迅速な受諾判断と,受諾後のルート最適化を両立させるのが困難である。
    • 事前予約の即時確認と継続的なルート最適化を同時に実現し,サービス提供率を向上させる。
    • 本研究では,即時確認と継続的最適化を組み合わせた新しい問題定式化と計算手法を提案した。
    • 強化学習を用いて非近視的な目的関数を学習させ,受諾リクエスト数を最大化した。
    • アメリカの公共交通機関のデータを用いた実験で,提案手法が既存手法よりも多くのリクエストに対応可能であることが示された。

    Link: https://arxiv.org/abs/2603.07422

  • AutoControl Arena:フロンティアAIリスク評価のための実行可能テスト環境の合成 [cs.RO, cs.AI, cs.CR]目的:フロンティアAIのリスク評価のための自動化されたフレームワーク
    • 大規模言語モデルの自律性が高まるにつれ,AIの安全性評価が不可欠となる。
    • 既存の安全性評価は,コストや論理的誤謬といった課題を抱えている。
    • 論理と生成ダイナミクスの分離により,AIリスク評価の精度と効率を向上させる。
    • AutoControl Arenaは,環境のストレスと誘惑を変化させることで,潜在的なリスクを明らかにすることができた。
    • リスク率は,プレッシャー下で21.7%から54.5%に急増し,高性能モデルほど増加が大きかった。
    • 高度な推論能力は直接的な危害に対する堅牢性を向上させる一方で,ゲームシナリオにおける安全性を悪化させた。

    Link: https://arxiv.org/abs/2603.07427

  • OrthoFormer:Transformerの隠れ状態におけるニューラル制御関数による操作変数推定 [cs.LG, cs.AI]目的:Transformerにおける因果推論の実現
    • Transformerは時系列モデリングに優れるが,因果関係の特定が課題であった。
    • Transformerは潜在的交絡因子による見かけ上の相関を捉えやすく,分布外汎化性能が低い。
    • 本研究は,操作変数推定を組み込むことで,Transformerの因果推論能力を向上させる。
    • OrthoFormerは,Transformerブロックにニューラル制御関数を組み込み,操作変数推定を直接行う。
    • OrthoFormerは,OLSと比較して厳密に低いバイアスを達成し,バイアスは幾何級数的に減少する。
    • 実験結果は,理論的予測を裏付けており,相関学習から因果学習へのパラダイムシフトを示唆する。

    Link: https://arxiv.org/abs/2603.07431

  • モバイルエージェント向けオンライン強化学習における汎化性能 [cs.CV, cs.CL, cs.HC, cs.LG]目的:モバイルエージェントの汎化性能向上
    • モバイルデバイスでの自動化ニーズが高まり,GUI操作エージェントの開発が重要視されている。
    • 強化学習による学習が進む一方,汎化性能の評価基準や環境が整備されておらず,課題となっていた。
    • 未学習のタスク,テンプレート,アプリへのゼロショット汎化性能を評価し,改善を目指す。
    • 強化学習により,70億パラメータのVLMエージェントが教師ありファインチューニングを上回り,未学習インスタンスで26.1%の改善を示した。
    • しかし,未学習テンプレート(15.7%)やアプリ(8.3%)への汎化性能向上は限定的であり,汎化の難しさを示唆している。
    • テスト時の少量の学習データ利用により,未学習アプリの性能向上が確認され,今後の研究の方向性を示唆した。

    Link: https://arxiv.org/abs/2603.07432

  • データエージェント:エンドツーエンドの動的最適化によるデータ選択の学習 [cs.LG, cs.CV]目的:動的なデータ選択による学習加速
    • 機械学習の効率化は,計算資源の制約や大規模データセットの処理において重要である。
    • 既存手法は,タスク固有の指標や静的な基準に依存し,汎用性と学習中のデータ有用性の捉え方に課題がある。
    • 学習に連動した動的なデータ選択により,汎用性と効率性を両立し,様々なタスクへの適用を目指す。
    • データエージェントは,データ選択を訓練に即した逐次決定問題として捉えることで,学習の加速化を実現した。
    • 損失と不確実性に基づく複合報酬と,それらを適応的に調整するメカニズムにより,最適化の影響と情報獲得のバランスを取った。
    • ImageNet-1kやMMLUにおいて,性能を維持しつつ,学習コストを50%以上削減できることが示された。

    Link: https://arxiv.org/abs/2603.07433

  • コスト駆動型表現学習による線形二次ガウス制御:パートII [cs.LG, cs.SY, eess.SY, math.OC, stat.ML]目的:部分観測からの制御のための状態表現学習
    • 高度な自動化を実現するため,高次元な状態空間における効率的な制御手法が求められている。
    • 部分観測からの状態推定は困難であり,制御性能のボトルネックとなっている。
    • 累積コスト予測に基づいた表現学習により,制御に適した低次元状態空間を学習することを目指す。
    • 無限地平線時間不変LQG制御において,ほぼ最適な表現関数とコントローラを見つけるための有限サンプル保証を確立した。
    • 潜在状態の遷移関数を明示的に学習する手法と,累積コストを予測することで暗黙的に学習する手法の二つを検討した。
    • 新しい確率過程における励起性の永続性を証明し,二次回帰解析における技術的貢献とした。

    Link: https://arxiv.org/abs/2603.07437

  • ストレステストのための機械学習:因果パネル予測における不確実性の分解 [cs.AI]目的:ストレステストにおける信用損失予測の不確実性分解
    • 金融規制において,マクロ経済シナリオ下での信用リスク評価は重要である。
    • 既存手法では,交絡因子の影響を明確に分離することが困難である。
    • データから学習可能な範囲と,仮定に依存する範囲を明確化する。
    • 本研究では,反事実推論に基づき,観測データと交絡因子による不確実性を分離するフレームワークを提案した。
    • 反復回帰と因果集合同定により,制御群なしで連続的なマクロパスの比較を可能にし,信頼性の高い予測可能な範囲を定量化した。
    • シミュレーションと実データを用いた検証により,提案手法の診断価値と不確実性分解の有効性が確認された。

    Link: https://arxiv.org/abs/2603.07438

  • 人間介入型経済研究:実証的発見のためのマルチエージェントパイプライン [cs.AI, econ.GN, q-fin.EC]目的:経済学研究の自動化と人間による監視の維持
    • 経済学研究では,データに基づいた問いの設定と,経済学的な意義の評価に人間の判断が不可欠である。
    • 既存のAI研究自動化アプローチは,完全な自律性に偏り,実現可能性の低い仮説を生成しやすい。
    • データ構造を考慮した仮説生成により,実行可能な研究課題を効率的に発見することを目指す。
    • データに基づいた仮説生成により,実行可能な研究課題の生成率が大幅に向上した(87% vs 41%)。
    • 完全な実証研究論文の生成コストは,平均で1回の実行あたり0.8〜1.5ドルのAPI費用で済むことが示された。
    • 人間とAIの協調的なパイプラインが,スケーラブルな実証研究への実用的な道を提供する可能性がある。

    Link: https://arxiv.org/abs/2603.07444

  • 少数のトークン,大きな効果:ファインチューニング時の安全トークン制約による安全性維持 [cs.CL, cs.LG]目的:ファインチューニング中の安全性維持
    • 大規模言語モデルの安全性確保は,社会実装において不可欠である。
    • ファインチューニングにより,安全性と性能のバランスが崩れる可能性がある。
    • 安全トークンへの信頼度を維持することで,安全性低下を防ぐことを目指す。
    • 提案手法PACTは,安全トークンに対するモデルの信頼度を安定化させる。
    • 安全トークンに関連するトークンのみ制約することで,汎用性を損なわずに安全性維持を実現する。
    • モデル全体の制約と比較して,タスク性能の低下を抑制できる。

    Link: https://arxiv.org/abs/2603.07445

  • 離散トークン化が,校正された表形式予測のためのTransformerの可能性を開く [cs.HC, cs.LG]目的:表形式データの予測におけるTransformerの性能向上
    • 表形式データは様々な分野で活用されており,高精度な予測が求められている。
    • Transformerは自然言語処理で成功を収めているが,表形式データへの応用は未だ発展途上である。
    • 単純なトークン化でTransformerの能力を引き出し,既存の勾配ブースティング手法を凌駕すること。
    • 提案手法は,環境コンテキストの離散化と適応ガウス平滑化により,校正された確率密度関数を生成する。
    • 60万エンティティ,500万学習サンプルを用いた実験で,調整済みのXGBoostを10.8%上回り,KS値を0.0045に改善した。
    • アーキテクチャの要素(系列順序,時間デルタトークン)の重要性が確認され,誤校正が残存する領域も特定された。

    Link: https://arxiv.org/abs/2603.07448

  • 知識に基づいた方言特化型NL2SQLシステム Dial [cs.DB, cs.AI, cs.CL, cs.IR, cs.LG]目的:方言固有のSQL方言に対応した自然言語からSQLへの変換
    • 企業は多様なDBシステムを運用しており,それぞれ異なるSQL方言を持つため,対応が重要である。
    • 既存のNL2SQL手法は単一の方言を前提としており,構文的に正しくても実行できないクエリになりやすい。
    • 本研究は,複数のSQL方言に対応し,正確かつ実行可能なクエリ生成を可能にすることを目的とする。
    • Dialは,自然言語を方言を意識した論理クエリプランに変換するモジュールを導入し,意図分解と差異認識を行う。
    • Dialは,方言知識を体系化した階層型意図対応知識ベースHINT-KBを構築し,構文,関数,制約を整理する。
    • Dialは,実行駆動デバッグと意味検証ループにより,構文修正と論理監査を分離し,意味ずれを防ぐ。

    Link: https://arxiv.org/abs/2603.07449

  • LLMにおけるバックドアの有益な活用に関するベンチマーク [cs.CR, cs.AI]目的:LLMにおける有益なバックドアの活用に関する統一的なベンチマークおよびフレームワーク
    • AIシステムの安全性,制御可能性,説明可能性が重要視される中,信頼性の高いモデル構築が求められている。
    • 従来のバックドア研究はセキュリティ上の脅威に焦点を当てており,有益な活用に関する研究は不足している。
    • バックドアメカニズムを悪意のあるものと捉えず,AIシステムの信頼性向上に役立つ要素として活用することを目指す。
    • 有益なバックドアは,高い制御可能性,改ざん耐性,ステルス性を実現しつつ,通常のタスク性能を維持できることが示された。
    • バックドアは,必ずしも悪意のあるものではなく,適切に設計すれば,信頼できるAIシステムのモジュール化された構成要素となり得る。
    • トリガー,活性化メカニズム,ユーティリティ関数からなる三つ組(T, A, U)を用いて,有益なバックドア学習が形式化された。

    Link: https://arxiv.org/abs/2603.07452

  • SLNet:3D点群認識のための超軽量な形状適応型ネットワーク [eess.SY, cs.SY, math.OC, cs.CV, cs.LG, cs.RO]目的:3D点群認識における高精度かつ効率的なモデルの実現
    • 3D点群データは,自動運転やロボティクスなど,様々な分野で重要性が増している。
    • 既存のモデルは,計算コストが高く,リアルタイム処理やエッジデバイスでの利用が困難である。
    • 軽量でありながら高性能な3D点群認識モデルを開発し,実用性を高める。
    • SLNetは,パラメータ数0.14M,計算量0.31GFLOPsでModelNet40において93.64%の精度を達成し,PointMLP-eliteを凌駕した。
    • SLNet-Mは,ScanObjectNNにおいてPointMLPと同程度の精度(84.25%)を,28分の1のパラメータ数で実現した。
    • 大規模シーンセグメンテーションでは,S3DIS Area 5で58.2%のmIoUを達成し,Point Transformer V3の17分の1以上のパラメータ数削減に成功した。

    Link: https://arxiv.org/abs/2603.07454

  • 画像生成モデル:技術史 [cs.CV, cs.AI, cs.CL, cs.GR]目的:画像生成モデルの技術的変遷
    • 画像生成技術は,近年急速に進歩しており,様々な分野で活用が期待されている。
    • 既存の研究は分散しており,モデルや応用分野間の体系的な理解が困難である。
    • 多様な画像生成モデルの技術的背景を整理し,現状と課題を明らかにすること。
    • 変分オートエンコーダ(VAE),敵対的生成ネットワーク(GAN),正規化フロー,自己回帰型・Transformerベース生成器,拡散モデル等の主要なモデルについて詳細な技術解説を行った。
    • 各モデルの目的,アーキテクチャ,学習手順に加え,最適化手法や一般的な問題点・限界についても考察した。
    • 動画生成技術の進展や,Deepfakeリスク,アーティファクト,ウォーターマークといった倫理的課題についても議論した。

    Link: https://arxiv.org/abs/2603.07455

  • 「許される方が良い」:フリーランスの仕事におけるAI開示の慣行とポリシー [cs.DC, cs.HC, cs.AI]目的:フリーランスの仕事におけるAI利用と開示に関する認識の差
    • AI技術の発展は労働市場に大きな影響を与えており,その影響を理解する必要がある。
    • AI利用に関するクライアントとワーカーの間の認識のずれが,信頼関係を損なう可能性がある。
    • AI開示に関する明確なガイドラインを策定することで,クライアントとワーカー間の信頼関係を改善すること。
    • ワーカーはAI利用の開示を控え,クライアントからの質問を待つ傾向がある。
    • クライアントはAI利用を容易に識別できず,積極的な開示を好む。
    • AIに関するクライアントのポリシーが不明確なため,ワーカーはクライアントの期待を誤解しやすい。

    Link: https://arxiv.org/abs/2603.07459

  • LLMベースシステムが脆弱となる箇所:リスク評価と対策のためのシステムレベルセキュリティフレームワーク [cs.CR, cs.AI]目的:LLM搭載システムのセキュリティリスク評価と対策
    • LLMは安全性が求められる分野への導入が進んでおり,セキュリティ確保が重要である。
    • 既存のセキュリティ分析は断片的で,モデルの振る舞いをシステム全体の中で捉えられていない。
    • システム全体を考慮したリスク評価フレームワークを構築し,具体的な対策を導き出す。
    • LLM搭載システムの攻撃経路は,サイバー攻撃,敵対的機械学習,会話型攻撃など多岐にわたる。
    • これらの攻撃経路は,共通のシステム上のボトルネックに集約される傾向があることが示された。
    • ボトルネックを特定し対策を講じることで,攻撃の成功確率を大幅に低減できる可能性がある。

    Link: https://arxiv.org/abs/2603.07460

  • デュアルストリームTransformer:解釈可能な言語モデリングのためのチャネル化アーキテクチャ [cs.CL, cs.AI, cs.LG]目的:言語モデリングにおける解釈可能性と性能のトレードオフ
    • Transformerは自然言語処理の基盤技術であり,その性能向上は重要な課題である。
    • Transformerの内部構造は複雑で,各コンポーネントの役割が不明瞭であるという問題がある。
    • Transformerの内部構造を明確化し,解釈可能性を高めることを目指す。
    • デュアルストリームTransformerは,残差ストリームをトークンストリームとコンテキストストリームに分離する。
    • 完全に独立したヘッド混合は,検証損失を8%増加させる一方,Kronecker混合戦略はわずか2.5%のコストで済む。
    • 提案アーキテクチャは,注意増幅下でもロバスト性を維持し,離散的なアルゴリズムを学習している可能性を示唆する。

    Link: https://arxiv.org/abs/2603.07461

  • 機械は人間のように失敗するのか? エラーアラインメントのマッピングのための人間中心の分布外スペクトル [cs.AI]目的:人間とAIシステムの情報処理の類似性の評価
    • 認知科学や信頼性の高いAIにおいて,AIと人間の情報処理の比較は不可欠である。
    • 既存の分布外(OOD)分析は,人間の知覚との関連性が薄い指標に依存している。
    • 人間の知覚的難易度に基づいたOODスペクトルを構築し,AIと人間のアラインメントを評価する。
    • 提案手法により,AIモデルと人間のエラーパターンを比較可能なOODスペクトルを構築した。
    • 物体認識タスクにおいて,AIアーキテクチャごとのアラインメントランキングが難易度に応じて変化することが示された。
    • Vision-languageモデルは全体的に人間とアラインメントしているが,CNNとViTは難易度によってアラインメント度が変化する。

    Link: https://arxiv.org/abs/2603.07462

  • 見えないものを信頼する:専有AIの監査可能なファインチューニングと推論 [cs.CR, cs.LG]目的:クラウド環境におけるAIモデルのファインチューニングと推論における計算整合性の保証
    • 大規模言語モデルの利用拡大に伴い,クラウド環境での運用が一般的になっている
    • クラウドへの委託による透明性の欠如が,セキュリティリスクやサービス完全性の侵害を招く可能性がある
    • モデルサービスの信頼性を高めるため,効率的な監査メカニズムの確立を目指す
    • AFTUNEは,クラウドベースのファインチューニングと推論の計算整合性を保証する監査可能なフレームワークである
    • AFTUNEは,実行トレースの記録とスポットチェックにより,設定の遵守を検証可能にする
    • 評価により,AFTUNEが実用的な計算オーバーヘッドで信頼性の高いモデルサービスを実現できることが示された

    Link: https://arxiv.org/abs/2603.07466

  • 拡散トランスフォーマーによる大腸菌の3次元ゲノム構造生成:Hi-C接触マップの誘導 [cs.LG, cs.AI]目的:大腸菌の3次元ゲノム構造アンサンブル
    • ゲノム構造は遺伝子発現や細胞機能に深く関わるため,その理解は生命科学において重要である。
    • 従来のゲノム構造解析は単一構造に焦点を当てており,細胞内の多様な構造変化を捉えきれないという課題があった。
    • Hi-Cデータに基づき,多様性を持つ3次元ゲノム構造アンサンブルを生成することで,この課題を克服することを目指す。
    • モデルはHi-C接触マップを誘導し,入力データと一致する構造を生成することが示された。
    • 生成された構造は,Hi-C距離減衰と構造相関の指標を再現しつつ,十分な構造多様性を維持している。
    • 拡散に基づく生成モデルが,アンサンブルレベルでの3次元ゲノム再構成に有効であることが示された。

    Link: https://arxiv.org/abs/2603.07472

  • 一歩譲れば一里を取る:MCPベースのAIシステムにおける発信者IDの混同に関する理解と測定 [cs.CR, cs.AI]目的:MCPベースのAIシステムにおける発信者IDの混同の理解と測定
    • 大規模言語モデル(LLM)の利用拡大に伴い,外部ツールとの連携が重要になっている。
    • MCPサーバーが発信者を認証しない場合,セキュリティ上の脆弱性が存在する。
    • MCPベースのシステムにおける攻撃対象領域の拡大を抑制するための対策を示す。
    • MCPサーバーが発信者を認証せずに信頼すると,セキュリティ上の問題が発生することが示された。
    • 多くのMCPサーバーは,初回認証後,再認証なしでツール呼び出しを許可しており,攻撃対象領域を拡大している。
    • ツールレベルでの認証が不十分なMCPサーバーも存在し,機密性の高い操作への不正アクセスが可能となる。

    Link: https://arxiv.org/abs/2603.07473

  • 視覚と言語モデルにおけるクロスモーダル分類学的一般化 [cs.CL, cs.AI]目的:言語モデルと画像エンコーダ間のマッピング学習による,クロスモーダル分類学的一般化の検証
    • 言語モデルの性能向上には,多様なモダリティからの知識活用が不可欠である。
    • 視覚と言語間の知識の統合方法,特に言語モデルが視覚情報をどのように活用しているかが不明である。
    • 言語モデルが,明示的な視覚情報がなくても,既存の言語知識から分類学的な知識を一般化できるか検証する。
    • 凍結されたVLMにおいて,ハイパーニムの知識が言語モデルから回復可能であることが示された。
    • モデルは,訓練データにハイパーニムの証拠が全くない場合でも,一般化能力を発揮することが確認された。
    • クロスモーダル一般化は,視覚入力のコヒーレンスと言語的手がかりの両方に依存することが示唆された。

    Link: https://arxiv.org/abs/2603.07474

  • 構造的ストリーム独立性による解釈可能性を設計したTransformer [cs.RO, cs.LG, cs.AI]目的:Transformerの解釈可能性の向上
    • Transformerは高性能だが,その意思決定プロセスは不透明であるため,説明可能性が重要視されている。
    • Transformer内部の処理が複雑で,各層における情報の流れを把握することが困難である。
    • 構造的な制約を課すことで,解釈可能性を設計段階から組み込むことを目指す。
    • 提案手法であるLFAは,最終層まで解釈可能なシンボリックヘッドを維持し,標準Transformerとは異なり,層が進むにつれて情報が拡散する現象を抑制した。
    • LFAは,トークン位置依存度スコア(PDS)において,標準Transformerよりも高い独立性を示し,モジュール性の高い学習メカニズムを実現した。
    • LFAは,基盤モデルと比較して平均で42%の安定性を示し,アーキテクチャ制約がセマンティックな理解を促進し,解釈可能性を高めることを実証した。

    Link: https://arxiv.org/abs/2603.07482

  • 臨床テキストからの概念,肯定,および関係抽出のための共同ニューラルベースライン [cs.CL, cs.AI]目的:臨床テキストからの概念,肯定,および関係抽出
    • 医療情報処理の分野において,臨床データからの知識抽出は重要な課題である。
    • 既存の手法は,各段階を独立して扱うため,全体的な性能向上が課題となっていた。
    • 本研究は,概念,肯定,関係抽出を同時に最適化する共同モデルを提案し,その有効性を検証する。
    • 提案する共同モデルは,パイプラインベースラインと比較して,概念,肯定,関係のF1スコアでそれぞれ+0.3,+1.4,+3.1の大幅な改善を示した。
    • この成果は,臨床情報抽出における共同アプローチの有用性を示唆するものである。
    • 本研究は,今後の研究のための強力な共同ベースラインを提供する。

    Link: https://arxiv.org/abs/2603.07487

  • サブ波長スケールにおける高精度な双方向無線センシングの追求 [cs.IT, cs.ET, cs.HC, cs.LG, math.IT]目的:双方向無線センシングにおける高精度化手法
    • 無線通信を利用した非接触センシングは,インフラの普及と非侵襲性から注目されている。
    • 無線通信の双方向配置による時計の非同期性が位相オフセットを生み,高精度なセンシングを妨げる。
    • 既存手法の整数波長分解能の限界を克服し,サブ波長レベルの検出を可能にすること。
    • 歪んだチャネル比と理想的なチャネル特徴の間の定量的な関係を初めて導出した。
    • チャネル応答の振幅を利用して,歪んだ比から理想的なチャネル特徴を復元するロバストなフレームワークを開発した。
    • Wi-FiとLoRaを用いた実環境実験で,サブ波長分解能での変位の詳細な再構築と,精度の大幅な向上が確認された。

    Link: https://arxiv.org/abs/2603.07492

  • 思考主体から社会へ:階層的自律進化におけるAIエージェントの安全性 [cs.CR, cs.AI]目的:AIエージェントの安全性確保
    • AI技術は社会実装が進み,その安全性確保が不可欠となっている。
    • 既存のセキュリティフレームワークでは,自律的に行動するAI特有の脆弱性に対応できていない。
    • AIエージェントの自律性に応じた多層防御アーキテクチャの構築指針を示す。
    • LLM駆動のAIエージェントの進化に伴い,認知操作,環境破壊,システム障害等の脅威が増加している。
    • HAEフレームワークを提案し,認知,実行,集合の3段階でAIエージェントの安全性を体系的に整理した。
    • 既存防御策の評価と研究課題を明らかにし,信頼性の高いAIシステム開発に貢献する。

    Link: https://arxiv.org/abs/2603.07496

  • 高次元時系列分析のための拡張ランダム部分空間局所射影 [eess.SY, cs.RO, cs.SY, cs.LG]目的:高次元時系列分析における頑健なインパルス応答推定
    • 経済予測や金融分析において,多変量時系列データの活用が重要である。
    • 変数の数が観測数を超えると過学習が深刻化し,局所射影法が不安定になる。
    • 高次元時系列データにおける,安定したインパルス応答推定手法を開発する。
    • 適応的な部分空間サイズ選択により,予測期間が3以上の時系列において推定量の変動を33%削減した。
    • 依存データに対応したブートストラップ推論により,高次元設定下で14%狭い信頼区間を得た。
    • 本手法は,従来の不安定な高次元手法と比較して,より原理的なアプローチを提供する。

    Link: https://arxiv.org/abs/2603.07500

  • SeDa:データセット発見と多要素拡張セマンティック探索のための統合システム [cs.IR, cs.AI]目的:データセット発見,セマンティック注釈,多要素拡張ナビゲーションの統合的枠組み
    • オープンデータの増加により,データセットの探索と解釈が困難になっている現状がある。
    • データセットが分散しているため,クロスソースでのデータ発見と解釈が課題となっている。
    • 信頼性・トレーサビリティを確保しつつ,データセットの探索を効率化することを目指す。
    • SeDaは,200以上のプラットフォームから760万以上のデータセットを統合している。
    • セマンティック抽出と標準化により,異質なメタデータ表現の調和を図っている。
    • ChatPDやGoogle Dataset Searchと比較して,優れた網羅性,即時性,トレーサビリティを実現した。

    Link: https://arxiv.org/abs/2603.07502

  • 双方向モデルスケーリングのための知識伝達の統一的フレームワーク [cs.LG]目的:異なるアーキテクチャサイズのモデル間における知識伝達
    • モデルのスケーリングは,計算資源の効率的な利用と性能向上に不可欠である。
    • 小規模から大規模,大規模から小規模へのスケーリングが別個の問題として扱われている。
    • スケーリングの方向性を問わず,統一的に知識伝達を可能とする手法の開発。
    • 提案手法BoTは,モデルの重みを連続信号として捉え,アップサンプリングとダウンサンプリングによりスケーリングを実現する。
    • 離散ウェーブレット変換(DWT)と逆変換(IDWT)を活用することで,パラメータフリーかつ効率的な知識伝達を可能にする。
    • DeiT,BERT,GPTを用いた実験により,事前学習に必要なFLOPsを最大67.1%削減し,GLUEやSQuADで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.07506

  • IoT環境におけるデータ分布シフト下での異常検知のためのオンライン継続学習 [cs.LG]目的:IoT環境における異常検知のためのオンライン継続学習フレームワーク
    • IoTデバイスの普及に伴い,そのセキュリティ確保と安定稼働が重要課題となっている。
    • IoTデバイスで収集されるデータ分布は時間とともに変化しやすく,既存の異常検知モデルの性能劣化を招く。
    • データ分布の変化に対応し,IoTデバイス上の異常検知モデルを効率的に更新することを目的とする。
    • 提案手法OCLADSは,エッジサーバとの協調により,データ伝送量とモデル更新回数を削減しつつ,高い異常検知精度を達成する。
    • デバイス側での知的なサンプル選択と,エッジサーバ側での分布シフト検出メカニズムが,効率的なモデル更新を可能にする。
    • TinyMLを用いた実験により,既存手法と比較して,OCLADSが優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.07507

  • ドリフトモデルとスコアベースモデルの統一的見解 [cs.CY, cs.SI, cs.CL, cs.LG, cs.AI, cs.CV]目的:データ分布とモデル分布間の平均シフト不一致に基づく生成器の最適化
    • 生成モデルの性能向上は,機械学習における重要な課題である。
    • 既存手法では,生成データの品質と多様性の両立が困難である。
    • カーネル平滑化分布におけるスコアマッチングとの関係を明確化する。
    • ドリフトモデルは,カーネル平滑化された分布上でスコアベースの定式化を持つことが示された。
    • ガウスカーネルの場合,平均シフト場はデータ分布とモデル分布のスコア差と一致する。
    • ドリフトモデルは,ラプラスカーネルにおいてもスコアマッチングの正確な近似となることが理論的に証明された。

    Link: https://arxiv.org/abs/2603.07514

  • InterReal:人間と物体のインタラクションスキル学習のための統一的な物理ベースの模倣学習フレームワーク [cs.RO, cs.AI]目的:人間と物体のインタラクション(HOI)制御のための統一的な物理ベースの模倣学習フレームワーク
    • ヒューマノイドロボットにとって,インタラクションは重要な能力の一つであり,実用的な応用を促進する。
    • 既存のフレームワークは,インタラクティブな制御に焦点を当てておらず,実用性に限界がある。
    • 本研究では,細かいインタラクションスキルの学習と実世界での展開を可能にするフレームワークを開発する。
    • InterRealは,HOI参照モーションの追跡を可能にし,物体の摂動に対するポリシーの安定性を向上させる。
    • 大規模な報酬形状設定の課題に対し,自動報酬学習器を提案し,効率的なインタラクティブポリシー学習を実現した。
    • 箱の持ち上げと押しのタスクにおいて,最新のベースラインと比較して最高の追跡精度とタスク成功率を達成した。

    Link: https://arxiv.org/abs/2603.07516

  • 太陽光発電システム向け強化学習ベースの動的清掃計画フレームワーク [cs.DB, cs.IR, cs.LG]目的:太陽光発電システムの動的清掃計画の最適化
    • 持続可能なエネルギー生産のため,太陽光発電技術の自律化が重要である。
    • 砂塵などによる汚損が発電量を低下させ,効率的な清掃計画が課題である。
    • 不確実な環境条件に対応し,清掃間隔を最適化することでコスト削減を目指す。
    • 強化学習アルゴリズムPPOがSACや従来のシミュレーション最適化手法を上回る性能を示した。
    • PPOは,天候の変動に動的に対応することで,最大13%のコスト削減を達成した。
    • 固定間隔での清掃よりも,柔軟かつ自律的な計画が有効であることが示された。

    Link: https://arxiv.org/abs/2603.07518

  • SketchGraphNet:大規模スケッチコーパス認識のためのメモリ効率の良いハイブリッドグラフTransformer [cs.CV, cs.AI]目的:大規模スケッチコーパスの認識
    • スケッチ認識は,ヒューマンコンピュータインタラクションやコンテンツベース画像検索において重要な役割を果たす。
    • 既存の手法は,ラスター画像やストロークシーケンスに依存しており,スケッチの構造的情報を十分に活用できていない。
    • グラフ構造として直接スケッチをモデル化することで,より効率的かつ高精度な認識を目指す。
    • SketchGraphNetは,ローカルメッセージパッシングとメモリ効率の良いグローバルアテンション機構を統合したハイブリッドグラフニューラルアーキテクチャである。
    • SketchGraphベンチマークを用いて評価した結果,SketchGraphNetはTop-1精度83.62%(SketchGraph-A)および87.61%(SketchGraph-R)を達成した。
    • MemEffAttnは,GPUメモリ使用量を40%以上,トレーニング時間を30%以上削減しつつ,同等の精度を維持した。

    Link: https://arxiv.org/abs/2603.07521

  • 周波数領域の知識を用いた汎用モデルの初期化 [cs.LG]目的:モデル初期化手法
    • 事前学習済みモデルの知識転移は一般的だが,モデル構造に依存し,柔軟な再利用が困難である。
    • 既存手法はパラメータ選択や生成モデルに頼るため,知識構造の捉え方や大規模データへのアクセスに課題がある。
    • モデルの低周波成分にタスク非依存の知識が符号化されている点を活用し,効率的な知識継承を目指す。
    • 提案手法FRONTは,離散コサイン変換を用いて低周波成分を抽出し,モデルサイズに関わらず初期化に利用する。
    • 画像認識タスクにおいて最先端の性能を達成し,収束を最大15倍加速,FLOPsを平均40.5%削減する。
    • スペクトル正則化による微調整も可能であり,知識転移性能をさらに向上させることができる。

    Link: https://arxiv.org/abs/2603.07523

  • ニューラルダイナミクスに基づいた事前学習フレームワークによる個別化脳機能ネットワーク構築 [cs.LG, cs.AI]目的:個別化脳機能ネットワークの構築
    • 脳機能の解明は,精神疾患や神経疾患の理解と治療に不可欠である。
    • 既存手法は,脳構造の固定化や線形性仮定により,多様な神経活動パターンを捉えきれない。
    • 本研究は,ニューラルダイナミクスを活用し,より柔軟かつ高精度なネットワーク構築を目指す。
    • 提案手法は,ニューラル活動パターンの個別表現を抽出することで,異質環境下での脳機能ネットワーク構築を可能にする。
    • 仮想的神経変調や異常神経回路の特定など,多様なデータセットを用いた実験により有効性が確認された。
    • 本フレームワークは,従来の脳機能ネットワーク構築手法に新たな挑戦を提示する。

    Link: https://arxiv.org/abs/2603.07524

  • 動的潜在空間表現を用いたレーザー誘起ロケット点火の生成予測 [cs.LG]目的:レーザー誘起ロケット点火の生成予測モデル
    • ロケットエンジンの高性能化には,燃焼プロセスの正確な理解と最適化が不可欠である。
    • 詳細な数値シミュレーションは計算コストが高く,効率的な設計空間探索が困難である。
    • 機械学習を用いて,高精度かつ高速な代替モデルを構築し,設計効率を向上させる。
    • 畳み込みオートエンコーダとニューラル常微分方程式を組み合わせたデータ駆動型代替モデリング手法を提案した。
    • 本手法により,シミュレーションコストを大幅に削減し,パラメータ空間の効率的な探索が可能となった。
    • レーザー点火ロケット燃焼器のリアルタイムデジタルツイン実現に向けた重要な一歩となる。

    Link: https://arxiv.org/abs/2603.07525

  • Obliviator:概念消去における非線形保護のコストを明らかにする [cs.CL, cs.LG]目的:概念消去における非線形保護のコストの定量化
    • 学習済み表現から望ましくない属性を取り除く技術であり,プライバシー保護や公平性の確保に不可欠である。
    • 既存手法は,非線形な攻撃者に対して脆弱であり,属性と表現の複雑な依存関係を捉えきれていない。
    • 非線形保護のコストを定量化し,属性保護と有用性の維持の間の動的バランスを解明することを目指す。
    • Obliviatorは,非線形な統計的依存関係を捉えるように設計された事後消去手法である。
    • その漸進的なアプローチにより,属性保護のコストを定量化し,有用性の維持とのトレードオフを明らかにした。
    • より優れた表現学習モデルに対して適用することで,消去がより有用性を維持することが示された。

    Link: https://arxiv.org/abs/2603.07529

  • 統一マルチモーダルモデルはどの程度長く信頼性の高い画像を生成できるか:文脈キュレーションによる長期的交錯画像生成の制御 [cs.CL, cs.CV, cs.AI]目的:長期的交錯画像生成における信頼性低下機構の解明と,その改善手法の提案
    • テキストと画像を組み合わせた長編ストーリー生成は,新たな表現方法として期待されている。
    • 既存のモデルでは,生成シーケンスが長くなるにつれて,生成品質が急速に低下する問題がある。
    • 過去の視覚情報の蓄積がノイズとなり,生成を歪める点を克服し,長期的信頼性を向上させる。
    • 視覚情報の蓄積が,トークン数に依存せず画像イベント数に応じて生成の質を低下させることを明らかにした。
    • UniLongGenは,モデル自身の関連性ランキングに基づいて不要な視覚情報を動的に削除する推論戦略である。
    • UniLongGenは,長期的な忠実度と一貫性を大幅に向上させ,メモリフットプリントと推論時間を削減する。

    Link: https://arxiv.org/abs/2603.07540

  • 対称性の探索によるハミルトン世界モデルの学習:DreamSAC [cs.CV, cs.AI, cs.LG]目的:ハミルトン系に基づく探索戦略と世界モデルの設計
    • 物理現象の理解と予測は,ロボット工学やシミュレーションにおいて不可欠である。
    • 従来の学習された世界モデルは,未知の物理特性への外挿に課題がある。
    • 物理的変動や保存則といった環境の生成ルールを学習し,外挿性能を向上させる。
    • 本研究では,ハミルトンに基づいた好奇心ボーナスを用いた自己教師あり探索戦略「Symmetry Exploration」を提案した。
    • この戦略により収集されたデータを用いて,不変な物理状態を学習する新しい世界モデル「DreamSAC」を開発した。
    • 3D物理シミュレーションにおいて,DreamSACは外挿を必要とするタスクで最先端のベースラインを大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2603.07545

  • COOL-MC:多橋ネットワークの維持管理のための強化学習ポリシーの検証と説明 [cs.AI, cs.LG]目的:多橋ネットワークの維持管理における強化学習ポリシーの検証と説明
    • 老朽化した橋梁ネットワークの維持管理は重要であり,効率的かつ安全な戦略が求められている。
    • 強化学習ポリシーは報酬信号のみに基づいて学習されるため,安全性保証がなく,意思決定の根拠が不明確である。
    • 強化学習ポリシーの安全性検証と解釈可能性向上を通じて,より信頼性の高い維持管理を実現する。
    • COOL-MCを用いることで,強化学習ポリシーの形式的な検証と説明が可能となった。
    • 訓練されたポリシーには3.5%の安全違反確率が存在し,最適性には課題が残ることが示された。
    • 説明可能性分析により,特定の橋梁への偏ったメンテナンス戦略が明らかになった。

    Link: https://arxiv.org/abs/2603.07546

  • 音韻規則を用いた学習不要なL2アクセント音声生成 [cs.CL, cs.AI]目的:L2アクセント音声の生成
    • 音声技術において,アクセントは話者識別や包容性に重要な役割を果たす。
    • 既存のアクセントTTSシステムは,大規模なアクセント付データセットが必要か,細かな制御が困難である。
    • アクセント付データなしで,音韻レベルでのアクセント操作を可能にすること。
    • 音韻規則と多言語TTSモデルを組み合わせることで,学習なしでアクセントを変換するフレームワークを提案した。
    • スペインおよびインドアクセントの英語に対し,子音,母音,音節構造の違いをモデル化した音韻規則を設計した。
    • 実験結果から,高品質な音声維持と効果的なアクセント変換が確認された。

    Link: https://arxiv.org/abs/2603.07550

  • ゼロショット音声合成における標的スピーカーポイズニングフレームワーク [cs.SD, cs.AI]目的:ゼロショット音声合成モデルからの特定スピーカーの識別子除去
    • 音声合成技術の高度化に伴い,個人情報の保護が重要課題となっている。
    • ゼロショットTTSは少ない情報で声質を再現するため,プライバシー侵害のリスクが高い。
    • 特定スピーカーの音声生成を阻止し,汎用的な音声合成の有用性を維持すること。
    • 提案手法は,最大15人のスピーカーに対して高いプライバシー保護性能を示した。
    • 100人以上のスピーカーを対象とする場合,識別子の重複により性能が制限されることが示された。
    • 本研究は,生成AIにおける音声プライバシー保護のための新たな問題提起と評価フレームワークを提供する。

    Link: https://arxiv.org/abs/2603.07551

  • ネワール語音声コーパス Nw\=ach\=a Mun\=a と近接言語転移ベンチマーク [cs.CL, cs.AI, cs.SD]目的:ネワール語自動音声認識のためのDevanagari文字による音声コーパスとベンチマーク
    • ネワール語は消滅の危機に瀕しており,デジタル化が遅れているため,言語保存が急務である。
    • ネワール語の注釈付き音声資源が著しく不足しており,自動音声認識の研究が進んでいない。
    • 近接言語からの転移学習により,少ないデータでネワール語音声認識の性能向上を目指す。
    • 新たに構築した5.39時間のネワール語Devanagari音声コーパス「Nw\=ach\=a Mun\=a」を公開した。
    • 近接言語であるネパール語からの転移学習が,大規模多言語事前学習に匹敵する性能を発揮した。
    • ネパール語Conformerモデルのファインチューニングにより,文字誤り率を大幅に改善できた。

    Link: https://arxiv.org/abs/2603.07554

  • PTB-XLにおけるECG分類:簡略化されたCNN-VAEを用いたデータ中心アプローチ [cs.LG]目的:心電図(ECG)分類のための手法
    • 心血管疾患の早期発見には,ECGの自動分類が不可欠である。
    • 複雑な深層学習モデルに依存する傾向があり,計算コストが高い。
    • データ前処理とクラスバランスに着目し,軽量なモデルで高精度を目指す。
    • PTB-XLデータセットを用いて,87.01%の二値精度と0.7454の重み付きF1スコアを達成した。
    • モデルのパラメータ数はわずか197,093であり,計算効率の高さを示している。
    • データ中心機械学習の重要性を強調し,少数クラス検出の課題を指摘した。

    Link: https://arxiv.org/abs/2603.07558