arXiv雑要約

AI - 2026/03/17 公開

  • PDE-SSM:拡散Transformerにおける空間混合に対するスペクトル状態空間アプローチ [cs.LG]目的:拡散Transformerにおける空間混合に対する効率的かつ誘導的バイアスを豊富にした基盤
    • 画像認識分野では,Transformerモデルの性能向上が重要視されている。特に生成モデルにおいては,その限界が課題となっている。
    • Transformerの自己注意機構は計算コストが高く,空間的な誘導的バイアスが弱いため,高解像度画像への適用が困難である。
    • 本研究では,自己注意機構に代わる,計算効率が高く,空間的な事前知識を組み込んだ新しいブロックPDE-SSMを提案する。
    • PDE-SSMは,学習可能な微分方程式を用いて情報伝達をモデル化し,自己注意機構と比較して計算量を大幅に削減する。
    • 提案手法PDE-SSM-DiTは,最先端の拡散Transformerと同等以上の性能を達成し,計算コストを削減することに成功した。
    • これにより,多次元PDEオペレーターが次世代の画像認識モデルの基盤となりうる可能性が示唆された。

    Link: https://arxiv.org/abs/2603.13663

  • SHAMISA:自己教師あり無参照画像品質評価のための暗黙的な構造的関連性の形状モデリング [cs.DC, cs.CY, cs.HC, cs.CV, cs.AI, cs.LG]目的:無参照画像品質評価モデルの学習における課題克服
    • 画像処理技術の発展に伴い,高品質な画像評価手法の重要性が高まっている。
    • 既存手法は,高コストな人間の品質評価ラベルを必要とし,汎化性能に課題がある。
    • ラベルを用いずに,画像間の構造的関連性を学習することで,汎化性能の高い評価手法を開発する。
    • SHAMISAは,合成メタデータと特徴構造から推測される,歪みとコンテンツに依存するソフトな関係性を活用する。
    • 歪みパターンが共有された画像は埋め込み空間内で近づけられ,歪みの強さの変化は予測可能なシフトを生み出す。
    • 実データや異なるデータセットを用いた実験により,SHAMISAの優れた性能と汎化性能が示された。

    Link: https://arxiv.org/abs/2603.13669

  • LLM-MINE:臨床記録からのアルツハイマー病および関連認知症表現型マイニング [cs.AI, cs.LG]目的:アルツハイマー病および関連認知症の表現型
    • 早期発見・病期分類には,正確な表現型抽出が不可欠である。
    • 表現型情報は非構造化テキストに埋在し,正確な抽出が困難である。
    • 臨床記録から表現型を自動抽出する手法を開発し,有効性を検証する。
    • LLM-MINEにより,アルツハイマー病および関連認知症の表現型を自動抽出できた。
    • コホート間での表現型差異の統計的有意性が確認され,記憶障害が最も識別力が高かった。
    • 数ショットプロンプティングによるクラスタリング性能が,既存手法を大きく上回った。

    Link: https://arxiv.org/abs/2603.13673

  • 時系列データに基づくVC理論に基づく汎化限界を用いた局所線形継続学習 [cs.LG, cs.AI, stat.ML]目的:非定常な時系列データの予測
    • 現実世界のデータは分布が変化するため,機械学習モデルの適用範囲を広げる必要がある。
    • 既存の継続学習は,解釈性のないモデルか,多大なユーザー介入を必要とする。
    • 予測誤差に基づいて自動的にモデルを追加し,解釈性と精度を両立させる。
    • SyMPLERは,予測誤差とVC理論に基づく汎化限界を用いて,自動的に局所モデルを追加する。
    • 実験結果から,SyMPLERは既存のブラックボックスモデルや解釈可能なモデルと同等の性能を示すことがわかった。
    • SyMPLERは,システムの振る舞いに関する洞察を提供する人間が理解可能な構造を維持する。

    Link: https://arxiv.org/abs/2603.13674

  • TheraAgent:自己進化型メモリとエビデンスに基づく推論を備えたPET治療診断のためのマルチエージェントフレームワーク [cs.AI]目的:PET治療診断における治療効果予測の精度向上
    • PET治療診断は精密腫瘍学を革新しつつあるが,効果には患者間のばらつきが大きい
    • LLMベースのエージェントは医療診断で可能性を示す一方,PET治療診断への応用は未開拓である
    • PET治療診断におけるデータ不足,異種情報統合,根拠に基づく推論の課題を解決する
    • TheraAgentは,実際の患者35名と合成データ400件で,全体精度75.7%,合成データでは87.0%を達成した。
    • MDAgentsやMedAgent-Proを20%以上上回り,PET治療診断における信頼性の高いAIエージェントの青写真を示した。
    • 専門知識抽出,自己進化型メモリ,エビデンスに基づく推論という3つの革新的な機能により,多角的な意思決定支援を実現する。

    Link: https://arxiv.org/abs/2603.13676

  • ナラティブ生成における分布外のバイアス軽減のための事前条件付きテスト時適応 [cs.CL, cs.AI, cs.CY]目的:ナラティブ生成における分布外バイアス軽減手法
    • 大規模言語モデルの偏りは,有害な出力を生成する可能性があり,社会的な影響が大きい。
    • 既存の偏り軽減手法は,未知のバイアスプロンプトへの一般化に失敗することがある。
    • 未知のバイアスプロンプトに対しても,テスト時に動的に適応する手法を開発する。
    • 提案手法CAP-TTAは,バイアスリスクトリガーに基づいてLoRA更新を行うことで,バイアスを軽減する。
    • CAP-TTAは,AdamW/SGDよりも低い更新遅延で,人間の評価により高い効果が確認された。
    • また,最先端のバイアス軽減手法と比較して,ナラティブの流暢性を大幅に向上させる。

    Link: https://arxiv.org/abs/2603.13683

  • τ-Voice:実世界ドメインにおけるフルデュプレックス音声エージェントのベンチマーク [cs.SD, cs.AI]目的:フルデュプレックス音声エージェントの性能評価
    • 音声エージェントの活用が拡大しており,自然な対話とタスク遂行能力の重要性が増している。
    • 既存の評価手法では,複雑な現実世界のタスクや音声特有の課題を十分に考慮できていない。
    • 現実世界の複雑なタスクにおける音声エージェントの性能と課題を明確化すること。
    • GPT-5は85%のタスク遂行率を達成する一方,音声エージェントはクリアな環境下でも31~51%にとどまる。
    • ノイズや多様なアクセントを含む現実的な環境下では,音声エージェントのタスク遂行率は26~38%まで低下し,テキストベースの性能の30~45%しか維持できない。
    • 失敗原因の定性的分析の結果,79~90%がエージェントの行動に起因することが示唆され,評価設定におけるエージェントの振る舞いが主要因である。

    Link: https://arxiv.org/abs/2603.13686

  • リモートセンシング画像を用いた洪水検知のための量子増強Vision Transformer [cs.LG, cs.AI]目的:リモートセンシング画像を用いた洪水検知のための量子増強Vision Transformerの開発
    • 災害管理において,信頼性の高い洪水検知は不可欠であるため,その重要性は高い。
    • 従来の深層学習モデルは,リモートセンシングデータの高次元・非線形性に対応しきれないという課題がある。
    • 量子計算の表現力とTransformerのグローバルな文脈認識能力を融合し,検知精度向上を目指す。
    • 提案する量子増強Vision Transformerは,従来のVision Transformerと比較して,大幅な性能向上を示した。
    • 全体精度は84.48%から94.47%に,F1スコアは0.841から0.944に向上し,特に複雑な地形での識別能力が向上した。
    • これらの結果は,量子古典ハイブリッドモデルが水文モニタリングや地球観測の精度向上に役立つ可能性を示唆する。

    Link: https://arxiv.org/abs/2603.13689

  • QuarkMedBench:大規模言語モデルの評価のための現実的なシナリオ駆動型ベンチマーク [cs.CL, cs.AI]目的:大規模言語モデルの現実世界の医療クエリへの応答品質評価
    • 医療分野におけるAI活用は,診断支援や患者ケアの効率化に貢献する可能性を秘めている。
    • 既存の評価方法は多肢選択問題に偏り,実際の患者からの曖昧で複雑な質問に対応できない。
    • 現実世界の医療クエリに対するLLMの性能を正確に評価するための客観的なベンチマークの提供。
    • QuarkMedBenchは,臨床ケア,健康増進,専門的な質問を含む2万件以上のクエリで構成される大規模なデータセットである。
    • 自動スコアリングフレームワークは,複数のモデルの合意と根拠に基づく検索を用いて,詳細な評価基準を動的に生成する。
    • 生成された評価基準は,臨床専門家の評価との一致率が91.8%であり,高い信頼性を示す。従来の試験型指標では捉えきれない実臨床のニュアンスにおける性能差が明らかになった。

    Link: https://arxiv.org/abs/2603.13691

  • 反復と非排他性:子どもの言語モデルにおける参照メカニズムの規模依存性 [cs.CL, cs.LG]目的:子ども向けの言語に触れて訓練されたテキストのみの言語モデルにおける相互排他性の評価
    • 言語獲得における参照メカニズムの理解は,自然言語処理の発展に不可欠である。
    • 既存の言語モデルは,子どもの言語獲得における相互排他性の原理を十分に再現できていない。
    • 本研究は,言語モデルにおける参照追跡が反復に基づいて行われることを示す。
    • 相互排他性(ME)は,新しい単語を新しい指示対象にマッピングする傾向であるが,大規模言語モデルでは観察されなかった。
    • 反復 priming は全てのモデルと設定で有意であり,言語モデルの性能向上とともにその効果は弱まる傾向が見られた。
    • 文脈依存性の診断結果は,見かけ上のMEパターンが埋め込み類似性によって説明できることを示唆している。

    Link: https://arxiv.org/abs/2603.13696

  • 車椅子向け社会的認識型自律透過的ナビゲーションフレームワークSAATT Nav [cs.RO, cs.AI]目的:車椅子利用者のための社会的認識型自律透過的ナビゲーションフレームワーク
    • 移動困難者にとって電動車椅子は身体的負担を軽減するが,認知負荷が高い。
    • 既存の自律システムは社会的認識や意思決定の透明性に欠け,安全性の認識や信頼を損なう。
    • 社会的状況を認識し,意思決定を透明化するナビゲーションシステムを開発し,安全性を向上させる。
    • SAATT Navは,社会的状況下で従来のナビゲーションシステムよりも優れた性能を示した。
    • 大規模言語モデル(LLM)を活用し,ユーザーの意図や周囲の人の行動を予測することで,円滑な移動を実現している。
    • SAATT Navは,安全性,社会的適合性,効率性,快適性の各指標において,良好な結果を得ている。

    Link: https://arxiv.org/abs/2603.13698

  • 時系列予測におけるグラフスペクトル分解を用いたチャネル-パッチ依存性のルーティング [cs.LG, cs.AI]目的:時系列予測におけるチャネル-パッチ依存性の適応的なモデル化
    • AI分野で注目されている時系列予測は,様々な応用において重要な役割を担う。
    • 既存手法は,チャネル間の独立性・依存性のバランスを取る柔軟性に欠ける。
    • グラフスペクトル分解を用いてチャネル-パッチ依存性を動的にルーティングし,予測精度と汎化性能の向上を目指す。
    • 提案手法xCPDは,既存のCIおよびCD予測モデルに容易に組み込むことが可能である。
    • xCPDは,周波数帯域ごとにチャネル間の相互作用を動的に調整するルーティングメカニズムを導入する。
    • ベンチマークテストの結果,xCPDは精度と汎化性能の両方を一貫して向上させることを示した。

    Link: https://arxiv.org/abs/2603.13702

  • REFINE-DP:強化学習によるヒューマノイドロボットの移動操作のための拡散ポリシー微調整 [cs.RO, cs.AI, cs.LG]目的:ヒューマノイドロボットの移動操作における,拡散ポリシーの微調整を通じた性能向上
    • ヒューマノイドロボットの複雑な環境下での動作は,実用的なタスク遂行に不可欠であり,その実現が求められている。
    • オフラインで学習したモーションプランナーと低レベルコントローラーの乖離が,コマンド追従の悪化や分布シフトを引き起こし,課題となっている。
    • 拡散ポリシーと強化学習を組み合わせることで,ロボットの動作品質を向上させ,タスク成功率を高めることを目指す。
    • 本研究で提案するREFINE-DPは,拡散ポリシーと強化学習コントローラーを同時に最適化する階層的フレームワークである。
    • シミュレーション実験では,REFINE-DPは90%を超える成功率を達成し,事前学習済み拡散ポリシーよりも大幅に性能が向上した。
    • 実環境における動的な環境下でも,スムーズな自律タスク実行が可能であることが示された。

    Link: https://arxiv.org/abs/2603.13707

  • InterventionLens:親子の読み聞かせにおけるASD介入戦略を検出するためのマルチエージェントフレームワーク [cs.AI]目的:親子の読み聞かせにおけるASD介入戦略の自動検出と時間的セグメンテーション
    • 自閉症スペクトラム症候群(ASD)児への支援において,家庭での介入は費用対効果が高く重要である。
    • 自然な家庭環境での介入戦略分析は専門家による注釈に依存し,コストや時間がかかる。
    • 専門家による注釈に頼らず,介入戦略の自動検出と分析を可能にすることを目指す。
    • InterventionLensは,特定のタスクに対するモデルの学習や調整を必要とせずに,高い精度で介入戦略を検出した。
    • ASD-HIデータセットを用いた実験で,F1スコア79.44%を達成し,ベースラインを19.72%上回った。
    • これらの結果は,家庭でのASD読み聞かせ設定における介入戦略分析において,InterventionLensが有望なシステムであることを示唆する。

    Link: https://arxiv.org/abs/2603.13710

  • データ駆動による物理法則の段階的発見 [cs.CL, cs.LG, physics.data-an]目的:物理法則の発見過程のモデル化
    • 物理法則の理解は科学技術の発展に不可欠であり,データからの法則抽出は重要である。
    • 従来の記号回帰は複雑な表現を生み出しやすく,物理的な意味を欠き,汎化性能が低いという課題がある。
    • 物理法則は単純から複雑へと段階的に発見されるという原則に基づき,その過程をモデル化することで課題解決を目指す。
    • 提案手法Chain of Symbolic Regression (CoSR) は,記号回帰を段階的な知識の連鎖としてモデル化する。
    • CoSRは古典力学におけるケプラーの法則から万有引力の法則への発見過程を再現可能であることを示した。
    • CoSRは乱流レイリー・ベナール対流,円管内の粘性流れ,レーザー金属相互作用,航空機の空力特性のスケーリングにおいて有効性を示した。

    Link: https://arxiv.org/abs/2603.13727

  • R3-REC:Multi-Granularな興味シグナルを用いた検索拡張LLMによる推論駆動型推薦 [cs.IR, cs.AI]目的:Sequential Recommendationにおける推薦精度向上
    • 購買履歴などの行動データに基づき,ユーザーのニーズに合致する商品を推薦することは,ビジネスにおいて重要である。
    • コールドスタート問題や,アイテムの説明文のノイズ,長さのばらつきが,推薦精度のボトルネックとなっている。
    • ユーザーの動的な多面的な意図を捉え,より精度の高い推薦を実現することを目的とする。
    • R3-RECは,ML-1M,Games,Bundleのデータセットにおいて,既存のニューラルネットワークやLLMベースラインを凌駕する結果を示した。
    • HR@1で最大10.2%,HR@5で最大6.4%の改善が見られ,エンドツーエンドの遅延も許容範囲内である。
    • 各モジュールの重要性を検証したAblation studyにより,全てのモジュールが相補的に貢献することが確認された。

    Link: https://arxiv.org/abs/2603.13730

  • リアルタイム生成モデル予測制御のための暗黙的最尤推定 [cs.RO, cs.RO, cs.AI, cs.LG]目的:リアルタイム生成モデル予測制御における計画手法
    • ロボットの自律的な行動計画は,複雑な環境下での安全性と効率性を確保する上で不可欠である。
    • 拡散モデルは高性能だが,反復処理による推論速度の遅さがリアルタイム制御への適用を妨げる。
    • 高速な推論が可能な生成モデリング手法を用いて,リアルタイムMPCの性能向上を目指す。
    • 暗黙的最尤推定(IMLE)は,標準的な拡散モデルと比較して,2桁高速な推論を可能にする。
    • IMLEは,オフライン強化学習ベンチマークにおいて,拡散モデルに匹敵する性能を示す。
    • 閉ループの人間ナビゲーションシナリオにおいて,IMLEによるリアルタイムな計画生成が実証された。

    Link: https://arxiv.org/abs/2603.13733

  • UniVid:高品質ビデオ生成のためのピラミッド拡散モデル [cs.DC, cs.CV, cs.AI, cs.MM]目的:高品質ビデオ生成のための統一モデル
    • ビデオ生成技術は,エンターテインメントから研究まで幅広い分野で重要性が増している。
    • テキストと画像を組み合わせたビデオ生成は困難であり,統一的なモデル構築が課題であった。
    • テキストと画像の両方を活用し,より自然で高品質なビデオ生成を実現することを目指す。
    • UniVidは,テキストと参照画像を組み合わせることで,オブジェクトの外観と動きを効果的に表現できる。
    • 時間的ピラミッド型クロスフレーム空間-時間注意モジュールと畳み込みにより,時間的に一貫性のあるフレームを生成する。
    • 二つの制御モード(テキスト単独,テキストと画像)を柔軟に調整できる二重ストリームクロスアテンション機構を導入した。

    Link: https://arxiv.org/abs/2603.13739

  • 少ないバッチ数または少ないメモリ,しかし両立は不可能:確率的バンディット問題における同時空間制約と適応性の制約 [cs.LG, stat.ML]目的:確率的マルチアームバンディット問題における空間制約と適応性制約下での性能限界
    • 機械学習における探索と利用のバランスは,効率的な意思決定に不可欠である。
    • メモリや計算資源が限られた環境下では,バンディット問題の性能が著しく低下する。
    • 限られた資源下で最適な探索戦略を確立し,性能劣化を最小限に抑える。
    • バッチ数とメモリ制約が同時に課される場合,従来の性能保証は成り立たないことが示された。
    • メモリ制約下では,バッチ数は少なくともΩ(K/W)以上が必要であり,対数メモリではKに依存しないバッチ数は実現不可能である。
    • 対数メモリと$\widetilde{O}(K)$バッチ数を用いたアルゴリズムが,$\widetilde{O}(\sqrt{KT})$のレグレットを達成することが示された。

    Link: https://arxiv.org/abs/2603.13742

  • サブバンドスペクトルマッチングと局所スコア集約によるロバストな異常音検出 [cs.HC, cs.RO, cs.MA, cs.SD, cs.AI]目的:騒音環境下における微小な逸脱の検出
    • 異常音検出は,機械の故障予知やセキュリティ監視など,多様な応用分野で重要である。
    • 従来の異常音検出手法は,正常音の変動に対して頑健性が低く,誤検出が多いという課題がある。
    • サブバンド単位での比較とスコア集約により,正常音の変動による誤検出を抑制し,検出精度を向上させる。
    • 提案手法BEAMは,サブバンドベクトルをメモリバンクに格納し,サブバンドごとに近傍ベクトルを検索することで,正常音の変動に対するロバスト性を向上させる。
    • サブバンド応答の多様な時間的ダイナミクスに対応するため,パラメータフリーな適応的融合を導入した。
    • DCASE Task 2ベンチマークにおける実験により,タスク固有の学習なしで高い性能と,ノイズやドメインシフトに対する頑健性が確認された。

    Link: https://arxiv.org/abs/2603.13749

  • パラメータ化された物理情報ニューラルネットワークのための多様体直交二重スペクトル外挿法 [cs.DC, cs.LG]目的:物理現象を支配する偏微分方程式をモデル化する際の,物理情報ニューラルネットワークの適応性向上
    • 偏微分方程式を扱う物理モデリングにおいて,計算コストを抑えつつ精度を向上させることは重要である。
    • 従来のパラメータ化手法では,重要な高周波スペクトルモードが失われ,複雑な物理現象の遷移を捉えきれない場合がある。
    • 本研究では,軽量なマイクロアーキテクチャを用いて,物理演算子の適応性を高め,汎化性能を向上させることを目指す。
    • 提案手法MODEは,凍結された直交基盤内でエネルギー移動を可能にする主スペクトルによる稠密混合を用いる。
    • 残差スペクトルによる覚醒メカニズムにより,単一の学習可能なスカラーを通じて高周波成分が活性化される。
    • 実験結果から,MODEは既存のPEFT手法を凌駕し,最小限のパラメータ数で優れた外挿性能を発揮することが示された。

    Link: https://arxiv.org/abs/2603.13751

  • MeTok:双方向配置グループ学習による効率的な気象トークン化と降水予測 [cs.AI, cs.LG]目的:降水予測のための効率的な分布重視型気象トークン化スキーム
    • 気象現象は複数の要素間の相乗効果によって発生するため,その理解は防災・減災に不可欠である。
    • 既存のTransformer型モデルの位置情報重視型トークン化は,気象システムの特性と矛盾する点が課題である。
    • 類似した気象特徴を空間的にグループ化することで,予測のロバスト性を向上させることを目指す。
    • 提案手法MeTokは,ERA5データセットを用いた6時間降水予測において,既存手法と比較して,極端な降水予測のIoUスコアを少なくとも8.2%改善した。
    • 双方向配置グループ学習によって,異なる降水パターンからの特徴の自己整合学習を可能にし,パッチ埋め込みの識別能力を高めている。
    • データ量やパラメータ数を増加させることで性能が向上し,スケーラビリティと安定性も示された。

    Link: https://arxiv.org/abs/2603.13752

  • 多目的最適化とVAD対応音声モデリングを用いた多Modal感情回帰:第10回ABAW EMIトラック [cs.AI, cs.SD]目的:感情模倣強度推定における多Modal特徴量の活用と最適化手法
    • 感情認識は,人間と機械のより自然なコミュニケーションを可能にする基盤技術である。
    • 既存手法では,異なるModality間の効果的な特徴量融合が課題となっている。
    • 本研究は,多目的最適化とVADによる音声特徴の改善で,より高精度な感情推定を目指す。
    • 事前学習済み特徴量を用いることで,単純な特徴量連結が複雑な融合戦略よりも優れていることを確認した。
    • Multi-Objective Optimizationにより,学習の安定化と評価指標との整合性を向上させた。
    • 公式検証セットにおいて,平均Pearson相関係数0.478567を達成した。

    Link: https://arxiv.org/abs/2603.13760

  • レベルアップ:カリキュラム学習のための遷移問題の定義と活用 [cs.LG, cs.AI]目的:カリキュラム学習における遷移問題の定義と活用
    • 機械学習の性能向上には,効率的な学習方法が不可欠であり,人間の学習プロセスからヒントを得る試み。
    • 既存手法は,問題の難易度を間接的に評価するため,学習者固有の状況に合わせたカリキュラムの構築が困難。
    • モデル能力に対する問題の難易度を直接測定し,学習の段階的な進歩を促す遷移問題を特定すること。
    • 本研究で提案する手法は,チェスと数学の問題に対して有効であり,モデルの能力を効率的に向上させることが示された。
    • モデル能力の変化に合わせた遷移問題を学習に用いることで,他の学習戦略を上回る成果が得られた。
    • 提案手法は,解釈可能な問題,学習者固有のカリキュラム,そして段階的な改善のための原理を提供。

    Link: https://arxiv.org/abs/2603.13761

  • 大規模言語モデルの知識蒸留 [cs.CL, cs.AI]目的:大規模言語モデルの圧縮
    • 自然言語処理の発展に伴い,モデルの巨大化が課題となっている。
    • 大規模モデルは計算資源を大量に消費し,実用環境への導入が困難である。
    • 計算資源の制約下でも高性能なモデルを実現すること。
    • 知識蒸留とChain-of-Thought強化学習を組み合わせることで,モデルの軽量化と性能維持を両立した。
    • 英語,スペイン語,コードの各データセットにおいて,教師モデルの性能を高い割合で維持しつつ,モデルサイズを大幅に削減することに成功した。
    • コード生成においては,CoTデータを用いた強化学習により,推論の整合性と解答の正確性が向上した。

    Link: https://arxiv.org/abs/2603.13765

  • 3D MRIを用いた持続ホモロジーとベッチ数による脳腫瘍分類:BraTS2020へのトポロジーデータ解析アプローチ [cs.CV, cs.LG]目的:脳腫瘍の分類
    • 医療画像解析は,病気の早期発見や正確な診断に不可欠であり,医療の発展に大きく貢献する。
    • MRI画像は高次元で複雑な構造を持つため,脳腫瘍の正確な分類は依然として困難な課題である。
    • 本研究は,MRI画像から抽出したトポロジー特徴を用いて,脳腫瘍の効率的な分類を目指す。
    • 提案手法では,3D MRI画像から抽出されたトポロジー特徴とランダムフォレスト分類器を組み合わせることで,89.19%の精度を達成した。
    • 持続ホモロジーは,複雑な3D医療画像の解析や脳腫瘍分類において,有効かつ解釈可能なアプローチであることが示唆された。
    • 従来の深層学習とは異なり,大規模な学習データや複雑なアーキテクチャを必要とせず,計算効率の良い特徴抽出が可能である。

    Link: https://arxiv.org/abs/2603.13771

  • 検索フィードバック駆動蒸留とLLMベースのクエリ拡張のための選好アラインメント [cs.IR, cs.CL, cs.DB, cs.NI, cs.IR, cs.AI]目的:効率的なクエリ拡張のための知識蒸留と選好アラインメントの枠組み
    • 情報検索の精度向上は,大量のデータから必要な情報を迅速に見つけ出す上で不可欠である。
    • 大規模言語モデルは高性能だが,推論コストが高く,実用的な検索システムへの直接的な組み込みが困難である。
    • 高性能な教師モデルの知識を軽量な学生モデルに効率的に転移し,推論コストを削減することを目指す。
    • 提案手法は,教師モデルが生成したクエリ拡張を活用し,蒸留と選好アラインメントを実現することで,検索効果を維持しつつ推論コストを大幅に削減する。
    • 蒸留されたQwen3-4Bモデルは,DeepSeek-685Bモデルの性能の約97%をDL19で達成し,中国語のMIRACL-zhベンチマークでも有効性を示す。
    • 本手法は,英語と中国語の両方の検索設定において,実用的な性能を発揮する。

    Link: https://arxiv.org/abs/2603.13776

  • 生成後に修正:アスペクトセンチメントクワッド予測のためのワンショットグローバル修正 [cs.CL, cs.AI]目的:アスペクトセンチメントクワッド予測の性能向上
    • 顧客分析,体験モニタリング,世論調査など,きめ細かい意見抽出に不可欠な研究分野である。
    • 既存手法はクワッドを固定順序で処理するため,初期段階のエラーが伝播しやすく,修正が困難である。
    • 大規模言語モデルで生成したエラーパターンを含むデータを用いて,クワッド全体を一度に修正する手法を提案する。
    • 提案手法G2Cは,Rest15およびRest16データセットにおいて,既存の強化学習モデルを上回る性能を示した。
    • G2Cは,まずクワッドのドラフトを生成し,次に一回の処理でグローバルな修正を行うことで,伝播エラーの影響を軽減する。
    • 本研究は,アスペクトセンチメント分析におけるクワッド予測の精度向上に貢献する。

    Link: https://arxiv.org/abs/2603.13777

  • AD-Copilot:視覚的文脈内比較による産業異常検知のための視覚言語アシスタント [cs.CV, cs.AI]目的:産業異常検知における視覚的文脈内比較を通じた視覚言語アシスタントの開発
    • 産業分野における品質管理は重要であり,異常検知はその不可欠な要素である。
    • 既存のマルチモーダル大規模言語モデルは,産業画像への適応に課題を抱えている。
    • 本研究は,視覚的文脈内比較を通じて,産業異常検知の精度向上を目指す。
    • AD-Copilotは,MMADベンチマークにおいて82.3%の精度を達成し,他のモデルを凌駕した。
    • MMAD-BBoxテストでは,ベースラインと比較して最大3.35倍の改善が見られた。
    • AD-Copilotは,特定のタスクにおいて人間専門家レベルの性能を上回り,実用的な産業検査支援の可能性を示した。

    Link: https://arxiv.org/abs/2603.13779

  • 連続プロンプト探索のための射影不要進化戦略 [cs.RO, cs.CL, cs.NE]目的:連続プロンプト探索手法の開発
    • 自然言語処理において,パラメータ調整の効率化が重要である。計算コストを抑えつつ高い性能を実現する必要がある。
    • 既存手法は低次元空間への射影に頼るが,その効果や根拠が不明確である。射影が構造を適切に捉えられていない場合がある。
    • 射影を用いず,進化戦略によってプロンプト空間を直接最適化し,汎化性能の向上を目指す。
    • 提案手法は,GLUEベンチマークの7つの自然言語理解タスクにおいて,既存手法を大幅に上回る性能を示した。
    • 射影を用いないことで計算コストの増加を抑えつつ,競争力のある探索能力を実現した。
    • モデルのターゲットバーバリザーへの信頼度を高める信頼度に基づく正則化メカニズムを導入し,少量のデータでの汎化性能を改善した。

    Link: https://arxiv.org/abs/2603.13786

  • LLMデータ選択のための貪欲情報射影 [cs.RO, cs.LG, cs.CL]目的:大規模言語モデルのファインチューニングのための学習データ選択
    • 言語モデルの性能は学習データに大きく依存するため,効率的なデータ選択が重要である。
    • 既存手法では,データの質と多様性のバランスを取ることが困難であった。
    • 質の高いデータを効率的に選択し,多様性を確保することでファインチューニングの効率化を目指す。
    • 提案手法GIPは,データとクエリの埋め込みを用いて,相互情報量を最大化することでデータ選択を行う。
    • GIPは,質の高さと多様性の両立を幾何学的に説明し,高速な貪欲法による効率的な更新を実現する。
    • 指示応答や数学的推論タスクにおいて,GIPは少量なデータセットで,フルデータでのファインチューニングと同等の性能を達成した。

    Link: https://arxiv.org/abs/2603.13790

  • IGU-LoRA:統合勾配と不確実性認識スコアリングによる適応的ランク割り当て [cs.CL, cs.LG, cs.AI]目的:大規模言語モデルの効率的なファインチューニングのための適応的ランク割り当て手法
    • 大規模言語モデルの発展に伴い,計算資源の制約が課題となっている。
    • LoRAでは,全ての層に一律のランクを適用するため,層の重要度の違いを考慮できない。
    • 層内での経路依存性を捉えた統合勾配を用いて,より安定したランク割り当てを目指す。
    • IGU-LoRAは,既存のPEFT手法と比較して,同一のパラメータ数で高い精度と頑健性を示す。
    • 層内統合勾配と不確実性認識選択が,効果的なランク割り当てに貢献することが実験的に確認された。
    • パラメータ空間におけるIGの近似誤差に関する理論的な上限が,経路ごとのヘッセ行列のLipschitz条件下で導出された。

    Link: https://arxiv.org/abs/2603.13792

  • ガーナNLP並列コーパス:資源の乏しいガーナ言語のための包括的な多言語リソース [cs.CL, cs.AI]目的:資源の乏しいガーナ言語のための多言語リソース
    • 言語処理において,デジタル化された言語データの不足は大きな課題である。アフリカ言語はその傾向が強い。
    • 多くのガーナ言語はデジタル空間での表現が乏しく,言語処理技術の発展を阻害している。
    • この研究は,ガーナ言語のデジタル化と,それを利用した言語処理技術の開発を促進することを目的とする。
    • ガーナNLPイニシアチブが,トゥイ語,ファンテ語,エウェ語,ガ語,クサール語の41,513組の並列文ペアを構築した。
    • これらのデータセットは,専門家による翻訳と注釈に基づいており,一貫性と使いやすさを確保するために構造化メタデータが付与されている。
    • 本研究は,機械翻訳,音声技術,言語保存などの幅広い応用を支援し,AIの民主化に貢献する。

    Link: https://arxiv.org/abs/2603.13793

  • サーバー上での勾配競合軽減と表現による効率的な連合学習のアンラーニング [cs.LG, cs.AI]目的:連合学習モデルからの特定の参加者のデータ貢献の除去
    • データプライバシー保護の重要性が高まる中で,連合学習におけるデータ削除のニーズが増加している。
    • 従来の連合学習のアンラーニングは,クライアント間の知識の共有が難しく,計算・通信コストが高い。
    • 本研究は,サーバー側での効率的なアンラーニングを実現し,プライバシーを保護しつつコストを削減することを目指す。
    • 提案手法FOULは,学習段階で忘却対象のクライアントの特徴を特定・符号化することで,通信コストを抑制。
    • サーバー側での知識集約により,クライアントデータにアクセスすることなくアンラーニングを実現し,効率とプライバシーを両立。
    • 新しい評価指標「忘却時間」を用いて,FOULが既存手法(Retraining)よりも迅速なアンラーニング性能を示すことが実験で確認された。

    Link: https://arxiv.org/abs/2603.13795

  • ノード役割誘導LLMによる動的グラフクラスタリング [cs.CL, cs.LG]目的:動的グラフにおける時間変化するクラスタの検出と追跡
    • 複雑な現実世界のシステムの進化を理解する上で,動的グラフ分析は不可欠である。
    • 既存手法は解釈可能性が低く,クラスタ形成や進化の根拠を説明できない。
    • LLMを活用し,クラスタリングの根拠を説明可能なフレームワークを構築すること。
    • 提案手法DyG-RoLLMは,グラフ埋め込みを解釈可能なセマンティック概念に変換する。
    • ノード表現を役割とクラスタリングのサブ空間に分解することで,役割の異なるノードを区別する。
    • 実験により,DyG-RoLLMの有効性,解釈可能性,およびロバスト性が確認された。

    Link: https://arxiv.org/abs/2603.13799

  • メモリ効率の良いオンライン継続学習のためのプロトタイプ的模範凝縮 [cs.LG, cs.AI]目的:記憶効率の向上
    • 継続学習は,AIが新しい知識を獲得しつつ,過去の知識を保持するために不可欠である。
    • 既存手法では,十分な性能を維持するために大量のサンプルを保存する必要がある。
    • 少ないサンプル数で過去の知識を保持し,プライバシーを保護することを目指す。
    • 提案手法は,既存の基盤モデルと比較して,大規模データセットや多数のタスクを含むシナリオで優れた性能を示す。
    • プロトタイプ的な模範を合成・保存することで,記憶フットプリントをさらに圧縮できる。
    • 摂動に基づく拡張メカニズムにより,訓練中の過去データの合成バリアントを生成し,継続学習の性能を向上させる。

    Link: https://arxiv.org/abs/2603.13804

  • 崩壊か保存か:スパイクニューラルネットワーク高速化のためのデータ依存型時間集約 [cs.LG, cs.AI, cs.NE]目的:スパイクニューラルネットワークの推論高速化のための時間集約戦略
    • スパイクニューラルネットワークは,低消費電力な次世代AIとして注目されており,ハードウェアアクセラレーションが重要。
    • スパイクの疎性は高速化に貢献すると考えられてきたが,GPUアーキテクチャではその利点が活かせない場合がある。
    • データ特性に応じて時間集約の度合いを調整することで,効率的な推論を実現することを目的とする。
    • レートコードデータにおいては,TACによって13.8倍の高速化と精度向上を実現。速度と精度の両立に貢献。
    • イベントデータにおいては,TAC-TPにより時間分解能を維持し,TACによる精度劣化を抑制。50%の演算回数削減も達成。
    • 最適な時間集約戦略はデータに依存し,レートコードデータでは時間次元の崩壊が,イベントデータでは保持が有効。

    Link: https://arxiv.org/abs/2603.13810

  • 人工知能駆動による病院ロジスティクス管理のレジリエンス向上:H病院における実践的探求 [cs.AI, cs.CY]目的:病院ロジスティクス管理のレジリエンス向上
    • 病院運営において,効率的なロジスティクスは患者ケアの質に直結する重要な要素である。
    • 突発的な事態や内部の運用負荷増大に対し,病院ロジスティクスは脆弱性を抱えている。
    • 人工知能を活用し,病院ロジスティクスのレジリエンスを高める方法を明らかにすること。
    • 調査の結果,94.7%のスタッフがAIの活用を認識しており,特に設備メンテナンスと資源配分において改善が見られた。
    • AIの統合はロジスティクスのレジリエンスと正の相関関係があり(β=0.642, p<0.001),管理システムの適応性が正の調整効果を示した(β=0.208, p<0.01)。
    • PDCAサイクルがAIとレジリエンスの関係を完全に媒介しており,継続的な改善メカニズムの重要性が示唆された。

    Link: https://arxiv.org/abs/2603.13816

  • 降水適応エキスパート混合モデルを用いた長期降雨予測 (PA-Net) [cs.AI, cs.CV, cs.LG]目的:長期降雨予測における精度向上
    • 洪水警報,農業管理,緊急対応など,社会に不可欠な技術である。
    • 大規模な時空間データと極端な降水量の分布の偏りが課題となっていた。
    • 降水強度に応じて計算資源を最適化し,豪雨予測の精度向上を目指す。
    • PA-Netは,降水強度に応じて活性化されるエキスパート数を動的に調整する。
    • Dual-Axis Compressed Latent Attentionにより,大規模な時空間データを効率的に処理する。
    • ERA5データを用いた実験で,特に豪雨・暴雨において既存手法を上回る成果が得られた。

    Link: https://arxiv.org/abs/2603.13818

  • テキスト-オーディオ生成システムにおける意味的脆弱性の評価:制御されたプロンプト摂動下での検討 [cs.SD, cs.AI]目的:テキスト-オーディオ生成システムの意味的脆弱性
    • 近年の進歩により,テキストから多様な音楽への生成が可能になった。実用化には信頼性が重要である。
    • わずかな言語変化がオーディオに大きな変化をもたらす可能性があり,システムの頑健性が不明である。
    • 意味内容を維持しつつプロンプトを変化させることで,システムの脆弱性を定量的に評価する。
    • 大規模モデルの方が意味的一貫性が高く,MLSとISにおいて高いコサイン類似度を示した。
    • しかし,音響的・時間的分析では,類似度が高い場合でもずれが残ることが示された。
    • 脆弱性は多Modal埋め込みの整合性よりも,意味から音響への変換段階で生じやすいと考えられる。

    Link: https://arxiv.org/abs/2603.13824

  • 有効なスパース性:正規化エントロピーと有効な非ゼロ要素数による統一的フレームワーク [cs.RO, cs.LG, stat.ML]目的:有効なスパース性の定量化
    • 信号処理や機械学習において,スパース表現は効率的なデータ圧縮とモデル構築に不可欠である。
    • 従来のスパース化手法は,全ての非ゼロ要素を等しく重要視し,不要な複雑さを招く場合がある。
    • 重要な係数の集中度を捉え,より現実的なスパース性を評価することで,復元精度とロバスト性を向上させる。
    • 本研究で導入された有効な非ゼロ要素数(ENZ)は,従来のl0ノルムとは異なり,安定かつ連続的なスパース性の尺度を提供する。
    • ENZに基づく復元は,制限等方性特性(RIP)の下で一意かつ安定であることが理論的に保証された。
    • 数値実験により,本フレームワークが従来のl0ノルムに基づく手法よりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.13826

  • ArrayTac:形状,剛性,摩擦を同時レンダリングする触覚ディスプレイ [eess.SY, cs.MA, cs.SY, cs.RO, cs.AI, cs.HC]目的:形状,剛性,摩擦の同時レンダリングを可能にする触覚ディスプレイの実現
    • 視覚や聴覚に比べ,触覚インタラクションは発展が遅れており,リアリティのあるハプティックシミュレーションが課題である。
    • 既存の触覚ディスプレイは,形状,剛性,摩擦といった複数の触覚次元を同時に再現する能力に限界がある。
    • 本研究は,形状,剛性,摩擦を同時に再現し,高忠実度の触覚フィードバックを実現することを目指す。
    • ArrayTacは,圧電駆動による4x4アレイで構成され,マイクロレバー機構により微小な変位を増幅し,高精度な触覚再現を可能にする。
    • 視覚情報を触覚信号に変換するフレームワークや,長距離を介した触覚遠隔操作システムを実装し,その有効性を検証した。
    • ユーザ実験において,初めて触る参加者でも形状や物理的特性を高い精度で識別でき,遠隔操作実験では乳がんの腫瘤を正確に特定・局在化できた。

    Link: https://arxiv.org/abs/2603.13829

  • BSCミームトークンにおけるマルチ粒度ウォッシュトレードパターンプロファイリングによる早期ラグプル警告 [cs.AI, cs.CR, cs.LG]目的:BSCミームトークンにおけるラグプルリスクの早期警告
    • 分散型金融(DeFi)におけるミームトークンの急増により,投資家保護が重要となっている。
    • 既存の手法では,データ不足や解釈性の低さから,安定した早期警告が困難である。
    • ウォッシュトレードパターンに着目し,より精度の高いラグプル警告システムの構築を目指す。
    • 提案手法は,トランザクション,アドレス,フローレベルの特徴量を統合した多粒度ウォッシュトレードパターンを活用している。
    • Random Forestモデルが最も高い性能を示し,AUC=0.9098,PR-AUC=0.9185,F1=0.7429を達成した。
    • 誤検知率が低く,高精度なスクリーニングシステムとしての活用が期待される。平均リードタイムは3.8133時間である。

    Link: https://arxiv.org/abs/2603.13830

  • 深層学習を用いた効率的な半自動材料ミクロ構造解析:アディティブマニュファクチャリングにおける事例研究 [cs.CV, cond-mat.mtrl-sci, cs.LG]目的:材料ミクロ構造解析のための半自動セグメンテーションパイプラインの開発
    • 材料の特性と性能を理解する上で,ミクロ構造解析は不可欠である。
    • 材料画像の多様性により,従来の画像処理技術や深層学習では十分なセグメンテーションが困難である。
    • 高品質なラベル付きデータの不足を補い,効率的なセグメンテーションを実現すること。
    • アクティブラーニングパイプラインにより,ユーザーによる修正を組み込みながらモデルを反復的に更新した。
    • 提案手法SMILEは,他の手法と比較して,macro F1スコアを0.74から0.93に向上させた。
    • SMILEは,手動アノテーション時間を約65%削減し,スケーラビリティと堅牢性を確保した。

    Link: https://arxiv.org/abs/2603.13831

  • インテリジェントな材料モデリング:ポリサルホン膜の機械的性能予測における大規模言語モデルと偏最小二乗回帰の比較 [cs.RO, cs.RO, cs.AI, cs.LG]目的:ポリサルホン膜の機械的性能予測
    • 材料開発において,実験データの制約下での高性能材料の効率的な探索が重要である。
    • 実験データの不足は,材料の機械的特性予測の精度を著しく低下させる。
    • 少ないデータでも高精度な予測を実現し,材料探索を加速させることを目指す。
    • 大規模言語モデル(LLM)は,特に非線形かつ制約条件が強い特性の予測において,偏最小二乗回帰(PLS)よりも優れた性能を示した。
    • LLMは,伸び(EL)予測において,二乗平均平方根誤差を最大40.5%削減し,予測のばらつきを大幅に抑制した。
    • ヤング率(E)や引張強度(TS)の予測においては,線形モデルであるPLSとの間に統計的な差は認められず,両手法が同等の性能を発揮した。

    Link: https://arxiv.org/abs/2603.13834

  • マイクロ:クロスストア・クロスモデルグラフ関係結合の最適化のための軽量ミドルウェア [cs.DB, cs.LG]目的:クロスストア・クロスモデルグラフ関係結合クエリの効率的な実行
    • 現代のデータアプリケーションでは異種データが増加しており,それらを効率的に処理する必要がある。
    • 異種データベース環境におけるクロスモデルクエリ処理の研究は十分に進んでいない。
    • グラフストアとリレーショナルストア間のクロスモデル結合クエリの最適化を目指す。
    • 提案手法MICROは,既存のフェデレーションリレーショナルシステムXDBと比較して,全体的な実行時間で最大2.1倍の性能向上を達成した。
    • 実世界のベンチマークにおいて,14件のクエリで100倍以上の高速化を実現したが,4件のクエリでは5秒以上の減速が見られた。
    • クエリ最適化における学習ランキング手法CMLeroは,ルールベースや回帰ベースの最適化手法を常に上回る性能を示した。

    Link: https://arxiv.org/abs/2603.13835

  • ファインチューニングだけでは不十分:エンドツーエンド自動運転における協調的模倣学習と強化学習のための並列フレームワーク [cs.CE, cs.MA, cs.RO, cs.AI]目的:エンドツーエンド自動運転における協調的模倣学習と強化学習のための並列フレームワーク
    • 自動運転技術は,交通の安全性向上や移動の効率化に不可欠であり,社会実装が期待されている。
    • 模倣学習は人間によるデモンストレーションに依存するため,その品質が性能の限界となる。
    • 模倣学習と強化学習を並列に最適化することで,性能向上と安定性を両立することを目指す。
    • 提案手法PaIR-Driveは,NAVsimv1およびv2のベンチマークにおいて,TransfuserやDiffusionDriveといったベースラインを上回る性能を示した。
    • PaIR-Driveは,既存の強化学習によるファインチューニング手法よりも高い性能を発揮し,人間の専門家のサブオプティマルな行動を修正することさえ可能である。
    • 実験結果は,PaIR-Driveが効果的に探索し,高品質な軌道を生成できることを示唆している。

    Link: https://arxiv.org/abs/2603.13842

  • 見ることは信じることか?合成動画に対する人間の感受性の評価 [cs.RO, cs.HC, cs.AI]目的:合成動画に対する人間の知覚に関する研究
    • 近年の機械学習の発展により,偽情報拡散のリスクが高まり,社会への影響が懸念される。
    • 合成動画の知覚に関する理解が不足しており,効果的な対策の開発が遅れている。
    • 視覚・聴覚的な歪みが認知過程に与える影響を明らかにすることで,対策開発に貢献する。
    • 動画の歪みやディープフェイクのアーティファクトは,信憑性を低下させることが示された。
    • 主観的な信憑性評価と客観的な学習成果の両方において,歪みの影響が確認された。
    • 本研究は,合成動画の評価と知覚における認知過程の探求に貢献する。

    Link: https://arxiv.org/abs/2603.13846

  • サイレンの囁き:音声駆動LLMに対する可聴外近超音波による脱獄 [cs.CR, cs.AI, cs.SD]目的:音声駆動LLMに対する,現実的な環境下での秘密裏なプロンプトベース攻撃
    • 音声インターフェース利用増加に伴い,音響チャネルを介した新たなセキュリティリスクが顕在化している。
    • 既存の手法では,実用的な環境下で高精度かつ秘匿的にプロンプトを注入することが困難であった。
    • 市販デバイスを用いて,LLMを脱獄する高忠実度の秘密音響チャネルを確立し,実用的な攻撃手法を提案する。
    • SWhisperは,近超音波にプロンプトをエンコードし,音声インターフェースを通じてLLMを効果的に脱獄可能。
    • 商用モデルにおいて,最大0.94の非拒否率(NR)と0.925の特定の説得力(SC)を達成した。
    • ユーザー調査の結果,注入された脱獄音は背景音と弁別がつかないことが確認された。

    Link: https://arxiv.org/abs/2603.13847

  • 変分ニューロンの次元探求 [cs.LG]目的:変分ニューロンの内部潜在次元,制御,時間的拡張がニューロンの動作に与える影響
    • 深層学習モデルの性能向上には,モデルの表現力と汎化性能のバランスが重要である。
    • 既存のニューラルネットワークでは,不確実性のモデル化がグローバルな変数に依存し,ニューロンレベルでの制御が困難である。
    • ニューロンレベルで確率構造を導入し,不確実性を局所的に観測・制御することで,より柔軟なモデルを構築すること。
    • EVE (Elemental Variational Expanse)は,局所的な確率的計算単位として機能する変分ニューロンであり,内部潜在次元kを変化させることで動作モードが変化することが示された。
    • 内部診断と制約により,EVEの内部状態に関する指標(KL divergence,mu^2の範囲,外れ値の割合など)が測定可能であり,下流の動作と相関があることが確認された。
    • 本研究は,変分ニューロンの設計空間の最初のマップを提供し,潜在次元,制御,時間的拡張がニューロンの動作をどのように形成するかを実験的に示した。

    Link: https://arxiv.org/abs/2603.13849