arXiv雑要約

AI - 2026/03/17 公開

  • 難治性統合失調症に対する経皮的耳介迷走神経刺激反応の予測バイオマーカーとしての前頭頭頂葉および前頭側頭葉脳波コヒーレンス:機械学習研究 [cs.LG]目的:難治性統合失調症における経皮的耳介迷走神経刺激に対する個体差を予測する機械学習モデルの開発
    • 統合失調症は難治性が高く,新たな治療法の開発が求められている。
    • 経皮的耳介迷走神経刺激の効果には個人差があり,治療効果の予測が困難である。
    • 脳波を用いて,効果が見込まれる患者を事前に特定することを目的とする。
    • 機械学習モデルは,活動群において経皮的耳介迷走神経刺激の効果を正確に予測できた(r = 0.87, p < .001)。
    • 予測モデルにおいて,前頭頭頂葉および前頭側頭葉のコヒーレンスが重要な特徴量として特定された。
    • 脳波のコヒーレンスは,効果予測だけでなく,治療標的としての可能性も示唆された。

    Link: https://arxiv.org/abs/2603.13850

  • APEX-Searcher:エージェント的計画と実行によるLLMの検索能力の拡張 [cs.CL, cs.AI]目的:複雑な質問に対するLLMの検索能力の向上
    • LLMを活用した知識検索は,多様な応用分野で不可欠な技術である。
    • 複雑な質問では,単一の検索ラウンドでは十分な精度が得られない場合がある。
    • 曖昧な検索経路やRLにおける報酬の希薄性による課題を解決する。
    • APEX-Searcherは,計画と実行を分離した二段階のエージェント的フレームワークである。
    • まず,分解に特化した報酬を用いたRLで戦略的計画を最適化する。
    • 次に,高品質な多段式軌跡で教師ありファインチューニングを行い,反復的なサブタスク実行能力を高める。

    Link: https://arxiv.org/abs/2603.13853

  • ブール論理のための冪項多項式代数 [cs.LO, cs.AI, cs.SC]目的:ブール論理式の表現言語
    • ブール関数を扱う上で,効率的な表現方法が重要である。CNFとANFは代表的な表現だが,変換時に指数関数的な増加が生じうる。
    • CNFとANF間の直接変換は,構造によっては指数関数的なサイズの増加を引き起こす。補助変数や制約が不要な表現が求められている。
    • CNFとANFの間の構造的な不整合を表現レベルで解消し,コンパクトな表現を可能にすること。
    • 冪項と冪項多項式を用いて言語を形式化し,ブール演算に対応する代数的演算を定義した。
    • 論理和の節はコンパクトなカノニカル表現を持つこと,冪項は局所的な短縮・展開規則をサポートすることを示した。
    • このフレームワークは,句ベースと代数ベースの推論を橋渡しし,構造を意識したCNF/ANF変換やハイブリッド推論手法の新たな方向性を示す。

    Link: https://arxiv.org/abs/2603.13854

  • OrigamiBench:折り畳み可能な折り紙を合成するためのインタラクティブな環境 [cs.LG, cs.CV]目的:折り紙の自動合成のためのインタラクティブなベンチマーク環境
    • 物理世界で計画・行動・創造するAIの実現には,パターン認識を超えた理解が不可欠である。
    • 既存のベンチマークは,視覚認識とプログラム的推論を分離しており,統合的な評価が困難である。
    • 視覚,幾何学的制約,計画を統合し,AIの物理的推論能力を評価することを目指す。
    • OrigamiBenchは,モデルが折りを提案し,物理的妥当性と目標形状への類似性に関するフィードバックを受け取る環境である。
    • 現在のビジョン・言語モデルは,モデルサイズの拡大だけでは物理的変換に関する因果的推論能力が向上しないことが示された。
    • 一連の折り畳み戦略を生成することが難しく,視覚と言語表現の統合が不十分であることが示唆された。

    Link: https://arxiv.org/abs/2603.13856

  • TransDex: 透明物体の器用な操作のための点群再構成による視覚-触覚ポリシーの事前学習 [cs.RO, cs.AI]目的:透明物体の器用な操作のための3D視覚-触覚融合モーターポリシー
    • ロボットによる複雑なタスク実現には不可欠だが,自己遮蔽やノイズの影響を受けやすい
    • 透明物体の操作において,自己遮蔽,深度ノイズ,深度情報の損失が課題となる
    • 点群再構成による事前学習で,透明物体の操作における課題を克服すること
    • 提案手法TransDexは,既存手法と比較して透明物体の操作実験で優れた性能を示した。
    • Transformerに基づく点群再構成事前学習により,ノイズやマスキング下でも物体の3D構造を高精度に復元可能である。
    • TransDexの各構成要素の効果と,その汎化性能が検証された。

    Link: https://arxiv.org/abs/2603.13869

  • ニューラルネットワークの汎化を記述する補間公式について [cs.LG, math.DS]目的:ニューラルネットワークの汎化性能に関する補間公式の拡張
    • 機械学習モデルの汎化性能の理解は,実用的な応用において極めて重要である。
    • 勾配降下法で学習されたモデルの汎化メカニズムは,完全には解明されていない。
    • 確率的学習における汎化性能を,カーネル機械との関連性から解明する。
    • 本研究では,確率的学習に拡張されたDomingosの補間公式を導入し,最適化手法に依存する重み付けによるカーネル機械表現を示した。
    • 損失関数と学習軌跡における勾配の整合性が,学習サンプルへの寄与を決定することを明らかにした。
    • 拡散モデルとGANsを,経路カーネルの視点から統一的に解釈し,学習過程で暗黙的に形成される特徴空間メモリの重要性を示唆した。

    Link: https://arxiv.org/abs/2603.13872

  • GradMem:テスト時勾配降下による文脈のメモリへの書き込み学習 [cs.CL, cs.LG]目的:長文脈条件下の言語モデルにおけるメモリ効率の向上
    • 大規模言語モデルの応用拡大に伴い,長文脈処理の重要性が増している。
    • TransformerモデルのKVキャッシュはメモリ消費量が大きく,効率性に課題がある。
    • 文脈を圧縮してメモリに保存し,効率的な質問応答を実現する手法を開発する。
    • GradMemは,テスト時勾配降下を用いて文脈をメモリに書き込むことで,既存手法よりも高い性能を発揮する。
    • メモリサイズを一定に保ちながら,勾配ステップ数を増やすことで,メモリ容量が効果的に向上する。
    • 事前学習済み言語モデルと組み合わせることで,bAbIやSQuADなどの自然言語タスクでも競争力のある結果が得られる。

    Link: https://arxiv.org/abs/2603.13875

  • 中国写本のサイアミーズ,トリプレット,ビジョントランスフォーマーニューラルネットワークによる筆跡鑑定 [cs.MA, cs.CY, cs.LG, eess.IV]目的:中国写本の筆跡鑑定
    • 歴史資料の正確な解釈には,写本の作成者を特定することが重要である。
    • 写本の断片化が進み,同一筆者によるものかの判断が困難になっている。
    • 深層学習を用いて,写本断片の筆跡同一性を自動的に判定すること。
    • MobileNetV3+ Custom Siameseモデルが,両データセットで最高の精度またはそれに近い精度を示した。
    • コントラスティブ損失を用いた学習が,筆跡鑑定において有効であることが示された。
    • Transformerベースのモデルも有効であり,今後の発展が期待される。

    Link: https://arxiv.org/abs/2603.13877

  • Step-CoT:医療画像質問応答のための段階的視覚的思考過程 [cs.CV, cs.AI, cs.CL]目的:医療画像質問応答における段階的な視覚的思考過程の構築
    • 医療診断の精度向上には,画像からの正確な情報抽出と論理的な推論が不可欠である。
    • 既存の思考過程は自由形式で,臨床医の構造化された思考プロセスを捉えきれていない。
    • 臨床診断ワークフローに沿った,追跡可能な多段階の推論を促進し,精度と解釈性を向上させる。
    • Step-CoTは,10K件以上の臨床事例と70K件の質問応答ペアを含む大規模な医療推論データセットである。
    • 本研究で提案する教師・生徒フレームワークは,診断的に重要なステップを優先し,無関係な情報をフィルタリングする。
    • Step-CoTを利用することで,医療画像質問応答の推論精度と解釈性の向上が確認された。

    Link: https://arxiv.org/abs/2603.13878

  • ニューロモーフィックエッジロボティクスにおける信頼性確保のエネルギーコストのベンチマーク [cs.NE, cs.AR, cs.LG, cs.RO]目的:信頼性確保のエネルギーコストの定量化
    • エッジロボティクスへのAI導入は重要性が増している。しかし,信頼性とエネルギー効率の両立が課題である。
    • 既存の防御機構は計算コストが高く,省電力デバイスへの実装が困難である。
    • ニューロモーフィックシステムにおけるエネルギー効率の良い信頼性確保手法を確立すること。
    • 提案手法は,従来の深層学習防御と異なり,ロバスト性を向上させつつエネルギー効率を維持している。
    • 勾配ベースおよび時間ジッタ攻撃の成功率を大幅に低減し,推論あたりのエネルギー消費量を約45マイクロジュールに抑えた。
    • 揮発性ゲート可塑性メカニズムによるネットワークのスパース化により,防御設定下で動的電力消費量が減少するという逆説的な結果が得られた。

    Link: https://arxiv.org/abs/2603.13880

  • 中国語テキスト認識のためのマルチモーダル文字位置特定と抽出 [cs.CV, cs.AI]目的:中国語テキスト認識における文字の位置特定と抽出
    • 画像からテキストを認識する技術は,自動運転や文書処理など幅広い分野で重要である。
    • 中国語は構造が複雑で文字の種類が多いため,既存の英語向け技術の精度が伸び悩んでいる。
    • 英語向けモデルをそのまま中国語に適用することの妥当性を検証し,新たな手法を提案する。
    • 提案手法LERは,文字の位置特定,抽出,認識の3つのモジュールで構成される。
    • 中国語の複雑な構造を考慮し,各文字を独立して認識することで高い精度を実現した。
    • 大規模な中国語データセットでの実験により,既存手法を大きく上回る性能が確認された。

    Link: https://arxiv.org/abs/2603.13886

  • 大規模言語モデルにおけるテキストアノテーション時の人種的ステレオタイプの再現 [cs.RO, cs.MA, cs.CL, cs.AI]目的:大規模言語モデルを用いたテキストアノテーションにおける人種的ステレオタイプの再現性
    • 自然言語処理の発展により,大規模言語モデルが多様なタスクで活用されている。
    • 大規模言語モデルが学習データに存在する偏りを反映し,差別的な結果を生む可能性がある。
    • テキストアノテーションにおける大規模言語モデルのバイアスを定量的に評価し,問題点を明らかにする。
    • 19種類の言語モデルを用いた実験により,テキスト中のわずかな手がかりが人種的ステレオタイプを反映したアノテーション結果を生み出すことが示された。
    • 特定の民族名を含むテキストは,攻撃的または詮索好きであると評価される傾向があり,アジア系の名前は知的だが,自信がなく社交性がないと評価される傾向が見られた。
    • また,アフリカ系アメリカ人の方言で書かれた文章は,標準的な英語に比べてプロフェッショナルでない,教育水準が低い,有害である,怒っていると判断される傾向が確認された。

    Link: https://arxiv.org/abs/2603.13891

  • UVLM:再現性のあるマルチモーダルベンチマークのための汎用ビジョン言語モデルローダー [cs.LG, cs.AI, cs.CV]目的:ビジョン言語モデルのローディング,設定,ベンチマークの統一的インターフェース
    • 画像理解タスクにおいて,ビジョン言語モデルは強力なツールとなりつつある。
    • モデル間のアーキテクチャの異質性が大きく,実用的な展開が妨げられている。
    • 異なるモデルを同一の条件で比較するためのフレームワークを構築すること。
    • UVLMは,LLaVA-NeXTとQwen2.5-VLを含む複数のVLMアーキテクチャをサポートする。
    • カスタムの画像分析タスクに対して,統一された推論関数を提供し,プロンプトと評価プロトコルの一貫性を保つ。
    • 街並み画像のコーパスを用いたベンチマークにより,VLMの複雑な推論能力を評価した。

    Link: https://arxiv.org/abs/2603.13893

  • ノイズラベルに対する閉ループラベル修正を用いたロバストな自己教師あり学習 [cs.LG, cs.AI, cs.CV]目的:ノイズラベルからの学習におけるロバスト性の向上
    • 深層学習の性能はデータ量に依存するが,現実世界のデータにはノイズを含む場合が多い。
    • 既存手法はノイズサンプルの利用効率が低く,計算コストが高いという課題がある。
    • ノイズの少ないデータと特徴量を利用し,誤差の増幅を防ぐ自己教師あり学習フレームワークを提案する。
    • 提案手法は,分類器と修正関数を共進化させ,閉ループフィードバックシステムを構築することで,ノイズの影響を軽減する。
    • 理論的保証により安定性が示されており,CIFARやClothing1Mなどのベンチマークデータセットで最先端の性能を達成した。
    • 学習時間の短縮も確認され,ノイズラベルからの学習への実用的な適用性を示唆している。

    Link: https://arxiv.org/abs/2603.13894

  • エッジ異常検知のための多目的スタックドオートエンコーダ最適化 (MO-SAE) [cs.NE, cs.LG]目的:エッジ環境における異常検知のためのスタックドオートエンコーダ最適化
    • エッジデバイスの普及に伴い,リアルタイムな異常検知の重要性が増している。
    • スタックドオートエンコーダはリソース消費が大きく,エッジデバイスへの実装が困難である。
    • ストレージ,電力,推論速度,モデル更新といった複数の制約下で,最適化を図る。
    • 提案手法MO-SAEは,モデル剪定,マルチブランチ出口設計,行列近似技術を統合することで,複数の目的を同時に最適化する。
    • x86アーキテクチャ上では,ストレージと消費電力を50%以上削減し,実行効率を28%以上向上,圧縮率を11.8%達成した。
    • ARMアーキテクチャのエッジデバイス上では,推論速度が15%向上し,クラウド-エッジ協調異常検知システムの効率的な展開に貢献する。

    Link: https://arxiv.org/abs/2603.13895

  • 都市交通監視のための分散音響センシング:再帰型ニューラルネットワークにおける時空間的注意機構 [cs.LG, cs.SD]目的:都市交通監視のための分散音響センシングにおける時空間的注意機構の有効性
    • 都市のモビリティ向上,安全性確保,持続可能性支援のため,効果的な交通監視が不可欠である。
    • 既存の光ファイバー網を活用するDASデータは高解像度だが,その時空間構造のモデル化が困難である。
    • DASデータの時空間的特徴を捉え,信頼性の高い交通イベント認識を実現することを目的とする。
    • 時空間的注意機構を再帰型ニューラルネットワークに組み込むことで,認識精度とモデルの複雑さのバランスが改善された。
    • 注意機構のヒートマップは,分類判断の根拠となる空間的場所と時間的セグメントを可視化し,解釈可能性を高めた。
    • 提案するSA-bi-TA構成は,学習データとは異なる場所での交通イベント認識において,空間的な転移性を実証した。

    Link: https://arxiv.org/abs/2603.13903

  • 1つのトークンでのピクセルレベルのシーン理解:視覚状態には「何がどこにあるか」の構成が必要である [cs.CV, cs.AI, cs.LG, cs.RO]目的:視覚状態表現の学習
    • ロボットが動的な環境で動作するには,視覚情報の効率的な表現が不可欠である。
    • 既存の自己教師あり学習法は汎化性能が高いが,良好な視覚状態が何をエンコードすべきか明示していない。
    • シーン要素のセマンティック情報と空間位置を同時にエンコードすることで,微妙な変化を捉えることを目指す。
    • 提案手法CroBoは,グローバルなボトルネックトークンを用いて,局所的なターゲット領域の隠れたパッチを再構成する。
    • この学習目標により,ボトルネックトークンはシーン全体のセマンティックエンティティの詳細な表現を学習する。
    • 実験結果は,学習された視覚状態がシーン要素の動きや相互作用を捉え,ロボットの意思決定を支援することを示している。

    Link: https://arxiv.org/abs/2603.13904

  • 非IIDデータに対するロバストなパーソナライズされた学習のためのProximal-Balanced Scaling連合学習モデルFedPBS [cs.RO, cs.LG, cs.AI, cs.DC]目的:非IIDデータにおけるロバストかつパーソナライズされた学習
    • 医療,金融,モビリティなど多様な分野でデータプライバシー保護と機械学習の活用が求められている。
    • 連合学習では,統計的異質性やクライアントの参加不均衡が収束とモデル品質を低下させる問題がある。
    • クライアントのリソースに応じたバッチサイズ調整と近接補正により,分散環境下での安定性と性能向上を目指す。
    • FedPBSは,CIFAR-10やUCI-HAR等のベンチマークデータセットにおいて,既存手法(FedBS, FedGA, MOON, FedProx等)を凌駕する性能を示した。
    • 特に非IID条件下で顕著な性能向上が見られ,損失関数の滑らかな推移から安定した収束が確認された。
    • UCI-HARとCIFAR-10において,FedPBSは厳しい非IID条件下でも,安定した信頼性の高い収束を維持しつつ,優れた性能を発揮する。

    Link: https://arxiv.org/abs/2603.13909

  • 幻覚の現象学 [cs.AI, cs.CL, cs.LG]目的:言語モデルにおける幻覚のメカニズム解明
    • 大規模言語モデルの信頼性向上は,社会実装において不可欠である。
    • 言語モデルが不確実性を認識しつつも,誤った情報を生成する原因が不明である。
    • 言語モデルが不確実性を出力生成に統合できないメカニズムを明らかにする。
    • 言語モデルは不確実性を検知するものの,それが出力に反映されにくいことが示された。
    • 不確実性の表現は分散し,棄権状態に収束しないことが,幻覚の原因と考えられる。
    • 不確実性を出力層に直接接続することで,モデルが回答を拒否するようになることが確認された。

    Link: https://arxiv.org/abs/2603.13911

  • SmoothVLA:物理制約を考慮した視覚-言語-行動モデルのアライメント [eess.SY, cs.SY, cs.RO, cs.AI]目的:視覚-言語-行動モデルの物理的制約との整合性
    • ロボットの操作において,視覚情報と自然言語による指示を理解し行動するモデルが重要視されている。
    • 既存手法では,安定性と探索のバランスが難しく,実用的なロボット制御に課題が残る。
    • 本研究は,物理的に実行可能な滑らかな軌道生成を通して,ロボットの操作性能向上を目指す。
    • SmoothVLAは,タスクのパフォーマンスと動きの滑らかさを同時に最適化する新しい強化学習フレームワークである。
    • 物理に基づいたハイブリッド報酬関数を用いることで,外部からのフィードバックなしに,滑らかな軌道を学習可能にした。
    • LIBEROベンチマーク実験の結果,SmoothVLAは既存の強化学習手法よりも滑らかさで13.8%向上し,汎化性能も優れていることが示された。

    Link: https://arxiv.org/abs/2603.13925

  • 現実志向:不均衡学習のための解釈可能かつ実行可能なデータ拡張 [cs.LG]目的:不均衡学習におけるデータ拡張手法の解釈可能性と実用性の向上
    • 機械学習の多くの分類タスクは不均衡データセットを扱うため,適切な手法が求められる。
    • 既存のオーバーサンプリングは非現実的または実行不可能なサンプルを生成するリスクがある。
    • ドメインルールに基づいた解釈可能なデータ拡張により,性能向上と妥当性保証を目指す。
    • 提案手法DPG-daは,学習済みモデルから解釈可能な決定述語を抽出し,制約を満たし多様なデータを生成する。
    • 合成データセットおよび実データセットにおいて,DPG-daは従来のオーバーサンプリング手法を上回る分類性能を達成した。
    • 生成されたデータは論理的に妥当であり,拡張データの解釈可能性も提供される。

    Link: https://arxiv.org/abs/2603.13927

  • 局所生成予測器を用いた識別的フローマッチング [cs.CV, cs.AI]目的:識別的フローマッチングの提案
    • 従来の画像認識は効率性重視だが,生物の視覚や生成モデルの反復的な改良・頑健性に劣る
    • 静的な特徴量変換では,複雑なタスクへの対応や多様なアーキテクチャへの適用が困難である
    • 生成モデルと識別モデルの利点を組み合わせた,ロバストな推論フレームワークの実現
    • 本研究では,分類や物体検出を条件付き輸送過程として再構築する「識別的フローマッチング」を提案した
    • 複数の独立したフロー予測器を共有バックボーンに接続し,局所的なフローマッチング目標を用いて訓練することで,柔軟性と効率性を両立
    • 提案手法は,CNNやVision Transformerなど多様なアーキテクチャで高い性能を発揮し,ハードウェア制約にも対応可能である

    Link: https://arxiv.org/abs/2603.13928

  • CPU上での真の4ビット量子化畳み込みニューラルネットワーク訓練:フル精度との同等性能の達成 [cs.LG]目的:真の4ビット精度での畳み込みニューラルネットワーク訓練手法
    • 深層学習研究へのアクセスを民主化し,計算コストを削減するために低精度ニューラルネットワーク訓練が重要である。
    • 既存の4ビット量子化手法は,高価なGPUが必要であったり,大幅な精度劣化が生じたりする問題がある。
    • 本研究は,標準的なCPU上でフル精度と同等の性能を達成する4ビット量子化訓練を目指す。
    • 提案手法は,Google Colabの無料CPU環境において,CIFAR-10で92.34%のテスト精度を達成し,フル精度ベースライン(92.5%)と同等の性能を示した。
    • CIFAR-100においても,同じアーキテクチャと訓練手順で70.94%のテスト精度を達成し,より困難な分類タスクへの汎化性を示した。
    • 訓練中は常に層あたり15個のユニークな重み値を維持しながら,FP32と比較して8倍のメモリ圧縮を実現した。

    Link: https://arxiv.org/abs/2603.13931

  • LLMを用いた生成型推薦における,個人から集団への利益に関する反復的意味推論 [cs.CL, cs.IR, cs.AI]目的:生成型推薦のための反復的意味推論フレームワーク
    • 推薦システムは,ユーザーの嗜好を理解し,適切なアイテムを提案する上で重要である。
    • 従来の推薦手法では,個人の嗜好だけでなく集団の嗜好も考慮する必要があった。
    • 個人と集団の嗜好を統合的に推論し,推薦精度を向上させることを目指す。
    • 提案手法ISRFは,アイテム属性間の双方向推論により,ユーザーの明示的な嗜好を捉える。
    • 類似ユーザーグループの嗜好を推論することで,暗黙的な嗜好を考慮した推薦を実現する。
    • 個人嗜好と集団嗜好の反復的な最適化により,一貫性のある嗜好推論が可能となり,推薦性能が向上する。

    Link: https://arxiv.org/abs/2603.13934

  • GroupGuard:マルチエージェントシステムにおける共謀攻撃のモデル化と防御のためのフレームワーク [cs.AI]目的:マルチエージェントシステムにおける共謀攻撃のモデル化と防御
    • 大規模言語モデルによるエージェントの活用が進む中で,安全性の確保が重要となる。
    • 複数のエージェントが連携してシステムを欺く共謀攻撃は,未だ対策が十分でない。
    • 共謀攻撃を検出し,システムの協調的パフォーマンスを回復することを目的とする。
    • 本研究では,グラフベースの監視,ハニーポット誘引,構造的刈り込みを組み合わせた防御フレームワークGroupGuardを提案する。
    • 実験結果から,共謀攻撃は単独攻撃に比べて攻撃成功率を最大15%向上させることが示された。
    • GroupGuardは最大88%の検出精度を達成し,マルチエージェントシステムの安全性を高める有効な解決策となりうる。

    Link: https://arxiv.org/abs/2603.13940

  • Sat-JEPA-Diff:自己教師あり学習と生成拡散モデルを融合し,リモートセンシングの予測精度向上 [cs.CV, cs.LG]目的:衛星画像予測における構造的精度とテクスチャの詳細度の両立
    • リモートセンシングは,地球環境のモニタリングや災害管理など,幅広い分野で不可欠な技術である。
    • 従来の予測手法は,平均回帰の問題に陥りやすく,地理空間の特徴が曖昧な画像になりがちである。
    • 構造的精度とテクスチャの品質を両立させ,より鮮明で信頼性の高い衛星画像予測を実現する。
    • Sat-JEPA-Diffは,自己教師あり学習と拡散モデルを組み合わせることで,構造予測の精度を向上させている。
    • GSSIMスコア0.8984,FIDスコア0.1475を達成し,既存の決定論的ベースラインモデルを大きく上回る性能を示した。
    • 特に,鮮明な境界の表現において優れており,地理空間特徴の識別能力を高めている。

    Link: https://arxiv.org/abs/2603.13943

  • LLM誘導による強化学習を用いた音声視覚音声強調 [cs.SD, cs.AI, eess.AS]目的:音声視覚音声強調における強化学習フレームワーク
    • 音声強調は,様々な環境下での音声通信の品質向上に不可欠である。
    • 従来の評価指標は,知覚品質との相関が低く,最適化の解釈が困難である。
    • 知覚に即した評価指標に基づき,音声品質の向上を目指す。
    • 大規模言語モデル(LLM)による音声記述を活用し,強化学習の報酬関数を定義した。
    • 提案手法は,従来の教師あり学習やDNSMOSベースの強化学習よりも,客観評価及び主観評価で優れた性能を示した。
    • LLMによるフィードバックは,音声品質の改善を詳細に記述する点で,従来の指標よりも有効である。

    Link: https://arxiv.org/abs/2603.13952

  • EviAgent:画像所見に基づく放射線科レポート生成エージェント [cs.AI]目的:放射線科レポートの自動生成
    • 放射線科医の業務負荷が大きく,効率化が求められている。
    • 既存のモデルは根拠が不明確で,診断の根拠となる画像情報が欠如している。
    • 診断根拠の提示と外部知識の活用によるレポート生成の信頼性向上。
    • EviAgentは,複雑な生成プロセスを細分化し,透明性の高い推論経路を構築する。
    • 多次元画像専門家と検索メカニズムを統合し,明示的な視覚的証拠と高品質な臨床的知識を提供する。
    • MIMIC-CXR等のデータセットで,汎用モデルや専門医療モデルを上回る性能を示した。

    Link: https://arxiv.org/abs/2603.13956

  • VLA評価:ビジョン-言語-行動モデル統一評価フレームワーク [cs.AI]目的:ビジョン-言語-行動モデルの評価における統一的なフレームワーク
    • AI研究において,多様なタスクに対応できるモデルの評価は,性能向上に不可欠である。
    • 既存の評価方法は,ベンチマークごとにスクリプトが異なり,コードの重複や依存関係の問題が生じやすい。
    • モデルとベンチマークの評価プロセスを標準化し,再現性と効率性を高めることを目指す。
    • vla-evalは,WebSocketプロトコルとDockerによる環境分離を利用し,モデル推論とベンチマーク実行を分離することで,評価の一貫性を実現した。
    • このフレームワークにより,13のシミュレーションベンチマークと6つのモデルサーバーをサポートし,評価スループットを47倍に向上させた。
    • 公開されたVLAモデルの再現性検証を実施し,未文書化の要件や曖昧な終了条件など,結果に影響を与える要因を明らかにした。

    Link: https://arxiv.org/abs/2603.13966

  • 形状だけでは不十分:CONSERVAttackとその機械学習アプリケーションにおける脆弱性と不確実性の発見への利用 [cs.LG, hep-ex]目的:機械学習アプリケーションにおける脆弱性と不確実性の発見
    • 高エネルギー物理学をはじめとする科学分野において,機械学習は重要な役割を果たしている。
    • 物理的な動機に基づいた検証や特定領域への制約は,全てのずれの原因を網羅する保証はない。
    • シミュレーションとデータの間の未考慮のずれを検出し,モデルの脆弱性を評価する。
    • 本研究では,CONSERVAttackという新しい敵対的攻撃を提案し,既存の検証を回避しつつモデルを欺く摂動を生成する。
    • この攻撃は,不確実性の範囲内で一貫しており,シミュレーションとデータのずれを巧みに利用する。
    • 深層学習の解釈において,敵対的影響に対するロバスト性を考慮することが重要である。

    Link: https://arxiv.org/abs/2603.13970

  • チャンク誘導Q学習 [cs.LG, cs.AI]目的:オフライン強化学習におけるQ値推定の最適化
    • 強化学習は,複雑な問題解決に有効だが,サンプル効率が課題である
    • オフライン強化学習では,ブートストラップ誤差の蓄積が性能低下の原因となる
    • チャンク誘導Q学習は,誤差蓄積を抑制しつつ,きめ細かい価値伝播を維持する
    • 提案手法CGQは,単一步調TD学習やアクションチャンクTD学習よりもタイトな最適性限界を達成する
    • CGQは,難しい長期間のOGBenchタスクにおいて,優れた性能を示す
    • 単一步調TD学習やアクションチャンクTD学習よりも高い性能をしばしば実現する

    Link: https://arxiv.org/abs/2603.13971

  • FLUX:学習に値するデータ [cs.CL, cs.AI]目的:大規模言語モデル学習のための高品質なデータセット構築
    • 近年の言語モデル発展には,膨大なデータが不可欠であり,その準備が重要課題となっている。
    • 既存のデータ前処理パイプラインは,規模と品質の両立が難しく,どちらかを犠牲にする必要があった。
    • FLUXは,大規模なデータ維持と厳格な品質管理を両立し,このトレードオフを打破することを目指す。
    • FLUXを用いて前処理されたデータで学習したモデルは,既存手法を上回る性能を示すことが確認された。
    • 3Bパラメータモデルにおいて,FLUXはMMLUの正答率32.14%を達成し,DCLMやFineWebを大きく上回った。
    • FLUXはDCLMと同等のスコアを,34.4%少ない計算量で実現しており,効率性も高い。

    Link: https://arxiv.org/abs/2603.13972

  • FPGAにおけるLSTMオートエンコーダの並列処理による高速化 [cs.AR, cs.LG]目的:LSTMオートエンコーダのFPGAによる高速化手法
    • 時系列データ処理においてRNNが不可欠であり,異常検知への応用が期待される。
    • RNNの逐次的な処理構造が,並列計算のボトルネックとなっている。
    • FPGAを用いて時間的並列性を活用し,複数層を同時に処理することで高速化を図る。
    • 提案手法は,CPU(Intel Xeon Gold 5218R)に対し最大79.6倍の処理速度向上を実現した。
    • GPU(NVIDIA V100)に対しても最大18.2倍の速度向上,CPUに対して最大1722倍,GPUに対して最大59.3倍のエネルギー効率改善を達成した。
    • ネットワークの深さに対するスケーラビリティも優れており,リアルタイムかつ省電力な異常検知への応用が期待できる。

    Link: https://arxiv.org/abs/2603.13982

  • 教師ありファインチューニングと強化学習:大規模言語モデルのポストトレーニング手法に関する研究 [cs.AI, cs.CL]目的:大規模言語モデルのポストトレーニング手法に関する包括的な考察
    • 事前学習済みLLMは多様な能力を持つが,特定のタスクでの精度向上にはポストトレーニングが不可欠である。
    • SFTとRLは独立した手法として扱われがちだが,その関係性や効果的な組み合わせが十分に理解されていない。
    • SFTとRLを統合的に理解し,それぞれの有効性を明確にすることで,効率的なLLMポストトレーニングを可能にする。
    • 本研究は,SFTとRLの目的,アルゴリズム,データ要件を詳細に分析し,両者の相互作用を明らかにした。
    • 2023年から2025年の応用事例を分析し,ハイブリッドなポストトレーニングパラダイムへの移行と,各手法の有効性を考察した。
    • SFTとRLを統合したフレームワークを確立し,スケーラブルで効率的かつ汎用性の高いLLMポストトレーニングの将来展望を示した。

    Link: https://arxiv.org/abs/2603.13985

  • 忠実か,それとも単なる妥当性か:医療推論におけるクローズドソースLLMの忠実性の評価 [cs.RO, cs.AI, cs.LG]目的:クローズドソースLLMにおける医療推論の忠実性
    • 医療分野におけるLLM活用は急速に進んでおり,その安全性と信頼性が重要視されている。
    • LLMの生成する説明は一見もっともらしいものの,その根拠が曖昧である場合がある。
    • LLMの説明の忠実性を評価し,医療現場における安全な利用を促進すること。
    • 提示された推論過程が必ずしも予測に影響を与えないことが示された。
    • LLMは外部からの示唆を容易に取り込み,それを明示しない傾向があることが明らかになった。
    • 入力位置によるバイアスは,この設定では小さいことが確認された。

    Link: https://arxiv.org/abs/2603.13988

  • VAD4Space:惑星表面画像の異常検知 [cs.CV, cs.AI]目的:惑星探査における自動発見のための視覚異常検知の有効性
    • 惑星探査では,大量の画像データを効率的に処理する必要があるため,自動化技術が不可欠である。
    • 教師あり学習は,ラベル付きデータの不足や未知の異常現象への対応が困難である。
    • 限られた計算資源下でも機能する,惑星表面画像の異常を効率的に検知する手法を確立する。
    • 視覚異常検知(VAD)手法は,惑星表面の珍しい現象を効果的に識別できることが示された。
    • 特に,計算効率に優れた手法は,限られた資源環境下での搭載に適していることが確認された。
    • この研究は,惑星科学に基づいた実用的なベンチマークを確立し,新たな地質プロセスの発見に貢献する可能性を示唆する。

    Link: https://arxiv.org/abs/2603.13993

  • 自己教師ありVision Transformerにおける人間らしい物体グルーピング [cs.CV, cs.AI, q-bio.NC]目的:自己教師あり学習によるVision Transformerにおける人間らしい物体認識の構造
    • 視覚モデルは多様なタスクで高い性能を示すが,人間とどのように一致するかは不明である。
    • 既存モデルと人間の物体認識とのずれが課題となっている。
    • モデルの物体構造が人間の知覚と一致するかどうかを検証する。
    • モデルの世代が進むにつれて,人間の反応時間予測の精度が向上した。
    • DINOを用いたTransformerモデルが最も高い性能を示した。
    • 物体中心的な構造の強さが,人間のセグメンテーション行動をより正確に予測する。

    Link: https://arxiv.org/abs/2603.13994

  • スポンサー付き検索広告におけるジオターゲティングのための位置情報認識埋め込み [cs.IR, cs.LG]目的:ジオターゲティングのための位置情報認識埋め込み表現
    • ウェブ検索は不可欠であり,その改善と収益化は重要課題である。検索クエリの文脈理解が鍵となる。
    • 位置情報を含むクエリが増加しているが,クエリ意図と位置情報の相互作用を捉えるのが難しい。
    • クエリと位置情報を低次元空間で表現し,関連性の高い広告表示を実現することを目指す。
    • 提案手法は,クエリ意図と位置情報の微妙な相互作用を捉えることができる。
    • 広告ランキングおよびクエリ-広告関連性のスコアを,位置情報を考慮しない既存手法を上回る。
    • 位置情報を考慮する既存手法と比較しても,効果が確認された。

    Link: https://arxiv.org/abs/2603.13997

  • 表形式機械学習のためのグラフ由来の信号の系統的評価プロトコル [cs.AI, cs.LG]目的:表形式機械学習におけるグラフ由来の信号の評価プロトコル
    • 表形式データへのグラフ構造の導入は,予測性能向上に繋がる可能性があり,注目を集めている。
    • 既存研究では,実験設定が限定的で,統計的な信頼性や頑健性が十分に検証されていない。
    • グラフ由来の信号の有効性を系統的に評価し,安定した性能向上をもたらす信号を特定すること。
    • 提案されたプロトコルを用いて,大規模な暗号通貨詐欺検出データセットを分析した結果,信頼性の高い信号カテゴリが特定された。
    • 特定のグラフ由来の信号が,詐欺を識別するための構造的パターンを示すことが示唆された。
    • 関係データの欠損や破損に対する信号の頑健性に違いがあり,実用的な有用性が示された。

    Link: https://arxiv.org/abs/2603.13998

  • U-Face:部分空間学習による効率的かつ汎用的な教師なし顔属性編集フレームワーク [cs.CV, cs.AI]目的:教師なし顔属性編集のための効率的かつ汎用的なフレームワーク
    • 顔属性編集は,デジタルエンターテインメントやアバター作成などに応用され,その重要性が増している。
    • 既存手法では,特定の属性を操作する際に他の属性に意図しない影響が生じ,制御が難しい。
    • 本研究は,属性間の絡み合いを解消し,よりきめ細かい制御を可能にすることを目的とする。
    • 提案手法U-Faceは,潜在ベクトルを低次元のセマンティック部分空間で近似することで,効率的な属性編集を実現する。
    • セマンティックベクトルに直交非負制約と属性境界ベクトルを導入し,潜在空間での属性の分離を改善した。
    • AIDCアルゴリズムにより,制約下での最適化問題を効率的に解き,収束性を保証した。

    Link: https://arxiv.org/abs/2603.14004

  • テクノロジー職場におけるメンタルヘルスケアの支援と多様性に関する形式的なアブダクティブな説明 [cs.CL, cs.AI]目的:テクノロジー職場のメンタルヘルスケア支援に関するAI予測の根拠を明らかにすること
    • 職場環境におけるメンタルヘルスケアの重要性が高まっているため,その支援方法の最適化が求められている。
    • AI予測の解釈性が低く,倫理的な問題や公平性の欠如が懸念されている。
    • AI予測の根拠を明確化し,公平性を評価することで,信頼性の高いシステムを構築すること。
    • 形式的なアブダクティブな説明フレームワークにより,AI予測の根拠を系統的に明らかにすることができた。
    • 精神病理学的プロファイルに基づいたモデル選択や,倫理的な対応策の計画立案が可能となった。
    • ジェンダーなどの機密属性がモデルの意思決定に与える影響を評価し,公平性評価に貢献することができた。

    Link: https://arxiv.org/abs/2603.14007

  • アウマン-SHAP:機械学習における反実仮想的相互作用の説明の幾何学 [cs.LG, cs.GT]目的:機械学習における反実仮想的推移の説明の幾何学的枠組み
    • 機械学習モデルの説明可能性は,信頼性と透明性を高める上で重要である。
    • 既存の説明手法では,特徴量間の複雑な相互作用を捉えるのが難しい。
    • 反実仮想的な推移における特徴量の寄与を正確に評価し,説明可能性を向上させる。
    • アウマン-SHAPは,反実仮想的な推移を特徴量間の相互作用を考慮して分解する。
    • アウマン-LESは,標準的なShapley値よりもロバストで優れた説明を提供する。
    • Shapley値とLES値は,統合勾配法に収束することが示された。

    Link: https://arxiv.org/abs/2603.14014

  • EI-Part: 分解による補完と内包による洗練 [cs.CV, cs.AI]目的:3D形状のパーツレベル生成
    • ゲーム,映画制作,産業デザインなど,様々な分野で3D形状のパーツレベル生成が不可欠である。
    • 既存手法では,構造的な一貫性,幾何学的な妥当性,精度,効率に課題があり,良好なパーツ生成が困難である。
    • 構造の一貫性と幾何学的詳細を保ちつつ,高品質な3Dパーツ生成を実現することを目的とする。
    • EI-Partは,パーツの補完に分解状態,幾何学的な洗練に内包状態を用いることで,高精度なパーツ生成を可能にする。
    • 自己注意機構により,パーツ間の構造的な一貫性を維持し,効果的な情報伝達と特徴融合を実現する。
    • 複数のベンチマークテストにおいて,EI-Partは最先端の性能を示し,意味的に妥当で構造的に整合性のとれたパーツを効率的に生成できる。

    Link: https://arxiv.org/abs/2603.14021

  • 交通と気象に駆動される橋梁モニタリングのためのハイブリッドデジタルツイン [cs.CL, cs.AI, cs.ET]目的:橋梁の状態監視のためのハイブリッドデジタルツインフレームワーク
    • 老朽化した社会インフラの維持管理は喫緊の課題であり,効率的なモニタリング手法が求められている。
    • 従来の橋梁モニタリングは専用センサーに依存し,コストや設置の困難さといった問題があった。
    • 既存のインフラを活用し,費用対効果の高い予測的メンテナンスを実現することを目指している。
    • 既存の交通カメラと気象APIを組み合わせることで,専用センサーに頼らない橋梁の状態監視が可能となった。
    • YOLOv8,LWRモデル,気象APIを融合することで,交通量,密度,疲労指標,メンテナンス分類を推定した。
    • モンテカルロシミュレーションとランダムフォレストモデルを用いることで,不確実性を定量化し,予測精度を向上させた。

    Link: https://arxiv.org/abs/2603.14028

  • オープンソース PPG 基礎モデルの生物学的年齢予測ベンチマーク [cs.LG]目的:PPGを用いた生物学的年齢予測の性能評価
    • PPGは簡便な測定手段であり,心血管疾患リスク評価等への応用が期待される。
    • 特定のデータセットに特化したモデルは,異なる集団への汎化性能が低い場合がある。
    • 汎用的な基礎モデルが,PPGに基づく生物学的年齢予測において有効か検証する。
    • Pulse-PPGは,交差検証においてMAE=9.28年と,AI-PPG Ageや従来の指標よりも優れた性能を示した。
    • 人口統計学的特徴量を追加することで,MAEは8.22年まで改善し,R2=0.517, r=0.725という結果が得られた。
    • 予測年齢の乖離は,暦年齢を調整後,収縮期血圧と相関があり,Apple社のPpgAgeモデルの結果と一致した。

    Link: https://arxiv.org/abs/2603.14030

  • 何がリアルと見なされるか:音声復元と声質変換はディープフェイク検出に新たな課題をもたらす [cs.SD, cs.AI, cs.LG, eess.AS]目的:ディープフェイク検出における新たな課題
    • 音声認証技術はセキュリティにおいて重要であり,その堅牢性が求められている。
    • 既存のシステムは,音声の加工による分布の変化を偽装と誤認しやすい。
    • 音声変換や復元のような無害な加工が検出を妨げる問題を解決する。
    • 音声変換と復元は,話者性を維持しつつも分布外と判断される傾向があることが示された。
    • 多クラス問題として再構築することで,無害な変化に対するロバスト性が向上し,偽装検出精度も維持された。
    • 既存の二値分類システムは,音声の真実性ではなく,生の音声分布をモデル化している可能性が示唆された。

    Link: https://arxiv.org/abs/2603.14033

  • 大規模言語モデルにおける数学的推論のためのGRPOとリフレクション報酬 [cs.AI]目的:大規模言語モデルの数学的推論能力の強化
    • 大規模言語モデルの推論能力向上は,その応用範囲拡大において不可欠である。
    • 既存手法では,学習中に積極的なリフレクションを促す仕組みが不十分である。
    • リフレクション報酬とGRPOを用いて,モデルの自己反省能力を向上させる。
    • 提案手法GRPOは,リフレクションを促す学習により,最先端の性能を達成した。
    • リフレクション報酬が性能向上に重要な役割を果たすことが,消去実験によって確認された。
    • 全パラメータSFTがLoRAよりも優れていることが,計算コストを考慮しても示された。

    Link: https://arxiv.org/abs/2603.14041

  • 合理性を考慮した妥当性の理論 [cs.IR, cs.CL, cs.NE]目的:規範的妥当性に関する理論
    • 社会行動を理解する上で,人間の規範意識の起源とメカニズムを解明することは重要である。
    • 従来の合理選択理論では,規範の文脈依存性や自動性といった特徴を十分に説明できない。
    • 本研究は,大規模言語モデルに着想を得た新しい理論によって,規範の特性をより適切に説明することを目指す。
    • 本理論では,個人を文脈に基づいて予測パターンを完成させる主体として捉え,規範を分散的記号パターンの完成と解釈する。
    • このメカニズムにより,規範の文脈依存性,恣意性,自動性,ダイナミズムといった特徴を簡潔に説明できる。
    • また,合理性を文化的に依存する正当化基準への適合として再解釈し,二重過程モデルへの新たな視点を提供する。

    Link: https://arxiv.org/abs/2603.14050

  • ネパール語-タマング語並列コーパスと基盤機械翻訳実験 [cs.CL, cs.AI, cs.LG]目的:ネパール語とタマング語の並列コーパスの開発と機械翻訳の基盤実験
    • 近年の翻訳システムは高品質な大規模並列データに依存しており,性能向上に不可欠である。
    • 南アジアの多くの言語では,そのようなリソースが不足しており,特にタマング語はそのデジタル化が遅れている。
    • ネパール語とタマング語間の機械翻訳を支援するための並列コーパスを構築し,翻訳性能の向上を目指す。
    • NepTam20K(2万語)とNepTam80K(8万語)のネパール語-タマング語並列コーパスを構築した。
    • NLLB-200のファインチューニングにより,ネパール語からタマング語への翻訳でsacreBLEUスコア40.92,タマング語からネパール語への翻訳で45.26を達成した。
    • 構築したコーパスは,農業,医療,教育,技術,文化,一般コミュニケーションの5つの分野を網羅している。

    Link: https://arxiv.org/abs/2603.14053

  • 需要駆動型コンテキスト:エージェントの失敗を通じた企業知識ベース構築のメソッド [cs.RO, cs.SY, eess.SY, cs.AI]目的:企業知識ベースの構築
    • LLMエージェントの専門知識は高いが,企業固有の知識不足が課題。
    • 従来の知識工学は,過剰な知識ベースや,暗黙知の獲得困難といった限界がある。
    • エージェントの失敗をシグナルに,必要最小限の知識ベース構築を目指す。
    • 需要駆動型コンテキスト(DDC)は,問題解決を起点とし,エージェントの要求に応じて知識をキュレーションする。
    • 小売注文処理の事例では,9サイクルの反復で再利用可能な46個のエンティティからなる知識ベースが構築された。
    • 約20-30サイクルの反復で,特定の役割に必要な知識ベースが完成するという仮説が示された。

    Link: https://arxiv.org/abs/2603.14057