arXiv雑要約

AI - 2026/03/18 公開

  • ASDA:金融推論のための自動スキル蒸留と適応 [cs.CL, cs.AI, cs.CE]目的:金融推論におけるスキル蒸留と適応の自動化
    • 金融分野では,高度な専門知識を必要とする推論が重要であり,LLMの活用が期待される。
    • LLMを金融分野に適合させるには高コストなファインチューニングが必要で,汎用性に欠ける。
    • ファインチューニングなしでLLMの金融推論能力を向上させ,実用的な適応方法を確立すること。
    • ASDAは,モデルの重みを変更せずに,反復的なエラー修正学習により構造化されたスキルアーティファクトを自動生成する。
    • FAMMAベンチマークにおいて,ASDAは算術推論で最大17.33%,非算術推論で5.95%の改善を達成し,既存の学習不要な手法を大幅に上回った。
    • 生成されたスキルアーティファクトは人間が読める形式で,バージョン管理が可能であり,Agent Skills標準に適合する。

    Link: https://arxiv.org/abs/2603.16112

  • PathGLS:正解データなしによる病理画像と自然言語モデルの評価 [cs.CV, cs.AI]目的:病理画像と自然言語モデルの信頼性評価手法の開発
    • 病理診断の効率化と精度向上に貢献する画像・言語モデルの活用が期待されている。
    • 既存の評価指標では,モデルが生成する誤った記述(ハルシネーション)を捉えきれないという課題がある。
    • ハルシネーションの検出と,ドメインシフトへのロバスト性を定量的に評価する指標を提供すること。
    • PathGLSは,画像とテキストの対応,論理的一貫性,出力の安定性の3側面からモデルを評価する新しいフレームワークである。
    • Quilt-1Mデータセットにおいて,PathGLSはハルシネーションレポートに対する感度低下をBERTScoreと比較して大幅に検出できた。
    • 専門家定義のエラー階層との相関分析で,PathGLSはLLMベースの手法よりも高い性能を示した(ρ=0.71)。

    Link: https://arxiv.org/abs/2603.16113

  • 高階帰納型からの関数的ニューラルアーキテクチャ [cs.LG, cs.AI, math.AT, math.CT]目的:組成的汎化の失敗の原因の解明と,関数的アーキテクチャによるその改善
    • ニューラルネットワークは高度な認識能力を持つが,複雑な構造のデータを扱う場合に汎化性能が低い。
    • 既存のニューラルネットワークは,既知の要素の新しい組み合わせに対して正しい出力を生成できない。
    • 高階帰納型を用いて,組成的汎化能力を持つニューラルアーキテクチャを構築し,その有効性を検証する。
    • デコーダの関数性は組成的汎化と同等であり,この視点から理論的な保証と限界が示された。
    • 高階帰納型仕様を,ターゲット空間の経路群へのモノイド関手としてコンパイルすることで,関数的なニューラルアーキテクチャを構築した。
    • トーラス,$S^1 \vee S^1$,クラインの壺の実験により,提案手法が従来のニューラルネットワークよりも優れた性能を発揮することが確認された。

    Link: https://arxiv.org/abs/2603.16123

  • SWE-QA-Pro:リポジトリレベルのコード理解のための代表的なベンチマークとスケーラブルな学習レシピ [cs.SE, cs.AI, cs.CL]目的:リポジトリレベルのコード理解に関するベンチマークと学習レシピ
    • ソフトウェア開発の自動化には不可欠だが,信頼できるベンチマークが存在しない。
    • 既存の評価は,学習済みモデルが暗記した知識で不正解釈する可能性があり,網羅性に欠ける。
    • 多様なリポジトリと厳格な難易度調整により,エージェント型コード理解の必要性を検証する。
    • SWE-QA-Proでは,エージェント型ワークフローが直接応答よりも大幅に高い性能を示すことが確認された。
    • スケーラブルな合成データパイプラインとSFT/RLAIFによる二段階学習レシピを提案し,小規模モデルでも効率的なツール利用と推論を可能にした。
    • Qwen3-8Bモデルは,提案レシピによりSWE-QA-ProでGPT-4oを上回り,最先端モデルとの差を縮小した。

    Link: https://arxiv.org/abs/2603.16124

  • 学習率減衰なし事前学習が,教師ありファインチューニングを向上させる [cs.CL, cs.LG]目的:大規模言語モデルの事前学習における学習率スケジューリングの影響の検証
    • 大規模言語モデルは自然言語処理の様々なタスクで高い性能を示すため,その事前学習方法の改善は重要である。
    • 事前学習時の学習率スケジューリングが,ファインチューニング後の性能に与える影響は十分に解明されていない。
    • ファインチューニング時の適応性を損なわずに,事前学習の性能を向上させる学習率スケジューリング戦略を模索する。
    • 学習率減衰なしのWSOが,事前学習後の性能は劣るものの,ファインチューニング後の性能において,減衰ベースのスケジューラよりも一貫して優れた結果を示した。
    • 損失地形の分析から,減衰ベースのスケジューラはより鋭い最小値にモデルを導き,WSOは適応性を支えるより平坦な最小値を維持することが示された。
    • 事前学習指標の改善のために学習率減衰を適用することは,下流タスクへの適応性を損なう可能性があることが示唆された。

    Link: https://arxiv.org/abs/2603.16127

  • 生成拡張が有害となる場合:AI分類システムにおけるバイアス修正のためのGANと拡散モデルのベンチマーク研究 [cs.CV, cs.AI, cs.LG]目的:AI分類システムにおけるバイアス修正のためのGANと拡散モデルの性能評価
    • AIシステムの公平性は重要であり,特にデータ不均衡によるバイアスは深刻な問題となる。
    • データ量が少ない状況下では,生成モデルがバイアスを悪化させる可能性が指摘されている。
    • 本研究は,GANの有害な影響を定量的に示し,適切な生成モデルの選択に貢献する。
    • FastGANによる拡張は,データセットサイズが小さい場合に分類器のバイアスを増加させる。
    • Stable Diffusion (LoRA) は,最も高いmacro F1スコア(0.9125 ± 0.0047)とバイアスギャップの13.1%削減を達成した。
    • GAN拡張が有害となるのは,クラスあたり20~50枚以下の学習画像の場合である可能性が示唆された。

    Link: https://arxiv.org/abs/2603.16134

  • 検証可能な報酬を用いた強化学習におけるノイズデータの破壊的影響 [cs.LG]目的:強化学習におけるノイズデータの有害性評価
    • 大規模言語モデルの能力向上に,検証可能な報酬を用いた強化学習が貢献している。
    • ノイズデータに対する強化学習の頑健性に関する先行研究に誤りがあった。
    • データ品質が低い場合でも有効な強化学習手法の限界を明らかにする。
    • 先行研究で示されたノイズデータに対する耐性は,クリーンなデータによる汚染が原因であった。
    • 厳密な再検証により,ノイズは強化学習において依然として有害であることが示された。
    • 現実世界のText2SQLタスクにおいても,ノイズデータは精度低下を引き起こすことが確認された。

    Link: https://arxiv.org/abs/2603.16140

  • 分散協調UAV展開のための通信を考慮したマルチエージェント強化学習 [cs.MA, cs.LG, cs.NI]目的:分散型協調UAV展開における強化学習フレームワークの構築
    • 災害時など,迅速な空中中継・センシングプラットフォームとしてのUAV群の活用が期待されている。
    • 現実的な環境下では,部分的な観測と断続的な通信リンクが課題となる。
    • 部分観測・限られた通信下での効率的な協調展開手法を確立すること。
    • 提案手法は,制限された通信環境下でも高いカバレッジを実現した (5機のUAVで10ノードに対し74%)。
    • チーム規模が変化しても,ファインチューニングなしに性能を維持した。
    • 敵対的環境においても,非通信ベースラインと比較して勝率が向上した。

    Link: https://arxiv.org/abs/2603.16141

  • ニューロンスパーク:選択的状態空間ダイナミクスを持つスパイクニューラルネットワーク言語モデル [cs.CL, cs.AI]目的:大規模言語モデリングにおけるスパイクニューラルネットワークの学習可能性
    • 脳型コンピューティングの実現に向け,エネルギー効率の高いモデルが求められている。
    • Transformerモデルは高性能だが,計算コストが高く,省エネルギー性に課題がある。
    • スパイクニューラルネットワークを用いた,Transformerに依存しない言語モデルの構築。
    • ニューロンスパーク0.9Bは,Transformerからの知識蒸留なしに,言語モデリングを学習できることを示した。
    • 限定的な計算資源下でも,pretraining loss 3.6を達成し,多岐にわたる対話能力の初期兆候が見られた。
    • 本研究は,大規模な言語モデリングにおいて,純粋なスパイクニューラルネットワークアーキテクチャの実現可能性を示唆する。

    Link: https://arxiv.org/abs/2603.16148

  • 制約付き強化学習による命令階層:HIPO [cs.LG, cs.AI, cs.CL]目的:階層的な命令追従のためのアライメントフレームワーク
    • 大規模言語モデルの利用拡大に伴い,複雑なタスクにおける制御性と信頼性が重要となっている。
    • 従来のRLHFやDPOといった手法では,システムプロンプト遵守が十分に保証されず,優先順位付けが困難である。
    • システムプロンプトを厳格な制約条件として扱い,ユーザの利便性を最大化する。
    • HIPOは,システムプロンプト遵守を制約条件として組み込んだ強化学習アプローチにより,モデルの性能を向上させた。
    • Qwen,Phi,Llamaといった多様なモデルアーキテクチャにおいて,システムプロンプト遵守率とユーザの利便性の両方が大幅に改善された。
    • メカニズム解析の結果,この制約付き最適化が,モデルの注意を長期的なシステムトークンへと自動的に誘導することが示された。

    Link: https://arxiv.org/abs/2603.16152

  • GATS:ガウス分布を考慮した時間的スケーリングTransformerによる不変な4D空間的時系列点群表現 [cs.DB, cs.CV, cs.AI]目的:4D点群動画の理解のための,ロバストかつ効率的なバックボーンの構築
    • 動的な環境を認識する知能エージェントの実現には,4D点群動画の理解が不可欠である。
    • フレームレートの変動や不規則な点群の分布的不確実性により,汎用的な4Dバックボーンの設計が困難である。
    • 時間的・分布的な歪みを明示的に解決し,不変な4D点群動画理解を実現する。
    • 提案手法GATSは,Uncertainty Guided Gaussian Convolution (UGGC)とTemporal Scaling Attention (TSA)という二つのモジュールを組み合わせている。
    • UGGCは点群の密度変動,ノイズ,オクルージョンに対してロバストな特徴集約を可能にする。
    • TSAはフレームレートの違いによる時間距離のばらつきを正規化し,高い認識精度とスケーラビリティを実現した。

    Link: https://arxiv.org/abs/2603.16154

  • DyJR:動的 Jensen-Shannon 再生による,検証可能な報酬を用いた強化学習における多様性の維持 [cs.CC, cs.LG, cs.AI]目的:強化学習における多様性の維持
    • 大規模言語モデルの推論能力向上に強化学習が活用されている。
    • 従来の強化学習は,過去のロールアウトを破棄するため,サンプル効率が低いという課題がある。
    • DyJRは,過去データの多様性を重視することで,この課題を解決することを目指す。
    • DyJRは,数学的推論やText-to-SQLのベンチマークにおいて,GRPOや他のベースライン手法と比較して,大幅な性能向上を示した。
    • DyJRは,訓練効率をGRPOと同等に維持しながら,多様性を高め,上位1位のトークンへの過度な依存を軽減することが示された。
    • DyJRの特定のサブモジュールが訓練のダイナミクスに与える影響が明らかにされた。

    Link: https://arxiv.org/abs/2603.16157

  • コード生成におけるGRPOのための実行に基づいた信用割り当て [cs.LG]目的:コード生成におけるGRPOの信用割り当ての改善
    • コード生成は,ソフトウェア開発の自動化に不可欠であり,その効率化が求められている。
    • 従来のGRPOでは,長いプログラム全体に均一に報酬が分配され,局所的な誤りの特定が困難である。
    • 実行トレースを用いて,信用割り当てを局所化し,正確な誤り箇所を特定することを目指す。
    • EGCAは,実行トレースに基づいてGRPOの更新を局所化することで,信用割り当ての精度を向上させる。
    • HumanEvalにおけるpass@1が82.1%(GRPO比+3.1%),MBPPが68.9%(GRPO比+1.5%)と性能が向上した。
    • EGCAは,追加の学習や検証器を必要とせず,わずか18%のオーバーヘッドで性能向上を実現した。

    Link: https://arxiv.org/abs/2603.16158

  • SQL-ASTRA:エージェント型SQLにおける疎なフィードバックの緩和:カラム集合マッチングと軌跡集約 [cs.AI]目的:エージェント型SQLにおける報酬メカニズムの改善
    • 複雑なタスク解決にエージェント型強化学習が有効だが,Text-to-SQLはシングルターンに限定されがち。
    • 従来のText-to-SQLでは,最終ターンのみで報酬が決定され,中間過程の評価が曖昧になる。
    • 多段階の評価と密なステップレベルの信号を提供し,報酬の割当問題を解決すること。
    • 集約軌跡報酬(ATR)は,過程指向のスコアを集約することで継続的な改善を促し,サイクルフリーなポリシーと単調収束を保証する。
    • カラム集合マッチング報酬(CSMR)は,部分的な正解に基づいて二値フィードバックを密な[0, 1]信号に変換し,疎な報酬問題を軽減する。
    • BIRDとSpider 2.0において,既存の最先端モデルを上回り,Text-to-SQLを堅牢な多段階エージェントパラダイムへと推進する。

    Link: https://arxiv.org/abs/2603.16161

  • 可視光・赤外線人物再識別における一貫性に基づく段階的再ランク付け [cs.PF, cs.CV, cs.AI]目的:可視光・赤外線人物再識別における性能向上
    • 人物再識別は,監視カメラ等による人物特定に不可欠であり,セキュリティ向上に貢献する。
    • 可視光と赤外線の画像間には差異があり,従来の再ランク付け手法では十分な精度が得られない。
    • 異なるモダリティ間の一致と,同一モダリティ内の変動を同時に考慮した再ランク付け手法を確立する。
    • 提案手法は,可視光と赤外線の関係性を考慮した再ランク付けモジュールと,同一モダリティ内の一貫性を評価するモジュールを組み合わせる。
    • 実験により,提案手法が汎用性を持ち,最先端の性能を達成することが示された。
    • 一貫性再ランク付け推論ネットワーク(CRI)という新たなベースラインを提案し,高い性能を示した。

    Link: https://arxiv.org/abs/2603.16165

  • オープンソースによる修正型検索拡張生成の再現と説明可能性分析 [cs.IR, cs.AI, cs.CL]目的:修正型検索拡張生成(CRAG)システムの再現と説明可能性の向上
    • 検索拡張生成(RAG)は,大規模言語モデルの知識を拡張し,より正確な応答を生成するために重要である。
    • CRAGのオリジナル実装は,プロプライエタリなコンポーネントに依存しており,再現性が課題となっていた。
    • 本研究は,CRAGを完全にオープンソースで再現し,その挙動を分析することで,RAGシステムの信頼性向上に貢献する。
    • 本研究では,Wikipedia APIとPhi-3-mini-4k-instructを用いてCRAGをオープンソースで再現した。
    • PopQAとARC-Challengeデータセットでの評価により,再現されたパイプラインがオリジナルシステムと同等の性能を達成することが示された。
    • SHAPを用いた分析から,CRAGの検索評価器は,意味的類似性よりも固有表現の一致に強く依存することが明らかになった。

    Link: https://arxiv.org/abs/2603.16169

  • MemX:AIアシスタントのためのローカル優先型長期記憶システム [cs.IR, cs.AI]目的:AIアシスタントのための長期記憶システムの構築
    • AIアシスタントの性能向上には,大量の情報を効率的に記憶し,活用する能力が不可欠である。
    • 既存の長期記憶システムは,プライバシーやオフライン環境での利用に課題がある場合がある。
    • 安定性を重視した検索設計により,ローカル環境で利用可能な長期記憶システムを提供する。
    • MemXは,libSQLとOpenAI互換埋め込みAPIを用いてRustで実装されており,検索性と説明可能性を備えた永続的な記憶を提供する。
    • 中国語のベンチマークテストでは,高い検索精度(Hit@1=91.3%)を示し,誤った検索結果の抑制にも成功した。
    • LongMemEvalベンチマークでは,事実レベルでの検索精度が向上(Hit@5=51.6%)する一方で,時間的推論や複数セッションの推論は依然として課題として残る。

    Link: https://arxiv.org/abs/2603.16171

  • ファインチューナーの誤り:ファインチューニングデータで事前学習すべき時 [cs.HC, cs.LG]目的:狭いドメインにおけるモデル性能向上と汎化能力維持
    • 実世界でのモデル利用では,データが限られた特定のドメインでの高性能が求められる。
    • ファインチューニングは過学習を引き起こし,汎用的な知識を失うリスクがある。
    • ドメインデータを事前学習段階で組み込むことで,過学習を抑制し,汎化性能を維持する。
    • 専門ドメイン(ChemPile, MusicPile, ProofPile)において,SPTはファインチューニング後のドメイン性能と汎化能力を向上させる。
    • SPTにより,特定のドメイン性能を得るために必要な事前学習トークン数を最大1.75倍削減できる。
    • ウェブテキストで代表されていないドメインでは,10億トークンSPTモデルが30億トークン標準事前学習モデルを上回る。

    Link: https://arxiv.org/abs/2603.16177

  • MLLMによる360度画像認識:包括的ベンチマークと学習不要手法 [cs.CV, cs.AI]目的:360度画像に対するMLLMの認識能力の評価と改善
    • 近年,MLLMは画像理解で高い能力を示すが,360度画像への対応は遅れている。
    • 360度画像は空間認識に有用だが,幾何学的歪みや複雑な空間関係が課題となる。
    • 360度画像におけるMLLMの弱点を克服し,高精度なVQAを実現することを目指す。
    • 360Benchベンチマークを用いて7つのMLLMを評価した結果,360度画像認識に課題があることが明らかになった。
    • Free360は学習不要で,シーングラフに基づき360度画像のVQA性能を向上させる。
    • Free360は,適応的な球面画像変換と統一されたグラフ表現により,推論プロセスをモジュール化する。

    Link: https://arxiv.org/abs/2603.16179

  • 強い生物学的ドメインシフト下における患者腫瘍への薬剤反応モデルのサンプル効率の良い適応 [cs.CL, cs.LG, cs.AI, q-bio.QM]目的:薬剤反応モデルの患者腫瘍への適応におけるサンプル効率の向上
    • 精密腫瘍学では,患者の薬剤反応を予測することが重要である。細胞株と患者腫瘍の間には生物学的ギャップが存在する。
    • 細胞株由来の予測精度向上には限界があり,患者腫瘍への適応には大量の臨床データが必要となる。
    • 教師なし学習による表現学習を通して,少ない臨床データでも薬剤反応予測の精度を向上させることを目指す。
    • 教師なし事前学習は,ソースドメインとターゲットドメインが大きく重なる場合には効果が限定的である。
    • しかし,ラベル付きデータが非常に少ない患者腫瘍への適応においては,明確な改善が見られた。
    • 提案手法は,標準的な細胞株ベンチマークと同程度の精度を維持しつつ,患者レベルの適応における性能向上を加速する。

    Link: https://arxiv.org/abs/2603.16185

  • 大規模言語モデルは本当に人間より賢いのか? [cs.RO, cs.AI, cs.CL]目的:大規模言語モデルのベンチマークにおける性能評価の信頼性検証
    • 人工知能の発展は,社会の様々な分野に大きな影響を与える可能性を秘めている。
    • 大規模言語モデルの評価に用いられるベンチマーク問題がインターネット上に公開されており,学習データに含まれている可能性が指摘されている。
    • 本研究は,ベンチマーク問題への学習データ混入(コンタミネーション)の程度を評価し,モデルの真の性能を明らかにすることを目的とする。
    • 6つの最先端LLMに対する検証の結果,ベンチマーク問題の13.8%に学習データ混入が確認された。
    • 間接的な参照を用いた評価では,平均7.0%の正答率低下が見られ,特に法学・倫理学分野で顕著であった。
    • TS-Guessing法を用いた解析により,72.5%の問題で記憶信号が検出され,DeepSeek-R1は特異な記憶パターンを示した。

    Link: https://arxiv.org/abs/2603.16197

  • オンライン半無限線形計画法:関数近似による効率的なアルゴリズム [cs.LG]目的:半無限線形計画問題の効率的な解法
    • 資源配分問題は重要であり,制約条件が増加しても対応できる手法が求められている。
    • 従来のオンライン線形計画法では,制約条件数に依存する性能劣化が生じやすい。
    • 制約条件数を削減し,大規模または無限の制約条件に対応可能な解法を開発する。
    • 関数近似を用いることで,制約条件数を定数に削減し,大規模な問題に対応できるようになった。
    • 確率的入力モデルとランダム置換モデルにおいて,それぞれ$O(q\sqrt{T})$および$O\left(\left(q+q\log{T})\sqrt{T}\right)$の regret bound を達成した。
    • 実験結果は,提案手法が多数の制約条件を持つ問題において既存手法を上回ることを示した。

    Link: https://arxiv.org/abs/2603.16200

  • メンタルヘルスケアにおけるAI駆動型デジタル介入のスコープレビュー:スクリーニング,サポート,モニタリング,予防,および臨床教育における応用状況の概観 [cs.CY, cs.AI, cs.HC]目的:メンタルヘルスケアにおけるAI駆動型デジタル技術の応用状況
    • メンタルヘルスケアへのアクセス改善が急務であり,AI技術はその可能性を秘めている。
    • AI技術の応用はまだ初期段階であり,倫理的課題や実用上の問題点が散見される。
    • AI技術の安全かつ効果的な活用に向けたロードマップの提示。
    • AI駆動型デジタル介入は,スクリーニング,治療,モニタリング,教育,予防の各段階で応用されていることが確認された。
    • LLMや機械学習モデルを用いたチャットボットや音声エージェントによる介入事例が報告されている。
    • 待ち時間短縮や患者エンゲージメント向上などの利点がある一方で,アルゴリズムの偏りやデータプライバシー,人間とAIの連携における課題も存在する。

    Link: https://arxiv.org/abs/2603.16204

  • 長鎖数学的推論のためのオフライン探索認識型ファインチューニング [cs.LG, cs.CL]目的:長鎖数学的推論能力の向上
    • 大規模言語モデルの数学的推論能力向上は,AI研究において重要な課題である。
    • 従来のファインチューニングは,新しい推論パターンを効率的に学習できない場合がある。
    • 探索を意識したファインチューニングにより,初期段階での推論能力を向上させる。
    • 提案手法OXAは,低確信度の検証済み教師蒸留データと高確信度の誤った自己蒸留データを最適化する。
    • 実験結果から,OXAは6つのベンチマークにおいて数学的推論性能を安定的に向上させることが示された。
    • 特にQwen2.5-1.5B-Mathにおいて,Pass@1とPass@kの平均でそれぞれ+6点,+5点の向上が確認された。

    Link: https://arxiv.org/abs/2603.16206

  • プロアクティブな拒否と根拠に基づいた実行:安全で効率的なAIoTスマートホームのための二段階意図分析パラダイム [cs.AI]目的:AIoTスマートホームにおける安全性と効率性を高めるための,二段階の意図分析フレームワーク
    • IoT環境におけるLLMの活用が進む中で,信頼性と対話効率が重要な課題となっている。
    • LLMが生成した命令の直接実行は,存在しないデバイスの制御など,存在しないエンティティの幻覚を引き起こす可能性がある。
    • 本研究は,無効な命令の拒否と状態に基づく推論により,ユーザーへの過度な質問を抑制することを目指す。
    • 提案手法(DS-IA)は,HomeBenchおよびSAGEベンチマークにおいて,既存手法を大幅に上回るExact Match率58.56%を達成した。
    • DS-IAは,無効な命令の拒否率を87.04%に向上させ,環境の正確な把握を通してユーザーへの干渉を最小限に抑えることを示した。
    • SAGEベンチマーク上では,自律的な成功率を42.86%から71.43%に向上させ,対話頻度のジレンマを解消した。

    Link: https://arxiv.org/abs/2603.16207

  • MOSAIC:モジュール化された制御トークンによる構成可能な安全性調整 [cs.CE, cs.AI]目的:大規模言語モデルにおける安全性調整の構成可能性
    • 大規模言語モデルの安全性は,社会実装において不可欠であり,その重要性は増している。
    • 既存手法では,状況に応じた安全ルールを柔軟に適用することが困難である。
    • 本研究は,柔軟な安全性調整を実現し,過剰な拒否反応を抑制することを目的とする。
    • MOSAICは,学習可能な制御トークンを用いて,安全制約を構成的に適用するフレームワークである。
    • 導入されたタスクサンプリングと分布レベルの調整目標により,効率的な学習が可能になった。
    • 実験の結果,MOSAICは高い防御性能と低い過剰拒否率を両立し,モデルの有用性を維持した。

    Link: https://arxiv.org/abs/2603.16210

  • CoMAI:堅牢かつ公平な面接評価のための協調型マルチエージェントフレームワーク [cs.CE, cs.MA, cs.AI]目的:AIによる面接評価の堅牢性と公平性の確保
    • 人材採用等において,面接は重要な選考手段であり,その質的向上が求められている。
    • 既存のAI面接評価システムは,プロンプトインジェクション攻撃に脆弱であったり,評価の公平性に課題があったりする。
    • CoMAIは,これらの課題を解決し,より安全で公平な面接評価システムを提供する。
    • CoMAIは,質問生成,セキュリティ,採点,要約の各エージェントが協調して動作するフレームワークである。
    • 実験の結果,CoMAIは90.47%の正解率,83.33%のリコール,84.41%の候補者満足度を達成した。
    • これらの結果は,CoMAIがAIによる面接評価において,堅牢性,公平性,解釈可能性を備えた有望なパラダイムであることを示している。

    Link: https://arxiv.org/abs/2603.16215

  • 量子回路と量子コードのための生成AI:技術レビューと分類 [cs.CE, cs.AI, cs.ET]目的:量子回路および量子コード生成のための生成システムの現状把握と分類
    • 量子技術は,従来の計算機では解決困難な問題を解決する可能性を秘めており,学術研究と産業応用の両面で重要性が増している。
    • 量子回路や量子コードの設計は専門知識を要し,自動化ツールが不足しているため,開発のボトルネックとなっている。
    • 生成AIを活用することで,量子回路や量子コードの自動生成を可能にし,開発効率を向上させることを目指す。
    • レビュー対象のシステムはすべて構文の妥当性を確認しており,ほとんどが意味的正確さにも対処していることがわかった。
    • しかし,量子ハードウェア上でのエンドツーエンド評価を行ったシステムは存在せず,生成された回路と実用的な展開の間には大きな隔たりが残されている。
    • 本研究では,Hugging Face,arXiv等の調査に基づき,13の生成システムと5つのサポートデータセットを特定し,体系的に整理した。

    Link: https://arxiv.org/abs/2603.16216

  • 二重合意:教師なしRLVRにおける誤った多数派からの脱却 - 二段階投票メカニズムによる [cs.RO, cs.CL, cs.LG]目的:大規模言語モデルにおける複雑な推論タスクの性能向上
    • 言語モデルの推論能力向上は,様々な応用において重要であり,その限界克服が求められている。
    • 既存手法は疑似ラベルの精度に依存し,誤った多数派に収束しやすく,性能向上に限界がある。
    • より信頼性の高い学習信号を生成し,誤った多数派に陥ることなく推論能力を向上させる。
    • DCRLは,二段階の合意メカニズムにより,より安定した学習ダイナミクスとPass@1の向上を実現した。
    • 本手法は,外部モデルや教師なしで,大規模言語モデルの推論能力を強化するスケーラブルな経路を提供する。
    • 8つのベンチマークと多様なドメインにおいて,DCRLは既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2603.16223

  • ReFORM:多要素注意機構を用いたLLMによるレビュー集約型プロファイル生成 - レストラン推薦への応用 [cs.IR, cs.LG]目的:レストラン推薦のためのレビュー集約型プロファイル生成
    • 推薦システムにおいて,LLMが記述的な要約生成を通じて頑健性を高めることが重要視されている。
    • 既存研究ではLLMの内部知識に依存し,ユーザーの意思決定に影響する多様な要素が考慮されていない。
    • レビューに含まれる多様な意思決定要素を積極的に活用し,推薦精度向上を目指す。
    • 提案手法ReFORMは,レビューからLLMを用いてユーザーおよびアイテムの要素別プロファイルを生成する。
    • 多要素注意機構により,ユーザーの意思決定プロセスにおける最も影響力のある要素を強調する。
    • レストランデータセットを用いた実験により,既存手法と比較して優れた性能と頑健性が確認された。

    Link: https://arxiv.org/abs/2603.16236

  • 埋め込まれたリーマン多様体上のフォッカープランク方程式のためのニューラルプッシュフォワードサンプラー [math.NA, cs.LG, cs.NA]目的:埋め込まれたリーマン多様体上のフォッカープランク方程式に対する数値解法
    • 偏微分方程式の数値解法は,物理現象のシミュレーションやデータ解析において不可欠である。
    • 複雑な形状を持つ多様体上の偏微分方程式の効率的な数値解法は未だ課題である。
    • 多様体上のフォッカープランク方程式に対し,メッシュフリーかつ自動微分を必要としない解法を提案する。
    • 提案手法は,多様体上の積分を多様体上のサンプルを用いて評価することを可能にする。
    • 球面やトーラスといった具体的な多様体に対して,明示的なラプラス・ベルトラミ演算子を導出した。
    • 二重井戸型のフォッカープランク方程式を球面$S^2$上で数値的に解き,有効性を示した。

    Link: https://arxiv.org/abs/2603.16239

  • 表現を意識した状態空間モデルによる光場超解像 [cs.CV, cs.AI]目的:光場超解像の精度向上
    • 光場画像は多視点情報を持つため,没入感の高い映像体験を提供できる。
    • 既存手法では,光場の様々な表現方法の補完性を十分に活用できていない。
    • 複数の光場表現間の構造的な相関を明示的にモデル化することで,超解像の質を改善する。
    • 提案手法RASLFは,異なる光場表現間の相関を考慮した状態空間モデルであり,高い再構成精度を実現した。
    • パノラマエピポーラ表現を用いたProgressive Geometric Refinementブロックにより,多視点間の視差を正確に捉える。
    • Representation Aware Asymmetric Scanning機構は,計算効率と性能のバランスを最適化する。

    Link: https://arxiv.org/abs/2603.16243

  • 意味的探索による視覚的プロンプトの発見 [cs.CV, cs.AI]目的:タスクごとの視覚的プロンプトの発見
    • 画像理解と視覚的推論は,大規模視覚言語モデルの性能を左右する重要な課題である。
    • 既存手法は,視覚的プロンプト生成において,ツールの選択に焦点を当て,根本的な原因の特定と軽減が不十分である。
    • 本研究は,大規模視覚言語モデルの認識の失敗を自動的に診断し,軽減するための視覚的プロンプト探索を目的とする。
    • SEVEXは,BlindTestとBLINKのベンチマークにおいて,タスク精度,推論効率,探索効率,探索安定性において,ベースライン手法を大きく上回る性能を示した。
    • 本フレームワークは,従来のツール使用を超えた,洗練された反直感的な視覚戦略を発見し,大規模視覚言語モデルの認識能力を向上させる新たなパラダイムを提供する。
    • 抽象的なアイデア空間を探索空間として活用し,新規性に基づいた選択アルゴリズムと,意味的フィードバック駆動型の発想プロセスにより,効率的な探索を実現している。

    Link: https://arxiv.org/abs/2603.16250

  • スコアの根拠化:信頼性の高い視覚言語プロセス報酬モデルのための明示的な視覚前提検証 [cs.CV, cs.AI]目的:視覚言語プロセス報酬モデルの評価における,視覚的根拠の明示的な検証手法
    • 視覚言語モデルは複雑な推論タスクにおいて重要性を増しており,その性能評価が不可欠である。
    • 既存の報酬モデルは,視覚情報の解釈と推論の区別が曖昧で,誤った評価を生じやすい。
    • 視覚的根拠の信頼性を明示的に検証することで,報酬モデルの精度と信頼性を向上させる。
    • 提案手法EVPVは,ステップごとの視覚的チェックリストと,画像から抽出された制約との照合により,視覚的根拠の信頼性を評価する。
    • EVPVは,信頼性の低い視覚的根拠に基づくステップの報酬を減衰させることで,知覚的不確実性と論理的評価を分離する。
    • VisualProcessBench等のベンチマークにおいて,EVPVはステップレベルの検証精度を向上させ,Best-of-Nリランキングの精度を大幅に改善した。

    Link: https://arxiv.org/abs/2603.16253

  • 熟議民主主義のための人間・AI協調知能:人間中心デザインアプローチ [cs.CL, cs.MM, cs.CY, cs.AI, cs.HC]目的:熟議民主主義のための協調知能
    • 民主主義の質の向上は社会の健全な発展に不可欠である。
    • AI技術の活用が,熟議の質の低下や公平性の問題を引き起こす可能性がある。
    • 人間中心のデザインによって,AIが熟議民主主義に貢献できる可能性を探る。
    • 本研究では,熟議民主主義を支援するための協調知能の概念を提案した。
    • 人間中心のデザイン手法を用いて,利害関係者のニーズを特定し,AIによる支援方法を検討した。
    • 実際の市民組織との協同設計とパイロット実験を通じて,その有効性を示した。

    Link: https://arxiv.org/abs/2603.16260

  • 悪天候下でのロバストな多Modal 3D物体検出のためのAll-Weather Mixture of Experts [cs.CV, cs.AI]目的:悪天候下でのロバストな多Modal 3D物体検出手法
    • 自動運転の実現には不可欠であり,安全性向上に大きく貢献する。
    • 異なる天候条件におけるデータ分布の差異が無視されており,性能低下を招く。
    • 天候条件に応じた専門家ネットワークを用いて,データ分布の差異を解決すること。
    • 提案手法AW-MoEは,最先端手法と比較して悪天候下での性能を約15%向上させた。
    • 画像特徴を利用したWeather-aware Routingにより,天候分類の精度を高めた。
    • 既存のベースライン検出器に統合することで,さらなる性能向上が確認された。

    Link: https://arxiv.org/abs/2603.16261

  • LLMベースのマルチエージェント協調のための適応的心の理論 [cs.AI]目的:LLM駆動エージェントにおける心の理論の適応的調整
    • マルチエージェントシステムにおいて,円滑な協調を実現するには,他者の意図を理解することが重要である。
    • 既存研究では,心の理論の誤った解釈や深さの不一致が,エージェント間の協調を阻害する可能性がある。
    • 本研究では,エージェントが相互に心の理論のレベルを合わせることで,協調精度を向上させることを目指す。
    • 実験の結果,心の理論のレベルの調整が,マルチエージェント協調タスクにおけるパフォーマンスを改善することが示された。
    • 提案手法は,反復マトリックスゲーム,グリッドナビゲーション,Overcookedタスクを含む多様なタスクで有効性を実証した。
    • 本研究は,LLM以外のエージェントへの応用可能性と,心の理論のレベル調整の重要性が低下する条件についても考察した。

    Link: https://arxiv.org/abs/2603.16264

  • 没入境界システムのための物理統合型ニューラル微分可能なモデリング [cs.LG, physics.flu-dyn]目的:没入境界流の長期的予測
    • 流体シミュレーションは,工学や気象予測など,幅広い分野で不可欠な技術である。
    • 従来の数値解法は計算コストが高く,データ駆動型モデルは外挿条件下で信頼性に欠ける。
    • 本研究は,高精度かつ効率的な長期的予測を可能にする新しいフレームワークを提案する。
    • 提案手法は,ベンチマークテストにおいて,従来の数値解法やデータ駆動型モデルを精度と安定性で上回った。
    • 学習には単一ステップの教師信号を使用することで,学習時間を大幅に短縮した (1時間未満)。
    • 推論速度は高解像度ソルバーと比較して約200倍高速であり,計算コストの削減に貢献する。

    Link: https://arxiv.org/abs/2603.16277

  • Laya:潜在的予測による再構成を介した脳波解析へのLeJEPAアプローチ [cs.LG, q-bio.NC]目的:脳波の表現学習
    • 脳機能の研究,臨床神経科学,診断,ブレイン・コンピュータ・インタフェースなど,幅広い応用分野があるため。
    • 大規模な脳波データを用いた表現学習モデルの効果は限定的であり,線形プロービングでの性能向上が乏しい場合がある。
    • 脳波信号の再構成に偏らず,タスクに関連する神経構造を捉えた表現学習を実現すること。
    • Layaは,脳波の潜在的予測に基づくLeJEPAを用いた初の基盤モデルである。
    • 線形プロービングにおいて,再構成ベースラインと比較して性能が向上した。
    • 潜在的な予測目標が,転移可能な高レベルの脳波表現学習に有効であることを示唆する。

    Link: https://arxiv.org/abs/2603.16281

  • 位置特定とスパース化:視覚的幻覚軽減のための属性誘導疎性戦略 [cs.SC, math.AG, cs.CV, cs.LG]目的:大規模視覚言語モデルにおける幻覚軽減策の検討
    • 大規模視覚言語モデルは目覚ましい進歩を遂げているが,実用化には信頼性が不可欠である。
    • 既存の幻覚軽減手法は,モデル全体の層に対して一律に適用されるため,性能低下を招く場合がある。
    • 層ごとの幻覚関連度に基づき,より精密な特徴制御を実現し,性能劣化を防ぐことを目指す。
    • 提案手法LTS-FSは,幻覚関連度に応じて層ごとの特徴制御強度を調整する。
    • 合成データセットと因果介入に基づく属性化手法を用いて,各層の幻覚関連度を定量化する。
    • 複数の大規模視覚言語モデルとベンチマークにおける実験により,幻覚を効果的に軽減しつつ,高い性能を維持できることを実証した。

    Link: https://arxiv.org/abs/2603.16284

  • 動的マルチモード制約付きプロジェクトスケジューリングのためのランクベース表現型特性評価を用いた代理モデル支援遺伝的プログラミング [cs.NE, cs.AI]目的:動的マルチモード制約付きプロジェクトスケジューリング問題に対するヒューリスティックルールの進化
    • プロジェクトの状況変化やリソース制約に対応したリアルタイムな意思決定が求められるため,実務上重要な課題である。
    • 遺伝的プログラミングは有効だが,多数のシミュレーション評価が必要で計算コストが高いという課題がある。
    • ヒューリスティックルールの表現型特性評価スキームを用いて,代理モデルによる評価コスト削減を目指す。
    • 提案手法では,活動モードペアや活動グループのヒューリスティック駆動型順序付けに基づくランクベースの表現型特性評価スキームを導入した。
    • その結果,代理モデル支援遺伝的プログラミングは,最先端の遺伝的プログラミング手法よりも早く高品質なヒューリスティックルールを特定できた。
    • 代理モデルは有効な子孫選択の指針となり,進化的効率の向上に貢献することが示された。

    Link: https://arxiv.org/abs/2603.16286

  • VisBrowse-Bench:マルチモーダルブラウジングエージェントのための視覚ネイティブ検索のベンチマーク [cs.CV, cs.AI]目的:視覚ネイティブ検索のためのベンチマーク
    • マルチモーダルLLMの発展により,現実世界の情報を取得・推論するブラウジングエージェントが実現しつつある。
    • 既存のベンチマークは,視覚的推論能力の評価不足と,Webページの視覚情報の活用不足という課題がある。
    • 視覚的推論能力を評価し,Webページの視覚情報を効果的に活用できるベンチマークを開発すること。
    • VisBrowse-Benchは,多様なドメインを網羅する169のVQAインスタンスで構成され,マルチモーダルな証拠検証を通じて視覚的推論能力を評価する。
    • 実験の結果,最優秀モデルであるClaude-4.6-Opusでも精度は47.6%に留まり,o3-deep-researchは41.1%であった。
    • 本研究では,ブラウジングエージェントが視覚情報を積極的に収集・推論するワークフローも提案している。

    Link: https://arxiv.org/abs/2603.16289

  • 注意誘導型エビデンスグラウンディングによる音声質問応答 [cs.CL, cs.AI]目的:音声質問応答におけるエビデンスの特定とグラウンディング
    • 音声質問応答は,音声とテキストという異なるモダリティを統合する重要な課題である。
    • 従来のシステムは,音声認識エラーや遅延の影響を受けやすいという問題がある。
    • 本研究は,SpeechLLMの注意機構を活用し,効率的かつ高精度なエビデンスのグラウンディングを実現する。
    • 提案手法AEGは,モデル内部のクロスモーダル注意を活用し,潜在空間における重要なエビデンスを明示的に特定する。
    • LFEという学習パラダイムにより,モデルの注意機構がクエリに関連するセグメントと無関係なコンテキストを区別できるようになる。
    • SQuAD,HotpotQA,MuSiQueでの実験結果から,AEGは幻覚を軽減し,大規模なカスケードベースラインを上回り,推論遅延を約62%削減することが示された。

    Link: https://arxiv.org/abs/2603.16292

  • NeSy-Route:リモートセンシングにおける制約付き経路計画のためのニューロシンボリックベンチマーク [cs.AI]目的:リモートセンシングにおける制約付き経路計画のための大規模ニューロシンボリックベンチマーク
    • 災害対策や生態調査など,複雑な状況下での信頼性ある判断が求められるリモートセンシングの重要性。
    • 既存のベンチマークは知覚や推論能力に偏っており,経路計画能力の評価が不十分である点。
    • 大規模な経路計画タスクを自動生成し,知覚・推論・計画能力を総合的に評価できるベンチマークを構築すること。
    • NeSy-Routeは,高精度なセマンティックマスクとヒューリスティック探索を統合した自動データ生成フレームワークを用いて,10,821の経路計画サンプルを提供。
    • 3段階の階層型ニューロシンボリック評価プロトコルにより,知覚,推論,計画能力を正確に評価。
    • 既存の最先端MLLMは,知覚と経路計画能力に顕著な課題を抱えていることが示された。

    Link: https://arxiv.org/abs/2603.16307

  • 高次元離散イベントシーケンスの予測,発見,推論学習 [cs.CL, cs.AI, cs.LG]目的:高次元離散イベントシーケンスにおける故障診断の自動化
    • 自動車の複雑化に伴い,故障診断の重要性は増しており,効率的な手法が求められている。
    • 従来の故障診断は専門家による手作業に依存しており,コストやエラーの増加,スケーラビリティの限界がある。
    • 本研究は,大量のイベントデータを言語として捉え,故障診断の自動化を目指す。
    • Transformerベースのアーキテクチャを用いて,予測メンテナンスの精度向上を実現した。
    • サンプルレベルおよび集団レベルでの因果関係発見のためのスケーラブルなフレームワークを開発した。
    • Boolean EPルールを自動合成するマルチエージェントシステムを提案した。

    Link: https://arxiv.org/abs/2603.16313

  • 大規模言語モデルを活用した製造業における品質管理システムのための人間中心アーキテクチャ [cs.SE, cs.AI]目的:製造業における品質管理システムへの大規模言語モデル認知アシスタント統合のためのアーキテクチャ
    • 製造業の競争力向上には,品質管理システムの継続的な改善と知識管理が不可欠である。
    • 既存のソフトウェアアーキテクチャは,品質管理システムに大規模言語モデル認知アシスタントを統合する際の人間中心設計に欠けている。
    • 品質管理システムにおける大規模言語モデル認知アシスタントの運用を可能にする柔軟性と拡張性のあるアーキテクチャを提案すること。
    • 提案されたアーキテクチャは,柔軟性,拡張性,モジュール性,作業支援機能を品質管理システムに提供する。
    • 反復的な専門家によるフォーカスグループにより,アーキテクチャの有効性が確認された。
    • 本アーキテクチャは,産業界との連携を通じて,製造プロセスの改善に貢献する可能性を示す。

    Link: https://arxiv.org/abs/2603.16325

  • 非小細胞肺癌の薬剤応答解析のための解釈可能な機械学習フレームワーク [cs.RO, cs.CV, cs.AI, cs.LG]目的:非小細胞肺癌の薬剤応答予測モデルの構築と解釈
    • 肺癌は依然として主要な死因であり,個別化医療の重要性が高まっている。
    • 癌の多様性により,従来の治療法は効果が限定的である場合がある。
    • 患者の遺伝情報に基づいた薬剤応答予測による個別化治療の実現を目指す。
    • XGBoost回帰モデルを用いて,癌の分子および細胞特徴から薬剤応答を予測した。
    • SHAP値を用いてモデルの予測における各特徴量の寄与度を評価し,解釈可能性を高めた。
    • DeepSeekを用いて特徴量の生物学的妥当性を検証し,重要な遺伝子や経路に関する文脈的説明を提供した。

    Link: https://arxiv.org/abs/2603.16330

  • 大規模推論モデルにおける批判メカニズムの解明 [cs.LG]目的:大規模推論モデルの批判能力の解明とその改善
    • 複雑な論理的推論課題において,大規模言語モデルの性能向上は重要である。
    • モデルが自己検証能力を持つことが重要だが,その能力がどのように発揮されるか不明である。
    • モデルが持つ隠れた批判能力を特定し,その能力を向上させることで,推論性能を改善する。
    • モデルは推論過程で誤りを認識し,自己修正を行う「隠れた批判能力」を持つことが示された。
    • 特徴空間解析により,この批判行動を表現する解釈可能なベクトルが特定された。
    • このベクトルを用いて潜在表現を調整することで,モデルの誤り検出能力とテスト時スケーリング性能が向上することが確認された。

    Link: https://arxiv.org/abs/2603.16331

  • 350億パラメータMoE言語モデルにおけるSAEデコードされたプローブベクトルによる行動制御:5つの特性ではなく単一の主体性軸 [cs.LG, cs.CL]目的:大規模言語モデルにおける行動制御手法の検証
    • 言語モデルの主体性や行動を理解・制御することは,より安全で有用なAIシステムの構築に不可欠である。
    • 既存手法では,言語モデルの行動を詳細に制御することが難しく,意図しない挙動を引き起こす可能性がある。
    • SAEを用いたプローブベクトルによる,より繊細で効果的な行動制御を実現することを目指す。
    • SAEを活用し,モデルの潜在活性化から行動特性を特定し,行動を制御するためのベクトルを生成することに成功した。
    • 主体性に関するパラメータを2倍にすると,モデルがユーザーの助けを求める頻度が78%から大幅に減少し,自律的なコード実行やウェブ検索を行うようになった。
    • 5つの行動特性ベクトルは,実際には単一の主体性軸を主に調整しており,特性特有の効果は二次的な調整として現れることが明らかになった。

    Link: https://arxiv.org/abs/2603.16335

  • RAG対応大規模言語モデルに対する感情誘導攻撃の検出 [cs.CR, cs.AI]目的:RAG対応大規模言語モデルへの感情誘導攻撃検出手法
    • IoT機器の普及は利便性向上をもたらす一方,セキュリティリスクも増大している。
    • IoTネットワークへの不正アクセスや脆弱性の悪用といった脅威が課題となっている。
    • 深層学習を用いた軽量な侵入検知システムにより,IoTネットワークのセキュリティ強化を目指す。
    • 提案するCNNベースのIDSは,二値分類で99.34%,グループ分類で99.02%,多クラス分類で98.6%の精度を達成した。
    • 提案するLSTMベースのIDSは,二値分類で99.42%,グループ分類で99.13%,多クラス分類で98.68%の精度を達成した。
    • 深層学習ベースのIDSは,様々なサイバー脅威の識別と分類に成功している。

    Link: https://arxiv.org/abs/2603.16342