arXiv雑要約

AI - 2026/03/25 公開

  • URA-Net:不確実性統合異常知覚・復元注意ネットワークによる教師なし異常検出 [cs.CV, cs.AI]目的:教師なし異常検出のための新たなネットワークアーキテクチャ
    • 産業欠陥検査や医療画像解析において,異常検出は重要な役割を担う。
    • 既存手法は過剰一般化を起こしやすく,異常をうまく再構成してしまうため,検出性能が低下する。
    • 異常パターンを対応する正常状態に復元することで,異常検出性能の向上を目指す。
    • 本研究では,事前学習済みの畳み込みニューラルネットワークを用いて多層的な意味特徴を抽出する。
    • ベイズニューラルネットワークに基づく不確実性統合異常知覚モジュールにより,異常領域と曖昧な境界の推定を実現した。
    • 提案手法は,MVTec AD,BTAD,OCT-2017データセットで有効性を示し,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2603.22840

  • UAV-DETR:対ドローン標的検出のためのDETR [cs.CV, cs.AI]目的:小型ドローン検出における精度と効率の向上
    • セキュリティ向上やドローン対策において,ドローン検出は不可欠な技術である。
    • 既存手法は,複雑な背景下での小型ドローン検出において,特徴表現と計算効率の両立が課題である。
    • 本研究は,小型ドローン検出における精度と計算効率のトレードオフを改善することを目指す。
    • UAV-DETRは,WTConv基盤とSWSA-IFIエンコーダにより,小型ドローンの高周波構造詳細を捉えつつ,パラメータ数を大幅に削減する。
    • ECFRFNを用いて背景ノイズを抑制し,マルチスケールセマンティクスを集約することで,検出精度を向上させている。
    • カスタムデータセットおよびDUT-ANTI-UAVベンチマークにおいて,既存のRT-DETRを大幅に上回り,精度と効率の優れたトレードオフを実現した。

    Link: https://arxiv.org/abs/2603.22841

  • 拡散に基づく手術煙除去のための物理および意味論誘導相対方策最適化 (PhySe-RPO) [cs.AI]目的:手術煙除去のための拡散復元フレームワーク
    • 手術中の視覚的認識は,安全かつ正確な手術操作に不可欠である。
    • 手術煙が解剖学的構造を隠蔽し,視覚的認識を制限する。
    • 限られたペアデータでの,ロバストな拡散復元手法の確立。
    • 本研究では,物理および意味論誘導相対方策最適化 (PhySe-RPO)を提案し,手術煙の除去に成功した。
    • PhySe-RPOは,照明および色彩の一貫性を保ちながら,解剖学的に整合性のある煙除去を実現する。
    • 合成データおよび実際のロボット手術データセットで,臨床的に解釈可能な結果が得られた。

    Link: https://arxiv.org/abs/2603.22844

  • CoMaTrack:視覚言語行動モデルを用いた競争的マルチエージェントゲーム理論的追跡 [cs.AI]目的:視覚的追跡における競争的マルチエージェントゲーム理論的枠組み
    • 具現化された知能において,言語指示に基づいた正確な追跡は重要なタスクである。
    • 既存手法は模倣学習に依存し,専門家データのコストや汎化性能の限界がある。
    • 競争を通じた能力進化に着想を得て,強固な適応計画と干渉耐性を持つ戦略を習得する。
    • CoMaTrackは,標準的なベンチマークとCoMaTrack-Benchの両方で最先端の結果を達成した。
    • 3B VLMは,7Bモデルに基づく単一エージェント模倣学習手法をEVT-Benchで上回り,STTで92.1%,DTで74.2%,ATで57.5%を達成した。
    • CoMaTrack-Benchは,能動的な敵対的相互作用下での標準化されたロバスト性評価を可能にする。

    Link: https://arxiv.org/abs/2603.22846

  • UniQueR:クエリに基づく統一的なフィードフォワード3D再構成 [cs.MM, cs.CV, cs.AI]目的:未ポーズ画像からの効率的かつ正確な3D再構成
    • 3D再構成は,ロボット工学やAR/VRなど多様な分野で重要な役割を担う技術である。
    • 既存手法は2.5D表現に留まり,隠れた領域の幾何学的な情報を捉えることが困難である。
    • 本研究は,隠れた領域を含むシーン構造を効率的に再構成することを目指す。
    • UniQueRは,3Dアンカーポイントをクエリとして活用し,1回のフォワードパスでシーン構造を推論する。
    • マルチビュー特徴間の統一的なクエリ相互作用とデカップルドクロスアテンション設計により,高い幾何学的表現力を実現する。
    • Mip-NeRF 360やVR-NeRFにおける実験で,UniQueRは最先端手法を凌駕するレンダリング品質と幾何学的精度を達成した。

    Link: https://arxiv.org/abs/2603.22851

  • LLMエージェントアプリケーションのセキュリティ分析システム:Agent Audit [cs.CR, cs.AI]目的:LLMエージェントアプリケーションのセキュリティ脆弱性の検出
    • LLMエージェントの利用拡大に伴い,セキュリティリスクの増加が懸念されている。
    • 従来のセキュリティ分析ツールは,エージェント特有の脆弱性に対応できていない。
    • エージェントのコード,ツール,設定における脆弱性を効率的に特定すること。
    • Agent Auditは,データフロー分析,認証情報検出,構成解析,権限リスクチェックを組み合わせたパイプラインを用いる。
    • 22件のサンプルに対して,40件の脆弱性を検出し,既存のSASTツールよりも高い再現率を示した。
    • Agent Auditはオープンソースであり,ローカル開発ワークフローやCI/CDパイプラインに統合可能である。

    Link: https://arxiv.org/abs/2603.22853

  • ソーシャルメディアにおける噂の検出における過剰平滑化の回避:事前学習された伝播木Transformer [cs.CL, cs.AI]目的:ソーシャルメディアにおける噂検出のための手法
    • ソーシャルメディアは情報伝達の重要な場であり,誤情報の拡散を防ぐことが重要である。
    • 噂の伝播構造の分析において,グラフニューラルネットワークが過剰平滑化を引き起こし,性能低下を招く。
    • 噂の伝播木構造の特性に着目し,Transformerアーキテクチャを用いて過剰平滑化を回避する。
    • 提案手法P2T3は,複数のベンチマークデータセットで既存の最先端手法を上回る性能を示した。
    • P2T3は,少量のデータでも良好な性能を発揮する。
    • P2T3はGNNの過剰平滑化問題を回避し,今後のソーシャルメディア研究のための大規模モデルやマルチモーダルスキームの可能性を示唆する。

    Link: https://arxiv.org/abs/2603.22854

  • TorR:キャッシュ指向アルゴリズム・アーキテクチャ共同設計による脳にヒントを得たタスク指向推論 [cs.AR, cs.LG]目的:タスク指向物体検出における,リアルタイムかつ低消費電力なエッジデバイスへの展開
    • 物体検出は,自動運転やロボット工学など,様々な分野で重要な役割を担う技術である。
    • 既存の物体検出手法は,計算コストが高く,メモリトラフィックが大きいため,エッジデバイスへの実装が困難である。
    • 本研究は,脳の仕組みに着想を得た新しいアルゴリズムとアーキテクチャを共同設計することで,この問題を解決する。
    • TorRは,CLIPスタイルの密なアライメントを,超次元(HDC)連想推論器に置き換えることで,計算効率を向上させている。
    • シミュレーション結果から,TorRは,5つのタスクプロンプトで平均44.27%のAP@0.5を達成し,優れた性能を示すことが確認された。
    • TSMC 28nmプロセスで合成されたTorRは,ウィンドウあたり50〜113mJのエネルギー消費でリアルタイム処理を維持し,低レイテンシを実現した。

    Link: https://arxiv.org/abs/2603.22855

  • ニューラルアーキテクチャにおける持続的構造記憶の座標系問題 [cs.LG, cs.AI, cs.NE, q-bio.NC]目的:ニューラルネットワークにおける持続的構造記憶の独立した要件
    • 近年,ニューラルネットワークの持続的な学習能力向上は重要な課題である。過去の知識を保持し,活用することが求められる。
    • 従来のニューラルネットワークは,知識の消失や転移学習の困難さといった問題を抱えている。構造記憶の不安定性が原因の一つである。
    • 本研究は,持続的構造記憶に必要な安定した座標系の確立と,円滑な知識転移メカニズムの実現を目指す。
    • デュアルビュー・フェロモン経路ネットワーク(DPPN)を用いて,持続的構造記憶には安定した座標系が必須であることを明らかにした。
    • モデルと共に学習される座標系は本質的に不安定であり,コントラスト更新や蒸留などの手法ではこの不安定性を解消できないことを示した。
    • 固定されたランダムフーリエ特徴を用いることで安定した座標系を構築できるが,それだけでは知識転移は困難であり,学習率変調によるフェロモンバイアスの置き換えが有効であることを示した。

    Link: https://arxiv.org/abs/2603.22858

  • エージェント・センチネル:実行系統によるLLMエージェントの境界設定 [cs.AR, cs.CR, cs.AI]目的:LLMエージェントの実行範囲の制限
    • 自然言語指示に基づく自律的な機能生成が普及しており,その潜在能力は大きい。
    • システムが提供する機能全体と確率的な実行フローが事前に不明であるため,検証が困難である。
    • エージェントの利用目的を考慮し,許容される行動範囲を明確にすることで安全性を高める。
    • Agent-Sentryは,エージェントが提供する頻繁な機能を特定し,実行トレースから行動の境界を構築する。
    • 学習されたポリシーを用いて,逸脱したツール呼び出しやユーザー意図と異なる行動をブロックする。
    • 評価の結果,90%以上の不正な実行を防止しつつ,システムの有用性を98%まで維持できることが示された。

    Link: https://arxiv.org/abs/2603.22868

  • 権限の連鎖:推論軌跡を通じて大規模言語モデルに権限を内在化 [cs.AI]目的:大規模言語モデルへの権限の内在化
    • 現代AIシステムにおいて,LLMは重要な役割を担う。知識と外部コンテキストを組み合わせ,複雑なタスクを実行する。
    • LLMは知識の所有権やアクセス境界を認識せず,機密データ漏洩や不正操作のリスクがある。既存の保護戦略は柔軟性に欠ける。
    • 動的な権限制御を実現し,LLMの信頼性を高めることを目指す。
    • CoAフレームワークは,LLMのコア機能に権限ロジックを組み込み,情報フローを再構築する。
    • 権限状況に関する教師ありファインチューニングにより,ポリシー実行とタスク応答を統合し,権限を応答の前提条件とする。
    • CoAは,認可されたシナリオで高い実用性を維持し,権限不一致時の認知的な混乱を克服し,不正アクセスを拒否する。

    Link: https://arxiv.org/abs/2603.22869

  • 階層的推論モデルの背後にある力学系理論 [cs.AI, cs.LG, math.DS]目的:複雑なアルゴリズム推論における数学的厳密性と安定性の確立
    • 大規模言語モデルの発展は目覚ましいが,アルゴリズム推論の能力には限界がある。
    • 既存の階層的推論モデルは性能を示すものの,学習の安定性や表現力の維持に課題が残る。
    • 連続微分方程式による表現と収縮写像定理を導入し,安定性と効率性を両立する推論モデルを開発する。
    • 提案手法であるCMMは,Sudoku-Extremeベンチマークにおいて,既存モデルを大幅に上回る93.7%の精度を達成した。
    • パラメータ数を大幅に削減しても高い予測性能を維持し,極めて高いパラメータ効率を実現した。
    • 数学的に厳密な潜在空間の力学が,大規模なパラメータ数に頼ることなく人工的な推論を可能にすることを示した。

    Link: https://arxiv.org/abs/2603.22871

  • 器用な操作におけるシミュレーションから現実世界への汎化:ビジョン・言語・行動モデルを用いた実証研究 [cs.RO, cs.AI]目的:器用な操作におけるシミュレーションから現実世界への汎化の主要因の特定
    • ロボットの器用な操作は,製造やサービスなど幅広い分野で重要性が増している。
    • 現実世界のデータ収集コストが高いため,シミュレーションデータが利用されることが多いが,現実世界との乖離が課題である。
    • シミュレーションから現実世界への汎化性能を向上させるための要因を実証的に検証し,ベンチマークを確立すること。
    • マルチレベルドメインランダム化,フォトリアリスティックレンダリング,物理シミュレーションの精度,強化学習の更新が,シミュレーションから現実世界への汎化性能に影響を与えることが示された。
    • 背景,照明,オブジェクトの種類など,様々な現実世界の条件を考慮した包括的な評価プロトコルが有効であることが確認された。
    • 10,000件以上の現実世界の試行を通じて得られた知見は,今後の研究を促進し,現実的で標準化されたベンチマークを確立する上で貢献する。

    Link: https://arxiv.org/abs/2603.22876

  • 線形実数演算における充足可能性モジュロ理論の継続的最適化 [cs.AI]目的:充足可能性モジュロ理論(SMT)問題に対するスケーラブルな最適化手法の開発
    • ハードウェア検証や設計自動化など産業応用においてSMTソルバーの効率が重要である。
    • 従来のSMTソルバーは並列化が難しく,大規模問題に対して性能が伸び悩んでいる。
    • 勾配法を用いた連続変数最適化フレームワークにより,SMT問題のスケーラビリティを向上させる。
    • FourierSMTは,ウォルシュ・フーリエ展開(WFE)を拡張したxWFEを用いてSMT問題を連続最適化問題として扱う。
    • xWFEと拡張二分決定図(xBDD)を組み合わせることで,評価の複雑性を削減し効率的な制約計算を実現した。
    • 大規模なスケジューリングおよび配置問題において,既存のSMTソルバーと比較して8倍の高速化を達成した。

    Link: https://arxiv.org/abs/2603.22877

  • 曖昧な正解ラベル下での信頼度較正 [cs.LG, cs.AI]目的:正解ラベルの曖昧さを考慮した信頼度較正手法
    • 機械学習モデルの性能評価において,信頼度と正確性の乖離は重要な課題である。
    • 従来の信頼度較正は,単一の正解ラベルを前提としており,アノテーター間意見が分かれる場合に不適切である。
    • アノテーター間の意見分布を考慮し,より正確な信頼度較正を行うこと。
    • 提案手法であるDirichlet-Softは,既存手法と比較して正解ラベルに対するECEを大幅に削減した。
    • MCTS S=1は,集約されたラベル分布を用いずに,Dirichlet-Softと同等の較正精度を達成した。
    • LS-TSは,アノテーターデータなしでECEを削減し,実用的な信頼度較正を可能にした。

    Link: https://arxiv.org/abs/2603.22879

  • TreeTeaming:ビジョン言語モデルの自律的脆弱性評価のための階層的戦略探索 [eess.SY, cs.SY, math.OC, cs.LG, cs.CV]目的:ビジョン言語モデルの安全性脆弱性の評価
    • AIモデルの安全性確保は,社会実装において不可欠であり,脆弱性評価は重要な課題である。
    • 既存の脆弱性評価手法は,事前に定義された戦略に限定され,新たな脆弱性の発見が困難である。
    • 本研究は,階層的な戦略探索により,多様な攻撃経路を自律的に発見し,評価することを目指す。
    • TreeTeamingは,12種類の主要なビジョン言語モデルにおいて,既存手法を上回る攻撃成功率を11モデルで達成した。
    • 特にGPT-4oにおいては,最高87.60%の攻撃成功率を記録し,その有効性が示された。
    • 生成された攻撃は,平均して23.09%の毒性低下を示し,潜伏性と巧妙性が高いことが確認された。

    Link: https://arxiv.org/abs/2603.22882

  • 航空機健全性診断における安全性と効率性の両立:異種長・微スケールカスケードと知識蒸留に基づく解釈可能性を備えたタスク分解フレームワーク [cs.LG]目的:航空機健全性診断タスクの分解フレームワーク
    • 航空機の安全性確保は最重要課題であり,早期の異常検知と正確な故障特定が不可欠である。
    • 既存の手法では,データの不確実性,タスクの多様性,計算効率の悪さが課題となっている。
    • 本研究は,異常検知と故障分類を分離することで,診断の効率化と解釈可能性向上を目指す。
    • 提案手法であるDDFは,既存手法と比較して,Multi-Class Weighted Penalty Metric(MCWPM)が約4-8%向上した。
    • DDFは,学習時間を大幅に削減し,タスクへの適応性,解釈可能性,効率性の面で総合的な優位性を示した。
    • 本研究は,汎用航空機健全性管理のための実用的な手法を提供する。

    Link: https://arxiv.org/abs/2603.22885

  • 構造的ダイナミクスを持つ多変量時系列のための条件付きに識別可能な潜在表現 [cs.LG, q-fin.GN, q-fin.ST]目的:多変量時系列からの潜在因子の学習
    • 時系列データ分析は,経済,金融,科学など幅広い分野で不可欠である。
    • 潜在変数の識別可能性が保証されない場合,解釈性と信頼性が損なわれる。
    • 識別可能性を保証しつつ,潜在因子を効果的に学習すること。
    • 提案手法iVDFMは,潜在因子の識別可能性を保証する。
    • 線形対角ダイナミクスを用いることで,計算の効率化を実現した。
    • 合成データおよび実データを用いた実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.22886

  • 視覚言語知識誘導オフライン強化学習による汎化可能なエージェント [cs.HC, cs.LG]目的:汎化可能なエージェントの実現
    • 大規模言語モデルと強化学習の組み合わせは,タスク実行において言語指示の解釈能力向上に貢献する。
    • 言語モデルは物理環境の直接的な知覚能力に乏しく,環境ダイナミクスの理解や未知のタスクへの汎化が課題である。
    • 視覚と言語知識を統合し,多様なロールアウトを生成することで,オフライン強化学習の性能向上を目指す。
    • VLGORは,視覚と言語知識を用いてロールアウトを生成し,オフライン強化学習のデータを充実させる。
    • VLGORは,未見のタスクにおいて,従来のベースライン手法と比較して24%以上の成功率向上を達成した。
    • 視覚的情報に基づいた環境への適応と,言語指示の追従能力を両立するエージェントの学習に貢献する。

    Link: https://arxiv.org/abs/2603.22892

  • 診断と制御の分離:LLMベース診断によるエージェントベースシミュレーションにおける監査可能なポリシー適応 [cs.RO, cs.RO, cs.AI]目的:高齢者の孤独軽減策の適応性と監査可能性の両立
    • 高齢化社会において,高齢者の孤独は深刻な問題であり,政策介入が不可欠である。
    • 既存手法では,適応性と監査可能性を両立することが困難である。従来のABMは硬直的で,LLM制御はトレーサビリティに欠ける。
    • 診断と制御を分離することで,適応性と監査可能性を両立し,政策決定の透明性を確保すること。
    • 本フレームワークでは,LLMを診断ツールとして活用し,集団の状態評価とリスク評価を行う。
    • 評価結果を明確な境界を持つ決定式に変換することで,トレーサブルなパラメータ更新を実現する。
    • シミュレーション実験の結果,明示的な制御ルールは,エンドツーエンドのLLMアプローチを11.7%上回り,監査可能性を維持した。

    Link: https://arxiv.org/abs/2603.22904

  • サブネットワーク修正を用いた二重教師蒸留によるブラックボックスドメイン適応 [cs.CV, cs.LG]目的:ブラックボックスドメイン適応における性能向上
    • 実用的なドメイン適応の課題であり,教師データやモデルが利用できない状況下での学習が重要である。
    • 既存手法はノイズの多い教師信号や,ViLの潜在的な情報活用不足により,適応性能が制限されている。
    • ブラックボックスモデルとViLを統合し,信頼性の高い疑似ラベル生成と過学習の抑制を目指す。
    • 提案手法DDSRは,ブラックボックスモデルとViLの知識を組み合わせることで,より信頼性の高い疑似ラベルを生成する。
    • サブネットワーク駆動型正則化により,ノイズの多い教師信号による過学習を抑制し,汎化性能を向上させる。
    • ターゲット予測の反復的な改善により,疑似ラベルとViLプロンプトの両方を強化し,より正確な適応を実現する。

    Link: https://arxiv.org/abs/2603.22908

  • ForestPrune:空間・時間的森林モデリングによるビデオマルチモーダル大規模言語モデルの高比率視覚トークン圧縮 [cs.CL, cs.CV, cs.AI]目的:ビデオマルチモーダル大規模言語モデルにおける高比率の視覚トークン圧縮
    • マルチモーダル大規模言語モデルの発展に伴い,計算資源の効率化が重要視されている。
    • 既存のビデオ向けトークン圧縮手法は,高比率圧縮が困難である。
    • 空間・時間的な情報を考慮した森林モデリングにより,高比率な圧縮を可能にすること。
    • 提案手法ForestPruneは,空間・時間的制約に基づきトークン森林を構築し,効率的なトークン削減を実現した。
    • LLaVA-OneVisionにおいて,トークン数を90%削減しつつ,平均精度を95.8%を維持することに成功した。
    • MLVUベンチマークでは,FrameFusionと比較して10.1%高い精度,81.4%短縮された圧縮時間を実現した。

    Link: https://arxiv.org/abs/2603.22911

  • AI法から欧州AI機関へ:EU規制アーキテクチャの完成 [cs.CY, cs.AI]目的:EUにおけるAI規制の強化と,それによるデジタル主権の確保
    • AI技術の進展に伴い,倫理的原則と経済競争力の維持を両立させる規制が重要である。
    • EU AI法は重要な一歩だが,政策の一貫性やリスク評価能力の向上が課題である。
    • より強固な超国家機関の設立により,これらの課題解決を目指す。
    • 本稿では,EU AI法の採択を踏まえ,AI専用機関の必要性を再検討する。
    • AI機関は,政策の整合性を高め,リスク評価能力を向上させ,国際協力の促進に貢献する。
    • また,AI機関の強化は,EUのデジタルおよび技術的自律性の確保にも繋がる。

    Link: https://arxiv.org/abs/2603.22912

  • エンドツーエンド動画エージェントのための効率的な強化学習:EVA [cs.IR, cs.HC, cs.CV, cs.AI, cs.CL]目的:動画理解のための効率的な強化学習フレームワーク
    • 動画理解は,多様な応用において重要であり,その精度向上が求められている。
    • 既存手法は,動画の冗長性や時間的依存関係を効率的に処理できていない。
    • 動画内で注視すべき箇所を自律的に決定し,効率的な理解を目指す。
    • EVAは,計画に基づいた知覚を行うことで,効率的な動画理解を実現した。
    • SFT,KTO,GRPOを含む学習パイプラインにより,安定した学習が可能となった。
    • 6つの動画理解ベンチマークにおいて,既存手法を6-12%上回る性能を示した。

    Link: https://arxiv.org/abs/2603.22918

  • EU AI法と技術統治における権利に基づくアプローチ [cs.CY, cs.AI]目的:EU AI法の権利保護のメカニズム
    • AI技術の発展は社会に大きな影響を与えており,倫理的・法的な課題が重要になっている。
    • AIシステムの開発・運用において,人権侵害のリスクが存在する。
    • EU AI法が権利保護のモデルとなりうることを検証する。
    • EU AI法は,リスクベースのガバナンスフレームワークの中心に基本的人権を据えている。
    • EU基本的人権憲章に定められた権利の保護を,AIシステムのライフサイクル全体で担保する仕組みが組み込まれている。
    • EU AI法は権利を尊重するAIシステムのモデルとなる可能性を秘めているが,実施段階での課題も存在する。

    Link: https://arxiv.org/abs/2603.22920

  • ProGRank:密集型検索RAGをコーパスポイズニングから防御するためのプローブ勾配再ランク付け [eess.SY, cs.SY, cs.AI]目的:コーパスポイズニングに対する密集型検索RAGの防御
    • 大規模言語モデルの信頼性向上が重要であり,検索による根拠付けが不可欠である。
    • RAGシステムはコーパスポイズニング攻撃に対して脆弱であり,生成結果を悪影響を受ける可能性がある。
    • 既存の防御策の複雑さを回避し,追加訓練不要でRAGシステムを保護すること。
    • ProGRankは,クエリとパッセージ対に対する微小な摂動を利用し,検索器からプローブ勾配を抽出する。
    • 抽出された勾配から,表現の一貫性と分散リスクという2つの不安定性信号を導き出し,再ランキングに活用する。
    • 実験により,ProGRankは強力な防御性能と,ロバスト性・実用性の良好なトレードオフを実現することが示された。

    Link: https://arxiv.org/abs/2603.22934

  • Ran Score:放射線レポート生成のためのLLMベース評価スコア [cs.AI, cs.HC]目的:放射線レポート生成の評価指標
    • 胸部X線画像診断は,異常の早期発見と正確な診断に不可欠である。
    • 低頻度異常の認識精度や,否定表現・曖昧性への対応が課題である。
    • 臨床医の知識とLLMを組み合わせ,より正確な評価を可能とする。
    • 臨床医の指導に基づいたプロンプト最適化により,評価精度が向上した。
    • Ran Scoreは,特に低頻度異常の検出において高い性能を示した。
    • 既存のCheXbertベンチマークを15.7ポイント上回る結果が得られた。

    Link: https://arxiv.org/abs/2603.22935

  • FixationFormer:胸部X線画像分類のための専門家の視線軌跡の直接利用 [cs.CV, cs.LG]目的:胸部X線画像分類における専門家の視線軌跡の直接的な利用方法
    • 放射線医学において,専門家の視線情報は診断推論の重要な手がかりとなりうる。
    • 従来のCNNベースの手法では,視線情報の時間的・空間的な特性を十分に活かせなかった。
    • 視線情報をシーケンスとして扱い,Transformerアーキテクチャに組み込むことで,診断精度向上を目指す。
    • 提案手法FixationFormerは,視線軌跡をトークン列として表現し,画像特徴量と共同で学習することで,視線データのスパース性や変動性を克服する。
    • 画像と視線のトークン列間のクロスアテンション機構により,専門家の診断手がかりをより直接的かつ詳細に統合する。
    • 3つの公開データセットでの評価により,最先端の分類性能を達成し,シーケンスとしての視線表現の有効性を示す。

    Link: https://arxiv.org/abs/2603.22939

  • 思考連鎖ファインチューニングによるNL2SQLのための小規模言語モデルの最適化 [cs.AI]目的:NL2SQLタスクにおける小規模言語モデルの最適化
    • 企業におけるデータ活用の民主化のため,自然言語からSQLへの変換は不可欠である。
    • 大規模言語モデルは高コストであり,大規模展開には限界がある。
    • 計算効率の良い小規模モデルで実用レベルの性能を実現することを目指す。
    • 大規模モデルのファインチューニングでは効果が薄く過学習が発生しやすい。
    • 小規模モデルはファインチューニングによって大幅な性能向上が見られた。
    • 思考連鎖(CoT)推論を追加することで,精度が54.5%に向上した。

    Link: https://arxiv.org/abs/2603.22942

  • PersonalQ:パーソナライズされた拡散モデルの効率的な推論のための選択,量子化,および提供 [cs.AI]目的:パーソナライズされた拡散モデルの効率的な推論
    • 近年,テキストから画像を生成する技術が発展し,様々な応用が期待されている。
    • パーソナライズされたモデルの集合を効率的に運用するには,曖昧な要求への対応と,量子化による表現の歪みが課題となる。
    • 要求とチェックポイント選択を連携させ,量子化による影響を最小限に抑えることで,効率的な推論を実現する。
    • PersonalQは,意図に合致したチェックポイントを選択し,曖昧な要求に対しては明確化を促すことで,精度を向上させる。
    • Trigger-Aware Quantization (TAQ) は,トリガーに依存する重要な情報を保持しつつ,他の部分を積極的に量子化することで,高い圧縮率と画質のバランスを実現する。
    • これにより,パーソナライズされたチェックポイントの効率的かつ高品質な提供が可能となる。

    Link: https://arxiv.org/abs/2603.22943

  • Weak-PDE-Net:微分可能記号ネットワークと弱い定式化による開放形偏微分方程式の発見 [cs.CG, cs.LG]目的:スパースかつノイズを含むデータからの支配的な偏微分方程式の発見
    • データ駆動型科学計算において,物理現象を記述する方程式をデータから発見することは重要である。
    • 従来の疎な回帰法では,ノイズに弱く,候補方程式ライブラリの柔軟性に限界がある。
    • 本研究は,ノイズに強く,柔軟な開放形偏微分方程式の発見を可能とする。
    • Weak-PDE-Netは,前方応答学習器と弱い形の偏微分方程式生成器を組み合わせたフレームワークである。
    • 学習器は,スパースな観測からシステムダイナミクスを適応的に捉える軽量なMLPに学習可能なガウスカーネルを埋め込む。
    • 微分可能ニューラルアーキテクチャ探索戦略により,効率的に開放形偏微分方程式を発見し,物理的な整合性を確保する。

    Link: https://arxiv.org/abs/2603.22951

  • 幾何学的演算によるプライバシー保護型EHRデータ変換:人間とAIの共同設計技術レポート [cs.CR, cs.LG]目的:プライバシー保護型EHRデータ変換フレームワーク
    • 臨床研究,医療AI,生命科学においてEHRデータは不可欠である。データの共有は研究開発を加速する。
    • プライバシー,ガバナンス,相互運用性の制約によりデータ共有が制限され,データサイロ化が深刻である。
    • 幾何学的演算を用いた変換により,プライバシーを保護しつつデータの実用性を維持し,研究を促進すること。
    • 提案手法は,データの意味と主要な統計的特性を維持しつつ,患者レベルの属性との直接的な関連を断ち切る変換された数値ビューを構築する。
    • コンピュータ科学者とAIエージェントSciencePalの共同設計により,非可逆な変換演算子と混合戦略を開発した。
    • 理論分析と実験評価により,再構成,レコードリンケージ,メンバーシップ推論,属性推論に対する耐性が確認された。

    Link: https://arxiv.org/abs/2603.22954

  • 拡散モデルにおけるランダム特徴量スコアと多様体データに対する漸近的学習曲線 [cs.LG, stat.ML]目的:拡散モデルに関連するノイズ除去スコアマッチングの理論的振る舞い
    • 機械学習において,高次元データへの対応が課題である。多様体構造の利用が効率化に繋がる。
    • 高次元データにおける学習には多くのサンプルが必要であり,計算コストが高いという問題がある。
    • 多様体上のデータに対する拡散モデルの学習効率を理論的に解析し,サンプル複雑度を評価する。
    • 線形多様体の場合,スコア関数の学習に必要なサンプル数は,周囲次元ではなく固有次元に比例して増加する。
    • 非線形多様体では,低次元構造の利点が薄れることが示唆された。
    • 拡散モデルは構造化データから恩恵を受けるものの,その依存性は複雑である。

    Link: https://arxiv.org/abs/2603.22962

  • 大規模言語モデルにおける実現可能性を考慮した網羅性保証付き集合値予測 [cs.CL, cs.AI]目的:大規模言語モデルの集合値予測に関する原則的な枠組み
    • 言語モデルの性能向上は,様々な自然言語処理タスクの精度向上に不可欠である。
    • 従来の点予測では,言語モデルの潜在的な能力が十分に活用されていないという課題がある。
    • 言語モデルの出力空間全体を考慮し,より信頼性の高い予測を可能にすることを目指す。
    • 本研究では,実現可能性を考慮した網羅性保証付きの集合値予測の枠組みを提案した。
    • 有限サンプリング下での網羅性の限界を明らかにし,最小達成可能リスク水準(MRL)を定義した。
    • データ駆動型キャリブレーション手法により,目標とするリスク水準で正解を含む予測集合を構築することを可能にした。

    Link: https://arxiv.org/abs/2603.22966

  • 専門家が意見を異にする場合,モデルは失敗する:フランスの裁判所の判決における暗黙の法律引用の検出 [cs.AI]目的:フランスの一次裁判所の判決におけるフランス民法の暗黙的な引用の検出
    • 法律学への計算手法の応用は,大規模な法律分析の可能性を秘めている。
    • 事実記述と法的推論の区別が難しく,モデルの精度向上が課題である。
    • 専門家の意見の不一致がモデルの失敗に繋がる点を明らかにし,改善を目指す。
    • 専門家の意見不一致はモデルの性能低下と相関関係が認められた。
    • 教師ありアンサンブルモデルはF1値0.70を達成するものの,誤検出の偏りが課題である。
    • タスクをトップkランキングとして再構築し,マルチモデルコンセンサスを用いることで,k=200で76%の精度が得られた。

    Link: https://arxiv.org/abs/2603.22973

  • DariMis:YouTubeにおけるダリ語の誤情報検出のための有害性考慮モデリング [cs.CL, cs.AI, cs.LG]目的:ダリ語のYouTube動画における誤情報検出のためのデータセット及びモデル
    • アフガニスタンの公用語であるダリ語は多数話者を有するが,誤情報検出研究は不足している。
    • 既存の研究では,ダリ語のようなリソースの乏しい言語の誤情報検出は困難である。
    • ダリ語のYouTube動画を対象に,誤情報とその有害性を同時に評価できるモデルを構築する。
    • 新たに9,224件のダリ語YouTube動画データセットDariMisを構築し,情報の種類と有害性の2次元でアノテーションを行った。
    • 誤情報のうち55.9%が中程度の有害性を有するのに対し,真実情報では1.0%に過ぎないことが明らかになった。
    • タイトルと説明文を別々のBERT入力として扱うペア入力エンコーディング戦略が,誤情報の再現率を7.0%向上させた。
    • ダリ語/ペルシア語特化モデルParsBERTが,汎用モデルXLM-RoBERTa-baseを上回り,最高の性能を示した。

    Link: https://arxiv.org/abs/2603.22977

  • JFTA-Bench:フォールトツリーを用いたLLMの故障追跡・分析能力の評価 [cs.AI]目的:大規模言語モデルによる故障追跡・分析支援の能力評価のためのベンチマーク
    • 複雑なシステムの保守において,故障原因の特定や対策立案に不可欠な技術である。
    • 画像として保存されたフォールトツリーをLLMで直接処理することが困難であった。
    • フォールトツリーのテキスト表現を提案し,LLMの故障局所化能力を評価する。
    • フォールトツリーの新たなテキスト表現を構築し,複雑な対話環境下でのLLMの性能評価を可能にした。
    • 平均40.75ターン,3130エントリからなるベンチマークJFTA-Benchを構築した。
    • Gemini 2.5 Proが最も優れた性能を示し,タスク追跡とエラーリカバリー能力を実証した。

    Link: https://arxiv.org/abs/2603.22978

  • グラフ基盤モデルはアーキテクチャを超えて一般化できるか? [cs.LG, cs.AI, cs.SI]目的:グラフ基盤モデルのアーキテクチャ適応性
    • グラフ構造データは現実世界の多様な現象を表現でき,その分析は重要である。
    • 既存のグラフ基盤モデルは特定のアーキテクチャに依存し,汎用性に課題がある。
    • タスクに応じたアーキテクチャを適応させ,汎化性能を高めることを目指す。
    • 既存の固定バックボーンを持つグラフ基盤モデルは,アーキテクチャ要件が異なるタスクに対して脆弱である。
    • 推論時にタスク固有の線形グラフ演算を発見・混合することで,アーキテクチャ適応性を実現するフレームワークを提案した。
    • 提案手法は,合成タスクと実世界のベンチマークにおいて,既存手法よりも優れた性能とロバスト性を示した。

    Link: https://arxiv.org/abs/2603.22984

  • メンバーシップ推論攻撃の有効性とプライバシーリスクに関する批判的検討 [cs.CL, cs.CY, cs.CR, cs.LG]目的:メンバーシップ推論攻撃のプライバシーリスク評価
    • 機械学習の普及に伴い,プライバシー保護の重要性が高まっている。
    • メンバーシップ推論攻撃はプライバシー評価の標準とされているが,その脅威度評価は不十分である。
    • 現実的な条件下でのメンバーシップ推論攻撃の脅威度を正確に評価し,過剰な対策を防ぐ。
    • 提案された評価フレームワークに基づき,メンバーシップ推論攻撃は弱いプライバシーリスクであることが示された。
    • メンバーシップ推論攻撃をプライバシー指標として用いることは,リスクの過大評価につながる可能性がある。
    • その結果,モデルの有用性を不必要に犠牲にする過剰な防御策が採用される可能性がある。

    Link: https://arxiv.org/abs/2603.22987

  • 分類器予測の信頼性評価に関する2つの手法の比較:ロバスト性定量化と不確実性定量化 [cs.LG]目的:分類器予測の信頼性評価
    • 機械学習の応用拡大に伴い,予測の信頼性評価は重要性を増している。
    • 既存の信頼性評価手法は,分布シフトに対し脆弱な場合がある。
    • ロバスト性定量化と不確実性定量化の比較を通じて,より信頼性の高い評価手法を模索する。
    • ロバスト性定量化は,標準的な設定および分布シフトが存在する場合において,不確実性定量化と同等以上の性能を示す。
    • ロバスト性定量化と不確実性定量化は互いに補完的であり,組み合わせることでより優れた信頼性評価が可能となる。

    Link: https://arxiv.org/abs/2603.22988

  • 歯科記録を用いた個人識別における集約演算子の利用について [cs.CL, cs.AI]目的:歯科記録比較による個人識別の精度向上
    • 法医学分野において,歯科記録は個人識別において標準的な手法であり,迅速な特定に貢献する。
    • 既存の自動化手法は,情報の潜在能力を十分に活用できていないか,透明性に欠ける。
    • 専門家が理解・検証可能な集約メカニズムを設計し,既存手法の精度を向上させる。
    • 提示された集約モデル(ホワイトボックス機械学習)は,最先端手法よりも平均ランクが向上した(2.02~2.21 vs 3.91)。
    • 機械学習技術を用いた集約は,方法の解釈可能性を損なうことなく,識別精度を改善することを示唆する。
    • 2つの異なる集団からの215件の法医学的症例を用いて,提案手法の有効性が検証された。

    Link: https://arxiv.org/abs/2603.23003

  • 大規模言語モデルは制約下で推論し最適化できるか [cs.AI, cs.LG]目的:制約下における大規模言語モデルの推論・最適化能力
    • 電力系統の効率的な運用は,持続可能な社会の基盤であり,重要性が増している。
    • 既存の大規模言語モデルは,構造化された推論や制約条件の処理に課題がある。
    • 電力系統最適化問題を通して,制約下での言語モデルの能力限界を明らかにする。
    • 最先端の大規模言語モデルは,多くのタスクで失敗することを確認した。
    • 特に複雑な設定において,推論能力を備えた言語モデルでも課題が残る。
    • 本研究は,現実世界の電力網最適化問題に取り組むための言語モデル開発環境を提供する。

    Link: https://arxiv.org/abs/2603.23004

  • AgentRAE:スクリーンショットベースのモバイルGUIエージェントに対する通知型視覚バックドアによるリモートアクション実行 [cs.CR, cs.AI]目的:モバイルGUIエージェントに対するリモートアクション実行
    • モバイルGUIエージェントの利用拡大に伴い,新たなシステムレベル攻撃対象となる。
    • 既存のバックドア手法は,モバイルGUIエージェントの特性上,トリガー設計が困難である。
    • 通知内の視覚的に自然なトリガーを用いて,リモートアクション実行を可能にする。
    • 提案手法AgentRAEは,コントラスト学習とバックドア事後学習により,高い攻撃成功率(90%以上)を達成した。
    • トリガーは外見上自然であり,既存の8つの防御策を回避できる。
    • モバイルGUIエージェントにおける見過ごされてきたバックドア経路を明らかにし,新たな防御策の必要性を示唆する。

    Link: https://arxiv.org/abs/2603.23007

  • 確率的回路による表形式データ生成に関する冷静な考察 [cs.CL, eess.SY, cs.SY, cs.LG, cs.AI]目的:表形式データ生成の現状と課題
    • 表形式データは現実世界の多くの場面で利用されており,その生成技術の向上は重要である。
    • 既存の生成モデルは,表形式データの特性を十分に捉えられていない場合がある。
    • より現実的な表形式データを生成するための評価指標とモデルの改善を目指す。
    • 現在の評価プロトコルには限界があり,生成データの忠実性を適切に評価できていないことが示された。
    • 深層確率的回路(PCs)が,最先端モデルと同等またはそれ以上の性能を発揮し,計算コストを削減できることが示された。
    • 最先端モデルの進歩の停滞は,不適切な評価指標の使用に起因する部分が大きいことが実証された。

    Link: https://arxiv.org/abs/2603.23016

  • 自然災害管理におけるセグメンテーションと検出モデルの概念に基づく説明 [cs.CV, cs.AI]目的:自然災害管理におけるセグメンテーションと検出モデルの説明可能性の向上
    • 自然災害管理において,迅速かつ正確な状況把握が不可欠であり,深層学習モデルが重要な役割を担う。
    • 深層学習モデルの判断根拠が不透明であるため,緊急時における人間の信頼を得ることが困難である。
    • 深層学習モデルの意思決定プロセスを可視化し,人間が理解しやすい形で説明することで,信頼性を高める。
    • 提案手法は,PIDNetおよびYOLOアーキテクチャに対する説明可能性フレームワークを提供し,モデルの予測根拠を概念レベルで理解することを可能にする。
    • 特に,シグモイドゲート素子ごとの融合層に対する新しい再分配戦略を導入し,LRPの説明を拡張することに成功した。
    • 公開されている洪水データセットを用いた実験により,提案手法が信頼性と解釈可能性の高い説明を生成し,リアルタイム推論能力を維持することが示された。

    Link: https://arxiv.org/abs/2603.23020

  • 窓の外を見る:訓練不要のオープンボキャブラリセマンティックセグメンテーションのためのグローバル・ローカルアラインドCLIP [cs.SI, cs.CV, cs.AI]目的:訓練不要のオープンボキャブラリセマンティックセグメンテーションの性能向上
    • 画像認識技術は,自動運転や医療画像解析など,多様な分野で不可欠な技術である。
    • 既存のCLIPモデルは高解像度画像を処理する能力に限界があり,セグメンテーション精度が低下する。
    • ウィンドウ間のセマンティックな不整合を解消し,より高精度なセグメンテーションを実現すること。
    • 提案手法GLA-CLIPは,ウィンドウ間の情報交換を促進することで,セグメンテーション性能を向上させる。
    • ウィンドウ外のトークンへの注意が偏る問題を,プロキシアンカーによって軽減する。
    • 動的正規化スキームにより,小物体のセグメンテーション精度も向上する。

    Link: https://arxiv.org/abs/2603.23030

  • 解釈可能な物体検出と信頼性の高いマルチモーダルAIのためのYOLOv10,コルモゴロフ・アーノルドネットワーク,およびビジョン・言語基盤モデル [cs.CV, cs.AI, cs.CL, cs.LG, cs.RO]目的:解釈可能な物体検出のためのコルモゴロフ・アーノルドネットワークフレームワークの検証
    • 自動運転車など,コンピュータビジョンの信頼性は重要。特に,信頼性の低い検出に対する対処が課題。
    • 既存システムは,視覚的に劣化した状況下での信頼度スコアの根拠が不明確。
    • 信頼度を評価し,不確実な検出を特定することで,リスク軽減に貢献。
    • 提案手法は,ぼかし,遮蔽,低テクスチャなどの条件下で,信頼性の低い予測を高精度に識別。
    • コルモゴロフ・アーノルドネットワークの加法スプライン構造により,各特徴量の影響を可視化。
    • BLIPモデルを用いた軽量なマルチモーダルインターフェースにより,透明性を維持したままシーンの記述を生成。

    Link: https://arxiv.org/abs/2603.23037

  • HUydra:複数HU間隔生成モデリングによる肺CT合成 [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG]目的:肺CT画像の合成手法
    • 医療画像診断支援システムの開発・検証には大量のデータが必要不可欠である。
    • 肺がん診断において,データ不足は診断の遅延や患者への影響を引き起こす可能性がある。
    • HU全範囲の肺CTスキャンという複雑な分布に対処し,計算負荷を軽減する。
    • 提案手法は,従来の2Dフルレンジベースラインを大幅に上回り,FIDで6.2%の改善を達成した。
    • MMD,Precision,Recallにおいても,全HU間隔で優れた結果を示した。
    • マルチヘッドVQVAEが最高の性能を発揮し,視覚的な忠実度と多様性の向上,モデルの複雑さの軽減が可能となった。

    Link: https://arxiv.org/abs/2603.23041

  • 気候基礎モデルの,類推分布シフト下における頑健性の評価 [cs.LG, cs.AI]目的:気候変動による非定常性が,機械学習ベースの気候エミュレータの汎化性能に及ぼす影響の評価
    • 気候変動は加速しており,その予測には高精度な気候モデルが不可欠である。
    • 既存の気候エミュレータは,学習分布外の気候状態に対する頑健性が課題となっている。
    • 歴史データのみで学習させた基礎モデルの,将来予測における頑健性を検証する。
    • ClimaX 基礎モデルは絶対誤差が最小だが,分布シフト下では相対性能変動が大きい。
    • 特に降水誤差は,極端な強制シナリオ下で最大8.44%増加することが示された。
    • 歴史的ダイナミクスのみで学習させたモデルでも,外部強制軌道に敏感であることが明らかになった。

    Link: https://arxiv.org/abs/2603.23043

  • RAGファインチューニングにおけるパラメトリック知識と検索行動:電子設計自動化への応用 [cs.RO, cs.CL, cs.AI, cs.CE]目的:電子設計自動化におけるRAGファインチューニングの有効性評価
    • 電子設計自動化は高度な専門知識を必要とし,正確な情報に基づいた設計が不可欠である。
    • RAGの評価指標は,事実に基づいた差異を捉えきれず,特に専門分野では課題がある。
    • 提案する評価パイプラインと指標を用いて,RAGファインチューニングの知識獲得と表現を定量化する。
    • RAGファインチューニングは,従来のRAGよりも長文生成において顕著な改善を示すことがわかった。
    • 既存の評価指標ROUGEやBERTScoreは,事実の違いを正確に検出できないことが示された。
    • 7Bモデルのファインチューニングは,72Bベースラインを上回り,専門タスクへの効率的な適用可能性を示唆する。

    Link: https://arxiv.org/abs/2603.23047