arXiv雑要約

AI - 2026/03/16 公開

不均衡な少数ショット作物分類における事前分布シフトへの対処：DirPA [cs.RO, cs.LG, cs.CV]目的：不均衡な少数ショット作物分類における，事前分布シフトの影響軽減
- 現実の農業モニタリングでは，クラスの不均衡やラベル取得コストが課題であり，データ不足が深刻化している。
- 少数ショット学習では人工的にバランスを取るため，現実世界の分布との乖離が生じ，汎化性能が低下する。
- 現実の分布を考慮した学習を行い，地理的環境の変化に対するロバスト性を向上させる。
- DirPAは，EUの複数の国々で有効性を示し，極端な不均衡分布下でも安定した学習を実現した。
- DirPAは，ターゲット地域に関わらずシステム全体のロバスト性を向上させるとともに，クラスごとの性能を大幅に改善した。
- DirPAは，事前分布を積極的にシミュレーションすることで，モデルの予測精度を向上させている。
Link: https://arxiv.org/abs/2603.12905
二言語環境における子どもの言語獲得様式からの学習：フランス語・英語の事例研究 [cs.CL, cs.AI]目的：二言語環境における言語モデルの学習
- 言語獲得モデルの研究は，人間らしいAIの実現に不可欠であり，その応用範囲は広い。
- 既存研究は主に英語に偏っており，多言語環境での効果は未解明な点が多い。
- フランス語・英語を用いた実験により，二言語環境での学習効果を明らかにすることを目指す。
- Wikipediaデータでの学習は，意味に関するタスクにおいて一貫して良い結果をもたらす。
- 一方，子どもの言語獲得様式に基づく学習は，単言語環境での文法判断能力の向上に貢献する。
- 二言語での事前学習は，テキスト含意関係の認識において顕著な改善を示し，特にフランス語において効果が高いことが示された。
Link: https://arxiv.org/abs/2603.12906
身体分布を意識したビジュアルプロンプトによる連合ドメイン汎化人物再識別 [cs.RO, cs.CV, cs.AI]目的：連合学習におけるドメイン不変表現の学習
- 個人情報保護が重要視される中で，分散データからの効率的な人物再識別技術が求められている。
- 既存のViTモデルは，背景や視点の変化に弱く，連合学習におけるドメインシフトの影響を受けやすい。
- 歩行者中心の領域に注意を向けるビジュアルプロンプトにより，特徴識別能力と汎化性能の向上を目指す。
- 提案手法FedBPromptは，軽量なプロンプトを学習することで，ViTバックボーンを固定したまま適応性を維持し，通信コストを削減する。
- BAPMにより，特徴の識別能力とドメイン間の汎化性能が向上することが実験的に示された。
- 既存のViTベースのフレームワークに容易に組み込むことができ，柔軟性と効果的な人物再識別を実現する。
Link: https://arxiv.org/abs/2603.12912
構造を重視したインスタンス削除：忠実な構造保持による機械的アンラーニング [cs.DB, cs.CV, cs.AI]目的：事前学習済みモデルにおける指定されたデータの影響除去と，保持された知識の有用性の維持
- モデルのプライバシー保護は重要であり，学習データから個人情報を完全に削除することは困難である。
- 既存の機械的アンラーニング手法では，保持されたインスタンス間の意味関係の維持が不十分である。
- 意味関係を保持し，構造的な崩壊を防ぐことで，削除と保持のバランスを改善すること。
- 提案手法は，意味的なアンカーである「ステーク」を導入し，知識構造を安定化させる。
- 画像分類，検索，顔認識タスクにおいて，それぞれ平均で32.9%，22.5%，19.3%の性能向上を示した。
- 削除と保持のトレードオフをバランスさせ，汎化性能を高めることに成功した。
Link: https://arxiv.org/abs/2603.12915
注意に驚く：時系列異常検知のための予測可能なクエリダイナミクス [cs.LG, cs.AI]目的：多変量時系列異常の検知手法
- 自動運転等の分野で，システムの異常検知は安全性確保に不可欠である。
- 既存手法では，振幅の変化だけでは捉えきれない，チャネル間依存関係の変化による異常を見逃す場合がある。
- クエリの進化を予測することで，構造的な依存関係の変化を検出し，異常をより正確に特定することを目指す。
- AxonADは，多ヘッドアテンションのクエリ進化を予測可能なプロセスとして扱うことで，異常を検出する。
- クエリ予測と再構成誤差を組み合わせることで，振幅レベルと構造的依存関係の変化の両方を高感度に検出できる。
- 実際の車載データとTSB-ADデータセットにおいて，既存手法よりもランキング品質と時間的局所化の精度を向上させた。
Link: https://arxiv.org/abs/2603.12916
ODRLポリシーの正規化による比較 [cs.AI, cs.LO]目的：ODRLポリシーの比較手法
- デジタル権利管理において，ポリシーの標準化は重要である。異なるシステム間での連携を円滑にする上で不可欠である。
- ODRLは複雑であり，その利用を妨げている。研究や実装も断片化し，相互運用性が低いという問題がある。
- ODRLポリシーの正規化により，比較を容易にすることを目的とする。複雑なポリシーを単純化し，比較問題を解決する。
- 本研究では，ODRLポリシーを最小構成要素に正規化する手法を提案した。これにより，権限と禁止を権限のみで表現し，論理制約を簡略化する。
- 提案手法は，ポリシーの意味を保持しながら正規形を計算するアルゴリズムを提供し，その複雑性を解析した。属性数に対して指数関数的な複雑さとなる。
- この正規化により，複雑なポリシーをODRLの基本部分で表現でき，ポリシー比較をルールの一致確認に帰着させることが可能となる。
Link: https://arxiv.org/abs/2603.12926
画像偽造検出と局在化のためのVLMの再考 [cs.CV, cs.LG]目的：画像偽造検出と局在化タスクにおける視覚言語モデルの活用
- AI生成コンテンツの増加に伴い，画像偽造が容易になり，検出・局在化の重要性が増している。
- 既存の視覚言語モデルは，真実性よりも意味的な妥当性を優先する傾向があり，性能向上の妨げとなる。
- 偽造概念を明示的に符号化した局在化マスクをVLMsの学習に活用し，性能と解釈性を向上させる。
- 提案手法IFDL-VLMは，9つのベンチマークにおいて，検出，局在化，解釈性の全ての面で最先端の性能を達成した。
- VLMsの事前知識は，必ずしも検出・局在化性能の向上に寄与せず，むしろバイアスにより悪影響を及ぼす場合があることが示された。
- 局在化マスクは，VLMsの学習を促進し，検出と局在化結果の解釈性を高めるための有効な事前知識となり得る。
Link: https://arxiv.org/abs/2603.12930
蟻コロニー最適化による効率的かつ解釈可能なマルチエージェントLLMルーティング [cs.CL, cs.AI]目的：マルチエージェントLLMシステムにおける効率的かつ解釈可能なルーティング手法
- LLMを活用したMASは複雑な推論・ツール利用に優れるため，多様な問題解決への応用が期待されている。
- 既存のルーティング戦略はコスト高，遅延，透明性の低さにより，実用的な大規模展開が課題となっている。
- 動的な負荷や多様な意図に対応できる，セマンティクスを考慮した制御可能なルーティング手法の開発を目指す。
- 提案手法AMRO-Sは，意図推論にSFTされた小規模言語モデルを用い，低コストなセマンティックインターフェースを提供する。
- ルーティングメモリをタスク固有のフェロモン専門家として分解し，タスク間の干渉を低減し，混合ワークロード下での経路選択を最適化する。
- 非同期更新メカニズムにより，推論と学習を分離し，遅延を増加させることなくルーティングを最適化する。
Link: https://arxiv.org/abs/2603.12933
ストリーミング動画における思考 [cs.CV, cs.AI]目的：ストリーミング動画のリアルタイム理解のためのフレームワーク
- インタラクティブなアシスタントやマルチモーダルエージェントには，動的な環境下で継続的な動画をリアルタイムで理解する能力が不可欠である。
- 既存の動画推論アプローチはバッチ処理が中心で，動画全体を処理するまで推論を遅らせるため，遅延が大きく計算コストが増大する。
- 本研究は，動画がストリーミングされる過程で，リアルタイムで推論を更新し，遅延と計算コストを削減することを目指す。
- ThinkStreamは，Watch--Think--Speakパラダイムに基づき，新しい動画情報を受け取るたびにモデルが理解を段階的に更新するフレームワークである。
- Reasoning-Compressed Streaming Memory (RCSM)は，中間推論をコンパクトな意味記憶として扱い，古い視覚情報を置き換えながら重要な文脈を保持する。
- ストリーミング強化学習と検証可能な報酬により，段階的な推論と応答タイミングをストリーミングインタラクションの要件に適合させている。複数のベンチマークで既存モデルを凌駕する性能を示した。
Link: https://arxiv.org/abs/2603.12938
LLMとDelta1: 信頼性と説明可能性を備えた推論のための記号とニューラル統合 [cs.LO, cs.AI]目的：論理の厳密性と大規模言語モデルの解釈可能性を統合する枠組み
- 近年，推論において，論理的厳密さと解釈可能性を両立させることの重要性が高まっている。
- 既存の推論システムは，説明可能性が不足している場合が多く，透明性の高い意思決定が困難である。
- 本研究は，論理的推論と自然言語の説明を組み合わせることで，説明可能なAIを実現する。
- Delta1とLLMの統合により，定理と証明の過程を自然言語で説明することが可能になった。
- 健康，コンプライアンス，規制などの分野における実験により，解釈可能で監査可能な推論が実現された。
- 本研究は，論理，言語，学習の融合を促進し，説明可能なAIの基盤を構築する。
Link: https://arxiv.org/abs/2603.12953
減衰残差ポリシー最適化による効率的な実世界における自律レース [cs.RO, cs.AI]目的：実世界における自律レースの効率化
- ロボティクス分野において，実世界での動作が求められるため，強化学習の適用が重要である。
- 残差ポリシー学習は複雑になりやすく，推論遅延が増大する課題がある。
- ベースポリシーの影響を段階的に減衰させることで，システムを簡素化し，性能を向上させる。
- 提案手法であるα-RPOは，ベースポリシーを徐々に減衰させることで，独立したニューラルポリシーを実現する。
- シミュレーションおよび実機（Roboracer）のゼロショット転移実験において，α-RPOはベースラインよりも優れたドライビング性能を示した。
- α-RPOは，システム複雑性を軽減し，実世界のロボット展開における実用性を示す。
Link: https://arxiv.org/abs/2603.12960
連合学習のための直交投影埋め込みを用いた意味的コアセット [cs.LG, cs.CV]目的：連合学習における極端なクラス不均衡への対処
- 科学的発見には，大規模な分散データでの学習が不可欠であり，その効率性が求められる。
- 既存の手法はデータ集約が困難か，クラス不均衡によって性能が低下する課題がある。
- データの冗長性を削減し，長尾分布の偏りを軽減することで，連合学習の性能向上を目指す。
- 提案手法SCOPEは，スカラー指標のみを共有することで通信効率を向上させている。
- グローバルな合意に基づいてノイズをフィルタリングし，冗長サンプルを削減することで，特徴量の偏りを抑制する。
- 実験により，SCOPEが競争力のある精度と堅牢な収束性，そして大幅な帯域幅削減効果を示すことが示された。
Link: https://arxiv.org/abs/2603.12976
凍結された基盤モデル上のリッジヘッドに対する正確な連合継続的アンラーニング [cs.LG]目的：連合環境における凍結された基盤モデルとリッジ回帰ヘッドを用いた，特定のサンプルやユーザーの影響除去
- 基盤モデルは広く利用され，プライバシー保護のため連合学習で活用される。データ削除要求への対応が重要。
- 既存の連合アンラーニング手法は近似再構成や選択的再学習に依存し，正確な除去が困難である。
- リッジ回帰ヘッドを持つ基盤モデルにおいて，正確かつ効率的なデータ削除を実現すること。
- 本研究では，加算および削除リクエストに対応可能な固定サイズメッセージに基づく通信プロトコルを提案した。
- サーバーは，リクエスト毎に中心化再学習と数学的に等価なヘッドを維持し，厳密なリトレーニング同等性を保証する。
- 実験結果により，提案手法が中心化リッジ回帰再学習とほぼ一致する精度（相対フロベニウス誤差 $10^{-9}$以内）で動作することが確認された。
Link: https://arxiv.org/abs/2603.12977
人間アノテーションは必要か？機械翻訳における誤り区間検出のための反復MBR蒸留 [cs.CL, cs.AI]目的：機械翻訳における誤り区間検出
- 機械翻訳の品質評価において，誤り区間検出は重要な役割を担う。
- 人間によるアノテーションは高コストであり，アノテーター間の不一致が生じやすい。
- 人間アノテーションに依存せず，高品質な誤り区間検出を実現すること。
- 提案手法は，大規模言語モデルを用いて擬似ラベルを生成し，人間アノテーションなしで学習可能である。
- 実験結果から，提案手法は人間アノテーションで学習した既存手法を上回る性能を示すことが明らかになった。
- システムレベル，区間レベルにおいて高い性能を達成し，文レベルでも競争力のある結果が得られた。
Link: https://arxiv.org/abs/2603.12983
検索拡張型不動産鑑定評価 [cs.LG]目的：不動産鑑定評価における比較対象物件の選定
- 不動産鑑定は，経済活動や資産評価において重要な役割を担う。
- 既存手法では，比較対象物件の選定が十分ではなく，精度の向上が課題である。
- 比較対象物件の選定戦略を学習することで，鑑定評価の精度向上を目指す。
- 提案手法は，ベクトルと地理情報を用いたハイブリッド検索モジュールにより，多様なデータセットへの適応が可能である。
- 学習された選定戦略を用いることで，既存手法よりも少ない比較対象物件数とパラメータで同等の性能を達成した。
- アメリカ，ブラジル，フランスのデータセットを用いた評価により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2603.12986
性別を考慮した敵対的注意型多インスタンス学習による胸部CT画像からの公平な肺疾患診断 [cs.CV, cs.AI]目的：胸部CT画像からの多クラス肺疾患診断における公平性の確保
- 肺疾患の早期発見と正確な診断は，患者の予後を改善する上で極めて重要である。
- 既存の肺疾患診断システムは，性別や疾患の種類によって診断精度に偏りが生じる可能性がある。
- 性別間の公平性を考慮した，より正確で信頼性の高い肺疾患診断システムの開発を目指す。
- 本研究では，ConvNeXtをバックボーンとする注意型多インスタンス学習モデルを提案し，診断的に重要なスライスを特定する。
- 勾配反転層（GRL）を用いることで，学習されたスキャン表現における性別予測構造を敵対的に抑制し，公平性を高める。
- 検証競争での平均スコアは0.685（標準偏差0.030）を達成し，最高スコアは0.759に達した。
Link: https://arxiv.org/abs/2603.12988
拡散LLMにおけるアテンションを用いた依存関係を考慮した並列デコーディング [cs.RO, cs.LG]目的：拡散LLMの並列デコーディングの精度向上
- 拡散LLMは生成能力が高いが，計算コストが課題。
- 並列デコーディングは高速化に有効だが，トークン間依存関係の考慮が難しい。
- 依存関係を考慮しつつ，効率的な並列デコーディングを実現すること。
- DAPDは自己注意機構を用いて，マスクされたトークン間の依存関係グラフを誘導する。
- このグラフ上で独立集合を選択し，並列にトークンを生成することで，強い依存関係を持つトークンの同時更新を回避する。
- LLaDAとDreamを用いた実験で，既存手法よりも精度とステップ数のトレードオフが改善された。
Link: https://arxiv.org/abs/2603.12996
理想ノイズ修正の失敗の解明：三本柱による診断 [cs.LG, cs.CV]目的：ノイズ付きラベル学習における理想的なノイズ修正手法の失敗原因の解明
- ノイズ付きラベル学習は，現実世界のデータに頻繁に存在するノイズに対処するための重要な研究分野である。
- ノイズ遷移行列の推定精度が低いことが，ノイズ修正手法の性能低下の主な原因と考えられてきた。
- 理想的なノイズ遷移行列を与えた場合でも，ノイズ修正手法が性能劣化することを示す。
- ノイズ遷移行列を完全に把握した条件下でも，ノイズ修正手法は学習中に性能が低下することが確認された。
- この結果は，失敗が主にノイズ遷移行列の推定の問題ではなく，より根本的な欠陥に起因することを示唆する。
- 学習可能な情報量に関する情報理論的な限界，最適化のダイナミクス，収束状態の３つのレベルから，この現象を統一的に分析した。
Link: https://arxiv.org/abs/2603.12997
FraudFox：現実世界における適応的な不正検知 [cs.RO, cs.SY, eess.SY, cs.CR, cs.LG]目的：資源制約下における敵対的攻撃への対策
- オンライン不正検知は，Eコマースなどのビジネスにおいて損失を最小限に抑える上で不可欠である。
- 不正行為者は検知システムを回避するために手口を変化させるため，既存のシステムは常に陳腐化する恐れがある。
- 変化する不正行為者の手口に適応し，効率的な不正検知を実現する手法が求められている。
- 提案手法FraudFoxは，複数のリスク評価モジュール(oracle)からの情報を統合し，動的に重みを調整することで，不正な取引を検知する。
- 過去のデータとビジネス上の制約(調査リソース，損失許容額など)に基づいて，最適な意思決定境界を導き出し，パレート最適解を算出する。
- FraudFoxは，不正行為者の行動変化に適応し，スケーラブルで効果的であり，Amazonで実運用されている。
Link: https://arxiv.org/abs/2603.13014
パーソナライズされたエージェントメモリのための構造化蒸留：検索性能維持と11倍のトークン削減 [cs.AI, cs.CL, cs.IR]目的：パーソナライズされたエージェントメモリの構造化蒸留による圧縮
- AIエージェントとの長文対話は，有用な情報を含みうるが，その保存にはコストがかかる。
- 対話履歴の全文保存は，計算資源の制約や応答速度の低下を招く可能性がある。
- 対話履歴を圧縮しつつ，検索性能を維持することを目指す。
- ソフトウェアエンジニアリングプロジェクトの対話データを用いて，平均交換長を371トークンから38トークンへと11倍に圧縮することに成功した。
- 最適な蒸留設定では，全文検索時のMRRスコアが96%に達し，パフォーマンスの大きな低下は見られなかった。
- 構造化蒸留は，単一ユーザーのエージェントメモリを圧縮しつつ，検索品質を維持することが示された。
Link: https://arxiv.org/abs/2603.13017
ARL-Tangram：エージェント強化学習におけるリソース効率の解放 [cs.DC, cs.AI, cs.LG]目的：エージェント強化学習におけるリソース管理システムの開発
- LLMを活用した複雑な問題解決に，エージェント強化学習が不可欠となっている。
- 従来のシステムは静的なリソース割り当てのため，リソース効率が低い。
- アクションレベルでのオーケストレーションにより，リソース効率を向上させる。
- ARL-Tangramは，アクションレベルの実行と弾力的なスケジューリングにより，アクション完了時間を最大4.3倍短縮した。
- 強化学習のステップ時間を最大1.5倍高速化し，外部リソース使用量を最大71.2％削減した。
- 本システムは，MiMoシリーズモデルのトレーニングをサポートするために導入された。
Link: https://arxiv.org/abs/2603.13019
daVinci-Env：大規模ソフトウェアエンジニアリング環境の構築 [cs.SE, cs.AI, cs.CL]目的：ソフトウェアエンジニアリングエージェントの学習環境
- ソフトウェア開発の自動化は，生産性向上や品質改善に不可欠である。
- 既存の学習環境は規模や多様性が不足しており，研究の障壁となっている。
- 大規模で透明性の高い学習環境を構築し，エージェントの学習効率を向上させる。
- OpenSWEは，45,320の実行可能なDocker環境と12,800以上のリポジトリを含む，大規模な学習フレームワークである。
- OpenSWE-32BとOpenSWE-72BはSWE-bench Verifiedでそれぞれ62.4%と66.0%を達成し，Qwen2.5シリーズの最先端性能を確立した。
- ソフトウェアエンジニアリングに特化した学習は，数学的推論や科学的ベンチマークにおいても，知識の劣化なく性能向上をもたらす。
Link: https://arxiv.org/abs/2603.13023
SAW：制御可能かつ拡張性のある動画生成による外科手術アクションワールドモデルへ [cs.CV, cs.AI, cs.LG, eess.IV]目的：外科手術アクション動画の生成を通じた外科手術ワールドモデルの構築
- 外科AIやシミュレーションの発展には，現実的な手術動画データの充実が不可欠である。
- 既存手法は，動画生成に高コストなアノテーションや複雑な中間表現を必要とし，拡張性に課題がある。
- 軽量な条件付け信号を用いた動画生成により，外科手術シミュレーションやAIの精度向上を目指す。
- SAWは，言語プロンプト，参照シーン，組織アフォードアンスマスク，2Dツールチップ軌跡という軽量な信号に基づいて，動画拡散を条件付けする。
- SAWは，既存手法と比較して，時間的な一貫性（CD-FVD: 199.19 vs. 546.82）と視覚的品質において優れた性能を示した。
- 生成された動画は，外科AIにおけるアクション認識の精度向上（クリッピングF1スコア: 20.93%→43.14%）や，シミュレーションのリアリティ向上に貢献する。
Link: https://arxiv.org/abs/2603.13024
PISmith：プロンプトインジェクション対策のための強化学習ベースの敵対的テスト [cs.LG, cs.CR]目的：プロンプトインジェクション防御の評価
- 大規模言語モデル(LLM)の応用拡大に伴い，そのセキュリティリスクの評価が不可欠となっている。
- 既存の防御手法は，適応的な攻撃に対する堅牢性が十分に検証されていない場合がある。
- 本研究は，適応的な攻撃を自動的に生成し，防御手法の脆弱性を明らかにすることを目指す。
- PISmithは，強化学習を用いて，実用的なブラックボックス環境下で効果的な攻撃プロンプトを生成する。
- 従来のGRPOは，報酬の希薄性により性能が制限されるが，PISmithは適応的なエントロピー正則化と動的アドバンテージ重み付けによりこれを克服する。
- 13のベンチマークにおける評価により，最先端の防御手法でも適応的な攻撃に対して脆弱であることが示された。
Link: https://arxiv.org/abs/2603.13026
SortScrews：リアルタイムネジ分類のためのデータセットとベースライン [cs.CV, cs.AI, cs.LG]目的：ネジの種類を分類するためのデータセット及びベースライン
- 産業自動化，ロボティクス，在庫管理において，ネジの種類を自動識別することは重要である。
- ネジ分類のための公開データセットは不足しており，特に自動選別システムで一般的な単一オブジェクトの制御された条件下でのデータが少ない。
- 本研究は，制御された条件下でのネジの画像分類を可能にするデータセットを構築し，評価することを目指す。
- 本研究で公開されたSortScrewsデータセットは，6種類のネジと背景クラスを含む560枚のRGB画像で構成される。
- ImageNetで事前学習されたEfficientNet-B0及びResNet-18を用いた転移学習により，高い分類精度が確認された。
- 比較的少ないデータセットサイズでも，制御された取得条件が効果的な学習を可能にすることが示された。
Link: https://arxiv.org/abs/2603.13027
一度保護すれば，自由に編集可能：モデルの不一致下における画像保護の打破 [cs.CR, cs.AI]目的：モデルの不一致下における画像保護の有効性評価
- 拡散モデルの普及に伴い，画像編集技術の悪用リスクが高まっているため，画像保護技術の重要性が増している。
- 既存の画像保護技術は，特定のモデルに最適化されており，異なるモデルを用いた攻撃に対しては効果が薄れるという課題がある。
- 本研究は，モデルの不一致下で画像保護がどの程度有効か評価し，その弱点を明らかにする。
- 提案するVAE-TransおよびEditorCleanは，保護された画像を高品質に復元し，編集可能性を回復する。
- EditorCleanは，PSNRを3-6dB改善し，FIDを50-70%削減することで，既存の復元手法を上回る性能を示した。
- 一度復元に成功すると，保護信号が除去され，画像が自由に編集可能になるという脆弱性が明らかになった。
Link: https://arxiv.org/abs/2603.13028
ESPIRE：視覚言語モデルの具現化された空間推論の診断ベンチマーク [cs.CV, cs.LG, cs.RO]目的：視覚言語モデルにおける具現化された空間推論の診断
- 視覚言語モデルは，現実世界とのインタラクションにおいて空間認識が重要である。
- 既存の評価は，評価方法と網羅性に限界があり，モデル開発の迅速な反復を妨げている。
- 空間推論に焦点を当てたロボットタスクを通じて，評価と実世界での利用のギャップを埋める。
- ESPIREは，物理的にVLMsを接地し，空間推論中心のロボットタスクで評価するシミュレーション環境である。
- タスクを局所化と実行に分解し，両方を生成問題として扱うことで，詳細な分析を可能にしている。
- 複数の最先端VLMsを診断し，空間推論行動の詳細な分析を提供している。
Link: https://arxiv.org/abs/2603.13033
ウェブバイブコーディングにおけるデザインの均質化の検証 [cs.HC, cs.AI, cs.CY]目的：ウェブバイブコーディングにおけるデザインの均質化可能性
- ウェブデザインは，多様な表現を可能にする重要な手段であり，インターネットの創造性を支えている。
- 生成AIの利用拡大に伴い，デザインの均質化が進み，多様性が失われる懸念がある。
- 均質化のリスクを特定し，創造性を維持するための対策を提案すること。
- 生成AIは，学習データに存在する支配的なスタイルを再現する傾向があり，ウェブデザインにおいても均質化が進行する可能性がある。
- ウェブバイブコーディングのライフサイクルを分析した結果，均質化のリスクが生じる段階を特定した。
- 生産的な摩擦を重視するフレームワークを提案し，創造者がデフォルトの出力を克服し，多様な表現を維持することを支援できることを示した。
Link: https://arxiv.org/abs/2603.13036
ニューロモーフィックハードウェアにおける連合学習と少数ショット学習：物理エッジノードにおける実証研究 [cs.NE, cs.DC, cs.LG]目的：ニューロモーフィックハードウェア上での連合学習における性能評価
- AIの分散学習の需要が高まる中で，エッジデバイスでの効率的な学習が重要になっている。
- 従来の浮動小数点演算を前提とした学習アルゴリズムを，スパイクニューロンを用いるニューロモーフィックハードウェアに適用できない。
- ニューロモーフィックハードウェアでの連合学習における最適な重み交換戦略を特定すること。
- ニューロンレベルの連結(FedUnion)が精度を維持するのに対し，要素ごとの平均化(FedAvg)は精度を低下させた。
- 特徴抽出器のドメイン適応型ファインチューニングが精度の向上に大きく貢献することが確認された。
- 特徴次元のスケーリングは連合学習の精度に影響を与え，最適な戦略では77.0%の精度を達成した。
Link: https://arxiv.org/abs/2603.13037
精度制約付き近似DCiMのための共最適化フレームワークOpenACMv2 [cs.CL, cs.LG, cs.AR]目的：近似DCiMにおける精度制約下でのアーキテクチャとトランジスタレベルの選択の共最適化
- ニューラルネットワークの高速化が求められており，データ移動の削減が重要である。
- 近似DCiMはPPAを改善するが，アーキテクチャとトランジスタレベルの連携最適化が課題である。
- 精度を維持しつつ，PPAを最適化するための共最適化フレームワークを開発する。
- OpenACMv2は，GNNベースのサーロゲートモデルを用いて高速なアーキテクチャ探索を実現している。
- モンテカルロ法によるトランジスタサイジングは，変動とPVTの影響を考慮した設計を可能にしている。
- 実験により，制御された精度予算下でPPAの大幅な改善が確認された。
Link: https://arxiv.org/abs/2603.13042
汎用画像モデルは2D医用画像セグメンテーションに必要なものなのか？クロスデータセット実証研究 [cs.CY, cs.CV, cs.AI]目的：2D医用画像セグメンテーションにおける汎用画像モデルと専門的モデルの性能比較
- 医用画像セグメンテーションは，コンピュータ支援診断や臨床意思決定を支える基盤技術である。
- 医用画像特有の課題（低コントラスト，微細構造，データ不足）に対応するため，多くの専門モデルが開発されてきた。
- 汎用画像モデルが医用画像セグメンテーションにおいて，専門モデルと比較して有効性を示す。
- 本研究では，多様なデータセットにおいて，汎用画像モデルが大多数の専門モデルを上回る性能を示した。
- XAI分析の結果，汎用画像モデルは専門的な設計なしに臨床的に関連性の高い構造を捉えることが示された。
- これらの結果は，汎用画像モデルが医用画像セグメンテーションにおいて有用な選択肢となり得ることを示唆している。
Link: https://arxiv.org/abs/2603.13044
3DTCR：渦追跡に基づく3次元再構成のための物理ベース生成フレームワーク - 熱帯低気圧強度予報の改善に向けて [cs.CL, cs.LG]目的：熱帯低気圧の3次元構造再構成と強度予報の改善
- 熱帯低気圧は甚大な被害をもたらすため，正確な強度予報が不可欠である。
- 既存の数値モデルやAIモデルでは，熱帯低気圧の極端な構造や強度を十分に表現できていない。
- 高解像度シミュレーションの計算コストを削減しつつ，熱帯低気圧の微細構造を効率的に再構成することを目指す。
- 3DTCRは，物理制約と生成AIを組み合わせることで，熱帯低気圧の3次元構造を再構成する。
- 5日までの予測期間において，ECMWF-HRESよりも熱帯低気圧強度予測の精度が高いことが示された。
- 最大風速10mのRMSEを，FuXi入力と比較して36.5％削減することに成功した。
Link: https://arxiv.org/abs/2603.13049
因果細胞コンテキスト転移学習（C3TL）：未観測の摂動効果予測のための効率的なアーキテクチャ [eess.SY, cs.SY, cs.LG, q-bio.QM]目的：未観測の摂動効果予測のための効率的なアーキテクチャ
- 細胞の状態変化に対する化学的・遺伝的摂動の影響予測は，生物学，分子医学，創薬において重要である。
- 大規模なデータセットや計算資源が限られている場合，既存の手法は利用が難しいという課題がある。
- 限られたリソースでも，摂動効果の予測精度を向上させ，より多くの研究者が利用できるようにすることを目的とする。
- 本研究で提案するC3TLは，既存の最先端モデルと同等の予測性能を示し，より少ないデータと計算資源で実現可能である。
- 堅牢なバルクシグナルと効率的なアーキテクチャに焦点を当てることで，大規模モデルや専用ハードウェアがなくても，摂動効果の正確な予測が可能となる。
- このアプローチは，因果学習を生物医学分野でより広く活用するための道を開く。
Link: https://arxiv.org/abs/2603.13051
第10回ABAWコンペティション Team RAS：多Modal感情価・覚醒度推定アプローチ [cs.CV, cs.AI]目的：野外環境における感情価と覚醒度の連続推定
- 感情認識は，人間と機械の自然なインタラクションを可能にする上で不可欠である。
- 野外環境では，外見，姿勢，照明，遮蔽，個人の表現パターンの多様性が課題となる。
- 様々なModal情報を統合し，よりロバストな感情推定を実現することを目指す。
- 提案手法は，顔，行動，音声の3つのModalを組み合わせることで高い性能を発揮した。
- 特に，指向性クロスモーダルMoE融合戦略が有効であり，各Modalの相互作用を学習した。
- Aff-Wild2開発セットにおいて，CCC 0.658を達成し，最先端の結果を示した。
Link: https://arxiv.org/abs/2603.13056
競合を考慮したCPC予測：近接市場カバレッジによるアプローチ [cs.LG, cs.AI]目的：有料検索におけるCPC予測の精度向上
- 有料検索広告において，CPCは競争環境に大きく左右されるため，正確な予測は広告戦略上重要である。
- CPCは競争状況によって変動が激しく，単一の広告主の履歴だけでは競争環境を完全に把握することが困難である。
- キーワード，CPC推移，地理的市場構造から競争状況を推測し，CPC予測の精度を高めることを目指す。
- キーワードテキスト，CPC推移，地理的市場構造を基にした競争状況の推定が有効であることが示された。
- 提案手法は，既存の統計的，ニューラル，時系列モデルと比較して，予測の安定性と精度を向上させた。
- 特に，競争状況が変化しやすく，変動の大きい中長期的な予測において，その効果が顕著であった。
Link: https://arxiv.org/abs/2603.13059
L2GTX：局所から大域的な時系列の説明へ [cs.CE, cs.LG, cs.AI]目的：時系列データの分類モデルにおける，クラスレベルの意思決定行動の解明
- 時系列データ分析は，金融，医療，環境など幅広い分野で重要であり，その解釈可能性は不可欠である。
- 深層学習モデルの解釈性は課題であり，特に時系列データにおいては，時間依存性を考慮した説明が求められる。
- 既存手法の限界を克服し，モデル非依存な大域的説明を生成することで，時系列モデルの理解を深める。
- L2GTXは，代表的なインスタンス群からの局所的な説明を統合することで，クラスごとの大域的な説明を生成する。
- パラメータ化された時間イベントの基本パターンをクラスタリングし，その重要度を評価することで，簡潔な説明を実現する。
- 実験の結果，L2GTXは大域的な忠実性を維持しつつ，コンパクトかつ解釈可能な説明を生成することが示された。
Link: https://arxiv.org/abs/2603.13065
地化学的異常検知のベンチマーク：鉱物探査への応用 [cs.LG, cs.AI]目的：鉱物探査における地化学的異常検知のベンチマークデータセットとフレームワーク
- 鉱物探査において，地域地化学的基盤からの逸脱は鉱化を示す重要な指標となる。
- 既存研究は，単一地域に限定されるため汎化性が低く，データセットが非公開で再現が困難である。
- 複数地域のオープンデータセットと高性能な異常検知フレームワークを開発し，再現性と汎化性を向上させる。
- GeoChemADは，政府主導の地質調査から収集した，多様な地域，サンプルソース，ターゲット元素を含むオープンソースのベンチマークデータセットである。
- 提案手法GeoChemFormerは，自己教師あり学習を用いたトランスフォーマーベースのフレームワークであり，ターゲット元素を意識した地化学的表現を学習する。
- 実験結果から，GeoChemFormerは8つのサブセット全てで既存手法を凌駕し，高い精度と汎化性能を示すことが明らかになった。
Link: https://arxiv.org/abs/2603.13068
実用的なフラクタル：パーティション化された反復関数系としてのノイズ除去拡散 [cs.LG, cs.CV, cs.IT, math.DS, math.IT]目的：ノイズ除去拡散モデルのスケジュール，アーキテクチャ，学習目標を記述するための統一的な設計言語
- 拡散モデルは画像生成において高い性能を示すが，その内部メカニズムは未だ不明な点が多い。
- 拡散モデルの設計は経験則に頼る部分が多く，理論的な根拠に基づいた最適化が課題である。
- 拡散モデルのノイズ除去過程を数学的に解析し，最適な設計基準を導き出す。
- 拡散モデルの決定論的逆過程は，パーティション化された反復関数系（PIFS）として機能することが示された。
- PIFSの構造から，ステップごとの収縮閾値，対角拡張関数，全体拡張閾値の3つの幾何学的量が導出された。
- これらの量を用いて，拡散モデルの二つの動作モード（大域的文脈の構築と微細な詳細の合成）を構造的に説明し，既存の設計選択を最適化問題の近似解として導出した。
Link: https://arxiv.org/abs/2603.13069
手書き数学課題に対する人間介入型LLM採点 [cs.CY, cs.AI]目的：手書き数学課題の採点におけるLLM支援
- 教育効果を高めるため，個別化されたフィードバックの重要性が認識されている。
- 大量の課題を採点する際の，時間と労力の制約が課題となっている。
- LLMと人間の協調による，効率的かつ公正な採点手法の確立を目指す。
- LLMの支援により，採点時間を約23%削減できた。
- LLMによる採点の一貫性は，手動採点と同程度，またはそれ以上に高かった。
- 人間が介入することで，LLMの誤りを効果的に抑制し，公平性と正確性を維持した。
Link: https://arxiv.org/abs/2603.13083
線形化アテンションにおける影響の可変性：非収束型NTKダイナミクスの二重の影響 [cs.LG, cs.CV, cs.NA, math.NA, stat.ML]目的：線形化アテンションの学習ダイナミクスにおけるトレードオフの解明
- アテンションメカニズムは深層学習の重要な構成要素であり，その理論的基盤の理解はモデル性能向上に不可欠である。
- アテンションメカニズムの複雑な非線形ダイナミクスにより，理論的解析が困難である。
- 線形化アテンションにおける非収束という問題を明らかにし，影響の可変性の特徴を分析すること。
- 線形化アテンションは，無限幅のNTK限界に収束せず，特定の幅（$m = \Omega(\kappa^6$)）を超えない限り収束しないことが示された。
- アテンションはReLUネットワークと比較して影響の可変性が6～9倍高く，データ依存型カーネルが近似誤差を削減する一方で，敵対的操作に対する脆弱性を高める。
- アテンションの強みと脆弱性は，カーネルレジームからの逸脱という共通の起源を持つことが示唆された。
Link: https://arxiv.org/abs/2603.13085
チューニング障壁の打破：学習された事前知識を用いた多角検証 [cs.LG, cs.AR]目的：多角検証における計算コスト削減
- 半導体回路設計において，信頼性確保のため，様々な動作環境下での検証が不可欠である。
- 従来の検証手法は，複雑な回路に対して高い精度を出すために，膨大なパラメータ調整が必要となる。
- 事前学習済みの汎用モデルを用いることで，パラメータ調整なしに高精度な検証を実現し，検証時間を短縮する。
- 本手法は，数百万の回帰タスクで事前学習された基盤モデルを活用し，チューニングなしで最先端の精度（平均絶対誤差率0.11％）を達成する。
- 自動特徴選択器と組み合わせることで，検証コストを10倍以上削減することに成功した。
- モデルの注意メカニズムが動作条件間の共通の回路物理を識別し，知識を自動的に転移することで，各回路への適応を瞬時に行う。
Link: https://arxiv.org/abs/2603.13092
最終解答を超えて：透明性のあるマルチモーダル推論評価のためのCRYSTALベンチマーク [cs.AI, cs.CV, cs.IR, cs.MM]目的：マルチモーダル推論の検証可能な中間ステップを通じた評価
- AIの高度化に伴い，複雑な推論能力の評価が不可欠となっている。
- 既存の評価指標では，推論プロセスにおける問題を捉えきれない場合がある。
- 推論ステップの透明性を重視し，より詳細な評価手法を確立することを目指す。
- CRYSTALベンチマークは，6,372個の事例を用いてマルチモーダル推論を評価する。
- 既存のLLMは，精度が高くても再現性や推論の順序性に課題があることが示された。
- Causal Process Reward (CPR)とCPR-Curriculumを用いることで，推論能力が大幅に向上した。
Link: https://arxiv.org/abs/2603.13099
ロボット動作における空間推論の評価：運動嗜好を用いたロボット計画への一歩 [cs.RO, cs.AI]目的：ロボット動作に関する空間推論能力の評価
- 人間支援ロボットにおいて，指示理解と環境認識は不可欠であり，その性能向上が求められている。
- 既存のロボットプランナーは，新しいタスクや運動仕様への汎化性能に課題が残されている。
- 運動嗜好や制約を考慮した空間推論能力をVLMsに付与し，ロボット計画の高度化を目指す。
- 最新のVLMsにおいて，クエリ方法に依存する空間推論能力を評価した結果，Qwen2.5-VLが優れた性能を示した。
- Qwen2.5-VLはゼロショットで71.4%，ファインチューニング後は75%の精度を達成したが，GPT-4oはより低い性能にとどまった。
- 物体近接性と経路スタイルという2種類の運動嗜好を評価し，精度と計算コストのトレードオフを分析した。
Link: https://arxiv.org/abs/2603.13100
BoSS：深層アクティブ学習のためのオラクルとしての戦略選択器 [cs.LG, cs.AI]目的：深層アクティブ学習における最適な戦略選択
- モデル性能向上とアノテーションコスト削減が重要視される分野であり，データ効率の改善が求められる。
- 既存の選択戦略は，モデル，予算，データセットによって頑健性に欠けるという課題がある。
- 大規模データセットや複雑な深層ニューラルネットワークに対応可能なオラクル戦略を構築すること。
- BoSSは，既存のオラクル戦略よりも優れた性能を示すことが確認された。
- 最先端のアクティブ学習戦略は，特に大規模データセットにおいて，オラクル性能に大きく劣る。
- 戦略選択におけるアンサンブルアプローチは，アクティブ学習戦略の性能変動を抑制する有効な手段となり得る。
Link: https://arxiv.org/abs/2603.13109
効率的な疎性訓練のためのゼロ次鋭敏度最小化：ZO-SAM [cs.OS, cs.LG]目的：効率的な疎性訓練のための最適化手法
- 深層学習の発展は目覚ましいが，計算コストとメモリ消費量が課題となっている。
- 既存の疎性訓練法は，高疎性化率下で勾配が不安定になりやすく，学習が困難である。
- 勾配の不安定性を抑制し，学習の安定化と高速化を実現する。
- 提案手法ZO-SAMは，SAMにゼロ次最適化を組み込むことで，計算コストを半減する。
- ZO-SAMは，勾配分散を低減し，学習プロセスを安定化させる。
- 疎性訓練において，ZO-SAMは分布シフトに対するロバスト性を向上させる。
Link: https://arxiv.org/abs/2603.13115
ビデオLLMにおける幾何学誘導カメラモーション理解 [cs.CV, cs.AI]目的：ビデオLLMにおけるカメラモーション理解の向上
- 視覚知覚や映画のスタイル形成において，カメラモーションは重要な幾何学的要素である。
- 既存のビデオLLMはカメラモーションを明示的に表現できず，微細なモーションの認識に課題がある。
- 3Dモデルからの幾何学的カメラキュー抽出と構造化プロンプトによるカメラモーション理解の改善を目指す。
- 多様な既存のビデオLLMにおいて，カメラモーションの認識に大きな誤りがあることが示された。
- Qwen2.5-VLのビジョンエンコーダの調査から，特に深いViTブロックにおいてカメラモーションのキューが弱く表現されていることが示唆された。
- 提案手法により，カメラモーション認識の精度向上と，よりカメラに配慮したモデル応答が実現された。
Link: https://arxiv.org/abs/2603.13119
Steve-Evolving：詳細な診断と二重知識蒸留によるオープンワールドにおける自己進化型具現化エージェント [cs.AI]目的：オープンワールド環境における具現化エージェントの自己進化機構
- 複雑な環境での長期タスク遂行には，経験の効率的な組織化と進化が不可欠である。
- 従来の具現化エージェントは，単一ステップの計画能力に集中し，経験の活用が不十分である。
- 本研究では，詳細な診断と知識蒸留を用いて，具現化エージェントの継続的な自己進化を実現する。
- 提案手法Steve-Evolvingは，経験の固定化，知識蒸留，知識駆動閉ループ制御の3段階で自己進化を実現する。
- 経験は，状態，行動，診断結果，事後状態を含む構造化されたタプルとして固定化され，多次元インデックスによる効率的な検索を可能にする。
- Minecraft MCU環境での実験により，提案手法が静的検索ベースラインを上回る一貫した改善を示すことが確認された。
Link: https://arxiv.org/abs/2603.13131
正と誤の出会い：GRPOのための報酬-確信度補正を用いた両側文脈条件付け [cs.RO, cs.AI]目的：グループ相対方策最適化における推論モデルの性能向上
- 複雑な推論タスクにおいて，モデルの学習効率と精度向上が重要である。
- 既存のGRPOは，正解と不正解の対比という構造的情報を活用できていない。
- 正解と不正解の推論経路を比較することで，より効率的な学習を目指す。
- 提案手法BICCは，正解と不正解の推論経路を相互参照し，サンプル間の直接的な情報伝達を実現する。
- 報酬-確信度補正RCCは，GRPOの利点関数を安定化させ，学習を促進する。
- 数学的推論ベンチマークにおいて，様々なモデルとアルゴリズムで一貫した性能向上を確認した。
Link: https://arxiv.org/abs/2603.13134
ESG-Bench：長文ESGレポートにおける幻覚軽減のためのベンチマーク [cs.CL, cs.AI]目的：大規模言語モデルにおけるESGレポート理解と幻覚軽減のためのベンチマークデータセット
- 企業の責任が環境，社会，ガバナンス(ESG)基準を取り入れる中，ESG報告は法的要件となり，持続可能性の実践評価が重要になっている。
- ESG開示の長さと複雑さにより，解釈と自動分析が困難であり，信頼性の高い分析が課題となっている。
- 大規模言語モデルにおけるESGレポートの理解能力と，事実に基づかない情報の生成(幻覚)を抑制することを目的とする。
- ESG-Benchは，実際のESGレポートに基づいた質問応答ペアで構成され，モデルの出力が事実に基づいているかどうかの詳細なラベルが付与されている。
- 特定のChain-of-Thoughtプロンプト戦略とファインチューニングにより，幻覚の軽減に大幅な改善が見られ，標準的なプロンプトや直接ファインチューニングを上回る性能を示した。
- これらの改善は，ESGドメイン外の既存の質問応答ベンチマークにも転移し，汎用的な効果が確認された。
Link: https://arxiv.org/abs/2603.13154
忠実な多Modal概念ボトルネックモデルに向けて [cs.CV, cs.LG]目的：多Modalデータにおける概念ボトルネックモデルの忠実性向上
- 近年，AIの説明可能性が重要視され，人間の理解を助けるモデルが求められている。
- 既存の概念ボトルネックモデルでは，概念検出と情報の漏洩抑制が別問題として扱われている。
- 概念検出と漏洩抑制を同時に改善し，より忠実な多Modalモデルを開発すること。
- f-CBMは，視覚言語バックボーン上に構築された新しいフレームワークであり，漏洩損失とKolmogorov-Arnoldネットワーク予測ヘッドを用いる。
- 実験の結果，f-CBMはタスク精度，概念検出，漏洩抑制のバランスに優れていることが示された。
- f-CBMは，画像とテキスト，またはテキストのみのデータセットの両方に適用可能であり，汎用性が高い。
Link: https://arxiv.org/abs/2603.13163