arXiv雑要約

画像・音声 - 2026/03/16 公開

姿勢情報を用いないLiDAR点群からの新規視点合成のためのスペクトル幾何ニューラルフィールド [cs.ET, cs.SY, eess.SY, cs.CV]目的：姿勢情報不要なLiDAR点群からの新規視点合成
- LiDARデータは自動運転やロボティクスにおいて，周囲環境の3次元把握に不可欠である。
- LiDARデータは疎でテクスチャが少ないため，幾何学的な穴や不連続な表面が発生しやすい。
- 姿勢情報に依存せず，LiDARデータ特有の問題を克服した高精度な新規視点合成を目指す。
- 提案手法SG-NLFは，スペクトル情報と幾何学的整合性を統合した姿勢情報不要なLiDAR NeRFフレームワークである。
- スペクトル事前情報に基づくハイブリッド表現により，滑らかな幾何形状の再構成を実現している。
- 特徴量の適合性に基づく信頼度を考慮したグラフを用いて，大域的なアライメントを実現し，再構成品質を向上させている。
Link: https://arxiv.org/abs/2603.12903
不均衡な少数ショット作物分類における事前分布シフトへの対処：DirPA [cs.RO, cs.LG, cs.CV]目的：不均衡な少数ショット作物分類における，事前分布シフトの影響軽減
- 現実の農業モニタリングでは，クラスの不均衡やラベル取得コストが課題であり，データ不足が深刻化している。
- 少数ショット学習では人工的にバランスを取るため，現実世界の分布との乖離が生じ，汎化性能が低下する。
- 現実の分布を考慮した学習を行い，地理的環境の変化に対するロバスト性を向上させる。
- DirPAは，EUの複数の国々で有効性を示し，極端な不均衡分布下でも安定した学習を実現した。
- DirPAは，ターゲット地域に関わらずシステム全体のロバスト性を向上させるとともに，クラスごとの性能を大幅に改善した。
- DirPAは，事前分布を積極的にシミュレーションすることで，モデルの予測精度を向上させている。
Link: https://arxiv.org/abs/2603.12905
身体分布を意識したビジュアルプロンプトによる連合ドメイン汎化人物再識別 [cs.RO, cs.CV, cs.AI]目的：連合学習におけるドメイン不変表現の学習
- 個人情報保護が重要視される中で，分散データからの効率的な人物再識別技術が求められている。
- 既存のViTモデルは，背景や視点の変化に弱く，連合学習におけるドメインシフトの影響を受けやすい。
- 歩行者中心の領域に注意を向けるビジュアルプロンプトにより，特徴識別能力と汎化性能の向上を目指す。
- 提案手法FedBPromptは，軽量なプロンプトを学習することで，ViTバックボーンを固定したまま適応性を維持し，通信コストを削減する。
- BAPMにより，特徴の識別能力とドメイン間の汎化性能が向上することが実験的に示された。
- 既存のViTベースのフレームワークに容易に組み込むことができ，柔軟性と効果的な人物再識別を実現する。
Link: https://arxiv.org/abs/2603.12912
構造を重視したインスタンス削除：忠実な構造保持による機械的アンラーニング [cs.DB, cs.CV, cs.AI]目的：事前学習済みモデルにおける指定されたデータの影響除去と，保持された知識の有用性の維持
- モデルのプライバシー保護は重要であり，学習データから個人情報を完全に削除することは困難である。
- 既存の機械的アンラーニング手法では，保持されたインスタンス間の意味関係の維持が不十分である。
- 意味関係を保持し，構造的な崩壊を防ぐことで，削除と保持のバランスを改善すること。
- 提案手法は，意味的なアンカーである「ステーク」を導入し，知識構造を安定化させる。
- 画像分類，検索，顔認識タスクにおいて，それぞれ平均で32.9%，22.5%，19.3%の性能向上を示した。
- 削除と保持のトレードオフをバランスさせ，汎化性能を高めることに成功した。
Link: https://arxiv.org/abs/2603.12915
二軸変換による視点不変表現VIRD：クロスビュー姿勢推定のための手法 [cs.CV]目的：クロスビュー姿勢推定における視点不変表現の構築
- 自動運転やロボティクスにおいて，正確なグローバル測位は不可欠である。
- GNSSベースの手法は，遮蔽やマルチパス効果により精度が低下する課題がある。
- 地上視点画像と衛星画像を関連付け，視点差を克服する姿勢推定手法を提案する。
- VIRDは，二軸変換を通じて視点不変表現を構築することで，クロスビュー姿勢推定の精度を向上させる。
- KITTIデータセットにおいて，既存手法と比較して位置誤差の中央値が50.7%，姿勢誤差の中央値が76.5%減少した。
- VIGORデータセットでも同様に，位置誤差が18.0%，姿勢誤差が46.8%それぞれ減少した。
Link: https://arxiv.org/abs/2603.12918
画像偽造検出と局在化のためのVLMの再考 [cs.CV, cs.LG]目的：画像偽造検出と局在化タスクにおける視覚言語モデルの活用
- AI生成コンテンツの増加に伴い，画像偽造が容易になり，検出・局在化の重要性が増している。
- 既存の視覚言語モデルは，真実性よりも意味的な妥当性を優先する傾向があり，性能向上の妨げとなる。
- 偽造概念を明示的に符号化した局在化マスクをVLMsの学習に活用し，性能と解釈性を向上させる。
- 提案手法IFDL-VLMは，9つのベンチマークにおいて，検出，局在化，解釈性の全ての面で最先端の性能を達成した。
- VLMsの事前知識は，必ずしも検出・局在化性能の向上に寄与せず，むしろバイアスにより悪影響を及ぼす場合があることが示された。
- 局在化マスクは，VLMsの学習を促進し，検出と局在化結果の解釈性を高めるための有効な事前知識となり得る。
Link: https://arxiv.org/abs/2603.12930
MotionAnymesh：シミュレーション対応デジタルツインのための物理に基づく関節表現 [cs.IR, cs.RO, cs.CV]目的：静的3Dメッシュをインタラクティブな関節式アセットへの変換
- 具現化されたAIやロボットシミュレーションにおいて，物理的整合性の高いデジタルツインが不可欠である。
- 既存のゼロショットパイプラインは，複雑なアセットにおいて物理的根拠の欠如により性能が制限されている。
- 視覚言語モデルのキネマティックな幻覚を解消し，シミュレーション時のメッシュの浸透を防ぐ。
- MotionAnymeshは，明示的な物理的事前知識を用いてVLMsの推論を接地し，キネマティックな幻覚を効果的に排除する。
- 幾何学的な精度と動的な物理実行可能性の両方において，最先端のベースラインを大幅に上回る性能を示す。
- 提案手法は，ダウンストリームアプリケーション向けの信頼性の高いアセットを提供することで，物理シミュレーションの精度向上に貢献する。
Link: https://arxiv.org/abs/2603.12936
SGMatch: フロー正則化を用いた意味論的ガイド付き非剛体形状マッチング [cs.CV]目的：非剛体3D形状間の対応点探索
- 3D形状解析は，コンピュータビジョン，グラフィックス等の分野で不可欠である。
- 非等角変形やトポロジーノイズ下では，正確な対応点探索が困難である。
- 意味的情報と幾何学的記述子を統合し，空間的な滑らかさを確保することで，高精度な対応点探索を実現する。
- SGMatchは，視覚基盤モデルからの意味特徴を幾何学的記述子に統合するSemantic-Guided Local Cross-Attentionモジュールを設計した。
- 条件付きフローマッチングに基づく正則化項を導入し，対応点の空間的な滑らかさを促進する時間変動する速度場を学習した。
- 複数のベンチマークにおいて，SGMatchは，非等角変形やトポロジーノイズ下で競争力のある性能と一貫した改善を示すことが確認された。
Link: https://arxiv.org/abs/2603.12937
ストリーミング動画における思考 [cs.CV, cs.AI]目的：ストリーミング動画のリアルタイム理解のためのフレームワーク
- インタラクティブなアシスタントやマルチモーダルエージェントには，動的な環境下で継続的な動画をリアルタイムで理解する能力が不可欠である。
- 既存の動画推論アプローチはバッチ処理が中心で，動画全体を処理するまで推論を遅らせるため，遅延が大きく計算コストが増大する。
- 本研究は，動画がストリーミングされる過程で，リアルタイムで推論を更新し，遅延と計算コストを削減することを目指す。
- ThinkStreamは，Watch--Think--Speakパラダイムに基づき，新しい動画情報を受け取るたびにモデルが理解を段階的に更新するフレームワークである。
- Reasoning-Compressed Streaming Memory (RCSM)は，中間推論をコンパクトな意味記憶として扱い，古い視覚情報を置き換えながら重要な文脈を保持する。
- ストリーミング強化学習と検証可能な報酬により，段階的な推論と応答タイミングをストリーミングインタラクションの要件に適合させている。複数のベンチマークで既存モデルを凌駕する性能を示した。
Link: https://arxiv.org/abs/2603.12938
連合学習のための直交投影埋め込みを用いた意味的コアセット [cs.LG, cs.CV]目的：連合学習における極端なクラス不均衡への対処
- 科学的発見には，大規模な分散データでの学習が不可欠であり，その効率性が求められる。
- 既存の手法はデータ集約が困難か，クラス不均衡によって性能が低下する課題がある。
- データの冗長性を削減し，長尾分布の偏りを軽減することで，連合学習の性能向上を目指す。
- 提案手法SCOPEは，スカラー指標のみを共有することで通信効率を向上させている。
- グローバルな合意に基づいてノイズをフィルタリングし，冗長サンプルを削減することで，特徴量の偏りを抑制する。
- 実験により，SCOPEが競争力のある精度と堅牢な収束性，そして大幅な帯域幅削減効果を示すことが示された。
Link: https://arxiv.org/abs/2603.12976
性別を考慮した敵対的注意型多インスタンス学習による胸部CT画像からの公平な肺疾患診断 [cs.CV, cs.AI]目的：胸部CT画像からの多クラス肺疾患診断における公平性の確保
- 肺疾患の早期発見と正確な診断は，患者の予後を改善する上で極めて重要である。
- 既存の肺疾患診断システムは，性別や疾患の種類によって診断精度に偏りが生じる可能性がある。
- 性別間の公平性を考慮した，より正確で信頼性の高い肺疾患診断システムの開発を目指す。
- 本研究では，ConvNeXtをバックボーンとする注意型多インスタンス学習モデルを提案し，診断的に重要なスライスを特定する。
- 勾配反転層（GRL）を用いることで，学習されたスキャン表現における性別予測構造を敵対的に抑制し，公平性を高める。
- 検証競争での平均スコアは0.685（標準偏差0.030）を達成し，最高スコアは0.759に達した。
Link: https://arxiv.org/abs/2603.12988
テスト時注意浄化によるバックドア埋め込み大規模視覚言語モデルの防御 [cs.CV, cs.CR]目的：大規模視覚言語モデルへのバックドア攻撃に対する防御
- 視覚と言語を組み合わせたモデルの性能は高いが，悪意のある攻撃に脆弱であるという課題がある。
- 既存の防御法は再学習が必要であり，計算コストが高い上にモデル性能を低下させる可能性がある。
- テスト時に注意メカニズムを操作することで，再学習なしにバックドア攻撃を効果的に防御することを目指す。
- 本研究では，バックドア攻撃が視覚的なパターンではなく，視覚とテキスト間の注意の再分配を通じて予測に影響を与えることを明らかにした。
- 提案手法CleanSightは，入力画像中の注意を奪う視覚トークンを特定し，それらを削除することでバックドア攻撃を中和する。
- 実験の結果，CleanSightは既存手法よりも高い防御性能を示し，クリーンなデータと汚染されたデータ両方でモデルの性能を維持した。
Link: https://arxiv.org/abs/2603.12989
理想ノイズ修正の失敗の解明：三本柱による診断 [cs.LG, cs.CV]目的：ノイズ付きラベル学習における理想的なノイズ修正手法の失敗原因の解明
- ノイズ付きラベル学習は，現実世界のデータに頻繁に存在するノイズに対処するための重要な研究分野である。
- ノイズ遷移行列の推定精度が低いことが，ノイズ修正手法の性能低下の主な原因と考えられてきた。
- 理想的なノイズ遷移行列を与えた場合でも，ノイズ修正手法が性能劣化することを示す。
- ノイズ遷移行列を完全に把握した条件下でも，ノイズ修正手法は学習中に性能が低下することが確認された。
- この結果は，失敗が主にノイズ遷移行列の推定の問題ではなく，より根本的な欠陥に起因することを示唆する。
- 学習可能な情報量に関する情報理論的な限界，最適化のダイナミクス，収束状態の３つのレベルから，この現象を統一的に分析した。
Link: https://arxiv.org/abs/2603.12997
視覚言語モデルのバイアス除去に対する，有用性を保証する閉形式解 [cs.CV]目的：視覚言語モデルのバイアス除去手法
- 視覚言語モデルは多様なタスクで高性能だが，学習データ由来の社会的バイアスを内在しうる。
- 既存のバイアス除去手法は公平性を改善するも，モデルの有用性が理論的に保証されない場合が多い。
- クロスモーダル空間における閉形式解により，有用性を損なわずに公平性を最適化すること。
- 提案手法は，学習不要かつアノテーションなしで，視覚・テキスト両モダリティを同時にバイアス除去できる。
- 多様な公平性指標とデータセットにおいて，既存手法を上回るバイアス除去性能とタスクパフォーマンスの維持を実現した。
- 特に，ゼロショット画像分類，テキスト-画像検索，テキスト-画像生成などのタスクで，交差的公平性においても有効性を示した。
Link: https://arxiv.org/abs/2603.12998
SAW：制御可能かつ拡張性のある動画生成による外科手術アクションワールドモデルへ [cs.CV, cs.AI, cs.LG, eess.IV]目的：外科手術アクション動画の生成を通じた外科手術ワールドモデルの構築
- 外科AIやシミュレーションの発展には，現実的な手術動画データの充実が不可欠である。
- 既存手法は，動画生成に高コストなアノテーションや複雑な中間表現を必要とし，拡張性に課題がある。
- 軽量な条件付け信号を用いた動画生成により，外科手術シミュレーションやAIの精度向上を目指す。
- SAWは，言語プロンプト，参照シーン，組織アフォードアンスマスク，2Dツールチップ軌跡という軽量な信号に基づいて，動画拡散を条件付けする。
- SAWは，既存手法と比較して，時間的な一貫性（CD-FVD: 199.19 vs. 546.82）と視覚的品質において優れた性能を示した。
- 生成された動画は，外科AIにおけるアクション認識の精度向上（クリッピングF1スコア: 20.93%→43.14%）や，シミュレーションのリアリティ向上に貢献する。
Link: https://arxiv.org/abs/2603.13024
SortScrews：リアルタイムネジ分類のためのデータセットとベースライン [cs.CV, cs.AI, cs.LG]目的：ネジの種類を分類するためのデータセット及びベースライン
- 産業自動化，ロボティクス，在庫管理において，ネジの種類を自動識別することは重要である。
- ネジ分類のための公開データセットは不足しており，特に自動選別システムで一般的な単一オブジェクトの制御された条件下でのデータが少ない。
- 本研究は，制御された条件下でのネジの画像分類を可能にするデータセットを構築し，評価することを目指す。
- 本研究で公開されたSortScrewsデータセットは，6種類のネジと背景クラスを含む560枚のRGB画像で構成される。
- ImageNetで事前学習されたEfficientNet-B0及びResNet-18を用いた転移学習により，高い分類精度が確認された。
- 比較的少ないデータセットサイズでも，制御された取得条件が効果的な学習を可能にすることが示された。
Link: https://arxiv.org/abs/2603.13027
マルチモーダルOCR：ドキュメントからのあらゆる要素の解析 [cs.CV]目的：ドキュメントのテキストとグラフィックを統合的なテキスト表現として解析する手法
- デジタル化されたドキュメントの活用は重要であり，正確な解析が不可欠である。
- 従来のOCRシステムでは，グラフィック要素が十分に活用されていなかった。
- テキストとグラフィックを統合的に解析し，ドキュメントの構造をより忠実に再構築すること。
- 提案手法dots.mocrは，OCR Arena EloリーダーボードでGemini 3 Proに次ぐ2位の成績を収めた。
- olmOCR Benchにおいて83.9という最高水準のスコアを達成し，既存のオープンソースシステムを上回った。
- 画像からSVGへの変換においてもGemini 3 Proを上回る再構築品質を示し，多様なグラフィック要素に対応可能であることを示した。
Link: https://arxiv.org/abs/2603.13032
ESPIRE：視覚言語モデルの具現化された空間推論の診断ベンチマーク [cs.CV, cs.LG, cs.RO]目的：視覚言語モデルにおける具現化された空間推論の診断
- 視覚言語モデルは，現実世界とのインタラクションにおいて空間認識が重要である。
- 既存の評価は，評価方法と網羅性に限界があり，モデル開発の迅速な反復を妨げている。
- 空間推論に焦点を当てたロボットタスクを通じて，評価と実世界での利用のギャップを埋める。
- ESPIREは，物理的にVLMsを接地し，空間推論中心のロボットタスクで評価するシミュレーション環境である。
- タスクを局所化と実行に分解し，両方を生成問題として扱うことで，詳細な分析を可能にしている。
- 複数の最先端VLMsを診断し，空間推論行動の詳細な分析を提供している。
Link: https://arxiv.org/abs/2603.13033
汎用画像モデルは2D医用画像セグメンテーションに必要なものなのか？クロスデータセット実証研究 [cs.CY, cs.CV, cs.AI]目的：2D医用画像セグメンテーションにおける汎用画像モデルと専門的モデルの性能比較
- 医用画像セグメンテーションは，コンピュータ支援診断や臨床意思決定を支える基盤技術である。
- 医用画像特有の課題（低コントラスト，微細構造，データ不足）に対応するため，多くの専門モデルが開発されてきた。
- 汎用画像モデルが医用画像セグメンテーションにおいて，専門モデルと比較して有効性を示す。
- 本研究では，多様なデータセットにおいて，汎用画像モデルが大多数の専門モデルを上回る性能を示した。
- XAI分析の結果，汎用画像モデルは専門的な設計なしに臨床的に関連性の高い構造を捉えることが示された。
- これらの結果は，汎用画像モデルが医用画像セグメンテーションにおいて有用な選択肢となり得ることを示唆している。
Link: https://arxiv.org/abs/2603.13044
トポロジー異常の検出：Vision-Languageモデルによるアプローチ [cs.CV]目的：管状構造におけるトポロジー異常の検出
- 血管，神経線維，道路網など，管状構造の正確なトポロジーは重要である。
- 既存手法はドメイン固有の正解データに依存し，汎用性やコストが課題である。
- アノテーションなしで，トポロジー異常を検出し，構造的品質を評価することを目指す。
- 本研究では，トポロジー異常を合成しアノテーションを付与するデータキュレーションパイプラインを開発した。
- VLMsにトポロジー認識を付与するTopo-R1フレームワークを提案し，二段階の学習（教師ありファインチューニングとGRPOによる強化学習）を行った。
- Topo-R1は汎用VLMsや教師ありベースラインを上回り，アノテーションフリーなトポロジー品質評価の新たなパラダイムを確立した。
Link: https://arxiv.org/abs/2603.13054
第10回ABAWコンペティション Team RAS：多Modal感情価・覚醒度推定アプローチ [cs.CV, cs.AI]目的：野外環境における感情価と覚醒度の連続推定
- 感情認識は，人間と機械の自然なインタラクションを可能にする上で不可欠である。
- 野外環境では，外見，姿勢，照明，遮蔽，個人の表現パターンの多様性が課題となる。
- 様々なModal情報を統合し，よりロバストな感情推定を実現することを目指す。
- 提案手法は，顔，行動，音声の3つのModalを組み合わせることで高い性能を発揮した。
- 特に，指向性クロスモーダルMoE融合戦略が有効であり，各Modalの相互作用を学習した。
- Aff-Wild2開発セットにおいて，CCC 0.658を達成し，最先端の結果を示した。
Link: https://arxiv.org/abs/2603.13056
バーチャル試着における参照なし画像品質評価：人間によるフィードバックを活用して [cs.CV]目的：バーチャル試着システムの画像品質評価手法の開発
- ファッションEC等の実用化において，バーチャル試着システムの品質評価は不可欠である。
- 現実的な場面では，正解画像が得られないため，既存の評価指標では個々の画像の知覚品質を反映できない。
- 人間の知覚に合致した，参照画像不要な画像品質評価フレームワークの構築を試みる。
- 大規模な人間アノテーションデータセットVTON-QBenchを構築し，バーチャル試着画像の品質評価に活用した。
- Interleaved Cross-Attentionモジュールを導入することで，衣服の忠実性と人物の詳細保持を両立した評価を実現した。
- 提案手法VTON-IQAは，人間の評価と高い相関を示し，14種類のバーチャル試着モデルの性能評価に貢献した。
Link: https://arxiv.org/abs/2603.13057
実用的なフラクタル：パーティション化された反復関数系としてのノイズ除去拡散 [cs.LG, cs.CV, cs.IT, math.DS, math.IT]目的：ノイズ除去拡散モデルのスケジュール，アーキテクチャ，学習目標を記述するための統一的な設計言語
- 拡散モデルは画像生成において高い性能を示すが，その内部メカニズムは未だ不明な点が多い。
- 拡散モデルの設計は経験則に頼る部分が多く，理論的な根拠に基づいた最適化が課題である。
- 拡散モデルのノイズ除去過程を数学的に解析し，最適な設計基準を導き出す。
- 拡散モデルの決定論的逆過程は，パーティション化された反復関数系（PIFS）として機能することが示された。
- PIFSの構造から，ステップごとの収縮閾値，対角拡張関数，全体拡張閾値の3つの幾何学的量が導出された。
- これらの量を用いて，拡散モデルの二つの動作モード（大域的文脈の構築と微細な詳細の合成）を構造的に説明し，既存の設計選択を最適化問題の近似解として導出した。
Link: https://arxiv.org/abs/2603.13069
領域認識プロンプト拡張とマルチモーダルコピー検出によるテキスト画像拡散モデルにおける記憶の軽減 [cs.CV]目的：テキスト画像拡散モデルにおける記憶現象の軽減
- 画像生成AIの発展に伴い，著作権やプライバシー侵害のリスクが顕在化してきた。
- 既存のプロンプト擾乱は，画像生成品質の低下を招く可能性がある。
- プロンプトの多様性を高め，コピー検出の精度向上を目指す。
- 領域認識プロンプト拡張(RAPTA)は，過学習を抑制しつつ，高い合成品質を維持する。
- アテンション駆動マルチモーダルコピー検出(ADMCD)は，コピーを確実に検出し，既存手法を上回る性能を示す。
- 大規模なアノテーション済みデータセットを用いずにコピー検出が可能である。
Link: https://arxiv.org/abs/2603.13070
疎なセンサーを用いた屋上風場再構成：決定論的学習から生成学習へのアプローチ [cs.CV]目的：屋上風速分布の再構成
- ドローンや都市型空中移動，風制御システム，屋上利用において，リアルタイムの屋上風況把握が重要である。
- 屋上流れは非線形性，剥離，および方向変動が強く，疎なセンサーからの流れ場再構成が困難である。
- 実験データに基づき，疎なセンサーデータからの風場再構成精度向上を目指す。
- 深層学習モデルは，疎なセンサーデータから屋上風場を効果的に再構成できることが示された。
- 深層学習モデルは，Kriging補間と比較して，SSIMを最大32.7%，FAC2を24.2%，NMSEを27.8%改善した。
- 混合風向学習は性能をさらに向上させ，SSIMは最大173.7%，FAC2は16.7%，MGは98.3%改善した。
Link: https://arxiv.org/abs/2603.13077
InterEdit：テキストガイダンスによる複数人物3Dモーション編集 [cs.CV, cs.RO, eess.IV]目的：複数人物3Dモーション編集のための手法
- 人間行動の理解と再現は，ロボット工学や仮想現実など，様々な分野で重要である。
- 複数人物間のインタラクションを考慮した3Dモーション編集はデータ不足と複雑性から困難である。
- テキストによる指示に基づき，複数人物の3Dモーションを自然に編集することを目指す。
- 本研究では，複数人物のモーション編集データセットInterEdit3DとベンチマークTMMEを提案した。
- Semantic-Aware Plan Token AlignmentとInteraction-Aware Frequency Token Alignmentにより，インタラクションや周期性を考慮したモデルInterEditを開発した。
- InterEditは，テキストとモーションの一貫性，編集の忠実度において，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.13082
線形化アテンションにおける影響の可変性：非収束型NTKダイナミクスの二重の影響 [cs.LG, cs.CV, cs.NA, math.NA, stat.ML]目的：線形化アテンションの学習ダイナミクスにおけるトレードオフの解明
- アテンションメカニズムは深層学習の重要な構成要素であり，その理論的基盤の理解はモデル性能向上に不可欠である。
- アテンションメカニズムの複雑な非線形ダイナミクスにより，理論的解析が困難である。
- 線形化アテンションにおける非収束という問題を明らかにし，影響の可変性の特徴を分析すること。
- 線形化アテンションは，無限幅のNTK限界に収束せず，特定の幅（$m = \Omega(\kappa^6$)）を超えない限り収束しないことが示された。
- アテンションはReLUネットワークと比較して影響の可変性が6～9倍高く，データ依存型カーネルが近似誤差を削減する一方で，敵対的操作に対する脆弱性を高める。
- アテンションの強みと脆弱性は，カーネルレジームからの逸脱という共通の起源を持つことが示唆された。
Link: https://arxiv.org/abs/2603.13085
V-Bridge：動画生成モデルの潜在能力を汎用的な少サンプル画像修復へ [cs.CV]目的：汎用的な少サンプル画像修復タスクにおける動画生成モデルの潜在能力の活用
- 大規模動画データから学習した生成モデルは，視覚世界の構造や意味，動きに関する豊かな知識を獲得している。
- 既存の画像修復手法は，大量の学習データが必要であり，特定のタスクに特化した設計になっている場合が多い。
- 動画生成モデルが持つ潜在的な修復能力を活性化させ，少ないデータで高性能な修復を実現すること。
- V-Bridgeは，画像修復を静的な回帰問題ではなく，漸進的な生成過程として捉え，動画モデルを用いて劣化画像から高画質画像への段階的な洗練をシミュレーションする。
- わずか1,000のマルチタスク学習サンプル（既存手法の2%未満）で，事前学習済みの動画モデルが，専用のアーキテクチャに匹敵する画像修復性能を発揮する。
- 動画生成モデルは，強力で転移可能な修復に関する知識を暗黙的に学習しており，極めて少ないデータでそれを活用できることが示唆された。
Link: https://arxiv.org/abs/2603.13089
動画における推論：MLLMが空間的・時間的証拠を抽出，統合，再構成する方法の評価 [cs.CV]目的：動画における抽象的な空間的・時間的推論能力の評価
- 具現化されたエージェントへの関心が高まり，空間的・時間的な動画理解の需要が増加している。
- 既存のベンチマークは抽出的な推論に重点を置いており，抽象的な推論能力の評価が不足している。
- 時間経過に伴う観察の統合，分散した手がかりの組み合わせ，暗黙の空間構造の推論を評価する。
- 本研究では，抽象的な空間的・時間的推論を評価するための構造化された評価分類体系と，制御可能な合成データセットVAEX-BENCHを提案した。
- 実験の結果，最先端のMLLMは抽象的なタスクにおいて限界があり，ボトルネックが明確になった。
- 本研究で開発したデータセットは，今後の研究に役立つと期待される。
Link: https://arxiv.org/abs/2603.13091
言語駆動型3DデザインのためのCAD生成大規模マルチモーダルデータセットSldprtNet [cs.NI, cs.RO, cs.CV]目的：言語駆動型3DデザインにおけるCAD生成のための大規模マルチモーダルデータセット
- 3Dデザインの分野は，製品開発の効率化や新しい表現の可能性を広げる上で重要である。
- 既存のCADデータセットは規模が小さく，多様性やマルチモーダル性が不足している場合が多い。
- 本研究は，CAD生成のための高品質かつ多様なマルチモーダルデータセットを構築し，その有効性を検証することを目指す。
- SldprtNetは，24万件を超える産業部品を含む大規模データセットであり，多様な形式で3Dモデルを提供。
- 画像とパラメータ化されたテキストを組み合わせたマルチモーダル入力が，テキストのみの入力よりもCAD生成の性能を向上させることを確認。
- SldprtNetは，セマンティック駆動型CADモデリングとクロスモーダル学習のための包括的なデータセットとして構築された。
Link: https://arxiv.org/abs/2603.13098
最終解答を超えて：透明性のあるマルチモーダル推論評価のためのCRYSTALベンチマーク [cs.AI, cs.CV, cs.IR, cs.MM]目的：マルチモーダル推論の検証可能な中間ステップを通じた評価
- AIの高度化に伴い，複雑な推論能力の評価が不可欠となっている。
- 既存の評価指標では，推論プロセスにおける問題を捉えきれない場合がある。
- 推論ステップの透明性を重視し，より詳細な評価手法を確立することを目指す。
- CRYSTALベンチマークは，6,372個の事例を用いてマルチモーダル推論を評価する。
- 既存のLLMは，精度が高くても再現性や推論の順序性に課題があることが示された。
- Causal Process Reward (CPR)とCPR-Curriculumを用いることで，推論能力が大幅に向上した。
Link: https://arxiv.org/abs/2603.13099
BenDFM：シートメタル曲げ加工における製造可能性評価のための分類体系と合成CADデータセット [cs.CV]目的：シートメタル曲げ加工の製造可能性評価に関する分類体系および合成CADデータセット
- 製造業における設計段階での製造可能性評価は，コスト削減と品質向上に不可欠である。
- 製造可能性の定義が曖昧で，関連する学習ターゲットに一貫性がないという課題がある。
- 製造可能・不可能部品を網羅したデータセットの不足を解消し，学習ベースのDFM研究を推進する。
- 本研究では，構成依存性と測定タイプを軸とした製造可能性指標の分類体系を提案した。
- シートメタル曲げ加工の製造可能性評価のための初の合成データセットBenDFMを開発し，2万件の部品データを提供した。
- グラフベースの表現が，部品表面間の関係性を捉え，より高い精度を達成することを示した。
Link: https://arxiv.org/abs/2603.13102
四脚ロボット向けパノラママルチモーダルセマンティック占有予測 [cs.RO, cs.RO, cs.CV, eess.IV]目的：四脚ロボットにおけるパノラママルチモーダルセマンティック占有予測手法の開発
- ロボットが複雑な環境で自律的に動作するには，周囲の状況を正確に把握することが不可欠である。
- 既存の占有予測手法は車輪型ロボット向けに設計されており，四脚ロボット特有の課題に対応できていない。
- 本研究は，四脚ロボットの動きに合わせた，よりロバストな占有予測を実現することを目指す。
- 新たに，四脚ロボット向けパノラママルチモーダル占有データセットPanoMMOccを構築し，公開する。
- 提案手法VoxelHoundは，ロボットの姿勢変動に対応するVertical Jitter Compensationモジュールと，マルチモーダル情報を統合するMIPFモジュールを備えている。
- PanoMMOccデータセットを用いた実験により，VoxelHoundが最先端の性能を達成することが示された（mIoUで+4.16%）。
Link: https://arxiv.org/abs/2603.13108
NOIR：暗黙的表現のためのニューラル演算子マッピング [cs.HC, cs.CV]目的：連続関数空間間の演算子学習
- 医療画像処理は，診断や治療計画において不可欠な役割を担う重要な分野である。
- 従来の離散グリッドベースの深層学習は，解像度に依存し，汎化性能に課題がある。
- 解像度に依存せず，未知の離散化に対してもロバストな演算子学習を可能にすること。
- NOIRは，セグメンテーション，形状補完，画像変換，画像合成などのタスクで良好な性能を示した。
- ネイティブ解像度で競争力のある性能を達成し，未知の離散化に対する高いロバスト性を示した。
- ニューラル演算子の重要な理論的特性を満たしていることが実験的に確認された。
Link: https://arxiv.org/abs/2603.13118
ビデオLLMにおける幾何学誘導カメラモーション理解 [cs.CV, cs.AI]目的：ビデオLLMにおけるカメラモーション理解の向上
- 視覚知覚や映画のスタイル形成において，カメラモーションは重要な幾何学的要素である。
- 既存のビデオLLMはカメラモーションを明示的に表現できず，微細なモーションの認識に課題がある。
- 3Dモデルからの幾何学的カメラキュー抽出と構造化プロンプトによるカメラモーション理解の改善を目指す。
- 多様な既存のビデオLLMにおいて，カメラモーションの認識に大きな誤りがあることが示された。
- Qwen2.5-VLのビジョンエンコーダの調査から，特に深いViTブロックにおいてカメラモーションのキューが弱く表現されていることが示唆された。
- 提案手法により，カメラモーション認識の精度向上と，よりカメラに配慮したモデル応答が実現された。
Link: https://arxiv.org/abs/2603.13119
FDeID-Toolbox：顔画像非特定化ツールボックス [cs.CV]目的：顔画像からの個人特定情報削除と，年齢，性別，表情といったタスク関連の有用性維持
- プライバシー保護が重要視される中で，顔画像を用いたコンピュータビジョンの発展は不可欠である。
- 既存研究は実装が分散し，評価基準が統一されておらず，結果の比較が困難である。
- 再現性のある研究を促進するため，顔画像非特定化の研究環境を標準化・統合すること。
- FDeID-Toolboxは，データローダー，非特定化手法の実装，推論パイプライン，評価プロトコルを統合したツールボックスである。
- 本ツールボックスを用いることで，多様な非特定化手法を公平かつ再現性のある条件下で比較できる。
- モジュール構造により，既存手法の利用や新たな手法の開発・拡張が容易である。
Link: https://arxiv.org/abs/2603.13121
忠実な多Modal概念ボトルネックモデルに向けて [cs.CV, cs.LG]目的：多Modalデータにおける概念ボトルネックモデルの忠実性向上
- 近年，AIの説明可能性が重要視され，人間の理解を助けるモデルが求められている。
- 既存の概念ボトルネックモデルでは，概念検出と情報の漏洩抑制が別問題として扱われている。
- 概念検出と漏洩抑制を同時に改善し，より忠実な多Modalモデルを開発すること。
- f-CBMは，視覚言語バックボーン上に構築された新しいフレームワークであり，漏洩損失とKolmogorov-Arnoldネットワーク予測ヘッドを用いる。
- 実験の結果，f-CBMはタスク精度，概念検出，漏洩抑制のバランスに優れていることが示された。
- f-CBMは，画像とテキスト，またはテキストのみのデータセットの両方に適用可能であり，汎用性が高い。
Link: https://arxiv.org/abs/2603.13163
重要事項の認識：多Modalストリーミング知覚のための関連性駆動型スケジューリング [cs.CV]目的：多Modalストリーミング知覚における効率的な知覚モジュールスケジューリング
- 人とロボットの協働において，包括的な状況理解は不可欠であり，知覚モジュールの役割は重要である。
- 従来の並列処理では遅延が蓄積し，リアルタイム処理性能が低下する問題がある。
- 状況に応じて必要な知覚モジュールを効率的にスケジューリングし，遅延を削減することを目指す。
- 提案手法は，従来の並列処理パイプラインと比較して，計算遅延を最大27.52%削減することに成功した。
- MMPoseのアクティベーションリコールは72.73%改善され，知覚の精度向上も確認された。
- キーフレームの精度は最大98%に達し，リアルタイム知覚効率の向上が実証された。
Link: https://arxiv.org/abs/2603.13176
拡散に基づく特徴ノイズ除去とNNMFを用いた堅牢な脳腫瘍分類 [cs.CV]目的：脳腫瘍分類の堅牢性向上
- 脳腫瘍の正確な分類は，コンピュータ支援診断システムにおいて極めて重要である。
- 深層学習モデルは高い分類精度を達成する一方，敵対的摂動に対する脆弱性が課題となっている。
- 敵対的摂動に対する堅牢性を維持しつつ，脳腫瘍の分類精度を向上させる。
- 本研究では，非負値行列分解（NNMF）と軽量CNN，拡散に基づく特徴精製を組み合わせたフレームワークを提案した。
- 提案手法は，従来の深層学習モデルと比較して，敵対的攻撃に対する堅牢性を大幅に向上させた。
- 解釈可能なNNMF特徴量と拡散に基づく防御技術の組み合わせが，医療画像分類における有効性と信頼性を示す。
Link: https://arxiv.org/abs/2603.13182
単眼動画からの時空間ワールドシーングラフ生成に向けて [cs.CV]目的：時空間ワールドシーングラフの生成
- 動画における物体間の相互作用を理解するためには，時間的変化を考慮した表現が不可欠である。
- 従来のシーングラフ生成手法は，視覚的に確認できる物体に限定され，遮蔽された物体を扱えなかった。
- 視覚的に確認できない物体も含めた，より包括的なワールドシーングラフの生成を目指す。
- ActionGenome4Dデータセットを構築し，3次元再構成とワールドフレームでのバウンディングボックスを提供した。
- PWG，MWAE，4DSTという３つの手法を提案し，遮蔽された物体に対する推論能力を向上させた。
- Graph RAGを用いたVision-Language Modelsの性能を評価し，関係性予測のベースラインを確立した。
Link: https://arxiv.org/abs/2603.13185
視界の外，心外？ビデオ世界モデルにおける状態推移の評価 [cs.CV]目的：ビデオ世界モデルにおける状態推移と観察の独立性
- ビデオ世界モデルは現実世界の理解に不可欠であり，その性能向上は様々な応用を可能とする。
- 既存のモデルは観察された情報に依存しやすく，観察がない状態での状態推移が不十分である。
- 観察の有無に関わらず，現実世界のような自然な状態推移をモデルが実現できるか検証する。
- 新たにSTEVO-Benchを開発し，遮蔽や視線制御を通してモデルの観察依存性を評価した。
- 実験の結果，多くのビデオ世界モデルが状態推移と観察を十分に分離できていないことが示された。
- この評価プロトコルは，ビデオ世界モデルのデータやアーキテクチャのバイアスを明らかにする新たな知見を提供する。
Link: https://arxiv.org/abs/2603.13215
Visual-ERM：視覚的同等性に対する報酬モデリング [cs.MA, cs.CV, cs.AI]目的：視覚入力からコードを生成するタスクにおける報酬モデリング
- 視覚的情報をコードに変換する技術は，データ分析や自動化において重要性が増している。
- 従来の報酬関数は，視覚的な差異を捉えきれず，モデルが不正な方法で高い報酬を得てしまう問題がある。
- 本研究は，視覚空間における微細な差異を捉え，より正確な報酬を与えるモデルを開発し，その問題を解決する。
- 提案手法Visual-ERMは，チャートからコードへの変換においてQwen3-VL-8B-Instructの性能を8.4ポイント向上させた。
- テーブルやSVGの解析においても一貫した性能向上を示し（平均+2.7，+4.1），推論時のリフレクションと修正による性能向上も確認された。
- VisualCritic-RewardBenchにおける評価では，Visual-ERMがQwen3-VL-235B-Instructを上回り，商用モデルに匹敵する性能を示した。
Link: https://arxiv.org/abs/2603.13224
時空間物理システムの表現学習 [cs.LG, cs.CV]目的：時空間物理システムの表現
- 物理現象の予測や制御は科学技術の根幹であり，高精度なモデル構築が不可欠である。
- 既存の物理システムモデルは，計算コストが高く，誤差の蓄積といった問題点を抱えている。
- 物理パラメータ推定を通して，モデルの物理的妥当性を定量的に評価する手法を確立する。
- 物理パラメータ推定タスクにおいて，汎用的な自己教師あり学習法が物理モデリングに特化した手法よりも優れた性能を示すことがわかった。
- 潜在空間で学習する手法（例：JEPAs）は，ピクセルレベルの予測を最適化する手法よりも有効である。
- 表現学習の有効性を，物理関連タスクの精度によって定量的に評価する新たな視点を提供した。
Link: https://arxiv.org/abs/2603.13227
PhysMoDPO：嗜好度最適化による物理的に妥当なヒューマノイドモーション [cs.LG, cs.AI, cs.CV, cs.RO]目的：物理的に妥当かつ指示に沿ったヒューマノイドモーション生成
- 大規模データと拡散モデルによりテキストからのモーション生成が進展。キャラクタアニメやロボット制御への応用が期待される。
- 従来のWBCによる物理適合化は，元のモーションからの逸脱を引き起こす場合がある。
- WBCを訓練パイプラインに組み込み，物理法則とテキスト指示の両方に適合するモーション生成を目指す。
- PhysMoDPOは，シミュレーション環境におけるテキストからのモーション生成と空間制御タスクにおいて，物理的リアリズムとタスク関連指標の両方で一貫した改善を示した。
- PhysMoDPOは，シミュレーションにおけるゼロショットモーション転送およびG1ヒューマノイドロボットを用いた実世界展開において，大幅な改善をもたらすことが示された。
- 本手法では，物理ベースおよびタスク固有の報酬を用いて合成軌道の嗜好度を決定する。
Link: https://arxiv.org/abs/2603.13228
パノラマレントゲン写真を用いた第三大臼歯と下顎管の関係の深層学習による評価：ローカル学習，集中学習，連合学習の比較 [eess.IV, cs.CV, cs.DC]目的：第三大臼歯と下顎管の関係の有無の自動分類
- 下顎第三大臼歯の近傍にある下顎管への影響は，下顎神経損傷のリスクを高めるため，正確な評価が重要である。
- パノラマレントゲン写真による評価は主観的であり，誤診や不要なCT検査の増加につながる可能性がある。
- 第三大臼歯と下顎管の関係を自動的に分類し，臨床におけるトリアージを支援し，不要なCT検査を減らすことを目指す。
- 集中学習（CL）は最も高い性能（AUC 0.831，精度 = 0.782）を示し，連合学習（FL）は中間的な性能（AUC 0.757，精度 = 0.703）を示した。
- ローカル学習（LL）はクライアント間で汎化性能が低かった（AUC範囲 = 0.619-0.734，平均 = 0.672）。
- FLはプライバシーを保護しながらLLよりも優れた性能を示し，CLは最も強力な性能を提供することが示された。
Link: https://arxiv.org/abs/2603.11850
深層ニューラルネットワークを用いた最大蛇ポリミノの生成 [math.CO, cs.CV]目的：最大蛇ポリミノの生成
- 組み合わせ最適化問題への深層学習の応用は，従来の手法では困難な複雑な構造の解析を可能にする。
- 大規模な矩形における最大蛇ポリミノの計算は，全探索となるため計算コストが高く，現実的ではない。
- 深層学習を用いて，明示的な制約なしに最大蛇ポリミノの生成を試み，計算限界を超えるスケールでの解析を目指す。
- 提案するStructured Pixel Space Diffusion (SPS Diffusion) は，小さいグリッドから大きいグリッドへ汎化し，最大28x28の正方形で有効な蛇を生成できる。
- SPS Diffusionは，現在の計算限界に近いサイズの正方形において，最大蛇ポリミノの候補を生成することが示された。
- ただし，モデルは分岐やサイクル，複数のコンポーネントといったエラーが発生しやすく，改善の余地がある。
Link: https://arxiv.org/abs/2603.12400
畳み込みニューラルネットワークにおけるバイアスと信頼性の問題：癌病理画像分析 [eess.IV, cs.AI, cs.CV, cs.LG]目的：癌病理画像における畳み込みニューラルネットワークの評価手法の妥当性検証
- 癌の診断支援において，画像認識技術，特に畳み込みニューラルネットワークの応用が期待されている。
- 畳み込みニューラルネットワークの内部構造が複雑であるため，判断根拠が不明確であり，その評価は経験則に頼りがちである。
- 癌病理画像に対する畳み込みニューラルネットワークの評価において潜在するバイアスを明らかにし，信頼性の高い評価方法を模索する。
- 癌のベンチマークデータセットを用いて検証した結果，臨床的情報を含まない背景部分の画像でも高い精度を示すモデルが存在した。
- 一部の畳み込みニューラルネットワークアーキテクチャは，他のアーキテクチャよりもバイアスに敏感であることが示された。
- 従来の機械学習評価手法が，癌病理画像分析において誤った結論を導き出す可能性があることが示唆された。
Link: https://arxiv.org/abs/2603.12445
スパース逆問題に対する変分ガロート法 [stat.ML, cs.CV, cs.LG]目的：スパース逆問題におけるスパース性事前分布の効果
- 不完全または破損した測定値から逆問題を解く上で，スパース正則化は重要な役割を果たす。
- 事前分布の選択が復元性能に影響し，データ本来のスパース性と一致しない場合がある。
- 変分ガロート法とL1正則化を比較し，より良好な復元性能を得ることを目指す。
- 変分ガロート法は，L1正則化と比較して，一般化誤差を低減し，不安定性を改善する傾向がある。
- 特に，正確なサポート回復が重要な，強い未決定条件下で優位性を示す。
- スパース性事前分布が，スパイク・アンド・スラブ構造に近いほど有利になる場合があることが示唆された。
Link: https://arxiv.org/abs/2603.12562
マルチスケール構造ガイドによる潜在拡散を用いたマルチモーダルMRI変換 [eess.IV, cs.AI, cs.CV]目的：マルチモーダルMRI変換のための構造情報に基づく潜在拡散モデルの提案
- MRIは疾患診断や治療において不可欠であり，多角的評価が重要であるから。
- 既存手法では，任意モダリティ欠損時の解剖学的矛盾やテクスチャの劣化が課題である。
- 構造情報を活用し，詳細な境界と解剖学的構造を正確に再現することを目指す。
- 提案手法MSG-LDMは，既存のMRI合成手法と比較して，構造の完全な再構成において優れた性能を示す。
- 潜在空間におけるスタイルと構造の分離機構により，モダリティ固有のスタイルと共有構造表現を明確化。
- スタイル一貫性損失と構造認識損失の導入により，安定した構造表現の学習を実現。
Link: https://arxiv.org/abs/2603.12581
自己教師あり音声モデルは位置依存的な直交部分空間を通して音韻的文脈を符号化する [eess.AS, cs.CL, cs.LG, cs.SD]目的：自己教師あり音声モデルにおける音素と周囲の文脈の符号化機構
- 音声認識の精度向上には，音声の文脈を考慮したモデルが不可欠である。
- 自己教師あり学習モデルの文脈化の仕組みは未だ明確に解明されていない。
- 音声の文脈がどのようにモデル表現に組み込まれるかを明らかにすること。
- 自己教師あり音声モデルは，音素情報を位置依存的な直交部分空間に符号化していることが示された。
- 隣接する音素の音韻情報が，単一フレーム表現に重ね合わされることで文脈が符号化される。
- 位置間の直交性や，暗黙的な音韻境界の出現など，特有の構造が確認された。
Link: https://arxiv.org/abs/2603.12642