arXiv雑要約

画像・音声 - 2026/03/27 公開

MedOpenClaw: 未整理のフルスタディに対する医療画像エージェントの推論の監査可能性 [cs.CV]目的：医療画像におけるビジョン言語モデルの評価手法
- 臨床診断の現場では，3Dボリューム全体を多角的に解析する能力が不可欠である。
- 既存の評価方法は，選択された2D画像に依存しており，臨床現場の複雑さを反映していない。
- フルスタディにおけるエージェントの能力を評価し，臨床ワークフローとのギャップを埋める。
- 提案手法MEDOPENCLAWは，標準的な医療ツール内でビジョン言語モデルが動的に動作する環境を提供する。
- 大規模言語モデル（LLM）は，基本的なタスクは解決できるものの，専門ツールへのアクセスにより空間的理解が低下する。
- MEDOPENCLAWとMEDFLOWBENCHにより，フルスタディに対応した監査可能な医療画像エージェント開発の基盤が確立された。
Link: https://arxiv.org/abs/2603.24649
一貫性が偏りとなる時：半構造化臨床面接における面接官の影響 [cs.CL, cs.AI, cs.SD, eess.AS]目的：半構造化臨床面接における面接官の影響の特定
- 自然言語処理の進展により，会話データからの自動感情分析が注目されている。
- モデルの予測根拠が不明確で，高い性能が達成されてもその理由が解明されていない。
- 面接官の発話がモデルの性能に与える影響を分析し，モデルが参加者の言語から学習しているか検証する。
- 面接官の固定的な質問や位置情報が，抑うつと対照群の識別に使用されていることが判明した。
- 参加者の発話のみでモデルを訓練することで，意思決定の根拠がより広範囲に分散し，言語的な手がかりが反映されるようになった。
- 半構造化プロトコルは一貫性を確保する一方で，面接官の発話を含めることで，スクリプトに起因する性能向上が生じている。
Link: https://arxiv.org/abs/2603.24651
重みから概念へ：特異値分解によるCLIPのデータフリー解釈可能性 [cs.CV]目的：CLIPの解釈可能性
- 大規模言語モデルの利用拡大に伴い，内部メカニズムの理解が不可欠となっている。
- 既存手法はデータ依存的であり，偏りや粗い説明に留まる場合がある。
- 重み空間での直接分析により，データフリーかつ高精度な解釈を目指す。
- SITHは，CLIPのvision transformerの重みを特異値分解し，概念の組み合わせとして解釈する。
- 得られた説明は一貫性と忠実性を持ち，再構成精度と解釈実験によって検証された。
- SITHを用いてモデルの重みを編集することで，特定の概念を増幅または抑制し，性能改善を実現した。
Link: https://arxiv.org/abs/2603.24653
ReDiPrune：効率的なマルチモーダルLLMのための関連性・多様性事前射影トークン刈り込み [cs.CV]目的：マルチモーダルLLMの効率化のためのトークン刈り込み手法
- マルチモーダルLLMは，多様な情報処理能力を持つが，計算コストが高いという課題がある。
- 従来のトークン刈り込みは，表現力が低下したり，重要な情報を失ったりするリスクがあった。
- 視覚符号化器の出力から直接，関連性と多様性を考慮したトークンを選択することで，効率と精度を両立することを目指す。
- ReDiPruneは，学習を必要とせず，既存のモデルに容易に組み込むことができる。
- 実験の結果，ReDiPruneは，精度と計算効率のトレードオフを改善することを示した。
- 例えば，LLaVA-NeXT-Video-7Bで，視覚トークンの15%を保持するだけで，精度が2.0%向上し，計算量が6倍以上削減された。
Link: https://arxiv.org/abs/2603.24680
KitchenTwin：意味的・幾何学的に基づいた3Dキッチンデジタルツイン [cs.CV]目的：3Dキッチンデジタルツインの構築
- AI研究において，現実世界を模倣した環境が重要となるため，高精度なデジタルツインの需要が高まっている。
- 既存手法では，点群データのスケールが曖昧であったり，座標系の不整合が生じ，オブジェクトとの融合が困難であった。
- 視覚情報と言語情報を活用し，現実世界のスケールを復元することで，正確なデジタルツインの構築を目指す。
- 提案手法は，VLMを活用した幾何学的なアンカー機構により，座標系の不整合を解消し，正確なスケールを復元する。
- 物理的な整合性を考慮した登録パイプラインにより，重力方向やマンハッタンワールド構造，衝突回避などの制約を組み込む。
- 実環境での実験により，オブジェクトの配置精度と幾何学的な一貫性が向上し，後続タスクの性能が改善されることを示した。
Link: https://arxiv.org/abs/2603.24684
UniICL：能力指向型タクソノミーを通じた統一されたマルチモーダル文脈内学習の体系化 [cs.CV]目的：文脈内学習の体系化
- マルチモーダルモデルは，多様な情報を統合し，高度な認識能力を実現する上で重要である。
- 文脈内学習は例の選択やフォーマットに左右されやすく，安定した性能を確保することが課題である。
- この研究は，能力指向型タクソノミーを用いて，文脈内学習の挙動を診断し，安定化を図ることを目指す。
- 能力指向型タクソノミーを導入し，大規模データセットUniICL-760Kを構築することで，文脈内学習のメカニズムを詳細に分析した。
- 文脈適応型プロトタイプ変調器を提案し，少ないデータでの適応能力を向上させ，既存モデルを上回る性能を達成した。
- UniICL-Benchを用いた厳密な評価により，提案手法の有効性を確認し，マルチモーダルモデルの文脈内学習における新たな方向性を示した。
Link: https://arxiv.org/abs/2603.24690
BCMDA：混合ドメイン半教師あり医用画像セグメンテーションのための双方向相関マップドメイン適応 [cs.CV]目的：混合ドメイン半教師あり医用画像セグメンテーションにおけるドメインシフトと限定されたアノテーション下での性能向上
- 医用画像セグメンテーションは，診断や治療計画において不可欠であり，高精度な自動化技術が求められている。
- 異なるドメインのデータ間には分布の差が存在し，学習データが限られると，汎化性能が低下しやすい。
- ドメイン適応と半教師あり学習を組み合わせることで，ラベル付きデータが少ない状況でもロバストなセグメンテーションを実現する。
- 本研究では，双方向相関マップを用いたドメイン適応フレームワークBCMDAを提案し，知識伝達と確認バイアスの軽減を試みた。
- 仮想ドメインブリッジングとプロトタイプアラインメント，疑似ラベル補正を組み合わせることで，ドメイン間の分布を整え，より信頼性の高い学習を可能にした。
- ３つの公開データセットでの実験により，特にラベル付きデータが少ない状況下で，提案手法の優位性が確認された。
Link: https://arxiv.org/abs/2603.24691
ランダムクロッピングによる無料のパッチレベル差分プライバシーの増強 [cs.LG, cs.CR, cs.CV]目的：画像データにおける差分プライバシーの増強
- 機械学習モデルのプライバシー保護は重要であり，個人情報漏洩のリスクを軽減する。
- 差分プライバシー確保にはコストがかかり，モデルの精度低下を招く可能性がある。
- ランダムクロッピングの持つ潜在的なプライバシー保護効果を利用し，追加コストなしにプライバシーを増強する。
- ランダムクロッピングが，モデルへの機密コンテンツの入力を確率的に排除することで，差分プライバシーを増強することを確認した。
- パッチレベルでの隣接関係を導入し，ランダムクロッピングとDP-SGDを組み合わせた際の厳密なプライバシー境界を導出した。
- 実験的に，パッチレベルでの増強が複数のセグメンテーションアーキテクチャおよびデータセットでプライバシーと実用性のトレードオフを改善することを示した。
Link: https://arxiv.org/abs/2603.24695
月探査のための大規模言語・視覚アシスタント LLaVA-LE [cs.CV]目的：月面および月面の特性評価
- 惑星科学研究において，視覚情報とテキスト情報を統合した推論は重要である。
- 惑星画像と詳細な科学的記述を組み合わせた大規模データセットの不足が課題である。
- 月探査に特化した視覚言語モデルを開発し，惑星探査におけるVLMの進歩を目指す。
- 新たに大規模な月面マルチモーダルデータセットLUCID（9.6万枚の画像と詳細なキャプション，8.1万件のQAペア）を構築した。
- LUCIDを用いてLLaVAを2段階の学習カリキュラムでファインチューニングし，性能向上を実現した。
- LLaVA-LEはGPTおよびGeminiによる評価でBase LLaVAを3.3倍，Stage 1モデルを2.1倍上回り，人間の専門家レベルを超えた。
Link: https://arxiv.org/abs/2603.24696
Lookalike3D：3D空間における二重性認識 [cs.NI, cs.CV]目的：室内シーンにおける類似物体のペアの識別
- 現実世界のシーンには繰り返し現れる物体が多く存在する。その情報を活用した3D認識が重要である。
- 既存の3D物体理解・生成手法は，繰り返し現れる物体からの情報を十分に活用できていない。
- 同一またはほぼ同一の物体ペアから得られる情報を活用し，3Dシーンの理解精度向上を目指す。
- Lookalike3Dは，大規模画像基盤モデルからの強い意味的知識を活用し，多視点画像から物体ペアを識別する。
- 3DTwinsデータセットを構築し，既存手法と比較してIoUを104%向上させた。
- 本手法は，3D物体再構成や部品共同セグメンテーションといった下流タスクの性能向上に貢献する。
Link: https://arxiv.org/abs/2603.24713
3DGSにおける正確な点測定：従来型ステレオ視点に基づく測定の新たな代替手法 [cs.CV]目的：3D Gaussian Splattingモデルを用いた高精度な3次元点測定手法の開発
- 3Dモデルの正確な寸法測定は，建設，測量，文化遺産保護など様々な分野で不可欠である。
- 従来の測定手法は，高価な装置や専門的なスキルを必要とし，手軽に利用できない場合がある。
- 3DGSの利点を活かし，より簡便で高精度な点測定手法を提供することで，この課題を解決する。
- 3D Gaussian Splattingを用いて，複数の視点から対応点を特定し，三角測量によって3次元点座標を算出する手法を提案した。
- 提案手法は，従来のステレオ視点に基づく測定と同等以上の精度を，より低コストで実現可能であることを実証した。
- 特に，メッシュデータでは測定が困難な薄い構造や鋭角において，顕著な精度向上を達成した。
Link: https://arxiv.org/abs/2603.24716
大規模言語モデルにおける3D空間推論のためのスケーラブルな物体関係エンコーディング [cs.CV, cs.AI, cs.LG, cs.MM]目的：3D空間における物体間の関係性をエンコードする手法
- 知的な具現化されたエージェント開発において，3D空間内の物体位置関係を理解する能力は重要である。
- 3Dシーンと自然言語のペアデータが限られており，強力な推論能力を持つモデルをゼロから学習することが困難である。
- 大規模言語モデルの性能を維持しつつ，スケーラブルな形で3D空間の関係性を捉えることを目指す。
- 提案手法QuatRoPEは，物体数に比例する長さの入力でペアワイズな空間関係を計算し，効率的なエンコーディングを実現する。
- QuatRoPEは3D座標のベクトルエンコーディングにより，シーンの幾何学的整合性を維持した空間的一貫性を保証する。
- IGREを用いることで，QuatRoPEの影響を物体関連トークンに限定し，既存の位置埋め込みとの干渉を最小限に抑える。
Link: https://arxiv.org/abs/2603.24721
幾何学だけで十分か？ランドマークに基づく視線推定の評価 [cs.CV, cs.AI]目的：ランドマークに基づく視線推定の性能評価
- 視線推定は，人間とコンピュータ間の自然なインタラクションを実現する上で重要な技術である。
- 深層学習に基づく視線推定は高精度だが，計算コストが高く，解釈可能性に乏しいという課題がある。
- ランドマークに基づく手法の性能向上と汎化性能の解明を目指す。
- ランドマークに基づくモデルは，同一ドメインでの評価では性能が劣る傾向が見られた。
- しかしながら，クロスドメイン評価では，提案するMLPアーキテクチャはResNet18と同程度の汎化性能を示した。
- 疎な幾何学的特徴は，ロバストな視線推定に十分な情報を含んでおり，効率的で解釈可能，かつプライバシーに配慮したエッジアプリケーションへの道を開く。
Link: https://arxiv.org/abs/2603.24724
3Dガウスからの信頼度に基づくメッシュ抽出 [cs.CV, cs.GR]目的：3Dガウスからのメッシュ抽出手法
- 3次元コンテンツの作成において，効率的なメッシュ抽出は重要な課題である。
- 複雑なシーンや視点依存効果の強いシーンでは，正確なメッシュ抽出が困難である。
- 3Dガウスの効率性を損なわずに，視点依存効果による曖昧さを解消することを目指す。
- 本研究では，自己教師ありの信頼度フレームワークを3Dガウスに導入し，フォトメトリックおよび幾何学的 supervision のバランスを動的に調整する。
- プリミティブの色と法線分散にペナルティを課す損失関数を導入し，表面抽出の改善に貢献する。
- D-SSIM損失の各項を分離した改良されたアピアランスモデルを組み合わせることで，アンバウンドメッシュにおいて最先端の結果を達成する。
Link: https://arxiv.org/abs/2603.24725
意味的曖昧画像生成フレームワーク：人間と機械の知覚探求 [cs.CV]目的：人間と機械の知覚の違いを明らかにするための曖昧画像生成手法
- 視覚認知のメカニズム解明は，AIの高度化に不可欠であり，人間らしい知能の実現に繋がる。
- 画像認識モデルは，曖昧な画像に対する人間との認識のずれが課題となっている。
- 曖昧画像を生成・分析することで，人間と機械の認識の違いを定量的に評価し，モデルの改善に役立てる。
- 機械分類器は「ウサギ」を認識する傾向が強く，人間は生成に使用したCLIP埋め込みとの整合性が高いことが示された。
- ガイダンススケールは，機械分類器よりも人間の感度により強い影響を与えることが明らかになった。
- 本フレームワークは，人間とモデルの整合性，堅牢性，解釈可能性，画像合成法の洞察に貢献する。
Link: https://arxiv.org/abs/2603.24730
オープンキャップ・モノキュラー：単一スマートフォン動画からの3D人体運動学および筋骨格力学 [cs.CV, eess.IV, q-bio.QM]目的：単一スマートフォン動画からの3D人体運動学と筋骨格力学の推定
- 加齢や疾患に伴う運動機能低下は社会問題であり，客観的な評価手法が求められている。
- 従来の運動解析には専門的な設備と時間が必要で，臨床応用が限定されていた。
- スマートフォンを用いた簡便かつ高精度な運動解析手法の開発が課題である。
- オープンキャップ・モノキュラーは，単一のスマートフォン動画から3D人体運動学と筋骨格力学を推定するアルゴリズムである。
- 歩行，スクワット，立ち上がり動作において，モーションキャプチャデータと比較して低い運動学的誤差（回転4.8度，骨盤並進3.4cm）を示した。
- 推定された地反力は，従来の二眼カメラシステムと同等またはそれ以上の精度であった。
Link: https://arxiv.org/abs/2603.24733
TIGeR：時間，画像，地理位置情報の検索を統合するフレームワーク [cs.CV]目的：地理時間認識画像検索
- デジタルフォレンジック等の分野で，視覚情報と場所・時間の関連性が重要視されている。
- 画像と場所，時間の同時検索は高度な技術を要し，既存手法では十分な性能が得られていない。
- 視覚的な類似性だけでなく，場所と時間に基づいた画像検索を実現することを目的とする。
- TIGeRは，画像，地理位置情報，時間を統合した表現空間を学習するマルチモーダルTransformerモデルである。
- 様々な入力形式に対応し，地理位置特定，撮影時間予測，地理時間認識検索を同一の表現を用いて行うことができる。
- 実験の結果，TIGeRは既存手法と比較して，撮影時期や時間予測，地理時間認識検索において高い性能を示した。
Link: https://arxiv.org/abs/2603.24749
視覚のための光円錐：視覚階層のための単純な因果事前分布 [cs.LG, cs.CV]目的：視覚階層の発見
- 視覚は知覚において基礎的であり，知能システム構築の鍵となる。
- 既存のモデルは，物体間の階層構造を捉えきれていない。
- 光円錐に基づく因果的構造の導入により，階層構造の発見を目指す。
- ローレンツ幾何学を用いることで，従来のモデルよりも大幅に精度が向上した。
- 尤もらしい幾何学構造は，視覚階層には因果関係が必要であることを示唆する。
- 少ないパラメータ数で，効果的な階層構造の学習が可能となった。
Link: https://arxiv.org/abs/2603.24753
深層生成モデルを用いた心臓MRI画像合成 [cs.DC, cs.CV, cs.LG]目的：心臓MRI画像の合成手法に関する検討
- 医療画像解析において，質の高い学習データが不可欠である。しかし，アノテーション付きの医療画像は不足している。
- 既存手法では，データセットの制約，ベンダーによる変動，プライバシー侵害のリスクなどが課題となっている。
- 本研究は，忠実性，有用性，プライバシー保護の観点から既存の心臓MRI画像生成手法を比較検討し，臨床ワークフローへの導入を促進する。
- GAN，VAE，拡散モデル，フローマッチングなど，様々な生成モデルが心臓MRI画像の合成に用いられている。
- マスク条件付き生成やベンダー様式による条件付けにより，画像の構造的忠実性や汎化性能が向上することが示されている。
- プライバシー保護の観点から，メンバーシップ推論攻撃や差分プライバシーの導入が検討されている。
Link: https://arxiv.org/abs/2603.24764
DRoPS：事前スキャンされたオブジェクトの動的な3次元再構成 [cs.CV]目的：動的オブジェクトの3次元再構成手法
- 映像から3次元シーンを再構成する技術は，様々な応用分野で重要性が高まっている。
- 既存手法は，極端な視点や複雑な動きに対して，再構成の精度が低下しやすい。
- 事前スキャンデータを用いて，より正確かつロバストな3次元再構成を実現することを目指す。
- DRoPSは，事前スキャンデータを幾何学的および外観的な事前知識として活用する。
- ガウス素元をピクセルグリッドに組織化することで，表面に沿った構造化モデルを確立した。
- CNNを用いて動きをパラメータ化することで，暗黙的な正則化を注入し，近傍点の動きを相関させた。
Link: https://arxiv.org/abs/2603.24770
AVControl：オーディオビジュアル制御のための効率的なフレームワーク [cs.CV, cs.MM, cs.SD]目的：オーディオビジュアル生成における多様な制御手法の効率化
- 動画生成技術はエンターテイメントやコミュニケーションにおいて不可欠であり，その高度化が求められている。
- 既存手法では，新しい制御項目の追加に高コストがかかる，または汎用性に欠けるといった課題があった。
- 本研究は，軽量かつ拡張性の高いフレームワークにより，多様な制御を容易に実現することを目指す。
- AVControlは，基盤モデルLTX-2上で，各制御モーダリティをLoRAとして独立して学習させることで，柔軟な拡張性を実現した。
- 構造的制御において，画像ベースの文脈学習法を動画へ単純に拡張すると性能が低下する点が示され，並列キャンバスアプローチによって改善された。
- VACEベンチマークにおいて，深度・ポーズ制御，インペインティング，アウトペインティング等のタスクで既存手法を上回り，カメラ制御やオーディオビジュアルベンチマークでも良好な結果を示した。
Link: https://arxiv.org/abs/2603.24793
拡散Transformerの性能向上：パラメータ効率的な較正によるアプローチ [cs.CL, cs.CV]目的：拡散Transformerの生成性能を向上させるための手法
- 画像生成などの分野で，拡散モデルは重要な役割を担っている。
- 拡散Transformerは強力だが，性能を最大限に引き出すには最適化が課題である。
- 少ないパラメータで拡散Transformerを最適化し，生成品質と効率を向上させる。
- 提案手法Calibriは，学習可能なスケーリングパラメータを導入することでDiTブロックの性能を大幅に改善する。
- Calibriは，進化アルゴリズムを用いてDiTの較正問題を効率的に解決し，わずか約100個のパラメータを修正する。
- 実験結果から，Calibriは様々なテキスト画像モデルにおいて，推論ステップ数の削減と高品質な画像生成を両立することが示された。
Link: https://arxiv.org/abs/2603.24800
説明可能性駆動型分析による腹部大動脈瘤セグメンテーションにおけるモデルの失敗要因の解明 [cs.CV, cs.AI, cs.LG]目的：腹部大動脈瘤セグメンテーションにおけるモデルの失敗要因の解明
- 腹部大動脈瘤は生命に関わる疾患であり，正確な画像セグメンテーションが診断・治療に不可欠である。
- 複雑な形状や低コントラストにより，既存のセグメンテーションモデルは失敗することが多い。
- モデルの注目領域を制御し，セグメンテーションの精度と信頼性を向上させる。
- 提案手法は，最終エンコーダブロックから得られる注目マップを，出力確率への適合と軽量なリファインメントパスへの組み込みを通じて活用する。
- この手法により，注意散漫な構造物の抑制と微細な構造物の保持が可能となり，セグメンテーション性能が大幅に向上した。
- エンコーダの注目領域をXAIガイダンスで明示的に最適化することは，複雑なセグメンテーションにおいて有効な原理であることが示唆された。
Link: https://arxiv.org/abs/2603.24801
GoldiCLIP：言語画像事前学習における明示的な教師あり学習のバランスをとるゴルディロックスアプローチ [cs.CV, cs.AI, cs.LG]目的：言語画像事前学習のための明示的な教師あり学習のバランス
- 大規模な言語画像モデルの発展には大量のデータが不可欠であり，そのデータ収集は大きな課題となっていた。
- 既存の事前学習手法は，コントラスト学習における弱点を十分に克服できていないという問題があった。
- 限られたデータ量で高性能な言語画像モデルを学習するための，効果的な教師あり学習のバランスを確立すること。
- GoldiCLIPは，自己蒸留，エンコーダ統合デコーダ，不確実性に基づく重み付けの3つの要素を組み合わせたフレームワークである。
- わずか3000万枚の画像で学習されたGoldiCLIPは，データ効率の高いアプローチにおいて最先端の結果を達成した。
- MSCOCO検索，ファイングレイン検索，質問ベース検索において，既存のベースラインを大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2603.24804
整形外科における外部固定装具を用いたピンサイト画像のアテンションに基づく分類 [cs.RO, cs.CV]目的：ピンサイト創部の画像分類
- 骨折や変形治療における外部固定装具の利用が増加しており，ピンサイト感染症の早期発見が重要である。
- ピンサイトは感染のリスクが高く，その兆候の正確な判断が困難である。
- 視覚的な情報からピンサイト感染症を鑑別する深層学習モデルの開発。
- アテンション機構とEfficient Redundant Reconstruction Convolution (ERRC)を導入した深層学習モデルを提案した。
- 提案モデルは，AUC 0.975，F1スコア 0.927を達成し，既存手法を上回った。
- ピンのみの視覚的特徴から感染症を鑑別できる可能性を示し，臨床現場での活用が期待される。
Link: https://arxiv.org/abs/2603.24815
局所的な群衆数推定における，パラダイム横断的な転送可能性を持つ敵対的摂動 [cs.CV, cs.AI]目的：群衆数推定および局在化モデルに対する敵対的攻撃の有効性
- 群衆数推定技術は，セキュリティ上の理由から，その堅牢性が重要視されている。
- 密度マップと点回帰という異なるアプローチ間の敵対的攻撃は未だ検討されていない。
- 異なるパラダイムのモデルを同時に攻撃できる敵対的フレームワークを開発すること。
- 提案手法は，元の画像と比較して平均7倍の平均絶対誤差増加を達成し，攻撃の有効性が確認された。
- 7つの最先端群衆数推定モデルへの転送に成功し，転送率は0.55から1.69の範囲であった。
- 攻撃効果と知覚不可能性のバランスが取れており，既存の手法と比較しても優れた性能を示した。
Link: https://arxiv.org/abs/2603.24821
DCARL：自己回帰的長尺動画生成のための分割統治フレームワーク [cs.HC, cs.CV]目的：長尺動画生成における，分割統治と動画拡散モデルの組み合わせによる構造的安定性と高画質生成
- 現実世界のモデル構築において，長尺動画生成は不可欠であり，その重要性は増している。
- 既存の動画拡散モデルは拡張性に乏しく，自己回帰モデルは視覚的なドリフトや制御性の低さが課題である。
- DCARLは，これらの課題を解決し，安定した高画質な長尺動画生成を可能にすることを目的とする。
- 提案手法DCARLは，分割統治の構造的安定性と動画拡散モデルの高画質性を効果的に組み合わせている。
- 長尺動画のキーフレーム生成により，一貫性のある構造的アンカーを確立し，その後の補間生成に活用している。
- 実験の結果，DCARLは最先端の自己回帰モデルおよび分割統治モデルと比較して，より優れた性能を示した。
Link: https://arxiv.org/abs/2603.24835
WAFT-Stereo：ステレオマッチングのためのワープ単独フィールド変換 [cs.CV]目的：ステレオマッチング手法
- 3次元視覚やロボティクスにおいて，環境理解に不可欠な技術である。
- 既存手法は計算コストが高く，リアルタイム処理が困難な場合がある。
- コストボリュームを使用せずに，効率的なステレオマッチングを実現する。
- WAFT-Stereoは，ETH3D，KITTI，Middleburyの公開ベンチマークで最高性能を達成した。
- ETH3Dベンチマークにおけるゼロショットエラーを81%削減した。
- 競合手法と比較して，1.8〜6.7倍高速に処理できる。
Link: https://arxiv.org/abs/2603.24836
NeuroVLM-Bench：神経疾患における臨床推論のためのビジョン搭載大規模言語モデルの評価 [cs.CV, cs.AI, cs.LG]目的：神経疾患の画像診断におけるビジョン搭載大規模言語モデルの性能評価
- 画像診断は神経疾患の診断・治療において不可欠であり，AIによる支援が期待される。
- 既存の大規模言語モデルの画像診断における信頼性や性能が十分に検証されていない。
- 神経画像診断における大規模言語モデルの能力と限界を明らかにし，実用化に向けた指針を示す。
- 複数の大規模言語モデルを用いて，多発性硬化症，脳卒中，脳腫瘍などのMRI・CT画像データに対する診断能力を比較検証した。
- 画像モダリティや撮影平面の識別はほぼ解決されている一方，診断推論，特に亜型予測は依然として困難であることが示された。
- Gemini-2.5-ProやGPT-5-Chatが診断性能で優位性を示し，MedGemma-1.5-4Bはオープンソースモデルとして有望な結果を示した。
Link: https://arxiv.org/abs/2603.24846
CORA：冠動脈CTアンギオグラフィ解析とMACEリスク評価のための病理合成駆動型基盤モデル [cs.CV]目的：冠動脈CTアンギオグラフィの解析と心血管イベントリスク評価
- 心血管疾患は世界的な死亡原因であり，早期発見と正確なリスク評価が重要である。
- 専門家によるアノテーション付きデータセットが不足しており，深層学習による臨床応用が制限されている。
- 病理学的特徴に焦点を当てた自己教師あり学習により，臨床的に重要な情報を捉えることを目指す。
- CORAは，大規模なCCTAデータセットを用いて，病理学的特徴を重視した自己教師あり学習フレームワークによって学習された。
- CORAは，血管狭窄の検出，プラークの特徴づけ，冠動脈セグメンテーションなどの診断・解剖学的タスクにおいて，既存のモデルを大幅に上回る性能を示した。
- 画像エンコーダーと大規模言語モデルを組み合わせることで，30日以内の主要な心血管イベント（MACE）リスク層別化が著しく向上した。
Link: https://arxiv.org/abs/2603.24847
視線パターンはAI画像ペア評価における選好と確信度を予測する [cs.HC, cs.AI, cs.CV, cs.CY]目的：AI画像ペア評価時の選好形成
- 人間のフィードバックによる強化学習はAI開発に不可欠であり，その判断基準の理解が重要である。
- 人間の選好判断の認知プロセスは未解明であり，質の高いアノテーションの確保が課題である。
- 視線追跡によって選好形成のメカニズムを解明し，アノテーションの質の評価に役立てる。
- 選好画像へ視線が集中する現象（視線カスケード効果）が再現され，決定の約1秒前にシフトが確認された。
- 視線特徴量は二者択一の選択を68%の精度で予測し，選好画像はより長い注視時間，注視点数，再訪回数を示した。
- 高確信度な判断と不確実な判断を視線遷移で66%の精度で区別でき，低確信度な試行では画像切り替え頻度が高かった。
Link: https://arxiv.org/abs/2603.24849
自動煙探知器検査に向けた取り組み：産業施設における煙探知器の認識と将来的なドローン統合の準備 [cs.CV, cs.LG, cs.RO]目的：産業施設における煙探知器の認識
- 火災安全は重要であり，早期発見のためには煙探知器が不可欠である。
- 高所や危険な場所での煙探知器点検は困難であり，コストもかかる。
- ドローンを活用した自動点検システムの実現に向け，煙探知器認識技術を開発する。
- YOLOv11nが平均mAP@0.5スコア0.884を達成し，最も高い性能を示した。
- 実環境での十分なデータ収集が難しいため，実データと半合成データを用いた学習戦略を比較した。
- モーションブラーや低解像度など，様々な条件下での評価データセットを用いて頑健性を検証した。
Link: https://arxiv.org/abs/2603.24850
基礎モデル時代におけるAIセキュリティ：統一的な視点からの包括的調査 [cs.CR, cs.AI, cs.CL, cs.CV, cs.LG]目的：AIセキュリティ脅威の体系的な分類と分析
- 機械学習の規模拡大に伴い，AIシステムのセキュリティリスクが増大している。
- 既存研究では，個々の脅威が独立して扱われ，全体像の把握が困難である。
- データとモデル間の相互作用を考慮した統一的な脅威分類を提案し，包括的な防御策の構築を目指す。
- 本研究では，データとモデル間の双方向的な関係性を考慮した閉ループの脅威分類を提案した。
- 提案分類は，データ・モデル間の攻撃を4つの軸で整理し，AIセキュリティの包括的な理解を促進する。
- このフレームワークは，スケーラブルで汎用性の高いAIセキュリティ戦略の開発に貢献すると期待される。
Link: https://arxiv.org/abs/2603.24857
ビジョン言語モデルは現実世界の構築にどこまで近づいているか？物理的生成推論のためのベンチマーク [cs.AI, cs.CL, cs.CV]目的：物理的生成推論の能力
- 現実世界は視覚情報だけではなく，厳格な構造と手順によって支配されている。
- 現在のビジョン言語モデルの評価は，視覚的なリアリズムに偏っており，構築プロセスを評価していない。
- 幾何学，構造，施工性，法規遵守などの制約を満たす構造物を生成する能力を評価する。
- 新しいベンチマーク「DreamHouse」を提示し，住宅の木造建築を対象に，モデルの計画，構造的推論，自己修正能力を評価した。
- 最新のビジョン言語モデルは既存のベンチマークでは見過ごされる，物理的な妥当性の点で大きな課題を抱えていることが明らかになった。
- 物理的な妥当性は，視覚的なリアリズムとは異なる重要な評価軸であり，マルチモーダル知能の新たなフロンティアである。
Link: https://arxiv.org/abs/2603.24866
OptiSAR-Net++：クロスドメインリモートセンシング視覚的グラウンディングのための大規模ベンチマークおよびTransformerフリーフレームワーク [cs.CG, cs.CV]目的：クロスドメインリモートセンシング視覚的グラウンディングタスクの解決
- リモートセンシング技術は，環境モニタリングや災害対応など，幅広い分野で重要性を増している。
- 既存手法は単一センサーに限定され，実用性が低い。異なるセンサー間のデータ統合が課題である。
- 異なるセンサー間の特徴モデリングの効率化と，高精度な意味的識別を実現することを目指す。
- 提案手法OptiSAR-Net++は，効率的なクロスドメイン特徴分離を実現するPL-MoEを用いる。
- Transformerデコーディングフレームワークの計算コストを軽減するため，CLIPベースのコントラスト学習と動的敵対的負例サンプリングを採用。
- OptSAR-RSVGおよびDIOR-RSVGベンチマークにおいて，最先端の性能を達成し，位置精度と効率が向上。
Link: https://arxiv.org/abs/2603.24876
SurgPhase：インタラクティブなウェブプラットフォームによる下垂体腫瘍手術フェーズの効率的な認識 [cs.CV]目的：下垂体腫瘍手術における手術フェーズの認識
- 手術ワークフロー分析や手術教育の質向上に不可欠な分野であり，医療の進歩に貢献する。
- 手術フェーズの正確な認識は困難であり，自動化された効率的な手法が求められている。
- 手術動画から手術フェーズを自動的に認識し，データに基づいた改善を可能にすること。
- 提案手法は，保持されたテストセットで90%の精度を達成し，既存の最先端のアプローチを上回った。
- 共同オンラインプラットフォームを統合し，外科医が手術動画をアップロードし，フェーズ分析を受け，データセットの拡充に貢献できる環境を整備した。
- 教師なし学習による事前学習と，焦点損失や動的サンプリングを用いた微調整により，精度の高い特徴表現を獲得した。
Link: https://arxiv.org/abs/2603.24897
膝変形性関節症に対する自己教師あり学習：未キュレーション病院データの診断的限界と予後的価値 [cs.CV]目的：膝変形性関節症の診断と予後モデリングにおける自己教師あり学習の有効性評価
- 膝変形性関節症は高齢化社会において増加傾向にあり，早期診断と適切な治療が重要である。
- 病院データは大規模に入手可能だが，質のばらつきや偏りが課題となっている。
- 未キュレーションデータの活用による，診断・予後モデリングの性能向上を目指す。
- 診断タスクにおいては，画像のみの自己教師あり学習は線形プロービングで改善が見られたが，完全ファインチューニングではImageNet事前学習を下回った。
- 画像とテキストの自己教師あり学習も，グレード予測の性能向上にはつながらなかった。これは，病院データセットにおける重度のバイアスが原因と考えられる。
- 一方で，予後モデリングにおいては，マルチモーダルな初期化がImageNetベースラインを上回り，構造的インシデンスおよび進行の予測において優れた性能を示した。
Link: https://arxiv.org/abs/2603.24903
ICTPolarReal：実世界オブジェクトの高偏光反射・材質データセット [cs.CV]目的：実世界オブジェクトの光の反射を正確にモデル化するためのデータセット
- 逆レンダリングの精度向上は，コンピュータビジョンの重要な課題である。
- 実世界の反射データが不足しており，モデルの汎化性能を阻害している。
- 実世界オブジェクトの偏光反射データを活用し，より現実的なレンダリングを目指す。
- 本データセットを用いて最先端の逆・順レンダリングモデルを学習・評価した結果，材質分離，照明の忠実度，幾何学的整合性が大幅に向上した。
- 拡散反射と鏡面反射の分離，拡散アルベド，鏡面アルベド，法線などの情報を高解像度で提供する。
- この研究は，物理に基づいた材質理解の新たな基盤を確立し，合成データに依存しない汎化性能の向上に貢献する。
Link: https://arxiv.org/abs/2603.24912
文脈を考慮した動画-テキストアライメント：動画の時間的グラウンディングのために [cs.LG, cs.AI, cs.CV]目的：動画の時間的グラウンディングにおける動画-テキストアライメントの精度向上
- 動画とテキストを結びつける技術は，動画検索や理解に不可欠であり，その重要性は増している。
- 既存手法では，動画中の無関係な背景に影響されやすく，時間的に正確なアライメントが困難である。
- 文脈に左右されにくい，よりロバストな動画-テキストアライメント手法を開発し，時間的精度を向上させる。
- 提案手法CVAは，データ拡張とアーキテクチャの改良により，既存手法を凌駕する性能を実現した。
- 特に，Recall@1（R1）スコアにおいて約5ポイントの大幅な改善が見られ，誤検出の抑制に有効であることが示された。
- QVHighlightsやCharades-STAといった主要なベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.24934
TIGFlow-GRPO：相互作用を考慮したフローマッチングと報酬駆動型最適化による軌跡予測 [cs.RO, cs.CV, cs.AI]目的：視覚的に複雑な環境における知能的なマルチメディアシステムのための人間軌跡予測
- 自動運転や群衆監視など，高度な応用を実現するためには，正確な人間行動予測が不可欠である。
- 既存手法では，社会的規範や場面制約が軌跡生成に十分に反映されていない場合がある。
- 社会的適合性と物理的実現可能性の高い軌跡を生成するための新しい枠組みを提案する。
- 提案手法TIGFlow-GRPOは，ETH/UCYおよびSDDデータセットにおいて，予測精度と長期的な安定性を向上させた。
- 視覚・空間的相互作用を考慮したモジュールにより，文脈のエンコーディングが強化され，より自然な軌跡が生成された。
- 報酬駆動型最適化により，生成された軌跡の社会的適合性と物理的実現可能性が向上した。
Link: https://arxiv.org/abs/2603.24936
動画における自己回帰拡散を用いた無限の視線生成 [cs.CV]目的：動画における視線予測の生成
- シーン理解やマルチモーダルインタラクションの発展には，視線予測が不可欠である。
- 既存モデルは短時間ウィンドウに限定され，現実世界のコンテンツに存在する長距離依存性を捉えられない。
- 任意の長さの動画における長距離の視線予測を可能にすること。
- 本研究では，自己回帰拡散モデルを用いて，連続的な空間座標と高解像度タイムスタンプを持つ視線軌跡を生成する。
- モデルは，サリエンスを意識した視覚潜在空間によって条件付けられている。
- 定量的・定性的評価の結果，既存手法と比較して，長距離における空間的・時間的精度と軌跡のリアリズムが大幅に向上することが示された。
Link: https://arxiv.org/abs/2603.24938
アテンションの大きさの限界：層間ランク整合性を活用した効率的な視覚言語行動モデル [cs.CV, cs.CL]目的：視覚言語行動モデルの効率化
- ロボット操作において，視覚情報と言語情報を統合した行動モデルが重要視されている。
- 既存モデルは視覚トークンの処理に時間がかかり，推論速度が遅いという課題がある。
- 層間トークンランク整合性を活用し，トークン選択のロバスト性を高め，効率化を図る。
- 提案手法TIESは，CogACT + SIMPLERベンチマークにおいて，成功率を6%向上させた。
- TIESは，トークン使用量を78%削減することに成功した。
- 様々なデコーダやベンチマークに対する汎化性能も高いことを示した。
Link: https://arxiv.org/abs/2603.24941
BiFM：少数ステップ画像編集・生成のための双方向フローマッチング [cs.CV]目的：少数ステップ画像編集と生成における性能向上
- 画像生成・編集技術は，創造性の拡張や現実世界の課題解決に不可欠である。
- 少数ステップのサンプリングは計算効率が良いが，前方過程の近似精度が低く，編集品質が低下する。
- BiFMは，生成と反転を同時に学習することで，少数ステップにおける編集品質の低下を解決する。
- BiFMは，画像からノイズ，ノイズから画像の双方向の平均速度場を推定する統一されたフレームワークである。
- 連続時間間隔での教師あり学習と双方向一貫性目的関数により，学習の安定化を図っている。
- 様々な画像編集・生成タスクにおいて，既存の少数ステップ手法を上回り，高い性能と編集可能性を実現する。
Link: https://arxiv.org/abs/2603.24942
選択，仮説構築，検証：検証されたニューロン概念解釈に向けて [cs.CV]目的：ニューロンの機能（概念）解釈の精度向上
- ニューラルネットワークの意思決定過程の理解は，AIの信頼性と透明性を高める上で不可欠である。
- 既存手法は，各ニューロンが明確な機能を持つことを前提としており，冗長または誤解を招くニューロンの存在が課題となっている。
- 本研究は，ニューロンの機能と生成された概念の整合性を検証することで，ニューラルネットワークの意思決定の誤解釈を防ぐことを目指す。
- 提案手法は，アクティベーション分布分析に基づき，ニューロンの機能を捉える活性化サンプルを選択する。
- 選択されたニューロンに対し，概念の仮説を構築し，生成された概念がニューロンの機能を正確に反映するか検証する。
- 実験結果から，提案手法によって生成された概念は，最先端手法と比較して約1.5倍高い確率で対応するニューロンを活性化することが示された。
Link: https://arxiv.org/abs/2603.24953
MLLMは生徒の思考を読めるか？手書き数学における多角的なエラー分析 [cs.IR, cs.RO, cs.SY, eess.SY, cs.AI, cs.CL, cs.CV]目的：手書きの数学の解法過程におけるエラーの分析と分類
- 個別最適化された教育的フィードバックの提供には，生徒の思考過程の理解が不可欠である。
- 既存の教育NLPはテキストベースの回答に偏っており，手書きの複雑なレイアウトや多様な解法を考慮していない。
- 手書き数学の解法過程のエラー原因を特定し，より正確な教育的フィードバックを実現すること。
- 本研究では，手書き数学のエラー分析に特化した新たなベンチマークデータセット「ScratchMath」を開発した。
- ScratchMathを用いた評価により，主要なMLLMが人間専門家と比較して性能差があることが示された。
- 特に，視覚認識と論理的推論において課題が見られ，大規模な推論モデルはエラーの説明において潜在能力を示すことが示唆された。
Link: https://arxiv.org/abs/2603.24961
説明可能な潜在報酬による自己修正画像生成 [cs.CV, cs.AI]目的：複雑なプロンプトと生成画像の整合性向上
- 画像生成技術は飛躍的に進歩したが，複雑な指示への対応が課題である。
- 生成過程が一方通行であるため，出力内容を事前に理解した整合性が難しい。
- 生成・評価の非対称性を利用し，自己修正による画像の品質向上を目指す。
- xLARDは，マルチモーダル大規模言語モデルを用いた自己修正フレームワークである。
- 潜在表現を修正し，モデル自身が生成した参照に基づいて構造化されたフィードバックを与える。
- 潜在編集と解釈可能な報酬信号間の微分可能なマッピングにより，生成過程での継続的なガイダンスを実現する。
Link: https://arxiv.org/abs/2603.24965
PASDiff：物理に基づいた意味的ガイダンスによる，実世界の低照度顔面強調と復元 [cs.CV]目的：実世界の低照度環境で撮影された顔画像の強調と復元
- 顔認識は，セキュリティ，監視，および人間-コンピュータインタラクションにおいて重要な役割を担う。
- 低照度画像は，ノイズ，ぼやけ，低い視認性などの劣化により，顔認識の精度が低下する。
- 既存手法の誤差累積や，顔の構造を明確に復元する能力の欠如を克服する。
- 提案手法PASDiffは，逆強度重み付けとRetinex理論を用いて，照明と色の自然な分布を回復する。
- Style-Agnostic Structural Injection (SASI)により，顔の構造を忠実に再構築し，ID特徴と物理的制約を調和させる。
- 大規模なベンチマークデータセットWildDark-Faceを構築し，既存手法を凌駕する性能を実験的に示した。
Link: https://arxiv.org/abs/2603.24969
MoE-GRPO：Vision-Languageモデルにおける強化学習による混合エキスパートの最適化 [cs.CV]目的：Vision-Languageモデルにおけるエキスパートルーティングの最適化
- Transformerモデルの計算コスト削減が重要であり，MoEはその有効な手段の一つである。
- 従来のtop-Kルーティングは最適な専門家組み合わせを見逃し，専門家への過学習を引き起こす可能性がある。
- 本研究は，強化学習を用いてより多様な専門家選択を実現し，過学習を抑制することを目的とする。
- MoE-GRPOは，標準的なtop-Kルーティングおよびその変種と比較して，一貫して優れた性能を示す。
- 多様な専門家選択を促進することで，専門家への過学習を軽減し，タスクレベルでの専門家特化を可能にする。
- モダリティを考慮したルーティングガイダンスにより，訓練の安定性と効率が向上する。
Link: https://arxiv.org/abs/2603.24984
メタ学習による3D遅延強化MRIにおける左心房壁の少数ショットセグメンテーション [cs.CV]目的：3D遅延強化MRIにおける左心房壁の少数ショットセグメンテーション
- 心房細動等の不整脈治療において，左心房の形態把握は重要である。正確な壁のセグメンテーションが求められる。
- 左心房壁は薄く，コントラストが低いため，セグメンテーションが困難である。十分な学習データも不足している。
- 少数の学習データで高精度なセグメンテーションを実現し，臨床応用を促進することを目指す。
- 提案手法は，5ショットにおいてDice係数0.64，HD95が5.70mmであり，教師ありファインチューニングモデル(DSC 0.52, HD95 7.60mm)より高い性能を示した。
- 20ショットでは，提案手法は完全教師ありモデルに迫る性能(DSC 0.69 vs 0.71)を達成した。
- 未知のドメインシフトや異なるローカルコホートにおいても，提案手法は頑健性を示し，一貫して性能向上が見られた。
Link: https://arxiv.org/abs/2603.24985
イベントストリームからの異常動画検出：ベースラインとベンチマークデータセット [eess.SY, cs.SY, cs.CV]目的：イベントストリームに基づく異常動画検出のためのベンチマークデータセットの構築と，効果的なモデリング手法の提案
- 動画監視システムの高度化に伴い，異常行動の自動検出技術が重要視されている。
- 従来のフレームベースの手法では，冗長性が高く，プライバシー保護の観点からも課題があった。
- イベントベースの視覚技術を活用し，低冗長性かつプライバシー保護に配慮した異常動画検出を実現する。
- イベントとRGB動画の同期データセットを構築し，異常動画検出のベンチマークを確立した。
- イベント密度を考慮した動的サンプリングと，イベントストリームから文脈関係を捉える時間モデリング手法を提案した。
- RGB動画からの知識蒸留メカニズムを導入し，イベントベースの表現力を向上させ，EWADが既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.24991