arXiv雑要約

画像・音声 - 2026/03/23 公開

離散幾何写像のベルトラミ係数と角度歪み [cs.GR, math.CV]目的：離散幾何写像におけるベルトラミ係数と角度歪みの関係性
- 幾何写像は科学技術の様々な分野で利用されており，その品質評価が重要である。
- 角度歪みは写像の性質評価に用いられるが，ベルトラミ係数との関係が明確でなかった。
- ベルトラミ係数と角度歪みの関係を理論的に解明し，写像アルゴリズムの定量評価に貢献する。
- ベルトラミ係数のノルムと，写像による三角形要素の絶対的な角度歪みの間に簡単な関係が発見された。
- ベルトラミ係数を用いて，最大角度歪みを推定する簡単な公式が得られた。
- 理論的結果は，様々な幾何写像アルゴリズムを用いた数値実験によって検証された。
Link: https://arxiv.org/abs/2603.19240
手話機械翻訳のための階層的適応転移学習フレームワークHATL [cs.CL, cs.AI, cs.CV, cs.CY, cs.ET]目的：手話機械翻訳における性能向上
- 聴覚障害者と健常者のコミュニケーションを円滑にするため，手話の自動翻訳技術の発展が重要である。
- 手話データの不足，話者の多様性の制限，事前学習済み表現とのドメインギャップが課題となっている。
- 既存の転移学習の静的性による過学習を防ぎ，手話の多様性に適応可能なフレームワークを開発する。
- 提案手法HATLは，従来の転移学習手法と比較して，複数のタスクとモデルにおいて一貫して高い性能を示す。
- PHOENIX14TおよびIsharahデータセットにおいてBLEU-4スコアが最大15.0%向上した。
- MedASLデータセットでは，ADATを用いた場合，BLEU-4スコアが37.6%の大幅な改善が見られた。
Link: https://arxiv.org/abs/2603.19260
LLMにおける有意性獲得ペア符号化：頻度に基づくサブワードマージの統計的代替手法 [cs.CL, cs.CV, cs.LG]目的：大規模言語モデルにおけるサブワードトークン化手法の改善
- 言語モデルの性能は，サブワードトークン化に大きく依存する。効果的なトークン化が重要である。
- 従来のBPEは頻度に基づいてマージを選択するため，真の凝集性を捉えきれない場合がある。
- 統計的検定を用いて凝集性を評価し，圧縮効率も考慮した新しいマージ基準を提案する。
- 有意性獲得BPEは，WikiText-103の検証・テストにおけるパープレキシティをそれぞれ13%，12%低減した。
- また，検証・テストのBPCを約0.9〜1.0%改善し，圧縮率が近い場合でも低いBPCを示した。
- 統計に基づいたマージ選択が，テキストの圧縮率に関わらず予測効率を向上させることを示唆している。
Link: https://arxiv.org/abs/2603.19261
Transformerはステートレスな微分可能なニューラルコンピュータである [cs.CL, cs.AI, cs.CV, cs.LG]目的：Transformerの構造と機能の解明
- 大規模言語モデルの理論的基盤の確立が重要である。
- Transformerの動作原理が完全に理解されていない点がある。
- TransformerをDNCという既存の枠組みで解釈することを試みる。
- Transformer層は，ステートレスな微分可能なニューラルコンピュータ(sDNC)と数学的に同等であることが示された。
- Transformerにおける注意機構は，sDNCにおけるコンテンツベースのアドレス指定に対応する。
- エンコーダー・デコーダーTransformerは，異なる読み書きメモリを持つsDNCとして表現できる。
Link: https://arxiv.org/abs/2603.19272
PhyGile：物理プレフィックスによる誘導運動生成を用いたアジャイルな汎用ヒューマノイドモーション追従 [cs.RO, cs.AI, cs.CV]目的：アジャイルで表現力豊かな全身運動を実世界で実現するための運動生成手法
- ヒューマノイドロボットは，実環境での多様なタスク遂行が期待され，そのためには高度な運動制御が不可欠である。
- 既存のテキストから運動生成モデルは，人間のモーションデータに依存しており，ロボットへの直接適用時に物理的な実行可能性が課題となる。
- ロボット固有の運動生成と汎用モーション追従を連携させ，物理的な制約を満たすアジャイルな運動を実現すること。
- PhyGileは，ロボット固有の運動生成と汎用モーション追従を統合し，物理プレフィックスによる誘導を行うことで，実行可能性の高い運動を生成する。
- GMTコントローラをカリキュラム学習と専門家混合スキームで訓練し，大規模なロボットモーションデータでロバスト性を向上させている。
- 物理由来のプレフィックスを用いたファインチューニングにより，複雑な運動の安定した実行を可能にし，従来の限界を超えるアジャイルな運動を実現した。
Link: https://arxiv.org/abs/2603.19305
拡散モデルによるセマンティック一貫性の誘導：マルチモーダル異質性への対処 [cs.CV, cs.AI]目的：連合学習におけるマルチモーダルデータの異質性問題に対する解決策
- 連合学習は，データが分散した環境での機械学習を可能にし，プライバシー保護に貢献する重要な技術である。
- クライアントデータの非独立同一分布(non-IID)性が連合学習の性能を大きく低下させる主要な課題となっている。
- マルチモーダルデータのセマンティックな差異を解消し，連合学習のロバスト性を向上させることを目指す。
- 提案手法SemanticFLは，事前学習済みの拡散モデルのセマンティック表現を活用し，クライアントのローカル学習をプライバシー保護しながら誘導する。
- 多様な異質性条件下での実験結果から，SemanticFLは既存の連合学習手法を凌駕し，FedAvgと比較して最大5.49%の精度向上を達成した。
- この結果は，SemanticFLが異質かつマルチモーダルデータのロバストな表現学習において有効であることを示している。
Link: https://arxiv.org/abs/2603.19337
AURORA：堅牢な超音波解析のための適応的統一表現 [eess.SY, cs.SY, cs.CV]目的：多様な超音波画像に対する汎化性能の向上
- 超音波画像は医療現場で広く利用され，診断精度向上に不可欠である。
- 超音波画像は機器やオペレーター，解剖学的対象によって大きく異なり，モデルの汎化性能が課題となる。
- 異なる環境やタスクに対応可能な，汎用的な超音波画像解析モデルを開発する。
- 提案手法は，Qwen3-VL由来のTransformerエンコーダと多スケール特徴ピラミッドを組み合わせた統一的なマルチタスクフレームワークである。
- タスクに応じたサンプリングと損失バランス調整により，多様な教師信号とタスクの不均衡に対応している。
- 検証セットで性能が67%から85%に向上し，公式テストセットで全タスク平均81.84%を達成した。
Link: https://arxiv.org/abs/2603.19364
ファクター化されたLevenberg-Marquardt法：FireANTsのための効率的な最適化手法 [cs.RO, cs.CV]目的：形状類似画像登録のための効率的な最適化手法の開発
- 医療画像解析において，画像間の空間的な対応付けは診断や治療計画の精度向上に不可欠である。
- 既存の最適化手法は，大規模な画像に対してメモリ消費量が課題となり，適用が制限される場合がある。
- メモリ消費量を削減しつつ，既存手法と同等以上の性能を実現する最適化手法を提案する。
- 提案手法であるファクター化されたLevenberg-Marquardt法は，Adamと比較して最大24.6%のメモリ削減を達成した。
- 脳MRI，肺CT，腹部マルチモーダル登録の各データセットにおいて，性能を維持または向上させた。
- 脳MRIで調整されたハイパーパラメータ設定は，他のデータセットにそのまま適用可能であった。
Link: https://arxiv.org/abs/2603.19371
胸部X線画像の局所認識型表現学習：位置情報を考慮したアプローチ [cs.CV, cs.AI]目的：胸部X線画像における局所的な特徴表現の学習
- 医療画像診断において，X線画像中の微細な病変を正確に捉えることが重要である。
- 既存のコントラスト学習モデルは領域レベルの教師信号が不足し，大規模言語モデルは局所的な特徴を捉えにくい。
- 位置情報を考慮した損失関数を用いて局所的な特徴表現を学習し，より精度の高い画像検索と病変の特定を目指す。
- 提案手法LoFiは，シグモイド，キャプション，位置情報を考慮したキャプションの損失関数を同時に最適化する。
- 位置情報を考慮したキャプション損失により，領域レベルでの教師信号を利用し，局所的な特徴表現の学習を促進する。
- MIMIC-CXRおよびPadChest-GRデータセットにおいて，画像検索と病変特定の両方で優れた性能を達成した。
Link: https://arxiv.org/abs/2603.19451
LLMを用いた逐次型社会ジレンマにおける協調と搾取に関するポリシー合成 [cs.CL, cs.GT]目的：LLMによるプログラム的エージェントポリシーの反復生成
- 多人数エージェント環境における協調と競争は，社会科学，経済学，そしてAI研究において重要なテーマである。
- 強化学習によるポリシー学習は計算コストが高く，複雑な環境では最適化が難しい場合がある。
- LLMを活用することで，効率的かつ柔軟なポリシー生成が可能となり，社会ジレンマ解決に貢献することが期待される。
- LLMへのフィードバック方法を比較した結果，報酬と社会指標の両方を提供する「高密度フィードバック」が，報酬のみの「疎密度フィードバック」を上回る性能を示した。
- 特に，公共財ゲームである「清掃ゲーム」において，社会指標がコストのかかる清掃と収穫のトレードオフをLLMが調整する上で役立った。
- 社会指標は公平性の過度な最適化を引き起こすのではなく，協調戦略を導くための信号として機能し，領域分割や役割分担などの有効な戦略を促進した。
Link: https://arxiv.org/abs/2603.19453
車両検出器に対する制御可能な画像編集による実環境カモフラージュ攻撃 [eess.SY, cs.RO, cs.SY, eess.SY, cs.SY, cs.CV]目的：車両検出器に対するカモフラージュ攻撃手法の開発
- 自動運転技術の発展に伴い，車両検出の安全性と信頼性が重要となっている。
- 深層学習を用いた車両検出器は，巧妙に作成された攻撃に対して脆弱である。
- 人間には認識されにくい，より効果的なカモフラージュ攻撃手法を確立する。
- 本研究では，ControlNetを用いて実画像上にカモフラージュされた車両を直接合成する新しいフレームワークを提案した。
- COCOおよびLINZデータセットを用いた実験により，既存手法と比較して攻撃効果が大幅に向上し，AP50が38%以上低下することが示された。
- また，車両構造の維持や人間の認識による隠蔽性も向上し，未知の検出器や現実世界への応用可能性も確認された。
Link: https://arxiv.org/abs/2603.19456
ProactiveBench：マルチモーダル大規模言語モデルにおける先制性のベンチマーク [cs.CV]目的：マルチモーダル大規模言語モデルの先制性評価
- 人間は協調のため，必要に応じて助けを求める。その能力をモデルに実装することで，より自然な対話が可能となる。
- 既存のモデルは，自発的に支援を求める能力が不足しており，タスク遂行の効率や質が制限される場合がある。
- モデルが自ら必要な情報を要求する「先制性」を評価し，改善するためのベンチマークと手法を開発する。
- ProactiveBenchは，遮蔽された物体認識や画像品質向上など，様々なタスクにおける先制性を評価する。
- 評価の結果，22のマルチモーダル大規模言語モデルは一般的に先制性に欠けることが示された。
- 強化学習によるファインチューニングによって，先制性を学習し，未知の状況にも汎化できる可能性が示唆された。
Link: https://arxiv.org/abs/2603.19466
まず聞く，それから答える：タイムスタンプに基づく音声推論 [cs.SD, eess.AS]目的：音声推論の根拠の明確化
- 音声と言語を扱うモデルの性能向上は，人間と機械のコミュニケーションを円滑にする上で不可欠である。
- 大規模言語モデルの推論過程が，入力音声に十分に根拠に基づいているかどうかが不明確である。
- 音声への注意を強化し，より信頼性の高い多Modal推論を実現すること。
- タイムスタンプによる根拠付けにより，モデルは推論生成時に音声トークンへの注意を強めることが示された。
- 4つの音声データセットでの実験により，本手法が従来の推論や微調整よりも性能が向上することが確認された。
- 根拠付けは，音声領域の探索，聴覚的検証，一貫性など，望ましい推論行動を増幅する効果がある。
Link: https://arxiv.org/abs/2603.19468
物語に沿った長編動画の質問応答 [cs.RO, cs.CV]目的：長編動画における深層的な時間的・物語的推論の評価
- 動画理解の高度化は，人間らしい知能を実現する上で不可欠である。
- 既存のベンチマークは局所的な手がかりに依存し，物語の理解が不足している。
- 長編動画全体を通しての意図把握や因果関係の把握を目指す。
- 新しいベンチマークNA-VQAは，88本の長編映画と4400組の質問応答ペアを含む。
- NA-VQAは，遠隔にある証拠を参照する必要がある質問に，最新のMLLMが苦戦することを示した。
- 物語を中心としたフレームワークVideo-NaRAは，長距離推論の性能を最大3%向上させた。
Link: https://arxiv.org/abs/2603.19481
大規模ビジョン言語モデルの医療指示応答に対する指示不要チューニング [cs.CV]目的：医療分野における大規模ビジョン言語モデルの指示応答性能向上
- 医療画像解析は，診断支援や治療計画の策定において不可欠であり，AIによる自動化が期待される。
- 医療データの専門知識が必要なため，高品質な指示データセットの作成は困難である。
- 専門知識を必要とせず，画像と説明文のみを用いてモデルをチューニングすることで，効率的な性能向上を目指す。
- 提案手法は，SKINCON，WBCAtt，CBIS，MIMIC-CXRデータセットにおいて最先端の精度を達成した。
- モデルの過学習を抑制するため，応答シャッフリング戦略を導入し，チューニング効率を向上させた。
- 指示データなしでも，事前学習済みのLVLMの指示応答能力を維持しつつ，医療領域固有の指示に柔軟に対応可能となる。
Link: https://arxiv.org/abs/2603.19482
VeloxNet：軽量組み込み画像分類のための効率的な空間ゲーティング [cs.CV]目的：軽量組み込み画像分類のための新規 CNN アーキテクチャ
- 航空災害監視やインフラ点検など，組み込みデバイスでの深層学習応用が重要視されている。
- モデルサイズ，メモリ，レイテンシに対する厳しい制約が課題となっている。
- パラメータ効率と分類精度の両立を目指し，空間ゲーティングブロックの有効性を示す。
- VeloxNetは，SqueezeNetのFireモジュールをゲート付き多層パーセプトロン(gMLP)ブロックに置き換えることで，軽量化を実現した。
- AIDER，CDD，LDDの3つの航空画像データセットにおいて，既存の11手法と比較し，パラメータ数を平均46.1%削減しつつ，F1スコアを向上させた。
- 空間ゲーティングブロックの導入により，局所的な畳み込みモジュールに比べて，グローバルな空間モデリングが可能となり，リソース制約下での展開に適している。
Link: https://arxiv.org/abs/2603.19496
段階的に部品を描画するエージェントの学習 [cs.AI, cs.CV, cs.GR, cs.LG]目的：ベクター形式のスケッチを部品ごとに生成する手法
- 近年，テキストからの画像生成技術が発展しており，創造的なタスクへの応用が期待されている。
- 複雑なスケッチを生成する際，全体を一度に生成するのではなく，部品ごとに制御したいという課題がある。
- 部品レベルの制御と編集可能性を備えた，解釈可能で制御可能なスケッチ生成を目指す。
- 本研究では，部品レベルのアノテーションを含む新しいデータセット「ControlSketch-Part」を構築した。
- 多段階の教師あり学習と，プロセス報酬を用いた強化学習により，テキストからベクター形式のスケッチを部品ごとに生成するエージェントを学習した。
- 実験の結果，部品レベルの構造化データと視覚的フィードバックの提供が，生成の解釈可能性と制御可能性を高めることが示された。
Link: https://arxiv.org/abs/2603.19500
Vision Tiny Recursion Model (ViTRM): 再帰的状態洗練によるパラメータ効率の良い画像分類 [cs.CG, cs.RO, cs.CV]目的：パラメータ効率の良い画像分類アーキテクチャ
- 深層学習は画像認識の性能を飛躍的に向上させてきたが，モデルの規模が大きくなる傾向にある。
- 大規模モデルは計算資源を多く必要とし，リソースに制約のある環境での利用が困難である。
- ViTRMは，再帰的な計算によって少ないパラメータで高い性能を実現する。
- ViTRMは，ViTエンコーダを再帰的に適用する小さなブロックで構成され，パラメータ数を大幅に削減できる。
- CNNやViTと比較して，最大で6倍，84倍パラメータ数を削減しつつ，CIFAR-10/100で同等の性能を維持する。
- この結果は，再帰的計算が画像認識における深層アーキテクチャの有効な代替手段となり得ることを示唆する。
Link: https://arxiv.org/abs/2603.19503
少数クエリに基づく線形社会選択：モーメントに基づくアプローチ [cs.GT, cs.AI]目的：社会選択における情報収集効率の向上
- 多様性を重視する現代の社会において，より効率的な意思決定手法が求められている。
- 既存の社会選択理論では，投票者からの情報が十分に活用されていないという課題がある。
- 投票者一人当たりの情報量を削減しつつ，適切な候補者を選出することを目指す。
- 投票者一人当たり一つのペアワイズ比較で，社会厚生を最大化する候補者を選出できることが示された。
- 二つのペアワイズ比較，または一つの段階的比較により，二次のモーメントを特定可能となる。
- これにより，格差を考慮した社会厚生基準など，より高度な目的関数に対応できる。
Link: https://arxiv.org/abs/2603.19510
尿道鏡下自動腎結石識別のための信頼に基づいたロバストな連合学習戦略：FedAgain [cs.CV, cs.AI]目的：尿道鏡画像からの自動腎結石識別におけるロバスト性と汎化性能の向上
- 医療画像におけるAIの信頼性は，多様なデバイスや環境下での画像変化に対する堅牢性に依存する
- 異なる病院で取得された異種・破損画像に対するAIのロバスト性が課題となっている
- ノイズや悪意のある更新の影響を軽減し，安定した収束を促すことで，信頼性の高い連合学習を実現する
- FedAgainは，ベンチマーク信頼性とモデルの乖離を組み合わせた二重の信頼メカニズムを導入することで，クライアントの貢献度を動的に重み付けする。
- 5つのデータセット（MNIST，CIFAR-10，2つの私的腎結石データセット，MyStone）を用いた実験により，非IIDデータや破損クライアント環境下で，標準的な連合学習手法を上回ることが示された。
- 診断精度と性能安定性を維持することで，臨床利用可能なプライバシー保護型連合AIへの実用的な進歩を示す。
Link: https://arxiv.org/abs/2603.19512
胃癌分析のためのビジョン言語モデルの進歩を促すマルチモーダル多相ベンチマークデータセット Gastric-X [cs.CV, cs.AI]目的：胃癌分析におけるビジョン言語モデルの発展を目的とした，大規模マルチモーダルベンチマークデータセット
- 近年，医療分野における画像とテキストの複合的な解析が重要視されている。
- 臨床ワークフローを網羅した，構造化された医療データセットが不足している。
- 既存のビジョン言語モデルの能力を評価し，臨床現場での応用を促進すること。
- Gastric-Xは，1700件の胃癌症例を含む大規模なマルチモーダルデータセットである。
- 本研究では，主要なビジョン言語モデルを5つの臨床タスクで評価した結果，モデルの性能にばらつきが見られた。
- 今後の課題として，生化学的指標と腫瘍の特徴，テキストレポート間の相関関係を理解できるモデルの開発が挙げられる。
Link: https://arxiv.org/abs/2603.19516
医療写真理解のための統一ベンチマークReXInTheWild [cs.CV, cs.LG]目的：医療写真の内容解釈能力評価
- 遠隔医療等の普及により，一般カメラで撮影された医療写真の活用が重要になっている。
- 既存のモデルは，医療写真特有の知識と画像理解能力が不足している。
- 医療写真に対するビジョンと言語モデルの性能を包括的に評価するベンチマークの必要性。
- ReXInTheWildは，臨床医が検証した955問の多肢選択問題を含む医療写真ベンチマークである。
- Gemini-3が78%の精度で最高性能を示し，Claude Opus 4.5とGPT-5がそれに続く。
- エラー分析の結果，幾何学的誤りから高度な推論の誤りまで，4種類の誤りパターンが明らかになった。
Link: https://arxiv.org/abs/2603.19517
連続手話におけるBSLフィンガースペリングの認識 [cs.CV]目的：BSLフィンガースペリングの認識
- 手話における固有名詞や専門用語の表現に不可欠であり，コミュニケーションの円滑化に貢献する。
- 手話の速さや文字の省略により，正確なフィンガースペリング認識が困難である。
- 大規模かつ高精度なデータセットと認識モデルの開発により，認識精度向上を目指す。
- 新たな大規模データセットFS23Kを構築し，反復的なアノテーションフレームワークを導入した。
- 両手間の相互作用と口の動きを考慮したフィンガースペリング認識モデルを提案した。
- 改良されたアノテーションと提案手法により，既存の最先端技術と比較して文字誤り率を半減させた。
Link: https://arxiv.org/abs/2603.19523
SurfaceXR：スマートウォッチIMUと一人称視点の手のポーズの融合によるシームレスな表面インタラクション [cs.CV, cs.HC, cs.LG]目的：表面インタラクションの実現
- 拡張現実(XR)において，疲労軽減と精度向上が求められている。
- 既存の一人称視点ベースの手法は，ハンドトラッキングの課題と表面平面推定の信頼性不足に直面している。
- ハンドトラッキングとスマートウォッチIMUの融合により，表面上でのロバストな入力インタラクションの実現を目指す。
- SurfaceXRは，ヘッドセットベースのハンドトラッキングとスマートウォッチIMUデータを組み合わせることで，日常的な表面上での堅牢な入力を可能にする。
- 21人の参加者による実験で，SurfaceXRはタッチトラッキングと8種類のジェスチャー認識において，単一モダリティのアプローチと比較して有意な改善を示した。
- ハンドトラッキングの3次元位置データとIMUの高周波運動データの相補性を活用することで，より自然で正確な表面インタラクションを実現した。
Link: https://arxiv.org/abs/2603.19529
DINOv3を用いたオープンボキャブラリセマンティックセグメンテーション [cs.CV, cs.AI]目的：オープンボキャブラリセマンティックセグメンテーションにおける性能向上
- 画像認識技術の発展と，多様なカテゴリへの対応が求められている。
- 既存手法では，複雑なシーンにおける空間精度とロバスト性に課題がある。
- 高精度かつロバストなセグメンテーションを実現し，未知のクラスへの汎化能力を高める。
- DINOv3を基盤とした新たなフレームワークdinov3.segを提案し，タスク固有のアーキテクチャを設計した。
- テキスト埋め込みとViTベースのエンコーダの局所特徴を統合し，セマンティック識別と空間的局所性を高めた。
- 視覚表現の早期洗練と，画像-テキスト相関特徴の後期洗練を行うことで，複雑なシーンでの予測精度を向上させた。
Link: https://arxiv.org/abs/2603.19531
心理的特徴とTransformer融合による歩行者横断意図予測 [cs.CV, cs.RO]目的：歩行者の横断意図予測の精度向上
- 自動運転車の安全な走行には，都市環境における歩行者の行動予測が不可欠である。
- 既存手法では，予測の不確実性の定量化や，計算資源の制約下での効率的な予測が課題である。
- 解釈可能な特徴量を用い，不確実性を考慮した効率的な歩行者意図予測モデルを開発する。
- 提案手法は，PSI 1.0ベンチマークにおいて，最新のビジョン言語モデルを凌駕する性能（F1=0.9, AUC-ROC=0.94, MCC=0.78）を達成した。
- PSI 2.0データセットにおいても，初のベースラインとして，F1=0.78, AUC-ROC=0.79の良好な結果を示した。
- Mahalanobisスコアに基づく選択的予測により，80%カバレッジでテスト精度が最大0.4%向上した。
Link: https://arxiv.org/abs/2603.19533
VRベースの手話学習における行動的関与：パフォーマンスと時間的ダイナミクスの予測因子としての視線注意 [cs.HC, cs.CV]目的：VRベース手話学習における行動的関与と学習パフォーマンスの関係性
- 手話学習は，聴覚障害者とのコミュニケーションを円滑にする上で重要である。
- 従来の学習方法は，学習者の関与度を把握しづらく，効果測定が困難である。
- VR技術を用いて学習者の行動的関与を測定し，学習効果との関連性を明らかにすること。
- 視線注意（VA）は，クイズのパフォーマンスと強い正の相関を示すことが明らかになった。
- VAとポストプレイバック視聴時間（PPVT）は，学習成功の有意な予測因子であり，パフォーマンスの分散の大きな割合を説明する。
- VR学習における情報密度の高いセグメントと一致する視線注意のピークが確認された。
Link: https://arxiv.org/abs/2603.19535
MoCA3D：画像平面における単眼3Dバウンディングボックス予測 [cs.SI, cs.CV]目的：単眼による3D物体理解のモデル
- 自動運転やロボティクスなど，3D物体認識技術は様々な分野で重要性が増している。
- 既存手法はカメラの内部パラメータに依存し，未知の環境での物体検出に課題があった。
- カメラ内部パラメータが不明な状況下でも高精度な3Dバウンディングボックス予測を実現する。
- MoCA3Dは，カメラ内部パラメータを必要とせず，画像平面上の3Dバウンディングボックスのコーナーと深度を予測する。
- 提案手法Pixel-Aligned Geometry (PAG)を用いて，画像平面における幾何学的な正確性を評価し，高い性能を示した。
- MoCA3Dは，既存手法と比較して，画像平面コーナーPAGを22.8%改善し，パラメータ数を大幅に削減した。
Link: https://arxiv.org/abs/2603.19538
テンソル系列に対する部分空間カーネル学習 [cs.LG, cs.AI, cs.CV]目的：高次テンソルとして表現される構造化多方向データの学習
- 多様なデータ構造を扱う必要性が高まる中で，高次テンソルデータの効率的な処理が重要である。
- テンソルデータの高次元性と複雑な相互作用により，計算コストが増大し，汎化性能が低下しやすい。
- テンソルモード間の不確実性を考慮し，ロバストで解釈可能な類似度測度を確立すること。
- 提案手法UKTLは，テンソルモードごとの部分空間を比較することで，高次テンソルデータの表現性とロバスト性を向上させる。
- 大規模データに対応するため，ソフトk-meansクラスタリングによる動的なピボットテンソルを用いたナイストロームカーネル線形化を提案する。
- 実験結果から，UKTLが既存手法を上回り，汎化性能の向上とモードごとの洞察を提供することが示された。
Link: https://arxiv.org/abs/2603.19546
SeeClear：生成的な不透明化による信頼性の高い透明物体の深度推定 [cs.CV]目的：透明物体の深度推定の安定化
- 透明物体の深度推定は，光の屈折や透過といった現象により困難であり，応用範囲が広い。
- 既存の深度推定手法は，透明物体の特性を考慮できず，不安定または不正確な推定結果となる。
- 本研究は，透明物体を生成的に不透明な画像に変換することで，深度推定の安定性を向上させる。
- SeeClearは，拡散モデルを用いた生成的な不透明化モジュールにより，透明領域を幾何学的に整合性のある不透明な形状に変換する。
- この処理済みの画像を既存の単眼深度推定器に入力することで，再学習やアーキテクチャ変更なしに透明物体の深度推定を改善する。
- SeeClear-396kという合成データセットを用いて学習し，合成データと実世界のデータセットの両方で有効性が確認された。
Link: https://arxiv.org/abs/2603.19547
StreetForward：前方フィードフォワード因果的注意による動的道路の認識 [cs.CV]目的：動的道路の再構成
- 自動運転技術の発展には，リアルタイムなシーン再構成が不可欠である。
- 従来のシーン再構成は，時間のかかる最適化が必要であり，効率が課題である。
- 大規模なデータセットを活用し，効率的な再構成を可能にする手法を開発する。
- 提案手法StreetForwardは，ポーズやトラッカーを必要としない前方フィードフォワードフレームワークである。
- Visual Geometry Grounded Transformer (VGGT)の代替注意メカニズムを基盤とし，時間マスク注意モジュールを導入した。
- Waymo Open Datasetでの評価で，既存手法と比較して新規視点合成と深度推定において優れた性能を示した。
Link: https://arxiv.org/abs/2603.19552
二重領域表現アラインメント：幾何学を意識したアーキテクチャ探索による2Dと3Dビジョンの架け橋 [cs.CV, cs.AI]目的：2Dと3Dビジョンのバランスを取り，効率的なモデルアーキテクチャ探索
- 現代のコンピュータビジョンは，精度とリアルタイム効率の両方が求められる
- 大規模なビジョンモデルは計算コストが高く，リソース制約のある環境での利用が難しい
- 進化型ニューラルアーキテクチャ探索の効率化とランキングの一貫性向上
- 提案手法EvoNASは，VSSとViTモジュールを統合したハイブリッド超ネットワークを効率的に最適化する。
- CA-DDKD戦略により，表現能力の向上とランキングの一貫性が高まり，信頼性の高い評価が可能となる。
- DMMPEフレームワークにより，大規模検証のコストを70%以上削減し，EvoNetsは精度と効率のパレート最適解を示す。
Link: https://arxiv.org/abs/2603.19563
PFM-VEPAR：RGB-イベントカメラベース歩行者属性認識のためのファウンデーションモデルのプロンプティング [cs.CV, cs.AI, cs.LG]目的：RGB-イベントカメラを用いた歩行者属性認識に関する研究
- 歩行者属性認識は，監視や人間中心のインタラクションにおいて重要な役割を果たす。
- 低照度やモーションブラー環境下では，RGBカメラの性能が低下する。
- イベントカメラの情報を活用し，RGBカメラの弱点を補完することで，よりロバストな属性認識を目指す。
- 提案手法は，計算コストの高い既存手法を改善し，効率的な特徴抽出を実現した。
- イベントデータから周波数領域の特徴を抽出し，RGBデータの性能向上に貢献した。
- 外部メモリとホップフィールドネットワークにより，サンプル間の関係性を活用した表現学習を行った。
Link: https://arxiv.org/abs/2603.19565
物理特性に基づいた深層アンフォールディングによるリモートセンシング変化検出の進歩 [cs.CV]目的：リモートセンシング変化検出における偽警報の抑制
- リモートセンシング技術は，地球環境の変化を把握する上で不可欠であり，その精度向上が求められている。
- 照明，季節，大気等の取得条件の差異により偽警報が発生しやすく，変化検出の信頼性を損ねている。
- 物理的な特徴量を利用し，変化とノイズを分離することで，よりロバストな変化検出を実現することを目指す。
- 提案手法PhyUnfold-Netは，特徴量差分空間におけるパッチごとの特異値エントロピーの差異に着目し，変化とノイズを分離する。
- Iterative Change Decomposition Module(ICDM)は，多段階ソルバーをアンフォールドし，変化成分とノイズ成分を段階的に分離する。
- 実験結果から，提案手法が既存手法と比較して，困難な条件下でも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.19566
効率はグローバル・ローカルの分離に追随する [cs.CV]目的：画像レベルの文脈の把握と局所的な詳細の維持，そして計算効率の確保
- 近年の画像認識技術において，画像全体と局所的な特徴を両立させることは重要である。
- 既存手法では，計算コストが増加し，効率的な処理が困難となる場合が多い。
- グローバルとローカルの処理を分離することで，効率性と性能の両立を目指す。
- ConvNeurは，グローバル文脈と局所的な特徴を分離した2分岐アーキテクチャである。
- 画像サイズに対する計算量が準二次以下に抑えられ，計算効率が向上する。
- 画像分類，物体検出，セグメンテーションのベンチマークにおいて，既存手法と同等以上の性能を示す。
Link: https://arxiv.org/abs/2603.19567
マルチスケールサンプリングとワンステップ蒸留による拡散デコーダの高速化 [cs.HC, cs.CV]目的：画像トークナイゼーションにおける拡散デコーダの効率化
- 現代の生成モデリングにおいて，画像入力のコンパクトな表現が重要な役割を果たす。
- 拡散デコーダは忠実な再構成に特化しており，その反復サンプリングプロセスが遅延の大きな原因となっている。
- マルチスケールサンプリングとワンステップ蒸留により，デコーディング時間を大幅に短縮し，実用性を高める。
- 提案手法では，まず粗い解像度から段階的に解像度を上げてデコードするマルチスケールサンプリングを採用し，理論上$\mathcal{O}(\log n)$の高速化を実現した。
- 次に，各スケールにおいて拡散デコーダを単一ステップのノイズ除去モデルに蒸留することで，高速かつ高品質な再構成を可能にした。
- これらの技術を組み合わせることで，デコーディング時間を1桁削減し，出力品質の劣化を最小限に抑えた。
Link: https://arxiv.org/abs/2603.19570
CurveStream: MLLMにおけるストリーミング動画理解の強化 - 曲線認識に基づく階層型視覚メモリ管理 [cs.CV]目的：ストリーミング動画理解における視覚メモリ管理手法
- 動画理解は，AIの重要な応用分野であり，様々なタスクへの展開が期待されている。
- 大規模言語モデルをストリーミング動画に適用する際，視覚トークンの線形的な増加が課題となっている。
- 重要な意味遷移を捉えつつ，メモリ消費を抑える効率的な視覚メモリ管理を実現することを目指す。
- CurveStreamは，特徴量の軌跡における曲率を評価し，意味的な変化を捉えることで，既存手法を大きく上回る性能を達成した。
- StreamingBenchとOVOBenchにおいて，それぞれ10.69%，13.58%の絶対的な性能向上を実現し，ストリーミング動画認識の新たな最先端結果を示した。
- 本手法は，トレーニング不要で軽量であり，様々なストリーミング動画理解タスクへの応用が期待できる。
Link: https://arxiv.org/abs/2603.19571
MagicSeg：反事実拡散に基づく自己生成によるオープンワールドセグメンテーション事前学習 [cs.CV]目的：オープンワールドセグメンテーションのためのデータセット自動生成手法
- 画像とテキストの理解はAIの重要な課題であり，セグメンテーションはその応用分野として重要である。
- 十分なカテゴリの細かいピクセルレベルのアノテーション付き画像データセットの収集は，コストと時間がかかる。
- 拡散モデルと対照学習を用いて，ラベルのみから高品質なセグメンテーションデータセットを自動生成する。
- MagicSegは，クラスラベルからテキスト記述を生成し，それを拡散モデルのガイドとして画像生成を行う。
- 正例画像と負例画像（反事実サンプル）を同時に生成し，対照学習に活用することで，セグメンテーション性能を向上させる。
- PASCAL VOC，PASCAL Context，COCOにおいて最先端の性能を達成し，データセットの有効性を示した。
Link: https://arxiv.org/abs/2603.19575
HiFiGaze：画面内容の知識を用いた視線追跡精度の向上 [cs.IR, cs.HC, cs.CV]目的：視線推定の精度向上
- ユーザーインターフェース研究において，視線追跡は重要な入力手段となり得る。
- 視線追跡の精度は，画面内容の多様性により大きく影響を受けやすい。
- 画面内容の知識を活用し，視線追跡のロバスト性を高めることを目指す。
- 提案手法は，ベースラインモデルと比較して平均追跡誤差を約8%削減した。
- カメラをデバイス下部に配置することで，追加で10-20%の精度向上が確認された。
- デバイス画面の反射を利用することで，高精度な視線追跡が可能となった。
Link: https://arxiv.org/abs/2603.19588
FlowScene：マルチモーダルグラフ修正フローによるスタイル一貫性のある屋内シーン生成 [cs.IR, cs.CL, cs.IR, cs.CV]目的：スタイル一貫性のある屋内シーンの生成
- 現実的なシーン生成技術は，産業界で広く求められており，高品質な画像生成が不可欠である。
- 既存手法では，オブジェクトレベルの制御が難しく，シーン全体のスタイルの一貫性を保つことが課題である。
- オブジェクト形状，テクスチャ，関係性を制御し，シーン全体のスタイル一貫性を実現すること。
- FlowSceneは，シーンレイアウト，オブジェクト形状，オブジェクトテクスチャを同時に生成するトリプルブランチモデルである。
- 修正フローモデルにより，オブジェクト情報を交換し，グラフ全体で協調的な推論を行うことで，高精度なシーン生成を実現する。
- 実験結果から，FlowSceneは既存手法と比較して，生成された画像のリアリズム，スタイルの一貫性，人間の好みに合致する度合いで優れていることが示された。
Link: https://arxiv.org/abs/2603.19598
K-GMRF：リー群上における第一原理共分散追跡のための運動ガウス-マルコフ確率場 [cs.CV, cs.LG]目的：リー群上の共分散追跡のためのオンライン学習不要フレームワーク
- 画像処理において，共分散行列の追跡は重要である。対象物の動きや変化を正確に把握するために不可欠な技術である。
- 既存手法は，多様体制約を無視するか，一次更新に頼るため，急速な変化に対して位相遅れが発生し，追跡精度が制限される。
- 本研究は，位相遅れを克服し，より正確な共分散追跡を実現することで，画像処理の精度向上を目指す。
- K-GMRFは，問題をリー群上の剛体運動として再定式化し，構造を保存するシンプレクティック積分器を用いて潜在的な角速度を伝播させる。
- 理論的に，本手法が定常回転下でゼロ定常誤差を達成し，一次更新ベースラインよりも優れていることが証明された。
- 合成楕円，SO(3)安定化，OTBモーションブラーシーケンスにおいて，K-GMRFは高い追跡精度と安定性を示した。
Link: https://arxiv.org/abs/2603.19601
二次元を超えて：RWKVによる線形時間変化検出 [cs.RO, cs.CV]目的：リモートセンシング変化検出における新しいアーキテクチャの提案
- 社会インフラの維持管理や環境変動の監視において，変化検出は不可欠な技術である。
- 従来の深層学習モデルは，計算コストと検出精度とのトレードオフに陥っていた。
- 効率性と精度を両立する，新たな変化検出手法を開発し，実運用規模での応用を目指す。
- 提案手法ChangeRWKVは，Transformerの並列処理とRNNの線形時間推論を組み合わせることで，効率的な変化検出を実現した。
- LEVIR-CDベンチマークにおいて，IoU 85.46%，F1スコア 92.16%と，最先端の性能を達成した。
- 従来の主要手法と比較して，パラメータ数とFLOPsを大幅に削減し，計算効率を向上させた。
Link: https://arxiv.org/abs/2603.19606
Physion-Eval：生成動画の物理的リアリズムを人間による推論で評価 [cs.CV]目的：生成動画における物理的リアリズムの評価基準
- 動画生成技術は，物語作成，シミュレーション，具現化されたAIなど，様々な分野で活用が拡大している。
- 既存の評価手法は自動指標や粗い人間評価に頼っており，物理法則違反の箇所や理由の特定が困難である。
- 生成動画が現実世界の物理法則に従っているかを，専門家による推論を通じて詳細に診断することを目的とする。
- Physion-Evalは，5つの最先端モデルが生成した動画の物理的リアリズムを評価するための大規模なベンチマークである。
- 評価の結果，物理的に重要な状況において，生成動画の83.3%(三人称視点)と93.5%(一人称視点)に物理的な不具合が確認された。
- 本ベンチマークは，物理に基づいた動画生成技術の開発を促進し，物理的リアリズム評価の新たな標準となることが期待される。
Link: https://arxiv.org/abs/2603.19607
FB-CLIP：前景・背景分離による高精度なゼロショット異常検知 [cs.CV, cs.AI]目的：産業および医療分野における高精度なゼロショット異常検知手法
- 産業や医療において，異常検知は製品品質や人命に関わるため重要である。
- 異常データのラベル付けは困難であり，ゼロショットでの異常検知は課題である。
- 前景と背景の混同を解消し，テキスト情報をより効果的に活用することで解決を目指す。
- 提案手法FB-CLIPは，テキスト表現の多角化と前景・背景分離により，異常局所化を強化する。
- 画像特徴とテキストプロトタイプの整合性を高めることで，曖昧なマッチングを抑制し，異常を明確化する。
- 実験により，複雑な背景下でもFB-CLIPが正確な異常検知と局所化を実現することが示された。
Link: https://arxiv.org/abs/2603.19608
LoD-Loc v3：インスタンスシルエットアラインメントを用いた高密度都市における汎用的な空中位置推定 [cs.CV, cs.AI, cs.RO]目的：高密度都市環境における汎用的な空中視覚位置推定手法
- 都市規模の測位は，自動運転や都市計画など，様々な分野において不可欠である。
- 既存手法は，シーン間の汎化性能が低い，または高密度な建物群の中で失敗しやすいという課題があった。
- 本研究は，インスタンスシルエットアラインメントにより，汎化性能と高密度環境におけるロバスト性を向上させることを目指す。
- 本研究で開発したLoD-Loc v3は，既存の最先端手法と比較して，優れた性能を示すことが確認された。
- 特に，シーン間の汎化性能と高密度都市環境における性能において，大幅な改善が見られた。
- 大規模なインスタンスセグメンテーションデータセットInsLoD-Locの構築も，本手法の成功に貢献している。
Link: https://arxiv.org/abs/2603.19609
ParallelVLM：視覚的アライメントを考慮した並列推測デコーディングによるロスレスなビデオLLM加速 [cs.CV]目的：ビデオLLMの推測デコーディングにおける加速
- ビデオLLMは動画理解において高い性能を示すが，計算コストが高い
- 既存のトークン削減手法は情報損失を伴い，十分な加速が得られない
- 並列推測デコーディングにより，動画の長いシーケンスに対する効率的な処理を目指す
- ParallelVLMは，ドラフトウィンドウを1.6～1.8倍に拡張し，高い受容率を達成した。
- LLaVA-Onevision-72Bでは3.36倍，Qwen2.5-VL-32Bでは2.42倍の速度向上を実現した。
- 提案手法は，ドラフトモデルとターゲットモデル間の待ち時間を解消し，ハードウェアの利用効率を最大化する。
Link: https://arxiv.org/abs/2603.19610
OrbitNVS：ビデオ拡散事前知識を活用した新規視点合成 [cs.CV]目的：新規視点合成における高品質な視点生成
- 3次元物体の表現において，限られた視点から未知の視点を生成する技術は重要である。
- 単一視点からの合成や，隠れた領域の妥当性，幾何学・外観の一貫性維持が課題である。
- ビデオ拡散モデルの事前知識を活用し，これらの課題を解決する新規手法の提案。
- OrbitNVSは新規視点合成を軌道ビデオ生成タスクとして再構築し，事前学習済みビデオ生成モデルを適用した。
- カメラアダプタや法線マップ生成ブランチを導入することで，幾何学・外観の一貫性を向上させた。
- GSOおよびOmniObject3Dベンチマークで既存手法を大きく上回り，特に単一視点設定で顕著な性能向上を示した。
Link: https://arxiv.org/abs/2603.19613
CAFスコア：LALMを用いたCLAPの較正による参照なしオーディオキャプション評価 [cs.SD, cs.AI, cs.CL]目的：オーディオキャプション評価の新しい指標
- オーディオキャプション生成技術は発展しているが，その評価は重要な課題である。
- 既存の参照ベースの評価指標は高コストで，音響的な忠実性を十分に評価できない。
- CAFスコアは，CLAPとLALMを組み合わせることで，より正確な評価を目指す。
- CAFスコアは，CLAPの粗い意味的整合性とLALMの細やかな理解を統合することで，構文的な誤りや微妙な誤りを検出する。
- BRACEベンチマークでの実験により，CAFスコアは人間の判断との相関性が最も高く，困難な状況下では参照ベースの手法を上回ることが示された。
- これらの結果は，CAFスコアが参照なしのオーディオキャプション評価に有効であることを示唆する。
Link: https://arxiv.org/abs/2603.19615
UniPR：単一のステレオペアからの統一的な物体レベルのリアルtoシミュレーション知覚と再構成 [cs.CV]目的：リアルtoシミュレーション転送のための物体知覚と再構成
- ロボット工学分野において，現実世界の知覚とシミュレーション環境への応用は重要である。
- 既存手法は複数のモジュールに分割されているため，効率が悪く，累積誤差が発生しやすい。
- UniPRは，効率性と精度を向上させ，ロボットアプリケーションの実用化を目指す。
- UniPRは，単一のステレオ画像ペアから，エンドツーエンドで物体レベルの知覚と再構成を実現する。
- 幾何学的制約を利用し，スケール曖昧性を解決し，カテゴリーごとの定義を不要とするPose-Aware Shape Representationを導入した。
- 大規模なステレオデータセットLVS6Dを構築し，大規模な研究を促進した。実験により，UniPRが高効率かつ正確に物体を再構成できることが示された。
Link: https://arxiv.org/abs/2603.19616
スケール間特徴分離によるノンイテレーティブハイブリッドマルチモーダル画像レジストレーション [cs.CV]目的：マルチモーダル画像レジストレーション手法
- 異種画像解析の基礎技術であり，医療画像診断や画像解析の精度向上に不可欠である。
- 既存手法では，モダリティ固有の情報が共有空間に漏洩したり，変形に対応できない場合がある。
- 安定した共有特徴空間と統一されたハイブリッド変換を学習することで，この問題を解決することを目指す。
- 提案手法HRNetは，モダリティ固有バッチ正規化とスケール間特徴分離・適応投影モジュールを組み合わせる。
- これにより，モダリティ固有情報を抑制し，安定した共有特徴空間を構築し，剛体変換と変形を同時に推定する。
- 4つのマルチモーダルデータセットにおける実験で，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.19623