arXiv雑要約

画像・音声 - 2026/03/17 公開

1つのトークンでのピクセルレベルのシーン理解：視覚状態には「何がどこにあるか」の構成が必要である [cs.CV, cs.AI, cs.LG, cs.RO]目的：視覚状態表現の学習
- ロボットが動的な環境で動作するには，視覚情報の効率的な表現が不可欠である。
- 既存の自己教師あり学習法は汎化性能が高いが，良好な視覚状態が何をエンコードすべきか明示していない。
- シーン要素のセマンティック情報と空間位置を同時にエンコードすることで，微妙な変化を捉えることを目指す。
- 提案手法CroBoは，グローバルなボトルネックトークンを用いて，局所的なターゲット領域の隠れたパッチを再構成する。
- この学習目標により，ボトルネックトークンはシーン全体のセマンティックエンティティの詳細な表現を学習する。
- 実験結果は，学習された視覚状態がシーン要素の動きや相互作用を捉え，ロボットの意思決定を支援することを示している。
Link: https://arxiv.org/abs/2603.13904
LineMaster Pro：PID制御と超音波障害物回避を備えた低コストインテリジェントな追線ロボット [cs.DB, cs.RO, cs.CV]目的：教育用ロボットにおける低コストでインテリジェントな追線ロボットの開発
- ロボット工学教育は，STEM教育において重要であり，実践的な学習機会を提供する。
- 既存の追線ロボットは高価であり，障害物検出機能が不足しているため，実用的な応用が難しい。
- 低コストで高性能な追線ロボットを提供することで，リソースの限られた環境でもロボット教育を促進する。
- LineMaster Proは，Arduino Nanoプラットフォーム上で構築され，正確な追線，リアルタイムな障害物検出，堅牢な障害物回避を実現する。
- 実験結果から，平均追線精度は1.18cm，障害物検出の信頼性は96.7%であり，PID制御は従来制御より43%の改善を示す。
- 本ロボットのハードウェアコストは28.50ドルであり，市販の代替品と比較して94%のコスト削減を実現する。
Link: https://arxiv.org/abs/2603.13907
絶対スケールでのシーン生成：テキストからの意味的・幾何学的ガイダンスを用いた高精度で解釈可能な3D屋内シーン生成 [cs.CV]目的：テキストに基づいた3D屋内シーンの生成
- 3Dシーン生成は，仮想現実やロボティクスなど幅広い分野で重要性が増している。
- 従来のテキストからの3Dシーン生成手法では，幾何学的なずれやスケールの曖昧さといった課題があった。
- 本研究は，絶対座標系を用いた高精度かつ一貫性のある3D屋内シーン生成を目指す。
- テキストによるシーン記述から，意味的・幾何学的な構造をエンコードしたグローバル3Dレイアウトを予測する。
- このレイアウトをガイドとしてパノラマ拡散モデルを使用し，360度画像を合成することで，空間的な一貫性を向上させている。
- 最適化されたカメラ軌跡を用いたビデオ拡散モデルにより，効率的な探索と高速なサンプリングを実現した。
Link: https://arxiv.org/abs/2603.13910
制約のない一人称視点ビデオにおける安定した自己教師あり物体表現に向けて [cs.CV]目的：制約のない一人称視点ビデオからの安定した物体表現の学習
- 人間は自身の経験を通して視覚的知能を獲得する。その過程を模倣し，ロボットに環境認識能力を付与することが重要である。
- 既存手法では，手動アノテーションに依存するか，背景の複雑さ，隠蔽，自己運動などの問題により安定した物体表現の学習が困難である。
- 本研究は，教師なし学習により，一人称視点ビデオからロバストな物体表現を学習し，それらの安定性を高めることを目指す。
- 提案手法EgoViTは，フレーム内蒸留，深度正則化，教師あり時系列一貫性という3つのメカニズムを組み合わせることで，初期の物体仮説を徐々に洗練し，安定した表現を獲得する。
- 標準的なベンチマークにおいて，EgoViTは教師なし物体検出においてCorLocを8.0%改善し，セマンティックセグメンテーションにおいてmIoUを4.8%改善した。
- これらの結果は，EgoViTが具現化された知能のためのロバストな視覚的抽象化の基盤となりうる可能性を示唆する。
Link: https://arxiv.org/abs/2603.13912
3Dビジョンとロボティクスにおける画像ペア検索のための視覚的場所認識手法の評価 [cs.CV]目的：画像ペア検索のための視覚的場所認識手法の性能評価
- ロボティクスやSLAM等の応用において，環境理解の精度向上が不可欠である。
- 場所認識は，計算コストや環境変化へのロバスト性に課題が残る。
- 画像ペア検索を前提とした場所認識手法の有効性を検証する。
- 最新のグローバル記述子アプローチは，知覚的曖昧さや不完全なシーケンスといった困難な状況下で，画像ペア検索モジュールとして有効であることが示された。
- 各手法にはドメイン依存の強みと弱みがあり，ロバストなマッピングや登録のためのVPRコンポーネント選択において重要である。
- NetVLAD，CosPlace，MixVPR，AnyLoc，SALAD，MegaLoc等の性能を，Tanks and Temples，ScanNet-GS，KITTI等のデータセットで比較評価した。
Link: https://arxiv.org/abs/2603.13917
OpenCOOD-Air：空間変換とオフセット予測による異種地上・空中協調知覚 [cs.CV]目的：地上・空中車両間の協調知覚における性能向上
- 自動運転の安全性を高める上で，車両間の情報共有によるセンシング範囲拡大は重要である。
- 地上車両のセンサーは，遮蔽や視点制限により知覚範囲に死角が生じやすいという課題がある。
- ドローンを活用し，地上車両の死角を補完する協調知覚システムの構築を目指す。
- 提案手法OpenCOOD-Airは，ドローンをV2V協調知覚に統合することで，地上の制約を克服する。
- ドメイン間の勾配干渉を緩和するため，V2Vモデルからの転移学習と，CDSCおよびSOPTを導入した。
- 実験結果から，提案手法は既存手法と比較して，2Dおよび3D AP@0.7をそれぞれ4%，7%向上させた。
Link: https://arxiv.org/abs/2603.13919
局所生成予測器を用いた識別的フローマッチング [cs.CV, cs.AI]目的：識別的フローマッチングの提案
- 従来の画像認識は効率性重視だが，生物の視覚や生成モデルの反復的な改良・頑健性に劣る
- 静的な特徴量変換では，複雑なタスクへの対応や多様なアーキテクチャへの適用が困難である
- 生成モデルと識別モデルの利点を組み合わせた，ロバストな推論フレームワークの実現
- 本研究では，分類や物体検出を条件付き輸送過程として再構築する「識別的フローマッチング」を提案した
- 複数の独立したフロー予測器を共有バックボーンに接続し，局所的なフローマッチング目標を用いて訓練することで，柔軟性と効率性を両立
- 提案手法は，CNNやVision Transformerなど多様なアーキテクチャで高い性能を発揮し，ハードウェア制約にも対応可能である
Link: https://arxiv.org/abs/2603.13928
高解像度RGBと低解像度HSIの双方向クロスアテンション融合によるマルチモーダル自動廃棄物選別 [cs.CV]目的：高解像度RGB画像と低解像度HSI画像を融合し，廃棄物選別のための正確なセグメンテーション
- 廃棄物量の増加と循環型経済への移行に伴い，効率的な廃棄物選別が不可欠となっている。
- RGB画像は空間的な詳細情報に優れるが，視覚的に類似した材料の識別が困難である。
- RGBとHSIの相補的な強みを融合することで，より高精度な廃棄物選別を実現することを目指す。
- 提案手法BCAFは，RGB画像とHSI画像をそれぞれのネイティブグリッド上で双方向クロスアテンションにより整合させる。
- SpectralWasteデータセットにおいて，BCAFは最先端の性能である76.4% mIoU（31画像/秒）と75.4% mIoU（55画像/秒）を達成した。
- 新たに作成した産業用データセットK3I-Cyclingにおいても，材料セグメンテーションで62.3% mIoU，プラスチック種類セグメンテーションで66.2% mIoUを記録した。
Link: https://arxiv.org/abs/2603.13941
Sat-JEPA-Diff：自己教師あり学習と生成拡散モデルを融合し，リモートセンシングの予測精度向上 [cs.CV, cs.LG]目的：衛星画像予測における構造的精度とテクスチャの詳細度の両立
- リモートセンシングは，地球環境のモニタリングや災害管理など，幅広い分野で不可欠な技術である。
- 従来の予測手法は，平均回帰の問題に陥りやすく，地理空間の特徴が曖昧な画像になりがちである。
- 構造的精度とテクスチャの品質を両立させ，より鮮明で信頼性の高い衛星画像予測を実現する。
- Sat-JEPA-Diffは，自己教師あり学習と拡散モデルを組み合わせることで，構造予測の精度を向上させている。
- GSSIMスコア0.8984，FIDスコア0.1475を達成し，既存の決定論的ベースラインモデルを大きく上回る性能を示した。
- 特に，鮮明な境界の表現において優れており，地理空間特徴の識別能力を高めている。
Link: https://arxiv.org/abs/2603.13943
DCP-CLIP：二重相互作用によるオープンボキャブラリ意味セグメンテーションのための粗-詳細フレームワーク [cs.RO, cs.NI, cs.DC, cs.OS, cs.PF, cs.CL, cs.CV]目的：オープンボキャブラリ意味セグメンテーションにおける精度と効率の向上
- 画像とテキストの理解に基づく高度な画像解析が求められており，その重要性は増している。
- 既存手法では，テキストと画像の間のコミュニケーション不足と，計算コストの高さが課題となっていた。
- 動的なカテゴリ関連テキスト特徴の構築と二重相互作用モデルにより，これらの課題の解決を目指す。
- 提案手法DCP-CLIPは，CLIPのオープンボキャブラリ認識能力を活用し，画像内容に即したカテゴリを特定する。
- 粗いセグメンテーションの後，空間情報を活用して詳細なセグメンテーションを行い，高精度化を実現した。
- 複数のベンチマークにおいて，既存手法を上回る精度と効率を示すことが確認された。
Link: https://arxiv.org/abs/2603.13951
LLM誘導による強化学習を用いた音声視覚音声強調 [cs.SD, cs.AI, eess.AS]目的：音声視覚音声強調における強化学習フレームワーク
- 音声強調は，様々な環境下での音声通信の品質向上に不可欠である。
- 従来の評価指標は，知覚品質との相関が低く，最適化の解釈が困難である。
- 知覚に即した評価指標に基づき，音声品質の向上を目指す。
- 大規模言語モデル(LLM)による音声記述を活用し，強化学習の報酬関数を定義した。
- 提案手法は，従来の教師あり学習やDNSMOSベースの強化学習よりも，客観評価及び主観評価で優れた性能を示した。
- LLMによるフィードバックは，音声品質の改善を詳細に記述する点で，従来の指標よりも有効である。
Link: https://arxiv.org/abs/2603.13952
拡散モデルに基づくデータセット蒸留における分布の集約の打破 [eess.SY, cs.SY, cs.CV]目的：データセット蒸留を通じた，大規模な実データセットの学習効果を近似するコンパクトなデータセットの合成
- 深層学習の計算コスト増大に対し，効率的な解決策が求められているため。
- 拡散モデルは生成性能が高いが，識別性能を最適化していないため。
- 高密度領域への集中と，分類に重要な境界サンプルの不足を解消する。
- 提案手法は，蒸留されたデータセットの識別品質と汎化性能を大幅に向上させる。
- Inversion-Matchingにより，ノイズ除去軌跡を反転と整合させ，分布の多様性を高める。
- Selective Subgroup Sampling(S^3)は，代表性と識別性の高いサブセットを選択し，クラス間分離性を向上させる。
Link: https://arxiv.org/abs/2603.13960
水中における顕著インスタンスセグメンテーションのための光度ガウス混合モデル (USIS-PGM) [cs.CV]目的：水中における顕著インスタンスのセグメンテーション
- 海洋ロボットシステムにおいて，水中環境の視覚的理解に不可欠な技術である。
- 水中画像の光の減衰や分散により，セグメンテーションの精度が低下しやすい。
- 水中画像の劣化問題に対応し，セグメンテーション精度とインスタンス識別能力の向上を目指す。
- 提案手法USIS-PGMは，周波数に着目したモジュールと動的な重み付けモジュールにより，境界情報の強調と特徴量の再重み付けを行う。
- Transformerベースのインスタンス活性化モジュールを組み込み，顕著なインスタンス間の識別性能を向上させている。
- 光度ガウス混合モデルを用いた多段階のガウスヒートマップを用いて，セグメンテーションの局所化精度とマスクの構造的な一貫性を高めている。
Link: https://arxiv.org/abs/2603.13961
VID-AD：視覚的妨害下における画像レベルの論理的異常検知のためのデータセット [cs.CV]目的：視覚的妨害下における論理的異常検知のためのデータセット
- 産業検査において，視覚的な変化は品質管理の重要な課題であり，異常検知の精度向上は不可欠である。
- 既存のベンチマークは，論理状態を固定しつつ視覚的妨害を変化させる制御された環境を提供していないという課題がある。
- 本研究は，視覚的妨害下における論理的異常検知のための，制御されたデータセットを提供し，その有効性を検証する。
- VID-ADデータセットは，10の製造シナリオと5つの撮影条件を含む，50のワンクラスタスクと10,395枚の画像で構成される。
- 提案手法は，正常画像のテキスト記述に基づいた言語ベースの異常検知フレームワークであり，コントラスティブ学習を利用する。
- 実験結果から，提案手法は既存手法と比較して一貫した性能向上を示しており，論理的属性の学習が有効であることが示唆される。
Link: https://arxiv.org/abs/2603.13964
統計的形状モデルを活用した注釈付きトレーニングデータ効率的生成：肝臓ランドマーク分割への応用 [cs.CV, eess.IV]目的：肝臓ランドマーク分割のためのトレーニングデータ生成手法
- 医療介入支援において，画像間の正確な登録は不可欠であり，ランドマーク分割はその重要な第一歩である。
- 深層学習はランドマーク分割に有効だが，大量の注釈付きデータセットを人手で作成する必要があるという課題がある。
- 統計的形状モデルを用いて，一度の手動ラベリングで大規模なトレーニングデータセットを生成し，注釈作業の負担を軽減すること。
- 統計的形状モデルにより8,800個の肝臓形状データを生成し，深層学習ネットワークのトレーニングに活用した。
- 生成されたデータセットを用いて学習したネットワークは，未学習の合成データに対して平均IoU 91.4%の性能を示した。
- 臨床データへの適用においても良好な結果が得られ，提案手法の汎用性を示唆している。
Link: https://arxiv.org/abs/2603.13969
視覚的プライバシー保護とマルチモーダル大規模言語モデル [cs.CV]目的：視覚的プライバシー保護のためのフレームワーク
- マルチモーダル大規模言語モデルの普及に伴い，視覚データのプライバシー保護は重要性を増している。
- クラウドサービス利用時の画像・動画送信によるプライバシーリスクが懸念されるが，対策は十分ではない。
- ブラックボックスな大規模言語モデル環境下で，プライバシーと性能のトレードオフを最適化する。
- 提案手法は，様々なベンチマークにおいて，視覚的プライバシー保護とモデル性能のバランスに優れていることが示された。
- パレート最適性に基づく学習目的の設計と，履歴情報を活用した最適化により，高い効果を実現している。
- 本研究は，ブラックボックスな大規模言語モデルにおけるプライバシー保護の新たな方向性を示す。
Link: https://arxiv.org/abs/2603.13978
VAD4Space：惑星表面画像の異常検知 [cs.CV, cs.AI]目的：惑星探査における自動発見のための視覚異常検知の有効性
- 惑星探査では，大量の画像データを効率的に処理する必要があるため，自動化技術が不可欠である。
- 教師あり学習は，ラベル付きデータの不足や未知の異常現象への対応が困難である。
- 限られた計算資源下でも機能する，惑星表面画像の異常を効率的に検知する手法を確立する。
- 視覚異常検知（VAD）手法は，惑星表面の珍しい現象を効果的に識別できることが示された。
- 特に，計算効率に優れた手法は，限られた資源環境下での搭載に適していることが確認された。
- この研究は，惑星科学に基づいた実用的なベンチマークを確立し，新たな地質プロセスの発見に貢献する可能性を示唆する。
Link: https://arxiv.org/abs/2603.13993
自己教師ありVision Transformerにおける人間らしい物体グルーピング [cs.CV, cs.AI, q-bio.NC]目的：自己教師あり学習によるVision Transformerにおける人間らしい物体認識の構造
- 視覚モデルは多様なタスクで高い性能を示すが，人間とどのように一致するかは不明である。
- 既存モデルと人間の物体認識とのずれが課題となっている。
- モデルの物体構造が人間の知覚と一致するかどうかを検証する。
- モデルの世代が進むにつれて，人間の反応時間予測の精度が向上した。
- DINOを用いたTransformerモデルが最も高い性能を示した。
- 物体中心的な構造の強さが，人間のセグメンテーション行動をより正確に予測する。
Link: https://arxiv.org/abs/2603.13994
PhyGaP：偏光手がかりを用いた物理的根拠に基づいたガウススプラッティング [cs.CV]目的：反射特性の精密な分解と，再照明の実現
- 3Dシーンの高品質な再現は，コンピュータビジョンやグラフィックスの重要な課題である。
- 既存手法では，アルベドや反射率といった物理的属性の正確な再構成が困難である。
- 偏光情報を活用することで，より物理的に正確な3Dモデルの再構成を目指す。
- PhyGaPは，RGBベースの手法と比較して，PSNRが約2dB，コサイン距離が45.7%改善された。
- 偏光情報が不完全な環境下でも，優れた性能を示すことが確認された。
- 逆レンダリングおよび再照明能力において，最先端の結果を達成した。
Link: https://arxiv.org/abs/2603.14001
LightBeam: 音声神経プロテーゼのための正確かつメモリ効率の良いCTCデコーダ [cs.HC, cs.SD]目的：音声神経プロテーゼにおける，正確かつメモリ効率の良いCTCデコーダ
- 発話障害患者へのコミュニケーション回復は重要であり，脳活動からの直接的な音声デコードが期待されている。
- 既存のWFSTベースCTCデコーダは，320GBものメモリを必要とし，研究者や患者へのアクセスを制限している。
- メモリ使用量を削減しつつ，最先端の性能を実現する新しいCTCデコーダの開発。
- LightBeamはWFSTを使用せず，約10GBのメモリで動作する。
- Brain-to-Text '24と'25の両ベンチマークで最先端の性能を達成した。
- 遅延融合によるLLMの統合により，大規模なN-gram LMの必要性をなくした。
Link: https://arxiv.org/abs/2603.14002
U-Face：部分空間学習による効率的かつ汎用的な教師なし顔属性編集フレームワーク [cs.CV, cs.AI]目的：教師なし顔属性編集のための効率的かつ汎用的なフレームワーク
- 顔属性編集は，デジタルエンターテインメントやアバター作成などに応用され，その重要性が増している。
- 既存手法では，特定の属性を操作する際に他の属性に意図しない影響が生じ，制御が難しい。
- 本研究は，属性間の絡み合いを解消し，よりきめ細かい制御を可能にすることを目的とする。
- 提案手法U-Faceは，潜在ベクトルを低次元のセマンティック部分空間で近似することで，効率的な属性編集を実現する。
- セマンティックベクトルに直交非負制約と属性境界ベクトルを導入し，潜在空間での属性の分離を改善した。
- AIDCアルゴリズムにより，制約下での最適化問題を効率的に解き，収束性を保証した。
Link: https://arxiv.org/abs/2603.14004
汎化性能の高いディープフェイク検出：実分布バイアス補正によるアプローチ [cs.CV]目的：ディープフェイク検出における汎化性能の向上
- ディープフェイク技術は急速に進化しており，その検出は社会的に重要な課題となっている。
- 既存手法は，限られたデータから未来の偽造パターンを予測することに難がある。
- 実データの持つ統計的な特性を利用し，未知の偽造に対する汎化性能を高めることを目指す。
- 提案手法RDBCは，実データの分布とガウス性という2つの特性を活用する。
- 実データ集団の分布推定と，分布に基づいた特徴量ホワイトニングを組み合わせることで，実データと偽データの識別を強化する。
- 実験結果から，RDBCは既存手法を上回り，高い検出性能と汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.14005
ドメイン汎化型人物再識別におけるマルチグレインな視覚言語アラインメント [cs.CV]目的：ドメイン汎化型人物再識別における性能向上
- 人物再識別は，監視カメラ等からの人物特定に不可欠であり，その精度向上が求められている。
- 既存手法では，未知のドメインへの汎化性能が課題であり，特に視覚情報のみでは限界がある。
- 視覚言語モデルを活用し，人物の各部位に注目することで，汎化性能の向上を目指す。
- 提案手法では，言語モデルに複数のグレイン（粒度）のプロンプトを導入し，視覚情報とのアラインメントを強化している。
- 適応的にマスクするマルチヘッド自己注意機構により，人物の特定部位の特徴を正確に抽出することを可能にした。
- 実験結果から，提案手法が既存手法を上回り，高い汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.14012
アウマン-SHAP：機械学習における反実仮想的相互作用の説明の幾何学 [cs.LG, cs.GT]目的：機械学習における反実仮想的推移の説明の幾何学的枠組み
- 機械学習モデルの説明可能性は，信頼性と透明性を高める上で重要である。
- 既存の説明手法では，特徴量間の複雑な相互作用を捉えるのが難しい。
- 反実仮想的な推移における特徴量の寄与を正確に評価し，説明可能性を向上させる。
- アウマン-SHAPは，反実仮想的な推移を特徴量間の相互作用を考慮して分解する。
- アウマン-LESは，標準的なShapley値よりもロバストで優れた説明を提供する。
- Shapley値とLES値は，統合勾配法に収束することが示された。
Link: https://arxiv.org/abs/2603.14014
EI-Part: 分解による補完と内包による洗練 [cs.CV, cs.AI]目的：3D形状のパーツレベル生成
- ゲーム，映画制作，産業デザインなど，様々な分野で3D形状のパーツレベル生成が不可欠である。
- 既存手法では，構造的な一貫性，幾何学的な妥当性，精度，効率に課題があり，良好なパーツ生成が困難である。
- 構造の一貫性と幾何学的詳細を保ちつつ，高品質な3Dパーツ生成を実現することを目的とする。
- EI-Partは，パーツの補完に分解状態，幾何学的な洗練に内包状態を用いることで，高精度なパーツ生成を可能にする。
- 自己注意機構により，パーツ間の構造的な一貫性を維持し，効果的な情報伝達と特徴融合を実現する。
- 複数のベンチマークテストにおいて，EI-Partは最先端の性能を示し，意味的に妥当で構造的に整合性のとれたパーツを効率的に生成できる。
Link: https://arxiv.org/abs/2603.14021
物体中心シーン表現における階層構造に対する双曲的視点 [cs.CV]目的：物体中心学習におけるシーンの階層構造の表現
- 視覚シーン理解において，物体間の関係性を捉えることは重要である。
- 従来のユークリッド空間では，視覚シーンの自然な階層構造を捉えることが困難である。
- 双曲空間への投影により，潜在的な階層構造を可視化し，表現能力向上を目指す。
- 双曲空間への投影により，粗いスロットがより深い層に，細かいスロットが浅い層に配置される一貫した階層構造が明らかになった。
- 最適な曲率を調整することで，親スロットの検索性能を向上させることが可能となった。
- スロット表現は潜在的な階層構造を既に含んでおり，双曲幾何学によってそれが明らかになることが示唆された。
Link: https://arxiv.org/abs/2603.14022
乱流下におけるイベントベース光場による高速撮像 [cs.CV]目的：強大気乱れ下における高速移動する非剛体オブジェクトの撮像システム
- 大気乱れは，光学観測や画像認識において画質劣化の主要因である。
- 従来のカメラでは，高速移動物体と大気乱れの識別が困難である。
- イベントベース光場カメラを用いた，高速物体の正確な撮像を可能にすること。
- イベントベース光場カメラは，複数視点からの情報を活用し，高速物体の動きと大気乱れを区別する。
- 実験結果から，本システムは強大気乱れ下でも，最大16,000ピクセル/秒で移動する物体の撮像に成功した。
- イベントベース光場カメラは，従来のカメラでは困難だった高速かつ正確な撮像を実現する。
Link: https://arxiv.org/abs/2603.14023
Cアームイメージングにおける内在的耐性：外在的再最適化による3D再構成精度の維持 [cs.CV]目的：Cアームイメージングにおける3D再構成精度の維持
- Cアームイメージングは，医療現場で広く利用されており，正確な3D再構成が不可欠である。
- Cアームの正確な3D再構成は，内在的較正に依存するが，臨床現場での正確な較正は困難である。
- 内在的較正誤差を補正するために外在パラメータを再最適化し，3D再構成の精度を維持することを目指す。
- 焦点距離の誤差が500ピクセル（約100mm）まででも，平均3D再構成誤差は0.2mm未満に抑えられた。
- 焦点距離の誤差が700ピクセルに拡大しても，誤差はわずかに0.3mm程度に増加した。
- 主点シフトが200ピクセルまでの場合，外在パラメータを再最適化することで無視できる再構成誤差となり，再投影誤差も0.5ピクセル未満の増加に留まった。
Link: https://arxiv.org/abs/2603.14031
何がリアルと見なされるか：音声復元と声質変換はディープフェイク検出に新たな課題をもたらす [cs.SD, cs.AI, cs.LG, eess.AS]目的：ディープフェイク検出における新たな課題
- 音声認証技術はセキュリティにおいて重要であり，その堅牢性が求められている。
- 既存のシステムは，音声の加工による分布の変化を偽装と誤認しやすい。
- 音声変換や復元のような無害な加工が検出を妨げる問題を解決する。
- 音声変換と復元は，話者性を維持しつつも分布外と判断される傾向があることが示された。
- 多クラス問題として再構築することで，無害な変化に対するロバスト性が向上し，偽装検出精度も維持された。
- 既存の二値分類システムは，音声の真実性ではなく，生の音声分布をモデル化している可能性が示唆された。
Link: https://arxiv.org/abs/2603.14033
英語の核アクセント音の区別に対するニューラル音声コーデックの探索 [cs.SI, stat.AP, cs.SD, cs.CL]目的：英語の核アクセント音の区別がニューラル音声コーデックに反映されているかの検証
- 音声対話システムの性能向上には，効率的な音声表現が不可欠である。
- 従来の音声表現は計算コストが高く，リアルタイム処理が困難であった。
- ニューラル音声コーデックによる低次元表現が，音響特徴の保持に十分か検証する。
- ニューラル音声コーデックの潜在表現を用いて，8種類の核アクセント音を識別する線形プローブを作成した。
- その結果，偶然よりも高い精度で区別が可能であり，特に上昇と下降のアクセント音の区別では高い精度が得られた。
- しかし，5つのアクセント音クラスターの識別精度は人間の性能に及ばず，コーデックの限界を示唆している。
Link: https://arxiv.org/abs/2603.14035
EyeWorld：眼の状態と動態の生成モデル [cs.CV]目的：眼の状態と動態の生成モデル
- 眼科医療においては，微細な病変の解釈が重要であり，画像診断技術の進歩が求められている。
- 既存の医療モデルは静的であり，画像の種類や取得条件の変化に弱いという課題がある。
- 多種多様な画像情報を統合し，安定した眼の状態をモデル化することで，より正確な診断と予測を目指す。
- EyeWorldは，様々な画像情報を統合し，眼の状態を安定的に捉える潜在空間を学習する。
- これにより，画像間の変換や品質改善，時間経過に伴う変化の予測が可能となる。
- 静的な表現学習から動的なモデル化への移行により，眼科医療における診断と予後予測の精度向上に貢献する。
Link: https://arxiv.org/abs/2603.14039
効率的な長尺ビデオ推論のためのマルチエージェント知覚・行動連携 [cs.CV, cs.MA]目的：長尺ビデオにおける効率的な推論
- ビデオ理解は，監視，ロボティクス，コンテンツ分析など，多様な応用分野で重要である。
- 従来のモデルは，長尺ビデオの処理に高い計算コストがかかり，推論が困難である。
- マルチエージェント連携による効率的な探索と推論で，この課題を解決する。
- 提案手法A4VLは，マルチエージェントによる知覚・行動探索ループを通じて，長尺ビデオの効率的な推論を実現する。
- A4VLは，既存のVLMと比較して，5つの主要なVideoQAベンチマークで高い性能を示す。
- また，A4VLは，推論遅延を大幅に削減することに成功した。
Link: https://arxiv.org/abs/2603.14052
拡散モデルにおける時間的混合精度 [eess.SY, cs.SY, cs.CV, cs.LG]目的：拡散モデルの時間的混合精度フレームワーク
- 画像生成において拡散モデルが主流であるため，その効率化は重要である。
- 従来の量子化では，全ステップで固定精度であるため，最適化の余地があった。
- 時間ステップごとに精度を最適化し，推論速度と画質のバランスを改善すること。
- TMPDiffは，様々な拡散モデルとデータセットで，均一な精度ベースラインを上回る性能を示した。
- 知覚的品質が10〜20％向上し，推論速度も向上している。
- FLUX.1-devデータセットでは，16ビット推論の2.5倍の速度で，フル精度モデルに対するSSIMが90%に達した。
Link: https://arxiv.org/abs/2603.14062
MotionCFG：確率的概念摂動による運動ダイナミクスの強化 [cs.CV, cs.AI, cs.LG]目的：テキストから動画への生成における運動ダイナミクス改善
- 動画生成技術は発展しているが，高品質で自然な運動表現が課題となっている。
- 従来のCFGは負のプロンプトに依存するが，意味的なバイアスやオブジェクトの歪みを生じやすい。
- 概念摂動による対照学習で，運動ダイナミクスを改善し，コンテンツのずれを抑制する。
- MotionCFGは，概念埋め込みにガウスノイズを注入することで，多様な運動のバリエーションを学習する。
- この手法は，初期のノイズ除去段階に介入することで，計算コストを抑えつつ運動ダイナミクスを向上させる。
- 複雑な概念（オブジェクトの正確な数など）の制御にも有効であり，テキストガイダンスだけでは困難な調整を可能にする。
Link: https://arxiv.org/abs/2603.14073
衛星画像超解像のための自己教師あり不確か性推定 [cs.CV, cs.LG]目的：衛星画像超解像における不確か性推定手法
- 衛星画像は広範囲のモニタリングに不可欠であり，高解像度化技術の重要性は高い。
- 高品質な学習データペアの不足が，衛星画像超解像のボトルネックとなっている。
- 教師なしで不確か性を推定し，より信頼性の高い画像再構成を目指す。
- 提案手法は，高解像度データにアクセスすることなく，画像超解像における不確か性を推定可能。
- ベイズリスク最小化により，事後平均と分散が最適な推定値として得られることを示した。
- 合成SkySat L1Bデータセットでの評価により，教師あり手法と同等のキャリブレーションされた不確か性推定が実現された。
Link: https://arxiv.org/abs/2603.14074
SGR-OCC：ソフトゲーティングリフティングとセマンティック適応幾何学的洗練による単眼3D占有予測の進化 [cs.CV]目的：単眼動画ストリームからの3Dセマンティック占有予測の性能向上
- 具現化されたAIにおいて，高密度なシーンの幾何学とセマンティクスを理解することが不可欠であるため。
- 単眼推定の深度曖昧性により，オブジェクト境界で特徴量の拡散が発生しやすい。
- 初期段階での学習の不安定性を解消し，空間的な事前知識を保護することを目的とする。
- SGR-OCCは，Soft-Gating Feature Lifterによって深度不確実性を明示的にモデル化し，背景ノイズを抑制する。
- Dynamic Ray-Constrained Anchor Refinementモジュールは，効率的な1D深度補正により，物理的表面への準拠性を高める。
- Two-Phase Progressive Training Strategyにより，初期学習の不安定性を解消し，空間的事前知識を保護することで，高い性能を実現した。
Link: https://arxiv.org/abs/2603.14076
イベントデータストリームからの適応推論状態空間モデルによる眼特徴推定の向上 [cs.CV]目的：イベントベースデータストリームからの眼特徴抽出
- 省電力で効率的な眼追跡は，現実世界での応用において重要である。
- 眼球運動の変化によるイベント密度の急激な変化への対応が課題である。
- 眼球運動の特性に応じた特徴抽出モデルの動的な適応を可能にする。
- 提案手法である適応推論状態空間モデル（AISSM）は，最新モデルを上回る性能を示す。
- AISSMは，信号対雑音比とイベント密度に基づき，現在の情報と過去の情報の重みを動的に調整する。
- 動的確信度ネットワークと新たな学習手法により，学習効率も向上している。
Link: https://arxiv.org/abs/2603.14077
ドメイン特化型DINO事前学習による3D医療画像レジストレーションのための効果的な特徴学習 [cs.CV]目的：3D医療画像レジストレーションのための，ドメイン特化型DINO事前学習による特徴学習
- 臨床画像診断において，正確な縦断的評価，マルチモーダルデータ融合，画像誘導下治療に不可欠である。
- 撮像装置間のばらつきや複雑な解剖学的変形により，強度ベースの手法は苦戦することがある。
- セマンティックな情報を活用した，ロバストな3D画像レジストレーションを実現すること。
- ドメイン特化型事前学習は，自然画像で学習したDINOv2モデルを上回り，推論時の計算コストも低い。
- ドメイン外評価においても既存のレジストレーションモデルを凌駕し，タスクに依存しない医療画像特化型事前学習の価値を示す。
- この研究は，3D医療画像レジストレーションにおける，ロバストかつ効率的な特徴表現の学習に貢献する。
Link: https://arxiv.org/abs/2603.14086
空間・意味的ガイド付き超解像による知覚歪みトレードオフの再検討 [cs.CL, cs.CV]目的：画像超解像における知覚品質と歪みのバランス改善
- 画像処理分野において，高画質の復元は重要な課題であり，様々な応用が期待される。
- 既存手法では，知覚品質と歪みの間にはトレードオフが存在し，両立が困難であった。
- 拡散モデルの生成能力を活用しつつ，忠実性を損なわない超解像技術の開発を目指す。
- 提案手法SpaSemSRは，空間的・意味的ガイドを組み合わせることで，歪みと幻覚を抑制し，リアリティと忠実性を両立した。
- 空間的根拠を持つテキストガイダンスにより，視覚構造とテキスト構造の整合性を高め，歪みを低減する。
- 意味的強調された視覚ガイダンスは，マルチエンコーダ設計と意味的劣化制約により，劣悪な画像でも知覚的なリアリズムを向上させる。
Link: https://arxiv.org/abs/2603.14112
反復的な証拠洗練による視覚的推論の改善 [cs.CE, cs.CV]目的：視覚的推論の性能向上
- 画像と言語を組み合わせた推論は，AIの重要な課題であり，その応用範囲は広い。
- 既存手法では，推論時に画像の一部を再処理する必要があり，計算コストが高い。
- 内部表現を用いて視覚的証拠を再利用し，効率的な推論を実現すること。
- SIEVEは，内部表現を通じて視覚的証拠を再利用する自己再訪フレームワークである。
- この手法により，追加の画像処理なしに，関連する視覚的情報に基づいて推論が可能となる。
- 複数のベンチマークテストの結果，SIEVEは平均で約8％の性能向上を示した。
Link: https://arxiv.org/abs/2603.14117
低磁場MRIにおけるk空間アンダーサンプリングと分布外汎化による画像品質向上 [cs.CV]目的：低磁場MRIの画像品質向上
- 低磁場MRIは，診断画像の低コストなアクセスを提供するが，画質や撮影時間の課題がある。
- 従来の画質向上手法は空間領域での後処理に依存し，k空間のアンダーサンプリングによる高速化との連携が弱い。
- 分布外データに対するモデルの性能評価が不十分であり，実用上の汎化性能を向上させる必要がある。
- 提案手法は，アンダーサンプリングされた低磁場MRIのk空間から直接高磁場相当の画像を再構成し，画質向上を実現した。
- k空間デュアルチャネルU-Netとアンサンブル戦略により，欠損周波数成分の復元と不確実性マップの生成を同時に行った。
- 実験結果から，提案手法は既存手法と比較して優れた性能を示し，分布外データを用いた評価においても高磁場MRI相当の画質を達成した。
Link: https://arxiv.org/abs/2603.14120
k空間アンダーサンプリングを用いた低磁場磁気共鳴画像強調 [cs.CV]目的：低磁場磁気共鳴画像の画質向上
- 低磁場MRIは，資源が限られた環境での低コストな医療画像診断を可能とする。
- 画質の低下と長いスキャン時間が，低磁場MRIの普及を妨げる要因となっている。
- アンダーサンプリングされたk空間データから直接，画質を向上させる手法を開発する。
- 提案手法は，k空間上で直接超解像を行う深層学習フレームワークであり，優れた画質を達成した。
- アンダーサンプリングされたk空間からの再構成は，フルk空間取得と同等の画質を実現し，スキャン時間の大幅な短縮を可能とした。
- 画像再構成と超解像処理を統合することで，従来の空間領域処理と比較して，より高い精度を達成した。
Link: https://arxiv.org/abs/2603.14125
粗木端面の局所フーリエスペクトル分析による心材推定の実装と考察 [cs.CV]目的：粗木端面の心材推定手法の実装と検証
- 木材資源の有効活用において，木材の品質評価は重要である。
- 木端面の心材位置の正確な特定は困難であり，精度向上が求められている。
- 局所フーリエスペクトル分析による心材推定の実現と性能評価。
- Rudolf SchramlとAndreas UhlのアルゴリズムをPythonで実装した。
- 2つのデータセットを用いてアルゴリズムの検証を行った。
Link: https://arxiv.org/abs/2603.14127
拡散報酬蒸留による拡散強化学習 [cs.CV, cs.AI, cs.LG]目的：拡散モデルを用いた強化学習の安定化と性能向上
- 拡散モデルは高精度な生成性能を持つが，詳細な指示への追従性などに課題がある。
- 拡散モデルの強化学習は不安定になりやすく，勾配の分散が大きいなどの問題がある。
- 報酬関数を効率的に最適化し，生成品質を向上させることを目指す。
- 提案手法であるCRDは，正則化された報酬最大化に基づき，拡散モデルの微調整を効率的に行う。
- プロンプト内中心化により，正規化定数が相殺され，安定した報酬マッチングを可能にする。
- 実験により，CRDが高速な収束と報酬ハッキングの抑制を実現し，高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2603.14128
DualSwinFusionSeg：マルチスケール融合とUNet++を用いた二重Swin Transformerによる火星地すべりセグメンテーション [cs.CV, cs.LG]目的：火星における地すべりのセグメンテーション
- 惑星地質学，ハザード評価，将来のロボット探査において，火星の地形理解は不可欠である。
- 火星の画像データは，観測モダリティの異質性やラベル付きサンプル数の少なさから，地すべりの検出が困難である。
- 異なる解像度と統計的特性を持つ複数のモダリティを統合し，限られたデータでのセグメンテーション精度向上を目指す。
- 提案手法DualSwinFusionSegは，モダリティ固有の特徴抽出とマルチスケールクロスモダリティ融合を分離することで，セグメンテーション性能を向上させた。
- 実験の結果，モダリティ固有のエンコーダーとシンプルな連結ベースの融合が，限られた学習データ下でセグメンテーション精度を向上させることを確認した。
- 開発ベンチマークで0.867 mIoU，テストセットで0.783 mIoUを達成し，マルチモーダルな惑星表面セグメンテーションにおいて高い性能を示した。
Link: https://arxiv.org/abs/2603.14132
確率制約付き相関均衡：強健な非協力協調のための [cs.GT, cs.MA]目的：不確実性下における協調メカニズムの最適化
- 経済学やゲーム理論において，効率的な資源配分や社会全体の利益向上は重要な課題である。
- エージェントのコスト構造の不確実性は，協調メカニズムの有効性を損ない，予期せぬ行動変容を引き起こす可能性がある。
- コスト不確実性を考慮し，一定の信頼性レベルでインセンティブ整合性を保証する協調メカニズムを提案する。
- 提案手法は，不確実性下でも協調性能を維持し，理論的な洞察と整合性のある結果を示す。
- 不確実性の敏感度分析により，個々のインセンティブ制約における不確実性が協調結果に与える影響を定量化できる。
- 信頼水準の向上は必ずしも有益ではなく，強健性とシステム効率の間にはトレードオフが存在することが明らかになった。
Link: https://arxiv.org/abs/2603.14141
MMOU：長編で複雑な現実世界の動画に対する大規模マルチタスク全方位理解と推論ベンチマーク [cs.CL, cs.CV]目的：長編かつ複雑な現実世界の動画における全方位（視覚，聴覚，テキスト）モダリティの統合的な理解と推論能力の評価
- マルチモーダルLLMは，視覚と聴覚の理解において進歩している。しかし，現実世界の複雑な動画に対する理解は未開拓である。
- 動画内の視覚，聴覚，テキスト情報を統合し，時間軸に沿って推論する能力が十分でない。
- 長編動画における全方位モダリティ理解の課題を明らかにし，モデルの限界を特定すること。
- MMOUベンチマークを構築し，15,000問と9,000件以上の動画を用いて，マルチモーダルモデルの性能を評価した。
- 最先端のクローズドソースモデルでも精度は64.2%にとどまり，オープンソースモデルは46.8%に留まった。長編動画理解の課題が浮き彫りになった。
- 詳細な分析により，モデルの具体的な弱点と失敗パターンを明らかにし，今後の改善に向けた知見を提供した。
Link: https://arxiv.org/abs/2603.14145
CIPHER：ペアワイズフレーム選択と高効率再構成によるカルバート点検 [cs.CV]目的：カルバート様構造物の3次元再構成パイプライン
- 洪水管理の安全性と効率性を高める上で，カルバート等のインフラ点検は重要である。
- 視覚的に反復的な環境下では，正確な3次元再構成が困難となる場合がある。
- カルバート点検の効率化と人的介入の最小化を目指す。
- 本手法は，多様な視点からのフレームペアを選択し，正確な3次元再構成と深度マップを生成する。
- RGB画像に基づき，リアルタイムで外観，形状，意味情報を推定する再構成モデルを提案する。
- 実験により，カルバート点検における効率向上と精度向上が確認された。
Link: https://arxiv.org/abs/2603.14150
PRISM：科学的画像の複合的・制御可能な復元 [cs.CV]目的：科学的画像の複合的な劣化に対する復元手法
- 科学研究や環境モニタリングにおいて，画像の品質がデータ解析の精度に大きく影響する。
- 従来の復元手法では，複数の劣化を一度に処理できず，歪みや情報の損失が生じやすい。
- 複雑な劣化を同時に処理し，専門家が選択的に修正を加えられる柔軟な復元手法を開発する。
- PRISMは，複合的な劣化を考慮した教師あり学習と，潜在空間における表現の分離を促す目的関数を組み合わせている。
- これにより，重なり合った歪みの高精度な除去と，自然言語プロンプトによる的確な修正が可能となった。
- 顕微鏡，野生動物モニタリング，リモートセンシング，都市気象など様々なデータセットで，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.14151
SK-Adapter：ネイティブ3D生成のための骨格ベースの構造制御 [cs.CV]目的：ネイティブ3D生成における正確な構造制御の実現
- 3Dコンテンツ制作の効率化が求められており，生成モデルの重要性が増している。
- 既存の生成モデルでは，構造の正確な指定が困難であり，制御性に課題がある。
- 骨格情報を制御信号として用いることで，構造制御の精度向上を目指す。
- SK-Adapterは，骨格情報を学習可能なトークンに変換し，既存の3D生成モデルに組み込むことで，構造制御を実現する。
- 大規模データセットObjaverse-TMSを用いて実験を行い，構造制御のロバスト性と生成品質の維持を確認した。
- 既存手法と比較して，著しく性能が向上し，局所的な3D編集も可能になった。
Link: https://arxiv.org/abs/2603.14152