arXiv雑要約

画像・音声 - 2026/03/18 公開

vAccSOL：モバイルロボット向け効率的かつ透明なAIビジョンオフローディング [cs.RO, cs.CV]目的：モバイルロボットにおけるAIビジョンオフローディングの効率化と透明性の向上
- ロボットの利用拡大に伴い，視覚情報処理の重要性が増している。
- ロボットの計算資源とエネルギーには制約があり，高性能なビジョン処理が困難である。
- ヘテロな環境でAIビジョン処理を効率化し，ロボットの稼働時間を延長すること。
- vAccSOLは，SOLコンパイラとvAccel実行フレームワークを統合することで，ハードウェア最適化と柔軟な実行場所選択を実現した。
- 実機テストの結果，vAccSOLはPyTorchと同等以上の推論性能を発揮し，電力消費量を最大80%削減した。
- エッジオフローディングにより，ビジョンパイプラインのフレームレートを最大24倍に向上させ，バッテリー駆動ロボットの運用時間を延長した。
Link: https://arxiv.org/abs/2603.16685
Search2Motion: 注意と合意探索による学習不要なオブジェクトレベルの動作制御 [cs.CV]目的：画像から動画生成におけるオブジェクトレベルの動作編集
- 動画生成技術は，エンターテイメントやシミュレーションなど幅広い分野で重要性を増している。
- 既存手法は，軌跡やバウンディングボックスなどの情報が必要で，柔軟性に欠ける場合がある。
- ターゲットフレームに基づく制御により，シーンの安定性を保ちつつオブジェクトの移動を実現する。
- Search2Motionは，学習を必要とせず，オブジェクトレベルの動作編集を可能にする新しいフレームワークである。
- セマンティックに基づいたオブジェクト挿入と背景のインペインティングにより，信頼性の高いターゲットフレームの構築を実現した。
- 自己注意マップを活用したACE-Seed戦略は，モーションの忠実度を向上させ，解釈可能なフィードバックを提供する。
Link: https://arxiv.org/abs/2603.16711
音色VAEの潜在空間構造の評価：教師なし，記述子条件付き，知覚特徴条件付きモデルの比較研究 [cs.SD]目的：音色生成のためのVariational Autoencoder（VAE）における潜在空間構造の比較
- 音楽生成におけるVAEの重要性が高まっている。生成される音質の制御と解釈可能性が課題である。
- 従来の音色VAEでは，潜在空間の構造が不明確で，制御が困難であるという問題がある。
- 知覚特徴を用いた条件付けにより，潜在空間の構造を改善し，制御性と解釈可能性を高める。
- 知覚特徴による条件付けは，教師なしおよび記述子条件付きモデルと比較して，よりコンパクトで識別可能な潜在空間を実現する。
- 得られた潜在空間は，ピッチに依存せず，一貫性のある音色変化を可能にする。
- この研究は，one-hotセマンティック条件付けの限界を示し，音色潜在空間を評価するための方法論を提供する。
Link: https://arxiv.org/abs/2603.16713
IoT 기반リアルタイム生徒モニタリングを活用した感情認識による授業品質評価 [cs.CL, cs.CV]目的：授業の品質評価における感情認識の活用
- 大規模な教室運営において，生徒一人ひとりの学習状況把握は重要である。
- 教員の生徒への対応力には限界があり，きめ細やかな指導が困難となる場合がある。
- IoT技術を用いて生徒の感情をリアルタイムに把握し，授業改善に役立てる。
- 本システムは，最大50枚の顔を25FPSで検出し，授業中の生徒の感情状態を88%の精度で分類できる。
- 実証実験の結果，生徒，教員，保護者から授業の質向上に関する好意的なフィードバックが得られた。
- 本研究は，感情認識を用いた学習環境の構築と，検証のための「教室感情データセット」の提供により貢献する。
Link: https://arxiv.org/abs/2603.16719
不整合な視点からの世界再構築 [cs.CV]目的：不整合な視点からの3D世界再構築手法
- 近年，動画生成モデルの発展により，高品質な映像コンテンツの生成が可能になった。
- 動画生成モデルは，フレーム間の3D整合性が不十分であり，3D世界再構築の課題となっていた。
- 動画フレームの不整合を解消し，高品質な3D環境を生成することを目指している。
- 提案手法では，動画フレームを非剛体的に整列させ，一貫性のある座標系を構築することで，詳細な点群を生成する。
- 生成された点群を初期値として，新たな損失関数を用いた3D再構築を行い，高品質な3D環境を実現した。
- 実験により，提案手法が既存手法と比較して，より高品質な3Dシーンを生成することが示された。
Link: https://arxiv.org/abs/2603.16736
反事実の取得が視覚的インコンテキスト学習を改善する [cs.CV, cs.AI, cs.CL]目的：視覚的インコンテキスト学習における反事実的例の取得による性能向上
- 近年，画像と言語を組み合わせたモデルが多岐にわたるタスクで高い性能を示す。
- 既存の手法では，因果関係を正確に把握できず，表面的な相関関係に依存しやすい。
- 反事実的な例を取得することで，モデルに因果関係の推論を促し，よりロバストな学習を目指す。
- 提案手法CIRCLESは，属性を誘導した合成画像検索により，反事実的な例を積極的に取得する。
- 実験結果から，CIRCLESは既存手法と比較して，特に小規模モデルにおいて顕著な性能向上を示すことが確認された。
- 取得された例は多様性と因果情報の点で優れており，モデルがデモンストレーションをどのように活用しているかを示唆する。
Link: https://arxiv.org/abs/2603.16737
都市が自動車を教育するとき：インフラストラクチャからのラベルフリー3D知覚 [cs.CV]目的：インフラストラクチャを活用したラベルフリー3D知覚の実現
- 自動運転技術の発展には，高精度な3D知覚が不可欠である。多様な環境への対応が課題となっている。
- 大規模なデータ収集と手動アノテーションに依存しており，コストと労力がかかる。
- 都市に設置された路側ユニット(RSU)を利用し，ラベルフリーで3D知覚モデルを訓練する。
- RSUは固定された視点から繰り返し観測することで，局所的な3D検出器を学習し，その予測を車両に送信する。
- 送信された予測は，車両が単独で3D検出器を訓練するための擬似ラベルとして集約される。
- CARLA環境での実験で，CenterPointを用いたパイプラインは車両検出において82.3%のAPを達成した。
Link: https://arxiv.org/abs/2603.16742
半教師あり潜在的解絡拡散モデルによる織物パターン生成 [cs.CV]目的：織物パターンの生成
- ファッション業界におけるデザインの多様性や効率化に貢献する技術分野である。
- 既存の画像変換モデルでは，織物の複雑なパターンと衣服の歪みを区別できず，詳細な再現が困難である。
- 衣服画像から忠実で高精細な織物パターンを生成するための新たな手法を開発する。
- 提案手法SLDDM-TPGは，衣服表現における特徴の混同を解消し，多次元の特徴空間を構築する。
- 半教師あり潜在的拡散モデルと，微細なアライメント戦略を組み合わせることで，忠実度の高い生成を実現する。
- CTP-HDデータセットにおいてFIDを4.1削減し，SSIMを最大0.116向上させ，VITON-HDデータセットでも良好な汎化性能を示す。
Link: https://arxiv.org/abs/2603.16747
多様な選択肢の中で共通点を見出す [cs.HC, cs.ET, cs.RO, cs.GT, cs.AI, cs.LG]目的：多様な人口の選好において共通点を見出す文の選択
- 社会の多様化が進む中で，多数の意見を考慮した合意形成の重要性が増している。
- 無限の選択肢が存在する場合，従来の社会選択理論では共通点を見出すことが困難である。
- 無限の選択肢と大規模な集団を対象とした，比例的拒否権コアに基づく共通点発見アルゴリズムを開発する。
- 提案手法は，未知の分布に対するクエリアクセスのみを用いて，比例的拒否権コアに含まれる文を高い確率で生成する。
- 合成データセットによる実験の結果，提案手法は比例的拒否権コアに含まれる文を生成する信頼性が高いことが確認された。
- 既存の社会選択手法やLLMベース手法と比較し，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2603.16751
SuCor：パラメータフリーかつ自己正則化された最適輸送によるサセプティビリティ歪み補正 [cs.CV]目的：エコープラナーイメージングにおけるサセプティビリティ誘発幾何学的歪みの補正
- MRI画像における空間歪みは，正確な脳機能解析を行う上で重要な課題である。
- 従来の歪み補正手法は，パラメータ調整が煩雑であったり，精度に限界がある場合がある。
- サセプティビリティの影響を考慮した，自動的かつ高精度な歪み補正手法を開発すること。
- SuCorは，位相符号化方向の歪み場を，反対極性の強度プロファイル間のWasserstein-2重心変位としてモデル化した。
- スペクトル領域での曲率エネルギーペナルティによる正則化は，Morozovの不一致原理を用いて自動的に強度を決定する。
- HCPデータセットにおいて，T1画像との平均ボリューム類似度情報量はFSL TOPUPよりも高く，処理時間も短い。
Link: https://arxiv.org/abs/2603.16758
マスクされた表情における真の感情認識のためのデュアルストリーム独立性デカップリング [cs.CV]目的：マスクされた表情から真の感情を認識すること
- 感情認識は，人間関係やコミュニケーションにおいて重要な役割を果たすため，その精度向上は不可欠である。
- マスクなどによる表情の隠蔽は，感情認識の精度を著しく低下させるという課題がある。
- 安定した隠蔽状態にある表情から，真の感情を正確に認識するための手法を確立すること。
- 本研究では，真の感情が隠蔽された表情のピークフレームに着目する新たなパラダイムを提案した。
- 真の感情と隠蔽された表情の特徴を分離するデュアルストリーム独立性デカップリングフレームワークを導入した。
- 提案手法は，真の感情認識の性能向上に貢献することが実験によって示された。
Link: https://arxiv.org/abs/2603.16760
GDPO-SR：ワンステップ生成型画像超解像のためのグループ直接選好最適化 [eess.SY, cs.SY, eess.SP, cs.CV]目的：ワンステップ生成型画像超解像モデルの性能向上
- 画像超解像は，低解像度画像を高品質に復元する技術であり，様々な応用分野で重要である。
- 既存の強化学習法は多段階処理に集中しており，ワンステップ処理は確率的な多様性が限られるため未開拓である。
- 本研究は，ワンステップ生成型画像超解像における強化学習の有効性を高めることを目指す。
- 提案手法GDPOは，ノイズを考慮したワンステップ拡散モデルと，グループ相対的優位性を評価するGDPO戦略を組み合わせる。
- GDPOは，DPOの原理をGRPOに統合し，オンライン生成された各サンプルのグループ相対的優位性を計算する。
- 滑らかさとテクスチャ領域の統計情報に基づいた属性認識報酬関数により，サンプルのスコアを動的に評価する。
Link: https://arxiv.org/abs/2603.16769
IOSVLM：口腔内スキャンを用いた統一的な歯科診断のための3Dビジョン言語モデル [cs.CV, cs.AI]目的：口腔内スキャンからの統一的な多疾患診断
- 歯科医療において，豊富な幾何学的証拠を提供する口腔内スキャンの利用が拡大しており，臨床記録とコミュニケーションのための統一的な診断が求められている。
- 既存研究では，2D画像や口腔内スキャンからレンダリングされたマルチビュー画像を用いて歯科VLモデルが提案されているものの，ネイティブな3D幾何学構造を十分に活用できていない。
- 本研究は，複雑な口腔内スキャン形状や疾患の共存，データ不足といった課題を克服し，直接的な3D幾何学構造のモデリングによる診断精度の向上を目指す。
- 提案手法IOSVLMは，点群としてスキャンを表現し，3Dエンコーダー，プロジェクター，LLMのデザインを採用することで，統一的な診断と生成型VQAを実現した。
- 大規模な口腔内スキャン診断VQAデータセットIOSVQA（19,002症例，249,055ペア）を構築し，23種類の口腔疾患と多様なスキャンタイプに対応した。
- 幾何学構造から色情報を推定するプロキシを用いて，3D事前学習データとの分布ギャップを解消し，ロバスト性を高めるための2段階カリキュラム学習戦略を導入した。
Link: https://arxiv.org/abs/2603.16781
V-Co：コ・デノイジングによる視覚表現アラインメントの精査 [cs.CV, cs.AI]目的：視覚表現アラインメントの有効成分の特定
- 画像生成技術の発展は，様々な応用分野において重要な役割を担っている。
- ピクセル空間拡散モデルは，事前学習済みのオートエンコーダを必要としないが，十分なセマンティックな監督信号を得ることが課題である。
- 既存のコ・デノイジング手法における設計選択の重要度を明確にし，効果的な手法を確立すること。
- V-Coは，統一されたJiTベースのフレームワークを用いて，視覚的コ・デノイジングの有効成分を体系的に研究した。
- その結果，特徴量固有の計算を維持しつつクロスストリーム間の柔軟な相互作用を可能にするデュアルストリームアーキテクチャが重要であることが示された。
- ImageNet-256での実験により，V-Coは既存のピクセル空間拡散モデルや他の手法と比較して，より少ない学習エポックで優れた性能を発揮することが確認された。
Link: https://arxiv.org/abs/2603.16792
プラグアンドプレイ拡散サンプリングに対する適応モーメントの驚くべき有効性 [cs.LG, cs.CV]目的：拡散サンプリングにおけるノイズ低減と精度向上
- 拡散モデルは高品質なデータ生成を可能にするが，計算コストが高い。
- 尤度スコアの近似に伴うノイズがサンプリングのダイナミクスを不安定にする。
- 適応モーメント推定によるノイズ軽減で，サンプリング精度を向上させる。
- 提案手法は画像修復とクラス条件付き生成タスクにおいて最先端の結果を達成した。
- 複雑な手法と比較して計算コストが低く，高い性能を維持する。
- 合成データと実データを用いた実験で，適応モーメントの有効性が確認された。
Link: https://arxiv.org/abs/2603.16797
顕微鏡画像のデジタルアクセシビリティのための3Dプリントリソグラフィの，低データ・低コスト・オープンソースワークフロー [cs.GR, q-bio.TO]目的：顕微鏡画像の触覚的アクセシビリティを可能にするリソグラフィファイルのワークフロー
- 微細な構造の観察は生物学研究の基礎であり，視覚情報だけでは不十分な場合がある。
- 従来の画像解釈は視覚に依存しており，視覚障碍者や触覚による理解を求める研究者には困難である。
- 3Dプリント技術を用いて，低コストで触覚的なグラフィックを作成し，科学へのアクセスを改善すること。
- 350ドルの3Dプリンターと100MB以下の3Dファイルで，1回あたり0.75ドルの低コストでリソグラフィを作成できるワークフローを開発した。
- このワークフローにより，ゲッコーの足の剛毛やコウモリの翼の毛羽立ちなど，複雑な生物学的構造の触覚的な探求が可能となる。
- 作成されたリソグラフィファイルはGitHubリポジトリで公開されており，今後の3Dプリントとリソグラフィの進歩に合わせて更新される予定である。
Link: https://arxiv.org/abs/2603.16801
分離優先型マルチストリームオーディオ透かしの実現：共同学習によるアプローチ [cs.RO, cs.SD]目的：分離優先型マルチストリームオーディオ透かしの実現可能性
- 現代のオーディオ制作は複数の音源を混合するため，各音源に個別に透かしを埋め込み，分離後に復元できるかという課題が生じる。
- 従来の頑健な透かしと分離技術を組み合わせた場合，分離過程で発生する歪みに対する耐性が低く，復元率が低いという問題がある。
- 透かしシステムと分離器を共同で学習することにより，分離過程における歪みに耐性のある透かし埋め込みと分離を実現する。
- 透かしシステムと分離器の共同学習により，分離後の透かし復元率が大幅に向上することが示された。
- 実験では，音声と音楽，ボーカルと伴奏の混合において，高い復元率と知覚的な品質が維持された。
- 分離特有の歪みに対する適応的な埋め込みが，分離後の透かしの復元を可能にすることが確認された。
Link: https://arxiv.org/abs/2603.16805
WildDepth：3D野生動物認識と深度推定のためのマルチモーダルデータセット [cs.CV, cs.DL]目的：3D野生動物認識と深度推定のためのマルチモーダルデータセット
- コンピュータビジョンの分野において，深度推定と3D再構成は重要な研究テーマである。
- 既存の動物データセットは，メトリックスケールを持たないものが多く，評価の信頼性が低い。
- RGBとLiDARデータを組み合わせることで，動物の3D認識と深度推定の精度向上を目指す。
- マルチモーダルデータの利用により，深度推定の信頼性が最大10% RMSE向上した。
- RGB-LiDAR融合により，3D再構成の忠実度がChamfer距離で12%向上した。
- WildDepthの公開により，多様な環境で汎化するロバストなマルチモーダル知覚システムの開発を促進する。
Link: https://arxiv.org/abs/2603.16816
遅延制約のあるXRパイプラインのための深層強化学習駆動型エッジオフローディング [cs.CV]目的：XRシステムのバッテリー持続時間と遅延要件の最適化
- XR技術は没入感の高い体験を提供するが，高い計算能力と低遅延性が求められる。
- 既存手法は平均性能の最適化に偏り，XRワークロード特有のリアルタイム性とバッテリー消費の相互作用を捉えきれていない。
- エッジコンピューティングと強化学習を活用し，遅延とバッテリー消費のトレードオフを最適化することでXR体験の向上を目指す。
- 提案手法は，遅延最適化されたローカル実行と比較して，デバイスのバッテリー持続時間を最大163%まで延長できる。
- 安定したネットワーク環境下では，90%以上のモーション-トゥ-フォトン遅延要件を維持することが確認された。
- ネットワーク帯域幅が制限された状況下でも，80%以上の遅延要件を維持し，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2603.16823
リモートセンシングデータにおけるラベルノイズ識別に対するデータ中心型手法の評価 [eess.SY, cs.SY, math.PR, cs.CV]目的：リモートセンシングデータにおけるラベルノイズ識別とそれによる深層学習モデルの汎化性能向上
- リモートセンシングは，環境モニタリングや災害管理など幅広い分野で利用されており，その重要性は高い。
- リモートセンシングデータには誤ったラベルが含まれることがあり，深層学習モデルの性能を著しく低下させる。
- データ中心型手法を用いてラベルノイズを識別し，リモートセンシングデータの質の向上を目指す。
- データ中心型手法は，ラベルノイズの識別とタスクパフォーマンスの向上に有効であることが示された。
- 手法の選択は，データセットの特性や目的に応じて検討する必要がある。
- リモートセンシングデータへのデータ中心型ラベルノイズ手法の適用には，更なる研究が必要である。
Link: https://arxiv.org/abs/2603.16835
DINOが見たもの：ALiBi位置符号化がVision Transformerにおける位置バイアスを軽減する [cs.CV, cond-mat.mtrl-sci]目的：Vision Transformerにおける位置バイアスの軽減
- 画像認識技術は，材料科学など様々な分野で重要性を増しており，高精度な画像解析が求められている。
- Vision Transformerは位置バイアスを持ちやすく，特に均質な微細構造の画像解析では性能低下の原因となる。
- ALiBi位置符号化を用いて位置バイアスを軽減し，より汎用的な画像特徴量を獲得することを目指す。
- ViTにおける位置バイアスを線形プローブによって検証した結果，様々な目的と位置符号化で存在することが確認された。
- ALiBi相対位置符号化でモデルをファインチューニングすることで，位置バイアスを効果的に軽減できた。
- バイアスの軽減されたモデルは，顕微鏡画像のセグメンテーションにおいて良好な性能を示した。
Link: https://arxiv.org/abs/2603.16840
M^3：単眼画像からのガウススプラッティングSLAMにおける高密度対応とマルチビュー基礎モデルの融合 [cs.CV]目的：単眼画像からのストリーミング再構成における高精度なポーズ推定と効率的なオンラインリファインメント
- SLAM技術は，ロボットナビゲーションや拡張現実など幅広い応用分野において，環境理解と自己位置推定に不可欠である。
- 従来のSLAM手法では，動的な環境下での高精度な再構成や，未校正の単眼画像からの安定した追跡が課題となっていた。
- 本研究は，マルチビュー基礎モデルの課題を克服し，高精度なSLAMを実現することで，これらの問題解決を目指す。
- 提案手法M^3は，マルチビュー基礎モデルにMatching headを追加し，高精度な高密度対応を実現した。
- 動的領域の抑制とクロス推論による内部整合性の調整により，トラッキングの安定性を向上させた。
- 様々な屋内・屋外ベンチマークにおいて，最先端の精度を達成し，既存手法と比較して大幅な性能向上を示した。
Link: https://arxiv.org/abs/2603.16844
BrickSim：インターロッキングブロックアセンブリの操作のための物理ベースシミュレータ [eess.SY, cs.SY, math.OC, cs.RO, cs.GR]目的：インターロッキングブロックアセンブリのシミュレーション技術
- ロボットの複雑な操作能力開発において，接触の多い環境下での長期的課題解決が重要である。
- 既存の物理シミュレータでは，ブロックの嵌合メカニズムを正確に再現できず，現実的なシミュレーションが困難である。
- ブロックの嵌合力学を忠実に再現するシミュレータを開発し，ロボットの組み立て作業に役立てること。
- BrickSimは，リアルタイムでインターロッキングブロックアセンブリをシミュレーション可能な初の物理ベースシミュレータである。
- 150の現実世界の組み立てにおいて，静的安定性の予測精度は100%であり，平均計算時間は5ミリ秒である。
- 落下試験では，実際の構造崩壊を正確に再現し，破損箇所と発生タイミングが一致した。
Link: https://arxiv.org/abs/2603.16853
SOMA：パラメータ化された人体モデルの統合 [cs.CV, cs.AI]目的：異種の人体モデル間の互換性確保
- 人体再構成，アニメーション，シミュレーションの基礎となる技術であり，その重要性は高い。
- 各モデルのメッシュ構造やパラメータ化が異なり，連携が困難であるという課題がある。
- 異なる人体モデルを統一的に扱うことで，それぞれの利点を活用しやすくすることを目指す。
- SOMAは，3層の抽象化レイヤーを通じて異種表現をブリッジすることで，多様な人体モデルを統合する。
- 本手法により，従来$O(M^2)$の複雑さであったモデル間のアダプター問題を$O(M)$に削減することに成功した。
- 推論時に異なるモデルの識別情報とポーズデータを自由に組み合わせることが可能となる。
Link: https://arxiv.org/abs/2603.16858
SparkVSR：疎なキーフレーム伝播によるインタラクティブなビデオ超解像 [cs.RO, cs.RO, cs.CL, cs.CV, cs.AI]目的：ビデオ超解像における，ユーザーによる修正を可能にするインタラクティブなフレームワーク
- ビデオの画質向上は，視聴体験の向上や様々な応用分野において重要である。
- 既存のビデオ超解像手法では，生成されたアーティファクトの修正が難しく，柔軟性に欠ける。
- ユーザーがキーフレームを通じてビデオ超解像を制御し，高品質な結果を得ることを目指す。
- 提案手法SparkVSRは，疎なキーフレームを制御信号として利用することで，インタラクティブなビデオ超解像を実現した。
- キーフレームの選択方法（手動指定，コーデックIフレーム抽出，ランダムサンプリング）が柔軟であり，参照キーフレームがなくてもロバストな性能を示す。
- CLIP-IQA，DOVER，MUSIQなどのベンチマークで，既存手法を最大24.6%，21.8%，5.6%上回る性能を達成した。
Link: https://arxiv.org/abs/2603.16864
ManiTwin: 10万件のデータ生成対応デジタルオブジェクトデータセットへの拡張 [cs.RO, cs.AI, cs.GR, cs.LG, cs.SE]目的：データ生成対応デジタルオブジェクトデータセットの構築
- ロボットの操作能力向上にはシミュレーション学習が有効だが，大規模かつ多様なデジタルアセットが不足している。
- シミュレーション学習に必要な，高品質な3Dアセットの準備がボトルネックとなっている。
- 単一画像からシミュレーション可能な3Dアセットを自動生成し，データセットを大規模化することでこの課題を解決する。
- ManiTwinは，単一画像からシミュレーション可能な3Dアセットを効率的に生成するパイプラインである。
- ManiTwin-100Kは，10万件の高品質なアノテーション付き3Dアセットを含むデータセットである。
- 実験により，ManiTwinが効率的なアセット合成・アノテーションワークフローを提供し，多様なアセットが操作データ生成などに有用であることが示された。
Link: https://arxiv.org/abs/2603.16866
MessyKitchens：接触情報を豊富に含むオブジェクトレベルの3Dシーン再構成 [cs.CV, cs.AI, cs.RO]目的：複雑なシーンにおけるオブジェクトレベルの3Dシーン再構成
- ロボティクスやアニメーション等，物理シミュレーションの精度向上が求められている。
- 多様な物体，頻繁な隠蔽，複雑な物体間の関係が，再構成の課題となっている。
- 物理的に妥当な接触を考慮した，高精度なオブジェクトレベル再構成を目指す。
- 新しいデータセットMessyKitchensを構築し，現実世界の散らかったキッチン環境を提供した。
- SAM 3Dを拡張したMulti-Object Decoder（MOD）により，複数オブジェクトの再構成精度を向上させた。
- MessyKitchensは既存データセットと比較して，登録精度と物体間の貫通の減少において優れた結果を示した。
Link: https://arxiv.org/abs/2603.16868
SegviGen：3D生成モデルを部品分割へ応用 [cs.CV]目的：3D部品分割のためのフレームワーク
- 3D形状解析は，ロボット工学やコンピュータビジョン等の分野で不可欠であり，その精度向上が求められている。
- 既存手法は，2D情報からの拡張や大規模データが必要であり，計算コストや精度に課題が残されている。
- 事前学習済みの3D生成モデルの知識を活用し，少ないデータで高精度な部品分割を実現すること。
- SegviGenは，既存のインタラクティブな部品分割手法と比較して，40%の性能向上を達成した。
- また，完全な部品分割においても15%の性能向上を示し，その有効性を立証した。
- ラベル付き学習データの0.32%のみを使用し，事前学習済みの3D生成モデルの知識が効果的に転移することを示した。
Link: https://arxiv.org/abs/2603.16869
ビデオ推論の解明 [cs.CV, cs.AI]目的：ビデオモデルにおける推論メカニズムの解明
- 近年のビデオ生成技術の発展は目覚ましく，新たな知能の基盤として期待されている。
- 既存研究では，ビデオモデルの推論はフレーム順に展開されると考えられていたが，そのメカニズムは不明確であった。
- 本研究は，ビデオモデルにおける推論が拡散過程においてどのように生まれるかを明らかにすることを目的とする。
- ビデオモデルの推論は，フレームの連鎖（CoF）ではなく，拡散ノイズ除去ステップの連鎖（CoS）によって主に生まれることが示された。
- モデルは初期ステップで複数の候補解を探索し，徐々に一つの答えに収束する様子が確認された。
- ワーキングメモリ，自己修正，知覚先行行動などの推論行動に加え，拡散Transformer内の機能的専門化が明らかになった。
Link: https://arxiv.org/abs/2603.16870
WorldCam: カメラ姿勢を統一的な幾何学的表現とするインタラクティブな自己回帰的3Dゲーム世界 [cs.CV]目的：インタラクティブな3Dゲーム世界の生成と制御に関する研究
- ゲーム世界の生成技術は，エンターテインメントやシミュレーションなど，幅広い分野で重要性が高まっている。
- 既存手法では，正確な行動制御と長期間にわたる3Dの一貫性を両立することが難しい。
- カメラ姿勢を幾何学的表現として活用し，行動制御と3Dの一貫性を同時に実現することを目指す。
- カメラ姿勢をLie代数で表現することで，正確な6DoFカメラ姿勢を導出し，生成モデルに注入することで，行動の正確な整合性を確保した。
- カメラ姿勢を空間インデックスとして利用し，過去の観察データを検索することで，長期間にわたるナビゲーション中の幾何学的な一貫性を実現した。
- 大規模なゲームプレイデータセットを構築し，提案手法が最先端のモデルと比較して，行動制御性，視覚品質，空間的一貫性において大幅に優れた性能を示すことを実証した。
Link: https://arxiv.org/abs/2603.16871
宇宙の網目のスペクトル階層 [astro-ph.CO, cs.CV]目的：宇宙の網目分類のスペクトル階層
- 宇宙の大規模構造を理解する上で，宇宙の網目の構造は重要な役割を果たす。
- 既存の網目定義は，スケール依存性があり，統一的な枠組みが求められていた。
- スペクトル階層を用いることで，様々なスケールにおける網目構造を包括的に解析する。
- スペクトル階層は，ポテンシャル/潮汐ウェブ，曲率ウェブなど，既存の網目定義を統一的に拡張する。
- 階層レベルは，大規模構造の長・短距離非局所バイアス要素と明確な対応関係を示す。
- この階層は，モック銀河生成や環境依存的なクラスタリングの研究に有用なツールとなる。
Link: https://arxiv.org/abs/2603.15834
Si/SiGe量子ドットデバイスにおける交換位相の3次元トモグラフィー [math.CO, cs.DM, cond-mat.mes-hall, cs.CV, quant-ph]目的：スピンベース量子プロセッサの動作における基礎要素である交換相互作用係数
- スピン量子ビットは量子コンピュータの実現に向けた有望な技術であり，その性能向上には交換相互作用の正確な把握が不可欠である。
- 従来のコヒーレント測定では位相の逆変換やノイズの影響を受けやすく，正確な交換相互作用係数の抽出が困難であった。
- 位相ボリュームを3次元的に再構築することで，交換相互作用係数の抽出精度向上と量子ビット制御の最適化を目指す。
- 位相シフトデジタルホログラフィーの手法とPUMAアルゴリズムを組み合わせることで，3次元空間における位相の頑健な抽出と展開に成功した。
- 抽出された位相モデルを最適化することで，π交換パルスを実現する電圧空間上の最小勾配点を特定することができた。
- 本測定プロトコルは，デバイスのばらつきの起源解明やデバイスモデルのキャリブレーションに役立ち，より高度なエラーアトリビューションと量子ビット制御の最適化に貢献すると期待される。
Link: https://arxiv.org/abs/2603.16025
ロバストな生成オーディオ品質評価：品質と見かけ上の相関の分離 [math.OC, cs.SY, eess.SY, math.OC, cs.SY, eess.SY, eess.AS, cs.AI, cs.SD, eess.SP]目的：生成オーディオの知覚的品質評価指標のロバスト性向上
- AI生成コンテンツの急増により，高品質な品質評価が不可欠となっている。
- MOS予測モデルはデータ不足により，汎化品質特徴ではなく，見かけ上の相関を学習しやすい。
- ドメイン敵対的学習を用いて，真の品質知覚と不要な要素を分離し，バイアスを軽減すること。
- ドメイン定義戦略は一概に最適解はなく，評価するMOSの側面によって異なる。
- 提案手法は，特定の側面に基づいたドメイン戦略により，音響バイアスを効果的に軽減した。
- 人間の評価との相関が向上し，未知の生成シナリオにおける汎化性能が向上した。
Link: https://arxiv.org/abs/2603.16201
LenghuSky-8：星の位置を考慮したマスクと高度方位較正を備えた8年間の全天雲画像データセット（セグメンテーションと短期予報用） [astro-ph.IM, cs.AI, cs.CV]目的：セグメンテーションおよび短期予報のための全天雲画像データセット
- 地上型時間領域観測には，分単位の雲カバーの把握が不可欠であり，天候に左右される観測の効率化に貢献する。
- 既存の全天データセットは期間が短い，昼間データに偏っている，または天体測定較正が不十分であるという課題があった。
- 本研究は，セグメンテーション，短期予報，および自律的な天文台運用を支援するための高品質な雲画像データセットを提供する。
- LenghuSky-8は，2018年から2025年までの8年間におよぶ全天画像429,620枚を提供し，夜間データが81.2%を占める。
- DINOv3の特徴量を用いた学習により，雲セグメンテーションの全体精度は93.3% ± 1.1%を達成し，昼夜や月の位相に依存しない頑健なセグメンテーションを実現した。
- 各画素を高精度に高度方位座標にマッピングし，天頂部で約0.37度，高度30度で約1.34度の較正不確かさを確認し，望遠鏡スケジューラとの連携を可能とした。
Link: https://arxiv.org/abs/2603.16429
HistoAtlas：ヒストロジーと分子プログラム，臨床転帰を関連付ける汎がん形態アトラス [q-bio.QM, cs.CV, eess.IV]目的：汎がんにおけるヒストロジー特徴と分子情報，臨床転帰との関連性
- がん研究において，病理組織学的情報は重要な診断・予後因子である。
- ルーチンに行われるH&E染色画像からの客観的な情報抽出が困難であった。
- H&E染色画像から大規模にバイオマーカーを発見することを可能にする。
- HistoAtlasは，21種類のTCGAがん種から6,745枚のH&Eスライドを解析し，38のヒストロジー特徴を抽出した。
- 抽出された特徴は，生存率，遺伝子発現，体細胞変異，免疫サブタイプと系統的に関連付けられ，証拠強度の階層化が行われた。
- 免疫浸潤や増殖，キナーゼシグナル伝達など既知の生物学的現象に加え，組織特異的な免疫シグナルや予後が異なる形態学的サブタイプを明らかにした。
Link: https://arxiv.org/abs/2603.16587
HRTF誘導バイノーラルターゲットスピーカー抽出と実世界での検証 [eess.AS, cs.SD]目的：バイノーラルターゲットスピーカー抽出のためのHRTF誘導フレームワーク
- 音源定位は，没入型オーディオ体験やコミュニケーションにおいて重要な役割を担う。
- 従来のターゲットスピーカー抽出法は，定位情報の歪みや個人依存性が課題である。
- HRTFを活用し，定位情報の保持と汎化性能の向上を目指す。
- 提案手法は，HRTFを明示的な空間的事前知識として活用することで，バイノーラル特性を維持しながらターゲットスピーカーの音質と明瞭度を向上させる。
- 多様な被験者のHRTFで学習することにより，個人依存的な調整を必要とせず，汎化性能を実現した。
- シミュレーションとHATSを用いた実録音検証により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2603.16668
後悔しない学習者を望ましい均衡へ誘導する [cs.GT]目的：広義ゲームにおける，後悔しない学習者の均衡誘導
- ゲーム理論は，経済学，政治学，コンピュータサイエンスなど，多様な分野で意思決定を分析する上で不可欠である。
- 既存研究では，プレイヤーが合理的に行動すると仮定されているが，現実のプレイヤーは必ずしもそうではない。
- 限られた予算内で，後悔しない学習者を望ましい均衡へ効果的に誘導する方法を確立すること。
- 予算が無限大であれば誘導は容易だが，現実には予算に制約があるため，その下での誘導可能性が問題となる。
- 総予算がラウンド数Tに対して線形以下で増加する場合，誘導は可能である。常時予算の場合，ゲーム形式によって誘導の可否が異なる。
- 実験結果は，大規模ゲームにおいても誘導が有効であることを示唆している。
Link: https://arxiv.org/abs/2306.05221
変形不変ニューラルネットワークとその歪み画像復元および解析への応用 [cs.CV, cs.AI, eess.IV]目的：幾何学的歪み画像に対する画像処理タスクの性能向上
- 画像認識等の分野において，幾何学的歪みは重要な課題である。歪みに対するロバスト性が求められる。
- 従来の深層学習モデルは，幾何学的歪み画像に対して十分な性能を発揮できないという問題点がある。
- 幾何学的歪み画像に対しても一貫した潜在特徴を出力し，より高精度な画像処理を実現することを目標とする。
- 提案手法であるDINNは，既存の深層学習ネットワークに軽量な準等角変換ネットワークを組み込むことで，歪みに強い特徴抽出を可能にする。
- DINNは，大気乱れや水面乱れによる歪み画像に対して，GANベースの復元手法よりも優れた性能を示すことが確認された。
- また，大気乱れ下における顔画像認証においても良好な結果が得られ，提案手法の有効性が示された。
Link: https://arxiv.org/abs/2310.02641
家庭における高品質な顔の幾何学と外観キャプチャ [cs.CV]目的：高品質な顔の幾何学と外観のキャプチャ手法
- 顔のキャプチャ技術は，3Dスキャンによるリアリスティックな表現に不可欠であり，様々な分野で応用が期待される。
- 従来のスタジオでの撮影は高価で手間がかかり，日常的な利用には不便であった。
- スマートフォンのみで，手軽に高品質な顔の3Dモデルを生成し，日常生活での利用を可能にすることを目指す。
- 本手法は，スマートフォン内蔵のフラッシュライトのみを使用し，薄暗い環境下でも高品質な顔の3Dスキャンを実現する。
- 目の形状や口腔内，髪の毛など，顔全体の形状と外観をモデル化するハイブリッド表現を提案する。
- 独自の照明モデルと反射率モデルを用いることで，リアルな照明環境下での再レンダリングを可能にした。
Link: https://arxiv.org/abs/2312.03442
競争均衡のNash厚生による近似 [cs.GT, math.OC]目的：分割可能な資源の配分における競争均衡とNash厚生最大化配分との関係性
- 資源配分の理論において，効率的な資源配分を決定する上で競争均衡とNash厚生は重要な概念である。
- 非同質的な効用関数を持つ場合，競争均衡の計算は計算困難であり，現実的な問題への適用が難しい。
- Gale-substitute効用関数を用いることで，Nash厚生最大化配分が競争均衡を近似できることを示す。
- Gale-substitute効用関数において，Nash厚生最大化配分は，各エージェントが競争均衡における最大効用の少なくとも半分を得られ，近似的に羨望フリーとなる。
- Generalized network utilitiesという新しい効用関数クラスはGale-substituteであり，SPLCやLeontief-free utilitiesを含む。
- 一般的な凹型効用関数に対して，競争均衡は最大Nash厚生の約0.69以上の割合を達成することが示された。
Link: https://arxiv.org/abs/2402.09994
時間的等変性と意味的連続性を用いたラベル付き手術器具セグメンテーション [cs.CV]目的：手術器具のセグメンテーション
- 手術支援ロボットの普及に伴い，手術映像の自動解析が重要視されている。
- 手術器具のセグメンテーションには大量のアノテーションが必要であり，コストが高い。
- ラベル付きの映像データを用いて，低コストで高精度なセグメンテーションを実現する。
- 時間的等変性制約と意味的連続性制約を導入することで，ピクセルレベルでの時間的一貫性と意味的な整合性を向上させた。
- 連続フレームから生成される時間的強化擬似マスクが，不要な領域の抑制に貢献した。
- 2つの手術ビデオデータセットで実験を行い，最先端手法と同等またはそれ以上の性能を達成した。
Link: https://arxiv.org/abs/2403.09551
モダリティ有効性の観点からのRGBTトラッキングベンチマークの再検討：新しいベンチマーク，問題，および解決策 [cs.CV]目的：RGBTトラッキングにおけるモダリティ有効性を考慮した新しいベンチマークの提案
- 夜間や悪天候など，単一のセンサでは安定した追跡が困難な状況下において，RGBTトラッキングの有用性が高まっている。
- 既存のベンチマークは，RGBと熱赤外線（TIR）の情報が十分な品質で得られる通常のシナリオで収集された動画が中心であり，過酷な条件下での代表性に欠ける。
- RGBまたはTIRのモダリティが無効になるような過酷な条件下でのRGBTトラッキングに特化したベンチマークを提供し，融合戦略の開発を促進すること。
- 新しいベンチマークMV-RGBTは，RGBまたはTIRのいずれかのモダリティが無効なMMWシナリオで撮影されており，多様なオブジェクトカテゴリとシーンを含んでいる。
- MMWシナリオにおけるRGBTトラッキングにおける「いつ融合すべきか」という新たな課題を提起し，融合戦略の議論を促している。
- 提案手法MoETrackは，MV-RGBT，GTOT，LasHeRを含む複数のベンチマークで最先端の結果を達成しており，MMWシナリオでは融合が必ずしも有益ではないことを示唆している。
Link: https://arxiv.org/abs/2405.00168
自動音声認識エラー訂正における特殊モデルの再検討 [cs.LG, cs.CL, cs.SD, eess.AS]目的：自動音声認識エラーの訂正
- 音声認識の精度向上は，人間と機械の自然な対話を可能にする上で不可欠である。
- 既存の手法では，音声認識特有のエラーパターンを考慮していない場合が多い。
- 低遅延かつ幻覚の少ない，より効果的なエラー訂正手法を開発すること。
- コンパクトなseq2seqモデルを用い，実データと合成データのエラーを用いて学習することで，LLMを凌駕する性能を達成した。
- 提案手法は，CTC，Seq2seq，Transducerなど，様々な音声認識アーキテクチャやドメインに一般化可能である。
- 特に，エラーの少ない環境において，LLMが苦手とする箇所で正確な訂正を実現する。
Link: https://arxiv.org/abs/2405.15216
幾何学的模倣から包括的生成へ：都市形態合成のための文脈情報を活用したマルチモーダル拡散モデル [cs.CL, cs.CV, cs.AI]目的：都市形態の包括的生成
- 都市の機能や活力を決定する都市形態の研究は不可欠である。都市計画やデザインの基礎となる。
- 既存のシミュレーション手法は，都市の意味や地理的文脈を融合させず，幾何学的な問題として単純化されがちである。
- 都市の意味，地理的文脈，空間的制約を融合させ，より忠実で多様な都市形態生成を目指す。
- 提案手法ControlCityは，画像，テキスト，メタデータといったマルチモーダル情報を活用することで，都市形態の生成において顕著な改善を実現した。
- FIDスコアは71.01%減少し50.94となり，MIoUスコアは38.46%向上し0.36となった。これにより，生成された都市形態の忠実性と空間的整合性が向上した。
- 異なる都市間でのスタイル転送や未知の都市におけるゼロショット生成が可能であり，モデルの汎化性能と制御可能性が確認された。
Link: https://arxiv.org/abs/2409.17049
FreeGaussian：フロー微分を用いた3Dガウススプラットによる関節オブジェクトの注釈不要制御 [cs.RO, cs.HC, cs.CV, cs.LG]目的：関節オブジェクトの制御可能なガウススプラットの再構成
- 現実世界の応用において，関節オブジェクトの3D再構成は重要である。
- 既存手法は密なマスクや手動制御信号に依存し，汎用性に課題がある。
- 注釈なしで，カメラの動きと関節の動きを数学的に分離し，制御を可能にする。
- 提案手法FreeGaussianは，フロー微分を通じてカメラの動きと関節の動きを分離する。
- 2Dフローと3Dガウス動的フローの関係を確立し，フロー事前知識から動的ガウスモーションを最適化する。
- 3D球状ベクトル制御スキームを導入し，複雑な1D制御信号計算を不要とする。
Link: https://arxiv.org/abs/2410.22070
オープンボキャブラリーに基づく３次元シーン理解のためのオクトリーグラフ [cs.CV]目的：３次元シーン理解のための新たなシーン表現
- ロボット等の自律エージェントにとって，３次元シーンの理解は不可欠である。
- 点群データは無秩序で大容量であり，占有情報や空間関係を直接表現できない。
- 効率的な経路計画やテキストに基づく物体検索を可能にする表現が求められている。
- 提案手法Octree-Graphは，形状に応じて占有情報を調整可能な適応オクトリー構造を用いる。
- 時系列グループ化セグメントマージとインスタンス特徴集約により，３次元インスタンスとその意味特徴を取得。
- 多様なタスクにおいて，既存手法を上回る汎用性と有効性が実験的に示された。
Link: https://arxiv.org/abs/2411.16253
シーングラフ駆動データ合成による視覚生成トレーニング：任意のシーン生成 [cs.CV, cs.AI, cs.LG]目的：視覚生成モデルのトレーニングのためのデータ合成手法
- テキストから画像生成技術は進歩しているが，複雑なシーンの理解や意味的な整合性に課題がある。
- 既存のデータセットはノイズが多く，構成要素間の関係性が弱いため，複雑なシーンの学習が困難である。
- シーングラフを活用し，高品質な合成データを生成することで，生成モデルの性能向上を目指す。
- 本研究で開発した「Generate Any Scene」を用いることで，自己改善フレームワークにおいてStable Diffusion v1.5の性能が平均4%向上した。
- 少ない数の合成キャプション（800未満）でStable Diffusion v1.5をファインチューニングした結果，構成要素の組み合わせや難しい概念の生成においてTIFAスコアが10%向上した。
- GRPOアルゴリズムを用いてSimpleAR-0.5B-SFTをファインチューニングし，DPG-BenchにおいてCLIPベースの手法を5%上回る結果を得た。
Link: https://arxiv.org/abs/2412.08221
Mamba2D：ビジョンタスクのためのネイティブな多次元状態空間モデル [cs.CV]目的：ビジョンタスクにおける多次元状態空間モデルの構築
- Transformerの代替として効率的な状態空間モデルが注目されており，画像処理への応用が期待される。
- 既存の画像処理用状態空間モデルは，自然言語処理由来の制約を受け，画像データに最適化されていない。
- 画像データの空間的次元をネイティブに考慮した，新たな状態空間モデルを開発し，性能向上を目指す。
- ImageNet-1K分類において，M2D-Tは27Mパラメータで84.0%のTop-1精度を達成し，同規模のSSMベースモデルを上回る。
- M2D-Sは85.3%を達成し，SSMベースアーキテクチャの中で最先端の結果を確立した。
- MS-COCO物体検出，ADE20Kセグメンテーションなど，様々なダウンストリームタスクで高い汎化性能と効率性を示した。
Link: https://arxiv.org/abs/2412.16146
Fillerbuster：カジュアルなキャプチャのための統一生成シーン補完モデル [cs.CV, cs.GR]目的：3Dシーンの未知領域の補完
- 現実世界のシーン再構築において，限られた視点からのデータで完全な3Dモデルを作成することは重要である。
- 既存手法は，既知のピクセルを改善するか，少数の写真からオブジェクトの側面を生成することに焦点を当てており，カジュアルなキャプチャには不向きである。
- 多数の入力フレームを活用し，未観測領域を補完し，カメラパラメータが不明な場合でも画像姿勢を回復することを目指す。
- 本研究では，多視点潜在拡散変換器を用いた統一モデルFillerbusterを提案し，カジュアルなキャプチャにおけるシーン補完を実現した。
- 既存のデータセットを用いて部分的なキャプチャの補完を行い，また，未校正シーン補完タスクにおいて姿勢予測とコンテンツ生成を同時に行うことができた。
- 本フレームワークはNerfstudioやGsplatなどの再構成プラットフォームに統合可能であり，深度などの他のモダリティの予測にも拡張可能である。
Link: https://arxiv.org/abs/2502.05175
ガウススプラッティングのためのラプラス・ベルトラミ演算子 [cs.GR, cs.AI, cs.CV]目的：ガウススプラッティングにおけるラプラス・ベルトラミ演算子の計算
- 3Dガウススプラッティングはレンダリングから3D再構成まで応用が拡大しており，幾何学処理の需要が高まっている。
- 既存のアルゴリズムを適用するには，情報損失や計算コストの問題がある。ガウススプラッティングには外れ値が多く，幾何学処理に影響を与える。
- ガウススプラッティング上で直接ラプラス・ベルトラミ演算子を計算し，幾何学処理の精度向上を目指す。
- 本研究では，マハラノビス距離を用いてガウススプラッティング上でラプラス・ベルトラミ演算子を計算する手法を提案した。
- 提案手法は，ガウススプラッティングの中心点のポイントクラウドに対する精度が，従来のポイントクラウドラプラシアンよりも優れていることを実験で示した。
- また，提案した演算子は，最適化中の出力品質を評価するためにも利用できることがわかった。
Link: https://arxiv.org/abs/2502.17531