arXiv雑要約

画像・音声 - 2026/03/09 公開

  • パノラマ画像からのフィードフォワード合成による3Dシーン生成:Pano3DComposer [cs.CV]目的:単一のパノラマ画像からの3Dシーン生成手法
    • VR/AR等の没入型体験において,リアルな3D環境の自動生成技術は不可欠である。
    • 従来の画像から3Dへの変換は,計算コストが高いか,生成される環境に制約が多いという課題があった。
    • パノラマ画像から,効率的かつ高品質な360度環境を生成することを目的とする。
    • Pano3DComposerは,オブジェクト生成とレイアウト推定を分離するプラグアンドプレイ可能なモジュールを導入した。
    • Alignment-VGGTアーキテクチャを利用し,擬似幾何学的教師データを用いて変換予測器を訓練することで,生成オブジェクトと実測オブジェクト間の形状の差異に対処した。
    • 未知のドメインの入力画像に対して,粗から詳細へのアライメント機構を導入することで,幾何学的整合性を向上させた。合成データセットと実データセットにおいて高い幾何学的精度を達成した。

    Link: https://arxiv.org/abs/2603.05908

  • 複雑な病変に対する推論駆動型セグメンテーション:強化学習によるCORE-Seg [cs.CV, cs.AI]目的:複雑な病変のセグメンテーションにおける推論駆動型アプローチ
    • 医療画像解析は,診断・治療において不可欠であり,その精度向上が常に求められている。
    • 既存のセグメンテーションモデルは,ピクセルレベルの精度は高いが,論理的な解釈が困難である。
    • 専門的な視覚的推論能力を備えたセグメンテーションモデルの開発によって,この課題を解決することを目指す。
    • 本研究では,推論とセグメンテーションを統合するCORE-Segフレームワークを提案し,新たなベンチマークComLesion-14Kを構築した。
    • 提案手法は,平均Dice係数37.06%を達成し,既存手法を大幅に上回る性能を示した。
    • また,失敗率を18.42%に低減し,より信頼性の高いセグメンテーションを実現した。

    Link: https://arxiv.org/abs/2603.05911

  • BlackMirror:指示応答のずれによるテキスト-画像モデルのバックドア検出 [cs.CV, cs.AI]目的:テキスト-画像モデルにおけるバックドアの検出
    • AIモデルの悪用を防ぐため,セキュリティ確保が不可欠である。
    • 既存手法は多様なバックドア攻撃に脆弱であり,汎化性能が低い。
    • 指示と生成画像のずれに着目し,バックドアを検出する新しい手法を提案する。
    • BlackMirrorは,視覚的パターンと指示を比較し,意味的なずれを検出するMirrorMatchを用いる。
    • 多様なプロンプトに対するずれの安定性を評価するMirrorVerifyにより,誤検知を抑制する。
    • 幅広い攻撃に対し,高精度なバックドア検出が可能であることを実験で示した。

    Link: https://arxiv.org/abs/2603.05921

  • RAC:修正フローオートコーダー [cs.CV, cs.AI]目的:修正フローに基づく生成モデルの提案
    • 潜在空間の学習と生成は,機械学習における重要な課題である。
    • 従来のVAEは,生成と再構成の間にギャップが存在する。
    • 多段階デコードによる高品質な生成と計算コストの削減を目指す。
    • RACは,VAEの代替として,多段階デコードによる生成を行う。
    • デコード経路の修正可能性により,生成品質の向上を実現した。
    • 実験により,再構成と生成の両方において,既存のVAEを凌駕し,計算コストを約70%削減できることが示された。

    Link: https://arxiv.org/abs/2603.05925

  • 運転行動理解に向けて:運転シーンにおける弱学習型リスク認識 [cs.CV]目的:運転者のリスク認識に関する研究のための大規模データセットと,その活用によるリスク源の特定
    • 自動運転技術の発展において,運転者のリスク認識を理解することは,安全な走行を実現するための重要な課題である。
    • 運転者のリスク認識は主観的であり,客観的な評価が困難である。また,関連する大規模なデータセットが存在しない。
    • 運転者の行動と周囲の状況から,リスク源を自動的に特定する手法を開発し,安全運転支援に貢献すること。
    • 本研究では,運転者の意図と反応の関係をモデル化する弱学習型リスク源識別フレームワークを提案した。
    • 提案手法は,RAIDおよびHDDSデータセットにおいて,既存の最先端手法をそれぞれ20.6%,23.1%上回る性能を達成した。
    • 歩行者の注意がリスク推定に果たす役割を分析し,提案データセットの有用性を実証した。

    Link: https://arxiv.org/abs/2603.05926

  • 静的フレームを超えて:時間集約・復元型ビジョンTransformerによる人体姿勢推定 [cs.CV]目的:ビデオベースの2D人体姿勢推定のための手法
    • ビデオにおける人体姿勢推定は,監視や人間とロボットの協働など,様々な応用分野で重要である。
    • 既存の姿勢推定手法は静止画向けであり,ビデオの持つ時間的な一貫性を十分に活用できていない。
    • 時間的な情報を効率的に集約し,姿勢推定の精度と安定性を向上させることを目指す。
    • 提案手法TAR-ViTPoseは,既存の静止画向けViTPoseを大幅に改良し,PoseTrack2017ベンチマークでmAPを2.3%向上させた。
    • 時間情報を集約するJoint-centric Temporal Aggregation(JTA)と,復元するGlobal Restoring Attention(GRA)により,よりロバストで正確な姿勢推定を実現している。
    • 既存のビデオベース手法と比較しても優位性を示し,実用的なフレームレートも達成している。

    Link: https://arxiv.org/abs/2603.05929

  • FTSplat:フィードフォワード三角形スプラッティングネットワーク [cs.CV, cs.RO]目的:高忠実度3次元再構成手法
    • ロボティクスやシミュレーションにおいて,正確な3次元環境理解が不可欠である。
    • NeRFや3DGSは高品質だが,シーン毎の最適化に時間がかかる点が課題である。
    • リアルタイム性とシミュレーションへの適性を両立する再構成手法を開発する。
    • 提案手法は,複数の画像から直接連続的な三角形サーフェスを予測するフィードフォワードフレームワークである。
    • シーン毎の最適化や後処理を不要とし,シミュレーション可能なモデルを高速に生成する。
    • 実験により,効率的な再構成と標準的なグラフィックス・ロボットシミュレーターとの互換性が確認された。

    Link: https://arxiv.org/abs/2603.05932

  • オントロジー駆動リスク評価と自動運転の安全性向上:OD-RASE [cs.RO, cs.CV]目的:自動運転システムの安全性向上のためのフレームワーク
    • 自動運転技術は発展途上であり,安全性確保が不可欠である。
    • 従来の道路設計は人間に最適化されており,自動運転車への対応が遅れている。
    • 事故を未然に防ぐため,道路構造の改善提案を自動化すること。
    • オントロジーを活用したデータフィルタリングにより,事故を引き起こす道路構造と改善策の予測精度が向上した。
    • 大規模視覚言語モデル(LVLM)と拡散モデルを組み合わせることで,道路改善提案と改善後の道路環境画像を生成した。
    • この研究は,より安全な交通環境の実現と自動運転技術の普及に貢献すると考えられる。

    Link: https://arxiv.org/abs/2603.05936

  • 残差マスキングネットワークを用いた表情認識 [cs.CV, cs.AI]目的:表情認識性能の向上
    • 人間とコンピュータの円滑な対話を可能にする技術として,表情認識の重要性が高まっている。
    • 既存手法では,表情認識において無関係な情報に注意が散漫になり,精度が低下することが課題である。
    • 本研究は,注目メカニズムとマスキング技術を組み合わせ,より正確な表情認識を目指す。
    • 提案手法である残差マスキングネットワークは,広く利用されているFER2013データセットにおいて,最先端の性能を達成した。
    • また,独自に収集したVEMOデータセットにおいても,同様に高い精度を示した。
    • 本手法は,顔画像から重要な特徴を効果的に抽出し,表情認識の精度向上に貢献すると考えられる。

    Link: https://arxiv.org/abs/2603.05937

  • SLER-IR:汎用画像復元のための球面層別エキスパートルーティング [cs.CV]目的:多様な劣化に対する画像復元手法
    • 画像劣化は現実世界で頻繁に発生し,高品質な画像復元技術の需要は高い。
    • 既存の汎用復元モデルは,特徴量の干渉やエキスパートの専門性不足が課題である。
    • 層ごとに専門化されたエキスパートを動的に活用し,劣化に適応した復元を目指す。
    • SLER-IRは,ネットワーク層ごとに専門化されたエキスパートを動的に活性化する。
    • 球面一様劣化埋め込みにより,線形埋め込み空間における幾何学的バイアスを解消する。
    • GLGFモジュールは,空間的に不均一な劣化と学習・テストの粒度ギャップに対処する。

    Link: https://arxiv.org/abs/2603.05940

  • ドキュメント画像の傾き推定のためのフーリエ振幅スペクトルへの適応的な放射状投影 [cs.CV]目的:ドキュメント画像の傾き推定手法
    • デジタル化の進展に伴い,ドキュメント処理において傾き推定は重要な課題となっている。
    • 既存手法では,様々なドキュメント画像に対してロバストな傾き推定が難しい場合がある。
    • フーリエ変換を用いた傾き推定手法の性能向上を目指す。
    • 提案手法では,2次元離散フーリエ振幅スペクトルに適応的な放射状投影を適用することで,ドキュメント画像の主要な傾き角度を抽出する。
    • DISE-2021という高品質な傾き推定データセットを新たに構築し,様々な推定器の性能評価を行った。
    • 実験結果から,提案手法は既存手法と比較して堅牢かつ信頼性が高く,優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2603.05942

  • LucidNFT:LRアンカー型マルチ報酬偏好最適化による生成現実世界超解像 [cs.CV]目的:生成現実世界超解像の偏好最適化手法
    • 現実世界の画像超解像は,視覚的に説得力のある画像を生成するが,低解像度画像の情報を無視した誤った情報を生成しやすい。
    • 超解像における低解像度画像への忠実性は評価が難しく,報酬に基づいた強化学習の活用が求められている。
    • 低解像度画像への忠実性を向上させ,多様な現実世界の劣化に対応した超解像モデルを開発すること。
    • LucidNFTは,劣化に強い意味評価器LucidConsistencyを導入し,低解像度画像への忠実性を測定・最適化可能にした。
    • LucidNFTは,各低解像度画像条件のロールアウトグループ内で目的関数ごとのコントラストを保持する分離型利点正規化戦略を採用した。
    • LucidNFTは,大規模な現実世界の劣化画像コレクションLucidLRを用いて,ロバストな強化学習による微調整を実現した。

    Link: https://arxiv.org/abs/2603.05947

  • エネルギー駆動適応視覚トークン刈り込みによる効率的な視覚言語モデル [cs.CV, cs.AI]目的:視覚言語モデルの効率化のための視覚トークン削減手法
    • 視覚言語モデルは,画像とテキストの理解において重要な役割を担うため,その高速化が求められている。
    • 既存手法は固定予算を用いるため,画像の情報密度に応じた柔軟な対応が課題となっていた。
    • 画像の情報密度に応じてトークン数を動的に調整し,計算効率を改善することを目的とする。
    • E-AdaPruneは,視覚特徴空間の特異値スペクトルからトークン予算を決定することで,情報密度の高い画像に多くのトークンを割り当てる。
    • 9つのベンチマークと3つのVLMバックボーンにおいて,平均で0.6%の性能向上を示し,特にMMVet推論タスクでは+5.1%の改善が見られた。
    • ランダム化された特異値分解を用いることで,追加の遅延は1画像あたり8ms以内に抑えられている。

    Link: https://arxiv.org/abs/2603.05950

  • 視点を統合する:少数のサンプルを用いたセグメンテーションのための視点整合プロトタイプ学習 [cs.CV]目的:少数のサンプルを用いたセグメンテーションにおける,視点や外観の変化に対する構造的ずれと不整合の解決
    • 画像認識技術の発展は,限られた教師データでの学習を可能にし,様々な応用分野での活用を促進する上で重要である。
    • 少数のサンプルを用いたセグメンテーションは,外観や視点の大きな変化に対して頑健性が低いという課題を抱えている。
    • 本研究は,視点間の情報を活用し,より構造的に整合性の高いプロトタイプを学習することで,この課題を克服することを目指す。
    • 提案手法VINEは,空間グラフと視点グラフを用いて,視点に依存しない構造的意味を伝播させることで,プロトタイプの精度を向上させる。
    • サポート画像とクエリ画像の特徴量の差異から得られる識別的な事前知識を活用し,SAM特徴を再重み付けすることで,前景の曖昧さを軽減する。
    • 複数のFSSベンチマークにおける実験結果は,VINEが視点の変化や複雑な構造を持つシーンにおいて,高い有効性とロバスト性を持つことを示している。

    Link: https://arxiv.org/abs/2603.05952

  • 分割不可能な資源の公平かつ効率的な均等配分 [cs.GT]目的:分割不可能な資源の公平性と効率性を両立する均等配分
    • 資源配分は,社会資源の最適化や公平な分配において重要な課題である。
    • 均等配分制約下では,公平性と効率性を両立することが困難である。
    • 特定の評価関数を持つエージェント群における,均等配分下での公平かつ効率的な配分アルゴリズムを開発すること。
    • 二値評価を持つエージェントと,最大2種類の評価タイプを持つエージェントに対して,EF1かつfPOを満たす均等配分が一意に存在し,多項式時間で計算可能であることが示された。
    • 二部グラフにおける最大重みマッチングと双対理論の応用により,上記のケースに対する初の多項式時間アルゴリズムが実現された。
    • 制約付き公平分割問題への新たな洞察が得られ,実用的な応用範囲の拡大が期待される。

    Link: https://arxiv.org/abs/2603.05956

  • OVGGT:O(1)定数コストストリーミングVisual Geometry Transformer [cs.CV]目的:ストリーミングビデオからの3D形状再構築手法
    • 3D再構築は,ロボット工学や拡張現実など,様々な分野で不可欠な技術である。
    • 既存手法は計算コストが高く,長時間のストリーミングデータ処理が困難である。
    • メモリと計算量を定数内に抑え,長時間のストリーミング処理を実現すること。
    • OVGGTは,自己選択キャッシュと動的アンカー保護により,VRAM使用量を一定に保ちながら,任意の長さのビデオを処理する。
    • これにより,従来のストリーミング手法よりも大幅に長いシーケンスに対応可能となる。
    • 屋内,屋外,超長シーケンスのベンチマークで,最先端の3D形状精度を達成した。

    Link: https://arxiv.org/abs/2603.05959

  • 画像におけるCLIPを用いたオープンボキャブラリ物体認識の探求 [cs.CV]目的:オープンボキャブラリ物体認識の新たな枠組み
    • 画像認識は,コンピュータビジョンの基盤技術であり,様々な応用分野で重要である。
    • 既存手法は,複雑なシステム,高コストな学習,汎化性能の限界といった課題を抱えている。
    • 複雑な再学習や手作業によるアノテーションを不要にし,汎化性能を高めることを目指す。
    • 提案手法は,物体セグメンテーションと認識の二段階戦略を採用し,簡素化されたシステムで高精度を実現した。
    • CLIPに基づくエンコーディングは,SVDを用いなくても最高水準の平均APを達成し,既存手法を上回った。
    • CNN/MLPベースの画像エンコーディングは,オープンボキャブラリ物体認識において潜在能力を持つことが示された。

    Link: https://arxiv.org/abs/2603.05962

  • スケルトン-画像エンコーディング:ビジョン事前学習モデルによるスケルトン表現学習の実現 [cs.CV, cs.AI]目的:スケルトン表現学習
    • 人間行動認識の精度向上に不可欠であり,近年,その重要性が増している。
    • 大規模なスケルトンデータセットが不足しており,異質なデータ形式への対応が課題である。
    • 大規模なビジョン事前学習モデルをスケルトンデータに適用し,表現学習を可能にすること。
    • 提案手法S2Iは,スケルトン系列を画像のようなデータに変換することで,強力なビジョン事前学習モデルの利用を可能にする。
    • S2Iは,多様なデータソースからの異質なスケルトンデータに対しても統一的な形式を提供し,汎用性が高い。
    • NTU-60, NTU-120, PKU-MMDにおける実験により,自己教師ありスケルトン表現学習における有効性が示された。

    Link: https://arxiv.org/abs/2603.05963

  • CR-QAT:カリキュラム関係性量子化認識学習によるオープンボキャブラリ物体検出 [cs.CV]目的:オープンボキャブラリ物体検出における,低ビット量子化による性能劣化の抑制
    • 近年の物体検出技術は高度化しているが,モデルサイズが大きいため,エッジデバイスへの搭載が課題となっている。
    • 量子化はモデル圧縮に有効だが,極端な低ビット量子化は,視覚と言語の整合性や物体間の関係性を損なう。
    • 本研究は,カリキュラム学習と関係性知識蒸留を組み合わせることで,低ビット量子化下での性能劣化を抑制することを目指す。
    • 提案手法CR-QATは,段階的な最適化と関係性知識蒸留を統合したフレームワークであり,LVISおよびCOCOのゼロショットベンチマークで既存手法を上回る性能を示した。
    • CR-QATは,厳しい低ビット設定下で最大38.9%および40.9%の平均適合率(AP)の相対的な改善を達成した。
    • カリキュラムQAT(CQAT)は,段階的な量子化により誤差の蓄積を軽減し,テキスト中心の関係性知識蒸留(TRKD)は,教師モデルの関係性を効果的に伝達する。

    Link: https://arxiv.org/abs/2603.05964

  • PROBE:解析的な変換ロバスト性を備えた確率的占有BEVエンコーディングによる3次元場所認識 [cs.RO, cs.CV]目的:3次元場所認識のための記述子の開発
    • ロボットナビゲーションや自動運転において,場所を正確に認識することは不可欠である。
    • LiDAR点群データに基づく場所認識は,環境変化やセンサーの違いに弱いという課題がある。
    • センサーの種類に依存せず,多様な環境変化に対応できるロバストな記述子を開発する。
    • PROBEは,各BEVセルの占有をベルヌーイ確率変数としてモデル化する学習不要の記述子である。
    • 連続的なカルテシアン変換を解析的に周辺化することで,距離適応的な角度的不確実性を実現している。
    • 4つのデータセットでの評価により,PROBEは手動特徴量記述子の中で最高の精度を達成した。

    Link: https://arxiv.org/abs/2603.05965

  • 変化の仕方を想像する:変化キャプションのための明示的な手順モデリング [cs.CV, cs.AI, cs.CL]目的:変化キャプション生成
    • 画像間のわずかな違いを説明する技術は,画像検索や自動注釈など様々な応用において重要である。
    • 既存手法は静止画像ペアに焦点を当てており,変化の過程における時間的な変化を捉えられていない。
    • 時間的な変化を考慮した手順モデリングにより,変化の内容と発生方法をより深く理解することを目指す。
    • ProCapは,静的画像比較から動的な手順モデリングへの転換を試みる新しいフレームワークである。
    • ProCapは,スパースなキーフレームから変化の手順を学習する手順エンコーダを導入し,キャプションに条件付けられたマスク再構成タスクによって潜在的な動的特徴を捉える。
    • 学習可能な手順クエリを用いてエンコーダをプロンプトし,潜在的な手順表現を推論することで,計算コストを削減し,視覚ノイズへの耐性を高める。

    Link: https://arxiv.org/abs/2603.05969

  • 複雑・悪条件下におけるマルチオブジェクトトラッキングのためのUAVベンチマーク:滑らかな動きの前提を打破 [cs.CV]目的:複雑・悪条件下におけるUAV視点マルチオブジェクトトラッキングのベンチマーク
    • UAVの活用拡大に伴い,リアルタイムな状況把握が不可欠であるため,高精度な物体追跡技術が求められている。
    • 既存のUAV用MOTベンチマークは,カメラの動きや物体の動きが単純で,現実世界の複雑な状況を反映していない。
    • 激しい自己運動や視点変化といった課題に対応できる,より現実的なMOTベンチマークを確立し,技術進歩を促進すること。
    • DynUAVは,170万件以上のバウンディングボックス注釈を含む42本の動画シーケンスで構成され,車両,歩行者,産業用車両を対象としている。
    • 既存ベンチマークと比較して,DynUAVは,スケール変化,視点変化,モーションブラーといった自己運動に起因する大きな課題を提示する。
    • 最新のトラッカーの評価により,動的な条件下での検出とアソシエーションの課題が明らかになり,DynUAVが厳格なベンチマークとして機能することが示された。

    Link: https://arxiv.org/abs/2603.05970

  • 参照に基づくスケッチ彩色における高解像度化と潜在表現の分離 [cs.CV]目的:アニメーションやデジタルイラスト作成を支援するためのスケッチ彩色手法
    • アニメーション制作やイラスト作成において,手作業の負担軽減が求められている。
    • 学習データとテストデータの分布のずれが,彩色品質低下の主要な原因となっている。
    • 分布のずれを直接的に最小化し,高品質で制御可能な彩色を実現すること。
    • 提案手法は,セマンティックに整列したブランチと,そうでないブランチを設けることで,分布のずれを抑制する。
    • Gram Regularization Lossを用いることで,ドメイン間の分布の一貫性と安定性を高める。
    • Anime-specific Tagger NetworkとSDXLを活用することで,参照画像の情報を正確に反映し,テクスチャの転送を強化する。

    Link: https://arxiv.org/abs/2603.05971

  • HarvestFlex:実環境におけるビジョン・言語・行動ポリシーの適応によるイチゴの収穫 [cs.RO, cs.CV]目的:実環境のイチゴ収穫におけるビジョン・言語・行動ポリシーの適応
    • 農業分野における自動化は,労働力不足の解消や生産性向上に不可欠である。
    • 複雑な環境下での収穫ロボットは,閉塞や反射の影響を受けやすく,実用化が困難である。
    • 少ない実データで高精度な収穫を可能とするポリシー適応手法の開発。
    • 実環境のイチゴ収穫において,フルファインチューニングされたpi_0.5が74.0%の成功率を達成した。
    • 1回の収穫あたりの平均時間は32.6秒,損傷率は4.1%であった。
    • 非同期推論による制御分離により,性能が向上した。

    Link: https://arxiv.org/abs/2603.05982

  • 手術器具の自動光学検査に関する技術報告 [cs.DL, cs.CV, cs.AI, eess.IV]目的:手術器具の製造欠陥の特定と修正
    • 現代医療において,手術器具の品質は患者の安全に直結するため,最高水準の維持が不可欠である。
    • わずかな欠陥でも重大な結果を招き得るため,製造における精密性が求められるが,品質管理には課題が多い。
    • 深層学習を用いて自動欠陥検出の精度を高め,手術器具の品質向上に貢献することを目的とする。
    • パキスタン製の4,414枚の高解像度画像データセットを用いて,様々な手術器具の欠陥を分析した。
    • YOLOv8,ResNet-152,EfficientNet-b4等の深層学習アーキテクチャを統合した自動光学検査(AOI)手法を開発した。
    • 製造業者,医療従事者,規制当局が品質保証を強化し,より安全な医療環境を実現するための情報を提供する。

    Link: https://arxiv.org/abs/2603.05987

  • MM-ISTS:マルチモーダルVision-Text LLMによる不規則サンプリング時系列予測の協調 [cs.CL, cs.CV, cs.AI]目的:不規則サンプリング時系列予測のためのマルチモーダルフレームワーク
    • 現実世界では不規則サンプリング時系列データが広く存在し,正確な予測は重要である。
    • 既存手法は文脈や微細な時間パターンを捉えきれていない点が課題である。
    • 時間,視覚,テキスト情報を統合し,より高度な予測モデルを構築することを目指す。
    • MM-ISTSは,視覚-テキストエンコーディングモジュールと時系列エンコーディングモジュールを組み合わせることで,多様な情報を効果的に活用する。
    • マルチモーダルLLMと適応的なクエリベースの特徴抽出器により,計算コストを削減しつつ,有益な知識を抽出する。
    • モダリティ間ギャップを軽減するモダリティ認識ゲート付きマルチモーダルアライメントモジュールを導入した。

    Link: https://arxiv.org/abs/2603.05997

  • RePer-360: 自己変調による360度深度推定への視点事前知識の解放 [cs.CV]目的:360度画像に対する深度推定の性能向上
    • 没入型体験やロボットナビゲーションにおいて,高精度な360度深度情報は不可欠である。
    • 透視画像で学習した既存の深度モデルは,360度画像への汎化性能が低いという課題がある。
    • 事前学習済みの透視画像の知識を維持しつつ,360度画像への適応を実現することを目指す。
    • 提案手法RePer-360は,歪みに対応した自己変調フレームワークを用いて,少量データでの学習を可能にする。
    • ERPとCPという相補的な投影から生成される変調信号により,事前学習済みの知識を維持しつつ,360度画像への適応を促進する。
    • 実験の結果,RePer-360は標準的なファインチューニング手法を凌駕し,RMSEで約20%の改善を達成した。

    Link: https://arxiv.org/abs/2603.05999

  • VLAモデルにおける訓練不要な注意再調整による言語的根拠の回復 [cs.RO, cs.AI, cs.CV]目的:VLAモデルにおける言語と行動の関連性の回復
    • ロボットの汎用的なタスク遂行能力向上には,自然言語指示に基づいた行動計画が不可欠である。
    • VLAモデルは,指示と状況の矛盾に対する頑健性が低く,視覚情報に過度に依存する傾向がある。
    • 言語と状況の矛盾が生じた際に,正しい行動選択を行うためのメカニズムを開発すること。
    • VLAモデルは,矛盾した指示を与えられても視覚的に妥当な行動を継続する「言語的盲目性」を示すことが明らかになった。
    • 新たに開発したICBenchベンチマークを用いて,VLAモデルが論理的に不可能な指示に対しても高い成功率を示す視覚的偏向が確認された。
    • 訓練不要な注意再調整機構IGARを導入することで,矛盾した指示による誤実行を大幅に削減し,既存のタスク性能を維持することに成功した。

    Link: https://arxiv.org/abs/2603.06001

  • 視覚タスクのためのKANの解明:RepKANアプローチ [cs.CV, cs.AI]目的:地球観測におけるリモートセンシング画像分類の性能向上
    • 地球観測は,環境変化の監視や資源管理において不可欠な役割を担う。
    • 標準的なCNNやTransformerは解釈可能性が低く,ブラックボックスとなりやすい。
    • RepKANは,モデルの解釈性を高めつつ,分類精度を向上させることを目指す。
    • RepKANは,CNNの構造的効率性とKANsの非線形表現力を統合した新しいアーキテクチャである。
    • EuroSATとNWPU-RESISC45データセットを用いた実験により,RepKANは最先端モデルを上回り,物理的に解釈可能な推論能力を持つことが示された。
    • RepKANは,将来の解釈可能な視覚基盤モデルのバックボーンとして有望である。

    Link: https://arxiv.org/abs/2603.06002

  • EffectMaker:カスタム視覚効果作成のための推論と生成の統合 [cs.CV]目的:カスタム視覚効果の生成
    • 映像コンテンツの表現力と創造性を高める上で,視覚効果は不可欠である。
    • 効果特有のデータ不足と,超自然的な効果のモデリングの難しさから,既存のAIGCシステムは課題を抱えている。
    • 効果ごとの個別調整を必要とせず,汎用性と拡張性を高めたカスタム視覚効果生成を目指す。
    • EffectMakerは,参照ベースのVFXカスタマイズを可能にする統合的な推論・生成フレームワークである。
    • マルチモーダル大規模言語モデルと拡散Transformerを組み合わせることで,高精度かつ制御可能な視覚効果の合成を実現した。
    • 3,000種類のVFXカテゴリーを含む13万本の高品質な合成データセットEffectDataを構築し,汎化性能と拡張性を向上させた。

    Link: https://arxiv.org/abs/2603.06014

  • 動画からの多物体システム識別 (MOSIV) [cs.CV]目的:多物体システムの識別
    • ロボット工学やコンピュータビジョンの発展において,物体の材質や特性を理解することは重要である。
    • 従来の技術では,単一物体や限られた材質での識別が中心であり,複雑な多物体環境への応用が困難である。
    • 本研究は,複雑な多物体環境において,より正確な物体識別のための新しい手法を提案し,その有効性を示す。
    • 提案手法MOSIVは,微分可能なシミュレーターと幾何学的目的関数を用いることで,連続的な物体パラメータを直接最適化する。
    • 新規合成ベンチマークにおいて,MOSIVは既存手法と比較して,グラウンディング精度とシミュレーション忠実度を大幅に向上させた。
    • 物体レベルの微細な教師データと幾何学的に整合した目的関数が,多物体環境における安定した最適化に不可欠であることが示された。

    Link: https://arxiv.org/abs/2603.06022

  • ViewFusion:多視点推論のための構造化された空間思考連鎖 [cs.CL, cs.CV]目的:多視点空間推論における視点間の関係性と空間変換の推論
    • 視覚と言語を組み合わせたAI開発は,現実世界とのインタラクションに不可欠であり,その性能向上が求められている。
    • 既存モデルは,多視点情報を十分に活用できず,単一画像の情報に依存しがちで,視点変換や遮蔽に対する脆弱性が課題である。
    • 本研究は,視点間の空間的な整合性を高め,より頑健な多視点空間推論を可能にすることを目的とする。
    • ViewFusionは,空間的事前アライメントと質問応答を分離した二段階フレームワークであり,MMSI-BenchにおいてQwen3-VL-4B-Instructより5.3%の精度向上を達成した。
    • 特に,視点間の整合性を必要とする事例において,大幅な改善が見られた。
    • 合成推論による教師あり学習と,GRPOを用いた強化学習により,回答の正確性と二段階生成の安定化を実現した。

    Link: https://arxiv.org/abs/2603.06024

  • StruVis:構造化された視覚情報を用いた思考による推論ベースのテキスト-画像生成の強化 [cs.HC, cs.CV]目的:推論ベースのテキスト-画像生成における性能向上
    • 複雑な指示に対応できる画像生成は,多様な応用において不可欠である。
    • 既存手法では,視覚情報の欠如や計算コストの問題が存在する。
    • テキストベースの構造化視覚表現を活用し,効率的かつ高精度な生成を目指す。
    • StruVisは,中間画像の生成に頼らず,テキストベースの構造化視覚表現を用いることで,大規模言語モデルの推論能力を向上させる。
    • 本手法は,様々なテキスト-画像生成モデルに組み込むことができ,汎用的に性能を向上させることが示された。
    • T2I-ReasonBenchおよびWISEといったベンチマークにおいて,それぞれ4.61%,4%の性能向上を達成した。

    Link: https://arxiv.org/abs/2603.06032

  • オクルージョン認識SORT:頑健なマルチオブジェクトトラッキングのためのオクルージョン観測 [cs.CV]目的:マルチオブジェクトトラッキングにおけるオクルージョンに対する対処法
    • ビデオ内の対象物数を正確に把握することは,監視や自動運転など様々な分野で重要である。
    • 対象物が部分的に隠れるオクルージョンは,位置推定の誤りを引き起こし,トラッキング精度を低下させる。
    • オクルージョンを考慮することで,トラッキングのロバスト性を向上させ,より正確な対象物追跡を実現する。
    • 提案手法OA-SORTは,オクルージョン状態を解析し,背景の影響を低減するガウシアンマップを導入する。
    • OAOとBAMは,オクルージョン状態を活用することで,コストの混乱を軽減し,推定の不安定性を抑制する。
    • DanceTrackデータセットにおいて,OA-SORTはHOTAで63.1%,IDF1で64.2%を達成し,他のトラッカーへの組み込みにも有効性が示された。

    Link: https://arxiv.org/abs/2603.06034

  • 疎なハイパーカラムを用いたアンサンブル学習 [cs.CV]目的:ハイパーカラムに基づく画像セグメンテーションにおけるアンサンブル学習の性能評価
    • 生物学的視覚からの知見に基づき,画像認識の精度向上に貢献する可能性を秘めている
    • ハイパーカラムの計算コストが高く,大規模データセットへの適用が困難であった
    • 層化サブサンプリングとアンサンブル学習により,計算コストを削減し,精度向上を目指す
    • 脳腫瘍データセットにおいて,スタッキングと投票によるアンサンブル学習が良好な性能を示した
    • 特に,学習データ数が20以下といった極端な低ショットの場合,ロジスティック回帰が最も効果的であった
    • 10%の層化サブサンプリングで平均Dice係数が0.66となり,標準的なMulti-scale UNetよりも有意に高い精度を達成した

    Link: https://arxiv.org/abs/2603.06036

  • フォント利用:スタイルとユースケースに条件付けされた画像内タイポグラフィへのデータ中心アプローチ [cs.CV, cs.GR]目的:スタイルとユースケースに基づいた画像内タイポグラフィ生成
    • 近年の画像生成AIの発展は目覚ましいが,タイポグラフィ制御は未だ課題である。
    • テキストから画像を生成する際,指定したタイポグラフィが反映されない,または弱くしか反映されないという問題がある。
    • タイポグラフィに特化した大規模データセットを用いて,生成モデルのタイポグラフィ制御能力を向上させる。
    • 本研究では,タイポグラフィに焦点を当てた大規模データセット「FontUse」を構築した。
    • 構築したデータセットを用いて既存の生成モデルをファインチューニングすることで,タイポグラフィのスタイルやユースケースへの対応精度が向上した。
    • 提案するLong-CLIPに基づく評価指標により,生成されたタイポグラフィが要求された属性と一致することを確認した。

    Link: https://arxiv.org/abs/2603.06038

  • 理解を通じた生成学習:統一マルチモーダルモデルのための理解駆動型内在報酬 [cs.DC, cs.NI, cs.SY, eess.SY, cs.CV]目的:統一マルチモーダルモデルにおける生成能力の向上
    • 視覚的理解と生成を統合する統一マルチモーダルモデルは,複雑なテキストから画像生成タスクにおいて高い可能性を持つ。
    • 既存モデルは視覚的理解力は高いものの,生成能力が相対的に低いという課題を抱えている。
    • 理解プロセスを活用し,生成品質を向上させる内在報酬メカニズムを提案することで,この能力のギャップを縮小することを目指す。
    • 提案手法GvUは,モデル自身が生成結果を評価し,理解に基づいた報酬を与えることで,生成能力を大幅に向上させる。
    • 生成能力の向上は,モデルの視覚的理解力も強化し,理解と生成の間の能力差を縮小することに貢献する。
    • 外部からの教師信号に依存せず,自己教師あり強化学習フレームワークにより,反復的に生成品質を向上させることが可能となる。

    Link: https://arxiv.org/abs/2603.06043

  • GenHOI:時間的バランスと空間選択的なオブジェクト注入によるオブジェクト一貫性のあるハンドオブジェクトインタラクションへ [cs.CV]目的:デジタルヒューマン動画合成における,物理的に妥当な接触とフレーム間のオブジェクト同一性維持
    • デジタルヒューマン動画合成において,自然なハンドオブジェクトインタラクションは不可欠である。
    • 既存手法は特定ドメインに偏り,現実世界の複雑な状況への汎化が困難である。
    • GenHOIは,汎化性能とインタラクションの忠実性を両立させることを目指す。
    • GenHOIは,事前学習済みの動画生成モデルに軽量な拡張を加えることで,参照オブジェクト情報を時間的・空間的に選択的に注入する。
    • Head-Sliding RoPEにより,参照トークンの影響をフレーム全体に均等に分散し,オブジェクトの一貫性を向上させる。
    • 二段階の空間注意ゲートにより,HOI領域への注意を集中させ,背景のリアリズムを維持しながらインタラクションの忠実度を高める。

    Link: https://arxiv.org/abs/2603.06048

  • 狭いポリシーに潜む悪魔:VLAモデルにおける探求の解放 [cs.CV, cs.RO]目的:自律型VLAモデルの性能を阻害する狭いポリシーの限界
    • 自動運転技術は,安全性と効率性の向上に不可欠であり,社会実装が期待されている。
    • 模倣学習が探索を抑制し,その後の強化学習の性能向上を妨げることが課題である。
    • 多様なフィードバックを得ることで,強化学習の早期飽和を防ぎ,VLAモデルの探求能力を高める。
    • 提案手法Curious-VLAは,IL段階で物理的に有効な軌跡を生成し,多様なデータに適応する。
    • RL段階では,多様性の高いサンプルを優先し,運転品質に対する報酬の感度を高める。
    • Navsimベンチマークにおいて,最先端の結果(PDMS 90.3,EPDMS 85.4)を達成し,有効性が示された。

    Link: https://arxiv.org/abs/2603.06049

  • 自動運転のための軽量な視覚言語モデルにおける視覚概念の探求 [cs.CV, cs.AI]目的:自動運転における視覚言語モデルの視覚概念のエンコード特性の解明
    • 自動運転には,複雑な状況への対応能力が不可欠であり,視覚情報と自然言語処理の統合が重要となる。
    • 既存の視覚言語モデルは,自動運転に重要な単純な視覚質問に誤答することが多く,その原因が不明である。
    • 視覚言語モデルの活性化を分析し,視覚情報のエンコードのボトルネックを特定することで,その性能向上を目指す。
    • 物体やエージェントの存在といった概念は明示的に線形にエンコードされる一方,姿勢のような空間概念は暗黙的にエンコードされることが示された。
    • 線形にエンコードされた情報が存在していても,言語の意味との整合性の欠如により正答に至らない「認知的な失敗」の様相が確認された。
    • 対象物体の距離が離れるにつれて,対応する視覚概念の線形分離性が低下することが示され,モデルの限界が明らかになった。

    Link: https://arxiv.org/abs/2603.06054

  • TempoSyncDiff:蒸留による一時的整合性拡散を用いた低遅延な音声駆動対話頭部生成 [cs.CV, cs.AI, cs.LG, cs.SD]目的:低遅延な音声駆動対話頭部生成のための手法
    • リアルな人間合成技術は進歩したが,実用的な対話頭部生成には課題が多い。
    • 既存手法では,推論遅延が大きい,時間的な不安定さがある,音声と映像の同期が不完全などの問題がある。
    • 拡散モデルの蒸留により,低遅延かつ安定した対話頭部生成を実現することを目指す。
    • 蒸留された拡散モデルは,より強力な教師モデルの再構成性能を維持しつつ,大幅な低遅延推論を可能にする。
    • TempoSyncDiffは,アイデンティティアンカーと時間的正則化により,アイデンティティのずれやフレーム間のちらつきを軽減する。
    • CPUやエッジコンピューティング環境での遅延評価も行われ,エッジデバイスへの展開の実現可能性が示唆された。

    Link: https://arxiv.org/abs/2603.06057

  • 全方位RGB-LiDARデータを3D Gaussian Splattingへ変換 [cs.CV, cs.RO]目的:大規模デジタルツインの構築
    • ロボティクスや自動運転分野で大規模デジタルツインの需要が急速に高まっている。
    • 既存の3DGS構築は専用データ収集にコストがかかるため,アーカイブされたセンサーデータの活用が課題である。
    • 標準的なアーカイブセンサーログからシミュレーション可能なデジタルツインを構築するワークフローを確立する。
    • 本パイプラインは,全方位RGB-LiDARログを3DGSのロバストな初期化アセットに変換する。
    • ERP-to-cubemap変換とPRISMによるカラー層化ダウンサンプリングにより,非線形歪みやLiDARクラウドの計算負荷を克服。
    • LiDAR強化による初期化は,構造の複雑なシーンにおいて,ビジョンのみの場合と比較して3DGSレンダリングの忠実度を向上させる。

    Link: https://arxiv.org/abs/2603.06061

  • テキスト駆動型感情連続生成談話顔 [cs.CV, cs.AI]目的:感情連続生成談話顔の実現
    • 人間との自然なコミュニケーションにおいて,表情は重要な役割を担うため。
    • 既存の談話顔生成技術では,固定された感情表現に限られ,自然な感情変化の再現が困難である。
    • テキストと感情記述に基づき,自然な感情変化を伴う談話顔動画を生成すること。
    • 提案手法は,時間変化に強い感情変動モデリングにより,入力テキストに対応した連続的な表情変化を実現した。
    • 多様な感情状態において,滑らかな感情遷移と高品質な映像・動きの自然さを両立している。
    • 感情の連続的な変化を反映した,よりリアルな談話顔動画の生成に貢献する。

    Link: https://arxiv.org/abs/2603.06071

  • 干渉路における分散意味的アライメント:ゲーム理論的アプローチ [cs.IT, cs.GT, math.IT]目的:干渉路における分散意味的アライメントの最適化
    • AI駆動システムにおいて,効率的なタスク遂行には意味伝達が不可欠である。
    • 異なるロジックや内部表現により,意味的な不整合が生じ,通信の妨げとなる。
    • 複数デバイスの干渉環境下での意味的共存と潜在空間のずれを解決する。
    • 提案手法は,線形MIMOトランシーバの分散非協調ゲームによる共同最適化を可能にする。
    • ナッシュ均衡の存在条件を導出し,送信と意味的アライメント戦略を最適化する。
    • 数値結果は,情報圧縮,干渉軽減,意味的アライメント,タスク性能間のトレードオフを示す。

    Link: https://arxiv.org/abs/2603.06077

  • 大規模基盤モデルにおける幻覚検出のための Lyapunov プローブ [cs.CV]目的:大規模言語モデルおよびマルチモーダル大規模言語モデルにおける幻覚検出
    • 言語モデルの性能向上は重要だが,誤った情報を生成する「幻覚」の問題が存在する。
    • 既存手法では,幻覚を正確に検出することが困難であり,モデルの信頼性低下につながる。
    • モデルの知識表現空間における安定性を評価し,幻覚が発生しやすい領域を特定すること。
    • Lyapunov プローブは,入力の摂動に対する信頼性の単調減少を強制する,微分ベースの安定制約で訓練された軽量なネットワークである。
    • 本研究では,多様なデータセットとモデルを用いて,既存のベースラインと比較して一貫した性能向上を示した。
    • 幻覚は,知識遷移領域の境界付近で発生する傾向があり,Lyapunov プローブはこの現象を捉えることができる。

    Link: https://arxiv.org/abs/2603.06081

  • DeepSight:深度マップと言語を架橋する深度駆動型マルチモーダルモデル [cs.CV, cs.CL]目的:深度情報を活用した三次元シーン理解の向上
    • 画像認識や言語処理の融合は,より高度な情報理解を可能にする重要な研究分野である。
    • 既存のマルチモーダル大規模言語モデルは,視覚データの持つ深度情報を十分に活用できていない。
    • 深度マップの特性を活かすことで,空間推論能力を向上させ,より正確な三次元シーン理解を目指す。
    • DeepSightは,RGB画像とテキストのアラインメントに加え,深度画像の特性を活かした新たなアプローチを採用している。
    • 深度データが限られている問題に対し,深度画像-テキストペアデータセットと深度指示データセットを新たに構築した。
    • 実験結果から,DeepSightは深度認識と下流タスクの性能を大幅に向上させ,マルチモーダル三次元理解における重要な進歩を示した。

    Link: https://arxiv.org/abs/2603.06090

  • FedARKS:ロバストかつ識別的な知識選択と統合による連合学習アプローチ - 人物再識別への応用 [cs.RO, cs.CV]目的:人物再識別における,連合ドメイン汎化能力の向上
    • プライバシー保護が重要視される中,分散データを用いた学習の需要が高まっている。
    • 既存手法は,汎化性能が十分でなく,特に未知ドメインでの識別精度に課題がある。
    • ロバストかつ識別的な知識の選択と統合により,ドメイン汎化能力を向上させる。
    • 本研究では,RK(ロバスト知識)とKS(知識選択)の二つのメカニズムを組み込んだFedARKSを提案する。
    • RKは,微妙なドメイン不変的な局所的な特徴を捉え,KSは高品質なクライアントの貢献度を高める。
    • これにより,既存手法が抱える課題を克服し,人物再識別におけるドメイン汎化能力を改善できる。

    Link: https://arxiv.org/abs/2603.06122

  • 拡散蒸留のためのクロス解像度分布一致 [cs.CV]目的:高品質かつ高速な画像生成を実現するための蒸留フレームワーク
    • 画像生成における処理速度向上は,実用化において重要な課題である。
    • 既存の拡散蒸留法では,ステップ数削減による高速化に限界がある。
    • 低解像度生成時の画質劣化を抑制し,高速化と高画質化を両立すること。
    • 提案手法RMDは,解像度間における分布のずれを解消することで,高画質かつ高速な多解像度カスケード推論を実現した。
    • logSNRに基づいたマッピングにより,解像度変化による分布シフトを補正し,低解像度生成器の分布を教師モデルの分布に近づけた。
    • SDXLでは最大33.4倍,Wan2.1-14Bでは25.6倍の高速化を達成し,高い視覚的品質を維持した。

    Link: https://arxiv.org/abs/2603.06136

  • Place-it-R1:動画オブジェクト挿入のためのMLLMの環境認識推論能力の解放 [cs.CV, cs.AI]目的:動画オブジェクト挿入における,環境を意識した推論能力の活用
    • 動画編集技術は高度化の一途を辿るが,物理的な因果関係の考慮が課題である。
    • 既存手法は視覚的な忠実度を優先し,物理的に不整合な編集が生じやすい。
    • 本研究は,物理的に妥当な動画オブジェクト挿入を実現することを目的とする。
    • Place-it-R1は,大規模マルチモーダル言語モデル(MLLM)の思考連鎖(CoT)を活用し,動画拡散を制御する「Think-then-Place」というフレームワークである。
    • MLLMによる物理シーン理解と相互作用推論により,拡散モデルへの誘導を改善し,自然な挿入を実現する。
    • ユーザーは,物理的妥当性を重視する柔軟モードと,シーンの整合性を重視する標準モードを選択できる。

    Link: https://arxiv.org/abs/2603.06140

  • 空間色混合錯覚による視覚言語モデルの知覚ストレステスト [cs.CV]目的:視覚言語モデルにおける知覚的脆弱性の評価
    • 視覚言語モデルの性能向上は重要だが,人間とは異なる知覚を持つ可能性が課題である。
    • わずかな画像変化で,モデルが誤った予測をする場合があり,頑健性に問題がある。
    • 空間色混合錯覚を利用し,モデルの知覚的脆弱性を定量的に評価する。
    • 空間色混合による歪みが大きくなるにつれて,モデルの精度は大幅に低下することが確認された。
    • 言語モデルの規模を拡大しても,この精度低下を確実に軽減することはできなかった。
    • 人間は同じ歪み下でモデルよりも遥かに優れた性能を発揮し,モデルの知覚的脆弱性を裏付けた。

    Link: https://arxiv.org/abs/2603.06141