arXiv雑要約

画像・音声 - 2026/03/26 公開

  • VERIA:検証を中心としたマルチモーダルインスタンス拡張による長尾3次元物体検出 [cs.CV]目的:長尾分布を持つ3次元物体検出における,希少クラスの検出性能向上
    • 自動運転における3次元物体検出は,安全性確保の基盤技術であり,その精度向上は不可欠である。
    • 運転データセットは長尾分布を示すことが多く,希少クラスの学習データが不足し,検出性能が低下しやすい。
    • 既存のインスタンス拡張手法の多様性とシーンへの適合性を高め,希少クラスの検出精度を向上させる。
    • 提案手法VERIAは,既存の基盤モデルを活用し,RGB-LiDARインスタンスを合成することで,希少クラスへの露出を増やし,多様性を向上させる。
    • 検証を中心とした設計により,実際のLiDAR統計に適合しつつ,クラス内変動の広い範囲を網羅するインスタンスを選択する。
    • nuScenesおよびLyftデータセットにおける実験により,VERIAがLiDAR単独およびマルチモーダル設定の両方で希少クラスの3次元物体検出性能を向上させることが示された。

    Link: https://arxiv.org/abs/2603.24294

  • RS-SSM:ビデオセマンティックセグメンテーションのための状態空間モデルにおける忘れられた詳細の改良 [cs.CV]目的:ビデオセマンティックセグメンテーションのための状態空間モデルにおける詳細な情報の改良
    • ビデオセマンティックセグメンテーションは,自動運転やロボティクスなどの分野で不可欠な技術である。
    • 状態空間モデルは効率的だが,固定サイズの状態空間が詳細な情報を忘れてしまうという課題がある。
    • 状態空間モデルで忘れられた詳細情報を補完し,ピクセルレベルのセグメンテーション精度を向上させる。
    • 提案手法RS-SSMは,チャネルごとの振幅知覚器(CwAP)と忘却ゲート情報リファイナー(FGIR)を導入することで,忘れられた時空間的な詳細情報を効果的に補完する。
    • 実験の結果,RS-SSMは4つのVSSベンチマークにおいて最先端の性能を達成し,高い計算効率を維持している。
    • 忘却ゲートを反転させることで,状態空間圧縮中に失われた詳細情報を補完し,時空間的なピクセルレベルのセグメンテーション能力を向上させている。

    Link: https://arxiv.org/abs/2603.24295

  • 著者認証型医用画像融合モデル:組み込み認証による知的財産保護 [cs.CV]目的:医用画像融合における知的財産権保護のメカニズム
    • 医用画像融合は精密な病変局在化と特徴付けを可能にし,臨床判断を支援する重要技術である。
    • 既存の融合モデルは知的財産権を保護する仕組みがなく,推論時の情報漏洩リスクがある。
    • AMIFは認可制御を融合目的組み込み,不正利用時に著作権表示を埋め込むことで解決を目指す。
    • 本研究で提案するAMIFは,医用画像融合モデルとして初めて,組み込み認証による著者認証機能を搭載した。
    • AMIFは,不正な利用に対して,融合結果に明確な著作権識別子を埋め込むことで知的財産を保護する。
    • 正当なキーによる認証に成功した場合にのみ,高品質な融合結果を提供することでセキュリティを確保する。

    Link: https://arxiv.org/abs/2603.24296

  • 時空間交通ダイアグラムの改良:近傍適応線形回帰法 [cs.CL, cs.CV]目的:時空間交通ダイアグラムの解像度向上
    • 交通流の動的変化を把握する上で重要であり,交通理論研究や実用化に不可欠である。
    • 観測精度やサンプリング周波数に制約され,既存のダイアグラムは低解像度になりがちである。
    • 近傍適応線形回帰により,低解像度のダイアグラムを高解像度に改良し,精度の向上を目指す。
    • 本研究で提案する近傍埋め込みに基づく改良法は,従来の線形モデルによる過剰平滑化を回避し,交通波の伝播や渋滞の変化といった特徴を捉える。
    • 実データを用いた検証の結果,MAE,MAPE,CMJS,SSIM,GMSDといった指標において,既存手法と比較してそれぞれ9.16%,8.16%,1.86%,3.89%,5.83%の改善が見られた。
    • 少量の高解像度・低解像度ペアデータのみで学習可能であり,低コストで高精度なダイアグラムの改良を実現する基盤となる。

    Link: https://arxiv.org/abs/2603.24312

  • 対称型一括入札オークションにおける効率的な均衡計算 [cs.GT, cs.CC]目的:対称型一括入札オークションにおけるベイジス・ナッシュ均衡の計算
    • オークションは資源配分の重要な手段であり,その効率性は経済全体に影響する。
    • 均衡計算の複雑さから,現実的な規模のオークションでは効率的なアルゴリズムが求められていた。
    • 独立同分布する入札者価値を持つオークションにおける均衡計算の複雑性を解決する。
    • 入札者の価値が同一の連続分布から独立に抽出される場合,効率的なアルゴリズムを初めて設計した。
    • 分布が直接入力として与えられる「ホワイトボックスモデル」と,オラクル呼び出しを通じてアクセスされる「ブラックボックスモデル」の双方で,多項式時間アルゴリズム及びクエリ効率の良いアルゴリズムを開発した。
    • これにより,独立同分布な価値を持つ入札者に対する均衡計算の計算複雑性が確定した。

    Link: https://arxiv.org/abs/2603.24317

  • 不利な条件下におけるドメイン適応セマンティックセグメンテーションのためのヒューリスティック自己ペース学習 [cs.CY, cs.CV]目的:ドメイン適応セマンティックセグメンテーションにおける学習順序の最適化
    • セマンティックセグメンテーションは,自動運転やロボット工学など,様々な応用分野で重要な役割を果たす。
    • 悪天候下では,ドメイン間の差異が大きくなり,セマンティックセグメンテーションの性能が著しく低下する。
    • 既存手法の固定的な学習順序では,モデルの学習状況に適応できず,性能向上が限界がある。
    • 本研究では,強化学習に着想を得て,自律的に学習順序を決定するカリキュラム学習手法を提案した。
    • 提案手法は,モデルの状態を潜在空間にマッピングし,進捗状況を示す特徴を抽出する高次元状態エンコーダと,クラス間の公平性を重視した方策勾配目的関数で構成される。
    • ACDC,Dark Zurich,Nighttime Drivingの3つのベンチマークデータセットで最先端の性能を達成し,汎化性能も実証された。

    Link: https://arxiv.org/abs/2603.24322

  • 粗視覚処理による文書解析効率と性能の向上 [cs.OH, cs.CV, cs.AI, cs.IR]目的:文書解析の効率と性能向上
    • 文書認識は,デジタル化社会において重要な技術であり,情報へのアクセスを容易にする。
    • 高解像度画像は性能向上に寄与するが,計算コストが指数関数的に増加する点が課題である。
    • 視覚的に冗長な領域を抑制し,効率的な文書解析を実現することで,計算コストを削減する。
    • 提案手法PaddleOCR-VLは,文書の重要な領域に焦点を当てることで,効率と性能を両立した。
    • ページレベル解析と要素レベル認識の両方において,既存手法を上回る最先端の性能を達成した。
    • 少ないトークン数とパラメータで高速な推論が可能となり,文書理解の効率化に貢献する。

    Link: https://arxiv.org/abs/2603.24326

  • Le MuMo JEPA:学習可能な融合トークンを用いたマルチモーダル自己教師あり表現学習 [cs.CV]目的:RGB画像と関連する他のモダリティからの統一的な表現学習
    • 自動運転などの分野において,多様なセンサーからの情報を統合的に理解することが重要である。
    • 従来の自己教師あり学習は単一のモダリティに依存しており,異種センサーからの補完的な構造を活用できていない。
    • 異なるモダリティ間の情報を効率的に融合し,高性能で計算コストの低い表現学習を実現することを目指す。
    • Le MuMo JEPAは,Waymoデータセットにおいて,他のマルチモーダルベースラインモデルよりも優れた性能効率のトレードオフを実現した。
    • nuScenesデータセットにおいても,Le MuMo JEPAは最高の性能を維持し,FLIRベンチマークにおいても,特にWaymoで初期化されたファインチューニング後に優れた結果を示した。
    • 本手法は,計算量,メモリ使用量,推定トレーニング時間において,全体的な精度と効率のバランスが優れていることが示された。

    Link: https://arxiv.org/abs/2603.24327

  • ゲームプレイQA:3D仮想エージェントのPOV同期マルチビデオ理解のためのベンチマークフレームワーク [cs.CL, cs.AI, cs.CV]目的:エージェント中心の知覚と推論の評価
    • 3D環境における自律エージェントの応用が拡大しており,高度な知覚能力が不可欠である。
    • 既存のベンチマークは,エージェントの視点からの迅速な状態変化の理解や,複数エージェントの同時行動の推論を十分に評価していない。
    • マルチエージェント環境における知覚と推論能力を詳細に分析するためのフレームワークを提供する。
    • GameplayQAは,1秒あたり1.22個のラベル密度で,状態,行動,イベントを時系列同期してアノテーションしたマルチプレイ3Dゲームプレイ動画のデータセットである。
    • 最先端のマルチモーダルLLMの評価により,人間のパフォーマンスとの大きな隔たりが明らかになり,特に時間的・クロスビデオのグラウンディング,エージェントの役割の属性付けに課題があることが示された。
    • 本研究は,身体化AI,エージェント知覚,世界モデル構築の交差点における今後の研究を促進することを目指している。

    Link: https://arxiv.org/abs/2603.24329

  • ニューロンレベルのdropinと神経可塑性メカニズムによるディープフェイク音声検出の効率と性能の向上 [cs.HC, cs.SD, cs.AI]目的:ディープフェイク音声検出における効率と性能の向上
    • 音声技術の発展に伴い,ディープフェイク音声による偽情報拡散のリスクが高まっている。
    • 大規模モデルは高性能だが,パラメータ数増加に伴い計算コストが課題となっている。
    • ニューロンレベルでの動的なパラメータ調整により,計算効率と性能のバランス改善を目指す。
    • 提案手法dropinにより,計算効率の向上が確認された。
    • dropinおよび神経可塑性アプローチにより,ASVSpoof2019データセットで最長約39%と66%の等価エラー率の相対的な削減が達成された。
    • 本研究成果は,Githubで公開されている。

    Link: https://arxiv.org/abs/2603.24343

  • 言語誘導構造認識ネットワークによる擬態物体検出 [cs.CV, cs.AI]目的:擬態物体検出における性能向上
    • 画像中の擬態物体は,色やテクスチャが背景と一体化しており,検出が極めて困難である。
    • 既存手法は多スケール融合や注意機構を用いるものの,テキストによる意味的先験知識の活用が不足している。
    • 複雑なシーンにおいて,モデルが擬態領域に焦点を当てられるよう,テキスト情報を活用する。
    • 提案手法は,PVT-v2を視覚バックボーンとし,CLIPを用いてテキストプロンプトとRGB画像からマスクを生成し,特徴抽出を誘導する。
    • フーリエエッジ強調モジュール(FEEM)を設計し,周波数領域で高周波情報を統合することで,エッジ強調特徴を抽出する。
    • 構造認識注意モジュール(SAAM)を提案し,物体構造と境界の認識能力を向上させ,粗いガイドによる局所的な洗練モジュール(CGLRM)で精度を高める。

    Link: https://arxiv.org/abs/2603.24355

  • PP-OCRv5:OCRタスクにおいて数十億パラメータのビジョン言語モデルに匹敵する,専門特化型500万パラメータモデル [cs.CL, cs.CV]目的:OCRタスクにおける高性能なテキスト認識システムの開発
    • 光学文字認識(OCR)技術は,文書のデジタル化や情報抽出において不可欠である。
    • 大規模モデルは計算コストが高く,複雑なレイアウトでの正確なテキスト位置特定が課題である。
    • 高品質なデータセットを用いて軽量モデルの性能向上を目指す。
    • PP-OCRv5は,500万パラメータという軽量なモデルでありながら,数十億パラメータのビジョン言語モデルに匹敵する性能を達成した。
    • テキスト位置特定精度が高く,テキストの幻覚現象を抑制する効果が確認された。
    • データ難易度,精度,多様性が性能に重要な影響を与えることが示された。

    Link: https://arxiv.org/abs/2603.24373

  • GeoRouter:世界規模の画像地理位置特定のための動的パラダイムルーティング [cs.CL, cs.CV]目的:世界規模の画像地理位置特定における最適なパラダイム選択
    • 画像地理位置特定は,画像から正確なGPS座標を予測する技術であり,多様な視覚情報と地理的情報を扱う上で重要である。
    • 既存手法は,検索ベースと生成ベースの二つのパラダイムに分かれ,それぞれに弱点があり,単一のパラダイムでは限界がある。
    • GeoRouterは,画像の内容に応じて最適なパラダイムを動的に選択することで,地理位置特定精度の向上を目指す。
    • GeoRouterは,視覚内容の分析に基づき,動的に最適なパラダイムを選択するルーティングフレームワークである。
    • 距離を考慮した優先度損失関数を用いることで,パラダイム間の性能差を連続的な学習信号として反映させている。
    • IM2GPS3kとYFCC4kデータセットを用いた実験により,既存の最先端手法と比較してGeoRouterが大幅に性能向上を達成した。

    Link: https://arxiv.org/abs/2603.24376

  • ViHOI:視覚的事前知識を用いた人間と物体のインタラクション合成 [cs.CV]目的:人間と物体のインタラクション合成の質的向上
    • モーション生成において,現実的かつ物理的に妥当な人間と物体のインタラクションを生成することは重要である。
    • 言葉だけで物理的な制約を記述することは難しく,インタラクション合成のボトルネックとなっている。
    • 容易に入手可能な2D画像からインタラクションの事前知識を抽出し,生成品質の向上を目指す。
    • ViHOIは,大規模なVision-Language Model (VLM) を利用し,2D画像から豊富なタスク固有の事前知識を抽出する。
    • VLMの機能を活用し,層分離戦略とQ-Formerベースのアダプターを用いることで,拡散モデルの条件付き学習を促進する。
    • 実験結果から,ViHOIは既存手法を凌駕し,未学習のオブジェクトやインタラクションカテゴリへの汎化性能も高いことが示された。

    Link: https://arxiv.org/abs/2603.24383

  • 医療画像分析における因果的転移 [cs.OH, cs.CV]目的:医療画像分析における因果的転移学習の体系化
    • 医療AIの臨床応用には,病院や機器間のデータ分布のずれが課題となる
    • 従来の転移学習は,見かけ上の相関に依存しやすく,条件変化で性能が低下する
    • 因果推論を用いて,環境変化に安定な不変メカニズムを特定し,汎化性能を高める
    • 本調査では,因果的転移学習(CTL)を導入し,分類,セグメンテーション等のタスクにおける有効性を体系的に整理した
    • CTLは,構造因果モデルや不変リスク最小化などの手法を統合し,ドメインシフトを因果的な問題として捉える
    • CTLは,公平性,ロバスト性,信頼性を高め,多施設共同研究や連合学習といった臨床現場での応用を支援する

    Link: https://arxiv.org/abs/2603.24388

  • テキスト駆動3D手動生成のための教師・生徒拡散モデル [cs.CV]目的:テキストからの3D手動生成
    • VR,ロボティクス,HCI等の発展には,自然な手動生成技術が不可欠である。
    • 既存手法は全身運動に偏りがちで,詳細な手ジェスチャーの再現が課題である。
    • 3Dオブジェクトを必要とせず,汎用的な手動生成を実現する。
    • TSHaMoは,テキストのみから手動を生成する生徒モデルと,補助信号で教師モデルを組み合わせた拡散モデルである。
    • 共同学習により,生徒モデルは教師モデルの予測を活用しつつ,推論時にはテキストのみで動作する。
    • GRABおよびH2Oデータセットでの評価で,TSHaMoはモーションの品質と多様性を向上させた。

    Link: https://arxiv.org/abs/2603.24407

  • 反復による識別:ゼロショットTTS評価における識別力と信頼性の向上 [cs.SD]目的:ゼロショットTTS評価のためのフレームワーク
    • TTS技術の進歩に伴い,客観的かつ信頼性の高い評価手法が求められている。
    • 既存の客観指標は性能差を識別できず,主観評価はコストと再現性の問題がある。
    • 反復合成による性能劣化の差を利用し,より信頼性の高い自動評価を実現する。
    • 提案手法I2Dは,モデル自身の出力を参照として利用する反復合成を行い,性能差を拡大する。
    • I2DはUTMOSv2データセットにおいて,システムレベルのSRCCを0.118から0.464に向上させた。
    • 中国語,英語,感情データセットの11モデルで,I2Dの有効性が確認された。

    Link: https://arxiv.org/abs/2603.24430

  • 大規模音声認識における学習対象とタイミング:大規模スピーカー検証のためのカリキュラムランキング損失 [cs.SD, cs.CL]目的:大規模スピーカー検証における性能向上
    • 音声認識技術は,セキュリティや対話システムなど幅広い分野で重要であり,その精度向上は不可欠である。
    • 大規模データを用いたスピーカー検証では,誤ったラベルや質の低いデータが学習の妨げとなる。
    • 質の低いデータの影響を軽減し,スピーカー検証の精度を向上させる。
    • 提案手法Curryは,サブセンターArcFaceを用いてサンプル難易度をオンラインで推定し,学習データを選別する。
    • Curryは,VoxCeleb1-OとSITWの評価において,それぞれEERを86.8%と60.0%削減し,高い性能を示した。
    • 本研究は,大規模スピーカー検証システムにおける新たなアプローチを確立した。

    Link: https://arxiv.org/abs/2603.24432

  • 虚弱の歩行シグネチャ:スケーラブルな虚弱性評価のための転移学習に基づく深層歩行モデル [cs.CV]目的:歩行データを用いた虚弱性評価のための深層学習モデルの性能評価
    • 高齢化社会において,健康寿命の延伸と医療費削減のため,虚弱性の早期発見と予防が重要である。
    • 既存の虚弱性評価は主観的で,データのばらつきが大きく,大規模な臨床応用が困難である。
    • 歩行データを活用し,限られたデータでも高精度な虚弱性評価を実現する手法を開発すること。
    • 事前学習済みの歩行認識モデルを転移学習させることで,虚弱性の分類性能を向上させることが示された。
    • 低レベルの歩行表現を固定し,高レベルの特徴量を適応させることで,より安定した汎化性能が得られた。
    • モデルの注意機構解析により,下肢と骨盤領域への注目が虚弱性のバイオメカニクス的相関と一致することが確認された。

    Link: https://arxiv.org/abs/2603.24434

  • CUA-Suite:コンピュータ利用エージェントのための大規模な人間によるビデオ実演データセット [cs.LG, cs.AI, cs.CV]目的:コンピュータ利用エージェントのための大規模なビデオ実演および詳細なアノテーションの提供
    • 複雑なデスクトップワークフローの自動化は重要だが,高品質な実演ビデオの不足が課題となっている。
    • 既存のデータセットは,連続したビデオが少なく,スナップショットが中心であるため,エージェントの性能向上が制限されている。
    • 連続ビデオと詳細なアノテーションを提供することで,汎用的なコンピュータ利用エージェント開発を促進する。
    • CUA-Suiteは,87種類のアプリケーションにおける約10,000件の人間の実演タスクを含む,約55時間のビデオを提供。
    • 既存の基盤モデルは,プロフェッショナルなデスクトップアプリケーションにおいて高いタスク失敗率(約60%)を示すことが判明。
    • 本データセットは,汎用的な画面解析,連続的な空間制御,ビデオベースの報酬モデリングなど,新たな研究方向を支援する。

    Link: https://arxiv.org/abs/2603.24440

  • 深偽ビデオ検出のためのビジョン言語意味論の活用 [cs.CV]目的:深偽ビデオ検出における識別能力の向上
    • 映像と言語を組み合わせた解析は,従来の画像処理では困難だった微細な偽装を見抜く鍵となる。
    • 既存手法は視覚的特徴に偏っており,ビジョン言語モデルが持つ潜在空間内の豊かな意味情報を十分に活用できていない。
    • クロスモーダル意味論を活用し,各アイデンティティに特化した特徴を捉えることで,検出精度を向上させる。
    • 提案手法VLAForgeは,ForgePerceiverを用いて多様な偽装の兆候を捉え,VLMの視覚的認識能力を向上させる。
    • Identity-Aware VLAスコアは,クロスモーダル意味論と偽装兆候を組み合わせることで,より識別力の高い特徴を提供する。
    • 様々なベンチマークにおいて,VLAForgeは最先端手法を凌駕する性能を示し,フレームレベルおよびビデオレベルで高い検出精度を達成した。

    Link: https://arxiv.org/abs/2603.24454

  • OmniWeaving:自由形式の構成と推論による統合的な動画生成へ [cs.CV]目的:統合的な動画生成のためのモデルとベンチマーク
    • 動画生成技術は,エンターテイメントや教育など幅広い分野で重要性が増している。
    • オープンソースの動画生成モデルは,高度な機能を備えた商用システムに大きく遅れを取っている。
    • 多様なタスクを単一のフレームワークでシームレスに統合した動画生成モデルを開発すること。
    • OmniWeavingは,大規模な事前学習データセットを活用し,テキスト,画像,動画を時間的に結合する能力を獲得した。
    • 複雑なユーザーの意図を推論し,高度な動画作成を可能にするインテリジェントエージェントとして機能する。
    • オープンソースの統合モデルの中で最先端の性能を達成し,新たなベンチマークIntelligentVBenchも導入した。

    Link: https://arxiv.org/abs/2603.24458

  • 数を用いない計数と,言葉を用いない発見 [cs.RO, cs.CL, cs.FL, cs.CV, cs.AI, cs.CL, cs.SI]目的:ペットの再会率向上に資する,視覚と聴覚を組み合わせた生体認証システム
    • 動物愛護の観点から,飼い主とペットの再会は重要な課題である。
    • 既存の再会支援システムは外見のみに依存し,聴覚情報が活用されていない。
    • 動物の聴覚による認識に着目し,再会率向上を目指す。
    • 本研究では,10Hzのゾウの咆哮から4kHzの子犬の鳴き声まで,様々な動物の鳴き声を処理するシステムを開発した。
    • 視覚情報と聴覚情報を組み合わせることで,ストレスによる外見の変化に左右されない確率的マッチングを実現した。
    • 言語を持たない弱者を支援するAIの可能性を示唆する。

    Link: https://arxiv.org/abs/2603.24470

  • ポジティブ優先最重要曖昧性:希少カテゴリのインタラクティブ検索のための単純な能動学習基準 [cs.CV, cs.HC, cs.IR]目的:希少カテゴリのインタラクティブ検索における能動学習基準
    • 生態モニタリング等において,データに占める割合が少ないカテゴリの検索が重要である。
    • 従来の能動学習はクラスの事前分布が対称的であることを仮定しており,不均衡データには不向きである。
    • 不均衡データにおける効率的な能動学習基準を確立し,希少カテゴリの検索精度を向上させる。
    • 提案手法PF-MAは,正例を優先的に選択することで,初期段階での検索精度とユーザ満足度を向上させる。
    • PF-MAは,負例の過剰サンプリングを避け,関連性の高いサンプルを効率的に選択する。
    • 実験の結果,PF-MAは既存手法と比較して,カバレッジと分類器性能の両方で優れていることが示された。

    Link: https://arxiv.org/abs/2603.24480

  • ビデオのみによるToM:マルチモーダル大規模言語モデルにおける心の理論の強化 [cs.CV]目的:マルチモーダル大規模言語モデルにおける心の理論の能力向上
    • 人間とAIの自然な対話には,言語だけでなく視覚情報の理解が不可欠である。
    • 既存の研究はテキスト中心であり,視覚情報のみの心の理論評価が不足している。
    • 視覚情報を活用し,モデルの注意メカニズムを制御することで,より信頼性の高い推論を目指す。
    • 提案手法VisionToMは,視覚表現と正解セマンティックターゲットとの整合性を図り,モデルの注意を誘導する。
    • これにより,誤った言語的先入観への依存を軽減し,マルチモーダル言語モデルの性能向上を実現した。
    • EgoToMベンチマークでの実験により,提案手法がマルチモーダル言語モデルの心の理論能力を大幅に改善することが示された。

    Link: https://arxiv.org/abs/2603.24484

  • 困難な軌跡下における物理的に整合性の取れた運転動画ワールドモデルの構築 [cs.CV]目的:困難な軌跡下での物理的整合性と高視認性運転動画の生成
    • 自動運転シミュレーションにおいて,現実世界の状況を忠実に再現するワールドモデルの重要性が増している。
    • 既存モデルは安全な運転データで学習されるため,シミュレータ等で生成された困難な軌跡に対して物理的不整合が発生しやすい。
    • シミュレータで生成された困難な軌跡に対しても,物理的に妥当な動画を生成することを目指す。
    • 提案手法PhyGenesisは,物理条件生成器と物理強化型動画生成器から構成され,高画質で物理的に整合性の取れた動画を生成する。
    • 困難な軌跡を物理的に実現可能な条件に変換することで,現実と矛盾のない動画生成を可能にする。
    • 大規模な物理特性を考慮したデータセットを用いて学習することで,極限状態における物理的整合性を向上させている。

    Link: https://arxiv.org/abs/2603.24506

  • クロスモーダルプロトタイプアライメントと混合による訓練不要なFew-Shot分類 [cs.CV]目的:Few-Shot分類のための,クロスモーダルプロトタイプのアライメントと混合
    • 画像とテキストの理解はAI研究の根幹であり,その性能向上が様々な応用を可能とする。
    • 既存のCLIPベースのFew-Shot分類では,画像特徴量のノイズが性能を制限する。
    • 画像プロトタイプをテキスト空間にアライメントすることで,ノイズを低減し分類精度を向上させる。
    • 画像とテキストのプロトタイプを混合することで,分類性能が向上することが示された。
    • 画像プロトタイプをテキスト埋め込み空間の主成分方向に投影することで,さらに性能が向上した。
    • テキストアライメント混合プロトタイプと画像特有のLDA分類器を組み合わせることで,既存手法を上回る結果が得られた。

    Link: https://arxiv.org/abs/2603.24528

  • UI-Voyager:失敗経験からの学習による自己進化型GUIエージェント [cs.ET, cs.LG, cs.AI, cs.CV]目的:GUIタスクにおける自己進化型エージェントの開発
    • マルチモーダル大規模言語モデルの進展に伴い,自動GUIエージェントの重要性が高まっている
    • 従来のGUIエージェントは,失敗事例からの学習効率が悪く,疎な報酬環境下での原因特定が困難である
    • UI-Voyagerは,失敗事例の改善を通じて効率的かつ高性能なGUI自動化を目指す
    • 提案手法UI-Voyagerは,拒否採択ファインチューニングとグループ相対的自己蒸留により,GUIエージェントを自己進化させる
    • AndroidWorldでの実験結果,4Bモデルは81.0%のPass@1成功率を達成し,既存手法や人間の性能を上回った
    • グループ相対的自己蒸留の有効性は,消去実験とケーススタディによって確認された

    Link: https://arxiv.org/abs/2603.24533

  • CliPPER:長尺手術ビデオと言語の文脈的事前学習による手術イベント認識 [cs.CL, cs.CY, cs.CL, cs.HC, cs.CV, cs.AI]目的:手術ビデオとテキスト間のイベント認識のための事前学習フレームワーク
    • 手術は高度な専門知識を要し,熟練した技術が不可欠であるため,質の高いトレーニングが重要である。
    • 手術ビデオのラベル付きデータは不足しており,複雑な下流タスクには正確な時間的理解が必要とされる。
    • 長尺手術ビデオにおけるマルチモーダルな整合性を向上させ,きめ細かい時系列のビデオ・テキスト認識を実現すること。
    • 提案手法CliPPERは,手術講義ビデオを用いて事前学習を行い,手術ビデオとテキスト間の文脈的整合性を高める。
    • Contextual Video-Text Contrastive Learning (VTC_CTX)やClip Order Prediction (COP)などの新しい事前学習戦略を導入した。
    • 複数の公開されている手術ベンチマークにおいて,新たな最先端の性能を達成し,ゼロショット認識能力を向上させた。

    Link: https://arxiv.org/abs/2603.24539

  • SEGAR:生成拡張現実のための選択的エンハンスメント [eess.SY, cs.SY, cs.CV, cs.AI]目的:生成拡張現実のためのフレームワーク
    • 拡張現実の応用において,予測モデルはリアルタイムレンダリングの代替となり得る。
    • 生成モデルが生成する画像は,現実世界との整合性に課題がある。
    • 重要な領域の整合性を保ちつつ,拡張現実を実現する。
    • SEGARは,拡散モデルを用いた世界モデルと選択的修正段階を組み合わせる。
    • 世界モデルは特定の領域を編集し,修正段階で現実世界との整合性を調整する。
    • 運転シナリオにおいて,セマンティック領域構造が明確で,現実世界のフィードバックが得やすい。

    Link: https://arxiv.org/abs/2603.24541

  • ニューカッスル方言における自動音声認識のバイアスに関する社会言語学的分析 [cs.CL, cs.AI, cs.CV, cs.SD]目的:ニューカッスル方言における自動音声認識のバイアス
    • 音声認識技術は広く利用されているが,方言による性能差が課題となっている。
    • 既存の音声認識システムは,標準的なアクセントに偏っており,地域方言の認識精度が低い。
    • ニューカッスル方言を分析することで,バイアスの原因を特定し,改善策を提案する。
    • 音声認識エラーの大部分は,方言特有の母音の質や促音化といった音韻変動に起因する。
    • 男性や年齢層の極端なグループにおいてエラー率が高く,バイアスが社会的な要因によってパターン化されていることが示された。
    • より公平な音声認識システムを開発するには,社会言語学的知見を取り入れ,地域方言のデータ活用が重要である。

    Link: https://arxiv.org/abs/2603.24549

  • センチネル2時系列データに基づく有機農法と慣行農法の判別における空間的文脈とマルチタスク学習の役割 [cs.CV]目的:有機農法と慣行農法の判別
    • 持続可能な農業の実現には,有機農法の把握が不可欠である。
    • 有機農法の分布に関する,空間的に詳細な情報が不足している。
    • センチネル2データを用いて,有機農法と慣行農法を判別する手法を確立する。
    • センチネル2の多波長リモートセンシングデータを用いた有機農法と慣行農法の判別が可能であることが示された。
    • 空間的文脈の拡大は,農法と作物の種類の判別性能を向上させる。
    • 農法と作物の種類の同時学習は,単一タスク学習と比較して限定的な効果しか認められなかった。

    Link: https://arxiv.org/abs/2603.24552

  • LensWalk:動画における視点計画による能動的ビデオ理解 [cs.CV, cs.AI]目的:動画理解における,LLMによる視覚的観察制御の枠組み
    • 動画分析は複雑であり,AIによる自動化が求められている。動画理解の精度向上が課題である。
    • 既存手法は静的な情報に依存し,理解の深化に合わせて能動的に動画から証拠を収集できない。
    • LLMが動画観察を制御し,必要な証拠を動的に収集することで理解精度を向上させる。
    • LensWalkは,LLMが視覚的観察を計画・実行するフレームワークであり,動画理解の新たなアプローチを提供する。
    • 既存のVision-Language Modelに容易に組み込むことが可能で,LVBenchやVideo-MMEなどのベンチマークで5%以上の精度向上を達成した。
    • 視点制御の重要性が示され,より正確で堅牢,かつ解釈可能な動画推論を可能にする。

    Link: https://arxiv.org/abs/2603.24558

  • POLY-SIM:欠損モダリティを伴う多言語話者識別 Grand Challenge 2026 評価計画 [eess.SY, cs.SY, cs.CV]目的:欠損モダリティとクロスリンガル条件における多言語話者識別の研究推進
    • 現実世界の多様な環境下で,話者識別技術の応用範囲を広げるために重要である。
    • 既存システムは,完全なデータセットを前提としており,欠損データへの対応が不十分である。
    • 不完全な入力情報下でも,多言語環境でロバストな話者識別を実現することを目指す。
    • POLY-SIM Grand Challenge 2026は,データセット,タスク設定,評価プロトコル,ベースラインモデルを提供する。
    • 欠損モダリティや言語間の差異にも強い,実用的な話者識別システムの開発を促進する。
    • 標準化されたベンチマークと評価枠組みにより,研究の進展を促す。

    Link: https://arxiv.org/abs/2603.24569

  • Anti-I2V:悪意のある画像から動画生成に対する保護 [cs.CV, cs.AI]目的:悪意のある画像から動画生成に対する防御策の開発
    • 拡散モデルの発展は動画生成の質を向上させた一方,悪用による偽動画生成のリスクも増大している。
    • 既存の防御策は画像生成に偏っており,特にDiffusion Transformerモデルに対する有効性が検証されていない。
    • 拡散モデルの多様なバックボーンに対応し,動画生成における特徴保持力と時間的一貫性を低下させることを目指す。
    • Anti-I2VはRGB空間に加え,$L$*$a$*$b$*色空間と周波数領域の両方でノイズ更新を制限し,堅牢性を高める。
    • Anti-I2Vは,ノイズ除去プロセス中に最も明確な意味特徴を捉えるネットワーク層を特定し,時間的一貫性と生成品質の低下を最大化する訓練目標を設計する。
    • 広範な検証の結果,Anti-I2Vは多様な動画拡散モデルに対して最先端の防御性能を示し,効果的な解決策を提供する。

    Link: https://arxiv.org/abs/2603.24570

  • トレーニング不要のシーンテキスト編集 [cs.CV]目的:シーンテキスト編集の新しい枠組み
    • 自然画像中のテキスト編集は,現実感と意味の一貫性を保つ上で重要である。
    • 既存手法は,タスク固有の学習やペアデータが必要で,拡張性や適応性に課題がある。
    • 追加の学習なしに,柔軟かつ高精度なテキスト操作を実現することを目的とする。
    • 提案手法TextFlowは,AttnBoostとFMSを組み合わせ,トレーニングを必要としないシーンテキスト編集を可能にする。
    • FMSは文字と背景領域の視覚的な流れをモデル化し,構造とスタイルの整合性を維持する。
    • AttnBoostは注意機構による誘導によりテキストのレンダリングを強化し,多様なシーンや言語で高い性能を示す。

    Link: https://arxiv.org/abs/2603.24571

  • VFIG:Vision-LanguageモデルによるSVGにおける複雑な図形のベクトル化 [cs.CV, cs.AI]目的:複雑な図形のSVGへの変換
    • 技術イラストレーションやデジタルデザインにおいて,SVGは重要な役割を担うフォーマットである。
    • 元のベクターファイルが失われることが多く,ラスター画像からの再構築は困難を伴う。
    • 図形のベクトル化を自動化し,専門知識がなくても高品質なSVGを生成することを目指す。
    • VFIGは,高品質な図形-SVGペアデータセットVFIG-DATAを活用し,高い精度でSVGを生成する。
    • 粗い段階から細かい段階へと学習を進めることで,図形の全体的な構造と整合性を最適化している。
    • VFIG-BENCHを用いた評価で,最先端のオープンソースモデルと同等以上の性能を示し,GPT-5.2に匹敵する結果を達成した。

    Link: https://arxiv.org/abs/2603.24575

  • カメレオン:長期的ロボット操作のためのエピソード記憶 [cs.RO, cs.AI, cs.CV]目的:長期的ロボット操作におけるエピソード記憶の活用
    • ロボット操作では,状況の変化や隠蔽により,同一の観測データが異なる履歴から生じる場合がある。
    • 従来の記憶メカニズムは意味圧縮に偏り,詳細な知覚的情報を失うことで,誤ったエピソードを想起する可能性がある。
    • 知覚的曖昧さ下での信頼性向上と,長期的制御の実現を目指す。
    • カメレオンは,幾何学に基づいたマルチモーダルなトークンを用いて文脈を保存し,微分可能なメモリスタックを通じて目標指向型の想起を実現する。
    • Cam-Datasetは,エピソード想起,空間追跡,および知覚的曖昧さ下での連続操作を含む実ロボットUR5eのデータセットである。
    • 実験の結果,カメレオンは,知覚的に紛らわしい状況において,強力なベースラインと比較して,意思決定の信頼性と長期的制御を常に改善する。

    Link: https://arxiv.org/abs/2603.24576

  • EndoVGGT:手術用3D再構築のためのGNN強化深度推定 [cs.CV, cs.AI]目的:手術用ロボット知覚のための変形性軟部組織の正確な3D再構築
    • 手術支援ロボットの普及に伴い,手術中の正確な3D視覚情報の重要性が増している。
    • 従来の固定トポロジー法では,低テクスチャ,反射,遮蔽により幾何学的連続性が断片化しやすい。
    • 遮蔽された領域でも構造的情報を伝播させ,非剛体変形をより正確に復元することを試みる。
    • 提案手法EndoVGGTは,変形を考慮したグラフ注意機構DeGATを搭載し,長距離相関を捉える。
    • SCAREDデータセットにおいて,PSNRが24.6%,SSIMが9.1%向上し,最先端手法を大きく上回る結果が得られた。
    • EndoVGGTは,未知のSCAREDおよびEndoNeRFデータセットに対しても高い汎化性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.24577

  • 視覚言語モデルと人間:知覚的画像品質評価 [cs.CV, eess.IV]目的:知覚的画像品質評価における視覚言語モデルの性能
    • 画像処理技術の進歩に伴い,高品質な画像評価の重要性が増している。
    • 心理物理実験は信頼性が高いが,コストとスケーラビリティに課題がある。
    • 視覚言語モデルを用いて,効率的かつ高精度な画像品質評価手法を確立すること。
    • 視覚言語モデルは,鮮やかさの評価において人間との一致度が高い結果が得られた。
    • コントラストの評価では,モデル間のばらつきが大きく,人間との一致度は低かった。
    • モデルの一貫性と人間との一致度にはトレードオフの関係があることが示唆された。

    Link: https://arxiv.org/abs/2603.24578

  • 潜在WAM:エンドツーエンド自律運転のための潜在的な世界行動モデリング [cs.CV, cs.RO]目的:自律運転のための潜在的な世界表現と行動計画
    • 自動運転は,移動の安全性と効率を向上させる上で不可欠な技術である。
    • 既存の世界モデルは,表現の圧縮不足,空間理解の限界,時間的ダイナミクスの活用不足がある。
    • 限られたデータと計算資源下で,より最適な計画を可能にする。
    • Latent-WAMは,空間認識とダイナミクス情報を考慮した潜在的な世界表現を通じて,高い軌道計画性能を実現した。
    • NAVSIM v2で89.3 EPDMS,HUGSIMで28.9 HD-Scoreという最先端の結果を達成した。
    • 既存の知覚不要手法を3.2 EPDMS上回り,1億400万パラメータのコンパクトなモデルで実現した。

    Link: https://arxiv.org/abs/2603.24581

  • 視覚言語行動モデルにおける安定した物体中心推論のためのターゲット非依存ガイダンス [cs.CV, cs.RO]目的:視覚的観察と言語指示に基づいてロボット行動を導くVLAポリシーにおける,物体中心推論の安定性向上
    • ロボットの自律性を高める上で,視覚,言語,行動を統合したVLAモデルの信頼性向上が不可欠である。
    • VLAモデルは,散乱物の多い環境下で性能が低下し,誤った物体への操作やわずかな位置ずれが発生しやすい。
    • 誤った物体への操作や位置ずれといった,物体レベルの認識失敗を軽減し,VLAポリシーのロバスト性を高める。
    • 提案手法TAGは,VLAポリシーの推論時に,元の画像と物体を消去した画像との予測差分を利用することで,注意散漫や外観によるバイアスを低減する。
    • TAGはポリシーのアーキテクチャ変更を必要とせず,既存のVLAポリシーに容易に組み込むことが可能である。
    • 実験の結果,TAGはLIBERO, LIBERO-Plus, VLABenchなどのベンチマークにおいて,散乱物の多い環境下でのロバスト性を一貫して向上させた。

    Link: https://arxiv.org/abs/2603.24584

  • カウンターファクチュアルな失敗合成による実行可能マニピュレーション復旧学習 [cs.RO, cs.CV]目的:ロボットマニピュレーションにおける実行エラーからの自律的な復旧
    • ロボットの自律性が向上すれば,より複雑で多様なタスクの実現が可能となる。
    • 現実世界でのデータ収集はコストがかかり,シミュレーションは現実との乖離が大きい。
    • 高品質な失敗・復旧データセットを生成し,視覚情報から直接的な修正行動を導く。
    • 生成モデルを用いて,実世界の成功例からフォトリアリスティックな失敗シナリオを合成するDream2Fixを提案。
    • 生成されたデータを用いて,ビジョン-言語モデルをファインチューニングし,失敗の種類と復旧軌跡を予測。
    • 実機実験により,従来のベースラインを大幅に上回り,ゼロショットでの復旧成功率を81.3%に向上。

    Link: https://arxiv.org/abs/2603.13528

  • Crab:演技音声および自然な音声条件下での音声感情認識を改善するための多層対照的教師あり学習 [eess.AS, cs.SD]目的:音声感情認識の性能向上
    • 音声感情認識は,現実世界の様々な応用において重要な役割を担う技術である。
    • 自然な音声には,感情の表現が曖昧で,データ不均衡が深刻であるという課題がある。
    • 多層対照的教師あり学習により,モデル全体の識別能力を高め,よりロバストな感情認識を実現する。
    • 提案手法Crabは,既存の単一モダリティおよび多層モダリティのベースラインモデルと比較して,全てのデータセットで一貫して高い性能を示した。
    • 特に,自然な音声やデータ不均衡が激しい条件下において,顕著な性能向上を確認できた。
    • 多層対照的教師あり学習は,音声感情認識における汎用的かつ堅牢な戦略として有効であることが示唆された。

    Link: https://arxiv.org/abs/2603.23673

  • デジタル市場におけるビルダー飽和の経済学 [econ.TH, cs.CY, cs.GT, cs.LG, econ.GN, q-fin.EC]目的:ビルダー飽和効果のモデル化と,AIによる生産民主化が起業家精神に与える影響の分析
    • デジタル市場は急速に拡大しており,参入障壁の低下と生産コストの削減が重要な課題となっている。
    • 生産コストが低下しても,人間の注意資源は有限であり,それが市場の集中化を招く可能性がある。
    • AIによる生産民主化が,参入者の増加によって競争を激化させ,勝者総取りの状況を生み出す可能性を検証する。
    • 本研究では,生産コストがほぼゼロである市場において,生産者の増加が平均的な注目度と収益を希薄化させる「ビルダー飽和効果」を理論的に示した。
    • 市場の均衡状態は,平均的なペイオフの低下と集中化の進行を示し,これはパワーローのような分布と一致する。
    • AIによる生産民主化は,起業家精神の成功を広く分配するよりも,競争を激化させ,勝者総取りの状況を生み出す可能性が高いことが示唆される。

    Link: https://arxiv.org/abs/2603.23685

  • ベイズ追跡を用いた深層空間選択フィルタの自己回帰的ガイダンス:移動話者の効率的な抽出 [eess.AS, cs.LG, cs.SD]目的:移動話者の効率的な抽出
    • 音響信号処理において,特定の方向からの音声を高精度に分離・強調することは重要である。
    • 移動する話者に対しては,初期方向の情報だけでは高性能を維持することが困難である。
    • 自己回帰的なガイダンスにより,軽量な追跡アルゴリズムの精度向上を目指す。
    • 提案手法は,既存の深層空間選択フィルタと容易に組み合わせ可能である。
    • 自己回帰的な組み込みにより,ベイズトラッカーの精度が大幅に向上し,音声強調性能が向上した。
    • 実環境の録音データでも,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2603.23723

  • マスク予測に基づく音声自己教師あり学習におけるマスキング戦略の再考 [stat.ME, cs.CE, eess.AS, cs.MM, cs.SD]目的:マスク予測に基づく音声自己教師あり学習のためのマスキング戦略
    • 音声処理技術の発展は,様々な応用分野において不可欠である。
    • 既存のマスキング手法は計算コストが高く,汎化性能の課題がある。
    • 計算効率と汎化性能を両立する新しいマスキング戦略の提案。
    • 提案手法である分散重み付きマスキング(DWM)は,計算コストを抑えつつ性能向上を実現した。
    • 逆ブロックマスキングは,音声イベント理解性能を向上させる一方,汎化性能とのトレードオフがあることが示された。
    • 本研究は,マスク予測に基づく音声表現学習におけるマスキング戦略設計の指針を提供する。

    Link: https://arxiv.org/abs/2603.23810

  • ごくわずかな検出光子数での機械視 [physics.optics, cs.CV, cs.ET, cs.LG, physics.data-an]目的:極めて低照度環境下における機械視システムの最適化
    • 機械視は,様々な消費機器や科学機器に不可欠な技術であり,その重要性はますます高まっている。
    • 従来の機械視は,十分な光量下では高い性能を発揮するが,極めて低照度下では課題が多い。
    • 本研究は,光子数の制約と光検出の確率的性質を考慮した最適化手法により,低照度環境での機械視性能向上を目指す。
    • 提案手法PANSは,FashionMNISTにおいて,1回の推論あたり平均4.9光子(最大17光子)の検出で73%(82%)の認識精度を達成した。
    • MNISTにおいては,平均8.6光子(最大29光子)の検出で86%(97%)の認識精度を示し,従来の技術と比較して桁違いに高い光効率を実現した。
    • シミュレーション結果から,PANSは他の分類,イベント検出,画像再構成タスクへの応用も可能であることが示唆された。

    Link: https://arxiv.org/abs/2603.23974

  • ACAVCaps:きめ細かく多様な音声理解のための大規模学習の実現 [eess.AS, cs.SD]目的:きめ細かく多様な音声理解を可能にする大規模な音声キャプションデータセット
    • 汎用的な音声理解は,大規模な音声・言語モデルの基礎であり,その発展には不可欠である。
    • 既存のデータセットは規模や記述の粒度が不十分であり,汎用性の高いモデルの学習を阻害している。
    • 大規模かつ詳細な音声キャプションデータセットを提供し,音声理解モデルの汎化性能を向上させる。
    • ACAVCapsで事前学習したモデルは,主要なキャプションデータセットで学習したモデルと比較して,様々な下流タスクで著しく高い汎化能力を示す。
    • 本データセットは,音声,音楽,音響特性など多様な側面から分析された音声データに基づき,大規模言語モデルによって詳細な記述を生成している。
    • ACAVCapsはACAV100Mコレクションから構築され,多岐にわたる専門家パイプラインを用いて作成された。

    Link: https://arxiv.org/abs/2603.24038

  • マルチモーダル衛星画像時系列を用いたリアルタイムな土地モニタリングのためのデュアルフォームネットワークの比較分析 [eess.IV, cs.AI, cs.CV]目的:マルチモーダル衛星画像時系列分析における効率的なデュアルフォームアテンションメカニズムの比較
    • 土地利用変化の監視は,環境保全や防災など,社会における重要な課題である。
    • Transformerは高性能だが,計算コストが高く,広範囲の土地を継続的に監視するには限界がある。
    • デュアルフォームメカニズムにより,効率的な並列学習と逐次推論を可能にし,リアルタイム監視を実現する。
    • デュアルフォームメカニズムは,標準的なTransformerと同等の性能を達成しつつ,効率的な逐次推論を実現した。
    • マルチモーダルフレームワークは,単一モ−ダルアプローチよりも一貫して優れた性能を示し,センサーフュージョンの有効性を実証した。
    • 本研究は,広範囲な地理的領域における定期的な更新を必要とする運用上の土地モニタリングシステムの新たな可能性を開く。

    Link: https://arxiv.org/abs/2603.24109