arXiv雑要約

画像・音声 - 2026/06/05 公開

  • 信頼できるポートレート編集に向けて:I2Iモデルにおける人口統計学的誤りの評価 [cs.CV]目的:I2Iモデルにおける人口統計学的誤りの評価
    • 画像編集技術の発展は,表現の自由を広げる一方で,社会的な偏見を増幅させる可能性を秘めている。
    • 既存のI2Iモデルは,指示遵守だけでなく,属性の公平な保持が課題となっている。
    • I2Iモデルにおける人口統計学的属性の歪みを定量的に評価し,公平性を改善する。
    • 編集されたポートレートの評価により,肌の色が明るくなる傾向が確認された。
    • 特に,インド系やアフリカ系の人々のポートレートにおいて,肌が明るくなる割合が高かった。
    • プロンプトレベルの制約を導入することで,非白人ポートレートにおける人種変化のスコアを低減できることが示された。

    Link: https://arxiv.org/abs/2602.16149

  • HERO:視覚に基づく全身体オープンボキャブラリオブジェクト把持のためのヒューマノイドエンドエフェクタ制御の学習 [cs.CY, cs.RO, cs.CV]目的:視覚情報に基づいた環境理解と,正確なエンドエフェクタ制御
    • 多様な環境でロボットが物体を操作するためには,視覚情報と運動制御の両方が不可欠である。
    • 既存の手法は,学習規模の拡大が難しく,汎化性能が低いという課題があった。
    • 視覚モデルとシミュレーション学習を組み合わせ,エンドエフェクタ制御の精度向上を目指す。
    • HEROは,古典的なロボティクスと機械学習を組み合わせることで,高精度な残差認識型エンドエフェクタ追跡ポリシーを実現した。
    • エンドエフェクタ追跡誤差を2.44cmまで低減し,既存の最高手法を5.5倍上回る性能を示した。
    • オフィスやコーヒーショップなど,多様な実環境で,様々な日常的な物体を確実に把持することが可能となった。

    Link: https://arxiv.org/abs/2602.16705

  • FUSAR-GPT:空間的・時間的特徴を埋め込み,2段階デカップリングされたSAR画像向け視覚言語モデル [cs.CV, cs.AI]目的:SAR画像に対する高性能な視覚言語モデルの開発
    • 全天候・全時間帯のSAR画像解析は,リモートセンシング応用の発展に不可欠である。
    • 既存の視覚言語モデルは,SAR画像の複雑な撮像機構や散乱特性により性能が制限される。
    • SAR画像特有の課題を克服し,高精度な視覚言語モデルの実現を目指す。
    • 本研究では,SAR画像-テキスト-AlphaEarth特徴のトリプレットデータセットを構築した。
    • FUSAR-GPTは,地理空間ベースラインモデルと時系列特徴を組み込み,SAR画像の表現力を高めた。
    • 2段階SFT戦略により知識注入とタスク実行を分離し,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2602.19190

  • 離散拡散吸収による音声強調 [cs.SD, eess.AS]目的:音声強調の条件付き分布のモデル化
    • 音声処理の分野において,高品質な音声の再現は重要な課題である。
    • 低S/N比環境下での音声強調は,依然として困難な課題である。
    • 少ないサンプリングステップで効率的な音声強調を実現すること。
    • 提案手法ADDSEは,ニューラル音声コーデックの表現力豊かな潜在空間と拡散モデルの非自己回帰サンプリングを活用している。
    • RQDiTは,RQ-Transformerと拡散Transformerの技術を組み合わせ,残差ベクトル量子化コードの階層構造を効率的にモデル化する。
    • 2つのデータセットにおいて,非侵襲的な客観評価指標で競争力のある性能を示した。

    Link: https://arxiv.org/abs/2602.22417

  • Performative Prediction におけるオンラインアルゴリズムの安定性 [cs.CL, cs.LG, cs.CY, cs.GT, stat.ML]目的:Performative Prediction 環境下におけるオンラインアルゴリズムの安定性
    • 意思決定におけるアルゴリズム予測の利用が拡大しており,その影響を理解することが重要である。
    • 予測モデルがデータ分布に影響を与え,予測の精度低下を招く可能性がある。
    • モデルが自身の予測に対して最適なデータ分布を形成する安定な平衡状態の存在を示す。
    • 本研究では,どのような後悔回避アルゴリズムも,performatively stable equilibrium に収束することを無条件で示した。
    • モデルが分布に与える影響に強い制限を加えることなく,この結果を得るために,マルチンゲール論とランダム化を利用した。
    • この研究は,勾配降下法などの一般的なアルゴリズムが自然に安定化し,フィードバックループを抑制する理由を説明する。

    Link: https://arxiv.org/abs/2602.24207

  • MAviS:鳥類に関するマルチモーダル対話型アシスタント [cs.CV, cs.AI]目的:鳥類に関するマルチモーダル質問応答とシーン記述生成
    • 生物多様性の保全や生態モニタリングにおいて,詳細な理解と種特異的な情報提供が重要である。
    • 既存のマルチモーダル大規模言語モデルは,鳥類のような専門分野において十分な精度と文脈に応じた情報提供が困難である。
    • 鳥類に特化した大規模なマルチモーダルデータセットとモデルを開発し,専門分野における課題を解決することを目指す。
    • MAviS-Datasetは,画像,音声,テキストを統合した1,000種類以上の鳥類に関する大規模なマルチモーダルデータセットである。
    • MAviS-Chatは,MAviS-Datasetを基に構築されたマルチモーダルLLMであり,詳細な種理解,質問応答,シーン記述が可能である。
    • 実験結果から,MAviS-ChatはベースラインモデルMiniCPM-o-2.6を大幅に上回り,最先端のオープンソース性能を達成した。

    Link: https://arxiv.org/abs/2603.07294

  • グローバルクロスモーダル地理位置特定:大規模データセットと物理的整合性学習フレームワーク [cs.CV]目的:グローバルなクロスモーダル地理位置特定のためのデータセットおよび学習フレームワーク
    • 歩行者ナビゲーションや緊急対応において,テキストと画像による位置特定技術は不可欠である。
    • 既存研究は地理的範囲やシーンの多様性が限定的であり,グローバルな建築様式や地形の特徴を捉えられていない。
    • 世界規模での位置特定を可能とする,多様な地理的条件を含む大規模データセットの構築と,物理法則に基づいた学習手法の開発。
    • COREデータセットは,6大陸225地域から収集された103万件を超える画像ペアを提供し,地理的多様性に富んだ大規模なデータセットである。
    • 提案手法PLANETは,物理法則を考慮したコントラスト学習により,衛星画像の物理的特徴をテキスト表現に組み込む。
    • 実験の結果,PLANETは最先端手法を大きく上回り,ロバストなグローバル地理位置特定を実現した。

    Link: https://arxiv.org/abs/2603.08491

  • 確率的制約下相関均衡によるロバストな非協調的協調 [cs.GT, cs.MA]目的:ロバストな非協調的協調のための確率的制約下相関均衡の導出
    • 経済学における協調問題の解決策として相関均衡は重要である。エージェントの行動を協調させるための枠組みを提供する。
    • 従来の相関均衡は,エージェントのコスト構造の正確な知識に依存する。不確実性下では,均衡から逸脱するインセンティブが生じやすい。
    • コスト不確実性を考慮し,所定の信頼性でインセンティブ適合性を保証する確率的制約下相関均衡を提案する。
    • 提案手法は,不確実性下においても協調コストを最大35%削減できることが数値実験で示された。
    • 不確実性の減少によるメリットは,インセンティブ制約の双対感度によって定量化される情報価値指標によって示される。
    • 信頼水準の向上は必ずしも有益ではなく,ロバスト性とシステム効率の間にはトレードオフが存在することが明らかになった。

    Link: https://arxiv.org/abs/2603.14141

  • ハチ・スズメバチ用層状トラップ巣における効率的な巣室検出:ラベル付け努力と種網羅性のバランス [cs.CV]目的:ハチ・スズメバチの層状トラップ巣における巣室の効率的な検出と分類
    • 野生のハチやスズメバチのモニタリングは,生物多様性の研究と保全に不可欠である。
    • 層状トラップ巣の評価は,巣室の検出と分類に労力を要し,時間がかかる。
    • ラベル付けの労力を軽減し,希少種の検出精度を向上させることを目指す。
    • 本研究では,深層学習に基づくアプローチにより,巣室の検出性能を向上させた。
    • 提案手法は,モデルの精度とラベル付け努力のバランスを取り,クラスの不均衡を緩和する。
    • 新たな制約付き偽陽性損失(CFPL)戦略は,ラベル付けされていないデータの影響を軽減する。

    Link: https://arxiv.org/abs/2603.16652

  • ビジョン・ホップフィールド・メモリ・ネットワーク [cs.LG, cs.AI, cs.CV, stat.ML]目的:ビジョン・ホップフィールド・メモリ・ネットワークの提案
    • 画像,テキスト等を含むマルチモーダルな情報処理において,高性能な基盤モデルが求められている。
    • 既存のモデルは,脳の計算原理とは異なり,大量のデータと計算資源を必要とし,解釈性が低いという課題がある。
    • 脳の記憶メカニズムに着想を得た新たな基盤モデルを構築し,解釈性とデータ効率を向上させる。
    • 提案手法は,局所的なホップフィールドモジュールと,文脈に応じたモジュール化を実現し,画像パッチレベルでの連想記憶ダイナミクスと,文脈調整のためのエピソード記憶を統合している。
    • 実験の結果,公開されているコンピュータビジョンベンチマークにおいて,既存の基盤モデルと同等の性能を達成しつつ,優れた解釈性とデータ効率,そして生物学的な妥当性を示した。
    • この結果は,V-HMNが次世代のビジョン基盤モデルとして,またマルチモーダル基盤モデルの一般的な設計指針として有望であることを示唆している。

    Link: https://arxiv.org/abs/2603.25157

  • 注意,決定をお願いしますか?拡散モデルにおける生成選択の局所化 [cs.CV]目的:拡散モデルにおける生成選択の局所化に関する研究
    • 画像生成AIの発展は,創造性の拡張に貢献する重要な分野である。
    • 生成AIの意思決定プロセスが不透明であり,制御が困難であるという課題がある。
    • 曖昧な概念の解決に関わる層を特定し,より精密な制御手法を開発すること。
    • 曖昧な概念の解決は主に自己注意層によって行われることが示された。
    • 自己注意層への介入は,既存の最先端手法よりも優れたバイアス除去性能を示す。
    • 提案手法ICMは,特定された層への介入により,より自然な画像を生成する。

    Link: https://arxiv.org/abs/2604.06052

  • BareBones:VLMにおけるゼロショット幾何学的理解のベンチマーク [cs.CV]目的:VLMにおけるゼロショット幾何学的理解の評価
    • 視覚と言語を組み合わせたモデルは多様なタスクで性能を示すが,その理解度は不明。
    • 既存の評価は幾何学的理解とテクスチャ認識を区別できず,環境情報を漏洩する。
    • 本研究は純粋な幾何学的形状理解を評価し,モデルの構造的盲点を明らかにする。
    • 提案手法BareBonesは,RGB情報を除去することでモデルのテクスチャへの依存性「Texture Bias Cliff」を明らかにした。
    • 26の最先端VLMの評価で,RGB情報を失うと性能が著しく低下することが確認された。
    • WTP-Benchは,境界線のみから幾何学的概念を識別する必要がある,極めて詳細な視覚パズルである。

    Link: https://arxiv.org/abs/2604.10528

  • 漸進的な凸包の簡略化 [cs.GR]目的:凸包の簡略化による半空間数の削減
    • 衝突判定など多様な処理で利用され,計算効率が重要である。
    • 凸包の複雑度が入力数に比例して増加する点が課題である。
    • 指定された半空間数で凸包を簡略化し,体積増加を最小限に抑える。
    • 本研究では,双対表現を用いた効率的な貪欲法を提案した。
    • 既存手法と比較し,効率,精度,安全性の面で優れていることを示した。
    • 多様な形状と応用分野で,本手法の有効性を実証した。

    Link: https://arxiv.org/abs/2604.14468

  • Brain-CLIPLM:EEGからのテキスト復号における意味圧縮 [cs.CL, cs.AI, cs.CV]目的:非侵襲脳波(EEG)からの自然言語復号
    • 脳活動から言語を直接読み取る試みは,認知科学やブレイン・コンピュータ・インターフェースの発展に不可欠である。
    • 脳波はノイズが多く情報帯域が限られているため,高精度な言語復号が困難である。
    • 脳波からより効率的に意味内容を抽出し,自然な文章を生成することを目指す。
    • Brain-CLIPLMは,脳波から意味的アンカーを抽出し,それを基に文章を再構成する二段階のフレームワークである。
    • ZuCoベンチマークにおいて,Brain-CLIPLMはTop-5で67.6%,Top-25で85.0%の文検索精度を達成した。
    • 脳波由来のアンカーが,言語モデルの事前知識を超えた文特有の情報を含んでいることが示された。

    Link: https://arxiv.org/abs/2604.16370

  • 大規模ビジョン言語モデルに対するトポロジーを考慮したレイヤープルーニング [cs.CV]目的:大規模ビジョン言語モデルの効率的なプルーニング手法
    • 大規模言語モデルは自然言語処理で高い能力を示すが,計算資源を多く必要とする
    • 既存のプルーニング手法は局所的な指標に依存し,モデル全体の構造変化を捉えきれない
    • トポロジーに基づき,重要な表現の変化を維持するプルーニング手法を開発する
    • 提案手法では,レイヤーごとの隠れ状態を点群として表現し,トポロジー変化を捉える。
    • zigzag持続ホモロジーを用いて層間のトポロジカルな整合性を定量化し,適応的なプルーニングを実現。
    • 多様なベンチマークにおいて,提案手法は既存手法と比較して優れた性能を示す。

    Link: https://arxiv.org/abs/2604.16502

  • CityRAG:空間情報に基づいたビデオ生成による都市体験 [cs.CV]目的:空間に根ざした3D環境の生成
    • 自動運転やロボットシミュレーション等の応用において,現実世界の再現は不可欠である。
    • 既存のビデオ生成モデルは,気象条件や動的オブジェクトの変化を再現することが困難である。
    • 現実世界の地理構造を忠実に再現し,複雑な経路をシミュレーションすることを可能とする。
    • CityRAGは,地理情報データを利用してビデオ生成を現実世界の物理的なシーンに結びつける。
    • 数千フレームにわたって一貫した気象・照明条件を維持し,ループクロージャを実現する。
    • 複雑な軌跡を再現し,現実世界の地理情報を再構築できる,数分間の物理的に根ざしたビデオシーケンスを生成する。

    Link: https://arxiv.org/abs/2604.19741

  • 画像生成器は汎用的な視覚学習者である [cs.CV, cs.AI]目的:画像生成による事前学習が,強力かつ汎用的な視覚表現を学習し,多様な視覚タスクで最先端の性能を達成すること
    • コンピュータビジョン分野において,汎用的な視覚モデルの構築は重要な課題である。
    • 既存の視覚モデルは,特定のタスクに特化し,汎用性に欠ける場合が多い。
    • 画像生成による事前学習が,視覚理解能力を向上させ,汎用的なモデルを構築する可能性を検証する。
    • 画像生成モデル(Vision Banana)は,セグメンテーションや深度推定などの多様な視覚タスクで,既存の専門モデルと同等またはそれ以上の性能を達成した。
    • 軽量な指示学習により,ベースモデルの画像生成能力を損なうことなく,優れた性能を実現した。
    • 画像生成事前学習が,視覚理解のための統一的で普遍的なインターフェースとなる可能性を示唆し,コンピュータビジョンのパラダイムシフトに貢献する。

    Link: https://arxiv.org/abs/2604.20329

  • RAS:自動音声認識のための信頼性重視指標 [cs.CL, cs.DC, cs.SD, cs.AI]目的:自動音声認識システムの信頼性評価
    • 音声認識技術は,様々な応用で不可欠であり,その性能向上は重要な課題である。
    • 従来の評価指標は精度のみに焦点を当てており,信頼性の低い認識結果を区別できない。
    • 不確実な部分を回避する音声認識モデルを評価するための新たな指標を開発すること。
    • 提案手法RASは,認識結果の有益性と誤り回避のバランスを取り,人間の好みに基づいてパラメータ調整が可能である。
    • 教師ありブートストラップと強化学習を用いて,信頼性重視の音声認識モデルを学習した。
    • 実験の結果,信頼性が大幅に向上し,同時に高い認識精度を維持することが示された。

    Link: https://arxiv.org/abs/2604.24278

  • JI-ADF:適応的決定融合を用いた共同・個別学習による多角的皮膚病変分類 [cs.CV]目的:多角的皮膚病変の分類
    • 皮膚病変の早期診断は重要であり,適切な治療に繋がる。
    • 既存のシステムは皮膚鏡画像に偏り,臨床現場で得られる多角的情報を活用できていない。
    • 臨床現場で得られる多角的情報を統合し,より正確な分類を目指す。
    • 提案手法JI-ADFは,皮膚鏡画像,臨床写真,患者情報を統合し,高い分類性能を示した。
    • 病変カテゴリ全体で感度,Dice係数を向上させつつ,特異度と校正も維持した。
    • JI-ADFは,実用的な多角的皮膚病変分類の基盤となりうる。

    Link: https://arxiv.org/abs/2604.27343

  • DPUとGPUの連携によるニューラルネットワーク推論の高速化:分割CNN推論 [cs.AR, cs.CV]目的:DPUとGPUを用いたCNN推論の分割による低遅延化
    • エッジデバイスでの映像処理需要が高まっており,低遅延な推論処理が不可欠である。
    • 単一のハードウェアでは,更なる低遅延化の限界が課題となっていた。
    • DPUとGPUの最適な分割配置により,推論処理の遅延を最小化することを目指す。
    • DPUとGPUを連携させることで,DPU単独実行比で最大2.48倍,GPU単独実行比で最大3.37倍の遅延改善を達成した。
    • GNNベースの分割インデックス予測により,CNNの分割配置を自動化し,96.27%の精度を実現した。
    • LeNet-5,ResNet,VGG,MobileNetv2など,様々なモデルで効果を確認した。

    Link: https://arxiv.org/abs/2605.00174

  • Tamaththul3D:単眼ビデオからの高忠実度3Dサウジアラビア手話アバター [cs.CV, cs.AI]目的:サウジアラビア手話データセットIshara-500に対するSMPL-Xパラメトリック注釈の提供
    • 手話は聴覚障害者にとって重要なコミュニケーション手段であり,アクセシビリティ向上に不可欠である。
    • 既存の手話アバター再構成手法は西洋の手話に限定され,アラビア手話のデータセットは存在しなかった。
    • アラビア手話のためのアバターベースのアクセシビリティアプリケーション開発を可能にすること。
    • Tamaththul3Dは,前腕チェーンの幾何学的な逆運動学と2D監督付き肩の改良を通じて,手と体の推定値を整合させる再構成パイプラインである。
    • Tamaththul3Dは,既存手法と比較して最大32%手のエラーを低減し,32倍高速に動作する。
    • データセット固有の適応なしに,5つの異なる類型の手話に一般化可能である。

    Link: https://arxiv.org/abs/2605.05367

  • テスト時学習による視覚的予見型ビジョン言語行動モデル [cs.CV, cs.LG, cs.RO]目的:視覚的予見型ビジョン言語行動モデルの分布外シフトへの脆弱性軽減
    • ビジョン言語行動モデルは,ロボティクスやインタラクションタスクにおいて重要な役割を担う。
    • 分布外データへの対応が課題であり,予測精度の低下や行動の不安定化を招く。
    • テスト時にモデルを適応させることで,分布外シフトに対するロバスト性を向上させる。
    • 提案手法T³VFは,予測画像と実際の観測画像を利用した自然な教師信号を用いて,テスト時学習を実現する。
    • 適応的更新フィルタリング機構を導入することで,テスト時の無分別な更新による問題を抑制する。
    • T³VFは,追加の計算コストを抑えつつ,VF-VLAの分布外シフトへの脆弱性を効果的に軽減する。

    Link: https://arxiv.org/abs/2605.08215

  • StereoPolicy:ステレオ視覚を用いたロボット操作ポリシーの改善 [cs.RO, cs.CV]目的:ロボット操作におけるステレオ視覚の活用
    • ロボットの視覚による学習は進展しているが,奥行き情報が重要である。
    • 単眼視覚では奥行き情報が不足し,複雑な環境での正確な操作が困難である。
    • ステレオ視覚により,3次元情報を明示的に構築せずに幾何学的推論を向上させる。
    • StereoPolicyは,左右の画像特徴をクロスコアテンションで融合し,奥行き情報を暗黙的に捉える。
    • RGB,RGB-D,点群,マルチビューベースラインと比較して,シミュレーションおよび実機で一貫した改善が見られた。
    • ステレオ視覚が,2D事前学習表現と3D幾何学的理解の架け橋となることが示された。

    Link: https://arxiv.org/abs/2605.09989

  • ピクセルと単語トークンを統合した生成言語モデル [cs.CV]目的:ピクセルと単語トークンを統合する生成言語モデルの提案
    • 画像処理と自然言語処理の融合は,マルチモーダルAIの発展に不可欠である。
    • 既存手法では,画像内の小さな文字や数字の認識が困難であるという課題がある。
    • 画像内の詳細な情報をより正確に理解できるモデルを開発することを目指す。
    • 提案モデルは,各ピクセルに固有のトークン埋め込みを用いることで,詳細な視覚理解を可能にする。
    • 限られたデータと小規模なモデルでも良好な性能を示し,スケーリング則に従うと考えられる。
    • 画像教師なし事前学習実験により,提案モデルの潜在的な有効性が確認された。

    Link: https://arxiv.org/abs/2605.14028

  • 多文化テキストから動画生成のためのマルチエージェントフレームワークMAVEN [cs.CV, cs.AI]目的:多文化テキストから動画生成における文化的な忠実性の向上
    • 動画生成技術は進化しているが,文化的多様性を反映させることは重要である。
    • 単一のプロンプトで複数の文化を正確に表現することが困難である。
    • プロンプトを細分化し,文化的な側面を考慮した動画生成を目指す。
    • MAVENは,プロンプトを人物,行動,場所の要素に分解し,それぞれを専門のエージェントで処理する。
    • 並列処理による専門化が,文化的な関連性を高めながら,視覚的な品質と時間的な一貫性を維持する。
    • 中国,アメリカ,ルーマニアの3つの文化圏を対象とした新しいベンチマークデータセットを構築した。

    Link: https://arxiv.org/abs/2605.16716

  • 優先ラベルが不十分な場合:実データからの拡散モデルのアライメント [cs.CL, cs.CV]目的:拡散モデルのアライメント
    • 生成モデルの性能向上は,様々な応用において重要であり,継続的な研究課題である。
    • 既存手法はモデル生成画像間の比較に依存し,品質が低い場合やアーティファクトを含む場合に曖昧になりやすい。
    • 実データを参照点とし,生成サンプルとの比較により,より効果的なアライメントを目指す。
    • 実データに基づく教師信号は,拡散モデルのアライメントに有効な指針を与えることが示された。
    • 提案手法は,既存のペア比較に基づく手法と同等の性能を達成した。
    • 実データは,効率的なラベル利用のアライメント戦略の可能性を示唆する。

    Link: https://arxiv.org/abs/2605.19839

  • TempRet:CVPR 2026 EPIC-KITCHENS-100 マルチインスタンス検索チャレンジのための時間的強化と二段階リランキング [cs.CV]目的:動画とテキストの検索における性能向上
    • 動画とテキストの関連付けは,様々な応用において重要な課題である。
    • 従来の画像-テキスト検索の枠組みでは,動画の時間的なダイナミクスが十分に考慮されていない。
    • 本研究は,動画の時間的特徴を効果的に捉え,より正確な検索を実現することを目指す。
    • 提案手法TempRetは,動画の時間的な依存関係をモデル化する時間的Transformerと,クロスエンコーダーによるリランキングを用いる。
    • ソフトラベルの関連度行列を活用したSymmetric Multi-Similarity Lossによる学習を行う。
    • EK-100 MIRベンチマークにおいて,平均mAP 67.97%,平均nDCG 82.92%を達成し,時間的モデリングとクロスモーダルリファインメントの有効性を示す。

    Link: https://arxiv.org/abs/2605.24470

  • OmniEgo-R$^2$: CVPR 2026 EgoCrossチャレンジ向けルーテッド推論フレームワーク [cs.CV]目的:クロスドメインにおける自我視点動画の推論
    • 自我視点動画は,ロボット工学,自動運転,医療など多様な分野で活用が期待されており,その理解が重要である。
    • 異なるドメイン間での視覚的文法や状態遷移の捉え方にばらつきがあり,汎用的な推論が困難である。
    • ドメインに依存しない汎用的な推論パイプラインを構築し,自我視点動画における課題を克服することを目指す。
    • 提案手法OmniEgo-R$^2$は,時間的証拠の正規化,ドメイン非依存の能力ルーティング,構造化された知覚・動的・決定推論などを組み合わせる。
    • Source-Limitedトラックで66.35%,Open-Sourceトラックで66.77%の正答率を達成し,両方のリーダーボードで2位となった。
    • Qwen3-VL-4B-SFTを基盤モデルとし,テスト時の推論と解析プログラムによって性能を向上させている。

    Link: https://arxiv.org/abs/2605.24481

  • エゴアクション:信頼性に基づいた時間的融合による一人称視点アクション構成 [cs.CV]目的:一人称視点動画におけるアクション検出のための,信頼性を考慮した時間的融合によるエゴアクション構成
    • 日常生活における人間の行動理解は,ロボット工学やヒューマンコンピュータインタラクションの発展に不可欠である。
    • 一人称視点動画のアクション検出は,長尺でトリミングされていない動画に対応する必要があり,計算コストが高い。
    • 動詞と名詞の検出ストリームの信頼性の違いを考慮し,より正確なアクションの開始・終了位置を特定する。
    • 動詞と名詞のスコアが異なる状況で誤りが生じやすい点を考慮し,動的重み付け融合(DWF)を導入した。
    • DWFは,名詞と動詞の信頼性に基づいて境界の重みを調整し,より信頼性の高いストリームに権限を移すことで,位置特定エラーを軽減する。
    • スライディングウィンドウ推論,トップKアクション構成,クラスごとのソフトNMSと組み合わせることで,コンパクトで再現性の高いシステムを実現した。

    Link: https://arxiv.org/abs/2605.24496

  • EgoAdapt:CVPR 2026 HD-EPIC VQAチャレンジのためのマルチシーン自己適応法 [cs.CV]目的:HD-EPIC VQAチャレンジにおける視覚言語モデルの推論能力向上
    • 現実的な一人称視点ビデオにおける質問応答は,AIの状況理解能力を測る上で重要である。
    • 既存モデルは,多様な時間・空間・意味構造を持つHD-EPICベンチマークへの適応が困難である。
    • カテゴリ,キャリブレーション,一貫性を活用し,推論時の適応能力を高めることを目指す。
    • EgoAdaptは,カテゴリに応じたルーティング,選択肢のスコアリング,テスト時の一貫性適応を導入した。
    • これにより,HD-EPICの既存のベースラインを大幅に上回る性能を実現した。
    • 手物操作,レシピの軌跡,空間関係,視線など,多様な証拠を考慮した推論が可能となった。

    Link: https://arxiv.org/abs/2605.24500

  • RAPTOR+: 臨床的信頼性と監査可能性を向上させる視覚的根拠に基づいた視覚-言語フレームワーク [cs.CV]目的:大腸がんの緊急紹介処理における臨床的信頼性と監査可能性の向上
    • 大腸がんの早期発見と治療は重要であり,迅速な紹介プロセスが求められる。
    • 緊急紹介状は非構造化データが多く,手作業での確認と転記にボトルネックが生じやすい。
    • 視覚情報と言語モデルを統合し,より信頼性の高い紹介状理解を目指す。
    • RAPTOR+は,視覚-言語モデル(VLM)を活用し,大腸がんの緊急紹介状をエンドツーエンドで理解する。
    • ファインチューニングされたQwen3-VL-8Bは,96.1%の読解精度と60.6%の厳密な安全性(Strict Safety)を実現し,根拠となる証拠の提示能力を大幅に向上させた。
    • タスク固有のファインチューニングが,信頼性が高く監査可能な臨床文書理解に不可欠であることが示された。

    Link: https://arxiv.org/abs/2605.25956

  • PathWISE:臨床フローチャートからの多エージェントがん経路トリアージオントロジー学習 [cs.CV]目的:臨床フローチャートからの実行可能CQLライブラリ生成
    • 臨床経路は治療方針決定に不可欠だが,その情報を計算機で処理できる形式で活用できていない。
    • フローチャートの視覚的要素が複雑で,計算機による解釈が困難であるという課題がある。
    • フローチャートから正確で実行可能なCQLライブラリを生成し,臨床意思決定支援を実現すること。
    • PathWISEは,LLMベースのエージェントと決定論的探索,Javaコンパイラを用いてフローチャートを解析し,CQLライブラリを生成する。
    • 5つの英国NHSがん経路において,最大183ノードを監査し,544の構造化ガバナンスの問題点を特定した。
    • 文法的なコンパイルは100%成功し,計算不可能なノードに対してもコンパイル可能なプレースホルダーを生成した。

    Link: https://arxiv.org/abs/2605.25970

  • DuoGesture:神経科学と生体力学に基づいた二重ストリーム共同発話ジェスチャー生成 [cs.CV, cs.SD]目的:共同発話ジェスチャー生成における意味表現と生体力学的に妥当なリズム運動の両立
    • コミュニケーションにおいて,言語とジェスチャーは不可分であり,自然な表現に不可欠である。
    • 既存の手法では,意味的なジェスチャーとリズム的なジェスチャーが混在し,表現力や整合性が課題となっている。
    • 意味とリズムを分離し,効果的な協調制御を行うことで,より自然なジェスチャー生成を目指す。
    • DuoGestureは,意味ストリームとリズムストリームの二重構造により,従来のホリスティックな手法を上回る性能を示す。
    • 意味的根拠付け,確率的ストリーム選択,生体力学的正則化が,それぞれの役割を果たしていることが確認された。
    • Semantic Variational Information Bottleneckにより,意味的ジェスチャーとリズム的ジェスチャーの適切な切り替えが可能となった。

    Link: https://arxiv.org/abs/2605.26236

  • 一度だけで完了:マルチモーダル命令チューニングのための,一度学習していつでも選択可能なフレームワーク [cs.CV]目的:マルチモーダル命令チューニングにおける効率的なデータ選択手法
    • 視覚と言語モデル(VLM)の適応には命令チューニングが不可欠であり,その性能向上に重要である。
    • 命令データには冗長性が高く,効率的な学習のためには適切なデータ選択が課題となっている。
    • ターゲットモデルやデータセット変更時のデータ選択コストを削減し,汎用的なデータ選択器を構築すること。
    • 提案手法OFAは,一度学習した選択器を再学習なしで様々なデータセットやモデルに適用可能である。
    • 15%のデータを選択するだけで,フルデータを用いた性能の98.3%を10種類のベンチマークで達成した。
    • Vision-Flan-186Kにおいては,フルデータ学習を10.6%上回る性能を示し,汎用性の高さが確認された。

    Link: https://arxiv.org/abs/2605.26761

  • ClothTransformer:スケーラブルな布シミュレーションのための統一された潜在空間Transformer [cs.GR, cs.CV]目的:布シミュレーションの課題に対するTransformer技術の適用可能性
    • 布シミュレーションは,ゲーム,映画,ファッションなど幅広い分野で重要な役割を担っている。
    • 既存のニューラル布シミュレーターは,特定のシナリオに特化し,メッシュの解像度に依存する。
    • 多様なシナリオに対応し,メッシュ解像度に依存しないスケーラブルな布シミュレーション手法の確立。
    • ClothTransformerは,様々なシナリオ(衣服,ロボット操作,衝突)を単一のモデルで処理し,既存手法よりも低い誤差を達成した。
    • 潜在空間の活用により,メッシュ解像度に依存せず,効率的な時間変化の計算を実現した。
    • 約493.4kフレームからなる高品質なデータセットを構築し,衝突検出モジュールによる貫通現象の抑制を可能にした。

    Link: https://arxiv.org/abs/2605.27852

  • SalsaAgent:インタラクティブなダンス生成のためのマルチモーダル具現化言語モデル [cs.CV]目的:人間とのインタラクティブなサルサダンス生成
    • 人間とロボットの協調は,社会性を備えたロボット開発の鍵となる。
    • 既存手法では,音楽やパートナーとの自然な連携が課題だった。
    • 言語モデルを活用し,より自然で協調的なダンス生成を目指す。
    • SalsaAgentは,言語モデルによるモーション生成と拡散モデルによる高品質な動きの実現を可能にした。
    • 音楽との調和,パートナーとの連携,空間的な一貫性において,既存手法を上回る結果が得られた。
    • モーションをトークンとして扱い,言語モデルが非言語的なインタラクションを学習する新たなアプローチを示した。

    Link: https://arxiv.org/abs/2605.29219

  • クラスタリングによるドメイン特化型事前学習済み基盤モデル:超高解像度北極リモートセンシング [cs.CV]目的:北極地域に特化したリモートセンシング基盤モデルの開発
    • 北極地域は気候変動の影響を強く受けており,モニタリングとマッピングが不可欠である。
    • 汎用的な事前学習モデルでは,北極地域の複雑な環境を十分に捉えきれない場合がある。
    • 北極地域に特化したデータを用いた事前学習により,高精度なリモートセンシングを実現する。
    • 本研究では,多様性を考慮した地域規模の画像キュレーションと,マスクオートエンコーダを用いた自己教師あり事前学習を組み合わせた。
    • その結果,インフラ,IWP,RTS,TCNsのフォアグラウンド平均F1スコアが,ImageNet初期化のViT-Largeと比較して,それぞれ0.87,0.72,0.93,0.87に向上した。
    • 提案モデルは,Prithvi-EO-2.0よりも全てのダウンストリーム比較で優れており,地域規模でのデータ分布の最適化が有効であることが示された。

    Link: https://arxiv.org/abs/2605.30467

  • 軌道駆動型時空間改良解法:CVPR 2026 第8回UG2+チャレンジ トラック3:DOST [cs.CV]目的:動的オブジェクトの乱流下におけるセグメンテーション性能向上
    • 近年のコンピュータビジョンでは,動画中のオブジェクト追跡とセグメンテーションが重要な課題となっている。
    • 悪天候や乱流下では,対象物の形状が歪み,正確なセグメンテーションが困難となる。
    • 乱流環境下におけるセグメンテーション精度の向上と,誤検出の抑制を目指している。
    • 提案手法は,強力なベースラインモデルSegAnyMoを基盤とし,データ拡張と時空間後処理を加えることで性能を向上させた。
    • データ拡張では,DAVISデータセットやDOSTデータセットを用いて,モデルのロバスト性を高めた。
    • 時空間後処理モジュールは,誤検出を除去しつつ,小さなターゲットやラベルを維持することで高精度なセグメンテーションを実現した。

    Link: https://arxiv.org/abs/2606.00522

  • ポーズと考察:ビデオに基づいた支援行動提案のためのデータセットとベンチマーク [cs.CV, cs.AI]目的:ビデオに根ざした支援行動提案のためのデータセットと評価基準
    • 近年の視覚言語モデルの応用拡大に伴い,ビデオ理解と推論の重要性が増している。
    • 既存の視覚言語モデルは,ビデオ内の状況把握,時間的整合性,文脈に応じた計画立案に課題がある。
    • モデルが視覚的証拠に基づき思考を停止し,簡潔かつ実行可能な応答を生成できるようにすること。
    • 本研究で提案するデータセットは,モデルに構造化された推論を促し,人間らしい支援を可能にする。
    • 40億パラメータのコンパクトなモデルをファインチューニングし,ベンチマーク評価を行った結果,GPT-5.2と同等の性能を示した。
    • さらに,EgoThinkやTempCompassなどの異なるデータセットでも高い汎化性能と大幅な性能向上を確認した。

    Link: https://arxiv.org/abs/2606.00616

  • R^3:推論誘導による想起と再ランク付けを用いた合成ビデオ検索 [cs.CV]目的:合成ビデオ検索における推論誘導想起と再ランク付けによる手法
    • ビデオ検索は,大量のビデオデータから目的のものを効率的に見つけ出すために不可欠である。
    • 既存手法では,ビデオとテキスト間の関係性のみを捉え,ビデオ編集指示による変化を考慮できない場合がある。
    • ビデオ編集指示と参照ビデオに基づき,ビデオの変化を推論し,より正確な検索を実現すること。
    • 提案手法R^3は,参照ビデオと編集指示を推論に基づいた検索プログラムに変換することで,効果的なビデオ検索を実現した。
    • 編集指示から期待されるターゲットビデオの変化を推論し,その推論結果を検索クエリに組み込むことで検索精度を向上させた。
    • 想起された候補ビデオを直接比較することで,ターゲットビデオの状態変化やオブジェクトの一貫性を検証し,最終的な再ランク付けを行った。

    Link: https://arxiv.org/abs/2606.01113

  • 複雑な運転環境下におけるロバストな交通標識認識のための階層的に分離された混合エキスパートモデル [cs.CV]目的:複雑な運転環境下でのロバストな交通標識認識
    • 自動運転や高度運転支援システムにおいて,周囲環境の認識は不可欠である。特に交通標識の検出は安全な走行に重要な役割を果たす。
    • 従来の交通標識検出器は,グローバルに共有されたパラメータを用いるため,多様で構造化されていない交通状況への適応が難しいという課題があった。
    • 本研究は,様々な交通状況に対応可能な,動的なエキスパート選択による交通標識認識を目指している。
    • 提案手法であるCBDES MoE TSRは,YOLOベースの多様なエキスパートプールと軽量なゲートネットワークにより,入力画像に基づいて最適なエキスパートを動的に選択する。
    • 実験結果から,提案手法は複合交通標識データセットにおいて,mAP50-95が76.8%と,ベースライン手法(74.5%)を2.3%上回る高い検出精度を達成した。
    • また,計算コストを約39.4%削減することにも成功し,精度と効率性の両立を実現した。

    Link: https://arxiv.org/abs/2606.01822

  • 統一された運転トークン:運転ワールドモデルと計画のための表現および幾何学に誘導された離散トークナイザー [cs.CV]目的:運転ワールドモデルと計画のための離散トークンの表現
    • 自動運転技術の発展には,周囲環境の効率的な表現が不可欠である。
    • 既存のトークナイザーは画像生成向けであり,運転判断に必要な情報を十分に捉えられていない。
    • 運転に特化したトークナイザーを開発し,効率的なワールドモデルと計画を実現する。
    • 提案手法は,DINO特徴空間とのアライメントとRGB再構成による外観の維持を両立した。
    • フレーム間深度や相対姿勢の情報を導入し,幾何学的状態に関する手がかりを学習に組み込んだ。
    • NAVSIMにおける実験で,再構成の忠実度,表現の一貫性,および計画性能が向上した。

    Link: https://arxiv.org/abs/2606.01935

  • OpenWebRL:視覚的ウェブエージェントのためのオンライン多段階強化学習の解明 [cs.LG, cs.AI, cs.CL, cs.CV]目的:視覚的ウェブエージェントのオンライン多段階強化学習に関する研究
    • ウェブエージェントは,多様な情報源へのアクセスにより,様々なタスク実行を可能にする重要な技術である。
    • 既存のオープンソースエージェントは,大規模な教師ありデータに依存しており,スケーラビリティに課題がある。
    • 本研究は,オンライン強化学習を用いて,教師ありデータへの依存を減らし,より効率的な学習を実現する。
    • OpenWebRLは,実サイト上でのオンライン多段階強化学習のためのオープンなフレームワークを提供する。
    • OpenWebRL-4Bは,Online-Mind2Webで67.0%,DeepShopで64.0%の成功率を達成し,既存のオープンソースエージェントを上回る性能を示す。
    • 本研究は,オンライン強化学習が視覚的ウェブエージェントの推論能力向上に寄与することを示唆する。

    Link: https://arxiv.org/abs/2606.02031

  • ピクセルキューブ:リアルな照明再現による拡散ベースのポートレイト動画の再照明 [cs.CV]目的:ポートレイト動画の再照明手法
    • 動画コンテンツ制作において,照明は表現の重要な要素であり,その制御は高品質な映像制作に不可欠である。
    • 従来の再照明技術では,写実感や時間的な一貫性を両立することが困難であった。
    • 写実性と時間的一貫性を備えたポートレイト動画の再照明を実現すること。
    • 提案手法は,リアルな照明環境を再現するLED照明システムと,拡散モデルを活用することで,高画質な再照明を実現した。
    • 環境マップによる照明制御に加え,背景画像を合成することで,カメラの露出レベルや色調の制御を可能にした。
    • 様々な被写体,動き,照明条件下で,写実性,照明の調和,時間的一貫性において最先端の性能を達成した。

    Link: https://arxiv.org/abs/2606.02919

  • 階層的視点-トークン輸送によるゼロショット3D質問応答 [cs.CV, cs.LG]目的:ゼロショット3D質問応答の性能向上
    • 3Dシーン理解は,ロボット工学や自動運転など,様々な応用分野で重要である。
    • 限られた入力情報の中で,3D情報を最大限に活用することが課題である。
    • 視点とトークンの重要度を評価し,効率的な情報収集を目指す。
    • 提案手法KeyVTは,視点レベルとトークンレベルで階層的にコンテキストを収集する。
    • 視点選択では,セマンティック内容と幾何学的配置を考慮し,空間的に整合性の高い視点を選択する。
    • トークン選択では,最適輸送フレームワークを用いて冗長性を排除し,重要なトークンを特定する。

    Link: https://arxiv.org/abs/2606.03100

  • 偽安定性の克服:ビジョン言語モデルにおけるテスト時敵対的防御のための高ノイズドリフトゲーティング [cs.CV]目的:ビジョン言語モデルにおけるテスト時敵対的攻撃に対する防御機構の改善
    • ビジョン言語モデルは汎化性能が高いが,敵対的攻撃に脆弱であるという課題が存在する。
    • 敵対的訓練は堅牢性を向上させるが,計算コストが高いため,テスト時防御が求められている。
    • 高ノイズ下での特徴量のドリフトを利用し,敵対的な不安定性を検知して防御をトリガーする機構を提案する。
    • CLIPモデルの表現空間において,ノイズ強度の増加に伴い,敵対的サンプルとクリーンサンプルの不安定性に差が生じることを示した。
    • 提案手法は,13のデータセットでクリーン精度とロバスト性のトレードオフを改善する結果を得た。
    • 特に,ファインチューニングされたデータセットにおいて,カウンターアタック防御やノイズアンカー防御の精度を平均で向上させた。

    Link: https://arxiv.org/abs/2606.03730

  • Dream.exe:ビデオ生成モデルは実行可能なロボット操作を夢見られるか [cs.CV]目的:ビデオ生成モデルが学習した物理法則の知識の検証
    • ロボット工学の発展には,現実世界でのタスク遂行能力が不可欠である。
    • ビデオ生成モデルの性能評価は主に視覚的な品質に偏っており,物理的妥当性は不明確である。
    • 生成された映像が現実のロボット操作に適用可能かどうかを評価し,モデルの物理理解度を測る。
    • 本研究で提案するDream$.$exeフレームワークは,ビデオ生成からロボットの実行へと繋ぐパイプラインを構築した。
    • 複数の生成モデルを評価した結果,いくつかのモデルは一定レベルの実行成功率を示し,事前学習が有益であることを示した。
    • 視覚的な品質と実行可能性の間には相関関係が乏しく,従来の評価指標の限界が明らかになった。

    Link: https://arxiv.org/abs/2606.04811

  • トポロジー誘導型状態空間拡散フレームワークによる脳波空間超解像 [eess.SP, cs.CV]目的:脳波空間超解像の実現
    • ウェアラブル脳波計の普及に伴い,低密度脳波の活用が重要視されている。
    • 電極の疎な配置では,脳活動の空間情報を十分に捉えられないという課題がある。
    • トポロジー情報を活用し,高精度な空間超解像を可能にすることを目指す。
    • 提案手法TGSDは,既存手法と比較して,様々な超解像度において再構成精度と下流タスクの分類性能で優れている。
    • TGSDは,トポロジーを考慮した空間事前知識と条件付き拡散モデルを組み合わせることで,低密度脳波の精度向上に貢献する。
    • 本研究成果は,ウェアラブル・IoT環境における実用的な脳波計測に役立つと考えられる。

    Link: https://arxiv.org/abs/2606.03998