arXiv雑要約

画像・音声 - 2026/05/08 公開

オープンセットID不正検出のためのレイアウトを意識した表現学習 [cs.CV, cs.AI, cs.LG]目的：オープンセット不正検出におけるレイアウトを意識した表現の学習
- ID書類の不正検出は，セキュリティ上重要な課題であり，経済的損失や社会的な混乱を防ぐ必要がある。
- 従来の不正検出手法は，固定されたラベルに依存するため，巧妙化する攻撃者に対応できないという課題がある。
- 本研究は，分布の変化に対応し，新たな不正パターンを検出できる表現学習手法を開発することを目指す。
- DINOv3を文書ドメインに適合させ，コンテキストを考慮したSimMIMによるファインチューニングと，分離性とコンパクト性を促す複合損失を用いた教師あり距離学習を行った。
- カナダのIDレイアウトで99.83%のレイアウト分類精度を達成し，埋め込み空間分析により276件の適応的物理不正事例を検出した。
- 従来の検出器では検出されなかった222件の事例が含まれており，単一の確認済み事例から関連する事例を拡張できることが示された。
Link: https://arxiv.org/abs/2605.05215
医療画像アトリビューションのための反事実GAN [cs.CV]目的：医療画像における特徴アトリビューション手法
- 医療画像診断の精度向上は，患者の早期発見と適切な治療に不可欠である。
- 既存のアトリビューション手法は，識別的な特徴に偏り，画像全体の理解を妨げることがある。
- 反事実GANを用いて，より包括的で解釈可能なアトリビューションを生成し，診断支援を強化する。
- 提案手法は，合成データセット，結核データセット，BraTSデータセットで有効性が確認された。
- 既存の反事実説明手法では，妥当な反事実インスタンスの生成に限界があることが示された。
- 妥当な反事実インスタンスを伴うアトリビューションにより，自己説明的な説明が可能となる。
Link: https://arxiv.org/abs/2605.05283
分布シフト下における3D物体検出のロバストな不確実性定量化と較正 [cs.CV, cs.RO]目的：3D物体検出における不確実性の定量化と較正
- 安全な自動運転システムの実現には，3D物体検出の信頼性向上が不可欠である。
- 既存の検出器は，特に分布シフト下において，不十分な較正を示すという課題がある。
- 分布シフト下においても適応的に較正を行う手法を開発し，不確実性の推定精度を向上させる。
- 提案手法は，DETRスタイルの3D物体検出器の潜在的な物体クエリの特徴密度を活用した密度認識較正である。
- この手法により，分類とバウンディングボックス回帰の両方において不確実性を再較正できる。
- マルチビューカメラおよびLiDARベースの検出器で，標準的な後処理較正手法を上回る性能が確認された。
Link: https://arxiv.org/abs/2605.05328
ViTok-v2：50億パラメータへのネイティブ解像度オートエンコーダの拡張 [cs.CV, cs.AI, cs.LG]目的：画像に対するViTオートエンコーダの性能向上
- 画像認識の性能向上に，より良い画像トークナイザーが不可欠である。
- 既存のViTトークナイザーは，訓練解像度外で性能が低下し，スケールアップが困難である。
- 解像度とアスペクト比への対応と，安定した大規模訓練を実現する。
- ViTok-v2は，NaFlexにより様々な解像度に対応し，DINOv3損失関数で安定した訓練を可能にした。
- 約20億枚の画像で訓練し，50億パラメータという最大規模の画像オートエンコーダを実現した。
- 256pで最先端の再構成性能を維持し，512p以上では既存のモデルを上回る性能を示した。
Link: https://arxiv.org/abs/2605.05331
Open-SAT：LLMによるクエリ埋め込みの改良と衛星画像におけるオープンボキャブラリ物体検索 [cs.CV, cs.AI, cs.IR]目的：衛星画像におけるオープンボキャブラリ物体検索の精度向上
- 衛星画像解析は，地球規模の課題解決に不可欠であり，多様な応用分野で活用が期待されている。
- 既存の検索システムは，固定されたカテゴリに依存するため，多様な自然言語クエリに対応できないという課題がある。
- LLMを活用し，クエリ埋め込みを改良することで，未知の物体や概念に対する検索精度を向上させる。
- Open-SATは，追加の学習や教師データなしで，クエリ埋め込みを改良する推論時のアルゴリズムである。
- 実験の結果，Open-SATは3つの公開ベンチマークにおいて，F1スコアを最大16.04%向上させた。
- Open-SATは，LLMのガイダンスを活用することで，衛星画像検索の有効性を示すことができた。
Link: https://arxiv.org/abs/2605.05344
空間地理情報を用いた視覚的位置推定のための新データセット：egenioussBench [cs.CV]目的：空間地理情報に基づく視覚的位置推定のベンチマークデータセット
- 都市の3Dモデルや地図データは，自動運転やロボットナビゲーションなどの応用において不可欠である。
- 既存の視覚的位置推定手法は，SfMに依存し，大規模な環境への適用が困難な場合がある。
- 現実的な都市環境における視覚的位置推定の課題を克服し，手法の性能を評価するためのデータセットを提供する。
- egenioussBenchは，航空機で取得した3DメッシュとCityGMLモデルを組み合わせたベンチマークデータセットである。
- スマートフォン画像を用いており，PPKやGCPを用いた高精度な位置情報と組み合わせて評価が可能である。
- データセットには，相互に視認しない画像群が含まれており，現実的な課題を再現し，公平な比較を可能にする。
Link: https://arxiv.org/abs/2605.05351
逐次学習型早期終了ニューラルネットワークにおける安定性と可塑性のバランス [cs.LG, cs.CV]目的：逐次学習型早期終了ニューラルネットワークにおける性能維持と向上のための手法
- 計算資源の効率的な利用が求められる中，ニューラルネットワークの推論コスト削減が重要である。
- 逐次学習では，新たな出口の追加が既存の出口の性能を損なう干渉が課題となる。
- 既存の知識を保持しつつ，新たな出口の学習を可能にする手法を確立すること。
- 提案手法は，既存の出口の学習済みパラメータを保護し，学習の安定性を高める。
- また，早期終了の出力分布を維持することで，以前の出口の性能を保持する。
- 実験結果から，提案手法は既存手法と比較して精度と計算効率の両面で優れていることが示された。
Link: https://arxiv.org/abs/2605.05358
タマットゥル3D：単眼ビデオからの高忠実度3Dサウジアラビア手話アバター [cs.CV, cs.AI]目的：サウジアラビア手話の高品質3Dパラメトリックアノテーションとアバター生成のための特殊な再構成手法
- アラビア語話者4億人以上が手話を使用しており，その文化継承とコミュニケーション支援が重要である。
- アラビア手話とその方言は高品質な3Dアノテーションやアバター生成手法が不足している。
- サウジアラビア手話に特化した高精度なアバター再構成フレームワークの確立を目指す。
- Ishara-500サウジアラビア手話データセットに対して高品質な3Dパラメトリックアノテーションを新たに作成した。
- 手話特有の関節パターンに適応した再構成パイプラインTamaththul3Dを開発し，既存手法を上回る精度を実現した。
- このフレームワークは，アラビア語圏の聴覚障碍者のためのアクセシビリティ向上と文化保存に貢献する。
Link: https://arxiv.org/abs/2605.05367
2ステップで十分：一貫性モデルを用いた効率的な3D点群異常検知 [cs.CV, cs.AI]目的：3D点群データにおける異常検知の効率化
- 近年の製造業において，3Dセンシングは品質保証や工程管理に不可欠であり，信頼性の高い異常検知が求められている。
- 既存手法は計算コストが高いか，複雑な領域での信頼性が低い。拡散モデルは反復処理によるボトルネックが存在する。
- 計算資源の限られた環境でも低遅延で異常検知を実現するため，一貫性学習による効率的な手法を確立する。
- 本研究では，一貫性学習を用いて異常のない形状を直接予測する手法を提案し，推論コストを大幅に削減した。
- 最先端手法と比較して最大80倍の高速化を達成し，GPUアクセラレーションなしでも高い検知性能を維持した。
- Anomaly-ShapeNetで76.20%のI-AUROC，Real3DADで72.80%のI-AUROCを達成し，エッジデバイスへの応用を可能にした。
Link: https://arxiv.org/abs/2605.05372
LAMP：メートル単位の3D世界における位置情報を考慮した複数カメラによる人物追跡 [cs.CV]目的：メートル単位の3D世界における複数カメラによる人物追跡
- 近年，VR/AR技術の発展に伴い，3D空間における人物の正確な追跡が不可欠となっている。
- 一人称視点からの複数カメラ映像は，カメラの動きや遮蔽物により追跡が困難である。
- カメラの動きと人物の動きを分離し，複数カメラの情報を統合することで，高精度な追跡を実現する。
- LAMPは，観測者と対象の動きを早期に分離することで，3D人物追跡の課題を解決する。
- カメラの6DoFモーションとキャリブレーションを利用し，2Dキーポイントを統一的な3D空間に変換する。
- 空間・時間Transformerを用いて，3D空間の点群に直接人物の動きを適合させることで，高い追跡精度を達成した。
Link: https://arxiv.org/abs/2605.05390
都市デザインのためのインテリジェントCCTV：交差点におけるソフトインフラのAIベース分析 [cs.HC, cs.AI, cs.CV, eess.IV]目的：都市部の交通におけるソフトインフラの効果評価
- 都市交通の安全性向上は，住民の生活の質を大きく左右するため，重要な課題である。
- 交通政策の効果測定には，時間とコストがかかることが課題である。
- AIを活用し，既存のCCTVを用いて低コストで効果測定を行う。
- ソフトインフラの導入により，信号化されていない交差点では平均速度と85パーセンタイル速度が最大18.75%と16.56%低下した。
- 信号化された交差点でも同様の速度低下が見られ，交通量の減少も確認された。
- AIを活用した交通データ分析は，迅速かつ低コストな交通政策評価に有用である。
Link: https://arxiv.org/abs/2605.05402
ゼロショット衛星画像検索：共同埋め込みによる危機対応への応用 [cs.CV]目的：衛星画像検索の実現
- 地球観測データの活用は，災害対応や環境モニタリング等，社会課題解決に不可欠である。
- 直感的かつ柔軟な画像検索には，画像と自然言語の関連付けが課題となっていた。
- 大規模なペアデータが不要な，実用的な画像検索システムの構築を目指す。
- GeoQueryは，プロンプトに沿ったテキストプロキシを用いることで，ゼロショット衛星画像検索を実現した。
- 76件の災害関連クエリにおいて，50km圏内で31.6%の精度を達成，特に洪水においては50%の精度を示した。
- 実際の危機対応システムECHOにおいて，ブリスベンのサイクロン「アルフレッド」時の脆弱箇所を特定し，洪水シミュレーションの精度向上に貢献した。
Link: https://arxiv.org/abs/2605.05405
ADAS向け劣化認識型不確かさパターン分析による安全重視カメラ信頼性監視 [cs.CV]目的：安全重視ADAS知覚のためのカメラ信頼性監視手法
- 自動運転技術の安全性向上において，カメラセンサーの信頼性は不可欠である。
- 既存の監視手法は，性能低下後にセンサー故障を検知する傾向にある。
- 劣化に起因する不確かさパターンから，故障発生前のリスクを予測することを目指す。
- 提案手法は，Global Sensor Health Index (GSHI) を導入し，劣化度合いを継続的に評価する。
- 実験により，GSHIは劣化度合いと単調に減少し，YOLOv8検出失敗の0.47±0.25単位前に早期警告を発することが示された。
- GSHIは既存手法を上回り，実環境での悪天候データへのゼロショット転移も可能であることが確認された。
Link: https://arxiv.org/abs/2605.05439
EchoXFlow：心臓運動，血流，機能のための超音波心エコーデータセット [cs.CV]目的：心臓解剖，心筋運動，血流間の関係性の学習
- 超音波心エコーは，非侵襲的な心臓評価において重要な役割を担う。
- 既存のデータセットは，ドップラー情報の欠如や処理による情報損失が課題である。
- 本研究は，物理的に整合性の取れた心エコー学習を可能にするデータセットを提供する。
- EchoXFlowは，666件のルーチンケア検査から37125件の記録を含む臨床的な超音波心エコーデータセットである。
- 各記録は，時間分解された1D，2D，3Dデータと複数のドップラー様式として分離されたモダリティ固有のストリームとして保持されている。
- ガイドラインに基づく測定から，高密度な心筋輪郭および左心室の内膜メッシュまで，臨床的注釈が提供されている。
Link: https://arxiv.org/abs/2605.05447
NTIRE 2026 第1回制御可能ボケ表現チャレンジ [cs.CV]目的：制御可能ボケ表現に関する手法の有効性評価
- 写真や映像において，ボケは被写体を引き立てる重要な表現技法である。
- ボケの質を定量的に評価する指標が確立されておらず，主観評価に頼る部分が大きい。
- ボケ表現の自動化・制御技術の発展を目指し，客観的な評価基準の確立に貢献する。
- 本チャレンジでは，44名が参加登録し，最終的に8チームが有効な解法を提出した。
- 定量的な評価に加え，専門家パネルによる主観評価を実施し，知覚的な品質も評価した。
- 多くの参加者は，既存のBokehlicious基盤手法の改良・拡張に注力した。
Link: https://arxiv.org/abs/2605.05510
離散弾性リボン：一次元エネルギーモデルのための統一された離散微分幾何学的フレームワーク [cs.DB, cs.CL, cs.DC, cs.CE, cs.GR, cs.LG]目的：弾性リボンの機械的挙動を記述する統一的な離散微分幾何学的フレームワークの構築
- 弾性リボンは，構造設計や生物学的システムにおいて重要な役割を果たす構造要素である。
- 従来のモデルでは，リボンの幅の影響を正確に捉えることができず，予測精度に課題があった。
- 幅に依存する機械的効果を考慮した，より高精度なリボンモデルを開発し，検証すること。
- 本研究では，離散微分幾何学に基づいた新しいフレームワークを提案し，5種類のモデルを比較検討した。
- 実験結果から，Sanoモデルがシェル有限要素解析との比較において，最も幅依存性のシフトを正確に捉えることが示された。
- JAXベースの実装により，効率的な計算が可能であり，Sanoモデルのオーバーヘッドは小さいことが確認された。
Link: https://arxiv.org/abs/2605.05529
ブラジル大西洋岸雨林の再生状況の特性評価：AlphaEarth埋め込みを用いた地理空間分析 [cs.CV]目的：ブラジル大西洋岸雨林の再生状況の特性評価
- ブラジル大西洋岸雨林は生物多様性の重要なホットスポットであり，その保全が急務である。
- 広範囲な森林再生のモニタリングは，現地調査の限界とNDVI等のリモートセンシング指標の飽和により困難である。
- AlphaEarthの埋め込みを用いて，森林再生の初期段階における成功度を定量的に評価する手法を確立する。
- AlphaEarthの埋め込み空間において，土地利用・土地被覆タイプに応じた明確なクラスターが確認された。
- 成熟した二次林の参照サイトとのコサイン類似度に基づいた「参照軌道埋め込み」が，再生成功の指標として有効であることが示された。
- 埋め込みはノイズを含む場合があり，土地利用・土地被覆以外のサイトメタデータの予測には更なる微調整が必要である。
Link: https://arxiv.org/abs/2605.05547
MODIS 時系列データからの樹種分類のための新規グラフ制御解きほぐしMambaモデル [cs.CV]目的：樹種分類の精度向上
- 環境アプリケーション支援のため，MODIS時系列データからの樹種分類は重要である。
- 樹種間の微細な特徴差，空間・分光・時間情報の複雑な結合，大規模トポロジー情報のモデル化が困難である。
- 大規模トポロジー情報のモデル化と特徴抽出の改善，効率向上を目指す。
- 提案手法GDS-Mambaは，入力画像間のトポロジー相関を明示的に捉えるミニバッチグラフ制御アプローチを採用した。
- 高次元の空間・分光・時間情報の結合を解きほぐし，独立した空間パターン，分光シグネチャ，時間的表現を捉えるMambaアーキテクチャを提案した。
- 効率と微細な特徴学習を向上させるため，最適なトークンサブセットを適応的に学習する疎なトークンアプローチを設計した。カナダ2州での実験で高い精度を示した。
Link: https://arxiv.org/abs/2605.05549
極めて粗いフィードバック信号で，人間と整合性の高い視覚表現の学習は十分である [cs.CV]目的：人間と整合性の高い視覚表現の学習における，学習信号の粒度の役割の解明
- 視覚タスクにおけるニューラルネットワークは，霊長類の視覚システムと類似した表現を獲得し，計算神経科学の進展に寄与している。
- 脳に整合したモデル構築の研究は，より詳細な教師信号を取り入れてきたが，教師信号の粒度が脳との整合性にどう影響するかは不明であった。
- 本研究は，学習信号の粗さが人間の視覚との表現整合性に及ぼす影響を定量的に評価し，最適な信号の粗さを特定する。
- 8つの大まかなカテゴリを区別するだけで，1000クラスを区別するモデルと同等以上の神経整合性を達成できることが示された。
- 粗く学習されたネットワークは，他のモデルよりも人間の知覚的類似性の判断により一致することが明らかになった。
- これらの結果は，人間のような視覚表現が驚くほど粗いフィードバックから生じることを示し，AIシステムの人間との整合性を高める新たな道を開く。
Link: https://arxiv.org/abs/2605.05556
ブロックチェーンにおける敵対的調達 [cs.GT, cs.CR]目的：敵対的環境下における高コストなタスクの効率的な実行依頼
- ブロックチェーン技術は，分散型システムの信頼性と透明性を高める基盤技術である。
- 計算資源の非対称性に着目したプロトコル設計において，効率的なインセンティブ設計が課題である。
- 敵対環境下でのタスク実行を促す最適なメカニズムを形式的に定義し，その特性を明らかにする。
- 最適なプロトコルの損失は，生存性の故障コストとネットワークにおける敵対的ノードの割合に比例して対数的に増加する。
- 最適な均衡状態は直感的な構造を持ち，リーダーベースのコンセンサス機構を想起させる単一のランダムノードを主要なワーカーとして指定し，委員会がバックアップとして機能する。
- マイナスの支払い（スラッシング）が特に有効な漸近的レジームが特定された。
Link: https://arxiv.org/abs/2605.05559
テキストからCADモデルの検索：強力なベースライン [cs.CV]目的：テキストに基づくCADモデルの検索
- 既存の産業設計の再利用において，CADモデルの効率的な検索が重要である。
- 従来のファイル名やディレクトリ検索では，精度，拡張性，効率に課題がある。
- 大規模データベースから，自然言語クエリに基づいた関連CADモデルの検索を可能にする。
- 本研究では，手続きシーケンスと点群からマルチモーダルCAD埋め込みを学習する統一フレームワークを提案した。
- このフレームワークは，テキストと点群の特徴を用いたマスクされたシーケンス特徴の再構成を通じて，暗黙的なマルチモーダルアラインメントを促進する。
- 提案手法は，テキストからCADモデルの検索における強力なベースラインとなり，検索拡張生成などの下流タスクの基盤となる。
Link: https://arxiv.org/abs/2605.05572
リモートセンシングにおける深層画像回帰のための不確実性に基づくエッジ学習 [cs.CV]目的：深層画像回帰におけるエッジ学習の高速化
- リモートセンシングは，地球観測に不可欠であり，そのデータ解析には高度な技術が求められる。
- エッジデバイスの計算資源の制約が，モデルの最適化と不確実性の計算を困難にしている。
- エッジ学習において，効率的な不確実性評価に基づくデータ優先度付けによって学習を加速すること。
- 提案手法であるUGELは，既存の能動学習や半教師あり学習と比較して，より迅速な学習収束を実現する。
- 深層ベータ回帰を用いることで，単一のフォワードパスで計算可能な不確実性評価を実現した。
- これにより，エッジデバイスにおける計算コストを抑えつつ，汎用的な予測分布を扱える。
Link: https://arxiv.org/abs/2605.05590
文脈のコスト：マルチモーダル検索拡張生成におけるテキストバイアスの軽減 [cs.CL, cs.CV, cs.LG]目的：マルチモーダル検索拡張生成におけるテキストバイアスの軽減策
- 大規模言語モデルの性能向上と，より信頼性の高い応答生成が求められている。
- 検索拡張生成は幻覚を軽減するが，誤った予測を引き起こす可能性も秘めている。
- 文脈導入による予測の誤りを防ぎ，マルチモーダルな根拠に基づいた診断の信頼性を向上させる。
- 研究により，「再汚染」と呼ばれる現象が特定された。これは，正確な文脈の導入によってモデルが当初正しい予測を放棄する現象である。
- 再汚染は，視覚情報の軽視と位置バイアスによる注意機構の崩壊が原因であることが示された。
- BAIRというパラメータ不要な介入手法が提案され，視覚的顕著性を回復し，テキスト上の注意散漫を抑制することで，診断の信頼性を改善した。
Link: https://arxiv.org/abs/2605.05594
X-Voice：ゼロショット多言語音声クローニングによる30言語対応の実現 [cs.SD, cs.AI, eess.AS]目的：ゼロショット多言語音声クローニングモデルの開発
- グローバル化の進展に伴い，言語の壁を越えたコミュニケーションの重要性が増している。
- 既存の音声合成システムでは，言語ごとのモデルが必要であり，多言語対応が困難であった。
- 学習データが不要なゼロショットでの多言語音声クローニングを可能にし，言語の多様性を支援する。
- X-Voiceは，420K時間の多言語コーパスを用いて訓練された0.4Bパラメータのモデルである。
- 既存のflow-matchingベースの多言語システムと比較して，性能が向上している。
- 大規模モデルに匹敵するゼロショットクロスリンガルクローニング能力を達成した。
Link: https://arxiv.org/abs/2605.05611
関節リウマチに対する手部X線画像の統一的な評価とデータセット：RAM-H1200 [cs.CV, cs.LG]目的：関節リウマチにおける手部X線画像の多層的な分析とモデリング
- 関節リウマチの診断・治療において，手部X線画像は重要な役割を担う。
- 既存のデータセットは，包括的な分析に必要な手部全体の構造，詳細な病変注釈，臨床評価との整合性に欠ける。
- 手部X線画像から解剖学的構造，局所的な病理変化，臨床的な重症度を統合的に評価できる基盤を提供する。
- RAM-H1200は，手部全体の骨構造のセグメンテーション，骨びらんのピクセルレベルマスク，関節領域の特定，および臨床スコアリングを包含する。
- 本データセットを用いることで，骨びらんの定量的な分析が可能となり，既存の粗い分類法を超える詳細な評価を実現する。
- 解剖学的構造のモデリングは進んでいるものの，定量的な骨びらん分析は依然として課題である。
Link: https://arxiv.org/abs/2605.05616
画像生成モデルを活用した訓練データ不足の解消：森林再生マッピングのためのGen4Regenデータセット [cs.CV, cs.AI, cs.LG, cs.RO]目的：森林再生種におけるセマンティックセグメンテーションの精度向上
- 持続可能な森林管理には精密な樹種構成マッピングが不可欠であり，その重要性は高い。
- 専門家による画像アノテーションの不足，特に多様な森林再生帯におけるデータ収集が課題である。
- AIによる画像生成を活用し，データ不足を補い，森林再生種マッピングの精度を向上させる。
- 大規模なビジョン言語モデルを用いて高品質な画像とセマンティックマスクを生成するフレームワークを開発した。
- 実データとAI生成データを組み合わせることで，F1スコアが15%以上向上し，データ拡張の有効性が示された。
- 特にデータが少ない樹種において，AI生成データによるF1スコアが最大30%向上し，効果が確認された。
Link: https://arxiv.org/abs/2605.05627
野生環境における顔面外観キャプチャのための魅力的な事前知識の学習 [cs.CV, cs.GR]目的：野生環境下における顔面外観キャプチャの精度向上
- 高精度な顔面キャプチャ技術は，デジタルヒューマンの作成やアバターの生成に不可欠である。
- 従来のモデルベースの手法では，未知の照明下での反射率の分離が困難であった。
- 学習可能な事前知識を用いることで，反射率推定の精度を向上させることを目指す。
- 提案手法では，異質なデータソースを統合するためにデータセット潜在モジュレーション(DLM)を導入した。
- 学習された事前知識は，既存の商用モデルと比較して優れた性能を示すことが確認された。
- 本研究により，カジュアルな動画入力から高品質な反射率推定が可能となり，NeRSemble-Scanデータセットを公開した。
Link: https://arxiv.org/abs/2605.05636
曖昧なクエリに基づく長編動画のアフェクティブ理解：AffectSeek [cs.AR, cs.CV]目的：曖昧なユーザーのクエリに基づいて，長編動画におけるアフェクティブな瞬間を特定し，感情カテゴリを予測し，証拠に基づいた根拠を生成すること。
- 動画コンテンツの感情理解は，人間とコンピュータのより自然なインタラクションを可能にする上で不可欠である。
- 既存の研究は短いクリップに焦点を当てており，ユーザーの意図を考慮した長編動画における感情理解は不十分である。
- 本研究は，曖昧なクエリに基づく長編動画のアフェクティブ理解という新たな課題に取り組むことで，その問題を解決することを目指す。
- 本研究では，長編動画，曖昧な感情クエリ，時間的なクリップ注釈，感情ラベル，根拠説明を統合したベンチマークデータセットVQAU-Benchを構築した。
- 提案手法AffectSeekは，意図解釈，候補局所化，クリップ検証，感情推論，根拠生成の各段階を経て，曖昧なユーザー意図と長編動画の証拠を段階的に整合させる。
- 実験の結果，既存の感情認識モデルや単一ステップのビジョン言語モデルではVQAUは依然として困難であり，AffectSeekが有効なフレームワークであることが示された。
Link: https://arxiv.org/abs/2605.05640
MUSE：トポロジカル直交性による視覚的トークン化における多様体誤整列の解決 [cs.CV]目的：視覚的トークン化における多様体誤整列の解消
- 視覚的トークン化は，画像理解の基礎技術であり，その性能向上は様々な応用分野に貢献する。
- 高精度な画像再構成と意味的抽象化の間にはトレードオフが存在し，両立が困難であった。
- トポロジカル直交性に基づくMUSEフレームワークにより，再構成と意味理解の相互強化を目指す。
- MUSEは，従来のトレードオフを打破し，最先端の生成品質（gFID 3.08）を達成した。
- 線形プローブにおいて，教師モデルであるInternViT-300Mを上回る性能（85.2% vs. 82.5%）を示した。
- 構造的に整列した再構成が，意味的知覚能力を向上させることを実証した。
Link: https://arxiv.org/abs/2605.05646
疎から完全へ：疎な画像キャプチャから完全な3Dシーンへ [cs.CV]目的：高忠実度で完全な3Dシーン再構成
- 3Dシーンの再構成は，メタバースやロボティクスなど，幅広い応用分野において不可欠である。
- 従来の3D再構成手法は，多くの画像データを必要とし，計算コストが高いという課題があった。
- 少ない画像から高品質な3Dモデルを効率的に再構成することを目指す。
- 本研究では，わずか6〜8枚の画像から高忠実度な3Dシーンを再構成するS2C-3Dフレームワークを提案する。
- シーン特化型拡散モデル，トレーニング不要のビュー整合性条件付きサンプリング，カメラ軌道計画スキームが特徴である。
- 実験結果は，S2C-3Dが最先端手法を凌駕し，欠損領域やアーティファクトのない高品質なシーンを生成することを示す。
Link: https://arxiv.org/abs/2605.05664
大規模ビジョン言語モデルにおける注意機構の迷走 [cs.AI, cs.CV]目的：大規模ビジョン言語モデルにおける注意機構とFFNの役割の解明
- 近年のAI研究において，ビジョンと言語を統合するモデルは重要な役割を担う。
- 既存モデルの内部構造の理解が不十分で，効率的なアーキテクチャ最適化が困難である。
- 情報理論と幾何学に基づき，注意機構の機能的な非効率性を示す。
- 注意機構は再構成に特化し，FFNは意味的革新を担うという機能分担が明らかになった。
- 注意機構の学習された重みを事前定義された値に置き換えても，性能が低下しない，または向上することが示された。
- 現在の最先端モデルは，注意機構に過剰な資源を投入し，効率的に視覚情報を活用できていない可能性がある。
Link: https://arxiv.org/abs/2605.05668
EGA：分布外の劣化を抑制したベクトル検索のためのフローズンエンコーダの適応 [cs.CV, cs.AI, cs.LG]目的：フローズンビジョンエンコーダを用いたベクトル検索における，分布外のデータへの対応
- 画像認識技術は多様な応用分野で重要であり，効率的なベクトル検索が求められている。
- フローズンエンコーダは計算コストが低い一方，未知クラスのデータに対する性能劣化が課題となる。
- 未知クラスのデータへの影響を最小限に抑えつつ，既知クラスの性能を向上させる適応手法の開発。
- EGAは，ゼロ初期化，局所トリプレット損失，双曲球投影の3原則を組み合わせることで，自己制限的な学習を実現した。
- EGAは，学習の収束時に96.5%のトリプレットで勾配がゼロとなり，未知クラスの領域への影響を抑制しつつ，既知クラスの微調整を可能にした。
- 5つの分布外データセットにおいて，EGAは最悪ケースのラベル精度で優れた性能を示し，一貫した改善を実現した。
Link: https://arxiv.org/abs/2605.05674
MotionGRPO：GRPOベースの自己中心的動作復元における低いグループ内多様性の克服 [cs.CV]目的：全身3Dヒューマンモーションの復元
- 没入型体験や人間とロボットのインタラクションにおいて，正確な全身モーションの理解が不可欠である。
- 既存の拡散ベース手法は，局所的な関節再構成誤差が発生しやすい。
- 拡散過程への微細な誘導注入により，動作復元の精度とリアリティを向上させる。
- 提案手法MotionGRPOは，強化学習を用いたポストトレーニングにより，拡散過程に詳細なガイダンスを注入する。
- グループ相対ポリシー最適化（GRPO）を導入し，ハイブリッド報酬メカニズムにより，視覚的な妥当性と局所的な関節精度を両立した。
- ノイズ注入戦略によりサンプル分散を増加させ，学習の安定化を実現し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.05680
RGBからハイパースペクトル画像再構成のためのガイド付きスペクトル拡散モデル [cs.CV]目的：RGB画像からのハイパースペクトル画像再構成
- ハイパースペクトル画像は，環境計測や精密分析に不可欠な高精度なスペクトル情報を提供する。
- RGB画像からのハイパースペクトル画像再構成は，情報損失により困難な逆問題である。
- 本研究は，高いスペクトル忠実度と計算効率を両立する再構成手法を開発する。
- 提案手法R2H-Diffは，RGB画像によって導かれる反復的な精緻化プロセスとしてスペクトル回復を定式化する。
- ガイド付きスペクトル精緻化モジュールとハイパースペクトル適応転置アテンションモジュールを採用し，効率的な空間-スペクトル依存性モデリングを実現する。
- NTIRE2022データセットにおいて，R2H-Diffは0.58Mパラメータ，12.25G FLOPsで35.37dBのPSNRを達成し，既存手法中で最も低いモデル複雑性で高い再構成精度を維持した。
Link: https://arxiv.org/abs/2605.05688
CFE-PPAR：ビデオTransformerを活用したプライバシー保護アクション認識のための圧縮に強い暗号化 [cs.CV, cs.AI, cs.CR]目的：プライバシー保護アクション認識のための圧縮に強い暗号化手法
- ビデオデータにおけるプライバシー保護は重要であり，行動認識と両立が求められている。
- 既存の暗号化手法は，ビデオ圧縮を行うと認識性能が大幅に低下するという課題がある。
- 圧縮による性能劣化を抑制しつつ，プライバシー保護と高精度な行動認識を実現すること。
- 提案手法CFE-PPARは，暗号化されたビデオを直接Video Transformerで認識可能にする。
- 実験の結果，CFE-PPARはUCF101およびHMDB51データセットにおいて，Motion-JPEGおよびH.264圧縮下で既存手法を上回る性能を示した。
- 同じ鍵で暗号化とパラメータ変換を行うことで，圧縮耐性を高めている。
Link: https://arxiv.org/abs/2605.05692
ビデオに基づく感情認識のための被験者不変クロスモーダルプロンプトチューニングによる適応的な身体・顔面表現融合 [cs.CV]目的：ビデオに基づく感情認識における感情状態の認識
- 非接触で人間の感情状態を推測できるため，メンタルヘルスケアなど幅広い応用が期待される。
- 顔表情だけでは感情を正確に捉えきれない上に，遠隔心拍変動はノイズや個人差の影響を受けやすい。
- 顔面表現と遠隔心拍変動を効果的に融合し，個人差に強い感情認識モデルを開発することを目指す。
- 提案手法は，事前学習済みのVision Transformerの汎用的な顔面表現を維持しながら，クロスモーダルな相互作用を実現した。
- 各ViT層に導入したDSSAにより，被験者共有と被験者固有の成分を分離し，交差被験者汎化性能を向上させた。
- MAHNOB-HCIとDEAPのベンチマークにおいて，提案手法は既存手法を精度と汎化能力の両面で上回った。
Link: https://arxiv.org/abs/2605.05694
LLM-RL結合による3Dシーン生成と没入型インタラクションの統合 [cs.CV, cs.GR, cs.HC, cs.LG, cs.MM]目的：言語駆動型3Dシーン生成と没入型ユーザインタラクションの統合フレームワーク
- 近年，マルチメディア体験の質を向上させるため，3D環境の自動生成が重要視されている。
- 既存手法では，シーン生成とユーザインタラクションが分離されており，適応性と没入感に課題があった。
- 言語による指示に基づき，シーン生成とインタラクションを統合し，より自然で適応的な体験を実現する。
- 大規模言語モデルと強化学習を組み合わせた統合フレームワークを提案し，生成とインタラクションの閉ループを確立した。
- ALFREDベンチマークにおいて，タスクベースのシーン生成において最先端の性能を達成した。
- ユーザスタディの結果，没入感，インタラクションの質，タスク効率が向上することが示された。
Link: https://arxiv.org/abs/2605.05711
EgoEMG：双方向EMGと視覚情報を用いた一人称視点ハンドポーズ推定のためのマルチモーダルデータセット [cs.CV]目的：双方向EMGおよび視覚情報を用いたハンドポーズ推定のためのマルチモーダルデータセットの構築
- ロボット工学やヒューマンコンピュータインタラクションにおいて，人間の手の正確な姿勢推定は重要な課題である。
- 既存のデータセットでは，EMGと視覚情報の同期が取れておらず，ロバストなハンドポーズ推定が困難である。
- EMGと視覚情報を統合することで，オクルージョンや暗所環境下でも正確なハンドポーズ推定を可能にすることを目指す。
- EgoEMGは，双方向EMG，IMU，RGBビデオ，RGB-Dビデオ，モーションキャプチャデータを含むマルチモーダルデータセットである。
- 41名の参加者による60種類のジェスチャ（片手30種類，両手30種類）を収録し，合計10時間以上のデータを提供している。
- EMG-to-pose，vision-to-pose，EMG+vision fusionの3つのベンチマークタスクを設け，汎化性能を評価するフレームワークを構築した。
Link: https://arxiv.org/abs/2605.05712
TriRelVLA：汎用的な具身体験的マニピュレーションのための三項関係構造 [cs.CV, cs.RO]目的：具身体験的マニピュレーションの汎化性能向上
- ロボットによる作業の自律化が求められる中で，視覚と言語と行動を統合するVLAモデルの重要性が高まっている。
- 既存のVLAモデルは，学習データに依存しやすく，未知の環境や物体への汎化性能が課題となっている。
- 物体，ハンド，タスク間の関係性を明示的に捉えることで，外観統計への依存を低減し，汎化性能を高める。
- TriRelVLAは，マルチモーダル入力から物体，ハンド，タスク間の三項関係性を明示的に表現する。
- タスク誘導型クロスアテンションと関係性を考慮したグラフ変換器により，タスクに基づいた関係グラフを構築する。
- 関係性に着目した行動生成により，シーン，物体，タスクの組み合わせに対する汎化性能が向上することを示した。
Link: https://arxiv.org/abs/2605.05714
$\mathcal{B}^{3}$-Net：マルチタスク稠密予測のための制御された事後ブリッジ学習 [cs.CV]目的：マルチタスク稠密予測におけるタスク間エビデンスの制御された融合
- 画像認識の精度向上と計算効率化のため，複数のタスクを同時に処理する技術が求められている。
- 既存手法では，タスク間エビデンスの信頼性を明示的にモデル化しておらず，ノイズが伝播しやすい。
- タスクエビデンスの信頼度を考慮した制御されたブリッジ学習により，負の転移を抑制し，精度向上を目指す。
- 提案手法$\mathcal{B}^{3}$-Netは，タスク間のエビデンス信頼性を推定し，重み付けされた事後ブリッジを構築する。
- 事後ブリッジは，信頼性の低いエビデンスの影響を抑制し，より信頼性の高い共有状態を生成する。
- NYUD-v2, PASCAL-Context, Cityscapes等のデータセットで，既存手法と比較して同等以上の性能を示す。
Link: https://arxiv.org/abs/2605.05722
アダプティブ更新を用いた光線認識ポインタメモリによるストリーミング3D再構成 [cs.CV]目的：ストリーミング3D再構成のための光線認識ポインタメモリの設計
- 連続画像ストリームからの3D再構成は，ロボティクスや自動運転等の分野で不可欠な技術である。
- 既存手法では，外観ベースの類似性によるメモリ更新が主流であり，視点変化に起因する不安定な幾何構造が生じやすい。
- 空間位置と視線方向を考慮したメモリ表現と，情報を選択的に保持・破棄する更新戦略により，安定性と効率性を両立する。
- 提案手法は，従来のメモリ圧縮手法と比較して，長期的な再構成の安定性とカメラ姿勢の精度を大幅に向上させる。
- 光線認識ポインタメモリは，幾何学的近接性と視点の一貫性を考慮し，冗長な観測やループ検出を統合的に処理する。
- 本研究は，スケーラブルでドリフトに強いオンライン3D再構成のための原理的なフレームワークを提供する。
Link: https://arxiv.org/abs/2605.05749
構造化表現と安定化アフィニティの同時学習による人体動作セグメンテーション [cs.DC, cs.CV]目的：人体動作セグメンテーションのための構造化表現と安定化アフィニティの同時学習
- ビデオコンテンツの理解において，人体動作の認識・分離は重要な課題である。
- 既存手法は部分空間クラスタリングに基づくが，現実世界のビデオでは部分空間の仮定が成立せず，性能が低下する。
- 提案手法は，時間的に一貫性のある表現と安定化アフィニティを学習し，セグメンテーション精度を向上させる。
- 提案手法TDSCは，自己表現モデルとコーディングレート最大化正則化により，表現の崩壊を防ぎ，所望の部分空間分布に適合する。
- 時間的制約を組み込むことで，隣接フレームが同一グループに分割されるよう促し，セグメンテーションの安定性を高める。
- ５つのベンチマークデータセットで実験を行い，提案手法の有効性を検証した。従来のHOG特徴量と最新の深層特徴量（CLIP，DINOv2）の両方で良好な結果が得られた。
Link: https://arxiv.org/abs/2605.05753
MaMi-HOI：人間と物体のインタラクション生成のための大域的キネマティクスと局所的幾何形状の調和 [cs.RO, cs.CV]目的：人間と物体のインタラクション生成における自然な動きと正確な接触の両立
- ロボット工学や仮想現実など，多様な応用分野において，人間と物体のインタラクションの再現は不可欠である。
- 既存手法は意味的な整合性に優れるものの，物体との正確な接触を維持することが困難である。
- 拡散モデルの深層化に伴う幾何形状情報の消失（Geometric Forgetting）に対処し，正確な接触を可能とする。
- MaMi-HOIは，大域的なキネマティクスと局所的な幾何形状を調和させることで，自然で正確なインタラクション生成を実現する。
- 提案手法では，GAPA（Geometry-Aware Proximity Adapter）により，物体の詳細な形状情報を再注入し，正確な接触を実現する。
- さらに，KHA（Kinematic Harmony Adapter）により，全身の姿勢を空間的な目的に合わせて調整し，自然な動きを維持する。
Link: https://arxiv.org/abs/2605.05756
iTRIALSPACE：肺CTモデルの制御された評価のためのプログラム可能な仮想病変試験 [cs.CV]目的：肺CTモデルの制御された評価のためのフレームワーク
- 肺CTモデルの精度向上は，早期診断と治療に不可欠である。
- 既存の評価方法では，病変サイズや解剖学的構造の影響が混在し，モデルの性能要因特定が困難である。
- iTRIALSPACEは，制御された仮想病変試験を通じて，モデルの性能に影響を与える構造的要因を特定する。
- iTRIALSPACEは，13種類の試験モードを含む54属性のノジュールプロファイルデータセットを構築した。
- 合成されたCT画像は，実画像とのFIDスコアが同程度であり，合成性能が実際の臨床データに強く反映されることが示された。
- 制御された試験モードにより，従来のベンチマークでは明らかにしえなかった，サイズ予測の偏りやドナー・ホスト間の分散比などが明らかになった。
Link: https://arxiv.org/abs/2605.05761
X-OmniClaw技術レポート：マルチモーダル理解とインタラクションのための統一モバイルエージェント [cs.NI, cs.CV]目的：マルチモーダル理解とインタラクションを実現する統一モバイルエージェントのアーキテクチャ
- 近年，より複雑で直感的なインタラクションを可能にするモバイルパーソナルエージェントの需要が高まっている。
- 既存のシステムでは，UI状態，視覚情報，音声入力などの多様な情報を統合し，文脈を考慮したタスク遂行が困難である。
- 本研究は，モバイル環境における多様な情報を統合し，高度な文脈認識とパーソナライズされたインタラクションを実現する。
- X-OmniClawは，知覚，記憶，行動の統一的なアーキテクチャにより，複雑なモバイルタスクを高い文脈認識をもって処理する。
- Omni Perceptionは，UI状態，視覚コンテキスト，音声入力を統合し，構造化されたマルチモーダル意図表現を生成する。
- Behavior CloningとTrajectory Replayにより，ユーザーの操作を再利用可能なスキルとして学習し，正確な直接アクセス実行を可能にする。
Link: https://arxiv.org/abs/2605.05765
autoPET3チャレンジ -- 全身PET/CTにおける自動病変セグメンテーション - マルチトレーサー多施設汎化 [cs.CV, cs.AI]目的：全身PET/CT画像における自動病変セグメンテーションの性能評価
- PET/CTは，がんの診断，病期分類，治療効果判定において重要な役割を担う。
- 異なる施設やトレーサー間での画像特性のばらつきが，セグメンテーション精度を低下させる。
- 未知のトレーサー・施設組み合わせに対する汎化性能の向上を目指す。
- 最上位アルゴリズムは，DSC平均0.66，FNV 3.18mL，FPV 2.78mLを達成し，ベースラインよりDSCが8%向上，FNVが5mL減少した。
- セグメンテーション性能は，患者および病変レベルで詳細に分析された。
- ドメイン内でのマルチトレーサーPET/CTセグメンテーションは十分な精度に達している一方，未知の組み合わせへの汎化は依然として課題である。
Link: https://arxiv.org/abs/2605.05775
ノイマンネットワーク [cs.CL, cs.AI, cs.CV, cs.LG]目的：特殊な役割を学習可能な人工ニューロンの構築
- 人間の脳をモデル化した計算システムの研究は，知能のメカニズム解明に不可欠である。
- 従来の深層学習は，パラメータ効率や汎化性能に課題が残されている。
- ノイマンネットワークは，自己設計可能なアーキテクチャで，これらの課題を克服する。
- ノイマンネットワークは，入力と出力の構造に依存する自己設計アーキテクチャを持つ。
- 従来の深層学習モデルと比較して，パラメータ効率が向上し，基本的なタスクで優れた性能を示した。
- ノイマンネットワークは，現代のコンピュータアーキテクチャの拡張を細胞レベルで実現可能にする。
Link: https://arxiv.org/abs/2605.05780
理解度に基づく指導による統一マルチモーダルモデルにおける視覚生成の制御 [cs.CV, cs.AI]目的：統一マルチモーダルモデルにおける視覚生成の制御メカニズム
- 理解と生成を統合するモデルは，AI研究において重要な課題であり，多様な応用が期待される。
- 既存モデルは理解と生成を分離しており，相互の相乗効果が十分に発揮されていないという課題がある。
- 理解度を生成プロセスに直接反映させることで，生成性能の向上を目指す。
- 本研究では，理解度を生成の指導信号として活用する「Understanding-Oriented Post-Training (UNO)」を提案した。
- UNOは，セマンティック抽象化と構造的詳細を組み込むことで，理解から生成への効果的な勾配の流れを実現する。
- 画像生成や編集の実験により，理解度が生成の触媒として機能することが示された。
Link: https://arxiv.org/abs/2605.05781
Stego Battlefield: 画像透かし攻撃と透かし解析防御の評価 [cs.DB, cs.CR, cs.CV]目的：画像透かし攻撃能力と透かし解析防御能力の評価
- デジタルコンテンツの普及に伴い，情報隠蔽技術の安全性が重要視されている。
- 既存の評価フレームワークが統一されておらず，攻撃と防御の能力を客観的に比較できない。
- 画像透かしによる潜在的な脅威を定量化し，防御技術の進歩を促進すること。
- SADBenchは，画像およびテキストペイロードを用いた透かし攻撃と，それに対する透かし解析防御能力を評価する包括的なベンチマークである。
- INNやオートエンコーダベースの手法は，他のアーキテクチャと比較して安定性が高いことが示された。
- 攻撃は新しい分布への汎化能力が高い一方，検出器は適応に苦戦するという重要な非対称性が明らかになった。
Link: https://arxiv.org/abs/2605.05789
Na-IRSTD：ネイティブ解像度特徴選択と融合による赤外線微小ターゲット検出の性能向上 [cs.IR, cs.CV]目的：赤外線微小ターゲット検出における性能向上
- 監視やセキュリティなど，多様な応用において赤外線画像による微小ターゲット検出は不可欠である。
- 既存手法は特徴をダウンサンプリングするため，微小ターゲットの詳細が失われ，検出精度が低下する。
- ネイティブ解像度特徴を維持することで，微小ターゲットの情報を最大限に活用し，検出性能を向上させる。
- 提案手法Na-IRSTDは，ネイティブ解像度特徴抽出と融合フレームワークにより，微小ターゲットの微妙な手がかりを保持する。
- 効果的なトークン削減と選択戦略を導入し，特徴の低レベル詳細を高めつつ計算負荷を軽減する。
- 複数の公開データセットで優れたロバスト性と有効性が確認され，4つのベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2605.05804