arXiv雑要約

画像・音声 - 2026/05/01 公開

Fake3DGS：ニューラルレンダリングにおける3D操作検出のベンチマーク [cs.NI, cs.CV]目的：3D Gaussian Splattingシーンとレンダリングされたビューのデータセット
- 3Dコンテンツのリアリティ向上に伴い，改ざんによるセキュリティリスクが懸念される。
- 既存研究は2D空間に限定されており，3Dコンテンツの改ざん検出は未開拓分野である。
- 3D Gaussian Splattingにおける幾何学，外観，空間レイアウトの操作検出を目指す。
- 本研究で構築したFake3DGSベンチマークを用いて，既存の2D検出器の性能限界が示された。
- マルチビューの一貫性とGaussian Splatting表現に基づく特徴量を利用した3D認識手法が提案された。
- 提案手法は改ざんされた3Dコンテンツの認識精度を大幅に向上させ，データセットの有効性が確認された。
Link: https://arxiv.org/abs/2604.27590
ClipTBP：境界を意識した学習によるクリップペアに基づく時間境界予測による瞬間検索 [cs.CV, cs.AI]目的：動画検索における瞬間検索の性能向上
- 動画コンテンツの利用拡大に伴い，目的とする場面を迅速に検索する技術の重要性が高まっている。
- 既存モデルは，クエリに合致する複数のセグメント間の関係性を考慮せず，周辺の類似セグメントの影響を受けやすい。
- クエリに無関係なセグメントを除外し，より正確な時間境界予測を実現することを目指す。
- 提案手法ClipTBPは，境界を意識した学習により，セグメント間の意味的な関係性を明示的に学習する。
- ClipTBPは，主要な境界損失と補助的な境界損失の両方を適用することで，正確な時間境界予測を実現する。
- 様々な既存モデルへの適用により性能が向上し，曖昧なクエリでも堅牢な境界予測性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.27591
SECOS：オープンワールド半教師あり学習における厳密な分類のための意味的捕捉 [cs.CV]目的：オープンワールド半教師あり学習における厳密な分類の実現
- 実世界のデータは常に変化し，未知のクラスが含まれるため，柔軟な学習手法が重要である。
- 既存手法では，未知のクラスに対する学習に明確な教師信号がなく，意味的な関連性の低いラベルが予測される。
- SECOSは，外部知識を活用して意味表現を抽出・整合することで，未知クラスの学習を改善し，厳密な分類を可能とする。
- SECOSは，候補ラベルセットから直接テキストラベルを予測することで，実用的なOWSSLアプリケーションの要件を満たす。
- 既存手法を緩やかな後処理マッチング設定で評価した場合と比較しても，SECOSは最大5.4%の性能向上を示す。
- SECOSは，既知クラスと未知クラスの両方で，モダリティ間の意味表現の抽出と整合を活用し，明確な教師信号を提供する。
Link: https://arxiv.org/abs/2604.27596
科学実験画像の解読：知覚，理解，推論のためのSPURベンチマーク [cs.CV, cs.CE]目的：科学実験画像の知覚，理解，推論を評価するためのベンチマーク
- 科学研究において，画像は重要なデータ源であり，その適切な解釈は科学的発見に不可欠である。
- 既存のAIモデルは，複雑な科学実験画像の理解において，専門家レベルの性能に達していない。
- 科学実験画像の解析におけるAIモデルの性能向上を目指し，新たな評価基準を提示する。
- SPURベンチマークは，4,264組の質問応答ペアと1,084枚の専門家がキュレーションした画像で構成されている。
- 20種類のマルチモーダル大規模言語モデル(MLLM)と4種類のChain-of-Thought (MCoT)手法の評価を行った結果，現在のモデルは科学画像解釈において専門家レベルに及ばないことが示された。
- 本研究は，AI4S研究における重要なボトルネックを浮き彫りにし，今後のモデル開発の方向性を示唆する。
Link: https://arxiv.org/abs/2604.27604
ZAYAN：表形式リモートセンシングデータの分離対照変換器 [cs.LG, cs.AI, cs.CV]目的：表形式リモートセンシングデータの情報的な表現学習
- リモートセンシングは，地球環境の理解と管理において不可欠な役割を担う。
- 表形式データの多様性，ラベル不足，特徴量間の冗長性が課題である。
- 特徴レベルの対照学習による，効率的な表現獲得を目指す。
- ZAYANは，明示的なアンカー選択やクラスラベルに依存せずに，特徴量埋め込みを事前学習する。
- 動的な摂動とマスキングにより，冗長性を最小限に抑え，分離された埋め込み空間を構築する。
- 8つのデータセットで，既存の表形式深層学習モデルを上回る精度，堅牢性，汎化性能を示した。
Link: https://arxiv.org/abs/2604.27606
リアルタイムUAV橋梁点検のためのロバストな軽量ひび割れ分類 [cs.CL, cs.MA, cs.CV, cs.AI]目的：橋梁点検におけるひび割れ分類の精度向上
- 橋梁は社会インフラであり，老朽化に伴う安全性の確保が重要である。
- UAV点検では，ひび割れの検出が困難であり，計算資源も限られている。
- ひび割れの認識精度，処理速度，ロバスト性を両立する手法を提案する。
- 提案手法は，わずか11.21Mパラメータと1.82G FLOPsで825 FPSという高速な推論速度を実現した。
- ベースラインモデルと比較して，F1スコアが2.51%，リコールが3.95%向上した。
- Grad-CAMによる可視化から，注意機構がひび割れ経路へのモデルの焦点を正確に誘導することが示された。
Link: https://arxiv.org/abs/2604.27617
空間活性化遷移学習：カリキュラム適応による視覚言語ナビゲーション [cs.CV]目的：視覚言語ナビゲーションにおける VLMs の空間認識能力の向上
- ロボット工学やAI分野において，現実世界での自律的な移動能力は重要である。
- 既存の VLN モデルは，複雑な環境での長距離ナビゲーションに課題がある。
- VLMsに空間認識能力を付与し，ナビゲーション性能を向上させることを目指す。
- 提案手法 SpaAct は，VLMs の空間認識能力を活性化する 2 つのタスク (Action Retrospection と Future Frame Selection) を導入する。
- TriPA というカリキュラム学習手法により，学習の安定性を高め，徐々にナビゲーションスキルを習得させる。
- 標準的な VLN-CE ベンチマークにおいて，SpaAct は最先端の性能を達成し，VLM ベースのナビゲーションを改善する。
Link: https://arxiv.org/abs/2604.27620
人間動画からのロボット学習：サーベイ [cs.RO, cs.CV]目的：ロボットにおける人間動画からの学習技術の包括的なレビュー
- 具現化されたAIとロボット工学の進歩において，ロボットデータの拡充が重要な課題となっている。
- ロボットにスキルを習得させるためのデータ収集がボトルネックとなっており，汎用的なロボットシステムの学習を阻害している。
- 人間が持つ豊富な活動動画を活用することで，ロボットが効率的にスキルを獲得できる環境を構築することを目指している。
- 本サーベイでは，ロボットへの人間スキルの転移とデータ基盤の両面に焦点を当て，最新の技術動向を網羅的にまとめている。
- タスク，観測，行動に基づいた階層的な分類を通じて，人間動画をロボットスキルに転移させる方法論を詳細に分析している。
- 広く利用されているヒューマン動画データセットや動画生成手法に関する統計的傾向を提示し，今後の研究の方向性を示唆している。
Link: https://arxiv.org/abs/2604.27621
FUN：再構成と物体検出を組み合わせた焦点型U-Netによるスナップショット分光イメージング [cs.CV]目的：スナップショット分光イメージングにおけるハイパースペクトル画像再構成と物体検出の同時実行
- 高速なデータ取得が求められる分野であり，リアルタイムな物体検出への応用が期待されている。
- 従来のプッシュブルーム型分光イメージングでは取得速度が遅く，リアルタイム処理が困難である。
- スナップショット分光イメージングにおける再構成処理の高速化と高精度化を実現する。
- 提案手法FUNは，ハイパースペクトル画像再構成と物体検出を同時に行うエンドツーエンドのフレームワークである。
- FUNは，再構成によるスペクトル情報の提供と検出による意味的先験学習の誘導により，相互に有益なタスク間相互作用を実現する。
- 実験により，FUNが最新手法よりも少ないパラメータと計算量で，両タスクにおいて最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2604.27653
頸椎CT-MRI剛体・変形登録のためのハイブリッドフィールドモデリング：アノテーション付きデータセット [cs.CV]目的：頸椎CT-MRI剛体・変形登録のためのハイブリッドフレームワーク
- 頸椎は解剖学的構造が複雑であり，外傷のリスクが高い部位であるため，正確な画像登録が重要である。
- 頸椎のCT-MRI登録は未だ十分に研究されておらず，特に剛体・変形ハイブリッドモデリングの検討が不足している。
- 高品質なアノテーション付きマルチモーダルデータセットと，複雑な関節構造に対応可能な登録フレームワークを開発する。
- R-D-Regという包括的にアノテーションされたCT-MRIデータセットを構築・公開した。
- MSRという剛体・変形ハイブリッド登録フレームワークを提案し，複雑な関節構造に対応できることを示した。
- MambaとSwin Transformerを組み合わせることで，局所的な解剖学的整合性を保ちながら，全体的な精度を向上させた。
Link: https://arxiv.org/abs/2604.27654
EviMem：証拠ギャップ駆動による長期会話型メモリのための反復検索 [cs.CV, cs.CL]目的：長期会話型メモリにおける証拠検索の改善
- 会話システムの高度化には，過去の会話内容を効果的に活用することが不可欠である。
- 従来の検索手法では，時間的・多段的な質問への対応が不十分である。
- 証拠の欠如を明確化し，的確なクエリ修正を促すことで検索精度を向上させる。
- EviMemは，証拠の欠如を検出し，不足している情報を特定する閉ループフレームワーク「IRIS」と，詳細なギャップ診断を可能にする階層型メモリ構造「LaceMem」を組み合わせている。
- LoCoMoデータセットにおいて，EviMemは時間的質問（73.3%→81.6%）および多段質問（65.9%→85.2%）において，MIRIXよりもJudge Accuracyを向上させた。
- EviMemは，既存手法と比較して4.5倍低い遅延で高い精度を実現している。
Link: https://arxiv.org/abs/2604.27695
CT画像からの腹膜癌指数領域の深層学習に基づくセグメンテーション [cs.CV, cs.AI]目的：腹膜癌指数（rPCI）領域のCT画像における自動セグメンテーション
- 腹膜転移の評価は重要であり，治療方針の決定に影響を与える。
- 現在のsPCIは侵襲的であり，標準化された画像による評価方法がない。
- 画像に基づく非侵襲的なrPCI評価を可能にする自動セグメンテーション手法の開発。
- nnU-Netは，全体でDice係数0.82を達成し，臨床研究者間の合意度（0.88）に近づいた。
- Swin UNETR（0.76）と比較して優れた性能を示したが，右側腹部と小腸領域には課題が残る。
- これらの結果は，自動rPCIセグメンテーションの実現可能性を示し，画像に基づいた評価の基盤となる。
Link: https://arxiv.org/abs/2604.27697
四角形の凹凸を用いた線分クリッピング [cs.GR]目的：軸平行矩形ウィンドウに対する線分クリッピング手法
- コンピュータグラフィックスにおいて，線分クリッピングは描画処理の基礎であり，効率的な実装が不可欠である。
- 従来の線分クリッピングアルゴリズムは，線分や境界線を線として扱うため，不要な交点計算が発生する可能性がある。
- 線分と境界線を線分として扱い，不要な交点計算を回避することで，クリッピング処理の効率化を目指す。
- 本手法では，線分とクリッピング境界の端点を頂点とする四角形を構築し，その凹凸によって線分と境界の交差を判定する。
- 四角形が凹であれば線分を却下し，凸であれば交点を計算することで，効率的なクリッピングを実現する。
- 実験の結果，Nicholl-Lee-Nicholl，Liang-Barsky，Cohen-Sutherland，Skalaのアルゴリズムと比較して，実行時間に基づく評価において性能が向上することが確認された。
Link: https://arxiv.org/abs/2604.27701
RayFormer：NeRFベースのビデオスナップショット圧縮イメージングにおける光線間および光線内の類似性のモデリング [cs.CV]目的：NeRFベースのビデオスナップショット圧縮イメージングにおける再構成性能の向上
- 動的なシーンを高精度に再構成する技術であり，監視や医療など幅広い応用が期待される。
- 従来の光線サンプリング戦略では，コンテンツ構造の類似性を捉えきれず，再構成品質が制限される。
- コンテンツ構造を考慮した光線サンプリングとTransformerによる類似性モデリングで再構成品質を向上させる。
- 提案手法は，パッチレベルの光線サンプリング戦略とInter- and Intra-Ray Transformer（RayFormer）を導入した。
- これにより，空間的に隣接する点間の光線間類似性と，視線に沿った点間の光線内相関を効果的に捉えることが可能となった。
- シミュレーションおよび実環境での実験の結果，提案手法が最先端の再構成性能を達成することが示された。
Link: https://arxiv.org/abs/2604.27702
リモートセンシング画像セマンティックセグメンテーションにおける深層学習ネットワークのための汎化事前学習戦略 [cs.CV]目的：深層学習ネットワークの汎化性能向上
- リモートセンシング技術は，地球観測や環境モニタリングにおいて重要な役割を担う。
- ImageNet等の汎用画像データベースで事前学習したモデルは，リモートセンシング画像への適用時にドメインギャップが課題となる。
- ドメイン固有の特徴学習を抑制し，汎化能力を高める事前学習戦略を提案する。
- 提案手法は，iSAIDで67.4% mIoU，MFNetで56.9% mIoU，PST900で84.22% mIoU，Potsdamで91.88% mF1を達成し，最先端の精度を示した。
- 本研究は，コンピュータビジョンとリモートセンシングの両分野に応用可能な統一的な基礎モデル開発の基盤となる。
Link: https://arxiv.org/abs/2604.27704
ベトナム語シーンテキスト画像キャプションのための言語情報に基づいたマルチモーダル融合：データセット，グラフフレームワーク，および音韻的注意 [cs.CY, cs.SI, cs.CY, cs.RO, cs.CV, cs.CL]目的：ベトナム語シーンテキスト画像キャプション生成における，視覚的特徴，OCR検出テキスト，言語知識の融合
- 画像中のテキストを正確に記述するためには，視覚情報とテキスト情報の効果的な統合が不可欠である。
- 既存手法では，言語特有の構造を考慮せず，ベトナム語のような声調言語の複雑さに対処できない。
- ベトナム語の特性を考慮したマルチモーダル融合により，キャプション生成の精度向上を目指す。
- 大規模なベトナム語シーンテキストキャプションデータセット「ViTextCaps」を新たに構築し，言語分析を実施した。
- 提案手法「PhonoSTFG」は，異種シーンテキスト融合グラフを用いて，ベトナム語の音韻的推論を強化する。
- グラフ構造のトポロジー解析から，クロスモーダルグラフエッジがシーンテキスト融合に悪影響を与えることが示された。
Link: https://arxiv.org/abs/2604.27712
視覚言語モデルにおけるテスト時プロンプトチューニングのキャリブレーション改善：データフリーなフラットネス重視のプロンプト事前学習によるアプローチ [cs.CV]目的：視覚言語モデルのテスト時プロンプトチューニングにおけるキャリブレーション改善
- 視覚言語モデルは多様なタスクに応用可能だが，予測の信頼性確保が重要である。
- テスト時プロンプトチューニングは適応性を高めるものの，キャリブレーションが悪化しやすい。
- 損失ランドスケープのフラットネスに着目し，事前学習で適切な初期化を行うことで，キャリブレーションと性能の向上を目指す。
- 提案手法FPPは，データフリーかつ追加コストなしで，既存のテスト時プロンプトチューニングパイプラインの初期化を置き換えるだけでキャリブレーションと性能を改善する。
- FPPは，プロンプトの適応前に損失ランドスケープのフラットな領域で初期化することで，より信頼性の高い予測を可能にする。
- フラットネス重視の事前学習が，モデルのキャリブレーション品質を左右する重要な要素であることが示された。
Link: https://arxiv.org/abs/2604.27715
推論学習：標的知識発見とファジー論理更新によるロバストな画像認識 [cs.CV, cs.AI]目的：画像認識におけるロバスト性の向上
- 深層学習の汎化性能向上には，ドメイン知識の統合が有効である。
- 実世界の画像認識タスクでは，有用な記号知識の特定が困難である。
- タスクからの学習のみで概念を抽出し，知識統合を行うことを目指す。
- 提案手法では，識別器のロジットを調整する微分可能な知識ユニット（DKU）を用いる。
- DKUは，タスククラスと学習された概念間の関係を表現する含意規則を活用する。
- PASCAL-VOC，COCO，MedMNISTデータセットで性能向上が確認された。
Link: https://arxiv.org/abs/2604.27759
マンゴー葉病検出のためのCNNベースモデルGourNet [cs.CV]目的：マンゴー葉病の検出
- マンゴー栽培は経済発展と食糧安全保障に不可欠である。
- 葉病はマンゴーの生産量と品質を低下させる。
- 早期かつ正確な病害検出による被害軽減。
- 提案モデルGourNetは，畳み込みニューラルネットワークを用いてマンゴーの葉病を識別する。
- MangoLeafBDデータセットを用いてモデルを学習・評価した結果，97%の分類精度を達成した。
- 本モデルは，わずか683,656パラメータで高い性能を発揮する。
Link: https://arxiv.org/abs/2604.27764
クラス除去のためのSISAベース深層ニューラルネットワークアーキテクチャにおける機械的アンラーニング [cs.CE, cs.CV, cs.CR, cs.LG]目的：クラスレベルのアンラーニング
- 画像生成モデル等のAI利用拡大に伴い，データプライバシーとユーザー同意が重要視されている。
- 学習済みモデルに影響を与えたユーザーデータの削除要求への対応が課題となっている。
- 特定のデータの影響をモデルから除去し，プライバシー保護を実現する。
- 提案手法は，SISAフレームワークを改良し，選択的な忘却効率を高めている。
- 複数の画像データセットとCNN構成において，効果的なクラスアンラーニングが確認された。
- モデル性能を維持しつつ，再学習コストを削減できる可能性が示された。
Link: https://arxiv.org/abs/2604.27804
最大限多様な安定マッチング：任意の機関目標の最適化 [cs.RO, cs.GT]目的：安定マッチングにおける機関目標の最適化
- 安定マッチング理論は，学校選択や医師の配置など，世界中のマッチングシステムの基礎である。
- 多様性確保などの複雑な目標を組み込むと，安定性が損なわれたり，計算が困難になったりする。
- 安定マッチングの範囲内で，多様性目標を最適化する手法を確立すること。
- 本研究では，任意の機関目標を安定マッチング内で最適化する，多項式時間アルゴリズムの枠組みを提案する。
- 機関が評価関数を用いて学生を評価する場合，その総和または最大値を最小化する安定マッチングを効率的に見つけることができる。
- このアルゴリズムは，多様性クォータの違反を最小限に抑えたり，兄弟姉妹の同時配置を最大化したりする実用的な問題に適用可能である。
Link: https://arxiv.org/abs/2604.27823
プライバシー保護型パーソナライズド連合ファインチューニングにおけるノイズ誘発プロトタイプ劣化の抑制 [cs.CV, cs.LG]目的：プライバシー保護と性能維持を両立する連合学習手法の改善
- 連合学習は，分散したデータを用いてモデルを学習する技術であり，プライバシー保護とデータ活用の両立に貢献する。
- プロトタイプベースの連合学習は効率的だが，プロトタイプの共有はプライバシー侵害のリスクを伴う。
- 既存手法の過剰なノイズ付加による性能劣化を改善し，プライバシー保護とモデル性能のバランスを取る。
- 提案手法VPDRは，次元ごとの分散に基づいてノイズ量を調整することで，識別力の高い特徴量のノイズを抑制し，プライバシーを保護する。
- 蒸留ガイドクリッピング正則化DCRにより，特徴量ノルムをクリッピング閾値付近に集中させ，予測精度を維持する。
- 多次元ベンチマーク実験により，VPDRが既存手法IGPPを上回り，プライバシーと性能のトレードオフを改善することが示された。
Link: https://arxiv.org/abs/2604.27833
翻訳不変CNNのための効率的なアーキテクチャ修正 [cs.CV]目的：翻訳不変性を備えたCNNのアーキテクチャ改善
- 画像認識においてCNNは広く利用されているが，その性能を左右する要素の理解は不十分である。
- 標準的なCNNアーキテクチャは，位置ずれに弱く，わずかなシフトで性能が著しく低下する問題がある。
- 位置ずれに対する脆弱性を解消し，軽量かつロバストなCNNアーキテクチャを構築することを目指す。
- 提案手法により，学習パラメータ数を98%削減し，ネットワークサイズを90%削減しながら，ImageNetでのTop-1精度を維持した。
- Global Average Pooling層の挿入により，特徴認識と空間位置の依存関係を効果的に分離し，翻訳不変性を向上させた。
- 本手法は，知覚的画像品質評価においても優れた汎化性能を示し，KADID-10kおよびRAIDデータセットで高い相関を示した。
Link: https://arxiv.org/abs/2604.27870
D-Rex：再照明可能な表現力豊かなアバターの拡散レンダリング [cs.GR]目的：フォトリアリスティックで再照明可能，表現豊かでアニメーション可能な全身ヒューマンアバターの構築
- メタバース等の仮想空間におけるリアルなアバター表現の需要が高まっている。
- 既存手法は幾何学的精度や光の伝播シミュレーションが課題であり，表情と再照明を両立できていない。
- アバターモデリングと再照明を分離し，画像空間での後処理として再照明を実現する。
- D-Rexは，視点と時間的に一貫性のある再照明を可能にし，表情豊かな動きと微細な顔のディテールを忠実に再現する。
- 既存の物理ベースのアバターと比較して，優れた性能を示す。
- D-Rexは，既存の白光アバターシステムに直接適用可能である。
Link: https://arxiv.org/abs/2604.27871
生成AI画像検出のための周波数認識意味的融合とゲート注入 [cs.CV]目的：生成AI画像検出の汎化性能向上
- 生成AI技術の急速な発展により，現実と区別がつかない画像が生成され，検出の重要性が増している。
- 既存手法は，特定の生成モデルに依存した特徴に偏りやすく，未知のモデルに対する汎化性能が低いという課題がある。
- 生成モデルに依存しない，より汎用的な画像表現を学習し，検出性能を向上させることを目指す。
- 周波数領域でのバンドマスク処理により，生成モデル特有のパターンへの過度な依存を抑制し，より多様な特徴表現を獲得した。
- 階層的なゲート注入メカニズムにより，高レベルな意味的特徴と低レベルな周波数特徴間の表現の衝突を緩和した。
- 余弦マージン損失を用いた高次元空間でのコンパクトな表現学習により，識別性能を向上させた。
Link: https://arxiv.org/abs/2604.27875
Noise2Map：セマンティックセグメンテーションと変化検出のためのエンドツーエンド拡散モデル [cs.CV]目的：セマンティックセグメンテーションと変化検出における高性能なモデルの提案
- 衛星画像解析は，都市計画や災害監視など，幅広い分野で重要な役割を担う。
- 既存の深層学習モデルは，時間的な不整合や微細な空間構造の把握に課題がある。
- 拡散モデルのノイズ除去過程を活用し，高速かつ解釈可能なセグメンテーション・変化検出を実現する。
- 提案手法Noise2Mapは，セマンティックセグメンテーションと変化検出の両タスクにおいて，SpaceNet7，WHU，xView2データセットで高い性能を示した。
- 平均F1スコアとIoUに基づいたクロスデータセットランキングにおいて，セマンティックセグメンテーションで7つのモデル中1位，変化検出で1位を獲得した。
- ノイズスケジュールやタイムステップ制御のロバスト性，マルチタスク学習の有効性が検証された。
Link: https://arxiv.org/abs/2604.27889
ピアレビューの危機をボランティアで解決できるか [cs.GT, cs.MA]目的：科学論文の査読における負担軽減と質向上
- 科学研究の発展には，質の高い査読が不可欠である。査読は研究の信頼性を担保する重要なプロセスである。
- 査読者の不足や質の低下が深刻化しており，査読プロセス全体の信頼性が揺らいでいる。
- 著者による査読負担の軽減と，残った論文の査読の質的向上を目指す。
- 論文著者による事前査読拒否の抽選というボランティアシステムを提案し，ゲーム理論を用いてその有効性を示した。
- 科学者全体が，発表論文だけでなく文献の質を重視することで，自発的に抽選に参加する均衡状態が生じることが示された。
- このシステムにより，発表される科学論文全体の質が向上する可能性が示唆された。
Link: https://arxiv.org/abs/2604.27900
HiMix：汎化された合成画像検出のための階層的アーティファクト認識ミクアップ [cs.CV]目的：合成画像検出の汎化性能向上
- 生成モデルの進化により，現実的な合成画像が容易に作成可能になり，検出技術の重要性が増している。
- 既存の検出器は，限られたデータで学習するため，未知の生成器への汎化性能が低いという課題がある。
- HiMixは，学習分布の拡大とアーティファクト認識表現の促進により，この汎化性能の低さを解決する。
- 提案手法HiMixは，実画像と合成画像の間の連続的な遷移サンプルを生成し，モデルの学習範囲を拡大する。
- ピクセルレベルでのミクアップ操作により，低レベルのアーティファクトへの感度を高める。
- 階層的なアーティファクト認識表現モジュールにより，様々な分布下で識別可能な偽造表現を抽出する。
Link: https://arxiv.org/abs/2604.27903
ビデオ参照からの会話型アバター生成 [cs.CV]目的：ビデオ参照に基づく会話型アバター生成手法
- リアリスティックなアバター生成は，バーチャルコミュニケーションやエンターテインメント分野で重要な役割を担う。
- 既存手法は単一視点に制限され，十分な時間的・表情情報が得られず，高品質なアバター生成が困難である。
- 異なるシーンのビデオを参照することで，多様な背景における高品質なアバター生成を目指す。
- 本研究では，シーンを跨いだビデオを参照する新しいフレームワークTAVRを提案した。
- TAVRは，事前学習とファインチューニング，そして強化学習を組み合わせた3段階の学習スキームによって，ロバストなアバター生成を実現した。
- 実験の結果，TAVRは既存手法と比較して，定量・定性両面で優れていることが示された。
Link: https://arxiv.org/abs/2604.27918
訓練不要のトンネル欠陥検査と視覚的再調整およびエンティティ再構成による工学的解釈 [cs.CV, cs.AI]目的：トンネル欠陥の局所化，測定，深刻度評価，および工学的文書化を支援する出力
- トンネルの安全管理は社会インフラの維持に不可欠であり，迅速かつ正確な欠陥検査が重要である。
- 既存の訓練不要な手法は粗い提案に留まり，トンネルのような複雑な環境での利用が困難である。
- トンネル固有の課題に対応し，より信頼性の高い欠陥情報を提供することで工学的評価を支援する。
- TunnelMINDは，視覚的一貫性に基づき，粗い提案をより信頼性の高いものへと再調整する。
- 欠陥マスクを，カテゴリー，位置，形状，深刻度，コンテキストを含む構造化されたエンティティに再構成する。
- 可視光，GPR，道路欠陥タスクにおいて，それぞれF1スコア0.68，0.78，0.72を達成した。
Link: https://arxiv.org/abs/2604.27928
効率的かつロングテール対応な視覚言語事前学習のための動的クラスタデータサンプリング [cs.CL, cs.CV]目的：視覚言語モデルの効率的な事前学習
- 視覚言語モデルは多様なタスクに応用可能であり，画像とテキストの理解において重要な役割を担う。
- 既存の事前学習手法では，計算コストが高く，特に希少概念の学習が不十分になりやすい。
- ロングテール概念の表現力を向上させ，計算コストを削減する新しいサンプリング手法を提案する。
- 本研究では，各エポックでサンプリングを行う動的クラスタベースのサンプリング手法DynamiCSを提案した。
- DynamiCSは，大規模クラスタのダウンサンプリングと小規模クラスタのアップサンプリングにより，ロングテールの概念を重視する。
- 実験結果から，DynamiCSは計算コストを削減し，ロングテール概念の性能を向上させることが示された。
Link: https://arxiv.org/abs/2604.27932
参加型気象センシングにおける報酬配分に対する帰属性プロキシの較正 [cs.LG, cs.CY, cs.GT, physics.ao-ph]目的：参加型気象センシングにおける報酬配分戦略の構築
- 気象センシングネットワークの維持にはインセンティブが不可欠であり，データ提供者への適切な報酬が重要である。
- 既存手法ではデータの価値評価が難しく，各データ貢献度に応じた報酬配分が困難である。
- 微分可能なAI気象モデルを用いて，データ価値を評価し，報酬配分における課題を解決することを目指す。
- 勾配に基づく帰属性は，センサー配置の最適化において高い有用性を示す。
- 帰属性は，単調増加する信頼性の高い報酬支払いを可能にする。
- 悪意のある入力による帰属性の過大評価が確認され，外部からの基準データによる検知が不可欠である。
Link: https://arxiv.org/abs/2604.27944
視覚的プライミングが視覚言語モデルの協調行動に及ぼす影響 [cs.HC, cs.AI, cs.CV]目的：視覚言語モデルにおける協調行動
- 視覚言語モデルは意思決定システムに組み込まれることが増えており，その行動原理の理解が重要である。
- 視覚入力がモデルの行動に与える影響は十分に解明されていない。
- 視覚的プライミングによる行動の変化と，その緩和策の有効性を検証する。
- 視覚言語モデルの行動は，画像の内容と色による手がかりの両方に影響を受けることが示された。
- モデルによって影響を受けやすさや緩和策の有効性に差が見られた。
- 視覚的に豊かな環境や安全性が重要な環境におけるモデルの展開には，堅牢な評価フレームワークが不可欠である。
Link: https://arxiv.org/abs/2604.27953
強化学習によるGUIエージェント：デジタル住人へ向けて [cs.AI, cs.CV]目的：GUIエージェントと強化学習の交差領域に関する包括的な概要
- GUIエージェントは，視覚的にグラフィカルインターフェースを理解し操作する知能システムとして期待されている
- 教師あり学習だけでは，長期的な報酬の割り当て，分布の変化，不可逆環境での安全な探索が困難である
- 強化学習を用いて，GUI自動化の堅牢性を高め，エージェント固有のインフラを構築することを目指す
- オフライン強化学習，オンライン強化学習，ハイブリッド戦略を含む既存手法の分類体系を提案した
- 信頼性とスケーラビリティの緊張が，複合的な多層報酬アーキテクチャの採用を促していることが示唆された
- GUI I/Oの遅延が，ワールドモデルに基づく学習への移行を加速させ，有意な性能向上をもたらす可能性がある
Link: https://arxiv.org/abs/2604.27955
TripVVT：大規模Tripletデータセットと，実環境動画向けバーチャル試着の粗マスクベースライン [cs.HC, cs.CV]目的：実環境動画におけるバーチャル試着の性能向上
- バーチャル試着技術は，オンラインショッピングやエンターテイメント分野において需要が高まっている。
- 実環境動画における大規模なTripletデータセットの不足が，バーチャル試着モデルの性能向上を阻害している。
- 既存のマスク利用法の問題点を克服し，より現実的で安定したバーチャル試着を実現すること。
- TripVVT-10Kは，これまでで最大規模かつ多様な実環境Tripletデータセットであり，既存の動画データセットにはない明示的な動画レベルのクロスガーメント監視を提供する。
- TripVVTは，Diffusion Transformerに基づき，不安定な衣服マスクをシンプルな人体マスク事前情報に置き換えることで，背景の維持と現実世界の動きへのロバスト性を実現している。
- TripVVTは，最先端の学術および商用システムと比較して，優れた動画品質と衣服の忠実性を実現し，実環境動画への汎化性能を大幅に向上させている。
Link: https://arxiv.org/abs/2604.27958
ClimateVID -- ソーシャルメディア動画分析と課題 [cs.CV]目的：ソーシャルメディア動画における視覚的テーマ検出
- デジタルコンテンツの増加に伴い，社会における議論や理解の方法が変化している。
- 既存の画像認識モデルでは，気候変動に関する特定のテーマを捉えることが困難である。
- ソーシャルメディア動画から有益な視覚的パターンを抽出する手法を開発する。
- VideoChatGPT，PandaGPT，VideoLLavaなどのVLMのゼロショット画像分類能力を評価した。
- クラスタリングを最小費用多分割問題として捉え，教師なし学習による洞察に富んだパターン発見を目指した。
- ConvNeXt V2とDINOv2は意味のあるクラスタを生成し，DINOv2はスタイルに焦点を当て，ConvNeXt V2はより詳細な差異に焦点を当てた。
Link: https://arxiv.org/abs/2604.27968
FineState-Bench：ファインチ grained GUI状態設定のための状態条件付きグラウンディングのベンチマーク [cs.CV, cs.DB]目的：ファインチ grained GUI状態設定における，状態条件付きグラウンディングの評価
- GUI操作は，人間とコンピュータのインタラクションにおいて重要な役割を担う。
- 既存の評価方法は，網羅性が低く，目標状態の定義が曖昧で，最終的なタスクの成功に依存しすぎている。
- GUI要素の特定と正確な状態への到達を評価するベンチマークの提供。
- FineState-Benchは，デスクトップ，Web，モバイルのプラットフォームを対象とした2,209のインスタンスで構成される。
- 現在のモデルでは，GUIの目標状態を正確に達成する率は，Webで32.8％，全プラットフォームで平均22.8％にとどまる。
- Visual Diagnostic Assistant (VDA)のローカリゼーションヒントにより，Gemini-2.5-FlashはES-SR@Intが+14.9ポイント向上するが，依然として十分な精度ではない。
Link: https://arxiv.org/abs/2604.27974
TransVLM：あらゆるショットトランジション検出のためのビジョン-言語フレームワークとベンチマーク [cs.CV, cs.AI]目的：ショットトランジション検出のタスク
- 動画解析において，正確なショット境界検出は，コンテンツ理解や検索の基礎となる。
- 従来のショット境界検出は，複雑なトランジションに対して脆弱であり，動画ショットの品質を損なう。
- トランジションを連続的なセグメントとして捉え，よりロバストな検出を実現すること。
- TransVLMは，色情報と光学的フローを融合することで，時間的特徴に対する認識能力を向上させた。
- 大規模なデータ合成エンジンを用いて，クラス不均衡の問題を克服し，ロバストな学習を可能にした。
- 提案手法は，既存の手法や最先端のVLMを凌駕する優れた性能を実験的に示した。
Link: https://arxiv.org/abs/2604.27975
科学的可視化におけるLLMエージェントの対話パラダイムの探求 [cs.RO, cs.AI, cs.GR, cs.HC]目的：科学的可視化タスクにおけるLLMエージェントの性能評価
- 科学研究におけるデータ可視化は，知見発見と理解に不可欠である。
- 自然言語による指示から可視化ワークフローを生成する際の自動化が課題である。
- 多様なLLMエージェントの性能比較と，最適な対話パラダイムの特定を目指す。
- 汎用コーディングエージェントは高いタスク成功率を示すが，計算コストが高い。
- ドメイン特化型エージェントは効率的で安定しているが，柔軟性に欠ける。
- 長期的な計画立案能力が，コンピューター利用エージェントの課題である。
Link: https://arxiv.org/abs/2604.27996
エコー-{\alpha}: 超音波検査解釈のための大規模エージェント型マルチモーダル推論モデル [cs.CV]目的：超音波検査解釈のための，精密な病変局在化と包括的な臨床推論を両立するモデル
- 超音波検査は医療において重要であり，迅速かつ正確な診断が求められている。
- 既存手法では，病変の局在化と臨床推論の双方を高いレベルで実現することが困難である。
- 専門検出器とマルチモーダル大規模言語モデルの利点を統合し，より正確で解釈可能なAIシステムを構築すること。
- エコー-{\alpha}は，複数の器官特異的検出器の出力を調整し，全体的な視覚的文脈と統合することで，高度な推論能力を発揮する。
- 腎臓および乳房超音波ベンチマークにおいて，既存のベースラインモデルを上回り，病変の局在化と診断の両方で優れた性能を示した。
- 特に，異なる医療機関間でのテストにおいて，高いF1スコアと全体的な精度を達成し，汎用性の高さを示唆している。
Link: https://arxiv.org/abs/2604.28011
構造を考慮した高密度化による3Dガウススプラッティングの高速収束 [cs.DC, cs.CE, cs.CV, cs.GR, cs.LG]目的：リアルタイムな新規視点合成のための強力なシーン表現である3Dガウススプラッティングの収束速度向上
- 3Dガウススプラッティングはリアルタイムレンダリングにおいて重要な技術であり，高品質な新規視点合成を可能にする。
- 既存の高密度化手法は，幾何学的な誤配置と周波数エイリアシングを区別できず，過度なぼかしや非効率な高密度化が発生しやすい。
- 本研究は，構造を考慮した高密度化により，より効率的に3Dガウススプラッティングの収束を促進し，高品質な再構成を実現することを目指す。
- 提案手法は，ガウスの投影スクリーン空間範囲とテクスチャの局所構造との比較に基づき，ガウスの分割を決定する。
- 多重スケール周波数分析と構造テンソル，ラプラシアン・スケール空間分析を組み合わせることで，様々なテクスチャスケールに対応した堅牢な監視を可能にする。
- マルチビューの一貫性基準を導入し，早期かつ高速な高密度化を実現することで，ベースライン手法よりも大幅に高速な収束を実現する。
Link: https://arxiv.org/abs/2604.28016
ディープフェイクは十分リアルか？セマンティックな不一致を新たな課題として [cs.CV]目的：ディープフェイク検出におけるセマンティックな不一致の評価
- 近年のディープフェイク技術の進化は，社会に大きな影響を与えており，その検知技術の重要性が増している。
- 既存のディープフェイク検出手法は，音声，映像などのデータの改ざんの種類を十分に識別できていない。
- 本研究は，コンテンツレベルでの不一致に着目し，より現実的なディープフェイク検出手法を開発することを目指す。
- 本研究では，セマンティックな不一致を明示的にモデル化する新たな評価設定を提案し，最先端モデルの脆弱性を明らかにした。
- 提案する評価設定において，既存のモデルはセマンティックな不一致に対して限界があることが示された。
- セマンティックな不一致を考慮した学習戦略とImageBind埋め込みを導入することで，ディープフェイク検出性能を向上させることができた。
Link: https://arxiv.org/abs/2604.28022
四肢欠損者の単一画像からの3D人体メッシュ復元：ResiHMR [cs.CV]目的：四肢欠損者の3D人体モデリング
- 人体モデリングは，分析，アニメーション，AR/VR，リハビリテーション，HCIなど，多様な応用分野で重要である。
- 既存システムは，健常者の前提に基づき，四肢欠損者に対して性能が低下する。
- ResiHMRは，四肢欠損者の解剖学的構造を考慮し，より正確な人体メッシュ復元を目指す。
- ResiHMRは，残肢のキーポイントを活用し，適応的なトポロジー最適化と残肢形状の再構成を行う。
- SMPLify-Xバックボーンにおいて，健常関節の2D MPJPEを41.32から37.40に，残肢関節の2D MPJPEを73.61から23.19に低減した。
- ResiHMRは，従来の固定トポロジー手法とは異なり，残肢表面を明示的に再構成し，欠損に合わせた最適化を実現する。
Link: https://arxiv.org/abs/2604.28025
TAFA-GSGC：プログレッシブ残差精錬によるグループ化スケーラブル点群形状圧縮 [cs.CV]目的：点群形状のグループ化スケーラブル圧縮
- 帯域幅の制約下での効率的なデータ伝送が求められるため，スケーラブル圧縮技術の重要性が増している。
- 既存の学習型コーデックは固定レートで最適化されているため，レート適応にはコストがかかる。
- 単一のビットストリームからマルチクオリティの復号を可能にし，効率的なレート適応を実現すること。
- TAFA-GSGCは，単一のモデルとビットストリームから複数の品質レベルでの復号を可能にする。
- 層状残差精錬とチャネルグループエントロピー符号化を組み合わせ，層間冗長性を低減するターゲットアラインド特徴集約モジュールを導入。
- PCGCv2と比較して同等またはわずかに優れたRD性能を示し，D1で-4.99%，D2で-5.92%のBDレート削減を達成。
Link: https://arxiv.org/abs/2604.28045
製造分野における3D再構成技術：応用，研究機会，およびユースケース [cs.DL, cs.CL, cs.CV]目的：製造分野における3D再構成技術の応用，研究機会，およびユースケースの体系的な整理
- 製造業における品質管理や設計の高度化には，高精度な3Dデータ取得が不可欠である。
- 従来の3D再構成技術は，特定の環境下でのみ有効である場合が多く，汎用性に課題があった。
- 多様な環境下で高精度な3D再構成を可能にする，統合的なフレームワークの構築を目指す。
- 106件の文献調査の結果，3D再構成技術は，データ取得，点群生成，後処理，応用という4つの主要なカテゴリに分類された。
- 非接触計測法，特に構造化光走査とステレオビジョンが製造分野で広く採用されており，その47%が品質検査に用いられている。
- 深層学習の統合により，特徴抽出とマッチングの精度と処理速度が向上し，ハイブリッドシステムへの移行が進んでいる。
Link: https://arxiv.org/abs/2604.28064
AesRM：専門家からのフィードバックによる動画の美観向上 [cs.CV]目的：動画の美観改善
- 動画制作を含む実世界では，視覚的な忠実度を超えた，調和のとれた色彩や映画的な照明といった美観が重要である。
- 既存研究は主に画像に焦点を当てており，美観の定義が粗雑で，厳密かつ体系的な評価が不足している。
- 動画美観を構成する要素を細分化し，大規模な専門家アノテーションデータセットと評価ベンチマークを構築することで，美観向上を目指す。
- 提案手法AesRMは，既存の美観評価モデルと比較して，複数のベンチマークで優れた性能を示し，より頑健である。
- 動画美観を「視覚的美観」「視覚的忠実度」「視覚的妥当性」の3つの次元と15の評価基準に分解し，体系的な評価を可能にした。
- 動画生成モデルWan2.2とAesRMを連携させることで，既存モデルと比較して明確な美観向上を観察した。
Link: https://arxiv.org/abs/2604.28078
UHR-Net：不確実性を考慮したハイパーグラフ洗練ネットワークによる医用画像セグメンテーション [cs.CV]目的：医用画像のセグメンテーションにおける精度向上
- 臨床診断や治療計画において，正確な病変セグメンテーションは不可欠である。
- 病変と周囲組織の類似性や境界の曖昧さから，境界領域での予測が不安定になりやすい。
- 小病変の情報が多段階特徴抽出で希釈され，セグメンテーションが過小または過大になる問題を解決する。
- 提案手法UHR-Netは，不確実性に着目し，インスタンスコントラスト学習とハイパーグラフ洗練ブロックを導入することで，セグメンテーション精度を向上させた。
- UO-IC事前学習により，小病変や視覚的に曖昧な病変の識別能力を高めた。
- UGHRブロックは，エントロピーに基づく不確実性マップを用いて，ハイパーグラフの洗練を誘導し，曖昧な領域での精度を改善した。
Link: https://arxiv.org/abs/2604.28095
FreeOcc：訓練不要な埋め込み型オープンボキャブラリ占有率予測 [cs.RO, cs.CV]目的：オープンボキャブラリ占有率予測の実現
- ロボット工学やコンピュータビジョンの分野において，環境理解は重要な課題である。
- 既存手法は大規模な3Dアノテーションに依存し，環境への汎化性能が低いという問題がある。
- 3Dアノテーションやカメラポーズの真値なしに，占有率予測を可能にすることを目指す。
- FreeOccは，訓練を必要とせず，単眼またはRGB-Dシーケンスからオープンボキャブラリ占有率予測を行う。
- EmbodiedOcc-ScanNetにおいて，既存の自己教師あり手法と比較してIoUとmIoUが2倍以上向上した。
- 新たにReplicaOccという屋内オープンボキャブラリ占有率予測のベンチマークを導入し，FreeOccが新規環境へのゼロショット転移で優れた性能を示した。
Link: https://arxiv.org/abs/2604.28115
ガウスボトルネックの限界を超えて：Vision-Transformer特徴空間のトポロジーに基づく整列エンコーディング [cs.CV, cs.LG]目的：視覚トランスフォーマーの特徴空間のトポロジーに基づいた整列エンコーディング
- 高解像度な視覚的表現は，現実世界のモデリングにおいて不可欠である。
- 既存手法では，3D形状や物理的に整合性の取れたカメラ動体の保持が課題である。
- 潜在空間の構造を改善し，幾何学的情報をより正確に表現することを目指す。
- S$^2$VAEは，カメラ動体，深度，点群構造を含むシーンの3D状態を圧縮・表現する幾何学優先の潜在学習フレームワークである。
- Power Spherical潜在分布の積を用いることで，ボトルネックにおける双曲球面構造を明示的に強制し，幾何学的意味を保持する。
- 深度推定，カメラ姿勢復元，点群再構成において，幾何学に基づいた潜在空間が従来のガウスボトルネックを上回る性能を示す。
Link: https://arxiv.org/abs/2604.28122
PRISM：マルチモーダル強化学習のためのブラックボックスによるオンポリシー蒸留を用いた事前アライメント [cs.CV, cs.AI, cs.CL]目的：マルチモーダル強化学習における，教師ありファインチューニングと強化学習間の分布ずれ軽減
- 近年，大規模マルチモーダルモデルの重要性が増しており，その性能向上は不可欠である。
- 教師ありファインチューニングは分布ずれを引き起こし，モデルの能力を損なう可能性がある。
- 本研究は，事前アライメントを通じて分布ずれを抑制し，強化学習の性能を向上させることを目指す。
- PRISMは，教師ありファインチューニングと強化学習の間に分布アライメント段階を挿入することで，分布ずれを効果的に軽減する。
- 実験の結果，PRISMはQwen3-VLにおいて，複数の強化学習アルゴリズムとベンチマークで一貫して性能を向上させた。
- 4Bモデルでは平均精度が+4.4ポイント，8Bモデルでは+6.0ポイントの改善が見られた。
Link: https://arxiv.org/abs/2604.28123