arXiv雑要約

画像・音声 - 2026/04/22 公開

EgoMotion：階層的推論と拡散による一人称視点での視覚言語動作生成 [cs.CV]目的：一人称視点での視覚言語動作生成
- 具現化された知能を実現するには，動的な環境下での人間行動の正確なモデリングが不可欠である。
- 一人称視点からの知覚の複雑さから，一人称視点での動作生成は，条件付き動作合成の進歩にもかかわらず，未開拓の分野である。
- 意味的推論と運動学的モデリングの競合による「推論・生成の複雑な絡み合い」という課題を解決する。
- EgoMotionは，視覚言語モデル（VLM）がマルチモーダル入力を離散的な動作プリミティブの構造化空間に投影することで，意味の一貫性のある表現を獲得する。
- 認知推論段階と動作生成段階の二段階構造により，高レベルの知覚的理解と低レベルの行動実行の間の意味のギャップを効果的に埋めている。
- 広範な評価により，EgoMotionが最先端の性能を達成し，既存のアプローチよりも意味的に根拠があり，運動学的に優れた動作シーケンスを生成することが示された。
Link: https://arxiv.org/abs/2604.19105
知識浸食と忘却反転に対するロバストな継続的アンラーニング [cs.LG, cs.CV]目的：継続的アンラーニングにおける知識浸食と忘却反転の緩和
- AI技術の発展とプライバシー保護の重要性が高まる中，データ削除のニーズに応える技術である。
- 既存のアンラーニング手法は単発的な削除を前提としており，繰り返し削除時の問題点が不明であった。
- 複数回の削除において生じる知識浸食と忘却反転を抑制し，安定した性能を維持することを目指す。
- 本研究では，既存のアンラーニングアルゴリズムにおいて，繰り返し削除時に知識の精度低下（知識浸食）と，過去に削除されたデータが再認識される現象（忘却反転）を明らかにした。
- 提案手法SAFERは，保持データの表現の安定性を維持しつつ，削除データに対する負のロジットマージンを強化する。
- 実験の結果，SAFERは知識浸食と忘却反転の両方を緩和し，複数回のアンラーニングフェーズにわたって安定した性能を発揮することが示された。
Link: https://arxiv.org/abs/2604.19108
OT-UVGS：ガウススプラッティングにおけるUVマッピングを容量配分問題として再検討 [cs.CL, cs.CL, cs.GR]目的：ガウススプラッティングのUVマッピングにおける容量配分最適化
- 3D表現の効率的な保存と制御は，高品質なレンダリングと大規模シーンの処理に不可欠である。
- 従来のUVマッピングは，ガウス分布の全体的な構造を無視し，UV空間の利用効率が低い場合がある。
- UVマッピングを容量配分問題として捉え，より効率的なガウス配置を実現する。
- 提案手法OT-UVGSは，既存手法に比べてPSNR，SSIM，LPIPSの指標で一貫して改善が見られた。
- OT-UVGSは，UV空間の利用効率を高め，空スロットの削減と衝突の減少を実現した。
- マッピング手法の再検討によって，UVGSの潜在的な容量を大幅に引き出すことが示された。
Link: https://arxiv.org/abs/2604.19127
PortraitDirector：制御可能かつリアルタイムな顔のリアクチャメントのための階層的解きほぐしフレームワーク [cs.IR, cs.CV]目的：制御可能かつ高精度な顔のリアクチャメントの実現
- 顔のリアクチャメント技術は，映像制作，バーチャルコミュニケーション等において重要な役割を担う。
- 既存手法は，表現力と細かな制御性の両立が難しく，表現力を高めると制御性が低下する問題がある。
- 顔の動きを空間的，意味的な層に分解し，制御性と高精度化を両立することで，この問題を解決する。
- PortraitDirectorは，顔の動きを空間層（物理的な動き）と意味層（感情的な内容）に分解する階層的な解きほぐし戦略を採用している。
- 空間層では，頭部のポーズと局所的な表情を分離し，感情的な情報を除去することで，より正確な制御を実現している。
- 最適化技術を用いることで，単一のGPUで512x512の顔のリアクチャメントを20FPSで，800msの遅延で実現している。
Link: https://arxiv.org/abs/2604.19129
空気と水中の環境下における3D再構成のためのベンチマークとクロスドメイン戦略 [cs.CV]目的：多様な環境条件下の3D再構成手法の評価
- ロボットの知覚において，環境変化に強い3D再構成は不可欠である。特に，空気と水中の移行は課題となる。
- 空気と水中の環境における照明変化への対応が，3D再構成の精度を低下させる。
- 多様な環境下での3D再構成手法の性能評価と，クロスドメイン戦略の有効性を検証する。
- Gaussian Splattingは，簡単な前処理により，特殊な水中手法と同等の性能を達成可能である。
- ただし，複雑な環境下では，その頑健性は低下する傾向にある。
- 本研究で作成したBALTICベンチマークは，3D再構成手法の評価を体系的に行うための基盤を提供する。
Link: https://arxiv.org/abs/2604.19133
拡散モデルとマルチモーダル特徴を用いたゼロショットスケッチベース3D形状検索 (Diff-SBSR) [cs.CV]目的：ゼロショットスケッチベース3D形状検索の性能向上
- 3D形状検索は，コンピュータグラフィックス，CAD，AR/VRなど，多様な分野で重要な役割を担う。
- 既存手法は，カテゴリの事前知識がないゼロショット設定や，スケッチの入力の疎さに課題を抱える。
- 拡散モデルの潜在能力を活用し，スケッチと3D形状の対応関係をより効果的に学習する。
- 大規模事前学習済み拡散モデルの持つオープンボキャブラリ能力と形状バイアスを活用することで，ゼロショット環境下での検索性能を向上。
- CLIPからの視覚的・テキスト的情報を組み合わせたマルチモーダル特徴強化戦略により，スケッチの抽象性と疎さによる課題を克服。
- Circle-T損失を用いることで，ノイズに強く，スケッチと3D形状のアライメントを強化し，高い検索精度を実現。
Link: https://arxiv.org/abs/2604.19135
ノイズ除去，高速と低速：難易度を意識した適応的サンプリングによる画像生成 [cs.CV]目的：画像生成における計算資源の効率的な配分方法
- 画像生成モデルの性能向上は，高品質な画像生成に不可欠であり，その応用範囲は広い。
- 既存手法では，画像全体に一律に計算資源を割り当て，画像の局所的な難易度を考慮していない。
- 画像内の各領域の難易度に応じて計算資源を動的に配分し，生成品質を向上させることを目指す。
- 画像内のパッチごとのノイズスケールを調整することで，計算資源の効率的な利用が可能となることが示された。
- 提案手法Patch Forcing (PF)は，Class-conditional ImageNetにおいて既存手法を上回る性能を達成した。
- PFは，表現学習やガイダンス手法と組み合わせることができ，テキストから画像への生成にも適用可能である。
Link: https://arxiv.org/abs/2604.19141
ST-Prune：自動運転向けビジョン言語モデルにおける学習不要な時空間トークンプルーニング [cs.CL, cs.CV, cs.AI]目的：自動運転システムにおけるビジョン言語モデルの効率的な推論
- 自動運転には，周囲環境の正確な認識が不可欠であり，ビジョン言語モデルが重要な役割を担う。
- マルチカメラ・マルチフレーム入力による計算負荷が大きく，実用化のボトルネックとなっている。
- 時空間的な冗長性を考慮したプルーニングにより，計算負荷を軽減しつつ性能を維持すること。
- ST-Pruneは，Motion-aware Temporal Pruning(MTP)とRing-view Spatial Pruning(RSP)の2つのモジュールで構成される。
- MTPは動きの変動と時間的な近接性を考慮し，RSPはカメラ配置の幾何学的な関係を利用して冗長性を削減する。
- 90%のトークン削減でも，性能劣化を最小限に抑え，一部の指標ではフルモデルを上回る結果を得た。
Link: https://arxiv.org/abs/2604.19145
インドの声：インドにおける現実世界の音声認識のための大規模ベンチマーク [cs.CL, cs.SD, eess.AS]目的：インドにおける現実世界の音声認識のための大規模ベンチマーク
- インドの多様な言語環境において，音声認識技術の発展は情報アクセスやコミュニケーションの促進に不可欠である。
- 既存のベンチマークは，スクリプトに基づいたデータや，データセット特有の過学習を招く評価方法に依存している点が課題である。
- 自然な綴りの変動やコード混合言語への対応など，現実世界の音声データに適した評価を実現し，音声認識システムの改善に貢献すること。
- 本研究では，15の主要なインド言語を網羅する，30万件以上の非スクリプト会話を含む大規模データセット「インドの声」を構築した。
- 地域レベルでの性能分析により，音声認識の精度に地理的なばらつきが存在することが明らかになった。
- 音声品質，話速，性別，デバイスの種類などの要因が音声認識システムに与える影響を詳細に分析し，改善の方向性を示した。
Link: https://arxiv.org/abs/2604.19151
MSDS：マルチスケール表現による深層構造的類似性 [cs.CC, cs.CV, cs.LG]目的：画像品質評価における深層構造的類似性のモデル
- 画像認識技術の進歩に伴い，人間の視覚特性に合致した評価手法が重要視されている。
- 既存手法は単一の空間スケールに依存しており，スケール変化による影響が十分に考慮されていない。
- マルチスケール表現を用いて，空間スケールが深層特徴量の類似性に与える影響を明らかにすること。
- 提案手法MSDSは，既存のDeepSSIMをマルチスケールに拡張し，精度向上を実現した。
- 各スケールでの類似度を独立に計算し，学習可能な重みで統合する軽量なフレームワークである。
- 複数のベンチマークデータセットで，MSDSは単一スケールベースラインを統計的に有意に上回った。
Link: https://arxiv.org/abs/2604.19159
医療画像の異常検出における平均シフト密度強調による性能向上 [cs.CL, cs.CV, cs.AI]目的：医療画像における異常検出手法の性能向上
- 医療画像の異常検出は，希少な病理学的状態を特定する上で不可欠であり，臨床応用が期待される。
- 異常データにラベル付けされたサンプルが少ない状況下では，既存の異常検出手法の性能が制限される。
- ラベル付き異常データが少ない状況でも，高い検出性能を実現する手法を開発する。
- 提案手法は，自己教師あり表現学習と多様体に基づく密度推定を組み合わせることで，高い性能を実現した。
- 平均シフト密度強調（MSDE）により，サンプルを高確率領域へ移動させ，異常スコアの計算精度を向上させた。
- 7つの医療画像データセットにおいて，最先端の性能を達成し，特に脳腫瘍検出においてはほぼ完璧な性能（AUC/AP=0.981）を示した。
Link: https://arxiv.org/abs/2604.19191
LLMとパノラマ画像を用いた環境コンテキストによるNPC対話の強化 [cs.GR]目的：ゲーム内NPCの環境認識能力の向上
- ゲームにおける没入感向上の鍵は，NPCのリアリティにある。そのため，NPCの知能と応答性が重要となる。
- 従来のNPCはスクリプト化された対話に依存し，空間理解が乏しく，プレイヤーの行動への応答性が低いという課題がある。
- 本研究は，NPCに環境に関する情報を与え，より自然でインタラクティブな対話を可能にすることを目的とする。
- NPCの周囲のパノラマ画像を解析し，セマンティックセグメンテーションを用いてオブジェクトの位置を特定する手法を提案。
- 抽出された情報を構造化JSON形式でLLMに入力することで，NPCが空間情報を対話に組み込めるようにする。
- ユーザー調査の結果，環境認識型のNPCは従来のNPCよりも好ましいと評価され，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2604.19192
ビデオモデルは真のマルチモーダル推論からどれほど遠いか [cs.CV]目的：ビデオモデルのマルチモーダル推論能力の評価
- 汎用ビデオモデルの発展は目覚ましいが，その推論能力の評価は不十分である。
- 既存のベンチマークは単純なタスク設計と断片的な評価指標に依存しており，複雑なマルチモーダル推論を捉えられていない。
- 複雑なシナリオ下でのビデオモデルのゼロショット推論能力を評価するフレームワークを構築し，ボトルネックを特定すること。
- 新たにCLVG-Benchを開発し，物理シミュレーション，論理的推論，インタラクティブなコンテキストなど，多様なカテゴリとサブカテゴリでビデオモデルの能力を評価した。
- 最先端モデル（Seedance 2.0など）は一部のタスクで能力を示すものの，論理に基づいた生成やインタラクティブな生成タスクでは成功率が低い（それぞれ25%未満，0%程度）ことが明らかになった。
- マルチモーダル推論と物理的根拠付けが重要なボトルネックであり，汎用ビデオモデルの強化に向けた明確な方向性を示すことができた。
Link: https://arxiv.org/abs/2604.19193
sumo3Dviz：3次元交通可視化 [cs.GR]目的：SUMO交通シミュレーションの3次元可視化パイプライン
- 交通シミュレーションは，交通流の理解や交通制御戦略の開発に不可欠である。
- 従来の2次元可視化では，人間視点での直感的理解や効果的なコミュニケーションが困難である。
- SUMOシミュレーション出力を，よりリアルで没入感のある3次元映像に変換し，可視化の課題を解決する。
- sumo3Dvizは，SUMOシミュレーション出力を高品質な3次元レンダリングに変換する軽量なオープンソースパイプラインである。
- このツールは，外部視点と運転者視点の両方をサポートし，大規模なシナリオの可視化や教育デモンストレーションに適している。
- 離散的なシミュレーション出力からの視覚的に一貫性のある動きを実現するため，軌跡補間と姿勢平滑化の技術的課題を克服している。
Link: https://arxiv.org/abs/2604.19194
ドメイン汎化性能を持つ顔詐欺検出のためのVision Foundationモデルのベンチマーク [cs.CV]目的：ドメイン汎化性を持つ顔詐欺検出のためのVision Foundationモデルの性能評価
- 顔詐欺検出は，セキュリティシステムにおいて重要な役割を担うため，その精度向上が求められる。
- 既存手法は計算コストが高く，推論速度が遅い場合がある。また，特徴量の質に依存する限界がある。
- 効率的かつ堅牢な顔詐欺検出のベースラインを確立し，自己教師あり学習モデルの有効性を示す。
- 自己教師あり学習モデルDINOv2 with Registersは，アテンションアーティファクトを抑制し，微細な詐欺の兆候を捉えることが明らかになった。
- 提案手法は，MICOプロトコルにおいて最先端の性能を達成し，データ制約のあるLSDプロトコルにおいても既存手法を上回った。
- 最適化された自己教師ありVision Transformerが，単一モダリティおよび将来のマルチモダリティ顔詐欺検出システムのバックボーンとして機能することを示した。
Link: https://arxiv.org/abs/2604.19196
SketchFaceGS：ガウススプラッティングによるリアルタイムのスケッチ駆動型顔編集・生成 [cs.GR, cs.CV]目的：2Dスケッチからのフォトリアリスティックな3Dガウスヘッドモデルのリアルタイム生成および編集
- 3Dヘッドモデリングは，フォトリアリスティックな品質とリアルタイムレンダリングを両立する強力な手法として注目されている。
- 直感的でインタラクティブな3Dガウスヘッドモデルの作成・編集は依然として困難である。
- スケッチから高密度で幾何学的に整合性の取れた3Dガウス構造をリアルタイムに推論することを目指す。
- SketchFaceGSは，2Dスケッチからフォトリアリスティックな3Dガウスヘッドモデルをリアルタイムに生成・編集する初のフレームワークである。
- TransformerベースのUV特徴予測モジュールにより，入力スケッチから粗いながらも幾何学的に整合性の取れたUV特徴マップを再構成する。
- UVマスク融合技術と層ごとの特徴融合戦略により，高精度でリアルタイムな自由視点編集を実現している。
Link: https://arxiv.org/abs/2604.19202
深層ニューラルネットワークをいつ信頼できるか：解釈可能性ガイドを用いた信頼性の高い産業展開へ [cs.DB, cs.CV]目的：深層ニューラルネットワークにおける誤検出の検出指標
- 安全性確保が重要な産業分野において，AIシステムの信頼性は不可欠である。
- AIシステムは高い精度でも誤った予測をする可能性があり，その信頼性評価が困難である。
- 誤検出を事前に特定し，AIシステムの信頼性を高めることで，産業応用を促進する。
- 提案手法は，クラス特有の識別ヒートマップとクラス非依存のヒートマップの差を利用し，信頼性スコアを算出する。
- 敵対的強化法を導入することで，誤検出の検出率を100%まで向上させる。
- データ・モデル・説明・出力という新たな展開パラダイムを提唱し，信頼性の高いAIの実現を目指す。
Link: https://arxiv.org/abs/2604.19206
GaborNetによる音声なりすまし検出 [cs.SD]目的：音声信号からの特徴抽出におけるGaborNetの検証
- 音声処理技術は，セキュリティや認証システムにおいて重要であり，その精度向上が求められている。
- 音声なりすましは，セキュリティ上の脅威であり，既存の手法では完全な検出が困難である。
- GaborNetを用いて，RawNet2やRawGAT-STといった音声なりすまし検出アーキテクチャの性能向上を目指す。
- GaborNetは，音声信号を処理する初期層として効果的であり，特にRawNet2およびRawGAT-STアーキテクチャにおいてその有効性が確認された。
- GaborNetの設計変更，特に二乗絶対値やガウスローパスプーリングなどの修正が，性能向上に寄与することが示された。
- コーデック変換，室響，付加ノイズといった音声拡張手法が，なりすまし検出のロバスト性を高める上で有効であることが示唆された。
Link: https://arxiv.org/abs/2604.19209
モバイルホンを用いた3Dガウススプラッティングのための物体中心データ取得手法 [cs.CV]目的：3Dガウススプラッティングにおける物体中心データ取得
- 3D復元技術は，仮想現実や拡張現実など幅広い分野で活用が期待されている。
- モバイルホンでの3DGSデータ取得は，デバイスの制約から品質が課題であった。
- モバイルホンでの効率的かつ高品質な物体中心データ取得を目指す。
- 本手法は，少ない画像枚数でRealityScanや自由撮影よりも優れた復元品質を達成した。
- リアルタイムな球面被覆率の計算により，撮影者の動きを誘導し，偏りの少ないデータ取得を可能にした。
- 物体中心の球状グリッドに視点をマッピングすることで，均一な視点インデックス化を実現した。
Link: https://arxiv.org/abs/2604.19216
衛星，土壌，気候データを用いた空間的・時間的農作収量予測のための注意機構に基づくマルチモーダル深層学習モデル [cs.CV, cs.AI]目的：空間的・時間的な農作収量の高精度予測
- 食料安全保障と政策決定において，農作収量の予測は極めて重要である。
- 従来の予測手法は，動的な環境変数間の複雑な関係性を捉えきれない。
- 衛星画像，気象データ，土壌特性を統合し，予測精度を向上させる。
- 提案手法は，従来のモデルと比較して大幅に高い予測精度（R^2=0.89）を示した。
- 注意機構により，重要な生育期間を時間的に適応的に重み付けすることで，予測性能を向上させている。
- 空間特徴抽出にはCNNを使用し，時間的変化を考慮したモデル構造を採用している。
Link: https://arxiv.org/abs/2604.19217
マッチングの前に考える：汎用的な人物再識別に向けた強化学習推論パラダイム [cs.CV]目的：汎用的な人物再識別のための，同一性を識別する表現の学習
- 人物再識別は，監視カメラ映像などから個人を特定する技術であり，セキュリティ向上に不可欠である。
- 従来の認識駆動型パラダイムは，大量のアノテーションデータに依存し，IDの原因となる手がかりの理解が不十分である。
- 本研究は，推論を通じて同一性の理解を深め，頑健な表現を獲得し，データ効率を向上させることを目指す。
- ReID-Rは，推論を組み込むことで，ID関連の手がかりに焦点を当てた正確な推論と正しい応答を実現した。
- わずか14.3Kのデータ（既存のデータスケールの20.9％）で，既存の優れた手法と同等の識別性能を達成した。
- 推論機能により，結果に対する高品質な解釈を提供することが可能となった。
Link: https://arxiv.org/abs/2604.19218
UAF：全二重音声インタラクションのための統一音声フロントエンドLLM [cs.AI, cs.SD, eess.AS]目的：全二重音声インタラクションを実現するための統一音声フロントエンドLLMの開発
- 自然な人間コミュニケーションを模倣したAIシステムの構築が求められており，音声インタラクションはその重要な要素である。
- 従来の音声処理パイプラインは，遅延の蓄積，情報損失，エラー伝播といった課題を抱えていた。
- 全二重音声システムに特化した統一的な音声フロントエンドLLMを開発し，応答性と中断精度の向上を目指す。
- 本研究で提案するUAFは，VAD，TD，SR，ASR，QAといった多様な音声フロントエンドタスクを単一の自己回帰的系列予測問題として定式化した。
- 実験の結果，UAFは複数の音声フロントエンドタスクで優れた性能を発揮し，応答遅延の大幅な短縮と中断精度の向上を実現した。
- UAFは，音声プロンプトを参照してターゲットスピーカーを固定し，セマンティックコンテンツとシステムレベルのステートコントロールを符号化した離散トークンを回帰的に生成する。
Link: https://arxiv.org/abs/2604.19221
高解像度画像における小型物体検出のための適応スライス支援ハイパー推論 [cs.CV]目的：高解像度画像における小型物体検出性能の向上
- 航空画像や衛星画像等の分野で，小型物体検出は重要な課題である。高解像度画像では，詳細な情報が必要となるため。
- 従来の画像分割手法は，固定サイズの分割を用いるため，計算冗長性が高く，処理速度が遅いという問題があった。
- 本研究は，画像の解像度に応じて最適な分割数を決定することで，計算冗長性を削減し，高速な小型物体検出を実現する。
- 提案手法ASAHIは，VisDrone2019-DET-valにおいて56.8%という最高水準の性能を達成した。
- xView-testにおいても22.7%の性能を達成し，ベースライン手法SAHIと比較して推論時間を20-25%削減した。
- 適応的なスライス数決定，スライス支援微調整，およびクラスタベースのNMSにより，高精度かつ高速な検出を実現した。
Link: https://arxiv.org/abs/2604.19233
適切なステップへの信用学習：視覚生成のための目的意識的なプロセス最適化 [cs.CV]目的：視覚生成プロセスにおける最適なステップの信用割り当て
- 近年，視覚生成モデルの性能向上が求められており，人間の嗜好に基づいた学習が重要視されている。
- 既存の強化学習手法では，報酬の割り当てが粗雑であり，生成プロセス全体の最適化が困難である。
- 本研究は，段階ごとに異なる目的を考慮し，より適切な報酬の割り当てを行うことで，生成品質の向上を目指す。
- 提案手法OTCAは，拡散過程における各ステップの重要度を推定し，時系列的な信用をモデル化する。
- 複数の報酬信号を，その重要度に応じて適応的に重み付け・組み合わせることで，より精度の高い学習信号を生成する。
- 画像および動画生成実験の結果，OTCAは既存手法と比較して，評価指標において一貫して性能が向上することを確認した。
Link: https://arxiv.org/abs/2604.19234
Allo{SR}$^2$: 形態的生成フローによる単段階超解像のリアリティ確保 [cs.CV]目的：単段階超解像におけるリアリティの維持
- 現実世界の画像超解像は，画像品質向上の重要な課題であり，多様な応用が期待されている。
- 大規模モデルの微調整時に，学習データへの過学習による生成能力の低下（prior collapse）が問題となる。
- 単段階生成における軌道不安定性を解消し，高忠実度のリアリティを維持することを目的とする。
- 提案手法Allo{SR}$^2$は，単段階超解像において最先端の性能を達成した。
- SNR誘導軌道初期化とフローアンカー化された軌道一貫性により，安定した推論を実現した。
- 形態的軌道マッチングにより，超解像フローと生成フロー間の分布のずれを最小化した。
Link: https://arxiv.org/abs/2604.19238
実写画像からのシミュレーション対応車両の学習：Unposed-to-3D [cs.CV]目的：実写画像からの3D車両再構成手法
- 自動運転研究や仮想環境構築において，現実的な3Dアセットの重要性が高まっている。
- 既存手法は合成データに依存し，実写画像とのドメインギャップが課題となっていた。
- 実写画像のみから3D車両を再構成し，シミュレーション環境での利用を可能にすること。
- 提案手法Unposed-to-3Dは，実写画像からリアルで姿勢が一貫した3D車両モデルを効果的に再構成できる。
- カメラパラメータの推定と微分可能なレンダリングにより，カメラ姿勢の制約なしに学習を実現している。
- スケール対応モジュールと調和モジュールにより，シミュレーション環境への統合に適した高品質なアセット生成が可能である。
Link: https://arxiv.org/abs/2604.19257
特徴摂動プールに基づく融合ネットワークによる統一マルチクラス産業欠陥検出 [cs.CV]目的：産業欠陥の統一マルチクラス検出手法
- 産業品質検査において，欠陥検出は重要であり，自動化による効率化が求められている。
- 従来の欠陥検出手法では，カテゴリごとにモデルを学習する必要があり，計算コストが高い。
- 異なる欠陥カテゴリを同時に扱う際，特徴の摂動による頑健性の低下を解消することを目指す。
- 提案手法FPFNetは，特徴摂動プールと多層特徴融合戦略を組み合わせることで，統一的な検出フレームワークを実現した。
- 特徴摂動プールは，様々なノイズパターンを特徴表現に注入し，ドメインシフトや未知の欠陥形状に対するモデルの頑健性を強化する。
- MVTec-ADとVisAのベンチマークにおいて，既存手法を凌駕する性能を達成した（画像レベルAUROC 97.17% / 91.08%, ピクセルレベルAUROC 96.93% / 99.08%）。
Link: https://arxiv.org/abs/2604.19259
DR-MMSearchAgent: マルチモーダル検索エージェントにおける推論の深化 [cs.CV]目的：マルチモーダル検索エージェントの推論能力向上
- 複雑なタスク解決において，外部ツールを活用するエージェント型マルチモーダルモデルの重要性が高まっている。
- 既存のエージェントは，早期のインタラクション崩壊を起こしやすく，探索的な行動が評価されにくいという課題がある。
- ロールアウト全体の構造的近接性に基づく報酬設計により，多様な長さの軌跡を生成し，情報信頼性を高める。
- 提案手法DR-MMSearchAgentは，バッチ全体での報酬信号を導き出し，探索的な軌跡生成を促進する。
- 微分ガウス報酬を用いることで，インタラクションの許容度を動的に調整し，冗長性を低減する。
- 3602組の高品質なQAペアを含む，多段階深層推論データセットを構築し，最先端の性能を達成した（FVQA-testでMMSearch-R1を8.4%上回る）。
Link: https://arxiv.org/abs/2604.19264
矢じり曲線縫合：シェルピンスキー矢じり曲線を高次元へ拡張 [cs.SI, cs.CY, cs.HC, cs.CE, cs.DC, cs.GR]目的：高次元シェルピンスキー矢じり曲線の拡張手法
- 幾何学模様は芸術，特にファッションにおいて長い歴史を持つ。
- 三角形による構成の拡張は可能だが，曲線表現の拡張は未解決である。
- 高次元におけるシェルピンスキー矢じり曲線の表現方法を確立する。
- 2次元シェルピンスキー矢じり曲線の特性を分析し，高次元への拡張を再現規則に基づいて定式化した。
- レベルごとに比較可能な形でこれらの曲線を可視化する方法を提示した。
- ニットウェア，特にセーターのヨークにこの可視化手法を応用する例を示した。
Link: https://arxiv.org/abs/2604.19287
HalluAudio：大規模オーディオ言語モデルにおける幻覚検出のための包括的ベンチマーク [cs.SD, cs.AI]目的：大規模オーディオ言語モデルの幻覚検出
- 近年，オーディオ処理と自然言語処理の融合が急速に進んでおり，その重要性が増している。
- オーディオ言語モデルは，音響情報と意味の不一致による幻覚（誤った応答）を生じやすいという課題がある。
- 本研究は，オーディオにおける幻覚を評価するための大規模ベンチマークを開発し，モデルの信頼性を向上させることを目指す。
- HalluAudioは，音声，環境音，音楽の3つのモダリティを含む5000件以上のQAペアで構成される大規模ベンチマークである。
- 評価プロトコルでは，幻覚率，バイアス，エラータイプ，拒否率を測定し，モデルの弱点を詳細に分析する。
- 実験結果から，既存モデルは音響的根拠，時間的推論，音楽属性理解において課題を抱えていることが明らかになった。
Link: https://arxiv.org/abs/2604.19300
最小最大凹型正則化を用いたフレームレットに基づくブラインド画像復元 [cs.CV, cs.NA, math.NA]目的：ブラインド画像復元における性能向上
- 画像処理において，劣化画像の復元は重要な課題であり，実用性が高い。
- ブラインド復元では，点像拡散関数と鮮明な画像を同時に推定する必要があり，困難を伴う。
- L0ノルム正則化の計算コストと非凸性を克服し，より効果的な復元手法を確立する。
- 提案手法では，最小最大凹型ペナルティ(MCP)を用いることで，L0ノルムへの近似精度を高め，スパース性を促進する。
- 再重み付きL1ノルム正則化を導入することで，推定バイアスを低減し，微細な画像の詳細とテクスチャの保存を改善する。
- 実験評価の結果，提案手法が複数のテスト画像において有効であることが示された。
Link: https://arxiv.org/abs/2604.19314
大規模実世界シーンにおける視点間相互作用を用いたマルチビュー群衆追跡Transformer [cs.CV]目的：大規模シーンにおける群衆の追跡軌跡推定
- 監視カメラ映像などを用いた群衆行動の理解は，公共の安全確保や効率的な空間利用に不可欠である。
- 既存研究は小規模データセットで評価されており，大規模で複雑な実世界シーンへの応用が困難である。
- 大規模シーンにおける群衆追跡性能の向上と，より実用的なシナリオへの適用を目指す。
- 本研究では，カメラ視点間と地面平面との相互作用を導入したTransformerベースの群衆追跡モデルMVTrackTransを提案する。
- 大規模なマルチビュー追跡データセットMVCrowdTrackとCityTrackを新たに構築し，既存手法との比較を行った。
- 提案手法MVTrackTransは，大規模データセットにおいて既存手法を上回り，大規模シーンへの適応性を示す。
Link: https://arxiv.org/abs/2604.19318
RDP LoRA：大規模言語モデルのパラメータ効率適応のための幾何学駆動型識別 [cs.LG, cs.AI, cs.CL, cs.CV]目的：大規模言語モデルのパラメータ効率適応におけるレイヤー選択戦略
- 大規模言語モデルの活用は拡大しているが，計算コストが課題である。
- LoRA等のパラメータ効率的適応では，どのレイヤーを適応すべきか不明確である。
- 表現経路の幾何学的構造に基づき，適応すべきレイヤーを特定すること。
- 提案手法RDP LoRAは，Qwen3-8B-BaseのMMLU-Mathにおいて，全レイヤー適応やランダム選択を上回る性能を示した。
- RDPアルゴリズムを用いて重要なブレークポイントを識別し，適応レイヤーを決定する点が特徴である。
- 表現経路の内在的幾何学を活用することで，ロバストで解釈可能なレイヤー選択が可能となる。
Link: https://arxiv.org/abs/2604.19321
皮膚鏡検査における概念ボトルネックモデル中の概念不整合：Derm7ptデータセットのラフ集合解析 [cs.LG, cs.CV]目的：皮膚鏡検査における概念ボトルネックモデルの概念レベルの不整合の範囲と臨床構造の特性評価
- 皮膚がんの早期発見は重要であり，皮膚鏡検査はその診断支援において不可欠な役割を果たす。
- 概念ボトルネックモデルは解釈可能性を重視するが，データセット内の概念レベルの不整合がボトルネックとなり，精度向上を妨げる。
- 本研究は，ラフ集合理論を用いて不整合を定量的に評価し，精度の理論上限を明らかにし，より質の高いデータセットを構築する。
- Derm7ptデータセットにおいて，7つの皮膚鏡検査基準からなる305種類の概念プロファイルのうち，50種類（16.4%）が不整合であることが判明した。
- この不整合により，概念ボトルネックモデルの理論上の精度上限は92.1%に制限されることが示された。
- 境界領域の画像を対称的に除去することで，完全な整合性を持つDerm7pt+データセット（705画像）を構築し，概念整合性の高いCBM評価の基準を確立した。
Link: https://arxiv.org/abs/2604.19323
PLaMo 2.1-VL技術報告 [cs.CV, cs.AI]目的：自律デバイス向け軽量なVision Language Model（VLM）の開発
- 近年，エッジデバイスでのAI活用が重要視されており，軽量かつ高性能なモデルが求められている。
- 既存のVLMは，日本語処理性能が十分でなく，実用化における課題となっていた。
- 日本語に対応し，エッジ環境での運用を可能とするVLMの開発。
- PLaMo 2.1-VLは，日本語VQAベンチマークJA-VG-VQA-500で61.5のROUGE-Lスコアを達成し，既存のオープンモデルを上回った。
- 日本語Ref-L4データセットでは，85.2%の精度を達成した。
- 工場タスク分析ではゼロショットで53.9%の精度，発電所データでの異常検知ではF1スコアが39.7%から64.9%に向上した。
Link: https://arxiv.org/abs/2604.19324
シリコンを意識したニューラルネットワーク [cs.CL, cs.CV, eess.IV]目的：差分可能ロジックゲートネットワークのカスタムシリコン実装手法
- 機械学習分野では，高速処理が求められており，ハードウェア実装への関心が高まっている。
- 既存のニューラルネットワークは，シリコン実装を考慮した設計が十分ではない。
- 学習済みモデルをゲートレベルネットリストに変換し，面積と消費電力を最適化する。
- 差分可能ロジックゲートネットワークをデジタルCMOS標準セルライブラリにマッピングする手法を提案した。
- 面積を考慮した損失関数により，ニューロンあたりの期待面積を最小化し，消費電力を削減した。
- SkyWater 130nmプロセスでのシミュレーションにおいて，MNISTの分類精度97%を4180万回/秒で，83.88mWの消費電力で実現した。
Link: https://arxiv.org/abs/2604.19334
高類似性コンテキストにおける限られたデータでの全体論的認知への分割統治法 [cs.DC, cs.CV]目的：超詳細な視覚的分類における全体論的認知能力の向上
- 視覚的分類は，画像認識の基盤であり，多様な応用分野で不可欠な技術である。
- 超詳細視覚的分類では，データが限られている状況で，識別力のある全体論的特徴を捉えることが難しい。
- 限られたデータでも全体論的特徴を効率的に学習し，分類精度を向上させることを目指す。
- 提案手法DHCNetは，全体論的特徴を空間的に関連する微小な差異に分解することで，学習の複雑さを軽減する。
- DHCNetは，局所領域の自己シャッフル操作と，影響を受けない領域の活用により，空間的な関連性の確立を支援する。
- 実験結果から，DHCNetが5つの超詳細視覚的分類データセットで顕著な性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.19339
幾何学誘導型自己教師あり学習：限られたデータでの超微細粒度認識 [cs.RO, cs.CV]目的：超微細粒度画像認識における幾何学的特徴の活用
- 画像認識技術は，産業や医療など幅広い分野で重要性を増している。
- 超微細粒度認識は，視覚的な差異が小さい対象の識別が難しく，課題が多い。
- 限られたデータでの高精度な超微細粒度認識を可能にする手法を開発する。
- 本研究では，幾何学的属性探索ネットワーク（GAEor）という自己教師あり学習フレームワークを提案した。
- GAEorは，オブジェクトの幾何学的パターンに基づいた特徴を抽出し，認識の新たな手がかりとする。
- 5つの超微細粒度認識ベンチマークにおいて，GAEorは最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.19345
RAFT-MSF++：自己教師あり単眼シーンフローのための時系列幾何・運動特徴融合 [cs.CV]目的：単眼画像系列からの高精度な3次元運動推定
- 自動運転やロボティクスなど，周囲環境の理解に不可欠な技術である。
- 既存手法は主に2フレーム間の処理に限定され，時間的なモデリングが不十分である。
- 複数フレームを活用し，遮蔽領域に対するロバスト性を向上させる。
- RAFT-MSF++は，時系列特徴を反復的に融合することで，深度とシーンフローを同時に推定する。
- 幾何・運動特徴（GMF）を導入し，運動と幾何学的な情報を効率的に伝播させる。
- KITTI Scene Flowベンチマークにおいて，SF-allで24.14%を達成し，ベースラインより30.99%改善，遮蔽領域での性能も向上した。
Link: https://arxiv.org/abs/2604.19349
マンモグラムを用いた乳がん分類における視覚基盤モデルの活用：重要な点に注目して [cs.CV]目的：マンモグラム画像からの乳がん検出における性能向上
- 乳がんの早期発見は，治療成功率を大きく左右するため，高精度な診断支援システムの開発が重要である。
- 既存のビジョンTransformerは，高解像度な医療画像や微細な異常検出において，計算コストや識別能力に課題がある。
- 視覚基盤モデルと対照学習を組み合わせることで，乳がんの微細な特徴を捉え，診断精度を向上させることを目指す。
- 提案手法では，オブジェクト検出モデルを用いて関心領域を特定し，トークン数を削減することで，注意機構の効率を高めた。
- 関心領域間の対照学習を導入することで，微細な特徴の識別能力を強化し，クラス内変動の大きい乳がん分類に対応した。
- 公開されているマンモグラフィデータセットを用いた実験により，提案手法が既存手法を上回り，臨床応用への可能性を示した。
Link: https://arxiv.org/abs/2604.19350
顔認識システムにおけるTシャツを用いた偽装攻撃の検出 [cs.DC, cs.CV]目的：顔認識システムに対するTシャツを用いた偽装攻撃の検出方法
- 顔認証は生体認証として広く利用され，セキュリティにおける重要性が増している。
- 既存の偽装攻撃検出手法は，未知の攻撃手法への対応が課題となっている。
- 本研究は，Tシャツを用いた新たな偽装攻撃に対する検出を可能にすることを目指す。
- Tシャツを用いた偽装攻撃が，顔認識システムのセキュリティを侵害する可能性があることが示された。
- 顔と人物の検出器を組み合わせ，空間的一貫性を検証することで，Tシャツ攻撃を高精度に検出する手法を提案した。
- 提案手法は，TFPAデータベースを用いて評価され，良好な検出性能が確認された。
Link: https://arxiv.org/abs/2604.19365
Mind2Drive：実走行における脳波からの運転者の意図予測 [cs.CV, cs.HC, cs.LG, cs.RO]目的：実走行時の運転者の意図予測手法
- 先進運転支援システムの安全性向上には，運転者の状態を的確に把握することが不可欠である。
- 脳波信号の非定常性や認知・運動準備の複雑性から，実走行環境での運転者の意図予測は困難である。
- 実走行環境下で安定的に運転者の意図を早期に予測する手法を確立すること。
- 提案手法は，実走行データを用いて12種類の深層学習アーキテクチャを評価し，TSCeptionが最も高い精度（0.907）とMacro-F1スコア（0.901）を達成した。
- 本フレームワークは高い時間的安定性を示し，運転操作の1000ms前から安定した予測性能を維持した。
- 脳波信号の前処理は，アーティファクト除去パイプラインよりも最小限のものが有効であり，予測性能は運転操作の400-600ms前にピークを迎することが示された。
Link: https://arxiv.org/abs/2604.19368
IonMorphNet：質量分析イメージングにおけるイオン画像形態の汎化学習によるピーク検出 [cs.CV]目的：質量分析イメージングにおけるピーク検出手法の開発
- 質量分析イメージングは，生体組織中の物質分布を可視化する重要な技術である。
- 既存のピーク検出手法は，データセット特有のパラメータ調整が必要で，汎化性能に課題がある。
- 本研究は，データ駆動型で汎化性能の高いピーク検出手法を確立することを目的とする。
- IonMorphNetは，イオン画像の空間構造を考慮した表現モデルであり，タスク固有の教師なしにピーク検出が可能である。
- 53の公開データセットを用いて学習した結果，最先端手法と比較してmSCF1が+7%向上した。
- 空間情報を活用したチャンネル削減により，MSIにおける腫瘍分類の精度向上も示された。
Link: https://arxiv.org/abs/2604.19369
PanDA：自律走行のためのマルチモーダル3Dパノラマセグメンテーションにおける教師なしドメイン適応 [cs.CV]目的：マルチモーダル3Dパノラマセグメンテーションにおけるドメインシフトへの汎化性能向上
- 自動運転において，周囲環境の正確な認識は安全性確保に不可欠である。
- 実環境でのデータはドメインシフトの影響を受けやすく，モデルの性能低下を招く。
- 異なるドメイン間での性能劣化を抑制し，ロバストな環境認識を実現すること。
- 本研究では，マルチモーダルな入力に対して，片方のセンサーが劣化した場合でもロバストな性能を維持する手法を提案した。
- 提案手法PanDAは，非対称なマルチモーダルオーギュメンテーションと，2D/3Dモダリティからのドメイン不変な事前知識を活用する疑似ラベル洗練モジュールを導入した。
- 様々なドメインシフト条件下での実験により，既存のドメイン適応手法を大幅に上回る結果が得られた。
Link: https://arxiv.org/abs/2604.19379
Air-Know：仲裁者で較正された知識内包型ロバストネットワークによる合成画像検索 [cs.CV]目的：合成画像検索におけるロバスト性の向上
- マルチモーダル検索の柔軟性から，合成画像検索は注目されている。しかし，その発展はノイズに起因する課題によって制約されている。
- 既存手法は「小損失仮説」に依存するが，合成画像検索特有の曖昧さにより，ノイズの特定が困難である。
- 本研究は，外部の知識を活用し，ノイズの影響を受けにくい学習を実現することで，この問題を解決する。
- Air-Knowは，大規模言語モデルを専門家として利用し，高精度なアンカーデータセットを構築する。
- 専門家の知識を軽量な仲裁者へ効率的に内包させ，学習データの信頼性を高める。
- 実験結果から，Air-KnowはNTC条件下で既存の最先端手法を大幅に上回り，従来の合成画像検索においても競争力があることが示された。
Link: https://arxiv.org/abs/2604.19386
HarmoniDiff-RS：衛星画像合成のための学習不要拡散調和 [cs.CV]目的：衛星画像合成におけるドメイン間の調和
- リモートセンシングは，災害監視や都市計画など多岐にわたる分野で重要であり，高品質な画像合成が不可欠である。
- 異なるドメインの衛星画像を合成する際，放射特性の不整合が調和を阻害し，合成画像の品質低下を招く。
- 拡散モデルを用いて，学習なしでドメイン間の放射特性を調整し，高品質な衛星画像合成を実現することを目指す。
- 提案手法HarmoniDiff-RSは，潜在空間での平均シフト操作により，ソースとターゲットドメインの放射特性を効果的に整合させる。
- timestepごとの潜在融合戦略により，調和とコンテンツ保持のバランスを取り，一連の合成候補を生成する。
- 軽量な調和分類器を用いて自動的に最もコヒーレントな結果を選択することで，合成画像の品質を向上させる。
Link: https://arxiv.org/abs/2604.19392
VecHeart：ハイブリッドVecSetによる包括的な四腔心臓解剖モデル [cs.CV]目的：四腔心臓構造の包括的な再構成と生成
- 心臓の正確な解剖モデルは，医療診断や治療計画において不可欠である。
- 既存手法は単一の対象物しか扱えず，構造間の相関関係を無視している場合が多い。
- 部分的な，あるいはノイズの多い観測データから完全な心臓構造を推論すること。
- 提案手法VecHeartは，複雑な心臓構造の相互関係を捉え，高精度な再構成を実現した。
- ハイブリッドPart Transformerにより，異なる心腔間の依存関係を効果的に学習できる。
- Anatomical Completion MaskingとModality Alignmentにより，欠損部分の補完が可能となった。
Link: https://arxiv.org/abs/2604.19403
HP-Edit：画像編集のための人間選好事後学習フレームワーク [cs.CL, cs.CV, cs.AI]目的：画像編集における人間選好に合わせた編集
- 画像編集技術は，現実世界のコンテンツを効率的に変更する上で重要であり，様々な応用が期待される。
- 拡散モデルを用いた編集において，人間からのフィードバックを効率的に組み込むための手法が不足している。
- 人間選好データとフレームワークを用いて，拡散モデルに基づく編集の品質を向上させることを目指す。
- HP-Editは，少量の人間選好データと事前学習済みのVLMを活用し，自動評価器HP-Scorerを開発した。
- HP-Scorerは，大規模な選好データセットの構築と，編集モデルの事後学習における報酬関数として機能する。
- 実験の結果，HP-EditはQwen-Image-Edit-2509などのモデルの出力と人間選好との整合性を高めることが示された。
Link: https://arxiv.org/abs/2604.19406
GOLD-BEV：動的シーンの高密度BEVマッピングのための地上および航空データ [cs.HC, cs.CV, cs.AI]目的：動的シーンの高密度BEV（鳥瞰図）セマンティック環境マップの学習
- 自動運転やロボティクスにおいて，周囲環境の正確な理解は不可欠である。
- 従来のBEVマッピングは，手動アノテーションの負担が大きく，時間的なずれが生じやすい。
- 航空画像を用いた教師あり学習により，効率的かつ正確なBEVマップ構築を目指す。
- 本研究では，航空画像による教師データを用いて，エゴ車両からのセンサ情報から高密度なBEVセマンティックマップを学習するフレームワークGOLD-BEVを提案する。
- 厳密な地上・航空データの時間同期により，移動する対象物の認識精度を向上させ，従来の非同期データの問題点を克服する。
- ドメイン適応を用いた航空画像からの疑似ラベル生成と，エゴセンサからの疑似航空画像合成により，効率的なアノテーションと不確実性を考慮した学習を実現する。
Link: https://arxiv.org/abs/2604.19411
視覚的対照編集によるLVLMの幻覚軽減：ゼロコスト手法 [cs.CV, cs.CL]目的：大規模視覚言語モデルにおける物体幻覚の軽減
- LVLMは画像とテキストの理解に優れるが，幻覚による誤りが実用上の課題となっている。
- LVLMは事前学習時の言語的先入観から，画像に存在しない物体を生成することがある。
- 視覚的対照編集により，幻覚を引き起こす活性化パターンを特定し，その影響を軽減する。
- 視覚的対照編集(VCE)は，ラベルなしで後処理的に幻覚を抑制し，大規模な展開を可能にする。
- VCEは，特異値分解を用いて幻覚に関連する部分空間を特定し，パラメータ編集によって影響を抑制する。
- 複数のベンチマークにおいて，VCEは物体幻覚を効果的に低減しつつ，計算効率を維持する。
Link: https://arxiv.org/abs/2604.19412