arXiv雑要約

画像・音声 - 2026/04/28 公開

膝-xRAI：膝関節症のケルグレン・ローレンス分類のための説明可能なAIフレームワーク [cs.CV, cs.AI, cs.LG]目的：膝関節症のケルグレン・ローレンス分類の自動化
- 膝関節症は高齢化社会において罹患率が高く，診断・治療の重要性が増している。
- レントゲン画像の読影における主観的な判断によるバラつきが課題となっていた。
- 構造的特徴を分解し，説明可能なAIを用いてKL分類の精度向上を目指す。
- 本研究で開発したKnee-xRAIは，関節裂隙狭小化，骨棘，亜軟骨硬化の3つの特徴を定量化する。
- ConvNeXtハイブリッドパスにおいて，テスト時のQWKは0.8436，AUCは0.9017を達成した。
- 関節裂隙狭小化が最も重要な予測因子であり，骨棘と亜軟骨硬化が分類精度を改善する。
Link: https://arxiv.org/abs/2604.23435
エッジデバイス向け資源制約下UAVによる雑草検出：サイトスペシフィック管理への応用 [eess.SY, cs.SY, cs.CV]目的：サイトスペシフィック雑草管理のための，資源制約下UAVによるリアルタイム雑草検出フレームワーク
- 農業生産性向上のためには，雑草との競争を抑制し，作物の生育環境を最適化することが重要である。
- リアルタイム処理能力と省電力性が求められるエッジデバイス上での深層学習モデルの性能評価が不足している。
- エッジデバイス上でのリアルタイム処理と検出精度を両立する最適なモデルアーキテクチャを特定すること。
- 高精度なモデルは高いmAP50(最大86.9%)を達成するものの，推論速度が遅くリアルタイム処理が困難である。
- 軽量なモデルはmAP50が66%-71%程度となるが，推論速度が大幅に向上し，リアルタイム処理が可能となる。
- RT-DETRv2-R50-Mは高い精度(79% mAP50)と効率性を両立し，YOLOv10nは最速の推論速度を示す。
Link: https://arxiv.org/abs/2604.23442
エッジから深さへ：Vision Transformerにおける空間階層の探求 [cs.CV, cs.LG]目的：Vision Transformerにおける空間階層の符号化の場所と堅牢性の解明
- 画像認識技術は，ロボティクスや自動運転など，様々な応用分野で不可欠である。
- Vision Transformerは空間的知識を必要とするタスクに転移するものの，事前学習時に空間的監督信号を受けない。
- 本研究は，Vision Transformerがどのように空間階層を学習し，符号化しているかを明らかにすることを目指す。
- Vision Transformerの層5-6で局所的なエッジ構造が明確に復号可能となることが示された。
- 深さの情報は，よりグローバルな手がかりを統合する必要があるため，層8で最も高い精度を示す。
- 学習された空間階層は，初期視覚皮質の進行と類似しており，モデルが能動的に維持している。
Link: https://arxiv.org/abs/2604.23452
深層学習 기반 핵 분석のための手動アノテーションの代替としての空間トランスクリプトミクス活用 [cs.DB, cs.CL, eess.SY, cs.SY, cs.CV, cs.LG]目的：病理画像における深層学習 기반 핵セグメンテーションと分類
- 病理診断の精度向上には，細胞核の正確な解析が不可欠であり，自動化技術の需要が高まる。
- 深層学習の学習には大量の手動アノテーションが必要であり，コストと時間がかかる。
- 空間トランスクリプトミクスデータを用いて，手動アノテーションなしで核のセグメンテーションと分類を可能にする。
- 空間トランスクリプトミクスデータを教師データとして利用することで，核セグメンテーションと分類の精度を向上させた。
- 学習に用いた臓器の種類が少ないにも関わらず，従来の教師ありモデルよりも高いセグメンテーション精度を達成し，汎化性能を示した。
- 遺伝子発現に基づいた細胞タイプ分類と画像ベースの細胞分類を連携させることで，分類性能を既存手法よりも向上させた。
Link: https://arxiv.org/abs/2604.23481
BurstGP：生成事前知識を用いたローバースト画像超解像の強化 [cs.CV]目的：ローバースト画像から単一の高解像度画像を生成する手法の性能向上
- 画像超解像は，低解像度画像から高解像度画像を生成する重要な技術であり，様々な応用分野で活用されている。
- 従来のローバースト画像超解像は，複雑なテクスチャの再現や，画像の滑らか化が課題となっていた。
- 本研究は，最新の生成モデルの事前知識を活用し，これらの課題を克服することを目的とする。
- BurstGPは，既存の最先端手法と比較して，定量評価（MUSIQ，LPIPSなどの知覚指標）および定性評価の両面で優れた性能を示す。
- 特に，複雑なテクスチャや微細な構造の詳細をより豊かに復元することに成功している。
- 本手法は，ローバースト画像超解像におけるビデオ事前知識の有効性を示唆している。
Link: https://arxiv.org/abs/2604.23508
GPUレイトレーシングアーキテクチャにおける衝突判定の再考 [cs.GR]目的：GPUレイトレーシングアーキテクチャを用いた衝突判定の効率化
- 粒子ベースの物理シミュレーション等，多くの分野で衝突判定は不可欠な処理である。
- 不規則なBVH探索の高速化には高度な工夫が必要であり，性能向上の課題が存在する。
- 多様な半径を持つ粒子に対しても効率的な衝突判定を可能にすることを目的とする。
- Mochiは，衝突関係の対称性を利用し，一様および非一様な球体粒子に対して効率的に衝突判定を行う新しい手法である。
- Mochiは，オブジェクトごとのプロキシ球を導入することで，BVHのバウンディングボリュームと衝突検索半径を分離し，よりタイトなバウンディングボックスを実現する。
- 大規模な粒子ワークロードを用いた評価により，最先端のBVHベースおよびRTベースの衝突判定実装と比較して，一貫した高速化が示された。
Link: https://arxiv.org/abs/2604.23520
感情条件付き短期人間姿勢予測のための軽量予測世界モデル [cs.CV, cs.AI]目的：感情に基づいた短期姿勢予測の実現
- インタラクティブシステムや支援ロボット等，人間との協調に姿勢予測は不可欠である。
- 既存研究では感情信号が無視され，人間運動のダイナミクスを十分に捉えられていない。
- 表情由来の感情埋め込みを姿勢予測に活用し，予測精度向上を目指す。
- 感情埋め込みと姿勢情報を学習可能なゲート機構で統合する軽量な予測モデルを提案した。
- 感情駆動の動きにおいて，ゲート機構による融合が予測精度を顕著に向上させた。
- 予測軌跡が感情入力の変化に敏感に反応することから，感情埋め込みが有用な条件信号であることが示唆された。
Link: https://arxiv.org/abs/2604.23532
拡散モデルにおけるセマンティックアラインメントのためのゼロコストジグザグ軌跡：$Z^2$-サンプリング [cs.CV]目的：拡散モデルにおけるセマンティックアラインメントの効率向上
- 拡散モデルはテキストに沿った生成において飛躍的な成功を収めており，その性能が重要視されている。
- 従来のClassifier-Free Guidanceはデータ多様体の曲率を無視しており，セマンティックアラインメントが不十分となる場合がある。
- 本研究は，データ多様体の曲率を考慮しつつ，計算コストを抑えたセマンティックアラインメント手法を確立する。
- $Z^2$-サンプリングは，従来の2-NFEの計算コストを維持しつつ，セマンティックな探索を可能にする。
- 理論的解析により，中間状態を代数的に消去し，多様体外近似誤差を物理的に排除できることが示された。
- 多様なアーキテクチャ(U-Net, DiT)やモダリティ(画像/動画)において，$Z^2$-サンプリングの有効性が検証された。
Link: https://arxiv.org/abs/2604.23536
エンドツーエンドメッシュ再構成のための距離場ラスタライズ [cs.GR]目的：エンドツーエンドのメッシュ再構成
- リアルタイムな新規視点合成の品質向上は重要である。従来のラスタライズ手法では，表面表現が不完全となる問題がある。
- ラスタライズ法では直接的で一貫性のある表面表現が得られず，ヒューリスティックな後処理が必要となる。
- ラスタライズの効率とSDFの表面定義の良さを両立し，後処理なしにメッシュ再構成を実現すること。
- SD FRasterは，ラスタライズの効率とSDFの利点を組み合わせた表現である。
- 四面体分割による連続的なSDFを最適化し，四面体のラスタライズとアルファ合成により効率的にレンダリングする。
- DTUおよびTanks and Templesデータセットでの実験により，SDFRasterは既存手法よりも高品質で完全な再構成を実現した。
Link: https://arxiv.org/abs/2604.23537
オラクルノイズ：解釈可能な潜在的最適化のための高速セマンティック球面アラインメント [cs.CV]目的：テキストと画像のアラインメントを改善するための手法
- 近年のテキスト画像生成モデルの性能向上は目覚ましいが，テキストと画像の整合性が課題である。
- 従来の最適化手法は潜在空間のノームを増加させ，ガウス分布を破壊し，視覚的なアーティファクトを引き起こす。
- オラクルノイズは，球面上の制約条件下での最適化により，これらの問題を解決し，効率的なアラインメントを実現する。
- オラクルノイズは，従来のユークリッド空間での最適化と比較して，セマンティックアラインメントを大幅に高速化する。
- 本手法は，外部モデルに依存せず，高品質な画像を生成し，人間の好みを反映した結果を得る。
- 実験結果から，HPSv2，ImageReward，CLIP Scoreなどの評価指標において最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.23540
AusSmokeとMultiNatSmoke：多様な煙セグメンテーションの完全ラベル付きデータセット [cs.CV]目的：煙セグメンテーションのための大規模で地理的に多様なベンチマークデータセット
- 山火事は環境，経済，健康に甚大な影響を与えており，世界的な問題となっている。
- 既存のデータセットは規模が小さく，地域が限定的で，合成画像に依存しているため，汎化性能が低い。
- 地理的多様性を備えた大規模な煙セグメンテーションデータセットを構築し，モデルの汎化性能を向上させる。
- オーストラリアで収集したAusSmokeデータセットと既存の国際データセットを統合し，MultiNatSmokeデータセットを構築した。
- MultiNatSmokeは，既存のデータセットと比較して規模が1桁大きく，地理的多様性が向上している。
- 構築したデータセットを用いたベンチマークテストにより，煙セグメンテーションモデルの性能と汎化性能の向上が確認された。
Link: https://arxiv.org/abs/2604.23542
COMO：最小リスク学習を用いた閉ループ光学分子認識 [cs.CV, cs.AI, cs.LG]目的：光学分子認識の性能向上
- 化学構造のデジタル化は，医薬品開発や物質探索において不可欠であり，その自動化が求められている。
- 既存手法は，学習時のバイアスや分子レベルの評価基準との乖離が課題となっていた。
- 本研究は，暴露バイアスを軽減し，分子レベルでの最適化を可能にする手法を開発し，その有効性を示す。
- COMOは，既存のルールベースおよび学習ベースの手法と比較して，より少ない学習データで大幅な性能向上を達成した。
- 最小リスク学習（MRT）は，アーキテクチャに依存しない汎用性を持つことが示された。
- 合成データセットおよび実世界の化学図面を用いたベンチマークテストで，COMOの有効性が確認された。
Link: https://arxiv.org/abs/2604.23546
空間的・時間的劣化を考慮したリアルな水中シーン再構成のための3Dガウススプラッティング [cs.CE, math.OC, cs.CV]目的：リアルな水中シーン再構成のための3Dガウススプラッティングフレームワーク
- 水中画像は，水中の環境下での情報取得に不可欠であり，様々な分野で活用されている。
- 水中画像は，屈折や散乱の影響で空間的・時間的に劣化しやすく，正確な3D再構成が困難である。
- 空間的・時間的劣化を同時に考慮し，より現実的な水中シーンの再構成を可能にすること。
- 提案手法MarineSTD-GSは，Intrinsic GaussiansとDegraded Gaussiansのペアを用いて，空間的・時間的劣化を明示的にモデル化する。
- Spatiotemporal Degradation Modeling (SDM)モジュールにより，劣化画像から現実的な外観を自己教師ありで分離する。
- シミュレーションデータセットと実データセットでの実験により，MarineSTD-GSが既存手法よりもロバストであり，高品質な再構成が可能であることが示された。
Link: https://arxiv.org/abs/2604.23551
PhysLayer：言語誘導による深さ認識型物理シミュレーションを用いた階層アニメーション [cs.RO, cs.CV]目的：静止画像からの言語誘導，深さ認識型階層アニメーションの実現
- 画像から動画生成は，視覚コンテンツの自動生成において重要な役割を担う。
- 既存手法では物理的に不自然な動きや，オブジェクトの挙動制御の精度不足が課題である。
- 深さ情報を考慮した物理シミュレーションにより，より現実的なアニメーション生成を目指す。
- PhysLayerは，シーン理解，深さ認識型物理シミュレーション，動画合成の3つの要素で構成される。
- 実験の結果，CLIP-Similarity，FID，Motion-FIDスコアが向上し，物理的妥当性およびテキストと動画の整合性が改善された。
- 本手法は，物理的リアリズムと計算効率のバランスを取り，制御可能な画像アニメーションを可能にする。
Link: https://arxiv.org/abs/2604.23574
デザイン空間の開放：知能楽器による2年間のパフォーマンス [cs.SD, cs.HC]目的：知能楽器のデザイン空間の探求
- 音楽生成AIは注目されているが，楽器への統合は少ない。
- 既存の音楽AIツールはアーティスト中心ではなく，実験や楽器への組み込みが困難である。
- 手頃なAIシステムを用いたデザイン空間の可能性を探る。
- アーティストが収集したデータセットを用いてAIモデルをトレーニングするプラットフォームを開発した。
- 再トレーニングの代わりにマッピングによりAIとのインタラクションを発見できることが示された。
- 小規模データAIモデルが，持ち運び可能なデザインリソースとなりうる可能性が示唆された。
Link: https://arxiv.org/abs/2604.23583
マルチモーダル検索拡張生成における視覚的証拠のアイデンティティ非結合匿名化 [cs.CV, cs.IR]目的：マルチモーダル検索拡張生成における視覚的証拠のプライバシー保護
- 大規模言語モデルと画像認識の融合が進み，多様な応用が期待されている分野。
- 検索された画像に個人を特定できる顔が含まれており，プライバシー侵害のリスクがある。
- 顔のアイデンティティと属性を分離し，プライバシーを保護しつつ有用な情報を保持する。
- 提案手法は，顔をアイデンティティコードと属性コードに分解し，アイデンティティを置き換えることで匿名化を実現。
- 生成された匿名化画像は，見た目の自然さとプライバシー保護の両立を目指している。
- 複数の顔認識モデルを用いた評価により，効果的な匿名化が確認された。
Link: https://arxiv.org/abs/2604.23584
Talker-T2AV：自己回帰拡散モデリングによる音声と映像の同時生成 [cs.CV, cs.CL, cs.MM, cs.SD, eess.AS]目的：音声と映像の同時生成における，クロスモーダルの一貫性向上
- 音声と映像の同時生成は，各モダリティ単独の生成よりも高い整合性をもたらすことが示されている。
- 既存モデルは，ノイズ除去プロセス全体でモダリティを密結合させており，高レベルな意味情報と低レベルな詳細情報を過度に絡み合わせている。
- 本研究では，高レベルなクロスモーダルモデリングと低レベルなモダリティ固有の洗練を分離することで，効率性と品質の向上を目指す。
- Talker-T2AVは，共有バックボーンで高レベルなクロスモーダルモデリングを行い，低レベルな洗練にはモダリティ固有のデコーダーを用いる自己回帰拡散フレームワークである。
- 実験の結果，Talker-T2AVは，リップシンクの精度，映像品質，音声品質において，二分岐ベースラインモデルを上回った。
- これにより，カスケードパイプラインよりも一貫性のある音声と映像の同時生成が可能となった。
Link: https://arxiv.org/abs/2604.23586
曲線および曲面の漸進的反復的公平化手法：局所的な制御点調整によるアプローチ [cs.CL, cs.GR]目的：曲線および曲面の公平化手法の改良
- 製品の品質，物理的性能，美観に影響を与えるため，コンピュータ支援幾何学的設計において公平化は重要である。
- 従来の公平化手法は全体的な修正を行うため，微細な制御が困難であるという問題がある。
- 本研究は，局所的な制御を可能にする新しい公平化手法を提案し，この問題を解決することを目指す。
- 提案手法では，各制御点に独立した重みを割り当てることで，精密かつ局所的な形状調整を実現した。
- 本手法は全体的および局所的に機能し，包括的な形状公平化と公平化効果の微調整を可能にする。
- さらに，形状調整のための自動制御点選択方法を提示し，手動操作への依存をなくした。
Link: https://arxiv.org/abs/2604.23590
3D LiDARアノマリセグメンテーションにおける分布外オブジェクトの識別学習 [cs.CV, cs.RO]目的：3D LiDARアノマリセグメンテーションのための分布外オブジェクト識別
- 自動運転やロボット知覚において，周囲環境の理解は不可欠である。特に未知の物体を識別する能力が重要となる。
- 3D分野の研究は限られており，既存手法は2D画像処理のポスト処理技術を応用している場合が多い。
- 本研究は，3D LiDARデータに対して直接作用し，特徴空間で異常サンプルを抑制することで，この課題を解決する。
- 提案手法は，既存の現実世界データセットおよび新たに作成した混合データセットにおいて，最先端または競争力のある性能を達成した。
- その結果，本手法の有効性と，提案されたデータセットの有用性が検証された。
- また，既存のデータセットが持つドメインギャップを埋めるための混合リアル-合成データセットを導入した。
Link: https://arxiv.org/abs/2604.23604
グレースケール，カラー，SAR，超音波画像における，重み付けおよび結合された2次および4次偏微分方程式の比較研究 [cs.CV]目的：画像去ノイズ手法の比較
- 画像処理において，ノイズ除去と構造保持は重要な課題である。特に，医療画像などの高精度な解析には不可欠。
- 従来の2次偏微分方程式モデルはブロック状のアーティファクトを生じやすく，4次モデルはスペックルパターンを導入しやすい。
- 本研究は，スペックルノイズの抑制と微細なエッジの保持を両立する新しい偏微分方程式モデルを提案し，その有効性を検証する。
- 提案手法は，標準的なグレースケール，カラー，SAR，超音波画像データセットにおいて，既存のTelegraph Diffusion ModelやFourth-Order Telegraph Diffusion Modelよりも優れた性能を示した。
- 定量評価（PSNR，SSIM，スペックル指数）の結果，提案モデルはより高い画質と視覚的知覚を実現することが確認された。
- 提示された偏微分方程式ベースのフレームワークは，自然画像および医療画像の両方において，信頼性と効率性の高い去ノイズ手法を提供する。
Link: https://arxiv.org/abs/2604.23612
ハイパースペクトル画像分類のためのプーリング注意融合を用いた相乗的CNN-Transformerネットワーク [cs.RO, cs.CV]目的：ハイパースペクトル画像分類における土地被覆または材料のカテゴリ分類
- 高分解能な情報源から得られるハイパースペクトル画像は，精密農業や環境モニタリングにおいて重要な役割を果たす。
- 従来の分類手法では，空間情報とスペクトル情報の効果的な統合や，層を重ねるにつれて情報が失われる問題が存在する。
- 空間スペクトル情報の有効活用と，ネットワーク層間の情報損失の抑制を実現する分類モデルの提案。
- 提案手法は，CNNとTransformerを並行して利用することで，空間特徴とスペクトル特徴をそれぞれ効果的に抽出する。
- ハイブリッドプーリング注意モジュールにより，空間注意を統合し，重要な情報を抽出する。
- カスケードTransformerエンコーダーと交差層特徴融合モジュールにより，グローバルなスペクトル特徴抽出と情報損失の抑制を実現し，高い分類精度を達成した。
Link: https://arxiv.org/abs/2604.23622
視覚的合成からインタラクティブな世界へ：実用的な3Dアセット生成に向けて [cs.GR]目的：実用的な3Dアセット生成のための技術動向と課題
- ゲーム開発やAIなど，リアルタイムインタラクティブ環境の発展には高品質な3Dアセットが不可欠である。
- 既存の生成手法では，エンジンの制約を満たすアセットの生成が難しく，実用化のボトルネックとなっている。
- アセット制作パイプラインに沿った技術整理と評価指標の確立により，実用的な3Dアセット生成を促進すること。
- 本調査では，3Dアセットを汎用オブジェクト，キャラクター，シーンの3つの階層に分類し，データ基盤からシーン構築までの制作ライフサイクルを分析した。
- 既存手法の生成能力と，ダウンストリームエンジンでの利用可能性を評価し，幾何学的精度，外観品質，アセットの使いやすさなどを比較した。
- データ品質，生成制御性，エンドツーエンドのアセット化，物理に基づいた生成などの課題を特定し，インタラクティブな世界モデル構築の基盤としての重要性を強調した。
Link: https://arxiv.org/abs/2604.23629
Hallo-Live：非同期デュアルストリームと人間中心の嗜好蒸留を用いたリアルタイム音声・映像アバター生成 [cs.CV, cs.MM, cs.SD]目的：リアルタイムなテキスト駆動型音声・映像アバターの同時生成
- 近年，バーチャルコミュニケーションの需要増加に伴い，リアルタイムアバター生成技術が重要視されている。
- 既存の音声・映像拡散モデルは処理速度が遅く，高速化すると生成品質が低下する課題があった。
- 高速かつ高品質なリアルタイムアバター生成を実現し，インタラクティブな利用を可能にすること。
- Hallo-Liveは，非同期デュアルストリーム拡散と人間中心の嗜好蒸留を組み合わせたストリーミングフレームワークである。
- 2台のNVIDIA H200 GPU上で，20.38 FPSのフレームレートと0.94秒の遅延で動作し，教師モデルOviと比較して16.0倍の処理能力と99.3倍の低遅延を実現した。
- 生成品質は高く，VideoAlignおよびSync Confidenceのスコアは同等レベルを維持しつつ，他の高速化手法よりも品質と効率のバランスが良い。
Link: https://arxiv.org/abs/2604.23632
識別器誘導適応拡散：画像劣化下におけるソース不要テスト時適応 [cs.CV]目的：腐食によるドメインシフト下におけるソース不要教師なしドメイン適応
- 画像認識の精度は，現実世界の多様な条件下で低下することがある。
- 画像劣化（ぼかし，天候，デジタルアーティファクト等）が，認識性能を著しく損なう。
- 劣化に特化したアーティファクトを抑制し，元の構造を維持する適応手法の開発。
- 提案手法は，識別器により拡散の度合いを動的に制御することで，腐食特有のアーティファクトを抑制する。
- 固定された拡散深度ではなく，画像ごとに適切な拡散量を決定することで，効率的な適応を実現する。
- 15種類の腐食に対して，ノイズ以外の腐食において競争力のある，または改善された性能を示す。
Link: https://arxiv.org/abs/2604.23636
VDLF-Net：適応的・少量ショット視覚学習のための変分特徴融合 [cs.HC, cs.CY, cs.SI, cs.IR, cs.CV]目的：適応的・少量ショット視覚学習のための変分特徴融合手法
- 少量データでの学習は，データ収集コストが高く困難な場合に重要である。
- 従来の少量ショット学習手法は，特徴表現の汎化性能が不十分な場合がある。
- 本研究は，変分特徴融合により，少量データにおける学習性能の向上を目指す。
- VDLF-Netは，CIFAR-100およびMini-ImageNetの標準プロトコルにおいて，ResNet-50 Enhanced，VGG-16，Prototypical Networks，Matching Networksを上回る性能を示した。
- 高解像度スケールの削除が，VDLF-Netの性能に最も大きな影響を与えることが明らかになった。
- KL損失と再構成は性能にわずかな減少をもたらし，性能向上は主にVDLF-Netアーキテクチャと学習戦略に由来することを示唆する。
Link: https://arxiv.org/abs/2604.23641
RaV-IDP：忠実なインテリジェントドキュメント処理のための再構成検証フレームワーク [cs.CV, cs.AI]目的：忠実なインテリジェントドキュメント処理のための再構成検証フレームワーク
- ドキュメント処理は，知識ベースや検索，分析などに応用され，情報活用において不可欠である。
- 既存のパイプラインは，抽出結果の忠実性を検証する仕組みがなく，誤りが後続システムに伝わる可能性がある。
- 本研究は，再構成による検証を通じて，抽出結果の忠実性を高めることを目指す。
- RaV-IDPは，抽出された情報を元のドキュメントと再構成し，その忠実度をスコア化する。
- 忠実度が低い場合，GPT-4.1 visionによるフォールバックを繰り返し，検証ループを継続する。
- 各パイプライン要素に対応する評価フレームワークを提案し，検証を容易にした。
Link: https://arxiv.org/abs/2604.23644
幾何条件付き拡散による閉塞に強い在床姿勢推定 [cs.CV]目的：閉塞に強い在床姿勢推定手法の開発
- 高齢者や介護が必要な人の見守りにおいて，在床姿勢の正確な推定は重要である。
- 毛布などの閉塞物による姿勢の隠蔽は，姿勢推定の精度を著しく低下させる。
- 少ない学習データでも閉塞に強い姿勢推定を実現する新しいアプローチが求められている。
- 幾何条件付き拡散モデル（Pose-LDM）は，骨格キーポイントから直接毛布に覆われた画像を生成することで，ペア学習の必要性をなくした。
- Pose-LDMは，重度の閉塞下において高い厳密な局所化精度を達成し，完全教師あり学習に近い性能を示した。
- この結果は，幾何条件付き拡散が，センシングパイプラインを変更することなく，閉塞に強い在床姿勢推定への効果的な道を提供する。
Link: https://arxiv.org/abs/2604.23651
ResAF-Net：パレスチナにおける樹木検出と農業マッピングのためのアンカーフリーなアテンションベースネットワーク [cs.CV, cs.AI]目的：パレスチナにおける大規模農業モニタリングのための樹木検出フレームワーク
- 食糧安全保障，土地利用計画，経済的強靭性にとって，信頼性の高い農業データは不可欠である。
- パレスチナでは，地形の断片化，現地アクセス制限，航空監視の制約により，大規模なデータ収集が困難である。
- 資源制約下において，高密度かつ異質なシーンでの樹木検出精度向上を目指す。
- ResAF-Netは，MillionTreesベンチマークにおいて，高いRecall（82％）とmAP（63.03％@0.50）を達成した。
- 本モデルは，樹木の存在に対する高い感度と，競争力のある局所化品質を両立している。
- GeoMolgのパレスチナ土地登記データと統合されたウェブベースのGISアプリケーションへの実装は，実用的な実現可能性を示した。
Link: https://arxiv.org/abs/2604.23653
低照度・水中環境向け視覚状態空間モデルBVI-Mamba：ビデオ画質改善 [cs.CV]目的：低照度および水中環境で撮影されたビデオの画質改善手法
- 水中や暗所での映像取得は重要だが，視認性の低下や自動処理の精度劣化を招く。
- 従来の画質改善は計算コストが高く，リアルタイム処理が困難な場合がある。
- 視覚状態空間モデルを活用し，計算資源を抑えつつ高画質化を実現することを目指す。
- 提案手法BVI-Mambaは，Transformerや畳み込みモデルと比較して，低照度・水中環境におけるビデオ画質改善において優れた性能を示す。
- 特徴量アライメントモジュールと，VSSブロックを用いた画質改善モジュールを組み合わせることで，メモリ使用量と計算時間を削減。
- 本手法は，ノイズ除去や明るさ調整を効果的に行い，視覚的な明瞭度を向上させる。
Link: https://arxiv.org/abs/2604.23655
太陽光発電システムにおける太陽光パネルの故障分類のための大規模データセットおよびベンチマーク：SolarFCD [cs.CV]目的：太陽光発電システムの故障分類のための大規模データセットおよびベンチマークの提供
- 太陽光発電の導入拡大に伴い，パネル欠陥の検出技術の重要性が増している。
- 大規模で，多種多様なデータを含む，公開されたアノテーション付きデータセットが不足している。
- 公開データセットを統合し，太陽光パネルの故障分類における研究を促進すること。
- 本研究では，RGB画像と熱赤外画像の2つのモダリティを含む大規模データセットSolarFCDを構築した。
- データセットは，健常，表面障害，構造的欠陥，電気的欠陥の4つの欠陥クラスで構成されており，全4,435枚の画像を含む。
- ResNet101V2は，精度86.68%，適合率88.65%，再現率88.62%，F1スコア88.17%で，最も優れた性能を示した。
Link: https://arxiv.org/abs/2604.23662
HAC：CLIPのゼロショットVQAのための効率的な双曲線適応 [cs.CV]目的：CLIPモデルの双曲線空間への適応
- 近年，表現学習において双曲線幾何学が有効であることが示され，階層構造の表現に適している。
- 既存の双曲線CLIPモデルは全てゼロから学習する必要があり，計算コストが高い。
- 事前学習済みのCLIPモデルを効率的に双曲線空間に適応させ，VQAタスクの性能向上を目指す。
- 提案手法HACは，軽量なファインチューニングにより，事前学習済みCLIPモデルを双曲線空間に移行させる。
- VQAベンチマークにおいて，HACはユークリッド空間ベースラインや既存の双曲線アプローチを上回り，特に推論タスクで性能が向上した。
- HAC-BはCLIP-Bと比較して，平均で最大1.9ポイントの性能改善を実現した。
Link: https://arxiv.org/abs/2604.23665
戦略的に堅牢な集約ゲーム [cs.GT, math.OC]目的：多エージェント環境における戦略的堅牢性
- 交通や電力系統など，多数エージェントの相互作用を扱う上で重要。
- 他エージェントの不確実な行動が，全体的な効率性を阻害する。
- 集約行動の周辺における逸脱に対して堅牢な均衡を構築する。
- 提案する戦略的に堅牢なWardrop均衡は，標準的な均衡とセキュリティ戦略の間を繋ぐ。
- 凸集約ゲームにおいて，純粋な戦略的に堅牢なWardrop均衡の存在が示された。
- 電気自動車充電への応用例から，堅牢性がより良い意思決定に繋がり，コスト削減効果も確認された。
Link: https://arxiv.org/abs/2604.23669
多対多アソシエーションによるDINOの展開 [cs.CV]目的：教師あり画像マッチングモデルの未学習ドメインへの汎化性能の限界
- 画像マッチングは，ロボット工学やコンピュータビジョンの基盤技術であり，多様な応用が存在する。
- 既存の画像マッチングモデルは，学習データと異なるドメインの画像に対して汎化性能が低いという課題がある。
- DINO特徴量を用いたゼロショット展開により，この汎化性能の課題を克服することを目指す。
- DINO特徴量は，セマンティクスが類似するインスタンス間の特徴点マッチングにおいて曖昧性を持つため，多対多マッチングパラダイムを採用した。
- 既存の多対多アソシエーション機構の計算コストが高い問題を，新しい尤度に基づいた「調和的コンセンサス最大化 (HCM)」で解決した。
- カメラ姿勢推定タスクにおいて，HCMと多対多アソシエーションを組み合わせることで，特化型マッチングモデルに匹敵する性能を達成した。
Link: https://arxiv.org/abs/2604.23670
ピクセルから解読を学ぶ – コピアレの手本 [cs.CV]目的：歴史的な暗号原稿の解読手法
- 歴史的文書の解読は，文化遺産の保護と歴史研究において重要である。
- 既存の手法は，手書き文字の書き起こしが必要で，手間と誤りが多く，解読という目的から乖離している。
- 書き起こしなしで，暗号画像から平文への直接的なマッピングを可能にし，解読プロセスを簡素化すること。
- コピアレ暗号を用いた実験で，汎用的な手書き文字データでの事前学習と，暗号特有の微調整が解読精度を大幅に向上させることを示した。
- 書き起こしを介さない画像から平文への解読は，歴史的な換字暗号に対して，実現可能かつ有効であることが示された。
- 従来のパイプラインと比較して，簡素化され，拡張性のある代替手段を提供することが期待される。
Link: https://arxiv.org/abs/2604.23683
暗闇での読書：低照度シーンテキスト認識 [cs.CV]目的：低照度環境におけるシーンテキスト認識手法の開発
- 自動運転やスマート監視など，知能システムにおいて正確なテキスト認識は不可欠である。
- 低照度環境では，照明不足やノイズの影響により，テキスト認識の精度が著しく低下する問題がある。
- 本研究は，低照度環境下でのシーンテキスト認識の精度向上を目指し，新たなデータセットと手法を提案する。
- 大規模な低照度シーンテキスト認識データセットLSTRと，実世界の夜間ストリートシーン画像データセットESTRを構築した。
- OCRモデルのファインチューニングやLoRAベースのファインチューニング，そして低照度画像強調モジュールとOCRモデルを統合した共同学習戦略を検討した。
- 特に提案するRLLIEモジュールは，実データにおいて高い性能を示し，適切な明るさレベルが認識精度に与える影響を分析した結果，専用に訓練されたアプローチの有効性が示された。
Link: https://arxiv.org/abs/2604.23685
現実世界の画像変換下では，保護的摂動は本当に肖像プライバシーを保護するのか？ [cs.CV]目的：肖像画像の不正編集やTalking Face Generation（TFG）からの保護効果の評価
- プライバシー保護の重要性が増す中，画像編集技術の進歩への対策が求められている。
- 既存の保護手法は，画像変換による影響が不明であり，実用性への懸念がある。
- 現実世界の画像変換下での保護手法の有効性を検証し，脆弱性を明らかにする。
- ピクセルレベルの摂動に基づく防御法は，一般的な画像変換に対して脆弱であることが示された。
- 画像変換によって生じる脆弱性を悪用した，摂動除去フレームワークが有効であることが確認された。
- 本研究は，現実世界での応用において，既存の防御法の限界と新たなリスクを指摘する。
Link: https://arxiv.org/abs/2604.23688
動的マルチモーダル検索によるパーソナライズされた因果音声駆動顔面モーション [cs.GR, cs.CV]目的：パーソナライズされた因果音声駆動顔面モーション生成
- 没入型デジタルインタラクションにおいて，顔面アニメーションは不可欠である。
- 既存手法は，リアルタイム性と高精度なパーソナライズを両立できていない。
- 動的なスタイル参照を活用し，低遅延かつ柔軟なパーソナライズを実現する。
- 提案手法は，既存手法を凌駕し，リップシンクの精度，同一性の一貫性，知覚されるリアリズムを向上させた。
- 時間階層的なモーション表現により，グローバルな時間的文脈と高周波の詳細を維持しつつ，因果的なデコードを実現した。
- 音声とモーションを共同でクエリするマルチモーダルスタイル検索により，因果性を損なわずにスタイル情報を動的に抽出した。
Link: https://arxiv.org/abs/2604.23692
Agri-CPJ：キャプション・プロンプト・ジャッジとLLMジャッジを用いた，学習不要な農業害虫診断の説明可能なフレームワーク [cs.CL, cs.AI, cs.CV]目的：農業害虫の診断における説明可能性の向上
- 農業生産において，病害虫の早期正確な診断は，収量増加と農薬使用量削減に不可欠である。
- 既存のモデルはベンチマークで高いスコアを出すものの，誤った種名を生成することが多く，診断根拠が不明確である。
- 本研究は，診断の精度と説明可能性を同時に高めるフレームワークを提案し，実用的な診断支援を目指す。
- Agri-CPJは，学習を必要とせず，構造化された形態的キャプション生成とLLMジャッジを用いることで，診断精度を向上させる。
- CDDMBenchにおいて，GPT-5-NanoとGPT-5-miniの組み合わせで，キャプションなしのベースラインと比較して，病害分類で22.7pp，QAスコアで19.5ポイントの改善が確認された。
- AgMMU-MCQsでは，GPT-5-Nanoが77.84%，Qwen-VL-Chatが64.54%の正答率を達成し，同規模のオープンソースモデルと同等以上の性能を示した。
Link: https://arxiv.org/abs/2604.23701
マルチカメラ姿勢調整のための姿勢のみ幾何学的制約 [cs.CV]目的：マルチカメラシステムの姿勢調整手法
- 視覚ナビゲーションや3Dシーン再構成において，マルチカメラシステムは豊富な観測能力を提供する。
- 特徴量の冗長性が計算効率を損なう場合があり，特にBundle Adjustmentで課題となる。
- パラメータ空間から3D点を排除し，効率的な姿勢最適化を実現することを目指す。
- 提案手法は，既存のBundle Adjustment法と比較して計算効率に優れている。
- 姿勢推定の精度を維持，あるいは向上させることが確認された。
- 合成データおよび実データを用いた実験により有効性が示された。
Link: https://arxiv.org/abs/2604.23704
潰瘍性大腸炎における基盤モデルを用いた弱教師あり多施設ナンシー指標スコアリング [cs.CV]目的：潰瘍性大腸炎のナンシー組織学的指標（NHI）スコアリングの自動化
- 潰瘍性大腸炎の臨床試験や日常診療において，組織学的評価は重要な指標である。
- 従来のNHIスコアリングは熟練した観察者による手作業で行われ，時間と労力を要し，観察者間でのばらつきが生じやすい。
- 多施設共同研究における高コストな詳細なアノテーションなしに，弱教師あり学習でNHIスコアリングを可能にすること。
- 基盤モデルを活用した弱教師あり多インスタンス学習（MIL）により，症例レベルおよびスライドレベルのNHIラベルから学習することが可能となった。
- Virchow2などの基盤モデルの選択と解像度が性能に大きく影響し，単純なアンサンブルルールが5段階NHI予測を改善した。
- 本研究は，現実的な多施設環境において，基盤モデルによる弱教師ありMILが，頑健で解釈可能な潰瘍性大腸炎組織学的活動性評価を提供できることを示した。
Link: https://arxiv.org/abs/2604.23706
ZID-Net：単一画像からの除煙のためのゼロ推論拡散事前分離ネットワーク [eess.SY, cs.SY, math-ph, math.MP, physics.app-ph, cs.CV, eess.IV]目的：単一画像からの除煙処理における復元品質と計算効率の両立
- 画像認識において，悪天候や大気汚染による視界の悪化は重要な課題である。
- 既存のCNNは，密で不均質な霞に対して頑健な事前知識を学習することが困難である。
- 拡散モデルの持つ強力な事前知識を，低コストで効率的に活用することを目指す。
- ZID-Netは，拡散による教師信号を推論から分離する新しいフレームワークである。
- 合成データセットRESIDEで40.75dBのPSNRを達成し，実データセットでも既存手法を上回る性能を示した。
- リモートセンシングデータセットStateHaze1kでは3.06dBのPSNR向上を，わずか19.35msの推論時間で実現した。
Link: https://arxiv.org/abs/2604.23709
HeadRouter：大規模音声言語モデルにおけるタスク適応型音声トークンプルーニングのための動的ヘッド重みルーティング [cs.SD, cs.CL]目的：大規模音声言語モデルにおける効率的な推論のための音声トークンプルーニング手法
- 近年の大規模言語モデルの発展は目覚ましいが，計算コストが課題となっている。
- 既存のトークン圧縮手法は，全てのAttentionヘッドを同等に扱うため，最適とは言えない。
- Attentionヘッドの重要性を考慮し，タスクに応じたトークンプルーニングを行うことで，性能劣化を抑制する。
- HeadRouterは，Attentionヘッドの重要性を認識し，重要なトークンを最大限に保持する。
- AudioMarathonおよびMMAU-Proのベンチマークにおいて，最先端の圧縮性能を達成した。
- Qwen2.5-Omni-3BおよびQwen2.5-Omni-7Bにおいて，それぞれ101.8%および103.0%のバニラ平均性能を達成した。
Link: https://arxiv.org/abs/2604.23717
う蝕DETR：歯構造を考慮した事前知識と病変を意識した動的損失洗練によるDETRベースのう蝕検出 [cs.CV]目的：口腔内画像におけるう蝕検出の精度向上
- 歯科医療において，う蝕の早期発見は予防歯科の重要な課題である。
- 既存の深層学習モデルは，口腔内画像中の微細で低コントラストなう蝕病変の検出が困難である。
- 歯の構造的特徴と病変の特性を考慮した検出モデルを開発し，早期発見の精度を高める。
- 本研究で提案するCaries-DETRは，既存の手法と比較して，AlphaDentとDentalAIのデータセットで最先端の性能を達成した。
- 歯構造を意識したクエリ初期化と病変を意識した動的損失洗練により，微細な病変の検出精度が向上した。
- Caries-DETRは，良好な汎化性能とロバスト性を示すことが実証された。
Link: https://arxiv.org/abs/2604.23718
高速道路監視映像におけるファーフールド異常検知のための，ベイジアン推論に基づく焦点を当てたVLM推論 [eess.SY, cs.SY, cs.CV, cs.AI]目的：高速道路監視映像における遠距離の異常検知
- 高速道路の安全管理において，異常検知は事故防止に不可欠である。
- 遠方の微細な異常車両挙動の検知は，多様な状況下で困難である。
- VLMの注意散漫を抑制し，計算コストを削減することで，効率的な異常検知を実現する。
- 提案手法VIBESは，ベイジアン推論に基づき，遠距離異常の検知精度を向上させた。
- VIBESは，異常箇所を空間・時間的に特定し，計算負荷を軽減する。
- 多様な高速道路環境下で，高いリアルタイム性と説明可能性を示し，汎化性能を実証した。
Link: https://arxiv.org/abs/2604.23724
歩行者の意図予測のためのエネルギーに基づく時空間相互作用認識フレームワークESIA [cs.SI, cs.CV, cs.AI]目的：歩行者の意図予測
- 自動運転技術の発展に伴い，歩行者の行動予測は安全性確保の鍵となる。
- 既存手法は，多人数間の相互作用や環境要因の考慮が不十分であり，予測精度と解釈性に課題がある。
- 本研究は，より現実的な相互作用モデリングと論理的な整合性を実現し，予測の信頼性と解釈性を向上させる。
- 提案手法ESIAは，エネルギーベースのCRFモデルを用いて，歩行者と環境を時空間ノードとして統合的に表現する。
- ESIAは，ノードの単項ポテンシャルで個々の意図，エッジの対項ポテンシャルで社会的・環境的相互作用を捉え，シーン全体の整合性を確保する。
- 標準ベンチマーク実験により，ESIAが既存手法を上回り，高い予測性能と解釈性を持つことが示された。
Link: https://arxiv.org/abs/2604.23728
DynProto：分布外検出のための動的プロトタイプ進化 [cs.CV]目的：分布外検出の性能向上
- 画像と言語を組み合わせたモデルの信頼性確保は重要であり，特に未知のデータへの対応が課題である。
- 既存手法では，事前に定義された分布外ラベルセットに存在しないデータに対しては性能が低下する。
- 分布内データのみを用いて，テスト時に動的に分布外プロトタイプを学習することで，この問題を解決する。
- DynProtoは，分布内データとして予測された分布外サンプルが特徴空間でクラスタ化する点に着目し，分布外サンプルを「アンカー」として利用する。
- 粗い分布外パターンの捕捉モジュールと，詳細な分布外パターンの洗練モジュールを導入し，代表的な分布外プロトタイプを生成する。
- ImageNetベンチマークにおいて，誤検知率を11.60%削減し，AUROCを4.70%向上させるなど，既存手法を大きく上回る性能を示した。
Link: https://arxiv.org/abs/2604.23729
リアルタイム通信における音声ディープフェイク検出：RTCFake [cs.SD]目的：リアルタイム通信環境下での音声ディープフェイク検出に関する研究
- 音声合成技術の進歩に伴い，リアルタイム通信における音声ディープフェイクの脅威が増大している。
- 既存の研究はオフライン環境でのシミュレーションが中心で，リアルタイム通信特有の歪みへの対応が課題である。
- 多様なプラットフォームやノイズ条件下での検出性能向上を目指す。
- RTCFakeという大規模なリアルタイム通信向け音声ディープフェイクデータセットを構築した。
- 音素をガイドとした整合性学習(PCL)戦略により，プラットフォームに依存しない表現学習を促進した。
- 提案手法は，プラットフォーム間の汎化性能とノイズ頑健性を大幅に向上させた。
Link: https://arxiv.org/abs/2604.23742
編集したい箇所を指定：領域認識アダプター注入によるマスク不要ローカル画像編集 [cs.RO, cs.CV]目的：マスク不要のローカル画像編集を実現するための，領域認識アダプターフレームワーク
- 拡散モデルは画像生成・編集において高い性能を示すが，局所的な編集において課題が残る。
- 既存の拡散モデルは，編集指示がグローバルに適用され，意図しない領域に影響が及ぶという問題がある。
- この研究は，編集領域を正確に特定し，それ以外の領域への影響を抑制することで，より精密なローカル編集を実現する。
- 提案手法REDEditは，既存の拡散モデルに軽量なアダプターを注入することで，局所編集の精度を向上させる。
- REDEditは，編集指示と領域情報を分離し，空間ゲートを用いてアダプター信号を編集領域に選択的に適用する。
- MagicBrushとEmu-Edit Testの評価において，REDEditは最先端の結果を達成し，マスク不要およびオラクルマスクベースラインを上回った。
Link: https://arxiv.org/abs/2604.23763
Prox-E：プリミティブに基づく抽象化による詳細な3D形状編集 [cs.HC, cs.GR]目的：詳細な3D形状編集のためのフレームワーク
- 3Dコンテンツ制作において，高度な編集技術の重要性が高まっている。
- 2D画像編集モデルを応用した3D編集は，構造的な変更が困難である。
- プリミティブに基づく抽象化により，局所的な構造変化を正確に行うことを目指す。
- 提案手法Prox-Eは，事前学習済みのVLMを用いて，3D形状を構成するプリミティブを編集する。
- 編集されたプリミティブ情報に基づいて，3D生成モデルが形状を修正することで，詳細な編集を実現する。
- 実験結果から，Prox-Eは既存手法と比較して，形状の同一性維持，品質，指示への忠実性のバランスに優れることが示された。
Link: https://arxiv.org/abs/2604.23774
ノイズの多い歴史的地図からアノテーションなしでマレーシアとインドネシアにおける時系列油ヤシマップを作成 [cs.RO, cs.CV, cs.AI]目的：マレーシアとインドネシアにおける2020年から2024年までの10メートル分解能の油ヤシプランテーションマップの生成
- 東南アジアにおいて，経済発展と環境保全のバランスを取る上で，油ヤシプランテーションの正確なモニタリングは不可欠である。
- 既存のプランテーションマップは空間解像度が低い場合が多く，最新の時系列データが不足しており，急速な土地利用変化の監視を妨げている。
- 粗解像度の歴史的ラベルと10メートル画像間の解像度の不一致を解消し，ラベルノイズの影響を軽減することで，油ヤシマップの精度向上を目指す。
- 本研究で提案する深層学習フレームワークは，手動アノテーションなしで，インドネシアとマレーシアの油ヤシプランテーションマップを生成した。
- 2058点の検証ポイントを用いた評価では，2020年，2022年，2024年の全体的な精度はそれぞれ70.64％，63.53％，60.06％であった。
- 分析の結果，油ヤシ被覆面積は2022年にピークを迎え，2024年には減少傾向にあることが示された。また，油ヤシプランテーションが浸水地植生地域に拡大していることが示唆された。
Link: https://arxiv.org/abs/2604.23776