arXiv雑要約

画像・音声 - 2026/04/28 公開

CheXmix：医療画像におけるビジョン言語モデルのための統一的な生成事前学習 [cs.CL, cs.CV, cs.AI]目的：医療画像と放射線レポートのペアから学習する，統一的な早期融合生成モデル
- 医療画像診断では，わずかな手がかりが正確な診断に不可欠であり，高精度なモデルが求められる。
- 既存のマルチモーダル大規模言語モデルは二段階構成で，視覚特徴の歪みが生じる可能性がある。
- 視覚特徴の歪みをなくし，言語モデルの誘導バイアスを活かした共同表現学習を実現する。
- CheXmixは，マスクされた自己エンコーダーとMLLMの強みを組み合わせた二段階の事前学習戦略を採用している。
- CheXpert分類タスクにおいて，高い画像マスキング率でAUROCがCheXagentを8.6%上回る性能を示した。
- 画像補完や放射線レポート生成においても，既存モデルを大きく上回る結果が得られた。
Link: https://arxiv.org/abs/2604.22989
見えにくい，ラベル付けが難しい：微細な視覚現象に対する生成と記号的獲得 [cs.CV, cs.AI]目的：微細な視覚異常の検出における能動学習フレームワーク
- 産業検査において，微細な異常は製品品質を左右するため，効率的な検出が不可欠である。
- 従来の能動学習は，支配的なパターンに偏りやすく，重要な微細な異常を見落とす可能性がある。
- 視覚的な難易度と意味的な網羅性のバランスにより，微細かつ稀な異常の検出率向上を目指す。
- 提案手法GSALは，拡散モデルによる視覚的難易度と，階層的意味的カバレッジを組み合わせることで，異常検知の能動学習を改善する。
- GSALは，再構成誤差やノイズ除去の変動を用いて視覚的に異質なサンプルを優先し，意味グラフを用いて網羅性の低い領域を探索する。
- 実験結果から，GSALはラベル効率と稀少クラスの検出において，既存手法よりも優れていることが示された。
Link: https://arxiv.org/abs/2604.22990
ラベル伝播による半教師ありオブジェクトセグメンテーションを用いた効率的な画像アノテーション [cs.CV, cs.RO]目的：家庭用オブジェクトのセグメンテーション
- 汎用的なサービスロボットの実現には，信頼性の高い物体認識が不可欠である。
- 既存の物体検出器は，少数クラスへの汎化が難しく，完全教師あり学習には多大なアノテーションコストがかかる。
- アノテーションコストを抑えつつ，多くのオブジェクトクラスに対応できるセグメンテーション手法の開発。
- 提案手法は，クラスに依存しないマスク生成と，補完的な基礎モデル埋め込み空間におけるHopfieldネットワークのアンサンブルにより，ラベルを割り当てる。
- 50のオブジェクトクラスに対して，限定的なアノテーションコストで拡張可能であり，RoboCup@Home環境においてデータの60%を自動的にラベル付けできる。
- データセットとコードは公開されており，研究の再現性を高めている。
Link: https://arxiv.org/abs/2604.22992
GenAssets: 潜在空間における実環境3Dアセットの生成 [cs.CL, cs.CV, cs.RO]目的：実環境データからの3Dアセット生成手法
- 自動運転開発において，多感覚シミュレーションは不可欠であり，そのためには高品質な3Dアセットが求められる。
- 既存のニューラルレンダリングに基づく再構成方法は，速度が遅く，原視点に近い範囲でのみレンダリング品質が維持される。
- 実環境の限られた視点や遮蔽物下で得られたデータから，完全かつ多様な3Dアセットを生成することを目指す。
- 提案手法は，遮蔽を考慮したニューラルレンダリングと拡散モデルを組み合わせることで，高品質な潜在空間を構築する。
- その結果，既存の再構成・生成手法と比較して，より多様でスケーラブルなコンテンツ作成が可能となった。
- LiDARとカメラデータを用いて学習した3D拡散モデルが，完全な形状と外観を持つ高品質な3Dアセットを生成する。
Link: https://arxiv.org/abs/2604.23010
サムサイズマイクロコントローラにおけるオンデバイスでのビジョン学習，展開，推論 [cs.LG, cs.CV]目的：15～40米ドルのマイクロコントローラクラスデバイス上での，データ収集，Adam最適化を用いた二層CNN学習，およびリアルタイム推論を含む，完全なエンドツーエンドのオンデバイスビジョン機械学習パイプライン
- 低コストなデバイスでの画像処理の重要性が高まっており，エッジAIへの関心が高まっている。
- クラウドベースのワークフローは，インフラストラクチャが必要であり，計算パイプラインが不透明であるという課題がある。
- この研究は，外部依存関係なしに，マイクロコントローラ上で機械学習ライフサイクル全体を実現することを目指す。
- Seeed Studio ESP32-S3 XIAO ML Kit上で，64x64画像3クラス分類を9分/学習で実現。
- リアルタイム推論は6.3 FPSを達成。低リソース環境での効率的な学習と推論が可能になった。
- バッチレベル勾配蓄積，リサイズルックアップテーブル，重量のエクスポート/優先順位システムなどの工夫により，メモリ制約に対応。
Link: https://arxiv.org/abs/2604.23012
DeepSignature：デジタル署名付きコンテンツ符号化ウォーターマークによる堅牢かつ透明な画像認証 [cs.CR, cs.AI, cs.CV]目的：画像認証の信頼性と透明性の向上
- AI技術の発展により，画像の改ざんが容易になり，信頼性の担保が重要となっている。
- 既存の画像認証技術は，改ざん検知やロバスト性に課題が残されている。
- デジタル署名と深層学習を組み合わせ，改ざん検知可能なウォーターマーク技術を開発する。
- DeepSignatureは，既存の画像フォーマットに適合し，特別な処理を必要としない。
- 実験の結果，DeepSignatureは高い改ざん検知率（ほぼ100%）を示し，画像の信頼性を効果的に検証できることが示された。
- DeepSignatureは，目に見えないウォーターマークを埋め込み，多様な攻撃シナリオに対して堅牢性を持つ。
Link: https://arxiv.org/abs/2604.23016
AmaraSpatial-10K：空間と意味が整合された3Dデータセット - 空間コンピューティングと具現化されたAI向け [cs.CV, cs.AI, cs.LG]目的：空間コンピューティングと具現化されたAIのための3Dデータセット
- 大規模な3Dアセットは存在するものの，実用性に課題が多い。
- 既存の3Dアセットは，スケール，向き，形状，テクスチャに問題があり，AIやロボティクスの利用を阻害している。
- 実用的な3Dアセットの提供を通して，AIやロボティクスの発展に寄与すること。
- AmaraSpatial-10Kは，10,000以上の高品質な3Dアセットを提供し，ダウンストリームタスクでの利用を容易にする。
- テキストベースでの検索精度が大幅に向上し（CLIP Recall@5が0.612 vs 0.181），既存データセットと比較して3.4倍の改善が見られた。
- 物理シミュレーションや具現化されたAIのためのアセットバンク構築に必要な空間的・意味的要件を満たしていることが示された。
Link: https://arxiv.org/abs/2604.23018
ドローン画像による熱帯樹木の種分類におけるスケール間表現ギャップの理解 [cs.CV, cs.LG]目的：熱帯樹木の種分類におけるスケール間表現ギャップの定量化と，その改善策の提案
- 熱帯林は生物多様性の宝庫であり，そのモニタリングは保全活動の根幹をなす。
- ドローン画像を用いた樹木種分類は，種多様性の高さと種間の視覚的類似性から困難である。
- 異なるスケールの画像を利用し，表現ギャップを解消することで，分類精度向上を目指す。
- トップビュー画像とクローズアップ画像において，既存手法の性能評価を行った結果，クローズアップ画像の方が分類性能が高いことが示された。
- 特に希少種において，この性能差は顕著に拡大することが確認された。
- 異なるスケールの画像間の自己教師あり表現アラインメントが，トップビュー画像による種分類の精度向上に有効である可能性が示唆された。
Link: https://arxiv.org/abs/2604.23019
都市洪水観測（UFO）：洪水後の浸水状況に関する手動アノテーションによる学習・検証データセット [cs.CV]目的：洪水後の都市部浸水状況に関する学習・検証データセット
- 都市洪水は世界的に人命やインフラに被害をもたらすため，迅速かつ正確な浸水状況把握が重要である。
- 衛星画像による都市部の浸水状況把握は，空間解像度や取得頻度，雲の影響により困難であった。
- 本研究は，都市部の浸水状況マッピング手法の開発・検証を支援する高品質なデータセットを提供することを目的とする。
- UFOデータセットを用いてセグメンテーションモデルを学習した結果，平均IoUは77.3%を達成した。
- 既存の地表水検知製品（NASA IMPACT，Google Dynamic World）の評価を行った結果，IoUはそれぞれ44.1%，48.1%であった。
- UFOは公開されており，都市部浸水状況マッピング手法の開発・検証に貢献することが期待される。
Link: https://arxiv.org/abs/2604.23066
ピクセルから説明へ：CNN-Transformerアンサンブルによる解釈可能な糖尿病網膜症重症度分類，視覚的説明可能性，そしてVision-Languageモデル [cs.IR, cs.CV, cs.AI]目的：糖尿病網膜症の重症度分類における解釈可能性の向上
- 糖尿病網膜症の早期発見と適切な治療介入は，失明予防に不可欠である。
- 深層学習モデルは高精度だが，その判断根拠が不明確であり，臨床現場での信頼性が課題である。
- 深層学習モデルの予測根拠を可視化し，臨床医が理解しやすい形で提示することを目指す。
- ResNet-50とConvNeXt-Tinyが単独モデルとして高い性能を示し，交差検証QWKはそれぞれ0.919と0.914であった。
- アンサンブル学習は重症度分類の一貫性を向上させ，特に重み付きソフト投票が最も安定した結果を示した（QWK 0.934 +/- 0.017）。
- Grad-CAM++は妥当な局在性を示し，Vision-Languageモデルは重症度に応じた説明を生成したが，臨床的完全性と意味的類似性の間にトレードオフが見られた。
Link: https://arxiv.org/abs/2604.23079
ハイブリッドドメイン知識融合によるポートレートライティングの現実世界への応用 [cs.CV, cs.GR, cs.LG]目的：ポートレートライティングにおけるドメインギャップ，カメラ感度，計算コストの課題解決
- ポートレートライティング技術は，写真や映像制作において重要な役割を担う。
- 既存手法は，データセットのドメイン間の隔たりや計算量の多さから実用化が困難。
- 合成データ，OLATデータ，実データ融合による軽量かつ高性能なモデル構築。
- 本研究では，ハイブリッドドメイン知識融合という新たなパラダイムを提案した。
- 提案手法は，推論速度を6倍から240倍に向上させながら，最先端の画質を維持した。
- 多様なグラウンドトゥルースを持つ大規模合成データセットを構築し，学習パイプラインを支援した。
Link: https://arxiv.org/abs/2604.23094
INSIGHT：幾何学的・意味的階層転送による屋内シーン知能 - 公共の安全のための [cs.CV, cs.ET]目的：公共の安全のための屋内シーン知能の構築
- 屋内環境はGPSのような空間知能インフラが不足しており，緊急時における迅速な状況把握が課題である。
- 屋内環境の学習データ不足と，点群データによる小規模な安全設備の認識精度の低さが課題となっていた。
- 2D画像認識を3D空間に投影することで，学習データ不足の問題を解決し，現場での展開可能な屋内知能の実現を目指す。
- 提案手法INSIGHTは，2D画像理解をRGB-Dデータを用いて3D空間に投影するパイプラインであり，ラベル付き点群とISO 19164準拠のシーングラフを生成する。
- Stanford 2D-3D-Sデータセットを用いた評価により，約10^4倍の圧縮率でシーン情報を伝送可能であり，FirstNet Band~14上で15秒以内に送信できることが示された。
- 2Dから3Dへの意味的転送がラベル付きデータ不足を解消し，シーングラフが現場展開可能な屋内知能を提供する。
Link: https://arxiv.org/abs/2604.23095
自律走行における物体検出に対する物理世界での敵対的パッチの転移性 [cs.CV]目的：自律走行における物体検出に対する敵対的パッチ攻撃の転移性向上
- 深層学習は自律走行の進歩を牽引しており，物体検出は知覚において中心的な役割を担う。
- 敵対的攻撃はこれらのシステムの信頼性と安全性を脅かす深刻な問題であり，特に物理的な敵対的パッチはその中でも強力な攻撃形態である。
- 異なるモデル間の脆弱性を共有する敵対的パッチを生成し，転移性を高めることで，実用的な攻撃への耐性を向上させる。
- 提案手法AdvADは，複数の物体検出モデルを対象とした敵対的パッチを最適化することで，従来の攻撃手法と比較して高い性能と転移性を示す。
- モデルへの貢献度を適応的に調整し，物理的な変動に対するロバスト性を強化することで，多様な条件下でのパッチの効果を維持する。
- デジタルおよび実世界の実験において，AdvADは最先端の攻撃手法を上回り，一貫して優れた性能を発揮する。
Link: https://arxiv.org/abs/2604.23105
ロックインの打破：低データVLA事後学習における操縦性の維持 [cs.RO, cs.CV]目的：低データVLA事後学習におけるロックイン現象の軽減
- 汎用的な視覚言語行動（VLA）ポリシーの応用が広がり，実世界での利用が期待されている。
- 少量データでの事後学習により，ポリシーが学習データに過剰適応し，新しい指示に対応できなくなる問題がある。
- 事後学習時の視覚的接地を維持し，テスト時のコントラストプロンプトガイダンスを用いることでロックインを解決する。
- DeLockは，追加の教師信号やデータ拡張に頼らず，事前学習済みの知識のみを用いてロックインを軽減する。
- シミュレーションと実世界の評価において，DeLockは強力なベースラインを上回り，より多くのキュレーションされたデモンストレーションで学習した最先端の汎用ポリシーに匹敵する性能を示す。
- DeLockは，概念的ロックインと空間的ロックインの両方を効果的に軽減し，新しい指示に対する汎化性能を向上させる。
Link: https://arxiv.org/abs/2604.23121
不完全なテキストガイダンスからの学習：高ノイズラベルによるロバストな長尾視覚認識 [cs.CV, cs.LG]目的：長尾分布かつノイズの多いラベルデータに対するロバストな視覚認識手法
- 実世界のデータは長尾分布を示すことが多く，深層学習モデルの性能低下を招くため，その改善が重要である。
- 既存手法では，高ノイズ環境下におけるラベルと画像の深刻な不一致を十分に考慮できていない。
- ラベルに含まれるカテゴリ情報を活用し，ラベルと画像の不一致を修正することで，よりロバストな認識を目指す。
- 提案手法WTSは，合成データと実データにおいて，特に高ノイズ条件下で優れた性能を示すことが確認された。
- WTSは，事前学習済みの視覚言語モデルのクロスモーダルアライメントを活用し，ラベルノイズの影響を受けにくい。
- テキスト予測ラベルと観測ラベルの不一致度合いによってWTSの活性化を制御することで，効果的な学習を実現する。
Link: https://arxiv.org/abs/2604.23125
脳腫瘍MRI分類のためのCNN-ViT融合：適応的注意ゲートを備えたハイブリッド深層学習モデル [cs.CY, cs.HC, cs.CV, cs.AI, q-bio.QM]目的：脳腫瘍MRI画像の分類
- 早期発見が重要であり，医療画像からの特徴抽出は困難である。
- 画像の特徴抽出において，局所的特徴と大域的依存性の両方を捉えることが課題である。
- 局所的特徴と大域的特徴を効果的に融合し，分類精度を向上させる。
- 提案モデルは，テスト精度97.60%，適合率97.30%，再現率97.50%，F1スコア97.40%を達成した。
- AUCのmacro平均は0.9946であり，単一のCNNやViT，既存の融合手法を上回る結果となった。
- 動的な特徴重み付けが，医療画像分類において有効であることが示された。
Link: https://arxiv.org/abs/2604.23137
UpstreamQA：ビデオ質疑応答タスクにおける明示的な推論のためのモジュール型フレームワーク [eess.SY, cs.SY, cs.CV, cs.AI]目的：ビデオ質疑応答における明示的な推論コンポーネントの解明と評価
- ビデオ質疑応答は，視覚的，時間的，言語的情報を統合的に処理する必要があり，AI研究の重要な課題である。
- 既存のマルチモーダルモデルは推論過程が不透明で，複雑な推論を正確に行うことが困難であるという問題がある。
- 本研究は，明示的な推論を導入することで，ビデオ質疑応答の性能と解釈可能性を向上させることを目指す。
- UpstreamQAは，ビデオのオブジェクト識別とシーンコンテキスト生成を事前に行うことで，ダウンストリームのビデオ質疑応答モデルへの情報伝達を促進する。
- 実験結果から，明示的な推論の導入は，特定の条件下でビデオ質疑応答の性能と解釈可能性を大幅に向上させることが示された。
- ただし，ベースラインの性能が高い場合には，性能が低下する可能性もあることが示唆された。
Link: https://arxiv.org/abs/2604.23145
BSViT：表現力と効率的な視覚表現学習のためのバーストスパイクビジョンTransformer [cs.CV]目的：視覚表現学習のための新たなフレームワーク
- エネルギー効率の高い視覚学習の実現が求められている。従来の深層学習は消費電力が大きい。
- 既存のスパイクビジョンTransformerは，バイナリスパイク符号化の情報容量の制約や，グローバルな自己注意による密なトークン間の相互作用が課題である。
- バイナリとバーストスパイク符号化を組み合わせ，効率的なスパースな自己注意機構を開発することで，表現力とエネルギー効率を向上させる。
- 提案手法BSViTは，既存のスパイクTransformerと比較して，精度を向上させつつ，エネルギー効率を維持している。
- DBSSAメカニズムにより，表現容量の強化と，符号化されたスパイク間の豊かな相互作用を実現している。
- パッチ隣接マスク戦略により，スパイク活動を削減し，計算オーバーヘッドを低減している。
Link: https://arxiv.org/abs/2604.23165
富のモニタリング改善のための衛星基盤モデル [cs.CY, cs.CV]目的：富の広範囲なマッピングと動的な測定
- 貧困統計は社会政策を導く上で重要であり，経済発展の評価に不可欠である。
- 従来の調査は高コストで頻度が低く，データが古くなりがちであるという課題がある。
- 衛星画像を用いた，より低コストで高精度な富のモニタリング手法を確立すること。
- Tempovは，300万組のバイテンポラルLandsatペアで事前学習された衛星基盤モデルである。
- 疎な調査ラベルへのパラメータ効率的なファインチューニングにより，高解像度の富のマッピングが可能となる。
- ラベル数が少ない状況下でも高い精度を達成し，従来のニューラルネットワークや地理空間基盤モデルを上回る。
Link: https://arxiv.org/abs/2604.23166
反発エネルギーを用いたCIE Lab色画像における複雑な境界抽出のためのトポロジー固定形状勾配フレームワーク [cs.CV, math.AP]目的：複雑な境界を持つCIE Lab色画像のセグメンテーション手法
- 画像処理において，対象物を正確に区分することは，様々な応用分野で不可欠である。
- 複雑な形状や境界を持つ画像のセグメンテーションは，既存手法では困難な場合が多い。
- 境界線の自己交差を抑制しつつ，トポロジーを制御したセグメンテーションを実現すること。
- 本手法は，形状勾配と反発関数を組み合わせたハイブリッドなアプローチを採用している。
- 複雑な構造を持つ画像や天体画像を含む様々な画像に対して有効なセグメンテーションが可能であることが示された。
- セグメンテーションにおいて，境界のトポロジー制御と自己交差の抑制が実現された。
Link: https://arxiv.org/abs/2604.23167
同一のアイデンティティ，多様な役割：ビデオ状況認識の向上のためのマルチモーダルエンティティ共参照 [cs.CV]目的：ビデオ状況認識におけるエンティティ共参照
- ビデオの内容理解は，AI技術の発展において不可欠であり，その応用範囲は広い。
- ビデオ内のエンティティ（人や物）の役割の一貫性がないと，状況の理解が困難になる。
- マルチモーダルな情報を用いて，エンティティの役割を正確に認識し，状況理解の精度向上を目指す。
- 提案手法CineMECは，イベントの役割記述と視覚的なエンティティクラスタを統合することで，一貫性を高める。
- CineMECは，明示的なグラウンディング supervision なしで学習可能であり，視覚的なグラウンディングとキャプション生成の相乗効果を活用する。
- VidSituデータセットを拡張し，CineMECの有効性を評価した結果，キャプション生成(CIDEr +2.5%, LEA +7%)，視覚的グラウンディング(HOTA +18%)が改善された。
Link: https://arxiv.org/abs/2604.23173
DyABD：動的MRIにおける腹筋領域分割ベンチマーク [cs.CV, cs.AI]目的：動的MRI画像からの腹筋領域分割に関するベンチマークデータセット
- 腹部ヘルニアは再発率が高く，その原因究明には正確な腹筋の画像解析が不可欠である。
- 既存の医療画像分割技術では，患者の運動に伴う腹部の解剖学的変化への対応が課題であった。
- 本研究は，腹筋の分割技術の向上と，腹部ヘルニア再発率の低減に貢献することを目指す。
- DyABDは，腹筋領域分割を対象とした初のデータセットであり，運動時の動的MRI画像を提供する。
- 既存の分割モデルの評価の結果，性能向上の余地が大きく，Dice係数は0.82程度であった。
- 本研究は，医療画像分割分野の進捗状況を明確にし，新たなベンチマークを提示する。
Link: https://arxiv.org/abs/2604.23187
アナログ回路検索のためのクロスモーダル表現学習：AnalogRetriever [cs.CV, cs.AI]目的：アナログ回路検索のためのクロスモーダル表現
- アナログ回路設計において，既存のIPの再利用は不可欠である。
- SPICEネットリスト，回路図，機能記述など，異種表現間の検索が困難である。
- クロスモーダルな意味関係を捉えた検索システムの構築を試みる。
- AnalogRetrieverは，回路図と記述をVision-Languageモデル，ネットリストをポート認識型グラフ畳み込みネットワークでエンコードする。
- 3つのモダリティを共有埋め込み空間にマッピングすることで，高いRecall@1(75.2\%)を達成した。
- AnalogCoderに組み込むことで，機能的合格率を向上させ，これまで解決できなかったタスクも可能にした。
Link: https://arxiv.org/abs/2604.23195
人間模倣音声検出のためのスペクトロ・テンポラルモジュレーション表現フレームワーク [eess.SY, cs.SY, cs.SD, cs.CL]目的：人間模倣音声の検出
- 音声認証の安全性確保は重要であり，特に巧妙な模倣音声による攻撃への対策が求められている。
- 既存の音響特徴量では，人間が生成する自然な模倣音声の検出が困難である。
- 聴覚知覚に基づくスペクトロ・テンポラルモジュレーション表現を用いて，模倣音声の検出精度向上を目指す。
- スペクトロ・テンポラルモジュレーション表現が，人間模倣音声検出において高い有効性を示すことが確認された。
- セグメンタルSTM表現は，人間聴覚のパフォーマンスを上回る検出精度を達成した。
- 聴覚知覚に着想を得たスペクトロ・テンポラルモデリングは，模倣音声攻撃の検出と音声認証の堅牢性向上に役立つ可能性が示された。
Link: https://arxiv.org/abs/2604.23241
フレーム間特徴量差分による微表情認識に基づくアバター指紋認証 [cs.CV]目的：アバター指紋認証の性能向上
- 顔再演技術の不正利用を防ぐ上で，誰が操作しているかを特定する指紋認証が重要である。
- 既存手法は固定的なランドマーク抽出段階があり，モデルの最適化を阻害している。
- 生動画フレームから直接学習可能な，微表情を考慮したシステムを構築し，指紋認証の精度向上を目指す。
- 提案手法は，フレーム間の特徴量差分に着目することで，時間的に安定した外見情報を削減し，運転者特有の動きを強調する。
- NVFAIRを用いた実験により，時間的動きが識別性能の大部分を占め，生の外見特徴が識別能力を低下させることが確認された。
- 外部処理なしで，NVFAIRにおいてAUC 0.877を達成し，ランドマークに基づく既存手法と同等またはそれ以上の性能を示す。
Link: https://arxiv.org/abs/2604.23247
MotionHiFlow：階層的フローマッチングによるテキストからのモーション生成 [cs.CV]目的：テキストに連動した3D人体モーションの生成
- モーション生成は，バーチャルリアリティやロボット工学など，様々な分野で重要な役割を担っている。
- 既存手法は単一の時間スケールで動作するため，セマンティックな整合性と時間的な一貫性に課題があった。
- MotionHiFlowは，階層的なアプローチにより，これらの課題を克服し，より自然で詳細なモーション生成を目指す。
- 本研究では，階層的フローマッチングフレームワークMotionHiFlowを提案し，粗いモーションから徐々に詳細を加えていく手法を実現した。
- 異なる時間スケール間の遷移プロセスを導入することで，モーションの時間的な一貫性を確保し，ノイズの一貫性を維持する。
- HumanML3DおよびKIT-MLのベンチマークにおいて，最先端の性能を達成し，提案手法の有効性を実証した。
Link: https://arxiv.org/abs/2604.23264
LatentBurst：ヘキサデカ・ベイヤーパターンCIS画像の高速かつ効率的なマルチフレーム超解像 [cs.CV]目的：ヘキサデカ・ベイヤーパターンCIS画像に対するマルチフレーム超解像ネットワークの設計
- 近年，モバイルデバイスの高画質化ニーズが高まり，高解像度画像処理技術が重要視されている。
- ヘキサデカ・ベイヤーパターンは色間距離が大きく，従来の補間手法では精度が低下しやすい。
- 大規模な動きやカメラのブレによる画像のぼやけやゴーストノイズを抑制し，リアルタイム処理を実現する。
- 提案手法LatentBurstは，潜在特徴空間でのピラミッドアライン＆フュージョンにより，大規模な動きに対処する。
- 効率的なUNetベースの構造と知識蒸留により，モバイルデバイス上での高速処理を可能にする。
- 実験結果から，提案手法が既存技術と比較して高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.23268
ドメインシフト下におけるロバストな白血球分類のための階層的アンサンブル推論パイプライン [cs.CV]目的：ドメインシフト下での白血球分類におけるロバスト性の向上
- 白血球の自動分類は，白血病のスクリーニングにおいて重要であり，効率的な診断を可能にする。
- 染色プロトコルやスキャナの違い等によるドメインシフトが，モデルの性能低下を引き起こす。
- ドメインシフトに強く，特に芽球など臨床的に重要な亜型の正確な識別を目指す。
- 提案手法は，特徴バンクとDinoBloomバックボーンを活用した階層的アンサンブルパイプラインである。
- 各レベルでk近傍法（kNN）による検索を行うことで，単一の決定への過度な依存を軽減している。
- WBCBenchデータセットを用いた評価において，マクロF1スコアで上位10位にランクインした。
Link: https://arxiv.org/abs/2604.23271
SemiGDA：半教師あり医療画像セグメンテーションのための生成的双分布アラインメント [cs.CV]目的：半教師あり医療画像セグメンテーションにおける性能向上
- 医療画像セグメンテーションは診断・治療において重要であり，高精度な自動化が求められている。
- ラベル付きデータの不足とアノテーションコストが高く，学習が困難であるという課題がある。
- 少ないラベルデータでもロバストなセマンティック表現学習と適応的なモデリングを実現すること。
- 提案手法SemiGDAは，特徴分布とセマンティック分布のアラインメントにより，セマンティック学習を強化し，シーンへの適応性を高める。
- Dual-distribution Alignment Module (DAM)は，画像とマスクの異なるエンコーダーを用いて潜在空間での分布アラインメントを強制する。
- Consistency-Driven Skip Adapter (CDSA)は，スキップ接続を介した多規模特徴の融合と，セマンティックアラインメントを強化する。
Link: https://arxiv.org/abs/2604.23274
軽量かつ実用的なPDFビジュアル要素の解析 [cs.CV, cs.AI, cs.CL]目的：PDF文書におけるビジュアル要素の正確な抽出
- PDFは図表やフォームなど重要な視覚情報を含み，文書理解やRAGに不可欠である。
- 既存のPDF解析ツールでは複雑な視覚情報を認識できず，不要な要素や断片化が発生しやすい。
- 正確な要素抽出とキャプションの関連付けにより，RAGの性能向上を目指す。
- 提案手法は，一般的なベンチマークデータセットと社内データで96%以上の要素検出精度を達成した。
- キャプションの関連付け精度は93%に達し，最先端の解析ツールや大規模モデルを凌駕した。
- RAGの前処理として活用することで，遅延を2倍以上削減し，性能を大幅に向上させた。
Link: https://arxiv.org/abs/2604.23276
少ないラベルデータを用いたマルチモーダル人体活動認識のためのコントラスト学習 [cs.LG, cs.CV]目的：少ないラベルデータ下での有効なマルチモーダル認識
- 人体活動認識は，様々な応用分野の基盤技術であり，その重要性が高まっている。
- マルチモーダルセンシングでは，モダリティ間のデータ異質性やラベル不足が課題となっている。
- 実世界での応用を可能にするため，ラベルが少ない状況での認識精度向上を目指す。
- 提案手法CLMMは，CNN-DiffTransformerエンコーダを用いて，モダリティ間の共通情報を効果的に捉える。
- ハードポジティブサンプル重み付けアルゴリズムにより，共有学習を強化し，勾配伝播を促進する。
- 公開データセットを用いた実験により，最先端手法と比較して認識精度と収束性能が大幅に向上することが示された。
Link: https://arxiv.org/abs/2604.23281
ポーズと意味のギャップを埋める：テキストに基づく人物異常検索のためのカスケードフレームワーク [cs.CV, cs.MM]目的：テキストによる人物異常検索
- 監視映像の解析は，犯罪捜査や安全管理において重要な役割を担う。
- 従来のポーズベースの手法では，意味的に異なる行動が類似した骨格構造を持つため，検索精度が課題であった。
- 本研究は，効率性と意味推論のバランスにより，人物異常検索の性能向上を目指す。
- 提案手法であるSSDCフレームワークは，軽量なモデルによる粗い検索と，マルチエージェントによるセマンティック検証の2段階で検索を行う。
- SSDCは，検出者，分析者，ライターから構成される「捜査チーム」を活用し，効率的なフィルタリングと証拠抽出，意味合成を実現する。
- PABベンチマークにおける実験により，SSDCが最先端の性能を達成し，効率性とセマンティック推論のバランスに優れることが示された。
Link: https://arxiv.org/abs/2604.23282
深層ニューラルネットワークにおけるエラーパターンの予測に向けて [cs.NI, cs.CV, cs.AI, cs.LG, cs.MM]目的：深層ニューラルネットワークのエラー予測
- 深層学習はマルチメディア計算において不可欠な要素となっている。
- 深層学習システムの誤り予測は，誤り率の低減に比べて研究が少ない。
- 深層学習システムの失敗予測という未開拓な問題への対処を目指す。
- 提案手法MetaErrは，基盤モデルの性能を観察することで，入力データに対する正誤を予測する。
- MetaErrは，基盤モデルのアーキテクチャや学習パラメータに依存しない。
- 半教師あり学習における性能向上と，ベンチマークデータセットでの優位性が確認された。
Link: https://arxiv.org/abs/2604.23289
リモートセンシング画像変化キャプション生成のためのセマンティックアンカリング制約と二重粒度曖昧性解消 [cs.CV, cs.LG]目的：リモートセンシング画像変化の記述
- 地球観測技術の発展により，変化検出の重要性が増している。
- 既存手法は，視点，スケール，事前知識の曖昧性を十分に扱えていない。
- 曖昧性解消による，より正確な変化キャプション生成を目指す。
- 提案手法STANDは，セマンティックアンカリング制約と二重粒度曖昧性解消により，変化キャプション生成の精度を向上させた。
- 時間的特徴表現の正則化により，信頼性の高い特徴基盤を確立した。
- 大局的文脈集約と周波数焦点型注意機構により，空間的曖昧性を解消した。
Link: https://arxiv.org/abs/2604.23309
ノイズの多いプロンプトからの学習：SAMを用いたロバストなセグメンテーションのためのサリエンシーガイド付きプロンプト蒸留 [cs.CV]目的：SAMを用いたロバストなセグメンテーションのためのプロンプト蒸留
- 臨床診断やモニタリングにおいてセグメンテーションは不可欠であり，その精度が医療現場での応用を左右する。
- 既存のファウンデーションモデルは，医療画像における正確なプロンプトの存在に依存しており，ノイズの多いプロンプトに弱いという課題がある。
- 不確かなプロンプトからでも信頼性の高いセグメンテーション結果を得るための枠組みを構築し，臨床現場でのSAMの活用を目指す。
- 提案手法SPDは，データ駆動型の解剖学的事前知識を学習し，サリエンシーマップを用いてノイズの多いプロンプトを強化する。
- 文脈的プロンプト蒸留により，隣接スライスからの情報を活用し，専門家による推論に匹敵する一貫性のあるプロンプトセットを生成する。
- 複数のMRIおよびCTベンチマークにおいて，SPDは既存手法や教師あり学習ベースラインを凌駕し，領域ベースおよび境界ベースの評価指標で大きな改善を示した。
Link: https://arxiv.org/abs/2604.23314
KAConvNet：視覚認識のためのコルモゴロフ・アルノルド畳み込みネットワーク [cs.CV]目的：視覚認識におけるコルモゴロフ・アルノルド畳み込みネットワークの提案
- 深層学習の発展とコンピュータビジョンの重要性が高まっており，高性能なモデルが求められている。
- 従来の畳み込みニューラルネットワークはパラメータ数が多く，解釈可能性に課題がある。
- コルモゴロフ・アルノルド表現定理に基づき，解釈性と効率性を両立する新たなネットワーク構造を開発する。
- 本研究で提案するKAConvNetは，既存のKANと畳み込みを組み合わせた手法を上回り，ViTやCNNと同等の性能を達成した。
- KAConvNetは，コルモゴロフ・アルノルド表現定理と畳み込みを深く統合し，より高い解釈可能性を実現している。
- Bスプライン曲線の計算効率と過学習の問題を改善し，効率的なネットワークアーキテクチャを設計した。
Link: https://arxiv.org/abs/2604.23320
クロスモーダル注意とハイブリッド損失によるロバストな音声-テキスト検索 [cs.IR, cs.CL, cs.SD]目的：音声とテキスト間の意味的整合性
- マルチメディア検索，アクセシビリティ，監視などへの応用が期待され，重要性が増している。
- 従来のコントラスト学習や大規模バッチ学習に依存し，長尺でノイズの多い音声への対応が課題である。
- 弱ラベル化された音声データに対してもロバストな検索システムを構築することを目指す。
- 提案手法は，Transformerに基づく射影，線形マッピング，双方向注意を組み合わせたクロスモーダル埋め込み洗練モジュールを用いる。
- ハイブリッド損失関数は，コサイン類似度，L1損失，コントラスト損失を融合することで，小規模バッチでも安定した学習を可能にする。
- 沈黙認識チャンキングと注意ベースのプーリングにより，長尺かつノイズの多い音声データ（SNR 5〜15）を効率的に処理できる。
Link: https://arxiv.org/abs/2604.23323
EAD-Net：空間的洗練と時間的整合性を備えた感情認識型トークングヘッド生成 [cs.CV, cs.AI, eess.IV]目的：感情認識型トークングヘッド動画の生成
- 人間との自然なコミュニケーションを実現するため，表情豊かな動画生成が重要である。
- 既存手法では，感情表現が不十分であったり，口パクの正確性が損なわれたりする。
- 口パク精度と感情表現のバランスを取り，時間的な一貫性を向上させる。
- 提案手法EAD-Netは，SyncNetとTREPAにより，マルチモーダル融合による口パクのずれを抑制する。
- STDAメカニズムにより，長尺動画における複雑な時空間的依存関係を捉え，時間的一貫性を改善する。
- HDTFおよびMEADデータセットでの実験により，既存手法を上回る口パク精度，時間的一貫性，感情精度を達成した。
Link: https://arxiv.org/abs/2604.23325
膝関節症重症度分類のための半教師あり学習と自己教師あり学習の階層的融合 [cs.CV]目的：膝関節症重症度分類の精度向上
- 膝関節症は，慢性的な痛みや運動機能低下を引き起こす変性関節疾患であり，早期評価が重要である。
- 既存手法は，大量のラベル付きデータに依存し，クラス不均衡やノイズに弱いという課題がある。
- 少ないラベルデータでも，ロバストな重症度分類を可能にすることを目指す。
- 提案手法H-SemiSは，半教師あり学習と自己教師あり学習を組み合わせ，膝X線画像から重症度を分類する。
- H-SemiSは，重症度分類を複数の二値分類問題に分解することで，クラス不均衡の影響を軽減する。
- 実験結果から，H-SemiSは複数の評価指標において既存手法を上回り，優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.23335
オープンボキャブラリ物体検出における階層的一貫性と偏りのないオブジェクトネスの探求 [cs.CV]目的：オープンボキャブラリ物体検出のための擬似ラベル生成フレームワーク
- 既存の物体検出器は，学習時に見たクラスに限定されるため，未知の物体認識が課題である。
- 既存のOVD手法は，画像レベルの予測に最適化されたVLMの限界から，不正確なクラスラベルが生じやすい。
- VLMの課題と，ベースクラスに偏ったRPNの信頼性の低さを解決し，未知クラスの検出精度向上を目指す。
- 提案手法では，階層的信頼度キャリブレーション(HCC)により，クラス，スーパーカテゴリ，サブカテゴリ間で一貫性を評価し，信頼性の高いクラスラベル推定を実現した。
- LoCLIPは，オブジェクトネス・トークンを導入することでRPNのベースクラスへの偏りを軽減し，未知クラスの信頼性の高いオブジェクトネス推定を可能にした。
- COCOおよびLVISにおける実験により，提案手法が最新技術を上回り，その有効性が確認された。
Link: https://arxiv.org/abs/2604.23344
EmoTrans：マルチモーダルLLMにおける感情推移の理解，推論，予測に関するベンチマーク [cs.CL, cs.HC, cs.CL, cs.CV, cs.AI]目的：マルチモーダル動画における感情のダイナミクス理解の評価
- 社会ロボットや人間コンピュータインタラクション等の応用において，人間の感情理解は不可欠である。
- 既存のベンチマークは感情理解を静的な認識問題として捉えており，感情の動的な変化を評価できていない。
- 感情が時間的，状況的に変化する過程を理解し，予測する能力を評価することを目指す。
- EmoTransは，1000件の動画クリップと3000以上の質問応答ペアから構成される感情ダイナミクス理解のベンチマークである。
- 最新のMLLM18モデルを評価した結果，粗粒度の感情変化検出はある程度可能だが，詳細な感情のダイナミクスモデリングは困難であることが示された。
- 特に複数人物が登場する複雑な状況下での理解が難しく，推論能力の向上は必ずしも性能向上に繋がらないことがわかった。
Link: https://arxiv.org/abs/2604.23348
医療画像解析における効率的なモデル圧縮のための階層空間チャネルクラスタリング [cs.CV, stat.ML]目的：医療画像解析におけるCNNの効率的なモデル圧縮手法
- 医療画像解析において，CNNの高性能化に伴い，計算資源の制約が課題となっている。
- 既存の低ランク圧縮法は，空間的冗長性とチャネル冗長性を個別に処理するため，十分な圧縮効果が得られない場合がある。
- CNNの特徴マップ内の局所構造を考慮した，空間・チャネル両面からの圧縮手法を開発し，効率的なモデル圧縮を実現する。
- 提案手法は，AlexNetベースの脳腫瘍MRI分類モデルにおいて，FLOPsを81.1%削減し，推論速度を1.38倍向上させた。
- また，分類精度を87.76%から89.80%に向上させ，特に髄膜腫などの難しいクラスの性能も改善した。
- ハイパーパラメータのトレードオフ分析により，圧縮率と予測性能のバランスを調整可能なPareto最適解が得られた。
Link: https://arxiv.org/abs/2604.23375
V-GRPO：ノイズ除去生成モデルのオンライン強化学習は，あなたが考えるよりも容易である [cs.LG, cs.CV]目的：ノイズ除去生成モデルと人間の選好または検証可能な報酬との整合
- 生成モデルの性能向上は，画像生成や自然言語処理など，様々な応用分野において重要である。
- 生成モデルの報酬最適化は，尤度の計算が困難であり，効率的な学習が課題となっていた。
- 拡散モデルのELBOを用いた報酬最適化を安定化・効率化し，MDPベースの手法を上回る性能を実現する。
- 提案手法V-GRPOは，ELBOベースの代理報酬とGRPOアルゴリズムを統合することで，学習の安定性と効率を向上させる。
- V-GRPOは，実装が容易であり，事前学習の目的に合致し，MDPベースの手法の限界を克服する。
- テキストから画像への合成において最先端の性能を達成し，MixGRPOやDiffusionNFTと比較して，それぞれ2倍および3倍の速度向上を実現した。
Link: https://arxiv.org/abs/2604.23380
イベントカメラを用いたキーポイントベースの動的物体6自由度姿勢追跡 [cs.CV, cs.RO]目的：動的物体の6自由度姿勢追跡手法
- ロボットの精密な操作には，正確な物体姿勢推定が不可欠である。
- 従来のカメラでは，動的な物体に対してモーションブラー等の課題があった。
- イベントカメラを活用し，高精度かつロバストな姿勢追跡を実現する。
- イベントストリームから生成される時間表面に対し，キーポイント検出ネットワークを構築した。
- イベントの極性，空間座標，及びキーポイント近傍のイベント密度を用いて連続的なキーポイント追跡を実現した。
- 2Dキーポイントと3Dモデルキーポイント間のハッシュマッピングとEPnPアルゴリズムにより，6自由度姿勢を推定した。
Link: https://arxiv.org/abs/2604.23387
幾何構造に基づく系列モデリングによる効率的なセマンティックセグメンテーション [cs.CV]目的：効率的なセマンティックセグメンテーションの実現
- セマンティックセグメンテーションは，画像認識の重要な課題であり，自動運転や医療画像解析などに不可欠である。
- 高性能なセグメンテーションモデルは計算コストが高く，リソースの限られた環境での利用が困難である。
- 幾何構造の情報を活用することで，計算効率を維持しつつセグメンテーション精度を向上させる。
- 提案手法DGM-Netは，大規模な事前学習や重いバックボーンスケーリングに頼らず，高いセグメンテーション精度を達成した。
- Cityscapesテストセットにおいて82.3%のmIoUを達成し，限られたハードウェア環境下でも安定した性能を維持する効率性と実用性を示した。
- SSMベースのアーキテクチャに幾何的ガイダンスを組み込むことが，効率的でリソースに優しいセマンティックセグメンテーションの方向性となることを示した。
Link: https://arxiv.org/abs/2604.23399
レイヤー削除に基づくCNNの高速学習：Learn&Drop [cs.HC, cs.RO, cs.CV, cs.AI, cs.NE]目的：深層畳み込みニューラルネットワークの学習効率向上
- 深層学習は画像認識等の分野で高性能だが，学習に膨大な計算資源が必要である。
- 既存手法では推論時圧縮や逆伝播計算量の削減が中心で，訓練時の計算コスト削減は課題である。
- 訓練時の順伝播における計算量を削減し，学習速度を向上させることを目指す。
- 提案手法により，MNIST，CIFAR-10，Imagenetteでの学習時間が大幅に短縮された（半分以上）。
- VGG-11ではFLOPsが17.83%，ResNet-152では83.74%削減され，効果が確認された。
- 逐次的にデータが到着する状況など，ファインチューニングやオンライン学習において特に有効である。
Link: https://arxiv.org/abs/2604.23403
プッシュアップベンチ：あなたのVLMは腕立て伏せの回数を数えるのが苦手 [cs.IR, cs.HC, cs.CV, cs.AI]目的：反復回数のカウント評価のためのベンチマークデータセット
- 動画理解の分野では，動画の内容を認識するだけでなく，時間的な変化を正確に把握することが重要である。
- 大規模なビジョン言語モデルは動画の内容認識は得意だが，動画内の反復回数を正確に数えることが難しい。
- 本研究では，VLMの反復回数カウント能力を評価し，時間的推論能力の向上を目指す。
- 新しいベンチマークデータセット「PushupBench」を構築し，VLMの腕立て伏せ回数カウントの性能を評価した。
- 最先端モデルの正答率は42.1%にとどまり，オープンソースモデルは6%程度であった。
- 回数カウントの学習が，MVBenchやPerceptionTestなどの他の動画理解タスクへの汎化能力向上に繋がることが示された。
Link: https://arxiv.org/abs/2604.23407
比較融合分析を用いたビデオ行動認識のための異質な二ストリームフレームワーク [cs.CL, cs.CL, cs.CV]目的：ビデオ行動認識における異質な二ストリームフレームワークの性能評価
- ビデオ行動認識は，監視システムやヒューマンコンピュータインタラクションなど，様々な応用分野において重要である。
- 従来の二ストリームネットワークは，RGB画像と光流画像に対し，同じ畳み込みバックボーンを使用しており，それぞれの特性を十分に活用できていない。
- 本研究では，RGBと光流画像に適した異なるバックボーンを使用することで，各モダリティの特性を活かし，より高精度な行動認識を目指す。
- RGBストリームにViT-Tiny/16，光流ストリームにMobileNetV2を使用するDualStreamHybridを提案した。
- UCF11データセットでは，クロスアテンション融合が98.12%の精度を達成し，RGBのみのViT-Tinyの95.94%を上回った。
- UCF50データセットでは，重み付き融合が96.86%の精度を達成し，データセット規模によって最適な融合戦略が異なることが示唆された。
Link: https://arxiv.org/abs/2604.23415
非IID連邦学習における適応量子化と差分プライバシーによるプライバシーと通信効率の向上 [cs.CV, cs.LG]目的：非IIDデータ環境下における連邦学習のプライバシー保護と通信効率の改善
- データ共有なしにモデルを共同学習する連邦学習は，プライバシー保護の観点から重要性が高い。
- デバイス間の通信速度のばらつきがボトルネックとなり，通信量の削減が課題である。
- 差分プライバシーと適応量子化を組み合わせ，プライバシーと通信効率の両立を目指す。
- 適応量子化により，MNISTでは最大52.64%，CIFAR10では45.06%の通信データ量を削減した。
- 医療画像データセットでも31%から37%の通信データ量の削減を達成し，モデル精度を維持した。
- ラプラスDPを使用することで，ガウスDPよりもタイトなプライバシー保証を実現した。
Link: https://arxiv.org/abs/2604.23426
Sphere-Depth：球面カメラ姿勢変化に対する深度推定手法のベンチマーク [cs.CV, cs.AI]目的：球面カメラ姿勢変化を伴う深度推定モデルの頑健性評価
- ロボットナビゲーションや没入型シーン理解において，360度ビジョンにおける信頼性の高い深度推定は不可欠である。
- 実世界のロボットプラットフォームでは，意図しないカメラ姿勢の変化や等矩形投影の幾何学的歪みが，深度推定の精度に悪影響を及ぼす。
- 本研究は，これらの姿勢変化が深度推定モデルに及ぼす影響を定量的に評価し，モデルの頑健性を向上させることを目指す。
- Sphere-Depthベンチマークを用いることで，様々な姿勢変化下での深度推定モデルの性能を再現性よく評価できることが示された。
- Depth Anythingを含む複数のモデルにおいて，カメラ姿勢の変化により性能が著しく低下することが確認された。
- 提案された深度較正に基づく誤差評価プロトコルは，モデル間の公平な比較を可能にし，性能評価の信頼性を高める。
Link: https://arxiv.org/abs/2604.23432