arXiv雑要約

画像・音声 - 2026/04/06 公開

骨格ベース歩行認識のための明示的な時間周波数ダイナミクス [cs.CV]目的：骨格ベース歩行認識における時間周波数ダイナミクスの活用
- 歩行は生体認証の一種であり，セキュリティや医療分野での応用が期待されるため。
- 従来の骨格ベースの手法は空間的特徴に偏り，外観変化に弱いという課題があった。
- 時間周波数ダイナミクスを取り入れることで，外観変化にロバストな歩行認識を実現する。
- 提案手法は，関節速度の時間周波数変換に連続ウェーブレット変換(CWT)を用いることで，多スケールな特徴を抽出する。
- 抽出された特徴は軽量な多スケールCNNで学習され，既存の骨格バックボーンに容易に組み込むことができる。
- CASIA-Bデータセットにおいて，既存の骨格バックボーンと組み合わせることで，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.03002
長期的操作のための優位性報酬モデリング [cs.RO, cs.AI, cs.CV]目的：長期的ロボット操作における報酬モデリング手法
- ロボット操作は自動化が難しく，人間の支援が必要な作業が多い。効率化が求められている。
- 強化学習では，報酬が疎であるため，ロボットがどのように行動すれば良いか学習しづらい。
- 人間の介入を最小限に抑えつつ，効率的にロボットの行動を学習させることを目指す。
- 提案手法ARMは，絶対的な進捗ではなく相対的な優位性を推定することで，より効率的な学習を可能にする。
- ARMは，Progressive, Regressive, Stagnantの三段階ラベル付け戦略により，人間の負担を軽減しつつ高い精度を維持する。
- タオル折りタスクにおいて，99.4%の成功率を達成し，既存手法を上回る安定性とデータ効率を示す。
Link: https://arxiv.org/abs/2604.03037
煙劣化画像からの新規視点合成のための多段階手法：生成モデルを用いたGenSmoke-GS [cs.CV]目的：煙劣化画像からの新規視点合成手法
- 視覚情報の取得において，煙などの環境要因が画質に悪影響を及ぼすことが課題。
- 煙の影響により，画像可視性が低下し，複数視点間の整合性が損なわれる。
- 煙劣化画像からの高品質な3D再構成と新規視点合成を実現すること。
- 提案手法は，画像復元，去煙処理，MLLMによる高画質化などを組み合わせた多段階パイプラインである。
- このパイプラインにより，レンダリング前の可視性を向上させながら，入力視点間のシーン内容の変化を抑制する。
- NTIRE 3DRRチャレンジのTrack 2において，提案手法は14チーム中1位の成績を収めた。
Link: https://arxiv.org/abs/2604.03039
QVAD：効率的で学習不要な動画異常検知のための質問中心エージェントフレームワーク [cs.CV]目的：動画異常検知における効率性と精度の向上
- 動画異常検知は，監視システムや自動運転など，様々な応用分野で重要な技術である。
- 既存手法は大規模モデルに依存し，計算コストが高い，または静的なプロンプトにより精度が制限される。
- 質問を動的に更新することで，軽量なモデルでも高い性能を発揮し，計算資源の制約を克服する。
- 提案手法QVADは，VLMとLLMの対話を通して質問を反復的に洗練し，高精度なキャプション生成と意味的推論を実現する。
- QVADは，既存手法と比較して少ないパラメータ数で，UCF-Crime，XD-Violence，UBNormalデータセットで最先端の性能を達成した。
- また，ComplexVADデータセットにおいても優れた汎化性能を示し，エッジデバイスへの展開も可能である。
Link: https://arxiv.org/abs/2604.03040
ビデオ大規模言語モデルにおける幻覚軽減のための層認識時空間エビデンス介入 (STEAR) [cs.CV, cs.MM]目的：ビデオ大規模言語モデルにおける幻覚軽減手法の提案
- ビデオ理解はAIの重要な課題であり，その性能向上が求められている。
- 既存のビデオ大規模言語モデルは，時空間的な幻覚を起こしやすいという課題がある。
- 層認識のエビデンス介入によって，空間的・時間的幻覚を効率的に軽減することを目指す。
- STEARは，幻覚リスクの高いデコーディングステップを特定し，中間層からの視覚的エビデンスを活用する。
- 中間層での局所的な根拠回復と，後期層での一貫性のない推論の反証を行うことで，幻覚を軽減する。
- 様々なビデオ大規模言語モデルで，STEARが幻覚の軽減，忠実性，時間的一貫性，頑健性の向上に貢献することが示された。
Link: https://arxiv.org/abs/2604.03045
カッツ中心性最大化のためのネットワーク形成ゲーム：資源配分からの視点 [cs.GT, cs.MA, cs.SI]目的：エージェントによる資源配分を通じたネットワーク形成ゲームのNash均衡ネットワークの特性
- ネットワーク科学は，社会構造や情報伝播の理解に不可欠であり，その分析手法の確立が重要である。
- ネットワーク形成ゲームでは，均衡ネットワークの特定やその特性分析が難しく，現実的なモデル構築が課題である。
- エージェントの資源配分戦略が均衡ネットワークに与える影響を明らかにし，より現実的なネットワーク形成モデルを提案すること。
- 提案するゲームにおいて，ある程度の緩やかな仮定の下で，逐次最適反応ダイナミクスがNash均衡に収束することが示された。
- 完全グラフの場合，Nash均衡においてエージェントのカッツ中心性と予算が比例することが示された。
- 自己ループを持つ一般的なトポロジーでは，Nash均衡において階層的なネットワークが形成されることが示された。
Link: https://arxiv.org/abs/2604.03056
ナノバナナ2は従来の画像修復モデルに取って代わるか？画像修復タスクにおけるその性能評価 [cs.CV]目的：画像修復におけるナノバナナ2の性能評価
- 画像修復は，古い写真や破損した画像の価値を回復する上で重要であり，多様な分野で求められている。
- 従来の画像修復モデルは，特定の劣化パターンに特化しており，汎用性に課題がある。
- 汎用的な生成AIモデルを画像修復に応用し，その有効性と課題を明らかにすること。
- ナノバナナ2は，適切なプロンプト設計により，従来の画像修復モデルと同等以上の性能を示すことが明らかになった。
- 特に，フルリファレンス評価において優れた性能を発揮し，知覚的な品質においても競争力がある。
- 小規模な顔や密集した群衆，深刻な劣化など，困難な状況においても高い汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.03061
Gram-MMD：画像リアリズム評価のためのテクスチャを意識した指標 [cs.CV]目的：生成画像のリアリズム評価
- 生成モデルの発展に伴い，生成された画像の質を客観的に評価する指標の重要性が増している。
- 既存の指標は意味的な特徴に焦点を当てており，リアリズムを判断する上で重要な微細なテクスチャ情報を捉えきれていない。
- 微細なテクスチャや構造的特徴を捉え，より正確なリアリズム評価を実現することを目的とする。
- Gram-MMDは，事前学習済みネットワークの中間活性から計算されるグラム行列を利用し，特徴マップ間の相関関係を捉える。
- グラム行列の上三角部分を用いて，実画像と生成画像の分布間の最大平均不一致(MMD)を測定することで，テクスチャ情報をエンコードする。
- 実験により，既存の指標では誤った順位付けが生じるケースでも，Gram-MMDは正しい順位付けを維持することが示された。
Link: https://arxiv.org/abs/2604.03064
SparseSplat：ピクセル非整列予測による適用可能なフィードフォワード3Dガウススプラッティングへ [cs.RO, eess.SY, cs.SY, cs.CV]目的：シーン構造と局所領域の情報量に応じてガウス密度を適応的に調整するフィードフォワード3Dガウススプラッティングモデル
- 3Dガウススプラッティングは高品質なレンダリングを実現する技術であり，その効率化が求められている。
- 従来のフィードフォワード3DGSは，冗長な3DGSマップ生成により，後続の再構成タスクへの統合が困難であった。
- SparseSplatは，よりコンパクトな3DGSマップの生成を通じて，この課題を解決することを目指す。
- SparseSplatは，従来のモデルと比較して，わずか22%のガウス数で最先端のレンダリング品質を達成した。
- 1.5%のガウス数でも，妥当なレンダリング品質を維持することが示された。
- エントロピーに基づく確率的サンプリングと，専用の点群ネットワークが，この効率化に貢献している。
Link: https://arxiv.org/abs/2604.03069
MI-Pruner：クロスモーダル相互情報に基づくトークンプルーナーによる効率的なMLLM [cs.CV]目的：マルチモーダル大規模言語モデルにおける効率的な推論のためのトークン削減
- マルチモーダル学習は，画像とテキストの情報を統合し，より高度なAIシステムを実現する上で重要である。
- 既存の画像プルーニング手法は，注意スコアに依存しており，精度低下のリスクがある。
- 画像とテキストの特徴間のクロスモーダル依存性を直接測定することで，より効果的なプルーニングを実現する。
- 提案手法であるMI-Prunerは，相互情報に基づいてトークンをプルーニングすることで，既存手法を上回る性能を示す。
- MI-Prunerは，内部の注意マップやアーキテクチャの変更を必要としない，シンプルで効率的な手法である。
- 実験結果から，MI-Prunerはレイテンシを最小限に抑えつつ，大幅な計算効率の向上を実現することが示された。
Link: https://arxiv.org/abs/2604.03072
SAR海氷分類のためのデータ中心型Vision Transformerベースライン [cs.HC, cs.RO, cs.CV, cs.AI]目的：SAR海氷分類のための信頼性の高いベースラインの確立
- 北極海の気候変動監視と海上安全確保において，正確な海氷分類は不可欠である。
- SAR画像は全天候型だが，類似した形状の海氷クラスを区別すること，特にクラス間の不均衡が課題である。
- 少数クラスである多年氷の識別精度向上を目指し，マルチモーダル融合のための基盤を提供する。
- ViT-Largeモデルと焦点損失関数を用いた実験で，69.6%のホールドアウト精度を達成した。
- 少数クラスである多年氷において，83.9%の適合率が得られた。
- 焦点損失関数は，重み付きクロスエントロピーよりも希少な海氷クラスに対して，より有効な精度-再現率のトレードオフを提供する。
Link: https://arxiv.org/abs/2604.03094
予算制約下における非定常な第一価格オークションのための適応型入札戦略 [cs.GT]目的：累積ペイオフを最大化するための，予算制約のある入札者の反復第一価格オークションにおける適応的な入札学習
- オンライン広告市場において，第二価格オークションから第一価格オークションへの移行が進んでおり，入札戦略が重要になっている。
- 第一価格オークションでは，正直な入札が最適ではなく，予算制約下での効果的な学習入札戦略が課題となっている。
- 将来のプライベート値に関する情報に基づき，予算制約下での入札戦略を最適化し，後悔を最小限に抑えることを目指す。
- 提案する二重勾配降下法に基づく入札戦略は，予算制約を考慮しながら，累積ペイオフの最大化に貢献する。
- 非定常な環境下では，後悔が√Tに比例し，さらにWasserstein距離に基づく変動項を含むことが示された。
- 将来の予算配分予測を利用することで変動項を排除し，√Tに予測誤差を加えた後悔を達成。期間ごとの予算配分計画に基づくベンチマークを用いることで，正確に√T後悔を実現。
Link: https://arxiv.org/abs/2604.03103
VLMは本当に忘却できるか？学習不要の視覚概念アンラーニングのベンチマーク [cs.CV, cs.AI]目的：視覚言語モデルにおける学習不要の視覚概念アンラーニングの評価
- 大規模データ学習済みVLMは，機密情報や著作権で保護された概念を保持する。その除去が求められる場面が多い。
- 既存の学習型アンラーニングは，忘却セットでのファインチューニングにより汎化性能を低下させるという課題がある。
- プロンプトやシステム指示による学習不要アンラーニング手法の評価基準を確立し，その有効性を検証する。
- 現実的なアンラーニングプロンプトでは，忘却精度は指示なしの場合とほぼ同等であった。真の減衰は，対象概念をモデルに開示する条件でのみ見られた。
- 物体やシーンといった概念は抑制に強く，指示調整されたモデルは明示的な忘却指示にも関わらず能力を維持する傾向にあった。
- これらの結果から，プロンプトレベルの抑制と真の視覚概念の消去の間には明確なギャップが存在することが示唆された。
Link: https://arxiv.org/abs/2604.03114
物理世界における意味的脆弱性の解明：赤外線ビジョン-言語モデルに対する汎用的な敵対的パッチ [cs.CV]目的：赤外線ビジョン-言語モデルに対する汎用的な敵対的パッチフレームワークの開発
- 低視認度環境でのマルチモーダル知覚において，赤外線ビジョン-言語モデルは有望な手法として注目されている。
- 既存の敵対的パッチはRGB画像向けに設計されており，赤外線VLMsのオープンエンドな意味理解や物理的展開には不向きである。
- 本研究は，赤外線VLMsの視覚表現空間を直接破壊し，クロスモーダル意味的整合性を弱めることを目指す。
- 提案手法であるUCGPは，多様な赤外線VLMアーキテクチャにおいて，意味理解能力の一貫した低下を実証した。
- UCGPはモデル間およびデータセット間の汎化能力，現実世界での有効性，防御に対する頑健性を有していることが確認された。
- 本研究は，現在の赤外線マルチモーダルシステムにおける，これまで見過ごされてきた頑健性の脆弱性を明らかにした。
Link: https://arxiv.org/abs/2604.03117
Salt：キャッシュ認識型学習による高速ビデオ生成のための自己整合的分布マッチング [cs.CV, eess.IV]目的：低コストでのビデオ生成
- リアルタイムなビデオ生成の実現には，計算資源の制約が重要となる。
- 既存手法では，複雑な映像動画像において滑らかな出力になりがちである。
- 時間ステップを跨いだノイズ除去更新の整合性を保ち，ドリフトを防ぐことを目指す。
- 提案手法Saltは，低いNFE数でのビデオ生成品質を向上させる。
- KVキャッシュを条件付けパラメータとして扱い，キャッシュ認識型学習を実施する。
- 様々なKVキャッシュメモリ機構との互換性を保ちながら，優れた結果を示す。
Link: https://arxiv.org/abs/2604.03118
UAV熱画像ジオロケーションのための統一セマンティックカスケードコンセンサスフレームワークSCC-Loc [cs.CV, cs.RO]目的：UAV熱画像ジオロケーションの精度向上
- GNSSが利用できない環境下でのUAVの自己位置推定は，災害対応やインフラ点検等で重要である。
- 熱画像と可視画像間のモダリティギャップが大きく，従来の粗調整から微調整への登録で特徴の曖昧性が課題である。
- モダリティギャップを解消し，高精度かつロバストな位置推定を実現することを目的とする。
- SCC-Locは，単一のDINOv2バックボーンを活用し，メモリ消費量を抑えつつ高精度な絶対位置推定をゼロショットで実現した。
- Semantic-Guided Viewport Alignment (SGVA)モジュール，Cascaded Spatial-Adaptive Texture-Structure Filtering (C-SATSF)機構，Consensus-Driven Reliability-Aware Position Selection (CD-RAPS)戦略により，モダリティの曖昧性を克服した。
- 大規模データセットThermal-UAVを用いた実験により，平均位置推定誤差を9.37mに抑制し，既存手法を大幅に上回る精度を達成した。
Link: https://arxiv.org/abs/2604.03120
SD-FSMIS：少ないサンプルでの医療画像セグメンテーションのためのStable Diffusionの適応 [eess.SY, cs.RO, cs.SY, cs.CV]目的：少ないサンプルでの医療画像セグメンテーション
- 医療画像分析において，データ不足やドメインの変化は大きな課題であり，高精度なセグメンテーション技術が求められている。
- 既存手法では，十分なアノテーション付きデータが必要であり，データ収集のコストや専門知識がボトルネックとなっている。
- 本研究は，少量のアノテーションデータで高精度なセグメンテーションを可能にする手法を開発し，医療現場での応用を目指す。
- 提案手法SD-FSMISは，大規模な事前学習済みStable Diffusionモデルを，少ないサンプルでの医療画像セグメンテーションに効果的に適応させる。
- Support-Query Interaction (SQI) と Visual-to-Textual Condition Translator (VTCT) の導入により，高精度なセグメンテーションを実現した。
- 標準的な設定に加え，より困難なクロスドメインのシナリオにおいても，優れた汎化性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.03134
CAMEO：条件付きかつ品質を意識したマルチエージェント画像編集オーケストレーター [cs.CV]目的：条件付き画像編集における品質と構造的整合性の向上
- 画像編集技術は，自動運転や人間姿勢変換など，構造制御が重要な様々な応用分野で不可欠である。
- 既存の画像編集モデルは，一回の生成処理に頼ることが多く，品質管理や構造的欠陥の問題を抱えている。
- 本研究は，品質を意識した反復的な修正プロセスを導入し，構造的および文脈的な不整合を解消することを目指す。
- CAMEOは，計画，プロンプト設計，仮説生成，参照グラウンディングを組み合わせたマルチエージェントフレームワークである。
- 評価を編集ループに組み込み，中間結果を反復的に改善することで，品質の制御を実現している。
- 異常挿入と人間姿勢変更タスクにおいて，既存モデルと比較して平均20%高い勝率を達成し，ロバスト性と制御可能性を示した。
Link: https://arxiv.org/abs/2604.03156
EffiMiniVLM：コンパクトな二重エンコーダ回帰フレームワーク [cs.CV]目的：マルチモーダルアイテム情報からの製品品質予測
- コールドスタート状況下では，ユーザーの行動履歴がないため，画像とテキストメタデータに依存する必要がある。
- 既存のビジョン言語モデルは，大規模なアーキテクチャや外部データセットに依存し，計算コストが高いという課題がある。
- 本研究は，計算コストを抑えつつ，製品品質を正確に予測できるコンパクトなモデルを提案する。
- EffiMiniVLMは，EfficientNet-B0とMiniLMを用いた軽量な回帰フレームワークである。
- Amazon Reviews 2023データセットの20%のみで学習し，27.7Mパラメータ，6.8GFLOPsでCESスコア0.40を達成した。
- 他の手法と比較して，4～8倍の計算効率を示し，外部データセットを使用しない唯一のアプローチである。
Link: https://arxiv.org/abs/2604.03172
UAV画像物体検出のための相乗的特徴融合ネットワーク：二重領域エッジ強調 [cs.CV, cs.MM]目的：UAV画像における物体検出の性能向上
- UAV画像を用いた物体検出は，監視，検索，測量など多くの分野で重要である。
- 背景ノイズの複雑さや対象スケールの不均衡により，既存手法では十分な精度が得られていない。
- 複雑な背景からの物体分離と，マルチスケール情報の有効活用を可能にする。
- 提案手法SFFNet-Xは，VisDroneデータセットにおいて36.8 AP，UAVDTデータセットにおいて20.6 APの高い検出精度を達成した。
- 軽量モデル(N/S)は，検出精度とパラメータ効率のバランスを維持している。
- 周波数領域と空間領域の両方でエッジ抽出を行うMDDCモジュールが，背景ノイズからの物体エッジの分離に貢献している。
Link: https://arxiv.org/abs/2604.03176
マルチモーダル推論モデルの強化学習後学習における幻覚の役割の理解 [cs.LG, cs.AI, cs.CV]目的：マルチモーダル推論モデルにおける幻覚の役割に関する分析
- 大規模言語モデルの発展に伴い，視覚情報を活用した推論能力の向上が重要となっている。
- 強化学習を用いた後学習の効果は確認されているものの，モデルが視覚情報から真に学習しているか不明である。
- 強化学習後学習におけるモデルの幻覚の役割を分析し，その影響を明らかにすること。
- 幻覚を誘導する摂動を加えることで，強化学習後学習のダイナミクスとデータセットの本質を診断するフレームワークを提案した。
- 幻覚を誘導する設定下での強化学習後学習は，モデルの推論性能を大幅に向上させ，標準的な学習を上回る場合もあることが示された。
- これらの結果は，既存のマルチモーダル大規模言語モデルの学習に関する仮説に疑問を投げかけ，よりモダリティを意識した強化学習設計の必要性を示唆する。
Link: https://arxiv.org/abs/2604.03179
マルチビュー動画拡散ポリシー：3D空間・時間認識型動画行動モデル [cs.RO, cs.CV]目的：3D空間構造と時間的変化を考慮したロボットの行動モデル
- ロボット制御において，環境の3次元構造と時間変化の理解が不可欠である。
- 既存手法は2D画像に依存し，環境のダイナミクス理解が不十分である。
- 少ないデータでロバストかつ汎化性能の高いロボット制御を実現すること。
- MV-VDPは，マルチビューの熱図動画とRGB動画を同時に予測することで，動画事前学習と行動ファインチューニングの表現形式を整合させる。
- わずか10件のデモンストレーションで複雑なタスクを成功させ，様々なハイパーパラメータや未知の環境に対してもロバスト性を示す。
- Meta-Worldや実環境での実験により，既存のモデルを上回り，データ効率の良いマルチタスク操作を実現した。
Link: https://arxiv.org/abs/2604.03181
圧縮ギャップ：離散トークン化が視覚-言語-行動モデルのスケーリングを制限する理由 [cs.RO, cs.CV, cs.LG]目的：視覚-言語-行動モデルのスケーリングにおける制約
- 視覚と行動を結びつけるAI研究は，ロボット工学や自律システムの発展に不可欠である。
- 行動の離散的な表現方法が，モデルのスケーリングによる性能向上を阻害する可能性がある。
- 情報理論に基づき，情報ボトルネックの位置を特定することでスケーリング戦略を改善すること。
- 行動が連続的な場合，視覚エンコーダの性能向上が直接的に性能向上に繋がる。
- しかし，行動が離散化されている場合，コードブックがボトルネックとなり，エンコーダの改善効果は限定的となる。
- 実験により，拡散ポリシーではエンコーダの改善が顕著に効果的だが，OATでは効果が小さくなることが確認された。
Link: https://arxiv.org/abs/2604.03191
第11回 NTIRE 2026 効率的超解像チャレンジ報告 [cs.CV]目的：効率的なシングルイメージ超解像手法
- 画像処理分野において，高画質化技術は重要な課題である。特に，計算資源の制約下での高解像度化が求められている。
- 既存の超解像手法は計算コストが高く，リアルタイム処理やモバイル環境での利用が困難な場合がある。
- 計算資源を削減しつつ，高画質を維持する効率的な超解像手法の開発を目指す。
- 本チャレンジでは，95名の参加者と15チームの有効な提出があった。
- 参加チームは，DIV2K_LSDIR_validデータセットで約26.90 dB，DIV2K_LSDIR_testデータセットで約26.99 dBのPSNRを維持しつつ，実行時間，パラメータ数，FLOPsを削減するネットワークを開発した。
- 本チャレンジの結果は，効率的なシングルイメージ超解像の最先端技術の現状を示すものである。
Link: https://arxiv.org/abs/2604.03198
医療3D画像に基づく検出と予後予測のためのモジュール型AIフレームワークPR3DICTR [cs.CY, cs.CV, cs.AI, cs.LG]目的：医療3D画像に基づいた検出と予後予測モデル開発のためのフレームワーク
- 医療現場における3D画像診断の重要性が増しており，AIによる支援が不可欠である。
- 3D医療画像を用いたAIモデル開発には，専門知識と多大な開発コストが必要となる。
- AIモデル開発の負担軽減とカスタマイズ性を両立し，研究開発の加速を目指す。
- PR3DICTRは，PyTorchとMONAIを基盤とした，オープンアクセスで柔軟なフレームワークである。
- モジュール設計と標準化により，開発者の負担を軽減しつつ，多様なニーズに対応可能である。
- わずか2行のコードで，二値分類やイベントベースの3D分類タスクに適用できる。
Link: https://arxiv.org/abs/2604.03203
プロトフロー：低曲率プロトタイプフローによる継続的リモートセンシングセグメンテーションにおける忘却の軽減 [cs.SI, cs.HC, econ.GN, q-fin.EC, cs.CV]目的：継続的リモートセンシングセグメンテーションにおける忘却軽減手法
- リモートセンシング技術は，環境モニタリングや都市計画など，幅広い分野で不可欠である。
- 既存の継続学習手法では，表現のドリフトや過去の知識の忘却が課題となっていた。
- プロトタイプフローは，時間経過に伴うプロトタイプの変化をモデル化し，忘却を抑制することを目的とする。
- 提案手法プロトフローは，プロトタイプの軌跡を時間的に連続的にモデル化する。
- 低曲率な動きとクラス間分離を同時に制約することで，継続学習中のプロトタイプ形状を安定化させる。
- 標準的なベンチマーク実験において，既存手法と比較してmIoUallが1.5-2.0ポイント向上し，忘却が軽減された。
Link: https://arxiv.org/abs/2604.03212
VOSR：画像超解像のためのVisionのみの生成モデル [cs.CL, cs.CV]目的：画像超解像のためのVisionのみの生成フレームワークの提案
- 画像超解像は，低解像度画像を高品質に復元する重要な技術であり，様々な応用分野で求められている。
- 既存の画像超解像モデルは，大規模なテキスト画像データで事前学習された汎用的な生成モデルに依存している場合が多く，効率性が課題である。
- 本研究は，テキスト画像データに頼らず，Visionのみで学習したモデルが既存手法と同等以上の性能を発揮できることを目指す。
- VOSRは，既存のテキスト画像ベースの手法と比較して，1/10以下の学習コストで同等以上の知覚的品質と効率性を達成した。
- VOSRは，合成データセットと実世界のデータセットの両方において，より忠実な構造を再現し，幻覚を減少させた。
- 本研究により，マルチモーダル事前学習なしで高品質な生成超解像が実現可能であることが示された。
Link: https://arxiv.org/abs/2604.03225
CoME-VL：相補的なマルチエンコーダによる視覚言語学習のスケール拡大 [cs.CV]目的：視覚言語モデルにおける，コントラスト学習と自己教師あり学習による視覚表現の融合
- 視覚言語モデルは，画像とテキスト間の関係を理解する上で不可欠であり，様々な応用が期待される。
- コントラスト学習のみでは，自己教師あり学習と比較して，より豊かな視覚的意味表現を獲得するのが難しい。
- コントラスト学習と自己教師あり学習の利点を組み合わせ，視覚言語モデルの性能を向上させる。
- CoME-VLは，コントラスト学習とDINOエンコーダを融合するモジュールなフレームワークであり，既存のVLMパイプラインへの統合が容易である。
- 多様な視覚言語ベンチマークにおいて，単一エンコーダのベースラインを安定的に上回り，視覚理解タスクで平均4.9%，グラウンディングタスクで5.4%の改善が見られた。
- RefCOCO検出タスクにおいて最先端の性能を達成し，ベースラインを大幅に上回った。また，レイヤーマージや冗長性除去などの実験により，相補的な信号の効果が確認された。
Link: https://arxiv.org/abs/2604.03231
深層学習による糖尿病網膜症の管理：データ中心の概観 [eess.IV, cs.AI, cs.CV]目的：糖尿病網膜症管理に用いられるデータセットの有用性評価
- 糖尿病網膜症は世界的に失明の主要な原因であり，早期発見と適切な管理が重要である。
- 既存のデータセットは地理的偏り，サンプル数不足，アノテーションの一貫性欠如などの問題を抱えている。
- 臨床的に信頼性のある糖尿病網膜症スクリーニングのためのデータセット開発の課題を明確にする。
- 本研究では，二値分類，重症度分類，病変局在，多疾患スクリーニングなど，主要なタスクにおけるデータセットの有用性を評価した。
- データセットをサイズ，アクセス可能性，アノテーションタイプ別に分類し，データセットの現状を包括的に整理した。
- 標準化された病変レベルのアノテーションや縦断データの不足など，今後のデータセット開発における課題を指摘した。
Link: https://arxiv.org/abs/2604.02448
バイオメディカル分野における汎化のための不変性だけでは不十分であり，その解決策 [eess.IV, cs.CV]目的：3Dバイオメディカル画像セグメンテーションにおけるドメイン汎化
- 医療画像解析は，疾患診断や治療計画において不可欠であり，その精度向上は重要な課題である。
- 臨床現場では，モダリティや疾患の重症度，病院などのドメインの変化により，セグメンテーションモデルの性能が著しく低下する。
- ドメインの変化に頑健なセグメンテーションモデルを，実装の負担を抑えつつ実現すること。
- DropGenは，ソースドメインの画像強度とドメイン安定な基盤モデル表現を活用することで，ロバストなセグメンテーションモデルを学習する。
- DropGenは，完全教師あり学習および少量データ学習の両方において，幅広いバイオメディカル研究で高い性能向上を実現した。
- DropGenは，アーキテクチャや損失関数に依存せず，標準的な拡張パイプラインと互換性があり，計算コストも低い。
Link: https://arxiv.org/abs/2604.02564
波長多重化大規模並列回折光学情報ストレージと画像投影 [physics.optics, cs.CV, cs.NE, physics.app-ph]目的：波長多重化大規模並列回折光学情報ストレージプラットフォーム
- データ量の増大に対応するため，大容量かつ高速アクセス可能な情報ストレージ技術が求められている。
- 従来のストレージ技術では，容量，速度，エネルギー効率において限界が課題となっている。
- 回折光学を利用し，波長多重化により高密度な情報ストレージと高速な画像投影を実現する。
- 数値シミュレーションにより，可視光スペクトルにおいて4000以上の独立した画像/パターンを格納・投影可能であることが示された。
- 概念実証実験では，6つの異なるパターンを6つの異なる波長で投影することに成功した。
- 本プラットフォームは拡張性が高く，材料分散の制御や回折層の再設計なしに電磁スペクトルの様々な領域で動作可能である。
Link: https://arxiv.org/abs/2604.02624
タスク誘導プロンプティングによる統一されたリモートセンシング画像復元 [eess.IV, cs.CV]目的：多様なリモートセンシング画像の劣化に対応する統一的な復元手法の開発
- リモートセンシング画像は，正確な分析に不可欠であり，その品質が重要である。
- 既存手法は単一の劣化に特化しており，現実世界での複合的な劣化に対応できない。
- 複数の劣化を単一のフレームワークで処理し，実運用における課題を解決すること。
- 提案手法TGPNetは，ノイズ除去，雲除去，影除去，ぼかし除去，SARスパークル除去を単一のアーキテクチャで実現した。
- タスク誘導プロンプティングにより，劣化パターンに応じた復元プロセスを適応的に調整することが可能になった。
- RGB，マルチスペクトル，SAR，熱赤外を含む統一的なベンチマークで最先端の性能を達成し，個別の専門モデルを上回った。
Link: https://arxiv.org/abs/2604.02742
3Dガウス関数によるリアルタイムレンダリングシーンのストリーミング [eess.IV, cs.GR, cs.MM]目的：リアルタイムレンダリングシーンを3Dガウス関数としてストリーミングする手法
- ゲームやXRにおいて，クライアント側のGPUリソース制約を克服し，多様なデバイスをサポートする手段としてクラウドレンダリングが重要である。
- 既存システムは2Dビデオストリームとしてシーンを送信するため，視点に依存性が高く，遅延補正が限定的である。
- 本研究は，レンダリングされたビデオだけでなく，3Dガウススプラッティングシーン表現をストリーミングすることで，この問題を解決する。
- サーバはリアルタイムレンダリングされた参照ビューから3Dガウススプラッティングモデルを構築・最適化し，クライアントへストリーミングする。
- クライアントは受信した表現からローカルで視点を再構築することで，柔軟な視点変更と遅延補正を実現する。
- 本手法は，従来の画像歪曲と比較して，サーバ側のシーンモデリングを複数ユーザー間で効率的に共有できる。
Link: https://arxiv.org/abs/2604.02851
全ての主体にとって協力が有益となる場合 [q-fin.MF, cs.GT]目的：集団市場効率と個人の合理性の関係
- 経済学において，市場の効率性と個人の行動原理の整合性は重要な課題である。
- 主体間の協力が，必ずしも全員にとって利益をもたらすとは限らない点が課題となる。
- 主体間の協力を通じた厳密な効用改善の条件を明確化することを目指す。
- 一般的なセミマルチンゲール枠組みにおいて，効用を厳密に向上させる交換の必要十分条件を導出した。
- この条件は，主体間の選好と集団価格測度の整合性によって特徴づけられる。
- 継続時間・離散時間モデルの両方に適用でき，協力が各主体の効用を改善する状況を明らかにする。
Link: https://arxiv.org/abs/2604.02862
少数ショット分布整合フローマッチングによる医療画像セグメンテーション用データ合成 [eess.IV, cs.CV]目的：医療画像セグメンテーションにおけるデータ合成手法
- 医療画像分析モデルの臨床応用には，データセット間の不均衡が課題となる。
- 既存の拡散モデルは生成画像と実画像の分布のずれを無視しがちである。
- 少数ショットで分布を整合させることで，性能劣化を防ぐことを目指す。
- 提案手法AlignFlowは，微分可能な報酬を用いたファインチューニングにより，生成画像を目標分布に整合させる。
- ターゲットドメインの少ない参照画像数でも効果的であり，多様なマスク生成も実現する。
- 様々なデータセットとシナリオにおいて，mDiceで3.5-4.0%，mIoUで3.5-5.6%の性能向上を実証した。
Link: https://arxiv.org/abs/2604.02868
話者・推論者：タイムスタンプ付き話者属性ASRにおける対話ターンと推論パターンの拡張 [math.PR, cs.SY, eess.SY, math.OC, eess.AS, cs.CL, cs.SD]目的：複数話者の会話の文字起こしと理解
- 会話理解は，人間と機械のコミュニケーションにおいて不可欠な要素である。
- 複数話者の会話では，重なり，バックチャンネル，急なターン交代などが課題となる。
- 複雑な会話構造に対応し，より正確な文字起こしと理解を目指す。
- 提案手法Speaker-Reasonerは，複数ターンにわたる時間的推論を可能にする。
- モデルは，音声全体の構造を分析し，時間境界を自律的に予測することで，精度の高い話者識別，性別，タイムスタンプ，文字起こしを実現する。
- AliMeetingおよびAISHELL-4データセットにおいて，重なりやターン交代の多い会話で既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2604.03074
ARIQA-3DS：リアルな拡張現実のためのステレオ画像品質評価データセット [math.CO, cs.DM, math.AC, eess.IV, cs.CV, cs.MM]目的：拡張現実の画像品質評価のためのデータセット
- 没入型AR技術の普及に伴い，ユーザー体験の質を客観的に評価する重要性が増している。
- 既存のデータセットは現実の環境を十分に再現しておらず，現実世界と仮想世界の間の視覚的混乱を考慮できていない。
- より現実的なAR環境下での品質評価を可能にする，大規模なステレオデータセットの提供。
- ARIQA-3DSは，1,200枚のAR表示領域を含む，初の大型ステレオAR画像品質評価データセットである。
- 主観評価実験の結果，認識される品質は主に前景の劣化と透明度レベルに影響を受けることが示された。
- 眼球運動およびめまい症状は徐々に増加するものの，許容範囲内であり，データセットは次世代AR品質評価モデル開発のベンチマークとして公開される。
Link: https://arxiv.org/abs/2604.03112
群衆からの分離：登録不要ターゲット音声抽出のための混合から集合への話者埋め込み学習 [eess.AS, cs.SD]目的：登録不要ターゲット音声抽出のための話者埋め込みの学習
- 騒がしい環境下での音声分離は，コミュニケーションの質を向上させる上で重要である。
- 従来のターゲット音声抽出は，クリーンな登録データが必要であり，現実環境での取得が困難である。
- 混合音声から直接話者埋め込みを予測することで，登録データの必要性をなくし，実用的な音声抽出を実現する。
- 提案手法では，混合音声から少数の話者埋め込みを予測し，分離信号の制御に利用することで高い性能を実現した。
- 生成された埋め込みは構造化された識別空間を形成し，既存手法よりも優れたクラスタリング性能を示した。
- 実データを用いた評価においても，客観的な音質と明瞭度が向上し，汎化性能が確認された。
Link: https://arxiv.org/abs/2604.03219
HyperCT：胸部CT解析のための統一的低ランクハイパーネットワーク [eess.IV, cs.CV]目的：胸部CT解析における多様なタスクの統合
- 胸部CTは肺疾患と肺外疾患のスクリーニングに有用であり，包括的な患者評価に不可欠である。
- 従来のマルチタスク学習は，異なる病理をモデル化する上で最適とは言えない場合がある。
- HyperCTは，ハイパーネットワークを介してVision Transformerを動的に適応させることで，この課題を解決する。
- 提案手法HyperCTは，大規模なデータセットで複数のベースラインモデルを上回り，高い性能を示した。
- LoRAを統合することで，計算効率とパラメータ効率を実現し，実用性を高めている。
- HyperCTは，患者の包括的な評価のための統一的かつ効率的なソリューションを提供する。
Link: https://arxiv.org/abs/2604.03224
慣性と視覚センサーからのモーションキャプチャ [cs.CV]目的：モーションキャプチャのための大規模データセットとフレームワーク
- コンピュータビジョンやグラフィックスの基盤技術であり，映画やゲーム制作に不可欠。
- 高価な装置や複雑なセットアップが必要で，個人利用向けのソリューションは未成熟。
- 低コストで手軽に利用できるモーションキャプチャシステムの実現を目指す。
- 大規模データセットMINIONSを構築し，IMUと単眼カメラの組み合わせによるモーションキャプチャを可能にした。
- 提案するSparseNetフレームワークは，IMUと動画の補完的な特徴を活用し，高精度なモーションキャプチャを実現する。
- 実験結果は，IMUと視覚センサーの利点を実証し，低コストなマルチモーダルモーションキャプチャの可能性を示す。
Link: https://arxiv.org/abs/2407.16341
汎用SAM：可変入力画像サイズに対するSAMの効率的なファインチューニング [cs.CV]目的：SAMの可変入力画像サイズに対する効率的なファインチューニング手法
- 近年の基礎モデルの効率的なファインチューニング研究の重要性が増している。
- SAMは固定の入力サイズ(1024x1024) を必要とし，計算コストが高い。
- GSAMはランダムクロッピングにより計算コストを削減し，SAMの性能を維持する。
- GSAMは，様々なデータセットでSAMや他のファインチューニング手法と同等以上の精度を達成した。
- GSAMは，SAMの訓練に必要な計算コストを大幅に削減することを示した。
- GSAMは，固定入力サイズによる画像情報の損失問題を軽減する。
Link: https://arxiv.org/abs/2408.12406
フィードバック Former を用いた細胞画像セグメンテーションの精度向上 [cs.CV]目的：細胞画像セグメンテーションの精度向上
- 細胞の形態解析は，生命科学研究において不可欠であり，その自動化が求められている。
- 深層学習を用いたセグメンテーションでは，詳細な情報が不足し，精度向上の課題があった。
- Transformerの弱点である詳細情報の不足を補い，セグメンテーション精度を向上させる。
- 提案手法であるFeedback Formerは，Transformerをエンコーダーとし，フィードバック機構を導入することで，セグメンテーション精度を向上させた。
- ３つの細胞画像データセットにおける実験により，フィードバックなしの方法よりも高い精度を示すことが確認された。
- 計算コストを抑えながら高精度を実現し，Transformerエンコーダーのモデルサイズを増加させることなく，より高い精度を達成した。
Link: https://arxiv.org/abs/2408.12974
表現的なプロンプティング：ゼロショットTTSにおける感情強度と話者一貫性の向上 [cs.SD, cs.AI, cs.CL, eess.AS]目的：感情強度と話者一貫性を高めたゼロショットTTSの実現
- 近年の音声合成技術の進展により，多様な音声表現が可能になった。
- 既存のプロンプト選択手法では，話者特性や感情強度の安定性が課題である。
- プロンプト選択戦略を改良し，表現豊かで安定した音声合成を目指す。
- 提案手法では，ピッチに基づくプロソディ特徴やLLMによる評価を用いてプロンプト候補を評価する。
- さらに，TTSモデルによる文字誤り率，話者類似度，感情類似度も評価に組み込む。
- 実験結果から，提案手法が感情強度と話者一貫性を向上させ，ゼロショットTTSの性能を高めることが示された。
Link: https://arxiv.org/abs/2409.18512
ForgeryGPT：解釈可能な画像フォレンジック検出と局在化のためのマルチモーダルLLM [eess.SY, cs.SY, cs.CV, cs.AI]目的：画像フォレンジック検出と局在化における高度なフォレンジック知識の相関関係の捕捉
- 画像フォレンジックは，デジタルコンテンツの信頼性確保に不可欠であり，悪意ある改ざんを検出する上で重要である。
- 既存手法は低レベルな特徴に依存しやすく，改ざんの理由や詳細な局在化の説明が不十分である。
- 高次のフォレンジック知識を活用し，改ざん箇所の詳細な説明と対話的な分析を可能にすることを目指す。
- ForgeryGPTは，Mask-Aware Forgery Extractorを組み込むことで，画像中の精密なフォレンジックマスク情報を抽出する。
- FL-ExpertとMask Encoderにより，オブジェクトに依存しないフォレンジックプロンプトと強化されたVision Encoderを活用し，多規模な微細な改ざんの詳細を捉える。
- Mask-Text AlignmentとIFDLタスク固有のInstruction Tuningデータセットを用いた３段階の学習戦略により，性能が向上した。
Link: https://arxiv.org/abs/2410.10238
ゼロショット概念ボトルネックモデル [cs.LG, cs.AI, cs.CV]目的：概念ボトルネックモデルのゼロショット化
- AIの解釈可能性と制御可能性が重要視される中で，モデルの判断根拠を明確にすることが求められている。
- 従来の概念ボトルネックモデルは，特定のタスクでの学習が必須であり，データ収集や学習コストが高いという課題がある。
- 追加学習なしに，入力から概念，そしてラベルを予測する，解釈可能で制御可能なモデルを構築すること。
- 提案手法Z-CBMは，大規模な概念バンクを利用し，クロスモーダル検索により入力に関連する概念を動的に取得する。
- 取得された概念から，疎な線形回帰を用いて重要な概念を選択し，概念からラベルへの推論を行う。
- 実験により，Z-CBMが追加学習なしに解釈可能かつ制御可能な概念を提供することが確認された。
Link: https://arxiv.org/abs/2502.09018
FaVChat：データ効率的なGRPOを用いた階層的プロンプト・クエリ誘導による顔動画理解 [cs.CV]目的：顔動画における微細な視覚的・動的特徴の推論
- 動画理解は，人間と機械のコミュニケーションにおいて重要な役割を担う。
- 既存のVLLMは，クエリ情報を意識しない顔の表現を抽出するため，重要な手がかりを失う。
- クエリに関連する情報を強調する視覚特徴抽出により，顔の細部に関する推論精度を向上させる。
- FaVChatは，質問に関連する情報を三つの階層で強調する階層的フレームワークを導入した。
- データ不足下での学習効率を高めるため，高ユーティリティサンプルを反復的に特定するデータ効率的なGRPOを提案した。
- 4つの顔理解タスクにおいて，既存のVLLMを上回る性能が実証された。
Link: https://arxiv.org/abs/2503.09158
テキストから動画生成におけるニューロシンボリックフィードバックによる改善 [cs.CV, cs.AI]目的：テキストから動画生成の品質向上
- 動画生成技術はコンテンツ制作の効率化に貢献する重要な分野である。
- 複雑なプロンプトに対し，意味・時間的一貫性のある動画生成が課題である。
- ニューロシンボリックフィードバックによる動画の自動改善を目指す。
- 提案手法NeuS-Eは，追加学習なしに動画の品質を向上させる。
- ニューロシンボリックフィードバックにより，動画内の意味的な不整合を特定し，修正する。
- 様々なT2Vモデルで実験を行い，時間的・論理的整合性が約40%向上することを確認した。
Link: https://arxiv.org/abs/2504.17180
gen2seg: 生成モデルによる汎用インスタンスセグメンテーション [cs.IR, cs.DM, math.CO, math.OC, cs.NI, cs.CV, cs.LG]目的：汎用的なインスタンスセグメンテーションの実現
- 画像認識分野において，物体検出とセグメンテーションは重要なタスクである。
- 既存手法では，学習データに依存した汎化性能の低さが課題となっていた。
- 生成モデルの持つ物体境界とシーン構成の理解を活用し，汎化性能を高める。
- Stable DiffusionとMAEをファインチューニングすることで，カテゴリーに依存しないインスタンスセグメンテーションが可能となった。
- ファインチューニングに使用していない未知のオブジェクトタイプやスタイルに対しても，高いゼロショット汎化性能を示した。
- 特に，微細構造や曖昧な境界のセグメンテーションにおいて，SAMを超える性能を発揮した。
Link: https://arxiv.org/abs/2505.15263
FLEX：フィットネス動作品質評価のための構造化表現学習用大規模マルチモーダル・マルチビューデータセット [cs.CV, cs.AI]目的：フィットネス動作品質評価のためのデータセット及び評価基準
- ジムでのトレーニングにおける怪我の防止と効果の最大化には，正確なフィードバックが不可欠である。
- 既存の動作品質評価データセットは，単一視点での競技スポーツに限定されており，フィットネス動作のマルチモーダル信号や専門家による評価が不足している。
- フィットネス動作のマルチモーダルデータセットを構築し，より詳細な評価とAIによるコーチングを可能にすること。
- FLEXは，RGB動画，3Dポーズ，筋電図(sEMG)，生理学的信号を含む7,500件以上のマルチビュー記録を提供し，多様なスキルレベルの被験者による20種類のウエイトトレーニング運動を網羅する。
- 専門家による注釈は，動作，主要ステップ，エラータイプ，フィードバックをリンクするフィットネス知識グラフ(FKG)として整理され，解釈可能な品質評価を可能にする。
- マルチモーダル入力，マルチビュー動画，詳細な注釈がAQAパフォーマンスを大幅に向上させることを実験により示した。
Link: https://arxiv.org/abs/2506.03198
TARS：MLLMにおける幻覚低減のためのMinMaxトークン適応型選好戦略 [cs.CV]目的：MLLMにおける幻覚低減のための選好戦略
- 近年のマルチモーダル大規模言語モデルの発展は目覚ましいが，視覚情報との整合性が課題となっている。
- 既存の直接選好最適化(DPO)は，表層的な言語的特徴に過剰適合し，幻覚を引き起こしやすい。
- 本研究は，DPOをMinMax最適化問題として再構築し，視覚的信号との整合性を強化することで，幻覚を抑制する。
- 提案手法TARSは，わずか4.8kの選好サンプルで幻覚発生率を26.4%から13.2%に大幅に削減した。
- TARSは，28.8kサンプルで学習したデータ拡張法よりも優れており，最適化景観の再構築がデータ拡張よりも効果的であることを示した。
- TARSはGPT-4oとの性能差を縮小し，重要な指標において優れた結果を得ている。
Link: https://arxiv.org/abs/2507.21584