arXiv雑要約

画像・音声 - 2026/04/02 公開

MAESIL：医療画像自己教師あり学習の強化のためのマスク自動符号化器 [cs.CV, cs.AI]目的：3D医療画像における自己教師あり学習のための新たなフレームワーク
- 医療画像診断の精度向上には，深層学習モデルが不可欠である。しかし，高品質なラベル付きデータが不足している。
- 従来の自己教師あり学習は，CTスキャンの3次元構造を十分に活用できていない場合がある。2Dスライス集合として処理するため，軸方向の相関が失われる。
- 本研究は，CTスキャンの3次元構造情報を効率的に捉え，より効果的な自己教師あり学習を実現することを目指す。
- 提案手法MAESILは，3次元構造情報を保持しつつ計算効率を高める「スーパーパッチ」という入力単位を用いる。
- 3種類の公開CTデータセットを用いた実験により，既存手法（AE，VAE，VQ-VAEなど）と比較して，再構成指標（PSNR，SSIM）において有意な改善が確認された。
- これにより，MAESILが3D医療画像タスクのための堅牢で実用的な事前学習ソリューションであることが示された。
Link: https://arxiv.org/abs/2604.00514
精密な動物行動認識のための最適なサンプリングレート選択とバイアス無効化 [cs.CV, cs.AI]目的：動物の個々の行動を正確に認識するための手法
- 畜産管理の効率化や動物の健康・福祉モニタリングに貢献するため，動物行動認識の研究が重要である。
- 既存研究では，特定の行動カテゴリの認識精度が低い場合があり，サンプリングレートの最適化が課題である。
- 個々の行動に対する認識精度向上を目指し，サンプリングレートの適応と分類器のバイアス軽減を行う。
- 提案手法IBA-Netは，複数のサンプリングレートからのデータを適応的に融合する特徴抽出モジュール(MFC)を備える。
- IBA-Netは，クラス不均衡による分類器のバイアスを軽減する，ニューラルコラプスに基づく分類器調整モジュール(NC3)を開発した。
- ヤギ，牛，馬のデータセットを用いた実験で，既存手法と比較して一貫して高い性能を示した。
Link: https://arxiv.org/abs/2604.00517
学習可能性に基づくデータセット蒸留拡散 [cs.CY, cs.CV]目的：データセット蒸留における学習可能性の活用
- 機械学習モデルの学習には大量のデータが必要であり，コストと時間がかかる。
- 既存のデータセット蒸留手法は冗長な学習信号を生み出す傾向がある。
- 学習可能性を考慮することで，冗長性を低減し，効率的な蒸留を実現する。
- 本研究では，学習可能性に基づいてデータセットを段階的に構築する手法を提案した。
- 提案手法は，既存手法と比較して冗長性を39.1%削減することに成功した。
- ImageNet-1K，ImageNette，ImageWoofにおいて，最先端の結果を達成した。
Link: https://arxiv.org/abs/2604.00519
思考，行動，構築：ゼロショット3D視覚的接地のための視覚言語モデルによるエージェント的フレームワーク [eess.SY, cs.SY, cs.CV, cs.AI]目的：3Dシーンにおける自然言語記述に基づいた物体局所化
- 3Dシーン理解は，ロボティクスや拡張現実など幅広い応用分野において不可欠である。
- 既存手法は，前処理された3D点群に依存し，3D視覚的接地を単なる提案マッチングに矮小化している。
- 2D VLMsを活用し，厳密な幾何学的手法と組み合わせることで，この問題解決を目指す。
- 本研究では，「思考，行動，構築(TAB)」という動的なエージェント的フレームワークを提案した。
- TABは，2D VLMsを用いて空間セマンティクスを解決し，3D構造を構築する。
- 実験の結果，本フレームワークは既存のゼロショット手法を凌駕し，教師あり学習ベースラインを超える性能を示した。
Link: https://arxiv.org/abs/2604.00528
AceTone：言葉と色を繋ぎ，条件付き画像グレーディングを実現 [cs.CV]目的：条件付き画像グレーディング手法
- 画像の色は，スタイルや感情の解釈に大きな影響を与える。効果的な色調整は，クリエイティブな表現に不可欠である。
- 既存手法は，局所的な色の変更や固定されたフィルターに依存し，表現意図の汎化や人間の美的感覚との整合性が課題であった。
- テキストや参照画像に基づいて，より自然で，美的感覚に沿った画像グレーディングを可能にすることを目標とする。
- AceToneは，テキストや参照画像に応じて3D-LUTを生成する，初の統一的なマルチモーダル条件付き画像グレーディング手法である。
- VQ-VAEを用いたトークナイザーにより，LUTベクトルを高い精度で圧縮し，効率的な学習を可能にした。
- 実験の結果，既存手法と比較してLPIPSが最大50％向上し，人間の評価においても視覚的な魅力とスタイルの一貫性が確認された。
Link: https://arxiv.org/abs/2604.00530
FreqPhys：暗黙の生理学的周波数事前知識を再利用した，ロバストなリモート・フォトプレチスモグラフィ [cs.CV]目的：リモート・フォトプレチスモグラフィにおけるロバストな信号回復
- 非接触で生理的モニタリングが可能であり，医療・ヘルスケア分野での応用が期待される。
- 動きのアーチファクトや照明変動に弱く，微弱な生理学的情報がノイズに埋もれてしまう。
- 生理学的周波数事前知識を明示的に利用し，ノイズの影響を抑制した信号回復を目指す。
- FreqPhysは，生理学的バンドパスフィルタリングとスペクトル変調により，不要な干渉を抑制し，脈波に関連する周波数成分を強調する。
- クロスドメイン表現学習モジュールを用いて，スペクトル情報と時間領域の特徴を融合し，空間的・時間的依存性を捉える。
- 周波数に配慮した条件付き拡散プロセスにより，高精度なrPPG信号を再構成し，既存手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2604.00534
MATHENA：Mambaに基づく構造的歯階層推定器と解剖学的全体評価ネットワーク [cs.CV, cs.AI]目的：歯科レントゲン画像からの歯の検出，虫歯セグメンテーション，異常検出，および歯の発育段階評価
- 歯科診断は，口腔内の健康状態を把握するために不可欠であり，早期発見・早期治療に繋がる。
- 従来の歯科画像解析は，個別のタスクに分かれており，処理に時間と専門知識が必要となる。
- 本研究は，複数のタスクを統合的に処理し，より効率的かつ正確な歯科診断を実現することを目的とする。
- MATHENAは，Mambaアーキテクチャを用いた新たなフレームワークであり，歯の検出において93.78%のmAP@50を達成した。
- 虫歯セグメンテーションでは90.11%のDice係数，異常検出では88.35%，歯の発育段階評価では72.40%の精度をそれぞれ示した。
- 新たに構築したベンチマークデータセットPARTHENONを用いて，MATHENAの有効性を検証した。
Link: https://arxiv.org/abs/2604.00537
TRiGS：スケーラブルな4Dガウススプラッティングのための時間的剛体運動 [cs.CV]目的：時間的剛体運動のモデリング
- 動的なシーン再構成は，コンピュータビジョンの重要な課題であり，現実世界の理解に不可欠である。
- 既存手法は，線形近似や短い時間窓に依存し，時間的な断片化やガウス分布の増殖を引き起こす。
- TRiGSは，連続的な幾何学的変換を用いて，時間的な同一性を維持し，メモリ増大を抑制することを目指す。
- TRiGSは，統一的かつ連続的な幾何学的変換を用いることで，剛体運動を幾何学的に一貫してモデリングする。
- 標準的なベンチマークにおいて，高忠実度なレンダリングを達成し，従来の技術と比較して時間安定性に優れている。
- 特に，長尺の動画シーケンス（600～1200フレーム）において，メモリボトルネックを最小限に抑えながらスケーラビリティを実現した。
Link: https://arxiv.org/abs/2604.00538
正常プロファイルからの神経精神症状の逸脱：早期アルツハイマー病検出のためのMRI由来マーカー [eess.SY, cs.SY, cs.CV]目的：アルツハイマー病の早期検出のための神経精神症状の逸脱を示すMRIマーカー
- アルツハイマー病は高齢化社会において患者数が増加しており，早期発見と適切な介入が重要である。
- 現在の神経精神症状の評価ツールでは，加齢による変化とアルツハイマー病の初期兆候を区別することが困難である。
- 脳MRI画像から神経精神症状の逸脱を検出し，アルツハイマー病の早期発見を可能にすることを目的とする。
- 本研究では，深層学習を用いて，脳構造と神経精神症状のスコア間の関係性を学習する正常モデルを構築した。
- 予測スコアと実際のスコアとの乖離度（DNPI）が高いほど，将来的なアルツハイマー病への移行リスクが高いことが示された。
- DNPIは，脳脊髄液中のAB42と匹敵する予測精度を示し，非侵襲的な早期検出戦略の可能性を示唆した。
Link: https://arxiv.org/abs/2604.00545
Reliev3R：多視点幾何学的注釈からの前方再構成の負担軽減 [cs.CV]目的：前方再構成モデルの弱学習パラダイム
- 3次元再構成技術は，自動運転やロボティクスなど様々な分野で不可欠である。
- 既存の前方再構成モデルは，高コストな多視点幾何学的注釈に大きく依存する。
- 少ないデータから高精度な再構成を可能にする学習手法の開発が求められている。
- Reliev3Rは，高コストな幾何学的注釈なしで，前方再構成モデルをゼロから学習する。
- 単眼相対深度と事前学習モデルによる疎な画像対応を用いて，3次元知識を直接獲得する。
- 提案手法は，完全教師あり学習モデルと同等の性能を，少ないデータで実現した。
Link: https://arxiv.org/abs/2604.00548
TF-SSD：相乗的マスクフィルタによる学習不要共同顕著物体検出パイプライン [cs.CV]目的：共同顕著物体検出における性能向上
- 画像群に共通して現れる顕著な物体を検出する技術は，画像解析やコンテンツ理解において重要である。
- 既存手法は，特定のデータセットに依存し，汎化性能が低いという課題がある。
- 本研究では，汎化性能の高いVision Foundation Modelsを活用し，学習不要な手法を開発する。
- 提案手法TF-SSDは，SAMとDINOの相乗効果により，網羅的な候補マスクを生成し，冗長なマスクをフィルタリングする。
- DINOの注意マップを用いて画像内での顕著性を評価し，画像間プロトタイプ選択により，グループ画像全体での理解を深める。
- 実験の結果，TF-SSDは既存手法を大きく上回り，特に最近の学習不要手法に対して13.7%の性能向上を達成した。
Link: https://arxiv.org/abs/2604.00549
データ効率の良いロボット模倣学習のためのマルチカメラビューのスケーリング [cs.RO, cs.CV, cs.LG]目的：ロボットの模倣学習におけるデータ効率と汎化性能の向上
- ロボットの操作における模倣学習は重要であり，多様な専門家によるデモンストレーションが不可欠である。
- 多様な環境でのデモンストレーション収集はコストと手間がかかり，汎化性能のボトルネックとなる。
- カメラビューのスケーリングにより，追加の人的努力なしにシーンの多様性を活用し，汎化性能を高める。
- カメラビューのスケーリングによって擬似デモンストレーションが生成され，学習分布が豊かになり，視点不変性が向上した。
- カメラ空間表現は多様性をさらに高め，異なる行動空間との相互作用が分析された。
- マルチビュー行動集約手法は，単一視点ポリシーが複数のカメラから利益を得ることを可能にした。シミュレーションと実世界の両方で，データ効率と汎化性能が大幅に向上した。
Link: https://arxiv.org/abs/2604.00557
STAR：空間推論におけるカスケードエラーの軽減：旋回点アライメントとセグメントレベルDPO [cs.CV]目的：空間推論におけるカスケードエラーの軽減
- 大規模言語モデルの能力評価において，空間推論は重要なベンチマークである。
- 既存手法は複雑な構造において，エラーが連鎖的に発生しやすいという課題がある。
- 本研究は，空間推論におけるカスケードエラーを抑制し，ナビゲーション性能を向上させる。
- 提案手法STARは，空間的アンカーに基づき，2段階のフレームワークを採用することで，高い性能を発揮する。
- 32BモデルはDeepSeek-V3を凌駕し，GPT-4の性能の82.4%に到達した。
- RedMaze-23Kデータセットは，人間が着想を得た旋回点アノテーションを含み，学習に貢献する。
Link: https://arxiv.org/abs/2604.00558
糞便画像を用いたプライバシー保護連合学習による家禽疾病検知 [cs.CV]目的：家禽疾病分類のためのプライバシー保護連合学習フレームワーク
- 世界の食糧安全保障にとって，高病原性鳥インフルエンザ等の家禽疾病の早期発見は極めて重要である。
- 農場のデータプライバシーへの懸念と，機関間のデータサイロ化が，疾病検知システムの導入を阻害している。
- 分散されたデータを活用しつつ，プライバシーを保護した疾病検知手法を確立することが本研究の目的である。
- 本研究で構築したFecalFedは，中央集権的なデータ利用なしに高い性能を発揮し，データプライバシーを保護する。
- サーバ側の適応的最適化（FedAdam）とSwin-Smallアーキテクチャを用いることで，90.31%の精度を達成した。
- エッジ最適化されたSwin-Tinyモデルは，89.74%の精度を維持し，効率的かつプライバシーを重視した家禽疾病モニタリングの青写真を提示した。
Link: https://arxiv.org/abs/2604.00559
HarassGuard：視覚言語モデルによるソーシャルVRにおけるハラスメント行動の検出 [cs.CV, cs.HC]目的：ソーシャルVRにおけるハラスメント行動の検出
- ソーシャルVRは没入感のある体験を提供するが，オンラインハラスメントのリスクも伴うため，安全性の確保が重要である。
- 既存の安全対策は事後的なものが多く，ハラスメント行動を事前に検出する手法はプライバシー侵害の懸念がある。
- 視覚情報のみを用いて，プライバシーを保護しながらハラスメント行動を検出するシステムの開発を目的とする。
- HarassGuardは，視覚言語モデル(VLM)を用いてソーシャルVRにおける身体的なハラスメントを検出する。
- 実験の結果，HarassGuardは最先端のベースラインと同等の性能（二値分類で最大88.09%，多クラス分類で68.85%の精度）を達成した。
- HarassGuardは，ベースラインよりも大幅に少ない学習データ（200 vs. 1,115）で同等の性能を実現し，文脈推論とプライバシー保護に優れる。
Link: https://arxiv.org/abs/2604.00592
3D基盤モデルの事前知識を用いた視点ロバストなエンドツーエンド自律運転 [cs.CV]目的：カメラ視点変化に対するロバストな軌道計画
- 自律運転のスケールアップには，環境変化への適応能力が不可欠である。
- 既存モデルは，学習時のカメラ視点に依存する傾向が強い。
- 3D基盤モデルの幾何学的事前知識を活用し，視点依存性を軽減する。
- 3D位置情報を位置埋め込みとして注入し，幾何学的特徴をクロスアテンションで融合した。
- VR-Driveベンチマークにおいて，ほとんどの摂動条件下で性能劣化を抑制できた。
- 特にピッチや高さの変化に対して顕著な改善が認められた。
Link: https://arxiv.org/abs/2604.00597
知識グラフ拡張クロスマンバ相互作用による医療画像質問応答 [cs.DC, cs.CV]目的：医療画像と質問文間の知識統合による，医療分野における質問応答性能の向上
- 臨床判断支援や遠隔医療において，画像とテキスト情報を統合する医療画像質問応答は重要である。
- 既存手法では，専門的な医療知識の活用が不十分であり，病変の特徴と診断基準の関連付けが困難である。
- 知識グラフを活用し，病変と疾患知識の関連性を確立することで，自由記述形式の回答に対応できるモデルを開発する。
- 提案手法KG-CMIは，VQA-RAD，SLAKE，OVQAの3つの医療画像質問応答データセットで，既存の最先端手法を上回る性能を示した。
- KG-CMIは，画像とテキストの特徴を詳細に整合させ，専門的な医療知識を効果的に統合することで，クロスモーダル表現学習を実現している。
- 解釈可能性実験により，提案手法が病変と疾患知識の関連性を適切に学習していることが確認された。
Link: https://arxiv.org/abs/2604.00601
流暢な嘘：敵対的頑健性は基盤に依存しうる [cs.CV]目的：オブジェクト検出器における品質劣化現象の解明
- 敵対的攻撃に対するオブジェクト検出器の安全性確保は，実用的なシステムを構築する上で不可欠である。
- 既存の研究では，検出精度低下と検出数の減少が相関すると仮定されているが，実証的な検証が不足していた。
- スパイクニューラルネットワークを用いた検出器における，検出数は維持されつつ精度が低下する現象を明らかにする。
- 標準的な敵対的攻撃下で，EMS-YOLOというスパイクニューラルネットワーク検出器は，mAPが大幅に低下するにも関わらず，70%以上の検出数を維持した。
- この現象を「品質劣化(QC)」と定義し，従来の検出数の抑制とは異なる種類の攻撃に対する脆弱性であることを指摘した。
- 既存の防御手法は，このQCを検知・軽減することができず，防御システムの基盤依存性を示唆している。
Link: https://arxiv.org/abs/2604.00605
TALENT：参照対象を意識した効率的なチューニングによる参照画像セグメンテーション [cs.CV]目的：参照画像セグメンテーションにおける性能向上
- 画像とテキストによる物体指示は，人間と機械のインタラクションにおいて重要性を増している。
- 既存のPET法では，テキストで指示された対象以外のオブジェクトが誤って活性化される問題がある。
- テキスト指示に合致する対象のみを正確に識別し，誤活性化を抑制することを目指す。
- 提案手法TALENTは，Rectified Cost Aggregator (RCA)とTarget-aware Learning Mechanism (TLM)により，テキスト指示された特徴を効率的に集約する。
- TLMは，文脈的ペアワイズ一貫性学習とターゲット中心対照学習を用いて，誤活性化を抑制し，対象の局在化を強化する。
- G-Ref検証セットにおいて，既存手法と比較してmIoUが2.5%向上するなど，様々な評価指標で優れた性能を示した。
Link: https://arxiv.org/abs/2604.00609
LEO衛星支援V2Xネットワークにおける異種平均場ゲームフレームワーク [cs.CL, cs.RO, cs.CL, cs.GT]目的：次世代V2Xネットワークのスケーラビリティボトルネックである，多数の車両（乗用車，貨物車，自動運転車など）の協調制御
- V2Xは，交通事故削減や交通渋滞緩和など，安全で効率的な交通システムの実現に不可欠である。
- 車両数が多くなると，個々の車両を最適化することが困難になり，ネットワーク全体の性能が低下する。
- 異種平均場ゲームを用いて，車両タイプの数を最適化し，効率的な協調制御を実現すること。
- 車両タイプの数を$N^{1/3}$に設定することが，ナッシュ誤差を最小化する最適な設定であることが示された。
- 車両数が10万台規模であっても，約28種類のタイプクラスで十分であり，車両ごとのモデリングよりも効率的であることが示された。
- 提案手法は，従来の均一なベースラインと比較して，遅延を最大29.5%削減し，スループットを最大60%向上させる。
Link: https://arxiv.org/abs/2604.00621
LiPS：リソース制約のあるロボット工学のための軽量パノラマセグメンテーション [cs.RO, cs.HC, eess.SY, cs.SY, cs.RO, cs.CV]目的：リソース制約のあるロボットのための効率的なパノラマセグメンテーション手法
- ロボットの知覚において，意味理解と物体レベルの推論を統合するパノラマセグメンテーションは重要である。
- 最先端モデルの複雑化により，モバイルロボット等のリソース制約のあるプラットフォームへの展開が困難である。
- 計算負荷を軽減しつつ，高精度なパノラマセグメンテーションを実現し，実用的なロボット応用を可能とする。
- LiPSは，重いベースラインと同等の精度を達成しながら，4.5倍のフレームレートを実現した。
- LiPSは，ベースラインと比較して，計算量が約6.8分の1に削減された。
- この効率性により，LiPSは最新のパノラマモデルと現実世界のロボットアプリケーション間の重要な架け橋となる。
Link: https://arxiv.org/abs/2604.00634
複数人ゲームにおけるランキングについて：ホイストを例として [cs.GT, cs.LG]目的：複数人ゲームにおけるランキング手法の開発
- ゲーム理論やランキングは，競技性やモチベーション向上に不可欠である。
- 既存のランキングモデルは，2人ゲームに特化しており，複数人ゲームへの拡張が課題である。
- 複数人ゲームに対応可能な新しいランキングモデルを提案し，その有効性を検証する。
- Bradley-Terryモデルを複数人ゲームへ拡張する手法を提案した。
- Newmanのアルゴリズムを本モデルへ適合させた。
- 合成データセットと実際のカードゲームデータを用いて提案手法を検証した。
Link: https://arxiv.org/abs/2604.00641
DirectFisheye-GS：クロスビュー共同最適化によるガウススプラッティングにおけるネイティブな魚眼入力の実現 [cs.CV]目的：魚眼カメラ入力を用いた3Dガウススプラッティングによる高品質な3Dシーン再構成
- VR/AR分野において，リアルタイムかつ高精度な3Dシーン再構成技術の重要性が高まっている。
- 既存の魚眼カメラ入力処理では，歪み補正による情報損失や詳細の希薄化が問題となっている。
- 魚眼カメラの特性を活かし，歪み補正なしで高品質な3D再構成を実現することを目指す。
- 本研究では，3Dガウススプラッティングフレームワークに魚眼カメラモデルを直接統合することで，前処理なしでの魚眼画像入力が可能となった。
- クロスビュー共同最適化戦略を導入し，異なる視点間の幾何学的・光度学的な制約を確立することで，再構成品質の向上に成功した。
- 公開データセットにおいて，最先端技術と同等またはそれ以上の性能を達成し，有効性が確認された。
Link: https://arxiv.org/abs/2604.00648
AIと専門家が一致するエラー：皮膚鏡画像の内在的曖昧性 [cs.CV]目的：皮膚鏡画像におけるAIと専門家のエラーの一致
- 皮膚科診断において，AIの活用は臨床応用への期待が高い。
- AIの診断精度評価は専門家との比較が主流だが，画像自体の曖昧性は考慮されていない。
- AIと専門家が一致するエラーの原因を，画像の曖昧性に求める。
- AIが誤分類した画像群において，専門家の診断精度が著しく低下した。
- 難易度の高い画像群における専門家間の合意率は，コントロール群と比較して大幅に低下した。
- 画像品質が，AIと専門家双方のエラーの主要因であることが示唆された。
Link: https://arxiv.org/abs/2604.00651
CL-VISTA：ビデオ大規模言語モデルにおける継続学習のベンチマーク [cs.CL, cs.IR, math.ST, stat.TH, eess.SY, cs.SY, cs.CV]目的：ビデオ大規模言語モデルにおける継続学習の評価基準
- 現実世界のデータは常に変化するため，モデルの継続学習能力が不可欠である。
- 既存のベンチマークは，大規模事前学習モデルの評価には不十分である。
- 本研究は，ビデオ大規模言語モデルの継続学習における課題を明確化し，評価を促進する。
- CL-VISTAは，知覚，理解，推論を網羅する8つの多様なタスクを用いて，大規模な分布シフトを誘発し，破滅的忘却を露呈させる。
- 包括的な評価フレームワークを確立し，性能，計算効率，メモリ使用量の3つの側面から継続学習手法を評価した。
- 主流の継続学習手法10種類をベンチマークした結果，普遍的に優れた手法は存在せず，トレードオフが明らかになった。
Link: https://arxiv.org/abs/2604.00677
MoonAnything：大規模月面教師データを用いたビジョンベンチマーク [cs.CV]目的：月面探査のための，幾何学的・測光的両方の教師データを含む大規模なベンチマークデータセット
- 現代の月探査ミッションにおいて，月面の正確な知覚は不可欠である。
- 既存の月面データセットは，幾何学的情報，測光的なリアリズム，多様な照明条件，大規模な範囲のいずれかが不足している。
- 幾何学的・測光的両方の教師データを提供し，多様な照明下での頑健な知覚アルゴリズム開発を支援すること。
- 本研究では，現実の月面地形に基づいて物理ベースレンダリングを行った「MoonAnything」を提案する。
- このベンチマークは，3D再構成と姿勢推定を可能にする立体画像と深度マップ，そして反射率推定と照明ロバスト性を可能にするフォトリアリスティックな画像を提供する。
- 13万件以上のサンプルを含むデータセットを公開し，コミュニティによる拡張を支援するツールも提供している。
Link: https://arxiv.org/abs/2604.00682
TP-Seg：タスクプロトタイプフレームワークによる統一的な医療病変セグメンテーション [cs.CV]目的：多様な医療病変セグメンテーションの効率的な処理
- AI支援診断において，多様な病変に対応できる汎用的なモデル構築が重要である。
- 既存手法では，特徴の混同や勾配の干渉が生じ，最適な病変識別が困難である。
- 多様な画像モダリティと病変タイプに対応可能な適応的な特徴抽出を目指す。
- TP-Segは，8種類の医療病変セグメンテーションタスクにおいて，専門的，汎用，統一的アプローチを安定して上回る性能を示した。
- タスク条件付きアダプターにより，共有表現とタスク固有表現のバランスを効果的に調整し，汎化性能を高めた。
- 学習可能なタスクプロトタイプとクロスアテンション機構により，タスク固有のセマンティクスを詳細にモデル化することに成功した。
Link: https://arxiv.org/abs/2604.00684
TTA-Vid: ビデオ推論のための汎用テスト時適応 [cs.CV]目的：ビデオデータに対するテスト時適応
- ビデオ理解は，多様な応用において重要であり，その進歩が求められている。
- 既存手法は大規模な教師ありデータと複雑な学習プロセスに依存し，適応が困難である。
- 本研究は，ラベルなしでテスト時にモデルを適応させ，汎化性能を高めることを目指す。
- 提案手法TTA-Vidは，テスト時強化学習を用いて，ビデオデータに対するモデル適応を実現する。
- フレーム部分集合を用いた段階的な推論と，報酬に基づくモデル更新を同時に行う。
- 単一のバッチまたはサンプルから学習し，データセット全体や異なるデータセットへの汎化が可能である。
Link: https://arxiv.org/abs/2604.00696
歴史新聞OCRのための状態空間モデルとTransformer，BiLSTMモデルのベンチマーク [cs.CV, cs.LG]目的：歴史新聞OCRにおける状態空間モデルの性能評価
- 歴史的資料のデジタル化は文化遺産の保存・活用に不可欠であり，OCR技術はその重要な要素である。
- 歴史新聞のOCRは，テキストの長さ，劣化，複雑なレイアウトにより，高精度化が困難である。
- Transformerモデルの計算コストに着目し，効率的な状態空間モデル（SSM）のOCRへの応用を目指す。
- 提案するMambaベースのモデルは，TransformerやBiLSTMと比較して，同等の精度を維持しつつ推論時間を大幅に短縮した。
- 特に劣化の激しい段落レベルにおいて，MambaモデルはDANと比較して，処理速度が2.05倍向上した。
- モデル，コード，評価プロトコルを公開することで，大規模文化遺産OCR研究の再現性と発展を促進する。
Link: https://arxiv.org/abs/2604.00725
大規模視覚言語モデルにおけるトークンプルーニング：暗黙の重みプルーニングとして [cs.CV, cs.AI]目的：大規模視覚言語モデルにおけるトークンプルーニング手法
- 視覚言語モデルは画像や動画理解で高い性能を示すが，計算コストが課題である。
- 既存のトークンプルーニングは経験則に頼り，アテンションの内部メカニズムが無視されている。
- アテンションの二重形式に基づき，計算効率と性能の両立を目指す。
- 提案手法は，アテンションを暗黙的な線形層と捉え，トークンプルーニングを最適な部分集合選択問題として定式化する。
- トークンの情報量と重複度を定量化する新たな指標を導出し，効率的な選択手法を提案する。
- 実験結果から，提案手法は性能と効率のバランスに優れ，既存手法の解釈にも新たな視点を与える。
Link: https://arxiv.org/abs/2604.00757
PrivHAR-Bench：ビデオベースのアクション認識のための段階的プライバシーベンチマークデータセット [cs.CV, cs.CR]目的：ビデオベースのアクション認識におけるプライバシーと有用性のトレードオフの標準的な評価
- 人行動認識は，ヘルスケアやセキュリティなど多様な分野で応用が期待されており，重要性が増している。
- 既存研究では，プライバシー保護手法の評価が二者択一的であり，プライバシー強度と認識精度の関係性が不明確である。
- プライバシー保護レベルに応じて認識精度がどのように変化するかを定量的に評価するためのベンチマークデータセットを構築する。
- PrivHAR-Benchは，空間的ぼかしから暗号化まで，多様なプライバシー変換を段階的に適用したデータセットである。
- R3D-18を用いた実験により，プライバシーレベルの上昇に伴い認識精度が低下することが確認された（クリア動画：88.8%，暗号化・背景除去：53.5%）。
- 異なるドメインへの適用では，認識精度が大幅に低下し（4.8%），標準化された条件でのプライバシー保護手法の比較を可能にする。
Link: https://arxiv.org/abs/2604.00761
定義済みのベクトルシステムを用いたニューラルネットワークの多百万クラス分類の高速化 [cs.CL, eess.SY, cs.SY, cs.CL, cs.LG, cs.CV]目的：ニューラルネットワークにおける多百万クラス分類の高速化
- 機械学習の応用範囲拡大に伴い，大規模データセットの効率的な分類処理が重要課題となっている。
- 従来のニューラルネットワークの分類処理はクラス数に比例するため，大規模なクラス分類に時間がかかる。
- 潜在空間の幾何学的特性を利用し，高速なクラスタ中心探索によるラベル予測を実現する。
- 提案手法は，ニューラルネットワークの学習精度を損なうことなく，従来の分類手法と比較して最大11.6倍の全体的な高速化を達成した。
- 埋め込みベクトルにおける最大値と最小値のインデックス検索のみを利用するため，計算効率が非常に高い。
- 潜在空間の構成を工夫することで，未知のクラスの存在予測も可能となる独自の特性を持つ。
Link: https://arxiv.org/abs/2604.00779
手術ビデオデータセットを充実させるアプローチ：視覚言語モデルの空間的・時間的理解向上のために [cs.CV]目的：手術ビデオの空間的・時間的理解を深めるためのデータセットの作成
- 手術支援システム発展には，手術ビデオの理解が不可欠であり，その重要性は高い。
- 既存のデータセットは，複雑な手術の空間的・時間的関係性を捉えきれていないという課題がある。
- 手術ビデオの空間的・時間的関係性を正確に表現するデータセットを効率的に構築することを目的とする。
- SurgSTU-Pipelineという決定論的な生成パイプラインを開発し，高品質な手術データセットを構築した。
- 生成されたSurgSTUデータセットは，7515のビデオクリップと15万件の空間的・時間的質問応答ペアを含む。
- ファインチューニングされた視覚言語モデルは，空間的・時間的タスクにおいて最高性能を達成し，データセットの有効性を証明した。
Link: https://arxiv.org/abs/2604.00784
HiCT：単一X線からの高精度3D CBCT再構成 [cs.CV]目的：単一X線画像からの高精度3D CBCT再構成手法
- 正確な3D歯科イメージングは診断と治療計画に不可欠であり，医療の発展に貢献する。
- CBCTは被ばく線量やコストが高く，普及が課題となっていた。
- 単一パノラマX線画像からの3D再構成における精度と幾何学的整合性の問題を解決する。
- 提案手法HiCTは，ビデオ拡散モデルと動的注意ネットワークを組み合わせることで，高精度な3D再構成を実現した。
- 大規模データセットXCTを構築し，HiCTの有効性を実験的に示した。
- 臨床利用に適した，正確かつ幾何学的に整合性のとれた再構成が可能となった。
Link: https://arxiv.org/abs/2604.00792
マルチモーダル言語モデルは空間的不整合を見抜けない [cs.CV, cs.CL, cs.LG]目的：空間運動の一貫性を破る物体識別
- 現実世界の理解には，空間認識が不可欠であり，モデルの性能向上に繋がる。
- 既存モデルは，複数視点からの3次元形状推論に課題を抱えている。
- ３次元構造の理解が不十分なモデルの脆弱性を明らかにする。
- 最先端のマルチモーダル言語モデルは，人間の観察者よりも性能が大幅に低い。
- モデルは，シーンの属性によって性能に大きな変動を示す。
- 本研究は，物理世界に対するより強固な理解の必要性を示唆する。
Link: https://arxiv.org/abs/2604.00799
コンパクトなキーフレーム最適化マルチエージェントガウススプラッティングSLAM [cs.IR, cs.RO, cs.CV]目的：マルチエージェント3Dマッピングの効率化
- 未知環境でのロボットチーム運用に不可欠であり，協調作業の自律性を高める。
- 高密度な表現が，帯域制限のある通信リンク上でのリアルタイムなデータ交換の妨げとなる。
- データ量を削減しつつ，マッピングの精度を維持することで実用化を目指す。
- 提案手法では，冗長な3Dガウスを削除する圧縮処理をSLAMシステムに組み込んだ。
- 描画品質を損なうことなく，通信負荷を大幅に削減できることを実験で示した。
- レンダリングされた深度画像のみ，または軽量な深度画像を用いることで，最先端手法と比較して85-95%のデータ量削減を達成した。
Link: https://arxiv.org/abs/2604.00804
事前学習済みVision Transformerを用いた人間介入型オブジェクト検索の再検討 [cs.CV, cs.HC, cs.IR]目的：人間介入型オブジェクト検索におけるオブジェクトの多様なインスタンスの迅速な特定
- 画像検索技術は，大量の画像データから目的の情報を効率的に抽出するために不可欠である。
- 複雑な画像内の小さなオブジェクトの検索は，従来の画像記述子では困難である。
- 本研究は，ユーザーのフィードバックを活用した能動学習によるオブジェクト検索の性能向上を目指す。
- 事前学習済みViT表現を用いることで，人間介入型オブジェクト検索タスクにおいて良好な結果が得られた。
- 画像全体の文脈と詳細なオブジェクトの特徴のバランスが，検索性能に影響を与えることが示された。
- 本研究は，能動学習に基づく効果的なインタラクティブ検索パイプラインの設計に関する知見を提供する。
Link: https://arxiv.org/abs/2604.00809
大規模自動運転のためのVision-Geometry-Actionモデル：DVGT-2 [cs.CV, cs.AI, cs.RO]目的：自動運転のためのVision-Geometry-Actionパラダイムの提案と，そのストリーミング処理による高速化
- 自動運転技術は，人手による操作を減らし，安全性と効率性を向上させる上で不可欠である。
- 従来の自動運転は，疎な知覚情報に依存しており，環境の理解が不十分であった。
- リアルタイムな3D環境再構築と経路計画を実現し，より安全で信頼性の高い自動運転を可能にすること。
- 本研究では，密な3Dジオメトリを重要な手がかりとするVision-Geometry-Action (VGA) パラダイムを提案した。
- ストリーミング処理を実現するDriving Visual Geometry Transformer (DVGT-2) は，オンラインでの3Dジオメトリ再構築と経路計画を可能にする。
- DVGT-2は，様々なデータセットにおいて優れたジオメトリ再構築性能を示し，カメラ構成に依存せず汎用的に活用できる。
Link: https://arxiv.org/abs/2604.00813
注意機構に基づく再帰型ネットワークと段階的モダリティドロップアウトを用いた多施設性血栓セグメンテーション [cs.CV, math.OC]目的：多施設性データにおける脳卒中血栓のセグメンテーション
- 脳卒中の迅速な診断と治療には，血栓の正確な検出が不可欠である。
- 3D脳画像における微小ターゲットの検出は難しく，特に多施設性データではドメインシフトやモダリティ欠損が課題である。
- 様々な施設間でのデータ変動に対応し，血栓検出の精度と汎化性能を向上させる。
- 提案手法は単一施設データで90%以上の血栓検出率と0.65のDiceスコアを達成した。
- 多施設性データでモダリティ欠損がある場合でも，約80%の検出率と0.35程度のDiceスコアを維持した。
- 本手法は，脳卒中以外にも，3D医療画像における微小病変検出に応用可能である。
Link: https://arxiv.org/abs/2604.00817
リモートセンシングのための継続的視覚言語学習：ベンチマークと分析 [cs.CV]目的：リモートセンシングにおける継続的視覚言語学習のベンチマークと分析
- リモートセンシングは，地球観測や環境モニタリングに不可欠であり，その精度向上は重要である。
- 既存の視覚言語モデルは，静的なデータに依存し，新しいデータやタスクへの適応が困難である。
- リモートセンシングの視覚言語モデルにおける継続学習能力を向上させるための手法開発が必要である。
- 本研究では，リモートセンシングにおける継続的視覚言語学習のための包括的なベンチマークCLeaRSを提案した。
- CLeaRSは，多様なタスク，センシングモダリティ，アプリケーションシナリオを網羅する207k以上の画像テキストペアで構成される。
- 実験の結果，既存のモデルは継続学習において破局的忘却を示し，継続学習手法の効果は限定的であることが示された。
Link: https://arxiv.org/abs/2604.00820
ビデオパッチ剪定：早期トークン削減による効率的なビデオインスタンスセグメンテーション [eess.SY, cs.SY, math.OC, eess.SY, cs.SY, cs.CV]目的：効率的なビデオインスタンスセグメンテーションの実現
- ビデオインスタンスセグメンテーションは，自動運転やロボティクスなど，多くの応用分野で重要な役割を担う。
- Vision Transformer (ViT)は高性能だが，計算コストが高く実用化が課題となっている。
- ViTの早期層における効率的なスパース化を可能にし，全体的な効率を向上させる。
- 提案手法VPPは，時間的な事前知識を活用し，ViTの早期層で効率的なスパース化を実現した。
- VPPは，従来の画像ベースのパッチ剪定よりも高いパッチ削減率（最大60%）を達成した。
- Youtube-VIS 2021データセットにおいて，性能低下を0.6%以内に抑え，高い性能を維持した。
Link: https://arxiv.org/abs/2604.00827
LinguDistill：選択的クロスモーダル蒸留によるビジョン言語モデルの言語能力回復 [cs.CV, cs.CL]目的：ビジョン言語モデルにおける言語能力の回復
- 画像と言語を組み合わせたモデルは，多様な応用が可能であり，近年注目を集めている。
- 事前学習済みの言語モデルをビジョン言語モデルに変換する際，言語能力が低下しやすいという課題がある。
- 追加モジュールなしに，言語能力を効率的に回復することを目指す。
- LinguDistillは，教師モデルとして元の言語モデルを活用することで，言語能力の低下を回復する。
- レイヤーごとのKVキャッシュ共有により，ビジョン情報を考慮した教師モデルの指導を可能にする。
- 言語能力に焦点を当てたデータで蒸留を行うことで，言語性能を約10%向上させながら，視覚タスクの性能を維持する。
Link: https://arxiv.org/abs/2604.00829
解きほぐして再結合：主導型テキスト画像生成における類似性と制御可能性のパラドックス解決 [cs.CV]目的：主導型テキスト画像生成における類似性と制御可能性のパラドックスの解消
- 画像生成技術は，指示に基づいて多様な画像を生成可能であり，クリエイティブな応用に貢献している。
- 主導型画像生成では，被写体の忠実性とテキスト指示の制御性の両立が課題となっている。
- テキストと画像の情報を分離し，再結合することで，両立を実現し，高画質で自然な画像を生成することを目指す。
- 提案手法DisCoは，テキストと視覚情報を分離・再結合することで，類似性と制御可能性のトレードオフを解消する。
- 被写体の識別情報を画像から抽出し，テキスト指示を修正コマンドに限定することで，情報の曖昧さを解消している。
- 強化学習を用いた報酬設計により，被写体と背景の自然な合成を実現し，高品質な画像生成を可能にしている。
Link: https://arxiv.org/abs/2604.00849
MotionGrounder: 拡散Transformerによる多物体モーション伝達 [cs.RO, cs.CV]目的：多物体モーション伝達の実現
- 動画生成技術は，表現の幅を広げ，様々な応用を可能にする重要な分野である。
- 既存手法は単一物体に限定され，複雑なシーンにおける細粒度な制御が困難であった。
- 複数の物体を対象としたモーション伝達による，より自然な動画生成を目指す。
- 提案手法MotionGrounderは，拡散Transformerを用いて多物体モーション伝達を可能にした。
- Flow-based Motion Signal (FMS)により安定したモーション事前情報を生成し，Object-Caption Alignment Loss (OCAL)によって物体キャプションと空間領域を関連付けた。
- Object Grounding Score (OGS)により，空間的アライメントと意味的一貫性を評価し，定量・定性・人間評価において既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2604.00853
摂動と復元：不均衡な染色体異常検出のためのシミュレーション駆動型構造拡張フレームワーク [cs.CV]目的：染色体構造異常検出におけるデータ不均衡の緩和
- 遺伝子疾患の正確な診断・管理には，染色体構造異常の検出が不可欠である。
- 臨床現場では，構造異常データの収集が困難であり，異常型の網羅性が課題である。
- 希少な異常サンプルに依存せず，データ不均衡を解消する手法の開発。
- 提案手法（P&Rフレームワーク）は，26万枚以上の染色体画像データセットにおいて最先端の性能を達成した。
- 感度，精度，F1スコアにおいて，既存手法と比較して平均8.92%，8.89%，13.79%の向上が確認された。
- P&Rフレームワークは，正常染色体の帯状パターンを摂動させ，拡散ネットワークで復元することで，質の高い合成サンプルを生成する。
Link: https://arxiv.org/abs/2604.00854
点群に基づく人体モーションキャプチャのための堅牢かつ多様な表現：Sparkle [cs.HC, cs.CV]目的：点群に基づく人体モーションキャプチャにおける効果的な表現の構築
- 近年，プライバシー保護と豊富な空間情報を活用できる点群ベースのモーションキャプチャが注目されている。
- 点群データはノイズが多く構造化されていないため，ロバストな表現学習が困難である。
- 表現力とロバスト性を両立した，新しいモーションキャプチャ表現を提案し，課題解決を目指す。
- 提案手法Sparkleは，骨格関節と表面アンカーを統合した構造化表現を用いることで，幾何学的詳細とロバスト性を両立した。
- 幾何学的連続性と運動学的制約を組み込んだ階層モジュールにより，内部の運動構造と外部の表面形状を分離的に学習する。
- 厳しいドメインシフト，ノイズ，オクルージョン下でも，最先端の性能を発揮し，汎化能力が高いことが実験的に示された。
Link: https://arxiv.org/abs/2604.00857
ガウス過程混合モデルによる形状表現 [cs.CV]目的：形状の関数表現
- 3D形状の表現は，コンピュータグラフィックス，ロボティクス等で不可欠である。
- 点群やメッシュ等の従来の表現は，詳細な形状を表現するのに大容量の記憶領域を要する。
- 疎な点群から効率的に連続的な形状を学習する手法の開発。
- 提案手法は，ガウス過程混合モデルを用いて，軽量かつ高精度な形状表現を可能にする。
- 戦略的な参照点に局所的なガウス過程の事前分布を固定することで，複雑なトポロジーを捉える。
- ShapeNetCoreおよびIndustryShapesデータセットでの評価により，提案手法の有効性が確認された。
Link: https://arxiv.org/abs/2604.00862
単眼腹腔鏡ビデオからの訓練不要な能動的推論のための4次元表現 [cs.IR, cs.CV]目的：腹腔鏡手術における空間的・時間的推論の実現
- 軟部組織手術において，AIによる支援システムの開発が重要視されている。
- 手術場面の空間的複雑さから，AIの推論能力向上が課題となっている。
- 明示的な4次元表現を用いたAIにより，空間的・時間的推論の精度向上を目指す。
- 本手法は，点追跡，深度推定，セグメンテーションモデルを用いて一貫性のある4次元モデルを構築する。
- ファインチューニングなしで，大規模多言語モデル（MLLM）が4次元表現に基づいたツールを利用して推論を行う。
- 臨床的に関連性の高い134件の質問に対する評価で，空間的・時間的理解が大幅に向上することが示された。
Link: https://arxiv.org/abs/2604.00867
PixelPrune：予測符号化によるピクセルレベル適応的な視覚トークン削減 [cs.CV, cs.AI, cs.CL]目的：視覚トークンの削減
- 画像とテキストを扱うモデルの応用範囲拡大に伴い，計算コストの増大が課題となっている。
- 高解像度画像入力は大量の視覚トークンを生み出し，計算資源を浪費する要因となっている。
- 画像内のピクセル重複性を利用し，計算コストを削減し，推論速度を向上させる。
- PixelPruneは，予測符号化に基づく圧縮により画像パッチの冗長性を削減する。
- 学習不要でパラメータも持たず，ピクセル損失のない圧縮から制御された損失圧縮まで可能。
- 様々なモデル規模とベンチマークで，タスク精度を維持しつつ，最大4.2倍の推論速度向上と1.9倍の学習加速を実現。
Link: https://arxiv.org/abs/2604.00886
SAR物体検出に対する敵対的減衰パッチ攻撃 [cs.CV, cs.CR]目的：SAR物体検出における敵対的攻撃手法
- SAR画像は，天候に左右されず広範囲を観測可能であり，軍事・防災等で重要。
- 深層学習によるSAR物体検出は脆弱であり，巧妙な攻撃で誤検出を誘発可能。
- 物理的な制約を考慮した，より実用的な敵対的攻撃手法の確立。
- 敵対的減衰パッチ(AAP)は，エネルギー制約下での最適化と減衰ベースの配置により，攻撃効果と隠蔽性のバランスを実現。
- AAPは，信号レベルの電子妨害メカニズムに合致し，物理的な実現可能性が高い。
- 実験結果から，AAPは検出性能を効果的に低下させつつ，高い不可視性を維持し，モデル間の転移性も良好であることが示された。
Link: https://arxiv.org/abs/2604.00887