arXiv雑要約

画像・音声 - 2026/04/02 公開

長期的ロボットタスクに対する汎化可能な密な報酬 [cs.RO, cs.CV, cs.LG]目的：長期的ロボットタスクにおける性能向上
- ロボットの汎用的な能力向上は，様々なタスクへの適応に不可欠である。
- 既存手法では，分布シフトや誤差累積により，長期タスクでの性能が課題となる。
- 大規模言語モデルを活用し，手動での報酬設計なしに汎化性能を高める。
- 提案手法VLLRは，LLMとVLMを用いてタスクの進捗を認識し，密な報酬を生成する。
- VLMによる価値関数の初期化はタスク完了効率を，自己確信度は成功率を向上させる。
- CHORESベンチマークにおいて，VLLRは最大56%の成功率向上を達成した。
Link: https://arxiv.org/abs/2604.00055
大規模言語モデルを用いたビジョンエンコーダの階層的事前学習 [cs.CV, cs.AI, cs.CL, cs.LG]目的：ビジョンエンコーダと大規模言語モデル間の階層的なクロスアテンションによるビジョン言語アライメントの強化
- コンピュータビジョン分野は発展を続けており，スケーラブルなビジョンエンコーダとマルチモーダル事前学習が重要視されている。
- 既存手法では，ビジョンエンコーダとLLMを独立したモジュールとして扱うため，階層的な視覚特徴の統合が限定的である。
- 本研究では，階層的な特徴融合を通して，ビジョンエンコーダとLLM間の相互作用を最適化し，より効率的なモデルを目指す。
- HIVEは，画像分類だけでなく，MME，GQA，OK-VQA，ScienceQAといった様々なビジョン言語タスクにおいても優れた性能を発揮した。
- 従来のself-attentionベースの手法と比較して，HIVEはベンチマークにおいてより高い性能を示し，その有効性を証明した。
- 階層的な特徴統合の利点が示され，より効率的で表現力の高いビジョン言語モデル開発への道を開いた。
Link: https://arxiv.org/abs/2604.00086
RawGen：カメラロー画像生成の学習 [cs.CV]目的：カメラロー画像のテキストからの生成と，sRGB画像からのロー画像への変換
- 低レベルビジョンタスクにおいて，より忠実なローデータが重要である。
- 大規模なローデータセットの収集が，特定のカメラハードウェアに依存するため困難である。
- 多様なカメラに対応可能な，物理的に整合性の取れたロー画像生成手法を確立する。
- RawGenは，拡散モデルを用いてテキストからロー画像を生成し，sRGB画像からロー画像を逆変換する初のフレームワークである。
- 多様なISPパラメータで生成されたsRGB画像を共通のシーン参照ターゲットにアンカリングするデータセットを構築し，カメラ固有の線形再構成を実現した。
- RawGenは従来の逆ISP手法よりも優れた性能を示し，低レベルビジョンタスクの訓練データ拡張に貢献する。
Link: https://arxiv.org/abs/2604.00093
マッチング市場における取引利得の近似 [cs.GT]目的：取引利得の近似
- 市場設計は，経済効率と公平性を両立させる上で重要な役割を果たす。
- 既存手法は，買い手と売り手の関係が限定的な場合に適用が困難であった。
- より広範な市場構造における取引利得の近似メカニズムを開発する。
- 本研究では，任意の制約を持つマッチング市場において，真実を述べるインセンティブを保ちつつ，最適な取引利得の定数倍を保証するランダム化メカニズムを提案する。
- この結果は，Caiらの未解決問題に答えるものである。
- 提案メカニズムは，既存手法よりも汎用的な市場構造に適用可能である。
Link: https://arxiv.org/abs/2604.00129
符号付き距離データに対するデュアルコンツーリング [eess.SY, cs.SY, cs.DC, cs.CE, cs.GR]目的：離散的にサンプリングされた符号付き距離関数(SDF)データからのポリゴンメッシュ再構成
- 3Dモデリングやデザインにおいて，形状の正確な表現が不可欠であるため。
- SDFデータからのメッシュ再構成は，シャープな特徴を捉えるのが難しい場合がある。
- SDFデータから高精度なポリゴンメッシュを効率的に生成することを目指す。
- 提案手法は，SDFデータのみを利用して，各セルの頂点位置を最適化する。
- 中〜高解像度において，SDFからの表面再構成において最先端の結果を達成した。
- 3Dモデリングやデザインへの応用可能性を広げることが期待される。
Link: https://arxiv.org/abs/2604.00157
Q-Mask：OCR指向の視覚言語モデルにおけるテキストアンカリングのためのクエリ駆動型因果マスク [cs.DB, cs.CV]目的：OCR指向の視覚言語モデルにおけるテキストアンカリングの精度向上
- 近年，視覚言語モデルにおいてOCRが重要な役割を果たし，画像中のテキスト読み取りと実世界VQAへの応用が期待されている。
- 既存の視覚言語モデルは，クエリされたテキストと対応する空間領域との正確な関連付け（テキストアンカー）の確立に課題がある。
- クエリ駆動型因果マスクデコーダを用いた高精度なOCRフレームワークQ-Maskを提案し，テキストアンカリングの安定性と精度を向上させる。
- Q-Maskは，クエリに条件付けられた視覚マスクを逐次的に生成することで，テキストの存在場所と内容を分離し，根拠に基づいたテキスト認識を実現する。
- 大規模データセットTextAnchor-26Mを用いて訓練することにより，安定したテキスト領域対応関係を学習し，視覚言語モデルに空間的知識を注入する。
- 多様な視覚シーンにおいて，Q-Maskはテキストアンカリングと理解能力を大幅に向上させることを実験的に示した。
Link: https://arxiv.org/abs/2604.00161
マスク画像モデリング表現における非意味的ノイズの抑制 [cs.CV]目的：マスク画像モデリング表現における非意味的情報の抑制
- 画像認識技術の発展は，コンピュータビジョンの重要な課題であり，様々な応用分野で求められている。
- 自己教師あり学習は有効だが，学習された表現に不要な情報が残存し，性能低下の原因となることがある。
- 表現に含まれる非意味的情報を抑制し，より汎化性能の高いモデルを構築することを試みる。
- 提案手法SOAPは，主成分分析に基づき，非意味的情報を定量化し，表現から除去する。
- SOAPは，追加学習を必要とせず，既存のモデルに容易に組み込むことができる。
- 様々なマスク画像モデリングモデルにおいて，ゼロショット性能の向上が確認された。
Link: https://arxiv.org/abs/2604.00172
スマートレースロックセンサーを用いた座位・立位移行の検出と持続時間の測定 [eess.SY, cs.SY, cs.CL, cs.LG, cs.CV]目的：座位・立位移行の検出と持続時間の測定方法
- 高齢化社会において，転倒予防と自立した生活を支援する上で，姿勢制御の評価は重要である。
- 従来の評価方法では，専門的な設備や熟練した技能が必要であり，日常生活での継続的なモニタリングが困難である。
- 本研究は，簡便なウェアラブルセンサーを用いて，座位・立位移行を正確に検出し，持続時間を測定することを目指す。
- スマートレースロックセンサーを用いて，高齢者16名の座位・立位移行を評価した結果，高い検出精度が得られた。
- 袋集団決定木分類器は，座位・立位移行の分類において，98%の精度と80%のF1スコアを達成した。
- 座位・立位移行時間の測定誤差は平均で0.047秒であり，実用的なモニタリングへの可能性を示唆する。
Link: https://arxiv.org/abs/2604.00175
QUEST：クエリ変調球面注意を用いたロバストな注意機構 [cs.LG, cs.AI, cs.CV]目的：クエリとキーのノルム増加による学習不安定化問題の解決
- Transformerは深層学習で広く利用され，注意機構はその中核をなす。
- クエリとキーのノルムが任意に増加すると，学習が不安定になることがある。
- データ内の偽パターンによる学習不安定化を抑制し，ロバスト性を向上させる。
- QUESTは，キーをハイパースフェリック潜空間に制約することで学習の不安定性を解消する。
- 標準的な注意機構の置き換えが可能であり，汎用性も高い。
- 画像認識を含む様々なタスクで性能が向上し，データ汚染や敵対的攻撃に対するロバスト性も示された。
Link: https://arxiv.org/abs/2604.00199
高スループットブロックチェーンにおけるスパムMEVの分析 [cs.GT]目的：高スループットブロックチェーンにおけるスパムMEVの発生状況と影響
- ブロックチェーン技術は，分散型アプリケーションの基盤として重要であり，その性能向上が求められている。
- 高スループット化に伴い，投機的なトランザクションによるスパムMEVが増加し，ネットワーク効率を低下させている。
- ブロックチェーンの設計パラメータがスパムMEVに与える影響を分析し，その抑制策を検討すること。
- スパムMEVはブロック容量が限られている場合，ユーザーのトランザクションを圧迫し，ガス価格を上昇させる。
- ブロック容量が増加した場合，スパムMEVは実行リソースを消費し，ネットワークの外部性を高める。
- スパムMEVの抑制策として，ブロック容量の上限設定や優先手数料によるトランザクションの並び替えが有効である。
Link: https://arxiv.org/abs/2604.00234
UCell：バイオメディカル画像モデルの汎用性とスケーラビリティの再考 [cs.IR, cs.CL, cs.CV, q-bio.QM]目的：単一細胞セグメンテーションタスクにおける小型モデルの性能向上
- バイオメディカル研究では，高品質なデータ確保が困難であり，大規模モデルの学習がボトルネックとなる場合が多い。
- 既存研究は大規模モデル構築に偏っており，小型モデルの汎用性向上は十分に検討されていない。
- 自然画像の大規模事前学習に依存せず，限られたバイオメディカル画像データのみで高性能なモデルを構築する。
- UCellは，10-30Mパラメータという小型モデルでありながら，10-20倍のサイズのモデルと同等の性能を複数のベンチマークで実現した。
- UCellは，未知のドメインデータに対しても高い汎用性を示し，大規模事前学習を必要としない。
- 様々な小規模データセットを用いたOne-shot/Few-shot fine-tuning実験により，UCellの適応性が確認された。
Link: https://arxiv.org/abs/2604.00243
PRISM：拡散テンソル画像におけるフィクセル復元のための微分可能な解析合成 [cs.CV]目的：拡散テンソル画像におけるフィクセル復元手法
- 拡散テンソル画像は脳の白質線維構造を評価する上で重要であり，様々な脳疾患の診断や研究に利用される。
- 従来のフィクセル復元手法は非凸最適化問題を解く必要があり，線維交差領域での正確な復元が困難である。
- 本研究では，解析合成フレームワークを用いて，線維交差領域においても高精度なフィクセル復元を可能とする手法を提案する。
- PRISMは，合成データにおいて，既存の最良手法と比較して，角度誤差を1.9倍低減し，95%の再現率を達成した。
- 負の対数尤度モードと学習されたシグマを用いることで，角度誤差をさらに低減し，20度の狭い線維交差も解決可能となった。
- DiSCo1ファントムを用いた評価では，PRISMはすべての追跡角度において，CSDベースラインよりも高い接続性相関を示した。
Link: https://arxiv.org/abs/2604.00250
相互作用のベンチマーク：協調インスタンスオブジェクトナビゲーションのための再現可能な基準 [cs.CV, cs.AI]目的：協調インスタンスオブジェクトナビゲーションにおける，ナビゲーション能力と協調的な質疑応答能力の明確な評価
- ロボットによる現実世界でのナビゲーションは，人間の指示に基づき，曖昧さを解消する必要がある。
- 既存のベンチマークはナビゲーション成功に偏重しており，協調的対話の評価が不十分である。
- ナビゲーションと質疑応答を分離し評価可能なベンチマークを構築することで，対話型AIモデルの性能向上を目指す。
- 新しいベンチマークQAsk-Navを開発し，ナビゲーションと質疑応答を独立して評価可能にした。
- QAsk-Navは28,000件の質疑応答データを含み，CoINモデルの学習と分析を支援する。
- 軽量なモデルLight-CoNavを開発し，既存手法よりも高速かつ汎化性能が高いことを示した。
Link: https://arxiv.org/abs/2604.00265
Omni-MMSI：アイデンティティ属性付き社会交流理解に向けて [cs.CV]目的：社会交流理解の包括的タスク
- AIアシスタントの発展には，人間との自然な交流を理解する能力が不可欠である。
- 既存手法は，事前に処理されたデータに依存しており，現実の複雑な状況に対応できない。
- 生データからの正確なアイデンティティ属性の認識と社会交流の推論を目指す。
- 提案手法Omni-MMSI-Rは，既存のLLMや同等の手法と比較して，Omni-MMSIタスクにおいて優れた性能を発揮する。
- 参照ガイド型パイプラインを用いることで，信頼性の高いアイデンティティ属性の認識を可能にした。
- 参加者レベルの参照ペアと推論アノテーションを構築し，データセットを拡張した。
Link: https://arxiv.org/abs/2604.00267
OmniSch：構造化された図表視覚的推論のための多Modal PCB回路図ベンチマーク [cs.CV]目的：PCB回路図の視覚的理解と空間ネットリストグラフ構築の評価
- 電子設計自動化（EDA）において，回路図は不可欠であり，その処理能力向上は効率化に繋がる。
- 既存のLMMは回路図の要素，接続，配置を正確に解釈する能力に課題があり，実用的なEDAワークフローへの適用が困難。
- LMMの回路図理解能力を評価し，ネットリストグラフ構築の性能向上を目指す。
- 本研究で開発したOmniSchベンチマークは，1854枚の実回路図と4つの評価タスクを含む初の包括的なベンチマークである。
- 実験結果から，既存のLMMは回路図要素の正確な位置特定，レイアウトに基づくグラフ構築，グローバルな接続推論において課題があることが示された。
- 特に，細かい部分の位置特定や，レイアウトとグラフの関連付けが不安定であることが明らかになった。
Link: https://arxiv.org/abs/2604.00270
エキサイト，アテンション，セグメント (EASe)：特徴量較正と自己教師ありアップサンプリングによるドメイン非依存なファイングレインマスク検出 [cs.CV]目的：複雑な多成分形態のシーンにおけるファイングレイン構造の詳細な発見
- 基礎モデルを活用した教師なしセグメンテーションが発展している。複雑なシーンでの詳細な構造把握が重要である。
- 既存手法は粗いパッチレベル表現に依存し，ファイングレインな詳細を抑制してしまうという課題がある。
- 本研究は，詳細なマスク検出を可能にする新しいフレームワークを提案し，複雑な形態のシーンに対応することを目指す。
- EASeは，セマンティックアウェアアップサンプリングとチャンネル励起(SAUCE)を活用し，低解像度特徴量を選択的に較正する。
- 空間符号化された画像と基礎モデルの特徴量にアテンションを向け，高解像度セマンティック表現を復元する。
- トレーニングフリーのCue-Attentive Feature Aggregator (CAFE)により，集約された特徴量をマルチ granularityマスクにセグメント化する。
Link: https://arxiv.org/abs/2604.00276
妥協の幾何学：制御可能なモダリティアラインメントによる生成能力の解放 [cs.CV, cs.AI]目的：画像とテキストの共有埋め込み空間におけるモダリティギャップの低減
- 画像とテキストを組み合わせた処理は，様々な応用分野で重要性が増している。
- 既存モデルでは，画像とテキストの表現間に「モダリティギャップ」が存在し，性能を制限している。
- 本研究では，モダリティギャップを構成する要素を分析し，両方のギャップを同時に低減する手法を提案する。
- 提案手法TPC-CMAは，モダリティギャップを最大82.3%まで低減することを示した。
- クラスタリングARIは0.318から0.516に，キャプション評価指標CIDErは57.1%向上した。
- わずか4.84%の精度低下で，66.6%のギャップ低減を達成した。
Link: https://arxiv.org/abs/2604.00279
MambaVoiceクローニング：ステートスペースモデルと拡散制御による効率的かつ表現力豊かなテキスト読み上げ [eess.SY, cs.SY, eess.SY, cs.SY, cs.CL, cs.SD, cs.LG]目的：拡散に基づくテキスト読み上げにおける条件付け経路の完全なSSM化
- 自然な音声合成技術は，人間とコンピューターのコミュニケーションを円滑にする上で不可欠である。
- 従来のテキスト読み上げモデルは，計算コストが高く，メモリ消費量が多いという課題があった。
- 本研究は，より効率的で安定したテキスト読み上げモデルの実現を目指す。
- MVCは，StyleTTS2，VITS，Mamba-attentionハイブリッドと比較して，MOS/CMOS，F0 RMSE，MCD，WERにおいてわずかながら統計的に有意な改善を達成した。
- エンコーダーのパラメータ数を21Mに削減し，スループットを1.6倍に向上させた。
- 拡散が主要な遅延源のままであるものの，SSMのみの条件付けにより，メモリフットプリント，安定性，デプロイ可能性が向上した。
Link: https://arxiv.org/abs/2604.00292
SANA I2I：テキストフリーフローマッチングフレームワーク - ペア画像間の画像変換とその胎児MRIアーチファクト低減への応用 [cs.HC, cs.CV, cs.AI]目的：ペア画像間の画像変換のためのテキストフリー高解像度画像生成フレームワーク
- 医療画像処理は，診断精度向上に不可欠であり，近年その重要性が増している。
- 高品質なペア画像データの取得が困難であり，教師あり学習のボトルネックとなっている。
- テキストプロンプトに頼らず，ペア画像のみで画像変換を可能にし，データ取得の課題を解決する。
- SANA I2Iは，テキスト条件なしで高解像度な画像生成を可能にする。
- 胎児MRIのモーションアーチファクト低減において，解剖学的構造を維持しつつ効果的なアーチファクト抑制を実現した。
- 少ステップでの推論で競合する性能を示し，医療画像における効率的な画像変換の可能性を示唆する。
Link: https://arxiv.org/abs/2604.00298
慢性心不全のモニタリングにおける音声由来の予後予測デジタルバイオマーカー：縦断的観察研究 [cs.SD, cs.LG]目的：慢性心不全患者における健康状態悪化の予測に関わる音声特徴の評価
- 心不全は進行性の疾患であり，医療経済的負担が大きい。早期発見と介入が重要である。
- 既存の在宅モニタリングは予測精度が低く，患者の積極的な参加が必要とされる。
- 本研究は，音声データを用いた早期の健康状態変化の検出による，より積極的なケアを目指す。
- 音声の母音特徴は健康状態と強い相関関係が認められた。
- 過去の音声データに基づく時系列特徴は，既存のモニタリング指標よりも高い感度と特異度を示した（0.826/0.782 vs 0.783/0.567）。
- エネルギーシフトの遅延，エネルギー変動の低さ，母音のシマー変動の高さなどが，健康状態悪化の重要な指標となった。
Link: https://arxiv.org/abs/2604.00308
半教師あり学習による水中の生物分類：フローズン基盤モデル埋め込みを用いたラベル効率の向上 [cs.HC, cs.CV]目的：水中の生物分類におけるラベルコストの削減と，異なる環境へのモデル汎化性能の向上
- 水中の生物観察は生物多様性の理解に不可欠だが，専門家によるアノテーションコストが高い。
- 既存の教師あり学習モデルは，異なる環境下での性能劣化が課題である。
- 少ないラベルデータで高精度な分類を可能にし，現場での実用的な基盤を提供する。
- フローズン基盤モデル埋め込みを用いた半教師あり学習により，わずか5%以下のラベル数で，フル教師あり学習モデルの性能に迫る結果が得られた。
- フル教師あり学習の場合でも，性能差は数パーセント以内に抑えられ，一部の生物種では教師あり学習モデルを上回る結果が得られた。
- 埋め込み空間におけるクラス分離性は，ラベルが極端に少ない場合でも高く，フローズン表現が識別構造を捉えていることを示唆する。
Link: https://arxiv.org/abs/2604.00313
VADMamba++：グレースケール空間におけるハイブリッドモデリングによる効率的な異常動画検知 [cs.CV]目的：効率的な異常動画検知手法の開発
- 動画異常検知は，監視システムや自動運転など，安全性確保に不可欠な技術である。
- 既存手法は，計算コストが高い，または単一タスクでの性能が低いという課題がある。
- フレームレベル入力のみで高精度かつ効率的な異常動画検知を実現すること。
- VADMamba++は，グレースケールからRGBへの変換を利用し，構造と色情報の不整合を検出する。
- Mamba，CNN，Transformerを組み合わせたハイブリッドモデリングにより，多様な通常パターンを学習し，異常を抑制する。
- 将来フレーム予測誤差と量子化された特徴誤差を統合したスコアリング戦略により，単一タスク設定下で高精度を実現する。
Link: https://arxiv.org/abs/2604.00360
照明不変なTIR-LiDARを用いた人物追跡のためのデュアルストリームTransformerアーキテクチャ [cs.RO, cs.CV]目的：照明条件に依存しない人物追跡アーキテクチャの開発
- 自律移動ロボットの多様な環境下での運用において，頑健な人物追跡は不可欠である。
- 従来のRGB-D追跡は，暗闇や逆光などの照明条件が悪い環境下では性能が著しく低下する。
- TIR-Dセンサーを用いて，あらゆる天候下での人物追跡を可能とするロバストなシステムを構築する。
- 提案手法は，大規模な熱画像データセットから学習した知識をTIR-Dドメインに適応させる逐次的な知識転移戦略を採用している。
- ファイングレイン微分学習率戦略により，事前学習された特徴抽出能力を維持しつつ，幾何学的深度情報を迅速に学習している。
- 実験結果から，提案手法は平均重複率(AO)0.700，成功率(SR)58.7%を達成し，従来のRGB-D追跡や単一モダリティベースラインを大幅に上回ることが示された。
Link: https://arxiv.org/abs/2604.00363
妨害攻撃下におけるLiDAR点群のニューラル再構成：全波形表現と同時レーザーセンシングによる [cs.DC, cs.CV]目的：妨害攻撃下におけるLiDAR点群の再構成
- 自動運転の知覚においてLiDARは不可欠だが，欺瞞攻撃に脆弱である。
- 妨害攻撃はLiDARセンサーを完全に盲目化し，悪意のある信号が真の信号を圧倒する。
- 全波形データの識別可能な特徴を利用し，妨害攻撃下でも点群を再構成する。
- 本研究では，全波形表現と同時レーザーセンシングを活用するPULSAR-Netを提案する。
- PULSAR-Netは，妨害攻撃によって隠蔽された車両の再構成率を，実世界環境でそれぞれ92%と73%で達成した。
- 合成データのみで学習しているにもかかわらず，高い再構成性能を示した。
Link: https://arxiv.org/abs/2604.00371
RGB-Dベースの屋内シーン認識のための適応的特徴選択を伴う動的グラフニューラルネットワーク [cs.CV]目的：RGB-Dデータの重要な局所特徴の適応的選択と効果的な活用
- 屋内シーン認識において，RGB-Dデータの重要性が高まっており，3次元構造や物体間の幾何学的関係を捉えることができる。
- 既存研究では局所特徴が認識精度向上に重要だが，効果的な局所特徴の選択と活用が課題となっていた。
- RGBと深度の両方のモダリティから重要な局所特徴を抽出し，グラフモデルを構築することで，この課題を解決することを目指す。
- 提案手法では，動的グラフモデルと適応的ノード選択メカニズムを用いて，RGBと深度の局所特徴を効果的に活用する。
- ノードはオブジェクト間の関係に応じて3つのレベルでグループ化され，グラフモデルはアテンション重みに基づいて動的に更新される。
- SUN RGB-DとNYU Depth v2データセットでの実験により，提案手法が最先端手法と比較して優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2604.00372
ディスプレイ下カメラ画像復元のための不確実性認識コンテキストメモリネットワーク [cs.CL, cs.DC, cs.CE, eess.SY, cs.SY, eess.SY, cs.SY, cs.CV]目的：ディスプレイ下カメラ画像における高周波詳細の復元
- ディスプレイのフル画面化が求められる中で，カメラをディスプレイ下に配置する技術が重要視されている。
- ディスプレイ層による光の回折と散乱が，画像劣化を引き起こし，高周波詳細の損失を招いている。
- 空間的に変化する複雑な劣化に対応し，高周波詳細の復元を改善することを目的とする。
- 提案手法UCMNetは，不確実性を考慮した適応的な処理により，劣化の異なる領域において高周波詳細を効果的に復元する。
- 学習された不確実性マップが回折と散乱による空間的不確実性を定量化し，領域適応的なコンテキストの検索を導く。
- UCMNetは，既存モデルと比較して30%少ないパラメータで，複数のベンチマークにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.00381
mmAnomaly：mmWaveレーダーと視覚的コンテキストを活用した非視覚環境における堅牢な異常検知 [cs.CV, eess.SP]目的：非視覚環境におけるmmWaveレーダーを用いた堅牢な異常検知手法
- 従来のカメラでは困難な環境下でも，人間のセンシングを可能にするmmWaveレーダーの重要性が高まっている。
- mmWaveレーダー信号は，材質や反射の影響を受けやすく，異常検知において誤認識が発生しやすい。
- 視覚的コンテキストを導入することで，mmWaveレーダーの異常検知精度と解釈性を向上させることを目指す。
- mmAnomalyは，mmWaveレーダーとRGBD入力を組み合わせることで，シーンの幾何学構造や材質などのセマンティック情報を活用する。
- 条件付き潜在拡散モデルを用いて期待されるmmWaveスペクトルを合成し，実測スペクトルとの比較により異常を局所化する。
- 3つのアプリケーションにおいて最大94%のF1スコアとサブメーターの局所化誤差を達成し，優れた汎化性能を示す。
Link: https://arxiv.org/abs/2604.00382
サイドスキャンソナーにおける地雷様物体分類のためのドメイン内自己教師あり学習：Mine-JEPA [cs.CV]目的：サイドスキャンソナー画像を用いた地雷または地雷様物体の分類性能向上
- 海洋における安全確保のため，地雷探知・除去技術は不可欠であり，その自動化が求められている。
- サイドスキャンソナー画像は，自然画像とは異なり，データが極端に不足しており，学習が困難である。
- 少量のデータでも，高精度な地雷・地雷様物体分類を実現する手法を開発すること。
- 提案手法Mine-JEPAは，わずか1,170枚のラベルなしソナー画像で事前学習を行い，F1スコア0.935を達成した。
- Mine-JEPAは，17億枚の画像で事前学習されたDINOv3をファインチューニングした結果よりも優れた性能を示した。
- ドメイン適応に重点を置くと，大規模な事前学習済みモデルの性能が低下する場合があることが示唆された。
Link: https://arxiv.org/abs/2604.00383
トラッキング強化プロンプトによる複雑なビデオオブジェクトセグメンテーションの発展：第5回PVUW MOSEチャレンジ優勝 [cs.CV]目的：複雑なビデオオブジェクトセグメンテーションの性能向上
- ビデオオブジェクトセグメンテーションは，自動運転やロボティクスなど，様々な応用分野において重要な技術である。
- 既存手法は，特に小さく，意味情報に依存するオブジェクトのセグメンテーションにおいて課題を抱えている。
- SAM3の対象理解の限界を克服し，複雑な条件下でのセグメンテーション精度を向上させる。
- 提案手法TEPは，外部トラッキングモデルと大規模言語モデルを活用し，トラッキング強化プロンプトを導入することで，SAM3の課題を解決する。
- TEPは，PVUWチャレンジ2026の複雑なビデオオブジェクトセグメンテーショントラックにおいて，56.91%のスコアで第1位を獲得した。
- 本研究は，トレーニングを必要としないアプローチであり，既存モデルへの容易な組み込みが可能である。
Link: https://arxiv.org/abs/2604.00395
ECGデジタル化パイプラインのためのプラグイン品質保証モジュール [cs.CV]目的：ECGデジタル化パイプラインにおける品質保証
- 臨床記録のデジタル化は医療の発展に不可欠であり，膨大なアーカイブの活用を可能にする。
- 既存のデジタル化手法は，実データに対して十分な性能を発揮できず，精度に課題がある。
- VLMを活用した品質保証モジュールを導入し，デジタル化の精度と信頼性を向上させる。
- VLM-in-the-Loopモジュールは，ツールグラウンディングにより，判定の一貫性を向上させた (71%から89%)。
- ツールグラウンディングは，VLMのモデルに依存せず，fidelity separationを向上させた (ΔPCC 0.03から0.08)。
- 4つの異なるデジタル化バックエンドにおいて，モジュールの導入により，品質が改善された (例: Open-ECG-Digitizerで有効リード数が2.5から5.8に増加)。
Link: https://arxiv.org/abs/2604.00396
脳転移セグメンテーションにおける深層学習の汎化性能の向上：施設間格差への対応 [cs.CV, cs.AI]目的：脳転移セグメンテーションにおける施設間汎化性能の向上
- 脳転移は治療が難しく，正確なセグメンテーションが治療計画に不可欠である。
- 深層学習モデルは施設ごとに学習データが異なると，他の施設での性能が低下しやすい。
- 施設間での画像特徴量の差異を解消し，汎化性能の高いセグメンテーションを実現する。
- VAE-MMDパイプラインは，施設間識別器の精度を0.91から0.50に低減し，特徴量のアライメントに成功した。
- 提案手法は，平均F1スコアを11.1%（0.700から0.778），平均sDiceを7.93%（0.7121から0.7686）向上させた。
- 平均HD95は65.5%（11.33から3.91mm）減少しており，境界レベルの精度も向上している。
Link: https://arxiv.org/abs/2604.00397
COTTA：自律走行における軌跡予測のための文脈認識型転移適応 [eess.SY, cs.SY, cs.RO, cs.CV, cs.AI]目的：自律走行における軌跡予測の精度向上
- 安全な自律走行を実現するには，周囲の車両等の軌跡予測が不可欠である。
- 既存のデータセットは欧米環境に偏っており，他地域の交通事情に合致しない。
- 異なる地理的環境における軌跡予測モデルの転移学習戦略を確立する。
- 事前学習済み知識の活用が予測性能の大幅な向上に貢献することが示された。
- エンコーダを固定し，デコーダを選択的にファインチューニングする戦略が最も効果的である。
- この手法により，スクラッチからの学習と比較して予測誤差を66％以上削減できた。
Link: https://arxiv.org/abs/2604.00402
第5回PVUW MeViS-Textチャレンジ優勝論文：強力なMLLMとSAM3の出会いによる参照ビデオオブジェクトセグメンテーション [cs.CV]目的：動きを中心とした言語表現下における参照ビデオオブジェクトセグメンテーション
- ビデオとテキストを組み合わせた理解は，多様な応用において重要であり，近年の研究対象となっている。
- ビデオ内の特定オブジェクトを言語で指定し，正確にセグメント化することは依然として課題である。
- 大規模言語モデルとセグメンテーションモデルを組み合わせ，タスク特化の学習なしに高性能を実現すること。
- 本研究では，Gemini-3.1 Proを用いてイベントを詳細に記述し，SAM3で正確なマスクを生成するパイプラインを構築した。
- この手法は，タスク固有の微調整なしに，PVUW 2026 MeViS-Textテストセットで最高の結果（Finalスコア0.909064，J&Fスコア0.7897）を達成した。
- Qwen3.5-Plusによる検証と修正により，曖昧な予測や意味的に矛盾する予測を改善した。
Link: https://arxiv.org/abs/2604.00404
人間データからのヒューマノイドナビゲーション学習 [eess.SY, cs.SY, math.OC, q-fin.CP, cs.RO, cs.AI, cs.CV, cs.LG]目的：ヒューマノイドナビゲーションの学習
- ロボットの自律的な移動能力は，様々な環境での活動を可能にする上で重要である。
- 従来のナビゲーション手法は，ロボット固有のデータや調整が必要であり，汎化性に課題がある。
- 人間が行き交う多様な環境で，ロボットが人間データのみからナビゲーションを学習することを目指す。
- EgoNavは，5時間の人間歩行データのみを用いて，未知の環境をヒューマノイドロボットが移動することを可能にするシステムである。
- 拡散モデルにより，過去の軌跡，360度視覚記憶，DINOv3バックボーンからの特徴量に基づき，将来の軌跡分布を予測する。
- オフライン評価と実機デモにより，EgoNavは衝突回避や環境網羅性において既存手法を上回り，ドアの開閉待ちや群衆回避といった行動が自然に現れることが示された。
Link: https://arxiv.org/abs/2604.00416
確率的探索における大きな決定優先法：書記官問題，預言者問題，確率的プロービング [cs.DS, cs.GT]目的：不確実性下アルゴリズムにおける書記官問題，預言者問題，確率的プロービングの近似解法
- 不確実性下での意思決定は，最適解を見つけることが難しく，実用的な近似解法が求められる。
- 既存手法では，値が二値でない場合に，二値化による性能劣化が発生し，近似率にギャップが生じる。
- 大きな価値を持つ決定を早期に解決することで，近似解の精度向上を目指す。
- 書記官問題と預言者問題については，$\tilde{\Omega}(\log^2 n)$の困難性を示すことができた。
- 確率的プロービングについては，$O(\log n)$近似アルゴリズムを開発した。
- これらの結果は，不確実性下では，高リスクの決定を優先的に行うことが有効であるという「大きな決定優先法」に基づいている。
Link: https://arxiv.org/abs/2604.00437
アルゴリズム的均質化の無秩序価格 [cs.GT, cs.CY]目的：アルゴリズム的均質化における無秩序価格の定量化
- 社会における意思決定へのアルゴリズム依存度が高まり，その影響を評価することが重要である。
- アルゴリズム的均質化が進むと，社会全体の厚生が低下する可能性が指摘されている。
- アルゴリズム的均質化によって生じる厚生損失を定量的に評価し，最適化の限界を明らかにする。
- 本研究では，アルゴリズム的均質化における無秩序価格の上限が一定値（2）に収まることを示した。
- 分散型最適化も，最適解に近い水準にあることが明らかになった。
- アルゴリズムの精度向上と社会全体の厚生の間には，トレードオフの関係が存在する。
Link: https://arxiv.org/abs/2604.00444
Sona：騒音感受性に対するリアルタイム多重音源遮断 [cs.SD, cs.HC]目的：騒音感受性を持つ人々のための音環境調整
- 日常生活における騒音は，感受性の高い人々にとって大きな負担となりうる。
- 既存のノイズキャンセリングは，周囲の状況認識を損なう可能性がある。
- Sonaは，特定の騒音のみを遮断し，周囲の音を維持することで，この問題を解決する。
- Sonaは，複数の音源を同時に遮断するリアルタイムシステムである。
- ユーザーは，追加の音声サンプルを用いて，遮断対象の音の種類を拡張できる。
- 実地実験の結果，Sonaは低遅延で効果的に騒音を減らし，周囲の音の認識を維持することが示された。
Link: https://arxiv.org/abs/2604.00447
視界の外，追跡の外：クエリ状態操作による伝播ベースの多物体追跡への敵対的攻撃 [cs.MA, cs.SY, eess.SY, cs.CV]目的：伝播ベース多物体追跡システムの脆弱性とその悪用
- 多物体追跡は，自動運転や監視システムなど，様々な分野で重要な役割を担う技術である。
- 従来の追跡手法では，長期間にわたる追跡が困難であり，ロバスト性に課題があった。
- クエリ伝播に基づく追跡システムの新たな脆弱性を明らかにし，現実的な攻撃手法を開発すること。
- 本研究では，FADEという新たな攻撃フレームワークを提案し，クエリ伝播メカニズムへの攻撃を可能にした。
- FADEは，偽のクエリを生成して追跡リソースを枯渇させたり，追跡対象の識別情報を破壊する手法を用いる。
- MOT17およびMOT20の実験結果から，FADEが最先端の追跡システムに対して高い攻撃成功率を示すことが確認された。
Link: https://arxiv.org/abs/2604.00452
ファーストロジットブースティング：大規模ビジョン言語モデルにおける物体幻覚の軽減のための視覚的根拠付け手法 [cs.CV, cs.AI, cs.CL]目的：大規模ビジョン言語モデルにおける物体幻覚の軽減
- 近年，画像と言語の両方を理解するマルチモーダルタスクにおいて，大規模ビジョン言語モデルの性能が著しく向上している。
- 大規模ビジョン言語モデルは，存在しない物体を生成する物体幻覚という持続的な課題を抱えている。
- 本研究は，追加の学習や外部モデルを必要とせず，視覚的根拠付けの長期的な減衰を緩和することで，物体幻覚を軽減することを目的とする。
- ファーストロジットブースティング（FLB）は，生成された最初のトークンのロジットを保存し，後続のトークン予測に加えることで，視覚情報の長期的な減衰を効果的に緩和する。
- FLBは，生成を通して最初のトークンに埋め込まれた視覚情報を維持し，「The」トークンの安定化効果を通じて幻覚語を抑制することが観察された。
- 実験結果から，FLBは様々なタスク，ベンチマーク，バックボーンモデルにおいて物体幻覚を大幅に軽減することが示された。
Link: https://arxiv.org/abs/2604.00455
確率制約付き相関均衡による，低ランク構造を通じたスケーラブルな協調 [cs.GT]目的：確率制約付き相関均衡の近似計算手法
- 大規模な協調問題において，エージェント間の効率的な協調は社会的な厚生を向上させる上で重要である。
- エージェントのコスト構造の不確実性下では，従来の相関均衡の性能が低下するという課題がある。
- 確率的保証を持つ相関均衡を効率的に計算し，大規模協調問題への適用を目指す。
- 提案手法は，確率制約付き相関均衡を，確率制約付き純ナッシュ均衡の凸結合として表現することで，計算量を大幅に削減する。
- 大規模な航空会社間協調シミュレーションにおいて，既存手法と比較して計算時間が短縮され，システム遅延コストが低減された。
- コスト不確実性下では，完全定式化と同程度の協調性能を維持しつつ，逸脱率を低減することが示された。
Link: https://arxiv.org/abs/2604.00456
7テスラMRIを用いた多発性硬化症病変のU-netおよびTransformerベースセグメンテーションによる自動検出 [cs.CV, cs.LG]目的：7テスラMRI画像における多発性硬化症病変の自動検出
- 多発性硬化症の早期診断と治療効果の評価には，正確な病変の定量が不可欠である。
- 既存の病変セグメンテーションツールは，主に1.5-3T MRI画像で開発されており，7T MRI画像への直接的な適用には課題がある。
- 7T MRI画像に特化した，高精度な病変セグメンテーションモデルの開発が求められている。
- 7T MRI画像で訓練されたTransformerモデルは，既存のLST-AIと同等の重複度を示し，古典的手法では検出されなかった微小病変を検出した。
- 最適なTransformerモデル（SegFormer）は，ボクセル単位および病変単位のDice係数において，古典的なLST-LPAツールを上回る性能を示した。
- 画像の解像度を下げることで性能が低下したことから，微小病変検出にはネイティブな7T解像度が重要であることが示唆された。
Link: https://arxiv.org/abs/2604.00469
視覚言語モデルにおける発散的思考の促進：あらゆる道はローマに通じる [cs.CV]目的：視覚言語モデルにおける発散的思考を促進すること
- 視覚言語モデルの推論能力向上は，AI研究における重要な課題である。
- 強化学習による性能向上は期待されるが，そのメカニズムと限界は未解明である。
- 強化学習が陥りやすい多様性の崩壊に対処し，発散的思考を促すこと。
- 強化学習モデルは，基盤モデルと比較して，より深く，しかし狭い推論を行う傾向がある。
- 提案手法Multi-Group Policy Optimization (MUPO)は，多様性の崩壊を抑制し，発散的思考を促進する。
- 確立されたベンチマークにおいて，MUPOの有効性が示された。
Link: https://arxiv.org/abs/2604.00479
ゲームにおけるLLMエージェントの競争と協力 [cs.MA, cs.GT, cs.SY, eess.SY]目的：LLMエージェント間のゲーム内相互作用
- 近年，LLMエージェントの活用が拡大しており，多エージェント環境での戦略的行動の理解が重要となっている。
- LLMエージェントが合理的な戦略を選択し，ナッシュ均衡に収束するかどうかが不明確である。
- LLMエージェントのゲーム内行動を分析し，協力的な傾向とその理由を解明すること。
- LLMエージェントは，多ラウンドのプロンプトと非ゼロサムの状況下で，ナッシュ均衡に収束せず，協力的な傾向を示すことがわかった。
- 連鎖思考分析の結果，公平性に関する推論が，この協力的な行動の重要な要因であることが示された。
- LLMエージェントの推論ダイナミクスを捉える分析的フレームワークを提案し，実験結果を説明した。
Link: https://arxiv.org/abs/2604.00487
胸部X線写真解釈のための推論機能を備えたビジョン言語基盤モデル [cs.CV, cs.AI, cs.LG]目的：胸部X線写真の解釈における推論機能の導入
- 胸部X線写真は頻繁に実施され，診断の重要な役割を担うが，読影医の負担が増加している。
- 既存のAIシステムは予測のみを行い，根拠となる視覚的証拠と診断の繋がりが不明瞭である。
- 視覚的証拠に基づいた診断根拠を明示することで，AIの性能と信頼性を向上させる。
- CheXOneは，診断予測と臨床的に妥当な推論過程を同時に生成する。
- 生成されたレポートは，専門医のレポートと同等またはそれ以上の質を持つ場合が55%を占める。
- 推論過程は臨床的妥当性が高く，予測結果に対する因果的な根拠を提供し，性能向上に貢献する。
Link: https://arxiv.org/abs/2604.00493
自己回帰的ガウススプラッティング：並列プログレッシブ次スケール予測による [cs.CV]目的：3Dオブジェクト生成のための自己回帰的ガウススプラッティングフレームワーク
- 3Dコンテンツの生成は，様々な分野で需要が高まっており，その効率的な手法が求められている。
- 既存の3D生成手法は，計算コストが高く，詳細な構造の生成が難しいという課題がある。
- 本研究は，効率的かつ高品質な3Dオブジェクト生成を実現するための新たな手法を提案する。
- 自己回帰的ガウススプラッティング（ARGS）フレームワークを提案し，詳細レベルに応じた並列次スケール予測を可能にした。
- ガウス簡略化戦略と逆簡略化により，次スケール生成を効果的に誘導し，階層的な木構造を利用することで計算量を削減した。
- 提案手法は，詳細なレベル，視覚的な忠実度を制御しながら，3Dガウス表現を効率的に生成できることを実験的に示した。
Link: https://arxiv.org/abs/2604.00494
PC-SAM：高解像度リモートセンシング画像におけるパッチ制約された詳細な対話型道路セグメンテーション [cs.CV]目的：高解像度リモートセンシング画像における道路セグメンテーションの精度向上と局所的な修正機能の提供
- リモートセンシング画像からの道路マスクは，様々な下流タスクにおいて重要な役割を担う。
- 既存の自動セグメンテーション手法では，困難な道路セグメントの特定や誤検出・見逃しが発生しやすい。
- PC-SAMは，自動セグメンテーションと対話型セグメンテーションを統合し，局所的な修正機能を可能とする。
- PC-SAMは，点プロンプトと組み合わせることで，最新の自動セグメンテーションモデルを大幅に上回る道路マスクセグメンテーション性能を発揮する。
- PC-SAMは，柔軟な局所マスクの修正と局所的な道路セグメンテーションを実現する。
- PC-SAMは，SAMの持つ局所的な微調整能力の欠点を克服し，詳細な対話型マスクの修正を可能にする。
Link: https://arxiv.org/abs/2604.00495
PET-DINO：プロンプト強化学習によるGrounding DINOと視覚的手がかりの統合 [cs.CV]目的：オープンセット物体検出における汎用的な検出器の開発
- 既存の物体検出は特定のクラスに限定され，未知のカテゴリ認識が困難であった。汎用的な検出技術が求められている。
- テキストと視覚的特徴の対応付けが難しく，特に稀有なカテゴリの学習データが不足しているという課題があった。
- テキストと視覚的プロンプトの両方を活用し，効率的な学習戦略を導入することで，課題解決を目指す。
- PET-DINOは，テキストと視覚的プロンプトを統合的に処理可能な汎用検出器であり，開発サイクルを短縮する。
- AFVPGモジュールと，IBP，DMDといったプロンプト強化学習戦略により，多様なシナリオへの適応性を向上させた。
- 様々なプロンプトベースの検出プロトコルにおいて，PET-DINOは競争力のあるゼロショット物体検出能力を示すことが確認された。
Link: https://arxiv.org/abs/2604.00503
RegFormer：効率的な弱学習型人間・物体インタラクション検出のための転移可能な関係的グラウンディング [cs.CV]目的：効率的かつ正確な人間・物体インタラクション推論モジュール
- シーン理解の規模拡大に不可欠であり，画像レベルの注釈のみでインタラクションを学習する。
- インスタンスペアの列挙による計算コストが大きく，非インタラクティブな組み合わせによる誤検出が多い。
- 空間的にグラウンディングされた信号を利用し，効率的かつ正確なインタラクション推論を実現する。
- RegFormerは，空間的な手がかりを学習することで，インスタンスレベルのインタラクション推論を効果的に行う。
- 高い効率性で動作し，全 supervision モデルと同等の性能を達成する。
- 画像レベルの推論から，追加訓練なしに精密かつ効率的なインスタンスレベルの推論への直接転移を可能にする。
Link: https://arxiv.org/abs/2604.00507
RT-GS: 反射と透過プリミティブを用いたガウススプラッティング [cs.GR, cs.CV]目的：反射と透過のモデリング
- 写実的な新規視点合成には，反射や透過といった光の相互作用の正確な再現が不可欠である。
- ガウススプラッティングは拡散面再構成に優れるが，反射や半透明面の表現が苦手である。
- ガウススプラッティングにおける反射と透過を物理ベースでモデリングする手法を提案する。
- 本手法は，ガウススプラッティングに微小面モデルとレイトレーシングを統合し，反射と透過を同時にモデリングする。
- 反射と透過用のガウスプリミティブを分離することで，遠方の反射や透明面裏の物体再構成を可能にする。
- 複雑な環境下で反射の再現や透明な物体裏側の復元に成功し，従来法よりも定性的な改善を実現した。
Link: https://arxiv.org/abs/2604.00509
MOON3.0：Eコマース製品理解のための推論を意識したマルチモーダル表現学習 [cs.LG, cs.AI, cs.CV, cs.IR]目的：Eコマース製品理解のためのマルチモーダル表現学習
- Eコマースの急速な発展に伴い，特定のタスクに依存しない汎用的な表現学習が重要になっている。
- 既存のマルチモーダル大規模言語モデルは，製品情報を暗黙的に埋め込むため，詳細な属性の把握が困難である。
- マルチモーダル大規模言語モデルの推論能力を活用し，製品の詳細な属性を明示的にモデル化することを目的とする。
- 提案手法MOON3.0は，マルチヘッドモダリティ融合モジュール，ジョイントコントラスト・強化学習フレームワーク，および微細残差強調モジュールを導入。
- 大規模マルチモーダルEコマースベンチマークMBE3.0を新たに公開。
- ベンチマークおよび公開データセットにおいて，様々な下流タスクで最先端のゼロショット性能を達成。
Link: https://arxiv.org/abs/2604.00513