arXiv雑要約

画像・音声 - 2026/04/28 公開

  • ClawMark:マルチターン,複数日,マルチモーダルな共同作業エージェントのためのリビングワールドベンチマーク [cs.CV, cs.SE]目的:マルチターン,複数日,マルチモーダルな共同作業エージェントの性能評価
    • 職場環境は常に変化するため,それに適応できるエージェントの重要性が高まっている。
    • 既存のベンチマークは,静的な環境での評価に偏っており,現実世界の動的な変化に対応できていない。
    • 現実的な職場環境を模倣し,エージェントの環境変化への適応能力を評価するベンチマークを提供する。
    • ClawMarkベンチマークは,ファイルシステム,メール,カレンダーなど,5つの状態を保持するサービス環境で100のタスクを提供する。
    • 最良のモデルは75.8の加重スコアを達成したが,厳密なタスク成功率はわずか20.0%であり,完全なワークフロー完了は稀である。
    • 環境の変化後,パフォーマンスが低下する傾向があり,変化する状態への適応が課題であることが示唆された。

    Link: https://arxiv.org/abs/2604.23781

  • 多人数登場作品における根拠に基づいた探索のための微細な相互作用関係アーキテクチャMIRAGE [cs.CV, cs.HC]目的:多人数登場作品における微細な相互作用の探索を支援するフレームワーク
    • 絵画理解において,登場人物間の視線,身振り,配置等の関係性は物語の解釈に不可欠である。
    • これらの関係性は複雑な場面に分散しており,体系的に特定することは困難である。
    • 視覚的根拠に基づいた信頼性の高い関係性の解釈を可能にすること。
    • MIRAGEは,人物のID,ポーズ,視線仮説を構造化された表現として捉えることで,解釈の整合性を高める。
    • 既存のビジョン言語モデルと比較して,関係性の誤りを減らし,微細な相互作用の検出範囲を拡大した。
    • 構造化された根拠付けが,より信頼性が高く,透明性の高い視覚的物語理解に貢献することを示唆する。

    Link: https://arxiv.org/abs/2604.23788

  • MuSS:マルチショット被写体から動画生成のための大規模データセットと映画的物語評価ベンチマーク [cs.CV]目的:マルチショット動画および被写体から動画生成のための大規模データセット
    • 動画生成モデルの発展は,映画のような複雑な物語性を表現できるかどうかが重要である。
    • 既存のデータセットは,物語の論理性,時空間的なテキスト・動画のずれ,被写体コピーの問題を抱える。
    • 物語の論理性,テキスト・動画の整合性,被写体コピー問題を解消し,映画的なストーリーテリングを実現する。
    • MuSSデータセットは,3000本以上の映画から構築され,複雑なモンタージュや被写体中心の物語をサポートする。
    • 新しいパイプラインにより,局所的なショットレベルの正確性を確保し,全体的な物語の一貫性を高めている。
    • MuSSを活用したモデルは,既存モデルと比較して,物語の効果と被写体の構造維持において優れた性能を示す。

    Link: https://arxiv.org/abs/2604.23789

  • ELSA:高速かつメモリ効率の良いVision Transformerのための正確な線形スキャン注意機構 [cs.LG, cs.CV]目的:高速かつメモリ効率の良いVision Transformerを実現するための正確な線形スキャン注意機構の開発
    • Transformerは画像処理を含む様々な分野で重要な役割を果たしているため,その効率化は不可欠である。
    • 既存の注意機構は,精度,ハードウェア依存性,および計算コストの点で課題を抱えている。
    • 異なるハードウェア環境下でも高い精度を保ちつつ,計算効率を向上させる注意機構を提供すること。
    • ELSAは,正確なsoftmax semanticsを維持しつつ,FP32演算において誤差を理論的に保証する。
    • ELSAは,A100およびJetson TX2を含む多様なハードウェア上で,既存手法と比較して1.3~3.5倍の高速化を達成した。
    • ELSAは,FP16においても優れた性能を示し,高精度推論を様々なプラットフォームで実現する汎用的なカーネルである。

    Link: https://arxiv.org/abs/2604.23798

  • VitaminP:クロスモーダル学習によるルーチン組織学的画像からの全細胞セグメンテーション [cs.CV]目的:ルーチン組織学的画像からの全細胞セグメンテーション
    • 精密病理や空間オミクス研究において,正確な細胞および核のセグメンテーションは不可欠である。
    • ヘマトキシリン・エオジン(H&E)染色では細胞質コントラストが低く,解析が核に限定されやすい。
    • H&E画像から全細胞セグメンテーションを可能にし,多重免疫蛍光の課題を克服する。
    • VitaminPは,H&Eと多重免疫蛍光のペアデータから学習し,分子境界情報をH&E画像に転移することで,細胞質コントラストの低さを克服する。
    • 34種類の癌を含む14の公開データセットで学習し,セグメンテーションのための大規模なリソースを構築した。
    • VitaminPは最先端の手法を凌駕し,未知のデータセットにも汎化することが示された。また,オープンソースプラットフォームVitaminPScopeも開発された。

    Link: https://arxiv.org/abs/2604.23799

  • 一人称視点を取り入れる:エゴセントリックシーン再構成のための動的3Dガウススプラッティングの評価 [cs.CL, cs.IR, cs.MA, cs.CV]目的:エゴセントリックシーン再構成における動的3Dガウススプラッティングの性能評価
    • 拡張現実,ロボット工学,支援技術への応用が期待され,人間の知覚と相互作用の研究において重要な役割を果たす。
    • 急速なカメラ移動や複雑なシーンの変化が,この視点からの3D再構成における大きな課題となっている。
    • エゴセントリックビデオに対する既存モデルの汎化性能を検証し,専用手法の必要性を検討する。
    • エゴセントリック視点での再構成品質は,エキセントリック視点と比較して一貫して低いことが判明した。
    • 再構成品質の差は,主に静的なコンテンツの再構成に起因することが示唆された。
    • エゴセントリック専用アプローチの開発の必要性と,動画内の静的領域と動的領域を分離して評価することの重要性が示唆された。

    Link: https://arxiv.org/abs/2604.23803

  • ShredBench:ドキュメント再構成におけるマルチモーダルLLMのセマンティック推論能力の評価 [cs.CV, cs.CL]目的:マルチモーダルLLMにおけるセマンティック推論能力の評価
    • 視覚的情報とテキスト情報を統合するマルチモーダルLLMの研究が重要である。
    • 既存の評価は整った文書に偏っており,断片化された文書に対する性能評価が不十分である。
    • 断片化された文書からの情報再構成という困難な課題に対するLLMの能力を評価すること。
    • ShredBenchは,Markdownから直接断片化された文書を生成する自動パイプラインを導入し,LLMの評価を可能にした。
    • 実験の結果,LLMは完全な文書では高い性能を示す一方,断片化されると性能が著しく低下することが明らかになった。
    • 現在のLLMは,視覚的な不連続性を埋めるための詳細なクロスモーダル推論能力に欠けていることが示唆された。

    Link: https://arxiv.org/abs/2604.23813

  • 極端な視点におけるナンバープレートの復元可能性マッピング:都市環境における機会的センシングに向けて [cs.CV, cs.AI]目的:ナンバープレートの復元可能性の境界を定量化する手法
    • 都市環境には多様な画像センサーが存在し,それらを活用することで新たな情報収集が可能になる。
    • 極端な視点からの画像はノイズが多く,低解像度であるため,ナンバープレート認識が困難である。
    • 画像劣化パラメータが復元可能範囲と失敗範囲を特定し,都市環境におけるセンシングの限界を明らかにすること。
    • 提案手法である復元可能性マップは,パラメータ空間の復元可能な割合を境界面積曲線で推定する。
    • 様々な画像復元モデル(U-Net, Restormer, Pix2Pix, SR3 diffusion)を用いて評価した結果,最良モデルで約93%のパラメータ空間を復元できた。
    • 復元性能はモデルアーキテクチャよりもセンシングの幾何学的条件に依存することが示唆された。

    Link: https://arxiv.org/abs/2604.23814

  • 重要な箇所に焦点を当てる:解剖学的構造を保持した胎児超音波再構成のための二段階ROI認識リファインメント [cs.CV, cs.AI]目的:解剖学的構造を保持した胎児超音波再構成の精度向上
    • 胎児超音波検査は,胎児の健康状態を評価する上で重要な役割を担う。
    • 従来の再構成評価指標では,臨床的に重要な小さな領域の精度を十分に反映できない場合がある。
    • 臨床的に重要な領域に焦点を当てた再構成手法を開発し,精度向上を目指す。
    • ROI(関心領域)リファインメントにより,グローバルな品質と測定に関連する品質の両方が向上した。
    • 標準的な検証データセットでは,PSNRが+0.27dB (val) および +0.29dB (held-out test) 向上し,ROI MAEがそれぞれ8.87% (val) および 6.43% (held-out test) 減少した。
    • また,凍結された潜在的プローブは,汎化に関する追加のエビデンスを提供し,未知の病院データに対する病院の由来の予測可能性が低下した。

    Link: https://arxiv.org/abs/2604.23839

  • 潜在的フレーム間プルーニング:伝統的なビデオ圧縮と最新の拡散Transformerを橋渡しするトレーニングフリーな効率的生成手法 [cs.CV]目的:ビデオ生成における計算負荷の軽減と処理速度の向上
    • ビデオ生成技術は現実的な動画生成を可能にするが,その計算コストは大きい
    • 既存の動画生成手法はリアルタイム処理が難しく,応用範囲が限られている
    • 潜在的冗長性を利用し,計算量を削減することで高速化を目指す
    • 潜在的フレーム間プルーニングにより,ビデオ編集処理速度が1.44倍向上した。
    • NVIDIA RTX 6000上で12.44 FPSを達成し,ビデオ品質を維持した。
    • Attention Recovery機構により,学習時と推論時のギャップを埋め,視覚的なアーティファクトを抑制した。

    Link: https://arxiv.org/abs/2604.23858

  • 一人称視点動画におけるオーディオハルシネーションの探求 [cs.CV, cs.AI]目的:一人称視点動画理解におけるオーディオハルシネーションの分析
    • 一人称視点動画は,ユーザーの行動や周囲の状況を理解する上で重要な聴覚情報を提供する。
    • 最先端のオーディオビジュアル言語モデルは,視覚情報から実際には聞こえていない音を推論するハルシネーションを起こしやすい。
    • 本研究は,オーディオハルシネーションを定量的に評価するためのフレームワークとデータセットを構築し,モデルの信頼性を評価する。
    • 大規模なオーディオビジュアル言語モデルは,一人称視点動画において高い割合でオーディオハルシネーションを起こすことが示された。
    • Qwen2.5 Omniは,前景音に関する質問応答で27.3%,背景音で39.5%の精度しか達成していない。
    • マルチモーダル応答の信頼性を測定し,ハルシネーションの評価が信頼性の高いモデル開発に不可欠であることを強調した。

    Link: https://arxiv.org/abs/2604.23860

  • CIFAR-10分類のための畳み込みニューラルネットワークの経験的アブレーションとアンサンブル最適化 [cs.CV, cs.AI]目的:CIFAR-10分類における畳み込みニューラルネットワーク最適化の検討
    • 画像認識は,コンピュータビジョンの重要な課題であり,様々な分野で応用が拡大している。
    • 畳み込みニューラルネットワークの性能は,アーキテクチャや学習方法に大きく依存する点が課題である。
    • 経験的アブレーションを通じて,性能向上に寄与する要素を特定し,効率的な最適化を目指す。
    • 学習時間の延長は,性能を安定的に向上させる効果が認められた。
    • アーキテクチャの構造変更は,必ずしも性能向上に繋がらない場合があることが示された。
    • 最適な設定を組み合わせたアンサンブル学習により,高い分類精度(89.23%)を達成した。

    Link: https://arxiv.org/abs/2604.23861

  • リスクを考慮したロバスト学習:医用画像分類におけるラベルノイズ下での臨床リスク軽減 [cs.SC, math.AG, cs.CV, cs.AI]目的:医用画像分類におけるラベルノイズ下での臨床リスク軽減
    • 医用画像診断は,患者の治療に直接影響するため,高い精度が求められる。
    • アノテーションの誤りや診断の曖昧さにより,ラベルノイズが頻繁に発生する。
    • 既存手法の臨床的安全性評価に焦点を当て,リスクを低減する手法を提案する。
    • 既存のノイズロバスト学習手法は,必ずしも臨床的安全性と相応しないことが示された。
    • コストを考慮した最適化を組み込むことで,臨床リスクを大幅に軽減できることが確認された。
    • ノイズロバスト学習の評価には,臨床リスクという観点が不可欠であることが示唆された。

    Link: https://arxiv.org/abs/2604.23875

  • 筋肉駆動型器用手制御の学習:音楽演奏への応用 [cs.GR, cs.AI]目的:音楽演奏における筋肉駆動型器用手の制御手法
    • ロボットの器用な手制御は,人間の生活を豊かにする上で不可欠であり,高度な制御技術が求められる。
    • 既存の手法では,多様な音楽に対応した複雑な動きの再現や,生理学的に妥当な筋肉の活性化パターンの生成が課題である。
    • 未知の楽曲に対しても,正確な演奏を可能にする筋肉駆動型器用手制御の実現を目指す。
    • 提案手法は,物理ベースのシミュレーション環境において,多様なピアノ曲を演奏可能であることを示した。
    • 既存モデルと比較して,生体力学的に安定かつ精密な指の動きを実現する筋肉骨格モデルを開発した。
    • 生成された筋肉の活性化パターンが,実際の人の筋電図記録と一致することを確認し,生理学的な妥当性を検証した。

    Link: https://arxiv.org/abs/2604.23886

  • 軽量モデルによるマンモグラフィ病変セグメンテーション:比較研究 [cs.CV, cs.LG]目的:マンモグラフィ病変セグメンテーションのための軽量モデルの性能評価
    • 乳癌は女性の癌による死亡原因の主要なものであり,マンモグラフィが主要なスクリーニング手段である。
    • 深層学習モデルは高い性能を示すものの,計算資源を多く必要とし,環境に制約がある場所での利用が難しい。
    • 計算資源の少ない環境でも利用可能な,高性能な軽量モデルを開発し,実用的なCADシステムへの応用を目指す。
    • MobileNetV2(SCSE)が最も高い性能を示し,Diceスコア0.5766を達成,U-Netと比較して約75%少ないパラメータで済んだ。
    • DMIDデータセットでの評価では,ドメインシフトにより精度は低下したが,再現率は維持された。
    • 軽量アーキテクチャは,実用的なCADシステム展開のための性能と効率のバランスを提供する。

    Link: https://arxiv.org/abs/2604.23899

  • 視覚障碍者支援のための適応的動作認識ビデオ-オーディオフレームワークAMAVA [cs.CV]目的:視覚障碍者の環境認識を支援するビデオ-オーディオ変換フレームワーク
    • 視覚障碍者のナビゲーション支援は,生活の質向上の上で重要である。
    • 従来の支援器具は,状況に応じた情報提供が難しく,認知負荷が高いという課題がある。
    • 動的な環境変化に対応し,効率的な情報伝達によって安全性を向上させる。
    • AMAVAは,映像を解析し,動きの程度に応じて音声情報(効果音や音声による説明)を生成する。
    • 静的な環境では状況説明を,動的な環境では危険警告や環境音を優先的に提供することで,効率的な環境認識を可能にする。
    • 白杖のみと比較したナビゲーション実験で,AMAVA利用者は自信と安全性の向上を実感した。

    Link: https://arxiv.org/abs/2604.23909

  • 第5回PVUW MeViS-Audioトラックの2回目:ASR-SaSaSa2VA [eess.SY, cs.SY, cs.CV]目的:音声に基づく動画物体セグメンテーションの効率化
    • 動画と音響情報を組み合わせた解析は,人間が世界を認識する仕組みに近い。その応用範囲は広い。
    • 従来の音声駆動型動画セグメンテーションは,計算コストが高く,音声と動画の同期が難しい。
    • 本研究は,音声からテキストへの変換と,既存のモデルの活用により,効率的なセグメンテーションを実現する。
    • 音声を入力としてテキストによる動きの説明を生成し,それを基に動画内の物体をセグメンテーションする。
    • 曖昧または無関係な音声入力を排除するため,ターゲット非検出モジュールを組み込むことで,ロバスト性を向上。
    • 第5回PVUWチャレンジ(MeViS-v2-Audioトラック)において,スコア80.7を達成し,2位を獲得した。

    Link: https://arxiv.org/abs/2604.23935

  • GoClick:自律GUI操作のための軽量な要素位置特定モデル [cs.CV]目的:GUI要素の位置特定
    • GUIとのインタラクションは,エージェントの自律性を高める上で不可欠であり,その応用範囲は広い。
    • 既存の位置特定モデルは大規模なため,モバイルデバイス等のリソース制約環境での実行が困難である。
    • 本研究は,軽量かつ高精度なGUI要素位置特定モデルの開発を通して,この課題を解決することを目指す。
    • GoClickは,パラメータ数2.3億個という軽量なモデルでありながら,大規模モデルに匹敵する高い位置特定精度を達成した。
    • エンコーダ・デコーダ構造を採用することで,GUI要素位置特定において,デコーダのみのモデルよりも優れた性能を発揮することが示された。
    • タスクタイプフィルタリングやデータ比率調整を用いたProgressive Data Refinementにより,データの品質が向上し,精度が向上した。

    Link: https://arxiv.org/abs/2604.23941

  • LearnPruner:Vision Language ModelにおけるAttentionに基づくトークンプルーニングの再検討 [cs.CV]目的:Vision Language Modelにおける効率的なトークンプルーニング手法の開発
    • Vision Language Modelは高度な視覚理解能力を持つが,計算コストが高いという課題がある。
    • 既存のトークンプルーニング手法は,Attentionスコアに依存しており,必ずしも有効なトークン選択ができていない。
    • Vision EncoderとLLMにおけるAttentionメカニズムの特性を分析し,より効果的なプルーニング手法を提案する。
    • 提案手法LearnPrunerは,Vision Encoder後の冗長なトークンを削減し,LLMの中間層でタスク関連トークンを保持する二段階プルーニングを行う。
    • 実験結果から,LearnPrunerは元の性能の約95%を維持しつつ,視覚トークンを5.5%に削減し,推論速度を3.2倍に向上させる。
    • これにより,精度と効率性のトレードオフを改善し,優れた性能を示す。

    Link: https://arxiv.org/abs/2604.23950

  • Viewportを意識しない全方向画像品質評価:統一的かつ汎化されたアプローチ [cs.CV, cs.AI]目的:全方向画像品質の評価手法
    • VR/AR技術の発展に伴い,全方向画像の利用が拡大しており,高品質な画像評価が不可欠である。
    • 従来の全方向画像品質評価は,Viewport生成に計算コストがかかり,他の画像への汎化が難しいという課題があった。
    • Viewport生成を不要とし,全方向画像を2D平面画像品質評価問題として捉えることで,上記課題の解決を目指す。
    • 本研究では,全方向画像品質評価をViewportを意識しない形で,2D平面画像品質評価問題として解決できることを示した。
    • 提案手法は,全方向画像と2D平面画像の双方に対応できる統一性と,既存手法を上回る汎化性能を有する。
    • 保留データを用いた実験やクロスデータベース検証,gMADコンペティションにおいて,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2604.23953

  • LAVA:ロバストなディープフェイク検出・局在化のための階層型オーディオ・ビジュアル改ざん防止ウォーターマーキング [cs.CV]目的:ディープフェイクの改ざん検出と局在化
    • 近年の動画編集技術の発展により,ディープフェイク動画の脅威が増大しており,その検出技術が重要である。
    • 既存手法は,オーディオとビジュアル情報を分離したり,劣化に対するウォーターマークの信頼性を仮定するため,精度が課題となる。
    • 圧縮や非同期性による影響を受けにくい,信頼性の高い改ざん検出・局在化を実現することを目指す。
    • 提案手法LAVAは,クロスモーダルウォーターマーク融合とキャリブレーションアウェアアライメントにより,圧縮や非同期性下でも安定した性能を発揮する。
    • 実験結果から,LAVAは高い検出精度(AP=0.999)を達成し,既存手法と比較して改ざん局在化の信頼性を大幅に向上させる。
    • LAVAは,オーディオとビジュアルの情報を統合的に処理することで,マルチモーダルな誤整合に対するロバスト性を高めている。

    Link: https://arxiv.org/abs/2604.23957

  • LLM誘導によるエージェント的間取り図解析:視覚障碍者・弱視者のための屋内ナビゲーション [cs.AI, cs.CV, cs.HC, cs.MA]目的:視覚障碍者・弱視者向け屋内ナビゲーションの実現
    • 屋内ナビゲーションは,視覚障碍者・弱視者にとって重要な課題であり,自立した生活を支援する上で不可欠である。
    • 既存の屋内ナビゲーションシステムは,建物ごとに高価な設備が必要であり,導入のハードルが高い。
    • 本研究は,低コストでアクセス可能な屋内ナビゲーションシステムを構築し,その課題を解決することを目指す。
    • 提案手法は,単一の間取り図画像から構造化された知識ベースを生成し,安全でアクセス可能なナビゲーション指示を提供する。
    • UMBC Math and Psychology buildingにおける実験で,短・中・長距離のルートにおいて,既存のLLMベースラインよりも高い成功率を達成した。
    • 本研究は,視覚障碍者・弱視者向けの屋内ナビゲーションにおける,スケーラブルなソリューションの可能性を示す。

    Link: https://arxiv.org/abs/2604.23970

  • 少ないリソース下における視覚言語適応を用いたマルチビュー相乗学習:低リソース生体医用画像分類 [cs.HC, cs.CL, cs.RO, cs.HC, cs.CV]目的:少ないリソース下での生体医用画像分類における性能向上
    • 生体医用画像分類は医療診断において不可欠であり,正確な分類が求められる。
    • 限られたアノテーション,微妙なクラス間視覚的差異,複雑な疾患セマンティクスが課題。
    • 視覚と言語モデルの効率的な適応による,少ないデータでの分類精度向上を目指す。
    • MVSLは,視覚とテキストエンコーダの適応を分離し,パラメータ効率の良い微調整を実現。
    • マルチ粒度コントラスティブ学習により,画像全体の意味と局所的な病変レベルの証拠を明示的にモデル化。
    • 大規模言語モデル由来の構造化された監督信号を用いて,疾患レベルのセマンティック構造を保持。

    Link: https://arxiv.org/abs/2604.23977

  • マルチモーダル病理組織学的分析における階層的プロトタイプに基づくドメイン事前知識 [cs.RO, cs.HC, cs.DC, cs.CV]目的:マルチモーダル病理組織学的分析における,階層的プロトタイプに基づくドメイン事前知識の活用
    • デジタル病理は診断ワークフローを大きく変革したが,複雑な腫瘍微小環境の解明は依然として困難である。
    • 従来のMILフレームワークは,WSIを構造化されていないパッチの集合として扱うため,形態学的意味や空間的配置が失われる。
    • 本研究は,解釈可能な形態学的クラスターと組織構造のモデル化により,病理診断と予後予測の精度向上を目指す。
    • 提案手法HPDPは,7つの癌コホートにおいて,最先端の性能と優れたロバスト性,解釈可能性を示した。
    • 形態学的アンカープロトタイプシステム(MAPS)により,学習を解釈可能な形態学的クラスターに固定し,データ駆動型の「ブラックボックス」問題を軽減する。
    • 階層的クロスモーダルアライメント(HCMA)モジュールは,LLM生成の説明を用いて視覚的表現を文脈的に洗練する。

    Link: https://arxiv.org/abs/2604.23982

  • SMoES:MoE-VLMにおけるソフトなモダリティガイド型専門家特化 [eess.SY, cs.SY, math.DS, math.RA, cs.CV]目的:MoE-VLMにおけるモダリティ特化の最適化
    • 大規模VLMの性能向上はAI研究の重要な課題であり,MoEはその有効な手法として注目されている。
    • 既存のルーティング戦略は手動設計かモダリティ非依存であり,MoE-VLMの層依存融合パターンを無視している。
    • モダリティを考慮した専門家特化により,MoE-VLMの能力と効率を最大限に引き出すことを目指す。
    • 提案手法SMoESは,層依存融合パターンを捉えた動的なソフトなモダリティスコアを用いる。
    • 実験の結果,マルチモーダルおよび言語タスクで平均0.9%,4.2%の性能向上が確認された。
    • また,EP通信オーバーヘッドを56.1%削減し,スループットを12.3%向上させることに成功した。

    Link: https://arxiv.org/abs/2604.23996

  • FlashOverlap:分散LLMトレーニングにおける通信オーバーラップのテールレイテンシの最小化 [cs.LG, cs.CV, cs.DC]目的:分散大規模言語モデルのトレーニングにおけるテールレイテンシの最小化
    • 大規模言語モデルの規模拡大に伴い,分散学習の重要性が増している。計算資源の効率的な活用が課題。
    • 既存の通信-計算オーバーラップ手法では,テールレイテンシがボトルネックとなり,性能が制限されている。
    • 本研究は,テールレイテンシを排除し,分散LLMトレーニングの効率を向上させることを目指す。
    • 提案手法FlashOverlapは,reduce-scatterやall-gatherといった従来の集団通信演算を,P2P通信に分解することでテールレイテンシを解消する。
    • FlashOverlapは,データ並列および様々なテンソル並列戦略(TPSP,UPなど)と互換性があり,幅広い分散学習環境で適用可能。
    • 実験結果から,FlashOverlapは低レイテンシ,優れたモデルFLOPS利用率,高いスループットを実現することが示された。

    Link: https://arxiv.org/abs/2604.24013

  • ServImage: リアル世界の商業画像サービスにおける画像生成・編集ベンチマーク [cs.CV]目的:商業デザインプロジェクトにおける画像生成・編集モデルの経済的価値との相関評価
    • 画像生成技術は発展途上であり,その実用性と経済的効果の検証が重要である。
    • 既存のベンチマークでは,実際の商業プロジェクトにおけるモデルの性能評価が不十分である。
    • 商業デザインにおける人間による支払い判断を予測し,経済的に妥当な画像生成を可能とする。
    • ServImageは,1.07k件の商業デザインタスクと2.05k件の成果物を収録したデータセットである。
    • ServImageScoreは,要件充足度,視覚的品質,商業的必要性の3次元で画像を評価するシステムである。
    • 支払い予測モデルは,人間の支払い判断を82.00%の精度で予測し,妥当な支払い確率を生成する。

    Link: https://arxiv.org/abs/2604.24023

  • 組み込みカメラを用いたマルチプロジェクター較正のスケーラビリティ限界の打破 [cs.CV, cs.GR]目的:マルチプロジェクター較正のスケーラビリティ向上
    • 大規模な映像表示システム構築には,多数プロジェクターの正確な較正が不可欠である。
    • 従来の較正手法では,プロジェクター数が増加すると較正時間と労力が線形に増加する。
    • 組み込みカメラを用いることで,較正時間をプロジェクター数に依存しないほぼ定数に短縮する。
    • 較正ターゲットにカメラを組み込むことで,複数プロジェクターからの構造化光パターンを同時に分離可能とした。
    • カメラ光学中心とプロジェクターピクセルの対応関係を確立し,全プロジェクターのパラメータを同時に推定する。
    • 較正ボードとカメラ光学中心のわずかなずれを補正する技術を導入し,従来の較正方法と同等の精度を実現した。

    Link: https://arxiv.org/abs/2604.24024

  • DeepTaxon:統一的な種同定と新規種発見のための解釈可能な検索拡張マルチモーダルフレームワーク [cs.CV, cs.CL, cs.IR, cs.MM]目的:種同定と新規種発見の統合
    • 生物多様性の研究において,種の正確な特定は不可欠である。膨大な数の類似種が存在するため,その重要性は高い。
    • 既存手法では,同定と発見を分離しており,未知種への対応が不十分である。閉じた集合を前提とした分類モデルに限界がある。
    • 検索に基づいた解釈可能な推論により,同定と発見を統合し,未知種検出の精度向上を目指す。
    • DeepTaxonは,検索された視覚的証拠に基づき,種同定と新規種発見を同時に行うフレームワークである。
    • 本研究では,発見を明示的な検索問題として捉え,識別に必要な証拠がない場合に新規種と判断する。
    • 大規模データセットにおける実験により,同定と発見の両方において既存手法を上回る性能が示された。

    Link: https://arxiv.org/abs/2604.24029

  • JSSFF:リモートセンシング画像キャプション生成のための同時構造・意味融合フレームワーク [cs.CV]目的:リモートセンシング画像からのキャプション生成
    • リモートセンシング技術は,地理空間情報の取得に不可欠であり,多様な分野で活用されている。
    • 複雑なリモートセンシング画像において,対象物の検出と境界の認識が困難である。
    • 画像の特徴表現を強化し,境界の認識精度を向上させることで,正確なキャプション生成を目指す。
    • 提案手法は,オリジナル画像とエッジ強調画像を用いることで,特徴表現と境界認識能力を向上させている。
    • 比較ベースのビームサーチ(CBBS)を導入することで,定量的な評価指標と定性的なキャプションの関連性のバランスをとっている。
    • 実験結果から,提案モデルが複数のベースラインモデルよりも優れていることが示された。

    Link: https://arxiv.org/abs/2604.24031

  • 閉塞および小型物体に対する言語誘導型意味的手がかりによるMLLMの頑健なグラウンディング [cs.RO, cs.CV, eess.IV]目的:閉塞や小型物体が存在する混雑したシーンにおけるMLLMのグラウンディング精度向上
    • 視覚情報処理において,シーンの複雑性が増すと,物体の識別が困難になる。
    • 混雑したシーンでは,閉塞や小型物体により,物体意味が損なわれ,グラウンディング性能が低下する。
    • 言語情報はこれらの影響を受けないため,物体意味の維持に役立つ。
    • 提案手法では,MLLMの視覚パイプラインから物体の意味的手がかりを抽出し,テキスト埋め込みを用いて誘導する。
    • これにより,言語的な意味的事前情報としてLGSCを生成し,視覚パイプラインに再統合して物体意味を改善する。
    • 実験結果から,LGSCをMLLMに組み込むことで,混雑したシーンにおけるグラウンディング精度が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2604.24036

  • CLLAP:コントラスト学習に基づくLiDAR拡張事前学習による,高度なレーダー・カメラ融合 [cs.CV]目的:レーダー・カメラ融合による3D物体検出性能の向上
    • 自動運転の実現には,悪天候下でも信頼性の高い安価なセンサーが不可欠である。
    • レーダー・カメラ融合は有望だが,高コストなアノテーション付きレーダーデータの不足が課題である。
    • LiDARデータを用いた疑似レーダーデータ生成と自己教師あり学習により,この課題を解決する。
    • CLLAPは,LiDARからレーダーへのサンプリング手法L2Rを用いて疑似レーダーデータを生成する。
    • 生成されたデータを用いて,二段階の二つのモダリティを持つコントラスト学習戦略を実施する。
    • NuScenesおよびLyft Level 5データセットでの実験により,3つのベースラインモデルで性能向上が確認された。

    Link: https://arxiv.org/abs/2604.24044

  • 一般化された最大平均不一致:カーネル化された関数型ブレグマンダイバージェンス [cs.LG, cs.CV, cs.IT, math.IT]目的:関数型ブレグマンダイバージェンスの一般化
    • 統計学,機械学習,計算情報幾何学において重要な役割を果たすブレグマンダイバージェンスの研究。
    • 関数を点とする関数型ブレグマンダイバージェンスに対する,カーネル法とヒルベルト空間幾何学の体系的な適用が不足している。
    • カーネル平均埋め込みを用いたブレグマン生成子により,関数型ブレグマンダイバージェンスの推定を容易にすること。
    • 提案手法は,クラスタリング,汎用推定,ロバスト推定,生成モデリングなどへの応用が可能である。
    • 他のタイプのブレグマンダイバージェンスと比較して,本手法はカーネル法との親和性が高い。
    • ヒルベルト空間上の自己双対ペアリングとリース表現子を用いることで,都合の良い計算が可能となる。

    Link: https://arxiv.org/abs/2604.24047

  • ナラティブ動画要約のためのマルチモーダル質問応答による参照不要評価指標QEVA [cs.CV, cs.AI]目的:ナラティブ動画要約の評価方法
    • 動画要約技術は,大量の動画コンテンツを効率的に理解するために不可欠である。
    • 既存の評価指標は,人手による参照要約に依存しており,実用性と意味の微妙な差異の捉え方に課題がある。
    • 参照要約に頼らない,動画と要約の整合性を直接評価する指標を開発すること。
    • QEVAは,動画と要約のマルチモーダル質問応答を通じて,要約の網羅性,事実性,時系列性を評価する。
    • 新しい評価ベンチマークMLVU(VS)-Evalを構築し,評価の透明性と一貫性を確保した。
    • 実験の結果,QEVAは既存手法よりも人間の判断との相関性が高いことが示された。

    Link: https://arxiv.org/abs/2604.24052

  • 点灯させよう:多重尺度明示的Retinex照明分離による少量の低照度3Dガウススプラッティングの実現 [cs.CV]目的:低照度環境下における360度新規視点合成の実現
    • 没入型体験の向上や現実世界の再現において,低照度環境下での3Dコンテンツの重要性が高まっている。
    • 既存手法では,低照度時の光量不足,ノイズ増幅,視点依存性の問題があり,品質が損なわれる。
    • 本研究は,少ないサンプル数で新たなシーンに適応可能な低照度3D合成手法を確立する。
    • 提案手法MERID-GSは,Retinex理論に基づき,照明と反射率を分離し,ノイズを抑制しながら暗い領域の構造を強調する。
    • 軽量なReflection Headと3D Gaussian Splattingを組み合わせることで,少ない撮影枚数でも安定した低照度環境下での新規視点合成を可能にする。
    • 複数のデータセットを用いた実験の結果,MERID-GSは最先端の性能を示し,優れたシーン間汎化性能と視点の一貫性を示すことが確認された。

    Link: https://arxiv.org/abs/2604.24053

  • ニューラルによる解析的見かけモデルの改良 [cs.GR]目的:解析的見かけモデルの精度向上
    • 物理ベースレンダリングにおいて,見かけモデルは現実感の重要な要素である。
    • 従来のモデルは表現力に限界があり,ニューラルモデルは汎化性能が低いという課題がある。
    • 両者の利点を組み合わせ,精度と効率性を両立させることを目指す。
    • 本研究では,既存の解析的モデルの主要な計算ノードをニューラルネットワークで置換する「ニューラルエンハンスメント」を提案した。
    • 提案手法により,モデルの表現力を向上させつつ,計算コストを抑え,既存のレンダリングパイプラインとの互換性を維持できる。
    • 実験の結果,提案モデルは測定された反射率や双方向テクスチャ関数に対する当てはめにおいて,最先端の手法と遜色ない性能を示した。

    Link: https://arxiv.org/abs/2604.24081

  • 学習は変装した啓示:動的価格設定における改善された後悔と等価性の結果 [cs.CL, cs.DC, cs.GT]目的:動的価格設定における販売者の最適戦略の追求
    • 価格設定は経済学の根幹であり,資源配分や効率性に影響を与える重要な課題である。
    • 既存研究は単純な価格提示メカニズムに限定されており,より複雑な戦略の可能性が未開拓であった。
    • 販売者がより効率的に価格設定し,より多くの収益を上げられる戦略を開発すること。
    • メニューメカニズムを用いることで,$O(T_\gamma \log T_\gamma)$ の後悔 bound を達成し,既存の結果を改善した。
    • 間接学習メカニズムと直接啓示メカニズムが同一の最適後悔を達成するという根本的な等価性を確立した。
    • オンライン学習と明示的なタイプ特定は,同一の問題を解決するための異なるアプローチであることを示した。

    Link: https://arxiv.org/abs/2604.24093

  • SemiSAM-O1:アノテーション効率の高い医用画像セグメンテーションの限界はどこまでか [eess.SY, cs.SY, cs.CV]目的:医用画像セグメンテーションにおけるアノテーション負担の軽減
    • 深層学習の発展により医用画像解析が進むが,高品質なアノテーションはコストと時間がかかる。
    • 既存の半教師あり学習は複雑な画像モダリティにおいて十分な性能を維持できない場合がある。
    • 単一のアノテーション画像のみで高精度なセグメンテーションを実現し,計算コストを削減すること。
    • SemiSAM-O1は,単一のアノテーション画像を用いてセグメンテーションを行うことで,完全教師あり学習との性能差を縮小した。
    • 基礎モデルの表現能力を最大限に活用し,特徴量空間における類似性に基づいて疑似ラベルを生成する。
    • 不確実性に基づいた修正ステップにより,高不確実度領域のラベルを改善し,相互改善のサイクルを確立した。

    Link: https://arxiv.org/abs/2604.24109

  • TopoHR:点とインスタンスの関係に基づく運転シーンにおける環状トポロジー推論のための階層的中心線表現 [cs.CV]目的:運転シーンにおける環状トポロジー推論のための階層的中心線表現
    • 自動運転において,周囲環境のトポロジーを理解することは安全性確保に不可欠である。
    • 従来のトポロジー推論手法は,中心線検出とトポロジー推論を分離しており,精度向上の限界がある。
    • 点とインスタンスの関係性を考慮した,より高精度でロバストなトポロジー推論手法を確立すること。
    • 提案手法TopoHRは,中心線検出とトポロジー推論を反復的に改善するエンドツーエンドフレームワークを実現した。
    • OpenLane-V2ベンチマークにおいて,既存の最先端手法を大幅に上回る性能を達成した(subset_AでDET_l +3.8,TOP_ll +5.4)。
    • subset_Bにおいても,DET_l +11.0,TOP_ll +7.9と顕著な性能向上を示し,提案手法の有効性を検証した。

    Link: https://arxiv.org/abs/2604.24119

  • 特徴距離に基づく汎用ビデオ品質指標FDIM:多様なコーデック向け [cs.DB, cs.CV]目的:多様なコーデックに対応する汎用ビデオ品質評価
    • 高画質化が進む中,効率的な圧縮技術の重要性が増している。
    • 従来の品質評価手法では,ニューラルコーデック特有の歪みを捉えにくい。
    • 様々なコーデック,コンテンツ,ダイナミックレンジに対応可能な品質指標を開発する。
    • FDIMは,深層学習と手動特徴量の組み合わせにより,多様な歪みを捉える。
    • 大規模な主観評価データセットDCVQAを用いてFDIMを学習し,汎化性能を検証した。
    • SDR/HDRの10個のデータセットで,FDIMは高い相関と汎用性を示すことが確認された。

    Link: https://arxiv.org/abs/2604.24123

  • マルチモーダルリモートセンシング画像のためのオブジェクトレベルラベルとシーンレベル意味的特徴を統合するオープンボキャブラリセマンティックセグメンテーションネットワーク [cs.CV]目的:マルチモーダルリモートセンシング画像のオープンボキャブラリセマンティックセグメンテーション
    • 土地利用/土地被覆マッピングや環境モニタリングにおいて重要な役割を果たす。
    • 視覚モダリティの統合に偏重しており,豊富な知識源であるテキストデータの活用が不足している。
    • テキストによる教師あり学習でセマンティックギャップを埋め,汎化性能の向上を目指す。
    • TSMNetは,シーンレベルとオブジェクトレベルのテキスト情報を統合し,動的なクロスモーダル融合を実現した。
    • 提案手法は,既存のセマンティックセグメンテーションモデルと比較して,優れたセグメンテーション精度を達成した。
    • 地理的・センサー特有の多様なシナリオにおいて,頑健な汎化能力を示すことが確認された。

    Link: https://arxiv.org/abs/2604.24125

  • 現実世界超解像のためのワンステップ拡散における復元と生成多様体の橋渡し [cs.CG, cs.CV, eess.IV]目的:現実世界の画像超解像における計算ボトルネックの解消
    • 画像超解像は,医療画像診断やセキュリティなど,幅広い分野で重要である。
    • 既存の拡散モデルは計算コストが高く,シングルステップ蒸留は知覚品質と歪みのトレードオフに陥る。
    • 復元と生成の多様性を統合し,精度の高い超解像を実現すること。
    • 本研究では,IDaS-SRという新しいフレームワークを提案し,復元と生成多様体間のギャップを埋める。
    • MINEによって,初期化と軌道の不一致を解消し,適切なタイムステップとノイズを予測する。
    • CHARIOTにより,知覚品質と歪みのバランスを明示的に制御し,構造的情報を維持しながらテクスチャを生成する。

    Link: https://arxiv.org/abs/2604.24136

  • 3D胸部CT解析のための説明可能な異常認識型ビジョン基盤モデル [cs.CV]目的:3次元胸部CT画像と放射線科レポートからの空間分解能を持つ表現学習
    • 胸部CTは胸部疾患の検出・管理に不可欠であり,その重要性は増している。
    • 既存のビジョン言語基盤モデルは空間情報を失い,臨床的に意味のある解釈を妨げる。
    • 胸部CTの異常を局所化し,解釈可能な視覚的証拠を提供するAIの開発を目指す。
    • EXACTは,解剖学的構造を考慮した弱学習を用いて,臓器セグメンテーションと異常局所化を同時に学習した。
    • その結果,臓器固有の異常マップは,病変の範囲と臓器レベルのコンテキストを統合的に表現した。
    • 多施設共同評価において,EXACTは複数の臨床タスクで既存モデルを上回り,信頼性の高いボリューム医療AIのパラダイムを確立した。

    Link: https://arxiv.org/abs/2604.24146

  • 第6グリッドネット:カラー復元とエッジ保持に基づく統一されたリモートセンシング画像除去手法 [cs.CV]目的:リモートセンシング画像のハレーション除去
    • リモートセンシング画像は気象条件の影響を受けやすく,その品質が様々な応用に大きく影響する。
    • 既存手法は計算負荷が高いか,逐次処理による問題やアーティファクトが発生しやすい。
    • 自然画像の内在的な低次元多様体を考慮し,エッジのぼやけを抑制する手法を開発する。
    • 提案手法である6th Grid-Netは,効率的かつ統一的にリモートセンシング画像のハレーションを除去するフレームワークである。
    • 3D LUTとバイラテラルグリッドを融合した6次元融合テンソルと,多様体適応型高次元サンプリング機構により,カラーとエッジを同時に改善する。
    • エッジを意識したグリッド平滑化制約と動的量子化により,ゴーストアーティファクトを抑制し,モデルサイズを大幅に圧縮する。

    Link: https://arxiv.org/abs/2604.24149

  • 大規模言語モデルを用いた6Gスペクトルオークションにおける戦略的入札 [cs.GT, cs.AI]目的:6Gスペクトルオークションにおける大規模言語モデルを用いた入札戦略
    • 6Gでは,多様なサービスが限られた無線資源を巡り競合するため,効率的な周波数帯の割り当てが重要である。
    • 従来の入札戦略は静的な設計に依存し,変化する環境への適応が難しいという課題があった。
    • 本研究は,大規模言語モデルの戦略的な適応能力を活用し,より柔軟で効率的な入札メカニズムの構築を目指す。
    • 理論的な前提が満たされる場合,大規模言語モデル入札者はVCGメカニズムの予測と一致する均衡に近い結果を達成する。
    • 静的な予算制約下など,前提が満たされない場合でも,大規模言語モデルは長期的な参加を維持し,高い収益性を実現する。
    • 本研究は,将来の6GネットワークにおけるAI駆動エージェントの戦略的相互作用と市場ダイナミクスの変化に関する新たな知見を提供する。

    Link: https://arxiv.org/abs/2604.24156

  • 堅牢なディープフェイク検出:NTIRE 2026チャレンジ報告 [cs.CV]目的:ディープフェイク検出における堅牢性の評価
    • 現実世界では,画像劣化の影響を受けやすいディープフェイク検出器の性能向上は重要である。
    • 既存の検出器は,わずかな画像劣化に対しても性能が著しく低下する弱点がある。
    • 悪意のある劣化を施されたディープフェイクに対する検出性能の改善を目指す。
    • 本チャレンジでは,様々な劣化を含む未知のテストセットで検出器の性能が評価された。
    • 参加者の多くは,大規模な基盤モデルやアンサンブル,劣化学習を活用した手法を開発した。
    • テストデータへの過学習を防ぐため,ラベルなしでの24時間テストランを実施し,結果の信頼性を確保した。

    Link: https://arxiv.org/abs/2604.24163

  • PEPS:位置エンコーディング射影サンプリング -- 拡張 [cs.CV, cs.GR, cs.LG]目的:位置エンコーディングの射影サンプリングによる学習手法
    • 陰的ニューラル表現は,多様な応用分野で活用されており,その重要性が増している。
    • 既存の位置エンコーディングは不十分であり,グリッド表現は高解像度を必要とする。
    • 位置エンコーディングの分解とグリッドを用いた学習による表現能力の向上を目指す。
    • 提案手法は,画像表現,テクスチャ圧縮,符号付き距離関数などのタスクで最先端手法を上回る性能を示す。
    • 同等の再構成誤差またはレンダリング品質を達成する場合,パラメータ数を25%削減できる。
    • 位置エンコーディングの射影を意味のある点として扱い,周波数に対する動きを解析することで,効果的な学習を実現した。

    Link: https://arxiv.org/abs/2604.24167

  • PointTransformerX:スパースアルゴリズムを用いない,ポータブルかつ効率的な3次元点群処理 [cs.CV]目的:3次元点群処理の効率化と移植性向上
    • 3次元点群処理は,ロボティクスや自動運転などの分野で不可欠な技術である。
    • 従来の処理はNVIDIA GPUに依存し,他のハードウェアでの移植性や効率が課題であった。
    • カスタムCUDA演算を用いない,汎用的な点群処理基盤を構築し,ハードウェアへの依存を解消すること。
    • PointTransformerX (PTX) は,PyTorchのみで実装され,カスタムCUDA演算や外部ライブラリを必要としない。
    • PTXは,3D-GS-RoPEという新しい位置埋め込み手法を採用し,自己注意機構に3次元空間の関係性を直接エンコードする。
    • ScanNetデータセットにおいて,PointTransformer V3の98.7%の精度を,パラメータ数79.2%削減,実行速度1.6倍向上で実現した。

    Link: https://arxiv.org/abs/2604.24169

  • POCA:視覚的テキスト生成のためのパレート最適カリキュラムアラインメント [cs.CV]目的:視覚的テキスト生成におけるテキスト精度と画像の一貫性のトレードオフ解消
    • 視覚的テキスト生成は,画像とテキストの双方を理解し生成する必要があり,その応用範囲は広い。
    • 既存モデルでは,テキスト精度向上と画像の一貫性維持のバランスが難しく,両立が課題である。
    • 複数の報酬を用いた強化学習の不安定性,および効率的なプロンプト選択問題を解決する。
    • POCAは,パレート最適集合を特定し,単純なスカラー化を回避することで,複数報酬間の矛盾を解消する。
    • 自動難易度評価に基づく適応カリキュラムアラインメント戦略により,限られたデータ環境下での最適な収束を実現する。
    • 実験結果から,POCAはCLIPスコア,HPSスコア,文の正確性などの指標を大幅に改善することが示された。

    Link: https://arxiv.org/abs/2604.24171

  • 広視野角超音波再構成のための多変量ガウスNeRF [cs.CV]目的:広視野角超音波イメージングの再構成
    • 臨床診断において,解剖学的文脈の提供はセグメンテーションモデルや可視化に不可欠である。
    • 従来の再構成手法では,深度依存的な解像度変化による複合アーチファクトやエイリアシングが発生しやすい。
    • 複合アーチファクトとエイリアシングを軽減し,高精度な3D再構成を実現する。
    • 本研究で提案するUltra-Wide-NeRFは,複雑なビーム形状を明示的にモデル化することで,アーチファクトを抑制し,アンチエイリアシング効果を発揮する。
    • NeRFに基づく連続的な神経表現により,任意の仮想軌跡からの高品質な新規視点の合成が可能となる。
    • 心内エコーへの適用実験により,本手法が術中ナビゲーションにおいて重要な空間的文脈を拡張することが示された。

    Link: https://arxiv.org/abs/2604.24187