arXiv雑要約

画像・音声 - 2026/05/29 公開

  • RHO:ロバストなホールビューに基づいたOSMを用いたメトリッククロスビュージオロケーション [cs.CV]目的:地上画像と衛星画像のマッチングによるカメラの3-DoF姿勢推定
    • 画像に基づく位置認識は,自動運転や拡張現実などの様々な分野で不可欠な技術である。
    • 既存手法は,画像品質や天候に左右されやすく,ロバスト性に課題がある。
    • ホールビュー画像とOSMを活用し,よりロバストで高精度な位置認識を実現すること。
    • 大規模データセットCV-RHOを構築し,様々な条件下での評価を可能にした。
    • 提案手法RHOは,パノラマ画像の歪みを補正するSUMモジュールと,位置と方位を融合するPOF機構を備えている。
    • 実験結果から,RHOは最先端手法と比較して最大20%の性能向上を達成することが示された。

    Link: https://arxiv.org/abs/2603.27758

  • エネルギーベース分離による開放世界物体検出における未知物体検出 [cs.CV]目的:開放世界物体検出における未知物体検出の性能向上
    • 物体検出技術は,自動運転やロボット工学など様々な分野で不可欠であり,その応用範囲は広い。
    • 既存の開放世界物体検出は,未知物体の識別精度や学習データの忘却といった課題を抱えている。
    • 未知物体と既知物体の分離を改善し,学習データの忘却を抑制することで,高精度な検出を目指す。
    • 提案手法DEUSは,等角タイトフレームを用いた未知物体分離とエネルギーベースの識別損失を組み合わせる。
    • DEUSは,既知・未知物体表現の分離をより明確にし,未知物体のパターンをより良く捉える。
    • ベンチマークテストにおいて,未知物体検出性能の大幅な向上と,既知物体検出性能の維持が確認された。

    Link: https://arxiv.org/abs/2603.29954

  • ReSpinQuant:部分空間残差回転近似による効率的な層ごとのLLM量子化 [cs.CV, cs.AI]目的:大規模言語モデルの効率的な量子化手法
    • LLMの推論コスト削減は,実用化において極めて重要である。
    • 量子化による活性化の異常値問題は,精度低下の主な原因である。
    • 層ごとに最適化された量子化を実現しつつ,推論時のオーバーヘッドを抑制すること。
    • ReSpinQuantは,オフラインでの活性化回転融合により,層ごとの適応性を維持しつつ,推論コストを最小限に抑える。
    • W4A4およびW3A3量子化実験において,ReSpinQuantは最先端の性能を達成した。
    • 既存のグローバル回転法や計算コストの高い層ごとの方法と比較して,高い精度と効率性を両立している。

    Link: https://arxiv.org/abs/2604.11080

  • 衛星画像におけるニュースイベントの検出と記述のためのマルチエージェントフィードバックシステム [cs.CV, cs.MA]目的:衛星画像におけるニュースイベントの検出と記述
    • 地球観測技術は,災害監視や環境変化の把握に不可欠であり,その重要性は増している。
    • 衛星画像における時系列イベントのキャプションデータセットが不足しており,イベント検出・記述のボトルネックとなっている。
    • ニュース記事と衛星画像を連携させ,イベント検出とキャプション生成を自動化することで,データセット作成の効率化を目指す。
    • SkyScraperは,従来の地理コーディング手法と比較して,5倍多くのイベントを検出することに成功した。
    • 本研究で構築されたデータセットは,5,000シーケンスから構成され,マルチテンポラルキャプション学習を促進する。
    • 本手法は,ジャーナリズムや報道活動を支援するための画像特定も可能にする。

    Link: https://arxiv.org/abs/2604.12772

  • PrecisionCUA:コードエディタにおけるピクセルレベルのカーソル接地を実現する反復視覚的洗練 [cs.CV]目的:コードエディタにおけるピクセルレベルのカーソル接地
    • GUI操作を介したコンピュータ利用エージェントの性能向上は,人間とコンピュータのより自然な対話を可能にする上で不可欠である。
    • 高密度なコーディング環境では,サブピクセル精度での操作が必要であり,既存手法ではエラー修正機構に乏しい。
    • 本研究は,反復的な視覚的洗練を通じて,高精度なカーソル接地を実現し,その課題を解決することを目的とする。
    • 反復的な視覚的洗練により,従来のシングルショットモデルよりもクリック精度とタスク成功率が大幅に向上した。
    • Claude,Qwen,GPTなどの大規模言語モデルで評価を行い,その有効性を実証した。
    • 本研究は,信頼性の高いソフトウェアエンジニアリングエージェント開発における視覚的推論の重要性を示唆している。

    Link: https://arxiv.org/abs/2604.13019

  • UDM-GRPO:一様離散拡散モデルのための安定かつ効率的なグループ相対方策最適化 [cs.CV, cs.LG]目的:一様離散拡散モデルと強化学習の統合
    • 離散データの生成モデリングは,画像生成などの分野で重要な役割を担う。
    • 従来の強化学習手法を直接適用すると,学習が不安定になり,性能向上が限定的になる。
    • UDMと強化学習を効果的に統合し,生成性能と学習の安定性を向上させる。
    • 提案手法UDM-GRPOは,最終的なクリーンサンプルをアクションとして扱うことで,最適化信号の精度と安定性を向上させる。
    • 拡散過程を通じて軌跡を再構成することで,事前学習分布との確率経路の一致度を高める。
    • 複数の画像生成タスクにおいて,GenEval精度が69%から96%に,PickScoreが20.46から23.81に向上し,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2604.18518

  • BEAT:均一な時間ステップによる音楽のトークン化と記号生成 [cs.SD, cs.AI]目的:音楽のトークン化方式
    • 音楽生成におけるAI活用が盛んになり,音楽表現の多様性を学習できるモデルが求められている。
    • 従来の音楽トークン化はイベントベースであり,時間軸の不均一性が構造的理解の妨げとなる場合がある。
    • 時間ステップを基本単位とするトークン化で,音楽の構造的整合性と生成品質の向上を目指す。
    • 提案手法は,音楽の続き生成と伴奏生成において,既存のイベントベース手法よりも優れた音楽品質と構造的コヒーレンスを示した。
    • 時間ステップによるトークン化は,より効率的であり,長距離パターンを効果的に捉えることが確認された。
    • ピアノロール表現の疎なエンコーディングに類似しており,時間的な規則性を明示的に扱う。

    Link: https://arxiv.org/abs/2604.19532

  • 因果的解きほぐしに着想を得た劣化表現学習によるフルリファレンス画像品質評価 [cs.CV, cs.AI]目的:フルリファレンス画像品質評価のための劣化表現学習
    • 画像処理技術の発展に伴い,高品質な画像評価手法の需要が高まっている。
    • 従来の画像品質評価は,参照画像との比較に依存し,汎化性能に課題があった。
    • 因果推論と表現学習を用いて,よりロバストで汎用的な評価手法を確立すること。
    • 提案手法は,潜在表現への介入を通じて劣化推定を因果的解きほぐしプロセスとして定式化する。
    • 劣化とコンテンツの表現を分離し,画像コンテンツと劣化特徴間の因果関係をモデリングすることで,高い性能を実現した。
    • 様々な非標準画像ドメインにおいて,既存手法と比較して優れたクロスドメイン汎化能力を示した。

    Link: https://arxiv.org/abs/2604.21654

  • Chain of Thoughtを超えて:生成マルチモーダル埋め込みの汎用インターフェースとしての書き換え [cs.CV]目的:生成マルチモーダル埋め込みにおける書き換えによる最適化
    • マルチモーダル大規模言語モデルは,汎用的なマルチモーダル埋め込みの基盤として期待されている。
    • Chain of Thoughtは冗長な思考ステップや意味の曖昧さを生み出し,より広範な検索シナリオで課題となる。
    • 書き換えを通じて生成と埋め込みを同時に最適化し,効率性と精度のバランスを実現する。
    • 提案手法RIMEは,既存の生成埋め込みモデルを大幅に上回り,思考ステップの長さを大幅に削減する。
    • 検索しやすい書き換えを促進することで,生成と識別的な埋め込み空間を橋渡しするCross-Mode Alignment (CMA) を導入する。
    • Refine Reinforcement Learning (Refine-RL) により,識別的埋め込みを安定した意味的アンカーとして活用し,書き換えを最適化する。

    Link: https://arxiv.org/abs/2604.22280

  • SpaMEM:具現化環境における知覚・記憶統合による動的空間推論のベンチマーク [cs.CV]目的:具現化環境における動的空間推論のメカニズムの診断
    • ロボット工学やナビゲーションにおいて,環境変化への適応的な空間認識は不可欠である。
    • 既存の多Modal大規模言語モデルは,長期間にわたる空間的一貫性を維持することが困難である。
    • 視覚情報から空間的信念を更新し,長期的な一貫性を維持する能力を評価する。
    • SpaMEMは,オブジェクトの生成,配置,削除を伴う行動条件付きのシーン変換を通じて,空間的信念の進化を分離的に診断する大規模ベンチマークである。
    • ベンチマーク結果から,座標の一貫性のある接地が性能のボトルネックであり,テキストベースの補助情報なしではロバストな視覚記憶の維持が困難であることが示された。
    • SpaMEMは,状態表現,信念修正,長期的なエピソード統合のためのメカニズム開発を促進するための,詳細な診断基準を提供する。

    Link: https://arxiv.org/abs/2604.22409

  • MedMosaic:多様な医療音響の大規模ベンチマーク [cs.SD, cs.AI, cs.CL]目的:多様な医療音響データを対象とした,言語と音声の推論モデルを評価するためのベンチマークデータセット
    • 医療分野における音声データの活用は,診断や治療の精度向上に不可欠である。
    • プライバシー規制や専門知識によるアノテーションコストの高さから,十分な医療音響データセットが存在しない。
    • 現実的な臨床環境下での音声・言語推論能力を評価し,その限界を明らかにすること。
    • MedMosaicは,多様な医療音響データと46,701件の質問応答ペアを含む大規模なベンチマークデータセットである。
    • 13の音声およびマルチモーダル推論モデルの評価結果から,医療分野における推論は依然として困難であることが示された。
    • 最先端モデルGemini-2.5-proでも約68.1%の精度にとどまることから,よりロバストなモデル開発の必要性が示唆された。

    Link: https://arxiv.org/abs/2605.00969

  • LabBuilder:インタラクティブかつ安全な実験環境のためのプロトコルに基づく3Dレイアウト生成 [cs.CV]目的:実験環境の安全かつ実行可能な設計
    • 科学的発見の加速に貢献する自動化ラボの実現が期待される
    • 実験に必要なプロトコルに基づいた安全性とレイアウトの制約が課題
    • テキストによる指示から,安全で実行可能な実験環境を生成する
    • LabBuilderは,アノテーションされたアセットと化学知識のメタデータセットを活用し,自然言語の指示を構造化されたプロトコルに変換する。
    • プロトコルに基づき,制約を考慮した最適化戦略により,実験環境の3Dレイアウトを生成する。
    • 生成されたレイアウトは,幾何学的,化学的安全性,ナビゲーション制約に基づいて評価され,既存手法を大きく上回る性能を示す。

    Link: https://arxiv.org/abs/2605.02288

  • テスト時学習によるビジョンTransformerの線形化 [cs.CV]目的:Softmaxアテンションと線形アテンションの表現のギャップを埋めること
    • Transformerは画像処理において重要な役割を果たすが,計算コストが大きい。
    • 線形アテンションは計算量を削減できるが,学習コストが高い。
    • 事前学習済みのTransformerの重みを活用し,線形化を実現する。
    • Stable Diffusion 3.5を線形化し,SD3.5-T$^5$を開発した。
    • わずか1時間のファインチューニングで,オリジナルのモデルと同等の画像生成品質を達成した。
    • 推論速度は1Kと2K解像度でそれぞれ1.32倍,1.47倍に高速化された。

    Link: https://arxiv.org/abs/2605.02772

  • LIVEditor-14B:コンテキスト内スパース注意による高速統一的な動画編集 [cs.CV]目的:コンテキスト内学習を用いた動画編集における計算ボトルネックの緩和
    • 動画編集は,深層学習の進展により高度化が進んでいる。効率的な計算が不可欠である。
    • 近年の動画編集手法では,コンテキスト内学習の計算コストが課題となっている。
    • ISAにより計算コストを削減し,動画編集の高速化と高品質化を目指す。
    • 提案手法ISAは,コンテキストトークンの重要度が低いことを利用し,冗長なコンテキストを削減する。
    • クエリの鋭さ(sharpness)と近似誤差の相関を理論的に証明し,動的なクエリグループ化メカニズムを導入。
    • LIVEditor-14Bは,既存手法と比較して注意モジュールのレイテンシを約60%削減し,視覚的な品質を維持した高速編集を実現。

    Link: https://arxiv.org/abs/2605.04569

  • Aes3D:3Dガウススプラッティングにおける美的評価 [cs.CV, cs.AI]目的:3Dシーンの美的属性の評価
    • 没入型メディアの発展に伴い,3Dコンテンツの視覚的魅力を高める評価が重要となる。
    • 既存手法は再構成精度や写実性に偏り,構図や調和といった高次の美的属性が未評価である。
    • 3Dガウススプラッティング表現に対する美的評価の枠組みを構築し,評価基準を確立すること。
    • 本研究では,初の3Dシーン美的評価専用データセット「Aesthetic3D」を構築した。
    • 軽量なモデル「Aes3DGSNet」を提案し,3Dガウススプラッティング表現から直接美的スコアを予測可能とした。
    • 実験により,提案手法が高い性能と軽量性を両立し,3Dシーン美的評価の新たな基準となることを示した。

    Link: https://arxiv.org/abs/2605.05155

  • InfoGeo:クロスビュー汎化UAVジオロケーションのための情報理論的オブジェクト中心学習 [cs.CV]目的:クロスビュー汎化UAVジオロケーションの性能向上
    • GPS非利用環境下での精密な位置特定とナビゲーションは,様々な応用において重要である。
    • 地域ごとの質感や天候の変化によるドメインシフトが課題であり,UAV画像では特に顕著である。
    • オブジェクト中心学習に基づき,ビュー不変情報を最大化し,ノイズを最小化することでロバスト性を高める。
    • 提案手法InfoGeoは,オブジェクト中心構造関係のアライメントとクロスビュー知識制約により,ビュー不変情報を最大化する。
    • InfoGeoは,多様なベンチマークと困難なシナリオにおいて,最先端手法を大幅に上回る性能を示す。
    • 情報ボトルネックプロセスを最適化することで,ロバスト性と汎化性を向上させている。

    Link: https://arxiv.org/abs/2605.07099

  • CaC:階層的空間時間集中によるビデオ報酬モデルの発展 [cs.CV, cs.AI]目的:ビデオ異常検知のための報酬モデル
    • ビデオデータ分析における異常検知は,監視や自動運転など,多くの応用分野で不可欠である。
    • 既存の異常検知手法は,微妙な異常を捉えるのが難しく,説明可能性に課題がある。
    • 空間時間的な集中メカニズムにより,より正確で解釈可能な異常検知を実現すること。
    • 提案手法CaCは,粗い段階で時間的範囲を特定し,次に微細な空間的範囲を特定することで,異常に安定的に集中できる。
    • CaCは,ファインチューニングと強化学習を組み合わせた段階的な学習パラダイムによって訓練され,IoU報酬を導入することで,より正確な空間時間的推論を促進する。
    • 実験結果から,CaCは異常検知の精度を25.7%向上させ,生成ビデオの異常を11.7%削減し,全体的なビデオ品質を向上させることが示された。

    Link: https://arxiv.org/abs/2605.11723

  • EVA-Bench:音声エージェント評価のためのエンドツーエンドフレームワーク [cs.SD, cs.AI, cs.CL, cs.LG]目的:音声エージェントの評価のための新しいフレームワーク
    • 企業における音声エージェントの利用が拡大しており,その性能評価の重要性が高まっている。
    • 既存の評価方法では,現実的な会話の生成と,音声特有の失敗モードを網羅的な測定が課題であった。
    • 現実的な会話生成と包括的な評価指標によって,音声エージェントの性能を正確に評価することを目指す。
    • EVA-Benchは,ボット同士の音声会話をシミュレーションし,自動検証によって会話の品質を維持する。
    • タスク遂行率,忠実度,音声品質を評価するEVA-Aと,会話の円滑さ,簡潔さ,ターンテイキングを評価するEVA-Xの二つの指標を導入した。
    • 12のシステムを評価した結果,EVA-AとEVA-Xの両方で0.5を超えるシステムは存在せず,ピーク性能と安定した性能に差が見られた。

    Link: https://arxiv.org/abs/2605.13841

  • ProtoMedAgent:プライバシー保護型エージェントワークフローによるマルチモーダル臨床解釈可能性 [cs.CV, cs.AI, cs.LG, cs.MA]目的:マルチモーダル臨床データの解釈可能性の向上
    • 医療診断における説明可能性は,医師の信頼と患者の理解にとって不可欠である。
    • 従来のRAG手法では,LLMが視覚的予測に合わせ,根拠のない説明を生成する「検索への迎合」の問題がある。
    • 厳密な神経記号的ボトルネックとプライバシー保護機構を導入し,臨床報告の信頼性と安全性を高める。
    • ProtoMedAgentは,標準的なRAGと比較して,比較セットの忠実度において91.2%という優れた結果を達成した。
    • 本手法は,視覚的特徴と表形式データを離散的な意味記憶に蒸留し,厳密な集合論的差分によって生成を制約する。
    • $\ell$-多様性相転移を活用することで,メンバーシップ推論リスクを絶対9.8%削減することに成功した。

    Link: https://arxiv.org/abs/2605.14113

  • マルチモーダル拡散Transformerにおける概念省略の診断と修正 [cs.CV]目的:マルチモーダル拡散Transformerにおける概念省略の診断と修正
    • 画像生成技術は,創造性や表現の可能性を広げるため,近年急速に発展している。
    • マルチモーダル拡散Transformerは高性能だが,指定された概念が画像に現れない「概念省略」が課題である。
    • テキスト埋め込みが示す「省略信号」を活用し,概念の生成を促進する手法を開発する。
    • テキストトークンに対する線形プローブにより,ターゲット概念の不在を示す「省略信号」を特定した。
    • 提案手法であるOSI(Omission Signal Intervention)は,この省略信号を増幅することで,欠落した概念の生成を促進する。
    • FLUX.1-DevおよびSD3.5-Mediumでの実験により,OSIが極端な場合でも概念省略を大幅に軽減することが示された。

    Link: https://arxiv.org/abs/2605.14270

  • GHOST:効率的な3D再構築のためのジオメトリ階層型オンラインストリーミングトークン排除 [cs.CV]目的:効率的な3D再構築のためのKVキャッシュ管理
    • 3D再構築は,ロボット工学や拡張現実など,様々な分野で重要な役割を担う。
    • 長尺の動画からの3D再構築では,KVキャッシュが動画長に比例して増加し,メモリがボトルネックとなる。
    • 本研究は,3Dジオメトリ情報を活用し,冗長なトークンをオンラインで排除することで,メモリ使用量を削減する。
    • GHOSTは,KVキャッシュをほぼ半分に削減し,最先端手法と比較して1.75倍高速な推論を実現する。
    • GHOSTは,モデル自身の3Dジオメトリ出力を活用し,トレーニングを必要としないKVキャッシュ管理フレームワークである。
    • GHOSTは,階層型二段階重要度スコアリング,優先メカニズム,コサイン類似度に基づく層ごとの予算配分という,相互に補強し合う3つの革新を導入している。

    Link: https://arxiv.org/abs/2605.15852

  • ヒルベルト・ジオ:ニューラル記号推論による立体幾何問題の解決 [cs.CV, cs.AI, cs.CL]目的:立体幾何問題解決のためのニューラル記号推論フレームワーク
    • 幾何問題解決は,マルチモーダル推論の典型であり,AI研究において重要な課題である。
    • 既存研究は主に平面幾何に焦点を当てており,立体幾何における複雑な空間図形と推論に対応できない。
    • 本研究は,立体幾何問題解決のための統一的な形式言語フレームワークを構築し,その性能向上を目指す。
    • Hilbert-Geoは,立体幾何問題を扱うための形式言語フレームワークであり,豊富な述語ライブラリと定理バンクを備えている。
    • 提案手法Parse2Reasonは,問題文と図形を形式言語CDLで表現し,定理バンクを用いて関係推論と代数計算を行うことで,正確な解答を導出する。
    • SolidFGeo2kデータセットにおいて,77.3%という最先端の性能を達成し,Gemini-2.5-proやGPT-5などの既存モデルを大幅に上回った。

    Link: https://arxiv.org/abs/2605.16385

  • 拡散モデル,ノイズ除去器アーキテクチャ,そして創造性 [cs.CV, cs.LG]目的:拡散モデルにおける創造性のメカニズム解明
    • 画像生成技術の発展は,現実世界に匹敵する高品質な画像を創出する上で不可欠である。
    • 拡散モデルは学習データを模倣する傾向があり,真の創造性の発揮が課題であった。
    • ノイズ除去器のアーキテクチャと目標分布の相互作用に着目し,創造性の源泉を特定する。
    • 拡散モデルの創造性は,ノイズ除去器のアーキテクチャと目標分布の相互作用によって生じる。
    • 線形,多項式,ボトルネックの3種類のノイズ除去器アーキテクチャに対して,生成されるサンプルの分布を理論的に解析した。
    • UNETアーキテクチャのわずかな変更が,生成される画像の創造性や品質に大きな影響を与えることが示された。

    Link: https://arxiv.org/abs/2605.16415

  • HyperVision:チャネル適応型地上ハイパースペクトル視覚事前学習バックボーン [cs.CV]目的:地上ハイパースペクトル視覚の汎用知覚を可能にする事前学習バックボーン
    • ハイパースペクトル画像は高精度な物質識別を可能にするが,地上ベースでの事前学習バックボーンは未発達であった。
    • センサーごとのスペクトル構成の多様性,ラベルの不足と不整合,データセットの規模と多様性の限界が課題となっていた。
    • 異なるセンサー構成への対応と,データセットの規模と多様性の制約を克服し,汎用的な知覚を実現することを目指す。
    • HyperVisionは,異なるスペクトル構成への対応のため,チャネル適応型動的埋め込み機構を採用している。
    • ラベル不足と不整合に対処するため,SAM2とHyperFreeからの空間構造と詳細なスペクトル情報を融合するマルチソース擬似ラベリング手法を開発した。
    • RGB画像モデルからの知識蒸留により,シーンの多様性を高め,データセット規模の制限を補完し,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.17286

  • HyperBones:ハイパーネットワーク条件付きのリアルタイム骨駆動ニューラルガーメントシミュレーション [cs.GR, cs.CV]目的:リアルタイムガーメントシミュレーションのための手法
    • インタラクティブなアプリケーションにおいて,リアルタイムな衣服シミュレーションの需要が高まっている。
    • 従来の物理ベースシミュレータは計算コストが高く,線形ブレンドスキニングは複雑な動きを表現できない。
    • ニューラルネットワークを用いて,高速かつ物理的に妥当な衣服シミュレーションを実現すること。
    • 本手法は,粗レベルと細レベルのコンポーネントからなるニューラルダイナミクスシミュレータを用いることで高速化を実現した。
    • 仮想骨格と軽量ニューラルネットワークを組み合わせることで,多様な体型や動きに対応した衣服シミュレーションが可能となった。
    • 物理ベースの教師あり学習により,外部シミュレータに依存せずに精度の高い結果が得られることを示した。

    Link: https://arxiv.org/abs/2605.20460

  • TWINGS:スパースビュー Gaussian Splatting のための Thin Plate Spline ワープアラインメント初期化 [cs.CV, cs.LG]目的:スパースビューからの新規視点合成における高品質なシーン再構築
    • 3Dコンピュータビジョンにおいて,限られた視点からの高品質な再構築は重要な課題である。
    • 視点数が少ない場合,再構築される3Dモデルの品質が低下しやすいという問題がある。
    • TWINGSは,少ない視点数でも詳細かつ正確な再構築を可能にする初期化手法である。
    • TWINGSは,Thin Plate Splineを用いてバックプロジェクションされた点を3D制御点とアラインメントさせることで,高精度な初期化を実現する。
    • 実験結果から,DTU,LLFF,Mip-NeRF360のデータセットにおいて,既存手法を上回る性能が確認された。
    • TWINGSは,構造詳細の保存と色再現性を向上させ,スパースビュー環境下での再構築精度を高める。

    Link: https://arxiv.org/abs/2605.22069

  • JMed48k:視覚言語モデル評価のための多職種日本医療資格試験ベンチマーク [cs.CV, cs.AI]目的:視覚言語モデルの評価のための多職種日本医療資格試験ベンチマーク
    • 医療分野におけるAI活用が期待される中,医師免許取得の判断能力を評価する基準が必要である。
    • 既存のベンチマークは,日本の医療資格試験に対応しておらず,多職種を網羅していない。
    • 日本の医療資格試験問題を用いて,視覚言語モデルの性能を客観的に評価する手段を提供する。
    • JMed48kは,2005年から2025年の11種類の国家資格試験から48,862問の試験問題と20,142枚の画像を含む。
    • 画像がある問題とない問題で評価を行った結果,商用モデルは画像から大きな恩恵を受けるのに対し,医療特化モデルは視覚情報の利用が限定的であった。
    • 職種によって画像削除効果に差が見られ,医師問題では5.7点,公衆衛生看護師問題では39.8点と差が大きかった。

    Link: https://arxiv.org/abs/2605.22080

  • 楽譜画像からの直接的なコンテンツベース検索 [cs.CV, cs.IR]目的:楽譜画像のコンテンツベース検索手法
    • 楽譜のデジタル化は保存とアクセスに重要であり,音楽研究の発展に不可欠である。
    • 楽譜画像のコンテンツベース検索はテキスト文書に比べ遅れており,有効活用が課題である。
    • 楽譜の検索における重要な特徴を特定し,検索データセット構築方法を確立する。
    • 楽譜の文字起こしに基づく手法は,同一データセット内での検索精度が高い。
    • 文字起こしを必要としないTransformerモデルは,データセットの多様性への対応力に優れる。
    • 大規模言語モデルは,テキストプロンプトを用いた検索も可能である。

    Link: https://arxiv.org/abs/2605.22255

  • FPSワールドモデルにおけるクロスゲーム操作のシミュレーション [cs.CV]目的:FPSワールドモデルにおけるクロスゲーム操作のシミュレーション手法
    • FPSゲームのインタラクティブなワールドモデルは,ゲーム体験の重要な要素である。リアルな挙動の再現が求められる。
    • 既存手法はグローバルなアクション注入に頼り,高密度なFPS入力下では性能が低下する。ゲーム特有のパターンに過剰適合する傾向がある。
    • 視点(スコープ)周辺に限定されたアクションの影響を分離し,汎用的な視覚-行動マッピングを学習することで,ゲーム間の知識転移を実現する。
    • 提案手法SCOPEは,事前学習済みの動画拡散モデルに条件付けモジュールを挿入し,ピクセルごとの時間的シーケンスを生成することで,局所的な視覚コンテンツからアクション応答を計算する。
    • CrossFPSデータセットを導入し,ゲームタイトル間のフレーム整合性のあるアクションテレメトリーを収集することで,ゲームバイアスを除去し,汎化性能の評価を可能にした。
    • 実験により,提案手法が強力なアクション応答性,正確なスコープ分離,および効果的なクロスゲーム汎化性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.23345

  • PixIE:プロンプトによるピクセル空間低照度画像強調 [cs.CV]目的:低照度画像強調の新しいフレームワーク
    • 画像処理技術は,監視,医療,自動運転など幅広い分野で不可欠である。
    • 低照度画像はノイズが多く,コントラストが低く,詳細が失われやすいという課題がある。
    • ノイズ除去と詳細回復を同時に行うことで,低照度画像の品質を改善することを目指す。
    • PixIEは,既存の最先端手法と比較して,平均PSNRを1.9~15.0%向上させた。
    • LPIPSは8.5~44.4%減少し,より鮮明なディテールと安定したテクスチャを実現した。
    • これにより,再構成の忠実性と知覚的な品質の両方が向上した。

    Link: https://arxiv.org/abs/2605.23531

  • ナノワールドモデル:未来のビデオ予測のミニマリスト実装 [cs.CL, cs.CV, cs.AI, cs.LG]目的:未来のビデオ予測のためのミニマリスト実装
    • 予測シミュレータは,生成,計画,意思決定を支援する重要なパラダイムである。
    • 既存の実装は複雑で,再現性が低く,拡張が困難である。
    • ワールドモデル研究のための,コンパクトで拡張可能な実験基盤を提供する。
    • ナノワールドモデルは,拡散強制を中心とした,統一的なインターフェースを提供する。
    • 予測パラメータ化,アーキテクチャ規模,行動注入などがビデオ予測品質に与える影響を検証した。
    • コード,設定,評価スクリプトを公開し,オープンサイエンスに貢献する。

    Link: https://arxiv.org/abs/2605.23993

  • マルチスペクトル画像における注意蒸留を用いた粗精細ドメインインクリメンタル学習による鉱跡セグメンテーション [cs.CV, cs.AI]目的:鉱跡セグメンテーションの精度向上
    • 鉱業活動の社会環境リスクと影響を監視するため,遠隔センシングと深層学習による鉱跡の自動マッピングが重要である。
    • 詳細なアノテーションデータの不足が,鉱跡セグメンテーションの進展を妨げている。
    • 粗い境界データを利用し,ドメインシフトを克服して詳細なセグメンテーションの精度を向上させる。
    • 提案手法MineC2FNetは,粗いドメインからの汎化知識を注意蒸留により選択的に転送し,詳細なデータを用いて境界を洗練する。
    • 多様な地域と商品を含む219枚の精密な境界アノテーションデータセットを新たに作成し,公開した。
    • 実験の結果,MineC2FNetは既存手法を上回り,ドメインシフトへの対応に優れていることが示された。

    Link: https://arxiv.org/abs/2605.24460

  • 影誘導による再照明可能都市シーン生成モデル [cs.CE, cs.CV, cs.GR]目的:都市シーンの再照明
    • 都市シーンの再照明は,様々な応用において有用であり,現実的な画像生成に不可欠である。
    • 視点不足や複雑な照明条件により,材質分解が困難であり,再照明の品質が低下する。
    • 見えない領域の影を活用し,3Dモデルの完成度を高め,材質分解のロバスト性を向上させる。
    • 提案手法は,影をガイドとして3Dモデルを完成させ,物理的に妥当な影の合成を促進する。
    • 反復的な材質分解スキームと大規模材質モデル(LMM)を組み合わせ,堅牢な材質分解を可能にする。
    • 物理ベースの照明モデルにより,都市シーンの複雑な照明を捉え,信頼性の高い再照明を実現する。

    Link: https://arxiv.org/abs/2605.24700

  • HumanEgo:数分間の人間一人称視点ビデオからのゼロショットロボット学習 [cs.RO, cs.AI, cs.CV, cs.LG]目的:人間の一人称視点ビデオからロボットにスキルを転移するための枠組み
    • ロボットの自律性を高めるには,人間の多様な操作スキルを効率的に学習する必要がある。
    • 人間とロボットの視覚的・運動学的差異が,スキルの転移を困難にしている。
    • 人間とロボットの差異を埋め,少ないデータでロボットにスキルを習得させる。
    • HumanEgoは,人間による操作を,手と物体の相互作用レベルで表現することで,この差異を解消する。
    • わずか30分間の人間ビデオで,4つの実世界タスクにおいて92.5%という高い成功率を達成した。
    • 人間のデータを活用し,ロボットのハードウェアや環境に依存しない汎用的な学習フレームワークである。

    Link: https://arxiv.org/abs/2605.24934

  • VEOcc:ボクセル中心オンライン意味的占有率予測による具現化されたシーン理解 [cs.CV]目的:自律探索のためのオンライン3次元占有率予測とマッピング
    • ロボットの自律的な環境理解と探索には,高精度な3次元空間表現が不可欠である。
    • 既存のガウス中心手法は,構造境界の忠実度と事前定義されたシーンサイズへの依存性が課題である。
    • 初期スケール推定の必要性をなくし,効率的なマッピングとロバストな状態推定を実現すること。
    • VEOccは,Occ-ScanNetとEmbodiedOcc-ScanNetにおいて,ローカルおよび具現化された設定の両方で最先端の性能を達成した。
    • 自己収集した動画シーケンスにおけるゼロショット評価により,未知の環境での汎化能力が確認された。
    • 本フレームワークは,自律探索のための高精度かつ効率的なソリューションを提供する。

    Link: https://arxiv.org/abs/2605.25059

  • 深層画像事前知識における原理に基づいた自己参照型早期停止手法 [cs.CV, cs.LG]目的:深層画像事前知識を用いた逆画像問題解決における早期停止の最適化
    • 逆画像問題解決において,学習データを用いない深層画像事前知識が有効性が示されている。
    • 深層画像事前知識は過パラメータ化によりノイズに過剰適合しやすく,早期停止が不可欠である。
    • 不安定な再構成を招く既存手法の課題を克服し,より安定した早期停止を実現すること。
    • 2つの独立したノイズ画像があれば,ほぼ最適な早期停止が可能となることが示された。
    • 独立した画像を入手することが困難な場合でも,自己参照画像を用いた過剰適合検出フレームワークを提案。
    • 自然画像や医療画像の復元において,既存手法を凌駕する性能が確認された。

    Link: https://arxiv.org/abs/2605.25299

  • F-RNG:フィードフォワード再照明可能ニューラルガウス [cs.GR, cs.CV]目的:疎な視点からの入力から再照明可能な3Dガウススプラッティング資産を直接生成すること
    • 実世界の物体から再照明可能な3D資産を捉えることは,広く研究されている重要な課題である。
    • 既存手法は,密な入力視点が必要で,汎化性能が低いという問題点がある。
    • フィードフォワード方式で,低コストで再照明可能な資産を生成することを目指す。
    • F-RNGは,既存の大規模再構成モデルを基盤とし,再照明可能な表現を抽出することで学習コストを削減。
    • 潜在的に補間された微細なジオメトリ合成と,IDMからの事前知識を活用した再照明可能な外観蒸留により,高品質な資産を生成。
    • 最先端のLRMベースの再照明手法と比較して,約25倍高速な再照明と,優れた品質(約+2.0dB)を実現。

    Link: https://arxiv.org/abs/2605.25975

  • パリ2.0:ビデオ生成のための分散型拡散モデル [cs.CV, cs.LG]目的:ビデオ生成のための分散型拡散モデル
    • 近年,深層学習によるコンテンツ生成が注目されており,その応用範囲は広い。
    • 大規模な計算資源が求められるため,ビデオ生成モデルの学習は困難であった。
    • 分散型計算を用いてビデオ生成モデルを学習し,計算資源の制約を克服する。
    • パリ2.0は,分散型計算で事前学習された初のビデオ生成モデルである。
    • 同じ計算量で学習された集中型モデルと比較して,FVDを561.04から279.01に削減し,約2.0倍の改善を達成した。
    • CLIPテキスト-ビデオ類似度と美的スコアも向上した。

    Link: https://arxiv.org/abs/2605.26064

  • 報酬傾斜分布マッチングによる少数ステップ生成器の強化 [cs.CV]目的:少数ステップ拡散蒸留モデルと報酬誘導型強化学習の統合
    • 画像生成技術の効率化が求められている。少数ステップ拡散蒸留は有望な手法の一つである。
    • 少数ステップ生成器の出力と人間の嗜好との整合性が課題となっていた。
    • 人間の好みに合った高品質な画像を少数ステップで生成することを目指す。
    • 提案手法RTDMDは,好みの指標,美観指標,構成指標において最先端の結果を達成した。
    • RTDMDは,わずか4ステップの推論で,既存の少数ステップテキスト-画像生成手法を上回る性能を示した。
    • 報酬傾斜分布マッチングにより,分布マッチングと報酬最大化を同時に最適化する。

    Link: https://arxiv.org/abs/2605.26108

  • 動的チャート理解のためのベンチマークChartAct [cs.RO, cs.CV]目的:動的チャート理解能力の評価
    • データ分析や意思決定において,チャートは不可欠なツールである。そのため,チャートの理解は重要。
    • 既存のベンチマークは静的チャートに偏っており,動的かつインタラクティブなチャートの理解は未解決の課題である。
    • 動的チャート環境におけるモデルの限界を明らかにし,より高度なチャート理解へと導く。
    • ChartActは,8つのリアルなウェブサイトから673個の動的チャートを収集し,1,440個の高品質な質問応答サンプルを構築した。
    • 実験結果から,既存モデルは動的チャート理解において限界が見られ,最良モデルのClaude-Opus-4.7でも平均正答率は84.5%にとどまることが示された。
    • 本研究は,インタラクティブな環境におけるチャート理解の研究のための新たなベンチマークを提供し,詳細な失敗分析とケーススタディを行った。

    Link: https://arxiv.org/abs/2605.26994

  • ピクセルを超えて:可変長視覚プログラムの学習 [cs.CV, cs.LG]目的:視覚構造記述のための離散的な表現
    • 画像認識において,構造的なシーンの理解が重要である。
    • 既存のトークナイザーは,画像ごとに適切なシーケンス長を学習できない。
    • 画像構造に合わせた最適な視覚プログラム長を学習すること。
    • STROPは,画像の複雑さに応じてプログラム長を自動的に調整する。
    • DINOv3の特徴量を用いて,局所的なレート歪みプローブで学習を効率化している。
    • 学習されたコードブックから,構成的な構造の兆候が確認された。

    Link: https://arxiv.org/abs/2605.27696

  • ROVER:根拠となる視覚的証拠のオブジェクト中心ルーティングによる,根拠に基づいた複数画像推論 [cs.CV, cs.AI]目的:根拠に基づいた複数画像推論のための視覚的証拠ルーティング手法
    • 大規模言語モデルと視覚情報の融合が,複雑な推論タスクにおいて重要性を増している。
    • 従来のROIベースの手法では,シーン全体の理解やオブジェクト間の関係性が損なわれる場合がある。
    • オブジェクト中心の注意機構と履歴情報を活用し,効率的な視覚的証拠ルーティングを実現する。
    • ROVERは軽量で学習可能なプラグインであり,視覚的証拠の効率的なグローバルルーティングを可能にする。
    • Qwen2.5-VL-7BにROVERを統合し,MM-GCoTとVideoEspressoで最先端の性能を達成した。
    • VideoEspressoで学習したモデルは,多様なベンチマークで優れた転移学習能力を示した。

    Link: https://arxiv.org/abs/2605.27959

  • 空間的に変動する場における幾何学的パラメータ化とマッピングのための解像度非依存ニューラルサロゲート [cs.CV, cs.GR, cs.LG]目的:空間的に変動するパラメータ場とクエリ位置に基づいて,マッピングされた位置の予測
    • 画像処理における空間変換は,歪み補正や画像レジストレーションなど,多くの応用分野で重要である。
    • 高解像度での繰り返し計算は計算コストが高く,パラメータ場が変動する場合に課題となる。
    • 解像度に依存しないニューラルサロゲートを用いて,計算コストを削減し,効率的なマッピングを実現する。
    • 提案手法は,幾何学的制約に基づき,ラベル付きデータなしで学習可能である。
    • マルチ解像度幾何学的エンコーディングにより,固定グリッドへの依存を回避している。
    • 準共形写像および密度等化マッピング問題における実験結果により,その有効性が示された。

    Link: https://arxiv.org/abs/2605.28551

  • 共有資源における厳密な保証 [econ.TH, cs.GT]目的:共有資源におけるエージェントのタイプに基づいた公平な分配の保証範囲
    • 資源配分は経済学の根幹であり,効率性と公平性の両立が重要である。
    • 従来の資源配分ルールは,公平性の観点から保証範囲が不明確な場合がある。
    • この研究は,公平性を厳密に保証する分配範囲を特定し,最適な分配ルールを提案する。
    • 超モジュラー関数およびサブモジュラー関数において,唯一の厳密な上限および下限保証は「全会一致シェア」である。
    • 「単独シェア」は,全会一致シェアの反対側にあるすべての厳密な保証を包含する範囲を示す。
    • シリアルコストシェアリングは,全会一致シェアと単独シェアを実装する。

    Link: https://arxiv.org/abs/2406.14198

  • 拡散に基づく2D投影事前分布と符号付き3Dガウス関数を用いたゼロショットCT超解像 [eess.IV, cs.CV]目的:ゼロショットCT超解像の実現
    • 臨床診断においてCTが重要であり,高解像度化が望まれる。
    • 高解像度CT取得には被ばくリスクが伴い,教師あり型超解像はペアデータが必要。
    • 単一の低解像度データから高解像度画像を復元する技術を開発する。
    • 本研究では,拡散モデルに基づく2D投影事前分布を3D再構成プロセスに統合する新しいフレームワークを提案した。
    • 提案手法は,2つの公開データセットで優れた性能を示し,臨床応用の可能性が専門家によって評価された。
    • 新しいNegative Alpha Blending (NAB-GS) を用いることで,拡散生成された高解像度画像と低解像度投影間の符号付き残差を学習した。

    Link: https://arxiv.org/abs/2508.15151

  • 復元保証付き双クォータニオンによるSE(3)同期 [math.OC, cs.CV, cs.RO, eess.SP]目的:特殊ユークリッド群SE(3)における同期
    • ロボティクスや3Dビジョンにおける基本的な要素技術であり,正確な姿勢推定が不可欠である。
    • 既存手法は,有効な姿勢を復元するためにヒューリスティックな手順を必要とし,理論的な保証がない。
    • 双クォータニオン表現を用いて,信頼性の高い姿勢復元を可能とする同期アルゴリズムを開発する。
    • 提案手法は,複素共役双クォータニオン行列を用いたスペクトル初期化と,DQGPMによる反復投影によって,実行可能性を確保する。
    • スペクトル推定器のエラー限界が確立され,DQGPMは有限反復でのエラー限界と線形エラー収縮を実現する。
    • 合成データと実データによる実験により,提案手法が既存の行列ベース手法よりも精度と効率で優れていることが示された。

    Link: https://arxiv.org/abs/2602.00324

  • 太陽観測における稀な現象の効率的な探索:Inspectorch [astro-ph.SR, cs.CV]目的:太陽観測データにおける稀な現象の効率的な識別
    • 太陽活動の理解は,宇宙天気予報や地球への影響を予測する上で重要である。
    • 従来の解析手法では,大規模な太陽観測データの全てを分析することが困難である。
    • 稀な現象を効率的に識別し,限られた計算資源を有効活用することを目指す。
    • 提案手法Inspectorchは,フローベースモデルを用いて太陽観測データの多次元分布を学習する。
    • 異常度の低いスペクトルを特定し,強いドップラーシフトや特殊なブロードニングなどの特徴を持つイベントを発見した。
    • 密度推定を用いたアプローチが,大規模太陽データにおける稀な現象の識別において有効であることを示した。

    Link: https://arxiv.org/abs/2602.20316

  • LUMINA:エネルギー調和プロトコルを用いたマルチベンダーマンモグラフィベンチマーク [eess.IV, cs.CV, cs.DB, cs.LG]目的:マルチベンダーマンモグラフィデータセットの構築と,エネルギー調和プロトコルの提案
    • マンモグラフィAIの信頼性向上には,多様なベンダーや撮影条件に対応したデータが不可欠である。
    • 既存のベンチマークデータセットは,ベンダーの多様性や臨床的注釈の点で十分ではない。
    • ベンダーやエネルギーによるドメインシフトの影響を軽減し,AIの汎化性能を高める。
    • LUMINAは,6種類の撮影システムと高・低エネルギーの画像を含む1824枚のマンモグラフィ画像を提供する。
    • エネルギー調和プロトコルは,アーキテクチャに依存せず性能を向上させ,Grad-CAMによる可視化も改善した。
    • EfficientNet-B0は診断で93.54%のAUC,Swin-Tは密度予測で89.43%のmacro-AUCを達成した。

    Link: https://arxiv.org/abs/2603.14644