arXiv雑要約

画像・音声 - 2026/06/19 公開

セマンティック変調による線形再帰ユニットを用いた画像超解像 [cs.CV]目的：単一画像超解像における性能と効率の調和
- 画像処理分野において，高画質化技術は不可欠であり，その需要は常に高まっている。
- 既存手法は，計算コストが高いか，十分な性能が得られないという課題が存在する。
- 線形再帰ユニットの制約を克服し，効率的な高画質化を実現することを目的とする。
- 提案手法は，既存の最先端手法と比較して，定量的に・定性的に優れた結果を示した。
- 特に，計算複雑さを同程度に保ちながら，より高い性能を達成した。
- セマンティック変調ユニットが，LRUの変調，空間的分類，特徴量強化に貢献している。
Link: https://arxiv.org/abs/2606.19901
内視鏡ビデオのためのガウス過程事前変分オートエンコーダ [cs.SI, cs.CV]目的：内視鏡ビデオの修復
- 消化器疾患の診断やコンピュータ支援手術において，内視鏡ビデオの解析は不可欠である。
- 内視鏡ビデオは，反射，動きのアーチファクト，欠落フレームなどにより劣化しやすい。
- 時間的な連続性を活用し，信頼性のあるフレーム補間を実現することを目指す。
- 提案手法GPVAEは，従来のVAEよりも平均21.9%，最大26.1%高い画像再構成精度を達成した。
- 軌跡RMSEは，古典的なVisual OdometryとPoseNetで平均12.7%減少した。
- GPVAEは，フレームごとの不確実性推定を提供し，修復されたフレームの信頼性を示す。
Link: https://arxiv.org/abs/2606.19908
離散的音声トークン驚異度による軽量な発音評価 [cs.CL, cs.SD, eess.AS]目的：自動発音評価のための軽量なフレームワーク
- 言語学習において，正確な発音は円滑なコミュニケーションに不可欠である。
- 発音評価システムの構築には，大規模なエラー付与データが必要であり，コストがかかる。
- ネイティブ音声のみで学習可能な，低コストな発音評価手法を開発する。
- 提案手法では，学習者の音声を離散化し，ネイティブ音声の言語モデルで驚異度を計算する。
- テキストに基づく音素列予測モジュールを導入し，エラーに敏感な特徴量を抽出する。
- SpeechOcean762の評価で，テキストガイダンスにより相関係数が0.60から0.66に向上し，教師あり学習ベースラインに匹敵する結果が得られた。
Link: https://arxiv.org/abs/2606.19910
SpatialSV：タスク指向の視覚的監督によるMLLMへの解釈可能な3次元空間認識の内部化 [cs.CV]目的：多次元大規模言語モデルにおける3次元空間認識の内部化と解釈可能性の向上
- 3次元世界を理解し，対話するためのMLLMの空間知能は不可欠である。
- 既存手法は外部ツールに依存し，推論コストが高いか，解釈可能性に欠け，詳細な幾何学的制約がない。
- MLLMが2次元視覚特徴を明示的な3次元表現に変換することで，空間認識能力を内部化すること。
- SpatialSVは，深度マップ，カメラポーズ，点群などの3次元表現を生成するタスク指向の視覚的監督により，MLLMの空間認識を内部化する。
- 生成された3次元再構成は，モデルの空間知識の質を視覚化・診断するための直感的な手段を提供する。
- 実験により，SpatialSVが複数のモデルとベンチマークにおいて，MLLMの空間知能を向上させることが示された。
Link: https://arxiv.org/abs/2606.19915
CARE：ビデオマルチモーダル大規模言語モデルにおける適応的推論長の報酬成形手法 [cs.HC, cs.CV]目的：ビデオマルチモーダル大規模言語モデルにおける適応的な推論長最適化
- マルチモーダルなビデオ推論は，AIの発展において重要な役割を担う。人間の視覚と言語理解を組み合わせることで，より高度な情報処理が可能となる。
- 従来の強化学習法では，モデルの能力変化に対応できない固定的な推論長制御が課題であった。探索の抑制や冗長な推論を引き起こす可能性があった。
- 本研究は，モデルの能力に応じて報酬を調整し，効率的な推論長を学習することで，この問題を解決することを目指す。
- 提案手法CAREは，モデルの習熟度を推定し，段階的に報酬の優先順位を変化させることで，探索と効率性のバランスを取る。
- 実験の結果，CAREは推論精度を向上させ，強化学習の安定化，トークン効率の大幅な改善に貢献することが示された。
- 学習中に推論長がU字型に変化し，収束時には短く有益な推論経路が生成されることから，推論リソースの有効な配分が実現されていることがわかる。
Link: https://arxiv.org/abs/2606.19927
空間認識型削減フレームワーク：効率的かつ忠実な視覚状態空間モデルに向けて [cs.RO, cs.RO, cs.HC, cs.MA, cs.CV, cs.AI]目的：視覚状態空間モデルの効率性と忠実性を向上させるための空間認識型削減手法
- 視覚情報処理において，長大な系列データの効率的な処理は重要な課題である。
- 構造化されたMambaモデルにおいて，トークン削減を行うと性能が著しく低下する。
- 既存の削減手法が空間構造を考慮していない点を改善し，性能低下を防ぐ。
- 提案手法STORMは，空間構造を維持する削減フレームワークであり，既存の削減パイプラインに容易に組み込める。
- STORMは，様々なVision Mambaバックボーンにおいて，トレーニングなしで最先端の精度を達成した。
- 特にVMambaにおいて，従来の技術を最大63.3％上回る精度回復を実現し，PlainMambaと同等の性能を示した。
Link: https://arxiv.org/abs/2606.19932
セマンティックセグメンテーション産業応用におけるアノテーションプロセスの高速化 [cs.CV, cs.AI]目的：セマンティックセグメンテーションにおけるデータアノテーション効率の向上
- 機械学習モデルの性能はデータ量に依存するため，大規模アノテーションデータの整備が不可欠である。
- アノテーション作業は複雑化するにつれて人的エラーが増加しやすく，ボトルネックとなりやすい。
- 半教師あり学習等を用いたアノテーションの効率化により，産業材料科学における課題解決を目指す。
- 教師なしアルゴリズムの活用により，アノテーション時間を170時間から37時間へと，約78%削減することに成功した。
- 高解像度画像(1280x959, 960x703)を対象としたセマンティックセグメンテーションにおいて，効率化の効果が実証された。
- 鋼の微細構造セグメンテーションのための大規模な公開データセットを構築・共有し，分野への貢献と新たなベンチマークを提供した。
Link: https://arxiv.org/abs/2606.19934
光学的フロー学習における普遍的な制約としての三角整合性 [cs.CV, cs.AI]目的：光学的フロー学習のための三角整合性
- 画像処理において，物体の動きを正確に捉える光学的フローは，自動運転やロボット工学等の応用において不可欠である。
- 既存手法では，ネットワーク構造や学習データに依存した制約が課されており，汎用性に課題があった。
- 本研究は，そのような制約に依存せず，より普遍的な光学的フロー学習を可能とする手法を提案する。
- 提案手法である三角整合性は，光学的フローの幾何学的性質に基づき，追加の計算コストや注釈なしに導入可能である。
- 実験により，教師あり学習，教師なし学習，転移学習といった様々な設定において，性能向上が確認された。
- 本手法は，ネットワーク構造や学習方法に依存しない汎用的な光学的フロー学習のコンポーネントとして機能する。
Link: https://arxiv.org/abs/2606.19938
手書き数式生成のための記号とグラフを認識する潜在拡散トランスフォーマー：DiffMath [cs.CV]目的：手書き数式生成における新たなフレームワーク
- 数式は科学技術分野において不可欠であり，そのデジタル化は重要である。
- 既存手法は位置情報のラベル付けにコストがかかり，拡張性に乏しい。
- 位置情報ラベルなしで，構造的に整合性の高い手書き数式生成を目指す。
- DiffMathはLaTeXの構造を事前知識として利用し，位置情報ラベルを必要としない。
- RelASTとMathVAEにより，記号と空間的な関係性を効率的に捉えた潜在表現を学習する。
- 実験の結果，既存手法を上回り，OCRモデルの精度向上に貢献することが示された。
Link: https://arxiv.org/abs/2606.19939
Timage：視覚言語モデルのファインチューニングのための生成的なテキストと画像のパラダイム [cs.CV]目的：視覚言語モデルにおけるマルチモーダル理解の改善
- 視覚言語モデルは，画像とテキストの両方を理解する能力が求められ，多様な応用が期待されている。
- 従来の視覚言語モデルは，詳細な空間推論において，正しい画像領域に焦点を当てることが難しい場合がある。
- 本研究は，入力画像を直接修正することで，言語モデルの注意を正確な視覚的座標に誘導し，マルチモーダルな推論能力を向上させる。
- Timageは，テキストクエリを画像上に直接描画する新しいパラダイムを提案し，モデルの注意を空間的に誘導する。
- 提案手法は，VMCBenchにおいて，より大規模なプロプライエタリシステムやパラメータ調整されたベースラインを凌駕する性能を示した。
- 入力画像の再構成が，モデルのアーキテクチャに依存しない，マルチモーダル推論を強化するための強力な手段であることを示した。
Link: https://arxiv.org/abs/2606.19944
マルチモーダルLLMにおける信頼度校正：医学的VQAを通じた実証研究 [cs.CG, cs.CV, cs.AI]目的：医学的VQAにおけるマルチモーダルLLMの信頼度と精度の関係性分析および信頼度校正手法の提案
- 医療分野におけるAI活用が進む中，LLMの信頼性は診断精度に直結するため重要である。
- LLMの出力に対する信頼度と実際の精度が乖離しており，誤診や適切な助言の見落としが懸念される。
- マルチモーダルLLMの信頼度を改善し，医療現場でのより安全で信頼性の高いAI活用を可能とする。
- 提案手法であるMS-FBIと専門家LLMによる評価の組み合わせが，医療VQAデータセットにおいてECEを平均40%削減することを示した。
- 本研究は，医療分野におけるLLMの信頼度校正の重要性を強調し，AI支援診断の信頼性向上に貢献する。
- ドメイン特化型の信頼度校正は，医療におけるLLMの活用において不可欠であることが示唆される。
Link: https://arxiv.org/abs/2606.19950
SketchKeyAnime：参照画像に基づいた疎なキー・スケッチアニメーション合成 [cs.CY, cs.CV]目的：低コストな入力条件における構造制御可能で，外観の一貫性と時間的な coherence を持つアニメーション生成
- アニメーション制作は手作業に依存しており，効率化が求められている。近年，AI技術による自動化が進んでいる。
- 既存手法はRGB画像や密な条件，完全なスケッチシーケンスを必要とし，低コストな入力への対応が課題であった。
- 少ないキー・スケッチと参照画像から，高品質なアニメーションを生成することを目指している。
- 提案手法SketchKeyAnimeは，参照画像とキー・スケッチを条件とした二分岐機構により，幾何学的制約と意味・時間的文脈をエンコードする。
- Sketch Cross AttentionとAdaptive Weighted Lossにより，キー・スケッチフレームと線画領域への supervision を強化し，スケッチの忠実性と時間的な coherence を向上させている。
- Sakuga-42Mデータセットにおける実験で，既存手法を凌駕する性能を示し，EDMDとFVDをそれぞれ31.9%，9.5%削減した。
Link: https://arxiv.org/abs/2606.19958
RGBからSWIR画像変換における潜在拡散モデルの詳細ボトルネックへの対処 [cs.IR, cs.CV]目的：RGBからSWIR画像への変換における詳細な空間情報の損失改善
- 画像変換技術は，自動運転や医療画像処理など幅広い分野で重要性を増している。
- 潜在拡散モデルは高速だが，圧縮時に微細な空間情報を失い，認識精度が低下する。
- 本研究は，潜在拡散モデルのエンコーダーと条件付け経路のボトルネックを解消し，認識精度向上を目指す。
- 提案手法は，SCAEとLGEにより，エンコーダーの空間情報損失と条件付け経路の信号劣化を軽減する。
- RGBからSWIR画像変換実験において，オブジェクト検出のmAPを最大2倍に向上させ，特に小さい物体で3.4倍の改善を示す。
- FIDスコアと検出性能の相関が低いことを示し，多角的評価の重要性を強調する。
Link: https://arxiv.org/abs/2606.19961
ROSE：マルチモーダルモデルにおける知覚と行動のギャップのベンチマーク [cs.CV, cs.AI]目的：マルチモーダルモデルにおける知覚と行動のギャップの評価
- 視覚情報を基にした行動が求められる場面が増加しており，モデルの信頼性評価が重要である。
- 同じ視覚情報でも，タスクの文脈によって異なる行動が必要であり，その一貫性に課題がある。
- 視覚的証拠を文脈に応じた行動に変換する際のモデルの能力を定量的に評価すること。
- ROSEベンチマークは，視覚シーンを固定し，領域制約と必要な記号的出力を変化させることで，モデルの文脈適応能力を評価する。
- 9つの最新MLLMにおいて，カウントタスクから領域条件付きアクションタスクへの性能低下が最大44.5％に達した。
- このギャップは，モデルの共有視覚的証拠を文脈固有のアクションに変換する際のボトルネックを示している。
Link: https://arxiv.org/abs/2606.19965
セマンティックアンカーに基づく証拠融合によるドメインロバストな全スライド生存率解析 [cs.CV, cs.LG]目的：全スライド画像を用いた，ドメインに依存しない生存率予測モデルの構築
- 病理診断において全スライド画像は不可欠であり，その解析精度向上は臨床的意義が大きい。
- 既存手法は，染色やスキャナの違いに影響されやすく，異なる臨床センター間での汎化性能が低い。
- セマンティック情報を活用することで，ドメイン依存性を低減し，汎化性能の高い生存率予測を実現する。
- 提案手法SAEFSは，Visual Question Answeringを用いてセマンティックアンカーを抽出し，画像情報と融合する。
- 単一ドメインで学習し，4つの未知ドメインで評価した結果，既存モデルを平均C-indexで10.2%上回る性能を示した。
- セマンティック特徴は，ピクセル特徴と比較して，臨床センター間のばらつきが有意に小さく，ロバスト性が高いことが確認された。
Link: https://arxiv.org/abs/2606.19966
クォータ以下を超えて：複数勝者投票における過剰な代表の回避 [cs.GT]目的：複数勝者投票における過剰な代表の回避
- 社会選択理論は，公正な集団意思決定のメカニズムを設計する上で重要である。
- 承認投票などの複数勝者投票において，過剰な代表の問題は十分に議論されていない。
- 過剰な代表を回避するための公理を提案し，それを満たす新しい投票ルールを特定すること。
- 正当化された上限クォータ(JUQ)という強力な公理を定式化し，複合Thieleルールを用いてJUQを満たす一意のルール，Adams-AVを特徴付けた。
- Adams-AVは，アダムスの配分法を自然に拡張したものであり，これまで研究されていなかった。
- 過剰および過小代表をバランスさせる公理である正当化されたニアクォータを導入し，サン・ラギュー配分法を拡張する一意のThieleルールを特徴付けた。
Link: https://arxiv.org/abs/2606.19968
クロスフロー：潜在空間とピクセル空間を横断するワンステップ生成 [cs.DB, cs.DC, cs.CV]目的：潜在空間とピクセル空間を横断する生成手法の開発
- 拡散モデルやフローマッチングは画像生成で高い性能を示すが，計算コストが大きい。
- 潜在拡散は効率化を図るが，潜在空間での生成とデコーダによる画像生成の間に不整合が生じる。
- 潜在空間からピクセル空間への直接的な変換により，効率性と品質の両立を目指す。
- クロスフローは，ノイズの多い潜在入力を直接ピクセル空間の画像にマッピングするクロス空間フローの定式化を導入した。
- ImageNet-1k（256x256）の条件付き画像生成において，クロスフローXLは1.62のFIDスコアを達成した。
- 潜在エンコーダやピクセル空間での知覚的・敵対的損失が生成品質に重要であることが示された。
Link: https://arxiv.org/abs/2606.19970
視覚と推論に基づくライトフィールドからのオクルージョン除去 [cs.CV]目的：ライトフィールドからのオクルージョン除去手法
- 計算画像処理において，自然環境下での前景植生による視界制限は大きな課題である。
- 既存手法では，密な前景の存在下での頑健なシーン復元が困難である。
- 視覚と言語モデルの推論能力を活用し，強いオクルージョン下でのロバストな知覚を目指す。
- ライトフィールド統合(LFI)と視覚言語モデル(VLM)を組み合わせた新しいフレームワークを提案した。
- 提案手法は，合成データセットで最先端の性能を示し，SSIM平均値で最高の結果を達成した。
- 構造化・非構造化の取得設定の両方で高い汎化性能が確認された。
Link: https://arxiv.org/abs/2606.19985
PolSeT：ポーランド語の音色意味論データセット [cs.SD, eess.AS]目的：ポーランド語および異文化間研究のための音色意味論データセット
- 音色に関する心理音響学や音楽情報処理研究は重要である。人間の知覚と音響特徴の関係を理解する上で不可欠である。
- 音色を記述する言語的データセットが不足しており，異文化間比較が困難であった。
- ポーランド語における音色記述の語彙と，音色に対する意味的評価データを提供し，研究を促進する。
- ポーランド語の音色記述語彙を構築するため，自由記述タスクを実施し，1901件の記述語（701件のユニークな語）を収集した。
- 収集した語彙を用いて意味較差法実験を行い，18種類の楽器音を8つの双極スケールで評価した。信頼性分析も実施した。
- 本データセットは，音色研究に必要な，リスナーの回答，属性情報，音響特徴，Pythonコードを公開する。
Link: https://arxiv.org/abs/2606.19987
セグメントレベルの中国語音声を用いた認知機能障害検出：コントラスト学習付きオートエンコーダー [cs.SD, cs.CL]目的：認知機能障害の検出
- 音声は，認知機能障害検出のための低コストで非侵襲的なデジタルバイオマーカーとして有望である。
- ラベル付きデータの不足と，データセット間の変動が，音声に基づくスクリーニングシステムの課題となっている。
- 限られたデータ下でのロバスト性を向上させ，認知機能障害のスクリーニングを可能にすること。
- 4つの独立した中国語音声データセットを用いた実験で，二値分類および三値分類タスクにおいて安定した高い性能を示した。
- 特に，臨床的に困難な三値分類設定において顕著な改善が見られた。
- 提案されたフレームワークの有効性は，アブレーションスタディによって裏付けられた。
Link: https://arxiv.org/abs/2606.19996
Tri-Info：情報理論によるVLAモデルの汎用性・解釈性のある故障予測 [cs.RO, cs.AI, cs.CV, cs.LG]目的：VLAモデルにおける故障の予測手法
- VLAモデルの応用範囲拡大に伴い，安全性の確保が重要課題となっている。
- VLAモデルの動作原理が不明瞭であり，故障時の原因特定が困難である。
- 汎用性と解釈性のある故障予測により，安全なVLAモデルの実現を目指す。
- Tri-Infoは，6つのVLAモデルと3つのベンチマーク環境で，既存の最高性能手法と同等の性能を示した。
- アーキテクチャ，環境，シミュレーションから実世界へのギャップを越えて転移学習が可能であり，実世界タスクで83%の精度を達成した。
- 故障検出に加え，故障モードの解釈を可能にする簡潔で強力な手法である。
Link: https://arxiv.org/abs/2606.19998
QG-MIL：医療画像におけるドメイン非依存型多インスタンス学習のためのゲート付きTransformer集約器 [cs.CV]目的：医療画像におけるドメイン非依存型多インスタンス学習のための新しい集約器
- 医療画像診断において，深層学習を用いた自動化は，医師の負担軽減や診断精度の向上に不可欠である。
- 既存の多インスタンス学習アグリゲーターは，注意機構への集中が起こりやすく，不安定な予測を招くという課題がある。
- 注意機構の集中を抑制し，より安定した予測を行うための新たな集約器を開発すること。
- QG-MILは，RMSNorm正規化，QK正規化，注意出力ゲート，SwiGLUモジュールを組み合わせることで，学習の安定化と注意の分散を実現した。
- 6つのベンチマークにおいて，既存手法と比較して平均で6.1ポイントのmacro F1スコアの向上が確認された。
- 注意の可視化と注意質量分析により，インスタンスへの重み付けがより均一になっていることが示された。
Link: https://arxiv.org/abs/2606.20027
信頼性に基づいたセマンティック・空間的洗練によるオープンボキャブラリ変化検出 [cs.CV]目的：オープンボキャブラリ変化検出の信頼性向上
- リモートセンシング技術は土地利用の変化を把握する上で重要であり，社会インフラの維持管理に役立つ。
- 従来の検出手法はカテゴリが限定されており，多様な変化に対応できないという課題があった。
- セマンティックと空間的な情報を活用し，信頼性の高い変化検出を実現することを目指す。
- 本研究では，ピクセルごとのセマンティックな差異から変化候補領域を抽出し，詳細な局所化を可能にした。
- セマンティック変化推論モジュールと境界認識変化洗練モジュールを導入することで，信頼性の高い変化検出を実現した。
- 複数のデータセットにおいて，最先端手法と比較してF1スコアが2.13%から9.75%向上し，計算効率も高かった。
Link: https://arxiv.org/abs/2606.20032
PU-UNet：医療画像セグメンテーションのための安定した乗算的相互作用 [cs.CV, cs.LG]目的：医療画像セグメンテーションにおける，安定した乗算的相互作用の活用
- 医療画像解析は，疾患の早期発見や正確な診断に不可欠であり，その精度向上は重要な課題である。
- 既存の深層学習モデルでは，高次の特徴量の相互作用を明示的にモデル化することが難しく，数値的な不安定性が問題となる。
- 本研究は，安定した乗算的相互作用を導入することで，医療画像セグメンテーションの精度向上を目指す。
- 提案手法PU-UNetは，ISIC 2018，Kvasir-SEG，BUSIにおいて，それぞれ0.942，0.959，最大0.925のDice係数を達成した。
- 従来のResidual U-Netと比較して，Dice係数とIoUが改善され，パラメータ数，FLOPs，推論時間はほぼ変わらなかった。
- BUSIの正常症例における画像レベルの偽陽性率を0.077からゼロに削減することに成功した。
Link: https://arxiv.org/abs/2606.20035
FUSE：多imodalオブジェクト再識別における周波数領域の統合とスペクトルエネルギーアラインメント [cs.CV]目的：多imodal再識別におけるスペクトル表現の不均衡とクロスmodalアラインメントの不安定性の克服
- 再識別技術は，監視カメラ等の映像情報から個人を特定する上で重要であり，セキュリティや社会インフラの安全に貢献する。
- 既存手法は低周波数特徴に偏りがちで，幾何学的，テクスチャ，識別的な詳細を捉えきれていない点が課題である。
- スペクトル分解とエネルギーアラインメントを通じて，よりロバストで識別能力の高い多imodal表現学習を目指す。
- 提案手法FUSEは，RGBNT201, RGBNT100, MSVR310において，それぞれ9.1%，9.5%のmAPとRank-1の向上を達成した。
- FUSEは，周波数分解モジュール(SDM)とクロスmodalアラインメントモジュール(CAM)を導入し，周波数領域でのスペクトル表現の学習を可能にした。
- FUSEは，周波数的一貫性正則化と学習可能な周波数変調により，照明変化や異種センサー条件へのロバスト性を高めた。
Link: https://arxiv.org/abs/2606.20044
視認と到達：UAVの視野内における高精度な視覚言語ナビゲーション [cs.CV, cs.AI]目的：UAVの視野内に目標物が入った際の，正確な目標物認識と精密な3次元運動への変換能力の評価
- UAVの視覚言語ナビゲーションは，災害時の探索やインフラ点検など，様々な分野での応用が期待されている。
- 従来のUAV-VLNタスクは，長距離探索と最終接近を同時に最適化するため，精密な目標物認識能力の評価が困難であった。
- 視野内における目標物の正確な位置特定と，それに基づいた精密な3次元運動を実現し，UAVの到達能力を向上させる。
- 本研究では，目標物が見えている状態でのナビゲーションを評価するUAV-VLN-FOVタスクを新たに提案した。
- また，動的な3次元方向指示を用いる3DG-VLNフレームワークを開発し，視覚情報の正確な認識と空間方向の整合性を高めた。
- 実験の結果，3DG-VLNは既存手法と比較して，目標到達成功率が13.82%向上し，実環境での有効性も確認された。
Link: https://arxiv.org/abs/2606.20045
拡散Transformerのための学習可能なグローバルマージによる可変長トークン化 [cs.CV, cs.AI]目的：拡散モデルにおける品質と計算量のトレードオフの改善
- 潜在拡散モデルは画像生成で主流だが，計算資源との兼ね合いが課題である。
- 従来の可変長トークナイザーは，トークン位置に意味依存性をもたらし，異なる長さでの表現が揃わない。
- トークンマージによる可変長トークナイザーを提案し，表現のずれを解消することで拡散モデルの性能向上を目指す。
- 提案手法は，トークンをマージすることで，長さに関わらず表現の整合性を保つ。
- 学習可能なグローバルマージを導入し，生成時のデータ依存性を排除することで，拡散Transformerとの互換性を確保した。
- ImageNet 256x256生成において，既存の可変長トークナイザーよりも優れたgFID-計算量トレードオフを実現した。
Link: https://arxiv.org/abs/2606.20076
VLMにおける隠された視覚的文脈の進化 [cs.CV, cs.AI]目的：大規模言語モデル(LLM)への視覚トークンの統合アーキテクチャの影響
- LLMと視覚情報の融合は，画像や動画を理解するAIの能力向上に不可欠である。
- 視覚トークンがLLM内でどのように変換され，言語空間と相互作用するかは不明な点が多い。
- 異なる統合アーキテクチャが視覚情報の利用に及ぼす影響を明らかにすること。
- 視覚トークンは初期段階では言語構造を持たないままLLMに入力される。
- 統合アーキテクチャによって視覚表現が再構築され，異なる周波数特性が捉えられる。
- 視覚表現の質が，タスクパフォーマンスを大きく左右する。
Link: https://arxiv.org/abs/2606.20077
Holo-World：ビデオワールドモデルのための統一的なカメラ，物体，および気象制御 [cs.CV]目的：ビデオワールドモデルにおけるカメラ，物体，気象の制御に関する研究
- ビデオワールドモデルは，現実世界の再現と制御において重要な役割を担う技術である。
- 既存手法では，カメラ，物体，気象の制御が個別に扱われ，連携が不十分である。
- 単一画像から，カメラ，物体制御と気象指示に基づいて，ビデオを生成・変換することを目指す。
- Holo-Worldは，単一画像から正確なカメラと物体の制御を維持しつつ，多様な気象状態へのシーン転送を可能にする。
- Unified Scene Adapterにより，ワールドの維持と気象転送を明確に分離し，制御されたシーン構造を維持する。
- Scene-Weather Decomposed CFGを用いることで，気象効果を強化し，既存のビデオ編集手法よりも優れた性能を示す。
Link: https://arxiv.org/abs/2606.20083
EventVLA：イベント駆動型視覚的証拠メモリによる長期的視覚言語行動ポリシー [cs.CV]目的：長期的ロボット操作における視覚的証拠メモリの構築
- ロボット操作において，長期的な計画実行には記憶が不可欠である。複雑なタスクでは，視覚情報が一時的に遮断されても対応が必要となる。
- 従来の記憶拡張手法は，情報ボトルネック，高遅延，不要な情報の蓄積といった問題点を抱えており，効率的な記憶利用が課題である。
- イベント駆動型メモリを用いて，タスクに重要な視覚的証拠を効率的に記憶し，遮断されても操作を継続可能にすることを目指す。
- 提案手法EventVLAは，初期および短期的な視覚的コンテキストを保持するアンカーと，重要な視覚的イベントを動的に捕捉・保存するKeyframe Evidence Memory(KEM)を組み合わせる。
- KEMは，VLAの潜在表現から将来のキーフレーム確率を予測することで，タスクに重要な視覚的イベントを自律的に取得し，保存する。
- シミュレーションおよび実環境での実験の結果，最先端の記憶拡張VLAと比較して，平均成功率が+40%向上することが示された。
Link: https://arxiv.org/abs/2606.20092
MakeupMirror：拡散モデルを用いたメイクアップ転送における顔の特徴保持の改善 [cs.CL, cs.CV, cs.AI, cs.GR, cs.LG, cs.MM]目的：拡散モデルを用いたメイクアップ転送における顔の特徴および肌色の保持改善
- オンラインメイクアップショッピングの仮想試着等のAR体験を向上させる技術として重要である。
- 既存の拡散モデルは，顔の同一性や肌色の保持に課題があり，実用レベルのVTOには至っていない。
- 顔の特徴と肌色をより忠実に保持し，実用的なVTOを可能にすることを目標とする。
- 提案手法MakeupMirrorは，顔の認識類似度をStable-Makeupと比較して60%向上させた。
- 肌色の違いをStable-Makeupと比較して50%低減し，より自然な転送を実現した。
- 推論速度は0.7秒であり，生成品質を維持しつつ高速化に貢献した。
Link: https://arxiv.org/abs/2606.20094
大規模人工生成ボリュームデータセットにおけるステッチングと次元性の影響 [cs.CV]目的：大規模画像生成におけるステッチングの影響評価
- 深層学習を用いた大規模画像生成は，科学研究において重要性が増している。
- ハードウェアの制約からステッチング処理が必要となり，その際のアーティファクトが問題となる。
- ステッチングアーティファクトがスタイル変換モデルに与える影響を明らかにする。
- FIDスコアは，下流のセグメンテーション性能に大きな影響を与える微妙なステッチングアーティファクトを検出できないことが判明した。
- 3Dモデルは，アーティファクトのないステッチングにより，わずかに下流タスクで2Dモデルを上回るものの，計算コストに見合う改善は得られなかった。
- 2Dモデルは，より大きなバッチサイズにより，より安定した学習が可能であることが示された。
Link: https://arxiv.org/abs/2606.20095
WeGenBench: テキスト-画像モデル最適化に向けた多次元診断ベンチマーク [cs.CV]目的：テキスト-画像生成モデルの多角的評価
- 画像生成技術は急速に進歩しており，その性能評価が重要となっている。
- 既存のベンチマークでは，多次元的な評価が難しく，モデルの弱点を特定できない場合がある。
- WeGenBenchは，多言語・多次元評価により，モデルの課題を詳細に分析することを目的とする。
- WeGenBenchは，中国語と英語のプロンプト4,000件を用いて，テキスト-画像生成モデルを評価するベンチマークである。
- シーン分類に加え，多次元タグを用いて評価することで，モデルの苦手分野を特定可能である。
- Vision-Language Modelを活用した評価指標を設計し，評価の妥当性を検証した。
Link: https://arxiv.org/abs/2606.20100
指示に基づく音声編集のためのハイブリッド拡散Transformer：修正フローによるアプローチ [cs.SD, cs.AI, cs.MM]目的：指示に基づいた音声編集における性能と効率の向上
- 音声編集は，多様な用途において重要な技術であり，その需要は高まっている。
- 既存手法は，長距離のセマンティックアライメントや指示の正確な理解が課題となっていた。
- 提示された手法は，効率性と精度を両立させ，複雑な編集タスクを解決することを目指す。
- 提案手法は，修正フローマッチングに基づくハイブリッド2段階拡散Transformerアーキテクチャを採用する。
- 低解像度段階で粗いセマンティックアライメントを確立し，高解像度段階で詳細な編集を洗練させることで，効率的な編集を実現する。
- 複雑な編集タスクにおいて，既存手法を上回る性能と，コンパクトなモデルによる編集効率の改善が確認された。
Link: https://arxiv.org/abs/2606.20101
LiDAR-カメラ外部パラメータキャリブレーションのための3次元ガウススプラッティングによる形状維持 [cs.CV]目的：LiDAR-カメラ外部パラメータの正確なキャリブレーション
- 堅牢なマルチモーダル知覚には正確なキャリブレーションが不可欠であり，自動運転等の実現に繋がる。
- 従来のターゲットレス手法では，識別可能なクロスモーダル特徴が不足しており，精度に課題があった。
- ガウススプラッティングの形状ドリフトを抑制し，LiDARデータの正確な幾何構造を反映させることを目指す。
- 提案手法では，多視点LiDAR観測による高密度な深度情報の利用と，ガウスパラメータ更新における光度勾配の遮断により，形状を維持する。
- 公開された運転データセットにおいて，既存のターゲットレス手法と比較して，キャリブレーション精度が向上することが示された。
Link: https://arxiv.org/abs/2606.20103
解剖学的事前知識を用いた眼底画像品質評価の説明可能性：EFIQA [cs.CV, cs.LG]目的：眼底画像の品質評価手法の開発
- 眼底画像は，様々な疾患の診断に不可欠であり，その品質は診断精度に大きく影響する。
- 既存の深層学習ベースの品質評価手法は，データセット固有のラベルに依存し，汎化性能や説明可能性に課題がある。
- EFIQAは，ラベルを用いずに解剖学的事前知識を活用することで，品質の低下箇所を特定し，説明可能な品質評価を実現する。
- EFIQAは，教師なし学習による異常検知と，事前知識の蒸留を組み合わせることで，高品質な品質マップを生成する。
- 外部データセットによる評価において，既存の教師あり学習手法と比較して，EFIQAは優れた性能と説明可能性を示すことが確認された。
- EFIQAは，様々な品質基準を持つベンチマークで良好な結果を示し，実用的な応用が期待される。
Link: https://arxiv.org/abs/2606.20108
FrozenDrive：パラメータフリーの凍結拡散モデルによるゼロショットテキスト誘導運転シーン生成とデータ拡張 [cs.CV]目的：自律運転のための合成データ生成とデータ拡張
- 自動運転技術の発展には，多様かつ高品質な学習データが不可欠である。
- 既存のシーン生成手法では，多視点・時間的一貫性の維持が難しく，学習済み知識の劣化やテキストとのずれが生じやすい。
- 学習済み拡散モデルの知識を保持しつつ，一貫性のある運転シーンを生成することで，データ不足や悪天候などの課題を解決する。
- FrozenDriveは，学習済み拡散モデルのパラメータを固定したまま，テキストと運転状況に基づいて高品質な多視点運転シーンを生成する。
- 特に，悪天候や稀な条件下での性能が向上しており，既存手法を上回る結果が得られている。
- nuScenesデータセットを用いた実験では，FrozenDriveによるデータ拡張が，夜間や雨天時の自動運転モデルの性能を大幅に改善した。
Link: https://arxiv.org/abs/2606.20110
ピクセルレベル残差拡散Transformer：スケーラブルな3D CTボリューム生成 [cs.CV, eess.IV]目的：高解像度3D CTボリュームの生成
- 医療画像診断の精度向上に不可欠であり，より詳細な情報を提供することで病変の早期発見に貢献する。
- 既存の生成モデルは計算コストが高く，最適化が困難であるため，高品質なボリューム生成が課題となっている。
- 計算効率と最適化の安定性を向上させ，微細な構造をより正確に再現することを目指す。
- 提案手法PRDiTは，LIDC-IDRIおよびRAD-ChestCTデータセットにおいて，最先端モデルを凌駕する性能を示した。
- 3D FID，MMD，Wasserstein距離などの評価指標において，有意に低いスコアを達成している。
- ローカルデノイザーとグローバル残差拡散Transformerの組み合わせにより，効率的かつ安定した学習を実現した。
Link: https://arxiv.org/abs/2606.20112
キャリブレーション失敗時の脆弱な病院：リスクカーブ縮小による連合型共形リスク制御 [cs.CL, cs.IR, cs.LG, cs.CV]目的：連合学習におけるセグメンテーション品質の保証
- 医療画像解析の信頼性確保は，診断精度向上と患者ケアの質に不可欠である。
- 連合学習における単純なキャリブレーションでは，一部の病院で保証が破綻する問題がある。
- リスクカーブ縮小により，各病院のリスクを考慮した適切な閾値を設定し，保証を維持する。
- 従来の連合型共形リスク制御では，平均的な病院は保護されるものの，40％の病院でカバレッジが不足していた。
- 提案手法であるリスクカーブ縮小に基づく連合型共形リスク制御は，カバレッジと予測セットの効率性を両立した。
- ハイパーパラメータ調整により，カバレッジ違反を2.7/20に抑制し，予測セットの拡大を2.0倍に抑えることができた。
Link: https://arxiv.org/abs/2606.20115
ファインチ grained GOOSE 2DセマンティックセグメンテーションのためのSAM3自己蒸留 [cs.CV]目的：ファインチ grained GOOSE 2Dセマンティックセグメンテーションにおける性能向上
- 自動運転やロボット工学において，周囲環境の正確な理解が不可欠であるため。
- セグメンテーションの精度は，特に複雑なシーンにおいて改善の余地がある。
- SAM3の知識を活用し，セグメンテーション性能の向上を目指す。
- 提案手法は，ICRA 2026 GOOSE 2Dファインチ grainedセマンティックセグメンテーションチャレンジにおいて，69.73%の複合mIoUを達成した。
- SAM3を教師モデルとして活用する自己蒸留が，性能向上に大きく貢献した。
- 画像レベルのマルチスケールテスト時拡張により，固定入力サイズモデルでもマルチスケール推論が可能となった。
Link: https://arxiv.org/abs/2606.20130
TriFlow：最近傍頂点ベクトル場を用いた芸術的な3Dメッシュトポロジーの生成 [cs.CV, cs.GR]目的：芸術的な三角形トポロジーを持つコンパクトな3Dメッシュの生成
- 3Dコンテンツ作成において，高品質なメッシュ生成は不可欠であり，効率的なパイプライン構築に貢献する。
- 既存手法では，トポロジーの品質が低く，手動修正が必要となる場合が多い。
- 入力形状に基づき，芸術的なトポロジーを持つ高品質なメッシュを自動生成すること。
- TriFlowは，最近傍頂点ベクトル場を用いてメッシュトポロジーを表現し，潜在的フローマッチングモデルで生成する。
- 生成されたベクトル場に基づき，トポロジーを考慮した制約付き四次誤差最小化法によりメッシュを生成する。
- 実験の結果，TriFlowは既存手法と比較して，汎化性能とトポロジー品質が向上し，計算速度も大幅に改善された。
Link: https://arxiv.org/abs/2606.20131
SA-VIS：ビデオインスタンスセグメンテーションの学習のための疎なフレーム注釈 [cs.CV]目的：ビデオインスタンスセグメンテーションにおける学習コスト削減と性能向上
- ビデオインスタンスセグメンテーションは，動画内の物体を正確に識別・追跡する上で重要である。
- 従来のVIS学習には，大量の計算資源と高コストな密なフレーム注釈が必要となる。
- 本研究は，疎なフレーム注釈のみを用いて，VISの性能を向上させることを目指す。
- 提案手法SA-VISは，過去フレームの特徴伝播モジュール(PFP)を用いて学習効率を高める。
- SA-VISは，ベースラインと比較して性能を大幅に向上させ，疎な注釈でも精度の低下を抑制する。
- YouTube-VISおよびOccluded VISデータセットで優れた性能を示し，低注釈環境下で1%以上のAP改善を達成した。
Link: https://arxiv.org/abs/2606.20140
頭頸部腫瘍 (HECKTOR) 2025：マルチモーダルPET/CTにおけるセグメンテーション，診断，予後のベンチマーク [cs.CV]目的：頭頸部腫瘍のセグメンテーション，予後予測，HPVステータスの分類に関する自動化手法の性能評価
- 頭頸部癌は世界的な健康問題であり，効果的な放射線治療には正確な腫瘍の輪郭特定が不可欠である。
- 解剖学的複雑性と腫瘍の画像上の不均一性から，手動によるセグメンテーションは時間がかかり，観察者間のばらつきが生じやすい。
- マルチモーダルPET/CT画像と電子カルテを用いて，頭頸部癌の自動解析に関する包括的なベンチマークを確立し，臨床応用に向けた性能向上を目指す。
- 参加チームの提出したアルゴリズムは，セグメンテーションにおいて平均Dice係数0.75を達成した。
- 予後予測ではコンコーダンス指数0.66，HPV分類ではバランスアキュラシー0.56という結果が得られた。
- 本研究は，提出された手法の分析，病変特性ごとの性能評価，および臨床への応用可能性について議論する。
Link: https://arxiv.org/abs/2606.20143
NAMESAKES：テキスト画像モデルにおける同一性記憶の探求 [cs.CV, cs.CL]目的：テキスト画像モデルにおける同一性記憶の識別
- 生成AIの発展に伴い，個人情報保護の重要性が増している。
- 生成された画像が記憶に基づいているか判断が難しく，プライバシー侵害のリスクがある。
- 参照画像や学習データなしで，同一性の記憶を識別する方法を確立する。
- 提案手法は，参照画像や学習データなしに，生成された顔が記憶に基づいているか否かを識別できる。
- NAMESAKESデータセットを用いて，最先端のテキスト画像モデルにおける同一性記憶の予測精度を評価した。
- モデルの種類によって，同一性記憶の度合いに差があることが示唆された。
Link: https://arxiv.org/abs/2606.20155
ARTEMIS：エージェント誘導型信頼度重視の時間的マスク進化による不完全な教師あり動画ポリープセグメンテーション [cs.CV]目的：不完全な教師あり動画ポリープセグメンテーションにおける信頼度を考慮した時間的マスク進化
- 臨床現場では，詳細なアノテーションコストが高い。少ないアノテーションで高精度なセグメンテーションが求められる。
- 弱アノテーションや半教師あり学習では，コントラストの弱さや動きぼかしなどが課題となり，セグメンテーション精度が低下しやすい。
- 弱アノテーションと時間的一貫性を活用し，信頼度を考慮することで，より正確なポリープセグメンテーションを実現することを目指す。
- 提案手法ARTEMISは，SAM2とエージェントを活用し，信頼性の高い時間的アンカーを伝播させることで，不確かなフレームを改善する。
- 信頼度を考慮した損失関数を用いることで，ノイズの多い教師データを適切に処理し，セグメンテーション性能を向上させる。
- SUN-SEGおよびCVC-ClinicDB-612データセットにおいて，ARTEMISは最先端の性能を達成した。
Link: https://arxiv.org/abs/2606.20161
リモートセンシングMLLMにおける否定理解の評価と強化 [cs.CV, cs.AI]目的：リモートセンシングにおける否定理解の評価と改善
- リモートセンシング技術は，災害対応や環境監視など，様々な分野で重要な役割を担っている。
- MLLMは高性能だが，否定表現の理解が不十分で，現実世界での応用が制限されている。
- 否定理解の課題を克服し，災害時の避難経路特定など，実用的な応用を可能にすること。
- RS-Negという否定理解評価ベンチマークを開発し，リモートセンシングMLLMの否定理解能力が低いことを明らかにした。
- NeFoというテスト時学習手法を提案し，わずかな未ラベルデータで否定理解能力を大幅に向上させた。
- NeFoは未知のタスクに対しても高い汎化性能を示し，リモートセンシングMLLMの応用範囲を拡大する可能性を示唆した。
Link: https://arxiv.org/abs/2606.20177
HilDA：拡散を用いた階層的知識蒸留によるLiDAR自己教師あり事前学習の高度化 [cs.CV, cs.AI, cs.RO]目的：LiDARバックボーンの事前学習フレームワーク
- 自動運転における環境認識の精度向上は安全性確保の鍵であり，LiDARデータの活用が不可欠である。
- LiDARデータのラベル付けにはコストがかかり，十分な学習データが不足しているという課題がある。
- 教師あり学習に頼らず，LiDARデータの潜在的な情報を最大限に引き出す事前学習手法を開発する。
- HilDAは，階層的な知識蒸留と時間的占有拡散目的を組み合わせることで，LiDARのセマンティック情報と幾何学的構造を効果的に捉える。
- 提案手法は，クロスモーダル蒸留ベンチマークで最先端の結果を達成し，既存の蒸留アプローチを上回る性能を示す。
- 3D物体検出，シーンフロー，セマンティック占有予測などの自動運転タスクにおいて，HilDAの有効性が確認された。
Link: https://arxiv.org/abs/2606.20189
一度蒸留し，生涯適応：継続的なテスト時適応のためのデータセット蒸留の探求 [cs.CV]目的：継続的なテスト時適応のためのデータセット蒸留による安定化
- モデルは環境変化に対応する必要がある。テスト時適応は，ラベルなしでオンラインで適応するため重要。
- データ保持が困難な場合，既存のソースフリーCTTAは長期的な分布シフトに弱く，不安定になりやすい。
- データセット蒸留により，ソースデータの情報をコンパクトに保持し，長期的な安定適応を実現すること。
- DO-ALLは，データセット蒸留を用いて少量の合成アンカーを生成し，ソース分布を要約する。
- 各ターゲットサンプルは最も類似したアンカーとマッチングされ，様々なCTTA手法のための安定した参照を提供する。
- CIFAR100-C，ImageNet-C，CCCベンチマークにおいて，既存のCTTAアルゴリズムに組み込み，長期的なロバスト性を向上させる。
Link: https://arxiv.org/abs/2606.20196
美術技能評価のための画像照合の評価 [cs.RO, cs.CL, cs.CV]目的：美術技能の評価手法
- 絵画は訓練と練習が必要であり，客観的な技能評価が重要である。
- 従来の評価方法は複雑で負担が大きく，効率化が求められていた。
- コンピュータビジョン技術を用いて，より迅速かつ客観的な評価を実現する。
- 画像照合による美術技能レベルの評価が可能であることが示された。
- SIFT特徴量を用いたキーポイント照合が，技能検出において有効であると判明した。
- コンピュータビジョン技術が，煩雑な従来手法の代替となりうる。
Link: https://arxiv.org/abs/2606.20199
Zero-VC：話者匿名化による先読み不要ストリーミング音声変換 [cs.SD]目的：ストリーミング音声変換における音色と言語内容の分離
- 音声変換技術は，様々な応用において重要な役割を担うため，その高性能化が求められている。
- 既存手法では，音色と内容の分離が難しく，品質劣化や遅延増加といった課題が存在する。
- 話者匿名化を用いて，音色漏洩と品質維持のバランスを取り，低遅延を実現することを目指す。
- 提案手法は，話者匿名化を新たな摂動メカニズムとして導入し，音色漏洩を抑制しつつ，プロソディの情報を保持する。
- 話者匿名化によって生成モデルが未来の文脈への依存を軽減され，厳密に因果な，先読み不要なネットワークが実現した。
- 実験により，提案手法が既存手法と同等以上の性能を発揮し，かつ低遅延を実現することが示された。
Link: https://arxiv.org/abs/2606.20218