arXiv雑要約

画像・音声 - 2026/05/15 公開

SEDiT：1段階拡散Transformerによるマスク不要の動画字幕消去 [cs.CV]目的：動画字幕の消去
- 動画編集技術の発展は，コンテンツ制作や利用において不可欠であり，その効率化は重要な課題である。
- 既存の動画編集手法は，対象物のマスク抽出が必要であり，その精度が編集品質に大きく影響する。
- 本研究は，マスク抽出なしに字幕を直接消去する手法を開発し，動画編集の効率性と品質を向上させる。
- 本研究で提案するSEDiTは，1段階の処理で字幕を消去し，従来の2段階処理の非効率性を解消する。
- 理論的根拠に基づき，字幕消去という局所的な編集タスクに適した1段階生成を可能にし，高い信頼性を持つ。
- ハイブリッド学習戦略とチャンクごとのストリーミング推論により，高解像度・長尺動画の効率的な処理を実現する。
Link: https://arxiv.org/abs/2605.14894
テキスト依存型話者検証(TdSV)チャレンジ2024：チームNaiveシステム報告 [cs.SD, cs.LG]目的：テキスト依存型話者検証システムの性能向上
- 話者認証技術は，セキュリティや音声インターフェースにおいて重要性が増している。
- 限られたテキストデータでの話者検証は，性能向上が課題となっている。
- チャレンジデータへの適応と，アンサンブル学習による性能改善を目指す。
- ResNet-TDNNとNeXt-TDNNをベースとしたシステムで，MinDCF 0.0461，EER 1.3%を達成。
- EfficientNet-A0をチャレンジデータで学習させることで，適応能力を強化し，アンサンブル効果を高めた。
- データ拡張やハイパーパラメータの最適化も，高い性能に貢献した。
Link: https://arxiv.org/abs/2605.14896
MemLens：大規模ビジョン言語モデルにおけるマルチモーダル長期記憶のベンチマーク [cs.CV]目的：大規模ビジョン言語モデルにおけるマルチモーダル長期記憶の性能評価
- ビジョンと言語を組み合わせたモデルは，複雑なタスクにおいて人間らしい推論能力を示すため重要である。
- 長期的なマルチモーダルな対話において，既存モデルは記憶の保持と活用に課題を抱えている。
- マルチモーダルな長期記憶能力を評価するための包括的なベンチマークの必要性に対応する。
- MEMLENSベンチマークは，情報抽出，複数セッションの推論，時間的推論など，5つの記憶能力を評価する。
- 長文脈モデルは短期的な精度が高いが，対話が長くなるにつれて性能が低下する傾向がある。
- 記憶拡張エージェントは文脈長に強いが，記憶時の圧縮により視覚的な忠実度が低下する。
Link: https://arxiv.org/abs/2605.14906
SteerSeg：推論のための動画セグメンテーションにおけるアテンション制御 [cs.CV]目的：自然言語表現に基づく動画フレーム内の物体位置特定
- 動画理解は，人間にとって自然な知覚プロセスであり，様々な応用分野で重要である。
- 既存手法のアテンションマップは，空間位置特定ではなくテキスト生成に最適化されており，曖昧な結果になりやすい。
- アテンションの誤配置を修正し，より正確な空間位置特定を実現すること。
- SteerSegは，入力レベルでの条件付けによりアテンションを制御する軽量なフレームワークである。
- 学習可能なソフトプロンプトとCoTプロンプトを組み合わせ，アテンション分布を整形し，空間的に集中したマップを生成する。
- LVLMとセグメンテーションモデルのパラメータを固定し，少数のソフトプロンプトのみを学習することで，汎化性能を向上させている。
Link: https://arxiv.org/abs/2605.14908
Vision Transformerにおける代表的注意 [cs.CV]目的：Vision Transformerの効率的なグローバル注意メカニズム
- Vision Transformerは画像処理において高い性能を示すが，計算コストが大きい。
- 従来の線形注意機構は画像座標に依存し，セマンティックな構造を捉えにくい。
- セマンティックな情報に基づいてトークン圧縮を行うことで，効率性と表現力を両立する。
- 提案手法RPAttentionは，表現空間で直接トークン圧縮を行うことで，画像座標への依存を解消した。
- RPAttentionは軽量なGather-Interact-Distributeパラダイムを用い，関連する領域間の情報伝達を可能にした。
- 画像分類，物体検出，セマンティックセグメンテーションの実験で，RPAttentionの有効性が示された。
Link: https://arxiv.org/abs/2605.14913
SceneParser：視覚的意味理解のための階層的シーン解析 [cs.SI, cs.CY, cs.RO, cs.CV]目的：シーンの階層的解析
- シーン理解は，物体認識からインタラクション指向へ進展しており，ロボティクスやAR/VR等の応用が期待される。
- 既存手法は，物体や部品の局所的な認識に留まり，シーン全体の構造的依存関係を捉えきれていない。
- シーン全体の構造的依存関係を捉え，インタラクション指向のシーン理解を可能とする手法を開発すること。
- 本研究では，シーンをシーン→物体→部品→アフォードの階層構造として表現する「階層的シーン解析」を提案する。
- 大規模ベンチマークデータセットSceneParser-Benchを構築し，階層的解析の評価指標を導入した。
- 提案手法SceneParserは，既存モデルと比較して構造を考慮した性能が向上し，汎用的なタスクとの互換性も確認された。
Link: https://arxiv.org/abs/2605.14923
道路地図を自由な幾何学的事前情報として：GeoFuseによる耐候性ドローンジオロケーション [cs.CV, cs.LG]目的：悪天候下におけるドローン画像のジオロケーションの精度向上
- ドローン技術は，インフラ点検や災害対応など幅広い分野で活用が期待されており，正確な位置情報が不可欠である。
- 天候に起因する画像劣化は，ドローンと衛星画像間のクロスビュードメインギャップを悪化させ，ジオロケーションの精度を低下させる。
- 道路地図という，天候に左右されにくい幾何学的情報を活用することで，よりロバストなジオロケーションを実現する。
- GeoFuseは，衛星画像と道路地図タイルを統合し，より識別可能で耐候性の高い表現を生成する。
- University-1652およびDenseUAVベンチマークにおいて，既存手法を大きく上回り，それぞれRecall@1精度で+3.46%，+23.18%の改善を達成した。
- 提案手法は，モダリティ間の動的な重み付けとクラスレベルのコントラスティブ学習により，悪天候下での性能向上を実現した。
Link: https://arxiv.org/abs/2605.14925
SCRWKV：トポロジー構造解析のための超コンパクトなVision-RWKV [cs.CV]目的：構造的ひび割れのトポロジカルセグメンテーション
- 構造物の安全性評価において，ひび割れの正確な検出は不可欠である。
- 既存手法は，精度と計算効率の両立が難しく，リソース消費が大きい。
- 本研究は，軽量かつ高精度なひび割れセグメンテーション手法を開発する。
- SCRWKVは，122万パラメータという軽量なモデルでありながら，最先端手法を凌駕する性能を示す。
- TUTデータセットにおいて，F1スコア0.8428，mIoU0.8512を達成し，実用的な展開の可能性を示した。
- 構造場エンコーダ(SFE)と動的自己較正減衰(DSCD)により，トポロジー構造のモデリングとノイズ抑制を実現している。
Link: https://arxiv.org/abs/2605.14926
テスト時の人間モーション制御のためのマルチスケール粗→微細モデリング [cs.CV]目的：テスト時の人間モーション合成と制御
- 人間モーションの生成は，ロボット工学，アニメーション，仮想現実など，幅広い分野で重要である。
- 既存手法は，計算コストが高い，特定の制御信号に依存する，離散サンプリングの課題がある。
- 本研究は，効率的かつ柔軟な制御を可能にする，高速なモーション生成を目指す。
- MSCoTは，マルチスケールな粗→微細なアプローチにより，高品質なモーション生成を可能にする。
- 制御制約との整合性を保ちながら，拡散ベースの手法よりも大幅に高速なサンプリングを実現する。
- HumanML3Dベンチマークにおいて，FIDを48%改善，平均誤差を61%削減，推論速度を10倍に向上させた。
Link: https://arxiv.org/abs/2605.14935
多岐にわたる大規模言語モデルにおける継続学習のための履歴不要勾配直交化：Octopus [cs.LG, cs.CV]目的：多岐にわたる大規模言語モデルにおける継続学習の性能向上
- 近年，画像とテキストを扱う多岐にわたる大規模言語モデルの活用が広がり，継続的な学習が重要視されている。
- 既存手法は，計算コストの増加，プライバシー問題，パラメータ干渉といった課題を抱えており，十分な性能を発揮できていない。
- 本研究は，履歴データを用いずに勾配直交化を実現し，タスク適応と正則化のバランスを取ることで，これらの課題を解決することを目指す。
- 提案手法Octopusは，履歴不要勾配直交化(HiFGO)に基づいた二段階の継続学習フレームワークである。
- UCITデータセットを用いた実験の結果，Octopusは既存の最先端手法を平均で2.14%，最終タスクで6.82%上回る性能を達成した。
- タスク適応と正則化を分離する二段階ファインチューニング戦略が，柔軟性と安定性のバランスを実現している。
Link: https://arxiv.org/abs/2605.14938
ACE-LoRA: 継続的な画像編集のための適応的直交デカップリング [cs.RO, cs.SY, eess.SY, eess.SY, cs.SY, cs.CV]目的：継続的な画像編集における知識の忘却の軽減
- 画像編集技術は，多様な応用分野において重要であり，その性能向上は社会に大きく貢献する。
- 画像編集における継続学習は未だ十分に研究されておらず，既存手法では以前の知識が失われやすい。
- 本研究は，新しいタスクに適応しながら，過去の知識を保持できる画像編集手法を開発する。
- ACE-LoRAは，タスク間の干渉を特定し，直交化することで，忘却現象を効果的に抑制する。
- 提案手法は，既存の基盤モデルと比較して，指示への忠実性，視覚的リアリズム，忘却への耐性において優れた性能を示す。
- CIE-Benchは，継続学習の評価を標準化するための，初の包括的なベンチマークデータセットである。
Link: https://arxiv.org/abs/2605.14948
頸動脈内中膜・脈絡膜セグメンテーションと予備的リスク予測のためのCUBS互換超音波形態および不確実性認識ベースライン [cs.CV, eess.IV, eess.SP]目的：頸動脈内中膜・脈絡膜のセグメンテーションと予備的なリスク予測
- 頸動脈アテローム硬化症は，脳卒中や一過性脳虚血発作の主要な原因であり，その早期発見とリスク評価が重要である。
- 従来の超音波検査では，形態や速度に基づいた指標のみでは，患者固有の血管リスクを十分に捉えきれない場合がある。
- 超音波画像から得られる形態情報と不確実性を考慮することで，より正確なリスク予測を目指す。
- 提案モデルは，LI-MAマスクセグメンテーションにおいて0.7930のDice係数を達成した。
- セグメンテーション損失は0.2359，予備的リスク予測のROC曲線下面積は0.6910であった。
- 予測マスクは手動アノテーションと概ね一致し，不確実性マップは曖昧な壁境界領域を示した。
Link: https://arxiv.org/abs/2605.14949
Evo-Depth：軽量な深度強化視覚言語行動モデル [cs.CV, cs.RO]目的：ロボット操作のための視覚，言語理解，行動生成を統合するモデルの性能向上
- ロボット操作において，知覚と行動の連携が重要であり，言語による指示理解も不可欠である。
- 既存の視覚言語行動モデルは，2D視覚表現に依存し，精密な空間理解が課題となっている。
- 追加のセンサーや大規模モデルに頼らず，軽量かつ効率的に空間認識能力を高めることを目指す。
- Evo-Depthは，マルチビューRGB画像からコンパクトな深度特徴を抽出する軽量な深度暗黙的符号化モジュールを採用している。
- 抽出された深度特徴を，視覚言語表現に深度情報を考慮した変調を通じて組み込み，空間的・意味的強化を実現している。
- シミュレーションおよび実環境実験において，Evo-Depthは優れた性能，低い計算コスト，高い推論頻度を示した。
Link: https://arxiv.org/abs/2605.14950
不可能オブジェクトの幾何学的処理 [cs.GR, cs.CG, cs.CV]目的：不可能オブジェクトの表現と処理
- 視覚芸術や知覚研究において，不可能オブジェクトは興味深い対象である。
- 既存のコンピュータ表現は，オブジェクトの切断や変形に頼り，幾何学的な整合性を損なう場合がある。
- M.C.エッシャーの作品に見られるような，幾何学的に矛盾のない不可能オブジェクトの表現を目指す。
- Meschersという，不可能オブジェクトを表現するための新しいメッシュ表現を提案する。
- 離散外微分幾何学に基づき，従来の切断や変形による表現の問題点を克服する。
- 提案手法を用いて，不可能オブジェクトの逆レンダリングや幾何学処理が可能となることを示す。
Link: https://arxiv.org/abs/2605.14960
H-OmniStereo：ヘディングアラインメントされた法線事前知識を用いたゼロショット全方位ステレオマッチング [cs.CV]目的：全方位ステレオマッチングの新しい枠組み
- 全方位画像は，周囲環境の認識に不可欠であり，多様な応用分野で利用が拡大している。
- 全方位ステレオデータセットの不足と，球面歪みによる単眼視点からの事前知識の劣化が課題である。
- データセット不足と歪み問題を解決し，未知の環境への汎化性能を高めることを目指す。
- 大規模な合成データセットを構築し，学習を効率化することで，既存手法を上回る精度を実現した。
- ヘディングアラインメントされた法線推定器を導入し，歪みに強く，視点間の整合性の高い幾何学的事前知識を提供した。
- 実世界のカメラ設定においても，単一モデルで高い汎化性能を発揮し，ドメイン外のデータセットでも優れた結果を得た。
Link: https://arxiv.org/abs/2605.14963
視覚言語モデルにおける誘導注意による幻覚軽減のための軽量フレームワークMHSA [cs.CV, cs.AI]目的：視覚言語モデルにおける幻覚軽減
- 大規模視覚言語モデルは多様なタスクで高い性能を示すが，幻覚が課題となる。
- 既存研究では幻覚の検出は行われてきたが，軽減策は十分ではない。
- クロスモーダル注意パターンを修正し，幻覚を軽減するフレームワークを提案する。
- 本研究で提案するMHSAは，クロスモーダル注意を修正することで幻覚を軽減する軽量なフレームワークである。
- MHSAはLVLMのパラメータを変更することなく，様々なデータセットで有効に機能する。
- 幻覚検出から軽減へとアプローチを拡張し，LVLMの信頼性向上に貢献する。
Link: https://arxiv.org/abs/2605.14966
顕微鏡画像解析のための条件多様性に対応するフレームワークMicroscopyMatching [cs.CL, cs.CV, cs.AI]目的：多様な条件下での顕微鏡画像解析のための即用性のあるフレームワークの構築
- 生物医学研究において，画像の解析は生物学的特性の抽出に不可欠であり，研究の進展に大きく貢献する。
- 多様な解析条件（対象，プロトコル，機器など）により，既存の深層学習アプローチは汎用性に欠けるという課題がある。
- 異なる条件での画像解析を統一的なマッチング問題として捉え，汎用性の高いツールを提供することで，研究の加速を目指す。
- 本研究では，分割，追跡，カウントといった主要な解析タスクを，多様な条件下で安定的に実行可能なフレームワークMicroscopyMatchingを提案する。
- MicroscopyMatchingは，顕微鏡画像解析タスクを統一的なマッチング問題として再構築し，事前学習済みの潜在拡散モデルの頑健なマッチング能力を活用する。
- これにより，特定の条件への大規模な適応が不要となり，生物医学研究者が手作業による解析に費やす時間を大幅に削減できる。
Link: https://arxiv.org/abs/2605.14980
承認選挙における合意，多様性，および分極化指標 [cs.GT, cs.AI, cs.CY, cs.MA]目的：承認選挙における有権者の合意，多様性，および分極化を捉える指標
- 選挙結果の分析は，民主主義社会において重要な課題であり，選挙の特性理解に不可欠である。
- 既存の指標では，候補者承認率の変化に対する指標値の変動が大きすぎる場合がある。
- 承認選挙の特性を定量化し，選挙間の類似性と相違点を明らかにすること。
- 新たな指標を提案し，その性質を分析した。
- 提案した指標を用いて，承認選挙の新たなマップを作成した。
- Pabulib，Preflib等の実データに基づき，様々な選挙間の類似点と相違点を示した。
Link: https://arxiv.org/abs/2605.14983
Sat3DGen: 単一衛星画像からの包括的なストリートレベル3Dシーン生成 [cs.CV, cs.AI]目的：単一衛星画像からのストリートレベル3Dシーン生成
- 都市計画や自動運転など，現実世界の理解を深める上で3Dシーン生成は不可欠である。
- 既存手法は，幾何学的な正確さと意味的な多様性の間にトレードオフが存在する。
- 衛星画像とストリートレベル画像間の視点差と，学習データの不整合性を解消する。
- 提案手法Sat3DGenは，幾何学的制約と視点に基づいた学習戦略を導入することで，3D精度と写実性を飛躍的に向上させた。
- 新たなベンチマークにおいて，幾何学的RMSEを6.76mから5.20mに改善し，FIDスコアを40から19へと大幅に低減した。
- 生成された高品質な3Dアセットは，セマンティックマップからの3D合成や，複数カメラ動画生成など，様々な応用が可能であることを示した。
Link: https://arxiv.org/abs/2605.14984
推論時ガイダンスによる構成的ビデオ生成 [cs.CV]目的：構成的な理解を必要とするプロンプトに対するビデオ生成の忠実性向上
- ビデオ生成技術は，現実世界の描写やコンテンツ制作において重要な役割を担う。
- 既存のテキストからビデオへの生成モデルは，複雑な構文や関係性の表現に課題がある。
- モデルの再学習に頼らず，推論時のガイダンスによって生成精度を改善することを目指す。
- CVGは，凍結されたテキストからビデオへのモデルにおいて，クロスアテンションマップを利用した軽量な構成的分類器を用いる。
- 分類器の勾配を初期のノイズ除去ステップで活用し，潜在的な軌跡を希望する構成へと誘導する。
- 実験により，CVGがプロンプトの忠実性を向上させ，生成されるビデオの視覚的な品質を維持することが示された。
Link: https://arxiv.org/abs/2605.14988
子どもの視点から見た物体の視覚的表現の特徴付け [cs.CV]目的：子どもの物体カテゴリー表現の学習における視覚的入力の特徴
- 乳幼児期は，視覚を通して物体カテゴリーを学習する重要な時期である。
- 学習環境が偏っていたり，視覚情報が不十分な場合，学習効率が低下する可能性がある。
- 現実世界の，多様で不完全な視覚情報から効率的に学習するメカニズムを解明することを目指す。
- 子どもの視覚的経験は，特定のカテゴリー（コップ，椅子など）に偏っていることが明らかになった。
- 物体は珍しい角度や，散らかった背景，一部が隠れた状態で観察されることが多く，多様な視覚的経験をしている。
- カテゴリー間の関係性は，標準的な写真とは異なり，上位カテゴリー（動物，食べ物など）内でのグループ化が強かった。
Link: https://arxiv.org/abs/2605.14990
多損失深層学習を用いたCT画像による卵巣癌術前化学療法の効果予測 [cs.CV, cs.AI]目的：卵巣癌における術前化学療法の効果予測
- 卵巣癌は致死率が高く，早期発見と適切な治療選択が重要である。
- 術前化学療法に反応しない患者の早期特定が困難であり，治療遅延に繋がる。
- CT画像から深層学習を用いて，非侵襲的に効果予測を行うことを目指す。
- 本研究で開発された深層学習モデルは，テストデータセットでROC-AUC 0.73，F1スコア0.70を達成した。
- この結果は，提案するアーキテクチャが臨床的に有用な予測パターンを学習することを示唆する。
- 画像に基づいた層別化ツールの開発に向けた強固な基盤となりうる。
Link: https://arxiv.org/abs/2605.14991
3次元Skew-Normalスプラッティング [cs.CV]目的：リアルタイム新規視点合成のための表現の改善
- 3Dシーンの表現は，VR/ARなどの応用において不可欠であり，高品質なレンダリングが求められている。
- 従来の3DGSでは，ガウス素子の対称性が非対称構造の表現に限界を設けていた。
- 非対称構造をより柔軟に表現し，再構成品質を向上させることを目指す。
- 本研究では，Skew-Normal分布を基本素子とするSNSを提案し，ガウス分布とHalf-Gaussian形状間の連続的な補間を実現した。
- SNSはアフィン変換や周辺化に関して解析的な扱いやすさを維持し，既存のガウススプラッティングパイプラインに容易に組み込むことができる。
- 実験結果から，SNSは標準的なベンチマークにおいて，ガウス素子や最近の非ガウスカーネルと比較して一貫して再構成品質を向上させることが示された。
Link: https://arxiv.org/abs/2605.15010
HiSem：リモートセンシング画像変化キャプションのための階層的意味的解きほぐし [cs.CL, cs.CY, cs.CV]目的：リモートセンシング画像変化キャプションにおける高レベルな意味理解
- 災害監視や土地利用変化の把握に不可欠であり，社会への貢献が期待される分野である。
- 変化領域と非変化領域を同一のモデルで処理することで，意味的な混乱が生じやすい。
- 変化と非変化の領域を分離し，それぞれの領域に適した意味表現を獲得することを目指す。
- 提案手法HiSemは，Bidirectional Differential Attention Modulation (BDAM)モジュールとHierarchical Adaptive Semantic Disentanglement (HASD)モジュールを導入した。
- 実験結果から，HiSemがWHU-CDCデータセットにおいてBLEU-4スコアで+7.52%の大幅な改善を達成したことが示された。
- 本研究は，二時点画像間の固有の意味的異質性を考慮したモデル設計の重要性を示唆している。
Link: https://arxiv.org/abs/2605.15024
潜在フロー復元による分単位の人間アニメーション：EverAnimate [cs.CV, cs.AI]目的：長尺アニメーションビデオ生成における品質とキャラクターの一貫性維持
- 人間アニメーションは，エンターテイメントや仮想現実など，多様な分野で重要な役割を担う。
- 長尺アニメーション生成では，動きの積み重ねによる品質劣化やキャラクターの不整合が課題となる。
- 潜在フロー復元により，長尺アニメーションにおけるドリフトを抑制し，高品質な生成を目指す。
- EverAnimateは，軽量なLoRA調整のみで，既存の長尺アニメーション手法を上回る性能を示す。
- 10秒の動画生成において，PSNR/SSIMがそれぞれ8%/7%改善し，LPIPS/FIDは22%/11%減少した。
- 90秒の動画生成では，改善幅がさらに広がり，PSNR/SSIMは15%/15%，LPIPS/FIDは32%/27%減少した。
Link: https://arxiv.org/abs/2605.15042
SpeakerLLM：話者理解と検証推論のための話者特化型音声LLM [cs.SD, cs.AI, cs.LG, cs.MM, eess.AS]目的：話者理解と検証推論のための音声LLMフレームワーク
- 物理AIや会話ロボットの普及に伴い，話者固有の理解が重要となる。
- 従来の音声システムは，言語的証拠が乏しいか，話者情報を十分に活用できていない。
- 話者プロファイリング，録音条件理解，話者比較，検証推論を統合的に解決する。
- SpeakerLLMは，汎用的な音声LLMと比較して，話者プロファイルと録音条件の理解度を向上させた。
- SpeakerLLM-VRは，高い検証精度を維持しつつ，検証推論スキーマに基づいた決定トレースを生成する。
- メタデータ付きの教師データセットとターゲット構築コードを公開し，再現性を確保する。
Link: https://arxiv.org/abs/2605.15044
LATERN：テスト時コンテキストを考慮した説明可能な動画異常検知 [cs.CV]目的：動画異常検知におけるテスト時のコンテキスト考慮と説明可能性の向上
- 動画監視などにおける異常行動の自動検知は，安全・安心な社会の実現に不可欠である。
- 既存の動画異常検知手法は，時間的な文脈を考慮せず，断片的な予測になりがちである。
- 本研究は，時間的な文脈を考慮し，より一貫性のある異常検知と説明を目指す。
- 提案手法LATERNは，過去のフレーム情報を選択的に活用することで，信頼性の高い異常スコアを生成する。
- LATERNは，異常スコアを再帰的に集約することで，時間的に一貫性のある異常区間を特定し，イベントレベルでの決定と説明を可能にする。
- 実験結果から，LATERNは既存手法と比較して，検知精度と説明の一貫性を向上させることが示された。
Link: https://arxiv.org/abs/2605.15054
拡散OPD：拡散モデルにおけるオンポリシー蒸留の統一的見解 [cs.LG, cs.CV]目的：拡散モデルにおけるマルチタスク学習のための新たなパラダイム
- 拡散モデルはテキストから画像を生成する強力な技術であり，その性能向上は重要である。
- マルチタスク学習は，タスク間の干渉や学習の不安定性といった課題を抱えている。
- 既存手法の課題を克服し，効率的かつ高性能なマルチタスク学習を実現すること。
- DiffusionOPDは，タスク固有の教師モデルから単一の学生モデルへ知識を蒸留する。
- これにより，タスク間の干渉を抑制し，効率的なマルチタスク学習を可能にする。
- 実験結果は，DiffusionOPDが既存手法を上回り，最先端の結果を達成することを示している。
Link: https://arxiv.org/abs/2605.15055
ワイヤレスカプセル内視鏡における計算画像処理による事前知識：希少異常検出のためのモンテカルロ誘導ヘモグロビンマッピング [cs.CV]目的：ワイヤレスカプセル内視鏡画像におけるヘモグロビン量を推定する計算モデルの評価
- 消化管の病変早期発見には，カプセル内視鏡が有用である。可視光画像からの病変検出は重要。
- 従来のRGB画像に基づく病変分類では，ヘモグロビンと胆汁，照明の減衰との区別が困難である。
- モンテカルロ法に基づいた解析モデルにより，RGB信号からヘモグロビン量を高精度に推定することを試みる。
- 解析モデルによる事前知識の導入は，全体的なAUCスコアをわずかに改善した (0.760 -> 0.783)。
- 特にリンパ管拡張症において，AUCスコアの改善が顕著であった (0.238 -> 0.337)。
- 稀な血管病変クラスでは，種依存性のある効果が見られたが，一部の種では大幅な改善が確認された。
Link: https://arxiv.org/abs/2605.15062
視覚言語モデルにおける文化的アナクロニズムと時間的推論 [cs.HC, cs.CV, cs.AI, cs.CL]目的：視覚言語モデルにおける文化的アナクロニズムの定量化と評価
- 文化遺産デジタル化が進み，AIによる活用が期待される一方で，歴史的文脈の理解が課題となっている。
- 視覚言語モデルは，歴史的対象を時間的に不適切な概念で解釈する傾向があり，誤った認識を生む可能性がある。
- 歴史的対象に対する時間的推論能力の欠如を明らかにし，その改善に向けた基盤を提供すること。
- 本研究では，視覚言語モデルの文化的アナクロニズムを評価するためのベンチマークデータセット（TAB-VLM）を開発した。
- 10種類の最先端モデルの評価結果，既存モデルは本ベンチマークにおいて顕著な課題を抱えていることが示された。
- 特に，GPT-5.2のような高性能モデルでも，全体の正答率は58.7%にとどまり，文化遺産資料の正確な解釈には限界がある。
Link: https://arxiv.org/abs/2605.15071
SAGE3D：ソフト誘導注意とグラフ励起による3D点群コーナー検出 [cs.CV]目的：航空レーザー点群におけるコーナー検出
- 3D点群データは，自動運転やロボット工学など様々な分野で活用が拡大している。
- 点群データのコーナー検出は，特徴抽出の基礎となるが，精度と再現性の向上が課題である。
- コーナー信号の希釈を防ぎ，検出精度と再現性を高めることを目指す。
- SAGE3Dは，Transformerベースのハイブリッドモデルであり，多段階の階層型エンコーダ・デコーダ構造を採用している。
- 学習時に正解コーナーラベルを注意ロジットに組み込むソフト誘導注意と，コーナーを高信頼度で強化する励起グラフニューラルネットワークが導入されている。
- これらの機構により，多スケール特徴抽出とコーナー信号の増幅を実現し，精度と再現性の両立を図っている。
Link: https://arxiv.org/abs/2605.15088
CoralLite: {\mu}CTによるサンゴコロニーの個々のポリプ構造の再構築 [cs.CV]目的：サンゴのコロニー構造を構成する個々のポリプの再構築手法
- サンゴは，海洋生態系において重要な役割を担い，多様な生物を支えている。
- サンゴの成長速度やポリプ分裂のタイミングの正確な把握が困難である。
- {\mu}CT画像を用いた機械学習によるポリプ構造の3次元モデリングを可能にすること。
- CoralLiteは，サンゴの骨格を構成する個々のポリプ構造を{\mu}CT画像から再構築するためのデータセットと深層学習モデルである。
- 提案手法は，弱学習データで事前学習し，完全なアノテーションデータで微調整されたハイブリッドV-Trans-UNetアーキテクチャを使用する。
- 検証実験において，高いトポロジー精度とDice係数を実現し，機械学習によるポリプモデリングの有効性を示した。
Link: https://arxiv.org/abs/2605.15093
DriveCtrl：条件付きシミュレーションから現実世界への運転ビデオ生成 [cs.CV]目的：現実的な運転ビデオの合成
- 自動運転システムの学習には大規模な運転ビデオデータが不可欠である。
- シミュレーションと現実世界の運転ビデオ間のドメインギャップが，実世界への展開を制限している。
- シミュレーションデータを現実世界に近づけることで，自動運転システムの性能向上を目指す。
- DriveCtrlは，深度条件付きの制御可能なシミュレーションから現実世界へのビデオ生成フレームワークである。
- 既存モデルや競合手法と比較して，リアリズム，時間品質，知覚タスクの性能において一貫して優れている。
- シミュレーションと現実世界のギャップを大幅に縮小し，自動運転のためのビデオ生成の可能性を広げている。
Link: https://arxiv.org/abs/2605.15116
CLOVER：エンドツーエンド自動運転計画のための閉ループ値推定とランキング [cs.RO, cs.AI, cs.CV]目的：エンドツーエンド自動運転計画のための価値推定とランキングフレームワークの開発
- 自動運転技術は，交通安全の向上や移動の効率化に不可欠であり，社会実装が期待されている。
- 既存手法では，学習データと評価指標の間にずれがあり，性能向上のボトルネックとなっていた。
- CLOVERは，このずれを解消し，自動運転計画の精度と安全性を向上させることを目指す。
- CLOVERは，多様な候補軌道を生成し，計画指標に基づいたスコアリングによってランキングを行う。
- NavSIMにおける評価で，PDMS 94.5，EPDMS 90.4を達成し，最新技術を上回る性能を示した。
- より困難なNavHard分割においても，EPDMS 48.3を達成し，既存の最高結果に匹敵する性能を示した。
Link: https://arxiv.org/abs/2605.15120
MemEye：マルチモーダルエージェントメモリの視覚中心評価フレームワーク [cs.CV, cs.CL, cs.IR]目的：マルチモーダルエージェントメモリの評価
- エージェントの長期記憶はマルチモーダル化が進んでおり，高度なタスク遂行に不可欠である。
- 既存の評価手法では，視覚的証拠の保持が十分に検証されておらず，テキストのみで解答可能なケースが多い。
- 視覚的証拠の粒度と利用方法を評価し，長期記憶における視覚情報の保持能力を明らかにする。
- MemEyeフレームワークは，視覚的証拠の粒度（シーンレベルからピクセルレベルまで）と利用方法（単一証拠から進化的統合まで）の2つの側面からメモリ能力を評価する。
- 8つのライフシナリオタスクを含む新しいベンチマークを構築し，解答可能性，ショートカット耐性，視覚的必要性，推論構造を評価する検証ゲートを導入した。
- 13のメモリ手法と4つのVLMバックボーンの評価から，現在のアーキテクチャは詳細な視覚情報の保持と時間経過に伴う状態変化の推論に苦戦していることが示された。
Link: https://arxiv.org/abs/2605.15128
因果強制++：リアルタイムインタラクティブビデオ生成のためのスケーラブルな少ステップ自己回帰拡散蒸留 [cs.CV]目的：リアルタイムインタラクティブビデオ生成のための，低遅延でストリーミング可能かつ制御可能な手法の開発
- ビデオ生成技術は，エンターテインメント，コミュニケーションなど幅広い分野で重要性が増している。
- 既存の自己回帰拡散蒸留法は，応答の粒度が粗く，サンプリング遅延が大きいという課題がある。
- フレーム単位の自己回帰による，より効率的で高速なビデオ生成を実現することを目指す。
- 提案手法Causal Forcing++は，因果整合性蒸留を用いて，少ステップ自己回帰モデルの初期化を効率化する。
- フレーム単位2ステップ設定において，既存の最先端手法をVBench Total，VBench Quality，VisionRewardで上回る性能を示す。
- 第一フレームの遅延を50％削減し，Stage 2の学習コストを約4分の1に軽減することに成功した。
Link: https://arxiv.org/abs/2605.15141
合成レイヤーデザインデータはレイヤーデザイン分解に役立つか [cs.CY, stat.AP, cs.CV]目的：グラフィックデザイン分解の改善
- 画像生成技術の発展により高品質な画像が容易に作成可能になった。
- 生成画像の柔軟な後処理編集が難しく，実用化への課題が残る。
- 大規模な合成データを用いて，レイヤーデザイン分解の性能向上を目指す。
- 純粋な合成データによる学習でも，既存のデータセットよりも高い分解性能が実現可能であることが示された。
- 学習データ量を増加させることで性能は向上し，約5万サンプルで効果が飽和する傾向が確認された。
- 合成データを用いることで，実データセットで頻発するレイヤー数の偏りを抑制できることが明らかになった。
Link: https://arxiv.org/abs/2605.15167
証拠に基づく推論が解釈可能な現実世界の疾患スクリーニングを促進する [cs.CV, cs.AI, cs.LG]目的：疾患スクリーニングにおける解釈可能性と性能の向上
- 疾患の早期発見と適切な介入は，臨床現場において極めて重要である。
- 既存の画像診断モデルは，解釈性の低さや性能の限界といった課題を抱えている。
- 過去の症例を参照し，透明性の高い推論経路を示すスクリーニング手法の開発。
- 提案手法EviScreenは，過去症例からの領域レベルの証拠を活用し，解釈可能性の高い疾患スクリーニングを実現した。
- 二つの知識ベースからの証拠検索により，遡及的な解釈可能性を提供し，異常マップを活用することで局所化の解釈性を高めた。
- 確立されたベンチマークにおいて，臨床レベルのリコールを維持しつつ，特異度を大幅に向上させる優れた性能を示した。
Link: https://arxiv.org/abs/2605.15171
SANA-WM：ハイブリッド線形拡散Transformerによる効率的な分単位の世界モデル [cs.CV]目的：分単位の動画生成を可能にする世界モデルの開発
- 近年，AIによる動画生成の重要性が増しており，現実世界を模倣する世界モデルが注目されている。
- 既存の世界モデルは，計算コストが高く，効率性に課題がある場合が多い。
- SANA-WMは，効率性と精度の両立を目指し，限られた計算資源でも高品質な動画生成を実現する。
- SANA-WMは，既存の産業用基盤モデルと同等の視覚品質を，より高い効率で実現した。
- ハイブリッド線形アテンションや二段階生成パイプラインなどの設計により，データ，学習計算，推論ハードウェアにおいて優れた効率性を示した。
- 分単位の世界モデルベンチマークにおいて，既存のオープンソース基盤モデルよりも高い行動追従精度とスループットを達成した。
Link: https://arxiv.org/abs/2605.15178
計画からピクセルへ：オープンエンドな画像編集のための計画とオーケストレーションの学習 [cs.CV]目的：オープンエンドな画像編集のための計画と実行フレームワーク
- 画像編集技術は，広告やデザインなど幅広い分野で重要な役割を担う。
- 複雑な指示に対する画像編集は，抽象的な指示の解釈が難しく，実現が困難である。
- 報酬に基づいた学習と計画の連携により，より一貫性のある編集を目指す。
- 提案手法は，単一ステップやルールベースの手法と比較して，より一貫性があり信頼性の高い編集結果を生み出す。
- プランナーが生成した構造化されたタスク分解と，オーケストレーターによるツール選択・領域指定を組み合わせることで，長期的な編集タスクに対応する。
- 視覚言語モデルによる評価報酬を基に，オーケストレーターとプランナーを共同で学習させることで，編集結果の質を向上させる。
Link: https://arxiv.org/abs/2605.15181
歪みを歴史として捉える：単一の学習ビデオからの汎用的なカメラ制御ビデオ生成 [cs.CV]目的：単一の学習ビデオからのカメラ制御ビデオ生成手法
- ビデオ生成技術は，現実世界の多様な映像を再現する上で重要であり，その応用範囲は広い。
- 既存手法はカメラ固有の条件付けに依存し，大規模なカメラ注釈付きデータが必要となる場合が多い。
- カメラ注釈データを用いずに，あるいは少量でカメラ制御ビデオ生成を可能にすること。
- 提案手法「Warp-as-History」は，カメラによる歪みをカメラに歪められた疑似的な過去の映像として扱うことで，既存のビデオ生成モデルの能力を引き出す。
- 学習を必要とせず，モデルの構造変更やテスト時の最適化も行わないにも関わらず，カメラの軌跡追従能力が確認された。
- 軽量なオフラインLoRAファインチューニングにより，カメラの軌跡追従性，視覚的な品質，モーションのダイナミクスが向上し，汎化性能も確認された。
Link: https://arxiv.org/abs/2605.15182
幾何学的整合性に関する定量的なビデオ世界モデルの評価 [cs.CL, cs.CV, cs.AI]目的：生成ビデオの幾何学的整合性の評価手法
- ビデオ生成モデルは，物理世界の理解を深める上で重要であり，その評価は不可欠である。
- 既存の評価手法は主観的であり，幾何学的な問題点を明確に特定できない場合がある。
- 生成ビデオの3次元構造と運動における幾何学的な不整合を定量的に評価すること。
- PDI-Bench（Perspective Distortion Index）という定量的なフレームワークを開発し，生成ビデオの幾何学的整合性を評価した。
- PDIは，スケール・奥行きの一致，3次元運動の一貫性，3次元構造の剛性という３つの側面から幾何学的失敗を捉える。
- 最先端のビデオ生成モデルにおいて，PDIは一般的な知覚指標では捉えられない，幾何学的な失敗モードを明らかにした。
Link: https://arxiv.org/abs/2605.15185
VGGT-Edit：残差場予測によるネイティブ3Dシーン編集 [cs.CV, cs.AI]目的：テキスト条件付きのネイティブ3Dシーン編集手法
- 3Dシーン再構成は高度化し，汎用的な前方通過アーキテクチャが確立されつつある。
- 既存モデルは動的な指示への対応が弱く，インタラクティブなアプリケーションへの応用が制限される。
- 3D空間認識に基づいた，より安定した指示解釈と高精度な編集を実現する。
- VGGT-Editは，奥行き同期テキスト注入により，セマンティックガイダンスと空間ポーズを整合させる。
- 残差変換ヘッドは3D幾何学的変位を直接予測し，背景の安定性を保ちながらシーンを変形する。
- DeltaSceneデータセットを構築し，幾何学的精度と多視点一貫性を重視した多項目的関数でフレームワークを学習した。
Link: https://arxiv.org/abs/2605.15186
関節を持つ3Dアセットの大量生成のためのエージェントシステム：Articraft [cs.CV, cs.GR, cs.RO]目的：関節を持つ3Dアセットの大量生成
- 3Dオブジェクトの理解において，大規模で多様なデータセットの不足が課題である。
- 既存の手法では，高品質な関節を持つ3Dアセットを効率的に生成することが困難である。
- 大規模言語モデルを活用し，高品質な関節を持つ3Dアセットを自動生成するシステムを開発する。
- Articraftは，大規模言語モデルを用いて，アセット生成プログラムを自動的に記述するエージェントシステムである。
- Articraftを用いることで，既存の手法よりも高品質な関節を持つ3Dアセットを生成できることが示された。
- Articraftによって構築されたArticraft-10Kは，245カテゴリーに及ぶ1万件以上の関節を持つ3Dアセットを含むデータセットである。
Link: https://arxiv.org/abs/2605.15187
RAVEN：一貫性モデルGRPOを用いたリアルタイム自己回帰型動画外挿 [cs.CV]目的：リアルタイム動画生成における長期的な品質向上
- 動画生成技術は，エンターテイメントやコミュニケーションにおいて重要な役割を担う。
- 訓練時と推論時で動画の履歴分布が異なるため，長期間の生成品質が制限される。
- RAVENは，訓練と推論の分布ずれを解消し，長期的な生成品質を向上させることを目指す。
- RAVENは，過去の動画データとノイズ除去状態を組み合わせて学習することで，推論時の外挿精度を高める。
- CM-GRPOは，一貫性サンプリングをガウス分布の遷移として再構築し，強化学習を適用することで，さらなる性能向上を実現する。
- 実験の結果，RAVENは既存の動画蒸留手法を凌駕し，CM-GRPOとの組み合わせで更に改善されることが示された。
Link: https://arxiv.org/abs/2605.15190
画像生成のための球面フローマッチングにおける潜在的幾何学の整合 [cs.CV]目的：画像生成における潜在的幾何学の整合手法
- 画像生成技術は，高品質な画像を自動的に生成する上で重要な役割を担う。
- 潜在空間における表現が，球面上の薄い殻状に集中し，効率的な生成を妨げている。
- 球面上の幾何学的な整合性を高め，より自然な画像生成を実現すること。
- 潜在変数を半径成分と角度成分に分解した結果，知覚的・意味的コンテンツは主に角度成分に依存することが示された。
- ガウスノイズの半径成分を球面上の事前分布として利用し，デコーダをファインチューニングすることで，FIDスコアが改善された。
- 提案手法は，様々な画像トークナイザーで安定的に性能向上を示し，追加のエンコーダや表現整合の目的関数を必要としない。
Link: https://arxiv.org/abs/2605.15193
VGGT-$\Omega$ [cs.CV]目的：再構成モデルの精度，効率，能力の向上
- 3次元再構成は，ロボット工学，自動運転，拡張現実など，様々な分野で重要な役割を果たす。
- 既存の再構成手法は，計算コストが高い，複雑なシーンへの対応が難しいといった課題があった。
- 大規模データを用いた効率的な再構成モデルを開発し，空間理解能力の向上を目指す。
- VGGT-$\Omega$は，従来の最良手法と比較して，Sintelにおけるカメラ推定精度を77%向上させた。
- アーキテクチャの簡素化と自己教師あり学習により，GPUメモリ使用量を大幅に削減し，学習データ量を15倍に増加させた。
- 学習されたレジスタは，視覚-言語-行動モデルの性能向上に貢献し，言語との整合性をサポートする。
Link: https://arxiv.org/abs/2605.15195
RefDecoder：条件付きビデオデコードによる視覚生成の強化 [cs.CV, cs.LG]目的：視覚生成における詳細と一貫性の向上
- ビデオ生成技術は様々な応用を可能にする重要な研究分野である。
- 潜在拡散モデルではデコーダーが条件付けされていない場合が多く，詳細や一貫性が失われやすい。
- デコーダーにも条件付けを施すことで，構造的整合性を維持し，生成品質を向上させる。
- RefDecoderは，参照画像情報をデコードプロセスに直接注入する参照注意機構を導入したビデオVAEデコーダーである。
- 実験により，Inter4K，WebVid等のベンチマークで最大2.1dBのPSNR改善が確認された。
- 既存のビデオ生成システムに容易に組み込むことができ，VBench I2Vベンチマークでも全体的な品質が向上した。
Link: https://arxiv.org/abs/2605.15196
ATLAS：能動的か潜在的か？視覚的推論には単一の単語で十分 [cs.CV, cs.AI, cs.CL]目的：視覚的推論における能動的アプローチと潜在的アプローチの統合
- 視覚的推論は，AI分野において重要な研究テーマであり，複雑な問題を解決する可能性を秘めている。
- 既存の能動的推論は処理速度が遅く，潜在的推論は汎化性能が低いという課題があった。
- 単一のトークンを用いて，両者の利点を活かしつつ，それぞれの欠点を克服することを目指す。
- ATLASは，単一の機能トークンを用いて，視覚的操作を効率的に表現するフレームワークである。
- 実験の結果，ATLASは既存手法と比較して，難易度の高いベンチマークにおいて優れた性能を示した。
- LA-GRPOにより，強化学習における機能トークンの学習が安定し，解釈可能性も高い。
Link: https://arxiv.org/abs/2605.15198
EntityBench：長距離多ショット動画生成におけるエンティティ一貫性に向けて [cs.CV, cs.AI]目的：長距離多ショット動画生成におけるエンティティ（登場人物，物体，場所）の一貫性評価
- 動画生成技術は，エンターテインメントや教育など多岐にわたる分野で活用が期待されている。
- 既存の動画生成手法では，長編動画における登場人物や場所の一貫性を保つことが困難であった。
- エンティティのスケジュールに基づいた新しい評価ベンチマークと，エンティティ記憶を用いた生成手法を提案する。
- EntityBenchは，最大50ショット，13人の登場人物，8つの場所，22の物体を含む140エピソード，2491ショットから構成される。
- 既存手法では，登場回数が多いほど一貫性が低下する傾向が見られた。
- EntityMemは，エンティティの視覚的参照を記憶することで，既存手法よりも高い登場人物の再現性と存在感を示した。
Link: https://arxiv.org/abs/2605.15199