arXiv雑要約

画像・音声 - 2026/03/17 公開

SyncSpeech：時間マスクトランスフォーマーに基づく効率的かつ低遅延なテキスト読み上げシステム [cs.SD, cs.AI]目的：効率的かつ低遅延なテキスト読み上げモデルの実現
- 音声合成技術は，人間とコンピュータ間の自然な対話を可能にする上で不可欠である。
- 従来のテキスト読み上げモデルは，生成効率または遅延の点で課題を抱えていた。
- 効率と低遅延性を両立する新たなテキスト読み上げモデルの開発。
- SyncSpeechは，時間マスクトランスフォーマー（TMT）という新しいパラダイムに基づき，従来のARモデルとNARモデルの利点を統合している。
- 評価の結果，SyncSpeechは最新のARモデルと同等の音声品質を維持しつつ，最初のパケットの遅延を5.8倍，リアルタイムファクターを8.8倍改善した。
- SyncSpeechは，テキストトークン受信後すぐに音声生成を開始し，ストリーミング入力への対応を可能にしている。
Link: https://arxiv.org/abs/2502.11094
EIP-1559 における忍耐強い入札者の厚生について [cs.CL, cs.IR, cs.GT]目的：EIP-1559アルゴリズムにおける厚生の分析
- ブロックチェーンの取引効率化は，分散型システムの性能向上に不可欠である。
- 従来の分析は，入札者の緊急性を仮定しており，現実の取引行動と乖離していた。
- 忍耐強い入札者を仮定することで，より現実的な厚生水準を評価する。
- 忍耐強い入札者を想定した場合，EIP-1559アルゴリズムは，わずかなリソース拡張により，ほぼ最適な厚生をもたらすことが示された。
- 基本的な定理の一般化，候補となる改善策の限界，今後の研究課題が提示された。
Link: https://arxiv.org/abs/2502.20031
分布シフト下におけるバイオメディカルセグメンテーションモデルの教師なしソースフリーランキング [cs.CV]目的：バイオメディカルセグメンテーションモデルのランキング手法
- バイオメディカル画像解析では，教師データ作成コストが高く，既存モデルの再利用が重要である。
- 新しいデータセットに適したモデルの選択が困難であり，信頼性の高いランキング手法が不足している。
- ラベルなし，ソースデータなしで，既存モデルの性能を評価するランキング手法を開発する。
- 提案手法は，予測の一貫性に基づき，セマンティックおよびインスタンスセグメンテーションモデルをランキングする。
- 従来のランキング手法は，分類タスクや転移学習評価を対象とし，ラベル付きデータや特徴空間へのアクセスを必要とする場合が多い。
- 実験結果から，提案手法によるランキングは，ターゲットドメインでの実際のモデル性能ランキングと強い相関関係があることが示された。
Link: https://arxiv.org/abs/2503.00450
CLIPは理想的か？いいえ。修正可能か？はい！ [cs.LG, cs.CV]目的：CLIPモデルの潜在空間の性質分析と，その限界を克服する新しいスコアリング手法の提案
- 画像とテキストの関連性を学習する上で，CLIPは重要な手法となっている。その汎用性の高さから幅広い応用が期待されている。
- CLIPの潜在空間は，複雑な視覚・テキスト間の相互作用の処理に課題があり，性能が制限されているという問題がある。
- CLIPの潜在空間の幾何学的な根本的な問題を特定し，それを解決する新しいスコアリング手法を開発することで，性能向上を目指す。
- CLIPの潜在空間の性質を厳密に分析した結果，基本的な記述，属性結合，空間関係，否定のいずれも同時に正確に表現できる共同埋め込み空間は存在しないことが証明された。
- 本研究では，Dense Cosine Similarity Maps (DCSMs)を提案し，画像パッチとテキストトークンの意味的なトポロジーを維持することで，CLIPの根本的な限界を克服している。
- DCSMsは，様々なベンチマークにおいて，従来のCLIPモデルよりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2503.08723
WonderVerse：ビデオ生成モデルによる拡張可能な3Dシーン生成 [cs.CV]目的：拡張可能な3Dシーンの生成
- 没入型体験の実現に不可欠な3D環境の自動生成技術の重要性が高まっている。
- 既存手法では，幾何学的歪みや不整合が生じやすく，高品質なシーン生成が困難である。
- ビデオ生成モデルの知識を活用し，高品質で拡張性のある3Dシーン生成を目指す。
- WonderVerseは，ビデオ生成モデルの持つ世界レベルの知識を活用することで，幾何学的に整合性の高い3D環境を生成する。
- 新たなシーン拡張技術により，生成される3D環境の規模を大幅に拡大することが可能となった。
- カメラ軌跡を利用した異常シーケンス検出モジュールにより，生成動画の幾何学的矛盾を抑制する。
Link: https://arxiv.org/abs/2503.09160
乳がんサブタイプ予測のための誤予測リスク分析に基づく適応的深層学習 [cs.CV, cs.AI]目的：乳がんサブタイプ予測における誤予測リスクの定量化と軽減
- 乳がんは世界的に癌関連死亡の主要な原因であり，早期発見が重要である。
- 深層学習を用いた診断システムは多クラス分類において，クラス間の類似性やデータの偏りにより課題がある。
- 本研究は，異質性のある深層ニューラルネットワーク表現から得られる解釈可能な特徴を用いて，誤予測リスクを分析し軽減する。
- MultiRiskフレームワークは，複数の組織病理画像データセットにおいて78.1%，75.6%，76.3%のAUROCを達成した。
- リスクに基づいた適応的学習により，F1スコアはそれぞれ61.15%，65.98%，80.53%に向上し，効果が実証された。
- 誤予測リスク分析と適応的ファインチューニングの組み合わせにより，予測精度が向上し，限られたラベルデータ下でのエラーが軽減される。
Link: https://arxiv.org/abs/2503.12778
SPMTrack: スケーラブルな視覚追跡のための専門家混合による空間-時間的パラメータ効率の良いファインチューニング [cs.CV]目的：視覚追跡のための専門家混合を用いた空間-時間的パラメータ効率の良いファインチューニング手法
- 視覚追跡は，監視，自動運転，ロボティクスなど，幅広い応用分野で重要な役割を果たす。
- 既存の追跡器は単一のモデルを使用するため，多様な画像パッチ間の関係性を効率的に処理できない。
- 多様な関係性モデリングを柔軟に処理できる専門家混合を用いて，追跡精度と効率を向上させる。
- 提案手法SPMTrackは，7つのデータセットで最先端の追跡器を大幅に上回る性能を示した。
- 専門家混合(TMoE)により，空間-時間的文脈を考慮した関係性モデリングが可能となり，追跡精度が向上した。
- TMoEをパラメータ効率の良いファインチューニング手法として用いることで，モデルの汎化性能を維持しつつ，効率的な学習を実現した。
Link: https://arxiv.org/abs/2503.18338
制御の不完全性下におけるLQゲームにおける最適な修正フィードバック戦略 [cs.GT, cs.MA, cs.RO, cs.SY, eess.SY, math.OC]目的：制御の不完全性下におけるLQゲームの軌跡とプレイヤーのコストへの影響軽減
- ゲーム理論は，工学分野で広く応用され，資源配分や意思決定に貢献する重要な手法である。
- 現実のシステムには外乱や遅延が存在し，ナッシュ均衡戦略の正確な実行を妨げる場合がある。
- 制御の不完全性が及ぼす影響を緩和し，プレイヤーのコストを最適化するフィードバック戦略を構築する。
- プレイヤーの一方の小さなずれが，もう一方のコストに与える影響を分析した。
- ずれのダイナミクスを考慮した補償則を構築し，最適なフィードバック戦略を提案した。
- 提案手法は，ずれが小さい場合において，補償なしの均衡フィードバックよりも優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2503.19200
ELASTIC：マイクロコントローラ向け物体検出のための効率的な一度きりの反復探索 [cs.CV, cs.LG]目的：マイクロコントローラ向け物体検出のニューラルアーキテクチャ探索
- 組み込み機器への高性能な物体検出の導入が求められている。しかし，ハードウェア制約が厳しいため困難である。
- 既存のニューラルアーキテクチャ探索手法は，モジュール単位の最適化に留まるか，計算コストが高すぎる。
- モジュール間連携を考慮しつつ，効率的な探索手法によって高性能なモデルを開発することを目指す。
- ELASTICは，バックボーン，ネック，ヘッドといったモジュール間を循環的に最適化するハードウェアを意識したNASフレームワークである。
- ELASTICは，探索ステージ間で高品質な候補を残すPopulation Passthrough機構を導入し，収束を加速させ，mAPを最大8%向上させた。
- PascalVOCにおいて，ELASTICはMCUNETやTinyissimoYOLOをそれぞれ20.9%，16.3%上回る72.3%のmAPを達成し，エネルギー効率も向上した。
Link: https://arxiv.org/abs/2503.21999
ABC-GS：3Dガウススプラッティングのためのアライメントに基づく制御可能なスタイル変換 [cs.CV, eess.IV]目的：3Dガウススプラッティングによる高品質なスタイル変換
- 3Dシーンのスタイリゼーションは，現実世界の視覚体験を向上させる上で重要である。
- 既存手法は，グローバルなスタイル情報を考慮せず，きめ細かい制御が難しい。
- シーンとスタイル特徴のアライメントを精密に行い，グローバルなスタイルを忠実に反映させる。
- 提案手法ABC-GSは，3Dガウススプラッティングを用いて高品質なスタイル変換を実現する。
- セグメンテーションマスクを用いた制御可能なマッチングステージにより，正確なアライメントを可能にする。
- 特徴量のアライメントに基づくスタイル変換損失関数により，参照画像のグローバルなスタイルを忠実に再現する。
Link: https://arxiv.org/abs/2503.22218
FakeScope：透明性の高いAI生成画像フォレンジックのための大規模マルチモーダル専門モデル [cs.CV]目的：AI生成画像フォレンジックのための大規模マルチモーダル専門モデルの開発
- 生成AIの急速な発展は創造性を高める一方，社会の信頼を損なう偽情報の拡散を招くため，その検知が重要である。
- 既存の検出モデルは分類に重点を置いており，説明可能性に欠けるため，透明性の確保が課題となっている。
- 視覚的痕跡に基づく構造化されたフォレンジック推論と，詳細なフォレンジック知識をモデルに学習させることで，説明可能な検知を目指す。
- FakeScopeは，AI生成画像の識別において最先端の性能を達成し，高い精度で合成画像を区別できる。
- 本研究では，新しいデータセットFakeChainとFakeInstructを開発し，モデルにフォレンジックに関する深い理解を促した。
- FakeScopeは，詳細な偽造アーティファクトの議論や改善戦略の提案も可能であり，実環境下でも高い汎化性能を示す。
Link: https://arxiv.org/abs/2503.24267
回答前の局所化：根拠に基づいた医療マルチモーダルLLMのハルシネーション評価ベンチマーク [cs.CV]目的：医療マルチモーダルLLMにおけるハルシネーションの評価と改善
- 医療現場でのLLM活用が期待される中，正確な根拠に基づく回答が不可欠である。
- 既存のLLMは，根拠となる情報を適切に局所化せず，誤った回答を生成することがある。
- 視覚的・言語的なショートカット学習を防ぎ，病理学的領域の局所化能力を向上させる。
- HEAL-MedVQAベンチマークを開発し，LLMの局所化能力とハルシネーションへの耐性を評価できる環境を構築した。
- Localize-before-Answer (LobA)フレームワークを提案し，関心領域の局所化と自己プロンプティングにより，根拠に基づいた回答生成を目指した。
- 提案手法は，HEAL-MedVQAベンチマークにおいて，最先端のバイオメディカルLLMを大きく上回る性能を示した。
Link: https://arxiv.org/abs/2505.00744
適応色補正による高品質水中画像圧縮 [cs.CV, eess.IV]目的：水中画像の効率的な伝送と保存
- 海洋探査の進展に伴い，水中画像は海洋環境との重要な接点となっている
- 既存の圧縮アルゴリズムは，水中での光の屈折や散乱の影響を十分に考慮していない
- 水中画像特有の照明条件と色変化に対応し，圧縮性能を向上させる
- 提案手法HQUICは，水中画像の照明とトーンを適応的に補正するモジュールを導入した。
- 周波数成分を動的に重み付けすることで，画質劣化を最小限に抑えつつ冗長な情報を削減する。
- 多様な水中画像データセットでの評価により，HQUICが最先端の圧縮手法を上回ることが示された。
Link: https://arxiv.org/abs/2505.09986
貢献を促しパラメータも学習：戦略的なデータ所有者による連合学習 [cs.RO, cs.GT, cs.LG, cs.MA]目的：連合学習における貢献インセンティブ設計とパラメータ学習
- データ活用が進む現代において，プライバシーを保護しつつ分散データを有効活用する技術が重要である。
- 従来の連合学習では，データ所有者の参加意欲が考慮されておらず，コスト負担が大きいため貢献が鈍化する可能性がある。
- データ所有者への合理的なインセンティブを提供し，貢献を促すメカニズムを構築することで，連合学習の性能向上を目指す。
- 提案するメカニズムは，各クライアントの貢献がナッシュ均衡となるように設計されており，同時にモデルパラメータを学習する。
- 最適なパラメータ学習と完全なデータ貢献を可能にするメカニズムも提案し，実データを用いた実験でその有効性を示した。
- 実験結果は，提案手法が高速に収束し，高い福利厚生と優れたモデル性能を達成することを示唆している。
Link: https://arxiv.org/abs/2505.12010
GT2-GS：ガウススプラッティングのためのジオメトリを意識したテクスチャ転送 [cs.CV]目的：複雑な3Dシーンへの2Dテクスチャ転送
- 3Dマルチメディアコンテンツ作成の効率と制御性を高める上で，テクスチャ転送は重要な役割を果たす。
- 既存手法は抽象的な芸術スタイルに焦点を当て，シーンのジオメトリ情報を無視しているため，高品質な転送が難しい。
- シーンのジオメトリを考慮し，より自然で高品質なテクスチャ転送を実現することを目指す。
- 提案手法GT2-GSは，ジオメトリ情報を活用した損失関数により，視点整合性の高いテクスチャ転送を可能にする。
- 適応的な細粒度制御モジュールにより，低解像度テクスチャによるシーン情報の劣化を抑制する。
- ジオメトリ保存ブランチにより，外観とジオメトリの最適化目標を分離し，結果的に人間の視覚認識に合致した転送結果を得る。
Link: https://arxiv.org/abs/2505.15208
弱学習オブジェクト検出のための自己分類の強化と修正 [cs.CV]目的：弱学習オブジェクト検出における性能向上
- 画像認識技術の発展は，様々な分野で活用が期待されているため，その精度向上は重要である。
- 弱学習オブジェクト検出はラベルコストが低い一方，精度が十分でないという課題があった。
- 多クラス分類タスク間の曖昧さを解消し，それぞれの利点を活かすことで検出精度を向上させる。
- 本研究では，クラス内二値分類を導入することで，多クラス分類タスク間のギャップを埋める自己分類強化モジュールを提案した。
- 提案手法は，正例と誤った位置にあるサンプルをクラスごとに識別し，相互に強化する関係を構築する。
- 推論時に多クラス分類タスクの結果を組み合わせる自己分類修正アルゴリズムにより，誤分類の予測を効果的に削減した。
Link: https://arxiv.org/abs/2505.16294
評価から防御へ：ビデオ大規模言語モデルの安全性の向上 [cs.CV, cs.AI]目的：ビデオ大規模言語モデルの安全性評価と改善
- 画像生成AIの安全性は重要視されているが，ビデオAIの安全性評価は遅れている。
- ビデオAIは，画像AIと比較して安全性に関する体系的な研究が不足している。
- マルチモーダル攻撃の脆弱性を解消し，ビデオAIの安全性を高めることを目指す。
- ビデオ大規模言語モデルにおいて，ビデオを取り込むことで安全性能が平均34.2%低下することが明らかになった。
- VideoSafety-R1という二段階フレームワークを提案し，安全性に関する大幅な改善を実現した。
- 提案手法は，VSE-HHにおいて71.1%の性能向上を示し，既存の画像安全性データセットでも優れた結果を得た。
Link: https://arxiv.org/abs/2505.16643
統一されたテキスト・画像からビデオ生成：柔軟な視覚的条件付けのためのトレーニングフリーアプローチ [cs.CY, cs.HC, cs.CV, cs.LG]目的：テキストと画像に基づいたビデオ生成の実現
- ビデオ生成において，意味と視覚の両方の条件を制御可能にすることが重要である。
- 既存手法は，テキストからビデオモデルをファインチューニングする必要があり，リソースコストが高く，条件設定も限定的である。
- 任意の画像数と位置で視覚的条件付けが可能な，柔軟なビデオ生成手法を提案する。
- 提案手法FlexTI2Vは，トレーニングフリーでありながら，既存のトレーニングフリー画像条件付け手法を大幅に上回る性能を示す。
- UNetベースとTransformerベースの両方のアーキテクチャに適用可能である。
- 動的な制御機構により，各ビデオフレームにおける視覚的条件付けの強度を調整し，創造性と忠実度のバランスを取っている。
Link: https://arxiv.org/abs/2505.20629
UAV画像に対するコンパクトなGPUデータスケジューリングに基づく効率的な特徴点マッチング [cs.CV]目的：UAV画像の効率的な特徴点マッチング
- UAV画像は，広範囲の測量や点群生成に不可欠であり，その処理速度は重要である。
- 従来のSfM処理において，特徴点マッチングは計算コストのボトルネックとなっている。
- GPUの計算能力を最大限に活用し，特徴点マッチングの高速化を目指す。
- 提案手法は，KD-Treeベースの手法と比較して77.0～100.0倍の高速化を実現した。
- 大規模UAVデータセットを用いた評価により，GPUの計算能力を効率的に利用できることが示された。
- 相対および絶対バンドル調整において，従来の精度と同等の結果が得られた。
Link: https://arxiv.org/abs/2505.22089
SAM-R1：強化学習によるマルチモーダルセグメンテーションにおける報酬フィードバックの活用 [cs.CV]目的：マルチモーダルセグメンテーションにおける報酬フィードバックの活用
- 画像セグメンテーションは，コンピュータビジョンの基礎であり，多様な応用分野において重要な役割を担う。
- 既存手法は，高コストで時間のかかる手動アノテーションデータに依存しているという課題がある。
- 強化学習を活用し，アノテーションデータなしでモデルに推論能力を付与することで，この課題を解決する。
- SAM-R1は，マルチモーダル大規模モデルに，微細なセグメンテーション設定を組み込んだ学習を可能にする。
- タスク固有の微細な報酬と最適化目的を統合することで，モデルの推論とセグメンテーションの整合性を高める。
- わずか3000の学習サンプルで，複数のベンチマークにおいて優れた性能を達成し，強化学習の有効性を示す。
Link: https://arxiv.org/abs/2505.22596
適応ターゲット認識注意を用いた高精度な物体と効果の除去 [cs.CV]目的：物体とその視覚的効果の除去
- 画像編集において，物体除去は重要な技術であり，写真や映像の品質向上に貢献する。
- 拡散モデルを用いた既存手法では，アーティファクトの発生や背景の改変が課題となっていた。
- 物体とその効果を正確に除去し，背景の忠実性を維持することを目指す。
- 提案手法ObjectClearは，適応ターゲット認識注意機構により，物体と効果を正確に局所化し，除去する。
- 学習された注意マップは，推論時の注意誘導型融合戦略に活用され，視覚的な一貫性が向上する。
- 大規模データセットOBERを構築し，実験により既存手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2505.22636
ヘッドマウントディスプレイにおける立体幾何学的誤差に対する知覚的感受性 [cs.CL, cs.HC, cs.GR]目的：ヘッドマウントディスプレイにおける立体幾何学的誤差が距離知覚に与える影響の評価
- 仮想現実(VR)技術の発展に伴い，没入感の高い視覚体験の提供が重要になっている。
- ヘッドマウントディスプレイのレンダリングや表示過程で発生する誤差が，距離知覚の歪みを引き起こす可能性がある。
- 本研究では，HMDの幾何学的誤差と距離知覚の関係を定量的に評価し，知覚誤差の軽減策を検討する。
- 幾何学的フレームワークを用いて，HMDの視点誤差が距離知覚に与える影響を予測できることが示された。
- 実験により，視点誤差は距離の過小評価または過大評価を引き起こすことが明らかになった。
- リアルタイムの視覚的フィードバックによって，知覚距離の歪みがあっても正確な到達距離を達成できることが示された。
Link: https://arxiv.org/abs/2505.23685
DiG-Net：遠隔支援ロボットにおける超長距離動的ジェスチャ認識による人間ロボット相互作用の向上 [cs.RO, cs.AI, cs.CV]目的：遠隔支援ロボットにおける，最大30メートルまでの超長距離動的ジェスチャ認識フレームワーク
- 身体制約のある人や遠隔操作を行う人々にとって，直感的で非言語的なコミュニケーションは不可欠である。
- 既存のジェスチャ認識方法は近距離での利用に限定され，遠隔からのロバストな支援コミュニケーションが課題である。
- 本研究は，遠隔支援ロボットの利用可能性を高め，生活の質を向上させることを目指す。
- 提案手法DiG-Netは，深度条件変形アライメント（DADA）ブロックと空間的・時間的グラフモジュールを組み合わせることで，困難な条件下でのジェスチャ認識を実現した。
- 新たに導入した放射計学的空間的・時間的深度減衰損失（RSTDAL）により，学習効果とモデルのロバスト性が向上した。
- 多様なデータセットにおいて，最先端のジェスチャ認識フレームワークと比較して，97.3%の認識精度を達成した。
Link: https://arxiv.org/abs/2505.24786
意思決定変数相関を用いたタスク関連表現類似性の定量化 [cs.CV, cs.LG, q-bio.NC, q-bio.QM]目的：意思決定戦略の類似性評価
- 脳と深層ニューラルネットワークの表現比較は，脳機能理解の基礎となる。
- 脳とモデルの表現類似性に関して，相反する結果が報告されている。
- タスクに関連する表現類似性の定量化手法を確立する。
- モデル間および脳間類似性は比較可能だが，モデルと脳の類似性は低い。
- ネットワークのImageNet-1k性能向上に伴い，意思決定変数相関は低下する。
- 敵対的学習や大規模データセットでの事前学習は，モデルと脳のタスク関連表現類似性を改善しない。
Link: https://arxiv.org/abs/2506.02164
MMSU：大規模多タスク音声言語理解および推論ベンチマーク [cs.CL, cs.SD, eess.AS]目的：音声言語理解と推論のための包括的な評価
- 音声はテキスト言語を超えた豊富な情報を含むため，高度な音声対話システムの開発が重要である。
- 既存のSpeechLLMは音声情報を処理できるが，自然な音声における詳細な認識と複雑な推論能力は不十分である。
- 自然な音声における高度な理解と推論能力を評価するための新たな基準を確立すること。
- MMSUは，47種類のタスクにわたる5,000件の音声-質問-回答のトリプレットを含む，包括的なベンチマークである。
- 14種類の最先端SpeechLLMの評価を通じて，既存モデルの改善の余地が大きく，今後の最適化の方向性を示した。
- MMSUは，音声言語理解の包括的な評価における新たな標準を確立し，より洗練された人間とAIの音声対話システムの開発に貢献する。
Link: https://arxiv.org/abs/2506.04779
フロー事前分布を用いた潜在空間のアライメント [cs.LG, cs.CV]目的：潜在空間と任意の目標分布とのアライメント
- 機械学習モデルの性能は，学習された潜在空間の質に大きく依存する。
- 潜在空間の分布を目標分布に合わせることは困難であり，計算コストが高い。
- フロー事前分布を用いて，効率的かつ正確な潜在空間のアライメントを実現する。
- 提案手法は，フローベース生成モデルを事前分布として利用することで，潜在空間を目標分布にアライメントする。
- アライメント損失を最小化することで，潜在空間の最適化を効率的に行うことができる。
- ImageNetを用いた大規模な画像生成実験で，様々な目標分布に対して有効性が確認された。
Link: https://arxiv.org/abs/2506.05240
VideoChat-A1：ショットの連鎖的推論による長尺動画の思考 [cs.CV]目的：長尺動画における質問応答能力の向上
- 動画理解技術は近年目覚ましい進歩を遂げているが，より高度な理解が求められている。
- 既存のマルチモーダル大規模言語モデルは，長尺動画の文脈理解に課題を抱えている。
- 動画を構成するショットに着目し，人間のような思考プロセスを模倣することで，長尺動画の理解を深める。
- 提案手法VideoChat-A1は，主要な長尺動画QAベンチマークで最先端の性能を達成した。
- VideoMME (w/ subs)で77.0，EgoSchemaで70.1のスコアを獲得し，既存手法を最大10.1%，6.2%上回った。
- GPT-4oやGemini 1.5 Proといった強力なモデルと比較しても，同程度の精度をより少ない計算資源で実現している。
Link: https://arxiv.org/abs/2506.06097
テレビシリーズにおけるビデオ誘導型後期ASR修正による音声認識 [cs.SD, cs.AI, eess.AS]目的：テレビシリーズの音声認識精度向上
- 音声認識技術は，対話型AIやメディア文字起こしなど，幅広い分野で活用が拡大している。
- テレビシリーズのような複雑な環境では，複数話者や専門用語により，音声認識の精度が低下しやすい。
- ビデオ情報と大規模マルチモーダルモデルを活用し，音声認識の誤りを修正することで精度向上を目指す。
- 提案手法は，テレビシリーズのベンチマークテストにおいて，音声認識精度の一貫した向上を実証した。
- ビデオ情報による文脈活用により，複雑なマルチメディア環境下での音声認識性能を改善できる。
Link: https://arxiv.org/abs/2506.07323
AVA-Bench：ビジョン基盤モデルのための原子的な視覚能力ベンチマーク [cs.CV, cs.AI, cs.LG]目的：ビジョン基盤モデルの原子的な視覚能力の評価
- 近年，ビジョン基盤モデルの性能向上は目覚ましいが，その評価方法が課題となっている。
- 既存のVQAベンチマークは複雑で，どの視覚能力に問題があるか特定しにくい。
- AVA-Benchは，14個の原子的な視覚能力を分離し，モデルの弱点を明確に示すことを目指す。
- AVA-Benchは，トレーニングデータとテストデータの分布を一致させることで，より正確な評価を可能にする。
- 主要なビジョン基盤モデルの能力フィンガープリントを明らかにし，モデル選択の指針を提供する。
- より小さなLLM（0.5B）でも，大きなLLM（7B）と同等のランキングが得られ，評価コストを削減できることが示された。
Link: https://arxiv.org/abs/2506.09082
LHM++: ポーズ情報なし画像からの効率的な3D人体再構成モデル [cs.CV]目的：ポーズ情報なし画像から3Dアバターの再構成
- 現実世界の画像から3D人体を再構成する技術は，バーチャルリアリティやコンピュータグラフィックス分野で重要である。
- カメラやポーズ情報がない状況下での再構成は，視点ずれや隠蔽，構造的知識の欠如により困難である。
- 本研究は，効率的かつ高精度な3D人体再構成モデルを開発し，上記の問題を解決することを目指す。
- 提案手法LHM++は，Encoder-Decoder Point-Image Transformerアーキテクチャを採用し，効率的に3D形状をエンコード・デコードする。
- LHM++は，複数の画像から数秒で高品質な3Dアバターを生成することが可能である。
- 実験結果から，LHM++はカメラやポーズアノテーションなしで，高忠実度な再構成を実現することが示された。
Link: https://arxiv.org/abs/2506.13766
超効率的な契約：実行可能な契約設計の限界の押し広げ [cs.GT]目的：最適な契約の設計
- 経済学におけるインセンティブ設計の重要性が高まっており，最適な契約の自動化が求められている。
- 一般に，最適な契約問題はNP困難であり，現実的な規模の問題への適用が難しい。
- より広いクラスの報酬関数に対して，効率的な契約設計アルゴリズムを開発すること。
- 本研究では，「Ultra」報酬と呼ばれる新しいクラスを導入し，多項式時間アルゴリズムを開発した。
- このアルゴリズムは，既存の「Gross Substitutes」報酬よりも広い範囲をカバーし，補完的な報酬も扱える。
- さらに，加法的なコスト関数に加えて，対称的なコスト関数に対しても多項式時間アルゴリズムを確立した。
Link: https://arxiv.org/abs/2506.18008
非定型分裂と正常分裂の分類における深層学習とVision Foundationモデルのベンチマーク：クロスデータセット評価 [cs.CV]目的：非定型分裂細胞の分類
- 腫瘍の悪性度を予測する上で，非定型分裂は重要な指標となりうる。
- 非定型分裂の識別は，発生頻度の低さや形態的な差異の微細さから困難である。
- 深層学習と転移学習を用いて，非定型分裂細胞の分類精度向上を目指す。
- 深層学習モデル，Foundationモデルの線形プローブ，LoRAを用いたファインチューニングを比較評価した結果，最大で0.8135の平均バランス精度を達成した。
- in-domainデータセットAMi-Brに加え，新たに2つのout-of-domainデータセットAtNorM-Br, AtNorM-MDを用いて，頑健性を検証した。
- 転移学習やモデルのファインチューニング技術は，非定型分裂細胞の分類において有効である可能性を示唆した。
Link: https://arxiv.org/abs/2506.21444
意味ドリフトの抑制：大規模視覚言語モデルにおける動的な接地生成アプローチ [cs.CV]目的：大規模視覚言語モデルにおける意味ドリフトの抑制
- 視覚情報と言語を統合するモデルの性能向上は，画像理解やキャプション生成などに応用が期待されるため重要である。
- 大規模言語モデルは，言語的な知識に偏りやすく，視覚情報との整合性が失われる「意味ドリフト」が問題となっている。
- 入力画像から乖離する意味ドリフトを抑制し，より忠実なテキスト生成を目指す。
- 提案手法DLCは，デコーディング時に視覚的な関連性を評価し，ロジットを動的に調整することで，意味ドリフトを効果的に抑制する。
- 複数の大規模視覚言語モデルにおいて，DLCは幻覚を減らしながら応答品質を維持することが示された。
- 様々なバックボーンモデルや候補プールサイズに対して，頑健性と計算コストのバランスが良いことが確認された。
Link: https://arxiv.org/abs/2506.21509
CAST：クロスアテンションを用いた深層偽造映像検出のための空間-時間特徴融合 [cs.CV]目的：深層偽造映像の検出
- デジタルメディアにおける信頼性確保が重要課題となっているため。
- 既存手法では空間特徴と時間特徴の相互作用が不十分である。
- 空間-時間特徴をより統合的に融合する手法を開発すること。
- 提案手法CASTは，クロスアテンションを用いて空間特徴と時間特徴を効果的に融合する。
- これにより，細部の時間変化や歪みを検出しやすくなり，検出精度が向上した。
- 複数のデータセットで99.49%のAUCと97.57%の精度を達成し，未知のデータセットでも高い性能を示した。
Link: https://arxiv.org/abs/2506.21711
WaRA：ウェーブレット低ランク適応 [cs.CV, eess.IV]目的：医療画像分類のための大規模事前学習済みビジョンモデルへの適応
- 医療画像診断の精度向上は，医療の質の向上に不可欠である。
- 医療画像は，多様なスケールと局所的な特徴を持つため，既存の手法では十分な適応が困難である。
- ウェーブレット変換を用いることで，効率的に局所的特徴を捉え，モデルの適応性能を高めることを目指す。
- WaRAは，特徴空間で直接学習する既存のPEFT手法よりも，一貫して高い性能を示す。
- ウェーブレット変換による適応モジュールは，粗い構造と細かい詳細の両方を考慮した更新を可能にする。
- Tiny-WaRAは，さらに少ない学習パラメータで高い性能を維持し，極端にリソースの限られた環境でも有効である。
Link: https://arxiv.org/abs/2506.24092
LOSC：LiDARオープン語彙セグメンテーション統合器 [cs.CV]目的：運転環境におけるLiDARスキャンのオープン語彙セグメンテーション
- 自動運転の実現には，周囲環境の正確な理解が不可欠であり，LiDARによる3次元点群のセグメンテーションが重要な役割を果たす。
- 画像由来のセマンティクスを点群に投影する方法では，ラベルにノイズが多く，疎な点群ラベルとなるという課題がある。
- 画像レベルの拡張に対するロバスト性と，空間・時間の一貫性を確保し，LiDAR点群セグメンテーションの精度向上を目指す。
- 提案手法LOSCは，nuScenesとSemanticKITTIの両データセットにおいて，ゼロショットオープン語彙セマンティックセグメンテーションとパノラマセグメンテーションで最先端技術を上回る性能を達成した。
- LOSCは，点群ラベルを統合することで，空間的・時間的整合性を高め，ノイズに対するロバスト性を向上させている。
- この手法は，複雑な運転シナリオにおけるLiDARデータの理解に貢献し，自動運転システムの安全性向上に繋がると期待される。
Link: https://arxiv.org/abs/2507.07605
マルチモーダルChain-of-Thoughtのための根拠強化デコーディング [cs.CV, cs.AI, cs.LG]目的：マルチモーダルChain-of-Thoughtにおける推論の改善
- 視覚と言語を統合した大規模モデルは高度な能力を示す。多角的な問題解決への応用が期待される。
- 既存モデルはChain-of-Thoughtで生成された根拠を十分に活用できていないという課題がある。
- 生成された根拠を考慮した推論を通じて，マルチモーダルシステムの信頼性と精度を高める。
- 本研究では，根拠条件付き対数尤度を最大化するKL制約報酬という新たなアプローチを提案した。
- 提案手法である根拠強化デコーディング（RED）は，画像と根拠情報を調和的に統合する。
- REDは，複数のベンチマークと大規模モデルで，標準的なChain-of-Thoughtや他のデコーディング手法を上回る性能を示した。
Link: https://arxiv.org/abs/2507.07685
HieraRS：リモートセンシングのための階層的セグメンテーションパラダイム - 多粒度解釈とクロスドメイン転移を実現 [cs.CV]目的：リモートセンシング画像における土地被覆・土地利用（LCLU）の多粒度階層的分類
- 土地利用の変化を把握し，都市計画や環境保全などの分野で重要な役割を果たす。
- 既存手法は，実用的な階層構造に沿った多粒度な予測が困難であり，柔軟性に欠ける。
- 異質な階層構造を持つタスクへのLCLUモデルの効率的な転移と，汎化性能の向上を目指す。
- HieraRSは，双方向階層的一貫性制約メカニズム（BHCCM）を導入し，既存の平坦な分類モデルに組み込むことで，階層的な予測を可能にした。
- TransLUという二分岐クロスドメイン転移フレームワークを提案し，動的なカテゴリ拡張と異質な階層への適応を促進する。
- 大規模なマルチモーダル階層土地利用データセットMM-5Bを構築し，公開することで，今後の研究を支援する。
Link: https://arxiv.org/abs/2507.08741
Lumos-1：統一モデルの視点からの離散拡散を用いた自己回帰型動画生成について [cs.CV, cs.AI, cs.MM]目的：自己回帰型動画生成のための統一モデル
- 動画生成は，コンテンツ制作や表現の可能性を広げる重要な研究分野である。
- 既存の動画生成モデルは，大規模言語モデルのアーキテクチャとの乖離や，計算コストが高いといった課題がある。
- 効率的な離散拡散とMM-RoPEによって，動画生成における課題を解決し，高品質な動画生成を可能にすること。
- Lumos-1は，大規模言語モデルをベースとした自己回帰型動画生成モデルであり，効率的な離散拡散を用いることで，従来のモデルの課題を克服している。
- MM-RoPEは，動画の視覚空間temporal相関モデリングを改善し，よりバランスの取れた周波数スペクトルを実現する。
- GenEval，VBench-I2V，VBench-T2Vといったベンチマークにおいて，既存モデル（Show-o2，OpenSoraPlan等）を上回る性能を達成している。
Link: https://arxiv.org/abs/2507.08801
CSD-VAR：視覚自己回帰モデルにおけるコンテンツとスタイルの分解 [cs.CV, cs.AI]目的：視覚的コンテンツとスタイルの分解
- 画像生成技術の発展は，創造的な表現の可能性を広げている。
- 既存手法では，コンテンツとスタイルの分離が不十分な場合がある。
- 自己回帰モデルを用いて，より高度なコンテンツとスタイルの分解を目指す。
- CSD-VARは，スケールを意識した最適化，SVDによる修正，拡張されたK-Vメモリを導入した。
- 新たなデータセットCSD-100を導入し，ベンチマークを行った。
- 実験の結果，CSD-VARは既存手法を上回り，コンテンツの保持とスタイルの忠実度において優れていることが示された。
Link: https://arxiv.org/abs/2507.13984
Chart-R1：高度なチャート推論のための思考連鎖による教師あり学習と強化学習 [cs.RO, cs.DL, physics.soc-ph, cs.AI, cs.CV]目的：高度なチャート推論のための視覚言語モデル
- チャート推論は，数値理解，多段階の視覚的理解，データ要素間の論理的推論を必要とする複雑なタスクである。
- 既存の視覚言語モデルは，特に複数チャートや数値の扱いに苦戦する。
- 多様なチャートに対応可能な，高精度な段階的推論データの生成とモデルの性能向上を目指す。
- 本研究では，思考連鎖を用いた教師あり学習と，数値に敏感な報酬を用いた強化学習により，Chart-R1を開発した。
- Chart-R1は，既存のチャート領域モデルを大幅に上回り，大規模モデルに匹敵する性能を示すことが確認された。
- プログラム的なデータ合成アプローチにより，検証可能な回答形式を持つ高品質な推論データを生成することに成功した。
Link: https://arxiv.org/abs/2507.15509
VGGT-Long：分割，ループ，整列 -- VGGTの限界をキロメートル級の長尺RGBシーケンスで押し広げる [cs.CV]目的：キロメートル級の屋外環境における単眼3D再構成
- 3Dビジョンの分野は，3D認識において著しい能力を示しており，自律走行などの応用が期待される。
- 大規模RGBストリームの3D再構成は，メモリ制限により既存のモデルでは困難であった。
- VGGT-Longは，既存モデルのスケールボトルネックを解消し，大規模な環境での再構成を可能とする。
- VGGT-Longは，カメラキャリブレーション，深度教師あり学習，モデル再学習を必要とせずに，従来の技術と同等の性能を達成した。
- KITTI，Waymo，Virtual KITTIなどのデータセットで評価した結果，様々な条件下で正確かつ一貫性のある幾何構造を生成することが示された。
- 本研究は，現実世界の環境，特に自律走行において，基盤モデルをスケーラブルな単眼3Dシーン再構成に活用する可能性を示唆している。
Link: https://arxiv.org/abs/2507.16443
回路探査：ビデオ言語モデルにおける視覚的 Temporal Evidence Flow の追跡 [cs.CV, cs.LG]目的：ビデオ言語モデルにおける Temporal Evidence の表現と，それがデコーディングに及ぼす因果的影響の解明
- ビデオと言語を連携させる大規模言語モデルの重要性が増しており，その内部メカニズムの理解が不可欠である。
- 視覚的特徴がどのように言語モデルの埋め込み空間に投影され，Temporal Evidence がどこに表現されるのか不明確である。
- モデル内部の回路レベル分析により，Temporal Evidence の表現場所と影響を特定し，モデルの Temporal 理解能力を向上させる。
- CircuitProbeフレームワークにより，ビデオトークン系列中のオブジェクト意味の局在化と，因果的必要性の検証が可能となった。
- Semantic Tracingにより，オブジェクトと Temporal 概念が層ごとにどのように出現するかを追跡し，Temporal 構造への感度を評価した。
- 分析に基づきTemporal構造に特化したattention headを増幅する介入により，TempCompassベンチマークで最大2.4%の改善が確認された。
Link: https://arxiv.org/abs/2507.19420
STEMTOX：エントロピー誘導型マルチタスク学習によるソーシャルタグから詳細な有害ミーム検出へ [cs.CV, cs.CL]目的：有害ミームの検出
- オンラインコミュニケーションにおいてミームが拡散する中で，有害コンテンツの検出と対策が重要である。
- 高品質なデータセットの構築コストが高く，有害ミーム検出システムの開発が遅れている。
- ソーシャルタグを活用し，効率的な有害ミーム検出フレームワークを構築することを目指す。
- 新たなデータセットTOXICTAGSを構築し，有害ミームを詳細に分類するための基盤を整備した。
- エントロピー誘導型マルチタスク学習フレームワークSTEMTOXを提案し，ソーシャルタグの活用により有害度検出性能を向上させた。
- 本研究は，マルチモーダルなオンライン環境におけるコンテンツモデレーションの改善に貢献する。
Link: https://arxiv.org/abs/2508.04166
魚眼カメラ向け基礎的な単眼深度推定器の拡張：キャリブレーション・トークンを用いた手法 [cs.CG, cs.CV, cs.AI, cs.LG]目的：魚眼画像に対する単眼深度推定器の拡張
- 近年，自動運転やロボット工学などにおける環境認識の重要性が増しており，深度推定技術の精度向上が求められている。
- 従来の単眼深度推定器は，カメラのキャリブレーションパラメータの変化に弱く，魚眼カメラのような歪みのある画像に対しては精度が低下する。
- 本研究は，再学習や微調整なしに，既存の単眼深度推定器を魚眼カメラに適用可能にするための新たな手法を提案する。
- 提案手法では，魚眼画像の潜在表現と，パースペクティブ画像の潜在表現を，軽量なキャリブレーション・トークンを用いて整列させる。
- これにより，魚眼カメラのアーティファクトや損失の影響を回避し，既存の深度推定器の表現力を有効活用することが可能となる。
- 屋内および屋外の実験において，提案手法は最先端手法と比較して，一貫して性能が向上することを確認した。
Link: https://arxiv.org/abs/2508.04928
QA-Dragon: クエリに配慮した動的RAGシステムによる知識集約型視覚的質疑応答 [cs.AI, cs.CL, cs.CV]目的：知識集約型視覚的質疑応答における性能向上
- 視覚的質疑応答は，画像と質問の内容を理解するAI技術として重要であり，様々な応用が期待される。
- 既存のRAG手法は，テキストまたは画像から単独で情報を取得するため，複雑なクエリに対応しにくい。
- 本研究は，マルチモーダルな情報を活用し，より高度な推論能力を備えたRAGシステムの構築を目指す。
- 提案手法QA-Dragonは，クエリのドメインを特定し，最適な情報検索戦略を動的に選択することで，複雑な質疑応答に対応する。
- Meta CRAG-MM Challenge KDD Cup 2025における評価で，ベースモデルの推論性能を大幅に向上させることが示された。
- 単一ソース，複数ソース，複数ターンタスクにおいて，それぞれ5.06%，6.35%，5.03%の正答率と知識重複率の改善を達成した。
Link: https://arxiv.org/abs/2508.05197
スプリット・ブレグマン法を用いた二相画像セグメンテーションの実装 [cs.CV, math.OC]目的：二相画像セグメンテーションの実装
- 画像認識技術は，医療診断，自動運転など幅広い分野で重要性が増している。
- 従来のセグメンテーション手法は，ノイズに弱く，計算コストが高いという課題があった。
- スプリット・ブレグマン法を用いることで，効率的なセグメンテーションを目指す。
- 本研究では，Goldsteinらが提案した二相画像セグメンテーションアルゴリズムを実装した。
- このアルゴリズムは，画像内のピクセルを前景と背景の二つの領域に分割する。
- 実験により，様々な画像とアルゴリズムパラメータにおける性能を検証した。
Link: https://arxiv.org/abs/2508.06351
ディープフェイクに対する中断とポジショニングを組み合わせた二段階防御フレームワークによる能動的防御の持続性向上 [cs.RO, cs.CV]目的：ディープフェイク技術に対する能動的防御の持続性向上
- 近年，ディープフェイク技術の脅威が増大しており，その対策が急務となっている。
- 既存の能動的防御は，攻撃者が再学習を行うことで容易に回避でき，持続性に課題がある。
- 攻撃者の再学習を妨害することで，防御の効果を持続させることを目指す。
- 本研究では，中断とポジショニングを組み合わせた二段階防御フレームワーク（TSDF）を提案する。
- TSDFは，偽造コンテンツの改ざんと，攻撃者の再学習パイプラインに不可欠なデータ準備プロセスの妨害という二つの役割を果たす。
- 実験の結果，TSDFは従来の防御手法と比較して，能動的防御の持続性を大幅に向上させることが示された。
Link: https://arxiv.org/abs/2508.07795
SFTの限界突破：チャートからコード生成のためのマルチモーダル構造化強化学習 [cs.RO, cs.MA, cs.AI, cs.CV]目的：チャートからコードを生成するタスクにおける構造化出力生成のための強化学習戦略
- 視覚と言語の両方を扱うモデルの推論能力向上は，多様な応用分野において重要である。
- 情報量の多い画像や構造化された出力の生成を要するタスクでは，従来のSFTだけでは性能が限界を迎える。
- SFTの限界を打破し，より高度なチャートからコード生成を実現することを目指す。
- 提案手法MSRLは，テキストと視覚の両方のフィードバックを統合したマルチ粒度報酬システムを採用した。
- 大規模なチャート・コードペアデータセット（300万組）を構築し，SFTのみでは限界に達することを示した。
- ChartMimicとReachQAのベンチマークにおいて，それぞれ6.2%，9.9%の性能向上を達成し，既存手法やクローズドソースモデルを上回った。
Link: https://arxiv.org/abs/2508.13587
拡散モデルにおける属性操作のためのオールインワン・スライダー [cs.HC, cs.CV]目的：拡散モデルにおける属性操作の実現
- 画像生成技術は近年飛躍的に進歩しており，その応用範囲は広い。
- 生成された画像の属性を詳細に，かつ柔軟に操作することが困難である。
- 汎用的なスライダーを用いて，多様な属性の操作を可能にすること。
- 本研究では，テキスト埋め込み空間を疎な属性方向へ分解する軽量モジュール「オールインワン・スライダー」を提案する。
- これにより，学習済みのスライダーを用いて，多様な属性の解釈可能かつ連続的な制御が可能となる。
- 複数の属性の組み合わせや，未知の属性に対する操作も，高い精度で実現されることが実験により示された。
Link: https://arxiv.org/abs/2508.19195