arXiv雑要約

画像・音声 - 2026/04/30 公開

ProcFunc：Pythonによる手続き型3D生成のための関数指向抽象化 [cs.CV]目的：手続き型3D生成のための関数指向抽象化
- 3Dコンテンツ作成は，ゲームや映画など幅広い分野で不可欠であり，その効率化が求められている。
- 複雑な3Dモデル生成は，コードの記述量が多く，エラーが発生しやすく，修正に時間がかかる。
- 手続き型生成のコード作成を容易にし，大規模な多様なトレーニングデータ生成を支援すること。
- ProcFuncは，Blenderベースの手続き型3D生成を容易にするPythonライブラリである。
- セマンティックコンポーネントの組み合わせにより，大規模で多様なトレーニングデータの生成を可能にする。
- ProcFuncを用いて，新しい室内生成器を開発し，詳細度，実行効率，多様性を実証した。
Link: https://arxiv.org/abs/2604.26943
３段階ナビ：ゼロショット視覚言語ナビゲーションのための階層的グローバル・ローカルプランナー [cs.CV, cs.RO]目的：ゼロショット視覚言語ナビゲーションにおける航行性能の向上
- 未知環境における視覚に基づくナビゲーションは，マルチモーダル大規模言語モデルの進歩により大きく発展している。
- 既存の視覚言語ナビゲーションエージェントは，航路逸脱，早期停止，低い成功率といった課題を抱えている。
- 本研究は，累積ドリフトの修正と，より正確なナビゲーションを実現することを目的としている。
- 提案手法「３段階ナビ」は，グローバルなランドマーク抽出，現在の視覚情報とサブゴールの整合，軌跡の監査という３つのステップで構成される。
- 勾配更新やタスク固有のファインチューニングを必要とせず，既存のVLNパイプラインに容易に組み込むことができる。
- R2R-CEおよびRxR-CEデータセットにおいて，ゼロショット性能で最先端の結果を達成した。
Link: https://arxiv.org/abs/2604.26946
SongBench：楽曲品質評価のための多角的詳細ベンチマーク [cs.CL, cs.IR, eess.AS, cs.AI, cs.SD]目的：楽曲品質の多角的詳細評価のためのフレームワーク
- 近年のテキストからの楽曲生成技術の発展に伴い，高品質な音楽コンテンツの自動生成が期待されている。
- 既存の評価ベンチマークは，楽曲の多面的な美的なニュアンスを捉える専門的な粒度が不足している。
- 既存モデルの性能差を明らかにし，より専門的で音楽的に一貫性のある楽曲生成の方向性を示す。
- SongBenchは，ボーカル，楽器，メロディ，構成，編曲，ミキシング，音楽性といった7つの主要な側面から楽曲を評価する。
- 専門家によるアノテーションが付与された11,717サンプルからなるデータベースを構築し，最先端モデルの評価に活用した。
- SongBenchは専門家の評価との高い相関性を示し，現在のモデルの改善点を明確に示すベンチマークとして機能する。
Link: https://arxiv.org/abs/2604.25937
拡散に基づく韻律制御による音声匿名化 [eess.AS, cs.LG, cs.SD]目的：音声匿名化における韻律の制御
- 音声は個人を特定する情報を含むため，プライバシー保護が重要である。
- 既存手法では，プライバシー保護と音声の有用性のバランスが難しい。
- 拡散モデルを用いて，プライバシーと韻律維持のバランスを制御する。
- DiffAnonは，拡散モデルとClassifier-Free Guidance（CFG）を組み合わせ，推論時に韻律の保存度を連続的に制御する。
- RVQコーデックのセマンティック埋め込みを基に音響詳細を洗練させ，匿名化強度と韻律忠実度を滑らかに調整する。
- 実験により，制御可能な動作点で高い有用性と競合性のあるプライバシーを両立することが示された。
Link: https://arxiv.org/abs/2604.26281
セマンティック圧縮のための適応変換符号化 [eess.IV, cs.CV, cs.IT, eess.SP, math.IT]目的：セマンティック特徴圧縮
- 視覚データ圧縮は，人間中心の復元から機械向けの表現符号化へと変化しつつある。
- 異質な特徴分布への効率的な符号化が課題であった。
- セマンティック特徴圧縮におけるレート歪み関数の最適化を目指す。
- 提案手法は，広く使用されている画像バックボーンおよび基盤モデルの特徴において，最先端のニューラル圧縮手法と同等以上の性能を示す。
- モード依存変換と量子化を使用することで，異質な特徴分布をより効率的に符号化する。
- 柔軟性と解釈可能性を維持しつつ，セマンティック特徴の圧縮性能を向上させる。
Link: https://arxiv.org/abs/2604.26492
円相表現と幾何学的最適化を用いたホログラフィー画像再構成 [eess.IV, cs.CV, physics.optics]目的：ホログラフィー画像再構成のための円相表現と幾何学的最適化手法
- ホログラフィーは，高分解能なイメージングを可能にする強力な手法であり，科学研究や産業応用において重要である。
- 従来の反復再構成法は計算コストが高く，高速・リアルタイム処理が困難であるという課題がある。
- 位相の周期性を考慮した円相表現と幾何学的最適化により，高速かつ高精度な再構成を実現することを目的とする。
- 提案手法は，位相を円としてモデル化し，微分可能な測地線損失関数を用いて誤差を最適化することで，位相の不連続性やラップアラウンド問題を抑制する。
- 合成データおよび実験データに対する評価において，既存の深層学習法と比較して，振幅と位相の再構成精度が向上することが示された。
- 周波数領域解析により，中高周波位相成分の保存性が改善されていることが確認され，高速性と物理的な整合性が両立されている。
Link: https://arxiv.org/abs/2604.26664
拡散生成モデルにおける組み合わせ確率性 [cs.CG, cs.SC, math.NT, math.OA, cs.RO, cs.LG, cs.AI, cs.CV, cs.GR]目的：拡散生成モデルの組み合わせ的複雑性に関する検討
- 高次元データ生成において，多様な属性の組み合わせが重要である。
- 既存手法では，次元と属性の組み合わせ空間を十分に網羅できない場合がある。
- 組み合わせ構造を最大限に活用する確率過程を導入し，生成性能の向上を目指す。
- ComboStocにより，画像や3D形状など多様なデータ形式において，ネットワーク学習が大幅に加速された。
- テスト時生成において，各次元と属性に対して非同期な時間ステップを使用することで，制御性の向上が確認された。
- 組み合わせ確率性（ComboStoc）は，拡散生成モデルの学習効率と生成品質を改善する有効な手法である。
Link: https://arxiv.org/abs/2405.13729
U-FaceBP：不確実性考慮型ベイズアンサンブル深層学習による顔動画からの血圧推定 [cs.CV, eess.IV]目的：顔動画を用いた血圧推定における不確実性のモデリングと，それに基づく推定精度の向上
- 日々の健康評価において血圧測定は不可欠であり，簡便な測定法の開発が求められている。
- カメラで撮影した顔動画から脈波を抽出するrPPGは有望だが，様々な不確実性が推定性能を制限している。
- 本研究では，ベイズアンサンブル深層学習を用いて，rPPGの不確実性を考慮し，より信頼性の高い血圧推定を目指す。
- 提案手法U-FaceBPは，ベイズニューラルネットワークを用いて，血圧推定におけるアレイリックおよびエピステミック不確実性をモデリングする。
- 複数のベイズニューラルネットワークを用いて，rPPG信号，顔動画由来のPPG信号，および顔画像から血圧を推定するアンサンブル手法を設計した。
- 大規模実験の結果，U-FaceBPは最先端の血圧推定手法を凌駕し，多様な人種グループにおける性能向上を示した。
Link: https://arxiv.org/abs/2412.10679
機械生成音楽の解釈可能な検出と初期の体系的評価 [cs.SD, eess.AS]目的：機械生成音楽の検出
- 音楽産業，教育，芸術分野において，高品質な音楽作品の価値を保護することが重要であるため。
- 機械生成音楽の無秩序な拡散により，人間の作曲作品の価値が損なわれるリスクがある。
- 機械生成音楽検出の進捗を促すために必要な，体系的な評価結果の不足を解消する。
- 既存のデータセットと様々なオーディオ処理モデルを用いた実験により，機械生成音楽検出タスクに特化した体系的な評価結果が得られた。
- ResNet18 が，ドメイン内およびドメイン外のテストにおいて最も優れた性能を示した。
- XAIツールを用いた分析により，モデルの意思決定プロセスに関する洞察が得られ，よりロバストな検出方法の開発に向けた方向性が示唆された。
Link: https://arxiv.org/abs/2412.13421
動的な3Dガウスシーンにおけるリアルタイムグローバルイルミネーション [cs.GR, cs.CV]目的：動的な3Dガウスシーン及びメッシュに対するリアルタイムグローバルイルミネーション手法
- リアルタイムレンダリングは，ゲームやVR/ARなど様々な分野で不可欠な技術である。
- 複雑なシーンにおけるグローバルイルミネーションは計算コストが高く，リアルタイム処理が困難である。
- 3Dガウスモデルを用いたシーンの効率的なグローバルイルミネーション実現を目指す。
- 3Dガウスに対する表面光伝達モデルを構築し，高速なストキャスティックレイトレーシングアルゴリズムを開発した。
- 3Dガウスとメッシュ間の相互反射を含む間接照明をリアルタイムでレンダリングできるパイプラインを構築した。
- 3Dガウスとメッシュを含むシーンで，40fps以上のフレームレートを達成し，本手法の実用性と効率性を検証した。
Link: https://arxiv.org/abs/2503.17897
OnSiteVRU：高密度脆弱道路利用者向け高解像度軌跡データセット [cs.CV, cs.RO]目的：高密度な脆弱道路利用者の軌跡データセット
- 都市化の進展と交通需要の増加に伴い，歩行者や自転車などの脆弱道路利用者の安全確保が重要になっている。
- 既存のデータセットは，多様な交通環境下での脆弱道路利用者の行動を捉えきれていないという課題がある。
- 複雑な交通環境における自動運転システムの開発・最適化に必要な，高精度で多様な軌跡データを提供することを目指す。
- OnSiteVRUデータセットは，交差点，道路区間，都市部など多様なシナリオを網羅している。
- 本データセットは，自動車，電動自転車，自転車の約17,429件の軌跡データを提供し，0.04秒の精度を実現した。
- VRU密度とシーンのカバレッジにおいて，既存のデータセットを上回り，より包括的な脆弱道路利用者の行動特性表現を可能にする。
Link: https://arxiv.org/abs/2503.23365
FLARE：深層クロスモーダル理解のための視覚と言語表現の完全統合 [cs.CV]目的：視覚と言語表現の完全統合パラダイムに基づく，視覚言語モデル（VLM）の研究
- 近年，視覚と自然言語を組み合わせた理解が重要視されており，様々な応用への期待が高まっている。
- 既存手法は，モダリティ間のアライメントが不十分で，クロスモーダルな相互作用が限定的であるという課題がある。
- 視覚情報とテキスト情報を深く統合することで，クロスモーダル理解の性能向上を目指す。
- FLAREは，テキストによる視覚エンコーディング，コンテキストを意識したアライメントデコーディング，デュアルセマンティックマッピング損失，テキスト駆動型VQA合成を特徴とする。
- 3Bおよび8Bスケールでの実験結果から，FLAREが既存手法を大幅に上回り，高い汎化性能を発揮することが示された。
- FLARE 3Bは，より大規模なモデルと比較しても優れた性能を示し，計算コストも最小限に抑えられている。
Link: https://arxiv.org/abs/2504.09925
コンピュータ利用エージェントの安全性とセキュリティ脅威に関する調査：JARVISかUltronか [cs.CL, cs.AI, cs.CR, cs.CV, cs.SE]目的：コンピュータ利用エージェントの安全性とセキュリティ脅威の体系化
- AI技術の発展により，人間とコンピューターのインタラクションが高度化しており，安全性確保が重要である。
- コンピュータ利用エージェントは複雑なソフトウェア構成と多様な入力により，新たなセキュリティリスクを抱えている。
- コンピュータ利用エージェントの潜在的な脆弱性を特定し，安全な設計と展開のための指針を提供する。
- 本研究では，コンピュータ利用エージェントの安全性分析に適した定義を提示した。
- 既存の安全性脅威を分類し，防御戦略の包括的な分類を提案した。
- 安全性と性能を評価するための既存のベンチマーク，データセット，評価指標をまとめた。
Link: https://arxiv.org/abs/2505.10924
ViTaPEs：マルチモーダルTransformerにおけるクロスモーダルアラインメントのための視覚触覚位置エンコーディング [cs.CV, cs.LG, cs.RO]目的：タスクに依存しない視覚触覚表現の学習
- 視覚と触覚情報は相互補完的であり，ロボット工学やヒューマン・コンピュータインタラクションにおいて重要である。
- 既存の手法では，視覚と触覚の情報を効果的に融合し，タスクや環境の変化に適応することが困難である。
- 視覚と触覚の間の空間的推論を捉え，クロスモーダルアラインメントを改善することを目的とする。
- ViTaPEsは，様々な認識タスクにおいて最先端のベースラインを上回る性能を示した。
- 未知のデータセットや環境に対するゼロショット汎化能力が実証された。
- ロボットグリッピングタスクにおいて，グリッピング成功予測において最先端手法を凌駕した。
Link: https://arxiv.org/abs/2505.20032
RetroMotion：逆因果的運動予測モデルは指示可能である [cs.CV, cs.AI, cs.RO]目的：道路利用者の運動予測における，複数エージェント，シーン制約，相互作用に対する複雑性の対応
- 自動運転やロボット工学において，周囲の状況を正確に予測することは，安全な行動計画に不可欠である。
- エージェント数が増えるほど，関節軌道分布の出力空間が指数関数的に増加し，計算コストが課題となる。
- 周辺分布と関節分布を組み合わせることで，効率的かつ高精度な運動予測を実現し，指示への適応性を高める。
- 提案手法は，Waymo Interaction Prediction Challengeで高い性能を示し，Argoverse 2やV2X-Seqデータセットへの汎化性能も確認された。
- Transformerモデルを用いて，周辺分布を再エンコードし，ペアワイズモデリングを行うことで，逆因果の流れを組み込んだ。
- 標準的な運動予測の学習だけで，モデルが指示に従い，シーンの文脈に適応することが示された。
Link: https://arxiv.org/abs/2505.20414
時間盲：なぜビデオと言語モデルは人間が見れるものが見えないのか？ [cs.CL, cs.CL, cs.CV, cs.AI]目的：ビデオにおける時間的パターン認識能力の限界
- ビデオ理解は，生物学的シグナルや隠れたコミュニケーションなど，多様な現象の解析に不可欠である。
- 既存のモデルは空間情報に依存しすぎており，純粋な時間的パターンを捉えることが難しい。
- 空間的依存性を分離し，時間的処理を改善することで，人間レベルのビデオ理解を目指す。
- 最新のビジョン言語モデルは，ビデオの時空間関係の理解で進歩しているが，空間情報が遮断されると時間的パターンを捉えられないことが判明した。
- SpookyBenchというベンチマークを通じて，人間はノイズのようなフレームの時系列からパターンを高い精度で認識できる一方，最先端モデルは全く認識できないという性能差が明らかになった。
- モデルの時間理解は，空間的SNRが低いデータセットで訓練されると，人間よりも急速に低下する。これは，モデルが空間特徴に過度に依存していることを示唆する。
Link: https://arxiv.org/abs/2505.24867
MINOS：画像とテキスト間の双方向生成に対する多モーダル評価モデル [cs.CL, cs.AI, cs.CV]目的：画像とテキスト間の双方向生成タスクに対する多モーダル評価
- マルチモーダル生成は発展が著しく，その品質評価が重要となっている。
- 既存の評価指標は限界があり，大規模な評価データ収集だけでは質が軽視される。
- 質の高い評価データと学習戦略により，汎用的な評価モデルの性能向上を目指す。
- 本研究では，厳格な品質管理を行った多モーダル評価データセットMinos-57Kを構築した。
- 構築したデータセットを用いてMinosを開発し，I2TとT2Iの両タスクで最先端の性能を達成した。
- 少量データで高性能を実現し，品質管理と共同学習，そして嗜好合わせの重要性を示した。
Link: https://arxiv.org/abs/2506.02494
解釈性と信頼性を考慮した医療画像分析のための不確実性認識型情報探索 [cs.CV]目的：医療画像分析における解釈可能かつ信頼性の高いAIシステムの実現
- 医療画像分析は，診断支援などにおいて重要であり，AIの活用が期待されている。
- 既存の解釈可能AI手法では，概念予測におけるサンプル固有の不確実性が考慮されておらず，性能低下や頑健性の問題がある。
- 本研究は，概念予測の不確実性を考慮することで，より信頼性の高い概念選択と臨床的に妥当な意思決定を目指す。
- 提案手法IUAV-IPは，5つの医療画像データセットのうち4つで，解釈可能AI手法として最先端の精度を達成した。
- IUAV-IPは，より少ない概念数で説明を行うことができ，簡潔で情報量の多い説明を生成する。
- これらの成果は，AIの医療分野への安全な導入を促進し，モデルの信頼性を高めることに貢献する。
Link: https://arxiv.org/abs/2506.16742
非定型分裂と正常分裂の分類における深層学習およびビジョンファウンデーションモデルのベンチマーク：クロスデータセット評価 [cs.CL, cs.CV]目的：非定型分裂の自動分類のための深層学習手法の比較
- 腫瘍の悪性度予測において，非定型分裂は重要なバイオマーカーとなる。
- 非定型分裂は発生頻度が低く，形態的特徴が微妙で，病理医間の判断にばらつきがある。
- 転移学習やモデルの微調整により，この課題を効果的に解決することを目指す。
- AMi-Brデータセットにおいて，平均バランスアキュラシーは最大0.8135であった。
- TCGAブレストがんコホート由来のAtNorM-Brデータセットでは0.7788，MIDOG++由来のAtNorM-MDデータセットでは0.7723であった。
- 本研究は，非定型分裂の分類が困難な問題ではあるが，最新の転移学習技術によって有効に解決できることを示す。
Link: https://arxiv.org/abs/2506.21444
ReGATE：MLLMにおけるトークン数を削減した高速かつ高性能な学習 [cs.CV, cs.CL]目的：マルチモーダル大規模言語モデルの学習加速
- 近年のマルチモーダルAIの発展に伴い，大規模言語モデルの重要性が増している。
- マルチモーダル大規模言語モデルの学習コストはトークン数に比例して増加する。
- 学習時のトークン数を削減し，計算コストを抑えつつ高性能を維持すること。
- ReGATEは，教師モデルの指導損失と学生モデルの難易度推定値に基づき，重要なトークンを選択的に処理することで学習を高速化する。
- MVBenchにおいて，標準的な学習と同等の精度を最大2倍の速度で達成し，使用トークン数を38%削減することに成功した。
- さらに学習を続けることで，複数のマルチモーダルベンチマークでベースラインを上回り，総トークン使用量を41%以上削減した。
Link: https://arxiv.org/abs/2507.21420
StreamAgent：ストリーミングビデオ理解のための先行的エージェントへ [cs.CV]目的：ストリーミングビデオ理解における先行的エージェントの実現
- 自動運転や監視など，リアルタイムな映像理解の重要性が増している。
- 従来のオフライン処理では，連続的な知覚と迅速な反応が難しかった。
- タスクに基づいた計画と将来予測による，リアルタイム性と能動的な意思決定を向上させる。
- StreamAgentは，将来のタスク関連情報を含むと予想される時間間隔と空間領域を予測する。
- 質問の意味と過去の観測を統合することで，将来のイベントの進行を予測し，現在の観測と将来の証拠を整合させる。
- ストリーミングKVキャッシュメモリ機構により，効率的な推論とセマンティック検索を実現し，応答精度とリアルタイム効率を向上させた。
Link: https://arxiv.org/abs/2508.01875
リーダーボードを超えて：大規模言語モデルのための医療ベンチマークの再考 [cs.MM, cs.IR, cs.CL, cs.AI, cs.CV, cs.LG, cs.MM]目的：大規模言語モデルの医療分野におけるベンチマーク評価の改善
- 医療分野へのAI活用が期待される中，その性能評価には信頼性の高いベンチマークが不可欠である。
- 既存の医療ベンチマークは，臨床的妥当性，データ管理，安全性評価が不十分な点が課題となっている。
- 既存のベンチマークの問題点を診断し，より標準化された信頼性の高い評価を促すことを目指す。
- 既存の53の医療LLMベンチマークを詳細に評価した結果，臨床実践との乖離，データ汚染リスク，安全性評価の軽視が明らかになった。
- 開発設計からガバナンスまで，ベンチマーク開発の全段階を評価する「MedCheck」フレームワークを開発した。
- MedCheckは，既存ベンチマークの診断ツールとして，また，医療AI評価の標準化を促進するための指針として機能する。
Link: https://arxiv.org/abs/2508.04325
リアルタイム入札広告における生成型ビッドシェーディング [cs.GT, cs.LG]目的：リアルタイム入札広告におけるビッドシェーディングの最適化
- 広告市場において，入札戦略は費用対効果に大きく影響するため，その最適化は重要である。
- 従来のビッドシェーディング手法は，複雑な価値依存性を捉えきれず，段階的なエラーが発生しやすいという課題があった。
- 本研究は，複雑な価値依存性を捉え，長期的な収益を最大化する新たなビッドシェーディング手法を提案する。
- 提案手法であるGBSは，ステップワイズ残差を用いた自己回帰モデルにより，複雑な価値依存性を捉える。
- GBSは，チャンネル認識階層型動的ネットワーク(CHNet)を用いた報酬モデルにより，詳細な特徴を抽出し，短期・長期的な収益を最適化する。
- オフラインおよびオンラインA/Bテストの結果，GBSの有効性が確認され，Meituan DSPプラットフォームに実装された。
Link: https://arxiv.org/abs/2508.06550
ニューラルグローバルイルミネーションのための頂点特徴 [cs.GR, cs.AI]目的：ニューラルレンダリングにおける頂点特徴の表現
- 3Dシーン再構成やニューラルレンダリングは発展が著しい分野であり，高品質な画像生成が求められている。
- 従来のグリッドベースの特徴表現はメモリ消費量が大きく，並列計算のボトルネックとなる。
- メッシュ形状を利用した頂点特徴表現により，メモリ効率と表現力を向上させる。
- 本手法は，従来のグリッドベース表現と比較して，メモリ消費量を大幅に削減できる。
- レンダリング品質を維持しつつ，推論時のオーバーヘッドも低減することが示された。
- 様々なニューラルレンダリングタスクにおいて有効性が確認された。
Link: https://arxiv.org/abs/2508.07852
目標条件付き視覚ナビゲーション指示生成：多Modal推論によるGoViG [cs.CV, cs.AI]目的：目標条件付き視覚ナビゲーション指示生成
- ロボットナビゲーションは，現実世界での自律的な動作に不可欠である。しかし，環境の理解と指示の生成が課題。
- 従来のナビゲーション手法は，構造化された情報に依存しており，未知の環境への適応が困難である。
- 生の視覚データのみを用いて，環境を理解し，適切なナビゲーション指示を生成することを目指す。
- 本研究では，視覚的な中間状態を予測し，それに基づいて指示を生成する二つのサブタスクに分解した。
- 空間的な正確性と言語的な明瞭性を確保するため，多Modal LLMを独自に設計した。
- R2R-Goalデータセットを用いて評価した結果，最先端手法と比較してBLEU-4とCIDErスコアで大幅な改善が確認された。
Link: https://arxiv.org/abs/2508.09547
行動のヒント：汎用的な骨格ベースのビデオ異常検知のための意味的典型性と文脈の独自性 [cs.CV]目的：ビデオ異常検知における意味的典型性と文脈の独自性に基づく行動のヒント
- プライバシー保護や新たな監視システム導入など，実用的な観点から，教師なしでの異常検知が重要視されている。
- 既存手法は低レベルな骨格表現学習に留まり，ドメインに依存した正常性の境界に頼るため，汎化性能が低い。
- 本研究は，骨格データから行動の典型性と独自性を学習することで，未知の環境における異常検知の精度向上を目指す。
- 提案手法は，大規模なビデオ異常検知データセットにおいて，骨格ベースの手法として最先端の結果を達成した。
- 言語モデルの知識を活用し，骨格情報を意味空間に射影することで，正常および異常な行動の典型性を学習する。
- テスト時に文脈の独自性を分析し，シーン適応的な境界を導き出すことで，未知のシーンへの適応能力を高める。
Link: https://arxiv.org/abs/2509.11058
拡散モデルによる効率的な動画超解像のための冗長性削減 [cs.CV]目的：動画超解像のための拡散モデルにおける冗長性削減
- 動画超解像は，映像の品質向上に不可欠であり，様々な応用分野で需要が高まっている。
- 拡散モデルを動画超解像に適用する際，低品質動画が既に多くの情報を保持しているため，冗長性が生じやすい。
- 本研究は，拡散モデルにおける注意機構の専門化によって冗長性を削減し，効率的な動画超解像を実現することを目指す。
- 提案手法OASISは，注意機構の専門化ルーティングにより冗長性を抑制し，事前学習済みの知識を効果的に活用する。
- OASISは，合成データセットと実データセットの両方で最先端の性能を達成した。
- OASISは，SeedVR2などのベースラインと比較して，約6.2倍の推論速度向上を実現した。
Link: https://arxiv.org/abs/2509.23980
具現化された参照理解のためのマルチモーダル深度認識法 [cs.CV, cs.HC, cs.RO]目的：具現化された参照理解における参照対象物検出の精度向上
- ロボットやAIアシスタントが人間との自然なインタラクションを実現する上で重要である。
- 曖昧な状況下では，複数の候補対象物の中から正しいものを特定することが困難である。
- 言語と視覚情報を統合し，曖昧さを解消することで，より正確な参照対象物検出を目指す。
- LLMによるデータ拡張，深度マップ，深度認識モジュールを統合した新しいフレームワークを提案した。
- 提案手法は，複雑な環境下での言語的および具現化された手がかりの統合を強化する。
- 2つのデータセットでの実験により，既存手法を大幅に上回り，より正確な参照対象物検出を達成した。
Link: https://arxiv.org/abs/2510.08278
R2RGen：空間汎化された操作のためのリアル・ツー・リアル3Dデータ生成 [cs.RO, cs.CV]目的：空間汎化されたロボット操作のための3Dデータ生成手法
- ロボットの汎化性能向上には，環境や物体配置の変化に対するロバスト性が不可欠である。
- 十分な学習データを収集するには，多様な空間配置での人間のデモンストレーションが必要となる。
- 少ないデモンストレーションから多様なデータを生成し，汎化性能を高めることを目指す。
- 提案手法R2RGenは，シミュレーターやレンダリングを使用せず，効率的にリアルな3Dデータを生成する。
- R2RGenは，シーン・軌跡解析とグループワイズバックトラッキング戦略を用いて，データを効果的に拡張する。
- カメラを意識したポストプロセスにより，生成データの分布を現実世界の3Dセンサーデータに適合させる。
Link: https://arxiv.org/abs/2510.08547
マルチモーダル関係知識画像の構造的・抽象的推論 [cs.CV, cs.CL]目的：マルチモーダル関係知識(MMRK)を用いた構造的・抽象的推論(STAR)のためのデータセットと能力向上フレームワーク
- 視覚情報からの抽象的な情報の理解は，大規模マルチモーダル言語モデル(MLLM)にとって重要な課題である。
- マルチモーダルエンティティ間の抽象的な関係構造を表現するMMRKは，十分に研究されていない。
- 高品質なデータと能力向上手法の不足を解消し，STARタスクの性能向上を目指す。
- 本研究では，MMRKを用いて画像を合成し，STARタスクのためのマルチモーダル命令データセットSTAR-64Kを構築した。
- 提示する二段階の能力向上フレームワークにより，3B/7BモデルはGPT-4oを上回る性能を示した。
- 様々な設計，データの転移可能性，スケーラビリティに関する詳細な分析も提供する。
Link: https://arxiv.org/abs/2510.21828
SkyReels-Text：ポスターデザインのためのきめ細かいフォント制御可能なテキスト編集 [cs.RO, cs.CV]目的：ポスターデザインにおけるテキスト編集の精度向上
- デザイン分野において，視覚的な調和を保ちつつテキストを迅速かつ正確に修正するニーズは高い。
- 既存の画像編集モデルは，フォントを意識したきめ細かいテキスト操作において限界がある。
- 多様なフォントスタイルに対応し，専門的なワークフローでの利用を可能とするテキスト編集手法を開発する。
- SkyReels-Textは，異なるフォントスタイルでレンダリングされた複数のテキスト領域を同時に編集可能である。
- フォントラベルやテスト時のファインチューニングを必要とせず，希望するタイポグラフィに対応するグリフパッチのみで制御可能である。
- 複数のベンチマークにおいて，テキストの忠実性と視覚的なリアリズムの両方で最先端の性能を達成した。
Link: https://arxiv.org/abs/2511.13285
見るべき場所をモデルに示す：視覚誘導注意によるMLLMの幻覚軽減 [cs.RO, cs.CV]目的：MLLMにおける幻覚軽減
- MLLMは画像とテキストを理解する重要な技術であり，その応用範囲は広い。
- MLLMは視覚情報の解釈に限界があり，誤った情報を生成する幻覚が発生しやすい。
- 視覚的な手がかりを用いて注意を誘導し，幻覚を抑制することで精度向上を目指す。
- 提案手法VGAは，視覚トークンの意味内容を利用して正確な視覚的根拠を構築し，モデルの注意を関連する領域に誘導する。
- 画像キャプション生成においては，VGAは既に記述された領域を抑制することで，動的にこの誘導を洗練させる。
- VGAは様々なMLLMと幻覚ベンチマークにおいて最先端の性能を達成し，視覚誘導の重要性を裏付けている。
Link: https://arxiv.org/abs/2511.20032
Inferix：ワールドシミュレーションのためのブロック拡散ベース次世代推論エンジン [cs.CV, cs.AI]目的：ワールドシミュレーションにおける高品質な動画生成の効率化
- エージェントAI，ロボティクス，ゲーム等の分野で，現実的かつインタラクティブなシミュレーションが重要である。
- 既存の動画生成モデルは，計算コストが高く，長時間の高品質な動画生成が困難である。
- ブロック拡散法とLLMキャッシュ管理を組み合わせた推論エンジンInferixを開発し，効率的な動画生成を目指す。
- Inferixは，ブロック拡散法に基づく半自己回帰デコーディングを最適化することで，ワールドシミュレーションの効率を向上させる。
- リアルタイムインタラクションと正確な世界ダイナミクスのモデル化を実現するインタラクティブ動画ストリーミングとプロファイリング機能を搭載している。
- LV-Benchとの統合により，長尺動画生成の評価を可能にする効率的なベンチマーク環境を提供する。
Link: https://arxiv.org/abs/2511.20714
太陽観測記録に対するコントラストヘリオフィジカル画像事前学習 [cs.CV]目的：太陽観測データの画像解析における汎用的な特徴抽出器の開発
- 太陽活動の理解は，宇宙天気予報や地球環境への影響評価に不可欠である。
- 太陽観測画像は，多様な機器で取得され，ノイズが多く，特徴の抽出が困難である。
- 太陽観測データの特性に適した事前学習により，限られたデータでも高精度な解析を実現する。
- SolarCHIPは，AIAとHMIのマルチモーダルデータに対応し，時間的・空間的な特徴を効果的に捉える。
- 事前学習されたモデルは，クロスモーダル変換やフレア分類において，最先端の性能を達成した。
- 学習済み重みとコードの公開により，太陽物理学コミュニティにおける研究開発を促進する。
Link: https://arxiv.org/abs/2511.22958
価値に基づいた反復的な改良と，VLMの頑健性を評価するためのDIQ-Hベンチマーク [cs.CV, cs.AI]目的：VLMの頑健性評価
- ロボティクス等，具現化されたAIと安全性が重要な応用において，VLMは不可欠である。
- 既存のベンチマークは，実世界の摂動や時間経過に伴う不整合の影響を考慮していない。
- 悪条件下のVLMの持続的な誤りや価値のずれを評価し，安全性を評価する。
- DIQ-Hベンチマークは，連続的なシーケンスにおけるVLMの頑健性を評価する。
- 価値に基づいた反復的な改良（VGIR）フレームワークは，アノテーションの精度を向上させる。
- DIQ-HとVGIRは，エラー回復，倫理的一貫性，時間的価値整合性の脆弱性を明らかにする。
Link: https://arxiv.org/abs/2512.03992
GNC-Pose：幾何学に基づいたGNC-PnPによる高精度6D姿勢推定 [cs.CV]目的：テクスチャのある物体の6D姿勢推定
- ロボティクスやコンピュータビジョンにおいて，物体の姿勢推定は重要な役割を担う。
- 従来の姿勢推定手法は，外れ値に弱く，ロバスト性に課題がある。
- 幾何学的構造の一貫性を考慮することで，外れ値の影響を軽減し，推定精度を向上させる。
- GNC-Poseは，学習を一切使用せずに，高精度な6D姿勢推定を実現した。
- 特徴点マッチングとレンダリングに基づく初期化，幾何学に基づいた対応付け重み付け，ロバストなGNC最適化を組み合わせる。
- YCBオブジェクトデータセットにおいて，学習ベースの手法と同等の精度を達成した。
Link: https://arxiv.org/abs/2512.06565
Consist-Retinex: 一段階ノイズ強調一貫性学習による高品質レティネックス強化の高速化 [cs.CV, cs.AI]目的：高品質なレティネックス強化の高速化
- 低照度画像処理は，監視や自動運転など幅広い分野で重要性が高まっている。
- 既存の生成モデルは，反復サンプリングに依存し，リアルタイム処理が困難な場合がある。
- 一段階推論における不安定性を解消し，効率的な強化手法を確立すること。
- Consist-Retinexは，レティネックス分解ネットワークと二つの条件付き一貫性モデルを活用する。
- 二重目的関数と適応的ノイズ強調固定点サンプリングにより，一貫性と成分整合性を同時に最適化する。
- VE-LOL-Lベンチマークにおいて，既存手法を上回る性能を達成し，計算コストを削減した。
Link: https://arxiv.org/abs/2512.08982
StereoSpace：カノニカル空間におけるEnd-to-End拡散によるステレオ幾何合成 [cs.FL, cs.CY, cs.HC, cs.CV]目的：単眼画像からのステレオ合成手法
- コンピュータビジョン分野において，ステレオ視覚は奥行き知覚やシーン理解に不可欠である。
- 既存手法は，多くの場合，深度推定やワープに依存しており，計算コストが高く，精度が低い場合がある。
- 本研究は，深度推定やワープを用いない，効率的かつ高精度なステレオ合成を可能とする。
- StereoSpaceは，ビューポイント条件付けにより幾何学をモデル化し，高品質なステレオ画像を生成する。
- 提案手法は，既存のwarp & inpaint，latent-warping，warped-conditioning系の手法を上回る性能を示す。
- 特に，レイヤー構造や非ランバート反射を持つシーンにおいて，頑健性が高いことが確認された。
Link: https://arxiv.org/abs/2512.10959
効率的なゼロショットインペインティングのための，分離された拡散ガイダンス [cs.CV, cs.LG]目的：画像インペインティングにおける効率的なゼロショット手法
- 画像編集技術は，現実世界の応用において重要であり，特にインペインティングは画像復元の基礎となる。
- 既存のゼロショット手法は計算コストが高く，メモリ消費量が大きいという課題があった。
- 拡散モデルの効率的な活用により，計算コストを削減し，高性能なインペインティングを実現すること。
- 提案手法は，従来のファインチューニングされたベースラインと比較して，観測の一貫性を高く維持できる。
- ガウス分布の事後遷移を効率的にサンプリングすることで，逆伝播の必要性を回避し，推論コストを大幅に削減する。
- 高品質で一貫性のある再構成画像を生成するとともに，計算効率の向上を達成した。
Link: https://arxiv.org/abs/2512.18365
悪魔は詳細に宿る：キーフレーム駆動による詳細注入によるビデオバーチャル試着の強化 [cs.CV]目的：ビデオバーチャル試着のリアリティ向上
- 近年のファッション分野において，オンライン試着技術の需要が高まっている。
- 既存手法では，衣服の微細な動きや背景の一貫性を維持することが困難である。
- キーフレームを活用し，衣服と背景の詳細を効率的に改善することを目指す。
- 提案手法KeyTailorは，キーフレーム駆動による詳細注入戦略により，衣服の動きと背景の一貫性を高める。
- KeyTailorはDiTアーキテクチャを修正せず，高画質のビデオ生成を可能にする。
- 大規模高解像度データセットViT-HDの構築により，モデルの汎化性能と学習効率を向上させた。
Link: https://arxiv.org/abs/2512.20340
Omni2Sound：統一的な動画・テキストから音声生成に向けて [cs.SD, cs.CV, cs.MM]目的：動画・テキスト・音声の生成統合モデルの実現
- 動画と音声を組み合わせたコンテンツ生成の需要が高まっており，その基盤技術として重要である。
- 高品質な動画・音声・テキストの対応データが不足しており，生成モデルの性能向上を阻害している。
- 動画，テキスト，それらの組み合わせから高品質な音声を生成するための新しい手法を開発する。
- 大規模データセットSoundAtlasを構築し，既存のデータセットや専門家よりも高品質なキャプションを生成できることを示した。
- Omni2Soundと呼ばれる統一VT2A拡散モデルを提案し，クロス・タスク競合とモダリティバイアスを解消した。
- VGGSound-Omniという包括的な評価ベンチマークを構築し，様々な条件下で最先端の性能を達成した。
Link: https://arxiv.org/abs/2601.02731
知覚テスト2025：課題概要と統一VQA拡張 [cs.CV]目的：最先端のビデオモデルのベンチマークとマルチモーダル知覚の進捗測定
- コンピュータビジョンの発展において，多様な知覚タスクへの対応能力の評価が重要である。
- 既存のモデルは，特定のタスクに特化したパイプラインに依存しており，汎用性に欠ける。
- 多様な知覚タスクを統一的なインターフェースで処理できるモデルの課題を明らかにする。
- 知覚テスト2025では，統一的なビデオQA，オブジェクトとポイントトラッキング，行動と音の局在化など，5つの統合されたトラックが実施された。
- ビデオと言語モデルがネイティブに対処できるマルチチョイスのビデオQA問題として，従来の知覚タスクを再構築する新しいサブセットが導入された。
- 統一的なアプローチの使用が求められ，タスク固有のモデルを用いた従来のパイプラインの限界が浮き彫りになった。
Link: https://arxiv.org/abs/2601.06287
ChartVerse：最初から信頼性の高いプログラム合成によるチャート推論のスケール化 [cs.CL, cs.CV]目的：複雑なチャートと信頼性の高い推論データの合成フレームワーク
- ビジョン言語モデルにおいて，チャート推論能力は重要である。その発展には高品質な学習データが不可欠である。
- 既存のデータセットは，単純で反復的なチャートや，誤った情報を含む浅い推論のQAペアに課題がある。
- チャートの複雑度を考慮した合成と，根拠のある厳密なQAペアの生成によるデータセットの改善を目指す。
- ChartVerseは，チャートの複雑度を定量化する新しい指標RPEを導入し，多様で複雑なチャートを自動生成する。
- 正解をコードから直接抽出し，それに基づいて質問を生成する逆QA合成により，推論の厳密性を保証する。
- ChartVerse-8Bは最先端の性能を達成し，教師モデルや他の強力なモデルを上回る結果を示した。
Link: https://arxiv.org/abs/2601.13606
一瞥または凝視：強化学習によるLMMの適応的な検索焦点の誘導 [cs.CV, cs.AI]目的：LMMの適応的な検索焦点の誘導
- 大規模マルチモーダルモデルの活用は，視覚理解において目覚ましい進歩をもたらしている。
- 既存の検索拡張型手法は，画像全体の無差別な検索に依存し，ノイズが多く効率が悪い。
- 複雑な視覚クエリに対する効果を高めるため，関連性の低い情報をフィルタリングする手法が求められている。
- 提案手法「Glance-or-Gaze」は，全自動でグローバルなコンテキストの一瞥と高価値領域への凝視を動的に選択する。
- 二段階の訓練戦略により，基本的なGoGパラダイムを習得し，複雑なクエリに対する反復推論能力を強化する。
- 6つのベンチマークにおいて最先端の性能を示し，選択的凝視と適応型強化学習の重要性を実証した。
Link: https://arxiv.org/abs/2601.13942
自動ボーカルモード分類のためのデータセット [cs.IR, cs.CL, cs.SD, cs.LG]目的：ボーカルモードの自動分類
- 歌唱指導において，適切なボーカルモードの知識は重要であり，技術支援による指導への応用が期待される。
- 既存研究では，データ不足により，ボーカルモードの自動分類は十分な成果を上げていない。
- 本研究は，十分なサイズのデータセットを提供することで，ボーカルモードの自動分類の精度向上を目指す。
- 4名の歌者（うち3名は5年以上のCVT経験を持つプロの歌者）から，持続母音を収録した新規データセットを構築した。
- データセットは合計3,752個のユニークなサンプルと，4つのマイクを使用した自然なデータ拡張により13,000個以上のサンプルを含む。
- ResNet18を用いた5分割交差検証で，81.3%の平衡精度を達成し，データセットの有効性を示した。
Link: https://arxiv.org/abs/2601.18339
3次元ラジオマップ構築のための統一された放射場による視覚と無線センシングの架け橋 [cs.NI, cs.AI, cs.CV, cs.LG]目的：3次元ラジオマップの構築
- 次世代無線ネットワークの発展には，環境の高度な知能が不可欠である。
- 従来の技術では，視覚情報と無線情報を独立したモダリティとして扱っている。
- 電磁波伝搬の原理を共有する視覚情報と無線情報の統合を目指す。
- 提案手法URF-GSは，3次元ガウススプラッティングと逆レンダリングに基づき，高精度な空間スペクトル精度を実現した。
- NeRFベースの手法と比較して，空間スペクトル精度が最大24.7%向上，サンプル効率が10倍となった。
- Wi-Fi AP配置やロボットの経路計画への応用を示し，包括的な放射場モデリングを可能にする。
Link: https://arxiv.org/abs/2601.19216
ELIQ：進化するAI生成画像の品質評価のためのラベルフリーフレームワーク [cs.CV, cs.AI, cs.MM]目的：AI生成画像の品質評価手法
- AI画像生成技術は急速に進歩しており，その品質評価は重要性を増している。
- 既存のラベルデータは，生成モデルの進化により陳腐化しやすく，品質評価の精度低下を招く。
- ラベルを用いずに，AI生成画像の品質を評価する新しい手法を開発し，継続的な進化に対応すること。
- ELIQは，人間によるアノテーションなしに，視覚品質とプロンプト-画像の一致性を自動的に評価する。
- ELIQは既存のラベルフリー手法を上回り，AI生成画像からユーザー生成画像への汎化性能を示す。
- 継続的に進化する生成モデル下での，スケーラブルでラベルフリーな品質評価の道を開く。
Link: https://arxiv.org/abs/2602.03558
リモートセンシング画像における基盤モデル駆動型意味変化検出 [cs.CC, cs.FL, cs.CL, cs.DL, cs.CV]目的：リモートセンシング画像の意味変化検出手法の開発
- 地表面の動的変化の解釈に不可欠であり，都市計画や環境モニタリング等，多岐にわたる応用が期待される。
- 撮影条件の変化による擬似的な変化が検出しやすく，高精度な変化検出が困難であるという課題が存在する。
- 基盤モデルを活用し，撮影条件に左右されないロバストな意味変化検出を実現し，その精度向上を目指す。
- 提案手法PerASCDは，SECONDとLandsatSCDデータセットにおいて，既存の最先端手法を大幅に上回るSekスコアを達成した。
- データ効率にも優れ，全データを用いた場合と同等の性能を50%のデータ量で実現できることが示された。
- 異なる基盤モデルへの汎化性能が高く，放射変動下でも安定した意味的一貫性を維持する信頼性の高い変化検出が可能である。
Link: https://arxiv.org/abs/2602.13780
予算制約下における近似メカニズムの性能評価 [cs.GT]目的：予算制約下での収益最大化メカニズムの性能
- メカニズムデザインは，効率的な資源配分やインセンティブ設計に不可欠である。
- 個々の予算が非公開の場合，最適なメカニズムの特性付けが困難である。
- 近似メカニズムの性能限界を明らかにし，実用的なメカニズム設計の指針とする。
- 支持が有界な分布においては，単純なメカニズムでも最適な収益を任意に近似できる。
- 支持が無限大の分布や単位正方形に集中した分布では，有限メニューメカニズムは正の収益保証を持たない。
- 負の相関下では，特定の緩和によって収益が大きく向上する可能性がある。
Link: https://arxiv.org/abs/2602.14120
視覚に基づく全方向ナビゲーション学習：単眼深度推定を用いた教師・生徒アプローチ [cs.RO, cs.CV, cs.LG]目的：視覚に基づく全方向ナビゲーションの学習
- 産業環境における安全な移動ロボットの自律走行は重要であり，３次元環境理解が不可欠である。
- 従来の２次元LiDARセンサーでは，環境の垂直方向の情報を捉えきれず，障害物回避に課題があった。
- LiDARセンサーを用いずに，単眼深度推定と教師学習によってロバストなナビゲーションを実現することを目指す。
- シミュレーション実験では，生徒ポリシーは教師ポリシー（2D LiDAR）を凌駕し，82-96.5%の成功率を達成した。
- 実環境実験では，複雑な3D形状の障害物（張り出し構造や低姿勢物体）回避において，生徒ポリシーが教師ポリシーを上回った。
- 本手法は，NVIDIA Jetson Orin AGXに搭載され，外部計算なしにリアルタイム推論が可能である。
Link: https://arxiv.org/abs/2603.01999