arXiv雑要約

画像・音声 - 2026/04/20 公開

YOLOv26を用いた歯科パノラマX線写真解析：歯検出から疾患診断へ [eess.SY, cs.SY, cs.CV]目的：歯科パノラマX線写真における歯の検出，FDIに基づく番号付け，および歯科疾患のセグメンテーションの自動化
- 歯科診療において，パノラマX線写真は広範囲な歯列を低被ばくで確認できる重要な診断ツールである。
- 手作業によるX線写真の解釈は時間がかかり，特に多忙な診療環境では誤りが生じやすいという課題がある。
- 本研究は，効率的な自動解析手法を提供し，診断の迅速化と精度向上を目指している。
- YOLOv26m-segモデルは歯の検出において，適合率0.976，再現率0.970，box mAP50 0.976を達成した。
- 同モデルは，ベースラインであるYOLOv8xと比較して，適合率が4.9%，mAP50が3.3%向上し，高品質なマスクレベルセグメンテーションも実現した（mask mAP50 = 0.970）。
- 疾患セグメンテーションでは，YOLOv26l-segモデルがbox mAP50 0.591，mask mAP50 0.547を達成し，埋伏歯の検出精度が最も高かった。
Link: https://arxiv.org/abs/2604.16231
試験中の不正行為を検知する，物体中心の二段階深層学習フレームワーク [cs.CV, cs.AI]目的：試験中の不正行為検知
- 学術的誠実性の維持は重要であり，試験における不正行為の防止は教育機関にとって不可欠である。
- 従来の監視方法は非効率でコストがかかり，大規模な環境では誤りが起こりやすいという課題がある。
- 本研究は，透明性と効率性を両立した，不正行為の検知手法を開発し，教育現場での導入を目指す。
- 提案手法は，YOLOv8nとRexNet-150を組み合わせた二段階フレームワークであり，高い精度と効率性を実現した。
- データセットを用いた実験の結果，正解率95％，再現率94％，適合率96％，F1スコア95％を達成し，既存手法を13％上回った。
- 平均推論時間が13.9msと高速であり，大規模環境への展開に適している。また，結果を個別に通知することで倫理的な懸念にも配慮した。
Link: https://arxiv.org/abs/2604.16234
衝突予測のための disentanglement を用いた階層型マルチスケールビデオ表現学習：CollideNet [cs.CV]目的：衝突時間予測の精度向上
- 自動運転やロボティクスにおいて，衝突回避は安全性を確保する上で極めて重要である。
- 既存手法では，ビデオ内の空間的・時間的なマルチスケールな情報を効果的に捉えることが困難である。
- ビデオの空間的・時間的な特徴を階層的に捉え，非定常性，トレンド，季節性を分離することで，予測精度を向上させる。
- 提案手法CollideNetは，複数の公開データセットで既存の最先端手法を大幅に上回る性能を達成した。
- 異なるデータセット間での評価により，提案手法の汎化性能が確認された。
- トレンドと季節性の分離が，ビデオデータの衝突時間予測に及ぼす影響が可視化された。
Link: https://arxiv.org/abs/2604.16240
発見，修正，推論：ビデオ推論のための文脈修復 [cs.CV]目的：ビデオ推論における文脈修復手法
- ビデオ理解はAIの重要な課題であり，様々な応用分野への発展が期待されている。
- 既存手法は，探索の停滞や事前学習の必要性，モデル能力の限界といった問題を抱えている。
- 大規模モデルの能力を活用し，効率的な文脈修復による推論性能の向上を目指す。
- 教師モデルが欠落した時空間依存性を特定し，証拠となる最小限のパッチを学生モデルに提供する。
- Robust Improvement Reward（RIR）を用いることで，正答率と根拠の整合性を両立した最適化を実現する。
- 様々なベンチマークで，文脈修復が推論精度と汎化性能の向上に貢献することが示された。
Link: https://arxiv.org/abs/2604.16243
Vision-Languageモデルの失敗点：画像地理位置特定に関する世界規模分析 [cs.CV]目的：画像地理位置特定におけるVision-Languageモデルの性能評価
- 地理情報に基づいた画像理解は，ロボット工学や自動運転などの応用において不可欠である。
- 既存手法は画像照合やGPS情報に依存し，汎用的な地理的推論能力が課題であった。
- Vision-Languageモデルの地理的推論能力を評価し，その限界と可能性を明らかにすること。
- 最先端のVision-Languageモデルの性能に大きなばらつきが確認された。
- 意味的推論は粗い地理位置特定には有効だが，詳細な地理的特徴の把握には限界があることが示された。
- マルチモーダル推論と地理的理解を結びつけるための基礎となる比較研究を提供する。
Link: https://arxiv.org/abs/2604.16248
ArtifactNet：フォレンジック残留物理学によるAI生成音楽の検出 [cs.SD, eess.AS]目的：AI生成音楽の検出
- AIによる音楽生成技術の進歩は，著作権侵害や音楽の信頼性に関わる問題を生じさせている。
- 既存のAI生成音楽検出手法は，汎用性に欠け，異なるコーデックへの適応が困難である。
- 本研究は，コーデックレベルのアーティファクトを直接抽出することで，より汎用的なAI生成音楽検出を実現する。
- ArtifactNetは，AI生成音楽を検出するために，フォレンジック残留物理学という新たなアプローチを採用した。
- 評価ベンチマークArtifactBenchにおいて，F1スコア0.9829，FPR1.49%を達成し，既存手法を大きく上回った。
- コーデックを意識した学習により，コーデック間の確率ドリフトを大幅に削減し，汎化性能を向上させた。
Link: https://arxiv.org/abs/2604.16254
視覚言語モデルは本当に視覚的推論を行うのか：モダリティギャップの厳密な研究 [cs.CV, cs.CL]目的：視覚言語モデルにおけるモダリティギャップの検証
- 近年，多様なタスクに応用可能な視覚と言語を組み合わせたモデルの研究が盛んである。
- 現在のモデルが高い性能を示す要因が，視覚情報に基づいた推論によるものか不明である。
- テキストのみ，画像のみ，両方の入力形式で比較し，視覚情報の貢献度を明確にすること。
- 最先端の視覚言語モデルの評価により，テキストのみの入力の方が，画像とテキストを組み合わせた場合よりも高い性能を示すことが明らかになった。
- 現在の視覚言語モデルは，テキスト空間で主に推論を行い，視覚的証拠への依存が限定的であることが示唆された。
- CrossMathデータセットを用いたファインチューニングにより，全てのモダリティにおける推論性能が向上し，汎化性能も向上した。
Link: https://arxiv.org/abs/2604.16256
ビジョン言語モデルにおけるモダリティ優位性の軽減のための情報ルーター [cs.CL, cs.RO, cs.CV, cs.LG]目的：ビジョン言語モデルにおけるモダリティ優位性の軽減
- 近年，画像とテキストを扱うモデルの性能が向上しているが，特定のモダリティに偏る問題が存在する。
- 既存手法は注意機構の調整に焦点を当てており，情報不足や曖昧さへの対応が不十分である。
- 異なるモダリティの情報密度を考慮し，情報格差を解消することでモダリティ優位性を軽減する。
- 提案手法MoIRは，情報量の少ないトークンに対し，より信頼性の高いモダリティからの情報を補完する。
- 実験の結果，MoIRはモダリティ間の貢献度を均衡化させ，ロバスト性と性能向上に貢献することが示された。
- 特に，あるモダリティが劣化した場合でも，MoIRは優れた効果を発揮する。
Link: https://arxiv.org/abs/2604.16264
Hero-Mamba：水中画像強調のためのMambaベース二重領域学習 [cs.CV]目的：水中画像強調のための新たなネットワークアーキテクチャ
- 水中画像は水による光の吸収・散乱で劣化しやすく，水中環境の観察や研究を困難にする。
- 既存のCNNは長距離依存性のモデリングが苦手，Transformerは計算量が膨大で高解像度画像処理に向かない。
- Mambaベースのネットワークを用いて，効率的かつ高精度な水中画像強調を実現する。
- 提案手法Hero-Mambaは，RGB画像とFFT成分の二重領域学習により，劣化要因の分離と効率的な処理を可能にする。
- MambaベースのSS2Dブロックを用いることで，CNNやTransformerの課題を克服し，長距離依存性を線形時間で捉える。
- LSUIデータセットにおいて，PSNR25.802，SSIM0.913を達成し，最先端手法を凌駕する性能を示す。
Link: https://arxiv.org/abs/2604.16266
VEFX-Bench：汎用的な動画編集と視覚効果の包括的ベンチマーク [cs.CV, cs.AI, cs.CL]目的：動画編集と視覚効果の性能評価のためのデータセットと報酬モデル
- AIによる動画作成が普及し，プロレベルの編集ニーズが高まっている。
- 大規模な編集データセットや編集品質を評価する標準的な指標が不足している。
- 動画編集の品質評価を自動化し，編集システムの性能を客観的に比較すること。
- VEFX-Datasetは，9つの主要な編集カテゴリと32のサブカテゴリにわたる5,049の動画編集例を含む大規模なアノテーションデータセットである。
- VEFX-Rewardは，動画編集の品質評価に特化した報酬モデルであり，人間の判断とより強く一致することが示された。
- VEFX-Benchは，300の厳選された動画プロンプトペアからなるベンチマークであり，現在のモデルには，視覚的な妥当性，指示への追従，編集の局所性の間にギャップがあることが明らかになった。
Link: https://arxiv.org/abs/2604.16272
かすんだ野生動物画像の改善：AnimalHaze3kとIncepDehazeGan [cs.CV]目的：野生動物画像の可視化改善
- 野生動物の保護活動において，画像解析技術は個体数調査や行動分析に不可欠である。
- 大気汚染などにより，野生動物の画像がかすみ，解析精度が低下する問題がある。
- 野生動物画像特有のかすみを除去し，画像解析の精度向上を目指す。
- 新たに構築した合成データセットAnimalHaze3kを用いて，画像のかすみ除去モデルIncepDehazeGanを開発した。
- IncepDehazeGanは，既存手法と比較して，SSIM，PSNR，LPIPSにおいて優れた性能を示した。
- かすみ除去後の画像は，物体検出タスクにおいて，YOLOv11のmAPとIoUを大幅に改善した。
Link: https://arxiv.org/abs/2604.16284
ナイジャS2ST：低リソース・ナイジェリア言語における音声対音声翻訳のための多アクセントベンチマーク [cs.SD]目的：低リソース・ナイジェリア言語における音声対音声翻訳のためのベンチマークデータセット
- 音声翻訳はグローバルコミュニケーションを促進する鍵であり，多様な言語への対応が急務である。
- 低リソース言語では，高品質な並行音声データが不足しており，翻訳性能のボトルネックとなっている。
- ナイジェリア言語の音声対音声翻訳の進展を促すためのデータセットと評価基準を提供する。
- NaijaS2STは，イボ語，ハウサ語，ヨルバ語，ナイジェリア・ピジンと英語の音声データ約50時間を含む。
- Few-shot学習を用いたAudioLLMは，ファインチューニングされたモデルより音声テキスト翻訳で優れていた。
- 音声対音声翻訳では，カスケード方式とAudioLLMが同程度の性能を示し，課題が残る。
Link: https://arxiv.org/abs/2604.16287
FineCog-Nav：ゼロショットマルチモーダルUAVナビゲーションのためのファイングレイン認知モジュール統合 [cs.CV, cs.RO]目的：ゼロショットマルチモーダルUAVナビゲーションにおける性能向上
- UAVは危険な場所や広大な場所での移動を可能にするため，自動ナビゲーション技術の重要性が高い。
- 既存のゼロショットVLN手法は，大規模モデルへの依存やモジュール間の連携不足が課題となっている。
- 人間の認知構造に着想を得たモジュール化により，複雑なナビゲーションタスクの解決を目指す。
- FineCog-Navは，言語処理，知覚，注意，記憶，推論など，ファイングレインな認知モジュールを統合したフレームワークである。
- 提案手法は，指示への追従性，長距離計画能力，未知環境への汎化性能において，既存のゼロショットベースラインを上回る結果を示した。
- この結果は，ファイングレインな認知モジュール化がゼロショット空中ナビゲーションに有効であることを示唆している。
Link: https://arxiv.org/abs/2604.16298
3D生成モデルの再利用による自己回帰的レイアウト生成 [cs.CV]目的：3Dレイアウト生成のためのフレームワーク
- 現実世界を再現する3D環境構築において，物体配置は重要な要素である。
- 既存手法はテキストからの推論に依存し，直接3D空間で幾何学的関係をモデル化できていない。
- 3D生成モデルを再利用し，物理的制約を考慮した高精度なレイアウト生成を目指す。
- LaviGenは，既存最先端手法と比較して物理的整合性が19%向上した。
- LaviGenは自己回帰的プロセスにより，一貫性のある物理的に妥当な3Dシーンを生成する。
- 計算速度が65%向上し，効率的なレイアウト生成を実現した。
Link: https://arxiv.org/abs/2604.16299
捉えがたいものを見る：高水準および抽象的カテゴリへの画像分類の調査 [cs.CV, cs.AI, cs.CL, cs.CY]目的：高水準の視覚的理解に関する研究の体系的レビュー
- コンピュータビジョンは高度な知覚タスクへと移行しており，その本質を理解することは重要である。
- 高水準の視覚的理解の定義が曖昧であり，研究分野間の連携が不足している。
- 抽象的概念に基づく画像分類における課題と機会を明らかにすること。
- 本調査では，常識，感情，美学など，高水準の意味論を明確なクラスターに分類した。
- 大規模データセットの限界と，補完情報や中レベル特徴の統合の重要性が示唆された。
- 抽象的概念に基づく画像分類タスクにおいて，ハイブリッドAIシステムの重要性が強調された。
Link: https://arxiv.org/abs/2308.10562
相対フロー：ノイズ参照による医用画像ノイズ除去学習の制御 [eess.IV, cs.AI, cs.CV]目的：医用画像ノイズ除去における性能向上
- 医用画像は診断精度に不可欠だが，ノイズの影響を受けやすい。
- 既存手法はノイズを含む参照画像をクリーンな目標と誤認し，性能が制限される。
- 本研究は，多様なノイズ参照から学習し，高品質な画像へ誘導する手法を提案する。
- RelativeFlowは，ノイズの絶対的な除去ではなく，相対的なノイズ除去に焦点を当てることで，学習の安定化を図る。
- 一貫した輸送(CoT)とシミュレーションに基づく速度場(SVF)により，様々な医用画像モダリティに対応したノイズ除去を実現する。
- CTおよびMR画像に対する実験により，RelativeFlowが既存手法を大幅に上回り，ノイズ参照下での医用画像ノイズ除去性能を向上させることが示された。
Link: https://arxiv.org/abs/2604.15459
CTスキャン評価における情報漏洩：胸部CTセグメンテーションと再現可能な患者分離ベンチマーク [eess.IV, cs.CV]目的：胸部CTセグメンテーションにおける患者分離評価の重要性を示すこと。
- 医学画像解析において，正確な診断と治療計画のために高品質なセグメンテーションが不可欠である。
- 既存の研究では，同一患者の画像データが訓練データとテストデータに混入し，性能評価が過大評価される問題がある。
- 患者分離された厳密な評価環境を構築し，より信頼性の高いセグメンテーション性能を測定することを目的とする。
- 胸部CTセグメンテーションの性能は，スライス混合評価と患者分離評価で大きく異なり，分離評価で大幅に低下することが示された。
- スライス混合評価ではDice係数が0.6665，IoUが0.5031であったのに対し，患者分離評価ではそれぞれ0.2066と0.1181に低下した。
- この研究で公開されたCTSCANベンチマークは，患者分離評価を可能にする再現性のある環境を提供する。
Link: https://arxiv.org/abs/2604.15561
トポロジー駆動型nnU-NetとMedNeXtの融合による，サブサハラアフリカデータセットにおける正確な脳腫瘍セグメンテーション [eess.IV, cs.CV, cs.LG]目的：サブサハラアフリカデータセットにおける正確な脳腫瘍セグメンテーションの実現
- 低・中所得国における医療資源の制約下での，高精度な画像診断技術の重要性が高まっている。
- 統一された画像プロトコルや高品質なMRI装置の不足により，脳腫瘍セグメンテーションの精度が低い。
- トポロジー解析を用いてセグメンテーションモデルを改善し，低品質なMRI画像でも高精度な結果を得る。
- 提案手法では，トポロジー改善モジュールを導入することで，予測時の変形問題を軽減することに成功した。
- SNFH，NETC，ETそれぞれのNormalized Surface Distanceにおいて，0.810，0.829，0.895という良好な結果が得られた。
- BraTS 2025データセットを用いた事前学習と，BraTS-Africaデータセットでのファインチューニングが効果的であった。
Link: https://arxiv.org/abs/2604.15964
二重モダリティ肺がんAI：臨床リスク統合による解釈可能な放射線画像と顕微鏡検査 [eess.IV, cs.AI, cs.CV]目的：肺がんの診断とサブタイプ分類のための二重モダリティ人工知能フレームワーク
- 肺がんは依然として世界的な癌による死亡原因の主要な一つであり，早期発見と正確な診断が重要である。
- 従来のCT画像は，良性病変と悪性病変の区別が難しく，診断根拠の解釈が困難な場合がある。
- 放射線画像と組織病理画像を統合し，解釈可能なAIを提供することで診断精度向上を目指す。
- 提案されたAIフレームワークは，高い精度（最大0.87），AUROC（0.97以上），マクロF1スコア（0.88）を示した。
- Grad-CAM++は，最も高い忠実度と局在化精度を示し，専門家のアノテーションと高い一致性が見られた。
- 放射線画像と組織病理画像のマルチモーダル融合が，診断性能の向上とモデルの透明性維持に貢献することが示唆された。
Link: https://arxiv.org/abs/2604.16104
エリプソグラフィ：偏光干渉整形による単一ショットスペックルフリーホログラフィ [physics.optics, cs.GR]目的：ホログラフィックディスプレイにおけるスペックルノイズの抑制
- ホログラフィックディスプレイは，没入感のある3D映像を実現する究極の表示技術と期待されている。
- コヒーレント光の干渉によるスペックルノイズが，画質向上の大きな障壁となっている。
- 偏光と位相の同時変調により，スペックルノイズを原理的に抑制する手法を開発する。
- エリプソグラフィは，従来のホログラムを100万回平均した同等の画質を，単一フレームで実現する。
- 実機プロトタイプによる実験で，視覚的な明瞭度，奥行き感，焦点深度において既存手法を大幅に上回る性能を示す。
- ホログラフィック再構成の画質を30dB PSNRまで向上させ，既存技術より10dBの改善を達成した。
Link: https://arxiv.org/abs/2604.16237
DASB：離散オーディオおよび音声ベンチマーク [cs.SD, cs.AI, eess.AS]目的：離散オーディオトークンのベンチマークフレームワーク
- 音声と言語処理の融合が重要視されており，マルチモーダル言語モデルの開発が進んでいる。
- 音響内容，話者識別，パラ言語的要素等の情報を維持することが課題となっている。
- 様々なドメインでの評価設定の不一致を解消し，最適なトークナイザーと設定を特定すること。
- 離散表現は連続表現よりもロバスト性が低く，モデル構造，データ量，学習率等の調整が重要である。
- 意味的トークンは音響的トークンよりも性能が高いが，離散トークンと連続特徴量の間には依然として差がある。
- DASBのコード，評価設定，リーダーボードは公開されており，今後の研究を促進する。
Link: https://arxiv.org/abs/2406.14294
価格，入札，価値：すべてを統べる1つの機械学習駆動型組み合わせオークション [cs.CE, cs.GT, cs.AI, cs.LG]目的：組み合わせオークションの効率最大化に向けた機械学習アルゴリズム
- 組み合わせオークションは，複雑な資源配分問題に有効である。効率的な解決が重要となる。
- 組み合わせ空間が指数関数的に増加するため，効率的な入札情報収集が課題である。
- 価値クエリと需要クエリの両方を活用し，効率的な学習とオークション設計を目指す。
- 提案手法MLHCAは，従来の最先端手法と比較して，効率損失を最大10分の1に削減する。
- MLHCAは，入札者への負担を軽減しつつ，高い効率性を実現する新たなベンチマークとなる。
- 価値クエリと需要クエリの両方を組み合わせることで，学習性能が大幅に向上することが示された。
Link: https://arxiv.org/abs/2411.09355
EventCrab：フレームと点の特徴を融合したイベントベース行動認識とその応用 [cs.RO, cs.CV]目的：イベントベース行動認識における精度と効率のバランス
- イベントベースセンサは，高速な時間分解能とプライバシー保護が可能であり，行動認識に有望である。
- 既存手法は，イベントデータの持つ時間的密さと空間的疎さを十分に考慮できていない。
- フレームと点を統合し，イベントデータの特性を活かした新たな行動認識手法を開発する。
- 提案手法EventCrabは，フレーム特徴と点特徴を効果的に融合することで，既存手法を上回る精度を達成した。
- SeActデータセットで5.17%，HARDVSデータセットで7.01%の性能向上を確認した。
- Spiking-like Context LearnerとEvent Point Encoderにより，イベントデータの時空間的特徴を効果的に学習した。
Link: https://arxiv.org/abs/2411.18328
深層学習を用いた合成開口レーダー画像における氷河カルビングフロントの識別比較研究 [cs.CV, cs.LG]目的：氷河カルビングフロントの識別
- 海面上昇予測には，氷河の変化を継続的に監視することが不可欠である。
- 深層学習システムの識別精度にはまだ課題があり，人手による識別との差が大きい。
- 深層学習システムの精度向上と，より正確な氷河変動の把握を目指す。
- 深層学習システムは最大で221mの誤差を示すのに対し，人手による識別誤差は38mに留まる。
- 深層学習システムの精度向上の必要性が示唆される。
- 今後の研究で，深層学習システムの精度を改善する必要がある。
Link: https://arxiv.org/abs/2501.05281
文化の出会い：多文化テキスト-画像生成 [eess.SY, cs.SY, cs.IR, cs.CE, eess.SY, cs.SY, cs.CV, cs.AI]目的：多文化シーンの生成に関する研究
- 画像生成技術は発展したが，多様な文化を反映した生成は課題である。
- 既存モデルは単一文化に偏っており，多文化シーンの生成能力が検証されていない。
- 多文化シーンを生成するためのベンチマークと，その改善策を提案する。
- 多文化テキスト-画像生成タスクを定義し，5か国，3世代，2性別，25ランドマークを含む9,000枚のデータセットを構築した。
- 最先端モデルの性能を，アライメント，品質，美観，知識，公平性の観点から分析した結果，言語や属性による差が明らかになった。
- 文化的人格を持つLLMを活用するMosAIGフレームワークにより，プロンプトの工夫で画質と文化的な適切性を向上させることができた。
Link: https://arxiv.org/abs/2502.15972
スケーラブルな未知物体6自由度絶対姿勢推定とロボット統合 [cs.RO, cs.CV, cs.RO]目的：未知物体の6自由度絶対姿勢推定
- ロボットが未知の物体を操作するためには，正確な姿勢推定が不可欠である。
- 既存手法はCADモデルや多数の参照画像に依存し，入手困難でスケーラビリティが低い。
- 単一の姿勢ラベル付きRGB-D画像のみで未知物体の姿勢推定を実現し，スケーラビリティ向上を目指す。
- 提案手法SinRef-6Dは，単一の参照画像から未知物体の6自由度絶対姿勢を推定可能である。
- 点群とRGBのステートスペースモデルを用いて，単一視点からの空間依存性を捉える。
- 実世界の多様なシナリオおよび6つのベンチマークにおいて，既存手法を上回るスケーラビリティを示す。
Link: https://arxiv.org/abs/2503.05578
限定的なラベルからオープンな領域へ：ドローン視点ジオロケーションのための効率的な学習手法 [cs.CV, cs.IR]目的：ドローン視点ジオロケーションにおける汎用的な学習手法の開発
- ドローン技術の発展に伴い，自律的な位置認識の重要性が増している。
- 従来のドローン視点ジオロケーションは，ペアデータに依存し，ドメイン間の適応が困難である。
- 少量のペアデータと教師なしデータを用いて，ドメイン適応能力を高める。
- 提案手法CDIKTNetは，ペアデータからクロスビューの不変性を学習し，特徴量の混乱を軽減する。
- CDIKTNetは，デュアルパスコントラスティブ学習により，共有特徴空間の一貫性を維持しつつ最適化を行う。
- 実験結果から，CDIKTNetはフル教師あり学習，Few-shot，クロスドメイン初期化において最先端の性能を達成する。
Link: https://arxiv.org/abs/2503.07520
テキストに基づく人物検索のための合成データ検証に関する実証研究 [cs.CV]目的：テキストに基づく人物検索における合成データの有効性
- 人物検索技術は，監視カメラや画像検索など，多様な分野で重要な役割を担う。
- 従来の学習方法では，個人情報保護やアノテーションコストの問題が存在する。
- 本研究は，実データに依存しない合成データのみを用いた人物検索の実現を目指す。
- 実データを用いない統一的なデータ合成パイプラインを提案し，多様な人物画像を生成できることを示した。
- 合成データが，実データに匹敵する性能を発揮し，独立した代替手段または補完的な拡張として有用であることを実証した。
- 様々な実世界シナリオにおける合成データの有効性の限界を明らかにした。
Link: https://arxiv.org/abs/2503.22171
PILOT：プロンプト可能でインターリーブされたレイアウト認識型OCR Transformer [cs.RO, cs.SY, eess.SY, cs.CL, cs.CV]目的：ドキュメントのテキスト認識と空間的配置の同時実行
- 文書認識は，情報へのアクセスを容易にする上で不可欠であり，デジタルアーカイブや自動化に貢献する。
- 従来のOCRは段階的処理のため，位置ずれに弱く，対話的なクエリには不向きである。
- 単一のモデルでテキスト認識と空間配置を同時に行い，柔軟なクエリに対応することを目指す。
- PILOTは，155Mパラメータのプロンプト条件付き生成モデルであり，文書OCRを統一的なシーケンス生成として扱う。
- 実験の結果，IAM，RIMES 2009，SROIE 2019，MAURDORにおいて，従来のOCRシステムや大規模モデルと比較して，同等以上の性能を示す。
- 統一されたテキスト・レイアウトデコーダは，コンパクトな設定で正確かつ効率的なプロンプト可能OCRを提供できることが確認された。
Link: https://arxiv.org/abs/2504.03621
Art3D：フラットなイラストからのトレーニング不要な3D生成 [cs.CV]目的：フラットなイラストを3Dモデルへ変換する手法
- 芸術コンテンツ作成において，手描きのイラストのような入力形式はユーザにとって使いやすい。
- 既存の画像から3Dへの生成モデルは，3Dの錯覚が少ないフラットな画像に対しては性能が低い。
- 本研究は，フラットな画像を3Dらしく変換することで，3D生成の簡略化を目指す。
- Art3Dは，事前学習済みの2D画像生成モデルとVLMベースのリアリズム評価を活用し，参照画像の3次元的な錯覚を高める。
- 実験結果から，Art3Dは汎用性が高く，多様な画風に適応できることが示された。
- 新たに収集されたデータセットFlat-2Dを用いて既存モデルを評価し，Art3Dの優れた性能と堅牢性を確認した。
Link: https://arxiv.org/abs/2504.10466
ヒストグラムに基づくパラメータ効率的なチューニング：受動的・能動的ソナー分類への応用 [cs.LG, cs.SD]目的：受動的・能動的ソナー分類のためのパラメータ効率的なチューニング手法
- ソナー技術は，海洋監視や安全確保に不可欠であり，その性能向上は重要である。
- 大規模ニューラルネットワークの転移学習において，中間層の特徴量の分布シフトへの対応が課題である。
- ヒストグラムに基づく手法で分布シフトに対応し，限られたリソースでの性能向上を目指す。
- 提案手法HPTは，３つの受動的ソナーデータセットで従来のAdapterよりも高い性能を示した。
- 特にVTUADデータセットにおいて，HPTは91.8%の精度を達成し，Adapterの89.8%を上回った。
- HPTは，完全なファインチューニングモデルに近い特徴表現を獲得し，効率性と性能を両立した。
Link: https://arxiv.org/abs/2504.15214
SignX：コンパクトな姿勢特徴豊富な潜在空間における連続手話認識 [cs.CV, cs.CL]目的：連続手話認識のための新たなフレームワーク
- 手話は聴覚障碍者にとって重要なコミュニケーション手段であり，その自動認識は社会実装に不可欠である。
- 既存手法は計算コストが高く，リアルタイム処理が困難である点が課題となっていた。
- 姿勢情報を活用し，計算効率を向上させつつ高精度な連続手話認識を実現すること。
- SignXは，多様な姿勢形式を統合し，コンパクトで情報密度の高い潜在空間を構築することに成功した。
- ViTベースのVideo-to-Poseモジュールにより，生動画から直接潜在表現を抽出できるようになった。
- 実験結果から，SignXは連続手話認識および翻訳タスクにおいて最先端の精度を達成し，既存手法と比較して約50倍の高速化を実現した。
Link: https://arxiv.org/abs/2504.16315
DyTact：ハンドオブジェクト操作における動的接触の捕捉 [cs.CV]目的：ハンドオブジェクト操作における動的接触の正確な捕捉
- AIキャラクターアニメーション，XR，ロボティクス等において，リアルな操作を実現する上で不可欠な技術である。
- 重いオクルージョン，複雑な表面ディテール，既存のキャプチャ技術の限界により，正確な接触の再構成が困難である。
- 非侵襲的な手法で動的接触を正確に捉え，その精度と効率を向上させることを目指す。
- DyTactは，2Dガウスサーフェルに基づく動的関節表現を活用し，複雑な操作をモデル化することで，高精度な接触推定を実現した。
- テンプレートモデルの誘導バイアスを利用することで，最適化の安定化と高速化に貢献し，新しい視点からの合成品質も向上させた。
- 時間依存性の高い周波数変形への対応と，接触領域へのサーフェル密度の適応的サンプリングにより，重いオクルージョンにも対処可能である。
Link: https://arxiv.org/abs/2506.03103
DVP-MVS++：深度・法線・エッジと調和された視認性優先順位の相乗効果による多視点ステレオ [cs.CV]目的：ロバストかつ視認性を考慮したパッチ変形
- 3次元復元技術は，自動運転やロボット工学など，様々な応用分野において不可欠である。
- テクスチャのない領域の復元において，パッチ変形に基づく手法は有効だが，エッジスキッピングやオクルージョンによる不安定性が課題となる。
- エッジスキッピングや視認性オクルージョンへの対処を通じて，パッチ変形手法の安定性と精度向上を目指す。
- 提案手法DVP-MVS++は，深度・法線・エッジを整合させ，調和された視認性優先順位を組み合わせることで，ロバストなパッチ変形を実現する。
- エッジスキッピングの回避には，粗い深度マップ，法線マップ，エッジマップの生成と，侵食・膨張戦略による整合化が用いられる。
- ETH3D，Tanks & Temples，Strechaデータセットでの評価により，提案手法が最先端の性能と汎化能力を示すことが確認された。
Link: https://arxiv.org/abs/2506.13215
GenHSI：人間とシーンのインタラクション動画の制御可能生成 [cs.CV]目的：人間とシーンのインタラクション動画の制御可能生成
- 動画生成技術は，エンターテイメントや教育など幅広い分野で重要性が増している。
- 長尺で複雑な人間とシーンのインタラクション動画の生成は，リアリティの欠如や学習コストの問題があった。
- 画像とキャラクターに基づいて，一連のインタラクションを含む長尺動画を学習なしで生成することを目指す。
- 本手法は，映画アニメーションの制作工程に着想を得て，動画生成をスクリプト作成，プレビジュアライゼーション，アニメーションの３段階に分割する。
- 事前学習済みの2Dインペインティング拡散モデルと視点正則化により，3Dの人間インタラクションポーズを効率的に生成する。
- シーンとキャラクターの画像のみから，一連のインタラクションを含む長尺動画を生成し，高いリアリティと一貫性を実現した。
Link: https://arxiv.org/abs/2506.19840
ChatENV：センサー誘導環境モニタリングとシナリオシミュレーションのためのインタラクティブな視覚言語モデル [cs.CL, cs.CV]目的：リモートセンシング画像からの環境変化の理解
- 気候変動対策，都市計画，生態系モニタリングにおいて，環境変化の理解は不可欠である。
- 既存の視覚言語モデルは，環境センサーからの因果信号を見落とし，偏ったキャプションに依存する。
- センサーデータと画像データを統合し，インタラクティブなシナリオ分析を可能にすること。
- ChatENVは，衛星画像とセンサーデータを共同で推論する初のインタラクティブな視覚言語モデルである。
- 時系列推論および「もし〜ならば」という仮説的推論において高い性能（BERTF1 0.902）を示し，既存モデルを上回る。
- センサー情報を活用した，環境モニタリングのための強力なツールとしての可能性を示す。
Link: https://arxiv.org/abs/2508.10635
効率的なUAVベースの山火事ビデオ分析のための二段階フレームワーク：適応圧縮と火元検出 [cs.CV]目的：山火事監視と火元検出のための軽量かつ効率的な二段階フレームワーク
- 災害時の迅速な状況把握に，UAVによる空撮映像分析の重要性が増している。
- UAVの計算資源には限りがあり，高性能なモデルを搭載してリアルタイム分析を行うことが困難である。
- UAV上で効率的に火災映像を分析し，リアルタイムな火元検出を実現することを目的とする。
- 提案手法は，不要な映像クリップを削減することで計算コストを大幅に削減できる。
- Stage 1において，分類精度を維持しつつ計算量を削減することが確認された。
- Stage 2では，高精度な火元検出をリアルタイムで実現した。
Link: https://arxiv.org/abs/2508.16739
このグラフは嘘をついているのか？誤解を招く視覚化の検出の自動化 [cs.CL, cs.CV, cs.GR]目的：誤解を招く視覚化の検出と，その視覚化が違反する設計規則の特定
- ソーシャルメディア等で視覚化は情報伝達の重要な手段であり，その信頼性が問われている。
- 意図的または非意図的に設計原則に反した視覚化により，誤った情報が拡散される問題がある。
- 大規模なデータセットを用いてAIモデルの性能を向上させ，誤解を招く視覚化の検出を支援すること。
- MisvizおよびMisviz-synthという2つのデータセットを構築し，公開した。
- 最先端のMLLM，ルールベースシステム，画像分類器を用いた評価を行った結果，課題は依然として困難であることが示された。
- 実世界の視覚化データと合成データを用いた評価により，モデルの汎化性能の検証に貢献する。
Link: https://arxiv.org/abs/2508.21675
AutoDrive-R$^2$: 自律走行におけるVLAモデルの推論と自己省察能力を向上させる [cs.RO, cs.CV]目的：自律走行システムのVLAモデルにおける推論と自己省察能力の強化
- 自動運転技術は，交通渋滞の緩和や交通事故の削減に貢献し，社会に変革をもたらす可能性を秘めている。
- 既存のVLAモデルは，意思決定プロセスの解釈性や行動シーケンスの妥当性において課題が残されている。
- 本研究は，CoT処理と強化学習によって，VLAモデルの推論と自己省察能力を高めることで，より安全で信頼性の高い自動運転を実現する。
- 提案手法AutoDrive-R$^2$は，nuScenesとWaymoのデータセットにおいて最先端の性能を示すことが確認された。
- nuScenesR$^2$-6Kデータセットは，入力情報と出力軌跡の間の認知的なつながりを構築し，モデルの自己省察を促進する。
- GRPOアルゴリズムと物理に基づいた報酬関数を組み合わせることで，現実的でスムーズな軌道計画を実現した。
Link: https://arxiv.org/abs/2509.01944
DualTrack：センサーレス3D超音波における局所的・大域的コンテキストの必要性 [cs.CV]目的：センサーレス3D超音波における3Dプローブ軌跡推定
- 3D超音波は臨床的利点が多いが，従来のシステムは高コストで複雑である。
- 既存手法では，局所特徴と大域的特徴が十分に分離されておらず，頑健なモデリングが困難である。
- 局所特徴と大域的特徴を分離し，それぞれに特化したエンコーダを用いることで，高精度な軌跡推定を目指す。
- 提案手法DualTrackは，局所特徴と大域的特徴をそれぞれ独立して処理する二重エンコーダ構造を採用している。
- 大規模な公開ベンチマークにおいて，DualTrackは最先端の精度を達成し，以前の手法を凌駕した。
- 平均再構成誤差は5mm以下であり，一貫性のある3D再構成が可能であることを示した。
Link: https://arxiv.org/abs/2509.09530
EchoVLM：汎用超音波インテリジェンスのための動的 Mixture-of-Experts ビジョン言語モデル [cs.CV]目的：超音波画像診断における汎用的な知識獲得と多角的課題解決
- 超音波検査は，非侵襲性，低コスト，リアルタイム性から，早期がん検診において重要な役割を担う。
- 従来の超音波診断は医師の熟練度に依存し，主観性や診断効率の低さが課題となっている。
- EchoVLMは，超音波画像に特化した知識獲得と，複数臓器・多岐にわたる診断タスクへの対応を目指す。
- EchoVLMは，超音波レポート生成において，Qwen2-VLと比較してBLEU-1スコアで10.15ポイント，ROUGE-1スコアで4.77ポイントの大幅な改善を達成した。
- MoEアーキテクチャにより，7つの解剖学的領域を網羅し，レポート生成，診断，VQAなど，多様なタスクに対応可能である。
- これらの結果は，EchoVLMが超音波画像診断の精度向上に貢献し，臨床応用における実現可能性を示すものである。
Link: https://arxiv.org/abs/2509.14977
Video-STAR：道具を用いたオープンボキャブラリ行動認識の強化 [cs.CL, cs.CV]目的：オープンボキャブラリ行動認識における，文脈的サブモーション分解と道具を用いた強化学習の調和
- 視覚とテキストの推論を繋ぐ多岐にわたる大規模言語モデルの可能性が示されている。
- テキスト中心の事前知識への依存が強く，意味的に類似した行動の識別が困難である。
- オープンボキャブラリ環境下での行動認識精度向上と，クロスモーダルな幻覚の抑制を目指す。
- Video-STARは，行動を識別可能なサブモーションに分解し，ドメイン固有の道具を動的に利用することで，高精度な行動認識を実現した。
- 階層的な報酬設計により，道具の効率性，サブモーションの関連性，推論の構造的整合性をバランス良く最適化している。
- HMDB-51，UCF-101，SSv2，Kinetics-400，Kinetics-600データセットで最先端の性能を示し，汎化性能の高さも確認された。
Link: https://arxiv.org/abs/2510.08480
MMAudioSep：ビデオ/テキストによるクエリを用いた音分離に向けたビデオ-オーディオ生成モデルの制御 [cs.CL, cs.SD, cs.CV, cs.LG, eess.AS]目的：ビデオまたはテキストのクエリに応じた音分離
- ビデオと音の関係性を活用することで，より高度なメディア処理が可能となるため。
- 既存の音分離モデルは，多くの場合，大量のデータと計算資源を必要とするため。
- 事前学習済みのモデルを活用し，効率的な音分離モデルの開発を目指す。
- MMAudioSepは，既存の音分離モデルと比較して，優れた性能を示すことが確認された。
- ファインチューニング後も，元のビデオ-オーディオ生成能力を維持している点が示された。
- 基礎的な音生成モデルが，様々な音関連タスクに応用できる可能性を示唆している。
Link: https://arxiv.org/abs/2510.09065
小ノイズ注入駆動型ノイズ集約分析：拡散モデルに対する効率的なメンバーシップ推論 [cs.ET, cs.CV, cs.AI, cs.CR]目的：拡散モデルに対するメンバーシップ推論の効率化
- 拡散モデルは高品質な画像生成が可能だが，プライバシーリスクが懸念される。
- 既存のメンバーシップ推論は計算コストが高いか，推論精度が低い。
- 拡散過程におけるノイズ予測の一貫性を考慮した推論手法を開発する。
- 小ノイズ注入戦略により，メンバーサンプルと非メンバーサンプル間の差異を増幅。
- モデルへのクエリ回数を大幅に削減しつつ，効率的かつ正確なメンバーシップ推論を実現。
- ノイズ集約分析に基づき，拡散モデルのプライバシーリスク評価に貢献。
Link: https://arxiv.org/abs/2510.21783
クライアントへの権限：独裁的環境における連合学習 [eess.SY, cs.SY, cs.LG, cs.AI, cs.CL, cs.CR, cs.CV, cs.DC]目的：分散型モデル訓練における，悪意のあるクライアントによる訓練プロセスへの影響
- プライバシー保護とデータ共有のニーズが高まる中，分散学習の重要性が増している。
- 分散学習は悪意のあるクライアントに対して脆弱であり，モデルの改ざんリスクが存在する。
- 本研究は，他のクライアントの貢献を消去できる「独裁的クライアント」の脅威を分析し，対策を検討する。
- 「独裁的クライアント」は，サーバーモデルから他のクライアントの貢献を完全に消去する能力を持つことが示された。
- 複数の「独裁的クライアント」が協調，独立，または裏切り合う複雑なシナリオにおける影響が理論的に分析された。
- コンピュータビジョンおよび自然言語処理のベンチマークによる実験評価は，理論的知見を裏付けている。
Link: https://arxiv.org/abs/2510.22149
適切な身体ランドマーク部分集合がLIBRASにおける単独手話認識の精度向上と5倍の高速化を可能にする [eess.SY, cs.CY, cs.MA, cs.SY, cs.CV]目的：ブラジル手話（LIBRAS）における単独手話認識のための軽量な身体ランドマーク検出の利用可能性
- 手話認識は，聴覚障害者とのコミュニケーションを円滑にする上で不可欠である。
- 従来のスケルトン画像表現は精度向上に貢献する一方，処理速度が課題であった。
- ランドマーク部分集合の選択により，精度と処理速度の両立を目指す。
- 適切なランドマーク部分集合が，最先端手法と同等またはそれ以上の性能を達成しつつ，処理時間を5倍以上削減した。
- スプライン補間によるランドマーク欠損問題への対処が，精度向上に大きく貢献した。
- 軽量なMediaPipeへの置き換えだけでは精度が低下するため，ランドマークの選択が重要である。
Link: https://arxiv.org/abs/2510.24887
MM-Telco：通信アプリケーションのためのベンチマークとマルチモーダル大規模言語モデル [cs.AI, cs.CV, cs.ET, cs.NI]目的：通信分野に特化したベンチマークとモデル群
- 通信分野における自動化の重要性が高まる中，高度な推論・意思決定能力を持つLLMの活用が期待されている。
- 既存のLLMは汎用性が高く，通信分野特有の課題への対応が遅れている点が課題である。
- 通信分野におけるLLMの適応を加速し，実用的な課題解決を目指す。
- MM-Telcoは，ネットワーク運用，管理，ドキュメント品質向上，関連情報の検索など，多様な実用的なユースケースを網羅するベンチマークである。
- データセット上でファインチューニングしたモデルは，大幅な性能向上を示した。
- 実験結果から，既存のマルチモーダルLLMの弱点を分析し，今後の開発の方向性を示唆した。
Link: https://arxiv.org/abs/2511.13131
言語モデルを意味的教師として：医療音声理解のためのポストトレーニングアライメント [cs.SD, cs.AI]目的：医療音声理解における意味的理解の獲得
- 音声データは，心音や呼吸音などの生理学的情報を捉え，健康状態の評価に不可欠である。
- 既存の音声モデルは音響パターン認識に優れるものの，臨床的意義の把握が不十分であり，診断精度が低い。
- 言語モデルとのアライメントにより，音声モデルに臨床的意味理解を付与し，診断能力を向上させる。
- 提案手法AcuLaは，音声エンコーダを医療言語モデルとアライメントすることで，意味的理解を付与する。
- 大規模データセットを構築し，音響特徴と臨床報告書の対応付けを行うことで，アライメントを可能にした。
- 18の心呼吸器疾患タスクにおいて最先端の結果を達成し，平均AUROCを0.68から0.79に改善した。
Link: https://arxiv.org/abs/2512.04847
胎児超音波画像における視覚言語モデル評価のためのベンチマーク：FETAL-GAUGE [cs.CV]目的：胎児超音波画像における視覚言語モデルの性能評価
- 出生前超音波検査の需要増加に伴い，熟練した超音波検査員の不足が深刻化している。
- 胎児超音波画像は，撮影技術に依存し，データセットの公開が限られているため，視覚言語モデルの評価が困難である。
- 胎児超音波画像に特化したベンチマークを構築し，視覚言語モデルの性能向上を目指す。
- 本研究では，42,000枚以上の画像と93,000組の質問応答ペアを含む，初の胎児超音波画像ベンチマーク「Fetal-Gauge」を提案した。
- 最新の視覚言語モデルの評価を行った結果，最高性能モデルでも正答率が55％に留まり，臨床レベルには遠く及ばないことが明らかになった。
- 現在の視覚言語モデルの限界を特定し，ドメイン適応型アーキテクチャや専門的な学習アプローチの必要性を強調した。
Link: https://arxiv.org/abs/2512.22278
潜在的運転世界における計画とビデオ生成の統合：DriveLaW [cs.CV]目的：計画とビデオ生成の統合による，自律運転における課題解決
- 現実世界の多様な状況に対応するため，自律運転におけるワールドモデルの重要性が増している。
- 既存手法では，予測と計画が分離しており，一貫性の確保が困難である。
- ビデオ生成と計画を統合し，高精度な予測と信頼性の高い計画を両立させる。
- DriveLaWは，ビデオ生成器の潜在表現を計画器に直接入力することで，予測と計画の一貫性を保証する。
- ビデオ予測性能において，FIDで33.3%，FVDで1.8%の改善を達成し，最先端の結果を更新した。
- NAVSIMプランニングベンチマークにおいても記録的なスコアを達成し，その有効性が示された。
Link: https://arxiv.org/abs/2512.23421