arXiv雑要約

画像・音声 - 2026/04/20 公開

  • 人間のように映画を見る:具現化されたコンパニオンのための自己中心的感情理解 [cs.CV]目的:自己中心的視点での映画感情理解のためのベンチマークデータセット
    • 人間とロボットの自然な対話を実現するには,ロボットが人間の感情を理解することが不可欠である。
    • 既存の映画感情理解研究は,実際の視聴環境と異なる映画映像に偏っている。
    • 自己中心的視点からの映画感情理解におけるドメインギャップを解消し,実用的な応用を目指す。
    • 新しいデータセットEgoScreen-Emotion (ESE)を構築し,自己中心的視点での映画感情理解のベンチマークを提供した。
    • 映画映像で訓練されたモデルは,自己中心的視点での評価で性能が大幅に低下することを示した。
    • ESEでの訓練により,自己中心的視点でのロバスト性が向上し,最先端のモデルと同等の性能を達成した。

    Link: https://arxiv.org/abs/2604.15823

  • SSFT:汎用ハイパースペクトル分類のための軽量スペクトル空間融合Transformer [cs.IR, cs.CL, cs.CV]目的:汎用ハイパースペクトル分類のための軽量なモデル
    • ハイパースペクトル画像は物質の微細な識別を可能にするが,高次元性などの課題がある。
    • ラベル付きハイパースペクトルデータの不足や不均衡性が,汎用的な分類を困難にしている。
    • 少ないパラメータで高性能な分類を実現し,データ転移の可能性を探る。
    • 提案手法SSFTは,既存手法と比較してパラメータ数を大幅に削減しつつ,最先端の性能を達成した。
    • 大規模データセットSpectralEarthにおいても,コンパクトなサイズながら競争力のある性能を維持した。
    • スペクトル情報と空間情報の両方が分類に重要であり,空間モデリングの効果が大きいことが示された。

    Link: https://arxiv.org/abs/2604.15828

  • テキストプロンプトを超えて:テキストと画像による協調的な概念消去 [cs.CV, cs.CR]目的:テキストと画像生成モデルにおける,正確かつ忠実な概念除去
    • 大規模データセット由来のバイアスにより,生成モデルが不適切なコンテンツを出力するリスクがあるため。
    • 既存の概念消去手法は,概念の完全な抑制と関連コンテンツの過剰な除去のトレードオフに陥っている。
    • テキストと画像の協調により,関連コンテンツを維持しつつ,目標概念を高精度に除去すること。
    • 提案手法TicoEは,連続的な凸概念多様体と階層的な視覚表現学習により,正確な概念除去を実現した。
    • TicoEは,既存手法と比較して,概念除去の精度とコンテンツの忠実度において優れた性能を示した。
    • 本研究は,より安全で制御可能なテキスト画像生成を可能にする評価戦略も導入した。

    Link: https://arxiv.org/abs/2604.15829

  • TinyMU:音楽理解のためのコンパクトなオーディオ言語モデル [cs.CL, cs.SD]目的:音楽理解と推論に関する研究
    • 音楽情報研究分野は,音楽検索や推薦,音楽エージェントなど,幅広い応用を持つ重要な分野である。
    • 大規模言語モデルは性能が高いが,パラメータ数が多く,学習や推論にコストがかかり,エッジデバイスでの利用が困難である。
    • TinyMUは,限られた計算資源下でも高い性能を発揮できる,小型の音楽言語モデルの実現を目指す。
    • TinyMUは,2億2900万パラメータという軽量なモデルでありながら,大規模なモデルに匹敵する性能を達成した。
    • 音楽理解と複雑な推論の両方において高い性能を示し,MuChoMusicベンチマークでは,SOTAモデルの82%の性能を35分の1のサイズで実現した。
    • 音楽に特化した質問応答データセットMusicSkills-3.5Mを活用し,効率的な学習を実現した。

    Link: https://arxiv.org/abs/2604.15849

  • 学習前に視線を学ぶ:美的品質評価への人間視覚認知の組み込み [cs.CV]目的:美的品質評価における人間視覚認知の統合
    • 画像認識技術の発展に伴い,視覚的魅力の自動評価が重要視されている。
    • 従来の評価手法は静的なピクセル情報に依存し,人間が画像を探求する動的な視覚プロセスを考慮していない。
    • 人間のような視線追跡に基づいた認知モデルを導入し,美的品質評価の精度向上を目指す。
    • AestheticNetは,人間のような視覚認知と意味的知覚を統合する新しい二経路アーキテクチャである。
    • 視線追跡データで事前学習されたGAVEは,視覚的注意をモデル化し,意味的知覚経路を補完する。
    • 実験結果は,AestheticNetが従来のモデルよりも一貫して高い性能を示すことを示しており,視覚認知の重要性を裏付けている。

    Link: https://arxiv.org/abs/2604.15853

  • 欠損または完全なモダリティ下における構造化潜在投影によるロバストな多波長セマンティックセグメンテーション [cs.RO, cs.CV, cs.AI]目的:多波長リモートセンシングデータを用いたセマンティックセグメンテーションのロバスト性の向上
    • リモートセンシングは,地球観測や資源管理に不可欠であり,高精度なセグメンテーションが求められる。
    • センサー故障や気象条件により,データの一部が欠損することがあり,セグメンテーション精度が低下する。
    • 欠損モダリティ時と完全なモダリティ時,双方で高性能を維持できるセグメンテーションモデルの開発。
    • 提案手法CBC-SLPは,共有表現だけでなく,モダリティ固有の情報も保持することで,既存モデルの課題を克服した。
    • 3つの多波長リモートセンシングデータセットで,CBC-SLPは完全なモダリティ時,欠損モダリティ時ともに,最先端モデルを上回る性能を示した。
    • 提案手法は,共有表現では失われがちな補完的な情報を効果的に回復できることが実験的に示された。

    Link: https://arxiv.org/abs/2604.15856

  • AHS:合成データ拡張による適応的な頭部合成 [cs.CV]目的:高度な肖像操作技術の実現
    • デジタルメディアの進歩により,頭部交換などの高度な技術への需要が高まっている。
    • 既存手法は顔中心のデータに偏り,視点や表情,髪型などの多様性に乏しい。
    • 多様な状況下で自然な頭部合成を可能とする手法の開発。
    • AHSは全身画像に対応し,様々な頭部ポーズや表情を扱える。
    • 合成データ拡張戦略により,ペアデータなしでの汎化性能を向上。
    • 厳しい実環境下で優れた性能を示し,IDと表情を忠実に再現する。

    Link: https://arxiv.org/abs/2604.15857

  • Splats in Splats++:ロバストかつ汎用的な3Dガウススプラッティングによるステガノグラフィー [cs.DB, cs.CV]目的:3Dガウススプラッティング表現への高容量データの埋め込み
    • 3D再構成技術が発展し,高品質かつ効率的な表現が求められている。
    • 既存の不可視メッセージ埋め込み手法は,データ容量と資産の有用性の両立が困難である。
    • 3Dガウススプラッティングの表現を損なわずに,安全かつ高容量なデータ埋め込みを実現する。
    • 提案手法は,Spherical Harmonicsの周波数分布に基づき,重要度に応じたSH係数暗号化スキームを用いることで,知覚できない埋め込みを実現した。
    • Hash-Grid Guided Opacity MappingとGradient-Gated Opacity Consistency Lossにより,メッセージ漏洩を防ぎ,空間属性間の厳格な結合を強化した。
    • 実験の結果,既存手法と比較してメッセージの忠実度が6.28db向上,レンダリング速度が3倍に向上し,構造攻撃に対する堅牢性も高かった。

    Link: https://arxiv.org/abs/2604.15862

  • UniEditBench:蒸留MLLMによる画像・動画編集のための統一的かつ費用対効果の高いベンチマーク [cs.CV, cs.AI]目的:画像および動画編集モデルの評価基準
    • 画像・動画編集技術は,多様な応用分野で重要性が増しているため,客観的な評価が不可欠である。
    • 既存の評価基準は特定の編集手法に偏っている場合が多く,異なる手法間の公平な比較が困難である。
    • 画像と動画編集を統一的に評価できる,費用対効果の高いベンチマークを構築し,公平な比較を可能にすること。
    • UniEditBenchは,画像編集の9種類と動画編集の8種類の操作を網羅し,複雑なタスクにも対応した統一的なベンチマークである。
    • 高性能MLLMを蒸留することで,軽量な評価器を開発し,計算コストと費用を大幅に削減しつつ,人間の判断との高い一致度を維持している。
    • UniEditBenchは,現代の画像・動画編集手法のベンチマークングのための実用的かつ再現可能なプロトコルを提供する。

    Link: https://arxiv.org/abs/2604.15871

  • CLOTH-HUGS:布を意識した人間ガウススプラッティング [cs.CL, cs.CV]目的:フォトリアリスティックな衣服を着用した人間の再構成
    • 現実的な人物描写は,バーチャルリアリティやエンターテイメントにおいて重要である。
    • 従来の技術では,衣服を身体表現に吸収してしまい,ゆったりとした服装や複雑な変形を再現するのが困難であった。
    • 身体と衣服を分離して表現することで,より自然で高精度な人物再構成を実現することを目指す。
    • Cloth-HUGSは,身体と衣服を分離したガウス層を用いることで,従来法よりも知覚的な品質と幾何学的精度を向上させた。
    • LPIPSを最大28%削減し,時間的に一貫性のある衣服のダイナミクスを生成することに成功した。
    • また,リアルタイムレンダリング(60FPS以上)を可能にする,深さ情報を考慮した多段階レンダリング戦略を導入した。

    Link: https://arxiv.org/abs/2604.15875

  • PolarMAE:セマンティックスクリーニングと極座標ガイドマスキングによる効率的な胎児超音波事前学習 [cs.IR, cs.CL, cs.RO, cs.CV]目的:胎児超音波画像に対する効率的な事前学習フレームワーク
    • 周産期医療において,胎児超音波検査は重要な診断手段であり,その精度向上が不可欠である。
    • 超音波画像のアノテーションコストが高いこと,および検査者によるばらつきが存在することが課題である。
    • 超音波画像の特性(データ冗長性,扇状の局所性,極座標ビームフォーミング)を考慮した事前学習手法を開発する。
    • 提案手法PolarMAEは,プログレッシブ視覚・セマンティックスクリーニング(PVSS)により,高価値サンプルを効率的に抽出する。
    • アコースティック境界領域制約(ABRC)を導入し,モデルが有効な音響領域に集中するように促す。
    • 極座標テクスチャ協調マスキング(PTCM)により,放射状の画像パターンや重要な組織構造を学習する。

    Link: https://arxiv.org/abs/2604.15893

  • AeroDeshadow:物理に基づいた影の合成と影の部分的な陰影を考慮した航空宇宙画像からの影除去 [eess.SY, cs.SY, cs.NI, cs.HC, cs.CV]目的:航空宇宙画像の影除去手法の開発
    • 航空宇宙画像は,地表観察や環境変化の把握に不可欠であり,その利用価値は高い。
    • 航空宇宙画像に存在する影は,スペクトル歪みや情報損失を引き起こし,解釈の妨げとなる。
    • 実画像ペアの不足と,航空宇宙画像特有の広範囲な半影を考慮した影除去手法が求められる。
    • 本研究では,物理に基づいた影の合成と半影を考慮した復元を組み合わせたAeroDeshadowを提案した。
    • これにより,大規模な合成データセットAeroDS-Synを構築し,実データペアなしで高い性能を実現した。
    • 合成データと実データ両方において,既存手法を上回る精度と視覚的な品質を達成した。

    Link: https://arxiv.org/abs/2604.15903

  • 効率的なビデオ拡散モデル:進歩と課題 [cs.RO, cs.CV]目的:効率的なビデオ拡散モデルに関する研究動向の体系的な整理
    • ビデオ生成モデルは高品質な映像合成に不可欠であり,その重要性は増している。
    • ビデオ拡散モデルの推論コストが高く,実用化が制限されているという課題がある。
    • 推論コストを削減し,ビデオ拡散モデルの実用化を促進することを目的とする。
    • 既存の方法を,ステップ蒸留,効率的な注意機構,モデル圧縮,キャッシュ/軌跡最適化の4つに分類した。
    • 各パラダイムにおけるアルゴリズムのトレンドを分析し,計算量削減とステップごとのオーバーヘッド軽減に着目した。
    • 品質維持,ハードウェア・ソフトウェア協調設計,リアルタイム長尺生成,標準化された評価基盤といった今後の課題を提示した。

    Link: https://arxiv.org/abs/2604.15911

  • エージェントによる実行を用いた適応的タスク再構成による画像編集の容易化 [cs.DC, cs.CV]目的:画像編集におけるタスク再構成の改善
    • 画像編集技術は発展しているが,実用化には信頼性の向上が不可欠である。
    • 既存モデルは単純なケースでも失敗することが多く,タスク設定の課題が指摘されている。
    • タスクを再構成することで,既存モデルの性能を最大限に引き出すことを目指す。
    • 本研究では,MLLMエージェントによる動的な操作シーケンス生成と改善により,画像編集の性能が向上した。
    • 特に,ターゲットが小さく,空間関係が不明確な編集タスクにおいて顕著な改善が見られた。
    • タスク再構成が画像編集において重要な要素であり,既存モデルの有効活用に貢献することが示された。

    Link: https://arxiv.org/abs/2604.15917

  • ビデオから音声生成のための階層型コーデック拡散 [eess.SY, cs.SY, cs.SD, cs.CV]目的:ビデオからの音声合成
    • 音声と映像の理解を深め,様々な応用を可能にする重要な研究分野である。
    • 既存手法では,音声の階層構造が考慮されず,視覚情報と音声特徴の直接的な対応が難しい。
    • 音声の階層構造を考慮し,視覚情報と音声特徴のより効果的な対応を目指す。
    • 提案手法HiCoDiTは,離散的な音声トークンの階層構造を利用し,高品質な音声合成を実現した。
    • 低レベルブロックは口吻や顔の識別情報に基づき,話者固有の内容を生成する。
    • 高レベルブロックは表情情報を用いて,音声の抑揚を調整することで,より自然な表現を実現した。

    Link: https://arxiv.org/abs/2604.15923

  • ニューラルガボールスプラッティング:ニューラルガボールを用いた高周波表面再構成の強化 [cs.CV, cs.GR]目的:高周波な外観を持つシーンにおける3D再構成と新規視点合成の性能向上
    • 3D再構成は,現実世界のデジタル化や仮想現実など,幅広い分野で不可欠な技術である。
    • 従来の3Dガウシアン スプラッティングは,高周波なディテールを持つシーンにおいて,表現に必要なガウシアンの数が増加するという課題があった。
    • ガウシアンにニューラルネットワークを付与し,高周波な外観変化を効率的に表現することで,ガウシアン数を抑制し,再構成精度を高める。
    • 本研究では,各ガウシアンに軽量な多層パーセプトロンを導入し,単一のガウシアン内で多様な色変化をモデル化するニューラルガボールスプラッティングを提案した。
    • 周波数エネルギーに基づく密度化戦略により,不要なガウシアンの削減と複製を制御し,ガウシアン数を最適化することで,高周波表面の正確な再構成を実現した。
    • Mip-NeRF360や高周波データセットを用いた実験により,提案手法の有効性を検証し,広範な消去実験によってその効果を定量的に示した。

    Link: https://arxiv.org/abs/2604.15941

  • SENSE:ステレオ画像を用いたオープンボキャブラリ意味セマンティックセグメンテーション [cs.CV, cs.RO]目的:ステレオ画像とビジョン言語モデルを用いたオープンボキャブラリ意味セマンティックセグメンテーション手法
    • 動的な環境下での柔軟性が必要であり,固定されたクラスセットにとらわれないセマンティックセグメンテーションが重要である。
    • 既存手法は単一視点画像に依存し,特に隠蔽や物体の境界付近において空間精度が課題となっている。
    • ステレオ画像から幾何学的情報を活用し,空間推論とセグメンテーション精度を向上させることを目指す。
    • SENSEは,PhraseStereoデータセットで訓練することにより,フレーズに基づいたタスクにおいて高い性能を発揮する。
    • PhraseStereoにおいて,ベースライン手法と比較して平均精度が+2.9%向上し,最良の競合手法に対しては+0.76%向上した。
    • Cityscapesで+3.5% mIoU,KITTIで+18%の改善が見られ,自然言語による正確なシーン理解を可能にする。

    Link: https://arxiv.org/abs/2604.15946

  • 競争から協調へ:テキスト指示に基づく訓練不要の画像編集 [cs.CV]目的:テキストガイダンスに基づく訓練不要の画像編集手法
    • 画像編集はマルチメディアコンテンツ作成において重要な役割を担うため,その効率化と高品質化が求められている。
    • 既存手法は編集と再構成の競合的な関係にあり,意味的な衝突や予測不能な結果を引き起こす可能性がある。
    • 本研究は,編集と再構成の協調性を高め,より調和のとれた画像編集を実現することを目的とする。
    • 提案手法CoEditは,競争的な注意制御を協調的な交渉へと転換することで,空間的・時間的な調和を達成する。
    • Dual-Entropy Attention Manipulationにより,編集可能領域と保存領域の局所化が改善され,より正確な編集が可能となる。
    • Entropic Latent Refinement機構は,潜在表現を動的に調整し,編集エラーを最小限に抑え,一貫性のある意味変化を実現する。

    Link: https://arxiv.org/abs/2604.15948

  • TwoHamsters:テキスト画像生成モデルにおける多概念構成的安全性脆弱性のベンチマーク [cs.CR, cs.CV]目的:テキスト画像生成モデルにおける多概念構成的安全性脆弱性(MCCU)の評価
    • テキスト画像生成モデルの発展は目覚ましいが,安全性確保は重要な課題である。
    • 既存の安全性対策は明示的な有害概念に偏り,潜在的な構成的リスクを見過ごしがちである。
    • 複数の無害な概念の組み合わせによって生じる潜在的な安全性の問題点を明らかにすること。
    • 本研究で開発したTwoHamstersベンチマークを用いて,最新のモデル10種類と防御メカニズム16種類を評価した。
    • FLUXは99.52%の高いMCCU生成成功率を示す一方,LLaVA-Guardは41.06%のリコールしか達成せず,現在のパラダイムの限界が示された。
    • 本分析により,現在のテキスト画像生成モデルおよび防御メカニズムが深刻なMCCUリスクに直面していることが明らかになった。

    Link: https://arxiv.org/abs/2604.15967

  • MMGait:マルチモーダル歩行者認識に向けて [cs.CV]目的:マルチモーダル歩行者認識のための包括的なベンチマークデータセット
    • 歩行者認識は,非協力的かつ遠距離からの個人識別において重要なバイオメトリクス技術である。
    • 既存手法はRGB情報に偏っており,現実世界の多様なセンサー情報統合やクロスモーダル検索に課題がある。
    • 多様なセンサーからの情報を統合し,よりロバストで汎用的な歩行者認識を実現することを目指す。
    • MMGaitは,RGB,深度,赤外線,LiDAR,4Dレーダーを含む5種類の異種センサーからのデータを統合した大規模なベンチマークである。
    • 単一モーダル,クロスモーダル,マルチモーダル評価を通じて,各モダリティの頑健性と相補性を分析した。
    • 新たなタスク「全方向マルチモーダル歩行者認識」を提案し,多様なモダリティを統合するOmniGaitベースラインを開発した。

    Link: https://arxiv.org/abs/2604.15979

  • 脆弱なデータ主体から脆弱化するデータ慣行へ:プラットフォーム化された生活におけるAI分析の保護のパラドックス [eess.SY, cs.SY, cs.NI, cs.CY, cs.AI, cs.CV, cs.HC]目的:プラットフォーム化された生活におけるAI分析における保護のパラドックス
    • デジタル化が進む現代社会において,個人のデータ保護は重要な課題である。
    • 既存の倫理的枠組みでは,データの欠如に焦点を当てがちで,データ過多な状況に対応できない。
    • データ分析の過程における倫理的な問題を明らかにし,新たな倫理的枠組みを提案すること。
    • 本研究は,データ分析が個人の脆弱性を増幅させる可能性に着目し,倫理的な考察の転換を促す。
    • AI for Social Goodの事例研究を通じて,保護を意図した取り組みが新たな脆弱性を生み出す「保護のパラドックス」を明らかにした。
    • データセット設計,運用化,推論,普及という4つの段階における技術的決定が倫理的に重要であることを示した。

    Link: https://arxiv.org/abs/2604.15990

  • IA-CLAHE:画像適応クリップ限界推定によるCLAHE [cs.CV]目的:画像適応コントラスト限定適応ヒストグラム均等化
    • 画像処理の性能向上や知覚品質の改善に広く利用されており,産業応用において重要である。
    • 従来のCLAHEでは,クリップ限界が固定されており,過度な強調が生じやすいという課題がある。
    • 入力画像からタイルごとのクリップ限界を適応的に推定することで,この過度な強調を抑制する。
    • IA-CLAHEは,タスク固有の学習データや事前に探索された正解データなしに,認識性能を改善する。
    • 軽量なクリップ限界推定器を学習し,CLAHEの微分可能な拡張を用いることで,エンドツーエンドの最適化を実現する。
    • 入力画像ヒストグラムをタスクに依存しない均一分布へマッピングすることで,多様な条件への汎化性能を高める。

    Link: https://arxiv.org/abs/2604.16010

  • 掘削孔破砕帯の自動識別における誤検出低減:深層学習に基づく手法 [cs.CV, cs.SD, physics.geo-ph]目的:掘削孔破砕帯の自動識別における誤検出の低減
    • 地応力分析において,掘削孔破砕帯の正確な把握は不可欠である。
    • 既存の深層学習手法では,破砕帯以外の特徴を誤って識別する誤検出が多い。
    • 本研究は,深層学習モデルによる誤検出を低減し,破砕帯の識別精度向上を目指す。
    • 本研究で開発したBreakout-pickerは,負例学習と方位対称性判定により誤検出を抑制する。
    • 3つのデータセットを用いた評価の結果,既存手法と比較して,高い精度と低い誤検出率を示した。
    • Breakout-pickerは,掘削孔破砕帯の自動識別信頼性を高め,地応力分析の精度向上に貢献する。

    Link: https://arxiv.org/abs/2604.16011

  • AstroVLM:天体画像品質診断のための専門家によるマルチエージェント協調推論 [cs.MA, cs.CV]目的:天体画像品質診断のためのマルチエージェント協調システム
    • 天体画像は多岐にわたる知識を要し,天文学の発展に不可欠である。
    • 天体画像の品質診断は複雑な相関関係に起因し,時間と労力を要する。
    • 複雑な多段階タスクにおいて,言語モデルの能力を向上させる。
    • AstroVLMは,実際の天体画像品質診断タスクにおいて,既存手法を凌駕する性能を示した。
    • 本研究は,複雑な多段階タスクへの言語モデル適用の参考となる。
    • マルチエージェント協調により,天体画像品質診断の効率化を実現した。

    Link: https://arxiv.org/abs/2604.16024

  • 頭頸部癌の予後予測のためのXAI手法ランキング [cs.CV, physics.data-an]目的:頭頸部癌の予後予測に対するXAI手法の評価とランキング
    • 頭頸部癌治療の個別化には,正確な予後予測が不可欠である。
    • AIの解釈可能性が低いことが,臨床応用における大きな障壁となっている。
    • 様々なXAI手法を定量的に評価し,最適な手法を特定することを目的とする。
    • 13種類のXAI手法を24の指標で評価した結果,手法によって性能に大きな差が見られた。
    • Integrate GradientsとDeepLIFTは,忠実度,複雑さ,妥当性の観点で高い評価を得た。
    • 本研究は,XAI手法の包括的な評価の重要性を強調し,他の医用画像処理タスクにも応用可能である。

    Link: https://arxiv.org/abs/2604.16034

  • 拡散確率モデルにおけるSNR-tバイアスの解明 [cs.CV]目的:拡散確率モデルのSNR-tバイアス軽減
    • 生成モデルは画像生成など多様なタスクで注目されており,その性能向上は重要である。
    • 拡散モデルでは,ノイズ除去過程においてSNRとタイムステップのずれが生じ,生成品質を損なう問題がある。
    • 本研究は,このSNR-tバイアスを解消し,拡散モデルの生成性能を向上させることを目指す。
    • 拡散確率モデルがSNR-tバイアスを持つことを実験と理論から明らかにした。
    • 周波数分解に基づいた差分補正法を提案し,様々な拡散モデルで有効性を示した。
    • 提案手法は計算コストの増加を抑制しつつ,高解像度データセットにおいても生成品質を大幅に改善する。

    Link: https://arxiv.org/abs/2604.16044

  • 心の目:マルチモーダルLLMのための視覚的抽象化,変換,合成のベンチマーク [cs.DC, cs.CV, cs.AI]目的:マルチモーダルLLMの視覚的認知・空間推論能力の評価
    • 視覚と言語を統合したAIの発展は,人間のような知能の実現に不可欠である。
    • 既存のベンチマークでは,AIの視覚的認知能力を十分に評価できていない。
    • AIの流動性知能,特に視覚的抽象化,関係性認識,変換能力の評価を目指す。
    • 人間の正答率は80%であるのに対し,最先端のMLLMは50%を下回る結果となった。
    • MLLMのエラー分析から,視覚的注意の偏り,知覚的操作の弱さ,抽象概念の理解不足が明らかになった。
    • 現状のMLLMは,人間と比較して視覚空間推論能力が限定的であり,認知に基づいた評価の必要性を示唆する。

    Link: https://arxiv.org/abs/2604.16054

  • AST:適応的,シームレス,そして学習不要な高精度音声編集 [cs.SD, cs.AI]目的:高精度な音声編集手法
    • 音声編集は,話者固有の特性や文脈を維持しつつ,音声の一部を修正する上で重要である。
    • 既存手法は,タスク固有の学習に依存するため,データコストが高く,編集されていない部分の時間的整合性に課題がある。
    • ASTは,学習を必要とせず,高品質かつ時間的整合性の高い音声編集を実現し,この課題を解決する。
    • ASTは,事前学習済みのTTSモデルを活用し,保存された音声セグメントと新たに合成された音声をシームレスに結合するLatent Recompositionを導入した。
    • ASTは,Adaptive Weak Fact Guidance (AWFG)により,編集境界におけるアーティファクトを抑制し,構造的制約を必要に応じて動的に適用する。
    • 新しいデータセットLibriSpeech-Editを導入し,提案するWDTW評価指標を用いることで,ASTが既存手法と比較して時間的整合性と語彙誤り率の大幅な改善を達成した。

    Link: https://arxiv.org/abs/2604.16056

  • 思考連鎖がマルチモーダルLLMの視覚空間推論能力を低下させる [cs.CV, cs.AI]目的:マルチモーダルLLMにおける視覚空間推論能力低下の検証
    • マルチモーダルLLMは,数学や論理問題解決に革命をもたらしたが,空間推論能力には課題が残る。
    • 思考連鎖(CoT)は,空間推論タスクにおいて一貫して性能を低下させるという問題がある。
    • テキストのみのCoTが空間タスクに適さないことを明らかにし,視覚に焦点を当てた推論パラダイムの必要性を訴える。
    • 17モデル13ベンチマークの評価により,CoTプロンプトが視覚空間推論の性能を低下させることが確認された。
    • No-Image++アブレーションにより,MRMとCoTプロンプトMLMが深刻なショートカット学習に陥り,画像がない場合でもテキストからの情報を幻覚することが示された。
    • これらの結果は,視覚中心の推論パラダイムの重要性を強調し,CoTの有効性に疑問を投げかける。

    Link: https://arxiv.org/abs/2604.16060

  • AEGIS:アンカー強制勾配隔離による知識保存型ビジョン-言語-行動ファインチューニング [cs.LG, cs.CV]目的:知識を保持しつつ,ビジョン-言語モデルをロボット制御に適合させる手法
    • ロボット制御において,事前学習済みモデルの知識を活用することが重要である。
    • ロボット制御のための勾配注入時に,事前学習されたビジョン-言語モデルの性能が著しく低下する問題がある。
    • 勾配隔離により,事前学習された知識を維持しつつ,ロボット制御に適応させることを目指す。
    • AEGISは,アンカー強制勾配隔離システムという,バッファーフリーで層ごとの直交勾配投影フレームワークを導入した。
    • この手法により,継続的なMSE学習を可能にしつつ,事前学習されたVQA多様体を維持する。
    • 勾配エネルギーの損失は平均1%未満でありながら,深刻な忘却を引き起こす活性化ドリフトを解消する。

    Link: https://arxiv.org/abs/2604.16067

  • TableSeq:構造,内容,レイアウトの統一的生成 [cs.CV]目的:表構造認識,内容認識,およびセル局在化の共同処理
    • 文書画像からの表構造抽出は,情報検索やデータ分析において不可欠である。
    • 従来の表認識手法は,複数のモジュールと後処理を必要とし,複雑になりがちである。
    • 単一のシーケンス生成モデルを用いて,表認識の全過程を統一的に解決することを目指す。
    • TableSeqは,PubTabNetで95.23 TEDS / 96.83 S-TEDS,FinTabNetで97.45 TEDS / 98.69 S-TEDS,SciTSRで99.79 / 99.54 / 99.66の適合率/再現率/F1スコアを達成した。
    • TableSeqは,軽量なアーキテクチャでありながら,既存の最先端手法と同等またはそれ以上の性能を発揮する。
    • シーケンスインターフェースは,タスク固有のヘッドなしで,インデックスベースのテーブルクエリにも適用可能である。

    Link: https://arxiv.org/abs/2604.16070

  • フローマッチングの驚くべき安定性 [cs.CV]目的:フローマッチングモデルにおける生成サンプル品質と多様性の安定性
    • 深層生成モデルは高品質なサンプル生成に不可欠であり,その応用範囲は広い。
    • モデルの性能は,アーキテクチャやデータセットに依存するため,安定性に課題があった。
    • データセットやアーキテクチャの変更に対するロバスト性を明らかにすること。
    • フローマッチングは,データセットの50%を削減しても安定性を維持することが示された。
    • データセット削減は潜在表現にわずかな影響しか与えず,生成サンプルは類似した出力を示した。
    • アーキテクチャや学習設定の変更に対しても同様の安定性が確認された。

    Link: https://arxiv.org/abs/2604.16079

  • YOLOv12深層学習モデルを用いた急性骨髄性白血病(AML)の早期検出 [cs.MA, cs.CV, cs.AI, cs.LG]目的:急性骨髄性白血病(AML)細胞の多クラス分類
    • 急性骨髄性白血病は生命を脅かす血液がんであり,早期正確な診断が重要である。
    • 細胞の種類が視覚的に類似しているため,正確な分類は依然として課題となっている。
    • YOLOv12モデルを用いて,AML細胞の分類精度向上を目指す。
    • 細胞ベースセグメンテーションとOtsu閾値処理を組み合わせたYOLOv12が最も高い検証・テスト精度(99.3%)を示した。
    • 画像の前処理にHueチャンネルとOtsu閾値処理を使用することで,細胞及び核の特徴に基づいたセグメンテーションを試みた。

    Link: https://arxiv.org/abs/2604.16082

  • DINOv3が専門的な検出器を凌駕する:画像フォレンジックのためのシンプルな基礎モデルベースライン [cs.CV]目的:画像フォレンジックにおける基礎モデルベースラインの性能向上
    • 生成モデルの急速な進化により,偽造画像が増加しており,その検出技術が重要となっている。
    • 既存の局所化手法は複雑な設計に依存し,操作の種類や撮影条件への汎化性能が課題である。
    • 汎化性能が高く,軽量な画像フォレンジック手法を確立することを目的とする。
    • DINOv3とLoRAを用いたシンプルなモデルが,CAT-Netプロトコルにおいて既存の最先端技術を平均ピクセルレベルF1スコアで17.0ポイント上回った。
    • LoRAは,全てのバックボーンスケールにおいて,フルファインチューニングよりも優れた性能を発揮した。
    • MVSS-Netプロトコル下では,LoRAが平均F1スコア0.774を達成し,既存の最良手法(0.530)を大きく上回った。

    Link: https://arxiv.org/abs/2604.16083

  • スタイル付きST-STORM:外観のセマンティックな性質の認識 [cs.CV, cs.AI, cs.LG, stat.ML]目的:外観をセマンティックなモダリティとして解きほぐす自己教師あり学習フレームワーク
    • 画像認識の分野において,ロバストな特徴表現を獲得することは,多様な条件下での性能向上に不可欠である。
    • 既存の自己教師あり学習は,外観に依存する情報まで除去してしまう場合があり,特定のタスクにおいて問題となる。
    • 外観が重要な識別信号となる場合に,外観情報を効果的に捉え,活用することを目的とする。
    • ST-STORMは,コンテンツとスタイルという2つの潜在ストリームを分離することで,外観の特徴を捉える。
    • スタイルブランチは,複雑な外観現象(Multi-WeatherでF1=97%,ISIC 2024でF1=94%)を効果的に分離することを示した。
    • コンテンツブランチのセマンティック性能(ImageNet-1KでF1=80%)を損なうことなく,外観情報の保存を改善した。

    Link: https://arxiv.org/abs/2604.16086

  • DenTab:現実世界の歯科見積書における表認識と視覚的QAのためのデータセット [cs.NI, cs.HC, cs.DC, cs.CV]目的:現実世界の歯科見積書画像に対する表認識(TR)と表視覚的質疑応答(TableVQA)の評価
    • 表は重要な取引情報や管理情報を凝縮して表現するため,情報抽出において不可欠である。
    • 既存のデータセットはデジタルデータやレンダリングされた表が中心で,現実のノイズを含む環境への対応が課題である。
    • 現実世界の歯科見積書画像を用いたデータセットを構築し,より実用的な表認識とTableVQAの性能向上を目指す。
    • DenTabデータセットは,2000枚の歯科見積書表画像と高品質なHTMLアノテーションを含む。
    • 既存の16システム(14の視覚言語モデルと2つのOCRベースライン)を評価した結果,構造認識の精度と推論能力には乖離が見られた。
    • Table Router Pipelineを提案し,数値計算問題に対する信頼性を向上させた。このパイプラインは,VLMとルールベース実行器を組み合わせることで実現した。

    Link: https://arxiv.org/abs/2604.16099

  • ポリグロット:多言語スタイル維持音声駆動顔面アニメーション [cs.CV]目的:多言語音声駆動顔面アニメーションの実現
    • 映画,ゲーム,VRなどに応用が広がり,リアリティのある表現が求められている。
    • 既存モデルは単一言語データでの学習が中心で,多言語環境での汎用性が課題となっていた。
    • 言語と個人のスタイルを考慮し,より自然な顔面アニメーションを生成することを目指す。
    • 提案手法Polyglotは,言語情報と話者スタイルを同時に考慮することで,多様な表現を可能にした。
    • 言語や話者ラベルを必要とせず,自己教師あり学習により汎用性を高めている。
    • 単一言語,多言語のどちらの環境でも,従来手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2604.16108

  • 大規模トリプレットデータセットを用いた文脈内トーンスタイル変換 [cs.DC, cs.AR, cs.CV]目的:写真レタッチのためのトーンスタイル変換
    • 写真編集において,画像のスタイル調整は重要な要素である。
    • 高品質なスタイル変換データセットが不足しており,性能向上のボトルネックとなっている。
    • 大規模データセットと新しい手法により,より自然で高品質なスタイル変換を実現する。
    • 10万件のトリプレットデータセット「TST100K」を構築し,厳格なスタイルの一貫性を保証した。
    • 拡散モデル「ICTone」を提案し,文脈内でセマンティック情報を考慮したトーン変換を可能にした。
    • 定量評価および人間評価において,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2604.16114

  • 記事から樹冠へ:LLM専門家を用いた知識駆動型疑似ラベルによる樹種分類 [cs.CV]目的:樹種分類の精度向上
    • 森林資源管理や生態系モニタリングにおいて,樹種の正確な識別は不可欠である。
    • 既存手法では,ラベル不足,スペクトル混合,生態系の多様性により分類精度が制限される。
    • 生物学的知識と構造的特徴を統合することで,分類精度の向上と学習コストの削減を目指す。
    • 本研究では,ハイパースペクトル画像と航空レーザースキャンデータに加え,LLMから得られた種共生に関する知識を活用した。
    • 樹冠グラフ上の疑似ラベル戦略に生態学的事前知識を組み込むことで,分類精度を5.6%向上させた。
    • LLMによって導出された種共生に関する事前知識の精度は高く,専門家評価との差異は15%以内であった。

    Link: https://arxiv.org/abs/2604.16115

  • モーションアダプター:複合アクションのテキストからモーション生成のための拡散モデルアダプター [cs.CV]目的:複合アクションのテキストからのモーション生成
    • 人間らしい自然な動きの生成は,バーチャルリアリティやロボット工学など,幅広い分野で重要である。
    • テキストから複雑な一連の動きを生成する際,以前のアクションが後のアクションで上書きされる問題や,注意機構の崩壊が発生しやすい。
    • 時間情報の適切な処理と,注意機構の改善により,より自然で一貫性のある複合モーション生成を目指す。
    • 提案手法Motion-Adapterは,拡散モデルにおけるクロスアテンションマップを分離することで,複合アクション生成時の課題を克服する。
    • 実験の結果,Motion-Adapterは多様なテキストプロンプトに対し,既存手法よりも忠実で一貫性のある複合モーションを生成することが示された。
    • 本研究は,詳細なテキスト記述や,大規模言語モデルへの依存を軽減し,物理構造と運動メカニズムをより適切に表現する道を開く。

    Link: https://arxiv.org/abs/2604.16135

  • SWNet:偽装雑草検出のためのクロススペクトルネットワーク [cs.CL, cs.CV, cs.AI]目的:偽装雑草検出のためのクロススペクトルネットワークの提案
    • 農業生産において,雑草は収量低下の大きな原因であり,効率的な雑草検出が重要である。
    • 従来のコンピュータビジョンシステムは,雑草が作物に偽装することで検出が困難になる。
    • 可視光と近赤外光の情報を統合し,偽装雑草を高精度に検出することを目指す。
    • 提案手法SWNetは,Weeds-Bananaデータセットにおいて,既存の最先端手法10個を上回る性能を示した。
    • 近赤外スペクトルにおける葉緑素反射の違いを利用することで,可視光では識別困難な雑草も検出可能となった。
    • エッジアウェアなリファインメントモジュールにより,対象物の境界がより鮮明になり,構造的な曖昧さが軽減された。

    Link: https://arxiv.org/abs/2604.16147

  • neuralCAD-Edit:マルチモーダル指示による3D CADモデル編集のための専門家ベンチマーク [cs.DM, math.CO, cs.ET, cs.CV, cs.CE]目的:3D CADモデル編集の性能評価
    • CAD技術は製品開発や製造において不可欠であり,その効率化は産業界の重要な課題である。
    • 既存のCAD編集技術は,複雑な指示や曖昧な要求への対応に限界がある。
    • 専門家によるCAD編集の再現性と自動化を目指し,性能評価の基盤を確立する。
    • 本研究で構築したneuralCAD-Editは,専門家によるCAD編集のベンチマークとして機能する。
    • 最先端の基盤モデルは,人間のCAD専門家と比較して,人間の受容度において53%低い結果となった。
    • この結果は,マルチモーダル指示による3D CAD編集における課題と,今後の発展の余地を示す。

    Link: https://arxiv.org/abs/2604.16170

  • MARCH:CTレポート生成のためのマルチエージェント放射線科臨床階層 [cs.MM, cs.AI, cs.CV]目的:CTレポート自動生成における臨床的幻覚と検証プロセスの欠如に対する解決策
    • 医学画像診断の精度向上は,患者ケアの質を向上させる上で不可欠である。
    • 既存の自動レポート生成システムは,臨床的誤りや信頼性の低さが課題である。
    • 放射線科の専門家集団における階層構造を模倣することで,AIの信頼性向上を目指す。
    • MARCHは,放射線科医の階層構造をエミュレートするマルチエージェントフレームワークである。
    • RadGenome-ChestCTデータセットにおいて,最先端のベースラインと比較して,臨床的忠実度と言語的正確性が有意に向上した。
    • 人間のような組織構造のモデリングが,医療分野におけるAIの信頼性を高めることを示す。

    Link: https://arxiv.org/abs/2604.16175

  • 画像シャドウ除去コンテストCVPR2026優勝:カスケードされた改良によるセマンティックおよび幾何学的ガイダンス [cs.CV]目的:画像シャドウ除去手法の研究
    • 画像認識やコンピュータビジョンの応用において,シャドウは誤認識の原因となるため,除去が重要である。
    • 既存手法では,シャドウ除去後の画像にアーティファクトが残存し,自然な画像復元が困難である。
    • カスケードされた改良とセマンティック・幾何学的ガイダンスにより,アーティファクトを抑制し,高精度なシャドウ除去を実現する。
    • 提案手法は,CVPR2026 NTIRE WSRD+チャレンジにおいて,PSNR 26.680,SSIM 0.8740,LPIPS 0.0578,FID 26.135を達成し,総合1位となった。
    • 多段階最適化を安定化させるため,再構成誤差がカスケード全体で単調減少するような制約項を導入した。
    • ISTD+およびUAV-SC+データセットにおいても,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2604.16177

  • 飽和度を考慮した空間可変ブラインド画像鮮明化 [eess.SY, cs.SY, cs.CV]目的:飽和度を考慮した空間可変ブラインド画像鮮明化手法
    • 高ダイナミックレンジ画像処理は,現実世界の多様な照明環境を捉える上で重要である。
    • 鮮明化処理において,飽和ピクセルは情報損失を引き起こし,画質劣化の原因となる。
    • 飽和ピクセルに対するロバストな鮮明化手法を開発し,高画質復元を目指す。
    • 本手法は,画像のぼかし強度と飽和度に基づいて画像をセグメント化し,迷光の影響を軽減する。
    • 暗チャネルプライオアを用いることで,飽和領域の真の輝度を推定し,リンギングなどのアーティファクトを抑制する。
    • 合成データおよび実データによる評価の結果,既存手法と比較して優れた鮮明化性能を示す。

    Link: https://arxiv.org/abs/2604.16200

  • DENALI:低コストLiDARによる非視認空間推論を可能にするデータセット [cs.RO, cs.CV]目的:非視認空間推論のためのLiDARデータセット
    • ロボットや自動運転における環境認識の精度向上は重要であり,特に隠れた物体の検出が課題である。
    • 低コストLiDARはデータ取得に制約が多く,従来のNLOS再構成法では性能が十分でない。
    • データ駆動型推論により,低コストLiDARでも非視認空間認識を実現することを目指す。
    • 本研究で構築したDENALIデータセットを用いることで,低コストLiDARによる高精度な非視認空間認識が可能であることが示された。
    • データセットを用いて,性能を制限するシーンやモデリング要因,シミュレーションと実世界の乖離が特定された。
    • 今後のスケーラブルな非視認空間認識に向けた課題が明らかになった。

    Link: https://arxiv.org/abs/2604.16201

  • AIFIND:アーティファクトを意識した微細なアライメントによるインクリメンタル顔フォージェリ検出 [cs.CG, cs.CV, cs.AI]目的:インクリメンタル顔フォージェリ検出における性能向上
    • 顔のフォージェリ技術は高度化しており,リアルタイムな検出が重要である。
    • 既存手法は特徴空間の制約が弱く,特徴ドリフトや忘却が課題となる。
    • アーティファクトを利用し,安定したセマンティックアンカーを確立することで,忘却を抑制する。
    • AIFINDは,低レベルのアーティファクトから不変なセマンティックアンカーを生成する。
    • アーティファクト・プローブアテンションにより,不安定な視覚特徴をセマンティックアンカーにアライメントする。
    • アダプティブ・ディシジョン・ハーモナイザーは,セマンティックアンカーの幾何学的整合性を維持し,分類器を調和させる。

    Link: https://arxiv.org/abs/2604.16207

  • 非言語性発声を含む音声合成のためのベンチマーク:NVBench [cs.SD]目的:非言語性発声を用いた音声合成の評価
    • 人間らしい自然な音声合成には,笑いやため息などの非言語性発声が不可欠である。
    • 非言語性発声の意図した生成,適切な配置,そして音声品質への影響を総合的に評価する標準的な手法が不足している。
    • 多様な制御インターフェース下で,システム間の公平な比較を可能にする標準化された評価フレームワークを提供すること。
    • NVBenchは,英語と中国語の二言語に対応したデータセットと,汎用的な音声品質と非言語性発声の制御性を分離評価する多軸プロトコルを備えている。
    • 15のTTSシステムを客観的指標,リスニングテスト,LLMを用いた多評価者評価で比較した結果,非言語性発声の制御性と音声品質は必ずしも相関しないことが明らかになった。
    • 低SNRの口腔的手がかりや,長時間の情動的な非言語性発声が,依然として大きな課題であることが示された。

    Link: https://arxiv.org/abs/2604.16211

  • GAViD:文脈を考慮したグループの感情認識のための大規模マルチモーダルデータセット [cs.CV]目的:文脈を考慮したグループの感情認識
    • 現実世界の社会システム理解には不可欠であり,複雑な環境下での人間相互作用のモデル化・分析を可能にする。
    • 大規模なアノテーション付きデータセットが不足しており,文脈や行動の多様性により,現実環境での感情認識は困難である。
    • マルチモーダルかつ文脈情報を備えた包括的なデータセットを提供し,グループの感情認識技術の進歩を目指す。
    • GAViDデータセットは,動画,音声,文脈を含む5091の動画クリップで構成され,感情価や離散的な感情ラベルが付与されている。
    • また,VideoGPTで生成された文脈メタデータや人間による行動の手がかりも付与されている。
    • 提案するCAGNetはGAViDにおいて63.20%のテスト精度を達成し,最先端技術と同等の性能を示した。

    Link: https://arxiv.org/abs/2604.16214

  • なぜオープンソースなのか:AI競争のゲーム理論的分析 [cs.GT]目的:AI競争におけるオープンソース化とクローズドソース化の判断力学
    • AI技術の急速な発展は,社会に大きな変革をもたらす可能性を秘めている。
    • AI開発競争において,技術の公開範囲が戦略的な課題となっている。
    • AI開発におけるオープンソース化の判断基準を解明し,政策立案に貢献すること。
    • 本研究では,ゲーム理論モデルを用いてAI競争におけるオープンソース戦略を分析した。
    • 離散的な判断の場合,ナッシュ均衡の存在判定はNP困難だが,MIP問題に変換することで小規模な事例に対応可能である。
    • 連続的な判断の場合,凸解析を用いることでナッシュ均衡の存在と計算可能性を示し,MIPによる定式化も実現した。

    Link: https://arxiv.org/abs/2604.16227