arXiv雑要約

画像・音声 - 2026/04/28 公開

  • 材料埋め込みとプロキシ相互作用モデリングによる汎化可能な摩擦係数推定 [cs.RO, cs.GR]目的:任意の材料ペア間の摩擦係数推定
    • ロボティクス,デジタルファブリケーション,物理ベースシミュレーション等において,摩擦係数の正確な推定は不可欠である。
    • 材料数が増加すると,全ての組み合わせに対する実験が必要となり,計算量が急激に増加する。
    • 少数のプロキシ材料を用いて,任意の材料ペア間の摩擦係数を高精度に推定し,実験コストを削減すること。
    • 提案手法では,材料を低次元空間に埋め込み,その埋め込み表現を用いて摩擦係数を予測する。
    • シミュレーションおよび実測データを用いた実験により,高い予測精度と頑健性が確認された。
    • プロキシ材料を用いた実験回数を大幅に削減し,実験コストの削減に貢献する。

    Link: https://arxiv.org/abs/2604.24188

  • Omni-o3:熟慮的なオーディオビジュアル推論のための深層ネストされた全様相推論 [cs.CV]目的:全様相推論による,複雑なオーディオビジュアルタスクにおける効率的な推論能力の向上
    • マルチモーダル理解は,高度な情報処理において不可欠であり,多様な情報源を統合する能力が求められる。
    • 既存の手法では,推論経路の共有が不十分であり,複雑なタスクにおける探索効率やエラーの蓄積が課題である。
    • 深層ネストされた推論ポリシーに基づき,推論経路の共有を促進し,効率的かつ正確な推論を実現することを目指す。
    • Omni-o3は,推論を動的な再帰的探索として定式化し,推論の初期段階を異なる経路で共有することで,探索効率を高める。
    • 2段階のトレーニングパラダイムにより,再帰的探索パターンを学習し,深層ネストされた推論を促進する。
    • 11のベンチマークにおいて競争力のある性能を示し,包括的なオーディオビジュアル推論能力を実現した。

    Link: https://arxiv.org/abs/2604.24191

  • 海上におけるコンテナ喪失の早期検知に向けたコンピュータビジョン [cs.CV]目的:海上におけるコンテナ喪失の早期検知システム
    • 世界貿易の基盤であるコンテナ輸送において,安全,環境,経済的損失を防ぐことが重要である。
    • 積載マニュアル遵守にも関わらず,海象条件によりコンテナが不安定になり,喪失事故が発生する。
    • 既存のカメラを用いた低コストなシステムにより,コンテナの不安定化を早期に検知し,事故を未然に防ぐ。
    • 提案手法は,実際の船舶映像において,様々な海象条件下でコンテナレベルの動きを効果的に検出し,分離することが示された。
    • 本システムは,乗組員への早期警報や航行調整を可能にし,貨物安全,運用回復力,規制遵守を向上させる。
    • 光学フローと残差運動抽出を用いることで,コンテナの相対的な動きを定量的に評価できることが明らかになった。

    Link: https://arxiv.org/abs/2604.24193

  • ドリフトモデルに基づく音声強調 [cs.SD, cs.AI, eess.AS, eess.SP]目的:音声強調の新たな生成フレームワーク
    • 現代社会において,音声通話や録音の品質向上は重要性が高い。
    • 従来の音声強調は,計算コストの高い反復処理を必要とする場合が多い。
    • 本研究は,一ステップで高品位な音声強調を実現する手法を提案する。
    • 提案手法DriftSEは,ノイズ除去を平衡問題として定式化し,一ステップで推論を行う。
    • DriftSEは,学習された補正ベクトルであるドリフト場により,高密度領域へサンプルを導く。
    • VoiceBank-DEMANDベンチマークにおいて,拡散モデルを凌駕する性能を達成した。

    Link: https://arxiv.org/abs/2604.24199

  • サイバーナイフ放射線治療後の頭蓋底髄膜腫の容積変化予測:Radiomicsおよび臨床特徴に基づく [cs.CV]目的:頭蓋底髄膜腫の容積変化予測モデルの開発
    • 頭蓋底髄膜腫は治療が難しく,患者への最適な治療選択が課題である。
    • サイバーナイフ治療の効果は患者によって異なり,効果予測が困難である。
    • 治療効果の指標となる容積変化を予測し,治療効果の高い患者を選別する。
    • Radiomicsと臨床特徴を組み合わせた機械学習モデルにより,容積変化予測の精度向上が示された。
    • 特にTabPFNモデルは,AUC 0.81という高い予測性能を示し,優れた分類指標が得られた。
    • 小規模データセットかつ高次元データにおいても,高度な機械学習と厳密な検証により効果的な予測が可能であることが示唆された。

    Link: https://arxiv.org/abs/2604.24230

  • レーザー粉末床融合における複雑形状のグラフ拡張セグメンテーション:インシトゥ検査の向上 [cs.CV]目的:レーザー粉末床融合における複雑形状のセグメンテーション手法
    • 積層造形技術の品質管理において,インシトゥ検査・モニタリングの重要性が高まっている。
    • 従来のセグメンテーション手法は,照明条件や積層ごとの画素強度変化に弱いという課題がある。
    • 本研究は,空間的・層間での光度変動に強い,ロバストなセグメンテーション手法を開発する。
    • グラフニューラルネットワークを組み込んだU-Netアーキテクチャにより,全体的な幾何学的情報を保持し,セグメンテーションの整合性と精度を向上させた。
    • 格子構造のインシトゥ再構築におけるベンチマークテストで,提案手法は既存手法と比較して優れた性能を示した。
    • 本手法は,産業環境におけるスケーラブルなインシトゥ検査・幾何学的検証ソリューションとしての可能性を示す。

    Link: https://arxiv.org/abs/2604.24234

  • 視覚に基づくハンドトラッキングを用いた非接触手術中画像アクセスシステム [cs.CV]目的:手術中の画像操作手法
    • 手術現場では,清潔保持と手術の流れを阻害しない操作が不可欠であるため,非接触操作技術が重要視される。
    • 従来の画像操作は,接触による汚染リスクや,操作者の負担が大きいという課題があった。
    • 本研究は,手を使った直感的で安価な非接触画像操作システムを提供し,手術の効率化を目指す。
    • 本システムは,追加のハードウェアや個別トレーニングを必要とせず,単一のRGBカメラとMediaPipe Handsを用いてリアルタイムなハンドトラッキングを実現した。
    • 実験の結果,低遅延かつ安定した制御が可能であり,滑らかな画像操作が実現できることが示された。
    • 本システムは,手術中の画像アクセスにおける低コストな非接触ソリューションの実現可能性を示し,臨床評価への道を開く。

    Link: https://arxiv.org/abs/2604.24235

  • マルチクラスセマンティックセグメンテーション損失関数のインスタンス認識 [cs.CC, cs.CV]目的:マルチクラスセマンティックセグメンテーションにおけるインスタンス認識損失関数の効果検証
    • セマンティックセグメンテーションは,画像内の各ピクセルに意味情報を付与する重要な技術である。
    • セグメンテーションタスクでは,インスタンス間の不均衡やクラス間の不均衡が課題となる。
    • 本研究では,マルチクラスセグメンテーションにおけるクラス不均衡を緩和する手法を提案する。
    • マルチクラスCC損失は,前景Dice係数と希少クラスDice係数を改善し,Panoptic Qualityを維持した。
    • マルチクラスBlob損失は,閾値0.5における最高のPanoptic Qualityと認識品質を達成した。
    • パーコンポーネント損失に逆サイズ重み付けを統合することで,希少クラスDice係数を向上させた。

    Link: https://arxiv.org/abs/2604.24276

  • RAS:自動音声認識のための信頼性指向指標 [cs.SD, cs.AI]目的:自動音声認識システムの信頼性評価
    • 音声認識は,様々なアプリケーションにおいて重要な役割を担う技術である。
    • 従来の評価指標では,誤認識と信頼性の低さに十分に対応できていない。
    • 不確実な箇所を回避し,信頼性と精度のバランスを取る指標を提案する。
    • 本研究では,信頼性を考慮した新たな指標RASを提案し,人間の好みに基づいてパラメータを調整した。
    • RASは,音声認識モデルが不確実な部分を適切に回避するよう促し,信頼性の高い転写を実現する。
    • 実験の結果,RASを用いることで,精度の低下を抑えつつ,転写の信頼性が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2604.24278

  • ReVSI:VLM 3D推論の正確な評価のための視覚空間知能評価の再構築 [eess.SY, cs.SY, cs.RO, cs.CV]目的:VLMにおける3D推論の空間知能評価の妥当性向上
    • VLMの発展に伴い,空間知能の評価は重要性を増している。
    • 既存の評価基準は,VLM環境下で不正確なQAペアを含む場合がある。
    • モデルの入力に基づいた,正しく答えられるQAペアの提供を目指す。
    • ReVSIは,既存のデータセットを再アノテーションし,質の高いQAペアを生成した。
    • フレーム数やオブジェクトの可視性に関する情報を付与し,評価の制御性を高めた。
    • ReVSIを用いた評価により,既存の基準では見過ごされていたVLMの課題が明らかになった。

    Link: https://arxiv.org/abs/2604.24300

  • 承認型複数勝者投票の説明システム [cs.GT]目的:承認型複数勝者投票における説明システムの提案
    • 多様な選択問題に応用可能であり,集合選択における偏好の表現として重要である。
    • 既存研究は二分プロポーショナリティに焦点を当て,詳細な影響度分析が不足していた。
    • 有権者と候補者の関係性を定量化し,選考理由を明確化することを目指す。
    • 価格システムを説明の枠組みとして提案し,各有権者の予算と候補者の価格を割り当てた。
    • 構造の一貫性,影響度の正確な帰属,プロポーショナリティとの整合性を満たす公理を提案した。
    • 実験により,提案手法が確立されたプロポーショナリティ概念と相関し,不均衡な影響度を捉えられることを示した。

    Link: https://arxiv.org/abs/2604.24307

  • BIMStruct3D:統合トポロジー修正による完全自動ハイブリッド学習スキャン to BIMパイプライン [cs.CV]目的:建築スキャンからのBIM自動生成
    • 建築および建設業において,BIMは設計・施工の効率化に不可欠である。
    • 点群データからのBIM自動生成は複雑であり,精度と効率の向上が課題である。
    • 点群データから高精度かつ効率的にBIMを生成するパイプラインの確立を目指す。
    • 提案手法は,学習に基づくセマンティックセグメンテーションとトポロジーを考慮した幾何学的再構成を組み合わせる。
    • vIoUという新しい評価指標を導入し,再構成モデルと正解モデルの全体的な比較を可能にした。
    • DeKHデータセットとCV4AECデータセットでの実験により,RANSACベースラインと比較して大幅な改善が示された。

    Link: https://arxiv.org/abs/2604.24311

  • 制約なし多視点人体姿勢推定における代数事前知識の活用 [cs.CV, cs.AI]目的:制約なし多視点画像からの3次元人体姿勢復元
    • 現実世界の応用を考慮すると,正確なカメラキャリブレーションが困難な場合が多い。
    • 既存手法は正確なカメラキャリブレーションに依存するため,汎用性に課題がある。
    • カメラキャリブレーションなしで高精度な姿勢推定を実現し,汎用性を高める。
    • 提案手法は,Transformer回帰と代数事前知識,時間的ダイナミクスを組み合わせたフレームワークである。
    • Triangulation with Transformer Regressor (TTR)により,カメラパラメータに依存しない三角測が可能となった。
    • Gröbner basis Corrector (GC)とTemporal Equivariant Rectifier (TER)により,幾何学的制約と時間的一貫性が保証され,性能が向上した。

    Link: https://arxiv.org/abs/2604.24312

  • セント・ジョンズ共大聖堂の大規模写真測量記録:文化遺産保存のためのワークフロー [cs.GR]目的:文化遺産のデジタルアーカイブ構築と活用
    • 文化遺産の記録は,その価値を後世に伝える上で不可欠である。
    • バロック建築のような複雑な空間や反射率の高い素材のデジタル化は困難を伴う。
    • 大規模かつ複雑な文化遺産の効率的かつ正確なデジタル記録手法を確立すること。
    • 聖ジョンズ共大聖堂において,99,000枚の画像とLiDARスキャンを用いて,250億~300億個の三角形からなる高精細な3D再構成を生成した。
    • 画像グレーディングやAI支援ノイズ除去,LiDAR点群のクリーニング,RealityCaptureによるハイブリッド写真測量再構成など,独自のワークフローを確立した。
    • ガウシアン・スプラッティングの実験的応用も提示し,災害復旧,保存分析,バーチャルツアー,学術研究など,多目的な保存用途への貢献を示した。

    Link: https://arxiv.org/abs/2604.24316

  • 停止するな!ストリーミングビデオにおける全ての予測が重要である [cs.CV]目的:ストリーミングビデオにおけるリアルタイムなイベント認識とアシスタント能力の評価
    • ビデオ理解は,監視,自動運転,ロボット工学など,多様な応用分野で不可欠である。
    • 既存のVideoQAベンチマークは,ビデオを一時停止して評価するため,リアルタイム処理能力を検証できていない。
    • 本研究は,リアルタイムなストリーミング予測を評価するための新しいベンチマークと適応手法を提案する。
    • 新しいベンチマークSPOT-Benchは,マルチターン形式でストリーミングビデオの理解度を評価する。
    • オフラインモデルはイベント検出は得意だが,無関係な予測を頻繁に行うことが明らかになった。
    • AsynKVは,オフラインモデルをベースに,dead-timeを利用して効率的に処理を行うことで,ストリーミング性能を向上させる。

    Link: https://arxiv.org/abs/2604.24317

  • 学習可能な代数群と環構造を持つニューラルネットワークによる単眼深度推定 [cs.CV]目的:単眼深度推定における精度と汎化性能の向上
    • 単眼深度推定は,自動運転やロボット工学など,様々な応用分野で重要性を増している。
    • 従来の深層学習アプローチは,画像から深度を推定する際に,透視投影の持つ代数構造を無視している。
    • 本研究は,代数幾何学に基づき,深度推定に代数群,環,層構造を導入することで,この問題を解決する。
    • 提案手法LAGRNetは,代数群作用をパラメータ化し,射影等変性および視点変化に対するロバスト性を実現する。
    • 環畳み込み層(RCL)を導入することで,代数的に整合性の取れたクロススケール相互作用を促進する。
    • KITTI,NYU-Depth V2,ETH3Dのベンチマークにおいて,最先端手法を大幅に上回る性能を示す。

    Link: https://arxiv.org/abs/2604.24328

  • 安価で装着可能なステレオ視線追跡プラットフォーム [cs.CV]目的:ステレオ視線追跡プラットフォームのハードウェアアーキテクチャと較正パイプライン
    • 視線追跡技術は,ヒューマンコンピュータインタラクションや認知科学において重要な役割を担う。
    • 既存のウェアラブル視線追跡装置は,アルゴリズム開発の柔軟性や比較評価が不十分である。
    • 本研究は,アルゴリズム開発と評価のための柔軟性と拡張性を備えたプラットフォームを提供する。
    • 本プラットフォームは,市販品と3Dプリント部品を用いて安価に構築可能である。
    • 複数の視線追跡パラダイム(ステレオ,グlintベース,双眼)を単一のハードウェア構成でサポートする。
    • ハードウェア設計とドキュメントはオープンアクセスで公開されている。

    Link: https://arxiv.org/abs/2604.24331

  • より遠くを見て,より深く考える:低レベル視覚的手がかりと反省によるVLMの推論能力の向上 [cs.CV, cs.AI]目的:VLMの推論能力向上
    • 視覚と言語を組み合わせるVLMは,多様なタスクに応用可能であり,AI研究において重要性が増している。
    • 既存VLMは,低レベル視覚情報の活用不足や効果的な視覚的フィードバックの欠如により,推論能力に限界がある。
    • 本研究は,低レベル視覚的手がかりと反省メカニズムを導入することで,VLMの推論能力を改善することを目指す。
    • 提案手法ForeSightは,低レベル視覚ツールとマスクに基づく視覚的フィードバックにより,VLMの推論過程を強化する。
    • ForeSightは,強化学習を用いてツール利用と回答検証を自律的に決定し,回答精度を向上させる。
    • 新たなデータセットCG-SalBenchを用いた実験により,ForeSight-7Bが同規模モデルや既存SOTAモデルを上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.24339

  • SycoPhantasy: 小規模オープンウェイトVLMにおけるおべっか行為と幻覚の定量化 - ファンタジーキャラクターの視覚言語スコアリング [cs.CV, cs.AI]目的:視覚言語モデルにおけるおべっか行為と幻覚の定量化
    • 画像理解を要するタスクで視覚言語モデルの利用が増加しているため,その信頼性評価が重要である。
    • 画像とテキストの整合性評価において,視覚的根拠に基づかない高スコアを出す「おべっか行為」が問題となっている。
    • 小規模VLMにおけるおべっか行為の度合いを定量化し,モデルサイズとの関係を明らかにすること。
    • モデルサイズと「おべっか行為」の割合の間に強い負の相関関係が見られた(r = -0.96, p = 0.002)。
    • 特に小型モデル(LFM2-VL, 450M)では22.3%のケースでおべっか行為が見られ,最大モデル(LLaVA-1.6, 7B)の6.0%と比較された。
    • この結果は,属性が豊富な合成画像評価タスクにおいて,小型VLMを自動評価者として利用する際の注意点を示唆する。

    Link: https://arxiv.org/abs/2604.24346

  • 拡散テンプレート:制御可能な拡散のための統合プラグインフレームワーク [cs.LG, cs.AI, cs.CV, cs.SE]目的:制御可能な拡散モデルの統合と拡張性向上
    • 拡散モデルは画像生成において高い性能を示すが,制御方法の多様性が課題となっていた。
    • 制御手法が拡散モデルごとに異なり,再利用性や組み合わせが困難であった。
    • 拡散モデルの制御機能を共通化し,柔軟な拡張と多様なタスクへの適用を目指す。
    • 拡散テンプレートは,ベースモデルと制御機能を分離するプラグインフレームワークである。
    • これにより,異なる制御方法を容易に組み合わせ,様々な拡散モデルに適用可能となる。
    • 構造制御,明るさ調整,超解像など広範なタスクにおいて,高いモジュール性と拡張性を示した。

    Link: https://arxiv.org/abs/2604.24351

  • ARETE:HSV変換されたクラウドソーシング車両隊データを用いたトポロジー推定のための注意機構に基づくラスタライズ化エンコーディング [cs.NI, cs.SY, eess.SY, cs.CV, cs.AI, cs.LG, cs.RO]目的:クラウドソーシング車両隊データからの中心線と車線境界線の生成
    • 自動運転技術の発展は,安全性と効率性を確保するため,様々な分野に課題をもたらしている。
    • 高精度なHDマップの維持・更新は重要だが,従来の作成方法はコストや時間,情報の鮮度が課題である。
    • クラウドソーシングデータを活用し,効率的かつリアルタイムなHDマップの生成を目指す。
    • 提案手法では,車両の走行軌跡をラスタライズ化し,DETRを用いてベクトル化された車線表現を予測する。
    • 局所タイルから車両の走行軌跡を集約し,軌跡の存在と方向をエンコードしたラスタ表現を生成する。
    • nuScenesやnuPlanを含むデータセットを用いた実験で,本手法の有効性が確認された。

    Link: https://arxiv.org/abs/2604.24353

  • 樹種分類のためのマルチスペクトル航空レーザースキャニングデータセット:MS-ALS-SPECIES [cs.CV]目的:樹種分類のための公開マルチスペクトル航空レーザースキャニングデータセット
    • 生物多様性マッピングは,特に重要な役割を担う樹種を含む森林生態系の理解に不可欠である。
    • 高品質な現地検証データを含む公開された航空レーザースキャニングデータセットが不足している。
    • マルチスペクトルデータを用いた樹種分類のための,高品質なデータセットの提供と活用可能性の検証。
    • 本データセットは,フィンランド南部の9樹種を対象とした6326個の個木レベル点群を含む。
    • ヘリコプター搭載システムとOptech Titanシステムを用いてデータを取得し,点密度に違いがある。
    • マルチスペクトルデータを用いた樹種分類精度と樹高の関係を分析し,小型樹種や少数種に対する点変換器モデルの優位性を示した。

    Link: https://arxiv.org/abs/2604.24370

  • オーバーセグメンテーション最小化のためのイベントベースのシーケンスモデリングによる非三和音認識への取り組み [cs.SD, eess.AS]目的:非三和音認識におけるオーバーセグメンテーションの最小化
    • 音楽情報処理の発展に伴い,楽曲の自動和音認識技術の重要性が増している。
    • 既存の和音認識システムは,特に複雑な非三和音の認識において,過剰なセグメンテーションやデータ不足の問題を抱えている。
    • セグメントレベルのシーケンスモデリングにより,和音変化の検出精度を向上させ,オーバーセグメンテーションを抑制することを目指す。
    • 本研究では,和音認識とセグメンテーションの両方において性能が向上し,特に複雑で出現頻度の低い和音タイプで顕著な改善が見られた。
    • 和音認識をセグメントレベルのシーケンス予測タスクとして再構築することで,過剰なセグメンテーションを効果的に軽減することが示された。
    • 構造化されたトークン化と表現学習が,和音認識システムの高度化に貢献することが明らかになった。

    Link: https://arxiv.org/abs/2604.24386

  • 自己教師あり深層ReLUネットワークにおける線形領域の複雑性 [cs.RO, cs.LG, cs.CV]目的:自己教師あり学習モデルが生成する線形領域の局所分布
    • 深層学習の性能向上には,表現空間の最適化が不可欠である。表現空間の構造理解が重要となる。
    • 従来の線形領域の複雑性研究は,教師あり学習に限定されていた。自己教師あり学習における知見が不足している。
    • 自己教師あり学習における線形領域の進化と表現品質の関係を解明し,表現学習の指標を確立する。
    • 自己教師あり学習は,教師あり学習と同等の精度を達成するために,より少ない線形領域を生成することが示された。
    • コントラスト学習は時間の経過とともに領域を急速に拡大する一方,自己蒸留法は隣接する領域を統合する傾向にある。
    • 線形領域の幾何学的特性は,表現崩壊の早期検出や表現品質の信頼できる指標として活用できる可能性が示唆された。

    Link: https://arxiv.org/abs/2604.24393

  • 大域的文脈か局所的詳細か?幻覚軽減のための適応的視覚的接地 [cs.CV, cs.AI]目的:ビジョン-言語モデルにおける物体幻覚の軽減
    • 視覚情報と言語情報を統合するモデルは,様々な応用において重要である。
    • 既存モデルは言語的な事前知識に過度に依存し,視覚的事実と矛盾する幻覚を起こしやすい。
    • 視覚的注意の偏りを修正し,より忠実な記述生成を目指す。
    • 提案手法であるPNDは,モデルの再学習を必要とせずに推論時に幻覚を大幅に軽減する。
    • PNDは,重要な視覚的証拠を増幅し,無根拠な生成を抑制する二重経路コントラストを用いる。
    • POPE,MME,CHAIR等のベンチマークにおいて,最先端の性能を達成し,精度を最大6.5%向上させる。

    Link: https://arxiv.org/abs/2604.24396

  • 輝きは必ずしも音声ではない:音声言語評価におけるテキスト事前知識と音声依存性の再考 [cs.SD, cs.AI, cs.CL, eess.AS]目的:音声言語評価におけるテキスト事前知識と音声依存性の評価フレームワーク
    • 音声言語モデルの性能向上は目覚ましいが,そのスコアが真の聴覚知覚を反映しているかは不明である。
    • モデルが音声信号を処理せずに質問に答えられる場合,ベンチマークは聴覚理解の指標として機能しない。
    • ベンチマーク性能と堅牢な音声理解との乖離を明らかにし,評価の信頼性とベンチマーク設計の改善を目指す。
    • 大規模言語音声モデルは,音声なしでも高いスコアを維持しており,その割合は60〜72%に達する。
    • 音声が必要な項目でも,完全な音声クリップが必要なものはわずか3.0〜4.2%に過ぎず,大部分は局所的な断片で解決可能である。
    • ベンチマークの性能は,必ずしも堅牢な音声理解を意味しないことが示唆され,信頼性の高い評価のための指針が提示される。

    Link: https://arxiv.org/abs/2604.24401

  • AD-Relight:拡散事前知識を用いた照明変換による学習不要バナー再照明 [cs.HC, cs.CV]目的:カスタムバナーのシームレスなシーン統合を可能にする再照明フレームワーク
    • 動画配信サービスの普及により,パーソナライズされた広告の需要が高まっている。
    • 既存の広告配置手法は,シーンの照明条件を無視した単純な幾何学的変換に頼っている。
    • 広告バナーデータで訓練されていない拡散モデルの再照明の精度向上を目指す。
    • AD-Relightは,拡散ベースの再照明モデルをテスト時に適応させ,Photoshop生成の広告バナーを再照明する。
    • 定量評価の結果,AD-Relightは既存の手法よりも優れた性能を示した。
    • ユーザ調査では,参加者はAD-Relightの出力結果を以前の手法よりも好ましいと一貫して評価した。

    Link: https://arxiv.org/abs/2604.24407

  • 位相分離複素ヒルベルトPCAによるマーカーレス3D姿勢推定データ:全身位相ネットワークとその身体表面上連続場への拡張 [cs.SI, cs.CV, eess.SP]目的:スポーツ動作における運動連鎖の定量分析
    • スポーツパフォーマンス評価や傷害予防において,運動連鎖の分析は不可欠である。
    • 従来の運動連鎖分析や連続相対位相は,隣接する関節ペアに限定され,全身の協調性を統一的に捉えられない。
    • 本研究は,全身協調性を捉えるための連続位相場を提案し,運動連鎖の新たな分析手法を提供する。
    • 本フレームワークは,打撃動作において,体幹を基点とする全身位相アーキテクチャを明らかにした。
    • 準備期と実行期の間で位相パターンに機能的な非対称性が認められ,その一貫性が確認された。
    • 提案手法は,運動学的記述と運動エネルギーの動員との間に強い相関関係があることを示した。

    Link: https://arxiv.org/abs/2604.24415

  • BMD-45:発展途上都市の都市交通における大規模CCTV車両検出データセット [cs.CV]目的:発展途上都市における都市交通のための大規模なCCTV車両検出データセット
    • 交通システムの高度化には,車両検出技術が不可欠である。都市の安全性と効率性を向上させる上で重要な役割を果たす。
    • 既存のデータセットは,交通状況や撮影環境が限られており,発展途上都市の複雑な交通状況への対応が課題となっている。
    • 発展途上都市の交通状況に適した,多様で大規模な車両検出データセットの構築とその有効性評価。
    • 新たなデータセットBMD-45は,45,000枚の画像に48万個のバウンディングボックスをアノテーションしている。
    • UA-DETRACでファインチューニングしたモデルは,BMD-45上でわずか33.6%のmAP@0.50:0.95しか達成できず,ドメインギャップが示された。
    • BMD-45上で学習したモデルは83.8%のmAP@0.50:0.95を達成し,多様な都市環境での車両検出の重要性が確認された。

    Link: https://arxiv.org/abs/2604.24419

  • DYMAPIA:AIによる動画操作検出のためのマルチドメインフレームワーク [cs.CV]目的:AI生成動画の操作検出
    • AI技術の発展に伴い,コンテンツの信頼性確保が重要になっている。
    • 既存手法では,AI操作の痕跡を的確に捉えきれない場合がある。
    • 動画内の微細な操作痕跡を捉え,高精度な検出を実現すること。
    • DYMAPIAは,空間,スペクトル,時間領域の特徴を融合し,AI操作の痕跡を高精度に検出する。
    • 動的異常マスクと軽量な分類器DistXCNetを組み合わせることで,リアルタイムでの操作検出を可能にした。
    • FF++,Celeb-DF,VDFDのベンチマークで99%を超える精度とF1スコアを達成し,最先端の結果を示した。

    Link: https://arxiv.org/abs/2604.24426

  • AutoGUI-v2:包括的なマルチモーダルGUI機能理解ベンチマーク [cs.FL, cs.SY, eess.SY, cs.CV]目的:GUI機能理解とインタラクション結果の予測に関する評価基準
    • デジタル生産性の向上に貢献する自律エージェント開発が期待される分野である。
    • 既存のベンチマークは表面的で,GUIの機能や遷移ロジックの理解を十分に評価できていない。
    • GUIの深層的な機能理解とインタラクション結果予測能力を評価する基準を確立すること。
    • AutoGUI-v2は,6つのOSに対応する2,753のタスクから構成される包括的なベンチマークである。
    • オープンソースモデルは機能の特定に優れる一方,商用モデルは機能の説明で高い性能を示した。
    • 複雑なインタラクションロジックにおける理解は依然として困難であり,深層的な機能理解が課題である。

    Link: https://arxiv.org/abs/2604.24441

  • レイアウトを考慮したテキストレンダリングのためのプロンプト対応データセットTextGround4M [cs.AR, cs.CV]目的:プロンプトと正確なテキスト・レイアウトが対応付けられた大規模データセット
    • 画像生成技術の発展に伴い,テキストの正確な配置が重要視されている。
    • プロンプトで指定されたテキストを正確なレイアウトでレンダリングすることが困難である。
    • プロンプトとレイアウトが対応したデータセットと,評価指標の不足を解消する。
    • TextGround4Mは,400万組を超えるプロンプト・画像ペアから構成される。
    • TextGround4Mで学習させたモデルは,テキストの忠実度,空間精度,プロンプトの一貫性が向上した。
    • レイアウトを考慮した2つの評価指標が新たに提案された。

    Link: https://arxiv.org/abs/2604.24459

  • セマンティック画像検索のための自己教師あり視覚表現の幾何学的分析 [cs.IR, cs.CV]目的:セマンティック画像検索における自己教師あり視覚表現の幾何学的特性
    • 画像検索は,メタデータに頼らず視覚コンテンツに基づいて画像を探す技術であり,多様な分野で重要性が増している。
    • 既存の自己教師あり学習法は,画像検索の分野で十分に活用されておらず,性能向上の余地がある。
    • 潜在空間の幾何学的特性が,近似最近傍探索に与える影響を明らかにすることで,セマンティック画像検索の性能向上を目指す。
    • 自己教師あり学習で得られた表現の潜在空間の幾何学的な構造が,近似最近傍探索の性能に影響を与えることが示された。
    • 特に,異方性が高く偏りの強い表現は,パーティションベースやハッシュベースの検索において性能劣化を引き起こすことが確認された。
    • 等方性が高く局所的な純度が高い表現は,近似最近傍探索の距離ベースの仮定を満たし,セマンティック画像検索の性能を向上させる。

    Link: https://arxiv.org/abs/2604.24469

  • ゼロからCADへ:大規模な実データなしで解釈可能なCADプログラムを生成するエージェント [cs.CV]目的:解釈可能なCADプログラムの生成
    • CADは設計意図を反映する重要なツールであり,その自動化は生産性向上に不可欠である。
    • 既存の大規模3Dデータは形状情報のみで,設計履歴などの手続き的情報が失われている。
    • 実データに依存せず,大規模なCADプログラムを生成し,CAD AIの発展に貢献すること。
    • 大規模言語モデルをCAD環境に組み込み,反復的にコード生成・実行・検証を行うことで,100万件の実行可能なCADシーケンスを合成することに成功した。
    • 生成されたデータを用いて,画像から編集可能なCADプログラムを再構成するモデルをファインチューニングした結果,GPT-5.2を含む既存手法を上回る性能を示した。
    • 本研究は,幾何学的な大規模さとパラメータの解釈可能性のギャップを埋め,次世代のCAD AIのための重要な資源を提供する。

    Link: https://arxiv.org/abs/2604.24479

  • 宇宙搭載エッジAIのための展開適合型低精度ニューラルアーキテクチャ探索 [cs.CV, cs.AI, cs.ET, cs.LG, cs.NE]目的:宇宙搭載エッジAIにおける,展開時の制約を考慮した低精度ニューラルアーキテクチャの探索
    • エッジAIは,リアルタイム処理能力が求められるため,低消費電力かつ高速な推論が重要である。
    • 従来のNASパイプラインでは,高精度での最適化後に低精度化を行うため,精度劣化が生じる場合がある。
    • 展開環境を考慮した低精度学習をNASに組み込み,精度劣化を抑制し,最適化と展開の整合性を高める。
    • 提案手法を宇宙搭載の船のセグメンテーションに適用した結果,mIoUは0.826に達し,モデルパラメータ数は95,791であった。
    • 従来の低精度化手法(0.78 mIoU)と比較して,精度損失を2/3まで回復し,モデルの複雑さを増やすことなく性能向上を実現した。
    • 本研究は,展開環境に合わせた数値制約をNASに組み込むことで,リソース制約のあるエッジAIのロバスト性と整合性を向上させることを示した。

    Link: https://arxiv.org/abs/2604.24492

  • クロスアテンションによるID条件付き拡散を用いたID一貫性のある顔入れ替え (Kurosuaten shon ni yoru ID joken tsuki kakusan o tsukatta ID ikkansei no aru kao irekae) [cs.CV]目的:ID一貫性のある顔入れ替え手法
    • 顔画像処理は,セキュリティやエンターテイメントなど幅広い分野で重要な役割を担う。
    • 既存手法は,IDの保持と写実性のバランスが難しく,制御性の限界やモード崩壊の問題がある。
    • 拡散モデルを用いて,ID保持と写実性を両立した高品質な顔入れ替えを実現する。
    • 提案手法CA-IDDは,視線,ID,顔解析を多スケールクロスアテンションで統合した初の拡散ベースの顔入れ替えアプローチである。
    • ID埋め込みを階層的アテンション層へ組み込み,正確かつ一貫性のあるID転送を可能にした。
    • FIDスコア11.73を達成し,FaceShifterやMegaFS等の既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2604.24493

  • ハイパースフェリック密度形状化による自己教師あり表現学習 [cs.CV]目的:自己教師あり表現学習における表現獲得手法
    • 近年,画像認識等の分野で,大量のデータから効率的に特徴量を学習する手法が重要視されている。
    • 既存の自己教師あり学習は経験則に頼ることが多く,理論的な裏付けに乏しい点が課題である。
    • 本研究では,理論的根拠に基づき,ハイパースフェリック空間における相互情報最大化を目指す。
    • 提案手法HyDeSは,画像の前景特徴に焦点を当てた学習を促し,VOC PASCAL等のセグメンテーションタスクで良好な性能を示した。
    • 一方で,細分類タスクにおいては性能が劣るという結果が得られた。
    • 潜在空間の幾何学的構造や学習ダイナミクスを詳細に分析し,他の自己教師あり学習手法設計への示唆を得た。

    Link: https://arxiv.org/abs/2604.24498

  • 事前知識に依存しないロバストな予測集約 [cs.CL, cs.LG, cs.GT]目的:ロバストな予測集約の理論的限界と最適化手法
    • 不確実な状況下での意思決定において,複数の情報源からの予測を統合することは重要である。
    • 従来のロバスト予測集約は,状態空間が既知の二値変数の場合に限定されていた。
    • 未知の状態空間におけるロバスト予測集約の性能向上と,その理論的限界の解明を目指す。
    • 本研究では,ロジット空間での線形結合を行うシンプルな予測集約ルールを提案した。
    • 提案手法は,未知の状態空間下において,条件付き独立な信号に対して0.0255の最悪ケース後悔を達成する。
    • 既知の状態空間{0,1}においては,0.0226未満の後悔を達成し,既存手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2604.24517

  • SPECT MPIとCTA画像の融合のための点群登録 [cs.CV]目的:SPECT MPIとCTA画像の融合による心臓評価の精度向上
    • 心臓病診断において,SPECT MPIとCTAの情報を統合することで,より詳細な評価が可能となるため重要である。
    • 従来の画像融合は,手動でのランドマーク設定に依存し,位置ずれが問題であった。
    • 点群登録技術を用いて,画像の位置ずれを自動的に補正し,正確な融合を実現することを目指す。
    • 提案手法は,CTA由来の冠動脈の詳細な情報を維持しつつ,SPECTの血流情報を正確に重ね合わせることができた。
    • 点群登録アルゴリズムの比較検討の結果,BCPD-plus-plusが最も高い精度を示し,平均点群距離は1.7mmであった。
    • 本手法は,特定の点群登録アルゴリズムに依存せず,心筋虚血の局在化と冠病変の機能評価に役立つ実用的な解決策を提供する。

    Link: https://arxiv.org/abs/2604.24524

  • セカンドプライスオークションにおける秘密の情報 [cs.GT]目的:セカンドプライスオークションにおける情報独立性
    • オークション設計は,資源配分や収益最大化において重要な役割を果たす。
    • 入札者の情報の相関性が僅かでも存在すると,収益が大きく変動する可能性がある。
    • 秘密の情報構造を設計することで,安定した収益と効率性を両立することを目指す。
    • 秘密の情報構造を用いることで,必ず最適効率的な結果が実現可能となる。
    • 厳密均衡が存在しない場合もあるが,それに近い収益を達成可能な構造も存在する。
    • 秘密の情報下では,入札者余剰が最大化される状況は限られ,事前分布に依存する。

    Link: https://arxiv.org/abs/2604.24530

  • RACANet:信頼度を考慮したRGB-T Crowd Countingのためのアンカーネットワーク [cs.CV]目的:RGB-T Crowd Countingにおける信頼度を考慮した密度推定手法
    • 複雑なシーンにおける群衆密度推定のロバスト性を向上させるため,可視スペクトルと熱赤外情報を統合することが重要である。
    • 既存手法は暗黙的なクロスモーダル融合に依存しており,位置レベルでの信頼度や空間的なずれを明示的にモデル化できていない。
    • クロスモーダル特徴の信頼度を考慮した明示的な融合による群衆密度推定の精度と解釈性の向上を目指す。
    • 提案手法RACANetは,2つの段階の融合フレームワークを持ち,RGB-T Crowd Countingにおいて優れた性能を示す。
    • 事前学習段階では,群衆優先の監督学習と局所的な双方向ソフトマッチングにより,クロスモーダルな意味的対応関係を明示的に学習する。
    • 学習段階では,信頼性の高い領域からの特徴を統合するLocal Anchor Fusion Module (LAFM)を導入し,局所的な注意メカニズムによる適応的なピクセルレベルの特徴再分配を可能にする。

    Link: https://arxiv.org/abs/2604.24543

  • 拡散モデルを汎用的なセグメンテーション学習器として [cs.CV]目的:テキスト条件付きセマンティックセグメンテーションとオープンボキャブラリセグメンテーションの実現
    • 画像認識技術は,自動運転や医療診断など幅広い分野で不可欠であり,その精度向上が求められている。
    • 既存のセグメンテーション手法は,特定のドメインやタスクに特化しており,汎用性に欠ける場合がある。
    • 拡散モデルの持つ潜在空間の表現力を活用し,多様なセグメンテーションタスクに対応できる汎用的なフレームワークを構築すること。
    • 事前学習済みの拡散モデルを再利用し,画像と正解マスクを潜在空間にエンコードすることで,統一されたセグメンテーションフレームワークDiGSegを開発した。
    • CLIPと連携させたテキストパスウェイを導入し,テキストクエリと視覚表現の整合性を高め,多様なプロンプトに対応できる構造化されたセグメンテーションマスクを生成する。
    • 標準的なセマンティックセグメンテーションベンチマークで最先端の性能を示し,医療,リモートセンシング,農業などへのドメイン適応性も確認された。

    Link: https://arxiv.org/abs/2604.24575

  • 知覚中心プロセス報酬モデルによる視覚言語モデルの性能向上 [cs.CV]目的:視覚言語モデルの推論能力向上のための手法
    • 視覚言語モデルは,画像とテキストを理解し関連付ける能力が求められ,多様な応用が期待されている。
    • 既存の強化学習によるアプローチでは,推論過程のエラーを特定・修正するための粒度が粗いという課題がある。
    • 本研究は,トークンレベルでのエラー特定を可能にし,より詳細な supervision signal を提供することで,推論能力の向上を目指す。
    • 提案手法Percevalは,画像と応答間の整合性をトークンレベルで評価し,知覚エラーを含む箇所を特定する。
    • Percevalを強化学習の過程に組み込むことで,幻覚的な箇所にペナルティを課し,より精度の高いモデルを学習できる。
    • Percevalを用いたテスト時スケーリングにより,他の戦略よりも安定した性能向上が確認された。

    Link: https://arxiv.org/abs/2604.24583

  • Point-MF:平均フローを用いた単一画像からのワンステップ点群生成 [cs.CV]目的:単一画像からの点群生成手法
    • 3次元物体の理解は,ロボティクスやコンピュータビジョンの分野において不可欠である。
    • 単一画像からの点群再構成は,遮蔽された部分の推論が必要であり,困難を伴う。
    • 高速かつ高精度な点群生成を実現し,実用的な応用を可能にすること。
    • Point-MFは,平均フローに基づき,少ない計算ステップで点群を生成する。
    • 拡散モデルと比較して推論速度が速く,生成された点群の品質も高い。
    • Denoised Space Anchorにより,生成の安定化と外れ値の削減に貢献する。

    Link: https://arxiv.org/abs/2604.24586

  • 主要化による視覚言語モデルのテスト時適応:モダリティ固有シフト下での改善 [cs.HC, cs.CV]目的:視覚言語モデルにおけるテスト時適応手法の改善
    • 視覚言語モデルは多様なタスクに応用可能であり,その汎用性が求められている。
    • 展開時に,視覚とテキストのモダリティが非対称的にシフトすることが課題である。
    • モダリティ信頼性を制御することで,テスト時適応の性能向上を目指す。
    • 提案手法MG-MTTAは,バックボーンを固定し,軽量なゲートまたはアダプターのみを更新する。
    • 意味保持的なテキストシフト下では,top-1精度が57.97%から66.51%に向上した。
    • 視覚とテキスト両方のシフト下では,top-1精度が21.68%から26.27%に向上した。

    Link: https://arxiv.org/abs/2604.24602

  • インフラ誘導型接続性強化道路クラック検出・推定 [cs.CV]目的:道路クラックの検出と推定
    • 道路インフラの老朽化が進み,安全確保と維持管理が喫緊の課題となっている。
    • 従来のクラック検出は,車両搭載カメラのみに依存し,検出精度に限界があった。
    • インフラからの情報を用いて,より高精度なクラック検出・推定を実現すること。
    • インフラと車両間のカスタム通信プロトコルを設計し,関心領域を効率的に伝送した。
    • 動的なクロッピングやフレーム選択といった画像処理により,クラック検出モデルに焦点を絞った画像を提供した。
    • 実験車両で検出パイプラインを実証し,クラック検出の有効性を確認した。

    Link: https://arxiv.org/abs/2604.24616

  • CF-VLA:ビジョン・言語・行動ポリシーのための効率的な粗精細行動生成 [cs.CV, cs.AI]目的:ビジョン・言語・行動ポリシーにおける効率的な行動生成手法
    • ロボットの自律性を高める上で,環境を理解し,適切な行動を生成する能力は不可欠である。
    • 既存の行動生成手法は,計算コストが高く,リアルタイム制約下では性能と効率のバランスが課題となっていた。
    • 本研究は,粗精細な二段階生成により,効率と性能を両立する行動生成手法を確立することを目的とする。
    • 提案手法CF-VLAは,行動を意識した初期点を構築することで,行動生成の効率性を大幅に向上させた。
    • CALVINおよびLIBEROの実験結果から,低NFE条件下で既存手法を凌駕し,高い性能と効率性を実現することが示された。
    • 実機ロボット実験では,平均成功率83.0%を達成し,MIPやπ0.5を大幅に上回る結果が得られた。

    Link: https://arxiv.org/abs/2604.24622

  • Meta-CoT:画像編集における粒度と汎化能力の向上 [cs.CV, cs.AI, cs.LG, cs.MM]目的:画像編集における理解の粒度と汎化能力を共同で向上させるCoTの形式と学習戦略
    • 画像編集技術は,多様な応用分野において重要な役割を担っており,その性能向上は求められている。
    • 既存の画像編集モデルは,複雑な編集意図の理解と,多様な編集タスクへの対応に課題がある。
    • 本研究は,より詳細な理解と汎化能力を実現するCoTパラダイムを提案し,画像編集の精度向上を目指す。
    • 提案手法Meta-CoTは,単一の画像編集操作を二段階で分解することで,編集意図の理解粒度を高める。
    • 編集タスクを5つの基本的なメタタスクに分解し,それらで学習することで,未知の編集タスクへの汎化性能を向上させる。
    • CoT-Editing Consistency Rewardを導入することで,CoT推論と編集行動の一貫性を高め,より正確かつ効果的な編集を実現する。

    Link: https://arxiv.org/abs/2604.24625

  • 360度テキスト・視覚セマンティクスのCLIPの理解度調査 [cs.CV]目的:360度パノラマ画像とテキストのセマンティックアライメントの評価におけるCLIPモデルの理解度
    • テキストから360度パノラマ世界を即座に生成する技術が発展しているが,セマンティックな整合性を評価する手段が課題となっている。
    • 既存のCLIPモデルは,一般的な画像とテキストのペアで訓練されており,360度パノラマ画像の特性を考慮した評価が困難である。
    • 360度パノラマ画像のセマンティックな理解度を測る新たな評価手法を提案し,CLIPモデルの限界を明らかにすること。
    • CLIPモデルは,明示的なテキスト識別子を効果的に活用し,360度テキストセマンティクスを理解していることが示された。
    • しかし,水平方向の円形シフトに対してセマンティックアライメントを維持できず,360度視覚セマンティクスに対する理解が限定的であることが明らかになった。
    • LoRAを用いたファインチューニングにより,円形シフトに対する不変性を学習させ,360度視覚セマンティクスの理解度を向上させた。

    Link: https://arxiv.org/abs/2604.24642

  • 同時到達可能性ゲームにおける相関均衡の検証 [cs.RO, cs.AR, cs.GT]目的:同時到達可能性ゲームにおける相関均衡及びサブゲーム完全相関均衡の検証問題
    • マルチエージェントシステムの安全性や拡張性を保証する形式検証の応用が重要視されている。
    • 従来の検証手法は決定的な設定に偏っており,確率的な拡張によるより高度な均衡概念の検証が課題である。
    • 相関均衡とサブゲーム完全相関均衡の計算複雑性を明らかにし,検証問題の難易度の違いを解析する。
    • 相関均衡の検証問題は,サブゲーム完全相関均衡の検証問題よりも計算量が多く,P-完全であることが示された。
    • ベイジアンネットワークによる簡潔な入力表現を用いることで,この計算量の差は解消されることが明らかになった。
    • 相関均衡はサブゲーム完全相関均衡よりも一般的であるにも関わらず,検証がより困難になるという,意外な結果が得られた。

    Link: https://arxiv.org/abs/2604.24655