arXiv雑要約

画像・音声 - 2026/04/21 公開

  • Privatar:セキュアオフローディングによるスケーラブルなプライバシー保護マルチユーザーVR [cs.CR, cs.AR, cs.CV, cs.SY, eess.SY]目的:プライバシー保護マルチユーザーVRにおけるスケーラブルなアバター処理手法
    • VR技術の発展に伴い,没入型体験の提供が重要視されている。特に,複数人同時参加型VRでは,アバター処理の負荷が課題となる。
    • 多数の参加者のアバターを各ヘッドセットでレンダリングすると計算負荷が大きく,スケーラビリティが制限されるという問題がある。
    • ヘッドセットからローカルネットワーク内の信頼できないデバイスへアバター再構成をオフロードし,セキュリティを確保することで,この問題を解決する。
    • Privatarは,アバター再構成を周波数領域分解することで,高エネルギー成分をデバイス上に保持し,低エネルギー成分のみをオフロードする水平分割(HP)を提案する。
    • また,ユーザーの表情変化の統計的分布をオンラインで追跡し,それに適応したノイズ注入を行うDistribution-Aware Minimal Perturbation (DAMP)を提案し,プライバシーを強化する。
    • Meta Quest Pro上での実験により,Privatarは同時接続ユーザー数を2.37倍に増加させ,再構成損失は6.5%増加,エネルギー消費は9%増加と,既存手法よりも優れたパフォーマンスを示すことが確認された。

    Link: https://arxiv.org/abs/2604.17476

  • ディープフェイクの解明:周波数認識トリプルブランチネットワークによるディープフェイク検出 [cs.CV, cs.LG]目的:ディープフェイク検出のための手法
    • ディープフェイク技術は急速に進歩しており,社会に大きな影響を与えている。
    • 既存手法は特定の周波数領域に集中しやすく,多様な偽造パターンへの対応が課題である。
    • 異なる特徴が同一領域に注目し,冗長な表現となる問題を解決する。
    • 本研究では,空間特徴と周波数特徴を同時に捉えるトリプルブランチネットワークを提案した。
    • 相互情報理論に基づいた特徴デカップリングと融合損失を導出し,タスク関連特徴への集中を促進する。
    • 大規模ベンチマークデータセットで最先端の性能を達成し,その有効性を実証した。

    Link: https://arxiv.org/abs/2604.17477

  • AutoVQA-G:自動視覚質問応答とグラウンディング注釈のための自己改善型エージェントフレームワーク [cs.CL, cs.CV]目的:自動視覚質問応答とグラウンディング注釈のための高品質なデータセット生成
    • 視覚と言語を理解するモデルの発展には,視覚的根拠と質問がペアになった高品質なデータが不可欠である。
    • 既存の自動化手法は,モデルの幻覚や単純なヒューリスティックに基づく脆弱な検証メカニズムが課題となっていた。
    • 一貫性評価とプロンプト最適化を通して,高品質で信頼性の高い視覚質問応答データセットを効率的に生成すること。
    • AutoVQA-Gは,Chain-of-Thought推論を用いた詳細な視覚的検証により,データ生成の一貫性を高めている。
    • 失敗事例の分析に基づき,プロンプトを最適化するエージェントにより,生成されるデータセットの品質を継続的に改善する。
    • 実験の結果,AutoVQA-Gは既存のマルチモーダルLLMと比較して,より高い視覚的グラウンディング精度を実現した。

    Link: https://arxiv.org/abs/2604.17488

  • 共同画像特徴拡散における共進化表現 [cs.CV]目的:共同画像特徴生成モデリングにおける表現空間の進化
    • 拡散モデルの性能向上には,低レベルと高レベルの表現の連携が重要である。
    • 従来のモデルでは,固定された表現空間がボトルネックとなり,生成性能を制限している。
    • 生成タスクに適応的に変化する表現空間を学習することで,生成品質の向上を目指す。
    • 提案手法CoReDiは,拡散モデルと軽量な線形射影を同時に学習し,表現空間を動的に進化させる。
    • 勾配停止,正規化,特徴崩壊防止のための正則化により,安定した共進化を実現している。
    • VAE潜在空間とピクセル空間の両方において,適応的な表現空間が生成モデリングの性能を向上させることを示した。

    Link: https://arxiv.org/abs/2604.17492

  • 編集忠実度フィールド:トレーニング不要なシーンテキスト編集のための意味論に基づいた領域分離 [cs.CV]目的:シーンテキスト編集における編集流出の抑制
    • シーンテキスト編集は画像内のテキストを操作する技術であり,現実世界への応用が期待される。
    • 既存の拡散モデルによる編集では,意図しない箇所までテキストが変更されてしまう「編集流出」が問題となっている。
    • 編集対象領域以外のテキストへの影響を最小限に抑え,編集の忠実性を向上させることを目指す。
    • 提案手法である編集忠実度フィールド(EFF)は,編集領域を精度高く分離し,編集流出を大幅に抑制する。
    • EFFは,OCRで検出されたテキスト領域に基づき,編集,遷移,保護,背景の4つのゾーンを定義し,ピクセル単位で編集の忠実度を制御する。
    • 実験により,EFFは編集流出率を94%から25%に低減し,非対象領域の保存性能を+91.4dB PSNR改善することを示した。

    Link: https://arxiv.org/abs/2604.17500

  • RS-HyRe-R1:リモートセンシング画像理解のための知覚的慣性を克服するハイブリッド報酬メカニズム [cs.CV, cs.AI]目的:リモートセンシング画像の理解における知覚的慣性を克服するためのハイブリッド報酬メカニズムの開発
    • リモートセンシング技術は,地球観測や資源管理など,多岐にわたる分野で重要な役割を担っている。
    • リモートセンシング画像の複雑さから,画像全体を網羅的に解析することが困難であり,局所的な特徴に偏った推論が行われやすい。
    • 本研究は,報酬メカニズムを工夫することで,リモートセンシング画像に対するより包括的な視覚的証拠の探索を促し,知覚的慣性を軽減することを目指す。
    • 提案手法RS-HyRe-R1は,空間的推論,知覚的正確性,視覚的・意味的経路進化の各報酬を組み合わせることで,「知覚的慣性」を効果的に抑制することを示した。
    • 30億パラメータという比較的小規模なモデルでありながら,REC,OVD,VQAタスクにおいて,最大70億パラメータのモデルを凌駕する最先端の性能を達成した。
    • また,VQA,OVD,RECタスクにおいて,ゼロショット汎化性能も高く,2番目に良いモデルをそれぞれ3.16%,3.97%,2.72%上回った。

    Link: https://arxiv.org/abs/2604.17504

  • 全員が納得する抽選法の学習:問い合わせによるアプローチ [cs.GT, cs.AI, cs.LG, cs.MA]目的:全員一致で受け入れられる抽選法の存在証明およびその発見
    • AIの重要性が増す中,利害関係者全員が納得できるシステム構築が不可欠である。
    • 複数利害関係者の許容基準を満たす抽選法の発見は,組み合わせ最適化問題として難しい。
    • 問い合わせを通じて効率的に抽選法を学習し,利害関係者全員の合意形成を目指す。
    • 提案手法は,全員一致の抽選法が存在する場合,それを決定的に発見できる。
    • 適応的な問い合わせ戦略により,利害関係者への質問回数を削減し,効率的な学習を実現する。
    • 学習支援アルゴリズムは,事前情報を用いることで,問い合わせ回数をさらに削減できる。

    Link: https://arxiv.org/abs/2604.17505

  • リアルタイムチェロ奏者の姿勢評価:オンデバイスコンピュータービジョンによるアプローチ [cs.HC, cs.CV]目的:チェロ奏者の姿勢評価システム
    • 楽器学習において姿勢は重要であり,負傷リスク軽減や効率的な奏法習得に繋がる。
    • 週一回のレッスンでは姿勢指導が不足し,自習時の姿勢劣化が課題である。
    • スマートフォンで姿勢評価を可能にし,自習時の姿勢指導の機会を増やす。
    • 本研究では,最新のAndroidスマートフォン上でリアルタイムにチェロ奏者の姿勢を評価するシステムを開発した。
    • オンデバイスコンピュータービジョン推論により,高価なハードウェアや多感覚セットアップを必要としない手軽さを実現した。
    • 専門家によるユーザビリティ評価の結果,アプリは使いやすく有益であるとの評価を得た。

    Link: https://arxiv.org/abs/2604.17530

  • テスト時適応のための二つの戦略 [cs.RO, cs.CV]目的:テスト時適応における性能向上
    • 機械学習モデルは,訓練データと異なる分布のテストデータに対して性能が低下することがある。
    • 従来のテスト時適応手法は,テストデータの限られた部分のみを利用するため,十分な適応が難しい。
    • より多くのテストデータを活用し,信頼性の高い適応を可能にすること。
    • 本研究では,DualTTAという新しいフレームワークを提案し,テストデータの多様性を活用することで分布シフト下での性能を向上させた。
    • DualTTAは,予測の信頼性に基づいてテストデータを二つのグループに分け,それぞれ異なる適応戦略を適用する。
    • 理論的分析と実験結果から,提案手法が信頼できるサンプルとそうでないサンプルをより明確に分離し,効果的なモデル更新を可能にすることが示された。

    Link: https://arxiv.org/abs/2604.17542

  • UniGeo:ビデオモデルによるカメラ制御可能画像編集のための幾何学的ガイダンスの統合 [cs.CV]目的:カメラ制御可能画像編集における幾何学的一貫性の維持と改善
    • 視覚的なコンテンツ生成において,カメラ視点の変更に対応できる技術の重要性が高まっている。
    • 既存手法では,幾何学的ガイダンスが断片的であり,連続的なカメラ移動時に幾何学的ドリフトや構造劣化が発生しやすい。
    • ビデオモデルの利点を活かしつつ,断片化された幾何学的ガイダンスを克服することで,より安定した幾何学的理解を目指す。
    • UniGeoは,表現,アーキテクチャ,損失関数という3つのレベルで統合された幾何学的ガイダンスを注入する新しいフレームワークである。
    • フレーム解結合幾何学的参照注入機構により,ロバストなクロスビュー幾何学的コンテキストを提供する。
    • 複数のベンチマーク実験において,UniGeoは既存手法と比較して,視覚品質と幾何学的整合性において大幅な改善を示した。

    Link: https://arxiv.org/abs/2604.17565

  • スポーツモーションキャプチャにおけるマルチカメラ自己較正:人間と棒のポーズの活用 [cs.CV, eess.IV]目的:スポーツにおけるマルチカメラ外挿パラメータの効率的な自己較正手法
    • スポーツ分析やリハビリテーションにおいて,選手の3次元モーションを高精度に把握することが重要である。
    • 従来のマルチカメラシステムの較正作業は,コストと労力がかかることが課題であった。
    • 棒状の道具を使用するスポーツに特化し,ツールを用いない自己較正を実現する。
    • 提案手法は,人間のキーポイントと既知長の棒を利用することで,正確なカメラ外挿パラメータの較正を可能にする。
    • 新たに,棒状道具を使用するスポーツのマルチカメラ自己較正のためのデータセットを公開した。
    • 実験結果から,提案手法が最先端の性能を達成し,回転および並進誤差を低減できることが示された。

    Link: https://arxiv.org/abs/2604.17567

  • PBSBench:血液病理学的全スライド画像解釈のための多層ビジョン言語フレームワークとベンチマーク [cs.CL, cs.CV, cs.AI]目的:血液病理学的全スライド画像解釈のための多層ビジョン言語フレームワークとベンチマークの開発
    • 血液検査における末梢血液塗抹標本は重要な検査であり,AIによる診断支援が期待される。
    • 既存の病理画像向け多種モ−ダル大規模言語モデルは,血液像の解釈には汎化性が低い。
    • 血液像に特化したデータセットとモデルを開発し,AI診断支援の精度向上を目指す。
    • PBSInstrデータセットは,血液像の全スライド画像と細胞レベルの画像,および質問応答ペアを含む。
    • PBS-VLモデルは,PBSInstrデータセットを用いて学習され,既存モデルよりも高い性能を示した。
    • PBSBenchベンチマークは,血液像の理解度を多角的に評価するための質問カテゴリとタスクで構成される。

    Link: https://arxiv.org/abs/2604.17570

  • 拡散と状態空間モデルによるマルチモーダル顕著物体検出 [cs.CV, cs.AI, cs.LG]目的:マルチモーダル顕著物体検出の性能向上
    • 画像認識において,特に複雑なシーン中の重要な物体を正確に検出することは重要である。
    • 既存の畳み込みニューラルネットワークやTransformer,Mambaでは,詳細な構造と長距離依存関係のモデリングが困難である。
    • 拡散モデルの構造的知識と状態空間モデルの効率性を融合し,境界精度の向上を目指す。
    • DGSSMは,拡散モデルの事前知識を状態空間モデルに組み込むことで,マルチモーダル顕著物体検出を段階的なノイズ除去過程として捉える。
    • マルチスケール状態空間エンコーディング,適応的顕著プロンプト,反復Mamba拡散洗練メカニズムにより,境界の精度を向上させている。
    • RGB,RGB-D,RGB-Tを含む13のベンチマークにおいて,最先端手法を上回り,コンパクトなモデルサイズを維持している。

    Link: https://arxiv.org/abs/2604.17585

  • ViPS:ビデオ情報に基づく自動リギングメッシュのポーズ空間 [cs.CV, cs.GR]目的:自動リギングされたメッシュの妥当な関節配置の潜在分布の発見
    • 3Dメッシュのアニメーションには,関節の構造化された制御が不可欠である。自然な動きを実現するためには,適切なポーズ空間が求められる。
    • 既存のリギング手法では,現実的で自然な関節の動きを保証することが難しく,不自然な姿勢や形状崩壊が発生しやすい。
    • ビデオから学習したモーションの知識を用いて,自然で制御可能なポーズ空間を自動的に構築し,リギングの質を向上させる。
    • ビデオ拡散モデルから学習したモーション情報を活用することで,アーティストが作成した4Dデータがなくても,妥当な関節配置の分布を学習できる。
    • ViPSは,多様なサンプリング,逆運動学,キーフレーム作成を可能にする,滑らかでコンパクト,かつ制御可能なポーズ空間を学習する。
    • ビデオのみで学習したViPSは,アーティスト作成の4Dデータで学習した最先端手法と同等の性能を示す。未知の種や骨格にも頑健に適用可能である。

    Link: https://arxiv.org/abs/2604.17623

  • FlowC2S:現在のフレームから後続フレームへの流れを利用した高速かつ省メモリな動画継続手法 [cs.HC, cs.CV]目的:高速かつ省メモリな動画継続手法の開発
    • 動画生成技術は,コンテンツ制作やエンターテインメントなど幅広い分野で重要性が増している。
    • 既存の動画継続手法は,計算コストが高く,メモリ消費量が多いという課題がある。
    • 現在のフレームから直接後続フレームを生成することで,計算量とメモリ使用量を削減することを目指す。
    • 提案手法FlowC2Sは,既存のテキストから動画への生成モデルを微調整し,動画チャンク間のベクトル場を学習する。
    • 最適な結合を利用し,学習データの時間的に隣接する動画チャンクを用いることで,より滑らかな流れを実現する。
    • ターゲット反転を取り入れることで,対応関係を強化し,視覚的な忠実度を向上させる。FIDとFVDの評価において,最先端の性能を上回る。

    Link: https://arxiv.org/abs/2604.17625

  • BioVLM:バイオメディカルVLMにおけるクロスモーダル汎化のためのプロンプトルーティング,パラメータではない [cs.CL, cs.CV]目的:バイオメディカルVLMにおけるクロスモーダル汎化の改善
    • バイオメディカル分野における画像とテキストの理解は,診断や創薬など,様々な応用において重要である。
    • 既存のVLMは,特定のモダリティやデータセットに偏りやすく,未知のデータへの汎化性能が低いという課題がある。
    • 本研究では,プロンプト学習を通じて,大規模なバックボーンのファインチューニングなしに汎化性能を向上させることを目指す。
    • BioVLMは,多様なプロンプトバンクを学習し,入力ごとに最も識別力の高いプロンプトを動的に選択する。
    • このプロンプトルーティングにより,少ない教師データとLLMの知識を効果的に組み合わせ,頑健な知識転移を実現する。
    • MedMNIST+ 2Dデータセットにおいて,3つの異なる汎化設定で最先端の結果を達成した。

    Link: https://arxiv.org/abs/2604.17629

  • インフラセントリックなワールドモデル:道路沿い知覚のための時間的奥行きと空間的広がりを架橋する [cs.IR, cs.CL, cs.DC, cs.HC, cs.CY, cs.DC, cs.CL, cs.CL, cs.CV, cs.RO]目的:道路沿い知覚のためのインフラセントリックなワールドモデルの構築
    • 自動運転技術の発展において,環境の進化をシミュレートするワールドモデルは不可欠である。
    • 既存のワールドモデルは車載視点に限定されており,道路インフラ側の視点が活用されていない。
    • 道路インフラが持つ時間的奥行きと空間的広がりを組み合わせたワールドモデルを構築し,自動運転の安全性を向上させる。
    • 道路インフラに設置された固定センサーは,長期間にわたる行動分布を蓄積することで,稀に発生する危険な事象の予測に有効である。
    • 車載センサーは,広範囲な道路ネットワークからの多様なシーンをサンプリングすることで,空間的な広がりをカバーする。
    • 提案するI-WMは,生成的なシーン理解,物理情報に基づいた予測ダイナミクス,V2X通信のための協調的ワールドモデルの3段階で構成される。

    Link: https://arxiv.org/abs/2604.17651

  • センチネル5Pハイパースペクトル画像の自己教師あり超解像 [cs.CV]目的:センチネル5Pハイパースペクトル画像の超解像手法
    • 大気観測においてセンチネル5Pは重要だが,空間解像度が課題である。
    • 実データを用いた高解像度な教師データが存在せず,学習が困難である。
    • 教師データなしで,センチネル5Pの空間解像度を向上させることを目指す。
    • 提案手法は,合成された低解像度データを用いた比較で,教師あり学習と同等の性能を達成した。
    • 定性的な評価では,バイキュービック補間よりも空間的な詳細が向上していることが示された。
    • EMITデータとの検証により,再構成された構造が物理的に妥当であることが確認された。

    Link: https://arxiv.org/abs/2604.17652

  • ビデオ・ロビン:意図に基づいたビデオから音楽への生成のための自己回帰拡散計画 [cs.SD, cs.AI, cs.CL, cs.CV, cs.LG]目的:ビデオと音楽の生成
    • 動画コンテンツの重要性が増す中,適切な音楽の自動生成技術の必要性が高まっている。
    • 既存モデルは視覚情報のみに依存し,セマンティックな制御やスタイルの指定が難しい。
    • 視覚情報とテキスト情報を統合し,高品質かつ意図に基づいた音楽生成を目指す。
    • ビデオ・ロビンは,自己回帰的計画と拡散に基づく合成を組み合わせることで,音楽の忠実性とセマンティック理解のバランスを取っている。
    • モデルは,視覚情報とテキスト情報をセマンティックに整合させ,高レベルの音楽潜在表現を生成する。
    • その潜在表現は,Diffusion Transformersを用いて一貫性のある高忠実度の音楽へと洗練される。

    Link: https://arxiv.org/abs/2604.17656

  • NTIRE 2026 低照度画像強調コンテスト [cs.CV]目的:低照度画像強調技術の進展
    • 画像認識やコンピュータビジョンの応用範囲拡大に不可欠な要素である。
    • 低照度環境下では,ノイズやコントラスト低下により画像品質が著しく低下する。
    • 多様な条件下での低照度画像強調性能向上を目指す。
    • 本コンテストでは195件の参加登録と22チームの有効な提出があった。
    • 最先端の低照度画像強調技術の進歩が明らかになった。
    • 新規データセットを活用し,視覚的に魅力的な画像生成能力を評価した。

    Link: https://arxiv.org/abs/2604.17669

  • 3次元人体ポーズ推定のためのデュアルストリーム空間-時間GCN-Transformerネットワーク [cs.RO, cs.IR, cs.IR, cs.CV]目的:3次元人体ポーズ推定における高性能化
    • コンピュータビジョン分野において,人体理解やモーション解析等の応用に不可欠な研究領域である。
    • 既存手法は,大域的な空間・時間関係のモデリングに偏りがちで,局所的な骨格関係やチャネル間情報の相互作用が不十分である。
    • 局所的特徴と大域的特徴を効果的に融合し,より正確な3次元人体ポーズ推定を実現することを目的とする。
    • 提案手法MixTGFormerは,並列2つのチャネルで空間・時間関係を同時にモデリングすることで,大域的・局所的特徴の効果的な融合を実現した。
    • MixformerブロックにGCNを組み込むことで,局所的・大域的な情報利用を強化し,性能向上に貢献した。
    • Human3.6MとMPI-INF-3DHPデータセットで最先端の結果を達成し,P1エラーがそれぞれ37.6mmと15.7mmであった。

    Link: https://arxiv.org/abs/2604.17688

  • 曖昧なラベルを用いたゼロショット学習のための動的な視覚-意味的アライメント [cs.CL, cs.DC, cs.CV]目的:曖昧なラベルからのゼロショット学習フレームワーク
    • 画像認識技術は,未知のクラスの認識を可能にするゼロショット学習を含む,様々な応用分野で重要である。
    • 既存手法はラベルのノイズや曖昧性を考慮せず,現実世界のデータに対する性能が低下する。
    • 本研究は,曖昧なラベル下での認識性能を向上させることを目指す。
    • 提案手法DVSAは,双方向の視覚-意味的アライメントモジュールとコントラスト学習により,属性の一貫性を強化する。
    • 動的なラベル曖昧性解消機構は,ノイズのある教師信号を反復的に修正し,汎化性能を向上させる。
    • 標準的なベンチマークにおける実験により,DVSAが曖昧なラベル下で優れた性能を発揮することが確認された。

    Link: https://arxiv.org/abs/2604.17710

  • FlashFPS:プルーニングとキャッシュによる大規模点群のための効率的な最遠点サンプリング [cs.CL, cs.SI, cs.LG, cs.CV]目的:大規模点群処理における最遠点サンプリングの効率化
    • 点群処理は,自動運転やロボティクスなど,多様な応用分野において不可欠な技術である。
    • 点群処理の鍵となる最遠点サンプリングは,計算コストが高く,処理のボトルネックとなりやすい。
    • 冗長な計算を削減し,キャッシュを活用することで,最遠点サンプリングの高速化を目指す。
    • 提案手法FlashFPSは,GPU上で標準CUDAベースラインに対し5.16倍,PNNアクセラレータ上で2.69倍の高速化を達成した。
    • FlashFPSは,FPS-PruneとFPS-Cacheにより冗長な計算を削減し,サンプリング品質を維持する。
    • FlashFPSは,既存のCUDAライブラリや最先端のPNNアクセラレータに容易に統合可能である。

    Link: https://arxiv.org/abs/2604.17720

  • GeGS-PCR:2段階の色強調幾何学的-3DGS融合による効果的かつ堅牢な3次元点群登録 [cs.CV, cs.AI]目的:3次元点群の登録手法
    • 自動運転やロボット工学において,環境認識の精度向上は不可欠である。
    • 幾何学的特徴のみでは,重複率が低い,または点群が不完全な場合に登録が困難となる。
    • 色情報を活用し,低重複率や不完全な点群においても堅牢な登録を実現すること。
    • 提案手法GeGS-PCRは,幾何学的,色,ガウス情報に基づいて高精度な登録を達成した。
    • Color3DMatchおよびColor3DLoMatchデータセットで最先端の性能を示し,Registration Recallは99.9%を達成した。
    • 相対回転誤差は0.013,相対並進誤差は0.024と,従来手法と比較して少なくとも2倍の精度向上を達成した。

    Link: https://arxiv.org/abs/2604.17721

  • ボロノイ図誘導二辺間2Dガウススプラッティングによる任意スケールハイパースペクトル画像超解像 [cs.CV, cs.AI]目的:任意スケールハイパースペクトル画像超解像のためのフレームワーク
    • ハイパースペクトル画像は多様な分野で利用され,高解像度化のニーズは高い。
    • 既存手法はスケールごとに修正が必要で,柔軟性に欠ける点が課題である。
    • 任意スケールに対応し,空間再構成とスペクトル忠実性を両立することを目指す。
    • 提案手法GaussianHSIは,ガウススプラッティングを用いて任意スケール超解像を実現した。
    • ボロノイ図誘導二辺間2Dガウススプラッティングにより,空間再構成の柔軟性を向上させた。
    • スペクトル詳細強調モジュールにより,スペクトル再構成の精度を高めた。

    Link: https://arxiv.org/abs/2604.17727

  • ターゲットガイダンスを用いたスコアベースマッチングによるクライオ電子顕微鏡画像のノイズ除去 [cs.CV]目的:クライオ電子顕微鏡画像のノイズ除去手法の開発
    • 生物高分子の構造解析において,クライオ電子顕微鏡は不可欠な技術である。
    • クライオ電子顕微鏡画像はノイズが多く,粒子検出や再構成が困難である。
    • 構造情報を保持しつつ,ノイズを効果的に除去し,解析精度を向上させる。
    • 提案手法は,スコアベースのフレームワークにより,粒子の信号を回復しつつ構造情報をより良く保持する。
    • ターゲットガイダンスの導入により,弱い信号下でもスコア学習を安定化させ,低周波背景の抑制に貢献する。
    • 実験の結果,提案手法は粒子検出の精度向上と,より構造的に整合性の高い3次元再構成を可能にする。

    Link: https://arxiv.org/abs/2604.17734

  • IncreFA:生成モデル帰属の静的な壁を打ち破る [cs.CV]目的:生成モデルの帰属における継続学習フレームワーク
    • AI生成モデルの急速な進化に伴い,画像帰属の重要性が増している。
    • 既存の帰属手法は,新しい生成モデルの登場によりすぐに陳腐化してしまう。
    • 生成モデルのアーキテクチャの階層関係を活用し,継続的な適応を可能にする。
    • IncreFAは,生成モデル帰属を構造化された継続学習問題として再定義した。
    • 新しい生成モデルが継続的に登場しても,高い帰属精度を維持できることを示した。
    • 2022年から2025年の28の生成モデルで,未知のモデル検出率98.93%を達成した。

    Link: https://arxiv.org/abs/2604.17736

  • ソースフリードメイン適応におけるビジョン言語事前知識の活用 [cs.CV]目的:ソースフリードメイン適応の性能向上
    • 教師あり学習済みモデルを新たなドメインへ適用する際,ラベルなしデータのみで適応を行う手法の重要性が高まっている。
    • 従来のソースフリードメイン適応は,擬似ラベリングに依存するため,誤りが生じやすいという課題があった。
    • 本研究では,汎用的なビジョン言語モデルを活用し,誤り耐性を持つドメイン適応を目指す。
    • 提案手法DIFO++は,ターゲットドメインのモデルとビジョン言語モデル間の相互情報最大化によって,タスク特化性を高める。
    • DIFO++は,ターゲットモデルとビジョン言語モデルの予測を融合し,ギャップ領域に着目して,より信頼性の高い擬似ラベルを生成する。
    • 実験結果から,DIFO++が最先端の手法を大幅に上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.17748

  • 自我の間の状態遷移:一人称視点ビデオにおける物体状態遷移の生成 [cs.CV]目的:一人称視点ビデオにおける物体状態遷移生成
    • 人間の認知やAIシステムにとって,物理的変化過程の理解は重要である。特に,人間と機械の行動モデリングを結ぶキーとなる一人称視点からの理解が求められる。
    • 既存の生成モデルは,初期状態と目標状態の視覚的シーンを理解し,一人称視点から変換ステップを推論すること,指示に従いながら物体外観を維持した一貫性のある遷移を生成することが課題である。
    • 本研究は,与えられた初期状態と目標状態間の物体状態遷移を生成する課題に対し,一貫性のある中間フレームを生成することで解決を目指す。
    • 提案手法EgoInは,TransitionVLMを用いて遷移過程を推論し,Transition Conditioningモジュールにより遷移条件を生成することで,意味的かつ視覚的に一貫性のある遷移シーケンスを生成する。
    • Object-aware Auxiliary Supervisionを導入することにより,遷移を通して一貫した物体外観を維持することに成功した。
    • 人間-物体およびロボット-物体の相互作用データセットでの実験により,EgoInが優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2604.17749

  • より良いLoRAマージのための進化型ネガティブモジュール剪定 [cs.AI, cs.CL, cs.CV]目的:LoRAマージにおける性能向上
    • 大規模言語モデルの効率的なマルチタスク展開が重要視されている。
    • LoRAをマージする際,干渉が性能低下の要因となる場合がある。
    • マージを阻害する「ネガティブモジュール」の特定と除去を目指す。
    • 提案手法ENMPは,既存のマージアルゴリズムの性能を安定的に向上させる。
    • 進化戦略を用いて,最適なモジュール剪定の構成を効率的に探索する。
    • 言語および画像処理の両分野において,最新技術の性能を上回る結果が得られた。

    Link: https://arxiv.org/abs/2604.17753

  • ボクセル空間における構造適応型疎な拡散による3D医用画像強調 [cs.CV]目的:3D医用画像の強調に関する研究
    • CT,PET,MRIなどの臨床診断において,医用画像の品質向上は不可欠である。
    • 高解像度3Dボリュームへの拡散モデルの適用は,計算コストが高く困難である。
    • 入力画像の解剖学的情報を活用し,効率的な拡散スケジュールで高品質な画像強調を実現する。
    • 提案手法は,疎なボクセル空間での拡散により,従来の最大10倍の学習速度を実現した。
    • 構造適応型変調モジュールにより,解剖学的構造に基づいた適応的なノイズ除去が可能となった。
    • CT,PET,MRIの複数のデータセットにおいて,ノイズ除去と超解像の両タスクで最先端の性能を示した。

    Link: https://arxiv.org/abs/2604.17773

  • ゼロショットEEG-画像検索のための主観者対応マルチ粒度アライメント [cs.CV]目的:ゼロショットEEG-画像検索におけるニューラル応答と事前学習済みの視覚表現のアライメント
    • 脳波(EEG)を用いた視覚情報の復元は,スケーラブルな視覚ニューラルデコーディングや実用的なブレイン・コンピュータインタフェースへの道を開く。
    • 既存手法は固定された視覚ターゲットか,主観者不変なターゲット構築に依存するため,EEG信号の多様な表現スケールや,主観者ごとの最適な粒度に対応できない。
    • 主観者対応マルチ粒度アライメント(SAMGA)フレームワークにより,主観者依存的な粒度のずれを学習し,分布シフトを軽減することで,検索精度向上を目指す。
    • 提案手法SAMGAは,THINGS-EEGベンチマークにおいて,主観者内設定でTop-1精度91.3%,Top-5精度98.8%を達成した。
    • 主観者間設定では,Top-1精度34.4%,Top-5精度64.8%を達成し,最新の最先端手法を上回る性能を示した。
    • SAMGAは,適応的なターゲット構築と粗い段階から細かい段階へのクロスモーダルアライメント戦略により,優れた性能を実現している。

    Link: https://arxiv.org/abs/2604.17782

  • DuQuant++:微細回転がFP4量子化のマイクロスケール化を強化 [cs.CV, cs.AI, cs.CL]目的:LLM推論における効率的なFP4量子化の性能向上
    • 大規模言語モデル(LLM)の推論速度向上は,計算資源の制約下で不可欠である。
    • FP4量子化における外れ値は,ブロック全体のスケールを歪ませ,量子化誤差を増大させる。
    • 外れ値に特化した微細回転により,FP4量子化の精度低下を抑制する。
    • DuQuant++は,MXFP4形式に特化した外れ値対応微細回転を提案し,オンライン回転コストを半減させた。
    • DuQuant++は,LLaMA-3ファミリーを用いた実験において,最先端の性能を達成した。
    • 従来の回転手法と比較し,DuQuant++はより滑らかな重み分布を実現した。

    Link: https://arxiv.org/abs/2604.17789

  • テキストによる弱教師あり参照動画オブジェクトセグメンテーション [cs.CY, cs.HC, cs.CV]目的:参照表現に基づいた動画内の対象インスタンスのセグメンテーション
    • 動画理解における対象認識は,人間が動画を理解する上で不可欠な要素である。
    • 従来のセグメンテーション手法は,高コストなピクセルレベルの注釈を必要とする。
    • テキストのみを用いて弱教師ありセグメンテーションを実現し,注釈コストを削減する。
    • マルチモーダル大規模言語モデルを活用した参照表現の拡張により,肯定・否定表現を生成する。
    • 視覚特徴と言語特徴の双方向選択と相互作用により,詳細なマルチモーダルアラインメントを可能にする。
    • 4つの公開データセットにおいて,提案手法が既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2604.17797

  • ReFineVLA:教師によるガイダンスを用いたマルチモーダル推論能力を備えた汎用ロボットポリシー [cs.RO, cs.CV]目的:マルチモーダル推論を意識した汎用ロボットポリシーの開発
    • ロボットの自律性を高めるためには,視覚,言語,行動を統合した高度な推論能力が不可欠である。
    • 既存のVLAモデルは,明示的な推論を欠き,複雑なタスクへの汎化性能が低いという課題がある。
    • ReFineVLAは,教師によるガイダンスを通じてVLAモデルに推論能力を付与し,汎化性能を向上させる。
    • ReFineVLAは,教師モデルが生成した推論根拠をデータセットに追加し,VLAモデルをファインチューニングする。
    • シミュレーション環境SimplerEnvにおける複数の操作ベンチマークで,既存手法を上回る成果を達成した。
    • 視覚情報,言語指示,実行行動間のアラインメントが強化され,マルチモーダル理解度が向上したことが示された。

    Link: https://arxiv.org/abs/2604.17800

  • 視点一貫性のある3Dシーン編集:双方向構造対応と意味的連続性に基づく [cs.CV]目的:3Dシーン編集における視点間一貫性の確保
    • 3Dコンテンツの作成・編集は,様々な分野で重要性を増しており,効率的な手法が求められている。
    • 既存手法では,異なる視点からの画像間の矛盾が,編集の大きな課題となっている。
    • 視点間の一貫性を考慮した編集フレームワークを構築し,その問題を解決することを試みる。
    • 本研究では,3Dシーン編集を視点間の分布モデリングとして捉え,双方向の一貫性メカニズムを提案した。
    • 構造的ガイダンスと意味的伝播を組み合わせることで,効果的な視点間編集を実現している。
    • 実験により,複雑なシーンにおいて,高精度かつ一貫した編集性能が確認された。

    Link: https://arxiv.org/abs/2604.17801

  • 戦略的なペアごとのデータ摂動によるランキング操作 [cs.LG, cs.AI, cs.GT]目的:MLEに基づくランキングシステムの操作可能性の評価
    • 集団的意思決定において,ペア比較に基づくランキングシステムは広く利用されている。
    • ランキングシステムの戦略的なデータ操作に対する脆弱性が十分に解明されていない。
    • 限られた操作予算内で,ランキングを大きく変化させる戦略的摂動の特定を試みる。
    • MLEに基づくランキングは,わずかな摂動予算を超えると,ランキングが大きく変化する相転移現象を示す。
    • 提案手法であるASSAは,ランダムおよび貪欲なベースラインと比較して,制約された予算下で優れた性能を発揮する。
    • これらの結果は,MLEに基づくランキングメカニズムが構造化された摂動に対して根本的な感度を持つことを明らかにする。

    Link: https://arxiv.org/abs/2604.17805

  • Re$^2$MoGen:LLMの推論と物理に基づいた改良による,オープンボキャブラリの動作生成 [cs.CV, cs.RO]目的:オープンボキャブラリにおける動作生成
    • テキストによる指示に基づきキャラクターを制御する技術であり,ゲームやロボット工学等に応用が期待される。
    • 既存モデルは訓練データとの乖離が大きい場合に性能が低下し,汎用性に課題がある。
    • LLMの推論能力と物理シミュレーションを組み合わせ,より自然で現実的な動作生成を目指す。
    • 提案手法Re$^2$MoGenは,LLMによる初期動作計画と,強化学習による物理的妥当性の改良を組み合わせる。
    • モンテカルロ木探索によりLLMの推論能力を向上させ,人間姿勢モデルを事前知識として活用することで,より高品質な動作生成を実現。
    • 実験の結果,提案手法は既存手法を凌駕し,意味的整合性と物理的妥当性を兼ね備えた動作生成が可能となった。

    Link: https://arxiv.org/abs/2604.17807

  • AnyLift:2D拡散によるインターネット動画からのモーション再構成のスケーリング [cs.CV]目的:インターネット動画からの3D人体モーションと人体・物体相互作用の再構成
    • 人間行動の大規模データセット構築には,3Dモーション再構成が不可欠である。
    • 既存手法では,動的なカメラ下での一貫性や,MoCapデータに少ないモーションの再現が課題である。
    • インターネット動画から,より現実的で多様な3Dモーションと相互作用を生成することを目指す。
    • 本研究では,2D拡散を活用した二段階フレームワークを提案し,3DモーションとHOIを再構成する。
    • 既存のMoCapデータに少ないモーションを,インターネット動画から学習することで実現した。
    • 体操などの難しいモーションや,現実世界のHOI動画で有効性が確認され,既存手法を上回る結果が得られた。

    Link: https://arxiv.org/abs/2604.17818

  • GR4CIL:CLIPに基づくクラス増分学習のためのギャップ補償ルーティング [cs.CV]目的:CLIPに基づくクラス増分学習のためのフレームワーク
    • 継続的な学習は,AIの応用範囲を広げ,変化する環境への適応を可能にする上で重要である。
    • 既存手法では,過去知識の忘却やタスク間の知識干渉といった課題が残されており,汎化性能の維持が困難である。
    • タスク識別と知識ルーティングを組み合わせ,知識の干渉を低減し,より信頼性の高いルーティングを実現することを目指す。
    • GR4CILは,タスク固有の視覚知識を保持しつつ,テキストセマンティック空間の安定性を維持することで,タスク間の干渉を軽減する。
    • 直交補償メカニズムにより,モダリティギャップによるバイアスを軽減し,タスク内識別を強化,正解タスクと競合タスク間のスコア差を拡大する。
    • 複数のベンチマークにおいて,GR4CILは強力なベースラインと比較して一貫して優れた性能を示す。

    Link: https://arxiv.org/abs/2604.17822

  • 分数時間周波数特徴抽出に基づく新しいLSTM音楽生成器 [cs.SD, cs.AI, cs.CL]目的:音楽生成のための新しいアプローチ
    • 音楽は人間の生活に不可欠であり,その自動生成は創造性の拡張に繋がる。
    • 既存の音楽生成システムは,生成される音楽の品質や多様性に課題がある。
    • 時間周波数分析とLSTMを組み合わせることで,高品質な音楽生成を目指す。
    • 提案システムは,分数フーリエ変換を用いて音楽のスペクトル特徴を抽出する。
    • 抽出された特徴に基づき,LSTMネットワークが新たな音楽を生成する。
    • 実験結果から,提案システムは人間が生成した音楽と同等の高品質な音楽を生成できることが示された。

    Link: https://arxiv.org/abs/2604.17823

  • PCM-NeRF: ポーズ不確実性下におけるニューラル放射場のための確率的カメラモデリング [cs.CL, cs.CL, cs.RO, cs.CV, cs.GR]目的:ニューラル放射場におけるカメラポーズの不確実性を考慮した確率的モデリング
    • 3D再構成において,正確なカメラポーズは不可欠であり,その精度が結果を大きく左右する。
    • SfMによるカメラポーズ推定は誤差を含む場合があり,再構成の歪みや不完全性を引き起こす。
    • カメラポーズの不確実性を明示的にモデル化することで,ロバストな3D再構成を実現すること。
    • 提案手法PCM-NeRFは,カメラごとに学習可能な不確実性を導入し,SfMの対応品質に基づいて初期化する。
    • 不確実性を考慮した正則化損失により,不確実性の高いカメラの影響を抑制し,再構成の質を向上させる。
    • 複雑な形状を持つシーンにおいて,既存手法と比較してChamfer DistanceとF-Scoreで優れた性能を示す。

    Link: https://arxiv.org/abs/2604.17831

  • 小児側弯症におけるMRIのみを用いた全脊椎椎骨セグメンテーションと3D再構築に対するAIアプローチ [cs.ET, cs.CV, cs.AI]目的:小児側弯症における全脊椎椎骨のセグメンテーションと3D再構築
    • 小児画像診断では放射線被曝を避けるためMRIが優先されるが,正確な3D再構築はCTに依存している。
    • MRIのみでの3D再構築は,手作業のワークフローやラベル付きデータの不足により,実用的ではない。
    • MRIのみから全脊椎の自動セグメンテーションと3D再構築を可能にし,放射線被曝を回避する。
    • AIフレームワークにより,MRIのみから自動的に胸腰椎(T1-L5)のセグメンテーションと3D再構築が可能になった。
    • セグメンテーションの精度は88%のDice係数を示し,処理時間は約1時間から1分未満に短縮された。
    • このアプローチは,放射線を使用せずに3Dでの変形評価を可能にし,臨床評価,手術計画,およびナビゲーションを支援する。

    Link: https://arxiv.org/abs/2604.17846

  • UniCSG:段階的意味的・周波数分離による統一的な高忠実度コンテンツ制約スタイル駆動生成 [cs.CV]目的:高忠実度コンテンツ制約スタイル駆動生成の実現
    • スタイル変換は,コンテンツの意味を保持しつつ,目標スタイルに適合する必要がある。
    • 拡散モデルでは,コンテンツとスタイルの絡み合いが課題で,参照コンテンツの漏洩や不安定な生成が生じやすい。
    • コンテンツとスタイルの分離を促進し,知覚的な品質を向上させることで,生成の安定化を目指す。
    • UniCSGは,テキストガイダンスと参照ガイダンスの両方の設定で,コンテンツ制約とスタイル駆動の生成を統一的に行うフレームワークである。
    • 段階的な学習により,低周波数前処理と条件付けの破損を組み合わせ,コンテンツとスタイルの分離を促進する。
    • マルチスケール周波数による詳細な再構成と,ピクセル空間での報酬学習により,生成の忠実度とスタイルの整合性を向上させる。

    Link: https://arxiv.org/abs/2604.17850

  • LLMコーデック:ニューラル音声コーデックと言語モデルの目的 [cs.SD]目的:言語モデル用トークナイザーとしてのニューラル音声コーデックの性能向上
    • 音声認識や合成において,高品質な音声表現は不可欠であり,そのための効率的なコーデック技術が重要である。
    • 従来の音声コーデックは波形再構成に最適化されており,言語モデルの自己回帰予測との間にミスマッチが存在する。
    • 音声とテキスト表現の整合性を高め,トークンの予測可能性を向上させることで言語モデルの性能を改善することを目指す。
    • 提案手法LLM-Codecは,コーデック訓練に言語モデル側の目的関数を導入することで,音声認識の精度を大幅に向上させた。
    • SALMonデータセットにおいて,LLM-Codecを使用した場合,既存手法AUVと比較してトークンLMの精度が12.1%向上した。
    • Codec-SUPERB-tinyデータセットでは,LLM-CodecはAUVと比較して音声Mel距離を5.0%改善し,学習効率も向上した。

    Link: https://arxiv.org/abs/2604.17852

  • PlankFormer:MAEで事前学習したVision Transformerと疑似コミュニティ画像生成による堅牢なプランクトンインスタンスセグメンテーション [cs.CV]目的:プランクトンインスタンスセグメンテーションの精度向上
    • 水生生態系の評価にプランクトンのモニタリングは不可欠である。しかし,従来の手法では手間がかかる。
    • 従来のCNNベースの手法では,プランクトンと破片や重なり合った個体を区別することが難しい。
    • ラベル付きデータの不足を補い,プランクトンのセグメンテーション精度を向上させることを目指す。
    • 提案手法PlankFormerは,実世界のデータセットにおいて,Mask R-CNNなどの従来手法を大きく上回る性能を示した。
    • 疑似コミュニティ画像の生成とMAEによる事前学習により,少ない手動アノテーションで高精度なセグメンテーションを実現した。
    • 特に,破片密度が高いような困難な環境において,その有効性が確認された。

    Link: https://arxiv.org/abs/2604.17856

  • 汎化ポリープセグメンテーションのための軽量モデルの強化:基盤モデルからの境界ガイド蒸留 [cs.CV]目的:汎用ポリープセグメンテーションのための軽量モデルの性能向上
    • 大腸がんの早期発見と予防には,ポリープの自動セグメンテーションが不可欠である。
    • ポリープの境界が不明瞭,外観の変化が大きい,注釈付きデータが少ないことが課題である。
    • 基盤モデルの知識を軽量モデルに効率的に転移し,セグメンテーション精度を向上させる。
    • LiteBounDは,複数の基盤モデルから軽量セグメンテーションバックボーンへセマンティックおよび構造的な情報を蒸留するフレームワークである。
    • 二重経路蒸留メカニズムと周波数認識アライメント戦略により,セグメンテーション精度が大幅に向上した。
    • Kvasir-SEG,CVC-ClinicDB,ColonDBなどのデータセットで,最先端の手法に匹敵する性能を示した。

    Link: https://arxiv.org/abs/2604.17865

  • 空間的・時間的な迎合:ビデオ大規模言語モデルにおける否定に基づく誘導 [cs.CV]目的:ビデオ大規模言語モデルにおける否定的な誘導に対する脆弱性
    • ビデオ理解技術は,監視,ロボット工学,コンテンツ理解など,幅広い分野で重要性を増している。
    • 現在のビデオ大規模言語モデルは,対話的な状況下での頑健性に課題があり,誤った情報に影響されやすい。
    • この研究は,ビデオ大規模言語モデルが否定的な誘導によってどのように誤った判断を正当化するかを明らかにする。
    • ビデオ大規模言語モデルは,否定的な誘導によって,初期に正しい視覚的根拠に基づいた判断を撤回し,誤ったユーザーからのフィードバックに合わせることが明らかになった。
    • モデルは,回答を変更するだけでなく,誤った修正を正当化するために,根拠のない時間的または空間的な説明を捏造する傾向がある。
    • プロンプトレベルでの制約はある程度この行動を軽減できるが,幻覚的な正当化や信念の逆転を確実に防ぐことはできない。

    Link: https://arxiv.org/abs/2604.17873

  • 擬態物体検出のための境界を意識した空間周波数融合の探求 [cs.RO, cs.IR, cs.CV]目的:擬態物体検出における性能向上
    • 背景との類似性が高く,検出が困難な擬態物体検出は,セキュリティや監視などに応用が期待される分野である。
    • 既存手法は空間領域のエッジ抽出や局所的な情報に偏り,大域的な構造情報や周波数領域の位相スペクトル情報の活用が不十分である。
    • 周波数領域と空間領域の特徴を融合し,擬態物体の境界と物体特徴を効果的に捉えることで,検出性能の向上を目指す。
    • 提案手法BASFNetは,周波数領域と空間領域の特徴を境界を意識した融合により統合するフレームワークを実現した。
    • 位相スペクトルに基づくエッジ探索モジュールと空間コアセグメンテーションモジュールを導入し,境界と物体特徴を共同で捉える。
    • 3つのベンチマークデータセットで既存手法を上回り,周波数領域と空間領域の融合の有効性を実証した。

    Link: https://arxiv.org/abs/2604.17879

  • ST-$\pi$:ロボット操作のための構造化時空間VLA [cs.RO, cs.CV]目的:ロボット操作における,きめ細かい時空間的推論の実現
    • ロボットの汎用的なタスク遂行能力向上は,産業界および日常生活において重要である。
    • 既存のVLAモデルは,複雑な時空間的な操作において,明示的な推論が難しく,汎化性能が低い。
    • 本研究は,明確な時空間境界を持つ複数の連続行動を扱えるVLAモデルの構築を目指す。
    • 提案手法ST-$\pi$は,視覚と行動の情報を構造化された時空間的表現に変換し,LLMを用いてサブタスク,空間的配置,時間的配置を含むチャンクレベルのアクションプロンプトを生成する。
    • 生成されたアクションプロンプトに基づき,空間的依存性と時間的因果関係を共同でモデル化する構造化された二重生成器ガイダンスを設計し,ステップレベルのアクションパラメータを予測する。
    • 実世界のロボットデータセットを用いた実験により,提案手法の有効性が実証された。

    Link: https://arxiv.org/abs/2604.17880