arXiv雑要約

画像・音声 - 2026/04/21 公開

リアルタイム天気分類のためのスタイルに基づくニューラルアーキテクチャ [cs.CV, cs.AI, cs.LG, stat.AP]目的：リアルタイム天気条件の分類のためのニューラルネットワークアーキテクチャ
- 気象情報は生活や防災において不可欠であり，正確かつ迅速な分類が求められる。
- 既存の手法では，微妙なスタイルの差異を捉えきれず，分類精度が十分でない場合がある。
- スタイルの要素を捉えることで，より高精度なリアルタイム天気分類を実現する。
- 提案手法の一つである「Multi-PatchGAN」は，複数のパッチサイズを用いて検出タスクに特化した構造を持つ。
- 「Truncated ResNet50」は，進化アルゴリズムにより不要な層を削除し，高周波特徴の抽出を促進する。
- 「Truncated ResNet50 with Gram Matrix and Attention」は，文脈に応じたスタイルの抽出により，既存手法を上回る性能を示す。
Link: https://arxiv.org/abs/2604.18251
ドメイン特化型物体検出のためのモデルレベルの専門家混合 [cs.CV, cs.LG]目的：ドメイン特化型物体検出における性能と解釈性の向上
- 物体検出は，自動運転やロボティクスなど，様々な応用分野で重要な役割を担う。
- 従来のアンサンブル手法では，専門家の貢献度を適切に調整することが難しい場合がある。
- 領域分割されたデータで学習した専門家を組み合わせることで，物体検出の精度向上を目指す。
- 提案するMoEアーキテクチャは，BDD100Kデータセットにおいて，標準的なアンサンブル手法を上回る性能を示した。
- 学習されたゲーティングネットワークは，ドメイン間の専門家特化性に関する洞察を提供する。
- 損失のバランス調整により，専門家の崩壊を防ぎ，安定した学習を実現した。
Link: https://arxiv.org/abs/2604.18256
構成的なプロンプト分解による長文からの画像生成 [cs.CV, cs.AI]目的：長文プロンプトからの画像生成手法
- 画像生成技術は，テキストによる指示から画像を生成するため，表現の幅を広げ，創造性を支援する。
- 既存の画像生成モデルは，短いキャプションで学習されているため，長文の指示に対する詳細な表現が苦手である。
- 長文プロンプトを分割し，各部分を個別に処理することで，詳細な画像生成を可能にする。
- 提案手法PRISMは，既存の画像生成モデルを微調整せずに，長文プロンプトを処理できる。
- PRISMは，様々なモデルアーキテクチャで良好な性能を示し，微調整モデルと同等の結果を得ている。
- 特に，500トークンを超える長文プロンプトにおいて，既存手法を7.4%上回る優れた汎化性能を示す。
Link: https://arxiv.org/abs/2604.18258
幾何学誘導3Dビジュアルトークン刈り込みによるビデオ言語モデル [cs.CV]目的：ビデオ言語モデルにおける3Dシーン理解の効率化
- 3Dシーン理解は，現実世界の認識やロボット工学において不可欠な技術である。
- 3D空間ビデオの視覚トークン数は膨大であり，推論効率とコンテキスト管理のボトルネックとなっている。
- 本研究は，幾何学情報を活用して冗長なトークンを効果的に削減し，3Dシーンの完全性を維持することを目的とする。
- 提案手法Geo3DPrunerは，幾何学を考慮したグローバルアテンションによりクロスフレーム間の関連性をモデル化する。
- intra-voxel段階とinter-voxel段階の2段階刈り込みにより，90%以上のトークンを削減しつつ，元の性能の90%以上を維持する。
- 既存のテキスト誘導および視覚誘導刈り込み手法を大幅に上回り，3Dシーン理解ベンチマークで優れた性能を示す。
Link: https://arxiv.org/abs/2604.18260
MARCO：意味的対応の不可視空間を航行する [cs.CV]目的：意味的対応の汎化性向上
- 画像間の対応関係は，ロボット工学やコンピュータビジョンにおいて重要な役割を担う。
- 既存モデルは訓練キーポイントに依存し，未知の点への汎化性能が課題であった。
- 訓練データにない点への対応を高め，実用的な汎化性能を実現する。
- MARCOは，SPair-71k，AP-10K，PF-PASCALにおいて最先端の性能を達成した。
- 特に，微細な位置特定精度と未知のキーポイントへの汎化性能が大幅に向上した。
- MARCOは，既存の拡散ベース手法と比較して，モデルサイズを3分の1，処理速度を10倍に削減した。
Link: https://arxiv.org/abs/2604.18267
LiquidTAD：液体ニューラルダイナミクスを用いた効率的な時系列行動検出手法 [eess.SY, cs.SY, cs.RO, cs.CE, cs.CV]目的：時系列行動検出の効率化
- 動画コンテンツの解析において，行動検出は重要な役割を果たす。
- Transformerベースのモデルは高性能だが，計算コストとパラメータ数が課題。
- 計算効率を向上させつつ，高い行動検出精度を達成することを目指す。
- 提案手法LiquidTADは，Transformerの自己注意層を並列化可能なActionLiquidブロックに置き換えた。
- THUMOS-14データセットにおいて，69.46%のAverage mAPを，ActionFormerの63%のパラメータ数で達成。
- ActivityNet-1.3やEgo4Dでも，精度と効率性のトレードオフの改善と，時間サンプリング変動に対する堅牢性を示した。
Link: https://arxiv.org/abs/2604.18274
スパイク-NVPT：生物学的インスピレーションに基づく時間フィルタリングと離散化によるロバストな視覚プロンプトの学習 [cs.CV]目的：ロバストな視覚プロンプトの学習
- 事前学習済みビジョンモデルは様々な分野で活用されており，その適応技術の重要性が増している。
- 学習されたプロンプトは連続的で高次元であるため，入力ノイズに敏感になりやすく，過学習しやすい。
- スパイクニューロンを用いたノイズに強いプロンプト調整手法を開発し，ロバスト性を向上させる。
- スパイク-NVPTは，従来のプロンプト調整手法と比較して，最大11.2%のロバスト性向上を達成した。
- 提案手法は，ノイズに対するロバスト性を高めつつ，クリーンなデータセット上でも競争力のある精度を維持する。
- スパイクニューロンを従来のニューラルネットワークのファインチューニングに利用する初の試みである。
Link: https://arxiv.org/abs/2604.18284
イベントベースプロペラセンシングを用いた相対状態推定 [cs.RO, cs.CV, cs.SY, eess.SY]目的：マルチUAVシステムの正確かつ迅速な相対状態推定
- 複数UAVの自律的な連携には，正確な位置関係把握が不可欠である。
- 従来のフレームベースカメラは，視覚的に困難な環境や高速移動において課題があった。
- イベントカメラを用いて，実環境下での高精度な相対状態推定を実現する。
- 提案手法は，イベントベースプロペラセンシングにより，プロペラの周波数計測を可能にした。
- 計測された周波数は，キネマティック状態推定モジュールへの入力として活用される。
- 実環境下での飛行実験において，3%以下の誤差でプロペラの周波数を推定できた。
Link: https://arxiv.org/abs/2604.18289
ノイズ除去とアライメント：拡散駆動型前景知識プロンプティングによるオープンボキャブラリ時系列行動検出 [cs.CV]目的：オープンボキャブラリ時系列行動検出における行動セグメントの局所化と分類
- 動画理解の分野において，未知の行動カテゴリを検出することは重要な課題である。
- 抽象的な行動ラベルと複雑な動画コンテンツ間の意味的ギャップが課題となっている。
- 拡散モデルを用いて前景知識を生成し，動画と行動のより正確なアライメントを実現する。
- 提案手法DFAlignは，拡散に基づくノイズ除去を利用して前景知識を生成し，行動-動画アライメントを誘導する初のフレームワークである。
- Semantic-Unify ConditioningモジュールとBackground-Suppress Denoisingモジュールにより，意味的ギャップを軽減し，行動関連セグメントの識別能力を高める。
- 実験結果から，本手法が2つのOV-TADベンチマークにおいて最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2604.18313
EVE：実行可能な視覚変換によるMLLMの検証可能な自己進化 [cs.NI, math.CO, cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルの自己進化
- MLLMは多様なタスクに対応可能だが，性能向上には継続的な学習が不可欠である。
- 既存手法では，擬似ラベルの品質低下や変換の多様性不足が課題となっていた。
- 実行可能な視覚変換を用いて，モデルの自己進化を検証可能かつ継続的に行う。
- EVEは，モデルの内部確信度に関わらず，外部からの決定的なフィードバックを活用する。
- 視覚変換コード例の多様性と複雑さを継続的に高めることで，学習分布の多様化を実現する。
- 既存の自己進化手法と比較して，EVEは安定性と拡張性に優れた結果を示した。
Link: https://arxiv.org/abs/2604.18320
OmniHuman：人間中心ビデオ生成のための大規模データセットとベンチマーク [cs.CV]目的：人間中心のビデオ生成のための大規模データセットと評価システム
- ビデオ生成技術は目覚ましい発展を遂げているが，実世界における人間を伴う高品質なビデオ生成は困難である。
- 既存のデータセットは，シーンの多様性，人間同士や物体とのインタラクション，個体属性の整合性において課題がある。
- これらの課題を解決するため，詳細な人間モデリングを可能にする大規模データセットを構築し，評価基準を確立する。
- OmniHumanデータセットは，シーン，インタラクション，属性の階層的アノテーションを提供し，高品質なデータ収集パイプラインを開発した。
- OHBenchベンチマークは，グローバルシーン，関係性，個体属性に焦点を当てた包括的な評価を提供し，人間知覚との整合性が高い指標を導入した。
- OHBenchは，既存ベンチマークの不足を補い，人間中心のオーディオ・ビデオ合成に関する科学的な診断を可能にする。
Link: https://arxiv.org/abs/2604.18326
ロボットナビゲーションのための奥行き事前知識によるガラス表面再構成の強化 [cs.RO, cs.CV]目的：ロボットナビゲーションにおけるガラス表面再構成の精度向上
- 屋内ロボットナビゲーションの実現には，正確な環境認識が不可欠である。
- ガラス表面は深度センサーの計測を著しく歪ませ，ナビゲーションの妨げとなる。
- ガラス表面による計測誤差を抑制し，正確な環境マップの構築を目指す。
- 本研究では，奥行き事前知識とローカルRANSACを組み合わせることで，ガラス表面における深度センサーの歪みを軽減することに成功した。
- 提案手法は，既存の最先端手法と比較して，特にガラス表面による影響が大きい状況下で，優れた性能を発揮する。
- ガラス領域の幾何学的な真値を含む新しいRGB-Dデータセット「GlassRecon」を公開し，研究の再現性と発展に貢献する。
Link: https://arxiv.org/abs/2604.18336
AdaCluster：ビデオ生成における疎な注意のための適応的クエリキークラスタリング [cs.CV, cs.AI]目的：ビデオ生成における拡散Transformerの推論速度向上
- ビデオ生成の発展に伴い，計算コストが課題となっている。
- 既存の疎な注意機構では，精度低下が生じやすい。
- Transformerの効率的な推論を可能にする新しいクラスタリング手法の提案。
- AdaClusterは，学習を必要としない適応的クラスタリングフレームワークである。
- クエリとキーに対して異なるクラスタリング手法を適用し，高い圧縮率と精度維持を実現した。
- CogVideoX-2B等のデータセットで，最大で4.31倍の高速化を確認した。
Link: https://arxiv.org/abs/2604.18348
LBFTI：同一性を保持した高精度顔再構成のためのレイヤーベース顔テンプレート反転 [cs.ET, cs.AR, cs.CL, cs.CL, cs.CV]目的：同一性を保持した高精度な顔画像再構成
- 顔認証システムにおけるプライバシー保護は重要であり，データ最小化の原則に準拠する必要がある。
- 顔テンプレート反転技術がプライバシー漏洩のリスクをもたらす点が課題となっている。
- 顔テンプレートから高精度に顔画像を再構成することによるプライバシーリスクを軽減する。
- 提案手法LBFTIは，既存手法と比較して認証性能が大幅に向上し，TARが25.3%改善された。
- 顔画像を前景，中間層，背景の3層に分解し，それぞれの層を専用の生成器で生成することで，高精度な再構成を実現した。
- 定量評価とアンケート調査により，提案手法が人間の知覚においても高い類似性を持つことが確認された。
Link: https://arxiv.org/abs/2604.18358
Omni-Embed-Audio：マルチモーダルLLMを活用した堅牢な音声-テキスト検索 [cs.SD, cs.CL]目的：音声とテキストの検索における堅牢性の向上
- 音声検索技術は，情報へのアクセス手段として重要性が増している。
- 従来の評価指標は現実の検索行動と異なり，実用的な検索の堅牢性を測れない。
- 複雑なクエリに対する意味理解能力を高め，より実用的な検索システムを開発すること。
- OEAは最先端のM2D-CLAPと同等のテキストから音声への検索性能を達成した。
- 特にテキスト同士の検索において，22%の相対的な性能向上を示した。
- また，類似音に対する識別能力において，大幅な改善（HNSR@10で+4.3%p，TFR@10で+34.7%）が見られた。
Link: https://arxiv.org/abs/2604.18360
LLMベースのManimアニメーション生成のための訓練とエージェント推論戦略 [cs.CL, cs.IR, cs.AI, cs.GR, cs.MA]目的：LLMベースのManimアニメーション生成における訓練と推論戦略の相互作用
- 科学技術分野における可視化は重要であり，複雑な概念の理解を促進する。
- LLMはドメイン固有APIの知識が不足しており，Manimのようなツールでのアニメーション生成が困難。
- 訓練と推論戦略を組み合わせ，高品質なManimアニメーション生成を可能にすること。
- SFTはコードの品質向上に寄与し，GRPOは視覚的な出力の改善と自己修正能力の向上に貢献する。
- Qwen 3 Coder 30BモデルとGRPO，RITL-DOCの組み合わせが最高の性能を示し，GPT-4.1を上回る結果となった。
- 訓練戦略によってコードと視覚指標の相関が強まり，推論戦略によってその相関が弱まることが示された。
Link: https://arxiv.org/abs/2604.18364
トークンマスキングを用いた早期行動予測サンプリング戦略：EAST [cs.CV]目的：早期行動予測におけるモデルの性能向上
- 人間行動理解は，ロボット工学やヒューマンコンピュータインタラクションにおいて不可欠である。
- 視覚的証拠が限られている状況下での早期行動予測は，依然として困難な課題である。
- 不完全な観察データに対する汎化性能を高める新しい学習戦略を提案する。
- 提案手法EASTは，観測されたフレームと未観測フレームの間にランダムな時間ステップを導入するサンプリング戦略を用いる。
- 観測データと未来の表現を同時に学習することで，エンコーダのみのモデルでも高い性能を発揮する。
- トークンマスキングにより，メモリ使用量を半分に削減し，学習速度を2倍に向上させることに成功した。
Link: https://arxiv.org/abs/2604.18367
DSA-CycleGAN：ドメインシフトを考慮したロバストな多色染色糸球体セグメンテーション [cs.CV]目的：多色染色糸球体セグメンテーションにおけるロバスト性の向上
- デジタル病理画像解析において，染色ばらつきはセグメンテーション精度を低下させる重要な課題である。
- 各染色に対応するアノテーション作成は高コストであり，染色変換技術の利用が求められている。
- CycleGANによる染色変換時のノイズを低減し，セグメンテーション精度向上を目指す。
- 提案手法DSA-CycleGANは，既存手法と比較して，染色変換時のノイズを効果的に低減することを示した。
- DSA-CycleGANは，特に生物学的に異なる染色間の変換において，セグメンテーション性能を向上させる。
- 実験結果から，DSA-CycleGANが多色染色糸球体セグメンテーションにおいて優れた性能を発揮することが確認された。
Link: https://arxiv.org/abs/2604.18368
ロバストなテキスト-画像人物検索に向けて：意味的補償のためのマルチビュー再構成 [cs.CV]目的：テキスト-画像人物検索におけるロバスト性の向上
- 自然言語と視覚情報の間の関係性を理解することは，画像検索や情報アクセスにおいて重要である。
- 表現の多様性により，意味的に同等なテキストが特徴空間で大きな差異を生み出し，画像とテキストの対応関係を損なう。
- LLMを用いたマルチビュー再構成により，クロスモーダル表現の一貫性を高め，表現ドリフトを抑制することを目指す。
- 提案手法は，学習を必要とせずに元のモデルの精度を大幅に向上させる。
- マルチビュー再構成により，意味的に等価でありながら分布が多様なテキストバリアントを生成する。
- 視覚的セマンティックギャップに対処するため，VLMを用いて多観点な画像記述を生成し，共有テキスト再構成によって強化する。
Link: https://arxiv.org/abs/2604.18376
逆残差場を用いたワンステップ拡散による教師なし産業異常検知 [eess.SY, cs.SY, cs.CV]目的：教師なし産業異常検知のための逆残差場を用いたワンステップ拡散モデル
- 産業設備の安定稼働に不可欠であり，予兆保全によるダウンタイム削減が求められている。
- 異常データは多様であり，正常データのみで学習する教師なし学習は難易度が高い。
- 拡散モデルの推論速度を向上させ，効率的な異常検知を実現すること。
- 提案手法OSD-IRFは，逆残差場空間において異常と正常を区別できることを示した。
- ワンステップ拡散により，従来の拡散モデルと比較して約2倍の推論速度向上を達成した。
- 3つのベンチマークデータセットで，6つの評価指標において最先端または競合する性能を示した。
Link: https://arxiv.org/abs/2604.18393
MedProbeBench：専門家レベルの医療ガイドラインにおける深層証拠統合の体系的なベンチマーク [cs.CV]目的：深層証拠統合能力の体系的なベンチマーク
- 医療分野における臨床ガイドライン作成には，大規模な外部知識の統合が不可欠である。
- 既存のベンチマークは，多段階の証拠統合と専門家の判断を必要とする現実的なワークフローを評価できていない。
- 高品質な臨床ガイドラインを用いて，深層探索エージェントの証拠統合能力を評価する。
- MedProbeBenchは，専門家レベルの参照として高品質な臨床ガイドラインを活用した初のベンチマークである。
- 提案するMedProbe-Evalは，1200以上のタスク適応型評価基準と5130以上の原子的命題に基づく厳密な検証を提供する。
- 17のLLMと深層探索エージェントの評価により，現在の能力と専門家レベルの臨床ガイドライン開発との間には大きな隔たりがあることが示された。
Link: https://arxiv.org/abs/2604.18418
リモートセンシングにおける変化VQA：構造化およびネイティブマルチモーダルQwenモデルによる再検討 [cs.CV, cs.AI]目的：変化VQAにおける性能向上
- リモートセンシング画像における変化検出は，土地利用変化の把握や災害評価等に不可欠である。
- 変化VQAは，専門的な知識を要するため，汎用的なモデルの適用が困難であった。
- 最新のマルチモーダルモデルを用いて，変化VQAの性能向上を目指す。
- 近年のVLMsは，既存の専用ベースラインを上回る性能を示すことが確認された。
- モデルサイズと性能の相関は一様ではなく，ネイティブマルチモーダルモデルの方が構造化されたVLMよりも効果的である。
- 言語駆動型セマンティック変化推論において，緊密に統合されたマルチモーダルバックボーンが重要であることが示唆された。
Link: https://arxiv.org/abs/2604.18429
ProtoCLIP：プロトタイプに沿った潜在的洗練によるロバストなゼロショット胸部X線画像分類 [cs.LG, cs.AI, cs.CV]目的：ゼロショット胸部X線画像分類における識別能力の向上
- 医療画像診断の精度向上は，迅速かつ正確な診断を可能にし，患者の予後改善に不可欠である。
- 既存のゼロショットモデルは，ラベルの共起，クラスの不均衡，ドメインシフトによる性能低下が課題である。
- データキュレーションと知識蒸留による潜在的な洗練を通じて，これらの課題を克服し，診断精度を向上させる。
- ProtoCLIPは，VinDr-CXRデータセットにおいて，複数の所見に対して，既存のCLIPベースラインよりもAUCを2～10ポイント向上させた。
- 特に，気胸の検出において，ProtoCLIPは最先端のAUC0.94を達成した。
- アンカーに誘導された洗練とキュレーションされた教師信号により，大規模な再学習なしにゼロショット転移における一般的な失敗を軽減できる。
Link: https://arxiv.org/abs/2604.18444
低リソース環境におけるコンパクトな識別型Vision-Language Transformerの訓練：ESsEN [cs.HC, cs.CV, cs.CL]目的：低リソース環境下でのコンパクトな識別型ビジョン言語Transformerの訓練
- 近年，ビジョン言語モデリングの人気が高まっている。大規模モデルが主流だが，エッジデバイス等への応用には小型モデルが求められる。
- 軽量モデルの研究や，小規模データセットでの訓練法は十分ではない。リソース制約下での高性能モデル構築が課題である。
- 子供の発達に着想を得て，リソースが限られた状況下での効率的な学習方法を模索し，小型モデルの開発を目指す。
- 低リソース環境においては，二塔型エンコーダモデルが単一塔型モデルよりも優れていることが示された。
- 二塔型Transformerアーキテクチャに従来の畳み込みネットワークを組み込むことで，パラメータ効率の良いビジョン言語モデルが実現可能となった。
- ESsENは，既存モデルと比較してパラメータ数を大幅に削減しながら，同等の性能を発揮するコンパクトなビジョン言語モデルである。
Link: https://arxiv.org/abs/2604.18452
証拠とタイミングが一致する透明性の高い意思決定によるプログレッシブなオンライン動画理解 [eess.SY, cs.SY, math.OC, cs.CV, cs.AI]目的：オンライン動画ストリームにおいて，十分な証拠が最初に現れた時点で正確に応答する能力の向上
- 動画理解は，ロボット工学や監視システムなど，様々な分野で重要な役割を担う技術である。
- 従来の動画LLMはオフライン設定で評価されるため，リアルタイムでの応答性や証拠との整合性が課題である。
- 本研究は，オンライン環境下での透明性と証拠に基づく正確な意思決定を可能にするフレームワークを提案する。
- 提案手法は，意思決定の過程を可視化する「Active Thinking Decision Maker (ATDM)」と，効率的なメモリシステムである「Hierarchical Progressive Semantic Integration (HPSI)」を組み合わせる。
- StreamingBenchベンチマークにおいて，既存の最先端手法と比較して精度を4\%向上させ，71.6\%の性能を達成した。
- OVOBenchベンチマークにおいても46.9\%の性能を示し，証拠に基づいた透明性の高いオンライン動画分析ソリューションの有効性を実証した。
Link: https://arxiv.org/abs/2604.18459
アセットハーベスター：自動運転ログからの3Dアセット抽出によるシミュレーション [cs.CV, cs.AI, cs.GR, cs.LG]目的：自動運転ログからの3Dアセット抽出パイプライン
- 自動運転開発において，シミュレーションはスケーラブルなテストと安全検証に不可欠である。
- 既存のニューラルシーン再構成は，エージェント操作に必要な完全な3Dオブジェクトアセットを提供しない。
- 自動運転ログから再利用可能な3Dアセットを大規模に生成する。
- アセットハーベスターは，自動運転ログからsparseなオブジェクト観察を完全な3Dアセットに変換する。
- 大規模なオブジェクト中心トレーニングデータと，geometry-awareな前処理，3D Gaussian liftingを組み合わせたシステムレベル設計。
- SparseViewDiTは，限定的な視点や現実世界のデータ課題に対応するように設計されている。
Link: https://arxiv.org/abs/2604.18468
SemLT3D：意味的誘導による専門家蒸留を用いたカメラ単体による長尾3次元物体検出 [cs.CV]目的：カメラ単体による長尾3次元物体検出における性能向上
- 自動運転において，LiDARに代わる費用対効果が高く，拡張性のある手法として重要性が増している。
- 実世界のデータセットに存在する，稀なカテゴリのデータ不足が深刻な問題となっている。
- 意味的知識を用いて，少数クラスの表現を強化し，長尾分布に対する認識精度を向上させる。
- SemLT3Dは，言語誘導による専門家混合モジュールにより，意味的な類似性に基づいて3次元クエリを専門家にルーティングする。
- これにより，曖昧なクラスを分離し，少数クラス分布に特化することが可能となる。
- CLIPに基づく2次元意味情報とのアラインメントにより，多様な視覚的現れにおいて一貫性のある識別力のある特徴を生成する。
Link: https://arxiv.org/abs/2604.18476
大規模埋め込み環境向け幾何学的・物理的手がかりを強化した基盤モデル XEmbodied [cs.CV, cs.MM, cs.RO]目的：大規模埋め込み環境におけるビジョン，言語，行動モデルの基盤
- 次世代の自律システム開発において，ビジョン言語行動モデルの重要性が高まっている。
- 従来のクラウドパイプラインでは，2D画像とテキストの事前学習に偏り，幾何学的推論やドメイン知識が不足している。
- 3D幾何学的知識と物理的手がかりを統合し，汎化性能の高いモデルを構築することを目指す。
- XEmbodiedは，構造化3Dアダプターと効率的な画像埋め込みアダプターを通じて，幾何学的表現と物理的信号を統合する。
- 段階的なドメインカリキュラムと強化学習による後処理により，汎用性とロバスト性を両立している。
- 18の公開ベンチマークにおいて，空間推論，交通セマンティクス，埋め込みアフォーダンス，および外挿性能が大幅に向上した。
Link: https://arxiv.org/abs/2604.18484
OneVL：ビジョン言語説明によるワンステップ潜在的推論と計画 [cs.CV, cs.CL, cs.RO]目的：ビジョン言語モデルを用いた自動運転における軌跡予測のための，潜在的推論と計画の実現
- 自動運転の安全性向上には，周囲状況を正確に予測し，適切な行動計画を立てることが不可欠である。
- 既存のCoT推論は高精度だが，逐次的な処理のためリアルタイム性に課題がある。
- 潜在的CoTはリアルタイム性改善を目指すも，明示的なCoTに匹敵する性能が出ていない。
- OneVLは，言語とビジョン両方のデコーダを用いて潜在空間を教師ありで制御し，世界の因果関係を学習する。
- OneVLは，既存の明示的CoT推論を超え，回答のみの速度で最先端の精度を達成した。
- 言語とワールドモデルの教師あり学習による，より汎用性の高い表現学習の有効性が示された。
Link: https://arxiv.org/abs/2604.18486
歌詞から旋律生成のための言語モデルとルールに基づく音楽的制約のアライメント [cs.SD, cs.CL, eess.AS]目的：歌詞から旋律を生成する際の言語モデルのアライメント
- 音楽生成におけるAI技術の発展は，新たな創造的表現の可能性を広げる上で重要である。
- 既存の言語モデルは，音楽理論に基づかない旋律を生成しやすく，音楽的に不自然な結果を生み出す問題がある。
- 音楽的制約を言語モデルに組み込み，より自然で音楽的に正しい旋律生成を実現することを目指す。
- 提案手法は，ルールに基づく音楽的制約を用いて，言語モデルを効果的にアライメントすることが示された。
- 生成された旋律は，客観評価および主観評価の両方において，既存手法を上回る音楽性と一貫性を示すことが確認された。
- 制約違反が大幅に減少し，より音楽的に自然な旋律が生成されることが実証された。
Link: https://arxiv.org/abs/2604.18489
S2H-DPO：ビジョン言語モデルに対する難易度を意識した嗜好最適化 [cs.CV]目的：ビジョン言語モデルにおけるマルチイメージ推論能力の向上
- 画像と言語を理解するモデルは，単一画像処理で進歩したが，複数画像の理解は課題である。
- 既存手法は特定画像の指示に頼る傾向があり，グローバルな探索や自律的な比較が不十分である。
- 難易度に応じたデータ構築により，マルチイメージ推論能力の向上を目指す。
- 提案手法では，単一画像処理，複数画像比較，グローバル探索の3段階で学習データを構築した。
- LLaVAおよびQwen-VLモデルを用いた実験で，マルチイメージ推論性能が大幅に向上した。
- 単一画像処理性能を維持しつつ，複数画像の理解能力を強化することで，全体的な視覚的嗜好整合性を高めた。
Link: https://arxiv.org/abs/2604.18512
UDM-GRPO：一様離散拡散モデルに対する安定かつ効率的なグループ相対方策最適化 [cs.CV, cs.LG]目的：一様離散拡散モデルと強化学習の統合
- 離散データの生成モデリングは，画像，テキスト，音声など多様な分野で重要性を増している。
- 従来の強化学習との組み合わせは不安定になりやすく，性能向上が限定的である。
- 拡散モデルにおける学習の安定性と効率性を高め，性能向上を目指す。
- 提案手法UDM-GRPOは，画像生成タスクにおいてGenEvalの精度を69%から96%に，PickScoreを20.46から23.81に向上させた。
- 連続データと離散データの両方の設定で最先端の性能を達成している。
- OCRベンチマークにおいても精度が8%から57%へと大幅に向上し，汎化能力が確認された。
Link: https://arxiv.org/abs/2604.18518
MetaCloak-JPEG：JPEG耐性のある敵対的摂動によるDreamBoothベースの不正なディープフェイク生成の防止 [cs.CV]目的：DreamBoothを用いたディープフェイク生成に対する保護手法の性能向上
- 画像生成技術の急速な進歩は，個人情報保護や社会への悪影響といった新たな課題を生み出している。
- 既存の防御システムはJPEG圧縮の影響を考慮しておらず，保護効果が大幅に低下する可能性がある。
- JPEG圧縮を経た画像に対しても有効な防御手法を確立し，ディープフェイク生成を抑制することを目指す。
- MetaCloak-JPEGは，JPEG圧縮パイプラインを考慮した微分可能なJPEG層（DiffJPEG）を導入することで，既存手法よりも高い保護性能を実現した。
- 実験の結果，MetaCloak-JPEGは，JPEG画像の生存率91.3%を達成し，9つのJPEG品質係数すべてにおいてPhotoGuardを上回った。
- わずか4.1GBの学習メモリ内で，高品質な保護性能を維持できることが示された。
Link: https://arxiv.org/abs/2604.18537
空間事前知識を強化したVision Transformerの発展 [cs.CV]目的：空間事前知識の強化によるVision Transformerの性能向上
- 画像認識技術は，自動運転や医療診断など幅広い分野で不可欠であり，その精度向上が求められている。
- Vision Transformerは高性能だが，空間情報の明示的な考慮が不足しており，計算コストが高いという課題がある。
- 本研究は，より効率的かつ高精度な画像認識を実現するため，空間事前知識を効果的に組み込むことを目指す。
- 提案手法EVTは，ImageNet-1kにおいて追加の学習データなしで86.6%のTop1精度を達成した。
- EVTは，マンハッタン距離の代わりにユークリッド距離を使用することで空間情報のモデリングを改善した。
- EVTは，分解注意機構を廃止し，より柔軟なグループ化アプローチを採用することで，モデルの適応性を高めた。
Link: https://arxiv.org/abs/2604.18549
SynAgent：単独エージェント間の相乗効果による汎用的な協調ヒューマノイド操作 [cs.CV]目的：協調ヒューマノイド操作の汎化
- 身体を持つ知能の基礎課題であり，実用的なロボット応用に不可欠である。
- データ不足，マルチエージェント間の協調の複雑さ，物体への汎化性の限界が存在する。
- 単独エージェントのスキルを協調シナリオに転移し，協調操作を可能にすること。
- SynAgentは，単独エージェントから協調エージェントへの相乗効果を活用し，スケーラブルかつ物理的に妥当な協調操作を実現する。
- Interact Meshを用いた相互作用を保持するリターゲティング手法により，人間と物体間の空間的関係性を忠実に維持する。
- 単独人間のデータから協調行動を学習する，単独エージェントの事前学習と適応パラダイムを提案し，既存手法よりも優れた性能を示す。
Link: https://arxiv.org/abs/2604.18557
アンカーセグ：推論セグメンテーションのための言語に基づいたクエリバンク [cs.CV]目的：推論セグメンテーションにおける言語と画像の関係性
- 複雑なテキスト情報を画像内のピクセルレベルのマスクに変換する技術は，画像認識の重要な課題である。
- 従来のセグメンテーション手法は，意味的推論と空間的局在化を一つのトークンに圧縮しており，分離が困難である。
- 言語に基づいたクエリバンクを用いて，意味的推論と空間的局在化を明示的に分離し，セグメンテーションの精度向上を目指す。
- AnchorSegは，画像トークンに対する構造化された条件付き生成プロセスを導入し，言語に基づいたクエリバンクを活用する。
- 推論トークンとセグメンテーションアンカートークンという，順序付けられたクエリバンクを構築することで，空間的局在化と意味的推論を分離する。
- ReasonSegテストセットにおいて，最先端の結果（gIoU 67.7%，cIoU 68.1%）を達成した。
Link: https://arxiv.org/abs/2604.18562
MultiWorld：スケーラブルなマルチエージェントマルチビュービデオワールドモデル [cs.CL, cs.CV]目的：マルチエージェントマルチビュー環境におけるワールドモデルの構築
- 現実世界の複雑な相互作用を理解・再現するためには，複数エージェント間の協調・競合を考慮したモデルが不可欠である。
- 既存のビデオワールドモデルは，単一エージェントのシナリオに限定されており，複数エージェント間の複雑な相互作用を捉えられていない。
- マルチエージェント環境における，より正確な制御とマルチビューの一貫性を実現するワールドモデルを開発すること。
- MultiWorldは，マルチエージェントとマルチビューを統合的にモデル化するフレームワークであり，複数エージェントの正確な制御とマルチビューの一貫性を両立している。
- Multi-Agent Condition ModuleとGlobal State Encoderを導入することで，エージェントの制御性と観察の一貫性を向上させている。
- マルチプレイヤーゲームやマルチロボット操作タスクにおいて，既存手法と比較して，ビデオの品質，行動追従性，マルチビューの一貫性において優れていることが示された。
Link: https://arxiv.org/abs/2604.18564
プラトンの洞窟へ再び：大規模なクロスモーダル表現の収束に関する検証 [cs.CV, cs.AI, cs.LG]目的：クロスモーダル表現の収束度合いの評価
- 異なるモダリティ間の表現がどのように関連するかは，AIの汎用性と理解に不可欠である。
- 既存研究では，テキストと画像などのモダリティ間表現が収束するという仮説が提唱されている。
- 大規模データセットにおけるクロスモーダル表現の収束の信頼性を検証し，その限界を明らかにする。
- 先行研究で示されたクロスモーダル表現の収束は，評価方法に大きく依存することが示された。
- 大規模データセットでは，モダリティ間表現の収束度は低下し，意味的な大まかな一致にとどまる。
- 最新モデルでは，言語モデルと視覚モデルの表現が収束するという傾向は見られない。
Link: https://arxiv.org/abs/2604.18572
T-REN：テキストに整列した領域トークン学習が，密な視覚-言語の整合性とスケーラビリティを向上させる [cs.CV]目的：視覚データをテキストに整列した領域レベルの表現（領域トークン）にマッピングする効率的なエンコーダ
- 視覚と言語の理解は，画像や動画といった多様なデータ形式を扱う上で不可欠であり，AI技術の発展を支える基盤となる。
- 既存の視覚-言語エンコーダは，言語と視覚特徴の整合性が弱く，高解像度な表現ではスケーラビリティに課題がある。
- テキストに整列した領域トークンを用いることで，密な視覚-言語の整合性を高め，計算コストを削減する。
- T-RENは，既存の視覚-言語バックボーンにわずか3.7%のパラメータを追加するだけで，大幅な性能向上を実現した。
- ADE20Kセマンティックセグメンテーションにおいて，+5.9 mIoU，COCO画像検索で+18.4%の再現率を達成した。
- Ego4D動画物体定位で+15.6%の再現率，VSPW動画シーン解析で+17.6% mIoUを達成し，トークン数を大幅に削減した。
Link: https://arxiv.org/abs/2604.18573
ReCap：一貫性のある物語の可視化のための軽量参照接地 [cs.CV]目的：物語の可視化における一貫性の維持
- 物語の可視化は，テキストナラティブを忠実に画像シーケンスとして表現する上で重要である。
- 従来の技術では，パラメータ増加や推論コスト増大が課題となっていた。
- ReCapは，基盤となる拡散モデルを変更せずに，キャラクターの一貫性と視覚的忠実度を向上させる。
- ReCapは，参照表現を視覚的アンカーとして利用し，キャラクターの識別子に基づいて条件付けを行うことで，フレーム間の一貫性を高める。
- SemDriftを用いることで，曖昧なテキストや指示詞によるキャラクター外観のずれを抑制し，安定性を向上させている。
- FlintstonesSVとPororoSVのベンチマークにおいて，既存の最先端技術StoryGPT-Vをそれぞれ2.63%，5.65%上回る性能を示した。
Link: https://arxiv.org/abs/2604.18575
MUA：モバイル超高精細アニメーションアバター [cs.CV]目的：モバイル環境における高精細でアニメーション可能なアバターの実現
- デジタルヒューマンは，VR/ARなど没入型体験のリアリティ向上に不可欠である。
- 高精細アバターは計算コストが高く，軽量アバターは品質が低いという課題がある。
- 両立可能な，効率的かつ高品質なアバター表現手法の開発を目指す。
- 提案手法は，ウェーブレットと低ランク近似を用いて，既存手法と比較して2000倍の計算コスト削減と10分の1のモデルサイズを実現した。
- 視覚的なダイナミクスや外観のディテールを維持しつつ，モバイルデバイスでのリアルタイム実行性能を達成した。
- PC環境では180FPS以上，Meta Quest 3では24FPSでのネイティブ動作を実現し，没入型アプリケーションの実現性を高めた。
Link: https://arxiv.org/abs/2604.18583
TokenChain: セマンティックトークンモデリングによる離散的音声連鎖 [eess.AS, cs.AI, cs.CL, cs.LG, cs.SD]目的：機械音声連鎖によるASRとTTSの同時改善
- 音声認識と音声合成の性能向上は，人間と機械のコミュニケーションを円滑にする上で重要である。
- 従来の音声連鎖モデルは，連続的な表現を用いるため，学習の安定性や効率性に課題があった。
- トークンインターフェースを用いた音声連鎖学習で，ASRとTTSの性能を効果的に向上させる。
- TokenChainは，LibriSpeechにおいて，ベースラインよりも2-6エポック早く精度を向上させ，同エポックエラー率を5-13%低減した。
- TED-LIUMにおいては，ASRのWERを56%，TTSのWERを31%それぞれ相対的に削減し，忘却を最小限に抑えた。
- トークンインターフェースを用いた連鎖学習は，離散的な表現においても有効であることが示された。
Link: https://arxiv.org/abs/2510.06201
A3-FPN：漸近的コンテンツ認識ピラミッド注意ネットワークによる高密度視覚予測 [cs.SI, cs.CY, cs.CV, cs.AI, cs.LG]目的：高密度視覚予測におけるオブジェクトスケール変動への対応
- 視覚認識において，オブジェクトのスケール変動は重要な課題であり，高精度な認識には多スケール表現が必要である。
- 既存のFeature Pyramid Networkは性能向上に貢献するものの，識別特徴の捕捉や小オブジェクトの認識に課題が残る。
- 識別特徴の向上と小オブジェクト認識の改善を目指し，多スケール特徴表現の拡張を試みる。
- 提案手法A3-FPNは，漸近的に解きほぐされたフレームワークとコンテンツ認識注意モジュールにより，多スケール特徴表現を強化する。
- MS COCO, VisDrone2019-DET, Cityscapesにおける実験により，A3-FPNが最先端のCNNやTransformerアーキテクチャに容易に統合でき，顕著な性能向上を示すことが確認された。
- 特にOneFormerとSwin-Lバックボーンとの組み合わせで，MS COCOで49.6のMask AP，Cityscapesで85.6のmIoUを達成した。
Link: https://arxiv.org/abs/2604.10210
SAND：神経変性疾患評価のための音声分析の課題 [eess.AS, cs.AI, cs.CV, cs.LG]目的：神経変性疾患，特に筋萎縮性側索硬化症（ALS）の早期診断と進行予測のためのAIモデル開発
- AI技術の進展と，音声信号のような非侵襲的バイオマーカー探索が重要視されている
- 音声信号は複雑であり，ALS診断用AIモデル開発には注釈付きデータセットが不足している
- 臨床注釈付きデータセットとSAND課題を通して，ALSの早期発見と進行予測を目指す
- 臨床医と機械学習の専門家による共同研究で，臨床的に注釈が付けられた検証データセットを構築した。
- SAND課題は，音声障害分析を通して，ALSの早期特定と進行予測のためのAIモデル開発を促進する。
- 本研究は，AIアルゴリズムの性能評価のための基盤を提供し，客観的な指標の確立に貢献する。
Link: https://arxiv.org/abs/2604.16445
故障強度診断のための深層階層的知識損失 [physics.flu-dyn, cs.CE, eess.AS, cs.AI, cs.CV, cs.LG, cs.SD, eess.SP]目的：故障強度診断における階層的な一貫性のある表現と予測の実現
- インテリジェント製造において重要な役割を担うが，クラス間の依存関係が無視されている。
- 既存手法では，ターゲットクラス間の依存関係を考慮できておらず，実用化が困難である。
- クラス間の階層構造と境界構造をモデル化し，微細な故障の認識精度向上を目指す。
- 深層階層的知識損失（DHK）を用いた新しいフレームワークを提案し，階層的な一貫性を実現した。
- 木構造に基づいた損失関数と，階層的動的マージンを用いた損失関数を組み合わせることで，高い認識性能を達成した。
- SAMSON AGのキャビテーションデータセットや公開データセットにおいて，最新技術を上回る優れた結果が得られた。
Link: https://arxiv.org/abs/2604.16459
ターゲットウェイトメカニズムはデルタヘッジを容易にしない [q-fin.RM, cs.GT]目的：デルタヘッジの容易性に関する検討
- DeFi市場の発展に伴い，流動性供給の効率化が重要課題となっている。
- Perpetual Demand Lending Pools (PDLPs) において，デルタリスクの管理が困難である。
- ターゲットウェイトメカニズムがデルタヘッジに及ぼす影響を明確にすること。
- Chitraらの主張する条件が自己矛盾的であることを証明した。
- どのようなターゲットウェイトメカニズムも，デルタを均一に減少させることは不可能である。
Link: https://arxiv.org/abs/2604.16467
生涯にわたる脳年齢予測のための二段階マルチモーダルMRIフレームワーク [quant-ph, cs.DC, eess.IV, cs.AI, cs.CV]目的：脳年齢予測モデルの構築
- 脳の健康状態を評価する上で，脳年齢の正確な定量化は重要なバイオマーカーとなり得る。
- 既存手法は，年齢層が限定的であったり，単一のMRIモダリティに依存したりすることが課題であった。
- 脳の形態変化と白質構造の発達を統合的に捉え，生涯にわたる脳成熟度を評価することを目的とする。
- 本研究では，脳の形態と白質構造を統合的に解析するマルチモーダル脳年齢予測フレームワークを開発した。
- 提案手法は二段階構造を採用し，各モダリティを独立して処理した後，後期融合により統合することで，各被験者を6つの発達段階に分類する。
- 分類された発達段階内で年齢を予測することで，多様な発達段階における脳成熟度の統一的かつ生涯にわたる評価を可能にする。
Link: https://arxiv.org/abs/2604.16655
天体画像からのノイズ除去：教師データなし学習手法 AstroSURE [astro-ph.IM, cs.CV]目的：天体画像のノイズ除去手法の評価
- 天体観測において，微弱な光信号を捉えるため，ノイズ低減は不可欠である。
- 高品質な教師データの取得が困難であり，ノイズ除去の精度向上に課題がある。
- 教師データなしでノイズ除去を行い，観測データの解析精度を向上させる。
- Noise2Noise，Stein’s URE，blind-spot法などの教師なし学習手法を天体画像に適用し，その性能を評価した。
- ハッブル宇宙望遠鏡(HST)のデータでは，これらの手法が微弱な天体の検出率を向上させる効果が確認された。
- カナダ・フランス・ハワイ望遠鏡(CFHT)のデータへの転移は限定的であり，観測機器の特性が重要であることが示唆された。
Link: https://arxiv.org/abs/2604.16793
構造化3D-SVD：生物学的ボリューム画像圧縮・再構成の実用的なフレームワーク [eess.IV, cs.CV, cs.NA, math.NA]目的：生物学的ボリュームデータの再構成，圧縮，解析のためのフレームワーク
- 生物学研究において，ボリュームデータの効率的な取り扱いが重要である
- ボリュームデータのサイズが大きいため，計算コストが高くなる課題がある
- 計算効率を保ちつつ，高精度な再構成・圧縮を実現することを目指す
- 構造化3D-SVDは，タッカー分解に近い再構成品質を，より短い計算時間で達成する
- カノニカルポリadic分解（CPD）よりも，精度と実行時間の両面で優れている
- 低レベルのTruncationでも主要な構造を維持でき，高レベルでは詳細な再構成が可能である
Link: https://arxiv.org/abs/2604.16947
乳がん熱画像分類のためのハイブリッド量子ニューラルネットワーク：新たな量子・古典統合アプローチ [quant-ph, cs.AI, cs.CV, cs.LG]目的：乳がん熱画像分類における性能向上
- 乳がん早期発見は，医療における重要な課題であり，診断精度の向上が求められている。
- 従来の深層学習は，複雑な熱的パターン分類において限界があり，精度の向上が課題となっていた。
- 量子計算の原理を取り入れ，従来の深層学習の限界を克服し，分類性能の向上を目指す。
- 提案するハイブリッド量子ニューラルネットワーク（HQNN）は，従来の深層学習アーキテクチャと比較して，乳がん熱画像分類において大幅な性能向上を示した。
- 量子成分は，4量子ビットの変分回路と多頭注意機構を組み合わせることで，量子を意識した特徴エンコーディングを実現した。
- 本研究は，医療画像分類における量子計算の優位性を示唆し，ヘルスケアにおける量子・古典ハイブリッドシステムの構築に向けた基盤を提供する。
Link: https://arxiv.org/abs/2604.16953