arXiv雑要約

画像・音声 - 2026/04/22 公開

  • TESO:確率的最適化による本質行列のオンライン追跡 [cs.CV]目的:ステレオカメラ較正パラメータの長期的な精度維持
    • 自律システムの認識能力において,正確なステレオカメラのパラメータは不可欠である。
    • 従来の較正手法では,時間経過に伴うドリフトや環境変化によるパラメータの劣化が課題となる。
    • 計算資源が限られた環境下でも,ロバストかつ高精度なオンライン追跡アルゴリズムを提供すること。
    • 提案手法TESOは,カーネル相関に基づくロバストな損失関数と,本質多様体上の適応的な確率的最適化により,高い精度を実現した。
    • MAN TruckScenesデータセットにおいて,Y軸の回転較正ドリフトを0.12度という高精度で追跡することに成功した。
    • KITTIデータセットにおける検証では,ステレオペア間の外挿パラメータの不整合を明らかにし,内挿パラメータの較正により精度が大幅に向上した。

    Link: https://arxiv.org/abs/2604.19420

  • DINO Eats CLIP:未知領域への適応によるオープンセット3D物体検索 [cs.CV]目的:オープンセット3D物体検索における性能向上
    • 3D物体検索は,ロボット工学や拡張現実など様々な分野で重要な役割を担う。
    • 既存手法は,既知クラスへの過学習や未知クラスへの識別能力不足といった課題がある。
    • 未知クラスに対する識別能力を高め,よりロバストな3D物体検索を実現すること。
    • DINO Eats CLIP(DEC)は,DINOエンコーダとCLIPの知識を活用し,動的な多視点統合を実現した。
    • チャンキングと適応モジュール(CAM)により,多視点画像内の局所的な関係性を効果的に統合し,過学習を抑制。
    • Virtual Feature Synthesis(VFS)モジュールにより,未知クラスの仮想特徴を合成し,識別能力を向上。

    Link: https://arxiv.org/abs/2604.19432

  • LoViF 2026 チャレンジ:現実世界オールインワン画像復元 - 方法と結果 [cs.CV]目的:現実世界オールインワン画像復元に関する研究の進展
    • 現実世界の画像は多様な劣化を含むため,実用的な復元技術の確立が重要である。
    • 複数の劣化要因を同時に処理する汎用的な復元モデルは未だ十分ではない。
    • 現実世界の様々な劣化条件下における画像復元モデルの性能評価基準を確立すること。
    • LoViFチャレンジは,現実世界の多様な劣化に対応する画像復元モデルの性能を評価する統一的なベンチマークを提供した。
    • 124名が登録し,9つの有効な最終提出があり,現実世界オールインワン画像復元研究の進展に貢献した。
    • 提出された手法の分析から,効果的なアプローチが明らかになり,今後の低レベルビジョン研究の基準が示された。

    Link: https://arxiv.org/abs/2604.19445

  • TS-Attn:多イベント動画生成のための時間軸分離型注意機構 [cs.CV]目的:複雑な時間的記述からの高品質な動画生成
    • 動画生成は,コンテンツ制作や情報伝達において重要な役割を担う。
    • 複数イベントを含む動画生成では,一貫性と指示追従性の両立が困難である。
    • 時間軸の一致と注意機構の分離を通じて,動画生成の性能向上を目指す。
    • 提案手法TS-Attnは,既存のテキスト-動画モデルに容易に組み込むことが可能である。
    • StoryEval-Benchのスコアを大幅に向上させ,推論時間への影響は最小限に抑えられる。
    • 多イベント画像-動画生成においてもプラグアンドプレイでの利用が可能である。

    Link: https://arxiv.org/abs/2604.19473

  • ソウル韓国語における頑健なピッチアクセント分類のためのピッチコンターの深層教師ありコントラスト学習 [cs.SD, cs.CL]目的:ソウル韓国語のピッチアクセントパターンを頑健に分類すること
    • 言語学研究において,イントネーションは重要な要素であり,意味の区別や文法構造の表現に寄与する。
    • 実際の音声には変動が伴うため,連続的なF0コンターを不変のカテゴリーにマッピングすることは困難である。
    • 深層コントラスト学習により,連続的なF0コンターの包括的な構造的特徴を捉え,高精度な分類を実現すること。
    • 提案手法Dual-Globは,既存のベースラインモデルと比較して,高い精度(77.75%)とF1スコア(51.54%)を達成した。
    • Dual-Globは,cleanデータと拡張データの間の構造的な一貫性を強制することで,F0コンター全体の形状を捉える。
    • 本研究は,データ駆動型手法を用いて,AMベースのイントネーション音韻論を支持する。

    Link: https://arxiv.org/abs/2604.19477

  • 深層スプライトに基づく画像モデル:解析 [cs.CV]目的:画像内の反復パターン識別
    • 画像認識技術の発展は,様々な応用分野において不可欠である。
    • 既存手法では,複雑な画像における多数のオブジェクトの識別が課題である。
    • スプライトベースの画像分解モデルの性能向上とスケーラビリティの解決を目指す。
    • 提案手法は,CLEVRベンチマークにおいて最先端の教師なしセグメンテーション手法に匹敵する性能を示す。
    • オブジェクト数に対して線形にスケールし,明示的にオブジェクトカテゴリを識別する。
    • 画像を解釈しやすい形で完全にモデル化することが可能である。

    Link: https://arxiv.org/abs/2604.19480

  • 大規模な候補者観察:Instagramにおける視覚的政治コミュニケーションのためのマルチモーダルLLM [cs.CV, cs.CY]目的:視覚的政治コミュニケーション分析における大規模言語モデルの能力評価
    • 政治コミュニケーション分析において,視覚的コンテンツの重要性が高まっている。
    • 既存手法では,大量の視覚的データからの政治家の識別や人数カウントに限界がある。
    • 本研究は,AI技術を用いて視覚的政治コミュニケーション分析の効率化を目指す。
    • GPT-4oは,Instagramストーリーズにおける顔認識で0.89,人数カウントで0.86という高いF1スコアを達成した。
    • 従来のコンピュータビジョンモデルと比較して,GPT-4oは優れた性能を示した。
    • 本研究は,AIシステムが政治コミュニケーションにおける視覚的コンテンツ分析を拡大・洗練する可能性を示唆する。

    Link: https://arxiv.org/abs/2604.19489

  • 深層学習に基づくブドウ病害検出におけるヒストグラムマッチングの評価 [cs.CL, cs.DC, cs.IR, cs.CL, cs.DL, cs.DL, cs.CY, cs.CL, cs.RO, cs.MA, cs.CV]目的:ブドウの病害分類におけるヒストグラムマッチングの有効性
    • 植物病害検出において,深層学習の性能は照明条件に大きく左右されるため,その安定化が重要である。
    • 屋外環境における照明変動は,深層学習モデルの汎化性能を低下させる大きな課題となっている。
    • 照明変動に対するロバスト性を高めるため,ヒストグラムマッチングによる画像処理を提案する。
    • ヒストグラムマッチングを前処理とデータ拡張の両方で活用することで,深層学習モデルの性能が大幅に向上した。
    • 特に,背景が複雑なキャノピー画像において,ヒストグラムマッチングの有効性が顕著に示された。
    • 正規化とヒストグラムに基づく多様性のバランスが,ドメインギャップの解消に貢献することが示唆された。

    Link: https://arxiv.org/abs/2604.19510

  • BEAT:均一な時間ステップによる音楽のトークン化と記号生成 [cs.SI, math.ST, stat.TH, cs.SD, cs.AI]目的:音楽のトークン化と記号生成に関する研究
    • 音楽生成の分野は,多様な表現形式を扱う必要があり,効率的かつ高品質なモデルが求められている。
    • 既存のトークン化手法は,時間間隔が不均一になりやすく,音楽構造の捉え方に課題があった。
    • 均一な時間ステップを基本単位とする新たなトークン化手法を提案し,音楽構造のより効果的な表現を目指す。
    • 提案手法は,音楽の継続生成および伴奏生成タスクにおいて,既存の手法と比較して,より高品質で構造的に一貫性のある音楽を生成することが示された。
    • 時間ステップによる明示的なグルーピングにより,効率性が向上し,長距離パターンをより効果的に捉えることが確認された。
    • この研究は,音楽の記号表現におけるトークン化の新たな可能性を示唆している。

    Link: https://arxiv.org/abs/2604.19532

  • パパラッチ:移動する3Dオブジェクトの能動的マッピング [cs.CV]目的:移動する3Dオブジェクトの能動的マッピング
    • ロボットの自律的な環境理解において,動的な要素の認識は不可欠である。
    • 従来の3Dマッピングは静的な環境を前提としており,移動物体の正確な捕捉が困難である。
    • 移動物体の追跡と観察に最適な視点を計画することで,動的環境の理解を目指す。
    • 提案手法「パパラッチ」は,学習を用いずに移動対象の軌跡を予測し,情報量の多い視点を特定する。
    • 新しいタスクのための包括的なベンチマークを開発し,その有効性を検証した。
    • 実験の結果,従来のベースラインと比較して3D再構成の完全性と精度が大幅に向上した。

    Link: https://arxiv.org/abs/2604.19556

  • EgoSelf:記憶からのパーソナライズされた一人称視点アシスタント [cs.CV, cs.AI]目的:パーソナライズされた一人称視点アシスタントの実現
    • 一人称視点データは,ユーザーの行動や状況を捉え,パーソナライズされたサービス提供に不可欠である。
    • 長期的なユーザーデータを効果的に統合し,パーソナライズを実現することが課題である。
    • 過去の観察から構築されたグラフベースのインタラクションメモリを活用し,パーソナライズを可能にする。
    • EgoSelfは,インタラクションイベントとエンティティ間の時間的・意味的関係を捉えたグラフベースのインタラクションメモリを構築する。
    • このメモリからユーザー固有のプロファイルが導き出され,個々のユーザーの過去の行動を予測する学習タスクが用いられる。
    • 実験の結果,EgoSelfがパーソナライズされた一人称視点アシスタントとして有効であることが示された。

    Link: https://arxiv.org/abs/2604.19564

  • SpUDD:符号なし距離データの大域的輪郭抽出 [cs.GR]目的:符号なし距離データからの任意の表面再構成
    • 暗黙的表面表現は,複雑な形状を扱う上で強力なツールである。
    • 従来の再構成手法は,符号付き距離関数に依存しており,符号なしデータには適用できない。
    • 離散的かつ符号なしの距離データからの表面再構成問題を解決する。
    • 距離サンプルから生成されるパワー図から「超大域的輪郭」という概念を導入し,理論的に表面への収束を証明した。
    • 超大域的輪郭を初期表面プロキシとして利用し,未知の真の形状を近似するポリゴンメッシュ生成アルゴリズムを設計した。
    • 本手法は,既存の手法と比較して,符号なし距離データの離散再構成において優れた性能を示す。

    Link: https://arxiv.org/abs/2604.19568

  • RF-HiT:汎用的な医用画像セグメンテーションのための修正フロー階層型Transformer [cs.CV]目的:汎用医用画像セグメンテーションのための効率的かつ高精度なモデルの提案
    • 医用画像セグメンテーションは,診断・治療計画において不可欠であり,高精度な自動化が求められている。
    • 既存のTransformerや拡散モデルは,計算量が多く,推論速度が遅いという課題がある。
    • 計算効率を向上させ,リアルタイムな臨床セグメンテーションを可能とするモデルの開発を目指す。
    • RF-HiTは,修正フローと効率的なTransformerブロックを活用し,線形時間計算量で高精度なセグメンテーションを実現した。
    • ACDCデータセットで平均Dice係数91.27%,BraTS 2021データセットで87.40%を達成し,既存モデルに匹敵する性能を示した。
    • 推論に必要な計算量は10.14 GFLOPs,パラメータ数は13.6Mとコンパクトであり,実用的な臨床応用が期待される。

    Link: https://arxiv.org/abs/2604.19570

  • TransSplat:言語駆動型3DGS編集のための不均衡な意味的輸送 [cs.CV]目的:言語駆動型3D Gaussian Splatting編集における意味的対応の確立
    • VR/AR環境下での複雑なシーン編集において,言語による指示が直感的かつ効率的な手法として注目されている。
    • 既存手法は,視点間の一貫性向上に注力するが,編集された2D画像と3D Gaussian間の意味的な対応関係の欠如が課題である。
    • TransSplatは,この意味的対応を明示的に捉え,より正確で制御性の高い3D編集を実現することを目指す。
    • TransSplatは,言語駆動型3DGS編集を多視点間の不均衡な意味的輸送問題として定式化することで,2D画像と3D Gaussian間の対応関係を確立する。
    • 本手法は,視点固有の編集プロトタイプと可視Gaussian間の対応を確立し,編集漏れを抑制することで,局所的な編集精度と構造的一貫性を向上させる。
    • 実験結果から,既存手法と比較して,TransSplatは局所編集の精度と構造的一貫性において優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2604.19571

  • SmartPhotoCrafter:自動写真編集のための統合的な推論,生成,最適化 [cs.CL, cs.CV]目的:自動写真編集手法の開発
    • 写真編集は,画像の品質を向上させる上で重要な役割を果たす。
    • 従来の編集は専門知識が必要で,非専門家には指示が困難。
    • 明示的な指示なしに,画像の品質を自動で向上させる。
    • SmartPhotoCrafterは,画像品質の理解と改善を組み合わせた新しい手法である。
    • 画像 criticモジュールによる問題点の特定と,photographic artistモジュールによる改善を繰り返す。
    • 実験の結果,既存の生成モデルを上回り,写実的な結果と高い色調感度を実現した。

    Link: https://arxiv.org/abs/2604.19587

  • 高解像度リモートセンシングマッピングのための地球規模地理空間埋め込みの構造・意味的分離変調 [cs.MA, cs.CV]目的:高解像度リモートセンシングマッピングにおける,地球規模地理空間埋め込みの利用
    • 広域的な土地被覆マッピングにおいて,汎化性能と予測の一貫性が重要である。
    • 高解像度画像と地球規模モデルを直接融合すると,特徴干渉や空間構造の劣化が生じやすい。
    • 構造と意味を分離することで,地球規模モデルの潜在能力を最大限に引き出すことを目指す。
    • 提案手法であるSSDMは,構造的事前知識と意味的情報を分離して注入する。
    • SSDMは,高周波ノイズを抑制し,クラス内分散を抑制することで,予測の断片化を改善する。
    • 実験結果から,SSDMが既存手法と比較して最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2604.19591

  • オンライン学習からマルチキャリブレーションへの効率的なブラックボックス還元と,Φ後悔最小化への新たな経路 [cs.LG, cs.GT]目的:オンライン学習とオンラインマルチキャリブレーション間の還元
    • 機械学習における予測精度向上は重要であり,特に外部後悔最小化は基本的な目標である。
    • マルチキャリブレーションは,高次元データにおける精度の保証が難しい。
    • 効率的なマルチキャリブレーション手法を確立し,Φ後悔最小化への新たな道を開く。
    • オンライン学習とオンラインマルチキャリブレーション間のブラックボックス還元が実現可能であることが示された。
    • この還元により,既存のオンラインマルチキャリブレーションアルゴリズムの分析が統一され,新たなアルゴリズム開発に貢献する。
    • 高次元オンラインマルチキャリブレーションからΦ後悔最小化への還元により,複雑な固定点解析を回避し,より簡潔な結果と改善されたレートが得られた。

    Link: https://arxiv.org/abs/2604.19592

  • PC2Model:3D点群からモデルへの登録に関するISPRSベンチマーク [cs.CV]目的:3D点群からモデルへの登録のためのベンチマークデータセット
    • 建設,自動運転,ロボティクスなど幅広い分野で3D点群データの活用が進んでおり,その精度向上は重要である。
    • 現実世界の点群データは,疎性,ノイズ,障害物,オクルージョンなどの影響を受け,登録処理の性能を制限する。
    • 現実世界のデータに対するロバストな登録手法を開発・評価するための標準的なベンチマークデータセットを提供する。
    • PC2Modelベンチマークは,シミュレーションデータと現実世界のデータを含むハイブリッド設計を採用している。
    • シミュレーションデータは正確な正解データを提供し,現実世界のデータはセンサーや環境のアーティファクトを導入する。
    • このデータセットにより,シミュレーションから現実世界へのモデルの転移可能性を体系的に分析することが可能となる。

    Link: https://arxiv.org/abs/2604.19596

  • ボリュームTransformer:3Dシーン理解のためのバニラTransformerの再検討 [cs.CV]目的:3Dシーン理解のためのTransformerモデルの性能向上
    • 3Dシーン理解は,ロボティクスや自動運転など幅広い応用分野において重要である。
    • 既存の3Dシーン理解モデルはドメイン固有の構造に依存し,汎用性に欠ける点が課題である。
    • バニラTransformerを3Dシーンに適用し,汎用性と拡張性の高いモデルを構築することを試みる。
    • 提案手法Voltは,3Dセマンティックセグメンテーションにおいて,既存手法と遜色ない性能を示す。
    • 複数のデータセットを用いた共同学習により,Voltはドメイン固有のバックボーンよりもスケールメリットを享受する。
    • Voltをインスタンスセグメンテーションのバックボーンとして利用することで,新たな最高性能を達成した。

    Link: https://arxiv.org/abs/2604.19609

  • SAGE:厳しいアップリンク予算下におけるエッジクラウド推論のための学習不要な意味的証拠の合成 [cs.RO, cs.CL, cs.LG, cs.CV, eess.SP]目的:厳しいアップリンク予算下でのエッジクラウド推論における意味的証拠の合成手法
    • エッジコンピューティングの普及に伴い,低遅延かつ高効率な推論が求められている。
    • アップリンク帯域制限下では,送信データ量を削減することが課題となる。
    • 意味的証拠の選択を通じて,限られた帯域で高精度な推論を実現すること。
    • 従来の注意機構に基づく方法では,厳しい予算下で性能が制限されることが示された。
    • 提案手法SAGEは,意味的情報と多様性を考慮した証拠選択により,高精度を達成する。
    • ImageNet-1Kにおいて,SAGEは既存手法を大幅に上回り,サーバーの性能に匹敵する精度を実現した。

    Link: https://arxiv.org/abs/2604.19623

  • GRAFT:幾何学的洗練と適合Transformerによる人間シーン再構成 [cs.CV]目的:単一画像からの物理的に妥当な3D人間-シーン相互作用の再構成
    • 人間とシーンの理解は,ロボティクス,VR/ARなどに応用され,その重要性は高い。
    • 既存手法では,精度と速度のトレードオフがあり,リアルタイムな処理が課題となっていた。
    • 幾何学的な適合を高速化し,高精度かつ効率的な人間シーン相互作用の再構成を実現すること。
    • GRAFTは,最先端のフィードフォワード手法と比較して相互作用品質を最大113%向上させた。
    • 最適化ベースの手法と同等の相互作用品質を,約50分の1の時間で実現した。
    • 実環境における複数人物シーンへの汎化能力も高く,ユーザー調査では64.8%の支持を得た。

    Link: https://arxiv.org/abs/2604.19624

  • MoSA:モーション誘導型セマンティックアライメントによる動的シーングラフ生成 [cs.CV]目的:動的シーングラフの生成
    • 動画の高度な意味理解には,オブジェクトとその動的相互作用を構造的にモデル化することが不可欠である。
    • 既存手法は,詳細な関係性のモデル化,セマンティック表現の活用,および稀な関係性のモデル化に課題がある。
    • 動画内のオブジェクト間の関係性をより正確かつ詳細に捉えることを目指している。
    • 提案手法MoSAは,オブジェクトペアのモーション属性をエンコードし,空間的関係性特徴と融合することで,モーションを考慮した関係性表現を生成する。
    • クロスモーダルなAction Semantic Matching (ASM)機構により,視覚的な関係性特徴と関係性カテゴリーのテキスト埋め込みをアライメントし,セマンティック識別能力を高める。
    • 尾部関係の学習を重視するカテゴリー加重損失戦略を導入し,Action Genomeデータセットで最適な性能を達成した。

    Link: https://arxiv.org/abs/2604.19631

  • CreatiParser:ラスタ画像によるグラフィックデザインの編集可能なレイヤーへの生成的解析 [cs.CV]目的:グラフィックデザイン画像を編集可能なテキスト,背景,ステッカーレイヤーに分解する手法
    • グラフィックデザインの分野は,視覚的なコミュニケーションにおいて重要な役割を担い,多様な表現を可能とする。
    • 既存の生成モデルはレイヤー構造を持たないラスタ形式で出力するため,編集作業に制約が生じる。
    • ラスタ画像からレイヤー構造を生成し,柔軟な編集を可能にすることを目的とする。
    • 提案手法は,テキスト領域をテキストレンダリングプロトコルに解析することで,忠実な再構築と柔軟な再編集を実現した。
    • 背景およびステッカーレイヤーは,RGBAサポートを備えたマルチブランチ拡散アーキテクチャを用いて生成される。
    • ParserRewardを導入し,グループ相対ポリシー最適化と統合することで,生成品質を人間のデザイン嗜好に合致させた。

    Link: https://arxiv.org/abs/2604.19632

  • チャンク単位の相互連結によるストリーミングターゲットスピーカー抽出 [cs.SD, cs.AI]目的:ストリーミングターゲットスピーカー抽出の実現
    • 音声処理分野において,ターゲットスピーカー抽出は重要な技術であり,様々な応用が期待される。
    • 生成モデルは高い性能を示すものの,ストリーミング処理には向いておらず,低遅延での運用が困難である。
    • チャンク単位の相互連結により,ストリーミング環境下でも性能劣化なくターゲットスピーカー抽出を実現する。
    • 提案手法は,低遅延時においても100%の安定性と高い明瞭度を維持し,オフラインベースラインと同等以上の性能を示す。
    • 消費者向けGPU上で0.248のリアルタイムファクター(RTF)を達成し,低遅延アプリケーションへの適用可能性を示した。
    • 本研究は,チャンク単位の相互連結パラダイムにより,生成モデルが遅延に敏感なアプリケーションにも有効であることを実証した。

    Link: https://arxiv.org/abs/2604.19635

  • CoInteract:空間構造化共同生成による物理的に整合的な人間-物体インタラクション動画合成 [cs.CV]目的:人間と物体のインタラクション動画の合成
    • ECサイトやデジタル広告など,様々な分野で人間と物体のインタラクション動画の需要が高まっている。
    • 既存の拡散モデルでは,手や顔などの繊細な領域の構造安定性や物理的に妥当な接触の表現が課題となっていた。
    • 拡散モデルにおける構造的安定性と物理的整合性の問題を解決し,より現実的なインタラクション動画を生成すること。
    • CoInteractは,参照画像,テキスト,音声に基づいて,人間と物体のインタラクション動画を高精度に合成する。
    • Human-Aware MoEと空間構造化共同生成により,構造的安定性,論理的一貫性,インタラクションのリアリズムが大幅に向上した。
    • HOI構造ストリームを活用することで,RGB生成にオーバーヘッドなく,インタラクションの幾何学的情報を注入している。

    Link: https://arxiv.org/abs/2604.19636

  • CoCo-SAM3:オープンボキャブラリセマンティックセグメンテーションにおける概念衝突の活用 [cs.CL, cs.RO, cs.CL, cs.CV, cs.AI]目的:オープンボキャブラリセマンティックセグメンテーションにおける概念衝突の軽減
    • 画像認識技術は,自動運転や医療診断など幅広い分野で重要性が増している。
    • 既存手法では,異なるカテゴリのプロンプト間で一貫した比較が難しく,セグメンテーション精度が低下しやすい。
    • CoCo-SAM3は,概念の一貫性とクラス間の競争を明示的に分離し,セグメンテーションの安定化を目指す。
    • CoCo-SAM3は,同義語プロンプトからのエビデンスを統合することで概念の一貫性を強化する。
    • 統一された比較可能なスケール上でクラス間競争を行うことで,ピクセル単位での直接比較を可能にする。
    • 追加の学習なしに,8つのオープンボキャブラリセマンティックセグメンテーションベンチマークで一貫した性能向上を達成した。

    Link: https://arxiv.org/abs/2604.19648

  • 環境音のディープフェイク検出のための深層学習フレームワーク [cs.SD, cs.AI]目的:環境音のディープフェイク検出
    • 音声情報の信頼性確保は,社会生活や安全保障において重要である。
    • 近年,音声の偽装技術が高度化しており,検知が困難になっている。
    • ディープフェイク音声の検知技術を確立し,その被害を軽減すること。
    • 環境音シーンと音イベントのディープフェイク検出は,個別のタスクとして扱うべきである。
    • 事前学習済みモデルのファインチューニングが,スクラッチからの学習よりも効果的である。
    • 提案手法は,EnvSDDテストセットで98%の正解率,ESDD-Challenge-TestSetで88%の正解率を達成した。

    Link: https://arxiv.org/abs/2604.19652

  • Chat2Workflow:自然言語による実行可能なビジュアルワークフロー生成のためのベンチマーク [cs.IR, cs.CL, cs.AI, cs.CV, cs.LG, cs.MA]目的:実行可能なビジュアルワークフローの自然言語による生成
    • 実世界の産業利用において,信頼性と制御性に優れたビジュアルワークフローが主流となっている。
    • 現状では,ワークフロー構築が手作業に頼るため,コストと時間がかかり,エラーが発生しやすい。
    • 大規模言語モデルによるワークフロー自動化の可能性を探るためのベンチマークとして,本研究は開発された。
    • 最先端の言語モデルは高レベルな意図は捉えやすいものの,正確で安定した実行可能なワークフロー生成には苦戦している。
    • 提案するエージェントフレームワークは解決率を最大5.34%向上させるが,実用的な自動化には課題が残る。
    • Chat2Workflowは,産業グレードの自動化を推進するための基盤を提供する。

    Link: https://arxiv.org/abs/2604.19667

  • InHabit:画像基盤モデルを活用した3D人間配置のスケールアップ [cs.CV]目的:3Dシーンにおける人間と環境のインタラクションデータセットの生成
    • AIエージェントが人間のように3Dシーンを理解するには,大規模なデータが不可欠である。
    • 現実世界のモーションキャプチャは高コストで,既存の合成データはシーンの文脈を無視している。
    • インターネット規模のデータで学習した2Dモデルの知識を3Dに転移し,データ不足を解消する。
    • InHabitは,レンダリング,生成,リフトの原理に基づき,3Dシーンに人間を自動的に配置する。
    • Matterport3DのHabitatに適用した結果,78Kサンプルを含む大規模なデータセットを生成した。
    • 生成されたデータセットは,3D人間・シーン再構成と接触推定の精度向上に貢献し,ユーザー調査でも既存手法を上回った。

    Link: https://arxiv.org/abs/2604.19673

  • MedFlowSeg:周波数認識注意機構を用いた医療画像セグメンテーションのためのフローマッチング [cs.CV]目的:医療画像セグメンテーションのためのフローマッチングフレームワーク
    • 医療画像分析は,診断精度向上や治療計画の最適化に不可欠であり,その自動化が求められている。
    • 拡散モデルは計算コストが高く,UNetベースのパラメータ化には制約がある。
    • 計算効率が高く,表現力の高い生成モデルを用いたセグメンテーション手法を開発すること。
    • MedFlowSegは,シンプルな事前分布をターゲットセグメンテーション分布に輸送する時間依存ベクトル場を学習する。
    • 二重条件付け機構により,学習されたフローに構造化された事前知識を組み込む。
    • 複数の医療画像モダリティにおいて最先端の性能を達成し,拡散モデルベースの手法と比較して計算コストを大幅に削減した。

    Link: https://arxiv.org/abs/2604.19675

  • MMControl:ジョイントオーディオ・ビデオ生成のための統一マルチモーダル制御 [cs.CL, cs.CV]目的:ジョイントオーディオ・ビデオ生成におけるマルチモーダル制御
    • 近年の生成モデルの発展は,多様なコンテンツ作成を可能にする。その応用範囲は広い。
    • 既存手法では,ビデオのみを制御対象としており,オーディオとの整合性が課題となっていた。
    • オーディオとビデオを同時に制御し,より自然なマルチモーダルコンテンツ生成を目指す。
    • MMControlは,参照画像,オーディオ,深度マップ,ポーズシーケンスなど,複数の制御信号を統合する。
    • これにより,ビデオの人物の一貫性やオーディオの音色の整合性を,構造的制約下で同時に実現する。
    • 各モダリティの制御強度を調整可能であり,詳細かつ柔軟な制御が可能となる。

    Link: https://arxiv.org/abs/2604.19679

  • IR-Flow:修正済みフローによる識別的・生成的画像復元間の架け橋 [cs.CV]目的:識別的および生成的な画像復元手法を統合する新しいフレームワーク
    • 画像復元は,画像処理において重要な課題であり,様々な分野で応用されている。
    • 識別的な手法では細部が失われやすく,生成的な手法では計算コストが高いという課題がある。
    • 効率的かつ柔軟な画像復元を可能にするフレームワークを提案し,性能向上を目指す。
    • 提案手法IR-Flowは,多段階のデータ分布フローと累積速度場を用いることで,効率的な復元を実現した。
    • IR-Flowは,少数のサンプリングステップで高い定量的な結果を達成し,既存手法と競合する性能を示した。
    • 歪みと知覚品質のバランスに優れ,分布外の劣化にも適応可能であることが確認された。

    Link: https://arxiv.org/abs/2604.19680

  • 微細な視覚的痕跡の解明:マルチモーダルSTEMタスクにおけるマルチモーダルインターリーブ推論チェーンの評価 [cs.CV]目的:マルチモーダル大規模言語モデルにおけるクロスモーダル推論の微細な評価
    • STEM分野は,検証可能なフィードバックが得られるため,AIモデルの推論能力を評価する上で重要である。
    • 既存のベンチマークは,モダリティの冗長性により,単一モダリティのショートカットを許容し,推論プロセスを無視している。
    • テキストと視覚情報の厳格な補完性を強制するベンチマークStepSTEMを通じて,真のクロスモーダル推論を評価する。
    • StepSTEMは,数学,物理学,化学,生物学,工学の分野における283の問題を含む大学院レベルのベンチマークである。
    • 現在のMLLMはテキスト推論に大きく依存しており,Gemini 3.1 ProやClaude Opus 4.6も38.29%の精度しか達成していない。
    • この結果は,真のクロスモーダルSTEM推論における大きな改善の余地を示しており,StepSTEMは微細な評価のためのベンチマークとして位置づけられる。

    Link: https://arxiv.org/abs/2604.19697

  • あらゆる画像系列からの4D顔再構成 [cs.CL, cs.CY, cs.CV]目的:動的な人間の顔の4D再構成
    • 顔認識技術は,セキュリティ,エンターテイメント,コミュニケーションなど,幅広い分野で重要である。
    • 非剛体変形,表情変化,視点変化が同時に起こり,幾何学と対応関係の推定に曖昧さが生じる。
    • 標準的な顔座標予測により,一貫性のある再構成と信頼性の高い対応関係を確立すること。
    • 提案手法は,標準的な顔座標予測に基づき,高精度な4D顔再構成を実現する。
    • 従来の動的再構成手法と比較して,対応関係誤差を約3分の1に,推論速度を向上させた。
    • 深度推定の精度も16%向上し,一貫した幾何学形状と安定した顔追跡が可能となった。

    Link: https://arxiv.org/abs/2604.19702

  • SpanVLA:ビジョン言語行動モデルにおける効率的な行動ブリッジングと負の回復サンプルからの学習 [cs.CV]目的:ビジョン言語行動モデルの効率化とロバスト性向上
    • 自動運転において,知識と推論能力を活用するVLAモデルの重要性が高まっている。
    • 既存のVLAモデルは,行動生成の遅延やロバスト性の低さが課題となっていた。
    • SpanVLAは,効率的な行動計画と負の行動からの回復学習により,これらの課題解決を目指す。
    • SpanVLAは,ビジョンと推論を活用した効率的な行動計画により,推論時間を大幅に短縮した。
    • GRPOに基づく後学習手法により,モデルはポジティブなサンプルだけでなく,負の行動の回避と回復も学習可能となった。
    • 複雑なシナリオと負の回復サンプルに焦点を当てた新しいデータセットmReasoningを新たに導入した。

    Link: https://arxiv.org/abs/2604.19710

  • スマート配電システムにおける分散型エネルギー資源制御のネットワークを考慮した評価 [cs.CV, cs.SY, eess.SY]目的:分散型エネルギー資源制御のネットワーク影響評価
    • 配電系統へのDER導入増加に伴い,系統制御における通信ネットワークの役割が重要になっている。
    • 既存研究では通信環境が理想化されており,現実的なネットワーク条件下での性能評価が困難である。
    • 現実的な通信遅延を考慮し,分散型エネルギー資源制御の性能低下とその影響を明らかにする。
    • 理想的な通信環境下では,配電系統の電圧と電力を目標値に追従可能な制御が可能である。
    • 現実的な通信遅延を導入すると,系統電力の大きな変動と電圧制約違反が発生する。
    • 分散型エネルギー資源制御の性能は通信挙動に強く依存するため,ネットワーク動特性を考慮した評価が不可欠である。

    Link: https://arxiv.org/abs/2604.19715

  • ReImagine:画像優先合成による制御可能な高品質人物ビデオ生成の再考 [cs.CL, cs.FL, cs.CV]目的:制御可能な高品質人物ビデオ生成手法
    • 人物ビデオ生成は,外観,動き,カメラ視点の同時モデリングの難しさから課題が多い分野である。
    • 既存手法は,これらの要素を個別に扱うため,制御性や視覚品質が制限されるという問題がある。
    • 本研究は,画像生成を通じて高品質な人物外観を学習し,時間的一貫性から分離することで,この問題を解決する。
    • 提案手法は,事前学習済みの画像バックボーンとSMPL-Xベースのモーションガイダンスを組み合わせることで,ポーズと視点制御を可能にする。
    • さらに,事前学習済みのビデオ拡散モデルを用いた学習不要な時間的洗練段階を導入し,高品質かつ時間的に一貫性のあるビデオを生成する。
    • また,本研究では,標準的な人物データセットと,構成的な人物画像合成のための補助モデルを公開する。

    Link: https://arxiv.org/abs/2604.19720

  • VLA Foundry: ビジョン-言語-行動モデルの訓練を統合する統一フレームワーク [cs.RO, cs.AI, cs.CV, cs.LG, cs.SE]目的:ビジョン-言語-行動モデルの訓練のための統一的なフレームワークの提供
    • 近年の大規模言語モデル(LLM)の発展は,様々なマルチモーダルタスクへの応用を促進している。
    • 既存のVLA研究は,多くの場合,アクション訓練段階に特化しており,互換性のない事前学習パイプラインを組み合わせている。
    • 言語事前学習から行動専門家による微調整まで,エンドツーエンドで制御可能な訓練スタックを提供すること。
    • 本フレームワークを用いて,完全にゼロから訓練したモデルと,Qwen3-VLバックボーンを用いたモデルを訓練し,公開した。
    • ゼロから訓練したモデルは,既存の非公開モデルと同等の性能を示し,Qwen3-VLバックボーンを用いることで,多様なタスクにおいてベースラインを大幅に上回る性能を達成した。
    • フレームワークのコードベースおよびモデルの重みは,公開されており,誰でも利用可能である。

    Link: https://arxiv.org/abs/2604.19728

  • 条件付き医療画像生成のための生成ドリフト [cs.CV]目的:条件付き医療画像生成の効率,患者特異的な忠実度,分布レベルの妥当性のバランス
    • 臨床応用において,医療画像の生成は重要な役割を担う。
    • 高次元3D医療画像において,効率,忠実度,妥当性を両立することが課題である。
    • 分布と患者特異的な忠実度を両立させつつ,高速な推論を実現する。
    • 提案手法GDMは,MRIからCTへの変換や,少ないデータからのCT再構成において,既存手法を上回る性能を示した。
    • GDMは,解剖学的忠実度,定量的な信頼性,知覚的なリアリズム,推論効率のバランスを改善する。
    • GDMは,3D医療画像生成のための実用的かつ効果的なフレームワークを提供する。

    Link: https://arxiv.org/abs/2604.19736

  • 安定性の限界における汎化性能 [cs.LG, cs.AI, cs.CV, stat.ML]目的:現代のニューラルネットワークにおける汎化性能のメカニズム
    • 深層学習の性能向上は,汎化性能に大きく依存する。
    • 汎化性能向上の要因が不明であり,理論的な理解が不足している。
    • カオス的な最適化における汎化性能の理論的解明を目指す。
    • 不安定な最適化動的系は,フラクタルアトラクタに収束することが示された。
    • 新たに「シャープネス次元」を導入し,汎化性能の上界を導出した。
    • 汎化性能はヘッセ行列のスペクトル全体と部分行列式の構造に依存することが明らかになった。

    Link: https://arxiv.org/abs/2604.19740

  • CityRAG:空間情報を活用した都市ビデオ生成 [cs.CV]目的:空間に根ざしたナビゲーション可能な環境の生成
    • 自動運転やロボットシミュレーションなど,現実世界の再現は重要である。
    • 既存モデルは,天候や動的オブジェクトの変化に対応しきれない。
    • 現実世界の地理情報を再現し,安定した環境生成を目指す。
    • CityRAGは,地理情報データを用いて物理空間に根ざしたビデオ生成を可能にした。
    • 数千フレームにわたる天候や照明条件の変化を維持し,ループクロージャを実現した。
    • 複雑な経路でのナビゲーションを通じて,現実世界の地理的再現性を確認した。

    Link: https://arxiv.org/abs/2604.19741

  • AnyRecon:ビデオ拡散モデルによる任意の視点からの3D再構成 [cs.CV]目的:任意の視点からの3D再構成手法
    • 臨場感あるコンテンツ制作や3Dモデルの作成において,現実世界の構造を正確に再現する技術が重要である。
    • 少ない視点からの情報しかない場合,高品質な3Dモデルの再構成は難しく,特に大規模シーンでは課題となる。
    • 不規則で多数の視点から得られたデータを用いて,大規模シーンでも安定した3D再構成を実現することを目指す。
    • 提案手法AnyReconは,大規模なシーンに対応可能なスケーラブルな再構成フレームワークであり,既存手法よりも柔軟な条件設定が可能である。
    • キャプチャされた視点情報をキャッシュとして保持することで,長距離の条件付けを可能にし,フレームレベルでの対応関係を維持する。
    • 生成と再構成の相互作用を重視し,3D幾何学的メモリと幾何学駆動型の視点画像検索により,より高品質な再構成を実現した。

    Link: https://arxiv.org/abs/2604.19747

  • Tstars-Tryon 1.0:多様なファッションアイテムに対する堅牢かつ現実的なバーチャル試着 [cs.CV]目的:多様なファッションアイテムに対する,堅牢で現実的なバーチャル試着システムの開発
    • ECサイト等の利便性向上に貢献するバーチャル試着技術の重要性が高まっている。
    • 既存のバーチャル試着技術は,ポーズや照明など現実世界の複雑な条件に対応しにくい。
    • 多様な状況下で高品質な試着体験を提供し,実用的なバーチャル試着システムを実現すること。
    • Tstars-Tryon 1.0は,極端なポーズや照明変化,モーションブラーなど,困難な状況下でも高い成功率を維持する。
    • 衣類の質感,素材,構造を忠実に再現し,AI生成特有のアーティファクトを抑制することで,非常に写実的な結果を提供する。
    • 8つのファッションカテゴリで最大6枚の画像を組み合わせることが可能で,人物や背景の制御も行える。Taobaoアプリで大規模に展開され,数千万のユーザーに利用されている。

    Link: https://arxiv.org/abs/2604.19748

  • SynAgent:単独エージェントの相乗効果による汎用的な協調ヒューマノイド操作 [cs.CV, cs.GR, cs.RO]目的:協調ヒューマノイド操作の汎用性向上
    • 身体知能の基礎課題であり,現実世界でのロボット応用の鍵となる。
    • データ不足,マルチエージェント間の協調の複雑さ,物体間での汎化性の低さが課題。
    • 単独エージェントのスキルを協調シナリオへ転移させ,協調操作を可能にする。
    • SynAgentは,単独エージェントから協調エージェントへのスキル転移により,スケーラブルかつ物理的に妥当な協調操作を実現。
    • Interact Meshを用いた相互作用を保持するリターゲティング手法により,モーション転移時の意味的整合性を維持。
    • 単独人間データからの分散学習とマルチエージェントPPOにより,協調行動を効果的に学習。

    Link: https://arxiv.org/abs/2604.18557

  • 大規模言語モデルは競争的合理性に収束するが,プロバイダーや世代間で協力性は異なる [physics.soc-ph, cs.GT]目的:大規模言語モデルにおける競争性と協力性の戦略的傾向
    • 言語モデルが自律エージェントとして経済活動を行う上で,その戦略的行動は重要な経済的影響を及ぼす。
    • プロバイダーや世代によって協力性に大きなばらつきがあり,その原因が不明である。
    • モデルの戦略的性格が協力的な結果にどう影響するかを明らかにすること。
    • 大規模言語モデルは,競争行動や協調行動においてある程度の収束性を示す。
    • 協力性については,プロバイダーによって大きく異なり,最大で48倍の差が見られた。OpenAIは低下,Googleは上昇傾向。
    • Anthropicのモデルは有限繰り返しゲームで高い協力性を持続したが,Googleの最新モデルは罰則がない場合に裏切る傾向があった。

    Link: https://arxiv.org/abs/2604.18596

  • リモートセンシングセグメンテーションのためのドメインシフトと境界分析による視覚的状態空間バックボーンの制御されたベンチマーク [eess.IV, cs.CV]目的:リモートセンシングセマンティックセグメンテーションにおける代表的な視覚的SSMファミリーの性能評価
    • リモートセンシング技術は,地球観測や環境モニタリングにおいて不可欠であり,その精度向上は重要である。
    • セグメンテーションモデルは,ドメインシフトに弱く,特に境界領域の精度が課題となっている。
    • エンコーダの挙動を分離し,モデルの頑健性向上と境界認識能力の改善を目指す。
    • 視覚的SSMファミリー内でのスケーリングによる性能向上は限定的であった。
    • クロスドメイン汎化性能は非対称性が強く,ドメインシフトの影響が大きいことが示された。
    • 分布シフト下では,境界の識別が主要な失敗要因であり,今後の改善の方向性を示唆した。

    Link: https://arxiv.org/abs/2604.18721

  • ターゲット鏡面降下法:単調変分不等式を解くための統一的枠組み [quant-ph, cs.CC, physics.soc-ph, cs.MA, nlin.AO, math.OC, cs.SY, eess.SY, math.OC, cs.GT]目的:単調変分不等式を安定的に解くための枠組み
    • 変分不等式は,最適化,ゲーム理論,経済学など幅広い分野で現れる重要な問題である。
    • 既存の鏡面降下法は,単調な変分不等式に対して発散または周期的な挙動を示す場合がある。
    • 鏡面降下法の安定性を高め,既存アルゴリズムの収束性を統一的に説明すること。
    • 提案手法「ターゲット鏡面降下法」は,双対更新における目標点補正メカニズムにより,単調フローを安定化させる。
    • この枠組みは,近接点法,外挿勾配法,分割法,ブラウン-フォン・ノイマン-ナッシュ動力学など,主要なアルゴリズムを包含する。
    • 幾何学的アンサンブルという概念を導入し,異なる鏡面写像を用いた複数のアルゴリズムによる並列解法を可能にし,理論的な収束性を保証する。

    Link: https://arxiv.org/abs/2604.18813

  • 正の和ゲームにおいて,ゼロサム思考がエージェントの利益をどれだけ損なうか [econ.TH, cs.GT]目的:正の和戦略環境下におけるゼロサム意思決定ルール(最大最小法,最小最大法)の,ナッシュ均衡や最適反応行動に対する影響
    • 戦略的環境における意思決定の研究は,経済学,政治学,生物学など,様々な分野で重要な役割を果たす。
    • 従来の進化論的見解では,ゼロサム思考は不利と考えられてきたが,ナッシュ均衡との比較が十分でなかった。
    • 本研究は,ゼロサム思考が必ずしもナッシュ均衡より劣るものではない可能性を示し,その条件を特定することを目指す。
    • 最大最小法が,一部のゲームにおいてナッシュ均衡よりもエージェントの利益を向上させることが示された。
    • 最大最小法がナッシュ均衡を厳密にパレート最適化するゲームの数は,ナッシュ均衡が最大最小法を厳密にパレート最適化するゲームの数と同程度である。
    • 複数均衡における協調の失敗など,最大最小法がナッシュ均衡を上回るメカニズムが特定された。

    Link: https://arxiv.org/abs/2604.19359

  • 大規模地理空間画像データセットにおけるデータ漏洩と重複排除 [cs.DB, cs.DL, q-bio.QM, cs.CV]目的:データ漏洩と重複の検出及び排除
    • 深層学習を用いた建物抽出は,都市計画や災害対策において重要性が増している。
    • 既存のデータセットには,重複データや学習データと検証データの混在といった問題が存在する。
    • データセットの品質を保証し,モデルの信頼性と頑健性を向上させることを目指す。
    • 3つのデータセット(INRIA,SpaceNet 2,AICrowd)の分析から,AICrowdデータセットに深刻な重複とデータ漏洩が存在することが明らかになった。
    • AICrowdの訓練データに約90%の重複が存在し,検証データには約93%が訓練データに含まれていることが確認された。
    • 知覚ハッシュを利用したデータ検証パイプラインを開発し,効率的な重複排除とデータ漏洩の特定を実現した。

    Link: https://arxiv.org/abs/2304.02296

  • 携帯物探索のための個別化された具現化ナビゲーション [cs.RO, cs.CV]目的:携帯物の探索におけるナビゲーション性能の向上
    • ロボットナビゲーションは,生活空間での活動支援において不可欠な技術である。
    • 従来のナビゲーションは静的な環境を想定しており,移動する物体への対応が課題であった。
    • 人間の行動パターンを学習し,移動する物体の場所を予測することで探索効率を高める。
    • 提案手法TAPは,シミュレーション環境MP3Dにおいて,従来のナビゲーション手法と比較して,非定常ターゲットの探索成功率を21.1%向上させた。
    • TAPは,静的な環境から学習した知識を,動的な環境へ44.5%高い割合で転移することが示された。
    • 実世界実験においても,平均で18.3%の探索成功率向上を確認し,特に予想外の場所にある物体の発見に優れていることが示唆された。

    Link: https://arxiv.org/abs/2403.09905