arXiv雑要約

画像・音声 - 2026/05/27 公開

  • EdgeFlow:エッジマップ拡張VLMベースフローチャート処理による産業要件エンジニアリング [cs.SE, cs.AI, cs.CV]目的:産業要件エンジニアリングにおけるフローチャートからMermaidへの変換の改善
    • フローチャートは産業界で広く利用されているが,その活用は画像として限定的である。
    • 既存のビジョン言語モデルは,フローチャートの構造的詳細を正確に捉えきれない。
    • 構造的情報を活用し,学習データなしで変換精度を向上させる。
    • EdgeFlowは,VLMへの入力にCannyエッジマップを付加することで,フローチャートの変換精度を大幅に向上させた。
    • IndusReqFlowデータセットでの評価において,ノードレベル,エッジレベル,パスレベルのF1スコアがそれぞれ大幅に改善された。
    • 実データを用いた評価結果から,EdgeFlowが産業要件エンジニアリングにおいて実用的な手法であることが示された。

    Link: https://arxiv.org/abs/2605.27332

  • PARE:効率的な動画生成のためのプルーニングと適応ルーティング [cs.CL, cs.CV]目的:効率的な動画生成のためのプルーニングと適応ルーティング手法
    • 動画生成技術は,エンターテイメントやコンテンツ制作など,多様な分野で重要性が増している。
    • 既存の動画生成モデルは計算コストが高く,リソース制約のある環境での利用が課題となっていた。
    • 入力やノイズ除去段階に応じてモデル構造を動的に調整し,計算コストを削減することを目指している。
    • PAREは,幅と深さのプルーニングと適応ルーティングを組み合わせることで,計算コストを大幅に削減することに成功した。
    • 注意ヘッドの役割を考慮した重要度スコアリングにより,動きに重要な時間的ヘッドの早期プルーニングを防いでいる。
    • ノイズ除去段階と視覚的コンテンツに基づいてブロックの実行を動的に選択する軽量なルーターを訓練することで,入力ごとの計算適応を実現している。

    Link: https://arxiv.org/abs/2605.27336

  • 表現条件付き拡散モデルによる制御可能な画像生成 [cs.CV, cs.LG]目的:拡散モデルを用いた画像生成の制御手法
    • 画像生成技術は,多様な分野で応用が期待され,その重要性は増している。
    • 従来の拡散モデルは,特定の画像を生成するために大量のラベル付きデータが必要となる。
    • 事前学習済みモデルの表現を用いることで,データ依存性を低減し,制御性を向上させる。
    • 事前学習済み自己教師あり学習モデルの表現で拡散モデルを条件付けすることで,無条件画像生成の品質が向上した。
    • 表現空間における変動方向を特定することで,生成画像の制御が可能となり,滑らかさと分離性が確認された。
    • 本研究は,表現条件付き拡散モデルが制御可能な画像生成に有効であることを示唆する初期的な成果である。

    Link: https://arxiv.org/abs/2605.27343

  • MERIT:オーディオ類似度のための分離された音楽表現の学習 [cs.CL, cs.SD]目的:音楽表現の分離学習
    • 音楽情報は多様であり,その理解と操作は様々な応用分野で重要である。
    • 既存の音楽類似度モデルは,音楽の要素が混在しており,制御や解釈が困難である。
    • 音楽の要素を分離し,個別に操作・分析できる表現を獲得することを目指す。
    • MERITは,メロディ,リズム,音色といった主要な音楽次元に特化した表現を学習するフレームワークである。
    • 条件付きオーディオ生成とソース分離を活用することで,学習データ中の単一要素の変化を促進している。
    • 実験の結果,各要素が意図した次元に強く反応し,他の次元への反応は抑制されることが示された。

    Link: https://arxiv.org/abs/2605.27346

  • AIに欺かれる目:社会的視線の一貫性がAI生成画像検出のセマンティックな手がかりとなる [cs.CV, cs.AI]目的:AI生成画像の検出
    • 画像生成技術の進歩により,偽造画像の見分けが困難になっている。
    • 既存の検出手法は,低レベルなアーチファクトに依存しており,巧妙な生成画像には効果がない。
    • 人間同士の相互作用における視線の一貫性を手がかりに,AI生成画像を検出する。
    • 社会的視線の一貫性は,既存の手法とは異なる新たな検出軸となりうる。
    • 提案手法は,COCOAI InteractionおよびPersonデータセットにおいて,それぞれ3.7ppおよび1.3ppの精度向上を達成した。
    • 偽画像と真画像の検出率が同時に向上しており,偏った予測ではないことが確認された。

    Link: https://arxiv.org/abs/2605.27348

  • フィードフォワード3D編集は意味的部位変換から学習する [cs.SI, cs.CV]目的:スケーラブルな3Dコンテンツ作成のためのフィードフォワード3D編集学習
    • 3Dコンテンツ作成は,様々な分野で重要性を増しており,効率的な編集技術が求められている。
    • 既存の3D編集データセットは,品質が低く,局所的な編集制御や一貫性に課題がある。
    • 意味的部位変換を通じて,高品質なフィードフォワード3D編集を可能にすることを目指す。
    • 新しいデータセットPxformを構築し,10万件以上の高品質な編集ペアを提供した。
    • PartFlowというフィードフォワード3D編集ネットワークを提案し,編集精度と元の形状の保存を向上させた。
    • 提案手法は,幾何学的および外観編集ベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.27351

  • LocateAnything:並列ボックスデコーディングによる高速かつ高品質な視覚言語接地 [cs.CV, cs.AI, cs.LG, cs.RO]目的:視覚言語モデルにおける視覚的接地と検出の高速化と高精度化
    • 視覚と言語を組み合わせた理解は,画像認識やロボティクスなど多くの応用分野で不可欠である。
    • 従来の視覚的接地・検出は,ボックス情報を逐次的にトークン化するため,処理速度が遅れるという課題があった。
    • ボックス情報を並列にデコードすることで,処理速度の向上と位置特定精度の向上を目指す。
    • LocateAnythingは,並列ボックスデコーディング(PBD)に基づく統一的な生成フレームワークであり,ボックスの幾何学的整合性を維持し,大幅な並列処理を可能にする。
    • PBDにより,デコーディングのスループットと位置特定精度が向上し,様々なベンチマークで高いIoU(Intersection over Union)における位置特定品質が改善された。
    • 大規模なデータセットLocateAnything-Dataを構築し,PBDと大規模トレーニングデータの相乗効果により,効率的かつ正確な視覚的接地と検出を実現した。

    Link: https://arxiv.org/abs/2605.27365

  • SpatialBench:あなたの空間基盤モデルは万能か? [cs.CV]目的:空間基盤モデルの汎化性能の包括的評価
    • 空間理解はロボティクスや拡張現実など,幅広い応用分野において不可欠である。
    • 既存の研究では,特定のドメインに特化した評価が多く,汎化性能の評価が不十分である。
    • 多様なタスク,視点,ドメイン,入力密度,ハードウェア制約下での汎化性能を評価する。
    • 現在の空間基盤モデルは万能とは言えず,特定のドメインに依存した性能を示すことが明らかになった。
    • フルコンテキストアテンションは精度を最大化し,バウンドメモリ戦略は長系列のスケーラビリティを可能にする。
    • ドメインの厳密な整合性と高品質なデータが,単純なデータセットの規模拡大よりも重要であることが示された。

    Link: https://arxiv.org/abs/2605.27367

  • G3T Up! 重力に沿った座標系がポイントマップ処理を簡素化する [cs.CV]目的:ポイントマップの予測における重力に沿った座標系の利用
    • 3次元再構成技術は,ロボット工学やAR/VRなど幅広い分野で重要性を増している。
    • 既存手法ではカメラ視点依存の座標系を使用し,視点間の整合性が課題となっていた。
    • 重力に沿った座標系を用いることで,視点間の回転の自由度を減らし再構成精度向上を目指す。
    • 提案手法G3Tは,既存モデルを重力に沿った3次元データでファインチューニングし,高精度な予測を実現した。
    • G3T-Longは,サブマップベースのパイプラインで,回転の自由度減少を活かし再構成精度を大幅に改善した。
    • 重力に沿った座標系は,多くの実世界シーンで構造的な手がかりとなり,より効率的な再構成を可能にする。

    Link: https://arxiv.org/abs/2605.27372

  • ニューラル細胞オートマトンの予測不確実性の測定 [eess.IV, cs.AI, cs.CV]目的:ニューラル細胞オートマトンに基づく医用画像セグメンテーションにおける不確実性の推定
    • 近年,医用画像セグメンテーションの精度向上が求められており,新たな手法が模索されている。
    • ニューラル細胞オートマトンの予測の信頼性を判断することが難しいという課題がある。
    • ニューラル細胞オートマトンの内在する構造を利用し,予測の安定性を評価することで不確実性を測る。
    • 提案手法である「レジリエンス」は,ニューラル細胞オートマトンの状態に対する微小な摂動に対する予測の安定性を評価する。
    • レジリエンスは,セグメンテーション品質の予測において,既存手法よりも信頼性の高い失敗ケースの識別を可能にする。
    • これにより,ニューラル細胞オートマトンに基づくモデルの信頼性と安全性の向上に貢献する。

    Link: https://arxiv.org/abs/2605.26726

  • なぜ彼らはそれを覚えていられないのか? 多段階音響記憶における表現と検索のボトルネックの解明 [eess.AS, cs.SD]目的:多段階音響記憶における表現と検索のボトルネック
    • 音響情報は,音声言語モデルの性能において重要な役割を果たすため,その理解と改善は不可欠である。
    • 音声言語モデルは,音声情報と非音声情報を区別して扱う能力に課題があり,特に多段階の対話において非音声情報の保持が困難である。
    • 非音声情報の保持メカニズムを解明し,長文脈における音響記憶のモデリングを強化するためのデータと学習設計に貢献すること。
    • 実験により,表現の軌道ドリフトが主要な失敗モードであることが明らかになった。
    • 注意の配分は,観測された性能低下を説明する上で限定的な役割しか果たしていない。
    • 本研究は,長文脈音声言語モデルにおける非言語記憶の分析と改善のための体系的なフレームワークを提供する。

    Link: https://arxiv.org/abs/2605.27039

  • スパースビューおよび限定角度電子トモグラフィーのための教師なし深層画像事前分布 [eess.IV, cs.CV, physics.ins-det]目的:ナノ材料の三次元特性評価における再構成の質の向上
    • ナノ材料の構造解析において,三次元観察は不可欠である。電子トモグラフィーはその有力な手法の一つである。
    • 限られた角度や少ない投影データの場合,従来のアルゴリズムでは再構成品質が低下し,データの解釈が困難になる。
    • 本研究は,限られた条件下でも高品質な三次元再構成を可能にする新たな手法を提案し,その有効性を示す。
    • 教師なし深層学習(DIP)アプローチが,限られた投影データや角度条件下でも,教師あり学習と同等の性能を発揮することがシミュレーションデータで示された。
    • 実験データへの適用により,スパースビューおよび限定角度条件下においても信頼性の高い三次元定量化が可能であることが確認された。
    • この手法は,多様な材料や取得方法において,電子トモグラフィーの応用範囲を拡大する可能性を秘めている。

    Link: https://arxiv.org/abs/2605.27139

  • UPOCR:統一ピクセルレベルOCRインターフェースに向けて [cs.CV]目的:統一ピクセルレベルOCRインターフェースのための汎用モデル
    • OCR技術は,文書処理や画像解析において不可欠であり,多様な応用分野を支えている。
    • 既存のOCR手法はタスク固有のデザインに依存し,研究開発や保守の複雑化を招いている。
    • 本研究は,多様なOCRタスクを単一モデルで統一的に処理することで,その課題解決を目指す。
    • UPOCRは,多様なOCRタスクを画像変換として統一し,ViTベースのエンコーダー・デコーダー構造と学習可能なタスクプロンプトを活用する。
    • タスクプロンプトはエンコーダーの汎用的な特徴表現をタスク固有の空間へと誘導し,デコーダーにタスク認識能力を与える。
    • 実験の結果,UPOCRは3つのピクセルレベルOCRタスクにおいて最先端の性能を達成し,汎用OCRモデルの研究に有用な知見を提供する。

    Link: https://arxiv.org/abs/2312.02694

  • SRL-CLIP:構造化された意味役割ラベルによる効率的なCLIP動画適応 [cs.CV]目的:CLIP動画適応の効率化
    • 動画理解において,CLIPのような大規模言語モデルの活用が重要視されている。
    • 動画のナレーションやキャプションは情報が不十分な場合が多く,効率的な学習が課題である。
    • 構造化された意味役割ラベルを用いて,少ないデータでの効率的な適応を目指す。
    • 意味役割ラベルからルールベースのキャプションを生成し,23kの動画-キャプションペアでファインチューニングを行った。
    • SRL-CLIPは,大規模なデータセットで事前学習されたモデルと同等以上の性能をゼロショットテキスト-動画検索で示した。
    • 複数の動画ベンチマークにおいてCLIPを上回り,効率的な学習と表現力の向上を証明した。

    Link: https://arxiv.org/abs/2401.07669

  • CRoFT:分布外汎化とオープンセット分布外検出のための同時最適化によるロバストなファインチューニング [cs.DC, cs.CV]目的:分布外データの汎化性能向上と,未見クラスの分布外検出
    • 画像とテキストを扱う事前学習モデルは性能が高いが,汎化能力の維持が課題。
    • ファインチューニングにより,モデルが学習データの分布に偏り,未知のデータへの対応が難しくなる。
    • ファインチューニング中に汎化性能を向上させつつ,未見クラスを正確に検出することを目指す。
    • 新しい目的関数を提案し,エネルギーベースのスコア勾配の大きさを最小化することで,分布外汎化能が向上することを示した。
    • 分類損失のヘッセ行列がドメインに整合することを理論的に分析し,分布外汎化の指標となることを明らかにした。
    • 提案手法は,分布外汎化とオープンセット分布外検出の両方において,既存手法を上回る性能を発揮した。

    Link: https://arxiv.org/abs/2405.16417

  • 言語誘導による階層型エージェントを用いた自律運転 [cs.CV]目的:言語誘導自律運転の実現
    • 自動運転技術は,交通システムの効率化や安全性の向上に不可欠である。
    • 自然言語指示と低レベルな車両制御のギャップが課題であり,汎化性能が低い。
    • 階層型アプローチにより,指示解釈と車両制御を分離し,汎化性能を高める。
    • AD-Hは,大規模言語モデルを用いたプランナーと軽量なコントローラーを組み合わせた階層型フレームワークである。
    • AD-Hは,少ないパラメータ数(3B + 350M)で最先端モデルを凌駕し,長期的な汎化性能と指示追従性能を向上させた。
    • 115万件の階層的アノテーションペアを生成するルールベースのパイプラインを設計し,大規模な学習を可能にした。

    Link: https://arxiv.org/abs/2406.03474

  • 革新的な珪肺と肺炎の分類:グラフTransformer事後モデリングとアンサンブル技術の活用 [cs.CV, cs.LG]目的:珪肺関連肺炎症の分類と検出
    • 肺疾患の早期発見と正確な診断は,患者の予後改善に不可欠である。
    • 珪肺と肺炎の画像診断は,症状の類似性から鑑別が困難な場合がある。
    • 本研究は,肺炎症の微細な違いを識別し,診断精度向上を目指す。
    • 構築したSVBCXデータセットは,珪肺と肺炎研究の貴重なリソースとなる。
    • グラフTransformerと深層ニューラルネットワークを統合したモデルは,高い分類性能を示した。
    • アンサンブル学習により,マクロF1スコア0.9749,AUC ROCスコア0.99超を達成し,堅牢な分類能力を実証した。

    Link: https://arxiv.org/abs/2501.00520

  • ImViD:より高いVRエンゲージメントのための没入型ボリュームビデオ [cs.CV]目的:没入型ボリュームビデオの再構成を促進するためのマルチビュー,マルチモーダルデータセット
    • VR/AR技術の進歩には,視覚と聴覚を組み合わせた没入感の高いマルチモーダル体験が不可欠である。
    • 既存のデータセットには,移動しながらのマルチビュービデオ・オーディオキャプチャ機能が欠如しており,データ収集の完全性,柔軟性,効率が低い。
    • 本研究は,完全な空間指向データキャプチャと多様な屋内/屋外シナリオを含む,より高品質で柔軟なデータセットを提供することを目指す。
    • ImViDデータセットは,5K解像度,60FPSで1〜5分間のマルチビュービデオ(同期オーディオ付き)を提供する。
    • 既存手法のベンチマークの結果,本データセットとベースライン手法の有効性が示された。
    • 本研究は,没入型ボリュームビデオの製作に関する将来の研究を促進すると期待される。

    Link: https://arxiv.org/abs/2503.14359

  • 機械学習分類モデルに対する不確実性認識型ベイズフレームワーク:土地被覆分類における事例研究 [cs.CE, q-bio.BM, cs.LG, cs.CV, stat.ML]目的:機械学習分類モデルの不確実性評価
    • 信頼性のあるAIシステム構築には,予測の不確実性評価が不可欠である。
    • 既存研究では,モデルの知識不足による不確実性に焦点を当てがちで,入力測定の不確実性が考慮されていない。
    • 入力測定の不確実性を考慮したベイズフレームワークを提案し,信頼性の高い分類を可能とすること。
    • 提案するベイズ二次判別分析(BQDA)モデルは,コペルニクスSentinel-2の土地被覆データに対して良好な性能を示した。
    • BQDAモデルは,ランダムフォレストやニューラルネットワークなどの一般的な分類モデルと比較して,解釈性,計算効率に優れていた。
    • 合成データを用いたシミュレーションでも,BQDAモデルは入力測定ノイズの変動に強く,信頼性の高い予測結果を提供した。

    Link: https://arxiv.org/abs/2503.21510

  • TailedCore:教師なし長尾ノイズ異常検知のための少数のサンプリング [cs.CV, cs.LG]目的:長尾分布かつノイズを含むデータセットにおける異常検知
    • 製造業等における品質管理の自動化が求められており,異常検知技術の重要性が高まっている。
    • 従来の異常検知モデルは,ノイズへの頑健性と少数クラスへの対応のバランスが課題であった。
    • 長尾分布の少数クラスとノイズを分離し,それぞれに適した処理を行うことで,より高精度な異常検知を目指す。
    • 提案手法TailedCoreは,埋め込み類似度の対称性を利用し,クラスサイズを予測するTailSamplerを導入した。
    • TailSamplerにより少数クラスのサンプルのみを抽出し,ノイズに強いメモリベースの異常検知モデルを構築した。
    • 実験の結果,TailedCoreは既存手法と比較して,様々な設定で優れた性能を示した。

    Link: https://arxiv.org/abs/2504.02775

  • MotionPRO:人間のMoCapにおける圧力の役割の探求 [cs.CV]目的:人間MoCapにおける圧力の役割の調査
    • 仮想人間やヒューマノイドロボットの制御において,物理的な妥当性が重要である。
    • 既存のMoCap技術は視覚的類似性に偏重し,タイミングのずれや空間的な問題が生じやすい。
    • 圧力情報を活用することで,より正確で自然なMoCap技術を実現することを目指す。
    • 大規模なMoCapデータセットMotionPROを構築し,圧力,RGB,光学センサーの情報を統合した。
    • 圧力情報のみによる姿勢推定において,グローバルな軌跡と下半身の姿勢の推定が可能であることを示した。
    • RGBと圧力を融合することで,客観的指標と視覚的な妥当性の両面で性能が向上し,仮想人間の駆動にも貢献する。

    Link: https://arxiv.org/abs/2504.05046

  • V2V3D: 光場顕微鏡におけるビュー間ノイズ除去3D再構成 [cs.CV]目的:光場顕微鏡におけるノイズ除去と3D再構成の同時最適化
    • 光場顕微鏡は,大規模な3D蛍光イメージングを可能にし,生命科学分野で注目されている。
    • 既存の再構成アルゴリズムは,センサーノイズに弱く,学習には高品質な教師データが必要である。
    • 本研究は,教師なしでノイズ除去と3D再構成を同時に行うことで,この問題を解決する。
    • 提案手法V2V3Dは,一貫した3D信号を仮定し,ノイズ除去にnoise2noiseの原理を応用する。
    • 高周波詳細の回復には,波動光学に基づく特徴量アライメント技術を用いる。
    • 実験により,V2V3Dが既存手法を凌駕し,高い計算効率を持つことが示された。

    Link: https://arxiv.org/abs/2504.07853

  • 自動運転におけるレーン検出のためのデータセット:包括的レビュー [cs.CV]目的:レーン検出データセットの特性,利点,および限界の体系的な分析
    • 自動運転技術の安全性と信頼性を確保するため,正確なレーン検出は不可欠である。
    • 既存のデータセットは,データの量,センサーの種類,アノテーションの粒度などが異なり,比較検討が困難である。
    • データセットの品質を多角的に評価し,今後の改善点と研究の方向性を示す。
    • 20の公開レーン検出データセットを,センサー解像度やアノテーションの種類などの指標に基づいて分類した。
    • データセットの品質を評価するための新規な多次元指標を提案し,既存の課題と研究の余地を特定した。
    • 本レビューは,堅牢なレーン検出のための適切なデータセット選択を支援し,自動運転技術の発展に貢献する。

    Link: https://arxiv.org/abs/2504.08540

  • 実践:連続的な手話シーケンスからの個別手話の分割 [cs.CV, cs.AI]目的:連続手話の分割
    • 手話翻訳やデータアノテーションの基盤技術であり,手話コミュニケーションの促進に不可欠である。
    • 連続手話データからの手話単位の正確な分割は,困難な課題である。
    • 手話の時系列特性を捉え,高精度な分割を可能とする。
    • 提案手法は,transformerベースのアーキテクチャとBIOタグ付けスキームを組み合わせている。
    • DGSコーパスにおいて,最先端の結果を達成した。
    • BSLCorpusにおいては,既存のベンチマークを超える特徴量を示した。

    Link: https://arxiv.org/abs/2504.08593

  • 効率的な全ペア相関ボリュームサンプリングによる光流推定 [cs.CV, cs.LG]目的:光流推定のための全ペア相関ボリュームサンプリング効率の向上
    • 画像認識やロボティクスなど,多様な分野で光流推定は重要な役割を担う技術である。
    • 従来の全ペア相関ボリュームの計算は,計算量とメモリ消費量が課題となっていた。
    • メモリ効率と計算効率を両立し,高解像度画像における光流推定の精度と速度を向上させる。
    • 提案手法は,オンデマンドサンプリングと比較して最大92%高速でありながら,同等の低メモリ使用量を維持する。
    • デフォルト実装と同等の性能を維持しつつ,メモリ使用量を最大99%削減できる。
    • 高解像度入力において,モデル全体の推論時間を最大63%削減できる。

    Link: https://arxiv.org/abs/2505.16942

  • OCR-Reasoningベンチマーク:複雑なテキスト豊富な画像推論におけるMLLMの真の能力の解明 [cs.LG, cs.AI, cs.CL, cs.CV]目的:テキスト豊富な画像推論におけるマルチモーダル大規模言語モデルの能力評価
    • 画像認識と自然言語処理の融合が,より高度なAIシステムの実現に不可欠である。
    • テキスト情報が多い画像に対する推論能力の評価方法が確立されていなかった。
    • テキスト豊富な画像に対する推論能力を詳細に評価するためのベンチマークを開発すること。
    • 本研究で提案するOCR-Reasoningベンチマークは,1069個のアノテーションデータで構成されている。
    • 最新のMLLMの評価を行った結果,いずれも50%以上の精度を達成できていないことが示された。
    • テキスト豊富な画像推論は,依然として解決すべき重要な課題であることが明らかになった。

    Link: https://arxiv.org/abs/2505.17163

  • Doc-CoB:視覚的な連鎖的なボックス推論による文書理解の向上 [cs.AI, cs.CV]目的:文書理解における質問応答および情報抽出の性能向上
    • 文書画像は情報密度が高く,現代社会における情報アクセスの根幹をなす重要な研究分野である。
    • 既存手法は,全てのレイアウトを等重要と扱うか,小領域に過度に焦点を当てて大局的な情報を見落とす傾向がある。
    • クエリに関連するレイアウト領域に段階的に焦点を当て,文書全体の情報を維持することで,文書理解の精度向上を目指す。
    • Doc-CoBは,マルチモーダル大規模言語モデルに粗粒度から細粒度へのレイアウト認識視覚推論を統合したシンプルなフレームワークである。
    • 重要なレイアウトボックスを選択し,視覚的プロンプトを用いてさらなる理解を深めることで,性能が大幅に向上する。
    • 7つのベンチマークと4つのモデルを用いた実験により,Doc-CoBの有効性と幅広い適用可能性が実証された。

    Link: https://arxiv.org/abs/2505.18603

  • Muddit:統一された離散拡散モデルによるテキスト画像生成の限界を超える [cs.LG, cs.CV]目的:テキストと画像の多様な生成
    • 近年のマルチモーダル研究の進展に伴い,単一モデルでの多様なタスク処理が求められている。
    • 既存の統一モデルは,推論速度や汎化性能の点で課題を抱えている。
    • 強固な事前学習済みの画像生成モデルを活用し,高速かつ高品質なマルチモーダル生成を実現する。
    • Mudditは,テキストと画像の両方で高速かつ並列な生成を可能にする。
    • 既存の自己回帰モデルと比較して,同等以上の品質と効率を実現した。
    • 離散拡散モデルが,統一生成のためのスケーラブルかつ効果的な基盤となる可能性を示唆する。

    Link: https://arxiv.org/abs/2505.23606

  • 任意のスケール画像超解像のための自己カスケード拡散モデル [eess.SY, cs.RO, cs.SY, cs.CV, cs.AI]目的:任意のスケール画像超解像
    • 画像処理において,高解像度化は重要な技術であり,様々な応用分野で利用されている。
    • 従来の固定スケール超解像では,解像度の選択肢が限られ,柔軟性に欠けるという課題があった。
    • 多様な拡大率に対応し,一貫性のある高品質な超解像画像を生成することを目指す。
    • 提案手法CasArbiは,段階的な解像度向上により,様々なスケールに対応可能である。
    • 座標条件付き拡散モデルと自己整合性ガイダンスにより,スケールの一貫性を向上させている。
    • 実験結果から,既存手法と比較して,知覚的な品質と歪み指標において優れていることが示された。

    Link: https://arxiv.org/abs/2506.07813

  • スペクトル主経路:LLMにおける線形表現形成のスペクトル的視点 [cs.CV]目的:LLMにおける線形表現形成の起源と層を重ねるにつれて安定化する理由の解明
    • AIの透明性・制御向上において,個々のニューロンから解釈可能な意味方向への注目が集まっている
    • 線形表現仮説は存在するが,その起源や安定化のメカニズムは不明であり,課題となっていた
    • 入力空間に起源を持つ概念方向が深層ネットワークで維持されるメカニズムをスペクトル的視点から解明する
    • 本研究では,スペクトル主経路(SPP)フレームワークを提案し,深層ネットワークが線形表現をどのように抽出するかを形式化した。
    • SPPの安定性についてWedinのsinΘ摂動定理に基づいた厳密な保証を示し,スペクトルギャップや文脈の非一貫性などの検証可能な条件を特定した。
    • 線形表現がLLMでどのように生じるかについてのスペクトル的見解を提供し,公平性・透明性を高めるアプローチへの示唆を与える。

    Link: https://arxiv.org/abs/2506.08543

  • Athena: データ効率的なプロセス報酬モデルによるマルチモーダル推論の強化 [cs.LG, cs.AI, cs.CL, cs.CV]目的:複雑な推論問題解決における各ステップの報酬スコアを評価するためのマルチモーダルプロセス報酬モデル
    • 高度なAIシステム開発には,複雑な推論能力が不可欠であり,その評価手法が重要となる。
    • 従来のプロセス報酬モデル構築には,コストのかかるステップレベルの注釈作業が必須であった。
    • 弱完遂者と強完遂者の予測一致性を利用し,高品質なプロセスラベルを効率的に生成することを目指す。
    • Athena-PRMは,わずか5,000サンプルで多様なシナリオとベンチマークにおいて優れた有効性を示す。
    • Qwen2.5-VL-7Bをポリシーモデルとして使用した場合,WeMathで10.2ポイント,MathVistaで7.1ポイントの性能向上を実現した。
    • VisualProcessBenchにおいて,既存の最先端技術を3.9 F1スコアで上回り,推論ステップの正確性を正確に評価する能力を実証した。

    Link: https://arxiv.org/abs/2506.09532

  • 活性化ベクトル操縦によるジャンル制御音楽生成 [cs.SD, cs.AI, eess.AS]目的:ジャンル制御音楽生成手法
    • 音楽生成の分野は多様化し,従来の枠にとらわれない新しいスタイルへの需要が高まっている。
    • 既存手法では,多様な音楽要素の精密な制御やブレンドが困難であるという課題がある。
    • 生成モデルの活性化ベクトルを操作することで,音楽のジャンルを自在に制御することを目指す。
    • 生成モデルMusicGenの残差ストリームを線形プローブの重みで操縦する手法を提案した。
    • 活性化ベクトル操縦を人間が制御可能な対話的インターフェースとして捉え,共創的な音楽生成を可能にした。
    • 本手法により,音楽生成における解釈可能なモデル挙動の重要性が示された。

    Link: https://arxiv.org/abs/2506.10225

  • 基盤モデルに対するデータ追跡型機械アンラーニングの知識追跡への拡張 [cs.CV, cs.LG]目的:基盤モデルにおける知識追跡型機械アンラーニングの提案
    • AIモデルの利用拡大に伴い,データプライバシー保護の重要性が増している。
    • 基盤モデルの学習データは膨大であり,特定のデータ削除要求への対応が困難である。
    • モデルが持つべきでない知識や能力の削除という観点から,アンラーニングを再定義する。
    • データ追跡型アンラーニングでは対応困難な多様な要求に対し,知識追跡型アンラーニングが有効である。
    • 知識追跡型アンラーニングは,個々のデータ追跡よりも人間の記憶のメカニズムに近い。
    • 視覚言語基盤モデルを用いたケーススタディにより,本パラダイムの実装可能性を示した。

    Link: https://arxiv.org/abs/2506.11253

  • 少数サンプル外れ値検出のための適応型マルチプロンプト対照ネットワーク [cs.CV, cs.AI]目的:少数サンプル外れ値検出における性能向上
    • 機械学習モデルの信頼性確保は重要であり,未知のデータに対する誤った予測を防ぐ必要がある。
    • 従来の検出手法は大量の学習データが必要であり,現実世界での応用が難しい。
    • 少数のラベル付きデータのみで外れ値を検出する手法の開発が求められている。
    • 提案手法は,クラス内の多様性を考慮し,IDとOODの分離境界を適応的に学習する。
    • CLIPモデルを活用し,学習可能なIDプロンプトと固定/適応型のOODプロンプトを設計することで,データ不足を補っている。
    • 実験結果から,提案手法が最先端技術と比較して優れた性能を示すことが明らかになった。

    Link: https://arxiv.org/abs/2506.17633

  • マルコフゲームにおける制約付き相関均衡の特性と存在 [cs.GT]目的:制約付きマルコフゲームにおける制約付き相関均衡の特性と存在条件
    • 社会インフラや環境問題など,利害対立する主体が関わる動的な意思決定は多岐にわたる。
    • 制約条件が存在する場合,従来の相関均衡の概念が適用できず,解の算出が困難となる。
    • 制約付きマルコフゲームにおける制約付き相関均衡の概念を明確化し,その存在条件を導く。
    • 制約付き相関均衡は,単独の戦略変更が非有利または不可能となるような実行可能な共同戦略として定義された。
    • マルコフゲームにおいて,制約付き相関均衡が存在するための新しい証明が提示された。
    • この研究は,制約付きマルコフゲームにおける解法を計算するための重要な一歩となる。

    Link: https://arxiv.org/abs/2507.03502

  • 都市部の道路シーンにおいて注目すべき要素:シーン理解から道路安全へ - 視覚情報に基づくデータセットと研究のサーベイ [cs.CV]目的:道路安全のための視覚情報処理における,注目すべき要素の分類と関連するタスク・データセットの分析
    • 自動運転技術の発展には,周囲環境の正確な理解が不可欠であり,道路安全の向上に貢献する。
    • 既存のデータセットやタスクは,孤立したドメインに焦点を当てており,包括的な分析が不足している。
    • 異常な要素と重要な通常の要素を統合した分類法を提示し,リソースの最適化と研究の方向性を示す。
    • 本サーベイでは,交通シーンで注目すべき要素を,異常と正常だが重要な要素という2つの主要なグループに分類した。
    • 35の視覚情報に基づくタスクと73のデータセットを分析し,各ベンチマークの長所と短所を比較検討した。
    • 既存の弱点と,その解決策について議論することで,今後の研究の指針となる情報を提供した。

    Link: https://arxiv.org/abs/2507.06513

  • 「PhyWorldBench」:テキスト-ビデオモデルにおける物理的リアリズムの包括的評価 [cs.CV, cs.AI]目的:テキスト-ビデオモデルの物理法則への準拠度評価
    • ビデオ生成技術の進歩は目覚ましいが,現実世界の物理現象の正確なシミュレーションが課題である。
    • 既存のビデオ生成モデルは,物理法則に矛盾した映像を生成する可能性がある。
    • 物理法則に沿ったビデオ生成能力を定量的に評価し,改善点を特定すること。
    • 新たに「PhyWorldBench」を開発し,物体運動やエネルギー保存といった物理現象のレベル別に評価。
    • 12の最先端テキスト-ビデオ生成モデルを評価し,物理法則への準拠における課題を明らかにした。
    • プロンプト設計に関する推奨事項を導き出し,物理的リアリズムの向上に貢献する。

    Link: https://arxiv.org/abs/2507.13428

  • Pusa V1.0:ベクトル化されたタイムステップ適応による事前学習済みビデオ拡散モデルのTemporal制御の解放 [cs.CV]目的:ビデオ拡散モデルにおける時間制御の向上
    • 近年のビデオ生成技術の進歩を加速するためには,時間的な一貫性を高めることが重要である。
    • 従来のビデオ拡散モデルは,フレームの時間的進化が厳密に固定されており,柔軟な制御が困難である。
    • ベクトル化されたタイムステップ適応(VTA)により,効率的かつ汎用的な時間制御を実現し,ビデオ生成の可能性を広げる。
    • Pusa V1.0は,VTAを活用することで,基盤モデルの能力を維持しつつ,きめ細かい時間制御を可能にする。
    • 画像からビデオへの変換や,開始・終了フレームの指定,ビデオの拡張といった様々な機能を,タスク固有の学習なしに実現した。
    • VTAは,基盤モデルの生成能力を損なうことなく,時間的なダイナミクスを注入し,効率的なビデオ合成のパラダイムを確立する。

    Link: https://arxiv.org/abs/2507.16116

  • ODOV:オープン領域・オープンボキャブラリ物体検出のベンチマーク [cs.IR, cs.CV]目的:オープン領域・オープンボキャブラリにおける物体検出性能の評価
    • 現実世界の物体検出において,ドメインやカテゴリのずれは不可避であり,その対応が重要である。
    • 既存研究ではドメインずれとカテゴリずれを独立に扱っており,同時発生時の相互作用が無視されている。
    • ドメインとカテゴリの同時ずれに対応可能なベンチマークと手法を確立し,現実世界での検出性能を向上させる。
    • 新たなベンチマークOD-LVISを構築し,15種類の現実世界のシナリオと1,203のカテゴリを網羅した評価を可能にした。
    • VLMの多Modalな能力を活用するODOV検出のベースラインを提案し,カテゴリとドメインの汎化性能を高めた。
    • 提案手法は,同時発生するカテゴリとドメインの変化に対して有効であり,その優位性が実験的に確認された。

    Link: https://arxiv.org/abs/2508.01253

  • PyCAT4:階層型Vision Transformerに基づく3D人体姿勢推定フレームワーク [cs.CV, cs.LG]目的:3D人体姿勢推定の精度向上
    • 近年,人間行動理解の重要性が高まっており,姿勢推定はその基盤技術となる。
    • 既存手法では,複雑な姿勢やオクルージョンに対するロバスト性に課題があった。
    • Transformerとピラミッド構造を融合し,多様なスケールでの特徴表現を改善する。
    • 提案手法PyCAT4は,COCOおよび3DPWデータセットにおいて高い性能を示した。
    • Transformer層の導入により,低レベル特徴の抽出能力が向上した。
    • 時間的特徴融合と空間ピラミッド構造により,多スケール特徴のバランスが改善された。

    Link: https://arxiv.org/abs/2508.02806

  • グループ活動評価のための構造化された関係推論 [cs.CL, cs.CV]目的:グループ活動の検出と評価
    • 社会における人々の活動理解は,監視や行動分析など多くの分野で重要である。
    • 既存手法では,複数グループの同時発生や複雑な関係性を捉えるのが困難である。
    • 構造化された関係推論によって,より正確なグループ活動の理解を目指す。
    • ProGraDは,凍結されたVision Foundation Models (VFMs)を基盤とする新しいフレームワークである。
    • ProGraDは,GroupContext Transformerを用いて,Actorとグループの関連性を明示的にモデル化する。
    • Cafeベンチマークにおいて,Group mAP$@$1.0で6.5%,Group mAP$@$0.5で8.2%の性能向上を達成した。

    Link: https://arxiv.org/abs/2508.07996

  • 二重閾値ヒートマップ誘導プロポーザルクラスタリングと負の確信度監督,および強化された基本ネットワークを用いた弱学習オブジェクト検出 [cs.CV]目的:弱学習オブジェクト検出における性能向上
    • オブジェクト検出技術は,画像認識や自動運転などの幅広い応用分野において不可欠である。
    • 従来のオブジェクト検出には,正確なバウンディングボックスのアノテーションが必要であり,コストがかかる。
    • バウンディングボックスのアノテーションが不要な弱学習オブジェクト検出の課題を解決する。
    • 提案手法DANCEは,ヒートマップ誘導プロポーザルセレクター(HGPS)により,オブジェクト全体を捉えつつ,クラス内インスタンスを識別できる疑似GTボックスを生成する。
    • 弱学習基本検出ネットワーク(WSBDN)は,背景クラス表現を追加し,ヒートマップによる事前監督を用いて意味的ギャップを縮小する。
    • 無視されたプロポーザルに対する負の確信度監督(NCS)損失を導入することで,収束を加速する。

    Link: https://arxiv.org/abs/2509.08289

  • ISTASTrack:ISTAアダプターによるANNとSNNの架橋 - RGB-Eventトラッキング [cs.CL, cs.CV]目的:RGB-Eventトラッキングのための,ANNとSNNを融合する新たなトラッカーの提案
    • RGB画像とイベントデータの相補的な利点を活用し,視覚オブジェクトトラッキングの性能向上を目指す分野である。
    • 既存のANNは,イベントストリームの疎性と非同期性を十分に活用できていないという課題がある。
    • ANNとSNNの異質な特徴間の効果的な融合を可能にし,ロバストな視覚トラッキングを実現する。
    • 提案手法ISTASTrackは,RGB-Eventトラッキングのベンチマークにおいて,最先端の性能を達成した。
    • ISTAアダプターによって,ANNとSNNの特徴間の双方向な相互作用を促進し,効果的な特徴融合を実現した。
    • 高いエネルギー効率を維持しながら高性能を実現しており,ハイブリッドANN-SNN設計の実用性を示した。

    Link: https://arxiv.org/abs/2509.09977

  • 異常誘導型事前学習による金属表面欠陥検出の高度化:大規模産業データセットの活用 [cs.RO, cs.FL, cs.CV]目的:金属表面欠陥検出における性能向上
    • 製造業において,製品品質の維持・向上のため,金属表面欠陥の自動検出は不可欠である。
    • 学習データ不足が課題であり,汎用画像データセットの利用ではドメインギャップが生じやすい。
    • 異常情報を用いた事前学習により,微細な欠陥パターンを捉え,検出精度を向上させる。
    • 提案手法AGSSPは,異常マップからの知識蒸留と疑似欠陥ボックスを用いた事前学習を組み合わせる。
    • 大規模産業データセット(12万枚)と検証用データセットを新たに構築し,実験により有効性を検証した。
    • AGSSPは,ImageNetベースのモデルと比較して,mAP@0.5で最大10%,mAP@0.5:0.95で11.4%の性能向上を達成した。

    Link: https://arxiv.org/abs/2509.18919

  • f-divergenceを用いた拡散モデルアンラーニングのための統一的フレームワーク [cs.CL, cs.IR, cs.LG, cs.CV]目的:拡散モデルにおける概念アンラーニングのフレームワーク
    • 画像生成AIの発展に伴い,モデルから特定の概念を削除する技術が重要となっている。
    • 既存手法はKL divergenceに依存しており,その柔軟性に限界がある。
    • 汎用的なf-divergenceに基づくフレームワークにより,より効果的なアンラーニングを目指す。
    • 提案手法では,様々なf-divergenceを適用可能であり,MSEを包含する統一的なフレームワークを確立した。
    • Hellinger divergenceを用いることで,既存のMSEよりも優れたアンラーニング性能が得られることが示された。
    • アプリケーションや目的に応じた最適なdivergenceの選択が可能となり,アンラーニングの質と生成性能のバランスを調整できる。

    Link: https://arxiv.org/abs/2509.21167

  • 視覚的フィードバックによる空間推論を用いたGUIグラウンディング学習 [cs.CV, cs.CL]目的:GUIグラウンディングにおける空間推論の学習
    • GUI自動化は,アクセシビリティ向上やタスク効率化に不可欠であり,その重要性は増している。
    • 高解像度かつ複雑なレイアウトのGUI画像において,従来の座標予測アプローチは精度が低いという課題がある。
    • GUIグラウンディングをインタラクティブな探索タスクとして捉え,空間推論能力を向上させることを目指す。
    • 本研究では,GUIグラウンディングをカーソル移動による探索タスクとして再定義し,視覚的フィードバックを活用したモデルGUI-Cursorを提案した。
    • GUI-Cursorは,強化学習を用いて訓練され,既存の手法と比較してGUIグラウンディングおよびエージェントタスクにおいて優れた性能を示した。
    • 難易度の高い例ではステップ数を適応的に増やし,分布外のドメインにおいても優れた空間推論能力を獲得していることが示された。

    Link: https://arxiv.org/abs/2509.21552

  • Transformerを用いたスケーラブルなGAN [cs.CV, cs.AI, cs.LG]目的:GANのスケーラビリティ向上
    • 生成モデルの進歩はスケーラビリティに大きく依存する。
    • 敵対的学習におけるスケーラビリティの原則は未解明な点が多い。
    • GANの効率的なスケーリング手法を開発すること。
    • 本研究では,Variational Autoencoderの潜在空間での学習と,Transformerのみを用いた生成器・識別器の採用により,GANのスケーラビリティを検証した。
    • ネットワークを拡大する際の早期層の低利用や最適化の不安定さなどの課題を特定し,軽量な中間層での監督や幅に応じた学習率調整という解決策を提案した。
    • 提案手法GATは,幅広い容量で安定して学習可能であり,ImageNet-256において最先端の性能(FID 2.96)を40エポックで達成した。

    Link: https://arxiv.org/abs/2509.24935

  • 医療画像分類のための転移学習に関する機械学習研究者の直感 [cs.CV, cs.CY, cs.HC]目的:医療画像分類における転移学習のためのソースデータセット選択に関する機械学習研究者の直感の解明
    • 医療画像解析は診断精度向上に不可欠であり,AI技術の発展が期待されている。
    • ソースデータセット選択が直感に頼りがちであり,汎化性能や臨床応用に課題が残る。
    • ソースデータセット選択のヒューリスティクスを明確化し,体系的な選択を支援する。
    • ソースデータセットの選択はタスクに依存し,コミュニティの慣習,データセットの特性,類似性によって影響を受けることが示された。
    • 類似性評価と期待される性能は必ずしも一致せず,「より類似している方が良い」という従来の考え方に疑問を投げかけた。
    • 倫理的配慮はソースデータセット選択において十分ではなく,曖昧な用語の使用が課題として示唆された。

    Link: https://arxiv.org/abs/2510.00902

  • 拡散に基づく画像再構成のためのサイド情報の推論時探索 [cs.CV, cs.AI, cs.LG]目的:拡散モデルを用いた画像再構成におけるサイド情報の活用
    • 画像再構成は,医療画像や古い写真の修復など,様々な分野で重要である。
    • 逆問題は本質的に解が定まらず,再構成の質が課題となる場合が多い。
    • サイド情報を活用し,再構成精度を向上させることを目指す。
    • 提案手法は,inpainting,超解像,およびデブラーリングを含む様々な逆問題で有効性が確認された。
    • 既存の拡散ベースの逆問題ソルバー(DPS,DAPS,MPGD)に容易に組み込むことが可能である。
    • 参照画像,テキスト記述,解剖学的MRIスキャンなど,多様なサイド情報に対応できる汎用性を持つ。

    Link: https://arxiv.org/abs/2510.03352

  • 幻覚耐性サンプリングのための接線増幅ガイダンス [cs.CV]目的:拡散モデルにおける幻覚の抑制とサンプリング精度の向上
    • 拡散モデルは高品質な画像生成を可能にするが,その生成結果に意味の一貫性の欠如が見られる。
    • 既存のガイダンス手法は外部信号やアーキテクチャの変更に依存し,計算コストが増大する。
    • 本研究は,追加の計算コストなしに,幻覚を抑制し,サンプリング精度を向上させる手法を提案する。
    • 提案手法TAGは,学習不要で,アーキテクチャに依存せず,既存のサンプラーに容易に組み込める。
    • TAGは,中間サンプルを投影基底とし,推定スコアの接線成分を増幅することで,サンプリング軌道を修正する。
    • 一階テイラー分析により,TAGがデータ多様体内の高確率領域へ状態を導き,一貫性を高め,忠実度を向上させることが示された。

    Link: https://arxiv.org/abs/2510.04533