arXiv雑要約

画像・音声 - 2026/03/04 公開

  • 推論としての表現:画像品質評価における視覚的強化学習の再考 [cs.CV]目的:画像品質評価における視覚的強化学習モデルの汎化能力のメカニズム解明
    • 画像品質評価は,画像処理技術の発展と利用拡大に伴い,重要性が増している。
    • 強化学習を用いた画像品質評価モデルは高性能だが,計算コストが大きいという課題がある。
    • 強化学習で学習されたモデルが示す汎化能力の源泉を特定し,効率的な評価手法を開発する。
    • 強化学習により,MLLMは冗長な視覚表現を汎用的なテキスト表現に変換していることが確認された。
    • RALIという新しいアルゴリズムを提案し,画像と汎用的なテキスト表現を直接的に対応付けた。
    • RALIは,推論プロセスを必要とせず,従来のモデルパラメータの5%以下,推論時間の短縮を実現した。

    Link: https://arxiv.org/abs/2510.11369

  • VideoLLMにおける情報の隠れた経路の可視化 [cs.HC, cs.CV]目的:VideoLLMにおける情報フローのメカニズム解明
    • 近年,動画と言語を理解するVideoLLMが発展し,様々な応用が期待されている。
    • VideoLLMの内部で,動画とテキスト情報がどのように処理されているかは未解明な点が多い。
    • VideoLLMのTemporal Reasoningにおける情報伝達経路を特定し,モデルの解釈可能性向上を目指す。
    • VideoLLMにおけるTemporal Reasoningは,初期〜中期層でのフレーム間相互作用から始まることが明らかになった。
    • 動画表現と時間概念を含む言語埋め込みのアライメントが,中期層での動画と言語の統合を促進する。
    • VideoLLMは,効果的な情報経路を選択し,不要なAttention Edgeを抑制することでVideoQA性能を維持している。

    Link: https://arxiv.org/abs/2510.13251

  • Self-Aug:大規模視覚言語モデルのためのクエリとエントロピー適応デコーディング [cs.CV, cs.AI]目的:大規模視覚言語モデルにおけるハルシネーションの抑制
    • 視覚と言語を統合したモデルは,多様なタスクに応用可能であり,AI研究において重要性が高まっている。
    • 既存のモデルは,言語モデル由来の幻覚(ハルシネーション)を起こしやすく,生成される内容の信頼性が課題である。
    • クエリに依存した拡張とエントロピーを考慮したデコーディングにより,モデルの生成精度向上を目指す。
    • 本研究で提案するデコーディング手法は,既存手法と比較して,事実の一貫性を大幅に向上させる。
    • モデル内部の知識を活用し,クエリと視覚的拡張の間の意味的整合性を動的に調整する自己拡張プロンプティング戦略が有効である。
    • 出力の疎性を考慮した適応的な閾値調整アルゴリズムにより,トークン候補のサイズを適切に制御できる。

    Link: https://arxiv.org/abs/2510.13315

  • 火星の環境復元:仮想現実のための拡散モデル [cs.CV, cs.AI, cs.GR]目的:火星環境の仮想現実における再構築
    • 宇宙探査においてVRの利用が不可欠であり,正確な地形表現がシミュレーションの信頼性を高める。
    • 衛星画像由来の火星地形データには欠損値が多く,単純な補完手法では幾何学的整合性を維持できない。
    • 火星の地形データを拡散モデルを用いて再構築し,より高精度な仮想環境を実現すること。
    • 提案手法は,既存の補完技術と比較して,再構築精度(RMSEで4-15%改善)と知覚的類似性(LPIPSで29-81%改善)において一貫して優れた性能を示した。
    • NASAのHiRISE調査データに基づき,12000枚の火星地形データセットを用いて学習を行った。
    • 非均一なリ scaling戦略により,様々なスケールの地形特徴を捉え,128x128のモデル解像度に調整した。

    Link: https://arxiv.org/abs/2510.14765

  • X線冠動脈造影画像向け画像処理に焦点を当てた深層学習冠動脈セグメンテーション・改良ネットワーク:CASR-Net [cs.CV, cs.AI]目的:冠動脈のセグメンテーションと改良
    • 早期発見が重要であり,患者の治療計画を改善し,死亡率を低減する上で不可欠である。
    • X線画像の場合,画質が低いと臨床診断に支障をきたす場合がある。
    • 画質が低い画像でも高精度なセグメンテーションを実現し,臨床診断を支援すること。
    • 提案手法CASR-Netは,2つの公開データセットを用いた5分割交差検証で最先端モデルを上回り,IoU 61.43%,DSC 76.10%,clDice 79.36%を達成した。
    • 画像前処理において,CLAHEと改良されたBen Graham法を組み合わせた手法がDSCを0.31-0.89%,IoUを0.40-1.16%向上させた。
    • UNetとDenseNet121エンコーダ,Self-ONNベースのデコーダを用いたセグメンテーションネットワークにより,狭窄血管の連続性が保持された。

    Link: https://arxiv.org/abs/2510.27315

  • MotionStream:インタラクティブなモーション制御によるリアルタイム動画生成 [cs.CV, cs.LG]目的:リアルタイム動画生成のための手法
    • 動画生成技術は,エンターテイメントや教育など幅広い分野で活用が期待されており,その重要性は高い。
    • 既存手法では,動画生成に時間がかかり,リアルタイムなインタラクションが困難であるという課題があった。
    • 本研究は,低遅延でインタラクティブな動画生成を実現し,リアルタイム体験を提供することを目的とする。
    • MotionStreamは,単一のGPU上で最大29FPSのストリーミング生成を可能にし,従来の数分単位の遅延を大幅に改善した。
    • 自己強制と分布マッチング蒸留を用いた教師-生徒学習により,リアルタイム推論を実現し,動画の品質を維持した。
    • スライディングウィンドウ型因果注意機構とアテンションシンクを導入することで,任意の長さの動画を一定速度で生成することが可能となった。

    Link: https://arxiv.org/abs/2511.01266

  • Kinematify:高自由度関節オブジェクトのオープンボキャブラリ合成 [cs.RO, cs.CV]目的:高自由度関節オブジェクトの自動合成
    • ロボットによる物体操作や自己関節形状のモデル化には,運動学的構造の理解が不可欠である。
    • 既存手法はモーションシーケンスや手動作成データセットに依存し,拡張性に課題がある。
    • 任意のRGB画像やテキスト記述から,高自由度関節オブジェクトを自動的に合成することを目指す。
    • Kinematifyは,MCTS探索と幾何学駆動型最適化を組み合わせ,物理的に整合性のある関節記述を生成する。
    • 合成されたオブジェクトは,登録精度と運動学的トポロジー精度において既存手法を上回る性能を示す。
    • 合成環境と実環境の両方において,多様な入力に対する有効性が確認された。

    Link: https://arxiv.org/abs/2511.01294

  • データセットレベルの平均適合率への周辺貢献による物体検出のためのオンラインデータキュレーション [cs.MA, cs.CV]目的:物体検出におけるデータセットレベルの平均適合率への周辺貢献に基づくオンラインデータキュレーション手法
    • 大規模なデータセット構築はコストがかかるため,質の高いデータが効率的な学習を可能にする点が重要である。
    • 既存のオンラインサンプリング戦略は,物体検出の構造的複雑さやドメインギャップにより適用が難しい。
    • 物体検出において,効率的に情報量の多いサンプルを選択し,データ効率を向上させることを目指す。
    • 提案手法DetGainは,画像がデータセットレベルの平均適合率に与える周辺的な摂動を推定することで,データキュレーションを実現する。
    • DetGainは,グローバルなスコア分布をモデル化することで,APの変化を効率的に推定し,教師-生徒間の貢献ギャップを計算する。
    • COCOデータセットでの実験により,DetGainが様々な物体検出アーキテクチャにおいて精度向上に貢献することが示された。

    Link: https://arxiv.org/abs/2511.14197

  • PrismAudio:ビデオからオーディオ生成のための分解された思考連鎖と多次元報酬 [cs.DB, cs.RO, cs.SD, cs.CV, eess.AS, eess.IV]目的:ビデオからオーディオ生成における知覚的次元のバランス改善
    • 視覚情報と聴覚情報を統合し,リアリティのある音響環境を生成することは重要である。
    • 既存手法は,複数の目標を単一の損失関数で混同し,人間の好みに合致していない。
    • 思考連鎖と多次元報酬を用いて,目標の混同を解消し,解釈可能性を保ちつつ,性能を向上させる。
    • PrismAudioは,ビデオからオーディオ生成に強化学習を統合した初のフレームワークである。
    • 各知覚的次元に対応する思考連鎖モジュールと報酬関数を用いることで,多次元最適化を実現した。
    • VGGSoundとAudioCanvasの両ベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2511.18833

  • マルコフ的スケール予測:視覚自己回帰生成の新たな時代 [eess.SY, cs.SY, cs.CV]目的:視覚自己回帰モデルにおける効率性と性能の向上
    • 視覚生成の分野において,自己回帰モデルは重要な役割を担う。
    • 従来のVARモデルは,計算効率とメモリ消費量の問題があった。
    • 本研究では,全コンテキスト依存性を緩和し,効率的なモデルを提案する。
    • 提案手法であるMarkov-VARは,ImageNetにおいてFIDを10.5%改善した。
    • また,ピークメモリ消費量を83.8%削減することに成功した。
    • Markov-VARは,視覚自己回帰生成研究の基盤となり得る。

    Link: https://arxiv.org/abs/2511.23334

  • 映画予告編生成のための自己ペースおよび自己修正型マスク予測 [cs.CV]目的:映画予告編の自動生成手法
    • 動画編集は創造的な作業であり,予告編生成は特に重要なタスクである。
    • 既存手法は選択とランキングの順序で行われ,エラーが蓄積しやすい。
    • エラーの伝播を抑制し,予告編の品質向上を目指す。
    • 提案手法SSMPは,双方向コンテキストモデリングと漸進的な自己修正により,最先端の結果を達成した。
    • SSMPはTransformerエンコーダを用いて,映画のショットシーケンスから予告編のショットシーケンスを生成する。
    • 自己ペースによるマスク比率の調整と,段階的な自己修正機構により,モデル性能が向上した。

    Link: https://arxiv.org/abs/2512.04426

  • フローマッチングアラインメントのための値勾配誘導 [cs.LG, cs.CV]目的:フローマッチングモデルの人間の選好との整合
    • 生成モデルは,多様で高品質なデータ生成に不可欠であり,その性能向上が重要である。
    • 既存手法は,適応効率と事前分布の保存という両立が難しく,実用性に課題がある。
    • 限られた計算資源で効率的に,かつ事前分布を維持したまま,フローマッチングモデルを調整すること。
    • 提案手法VGG-Flowは,最適制御理論に基づき,事前学習済みモデルとの差分を値関数の勾配場に合わせることで,効率的な調整を実現する。
    • 報酬モデルからの情報を活用し,初期化の工夫により,高速な適応を可能にする。
    • Stable Diffusion 3を用いた実験により,限られた計算量で効果的かつ事前分布を保存したアラインメントが確認された。

    Link: https://arxiv.org/abs/2512.05116

  • 粒度認識マスク改良器によるオーディオ同期ビデオインスタンス編集 [cs.CV]目的:オーディオ同期ビデオインスタンス編集のためのフレームワーク
    • 動画生成技術の発展に伴い,リアルな音声と映像の同期が重要になっている。
    • 既存の動画編集手法では,音声と映像の同期が十分でなく,インスタンスレベルでの精密な制御が困難である。
    • ユーザが指定した粗いマスクから高精度なインスタンス領域を生成し,音声と映像の同期を実現すること。
    • 提案手法AVI-Editは,既存手法と比較して,視覚的品質,条件追従性,音声と映像の同期において優れている。
    • 粒度認識マスク改良器が,ユーザが提供する粗いマスクを反復的に改良し,正確なインスタンスレベル領域を生成する。
    • 自己フィードバック型オーディオエージェントにより,高品質な音声ガイダンスを提供し,時間的な制御を精密に行う。

    Link: https://arxiv.org/abs/2512.10571

  • CHAMMI-75:多様な顕微鏡画像を用いたマルチチャネルモデルの事前学習 [cs.CV, cs.LG]目的:多様な生物学的研究からの異種マルチチャネル顕微鏡画像データセット
    • 細胞形態の定量化は,細胞の応答を研究する上で強力なツールである。
    • 既存のモデルは単一の顕微鏡画像タイプで学習されるため,汎用性に欠ける。
    • 異なる顕微鏡画像タイプに対応可能なチャネル適応型モデルの開発を目指す。
    • CHAMMI-75は,75の異なる生物学的研究から収集された異種マルチチャネル顕微鏡画像データセットである。
    • CHAMMI-75を用いた事前学習は,マルチチャネルバイオイメージングタスクの性能向上に貢献する。
    • この研究は,生物学的研究における次世代の細胞形態モデルの創出を可能にする。

    Link: https://arxiv.org/abs/2512.20833

  • UniDrive-WM:自律運転のための統合的理解・計画・生成ワールドモデル [cs.CV]目的:自律運転のためのワールドモデルの統合的アーキテクチャ
    • 自動運転の安全性向上には,正確な状況理解と将来予測が不可欠であり,ワールドモデルが重要視されている。
    • 既存手法では,知覚,予測,計画を別モジュールとして扱っており,連携が不十分である。
    • 視覚と言語モデルを統合し,状況理解,経路計画,画像生成を単一のフレームワークで実現することを目指す。
    • UniDrive-WMは,高精度な将来画像を生成し,L2軌道誤差を5.9%改善,衝突率を9.2%削減した。
    • 経路計画と画像生成を連携させることで,状況理解を向上させ,経路生成を反復的に洗練させる。
    • 将来画像の予測表現として,離散的表現と連続的表現を比較し,その影響を分析した。

    Link: https://arxiv.org/abs/2601.04453

  • 大規模動的グラフにおけるライデンコミュニティの効率的な維持 [eess.SY, cs.SY, cs.SI, cs.DB, cs.GR]目的:大規模動的グラフにおけるライデンコミュニティの維持
    • グラフ構造は,大規模言語モデルや異常検知など多様な分野で重要な役割を担っている。
    • グラフが頻繁に変化する場合,ライデンアルゴリズムを再実行するのは計算コストが高い。
    • 既存手法の非効率性と理論的根拠の不足を解消し,高速な維持アルゴリズムを開発すること。
    • 本研究では,既存アルゴリズムの理論的な限界を分析し,頂点コミュニティメンバーシップの変化を解析した。
    • 新たに,階層型インクリメンタルツリーライデン (HIT-Leiden) という効率的な維持アルゴリズムを提案した。
    • 様々なデータセットにおける実験の結果,HIT-Leidenは既存手法と比較して最大5桁の高速化を実現した。

    Link: https://arxiv.org/abs/2601.08554

  • ピクセルからのホットスタート:中国語言語モデリングのための低解像度視覚トークン [cs.CV, cs.AI]目的:中国語言語モデリングにおける文字レベルのモデリングの代替手段
    • 表意文字は,意味や音韻に関する情報を含む視覚構造を持つため,言語処理において重要である。
    • 既存の言語モデルは文字を離散的なインデックスとして扱うため,視覚的な情報を活用できていない。
    • 低解像度の視覚入力を用いて,文字の視覚構造が言語モデリングに有効であるか検証する。
    • 低解像度(8x8ピクセル)のグレースケール画像を入力として用いた結果,正解率は39.2%と,インデックスベースのベースライン(39.1%)と同等の性能を示した。
    • 特に,学習データのわずか0.4%で正解率が12%を超え,インデックスベースのモデルと比較して顕著なホットスタート効果が確認された。
    • これらの結果は,最小限の視覚構造でも中国語言語モデリングにおいてロバストかつ効率的な信号となり得ることを示唆している。

    Link: https://arxiv.org/abs/2601.09566

  • サブグラフ予測によるグラフ認識 [cs.RO, cs.NI, cs.CV, cs.LG]目的:画像からのグラフ認識手法
    • 画像認識技術は進歩したが,視覚的関係の認識は未だ困難な課題である。
    • 既存手法は特定の課題に特化しており,汎用性・応用性に乏しい。
    • 多様なグラフに対応可能で,タスク変更なしに転移可能な手法を開発する。
    • 提案手法GraSPは,合成データセットと実データセットの両方で良好な性能を示した。
    • 様々な種類のグラフと表現に対応でき,タスク固有の修正なしに転移学習が可能である。
    • 視覚グラフ認識のための,より統合的なフレームワークへの道を開く。

    Link: https://arxiv.org/abs/2601.15133

  • MLV-Edit:1分程度の動画編集に向けた一貫性と高い効率 [cs.CV]目的:1分程度の動画編集における一貫性と効率の向上
    • 動画編集技術は,コンテンツ制作やコミュニケーションにおいて不可欠である。
    • 長尺動画の編集には,計算コストや時間的な一貫性の維持が課題となる。
    • 動画の分割編集におけるモーションの不整合や構造的なずれを抑制すること。
    • MLV-Editは,既存の手法と比較して,時間的安定性と意味的な忠実度において優れた性能を示す。
    • Velocity Blendモジュールにより,セグメント境界におけるモーションの不整合が修正され,ちらつきや境界アーティファクトが低減される。
    • Attention Sinkモジュールが,局所的なセグメントの特徴をグローバルな参照フレームに固定し,構造的なドリフトを抑制する。

    Link: https://arxiv.org/abs/2602.02123

  • 放送モニタリングにおけるAI生成音楽の検出 [cs.IR, cs.SD, cs.AI, eess.AS, eess.SP]目的:AI生成音楽検出の性能評価と課題の特定
    • 著作権保護やロイヤリティ管理のため,音楽の出所を正確に特定する必要がある。
    • 既存の検出手法は,ストリーミング音楽向けに最適化されており,放送環境での短尺音楽や音声混話に弱い。
    • 放送環境におけるAI生成音楽検出の課題を明らかにし,より実用的な検出器の開発を促す。
    • AI-OpenBMATという,放送スタイルに特化したAI生成音楽検出データセットを新たに構築した。
    • ストリーミング環境で高性能なモデルが,放送環境では著しく性能が低下することが示された(F1スコアが60%未満)。
    • 音声混話や短尺音楽が,AI音楽検出における重要な課題であることが浮き彫りになった。

    Link: https://arxiv.org/abs/2602.06823

  • VideoTemp-o3:エージェント思考と動画理解における時間的接地の一体化 [cs.CL, cs.CV, cs.AI]目的:長編動画理解のための,時間的接地と質問応答の共同モデリング
    • 動画理解は,人間にとって自然な情報処理方法であり,様々な応用分野で重要性が増している。
    • 従来の均一フレームサンプリングでは重要な視覚的証拠を見逃しやすく,性能低下や幻覚を引き起こす。
    • 動画内の関連箇所を特定し,効率的にサンプリングすることで,動画理解の精度と効率を向上させる。
    • VideoTemp-o3は,時間的接地能力に優れ,必要に応じてクリッピングを行い,不正確な接地を修正できる。
    • 教師ありファインチューニングでは,探索を促しつつノイズを抑制する統一的なマスク機構を設計。
    • 強化学習では,報酬ハッキングを抑制するための専用の報酬を導入し,高品質な長編動画質問応答データセットを構築した。

    Link: https://arxiv.org/abs/2602.07801

  • 小児手根部X線写真のラジオロジーレポート駆動学習を用いた,粗い段階から細かい段階への領域認識検索 [cs.CV]目的:小児手根部X線写真の類似骨折パターン検索
    • 小児の骨折診断は難易度が高く,正確な画像検索が重要である。
    • 臨床的に重要な情報は微妙で,解釈が難しく,データセットの不足も課題である。
    • ラジオロジーレポートを活用し,領域認識検索によって精度向上を目指す。
    • WristMIRは,画像とテキスト間のRecall@5を0.82%から9.35%に向上させた。
    • その埋め込み表現は,骨折分類において高い性能(AUROC 0.949, AUPRC 0.953)を示した。
    • 領域認識評価では,検索による骨折診断の平均F1スコアが0.568から0.753に向上し,臨床的妥当性も高まった。

    Link: https://arxiv.org/abs/2602.07872

  • ゴミ画像データセット:自動廃棄物分別のためのマルチクラス画像ベンチマーク [cs.CL, cs.CV]目的:自動廃棄物分別のための画像ベンチマークデータセット
    • 廃棄物問題は地球規模の課題であり,効率的な分別が不可欠である。
    • 既存のデータセットでは,多様な廃棄物に対応した十分な規模と質の画像が不足している。
    • 現実的な廃棄物分別システムの開発と評価を可能にするベンチマークデータセットを提供すること。
    • 本研究で公開された「Garbage Dataset (GD)」は,12,259枚のラベル付き画像を含む。
    • EfficientNetV2Sが最も高い性能(精度95.13%,F1スコア0.95)を示し,中程度の環境負荷で済んだ。
    • データセットには,クラス不均衡や背景の複雑さなど,実用化に向けた課題が示唆された。

    Link: https://arxiv.org/abs/2602.10500

  • EO-VAE:地球観測データのためのマルチセンサー トークナイザー [cs.CV]目的:地球観測データのための基礎的なトークナイザー
    • 地球観測は,環境変動の監視や災害対策など,社会課題解決に不可欠である。
    • 多様なセンサー仕様と可変スペクトルチャネルが,効率的なデータ処理の課題となる。
    • 異なるセンサーデータを統合的に処理できるトークナイザーの構築を目指す。
    • EO-VAEは,TerraMeshデータセットにおいて,TerraMindトークナイザーよりも優れた再構成精度を達成した。
    • 単一のモデルで柔軟なチャネル組み合わせをエンコード・再構成する動的ハイパーネットワークを採用している。
    • EO-VAEは,リモートセンシングにおける潜在的生成モデリングの堅牢な基盤を確立する。

    Link: https://arxiv.org/abs/2602.12177

  • MedXIAOHE:医療マルチモーダル大規模言語モデル構築のための包括的レシピ [cs.CL, cs.AI, cs.CV, eess.IV]目的:医療分野における汎用的な理解と推論能力の向上
    • 医療現場でのAI活用が期待される中,画像とテキストを統合したモデルの重要性が高まっている。
    • 既存モデルは,稀な疾患などデータの偏りにより,十分な性能を発揮できない場合がある。
    • 多様な医療データと学習手法を用いて,より信頼性の高い医療AIモデルを開発すること。
    • MedXIAOHEは,様々な医療ベンチマークにおいて最先端の性能を達成し,既存の閉鎖的マルチモーダルシステムを上回る結果を示した。
    • エンティティを意識した継続的な事前学習により,医療知識の範囲を広げ,データの偏りを軽減することに成功した。
    • 強化学習とツールを活用した学習により,専門家レベルの推論と,検証可能な意思決定プロセスを実現した。

    Link: https://arxiv.org/abs/2602.12705

  • UniTAF:テキスト読み上げと音声から表情へのモデリングを統合するためのモジュールフレームワーク [cs.CL, cs.HC, cs.SD, cs.CV, eess.AS]目的:テキストから音声と表情を共同生成する際の内部特徴量の転移による一貫性向上
    • 音声と表情はコミュニケーションにおいて不可欠であり,自然な対話システム実現には重要である。
    • 既存システムでは,テキスト読み上げと表情生成が独立しているため,一貫性に課題がある。
    • テキスト読み上げの中間表現を再利用し,音声と表情の共同モデリングの実現可能性を検証する。
    • 本研究は,テキスト読み上げモデルの中間表現を表情生成に活用することで,両者の連携を可能にした。
    • 感情制御メカニズムをテキスト読み上げから共同モデルへ拡張し,より自然な表情表現を目指した。
    • システム設計の観点から,音声と表情の共同モデリングの実現可能性を実証し,今後の共同設計のための知見を提供した。

    Link: https://arxiv.org/abs/2602.15651

  • CRAFT-LoRA:ランク制約適応とトレーニングフリーな融合によるコンテンツスタイル個別化 [cs.CV]目的:テキストと参照例に基づく画像生成におけるコンテンツの忠実性とスタイルの一貫性のバランス
    • 画像生成技術は,多様なコンテンツ作成を可能にし,創造性を拡張する上で重要である。
    • LoRAのような効率的な個別化手法では,コンテンツとスタイルの表現が複雑に絡み合いやすい。
    • コンテンツとスタイルを分離し,より柔軟な制御と高品質な画像生成を実現すること。
    • CRAFT-LoRAは,ランク制約による微調整と,専門家エンコーダーを用いたプロンプトガイダンスにより,コンテンツとスタイルの分離を改善する。
    • 提案手法は,LoRAモジュールの組み合わせを柔軟に制御し,追加の再学習なしに高忠実度な画像生成を可能にする。
    • トレーニングフリーなclassifier-free guidanceスキームにより,拡散ステップ全体での生成安定性を向上させている。

    Link: https://arxiv.org/abs/2602.18936

  • 教室期末試験:指導者による推論ベンチマーク [cs.HC, cs.AI, cs.CE, cs.CL, cs.CV]目的:大規模言語モデルの推論能力の評価
    • STEM分野における高度な推論能力の評価は,AI技術の進歩に不可欠である。
    • 既存のベンチマークでは,実際の教育現場で使用される問題の複雑さを捉えきれていない。
    • 教育現場の課題を反映した,より現実的な推論能力の評価基準を確立すること。
    • CFE-Benchは,20以上のSTEM分野にわたる大学の宿題や試験問題から構成される。
    • Gemini-3.1-pro-previewで全体の正答率が59.69%と,最先端モデルでも改善の余地がある。
    • モデルは部分問題は解けるものの,複数ステップの解法において中間状態を維持できず,効率性も低い。

    Link: https://arxiv.org/abs/2602.19517

  • ペアからシーケンスへ:キーポイント検出のための軌跡を意識した方策勾配 [cs.CV]目的:キーポイントの長期的な追跡可能性の最適化
    • 3Dビジョンシステム(SfM,SLAM等)において,キーポイントに基づくマッチングは不可欠な要素である。
    • 既存手法は画像ペアで学習するため,視点や照明変化下でのキーポイント追跡を明示的に最適化できない。
    • 画像シーケンス上でキーポイントの追跡品質を直接最適化するフレームワークを提案し,この問題を解決する。
    • 提案手法TraqPointは,一貫性と識別性を重視した報酬機構により,複数視点間でのキーポイント品質を向上させる。
    • 相対姿勢推定や3D再構成のベンチマークにおいて,最先端のキーポイント検出・記述手法を大幅に上回る性能を示す。
    • キーポイント検出を逐次的な意思決定問題として再構築し,強化学習フレームワークを導入した点が革新的である。

    Link: https://arxiv.org/abs/2602.20630

  • トレーニング不要の多概念画像編集 [cs.CV]目的:多概念画像編集の実現
    • 画像編集技術は,多様な応用分野において重要な役割を担う。
    • 拡散モデルを用いたトレーニング不要な編集では,同一性の保持や詳細な表現が課題。
    • 言語的な抽象化レベル以下の情報を活用し,編集精度と品質の向上を目指す。
    • 本研究では,Concept Distillation Sampling (CDS) という新しいフレームワークを提案した。
    • CDSは,蒸留バックボーンと動的重み付けメカニズムにより,複数の視覚概念をシームレスに合成・制御する。
    • InstructPix2PixやComposLoRAのベンチマークにおいて,既存手法を上回る性能を実証した。

    Link: https://arxiv.org/abs/2602.20839

  • Uni-Animator: 統一的な画像・動画スケッチ彩色へ [cs.CV]目的:画像および動画スケッチ彩色のための統一的フレームワーク
    • 画像処理技術は,エンターテイメントから科学研究まで幅広い分野で不可欠である。
    • 既存手法は,画像と動画の両方に対応できず,色移しが不正確,詳細なテクスチャの保持が困難である。
    • 本研究は,高精度な色移しと時間的一貫性を実現し,画像と動画のスケッチ彩色を統一的に解決する。
    • Uni-Animatorは,インスタンスパッチ埋め込みによる参照画像強調により,精確な色情報の配置と融合を実現した。
    • 物理的特徴を用いた詳細強調により,高周波テクスチャの保持と表現を向上させた。
    • スケッチベースの動的RoPEエンコーディングにより,動きを考慮した空間的・時間的依存関係をモデル化し,時間的一貫性を改善した。

    Link: https://arxiv.org/abs/2602.23191

  • MRIマルチオルガン異常検出のための3Dモダリティ認識事前学習 [cs.CV, cs.AI]目的:MRIにおけるマルチオルガン異常検出のためのビジョン言語モデルの事前学習フレームワーク
    • 医療画像診断の精度向上は,患者の早期発見と治療に不可欠であり,医療の質を高める上で重要である。
    • マルチオルガン医療画像では,モダリティ特有の視覚と言語の整合性,そしてクロスモーダル特徴の融合が課題となっている。
    • 3D MRIデータにおけるモダリティ認識事前学習を通じて,ビジョン言語モデルの性能向上を目指す。
    • 提案手法MedMAPは,3D MRIベースのマルチオルガン異常検出において,既存のビジョン言語モデルを大きく上回る性能を示した。
    • MedMAPは,モダリティ認識エンコーダを用いて視覚とテキスト表現の整合性を高める事前学習段階と,異常検出のためのファインチューニング段階から構成される。
    • 大規模な3D MRIデータセットMedMoM-MRI3Dを構築し,様々な3D医療分析タスクへの適用可能性を示した。

    Link: https://arxiv.org/abs/2602.23652

  • 注意誘導型知覚ポリシー最適化:動画推論のためのアプローチ [cs.CV]目的:動画推論における知覚能力の向上
    • 動画推論はAIの重要な課題であり,その性能向上が求められている。
    • 動画推論において,高精度な知覚能力がボトルネックとなっている。
    • 推論能力のみを向上させるのではなく,より効率的に知覚能力を向上させる方法を探求する。
    • 提案手法APPOは,トークンレベルの報酬を用いてモデルの細粒度な知覚能力を改善する。
    • APPOは,重要な動画フレームに焦点を当てたトークンを最適化することで,知覚能力を向上させる。
    • 多様な動画ベンチマークにおいて,既存手法(GRPO,DAPO)と比較してAPPOが安定的に優れた性能を示す。

    Link: https://arxiv.org/abs/2602.23823

  • コンピュータ支援頭蓋顔面重ね合わせのための新規進化法 [eess.SY, cs.RO, cs.SY, cs.CV, cs.AI, cs.NE]目的:頭蓋顔面重ね合わせにおける自動的な精度向上
    • 法医学において,身元不明遺骨の特定は重要な課題であり,頭蓋顔面重ね合わせはその主要な手法である。
    • 軟組織厚の個人差が大きく,従来の頭蓋顔面重ね合わせの精度を低下させる要因となっている。
    • 軟組織厚の変動を明示的にモデル化することで,頭蓋顔面重ね合わせのロバスト性を高めることを目指す。
    • 本研究で開発したLiliumは,差分進化アルゴリズムを用いて3Dコーンベース表現のパラメータを最適化する。
    • Liliumは,ランドマークマッチング,カメラパラメータの一貫性,頭部姿勢の整合性などの制約により,解剖学的・形態学的・写真的な妥当性を確保する。
    • 実験の結果,Liliumは最先端手法と比較して,精度とロバスト性の両面で優れた性能を示した。

    Link: https://arxiv.org/abs/2603.00170

  • IDER:信頼性の高い継続学習のためのべき等経験再生 [cs.CL, cs.LG, cs.AI, cs.CV]目的:継続学習における忘却の抑制と予測信頼性の向上
    • 機械学習モデルの継続学習は,知識の累積と適応能力の向上に不可欠である。
    • ニューラルネットワークは新しいタスク学習時に過去の知識を忘却しやすく,これが継続学習の大きな課題となっている。
    • 既存手法の計算コストが高いこと,主要な再生手法との互換性がないという問題を解決する。
    • IDERは,モデルをべき等にする損失関数と,知識蒸留損失を導入することで,予測信頼性を向上させる。
    • 様々な継続学習ベンチマークにおいて,IDERは精度向上と忘却抑制を両立し,一貫して予測信頼性を改善する。
    • べき等性という原理が,効率的で信頼性の高い継続学習システムの実現に繋がる可能性を示唆する。

    Link: https://arxiv.org/abs/2603.00624

  • ShiftLUT:空間シフトを用いた効率的な画像復元のためのルックアップテーブル [cs.CV]目的:効率的な画像復元のためのルックアップテーブル手法の改善
    • 画像復元は,画像処理において重要な役割を担い,様々な応用分野で求められている。
    • 既存のルックアップテーブル手法は,受容野拡大のために計算量とメモリ使用量が増加しやすい。
    • ShiftLUTは,効率性を維持しつつ,より大きな受容野を実現し,画像復元性能の向上を目指す。
    • ShiftLUTは,既存のルックアップテーブル手法と比較して,3.8倍大きい受容野を実現した。
    • 標準的なベンチマークにおいて,平均PSNRを0.21dB以上向上させながら,メモリ使用量と推論時間を抑えた。
    • 学習可能な空間シフトモジュール,非対称デュアルブランチアーキテクチャ,誤差制限適応サンプリングにより実現した。

    Link: https://arxiv.org/abs/2603.00906

  • 廃棄物の重さを学習する:物理情報に基づくマルチモーダル融合フレームワークと商業・産業用途向け大規模データセット [cs.CV]目的:商業・産業廃棄物の重量推定
    • 廃棄物管理の効率化には,正確な重量推定が不可欠である。資源の有効活用やコスト削減に繋がる。
    • 画像からの重量推定は,外観が似ていても密度が異なる場合や,カメラとの距離による視覚的なサイズ変化により困難である。
    • RGB画像と物理情報(寸法,距離,高さ)を組み合わせ,より正確な重量推定を実現すること。
    • 提案手法は,テストセットにおいて平均絶対誤差(MAE)88.06kg,平均絶対パーセント誤差(MAPE)6.39%,R2係数0.9548を達成した。
    • 特に0-100kgの軽量物で高い精度を示し,MAE 2.38kg,MAPE 3.1%を記録。1000-2000kgの重量物でも安定した性能を維持した。
    • SHAPと大規模言語モデルを用いた物理に基づいた説明モジュールにより,予測の根拠を分かりやすく提示することが可能となった。

    Link: https://arxiv.org/abs/2603.00931

  • モバイルVTON:高忠実度オンデバイスバーチャル試着 [cs.CV]目的:高忠実度なオンデバイスバーチャル試着の実現
    • 近年のバーチャル試着技術の進展は,ECサイト等での購買体験向上に貢献する。
    • 既存システムはクラウドGPU依存のため,プライバシー侵害リスクとデバイス制限がある。
    • プライバシーを保護しつつ,モバイルデバイスでの高品質なバーチャル試着を可能にすること。
    • 本研究では,TeacherNet-GarmentNet-TryonNet(TGT)アーキテクチャにより,モバイルデバイス上でのオフライン処理を実現した。
    • Feature-Guided Adversarial (FGA) Distillation戦略とtrajectory-consistency lossの導入により,高品質な画像生成を可能にした。
    • VITON-HDおよびDressCodeデータセットでの実験結果は,既存のサーバーベースのシステムと同等またはそれ以上の性能を示した。

    Link: https://arxiv.org/abs/2603.00947

  • PreciseCache:効率的かつ高忠実度な動画生成のための正確な特徴量キャッシュ [cs.CV]目的:動画生成モデルの効率的な推論処理の実現
    • 動画生成は,その高度な表現力から様々な応用が期待される分野である。
    • 従来の動画生成モデルは計算コストが高く,推論速度が遅いという課題があった。
    • 特徴量キャッシュによる高速化は品質低下を招きやすいという問題を解決する。
    • PreciseCacheは,LFCacheとBlockCacheの2つのコンポーネントから構成される。
    • LFCacheはステップごとの冗長性を検出し,BlockCacheはブロックレベルでの冗長性を検出することで,不要な計算を正確にスキップする。
    • Wan2.1-14Bにおいて平均2.6倍の高速化を達成し,画質劣化は認められなかった。

    Link: https://arxiv.org/abs/2603.00976

  • フローマッチングによるテスト時改良を用いた非教師あり心臓MRレジストレーション [cs.CV]目的:非教師あり心臓MRレジストレーションの性能向上
    • 心臓MR画像を用いた正確なレジストレーションは,診断や治療計画において不可欠である。
    • 既存の非教師ありレジストレーション手法は,計算コストが高く,実用性に課題がある。
    • フローマッチングを用いて,少ないステップ数で高精度なレジストレーションと改良を実現する。
    • 提案手法FlowRegは,ACDCおよびMM2データセットにおいて,既存手法を5つのタスクで上回る性能を示した。
    • 特に左心室のレジストレーションにおいて,平均Diceスコアが1.09%向上し,LVEF推定誤差も全タスクで平均2.58%減少した。
    • FlowRegは,パラメータ数をわずか0.7%増加させただけで,セグメンテーションラベルなしでこれらの結果を達成した。

    Link: https://arxiv.org/abs/2603.01073

  • HeroGS:疎な視点下におけるロバストな3Dガウススプラッティングのための階層的ガイダンス [cs.CV]目的:疎な視点下における3Dガウススプラッティングのロバスト性の向上
    • 3Dガウススプラッティングは高品質な新規視点合成を可能にする技術であり,様々な応用が期待されている。
    • 従来の3Dガウススプラッティングは,十分なカメラ視点がないと,分布が不規則になり,品質が低下するという課題があった。
    • 本研究では,階層的なガイダンスを通じて,疎な視点下でも高品質な3Dガウススプラッティングを実現することを目的とする。
    • 提案手法HeroGSは,画像,特徴,パラメータの各レベルで階層的なガイダンスを確立し,ガウス分布の最適化を制約する。
    • 疎な視点からの情報を擬似的な高密度なガイダンスに変換し,ガウス分布を全体的に正則化することで,一貫性のある基盤を構築する。
    • 実験の結果,HeroGSは疎な視点下で最先端の手法を上回り,高精度な再構成を達成することが示された。

    Link: https://arxiv.org/abs/2603.01099

  • 現実的な大気乱れの合成のための連続露出時間モデリング [eess.SY, cs.SY, cs.NI, cs.CV]目的:大気乱れを考慮したリアルな画像合成手法の開発
    • 遠距離画像認識において,大気乱れは画質劣化や高次視覚タスクの性能低下を引き起こす重要な課題である。
    • 既存手法では,露出時間とぼかしの関係が単純化されており,現実的なデータ生成や汎化性能が課題となっていた。
    • 本研究は,露出時間に応じた連続的なぼかしのモデリングにより,より現実的な合成データ生成を目指す。
    • 提案手法では,変調伝達関数(MTF)を拡張し,露出時間依存のMTF(ET-MTF)を新たに導出した。
    • ET-MTFから傾き不変な点源広がり関数(PSF)を導出し,空間的に変化するぼかし幅と組み合わせることで,物理的に正確な乱れぼかしを表現した。
    • 構築した大規模合成データセットET-Turbを用いて実験を行った結果,提案手法で学習したモデルが,現実世界の乱れデータに対してより優れた汎化性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.01398

  • UETrack:単一物体追跡のための統一的で効率的なフレームワーク [cs.RO, cs.CV]目的:単一物体追跡のための統一的かつ効率的なフレームワークの開発
    • 現実世界の需要増加に伴い,効率的な物体追跡技術は重要性を増している。
    • 既存手法はRGB入力に限定され,マルチモーダルな状況下では性能が低下する課題がある。
    • 本研究は,効率的で多種多様な入力に対応可能なマルチモーダル追跡手法を提案することで,この課題を解決する。
    • UETrackは,RGB,深度,熱,イベント,言語といった複数のモダリティを効率的に処理できる実用性と汎用性を持つ。
    • Token-Poolingに基づくMixture-of-Experts機構とTarget-aware Adaptive Distillation戦略により,高い性能と効率性を実現している。
    • 12のベンチマークと3つのハードウェアプラットフォームでの実験により,既存手法と比較して優れた速度と精度のトレードオフを示す。

    Link: https://arxiv.org/abs/2603.01412

  • FACE:高忠実度かつ効率的なメッシュ生成のための顔ベースの自己回帰表現 [cs.CV]目的:3Dメッシュ生成における自己回帰表現の効率化と高忠実度化
    • 3Dコンテンツ生成は,様々な分野で需要が高まっており,その効率性と品質が重要である。
    • 従来の3Dメッシュ生成は,頂点座標のシーケンスとして扱うため,計算コストが高く,高忠実度な形状の合成が困難である。
    • 本研究は,メッシュを顔(三角形面)のレベルで生成することで,この計算コストを削減し,効率的な生成を目指す。
    • 本研究で提案するFACEは,メッシュを顔レベルで扱うことで,シーケンス長を大幅に短縮し,圧縮率0.11を達成した。
    • FACEは,高性能なVecSetエンコーダと組み合わせることで,既存の最高水準と同等の再構成品質を実現している。
    • 学習された潜在空間は汎用性が高く,単一画像からのメッシュ生成においても高忠実度な結果を示した。

    Link: https://arxiv.org/abs/2603.01515

  • InterCoG:空間的に正確な画像編集に向けた連鎖的根拠付け推論 [cs.CV]目的:複雑な多要素シーンにおける,空間的な推論を必要とする微細な画像編集
    • 画像編集技術は,画像操作の自動化を可能にし,多様な応用分野で重要性を増している。
    • 複雑なシーンにおいて,視覚的に目立たない対象の微細な編集は困難である。
    • 空間的な推論と根拠付け推論を組み合わせることで,高精度な編集を実現する。
    • 提案手法InterCoGは,テキスト内の空間関係情報を活用して編集対象の位置と同一性を明確化する。
    • 生成されたバウンディングボックスとマスクを用いて,視覚的な根拠付けを行い,編集内容を具体化する。
    • GroundEdit-45Kという新たなデータセットを構築し,空間認識に基づいた編集評価を可能にした。

    Link: https://arxiv.org/abs/2603.01586

  • PromptStereo:構造と運動のプロンプトによるゼロショット立体マッチング [cs.CY, cs.ET, cs.CV]目的:ゼロショット立体マッチングにおける性能向上
    • 画像認識の発展に伴い,立体視における深度推定の重要性が高まっている。
    • 既存手法は特徴抽出に偏り,ゼロショット汎化性能の向上のための反復改良段階が不十分である。
    • 単眼深度モデルの潜在表現を強化し,絶対的な立体スケール情報を付与することで問題を解決する。
    • 提案手法PromptStereoは,単眼深度モデルのデコーダーを基盤とした新しい反復改良モジュールPrompt Recurrent Unit (PRU) を導入する。
    • PRUは,単眼構造と立体運動の情報をプロンプトとしてデコーダーに統合し,既存手法を上回るゼロショット汎化性能を示す。
    • 実験の結果,複数のデータセットにおいて最先端の性能を達成し,高速な推論速度も維持していることが確認された。

    Link: https://arxiv.org/abs/2603.01650

  • 低ランクデコーダ適応による効率的なテスト時最適化 [cs.CV]目的:深度補完のテスト時最適化における効率性向上
    • 環境の変化に対応したゼロショット深度補完技術は,ロボット工学や自動運転等の分野で重要性が増している。
    • 既存手法は計算コストが高く,特に拡散モデルに基づくテスト時最適化は処理速度が課題となっていた。
    • デコーダのみを適応させることで,計算量を削減しつつ高精度な深度補完を実現することを目的とする。
    • 提案手法は,デコーダの低次元空間のみを更新することで,効率的なテスト時最適化を実現した。
    • 5つの屋内および屋外データセットにおいて,既存手法を上回る性能を安定的に示した。
    • 精度と効率性の両立という新たなトレードオフの境界を確立し,実用的なゼロショット深度補完の可能性を示した。

    Link: https://arxiv.org/abs/2603.01765

  • CodecFlow:ニューラルコーデック潜在空間における条件付きフローマッチングによる効率的な帯域拡張 [cs.SD, cs.AI]目的:低帯域音声の高品質化のための帯域拡張技術
    • 音声通信の品質向上に不可欠であり,特に低ビットレート環境での利用価値が高い。
    • 従来のスペクトログラムや波形モデリングは計算コストが高く,高周波の再現性に課題がある。
    • ニューラルコーデックの潜在空間を活用し,効率的かつ高精度な帯域拡張を実現すること。
    • CodecFlowは,ニューラルコーデックに基づき,潜在空間内での効率的な音声再構築を可能にする。
    • ボイス活動を考慮した条件付きフロー変換器と,制約付き残差ベクトル量子化器により,潜在空間の整合性が向上。
    • 8 kHzから16 kHz,および44.1 kHzの音声帯域拡張において,優れたスペクトル忠実度と知覚品質を実現。

    Link: https://arxiv.org/abs/2603.02022

  • Nano-EmoX:知覚から共感までを統合するマルチモーダル感情知能 [cs.CL, cs.CL, cs.AI, cs.CV]目的:マルチモーダル感情知能の統合
    • 人間とAIの自然な対話実現には,感情理解が不可欠である。
    • 既存モデルは,知覚と高レベルな相互作用の乖離により,感情能力が限定的である。
    • 知覚から共感までの階層構造に基づき,感情モデルの統一的基盤を構築すること。
    • Nano-EmoXは,知覚,理解,相互作用の3段階階層に対応する6つの感情タスクを統合したコンパクトなMLMである。
    • P2Eフレームワークにより,知覚と共感の整合性を高め,感情知能を段階的に育成する。
    • 複数のベンチマークで最先端または非常に競争力のある性能を示し,効率性と汎化能力を実証した。

    Link: https://arxiv.org/abs/2603.02123

  • SimRecon:実動画からのSimReadyな構成的シーン再構築 [cs.CV]目的:実動画からのオブジェクト中心的なシーン表現の再構築
    • シミュレーションやインタラクションへの応用が期待される,現実世界のシーン理解における重要な課題である。
    • 既存手法は主に視覚的外観に重点を置いており,現実世界の複雑な状況への汎化能力が低い。
    • 視覚的な忠実性と物理的な妥当性を両立させ,複雑なシーンの再構築を可能とする。
    • 提案手法SimReconは,「知覚 - 生成 - シミュレーション」のパイプラインを通じて,複雑なシーンの再構築を実現した。
    • Active Viewpoint Optimizationにより,視覚的な忠実度を向上させるための最適な投影画像を生成する。
    • Scene Graph Synthesizerにより,物理的な妥当性を確保した3Dシミュレータでのシーン構築を可能にした。

    Link: https://arxiv.org/abs/2603.02133