arXiv雑要約

画像・音声 - 2026/03/19 公開

  • 生成によるリフォーカス:単一画像からの柔軟な被写界深度制御 [cs.CV]目的:単一画像からの柔軟な被写界深度制御手法
    • 写真撮影において被写界深度の制御は重要である。芸術的な表現や,特定の被写体を強調するために不可欠な技術。
    • 単一画像からのリフォーカスは困難であり,鮮明な画像と自然なボケの両立が課題である。
    • 既存手法の課題を克服し,より自然で精密な被写界深度制御を実現すること。
    • DeblurNetとBokehNetの二段階プロセスにより,多様な入力から全焦点画像を復元し,制御可能なボケを作成する。
    • 合成ボケ画像と実ボケ画像を組み合わせることで,正確な制御と本物のような光学特性を両立。
    • デフォーカス除去,ボケ合成,リフォーカスのベンチマークで優れた性能を達成。カスタム絞りの形状も可能。

    Link: https://arxiv.org/abs/2512.16923

  • 二者間政策競争における純粋戦略ナッシュ均衡の計算:存在とアルゴリズム的アプローチ [cs.GT, cs.LG]目的:二者間政策競争における純粋戦略ナッシュ均衡の存在とその計算手法
    • 政策決定は民主主義社会において重要なプロセスであり,選挙戦略や政策立案に不可欠である。
    • 従来のゲーム理論では,現実の政策競争における有権者の選好や政策の不確実性を十分に考慮できていない。
    • 有権者の選好と政策の不確実性を考慮した上で,ナッシュ均衡の存在と効率的な計算手法を確立すること。
    • 投票シミュレーションを通じて,政策の支持獲得確率が効用総和に関して単調増加するという仮説が検証された。
    • 一次元および多次元の両設定において,純粋戦略ナッシュ均衡の存在が数学的に証明された。
    • 分散勾配法は近似的なナッシュ均衡に迅速に収束し,グリッド探索アルゴリズムは多項式時間で近似解を計算可能であることが示された。

    Link: https://arxiv.org/abs/2512.22552

  • NashOpt - 一般化ナッシュ均衡を計算するためのPythonライブラリ [eess.SY, cs.GT, cs.SY]目的:一般化ナッシュ均衡の計算と設計
    • ゲーム理論は,経済学,工学,社会科学など幅広い分野で意思決定分析に不可欠である。
    • 共有制約を持つ非協力ゲームにおける一般化ナッシュ均衡の計算は,複雑で計算コストが高い。
    • 非線形ゲームと線形二次ゲームの両方に対応可能な効率的な計算手法を開発する。
    • NashOptは,非線形ゲームを解くためにJAXによる自動微分を利用した非線形最小二乗法を用いる。
    • 線形二次ゲームは混合整数線形計画問題として定式化され,複数の均衡を効率的に計算可能である。
    • 逆ゲーム問題やスタケルバーグゲーム設計問題にも対応しており,実用的な応用範囲が広い。

    Link: https://arxiv.org/abs/2512.23636

  • デジタルFAST:AI駆動による多Modalフレームワークを用いた迅速かつ早期の脳卒中スクリーニング [cs.CV]目的:脳卒中早期スクリーニングのためのAI駆動型多Modalフレームワーク
    • 脳卒中は迅速な対応が重要であり,患者予後の改善に直結する。そのため,効率的なスクリーニング法の確立が求められる。
    • 既存のスクリーニング法は,検査の遅れや誤診のリスクを抱えており,迅速かつ正確な判断が難しい場合がある。
    • 本研究は,顔表情,音声,上体動作といった多Modalデータを統合し,脳卒中を早期かつ正確に検出することを目指す。
    • 提案手法は,顔表情,音声,上体動作という補完的な情報を統合することで,単一Modalの手法よりも高い診断精度を実現した。
    • 自己収集データセットを用いた実験の結果,本モデルは95.83%の精度と96.00%のF1スコアを達成し,感度と特異度のバランスに優れていた。
    • この結果は,多Modal学習と転移学習が脳卒中早期スクリーニングに有効であることを示唆し,実用化には臨床的に代表性のある大規模データセットの必要性を示唆する。

    Link: https://arxiv.org/abs/2601.11896

  • YOLO26:リアルタイム物体検出のためのNMSフリーエンドツーエンドフレームワークの分析 [cs.CV, cs.AI]目的:リアルタイム物体検出のためのNMSフリーエンドツーエンドフレームワークYOLO26のアーキテクチャ分析
    • リアルタイム物体検出は,自動運転や監視システムなど,多くの応用分野で不可欠な技術である。
    • 従来のYOLOフレームワークではNMS処理が必要であり,遅延やハイパーパラメータ調整が課題であった。
    • NMSを排除し,エンドツーエンド学習戦略を採用することで,遅延を低減し,より効率的な物体検出を目指す。
    • YOLO26は,MuSGDオプティマイザ,STAL,ProgLossなどのメカニズムにより,NMSフリーで高性能を実現している。
    • COCO val2017データセットを用いたベンチマーク評価により,YOLO26は様々なモデル規模で,従来のCNNやTransformerベースのアーキテクチャと競争力のある性能を示した。
    • YOLO26は,表現学習と後処理を分離することで,エッジベースのコンピュータビジョンにおける「Export Gap」と決定的な遅延を改善する。

    Link: https://arxiv.org/abs/2601.12882

  • CARPE:アンサンブルによる文脈認識画像表現の優先度付け - 大規模視覚言語モデル向け [cs.CV, cs.AI]目的:大規模視覚言語モデルにおける画像表現の優先度付け手法
    • 視覚と言語の理解を組み合わせることで,AIの応用範囲が広がり,より高度なタスクが可能となる。
    • 大規模言語モデルとの整合性を重視するあまり,画像認識能力が低下することが課題である。
    • 画像とテキストのモダリティをバランス良く活用し,画像認識能力の向上を目指す。
    • CARPEは,画像の特徴量とテキスト表現を統合し,文脈に応じて重みを調整することで,モデルの性能を向上させる。
    • 画像分類と多様な視覚言語タスクにおいて,CARPEは既存手法よりも優れた性能を示すことが確認された。
    • モダリティのバランス調整が,大規模視覚言語モデルの汎化性能向上に不可欠であることが示唆された。

    Link: https://arxiv.org/abs/2601.13622

  • 異質な劣化の統合:不確実性を考慮した拡散ブリッジモデルによるオールインワン画像復元 [cs.CV]目的:異質な劣化における相反する最適化目標の調和
    • 画像劣化は,画像処理やコンピュータビジョンの重要な課題であり,実用的な応用を阻害する要因となる。
    • 既存手法は,粗い制御機構や固定されたマッピングスケジュールに制限され,最適な適応が困難である。
    • ピクセル単位での不確実性に基づいて確率的輸送問題を定式化し,劣化の不確実性をモデル化すること。
    • 本研究で提案する不確実性を考慮した拡散ブリッジモデル(UDBM)は,輸送の幾何学と動力学を効果的に修正し,様々な復元タスクで最先端の性能を達成する。
    • 拡散ブリッジの緩和された定式化により,標準的な拡散ブリッジに内在するドリフト特異点を理論的に解決する。
    • ノイズスケジュールとパススケジュールという二重変調戦略により,多様な劣化を共有の高エントロピー潜在空間に整列させ,輸送軌跡を適応的に制御する。

    Link: https://arxiv.org/abs/2601.21592

  • 識別器駆動拡散モデルによる教師なし分解と再構成 [cs.CV, cs.AI]目的:複雑なデータの因子表現の分解と再構成
    • データ生成モデルにおいて,再利用可能な要素の発見と組み合わせは重要である。
    • 拡散モデルにおける因子空間の学習は,因子レベルの教師なしで行われるため困難である。
    • 識別器を用いた敵対的学習により,物理的・意味的な整合性の高い再構成を目指す。
    • 提案手法はCelebA-HQ,Virtual KITTI,CLEVR,Falcor3DでFIDスコアと解釈可能性指標で既存手法を上回った。
    • ロボット動画において,学習された行動要素を再構成することで,探索における状態空間の網羅性を向上させた。
    • 識別器を欺くように生成器を最適化することで,再構成における整合性が向上する。

    Link: https://arxiv.org/abs/2601.22057

  • プロンプトを意識した近傍蒸留による軽量な細粒度画像分類 [cs.CV, cs.AI, cs.LG, cs.MM]目的:細粒度画像分類のための軽量ネットワークへの知識蒸留
    • 画像とテキスト情報を活用した画像分類が重要視されている。
    • 既存手法では固定されたプロンプトに依存し,大域的なアライメントに課題がある。
    • プロンプトを意識した近傍蒸留により,軽量かつ高精度な分類を目指す。
    • 提案手法PANDは,4つの細粒度画像分類ベンチマークにおいて最先端手法を上回る性能を示した。
    • 特に,CUB-200データセットにおいて,ResNet-18モデルは76.09%の精度を達成し,VL2Liteを3.4%上回った。
    • PANDは,セマンティックな校正と構造的転送を分離することで,知識蒸留の効率を向上させている。

    Link: https://arxiv.org/abs/2602.07768

  • 自己回帰型ビデオ拡散モデルにおける限られた訓練期間と無限長テストのギャップ解消 [cs.CV]目的:自己回帰型ビデオ拡散モデルの訓練期間とテスト期間のギャップ
    • 近年,ビデオ生成において自己回帰型拡散モデルが注目されている。
    • 訓練期間を超えるテストを行うと,画質の劣化が激しいという課題がある。
    • 訓練を行わずに,訓練期間とテスト期間のギャップを埋める手法を提案する。
    • 提案手法Rolling Sinkは,5秒のクリップで訓練されたモデルでも,5~30分といった超長尺のビデオを生成可能である。
    • Rolling Sinkは,一貫性のある被写体,安定した色,コヒーレントな構造,滑らかな動きを実現する。
    • 実験により,最先端のベースラインと比較して,Rolling Sinkが優れた画質と時間的一貫性を示すことが確認された。

    Link: https://arxiv.org/abs/2602.07775

  • NutVLM:自動運転におけるVision Language Modelに対する全次元攻撃に対する自己適応型防御フレームワーク [cs.CV, eess.IV]目的:自動運転用Vision Language Modelのセキュリティ確保
    • 自動運転の安全性向上には,周囲環境の正確な認識が不可欠であり,Vision Language Modelはその重要な役割を担う。
    • Vision Language Modelは敵対的攻撃に対して脆弱であり,誤認識による事故のリスクが存在する。
    • 既存の防御手法は十分ではなく,堅牢性と通常の性能の両立が課題であるため,新たな解決策が求められている。
    • 提案手法NutVLMは,識別・浄化メカニズムNutNet++を用いて,悪意のあるサンプルを検出し,除去する。
    • 局所的な脅威は効率的なグレースケールマスキングで浄化し,グローバルな摂動に対しては,Expert-guided Adversarial Prompt Tuning(EAPT)を実行する。
    • EAPTは,モデル全体の再学習を必要とせず,勾配に基づく潜在最適化と離散投影により,「是正運転プロンプト」を生成し,VLMの注意を再集中させる。

    Link: https://arxiv.org/abs/2602.13293

  • 公正な配分:比例性と公平性 [cs.GT]目的:分割不可能な資源の公正な配分
    • 資源配分は,社会的な公平性を実現するために重要である。
    • 既存研究は,主に他人への嫉妬のなさに焦点を当てていた。
    • 比例性や公平性など,他の重要な公平性基準を検討する。
    • 関連性の制約下での,比例性,公平性,およびそれらの緩和された条件の存在可能性と計算複雑性を明らかにした。
    • 資源が財であったり,雑用であったり,またはその両方の混合である場合でも,同様の結果が得られる。

    Link: https://arxiv.org/abs/2602.18098

  • IRIS-SLAM:ロバストな意味的局所化と地図作成のための統一されたジオメトリインスタンス表現 [cs.CL, cs.CV, cs.RO]目的:ロバストな意味的局所化と地図作成を実現するためのジオメトリインスタンス表現の統一
    • SLAM技術はロボットの自律移動や環境理解に不可欠であり,その性能向上は重要な課題である。
    • 従来のSLAMシステムは,深い意味理解とロバストなループクロージャに課題を抱えている場合が多い。
    • ジオメトリとインスタンスを統合的に捉え,意味的情報を活用した高精度なSLAMシステムの実現を目指す。
    • IRIS-SLAMは,インスタンス拡張された基盤モデルから得られる統一されたジオメトリインスタンス表現を活用することで,意味的な関連付け機構とインスタンス誘導型ループクロージャ検出を可能にした。
    • 提案手法は,視点に依存しない意味的アンカーを利用し,幾何学的再構成とオープンボキャブラリマッピングのギャップを埋めることに貢献する。
    • 実験結果から,IRIS-SLAMは特に地図の一貫性と広ベースラインのループクロージャの信頼性において,最先端の手法を大きく上回ることが示された。

    Link: https://arxiv.org/abs/2602.18709

  • LaS-Comp:潜在空間的一貫性を用いたゼロショット3D補完 [cs.CV, cs.RO]目的:3D形状のゼロショット補完
    • 3Dモデリングは,ロボティクスやAR/VRなど幅広い分野で重要である。
    • 部分的観測からの3D形状の完全な復元は困難であり,既存手法では汎化性能が課題である。
    • 汎用的な3D基礎モデルを活用し,多様な部分的観測に対応した高精度な3D補完を実現する。
    • 提案手法LaS-Compは,3D基礎モデルの潜在空間の幾何学的情報を活用することで,ゼロショットかつカテゴリに依存しない3D形状補完を可能にする。
    • 本手法は,部分的観測の形状を保持する明示的な置換段階と,観測領域と合成領域の境界を滑らかにする暗黙的な洗練段階の2段階設計を採用する。
    • 実データと合成データを組み合わせた包括的なベンチマークOmni-Compを用いて,提案手法が最先端手法を凌駕することを示す。

    Link: https://arxiv.org/abs/2602.18735

  • リアルな異常は不要:MLLMを活用したゼロショット動画異常検知 [cs.HC, cs.CV, cs.AI]目的:動画異常検知におけるゼロショット学習フレームワーク
    • 動画データは,監視や自動運転など,安全性確保に不可欠な情報源である。
    • 異常事象は稀であり,学習データの収集が困難であるため,検知性能が低い。
    • データ収集の課題を解決し,未知の異常にも対応可能な検知手法を開発する。
    • LAVIDAは,セグメント化されたオブジェクトを疑似異常として活用することで,モデルの未知の異常カテゴリへの適応性を高める。
    • MLLMを統合することで,文脈依存の異常セマンティクスをより深く理解し,検知精度を向上させる。
    • 逆Attentionに基づくトークン圧縮により,計算コストを削減しつつ,時間空間的なデータの制約に対応する。

    Link: https://arxiv.org/abs/2602.19248

  • SkyReels-V4:マルチモーダル動画・音声生成,インペインティング,編集モデル [cs.CV]目的:動画と音声を同時に生成し,動画の欠損部分を補完し,編集する基盤モデル
    • 動画生成技術は,エンターテイメント,教育,コミュニケーションなど幅広い分野で重要性が増している。
    • 既存のモデルでは,動画と音声を同時に高品質に生成することが困難であり,多様な編集作業に対応できない場合がある。
    • マルチモーダルな入力に対応し,動画と音声を統合的に生成・編集する効率的なモデルを開発すること。
    • SkyReels V4は,テキスト,画像,動画クリップ,マスク,音声参照など,多様なマルチモーダルな指示に対応可能である。
    • 動画と音声を同時に生成するだけでなく,欠損部分の補完や動画編集も統一的に行うことができる。
    • 1080p解像度,32FPS,15秒間の高画質・長尺な動画生成を,効率的な戦略によって実現している。

    Link: https://arxiv.org/abs/2602.21818

  • 自己注意機構とその先:無限自己注意による線形Transformer [cs.HC, cs.CV]目的:高解像度画像処理におけるTransformerのスケーラビリティ向上
    • Transformerは画像処理等で高性能だが,計算コストが高い点が課題。
    • 従来のsoftmax attentionは,入力シーケンス長に対して計算量が2乗で増加する。
    • 自己注意層を拡散ステップとして捉え,計算量を線形化する手法を提案する。
    • Infinite Self-Attention (InfSA)により,トークン間の多段相互作用を効率的に捉え,解釈可能性を高めた。
    • Linear-InfSAは,フル行列を形成せずに注意演算子の主固有ベクトルを近似し,計算コストを大幅に削減した。
    • ImageNet-1K/V2での実験で,既存のViTと比較して高い精度とスループット,省エネルギー性を実現した。

    Link: https://arxiv.org/abs/2603.00175

  • コンテキスト駆動型探索と視点に基づいた3次元空間推論によるインスタンスナビゲーション [cs.CL, cs.CV, cs.RO]目的:テキストによる目標インスタンスナビゲーションにおける探索と検証の改善
    • ロボットの環境理解と自律的なナビゲーション能力向上は,現実世界での応用において重要である。
    • 従来のナビゲーション手法は,曖昧な指示や類似物体が多い環境での正確な目標地点特定が課題である。
    • 詳細なテキスト記述に基づき,3次元空間推論を用いて誤った停止を減らすことを目指す。
    • 長文のコンテキスト情報を探索の優先順位付けに利用することで,無駄な移動を削減できることが示された。
    • 視点に基づいた3次元空間検証を行うことで,意味的にはあり得るが誤った目標地点での停止を防ぐことができる。
    • InstanceNavとCoIN-Benchにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.09506

  • HyPER-GAN:リアルタイムフォトリアリズム向上のためのハイブリッドパッチベース画像変換 [cs.DB, cs.CL, cs.CV]目的:フォトリアリズム向上を目的とした軽量な画像変換手法
    • コンピュータビジョンの学習における合成データの品質向上は,アルゴリズムの精度に直結する。
    • 既存手法は,視覚的なアーティファクトが生じやすく,計算コストが高いため,リアルタイム処理が困難である。
    • リアルタイム性と高画質を両立し,合成データのリアリティと意味整合性を高めることを目指す。
    • HyPER-GANは,既存の軽量な画像変換手法と比較して,推論速度,視覚的なリアリズム,意味的な頑健性において優れた性能を示す。
    • ハイブリッド学習戦略が,ペア画像のみで学習する場合と比較して,視覚的な品質と意味整合性の向上に貢献することが確認された。
    • U-Netをベースとした軽量な生成器を使用することで,リアルタイム推論が可能である。

    Link: https://arxiv.org/abs/2603.10604

  • 拡散Transformerのためのジャストインタイム:学習不要な空間的加速 [cs.CV]目的:拡散Transformerの空間的加速手法
    • 画像生成の最先端を担う拡散Transformerの応用範囲拡大が求められている。
    • 反復サンプリングの計算コストが高く,実用化が困難であるという課題がある。
    • 空間領域の冗長性を利用し,計算効率を向上させることで高速化を目指す。
    • 提案手法JiTは,学習なしで最大7倍の高速化を実現し,既存手法を上回る性能を示す。
    • JiTは,動的に選択されたアンカー要素のみを使用して生成プロセスを近似し,計算量を削減する。
    • 構造の一貫性と統計的正確性を維持する決定論的マイクロフローを提案し,スムーズな遷移を実現する。

    Link: https://arxiv.org/abs/2603.10744

  • InstantHDR:高動的範囲3D再構成のための単一前方ガウススプラッティング [cs.CV]目的:高動的範囲の新規視点合成
    • 没入型体験の向上や現実感の追求において,高動的範囲の3Dシーン再現は重要である。
    • 既存手法はカメラ姿勢の正確な把握や綿密な最適化を必要とし,処理に時間がかかるという課題があった。
    • 本研究は,カメラ姿勢が不明な多重露光LDR画像から,迅速かつ高精度なHDRシーンを再構成することを目的とする。
    • InstantHDRは,最適化ベースの手法と同等の合成性能を,約700倍の高速化で実現した。
    • HDRシーンデータ不足に対応するため,汎用的なHDRモデルの事前学習用データセットHDR-Pretrainを構築した。
    • 単一前方パスによる再構成とポスト最適化設定により,約20倍の速度改善も達成した。

    Link: https://arxiv.org/abs/2603.11298

  • 双方向クロスアテンションと時間モデリングによる多Modal感情認識 [cs.CV, cs.AI]目的:野生環境における動画データからの感情認識手法
    • 感情認識は,人間とコンピュータの自然な対話を可能にするため,重要な研究分野である。
    • 実際の動画データでは,表情,背景,音声の変動が大きく,単一のModalでは正確な認識が困難である。
    • 本研究では,視覚情報と音声情報を融合し,時間的な変化を考慮することで,よりロバストな感情認識を目指す。
    • 提案手法は,ABAW10th EXPRベンチマークにおいて,Macro F1スコア0.32を達成し,ベースラインの0.25を上回った。
    • 視覚情報と音声情報の双方向クロスアテンション機構が,クロスModalな文脈理解と補完的な感情理解を促進することが示された。
    • 時間的な視覚モデリング,音声表現学習,クロスModal融合が,制約のない実環境でのロバストな感情認識に貢献することが明らかになった。

    Link: https://arxiv.org/abs/2603.11971

  • 単一パスによる複数人物複数視点ビデオからの整合的な人間・シーン再構成 [cs.RO, cs.SY, eess.SY, cs.CV]目的:複数人物の複数視点ビデオからのカメラ,シーン点群,および人体メッシュの同時推定
    • 3D基盤モデルの進展に伴い,人間と周囲環境の再構成への関心が高まっている。
    • 既存手法は単眼入力に重点を置いており,複数視点への拡張には追加モジュールや前処理が必要となる。
    • 外部モジュールや前処理なしで,複数視点ビデオから人間とシーンを効率的に再構成すること。
    • CHROMMは,Pi3XとMulti-HMRの幾何学的および人体事前知識を統合した単一の学習可能なニューラルネットワークである。
    • シーンと人間のスケール間の不一致を解消するため,スケール調整モジュールを導入した。
    • EMDB,RICH,EgoHumans,EgoExo4Dにおける実験で,CHROMMは競争力のある性能と8倍以上の高速化を達成した。

    Link: https://arxiv.org/abs/2603.12789

  • イベント駆動型ビデオ生成 [cs.CV, cs.LG]目的:ビデオ生成におけるイベントに基づいたサンプリング
    • ビデオ生成技術は,コンテンツ制作やエンターテイメント分野で応用が期待されており,重要な研究分野である。
    • 既存のテキストからビデオ生成モデルは,単純な相互作用において不自然な動きやオブジェクトの不安定性を示す課題がある。
    • イベント駆動型のアプローチにより,ビデオ生成における物理的な相互作用の精度とリアリティを向上させることを目指す。
    • 提案手法EVDは,イベント予測ヘッドと損失関数,ゲート付きサンプリングを導入し,ビデオ生成時の不要な更新を抑制する。
    • EVD-Benchを用いた評価により,EVDは人間の選好度とVBenchのダイナミクスにおいて一貫して改善が認められた。
    • オブジェクトの持続性,空間精度,支持関係,接触安定性といった従来モデルの課題を大幅に軽減し,外観品質を維持している。

    Link: https://arxiv.org/abs/2603.13402

  • 大規模事前学習のための空間トランスクリプトミクスを画像として [cs.CV, cs.AI]目的:空間トランスクリプトミクスの大規模事前学習におけるデータ構成
    • 臨床・病理研究において,組織における空間情報は不可欠であり,空間トランスクリプトミクスはその情報を保持する。
    • 既存の事前学習方法では,空間依存性を無視するか,入力サイズが大きくなり学習効率が低下する問題がある。
    • 空間情報を保持しつつ,事前学習のためのサンプル数を増やすための新しいデータ構成方法を提案する。
    • 空間トランスクリプトミクスをクロップ可能な画像として扱うことで,空間コンテキストを維持しつつ,学習サンプル数を増加させる。
    • 遺伝子サブセット選択ルールを導入し,入力次元を制御することで,事前学習の安定性を向上させる。
    • 提案手法は,従来の事前学習スキームと比較して,下流タスクの性能を改善することが示された。

    Link: https://arxiv.org/abs/2603.13432

  • 菩提VLM:ボトムアップおよびトップダウン特徴検索による,視覚バックボーンとVLMエンコーダにおける階層的視覚表現のプライバシー整合モデリング [cs.CV, cs.CR]目的:階層的視覚表現におけるプライバシー整合モデリング
    • プライバシー保護は重要であり,特に視覚情報のような機密性の高いデータの取り扱いにおいて不可欠である。
    • 既存手法では,プライバシー保護のためにノイズを加える際に,その影響がどのようにプライバシー予算と整合するかを解釈することが難しい。
    • 本研究は,視覚バックボーンとVLMエンコーダにおけるプライバシーと整合性の両立を目指し,解釈可能なモデルを構築する。
    • 提案手法Bodhi VLMは,NCPとMDAVを用いたクラスタリングにより,機密概念と階層的特徴の関連付けを可能にする。
    • ボトムアップとトップダウン戦略による特徴領域の特定,およびEMPAモジュールによる予算整合シグナルの生成により,プライバシー保護と性能のバランスを取る。
    • YOLOやCLIP等の様々なモデルで検証され,安定した整合シグナルが得られることが確認された。

    Link: https://arxiv.org/abs/2603.13728

  • アバター強制:ローカル未来スライディングウィンドウノイズ除去によるワンステップストリーミングの会話アバター [cs.CV]目的:リアルタイム会話アバター生成のための低遅延かつ時間的安定性の確保
    • アバター生成技術は,人間とコンピュータのインタラクションにおいて重要な役割を担う。
    • 既存手法では,長いシーケンス生成時に誤差が累積し,安定的なストリーミングが困難である。
    • 誤差の蓄積を防ぎ,リアルタイムかつ安定的なアバター生成を実現すること。
    • 提案手法「AvatarForcing」は,固定長のローカル未来ウィンドウに対するノイズ除去により,ワンステップストリーミングを実現した。
    • デュアルアンカー時間強制により,時間的な安定性を向上させ,滑らかな遷移を可能にした。
    • 1.3Bパラメータの生徒モデルを用いて,34ms/フレームで高品質なアバター生成とリップシンクを実現した。

    Link: https://arxiv.org/abs/2603.14331

  • ASAP:効率的なLVLM推論のための注意シフト対応プルーニング [eess.SY, cs.SY, cs.CV, cs.LG]目的:大規模視覚言語モデルの効率的な推論
    • 視覚と言語を統合するモデルの性能向上は,様々な応用分野で重要性が増している。
    • 高解像度画像処理の計算コストが高く,推論速度がボトルネックとなっている。
    • 注意機構に着目し,トークン冗長性を削減することで,計算コストを大幅に削減する。
    • ASAPは,訓練不要でKVキャッシュ互換性を持つプルーニング手法である。
    • 動的な双方向ソフト注意マスクにより,注意シフトを軽減し,重要なトークンを選択する。
    • 意味的に類似するトークンを統合することで,計算量を80%削減しつつ,性能を99.02%維持する。

    Link: https://arxiv.org/abs/2603.14549

  • SemanticFace:解釈可能な空間におけるセマンティック蒸留による表情行動推定 [cs.MA, cs.RO, cs.CV]目的:表情行動の解釈可能性向上
    • 表情認識は,アバター制御や人間-コンピュータインタラクションなど,多様な応用分野で重要である。
    • 既存手法はコンパクトな表現空間を用いるため,意味的な解釈が困難である。
    • ARKitブレンドシェイプ空間に基づき,意味的な構造的推論による表情推定を目指す。
    • 言語と整合したセマンティックな教師データが,係数の精度と知覚的な一貫性を向上させる。
    • 異なる個人間での汎化性能と,大幅なドメインシフトに対するロバスト性が向上する。
    • 提案手法は,カートゥーン顔のような画像に対しても有効であることが示された。

    Link: https://arxiv.org/abs/2603.14827

  • AutoMoT:非同期Mixture-of-Transformersを用いた統合的なビジョン・言語・行動モデルによるエンドツーエンド自律運転 [cs.CV, cs.RO]目的:エンドツーエンド自律運転システムにおけるビジョン・言語・行動の統合
    • 自動運転技術は,交通渋滞の緩和,交通事故の削減,移動の効率化に貢献する重要な技術である。
    • 既存のビジョン・言語モデルと自律運転システムの統合は,推論と行動の間の分布のずれや,処理速度の遅延といった課題を抱えている。
    • 本研究は,これらの課題を解決し,より効率的かつ高性能な自律運転システムの実現を目指す。
    • 提案手法AutoMoTは,ビジョン,言語,行動を統合した単一のモデルであり,高速・低遅延な推論を可能にする。
    • 複数のベンチマークにおいて,AutoMoTは最先端の手法と同等以上の性能を達成した。
    • 事前学習済みのビジョン・言語モデルは,セマンティックプロンプティングのみで高度なシーン理解能力を発揮する一方,行動レベルのタスクにはファインチューニングが不可欠である。

    Link: https://arxiv.org/abs/2603.14851

  • F2HDR:フローアダプターと物理モーションモデリングによる2段階HDRビデオ再構成 [cs.RO, cs.CV]目的:HDRビデオ再構成手法
    • 現実世界の映像を忠実に再現するためには,広いダイナミックレンジのHDR映像が不可欠である。
    • 動的なシーンでは,異なる露出間の不整合や複雑な動きにより,フレーム間のアラインメントが困難である。
    • 動きの激しいシーンにおいても,ゴーストやディテールの損失を抑制したHDRビデオ再構成を実現すること。
    • 提案手法F2HDRは,フローアダプターと物理モーションモデリングを統合し,複雑な動的シーンにおけるフレーム間モーションの正確な認識と詳細な復元を可能にする。
    • F2HDRは,汎用的な光流を適応させ,露出間のロバストなアラインメントを実現し,動きの重要な領域を特定する。
    • 実験結果から,F2HDRは既存手法を上回り,大規模なモーションや露出変化下でゴーストフリーかつ高忠実度の結果を生成することが示された。

    Link: https://arxiv.org/abs/2603.14920

  • イラスト制作のためのワークフローを意識した構造化レイヤー分解 [cs.CV, cs.GR]目的:アニメイラスト制作における構造化レイヤー分解
    • 画像生成編集は発展途上であり,より高度な制御性と表現力を得るための技術が求められている。
    • 既存手法では,アニメイラストのような構造や様式を持つ画像の特徴を捉えきれない場合がある。
    • アニメ制作のワークフローに基づき,イラストを意味のあるレイヤーに分解することで,その問題を解決する。
    • 提案手法は,線画,単色,影,ハイライトといったアニメ制作における標準的なレイヤーにイラストを分解することが可能である。
    • 軽量なレイヤーセマンティック埋め込みを用いることで,各レイヤーに対する具体的なタスクガイダンスを提供し,分解精度を向上させている。
    • 高品質なイラストデータセットを構築し,実験により提案手法の有効性を検証した結果,正確かつ視覚的に整合性の高いレイヤー分解が実現された。

    Link: https://arxiv.org/abs/2603.14925

  • 生成動画のトレーニング不要検出:空間的・時間的尤度に基づく手法 [eess.SY, cs.SY, stat.ME, cs.DB, cs.CV, cs.LG]目的:生成動画の検出
    • テキストや画像生成技術の進展に伴い,現実と区別がつかない動画が生成可能となり,偽情報対策が重要視されている。
    • 画像ベースの検出器は時間的情報を無視し,教師あり学習の動画検出器は未知の生成モデルへの汎化性能が低いという課題がある。
    • 合成データに依存せず,実データ統計との比較により,トレーニング不要かつモデル非依存な検出手法を確立すること。
    • 提案手法STALLは,空間情報と時間情報を確率的枠組みで統合し,尤度に基づく動画のスコアリングを実現した。
    • 既存の画像・動画ベースの手法と比較し,公開ベンチマークにおいて一貫して優れた性能を示した。
    • 最先端の生成モデルを含む新たなベンチマークComGenVidを用いて評価を行い,有効性を確認した。

    Link: https://arxiv.org/abs/2603.15026

  • ALOS2 SAR データの活用に関するチュートリアル:データセットの準備,自己教師あり事前学習,およびセマンティックセグメンテーション [cs.CV]目的:ALOS2 SARデータの活用方法に関するガイドライン
    • 衛星画像解析は,地球観測や資源管理において不可欠であり,多様な応用分野で利用が拡大している。
    • SAR画像はノイズが多く,セマンティックラベリングが困難であるため,機械学習モデルの性能向上が課題となっている。
    • 本研究では,SAR画像特有の特性に対応した事前学習手法を開発し,セマンティックセグメンテーションの精度向上を目指す。
    • SAR-W-SimMIMという新しい事前学習手法を提案し,既存手法と比較してセマンティックセグメンテーション性能の向上を実証した。
    • ALOS2 SARデータを用いて日本地域に特化したデータセットを構築し,地域特化型モデル開発の基盤を整備した。
    • 自己教師あり事前学習の有効性を示し,ランダム初期化からの学習と比較して,セマンティックセグメンテーションにおいて有意な性能改善を達成した。

    Link: https://arxiv.org/abs/2603.15119

  • ビデオ拡散事前知識を用いた超低ビットレート画像圧縮のための次フレーム復号 [cs.CV]目的:超低ビットレート画像圧縮における生成圧縮の時間的進化の活用
    • 画像圧縮は,データ伝送や保存において不可欠であり,高効率化が常に求められている。
    • 従来の画像圧縮技術では,超低ビットレートでの高品質な圧縮が困難であった。
    • ビデオ拡散モデルを活用し,知覚的な高品質を維持した超低ビットレート圧縮を実現する。
    • 提案手法は,DiffCと比較して,LPIPS,DISTS,FID,KIDといった評価指標において50%以上のビットレート削減を達成した。
    • 復号処理の高速化にも成功し,最速で5倍のスピードアップを実現した。
    • シーンの幾何学構造と意味構造を保持するアンカーフレームを用いることで,忠実度とリアリズムが向上した。

    Link: https://arxiv.org/abs/2603.15129

  • NV-Bench:表現豊かな音声合成のための非言語性発声合成のベンチマーク [cs.SD, cs.AI, eess.AS]目的:非言語性発声の合成評価のための標準化されたベンチマーク
    • 近年のTTS技術の発展に伴い,より自然な表現が求められている。
    • 非言語性発声の評価には標準的な指標や信頼性のある基準データがない。
    • 非言語性発声をコミュニケーション行為として捉え,評価の標準化を図る。
    • NV-Benchは,14種類の非言語性発声カテゴリを含む1,651件の多言語データセットである。
    • 提案された評価プロトコル(Instruction Alignment,Acoustic Fidelity)と人間の知覚との間に強い相関が認められた。
    • NV-Benchは,非言語性発声合成の標準的な評価フレームワークとして有効であることが示された。

    Link: https://arxiv.org/abs/2603.15352

  • 腎臓デジタル病理画像のためのヒストパソロジー基盤モデルの包括的ベンチマーク [cs.CL, cs.CV]目的:腎臓デジタル病理画像におけるヒストパソロジー基盤モデルの性能評価
    • 病理診断の精度向上と効率化が求められる分野であり,AI技術の導入が期待されている。
    • 既存のヒストパソロジー基盤モデルは,主に癌領域に特化しており,腎臓病理への適用が十分ではない。
    • 腎臓病理に特化した基盤モデルの必要性を示し,今後の開発の方向性を示す。
    • 粗大な腎臓形態に基づく診断分類や構造的変化の検出においては,中程度から良好な性能が確認された。
    • 微細な構造識別,複雑な生物学的表現,スライドレベルでの予後予測においては,性能が一貫して低下した。
    • 現在の基盤モデルは,主に静的な中規模表現を符号化しており,微細な腎臓病理や予後に関連する信号を捉える能力が限られている。

    Link: https://arxiv.org/abs/2603.15967

  • S-VAM:自己蒸留による幾何学的・意味的先見を用いたショートカットビデオ行動モデル [cs.CV, cs.RO]目的:ロボット学習のためのビデオ行動モデルの効率と精度向上
    • ロボットの複雑な操作タスクにおいて,視覚的な先見性は不可欠である。その性能がロボットの自律性に大きく影響する。
    • 既存のビデオ行動モデルは,リアルタイム性と高精度な先見性の両立が困難である。多段階生成は遅く,特徴抽出はノイズが多い。
    • S-VAMは,幾何学的・意味的表現を効率的に予測することで,リアルタイム性と高精度を両立し,複雑な環境での操作を可能とする。
    • S-VAMは,単一のフォワードパスで一貫性のある幾何学的・意味的表現を予測するショートカットビデオ行動モデルである。
    • 自己蒸留戦略により,多段階ノイズ除去の生成モデルの構造化された事前知識を,単一段階の推論に凝縮する。
    • シミュレーションと実世界での実験により,S-VAMが最先端手法を上回り,効率的かつ正確な操作を実現することが示された。

    Link: https://arxiv.org/abs/2603.16195

  • 深層学習と生物学的ヒューリスティクスを融合した極端なロングテール白血球分類 [cs.CV]目的:極端なロングテール分布を持つ白血球の分類
    • 白血病スクリーニングの自動化は重要だが,クラス間の不均衡が課題となっている。
    • 既存の深層学習モデルは,主要なクラスに過学習し,稀な亜型に対しては性能が低下する。
    • 稀なクラスの汎化性能を向上させ,白血球分類の精度を向上させる。
    • 提案手法は,WBCBench 2026チャレンジにおいて,Macro-F1スコア0.77139を達成した。
    • 人工物除去,堅牢な表現学習,生物学的制約による予測の改善を組み合わせた。
    • 深層学習に血液学的イメージ分析のための生物学的事前知識を組み込むことの有効性が示された。

    Link: https://arxiv.org/abs/2603.16249

  • VisBrowse-Bench:マルチモーダルブラウジングエージェントのための視覚ネイティブ検索のベンチマーク [cs.CV, cs.AI]目的:視覚ネイティブ検索のためのベンチマーク
    • マルチモーダルLLMの発展により,現実世界の情報を活用するブラウジングエージェントの重要性が増している。
    • 既存のベンチマークは,視覚的推論能力の評価とWebページの視覚情報の活用が不十分である。
    • 視覚的推論能力を評価し,Webページの視覚情報を活用するベンチマークを構築すること。
    • VisBrowse-Benchは,169のVQAインスタンスを含む新しいベンチマークであり,テキスト-画像検索と共同推論を通じて検索プロセス中の視覚的推論能力を評価する。
    • 実験結果から,最優秀モデルであるClaude-4.6-Opusの正答率は47.6%,o3-deep-researchは41.1%であることが示された。
    • データとコードは公開されており,ブラウジングエージェントが視覚情報を収集・推論するためのワークフローも提案されている。

    Link: https://arxiv.org/abs/2603.16289

  • HGP-Mamba: Mambaに基づくマルチモーダル生存リスク予測における組織病理画像と生成されたタンパク質特徴の統合 [cs.RO, cs.CL, cs.CV]目的:Mambaに基づくマルチモーダルフレームワークによる生存リスク予測
    • がん治療成績向上には,より正確な予後予測が不可欠である。
    • タンパク質マーカーと組織病理画像の統合は困難であり,十分な活用がなされていない。
    • タンパク質情報を効率的に統合し,精度の高い生存リスク予測を実現すること。
    • HGP-Mambaは,4つの公開がんデータセットで最先端の性能を達成した。
    • 既存手法と比較して,計算効率においても優れていることが示された。
    • Pretrainedモデルを活用し,高スループットなタンパク質埋め込みをWSIから直接抽出するPFEを導入した。

    Link: https://arxiv.org/abs/2603.16421

  • VIEW2SPACE:疎な観察からのマルチビュー視覚的推論の研究 [cs.PF, cs.AR, cs.CV]目的:疎な観察からのマルチビュー視覚的推論に関するベンチマークと手法
    • 複雑な環境を理解する知能システムにとって,マルチビュー視覚的推論は不可欠である。
    • 既存研究は,単一画像や高密度な動画に偏っており,現実的な疎なマルチビューデータでの推論が課題である。
    • 物理シミュレーションに基づき,大規模なベンチマークと手法を開発し,マルチビュー推論の性能向上を目指す。
    • VIEW2SPACEは,疎なマルチビュー推論のための多次元ベンチマークであり,数百万の質問応答ペアをサポートする。
    • 既存のビジョン言語モデルや空間モデルの評価の結果,マルチビュー推論は未解決の課題であることが示された。
    • 提案手法 Grounded Chain-of-Thought with Visual Evidence は,中程度の難易度において性能を向上させ,実データへの一般化も実現した。

    Link: https://arxiv.org/abs/2603.16506

  • 根拠が重要である:プロキシ誘導批評によるVLM報酬モデルのための転移可能な評価基準の学習 [cs.CV]目的:VLM(Vision-Language Model)の報酬モデルにおける転移可能な評価基準の学習
    • VLMの性能向上には,高品質な報酬モデルが不可欠であり,その評価基準の重要性が増している。
    • 既存手法では評価基準の最適化が不十分であり,微分可能な信号が得られず,学習時のガイダンスが限定的である。
    • プロキシによる評価基準検証を通じて評価基準の品質を向上させ,汎化性能の高い報酬モデルを構築すること。
    • 提案手法Proxy-GRMは,VL-Reward Bench,Multimodal Reward Bench,MM-RLHF-Reward Benchにおいて最先端の結果を達成した。
    • Proxy-SFTがProxy-RLよりも優れた検証性能を示し,暗黙的な報酬集約が最適であることが明らかになった。
    • 学習された評価基準は未知の評価者にも転移し,追加の学習なしにテスト時の報酬精度を向上させた。

    Link: https://arxiv.org/abs/2603.16600

  • Search2Motion:注意合意探索による学習不要なオブジェクトレベルの動作制御 [cs.CV]目的:画像から動画への生成におけるオブジェクトレベルの動作編集
    • 動画生成技術は,現実世界の表現や新たなコンテンツ創造に不可欠であり,その発展が求められている。
    • 既存手法は,軌跡,バウンディングボックス,マスク,モーションフィールドなどを必要とし,制御が難しい場合がある。
    • ターゲットフレームに基づいた制御により,オブジェクトの再配置とシーンの安定性を両立させることを目指す。
    • Search2Motionは,学習を必要とせず,既存手法よりも高い性能を示すことがFLF2V-objおよびVBenchの評価で確認された。
    • セマンティックガイダンスによるオブジェクト挿入とロバストな背景インペインティングにより,信頼性の高いターゲットフレームの構築を実現した。
    • 初期段階の自己注意マップがオブジェクトとカメラの動きを予測し,解釈可能なフィードバックを提供し,モーションの忠実度を向上させるACE-Seedを提案した。

    Link: https://arxiv.org/abs/2603.16711

  • 不整合な視点からの世界再構築 [cs.CV]目的:動画からの一貫性のある3次元世界再構築
    • 近年,動画生成モデルの発展が著しい。高品質な映像を生成可能になった。
    • 生成された動画は,フレーム間の3次元的な一貫性が課題となり,世界再構築を困難にしている。
    • 動画フレームの一貫性を保ちつつ,高精度な3次元環境を構築することを目標とする。
    • 提案手法は,非剛体変換によりフレームを整合的に配置し,詳細な点群を生成する。
    • 点群を初期値として3次元再構築を行い,新しい損失関数により高品質な環境を生成する。
    • 実験の結果,提案手法は既存手法よりも高品質な3次元シーンを生成することが示された。

    Link: https://arxiv.org/abs/2603.16736

  • δ-マージン多数決の理論的基礎 [stat.AP, cs.AI, cs.GT, cs.HC]目的:δ-マージン多数決の理論的枠組みの確立
    • 不正検知等の重要用途で,予測品質向上のため合意に基づく手法が不可欠である。
    • δ-マージン多数決は広く利用されているが,理論的根拠が乏しく,経験則に頼る部分が多い。
    • δ-マージン多数決の期待精度やコストに関する設計指針を理論的に確立することを目指す。
    • 本研究は,δ-マージン多数決を吸収マルコフ連鎖として定式化し,Gambler's Ruin理論を用いることで,包括的な理論的枠組みを構築した。
    • これにより,合意精度,投票期間,分散,停止時間PMFの閉形式表現が得られ,モデルベースの設計が可能となった。
    • ベイズ拡張により,労働者の精度不確実性を考慮したリアルタイムな品質・コスト監視,およびコスト調整手法も提案した。

    Link: https://arxiv.org/abs/2111.06390

  • CT画像に基づく肺疾患スクリーニングにおける臨床応用への道:効率的かつ信頼性の高いフレームワーク [eess.IV, cs.CV]目的:肺疾患スクリーニングのための効率的かつ信頼性の高いフレームワーク
    • 肺疾患の早期発見は,患者の予後改善に不可欠であり,画像診断の重要性は高い。
    • CT画像全体の処理には計算コストが高く,臨床現場での実用化が遅れている。
    • 計算コストを削減しつつ,診断精度を維持し,信頼性を向上させることを目指す。
    • 提案手法(ERF)は,CTスライスの代表性と多様性を最適化するクラスタベースの部分サンプリング(CSS)を導入し,計算ボトルネックを回避する。
    • 曖昧性認識不確実性定量化(AUQ)機構により,微細な病変やアーチファクトに起因するデータ曖昧さを捉え,信頼性を向上させる。
    • 2つの公開データセットで90%以上の精度と再現率を達成し,処理時間を60%以上削減することで,臨床応用への道を開く。

    Link: https://arxiv.org/abs/2412.01525

  • 音風景感情認識のためのグラフ構造推論による特徴選択 [eess.AS, cs.SD]目的:音風景感情認識における特徴選択
    • 環境音響学は騒音レベルから音の知覚へと焦点を移し,文脈要因を取り入れている。
    • 既存の特徴選択手法では,音風景の複雑な関係性を十分に捉えられていない。
    • 特徴間の関係性をグラフ構造で表現し,適切な特徴選択を行うことで認識精度向上を目指す。
    • 提案手法では,線形構造方程式モデリングを用いて特徴間の疎なグラフ表現を推定した。
    • 新たに開発した「一般化エルボー検出器」により,適切な疎性のレベルを決定した。
    • 得られたグラフ表現は,覚醒度と価値性の強い関連性を示し,既存のSERの仮説に一石を投じる結果となった。

    Link: https://arxiv.org/abs/2509.16760

  • 物理情報ニューラル場を用いた動的ブラックホールエミッション断層撮影 [gr-qc, astro-ph.IM, cs.CV]目的:動的かつ3次元的なブラックホールのガス構造の再構成
    • 静的ブラックホール画像取得の成功を受け,宇宙の新たな側面を明らかにするため。
    • 単一視点からの不完全な電波測定データのみで,再構成問題が非常に不安定である。
    • BH-NeRFのケプラー力学の制約を克服し,より汎用的な再構成を可能にする。
    • 提案手法PI-DEFは,物理情報を組み込んだニューラルレンダリングにより,高精度な再構成を実現した。
    • BH-NeRFや物理情報を用いない手法と比較して,再構成精度が大幅に向上した。
    • 本手法を用いることで,ブラックホールのスピンなどの物理パラメータの推定も可能になる。

    Link: https://arxiv.org/abs/2602.08029

  • 混合均衡のインデックスとロバスト性:代数的アプローチ [econ.TH, cs.GT, math.AG]目的:有限ゲームにおける完全混合均衡のインデックスの計算手法
    • ゲーム理論は,経済学,政治学,生物学など多岐にわたる分野で意思決定の分析に不可欠である。
    • 混合均衡のインデックスの計算は複雑であり,効率的な手法が求められていた。
    • 混合均衡のインデックスと固定点,およびペイオフロバスト性との関係を解明すること。
    • 任意の整数が孤立した完全混合均衡のインデックスとなりうることを示した。
    • 特定のクラス(単原的均衡)においては,インデックスは0,+1,-1のいずれかとなる。
    • 単原的均衡において,ゼロでないインデックスはペイオフロバスト性と等価である。

    Link: https://arxiv.org/abs/2603.04298