arXiv雑要約

画像・音声 - 2026/01/30 公開

  • 多様体への射影によるフローマッチングのClassifier-Free Guidanceの改善 [cs.CV, cs.AI]目的:拡散モデルおよびフローベースモデルにおける制御可能な生成のためのClassifier-Free Guidanceの改善
    • 拡散モデル等の生成モデルにおいて,生成されるコンテンツの制御は重要な課題である。
    • 従来のClassifier-Free Guidanceは,ガイダンススケールに敏感であり,安定性に課題があった。
    • 本研究は,多様体への射影により,ガイダンススケールへの依存性を軽減し,生成品質を向上させることを目指す。
    • 本研究では,Classifier-Free Guidanceを最適化問題として解釈し,多様体制約を持つホモトピー最適化として再定式化した。
    • 提案手法は,追加の学習を必要とせず,生成された画像の忠実度,プロンプトへの適合性,ガイダンススケールへのロバスト性を向上させる。
    • DiT-XL-2-256,Flux,Stable Diffusion 3.5など,大規模モデルを用いた実験により,その有効性が確認された。

    Link: https://arxiv.org/abs/2601.21892

  • 自己注意機構における重要度推定を用いた過去・未来情報を活用したKVキャッシュポリシー [cs.CV]目的:自己注意機構におけるKVキャッシュポリシーの改善
    • 動画生成はデジタルメディア制作の重要な要素であり,その効率的な実現が求められている。
    • 既存のKVキャッシュポリシーはトークンの重要度を考慮せず,情報の損失やキャッシュの肥大化を招いている。
    • トークンの重要度推定により,効率的なキャッシュ管理を実現し,動画生成の品質と効率を向上させる。
    • 提案手法PaFu-KVは,双方向教師モデルから蒸留された軽量な重要度推定ヘッドを用いて,KVキャッシュに有用なトークンを保持し,不要なものを削除する。
    • 実験結果から,PaFu-KVはKVキャッシュ容量を削減し,メモリフットプリントを低減することで,品質と効率のトレードオフを改善できることが示された。
    • 提案手法は,高忠実度の動画生成品質を維持しながら,推論を高速化し,より効率的な長時間の動画生成を可能にする。

    Link: https://arxiv.org/abs/2601.21896

  • 経路介入による大規模基盤モデルの堅牢な安全性確保:TraceRouter [cs.CV, cs.AI, cs.CY, cs.MM]目的:大規模基盤モデルにおける有害な意味の因果伝播経路の特定と遮断
    • 大規模基盤モデルは強力だが,攻撃に脆弱である。安全性の確保は重要な課題。
    • 従来の防御は局所的な介入に頼り,分散した有害な意味に対処できない。
    • 有害な意味の因果経路を特定し,選択的に抑制することで安全性を高める。
    • TraceRouterは,注意の分散を分析して感受性の高い層を特定する。
    • スパースオートエンコーダと微分活性化分析を用いて,悪意のある特徴を分離する。
    • 特徴影響スコアにより経路を特定し,有害な情報の流れを遮断することで,堅牢性と実用性の両立を実現する。

    Link: https://arxiv.org/abs/2601.21900

  • グローバルアライメントを超えて:ピラミッド型シャプレイ・テイラー学習による詳細な動作・言語検索 [cs.ET, cs.CV]目的:動作と言語間の詳細な対応関係の学習
    • 人間中心のクロスモーダル知能において,動作と言語の関連付けは重要な課題である。
    • 既存手法は全体的なアライメントに偏り,詳細な動作のセグメントや関節,テキストとの対応が不十分である。
    • 人間の動作認識プロセスに着想を得て,詳細な動作・言語検索のための新しいフレームワークを提案する。
    • 提案手法は,動作を時間的セグメントと空間的な関節に分解し,ピラミッド型に段階的にアライメントを学習する。
    • これにより,局所的な意味的詳細と階層的な構造的関係を効果的に捉えることができる。
    • 複数のベンチマークデータセットで,最先端の手法と比較して大幅な性能向上を実証した。

    Link: https://arxiv.org/abs/2601.21904

  • VideoAesBench:大規模マルチモーダルモデルの動画美学認識能力のベンチマーク [cs.CV]目的:動画美学認識能力の評価基準
    • 動画は重要な情報伝達手段であり,その美学的な質は視聴者の体験に大きく影響する。
    • 大規模マルチモーダルモデルにおける動画美学評価能力は未だ十分に探求されていない。
    • 動画美学に関するモデルの理解度を客観的に評価するための基準を確立すること。
    • 本研究では,多様な動画データを含む包括的なベンチマーク「VideoAesBench」を開発した。
    • 23のオープンソースおよび商用大規模マルチモーダルモデルの評価を行った結果,現在のモデルの動画美学認識能力は限定的であることが示された。
    • VideoAesBenchは,説明可能な動画美学評価のための強力なテストベッドとして機能することが期待される。

    Link: https://arxiv.org/abs/2601.21915

  • ビデオ拡散モデルの支援によるゼロショット動画修復・高画質化 [cs.CV]目的:ゼロショット動画修復・高画質化における時間的一貫性の維持
    • 動画処理技術は,監視システムやエンターテイメントなど多岐にわたる分野で重要である。
    • 既存の画像修復技術を動画に適用すると,時間的なちらつきが深刻な問題となる。
    • 動画拡散モデルを活用し,時間的一貫性を保ちながら高品質な修復・高画質化を実現する。
    • 本研究では,画像ベースの手法を支援するために,最新の動画拡散モデルを利用する新しいフレームワークを提案した。
    • 同種・異種潜在空間の融合とCOTに基づく融合比率戦略により,テキストから動画への拡散モデルを効果的に活用した。
    • さらに,画像から動画への拡散モデルを用いた時間強化後処理により,時間的一貫性を向上させた。

    Link: https://arxiv.org/abs/2601.21922

  • セグメントを意識した学習による,深偽音声の局所化:遷移を超えて [cs.SD]目的:深偽音声の局所化性能向上
    • 音声の深偽技術は急速に進歩しており,その検知と局所化が重要課題となっている。
    • 既存手法は遷移部分に集中しがちで,操作されたセグメント内部の検出が課題である。
    • セグメント全体の構造を理解し,より正確な局所化を目指す。
    • 提案手法SALは,セグメント内の相対位置に基づく詳細なフレーム監督学習と,多様なセグメントパターン生成によるデータ拡張を行う。
    • 複数の深偽音声局所化データセットにおいて,SALはドメイン内・外両方で優れた性能を示した。
    • 特に,遷移部分以外の領域での性能向上と,遷移アーティファクトへの依存度低減が確認された。

    Link: https://arxiv.org/abs/2601.21925

  • 深層視覚特徴における弁別閾値のモデル化 [cs.CV]目的:深層視覚特徴空間における許容可能な摂動の最大値を予測するタスク適合型弁別閾値の定式化
    • 深層視覚特徴は画像認識システムで利用が増加しており,特徴の特性と品質を制御する必要性が高まっている。
    • 既存手法では,特徴空間における許容誤差の範囲が明確でなく,リソース制約下での品質管理が困難である。
    • タスクのパフォーマンスを維持しつつ,特徴空間における摂動の許容範囲を定量的に評価することを目的とする。
    • 提案手法FeatJNDは,画像分類,物体検出,インスタンスセグメンテーションにおいて高いタスクパフォーマンスを維持した。
    • FeatJNDに基づく摂動は,ランダムなガウス摂動と比較して,より高いパフォーマンスを達成することが示された。
    • FeatJNDは,重要度の低い特徴領域を抑制し,効率的な特徴量量子化に貢献することが示唆された。

    Link: https://arxiv.org/abs/2601.21933

  • BookNet:クロスページ注意ネットワークによる書籍画像整流 [cs.CV]目的:書籍画像の整流
    • 書籍画像処理は,文化遺産のデジタル化や情報検索において重要である。
    • 従来の単一ページ整流法では,書籍特有のページ間の幾何学的な関係性を捉えられない。
    • BookNetは,ページ間の相互作用を考慮した書籍画像整流を可能にする。
    • BookNetは,書籍画像整流専用の初の深層学習フレームワークである。
    • クロスページ注意メカニズムにより,左右ページの相互影響を明示的にモデル化している。
    • 合成データセットBook3Dと実データセットBook100を新たに作成し,最先端手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2601.21938

  • 深層モデル,浅いアラインメント:ニューラルデコーディングにおける粒度ミスマッチの解明 [cs.CV]目的:ニューラルビジュアルデコーディングにおける粒度ミスマッチの解消
    • 脳コンピュータインターフェース研究の中核であり,人間の視覚知覚の再構築と神経表現構造の解明を目指す分野である。
    • 深層モデルが局所的なテクスチャ情報を抑制する一方で,神経信号は低レベルと高レベルの特徴を保持しており,粒度のミスマッチが生じている。
    • 中間表現とのアラインメントにより,低レベルな詳細と高レベルな意味特徴のバランスを取り,デコーディング性能を向上させる。
    • 提案手法Shallow Alignmentは,従来の最終層アラインメントと比較して,様々なビジョンバックボーンで22%から58%の性能向上を示した。
    • Shallow Alignmentは,ニューラルビジュアルデコーディングのスケーリング則を解き放ち,事前学習済みバックボーンの容量に応じてデコーディング性能が予測可能にスケールすることを示した。
    • 実験的分析により,性能向上のメカニズムが明らかになった。

    Link: https://arxiv.org/abs/2601.21948

  • PaddleOCR-VL-1.5:堅牢な現実世界ドキュメント解析のための0.9BマルチタスクVLMへ [cs.CV]目的:現実世界のドキュメント解析における堅牢性向上
    • ドキュメント解析は,情報へのアクセスや業務効率化に不可欠である。
    • 現実世界のドキュメントは歪みやノイズを含みやすく,解析精度が課題である。
    • 現実世界の様々な歪みに強い,高精度なドキュメント解析モデルを開発する。
    • PaddleOCR-VL-1.5は,OmniDocBench v1.5で94.5%という最先端の精度を達成した。
    • 新規に作成されたReal5-OmniDocBenchベンチマークにおいても,最高の性能を示した。
    • シール認識やテキスト検出などの機能を組み込み,効率的な0.9Bの超コンパクトVLMを実現した。

    Link: https://arxiv.org/abs/2601.21957

  • ロボット制御のための因果世界モデル化 [cs.CV, cs.RO]目的:ロボット制御における因果関係に基づいた世界モデルの構築
    • ロボットの自律性を高めるには,環境の理解と予測が不可欠である。
    • 従来のロボット学習は,大量のデータと手動による設計に依存している。
    • 視覚と言語を統合し,行動と視覚的変化の因果関係を学習する。
    • 本研究では,視覚と行動を共有する潜在空間を持つ自己回帰的拡散フレームワークLingBot-VAを提案した。
    • シミュレーションと実環境の両方で,長距離操作,ポストトレーニングにおけるデータ効率,新しい構成への汎化能力に優れていることが示された。
    • クローズドループロールアウト機構と非同期推論パイプラインにより,効率的な制御を実現している。

    Link: https://arxiv.org/abs/2601.21998

  • 視覚誘導型キー・トークン正則化によるマルチモーダル大規模言語モデルのアンラーニング [cs.RO, cs.LG, cs.CV]目的:マルチモーダル大規模言語モデルにおけるアンラーニングの実現
    • プライバシー保護の重要性が高まる中,モデルからの機密情報漏洩を防ぐ技術が求められている。
    • 既存手法では,全てのトークンを一律に扱い,重要なトークンへの配慮が不足している。
    • 視覚情報を活用し,キーとなるトークンを特定・優先的にアンラーニングすることで,効果的な情報隠蔽を目指す。
    • 提案手法ViKeRは,無関係な視覚入力を利用して,アンラーニング後のトークン分布を予測し,正則化を行う。
    • 情報エントロピーに基づきキー・トークンを定義し,トークンレベルの勾配再重み付けにより,それらの更新を増幅する。
    • MLLMUおよびCLEARベンチマークでの実験により,ViKeRが効果的にアンラーニングを行い,忘却と応答の整合性を維持することが示された。

    Link: https://arxiv.org/abs/2601.22020

  • 没入型解剖学のためのハイブリッド焦点性パストレーシングと周辺ガウス [cs.GR, cs.CV]目的:没入型解剖学可視化のための高品質,インタラクティブなレンダリング手法
    • 医療画像は複雑な病理理解に不可欠だが,立体的な把握が困難。
    • 高品質なレンダリングは計算コストが高く,リアルタイム性に課題。
    • 高品質とインタラクティブ性を両立する解剖学可視化手法の実現。
    • 焦点性パストレーシングと周辺ガウススプラッティングのハイブリッド手法を提案。
    • 周辺モデル生成を最適化し,焦点を追従して継続的に更新することでインタラクティブ性を実現。
    • 従来手法と比較し,視覚品質を維持しつつ,高速な周辺モデル再生成が可能。

    Link: https://arxiv.org/abs/2601.22026

  • Drive-JEPA:ビデオJEPAと多Modal軌道蒸留によるEnd-to-End運転 [cs.CL, cs.CV]目的:End-to-End運転のための表現学習と計画
    • 自動運転技術の発展は,安全性向上や効率化に不可欠であり,社会実装が期待されている。
    • 既存手法では,限られた学習データや多様な運転行動の学習が困難であり,性能向上の限界がある。
    • ビデオデータとシミュレーションデータを活用し,多様かつ安全な運転計画の学習を目指す。
    • V-JEPA表現とTransformerデコーダの組み合わせにより,従来の知覚不要設定において3 PDMSの性能向上を達成した。
    • Drive-JEPAフレームワークは,v1で93.3 PDMS,v2で87.8 EPDMSを達成し,新たな最高水準を確立した。
    • 提案手法は,シミュレーター生成軌道と人間の軌道を組み合わせることで,より安定した安全な行動を促進する。

    Link: https://arxiv.org/abs/2601.22032

  • 単一フレームからの行動予測におけるマルチモーダル補完性の理解 [cs.CV]目的:単一フレームからの行動予測性能向上
    • 人間は未来の行動を予測する能力を持つ。ロボットに同様の能力を持たせることは重要である。
    • 従来の行動予測は動画全体に依存し,計算コストが高いという課題があった。
    • 単一フレームの情報から最大限の予測性能を引き出すことを目指す。
    • RGB画像,深度情報,過去の行動の意味的表現を組み合わせることで,単一フレームでの予測精度が向上した。
    • AAG+という改良されたフレームワークは,従来の動画ベースの手法と同等以上の性能を達成した。
    • 単一フレームで十分な予測が可能となる状況と,密な時間的モデリングが必要な状況が明らかになった。

    Link: https://arxiv.org/abs/2601.22039

  • 多様な様相を通じたコミュニケーション学習:マルチエージェントシステムにおける知覚の異質性 [cs.MA, cs.AI, cs.CV, cs.LG]目的:エージェント間のコミュニケーションの発展過程
    • 現実世界では,知覚様式に多様性があるが,既存研究では考慮されていない。
    • 異なる知覚様式を持つエージェント間でのコミュニケーションは困難である。
    • 知覚の異質性下におけるコミュニケーションの成立メカニズムを解明する。
    • マルチモーダルシステムは,知覚入力に基づいた意味の一貫性のあるメッセージに収束する。
    • ユニモーダルシステムは効率的なコミュニケーションを実現するが,マルチモーダルシステムはより多くの情報交換を必要とする。
    • 異なる知覚世界で訓練されたシステム間では直接的なコミュニケーションは困難だが,微調整により可能となる。

    Link: https://arxiv.org/abs/2601.22041

  • 制約された疎な航空画像と3D SAR融合による都市型ニューラル表面再構成 [cs.CV]目的:都市部の3D再構成
    • 都市計画や災害対策において,高精度な3D都市モデルの需要が高まっている。
    • 航空画像の取得は,飛行経路や地形,コストに制限され,データが疎になる場合がある。
    • 疎な航空画像データから高精度な3Dモデルを再構成する課題を解決することを目指す。
    • 3D SAR点群を航空画像と融合する新しいフレームワークを提案し,高精度な再構成を実現した。
    • 提案手法は,特に疎な視点からのデータや傾斜した視点での再構成において,精度,完全性,堅牢性が大幅に向上した。
    • 3D SAR点群と航空画像を組み合わせることで,大規模な都市の効率的な3D再構成が可能になった。

    Link: https://arxiv.org/abs/2601.22045

  • PLANING:ストリーミング3D再構成のための疎結合三角形・ガウスフレームワーク [cs.CV]目的:ストリーミング3D再構成のための効率的なフレームワーク
    • 3D再構成技術は,ロボット工学,VR/ARなど様々な分野で重要性が増している。
    • 既存手法は,高品質なレンダリングと正確な形状の再現を両立することが困難である。
    • 高品質かつ効率的なストリーミング3D再構成を実現し,大規模シーンのモデリングを可能とする。
    • PLANINGは,明示的な幾何学的プリミティブとニューラルガウスを疎結合させ,形状と外観を分離してモデル化する。
    • この分離により,オンライン初期化と最適化が可能となり,構造的な冗長性を大幅に削減した安定したストリーミング再構成を実現する。
    • 実験結果から,PLANINGは既存手法と比較して,再構成品質と速度の両方で優れていることが示された。

    Link: https://arxiv.org/abs/2601.22046

  • MetricAnything:ノイズの多い異種ソースによるメトリック深度事前学習のスケール拡大 [cs.CL, cs.CL, eess.SY, cs.SY, cs.CV, cs.AI]目的:メトリック深度推定のためのスケーラブルな事前学習フレームワーク
    • 近年,大規模モデルが画像認識の進歩を牽引。メトリック深度推定にも同様の拡張が期待される。
    • 異種センサーノイズやカメラ依存バイアス,ノイズのある3Dデータにおけるメトリックの曖昧さが課題となる。
    • 様々な3Dソースからメトリック深度を学習し,スケーラビリティと汎化性能を向上させる。
    • 約2000万ペアの画像と深度データを用いて,メトリック深度推定において明確なスケール拡大傾向を初めて示した。
    • 事前学習モデルは,深度補完,超解像度,レーダー-カメラ融合などのプロンプト駆動タスクで優れた性能を発揮した。
    • 蒸留されたプロンプトフリーの生徒モデルは,単眼深度推定や3D再構成などのタスクで最先端の結果を達成した。

    Link: https://arxiv.org/abs/2601.22054

  • 識別器駆動型拡散モデルによる非教師あり分解と再結合 [cs.CL, cs.CV, cs.AI]目的:複雑なデータの因子表現の分解と再結合
    • データ理解の深化と新たなサンプル生成への応用が期待される分野である。
    • 因子レベルの教師なし学習では,有用な因子の発見と高品質な再結合が課題となる。
    • 識別器を用いた敵対的学習により,物理的・意味的な整合性を高めた再結合を目指す。
    • CelebA-HQ,Virtual KITTI,CLEVR,Falcor3Dにおいて,FIDスコアと disentanglement 指標が改善された。
    • ロボット動画軌跡において,学習された行動要素の再結合による多様なシーケンス生成に成功した。
    • LIBEROベンチマークにおいて,探索空間のカバー率を大幅に向上させる結果が得られた。

    Link: https://arxiv.org/abs/2601.22057

  • Vision-DeepResearch:マルチモーダル大規模言語モデルにおける深層調査能力の促進 [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおける深層調査能力の向上
    • 画像認識技術は,様々な分野で応用が拡大しており,その重要性は増している。
    • 既存手法では,現実世界のノイズに強くなく,複雑な質問に答えるための深層的な推論と広範な検索が困難である。
    • 現実世界のノイズ下で,多様な情報源から証拠を集約し,複雑な質問に答える能力を向上させる。
    • Vision-DeepResearchは,マルチターン,マルチエンティティ,マルチスケールの視覚的・テキスト検索を行う新たなパラダイムを提案する。
    • この手法は,数十回の推論ステップと数百回のエンジンとのインタラクションを可能にし,深層調査能力を言語モデルに組み込む。
    • 既存の深層調査モデルや,GPT-5,Gemini-2.5-pro,Claude-4-Sonnetなどの強力な基盤モデルを上回る性能を示す。

    Link: https://arxiv.org/abs/2601.22060

  • BLO-Inst:YOLOとSAMの双層最適化に基づくアラインメントによるロバストなインスタンスセグメンテーション [cs.CV]目的:YOLOとSAMのアラインメントによるインスタンスセグメンテーションのロバスト性向上
    • 画像認識技術は,自動運転や医療診断など,様々な分野で不可欠であり,その精度向上が求められている。
    • SAMはゼロショット能力を持つが,手動プロンプトに依存するため,完全自動化が課題となっている。
    • 検出器とSAM間の目的の不一致,およびアラインメントの過学習問題を双層最適化で解決する。
    • BLO-Instは,検出とセグメンテーションの目的を双層最適化によってアラインメントする統一フレームワークである。
    • 検出器は,セグメンテーションの精度を最大化する境界ボックスを生成するように最適化される。
    • 一般およびバイオメディカルドメインにおいて,既存手法を上回る優れた性能が示された。

    Link: https://arxiv.org/abs/2601.22061

  • RefAny3D:3Dアセット参照型拡散モデルによる画像生成 [cs.CV]目的:3Dアセットを用いた画像生成のための拡散モデル
    • 画像生成技術は,エンターテイメントからデザインまで幅広い分野で重要性が増している。
    • 既存手法は単一画像のみを参考にするため,3Dアセットの活用が制限されていた。
    • 3Dアセットを参考に,画像と3D情報を整合性の取れた形で生成することを目指す。
    • 提案手法は,RGB画像と点群データを用いて3Dアセットと生成画像を空間的に整合させる。
    • これにより,与えられた3Dアセットに一致する画像を生成することが可能となった。
    • 拡散モデルと3Dコンテンツ制作の融合に新たな可能性を開く。

    Link: https://arxiv.org/abs/2601.22094

  • SINA:人工知能を用いた回路図画像からのネットリスト生成器 [cs.CV, cs.AI, cs.SY, eess.SY]目的:回路図画像からのネットリスト生成
    • 電子回路設計において,回路図は不可欠なものであり,自動化は効率化に繋がる。
    • 既存手法では,部品認識と配線推論の精度が十分ではなく,自動化の妨げとなっている。
    • 高精度な部品認識と配線推論により,回路図の自動ネットリスト化を実現する。
    • SINAは,深層学習,CCL,OCR,VLMを統合した回路図画像からネットリストを自動生成する。
    • 実験結果から,SINAは96.47%という高いネットリスト生成精度を達成した。
    • これは既存の最先端手法と比較して2.72倍の精度向上となる。

    Link: https://arxiv.org/abs/2601.22114

  • 拡散モデルによる創造的な画像生成 [cs.CL, cs.DC, cs.CV]目的:拡散モデルを用いた創造的な画像生成のための新しいフレームワーク
    • 画像生成技術は,創造性の限界を押し広げ,新たな視覚的表現を可能にする重要な分野である。
    • 既存手法では,概念のブレンドやサブカテゴリの排除に依存しており,創造性の度合いを制御するのが難しい。
    • CLIP埋め込み空間における画像の存在確率に基づき,低確率領域へ生成を誘導することで,独創的な画像を生成する。
    • 本研究では,拡散モデルを用いて創造性を高めるための新しい手法を提案し,その有効性を実験的に示した。
    • 提案手法は,視覚的品質を損なうことなく,独創的で視覚的に魅力的な画像を生成できることを実証した。
    • 本研究は,生成モデルにおける創造性の概念に新たな視点を提供し,視覚コンテンツ合成の革新を促進する。

    Link: https://arxiv.org/abs/2601.22125

  • 拡散Transformerを用いた音声駆動型動画生成・操作:会話動画編集の新たな手法 [cs.CV, cs.GR, cs.LG, cs.MM]目的:会話動画の音声に基づいた編集手法
    • 動画生成技術の発展は,エンターテインメントから教育まで幅広い分野で活用が期待されている。
    • 既存の動画編集技術では,台本の修正時に自然な動きや口の動きの同期を維持することが困難である。
    • 本研究は,動画の内容を音声に基づいて正確に編集し,既存の動画編集の課題を解決することを目指す。
    • EditYourselfは,DiTを基盤としたフレームワークであり,会話動画の台本に基づいた編集を可能にする。
    • 本手法は,既存の動画に新たなセリフの追加,削除,時間調整をシームレスに行い,リアルな口の動きと自然な動画の流れを実現する。
    • 動画編集の専門家にとって有用なツールとなる可能性があり,動画制作の現場での応用が期待される。

    Link: https://arxiv.org/abs/2601.22127

  • 膵癌の早期及び予備的検出におけるコンピューテッドトモグラフィーの活用 [cs.CV]目的:膵癌の早期発見
    • 膵癌は致死率が高く,早期発見が重要である。
    • 従来のCT検査では見落としが発生しやすいという問題がある。
    • AIを活用し,見落としを減らし,早期発見を支援することを目的とする。
    • 開発したAIシステムePAIは,内部テストでAUC 0.939-0.999,感度95.3%,特異度98.7%を達成した。
    • 外部テストではAUC 0.918-0.945,感度91.5%,特異度88.0%を示し,2mm程度の微小膵癌の検出と局在化が可能であった。
    • 臨床診断前のCT画像において,放射線科医が見落としていた膵癌を検出することができ,平均347日前から検出できた。

    Link: https://arxiv.org/abs/2601.22134

  • 物理に基づいた拡散によるフルイメージのリライティング [cs.CV]目的:フルイメージのリライティング手法
    • 写真編集やCGにおいて,現実的な照明効果は不可欠である。高品質な画像生成への需要が高い。
    • 大規模なペアデータ収集の困難さ,物理的な整合性の維持,データ駆動型事前知識の汎化性の限界が課題である。
    • 物理に基づいた拡散モデルを用いて,現実世界への汎化性能を高めたリライティング手法を開発すること。
    • 提案手法π-Lightは,バッチ対応アテンションと物理ガイド付きニューラルレンダリングにより,物理的に妥当な光の伝播を実現した。
    • 物理に基づいた損失関数を用いることで,学習ダイナミクスを物理的に意味のある状態に正則化し,汎化性能を向上させた。
    • 様々な素材やシーンにおいて,より自然なスペキュラハイライトと拡散反射を合成し,既存手法を上回る結果が得られた。

    Link: https://arxiv.org/abs/2601.22135

  • 宝くじのルーティング:異質データのための適応的サブネットワーク [cs.AI, cs.CV, cs.LG]目的:異質データに対する適応的サブネットワークの発見
    • 深層学習モデルの効率化は,計算資源の制約や実用的な展開において重要である。
    • 従来のプルーニング手法は,データの特徴を考慮せず,汎用的なサブネットワークに依存する傾向がある。
    • データ固有の最適なサブネットワークを動的に発見し,モデルの構造をデータに適合させる。
    • 提案手法RTLは,多様なデータセットおよびタスクにおいて,単一モデルや複数モデルと比較して,精度と再現率で一貫して良好な性能を示す。
    • RTLは,独立したモデルと比較して,最大10倍少ないパラメータ数で同等の性能を達成し,意味的に整合性のあるサブネットワークを形成する。
    • サブネットワークの崩壊現象を特定し,ラベルを用いない過剰な疎性化の診断を可能にする類似度指標を導入した。

    Link: https://arxiv.org/abs/2601.22141

  • JUST-DUB-IT:結合オーディオ・ビジュアル拡散による動画ダビング [cs.GR, cs.CV]目的:動画ダビングのための手法
    • 動画と音声を同時に扱うモデルは,多様なマルチモーダル生成・編集に応用可能である。
    • 既存の動画ダビング技術は複雑な処理パイプラインに依存し,実環境での利用が困難である。
    • 基礎モデルを活用し,軽量なLoRAで動画ダビングを実現し,実用性を高める。
    • 提案手法は,高品質な動画ダビングを実現し,既存手法よりも視覚的忠実度と口の動きの同期性が向上した。
    • 同一話者の多言語動画を生成する技術を用いることで,話者IDと口の動きの同期を維持する。
    • 複雑な動きや現実世界の動的な状況においても堅牢なダビングが可能である。

    Link: https://arxiv.org/abs/2601.22143

  • VLMは知覚しているのか,それとも想起しているのか?古典的な視覚錯覚を用いた視覚知覚と記憶の探求 [cs.CV]目的:視覚錯覚を利用したフレームワークによる,大規模ビジョン言語モデルの視覚知覚と言語駆動型想起の解明
    • 視覚言語モデルの能力評価は,AIの信頼性と安全性にとって重要である。その判断メカニズムを理解する必要がある。
    • 既存モデルは視覚的変化に頑健でない場合があり,単純なパターンを記憶しているだけで,真に知覚していない可能性がある。
    • 本研究は,視覚的刺激の微調整と対照実験により,モデルの知覚と想起のどちらに依存しているかを特定することを試みる。
    • VI-Probeという制御可能な視覚錯覚フレームワークを開発し,視覚的知覚と言語駆動型想起を分離した。
    • モデルの応答安定性と感度を定量化する指標(Polarity-Flip Consistency等)を導入し,錯覚に対する反応を詳細に分析した。
    • GPT-5は記憶による上書き,Claude-Opus-4.1は知覚と記憶の競合,Qwenは視覚処理の限界を示すなど,モデルによって異なる原因が示唆された。

    Link: https://arxiv.org/abs/2601.22150

  • DynamicVLA:動的オブジェクト操作のためのビジョン-言語-アクションモデル [cs.RO, cs.CV]目的:動的オブジェクト操作のためのビジョン-言語-アクションモデル
    • ロボット工学において,人間のように動的な環境で物体を操作することは長年の課題である。
    • 既存のVLAモデルは,静的な環境では優れているものの,動的な状況への対応が困難である。
    • 本研究は,高速な知覚と制御,時間的推論,適応を可能にするDynamicVLAを提案する。
    • DynamicVLAは,空間効率の良いコンパクトなVLAモデルと連続推論,潜在認識アクションストリーミングを用いる。
    • 動的オブジェクト操作のためのベンチマークDOMを構築し,20万エピソードの合成データと2千エピソードの現実世界データを収集した。
    • 実験の結果,DynamicVLAは応答速度,知覚能力,汎化性能において顕著な改善を示した。

    Link: https://arxiv.org/abs/2601.22153

  • UEval:統一されたマルチモーダル生成のベンチマーク [cs.CV, cs.CL]目的:統一されたマルチモーダル生成モデルの評価
    • 画像とテキストの両方を生成するAIの性能評価が不可欠である。
    • 既存の評価手法では,複雑なマルチモーダル生成の質を適切に測れない。
    • より詳細かつ客観的な評価基準を用いたベンチマークを構築し,モデルの改善を促す。
    • UEvalは,画像とテキストの両方を必要とする1,000件の専門家が作成した質問で構成される。
    • GPT-5-Thinkingのスコアは100点満点中66.4であり,最良のオープンソースモデルは49.1に留まっている。
    • 推論能力を持つモデルは,持たないモデルよりも優れた性能を示し,推論トレースの転移が性能差を縮小する。

    Link: https://arxiv.org/abs/2601.22155

  • ピクセル平均フローによるワンステップ潜在変数フリー画像生成 [cs.CV]目的:ワンステップ潜在変数フリー画像生成のための手法
    • 画像生成モデルは,現実世界を模倣するAI開発において不可欠であり,その品質向上は重要な課題である。
    • 従来の拡散モデルやフローベースモデルは,多段階サンプリングや潜在空間の使用が必要で,計算コストが高いという問題がある。
    • 潜在変数を使用せず,ワンステップで高品質な画像を生成する手法を確立し,計算効率を向上させる。
    • 提案手法pMFは,ImageNet 256x256解像度でFID 2.22,512x512解像度でFID 2.48を達成し,優れた性能を示した。
    • ネットワークの出力空間と損失空間を分離し,低次元画像多様体上での予測と平均フローを用いた損失定義により,効率的な画像生成を実現した。
    • 本研究は,拡散/フローベース生成モデルの発展に貢献すると期待される。

    Link: https://arxiv.org/abs/2601.22158

  • 低解像度FTIRスペクトルのノイズ除去とベースライン補正:深層学習モデルと従来の信号処理のベンチマーク [eess.IV, cs.AI, cs.CV, cs.LG, eess.SP]目的:低解像度FTIRスペクトルのノイズ除去とベースライン補正手法の性能評価
    • FTIRイメージングは,臨床診断において迅速性が求められるが,高品質なデータ取得には時間を要する。
    • ノイズやドリフトの除去には課題があり,既存手法ではスペクトル情報の誤りや汎化性能の低さが問題となる。
    • 深層学習と物理情報に基づく新しいアーキテクチャで,よりロバストなノイズ除去とベースライン補正を目指す。
    • 提案手法であるカスケードUnetは,原データと比較してRMSEを51.3%削減し,従来の深層学習モデルや信号処理手法を上回った。
    • ピークを考慮した評価では,カスケードUnetは既存の深層学習モデルで見られるスペクトル幻影を解消し,ピーク強度をより忠実に再現した。
    • 本研究は,診断レベルのFTIRイメージングを32倍の速度で実現可能となる,堅牢なソリューションを提供することを示した。

    Link: https://arxiv.org/abs/2601.20905

  • 見えなくとも未知ではない:データセット秘匿による音声品質評価モデルの堅牢な評価 [eess.AS, cs.SD]目的:音声品質評価モデルの評価手順および解釈
    • 音声品質評価は,音声処理技術の性能を測る上で不可欠である。
    • 既存の評価方法では,実環境での性能を正確に予測できない場合がある。
    • データセット秘匿により,モデルの汎化性能と限界を明らかにすること。
    • データセット秘匿(DSC)は,研究結果と実用要件のギャップを定量化し,モデルの挙動とデータセットの特徴を理解するのに役立つ。
    • 複数のデータセットで学習する際に,AlignNetのデータセットアライナーを使用することで,データセットの影響を軽減できることが示された。
    • Wav2Vec2.0ベースのモデルにデータセットアライナーを追加することで,未知のデータに対する音声品質推定能力が大幅に向上することが確認された。

    Link: https://arxiv.org/abs/2601.21110

  • 空間汎化二乗コヒーレンスに基づくDNNを用いたオンライン音源数推定 [eess.AS, cs.SD]目的:音源数のオンライン推定
    • 音源定位,分離,多音響スペクトル強調など,音響信号処理の重要なパラメータである。
    • 空間的に白色な雑音環境下では,音源数変化の検出が困難である。
    • 音源数変化を検出し,オンラインで音源数を推定する手法を提案する。
    • 提案手法は,空間コヒーレンスを定量化する汎化二乗コヒーレンスを用いることで,音源数変化を検出する。
    • DNNを用いてフレームごとの音源数変化を検出し,オンライン音源数推定を実現した。
    • シミュレーション結果から,残響環境下での効果が確認された。

    Link: https://arxiv.org/abs/2601.21114

  • ロバストな構音障害者音声認識に向けて:WERを超えたLLMエージェントによるASR後処理補正 [eess.AS, cs.SD]目的:構音障害者音声のASR後の補正
    • 音声認識技術は,コミュニケーション支援や医療分野で重要であり,その精度向上は社会実装に不可欠である。
    • 従来の音声認識の評価指標であるWERは,意味内容の正確性を必ずしも反映せず,特に構音障害者音声でその乖離が顕著である。
    • 意味内容の正確性を向上させるための,ASR後の補正技術の開発。
    • 提案手法は,WERを14.51%削減すると共に,MENLIで+7.59pp,Slot Micro F1で+7.66ppの改善を達成した。
    • WERはドメイン変化に敏感である一方,意味指標は下流タスクの性能とより密接に関連していることが示された。
    • 大規模な構音障害者音声補正ベンチマークSAP-Hypo5を公開し,再現性と今後の研究を促進する。

    Link: https://arxiv.org/abs/2601.21347

  • SemanticAudio:意味空間における音声生成と編集 [eess.AS, cs.SD]目的:意味空間における音声生成と編集のフレームワーク
    • 音声生成技術は創作活動を支援する重要なツールである。テキストから音声を生成する技術の発展が求められている。
    • 既存モデルは音響潜在空間で直接処理するため,生成された音声とテキスト記述の整合性が不十分な場合がある。
    • 意味空間で音声生成・編集を行うことで,テキストと音声のより良い整合性を実現することを目指す。
    • SemanticAudioは,音響的な詳細とは異なる高レベルな意味空間で音声生成と編集を行う新しいフレームワークである。
    • Semantic Plannerが意味的なレイアウトを生成し,Acoustic Synthesizerが高忠実度の音響潜在変数を生成する,二段階のFlow Matchingアーキテクチャを採用している。
    • 学習を必要としないテキスト誘導編集機構により,再学習なしで一般的な音声の属性レベルの変更が可能となった。

    Link: https://arxiv.org/abs/2601.21402

  • 表現正則化畳み込みオーディオTransformerによるオーディオ理解 [eess.AS, cs.AI, cs.SD]目的:オーディオ理解のための新しいフレームワーク
    • 音声データは多様な情報を含み,様々な応用分野で重要性が高まっている。
    • 既存手法は単一の粒度で処理するため,複雑な音声信号の構造を捉えきれない。
    • 階層的な特徴表現を獲得し,学習効率を向上させることで,オーディオ理解の精度を高める。
    • 提案手法CATは,多重解像度ブロックにより,様々な粒度の音声特徴を捉える。
    • 表現正則化により,外部エンコーダからの高品質な意味表現に学習を誘導し,学習効率を向上。
    • AudioSet 20kデータセットで,既存手法より5倍の速さで収束し,競争力のある性能を達成。

    Link: https://arxiv.org/abs/2601.21612

  • 自己教師あり物理モデルに基づく劣化モデリングによる超音波画像強調 [eess.IV, cs.CV, stat.ML]目的:超音波画像の強調手法の開発
    • 超音波検査は医療現場で広く利用されているが,画質が低い場合がある。
    • 従来の画像強調手法は,鮮明な画像データが必要で,実際の臨床現場では利用が難しい。
    • 物理モデルに基づく劣化モデリングにより,鮮明な画像データなしでも超音波画像強調を可能にする。
    • 提案手法は,Gaussianノイズやスぺックルノイズに対して,既存手法よりも高いPSNR/SSIM値を達成した。
    • 特にノイズが強い条件下では,性能向上が顕著であった。
    • 超音波画像の前処理として適用することで,胎児頭部や恥骨結合のセグメンテーション精度が向上した。

    Link: https://arxiv.org/abs/2601.21856

  • TidyVoice 2026 チャレンジ評価計画 [eess.AS, cs.SD]目的:言語不一致下における話者認証システムの性能低下の克服
    • 話者認証技術は,セキュリティやユーザ認証において不可欠であり,その重要性は増している。
    • 既存の研究は英語データに偏っており,他の言語への対応が課題となっている。
    • 多言語環境下での話者認証システムの性能向上を目指す。
    • 本チャレンジは,Mozilla Common Voiceを基にした多言語音声データセットTidyVoiceXを活用し,言語間の不一致の影響を分離して評価する。
    • 参加者は,言語不一致に強い話者認証システムを開発し,EER(等価エラー率)を用いて性能を評価する。
    • 標準化されたデータと評価プロトコルを提供することで,より公平で包括的な話者認識技術の研究を促進する。

    Link: https://arxiv.org/abs/2601.21960

  • 災害後の資源再分配と協力進化:二層ネットワーク進化ゲームに基づく研究 [physics.soc-ph, cs.GT]目的:災害後の資源再分配と協力進化のメカニズム
    • 大規模災害発生時,資源不足とインフラ機能の麻痺は復旧の大きな阻害要因となる。
    • 避難所と被災者間の効果的な連携はコミュニティのレジリエンス向上に不可欠だが,その協力進化メカニズムは不明確である。
    • 避難所と被災者間の相互作用をモデル化し,協力促進策の効果を定量的に評価する。
    • 適度な公共財の増加や補助金は協力を促進する一方,過剰なインセンティブはフリーライダーを生み出す。
    • 信頼性の高い罰則は,裏切り行為を抑制する効果があることが示された。
    • 資源制約下では,ハブとなる避難所への集中的な罰則が協力を大幅に向上させる。

    Link: https://arxiv.org/abs/2601.22021

  • 後悔最小化学習アルゴリズムの経済学 [econ.TH, cs.GT]目的:後悔最小化学習アルゴリズムの経済学的応用
    • 経済主体をアルゴリズムに置き換える状況下での経済分析が重要である。
    • アルゴリズムによる経済活動の予測が困難であり,新たな経済理論の必要性が高まっている。
    • 後悔最小化学習アルゴリズムの経済学への応用可能性を探求し,実用的な知見を得る。
    • 後悔最小化アルゴリズムは,古典的な合理性概念の代替として,アルゴリズム主体の行動を分析する上で有効である。
    • 操作,統計的推論,アルゴリズム共謀といった新たな研究テーマが,後悔最小化学習アルゴリズムの経済学における応用で注目されている。
    • コンピュータ科学の文献レビューを通じて,後悔最小化アルゴリズムの経済学的研究の基盤を提示している。

    Link: https://arxiv.org/abs/2601.22079

  • 形状を考慮したワールドモデルによる過渡伝熱学習 [math.OC, cs.SY, eess.SY, physics.flu-dyn, cs.CV]目的:過渡的な伝熱現象の学習
    • 工学や物理学のシミュレーションは重要だが,リアルタイムでの計算は困難である。
    • 既存の生成AIは,物理シミュレーションに必要な制御やデータ互換性に課題がある。
    • 形状情報を取り入れたモデルで,より正確な過渡現象の再現を目指す。
    • 本研究で提案するモデルは,複雑な時間的変動と空間相関を再現できた。
    • 未知の形状に対しても,ある程度の汎化性能が確認された。
    • 分布外のサンプルにおいては,空間精度に課題が残ることも示された。

    Link: https://arxiv.org/abs/2601.22086

  • 金融ネットワークにおける動的な債務交換 [cs.DS, cs.CC, cs.GT, q-fin.RM]目的:金融ネットワークにおける債務交換の計算複雑性
    • 金融システムは経済活動の基盤であり,その安定性は社会全体に影響を及ぼす。
    • 金融ネットワークの複雑性により,債務交換の最適化は困難である。
    • 債務交換の計算複雑性を解明し,ネットワークの効率化を目指す。
    • 債務交換の系列において,特定の条件を満たす交換は多項式時間で完了することが示された。
    • 全探索が必要となる場合,問題はPLS完全であることが証明された。
    • 特定の債務交換系列における最適化問題は,近似がNP困難であることが示された。

    Link: https://arxiv.org/abs/2302.11250

  • 効率的4D:単一視点ビデオからの高速動的3Dオブジェクト生成 [cs.CV]目的:単一視点ビデオからの動的3Dオブジェクト生成
    • 3Dオブジェクト生成は,仮想現実やロボティクスなど多様な分野で不可欠な技術である。
    • 4Dラベル付きデータの不足が,単一視点ビデオからの動的3Dオブジェクト生成の課題となっている。
    • 限られた情報からの再構成のロバスト性を高め,高速な動的3Dモデル生成を可能にすること。
    • Efficient4Dは,異なるカメラ視点から高品質で時間的に一貫性のある画像を生成する。
    • 生成された画像を有​​効活用し,4Dガウススプラッティングモデルを通じて4Dコンテンツを直接再構築する。
    • 従来の手法と比較して,10倍の速度向上を実現しつつ,新規視点合成の品質を維持する。

    Link: https://arxiv.org/abs/2401.08742

  • 点群処理のためのソフトマスクトランスフォーマー:スキップアテンションに基づくアップサンプリング [cs.CV]目的:点群処理における性能向上
    • 点群データは,自動運転やロボティクスなど,多様な応用分野で重要な役割を担っている。
    • 既存手法は,タスクレベルの文脈をエンコーディング段階で十分に考慮していない点が課題である。
    • タスクレベル情報をエンコーディング段階に組み込むことで,点群処理の精度向上を目指す。
    • 提案手法SMTransformerは,タスクレベルクエリとキーから生成されるソフトマスクを介して,タスク情報をトランスフォーマーに統合する。
    • スキップアテンションに基づくアップサンプリングブロックは,エンコード層とデコード層間の特徴伝達を促進し,セグメンテーションなどの高レベルタスクを支援する。
    • 共有位置エンコーディング戦略により,ネットワークパラメータと学習時間を削減しつつ,高い精度を維持する。

    Link: https://arxiv.org/abs/2403.14124

  • 臨床現場における深層学習モデルの検証:産科超音波のケーススタディ [cs.HC, cs.CV, eess.IV]目的:医療画像解析における深層学習モデルの臨床現場での実証
    • 医療現場でのAI活用は,診断精度向上や医療効率化に不可欠である。
    • AIモデルの性能は研究レベルでは高いが,実際の臨床環境での検証が不足している。
    • 臨床現場での早期導入とユーザーフィードバックに基づくモデル改善を目指す。
    • 深層学習モデルを産科超音波の標準平面検出に適用し,臨床現場でのリアルタイム評価を実施した。
    • 熟練者・未熟練者双方のユーザーから,モデルが医療従事者にとって潜在的な利益をもたらすことが示唆された。
    • ナビゲーション機能の必要性が重要な改善点として明らかになった。

    Link: https://arxiv.org/abs/2404.00032