arXiv雑要約

画像・音声 - 2025/12/17 公開

  • 物理知識に基づいた深層学習によるヒートポンプのストレス検出:When2Heatデータセットを用いた包括的分析 [cs.HC, cs.CY, cs.HC, cs.CY, cs.RO, cs.HC, cs.CY, cs.LG, cs.CV, cs.NE]目的:ヒートポンプのストレス分類
    • 現代の省エネルギー建築において,ヒートポンプは重要な役割を担うため,その健全性維持が不可欠である。
    • 複雑な熱力学的相互作用と,実世界データの不足により,ヒートポンプの稼働状況のストレス検出は困難である。
    • 本研究は,ヒートポンプのストレスをより正確に検出できる,物理知識に基づいた深層学習モデルを開発することを目指す。
    • 提案手法は,When2Heatデータセットを用いて78.1%のテスト精度と78.5%の検証精度を達成した。
    • この精度は,浅いニューラルネットワークと比較して5.0%,限定的な特徴量セットと比較して4.0%,単一の正則化戦略と比較して2.0%向上している。
    • 物理知識に基づいた特徴量選択,現実的なクラス分布のための可変閾値,そして国ごとのエネルギーパターン分析の効果が検証された。

    Link: https://arxiv.org/abs/2512.13696

  • 風力ダイナミクスの超解像のためのマルチモーダル条件付けにおける複合Classifier-Free Guidance [cs.LG, cs.AI, cs.CV]目的:風力ダイナミクス超解像における高精度なデータ再構成
    • 気象予測や風力タービン配置最適化など,高解像度かつ高精度な風力データは不可欠である。
    • 従来の再構成手法は,コストと精度でトレードオフの関係にあり,両立が困難であった。
    • マルチモーダル条件付けにおけるClassifier-Free Guidanceの拡張により,この問題を解決する。
    • 提案手法である複合Classifier-Free Guidance (CCFG) は,従来のCFGよりも高忠実度の結果を出力する。
    • WindDMは,産業規模の風力ダイナミクス再構成用にCCFGを活用した拡散モデルである。
    • WindDMは,深層学習モデルの中で最先端の再構成品質を達成し,古典的手法に比べて最大1000分の1のコストで済む。

    Link: https://arxiv.org/abs/2512.13729

  • 複雑な数式認識:ベンチマーク,大規模データセット,強力なベースライン [cs.CV, cs.AI]目的:複雑な数式認識のベンチマーク構築と,大規模データセットによるモデル性能向上
    • 数式認識は,科学技術分野における情報処理の自動化に不可欠な技術である。
    • 既存の数式認識システムは,複雑な数式や複数行にわたる数式の認識精度が十分ではない。
    • 複雑な数式の認識精度向上に向けた,ベンチマークデータセットとモデルの提案。
    • CMER-Benchベンチマークを構築し,既存の数式認識モデルと汎用マルチモーダル大規模言語モデルの性能を評価した。
    • 大規模データセットMER-17MとCMER-3Mを提案し,複雑な数式認識に焦点を当てた学習データの拡充を図った。
    • 数式の階層構造と空間配置を明示的にモデル化するStructured Mathematical Languageを導入し,CMERNetモデルを開発,性能を向上させた。

    Link: https://arxiv.org/abs/2512.13731

  • AIGC支援画像制作における人間とAIの協調メカニズムに関する研究:特別報道への応用 [cs.CV, cs.AI]目的:AIGC支援画像制作における人間とAIの協調メカニズム
    • 報道現場における画像制作の効率化が求められており,AIGCはその可能性を秘めている。
    • AIGCの生成する画像には,誤情報,信憑性,意味の忠実性といった課題が存在する。
    • AIGCの透明性を高め,報道倫理に合致した画像制作を可能にすることを目指す。
    • 異なるプラットフォームにおけるプロンプトの標準化実験により,学習データやフィルタリングの影響で意味のずれや文化的な差異が生じることが示された。
    • 人間が介入するモジュール型パイプラインを構築し,画像編集における精度,意味整合性,スタイル調整を可能にした。
    • キャラクター同一性安定性(CIS),文化的表現の正確性(CEA),ユーザーと社会への適切性(U-PA)の評価指標を提案した。

    Link: https://arxiv.org/abs/2512.13739

  • DL$^3$M:深層学習と大規模言語モデルによる専門家レベルの医療推論のための画像-言語フレームワーク [cs.CV, cs.AI]目的:深層学習と大規模言語モデルを用いた医療推論フレームワークの開発
    • 医療現場における診断支援の必要性が高まっており,AI技術の応用が期待されている。
    • 既存の画像分類モデルは判断根拠の説明が不十分であり,言語モデルは視覚的推論に課題がある。
    • 画像分類と構造化された臨床推論を結びつけ,より信頼性の高い医療AIシステムを構築すること。
    • 内視鏡画像分類において,MobileCoAtNetが8種類の胃関連クラスで高い精度を達成した。
    • 強力な画像分類が,大規模言語モデルによる説明の質を向上させることを示した。
    • 現時点では大規模言語モデルの推論は不安定であり,ハイステークスな医療判断には不向きである。

    Link: https://arxiv.org/abs/2512.13742

  • ノイズを考慮したオーディオディープフェイク検出:調査,SNRベンチマーク,および実践的レシピ [cs.SD, cs.AI]目的:オーディオディープフェイク検出におけるロバスト性の評価
    • 音声技術の発展に伴い,悪意のある音声改ざんのリスクが増大しているため。
    • 現実的な環境下では,ノイズや残響の影響でディープフェイク検出の性能が低下する。
    • SNRを制御したベンチマークを用いて,ノイズ環境における検出性能を定量的に評価する。
    • 既存のオーディオディープフェイク検出モデルのロバスト性を調査し,SNR変化に対する性能低下を定量化した。
    • MS-SNSDノイズとASVspoof 2021データセットを組み合わせた再現可能な評価フレームワークを構築した。
    • WavLM,Wav2Vec2,MMSなどの事前学習済みエンコーダのファインチューニングにより,EERを10-15%改善した。

    Link: https://arxiv.org/abs/2512.13744

  • なぜテキストが優位なのか:ビジョンが多角的医療意思決定を損なう可能性 [cs.CV, cs.AI]目的:多角的医療意思決定におけるテキストの優位性
    • 医療分野におけるAI活用は,診断精度向上や効率化に不可欠である。
    • 既存の多角的LLMは,医療意思決定タスクにおいて十分な性能を発揮できていない。
    • 多角的LLMの視覚的理解能力を向上させ,医療意思決定の精度を高めることを目指す。
    • テキストのみの推論が,視覚情報のみ,または視覚情報とテキストの組み合わせよりも一貫して高い性能を示した。
    • 多角的入力がテキストのみの場合よりもパフォーマンスが低下することが示された。
    • 理由付きの事例を用いたインコンテキスト学習や,視覚キャプションを用いたテキストのみの推論などが有効であることが示唆された。

    Link: https://arxiv.org/abs/2512.13747

  • STAR:統一されたマルチモーダル学習のためのスタック型自己回帰スキーム [cs.CV, cs.AI]目的:マルチモーダル理解と生成の統一的目標達成
    • 汎用人工知能の実現において,マルチモーダル大規模言語モデルが重要な役割を担う。
    • マルチモーダル学習における最適化の競合と性能のトレードオフが課題となっている。
    • 既存の理解能力を維持しつつ,生成性能を向上させることを目指す。
    • STARは,理解,生成,編集の段階にマルチモーダル学習を分解するスタック型自己回帰スキームである。
    • 基礎となる自己回帰モデルのパラメータを固定し,等価な自己回帰モジュールを段階的にスタックすることで,タスク間の干渉を防ぎ,モデルの能力を拡張する。
    • GenEval,DPG-Bench,ImgEditにおいて最先端の性能を達成し,統一されたマルチモーダル学習の有効性を示した。

    Link: https://arxiv.org/abs/2512.13752

  • 時間情報を考慮したUNetと超解像ディープ残差ネットワークによる空間ダウンスケーリング [cs.CV, cs.LG, eess.IV, stat.ML]目的:大気汚染物質の空間ダウンスケーリング手法
    • 局所環境分析や意思決定において,高解像度データが不可欠である。
    • 衛星データは粗い空間解像度でしか利用できず,局所的な分析に限界がある。
    • 衛星データの空間解像度を高め,局所分析への適用範囲を拡大すること。
    • 時間情報を考慮した拡張により,ダウンスケーリングの性能と収束速度が大幅に向上した。
    • 計算量の増加はわずかであるにも関わらず,高い効果が認められた。
    • イタリアにおけるオゾンダウンスケーリングのケーススタディで有効性が確認された。

    Link: https://arxiv.org/abs/2512.13753

  • 教師あり対照学習と自己学習による半教師ありマルチビューグラフ畳み込みネットワークの強化 [cs.LG, cs.CV]目的:マルチビューグラフ畳み込みネットワークにおける性能向上
    • 複雑なマルチビューデータモデリングにおいて,グラフ構造に着目した手法は有効性が示されている。
    • 既存手法では,ビュー間の補完的な情報を十分に活用できず,表現能力が限定される場合がある。
    • 異なるビュー間の関連性を捉え,潜在空間での特徴表現を改善することで性能向上を目指す。
    • 提案手法MV-SupGCNは,交差エントロピー損失と教師あり対照損失を組み合わせることで,識別的な特徴獲得と汎化性能向上を実現した。
    • KNNベースと半教師ありグラフ構築を組み合わせることで,グラフ構造のロバスト性を高め,汎化誤差を低減した。
    • 対照学習と擬似ラベルを用いた枠組みにより,ラベルなしデータの活用とビュー間の意味的整合性を高めた。

    Link: https://arxiv.org/abs/2512.13770

  • ネクセル:疎なジオメトリを用いたリアルタイム新規視点合成のためのニューラルテクスチャサ―フェル [cs.CV]目的:新規視点合成のためのコンパクトな表現
    • 仮想現実や拡張現実等の応用において,高品質な3D映像のリアルタイム合成は重要である。
    • ガウススプラッティングは高品質だが,複雑なシーンでは多数のプリミティブを必要とし,メモリ消費が大きい。
    • ジオメトリと外観を分離することで,少ないプリミティブで高品質な視点合成を実現すること。
    • 提案手法は,屋外シーンでガウススプラッティングと同等の品質を,9.7分の1のプリミティブ数,5.5分の1のメモリ量で達成した。
    • 屋内シーンにおいては,それぞれ31分の1,3.7分の1のプリミティブ数とメモリ量で同等の品質を実現した。
    • 既存のテクスチャプリミティブと比較して,2倍のレンダリング速度で画質も向上している。

    Link: https://arxiv.org/abs/2512.13796

  • EEG-D3:深層学習モデルの隠れた過学習問題に対する解決策 [cs.LG, cs.AI, cs.CV, cs.HC]目的:深層学習モデルにおける隠れた過学習問題の解決
    • 脳波(EEG)信号解析は,脳機能解明やブレイン・マシン・インターフェース(BMI)等の応用において重要である。
    • BMIベンチマークでの高い性能が,実際の応用場面で再現されないという乖離が存在する。
    • タスクに関連する人工物による隠れた過学習を防ぎ,汎化性能の高いモデルを開発すること。
    • 提案手法「EEG-D3」は,弱教師あり学習を用いて脳波活動の潜在要素を分離することに成功した。
    • 分離された潜在要素を用いて下流の分類器を学習することで,隠れた過学習を抑制し,汎化性能を向上させた。
    • 線形分離可能な潜在空間の活用により,少ないラベルデータでの睡眠段階分類においても高い性能を示した。

    Link: https://arxiv.org/abs/2512.13806

  • VajraV1 - YOLOファミリーで最も高精度なリアルタイム物体検出器 [cs.CV, cs.AI]目的:リアルタイム物体検出の精度向上
    • 自動運転や監視システムなど,リアルタイムな画像処理技術の重要性が高まっている。
    • 既存のリアルタイム物体検出器は,精度と処理速度のバランスに課題があった。
    • YOLOアーキテクチャの改良により,高精度かつ高速な物体検出を実現すること。
    • VajraV1は,COCO検証セットにおいて,YOLOv12-NやYOLOv13-Nを上回るmAPを達成した。
    • VajraV1-NanoからXlargeまで,全てのモデルにおいて既存のYOLOモデルを精度で上回った。
    • 特にVajraV1-Xlargeは,既存のリアルタイム物体検出器全てを上回る最高のmAPを達成した。

    Link: https://arxiv.org/abs/2512.13834

  • MoLingo:テキストからモーション生成のための動作・言語対応 [cs.CV]目的:テキストからリアルな人物モーションを生成するモデル
    • 自然な人物モーション生成は,バーチャルリアリティやゲームなど様々な分野で重要である。
    • 既存手法では,モーションの多様性やテキストとの整合性の確保が課題となっていた。
    • 意味的に整合性の高い潜在空間を構築し,テキスト条件付けを最適化することで,モーション生成の質を向上させる。
    • 提案手法MoLingoは,連続的な潜在空間でのノイズ除去によって,リアルで自然な人物モーションを生成する。
    • フレームレベルのテキストラベルを用いて訓練された意味的に整合性の高いモーションエンコーダが,拡散効率を高める。
    • マルチトークンクロスアテンションによるテキスト条件付けが,モーションのリアリズムとテキストとの整合性を向上させる。

    Link: https://arxiv.org/abs/2512.13840

  • 医療画像におけるVision Language Modelの効率的なファインチューニングのための望遠鏡型アダプター [cs.CV, cs.AI]目的:医療画像におけるVision Language Segmentation Modelの適応
    • 医療画像診断の精度向上は,早期発見や適切な治療に不可欠であり,その重要性は高い。
    • 従来のファインチューニングは計算コストが高く,医療現場での実用化が課題となっていた。
    • Transformer層の深さに応じたアダプター容量の最適化により,効率的なファインチューニングを実現する。
    • 提案手法「Telescopic Adapters」は,従来のファインチューニングと比較して,必要な計算量を大幅に削減できる。
    • 5つの医療画像データセットにおいて,ポリープセグメンテーション,皮膚病変検出,乳房超音波イメージングなどのタスクで優れた性能を示した。
    • 深層のTransformer層ほど高い適応能力が必要であることが実験的に示され,その有効性が確認された。

    Link: https://arxiv.org/abs/2512.13855

  • 拡散モデルを用いたUAVベースの人体検出のための粗々から細かい階層的アライメント [cs.CV]目的:UAVベースの人体検出におけるドメインギャップの縮小
    • UAV画像を用いた人体検出は,監視や救助活動等において重要であり,その精度向上は不可欠である。
    • UAVベースの人体検出は,実データのラベル付けコストが高く,学習データが不足しているという課題がある。
    • 本研究は,合成データと実データ間のドメインギャップを縮小し,UAVベースの人体検出の精度向上を目指す。
    • 提案手法であるCFHAは,グローバルスタイル変換,ローカルリファインメント,幻覚除去の3段階で合成データを変換する。
    • 実験の結果,Semantic-Droneベンチマークにおいて,mAP50が最大で+14.1%向上することが示された。
    • グローバルおよびローカル段階が互いに補完し合うことが確認され,階層的なアライメントの重要性が示された。

    Link: https://arxiv.org/abs/2512.13869

  • SAGE:強化学習による長尺ビデオ推論のための賢い全視野エージェントの訓練 [cs.CV]目的:長尺ビデオの推論における全視野エージェントの訓練
    • ビデオ理解は,人間にとって自然な認知能力であり,様々な応用分野で重要である。
    • 既存モデルは,長尺ビデオ全体を処理する必要があり,計算資源を大量に消費する。
    • 本研究は,効率的な全視野ビデオ推論システムの開発を目指す。
    • SAGEは,複数ターンで長尺ビデオの推論を行い,単純な問題は単一ターンで処理するエージェントシステムである。
    • Gemini-2.5-Flashを用いたデータ生成パイプラインと,強化学習による後学習手法を導入した。
    • SAGE-Benchを用いて評価した結果,オープンエンドのビデオ推論タスクで最大6.1%の改善,10分以上のビデオで8.2%の改善が確認された。

    Link: https://arxiv.org/abs/2512.13874

  • Route-DETR:Transformerを用いた物体検出におけるペアワイズクエリルーティング [cs.CV]目的:物体検出におけるクエリ競争の効率化
    • 物体検出は,画像認識の重要な課題であり,自動運転やロボティクスなど幅広い分野に応用される。
    • DETRは簡潔な構造を持つが,複数のクエリが同じ位置に集中し,計算資源の無駄が生じるという課題があった。
    • クエリ間の類似性や信頼度に基づき,競争的クエリと補完的クエリを区別し,効率的なルーティングを実現する。
    • 提案手法Route-DETRは,敵対的クエリ間の注意を抑制し,異なる領域の探索を促進する二重ルーティング機構を導入した。
    • COCOおよびCityscapesデータセットでの実験により,複数のDETRベースラインに対して一貫した性能向上が確認された。
    • ResNet-50ではDINOと比較してmAPが+1.7%向上し,Swin-Lでは57.6%mAPを達成し,既存の最先端モデルを上回った。

    Link: https://arxiv.org/abs/2512.13876

  • 連合学習とノイズ除去正則化によるプライバシー保護乳児泣き声分類 [cs.LG, cs.AI, cs.SD]目的:乳児のニーズ早期評価を支援する乳児泣き声分類の実現
    • 乳児の健康状態把握において,泣き声は重要な指標であり,早期発見・対応に繋がる。
    • 音声データのプライバシー保護,背景雑音への弱さ,環境変化への対応が課題となっていた。
    • プライバシーを保護しつつ,ノイズに強く,効率的な乳児泣き声分類システムの構築を目指す。
    • 提案手法は,Baby ChillantoおよびDonate-a-Cryデータセットにおいて,マクロF1スコア0.938,AUC 0.962,ECE 0.032を達成した。
    • 通信効率の高い連合学習により,クライアントのアップロード量を大幅に削減(約36-42MBから3.3MBへ)。
    • NVIDIA Jetson Nano上でのリアルタイム推論では,1秒スペクトログラムフレームあたり96msの処理速度を実現した。

    Link: https://arxiv.org/abs/2512.13880

  • KLO-Net:MRI画像からの効率的な前立腺腺分割のための動的K-NNアテンションU-NetとCSPエンコーダ [cs.CV, cs.LG]目的:MRI画像からの前立腺腺の効率的な分割
    • 前立腺癌の早期発見と治療計画の精度向上には,正確な前立腺腺の自動分割が不可欠である。
    • 既存の深層学習モデルは計算負荷が高く,臨床現場でのリアルタイム処理が困難な場合がある。
    • 計算効率を向上させつつ,前立腺の解剖学的変動に対応し,高精度な分割を実現すること。
    • 提案手法KLO-Netは,動的K-NNアテンション機構とCSPエンコーダにより,計算負荷を軽減しつつ,前立腺腺の分割精度を向上させる。
    • 公開データセットPROMISE12とPROSTATExを用いた実験により,KLO-Netの計算効率と分割品質の優位性が示された。
    • 動的K-NNアテンションは,各空間位置に応じた注意接続数を適応的に決定することで,モデルの柔軟性を高めている。

    Link: https://arxiv.org/abs/2512.13902

  • ビデオ翻訳のための生成AI:多言語ビデオ会議向けスケーラブルなアーキテクチャ [cs.RO, cs.MM, cs.AI, cs.CL, cs.CV]目的:ビデオ翻訳における生成AIパイプラインのスケーラビリティ向上
    • グローバル化が進む中で,多言語コミュニケーションの重要性が増しており,リアルタイム翻訳技術への需要が高い。
    • 生成AIパイプラインをビデオ翻訳に適用する際,逐次処理による遅延と,多人数参加時の計算量の増加が課題となっていた。
    • 本研究は,ターン制のメカニズムとセグメント処理プロトコルにより,これらの課題を克服し,リアルタイム性を実現する。
    • 提案アーキテクチャは,多人数参加シナリオにおいて計算量を二次から線形に削減し,スケーラビリティを向上させる。
    • 様々なハードウェア構成(RTX 4060,T4,A100)での評価により,現代のハードウェア上でリアルタイムスループット(τ < 1.0)を達成できることを示した。
    • 主観評価実験では,初期処理遅延が許容範囲内であり,スムーズな再生体験と引き換えに受け入れられることが示された。

    Link: https://arxiv.org/abs/2512.13904

  • エッジデバイス向けコンパクトかつ堅牢な音響シーン分類のためのアンサンブル誘導蒸留 [cs.SD]目的:エッジデバイスにおける音響シーン分類のためのコンパクトかつ堅牢なフレームワーク
    • 音響シーン分類は,自動運転やロボティクスなどの様々な応用において重要な役割を担う。
    • エッジデバイスでの利用においては,モデルサイズや計算量の制約が課題となる。
    • 本研究は,アンサンブル蒸留を通じて,限られた計算資源下でも高い性能を発揮するモデルの実現を目指す。
    • 提案手法は,TAU Urban Acoustic Scenes 2022 Mobileベンチマークにおいて最先端の結果を達成した。
    • 教師アンサンブルからの知識蒸留により,単一のコンパクトなモデルでアンサンブルの性能を近似することに成功した。
    • これにより,エッジデバイスにおけるモバイル音響シーン分類の性能と実用性が向上することが示された。

    Link: https://arxiv.org/abs/2512.13905

  • 3Dシーンの外観モデリングのための生成画像モデルからのSVBRDF予測の評価 [cs.NI, cs.CV, cs.GR]目的:3Dシーンの外観モデリングにおけるSVBRDF予測の課題と機会
    • デジタルコンテンツ制作において,現実的な3Dシーンの表現が重要であり,高品質な外観モデリングが不可欠である。
    • 従来のSVBRDF予測は,多視点間の一貫性を保つことが難しく,正確なテクスチャアトラスの生成が課題であった。
    • 生成されたRGB画像を利用することで,より高精度かつ一貫性のあるSVBRDF予測を実現し,効率的な外観モデリングを可能にすること。
    • 生成画像モデルとSVBRDF予測ネットワークを組み合わせることで,3DシーンのSVBRDFマップを迅速に生成できることが示された。
    • 単純なUNetアーキテクチャでも,複雑な設計と同等の性能を発揮することが確認された。
    • 生成されたRGB画像が,写真と比較してSVBRDF推定のための追加情報を提供し得る可能性が示唆された。

    Link: https://arxiv.org/abs/2512.13950

  • アンラーニングからUNBRANDINGへ:商標に配慮したテキストから画像生成のベンチマーク [cs.CV]目的:商標とブランドの特徴のきめ細かい除去
    • テキストから画像生成技術の急速な進歩は,商標コンテンツの無許可複製という懸念を引き起こしている。
    • 既存のブランド検出器はロゴに限定され,抽象的なトレードドレス(形状など)を捉えられない。
    • ロゴだけでなく,構造的なブランドの特徴も除去し,意味的な一貫性を保つことが課題。
    • 新しい評価指標として,Vision Language Models (VLMs) を活用した質問応答フレームワークを導入した。
    • SDXLやFLUXのような高精度モデルほど,ブランド識別子を容易に合成することから,UNBRANDINGの重要性が浮き彫りになった。
    • UNBRANDINGは,従来の技術では対応できない,実用的な課題であることがVLM指標によって確認された。

    Link: https://arxiv.org/abs/2512.13953

  • ロバストな海洋障害物セグメンテーションのための品質駆動・多様性重視のサンプル拡張 [cs.CV]目的:海洋障害物セグメンテーションにおけるロバスト性の向上
    • 海洋環境下での自律航行や海洋資源探査において,正確な障害物検出は不可欠である。
    • 太陽光の反射,霧,波の変化などにより画像品質が低下し,十分な学習データも不足している。
    • 低エントロピーなマスクやプロンプトによる多様性の低い合成サンプル生成の問題を解決する。
    • 提案手法は,推論時にのみ学習データを生成し,拡散モデルの再学習を必要としない。
    • クラスを意識したスタイルバンクと,適応的な焼きなましサンプラーを組み合わせることで,多様性を高める。
    • 実験結果から,提案手法は様々なバックボーンでセグメンテーション性能を向上させ,珍しいクラスの表現力を高めることが示された。

    Link: https://arxiv.org/abs/2512.13970

  • 状態空間脳血管セグメンテーションモデルにおける汎化性能失敗のXAI駆動診断:RSNAとTopCoWデータセット間のドメインシフトに関するケーススタディ [cs.CV]目的:状態空間モデルにおける汎化性能失敗の原因診断
    • 医療画像における深層学習の臨床応用は,ドメインシフトによって大きく阻害される。
    • 外部データセットにおいてモデル性能が著しく低下する問題が存在する。
    • XAIを活用し,脳血管セグメンテーションにおけるドメインシフトの原因を特定する。
    • モデルはソースデータセット(RSNA)で0.8604,ターゲットデータセット(TopCoW)で0.2902と,Diceスコアが大幅に低下した。
    • Seg-XRes-CAM分析により,ターゲットドメインにおいてモデルの注意機構が真の解剖学的特徴から逸脱することが確認された。
    • モデルの注意は正解領域(IoU~0.101)よりも誤予測領域(IoU~0.282)との一致度が高く,見かけ上の相関を学習したと考えられる。

    Link: https://arxiv.org/abs/2512.13977

  • FocalComm:困難事例に配慮したマルチエージェント知覚 [cs.CL, cs.RO, cs.CV]目的:マルチエージェント協調知覚における困難事例への対応
    • 自動運転の安全性向上に不可欠であり,特に歩行者等の弱者保護に重要である。
    • 既存手法は車両検出に偏り,歩行者等の検出精度が低い場合がある。
    • 困難事例に焦点を当てた特徴量交換により,検出漏れを抑制することを目指す。
    • FocalCommは,困難事例に着目した特徴量抽出と動的な重み付けを行うことで,最先端の協調知覚手法を上回る性能を示す。
    • V2X-RealおよびDAIR-V2Xのデータセットにおいて,車両中心型およびインフラ中心型の両方の設定で優位性を示す。
    • 特に,V2X-Realにおける歩行者検出性能が大幅に向上する。

    Link: https://arxiv.org/abs/2512.13982

  • 2D拡散モデルを3D形状補完に再利用する [cs.CV]目的:3D形状の補完
    • 3Dコンピュータビジョン分野における形状認識の重要性が高まっている。
    • 高品質な3Dデータセットの不足と,3D入力と2D潜在空間のギャップが存在する。
    • 限られた3Dデータから高品質な形状補完を実現することを目的とする。
    • 提案手法では,3D形状をコンパクトな2D表現であるShape Atlasを用いて表現する。
    • Shape Atlasにより,事前学習済み2D拡散モデルの能力を最大限に活用し,モダリティの整合性を高める。
    • PCNおよびShapeNet-55データセットにおける実験で,その有効性が確認された。

    Link: https://arxiv.org/abs/2512.13991

  • 音楽感情認識のための専門家注釈データセットと双方向適応フレームワークMemo2496 [cs.SD, cs.AI, cs.MM]目的:音楽感情認識のための高品質な注釈データセットの提供と,楽曲間特徴ドリフトへの対処
    • 音楽感情認識は,人間の感情理解や音楽推薦システム等,多様な応用が期待される重要な研究分野である。
    • 既存のデータセットの規模が小さく,品質が十分でないため,高精度な感情認識モデルの構築が困難である。
    • 専門家による高品質な注釈データセットと,楽曲間特徴ドリフトを抑制する新しいフレームワークを開発し,認識精度を向上させる。
    • 本研究で構築したデータセットMemo2496は,2496曲のインストゥルメンタル音楽に,30名の専門家による連続的な感情ラベルが付与されている。
    • 提案手法DAMERは,Melスペクトログラムとコクログラム間の双方向相互作用,信頼性の高い擬似ラベル生成,および楽曲間特徴ドリフト抑制のためのメカニズムを統合している。
    • Memo2496,1000songs,PMEmoの各データセットにおける実験により,DAMERが最先端の性能を示すことが実証された。

    Link: https://arxiv.org/abs/2512.13998

  • 強度とモノデプスを用いたカメラLiDARアライメント [cs.DM, math.CO, cs.RO, cs.CV]目的:カメラとLiDARデータの正確なアライメント
    • 自動運転やロボット工学において,環境認識の精度向上が不可欠である。
    • 既存手法は,複雑なデータ処理や特徴抽出を必要とし,汎用性に課題がある。
    • シンプルな損失関数に基づき,多様なシーンに対応可能なアライメント手法を確立する。
    • 提案手法CLAIMは,KITTI,Waymo,MIAS-LCECデータセットにおいて,最先端手法を上回る性能を示した。
    • 強度とモノデプスを活用することで,特徴抽出やマッチングなどの複雑な処理を回避し,簡潔なアライメントを実現した。
    • パッチごとのPearson相関と相互情報に基づく損失関数が,アライメントの精度向上に貢献している。

    Link: https://arxiv.org/abs/2512.14001

  • Sparse-LaViDa:スパースなマルチモーダル離散拡散言語モデル [cs.DC, cs.DM, cs.CV]目的:マルチモーダル離散拡散モデルのサンプリング高速化手法
    • 画像理解や生成といったマルチモーダル研究は,人間らしい知能の実現に不可欠である。
    • 既存のモデルは,冗長なマスクトークンの処理により推論速度が遅いという課題がある。
    • 不要なマスクトークンを動的に削減し,高速かつ高品質な生成を実現することを目指す。
    • 提案手法Sparse-LaViDaは,推論時に不要なマスクトークンを削減することで,最大2倍の高速化を達成した。
    • 生成品質を維持するため,削減されたトークンを表現する特殊なレジスタトークンを導入した。
    • 学習時と推論時の一貫性を確保するため,削減されたサンプリング手順に一致する注意マスクを設計した。

    Link: https://arxiv.org/abs/2512.14008

  • KFS-Bench:長編ビデオ理解におけるキーフレームサンプリングの包括的評価 [cs.CV, cs.AI]目的:長編ビデオ質問応答におけるキーフレームサンプリングの評価基準
    • 長編ビデオの理解は,多様な応用において重要であり,計算コストの削減が課題である。
    • 既存の研究では,キーフレーム選択の質を質問応答の精度を介して間接的に評価していた。
    • 長編ビデオ全体の重要な内容を網羅するキーフレームサンプリング手法を直接評価する基準を提供する。
    • KFS-Benchは,質問ごとに複数のシーンの注釈を提供し,サンプリング戦略を直接評価することを可能にする。
    • サンプリング精度だけでなく,シーンの網羅性とサンプリングバランスが質問応答の性能に影響することが明らかになった。
    • 質問とビデオの関連性を活用してサンプリングの多様性と類似性をバランスさせる新しいサンプリング手法が提案された。

    Link: https://arxiv.org/abs/2512.14017

  • 自律ロボットにおけるシーン理解の深層学習的視点 [cs.CV]目的:自律ロボットのシーン理解における深層学習の応用
    • ロボットの自律的な動作には,周囲環境の正確な理解が不可欠である。
    • 従来の幾何学的モデルは,遮蔽やテクスチャの少ない表面に対して限界があった。
    • 深層学習を用いて,環境のより高度な理解とロボットの性能向上を目指す。
    • 本稿では,物体検出,セマンティックおよびインスタンスセグメンテーション,深度推定,3D再構成,Visual SLAMなどの深層学習の応用を概観した。
    • これらの技術は,従来のモデルの限界を克服し,リアルタイムでの深度知覚を改善し,環境に対するセマンティックな推論を強化する。
    • これらの知覚モジュールを統合することで,意思決定,ナビゲーション,およびインタラクションがより効果的になる。

    Link: https://arxiv.org/abs/2512.14020

  • クロスtabularな障壁を打破することによる画像-tabular自己教師あり学習の力の発揮 [cs.CV]目的:画像とtabularデータの統合による臨床意思決定の進歩
    • 医療分野における画像とtabularデータの活用は,診断や治療の精度向上に不可欠である。
    • 既存の自己教師あり学習法は,異質なtabularデータへの対応が難しく,データセット間の知識転移が阻害される。
    • 異なるデータセット間での知識転移を可能にし,スケーラブルな多Modal学習を実現することを目指す。
    • 提案手法CITabは,カラムヘッダーをSemanticな手がかりとして活用することで,tabularデータの多様性に対応し,知識転移を促進する。
    • P-MoLinモジュールにより,tabular特徴の専門性を高め,潜在的な医療概念の抽出を可能にする。
    • アルツハイマー病診断タスクにおいて,既存手法を凌駕する性能を示し,効果的かつスケーラブルなcross-tabular多Modal学習への道を開く。

    Link: https://arxiv.org/abs/2512.14026

  • ニューラル特徴量デコーディングによるロバストなシングルショット構造化光3Dイメージング [cs.CV]目的:シングルショット構造化光3Dイメージングにおけるロバストな深度復元
    • 3Dセンシング技術は,自動運転,ロボット工学,AR/VRなど,幅広い分野で不可欠である。
    • 従来の構造化光法は,オクルージョンや非ラベリアン表面に対して脆弱であり,精度が制限される。
    • 本研究は,特徴量空間での対応点探索により,よりロバストな深度復元を可能にすることを目的とする。
    • ニューラル特徴量を用いた手法は,従来のピクセルベースの手法と比較して,ロバスト性を大幅に向上させた。
    • 大規模な単眼深度推定モデルからの事前知識を活用した深度リファインメントモジュールにより,細部の再現性と全体構造の一貫性が向上した。
    • 合成データのみで学習された本手法は,実環境下でも高い汎化性能を示し,様々なパターンに対して再学習なしに効果を発揮した。

    Link: https://arxiv.org/abs/2512.14028

  • ACE-SLAM:ニューラル暗黙的リアルタイムSLAMのためのシーン座標回帰 [cs.CV, cs.AI, eess.IV]目的:ニューラル暗黙的SLAMにおけるシーン座標回帰の利用
    • SLAMはロボットの自律移動や環境理解に不可欠であり,その性能向上は重要な課題である。
    • 従来のSLAMは計算コストが高く,リアルタイム処理やプライバシー保護が課題であった。
    • シーン座標回帰を用いて,低コストで高速なSLAMシステムの実現を目指す。
    • 本研究は,シーン座標回帰を中核とするニューラル暗黙的RGB-D SLAMシステムを提案し,リアルタイム性を実現した。
    • 提案手法は,疎な特徴量と密な特徴量の両方をサポートし,動的な環境下でも安定して動作する。
    • 合成データおよび実環境データによる評価により,最先端技術と同等以上の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2512.14032

  • ASAPテクスチャ付きガウス: 適応的サンプリングと異方性パラメータ化によるテクスチャ付きガウスの強化 [cs.IR, cs.IR, cs.CV]目的:テクスチャ付きガウスのスケーラビリティ向上
    • 3Dガウススプラッティングは高画質3D表現の有力な手法であり,テクスチャの導入で表現力が向上している。
    • テクスチャパラメータ増加によりメモリ効率が低下し,低貢献領域への無駄なサンプリングが課題となっていた。
    • ガウス密度分布に基づく適応的サンプリングと,レンダリング誤差に基づく異方性パラメータ化により,効率的なテクスチャ利用を目指す。
    • 提案手法ASAPテクスチャ付きガウスは,少ないテクスチャパラメータで高画質レンダリングを実現する。
    • 適応的サンプリングにより,テクスチャ容量の無駄を削減し,効率的なサンプリングを可能にした。
    • 異方性パラメータ化により,複雑な視覚構造を持つガウスに適切なテクスチャ資源を割り当てることができた。

    Link: https://arxiv.org/abs/2512.14039

  • ChartAgent: ツール統合推論を用いたグラフ理解フレームワーク [cs.CV, cs.LG]目的:グラフ理解のためのフレームワーク
    • データ分析やコミュニケーションにおいて,グラフは情報密度が高く直感的に理解しやすい重要な手段である。
    • 既存のマルチモーダルLLMはテキスト注釈に依存しており,重要な数値が欠損すると性能が低下する。
    • ツール統合推論により,グラフの体系的な解析と透明性の高い根拠提示を目指す。
    • ChartAgentは,ツール統合推論(TIR)に基づくフレームワークであり,複雑なグラフ分析を再現可能なステップに分解する。
    • キー要素検出,インスタンスセグメンテーション,OCRなど,12種類以上のツールを動的に編成し,多様なグラフタイプに対応する。
    • 実験により,ChartAgentが疎な注釈環境下で堅牢性を向上させ,信頼性の高いグラフ理解システムを実現することが示された。

    Link: https://arxiv.org/abs/2512.14040

  • OmniDrive-R1:強化学習駆動型多岐にわたるマルチモーダルChain-of-Thoughtによる信頼性の高い視覚言語自律運転 [cs.CV, cs.AI]目的:視覚言語モデルにおける物体幻覚の抑制と,自律運転における信頼性向上
    • 自動運転は,人命に関わる安全性が重要であり,高度な認識と判断能力が求められる。
    • 既存の視覚言語モデルは,根拠のないテキストベースの推論に依存し,物体幻覚といった信頼性の問題がある。
    • マルチモーダルChain-of-Thoughtを統合し,強化学習による視覚的根拠付け能力を高めることで,この問題を解決する。
    • OmniDrive-R1は,知覚と推論を統合したエンドツーエンドの視覚言語モデルフレームワークである。
    • ベースラインモデルと比較して,推論スコアを51.77%から80.35%へ,最終的な正答率を37.81%から73.62%へと大幅に向上させた。
    • アノテーション不要なプロセスベースの報酬関数により,リアルタイムなクロスモーダル整合性を実現し,安定した学習を可能にした。

    Link: https://arxiv.org/abs/2512.14044

  • 実世界のシーンテキストデータにおけるラベル誤りの検出 [cs.CV]目的:実世界のシーンテキストデータにおけるラベル誤りの検出手法
    • シーンテキスト認識は,自動運転や画像検索などに応用され,その重要性が高まっている。
    • 実世界のデータにはラベル誤りが含まれており,認識精度を低下させる大きな要因となっている。
    • ラベル誤りを自動的に検出し,認識精度を向上させること。
    • 提案手法SELECTは,マルチモーダル学習を用いてラベル誤りを効果的に検出することが示された。
    • 可変長のラベルや文字レベルの誤りといった課題に対しても,既存手法を上回る性能を発揮した。
    • 意図的にラベルに誤りを導入するSSLCにより,現実世界の誤り状況を再現し,学習効果を高めることができた。

    Link: https://arxiv.org/abs/2512.14050

  • HyperVL:エッジデバイス向け効率的かつ動的なマルチモーダル大規模言語モデル [cs.CV, cs.CL]目的:エッジデバイスにおける効率的かつ動的なマルチモーダル大規模言語モデルの開発
    • マルチモーダル大規模言語モデルは高度な知覚・推論能力を持つが,計算資源制約が課題。
    • 高解像度入力時のVision Transformer (ViT)エンコーダの遅延とメモリ消費が大きい。
    • エッジデバイス上でのマルチモーダル推論を可能にする低遅延・低消費電力なモデルを実現。
    • HyperVLは,画像タイリング戦略とVisual Resolution Compressor(VRC)により,メモリ使用量を抑制。
    • Dual Consistency Learning(DCL)により,マルチスケールViTエンコーダを統合し,動的なビジュアルブランチ切り替えを実現。
    • 同サイズのモデルと比較して,複数のベンチマークで最先端の性能を達成し,モバイルデバイスで低遅延・低消費電力を実証。

    Link: https://arxiv.org/abs/2512.14052

  • ロバストなAAV着陸のためのエキスパート切り替え:シミュレーションにおけるデュアル検出器フレームワーク [cs.RO, cs.CV]目的:AAV着陸におけるロバストなヘリパッド検出手法
    • 自律飛行ロボットの普及において,GPS非利用環境下での正確な位置認識が不可欠である。
    • 従来の単一モデルでは,着陸時のスケール変化に対応しきれず,検出精度が低下する問題がある。
    • 遠距離と近距離でそれぞれ最適化された検出器を用いて,スケール変化に頑健な着陸を実現すること。
    • 提案手法では,遠距離と近距離の2つのYOLOv8エキスパートを並列処理し,AAVの視点に応じて最適な検出器を選択する。
    • シミュレーション環境での評価により,単一検出器と比較して,着陸の安定性,精度,ロバスト性が大幅に向上することが示された。
    • 本研究は,自律下降のための堅牢な視覚認識を実現し,今後のマルチエキスパートAAVフレームワークの基盤を提供する。

    Link: https://arxiv.org/abs/2512.14054

  • FacEDiT:顔の動きの補完による統一的な表情編集と生成 [cs.CV, cs.AI]目的:表情編集と生成の統一的定式化
    • 動画やコミュニケーションにおいて,自然な顔の表現は重要な要素である。
    • 表情編集と顔生成は別個に研究されており,シームレスな統合が課題である。
    • 顔の動きの補完というアプローチで,編集と生成を統一的に解決する。
    • FacEDiTは,拡散Transformerを用いて顔の動きを補完し,高品質な表情編集と生成を実現する。
    • 編集,挿入,削除といった多様な編集操作を,滑らかな遷移とともに実現可能である。
    • FacEDiTBenchという新しい評価データセットを導入し,客観的な評価を可能にした。

    Link: https://arxiv.org/abs/2512.14056

  • 昼光連動制御のための作業面照度分布のリアルタイム予測:非侵襲的マルチモーダル深層学習 [cs.RO, cs.CV, cs.AI]目的:作業面照度分布のリアルタイム予測
    • 建物における省エネルギーは重要であり,特に豊富な自然光を活用することが求められている。
    • 既存の研究は静的なシーンに焦点を当てており,動的に変化する室内環境への対応が課題である。
    • 動的な室内環境下での高精度な照度予測を可能にし,昼光連動制御の性能向上を目指す。
    • 提案手法は窓周りの画像特徴のみを利用することで,室内状況に左右されず適用可能である。
    • 同一データセットでのR2値は0.98を超え,RMSEは0.14未満という高い精度を達成した。
    • 未知の日におけるテストにおいても,R2値0.82以上,RMSE0.17未満の良好な汎化性能を示した。

    Link: https://arxiv.org/abs/2512.14058

  • 忠実性と現実感の架け橋:制御可能なワンステップ拡散による画像超解像 [cs.CV]目的:画像超解像のための制御可能なワンステップ拡散ネットワーク
    • 画像超解像は,医療診断や衛星画像解析など,多様な分野で重要な役割を担う。
    • 従来の拡散モデルは,低品質入力の圧縮による情報損失が課題であった。
    • 低品質入力の情報を活用し,より高精度で自然な超解像画像を生成すること。
    • 提案手法CODSRは,LQ-guided feature modulationモジュールにより,高忠実度な条件付けを実現した。
    • 領域適応型生成事前分布活性化手法により,知覚的な豊かさを向上させつつ,局所構造の忠実性を維持した。
    • テキスト照合ガイダンス戦略により,テキストプロンプトの潜在能力を最大限に引き出した結果,最先端手法と比較して優れた性能を示した。

    Link: https://arxiv.org/abs/2512.14061

  • SDAR-VL:ビジョン言語理解のための安定かつ効率的なブロックごとの拡散 [cs.CV, cs.AI]目的:大規模ビジョン言語理解のためのブロックごとの離散拡散の体系的な応用
    • ビジョン言語理解は,画像とテキストの意味的関連性を捉え,多様な応用を可能とする重要な研究分野である。
    • 従来のブロック拡散は,学習コストが高く,収束が遅く,不安定であり,実用化が妨げられていた。
    • SDAR-VLは,ブロック拡散の効率性と安定性を向上させ,実用的なビジョン言語理解の基盤となることを目指す。
    • SDAR-VLは,非同期ブロックごとのノイズスケジューリング,効果的なマスク比率スケーリング,および漸進的なベータノイズカリキュラムを統合したフレームワークを提案する。
    • 実験の結果,SDAR-VLは,従来のブロック拡散と比較して,学習効率,収束安定性,およびタスクパフォーマンスが大幅に向上することが示された。
    • 評価スイートにおいて,SDAR-VLは,拡散ベースのビジョン言語モデルの中で最先端の性能を達成し,LLaVA-OneVisionなどの強力な自己回帰ベースラインに匹敵またはそれを上回る。

    Link: https://arxiv.org/abs/2512.14068

  • 多言語および連続的なバックチャネル予測:クロス言語的研究 [cs.CL, cs.CL, cs.HC, cs.SD]目的:多言語バックチャネル予測モデルの構築と,言語間におけるタイミング行動の調査
    • 対話システムにおいて,自然なコミュニケーションを実現するには,バックチャネルの適切な予測が不可欠である。
    • 言語ごとにバックチャネルのタイミングや特徴が異なるため,汎用的なモデル構築が課題となっていた。
    • 言語を超えたバックチャネル予測モデルを構築し,言語間の違いを明らかにすること。
    • 日本語,英語,中国語を対象とした多言語モデルは,単言語モデルと同等以上の性能を示し,言語普遍的な要素と言語特有のタイミングパターンを学習していることが確認された。
    • 日本語は短期間の言語情報に依存する傾向があり,英語と中国語は沈黙時間や抑揚の変化に敏感であることが示された。
    • 多言語学習は,共有されつつも適応可能な表現を促進し,中国語における音高への過度な依存を軽減する効果が確認された。

    Link: https://arxiv.org/abs/2512.14085

  • GaussianPlant:構造に沿ったガウススプラッティングによる植物の3D再構成 [cs.CV]目的:植物の3D再構成
    • 植物の表現は,植物表現型解析などに応用され,農業や生物学研究において重要である。
    • 従来の3DGSは外観の再構成に優れるが,植物の分岐パターン等の構造表現が不足している。
    • 外観と構造の両方を高精度に再構成し,植物の構造解析を可能にすることを目指す。
    • GaussianPlantは,構造素子と外観素子を分離し,植物の構造と外観を高精度に再構成する。
    • 構造素子は植物の枝や葉を簡略化して表現し,外観素子は3Dガウスを用いて外観を表現する。
    • 実験により,GaussianPlantが植物の構造と外観を高精度に再構成し,枝構造や葉のインスタンス抽出を可能にすることが示された。

    Link: https://arxiv.org/abs/2512.14087

  • ProtoFlow:学習された動的シーングラフ原型による解釈可能かつ堅牢な外科ワークフローモデリング [cs.CV, cs.AI]目的:外科ワークフローのモデリング
    • AI支援手術の発展には詳細な外科認識が不可欠であり,医療の質向上に貢献する。
    • アノテーションコストの高さ,データ不足,解釈可能性の欠如が課題となっていた。
    • シーングラフの潜在能力を引き出し,解釈可能で堅牢なワークフローモデリングを実現する。
    • ProtoFlowは,標準的なGNNベースラインよりも高い全体精度を達成した。
    • 限られたデータやFew-shotシナリオにおいても,高い性能を維持し,頑健性を示した。
    • 学習された原型は,明確な外科的サブテクニックを特定し,ワークフローの逸脱や合併症に関する洞察を提供した。

    Link: https://arxiv.org/abs/2512.14092

  • ビデオ由来の呼吸信号に対する品質を考慮したフレームワーク [cs.CV, eess.SP]目的:ビデオ由来の呼吸数推定の信頼性向上
    • 呼吸数は生体情報として重要であり,健康状態の指標となる。
    • ビデオからの呼吸数推定は,信号抽出方法によって品質が変動しやすい。
    • 信号品質を考慮し,より正確な呼吸数推定を実現すること。
    • 提案フレームワークは,複数の信号源と動的な信頼性評価を統合することで,従来の単一手法よりも低い呼吸数推定誤差を達成した。
    • 信号品質指標を用いて機械学習モデルを訓練し,精度予測や信頼性の高い信号選択を可能にした。
    • 公開データセットでの実験により,データセットの特性に応じて性能向上が確認された。

    Link: https://arxiv.org/abs/2512.14093