arXiv雑要約

画像・音声 - 2026/03/17 公開

  • 双一次元アトゥールス小波拡散による単一画像超解像 [cs.CV]目的:単一画像超解像のための双一次元アトゥールス小波拡散モデル
    • 画像処理において,高解像度化は画像の見やすさ向上や情報量増加に不可欠な技術である。
    • 既存の拡散モデルは空間領域のみで動作し,低解像度画像から高周波詳細を再現する際に不自然な結果を生じやすい。
    • 本研究は,小波変換と双一次元モジュールを用いて,高周波の一貫性を高め,拡散に基づく超解像のアーチファクトを低減することを目指す。
    • 提案手法BATDiffは,既存の拡散モデルや非拡散モデルと比較して,よりシャープで構造的に整合性の高い再構成画像を生成できる。
    • BATDiffは,アトゥールス小波変換により,マルチスケール表現を構築し,親子の依存関係をモデル化することで,高周波の一貫性を向上させている。
    • 実験結果は,BATDiffが忠実度と知覚品質の両方において,既存手法を上回る性能を示すことを示している。

    Link: https://arxiv.org/abs/2603.07234

  • AgrIチャレンジ:農業画像におけるクロスチーム検証のためのデータ中心型AIコンペティション [cs.CV, cs.AI, cs.LG]目的:農業画像における汎化性能向上を目指したデータ収集方法の検討
    • 農業分野における画像認識技術は,生産性向上や品質管理に不可欠である。
    • 実環境と訓練データの分布のずれにより,モデルの汎化性能が低下しやすい。
    • データ収集方法がモデルの汎化性能に及ぼす影響を評価するフレームワークの構築。
    • 単一チームのデータのみで学習させた場合,チーム間で最大16.20%の性能低下が見られた。
    • 複数チームのデータを活用した共同学習により,性能低下を2.82%に大幅に改善できた。
    • 12チームが収集した50,673枚の農業画像データセットを公開し,ドメインシフト研究に貢献する。

    Link: https://arxiv.org/abs/2603.07356

  • RobustSCI:現実世界の劣化下におけるスナップショット圧縮イメージングの再構成から復元へ [cs.CV]目的:現実世界の劣化の影響下におけるビデオスナップショット圧縮イメージングの復元
    • ビデオ撮影技術は多様化し,高画質・高速化が求められる一方,劣化の影響は無視できない。
    • 既存のSCI復元アルゴリズムは,ノイズのない理想的な測定データに依存しており,現実の劣化には弱い。
    • モーションブラーや低照度といった現実的な劣化に対応し,真に起こったシーンを復元することを目指す。
    • 提案手法RobustSCIは,マルチスケールデブラー枝と周波数強調枝を組み合わせることで,劣化を明示的に分離・除去する。
    • RobustSCI-Cは,軽量な後処理デブラーネットワークを組み込むことで,わずかな計算コストで復元性能を大幅に向上させる。
    • シミュレーションおよび実データを用いた実験により,提案手法が既存の最先端モデルを上回ることが示された。

    Link: https://arxiv.org/abs/2603.07489

  • M-ABD:スケーラブルで効率的かつ堅牢な多アフィンボディ動力学 [cs.GR]目的:大規模関節構造物のシミュレーション手法
    • ロボット工学やコンピュータグラフィックスにおいて,複雑な構造体のリアルタイムシミュレーションが重要である。
    • 従来の剛体ソルバーは,回転パラメータ化による非線形性の高さから,大規模な関節構造物のシミュレーションに課題がある。
    • アフィンボディ動力学の線形性に着目し,大規模システムのシミュレーションを高速化し,安定性を向上させる。
    • 本手法は,数百千個のボディを持つシステムに対し,単一CPUコアでインタラクティブな速度を実現した。
    • 大規模システムの自由度を削減するため,原始ボディ座標を最小限の関節自由度で定義される双対空間にマッピングする。
    • KKTシステムを解くことで,正確な拘束条件の適用と物理的に正確な運動伝播を保証する。

    Link: https://arxiv.org/abs/2603.08079

  • 概念誘導型ファインチューニング:ViTの誤った相関からの方向転換によるロバスト性の向上 [cs.CV, cs.AI, cs.LG]目的:ViTのロバスト性向上のための概念レベルの意味的特徴へのモデル推論の誘導
    • 画像認識技術は,自動運転や医療診断など,様々な分野で重要な役割を担っている。
    • ViTは分布シフトに弱く,意味のある特徴よりも背景などの誤った相関に依存する傾向がある。
    • 既存手法では捉えきれない,オブジェクトを定義する詳細な意味概念に基づいたロバスト性の向上を目指す。
    • 提案手法では,LLMとVLMを用いて自動的に生成された概念マスクを用いて,モデルの内部的な関連性マップを概念領域と整合させる。
    • 5つの分布外ベンチマークにおいて,提案手法が複数のViTベースモデルのロバスト性を向上させることを実証した。
    • その結果得られた関連性マップは,意味のあるオブジェクトパーツとの強い整合性を示し,スケーラブルな解釈可能性を提供する。

    Link: https://arxiv.org/abs/2603.08309

  • オンライン疎な合成開口レーダー撮像 [cs.CV]目的:オンライン疎な合成開口レーダー撮像手法
    • 防衛分野で安価なドローン利用が増加しており,機上アルゴリズムの効率化が重要である。
    • 合成開口レーダーでは,大量のデータ収集と処理が必要であり,計算量・メモリ消費量が課題である。
    • 本研究は,限られたデータで効率的に画像を再構成し,メモリ消費量を削減することを目的とする。
    • オンラインFISTAアルゴリズムにより,受信信号データを全て保存せずに逐次的に画像を再構成できる。
    • この手法は,メモリ消費量を大幅に削減し,リアルタイム処理を可能にする。
    • オンラインSAR画像再構成は,自動標的認識などの複雑なタスクを統合的に実現する。

    Link: https://arxiv.org/abs/2603.08582

  • サービスとしての隊列走行(PlaaS):コネクテッド・自動運転車のための持続可能な輸送フレームワーク [cs.GT]目的:コネクテッド・自動運転車における隊列走行を通じた持続可能な輸送を促進するための意思決定支援フレームワーク
    • 輸送分野において,燃料消費量削減や排出ガス抑制は喫緊の課題であり,効率的な輸送システムの構築が求められている。
    • 従来の輸送システムでは,交通渋滞や環境負荷の増大が課題となっており,新たな輸送技術の導入が不可欠である。
    • 隊列走行をサービスとして提供することで,輸送効率の向上と環境負荷の低減を目指し,持続可能な輸送システムを実現すること。
    • 提案するPlaaSプラットフォームは,Stackelbergゲームを用いて,隊列走行サービス提供者と利用者の間の最適な契約を導き出すことができた。
    • 政府による補助金が,PlaaSプラットフォームにおける二酸化炭素排出量の削減に貢献することが示された。
    • 隊列走行速度や車両の緊急度に応じて,サービス提供者の収益や利用者の便益が変化することが示唆された。

    Link: https://arxiv.org/abs/2603.09256

  • ForgeDreamer:多専門家LoRAとクロスビューハイパーグラフによる産業分野向けテキストから3D生成 [cs.CV]目的:産業分野におけるテキストから3D生成の性能向上
    • 製造業等における設計・試作の効率化が求められており,3D生成技術はその重要な役割を担う。
    • 既存の技術では,自然なシーンが得意だが,産業分野への応用は知識干渉や幾何学的推論の課題がある。
    • カテゴリ間の知識干渉を解消し,高次の構造依存性を捉えることで,より高精度な生成を目指す。
    • 提案手法ForgeDreamerは,多専門家LoRAアンサンブルにより,カテゴリ間の知識干渉を抑制し,汎化性能を向上させた。
    • クロスビューハイパーグラフ幾何学的エンハンスメントにより,複数の視点からの構造依存性を捉え,幾何学的精度を高めた。
    • 産業分野のカスタムデータセットにおいて,最先端手法と比較して,セマンティック汎化性能と幾何学的忠実度で優位性を示した。

    Link: https://arxiv.org/abs/2603.09266

  • オープンワールドにおける動作予測 [cs.CV, cs.AI, cs.RO]目的:動的エージェントの将来の軌跡予測
    • 自動運転において,周囲状況を正確に把握し,安全な走行計画を立てる上で不可欠な技術である。
    • 従来の動作予測は,限定的な環境設定を前提としており,現実世界の不確実性への対応が課題であった。
    • 未知の物体クラスが逐次的に現れるオープンワールド環境下での,ロバストな動作予測を実現すること。
    • 提案手法は,既存のクラスを忘却することなく,新たなクラスへの適応を可能にするクラスインクリメンタルな動作予測フレームワークである。
    • 擬似ラベリングとクエリ特徴量の分散に基づくリプレイサンプリング戦略により,予測精度とロバスト性を向上させている。
    • nuScenesおよびArgoverse 2データセットでの評価により,実走行環境へのゼロショット転移も可能であることが示された。

    Link: https://arxiv.org/abs/2603.09420

  • EvoDriveVLA:協調的知覚・計画蒸留による自律運転Vision-Language-Actionモデルの進化 [cs.CV, cs.AI]目的:自律運転のためのVision-Language-Actionモデルの進化
    • 自動運転技術は,交通事故削減や移動の効率化に貢献する重要な分野である。
    • 既存モデルは,視覚エンコーダの学習により知覚性能が低下し,長期的計画で不安定になりやすい。
    • 知覚と計画の協調的蒸留により,これらの課題を克服し,より安定した自動運転を実現する。
    • EvoDriveVLAは,オープンループ評価において最先端の性能を達成した。
    • クローズドループ評価においても,性能が大幅に向上した。
    • 自己アンカー知覚制約とオラクル誘導軌道最適化を統合することで,知覚と計画の安定性を高めた。

    Link: https://arxiv.org/abs/2603.09465

  • UAV交通シーン理解:規制埋め込みマルチモーダルネットワークと統一ベンチマーク [cs.CV, cs.AI]目的:UAV交通シーンのロバストな理解
    • 交通システムのインテリジェント化に不可欠であり,柔軟な配置と広範囲の監視が可能。
    • 悪条件下の画像認識性能低下や,複雑な交通行動の評価に必要な知識の欠如。
    • 光と熱画像の融合によるロバストな特徴表現と,交通規制知識の埋め込み。
    • 提案手法MTCNetは,既存手法と比較して認知・知覚の両面で大幅な性能向上を示した。
    • Traffic-VQAという大規模な光学・熱赤外ベンチマークを構築し,公開した。
    • 外部交通規制メモリからの知識埋め込みにより,複雑な行動の理解と違反の識別を可能にした。

    Link: https://arxiv.org/abs/2603.10722

  • Shape-of-You:野生環境における意味的対応のための融合グロモフ・ワッサースタイン最適輸送 [cs.CV, cs.LG]目的:野生環境画像の意味的対応
    • 多様な画像処理において,対応関係の自動抽出は重要な課題である。
    • 既存手法は,局所的な特徴に依存し,構造的関係性を考慮していない場合が多い。
    • 幾何学的曖昧性を解消し,構造的整合性の高い対応関係を学習することを目指す。
    • 提案手法SoYは,3Dモデルを活用し,幾何空間における構造的情報を組み込むことで,曖昧性の問題を解決する。
    • 計算コストが高いFGW問題を,アンカーベースの線形化によって近似し,効率的な学習を実現している。
    • SPair-71kとAP-10kデータセットにおいて,最先端の性能を達成し,新たなベンチマークを確立した。

    Link: https://arxiv.org/abs/2603.11618

  • BackdoorIDS:事前学習済みの視覚エンコーダに対するゼロショットのバックドア検出 [cs.RO, cs.CV]目的:事前学習済み視覚エンコーダにおけるバックドアサンプルの検出
    • 視覚エンコーダは多様なタスクに利用され,その安全性確保が重要である。
    • 第三者提供のエンコーダにはバックドア攻撃のリスクが存在する。
    • 信頼性の低いエンコーダ利用におけるバックドア攻撃検出を可能にする。
    • BackdoorIDSは,入力マスキングによる注意機構の変化を捉え,バックドアサンプルを検出する。
    • マスキング率の進行に伴う埋め込み表現の変化を分析し,密度ベースクラスタリングによって異常を識別する。
    • 多様な攻撃,データセット,モデルに対し,既存の手法よりも高い性能を示す。

    Link: https://arxiv.org/abs/2603.11664

  • 複数視点動画からの高密度動的シーン再構成とカメラ姿勢推定 [cs.CV]目的:複数視点動画からの動的シーン再構成とカメラ姿勢推定
    • 現実世界のイベント記録において,複数のカメラが自由に動きながら同時に撮影する状況は一般的である。
    • 既存手法は単一カメラ入力か,固定されたカメラセットアップに限定され,実用性に課題があった。
    • 複数のカメラからの自由な動きに対応し,実用的なシーン再構成と正確なカメラ姿勢推定を実現すること。
    • 提案手法は,ロバストなカメラトラッキングと高密度深度推定を分離した二段階最適化フレームワークを採用している。
    • 複数カメラの視覚SLAMを拡張し,時間的連続性と空間的重複を利用することで一貫したスケールとロバストなトラッキングを実現した。
    • 実環境データセットMultiCamRobolabを用いて評価を行い,最先端手法と比較して優れた性能とメモリ効率を示した。

    Link: https://arxiv.org/abs/2603.12064

  • LoV3D:局所脳容量評価による縦断的3D脳MRIを用いた認知予後推論の根拠付け [cs.CV, cs.AI]目的:縦断的3D脳MRIを用いた認知症の進行度合いの評価と,根拠に基づいた診断
    • アルツハイマー病等の神経疾患の進行把握には縦断的脳MRIが不可欠であり,早期発見・治療に繋がる。
    • 既存の深層学習ツールは,診断ラベルの抽出や容量測定に終始し,解釈可能性に乏しい場合がある。
    • 脳MRIから得られる情報に基づき,診断の根拠を明確にし,誤った診断を減らすことを目指す。
    • LoV3Dは,脳MRIの局所的な解剖学的評価,縦断的な比較,診断(正常,軽度認知障害,認知症)と診断概要の提示を行うパイプラインである。
    • ADNIテストセットにおいて,3クラス診断精度93.7%(ベースライン比+34.8%),2クラス診断精度97.2%(SOTA比+4%)を達成した。
    • MIRIADやAIBLへのゼロショット転移においても高い汎化性能を示し,異なる施設やスキャナ,集団への適用可能性が確認された。

    Link: https://arxiv.org/abs/2603.12071

  • 拡散モデルにおける内生的な思考連鎖推論のスケーリング:EndoCoT [cs.CV, cs.CL]目的:拡散モデルにおける複雑なタスク解決のための思考連鎖推論の活性化と段階的な実行
    • 近年,画像生成AIにおいて,テキスト情報を活用した高度な推論能力が求められている。
    • 既存手法では,大規模言語モデルの推論能力が十分に活用されず,複雑なタスクに対応できない場合がある。
    • 本研究では,思考連鎖推論を活性化し,段階的な指示分解を可能とする新たなフレームワークを提案する。
    • 提案手法EndoCoTは,大規模言語モデルの潜在的な思考能力を反復的な思考誘導モジュールによって引き出す。
    • 思考誘導モジュールと終端思考接地モジュールにより,テキスト指示に基づいた綿密な推論が可能となる。
    • 多様なベンチマークにおいて平均92.1%の精度を達成し,既存の最良手法を8.3%上回る性能を示した。

    Link: https://arxiv.org/abs/2603.12252

  • 基礎モデル時代におけるモデルステッチングの再検討 [cs.CV, cs.AI, cs.LG]目的:異種なビジョン基礎モデルのステッチング可能性の検証
    • モデルの表現適合性を評価する手段としてステッチングが重要視されている。
    • 異なる目的やデータで学習されたモデル間でのステッチングは困難である可能性が指摘されている。
    • 異種モデル間でのステッチングを可能にする手法を確立し,モデル統合のレシピを提供する。
    • 従来のステッチング手法では精度低下が生じやすいが,ターゲットモデルの最後から2番目の層で特徴量を一致させる損失関数を用いることで,安定したステッチングが可能となる。
    • 深いステッチポイントにおいては,ステッチングされたモデルは構成要素である個々のモデルを上回る性能を発揮する可能性がある。
    • 複数のVFMの初期層を共有するVFMステッチツリー(VST)を提案し,マルチモーダルLLMにおける精度と遅延のトレードオフを制御可能にする。

    Link: https://arxiv.org/abs/2603.12433

  • COTeスコア:ドキュメントレイアウト解析モデルの評価のための分解可能なフレームワーク [cs.CV]目的:ドキュメントレイアウト解析モデルの評価フレームワーク
    • ドキュメント解析は,情報抽出や文書理解の基盤技術であり,その精度向上が重要である。
    • 既存の評価指標は画像認識向けに設計されており,ドキュメント固有の構造を適切に反映していない。
    • ドキュメントのセマンティック構造に着目し,より正確かつ詳細な評価指標を提案することで,解析モデルの改善を目指す。
    • COTeスコアは,従来の評価指標よりも詳細なモデルの挙動を捉え,弱点を明らかにする。
    • COTeスコアは,F1スコアと比較して,評価結果の解釈と実際の性能との乖離を最大76%削減する。
    • SSUラベル付けが不要な場合でもCOTeスコアの頑健性が維持されるため,導入障壁を低減できる。

    Link: https://arxiv.org/abs/2603.12718

  • 段階的訓練による二重ストリーム音声匿名化攻撃手法 DAST [cs.SD, cs.AI]目的:音声匿名化攻撃手法の開発と評価
    • 音声データに含まれる個人情報保護の重要性が高まっており,匿名化技術の評価が不可欠である。
    • 既存の音声匿名化技術は,言語内容を保持しつつも,話者特有のパターンを漏洩する可能性がある。
    • 未知の匿名化データに対する攻撃性能を向上させ,プライバシー保護の評価を強化すること。
    • 提案手法DASTは,スペクトル特徴と自己教師あり学習特徴を融合する二重ストリーム構造を採用している。
    • 段階的訓練戦略により,特に第2段階が汎化性能の向上に大きく貢献することがVoicePrivacy Attacker Challenge (VPAC) データセットで示された。
    • ターゲット匿名化データセットの10%で微調整することで,既存の最先端攻撃手法を上回るEERを達成した。

    Link: https://arxiv.org/abs/2603.12840

  • 最終解答を超えて:透明性のあるマルチモーダル推論評価のためのCRYSTALベンチマーク [cs.AI, cs.CV, cs.IR, cs.MM]目的:マルチモーダル推論の評価
    • AIの高度化に伴い,複雑な推論能力の評価が重要となっている。
    • 既存の評価指標では,推論過程の透明性が評価されにくい。
    • 推論ステップの検証可能性を通して,モデルの弱点を明らかにすること。
    • CRYSTALベンチマークは,6,372個の事例を用いて,マルチモーダル推論を段階的に評価する。
    • Stepレベルの精度と再現率を評価するMatch F1とOrdered Match F1という2つの指標を提案した。
    • Causal Process Reward (CPR) および CPR-Curriculumを用いることで,推論性能が32%向上した。

    Link: https://arxiv.org/abs/2603.13099

  • PhysMoDPO:嗜好度最適化による物理的に妥当なヒューマノイドモーション [cs.LG, cs.AI, cs.CV, cs.RO]目的:物理的に妥当で,テキスト指示に沿ったヒューマノイドモーションの生成
    • ヒューマノイドモーション生成は,ロボット工学やアニメーションにおいて重要な技術である。
    • 拡散モデルで生成されたモーションを物理法則に適合させると,元のモーションから大きく乖離しやすい。
    • 物理法則とテキスト指示の両方に適合するモーション生成を目指す。
    • PhysMoDPOは,物理シミュレーションとタスク固有の報酬を用いて,拡散モデルを直接最適化する。
    • シミュレーション環境におけるテキストからのモーション生成と空間制御タスクにおいて,PhysMoDPOは物理的リアリズムとタスク関連の指標の両方で一貫した改善を示した。
    • PhysMoDPOは,シミュレーションにおけるゼロショットモーション転送や,実世界のG1ヒューマノイドロボットへの展開において,著しい改善をもたらす。

    Link: https://arxiv.org/abs/2603.13228

  • PET/CT画像における前立腺癌病変の検出・セグメンテーションのための深層ニューラルネットワークにおけるL1ノルムを用いた適応的ボクセル重み損失 [eess.IV, cs.AI, cs.CV]目的:前立腺癌病変の検出とセグメンテーション
    • PET/CT画像は,前立腺癌の再発診断において重要な役割を果たす。早期発見と正確な診断が治療方針決定に不可欠である。
    • 病変の大きさ,活動度,位置,クラス内・クラス間不均衡により,自動検出は困難である。既存の損失関数では最適化が不十分となる場合がある。
    • L1ノルムによる勾配調整で,病変の困難度に応じた重み付けを行い,正確な予測と誤検出の低減を目指す。
    • 提案手法L1DFLは,Dice LossやDice Focal Lossと比較して,Dice Similarity Coefficientで少なくとも4%の改善を示した。
    • F1スコアは,DLと比較して6%,DFLと比較して26%向上し,よりバランスの取れた検出性能を実現した。
    • L1DFLの勾配調整メカニズムは,病変の大きさや分布の変化に対する頑健性を確保した。

    Link: https://arxiv.org/abs/2502.02756

  • エコーE$^3$Net:駆出率推定のための効率的な心内膜時空間ネットワーク [eess.IV, cs.CV]目的:心エコー動画からの左室駆出率(LVEF)自動推定のための,堅牢かつ計算効率の高い深層学習モデルの開発
    • 心臓疾患の診断と治療において,LVEFは重要な指標であるため,迅速かつ正確な推定が求められる。
    • 従来法では,LVEF推定に専門的な知識と時間を要し,簡便かつリアルタイムな推定が困難であった。
    • 本研究では,リアルタイムでのポイント・オブ・ケア超音波(POCUS)への展開を可能にする,効率的なLVEF推定手法を確立する。
    • Echo-E$^3$Netは,EchoNet-DynamicデータセットにおいてRMSE 5.20,R$^2$スコア 0.82を達成した。
    • モデルはわずか1.55Mパラメータ,8.05 GFLOPsで動作し,外部事前学習や重度のデータ拡張を必要としない。
    • これにより,実用的なリアルタイム展開が可能となり,POCUS環境での臨床利用に適している。

    Link: https://arxiv.org/abs/2503.17543

  • 多重コントラストレーザー内視鏡による生体胃腸管イメージング [eess.IV, cs.CV, physics.med-ph, physics.optics]目的:生体胃腸管イメージングのための多重コントラストレーザー内視鏡
    • 胃腸管疾患の早期発見は,患者の予後を改善する上で極めて重要である。
    • 従来の白色光内視鏡では,組織のコントラストが弱く,微細な病変を見落とす可能性がある。
    • 本研究は,組織の複数のコントラストを可視化し,より高感度な胃腸管イメージングを実現することを目指す。
    • 多重コントラストレーザー内視鏡(MLE)は,スペクトル,コヒーレント,指向性照明を迅速に調整可能である。
    • 31個のポリープにおけるMLE画像は,白色光内視鏡および狭帯域イメージングと比較して,コントラストが約3倍,色差が約5倍向上した。
    • MLEは,臨床環境へのシームレスな統合が可能であり,胃腸管イメージングの改善に貢献する可能性を示唆する。

    Link: https://arxiv.org/abs/2505.10492

  • PREDICT-GBM:個人化された膠芽腫放射線治療計画を前進させる多施設プラットフォーム [eess.IV, cs.CV, cs.LG, q-bio.QM]目的:膠芽腫の再発予測と個人化された放射線治療計画のためのプラットフォームの提供
    • 膠芽腫は予後不良であり,治療後の再発率が高い。標準治療の改善が急務である。
    • 標準的な放射線治療は患者特有の生物学的・解剖学的要素を考慮していない。個別化治療の実現が課題。
    • 大規模なデータセットと標準化された評価パイプラインを提供し,モデル開発と検証を促進する。
    • PREDICT-GBMは,243人の患者データを含むキュレーションされたデータセットと標準評価パイプラインを提供する。
    • U-Netベースの再発予測モデルは,既存のバイオフィジックスおよびデータ駆動型手法と比較して優れた性能を示した。
    • U-Netモデルは,標準治療と比較して再発部位の予測カバレッジにおいて有意に高い結果(79.37 +/- 2.08 %)を示した。

    Link: https://arxiv.org/abs/2509.13360

  • HD-PPT:命令に基づくTTSのためのコンテンツおよびプロンプト優先トークンの階層的デコード [eess.AS, cs.SD]目的:命令に基づくTTSにおける精密な制御の実現
    • 近年,LLMに基づくTTSの自然性は高い水準に達しているが,制御の精密さが課題である。
    • 既存のInstruct-TTSモデルは,テキスト指示と多層的な音声トークンの間のモダリティギャップにより,きめ細やかな制御が難しい。
    • HD-PPTは,音声合成を構造化された階層的なタスクに変え,モダリティギャップを解消し,精密な制御を可能とする。
    • HD-PPTは,音声トークンからプロンプト優先およびコンテンツ優先トークンを抽出する新しい音声コーデックを導入した。
    • LLMがセマンティック,スタイル,音響表現の順にトークンを生成する階層的なデコード戦略を提案した。
    • 実験の結果,HD-PPTは指示への適合性と自然性を大幅に向上させ,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2509.19001

  • 不確実性に基づく音素難易度スコアを用いたガイデッドサンプリングによる,非標準発話に対するデータ効率の良いASRパーソナライズ [quant-ph, cs.NI, eess.AS, cs.AI, cs.SD]目的:非標準発話に対するASRパーソナライズのデータ効率向上
    • 音声認識は,コミュニケーションにおいて重要な役割を担う技術である。
    • 非標準発話は,音響的な多様性が高く,データ不足に悩む場合が多い。
    • 本研究は,限られたデータで効果的にASRをパーソナライズすることを目指す。
    • VI LoRAに基づく不確実性は,標準的なエントロピーよりも臨床評価者による評価とより一致した。
    • 音素難易度スコアは,安定した発話困難性を捉えることができた。
    • 不確実性に基づいたサンプリングにより,発話困難な音声に対するASR精度が大幅に向上した。

    Link: https://arxiv.org/abs/2509.20396

  • 動的ストレス検出:音声におけるストレスの時間的推移モデリングの研究 [math.OC, cs.SY, eess.SY, eess.AS, cs.AI, cs.CL, cs.SD]目的:音声におけるストレスの時間的推移のモデリング
    • 高圧環境下において,音声からの心理的ストレス検出は重要である。人的要因による事故防止等に役立つ。
    • 従来のストレス検出は,ストレスを静的なラベルとして扱っており,時間的な変化を捉えられていない。
    • ストレスを時間的に変化する現象として捉え,より正確なストレス検出を実現すること。
    • 本研究では,感情ラベルから詳細なストレス注釈を生成する動的ラベリング戦略を提案した。
    • 提案手法は,MuSEで+5%,StressIDで+18%の精度向上を達成し,実世界のデータセットでも良好な汎化性能を示した。
    • これらの結果は,音声におけるストレスを動的な構成要素としてモデリングすることの有効性を示している。

    Link: https://arxiv.org/abs/2510.08586

  • 万華鏡シンチレーション事象イメージング [cond-mat.mtrl-sci, cs.CE, math-ph, math.MP, physics.comp-ph, physics.ins-det, cs.CV, eess.IV]目的:単一光子カメラにおける光収集効率向上と事象位置推定
    • 高エネルギー粒子の測定は,基礎物理学研究や医療,安全保障など幅広い分野で不可欠である。
    • 従来の検出器は,空間分解能と時間分解能の両立が難しく,個々の事象のイメージングが困難であった。
    • 万華鏡型シンチレーターを用いることで,低光量下でも高分解能な事象測定を可能にし,新たな放射線イメージング技術を確立する。
    • 万華鏡型シンチレーターは,事象の鏡面反射を生成することで光収集効率を向上させる。
    • 事象位置に基づいて反射位置が予測可能であり,空間情報の保持が可能である。
    • 提案手法は,市販のCMOS単一光子カメラを用いた高分解能事象測定を可能にすることを示した。

    Link: https://arxiv.org/abs/2512.03216

  • 深空のノイズ除去:天体画像のための物理ベースCCDノイズ生成 [astro-ph.IM, cs.CV, cs.LG]目的:天体画像におけるCCDノイズ生成の物理モデル
    • 天体観測において,ノイズは画質を大きく左右し,高精度なデータ取得の妨げとなる。
    • 既存のノイズ除去手法は,ランダムノイズの除去が不十分であり,十分な学習データも少ない。
    • CCDノイズの物理モデルに基づき,豊富な学習データを生成し,ノイズ除去の精度向上を目指す。
    • 物理ベースのノイズ生成フレームワークを構築し,光子ノイズ,読出しノイズなどを再現した。
    • 生成されたデータセットを用いて教師あり学習を行い,実際の天体画像に対する有効性を検証した。
    • 実観測データを用いた実験により,本手法が photometric および科学的精度において有効であることが示された。

    Link: https://arxiv.org/abs/2601.23276

  • SoulX-Singer:高品質なゼロショット歌声合成に向けて [eess.AS, cs.AI, cs.SD]目的:高品質なゼロショット歌声合成システムの開発
    • 近年の音声合成技術の進歩は目覚ましいが,歌声合成は実用化の障壁が多い。
    • 既存のオープンソース歌声合成システムは,頑健性やゼロショット汎化性能に課題がある。
    • 実用的な歌声合成システムの開発と,その評価基準の確立を目指す。
    • 本研究では,実用化を考慮した高品質なオープンソース歌声合成システムSoulX-Singerを開発した。
    • SoulX-Singerは,MIDIや旋律情報に基づいた歌声生成が可能であり,多様な言語(中国語,英語,広東語)に対応している。
    • 厳格な訓練・テスト分離を行う評価ベンチマークSoulX-Singer-Evalを構築し,ゼロショット性能の評価を可能にした。

    Link: https://arxiv.org/abs/2602.07803

  • SAS-Net:構造・外観分解によるクロスドメイン画像レジストレーション [eess.IV, cs.AI, cs.CV]目的:異質画像物理条件下の画像レジストレーション手法
    • 画像レジストレーションは,医療画像処理やリモートセンシングなど,幅広い分野で不可欠な技術である。
    • 従来の画像レジストレーション手法は,輝度不変性を仮定しているため,異なるドメイン間の画像には適用が困難である。
    • 本研究は,構造と外観を分離することで,ドメイン間の差異にロバストなレジストレーションを可能とする。
    • SAS-Netは,インスタンス正規化を用いて構造と外観を分解し,AdaINを用いて微分可能なレンダリングを実現している。
    • 提案手法は,EuroSAT-Reg-256およびFIRE-Reg-256データセットにおいて,最先端の性能を達成した。
    • SAS-NetはRTX 5090 GPU上で89 FPSの処理速度を実現しており,実用性も高い。

    Link: https://arxiv.org/abs/2602.09050

  • Whisper-RIR-Mega:ASRの室内音響に対するロバスト性のためのクリーン/残響音ペアベンチマーク [eess.AS, cs.AI, cs.LG, cs.SD]目的:自動音声認識における室内音響に対するロバスト性の評価
    • 音声認識は,対話型システムの重要な要素であり,様々な環境下での利用が求められている。
    • 実際の環境では,残響などの音響効果が音声認識の性能を大きく低下させるという課題がある。
    • 室内音響の影響を考慮した音声認識モデルの評価と改善を目指す。
    • Whisper-RIR-Megaデータセットは,クリーンな音声と残響音のペアを提供し,ロバスト性の評価を可能にする。
    • 実験の結果,残響はすべてのモデルサイズで性能を低下させ,特に小規模モデルでその影響が大きいことが示された。
    • Whisper-large-v3が最も小さい性能低下を示し,残響に対する頑健性が高いことが明らかになった。

    Link: https://arxiv.org/abs/2603.02252