arXiv雑要約

画像・音声 - 2026/03/11 公開

  • 単眼画像からのシェーディング系列推定による法線推定 [cs.CV, cs.AI]目的:単眼画像からの法線マップ推定
    • 3次元形状の理解は,コンピュータビジョンやロボティクスなど幅広い分野で重要である。
    • 既存手法では,法線マップの推定精度と再構成された形状の整合性の問題が存在する。
    • シェーディング系列推定という新たなアプローチで形状の情報を捉え,高精度な法線推定を実現する。
    • 提案手法RoSEは,画像から動画を生成するモデルを活用し,シェーディング系列を予測する。
    • 予測されたシェーディング系列を最小二乗法で法線マップに変換することで,高精度な推定が可能となる。
    • 実世界のベンチマークデータセットにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2602.09929

  • スパイクニューラルネットワークにおける継続学習のためのエネルギーを考慮したスパイク予算 [cs.CL, cs.NE, cs.AI, cs.CV]目的:ニューロモルフィックビジョンにおける継続学習のためのエネルギー効率と精度を両立するフレームワーク
    • ニューロモルフィックビジョンは,低消費電力での知覚を可能にするため,様々な応用が期待されている。
    • 継続的に変化する環境下では,ニューラルネットワークの catastrophic forgetting が大きな課題となっている。
    • 本研究は,エネルギー制約下での継続学習を可能にし,ニューロモルフィックビジョンの実用性を高めることを目指す。
    • 提案手法は,フレームベースのデータセットにおいて,スパース性を誘導することで精度向上とスパイクレートの削減を実現した。
    • イベントベースのデータセットでは,スパイク予算の適応的な緩和により,精度を最大17.45%向上させた。
    • 5つのベンチマークにおいて,動的消費電力の最小化と性能向上を両立し,継続学習の実用性を示した。

    Link: https://arxiv.org/abs/2602.12236

  • 総相関最大化によるマルチモーダル分類 [cs.CV]目的:マルチモーダル分類における性能向上
    • 多様なセンサーデータを統合し,情報活用を促進する分野であり,その重要性が高まっている。
    • 共同学習において,特定のモダリティに過適合し,他のモダリティが軽視される問題が存在する。
    • モダリティ間の競争を緩和し,相互作用を捉えることで,分類性能の改善を目指す。
    • 総相関を最大化するアプローチは,モダリティ間の競争を軽減し,特徴量の配置を整える。
    • Mutual Information Neural Estimation (MINE)を基盤とし,総相関の下限を導出するTotal Correlation Neural Estimation (TCNE)を提案。
    • TCMaxは,パラメータ調整を必要としない損失関数であり,実験的に最先端の手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2602.13015

  • B-DENSE:高密度アンサンブルネットワーク監督効率のための分岐 [cs.LG, cs.AI, cs.CV, cs.NE]目的:拡散モデルの効率的な推論手法
    • 生成モデリングの分野で,拡散モデルは最先端の性能を達成している。
    • 拡散モデルは反復サンプリングが必要であり,推論遅延が大きいという課題がある。
    • 中間軌跡ステップの情報を損失することなく,推論効率を改善すること。
    • B-DENSEは,複数分岐軌跡アラインメントを利用した新しいフレームワークである。
    • 生徒モデルのアーキテクチャを修正し,教師モデルの軌跡における離散的な中間ステップに対応するK個の分岐を出力する。
    • 実験により,B-DENSEはベースラインの蒸留フレームワークと比較して,より優れた画像生成品質を示すことが示された。

    Link: https://arxiv.org/abs/2602.15971

  • テスト時のアルゴリズム共謀:メタゲームのデザインと評価 [cs.MA, cs.GT]目的:アルゴリズムのテスト時の共謀リスクの分析
    • 経済学やゲーム理論において,競争環境下での戦略的相互作用は重要な研究テーマである。
    • アルゴリズムの共謀が現実の市場で発生する可能性と,その規制の必要性についての議論がある。
    • テスト時の限られた状況下で,アルゴリズムがどのように共謀に至るかを明らかにすること。
    • 事前学習済みの戦略とゲーム内適応ルールを組み合わせるメタ戦略を用いることで,共謀リスクを評価するメタゲームを設計した。
    • 様々な戦略(強化学習,UCB,LLMベース)を繰り返し価格設定ゲームで評価し,アルゴリズム共謀の実現可能性を示した。
    • コスト設定が対称的か非対称的かによって,価格戦略の効果が異なることが明らかになった。

    Link: https://arxiv.org/abs/2602.17203

  • 潜在的な等変オペレータによるロバストな物体認識:可能性と課題 [cs.CV, cs.LG]目的:物体認識におけるロバスト性の向上
    • 視覚情報処理における深層学習の重要性が増しているが,学習データに少ない変換された物体認識が課題。
    • 従来の深層学習モデルは,未知の変換に対する汎化性能が低いという問題がある。
    • 潜在空間で等変オペレータを学習することで,未知の変換にも対応できる物体認識を目指す。
    • 回転と並進のノイズを含むMNISTデータセットを用いて,提案手法が未知の分布に対する分類において有効であることが示された。
    • 従来のネットワークや等変ネットワークの限界を克服し,ロバストな物体認識を実現する可能性を示した。
    • より複雑なデータセットへの拡張には課題が残るが,将来的な発展に期待が持てる。

    Link: https://arxiv.org/abs/2602.18406

  • キメラLoRA:マルチヘッドLoRAによる合成データセット [cs.CV]目的:少数クラスを含むデータ不足な状況下における,より信頼性の高いモデル構築
    • 専門分野や細かい設定ではデータ不足が深刻であり,特に少数クラスへの対応が課題となる。
    • 既存手法では,詳細な情報を捉えつつ多様性を確保することが難しい。
    • クラスの事前情報と画像固有の特徴を両立させ,詳細かつ多様な合成画像を生成する。
    • 本研究では,クラス共有LoRAと画像ごとのLoRAを組み合わせることで,多様性と詳細度の高い合成画像を生成した。
    • クラス共有LoRAの学習時にクラスのバウンディングボックスを保持するsemantic boostingを導入し,クラスの意味的整合性を高めた。
    • 提案手法により,合成画像は実分布に近く,下流タスクの分類精度を向上させた。

    Link: https://arxiv.org/abs/2602.19708

  • OrthoAI:透明矯正歯科における根拠に基づいた生体力学的推論のための神経記号的フレームワーク [cs.CV, cs.AI]目的:透明矯正歯科における臨床的意思決定支援の自動化
    • 透明矯正治療は普及しているが,治療計画の最適化には専門知識と経験が不可欠である。
    • 3D歯形状の認識と,生体力学的な実現可能性の評価を統合するシステムが存在しない。
    • 少ない注釈データで高精度な歯分割と,臨床的な知識に基づいた治療評価を実現すること。
    • 提案手法OrthoAIは,少ないランドマーク情報から高精度な歯分割を可能にした。
    • 生体力学的な制約を考慮した治療計画の評価を実現し,臨床的な優先度に基づいた多基準評価を行った。
    • CPU環境で4秒未満の高速な推論が可能であり,実用化への道筋を示した。

    Link: https://arxiv.org/abs/2603.00124

  • 自己注意機構とその限界を超える:無限自己注意を用いた線形Transformer [cs.CV]目的:高解像度画像処理におけるTransformerの拡張性向上
    • Transformerは画像認識で高い性能を示すが,計算コストが課題となっている。
    • 自己注意機構の計算量がシーケンス長に対して二乗に比例するため,大規模画像処理が困難。
    • 拡散過程に基づいた新しい自己注意機構を提案し,計算コストを削減する。
    • 提案手法であるLinear-InfSAは,既存のViTと同等のパラメータ数で,ImageNet-1Kでより高い精度を達成した。
    • ImageNet-V2においても,提案手法は既存手法を上回り,分布シフトに対する頑健性を示した。
    • Linear-InfViTは,既存のViTと比較して13倍の高速化とエネルギー効率の向上を実現し,高解像度画像の推論を可能にした。

    Link: https://arxiv.org/abs/2603.00175

  • 基礎モデルを用いた鳥画像セグメンテーション:Grounding DINO 1.5,YOLOv11,SAM 2.1による二重パイプラインアプローチ [cs.CV, cs.AI]目的:鳥画像セグメンテーションの性能向上
    • 鳥類の姿勢多様性,羽毛模様,照明条件により,画像認識における鳥のセグメンテーションは困難である。
    • 既存手法では,新たな種や環境への適応に再学習が必要であり,効率性に課題がある。
    • ラベル付きデータなしで,汎用的な基礎モデルを活用し,高精度なセグメンテーションを実現すること。
    • 本研究では,Grounding DINO 1.5とSAM 2.1を用いたゼロショットパイプラインで,テキストプロンプトのみでIoU 0.831を達成した。
    • CUB-200-2011データセットにおいて,YOLOv11をファインチューニングした教師ありパイプラインは,IoU 0.912,Dice 0.954,F1 0.953を達成し,既存手法を上回った。
    • プロンプトベースの基礎モデルパイプラインは,特定のタスク向けに学習されたネットワークよりも優れていることが示された。

    Link: https://arxiv.org/abs/2603.00184

  • DOCFORGE-BENCH:文書偽造検出と分析のための包括的ゼロショットベンチマーク [cs.CV]目的:文書偽造検出のためのゼロショットベンチマーク
    • 文書偽造は,経済的損失や社会的混乱を引き起こす可能性があり,その検出は重要である。
    • 既存の評価は,特定のドメインへの適合を必要とし,実用的な部署シナリオでの性能が不明確である。
    • ラベル付き訓練データなしで,文書偽造検出手法の汎用性と実用性を評価すること。
    • 既存手法はPixel-AUCは高いものの,Pixel-F1は低いというギャップが見られた。
    • このギャップは識別能力の欠如ではなく,閾値設定の誤りによるものであり,偽造領域のピクセル比率が低いことが原因である。
    • ドメイン画像上で閾値を調整することで,Oracle-F1とのギャップの39-55%を回復可能であることが示された。

    Link: https://arxiv.org/abs/2603.01433

  • Pri4R:特権的な4D表現を用いたビジョン-言語-行動モデルにおける世界ダイナミクスの学習 [cs.RO, cs.CV, cs.AI, cs.RO]目的:ビジョン-言語-行動モデルにおける世界ダイナミクスの学習
    • 人間は自身の行動と環境の変化を理解する。それをモデルに組み込むことは,より高度な行動遂行に繋がる。
    • 既存のVLAモデルは意味理解に優れる一方,物理的相互作用を司る時空間的なダイナミクスを捉えきれていない。
    • 特権的な4D情報を活用し,VLAモデルに世界ダイナミクスに関する暗黙的な理解を付与することで課題を解決する。
    • Pri4Rは,軽量な点追跡ヘッドをVLAに追加し,3D点追跡を予測することで,シーンジオメトリの変化をモデルに取り込む。
    • シミュレーションおよび実環境での評価において,難しい操作タスクにおいて著しい性能向上が確認された(LIBERO-Longで+10%,RoboCasaで+40%)。
    • 3D点追跡予測が,行動-世界ダイナミクスの学習に有効な教師信号であることが示された。

    Link: https://arxiv.org/abs/2603.01549

  • 手書き文字認識のためのTransformerへのN-gram注入:動的な言語モデル適応 [cs.CC, cs.CV]目的:手書き文字認識における動的な言語モデル適応
    • 手書き文字認識は,デジタル化や情報検索において重要な技術である。
    • 言語分布のずれにより,手書き文字認識の性能が低下することが課題である。
    • ターゲットコーパスの言語分布への適応を通じて,性能低下を抑制することを目指す。
    • 提案手法であるN-gram注入は,ターゲットコーパスに適応した言語モデルを動的に適用する。
    • 追加学習なしで,言語バイアスを軽減し,認識精度を向上させることが示された。
    • 3つの手書き文字データセットでの実験により,性能ギャップの削減効果が確認された。

    Link: https://arxiv.org/abs/2603.03930

  • PlaneCycle:アダプターなしで,事前学習済み2Dモデルを3Dに変換する学習不要手法 [cs.CV, cs.AI]目的:事前学習済み2Dモデルの3Dデータへの拡張
    • 大規模な2Dモデルは強力な表現能力を持つが,3Dデータへの応用は困難。
    • 既存手法は再学習,アダプター,アーキテクチャ変更が必要で,効率性に課題がある。
    • 事前学習済み2Dモデルの構造変更や学習なしに,3D能力を付与すること。
    • PlaneCycleは,2Dモデルの空間集約を循環的に分配することで,学習なしに3D融合を可能にする。
    • 線形プローブによる評価で,2Dベースラインや既存の3Dモデルを上回り,学習済みモデルに匹敵する性能を示す。
    • フルファインチューニングでは,標準的な3Dアーキテクチャと同等の性能を実現し,実用性を実証した。

    Link: https://arxiv.org/abs/2603.04165

  • 学習不要な拡散セグメンテーション器の汎化性能向上 [cs.DC, cs.CV]目的:拡散モデルの生成能力を活かしたセグメンテーションのスケールアップ
    • 画像生成モデルの発展は,画像認識などの他の分野への応用が期待されている。
    • 既存手法では,拡散モデルの能力向上にも関わらず,セグメンテーション性能が必ずしも向上しない。
    • クロスアテンションの解釈と活用を通じて,拡散モデルの生成能力をセグメンテーションに効果的に活かす。
    • 本研究では,クロスアテンションマップの集約とピクセルごとの再スケーリングという2つの手法を提案した。
    • これらの手法により,学習不要な拡散セグメンテーション器が生成能力をより有効に活用できることを示した。
    • 標準的なセグメンテーションベンチマークで性能が向上し,生成タスクへの応用も確認された。

    Link: https://arxiv.org/abs/2603.06178

  • OptiRouletteオプティマイザー:最速5.3倍の収束を実現する新しい確率的メタオプティマイザー [cs.LG, cs.AI, cs.CV, cs.NE]目的:画像分類における最適化手法の改善
    • 深層学習の性能向上には,最適化手法の選択が重要である。
    • 従来の最適化手法では,収束の安定性や速度に課題が残る場合がある。
    • 複数の最適化手法を組み合わせることで,よりロバストで高速な学習を目指す。
    • OptiRouletteは,CIFAR-100において平均テスト精度を9.22%向上させた。
    • CIFAR-100-C, SVHN, Tiny ImageNet, Caltech-256においても,精度向上と学習時間の短縮が確認された。
    • OptiRouletteは,従来のAdamWよりも高い目標精度に安定して到達することが示された。

    Link: https://arxiv.org/abs/2603.06613

  • GameVerse:視覚言語モデルはビデオに基づく内省から学習できるか [cs.CV, cs.AI]目的:ビデオゲームにおける内省的な視覚的相互作用ループを可能にするベンチマーク
    • ゲームプレイは,視覚的な情報と行動の繰り返しであり,AIの学習において重要な役割を果たす。
    • 従来の評価方法では,AIが視覚的経験をどのように内面化し,改善していくかを評価できない。
    • 視覚言語モデルがビデオを介した内省を通じて学習し,戦略を改善できるか検証する。
    • 視覚言語モデルは,多様な環境下でビデオに基づく内省から恩恵を受けることが示された。
    • 失敗事例と専門家のチュートリアルを組み合わせることで,最も高い性能を発揮することが明らかになった。
    • これは,強化学習と教師ありファインチューニングを組み合わせた学習方法と類似している。

    Link: https://arxiv.org/abs/2603.06656

  • 幾何学的ボトルネックの打破:非対称クロスモーダル蒸留におけるコントラスト拡張 [cs.CV]目的:非対称アーキテクチャ間の知識蒸留における表現空間の幾何学的制約緩和
    • 多様なモデル間での知識伝達は,モデルの汎化性能向上に不可欠である。
    • 知識蒸留において,教師モデルと生徒モデルの容量差が表現の崩壊を引き起こす。
    • コントラスト学習による表現の拡張を通じて,生徒モデルの潜在的な能力を引き出す。
    • 画像認識モデル(CNN)への知識蒸留において,表現の次元崩壊が確認された。
    • コントラスト学習を導入することで,生徒モデルの表現空間を効果的に拡張することができた。
    • 過剰なパラメータ化はモデルの不安定性を招き,制約されたモデルはノイズ耐性を持つことが示された。

    Link: https://arxiv.org/abs/2603.06698

  • SODA:拡散Transformerの感度に基づいた動的加速 [cs.HC, cs.CV]目的:拡散Transformerの推論効率向上
    • 視覚生成において拡散Transformerが主流だが,推論速度がボトルネックとなっている。
    • 既存手法は,キャッシュとプルーニングのバランスが固定化されており,柔軟性に欠ける。
    • 感度に基づいた動的加速により,生成品質を維持しつつ,推論効率を向上させる。
    • SODAは,時間ステップ,レイヤー,モジュールごとに感度をモデル化するオフラインフレームワークを構築した。
    • 動的計画法によりキャッシュ間隔を最適化し,感度誤差を最小限に抑えることで,生成品質の低下を防いだ。
    • DiT-XL/2,PixArt-α,OpenSoraでの実験により,SODAが最先端の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.07057

  • VirtueBench:長編ビデオ理解における不確実性下での信頼性評価 [cs.CV]目的:長編ビデオ理解におけるモデルの信頼性評価
    • マルチモーダル理解は,画像と言語を統合することで,より高度な情報処理が可能になる。
    • 長編ビデオ理解では,必要なフレームが入力から欠落しやすく,評価が不安定になりやすい。
    • 不確実性下で正直に回答を拒否するモデルを評価するためのベンチマークが求められている。
    • VirtueBenchは,異なるフレームサンプリングレベルと回答可能性の正解データを用いてモデルの信頼性を評価する。
    • 25のオープンソースおよび商用VLMsの評価では,モデルの信頼性(拒否精度)に大きなばらつきが見られた。
    • 明示的な拒否要求がない場合,ほとんどのモデルの拒否率は大幅に低下することが示された。

    Link: https://arxiv.org/abs/2603.07071

  • 網膜VLMにおけるドメイン特化知識のアンカリングのための深層専門家注入 [cs.CV, cs.AI]目的:網膜VLMにおけるドメイン特化知識のアンカリング
    • 眼科診断の自動化は医療現場での負担軽減に不可欠であり,LVLMはその大きな可能性を秘めている。
    • 汎用的な視覚エンコーダーでは微細な病理学的特徴を捉えきれず,臨床応用における信頼性に課題がある。
    • 専門家の知識をVLMに効率的に組み込み,視覚的証拠に基づいた根拠のある推論を実現すること。
    • 提案手法EyExInは,専門家向けデュアルストリームエンコーディングとセマンティック適応型ゲート融合モジュールにより,微細な病変信号を増幅し,背景ノイズを抑制する。
    • 適応的深層専門家注入メカニズムにより,中間LLM層に視覚的アンカーを埋め込み,推論スタックを視覚的証拠に強く結びつける。
    • 4つのベンチマークにおいて,大規模なプロプライエタリシステムを凌駕し,眼科画像質問応答において最先端の精度を達成した。

    Link: https://arxiv.org/abs/2603.07131

  • 深層学習ベースの計算病理における解釈性向上のためのクラス可視化と活性アトラス [cs.CV]目的:深層学習モデルにおける解釈性向上
    • 病理診断の精度向上に,AI技術の活用が期待されている。
    • 深層学習モデルの複雑化に伴い,その判断根拠の説明が困難になっている。
    • トランスフォーマーモデルの可視化手法を評価し,解釈性を高める。
    • クラス可視化は,形態的に異なる組織を認識する能力を維持したが,類似した癌サブクラスの識別は困難であった。
    • 活性アトラスは,層によって異なる組織化を示し,粗いレベルでは明確な領域を形成するが,細かいサブクラスでは分散と重複が見られた。
    • アトラスの分離性は,専門家の意見との一致度を示し,表現の曖昧さは病理学的複雑さを反映していることが示唆された。

    Link: https://arxiv.org/abs/2603.07170

  • 骨格潜在拡散による高精度な医療形状生成 [cs.CV]目的:医療形状の高精度生成
    • 医療データ解析において,解剖学的形状のモデル化は不可欠である。
    • 解剖構造の幾何学的複雑さや位相変化が,正確な形状生成の課題となっている。
    • 構造的事前知識を組み込み,効率的かつ高精度な形状生成を目指す。
    • 提案手法は,形状オートエンコーダと潜在空間拡散モデルを組み合わせることで,高精度な形状再構成と生成を可能にする。
    • 大規模データセットMedSDFを構築し,限られた医療形状データの問題を解決した。
    • 実験結果から,既存手法と比較して,再構成・生成品質と計算効率において優れていることが示された。

    Link: https://arxiv.org/abs/2603.07504

  • IMSE:テスト時適応のためのスペクトル専門家混合の固有微調整 [cs.CV, cs.AI]目的:テスト時適応における性能劣化の防止
    • 事前学習済みモデルの汎用性が高く,様々なタスクに応用可能であるため,その活用が重要である。
    • テストデータと学習データの分布が異なる場合,性能が低下するという課題が存在する。
    • テストデータ分布の変化に対応し,少ないパラメータで高性能を維持することを目指す。
    • 提案手法IMSEは,Vision Transformerに内在するスペクトル専門家を活用し,特異値のみを更新することで適応を実現する。
    • エントロピー最小化が特徴崩壊を引き起こす問題を,専門家入力アライメントに基づく多様性最大化損失で解決する。
    • 継続的なテスト時適応において,ドメイン認識スペクトルコード検索により,過去の知識の再利用を可能にする。

    Link: https://arxiv.org/abs/2603.07926

  • Video2LoRA: 参照動画に基づくLoRAによる統一的な意味制御ビデオ生成 [cs.CV]目的:多様なビデオ生成条件における意味的整合性
    • ビデオ生成技術は,コンテンツ制作や表現の可能性を広げる上で不可欠である。
    • 既存手法は,柔軟性に欠けるか,条件ごとの学習が必要であり,効率的な意味制御が困難である。
    • 参照動画に基づき,汎用的な意味制御ビデオ生成を実現し,その効率性を高めることを目指す。
    • Video2LoRAは,参照動画に基づき,軽量なハイパーネットワークを用いてLoRA重みを予測する。
    • これにより,凍結された拡散バックボーンに統合された適応的なLoRAモジュールを形成し,条件ごとの学習を不要とする。
    • 結果として,参照動画の意味を維持しつつ,スタイルやコンテンツの多様性を保った一貫性のあるビデオ生成を可能にした。

    Link: https://arxiv.org/abs/2603.08210

  • SlowBA:VLMベースGUIエージェントに対する効率性バックドア攻撃 [cs.CR, cs.CL, cs.CV]目的:VLMベースGUIエージェントの応答効率を標的とするバックドア攻撃
    • GUIエージェントは正確性だけでなく低遅延応答が求められるため,そのセキュリティ確保は重要である。
    • GUIエージェントのセキュリティ研究は主に正確性に偏っており,応答効率に関するリスクは未解明である。
    • 応答遅延を意図的に増加させ,VLMベースGUIエージェントの応答効率を低下させる攻撃を解決する。
    • 提案手法SlowBAは,特定のトリガーパターン下で過剰な推論連鎖を誘発し,応答遅延を増大させる。
    • 二段階の報酬レベルバックドア注入(RBI)戦略により,長い応答形式の整合性とトリガー認識型活性化を学習する。
    • 実験により,少量のポイズニング率でも攻撃が有効であり,既存の防御設定下でも効果が確認された。

    Link: https://arxiv.org/abs/2603.08316

  • StructBiHOI:長期間にわたる両手物体相互作用生成のための構造化関節モデリング [cs.RO, cs.CV]目的:長期間にわたる両手物体相互作用生成
    • ロボット工学において,人間のような器用な操作を実現するには,両手による複雑な相互作用の理解が不可欠である。
    • 既存の手法は,単一の手による把持に焦点を当てており,両手による操作の長期的な計画の安定性や複雑な協調性に課題がある。
    • 本研究は,長期的な安定性と物理的妥当性を保ちながら,両手による自然な物体操作生成を可能にすることを目指す。
    • 提案手法StructBiHOIは,時間的な関節計画とフレームレベルでの微調整を構造的に分離することで,長期的な安定性を実現している。
    • 関節VAEとmaniVAEという階層的な設計により,一貫性のある両手協調と物体相互作用を促進し,計算効率も向上している。
    • 実験結果から,提案手法が既存手法と比較して,長期的な安定性,動作のリアリズム,計算効率において優れていることが示された。

    Link: https://arxiv.org/abs/2603.08390

  • レンジ・ナル空間分解に基づくスケーラブルなニューラル・ボコーダ [cs.CL, cs.SD]目的:レンジ・ナル空間分解理論とボコーダタスクの接続
    • 近年の深層学習の進展により音声合成は飛躍的に向上したが,モデルの解釈性や柔軟性に課題が残る。
    • ニューラル・ボコーダは,モデルの不透明性,入力条件変更時の再学習の困難さ,パラメータと性能のトレードオフに悩まされている。
    • これらの問題を解決し,軽量かつスケーラブルな高性能ボコーダを開発することを目指す。
    • 提案手法は,レンジ空間とナル空間の重ね合わせによりスペクトログラムを再構成する。
    • デュアルパスフレームワークによりスペクトルの階層的なエンコード・デコードを実現し,良好な音質を達成した。
    • 様々なベンチマークにおいて,最先端の性能を達成し,推論のスケーラビリティも高いことが示された。

    Link: https://arxiv.org/abs/2603.08574

  • PRISM:関節ごとの潜在分解によるストリーミング人間モーション生成 [cs.CV]目的:人間モーション生成における課題解決
    • 人間モーション生成は,ロボット工学やバーチャルリアリティなど,多様な分野で重要な役割を担う。
    • 既存手法では,各フレームを単一の潜在ベクトルに圧縮するため,軌跡と関節回転が混在し,生成精度が制限される。
    • 本研究では,関節ごとに潜在空間を分解することで,生成品質の向上とタスク統合を目指す。
    • PRISMは,関節ごとに潜在空間を分解する手法により,生成品質を大幅に向上させた。
    • テキストからのモーション生成,ポーズ条件生成,長期間シーケンス合成を単一のモデルで実現した。
    • HumanML3D,MotionHub,BABEL等のデータセットで最先端の性能を達成し,ユーザースタディでも高い評価を得た。

    Link: https://arxiv.org/abs/2603.08590

  • 新規視点合成事前知識を用いた画像圧縮 [eess.IV, cs.CV, cs.RO]目的:画像圧縮手法の開発
    • 遠隔操作ロボットの性能向上には,リアルタイムな視覚情報が不可欠である。
    • 水中音響通信の帯域制限により,リアルタイムな画像・動画伝送は困難である。
    • 事前情報に基づき圧縮率と画質を向上させ,遠隔操作ロボットの運用を支援する。
    • 提案手法は,既存の手法と比較して,圧縮率と画質の双方で優れた性能を示した。
    • 本手法は,新たなオブジェクトが導入された場合でもロバスト性を維持する。
    • これにより,水中遠隔操作ロボットの自律運用への応用が期待される。

    Link: https://arxiv.org/abs/2411.13862

  • 多数決の差に基づく投票ルールの特徴づけ [econ.TH, cs.GT, cs.MA]目的:投票ルールの性質に関する研究
    • 民主的な意思決定において,投票は重要な役割を果たす。
    • 既存の投票ルールは,その公平性や操作可能性に課題が残されている。
    • 多数決の差に基づくルールをより深く理解し,その妥当性を評価する。
    • 投票ルールが多数決の差に基づくことと,特定の公理を満たすことが数学的に同値であることが示された。
    • 「優先的平等」という新たな公理が,この同値性の根拠となる重要な要素であることが明らかになった。
    • この研究は,投票ルールの設計と評価における新たな視点を提供する。

    Link: https://arxiv.org/abs/2501.08595

  • テキストなし・非並列音声対話における感情スタイル変換 [math.CO, cs.DM, math.MG, quant-ph, cs.SY, eess.SY, eess.AS, cs.SD]目的:音声対話における感情スタイル変換
    • 感情認識技術の向上は,人間と機械の自然なコミュニケーション実現に不可欠である。
    • 既存手法では,テキストデータや並列データが必要となり,適用範囲が限定される。
    • テキストや並列データなしで,感情を自然に変換する手法を開発する。
    • 提案手法S2S-ZESTは,分析・合成パイプラインを用いて,音声の感情スタイルを変換する。
    • この手法は,テキストや並列データなしで,既存手法よりも高い性能を示す。
    • また,感情認識タスクにおけるデータ拡張への応用可能性も示唆された。

    Link: https://arxiv.org/abs/2505.17655

  • トポロジー制約のないワイヤレス音響センサーネットワークにおける高速収束型分散信号推定 [eess.AS, cs.SD]目的:トポロジー制約のないワイヤレス音響センサーネットワークにおける分散信号推定
    • 音響センサーネットワークは,環境モニタリングやセキュリティなど,多様な応用分野で活用が期待されている。
    • 従来の分散推定アルゴリズムは,ネットワークの接続性や変動に弱く,収束速度が遅いという課題があった。
    • 本研究は,ネットワークトポロジーに依存しない分散推定アルゴリズムの収束速度を向上させることを目指す。
    • 提案手法TI-DANSE+は,隣接ノードからの部分的な融合信号の和を用いることで,従来のTI-DANSEよりも高速な収束を実現した。
    • 全接続ネットワークにおいては,TI-DANSE+はオリジナルDANSEと同等の収束速度を示し,ブロードキャストの代わりにピアツーピア通信を用いることで通信帯域を節約する。
    • リンク障害が発生した場合でも,TI-DANSE+は中心化解への収束を維持し,様々なネットワーク環境への適用が可能である。

    Link: https://arxiv.org/abs/2506.02797

  • 人間知覚に基づくコントラスト言語・音声事前学習 (Human-CLAP) [eess.AS, cs.SD]目的:言語と音声の関連性評価の改善
    • 音声とテキストの関連性評価は,テキスト読み上げなどのタスクにおいて重要である。
    • 既存のCLAPScoreと人間による主観評価との相関が低いという課題がある。
    • 人間知覚に基づくCLAP(Human-CLAP)により,主観評価との相関を高める。
    • 従来のCLAPと比較して,Human-CLAPはCLAPScoreと主観評価間のスピアマンの順位相関係数を0.25以上向上させた。
    • CLAPScoreと人間による主観評価との間に,必ずしも高い相関関係が存在しないことが示された。
    • Human-CLAPは,主観評価スコアを用いてコントラスト言語・音声モデルを学習することで,評価性能を向上させる。

    Link: https://arxiv.org/abs/2506.23553

  • VSSFlow:ビデオ条件付き音声および音声生成の統合:共同学習によるアプローチ [math.CO, cs.DM, eess.AS, cs.AI, cs.CL, cs.CV, cs.SD]目的:ビデオ条件付き音声生成と視覚的テキストから音声合成の統合
    • 映像と音響情報の相互理解は,人間とコンピュータのインタラクションにおいて重要であり,その発展が求められる。
    • ビデオから音を生成するタスクと,視覚情報から音声を合成するタスクは,従来別個に扱われてきた。
    • 両タスクを統合的に処理することで,より汎用的な生成モデルの構築を目指す。
    • VSSFlowは,ビデオ条件付き音声生成と視覚的テキストから音声合成を統一的に解決するflow-matchingフレームワークである。
    • Diffusion Transformerアーキテクチャにおいて,条件情報を効果的に扱うため,注意層の特性に応じた条件集約メカニズムを提案した。
    • 共同学習が性能低下を招くという従来の考え方とは異なり,VSSFlowは優れた性能を維持し,合成データへの適応性も示した。

    Link: https://arxiv.org/abs/2509.24773

  • アクセント生成のための離散音声表現トークンの再考 [cond-mat.soft, cs.RO, physics.app-ph, physics.flu-dyn, physics.med-ph, eess.AS, cs.CL, cs.SD]目的:アクセント情報の符号化
    • 音声合成技術の発展は,自然なコミュニケーションに不可欠であり,その品質向上は重要な課題である。
    • 離散音声表現トークンにおけるアクセント情報の符号化は未解明な点が多く,合成音声の自然性に影響を与えている。
    • アクセント情報を効果的に符号化し,高品質なアクセント生成を可能にする方法を明らかにすることを目指す。
    • DSRTの層の選択がアクセント情報の保持に最も影響を与えることが示された。
    • 自動音声認識(ASR)による教師あり学習は,DSRTにおけるアクセント情報を大幅に減少させることが明らかになった。
    • 単純なコードブックサイズ削減では,アクセント情報を音素および話者情報から効果的に分離することは困難である。

    Link: https://arxiv.org/abs/2601.19786

  • 拡散トランスフォーマを用いた完全性知覚の活用による3D MRI合成の統合 [eess.IV, cs.CV]目的:3D MRIの統一的合成
    • 臨床現場では,マルチモーダル脳MRIや心臓MRIにおける欠損データが課題となる。
    • 既存手法は外部ガイダンスに依存し,臨床環境での信頼性や情報量が不十分である。
    • モデルが自己知覚的に欠損状態を推論し,解剖学的・病理学的変動を捉えることを目指す。
    • 提案手法CoPeDiTは,既存手法と比較して,様々な欠損パターンにおいて優れた堅牢性と高忠実度な構造的整合性を持つ合成MRIを実現した。
    • CoPeVAEというトークナイザーとMDiT3Dという拡散トランスフォーマアーキテクチャを組み合わせることで,完全性知覚を組み込んだ。
    • CoPeVAEは完全性を認識した識別プロンプトを学習し,MDiT3Dはそれを3D空間における意味的一貫性を高めるためのガイダンスとして活用する。

    Link: https://arxiv.org/abs/2602.18400

  • ポリベンチ:多声音響における構成的推論のためのベンチマーク [eess.AS, cs.SD]目的:多声音響における構成的推論の評価
    • 近年,音声処理分野では大規模言語モデルの活用が進んでおり,その能力向上が期待されている。
    • 既存のベンチマークは,複数の音が同時に発生する多声音響における推論能力の評価が不十分である。
    • 多声音響における構成的推論能力のボトルネックを特定し,その改善に貢献すること。
    • 最先端の音声言語モデルの評価結果から,多声音響において性能が低下することが示された。
    • これは,現在の音声言語モデルが多声音響における構成的推論に課題を抱えていることを示唆している。
    • ポリベンチは,数え上げ,分類,検出,同時発生,持続時間の推定を含む5つの評価サブセットで構成されている。

    Link: https://arxiv.org/abs/2603.05128