arXiv雑要約

画像・音声 - 2026/02/02 公開

  • トークンから光子へ:ビジョン言語モデルのためのテスト時物理プロンプティング [cs.CV]目的:ビジョン言語モデルのテスト時適応における物理プロンプティングの有効性
    • 画像認識技術は,現実世界での応用が期待されており,多様な環境への適応が重要である。
    • 従来の適応手法は,計算コストが高く,モデルの変更を必要とする場合がある。
    • カメラ設定を物理プロンプトとして活用し,効率的なテスト時適応を実現すること。
    • 提案手法MVPは,カメラのISO,シャッタースピード,絞りを物理プロンプトとして活用することで,テスト時適応の性能を向上させる。
    • ImageNet-ESおよびImageNet-ES-Diverseにおいて,従来のデジタル適応手法を最大25.6%ポイント上回る性能を示した。
    • 測定時の制御によるロバスト性の向上が確認され,現実環境での応用可能性を示唆している。

    Link: https://arxiv.org/abs/2512.12571

  • Uni-Parser 技術報告 [cs.CV]目的:科学文献および特許文書の解析エンジン
    • 科学技術情報の爆発的増加に対応するため,効率的な情報抽出が不可欠である。
    • 従来のパイプライン型解析では,異種データの関連性が失われやすい。
    • 大規模文書群からの迅速かつ正確な情報抽出を可能にする。
    • Uni-Parserは,テキスト,数式,表,図,化学構造間の詳細な対応関係を維持する。
    • 8基のNVIDIA RTX 4090D GPUで毎秒最大20ページを処理可能であり,コスト効率に優れる。
    • 大規模言語モデルやAI4Scienceモデルの学習用コーパスの構築を促進する。

    Link: https://arxiv.org/abs/2512.15098

  • 単眼カメラによる大規模3D再構築のための深度,姿勢,ローカルラディアンスフィールドの同時学習 [cs.CV, cs.RO]目的:大規模な単眼3D再構築における深度,姿勢,ラディアンスの同時学習
    • 現実世界を3Dで認識することは,ロボット工学や拡張現実など,様々な分野で不可欠である。
    • 単眼カメラからの3D再構築は,スケール曖昧性やドリフト,大規模シーンでの表現の困難さといった課題がある。
    • 単眼映像から,大規模で高精度な3D再構築と新規視点合成を実現すること。
    • 提案手法は,Vision Transformerを用いた深度推定と,特徴空間でのBAにより,スケールに依存しない一貫性のある深度と,ドリフトの少ない姿勢推定を可能にした。
    • インクリメンタルなローカルラディアンスフィールド階層を用いることで,単一GPUで市街地規模のシーンを表現できるようになった。
    • Tanks and Templesベンチマークにおいて,既存手法を大幅に上回る精度で3D再構築と新規視点合成を実現した。

    Link: https://arxiv.org/abs/2512.18237

  • マルチエージェント適応メカニズム設計 [cs.GT, cs.AI, cs.LG, cs.MA, econ.TH]目的:複数エージェントからの真実な報告の引き出し
    • 社会的な資源配分において,エージェントのインセンティブ設計は効率性と公平性を高める上で重要である。
    • エージェントの信念が未知である場合,真実性を保ちつつ最適なメカニズムを設計することは困難である。
    • エージェントの信念を学習しながら,真実性を維持し,累積後悔を最小化する適応メカニズムを開発する。
    • 提案手法であるDRAMは,真実性を高い確率で保証し,累積後悔が$\tilde{O}(\sqrt{T})$で収束することを示した。
    • この後悔の限界は最適であり,真実性を維持する適応メカニズムの性能限界を示している。
    • DRAMは,構造化された事前情報や遅延フィードバックにも対応可能であり,汎用性が高い。

    Link: https://arxiv.org/abs/2512.21794

  • SLIM-Brain:fMRIデータ解析のためのデータ・学習効率に優れた基盤モデル [cs.CV, q-bio.NC]目的:fMRIデータ解析におけるデータ効率と学習効率の改善
    • 脳機能画像解析は,脳の活動と認知機能の関係解明に不可欠であり,精神疾患の診断や治療にも応用が期待される。
    • 既存の基盤モデルは,大量のデータと計算資源を必要とし,メモリ消費量が大きいため,実用的な応用が困難であるという課題がある。
    • SLIM-Brainは,データと学習の効率性を高めることで,限られた資源でも高性能な脳機能画像解析を可能にすることを目指す。
    • SLIM-Brainは,重要度の高いデータウィンドウのみを選択的に学習することで,従来のvoxelレベルの手法と比較してメモリ使用量を約30%削減した。
    • 7つの公開ベンチマークにおいて,多様なタスクで最先端の性能を達成し,データ効率と学習効率に優れたことが示された。
    • わずか4000回の事前学習セッションで高性能を実現しており,実用的なfMRIデータ解析への応用が期待される。

    Link: https://arxiv.org/abs/2512.21881

  • 深層デルタ学習 [cs.LG, cs.AI, cs.CL, cs.CV]目的:深層残差ネットワークにおけるショートカット接続の一般化
    • 深層学習は,画像認識や自然言語処理など,様々な分野で目覚ましい成果を上げている。
    • 既存の残差ネットワークは,特徴変換に制約があり,複雑な状態遷移のモデリングが困難である。
    • データ依存的なショートカットを学習することで,より柔軟な特徴表現を獲得し,性能向上を目指す。
    • 深層デルタ学習(DDL)は,固定された恒等写像から学習可能な状態依存線形演算子へのショートカットの一般化を提案する。
    • DDLは,Transformerの残差加算を置き換えることで,検証損失とパープレキシティを改善し,言語モデリングタスクにおける評価精度を向上させる。
    • 特に,拡張状態設定において大きな改善が見られ,ショートカットスペクトルの明示的な制御が可能となる。

    Link: https://arxiv.org/abs/2601.00417

  • 教師なし音声強調のための拡散モデルに基づくフレームワーク [cs.MA, cs.CL, cs.SD]目的:教師なし単チャンネル音声強調の実現
    • 音声強調は,通信,補聴器,音声認識など幅広い応用分野において重要な技術である。
    • 既存手法は,多くの場合,クリーンな音声データが必要であり,実環境での利用が困難である。
    • 本研究は,クリーンな音声データなしで高品質な音声強調を実現することを目指す。
    • 提案手法では,音声と雑音を潜在変数として明示的にモデル化し,Eステップで両者を同時にサンプリングする。
    • NMFベースのノイズ事前分布を拡散ベースのノイズモデルに置き換えることで,新たな音声強調フレームワークを提案する。
    • 実験結果から,明示的なノイズモデリングが音声強調性能を向上させることが確認された。特に,マッチ条件では拡散モデルが,ミスマッチ条件ではNMFベースの手法が優れている。

    Link: https://arxiv.org/abs/2601.09931

  • インペインティングを超えて:精密なカメラ制御のための3D理解を活用したビデオ生成 [cs.CL, cs.CV, cs.GR]目的:正確なカメラ制御によるビデオ生成手法の開発
    • ビデオ生成において,カメラ制御は重要な要素であり,表現の幅を広げる上で不可欠である。
    • 既存手法は,3D表現の歪みによる内容の不整合や品質劣化といった課題を抱えている。
    • ビデオ拡散モデルの3D理解を活用し,内容を忠実に維持しつつ,精密なカメラ制御を実現すること。
    • 提案手法DepthDirectorは,明示的な3D表現から得られる深度ビデオをカメラ制御の指針として活用する。
    • View-Content Dual-Stream Condition機構により,ソースビデオとターゲット視点からレンダリングされた深度シーケンスをビデオ生成モデルに注入する。
    • 8K解像度・1Kシーンを含む大規模データセットMultiCam-WarpDataを構築し,実験により既存手法を上回る性能を実証した。

    Link: https://arxiv.org/abs/2601.10214

  • DanQing:最新の大規模中国語ビジョン言語事前学習データセット [cs.CV, cs.AI]目的:大規模な中国語ビジョン言語データセット
    • 画像とテキストを組み合わせたAI研究は,多様な応用が期待され重要性が高まっている。
    • 中国語のVLPモデル開発は,高品質で大規模なオープンソースデータの不足が課題となっていた。
    • ウェブデータから収集したノイズを軽減し,最新のセマンティック情報を反映したデータセットを構築する。
    • DanQingは,既存の中国語データセットと比較して,多様な下流タスクで優れた性能を示すことが確認された。
    • DanQingは,セマンティック分布のバランスが良く,スケーラビリティに優れているという特徴がある。
    • データセットはCC-BY 4.0ライセンスでオープンソースとして公開され,さらなる研究を促進する。

    Link: https://arxiv.org/abs/2601.10305

  • 少ないほど良し:ラベル誘導による手順型・教育的ビデオの要約 [cs.CV, cs.AI]目的:手順型・教育的ビデオの要約手法
    • ビデオの分析・理解を効率化し,教育やドキュメント作成の負担軽減に貢献する分野。
    • 既存手法では,内容の正確性や文脈の一貫性を保ちつつ,要約の長さを短くすることが課題。
    • 意味に基づいた要約により,内容を維持しつつビデオの長さを大幅に削減すること。
    • 本研究で提案するPRISMは,わずか5%以下のフレーム数で,元のビデオの84%のsemantic contentを維持できる。
    • ラベル誘導によるキーフレームの固定化とLLMによる文脈検証により,無意味なフレームの排除を実現。
    • 手順型・教育的ビデオの両方において,既存手法と比較して最大33%の性能向上を達成。

    Link: https://arxiv.org/abs/2601.12243

  • インタラクティブな横断歩道環境における物体に基づく視線注意予測 [cs.CV]目的:物体に基づく視線注意予測のためのデータセットと評価指標
    • 人間の視線注意は認知科学で重要視されているが,計算モデルへの応用は限定的である。
    • 物体に基づいた視線注意を評価するための適切なデータセットと評価指標が不足していた。
    • 実環境でのデータ収集の難点を克服し,物体に基づく視線注意の評価を可能にすること。
    • ObjectVisA-120という120人参加者のデータセットを構築し,VR環境での横断歩道ナビゲーションにおける視線データを収集した。
    • 新たに物体に基づく類似度(oSIM)という評価指標を提案し,物体に基づく視線注意モデルの性能向上を示した。
    • SUMGraphというMamba U-Netベースのモデルを提案し,既存の視線注意予測手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2601.13218

  • FastGHA:リアルタイムアニメーションが可能な汎用的な少数ショット3Dガウスヘッドアバター [cs.CV]目的:3Dガウスヘッドアバターの生成とリアルタイムアニメーション
    • 近年,バーチャルアバターの需要が高まっており,高品質な3Dアバターの生成技術が求められている。
    • 既存手法は,多視点キャプチャや個人ごとの最適化が必要で,未知の人物への適用や効率性に課題がある。
    • 少数枚の画像から高品質なアバターを生成し,リアルタイムアニメーションを可能にすることを目指す。
    • FastGHAは,DINOv3とStable Diffusion VAEの画像特徴を融合するTransformerエンコーダを使用し,少ない画像から高品質なガウスヘッドアバターを生成する。
    • ガウス表現を拡張し,軽量なMLPベースの動的ネットワークにより,表情コードから3Dガウスの変形を予測し,リアルタイムアニメーションを実現する。
    • 大規模再構成モデルからの点マップを幾何学的制約として活用することで,3Dヘッドの形状平滑性を向上させている。

    Link: https://arxiv.org/abs/2601.13837

  • TwinBrainVLA:非対称Mixture-of-Transformersによる汎用VLMの潜在能力の解放 [cs.RO, cs.CV]目的:ロボットタスクにおける汎用VLMの活用
    • 視覚と言語を理解するモデルは,汎用的な知能を実現する上で重要である。
    • ロボットへの適用時に,事前学習された知識が失われる問題がある。
    • 事前学習された能力を維持しつつ,ロボットタスクの性能向上を目指す。
    • TwinBrainVLAは,汎用性と特化性を備えた2つのVLM経路を連携させる。
    • AsyMoT機構により,特化型モデルは汎用型モデルの知識を動的に利用する。
    • SimplerEnvとRoboCasaの実験で,複雑な操作タスクにおいて優れた性能を示した。

    Link: https://arxiv.org/abs/2601.14133

  • 基礎モデルに基づく画像登録フレームワークFMIR:堅牢な画像登録のための基盤 [cs.IR, cs.CV]目的:医療画像登録のための堅牢なフレームワーク
    • 医療画像解析において,正確な画像登録は診断や治療計画の精度向上に不可欠である。
    • 深層学習は高速化に貢献するが,医療データセットの規模が小さいため汎化性能が課題である。
    • 本研究は,限られたデータで汎化性能の高い画像登録フレームワークを構築することを目指す。
    • FMIRは,単一のデータセットでの学習とチャンネル正則化戦略により,最先端の性能を達成した。
    • FMIRは,学習データ内での高性能に加え,学習データ外の画像に対しても堅牢な画像登録を可能にした。
    • 本研究は,限られたリソースでの汎用的な医療画像基盤モデル構築の可能性を示唆する。

    Link: https://arxiv.org/abs/2601.17529

  • LLM強制アライメント:多言語・長尺音声のための非自己回帰型かつ高精度なLLMベースの強制アライメントツール [cs.SD, eess.AS]目的:多言語,クロスリンガル,長尺音声における強制アライメントの実現
    • 音声認識の精度向上に不可欠であり,様々な音声処理タスクの基礎技術である。
    • 既存手法は言語依存性が高く,長尺音声では時間ずれが累積しやすいという課題がある。
    • 大規模言語モデルの能力を活用し,時間ずれの少ない高精度な強制アライメントを実現すること。
    • LLM強制アライメントは,強制アライメントをスロット埋め方式として再構築することで,幻覚を抑制し,高速な推論を可能にした。
    • 実験の結果,先行手法と比較して,累積平均シフトが69%~78%相対的に減少することが示された。
    • 非自己回帰型推論により,時間ずれを抑制しつつ,効率的な処理を実現している。

    Link: https://arxiv.org/abs/2601.18220

  • コールドスタートからアクティブラーニングへ:埋め込みベースのスキャン選択による医用画像セグメンテーション [cs.CV, cs.LG]目的:医用画像セグメンテーションにおける効果的なスキャン選択戦略の開発
    • 医用画像セグメンテーションは,疾患モニタリングにおいて不可欠であり,高精度なアノテーションが求められる。
    • 手動アノテーションには専門知識と時間が必要であり,その負担がセグメンテーションのボトルネックとなっている。
    • 本研究は,効率的なアノテーションのための,埋め込みとクラスタリングを活用した新たなコールドスタート戦略を提案する。
    • 提案手法は,CheXmaskデータセットにおいて,ランダム選択と比較してDice係数を0.918から0.929へ,Hausdorff距離を32.41mmから27.66mmへ改善した。
    • アクティブラーニング設定では,エントロピーと多様性の組み合わせにより,Dice係数を0.919から0.939へ,Hausdorff距離を30.10mmから19.16mmへ改善した。
    • Montgomeryデータセットでも,コールドスタート戦略により,Dice係数は0.928から0.950へ,Hausdorff距離は14.22mmから9.38mmへと大幅に改善された。

    Link: https://arxiv.org/abs/2601.18532

  • 人工知能に基づくワークフローを用いた皮膚病理百科事典DermpathNetの構築 [cs.CV]目的:皮膚病理画像データセットの構築と分類
    • 臨床医や研修医にとって,高品質な皮膚病理画像の学習・参照は不可欠である。
    • 学習やクロスリファレンス用の高品質なオープンアクセス皮膚病理画像データセットが不足している。
    • 教育,参照,機械学習のための包括的なオープンアクセスデータセットを構築することを目的とする。
    • PubMed Centralから画像を抽出・分類するため,深層学習と画像キャプション分析を組み合わせたハイブリッド手法を開発した。
    • 651件のマニュアルアノテーション画像を用いた検証で,ハイブリッド手法はF値90.4%という高い精度を示した。
    • 166の診断にわたる7,772枚以上の画像を収集し,皮膚病理専門医によるレビュー済みの,完全に注釈付きのデータセットDermpathNetを公開した。

    Link: https://arxiv.org/abs/2601.19378

  • エントロピー誘導型k-ガードサンプリングによる長期間の自己回帰型ビデオ生成 [cs.CV]目的:長期間の自己回帰型ビデオ生成における品質向上
    • 大規模言語モデルの成功から,ビデオ生成への応用が期待されている。
    • ビデオトークンは冗長性が高く,静的なトップk/トップp戦略は効果が低い。
    • トークンごとの分散に応じたサンプリング戦略で,品質劣化を抑制すること。
    • 提案手法であるエントロピー誘導型k-ガードサンプリングは,トークンごとのエントロピーに基づいて候補数を適応的に変化させる。
    • 低エントロピー領域では候補数を減らし,ノイズを抑制し構造を維持する。
    • 高エントロピー領域では候補数を増やし,誤差の蓄積を軽減する。

    Link: https://arxiv.org/abs/2601.19488

  • MARE:視覚言語モデルによる説明可能なディープフェイク検出のためのマルチモーダルアライメントと強化学習 [cs.CL, cs.HC, cs.RO, cs.CV]目的:ディープフェイク検出における視覚言語モデルの精度と信頼性向上
    • 悪意のあるコンテンツ拡散対策として,ディープフェイク検出技術の重要性が高まっている。
    • 生成モデルの急速な進化により,既存のディープフェイク検出手法では対応が困難になっている。
    • 視覚と言語情報を連携させ,人間による評価を取り入れた強化学習で検出精度を向上させる。
    • MAREは,人間の好みに沿ったテキストと空間情報を整合させた推論内容を生成することで,視覚言語モデルの性能を向上させる。
    • 偽造痕跡を捉える偽造解離モジュールを導入し,ディープフェイクの真偽判定能力を高めている。
    • 定量・定性実験の結果,MAREはディープフェイク検出において最先端の性能を達成した。

    Link: https://arxiv.org/abs/2601.20433

  • 学習エージェントによる輻輳ゲームにおける不平等 [cs.HC, cs.RO, cs.MA, cs.GT, cs.AI]目的:交通ネットワーク拡張による不平等の発生機構の解明
    • 交通ネットワークは都市機能の維持に不可欠であり,その最適化は社会全体の効率に影響する。
    • ネットワーク拡張が必ずしも公平な利益分配に繋がらず,不平等を拡大する可能性が指摘されている。
    • 学習速度の異なるエージェントの相互作用を通して,不平等の発生メカニズムを定量的に評価する。
    • ネットワークの拡張は,全体的な効率を向上させつつ,学習速度の速い通勤者により大きな利益をもたらし,不平等を増幅する可能性がある。
    • 特に,Braessのパラドックスのようなネットワーク構造において,この傾向が顕著に現れることがシミュレーションによって示された。
    • 交通政策は,均衡状態だけでなく,通勤者の適応過程の多様性を考慮し,効率性と公平性のバランスを取る必要がある。

    Link: https://arxiv.org/abs/2601.20578

  • オープンボキャブラリに基づく機能的な3Dヒューマン-シーンインタラクション生成 [cs.CV, cs.AI]目的:3Dシーンにおける機能的なヒューマン-シーンインタラクションの生成
    • 具現化されたAI,ロボティクス,インタラクティブコンテンツ作成などへの応用が期待される研究分野である。
    • 既存手法はオブジェクトの機能性や接触に関する明示的な推論が不足し,不自然なインタラクションが生じやすい。
    • オープンボキャブラリのタスクプロンプトから機能的に正しいインタラクションを生成することを目的とする。
    • 提案手法FunHSIは,タスクプロンプトに基づき機能的な接触推論を行い,シーン要素の3D形状を再構築する。
    • FunHSIは,視覚言語モデルを活用してタスクを実行する人間の画像を合成し,3D姿勢を推定する。
    • 段階的な最適化により,物理的な妥当性と機能的な正確性を確保した3D人体の構成を生成する。

    Link: https://arxiv.org/abs/2601.20835

  • LLMベースASRにおけるテキストノイズ除去を通じたテキストのみの適応 [cs.SD, cs.CL, cs.LG, eess.AS]目的:LLMベースASRシステムのテキストのみによるドメイン適応
    • 音声認識技術は,人間と機械のコミュニケーションを円滑にする上で不可欠である。
    • LLMを活用したASRにおいて,ドメイン適応時に音声とテキストの整合性が失われることがある。
    • テキストのみで効率的にドメイン適応を行い,音声とテキストの整合性を維持すること。
    • 提案手法では,LLMをテキストノイズ除去タスクとして学習することで,ドメイン適応とモダリティ整合性の維持を両立する。
    • 実験結果から,提案手法は既存のテキストのみ適応手法と比較して最大22.1%の相対的な性能向上を示すことが確認された。
    • 本手法は,アーキテクチャ変更や追加パラメータを必要とせず,軽量であるという利点がある。

    Link: https://arxiv.org/abs/2601.20900

  • マルチモーダルアンテナ関連識別におけるトークンエントロピー正則化 [cs.CV]目的:マルチモーダルアンテナ関連識別のためのトークンエントロピー正則化手法
    • 通信ネットワークの最適化と維持には,正確なアンテナ関連識別が不可欠である。
    • 従来のアンテナ関連識別は,手間とエラーの多い手動でのタワー検査に依存している。
    • 本研究は,マルチモーダルな分類・照合タスクを通じて,アンテナ関連識別の自動化を目指す。
    • 提案手法であるトークンエントロピー正則化は,学習の収束を加速し,性能を大幅に向上させる。
    • 実験結果から,最初のトークンのエントロピーは,モダリティに依存することが示唆された。
    • 通信分野に特化した事前学習フレームワークにより,クロスモーダルアライメントの課題を克服した。

    Link: https://arxiv.org/abs/2601.21280

  • Qwen3-ASR技術報告 [cs.CL, cs.SD, eess.AS]目的:高性能な音声認識モデルと非自己回帰型強制アライメントモデルの開発
    • 音声認識は,人間と機械のコミュニケーションを円滑にする基盤技術である。
    • 既存の音声認識モデルは,実環境での性能評価が不十分な場合がある。
    • 実用的な性能と効率を両立した音声認識モデルの提供を目指す。
    • Qwen3-ASR-1.7Bは,オープンソースの音声認識モデルの中で最高水準の性能を達成した。
    • Qwen3-ASR-0.6Bは,精度と効率のバランスが優れており,高速な処理を実現した。
    • Qwen3-ForcedAligner-0.6Bは,テキストと音声を正確にアライメントする能力において,既存モデルを上回る。

    Link: https://arxiv.org/abs/2601.21337

  • 多表現生成による統一マルチモーダルモデルの理解力向上 [cs.CV, cs.LG]目的:統一マルチモーダルモデルにおける理解力向上
    • 視覚と言語を統合し,高度な情報処理を実現するマルチモーダルモデルの研究が重要視されている。
    • マルチモーダルモデルの理解力と生成能力の相互強化は課題であり,生成能力を理解力向上に活かす方法は未開拓である。
    • 複数の表現生成を通して,モデルの視覚入力に対する理解を深めることを目指す。
    • 提案手法UniMRGは,ピクセル,深度,セグメンテーションといった多様な表現を生成する補助タスクを導入することで,モデルの理解力を向上させる。
    • 実験の結果,UniMRGはファインチューニングされた認識性能,幻覚の抑制,空間認識能力の向上に貢献することが示された。
    • 理解力の向上に加えて,生成能力も同時に向上することが確認された。

    Link: https://arxiv.org/abs/2601.21406

  • 生成モデリングの高速化のためのバイアンカー補間ソルバー [cs.CV, cs.AI]目的:生成モデリングの高速化
    • 高忠実度な画像合成において,Flow Matchingモデルが重要な役割を担っている。
    • 反復的な常微分方程式の求解に依存するため,遅延が課題となっている。
    • 既存手法の課題を克服し,高速かつ高精度な生成を可能にすること。
    • 提案手法BA-solverは,わずか10回の評価回数で,100回以上の評価回数が必要な従来のソルバーと同等の生成品質を達成した。
    • SideNetを用いることで,バックボーンを再学習することなく,過去と未来の速度を近似し,効率的な速度積分を実現した。
    • BA-solverは既存の生成パイプラインに容易に組み込むことができ,画像編集などの下流タスクを促進する。

    Link: https://arxiv.org/abs/2601.21542

  • PLANING:ストリーミング3D再構成のための疎結合三角形・ガウスフレームワーク [cs.RO, cs.CV]目的:ストリーミング3D再構成のためのフレームワーク
    • 3D再構成は,ロボティクスや拡張現実などの分野で不可欠な技術である。
    • 既存手法は,高品質なレンダリングと正確な幾何形状の両立が難しい。
    • 高品質かつ高速なストリーミング3D再構成を実現する。
    • 提案手法PLANINGは,三角形とニューラルガウスを疎結合したハイブリッド表現を用いる。
    • 幾何形状と外観を分離して最適化することで,安定したストリーミング再構成を可能にした。
    • PGSRと比較してChamfer-L2を18.52%改善し,ARTDECOをPSNRで1.31dB上回る性能を示した。

    Link: https://arxiv.org/abs/2601.22046

  • 反中性子再構成のためのビジョンカロリメーター:ベースライン [hep-ex, cs.CV]目的:反中性子の再構成
    • 高エネルギー物理学において,反中性子は基本的な粒子であり,その運動学的性質の再構成は重要な探求手段である。
    • 従来の電磁カロリメーターでは,入射反中性子の情報を十分に回収することが困難である。
    • 深層学習検出器を用いて,電磁カロリメーターの応答と入射反中性子の特性の関係を解析し,再構成精度を向上させる。
    • ViCは,従来の再構成手法と比較して,入射位置の予測誤差を42.81%削減することに成功した(17.31°から9.90°へ)。
    • 本研究は,入射反中性子の運動量を測定することを初めて実現し,深層学習検出器の粒子再構成における可能性を示唆する。
    • 電磁カロリメーターのセルアレイに堆積した反中性子サンプルのエネルギー分布は,豊富な文脈情報を含んでいる。

    Link: https://arxiv.org/abs/2408.10599

  • MAPSS:多様体に基づく知覚源分離評価 [eess.AS, cs.SD]目的:源分離システムの知覚的評価指標の提案
    • 客観評価と主観評価の乖離が課題であり,より人間らしい評価が求められている
    • 漏洩と自己歪みの相互作用が評価を複雑にしている
    • 漏洩と自己歪みを分離して評価する指標を開発し,より正確な評価を目指す
    • 提案手法PSとPMは,既存の14手法と比較して,人間による主観評価との線形相関が高い
    • 特に,音声と音楽の混合において,それぞれ86.36%,87.21%と高い相関を示した
    • 誤差半径は最大1.39%,95%信頼区間は12.21%であり,信頼性の高い評価が可能である

    Link: https://arxiv.org/abs/2509.09212

  • 最新の音声強調システムは敵対的攻撃を受けやすいか [eess.AS, cs.LG, cs.SD]目的:音声強調システムに対する敵対的攻撃の脆弱性
    • 音声強調は,通信品質向上や音声認識精度向上に不可欠であり,その重要性は高い。
    • 機械学習による高度な音声強調は強力だが,悪意のある攻撃に対して脆弱である可能性が懸念される。
    • 敵対的攻撃に対する脆弱性を検証し,その対策を検討することを目的とする。
    • 最新の音声強調モデルは,巧妙に設計された敵対的ノイズによって,意味の異なる音声を出力する可能性があることが示された。
    • 敵対的ノイズは,元の音声に潜ませることで,人間には知覚されにくい形で注入できる。
    • 拡散モデルは,確率的サンプラーの設計により,このような敵対的攻撃に対して本質的な堅牢性を持つことが示唆された。

    Link: https://arxiv.org/abs/2509.21087

  • SynthCloner:ADSRエンベロープ制御を用いたファクタライズされたコーデックによるシンセサイザー風オーディオ変換 [eess.AS, cs.SD]目的:シンセサイザー風オーディオ変換手法
    • 電子楽器の音作りは多様なパラメータ設定によるため,その特性を再現する技術は重要である。
    • 従来の音色変換はスペクトル情報に依存し,ADSRエンベロープの制御が難しいという課題がある。
    • ADSRエンベロープ,音色,内容を分離することで,より柔軟なオーディオ変換を実現する。
    • SynthClonerは,音色,ADSRエンベロープ,内容の3要素にオーディオを分解するファクタライズドコーデックモデルである。
    • 提案手法は,客観評価・主観評価ともに既存手法を上回り,独立した属性制御を可能にした。
    • 250の音色,120のADSRエンベロープ,100のMIDIシーケンスを含む新規データセットSynthCATを公開した。

    Link: https://arxiv.org/abs/2509.24286

  • LIWhiz:カデンツァチャレンジのための非侵襲型歌詞知覚度予測システム [math.CO, cs.CC, cs.DM, eess.AS, cs.SD]目的:歌詞知覚度予測
    • 音楽信号処理において,人間の知覚に近い評価は重要である。
    • 既存の客観評価指標は,歌詞知覚度との相関が低い場合がある。
    • 歌詞知覚度をより正確に予測するシステムの開発。
    • LIWhizは,Whisperを用いて頑健な特徴抽出を行い,学習可能なバックエンドでスコア予測を行う。
    • カデンツァLyric Intelligibility Prediction (CLIP)評価セットにおいて,RMSE 27.07%を達成した。
    • STOIベースラインと比較して相対RMSEを22.4%削減し,正規化相互相関の大幅な改善を示した。

    Link: https://arxiv.org/abs/2512.17937

  • CHSH実験における抜け道のゲーム理論的確率論的アプローチ [quant-ph, cs.GT, math.PR]目的:CHSH不等式の抜け道に関する解析
    • 量子力学の基礎概念の検証において,局所実在論的な解釈との矛盾が重要視されている。
    • CHSH不等式の検証実験には,局所性抜け道や測定依存性抜け道といった問題が存在する。
    • ゲーム理論を用いてこれらの抜け道を構造的制約として捉え,解決を目指す。
    • 抜け道が閉じられたゲームを構築し,実験的な条件付き頻度の収束と,測定設定とNatureの隠れた変数の間の相関の不存在を検証した。
    • Natureは両方を同時に満たすことはできず,少なくとも一方の資本プロセスが発散することが示された。
    • これにより,Scientistsにとっての運用上の勝利戦略が明らかになり,実験的に観測されたCHSH不等式の違反に対するゲーム理論的確率論的解釈が得られた。

    Link: https://arxiv.org/abs/2601.09339

  • ASR統合による音声感情認識 [eess.AS, cs.SD]目的:音声感情認識の堅牢性,拡張性,実用性の向上
    • 人間コミュニケーション理解に不可欠であり,感情知能システムや汎用人工知能開発の基盤となる。
    • 感情表現の複雑さや既存の音声・言語技術の限界から,実環境での応用が課題である。
    • 自発的・低リソース環境下での音声感情認識の精度向上を目指す。
    • 自動音声認識(ASR)を音声感情認識(SER)に統合する手法を検討した。
    • ASR統合により,感情認識のロバスト性とスケーラビリティが向上することが示唆された。
    • 本研究は,実用的な音声感情認識システムの開発に貢献すると考えられる。

    Link: https://arxiv.org/abs/2601.17901

  • 効率的な多タスク心エコー分割・分類のための解釈可能で誤差逆伝播を用いないグリーン学習 [eess.IV, cs.CV, cs.LG]目的:心エコー画像に対する左室分割とLVEF分類の同時実行
    • 心不全管理において心エコーは不可欠であり,LVEFは治療方針決定の重要な指標である。
    • 手動LVEF評価は観察者間差が大きく,既存の深層学習モデルは計算コストが高く解釈が困難である。
    • 本研究は,解釈性と計算効率に優れた新たな医療画像解析手法を開発し,臨床応用を目指す。
    • 提案手法はEchoNet-Dynamicデータセットにおいて,最先端の性能を達成した。
    • 分類精度は94.3%,Dice係数は0.912であり,既存の3D深層学習モデルを大幅に上回る。
    • モデルパラメータ数は既存モデルよりも大幅に少なく,計算効率に優れていることが示された。

    Link: https://arxiv.org/abs/2601.19743