arXiv雑要約

画像・音声 - 2026/01/30 公開

  • 音声言語モデルにおける意味的拡張を通じた汎化可能なプロンプト調整 [cs.SD, cs.AI, eess.AS]目的:音声言語モデルにおけるプロンプト調整の汎化性能向上
    • 近年の音声認識技術の発展に伴い,音声とテキストを統合的に扱うモデルの重要性が増している。
    • 既存のプロンプト調整手法は,未知のデータに対する汎化性能が課題となっている。
    • 意味的構造を考慮したプロンプト調整により,汎化性能の向上を目指す。
    • 本研究では,大規模言語モデルを活用して意味的近傍を生成し,プロンプト埋め込み空間を正則化するSemantically Expanded Prompt Tuning (SEPT)を提案した。
    • SEPTは,プロンプト埋め込み空間の意味的構造を強化することで,汎化性能を向上させることを示した。
    • 様々なプロンプト調整基盤モデルに対して,SEPTが常に汎化性能を改善することを実験的に確認した。

    Link: https://arxiv.org/abs/2601.20867

  • MA-LipNet:ロブストな唇読みのための多次元注意ネットワーク [cs.CV]目的:ロブストな唇読みのための多次元注意ネットワークの開発
    • 公共の安全確保など,音声情報を視覚情報から復元する唇読み技術の応用価値は高い。
    • 既存の唇読み手法は,表情のわずかな変化を捉えきれず,特徴量の識別力や汎化性能が低いという課題がある。
    • 視覚的特徴量の時間的,空間的,チャネル次元における精製を通じて,唇読みの精度向上を目指す。
    • 提案手法MA-LipNetは,チャネル注意モジュール,結合時空間注意モジュール,分離時空間注意モジュールを連続的に適用する。
    • CMLRおよびGRIDデータセットでの実験により,MA-LipNetが文字誤り率(CER)と単語誤り率(WER)を大幅に低減することが示された。
    • 本研究は,ロブストな視覚音声認識のために,多次元特徴量の精製が重要であることを強調している。

    Link: https://arxiv.org/abs/2601.20881

  • VoxMorph:潜在表現の分離によるゼロショット音声個人性モルフィング [cs.SD, cs.CR, cs.LG, eess.AS]目的:音声個人性のモルフィング手法
    • 生体認証技術の安全性を確保する上で,音声認証システムの脆弱性を理解することが重要である。
    • 既存の音声モルフィング技術は計算コストが高く,スケーラビリティに乏しいという課題がある。
    • 本研究は,モデルの再学習なしに,少量の音声データから高品質な音声モルフィングを可能にすることを目指す。
    • VoxMorphは,プロソディと音色の潜在表現を分離することで,高精度な音声モルフィングを実現した。
    • 本手法は,既存手法と比較して,音声品質が2.6倍向上し,知覚度エラーが73%減少した。
    • また,厳格なセキュリティ閾値下において,67.8%のモルフィング攻撃成功率を達成し,実用的なスケーラビリティを確立した。

    Link: https://arxiv.org/abs/2601.20883

  • 文脈を考慮したハイブリッドASRパイプライン:堅牢な単語認識のため [cs.SD, cs.CL, eess.AS]目的:単語認識の堅牢性向上
    • 医療や緊急対応など,低リソース環境下での音声認識は重要である。
    • 単語認識は,文脈の欠如やノイズ,発音のばらつきに弱く課題が多い。
    • ノイズや圧縮環境下でも堅牢な単語認識を実現すること。
    • ハイブリッドASRフロントエンドは,クリーンな音声で良好な性能を示した。
    • 検証層が,ノイズや圧縮された音声環境下での認識精度を大幅に向上させた。
    • 文脈誘導やLLMベースのマッチングが最も効果的であり,軽量な検証機構が堅牢性を高める。

    Link: https://arxiv.org/abs/2601.20890

  • 自己教師あり音声モデルの事前学習のためのデータ選択戦略の研究 [cs.SD, eess.AS]目的:自己教師あり音声モデルの事前学習におけるデータ選択戦略
    • 音声処理技術は,人間と機械のコミュニケーションにおいて不可欠であり,その精度向上が求められている。
    • 自己教師あり学習では大量のデータが必要だが,データ収集・管理のコストが課題となっている。
    • データ量を削減しつつ,効率的に性能向上を図るデータ選択手法の開発。
    • 事前学習データの長さを優先することで,データ量を半分に削減しつつ,自動音声認識の性能を向上させることができた。
    • 音響,話者,言語的多様性の最適化は,ランダムサンプリングと比較して明確な改善をもたらさなかった。
    • 大規模コーパスを用いた事前学習時間を24%削減することができた。

    Link: https://arxiv.org/abs/2601.20896

  • LLMベースの音声認識におけるテキストノイズ除去を通じたテキストのみの適応 [cs.SD, cs.CL, cs.LG, eess.AS]目的:LLMベースの音声認識システムの新しいドメインへのテキストのみによる適応
    • 音声認識は,人間と機械のコミュニケーションにおいて不可欠な技術であり,その精度向上は重要な課題である。
    • LLMをファインチューニングする際,音声とテキストの重要な整合性が失われ,性能が低下する可能性がある。
    • テキストノイズ除去というタスクを通じてLLMを適応させ,音声とテキスト間の整合性を維持することを試みる。
    • 本研究で提案するテキストのみの適応手法は,既存の手法と比較して最大22.1%の相対的な性能向上を達成した。
    • この手法は,モデルのアーキテクチャ変更や追加パラメータを必要としない軽量なアプローチである。
    • テキストノイズ除去として捉えることで,LLMを効率的に新しいドメインに適応させることが可能となった。

    Link: https://arxiv.org/abs/2601.20900

  • 平均場ゲームにおける近似ナッシュ均衡について [cs.GT, math.OC, math.PR]目的:大規模な対称ゲームにおける近似ナッシュ均衡の導入
    • 経済学や社会科学において,多数のエージェント間の相互作用を分析する上で不可欠な枠組みである。
    • 大規模なゲームにおいては,厳密なナッシュ均衡を求めることが困難であり,近似解の理論が重要となる。
    • 大規模な集団サイズにおけるナッシュ均衡の近似を数学的に厳密に定式化し,その性質を明らかにすること。
    • 提案された近似ナッシュ均衡は,プレイヤー数が増加するにつれて,最適な逸脱による個々の利得がゼロに収束することを保証する。
    • この均衡は,プレイヤーおよび初期状態に関して一様な小さな逸脱利得を保証する$\L^\infty$の概念を用いる。
    • これらの結果は,静的なモデルと動的な連続時間設定の両方で確立されており,状態過程の条件付き法則に依存する基準も扱うことができる。

    Link: https://arxiv.org/abs/2601.20910

  • 履歴条件付きMLLMを用いた非マルコフ型多ラウンド会話画像生成 [cs.CV, cs.AI]目的:非マルコフ型多ラウンド会話画像生成のための手法
    • 対話型画像生成は,人間とコンピュータのより自然なインタラクションを可能にする重要な分野である。
    • 既存の評価基準や学習方法はマルコフ性を仮定しており,長期的な文脈を考慮した画像生成が困難である。
    • 本研究は,過去の状態を参照したり,変更を元に戻したりする非マルコフ型対話における課題を解決することを目指す。
    • 非マルコフ型多ラウンドデータの構築戦略を提案し,過去の視覚状態の検索を促すロールバック編集や,名前ベースのパーソナライズを実現した。
    • トークンレベルのキャッシュを用いた履歴条件付きの学習・推論フレームワークを構築し,多ラウンドにおける同一性変動を抑制した。
    • 高忠実度な画像再構成と編集可能なパーソナライズを実現するため,DiTデトケナイザーや多段階ファインチューニングカリキュラムを導入した。

    Link: https://arxiv.org/abs/2601.20911

  • ノイズがあっても有効:不完全な評価者によるLLMの堅牢な統計的評価 [cs.LG, cs.AI, cs.CV]目的:LLMの信頼性認定における統計的評価手法
    • LLMの安全性確保は重要であり,評価方法の信頼性が求められる。
    • LLMを評価者として用いる場合,評価者の不完全性やバイアスが問題となる。
    • 評価者のノイズや不完全性を考慮した,信頼性の高い評価フレームワークを構築する。
    • 小規模な人間ラベリングデータを用いて評価者の真陽性率/偽陽性率を推定し,統計的検定を行う枠組みを提案。
    • 理論的に,ノイズのあっても有効な検定が,直接評価より高い統計的パワーを持つ条件を導出。
    • Jigsaw Comment, Hate Speech, SafeRLHFデータセットにおける実験で理論の妥当性を検証し,理論上の理想的な評価者との性能差を定量化。

    Link: https://arxiv.org/abs/2601.20913

  • テキスト制御可能なPETノイズ除去 [cs.CV]目的:PET画像のノイズ除去手法
    • PET画像は医療診断に不可欠であり,分子レベルでの情報を得る上で重要である。
    • PET画像は様々な要因によりノイズが多く,診断情報の妨げとなる場合がある。
    • 本研究は,様々なカウントレベルに対応可能なノイズ除去モデルを提案する。
    • 提案手法は,定性的・定量的な評価においてPET画像の品質を大幅に改善する。
    • 事前学習済みのCLIPモデルとU-Netベースのノイズ除去モデルを活用することで,柔軟な対応が可能となった。
    • 複雑なノイズ除去要求への対応や,撮像時間の短縮に貢献する可能性が示唆された。

    Link: https://arxiv.org/abs/2601.20990

  • 多参照およびストリーミング音声認識評価のためのアルゴリズムとツール [cs.CL, cs.SD, eess.AS]目的:音声認識評価の改善
    • 音声認識技術の精度向上は,人間と機械の自然なコミュニケーションを実現する上で不可欠である。
    • 既存の評価指標は,複数の正解候補や長文の音声データに対して十分な精度を示さない場合がある。
    • より正確で信頼性の高い音声認識評価手法を確立し,モデルの性能を正当に評価すること。
    • 新しい文字列アライメントアルゴリズムを提案し,多参照ラベル,任意の長さの挿入,およびより良い単語アライメントをサポートする。
    • 長文のロシア語音声データセットDiverseSpeech-Ruを構築し,多参照リラベリング実験から,モデルがデータセット固有のラベルに適合する傾向があることを示した。
    • ストリーミング音声認識評価ツールと,複数の書き起こし文を比較するためのツールを開発し,様々な音声認識モデルの統一的なラッパーを提供した。

    Link: https://arxiv.org/abs/2601.20992

  • アンロールされたネットワークと合成データ訓練によるコンピュータ断層撮影における低性能ピクセル補正 [cs.CV]目的:コンピュータ断層撮影における低性能ピクセルのアーチファクト補正
    • コンピュータ断層撮影は,医療診断において不可欠な画像診断技術である。診断精度は画質に大きく依存する。
    • 検出器の低性能ピクセルは,リングアーチファクトやストリークアーチファクトの原因となり,画質を低下させる。
    • 実臨床データ収集コストを削減しつつ,低性能ピクセルによるアーチファクトを効果的に補正することを目指す。
    • 提案手法は,合成データを用いることで,実際の臨床データなしにアーチファクトを補正できる。
    • シミュレーション実験において,提案手法は最先端の手法を大幅に上回る性能を示した。
    • 本手法は,データ収集コストを抑え,様々なスキャナ設定に対応可能なソフトウェアベースの応用が可能である。

    Link: https://arxiv.org/abs/2601.20995

  • 生検および前立腺全摘除標本からのAIによる生化学的再発予測 [cs.CV]目的:前立腺生化学的再発のリスク予測
    • 前立腺癌の予後不良を示す重要な指標であり,正確な予測が求められている。
    • 既存の予後予測ツールは精度が十分ではなく,改善の余地がある。
    • 生検画像に基づき,AIを用いて前立腺癌再発リスクをより正確に予測すること。
    • 画像ベースのAIモデルは,外部検証データセットにおいて0.64~0.70の5年Time-dependent AUCを達成した。
    • 臨床情報を統合することで,予測精度が向上し,統計的に有意なリスク層別化が可能となった。
    • AIはCAPRA-Sと比較して,術後予後予測を改善する可能性を示唆している。

    Link: https://arxiv.org/abs/2601.21022

  • フレーム思考:視覚的文脈とテスト時スケーリングがビデオ推論を強化する [cs.LG, cs.AI, cs.CL, cs.CV]目的:ビデオ推論におけるフレーム生成モデルの有効性
    • 視覚と言語を組み合わせたモデルの発展は,複雑な視覚的推論能力の向上に不可欠である。
    • 既存モデルは,空間認識や連続的な行動計画において課題を抱え,視覚的な変化に対応できない。
    • フレーム生成を通じて推論ステップを明示化し,視覚的推論の能力向上を目指す。
    • モデルは,迷路ナビゲーションとタングラムパズルという異なるタスクにおいて,未学習データに対しても高い汎化性能を示した。
    • モデルは,エージェントアイコンやタングラム形状などの視覚的文脈を効果的に利用し,一貫性を保ちながら未知のパターンに適応した。
    • 逐次計画において,生成ビデオの長さを増やすことで,空間的・時間的に複雑な経路への汎化性能が向上することが確認された。

    Link: https://arxiv.org/abs/2601.21037

  • BadDet+: 物体検出に対する堅牢なバックドア攻撃 [cs.CV, cs.CR]目的:物体検出に対するバックドア攻撃の頑健性向上
    • 深層学習の応用範囲拡大に伴い,セキュリティ上の脅威が重要視されている。
    • 物体検出におけるバックドア攻撃の影響は,画像分類と比較して十分に理解されていない。
    • 既存手法の非現実的な仮定や物理的な検証不足を解消し,現実的な攻撃手法を確立する。
    • BadDet+は,RMAとODAを統合したペナルティベースのフレームワークであり,位置とスケール不変性を実現する。
    • 実世界のベンチマークにおいて,既存手法と比較して,合成データから物理世界への転送性能が向上する。
    • 理論的分析により,提案するペナルティがトリガーに特化した特徴空間内で機能し,標準的な推論を損なわずに攻撃を誘発することが確認された。

    Link: https://arxiv.org/abs/2601.21066

  • 視覚言語モデルにおけるモダリティバイアス軽減への取り組み [cs.CV]目的:視覚言語モデルにおける時間的アクション定位のモダリティバイアスの軽減
    • 動画理解において,視覚情報と言語情報の統合は重要であり,より高度なアクション認識を可能にする。
    • 既存の視覚言語モデルは言語情報を過度に重視し,視覚的な性能を損なうモダリティバイアスが存在する。
    • 言語情報を適応的に活用することで,視覚情報を主要な信号として維持し,モダリティバイアスを軽減することを目指す。
    • 提案手法ActionVLMは,言語による利点を推定し,動的に言語の重みを調整するデバイアス再重み付けモジュールを導入する。
    • 残差集約戦略により,言語を主要な要因ではなく,補完的な洗練として扱い,時間的推論を強化する。
    • THUMOS14データセットでの実験により,最先端手法よりも最大3.2%mAP向上することを確認した。

    Link: https://arxiv.org/abs/2601.21078

  • 思考の形:視覚的Chain-of-Thoughtによる漸進的なオブジェクト組み立て [cs.CV]目的:テキストから画像を生成する際の,構成構造上の制約に対するロバスト性の向上
    • 画像生成モデルの発展は,多様なコンテンツ制作を可能にするが,複雑な構造の生成には課題が残る。
    • 既存のモデルは,数値的理解,属性の結び付け,部品レベルの関係といった構造的制約に弱い。
    • 視覚的Chain-of-Thought(CoT)フレームワークを用いて,形状の組み立て過程を段階的に学習し,構造的な整合性を高める。
    • 提案手法SoTは,外部エンジンを用いずに,2次元投影による形状の漸進的な組み立てを実現する。
    • SoT-26KデータセットとT2S-CompBenchベンチマークにより,モデルの構造的完全性と軌跡の忠実性を評価・改善した。
    • SoTは,部品の数値認識と構造的トポロジーにおいて,テキストのみのベースラインを約20%上回る性能を達成した。

    Link: https://arxiv.org/abs/2601.21081

  • 自己教師あり音声表現を用いた音声強調モデルの位置不変な微調整 [cs.CL, cs.SD, eess.AS]目的:自己教師あり学習に基づく音声モデルを用いた音声強調の微調整手法
    • 音声強調は,雑音環境下での音声認識等の性能向上に不可欠であり,その重要性は高い。
    • 従来のMSE損失関数は,位置埋め込みに依存しやすく,内容情報に基づかない最適化になりがちである。
    • 位置不変な微調整により,自己教師あり表現の有効活用と,音声強調性能の向上を目指す。
    • ソフトDTW損失に基づく手法は,より迅速な収束と,下流タスクにおける性能改善を達成した。
    • 位置不変な微調整が,自己教師あり学習に基づく音声モデリングにおいて重要であることが示された。
    • ゼロパディングも有効な戦略の一つであるが,ソフトDTWの方が優れた結果を示した。

    Link: https://arxiv.org/abs/2601.21084

  • マイクロ吻合術の動作評価のためのAIフレームワーク [cs.CV]目的:マイクロ吻合術の動作評価における客観的評価基準の確立
    • マイクロ外科領域では,高度な精密性と技術力が求められ,客観的な評価が重要である。
    • 従来の評価は熟練者の主観に頼り,評価者間差や認知バイアスといった課題があった。
    • 本研究は,客観的かつ自動化されたマイクロ吻合術の評価システムを開発し,評価の標準化を目指す。
    • 提案するAIフレームワークは,YOLOとDeepSORTを用いた高精度な器具検出・追跡を実現した。
    • 平均適合率 (mAP) は96%と高く,様々なIoU閾値においても安定した検出性能を示した。
    • 熟練者による評価データを学習することで,マイクロ吻合術の技術レベルを自動的に判定可能となった。

    Link: https://arxiv.org/abs/2601.21120

  • PhaseCoder:マイク配置に依存しない空間オーディオ理解によるマルチモーダルLLM [cs.SD, cs.AI, eess.AS]目的:空間オーディオの理解
    • ロボットや仮想アシスタントなど,具現化されたAIには空間認識が不可欠である。
    • 既存の空間オーディオモデルは固定されたマイク配置に依存し,多様なデバイスへの適用が困難である。
    • 任意のマイクロホンアレイで利用可能な空間オーディオエンコーダを開発し,LLMによる空間推論能力を向上させる。
    • PhaseCoderは,生の多チャンネルオーディオとマイク座標を入力として,ロカライズを行い,ロバストな空間埋め込みを生成する。
    • Gemma 3n LLMをPhaseCoderが生成する「空間オーディオトークン」でファインチューニング可能であることが示された。
    • PhaseCoderはマイク配置に依存しないロカライズのベンチマークで最先端の結果を達成し,LLMが複雑な空間推論とターゲットを絞った書き起こしタスクを実行可能になった。

    Link: https://arxiv.org/abs/2601.21124

  • 人新世のニューラルスタイル転送の最適化とモバイル展開 [cs.CL, cs.HC, cs.AI, cs.GR]目的:人新世環境の視覚的合成に最適化されたモバイルベースのニューラルスタイル転送システム
    • 人新世は人類活動が地球環境に及ぼす影響が顕著な時代であり,その可視化は重要である。
    • 従来のスタイル転送は芸術性を重視するが,人新世の風景は意味の消失に陥りやすい。
    • 人新世のテクスチャを忠実に変換し,視覚的な表現力と意味の保持を両立させる。
    • ニューラルスタイル転送のパラメータ設定が,人新世のテクスチャの視覚的変換に与える影響を系統的に調査した。
    • 畳み込みの深さ,損失比率,解像度スケーリングの適切な組み合わせが,意味の消失を防ぎつつスタイル変換を可能にする。
    • React NativeフロントエンドとFlaskベースのGPUバックエンドを統合し,モバイルデバイス上で高解像度推論を3-5秒で実現した。

    Link: https://arxiv.org/abs/2601.21141

  • リモートセンシング画像におけるオープンボキャブラリセマンティックセグメンテーションのための双方向クロス認識 [cs.CV]目的:高分解能リモートセンシング画像におけるオープンボキャブラリセマンティックセグメンテーションの性能向上
    • リモートセンシングは,土地利用の変化把握や環境モニタリングに不可欠であり,高精度な画像解析が求められる。
    • 既存のオープンボキャブラリセマンティックセグメンテーション手法は,特徴抽出とセグメンテーションの融合が不十分である。
    • 異なるモデル間の協調推論と,境界の正確な抽出を両立させることで,セグメンテーション精度を向上させる。
    • 提案手法SDCIは,クロスモデルアテンション融合モジュールと双方向クロスグラフ拡散リファインメントモジュールを導入し,セグメンテーション精度を向上させた。
    • SDCIは,低レベルのスーパーピクセル構造を活用することで,物体の境界をさらに洗練させ,より正確なセグメンテーションを実現した。
    • 複数のリモートセンシングセマンティックセグメンテーションベンチマークにおいて,既存手法を上回る性能が確認された。

    Link: https://arxiv.org/abs/2601.21159

  • InspecSafe-V1:産業検査シナリオにおける安全性評価のためのマルチモーダルベンチマーク [cs.RO, cs.CV]目的:産業検査の安全性評価のためのマルチモーダルベンチマークデータセット
    • 産業インテリジェンスの発展に伴い,AIシステムの信頼性ある知覚と安全性評価が重要視されている。
    • 既存のデータセットは,シミュレーションデータや単一モダリティ,詳細なアノテーション不足といった課題がある。
    • 実環境における産業検査の安全性評価を可能にするマルチモーダルデータセットの提供。
    • InspecSafe-V1は,実際の検査ロボットによって収集された,五つの産業シナリオを網羅するマルチモーダルデータセットである。
    • 本データセットは,可視光画像に対するピクセルレベルのセグメンテーションアノテーションと,安全レベルラベルを提供。
    • 赤外線映像,音響,深度点群など七つの同期センサモダリティを含むことで,多角的な安全性評価を支援する。

    Link: https://arxiv.org/abs/2601.21173

  • 幾何構造を考慮した拡散過程による水中光場画像の品質向上 [cs.CV]目的:水中光場画像の品質向上
    • 水中の画像取得は,視覚的情報や研究において重要である。しかし,水中環境は光の減衰や歪みを生じさせる。
    • 水中画像は,色調の変化や解像度の低下といった問題に直面し,鮮明な画像を得ることが困難である。
    • 光場画像の幾何学的構造を利用し,拡散モデルを用いて,水中の色調歪みを軽減し,画像の品質を向上させる。
    • 提案手法GeoDiff-LFは,SD-Turboを基盤とし,光場画像の空間的・角度的構造を活用することで,水中画像の品質を効果的に向上させる。
    • 幾何学的構造を考慮したU-Netアーキテクチャと損失関数,効率的なサンプリング戦略を用いることで,既存手法を上回る性能を達成した。
    • 実験結果は,提案手法が視覚的な忠実度と定量的な性能の両面において,水中の画像処理技術の最先端を推し進めることを示している。

    Link: https://arxiv.org/abs/2601.21179

  • FRISM:サブスペースレベルのモデルマージによる視覚言語モデルへの微細粒度推論能力の注入 [cs.CV, cs.LG]目的:視覚言語モデルにおける推論能力の強化
    • 視覚と言語を理解するモデルは,画像認識や自然言語処理の発展に不可欠である。
    • 既存手法では,推論能力と視覚能力のバランスを取ることが難しい場合がある。
    • サブスペースレベルでのモデルマージにより,両能力を両立させることを目指す。
    • FRISMは,推論能力を担うサブスペースを特定し,それらのスケーリング係数を学習することで,微細な推論能力の注入を実現する。
    • ラベルを用いない自己蒸留学習戦略を用いることで,視覚言語データセット上で効果的な学習が可能となる。
    • 多様な視覚的推論ベンチマークにおいて,FRISMは最先端の性能を達成し,視覚能力を損なうことなく推論能力を向上させる。

    Link: https://arxiv.org/abs/2601.21187

  • 生成的な検索と密な再ランク付け:効率的なテキスト-ビデオ検索のためのマルチビューセマンティックIDの学習 [cs.CV]目的:テキスト-ビデオ検索における検索候補の質向上
    • ビデオプラットフォームにおけるテキスト-ビデオ検索の重要性が増しており,大規模なデータセットでの効率的な検索手法が求められている。
    • 密な検索は高精度だが,計算コストとストレージ容量が課題であり,大規模なデータセットには不向きである。
    • 生成的な検索を用いて検索候補の質を高め,密な再ランク付けと組み合わせることで,効率的な大規模テキスト-ビデオ検索を実現する。
    • GRDRは,クエリをガイドとしたマルチビュートークナイザーを用いて各ビデオに複数のセマンティックIDを割り当てることで,多様なセマンティックアクセスパスを可能にする。
    • 実験の結果,GRDRは既存の密な検索手法と同等の精度を達成しつつ,インデックスストレージを大幅に削減し,検索速度を最大300倍に向上させることに成功した。
    • セマンティックIDをテキストとビデオ間のセマンティックブリッジとして機能させ,生成的な検索におけるセマンティック曖昧性とクロスモーダルミスマッチの問題を解決する。

    Link: https://arxiv.org/abs/2601.21193

  • Thinker:具現化された知能のためのビジョン-言語基盤モデル [cs.CV, cs.AI]目的:ロボットの知覚と推論のための大規模データセット構築と,モデルの動画理解能力向上
    • ロボット工学におけるAI活用は,人間のような複雑なタスク遂行を可能にする上で不可欠である。
    • 既存のビジョン-言語モデルは,一人称・三人称視点の混同や動画終盤の情報の軽視といった課題を抱えている。
    • ロボットがより自然な形で世界を理解し,複雑なタスクを遂行するための基盤モデルを開発すること。
    • 提案手法Thinkerは,ロボットのタスクプランニングに関する2つの主要なベンチマークデータセットで最先端の結果を達成した。
    • Thinkerは,大規模なロボット知覚・推論用データセットと,キーフレームと動画シーケンスを組み合わせた入力方式によって,動画理解能力を大幅に向上させた。
    • 本研究は,視覚情報と言語情報を統合することで,具現化された知能を実現するための重要な一歩となる。

    Link: https://arxiv.org/abs/2601.21199

  • 多言語構音障害音声評価における普遍的音素認識と言語特有の音韻対立モデリング [cs.CL, cs.SD, eess.AS]目的:多言語における構音障害音声の知覚度評価手法
    • 神経疾患の増加に伴い,多言語に対応した構音障害の自動評価が求められている
    • 既存手法は単一言語に限られるか,言語特有の要因を捉えきれていない
    • 普遍的音素認識と音韻対立モデリングを統合し,多言語に対応した評価を目指す
    • 音素誤り率(PER)はマッピングとアライメントの組み合わせ,音韻特徴誤り率(PFER)はアライメントのみ,音素カバレッジ(PhonCov)はマッピングによって改善されることが示された
    • 提案手法は,構音障害音声における知覚度の低下パターンを捉え,臨床所見と整合性がある
    • 英語,スペイン語,イタリア語,タミル語のデータを用いて評価を行った

    Link: https://arxiv.org/abs/2601.21205

  • 複数画像タスクに対する事前学習モデルを用いた汎用敵対摂動学習手法LAMP [cs.CV]目的:複数画像入力に対応した大規模マルチモーダル言語モデルに対する敵対的摂動
    • 近年,画像と言語を扱うモデルの性能が向上しているが,セキュリティ上の脆弱性が懸念される。
    • 既存の敵対的攻撃は単一画像向けであり,現実的なブラックボックス環境下での攻撃は困難である。
    • 複数画像入力モデルに対する,より実用的なブラックボックス攻撃手法の開発。
    • LAMPは,モデルが画像間の情報を効果的に集約するのを妨げる注意機構に基づく制約を導入する。
    • また,摂動されたトークンがクリーンなトークンに影響を及ぼすようにする新たなクロス画像感染制約を導入し,敵対的影響を拡散させる。
    • 実験結果から,LAMPは既存の手法を上回り,複数の視覚言語タスクとモデルにおいて最も高い攻撃成功率を達成する。

    Link: https://arxiv.org/abs/2601.21220

  • PTQ4ARVG: 自己回帰型画像生成モデルのポストトレーニング量子化 [cs.CV, cs.AI]目的:自己回帰型画像生成モデルにおける量子化手法の開発
    • 画像生成モデルの高性能化に伴い,モデルサイズと計算コストの削減が重要課題となっている。
    • 既存の量子化手法は,自己回帰型画像生成モデルへの適用が難しく,汎化性能が低いという問題がある。
    • 本研究は,自己回帰型画像生成モデルに特化した量子化手法を開発し,性能劣化を抑制することを目的とする。
    • 提案手法PTQ4ARVGは,自己回帰型画像生成モデルのチャネルごとの外れ値,トークンごとの動的な活性化,サンプルごとの分布の不一致という課題に対処する。
    • PTQ4ARVGは,Gain-Projected Scaling(GPS),Static Token-Wise Quantization(STWQ),Distribution-Guided Calibration(DGC)の3つの要素で構成される。
    • 実験の結果,PTQ4ARVGは,8ビットおよび6ビット量子化において,競合する性能を維持しながら,自己回帰型画像生成モデルを効果的に量子化できることが示された。

    Link: https://arxiv.org/abs/2601.21238

  • NFCDS:画像復元のためのプラグアンドプレイ型ノイズ周波数制御拡散サンプリング戦略 [cs.CV]目的:画像復元におけるノイズ周波数制御拡散サンプリング戦略
    • 画像復元技術は,古い写真や低品質画像の価値を高める上で不可欠である。
    • 拡散サンプリング法は高品質だが,ノイズによりデータ忠実度が低下する課題がある。
    • ノイズ周波数を制御し,データ忠実度と知覚品質のバランスを改善することを目指す。
    • 提案手法NFCDSは,逆拡散ノイズのスペクトル変調により,低周波ノイズを抑制し,高周波成分を維持する。
    • NFCDSは,追加の学習なしに,既存の拡散ベース復元フレームワークにシームレスに統合可能である。
    • 多様なゼロショットタスクにおいて,高いデータ忠実度と知覚的な説得力を両立した結果を迅速に得られる。

    Link: https://arxiv.org/abs/2601.21248

  • 拡散モデルの内在的モデルフィンガープリントによるロスレスな著作権保護 [cs.RO, cs.CR, cs.CV]目的:拡散モデルの著作権検証
    • 拡散モデルは高性能な知的財産であり,その保護が重要である。
    • 既存手法は性能劣化やブラックボックスAPIとの非互換性といった課題がある。
    • 決定論的生成時の多様体フィンガープリントを用いて,ロスレスな著作権保護を実現する。
    • 提案手法TrajPrintは,ウォーターマーク画像から生成経路を追跡し,モデルのフィンガープリントを特定する。
    • 二重端アンカリングによる最適化戦略により,堅牢なウォーターマーク復元を可能にする。
    • ブラックボックスAPI環境下において,ロスレスな検証と高い頑健性を実現した。

    Link: https://arxiv.org/abs/2601.21252

  • ハイパーソリッド:短距離反発による創発的な視覚表現 [cs.CV, cs.AI, cs.LG]目的:自己教師あり学習における表現崩壊の防止
    • 視覚表現学習は,人工知能の発展に不可欠であり,様々な応用分野を支える基盤技術である。
    • 自己教師あり学習では,表現が単純化し情報が失われる表現崩壊が頻繁に発生する。
    • 局所的な衝突を回避する短距離反発を利用し,表現の多様性を維持することを試みる。
    • ハイパーソリッドは,表現学習を離散的なパッキング問題として捉え,短距離反発によって表現の衝突を防ぐ。
    • この制約は,高い分離度を持つ幾何学的領域を生み出し,データ拡張の多様性を維持する。
    • その結果,微細な分類や低解像度画像分類タスクにおいて優れた性能を示す。

    Link: https://arxiv.org/abs/2601.21255

  • 音楽盗用検出:問題設定とセグメントに基づく解決策 [cs.SD, cs.AI, cs.LG, eess.AS]目的:音楽盗用検出タスクの問題定義と解決手法
    • 音楽は文化的資産であり,その保護は重要である。盗用は創作意欲を阻害し,音楽業界の健全性を損なう。
    • 音楽盗用検出の研究は進むものの,タスク自体の定義が曖昧で,研究の進展を遅らせている。
    • 音楽盗用検出タスクの明確な定義と,それを実現するためのデータセット及び手法を提示する。
    • 本研究では,音楽盗用検出を他の音楽情報検索タスクと区別し,解決すべき課題を明確に定義した。
    • 新たに「Similar Music Pair」データセットを構築し,定義されたタスクをサポートする。
    • セグメント書き起こしに基づく手法を提案し,タスク解決の一つのアプローチを示す。

    Link: https://arxiv.org/abs/2601.21260

  • XRにおける迅速な注意喚起のための空間オーディオキューの評価 [cs.CL, cs.HC, cs.SD, eess.AS]目的:XR環境における迅速な注意喚起のための空間オーディオキューの精度評価
    • XR技術の応用拡大に伴い,ユーザーへの効果的な情報提示方法が重要となっている。
    • 視覚情報に頼らない迅速な注意喚起手段が課題であり,特に緊急時の対応が求められる。
    • 短時間で正確な空間音響情報伝達を可能にする手法を確立し,XR利用時の安全性を向上させる。
    • 短い空間オーディオキューでも,ある程度の方向情報を伝えることが可能であることが示された。
    • 短期間の視覚-聴覚フィードバック訓練は,空間音響情報の認識精度を向上させる効果が確認された。
    • 空間オーディオ単独では高精度な誘導は難しく,他の感覚情報との組み合わせが有効と考えられる。

    Link: https://arxiv.org/abs/2601.21264

  • 軽量高忠実度低ビットレートの3Dビデオ会議向けトークングフェイス圧縮 [cs.CV, cs.AI]目的:3Dビデオ会議における低ビットレートでの高忠実度トークングフェイス表現
    • 没入感の高いコミュニケーション需要が高まり,3Dビデオ会議技術が発展している。
    • 従来の2D圧縮では微細な情報を保持できず,NeRFは計算コストが高い。
    • リアルタイム3Dビデオ会議に適した効率的な圧縮手法を提案すること。
    • 提案手法はFLAMEと3DGSを統合し,必要情報をリアルタイムで伝送する。
    • ガウスベースのヘッドモデルにより効率的な再構成が可能である。
    • Gaussian属性圧縮とMLP最適化により,送信効率が向上し,高いレート歪性能を実現した。

    Link: https://arxiv.org/abs/2601.21269

  • 絞り込み:原理に基づいたアプローチ [cs.GT]目的:選択肢の絞り込み手続き
    • 社会選択やマルチエージェントシステムにおいて,候補者が増加の一途をたどっており,効率的な絞り込みが不可欠である。
    • 絞り込みは重要なプロセスであるにも関わらず,学術的な研究が不足しており,公平性や効率性の保証が難しい。
    • より公平で効率的な集団意思決定を支援するため,原理に基づいた絞り込み手法の開発を促すことを目指す。
    • 本研究は,絞り込みの重要性を改めて認識させ,関連する問題との違いを明確にすることで,この分野の研究を活性化させることを意図する。
    • 原理に基づいた絞り込み手続きは,認知負荷の軽減,公正な集団意思決定の促進,参加の拡大,民主的システムへの信頼構築に貢献しうる。
    • 本稿は,今後の研究に向けた問題提起と,研究者への呼びかけを目的とする。

    Link: https://arxiv.org/abs/2601.21277

  • GeoRC:位置推論チェーンのベンチマーク [cs.CV, cs.AI, cs.CL, cs.LG]目的:位置推論チェーンの評価基準
    • 画像とテキストを理解するAIの能力向上は,地理情報処理を含む多様な分野で重要である。
    • 既存のAIモデルは位置予測は高い精度を示すものの,その根拠となる推論過程に誤りや虚偽が含まれる場合がある。
    • AIモデルの位置推論における根拠の妥当性を評価し,より信頼性の高い推論を可能にすることを目指す。
    • 本研究で作成したベンチマークは,専門家による位置推論チェーンを800件用意し,AIモデルの推論能力を評価する。
    • 大規模な閉鎖型VLMは位置予測精度は人間に匹敵するが,推論過程の透明性ではまだ人間に劣る。
    • オープンウェイトVLMは,本ベンチマークにおいて著しく低い性能を示し,視覚情報の抽出能力に課題があることが示唆された。

    Link: https://arxiv.org/abs/2601.21278

  • マルチモーダルアンテナ関連識別におけるトークンエントロピー正則化 [cs.CV]目的:マルチモーダルアンテナ関連識別のためのトークンエントロピー正則化手法
    • 通信ネットワークの最適化と維持において,正確なアンテナ関連識別は不可欠である。
    • 従来の手法は,手間と誤りやすい手動での基地局検査に依存している。
    • 本研究は,通信分野のデータ不足によるマルチモーダルアライメントの課題を解決する。
    • 提案手法は,アンテナ画像とPCI信号のアライメントを促進し,収束を加速する。
    • 実験結果から,トークンエントロピー正則化が有意な性能向上をもたらすことが示された。
    • 最初のトークンのエントロピーは,モダリティに依存することが明らかになった。

    Link: https://arxiv.org/abs/2601.21280

  • WorldBench:世界モデルの診断評価のための物理法則の明確化 [cs.CV]目的:世界モデルの物理的忠実性の診断的評価
    • ロボット工学や自律システムなど,現実世界への応用において,物理法則の正確な理解は不可欠である。
    • 既存の物理ベースの動画ベンチマークは,複数の物理法則が混在しており,個々の概念の理解度を正確に評価できない。
    • WorldBenchは,単一の物理概念や法則に焦点を当てた評価を通じて,世界モデルの物理的推論能力を詳細に分析することを目指す。
    • WorldBenchを用いて評価した結果,最先端の世界モデルは特定の物理概念で失敗パターンを示し,現実世界の相互作用を確実に生成するための物理的整合性を欠いていることが判明した。
    • WorldBenchは,概念固有の評価を通じて,より詳細かつ拡張可能な評価フレームワークを提供し,物理的推論能力の厳密な評価を可能にする。
    • 本研究は,より堅牢で汎用性の高い世界モデル駆動型学習への道を開く。

    Link: https://arxiv.org/abs/2601.21282

  • Drive-KD:自動運転におけるVLMsのためのマルチ教師蒸留 [cs.AI, cs.CV]目的:自動運転におけるVLMsの効率的な知識伝達
    • 自動運転は安全性に重要な技術であり,LLM/VLMの発展が新たな可能性を開いている。
    • 大規模モデルはGPUメモリを大量に消費し,推論遅延が大きい。SFTでは小規模モデルの能力向上に限界がある。
    • 知覚・推論・計画の分解と知識蒸留により,効率的なVLMsの構築を目指す。
    • Drive-KDは,自動運転を「知覚・推論・計画」の三要素に分解し,知識蒸留を通じて能力を伝達するフレームワークである。
    • 蒸留信号として層ごとの注意機構を利用し,単一教師モデルを構築することで,既存手法よりも優れた性能を実現する。
    • 蒸留されたInternVL3-1Bモデルは,78Bモデルと同等以上の性能をDriveBenchで示し,GPT-5.1の計画能力を上回る。

    Link: https://arxiv.org/abs/2601.21288

  • 深度補完のためのガウス信念伝播ネットワーク [cs.CV]目的:深度補完における高精度な深度マップ予測
    • 現実世界の3次元認識において,深度情報は不可欠であり,ロボットや自動運転等の応用が期待される。
    • 既存の深層学習手法では,疎な深度データの非効率的な処理が課題であり,特に高疎密度の状況下で性能が制限される。
    • 疎な深度データに対応可能な,深層学習と確率グラフモデルの融合による新たな深度補完手法を開発する。
    • 提案手法GBPNは,NYUv2およびKITTIベンチマークにおいて最先端の性能を達成した。
    • GBPNは,疎な深度データに対してもロバストであり,多様なデータセットや疎密度の状況下で優れた汎化性能を示した。
    • GMCNが動的にMRFを構築し,適応的な非局所エッジ予測により複雑な空間依存関係を捉える点が特徴である。

    Link: https://arxiv.org/abs/2601.21291

  • Mam-App:リンゴ葉病分類のための新規パラメータ効率型Mambaモデル [cs.CV]目的:リンゴ葉病の分類
    • 世界人口増加と技術進歩により食糧生産への需要が高まっている。
    • リンゴの生産量は病害により大きな損失を被っている。
    • 高精度かつ効率的な病害診断モデルの確立が課題である。
    • 提案手法Mam-Appは,PlantVillageリンゴ葉病データセットで99.58%の精度を達成した。
    • パラメータ数はわずか0.051Mであり,低リソース環境での利用に適している。
    • トウモロコシおよびジャガイモの葉病データセットでも高い性能を示し,汎用性も確認された。

    Link: https://arxiv.org/abs/2601.21307

  • HiFi-Mesh:コンパクトな自己回帰的依存性による高精度な3Dメッシュ生成 [cs.CV, cs.GR]目的:高精度な3Dメッシュの効率的な生成
    • 3Dコンテンツの作成において,高品質なメッシュは不可欠である。
    • 既存手法は計算資源の利用効率が悪く,処理速度が遅い。
    • 大規模な構造詳細を持つ3Dメッシュを高速に生成すること。
    • 提案手法LANEは,既存手法と比較して最大生成可能シーケンス長を6倍に向上させた。
    • AdaGraph戦略により,従来の逐次推論の効率低下を克服し,推論速度を加速した。
    • 生成速度,構造詳細,幾何学的整合性において優れた性能を実験的に示した。

    Link: https://arxiv.org/abs/2601.21314

  • 一般ロトゲームにおける同盟メカニズム [cs.GT]目的:同盟メカニズムの効果の比較
    • 資源配分は,経済活動や競争において不可欠であり,その最適化は重要である。
    • 資源配分における協力的なアプローチの効果は,十分に解明されていない。
    • 競争的資源配分ゲームにおける様々な同盟メカニズムの有効性を評価すること。
    • 予算移動,コンテスト移動,共同移動の3つの同盟メカニズムは,相互改善の点において根本的に異なる。
    • 予算とコンテストの移動による相互改善は限定的な範囲で存在するが,共同移動はほぼ全てのゲームで存在する。
    • しかし,集団改善の観点では,3つのメカニズムは同等であり,ほぼ全てのケースで集団的な利益をもたらす。

    Link: https://arxiv.org/abs/2601.21319

  • 分布外データに対する過信を最適輸送によって抑制する手法 [cs.CV, cs.LG]目的:分布外データに対する過信の軽減
    • 深層学習は実世界で活用される機会が増えているため,その信頼性確保が重要である。
    • 深層ニューラルネットワークは,分布外データに対して過信した予測を行いやすいという課題がある。
    • 最適輸送の特異境界を利用し,モデルが構造的に不確実な領域でより適切な予測を行うことを目指す。
    • 最適輸送によって生成される特異境界近傍のサンプル(OTIS)を用いることで,過信を抑制する損失関数を導入した。
    • OTISは幾何学的に根拠があり,意味的に曖昧な性質を持つ分布外データを構成する。
    • 実験の結果,本手法は既存手法と比較して分布外データに対する過信を大幅に軽減できることが示された。

    Link: https://arxiv.org/abs/2601.21320

  • 敵対的脆弱性は計算パラダイムを超え,特徴量エンジニアリングはニューラル敵対的転移に対する防御とならない [cs.LG, cs.AI, cs.CV]目的:深層ニューラルネットワークにおける敵対的転移の検証
    • 画像認識システムのセキュリティは重要であり,特に安全性が求められる場面での脆弱性は無視できない。
    • 敵対的サンプルに対する古典的機械学習パイプラインの脆弱性が不明であり,保護効果の検証が必要である。
    • 特徴量エンジニアリングが敵対的転移から保護するかどうか,その有効性を実証的に評価する。
    • VGG16を代替モデルとして使用し,HOGベースの古典的分類器に対する敵対的転移攻撃実験を行った結果,全ての分類器で精度低下が確認された。
    • 古典的機械学習モデルにおいては,反復攻撃であるPGDよりも,高速勾配法であるFGSMの方が攻撃効果が高いという,ニューラルネットワークとは異なる傾向が見られた。
    • 敵対的脆弱性は,エンドツーエンドの微分可能性に起因するものではなく,画像分類システムの基本的な特性であることが示唆された。

    Link: https://arxiv.org/abs/2601.21323

  • 病理基礎モデルは疾患進行を符号化するか?表現の擬似時間解析 [cs.CV]目的:視覚表現における疾患進行の符号化
    • 病理診断の精度向上と,疾患理解の深化が医療現場で求められている。
    • 既存モデルが疾患の連続的な進行を捉えられていない可能性があり,汎化性能が課題である。
    • 基礎モデルが疾患の進行を表現に内在的に学習しているか検証し,表現の質を評価する。
    • 病理特化モデルは,表現空間において一貫した疾患進行方向を捉え,有意な軌道順序を再現した。
    • 参照疾患における軌道忠実度は,未学習疾患における少数のサンプルを用いた分類性能と強い相関を示した。
    • 推測された軌道に沿って細胞型組成が滑らかに変化し,既知の線維芽細胞のリモデリングパターンと一致した。

    Link: https://arxiv.org/abs/2601.21334

  • Qwen3-ASR技術報告 [cs.CL, cs.SD, eess.AS]目的:多言語音声認識モデルおよび非自己回帰型音声強制アライメントモデルの開発
    • 音声認識技術は,人間とコンピュータの自然な対話を可能にし,様々な応用分野で重要である。
    • 既存のオープンソース音声認識モデルは,商用APIと比較して性能が劣ることが課題である。
    • 実世界での性能向上と,効率性と精度の両立を目指したモデルを開発する。
    • Qwen3-ASR-1.7Bは,オープンソースの音声認識モデルの中で最高性能を達成し,商用APIにも匹敵する結果を示した。
    • Qwen3-ASR-0.6Bは,高い精度と効率性を両立しており,低遅延な音声処理を実現する。
    • Qwen3-ForcedAligner-0.6Bは,テキストと音声を高い精度でアライメント可能であり,効率性と汎用性に優れている。

    Link: https://arxiv.org/abs/2601.21337

  • SR$^{2}$-Net:ハイパースペクトル画像超解像のための汎用プラグアンドプレイモデル [cs.CV]目的:ハイパースペクトル画像超解像におけるスペクトル精緻化
    • ハイパースペクトル画像は,幅広い分野で活用されており,その高解像度化が重要視されている。
    • 既存手法では,スペクトルの一貫性が欠如し,不自然な振動や物理的にありえないアーティファクトが生じやすい。
    • スペクトルの一貫性を保ちつつ,汎用性と柔軟性を実現する超解像モデルを開発すること。
    • 提案手法SR$^{2}$-Netは,既存の超解像モデルに容易に組み込むことができる軽量なプラグアンドプレイ型修正器である。
    • 階層的スペクトル空間相関注意機構(H-S$^{3}$A)と多様体一貫性修正(MCR)により,スペクトルの一貫性を高めている。
    • 劣化一貫性損失を用いることでデータ忠実性を向上させ,複数のベンチマークで優れた性能が確認された。

    Link: https://arxiv.org/abs/2601.21338