arXiv雑要約

画像・音声 - 2026/05/06 公開

Kanade：音声言語モデリングのための単純な潜在変数分離トークナイザー [cs.CL, cs.SD, eess.AS]目的：音声言語モデリングのための潜在変数分離トークナイザー
- 音声認識の性能はトークナイザーの質に大きく左右されるため，高精度なトークナイザーの開発が重要である。
- 従来のトークナイザーは，話者情報など言語的に無関係な情報に影響を受けやすく，分離が困難であった。
- 音声に含まれる音素や韻律情報を抽出し，話者情報を分離することで，より高精度な言語モデルの構築を目指す。
- Kanadeは，単層の潜在変数分離構造により，音素と韻律情報を効果的に捉えることが示された。
- 既存の潜在変数分離コーデックで必要となる補助的な手法を必要とせずに，高い話者分離性能と語彙可用性を実現した。
- 再構成品質も優れており，音声言語モデリングにおける最先端の性能を示すことが確認された。
Link: https://arxiv.org/abs/2602.00594
4RC：条件付きクエリによる4D再構成 [cs.CL, cs.SC, cs.CV]目的：単眼動画からの4D再構成
- 仮想現実やロボティクスなど，動的なシーン理解の重要性が高まっている。
- 既存手法では，動きと形状の分離や，4D表現の限定的な出力が課題であった。
- 高密度な形状と動きを同時に捉えた，包括的な4D表現の学習を目指す。
- 4RCは，動画全体をコンパクトな潜在空間に符号化するTransformerバックボーンを導入した。
- 条件付きデコーダにより，任意のフレームと時刻における3D形状と動きを効率的にクエリできる。
- 実験により，4RCが幅広い4D再構成タスクにおいて，既存手法を凌駕することが示された。
Link: https://arxiv.org/abs/2602.10094
IRIS：大規模視覚言語モデルにおけるオープンエンドVQAのための推論時サッカードによる意図解決 [cs.CV]目的：オープンエンドVQAにおける曖昧性解消のための手法
- 視覚言語モデルは画像と質問から回答を生成するが，曖昧な質問への対応が課題である。
- 既存手法では，曖昧な質問に対する回答精度が十分でない場合が多い。
- 人間の視線データを活用し，曖昧な質問に対する回答精度向上を目指す。
- 提案手法IRISは，推論時に人間の視線データを活用し，曖昧な質問の意図を解決する。
- 500組の画像質問ペアを用いた実験により，IRISは曖昧な質問に対する回答精度を35.2%から77.2%に向上させた。
- 様々なアーキテクチャを持つ最先端の視覚言語モデルで一貫した改善が確認された。
Link: https://arxiv.org/abs/2602.16138
テスト時学習におけるKVバインディングは，実は線形Attentionである [cs.LG, cs.AI, cs.CV]目的：テスト時学習におけるKVバインディングのメカニズム解明
- 系列モデリングは，自然言語処理をはじめとする様々な分野で重要な役割を果たしている。
- テスト時学習は，計算コストが高いことや，そのメカニズムが十分に理解されていないという課題がある。
- テスト時学習の解釈を深め，効率的な学習手法を確立することを目的とする。
- 本研究により，テスト時学習が単なる記憶に基づいたものではなく，学習された線形Attentionとして表現できることが示された。
- この新たな視点により，モデルの構造簡略化や並列化が可能となり，計算効率の向上が期待できる。
- 多様なテスト時学習手法が，標準的な線形Attention形式に帰着できることが確認された。
Link: https://arxiv.org/abs/2602.21204
作曲パイプラインにおけるMIDI情報に基づいた歌唱伴奏生成 [cs.MA, cs.HC, cs.SD, eess.AS]目的：歌唱伴奏生成のための手法
- 楽曲制作において，作曲家が主導権を握りながら効率的に伴奏を生成するニーズが高まっている。
- 既存の楽曲生成手法は短尺の生成に限定され，長尺楽曲における一貫性，特に歌唱部分以外の部分で課題がある。
- MIDI情報と楽曲構造を考慮することで，長尺楽曲全体を通して整合性のある伴奏生成を目指す。
- MIDI情報を活用することで，音楽的な枠組みを安定させ，歌唱部分と非歌唱部分の生成の一貫性を向上させた。
- 楽曲構造の計画を取り入れることで，時間的な区切りやセマンティックラベルに基づいた一貫性のある生成を実現した。
- 特定の事前学習済みモジュールを活用し，単一のGPUでのデータ効率の良い学習を可能にした。
Link: https://arxiv.org/abs/2602.22029
PROBE：解析的な変換ロバスト性を持つ確率的占有BEVエンコーディングによる3D場所認識 [cs.CY, cs.RO, cs.CV]目的：3D場所認識のための記述子の開発
- ロボットの自律走行や環境理解において，場所を正確に認識することは不可欠である。
- LiDAR点群に基づく場所認識は，環境変化やセンサーの違いに弱く，ロバスト性に課題がある。
- センサーに依存せず，多様な環境で汎化性能の高い場所認識記述子を開発すること。
- PROBEは，学習を用いないLiDAR点群の場所認識記述子であり，BEVセル占有をベルヌーイ分布でモデル化する。
- 連続的なカルテシアン変換を解析的に周辺化することで，距離適応型角度不確実性を効率的に計算する。
- 4つのデータセットでの評価により，PROBEは手動特徴量記述子の中で最も高い精度を達成し，教師あり学習ベースラインにも匹敵する性能を示した。
Link: https://arxiv.org/abs/2603.05965
RAMoEA-QA: 呼吸音質問応答におけるロバスト性のための階層的専門化 [cs.SD, cs.AI]目的：呼吸音質問応答システムのロバスト性向上
- 医療分野における会話型AIの重要性が増しており，多様な患者データと対話形式への対応が求められる。
- 既存の呼吸音質問応答システムは，録音条件や質問の種類が多様な状況下での堅牢性に課題がある。
- 異質な録音と質問タイプに対し，入力に依存した専門化を可能にするシステムを開発し，ロバスト性を向上させる。
- RAMoEA-QAは，臨床データと自己記録データを含む統一された呼吸音質問応答設定において，既存のモデルを上回る性能を示した。
- 識別タスクにおいて，インドメインテスト精度が0.72に達し，既存の単一パスベースライン（0.61，0.67）を上回った。
- COPDモダリティシフト設定では，最大23パーセントポイントの精度向上を含む，データセット，モダリティ，タスクのシフトに対する平均転送性能も向上した。
Link: https://arxiv.org/abs/2603.06542
VLMの頑健性を高める要素：ビジョン言語モデルにおける頑健性と精度の両立に向けて [cs.CV]目的：ビジョン言語モデルの頑健性と精度のトレードオフに関する研究
- 近年，画像と言語を理解するVLMの重要性が増しており，その応用範囲は広い。
- VLMは敵対的攻撃に弱く，頑健性を高めると通常のデータでの精度が低下するという課題がある。
- 本研究は，VLMの頑健性のメカニズムを解明し，その精度を損なわずに頑健性を向上させることを目指す。
- 敵対的学習によってVLMの頑健性が向上するメカニズムは，ネットワークの深い層ではなく浅い層に集中することが明らかになった。
- 浅い層における低周波スペクトルバイアスと入力に依存しない注意パターンが，頑健性の獲得に重要な役割を果たしている。
- 提案手法R-Adaptは，事前学習済みの重みを固定し，浅い層のみを適応させることで，頑健性と精度の両立を達成した。
Link: https://arxiv.org/abs/2603.12799
テキストから音声生成システムにおける意味的脆弱性の評価：制御されたプロンプト摂動下での検証 [cs.NI, cs.SD, cs.AI]目的：テキストから音声生成システムの意味的脆弱性
- 近年の技術発展により，テキストから多様な音楽出力を生成可能となった。安定的な利用のためには，頑健性の評価が不可欠である。
- 意味的に等価なプロンプトの変化が，生成される音声に大きな変化をもたらす可能性がある。信頼性の評価が課題となっている。
- 意味を維持した微小なプロンプトの変化に対するシステムの頑健性を定量的に評価し，問題点を明確化する。
- 大規模モデルは，最小限の語彙置換や強度変化において，意味的一貫性が向上することが示された。
- しかし，音響的・時間的分析では，モデル間，さらには同一モデル内でも差異が残存し，脆弱性が確認された。
- 脆弱性は，マルチモーダル埋め込みの整合性よりも，意味から音響への実現段階で顕著に生じることが示唆された。
Link: https://arxiv.org/abs/2603.13824
照明を考慮した非接触型指紋詐欺検出：フラッシュ・非フラッシュ画像ペアの利用 [cs.CL, cs.CV]目的：非接触型指紋認証における詐欺検出手法の開発
- 非接触型指紋認証は，衛生面と利便性に優れるが，物理的な接触がないため，従来の生体認証では有効な手がかりが得にくい。
- 既存手法は単一画像に依存し，デバイスや環境，詐欺材料の変化に弱く，汎用性に欠ける点が課題である。
- フラッシュ・非フラッシュ画像ペアを用いた，よりロバストで解釈可能な詐欺検出手法の可能性を示す。
- フラッシュ照射は，隆線視認性，サブサーフェス散乱，微細形状，表面油分など，材料や構造に依存する特性を強調することが示された。
- 非フラッシュ画像は，ベースラインとなる外観の文脈を提供する。両者の相補的な特徴が，本物と偽物の識別を可能にする。
- 照明条件への依存性やデータセット規模，高精度な偽造技術への対応などが課題として残る。
Link: https://arxiv.org/abs/2603.17679
フローゲームにおける凸性の完全な特徴付け [cs.RO, cs.MA, cs.GT]目的：フローゲームの凸性に関する完全な特徴付け
- ネットワークフローは，輸送，通信など様々な分野で重要な役割を果たす
- フローゲームの凸性判定は難しく，効率的なアルゴリズムが存在しなかった
- フローゲームの凸性の判定条件を明らかにすることで，応用範囲を広げる
- フローゲームが凸であるための必要十分条件は，基礎となるネットワークの非巡回性，ボトルネック排他性，容量充足性である
- これらの構造的条件は，双対分離可能性と同値であり，サイクル配向とゲーム理論的凸性の間の矛盾を解消する
- この特徴付けにより，多項式時間でフローゲームの凸性を検証する効率的な手順が確立された
Link: https://arxiv.org/abs/2604.04729
モデル固有表現のための変分特徴圧縮 [cs.CL, cs.CV, cs.LG]目的：モデル間での特徴転移抑制と指定分類器の精度維持
- 深層学習推論がクラウド環境で普及するにつれ，入力データの不正利用が懸念される。
- 既存のプライバシー保護はデータアクセス制限に偏っており，表現が持つ潜在的な利用を制御できない。
- 指定タスクの精度を維持しつつ，他のモデルへの特徴転移を抑制する手法を開発する。
- 提案手法は，タスク駆動型クロスエントロピーとKL正則化を用いた変分潜在ボトルネックを利用する。
- 潜在空間の次元を，意図しないモデルに対する勾配とKL divergenceに基づき動的にマスクする。
- CIFAR-100実験では，指定分類器の精度を維持しつつ，意図しない分類器の精度を2%以下に抑制することに成功した。
Link: https://arxiv.org/abs/2604.06644
多言語音声認識における文字体系崩壊：参照不要な指標と100ペアのベンチマーク [cs.IR, cs.SD, eess.AS]目的：多言語音声認識における文字体系崩壊の測定
- 音声認識技術は，多様な言語に対応する必要があり，その性能評価が重要である。
- 従来の評価指標では，誤った文字体系で流暢な出力を生成する現象（文字体系崩壊）を検出できない。
- 参照音声なしで文字体系崩壊を定量的に評価し，その原因と対策を明らかにすること。
- 提案手法であるScript Fidelity Rate (SFR) は，参照テキストなしで文字体系崩壊を評価できる。
- 100のモデル-言語ペアの評価で，21ペア (21%) で文字体系崩壊が確認された。
- スクリプトを意識したプロンプトの使用により，SFRが大幅に改善し，特にウルドゥー語における崩壊が解消された。
Link: https://arxiv.org/abs/2604.08786
ねじれたエッジ：ラベル付き非多様体表面メッシュを用いた絡み合った結び目構造を設計するための統一的フレームワーク [cs.GR, math.GT]目的：絡み合った結び目構造の設計
- 構造設計において，複雑な形状や機能を効率的に実現する手法の確立が重要である。
- 従来の設計手法では，二値のねじれしか扱えず，表現できる構造に限界があった。
- 整数値のねじれを導入することで，より多様な構造と動的挙動を実現する。
- 本研究では，整数値によるねじれを導入することで，ゼロのねじれによる切断を防ぎつつ，接続性を維持できることを示した。
- 非多様体メッシュへの応用により，部分的な接続性や機能的なヒンジの設計が可能となり，動的な折りたたみや関節運動を実現する。
- この手法は，これまで未探査であった織物のような構造や関節構造の体系的な探求を可能にする。
Link: https://arxiv.org/abs/2604.12023
単一線画からの生成的な深度推定による3Dワイヤーフレームの再構成 [cs.CV]目的：単一線画からの3Dワイヤーフレーム再構成手法
- 直感的な手書きスケッチを3Dモデルへ変換する技術は，設計やモデリングの効率化に不可欠である。
- 従来の単眼深度推定は線画の解釈には適せず，曖昧な投影からの正確な再構成が困難である。
- 線画の曖昧さを解消し，高精度な3Dワイヤーフレームを生成することを目指す。
- 本研究では，潜在拡散モデル(LDM)を用いて条件付きの稠密深度推定を行い，線画からの3D再構成を実現した。
- 100万組を超える画像-深度ペアのデータセットを用いてモデルを学習し，多様な形状に対して頑健な性能を示した。
- 平均深度誤差は5.3%であり，従来手法に比べて優れた結果が得られた。
Link: https://arxiv.org/abs/2604.13549
矢じり曲線縫合：シエピンスキー矢じり曲線を高次元へ拡張 [cs.GR]目的：シエピンスキー矢じり曲線の高次元への拡張
- 幾何学模様は芸術，特にファッションにおいて長い歴史を持ち，デザインに応用されてきた。
- シエピンスキー三角形は拡張可能だが，矢じり曲線の表現には同様の拡張が存在しない。
- 高次元における矢じり曲線の生成規則を定式化し，可視化する方法を提示すること。
- 2次元のシエピンスキー矢じり曲線の特性を分析し，それを基に高次元への拡張を導出した。
- 生成規則に基づき，様々なレベルにおける曲線群を比較可能な形で可視化した。
- ニットウェア，特にセーターのヨークにおける応用例を通して，可視化手法の実用性を示した。
Link: https://arxiv.org/abs/2604.19287
歴史的アラビア写本の筆者特定 [cs.CV, cs.LG]目的：歴史的アラビア写本の筆者特定に関する研究
- アラビア写本はアラブ世界の知的・文化的遺産であり，その解読は重要である。
- 写本の筆者を特定する信頼性の高い手法が確立されていなかった。
- 写本の筆者を特定し，真正性検証や歴史的分析を支援すること。
- Muharafデータセットを用いて，行画像レベルとページ分割評価プロトコルで筆者特定を評価した。
- 拡張されたデータセットを用いて，注意機構付きCNNモデルが99.05%のTop-1精度を達成した。
- ページ分割評価では，78.61%のTop-1精度で，ページレベルの特徴量の重要性を示した。
Link: https://arxiv.org/abs/2604.22515
ClawMark: マルチターン，複数日，マルチモーダルな協働エージェントのための生きた世界ベンチマーク [cs.ET, cs.AR, eess.IV, cs.CV, cs.SE]目的：マルチターン，複数日，マルチモーダルな協働エージェントの性能評価
- 業務支援エージェントの重要性が増しており，継続的なタスク遂行能力が求められている。
- 既存のベンチマークは静的な環境で評価することが多く，現実の動的な業務環境に対応できていない。
- 変化する環境下で複数日にわたるタスクを遂行できる協働エージェントの評価方法を確立すること。
- ClawMarkは，変化する状態を持つ環境で，ファイルシステム，メール，カレンダーなどを操作する100のタスクで構成される。
- 最良のモデルは75.8のスコアを獲得したが，完全なタスク成功率は20.0%にとどまり，部分的な進捗が一般的である。
- 環境の変化後，性能が低下することが示され，変化への適応が重要な課題であることが明らかになった。
Link: https://arxiv.org/abs/2604.23781
BIMStruct3D：統合トポロジー洗練を備えた完全自動ハイブリッド学習スキャン to BIMパイプライン [cs.CV]目的：建築情報モデリング（BIM）の自動生成
- 建築・建設業界における効率化とデジタル化が不可欠であり，BIMの自動生成はその鍵となる。
- 点群データからのBIM自動生成は困難であり，精度，速度，そしてスケーラビリティが課題である。
- 点群データから高精度かつ効率的にBIMを自動生成するパイプラインを開発し，その有効性を検証すること。
- 提案手法は，学習ベースのセマンティックセグメンテーションとトポロジーを考慮した幾何学的再構成を組み合わせたハイブリッドアプローチである。
- 新たな評価指標vIoUを導入し，再構成モデルと正解モデルの比較を可能にした。
- DeKHおよびCV4AECデータセットでの実験により，RANSACベースのベースラインよりも大幅な改善が確認された。
Link: https://arxiv.org/abs/2604.24311
自分自身からクリック位置を学習：GUIグラウンディングのためのオンポリシー自己蒸留 [cs.AI, cs.CV]目的：GUIグラウンディングにおける自己蒸留による学習手法
- GUI操作エージェントの自律性を実現する上で，GUI要素と自然言語指示の対応付けが不可欠である。
- 強化学習は高性能だが，複数の試行が必要で，難易度の高いサンプルでは学習信号が疎になる。
- 単一の試行で密な教師信号を提供する自己蒸留をGUIグラウンディングに応用し，効率的な学習を目指す。
- 提案手法GUI-SDは，教師データ構築にターゲットのバウンディングボックスとガウスソフトマスクを用いることで，座標情報を漏洩することなく有益なガイダンスを提供する。
- エントロピーに基づいた蒸留により，学習の重点を重要な位置に集中させ，信頼性の高い最適化を実現する。
- 6つのGUIグラウンディングベンチマークにおいて，GUI-SDは既存手法や単純な自己蒸留と比較して，精度と学習効率の両方で優れていることを示した。
Link: https://arxiv.org/abs/2605.00642
スクリブル編集：落書きとテキストによる画像編集のための合成データ [cs.CV]目的：画像編集のための合成データセット
- 画像編集技術は進歩しているが，ユーザーの意図を正確に反映することが課題である。
- テキストでは空間的な正確さを，落書きでは詳細な視覚的属性を表現するのが難しい。
- 落書きとテキストを組み合わせた画像編集のための学習データが不足している点を解消する。
- ScribbleEditは，落書きとテキストを組み合わせた大規模な合成データセットである。
- 既存モデルでは落書きの解釈が困難だが，本データセットでファインチューニングすることで編集精度が向上する。
- 空間的に整合性があり，意味的に一貫性のある編集が可能になることが示された。
Link: https://arxiv.org/abs/2605.01135
知覚的近道を超えて：軽量MLLMにおける汎用的なビデオ推論のための因果的着想によるバイアス除去最適化 [eess.SY, cs.SY, cs.CV]目的：軽量MLLMにおける頑健なビデオ推論能力の育成
- ビデオ推論は，ロボティクスや自動運転など幅広い応用分野において重要である。
- 軽量MLLMは計算資源が限られた環境での利用に適しているが，推論能力が十分でないという課題がある。
- データバイアスに起因する知覚的近道への依存を軽減し，真の推論能力を獲得することを目指す。
- 提案手法VideoThinkerは，バイアスモデルを用いて知覚的近道を明示的にモデル化し，それから遠ざかるように主モデルを最適化する。
- VideoThinker-R1は，既存のビデオ推論モデルと比較して，少ないデータと計算量で高い性能を達成した。
- 特に，VideoRFT-3BやVideo-UTR-7Bといったモデルを上回り，ビデオ推論効率の新たな基準を確立した。
Link: https://arxiv.org/abs/2605.01324
SurgCheck：ビジョン言語モデルは外科的VQAにおいて本当に画像を注視しているか [cs.AR, cs.CV]目的：外科的VQAにおける言語的ショートカットへの依存度計測
- 外科手術の質の向上には，AIによる画像理解と質問応答が不可欠である。
- 既存の外科VQAデータセットには，回答を限定する言語的ショートカットが存在する。
- 言語的ショートカットに依存せず，視覚理解に基づいた性能を評価する手法を確立する。
- SurgCheckを用いた評価により，5つのVLMにおいて，より偏りのない質問への回答性能が低下することが確認された。
- テキストのみの実験では，行動やターゲットの予測においてわずかな性能低下が見られ，言語的ショートカットへの依存性が示唆された。
- SurgCheckは，既存のベンチマークに隠されたバイアスを明らかにし，視覚理解に基づいた評価の重要性を強調する。
Link: https://arxiv.org/abs/2605.01911
VideoNet: ドメイン特化型アクション認識のための大規模データセット [cs.PF, cs.CV, cs.LG]目的：ドメイン特化型アクション認識のためのベンチマークデータセット
- 動画は複数フレームにわたる行動を捉える点で特異であり，長年ビデオ理解の重要な課題であった。
- 十分な多様性と難易度を持つデータが不足しているため，近年のビジョン言語モデルはアクション認識能力で評価されなくなっている。
- この研究は，ビジョン言語モデルにおけるドメイン特化型アクション認識の能力を再評価し，向上させることを目指す。
- VideoNetは，37のドメインにわたる1,000種類のアクションを網羅するドメイン特化型アクション認識ベンチマークである。
- Gemini 3.1 Proは69.9%の精度を達成する一方，Qwen3-VL-8Bは45.0%にとどまり，モデル間の性能差が明らかになった。
- 収集した約50万件の動画・質問・回答ペアでMolmo2-4Bをファインチューニングすることで，既存の8Bモデルを上回る性能を実現した。
Link: https://arxiv.org/abs/2605.02834
高速リサージュ共焦点レーザー内視鏡におけるマルチフレーム復元 [eess.IV, cs.CV, cs.LG]目的：高速リサージュ共焦点レーザー内視鏡画像の復元
- 生体内組織の高速光学生検の実現が求められており，そのための技術開発が重要である。
- 高速化に伴い，リサージュ走査特有の構造的な欠損が生じ，画質が低下するという課題がある。
- 欠損のある画像を，高画質の参照画像を用いて復元し，診断精度を向上させることを目指す。
- 本研究で提案するMIRAは，軽量な再帰的フレームワークであり，特徴の再利用と変位アライメントを通じて時間的コンテキストを集約する。
- MIRAは，既存の軽量および複雑なベースラインと比較して，復元品質が優れていることを実験的に示した。
- 臨床応用に適した計算効率を維持しながら，高い復元性能を実現している。
Link: https://arxiv.org/abs/2605.00527