arXiv雑要約

画像・音声 - 2026/06/19 公開

  • ProMUSE:段階的マルチモーダル不確実性ガイド型証拠アルツハイマー病分類 [cs.LG, cs.AI, cs.CV]目的:アルツハイマー病の早期診断のための,段階的なマルチモーダルデータ利用戦略
    • 高齢化社会の進展に伴い,認知症,特にアルツハイマー病の早期発見と治療が喫緊の課題となっている。
    • MRIやPET検査は高価であり,どこでも利用できるわけではない。そのため,実用的な早期診断が困難である。
    • 低コストな臨床データから開始し,必要に応じてMRIやPETを追加することで,診断精度を維持しつつ検査コストを削減する。
    • ProMUSEは,臨床データのみで分類を行い,不確実性が閾値を超えた場合にのみMRIやPETを追加する。
    • ADNI,AIBL,OASISのデータセットにおいて,既存手法と同等またはそれ以上の精度を達成し,MRI/PETの使用量を50-90%削減した。
    • 不確実性を考慮した資源効率の高いアルツハイマー病スクリーニング手法として,ProMUSEの実用性が示された。

    Link: https://arxiv.org/abs/2606.19371

  • コードミキシング誘導による合成音声を用いたコードスイッチングASRの改善 [cs.SD, cs.AI]目的:コードスイッチングASRのための合成データ拡張
    • グローバル化が進み,コードスイッチングを含む音声データの利用が増加しているため,その認識技術の向上は重要である。
    • コードスイッチング音声の高品質な学習データが不足しており,ASRの性能向上を阻害している。
    • コードミキシング指数を用いて合成音声生成を誘導し,コードスイッチングASRの性能改善を目指す。
    • 提案手法により生成された合成データを用いてWhisper Largeをファインチューニングした結果,DevMANとDevSGEの混合エラー率が大幅に低下した。
    • DevMANにおける混合エラー率は12.1%/17.8%から8.9%/14.2%へ,DevSGEでは同様に減少した。
    • この結果から,提案手法がコードスイッチングASRのための合成データ拡張に有効であることが示された。

    Link: https://arxiv.org/abs/2606.19381

  • 3Dシーングラフ:未解決の課題と将来の展望 [cs.RO, cs.CV]目的:3Dシーングラフに関する課題と将来性
    • 空間AIの発展に不可欠であり,ロボティクスやコンピュータビジョンの様々な問題に応用可能である。
    • 異なる研究コミュニティ間での手法の比較や共通の課題特定が困難な状況にある。
    • 3Dシーングラフの標準化と,実世界での利用に向けた課題解決を目指す。
    • 3Dシーングラフの定義を形式化し,既存の研究におけるモデル化の選択肢を分析した。
    • 生のセンサデータから3Dシーングラフを構築する際の一般的な手法や技術を概観した。
    • グラフの品質からタスクレベルの性能まで,応用例と評価戦略を調査した。

    Link: https://arxiv.org/abs/2606.19383

  • S-JEPA:自己教師あり音声表現学習のためのソフトクラスタリングアンカー [cs.RO, cs.SD, eess.AS, eess.SP]目的:自己教師あり音声表現学習におけるソフトクラスタリングアンカーの開発
    • 音声認識の性能向上は,多様な音声データへの適応が重要であり,自己教師あり学習はその解決策となり得る。
    • 既存手法は,離散的なハードクラスタIDの予測に依存し,音声の曖昧さを損失し,再クラスタリングに手間がかかる。
    • ソフトターゲットを用いた学習により,音声の曖昧さを維持し,効率的な学習を実現することを目指す。
    • S-JEPAは,SUPERBプロトコルにおいて,90Mパラメータ以下のSSL手法の中で最低のWERを達成した。
    • 感情認識においてはHuBERT-Baseと同等の性能を,パラメータ数の約半分で実現し,新たなトレードオフ関係を確立した。
    • 予測子のフレームごとのエントロピー分析から,完璧な二クラスタイに近いフレームが多数存在し,ソフトターゲットの有効性が示された。

    Link: https://arxiv.org/abs/2606.19398

  • 3D-DLP:自己教師あり3次元オブジェクト中心シーン表現学習 [cs.LG, cs.CV, cs.RO]目的:3次元オブジェクト中心シーン表現の学習
    • ロボット工学等の分野において,現実世界を理解し操作するためには,3次元シーンの把握が不可欠である。
    • 既存手法では,3次元情報を効率的に表現できず,計算コストが高い,あるいは解釈可能性に課題がある。
    • シーンを構成するオブジェクトを分離し,3次元空間における表現を効率化することで,上記課題を解決する。
    • 提案手法3D-DLPは,シーンを3次元潜在粒子に分解し,オブジェクトの属性を分離して表現する。
    • 学習された潜在空間は解釈可能かつ制御可能であり,粒子の操作により新たなシーン構成を生成できる。
    • ロボットの操作タスクにおいて,3D-DLPを用いることで,既存手法よりも高い性能を実現した。

    Link: https://arxiv.org/abs/2606.19451

  • 胸部X線写真のためのRectified Flow Transformersによる大規模生成基盤モデルの拡張 [cs.IR, cs.CV, cs.AI, cs.LG]目的:胸部X線写真の合成に関する生成基盤モデルの開発
    • 医療画像診断AIの精度向上は,患者ケアの質を向上させる上で不可欠である。
    • 既存のAIモデルは,患者層や撮影環境の変化に弱く,実臨床での汎用性に課題がある。
    • 多様なデータセットを用いた高品質な画像合成により,診断モデルの頑健性を評価する。
    • 13億以上のパラメータを持つ基盤モデルを開発し,1.6兆トークンで学習を実施した。
    • 本モデルは,年齢,性別,病状など様々な条件に基づいた胸部X線写真の生成・編集が可能である。
    • 生成された画像は,臨床専門家が見分けがつかないほど高品質であり,最先端の技術水準を達成した。

    Link: https://arxiv.org/abs/2606.19460

  • LEAP:Vision Transformer蒸留のための適応的進捗による層スキップ効率 [cs.CV]目的:Vision Transformer蒸留における層スキップ効率の向上
    • 画像認識やセマンティックセグメンテーション等,様々なタスクでVision Transformerが不可欠になっている。
    • モデルの巨大さから,エッジデバイスへのデプロイには蒸留が必要だが,教師-生徒間の能力差が課題である。
    • 段階的な難易度設定により,生徒モデルが効率的に知識を獲得し,学習を加速させる。
    • LEAPによって蒸留されたViT-Sは,ImageNet-100で90.1%の精度を達成し,ベースライン比で+12.24%の改善が見られた。
    • ImageNet-1KにおけるLEAPのOxfordとParisデータセットでのインスタンス検索タスクの精度は,それぞれ+3.84%と+7.75%向上した。
    • LEAPのカリキュラムにより,ImageNet-100の学習FLOPsが25.1%,学習時間が21%削減された。

    Link: https://arxiv.org/abs/2606.19483

  • 空間ブロッキングを用いた映像演出制御:LooseControlVideo [cs.CV]目的:テキストから映像を生成する際の,空間的な配置と時間的変化の制御
    • 映像生成技術は,エンターテイメントから研究開発まで幅広く活用されており,その重要性は増している。
    • 複雑なシーンにおける,オブジェクト間の意味的な配置と時間的な変化を同時に制御することが困難である。
    • 疎な3Dボックスによる「ブロッキング」を用いて,直感的で表現力豊かな制御を実現し,高品質な映像を生成すること。
    • 本研究で開発したLooseControlVideoは,既存の2Dボックスやフローベースの手法を大幅に上回る性能を示すことがわかった。
    • 特に,軌跡誤差,剛体運動の一貫性,オクルージョン精度において,最大3倍の改善が見られた。
    • 3Dプリミティブが,複雑なマルチエージェント映像の作成において,良好な幾何学的制約を与えることが示された。

    Link: https://arxiv.org/abs/2606.19495

  • ImageWAM:ワールドアクションモデルは本当にビデオ生成が必要なのか,それとも画像編集だけなのか? [cs.DC, cs.CV, cs.RO]目的:ロボットアクション予測のための画像編集モデルの再利用
    • ロボットの自律的な行動を可能にするために,視覚世界モデルとロボット制御の連携が重要である。
    • 既存のビデオベースのワールドアクションモデルは,計算コストが高い,不要な情報まで予測してしまう,長期間予測で誤差が生じやすいという課題がある。
    • 画像編集モデルを活用することで,より効率的で正確なアクション予測を実現し,課題を解決することを目指す。
    • ImageWAMは,従来のVLAベースラインや競合するWAMと比較して,追加のポリシー事前学習なしに優れた性能を示した。
    • 計算量(FLOPs)はビデオベースのWAMの1/6,待ち時間(latency)は1/4に削減された。
    • 注意機構の分析により,編集キャッシュがタスクに関連する変化領域に焦点を当てていることが示され,画像編集が有効な代替手段であることが裏付けられた。

    Link: https://arxiv.org/abs/2606.19531

  • PerceptionDLM:マルチモーダル拡散言語モデルによる並列領域認識 [cs.CV, cs.AI, cs.CL]目的:マルチモーダル拡散言語モデルを用いた効率的な並列領域認識
    • 視覚理解は,画像や動画などの情報を解析し,その内容を理解する上で不可欠な技術である。
    • 既存のマルチモーダル大規模言語モデルは,自己回帰的生成に依存しており,複数領域のキャプション作成のような並列処理が苦手である。
    • 拡散言語モデルの並列処理能力を活用し,複数領域の認識効率を向上させる。
    • PerceptionDLMは,既存のアプローチと比較して,複数領域の認識タスクにおいて大幅な高速化を実現した。
    • 新しいベンチマークであるParaDLC-Benchを用いて,キャプションの品質と推論効率の両方を評価し,DLMの並列処理能力を検証した。
    • 拡散言語モデルの利点を活かすことで,並列領域キャプションと認識を初めて実現した。

    Link: https://arxiv.org/abs/2606.19534

  • Mix-QVLA:タスク・エビデンスを意識した視覚-言語-行動モデルの混合精度量子化 [cs.CV]目的:視覚-言語-行動モデルの混合精度量子化フレームワーク
    • ロボットの知能化において,視覚,言語,行動を統合的に理解するモデルが不可欠である。
    • モデルの軽量化と高速化が課題であり,量子化が有効だが,精度劣化を抑制する必要がある。
    • 量子化による精度劣化を最小限に抑え,効率的な推論を実現すること。
    • Mix-QVLAは,タスクに関連するエビデンスを考慮して量子化ビット数を割り当てることで,精度と効率のトレードオフを改善する。
    • LIBEROデータセットにおいて,モデルサイズを大幅に削減しつつ,BF16モデルと比較して96.3%の平均成功率を維持した。
    • 推論速度を1.52倍に向上させ,低ビットVLAモデルのデプロイメントを可能にした。

    Link: https://arxiv.org/abs/2606.19565

  • 音響銃声分類のための特徴抽出技術パラメータの探求 [cs.SD, cs.AI]目的:音響銃声分類における特徴抽出技術の最適パラメータ
    • 銃声検知技術は,公共の安全,軍事作戦,野生動物保護など多岐にわたる分野で重要である。
    • 既存の銃声検知システムの効果にばらつきがあり,現実的なデータへの汎化が課題となっている。
    • 本研究は,銃声分類の精度向上を目指し,特徴抽出技術のパラメータ最適化に取り組む。
    • 適切な特徴抽出技術を用いることで,トップ1精度が最大20%向上することが示された。
    • さらに,特定の技術に最適なパラメータを用いることで,精度向上が最大4.7%認められた。
    • 本研究は,銃声分類における特徴抽出の重要性とその最適化の可能性を示唆する。

    Link: https://arxiv.org/abs/2606.19568

  • FlowFake:オーディオディープフェイク検出のための流体ネットワーク [cs.HC, cs.DB, cs.DC, cs.SD, cs.AI]目的:オーディオディープフェイクの検出
    • 音声合成技術の発展により,ディープフェイクの脅威が増大しており,セキュリティ上の懸念が高まっている。
    • 既存のディープフェイク検出器は,学習データと異なる合成手法に対して汎化性能が低いという課題がある。
    • 異なるデータセット間での汎化性能を高め,様々なディープフェイクに対応できる検出器を開発すること。
    • FlowFakeは,学習済みODEを用いた流体時間定数(LTC)アーキテクチャを採用し,わずか34Kパラメータで安定性と高精度を実現した。
    • 4つのデータセットを用いたクロスドメインベンチマークにおいて,他の手法を凌駕する性能を示し,特に少ないパラメータ数で高い性能を発揮した。
    • ASVspoof2019をFakeOrRealのみで学習した場合,75.29%の精度を達成し,MLAADのみで学習した場合も79.97%の精度を達成した。

    Link: https://arxiv.org/abs/2606.19579

  • 制御可能かつ汎化性能の高い知覚のための言語指示型ビジョン埋め込み [cs.CV]目的:制御可能で汎化性能の高い知覚を実現するためのビジョン埋め込み
    • 視覚と言語の融合は,AIの知能向上に不可欠であり,多様なタスクへの適応能力を高める。
    • 既存のビジョンモデルは,特定のタスクへの再学習が必要であり,汎用性に課題がある。
    • 言語による動的な指示を通じて,タスク固有の再学習なしに知覚能力を向上させる。
    • LIVEは,視覚的幻覚を低減し,MMVPで34ポイントの改善を達成した。
    • LIVEは,パラメータ数が桁違いに多い既存のビジョン言語モデルを凌駕する性能を示した。
    • 未学習の指示やタスクへの汎化性能も高く,適応的な視覚知能への道を開く。

    Link: https://arxiv.org/abs/2606.19584

  • PrefSQA:音声品質評価のためのペアワイズ選好予測と高品質データセットの重要性 [cs.SD, cs.AI, cs.LG]目的:音声品質評価のためのペアワイズ選好予測手法
    • 音声品質評価は,通信システムや音声処理技術の性能向上に不可欠である。
    • 主観評価であるMOSは,評価者によるばらつきや聴取条件の違いの影響を受けやすい。
    • より安定した評価を実現するため,ペアワイズ比較による選好予測を目指す。
    • 提案手法PrefSQAは,不確実性を考慮したロジット,インペアメントアテンションヘッド,非マッチング参照比較モジュールを導入した。
    • MOSから派生したデータセットでは小幅な改善が見られたが,高品質な選好データセットにおいては,ベースラインを上回る明確な改善が確認された。
    • 本研究は,高品質な選好データの重要性と提案手法の有効性を示唆している。

    Link: https://arxiv.org/abs/2606.19597

  • 建造物のドリフト:資材ライフサイクルを通じた現場での適応の記録 [cs.HC, cs.GR]目的:建設における現場での適応記録の分類と,それを支援するツールの開発
    • 建設分野において,資源循環型経済の実現が喫緊の課題であり,再利用可能な資材の活用が重要視されている。
    • 再利用資材は不確実性を伴うため,現場での即興的な対応が必要となり,その記録が不十分になりがちである。
    • この研究は,現場での適応を記録・共有することで,再利用を促進し,持続可能な建設を支援することを目指す。
    • 研究では,「建造物のドリフト」という概念を提唱し,設計モデルからの物理的状態の乖離を特徴づける分類を開発した。
    • 現場での適応を記録・可視化するためのツール「Pentimento」を提示し,動画と3Dガウススプラッティングを活用した空間・時間・意味的な表現を可能にした。
    • この研究は,再利用資材を用いた建設における現場での即興性を支援する計算ツール開発への道を開き,回収・修理・再利用のサイクルを促進する。

    Link: https://arxiv.org/abs/2606.19609

  • GB-LSR:単一のグローバル帯域幅による高速ローカルスペクトル画像表現 - 連続再構成と超解像 [cs.CV, cs.GR, cs.LG]目的:連続画像再構成と超解像のための高速ローカルスペクトル画像表現
    • 画像処理における再構成と超解像は,高画質化や情報復元に不可欠な技術である。
    • 既存手法は計算コストが高く,リアルタイム処理や大規模画像への適用が困難な場合がある。
    • 単一のグローバル帯域幅で効率的な再構成と超解像を実現し,計算コストを削減することを目指す。
    • 提案手法GB-LSRは,Kodak,Set14,Urban100の標準ベンチマークにおいて,既存手法よりも2.8-3.6dB高いPSNRと0.11-0.15低いLPIPSを達成した。
    • GB-LSRは,最速のベースラインよりも約4分の1の推論コストで動作し,高速性と高画質を両立した。
    • 超解像タスクにおいても,LIIF-RDNやLTE-SwinIRと比較して,1.44倍から3.25倍の高速化を実現した。

    Link: https://arxiv.org/abs/2606.19617

  • DMIメカニズムにおける共同タスクでの真実性 [cs.GT]目的:DMIメカニズムにおける共同タスク戦略の真実性
    • ピア評価やレビューなど,複数タスクが存在する状況でのメカニズム設計の重要性が高まっている。
    • 既存のメカニズムでは,複数のタスクを考慮した共同タスク戦略に対する真実性の保証が不十分である。
    • 本研究は,DMIメカニズムが共同タスク戦略下でも真実性を保てる条件を明らかにする。
    • DMIメカニズムは,他のエージェントが単一タスク戦略を用いる場合,共同タスク戦略下でも真実性を保つ。
    • しかし,ピアが単一タスク戦略に限定されない場合,DMIメカニズムは真実性を保証できない。
    • 本研究は,DMIメカニズムの適用範囲と限界を示唆する。

    Link: https://arxiv.org/abs/2606.19618

  • RIVET:堅牢なべき等な声の属性編集 [cs.SD, cs.AI, cs.LG]目的:声の属性編集におけるロバスト性の向上
    • 音声技術は,コミュニケーションやアクセシビリティにおいて重要な役割を担う。
    • 大規模データセットの属性アノテーションにはノイズが多く,編集の安定性を損なう。
    • ラベルノイズに対するロバスト性を高め,より安定した属性編集を実現すること。
    • RIVETは,べき等性を組み込んだ学習フレームワークであり,ラベルノイズに対するロバスト性を改善する。
    • 制御されたラベルノイズ下およびGLOBEデータセットにおいて,編集の成功率と話者IDの保持率が向上した。
    • べき等性は,声の属性編集モデルにおけるロバスト性を向上させる有効な手段であることが示された。

    Link: https://arxiv.org/abs/2606.19629

  • エンドツーエンド運転のための自己対戦の拡張 [cs.RO, cs.CV]目的:エンドツーエンド運転モデルの学習戦略
    • 自動運転技術の発展は,安全性向上や交通効率化に不可欠である。
    • 既存の学習方法は,データ不足や現実世界への適応性に課題がある。
    • シミュレーション環境での自己対戦学習による,実用的なモデルの構築を目指す。
    • 大規模シミュレーション環境「Gigapixel」を開発し,エンドツーエンド運転モデルの自己対戦学習を実現した。
    • 自己対戦学習と教師あり学習を組み合わせた「self-play DAgger」により,サンプル効率を向上させた。
    • 実車データへの軽量な適応により,ベンチマークテストで競争力のある性能を達成した。

    Link: https://arxiv.org/abs/2606.19641

  • SAFE-Cascade:コスト適応型ビジョン言語ルーティングによるグラフ質疑応答 [cs.IR, cs.CV]目的:グラフ質疑応答におけるコスト適応的な経路選択
    • グラフデータの解析において,質疑応答は重要な課題であり,利用者の情報アクセスを支援する。
    • ビジョン言語モデルは強力だが,すべての質問に対して使用するとコストがかかる。
    • OCRテキストと軽量な言語推論で答えられる質問に対し,VLMの使用を抑制しコスト削減を図る。
    • SAFE-Cascadeは,OCRテキストからの暫定的な回答を得た後,学習されたルーティングモデルでVLMへのエスカレーションを決定する。
    • テストデータセットにおいて,SAFE-Cascadeは69.1%の統一精度を達成し,VLMの呼び出し回数を26.9%削減した。
    • SAFE-Cascadeは,フルVLMベースラインと同等のパフォーマンスを維持しつつ,コストを9.3%削減した。

    Link: https://arxiv.org/abs/2606.19646

  • BrainG3N:制御可能な3D脳MRI生成のためのデュアルパーパス・トークナイザー [cs.AI, cs.CV, cs.LG]目的:3D脳MRIの制御可能な生成のためのトークナイザー
    • 臨床神経学や神経腫瘍学において3D脳MRIは不可欠であり,その応用範囲は広い。
    • 既存のトークナイザーは,臨床情報の保持と解剖学的忠実な再構成のバランスが課題である。
    • 臨床情報を保持しつつ,高精度な3D脳MRI再構成を可能とするトークナイザーを開発する。
    • 本研究では,臨床情報の保持に優れる3D MAEエンコーダーと,高精度な再構成を担うCNNデコーダーを組み合わせたトークナイザーBrainG3Nを提案した。
    • BrainG3Nエンコーダーは,23の線形プロービングタスクにおいて,既存モデルと同等またはそれ以上の性能を示した。
    • また,BrainG3Nを用いた拡散モデルは,条件付き生成と患者固有の縦断的予測の両方をサポートし,臨床応用への可能性を示した。

    Link: https://arxiv.org/abs/2606.19651

  • ノイズ除去のタイミング学習:潜在拡散に対する非同期スケジュールの最適化 [cs.CV]目的:潜在拡散モデルにおける非同期スケジュールの学習
    • 画像生成の品質向上を目指す上で,多様な表現を用いた拡散モデルが注目されている。
    • 各表現のノイズ除去タイミングを決定する非同期スケジュールが性能に大きく影響するが,最適な設定は不明である。
    • 学習可能なスケジュールにより,画像生成の収束速度と品質の両方を向上させることを目指す。
    • 学習されたスケジュールは,ImageNet 256x256において,XLバックボーンを用いた際の収束速度と最終的な品質を大幅に改善した。
    • AutoGuidanceを用いた場合,200エポックモデルはFID 1.05に達し,4倍少ない学習量で800エポックのSFD-XLベースラインと同等の性能を達成した。
    • 600エポックまで学習するとFID 1.02に改善し,1BパラメータのSFD-XXLの結果(FID 1.04)を上回った。

    Link: https://arxiv.org/abs/2606.19662

  • TeleMorpher:ロバストな同時モーション・位置編集に向けて [cs.CL, cs.CL, cs.RO, cs.ET, physics.optics, cs.RO, cs.CV, cs.AI]目的:モーションと位置の同時編集の実現
    • 映像編集において,モーションと位置の同時操作は,現実的な応用において重要なニーズがある。
    • 既存研究では,モーション編集に焦点が当てられがちで,モーションと位置の同時編集は未だ十分な探求がなされていない。
    • モーションと位置の同時編集における品質低下要因を分析し,より制御可能で正確な編集を可能にするフレームワークを構築する。
    • 提案手法TeleMorpherは,モーションプリアーとターゲットモーションセントリック動画を活用することで,モーションと位置の同時編集を可能にする。
    • 事前学習済みのセグメンテーション・インペインティングモデルを用いて人物と背景を分離し,トレーニング不要のポーズワープでモーションを編集する。
    • 実験結果から,TeleMorpherは定量評価および主観評価において優れた性能を示し,その有効性が確認された。

    Link: https://arxiv.org/abs/2606.19676

  • インテリジェントなビデオ検索のためのマルチモーダル融合システム Vortex [cs.CE, cs.CV]目的:インテリジェントなマルチメディア検索と時間推論の進歩
    • ビデオデータの活用は,情報検索やコンテンツ理解において重要性が増している。
    • 従来のビデオ検索は,グローバルな意味と細粒度の意味のバランスが課題であった。
    • CLIPとSigLIP2の相乗効果により,より高度なビデオ検索を実現する。
    • Vortexは,適応的なキーフレーム抽出,マルチモーダルメタデータの生成,ハイブリッド検索戦略を統合している。
    • 予備ラウンドにおいて,79.6/88 (90.5\%) のスコアを達成し,最終ラウンドでは「Excellent」の評価を得た。
    • 特に質問応答タスクでは「Outstanding」の結果を示し,ハイブリッド検索戦略の有効性が確認された。

    Link: https://arxiv.org/abs/2606.19682

  • ファッション画像検索のためのマルチモーダル大規模言語モデルと二段階ファインチューニングの探求 [cs.CV]目的:ファッション画像検索における構成的画像検索の性能向上
    • ファッション分野では,色,柄,質感などの微妙な属性変化を理解することが重要である。
    • 既存手法は,アノテーションデータの不足と単純な負例サンプリングに課題がある。
    • 属性を意識したTriplet生成と二段階ファインチューニング戦略による改善を目指す。
    • マルチモーダル大規模言語モデルLLaVAを活用し,属性を意識したTripletを生成する新しいフレームワークを提案した。
    • CLIP-ViT/B32などの事前学習済みビジョン言語モデルを活用し,コントラスト学習を強化する二段階ファインチューニング戦略を導入した。
    • 実験結果は,構成的な推論能力の向上と,きめ細かい検索動作の改善を示しており,提案フレームワークの有効性と可能性を裏付けている。

    Link: https://arxiv.org/abs/2606.19684

  • 非対称時間パディングによる遅延設定可能なストリーミング音声強調 [cs.RO, cs.SD, eess.AS]目的:ストリーミング音声強調における遅延と品質のトレードオフの解決
    • 音声強調は,音声認識やコミュニケーションにおいて不可欠であり,その性能向上は重要である。
    • 従来のストリーミング音声強調は,遅延と品質のバランスを取ることが難しく,決定的な選択を迫られていた。
    • 本研究は,遅延を自由に設定可能な音声強調モデルを開発し,遅延と品質の最適なバランスを実現する。
    • 提案手法LaCo-SENetは,非対称時間パディングとデュアルバッファーストリーミングにより,遅延をパラメータ化することを可能にした。
    • VoiceBank+DEMANDデータセットを用いた実験で,12.5msから75.0msの範囲で遅延を調整可能なモデル群が得られた。
    • 特に12.5ms(完全因果)のモデルは,既存の因果的モデルを上回るPESQスコア(3.35)を達成した。

    Link: https://arxiv.org/abs/2606.19688

  • 侵入検知のための統合的なセンサー配置とスケジュール手法 [eess.SY, cs.GT, cs.SY, math.OC]目的:侵入検知におけるセンサー配置と向きの最適化
    • セキュリティシステムの有効性は,センサー配置と運用戦略に大きく依存する。
    • センサー配置とスケジュールの同時最適化は計算量が膨大であり,実用的な解を得ることが困難である。
    • ゲーム理論と弱準単調関数最適化を統合し,効率的な同時最適化手法を確立する。
    • 提案手法は,ゲーム理論に基づいたユーティリティ関数と弱準単調関数最適化アルゴリズムを組み合わせることで,計算コストを抑えつつ高精度な検知性能を実現する。
    • シミュレーションの結果,既存手法と比較して,ほぼ最適な検知性能を達成し,計算時間を大幅に削減できることが示された。
    • 本研究は,センサー配置と向きのスケジューリングを同時に最適化するための,統一的なフレームワークを初めて提供する。

    Link: https://arxiv.org/abs/2606.19695

  • 時間軸における物語イベント構造:長編ビデオ理解のため [cs.CV, cs.CL]目的:長編ビデオにおける物語構造の理解
    • 近年,映像と言語を組み合わせたモデルが進歩したが,長時間の映像を扱う能力は物語構造の理解に繋がっていない。
    • 既存の長編ビデオ評価基準は,詳細な行動からイベント,時間経過に伴うイベントの相互作用,物語の進行といった評価が不足している。
    • 本研究は,視覚,対話,音声に基づいた物語イベントを構造的に捉え,その関係性を明らかにするデータセットを構築する。
    • NESTデータセットは,1005本の長編映画(平均98分)を収録し,各映画で102個のマルチモーダルな物語イベントがアノテーションされている。
    • イベントトリガー検出(ETD)は8%以下,イベント局所化(EL)は6%以下,イベント引数抽出(EAE)は11%以下と,依然として困難な課題である。
    • イベントが与えられた状態でのイベント関係抽出(ERE)は,ゼロショットで35.45%,ファインチューニング後で44.42%のF1スコアに達している。

    Link: https://arxiv.org/abs/2606.19706

  • 少数クラス応用データセットに対する効率的なニューラルネットワークモデル選択 [cs.LG, cs.CV]目的:少数クラスデータセットにおける効率的なモデル選択
    • 実世界の問題解決において,ニューラルネットワークの活用は不可欠である。
    • 従来のモデル選択方法は,多数クラスデータセットを前提としており,少数クラスデータセットには不向きである。
    • データ特性に基づく分類困難度を評価し,効率的なモデル選択を可能にすること。
    • 提案手法は,従来の反復的な学習・テストと比較して,6〜29倍高速にモデル比較が可能である。
    • 少数クラスの特性("few-class distinctiveness")を活用し,モデルサイズを最大42%削減しつつ,同等の精度を達成した。
    • モバイルロボット,ドローン,IoTなどのリソース制約のある環境において,効率的なモデル選択を実証した。

    Link: https://arxiv.org/abs/2606.19712

  • 3D事前知識に基づく拡散モデルによる,単一画像からの新規視点・ポーズ人間画像合成 [cs.CV]目的:単一画像からの新規視点・ポーズ人間画像合成
    • 人間画像合成は,バーチャルリアリティやエンターテインメントなど,多様な分野で応用が期待される重要な技術である。
    • 既存手法では,曖昧な2Dポーズ情報からの複雑なポーズ再現や,隠れた部分の正確な復元が課題となっていた。
    • 3D事前知識を活用し,隠れた部分を含む高品質な画像合成を実現し,既存手法の課題を克服することを目指す。
    • 提案手法は,3Dノーマルマップとカラープロンプトを条件として拡散モデルを用いることで,複雑なポーズの人間画像を高品質に合成できる。
    • 隠れた部分や見えない部分の復元においても高い精度を示し,既存手法と比較して優れた性能を発揮する。
    • 新規人物に対する汎化性能も高く,異なるデータセット間でも安定した結果が得られる。

    Link: https://arxiv.org/abs/2606.19718

  • QueryGaussian:スケーラブルかつ学習不要なオープンボキャブラリ3Dインスタンス検索 [cs.CV, cs.AI]目的:大規模シーンにおける自然言語プロンプトによる特定の3Dインスタンスの効率的な検索
    • マルチメディア分析において,3Dシーンの理解と操作は重要な課題である。
    • 既存手法はシーン全体の埋め込みに依存し,シーンの複雑さが増すほど計算コストが増大する。
    • シーンの複雑さに依存しない,スケーラブルな3Dインスタンス検索手法を提案する。
    • QueryGaussianは,最先端手法と同等の精度を達成しつつ,GPUメモリ使用量を70%以上削減する。
    • 推論速度は180倍に向上し,大規模シーンでの高速なインスタンス検索を実現する。
    • 消費者向けハードウェアを用いて,数千万のガウス関数を含む都市規模シーンでの検索が可能となる。

    Link: https://arxiv.org/abs/2606.19733

  • GLARE:グローバル説明をクエリするための自然言語インターフェース [cs.AI, cs.CV]目的:グローバル説明への自然言語アクセス
    • 画像認識モデルの信頼性向上は重要であり,そのためにはモデルの意思決定根拠の理解が不可欠である。
    • 既存のグローバル説明は複雑で扱いにくく,特定の質問への回答を得ることが困難である。
    • 自然言語による質問を通して,グローバル説明へのアクセスを容易にし,利用者の理解を深める。
    • 大規模言語モデル(LLM)を仲介者として活用することで,自然言語による質問を構造化されたSQLクエリに変換することが可能となった。
    • これにより,低レベルな表現に頼らずに柔軟な集計が可能となり,人間中心のXAI(説明可能なAI)に貢献する。
    • 実験結果から,LLMによるクエリがグローバル説明のアクセシビリティとユーザビリティを大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2606.19735

  • 視点融合敵対的迷彩:環境適応型物理的欺瞞 [cs.CV]目的:環境適応的な物理的欺瞞のための敵対的迷彩
    • UAV偵察の普及に伴い,環境変化に頑健な物理的迷彩技術の重要性が増している。
    • 従来の迷彩は,視点の変化や照明条件の変化に対応できず,現実的なテクスチャ生成が困難である。
    • 視点,姿勢,照明条件の変化に対応し,現実的な迷彩パターンを生成することで,物理的な欺瞞を実現する。
    • 提案手法は,UVボリュームレンダリングと拡散ベースのテクスチャ生成器を統合し,様々な条件下で一貫した外観を維持する。
    • 照明色の一貫性推定器を用いて背景属性を抽出し,生成されたテクスチャを周囲環境に適合させることで,リアリズムを高めている。
    • 主流の検出器に対する実験により,高い攻撃性能と知覚的な自然さを両立し,人間の検出率を低下させることが示された。

    Link: https://arxiv.org/abs/2606.19736

  • 室内シーン理解のための占有率に基づいた視覚言語モデル [cs.RO, cs.SI, stat.AP, stat.OT, cs.CV]目的:室内シーン理解のための視覚言語モデルの構築
    • ロボット工学や知能システムにおいて,周囲環境の正確な理解は不可欠である。
    • 既存手法では,3D情報と2D情報を分離して処理するため,統合的な表現が難しい。
    • 2D画像のみから効率的に3D環境を理解する新たな手法を開発すること。
    • Occ-VLMは,2D画像から3D占有率を再構成し,視覚的特徴と空間情報を関連付ける。
    • この手法により,高精度な幾何学的認識と堅牢な視覚言語推論が可能となる。
    • 占有率予測,3D VQA,3D密なキャプション生成のベンチマークで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2606.19776

  • 音声合成におけるファインチューニングを通じた音素付加の事前学習効果の探求 [cs.CE, cs.SD]目的:音素付加のプロセス
    • 低リソースのテキスト読み上げにおいて,転移学習は重要である。
    • 事前学習に存在しない音素を扱う場合,音素セットを拡張する必要がある。
    • 事前学習能力が音素付加にどの程度貢献するかを明らかにすること。
    • ファインチューニングは,ゼロから学習するよりも自然度が高い音声を生成する。
    • しかし,新たな音素のPERを同等レベルにするには,同等かそれ以上のデータが必要となる。
    • 事前学習は主に自然度向上に寄与し,音素付加への貢献は限定的である。

    Link: https://arxiv.org/abs/2606.19792

  • フローマップによるノイズ除去:逆問題における歪み・知覚平面の横断 [cs.LG, cs.CV]目的:歪み・知覚平面の制御を通じた逆問題解決
    • 画像復元は重要な技術であり,様々な分野で利用されている。
    • 従来の復元手法では,歪みの最小化と知覚的品質の向上がトレードオフの関係にあった。
    • フローマップモデルを用いて,このトレードオフを連続的に制御する手法を提案する。
    • フローマップモデルは,歪み・知覚平面全体を連続的に横断できることが示された。
    • パラメータtを調整することで,最小二乗解と知覚的品質の間の制御が可能となった。
    • 提案手法は,複数の逆問題において既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2606.19802

  • HypOProto:左心室充満圧分類のための双曲線順序プロトタイプ [cs.CV]目的:左心室充満圧の分類
    • 心不全などの疾患評価に不可欠な心機能の評価において,心エコー検査は広く用いられている。
    • 従来の分類は操作者依存性が高く,資源の限られた環境では利用が難しい場合がある。
    • 臨床的解釈性を高めながら,心エコー画像から直接左心室充満圧を推定する手法を提案する。
    • HypOProtoは,最先端の性能を達成しつつ,透明性を維持している。
    • 双曲線幾何学を用いることで,臨床的に意味のある順序関係を符号化し,解釈性を向上させている。
    • 可視化において臨床的に関連性の高い領域を強調し,診断の根拠を示唆する。

    Link: https://arxiv.org/abs/2606.19804

  • ParaScale:ゲージ不変な視差数によるカメラモーションのスケール調整転送 [cs.CV, cs.AI]目的:参照動画のカメラモーションを新たな動画に転送する手法
    • 映画のようなカメラワークを再利用することで,コンテンツ制作の効率化が期待される分野。
    • 参照動画とターゲット動画のスケールが異なる場合,モーションが不自然になるという課題。
    • スケールの異なる動画間でも,自然なカメラモーションを転送するための手法を開発。
    • 提案手法ParaScaleは,参照動画から視差数Piを抽出し,ターゲットシーンの奥行き情報を用いて再構築する。
    • これにより,スケールに依存しない,忠実なカメラモーションの転送が可能となる。
    • 実験結果から,ParaScaleは既存手法と比較して,視差の一致誤差を大幅に低減できることが示された。

    Link: https://arxiv.org/abs/2606.19805

  • 合成物体検出データに対するトレーニング不要評価指標:検出器性能の代理尺度 [cs.CL, cs.CY, cs.CV]目的:合成訓練データセットの相対的な有用性の代理尺度
    • コンピュータビジョンの発展には,大量の注釈付きデータが不可欠である。
    • 現実世界のデータ収集にはコストがかかるため,合成データの活用が求められている。
    • 合成データの品質評価が困難であり,効率的な評価指標が求められている。
    • 提案手法CCDMは,YOLOv8の性能との相関が1.0と高いことを示した。
    • 既存の合成画像評価指標を大きく上回る結果が得られた。
    • CCDMは,合成データセットの有効性を事前に評価できる指標となり得る。

    Link: https://arxiv.org/abs/2606.19817

  • 医療画像における薄い解剖学的構造のセグメンテーション:CSWinUNETR [cs.FL, cs.CV, cs.AI]目的:医療画像における薄い解剖学的構造のセグメンテーション手法
    • 医療診断や治療において,正確な解剖構造の把握は不可欠である。特に薄い構造の認識は重要。
    • 網膜血管や脳血管,顔の皺など,薄い構造のセグメンテーションはコントラストが低く困難を伴う。
    • 既存手法の断片化や微細な分岐の復元失敗を克服し,より高精度なセグメンテーションを実現する。
    • 提案手法CSWinUNETRは,長距離の主要軸コンテキストをモデル化し,情報交換を促進するクロス形状ストライプ自己注意機構を採用。
    • 微細な詳細を保持するため,マルチ解像度表現から文脈特徴を統合する詳細強調型マルチスケール自己注意モジュールを導入。
    • 疎な制御点から信頼性の高いカーブ線状カーネルを再構築するスパース制御動的スネーク畳み込みを提案し,複雑な形状を追跡。

    Link: https://arxiv.org/abs/2606.19824

  • 3D-PLOT-LLM:3D大規模言語モデルのためのパーツレベルのオブジェクトトークン [cs.CV]目的:3Dオブジェクトのパーツを直接扱えるようにするための手法
    • 3D物体認識は,ロボティクスやAR/VRなど,多様な応用分野において重要である。
    • 既存の3D大規模言語モデルは,3Dオブジェクト全体を説明できるものの,パーツ単位での理解が困難である。
    • 本研究は,オブジェクト全体のパラメータ数を増やすことなく,パーツレベルでの理解を可能にすることを目指す。
    • 3D-PLOT-LLMは,既存のポイントエンコーダーのパッチを局所的にコヒーレントな領域に分割し,各領域に学習可能なマーカーと特殊トークンを挿入する。
    • PartVerse-QAベンチマークにおいて,3D-PLOT-LLMはキャプション・トゥ・スロットのJaccard係数で0.459,完全一致率で13.78%を達成した。
    • 3DCoMPaT-GrInベンチマークでは,PointLLM,Kestrel,PARIS3Dなどの既存モデルをテキスト出力の各種指標で上回った。

    Link: https://arxiv.org/abs/2606.19828

  • ニューラルイベント:イベントベースビジョン向けの離散非同期オートエンコーダ [cs.CV]目的:イベントストリームの再トークン化による情報抽出
    • 従来のカメラでは捉えきれない高速な動きを捉える技術として,イベントベースビジョンが重要である。
    • イベントデータは情報量が少なく,大量のデータを効率的に処理することが課題である。
    • イベントデータを圧縮し,より高次元な特徴表現を獲得することで,処理負荷の軽減を目指す。
    • 提案手法では,イベントストリームを少数の「ニューラルイベント」に再トークン化する。
    • オブジェクト検出と分類において,最先端の手法と同等またはそれ以上の性能を達成した。
    • イベントレートを2倍に削減することで,データ処理の効率化を実現した。

    Link: https://arxiv.org/abs/2606.19835

  • World Engine:自動運転における後学習時代の到来に向けて [cs.RO, cs.CV]目的:自動運転における安全性向上のための後学習手法
    • 自動運転技術は社会実装が期待されるが,安全性確保が不可欠である。現実世界での事故は重大な結果を招く。
    • 実走行データに存在する安全性に関わる稀な事象「ロングテール」の不足が,自動運転の信頼性を制限している。
    • World Engineを用いて合成された安全性に関わる事象による後学習で,自動運転ポリシーの安全性を高めることを目指す。
    • World Engineは,実走行ログから高精度なインタラクティブ環境を再構築し,現実的な安全性に関わる変化を体系的に生成する。
    • 後学習により,ポリシーを安全性制約に適合させ,実世界での探索に伴う物理的リスクを回避する。
    • nuPlanのベンチマークにおいて,World Engineは稀な安全性に関わるシナリオでの失敗を大幅に削減し,実車テストでも衝突減少と性能向上が確認された。

    Link: https://arxiv.org/abs/2606.19836

  • OTCHA:最適輸送駆動型信頼度を考慮した潜在的ハブアラインメントによるマルチビュー医療画像分類 [cs.CV]目的:マルチビュー医療画像分類のための潜在的ハブアラインメントモジュール
    • 医療診断においてマルチビュー画像は不可欠だが,画像間の位置ずれやノイズが課題となる。
    • 既存手法はビュー固有の不要な情報を埋め込みに含み,ロバスト性が低下しやすい。
    • 最適輸送を用いて,ビュー間の信頼度を考慮した特徴量の精緻化を目指す。
    • 提案手法OTCHAは,ビュー間で共有される学習可能な潜在的ハブトークンを導入する。
    • 最適輸送計画を用いてトークン間のマッチング信頼度を計算し,メッセージパッシングを制御する。
    • 3つのマルチビュー医療画像データセットで,既存手法と比較して分類性能が向上した。

    Link: https://arxiv.org/abs/2606.19838

  • ViCoStream:段階的協調推論により,ストリーミングVideoLLMが100FPS超で動作可能 [cs.CL, cs.CV]目的:ストリーミングVideoLLMにおけるリアルタイム配信のための,スループットと応答性の向上
    • 動画処理と大規模言語モデルの融合が,リアルタイムな映像理解を可能にする重要な研究分野である。
    • 既存手法は個々のモジュールに焦点を当てており,システム全体のリアルタイムストリーミング性能を保証できていない。
    • チャンクごとの処理,CUDAストリームの重畳,視覚トークン制御等により,処理・メモリコストを抑制し,リアルタイム性能を実現する。
    • ViCoStreamは,単一のA100 GPU上で134 FPSのビデオスループットと50ms未満のTTFT(Time To First Token)を達成した。
    • 本研究では,チャンクサイズ,トークン保持,注意の局所性などが,スループットと精度のトレードオフに与える影響を体系的に分析した。
    • ViCoStreamは,フルヒストリーベースラインと比較して遜色ない精度を維持しながら,高いパフォーマンスを実現している。

    Link: https://arxiv.org/abs/2606.19849

  • PSCT-Net:微分逆投影と注意機構による小児頭部CT再構成 [cs.CV, cs.AI]目的:小児頭蓋CT再構成の精度向上
    • 小児の頭蓋顔面異常診断にはCTが不可欠だが,放射線被ばくのリスクがある。
    • 従来のCT再構成手法では,空間情報を考慮せず,深度の曖昧さや骨境界の劣化が生じる。
    • 空間情報を考慮した再構成により,低線量での高精度なCT再構成を実現する。
    • PSCT-Netは,微分逆投影により空間的に忠実なボリューム事前情報を確立し,深度の曖昧さを軽減する。
    • Attention-Guided Projection (AGP-3D)モジュールは,2D領域と3D位置間の非線形な対応を学習する。
    • Bidirectional Mamba (BiM-3D)モジュールは,線形複雑度で長距離ボリューム依存性を捉える。PedSkull-CTデータセットを構築した。

    Link: https://arxiv.org/abs/2606.19867

  • MMD-SLAM:構造を強化した多重メタガウス分布誘導型Visual SLAM [cs.DC, cs.RO, cs.CV]目的:フォトリアリスティックなマッピングのための多重メタガウス表現
    • SLAMは,ロボットの自律的なナビゲーションや環境理解に不可欠な技術である。
    • 既存の3DGSベースSLAMは,構造情報を十分に活用できず,レンダリング品質やマップの一貫性に課題がある。
    • アトランタワールド仮説に基づき,構造的情報を組み込んだより高精度なSLAMシステムを構築すること。
    • 提案手法MMD-SLAMは,点と線の融合戦略により,トラッキングのロバスト性とマッピングの制約を向上させている。
    • 構造的Priorを明示的に符号化する多重メタガウス表現と,シーン形状に適応するガウス進化戦略を導入している。
    • ScanNetでATE RMSEが48.56%減少し,ReplicaでPSNRが5.71%向上するなど,最先端の性能を達成している。

    Link: https://arxiv.org/abs/2606.19874

  • マルチモーダル概念ボトルネックモデル [cs.CL, cs.CV, cs.LG]目的:深層学習ネットワークの解釈可能性向上
    • 深層学習モデルの複雑性から,その判断根拠の理解が重要視されている。
    • 既存モデルは,定義済みクラス外への汎化や,意図しない情報漏洩のリスクがある。
    • CLIPへのCBMの拡張と,解釈可能なゼロショット分類や画像検索の実現を目指す。
    • 提案手法MM-CBMは,画像とテキスト埋め込みを解釈可能な特徴に整列させる二つの概念ボトルネック層を利用する。
    • 標準ベンチマーク4つで平均51.26%の精度向上を達成した。
    • ブラックボックスモデルの性能を維持しつつ,高い解釈可能性を提供する。

    Link: https://arxiv.org/abs/2606.19882

  • SurgVista:妥当な手術器具・組織力学を伴う長期的手術世界モデリング [cs.CV]目的:手術世界の長期的予測モデルの開発
    • 自律手術の実現には,ロボットの行動学習が不可欠である。しかし,専門家のデモンストレーションは高価であり,生体内での探索は安全上のリスクを伴う。
    • 既存の手術世界モデルは,空間的な相互作用の不整合や,長期的な予測における視覚的品質の低下といった問題を抱えている。
    • 空間的な一貫性と長期的な視覚的品質を維持することで,より現実的で安全な手術シミュレーション環境の構築を目指す。
    • SurgVistaは,変形の一貫性正則化とドリフト適応訓練という2つの手法により,空間的相互作用の不整合と長期的な視覚的品質の低下を軽減する。
    • 変形の一貫性正則化は,潜在的対照学習を通じてフレーム間の物理的に整合した手術器具・組織力学を強化する。
    • SurgVistaは,最先端の手法と比較して,視覚的品質,時間的一貫性,および相互作用の忠実度において一貫して優れた性能を示す。

    Link: https://arxiv.org/abs/2606.19889