arXiv雑要約

画像・音声 - 2026/06/05 公開

  • 土木インフラにおける信頼性の高いひび割れ表現とトポロジー保存のためのマルチタスククラック基礎モデル [cs.CV]目的:信頼性の高いひび割れ評価のためのひび割れマスク予測,骨格再構成,および不確実性推定
    • 社会インフラの老朽化が進む中,ひび割れの正確な把握と評価は維持管理において重要である。
    • 既存のセグメンテーションモデルは,ひび割れを断片化させたり,細い枝を見逃したり,不確実性の校正が不十分である。
    • ドメインシフト下でも安定したひび割れ評価を実現し,インフラ点検の信頼性と汎用性を向上させる。
    • CrackGeoFMは,20のひび割れデータセットにおいて,最先端のセグメンテーション性能を達成した。
    • ひび割れのトポロジー保存が向上し,不確実性の推定も校正された結果が得られた。
    • わずか5枚のラベル付き画像を用いたFew-shot adaptationにおいても,高い効果が確認された。

    Link: https://arxiv.org/abs/2606.05641

  • GS-NFS:動的ガウススプラットと点群の帯域幅適応ストリーミング [cs.MM, cs.CV, cs.GR, cs.NI]目的:動的3Dガウススプラッティングの圧縮・解凍の高速化
    • 3Dコンテンツのストリーミング需要が高まっており,高品質な映像伝送技術が求められている。
    • 従来の3Dガウススプラッティングの圧縮技術は,処理速度が遅く,GPUによる効率的な高速化が困難であった。
    • GPUを活用した並列処理により,動的3Dガウススプラッティングの圧縮・解凍速度を実用レベルに向上させる。
    • GS-NFSは,既存のアルゴリズムをGPU上で並列化することで,高速な圧縮・解凍を実現した。
    • 従来の最先端技術と比較して,エンコード・デコード速度が1〜2桁向上した。
    • 圧縮性能とレンダリング品質については,同等の性能を維持している。

    Link: https://arxiv.org/abs/2606.05650

  • CoFi-UCGen:ラベル事前知識なしの粗々から細かい条件付き生成 [cs.CV]目的:ラベルを用いない条件付き画像生成の枠組み
    • 画像生成技術は,様々な分野で応用が期待されており,その発展は重要である。
    • 既存の条件付き生成モデルは,ラベルに依存するため,ラベルなしでの制御が課題であった。
    • 粗い意味と細かい変化を分離し,ラベルなしで高品質な生成を可能にすること。
    • 提案手法CoFi-UCGenは,粗い意味と細かい変化を明示的に分離することで,ラベルなしでの条件付き画像生成に成功した。
    • 敵対的セマンティック相互学習理論により,画像と潜在空間間のセマンティックな一貫性と完全性を保証している。
    • 実験の結果,既存手法と比較して,画像品質,セマンティック整合性,制御精度が向上することが示された。

    Link: https://arxiv.org/abs/2606.05652

  • V2V-Bench: ビデオ対ビデオ生成評価のための包括的ベンチマーク [cs.DB, cs.RO, cs.CV]目的:ビデオ対ビデオ生成の評価基準
    • ビデオ生成技術は,エンターテインメントから医療まで幅広い分野で応用が期待されている。
    • 既存の評価指標は,編集指示への追従性とソースビデオとのフレームレベルの対応関係の両方を捉えられていない。
    • ビデオ対ビデオ生成の評価における課題を克服し,より信頼性の高い評価を可能にすること。
    • V2V-Benchは,時間的整合性,構造的忠実性,変換品質,ビデオ品質,意味的整合性を含む11次元のベンチマークである。
    • Grok Imagineは編集の忠実度で優れ,Gemini Veo3はより高い視覚的品質を達成するという,モデル間の補完的な強みが見られた。
    • V2V-Benchは,6つのV2V固有の次元において,人間の判断との相関係数0.905を達成した。

    Link: https://arxiv.org/abs/2606.05665

  • 双方向は一方通行より優れている:サイクル整合性を用いたエグザンプラーフリー継続学習における双方向アラインメント [cs.CL, cs.LG, cs.CV]目的:エグザンプラーフリー継続学習における忘却軽減と精度向上
    • 継続学習は,過去の知識を保持しつつ新しいスキルを獲得する能力が重要であるため,AIの応用範囲を広げる鍵となる。
    • エグザンプラーフリー継続学習では,過去のデータを保存できないため,表現のドリフトが起こりやすく,既存クラスの性能低下を招く。
    • 既存手法のバイアスを解消し,サイクル整合性による双方向アラインメントを通じて,表現ドリフトを抑制し,忘却を軽減すること。
    • 提案手法BiCycは,過去から現在,現在から過去への2つの写像を最適化することで,表現と輸送の共進化を実現する。
    • サイクル損失は,白化空間において特異スペクトルを単位に向かって収縮させ,クラス平均と共分散の輸送を改善することで,分類ロジットの摂動を抑制する。
    • 標準的なEFCILベンチマークにおいて,BiCycは忘却を大幅に軽減し,ゼロから学習する設定で精度を向上させる。

    Link: https://arxiv.org/abs/2606.05675

  • LongSpace:ビデオにおける知覚から想起までの長期的空間記憶の探求 [cs.CV, cs.AI, cs.CL]目的:長期的空間記憶の評価と,ビデオにおける空間推論のためのメモリフレームワーク
    • 自動運転やロボットナビゲーションなど,長期的なタスクには空間記憶が不可欠である。
    • 既存のモデルは,過去の空間レイアウトや経路,視点変化,オブジェクトの状態を記憶・検索する能力が不足している。
    • ビデオにおける長期的空間推論能力を向上させるための明確な空間記憶機構を開発すること。
    • LongSpace-Benchという長期的空間記憶のためのルームツアービデオベンチマークを新たに導入した。
    • LongSpaceは,ビデオを逐次的なチャンクとしてモデル化し,3D構造的情報を活用して空間推論を改善する。
    • 実験により,LongSpaceが長期ビデオの空間理解を向上させ,空間記憶が重要な能力であることが示された。

    Link: https://arxiv.org/abs/2606.05677

  • 波形堅牢性を超えて:自動音声認識に対するロバストな特徴-Vocoder敵対的攻撃 [cs.SD, cs.AI, cs.CR]目的:自動音声認識システムに対する敵対的攻撃手法の開発
    • 音声認識技術は多言語の音声テキスト変換で広く利用されており,そのセキュリティ確保は重要である。
    • 既存の敵対的攻撃は,ブラックボックス環境への転移性が低く,防御機構によって容易に軽減されるという課題があった。
    • より汎用性の高い特徴空間での攻撃と,Vocoderを通じた波形への変換により,これらの課題を解決する。
    • 提案手法は,公開されているWhisper-smallモデルのみで最適化されたにも関わらず,ブラックボックスASRモデルに対して高い攻撃成功率を示した。
    • 既存の最先端手法と比較して,WER(単語誤り率)が+26.6%向上し,複数の防御機構に対しても+36.2%のWER向上を示した。
    • これらの結果は,現在の音声認識システムの堅牢性評価における盲点を示すものである。

    Link: https://arxiv.org/abs/2606.05678

  • T-SAR-JEPA:潜在的予測によるSAR振幅スタックにおける自己教師あり時間異常検知 [cs.CL, cs.RO, cs.CV, cs.LG]目的:SAR振幅スタックにおける時間異常の検知
    • SAR画像は災害監視や変化検出に不可欠であり,その効率的な解析が求められている。
    • SAR画像の異常検知は,ラベル付きデータの不足や,異常の多様性により困難である。
    • 自己教師あり学習により,ラベルなしデータから効率的に異常検知モデルを学習することを目指す。
    • 提案手法T-SAR-JEPAは,SAR画像の振幅のみを用いて時間異常を検知する自己教師ありフレームワークである。
    • DFC 2026データセットにおいて,ハワイ噴火ウィンドウでROC-AUC 77.0%を達成し,既存手法を上回る性能を示した。
    • 空間的な一貫性も高く,構造化された異常検出が可能であることが確認された。

    Link: https://arxiv.org/abs/2606.05700

  • 時を見る:ビジョン・言語モデルにおける時間的推論とショートカットバイアスのベンチマーク [cs.AI, cs.CV]目的:ビジョン・言語モデルの時間的推論能力の評価
    • 視覚情報と言語情報を統合するモデルの重要性が増しており,その時間理解の能力が不可欠である。
    • 既存のベンチマークはフレーム順序に焦点を当て,画像内の時間的推論の根底にある論理の探求が不十分である。
    • 画像とテキストのクロスコマシャル整合性を評価し,モデルが時間的特徴ではなく表面的な手がかりに頼る傾向を解明する。
    • VLMsは時間的推論の可能性を示す一方,グレースケールとカラーフィルターなどの表面的な手がかりを利用する傾向がある。
    • モデルはカテゴリによってパフォーマンスに差が見られ,時間的特徴に基づく真の推論を回避することが示唆された。
    • 高品質なデータセットと厳密な評価フレームワークを提供することで,モデルの限界を特定し,より堅牢な多Modalモデルの開発を促進する。

    Link: https://arxiv.org/abs/2606.05702

  • 高速自己回帰画像生成のための並列ヤコビデコーディング [cs.CV]目的:高速自己回帰画像生成の実現
    • 高解像度画像の生成において,自己回帰モデルは高い性能を示す。
    • 自己回帰モデルの逐次的な処理が,推論速度のボトルネックとなっている。
    • 空間的な並列性を活用し,ヤコビデコーディングの効率低下を抑制する。
    • 提案手法である並列ヤコビデコーディング(PJD)は,自己回帰画像生成モデルの推論速度を4.8倍〜6.4倍に向上させる。
    • PJDは,アテンションマスクを調整することで,誤差の蓄積を軽減し,収束の安定性を高める。
    • 多様なデータセットにおける実験により,生成品質を維持しつつ高速化を達成した。

    Link: https://arxiv.org/abs/2606.05703

  • 監視カメラを用いた機械学習によるリアルタイム脅威検知 [cs.CV]目的:監視カメラ映像からのリアルタイム脅威検知手法
    • 都市部における公共の安全確保は重要課題であり,高度な監視システムの必要性が高まっている。
    • 従来の手法は人手による監視に依存し,効率性や人的エラー,対応の遅れが問題点として存在する。
    • 本研究は,これらの課題を解決するため,リアルタイムな物体検出に基づく監視フレームワークを提案する。
    • 提案システムは,インドの監視シナリオで頻繁に発生する銃,ナイフ,鈍器の検出に焦点を当てている。
    • 新たに収集した鈍器のデータセットと既存のデータセットを組み合わせ,YOLOv8モデルを訓練した。
    • 実験結果から,訓練時間の増加が鈍器クラスの精度向上に繋がり,実環境での運用に適していることが示された。

    Link: https://arxiv.org/abs/2606.05708

  • 生成デコーディングを超えて:多モーダルセンチメント分析のためのネイティブ全モーダルLLMからの識別的隠れ状態読み出し [cs.CL, cs.MM, cs.SD, eess.AS]目的:多モーダルセンチメント分析における,より正確で効率的かつ信頼性の高い連続スコア算出手法の開発
    • 感情認識は,人間とコンピュータの自然なコミュニケーションを可能にする上で不可欠な技術である。
    • 既存の多モーダル感情分析手法は,生成的な読み出しに依存しており,精度や効率に課題がある。
    • 本研究は,識別的な読み出し機構を導入することで,これらの課題を克服し,性能向上を目指す。
    • 提案手法は,CMU-MOSIおよびCMU-MOSEIにおいて,最先端の精度を達成した (MOSI: MAE 0.551, Corr 0.888; MOSEI: MAE 0.506, Corr 0.790)。
    • 生成的な読み出しと比較して,提案手法は平均絶対誤差を大幅に削減し,より安定した出力を実現した。
    • テキストが支配的な影響を与えることが示唆された。低リソース環境での学習も可能であることが確認された。

    Link: https://arxiv.org/abs/2606.05713

  • ViCuR:マルチモーダルオンポリシー蒸留のための回復可能な特権としての視覚的手がかり [cs.CE, cs.CL, cs.CV, cs.AI, cs.LG]目的:マルチモーダル推論におけるオンポリシー蒸留の改善
    • マルチモーダル推論は,多様な情報源からの理解を深める上で不可欠であり,AIの応用範囲を広げる。
    • 教師あり学習において,教師が持つ特権的な情報が,テスト時の学生に利用できない場合,性能低下やショートカット学習を引き起こす。
    • 視覚的手がかりを特権情報として利用することで,教師と学生のミスマッチを解消し,よりロバストな学習を実現する。
    • ViCuRは,従来の答えに基づくオンポリシー自己蒸留と比較して,Qwen3-VL-2Bおよび8Bの学生モデルで,平均パフォーマンスを+1.19/+1.24%改善した。
    • より強力な教師を用いたオンポリシー蒸留においても,ViCuRはベースラインを+0.64/+1.08%上回り,特に8Bスケールでドメイン外のデータに対する汎化性能が向上した。
    • この結果から,マルチモーダルオンポリシー蒸留において,教師の特権設計が教師の能力と同じくらい重要であることが示唆される。

    Link: https://arxiv.org/abs/2606.05718

  • シーンテキスト編集のための統一フレームワークTextWand [cs.CV]目的:シーンテキストの削除,生成,置換を単一のモデルで統合する汎用的なフレームワーク
    • シーンテキストは,画像から情報を抽出する上で重要であり,多様な応用が期待されている。
    • 既存手法では,テキスト編集タスクごとにモデルを構築する必要があり,汎用性に欠ける点が課題である。
    • テキスト編集の基本操作を分解することで,より高精度で汎用的な編集を実現することを目指す。
    • TextWandは,シーンテキストの削除,生成,置換といったタスクにおいて,既存のオープンソースおよびクローズドソースモデルを上回る性能を示す。
    • Overlay-Reference Positional Encoding (ORPE)とRegion-Adaptive Suppression (RAS)という新しい技術により,テキストの正確性,レイアウトの一貫性,画像品質を向上させている。
    • 既存の単一タスクデータセットの限界を克服するため,包括的なベンチマークであるTextWand-Benchを構築した。

    Link: https://arxiv.org/abs/2606.05730

  • VTI-CoT:ビデオ推論のための視覚とテキストの交互Chain of Thought [cs.CV]目的:ビデオ推論における視覚情報とテキスト情報を統合したChain of Thoughtフレームワーク
    • ビデオ推論は,動画内の複雑な時間的展開や因果関係を理解する上で重要である。
    • 既存のCoT手法はテキスト情報に偏っており,推論過程における重要な視覚情報を活用できていない。
    • 視覚情報とテキスト情報を交互に利用することで,より高度な推論能力を獲得し,効率的な学習を実現する。
    • VTI-CoTは,視覚情報とテキスト情報を交互に統合する新しいフレームワークであり,最先端の性能を達成した。
    • 既存のデータセットに視覚とテキストが交互に注釈されたCoTデータが不足しているため,高品質なマルチモーダルCoTデータの自動生成パイプラインを開発した。
    • OCRを用いたCoTデータの圧縮により,学習の収束性と効率が大幅に向上した。

    Link: https://arxiv.org/abs/2606.05736

  • 単純化を追求:ビジョン・言語・行動モデルのためのワンステップ行動生成 [cs.CV, cs.AI, cs.LG, cs.RO]目的:ビジョン・言語・行動モデルにおけるワンステップ行動生成の性能向上
    • ロボットの自律行動を可能にするVLAモデルの重要性が高まっている。
    • 従来のVLAモデルは画像生成の考え方を応用し,複雑な反復処理を必要とする。
    • 行動生成における条件とターゲットの構造の違いに着目し,簡潔なワンステップ生成を目指す。
    • 高ノイズ状態への学習データ分布の偏りを用いることで,標準的な拡散学習だけでも高い性能が期待できる。
    • MNISTの実験とロボットを用いた実験で,ワンステップポリシーが十ステップデコーディングと同等以上の性能を示した。
    • 大規模言語モデルを用いた評価では,LIBERO-Longにおいて95.6%の精度を達成した。

    Link: https://arxiv.org/abs/2606.05737

  • 音声基盤モデルは,人間と同じように話者間の類似性を認識するか? [cs.SD, eess.AS]目的:話者間の類似性に対する音声基盤モデルと人間の主観的知覚との比較
    • 音声技術の発展は,人間と機械のコミュニケーションを円滑にする上で不可欠である。
    • 音声基盤モデルの話者埋め込みと人間の知覚との間にずれが生じることが課題である。
    • 人間の知覚と整合性の高い話者埋め込みのモデル構成要素を特定すること。
    • 40以上のモデルを用いた包括的な調査により,モデル由来の距離と人間の知覚された類似性スコアとの比較を行った。
    • モデル構成における要素が,人間の知覚を反映した話者埋め込みに最も貢献している要因を特定した。
    • 本研究は,より知覚に基づいた音声基盤モデルの開発に洞察を提供する。

    Link: https://arxiv.org/abs/2606.05739

  • コサイン類似度は誤解を招く:補助損失はビジョン言語モデルを再構築する,潜在表現ではない [cs.CY, cs.NI, cs.CV]目的:ビジョン言語モデルにおける潜在的な視覚的推論のメカニズムの解明
    • 視覚と言語の理解を結びつけるビジョン言語モデルは,多様な応用可能性を秘めている。
    • 潜在表現と視覚的ターゲット間のアライメント指標が,モデル性能と必ずしも一致しない。
    • コサイン類似度の負の相関関係の原因を特定し,潜在表現の役割を再評価する。
    • コサイン類似度と精度は負の相関関係にあり,アライメント指標が性能を正確に反映しないことが示された。
    • 潜在表現は,推論時に有意な役割を果たしておらず,言語モデルのパラメータを通じて再構築されている。
    • PRISM診断によって,潜在表現が答えの生成に大きく寄与していないことが確認された。

    Link: https://arxiv.org/abs/2606.05753

  • サニャックアシスト型高度OTDRによる分散音響センシング:標準化されたベンチマークとエンジニアリング評価フレームワーク [cs.SD, cs.AI, eess.AS]目的:分散音響センシングにおけるイベント認識のための標準化されたベンチマークとエンジニアリング評価フレームワークの開発
    • 大規模構造物のモニタリングや地盤調査など,広範囲な音響検知のニーズが高まっている。
    • 偏波誘導フェージングや環境ノイズの影響により,実環境での性能劣化が課題となっている。
    • サニャック干渉計を用いることで,フェージングの影響を軽減し,音響イベントの認識精度向上を目指す。
    • サニャックアシスト型OTDRは,従来のOTDRの弱点である偏波誘導フェージングを効果的に抑制することが示された。
    • デュアルブランチフュージョンモデルが,イベント認識において最も良好なトレードオフを示し,89.79%の精度,89.83%のマクロF1スコア,5.00%の無駄アラーム率を達成した。
    • チャネルグループ化がデュアルブランチ評価に強く影響することから,実環境での展開においては,精度だけでなく,様々な評価指標を考慮する必要がある。

    Link: https://arxiv.org/abs/2606.05754

  • DRIFT:ビジョン言語モデルにおける連続出力のデコーディングのための残差フローアダプター [cs.CV, cs.AI, cs.LG]目的:ビジョン言語モデルにおける連続出力デコーディングへの適応
    • 近年のビジョン言語モデルの発展は目覚ましいが,その応用範囲を広げるには課題が残る。
    • 離散トークンによる自己回帰的デコーディングは,連続的な出力が求められるタスクには不向きである。
    • 事前学習済みモデルを,イベントの時間境界の特定やロボット制御といった連続出力タスクに適応させる。
    • DRIFTは,粗い予測値を提供するベース予測器と,反復的に予測を改善するフローマッチングに基づく生成的洗練モジュールを組み合わせる。
    • 残差学習により,生成モデリング問題を簡略化し,最適化を容易にする。
    • 視覚的グラウンディングやロボット制御を含む複数のタスクとアーキテクチャで,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2606.05758

  • 物理モデルに基づく深層アンフォールディングによる,未知のクロスセンサー分光超解像のための分光変換関数の学習 [cs.CV]目的:クロスセンサー分光超解像における分光変換関数の推定と高精度な高分解能画像再構成
    • 定量的なリモートセンシングにおいて,豊富に分光情報を持つハイパースペクトル画像は重要である。
    • ハイパースペクトルセンサーは高価であり,多くのUAVへの搭載が困難であるという課題がある。
    • 未知のセンサー特性やシーン内容に対応し,クロスセンサー環境下での分光超解像の精度向上を目指す。
    • 提案手法PGU-Netは,物理モデルに基づいた深層アンフォールディングにより,分光変換関数と高分解能画像を同時に推定する。
    • ベンチマークデータセットを用いた実験により,PGU-Netは最先端の分光超解像手法と比較して,より正確な分光変換関数の復元と再構成性能の向上を示す。
    • 実際のUAVクロスセンサーデータセットでの評価により,PGU-Netのロバスト性と有効性が実証され,推定された分光変換関数が土地被覆に関連する差異を示す可能性が示唆された。

    Link: https://arxiv.org/abs/2606.05759

  • ExpSpeech-Net:表情と音声の多Modal融合によるディープフェイク検出 [cs.CV]目的:ディープフェイク検出のための軽量かつ効率的なフレームワーク
    • オンラインコンテンツの信頼性が脅かされ,ディープフェイク検出技術の重要性が増している。
    • 既存の検出手法は複雑で計算資源を必要とし,実用性に課題がある。
    • 表情と音声を同時に分析し,効率的なディープフェイク検出を可能にする。
    • ExpSpeech-Netは,SqueezeNetとRNNを基盤とし,94.5%の精度を達成した。
    • 従来の検出手法と比較して,精度,適合率,F値において優れた性能を示した。
    • 表情と音声の多Modal融合と知的な前処理により,実用的なリアルタイム検出を実現した。

    Link: https://arxiv.org/abs/2606.05760

  • 予測の前に想像せよ:ビデオイベント予測のための挟み込み潜在視覚推論 [cs.CV]目的:ビデオイベント予測における将来の状態推論能力の向上
    • ビデオ理解は,ロボット工学や自動運転など,様々な応用分野で重要である。
    • 既存モデルは,視覚情報をテキスト化する際に詳細な動きや形状情報を失うことがある。
    • 潜在空間で視覚情報を保持することで,より正確な将来予測を目指す。
    • 提案手法Future-L1は,言語トークンと潜在視覚範囲を交互に処理するフレームワークである。
    • FutureBenchにおいて,Qwen3-VL-8Bのスコアを61.0から85.4に,Video-CoEを10.4ポイント上回った。
    • TwiFF-Benchにおいても平均スコアが2.44から3.04へと向上し,最先端の結果を達成した。

    Link: https://arxiv.org/abs/2606.05769

  • LiAuto-GeoX:効率的なグラウンデッド駆動Transformer [eess.SY, cs.SY, cs.RO, cs.CV]目的:リアルタイム搭載可能な自律運転用3Dシーン理解
    • 自律運転において,周囲環境の正確な3次元理解は安全性向上に不可欠である。
    • 既存の3D再構成手法は計算コストが高く,リアルタイム処理や長距離の幾何学的精度に課題がある。
    • 効率性と精度を両立し,実用的な自律運転システムの実現に貢献することを目指す。
    • LiAuto-GeoXは,KITTIデータセット上で220FPSの処理速度を実現し,高精度な3D再構成を可能にする。
    • 学習された幾何学的表現は,軌跡予測(90.6 PDMS),Occupancy予測(24.63 mIoU),未来フレーム予測(47.67 IoU)など,様々な自律運転タスクで高い性能を示す。
    • 効率的な3D再構成が,自律運転システムの基盤技術として活用できる可能性を示した。

    Link: https://arxiv.org/abs/2606.05774

  • 絶対スコアを超えて:汎化可能な画像美的評価のための相対的な編集誘発差 [cs.CV]目的:画像美的評価における汎化能力向上
    • 画像美的評価は,人間が視覚的コンテンツを理解・享受する上で不可欠な要素である。
    • 従来の評価方法は絶対的なスコアに依存し,人間の美的認識の本質的な比較的側面を捉えられていない。
    • 美的差に対する因果的推論を導入し,汎化性能の高いモデルを開発することを目指す。
    • 提案手法RED-Aesは,制御可能な画像編集モデルを用いて人間の美的推論過程を模倣する。
    • 絶対スコアの分布に適合するのではなく,美的変化を駆動する視覚的要素を明示的に学習する。
    • RED-Aesは,複数の公開ベンチマークにおいて最先端の性能を示し,優れた汎化能力を実証した。

    Link: https://arxiv.org/abs/2606.05778

  • LPDR向け次世代並列デコーダ:アーキテクチャ最適化とクラスバランスGAN拡張 [cs.CV, cs.AI, cs.LG]目的:LPDRにおける認識率向上
    • スマートシティの基盤技術であり,効率的なナンバープレート認識が不可欠である。
    • 空間的な文字ずれや,学習データにおけるクラスの不均衡が認識精度を低下させる。
    • 空間認識能力とクラスバランスを考慮した拡張により,認識率の向上を目指す。
    • 提案手法により,マイノリティ省プレートの認識率が78.2%から91.5%に大幅に向上した。
    • 152FPSというリアルタイム処理性能を維持しつつ,認識精度の改善を達成した。
    • 空間認識並列デコーディングとクラスバランス拡張の組み合わせが有効であることを示した。

    Link: https://arxiv.org/abs/2606.05785

  • LLMベースのプロンプト翻訳とLoRAファインチューニングによる韓国の日記テキストからの感情認識画像生成 [cs.CV, cs.AI]目的:韓国語の日記テキストから子供の落書き風画像を生成する手法
    • 画像生成AIの発展は,表現の可能性を広げている。多様なテキストから画像を生成することへの需要が高い。
    • 既存のT2Iモデルは,感情を正確に捉えられていない。特に日記のような文脈理解が重要なテキストでは課題がある。
    • 日記テキストに内在する感情を認識し,それを画像生成に反映させることで,より表現豊かな画像を生成すること。
    • Qwen3-8Bを用いて日記テキストから潜在的な感情を認識し,Stable Diffusion 3.5 Mediumで画像生成を行うパイプラインを提案した。
    • LoRAを用いたファインチューニングにより,感情に基づいたトリガーワードを活用することで,子供の落書き風画像を生成することに成功した。
    • CLIP Scoreが感情認識画像生成の評価指標として適切でない可能性を示し,その限界について議論した。

    Link: https://arxiv.org/abs/2606.05816

  • 美術史からテキスト-画像生成へのジェンダー・アーティファクト [cs.CV]目的:ジェンダー表現と様式間の相互作用に関する調査
    • 芸術様式は社会階層を反映し,ジェンダー観も包含する。その理解は不可欠である。
    • AI研究では,様式が表層的な視覚特性として扱われ,ジェンダーの影響が軽視されてきた。
    • 歴史的画像と生成画像におけるジェンダー表現の偏りを定量化し,その原因を探求する。
    • 本研究では,美術史と生成画像の比較を可能にする「StyleGender」データセットを構築した。
    • 開発したSGA指標(PixelSGAとMaskSGA)により,芸術様式におけるジェンダー表現が視覚特徴を形成することが示された。
    • 生成モデルがジェンダー・アーティファクトを増幅する傾向が明らかになり,バイアスへの対策が求められる。

    Link: https://arxiv.org/abs/2606.05829

  • 動画からの幾何学的表現学習:空間知能を持つマルチモーダル大規模言語モデルに向けて [cs.CV, cs.AI]目的:動画から幾何学的表現を学習すること
    • マルチモーダル大規模言語モデルの発展は目覚ましいが,空間認識能力が課題である。
    • 既存モデルは2D理解に優れるものの,3D認識が不十分で幾何学的整合性に欠ける。
    • 3Dデータの不足を補い,モデルに空間知能を付与することを目的とする。
    • GeoVRは,2D動画のみを用いて幾何学的表現を学習する新しいフレームワークである。
    • 事前学習済みの3Dモデルから幾何学的知識を蒸留することで,モデル内部表現を再構築する。
    • 空間推論ベンチマークにおいて,最先端の性能を達成し,新たなパラダイムを確立した。

    Link: https://arxiv.org/abs/2606.05833

  • UniVoice:音声と歌声の生成を統合するモデル [cs.RO, eess.SY, cs.SY, cs.SD, cs.AI, eess.AS]目的:音声と歌声の生成
    • 音声合成と歌声合成は,人間らしい音声を生成する上で重要であり,コミュニケーションやエンターテイメントに貢献する。
    • 音声と歌声は異なる特性を持つため,両者を同時に扱える単一モデルの学習は困難であった。
    • UniVoiceは,音声と歌声の生成を統一的に行うことで,この課題を解決することを目指す。
    • UniVoiceは,条件付きフローマッチングに基づき,コンテンツ,メロディ,音調の条件を分解することで,自然な音声と制御可能な歌声を生成する。
    • 学習の結果,音声合成におけるPERは5.26%であり,既存のTTSシステムに匹敵する性能を示した。
    • 歌声合成においては,PERが16.22%であり,既存の統合ベースラインモデルVevo1.5を上回る性能を達成した。

    Link: https://arxiv.org/abs/2606.05852

  • ネットワーク共通資源ゲームにおける強化学習を通じた協力メカニズムの探求 [cs.CL, cs.GT, math.DS, physics.soc-ph]目的:資源制約のある集団における協力の持続
    • 資源の有限性から,公平性と持続可能性を両立した資源配分メカニズムの重要性が高まっている。
    • 既存の公平な配分方法は効率性を損ない,比例配分は不平等を拡大する可能性を抱えている。
    • 強化学習を活用し,資源状態とネットワーク構造に適応した配分メカニズムを設計すること。
    • 強化学習により学習された社会計画者は,従来の配分方法と比較して,より高い協力水準と資源量を維持した。
    • 計画者は不平等を軽減し,資源依存性と構造的位置を考慮した適応的な配分を実現した。
    • 学習されたポリシーから,規則的なネットワーク用混合メカニズムと不均一なネットワーク用次数条件付き混合メカニズムを抽出した。

    Link: https://arxiv.org/abs/2606.05867

  • エントロピーに基づくAIエージェントの評価:行動パターンを測定する軽量フレームワーク [cs.AI, cs.CV]目的:AIエージェントの行動パターン測定
    • AI開発において,エージェントの性能評価は重要な課題である。
    • 従来の評価指標では,エージェントの探索性や柔軟性が見過ごされやすい。
    • エントロピーを用いて,エージェントの行動プロセスの構造を詳細に分析する。
    • 本研究で提案するEEAフレームワークは,行動エントロピー等の指標を導入した。
    • これらの指標により,探索効率や堅牢性といった行動特性を定量的に評価できる。
    • EEAは,LangChain等の既存フレームワークとの連携を可能にするPython実装を提供する。

    Link: https://arxiv.org/abs/2606.05872

  • ラダーマン:ヒューマノイドロボットの知覚的な梯子登攀学習 [cs.RO, cs.AI, cs.CV, cs.LG]目的:ヒューマノイドロボットによる梯子登攀と,制約下での操作
    • 人間と共存する環境でのロボット活用には,梯子登攀のような高度な運動能力が不可欠である。
    • 足場や把手の少なさ,全身 координацияの複雑さ,知覚と制御の誤差の影響により,梯子登攀はロボットにとって極めて困難な課題である。
    • 多様な梯子を安定して登攀し,制約下で操作を行うための,ロバストなシステムを開発すること。
    • ラダーマンは,スケーラブルな二段階学習パイプラインと,ハイブリッド模倣・強化学習により,梯子登攀を実現した。
    • 視覚的基盤モデルを活用することで,シミュレーションから実世界への知識転移を可能にした。
    • 実験により,様々な形状の梯子でのロバストな登攀,実機へのゼロショット転移,そして挑戦的な制約下での操作が実証された。

    Link: https://arxiv.org/abs/2606.05873

  • 拡散モデル学習のための形状を考慮したデータセット凝縮 [cs.RO, cs.CV]目的:拡散モデル学習用データセットの凝縮
    • 拡散モデルは高品質な画像生成が可能だが,学習には膨大なデータが必要となる。
    • 既存のデータセット凝縮手法は,拡散モデルの特性を十分に考慮していない。
    • データ分布の形状を維持しつつ,コンパクトなデータセットを構築すること。
    • 提案手法では,偏一次最適輸送を用いて,データセットの幾何学的構造を維持したサブセット選択を実現した。
    • 特徴統計量や意味的一貫性による正則化を組み合わせることで,分布の忠実性を高めた。
    • 様々な拡散モデルや設定での実験により,提案手法が既存手法よりも優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2606.05883

  • GLASS:ゼロショット音声合成における音響スタイル制御のためのGRPO学習LoRA [cs.SD, cs.CL, eess.AS]目的:ゼロショット自動回帰テキスト読み上げ(TTS)における構成可能な音響スタイル制御
    • TTS技術は,人間らしい自然な音声を生成し,コミュニケーションを支援する上で重要である。
    • 従来のTTSでは,話者プロンプトが話者識別と韻律属性を混同し,スタイル変更が困難である。
    • GLASSは,報酬に基づいた制御方向を定義することで,プロンプト変更なしにスタイル制御を可能とする。
    • GLASSは,TTSバックボーンを固定し,軽量なLoRAアダプターをGRPOで学習させることで,音響スタイルの制御を実現した。
    • 話速と音高の制御実験では,自然性,話者類似性,明瞭性を維持しつつ,ターゲットとするスタイル変化が確認された。
    • 独立して学習されたアダプターのスワップ,補間,線形演算により,スムーズなスタイル変化と多軸合成が可能となった。

    Link: https://arxiv.org/abs/2606.05889

  • 共鳴する心:心の理論を備えた閉ループ型ソーシャルアバター [cs.CV]目的:社会性を備えたデジタルヒューマンの実現
    • 人間らしい自然なコミュニケーションを可能にする技術の重要性が増している。
    • 対話と表現が分離しており,認知と感情の統合が課題となっている。
    • 不確実性下での心の状態推論によるより自然な対話を目指す。
    • 提案手法は,対話の質と動画生成の両方の評価指標において,既存手法と同等またはそれ以上の性能を示した。
    • 特に,情報制限のある状況下で,より思慮深い対話が可能になることが示唆された。
    • 心の状態の明示的な推論が,情報への無制限なアクセスよりも優れた対話の質をもたらすことが確認された。

    Link: https://arxiv.org/abs/2606.05896

  • 部分情報下における施設割り当て問題 [cs.RO, cs.GT]目的:施設へのエージェント割り当てによる社会的コストの近似最小化
    • 資源配分問題は,効率的な社会システム構築において不可欠な研究分野である。
    • 従来の施設割り当て問題では,完全な距離情報が必要であり,現実的な状況に対応できない。
    • 不完全な情報下でも効率的な割り当てが可能となる手法の確立を目指す。
    • 承認選好や施設間距離の情報を用いることで,ORD情報のみの場合よりも優れた近似解が得られる。
    • 承認選好と施設間距離の情報(APP+DIST)を用いた場合,歪みの上界は$1+\sqrt{2}$となることが示された。
    • ORD,承認選好,施設間距離の全ての情報(ORD+APP+DIST)を用いた場合は,歪みの上界は$2$となることが示された。

    Link: https://arxiv.org/abs/2606.05905

  • WERを超えて:臨床記録支援におけるペアによる音響ストレステスト [cs.SD, eess.AS]目的:臨床記録支援システムにおける騒音の臨床推論への因果的影響の特定
    • 医療現場での記録作業効率化のため,音声認識と大規模言語モデルの活用が進んでいる。
    • 従来の単語誤り率(WER)では,システムの安全性低下を捉えきれないという課題がある。
    • 音響的な微小な変動が臨床的な意味を反転させうる現状を明らかにし,安全性低下を軽減する。
    • 定常的な環境騒音は単語誤り率をわずかに0.71%増加させたに過ぎないが,安全でない出力の発生率はほぼ2倍になった。
    • 分析の結果,音響的なわずかな摂動が,エラー率を大幅に増加させることなく,臨床的な意味を反転させることが示された。
    • モデルのファインチューニングを必要とせずに,騒音環境下での安全性低下を軽減する軽量な緩和策を実証した。

    Link: https://arxiv.org/abs/2606.05909

  • DBHN-Net:低複雑度単一マイク音声強調のための二分岐ハイブリッドニューラルネットワーク [cs.SD, cs.LG, eess.AS]目的:低複雑度な単一マイク音声強調手法の提案
    • 音声強調技術は,様々なデバイスにおける音声認識や通信品質向上に不可欠である。
    • 従来のニューラルネットワークは高性能だが,計算量が多く,消費電力も大きいという課題がある。
    • 本研究は,スパイクニューラルネットワークの省電力性と,ニューラルネットワークの性能を両立させることを目指す。
    • 提案手法DBHN-Netは,ANNとSNNの二分岐構造により,計算量を7.5倍削減しつつ,優れた音声強調性能を維持する。
    • BandSplitやTF-Mambaモジュールにより,省電力化とモデル性能の向上を同時に実現した。
    • TF-Cross Attention-Fusionモジュールにより,SNN分岐がより重要な情報を保持できるようデータ適応的に誘導する。

    Link: https://arxiv.org/abs/2606.05911

  • データ効率的なガウスアバターのための自己学習表現変形 [cs.CV]目的:ガウス表現を用いた3Dアバターの表情生成におけるデータ効率の向上
    • 3Dアバター技術は,バーチャルコミュニケーションやメタバースなど,多様な分野で活用が期待されている。
    • 従来のガウスアバター生成は,大量のデータと計算コストを必要とし,実用上の制約となっていた。
    • 本研究は,少ないデータで高精度な表情生成を可能にする新しい手法を提案し,この課題を解決することを目指す。
    • 提案手法SAGEは,自己教師あり学習により,少ない入力データから高精度なアバター生成を実現した。
    • マルチビュー設定では,数千フレームのデータが必要だったところ,単一フレームで同等の品質が得られる。
    • 単眼画像やワンショット設定においても,事前学習や事前知識なしでアバター生成が可能となる。

    Link: https://arxiv.org/abs/2606.05912

  • CamFlow+: 2次元カメラモーション推定のためのハイブリッドモーション基底と安定化への応用 [cs.DC, cs.CV]目的:2次元カメラモーションの推定
    • コンピュータビジョンや計算写真において,カメラモーション推定は基本的な要素技術である。
    • 従来のホモグラフィベースの手法は,平面シーンや純回転には有効だが,カメラの並進,深度変化,局所的な視差に対して課題がある。
    • 単一平面の制約を緩和しつつ,カメラモーションの規則性を維持する手法を開発し,モーション推定の精度向上を目指す。
    • CamFlow+は,ホモグラフィ由来の基底,ホモグラフィフローからの確率的基底,そして深度とカメラ内部パラメータ由来の深度並進基底を組み合わせたハイブリッド基底フレームワークである。
    • GHOF-Camベンチマークを用いた実験により,CamFlow+が疎なモーション推定と密なモーション推定の両方で性能が向上することが示された。
    • デジタル動画安定化において,CamFlow+はグローバルおよびローカルの安定性を向上させ,ブラインドユーザーテストで最も高い優先度を獲得した。

    Link: https://arxiv.org/abs/2606.05915

  • シーングラフによる未知の物体検出:オープンボキャブラリ物体検出 [cs.CV]目的:未知の物体カテゴリの識別
    • 画像認識技術は,自動運転やロボティクスなど幅広い分野で不可欠である。
    • 既存手法では,画像内の物体間の関係性を十分に活用できていない。
    • シーングラフを用いて物体間の関係性を明示的にモデル化し,検出精度向上を目指す。
    • 本研究では,シーングラフを用いて物体間の構造的な関係性を捉える新しいフレームワークを提案した。
    • 提案手法は,既存のオープンボキャブラリ物体検出手法と比較して,COCOおよびLVISデータセットでより高い性能を達成した。
    • 特に,新規カテゴリに対するAP(平均適合率)が向上し,効果が確認された。

    Link: https://arxiv.org/abs/2606.05916

  • MemoryCard:トピックを意識したマルチモーダルな手がかり圧縮による長尺動画質疑応答 [cs.CV, cs.CL]目的:長尺動画における質疑応答のための,トピックを意識したマルチモーダルな手がかり圧縮手法
    • 動画と言語を結びつけるVLMsは,長尺動画の理解において重要な役割を担う。効率的な情報処理が求められる。
    • 既存手法では,フレーム単位での処理に偏り,動画全体の文脈やイベントレベルの意味を捉えきれない場合がある。
    • 動画を意味的にまとまりのある「Memory Cards」に整理し,イベントレベルでの理解を促進することで,質疑応答性能の向上を目指す。
    • MemoryCardは,動画を自己読解的にセグメント化し,トピックやイベントに対応したまとまりのある単位を生成する。
    • 生成されたMemory Cardsを用いることで,既存手法と同等の計算コストで,長尺動画の質疑応答精度を最大21.8%相対的に向上させる。
    • 各Memory Cardには,イベントレベルの動画の概要と代表的な視覚的瞬間が含まれており,効率的な検索と質疑応答を可能にする。

    Link: https://arxiv.org/abs/2606.05917

  • クエリ適応型アクティブモダリティ検出によるマルチモーダルまたはそうでないか:音声と視覚を用いた人物検索 [cs.CY, cs.CL, cs.AI, cs.CV, cs.IR, cs.LG, cs.MM, eess.AS]目的:クエリ適応型アクティブモダリティ検出フレームワーク
    • 放送ビデオアーカイブにおける人物検索は,その規模の大きさから効率的な検索技術が求められている。
    • 音声や顔情報が欠損している場合,単純なマルチモーダル融合では性能が低下することが課題である。
    • 欠損モダリティの影響を抑制し,クエリに応じて最適なモダリティを選択することを目指す。
    • 提案手法は,クロスモーダルスコアの一貫性を利用してアクティブモダリティを検出し,89%の精度を達成した。
    • BBC Rewindコーパスを用いた実験で,P@1が94.2%となり,単一モダリティや固定融合よりも高い性能を示した。
    • 本手法は,正解モダリティラベルを用いた場合との性能差を64%まで縮めることに成功した。

    Link: https://arxiv.org/abs/2606.05931

  • 忠実で,豊富な情報を含み,かつ正確な:T2Iモデルによる自然科学イラスト生成のベンチマーク評価 [cs.CV]目的:自然科学イラスト生成におけるT2Iモデルの性能評価
    • 科学研究における視覚的コミュニケーションの重要性が増しており,効果的なイラストレーションが不可欠である。
    • 既存のベンチマークは詳細な要素を評価せず,科学的推論能力や簡潔さの定量化が不十分である。
    • T2Iモデルによる自然科学イラスト生成の課題を特定し,改善のための指針を提供する。
    • FEPBenchは,厳選された高品質な科学イラストから構成されるベンチマークであり,多岐にわたる分野とレイアウトに対応している。
    • 最先端のモデルであっても,テキストレンダリングのボトルネック,限られた推論の深化,そして生成の豊富さと正確さのバランスに課題があることが示された。
    • 本研究の成果は,科学イラスト生成におけるT2Iモデルの改善と実用化に向けた実践的な指針となる。

    Link: https://arxiv.org/abs/2606.05949

  • タスク駆動型階層的オープンボキャブラリ3D機能セグメンテーション [cs.CV, cs.RO]目的:オープンボキャブラリ3D機能セグメンテーションにおけるタスク駆動型階層的アプローチ
    • ロボットが3D環境で機能的なオブジェクト部品を認識する能力は,自律的な操作に不可欠である。
    • 既存手法は,オブジェクトレベル認識か,リソースを大量に消費する網羅的なシーン分割に偏っている。
    • 粒度,精度,速度のバランスを取り,ロボット応用のための実用的な知覚を提供すること。
    • T-FunS3Dは,3D点群とRGB-D画像を入力とし,シーングラフを構築する。
    • タスク記述に基づいて,関連インスタンスを特定し,ビジョン言語モデルを用いて機能部品の位置を特定する。
    • SceneFun3Dデータセットでの実験により,T-FunS3Dは最先端手法と同等の性能を示し,実行時間とメモリ使用量を削減した。

    Link: https://arxiv.org/abs/2606.05975

  • ビジョン認識型MLLM条件付き編集拡散におけるビデオレートストリーミングスタイライゼーション:蒸留されたUNet + MLLMテキストエンコーダを用いた非対称バッチ推論 [cs.CV, cs.LG]目的:リアルタイムテキスト-画像パイプラインにおけるフレームごとのボトルネックを解消し,ビデオレートでのストリーミングスタイライゼーションの実現
    • 近年,大規模言語モデル(MLLM)を活用した画像生成・編集技術が発展しており,その応用範囲は広い。
    • 従来の拡散モデルは計算コストが高く,リアルタイム処理が困難であり,特にMLLMとの組み合わせでは計算負荷が課題となっていた。
    • 蒸留による軽量化と,効率的な推論パイプラインの構築により,リアルタイムなビデオストリーミングスタイライゼーションを実現すること。
    • 蒸留されたUNetとMLLMテキストエンコーダを組み合わせたパイプラインにおいて,非対称バッチ推論などの技術を用いることで,高い処理速度を実現した。
    • RTX 3090 Tiで512x512の解像度において,バッチサイズ8で27.4fps,バッチサイズ16で29.6fpsを達成し,RTX 4090および5090ではさらに高速な処理を実現した。
    • 学習済みの油絵スタイルは,DAVIS-2017やその他の動画データセットにおいて,汎化性能が確認された。

    Link: https://arxiv.org/abs/2606.05981

  • 大規模言語モデルと勾配ブースティングを用いたマルチモーダルな性差別識別と特徴付け [cs.HC, cs.CV]目的:マルチモーダルな性差別識別と特徴付け
    • 社会における性差別問題への関心が高まる中,オンライン上での性差別的表現の検出が重要である。
    • 既存手法では,テキスト情報に偏った分析や,マルチモーダルデータの効果的な統合が課題となっていた。
    • ミームや短尺動画における性差別的表現を,より高精度に識別し,その特徴を明らかにすること。
    • ミームの性差別識別においては,大規模言語モデルから抽出された意味的特徴が有効であることが示された。
    • 短尺動画の分析では,特徴量の次元削減が性能向上に繋がる一方で,未知データに対しては必ずしも最適とは限らないことが明らかになった。
    • 静止画像であるミームと,時間軸情報を含む動画では,最適な特徴量エンジニアリングのアプローチが異なることが示唆された。

    Link: https://arxiv.org/abs/2606.05997

  • 2D口腔内画像からの深層学習による3D口腔内構造再構築 [cs.CV, cs.AI]目的:2D口腔内画像からの3D口腔内構造再構築手法
    • 歯科治療において口腔内3Dモデルは不可欠であり,正確な診断と治療計画の立案に貢献する。
    • 従来の印象採得や口腔内スキャナーは,患者への負担や高コストといった課題を抱えている。
    • 低コストで患者負担の少ない,ソフトウェアベースの3D再構築手法を確立すること。
    • 提案手法は,10枚の2D口腔内画像のみを用いて3Dモデルを再構築し,専用機器を必要としない。
    • Dental3DSデータセットを用いて学習した結果,最近傍一致による精度は77.49%を達成した。
    • 再構築モデルの頂点は,グランドトゥルースの高密度領域に集中する傾向があり,点分布が不均一になるという課題が残る。

    Link: https://arxiv.org/abs/2606.05998

  • 雲除去のための適応三角トランスフォーマー [cs.CV, cs.AI]目的:リモートセンシング画像における雲に隠された地上の物体を正確に復元すること
    • リモートセンシング技術は,地球観測や環境モニタリングにおいて重要な役割を担う
    • 雲による画像情報の遮蔽は,解析精度を低下させる大きな課題である
    • 雲の影響を軽減し,より正確な画像解析を可能にすること
    • 本研究では,計算コストを削減し,雲の影響を抑制する適応三角トランスフォーマー(ATT-CR)を提案した。
    • ATT-CRは,三角行列を用いた効率的な注意機構(TAN)と,雲とクリアな特徴を識別するゲート機構(FSGM)を組み合わせている。
    • 実験結果から,ATT-CRが既存手法と比較して優れた雲除去性能を持つことが示された。

    Link: https://arxiv.org/abs/2606.05999