arXiv雑要約

画像・音声 - 2026/05/29 公開

SAGE：セグメントを意識したグロスフリー符号化によるトークン効率的な手話翻訳 [cs.CV]目的：トークン効率的な手話翻訳の実現
- 手話翻訳は，聴覚障害者と健聴者のコミュニケーションを円滑にする上で不可欠な技術である。
- 既存の手話翻訳モデルは複雑で計算コストが高く，大規模データセットへの適用が課題となっていた。
- セグメントを意識したトークン化により，計算コストを削減し，スケーラビリティを向上させる。
- 提案手法は，入力シーケンス長を最大50％削減し，メモリ使用量を最大2.67倍削減することに成功した。
- PHOENIX14Tベンチマークにおいて，最先端手法の性能を上回り，シーケンス長を短縮することの有効性が示された。
- トークン間対照学習と二重レベルの教師あり学習により，グロスレベルの教師データに頼らずにクロスモーダルアラインメントを改善した。
Link: https://arxiv.org/abs/2507.09266
MENTOR：自己回帰型ビジョン生成モデルのための効率的なマルチモーダル条件付きチューニング [cs.CV, cs.AI, cs.CL]目的：自己回帰型マルチモーダル画像生成のための効率的なマルチモーダル条件付きチューニング
- 近年の画像生成技術の発展は目覚ましいが，より高度な視覚制御が求められている。
- 既存モデルは，マルチモーダル入力のバランスや複雑な生成における学習コストが大きい。
- マルチモーダル入力と画像出力の微細なアライメントを効率的に実現し，生成制御性を向上させる。
- MENTORは，補助的なアダプターやクロスアテンションモジュールを使用せずに，トークンレベルでのアライメントを実現した。
- 2段階の学習パラダイムにより，ピクセルレベルおよびセマンティックレベルでのロバストなアライメントを確立。
- DreamBench++ベンチマークにおいて，既存手法を凌駕する概念保持力とプロンプト追従性を示した。
Link: https://arxiv.org/abs/2507.09574
拡散モデルにおける保持画像の発見：DoRI [cs.CV, cs.AI, cs.LG]目的：拡散モデルにおける訓練データの無意識的な記憶と再現
- 画像生成AIの普及に伴い，プライバシーや知的財産権保護が重要課題となっている。
- 既存の対策は記憶箇所を特定し削除するが，わずかな変化で再現される脆弱性がある。
- 記憶の局所性という前提を覆し，より強固な対策を模索すること。
- 拡散モデルの記憶は局所的ではなく，テキスト埋め込み空間全体に分散していることが示された。
- 同じ画像を再現する埋め込みは，モデルの活性化に多様性をもたらすことが確認された。
- 異なるプルーニング手法は，同じ画像に対して異なる記憶関連重みを特定することが示された。
Link: https://arxiv.org/abs/2507.16880
コンテンツ固有のデータ処理のためのページ画像分類 [cs.IR, cs.AI, cs.CV]目的：歴史的文書のページ画像のコンテンツに基づく分類
- 人文科学におけるデジタル化は進むが，大量の画像データ処理が課題。
- 多様なコンテンツを含む文書の分類は手作業では困難である。
- 文書内容に応じた最適な分析処理を実現する自動分類手法の開発。
- 本研究では，歴史的文書のページ画像に特化した画像分類システムを開発した。
- AIおよび機械学習の技術を活用し，コンテンツ固有の処理ワークフローを可能にする分類カテゴリを設定した。
- これにより，テキスト抽出や画像解析など，適切な分析手法の適用を自動化できる。
Link: https://arxiv.org/abs/2507.21114
拡散モデルに対する低コストで隠蔽性の高いバックドア攻撃：BadBlocks [cs.CR, cs.CV]目的：テキスト画像拡散モデルに対するバックドア攻撃手法の開発
- 画像生成AIの安全性確保は，社会実装において不可欠である。
- 既存のバックドア攻撃は検知されつつあり，より巧妙な攻撃手法が求められている。
- 低コストで検知を回避するバックドア攻撃手法を確立し，リスクを明らかにする。
- BadBlocksは，UNetアーキテクチャの一部のブロックのみを汚染することで，既存の手法よりも低コストでバックドア攻撃を実現する。
- 攻撃成功率は高く，知覚的な品質劣化はほとんどないことが実証された。
- 特に注意機構に基づく防御策を回避し，セキュリティ上の重要なリスクを提示する。
Link: https://arxiv.org/abs/2508.03221
オンライン公正な分割における近似比例性 [cs.GT, cs.AI, cs.MA]目的：オンライン公正な分割問題における近似比例性の実現可能性
- 資源配分は，社会の公平性を保つ上で不可欠であり，経済学，計算機科学等で重要な研究テーマである。
- 既存研究では，厳密な公平性（EF1，MMS）の近似は困難とされている。比例性の近似可能性は未解決であった。
- オンライン環境下で，比例性をどの程度近似できるか，アルゴリズムの限界と改善策を探る。
- 3つの貪欲法は，敵対的状況下で比例性近似を保証できないことが示された。
- 非敵対的状況下では，ランダムな割り当てが比例性近似を高い確率で達成し，その限界も明らかになった。
- アイテム価値の予測を利用することで，よりロバストな比例性近似アルゴリズムが設計され，予測誤差への耐性も確認された。
Link: https://arxiv.org/abs/2508.03253
多層協調蒸留とグローバルワークスペースモデル：OCIL統一フレームワーク [cs.LG, cs.CV]目的：オンライン継続学習における安定性と可塑性のバランス改善
- 現実世界のデータは非独立同一分布であり，継続学習が重要である。
- 既存手法では，記憶容量制限下での安定性と可塑性の両立が課題である。
- グローバルワークスペースモデルを用いて，知識の統合と再分配を促進し，この課題を解決する。
- 提案手法は，各学習バッチにおける学生モデルのパラメータを融合し，動的なアンカーを形成する。
- グローバルワークスペースモデルを周期的に学生モデルに再配布することで，学習の安定化とタスク間の一貫性を促進する。
- 実験結果から，提案手法が複数のOCILモデルにおいて大幅な性能向上をもたらすことが示された。
Link: https://arxiv.org/abs/2508.08677
HM-Talker：高忠実度な頭部談話合成のためのハイブリッドモーションモデリング [cs.CV]目的：高忠実度な頭部談話合成のためのフレームワーク
- 人間との自然なコミュニケーションを実現するためには，リアルな頭部談話合成が不可欠である。
- 既存手法では，パーソナライズと汎化のトレードオフがあり，構造的な不整合や不自然な口の動きが生じやすい。
- 明示的・暗示的な特徴を融合することで，多様な条件下で高精度な口の動きと自然な表情を生成することを目指す。
- HM-Talkerは，オーディオとビデオから包括的なモーションの情報を抽出し，動的な特徴量のペアリングにより，暗示的・明示的な特徴を統合する。
- アイデンティティ特有の動きとオーディオ駆動の汎化を両立させる反復最適化により，下顔面の動きを効果的に制御する。
- 実験結果から，HM-Talkerは既存手法と比較して，視覚的なリアリズムとリップシンクの精度において優れた性能を示すことが示された。
Link: https://arxiv.org/abs/2508.10566
生成4DワールドにおけるスケーラブルなRFシミュレーション [cs.CV, cs.AI, eess.SP]目的：現実的なRF信号のシミュレーション
- RFセンシングは，プライバシーを保護しながら様々な知覚タスクをこなせる強力な技術であるため重要。
- 動的で多様な環境における高品質なRFデータセット構築が課題となっている。
- WaveVerseを用いて，RFデータセット作成のボトルネックを解消することを目指す。
- WaveVerseは，プロンプトに基づき，人物の動きを含む屋内シーンを生成し，リアルなRF信号をシミュレーションする。
- シミュレーションされた信号は，位相に敏感なベンチマークにおいて高い忠実度を示し，実測値や電磁気ソルバーのシミュレーションと一致する。
- RFイメージングや行動認識などのダウンストリームタスクにおいて，WaveVerseはデータ拡張として性能向上に貢献する。
Link: https://arxiv.org/abs/2508.12176
マルチモーダルLLMは感情を理解する [cs.CV, cs.SI]目的：画像における感情伝達の理解
- デジタル環境において，画像が感情伝達において重要な役割を担うようになった。
- 感情認識は，複雑なシーンレベルの意味に依存するため，計算モデルにとって困難な課題である。
- マルチモーダルLLMを用いた感情分析の精度向上と，その有効条件の明確化。
- マルチモーダルLLMとLLMを組み合わせた2段階パイプラインが，様々な評価設定下で予測精度を大幅に向上させる。
- 特に，LLMコンポーネントをファインチューニングすることで，その効果は顕著になる。
- 提案手法は，既存のレキシコンベース，CNNベース，Transformerベースの手法を最大で30.9%，64.8%，42.4%上回る性能を示した。
Link: https://arxiv.org/abs/2508.16873
シンギングボイス変換チャレンジ2025評価結果の詳細な分析 [cs.SD, eess.AS]目的：シンギングボイス変換システムの比較と理解
- 音声技術の発展は，音楽制作やコミュニケーションの可能性を広げる上で重要である。
- 歌声の個性やスタイルを正確に変換することは依然として困難な課題である。
- 歌声のスタイル変換における課題を特定し，評価方法の改善を目指す。
- 今回のチャレンジでは，33のシステムを評価し，上位システムの歌手IDの類似性は良好であった。
- しかし，歌唱スタイルや自然さの向上は依然として課題であり，特に息遣い等の表現が難しい。
- 従来の類似性テストや動的選好テストの限界が示され，客観評価指標と主観評価の相関が検討された。
Link: https://arxiv.org/abs/2509.15629
解像度を方向性として：ベクトルパンニング特徴量アライメントによるクロスカメラ再識別 [cs.CV]目的：クロスカメラ再識別における解像度ギャップに対応するための特徴量アライメント手法
- 監視カメラの品質や距離により画質が変化する現実世界の再識別において，重要な課題である。
- 低解像度画像と高解像度画像間の特徴量不一致が，再識別の精度低下を招く。
- 特徴量空間における解像度方向を学習し，低解像度特徴量を疑似的な高解像度表現に変換する。
- 本研究では，標準的なReIDバックボーンによって生じるHR-LR特徴量の差異が，一貫した解像度関連の方向性を持つことを示した。
- 提案手法Vector Panning Feature Alignment (VPFA)は，低解像度特徴量を解像度方向にパンニングすることで，高解像度表現を生成する軽量な後処理モジュールである。
- 複数のCR-ReIDベンチマークにおいて，VPFAは最先端の性能を達成し，効率も向上した。
Link: https://arxiv.org/abs/2510.00936
ストリーミングドラッグ指向インタラクティブ動画操作：ドラッグするすべて，いつでも！ [cs.CV]目的：動画生成におけるユーザー主導のインタラクティブ操作
- 動画生成技術は進歩しているが，ユーザーの意図を反映させる制御が課題。
- 動画拡散モデルのストリーミング制御は，細かい調整が難しく，期待通りの結果を得られない。
- 任意の場所で，任意のタイミングで動画を操作できる柔軟な手法を確立する。
- 提案手法DragStreamは，潜在空間でのずれを抑制し，自然な動画編集を実現。
- 既存の動画拡散モデルに容易に統合でき，高い効果を発揮する。
- 空間周波数選択的最適化により，文脈情報を活用しつつ，不要な干渉を低減。
Link: https://arxiv.org/abs/2510.03550
AV-EMO-Reasoning：音声と視覚的手がかりによる感情推論能力のベンチマーク [cs.CL, cs.MM, cs.SD]目的：大規模言語モデルにおける感情推論能力の評価
- 人間とAIの対話において感情が重要な役割を果たすため，感情理解は不可欠である。
- マルチモーダルLLMの急速な進歩にもかかわらず，音声と視覚情報を活用した感情推論の包括的な評価が不足している。
- 音声と視覚的情報を用いた感情推論能力を体系的に評価するためのベンチマークを提供すること。
- 本研究では，合成および現実世界の音声と視覚データを用いた新しいベンチマーク「AV-EMO-Reasoning」を開発した。
- このベンチマークは，モデルがユーザーの感情を理解し，適切な応答を生成できるかを評価する。
- AV-EMO-Reasoningは，感情を考慮した対話システムの評価基準として活用できる。
Link: https://arxiv.org/abs/2510.07355
SegTune：楽曲生成のための構造化された，きめ細かな制御 [cs.SD]目的：楽曲の構造とダイナミクスを制御する手法
- 近年の音楽生成技術の発展は目覚ましいが，より高度な音楽表現の制御が求められている。
- 既存のシステムでは，楽曲の時間的な属性をモデル化する能力が限られており，きめ細かな制御が困難である。
- 楽曲のセグメントレベルでの制御を可能にし，歌詞と音楽の正確な整合性を実現する。
- SegTuneは，セグメントレベルの制御を可能にする非自己回帰型のフレームワークである。
- セグメントプロンプトを時間的にブロードキャストすることで，楽曲の各セクションに対応する局所的な音楽記述を注入する。
- 実験結果から，SegTuneは既存のベースラインと比較して，優れた制御性と音楽的な一貫性を示すことが確認された。
Link: https://arxiv.org/abs/2510.18416
LoCoT2V-Bench：長編かつ複雑なテキストから動画生成のベンチマーク [cs.CV, cs.AI]目的：長編動画生成の評価基準とフレームワーク
- 動画生成技術は急速に進歩しており，エンターテイメントや教育など幅広い分野での応用が期待されている。
- 長編動画生成における評価は困難であり，特に複雑なテキストに対応した品質評価が課題となっていた。
- 複雑なテキストプロンプトに対応した長編動画生成の性能を客観的に評価するための基準とフレームワークを構築すること。
- LoCoT2V-Benchは，キャラクター設定やカメラワークといった階層的なメタデータを持つマルチシーンプロンプトを用いた長編動画生成のベンチマークである。
- LoCoT2V-Evalは，知覚的品質，テキストと動画の整合性，時間的品質，動的品質，人間期待実現度(HERD)を評価する多次元フレームワークである。
- 実験の結果，既存のモデルは知覚的品質や背景の一貫性には優れるものの，詳細なテキストと動画の整合性やキャラクターの一貫性に課題があることが示された。
Link: https://arxiv.org/abs/2510.26412
異質な双曲多様体上の木構造におけるモダリティアラインメント [cs.CV, cs.LG]目的：視覚と言語のモダリティ間の情報統合を効果的に行うためのモダリティアラインメント
- 視覚と言語の情報を統合するモデルにおいて，モダリティアラインメントは不可欠な要素である。
- 既存手法では，テキストは階層的な特徴量を抽出するのに対し，画像は単一の特徴量で表現されるため，アラインメントが非対称かつ最適でない。
- 画像とテキスト両方の階層的な特徴量を構築し，アラインメントすることで，この非対称性を解消し，より良いモダリティアラインメントを実現する。
- 提案手法Alignment across Treesは，画像とテキストの双方に対し木構造のような階層的な特徴量を構築し，アラインメントする。
- 異なる曲率を持つ双曲多様体上に特徴量木を埋め込み，多様体間のKL距離を最小化することでアラインメントを行う。
- 実験の結果，提案手法は，少ないサンプル数や異なるドメインでの分類タスクにおいて，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2510.27391
ワールドモデル拡張型ビジョン・言語・行動モデルのためのデュアルストリーム拡散 [cs.CV, cs.RO]目的：ロボットのポリシー学習のためのワールドモデル拡張型ビジョン・言語・行動モデルの性能向上
- ロボットの自律的な行動計画において，環境の理解と行動の予測は不可欠であり，その精度が性能を大きく左右する。
- ビジョン，言語，行動といった異なるモダリティ間のギャップが大きく，それらを統合的に扱うことが困難である。
- 異なるモダリティ間の知識共有を促進し，状態と行動の同時予測における課題を克服すること。
- 提案手法DUSTは，RoboCasaやGR-1といったシミュレーションベンチマークにおいて，最先端のVLAやワールドモデリングベースラインと比較して最大6%の性能向上を達成した。
- 推論時のスケーリングにより，さらに2-5%の性能改善が確認された。
- 実世界のFranka Research 3を用いたタスクでは，ベースラインを10%上回る成功率を記録し，効果的な転移学習能力も示した。
Link: https://arxiv.org/abs/2510.27607
OmniAID：セマンティックとアーティファクトの分離による汎用的なAI生成画像検出 [cs.CV]目的：AI生成画像検出の汎用性の向上
- AI生成画像の急増により，その識別技術の重要性が増している。
- 既存手法は，コンテンツ依存的な欠陥とコンテンツ非依存的なアーティファクトを混同している。
- セマンティックとアーティファクトを分離し，より頑健な汎化性能を実現する。
- OmniAIDは，Mixture-of-Expertsアーキテクチャにより，セマンティックな欠陥と普遍的なアーティファクトを分離する。
- ドメイン固有のハードサンプリングによる専門家特化と，軽量なゲートネットワークによる入力ルーティングを組み合わせる。
- 大規模データセットMirageを用いた評価により，既存手法を凌駕し，新たな基準を確立した。
Link: https://arxiv.org/abs/2511.08423
CNNのLRPベースプルーニングにおける精度劣化抑制のための精度を考慮した拡張 [cs.CL, cs.CV, cs.AI, cs.LG]目的：データ不足の転移学習におけるカスケードな精度劣化を防止するための拡張手法
- 大規模データセットで事前学習されたCNNは，少ないデータでの高精度な分類モデル構築に不可欠である。
- データ不足下では微調整が難しく，不要なフィルタが残り，冗長性と効率低下を招く。
- LRPベースのプルーニングにおける精度劣化を抑制し，データ不足環境での性能維持を目指す。
- 提案手法は，クラス精度とプルーニング率の調和平均を用いてプルーニング率と順序を動的に調整することで，カスケードな精度劣化を効果的に抑制する。
- その結果，従来のLRPベースのプルーニング手法と比較して，分類精度が向上し，VGG16の精度-プルーニング率曲線下面積（AUC）を約15％改善した。
- 本手法は，事前学習済みモデルを圧縮しつつ，データ不足環境におけるタスク固有の性能を維持することに貢献する。
Link: https://arxiv.org/abs/2511.10861
ファインチューニングされた拡散モデルのトレーサビリティのためのデータセット透かし評価：包括的なベンチマークと除去手法 [cs.NI, cs.RO, cs.CV, cs.AI]目的：拡散モデルのファインチューニングにおけるデータセット透かしの評価
- 拡散モデルは画像生成において強力だが，そのカスタマイズ性は著作権やセキュリティ上のリスクを伴う。
- 既存のデータセット透かし技術は，評価の統一的な枠組みに欠けている。
- 本研究は，データセット透かしの脆弱性を明らかにし，除去手法の提案により今後の研究課題を提示する。
- 既存の透かし手法は普遍性・伝達性において良好な性能を示す。
- しかし，現実的な脅威シナリオ下では脆弱性が残存する。
- 提案手法により，ファインチューニング性能を損なわずにデータセット透かしを完全に除去可能であることが示された。
Link: https://arxiv.org/abs/2511.19316
AlignVid：テキスト誘導画像から動画生成におけるセマンティック忠実度のための訓練不要なアテンションスケーリング [cs.CL, cs.CV]目的：テキスト誘導画像から動画生成におけるセマンティック忠実度の向上
- 近年，画像から動画への生成技術が発展しているが，複雑な編集には課題が残る。
- 参照画像がアテンションを分散させ，新たなセマンティック情報の組み込みを阻害する問題がある。
- 参照画像の影響を軽減し，セマンティック情報を正確に反映させることを目指す。
- AlignVidは，訓練を必要としない介入手法であり，モデル内部のアテンション分布を再調整する。
- アテンションエントロピーを低減し，セマンティックトークンへの集中を促すことで，セマンティック忠実度を高める。
- 提案されたOmitI2Vベンチマークを用いて，物体修正，追加，削除におけるプロンプト遵守能力を評価し，有効性を実証した。
Link: https://arxiv.org/abs/2512.01334
SurfFill：ガウスサーフェルスプラッティングによるLiDAR点群の補完 [cs.CV, cs.GR, cs.RO]目的：LiDAR点群の補完手法
- 3D再構成においてLiDARは高精度だが，小さな構造や暗い素材の表現に課題がある。
- LiDARは特徴のない領域での精度がフォトグラメトリに劣るという問題がある。
- LiDARとカメラの利点を組み合わせ，点群の欠損を補完することを目指す。
- 提案手法SurfFillは，ガウスサーフェルを用いてLiDAR点群の補完を行う。
- LiDARビームの発散が補完のアーティファクトの主な原因であると分析し，密度変化に着目した曖昧性ヒューリスティックを導入。
- 大規模再構成に対応するため，分割統治法を導入し，合成および実世界のデータセットで既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2512.03010
感情認識型ビジョン・言語・行動モデルE3AD：人間中心の端点間自律運転 [cs.CV, cs.AI]目的：人間中心の端点間自律運転のための感情認識型ビジョン・言語・行動モデルの開発
- 快適性と受容性を高めるため，自律運転システムにおける乗員の感情状態の考慮が重要である。
- 既存の端点間自律運転システムは，自然言語による指示と行動の関連性に加え，乗員の感情状態を無視する傾向がある。
- 自然言語による指示から感情を推論し，物理的に実行可能な軌道を計画することで，より人間らしい自律運転を実現する。
- E3ADは，言語から感情のトーンと緊急度を捉える連続的VAD感情モデルと，人間のような空間認知を実現する二重経路空間推論モジュールを導入した。
- 一貫性に基づいた学習スキームにより，感情的な意図と運転行動の一貫性が強化されている。
- 実際のデータセットにおいて，E3ADはビジョン接地とウェイポイント計画を改善し，感情推定における最先端のVAD相関を実現した。
Link: https://arxiv.org/abs/2512.04733
バリアのない，堅牢かつ効率的な非浸透エラストダイナミクス [cs.GR]目的：非浸透エラストダイナミックシミュレーションのための最適化フレームワーク
- リアルな物理シミュレーションは，様々な分野で必要とされ，その精度と効率性が重要視されている。
- 従来の非浸透制約手法は，計算コストが高く，大規模なシミュレーションには不向きな場合が多い。
- この研究は，計算効率を向上させつつ，非浸透制約を堅牢に実現することを目的とする。
- 本手法は，従来のIncremental Potential Contact (IPC)と同等の堅牢性を持ちながら，効率性のボトルネックを解消する。
- 特に，対数バリア関数の使用による条件数の悪化や，衝突頻度の高いシーンにおけるTime-of-Impact (TOI)ロッキング問題を克服した。
- GPU最適化されたシミュレータ設計により，困難な接触が多いベンチマークにおいて，GIPCと比較して最大103倍の高速化を達成した。
Link: https://arxiv.org/abs/2512.12151
MATANet：海洋生物の微細粒度認識のためのマルチコンテキスト注意と分類体系を意識したネットワーク [cs.CL, cs.CV]目的：海洋生物の微細粒度分類認識における性能向上
- 海洋生態研究，生物多様性モニタリング，生息地保全，証拠に基づいた政策決定において，重要性が増している。
- 既存手法は対象物やROIに焦点を当てており，多様な環境下で類似した生物が出現する水中環境では識別性能が低下する。
- 生物の形態的特徴と環境的手がかりを統合し，分類体系構造を利用して識別性能を向上させることを目指す。
- 提案手法MATANetは，ROIと周辺環境領域間のクロスアテンションを用いて，局所的な形態的特徴と生息地の文脈情報を組み合わせる。
- 階層構造を意識した表現学習モジュールにより，分類階層構造を補助的な情報として利用し，意味的に構造化された埋め込み表現を学習する。
- FathomNet2025とLifeCLEF2015-Fishの実験で既存手法を上回り，CVPR2025 FGVC12ワークショップのFathomNet 2025 Challengeで1位を獲得した。
Link: https://arxiv.org/abs/2601.03729
マルチスケール局所推測デコーディングによる画像生成 [cs.CV]目的：画像生成の高速化
- 画像合成において，自己回帰モデルは高い性能を示すが，逐次処理の制約がある。
- 既存の推測デコーディングは，トークンレベルの曖昧さや空間認識の欠如といった課題がある。
- マルチスケール局所推測デコーディングにより，効率的かつ高画質な画像生成を実現する。
- 提案手法MuLo-SDは，低解像度ドラフターと高解像度ターゲットモデルの組み合わせにより，画像生成を最大5倍高速化する。
- 局所的な棄却とリサンプリング機構により，エラー修正の効率を高め，高い意味的整合性と知覚的品質を維持する。
- GenEval，DPG-Bench，FID/HPSv2を用いた評価により，最先端の性能を達成していることが確認された。
Link: https://arxiv.org/abs/2601.05149
移動ドローンからのビデオによる個人数と追跡：ベンチマークと手法 [cs.CV]目的：大規模シーンにおける密集した群衆の数と追跡
- 現実世界のセキュリティや災害対応において，群衆分析の重要性は高い。
- 既存手法は固定カメラデータに依存し，広範囲なシーンへの適用が困難である。
- 移動ドローンからの映像を用いた，よりロバストな群衆数と追跡手法の開発。
- 本研究では，多様な飛行条件で撮影された大規模なデータセットMovingDroneCrowd++を公開した。
- 群衆数推定手法GD3Aは，記述子間の対応付けと密度マップの分解により高精度を実現した。
- 追跡手法DVTrackは，記述子投票により個人レベルの関連付けを行い，追跡精度を大幅に向上させた。
Link: https://arxiv.org/abs/2601.12500
ノイズ補償付きシャープネス認識最小化：ノイズラベル学習のための手法 [cs.LG, cs.AI, cs.CV]目的：ノイズラベル学習における最適化
- 現実世界のデータセットには誤ったラベルが含まれることが多く，深層学習の基本的な課題である。
- 既存手法はラベル修正やサンプル選択に依存し，最適化の視点からの研究は少ない。
- ラベルノイズがシャープネス認識最小化(SAM)の振る舞いに与える影響を解析し，バイアスを補正する。
- 提案手法NCSAMは，ノイズ補償付き摂動によりSAMの最適化バイアスに対抗する。
- NCSAMは，ノイズラベルの記憶を抑制しつつ，最適化ベースの学習の簡潔さを維持する。
- 合成データおよび実データを用いた実験で，既存手法と比較してNCSAMが優れた性能を示す。
Link: https://arxiv.org/abs/2601.19947
表現力豊かなロールプレイTTSのためのLALMの評価と報酬：平均継続対数尤度による [cs.SD]目的：ロールプレイTTSにおける表現力と役割指示への厳格な遵守を定量的に評価・向上させる手法
- 近年，LALMの発展により対話的なロールプレイTTSが可能となり，表現力豊かな音声合成が求められている。
- 既存モデルでは，複数ターンにわたる対話において，キャラクター設定や場面描写との様式の一貫性を維持することが困難である。
- 音声スタイルを定量的に評価する客観指標がなく，ロールプレイTTSの品質向上を阻害している状況を解決する。
- 平均継続対数尤度（MCLP）は，事前学習済みLALMを活用し，文脈履歴に基づいた音声スタイルの継続性を評価する指標として有効である。
- MCLPを強化学習の報酬として用いることで，生成音声とロールプレイ指示とのスタイル整合性を高め，客観評価と主観評価の両方で改善が確認された。
- 場面やキャラクターに関する豊富なアノテーションを持つ大規模なRP-TTSデータセットを構築し，実験によってMCLPの有効性を実証した。
Link: https://arxiv.org/abs/2601.22661
修正LpJEPA：疎性と最大エントロピー表現を用いた結合埋め込み予測アーキテクチャ [cs.LG, cs.CV]目的：疎性と最大エントロピー表現を用いた結合埋め込み予測アーキテクチャの改良
- 表現学習において，効率的な表現は疎性を有することが重要視されている。
- 既存手法は等方ガウス分布への正則化を行うが，疎な表現を獲得できないという課題がある。
- 修正された分布一致正則化により，疎性を明示的に制御し，タスク関連情報を保持することを目指す。
- 修正LpJEPAは，Rectified Generalized Gaussian (RGG)分布への整列により，疎な表現を獲得する。
- RGGは，$\ell_0$ノルムの期待値を制御しつつ，最大エントロピー特性を維持する。
- 画像分類ベンチマークにおいて，既存手法と同等以上の性能を示す。
Link: https://arxiv.org/abs/2602.01456
4DPC$^2$hat：失敗に強いブートストラップによる動的点群理解へ [cs.CV]目的：動的点群理解のための大規模なクロスモーダルデータセットと，時間的推論能力を持つMLLM
- 3D物体の表現として点群は有用であり，近年マルチモーダル大規模言語モデルに統合されている。
- 既存手法は静的な物体に焦点を当てており，動的な点群シーケンスの理解は未開拓の分野である。
- 大規模データセットの不足と，時空間コンテキストにおける運動のモデル化の困難さを克服すること。
- 4DPC$^2$hat-200Kという大規模なクロスモーダルデータセットを構築し，44K以上の動的オブジェクトシーケンス，700Kの点群フレーム，200KのQAペアを含む。
- Mamba機構を導入した時間的推論MLLMを開発し，点群シーケンス内の長距離依存性と動的なパターンを捉える。
- 失敗に強いブートストラップ学習戦略により，モデルの弱点を特定し，対応する推論能力を継続的に強化する。
Link: https://arxiv.org/abs/2602.03890
ノイズを含む問い合わせによる分割不能な物品の羨望フリーな配分 [cs.CL, cs.GT, cs.IT, cs.LG, math.IT, stat.ML]目的：分割不能な物品の羨望フリーな配分問題における問い合わせ回数の最適性
- 公平な資源配分は，経済学，計算機科学など多岐にわたる分野で重要な課題である。
- エージェントの評価値を直接観測できない場合，効率的な配分アルゴリズムの設計が困難である。
- ノイズを含む問い合わせのみで，効率的に羨望フリーな配分を実現することを目指す。
- ２人エージェント環境において，ガウスノイズと評価値の上限を仮定した上で，必要な問い合わせ回数の上限と下限を導出した。
- 最適な問い合わせ回数は，物品数$m$と負の羨望$\Delta$に基づいて，$\frac{m^{2.5}}{\Delta^2}$ のオーダーでスケールすることが示された（対数因子を除く）。
- この上限は，非適応的な問い合わせとシンプルな閾値ベースの配分アルゴリズムに基づくものであり，任意の計算時間，適応的な問い合わせ下でも下限が成立する。
Link: https://arxiv.org/abs/2602.06361
パイプライン磁気漏洩検査画像における物体検出のための大規模データセットおよびベンチマークPipeMFL-240K [cs.CV, cs.AI]目的：パイプライン磁気漏洩検査画像における物体検出のための大規模データセットおよびベンチマークの提供
- パイプラインの健全性は，産業安全と環境保護にとって不可欠であり，非破壊検査技術として磁気漏洩検出が重要である。
- 深層学習の自動化への期待はあるものの，大規模な公開データセットの不足が，公平な比較や再現性のある評価を困難にしている。
- パイプライン磁気漏洩検査データの特性に対応した，高性能な物体検出アルゴリズムの開発を促進する。
- PipeMFL-240Kは，249,320枚の画像と200,020個の高精度なバウンディングボックスアノテーションを含む大規模データセットである。
- 既存の物体検出器は，MFLデータの持つ極端な長尾分布，微小な対象物の多さ，クラス内変動の大きさといった特性に課題があることが示された。
- PipeMFL-240Kは，パイプライン診断やメンテナンス計画の効率化，MFLベースのパイプライン健全性評価研究の加速に貢献する基盤となる。
Link: https://arxiv.org/abs/2602.07044
トランスクリプトを超えて：音声チャプター化に関する新たな視点 [cs.SD, cs.CL]目的：長尺音声の coherent なセクションへの分割
- ポッドキャスト，講義，動画等のナビゲーションにおいて音声チャプター化の重要性が高まっている。
- 既存研究はテキストベースに偏り，音声情報の活用，ASRエラーへの対応，トランスクリプト不要な評価方法が課題である。
- 音声情報に基づくチャプター化手法の開発と，評価プロトコルの確立を目指す。
- AudioSegという，学習された音声表現に基づき動作する音声のみのアーキテクチャが，テキストベースの手法を大幅に上回る性能を示した。
- ポーズが最も大きな音響的改善をもたらし，トランスクリプトの品質，音響特徴量，長さ，話者構成が性能に影響を与えることが実証された。
- マルチモーダルLLMはコンテキスト長と指示への追従性に課題があるものの，短い音声においては有望な結果を示した。
Link: https://arxiv.org/abs/2602.08979
OmniCustom：共同オーディオ・ビデオ生成モデルによるオーディオ・ビデオカスタマイズの同期 [cs.SD, cs.AI, cs.MM, eess.AS]目的：オーディオ・ビデオのカスタマイズ同期
- 近年，オーディオとビデオを同時に生成する技術が急速に進歩しており，新たな可能性を広げている。
- 既存のカスタマイズ手法は，主に画像とテキストに基づいて動画を生成するのに限定されている。
- 参照画像と音声に基づいて，動画のIDと音声の音色を同時にカスタマイズする手法を確立する。
- 提案手法 OmniCustom は，DiTベースのフレームワークであり，参照画像，音声，テキストプロンプトを同時に考慮して動画を生成する。
- IDと音色の制御には，LoRAモジュールを使用し，コントラスト学習によりIDと音色の維持性能を向上させている。
- 大規模なオーディオ・ビジュアルデータセットで学習し，既存手法と比較して一貫性のあるIDと音色の忠実度で優れていることを実験的に示している。
Link: https://arxiv.org/abs/2602.12304
SAVAA：段階的適応視覚的注意増幅によるLVLMにおける幻覚の軽減 [cs.RO, cs.CV]目的：大規模ビジョン言語モデルにおける幻覚の軽減
- 近年，画像とテキストを扱うモデルの性能向上は目覚ましいが，誤った情報を生成する幻覚の問題が課題となっている。
- 既存の視覚的注意増幅手法は，固定された増幅率を用いるため，幻覚を完全に解消できない場合や，新たな幻覚を引き起こす可能性がある。
- 生成されるトークンごとの幻覚リスクを推定し，それに応じて視覚的注意を適応的に増幅することで，幻覚の軽減を目指す。
- 提案手法SAVAAは，予測エントロピーと視覚的根拠付けを組み合わせたVisual Grounding Entropy（VGE）を用いて，幻覚リスクを軽量に推定する。
- VGEに基づき，SAVAAは次の生成ステップにおける視覚的注意増幅率を調整し，リスクの高いステップでは増幅率を高く，低いステップでは低くする。
- LLaVA-NeXT-7B，Qwen3-VL-8B，InternVL3.5-8Bといった複数のモデルで，既存手法と比較してCHAIR，SHR，AMBERなどの幻覚評価ベンチマークで顕著な性能向上を示した。
Link: https://arxiv.org/abs/2602.13600
大規模ビジョン言語モデルに対する多段階適応的プロンプト攻撃 [cs.CV]目的：大規模ビジョン言語モデルに対する多段階適応的プロンプト攻撃手法の開発
- 大規模言語モデルの安全性確保は重要であり，悪意のあるプロンプトへの対策が求められている。
- 既存の攻撃手法は，ビジョン言語モデルに対して有効な防御機構に阻まれる場合がある。
- テキストとビジョンの入力を交互に用い，段階的に悪意のある応答を誘導する攻撃手法を提案する。
- 提案手法MAPAは，既存手法と比較して攻撃成功率を15-30%向上させた。
- MAPAは，テキストとビジョンの攻撃アクションを交互に実行することで，より悪意のある応答を引き出す。
- 攻撃軌跡を反復的に改良し，応答の悪意を高める二段階設計が有効であることが示された。
Link: https://arxiv.org/abs/2602.14399
ビジョン・ワームホール：異種マルチエージェントシステムにおける潜在空間コミュニケーション [cs.CL, cs.CV, cs.LG]目的：異種マルチエージェントシステムにおける潜在空間コミュニケーションの実現
- 大規模言語モデルを活用したマルチエージェントシステムは高度な協調推論を可能にするが，通信がボトルネックとなりやすい。
- 既存の潜在状態伝達アプローチは，同種アーキテクチャに限定されるか，ペアごとの翻訳器が必要となり，拡張性に課題がある。
- ビジョン言語モデルの視覚インターフェースを連続的な通信チャネルとして捉え，拡張性と効率性を向上させる。
- 提案手法「ビジョン・ワームホール」は，推論軌跡を共通の潜在空間にマッピングし，受信側の視覚経路に注入することで，ペアごとの翻訳器なしに潜在状態伝達を実現する。
- ハブ・アンド・スポーク型トポロジーを採用することで，アライメントの複雑さをO(N^2)からO(N)に削減し，効率的な学習を可能にする。
- 多様なビジョン言語モデルと9つの推論ベンチマークにおいて，エンドツーエンドの実行時間を短縮し，精度向上も確認された。
Link: https://arxiv.org/abs/2602.15382
GASS：テキスト-画像生成における多様性向上のための幾何学的認識球面サンプリング [cs.CV]目的：テキスト-画像生成における多様性向上
- 画像生成技術は，指示された内容に基づき多様な画像を生成する能力が求められる。
- 既存のモデルは，意味的な整合性は高いものの，多様性に乏しい画像を生成しがちである。
- プロンプトに依存する変化と独立した変化を分離し，多様性を制御する手法を開発する。
- GASSは，CLIP埋め込み空間における幾何学的投影の広がりを，プロンプト依存軸と独立軸の両方で増加させる。
- この手法により，様々なバックグラウンドなど，プロンプトに依存しない多様性を効果的に向上させることが示された。
- 画像品質や意味的な整合性を損なうことなく，多様性を高めることが可能である。
Link: https://arxiv.org/abs/2602.17200
JAEGER：シミュレーションされた物理環境における3Dオーディオビジュアルの共同接地と推論 [cs.CV, cs.AI, cs.SD]目的：3D空間におけるオーディオビジュアルの共同接地と推論
- 現実世界の理解には，空間情報が不可欠である。AIの物理環境での活動を向上させるためには，3D情報の活用が重要となる。
- 既存のオーディオビジュアルLLMは2D認識に限定され，音源の定位や空間推論の精度が低いという課題がある。
- RGB-D画像と多チャンネル音響情報を統合することで，3D空間におけるオーディオビジュアルの理解能力向上を目指す。
- JAEGERは，2D中心のアプローチと比較して，多様な空間認識・推論タスクにおいて一貫して優れた性能を発揮する。
- 提案手法では，学習された空間オーディオ表現であるNeural IVを用いて，方向推定の精度を向上させている。
- 大規模な学習と評価のためのベンチマークSpatialSceneQAを提案し，3Dモデリングの必要性を強調した。
Link: https://arxiv.org/abs/2602.18527
AG-REPA：音声フローマッチングにおける表現アライメントのための因果レイヤー選択 [cs.SD, cs.AI, cs.LG, cs.MM]目的：音声フローマッチングにおける表現アライメントのための因果レイヤー選択戦略
- 生成モデルの性能向上は，音声合成や変換など広範な応用において重要である。
- 既存の表現アライメントは，教師特徴とのアライメント層の選択が経験則に頼る。
- 表現アライメントにおいて，生成を駆動する因果的に支配的な層を特定し活用すること。
- 提案手法AG-REPAは，教師空間の類似性だけでなく，速度場へのレイヤーの因果的貢献度を考慮する。
- 前方ゲートアブレーション（FoG-A）により，各レイヤーの貢献度を定量化し，疎なレイヤー選択と適応的な重み付けを実現する。
- 様々な条件下での実験により，AG-REPAが既存手法REPAを安定的に上回ることが示された。
Link: https://arxiv.org/abs/2603.01006
古代ギリシア批判版における構造を考慮したテキスト認識 [cs.CL, cs.CL, cs.IR, cs.CV]目的：古代ギリシア批判版の構造を考慮したテキスト認識に関する研究
- 歴史的な学術文献のデジタル化は，研究の新たな可能性を開くため重要である。
- 既存の視覚言語モデルは，歴史的学術テキストの複雑なレイアウトを解釈する能力に限界がある。
- 視覚言語モデルの構造認識能力を向上させ，歴史的学術テキストの正確なテキスト認識を目指す。
- 大規模な合成データセットと実写スキャン版のベンチマークを構築し，最先端の視覚言語モデルを評価した。
- 現在の視覚言語モデルは，構造化された歴史的文書に対して顕著な制限を示すことが明らかになった。
- Qwen3VL-8Bモデルは実写スキャンにおいて，CERの中央値1.0%で最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.02803
家畜再識別における視点分析のための多視点観測データセットMOO [cs.CV, cs.AI]目的：家畜再識別における視点変化の影響の定量化
- 動物再識別は，監視や管理において重要であり，個体識別精度の向上が求められている。
- 特に，航空写真と地上写真の組み合わせでは，視点変化が大きく，識別が困難となる問題がある。
- 本研究では，視点変化を系統的に分析するためのデータセットを構築し，視点変化の影響を明らかにすることを目的とする。
- 新たなデータセットMOOを構築し，1,000頭の家畜を128の視点から撮影した128,000枚の画像を収録した。
- 実験により，モデルの汎化性能が大きく向上する重要な仰角の閾値を特定した。
- 合成データで学習したモデルが，実際のデータセットでも高い性能を発揮し，ドメインギャップを効果的に埋めることを実証した。
Link: https://arxiv.org/abs/2603.04314
X-GS：3Dガウススプラッティングによる知覚と思考のための拡張可能フレームワーク [cs.RO, cs.CV, cs.CL]目的：3Dガウススプラッティングを用いた知覚と思考を実現する拡張可能フレームワーク
- 空間AI分野では，現実世界の理解とインタラクションが重要であり，そのためには効率的な3D表現が不可欠である。
- 既存の3Dガウススプラッティング法は特定のドメインに特化しており，汎用性と拡張性に課題があった。
- 多様な応用に対応可能な，汎用的で拡張性の高い3Dガウススプラッティングフレームワークを開発し，空間AIの可能性を広げる。
- X-GSフレームワークは，オンラインSLAMとセマンティック蒸留をリアルタイムで実現する「Perceiver」と，マルチモーダルモデルを統合する「Thinker」の2つの主要コンポーネントで構成される。
- Perceiverは最新のビジョン基礎モデルを活用し，オンラインSLAMの性能を向上させるとともに，セマンティック蒸留を加速する3つのメカニズムを導入している。
- Thinkerは，Perceiverのセマンティックガウススプラットを利用することで，3Dビジュアルグラウンディングやシーンキャプション生成などの新たな機能を可能にする。
Link: https://arxiv.org/abs/2603.09632
SDF-Net：構造を意識した光・SAR船舶再識別のための分離特徴学習 [cs.CV]目的：光画像とSAR画像間の船舶再識別における，構造的整合性を組み込んだ分離特徴学習
- 船舶の識別は，海上安全保障や交通管理において重要な役割を担う。
- 光画像とSAR画像は放射特性が大きく異なるため，クロスモーダル再識別が困難である。
- 放射変動に強い，幾何学的構造に基づく特徴表現を獲得し，識別精度を向上させる。
- SDF-Netは，中間層からのスケール不変な勾配エネルギー統計量を用いて構造的一貫性を制約する。
- 学習された特徴表現を，モード不変な同一性特徴とモード固有の特徴に分離する。
- HOSS-ReIDデータセットにおける実験で，既存の最先端手法を凌駕する性能を示す。
Link: https://arxiv.org/abs/2603.12588
要点を捉える：ポインティングがLVLMの数え上げ能力を向上させる [cs.CV]目的：視覚シーンにおけるゼロショット数え上げタスクにおけるポインティングに基づく手法の評価
- 大規模な視覚言語モデル(LVLM)の性能向上は，AI研究における重要な課題である。
- LVLMの視覚的推論能力の向上メカニズムが未解明であり，その改善方法が課題となっている。
- ポインティングによる対象物座標の生成が，LVLMの数え上げ能力向上に貢献することを検証する。
- Point-then-Count (PtC) が評価した手法の中で最も高い精度を達成した。
- 予測された座標が画像内の対象物と正確に一致する割合は94%以上 (F1スコアに基づく) であった。
- 座標にエンコードされた空間情報が，性能向上に貢献していることが示唆された。
Link: https://arxiv.org/abs/2603.21746
世界を知らなくても安全に学習：COMPASS-Hedge [cs.LG, cs.GT]目的：オンライン学習における後悔保証のバランスと安全性確保
- 機械学習の応用範囲拡大に伴い，環境変化への適応能力が重要視されている。
- 既存手法では，様々な環境下で最適な性能を維持することが困難である。
- 様々な環境下で，安全性と効率性を両立するオンライン学習アルゴリズムを開発する。
- 本研究で提案するCOMPASS-Hedgeは，対立的環境下での最小最大最適後悔を達成する。
- 確率的環境下では，インスタンス最適かつギャップ依存後悔を実現し，固定された基準ポリシーに対する後悔も抑制する。
- COMPASS-Hedgeは，環境や確率的最適性のギャップに関する事前知識を必要としない点が特徴である。
Link: https://arxiv.org/abs/2603.22348
価格逆転現象：より安価な推論モデルがより高コストとなる場合 [cs.CL, cs.AI, cs.GT, cs.LG, cs.MA]目的：推論モデルの価格と実際の推論コストとの乖離
- 推論モデルの利用拡大に伴い，価格設定の透明性が重要課題となっている。
- API価格が実際のコストを正確に反映していない場合がある。
- API価格の信頼性に着目し，コストを考慮したモデル選択の必要性を示す。
- 提示されたAPI価格と実際のコストに乖離が見られ，より安価なモデルがより高コストとなる「価格逆転現象」が確認された。
- 思考トークン消費量や対話回数のばらつきがコストに大きく影響することが示された。
- 同一クエリでも思考トークン消費量に変動があり，コスト予測の困難さが明らかになった。コスト分布予測が今後の課題である。
Link: https://arxiv.org/abs/2603.23971
EvA: LALMのための証拠優先型音声理解パラダイム [cs.CL, cs.SD, cs.AI]目的：複雑な音響シーンにおける音声理解の精度向上
- 音声理解は，人間と機械のコミュニケーションにおいて不可欠な技術である。
- 大規模音声言語モデルは，音響情報の抽出と推論の間にボトルネックが存在する。
- 音響情報の保持を強化することで，音声理解の性能向上を目指す。
- EvAは，音響情報の階層的集約と非圧縮的融合により，証拠の保持を強化する二重経路アーキテクチャである。
- 大規模学習データセットEvA-Perceptionを構築し，イベント順のキャプションと証拠に基づくQAペアを提供する。
- MMAU，MMAR，MMSUにおいて，EvAは最先端のオープンソース結果を達成し，特に音響情報に重点を置いた分割で大きな改善が見られた。
Link: https://arxiv.org/abs/2603.27667