arXiv雑要約

画像・音声 - 2026/04/20 公開

MFC-RFNet：マルチスケール誘導整流フローネットワークを用いたレーダー系列予測 [cs.CV, cs.AI]目的：レーダーエコー系列からの高精度な降水ナウキャスト
- 災害軽減や経済計画において，正確な降水予測は不可欠である。
- 複雑なマルチスケール変化のモデリングやフレーム間特徴のずれ補正が課題である。
- 空間的忠実性を保ちつつ，長距離時空間コンテキストを効率的に捉えることを目指す。
- 提案手法は，マルチスケール通信と誘導特徴融合を統合した生成フレームワークである。
- ウェーブレット誘導スキップ結合により高周波成分を保持し，特徴通信モジュールがクロススケール相互作用を促進する。
- 複数の公開データセットで既存手法を上回り，より高分解能で安定した予測結果が得られた。
Link: https://arxiv.org/abs/2601.03633
視覚言語モデルにおけるプロンプト誘発幻覚のメカニズム [cs.CV, cs.AI, cs.CL]目的：視覚言語モデルにおけるプロンプト誘発幻覚のメカニズム解明
- 視覚言語モデルは高性能だが，視覚的証拠よりもテキストプロンプトを優先し幻覚を起こしやすい。
- プロンプトが画像内のオブジェクト数と矛盾する場合，モデルがプロンプトに過剰に適合する問題がある。
- 幻覚を引き起こすメカニズムを特定し，その軽減策を検討することを目的とする。
- オブジェクト数が少ない場合，モデルは過大評価を修正する傾向があるが，数が増えるとプロンプトに従うようになる。
- 特定のアテンションヘッドを削除することで，追加学習なしにプロンプト誘発幻覚が大幅に減少することがわかった。
- 幻覚を誘発するヘッドはモデルごとに異なり，視覚的証拠への修正を促進することが示された。
Link: https://arxiv.org/abs/2601.05201
VIB-Probe：変分情報ボトルネックによる視覚言語モデルにおける幻覚の検出と軽減 [cs.CV, cs.AI]目的：視覚言語モデルにおける幻覚の検出と軽減
- 視覚言語モデルはマルチモーダルタスクで目覚ましい進歩を遂げているが，信頼性が課題である。
- 既存手法は出力や外部ツールに依存し，内部メカニズムの解析が不十分である。
- 内部アテンションヘッドの情報を絞り込み，幻覚の原因となるヘッドを特定し，軽減すること。
- VIB-Probeは，変分情報ボトルネック理論を用いて，幻覚検出と軽減を実現する。
- 本手法は，層とヘッドを横断した識別パターンを抽出し，ボトルネック原理でノイズを除去する。
- VIB-Probeの勾配を利用して，幻覚に強い影響を与えるアテンションヘッドを特定し，推論時に介入する。
Link: https://arxiv.org/abs/2601.05547
VeRVE：統一埋め込みによる動画の汎用的な検索 [cs.CL, cs.CV]目的：多様な動画検索タスクに対応する汎用的な動画検索フレームワーク
- 動画検索技術は，動画コンテンツの活用において不可欠であり，その重要性は増している。
- 既存のシステムは，特定のタスクに特化しており，多様な検索に対応できない場合がある。
- マルチモーダルなクエリにも対応しつつ，高い検索性能を実現するフレームワークの構築。
- VeRVEは，共有されたMLLMバックボーンを用いた視覚とテキストの埋め込みのコントラスティブアライメントを利用する。
- 70万件のペアデータでLoRAを用いて効率的に学習した埋め込みモデルは，ゼロショット動画検索タスクで他のMLLMベースの手法を上回る。
- 追加学習によるランキング再調整により，既存のMLLMベースシステムを大幅に上回り，専門的なモデルに匹敵する性能を達成する。
Link: https://arxiv.org/abs/2601.12193
1S-DAug：少ないサンプル学習におけるロバストな汎化のためのワンショットデータ拡張 [cs.CV, cs.AI, cs.LG]目的：少ないサンプル学習における汎化性能の向上
- 機械学習において，データ不足は汎化性能を大きく左右するため，少ないサンプルでの学習が重要視される。
- 従来のテスト時拡張は，少ないサンプル学習において効果を発揮せず，汎化性能向上の課題となっていた。
- 本研究は，単一のサンプルから多様な画像を生成し，ロバストな予測を可能にする手法を提案することで，この課題を解決する。
- 1S-DAugは，テスト時に単一の画像から多様なバリアントを生成するワンショット生成拡張演算子である。
- 標準的なベンチマークにおいて，4つの異なるデータセットで少ないサンプル分類の性能を向上させ，miniImagenet 5-way-1-shotで最大20%の相対的精度向上を達成した。
- 大規模なビジョン言語モデルへの拡張実験と理論的分析も行った。
Link: https://arxiv.org/abs/2602.00114
SurgMotion：手術ビデオの普遍的理解のためのビデオネイティブな基盤モデル [cs.CV]目的：手術ビデオの普遍的な理解を可能にする基盤モデルの構築
- 手術技術の発展には，手術映像の正確な解析が不可欠であり，医療の質の向上に貢献する。
- 既存の手術ビデオ解析モデルは，詳細な画像再構成に注力しがちで，重要な手術構造の理解が不十分である。
- 手術映像における意味のある動きの予測に焦点を当て，より効率的で高精度な解析を実現すること。
- SurgMotionは，既存の手術ビデオ解析モデルと比較して，手術ワークフロー認識において14.6%のF1スコア向上を達成した。
- アクショントリプレット認識タスクでは，CholecT50データセットにおいて39.54%のmAP-IVTを達成し，高い性能を示した。
- SurgMotionは，スキル評価，ポリープセグメンテーション，深度推定においても優れた結果を示し，汎用的な手術ビデオ理解の新たな基準を確立した。
Link: https://arxiv.org/abs/2602.05638
法医学的靴跡分析のためのスケーラブルな空間点過程モデル [cs.CV, cs.LG, stat.ML]目的：靴跡の個体識別可能性の定量化
- 犯罪捜査において，靴跡は重要な証拠となり得る。靴の種類やモデルだけでは犯人を特定できない場合がある。
- 靴底に付着する傷や摩耗といった「事故的特徴」のパターンは個体ごとに異なるが，その希少性を定量化することは困難である。
- 靴底のパターンと事故的特徴の位置の関係を空間的にモデル化し，個体識別可能性を向上させる。
- 階層ベイズモデルを開発し，大規模な靴跡データセットへの適用を可能にした。
- 潜在ガウスモデルとして定式化し，効率的な推論を実現した。
- 空間的に変動する係数を組み込むことで，靴底のパターンと事故的特徴の位置の関係をより正確にモデル化した。
Link: https://arxiv.org/abs/2602.07006
LLaMo：連続的な自己回帰トークンを用いた統一的な動作理解と生成のための事前学習済み言語モデルのスケール化 [cs.SI, cs.DL, cs.CV]目的：動作と言語の統一的な生成と理解
- 近年，大規模モデルの進歩により，マルチモーダルな生成と理解が大きく発展している。
- 動作と言語を統一的に扱うモデル開発は遅れており，テキストと動作のペアデータが限られている。
- 大規模言語モデルの言語能力を保持しつつ，動作を効果的に統合する手法を開発する。
- LLaMoは，事前学習済みLLMをMoTアーキテクチャで拡張し，言語理解能力を維持しながらマルチモーダル適応を可能にする。
- 人間の動作を因果的な連続潜在空間に符号化し，軽量なフローマッチングヘッドを用いてリアルタイム動作生成を実現する。
- 大規模な動作-テキスト事前学習により，LLaMoは高品質なテキスト-to-動作生成と動作-to-テキストキャプション，特にゼロショット生成能力を示す。
Link: https://arxiv.org/abs/2602.12370
単一画像とマルチモーダル性：新規視点合成に必要なもの [cs.CV]目的：単一画像からの新規視点合成における品質と一貫性の向上
- 視点合成は，仮想現実や自動運転など，様々な分野で重要な役割を担う技術である。
- 単眼深度推定の信頼性が低く，低テクスチャ，悪天候，遮蔽物が多い環境下で問題が生じやすい。
- 疎なマルチモーダル測距データを用いて，よりロバストな幾何学的条件付けを実現し，合成品質を改善する。
- 疎なマルチモーダル測距データを活用することで，単眼深度推定の限界を克服し，幾何学的整合性と視覚的品質が大幅に向上した。
- 提案手法は，既存の拡散ベースレンダリングパイプラインに容易に組み込むことができ，生成モデル自体の修正は不要である。
- 実世界のマルチモーダル運転シーンにおける実験により，視覚のみの深度推定よりも，提案手法が優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2602.17909
大規模超解像のための頑健な循環的フレームワーク：分布アラインメントと自己類似性認識 [cs.CV]目的：任意の規模の超解像における分布シフト問題の解決
- 画像処理において，高解像度化は重要な技術であり，様々な応用分野で利用されている。
- 従来の超解像技術では，推論スケールが学習範囲を外れると，ノイズやアーティファクトが増加する。
- 本研究は，分布アラインメントと自己類似性認識により，任意の規模での安定した超解像を実現する。
- 提案手法CASRは，単一のモデルで任意のスケールに対応し，分布シフトを大幅に軽減する。
- SSAMモジュールとSARMモジュールにより，エラーの蓄積を防ぎ，高周波テクスチャを復元する。
- 極端な拡大倍率においても，優れた汎化性能を示す。
Link: https://arxiv.org/abs/2602.22159
医療画像解析のための差分プライバシー表現幾何学 [eess.SY, cs.SY, cs.RO, cs.CV, cs.AI, cs.LG]目的：医療画像における差分プライバシーの影響評価手法
- 医療画像解析は，疾病の早期発見や診断精度の向上に不可欠である。
- 差分プライバシー導入時のユーティリティ低下メカニズムが不明確であり，適切なプライバシーモデル選択が困難である。
- 差分プライバシーが表現空間に及ぼす影響を幾何学的に分析し，ユーティリティ低下の要因を特定する。
- 差分プライバシーは，線形分離性が維持される場合でも一貫して利用ギャップを伴うことが示された。
- 表現の変位やスペクトル次元は，初期化やデータセットに依存した非単調な変化を示すことが明らかになった。
- DP-RGMIは，プライバシー導入による失敗モードの診断とプライバシーモデル選択のための再現性のあるフレームワークとして有用である。
Link: https://arxiv.org/abs/2603.01098
HiFi-Inpaint：高精細な参照ベースの画像インペイントによる，詳細を保持した人間と製品の画像生成に向けて [eess.SY, cs.SY, eess.SP, cs.CV]目的：人間と製品の画像を生成するための高精度参照ベース画像インペイント手法
- 広告やECサイトなどにおいて，人間と製品が組み合わされた画像の重要性が高まっている。
- 既存手法では，製品の細部を忠実に再現することが困難であるという課題が存在する。
- 製品の細部を保持しつつ，高画質な人間と製品の画像を生成することを目指す。
- 提案手法HiFi-Inpaintは，Shared Enhancement AttentionとDetail-Aware Lossにより，製品の細部を効果的に復元する。
- 新たに構築したHP-Image-40Kデータセットを活用し，学習データの不足という課題を克服した。
- 実験結果から，HiFi-Inpaintが最先端の性能を達成し，詳細を保持した高品質な画像を生成することが示された。
Link: https://arxiv.org/abs/2603.02210
Social-JEPA：創発する幾何学的同型性 [cs.CV, cs.AI]目的：異なる視点からの環境モデル間の幾何学的同型性の発見
- 分散型ビジョンシステムの相互運用性は，ロボットやAIの協調作業において重要である。
- 異なる視点からの環境モデルは，通常，表現空間が異なり，相互運用が困難である。
- 予測学習が表現幾何学に課す規則性から，相互運用性の新たな道筋を模索する。
- 異なる視点から学習したエージェントの潜在空間が，近似的な線形等距変換によって関連付けられることが示された。
- この幾何学的合意は，視点の大きな変化や生のピクセルの重複が少ない場合でも維持される。
- 学習されたアライメントを利用することで，一方のエージェントで訓練された分類器を，追加の勾配ステップなしに他方へ移植できる。
Link: https://arxiv.org/abs/2603.02263
フローマッチングの訓練：重み付けとパラメータ化の役割 [cs.CV]目的：ノイズ除去ベース生成モデルの訓練目的
- 生成モデルは，画像生成やデータ拡張など幅広い応用可能性を持つため重要である。
- 訓練目的の選択が性能に大きく影響するが，その相互作用は未解明な部分が多い。
- フローマッチングモデルの訓練における設計選択の指針を提供すること。
- 訓練目的，データ多様性，モデル構造が相互に影響し，性能を左右することが示された。
- ノイズレベルに応じたPSNRの比較から，ノイズ除去性能と生成品質は異なる傾向にあることが示唆された。
- 本研究は，フローマッチングモデルの訓練における実践的な洞察を提供する。
Link: https://arxiv.org/abs/2603.06454
OSCBench：テキストから動画生成における物体状態変化のベンチマーク [cs.CV, cs.AI, cs.CL]目的：テキストから動画生成モデルにおける物体状態変化の評価
- 動画生成技術の発展は，エンターテイメントや教育など多岐にわたる分野での応用が期待される。
- 既存の評価指標は主に動画の品質やテキストとの関連性に焦点を当てており，物体状態変化の理解度は未評価である。
- テキストに明示された物体状態変化を正確に再現できる動画生成モデルの性能向上を目指す。
- 既存のテキストから動画生成モデルは，意味的整合性やシーンの整合性は高いものの，物体状態変化の正確性，特に新規・複合的な状況下で課題がある。
- OSCBenchは，料理の指示データを用いて構築されており，一般的な状態，新しい状態，状態の組み合わせのシナリオを網羅することで，モデルの汎化性能を評価できる。
- 本研究の結果は，物体状態変化がテキストから動画生成における重要なボトルネックであり，状態を意識した動画生成モデルの開発が不可欠であることを示唆する。
Link: https://arxiv.org/abs/2603.11698
動画における推論：MLLMが時空間的証拠を抽出，統合，再構成する方法の評価 [cs.CV]目的：動画における抽象的な時空間推論能力の評価
- 具現化されたエージェントへの関心の高まりから，時空間的な動画理解の需要が増加している。
- 既存の評価基準は抽出的な推論に重点を置いており，抽象的な推論能力が不明確である。
- 時間経過に伴う観察の統合，分散した手がかりの組み合わせ，暗黙の空間構造の推論を評価する。
- 抽象的な時空間推論を評価するための構造化された評価分類体系と合成動画データセットVAEX-BENCHを提案した。
- 最先端のMLLMの抽出的および抽象的な設定における性能を比較し，抽象的なタスクにおける限界を明らかにした。
- データセットは近日公開予定である。
Link: https://arxiv.org/abs/2603.13091
プランクトン認識のためのクロスモーダル学習 [cs.CV]目的：プランクトン認識モデルの構築
- 海洋生態系の理解に不可欠なプランクトンの識別・分類の自動化が求められている。
- 教師あり学習はラベル付けに労力がかかるため，大量の未ラベルデータ活用が課題である。
- 画像と光学データの相互活用により，ラベル付けコストを削減し認識精度向上を目指す。
- 提案手法は，画像と光学プロファイルの両方の情報を活用する多層認識モデルを構築した。
- 少量のみラベル付き画像で高い認識精度を達成し，画像のみの自己教師あり学習基盤を上回る性能を示した。
- 画像とプロファイルが同一粒子由来かどうかの二値情報のみを用いて学習を行うことで実現した。
Link: https://arxiv.org/abs/2603.16427
表面が嘘をつく：しわによる注意シフトを利用した視覚言語モデルへの攻撃 [cs.CV]目的：視覚言語モデルに対する，物理的に妥当な非剛体変形による脆弱性の検証
- 視覚言語モデルは多様なタスクで高い性能を示すが，現実的な変形に対する頑健性は不明な点が多い。
- 柔軟な表面のしわのような非剛体変形に対する，視覚言語モデルの脆弱性が課題となっている。
- しわを模倣した摂動により，視覚言語モデルの性能低下を引き起こす攻撃手法を開発する。
- 提案手法は，ゼロショット分類タスクにおいて，最先端の視覚言語モデルの性能を著しく低下させる。
- この性能低下は，画像キャプション生成や視覚的質疑応答タスクにおいても確認された。
- 提案手法は，既存の攻撃手法と比較して，より高い効果を発揮することが示された。
Link: https://arxiv.org/abs/2603.27759
命令によるテーブル構造認識の改善：InstructTable [cs.CV]目的：テーブル構造認識の精度向上
- テーブルデータは情報抽出において不可欠であり，その構造化はデータ利用を促進する。
- 複雑なレイアウトや結合・空セルを持つテーブル構造の認識は依然として困難である。
- 視覚情報と言語的指示を組み合わせ，複雑なテーブル構造を正確に認識することを目指す。
- InstructTableは，命令に基づいた多段階トレーニングフレームワークにより，テーブル構造認識の性能を向上させる。
- テーブル構造に関する事前学習と，視覚情報の維持を目的としたファインチューニングを組み合わせる。
- 大規模な合成データセットBCDSTabを構築し，様々なデータセットで最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.02880
HQF-Net：リモートセンシング画像セグメンテーションのためのハイブリッド量子・古典的マルチスケール融合ネットワーク [cs.CV, cs.AI]目的：リモートセンシング画像セグメンテーションのためのハイブリッド量子・古典的マルチスケール融合ネットワークの設計
- リモートセンシングは，広範囲な地理情報の収集に不可欠であり，土地利用や環境変化の監視に活用される。
- 従来のセグメンテーション手法では，複雑なシーンにおける空間的詳細と高レベルな意味的文脈を同時に捉えることが課題である。
- 量子技術を活用することで，特徴表現の能力を向上させ，セグメンテーションの精度を高めることを目指す。
- 提案手法HQF-Netは，LandCover.aiにおいて0.8568のmIoUと96.87%の全体精度を達成した。
- OpenEarthMapでは71.82%のmIoU，SeasoNetでは55.28%のmIoUと99.37%の全体精度を記録した。
- アーキテクチャの構成要素ごとの検証により，各要素が性能向上に貢献することが確認された。
Link: https://arxiv.org/abs/2604.06715
対話型顔動画における感情編集のためのクロスモーダル感情転移 [cs.CV, cs.LG]目的：対話型顔動画における感情編集のための手法
- 生成モデルの主要な応用分野であり，より自然で表現力豊かな動画生成が求められている。
- 既存手法では，感情表現の柔軟性や継続的な感情の生成が課題となっていた。
- 音声から感情意味ベクトルを学習し，視覚的特徴空間への感情転移を可能にすること。
- 提案手法C-METは，大規模な事前学習済み音声エンコーダと分離された表情エンコーダを活用し，感情意味ベクトルを学習する。
- 実験結果から，C-METは最先端手法と比較して感情認識精度を14%向上させることが示された。
- 未学習の複雑な感情を含め，表現力豊かな対話型顔動画を生成することが可能となった。
Link: https://arxiv.org/abs/2604.07786
LiDARにおける分布事前確率を用いた分布外検出 [cs.CV, cs.AI]目的：LiDARデータの分布外検出における性能向上
- 自動運転において，LiDARは悪天候下でも安定した知覚機能を提供する重要な技術である。
- 既存手法は，LiDARデータの分布外検出において，クラスの不均衡を無視し，均一な分布を仮定している。
- 学習データの分布をモデル化し，分布外スコアを適応的に重み付けすることで，分布外検出の精度向上を目指す。
- 提案手法NDPは，ネットワーク予測の分布構造をモデル化し，学習分布との整合性に基づき分布外スコアを再重み付けする。
- Perlinノイズを用いた分布外サンプル合成戦略により，外部データセットなしでロバストな分布外学習を実現する。
- SemanticKITTIとSTUベンチマーク実験の結果，NDPはSTUテストセットで点レベルAP61.31%を達成し，従来最高の結果を10倍以上上回る性能を示した。
Link: https://arxiv.org/abs/2604.09232
VAGNet：グローバル特徴を用いた視覚的事故予測 [cs.RO, cs.CV]目的：交通事故の予測
- 交通事故は世界中で死傷事故の主要な原因であり，安全確保が重要である。
- 既存手法は計算コストが高く，リアルタイム処理が困難である。
- グローバル特徴を用いて計算効率の良い事故予測モデルを開発する。
- 提案手法VAGNetは，オブジェクトレベルの特徴量に依存せず，グローバル特徴から事故を予測する。
- 4つのベンチマークデータセットで，既存手法より高い精度と平均事故回避時間を実現した。
- VAGNetは，計算効率にも優れていることが示された。
Link: https://arxiv.org/abs/2604.09305
ABot-Claw：持続的，協調的，自己進化するロボットエージェントの基盤 [cs.CV]目的：ロボットエージェントの持続的な協調的進化のための基盤
- 現実世界の複雑な環境で活動する知能ロボットの開発が求められている。
- 高度な推論と低レベルな物理実行のギャップが，ロボットの自律性を阻害している。
- 自然言語指示から物理的行動へのループを閉じ，ロボットの自己進化を可能にする。
- ABot-Clawは，OpenClawを拡張し，異種ロボットの協調を可能にする統一されたインターフェースを備えている。
- 視覚中心のクロスエンボディメントマルチモーダルメモリにより，文脈の持続的な保持と検索を実現する。
- 批判に基づいた閉ループフィードバックメカニズムにより，オンラインでの進捗評価と計画の修正を行う。
Link: https://arxiv.org/abs/2604.10096
BareBones：VLMにおけるゼロショット幾何学的理解のベンチマーク [cs.CV]目的：視覚言語モデルにおけるゼロショット幾何学的理解の評価
- 視覚言語モデルは多様なタスクで高い性能を示すが，その理解度は検証されていない。
- 既存の評価では，幾何学的構造の理解とテクスチャや文脈による推測を分離できない。
- 純粋な幾何学的形状理解を検証し，モデルの構造的盲点を明らかにする。
- RGB情報を遮断した場合，26の最先端VLMで性能が大幅に低下する「テクスチャバイアス断崖」が確認された。
- BareBonesは，ノイズのない幾何学的タクソノミーに基づき，モデルの幾何学的理解を厳密に評価する指標となる。
- 本研究は，VLMが真に幾何学的構造を理解しているか，単なる統計的ショートカットに依存しているかを検証する。
Link: https://arxiv.org/abs/2604.10528
BlasBench：アイルランド語音声認識のオープンベンチマーク [cs.CL, cs.SD]目的：アイルランド語音声認識の評価基盤とベンチマーク結果
- 多言語音声認識の精度向上は，言語資源の少ない言語への対応に不可欠である。
- 既存のベンチマークでは，アイルランド語固有の表記規則が考慮されず，正確な評価が困難である。
- アイルランド語に特化した正規化処理と評価基盤を構築し，音声認識モデルの性能を正確に比較する。
- BlasBenchは，アイルランド語のファダ，連音化，隠音化を保持する正規化ツールと評価ハーネスを提供する。
- Whisperモデルは挿入型の幻覚により100%を超えるWERを示し，Microsoft AzureはCommon Voiceで22.2%，FLEURSで57.5%のWERを達成した。
- Common VoiceでファインチューニングしたモデルはFLEURSで性能が低下する一方，大規模多言語モデルの性能低下は小さいことが示された。
Link: https://arxiv.org/abs/2604.10736
ReXSonoVQA：手順重視の超音波理解のためのビデオQAベンチマーク [cs.CV, cs.AI]目的：手順重視の超音波理解を目的としたビデオQAベンチマーク
- 超音波検査は熟練した操作を要し，医療現場でのニーズが高い。
- 既存のベンチマークは静止画像のみ評価し，動的な手順理解が不足している。
- 超音波検査における手順理解の評価と，自動化システムの開発を目指す。
- ReXSonoVQAは，514本のビデオクリップと514の質問で構成される新しいベンチマークである。
- Gemini 3 Pro等のLLMは，ある程度の手順情報を抽出できるものの，原因究明型の質問は依然として課題である。
- 本ベンチマークは，超音波トレーニング，ガイダンス，ロボット自動化のための知覚システムの開発に貢献する。
Link: https://arxiv.org/abs/2604.10916
マルチモーダル視覚言語モデルにおける地域適応 [cs.AI, cs.CL, cs.CV]目的：人間中心の視覚言語システムにおける地域適応の最適化
- 視覚とテキスト情報を統合する視覚言語モデルは進歩しているが，地域性への対応が課題である。
- 既存のシステムでは，地域固有の文脈への適合性と汎化性能の両立が難しい。
- 地域に適応させつつ，グローバルな性能を維持するフレームワークの構築を目指す。
- 新たなパラダイム「人間起源地域適応」を提案し，地域コンテキストへの適合性とグローバルな汎化能力の維持を両立する。
- 地域データフィルタリングとモデルマージを利用した効果的な適応手法「GG-EZ」を開発した。
- 東南アジア地域での実験により，GG-EZが文化的関連性の指標において5-15%の改善を示し，グローバル性能を維持・向上させることが示された。
Link: https://arxiv.org/abs/2604.11490
OmniShow：人間と物体のインタラクション動画生成のためのマルチモーダル条件の統合 [eess.SY, cs.RO, cs.SY, cs.CV]目的：人間と物体のインタラクション動画の生成
- 動画生成技術は，eコマース，動画制作，エンターテイメントなど幅広い分野で活用が期待されている。
- 既存手法では，テキスト，画像，音声，ポーズといった多様な条件を全て統合的に扱うことが困難であった。
- 本研究は，多様な条件を統合し，高品質な人間と物体のインタラクション動画生成を可能にする。
- 提案手法OmniShowは，画像とポーズを効率的に統合するUnified Channel-wise Conditioningと，正確な音声と映像の同期を実現するGated Local-Context Attentionを採用している。
- データ不足の問題に対処するため，Decoupled-Then-Joint Trainingという多段階の学習戦略とモデルのマージを組み合わせた手法を開発した。
- HOIVG-Benchという，人間と物体のインタラクション動画生成のためのベンチマークを新たに構築し，様々な条件下で最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.11804
クラスターを意識したアップサイクルによる Mixture-of-Experts の専門化の強化 [cs.CV]目的：Mixture-of-Expertsモデルの専門化
- 大規模言語モデルの性能向上は重要であり，MoEはその有効な手法の一つである。
- MoEモデルは，専門家間の対称性と初期の専門化の遅れが課題となる場合がある。
- データ分布に合わせた専門家の初期化と安定したルーティング誘導を試みる。
- クラスターを意識したアップサイクルは，既存手法と比較してゼロショットおよび少数ショットベンチマークで一貫して優れた性能を示す。
- 提案手法は，より多様で分離された専門家表現を生み出し，専門家間の類似性を低減する。
- ルーティングの確信度を高める効果も確認された。
Link: https://arxiv.org/abs/2604.13508
VRAG-DFD：MLLMベースのディープフェイク検出のための検証可能な検索拡張 [cs.CV]目的：ディープフェイク検出における，高品質なフォレンジック知識の提供と，MLLMの批判的推論能力の向上
- ディープフェイクは，社会に深刻な影響を及ぼすため，その検出技術の確立が急務である。
- 既存のMLLMベースのディープフェイク検出手法は，専門的なフォレンジック知識の不足が課題となっていた。
- 検索拡張生成（RAG）と強化学習（RL）を組み合わせることで，この知識不足と推論能力の欠如を解決することを目指す。
- VRAG-DFDフレームワークは，正確な動的なフォレンジック知識検索と強力な批判的推論能力を両立した。
- フォレンジック知識データベース（FKD）とフォレンジック連鎖的思考データセット（F-CoT）を構築し，データ面での基盤を整備した。
- Alignment-SFT-GRPOの3段階トレーニング法により，MLLMの批判的推論能力を段階的に育成し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.13660
SatBLIP：衛星画像における視覚と言語学習による文脈理解と特徴抽出 [cs.CV, cs.AI]目的：農村地域の社会脆弱性指標（SVI）の予測
- 農村地域の環境リスクは地域特性に左右されるため，詳細な理解が不可欠である。
- 既存の脆弱性指標は粗く，リスクの文脈に関する洞察が限られている。
- 衛星画像から農村地域の文脈を理解し，リスク要因を特定すること。
- SatBLIPは，衛星画像とテキストの対応関係を学習し，農村地域の文脈理解と特徴抽出を実現した。
- GPT-4oを活用して衛星画像の構造化された記述を生成し，それを用いてBLIPモデルをファインチューニングした。
- SHAP分析により，屋根の状態や道路幅など，予測に重要な属性を特定し，リスク環境の可視化に貢献した。
Link: https://arxiv.org/abs/2604.14373
FoodSense：味，香り，食感，音を画像から予測するためのマルチセンサリ食品データセットとベンチマーク [cs.CV]目的：味，香り，食感，音といったマルチセンサリ体験の予測
- 食品に関する認知科学的研究は進んでいる。人間の知覚と食の関連性を理解する上で重要である。
- 既存の研究は主に食品の認識（食事識別，食材検出など）に集中しており，マルチセンサリ体験の予測は未開拓である。
- 食品画像から味，香り，食感，音を予測するためのベンチマークデータセットとモデルを構築し，評価すること。
- FoodSenseデータセットは，2987種類の食品画像と66,842件の参加者データを含み，味，香り，食感，音に関する数値評価と記述を提供。
- 視覚的根拠付きの推論トレースを生成し，モデルが予測と説明の両方を可能にする。
- FoodSense-VLモデルを開発し，マルチセンサリ評価と根拠を画像から直接生成することに成功。既存の評価指標の不備も指摘。
Link: https://arxiv.org/abs/2604.14388
デザイン合成への取り組み [cs.CV]目的：視覚的に調和のとれたデザインの実現
- グラフィックデザインは，多様な視覚要素を統合し，美的で統一感のあるデザインを創造する重要な分野である。
- 既存手法は要素の配置予測や補完に偏っており，入力要素間のスタイル不一致という課題を抱えている。
- 入力要素のスタイル調和と合成により，より高品質なデザインパイプラインの実現を目指す。
- GISTは，既存の設計パイプラインに容易に組み込める，アイデンティティ保持を重視した画像合成器である。
- LaDeCoやDesign-o-meterといった異なる手法への統合実験で，視覚的な調和と美的品質が大幅に向上した。
- LLaVA-OVやGPT-4Vによる評価において，GISTは単純な貼り付けよりも優位性を示した。
Link: https://arxiv.org/abs/2604.14605
ハイブリッド潜在空間：幾何・外観を意識したサーフェルスプラッティング [cs.CV, cs.GR]目的：2Dガウスシーンモデルの再構成
- 3Dシーンの表現は，コンピュータビジョンやグラフィックス分野において重要な課題である。
- NeRF系モデルでは，幾何構造と外観が絡み合い，高精度な再構成が困難になる場合がある。
- 幾何と外観の分離を促進し，より効率的かつ高精度な3Dシーン再構成を目指す。
- 本手法は，ガウスとハッシュグリッドの特徴量を組み合わせることで，周波数分解を明示的に行い，幾何誤差を外観で補償する傾向を抑制する。
- ハードな不透明度を持つガウスを奨励することで，幾何構造と外観の分離をさらに強化し，再構成精度とレンダリング効率を向上させる。
- 確率的プルーニングとスパース性を誘導するBCE不透明度損失により，冗長なガウスを削減し，シーン表現に必要なガウス数を最小限に抑える。
Link: https://arxiv.org/abs/2604.14928
UniDoc-RL：階層的行動と高密度報酬による粗到精な視覚的RAG [cs.CV, cs.AI]目的：視覚的知識を用いた生成モデルにおける，粗い段階から細かい段階への視覚情報取得戦略
- 大規模な視覚言語モデルの性能向上には，外部からの視覚的知識の活用が不可欠である。
- 既存の視覚的RAGシステムは，複雑な推論に必要な詳細な視覚的意味を捉えられていない。
- 本研究は，より詳細な視覚情報を効果的に取得し，推論能力を向上させることを目指す。
- UniDoc-RLは，Retrieval，reranking，能動的視覚認識，推論を統合的に行う強化学習フレームワークである。
- 本手法は，文書検索から画像選択，領域クロッピングへと段階的に視覚的証拠を洗練し，無関係な情報を抑制する。
- 3つのベンチマークにおいて，既存の最先端手法を大きく上回り，最大17.7％の性能向上を達成した。
Link: https://arxiv.org/abs/2604.14967
StreamCacheVGGT：ロバストなスコアリングとハイブリッドキャッシュ圧縮を用いたストリーミング視覚幾何Transformer [cs.MM, cs.DB, cs.CV]目的：連続ビデオストリームからの高密度3D幾何形状の再構成
- 継続的なメモリ予算下での安定した推論が求められるため，リアルタイム3D再構成の応用範囲が広がる。
- 既存のフレームワークは単純な削除戦略に依存し，重要な情報が失われたり，ノイズの影響を受けやすい。
- トークンの重要度を追跡し，幾何学的文脈を維持することで，再構成精度と安定性を向上させる。
- StreamCacheVGGTは，クロスレイヤー整合性強化スコアリング（CLCES）とハイブリッドキャッシュ圧縮（HCC）により，キャッシュ管理を再構築する。
- CLCESはTransformer階層全体でトークン重要度を追跡し，幾何学的顕著性を維持することでノイズを軽減する。
- HCCは，重要度の高いトークンをアンカーにマージすることで幾何学的文脈を保存し，5つのベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2604.15237
GlobalSplat: グローバルシーントークンによる効率的な前方フィードフォワード3Dガウススプラッティング [cs.CV]目的：3Dガウススプラッティングにおける効率的なプリミティブ空間割り当て
- 3Dガウススプラッティングは，表現の簡潔性，再構成速度，レンダリング品質を左右する重要な技術である。
- 既存手法は，グローバルなシーン認識に欠け，局所的なヒューリスティックな割り当て戦略に依存するため，性能にトレードオフが生じる。
- 本研究は，グローバルなシーン表現を学習することで，冗長性を抑え，一貫性のある再構成を可能にする。
- GlobalSplatは，コンパクトなグローバルな潜在シーン表現を学習し，多視点入力の対応関係を解決する。
- RealEstate10KとACIDデータセットで，競合する手法と同等の性能を，より少ない（16K）ガウス数で実現した。
- 単一のフォワードパスで78ミリ秒未満の高速な推論が可能であり，既存手法よりも高速である。
Link: https://arxiv.org/abs/2604.15284
潜在思考による新たな手話言語翻訳パラダイム [cs.CV]目的：手話の潜在的な意味構造の抽出と整理
- 手話は，言語間の翻訳において重要なコミュニケーション手段であり，情報へのアクセスを向上させる。
- 従来の翻訳システムは，手話の短い部分を単語に直接対応させる傾向があり，文脈や動きによる意味の生成を捉えきれていない。
- 手話翻訳を，動画からテキストへの単純な変換ではなく，意味推論タスクとして捉え，より自然で正確な翻訳を目指す。
- 潜在思考という中間層を導入することで，時間の経過とともに意味を徐々に抽出し整理することが可能になった。
- 計画と証拠探索の段階的デコード手法により，翻訳の一貫性と忠実性が向上した。
- より強い文脈依存性と現実的な意味を持つ大規模な手話データセットを新たに構築し公開した。
Link: https://arxiv.org/abs/2604.15301
属性トークンを用いた画像における精密な照明制御：TokenLight [cs.CV, cs.GR]目的：画像再照明における照明属性の精密かつ連続的な制御
- 写真や映像制作において，照明は重要な要素であり，表現の幅を広げる鍵となる。
- 既存手法では，照明の制御が不自然であったり，多様な属性を同時に制御することが困難であった。
- 属性トークンを用いて，照明の強度，色，位置などを自在に制御し，写実的な再照明を実現する。
- 本研究では，大規模な合成データセットと少量の実写データを用いてモデルを学習した。
- その結果，従来の技術と比較して，定量・定性両面で優れた性能を達成した。
- 特に，逆レンダリングの直接的な指導なしに，光とシーンの相互作用を理解し，透明な材質の再照明など，困難な状況下でも説得力のある照明効果を生み出すことが可能となった。
Link: https://arxiv.org/abs/2604.15310
即時決選投票における増強パラドックス [physics.soc-ph, cs.GT]目的：即時決選投票における増強パラドックスの発生可能性
- 投票制度の適正性は民主主義の根幹であり，より公平な選挙結果が求められている。
- 即時決選投票は，順位選択を可能にする一方，投票の結合方法によっては矛盾が生じうる。
- 本研究は，即時決選投票における増強パラドックスの発生頻度を明らかにすることを目的とする。
- 三者候補の即時決選投票において，増強パラドックスが発生する条件を数学的に特定した。
- モンテカルロシミュレーションにより，投票者の行動モデルに応じて，増強パラドックスの発生頻度を推定した。
- 実際の順位選択投票データ分析から，三者候補の選挙において即時決選投票がこのパラドックスに陥りやすいことが示された。
Link: https://arxiv.org/abs/2502.05185
インテリジェントな医療画像プラットフォーム：VLMベースの自動医療画像分析と臨床レポート生成フレームワーク [eess.IV, cs.AI, cs.CV]目的：医療画像分析と臨床レポート生成のためのフレームワーク
- 医療画像診断の精度向上と臨床意思決定支援の重要性が高まっている。
- 既存の画像分析手法では，多様な画像モダリティへの対応や詳細なレポート生成が課題である。
- VLMを活用し，高精度な異常検出と解釈可能な臨床レポートの自動生成を目指す。
- Google Gemini 2.5 Flashを用いたフレームワークが，CT，MRI，X線，超音波など多岐にわたる画像モダリティで腫瘍検出とレポート生成に成功した。
- 位置測定において平均80ピクセルの偏差という高い精度を示し，臨床医の信頼性向上に貢献する多層可視化技術を実装した。
- 高度なプロンプトエンジニアリングとテキスト分析により，構造化された臨床情報を抽出し，ゼロショット学習能力によってデータセット依存性を軽減した。
Link: https://arxiv.org/abs/2509.13590