arXiv雑要約

画像・音声 - 2026/04/28 公開

ShowFlow：堅牢な単一概念から条件なし複数概念生成へ [cs.CV]目的：制御可能な画像合成における画像生成のカスタマイズ
- 画像生成技術は，広告や仮想試着など，多様な分野での応用が期待されている。
- 単一概念生成では，同一性の維持とプロンプトへの適合が課題となる。
- 追加条件なしで複数概念を扱う際の，同一性喪失と概念の欠落を解決する。
- ShowFlow-Sは，Kroneckerアダプターと重み分解，埋め込み分解を統合し，単一概念生成を強化する。
- ShowFlow-Mは，ShowFlow-Sで学習された堅牢なモデルを再利用し，追加条件なしで複数概念生成を可能にする。
- Subject-Adaptive Matching AttentionとLayout Consistency guidanceが，プラグアンドプレイモジュールとして機能する。
Link: https://arxiv.org/abs/2506.18493
U-ViLAR：微分可能な関連付けと登録による不確実性認識型ビジュアルローカリゼーション [cs.CV, cs.RO]目的：自動運転のための不確実性認識型ビジュアルローカリゼーション手法
- 都市環境ではGNSS信号が劣化しやすく，高精度な位置推定が不可欠である。
- GNSSに頼れない環境下での，ロバストなビジュアルローカリゼーションが課題である。
- 知覚と位置推定の不確実性を考慮した，高精度かつ安定したローカリゼーションを目指す。
- 提案手法U-ViLARは，視覚情報をBEV空間に変換し，空間的な整合性を高める。
- 知覚と位置推定の不確実性を考慮した関連付けと登録により，ロバストなローカリゼーションを実現する。
- 大規模な自動運転車隊でのテストにより，様々な都市環境下での安定した性能が確認された。
Link: https://arxiv.org/abs/2507.04503
Franca：スケーラブルな視覚表現学習のためのネストされたマトリオシカクラスタリング [cs.CV]目的：スケーラブルな視覚表現学習のためのネストされたマトリオシカクラスタリング手法
- 画像認識技術は，自動運転や医療診断など幅広い分野で重要性を増しており，高性能なモデルが求められている。
- 既存の自己教師あり学習（SSL）におけるクラスタリング手法は，クラスタリングの曖昧性への対処が課題であった。
- この研究は，クラスタリングの意味的曖昧性を解消し，より効率的で高性能な視覚表現学習を実現することを目指す。
- Francaは，データ，コード，重みを完全にオープンソースで提供する初のビジョンファウンデーションモデルであり，最先端のプロプライエタリモデルと同等以上の性能を示す。
- ネストされたマトリオシカ表現に基づくパラメータ効率の良い多頭クラスタリングプロジェクターにより，モデルサイズを増加させずに，より詳細なクラスタリングを実現する。
- 位置情報の偏りを明示的に除去する新しい位置的 disentanglement 戦略により，セマンティックコンテンツのエンコーディングが向上し，ダウンストリームベンチマークで性能向上が確認された。
Link: https://arxiv.org/abs/2507.14137
チャネル融合によるスペクトルの解明 [cs.CV, cs.AI]目的：ハイパースペクトル画像におけるViTの解釈性向上
- ハイパースペクトル画像は，生物，農業，環境モニタリング等の分野で重要な役割を担う。
- 既存の説明可能性手法では，スペクトル情報を適切に捉えきれず，ViTの解釈が困難である。
- ViTの解釈性を高め，ハイパースペクトル画像の信頼性のある意思決定を支援すること。
- FOCUSは，スペクトル情報を考慮したプロンプトと学習可能なSINKトークンにより，ViTの空間-スペクトル解釈性を実現する。
- バンドレベルのIoUが15％向上し，注意機構の集中が40％以上抑制された。
- 専門家のアノテーションとの一致度が高く，実用的な解釈性を提供する。
Link: https://arxiv.org/abs/2507.14787
mKG-RAG：知識集約型VQAのためのRetrieval-Augmented Generationにおけるマルチモーダル知識グラフの活用 [cs.CV, cs.AI]目的：知識集約型VQAのためのRetrieval-Augmented Generationにおけるマルチモーダル知識グラフの活用
- 画像と質問から知識を問うVQAは，AIの推論能力を測る上で重要である。
- 既存手法は非構造化文書に頼るため，無関係な情報が混入し，回答精度が低下することがある。
- マルチモーダル知識グラフを用いて構造化された知識を導入し，回答の正確性と信頼性を向上させる。
- 提案手法mKG-RAGは，マルチモーダル知識グラフを構築し，効率的な検索と高精度な知識の抽出を実現する。
- 実験の結果，既存手法を大きく上回り，知識集約型VQAの最新技術を確立した。
- MLLMを活用したグラフ抽出とビジョン・テキストマッチングにより，高品質な知識グラフを構築する。
Link: https://arxiv.org/abs/2508.05318
スロットアテンション反復と再帰のスムージング [cs.CV]目的：オブジェクト中心学習におけるスロットアテンションの反復と再帰の改善
- 物体中心学習は，画像や動画を構成要素に分解し理解する上で重要である
- スロットアテンションは初期段階で特徴情報が不足し，正確な集約が難しい
- 最初のフレームとそれ以降のフレームで異なる集約方法を適用し，スロットアテンションの性能向上を目指す
- 提案手法SmoothSAは，入力特徴情報で初期クエリを事前学習することで，最初のフレームでの集約精度を向上させる
- 動画におけるフレーム間の再帰処理において，反復回数を変えることでスムーズな学習を実現する
- オブジェクト検出，認識，視覚的推論などの実験で，提案手法の有効性が確認された
Link: https://arxiv.org/abs/2508.05417
アフォードR1：マルチモーダル大規模言語モデルにおける汎化可能なアフォード推論のための強化学習 [cs.RO, cs.CV]目的：汎化可能なアフォード推論
- 人間とロボットのインタラクション等において，ロボットが物体とどのように相互作用できるか理解する上で重要。
- 既存モデルは，物体間で共有されるアフォードを考慮せず，未知の状況への対応が課題。
- 思考連鎖(CoT)を活用し，汎化性能と明示的な推論能力の向上を目指す。
- 提案手法Affordance-R1は，強化学習とCoTガイド付きGRPOを統合した初めての統一アフォードグラウンディングフレームワーク。
- 明示的な推論データなしで学習されたAffordance-R1は，ロバストなゼロショット汎化能力と，テスト時の創発的な推論能力を示す。
- 実験結果は，既存手法を凌駕し，オープンワールドでの汎化性能を実証している。
Link: https://arxiv.org/abs/2508.06206
iWatchRoad：スマートシティのための道路損傷（穴ぼこ）の検知と地理空間可視化 [cs.CV, cs.LG]目的：道路損傷の検知，GPSタグ付け，およびリアルタイムマッピング
- 道路の安全確保と車両の耐久性向上は，都市インフラ整備において不可欠である。
- 特にインドのような道路環境では，道路の老朽化と維持管理の遅れが深刻な問題となっている。
- 本研究は，道路損傷の自動検知システムを開発し，道路の効率的な維持管理に貢献することを目指す。
- 7,000フレーム以上のデータセットを構築し，インドの道路環境に適応したYOLOモデルをファインチューニングした。
- カスタムOCRモジュールを用いてビデオフレームからタイムスタンプを抽出し，GPSログと同期させることで，正確な地理タグ付けを実現した。
- 検出された道路損傷の詳細はデータベースに保存され，OpenStreetMapを用いたWebインターフェースで可視化され，道路評価とメンテナンス計画に役立つ。
Link: https://arxiv.org/abs/2508.10945
二値最適化を用いたシングルピクセルイメージングのためのバイナリサンプリングパターンの学習 [cs.CV, cs.LG, math.OC, physics.optics]目的：シングルピクセルイメージングのためのタスク固有のバイナリ照明パターン
- シングルピクセルイメージングは，単一の検出器で物体を再構成する技術であり，医療や科学分野での応用が期待される。
- 高度なアンダーサンプリング下では，照明パターンの選択が再構成品質と取得速度に大きく影響する。
- 実用的なSPIハードウェアではバイナリパターンしかサポートされておらず，効果的なバイナリパターンの設計が課題である。
- 提案手法では，二値最適化によりタスク固有のバイナリ照明パターンを学習し，再構成性能を向上させた。
- 特に，高度にアンダーサンプリングされた状況やデータが少ない場合において，ベースライン手法やエンドツーエンドの深層学習よりも優れていることが示された。
- 学習された変分正則化を組み込むことで，再構成品質とロバスト性を向上させている。
Link: https://arxiv.org/abs/2508.19068
推論分解による自己報酬型ビジョン言語モデル [cs.CV]目的：ビジョン言語モデルにおける視覚的誤認と言語的ショートカットの軽減
- ビジョン言語モデルは，画像とテキストを理解するAIの重要な要素であり，多様な応用が期待されている。
- 既存モデルは，視覚情報に基づかない言語のみでの推論や，画像に存在しない内容を生成する誤認を起こしやすい。
- 視覚的推論を強化し，言語への依存を減らすことで，より正確なビジョン言語モデルの実現を目指す。
- 提案手法Vision SR1は，自己報酬型強化学習を用いて，外部の視覚的教師信号なしに視覚的推論を改善する。
- 推論を視覚的推論と言語的推論に分解し，まず画像のみで完結する視覚的記述を生成させることで，視覚情報の活用を促す。
- 実験の結果，Vision SR1は多様なタスクにおいて，視覚的誤認を軽減し，言語的ショートカットへの依存を減らす効果が確認された。
Link: https://arxiv.org/abs/2508.19652
EMCompress：エンドモルフィック多modal圧縮によるビデオLLM [cs.CL, cs.CV]目的：ビデオQAにおけるエンドモルフィック多modal圧縮(EMC)タスクの提案と，その有効性の検証
- ビデオLLMは，長尺ビデオの推論において重要な役割を担うが，計算コストや情報損失の問題がある
- 従来のビデオサンプリング手法では，タスクに関係のないセグメントでの情報希薄化や，微細な時間的意味の喪失が課題となっていた
- EMCは，ビデオと質問を圧縮しつつ，回答の不変性を保つことで，効率的かつ高精度なビデオ理解を目指す
- EMCは，ビデオQAにおいて，十分統計量問題として定式化され，ダウンストリームモデルのタスク空間を維持する。
- EMCを基盤として構築したReSimplifyItは，既存手法を0.40 F-1ポイント上回り，高いクエリ書き換え性能を発揮した。
- ビデオ言語理解の学習および推論において，それぞれ7.33%，33.7%の相対的な改善が見られた。
Link: https://arxiv.org/abs/2508.21094
DreamAudio：拡散モデルを用いたカスタマイズされたテキスト読み上げ生成 [cs.CL, eess.SY, cs.SY, cs.SD, cs.AI, eess.AS]目的：拡散モデルによるカスタマイズされたテキスト読み上げ生成
- テキスト読み上げ技術は，アクセシビリティ向上やコンテンツ制作の効率化に貢献する重要な分野である。
- 既存モデルは高品質な音声を生成するものの，特定の音響特性の細かな制御が難しかった。
- 本研究は，ユーザーが指定した音響的特徴を反映した音声生成を目指す。
- DreamAudioは，ユーザーが提供する参照音響情報に基づいて，カスタマイズされた音声生成を可能にする。
- 特定の音響イベントを含む参照音声サンプルを与えれば，そのイベントを含む新しい音声を生成できる。
- 生成された音声は，カスタマイズされた特徴と入力テキストとの整合性が高いことが実験で示された。
Link: https://arxiv.org/abs/2509.06027
BIR-Adapter：ブラインド画像復元のためのパラメータ効率の良い拡散アダプター [cs.CV]目的：ブラインド画像復元のためのパラメータ効率の良い拡散アダプター
- 画像復元は，コンピュータビジョンの基本的な課題であり，実用的な応用範囲が広い。
- 従来の復元手法は，補助的な特徴抽出器や大規模なファインチューニングが必要であり，計算コストが高い。
- 事前学習済み拡散モデルの表現力を活用し，少ないパラメータで高精度な復元を実現する。
- BIR-Adapterは，最先端の手法と同等またはそれ以上の性能を，最大36分の1の学習パラメータ数で達成した。
- アダプターベースの設計により，既存のモデルへの統合が容易であり，汎用性が高い。
- 超解像モデルにBIR-Adapterを組み込むことで，未知の劣化にも対応できることを示した。
Link: https://arxiv.org/abs/2509.06904
CodecSep：ニューラルオーディオコーデック潜在空間におけるプロンプト駆動型汎用音源分離 [cs.SD, cs.LG]目的：プロンプト駆動型汎用音源分離フレームワークの提案
- 音源分離は，柔軟な音声編集や支援聴取，オープンなドメインでの音源抽出に不可欠である。
- 既存のシステムは計算コストが高く，低遅延なエッジデバイスやコーデックへの組み込みが困難である。
- コーデック潜在空間で効率的に音源分離を行い，実用的なコードストリーム展開を可能にすること。
- CodecSepは，SI-SDRおよびViSQOLにおいてAudioSepを上回り，MOS-LQSでも明らかな改善が見られた。
- 詳細なプロンプトが粗いラベルよりも優れており，潜在空間での直接的なマスキングが生成よりも効果的であることが示された。
- コーデック潜在空間が音源依存構造を保持しており，CodecSepはチャネルごとの音源条件付き変調によってこれを活用している。
Link: https://arxiv.org/abs/2509.11717
AnimalBooth：動物個体特定のためのマルチモーダル特徴強化 [cs.CL, cs.CV]目的：動物画像の個別化生成に関する研究
- 動物の画像生成は，多様な外見的特徴と形態的変異を扱うため，その難易度が高い。
- 既存手法では，ドメイン間の特徴量のずれが生じやすく，個体識別が不安定になるという課題がある。
- AnimalBoothは，ドメイン間のずれを軽減し，個体識別の精度向上を目指す。
- AnimalBoothは，Animal Netと適応的注意モジュールにより，個体情報の保持を強化する。
- 潜在空間における離散コサイン変換フィルタリングにより，大まかな構造から詳細なテクスチャへの段階的な生成を可能にする。
- 高解像度データセットAnimalBenchを構築し，複数のベンチマークで既存手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2509.16702
漸進的タスク固有適応によるパラメータ効率的なマルチタスク学習 [cs.CV]目的：パラメータ効率的なマルチタスク学習手法
- 事前学習済みモデルの活用が重要視される中，限られた計算資源での応用が課題。
- マルチタスク学習では，タスク間の干渉や負の転移が起こりやすい。
- 限られたパラメータで複数のタスクに適応する手法を開発する。
- 提案手法は，初期層で共有し，後続層でタスク固有となるアダプターモジュールを導入。
- タスク間の類似度に基づき，類似タスクを共有アダプターモジュールに割り当てることで，干渉を抑制。
- PASCALとNYUD-v2での実験により，既存手法を凌駕する性能と少ない学習パラメータを実現。
Link: https://arxiv.org/abs/2509.19602
医療画像言語モデルにおけるおべっか行動のベンチマークと軽減 [cs.CE, cs.CV, cs.AI]目的：医療画像言語モデルにおけるおべっか行動の評価と軽減策
- 医療分野におけるAI活用は，診断精度向上や効率化に貢献しうる重要な課題である。
- 医療画像言語モデルは，おべっか行動に脆弱であり，患者安全を脅かす可能性がある。
- 本研究は，医療画像言語モデルのおべっか行動を定量的に評価し，その軽減策を提案する。
- 現在の医療画像言語モデルは，視覚的情報に強く影響を受け，モデルの規模や精度と故障率に相関が見られた。
- 権威への迎合やユーザーの模倣が，視覚データとは独立した偏りのメカニズムを誘発することが示唆された。
- 提案手法であるVIPERは，根拠に基づかない社会的情報をフィルタリングすることで，おべっか行動を抑制し，解釈可能性を維持しつつ，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2509.21979
データカバレッジの継続的拡大に向けて：自動テキスト誘導型エッジケース合成 [cs.CV, cs.AI]目的：エッジケースの自動合成手法
- 深層学習の性能は学習データに大きく依存する。データ品質向上が不可欠。
- データセットの偏りを解消するためには，困難なエッジケースを手動で作成する必要がある。
- テキスト誘導により，エッジケースを自動的に合成し，データセットの頑健性を向上させる。
- 提案手法は，大規模言語モデルとText-to-Imageモデルを組み合わせ，多様なテキストプロンプトを生成する。
- FishEye8Kデータセットを用いた実験で，単純なデータ拡張や手動生成プロンプトを上回る頑健性を示した。
- データキュレーションを自動化し，信頼性の高いAIシステムの開発に貢献する。
Link: https://arxiv.org/abs/2509.26158
沈黙が重要になる時：大規模オーディオ言語モデルにおける無関係な音声がテキスト推論に与える影響 [cs.SD, cs.CL]目的：大規模オーディオ言語モデルにおけるテキスト推論性能への無関係な音声の影響
- 音声とテキスト処理を統合する研究分野であり，実用化に向けて重要性が増している。
- 現実世界のようなノイズ環境下での頑健性が十分に検証されていない。
- 無関係な音声がテキスト推論に与える影響を明らかにし，モデルの頑健性を高める。
- 無関係な音声（沈黙，ノイズ，環境音）は，テキスト推論の精度を低下させ，予測の不安定性を高めることが示された。
- 音声の長さ，音量，デコーディング温度が高いほど，干渉の程度が強くなる。
- プロンプトによる軽減策は限定的だが，自己整合性による安定化は有効であり，計算コストが増加する。
Link: https://arxiv.org/abs/2510.00626
構成的汎化を駆動するもの：視覚生成モデルにおける連続的な学習目的の重要性 [cs.CL, cs.CV, cs.AI, cs.LG]目的：視覚生成モデルにおける構成的汎化能力の向上
- 視覚生成モデルは，新しい概念の組み合わせを生み出す能力が重要視されている。
- 構成的汎化を促進・阻害する要因が十分に解明されていない。
- 学習目的が離散的か連続的か，条件付けが概念情報を提供するかどうかを調査する。
- 学習目的が離散分布か連続分布か，条件付けの情報量などが構成的汎化に影響することがわかった。
- 離散モデル（MaskGITなど）において，連続的なJEPAベースの目的関数を追加することで，構成的汎化性能を向上させることが示された。
Link: https://arxiv.org/abs/2510.03075
衛星画像時系列分類のための階層的自己整合正則化アプローチ [eess.SY, cs.SY, cs.CV]目的：衛星画像時系列分類における階層構造の活用
- リモートセンシングは広範囲の環境変化を捉え，土地利用や災害監視に不可欠である。
- 既存手法では，階層構造を無視し，詳細な分類に偏りがちで，上位概念の認識が困難である。
- 階層構造を考慮した学習と，各レベルの確率分布の一貫性確保により分類精度向上を目指す。
- 提案手法SAHCは，階層特有の分類ヘッドを導入し，階層構造を自己整合的に学習する。
- 階層行列を用いてネットワークを誘導し，異なる粒度での学習を可能にする。
- 複数のデータセットで有効性が確認され，リモートセンシング画像分類におけるロバスト性が示された。
Link: https://arxiv.org/abs/2510.04916
LLMベースのテキスト読み上げにおけるデータ効率的なターゲットトークンレベルの嗜好最適化 [cs.CL, cs.AI, cs.SD]目的：LLMベースのテキスト読み上げシステムの嗜好最適化
- 自然な音声合成は，人間と機械の円滑なコミュニケーションに不可欠であり，その重要性は高い。
- 既存手法はペアデータに依存し，トークンレベルでの精密な調整が困難である。
- ペアデータ不要で，トークンレベルでの最適化を可能にし，より効率的な学習を目指す。
- 提案手法TKTOは，ペアデータなしで学習可能であり，データ効率を向上させる。
- 日本語TTSにおいて，精度が39%向上し，CERが54%削減された。
- TKTOは，ターゲットトークンに対して12.8倍強い報酬を自動的に割り当てることが示された。
Link: https://arxiv.org/abs/2510.05799
DINOv3転移学習の解像度依存性：胸部X線画像分類における性能 [cs.CV, cs.AI, cs.LG]目的：胸部X線画像分類におけるDINOv3の転移学習性能の評価
- 医療画像診断の精度向上は，患者の早期発見と適切な治療に不可欠である。
- 自己教師あり学習の有効性は示唆されているものの，胸部X線画像への応用は未だ十分ではない。
- DINOv3の有効性を検証し，最適な解像度とモデル構造を明らかにすること。
- 成人画像データセットにおいて，DINOv3は512x512ピクセルの解像度でDINOv2を上回る性能を示した。
- 特に，ConvNeXt-Bモデルとの組み合わせで，小さな病変や境界線の検出精度が向上した。
- 小児画像データセットでは，DINOv3や解像度の向上による有意な効果は認められなかった。
Link: https://arxiv.org/abs/2510.07191
ImmerIris：没入型アプリケーションにおけるオフアクシスおよび制約のない虹彩認識のための大規模データセットとベンチマーク [cs.CV]目的：没入型アプリケーションにおけるオフアクシスおよび制約のない虹彩認識のための大規模データセットと評価基準
- 虹彩認識は，生体認証として高い信頼性を持つため，セキュリティ分野での重要性が増している。
- 従来の虹彩認識は制御された環境下を前提としており，オフアクシスや制約のない状況下での性能評価が課題となっていた。
- オフアクシスや制約のない状況下で収集された虹彩画像を用いて，よりロバストな認識システムの開発を目指す。
- ImmerIrisは，546人の被写体から499,791枚の虹彩画像を収録した大規模なデータセットである。
- このデータセットは，没入型アプリケーションに特化した虹彩認識システムの評価を可能にする。
- 前処理の正規化段階に依存しない新しいパラダイムを提案し，既存手法を上回る性能を達成した。
Link: https://arxiv.org/abs/2510.10113
画像編集ペアなしでの画像編集モデルの学習 [cs.CL, cs.IR, cs.CL, cs.CV, cs.LG]目的：画像編集モデルの学習方法
- 画像編集技術は，多様な画像操作を可能にし，創造性や表現の幅を広げる上で重要である。
- 既存の画像編集モデルは，大量の入力-ターゲットペアを必要とし，その収集が困難である。
- 入力-ターゲットペアなしで，高品質な画像編集を可能にする学習方法を確立すること。
- 本研究では，ペアデータなしで画像編集モデルを学習する新しいパラダイムを提案した。
- 提案手法は，拡散モデルをVLMからのフィードバックに基づいて直接最適化することで，既存のモデルのアーティファクトの伝播を防ぐ。
- 標準的なベンチマークにおいて，大規模なペアデータで学習したモデルと同等の性能を，少ないステップ数で実現した。
Link: https://arxiv.org/abs/2510.14978
DRIFT：効率的なMLLMファインチューニングのための推論事前知識の転移 [cs.CV]目的：マルチモーダル大規模言語モデルの推論能力向上
- 大規模言語モデルの発展は目覚ましいが，マルチモーダルモデルの推論能力はテキストのみのモデルに劣る場合がある。
- 推論能力向上には大規模データや強化学習が必要となり，コストが高いという課題がある。
- 勾配空間での推論知識の転移により，低コストで安定した推論能力向上を目指す。
- DRIFTは，テキストのみの推論専門家とマルチモーダルモデルのパラメータ差から推論事前知識を事前計算し，ファインチューニング時の勾配をバイアスする。
- この手法は，標準的なSFTパイプラインの簡便性を維持しながら，効率的かつ安定した推論知識の転移を実現する。
- MathVistaやMathVerseなどのマルチモーダル推論ベンチマークにおいて，DRIFTは単純なマージや標準的なSFTを上回り，計算資源を多く必要とする手法と同等以上の性能を示す。
Link: https://arxiv.org/abs/2510.15050
白内障手術ビデオ解析のための大規模マルチソースマルチタスクベンチマーク：Cataract-LMM [cs.CV, cs.AI, cs.LG]目的：深層学習モデルの汎化性能向上に資する，白内障手術ビデオの多様性と注釈深度の向上
- 手術支援システムの発展には，大規模かつ注釈付きデータセットが不可欠である。
- 既存の白内障手術リソースは，汎用的な深層学習モデルを訓練するための多様性と注釈深度に乏しい。
- 本研究は，汎化性能の高い手術ワークフロー解析，シーン理解，能力に基づいた訓練研究を可能にする。
- 3000件の白内障手術ビデオからなるデータセットを構築し，４層の注釈（手術段階，物体セグメンテーション，相互作用追跡，スキルスコア）を付与した。
- ワークフロー認識，シーンセグメンテーション，相互作用追跡，スキル評価の４タスクにおいて，深層学習モデルの性能を評価した。
- 異なる手術施設間でのドメイン適応性能を検証し，汎化性能向上に向けた基盤を確立した。
Link: https://arxiv.org/abs/2510.16371
ウェブ情報に基づく推論を用いた多Modalな誤情報の検出のためのモジュール型フレームワークMERIT [cs.AI, cs.CL, cs.CV, cs.CY, cs.LG]目的：多Modalな誤情報検出のためのフレームワーク
- 近年のフェイクニュース拡散は社会問題であり，迅速かつ正確な検出が重要である。
- 既存手法は，多Modalな情報を効果的に統合し，推論能力を組み込むことが課題である。
- ウェブ情報に基づいた推論を取り入れ，モジュール化により検出精度と説明可能性の向上を目指す。
- MERITフレームワークは，MMFakeBenchにおいてGPT-4o-miniと組み合わせて81.65%のF1スコアを達成し，既存のゼロショットベースラインを上回った。
- 制御実験の結果，MERITはMMD-Agentと比較して誤情報リコール率が6.14ポイント向上し，特に視覚的・テキスト的歪みに対する改善が認められた。
- モジュール除去実験により，各モジュールが専門性を持ち，独立して機能していることが確認された。
Link: https://arxiv.org/abs/2510.17590
AV-Master：二重経路による包括的知覚がより優れたオーディオビジュアル質疑応答を実現する [cs.CL, cs.CY, cs.MA, cs.CV]目的：オーディオビジュアル質疑応答におけるモデルの性能向上
- 近年，映像と音声を組み合わせた情報処理の重要性が高まっており，より高度な理解が求められている。
- 既存手法では，時間的なサンプリングやモダリティの選択において柔軟性や適応性に欠け，重要な情報に焦点を当てにくい。
- 質問に応じて重要な情報に動的に焦点を当て，各モダリティの貢献度を考慮することで，推論能力の向上を目指す。
- 提案手法AV-Masterは，時間的・モダリティの両側面から冗長な情報を効果的に削減し，重要なセグメントに焦点を当てる動的な適応的フォーカスサンプリングメカニズムを導入した。
- モダリティを意識した戦略により，各モダリティの貢献度を独立してモデル化し，重要な特徴を活性化することで選択的な特徴抽出を可能にした。
- 大規模ベンチマーク実験の結果，AV-Masterは既存手法を大きく上回り，特に複雑な推論タスクにおいて顕著な性能向上を示した。
Link: https://arxiv.org/abs/2510.18346
ISExplore：効率的なパーソナライズ3Dトーク顔生成のための情報的セグメント選択 [cs.CV]目的：効率的なパーソナライズ3Dトーク顔生成のための情報的セグメントの選択
- 近年，NeRFや3DGSに基づくトーク顔生成技術が目覚ましい進歩を遂げている。
- 既存手法は，高精度なモデル構築に数分間の参照ビデオが必要であり，実用性に課題がある。
- 参照ビデオの長さではなく，情報の質が重要であるという知見に基づき，効率的なセグメント選択を目指す。
- ISExploreは，音声特徴の多様性，唇の動きの振幅，視点の多様性の3つの指標に基づいて，最適な短時間の参照セグメントを自動的に特定する。
- 実験により，ISExploreはNeRFおよび3DGSベースの手法において，データ処理と学習時間を5倍以上削減できることが示された。
- 生成品質を維持しつつ，パーソナライズされたトーク顔生成の効率化とデータ効率に関する新たな知見を提供する。
Link: https://arxiv.org/abs/2511.07940
生成モデルの潜在空間の勾配誘導探索による制御された虹彩画像拡張 [cs.CV, cs.LG]目的：制御された虹彩画像拡張のための虹彩画像生成モデルの潜在空間探索
- 虹彩認識技術の信頼性向上には，多様な虹彩画像データセットが不可欠である。
- 虹彩画像の豊富なテクスチャにより，特定の属性を制御した虹彩画像合成は困難である。
- 虹彩画像の幾何学的，テクスチャ的特徴に基づき潜在空間を探索し，多様な画像を生成する。
- 本手法は，生成モデルの潜在空間を勾配で誘導し，同一人物の虹彩画像でありながら特定の属性を操作した画像を生成する。
- 虹彩画像の鮮明度，瞳孔サイズ，虹彩サイズ，瞳孔対虹彩比など，微分可能な損失関数が定義可能な属性であれば，どのような属性でも操作が可能である。
- GAN inversionにより実世界の虹彩画像を潜在空間に投影し，対応する潜在コードを得ることで，実データへの適用も可能である。
Link: https://arxiv.org/abs/2511.09749
MuSc-V2：ラベルなしサンプル間の相互スコアリングによるゼロショット多Modal産業異常分類・セグメンテーション [cs.CV]目的：産業製品における異常のゼロショット分類とセグメンテーション
- 産業製品の品質管理において，異常検知は不良品流出防止と生産効率向上に不可欠である。
- 異常検知には大量のラベル付きデータが必要であり，ラベル付けコストが高いことが課題である。
- ラベルなしデータのみで異常を検出・特定する手法の開発が求められている。
- MuSc-V2は，工業製品の正常領域の類似性と異常の孤立性に着目した相互スコアリングフレームワークである。
- Iterative Point Grouping (IPG)により3D表現を改善し，SNAMDで2D/3D情報を融合することで特徴表現の識別能力を高めている。
- MVTec 3D-ADデータセットでAPが23.7%向上，Eyecandiesデータセットで19.3%向上し，既存手法やFew-shot手法を上回る性能を示した。
Link: https://arxiv.org/abs/2511.10047
スタイルへの挿入：調和のとれたクロスドメインオブジェクト合成のためのゼロショット生成フレームワーク [eess.SY, cs.SY, cs.CV]目的：クロスドメインにおけるオブジェクト合成の調和性向上
- 画像生成技術は，現実世界と仮想世界を融合させ，多様な応用分野を拓く重要な技術である。
- 異なるドメイン間の画像合成では，参照オブジェクトの同一性を維持しつつ，背景との調和を実現することが困難である。
- 既存手法の課題を克服し，高精度で汎用性の高いゼロショット画像合成フレームワークを開発すること。
- 本研究では，アイデンティティ，スタイル，構成を分離する新しい多段階学習プロトコルを提案し，高品質な画像合成を実現した。
- 提案手法は，既存手法と比較して，アイデンティティとスタイルに関する指標において優れた性能を示し，ユーザー調査によってもその有効性が確認された。
- 大規模データセットと人間によるフィルタリングを組み合わせることで，より高品質な画像合成を可能にした。
Link: https://arxiv.org/abs/2511.15197
SPAGS：単一の状態から平面ガウススプラッティングによる疎な視点からの関節オブジェクト再構成 [cs.CV]目的：関節オブジェクトの3次元再構成
- 日常生活の環境に存在する関節オブジェクトの3D再構成は，様々な分野で重要な役割を担う。
- 既存手法は，多段階・多視点観測といった高コストな入力が必要であり，現実的な応用が困難である。
- 単一の状態からの疎な視点画像のみで，高精度な関節オブジェクトの再構成を可能にすることを目指す。
- 提案手法は，平面ガウススプラッティングを用いて，カテゴリに依存しない関節オブジェクト再構成フレームワークを実現した。
- ガウス情報場を導入することで，最適な疎な視点を効率的に特定し，正確な幾何学的形状を確保するために，3Dガウスを平面プリミティブに制約した。
- 合成データセットと実データセットの両方において，既存手法を凌駕する優れた部分レベルの表面再構成精度を達成した。
Link: https://arxiv.org/abs/2511.17092
低照度下での学習：交通標識認識のためのデータセットとアルゴリズム [cs.CV, cs.CY]目的：交通標識認識のためのデータセットおよびアルゴリズム
- 道路安全と自動運転システムにおいて，交通標識の認識は不可欠である。
- 夜間における交通標識認識に関する現実的なデータセットが不足している。
- 夜間の交通標識認識における課題に対処し，新たなベンチマークを提供する。
- 多様な地域で収集された大規模な夜間交通標識データセットINTSDを新たに導入した。
- INTSDは41種類の交通標識クラス，複数の背景カテゴリ，様々な照明・天候条件を含む。
- 適応的な照明を考慮した検出とマルチモーダルな意味的推論を統合したLENS-Netを提案し，競争力のあるベースラインを確立した。
Link: https://arxiv.org/abs/2511.17183
表現のアンラーニングのための，ニューラルコラプスに基づく最適手法POUR [eess.SY, cs.SY, math.OC, cs.CV]目的：表現レベルでのアンラーニングの実現
- 画像認識において，プライバシー保護やモデル更新の効率化が重要視されている。
- 既存手法では分類器は修正されるものの，内部表現が変化せず，完全な忘却が困難。
- 表現レベルでの忘却と知識保持のバランスを取る最適手法を確立する。
- ニューラルコラプスの理論に基づき，等角タイトフレームの性質を利用した忘却演算子を導出した。
- 表現レベルでの忘却と知識保持の度合いを定量化するRUS（Representation Unlearning Score）を提案した。
- 提案手法POURは，CIFAR-10/100やPathMNISTで既存手法を上回り，効果的なアンラーニングと知識保持を両立した。
Link: https://arxiv.org/abs/2511.19339
GA2-CLIP：ビデオ言語モデルにおける効率的なプロンプトチューニングのための汎用属性アンカー [cs.CV]目的：ビデオ言語モデルにおける汎用化性能の向上
- 近年，画像とテキストを扱えるモデルが発展し，様々なタスクに応用されている。
- ビデオタスクに特化してチューニングすると，未知のクラスへの汎用性が低下する課題がある。
- 外部の教師データを用いたプロンプト導入により，汎用性の低下を抑制し，性能向上を目指す。
- 提案手法GA2-CLIPは，既存のプロンプトチューニング手法と比較して，汎化性能において顕著な改善を示す。
- 特に，基本クラスから新しいクラスへの予測において，高い性能を達成した。
- 外部プロンプトと学習可能なマッピング層の組み合わせにより，意味空間の過学習を抑制している。
Link: https://arxiv.org/abs/2511.22125
REINFORCEとJames-Stein縮小を用いたインスタンスレベルのサンプリングスケジュールの設計 [cs.LG, cs.CV]目的：テキスト画像生成におけるサンプラーのサンプリングタイミングの再スケジュール
- 拡散モデルは高品質な画像を生成するが，計算コストが高い。効率的なサンプリングが重要である。
- 既存手法はモデルの重みを調整するため，汎用性や柔軟性に課題がある。
- 固定されたグローバルなスケジュールではなく，インスタンスに応じたスケジュールを学習することで改善を図る。
- 提示された手法は，Stable DiffusionやFluxモデルにおいて，テキストと画像の整合性を向上させる。
- James-Stein推定量に基づく報酬ベースラインは，勾配推定誤差を低減し，性能向上に貢献する。
- 5ステップのFlux-Devサンプラーが，蒸留サンプラーと同等の生成品質を達成できることを示した。
Link: https://arxiv.org/abs/2511.22177
S2AM3D：3D点群のスケール制御可能な部品分割 [cs.MA, cs.CV]目的：3D点群の部品レベル分割
- 3Dコンピュータビジョンにおいて，部品レベルの認識は重要性が増している。ロボティクスや自動運転への応用が期待される。
- 3Dモデルのデータ不足により汎化性能が低い，または2D知識の導入による視点間の一貫性欠如が課題である。
- 2D事前知識と3Dの一貫性のある学習を組み合わせ，汎化性能と一貫性を向上させることを目指す。
- S2AM3Dは，2Dセグメンテーションの事前知識と3Dの一貫性のある教師信号を統合することで，高性能を実現した。
- 点一貫性のある部品エンコーダとスケール対応のプロンプトデコーダにより，リアルタイムな分割粒度の調整が可能となった。
- 10万以上のサンプルを含む大規模なデータセットを新たに構築し，モデル学習のための豊富な教師信号を提供した。
Link: https://arxiv.org/abs/2512.00995
SMP：物理ベースのキャラクター制御のための再利用可能なスコアマッチングモーション事前知識 [cs.CL, cs.GR, cs.AI, cs.CV, cs.RO]目的：再利用可能なタスク非依存のモーション事前知識の創出
- リアルなバーチャルキャラクター作成において，自然な挙動を導くデータ駆動型モーション事前知識は重要である。
- 敵対的模倣学習は有効だが，コントローラーごとに再学習が必要で，再利用性やデータ保持に課題がある。
- 事前学習済みモーション拡散モデルとスコア蒸留サンプリングを用いて，再利用可能なモーション事前知識を構築する。
- 本研究では，大規模データセットで学習した汎用モーション事前知識を，様々なスタイル固有の事前知識に再利用可能であることを示した。
- SMPは異なるスタイルを組み合わせ，元のデータセットには存在しない新しいスタイルを合成できる。
- 実験結果から，SMPは敵対的模倣学習と同等の高品質なモーションを生成し，様々な制御タスクで有効であることが示された。
Link: https://arxiv.org/abs/2512.03028
RGB-Tトラッキングのためのグループ直交低ランク適応 [cs.CV]目的：RGB-Tトラッキングにおけるモデルの適応能力向上
- RGB-D画像を用いたトラッキングは，ロボティクスや自動運転など幅広い分野で重要である。
- 従来の低ランク適応では，ランク空間に冗長性が高く，多様な知識の学習が制限される。
- 本研究は，ランク空間の冗長性を解消し，より効果的な特徴表現を獲得することを目指す。
- 提案手法GOLAは，特異値分解によるランク重要度評価とグループ化による直交制約を導入することで，パラメータの冗長性を削減する。
- GOLAは，重要なランクを固定し，冗長なランクを直交的なグループに分割することで，補完的な特徴学習を促進する。
- 実験結果から，GOLAは最先端手法と比較して，4つのベンチマークデータセットにおいて大幅な性能向上を示すことが確認された。
Link: https://arxiv.org/abs/2512.05359
Voxify3D：ピクセルアートとボリュームレンダリングの融合 [cs.CL, cs.CV]目的：3Dメッシュからのピクセルアートの自動生成
- ゲームやデジタルメディアにおいて，ピクセルアートは特徴的な表現手法として広く用いられている。
- 幾何学的抽象化，意味的保存，離散的な色の一貫性という相反する要件から，3Dメッシュからの自動生成は困難である。
- ボクセルアートの審美性を維持しつつ，3Dメッシュから高精度なピクセルアートを生成することを目指す。
- 提案手法Voxify3Dは，3Dメッシュ最適化と2Dピクセルアートの監視を組み合わせた微分可能な2段階フレームワークである。
- 直交投影によるピクセルアート監視，パッチベースのCLIPアライメント，パレット制約のあるGumbel-Softmax量子化を統合している。
- 多様なキャラクターに対して，優れた性能（CLIP-IQA 37.12，ユーザー選好率77.90%）と制御可能な抽象化（2-8色，20x-50x解像度）を実証した。
Link: https://arxiv.org/abs/2512.07834
FUSER：フィードフォワード多視点3D登録TransformerとSE(3)$^N$拡散微調整 [cs.RO, cs.CV]目的：多視点点群の3D登録手法
- ロボットやAR/VRなど，3D環境を理解する上で不可欠な技術である。
- 従来のペアワイズマッチングは計算コストが高く，幾何学的制約なしには不安定になりやすい。
- 全スキャンをまとめて処理し，直接グローバルポーズを予測する効率的な手法を開発すること。
- FUSERは，すべてのスキャンを統一された潜在空間で処理する初のフィードフォワード多視点登録Transformerである。
- スパース3D CNNと幾何学的交互注意モジュールにより，効率的な推論と幾何学的整合性を実現している。
- FUSER-DFというSE(3)$^N$拡散微調整フレームワークを導入し，登録精度と計算効率を向上させている。
Link: https://arxiv.org/abs/2512.09373
ビジュアルファネル：マルチモーダル大規模言語モデルにおける文脈盲目の解消 [cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおける文脈盲目の解消
- マルチモーダル大規模言語モデルは高度な推論能力を持つが，詳細な視覚情報の認識に課題がある。
- 既存手法では，重要な領域を切り出すことで部分的な解決策を提供するものの，文脈とのつながりが失われる問題がある。
- 入力情報の「構造的多様性」を高めることで，文脈盲目を解消し，より精度の高いタスクへの適用を目指す。
- 提案手法「Visual Funnel」は，文脈アンカリングとエントロピースケールポートフォリオにより，階層的な文脈を保持する。
- 実験の結果，Visual Funnelは既存手法と比較して顕著な性能向上を示した。
- 無構造なマルチクロップでは効果が限定的または低下することから，提案手法の階層構造の重要性が確認された。
Link: https://arxiv.org/abs/2512.10362
LLMオークション：LLMネイティブ広告に向けた生成オークション [cs.GT, cs.AI, cs.LG]目的：LLMネイティブ広告における生成オークションメカニズム
- LLMの商業利用はオンライン広告の新たな展開であり，LLMを活用した広告が注目されている。
- 従来の広告メカニズムはLLMの出力分布を対象としないため，適用が困難である。
- LLMの生成とオークションを統合し，効率性とインセンティブ適合性を両立することを目指す。
- LLM-Auctionは，LLMの出力を広告配置に活用する初の学習ベースの生成オークションメカニズムである。
- LLMの目的関数と広告主の価値，ユーザー体験の整合性を図り，外部性を考慮した効率的な配置を実現した。
- 理論的にもメカニズムの単調性と連続性が確認され，シンプルな支払いルールが良好なインセンティブ特性を示すことが証明された。
Link: https://arxiv.org/abs/2512.10551
StereoSpace：カノニカル空間におけるEnd-to-End拡散によるステレオ形状の深度フリー合成 [cs.CV]目的：単眼画像からのステレオ合成
- 3次元視覚は，ロボット工学やAR/VRなど広範な応用分野において不可欠である。
- 既存手法は深度推定に依存するため，推定誤差が合成品質に影響しやすい。
- 深度推定を用いずに，視点条件付けのみで高品質なステレオ画像を生成すること。
- StereoSpaceは，深度やワープを用いない拡散モデルに基づくステレオ合成フレームワークである。
- 提案手法は，カノニカルな整流空間と視点条件付けにより，対応点推論と遮蔽領域の補完をEnd-to-Endで行う。
- warp & inpaint，潜在ワープ，ワープ条件付けといった既存手法を上回り，特にレイヤー化されたシーンや非ランベリアンシーンにおいて優れた性能を示した。
Link: https://arxiv.org/abs/2512.10959
翻訳のための聴覚：LLMへの音声モダリティ統合の有効性 [cs.CL, cs.AI, cs.SD]目的：LLMにおける音声モダリティ統合の効果
- 言語の壁を越えたコミュニケーションは不可欠であり，音声翻訳はその重要な手段となる。
- 従来の音声翻訳は，音声認識と機械翻訳の連携に依存し，エラー伝播のリスクがある。
- 音声モダリティを直接統合したLLMが，従来のシステムを上回る性能を発揮できるか検証する。
- 包括的な評価の結果，従来の連携システムが全体的に最も信頼性が高いことが示された。
- しかし，最新のSpeechLLMは特定の条件下で連携システムと同等またはそれ以上の性能を示すことが確認された。
- 音声基盤モデル単体では性能が劣り，LLMとの統合が高品質な音声翻訳に不可欠であることが示唆された。
Link: https://arxiv.org/abs/2512.16378
生成と適応潜在空間拡張によるあらゆる品質の画像セグメンテーションへ [cs.CV]目的：低品質画像に対するセグメンテーションのロバスト性向上
- 画像セグメンテーションは，コンピュータビジョンの基盤技術であり，多様な応用分野で不可欠である。
- 既存のSAMモデルは，低品質画像に対して性能が低下し，実用上の制約となっている。
- 様々な画像品質に対応可能な，よりロバストなセグメンテーションモデルの構築を目指す。
- GleSAM++は，生成潜在空間拡張を利用することで，低品質画像におけるセグメンテーションのロバスト性を大幅に向上させる。
- 特徴分布アライメント(FDA)とチャネル複製・拡張(CRE)により，事前学習済みの拡散モデルとセグメンテーションフレームワークの互換性を高めた。
- 劣化度合いを認識する適応的強化(DAE)メカニズムを導入し，複雑なノイズ分布への学習負担を軽減，再構成の最適化を図った。
Link: https://arxiv.org/abs/2601.02018
エンコーダ・デコーダASRモデルのポストトレーニング量子化のための診断駆動型層別補償 [cs.SD, cs.CL, eess.AS]目的：エンコーダ・デコーダASRモデルのポストトレーニング量子化における層別補償手法
- メモリ制約のあるエッジデバイスでのASRモデルの利用が重要視されている。
- 層別ポストトレーニング量子化では，層間の誤差累積が問題となる。
- 層ごとの量子化ノイズへの感度差を考慮した，効果的な補償手法を確立すること。
- 提案手法FADEは，重みの形状とデータ駆動型ソリューションに基づく層別適応補償係数を導入する。
- FADEは，Whisper，Moonshine，Qwen3-ASRといったモデルで，3ビットおよび4ビット精度でWERを改善する。
- FADEは，実行ごとの分散を大幅に削減し，再現性の高い結果を提供する。
Link: https://arxiv.org/abs/2601.02455
B-FIRE：ビンニングフリー拡散暗黙的ニューラル表現による超高速モーション分解MRI [cs.CV]目的：超高速モーション分解MRI再構築のための，ビンニングフリー拡散暗黙的ニューラル表現フレームワーク
- 運動情報を伴うMRIは，呼吸などの生理的変動を考慮した正確な診断に不可欠である。
- 従来の4DMRIは，運動によるアーチファクトが発生し，瞬間的な動態情報を正確に捉えられない。
- 極めてアンダーサンプリングされたデータを高精度に再構築し，瞬間的な３次元腹部解剖学的構造を反映すること。
- B-FIREは，CNN-INRエンコーダー・デコーダーバックボーンと拡散モデルを組み合わせ，画像領域の忠実性と周波数特性を考慮した損失関数を使用する。
- T1強調StarVIBE肝臓MRIデータセットを用いた実験で，RV8からRV1までの加速率において，従来の再構築手法と比較して優れた性能を示した。
- 再構築精度，運動軌跡の一貫性，推論速度において，既存手法を上回る結果が得られた。
Link: https://arxiv.org/abs/2601.06166