arXiv雑要約

画像・音声 - 2026/04/22 公開

DASB - 離散オーディオおよび音声ベンチマーク [cs.SD, cs.AI, eess.AS]目的：離散オーディオトークンのベンチマークフレームワーク
- 音声と言語処理の融合が期待され，マルチモーダル言語モデルの発展に不可欠である。
- 音韻内容，話者識別，パラ言語的特徴などの重要な情報を維持することが課題である。
- 様々なタスクにおける離散オーディオトークンの性能を公平に評価する手段を提供する。
- 離散表現は連続表現よりも頑健性が低く，モデル構造や学習率などの調整が重要である。
- 意味的トークンは音響的トークンよりも優れているが，離散トークンと連続特徴の間には依然として差がある。
- DASBのコード，評価設定，リーダーボードは公開されており，研究の再現性と発展に貢献する。
Link: https://arxiv.org/abs/2406.14294
脳ガイダンスによる普遍的特徴空間における視覚概念の発見：AlignedCut [cs.CV]目的：視覚データ，深層ネットワーク，脳の関係性の解明
- 脳科学とAIの融合は，両分野の進歩に不可欠であり，新たな知見をもたらす可能性を秘めている。
- 深層ネットワークの学習は目的関数に依存するが，異なる目的関数下での共通性の解明が課題である。
- 脳活動を模倣した学習を通して，深層ネットワークにおける普遍的な特徴空間の抽出と視覚概念の発見を目指す。
- 脳ボクセルfMRI応答予測を目的関数として用いることで，異なるモデル間における共通の特徴チャネルが発見された。
- これらのチャネルは，特定の脳領域に対応する再帰的なセットにクラスタリングされ，視覚概念の形成を示唆している。
- 教師なしデコーダーを用いずに，意味のあるオブジェクトセグメントが画像上に現れ，深層ネットワークの処理過程を可視化した。
Link: https://arxiv.org/abs/2406.18344
作物の種類マッピングにおける基盤モデルの汎化性能について [cs.CV, cs.LG]目的：作物種類のマッピングにおける基盤モデルの汎化性能
- 精密農業や災害対応など，地球観測技術の重要性が高まっており，効率的な土地利用に貢献する。
- データが豊富な先進国で学習したモデルが，データ不足の発展途上国で有効に機能するか不明確である。
- 地理的な偏りを考慮し，汎化性能を評価することで，より公平で効果的なモデル構築を目指す。
- Sentinel-2用に設計されたSSL4EO-S12は，汎用的なImageNetよりも高い性能を示した。
- 高い全体精度を達成するには100枚のラベル付き画像で十分だが，クラスの不均衡を緩和し，平均精度を向上させるには900枚が必要である。
Link: https://arxiv.org/abs/2409.09451
深層超解像モデル訓練におけるビデオ過学習のための効率的なパッチサンプリング [cs.CL, cs.CV]目的：ビデオ超解像ネットワークの過学習のための効率的なパッチサンプリング手法
- 帯域幅制限下でビデオ品質を向上させる技術として，深層学習の過学習特性を活用する研究が進んでいる。
- 多数のビデオフレームを用いてモデルを訓練するには，計算コストが膨大になるという課題がある。
- ビデオフレームから価値の高い訓練パッチを効率的に特定し，訓練コストを削減することを目指す。
- 提案手法EPSは，DCTに基づく空間・時間特徴を用いてパッチの複雑度を評価し，情報量の多いパッチを効率的に選択する。
- パッチ数を最大91.69%削減しながら，高いビデオ品質を維持し，訓練効率を大幅に向上させる。
- 最新のパッチサンプリング技術と比較して，最大82.1倍の高速化を実現する。
Link: https://arxiv.org/abs/2411.16312
自動運転向けビジョン言語モデルに対する視覚的敵対的攻撃 [cs.CV]目的：自動運転におけるビジョン言語モデルの敵対的攻撃手法の開発
- 自動運転技術の安全性を高めるためには，AIモデルの堅牢性が不可欠である。
- ビジョン言語モデルは敵対的攻撃に脆弱であり，自動運転環境下での安全性が懸念される。
- 自動運転特有の状況を考慮した，ビジョン言語モデルに対する敵対的攻撃手法を確立すること。
- 提案手法ADvLMは，テキスト指示の多様性と視覚シナリオの時間的特性に対応した攻撃を可能にする。
- ADvLMは，Semantic-Invariant InductionとScenario-Associated Enhancementという二つの技術を導入することで，高い攻撃成功率を実現した。
- 複数の自動運転向けビジョン言語モデルとベンチマークにおいて，最先端の攻撃性能を実証した。
Link: https://arxiv.org/abs/2411.18275
検出Transformerにおける不確実性定量化：オブジェクトレベルのキャリブレーションと画像レベルの信頼性 [cs.MA, cs.SI, math.OC, cs.CV, cs.AI]目的：検出Transformerの予測に対する信頼性評価手法の開発
- 物体検出は，自動運転などの安全性に重要な応用分野において不可欠な技術である。
- DETRは多数の予測を出力するため，信頼できる予測を特定することが課題であった。
- DETRが出力する予測の信頼性を評価し，安全な応用を可能にすることを目的とする。
- DETRは，オブジェクトごとに1つのキャリブレーションされた予測を生成し，残りを抑制する戦略をとることが明らかになった。
- 既存の評価指標では，モデルのキャリブレーション品質と後処理アルゴリズムの効果を同時に評価できないことが示された。
- オブジェクトレベルのキャリブレーション誤差（OCE）を導入し，モデル評価と信頼性の高い予測サブセットの特定に役立つことを示した。
Link: https://arxiv.org/abs/2412.01782
最適化知識の適応による学習進化 [cs.NE, cs.AI, cs.CV, cs.LG]目的：進化戦略における最適化知識の活用とオンライン適応
- 最適化問題解決において，過去の知見を有効活用することで，効率的な探索が可能となる。
- 既存手法では，過去の知識の不完全な利用や，特定の演算子への限定的な適応といった課題が存在する。
- 最適化知識の統合と動的なパラメータ更新を同時に実現し，効率的な知識伝達と適応を目指す。
- 提案手法OKAEMは，事前学習による知識転移と，リアルタイム知識に基づく適応的最適化を統合した学習可能な進化フレームワークである。
- 実験結果から，OKAEMは知識転移シナリオにおいて既存手法を凌駕し，事前知識のない環境でも高度な自己調整能力を示すことが確認された。
- ビジョン言語モデルのプロンプト調整への応用や，消去実験，可視化分析により，学習可能な要素の必要性およびモデルの解釈可能性が示された。
Link: https://arxiv.org/abs/2501.02200
頭部CTにおける汎化可能な疾患検出のための3D基盤モデル [cs.CV, cs.AI]目的：頭部CT画像における汎化可能な疾患検出
- 頭部CTは脳疾患診断に不可欠であり，迅速かつ安全な検査手段として広く用いられている。
- 高品質なラベル付きデータの不足が，高性能な深層学習モデル開発の大きな課題となっている。
- ラベルなしデータを用いた自己教師あり学習により，汎化性能の高い基盤モデルを構築すること。
- 自己教師あり学習により，大量の頭部CTデータからロバストな特徴量を効率的に学習できた。
- 開発した基盤モデルは，既存の3D CT基盤モデルやゼロから学習させたモデルと比較して，診断性能が大幅に向上した。
- 本研究は，医療画像における自己教師あり学習の有効性を示し，頭部CT画像解析の新たなベンチマークを確立した。
Link: https://arxiv.org/abs/2502.02779
OmniParser V2：統一された視覚的テキスト解析のための構造化思考ポイントと，そのマルチモーダル大規模言語モデルへの一般性 [cs.CV, cs.CL]目的：視覚的テキスト解析における多様なタスクを統一的なフレームワークで実現する手法
- 文書理解の自動化ニーズの高まりと，大規模言語モデルの進歩により，視覚的テキスト解析の研究が重要視されている。
- 既存手法はタスク固有のアーキテクチャと目的関数に依存するため，モダリティの分離と複雑なワークフローが課題となっていた。
- 構造化思考ポイント（SPOT）を用いて，タスク固有の要素を排除し，処理パイプラインを簡素化することを目指す。
- OmniParser V2は，テキスト検出，キー情報抽出，表認識，レイアウト解析といった多様な視覚的テキスト解析タスクにおいて，最先端または競争力のある結果を達成した。
- 提案する構造化思考ポイント（SPOT）は，統一的なエンコーダ・デコーダアーキテクチャ，目的関数，入出力表現を活用し，モデルの性能を向上させる。
- SPOTをマルチモーダル大規模言語モデルに統合することで，視覚的テキスト解析能力がさらに強化され，その一般性が確認された。
Link: https://arxiv.org/abs/2502.16161
指し示せば学習する：医療画像における分布シフトへの対応のためのインタラクティブセグメンテーションモデルのオンライン適応 [cs.CV]目的：医療画像における分布シフトに対応するためのインタラクティブセグメンテーションモデルの適応能力の向上
- 医療画像診断の精度向上は，疾患の早期発見と適切な治療に不可欠である。
- 医療画像データは，撮影条件や患者背景により分布が変動しやすく，モデルの汎化性能を低下させる。
- ユーザの操作を反映させることで，モデルを新たなデータ分布に適応させ，診断精度を維持・向上させる。
- ユーザからのフィードバック（クリック）に対するモデルの応答性を高めることが，初期学習において重要であることが示された。
- ユーザによる修正結果を擬似的な正解データとして扱うことで，効率的なオンライン適応が可能となり，逐次的なテスト画像に対する学習効果が確認された。
- 提案手法は，異なる画像モダリティや病理を含む多様な分布シフトにおいて，既存手法と比較して優れた性能を示した。
Link: https://arxiv.org/abs/2503.06717
COMODO：ビデオとIMUのクロスモーダル知識蒸留による効率的な一人称視点ヒューマンアクティビティ認識 [cs.CV, cs.AI, cs.LG, cs.MM]目的：一人称視点ヒューマンアクティビティ認識の効率化
- ウェアラブルシステムにおける継続的な活動理解は重要だが，計算資源やプライバシーの問題が存在する。
- IMUセンサは省電力だが，大規模なアノテーションデータが不足しており，汎化性能が低い。
- ビデオの知識をIMUに蒸留することで，IMUの性能を向上させ，実用的なウェアラブルシステムを実現する。
- COMODOは，ラベルを用いずにビデオからIMUへの知識蒸留を行うことで，IMUの性能を改善する。
- 実験の結果，COMODOは既存の教師あり学習モデルと同等またはそれ以上の性能を達成し，高い汎化性能を示した。
- COMODOは様々な事前学習済みモデルに対応しており，将来のユビキタスコンピューティング研究に貢献する可能性を秘めている。
Link: https://arxiv.org/abs/2503.07259
RESFL：プライバシー，公平性，ユーティリティのバランスによる責任ある連合学習のための不確実性認識フレームワーク [cs.LG, cs.CV, cs.DC, cs.ET]目的：プライバシー，公平性，ユーティリティのバランスによる責任ある連合学習フレームワーク
- 連合学習は，データ集中化を伴わない機械学習を可能にし，医療や金融など様々な分野で重要性を増している。
- プライバシー保護のために差分プライバシーを用いる場合，バイアス修正に必要な情報が失われ，公平性が損なわれる可能性がある。
- プライバシーと公平性のトレードオフを解消し，高精度かつ公平な連合学習モデルを構築することを目指す。
- RESFLは，敵対的プライバシー解 disentanglement と不確実性 guided 公平性 aware 集約を組み合わせることで，プライバシーと公平性を同時に改善する。
- FACETとCARLAの実験では，RESFLがFedAvgベースラインと比較して，mAPの向上，メンバーシップ推論攻撃の成功率低下，機会均等の格差縮小を実現した。
- RESFLは，自律運転環境で評価されたが，そのドメイン汎用性から，他の幅広いアプリケーション領域にも適用可能である。
Link: https://arxiv.org/abs/2503.16251
GAIR：位置情報に基づいた自己教師ありコントラスト学習による地理的整合性を持つ暗黙的表現を用いた事前学習 [cs.CV, cs.AI]目的：地理空間タスクにおける汎用的な地理空間表現の学習
- 地理空間データは，都市計画，環境モニタリング等に不可欠であり，その応用範囲は広い。
- 既存のViTは，地理空間タスクに必要な詳細な位置情報を捉えきれていないという課題がある。
- 地理空間データ間の関係性をモデル化するための，高解像度な位置情報に基づく表現を獲得することを目指す。
- 提案手法GAIRは，空撮画像，ストリートビュー画像，位置情報メタデータを統合的に学習する。
- 暗黙的ニューラル表現（INR）モジュールを用いることで，地理空間データを位置情報に基づいて整合させる。
- 9つの地理空間タスクにおける評価で，最先端のgeo-foundationモデルや他の自己教師あり学習手法を上回る性能を示した。
Link: https://arxiv.org/abs/2503.16683
効率的な音声チャットボットアシスタントのための推測的ターン終了検出器 [cs.CL, cs.AI, cs.LG, cs.SD, eess.AS]目的：ターン終了検出の精度向上
- 近年のLLMの発展により音声対話システムが進化している。自然な会話を実現する上で重要である。
- ターン終了の判断が難しく，誤ったタイミングで応答が来て会話の流れを阻害する問題がある。
- 効率性と精度を両立するリアルタイムなターン終了検出手法を開発し，会話の円滑化を目指す。
- 初のターン終了検出用公開データセット「ETD Dataset」を構築した。
- 軽量なGRUモデルと高性能なWav2vecモデルを組み合わせた「SpeculativeETD」を提案した。
- 提案手法は，計算量を抑えつつターン終了検出の精度を大幅に向上させることを実験で示した。
Link: https://arxiv.org/abs/2503.23439
VLM-3R：命令に沿った3D再構成で拡張されたビジョン言語モデル [cs.CV, cs.CL]目的：単眼動画からの3D空間理解と，言語指示との整合性向上
- 人間のような視覚空間知能の実現が求められており，そのためには3Dシーンの理解が不可欠である。
- 既存手法は外部センサーや既存アルゴリズムに依存し，単眼動画やリアルタイム処理への対応が難しい。
- 本研究は，3D再構成による命令チューニングを通じて，単眼動画からの空間理解を可能にする。
- VLM-3Rは，空間-視覚-視点融合により，現実世界の空間的文脈と言語指示を効果的に整合させる。
- 提案手法は，モノキュラー3D空間支援と具現化された推論を可能にし，高い精度と拡張性を示す。
- 新たに開発したVision-Spatial-Temporal Intelligenceベンチマークにより，時間的推論能力を評価できる。
Link: https://arxiv.org/abs/2505.20279
PuzzleWorld：パズルハントにおけるマルチモーダル，オープンエンドな推論のためのベンチマーク [cs.CL, cs.CL, cs.SI, cs.CY, cs.CL, cs.AI, cs.CV]目的：パズルハント形式の問題を用いた，段階的，オープンエンド，そして創造的なマルチモーダル推論の評価
- 現実世界の問題解決を模倣した評価環境が必要とされている。科学的発見やデータ分析など，定義が曖昧な問題への対応が求められる。
- 既存の推論ベンチマークは指示が明確で環境が限定されているため，複雑で多段階なパズルハントのような問題に対応できない。
- マルチモーダルな証拠から問題構造を発見し，反復的な推論を行う能力を評価するためのベンチマークを構築すること。
- PuzzleWorldは，667個のパズルハント形式の問題を含む包括的なベンチマークであり，詳細な推論トレースと認知スキルラベルが付属している。
- 最先端モデルの正答率はわずか1〜4％であり，人間の初心者レベルには匹敵するものの，パズル愛好家には及ばない。
- 推論トレースによるファインチューニングにより，段階的精度が4%から11%に向上し，視覚推論タスクにも波及効果が認められた。
Link: https://arxiv.org/abs/2506.06211
LPO：位置優先度最適化による高精度なGUIエージェントインタラクションへ [cs.LG, cs.AI, cs.CV]目的：GUIインタラクションの精度向上
- GUIとの対話において，自然言語による自動エージェントの活用が重要性を増している。
- 既存のGUIエージェントは，位置情報の正確な認識に課題があり，精度が制限されている。
- 位置情報を活用し，インタラクションの優先度を最適化することで精度向上を目指す。
- 提案手法LPOは，情報エントロピーを用いてインタラクション位置を予測し，情報量の多い領域に焦点を当てる。
- 物理距離に基づく動的な位置報酬関数を導入することで，インタラクション位置の重要度を反映している。
- オフラインベンチマークとオンライン評価において，LPOが最先端の結果を達成している。
Link: https://arxiv.org/abs/2506.09373
OmniGen2：指示応答型マルチモーダル生成へ [cs.CV, cs.AI, cs.CL]目的：多様な生成タスクに対する統合的な解決策
- マルチモーダルな情報処理は，人間のように多様なデータ形式を理解し，活用するために重要である。
- 既存モデルは，テキストと画像の処理能力を統合する際に，既存の知識を再学習する必要がある場合がある。
- テキストと画像の生成能力を向上させ，既存のマルチモーダル理解モデルを有効活用することを目指す。
- OmniGen2は，テキストと画像の独立したデコーディング経路を採用することで，既存モデルの知識を活かすことに成功した。
- 画像編集や文脈内生成を含む複数のタスクベンチマークにおいて，競争力のある結果を達成した。
- 特に，文脈内生成タスク（subject-driven tasks）において，一貫性の面で最先端のオープンソースモデル性能を示した。
Link: https://arxiv.org/abs/2506.18871
野生火災セマンティックセグメンテーションのための集中型コピー＆ペースト：データ拡張戦略の強化 [cs.CV, cs.LG]目的：野生火災セマンティックセグメンテーションのためのデータ拡張手法
- 野生火災の被害軽減には，正確な火災域の特定が不可欠であり，画像セグメンテーション技術が重要な役割を果たす。
- セグメンテーションモデルの学習には大量の注釈付き画像が必要だが，野生火災のデータセットは入手困難で，アノテーションコストも高い。
- 限られたデータセットでも効果的に火災領域のセグメンテーション精度を向上させるための新しいデータ拡張手法を提案する。
- 提案手法である集中型コピー＆ペーストデータ拡張（CCPDA）は，火災領域の多様性を保ちながらデータセットを拡張し，セグメンテーション性能を向上させる。
- CCPDAは，他のデータ拡張手法と比較して，特に火災クラスのセグメンテーション性能において優れた結果を示すことが数値実験により確認された。
- 本研究は，小規模な手動アノテーションデータセットの課題を緩和し，野生火災セマンティックセグメンテーションの精度向上に貢献する。
Link: https://arxiv.org/abs/2507.06321
MLLMベースのビジュアルリッチな文書理解：手法，課題，そして新たな動向 [cs.CV, cs.AI]目的：ビジュアルリッチな文書理解におけるMLLMの進展と課題
- 文書内の視覚的，テキスト的，構造的要素を自動解釈する需要が高まっているため。
- 既存手法では，複雑な文書構造や多言語対応が課題となっている。
- MLLMを活用し，文書理解の拡張性と信頼性を向上させるための指針を示す。
- MLLMベースのVRDUにおいて，テキスト，視覚，レイアウト特徴の表現と統合に関する技術が注目されている。
- 事前学習，命令チューニング，学習戦略を含む様々なトレーニングパラダイムが研究されている。
- データ不足，複数ページ文書，多言語文書への対応，RAGやエージェントフレームワークの統合が今後の課題である。
Link: https://arxiv.org/abs/2507.09861
SMART-Ship：停泊船分析のための包括的同期マルチモーダルアラインドリモートセンシングターゲットデータセットとベンチマーク [cs.CL, cs.CV]目的：停泊船分析のためのマルチモーダルリモートセンシングターゲットデータセット
- 地球観測において，衛星軌道や撮影条件の制約から，マルチモーダルリモートセンシングデータの重要性が高まっている。
- マルチスケールターゲットと動的な環境により，海洋監視は依然として困難な課題である。
- この研究は，停泊船分析のための高品質なマルチモーダルデータセットを提供し，海洋監視の精度向上を目指す。
- 本研究で開発したSMART-Shipデータセットは，5つのモダリティ（可視光，SAR，パンクロマチック，マルチスペクトル，近赤外）のリモートセンシング画像38,838隻を含む。
- 画像セットは時空間的に整合性が取られており，ポリゴンによる位置情報，詳細なカテゴリ，インスタンスID，変化領域マスクなどのアノテーションが付与されている。
- 5つの基本的なタスクにおけるベンチマークを定義し，代表的な手法との比較により，SMART-Shipデータセットの有効性が検証された。
Link: https://arxiv.org/abs/2508.02384
視覚的テーブルQA：テーブル画像に関する推論のためのオープン・ドメイン・ベンチマーク [cs.CV, cs.CL]目的：テーブル画像からの視覚的推論能力の評価と向上
- 近年の視覚言語モデルにおいて，表のような構造化データの理解は重要な能力である。
- 既存のベンチマークは規模，多様性，推論の深さにおいて限界があり，特にレンダリングされたテーブル画像に対して課題が残る。
- 複雑な表形式データの視覚的推論を評価・改善するための大規模なデータセットを構築し，その有効性を示す。
- Visual-TableQAは，2.5kのLaTeXレンダリングされた表と6kの推論を要するQAペアを含む大規模なデータセットである。
- このデータセットは，複数のLLMによる協調的な生成パイプラインによって構築されており，コストは100ドル以下である。
- Visual-TableQAでファインチューニングされたモデルは，外部ベンチマークにおいて優れた汎化性能を示し，商用モデルを上回る結果が得られた。
Link: https://arxiv.org/abs/2509.07966
フリックフリーな対話型頭部アニメーション：音素誘導された自己回帰モデリングによる [cs.CV]目的：対話型頭部アニメーションにおけるフレーム間のフリッカー軽減
- リアルな対話型頭部アニメーションは，バーチャルコミュニケーションやコンテンツ制作において重要性が増している。
- 近年の拡散モデルでは高画質化が進む一方，フレーム間のフリッカーが依然として課題となっている。
- 音素情報を活用した自己回帰モデルにより，時間的な一貫性を高め，フリッカーを抑制することを目指す。
- 提案手法であるFluentAvatarは，音素表現に基づいた2段階の自己回帰フレームワークを採用した。
- 実験の結果，FluentAvatarはCMLRおよびHDTFデータセットにおいて，FVDおよびBG-Flickerの指標で最先端の性能を達成した。
- 背景分離型フリッカー評価指標BG-Flickerを新たに導入し，より信頼性の高い評価を可能にした。
Link: https://arxiv.org/abs/2509.12052
ORCA：ビジョン言語モデルにおける幻覚と敵対的ロバスト性のためのエージェント的推論フレームワーク [cs.CV, cs.AI, cs.MA]目的：ビジョン言語モデルの事実精度と敵対的ロバスト性の向上
- 大規模なビジョン言語モデルは多岐にわたる応用が期待されるが，その信頼性が課題となっている。
- 既存のビジョン言語モデルは，内部エラーや外部からの攻撃により幻覚を生じやすく，現実世界での利用が制限される。
- 推論時の構造化された推論を通じて，幻覚を軽減し，敵対的攻撃に対する堅牢性を高めることを目指す。
- ORCAは，複数の小規模なビジョンモデルを活用し，Observe-Reason-Critique-Actループを通じて推論を行う。
- 幻覚ベンチマークにおいて，ORCAは既存のビジョン言語モデルの性能を+3.64%から+40.67%向上させた。
- 敵対的摂動下においても，ORCAは平均で+20.11%の精度向上を示し，防御機構との組み合わせで更なる性能向上が確認された。
Link: https://arxiv.org/abs/2509.15435
視覚的推論エージェント：推論時スケーリングによるリモートセンシングにおける堅牢な視覚システム [cs.CV, cs.AI, cs.MA]目的：リモートセンシングにおける堅牢な視覚システムの構築
- リモートセンシングは，災害監視や資源管理など，重要度の高い分野で活用されており，高精度な視覚システムが求められる。
- 既存の単一パス推論では十分な視覚的推論能力が得られず，再学習には膨大な計算資源とデータが必要となる。
- 大規模言語モデルと推論モデルを組み合わせ，自己批判と反復的な改善を通して視覚的推論能力を向上させる。
- VRAは，既存の大規模ビジョン言語モデルを上回り，VRSBench VQAデータセットで最大40.67%の性能向上を達成した。
- 複数の大規模ビジョン言語モデルをVRAに統合することで，単独モデルの精度を52.8%から78.8%に向上させ，エージェント的推論の有効性を示した。
- 推論時の計算コストを増加させることで，より高度な推論能力と精度向上が可能であることが示された。
Link: https://arxiv.org/abs/2509.16343
Text Slider：LoRAアダプターを用いた画像/動画合成における効率的でプラグアンドプレイな連続概念制御 [cs.GR, cs.AI, cs.CV, cs.LG, cs.MM]目的：画像や動画合成における連続的な概念制御手法
- 拡散モデルの発展により画像・動画合成の質が向上。テキストによる自由な制御が求められている。
- 既存手法は学習に時間とGPUメモリを要し，異なるモデルへの適用が困難である。
- 事前学習済みのテキストエンコーダー内の低ランク方向を特定し，効率的な概念制御を実現する。
- Text Sliderは，Concept Sliderと比較して5倍高速，Attribute Controlと比較して47倍高速に学習可能である。
- GPUメモリ使用量はそれぞれ約2倍，4倍削減され，学習パラメータ数も大幅に減少する。
- 入力画像の空間配置と構造を維持しつつ，特定の属性を滑らかかつ連続的に調整できる。
Link: https://arxiv.org/abs/2509.18831
重み付き有向非巡回マルチグラフ上のベクトル値関数に対するメビウス変換とシャプレー値 [cs.CL, cs.GT, cs.DM, cs.LG, math.CO]目的：複雑なシステムにおける高次の構造の特性評価と分解
- 複雑なシステムの理解とモデリングにおいて，高次の相互作用を定量化する数学的ツールが不可欠である。
- 既存のシャプレー値の定義は，格子構造に限定されており，より一般的なグラフ構造には適用できない場合がある。
- ベクトル値関数と一般的な有向非巡回マルチグラフに対するシャプレー値を一意に定義するための新しい公理を提案する。
- メビウス変換とシャプレー値を同時に一般化し，ベクトル値関数と重み付き有向非巡回マルチグラフを扱えるフレームワークを構築した。
- 弱要素とフラット階層という新たな公理を導入することで，シャプレー値を一意に決定する公式を導出した。
- このフレームワークは，既存の格子ベースの定義を特殊なケースとして包含し，これまで適用が困難だった設定にも対応可能である。
Link: https://arxiv.org/abs/2510.05786
大規模マルチモーダルモデルへの新しいスキルの習得方法 [cs.CL, cs.CL, cs.AI, cs.CV, cs.LG]目的：大規模マルチモーダルモデルへの新しいスキルの習得における学習と忘却のトレードオフ
- マルチモーダルモデルは，画像やテキストなど多様な情報を処理できるため，応用範囲が広い。
- 新しいスキルを習得する際に，既存の能力が失われる「忘却」が課題となっている。
- 出力分布の変化を制御することで，忘却を抑制しつつ学習を促進することを試みる。
- 新しいスキルを習得する際，あるスキルでの性能低下が，次のスキルでの学習によって部分的に回復することが確認された。
- 特に，self-attention projection層のみの更新，またはMLP Gate&Upのみの更新が，全LLMのチューニングよりも学習と忘却のバランスに優れていることが示された。
- 出力トークン分布の変化と忘却との相関関係が明らかになり，選択的なチューニングが重要であることが示唆された。
Link: https://arxiv.org/abs/2510.08564
効率的な生成のための潜在空間としての自己教師あり表現の適応 [cs.CV]目的：効率的な生成のための潜在空間
- 画像生成技術は，多様な応用分野において重要であり，その効率性と品質の向上が求められている。
- 従来の潜在空間は高次元になりやすく，学習コストが高いことや，空間の滑らかさが不十分であることが課題である。
- 自己教師あり学習の表現を潜在空間として活用することで，効率的かつ高品質な画像生成を実現することを目指す。
- 本研究では，自己教師ありVision Transformerから得られる連続的な潜在トークンを用いた生成モデルRepTokを提案した。
- RepTokは，トークン埋め込みの微調整と，Flow Matchingを用いた生成デコーダの同時学習により，忠実な画像再構成を可能にする。
- 潜在空間の形状を維持するため，コサイン類似度損失を導入し，滑らかさを保ちながら，競争力のある生成性能を達成した。
Link: https://arxiv.org/abs/2510.14630
ReefNet：詳細なサンゴ礁認識のための大規模データセットとベンチマーク [cs.CV, cs.AI]目的：詳細なサンゴ礁認識のための大規模データセットと評価基準の提供
- サンゴ礁は生態学的，経済的に重要であり，そのモニタリングは海洋環境保護に不可欠である。
- 既存のサンゴ礁データセットは規模が小さく，分類体系が統一されていないため，高精度な分析が困難である。
- 本研究は，信頼性の高いラベルと大規模なデータ量を持つデータセットを構築し，サンゴ礁モニタリングの精度向上を目指す。
- ReefNetは，76のCoralNetソースと紅海からの画像データを統合し，約92万件のサンゴ属レベルのアノテーションを含む大規模データセットである。
- 専門家による検証とフィルタリングにより，39種類のサンゴラベルクラスで92%という高い専門家間一致率を達成し，信頼性の高いベンチマークを確立した。
- 最新のビジョン言語モデルやマルチモーダル大規模言語モデルを用いた実験により，ゼロショットや極めて少ないショットでの性能劣化が明らかになった。
Link: https://arxiv.org/abs/2510.16822
剪定されたアテンションヘッドのアンサンブルによる不確実性認識型効率的Transformer [cs.LG, cs.CV]目的：不確実性定量のための効率的なTransformerアンサンブル
- 安全性重視の環境下で深層ニューラルネットワークを利用する上で，不確実性の定量は不可欠である。
- 既存のアンサンブル法は高性能だが，計算コストが高く，大規模モデルへの適用が難しい。
- アテンションヘッドの剪定による多様性と効率性を両立させ，不確実性定量性能を向上させる。
- Hydra Ensemblesは，アテンションヘッドの剪定とグループ化された全結合層により，計算コストを抑えつつ高い不確実性定量性能を実現した。
- 再学習なしでDeep Ensemblesと同等かそれ以上の性能を示し，特にゼロショット分類において最先端の結果を達成した。
- 単純な剪定手法がキャリブレーションを損なう可能性を示し，Hydra Ensemblesが堅牢な不確実性を維持することを確認した。
Link: https://arxiv.org/abs/2510.18358
決定論的世界の複製：長期的予測における潜在幾何学の重要な役割 [cs.LG, cs.AI, cs.CV]目的：決定論的3D世界の完全な複製
- 複雑な環境下での知的な行動には，環境の進化をシミュレートするワールドモデルが不可欠である。
- 既存のワールドモデルはランダムな環境生成に偏っており，決定論的な環境の高精度なモデリングが不足している。
- 潜在表現の幾何学的構造を改善し，長期的予測の精度向上を目指す。
- 診断実験により，高精度な複製が可能であり，長期的な予測精度のボトルネックはダイナミクスモデルではなく，潜在表現の幾何学的構造であることが定量的に示された。
- 時間的コントラスト学習を幾何学的正則化として適用することで，潜在空間が基礎となる物理状態多様体をより良く反映するようになり，安定したワールドモデリングのための強力な誘導バイアスとして機能することが示された。
- GRWM（幾何学的に正則化されたワールドモデル）は，表現の質に焦点を当てることで，ワールドモデルの精度を向上させるシンプルかつ強力なパイプラインを提供する。
Link: https://arxiv.org/abs/2510.26782
ジェスチャー生成における信頼性の高い人間評価に向けて：コミュニティ主導の最先端ベンチマークからの考察 [cs.CL, cs.HC, cs.CV, cs.GR, cs.HC]目的：ジェスチャー生成の人間評価に関する標準化と改善
- ジェスチャー生成は，バーチャルリアリティやヒューマンコンピュータインタラクションにおいて重要な役割を果たす。
- 人間評価の標準化が不十分であり，実験設定に問題が見られるため，手法間の比較が困難である。
- 客観的な評価プロトコルを確立し，既存手法の性能を比較・分析することで，今後の発展に貢献する。
- BEAT2データセットを用いた大規模なクラウドソーシング評価を実施し，6つのジェスチャー生成モデルを比較した。
- モーションのリアリズムは飽和状態にあり，古いモデルと新しいモデルの間に大きな差は認められなかった。
- 既存研究で報告されている高い音声-ジェスチャーの整合性は，厳密な評価下では確認されなかった。
Link: https://arxiv.org/abs/2511.01233
ピクセルかポジションか？グループ活動認識におけるモダリティのベンチマーク [cs.CL, cs.CV]目的：グループ活動認識におけるピクセル（動画）とポジション（トラッキング）のどちらがより有効かを評価すること。
- 監視や屋内チームスポーツなど，グループ活動認識は重要な研究分野であり，社会における応用が期待されている。
- 動画モダリティは研究が進んでいる一方，よりコンパクトなトラッキングデータを用いた研究は遅れている。
- 同一のグループ活動に対して，動画とトラッキングデータを比較可能な形で提供するベンチマークを構築し，両者の優位性を明らかにする。
- サッカーワールドカップ2022の試合データから構築したSoccerNet-GARデータセットを用いて評価を行った。
- トラッキングに基づくモデルは，動画ベースのモデルよりも高い認識精度（77.8% vs. 60.9%）を達成した。
- トラッキングモデルは，動画モデルと比較してGPU時間とパラメータ数を大幅に削減しつつ，高い性能を実現した。
Link: https://arxiv.org/abs/2511.12606
PhysMorph-GS：微分可能な物理シミュレーションによるレンダー駆動の体積モーフィング [cs.GR]目的：レンダー駆動の体積モーフィング手法
- 物理シミュレーションは自然な運動生成に有効だが，形状の制御は困難であった。
- 物理ベースの手法では詳細な形状再現が難しく，画像に基づく手法では不安定になりやすい。
- 物理シミュレーションとレンダーによる視覚的誘導を組み合わせ，安定かつ詳細なモーフィングを実現する。
- PhysMorph-GSは，変形勾配を通じてレンダーの勾配を制御し，物理シミュレーションに視覚的誘導を注入する。
- 提案手法は，シルエットエラーを最大49.9%削減し，特に薄い特徴を持つモデルで大きな改善が見られた。
- 物理ベースのモーフィングは，形状のペア間の補間とは異なる，ターゲット決定のアトラクターに向かう挙動を示す。
Link: https://arxiv.org/abs/2511.16988
Mammo-FM：乳房画像診断，予後予測，およびレポート作成のための領域特化型基盤モデル [cs.CV]目的：乳房画像診断，病理学的局在化，構造化レポート生成，および癌リスク予後予測のための統合的基盤モデル
- 乳癌は世界中の女性における主要な死因の一つであり，早期発見と正確な診断が重要である。
- 既存の汎用的な基盤モデルでは，乳房画像特有のタスクにおいて十分な性能を発揮できない場合がある。
- 乳房画像診断における一連の臨床タスクを効率的に，かつ高精度に解決すること。
- Mammo-FMは，14万件を超える乳房画像データセットで事前学習された初の乳房画像特化型基盤モデルである。
- Mammo-FMは，汎用的な基盤モデルよりも少ないパラメータ数で，複数のベンチマークにおいて優れた性能を示した。
- 画像とテキスト間の整合性により，視覚的およびテキストによる解釈可能性を提供し，臨床での透明性と監査可能性を向上させる。
Link: https://arxiv.org/abs/2512.00198
現実的な手書き複数桁数字認識の課題 [cs.CV, cs.LG]目的：現実的な手書き複数桁数字認識における課題
- 機械学習研究のモチベーションとして，長年手書き文字認識が活用されてきた。
- 既存手法は単一桁認識に偏り，複数桁の連続認識では性能が低下しやすい。
- 現実的な手書きデータを用いた複数桁数字認識のベンチマークを構築し，課題を明確化する。
- 単一桁認識で高い性能を示しても，複数桁の数字認識では性能が低下することが確認された。
- 実際の利用場面を考慮した評価指標を用いることで，より実用的な性能評価が可能となる。
- タスク固有の知識を活用することで，単一桁認識の限界を超える性能向上が期待される。
Link: https://arxiv.org/abs/2512.00676
PhotoFramer：マルチモーダルな画像構図指示 [cs.CV]目的：画像構図改善のための指示生成
- 写真撮影において構図は重要だが，多くの利用者が良好な構図で撮影するのに苦労している。
- 構図の知識が不足しているため，魅力的な写真を撮影することが困難になっている。
- この研究は，初心者でも容易に構図を改善するための支援システムを開発する。
- PhotoFramerは，まず自然言語で構図改善方法を説明し，次に改善された画像例を生成する。
- 大規模なデータセットを用いてモデルを学習し，構図指示を「シフト」「ズームイン」「視点変更」の階層構造に整理した。
- テキストによる指示と画像例を組み合わせることで，構図の改善効果が向上することが示された。
Link: https://arxiv.org/abs/2512.00993
音声LLMにおける選択的聴覚による傍聴者プライバシー保護 [cs.CL, cs.SD, cs.AI]目的：音声LLMにおける傍聴者プライバシー保護の評価と改善
- 音声LLMの利用拡大に伴い，プライバシー保護の重要性が高まっている。
- 既存の評価基準や防御策では，意図しない傍聴者の音声情報の漏洩リスクに対応できていない。
- 傍聴者の音声情報を処理・開示しない選択的聴覚能力を評価・向上させることを目指す。
- SH-Benchという新たなベンチマークを開発し，音声LLMの選択的聴覚能力を評価した結果，既存モデルに傍聴者プライバシーの漏洩が認められた。
- Selective Efficacy (SE)という新たな指標を提案し，多話者理解と傍聴者プライバシー保護の両立を評価した。
- Bystander Privacy Fine-Tuning (BPFT)という訓練パイプラインを開発し，Gemini 2.5 Proと比較して，傍聴者精度を47%向上させ，SEを16%向上させた。
Link: https://arxiv.org/abs/2512.06380
再帰型ビデオマスク自動符号化器 [cs.CV]目的：ビデオ表現学習の新たな手法
- ビデオデータ解析は，行動認識や物体追跡など，多様な応用分野で不可欠である。
- 既存のビデオモデルは，計算コストが高く，長時間の依存関係の学習が困難である。
- 効率的かつ高精度なビデオ表現学習を実現し，計算コストを削減することを目指す。
- RVMは，ビデオレベルタスク（行動分類，点・物体追跡）において，最先端のモデル（VideoMAE, V-JEPA）と競合する性能を示す。
- RVMは，画像モデル（DINOv2）に匹敵または上回る性能を，幾何学的・高密度空間特徴を必要とするタスクで実現する。
- RVMは，知識蒸留を必要とせず，他のビデオマスク自動符号化器と比較して，最大30倍のパラメータ効率を達成する。
Link: https://arxiv.org/abs/2512.13684
MoonSeg3R：再構成的基礎知識を用いた単眼オンラインゼロショット3Dセグメンテーション [cs.NI, cs.CV]目的：単眼によるオンラインゼロショット3Dインスタンスセグメンテーションの実現
- 3Dシーン理解は，ロボティクスや拡張現実などに応用され，重要性が増している。
- 既存手法はRGB-Dデータに依存しており，単眼でのリアルタイム処理が困難であった。
- 単眼RGBストリームからの信頼性の高い幾何学的事前知識を活用し，この課題を解決する。
- MoonSeg3Rは，2Dセグメンテーションマスクを識別可能な3Dクエリに変換する自己教師ありクエリ洗練モジュールを導入した。
- 3Dクエリインデックスメモリにより，時間的一貫性を確保し，文脈的なクエリを検索することで性能を向上させた。
- CUT3Rからの状態分布トークンはマスクID記述子として機能し，フレーム間融合を強化する。
Link: https://arxiv.org/abs/2512.15577
意味と幾何学の架け橋：光学リモートセンシングにおける推論セグメンテーションのための分離型LVLM-SAMフレームワーク [cs.CV]目的：光学リモートセンシングにおける推論セグメンテーションのための分離型フレームワークの開発
- リモートセンシングは，地球規模の環境変化の監視や災害対応など，多岐にわたる分野で不可欠な役割を担う。
- 既存の手法では，言語的推論とピクセル予測が密結合しており，幾何学的な正確性や汎化性能に課題があった。
- 抽象的な意味的推論を空間的に根拠のある行動へと変換し，セグメンテーションの性能向上を目指す。
- 提案手法Think2Seg-RSは，EarthReasonデータセットにおいて，既存の最先端手法を上回る性能を達成した。
- テスト時のcIoUは75.60%，gIoUは73.36%に達し，最も強力なベースラインと比較してそれぞれ6.47%，2.40%の絶対的な改善が見られた。
- セマンティックレベルのタスクでは，より小型のセグメンターが，テクスチャの過剰セグメンテーションを抑制することで優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2512.19302
マルチエージェント適応メカニズム設計 [cs.NI, cs.MA, cs.CL, cs.GT, cs.AI, cs.LG, cs.MA, econ.TH]目的：合理的なエージェントからの真実な報告の引き出しと費用最適化
- 経済学やゲーム理論において，インセンティブ設計は資源配分の効率化に不可欠である。
- エージェントの信念が不明な状況下では，真実を保証しつつ最適なメカニズム設計が困難である。
- 未知のインセンティブ制約を学習しながら，真実性を維持し最適な後悔を達成する適応メカニズムの構築。
- 提案手法DRAMは，分布ロバスト最適化とオンライン学習を組み合わせ，真実性と費用効率を両立する。
- DRAMは高い確率で真実な報告を保証し，累積後悔$\tilde{O}(\sqrt{T})$を達成する。
- この後悔率は，適応メカニズムの理論的下限と一致する。
Link: https://arxiv.org/abs/2512.21794
医療ハイパースペクトル画像におけるスペクトル・空間依存性と多重スケール特徴を利用した敵対的攻撃 [cs.CL, cs.CL, cs.CV, cs.AI]目的：医療ハイパースペクトル画像における敵対的攻撃手法の開発
- 医療分野において，病気の診断精度向上に貢献する技術として，組織のスペクトル・空間情報を活用する医療ハイパースペクトル画像が注目されている。
- 深層学習の精度向上に伴い，敵対的攻撃に対する脆弱性が課題となっている。特に医療画像では，信頼性が重要であり，その脆弱性は臨床的に許容できない。
- 本研究では，医療ハイパースペクトル画像の特性を考慮した敵対的攻撃手法を開発し，より効果的な攻撃とロバスト性向上のためのデータセットを構築する。
- 提案手法は，既存手法と比較して，脳および胆管データセットにおいて，重要な腫瘍領域における病変関連分類性能をより効果的に低下させることを示した。
- 生成される摂動の大きさは小さく，臨床的に妥当な敵対的攻撃が可能であることが確認された。
- 本研究は，現在の医療ハイパースペクトル画像モデルのロバスト性の弱点を明らかにし，標的を絞った防御戦略の開発に貢献する。
Link: https://arxiv.org/abs/2601.07056
ViDoRe V3：複雑な実世界シナリオにおける検索拡張生成の包括的評価 [cs.AI, cs.CV]目的：複雑な実世界シナリオにおける検索拡張生成の評価
- 情報検索と自然言語処理の融合が，より高度な情報活用を可能にするため重要である。
- 既存の評価指標は，視覚的要素や複数文書からの情報統合といった複雑なRAGの課題に対応できていない。
- 視覚的に豊富な文書群に対する多様なクエリに対応可能な，包括的なRAGベンチマークを開発すること。
- ViDoRe v3は，10の専門分野にわたる約26,000ページから構成される多言語対応のマルチモーダルRAGベンチマークである。
- 視覚的な検索器はテキスト検索器よりも優れており，後続の相互作用モデルとテキスト再ランキングは性能を大幅に向上させる。
- 現状のモデルは，非テキスト要素，オープンエンドなクエリ，詳細な視覚的根拠付けにおいて依然として課題を抱えている。
Link: https://arxiv.org/abs/2601.08620
KG-ViP：マルチモーダルLLMにおける知識の根拠付けと視覚的知覚の架橋 [cs.CV]目的：視覚的質問応答のためのマルチモーダルLLMにおける知識の根拠付けと視覚的知覚の統合
- 視覚的質問応答は，AIの視覚理解と知識獲得能力を測る上で重要である。
- 既存のマルチモーダルLLMは，知識の誤りや詳細な視覚情報の認識不足に課題がある。
- 知識グラフとシーングラフを融合することで，これらの課題を解決し，より信頼性の高い推論を目指す。
- 提案手法KG-ViPは，シーングラフと知識グラフを統合する新しいパイプラインを採用している。
- KG-ViPは，FVQA 2.0+およびMVQAベンチマークにおいて，既存のVQA手法を大幅に上回る性能を示した。
- クエリをセマンティックな橋渡しとして利用し，両グラフを段階的に統合することで，構造化されたコンテキストを生成する。
Link: https://arxiv.org/abs/2601.11632
困難な北極環境における野生動物の検出と数推定のための弱学習フレームワーク：カリブー (Rangifer tarandus) を対象とした事例研究 [cs.CL, cs.CV]目的：北極圏におけるカリブー個体数の検出と数推定手法の開発
- 北極圏のカリブー個体数は減少しており，効果的な保護政策を策定するためには正確なモニタリングが不可欠である。
- 画像からの手動解釈は労力がかかり，誤りが生じやすい。自動化された信頼性の高い検出手法が求められている。
- 背景の多様性，クラス不均衡，ターゲットの小型化・遮蔽，密度とスケールの変動といった課題に対処し，よりロバストな検出モデルを構築する。
- 提案手法では，検出ネットワークのアーキテクチャに基づいた弱学習によるパッチレベルでの事前学習を行い，検出モデルのロバスト性を向上させている。
- 事前学習済みネットワークは，2017年と2019年のテストセットにおいて高い精度を達成し (F1: 93.7%/92.6%)，手動カウントを支援する動物生息地のマッピングを可能にした。
- 検出への転移学習においても，ImageNetで事前学習した場合と比較して，正パッチ (F1: 92.6%/93.5% vs. 89.3%/88.6%)，フル画像数推定 (F1: 95.5%/93.3% vs. 91.5%/90.4%) の両方で一貫した改善が見られた。
Link: https://arxiv.org/abs/2601.18891
Lingua-SafetyBench：多言語視覚言語モデルの安全性評価のためのベンチマーク [cs.CV]目的：多言語かつマルチモーダルの脅威に対する視覚言語大規模モデルの安全性評価
- 視覚言語モデルは多様な応用が期待されるが，その安全性確保は重要な課題である。
- 既存のベンチマークは，多言語またはマルチモーダルのいずれかに偏っており，両者を組み合わせた評価が不足している。
- 多言語・マルチモーダル環境下での潜在的なリスクを詳細に分析し，モデルの脆弱性を明らかにすること。
- Lingua-SafetyBenchは，10言語にわたる100,440組の有害な画像-テキストペアから構成される包括的なベンチマークである。
- 非高リソース言語や非ラテン文字を使用した場合の脅威がより大きいことが示された。
- 高リソース言語では画像に起因するリスク，非高リソース言語ではテキストに起因するリスクが安全性に大きく影響することが明らかになった。
Link: https://arxiv.org/abs/2601.22737
MiTA Attention：上位k個活性化の混合による効率的な高速重みスケーリング [cs.CL, cs.IR, cs.LG, cs.CV]目的：TransformerにおけるAttention機構の効率化
- Transformerは自然言語処理や画像認識で広く用いられ，その性能向上は重要である。
- Attention機構の計算コストは系列長に比例するため，長系列への適用が困難である。
- Attention機構の高速化とメモリ使用量の削減を目指す。
- MiTA Attentionは，ランドマーククエリを用いてAttention機構を圧縮し，効率化を図る。
- 上位k個の活性化されたKey-Valueペアを収集することで，柔軟な専門家（expert）を構築する。
- 画像認識タスクでの予備実験により，MiTA Attentionの有効性が示唆された。
Link: https://arxiv.org/abs/2602.01219
テキスト画像生成のための適応的プロンプト抽出 [cs.CL, cs.HC, cs.AI, cs.CV]目的：テキスト画像生成におけるユーザー意図との整合性向上
- 画像生成技術の発展は，創造性や表現の幅を広げる上で重要である。
- ユーザーは曖昧な指示を与えがちで，モデル特有の癖に悩まされることが多い。
- ユーザーが詳細な記述なしに意図を明確化できるよう支援する。
- 適応的プロンプト抽出(APE)は，視覚的な質問を通じてユーザーのプロンプト改善を支援する。
- APEは，潜在的なユーザー意図を解釈可能な特徴要件として表現し，効果的なプロンプトを生成する。
- IDEA-BenchとDesignBenchでの評価により，APEは高い整合性と効率性を実現することが示された。
Link: https://arxiv.org/abs/2602.04713