arXiv雑要約
画像・音声 - 2025/12/22 公開
V-Agent:視覚言語モデルを用いたインタラクティブな動画検索システム [cs.CV, cs.AI, cs.IR, cs.MA]目的:視覚言語モデルを用いたインタラクティブな動画検索
- 動画データ利用の拡大に伴い,効率的な検索技術の重要性が高まっている。
- 従来のテキストベース検索では,動画の視覚的・聴覚的情報を十分に活用できていない。
- 視覚言語モデルを活用し,動画の内容をより適切に理解する検索システムの構築を目指す。
- 提案システムV-Agentは,視覚情報と音声情報を統合的に解析することで,動画検索の精度を向上させた。
- マルチエージェント構造により,ユーザの意図を理解し,対話的に検索結果を洗練することが可能となった。
- MultiVENT 2.0ベンチマークにおいて,ゼロショット学習で最先端の性能を達成し,実用的な応用が期待される。
深層学習モデルの比較:ポルノコンテンツ識別におけるCNNとVGG-16 [cs.CV]目的:ポルノコンテンツの識別システム開発
- インターネット上の有害コンテンツ増加により,迅速な識別技術が求められている。
- VPN等による規制回避により,ブロックされたコンテンツへのアクセスが困難な状況がある。
- 深層学習を用いた,より迅速かつ正確なポルノコンテンツ識別手法の確立。
- CNNモデルは,VGG-16モデルと比較して,ポルノコンテンツの検出においてより効果的であることが示された。
- CNNモデルは,エポック数50,学習率0.001で,94.87%の検出精度を達成した。
- 本研究の結果は,ポルノコンテンツの迅速かつ正確な識別システムの開発に貢献する。
AVM:刺激と個体を超えた視覚皮質の構造保存型ニューラル応答モデリングへ [cs.CV]目的:視覚皮質における構造保存型ニューラル応答モデリングの実現
- 脳の視覚メカニズム解明は,神経科学とAI分野の発展に不可欠である。
- 従来の深層学習モデルは,安定した視覚符号化と条件特異的な適応を分離できず,汎化性能が課題である。
- 刺激や個体間の変化に対する汎化性能を高める,適応的なニューラルモデリング手法の開発。
- AVMは,Vision Transformerエンコーダを固定し,モジュラーな変調パスで条件依存的な適応を実現することで,V1Tモデルを約2%上回る予測相関を示した。
- 特に,クロスデータセット適応設定において,説明分散(FEVE)が9.1%向上し,優れた汎化性能を実証した。
- AVMは,生物学的・実験的条件における適応的なニューラルモデリングの統一的なフレームワークを提供し,構造的制約下でのスケーラブルな解決策となりうる。
樹種分類の高度化:TLS点群投影へのYOLOv8と説明可能なAIの応用から得られた知見 [cs.CV, cs.AI]目的:樹種分類の精度向上と,その判断根拠の解明
- 森林リモートセンシングにおいて,樹種の正確な識別は長年の課題であり,森林管理や資源評価に不可欠である。
- 近年,TLSや深層学習などの技術が導入されているが,分類の判断プロセスが不透明であり,信頼性に課題が残る。
- TLS点群投影における特徴と,YOLOv8による樹種識別との関係を解明し,判断根拠を明らかにすることを目指す。
- YOLOv8モデルを用いた検証の結果,平均精度96%(SD = 0.24%)を達成し,高い分類性能が確認された。
- Finer-CAM分析から,モデルは主にTLS投影における樹冠の特徴に基づいて樹種を識別することが示された。
- 特に,ヨーロッパアカマツ,スコットマツ,アメリカカラマツの識別には,幹の特徴がより頻繁に用いられていることが明らかになった。
照明,カメラ,一貫性:キャラクター安定型AI動画ストーリーのための多段階パイプライン [cs.CV, cs.AI]目的:キャラクターの一貫性を保った長編の動画ストーリー生成手法
- 動画生成AIの発展は,エンターテイメントや教育など多岐にわたる分野への応用に期待されている。
- 現在のテキストから動画を生成するAIでは,長編動画におけるキャラクターの一貫性を維持することが困難である。
- 本研究は,キャラクターの視覚的特徴を固定することで,動画全体での一貫性を高めることを目指す。
- 提案手法では,まず大規模言語モデルを用いて詳細な制作スクリプトを生成する。
- 次に,スクリプトに基づき,テキストから画像を生成するモデルで各キャラクターの視覚的な基盤を作成する。
- キャラクターの視覚的特徴を固定する機構を取り除くと,キャラクターの一貫性スコアが大幅に低下することから,視覚的特徴の重要性が確認された。
- インドと西洋をテーマにした生成において,被写体の一貫性や動きの度合いに文化的な偏りが見られた。
情報理論的圧縮による適応型離散動画トークナイザー:InfoTok [cs.CV, cs.AI]目的:長動画シーケンス処理のための,正確かつ効率的な離散動画トークナイゼーション
- 動画データは情報量が膨大であり,効率的な処理が求められるため,動画表現の圧縮技術が重要である。
- 既存のトークナイザーは固定レートで圧縮するため,冗長性や情報損失が生じ,動画の複雑さに対応できない。
- 動画の情報密度に応じてトークン数を調整し,より効率的かつ正確な動画表現を可能にすることを目指す。
- 本研究では,情報理論に基づいた適応型動画トークナイゼーションフレームワークInfoTokを提案した。
- 既存手法が最適でないことを理論的に証明し,最適な表現長に近づく新たなELBOに基づくアルゴリズムを開発した。
- 実験結果から,InfoTokはトークン数を20%削減しつつ,性能を維持,あるいは向上させることが示された。
Endo-SemiS:内視鏡ビデオにおけるロバストな半教師あり画像セグメンテーションに向けて [cs.CV]目的:内視鏡ビデオフレームの信頼性の高いセグメンテーション
- 内視鏡検査は低侵襲で重要な診断・治療手段であり,正確な画像認識が不可欠である。
- 内視鏡画像のアノテーションは専門知識が必要であり,コストと時間がかかる。
- 限定的なアノテーションデータでも高精度なセグメンテーションを実現すること。
- Endo-SemiSは,2つのネットワーク間の相互監督,不確実性に基づいた疑似ラベル,共同疑似ラベル監督,相互学習の4つの戦略を用いる。
- また,内視鏡ビデオの空間的・時間的情報を活用する補正ネットワークを導入する。
- 2つの臨床応用(尿管鏡下結石レーザー砕石,大腸内視鏡下ポリープスクリーニング)において,最先端手法と比較して優れた性能を示した。
長尺動画における全モーダル推論とツール利用のためのベンチマークおよびエージェントフレームワーク [cs.CV]目的:長尺動画における全モーダル推論とツール利用の評価基準およびエージェントシステムの開発
- 動画,音声,環境音を統合した長尺動画理解は,現実世界でのAI応用の鍵となる。
- 既存のベンチマークは,動画の長さまたはモーダル数の多さのいずれかに偏っており,両方を網羅しているものが少ない。
- 長尺動画理解の困難性を明らかにし,大規模言語モデル(LLM)の改善を促進するための基準を提供する。
- 新しいベンチマークLongShOTBenchは,意図に基づいた質問,複数回の対話,そしてマルチモーダル推論とツール利用を可能にする。
- 最先端のLLM(Gemini-2.5-Flash)でもLongShOTBenchの性能は52.95%であり,オープンソースモデルは30%を下回る。
- 開発したエージェントシステムLongShOTAgentは44.66%の性能を示し,長尺動画理解の難しさを浮き彫りにした。
4D-RGPT:知覚的蒸留による領域レベルの4次元理解へ [cs.CV]目的:4次元表現の獲得と,領域レベルのプロンプティングに対応した多Modal LLM
- マルチモーダルLLMの発展は目覚ましいが,3次元構造と時間的変化の理解は未だ課題である。
- 既存のベンチマークは静的なシーンに偏っており,領域レベルのプロンプティングを扱えない。
- 4次元表現を効率的に学習し,動的な3次元シーンにおける領域レベルの質問応答を可能にすること。
- 提案手法4D-RGPTは,既存の4次元VQAベンチマークと新設のR4D-Benchにおいて顕著な性能向上を示した。
- 知覚的4次元蒸留(P4D)により,専門モデルの4次元表現を4D-RGPTへ効率的に転移することに成功した。
- R4D-Benchは,領域レベルのプロンプティングに対応した,奥行き情報を考慮した動的シーンのベンチマークとして構築された。
FORMSpoT:樹木レベルの国規模森林モニタリング10年間 [cs.IR, cs.HC, cs.CV]目的:樹木レベルでの森林変化を国規模でモニタリングするためのツール
- 森林は気候変動対策において重要な役割を担うため,その状態を正確に把握する必要がある。
- 既存の衛星ベースの森林変化検出システムは空間解像度が粗く,個々の樹木レベルの変化を捉えられない。
- 高解像度衛星データを用いて,樹木レベルでの森林変化を検出し,森林管理や炭素収支評価に貢献すること。
- FORMSpoTは,フランス本土の森林キャノピー高さを1.5m解像度で10年間マッピングし,年間の森林撹乱ポリゴンを生成する。
- FORMSpoT-$\Delta$は,既存の撹乱検出製品を大幅に上回り,特に山地森林において高い精度(F1スコア0.44)を示した。
- 本研究は,高解像度衛星ミッションの維持と,DINAMISのようなオープンデータイニシアチブの重要性を強調する。
無限ホモグラフィー:カメラ制御ビデオ生成のための堅牢な条件付け [cs.CV]目的:カメラ制御ビデオ生成における忠実性と視点の一貫性の向上
- 動画生成技術は映像制作において創造的な可能性を広げている。
- カメラ制御ビデオ生成では,指定されたカメラ姿勢への忠実性と,限られた観察からの隠れた形状の推論が課題である。
- 不正確な深度推定や学習データの多様性不足といった既存手法の課題を克服すること。
- InfCamは深度推定を必要とせず,ビデオ拡散モデルの潜在空間に3Dカメラ回転を直接エンコードする無限ホモグラフィーを導入した。
- 実験の結果,InfCamはカメラ姿勢の正確性と視覚的な忠実度において既存手法を上回り,合成データから実データへの汎化性能も示した。
- データ拡張パイプラインにより,多様な軌道と焦点距離を持つシーケンスを生成し,学習データの多様性を高めている。
合成画像有用性の解釈可能な類似性 [cs.CV]目的:合成画像と実画像の類似性の定量的な評価
- 医療画像診断支援システムの発展に,大規模な学習データが必要不可欠である。
- 合成画像と実画像の類似性を客観的に評価する方法が確立されていない。
- 臨床的に重要な画像特徴に基づいた有用性類似性を評価する指標を開発する。
- 提案手法IUSを用いることで,合成画像の選択精度が向上し,分類性能が最大54.6%改善された。
- IUSは,なぜ特定の合成データセットが有用であるかを説明できる解釈可能性を持つ。
- 内視鏡,皮膚鏡,眼底画像に加え,X線や超音波画像など,様々な医療画像モダリティで有効性が確認された。
DGH:動的ガウスヘア [cs.CV]目的:フォトリアリスティックな動的ヘアの生成手法
- デジタルヒューマンモデリングにおいて,リアルな髪の表現は重要な課題である。
- 既存手法は,多様なヘアスタイルや動きに対応するため,手動調整や高コストな計算を必要とする。
- データ駆動的にヘアのダイナミクスと外観を学習し,多様なスタイルとモーションへの対応を目指す。
- 提案手法DGHは,粗いレベルから細かいレベルへとヘアの動きを学習するモデルを導入した。
- ストランドをガイドとした最適化モジュールにより,動的な3Dガウス表現でヘアの外観を学習し,微分可能なレンダリングを可能にした。
- DGHはデータ量に依存してスケールし,物理ベースシミュレーションに代わるスケーラブルな代替手段を提供する。
Transformerアーキテクチャを用いた海事レーダーデータの予測モデリング [cs.CV]目的:海事レーダーデータの予測モデリング手法
- 船舶の自律運航実現には,周辺環境の変化を予測する機能が不可欠である。
- レーダーデータの予測は,悪天候下でも航行を支援する上で重要だが,Transformerの適用例は存在しない。
- レーダーデータの予測モデリングにTransformerを適用することで,自律運航の信頼性向上を目指す。
- 本調査では,海事レーダーデータの予測モデリングに関する既存研究を体系的にレビューした。
- 特に,時空間シーケンス予測のためのTransformerアーキテクチャに焦点を当て,データタイプ,アーキテクチャ,予測範囲に基づいて分析した。
- ソナーデータに対するTransformerベースのフレーム予測研究は存在するものの,海事レーダーデータに対する同様の研究は未だ行われていないことが示された。
SDUM:汎用MRI再構成のためのスケーラブルな深層アンローリングモデル [cs.RO, cs.CV, cs.AI]目的:多様なMRIプロトコルに対応可能な汎用的な再構成手法の開発
- 臨床MRIは多様なプロトコルを包含し,高度な画像診断に不可欠である。
- 既存の深層学習再構成はプロトコルに特化しており,汎用性に課題がある。
- 異なるプロトコルへの適応性を高め,実用的なMRI再構成を実現する。
- SDUMは,パラメータ数と再構成品質の間に高い相関関係を示すスケーラビリティを有している。
- 単一のSDUMモデルが,複数のデータセットで最先端の結果を達成し,特定のタスクへの追加学習は不要である。
- 各コンポーネントの消去実験により,提案手法の有効性が確認された。
プロポーズ:カノニカルUVマップによるペアなし全身肖像画合成 [cs.HC, cs.CY, cs.CV]目的:ペアなしデータを用いた全身肖像画のポーズ変換と品質向上
- 写真の品質は個人の印象に大きく影響し,SNS等での自己表現において重要性が増している。
- 高品質なプロの写真を個人が容易に作成できない現状があり,ポーズや照明の制約がある。
- ペアデータが少ない状況下で,個人の特徴を維持しつつ,ポーズ変換と品質向上を実現する。
- 提案手法は,入力画像と顔をカノニカルUV空間に変換し,オクルージョンモデリングと新規視点合成を行うことで,高品質なポーズ変換を実現した。
- 既存のペアなしデータセットを活用することで,多様な個人に対応可能な肖像画合成を可能にした。
- マルチ画像ファインチューニングにより,出力画像のパーソナライズを行い,より自然な結果を得ている。
編集可能な多層ドキュメントに対するテキスト条件付き背景生成 [cs.HC, cs.CV]目的:多ページ編集とテーマの一貫性を備えたドキュメント中心の背景生成
- ドキュメント作成における効率性とデザイン性の向上が求められている
- 背景生成において,テキストの可読性と美的調和を両立させることが困難である
- 自動化された可読性最適化と一貫性のある多ページ生成を実現すること
- 拡散モデルにおける潜在的なマスキングにより,テキスト領域の可読性を維持しながら背景生成を実現した
- 自動可読性最適化(ARO)により,テキスト領域の背景に半透明の形状を自動的に配置し,WCAG 2.2のコントラスト基準を満たした
- ページ要約と指示プロセスを用いて多ページの一貫性を維持し,ドキュメント全体の視覚的なモチーフの進化を保証した
PhysFire-WM:火災延焼ダイナミクスのエミュレーションのための物理情報に基づいたワールドモデル [cs.CV]目的:火災延焼ダイナミクスのエミュレーション
- 緊急時対応において,精緻な火災予測は極めて重要である。
- 既存手法は二値マスクモデリングに限定され,火災の複雑な挙動を捉えられない。
- 物理シミュレータからの事前知識を組み込み,精度の高い火災予測を実現する。
- 本研究では,物理シミュレータからの構造化された事前知識をエンコードすることで,物理的な不整合を修正するPhysFire-WMを提案する。
- マスクベースモデリングの情報不足に対処するため,クロス・タスク協調学習(CC-Train)戦略を導入し,熱放射ダイナミクスと空間境界の区別を統合する。
- 実験の結果,PhysFire-WMは火災延焼予測において高い精度を示し,物理的な事前知識とクロス・タスク協調学習の重要性が示された。
InstructDubber:指示に基づくゼロショット映画ダビングのためのアライメント [cs.SD]目的:ゼロショット映画ダビングのための,指示に基づくアライメント手法
- 映画ダビングは,キャラクターの視覚的表現と調和した自然な音声合成を可能にする重要な技術である。
- 既存のアライメント手法は,複雑な前処理や視覚ドメインへの汎化性の低さといった課題を抱えている。
- InstructDubberは,視覚ドメインに依存せず,高品質なアライメントとダビングを実現することを目指す。
- InstructDubberは,マルチモーダル大規模言語モデルを用いて,動画,スクリプト,プロンプトから自然なダビング指示を生成する。
- 指示に基づいた期間蒸留モジュールと感情キャリブレーションモジュールにより,リップシンクと感情・プロソディのアライメントを実現する。
- 3つの主要ベンチマークにおける実験の結果,InstructDubberは最先端手法を上回る性能を示した。
合成画像は効果的かつ効率的なクラスプロトタイプとなり得るか [cs.NI, cs.CV]目的:ゼロショット画像分類におけるクラスプロトタイプの活用
- 画像とテキストの理解に基づくAI技術は,多様な応用分野で重要性を増している。
- 既存手法は高品質な画像-テキストペアに依存し,コストと精度が課題となっていた。
- ラベルのみからプロトタイプを生成し,データ収集コストを削減し軽量化を図る。
- LLMを用いてクラス固有のプロンプトを生成し,拡散モデルで参照画像を合成するフレームワークLGCLIPを提案した。
- LGCLIPは,画像エンコーダーのみを使用することで軽量かつ効率的な分類を実現している。
- 実験結果は,LGCLIPの有効性とゼロショット分類タスクにおける高い性能を実証している。
ABE-CLIP:合成画像-テキストマッチングのための属性結合強化(トレーニングフリー) [cs.CV, cs.IR]目的:合成画像-テキストマッチングにおける属性と対象物の結合の強化
- 画像とテキストのマルチモーダルな理解は,多様な応用を可能にする重要な研究分野である。
- CLIPモデルは全体的な表現に偏りがちで,属性と対象物の詳細な意味的関連性の把握が課題であった。
- 追加の学習や負例サンプリングに頼らず,属性と対象物の結合を強化し,汎化性能を高めることを目指す。
- ABE-CLIPは,テキスト中のオブジェクトと属性のトークン埋め込みを精緻化するSemantic Refinement Mechanismを導入した。
- Local Token-Patch Alignment戦略により,精緻化されたテキストトークンと関連する画像パッチ間の類似度を計算し,局所的な類似度を集約することで,画像-テキストの類似度を算出する。
- 複数のデータセットにおいて,ABE-CLIPは既存の学習ベースの手法を上回る属性-オブジェクト結合性能を示すことが確認された。
都市における緑の認識:人口統計と性格特性の多都市比較 [cs.RO, cs.CV]目的:都市の緑の認識に関する人間,地理,空間的要因の分析
- 都市計画において,緑地は気候変動対策や住民の健康に不可欠であるため,その評価が重要である。
- 客観的な緑の量と,住民の緑に対する主観的な認識との間に乖離が存在し,その原因が不明である。
- 客観的指標と主観的評価の乖離を,人口統計学的,性格的,地理的要因から解明することを試みる。
- 客観的な緑の量と主観的な認識の乖離は,世界各地で同程度に認められた。
- 人口統計や性格特性は,緑の認識に有意な影響を与えないことが示された。
- 居住地が緑の認識に最も大きな影響を与える要因の一つであり,文化的・環境的要因が認識を形成することが示唆された。
空間的公共財ゲームにおける局所協力報酬を用いたマルチエージェント方策最適化:MAPPO-LCR [cs.MA, cs.GT]目的:空間的公共財ゲームにおける協力の出現と収束
- 社会性を持つ個体の相互作用を理解する上で重要であり,資源の共有や環境問題への応用が期待される。
- 大規模な集団における報酬の結合や非定常性に対応できず,効率的な協力戦略の学習が困難である。
- 報酬の結合を考慮した価値評価を通じて,空間的公共財ゲームにおける協力戦略の学習を改善すること。
- MAPPOは,既存のPPOと比較して,空間的公共財ゲームにおける協力の出現と収束において優位性を示す。
- 局所協力報酬を導入したMAPPO-LCRは,周囲の協力密度と方策更新を整合させ,分散型実行を維持しつつ,集団レベルの価値評価を可能にする。
- シミュレーションにより,様々な増強因子において安定した協力の出現と信頼性の高い収束が確認された。
アフィン対応を用いた一般化された相対姿勢推定問題に対する大域的最適解 [cs.CV]目的:一般化された相対姿勢推定の精度向上
- 自動運転車をはじめとするモバイル機器の普及に伴い,正確な位置推定が不可欠となっている。
- 既存手法では,アフィン対応を用いた大域的な最適解を求めることが困難であった。
- アフィン対応に基づくコスト関数を最小化し,大域的最適解を効率的に算出すること。
- 提案手法は,特性方程式と誘導体のゼロ点に基づき,多項式固有値ソルバーを用いて相対回転角を解く。
- 実験結果から,提案手法が最新手法と比較して,相対姿勢推定において高い精度を示すことが確認された。
- また,相対回転が小さい場合には,新たな線形解を提案し,計算効率の向上を図った。
解剖学的領域誘導対照デコーディング:医療VLMsにおける幻覚を軽減するためのプラグアンドプレイ戦略 [cs.CV]目的:医療画像とテキスト間のモデルにおける幻覚軽減策
- 医療分野における画像と自然言語処理の融合は,診断精度向上に不可欠である。
- 既存の医療VLMsは,視覚的根拠に基づかず,学習データに偏った回答を示す幻覚の問題を抱える。
- 解剖学的領域に着目し,局所的な誘導によって幻覚を抑制し,診断精度を向上させる。
- 解剖学的マスクを利用した三層の対照デコーディングにより,モデルの注意を特定の領域に集中させることが可能となった。
- 胸部X線,CT,脳MRI,眼超音波など,多様なデータセットでの実験により,本手法の有効性が示された。
- 地域理解の向上,幻覚の軽減,全体的な診断精度の向上が確認された。
Fose:ワンステップ拡散モデルとエンドツーエンドネットワークの融合によるパンシャープニング [cs.CV, cs.AI]目的:パンシャープニングのための軽量ネットワークFoseの構築
- 高解像度画像は多様な応用分野において不可欠であり,その生成技術の向上は重要である。
- 従来のパンシャープニング手法では,計算コストが高い,または性能が十分でないという課題があった。
- 拡散モデルとエンドツーエンドモデルの利点を組み合わせ,高速かつ高性能なパンシャープニングを実現すること。
- 提案手法Foseは,既存の拡散モデルと比較して7.42倍の高速化を達成した。
- Foseは,3つの一般的なベンチマークにおいて,顕著な性能向上を示した。
- ワンステップ蒸留により,拡散モデルの推論プロセスを50ステップから1ステップに圧縮することに成功した。
推論パレット:潜在的文脈化による推論の調整と制御可能な探索 (V)LM用 [cs.CV]目的:大規模な(ビジョン-)言語モデルにおける推論戦略の制御
- 言語モデルの推論能力は,その性能と強化学習における訓練に不可欠である。
- 確率的サンプリングによる探索は,多様性に欠ける冗長な推論経路を生みやすい。
- 潜在的文脈化を通じて,モデルの推論戦略を制御し,探索効率を高めることを目指す。
- 提案手法「推論パレット」は,潜在変数を用いてモデルの内部計画を誘導する。
- この潜在文脈は,質問応答ペアから推論され,推論スタイルと応答構造を変化させる。
- 強化学習において,多様な推論モードを注入し,学習能力と探索効率を向上させる。
基礎的なオーディオエンコーダは楽曲構造を理解しているか [cs.SD, cs.LG, eess.AS]目的:楽曲構造分析における基礎的なオーディオエンコーダの性能評価
- 音楽情報処理研究において,楽曲の構造理解は重要な課題である。
- 既存のオーディオエンコーダの楽曲構造分析への適用は十分に進んでいない。
- 学習方法や学習データが楽曲構造分析の性能に及ぼす影響を明らかにすること。
- 自己教師あり学習によるマスク言語モデリングで学習したエンコーダが,楽曲構造分析において特に高い性能を示すことが示された。
- 学習方法,学習データ,モデルのコンテキスト長などが,楽曲構造分析の性能に影響を与えることが確認された。
- 本研究は,今後の楽曲構造分析研究の方向性を示す。
CheXPO-v2:知識グラフ整合性による胸部X線VLMsの嗜好最適化 [cs.RO, cs.CV, cs.LG]目的:胸部X線画像と自然言語間の関係を学習するVLMsにおける幻覚抑制と臨床的信頼性の向上
- 医療分野における画像とテキストの理解は,診断支援や治療計画の策定に不可欠である。
- 既存のVLMsは幻覚を起こしやすく,臨床応用上の安全性に課題がある。
- 知識グラフを活用し,VLMsの推論過程における一貫性を評価することで,幻覚を抑制し,信頼性を高める。
- 提案手法CheXPO-v2は,Entity-Relation Matchingに基づく知識グラフ整合性報酬を用いることで,推論過程の細部まで厳密に評価する。
- CheXPO-v2は,既存手法GRPOや最先端モデルを凌駕し,MIMIC-CXR-VQAベンチマークで優れた性能を示す。
- わずか5,000サンプルで最先端の精度を達成し,データ効率の高さと臨床的に妥当な推論能力を実証した。
DAVE:ドキュメント理解とWebエージェントのためのVLMビジョンエンコーダ [cs.CL, cs.CV]目的:ドキュメント理解とWebエージェント向けのビジョンエンコーダ
- マルチモーダルタスクにおいて,画像とテキストを組み合わせるVLMの性能向上は重要である。
- 既存のVLMは,ドキュメント理解やWebエージェントに必要な構造的・空間情報を十分に捉えられていない。
- ドキュメントとWebに特化した,より高性能なビジョンエンコーダの開発。
- DAVEは,大量のラベルなしデータを利用した自己教師あり学習と,限られた高品質データを用いた教師あり自己回帰学習で訓練されている。
- 異なるテキストデコーダで訓練されたエンコーダを統合するモデルマージスキームと,汎用エンコーダとの特徴量融合により,多様なタスクへの適応性を高めている。
- ドキュメント理解,VQA,Webローカリゼーション,エージェントベースのベンチマークにおいて,DAVEの高い有効性が実証された。
Any-Optical-Model:汎用的な光学的リモートセンシング基盤モデル [cs.CV]目的:多様な光学センサーに対応するリモートセンシング基盤モデルの構築
- 生態系監視や緊急対応など,リモートセンシング技術は広範な分野で不可欠である。
- 既存モデルは特定のバンド構成・解像度に依存し,異なるセンサー間での汎化性能が課題である。
- 任意のバンド構成,センサー,解像度に対応し,汎化性能を向上させることを目指す。
- AOMは,スペクトルに依存しないトークナイザーとマルチスケール適応パッチ埋め込み機構を導入した。
- 様々な解像度間でグローバルな意味的整合性を保つためのマルチスケール意味的アライメント機構も組み込まれた。
- Sentinel-2,Landsat,HLSを含む10以上のデータセットで,最先端の性能を達成した。
幾何学的に整合性のあるグローバル記述子によるロバストなシーン座標回帰 [cs.CV]目的:ロバストなシーン座標回帰手法
- 視覚的な場所認識は,ロボット工学や拡張現実など,様々な応用において不可欠である。
- 既存手法では,幾何学的制約に依存したグローバル記述子では識別力やロバスト性に課題があった。
- 幾何学的構造と視覚的類似性の両方を考慮したグローバル記述子を学習し,誤った関連付けを修正すること。
- 提案手法は,幾何学的構造と視覚的類似性の整合性を考慮したグローバル記述子を学習する集約モジュールを用いる。
- 手動での場所ラベル付けなしで学習可能であり,多様な環境に一般化できる。
- 大規模な環境におけるローカリゼーション性能を大幅に向上させつつ,計算効率とメモリ効率を維持する。
いつ見るかを学習する:マルチモーダル推論における戦略的知覚のための分離されたカリキュラム [cs.CV]目的:マルチモーダル推論における戦略的知覚の学習
- マルチモーダル大規模言語モデルは高い潜在力を持つが,複雑な視覚的推論において脆弱である。
- 推論が長くなるにつれて視覚的な根拠が失われる「視覚的忘却」が課題となっている。
- 抽象的な論理的思考と戦略的な視覚的知覚を分離し,モデルの戦略的推論能力を向上させる。
- 本研究では,テキストのみのデータで強固な抽象的推論基盤を構築し,新しい知覚に基づく思考連鎖(PG-CoT)パラダイムで視覚と連携させる分離された教師ありファインチューニング(SFT)カリキュラムを提案する。
- また,タイミングを強化学習問題として捉え,認知的不確実性の言語的マーカー(例:「待つ」,「確認する」)と知覚的行動を組み合わせることで,いつ見るかを学習するピボタル知覚報酬を設計した。
- これにより,モデルは経験則に頼る観察者から,戦略的で根拠のある推論者へと変貌する。
ビデオ探偵:長編動画からの質問応答に不可欠な手がかりを反復的に探索する [cs.HC, cs.CV]目的:長編動画からの質問応答における,効率的な質問認識型メモリメカニズムの開発
- 動画と言語を組み合わせた大規模言語モデルの応用範囲は広く,その性能向上が求められている。
- 長編動画の処理には,膨大なコンテキストと情報過多が問題となり,計算コストが増大する。
- 動画から重要な手がかりを効率的に抽出し,限られた計算資源で長編動画を処理することを目指す。
- 提案手法VideoDetectiveは,動画を部分的に処理し,質問に応じた圧縮戦略を用いて重要な手がかりを効率的に探索する。
- 過去の情報を活用するため,抽出された手がかりを反復的に集約し,履歴コンテキストを更新する。
- 実験により,32Kのコンテキスト長を持つモデルでも,100Kトークン(1時間動画)を効率的に処理可能であることが示された。
非同一ランダムアイテムの公平な分割:サンプリングまたはマッチング [cs.GT]目的:非分割可能資源の公平かつ効率的な配分
- 資源配分は社会経済活動の根幹であり,公平性が重要である。
- 資源が非同一の場合,公平かつ効率的な配分が困難である。
- ランダムインスタンスにおける公平かつ効率的な配分アルゴリズムを開発する。
- 大規模なエージェント数とアイテム数において,公平性と最大社会厚生効率を両立する配分が存在することが示された。
- アイテム数がある条件下において,全エージェントの評価値をサンプリングするだけで効率的な配分計算が可能となった。
- シミュレーションの結果,小規模なインスタンスでも,公平性と効率性の保証に小さな損失しかなく,最適な状態に迅速に収束することが確認された。
拡散に基づく人間からロボットへの動画生成:Mitty [cs.CV]目的:人間による実演動画からのロボット動作動画生成
- ロボットに複雑なタスクを効率的に学習させる上で,人間の実演データ活用が重要である。
- 既存手法は中間表現を用いるため,情報損失や累積誤差が生じ,動画の一貫性を損ねる。
- 人間による実演動画を直接利用し,ロボット動作動画を生成する新たな手法を開発する。
- Mittyは,事前学習済みの拡散モデルとTransformerを用いて,人間による実演動画をロボットの実行動画に変換する。
- 中間表現やラベルを用いず,視覚的・時間的な一貫性を保ちながら,高品質な動画生成を可能にする。
- Human2RobotとEPIC-Kitchensの実験により,最先端の結果と汎化性能が示された。
AnyCXR:不完全な注釈と条件付き共同注釈正則化学習を用いた,あらゆる撮影位置での胸部X線画像における人体解剖構造のセグメンテーション [cs.CV]目的:胸部X線画像における人体解剖構造のセグメンテーション
- 医療画像診断において,正確な解剖構造の把握は,疾患の発見や評価に不可欠である。
- 十分な注釈付きデータが不足しており,実際の撮影条件のばらつきが,胸部X線画像のセグメンテーションの精度を阻害している。
- 合成データと正則化学習を用いて,注釈の負担を軽減しつつ,多様な条件下での堅牢性を向上させることを目指す。
- AnyCXRは,合成データのみで学習し,PA,側面,斜位のリアルワールドデータセットにおいて高いゼロショット汎化性能を示した。
- 54の解剖学的構造を高精度に区分化し,心胸郭比の自動推定,脊椎の彎曲評価,疾患分類などの臨床タスクを支援する。
- 解剖学的知識の組み込みにより,診断性能が向上し,解剖学に基づいた胸部X線画像解析の信頼性の高い基盤を確立する。
超音波画像における乳房腫瘍セグメンテーションのためのWavelet誘導型二重注意特徴融合Mamba (WDFFU-Mamba) [cs.CV, cs.AI]目的:乳房超音波画像の腫瘍セグメンテーションの精度向上
- 乳房超音波画像は臨床診断や早期腫瘍スクリーニングにおいて重要な役割を果たす。
- スペックルノイズ,アーチファクト,不規則な病変形状,境界のぼやけなどがセグメンテーションの精度を著しく阻害する。
- 上記の問題を解決し,乳房腫瘍の自動セグメンテーションを可能にする頑健かつ効率的なモデルを開発すること。
- 提案するWDFFU-Mambaは,二つの公開データセットにおいて既存手法を上回るセグメンテーション精度を達成した。
- Wavelet変換によるノイズ除去と注意機構に基づく特徴融合の組み合わせが,精度とロバスト性を向上させた。
- WDFFU-Mambaは,データセット間の汎化性能も高く,臨床応用への期待が持てる。
多臓器・多タスクに対する汎用学習超音波AIの診断性能:UUSIC25チャレンジ [cs.CV]目的:多臓器の分類とセグメンテーションを行う汎用的な深層学習モデルの診断精度と効率の評価
- 超音波検査は広く普及しており,迅速かつ非侵襲的な診断を可能にする重要な手法である。
- 既存の超音波AIは特定のタスクに特化しており,汎用性に欠ける点が臨床応用を阻害している。
- 単一のモデルで複数のタスクに対応することで,超音波AIの臨床的有用性を高めることを目指す。
- 上位モデル(SMART)は,5つのセグメンテーションタスクでDSCの平均値0.854,二値分類でAUC 0.766を達成した。
- セグメンテーション能力は高いものの,ドメインシフトの影響を受けやすい複雑なタスクでは性能にばらつきが見られた。
- 乳がん分子サブタイピングでは,内部データでのAUC 0.571から,未知の外部施設でのAUC 0.508への低下が見られ,汎化性能の重要性が示唆された。
LibriVAD:音声活動検出のための深層学習ベンチマーク付きスケーラブルなオープンデータセット [cs.SD, cs.LG]目的:音声活動検出のための大規模なオープンデータセットと深層学習ベンチマーク
- 音声活動検出は,音声認識や音声検索など,多くの音声処理アプリケーションの重要な前処理段階である。
- 既存のデータセットは規模が小さく,多様なノイズ環境での性能評価が困難であるという課題がある。
- 多様なノイズ条件下でもロバストな音声活動検出を実現するためのデータセットとモデルを開発する。
- LibriVADは,LibriSpeechを基に,多様なノイズ源を追加したスケーラブルなデータセットである。
- Vision Transformer(ViT)を用いたモデルが,既存のVADモデルと比較して優れた性能を示した。
- データセットの規模拡大とSSRのバランス調整が,未知の条件下でのVAD性能向上に貢献することが示された。
逐次攻撃防御ゲームにおける解析的スタッケルベルク資源配分 [cs.GT]目的:最適な資源配分
- 重要インフラ等のセキュリティ確保は,社会機能維持に不可欠である。
- 資源配分は,攻撃者の戦略に依存するため,最適な配分決定が困難である。
- 確率的攻撃を考慮した,攻撃者と防御者の戦略均衡を解析的に解く。
- 閉形式の均衡戦略(防御と攻撃)が,資産数や防御資源数に関わらず導出された。
- 報酬とコストに関する必要条件が確立され,確率分布の実現可能性が保証された。
- 防御者側の3つの異なる報酬構造と,Pareto最適解が存在することが示された。
Vision-Languageモデルによる画像復元 [cs.CV]目的:画像復元における性能向上
- 画像復元は,現実的な画像を再現する上で重要な技術であり,様々な応用分野で求められている。
- 従来の画像復元手法では,視覚情報とテキスト情報の効果的な活用が課題となっていた。
- 本研究は,Vision-Languageモデルの持つ知識を活用し,画像復元の性能と意味の一貫性を向上させることを目指す。
- 提案手法VLMIRは,CLIPのようなVision-Languageモデルの視覚・言語情報を活用することで,画像復元性能を向上させている。
- VLMIRは,特徴抽出と拡散モデルに基づく画像復元の二段階構成で,視覚情報とテキスト情報を統合している。
- 実験結果から,VLMIRは汎用的な画像復元タスクおよび特定の劣化画像復元タスクにおいて,優れた性能を発揮することが示された。
Self-Purifying Flow MatchingによるロバストなTTS学習:WildSpoof 2026 TTSトラック [cs.SD, cs.AI]目的:野生環境下での音声に適応するためのTTSシステムの開発
- 現実世界の多様な音声環境に対応したTTS技術の重要性が高まっている。
- 実際の音声データにはノイズが含まれており,TTSの性能低下を引き起こす。
- ノイズの多いデータに対してもロバストに学習できるTTSモデルを構築する。
- 提案手法であるSPFMは,条件付きと無条件のフローマッチング損失を比較することでラベルノイズを軽減する。
- SPFMを用いたモデルは,参加チームの中で最も低いWERを達成し,UTMOSやDNSMOSなどの知覚的評価指標でも高いランキングを得た。
- Supertonicのような軽量なオープンウェイトアーキテクチャも,SPFMのようなノイズ処理機構と組み合わせることで,多様な現実世界の音声条件に適応できる。
高解像度PCBAにおける自己教師あり画像再構成によるピクセル単位のアノマリ位置検出 [cs.CV]目的:高解像度PCBA画像におけるピクセル単位のアノマリ位置検出
- PCBAの自動検査は製造において重要であり,品質管理の効率化に貢献する。
- PCBA画像は高解像度で複雑であり,ラベル付きデータが不足しがちである。
- 本研究は,ラベル不足と微小欠陥の検出という課題を解決することを目指す。
- 提案手法HiSIR-Netは,自己教師あり学習による画像再構成を用いて,高解像度PCBA画像におけるアノマリをピクセル単位で正確に検出する。
- SIR-GateとROPSという軽量なモジュールを組み合わせることで,実用的な速度で4K解像度のボードに対応可能である。
- 実験の結果,提案手法は既存手法と比較して,高い位置検出性能と低い誤検出率を実現することを示した。
ProCache:拡散Transformer加速のための制約を考慮した特徴キャッシュと選択的計算 [cs.CV]目的:拡散Transformerの高速化のための特徴キャッシュ手法
- 生成モデルの高性能化が求められているが,計算コストが課題となっている。
- 既存の特徴キャッシュ手法は,Transformerの非一様な時間的ダイナミクスに対応できていない。
- 時間と深さに応じたキャッシュパターンと選択的計算でエラーの蓄積を抑制する。
- ProCacheは,PixArt-alphaとDiTにおいて,最大1.96倍および2.90倍の高速化を達成した。
- 画質劣化は無視できる程度であり,既存のキャッシュ手法を大幅に上回る性能を示した。
- 制約を考慮したキャッシュパターン検索と選択的計算により,効率的な高速化を実現した。
MatLat:PBRテクスチャ生成のためのマテリアル潜在空間 [cs.CV]目的:PBRテクスチャ生成のための生成フレームワーク
- 3Dコンテンツ制作において,高品質なPBRテクスチャは現実感の向上に不可欠である。
- 大規模なPBRテクスチャデータセットが不足しており,学習が困難である。
- 事前学習済みの潜在画像生成モデルを活用し,マテリアル潜在空間を学習することで高品質なテクスチャ生成を目指す。
- 提案手法では,VAEの微調整により,新たなマテリアルチャンネルを潜在分布のずれを最小限に抑えつつ組み込める。
- 局所性を維持するための正則化項を導入し,ピクセルと潜在空間の空間的な対応関係を強化している。
- 実験の結果,提案手法はPBRテクスチャの忠実度を向上させ,最先端の性能を達成することが示された。
EMAG:指数移動平均ガイダンスによる自己修正型拡散サンプリング [cs.CV]目的:拡散モデルにおけるサンプル品質と一貫性の向上
- 拡散モデルは高品質な画像生成を可能にする重要な技術であり,その応用範囲は広い。
- 従来のガイダンス手法では,ネガティブサンプルの粒度や難易度の制御が難しく,性能向上の限界があった。
- EMAGは,より効果的なネガティブサンプルを生成し,微細なアーティファクトの修正を促すことで,生成品質を向上させる。
- EMAGは,拡散TransformerのAttentionメカニズムを調整する,学習不要な推論時メカニズムである。
- EMAGは,従来のCFGと比較して,人間による好意度スコア(HPS)を+0.46向上させた。
- EMAGは,APGやCADSなどの高度なガイダンス手法と自然に組み合わせることができ,更なるHPSの改善に貢献する。
深くて信頼できる:画像を用いた思考のための多段階推論の進歩 [cs.CV]目的:画像を用いた思考における多段階推論の信頼性向上
- 画像と言語を組み合わせたAI研究は,複雑な視覚タスクの理解を深める上で不可欠である。
- 既存のモデルは,誤った推論経路を自己修正する能力に課題がある。
- 画像を用いた思考における多段階推論の精度と自己反省能力の向上を目指す。
- DRIMは,高解像度画像データセットを用いて,難易度の高い質問応答ペアを構築することで,多段階ツール呼び出しを可能にした。
- SFT段階では,ツール軌跡データを収集し,多段階推論パターンを誘導。RL段階では,冗長性を抑制する方策最適化を導入し,自己反省的な推論を促進した。
- 実験の結果,DRIMは視覚理解ベンチマークにおいて優れた性能を発揮することが示された。
CodeDance:実行可能な視覚的推論のための動的なツール統合型MLLM [cs.CV]目的:視覚的推論のための汎用的なソルバーとしての実行可能コードの探求
- 視覚的推論は,人間のような知的な情報処理の実現に不可欠であり,AI研究の重要な分野である。
- 既存手法は,固定的なスキーマや単一ステップ処理に依存し,複雑なタスクへの柔軟性,解釈性,転移性が課題である。
- CodeDanceは,複数のツールを連携させ,透明性の高い推論を可能とする,より汎用的でスケーラブルなメカニズムを提案する。
- CodeDanceは,ツール利用のバランスと適応性を促す報酬を導入し,効率的な探索と過剰利用の抑制を実現した。
- 強化学習を通じて,既存の教師データだけでは予測できない,新規ツール呼び出しや構成,タスク間の転移などの創発的な振る舞いが観察された。
- 視覚的検索,数学,グラフ質疑応答などのベンチマークにおいて,既存の基盤モデルやGPT-4oなどの高度なモデルを上回る性能を示した。
Few-Shot Adaptationのための補助的記述知識 [cs.CV]目的:Vision-Language ModelのFew-Shot Adaptationにおける性能向上
- Vision-Language Modelは強力だが,事前学習データとの分布のずれで性能が低下する
- 既存のPEFT法は固定されたプロンプトに依存し,クラスの意味を十分に捉えられない
- クラスの意味を捉え,効率的にテキスト表現を豊かにすることで性能向上を目指す
- 本研究では,大規模言語モデルを用いてクラスごとに記述的なプロンプトを生成するADKを提案する
- ADKは,Compositional KnowledgeとInstance-Specific Knowledgeの2種類の知識を活用し,カテゴリの識別を促進する
- 実験の結果,ADKは既存のPEFT手法の性能を向上させ,最先端の結果を達成した
