arXiv雑要約
画像・音声 - 2025/10/14 公開
スケッチから対称性を考慮した形状生成:意味的ブリッジングによる手法 [cs.CV]目的:スケッチからの3次元形状再構成
- 3次元形状の作成は,製品設計や仮想現実など幅広い分野で重要である。
- スケッチは情報が少なく,意味や幾何学的な情報が不足しているため,正確な再構成が困難である。
- スケッチの表現を豊かにし,対称性制約を活用することで,より正確な形状生成を目指す。
- 提案手法Sketch2Symmは,スケッチから意味的に豊かな画像に変換することで,3次元形状の再構成精度を向上させる。
- 対称性制約を導入することで,日常的な物体に見られる構造的な規則性を活用し,幾何学的に一貫性のある形状を生成する。
- 主流のスケッチデータセットを用いた実験により,既存手法と比較して高い性能を示すことが確認された。
SAR画像を用いた洪水マッピングと水深推定における前処理,手法選択,ハイパーパラメータ調整の影響評価 [cs.CV, physics.geo-ph]目的:洪水マッピングと水深推定の精度向上
- 河川管理や防災において,洪水状況の迅速かつ正確な把握は重要である。
- SAR画像を用いる場合,ノイズや手法選択がマッピング精度に大きく影響する。
- 各処理段階における最適な手法とパラメータの組み合わせを明らかにすること。
- スペックルフィルタの選択が,洪水範囲推定に数平方キロメートルの差を生じさせることが示された。
- 教師あり学習が非教師あり学習を上回る性能を示したが,調整された非教師あり学習でも同程度の精度が得られた。
- 前処理と洪水マッピングの不確実性が,水深推定に大きな変動をもたらすことが明らかになった。
Diffusion-Link:音声とテキストのモダリティギャップを埋める拡散確率モデル [cs.SD, cs.AI, cs.CL, cs.LG, eess.AS]目的:音声とテキストの埋め込み空間におけるモダリティギャップの縮小
- マルチモーダルな情報処理において,音声とテキストの統合は重要な課題である。
- 既存手法では,音声とテキストの表現空間にギャップが存在し,性能向上を阻害する要因となっている。
- 拡散モデルを用いて音声埋め込みをテキスト埋め込み分布に変換し,モダリティギャップを解消することを目指す。
- Diffusion-Linkは,既存の拡散ベース手法と比較して,音声とテキスト間のモダリティギャップを最も効果的に縮小する。
- AudioCapsデータセットを用いた自動音声キャプション生成において,最先端の性能を達成した(ゼロショットおよび完全教師あり学習)。
- マルチモーダルエンコーダと大規模言語モデルの連携において,モダリティギャップの解消が有効であることが示された。
REACT3D:インタラクティブな物理3Dシーンにおける関節の復元 [cs.CV, cs.RO]目的:インタラクティブな物理3Dシーン生成のためのフレームワーク
- 具現化された知能の発展には,インタラクティブな3Dシーンが不可欠である。
- パーツのセグメンテーションや運動軌跡の注釈作成に労力がかかるため,データセットの拡充が課題である。
- 静的な3Dシーンからインタラクティブな複製を効率的に生成し,研究の障壁を下げる。
- REACT3Dは,静的な3Dシーンから,シミュレーション可能なインタラクティブな複製を生成する。
- オープン可能なオブジェクトの検出,関節推定,隠れた形状の補完,インタラクティブなシーン統合を実現した。
- 検出・セグメンテーション,関節推定の性能において,最先端の結果を達成した。
InternSVG:マルチモーダル大規模言語モデルによる統一的なSVGタスクへの取り組み [cs.CV]目的:SVG理解,編集,生成のための統一的なモデリング
- SVGモデリングは,グラフィック表現の多様性に対応する上で不可欠である。
- 既存のデータセットの断片化や,タスク間の汎用性の低さが課題となっている。
- 構造的な複雑さを処理し,SVGタスクを統一的に解決することを目指す。
- InternSVGは,SVG理解,編集,生成を単一のモデルで実現し,既存のモデルを上回る性能を示す。
- SAgogeは,静的画像と動的アニメーションを含む大規模なSVGデータセットであり,多様なタスクをサポートする。
- SArenaは,包括的なタスク定義と標準化された評価基準を備えたベンチマークである。
空間遺伝子発現予測のためのマルチ倍率およびプロトタイプ認識アーキテクチャMMAP [cs.CV]目的:空間遺伝子発現予測モデルの性能向上
- 組織構造や疾患病理を理解する上で,空間情報を保持した遺伝子発現測定が重要である。
- 組織学的画像から遺伝子発現を予測する際,視覚的特徴と分子シグナルのギャップが大きい。
- 局所特徴の細かさとグローバルな空間的文脈の不足を解消し,予測精度を向上させる。
- 提案手法MMAPは,マルチ倍率パッチ表現により局所特徴の細かさを向上させている。
- MMAPは,潜在的なプロトタイプ埋め込みを用いてスライドレベル情報を効率的に表現している。
- MAE,MSE,PCCなどの評価指標において,既存手法を上回る性能が確認された。
不確実性を考慮したControlNet:合成画像生成によるドメインギャップの解消 [cs.CV, cs.AI]目的:ドメイン間のギャップを解消するためのControlNet手法
- 画像認識の精度向上には,大量の高品質な学習データが不可欠である。
- 現実世界のデータ収集はコストがかかる上に,ドメインギャップによる性能低下が課題となる。
- ラベルなしドメインのデータを用いて,高品質な合成データを生成し,ドメインギャップを埋める。
- 提案手法は,不確実性という概念を導入することで,ラベルなしドメインのデータを活用しControlNetを訓練する。
- Home-OCTデータに対するセグメンテーション精度が大幅に向上し,追加の教師データなしでドメインギャップを解消する。
- 不確実性に基づくガイダンスは,厳密なスタイル学習を必要とせず,任意のドメインシフトに対応可能である。
推論としての表現:画像品質評価における視覚的強化学習の再考 [cs.CV]目的:画像品質評価における視覚的強化学習のメカニズム解明と汎化性能の向上
- 画像品質評価は,様々な視覚アプリケーションにおいて重要であり,その自動化ニーズは高い。
- 従来の画像品質評価手法は汎化性能に課題があり,ドメイン適応が難しい場合がある。
- 強化学習を用いた推論ベースのモデルの汎化メカニズムを解明し,効率的な評価手法を開発する。
- 強化学習を通じて,MLLMは冗長な視覚表現を汎用的なテキスト表現に変換していることが確認された。
- RALIは,コントラスト学習を用いて画像を汎用的なテキスト表現に直接整合させることで,推論プロセスを回避する。
- RALIは,推論ベースのモデルと同等の汎化性能を,パラメータ数と推論時間の大幅な削減で実現した。
MaterialRefGS:多視点一貫性のある材質推論を用いた反射型ガウススプラッティング [eess.SY, cs.SY, cs.CV]目的:フォトリアリスティックなレンダリングと新規視点合成のための反射モデリング
- 写真測量やコンピュータグラフィックスにおいて,現実感の高い画像生成が重要である。
- 既存手法では,環境モデリングが不十分な場合,材質推論の制約が弱く,レンダリング品質が低下する。
- ガウススプラッティングにおける反射の正確な学習を,多視点一貫性のある材質推論で実現すること。
- 提案手法は,遅延シェーディング中に2Dガウスを多視点一貫性のある材質マップとして生成する。
- 視点間の測光的変化を追跡することで,高い反射率を持つ領域を特定し,反射強度の事前情報として活用する。
- 2DGSによるレイ tracingを通して環境モデリングを行うことで,間接光の表現を可能にし,フォトリアリスティックなレンダリングを実現した。
DocReward:文書構造およびスタイル付与のための文書報酬モデル [cs.CV, cs.AI, cs.CL]目的:文書の構造とスタイルに関する評価
- プロフェッショナルな文書作成の自動化が求められている。
- 視覚的な構造やスタイルが考慮されておらず,可読性や訴求力が損なわれる。
- 文書の構造とスタイルに着目した報酬モデルを開発し,文書の品質向上を目指す。
- DocRewardはGPT-4oおよびGPT-5よりも高い精度で文書を評価できることが示された。
- 文書生成において,DocRewardはGPT-5よりも高い勝率を達成し,人間の好みに合致した文書生成を支援する有効性が確認された。
- 多様なドメインと文書タイプを含む大規模データセットDocPairを構築し,報酬モデルの学習を可能にした。
長期的記憶を用いたロバストなエゴ・エキソ対応 [cs.CV]目的:エゴ視点とエキソ視点における物体レベルの対応付け
- 知的なアシスタントには,正確かつ直感的な視覚ガイダンスが不可欠であり,そのためにはこの対応付けが重要である。
- 視点,遮蔽,小物体の存在などにより,この対応付けは多くの課題に直面している。
- SAM 2の機能を活かし,効果的な特徴融合と長期記憶容量の強化を図ることで,この課題を解決する。
- 提案手法LM-EECは,デュアルメモリアーキテクチャとMoEに着想を得た適応的特徴ルーティングモジュールにより,SAM 2の性能を大幅に向上させた。
- EgoExo4Dベンチマークにおいて,最先端の結果を達成し,既存手法やSAM 2ベースラインを大きく上回る汎化性能を示した。
- デュアルメモリバンクシステムは,冗長性を排除しつつ重要な長期情報を保持することで,効率的な学習を可能にした。
内水路における海洋ドメイン認識の強化:衛星画像とAISのYOLOベースの融合による船舶特性評価 [cs.MM, cs.RO, cs.SY, eess.SY, cs.CV]目的:内水路における船舶特性評価のための,衛星画像とAISデータの融合フレームワーク
- 内水路の安全確保や効率的な交通管理のため,船舶の正確な状況把握が不可欠である。
- AISは船舶の航行情報を提供するが,機器の不具合や意図的な停止により情報が途絶える場合がある。
- AISの弱点を補い,非協調船舶の特定や監視体制の強化を目指す。
- YOLO v11モデルを用いた船舶の種類,バージの状態,稼働状況,バージの数,進行方向の識別精度は高い結果を示した。
- 特に,稼働状況の分類ではF1スコア99.4%という高い精度を達成しており,実用性が期待できる。
- 地理的に離れた河川区間においても高い精度を維持できることが示され,汎用性の高さが確認された。
Audio-Maestro:ツールによる拡張推論を用いた大規模オーディオ言語モデルの性能向上 [cs.SD, cs.AI]目的:大規模オーディオ言語モデルにおけるツールによる拡張推論フレームワーク
- 近年,マルチモーダルモデルが発展し,オーディオ理解能力が向上している。
- 既存システムはエンドツーエンド推論に依存し,解釈可能性と精度に課題がある。
- 構造化された知識や専門的な信号分析を必要とするタスクの精度向上を目指す。
- Audio-Maestroは,外部ツールを自律的に呼び出し,その結果を推論過程に統合する。
- これにより,モデルは信号の分析・変換・解釈を専門ツールを用いて行うことが可能となる。
- 実験の結果,MMAU-Test,DeSTA-2.5,GPT-4oの精度がそれぞれ向上した。
結合劣化モデリングと融合:劣化を考慮した赤外・可視画像融合のためのVLM誘導劣化結合ネットワーク [cs.CV]目的:劣化を考慮した赤外・可視画像融合手法
- 画像融合は,様々な分野で重要な役割を担う技術である。
- 従来の画像融合手法は,高品質な入力画像を前提としており,劣化画像への対応が課題であった。
- 劣化画像を考慮した効率的な画像融合処理を実現し,性能低下を抑制することを目指す。
- 提案手法VGDCFusionは,既存の最先端画像融合手法と比較して,様々な劣化画像条件下で大幅に性能が向上した。
- Specific-Prompt Degradation-Coupled Extractor(SPDCE)により,モダリティ固有の劣化認識と,劣化抑制・特徴抽出を同時に行うことが可能となった。
- Joint-Prompt Degradation-Coupled Fusion(JPDCF)は,クロスモダルの劣化認識を促進し,残差劣化フィルタリングと補完的なクロスモダル特徴融合を組み合わせた。
VA-GS:ビューアラインメントによるガウススプラッティングの幾何学的表現の強化 [cs.CV]目的:3Dガウススプラッティングの幾何学的表現の向上
- リアルタイムな新規視点合成の効率的な手法として注目されている分野である。
- ガウスの不規則性から,正確な表面再構成と多視点整合性に課題があった。
- ビューアラインメントを通して,幾何学的表現の精度向上を目指す。
- エッジを意識した画像情報を損失関数に組み込み,表面境界の鮮明化を試みた。
- 視点間の幾何学的整合性を担保するため,視認性を考慮した光度アラインメント損失を導入した。
- 標準的なベンチマークにおいて,表面再構成と新規視点合成の両方で最先端の性能を達成した。
AndesVL技術報告:効率的なモバイルマルチモーダル大規模言語モデル [cs.CV, cs.AI]目的:モバイル環境向けのマルチモーダル大規模言語モデルの開発
- 近年,画像とテキストを扱うAIの需要が高まり,様々な応用が期待されている。
- 既存の高性能モデルは巨大で,モバイルデバイスでの利用にはメモリや計算資源の制約がある。
- モバイルデバイスでも動作可能な,高性能なマルチモーダル大規模言語モデルを実現すること。
- AndesVLは,Qwen3を基盤とし,0.6Bから4Bパラメータのモデル群で構成される。
- 多様なベンチマークテストにおいて,同規模の既存モデルと比較して高い性能を示す。
- LoRAやOKVなどの技術を用いることで,効率的なタスク適応,モデル圧縮,高速化を実現した。
マルチトラック対照学習による自動音楽サンプル識別 [cs.SD, cs.AI, cs.LG, eess.AS]目的:自動音楽サンプル識別のための手法
- 現代の音楽制作において,既存の音源を再利用するサンプリングは一般的であり,その効率的な識別が求められる。
- サンプルが多様なジャンルや加工を施されている場合,正確な音源特定が困難である。
- 高品質な分離ステムを用いて,サンプリングされた楽曲とその元となった音源を正確に特定すること。
- 提案手法は,既存の最先端手法を大きく上回り,様々なジャンルに対して高いロバスト性を示す。
- 参照データベース内のノイズ楽曲数を増加させた場合でも,スケーラビリティが維持されることが確認された。
- 高品質な分離ステムの重要性が強調され,学習パイプラインの各要素の貢献度について詳細な分析が行われた。
連続成分を用いた高速かつスケーラブルな法線積分 [cs.CV]目的:法線マップからの表面再構成
- コンピュータビジョンにおける基礎課題であり,3次元形状復元に応用される。
- 大規模な法線マップに対し,ピクセルごとに最適化を行う既存手法は計算量が膨大となる。
- 連続成分のスケール推定に問題の再定式化を行い,最適化変数の数を削減する。
- 提案手法は,標準的な法線積分ベンチマークにおいて,数秒で最先端の結果を達成する。
- 大規模な法線マップにおいて,ピクセルレベルアプローチと比較して,1桁以上の高速化を実現する。
- 連続成分の推定,最適化項目の再調整,成分のマージにより,効率的な再構成を可能にする。
Situat3DChange: マルチモーダル大規模言語モデルのための状況認識3D変化理解データセット [cs.CV]目的:状況認識3D変化理解
- 現実世界は常に変化するため,AIには状況を理解し,変化を認識する能力が不可欠である。
- 既存の3Dデータセットは,動的なシナリオや状況を個別に扱う傾向があり,包括的な理解を妨げている。
- 状況を考慮した変化理解を可能にし,人間とAIの協調を促進することを目指す。
- Situat3DChangeは,121Kの質問応答ペア,36Kの変化記述,17Kの再配置指示を含む大規模データセットである。
- このデータセットは,11Kの人間の環境変化観察に基づいて構築され,人間とAIの共通の状況認識を確立している。
- 提案手法SCReasonerは,少ないパラメータで効率的に点群を比較し,動的なシーン理解における大規模言語モデルの限界と進捗を示した。
拡散モデルにおける直感的物理理解の評価:尤度嗜好に基づくLikePhys [cs.CV, cs.AI]目的:動画拡散モデルにおける直感的物理理解の評価方法
- 汎用的な物理シミュレーションの構築には,物理法則の理解が不可欠である。
- 生成された動画において,物理的な正しさと視覚的な魅力を分離して評価することが困難である。
- 尤度嗜好を利用し,物理的に妥当な動画と不可能な動画を区別する評価指標を開発すること。
- 提案手法LikePhysは,人間による評価との高い一致性を示し,既存の評価指標よりも優れた性能を発揮した。
- 現在の動画拡散モデルの直感的物理理解能力を詳細に評価し,モデル設計や推論設定が与える影響を分析した。
- モデルの規模や推論設定を拡大することで,物理理解能力が向上する傾向が確認された。
mmWalk:マルチモーダルマルチビュー歩行支援に向けて [cs.CV]目的:視覚障碍者や弱視者の屋外安全な歩行のための,マルチモーダルマルチビューデータセット
- 視覚障碍者や弱視者の歩行支援は,彼らの生活の質を向上させる上で重要である。
- 複雑な環境下での歩行支援は,包括的な場面理解の欠如により困難である。
- 本研究は,安全で情報に基づいた歩行支援のためのデータセットとベンチマークを提供する。
- mmWalkは,RGB,深度,セマンティック情報を含むパノラマ画像559kフレーム以上を含むデータセットである。
- mmWalkVQAは,9つのカテゴリーに分類された69k以上の視覚的質問応答ペアからなるベンチマークである。
- 最先端のビジョン言語モデルは,リスク評価とナビゲーションタスクにおいて苦戦している。mmWalkでファインチューニングされたモデルは,実世界のデータセットで有効性を示した。
拡散Transformerにおける局所詳細合成の鍵は大規模活性化にある [cs.CL, cs.CV]目的:拡散Transformerにおける大規模活性化の役割解明と,局所詳細合成の品質向上
- 画像生成技術は,近年急速に進歩しており,その応用範囲は多岐にわたる。
- 拡散Transformerは強力だが,内部の活性化メカニズムが十分に理解されていなかった。
- 大規模活性化の機能を解明し,より高品質な局所詳細合成を実現することを目指す。
- 大規模活性化は,空間的な全てのトークンにおいて発生し,入力タイムステップ埋め込みによって分布が調整されることが明らかになった。
- 大規模活性化は,出力の全体的な意味内容への影響は小さいものの,局所詳細合成において重要な役割を果たすことが示された。
- 大規模活性化を駆動とした訓練不要の自己ガイダンス戦略DGを提案し,様々な事前学習済みの拡散Transformerで局所詳細品質の向上を実証した。
ODI-Bench:MLLMは没入型全方位環境を理解できるか? [cs.CV]目的:全方位画像理解のための包括的なベンチマーク
- VR/ARや具現化された知能への応用が進む中,全方位画像の理解が不可欠である。
- 既存のMLLMは2D画像に優れる一方,全方位画像の没入的環境理解能力は未検証である。
- 全方位画像におけるMLLMの理解能力を測り,その向上を目指す。
- ODI-Benchは,全方位画像理解に特化した2,000枚の高品質画像と4,000組以上のQAペアから構成される。
- 実験の結果,既存のMLLMは全方位画像の没入的コンテキストの把握に苦戦していることが判明した。
- 提案手法Omni-CoTは,テキスト情報と視覚的手がかりを活用した思考連鎖により,MLLMの理解能力を大幅に向上させた。
割引付き完全情報確率ゲームにおける定常ナッシュ均衡の複雑性について [cs.GT, cs.CC]目的:割引付き完全情報確率ゲームにおける定常ナッシュ均衡の計算問題の計算複雑性
- ゲーム理論は,経済学,コンピューター科学など幅広い分野で意思決定の分析に不可欠である。
- 確率ゲームにおけるナッシュ均衡の計算は,状態空間が大きくなると計算量的に困難となる。
- 本研究は,割引付き確率ゲームにおけるナッシュ均衡の計算複雑性を明確にすることを目指す。
- 2人ゲームにおいて,定常ナッシュ均衡の計算問題はPPADに属することが証明された。
- 3人ゲームでは,有理数値の定常ナッシュ均衡の存在が保証されないゲームが構成された。
- 4人ゲームにおける定常ナッシュ均衡の計算問題は,SqrtSum-困難であることが示された。
ファウンデーションモデルを用いた場合,アプリケーションに必要なラベル付きサンプル数:胸部X線画像分類の研究 [cs.RO, cs.CV]目的:胸部X線画像分類におけるラベル付きサンプル数の必要性評価
- 医療画像診断の精度向上は重要であり,特に放射線科医の負担軽減に寄与する。
- 正確な診断には大量のアノテーション付きデータが必要であり,コストと時間がかかる。
- ファウンデーションモデルを活用し,必要なアノテーション量を最小限に抑えることを目指す。
- XrayCLIPおよびXraySigLIPは,ResNet-50ベースラインと比較して,大幅に少ないラベル付きサンプル数で高い性能を達成した。
- わずか50件のラベル付きデータを用いた学習曲線の傾きから,最終的な性能の限界を正確に予測することが可能である。
- 本研究は,標的とする性能レベルに必要な最小限のサンプル数を見積もり,アノテーションコストを削減するための指針を提供する。
SNAP:あらゆる点群におけるあらゆるものをセグメンテーションへ [cs.CL, cs.CV]目的:点群におけるインタラクティブなセグメンテーション
- 3Dシーンの理解と活用において,点群セグメンテーションは不可欠な技術である。
- 既存手法は,特定のドメインや入力形式に限定され,汎用性に欠ける場合が多い。
- 多様なドメインと入力形式に対応し,汎用性の高いセグメンテーション手法を開発すること。
- SNAPは,点群データに対し,点による指示とテキストによる指示の両方をサポートする統一モデルである。
- 多様なデータセットを用いた学習とドメイン適応正規化により,ドメイン間の負の転移を抑制し,高い汎化性能を実現した。
- 空間プロンプトによるセグメンテーションにおいて,ゼロショットベンチマーク8/9で最先端の性能を達成し,テキストプロンプトにおいても競争力のある結果を示した。
SCOOP'D:シミュレーションから現実世界への生成ポリシーによる混合液体・固体すくい上げ学習 [cs.RO, cs.CV]目的:ロボットによるすくい上げスキルの獲得
- すくい上げは日常生活から災害現場まで幅広く必要であり,ロボットによる自動化が求められている。
- 道具と物体の複雑な相互作用,変形可能な物体の扱いが難しく,汎用的な自律すくい上げポリシーの開発が課題である。
- シミュレーションと生成ポリシーを用いることで,現実世界での様々なすくい上げタスクに対応できる汎用的なロボットスキルを獲得する。
- シミュレーションで収集したすくい上げのデモンストレーションを,拡散モデルを用いた生成ポリシーで模倣する手法を提案した。
- 多様な条件下(物体の量,材質,容器の種類)で実世界での実験を行い,ゼロショットで有望な結果を示した。
- 提案手法SCOOP'Dは,既存手法と比較して優れた性能を発揮し,ロボットすくい上げスキルの獲得に有効であることを示した。
都市セマンティックセグメンテーションのための低労力トレーニングデータ生成フレームワーク [cs.CV, cs.GR, cs.LG]目的:都市セマンティックセグメンテーション用トレーニングデータの生成
- 都市の状況認識は,自動運転やロボティクスなど多くの応用において不可欠である。
- 合成データと実データの間のドメインギャップが,モデルの性能を制限している。
- 実データに適合した合成データを,低コストで効率的に生成することを目指す。
- 提案手法は,不完全な擬似ラベルを用いて拡散モデルをターゲットドメインに適合させる。
- この手法により,低労力で作成された合成データから高品質なトレーニングセットを生成できる。
- 実データセットにおける実験で,最先端の翻訳手法と比較して最大8.0%のmIoUの改善が確認された。
ハイパースペクトル画像分類のための基盤モデルのベンチマーク:穀物作物タイプマッピングへの応用 [cs.RO, cs.CV]目的:穀物作物タイプマッピングのための基盤モデルの性能評価
- 地球観測技術は農業生産性の向上に不可欠であり,高精度な作物マッピングが求められている。
- ハイパースペクトル画像は詳細な情報を提供する一方,その処理には高度な技術と計算資源が必要となる。
- 既存の技術では,地理的条件やセンサーの違いによる汎化性能の低下が課題となっている。
- HyperSigmaはOA 34.5%,DOFAは62.6%,SpectralEarthモデルは93.5%のOAを達成した。
- SpectralEarthモデルの簡略版は91%のOAを示し,モデルアーキテクチャの重要性を示した。
- 本研究は,実運用におけるハイパースペクトル画像を用いた作物マッピングにおける基盤モデルの有用性を示した。
MS-Mix:マルチモーダル感情分析におけるMixupの有効性の解明 [cs.CV, cs.LG]目的:マルチモーダル感情分析のためのMixupに基づくデータ拡張手法
- 感情分析は,人間とコンピュータの円滑なコミュニケーションに不可欠であり,その精度向上が求められている。
- マルチモーダル感情分析では,ラベル付きデータの不足がボトルネックとなっており,モデルの汎化性能を制限している。
- 感情に配慮した適切なサンプル混合により,データ拡張の有効性を高め,汎化性能を向上させることを目指す。
- MS-Mixは,感情を考慮したサンプル選択と動的な混合比率の調整により,既存手法を上回る性能を達成した。
- 提案手法は,異なるモダリティ間の予測分布を整合させる損失関数を用いることで,感情強度予測器とバックボーンネットワークを共同で学習する。
- 複数のベンチマークデータセットと最先端のバックボーンで実験を行い,MS-Mixが頑健なマルチモーダル感情拡張の新たな標準となることを示した。
ACE-G:クエリ事前学習によるシーン座標回帰の汎化性能向上 [cs.CV]目的:シーン座標回帰における汎化性能の向上
- 視覚的な再定位において,学習ベースのアプローチとしてシーン座標回帰が注目されている。
- 従来のシーン座標回帰は,学習データと異なる条件下で性能が低下するという問題があった。
- 汎化性能を高めるため,シーン特化的なマップコードと汎用的なTransformerを分離する。
- 提案手法ACE-Gは,多数のシーンでTransformerを事前学習することで,ロバスト性を大幅に向上させる。
- ACE-Gは,既存のシーン座標回帰手法と比較して,計算コストを抑えながら高い精度を維持する。
- 照明や視点の変化といった条件の異なるクエリ画像に対しても,高い再定位精度を実現する。
ExpVid:実験ビデオ理解と推論のためのベンチマーク [cs.CV]目的:実験ビデオにおけるマルチモーダル大規模言語モデルの評価
- 科学的発見の加速にMLLMの活用が期待されるため,その能力評価が重要である。
- 既存のベンチマークは,実験の細部や長期的な過程を十分に考慮していない。
- 本研究は,実験ビデオを用いたMLLMの理解と推論能力を体系的に評価する。
- ExpVidは,実験ビデオを対象とした新しい3層タスク階層を導入した。
- 19の主要なMLLMを評価した結果,粗い粒度の認識は得意だが,詳細の識別や状態変化の追跡に苦戦した。
- 特に,高度な推論能力において,商用モデルとオープンソースモデルの間に性能差が見られた。
リアルタイム高解像度写真画質向上:ラプラスピラミッドネットワーク [cs.CV]目的:写真画質向上のためのラプラスピラミッドネットワーク
- 写真の視覚的魅力を高める上で,画質向上技術は重要な役割を果たす。
- 既存手法は,性能と計算効率のどちらかを優先しており,両立が課題であった。
- エッジデバイスでの利用を可能にしつつ,高解像度画像に対して優れた性能を発揮すること。
- 提案手法LLF-LUT++は,ラプラスピラミッド分解と再構成により,高速処理と高画質を両立した。
- HDR+データセットにおいてPSNRが2.64dB向上し,4K画像を単一GPUで13msで処理可能となった。
- 2つのベンチマークデータセットでの実験により,最先端手法と比較して優れた性能が確認された。
不完全情報下における区間嗜好を用いた多勝者投票 [cs.CL, cs.MA, cs.CL, cs.GT]目的:区間嗜好を用いた多勝者承認選挙における公平性の保証
- 候補者が多数いる選挙において,有権者の意思決定を支援する仕組みが重要である。
- 有権者が候補者全体に対する嗜好を正確に表明することが困難であるという課題がある。
- 限られた情報伝達下でも公平性を保証するアルゴリズムを提案し,評価すること。
- 提案アルゴリズムは,Proportional Justified Representation + (PJR+) を満たす委員会を計算する。
- アルゴリズムは,有権者に嗜好を問い合わせることで委員会を決定する。
- 平均して,有権者一人あたり $\mathcal{O}(\log( \sigma\cdot k))$ 回の問い合わせで済む。
EvoCAD:Vision Languageモデルを用いた進化的CADコード生成 [cs.CV, cs.AI, cs.NE]目的:Vision Languageモデルと進化的最適化によるCADオブジェクト生成
- CAD設計の自動化は,製品開発の効率化やコスト削減に不可欠である。
- 既存手法では,複雑な形状のCADオブジェクトを正確に生成することが困難である。
- Vision Languageモデルと進化的アルゴリズムを組み合わせ,形状の正確性を向上させる。
- EvoCADは,GPT-4VおよびGPT-4oを用いた評価において,既存手法を上回る性能を示した。
- 特に,オイラー特性に基づく新たな評価指標により,トポロジー的に正しいオブジェクト生成能力が確認された。
- EvoCADは,空間的評価指標と補完的に機能し,3Dオブジェクト間の意味的類似性を捉えることが可能である。
NV3D:法線ベクトルに基づく3D物体検出における空間形状の活用 [cs.CV, cs.AI, cs.LG]目的:法線ベクトルを用いた3D物体検出モデルの開発
- 自動運転技術の発展に伴い,周囲環境の正確な認識が不可欠となっている。
- LiDAR点群の局所的な特徴抽出は単純化されがちで,複雑な形状の物体検出に課題がある。
- 空間形状情報を活用し,高精度な3D物体検出を実現することを目指す。
- 提案手法NV3Dは,ボクセル近傍から得られる法線ベクトルを利用することで,物体表面とターゲットの関係性を捉える。
- 2種類のサンプリング戦略により,データ量を削減しつつ性能を維持している。
- KITTIデータセットを用いた実験で,既存手法と比較して高い検出精度を達成した。
BridgeCode:自己回帰型ゼロショットテキスト読み上げ合成のための二重音声表現パラダイム [cs.SD]目的:ゼロショットテキスト読み上げ合成における二重音声表現パラダイムの提案
- 近年の音声技術の発展により,テキストから高品質な音声を生成することが可能になり,様々な応用が期待されている。
- 既存の自己回帰型ゼロショットTTSシステムは,速度と品質のトレードオフ,およびテキスト指向の学習の不一致という課題を抱えている。
- 二重音声表現パラダイムBridgeCodeに基づき,高品質かつ効率的な音声合成を実現するBridgeTTSを提案する。
- BridgeTTSは,疎なトークンを予測しつつ,豊かな連続特徴を再構成することで,自己回帰の反復回数を削減し,高品質な合成を可能にする。
- トークンレベルと特徴量レベルの目的関数を同時に最適化することで,自然さと明瞭度が向上する。
- 実験の結果,BridgeTTSは競争力のある品質と話者類似度を達成しながら,合成を大幅に高速化できることが示された。
命令誘導型動画編集評価のための最新ベンチマークスイートIVEBench [cs.CV]目的:命令誘導型動画編集の評価
- 動画編集技術は,コンテンツ制作において不可欠であり,その自動化技術は生産性向上に寄与する。
- 既存のベンチマークは,多様性,タスク範囲,評価指標の点で十分ではなく,命令誘導型編集の評価には不向きである。
- 命令誘導型動画編集の評価を包括的に行うための,新しいベンチマークスイートの開発と評価プロトコルの確立。
- IVEBenchは,多様な動画データセットと編集タスクを備えており,最先端手法のベンチマークに役立つ。
- 動画の品質,指示への準拠,動画の忠実度という3つの側面から評価を行うことで,人間との整合性の高い評価を実現する。
- 大規模言語モデルを活用した評価指標により,従来の指標だけでは捉えきれない複雑な評価が可能となる。
単一画像からの物理的に妥当な3Dヒューマン・シーンインタラクションと接触 [cs.CV]目的:単一画像からの物理的に妥当な3Dヒューマン・シーンインタラクションと接触の再構成
- VR,ロボティクス,3Dシーン理解において,正確な人間とシーンの3D再構成が不可欠である。
- 既存手法は,深度の曖昧さ,オクルージョン,物理的に矛盾する接触に課題を抱えている。
- 単一画像から,物理的に妥当な人間とシーンの3Dモデルを再構成することを目指す。
- PhySICは,SMPL-Xヒューマンメッシュ,シーンサーフェス,頂点レベルの接触マップを単一画像から再構成する。
- シーンエラーの平均値を641mmから227mmに,PA-MPJPEを42mmに,接触F1スコアを0.09から0.51にそれぞれ改善した。
- 床との足の接触,自然な座位,重度のオクルージョンされた家具の妥当な再構成を実現した。
InfiniHuman:精密な制御による無限の3Dヒューマン生成 [cs.CV]目的:無限に3Dヒューマンデータを生成し,その多様性と制御性を高めること
- リアリスティックな3Dヒューマンアバター生成は,エンターテインメントやメタバース等の分野で重要である。
- 大規模な学習データセットの構築にはコストと時間がかかり,多様性の確保も課題である。
- 既存の基盤モデルを活用し,低コストで無限に拡張可能な3Dヒューマンデータ生成を目指す。
- InfiniHumanは,既存のモデルを蒸留することで,豊富なアノテーション付き3Dヒューマンデータを低コストで生成する。
- 生成された111Kの多様なアイデンティティは,スキャンデータと区別がつかないレベルの品質を達成した。
- テキスト,体型,服装などの条件に基づいた,高速かつ精密なアバター生成が可能になった。
FACE:忠実な自動概念抽出 [cs.CV, cs.AI]目的:深層ニューラルネットワークの概念に基づく説明の忠実度向上
- 深層学習モデルの解釈性は,モデルの信頼性と応用において重要である。
- 既存の概念抽出法は,モデルの意思決定プロセスと概念の整合性が低い場合がある。
- モデル予測との整合性を確保し,説明の忠実度を高めることを目指す。
- 提案手法FACEは,NMFにKLダイバージェンス正則化項を加えることで,予測の一貫性を強化する。
- 理論的な保証により,予測分布のずれが抑制され,概念空間の局所的な線形性が促進される。
- ImageNet,COCO,CelebAデータセットで,既存手法よりも高い忠実性と疎性が確認された。
単一画像からのカテゴリに依存しないオブジェクトの姿勢,サイズ,形状推定 [cs.CV]目的:単一画像からのオブジェクト姿勢,サイズ,形状の推定
- ロボットの把持や操作において,対象物の理解は不可欠であり,その精度が性能を左右する。
- 既存手法は特定のモデルに依存するか,汎化性能が低く,多様な物体への適用が困難である。
- カテゴリラベルを用いず,未知の物体に対しても高い精度で姿勢,サイズ,形状を推定することを目指す。
- 提案手法は,Vision Foundation ModelとTransformerエンコーダを融合し,リアルタイム処理を実現した。
- 合成データのみで学習し,複数のベンチマークで最先端の精度を達成した。
- 未知の物体に対しても優れた汎化性能を示し,オープンセット6D理解の新たな基準を確立した。
表現自動エンコーダを用いた拡散Transformer [cs.CV, cs.LG]目的:拡散Transformerの性能向上
- 画像生成分野において,拡散モデルは高い成果を上げているが,計算コストが大きい。
- 既存の拡散Transformerは,古いVAEエンコーダに依存しており,表現能力に限界がある。
- 事前学習済みの表現エンコーダを用いることで,高品質な潜在空間を構築し,生成性能を向上させる。
- 表現自動エンコーダ(RAE)は,既存のVAEと比較して,より高品質な再構成と意味的に豊かな潜在空間を提供する。
- RAEを用いた拡散Transformerは,補助的な表現アライメント損失なしで,より高速な収束を達成する。
- ImageNetにおける実験で,RAEはFIDスコア1.51(256x256,ガイダンスなし)および1.13(256x256, 512x512,ガイダンスあり)を達成した。
二人零和ゲームにおける楽観的ヘッジのタイトな後悔上限と下限 [cs.LG, cs.GT, stat.ML]目的:二人零和ゲームにおける楽観的ヘッジの,行動数に対する後悔の依存性の最適性
- ゲーム理論は,経済学,政治学,生物学など,多様な分野における戦略的相互作用を分析する上で重要である。
- 既存の後悔解析では,行動数の依存性が最適ではない可能性があり,改善の余地が残されている。
- 楽観的ヘッジにおける後悔の上限と下限を厳密に定めることで,アルゴリズムの性能評価をより正確に行うことを目指す。
- 楽観的ヘッジの社会後悔および個別後悔の上限を,既存の結果から改善し,$O(\sqrt{\log m \log n})$ を実現した。
- この改善された上限は,楽観的ヘッジの性能を最大限に引き出すものであり,アルゴリズム依存的な下限と一致することから,最適性が確認された。
- 楽観的ヘッジに基づく学習ダイナミクスの,最終反復収束率および動的後悔も改善され,対応する下限と一致した。
言語中心的全モーダル表現学習のスケーリング [eess.SY, cs.SY, cs.CL, cs.AI, cs.CV]目的:全モーダル表現の学習における言語中心的なアプローチの有効性
- マルチモーダルな情報処理は,人間のように多様な感覚情報を統合する上で不可欠である。
- 既存のマルチモーダル埋め込み手法は,その性能向上の理由が十分に解明されていない。
- 生成事前学習におけるクロスモーダルアライメントを利用した,より効率的な埋め込み学習法の開発。
- マルチモーダル大規模言語モデル(MLLM)は,生成事前学習を通じて暗黙的なクロスモーダルアライメントを獲得していることが示された。
- 提案手法LCO-Embは,様々なバックボーンとベンチマークにおいて最先端の性能を達成した。
- 生成能力と表現能力のスケーリング則(GRSL)が明らかになり,生成能力の向上は表現品質の向上につながることが示唆された。
QeRL:効率を超えて - LLMのための量子化強化強化学習 [cs.CL, cs.LG, cs.CL, cs.CV]目的:大規模言語モデルにおける強化学習の効率化と性能向上
- LLMの推論能力向上には強化学習が不可欠だが,計算資源を大量に消費する
- 強化学習の実行にはGPUメモリと長いロールアウト時間が課題となる
- 量子化とLoRAを組み合わせることで,ロールアウトの高速化とメモリ使用量の削減を目指す
- QeRLは,ロールアウト段階で1.5倍以上の高速化を実現した。
- 320億パラメータのLLMを単一のH100 80GB GPUで強化学習できるようにした初のフレームワークである。
- GSM8K(90.8%)やMATH 500(77.4%)などの数学的ベンチマークにおいて,フルパラメータのファインチューニングと同等の性能を7Bモデルで達成した。
ベイジアントポロジカル畳み込みニューラルネット [cs.CL, cs.CV]目的:画像データ処理における不確実性定量化と効率的な学習
- 画像処理において畳み込みニューラルネットワークは主流だが,大量のデータが必要
- 既存モデルは過信傾向があり,予測の不確実性を定量化できない場合がある
- 少ないデータやノイズ下でもロバストな分類を可能にする手法を開発する
- 本研究では,トポロジー的学習とベイジアンサンプリングを組み合わせた新しいモデルを提案した。
- 提案手法は,従来のCNN,ベイズニューラルネットワーク,トポロジカルCNNを上回る性能を示した。
- 特に,データが限られたり,破損している状況で,その優位性が確認された。
重ね合わせにおける特徴間の干渉を利用した敵対的攻撃 [cs.LG, cs.AI, cs.CV]目的:ニューラルネットワークにおける敵対的サンプル発生のメカニズム解明
- ニューラルネットワークの脆弱性は,実用上の安全性と信頼性を損なう深刻な問題である。
- 敵対的サンプルの発生原因が,学習風景の不規則性なのか,入力特徴への過敏性なのか不明であった。
- 重ね合わせが敵対的脆弱性の十分条件であり,そのメカニズムを明らかにする。
- 敵対的摂動は,重ね合わされた特徴間の干渉を利用しており,攻撃パターンは特徴の配置から予測可能である。
- 本研究は,モデルの学習方法や入力の堅牢性ではなく,表現圧縮が敵対的脆弱性の原因となりうることを示唆する。
- 類似した学習を行うモデル間での攻撃の転移性や,クラス固有の脆弱性パターンを説明するメカニズムを提供する。
DiT360:ハイブリッド学習による高忠実度パノラマ画像生成 [cs.CV]目的:パノラマ画像生成のためのDiTベースフレームワーク
- 没入型体験の向上に貢献するパノラマ画像の需要は高い。
- 高品質なパノラマデータセットの不足が,生成品質の課題となっている。
- 大規模データとモデル設計の両面から生成品質を向上させる。
- 提案手法DiT360は,多様性と写実性を高めるドメイン間知識の組み込みにより,知覚的な品質を向上させる。
- 境界の一貫性と画像忠実度に関して,11の定量評価指標で優れた性能を示す。
- 円形パディング,ヨー損失,キューブ損失などのハイブリッドな教師あり学習を導入し,ロバスト性と歪みへの認識を高める。
ポイントプロンプティング:ビデオ拡散モデルによる反実仮想的トラッキング [cs.CV]目的:ビデオ拡散モデルを用いたゼロショット点トラッキング手法
- 動画の解析と生成は密接に関連しており,様々な応用が期待されている。
- 既存のゼロショット点トラッキング手法は性能が十分とは言えない。
- 事前学習済みのビデオ拡散モデルを活用し,より高性能な点トラッキングを実現する。
- 事前学習済みビデオ拡散モデルに点を視覚的にマーキングさせることで,ゼロショット点トラッキングが可能となった。
- 中間ノイズレベルから動画を再生成することで,マーカーをフレーム間で伝播させ,点の軌跡を追跡する。
- 実験の結果,提案手法は従来のゼロショット手法を上回り,自己教師あり学習モデルに匹敵する性能を示す。