arXiv雑要約
画像・音声 - 2026/05/27 公開
DirectFisheye-GS: ガウススプラッティングにおけるネイティブな魚眼入力のためのクロスビュー共同最適化 [cs.CV]目的:魚眼カメラ入力を用いた3Dガウススプラッティングの性能向上
- VR/AR応用の発展において,高精度かつ高速な3次元シーン再構成が重要である。
- 既存手法では,魚眼レンズの歪みを補正する際に情報損失や詳細の希薄化が生じ,再構成品質が低下する。
- 魚眼カメラモデルを直接組み込むことで,歪み補正なしに高品質な3次元再構成を実現する。
- 魚眼カメラの歪みを考慮したクロスビュー共同最適化手法を導入し,再構成における浮遊アーティファクトを抑制した。
- 提案手法は,既存のピンホールカメラベースのパイプラインにも適用可能である。
- 公開データセットにおいて,最先端の性能と同等またはそれを上回る結果が得られた。
SenBen:説明可能なコンテンツモデレーションのための感応的なシーングラフ [cs.CV, cs.AI, cs.LG, cs.MM]目的:感応的なコンテンツに関するシーングラフベンチマーク
- オンラインコンテンツの増加に伴い,有害コンテンツの自動検出・遮断が重要となっている。
- 既存のコンテンツモデレーションシステムは,検知理由や対象が不明瞭であるという課題がある。
- 感応的なコンテンツの具体的な描写をシーングラフで表現し,より詳細な分析を可能とする。
- 大規模なシーングラフベンチマークSenBenを構築し,157本の映画から約14,000フレームをアノテーションした。
- 知識蒸留により,コンパクトなVLモデルを開発し,SenBen Recallを6.4%向上させた。
- 提案モデルは,Geminiモデルを除く主要なVLモデルや商用APIよりも優れた性能を示し,推論速度とメモリ使用量も大幅に改善した。
3D基盤モデルの効率的なファインチューニングのための属性サブ空間マイニング [cs.CV]目的:3D基盤モデルのファインチューニングにおける属性サブ空間の抽出
- 3Dモデルは様々な分野で活用が拡大しており,効率的な学習手法が求められている。
- LoRA等のファインチューニング手法では,データセットの多様性に対応した効率的な調整が課題である。
- データセットの特性に応じたLoRAサブ空間を抽出し,ファインチューニングの効率化と精度向上を目指す。
- 本研究では,制御されたバリエーションを持つ合成データセットを用いてLoRAサブ空間を抽出し,それらがほぼ直交することを示した。
- 抽出されたLoRAサブ空間を統合することで,ファインチューニングに必要なパラメータ数を削減し,効率化を実現した。
- 合成データから抽出したサブ空間が,実データセットに対しても有効であることが確認された。
頑健なAI生成画像検出のための劣化一貫ペア学習 [cs.CV, cs.AI]目的:AI生成画像検出における劣化に対する頑健性の向上
- AI生成画像の普及に伴い,その真偽性の判定が重要課題となっている。
- 既存の検出器は,現実世界の画像劣化の影響を受けやすく,性能が低下する。
- 劣化に強い検出器を,追加のパラメータや計算コストなしに実現すること。
- 提案手法DCPTは,劣化画像と元の画像の表現の一貫性を制約することで,頑健性を向上させる。
- Synthbusterベンチマークにおいて,DCPTは劣化条件における平均精度を9.1%向上させた。
- 特にJPEG圧縮においては,精度が15.7%~17.9%も改善された。
クロスタスクアテンションブリッジを用いたレーダーカメラBEVマルチタスク学習:3D検出とセグメンテーションの同時実行 [cs.CV]目的:3D検出とセグメンテーションの同時実行のためのレーダーカメラBEVマルチタスク学習手法
- 自動運転における3D環境認識の精度向上は,安全な走行に不可欠である。
- レーダーとカメラの融合において,検出とセグメンテーションを独立して扱う手法が主流であり,タスク間の情報共有が不十分である。
- 検出とセグメンテーション間の相互作用を活用し,各タスクの性能向上を目指す。
- 提案手法CTABは,検出とセグメンテーションの分岐間で多スケール変形アテンションを用いて特徴量を交換することで,タスク間の情報共有を促進する。
- nuScenesデータセットにおいて,CTABは検出性能をほぼ維持しつつ,7つのクラスにおいてセグメンテーション性能を向上させた。
- 4クラスのサブセットでは,51.0 mIoU-4を達成し,同時に競争力のある3D検出性能を示した。
FiRe:画像生成の向上のためのファイングレインなマルチモーダル推論 [cs.CL, cs.CV]目的:画像生成のためのファイングレインなマルチモーダル推論手法
- マルチモーダル大規模言語モデルの急速な発展に伴い,画像理解と生成を統合するモデルが重要になっている。
- 既存手法はプロンプトの拡張や大まかな画像とテキストの整合性に依存し,詳細な属性の反映が不十分である。
- プロンプトの要素分解と自己評価に基づく局所的な改善により,ファイングレインな制御を実現することを目指す。
- FiReは,プロンプトを視覚要件に分解し,生成画像におけるそれらの充足度を自己評価することで,多段階の推論を行う。
- FiRe-GRPOは,段階ごとの報酬と利点を導入することで,マルチステップ推論におけるGRPOの疎な報酬問題を解決する。
- 実験の結果,FiReは既存の画像生成モデルを凌駕し,特に複合的なテキストから画像への変換において顕著な改善が見られた。
DETR-ViP:ロバストな識別的視覚プロンプトを用いた検出Transformer [cs.CL, cs.CV]目的:視覚プロンプトによる物体検出の性能向上
- 物体検出は画像認識の基礎であり,様々な応用分野で不可欠である。
- 視覚プロンプト検出は研究が十分ではなく,テキストプロンプト検出の副産物として扱われがちである。
- 視覚プロンプトの識別能力を高め,性能を最大限に引き出すことを目指す。
- DETR-ViPは,グローバルなプロンプト統合と視覚-テキストプロンプト関係蒸留により,識別可能な視覚プロンプトを生成する。
- COCO,LVIS,ODinW,Roboflow100における実験で,既存手法を大幅に上回る性能を達成した。
- 選択的融合戦略により,安定したロバストな検出を実現している。
Chat2Workflow:自然言語からの実行可能ビジュアルワークフロー生成のためのベンチマーク [cs.CL, cs.CL, cs.AI, cs.CV, cs.LG, cs.MA]目的:実行可能ビジュアルワークフローの自動生成
- 現実の産業界において,信頼性と制御性に優れたビジュアルワークフローが主流となっている。
- 既存のワークフローは手作業で構築されており,開発にコスト,時間,労力がかかるという課題がある。
- 大規模言語モデルによるワークフロー開発の自動化可能性を検証し,そのためのベンチマークを提供する。
- 最先端の言語モデルは高レベルな意図を捉えられつつも,特に複雑な要件においては正確で安定した実行可能なワークフローの生成に苦戦する。
- 提案するエージェントベースラインは,解決率を最大6.05%向上させるものの,産業利用に向けた課題が残る。
- Chat2Workflowは,産業グレードの自動化を促進するための基盤として活用可能である。
InHabit:画像基盤モデルを活用したスケーラブルな3D人間配置 [cs.CV]目的:3Dシーンにおける人間と環境のインタラクションに関する大規模データセットの生成
- 人間の認識様式に沿った embodied agent の学習には大規模データが不可欠である。
- 実世界でのデータ収集はコストが高く,既存の合成データはシーンの文脈を無視している。
- インターネット規模で学習された2D画像基盤モデルの知識を3Dシーンに活用し,データ生成を自動化する。
- InHabit は,レンダリング,生成,リフトの原理に基づき,3Dシーンに人間を配置する。
- 生成された InHabitants は,大規模かつフォトリアリスティックな3D人間-シーンインタラクションデータセットである (78Kサンプル)。
- InHabitants を用いたデータ拡張により,3Dヒューマンシーン再構成と接触推定の精度が向上し,ユーザ調査でも高い評価を得た。
VLMが学生の解答を「修正」する場合:多行手書き数式OCR評価における過剰修正の特定とペナルティ [cs.CY, cs.AI, cs.CV, cs.LG]目的:多行手書き数式OCRにおける過剰修正の特定と,それを抑制する評価指標の開発
- 教育AIシステムにおいて,手書き数式の正確な文字起こしは不可欠であり,学習評価の自動化を可能にする。
- 既存の評価指標は単一行の表現に偏っており,複数行にわたる解答の論理的な正誤を評価できないという課題がある。
- Vision-Language Model(VLM)による過剰修正を検出し,より正確なOCR評価を実現することを目指す。
- VLMは学生の解答を忠実に書き起こすのではなく,誤りを「修正」する傾向があり,評価対象の誤りを隠蔽してしまうことが明らかになった。
- 提案手法PINKは,LLMを用いたルーブリックに基づく採点と,過剰修正に対するペナルティにより,より教育的な評価を実現する。
- FERMATデータセットを用いた評価で,PINKは人間による評価との一致度が高く,BLEUよりも高い優先度で選ばれた(55.0% vs 39.5%)。
World-R1:テキストから動画生成のための3次元制約の強化 [cs.CV]目的:テキストから動画生成における3次元制約の整合性向上
- 動画生成技術は発展しているが,現実世界の再現には3次元空間の理解が不可欠である。
- 既存手法では,3次元情報を組み込む際に計算コストが増大し,拡張性に課題がある。
- World-R1は,強化学習を用いて3次元制約を効率的に組み込み,動画の整合性を高める。
- World-R1は,事前学習済みの3次元モデルや画像・言語モデルからのフィードバックを活用し,モデル構造を変更せずに一貫性を強化する。
- 周期的分離学習戦略により,剛体な幾何学的整合性と動的なシーンの流動性を両立させている。
- 評価の結果,World-R1は3次元整合性を大幅に向上させつつ,元の動画の品質を維持し,動画生成とスケーラブルなワールドシミュレーションのギャップを埋めることが示された。
BrainDINO:汎用的な臨床表現学習のための脳MRI基盤モデル [cs.LG, cs.AI, cs.CV]目的:脳MRIの汎用的な臨床表現学習
- 脳MRIは神経科学および臨床応用の基盤技術であり,疾患の診断や治療に不可欠である。
- 既存の機械学習手法は特定のタスクに特化し,大量のラベル付きデータが必要となる点が課題である。
- ラベル付きデータが少ない状況でも,多様な脳MRIタスクに対応可能な汎用的な表現学習を目指す。
- BrainDINOは,約660万枚のラベルなし脳MRI画像を用いて自己教師あり学習を行い,多様なタスクで高い性能を示した。
- 腫瘍セグメンテーション,神経変性疾患/発達疾患の分類,脳年齢推定など,幅広いタスクにおいて既存手法を上回る性能を達成した。
- 大規模な自己教師あり学習により,脳MRIの統一的な表現を獲得し,データ効率の良い画像解析の基盤を確立した。
科学実験画像の解読:知覚,理解,推論のためのSPURベンチマーク [cs.CV, cs.CE]目的:科学実験画像の知覚,理解,推論を評価するためのベンチマークSPUR
- 科学研究における画像データの重要性が増しており,その解析能力向上は不可欠である。
- 既存のAIモデルでは,科学実験画像の複雑な情報を正確に解釈することが困難である。
- 科学実験画像の多角的な評価を通じて,AIによる科学研究の支援能力を高める。
- SPURベンチマークは,数値,形態,情報特定といった多角的な視覚知覚評価を実現する。
- 複数のパネル間の複雑な関係性を理解する能力を評価し,高度な推論能力を検証する。
- 現在の多種多様なモデルの性能評価から,科学画像解釈におけるAIの課題が浮き彫りになった。
MultiSense-Pneumo:リソース制約環境における肺炎スクリーニングのためのマルチモーダル学習フレームワーク [cs.CV, cs.AI, cs.LG]目的:肺炎スクリーニングのためのマルチモーダル学習フレームワーク
- 肺炎は依然として世界的な罹患と死亡の主要な原因であり,特に低資源地域での医療アクセスが課題。
- 既存の計算手法は単一のモダリティに依存することが多く,多様な臨床情報を統合できていない。
- 多様な臨床情報を統合し,リソース制約環境における肺炎スクリーニングを支援するフレームワークを開発。
- MultiSense-Pneumoは,症状記述,咳の音声,音声言語,胸部レントゲンを統合するマルチモーダルな研究プロトタイプ。
- 胸部レントゲン経路は,合成ドメインシフト下で高い性能を示したが,咳音響の異常検知率は低いという課題も明らかになった。
- MultiSense-Pneumoは,スクリーニングとトリアージの研究のためのフレームワークおよびコンポーネントレベルのプロトタイプとして意図されている。
PHALAR:学習された音楽オーディオ表現のための位相表現 [cs.SD, cs.AI, cs.LG, eess.SP]目的:音楽オーディオのステム検索における精度向上
- 音楽制作において,楽曲の構成要素であるステムの分離・編集は不可欠である。
- 既存手法では,時間情報を考慮しないため,ステム検索の精度に限界があった。
- 時間情報を活用し,より高精度なステム検索を実現すること。
- PHALARは,最先端モデルと比較して約70%の精度向上を達成し,パラメータ数を50%以下に抑え,学習速度を7倍に向上させた。
- 学習されたスペクトルプーリング層と複素数値ヘッドにより,ピッチおよび位相不変性を強化している。
- MoisesDB,Slakh,ChocoChoralesの各データセットで最先端の性能を示し,人間の判断との相関も高い。
UniPCB:生成を支援するPCB欠陥検査フレームワーク [cs.CV]目的:PCB欠陥検査のための生成支援フレームワーク
- 産業用IoTにおいて,製品信頼性を確保するためには,知的でリアルタイムなPCB欠陥検査が不可欠である。
- 既存システムは,欠陥サンプルの不足と不均衡,複雑な回路背景下での特徴表現の不十分さという課題を抱えている。
- 不足する欠陥サンプルを生成し,高精度な欠陥検出を実現することで,これらの課題を解決する。
- 提案手法UniPCBは,DsPCBSD+データセットにおいて,mAP@0.5で98.0%,mAP@0.5:0.95で61.8%を達成し,既存手法を上回った。
- 生成部においても,FIDが129.61,SSIMが0.619と,既存の条件付き生成アプローチを凌駕する性能を示した。
- マルチモーダルな条件抽出と拡散U-Netへの埋め込みにより,構造的に整合性の高い欠陥サンプル生成を可能にした。
ScriptHOI:オープンボキャブラリにおける人間と物体のインタラクション検出のためのスクリプト化された状態遷移の学習 [cs.CV]目的:オープンボキャブラリにおける人間と物体のインタラクション検出の性能向上
- 人間と物体のインタラクション検出は,ロボティクスや画像理解において不可欠な技術である。
- 既存手法は,物体の特性やフレーズの共起関係に偏りやすく,視覚的証拠に基づかない誤検出が生じやすい。
- 視覚的証拠とインタラクションフレーズの関係を構造的に捉え,誤検出を抑制することを目指す。
- 提案手法ScriptHOIは,インタラクションフレーズを状態遷移として表現することで,視覚的証拠との整合性を評価する。
- 状態遷移の網羅性と矛盾を評価し,HOIの予測を調整することで,未知のインタラクションの認識精度を向上させる。
- HICO-DET,V-COCO等のデータセットで,特に稀なインタラクションや未学習インタラクションの認識率が大幅に向上することが示された。
D-OPSD:ステップ蒸留拡散モデルの継続的な調整のためのオンポリシー自己蒸留 [cs.CV]目的:ステップ蒸留拡散モデルにおける継続的な教師あり微調整のための新しい学習パラダイム
- 高性能な画像生成モデルは,多段階モデルから少段階モデルへと移行しており,効率性が重要視されている。
- 少段階モデルの直接的な継続学習は,その少段階推論能力を損なうという課題がある。
- D-OPSDは,元の少段階推論能力を維持しつつ,新しい概念やスタイルを学習することを目指す。
- D-OPSDは,モデル自身を教師と生徒として,異なるコンテキスト下で学習させるオンポリシー自己蒸留プロセスである。
- 生徒はテキスト特徴のみ,教師はテキストプロンプトとターゲット画像のマルチモーダル特徴で条件付けされる。
- モデル自身の軌跡と自己監督のもとで最適化することにより,少段階推論能力を維持した学習が可能となる。
VT-Bench:視覚・表形式マルチモーダル学習のための統一ベンチマーク [cs.CV, cs.AI]目的:視覚・表形式データを用いた識別的予測と生成推論タスクの標準化
- 医療や産業など,重要な分野で表形式データが不可欠であり,その活用が求められている。
- 視覚と表形式データを組み合わせたマルチモーダル学習は発展途上であり,ベンチマークが不足している。
- 視覚・表形式データのマルチモーダル学習を促進するための統一的な評価基準を提供する。
- VT-Benchは,9つの分野にわたる14のデータセット(75万件以上)を集約した初の統一ベンチマークである。
- 既存の23モデルを評価し,視覚・表形式学習の課題を浮き彫りにした。
- 本ベンチマークが,より強力なマルチモーダル基礎モデルの開発を促進することが期待される。
隠して見せる:VLM蒸留における視覚的アンカー思考のための推論接頭辞マスキング [cs.CV, cs.AI, cs.CL]目的:視覚的証拠に基づく推論能力の向上
- VLMは,画像とテキストを統合し高度な推論を行うため,多様な応用が期待されている。
- 大規模VLMの推論コストが高く,軽量なモデルへの知識蒸留が課題となっている。
- 蒸留時に推論接頭辞をマスキングし,視覚情報への依存を高めることで解決を目指す。
- 提案手法は,既存のオープンソースVLM,蒸留法,自己蒸留法を凌駕する性能を示した。
- 実験結果から,蒸留過程において学生モデルの視覚情報の利用が促進されていることが確認された。
- 推論接頭辞のマスキングと,マスキングスケジュールの自動調整が効果的であることが示された。
脳が食い違うとき:アミロイドPET合成における構造的MRIの生物学的曖昧性 [cs.CV]目的:アルツハイマー病におけるアミロイド評価のための非侵襲的代替手段としての構造的MRIからアミロイドPETへの合成における生物学的曖昧性の検証
- アルツハイマー病の早期診断と治療介入は,患者の生活の質を向上させる上で不可欠である。
- MRIからPETへの合成モデルの性能にはばらつきがあり,複雑な構造が必ずしも性能向上に繋がっていない。
- MRIとPETで捉える病理の違いから生じる曖昧性が合成性能を制限することを示す。
- MRIとPETのペアデータセットを,アミロイドと神経変性の状態別に層別化することで,生物学的に曖昧性のないマッピングが学習可能であることを示した。
- データセットに曖昧性が導入されると,性能が低下し,データの分布の曖昧さが性能を制限することが明らかになった。
- 血漿バイオマーカーなどの追加情報を導入することで,曖昧性が解消され,性能が向上し,安定性が回復した。
テキストプロンプトを超えて:視覚-視覚生成を統一的パラダイムとして [cs.CV]目的:視覚的仕様による生成モデルの条件付け
- 人間の創造活動は視覚情報を介して行われることが多い。それを再現するためには,視覚情報の活用が不可欠である。
- 既存の画像生成モデルはテキストプロンプトに依存しており,空間構造や細部表現の伝達に限界がある。
- テキストを介さず,視覚情報のみで生成モデルを制御する新しい方法を確立することを目指す。
- V2V-Zeroは,既存の画像生成モデルに視覚的仕様ページを直接利用するインターフェースを導入し,追加学習なしで高い性能を実現した。
- Simple-V2V Benchを用いた評価により,属性の付与は得意だが,コンテンツ生成や構造制御には課題が残ることが示された。
- メカニズム解析の結果,生成時の注意機構は主に視覚情報に集中しており,視覚的条件付けが有効であることが確認された。
ベイズ統計を用いたシナプスの生体内追跡:ジョイントポアソン逆畳み込みと双曲幾何学的登録 [cs.CV]目的:シナプスの生体内追跡手法
- 学習や記憶形成においてシナプスが動的に再構成される過程は,神経科学において重要である。
- 生体内イメージングでは,低い信号対雑音比,組織運動,蛍光変動,点像収差が課題となる。
- これらの課題を克服し,高密度なシナプス領域における追跡を可能にすることを目的とする。
- 本研究では,シナプスを移動する点光源としてモデル化する新しいベイズ統計的フレームワークを提案した。
- 提案手法は,画像のノイズ除去,逆畳み込み,蛍光強度推定,組織運動補正を同時に行う。
- シミュレーションデータとマウスの生体内イメージングデータを用いて,その有効性を検証した。
MiVE:参照画像に基づいた動画編集のための多段階ビジョン言語特徴 [cs.CL, cs.CV]目的:参照画像に基づく動画編集における性能向上
- 動画編集技術は,コンテンツ制作や多様なメディア表現において不可欠な役割を担う。
- 既存手法は,モダリティギャップや空間情報の損失といった課題を抱えていた。
- 多段階特徴抽出により,これらの課題を克服し,より高精度な編集を実現する。
- MiVEは,Qwen3-VLから階層的な特徴を抽出し,自己注意拡散Transformerに統合することで,モダリティ間の不一致を解消した。
- 人間による評価において,MiVEは最上位の成績を収め,既存手法や商用システムを上回る性能を示した。
- MiVEは,局所的な空間情報とグローバルな意味情報を効果的に活用し,高精度な動画編集を実現した。
Visual MambaはAI生成画像検出を改善するか:詳細な調査 [cs.CV, cs.CR, cs.SI]目的:AI生成画像検出のためのVision Mambaモデルの評価と既存手法との比較
- 画像生成技術の進歩は,誤情報拡散やプライバシー侵害等のリスクを生むため,検出技術が重要である。
- AI生成画像検出において,既存手法では十分な精度や効率性が得られていない場合がある。
- Vision MambaのAI生成画像検出における潜在能力を評価し,実用性や限界を明らかにする。
- Vision Mambaモデルは,代表的なCNN,ViT,VLMベースの検出器と比較して,AI生成画像検出において競争力のある性能を示した。
- データセットや生成モデルの種類によって性能に差が見られたが,Vision Mambaは高い汎用性を持つ可能性が示唆された。
- 本研究は,AI生成画像と現実の画像を区別する検出システムの強化に貢献し,偽情報対策に役立つと考えられる。
EgoExo-WM: エゴ世界モデルのためのエクソ動画の活用 [cs.CV]目的:エクソ動画からの構造化された人体ポーズ抽出とエゴ視点動画への変換
- ロボットの計画や拡張現実ガイダンスなど,エゴ世界モデルの応用範囲は広い。
- エゴ視点データの学習データ量は限られており,人間の行動を捉えるのが難しい。
- エクソ動画を活用し,エゴ世界モデルの予測精度と計画性能の向上を目指す。
- エクソ動画から抽出した人体ポーズ情報を活用し,エゴ視点動画を生成する手法を提案。
- 提案手法により,エゴ世界モデルの学習に豊富なエクソ動画データを利用可能になった。
- 生成されたデータを用いた学習により,予測精度と下流タスクである計画性能が大幅に向上した。
プライバシー補助金:ノイズを伴う注文フロー観察下でのカイルのλ [cs.GT, cs.CR, math.PR, q-fin.TR]目的:プライバシー保護暗号資産取引所における価格形成メカニズムと情報構造
- 暗号資産取引所の透明性は市場効率を高める一方,プライバシー侵害のリスクを伴う。
- 既存研究では,プライバシー保護メカニズムが価格形成と市場参加者の戦略に及ぼす影響が不明確である。
- ノイズを伴う注文フロー観察下における均衡価格とトレーダーの戦略を分析し,プライバシー保護のコストを定量化すること。
- プライバシーノイズが価格インパクト係数とインフォームドトレーダーの戦略に与える影響は,単一の因子で表現される。
- プロトコルのLPプールからトレーダーへの毎期ごとの移転額(「プライバシー補助金」)は,閉形式で導出された。
- 本研究は,差分プライバシーを実装したシールドAMMなどのプライバシー保護型取引所の設計に貢献する。
ワールドモデルにおける識別可能なトークン対応 [cs.LG, cs.AI, cs.CV]目的:長期的なロールアウトにおける時間的な不整合の克服
- 視覚的強化学習において,トークンベースのtransformerワールドモデルは優れた性能を示す。
- 長期ロールアウト時に,オブジェクトの複製,消失,変化といった時間的不整合が課題となる。
- トークンの時間的な持続性を考慮し,フレーム間のトークン対応を明確化することで問題を解決する。
- 提案手法は,既存のバックボーンに容易に組み込むことが可能である。
- Craftax-classicベンチマークにおいて,従来の最高性能を大きく上回る72.5%の報酬と35.6%のスコアを達成した。
- 4つの難易度の高いベンチマークで最先端の性能を示した。
Xiaomi Auto Worldモデル:再構成と生成を統合した自動運転用複合ワールドモデル [cs.AR, cs.CL, cs.SC, math.AG, cs.CV]目的:自動運転のためのワールドモデルにおける,ワールド表現とワールド生成の二つの主要な能力
- 自動運転の実現には,周囲環境の正確な理解と将来予測が不可欠である。
- 既存のワールドモデルは,高精度な環境表現と効率的な未来予測を両立することが困難である。
- 環境の再構成と未来予測を統合し,自動運転におけるシミュレーションやデータ合成を支援すること。
- WorldRecと呼ばれる再構成アーキテクチャを提案し,3D空間における疎なシーンクエリを用いて,高精度かつコンパクトな3Dガウスシーン表現を実現した。
- WorldGenという二段階の学習フレームワークを開発し,教師あり学習と因果的ファインチューニングによって,高品質なオンライン因果ビデオ生成を可能にした。
- WorldRecとWorldGenを統合したJWMを導入し,生成の安定性,フレーム間の一貫性,視覚的な忠実度を向上させた。
RAVE:大規模マルチモーダルモデルにおける視覚的注意の再配分 [cs.CV]目的:大規模マルチモーダルモデルにおける視覚的注意の再配分機構
- マルチモーダルモデルの性能向上は,画像とテキストの理解を深める上で重要である。
- 既存の注意機構では,視覚的情報の配分が最適でなく,性能を制限する可能性がある。
- 視覚的注意を効率的に再配分し,マルチモーダルモデルの性能を向上させる。
- RAVEは,視覚キーに対する学習されたクエリキーバイアスを追加する軽量な機構である。
- RAVEは,バックボーンアーキテクチャの変更を必要とせず,エンドツーエンドで学習可能である。
- マルチモーダルベンチマークにおいて,RAVEは標準的な注意機構よりも平均で3ポイント向上し,特に視覚的理解が重要なタスクで効果が大きかった。
グロステン・ミルグロムモデルにおけるプライバシー補助金:双方向スプレッドと福祉 - ノイズ方向観測下 [cs.CE, cs.CL, cs.GT, cs.CR, math.PR, q-fin.TR]目的:プライバシーメカニズム下での取引スプレッドと福祉の分解
- 金融市場の流動性維持は,効率的な価格発見と取引の円滑化に不可欠である。
- 市場参加者の情報非対称性は,価格歪みや取引コストの発生を引き起こす。
- プライバシー保護メカニズムが取引に及ぼす影響を定量的に評価すること。
- 市場における双方向スプレッドは,情報を持つトレーダーの割合と価値範囲,そしてプライバシーレベルに依存して決定される。
- 取引ごとに流動性プールからトレーダーへの移転が生じ,これは「プライバシー補助金」として解釈できる。
- この結果は,ガウス分布から離散二値モデルへの拡張を通じて,プライバシー補助金の概念の頑健性を示す。
マージンと境界に注意せよ:あなたの蒸留データセットは本当に頑健か? [cs.CV]目的:データセット蒸留における頑健性の確保
- データセットの規模縮小は,効率的な学習を可能にする重要な技術である。
- 既存の蒸留手法は,精度向上に偏りがちで,頑健性が十分に考慮されていない。
- 低マージン領域の敵対的サンプルに焦点を当て,クラス間分離を明示的に拡大する。
- 提案手法C$^2$Rは,敵対的サンプルを考慮したカリキュラムと対照的な頑健性目的関数を組み合わせる。
- 頑健性マージンの観点から,サンプルごとの頑健性ヒンジを近似する摂動スコアを導出し,頑健性エラーに直接影響する最小マージンの敵対的サンプルを優先する。
- CIFAR-10/100,Tiny-ImageNet,ImageNet-1Kサブセットでの実験により,C$^2$Rが既存の頑健な蒸留手法を平均2.8%上回る最高の頑健精度を達成することが示された。
RISE:自己進化型ビジョン言語モデルの信頼性向上 [cs.CV]目的:ビジョン言語モデルの自己進化による性能改善
- ビジョン言語モデルはマルチモーダル推論能力で目覚ましい進歩を遂げているが,更なる性能向上には大規模な教師データが不可欠である。
- 既存の自己進化型手法では,役割交代の粒度,質問の質の低下,質問タイプの偏りなどが課題となり,効率性と信頼性に限界がある。
- RISEは,これらの課題を解決し,ラベルなし画像からの信頼性の高い自己進化を可能にする。
- RISEは,細かい役割交代,品質監視,スキルを考慮した動的バランス調整という3つの要素を組み合わせることで,自己進化の効率と信頼性を向上させている。
- 複数のVLMバックボーンとベンチマークにおける実験により,RISEがベースモデルを一貫して改善し,広範かつ持続的な性能向上を実現することが示された。
- 提案手法は,効率的な相互作用と高い質問の信頼性を実現し,モデルのスキルカバレッジを維持しながら自己進化を促進する。
拡散モデルにおける記憶と劣化生成による検出・緩和 [cs.CL, cs.CV]目的:拡散モデルにおける記憶の検出と緩和
- 画像生成技術の発展に伴い,プライバシーや著作権保護の重要性が高まっている。
- 拡散モデルが学習データを記憶する傾向があり,情報漏洩のリスクが存在する。
- 生成時に発生する数値的不安定性に着目し,記憶を検出し緩和する手法を開発する。
- 記憶は内部的な数値不安定性を引き起こし,視覚的な欠陥として現れることが示された。
- 潜在的更新ノルムに基づいた安定性領域を導入し,生成時の安定性を定量的に評価した。
- 提案手法は,プロンプトやガイダンスを変更せずに記憶を抑制し,高い検出性能と低いオーバーヘッドを実現した。
モデル解釈における無視されてきたベースライン [cs.CV, cs.SE]目的:モデル解釈のタスクと解釈原理の再定式化
- 機械学習モデルの信頼性向上が不可欠であり,解釈可能性が鍵となる。
- 既存の研究ではベースラインが無視されており,不正確な解釈を招く。
- ベースラインの重要性を明確化し,より正確なモデル解釈を目指す。
- 既存のモデル解釈手法はベースラインを無視する傾向があり,解釈の精度が損なわれる。
- 勾配ベースの手法,Integrated Gradients (IG)法,テイラー展開を統一的に捉え,各手法のベースラインを特定した。
- IGを修正し,明確なベースラインを持つ新たな解釈手法を開発し,より良い結果を得た。
AIを活用したビデオ監視による自殺リスク評価:メトロ駅における予防のための解釈可能なフレームワーク [cs.CL, cs.IR, cs.CV, cs.AI]目的:メトロ駅における自殺リスク評価のための解釈可能なフレームワーク
- 公共交通機関における安全確保は重要であり,特にメトロ駅での自殺予防は喫緊の課題である。
- ビデオ監視からの自殺リスク評価は,人間の行動理解,空間認識,時間的変化の把握が困難である。
- リアルな監視データを用いて,自殺リスクを蓄積された証拠から評価するフレームワークを構築し,早期介入を可能にする。
- 本研究では,人物追跡,行動認識,プラットフォームのセマンティックセグメンテーションを統合した自殺リスク評価タスクを定式化した。
- 提案フレームワークは,リアルな監視データで83.2%のROC-AUCを達成し,自殺リスク評価の複雑さを明らかにした。
- 解釈可能なAIシステムによる社会貢献の新たな方向性を示唆している。
GFSR: 幾何学的忠実性と空間的洗練による信頼性の高い車線検出 [cs.DB, cs.CV]目的:信頼性の高い車線検出のための手法
- 自動運転や運転支援システムの重要な要素であり,安全な走行に不可欠である。
- 既存手法は,複雑な実環境下で性能が低下し,誤検出や見逃しが発生しやすい。
- 幾何学的品質の評価と空間的洗練により,車線検出の精度とロバスト性を向上させる。
- 提案手法GFSRは,LaneIoUを用いて車線候補の幾何学的忠実性を評価し,分類確信度と融合させることで,より信頼性の高い車線検出を実現した。
- 適応的なゲート機構により,サンプリング点間の相関性を強化し,複雑な形状の車線や遠方の車線に対する最適化を促進した。
- CULaneおよびCurveLanesの実験で,GFSRが最先端の性能を達成し,特にCurveLanesにおいて高いF1_50スコア(87.35%)を記録した。
拡散報酬を用いたDiff-Instruct:原理に基づいたワンステップ生成器RL [cs.CV, cs.AI, cs.LG]目的:ワンステップ画像生成器の強化学習における報酬と生成ダイナミクスの不整合の解消
- リアルタイム性を重視した画像生成技術の発展が求められており,効率的な生成モデルが重要である。
- 既存手法では,報酬最適化と生成ダイナミクスの不一致により,画像品質が損なわれる場合がある。
- 報酬と生成ダイナミクスを整合させ,画像品質を維持しつつ報酬を最大化することを目指す。
- 提案手法であるDIDRは,積分KL最小化に基づき,ノイズレベル全体で報酬を伝播させることで,クリーン画像RLHFと同等の最適化を実現する。
- DIDRは,既存のワンステップSDXLベースラインをPareto最適化し,優れた性能を示す。
- 6B DiTバックボーンへの転移実験では,50ステップの教師モデルを超える性能をワンステップで達成する。
自己視点3D近接推論における認知階層的評価ベンチマーク EgoProx [cs.CY, cs.HC, cs.MA, cs.CV]目的:自己視点3D近接推論のための評価基準
- 人間は日常生活で,知覚と行動を導くために3D空間における自己と物体の近接性について常に推論している。
- マルチモーダル大規模言語モデル(MLLM)が,このような身体化された3D推論を実行できるかは不明である。
- MLLMにおける空間知識の活用能力を評価し,空間的推論VQAの課題を明らかにする。
- 本研究では,意図,探索,利用,行動連鎖の推論という認知連鎖に沿ったタスクを含む,自己視点3D近接推論のベンチマーク EgoProx を提案した。
- 多様かつ一貫した質問応答ペアを大規模に生成するエージェントベースのデータエンジンを設計し,主要なMLLMをEgoProxで評価した。
- ドメイン横断的な改善が見られ,MLLMはある程度の空間知識を持つものの,空間的推論VQAの活用には苦戦していることが示された。
合成画像検索における曖昧性の解消:キャリブレーションされたインタラクションによるアプローチ [cs.AR, cs.DC, cs.SY, eess.SY, cs.RO, cs.CV]目的:合成画像検索における曖昧性の解消
- 画像検索技術は,多様な情報を必要とするタスクにおいて不可欠であり,その精度向上が求められている。
- 既存手法は,クエリと単一のターゲット画像を対応付ける前提にあり,曖昧なクエリに対する対応が不十分である。
- クエリの意図を確率的に解釈し,曖昧さを考慮した検索システムの構築を目指す。
- 提案手法は,適合率を維持しつつ,曖昧なクエリに対して効率的な対話による解決を可能にする。
- 確実性保証を備えた候補集合を返すことで,曖昧さの度合いを定量化し,適切な質問を提示する。
- 新たなベンチマークとユーザーシミュレーターを用いて,提案手法の有効性を検証した。
施設配置メカニズム設計:決定論的障壁の打破 [cs.GT]目的:戦略的誠実性を保ちつつ,社会的コストを最小化する施設配置メカニズム
- 施設配置問題は,都市計画,物流,資源配分など,様々な分野で重要な課題である。
- 決定論的メカニズムでは,一定の近似率を超えることが難しく,性能の限界があった。
- ランダム化によって,既存の決定論的メカニズムよりも優れた近似率を達成することを目指す。
- 2次元ユークリッド空間において,提案するランダム戦略的メカニズム(RR-CWM)は,期待される近似率が4/π(約1.27)となり,既存の最適な決定論的メカニズム(約1.41)を上回る。
- 高次元空間においても,RR-CWMの期待近似率は[1.41 - O(1/√d), 1.547]の範囲に収まることが示された。
- 学習支援設定やGeneralized Random Dictator (GRD)メカニズムの限界についても分析し,提案メカニズムの優位性を示した。
検出器が失敗する場所:汎化性能の高いAI生成画像検出のための生成空間の探査 [cs.CV]目的:AI生成画像検出における汎化性能の向上
- AI技術の発展に伴い,生成された画像の識別が重要になっている。
- 既存の検出器は,未知の生成モデルに対して汎化性能が低いという課題がある。
- 生成空間の探索を通じて,検出器の弱点を明らかにし,汎化性能を高める。
- PROBEは,生成器を操作し,検出器が分類に苦慮する画像を生成する。
- 生成された画像を用いて検出器を再学習することで,未知の生成モデルに対する汎化性能を向上させる。
- 複数のベンチマークにおいて,PROBEがAI生成画像検出の汎化性能を効果的に向上させることが示された。
PDEInvBench:偏微分方程式逆問題に対するニューラルネットワークの包括的なデータセットと設計空間探索 [eess.SY, cs.SY, cs.LG, cs.CV, physics.comp-ph]目的:偏微分方程式逆問題のためのニューラルネットワーク設計空間探索
- 偏微分方程式は自然科学・工学の基盤であり,その逆問題解決は重要である。
- 偏微分方程式の逆問題に対する機械学習のベンチマークデータセットが不足している。
- 偏微分方程式逆問題におけるニューラルネットワークの性能向上を目指す。
- PDEInvBenchという包括的なベンチマークデータセットを公開した。
- 2段階の学習(教師あり学習とテスト時微調整)が最適な性能を示す。
- 偏微分方程式の導関数を入力特徴量として組み込むことで精度が向上する。
- 初期条件の多様性を高めることが,パラメータ範囲の拡大よりも効果的である。
テトリス:効率的かつ高精度なビデオオブジェクトトラッキングのためのタイルレベルサンプリング [cs.CL, cs.CV, cs.DB]目的:ビデオオブジェクトトラッキングにおける効率的かつ高精度なトラック抽出
- ビデオデータ解析において,オブジェクト追跡は重要な役割を担う。追跡結果の再利用は効率化に不可欠である。
- 既存のトラック抽出システムは計算コストが高く,高精度な追跡が困難である。
- テトリスは,不要な領域を削減し,検出器の呼び出し回数を最小限に抑えることで,この問題を解決する。
- テトリスは,ビデオをタイル状のポリオミノデータモデルに分解し,空間的・時間的なプルーニングを行う。
- 7つの静止画ビデオデータセットにおいて,テトリスはフルフレーム参照パイプラインと比較して5%以内の追跡精度損失で済んだ。
- テトリスは,既存システムと比較して最大17.4倍,参照パイプラインと比較して最大68.8倍の処理速度向上を達成した。
ControlLight:制御可能,一貫性があり,汎用性の高い低照度画像強調へ [cs.CV]目的:低照度画像強調に関する制御可能性,一貫性,汎用性の高いフレームワーク
- 画像処理技術は,監視,医療,自動運転など多岐に渡る分野で不可欠である。
- 既存手法は学習データが限定的で,実環境での汎用性や制御性に課題がある。
- 実環境画像に対する制御性と一貫性を向上させ,汎用的な低照度画像強調を実現する。
- 本研究では,連続的な照明強度による教師データを用いた大規模データセットを構築した。
- 画像構造を維持するミスマッチメント対応加重フローマッチング損失を導入し,一貫性を確保した。
- ControlLightは,実環境画像に対し,柔軟な強度制御による高品質な強調を可能にした。
コントラストから一貫性へ:イベントベースの連続時間光流推定の再考 [cs.CV]目的:連続時間光流推定のためのハイブリッド教師ありフレームワーク
- 動的な視覚知覚において,連続的な光流推定は基本的な課題である。イベントカメラの特性を活用し,高精度なモーションモデリングを目指す。
- 既存のコントラスト最大化フレームワークは,時間的な連続性や構造的な一貫性を軽視し,複雑な動き下で歪んだ軌跡を生み出す問題がある。
- 時間的・空間的な構造的一貫性を重視し,物理的に整合性のとれたモーション推定を実現することを目指す。
- 提案手法は,空間的構造の安定性と軌跡の連続性を同時に強化するSpatio-temporal Structural Consistency (STSC) 原則に基づいている。
- 双方向補完的なマルチスケールアーキテクチャとカリキュラムガイド付きハイブリッド学習戦略により,表現力とロバスト性を向上させている。
- 複数のベンチマークにおいて,連続時間および標準光流推定の両方で最先端の性能を達成し,提案手法の有効性を示している。
連続時間カイルモデルにおけるプライバシー補助金:ノイズ攪乱注文フロー観察下における累積的な厚生 [cs.GT, cs.CR, math.PR, q-fin.TR]目的:プライバシー補助金の定量化
- 市場の効率性と情報非対称性が重要なテーマであるため。
- プライバシー保護と効率的な市場運営の両立が課題である。
- プライバシーノイズが存在する環境下での最適な補助金水準を特定する。
- 連続時間カイルモデルにおいて,プライバシー補助金を理論的に導出した。
- 補助金は,注文フロー観察と価格観察の類似性を示す損失対リバランス(LVR)との構造的二重性を持つ。
- これにより,プライバシー集約型情報環境下での確実な手数料設定の定量化プログラムが完了する。
AI-T2I:拡散モデルにおける集約・分離型クロスアテンションによるテキストから画像への合成 [cs.CE, cs.CL, cs.CL, cs.CV]目的:テキストから画像への合成における,正確なテキストと画像の対応関係の確立
- 画像生成技術の進展に伴い,テキストによる画像制御の需要が高まっている。
- 拡散モデルは画像生成に優れる一方,クロスアテンションマップでのテキストと画像の正確な対応が課題である。
- 同一対象のトークン活性化の散乱問題を解決し,正確なテキスト-画像対応を実現する。
- 提案手法AI-T2Iは,集約損失と分離損失を用いることで,トークン活性化の散乱を抑制し,対応関係を明確化する。
- 複数のベンチマークにおいて,AI-T2Iは最先端技術を上回る性能を示すことが確認された。
- AI-T2Iは,レイアウト制御やパーソナライズド生成など,他のタスクへの優れた汎化能力を示す。
MuNet:単一画像からの3D人体メッシュ復元と3D衣服人体再構成のための相互共生ネットワーク [cs.CV, cs.AI]目的:3D人体メッシュ復元と3D衣服人体再構成の共同最適化
- 人体理解は,ロボット工学や仮想現実など,幅広い分野で不可欠な要素である。
- 既存研究では,3D人体モデルの復元と衣服の再構成が分離して行われており,最適化の潜在的な利点が活かされていない。
- 単一画像から,3D人体と衣服を同時に,そして相互に補完し合いながら再構成することを目指す。
- MuNetは,3D人体メッシュと衣服を表現するための統一的な表現として2多様体グラフを採用している。
- 提案手法は,グラフ畳み込みネットワークを用いて初期グラフを徐々に変形させ,詳細な3D衣服人体モデルを生成する。
- MuNetは,複数のベンチマークデータセットで最先端の性能を達成し,その有効性が実証された。
CosyEdit2:音声編集に特化した強化学習がゼロショットTTSの性能向上を可能にする [cs.SD]目的:音声編集とゼロショットTTSの性能向上
- 音声合成技術は,人間と機械の自然な対話を可能にする上で不可欠である。
- 既存の音声編集技術は,編集データの質や最適化の粒度が粗く,性能が制限されている。
- 本研究は,高品質な音声編集とゼロショットTTSを実現するための新たなアプローチを提供する。
- CosyEdit2は,二段階のポストトレーニングフレームワークにより,音声編集の性能を大幅に向上させる。
- このモデルは,ターゲット音声なしのデータを用いて編集に特化した強化学習を行うことで,より自然な編集を可能にする。
- CosyEdit2は,音声編集性能の向上に加え,ゼロショットTTSの能力も向上させることを明らかにした。
