arXiv雑要約
画像・音声 - 2026/05/14 公開
DeCo-DETR:効率的なオープンボキャブラリ物体検出のためのデカップルド認知DETR [cs.CV]目的:オープンボキャブラリ物体検出の効率化
- 物体検出は,画像認識の基礎であり,様々な応用分野で不可欠な技術である。
- 既存のオープンボキャブラリ物体検出は,計算コストが高く,汎化性能と既存カテゴリの検出精度とのトレードオフがある。
- 事前学習済みLVLMを用いた効率的な意味表現と,意味推論と局在化の分離による検出性能向上を目指す。
- DeCo-DETRは,領域レベルの記述から構築された階層的な意味プロトタイプ空間を用いることで,効率的かつ再利用可能な意味表現を実現した。
- フレームワークは,意味推論と局在化を分離した並列最適化により,アライメントと検出を効果的に分離した。
- 標準的なOVODベンチマークにおいて,ゼロショット検出性能と推論効率の両方において競争力のある結果を示した。
ZeD-MAP:バンドル調整誘導によるゼロショット深度マップを用いたリアルタイム航空画像処理 [cs.CL, cs.CV, cs.LG, cs.RO]目的:リアルタイム航空画像からの高精度な深度再構成
- 災害対応など時間的制約のある地理空間タスクには,リアルタイムな深度再構成が不可欠である。
- 広いベースライン,巨大な画像サイズ,テクスチャの少なさなどが深度再構成の課題となる。
- 拡散モデルの確率的推論による精度と時間的一貫性の問題を解決する。
- 提案手法ZeD-MAPは,バンドル調整を用いて拡散モデルの深度推定にメトリックガイダンスを与える。
- 約50mの高度で実施した実測データを用いて評価した結果,水平方向で0.87m,垂直方向で0.12mの精度を達成した。
- 本手法は,従来の測量手法と同等の精度を維持しつつ,処理速度を大幅に向上させ,リアルタイム3Dマップ生成を可能にする。
画像は千の言葉に値するか? 視覚的証拠の必要性に応じた適応型マルチモーダルファクトチェック [cs.CL, cs.AI, cs.CV]目的:視覚的証拠の必要性に応じた適応型マルチモーダルファクトチェックフレームワーク
- 情報環境の健全性を支える重要な課題であり,誤情報の拡散を防ぐ上で不可欠である。
- マルチモーダルファクトチェックは進歩しているが,視覚的証拠の無条件な利用が必ずしも性能向上に繋がらない点が問題である。
- 視覚的証拠の必要性を判断し,それに応じて証拠を活用することで,ファクトチェックの精度を向上させる。
- 提案手法AMuFCは,視覚的証拠の必要性を分析するAnalyzerと,その分析結果に基づいて検証を行うVerifierの2つのモデルを連携させる。
- Analyzerの評価をVerifierの予測に組み込むことで,3つのデータセットにおいて検証性能が大幅に向上した。
- 視覚的証拠の選択的な利用が,マルチモーダルファクトチェックの精度向上に有効であることが示された。
視覚モデルに対するLLMベースの反復ニューロン説明 [cs.CL, cs.CV, cs.AI, cs.LG]目的:深層ニューラルネットワークにおける個々のニューロンの解釈
- AIの安全性確保には,複雑な意思決定プロセスを理解することが不可欠である。
- 既存手法では,概念語彙が限定的であったり,高次の概念を捉えきれなかったりする問題がある。
- 事前定義された語彙に縛られず,より包括的な概念の特定を目指す。
- LINEは,ImageNetでAUCを最大0.11,Places365で0.05改善し,最先端の性能を達成した。
- LINEは,事前定義された語彙で見落とされていた平均27%の新しい概念を発見した。
- LINEは,多義性の評価や,勾配依存型活性化最大化法に匹敵する視覚的説明を可能にする。
スキル条件付き視覚地理位置推定:ビジョン言語モデルのための [cs.CV, cs.AI]目的:ビジョン言語モデルにおける画像地理位置推定の構造化された地理的推論と自律的な自己進化能力の向上
- ビジョン言語モデルは画像地理位置推定で有望な結果を示すが,地理的知識の構造化と継続的な学習が課題である。
- 既存手法は暗黙的なパラメータメモリに依存し,古い知識や誤った推論を生み出す可能性がある。
- スキルグラフを用いた学習不要なフレームワークにより,地理的推論とバイアス修正の自動進化を目指す。
- GeoSkillは,GeoRCデータセットにおいて高い地理位置推定精度と推論の信頼性を示す。
- 多様な外部データセットにおいても優れた汎化性能を維持している。
- 自律進化機構は,検証可能な新しい地理的スキルを創出し,モデルの地理知識を拡張する。
NTIRE 2026 二重焦点画像における昼夜の雨粒除去チャレンジ:手法と結果 [cs.CV]目的:二重焦点画像における昼夜の雨粒除去に関するベンチマークの確立
- 画像認識技術は,自動運転や監視システムなど幅広い分野で不可欠である。
- 悪天候下での画像品質劣化は,これらのシステムの性能を大きく阻害する。
- 多様な条件下での雨粒除去技術の進展を促し,実用的な性能向上を目指す。
- 本チャレンジでは,168チームが登録し,17チームが最終的な解決策を提出した。
- 提出された手法は,Raindrop Clarityデータセットで高い性能を示し,雨粒除去技術の進歩を実証した。
- データセットは,訓練用14,139画像,検証用407画像,テスト用593画像で構成されている。
MMRareBench:稀少疾患マルチモーダル・マルチ画像医療ベンチマーク [cs.CV]目的:稀少疾患におけるマルチモーダルおよびマルチ画像臨床能力の評価
- 臨床現場では,稀少疾患の診断や治療は困難であり,高度な専門知識が求められる。
- 既存のベンチマークは一般的な疾患に焦点を当てており,稀少疾患のマルチモーダル・マルチ画像データに対する評価が不足している。
- 稀少疾患の診断・治療支援のためのマルチモーダル大規模言語モデルの性能向上を目指す。
- MMRareBenchは,診断,治療計画,画像間証拠の整合性,検査提案の4つの臨床ワークフローに沿った評価を提供する初の稀少疾患ベンチマークである。
- 23のMLLMを評価した結果,治療計画の性能が普遍的に低く,医療ドメインモデルはマルチ画像タスクにおいて汎用モデルに劣る傾向が示された。
- 医療分野でのファインチューニングは診断能力を向上させる可能性があるが,稀少疾患の証拠統合に必要なマルチ画像処理能力を低下させる可能性がある。
(スパース)注意を細部に:機械学習ベースの天気予報モデルにおけるスペクトル忠実性の維持 [cs.LG, cs.AI, cs.CV, physics.ao-ph]目的:機械学習ベースの天気予報モデルにおけるスペクトル劣化の軽減
- 気象予測の精度向上は,社会経済活動への影響が大きく,重要な課題である。
- 機械学習モデルは高い計算効率を持つ一方,スペクトル劣化という課題を抱えている。
- アンサンブル平均に対する決定論的学習や,粗い潜在グリッドへの圧縮による劣化を解消する。
- Mosaicモデルは,1.5度解像度で214Mパラメータを持ち,より高解像度なモデルと同等以上の性能を示す。
- 本モデルは,メッシュに沿ったブロックスパース注意機構を用いることで,長距離依存関係を線形コストで捉える。
- 24メンバー10日予報を単一のH100 GPUで12秒未満で実行可能であり,高い実用性を持つ。
SAM3は病理セグメンテーションの準備ができているか [cs.CV, cs.AI]目的:病理画像のセグメンテーションにおけるSAM3の能力評価
- デジタル病理は医療診断の精度向上に不可欠であり,画像セグメンテーションはその重要な要素である。
- 従来のセグメンテーション手法は,アノテーションコストが高く,汎化性能が低いという課題がある。
- SAM3の能力を評価し,病理画像セグメンテーションにおける適用可能性と限界を明らかにする。
- テキストのみのプロンプトでは,核概念が十分に活性化されないことが明らかになった。
- セグメンテーション性能は,視覚的プロンプトの種類と予算に大きく依存する。
- 少量学習は性能向上をもたらすが,SAM3は視覚的プロンプトのノイズに対して脆弱である。
一側マッチングにおけるパレート最適解の探索 [cs.GT]目的:一側マッチング問題におけるパレート最適解の集合
- 資源配分問題において,効率的な解決策の追求は重要である。
- 既存手法では,複数のパレート最適解が存在する場合,その構造が不明確になりやすい。
- パレート最適解の集合を効率的に特定し,公平性や厚生などの追加的な最適化を可能にすること。
- 提案手法であるInverse Top Trading Cycles Enumeration Algorithm (ITEA)は,一側マッチング問題のパレート最適解を網羅的に計算できる。
- ITEAは健全性と完全性を満たすことが証明されており,計算量においても,単純な総当たり法よりも効率的である。
- 実験結果から,ITEAは冗長なTTC計算を削減し,パレート最適解の集合を効率的に特徴付けることが示された。
プロトタイプに基づくテスト時適応によるビジョン言語モデルの性能向上 [cs.CV]目的:ビジョン言語モデルのテスト時適応手法の開発
- 事前学習とテストデータの分布差が,ビジョン言語モデルの性能低下を招くため,そのギャップを埋める技術が重要である。
- 既存のテスト時適応手法は,キャッシュサイズが大きくなるにつれて推論遅延が増加し,大規模な環境下で効率が悪化する問題がある。
- 本研究は,キャッシュを用いない効率的なテスト時適応手法を開発し,性能と速度の両立を目指す。
- 提案手法PTAは,クラス固有の知識プロトタイプを用いてテストサンプルから知識を蓄積する。
- PTAは,15の画像認識ベンチマークと4つのロバストな点群解析ベンチマークにおいて,最先端の性能を達成した。
- PTAは,CLIPの精度を10のクロスドメインベンチマークで65.64%から69.38%に向上させながら,推論速度の92%を維持した。
分散型リスク検知のためのメカニズム設計:厳格な独占禁止,ネットワーク上の連携,および逆効果となる義務化 [cs.GT, cs.LG]目的:リスク顧客を抱える競合企業における,分散型リスク検知メカニズムの設計
- 金融犯罪やサイバー攻撃など,リスク情報の共有は社会的に重要な課題である。
- 企業は自社の利益を優先するため,リスク情報の共有に消極的になりやすい。
- リスク情報の共有を促すインセンティブ設計により,社会全体の利益を最大化すること。
- 提案するメカニズム(TVA)は,企業の正直な報告を促し,リスク検知の効率を高める。
- ネットワーク構造を考慮した連携設計が,リスク情報の共有促進に重要であることが示された。
- 義務的な情報共有が,必ずしも社会厚生を向上させるとは限らず,場合によっては逆効果となる可能性がある。
ReLIC-SGG: オープンボキャブラリーシーングラフ生成のための関係ラティス補完 [cs.CV]目的:オープンボキャブラリーシーングラフ生成における関係の不完全性への対処
- 視覚的シーン理解の高度化に貢献し,より詳細なシーン記述を可能にする。
- シーングラフのアノテーションは不完全であり,有効な関係が欠落しやすい。
- 欠落した関係を推論し,より正確で完全なシーングラフを生成すること。
- ReLIC-SGGは,未アノテーションの関係を潜在変数として扱うことで,負例とみなす誤りを低減する。
- 関係の類似性や意味的な整合性を考慮したラティス構造により,欠落した関係を推論する。
- 従来のベンチマークにおいて,稀な関係や未知の関係の認識精度が向上した。
SS3D:ウェブ動画からのエンドツーエンド自己教師あり3D推定 [cs.CV]目的:ウェブ動画を用いた自己教師あり学習による3D推定パイプライン
- 3次元認識は,ロボット工学や自動運転など様々な分野で不可欠な技術である。
- 大規模な3Dデータセットの作成にはコストと時間がかかるため,教師なし学習が求められている。
- ウェブ動画という豊富なデータから効率的に3D情報を学習することを目指す。
- SS3Dは,単眼動画から深度,自己運動,内部パラメータを同時に予測する。
- ウェブ動画の特性に対応するため,多視点信号プロキシを用いたフィルタリングとカリキュラムサンプリングを導入した。
- YouTube-8Mでの事前学習により,ゼロショット転移学習とファインチューニング性能が向上した。
AmaraSpatial-10K:空間コンピューティングと具現化されたAIのための空間的・意味的に整合された3Dデータセット [cs.CV, cs.AI, cs.LG]目的:空間コンピューティングと具現化されたAIのための,最適化された3Dアセットのデータセット
- Web規模の3Dアセットは豊富だが,ロボティクスや空間コンピューティングへの応用には課題が多い。
- 既存の3Dアセットは,メトリックのスケール,ピボット,ジオメトリ,テクスチャに問題があり,実用性が低い。
- 高品質で,すぐに利用可能な3Dアセットのデータセットを構築し,評価方法を確立すること。
- AmaraSpatial-10Kは,Objaverseと比較してCLIP Recall@5を3.4倍向上させた(0.612 vs. 0.181)。
- Habitat-Sim環境下での物理シミュレーションの安定率は99.1%に達し,処理速度が約20倍向上した。
- Holodeckのアセットバンクとして利用した場合,重なりのないシーンを生成することができた。
リモートセンシングのためのエージェントAI:技術的課題と研究の方向性 [cs.CV]目的:リモートセンシングにおける多段階分析ワークフローの実現
- 地球観測は,予測からデータ,ツール,地理空間状態に関する協調的な推論を必要とする多段階分析へと移行している。
- 汎用的なエージェントAIの想定が地理空間ワークフローでは破綻し,エラーが静かに伝播する可能性がある。
- 地理空間状態,ツール認識,検証に基づく実行,妥当性に基づいた学習を含む,地球観測に特化したエージェント設計の原則を提示する。
- 汎用的なエージェントAIの前提が,地理空間ワークフローにおいて成立しない場合があることが明らかになった。
- エラーが段階的に伝播し,地理空間的な一貫性や物理的な妥当性が重要となることが示された。
- 地理空間,ワークフローの制約を考慮したエージェント設計が,信頼性の高い地球観測エージェントの構築に不可欠である。
コヒーレンス:インタリーブされたマルチモーダルコンテキストにおける詳細な画像-テキストアラインメントのベンチマーク [cs.HC, cs.CV, cs.AI]目的:インタリーブされたマルチモーダルコンテキストにおける詳細な画像-テキスト対応の評価
- マルチモーダル大規模言語モデルは急速に進歩しているが,実世界での応用には課題が残る。
- 既存のベンチマークは,単一または複数画像に焦点を当てており,インタリーブされたコンテキストの理解を評価できない。
- 本研究は,インタリーブされた画像-テキストコンテキストにおけるMLLMの詳細な理解能力を定量化する。
- COHERENCEは,4つの代表的なドメインからなるインタリーブされた画像-テキストコンテンツを含むベンチマークである。
- COHERENCEは6,161の高品質な質問を含み,MLLMの画像-テキスト対応回復能力を評価する。
- 6種類の誤り分析により,現在のMLLMの欠如する能力を特定し,詳細な失敗原因の特定を可能にする。
大規模言語モデルエージェントによる科学的可視化のためのインタラクションパラダイムの探求 [cs.HC, cs.AI, cs.GR, cs.HC]目的:科学的可視化タスクにおける大規模言語モデルエージェントの性能評価
- 科学研究におけるデータ可視化は,知見発見や仮説検証に不可欠である。
- 自然言語による指示から可視化ワークフローを生成する際の自動化は困難である。
- 多様なエージェントの特性を明らかにし,最適な可視化システム構築に貢献する。
- 汎用コーディングエージェントはタスク成功率が高いが,計算コストが大きいことが示された。
- ドメイン特化型エージェントは効率的かつ安定しているが,柔軟性に欠けることが明らかになった。
- 持続的なメモリは,CLIおよびGUI環境において反復試行における性能を向上させる。
TAFA-GSGC:プログレッシブ残差改良によるグループ化スケーラブルな点群ジオメトリ圧縮 [cs.CV]目的:点群ジオメトリのグループ化スケーラブル圧縮
- 点群データ利用拡大のため,効率的な圧縮技術が不可欠である。
- 既存のコーデックは固定レートに最適化され,適応的なレート変更にコストがかかる。
- 単一のビットストリームからマルチ品質の復号を可能にする圧縮手法を開発する。
- TAFA-GSGCは,単一のモデルとビットストリームで複数の品質レベルを復号可能である。
- ターゲットアラインド特徴集約モジュールにより,層間冗長性が低減される。
- PCGCv2と比較して,D1-PSNRおよびD2-PSNRでそれぞれ4.99%,5.92%のBDレート削減を達成した。
オープンセット教師あり異常検知のための混合プロトタイプフローマッチング [cs.CV, cs.LG]目的:オープンセット教師あり異常検知における異常の識別
- 異常検知は,安全性や信頼性が求められる様々な分野で重要な役割を果たす。
- 既存手法は,正常データの多峰性を捉えきれず,識別境界が曖昧になるという課題がある。
- 正常データの分布をより正確にモデル化し,正常-異常間の分離度を高めることを目指す。
- 提案手法MPFMは,正常データの特徴分布を構造化されたガウス混合プロトタイプ空間へ変換する連続的な変換を学習する。
- MPFMは,各成分が異なる正常クラスに対応するガウス混合事前分布として速度場を明示的にモデル化することで,モードを意識した分布輸送を実現する。
- 実験結果から,MPFMが多様なベンチマークにおいて最先端の性能を達成することが示された。
MooD:連続的な価値-覚醒モデルによる知覚に基づく効率的な感情画像編集 [cs.CV]目的:感情を喚起するための視覚コンテンツ修正
- 社会計算における感情認識の重要性が高まっており,画像編集はその応用先となる。
- 既存手法は効率性に課題があり,離散的な感情表現では複雑な感情を捉えきれない。
- 連続的な価値-覚醒(VA)値を用いて,効率的かつ微細な感情画像編集を実現することを目指す。
- 提案手法MooDは,VA値を編集指示として利用し,社会計算システムにおける感情画像編集の効率と制御性を向上させた。
- VA値を視覚的意味論に結びつける検索戦略と,知覚に基づく意味ガイダンスを統合することで,高品質な編集を可能にした。
- 多様なシナリオを網羅したVA注釈データセットAffectSetを構築し,モデルの最適化と評価を支援した。
テキストによる指示に基づいたクラス非特化型カウントにおける意味的根拠の評価:本当にカウントできているのか? [cs.CV]目的:テキストによる指示に基づいたクラス非特化型カウントにおける,モデルのテキスト理解と視覚的根拠の一致度評価
- 汎用的な物体カウントは,画像認識や物体検出の応用分野において重要な課題である。
- 既存の評価方法は,単一カテゴリ画像内のカウント誤差に焦点を当て,テキストと視覚的情報の関連性の評価が不十分である。
- テキスト指示に対する視覚的根拠の不備を明らかにし,信頼性の高いカウントシステムの構築を目指す。
- 最先端のクラス非特化型カウントモデルは,テキスト指示に基づいてカウント対象の物体クラスを特定するのに苦労していることが示された。
- 新しい評価フレームワークPrACo++とMUCCAデータセットを提案し,モデルのロバスト性と信頼性を評価する。
- 実験結果から,既存モデルは意味的根拠が弱いことが明らかになり,より高度なアーキテクチャの必要性が示唆された。
Ilov3Splat:ガウススプラッティングにおけるインスタンスレベルのオープンボキャブラリー3Dシーン理解 [cs.CE, cs.CV, cs.AI]目的:3Dシーンにおけるインスタンスレベルのオープンボキャブラリー理解
- 3Dシーン理解は,ロボティクスや拡張現実など,様々な分野で重要な役割を果たす。
- 従来の技術は,2Dレンダリング依存や点レベルのセマンティック関連付けにより,一貫性や精度に課題があった。
- ガウススプラッティングを用いて,言語記述に基づいた3Dシーンの物体認識とセグメンテーションを可能にすること。
- Ilov3Splatは,3Dガウススプラッティング上に構築された新しいフレームワークであり,シーンのジオメトリとセマンティック表現を同時に最適化する。
- マルチ解像度ハッシュ埋め込みを活用し,言語と3D空間を密に結びつけることで,言語による3Dシーンの理解を実現する。
- 標準的なベンチマークにおいて,既存のオープンボキャブラリー3D-GS手法を上回り,物体選択とインスタンスセグメンテーションで優れた性能を示す。
効率的な幾何制御による高解像度衛星画像合成 [cs.CV, cs.AI]目的:高解像度衛星画像合成の幾何制御
- 機械学習モデル開発において,衛星画像は土地被覆分類や災害監視に不可欠である。
- 高解像度衛星画像は入手が困難で高価であり,特に遠隔地や突発的な事象では不足している。
- 既存の拡散モデルを制御し,幾何学的な制御に対応した高解像度衛星画像合成を実現する。
- 提案手法は,ウィンドウ化されたクロスアテンションモジュールを活用することで,効率的な幾何制御を可能にした。
- 既存の制御技術と比較して,同等の性能を達成しつつ,幾何制御マップとの整合性が向上した。
- 現在の評価方法の限界を指摘し,整合性評価の重要性を強調した。
3DSS:逆レンダリングのための3次元表面スプラッティング [cs.RO, physics.flu-dyn, cs.GR, cs.CV]目的:マルチビュー画像からの物理ベース逆レンダリング
- 3次元復元技術は,現実世界のシーンをデジタル空間に再現する上で不可欠である。
- 従来の復元手法では,複雑な形状や材質の表現が困難であり,高い計算コストを要する場合がある。
- 表面スプラッティングの表面分離問題を解決し,高精度な3次元復元を実現することを目指す。
- 3DSSは,微分可能な表面スプラッティングレンダラーとして,形状,BRDF材質,照明を同時に復元する。
- 独自の被覆ベース合成モデルにより,アンチエイリアスされたシルエットと視認性の高い勾配を実現する。
- 最適化された表現は,点群からの表面再構築を通じてメッシュベースのワークフローに自然に接続できる。
MobileEgo Anywhere:汎用ハードウェアを用いた長時間の自己視点データのためのオープン基盤 [cs.CV, cs.CL]目的:長時間の自己視点データの収集を可能にするフレームワーク
- ロボット工学の発展には,現実世界の多様な環境下での学習データが不可欠である。
- 既存の自己視点データセットは収録時間が短く,複雑なタスク実行に必要な時間的依存性を捉えられていない。
- 本研究は,手軽に長時間・多様な自己視点データを収集できる環境を提供し,ロボットの汎化性能向上を目指す。
- MobileEgo Anywhereにより,200時間の多様な長時間の自己視点データセットを新たに公開した。
- 誰でも自己視点データを記録できるモバイルアプリケーションと,処理パイプラインをオープンソースとして提供した。
- 本研究は,データ収集の民主化を促進し,汎用的なロボットポリシー開発を加速させる。
PicoEyes:大規模多視点データセットを用いた複合現実のための統合的な視線推定フレームワーク [cs.CV]目的:複合現実における堅牢かつ汎用的な視線推定
- 視線推定は,ヒューマンコンピュータインタラクションやユーザビリティ評価において重要な役割を果たす。
- 既存の視線推定手法は,デバイスの姿勢変化や個人差,再装着時のキャリブレーションの必要性といった課題を抱える。
- 本研究は,これらの課題を解決し,より実用的で汎用性の高い視線推定フレームワークを構築する。
- PicoEyesは,単眼または両眼入力から3D眼パラメータ,眼領域セグメンテーション,視線方向,深度マップを含む全ての視線属性を直接予測する統合フレームワークである。
- 本研究で新たに構築した大規模な近眼多視点データセットは,多様な条件下での2Dおよび3Dアノテーションを網羅しており,フレームワークの性能向上に貢献する。
- 実験の結果,PicoEyesはキャリブレーションなし,キャリブレーションあり,再装着後,予測の各設定において,最先端の視線追跡手法を凌駕する性能を示すことが確認された。
水中のニューロモルフィック光流 [cs.CV, eess.IV]目的:水中のアジャイルな知覚のための重要な媒体である,運動場
- 水中環境は,従来の画像処理システムに厳しい制約を課すため,効率的なセンシング技術が求められている。
- 十分な水中のデータセットの不足が,水中環境における画像処理技術の開発を妨げている。
- 本研究は,水中のデータ不足という課題を,自己教師あり学習によって克服することを試みる。
- 提案手法は,最先端の技術と比較して競争力のある結果を達成し,計算効率に優れている。
- イベントカメラとスパイクニューラルネットワークを組み合わせることで,軽量でリアルタイムな水中知覚システムを実現した。
- ニューロモルフィックセンシングと水中知能を融合することで,資源制約のある水中エッジプラットフォームへの新たな道を開く。
軌道モデルの正規化 [cs.CV, cs.LG]目的:拡散モデルにおける少数ステップ生成の精度向上
- 生成モデルは画像やテキスト等の生成に応用され,近年急速に発展している分野である。
- 拡散モデルの少数ステップ生成は計算コスト削減に有効だが,精度が低下しやすいという課題がある。
- 正確な尤度計算を維持しつつ,少数ステップでの高精度な生成を実現することを目指す。
- 本研究では,各逆ステップを条件付き正規化フローとしてモデル化するNormalizing Trajectory Models (NTM) を提案した。
- NTMは,尤度計算を維持しつつ,わずか4ステップで高性能な画像生成を可能にした。
- また,モデル自身が出力するスコアに基づく自己蒸留により,軽量なノイズ除去器を訓練し,高品質なサンプルを生成した。
言語が視覚を上書きするとき:ビジョン言語モデルにおける過剰アラインメントと幾何学的バイアス除去 [cs.CV, cs.AI]目的:ビジョン言語モデルにおける幻覚の根本原因の特定と軽減
- 近年,医療画像診断や自動運転など,重要な応用分野でビジョン言語モデルの利用が進んでいる。
- これらのモデルは,入力に存在しない内容を自信を持って記述する幻覚を頻繁に起こすという課題がある。
- 視覚埋め込みとテキスト多様体の過剰なアラインメントという幾何学的な原因に対処し,幻覚を抑制すること。
- デコーダーベースのビジョン言語モデルにおいて,アテンションメカニズムが視覚埋め込みをテキスト多様体に過剰にアラインメントすることが示された。
- この過剰アラインメントは,普遍的でデータセットに依存しないテキスト部分空間の主要成分に言語バイアスが集中することで定量的に特徴づけられた。
- トレーニング不要な推論戦略とバイアスを意識したファインチューニングにより,幻覚が大幅に軽減され,長文キャプションタスクの性能が向上した。
蒸留,拡散,意味化(DDS):多粒度蒸留とグラフ拡散に基づくセグメンテーションによるアノテーション不要の3次元シーン理解 [cs.CV]目的:アノテーション不要の3次元シーン理解のためのフレームワーク
- デジタルツインや自動運転など,3次元シーン理解は幅広い分野で不可欠であり,その重要性は増している。
- 点群に対する詳細なアノテーションはコストが高く,大規模なデータセットへの適用が困難であるという課題がある。
- 軽量かつ高精度な3次元シーン理解を実現し,アノテーションコストを削減することを目的とする。
- DDSは,点,マスクプロトタイプ,プロトタイプ間の関係という多粒度での蒸留を行うことで,3次元バックボーンを効果的に誘導する。
- グラフ拡散によって超点上に意味情報を伝播させることで,コストのかかる分解や密な特徴抽出を必要とせずに一貫性のある領域表現を生成する。
- 実世界のデータセットを用いた実験により,既存のアノテーション不要な手法と比較して,DDSが精度と解釈可能性において優れた性能を示すことが明らかになった。
表現レベルの時間的集約とモデルレベルのハイパーグラフ推論によるイベントベース物体検出の再考 [cs.CV]目的:イベントベース物体検出の精度と効率の向上
- 高速な動きや厳しい照明条件下での知覚において,イベントカメラの潜在能力は大きい。
- 既存手法では,時間情報の表現が間接的で冗長であり,断片的なイベント応答の集約が困難である。
- コンパクトな時間表現とハイパーグラフ推論による,イベントベース物体検出の限界を克服する。
- 提案手法Ev-DTADは,Gen1, 1Mpx/Gen4, eTraMにおいて高い精度と効率を実現した。
- 階層的時間集約(HTA)により,時間情報を効率的に埋め込み,特徴表現を改善した。
- 周波数認識ハイパーグラフ時間融合(FHTF)により,疎なイベント応答下での検出性能を向上させた。
直接積分定理:逆ラドン問題に対する一貫した離散解のための厳密な枠組み [cs.CV]目的:逆ラドン問題に対する一貫した離散解の厳密な枠組み
- 断層撮影は医療診断において不可欠であり,画像再構成の精度向上が常に求められている。
- 従来の離散化手法は,周波数領域での補間誤差やランプフィルタによる歪みを生じやすい。
- 連続領域から離散領域への数学的に一貫した移行を可能にし,再構成誤差を最小限に抑える。
- 本研究で提示する直接積分定理は,古典的なセントラルスライス定理から導出される。
- この定理に基づいた手法は,ランプフィルタや周波数領域補間の必要性をなくし,高精度な画像再構成を可能にする。
- シミュレーションの結果,提案手法はFBPと比較して,PSNR,SSIM,再投影誤差において優れた性能を示し,統計的特性を忠実に復元する。
N個の教師ロールアウト選択を用いたオンポリシー蒸留 [cs.SI, q-bio.QM, cs.CV]目的:オンポリシー蒸留における教師ロールアウト選択手法の改善
- 強化学習における報酬依存性や教師あり微調整における破滅的忘却を回避し,推論能力を向上させる効率的な手法が求められている
- 標準的なオンポリシー蒸留は,ノイズの多い学生生成コンテキスト下で教師 supervision を計算し,確率的な教師ロールアウトに依存するため,信号の分散が大きい
- 教師ロールアウトの品質を向上させることで,より信頼性の高い教師 supervision を提供し,推論ベンチマークにおける性能向上を目指す
- 提案手法BRTSは,N個の教師ロールアウトから最適なものを選択し,正確性と学生との整合性を優先することで,教師 supervision の質を向上させる
- BRTSは,AIME 2024,AIME 2025,AMC 2023などのベンチマークにおいて,標準的なオンポリシー蒸留よりも優れた性能を示す
- 特に,難易度の高いデータセットにおいて,より大きな改善効果が確認された
不確実性に基づく能動学習を用いた合成顔検出のためのエビデンスに基づく決定モデリング [cs.CV, cs.CR]目的:合成顔検出における信頼性と汎化性能の向上
- 深層生成モデルの発展により偽造画像が悪用され,検出技術の重要性が増している。
- 既存手法はSoftmax関数に依存し,未知の画像に対して過信傾向があり,不確実性の評価が困難である。
- 不確実性を考慮した能動学習により,高精度な検出と汎化性能を実現し,アノテーションコストを削減する。
- 提案手法EMSFDは,クラスのエビデンスをDirichlet分布でモデル化し,予測過程に不確実性を明示的に組み込んでいる。
- 実験結果から,EMSFDは既存の最先端手法と比較して15%の精度向上を示し,優れた検出性能と汎化性能を持つことが確認された。
- 本手法は,合成顔検出の解釈可能性を高める。
戦略的相互作用と不確実性からの構造:ロバストな嗜好学習のためのリスク感受性ゲーム [cs.GT]目的:大規模言語モデルの嗜好に基づくファインチューニングにおけるロバスト性の向上
- 大規模言語モデルの性能向上には,人間のフィードバックを利用した学習が不可欠である。
- 従来の学習方法は,平均的なパフォーマンスに偏重し,特定のデータ分布における脆弱性を見過ごしやすい。
- リスク感受性ゲームを通して,嗜好の不確実性を考慮し,データ分布全体でのロバスト性を実現することを目指す。
- リスク感受性ゲームは,期待されるペアワイズペイオフではなく,嗜好損失の凸リスク尺度を最適化する。
- 翻訳不変性により,単調性が保たれ,サンプル効率の良い自己対戦法による高速な収束が可能となる。
- 実験的に,リスク調整されたポリシーはデータ層間でロバストであり,リスク選択に安定しており,リスク中立的な性能を上回る。
一度だけ学習:不確実性を考慮したワンクラス学習による顔認証の真偽判定 [cs.CV]目的:顔認証における真偽判定のための手法
- 生成AI技術の発展により,顔画像の偽造が容易になり,なりすましや誤情報の拡散リスクが高まっている。
- 既存手法は二値分類問題を前提としており,未知の偽造技術に対する汎化性能が低いという課題がある。
- 本研究は,ワンクラス学習により,未知の偽造手法に対しても頑健な真偽判定を可能とする。
- FADNetは,真実の顔データのみを用いて学習し,特徴量の分布からの逸脱を偽造と判定する。
- Evidential Deep Learningを用いることで,予測の不確実性を定量化し,Pseudo-forgery Image Generatorにより決定境界を最適化する。
- DF40およびASFDベンチマークにおいて,最先端手法を凌駕する精度(平均正答率96.63%,平均適合率98.83%)を達成した。
Fashion130K:ファッション生成のための統合マルチモーダル条件付きEコマースファッションデータセット [cs.CV]目的:ファッション生成のためのEコマースデータセット及びマルチモーダル条件の活用
- ファッション生成は,個人の表現やファッション業界に大きな影響を与える重要な研究分野である。
- 既存のデータセットの規模やマルチモーダル情報の活用が十分でなく,高品質なファッション生成が困難である。
- 多様なデータセットと高度なマルチモーダル条件の活用により,より一貫性のあるファッション生成を実現すること。
- Fashion130Kデータセットを構築し,多様な状況,モデル,服装タイプを網羅した。
- Unified Multi-modal Condition (UMC)フレームワークを設計し,テキストと視覚的プロンプトを統合した。
- UMCは,最先端の手法と比較して,視覚的な一貫性を向上させ,有望な結果を示した。
SciVQR:高度な科学的推論評価のための学際的なマルチモーダルベンチマーク [cs.CV]目的:高度な科学的推論能力の評価
- 科学的思考は人間知能の中核であり,高度なAI開発には不可欠である。
- 既存のベンチマークは科学的推論の複雑さや,推論過程の追跡性を十分に捉えられていない。
- 複雑なマルチモーダル推論能力を評価するための新たなベンチマークの構築。
- SciVQRは,数学,物理学,化学など54の分野を網羅するマルチモーダルベンチマークである。
- このベンチマークは,モデルの視覚的理解力と推論能力を組み合わせることを目的としている。
- 主要なMLLMの評価から,複雑なマルチモーダル推論課題への対応に課題があることが明らかになった。
CoWorld-VLA:多専門家ワールドモデルを用いた自動運転 [cs.CL, cs.CV, cs.AI]目的:自動運転のための多専門家ワールドモデルの構築と,その有効性の検証
- 自動運転技術は,交通渋滞の緩和や交通事故の削減に貢献し,社会に大きな変革をもたらす可能性がある。
- 既存の自動運転モデルは,計画立案に必要な中間表現の生成が難しく,連続的な時空間構造の維持が課題である。
- 本研究は,多専門家ワールドモデルを用いることで,計画立案に適した中間表現を生成し,自動運転の性能向上を目指す。
- CoWorld-VLAは,セマンティックなインタラクション,幾何学的構造,動的な進化,エゴ車両の軌跡といった専門家トークンを抽出・活用することで,より洗練された計画立案を可能にする。
- 実験の結果,CoWorld-VLAはNAVSIM v1ベンチマークにおいて,将来のシーン生成と計画立案の両方で競争力のある性能を示し,衝突回避と軌跡の精度において優れた結果を達成した。
- 専門家トークンの相補性と,計画立案における有効性を検証する消去研究により,CoWorld-VLAの有効性が確認された。
GemDepth:3D一貫性のあるビデオ深度のための幾何学埋め込み特徴 [cs.CV]目的:3D一貫性のあるビデオ深度推定手法
- ビデオ深度推定は,単眼予測を時間領域へ拡張し,一貫性を保つ上で重要である。
- 既存手法は,詳細領域の空間的ぼかしや時間的不整合といった課題を抱えている。
- カメラモーションと大域的な3D構造への明示的な認識により3D一貫性を実現する。
- GemDepthは,カメラポーズを予測し幾何学的埋め込みを生成するGeometry-Embedding Module(GEM)を導入した。
- Alternating Spatio-Temporal Transformer(ASTT)が空間精度を高め,厳密な時間的一貫性を実現する。
- 複数のデータセットで最先端の性能を示し,特に複雑な動的シーンにおいて有効性が確認された。
EnergyLens:マルチモーダルLLM推論サービングのための解釈可能な閉形式エネルギーモデル [cs.CV, cs.LG]目的:LLM推論におけるエネルギー最適化手法
- LLMの規模拡大と多様なハードウェア環境下での利用拡大に伴い,推論時のエネルギー効率が重要になっている。
- 既存手法は,遅延時間をエネルギーの指標として用いるか,データ集約的なブラックボックスモデルに依存しており,並列化戦略の変化に弱い。
- プロファイリングデータを基に,解釈可能な閉形式エネルギーモデルを導き出し,エネルギー最適化を実現することを目的とする。
- EnergyLensは,プロファイリングデータからシステム特性とエネルギー消費の関係を明らかにする。
- わずか50回のプロファイリング測定で,従来のベースラインよりも高い構成選択精度(88.2%)を達成する。
- 未知のバッチサイズやハードウェア環境への外挿も信頼性が高く,実用的なエネルギー最適化ツールとなる。
視覚言語行動モデルのための代数的に整合的な潜在的行動モデル (ALAM) [cs.RO, cs.AI, cs.CV]目的:視覚言語行動モデルにおける潜在的行動表現の学習
- ロボットの行動データ不足は,視覚言語行動モデルの性能向上を阻害する重要な課題である。
- 既存の潜在的行動モデルは,再構成タスクに最適化されているため,ロボットの行動生成に適した構造を持たない。
- ALAMは,視覚情報から代数的な整合性を学習し,ロボットの行動生成に役立つ潜在的表現を獲得することを目指す。
- ALAMは,フレーム間の関係性を利用して潜在的遷移を学習し,再構成能力と代数的な整合性を両立させた。
- ALAMによって学習された潜在的遷移は,ロボットの行動生成において,高い成功率向上に貢献した (MetaWorld MT50で47.9%から85.0%,LIBEROで94.1%から98.1%)。
- ALAMは,既存の潜在的行動モデルと比較して,加法性と可逆性のエラーを大幅に削減し,長期的な再構成性能を向上させた。
拡散モデルのアライメントにおける多様性と効率性を実現する軌道マッチング方策最適化(TMPO) [cs.LG, cs.AI, cs.CV]目的:拡散モデルのアライメントにおける報酬ハッキングの抑制と生成多様性の向上
- 拡散モデルは様々なタスクに応用可能だが,その性能はアライメント方法に大きく左右される。
- 既存のアライメント手法は報酬ハッキングを起こしやすく,生成される画像の多様性と品質を損なう。
- 軌道レベルでの報酬分布マッチングにより,報酬と多様性のバランスを最適化する。
- 提案手法TMPOは,従来の最先端手法と比較して生成多様性を9.1%向上させる。
- TMPOは,人間の嗜好,構成的生成,テキストレンダリングなど,多様なアライメントタスクで競争力のある性能を発揮する。
- 動的確率的木サンプリングにより,大規模なフローマッチングモデルにおける計算コストを削減し,学習効率を向上させた。
生成モデルにおける報酬整合のための勾配不要ノイズ最適化 [cs.LG, cs.AI, cs.CV]目的:生成モデルの報酬整合
- 生成モデルの性能向上には,人間の意図と整合した報酬関数の設計が不可欠である。
- 従来の報酬整合手法は,決定的な生成器への拡張が困難である。
- 勾配計算を必要としないノイズ空間最適化による報酬整合手法の開発。
- ZeNOは,勾配不要なフレームワークとして,ノイズ最適化をパス積分制御問題として定式化する。
- ZeNOは,報酬傾斜分布を暗黙的にターゲットとするLangevin力学と関連しており,推論時のスケーリングを可能にする。
- タンパク質構造生成などの微分不可能な設定でも良好な性能を示す。
多様な周波数専門家による全一画像修復のためのマルチモーダル大規模言語モデルの活用 [cs.CV]目的:全一画像修復における性能向上
- 画像処理技術は,医療,セキュリティ,エンターテインメントなど幅広い分野で不可欠である。
- 既存手法では,複合的な劣化構造を捉えきれず,多様な劣化に対応できない場合がある。
- マルチモーダル大規模言語モデルを用いて,劣化状況をより正確に認識し,画像修復の質を向上させる。
- 提案手法は,複数のベンチマークにおいて,多様な修復設定で高い性能を示した。
- 特に,難易度の高いCDD11データセットにおいて,従来手法を最大1.35dB上回る最先端の結果を達成した。
- MLLMによるガイダンスとMoFEモジュール,関係的アラインメント損失が,性能向上に貢献している。
敵対的画像摂動に対する模倣検出器 [cs.CV]目的:敵対的画像摂動の検出
- 画像認識技術は広く利用されているが,その脆弱性が懸念されている。
- 敵対的攻撃は微小な摂動で画像認識を欺くため,検出が困難である。
- 入力画像のみから,学習なしで敵対的攻撃を検出することを目指す。
- 提案手法は,高次のCorbino-Castillo模倣演算子を用いて,敵対的摂動のパターンを検出する。
- 再学習や代替分類器を必要とせず,高速に処理が可能である。
- 実験結果から,敵対的画像と正常な画像を明確に分離できることが示された。
Checkup2Action:患者向けアクションカード生成のためのマルチモーダル臨床健診報告データセット [cs.CL, cs.CV]目的:患者向けアクションカードの構造化生成
- 健診報告は健康管理の基礎であり,質の高い医療の提供に不可欠である。
- 一般の人が健診報告を解釈し,具体的な行動に移すことは困難である。
- マルチモーダル健診報告から,安全で優先順位付けされた患者向けのアクションを生成することを目指す。
- 本研究では,2,000件の健診報告を含む「Checkup2Action」データセットを構築し,公開した。
- 大規模言語モデルによるアクションカード生成において,網羅性,正確性,安全性,簡潔性のトレードオフが確認された。
- このデータセットは,臨床健診報告における患者中心の推論を評価するための新しいベンチマークを提供する。
TB-AVA:テキストを媒介とした効率的な音声・映像パラメータ調整 [cs.CV]目的:音声・映像の表現学習におけるテキストの活用
- 音声と映像の理解には両者の整合性が重要だが,時間的に対応する信号間には意味的な対応関係が希薄な場合がある。
- 異質モダリティ間の効果的な整合性が課題であり,特に意味的な対応が不明瞭な場合に性能が低下する。
- テキストを意味的アンカーとして利用し,少ないパラメータで音声・映像の学習を行うことを目指す。
- 提案手法TB-AVAは,凍結された音声・映像エンコーダ上に構築された効率的な適応フレームワークである。
- テキストから推測される意味的関連性に基づいて特徴チャネルを選択的に調整するGated Semantic Modulation (GSM) を採用している。
- AVE,AVS,AVVPなどのベンチマークにおいて,最先端の性能を達成し,テキストが効果的な意味的アンカーであることを示している。
隠して見る:VLM蒸留における視覚的アンカー思考のための推論接頭辞マスキング [cs.CV, cs.AI, cs.CL]目的:視覚的証拠に基づいた推論能力の向上
- 近年,視覚言語モデル(VLM)の推論性能が重要視されており,思考と回答を組み合わせるアプローチが注目を集めている。
- 思考と回答を組み合わせるVLMは計算コストが高く,実用化が課題となっている。
- 小型のVLMに思考と回答の能力を効率的に蒸留することが本研究の目的である。
- 提案手法は,推論接頭辞をマスキングすることで,学生モデルが視覚的証拠に依存するように促す。
- マスキング戦略として,トークン単位での選択的なマスキングと,蒸留の難易度に応じたマスキングスケジュールの調整を行う。
- 実験結果から,提案手法は既存のVLM蒸留手法や自己蒸留手法を上回り,マルチモーダル推論ベンチマークで優れた性能を示すことが確認された。
