arXiv雑要約
画像・音声 - 2026/03/10 公開
ExGS:拡散事前分布を用いた極限3次元ガウス圧縮 [cs.CV]目的:3次元ガウススプラッティングの極限圧縮手法
- 3Dコンテンツの利用拡大のため,効率的なデータ圧縮が不可欠である。
- 既存手法は,速度,品質,汎用性のいずれかで課題があった。
- 拡散事前分布を活用し,高画質を維持したまま圧縮率を向上させる。
- ExGSは,最適化を伴わない剪定と拡散事前分布に基づく復元を組み合わせる。
- 100倍以上の圧縮率を実現しつつ,レンダリング品質を維持・向上させた。
- 軽量なVAEとワンステップ拡散設計により,実用的な高速復元を可能にした。
PHASE-Net:物理に基づいた高調波的注意システムによる効率的なリモート心拍動計測 [cs.CV]目的:リモート心拍動計測における精度向上
- 健康状態の非接触モニタリング需要が高まり,リモート心拍動計測の重要性が増している。
- 頭部運動や照度変化により計測精度が低下し,頑健性と解釈性が課題となっていた。
- 血液力学のNavier-Stokes方程式に基づく理論的根拠を持つ手法で精度と効率を改善する。
- PHASE-Netは,顔領域間の特徴的相互作用を促進するZero-FLOPs Axial Swapperモジュールを搭載している。
- 適応的空間フィルタにより,信号の強い領域を強調し,ノイズを抑制することで,よりクリーンな特徴マップを学習する。
- ゲート付きTCNを用いて,長距離の時間的ダイナミクスをモデル化し,高精度な脈波回復を実現している。
小予算ペース配分のためのフィードバック制御 [cs.LG, cs.GT]目的:オンライン広告におけるペース配分制御手法
- オンライン広告において,予算を効果的に活用し,キャンペーン目標を達成するためには,適切なペース配分が不可欠である。
- 既存のペース配分手法は,パラメータ調整が煩雑で,安定性や効率性に課題がある。
- 本研究は,小予算キャンペーンにおいても安定したペース配分を実現する制御手法を提案する。
- 提案手法は,バケット化ヒステリシスと比例フィードバックを組み合わせることで,安定かつ適応的な予算制御を可能にする。
- 実世界のオークション実験において,ベースライン手法と比較して,ペース配分誤差を13%,λ-ボラティリティを54%削減する効果が確認された。
- 制御理論と広告システムを融合することで,スケーラブルで信頼性の高い予算ペース配分ソリューションを提供する。
LMOD+: 眼科におけるマルチモーダル大規模言語モデルの開発・評価のための包括的なマルチモーダルデータセットとベンチマーク [cs.CV]目的:眼科領域におけるマルチモーダル大規模言語モデルの開発と評価のためのデータセット及びベンチマーク
- 視力に影響を及ぼす眼疾患は世界的な健康問題であり,専門家の不足が診断の遅れを招いている。
- 眼科領域におけるマルチモーダル大規模言語モデルの進展には,生成モデルの評価に適した包括的なベンチマークデータセットの欠如が課題となっている。
- 本研究は,眼科AI応用の発展と視力障害による負担軽減を目指し,データセット及び評価パイプラインを公開する。
- 大規模なマルチモーダル眼科ベンチマークを構築し,12種類の眼科疾患と5種類の画像モダリティを含む32,633インスタンスを収録した。
- 最先端のマルチモーダル大規模言語モデル24機種を評価した結果,疾患スクリーニングにおいてゼロショット設定で約58%の精度を達成した。
- 一方で,疾患ステージングなどの高度なタスクでは,性能が十分とは言えず,課題が残された。
FVO:Transformerを用いた高速Visual Odometry [cs.CV]目的:Transformerを用いた単眼Visual Odometryの直接相対姿勢回帰
- ロボットの自律移動や拡張現実において,環境地図作成と自己位置推定は不可欠である。
- 既存手法は,大規模な事前学習済みネットワークに依存し,絶対スケールの推定が困難である。
- Transformerを用いて高速かつ高精度な姿勢推定を行い,絶対スケールの推定問題を解決する。
- 提案手法FVOは,複数のVisual Odometryベンチマークにおいて,競合手法と同等以上の性能を発揮する。
- FVOは,既存の最速手法と比較して約2倍の速度を実現している。
- 多様なデータを利用することで,ロバストな軌跡推定を可能にする信頼度に基づいた推論スキームを採用している。
ストリーミングドラッグによる動画インタラクティブ操作:ドラッグするすべて,いつでも! [cs.CV]目的:自己回帰型動画拡散モデルの出力に対するストリーミングかつ微細な制御
- 動画生成AIの発展に伴い,ユーザーの意図に沿った動画編集の重要性が高まっている。
- 既存手法では,ユーザーの操作が動画生成の過程に反映されにくく,自然な結果を得ることが困難である。
- 本研究は,任意の箇所でリアルタイムなドラッグ操作による動画編集を可能にすることを目指す。
- 提案手法DragStreamは,潜在空間のドリフトを抑制し,ドラッグ操作を継続的に行うことを可能にした。
- 空間周波数選択的最適化により,文脈情報の活用と干渉の軽減を両立し,より自然な動画編集を実現した。
- 既存の動画拡散モデルに容易に組み込むことができ,実験によりその有効性が確認された。
微分可能な可変フォント [cs.GR]目的:可変フォントの微分可能性に基づく直感的かつ自動化されたフォントデザインとアニメーションのワークフロー
- グラフィックデザイン等において,テキストの外観編集は高度なスキルを要する作業であり,自動化が求められている。
- 可変フォントは潜在力を持つものの,アーティストは依然としてパラメータを手動で調整する必要がある。
- 可変フォントのパラメータとベクターグラフィックス間の微分可能な接続を確立し,最適化技術を活用することを目指す。
- 可変フォントの仕様を,パラメータからテキストのベクターグラフィックスへの非線形なマッピングを微分可能な数学的定式化に集約した。
- ベクターグラフィックスの制御点やラスター化された画像に対するエネルギーに基づき,勾配降下法によるフォントパラメータの最適化を可能にした。
- シェイプ操作,オーバーラップ考慮モデリング,物理ベースのテキストアニメーション,自動フォントデザイン最適化の4つの応用例を示した。
リアルタイム動作制御可能な自己回帰型ビデオ拡散モデル [cs.RO, cs.SY, eess.SY, cs.CL, cs.CV]目的:リアルタイム動作制御ビデオ生成の実現
- ビデオ生成技術は,エンターテイメントやコミュニケーションにおいて重要な役割を担う。
- 双方向拡散モデルの遅延や,効果的な自己回帰アプローチの欠如が課題である。
- 低遅延かつ高精度な動作制御を可能にするビデオ生成モデルの開発。
- 提案手法AR-Dragは,画像からリアルタイムで動作制御可能なビデオを生成する。
- 強化学習と自己ロールアウト機構により,高品質かつ正確な動作を実現。
- 最先端のモーション制御可能なビデオ拡散モデルと比較して,大幅な低遅延化を達成。
ODI-Bench:MLLMは没入型全方位環境を理解できるか [cs.CV]目的:全方位画像理解のためのベンチマークODI-Benchと,MLLMの理解能力向上手法Omni-CoT
- VR/AR等の応用が拡大し,全方位画像処理の重要性が増している
- MLLMは2D画像では高い性能を示すが,全方位画像の理解能力は未検証だった
- 全方位画像の特性を活かしたMLLMの理解能力評価と改善を目指す
- ODI-Benchは,全方位画像理解のための包括的なベンチマークであり,2,000枚の画像と4,000以上のQAペアを含む。
- 実験の結果,既存のMLLMは全方位画像が持つ没入感のある文脈を捉えるのに苦戦していることが判明した。
- 提案手法Omni-CoTは,テキスト情報と視覚的手がかりを用いた思考連鎖推論により,MLLMの全方位画像理解能力を大幅に向上させる。
Bee:高品質コーパスと高度な完全オープンMLLMを可能にするフルスタックスイート [cs.HC, cs.CV, cs.AI]目的:高品質なデータセットとフルスタックスイートによる高度な完全オープンMLLMの開発
- マルチモーダル大規模言語モデル(MLLM)は,画像とテキストを理解するAIとして重要であり,その発展が期待されている。
- オープンソースのMLLMは,データ品質の低さにより,クローズドソースのモデルに劣ることが課題となっている。
- 高品質なデータセットとデータキュレーションパイプラインを提供し,オープンMLLMの性能向上を目指す。
- 本研究で開発されたHoney-Data-15MデータセットとHoneyPipeパイプラインは,データ品質向上に貢献する。
- Bee-8Bモデルは,Honey-Data-15Mで学習した結果,既存のオープンMLLMの最先端性能を達成した。
- 実験により,データ品質に注力することが,高性能なオープンMLLM開発の重要な要素であることが示された。
神経画像における異常検知のための教師なし深層生成モデル:系統的スコープレビュー [cs.CV]目的:神経画像における異常検知のための教師なし深層生成モデルの応用に関する研究の体系的統合
- 脳疾患の早期発見や病態解明には,画像診断技術の高度化が不可欠である。
- 従来の異常検知手法は,専門家による詳細なアノテーションに依存する場合が多い。
- 教師なし学習を用いることで,アノテーションの負担を軽減し,効率的な異常検知を可能にする。
- 教師なし深層生成モデルは,脳MRI画像における病理学的異常の局在化において潜在的な有用性を示すことが明らかになった。
- 手法の多様性,外部検証の不足,データセット特性への感受性などが,今後の課題として挙げられる。
- 解剖学的知識の活用や拡散モデルなどの新たなアプローチにより,これらの課題の克服が期待される。
継続的オーディオ・ビジュアルセグメンテーションにおけるモダリティエンタングルメントの抑制 [cs.MM, cs.AI, cs.CV]目的:継続的なオーディオ・ビジュアルセグメンテーションにおけるモダリティエンタングルメントの抑制手法
- マルチモーダル学習は,人間のように複数の感覚情報を統合し理解するAI実現に不可欠である。
- 既存手法は粗粒度なタスクに偏り,細粒度な継続学習におけるモダリティ間の干渉に対処できない。
- 本研究は,音響情報に基づいた継続的なセグメンテーションにおけるモダリティエンタングルメント問題を解決する。
- 提案手法では,マルチモーダルな意味的ドリフトを防ぐため,モダリティ一貫性の高いサンプルをリハーサルに選択する。
- また,共起混同に対処するため,混同しやすいクラスのリハーサルサンプル頻度を増加させる衝突ベースのリハーサル機構を導入する。
- 実験結果から,提案手法が単一モダリティの継続学習手法を大幅に上回ることが示された。
知覚タスクのための合成データ生成器としてのドライビングワールドモデルの再考 [cs.CV, cs.AI]目的:知覚タスクの性能向上を目指した合成データ生成フレームワーク
- 自動運転の安全性を高めるためには,多様な環境下での知覚能力の向上が不可欠である。
- 既存の合成データ生成手法では,知覚タスクの性能評価が十分に行われていない場合が多い。
- この研究は,自動運転における知覚タスクの性能を大幅に向上させる合成データ生成を目指す。
- 提案手法Dream4Driveは,3Dアセットとガイダンスマップを用いて,多様な視点からのコーナーケースを大規模に生成可能である。
- 実験により,Dream4Driveが様々な学習エポック数において,ダウンストリーム知覚モデルの性能を効果的に向上させることが示された。
- 大規模な3DアセットデータセットDriveObj3Dを公開し,今後の研究を支援する。
MoE-GS:動的ガウススプラッティングのための専門家混合 [cs.CV]目的:動的シーン再構成における性能向上
- 動的シーン再構成は,没入型体験やロボティクスなど,多様な応用分野で重要性が増している。
- 既存手法は,多様なシーンに対して一貫した性能を示せず,汎用性に課題がある。
- 異なる動的変化に対応できる専門家を組み合わせることで,再構成の品質向上を目指す。
- MoE-GSは,ボリューム情報を考慮したピクセルルーターを用いて複数の専門家を統合する新しいフレームワークである。
- 実験の結果,MoE-GSはN3VおよびTechnicolorデータセットにおいて,最先端手法を上回る性能を示した。
- モデル容量の増加とFPSの低下を抑制するため,シングルパスレンダリングや枝刈り,知識蒸留などの手法を検討した。
4D表現の進歩:形状,運動,そしてインタラクション [cs.CV]目的:4D生成と再構成に関するサーベイ
- コンピュータグラフィックスは,現実世界の表現や仮想空間の構築に不可欠な技術分野である。
- 時間経過に伴う3D形状の表現,特に運動とインタラクションのモデリングは依然として課題である。
- 多様なタスクに対し,適切な4D表現の選択とカスタマイズの指針を示す。
- 本サーベイでは,ニューラルフィールドや深層学習といった近年の進歩に基づき,4D表現の現状を体系的に整理している。
- 形状,運動,インタラクションという3つの要素に着目し,代表的な表現手法の特性と課題を明らかにしている。
- NeRFや3DGSといった主要な表現に加え,構造化モデルや長距離運動といった,これまで十分に探求されていない表現にも焦点を当てている。
AnyPcc:単一の汎用モデルによるあらゆる点群の圧縮 [cs.CV]目的:点群データの圧縮
- 点群データは,自動運転やロボット工学など幅広い分野で重要であり,効率的な圧縮技術が求められている。
- 既存の深層学習ベースの圧縮手法は,実世界の多様なデータ密度や分布外データに対して頑健性に欠ける。
- 多様なデータ密度と分布外データに対応可能な,汎用的な点群圧縮フレームワークを開発すること。
- AnyPccは,粗視的な空間事前知識と詳細なチャネル事前知識を活用する汎用コンテキストモデルにより,様々なデータ密度でロバストな圧縮を実現した。
- 明示的および暗黙的な圧縮パラダイムを組み合わせたInstance-Adaptive Fine-Tuning (IAFT)戦略により,分布外データへの適応性を高めた。
- 15の多様なデータセットを用いた実験により,AnyPccが点群圧縮において最先端の性能を発揮し,低複雑性を維持することが確認された。
水トラップにおけるアクティブなロボット撹拌による閉塞問題への対処を通じた自動害虫カウント [cs.RO, cs.CV]目的:水トラップにおける害虫の自動カウント手法
- 衛生管理や感染症予防において,害虫の個体数把握は不可欠である。
- 従来の画像ベースのカウント方法は,閉塞により精度が低下するという課題があった。
- ロボット撹拌による閉塞の解消と,それに基づく高精度なカウントを目指す。
- 四つの円を描く撹拌パターンが,最も低い平均絶対カウント誤差(4.384)と高いカウント信頼度(0.721)を達成した。
- 適応速度撹拌は,従来の一定速度撹拌と比較して,タスク実行時間を最大44.7%短縮し,安定した性能を実現した。
- 本手法は,高密度環境下における閉塞が深刻な状況で,静止画によるカウント方法と比較して平均絶対カウント誤差を最大3.428削減した。
Step2Motion:圧力センサ内蔵インソールからの歩行再構成 [cs.GR, cs.AI]目的:圧力センサ内蔵インソールからの人間歩行再構成手法
- 人間運動の理解と再構成には,足と地面との相互作用が不可欠である。ウェアラブルデバイスの進歩が,その計測を可能にした。
- 従来のモーションキャプチャは,制約や視線制限があり,屋外環境での利用が困難であった。
- インソールセンサを活用した,制約のないロバストな歩行再構成法の開発が求められている。
- Step2Motionは,マルチモーダルなインソールセンサデータ(圧力と慣性)を用いて歩行を再構成する初の試みである。
- 本手法は,歩行やジョギングといった単純な動作から,横移動,つま先立ち,かがみ込み,ダンスといった多様な動作に対応可能である。
- 実験を通して,様々な歩行スタイルに対する汎用性が示された。
CountFormer:クラス非特定物体数推定のためのTransformerフレームワーク [cs.HC, cs.CV, cs.AI]目的:視覚的繰り返しと構造を学習することによる,クラス非特定物体数推定
- 人間は,物体カテゴリに頼らず,視覚的繰り返しと構成によって物体数を推定できる。
- 既存のサンプル不要型数推定モデルは,対称性のある物体や繰り返し構造,部分的遮蔽において過剰な数値を算出する傾向がある。
- 自己教師あり学習済みモデルDINOv2を用いたTransformerによって,構造の一貫性を向上させ,サンプル不要型数推定の精度向上を目指す。
- CountFormerは,FSC-147データセットにおいて,公式ベンチマークで競争力のある性能(MAE 19.06,RMSE 118.45)を達成した。
- 定性的な分析により,構造が複雑な物体において,部分レベルでの過剰な数え間違いが減少する傾向が示唆された。
- 高密度シーンがわずかに含まれるだけで,評価指標が大きく影響を受けることが明らかになった。表現の質がサンプル不要型物体数推定において重要である。
カスケード不安定性への探求:画像復元と物体検出の相乗効果に関するLipschitz連続性の視点 [cs.CV]目的:画像復元と物体検出の連携における安定性向上
- 悪条件下でのロバストな物体検出は重要であり,画像復元はその有効な前処理手段として期待される。
- 復元ネットワークと検出ネットワークの機能的な不整合が,不安定性を招き,効果的な連携を阻害する点が課題である。
- Lipschitz連続性の視点から不整合を分析し,安定化のためのフレームワークを提案することで,この課題を解決する。
- 本研究では,画像復元と物体検出のLipschitz連続性の違いを分析し,その不整合が不安定性の原因となることを示した。
- 提案するLRODは,復元を検出器の学習に直接統合し,両タスクのLipschitz連続性を調和させることで,安定性を向上させる。
- 実験結果から,LR-YOLOがハレーションや低照度環境において,検出の安定性,最適化のスムーズさ,全体的な精度を改善することが確認された。
多様なクリップ間の構造を意識した生成型ビデオトランジションSAGE [cs.CV]目的:多様なクリップ間のビデオトランジション生成
- ビデオトランジションは,映像制作において不可欠な技術であり,視覚的な流れを滑らかにする役割を担う。
- 既存手法は,時間的ギャップや意味的な差異が大きいクリップ間のトランジションにおいて,品質と一貫性の維持が課題である。
- 構造と知覚的な連続性を重視し,多様なクリップ間でも自然なトランジションを実現することを目指す。
- 提案手法SAGEは,ラインマップとモーションフローによる構造的ガイダンスと生成合成を組み合わせることで,ファインチューニングなしに滑らかなトランジションを実現した。
- 定量評価およびユーザー調査の結果,SAGEは既存の古典的手法および最新の生成モデルと比較して,優れた性能を示した。
- 多様なクリップ間のトランジションにおいて,学習データの収集が困難であるという課題を,SAGEは解決に導いた。
mitransient:Mitsuba 3における過渡光輸送 [cs.GR]目的:過渡光輸送シミュレーションツール
- 光の輸送現象の理解は,画像処理やコンピュータグラフィックスの発展に不可欠である。
- 従来のレンダリングは時間変化を考慮せず,高速な過渡現象のシミュレーションが困難であった。
- 過渡現象を考慮した光輸送シミュレーションを容易にし,新しい撮像システムの開発を支援する。
- mitransientは,Mitsuba 3を拡張し,時間分解シミュレーションを可能にするツールである。
- Pythonモジュールとして実装されており,CPUおよびGPUで動作し,様々な現実的なマテリアルや媒質をシミュレートできる。
- 非視線方向撮像のためのツールも含まれており,数分で現実的なシーンセットアップをシミュレート可能である。
拡散スナップバック再構成によるAI生成画像検出:フォレンジックアプローチ [cs.CV, cs.AI]目的:AI生成画像検出手法の開発
- デジタルコンテンツの信頼性確保が重要課題となっている。
- 従来の検出法では,AI生成画像を人間が判別できない場合がある。
- 拡散モデルの再構成特性を利用し,AI生成画像検出の新たな方法を提案する。
- 提案手法は,4,000枚の画像データセットにおいて,AUROC 0.993を達成した。
- 画像圧縮やノイズ付加といった現実世界の歪みに対して,安定した性能を示した。
- 拡散モデルの再構成挙動が,合成メディア検出の信頼できる基盤となりうることを示唆する。
ジュニアAI科学者とそのリスク報告:基盤論文からの自律的な科学的探求 [cs.AI, cs.CL, cs.CV, cs.LG]目的:AI科学者システムの現状とリスクの把握
- AI技術の進展に伴い,科学研究への応用が期待される。信頼性と持続可能性が重要となる。
- 既存のAI科学者システムは,完全自動化や小規模コードに限定され,複雑な研究プロセスに対応できない場合がある。
- 基盤論文に基づき,仮説形成から実験,論文執筆までの一連の研究フローをAIが自律的に実行し,科学的貢献を生み出すことを目指す。
- Jr. AI科学者は,NeurIPS,IJCV,ICLR等の論文を基に,新しいアルゴリズムを提案・実装し,研究論文を生成することに成功した。
- DeepReviewerによる自動評価の結果,既存の完全自動システムよりも高い評価を得た。
- 著者評価やAgents4Scienceレビューからは,AI科学者システムの限界と潜在的なリスクが明らかになり,今後の研究課題が示唆された。
マスクされた自己符号化器における文脈的異常推定によるAI生成画像検出 [cs.CV, cs.AI, cs.CY]目的:AI生成画像の検出
- 画像生成AIの急速な発展により,AI生成画像と実画像の区別が重要になっている。
- 既存の画像検出器は,生成器特有のアーティファクトに依存しており,高画質化により検出精度が低下する。
- 文脈的異常推定を用いて,よりロバストなAI生成画像検出手法を確立することを目指す。
- 提案手法CINEMAEは,マスクされた自己符号化器(MAE)の再構成メカニズムとエンコーダーを活用し,文脈的および特徴に基づく手がかりを融合する。
- GenImageとAIGCDetectBenchmarkにおいて,それぞれ96.63%と93.96%の高い平均精度を達成した。
- JPEG圧縮(QF=50)下でも93%以上の精度を維持し,堅牢性も確認された。
MUGSQA:新たな多重不確実性に基づくガウススプラッティング品質評価手法,データセット,およびベンチマーク [cs.CV]目的:ガウススプラッティングによる3Dオブジェクト再構成の知覚的品質評価
- 3Dオブジェクトの再構成は,仮想現実や拡張現実など幅広い分野で重要性が増している。
- ガウススプラッティングの多様な手法による再構成品質の客観評価が課題となっている。
- 入力データや視点条件の不確実性を考慮した品質評価手法とデータセットを開発する。
- 本研究では,人間の視覚行動を模倣した多距離主観評価手法を提案し,より正確な知覚的品質の収集を実現した。
- 複数の不確実性要素を考慮したガウススプラッティング品質評価データセットMUGSQAを構築した。
- ガウススプラッティング再構成手法と既存品質評価指標の性能を評価する2つのベンチマークを構築した。
隠蔽を通じた数え上げ:オープンワールドアモダル数え上げのためのフレームワーク [cs.CV]目的:隠蔽された物体の数を正確に数えること
- 物体数え上げは,ロボット工学や画像解析において重要な役割を担う技術である。
- 既存手法は,物体が隠蔽されている状況下では性能が著しく低下する。
- 隠蔽された物体の特徴を再構成し,正確な数え上げを可能にすることを目指す。
- CountOCCは,多階層マルチモーダルガイダンスにより,隠蔽された物体の特徴を明示的に再構成する。
- FSC-147-OCCにおいて,CountOCCは既存手法と比較してMAEをそれぞれ26.72%および20.80%削減した。
- CARPK-OCCおよびCAPTURe-Realにおいても,優れた汎化性能を示し,MAEをそれぞれ49.89%および28.79%削減した。
角度勾配符号法:双曲型ネットワークの脆弱性の解明 [cs.LG, cs.CV]目的:双曲型ネットワークにおける脆弱性の解明
- 近年,双曲型ネットワークが注目を集めており,その応用範囲は拡大している。
- 従来の攻撃手法はユークリッド空間に最適化されており,双曲空間での効果が不明確である。
- 双曲空間の幾何学的特性を考慮した新たな攻撃手法を開発し,その有効性を検証する。
- 提案手法は,従来の攻撃手法と比較して,高い欺瞞率を達成した。
- 双曲型埋め込みにおける脆弱性に関する深い洞察が得られた。
- 幾何学を意識した敵対的戦略の重要性が示唆された。
Video2Layout: メトリックに基づいた認知マップの想起と再構築による空間推論 [cs.CL, cs.CV]目的:空間推論のためのメトリックに基づいた認知マップの再構築
- マルチモーダル大規模言語モデルにおいて,物理世界を理解するための空間知能は重要な課題である。
- 既存のグリッドベースの認知マップは離散表現に依存するため,詳細な空間推論能力が制限される。
- 本研究は,連続的な物体の境界座標を用いて,より正確な空間レイアウトの再構築を目指す。
- 提案手法Video2Layoutは,AI2THORシミュレーターで構築した高品質データセットを用いて学習を行う。
- 強化学習によるファインチューニングにより,実世界の汎化性能を高めている。
- 主流の空間推論ベンチマークにおいて,グリッドマップで学習したモデルと比較して平均3.24%の性能向上を達成した。
アライメントフリー深度超解像のための多次のマッチングネットワーク [cs.CV]目的:深度超解像における,アライメントフリーな情報検索と選択
- 現実世界のRGB-Dデータ取得には課題があり,高精度な深度再構成が求められている。
- 厳密なRGB-Dアライメントが困難で,既存手法はずれが生じたデータで性能が低下する。
- ずれのあるRGBデータから関連情報を効率的に取得し,深度超解像の性能を向上させる。
- 提案手法MOMNetは,多次のマッチング機構により,ずれのあるRGBから深度と整合性の高い情報を適応的に取得する。
- 多次の集約により,RGBから深度への選択的な特徴転送を促進し,効果的な情報統合を実現する。
- 実験により,MOMNetが最先端の性能を達成し,優れたロバスト性を示すことが確認された。
視覚言語モデルにおける高速思考と低速思考の学習 [cs.CV]目的:視覚言語モデルにおける思考モードの選択機構
- 複雑な問題を解決するためには,効率的な認知資源の配分が重要である。
- 既存の視覚言語モデルは,問題の複雑さに応じて思考の深さを使い分けていない。
- 問題の複雑さに応じた思考モードを選択する機構を開発し,効率的な推論を目指す。
- 本研究では,事前学習済みの視覚言語モデルが持つ自然な応答長の傾向を活用した二重モード思考機構を提案した。
- 訓練インスタンスを,モデルの自然な応答長に基づいた高速思考または低速思考のプレフィックスに固定することで,効率的な学習を実現した。
- 提案手法DualMindVLMは,既存モデルを大幅に上回り,高い推論性能とトークン効率を両立した。
UnfoldLDM:潜在拡散事前知識を用いた深層アンフォールドに基づくブラインド画像復元 [cs.CV, cs.AI]目的:ブラインド画像復元のための深層アンフォールドネットワークと潜在拡散モデルの統合
- 画像復元は,様々な画像処理パイプラインにおいて重要な前処理ステップである。
- 既存の深層アンフォールドネットワークは,特定の劣化モデルに依存し,ブラインド復元に課題がある。
- 未知の劣化モデルに対しても頑健な劣化除去と,高周波成分の回復を目指す。
- 提案手法UnfoldLDMは,マルチグラニュラリティ劣化認識モジュールを用いて未知の劣化を推定する。
- 劣化に強い潜在拡散モデルと,高周波成分を明示的に回復する変換器により,過剰な平滑化を抑制する。
- 様々なブラインド画像復元タスクで優れた性能を示し,既存手法への応用も可能である。
海洋ロボット向け安定マルチドローンGNSS追跡システム [cs.CY, cs.SI, cs.RO, cs.AI, cs.CV]目的:海洋ロボットのGNSS追跡システムの安定化
- 海洋ロボティクスの発展には,正確かつ安定した位置推定が不可欠である。
- GNSS信号は水面下では利用できないため,代替技術に課題が残る。
- 水面付近のロボット追跡において,GNSSの信頼性を高めることを目指す。
- 本研究では,効率的な画像検出,軽量な多物体追跡,GNSS三角測量,信頼度重み付き拡張カルマンフィルタを組み合わせた。
- ドローン間での追跡ID調整アルゴリズムにより,複数ロボットの協調的な追跡とグローバルな整合性を実現した。
- 多様な環境下での実験により,提案手法の精度と頑健性が確認された。
Yo'City:自己批評的拡張によるパーソナライズされた無限の3Dリアルな都市シーン生成 [cs.CV, cs.AI]目的:パーソナライズされ無限に拡張可能な3D都市シーンの生成
- VRやデジタルツインなど多様な応用において,リアルな3D都市生成は不可欠な技術である。
- 既存手法は単一の拡散モデルに依存するため,パーソナライズされた大規模都市シーン生成に限界がある。
- 大規模言語モデルを活用し,ユーザーカスタマイズと無限拡張を可能にする新たな都市生成フレームワークを開発する。
- Yo'Cityは,トップダウン計画戦略を用いて「都市-地区-グリッド」構造を定義し,階層的な都市概念化を実現する。
- グリッドレベルの3D生成は,画像合成ループと画像から3Dへの生成を通じて行われ,品質向上を目指す。
- シーングラフに基づく距離と意味を考慮したレイアウト最適化により,空間的に一貫性のある都市成長を実現する。
ショートカット不変性:潜在空間における標的ヤコビアン正則化 [cs.LG, cs.CV, stat.ML]目的:深層ニューラルネットワークにおけるショートカット学習の軽減
- 深層学習モデルの汎化性能向上が重要であり,特に未知データへの対応が求められる。
- 学習データに存在する欺瞞的な相関関係(ショートカット)が,未知データへの汎化を阻害する。
- 潜在空間においてショートカット軸への依存を抑制し,汎化性能を向上させることを目指す。
- 潜在空間でショートカット軸を特定し,標的異方性ノイズを注入することで,分類器の感度を正則化する。
- この手法は,決定境界をショートカット軸に沿って平坦化し,主要な特徴次元への影響を最小限に抑える。
- ショートカットラベルや対立するサンプルを必要とせず,既存手法を上回る未知データ性能を達成する。
BotaCLIP:植物認識を考慮した地球観測データのコントラスト学習 [cs.CE, cs.DC, cs.CV, cs.AI]目的:植物認識を考慮した地球観測データの表現学習
- 地球観測データの活用は,生態系理解や生物多様性保全に不可欠である。
- 既存の汎用的な表現学習では,植物生態学特有の知識が反映されにくい。
- 植物生態学の知識を効率的に組み込み,データ不足時の表現学習を可能にすること。
- BotaCLIPは,既存の地球観測データ用基盤モデル(DOFA)を,航空画像と植物調査データを用いて適応させた。
- コントラスト学習と忘却緩和戦略により,生態構造を組み込んだ表現を獲得した。
- 植物存在予測,蝶の出現モデリング,土壌栄養群の推定において,DOFAや教師あり学習よりも高い性能を示した。
有孔虫種の2DマイクロCTスライスからの高精度深層学習フレームワーク:ForamDeepSlice [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG]目的:有孔虫種の自動分類
- 微化石の同定は古環境復元や地質学的年代測定に不可欠であり,その効率化が求められている。
- 熟練した専門家による手動同定は時間と労力を要し,客観性に課題が残る場合がある。
- 深層学習を活用し,有孔虫種の自動かつ高精度な同定を可能にすることを目指す。
- 開発したフレームワークForamDeepSlice(FDS)は,テスト精度95.64%を達成し,トップ3精度は99.6%を示した。
- FDSはConvNeXt-LargeとEfficientNetV2-Smallを組み合わせたアンサンブルモデルであり,高い識別能力を持つ。
- リアルタイムスライス分類と3Dスライス照合を可能にするインタラクティブなダッシュボードを開発し,実用的な展開を促進する。
LAHNet:点群登録のための局所注意ハッシュネットワーク [cs.CV]目的:点群登録のための特徴記述子の学習
- ロボット工学やコンピュータビジョンにおいて,点群データは3次元環境の理解に不可欠である。
- 既存の特徴記述子は局所情報に偏りがちで,十分な識別力を持つ広い受容野を確保することが課題である。
- 局所注意機構とハッシュ関数を活用し,ロバストで識別力のある特徴記述子を学習することで,点群登録の精度向上を目指す。
- LAHNetは,局所注意機構とLocality-Sensitive Hashingを用いることで,効率的に長距離の文脈情報を捉える。
- 提案手法は,非重複ウィンドウによる点群の分割と,効率的なクロスウィンドウ戦略により,特徴の受容野を拡大する。
- 実世界の屋内および屋外ベンチマークテストにおいて,既存手法を上回る点群登録性能を達成した。
S2AM3D:3D点群のスケール制御可能な部品分割 [cs.CV]目的:3D点群の部品レベル分割手法
- 3Dコンピュータビジョン分野において,部品レベルの点群分割は重要性を増している。
- 既存手法は,3Dモデルの汎化性能の低さ,または2D事前知識の不整合といった課題を抱えている。
- 異なる視点間の一貫性を保ちつつ,データ不足問題を克服し,分割粒度の制御を目指す。
- S2AM3Dは,2Dセグメンテーションの事前知識と3Dの一貫性のある教師信号を統合することで,課題解決を図っている。
- ネイティブな3Dコントラスティブ学習とスケール対応のプロンプトデコーダにより,一貫性のある特徴表現と粒度調整を実現した。
- 10万以上のサンプルを含む大規模な点群データセットを新たに構築し,モデルの学習に貢献している。
トレーニング不要な模範画像に基づく画像編集のための可逆的変換 [cs.CV]目的:模範画像に基づいた画像編集の効率化と品質向上
- 画像編集技術は,写真加工や画像生成など,多様な応用分野で重要性が増している。
- 既存手法は大規模な事前学習が必要で,計算コストが高いという課題がある。
- 事前学習なしで,より高品質かつ効率的な画像編集を実現することを目的とする。
- 提案手法ReInversionは,2段階のノイズ除去プロセスにより,効率的かつ効果的な編集を実現する。
- Mask-Guided Selective Denoising (MSD)戦略により,背景の構造的整合性を保ちつつ,編集領域を限定する。
- 定量的・定性的評価により,ReInversionが既存手法を凌駕する性能と低い計算コストを持つことが示された。
履歴コンテキストを意識したGUIエージェントのポリシー最適化:HiconAgent [cs.CV]目的:GUIエージェントにおける効率的かつ効果的な履歴情報の利用
- GUI自動化は,多様なタスクを効率化する上で重要であり,その性能向上が求められている。
- 過去の履歴を単純に利用すると,計算コストが増大し,不要な情報に注意がそらされるという課題がある。
- 履歴情報を効率的に利用し,GUIタスクの性能向上を目指す。
- HiconAgentは,履歴情報を効果的に利用するHCPOという新しい手法を導入した。
- GUI-Odysseyにおいて,HiconAgent-3BはGUI-R1-7Bを精度とステップ成功率で上回る性能を示した。
- AndroidControlおよびAITWにおいても同等の性能を維持しつつ,計算速度の向上とFLOPsの削減を達成した。
MAViD:オーディオビジュアル対話の理解と生成のためのマルチモーダルフレームワーク [cs.CV]目的:オーディオビジュアル対話の理解と生成
- 人間とコンピュータ間の自然な対話を実現するため,視覚情報と聴覚情報を統合する研究が重要である。
- 既存手法は非インタラクティブであり,人間らしい自然な対話生成が困難である。
- マルチモーダル情報の融合と,理解と生成能力の統合による自然な対話生成を目指す。
- MAViDは,対話システムを「指示者」と「創造者」の二つの構成要素に分割するアーキテクチャを採用している。
- 指示者は対話の理解と推論を行い,動きと音声に関する指示を生成する。
- 創造者はこれらの指示に基づいてインタラクティブな応答を生成し,一貫性のある長尺のオーディオビジュアルコンテンツを生成する。
トークン刈り込みはランダムよりも劣る場合がある:VLLMにおける視覚トークン情報の理解 [cs.CL, cs.CV]目的:VLLMにおける視覚トークン情報の消失と,それに対応した効率的な推論手法の検討
- VLLMは画像処理において高い性能を示すが,大量の視覚トークンを扱うため計算コストが高い。
- 既存のトークン刈り込み手法は,深層部においてはランダム刈り込みと変わらない結果しか得られない。
- 視覚トークン情報の消失が深層部で起こる原因を特定し,より効率的な刈り込み手法を提案する。
- 深層部において視覚トークンは徐々に重要性を失い,一定の層(情報地平線)を超えると冗長になることが明らかになった。
- 情報地平線の位置は,OCRのような視覚集約的なタスクでは深くなり,VQAのような汎用タスクでは浅くなる傾向がある。
- 深層部においてはランダム刈り込みが有効であり,既存手法と組み合わせることで性能を維持しつつ効率化が可能となった。
モジュール型ニューラル画像信号処理 [cs.CV]目的:モジュール型ニューラル画像信号処理フレームワーク
- 画像処理技術は,写真や映像の品質向上に不可欠であり,様々な分野で利用されている。
- 従来のニューラルISPは,柔軟性や拡張性に課題があり,カメラやユーザーの好みに対応しにくい。
- 本研究は,モジュール化により,ISPの柔軟性,拡張性,汎化性能を向上させることを目指す。
- 本研究で提案するモジュール型フレームワークは,高品質な画像生成と同時に,処理過程の制御性,スケーラビリティ,デバッグ容易性を実現する。
- ユーザーインタラクティブな画像編集ツールを構築し,多様な編集操作やスタイルに対応できることを示した。
- 比較的小規模なモデルサイズ(0.5M〜3.9Mパラメータ)でありながら,複数のテストセットで競争力のある結果が得られた。
ベクトル化オフロードネットワーク抽出のための経路中心推論 [cs.CV, cs.AI]目的:オフロード環境におけるベクトル化道路抽出手法の改善
- 地図作成や自動運転において,オフロード領域の正確な道路情報が不可欠である。
- オフロード環境に適した大規模データセットと,ロバストな道路構造推論手法が不足している。
- 経路に沿った視覚的証拠の集約により,オフロード環境における道路接続性をより確実に推論すること。
- 新たに公開したWildRoadデータセット上で,提案手法MaGRoadが最先端の性能を達成した。
- MaGRoadは,都市部のデータセットに対しても高い汎化性能を示すことが確認された。
- 効率的な頂点抽出戦略により,推論速度が約2.5倍向上し,実用性が高まった。
テスト時修正:ロバストな知覚のための逆ドメイン変換 [cs.HC, cs.CL, cs.MM, quant-ph, cs.CV]目的:ドメイン汎化におけるロバストな知覚の実現
- 汎化性能向上は,現実世界の多様な環境下でのAI利用において不可欠である。
- ターゲットドメインのバリエーションを網羅的に合成するには,コストと時間がかかる。
- テスト時に拡散モデルを用いてターゲット画像をソース分布へ変換し,問題を解決する。
- 提案手法は,セグメンテーション,検出,分類タスクにおいて一貫した性能向上を示した。
- BDD100K-Night-DetのmAP@50を10.2から31.8へ,ImageNet-Rのtop-1を36.1から60.8へ向上させた。
- DarkZurichのmIoUを28.6から46.3へ改善し,ロバスト性の強化が確認された。
BEV-Patch-PF:BEVと航空写真特徴量マッチングを用いた粒子フィルタによるオフロード測位 [cs.RO, cs.CV]目的:オフロード環境における自己位置推定システム
- ロボットの自律的な移動には,高精度な位置推定が不可欠である。
- GPSが利用できないオフロード環境での高精度な位置推定は困難である。
- 航空写真とBEV特徴量のマッチングによる位置推定精度の向上を目指す。
- 提案手法BEV-Patch-PFは,既存の検索ベースラインと比較して,走行ルート・未走行ルートともに絶対軌道誤差(ATE)を大幅に低減した。
- 特に,走行ルートでは9.7倍,未走行ルートでは6.6倍のATE削減を達成した。
- 本システムはNVIDIA Tesla T4上で10Hzでリアルタイム動作し,実用的なロボット展開が可能である。
マスク顔検出・認識のための二段階データ拡張:偽のマスクを本物へ [cs.CV, cs.LG]目的:マスク顔検出・認識のためのデータ拡張手法
- マスク着用者の増加に伴い,マスク顔の検出・認識技術の重要性が増している。
- 大規模なマスク顔データセットの不足が,高精度なマスク顔検出・認識の課題となっている。
- ルールベースの手法とGANを組み合わせたデータ拡張により,データセット不足を補い,精度向上を目指す。
- 提案手法は,ルールベースのマスク変換のみと比較して一貫した改善を示した。
- GANのデータ規模を大幅に削減しつつ,相補的な効果が得られることが示された。
- マスク以外の領域の歪みを抑制する損失関数と,多様性を高めるノイズ注入が有効であることが確認された。
SALVE: ニューラルネットワークのメカニスティック制御のためのスパースオートエンコーダ-潜在ベクトル編集 [cs.LG, cs.AI, cs.CV]目的:ニューラルネットワークのメカニスティック制御手法
- 深層学習は高性能だが,解釈性や制御が難しい。透明性・制御可能なAI開発が重要。
- 既存手法では,モデルの内部動作の理解と編集が分離しており,効率的な制御が困難である。
- スパースオートエンコーダを用いて特徴を抽出し,編集を通じてモデルの挙動を制御することを目指す。
- スパースオートエンコーダとGrad-FAMにより,モデル固有の疎な特徴基盤を教師なしで学習し,検証した。
- オートエンコーダの構造を活用し,永続的な重み空間介入による特徴の精密な調整を可能にした。
- クラス定義特徴とクロス特徴の両方を連続的に調整でき,ロバスト性の診断も行える。
ビジョン言語モデルは,農業における教師あり分類モデルをゼロショットで代替する準備ができているか [cs.CV]目的:農業画像分類におけるビジョン言語モデルの性能評価
- 農業分野では,病害虫や雑草の早期発見が重要であり,画像認識技術への期待が高い。
- 既存の画像認識モデルは,特定のタスクに特化しており,汎用性に課題がある。
- 本研究は,汎用的なビジョン言語モデルが農業分野で教師ありモデルと同等の性能を発揮するかを検証する。
- 現在のビジョン言語モデルは,農業画像分類において教師ありモデルと比較して性能が劣る。
- Gemini-3 Proは複数選択肢形式で約62%の平均精度を達成するが,オープンエンド形式では25%を下回る。
- LLMを用いたセマンティックジャッジによりオープンエンド形式の精度が向上し,評価方法が結果に影響を与えることが示された。
