arXiv雑要約
画像・音声 - 2026/03/16 公開
多方向性結膜血管画像からの深層学習に基づく血糖値推定 [eess.IV, cs.CV]目的:多方向性結膜血管画像を用いた代謝状態の三区分分類および空腹時血糖値の連続推定
- 糖尿病管理において,血糖値の定期的なモニタリングは不可欠である。非侵襲的なモニタリング手法の確立が望まれている。
- 従来の血糖測定は負担が大きく,頻繁な測定が困難である。非侵襲的な血糖モニタリング法の開発が課題となっている。
- 結膜血管画像から血糖値を推定することで,簡便かつ負担の少ない血糖モニタリングの実現を目指す。
- ScleraGluNetは全体で93.8%の精度を達成し,正常,コントロールされた糖尿病,高血糖糖尿病のAUCはそれぞれ0.971,0.956,0.982であった。
- 空腹時血糖値の推定では,MAE = 6.42 mg/dL,RMSE = 7.91 mg/dLを示し,ラボ測定値との強い相関関係(r = 0.983; R2 = 0.966)が確認された。
- Bland Altman分析では,平均バイアスが+1.45 mg/dLであり,95%の一致限界は-8.33〜+11.23 mg/dLであった。
GLEAM:緑内障分類のためのマルチモーダル画像データセットとHAMM [eess.IV, cs.CV]目的:緑内障の病状評価と解析のためのマルチモーダル画像データセット
- 緑内障は失明原因の主要なものであり,早期発見と適切な治療が重要である。
- 従来の診断は専門医の熟練度に依存し,客観的で効率的な評価手法が求められている。
- マルチモーダル情報を活用し,緑内障の正確な診断と治療を支援すること。
- GLEAMは,眼底写真,OCT画像,視野異常マップからなる初の公開トリモーダルデータセットである。
- 提案手法HAMMは,階層的な注意機構を用いてクロスモーダル表現学習に焦点を当てている。
- HAMMは,マルチモーダル情報の統合による緑内障分類の精度向上に貢献する。
SIENAの弱点補強:標的型深層学習統合による近代化 [eess.IV, cs.CV]目的:脳萎縮のバイオマーカー推定におけるSIENAの改良
- 脳萎縮は神経変性疾患の進行指標であり,正確な定量が重要である。
- SIENAは古典的な画像処理に依存し,その段階での失敗が結果に影響する。
- 深層学習を用いてSIENAの弱点を補強し,推定精度と安定性を向上させる。
- 頭蓋除去モジュールの置き換えにより,PBVCと疾患進行指標の関連性が向上した。
- データセット全体でスキャン順序の一貫性が大幅に改善され,エラーが最大99.1%削減された。
- GPU対応版では実行時間が最大46%短縮され,解釈可能性を維持した。
大規模事前学習とターゲット特定微調整による拡散確率モデルを用いた脳卒中MRIの高速化 [eess.IV, cs.CV, cs.LG, physics.med-ph]目的:拡散確率モデルを用いたデータ効率の良いMRI再構成戦略
- 脳卒中は迅速な診断と治療が重要であり,MRIは不可欠な検査である。
- 臨床脳卒中MRIでは,限られたデータ量で高速スキャンを実現することが課題である。
- データ制約下で,拡散確率モデルによるMRI再構成の精度を向上させる。
- 大規模データセットでの事前学習と,少量のターゲットデータでの微調整により,高精度な再構成が可能となった。
- 臨床脳卒中MRIデータを用いた盲検評価では,提案手法は標準的な画像品質と同等であることが示された。
- 本手法は,ターゲットアプリケーションに特化した大規模データセットの必要性を大幅に削減する。
DiT-IC:効率的な画像圧縮のためのアラインド拡散Transformer [eess.IV, cs.CV]目的:効率的な画像圧縮のための新しい手法
- 画像圧縮は,データ保存や伝送において重要な役割を担う技術である。
- 拡散モデルに基づく画像圧縮は計算コストが高く,実用性に課題がある。
- 高圧縮率を維持しつつ,計算コストとメモリ使用量を削減することを目標とする。
- DiT-ICは,従来のU-Net構造に代わり,Diffusion Transformerを使用することで,32倍ダウンサンプリングされた潜在空間で効率的に動作する。
- 提案手法は,バリアンス誘導再構成フロー,自己蒸留アラインメント,潜在条件付きガイダンスという3つのアラインメントメカニズムによって,高速なデコードと低メモリ使用量を実現した。
- DiT-ICは,最先端の知覚品質を維持しながら,既存の拡散ベースのコーデックよりも最大30倍高速なデコードと大幅なメモリ削減を達成した。
座標ネットワークにおける位置複雑性と深さのトレードオフ [math.OC, cs.DM, cs.PF, math.MG, cs.NI, cs.RO, cs.CG, math.AT, cs.CV]目的:座標ネットワークにおける位置エンコーディングの性能を決定する要素の解明
- 座標に基づくMLPは,高周波情報を保持する上で重要な役割を果たす
- 位置エンコーディングの有効性の理論的根拠は,主にフーリエ変換の観点から研究されてきた
- フーリエ変換以外の位置エンコーディング手法の可能性と,性能に影響する要素を明らかにすること
- 位置エンコーディングの性能は,埋め込み行列の安定階数と埋め込み座標間の距離保存の間のトレードオフによって決定される
- フーリエ特徴写像は,この条件を満たす特殊なケースに過ぎない
- 位置エンコーディングの複雑性を増やすことで,ネットワークの深さを浅くしても同等の性能が得られ,計算速度が大幅に向上する
二段階多数決規則の複雑性について [cs.GT, cs.DS]目的:議会や立法機関における意思決定に関わる逐次投票規則の複雑性
- 議会運営や政策決定において,公平かつ効率的な投票規則の設計が重要である。
- 既存の逐次投票規則には,根本的な公理を満たさない問題が存在する。
- Horan and Sprumontが提案した二段階多数決規則(TSMR)の複雑性を分析し,問題を解決する。
- 本研究では,アジェンダコントロール,連立操作,勝者可能性,勝者必要性を含む選挙管理問題の複雑性を包括的に分析した。
- その結果,これらの問題の複雑性の状況が明らかになった。
部分観測マルチエージェント強化学習における情報共有 [cs.LG, cs.GT, cs.MA]目的:部分観測確率的ゲームにおける,マルチエージェント強化学習の理論的保証
- マルチエージェントシステムは,現実世界の複雑な問題を解決する上で不可欠である。
- 部分観測環境下でのマルチエージェント強化学習は,計算困難性が高く,実用化が難しい。
- エージェント間の情報共有によって計算効率を向上させ,実用的なアルゴリズムを開発すること。
- エージェント間の情報共有の必要性と,部分観測下での効率的な強化学習を可能にする可視性に関する仮定を明らかにした。
- 真のモデルでの計画の非効率性に着目し,共有情報の近似によってPOSGの近似モデルを構築し,準多項式時間で近似均衡を導出した。
- 準多項式時間・サンプル複雑性を持つ,部分観測マルチエージェント強化学習アルゴリズムを開発し,チーム最適解への拡張も示した。
活性化から初期化へ:ニューラルフィールド最適化のためのスケーリングに関する考察 [cs.CV, cs.LG]目的:ニューラルフィールドの最適化に関する理論的基盤
- 画像認識分野において,ニューラルフィールドは信号表現のための強力な手法として注目を集めている。
- ニューラルフィールドの応用は進むものの,その理論的基盤は未だ十分に確立されていない。
- ニューラルフィールドの設計において,初期化と活性化の相互作用を理解し,最適化を促進することを目的とする。
- ネットワークの初期化,アーキテクチャ,最適化プロセス間の深い関係性が明らかになった。
- 効果的なニューラルフィールドの設計には,全体的なアプローチが不可欠であることが示唆された。
相構造に基づくジオモデルのパラメータ化とデータ同化のための潜在拡散モデル [cs.CV, cs.AI, cs.CE, cs.LG, physics.geo-ph]目的:相構造に基づくジオモデルのパラメータ化とデータ同化
- 地質モデルは資源探査や開発において不可欠であり,その精度向上が重要である。
- 従来のジオモデル作成は計算コストが高く,データ同化が困難であるという課題があった。
- 潜在拡散モデルを用いて,効率的かつ高精度なジオモデルのパラメータ化とデータ同化を実現する。
- 潜在拡散モデルは,ジオモデリングソフトウェアからのサンプルと視覚的に一貫性のある実現を生成できることが示された。
- 空間統計量やフロー応答統計量に関する定量的な評価の結果,拡散モデルによる実現と参照実現の間には全体的な一致が見られた。
- アンサンブルに基づくデータ同化において,有意な不確実性の低減と,観測データを包含する事後予測が得られた。
ニューラルネットワークの滑らかな最適化のための重み条件付け [eess.SY, cs.SY, cs.CV]目的:ニューラルネットワークの重み行列の条件数を改善すること
- 深層学習の性能は,ネットワークの構造や重みの初期化に大きく依存する。
- 重み行列の条件数が悪いと,最適化が不安定になり,収束が遅れる問題がある。
- 重み行列の条件数を改善することで,最適化の安定性と収束速度を向上させる。
- 提案手法である重み条件付けは,重み行列の最小特異値と最大特異値の差を縮小する。
- 理論的に,本手法が損失関数の地形を滑らかにし,確率的勾配降下法の収束を促進することが示された。
- CNN,ViT,NeRFなど様々なネットワーク構造で,既存の重み正規化手法を上回る性能が確認された。
3Dガウススプラッティングによる屋内3D物体検出の性能向上:境界ガイドとボックス集中サンプリング [cs.CV]目的:屋内3D物体検出における3Dガウススプラッティングの活用
- 屋内環境の3Dモデルは,ロボット工学や拡張現実など幅広い応用分野で重要である。
- 従来のNeRFのような表現は,明示的な3D表現能力に限界があり,屋内3D物体検出の精度向上が課題である。
- 3Dガウススプラッティングの潜在能力を引き出し,屋内3D物体検出における課題を克服すること。
- 提案手法は,2D境界ガイドを導入することで,ガウス分布の空間的分布を明確化し,物体と背景の識別性能を向上させている。
- ボックス集中サンプリング戦略により,背景のノイズを削減し,より正確な物体検出を実現している。
- ScanNetおよびARKITScenesデータセットにおいて,最先端のNeRFベース手法と比較して大幅な性能向上を達成している。
LADMIM:離散潜在空間におけるマスク画像モデリングによる論理的異常検出 [cs.CV]目的:論理的異常検出のための新たなフレームワーク
- 画像認識技術は,自動運転やロボティクスなど,幅広い分野で重要性を増している。
- 従来の異常検出手法は局所的なパターンに焦点を当てており,全体的なパターンにおける論理的な異常検出が困難である。
- マスク画像モデリングと離散表現学習を活用し,論理的な異常を高精度に検出することを目的とする。
- マスク画像モデリングにより,パッチ間の長距離依存関係を学習することで,論理的異常検出の精度が向上する。
- 離散潜在空間における分布予測により,低レベルなピクセル空間の変動に影響されず,論理的依存関係に集中できる。
- 5つのベンチマークデータセットにおいて,事前学習済みのセグメンテーションモデルを使用せずに,同等の性能を達成した。
注意機構の再考:Transformer における softmax の多項式による代替案 [cs.LG, cs.CV, stat.ML]目的:Transformer における注意機構の代替案の検討
- 自然言語処理の発展において,Transformer は重要な役割を果たしている。
- softmax 注意機構は計算コストが高く,効率性が課題となっている。
- softmax の効果の真の要因を解明し,より効率的な代替案を提示する。
- softmax の性能は確率分布の生成よりも,Frobenius ノルムの正則化による安定性にあることが示唆された。
- 特定の多項式が softmax の代替として機能し,優れた性能を発揮することが理論的に証明された。
- 実験結果は,多項式による代替が Transformer の様々な応用において有効であることを裏付けている。
境界条件付き動作推論による物理的に整合性の高い動画生成: Motion Dreamer [cs.RO, cs.CV, cs.AI]目的:境界条件付き動作推論
- 自動運転や具現化された知能において,将来のシナリオ生成は不可欠である。
- 既存手法は,明示的な制約を無視するか,完全な入力が必要で実用的でない。
- 部分的な情報から物理的に整合性の高い動作を推論し,現実的な動画を生成する。
- Motion Dreamerは,動作推論と視覚合成を分離する2段階フレームワークである。
- インスタンスフローにより,部分的な動作情報の統合と他のオブジェクトの動作推論が可能となった。
- 既存手法を大幅に上回り,動作の妥当性と視覚的なリアリズムを向上させた。
ExCellGen:単一の現実世界の例から高速で制御可能かつフォトリアリスティックな3Dシーン生成 [cs.CV, cs.GR]目的:単一の現実世界の例からの3Dシーン生成手法
- 3Dコンテンツ制作において,高品質な3Dデータセットの不足が課題であり,制作効率の向上が求められている。
- 手動による3Dモデリングは専門知識を要し,修正に時間がかかるため,クリエイティビティを阻害する要因となっている。
- 現実世界の映像から短時間で高品質な3Dシーンを生成し,インタラクティブなコンテンツ制作を可能にすること。
- 提案手法は,3D Gaussian Splattingを用いて入力シーンをロバストに再構築し,高品質な3D表現モデルを生成する。
- シーン固有のGenerative Cellular Automaton (GCA) を学習することで,シーン生成を効率化し,制御性を高める。
- 本パイプラインは,各例に対して10分未満で学習可能であり,シーン生成は0.5~2秒で完了する。
スペクトルフィルタリングによるデータセット蒸留の理解 [cs.CV, cs.LG]目的:データセット蒸留手法間の繋がりを明らかにする理論的枠組み
- データセットサイズ削減とモデル学習の高速化が求められている
- 既存のデータセット蒸留手法は原理的にバラバラで,統一的な理解が不足している
- 周波数特性に着目し,データセット蒸留の本質を解明し,より効果的な手法を開発する
- UniDDは,様々なデータセット蒸留の目的を,特徴-特徴相関行列と特徴-ラベル相関行列の固有値への影響として統一的に解釈する。
- 既存手法を低周波マッチングと高周波マッチングに分類し,それぞれが大域的なテクスチャと局所的な詳細を捉えることを明らかにした。
- Curriculum Frequency Matching (CFM) は,周波数パラメータを徐々に調整することで,低周波と高周波の両方の情報を活用し,既存手法を上回る性能を示す。
一貫性の罠:MLLMが生成する物語が操作された視覚的文脈を利用する場合 [cs.CV]目的:マルチモーダル大規模言語モデル(MLLM)による誤情報の検出と根拠付け
- AI生成による偽情報に対抗するため,マルチメディア操作の検出は喫緊の課題である。
- 既存手法は単純なテキスト操作に偏り,MLLMによる高度な偽情報生成に対応できていない。
- MLLMを活用したより現実的な偽情報検出パイプラインを構築し,対応する診断フレームワークを提案する。
- MLLMを活用し,視覚操作と整合性の高い偽情報を生成するMDSMデータセットを構築した。
- アーティファクトを意識したManipulation-Oriented Reasoning戦略により,MLLMを偽情報検出に活用するAMDフレームワークを提案した。
- MDSMデータセットを用いた実験で,AMDは88.18%のACC,60.25%のmAP,61.02%のmIoUを達成し,優れた汎化性能を示した。
モーションマスク誘導2段階ネットワークによる会話時ジェスチャー動画生成 [cs.CV]目的:会話時ジェスチャー動画の生成
- 動画生成技術は,エンターテイメントやコミュニケーションにおいて重要な役割を担う。
- 音声のみでは,動画におけるジェスチャーの多様性や詳細な動きを捉えきれない。
- 音声とモーションマスク,ポーズ動画を活用し,より自然なジェスチャー動画生成を目指す。
- 提案手法MMGTは,音声とモーションマスク,ポーズ動画を用いて,高品質な会話時ジェスチャー動画を生成する。
- SMGAネットワークにより,顔やジェスチャーなど主要領域の大きな動きを効果的に捉えたポーズ動画とモーションマスクを生成する。
- MM-HAAを導入することで,微細な動きの生成や領域特化の制御を改善し,高画質かつ詳細な動画を実現した。
大規模言語モデルを活用した音声基盤モデルの半教師あり学習:実環境データへの適用 [cs.CL, cs.SD, eess.AS]目的:実環境データを用いた音声基盤モデルの半教師あり学習における性能向上
- 音声基盤モデルは,多様な音声タスクの基盤技術であり,その性能向上が重要である。
- 実環境データは,ノイズや多様な話者を含むため,高品質な半教師あり学習の実現が困難である。
- 大規模言語モデルを用いて擬似ラベルを修正し,実環境データにおける半教師あり学習の課題を解決する。
- LESSフレームワークは,Mandarin ASRにおいて,WenetSpeechのWord Error Rateを3.8%絶対的に削減した。
- Spanish-to-English ASTにおいては,CallhomeテストセットでBLEUスコアが0.8,Fisherテストセットで0.7向上し,それぞれ34.0と64.7を達成した。
- これらの結果は,LESSが多様な言語,タスク,ドメインで有効であることを示している。
VideoChat-A1:ショットの連鎖的推論による長編動画の思考 [cs.CV]目的:長編動画における質疑応答の性能向上
- 動画理解技術は,マルチモーダル大規模言語モデルの進歩により発展している。
- 既存モデルは短編動画には強いが,長編動画の文脈理解が課題である。
- ショット単位での連鎖的推論により,長編動画の理解を深めることを目指す。
- 提案手法VideoChat-A1は,主流の長編動画QAベンチマークで最先端の性能を達成した。
- VideoMME (字幕付き) で77.0,EgoSchemaで70.1のスコアを獲得し,既存モデルを最大10.1%上回った。
- GPT-4oやGemini 1.5 Proと同等の精度を,平均7%の入力フレーム数と12%の推論時間で実現した。
空き領域の信頼性検出に向けて:物体検出のための条件付きマルコフ点過程 [cs.CV, cs.LG, math.PR]目的:物体検出のための空間統計に基づくモデルの構築
- 自動運転などにおいて,安全性を確保するには,物体が存在しない領域の不確実性を評価することが不可欠である。
- 既存の物体検出器は,検出された領域外の不確実性を定量化できず,誤った信頼度を予測しやすい。
- 空間統計の枠組みを用いて,領域が安全に通行可能であるかの確率的評価を実現する。
- 提案手法は,尤度ベースの学習により,領域が通行可能であるかどうかの明確な信頼度推定を可能にする。
- 評価実験により,提案手法のキャリブレーション性能と検出性能が確認された。
- 本研究は,自動運転などの安全性が重要なアプリケーションにおける不確実性評価の新たな方向性を示す。
低照度環境下における歩行者検出のための自動ラベリング [cs.CV]目的:低照度環境下における歩行者検出のための自動ラベリングパイプライン
- 自動運転や運転支援システムにおいて,RGBカメラは主要なセンサーであり,歩行者検出は安全確保に不可欠である。
- 低照度環境下でのRGB画像における歩行者検出は難題であり,大規模な公開データセットが不足している。
- 本研究は,赤外線とRGB画像を組み合わせた自動ラベリングパイプラインにより,低照度環境下での歩行者検出性能向上を目指す。
- 提案手法を用いて生成されたラベルで学習したモデルは,既存の正解ラベルで学習したモデルと比較して,6/9ケースでmAP@50とmAP@50-95の評価指標において高い性能を示した。
- 赤外線検出とラベル転送を組み合わせることで,低照度環境下でのRGB画像における歩行者検出のための学習データ自動生成が可能となった。
- 本研究で開発したソースコードは公開されており,歩行者検出研究の発展に貢献することが期待される。
ビデオから脳波へ:脳波信号解析における空間的・時間的ダイナミクスを明らかにするための結合埋め込み予測アーキテクチャの適応 [cs.CV, cs.AI, cs.LG]目的:脳波信号の空間的・時間的特性を捉えた表現学習
- 脳波は高時間分解能で脳活動を捉え,医療診断やブレイン・コンピュータインタフェース等の応用が期待される。
- 脳波解析では,ラベル付きデータの不足,高次元性,空間的・時間的依存性の把握が課題となっていた。
- 既存手法の限界を克服し,脳波信号の空間的・時間的特徴を包括的に捉えるモデルを開発する。
- 提案手法EEG-VJEPAは,既存の最先端モデルと比較して,異常脳波の分類精度で優位性を示した。
- EEG-VJEPAは,生理学的に妥当な空間的・時間的信号パターンを捉え,解釈可能な埋め込み表現を生成する。
- 本研究は,実臨床でのスケーラブルかつ信頼性の高い脳波解析を可能にする新たなフレームワークとなりうる。
バランスの取れた市場シェアによる最適な選択:静的および動的なアソートメント最適化 [cs.GT, math.OC]目的:収益最大化と市場シェアの均衡
- オンライン小売において収益最大化は重要だが,偏った販売構成はリスクを伴う。
- 収益のみを最適化すると,販売シェアに偏りが生じ,一部商品が売れ残る可能性がある。
- 市場シェアの制約を導入し,販売の偏りを抑制することで安定した収益を目指す。
- 静的アソートメント最適化問題は多項式時間で解けることが示され,最適な解の構造が明らかになった。
- 制約付き問題に対する近似オラクルを用いることで,公平性の制約下でも近似アルゴリズムを構築できる。
- 動的設定では,在庫と市場シェアの制約下で漸近最適となるポリシーを設計した。
Omni-Video: 統一された動画理解と生成の民主化 [cs.CV]目的:統一された動画理解,生成,および指示に基づく編集のための効率的かつ効果的なフレームワーク
- 画像処理の進歩がある一方,動画処理の分野は遅れており,発展が求められている。
- 既存の基盤モデルは主に画像に焦点を当てており,動画の統一的な理解と生成モデルに欠陥がある。
- 大規模言語モデルを活用し,動画理解,生成,編集を統合的に解決することを目指す。
- 既存のマルチモーダル大規模言語モデルに連続的な視覚的手がかりを生成させ,拡散デコーダーの入力として利用することで,高品質な動画生成を実現した。
- 軽量なアーキテクチャ設計と効率的な多段階学習スキームにより,限られたデータと計算資源で大規模言語モデルと拡散デコーダーを接続することに成功した。
- 動画生成,編集,理解タスクにおいて,モデルが良好な汎化能力を示すことが実証された。
過去の知識の蒸留:生涯にわたる人物再識別における情報密度の高いスタイル認識リプレイ [cs.CV]目的:生涯にわたる人物再識別における知識の継続的な適応と破滅的忘却の軽減
- 人物再識別は,監視カメラ映像などから個人を特定する技術であり,社会の安全保障に貢献する。
- 従来の技術では,新しいデータに適応する際に,過去の知識を忘れてしまう「破滅的忘却」が課題となる。
- 限られたメモリ内で効果的に知識を保持し,ドメイン間のずれによる忘却を抑制することを目指す。
- 提案手法は,限られたメモリ内でセマンティックな表現力を最大化する知識の凝縮プロセスを実現した。
- スタイル認識リプレイ戦略により,ドメイン間の特徴表現の調和を図り,忘却を抑制することに成功した。
- 複数のベンチマークにおいて,既存手法を大きく上回り,新たなベースラインを確立した。
リアルタイム入札広告における生成型ビッドシェーディング [cs.GT, cs.LG]目的:リアルタイム入札広告におけるビッドシェーディングの最適化
- RTB広告において,過剰な広告費を抑制するためにビッドシェーディングは重要な役割を果たす。
- 既存手法は単峰性の仮定に依存し,非凸な収益曲線への適応や,逐次処理におけるエラー伝播に脆弱である。
- 複雑な価値依存性を捉え,短期・長期的な収益を最適化する新たなビッドシェーディング手法を提案する。
- 生成型ビッドシェーディング(GBS)は,ステップごとの残差を用いてシェーディング比率を生成するエンドツーエンドの生成モデルを用いる。
- GBSは,チャネル認識型階層型動的ネットワーク(CHNet)を報酬モデルとして組み込み,詳細な特徴を抽出する。
- オフラインおよびオンラインA/Bテストの結果,GBSの有効性が検証され,Meituan DSPプラットフォームで実運用されている。
SegDAC:動的オブジェクトトークンによる強化学習における視覚的汎化 [cs.CV, cs.AI, cs.LG, cs.RO]目的:視覚的条件の変化に対する強化学習の汎化性能向上
- 視覚情報に基づいた強化学習は,現実世界のタスクへの応用が期待されている。
- 視覚条件の変化に対し,従来のピクセルベースの強化学習は汎化性能が低い。
- オブジェクトレベルでの表現を用いることで,汎化性能の向上を目指す。
- SegDACは,セグメンテーションによって生成される動的なオブジェクトトークンを処理するアクタークリティックモデルである。
- セグメント位置エンコーディングと可変長処理が,高い性能に不可欠であることが示された。
- ManiSkill3のタスクにおいて,既存の視覚的汎化手法と比較して,難易度が高い設定で88%の性能向上を達成した。
MoVieDrive:マルチモーダルマルチビュー動画拡散Transformerによる都市シーン合成 [cs.CV]目的:都市シーンの合成手法
- 自動運転の実現には,周囲環境の正確な理解が不可欠であり,多様なデータが重要となる。
- 既存の動画生成手法はRGB画像に偏っており,深度図やセマンティックマップ等のマルチモーダルデータの活用が課題である。
- マルチモーダルデータを統合的に生成し,自動運転における環境理解を向上させることを目指す。
- 提案手法は,モーダル共有コンポーネントとモーダル特有コンポーネントから構成される統一的な拡散Transformerモデルである。
- 様々な条件入力を用いることで,制御可能なシーン構造とコンテンツをマルチモーダルマルチビュー統一拡散モデルにエンコードする。
- 実世界の自動運転データセットを用いた実験により,提案手法が最先端手法と比較して,優れた動画生成品質と制御性を示すことが確認された。
ダイナミックアウェア:自動運転車の軌跡予測における分布外検出のための適応的マルチモード手法 [cs.CV, cs.LG, cs.RO]目的:自動運転車における軌跡予測の分布外検出
- 自動運転の安全性と円滑な運用には,正確な軌跡予測が不可欠である。
- 学習データと実環境との分布のずれが課題であり,特に稀な交通状況下で検出が困難である。
- 実環境における軌跡予測誤差の動的な変化を考慮し,よりロバストな分布外検出を目指す。
- 予測誤差がモード依存的な分布を示すことを実証し,その時間変化を明示的にモデル化した。
- 提案手法は,既存の不確実性推定や画像認識ベースの手法と比較して,検出遅延と誤報率を大幅に改善した。
- 確立された軌跡予測ベンチマークにおいて,精度と計算効率の両面で優れた性能を示した。
低解像度条件による効率的な拡散サンプリング:LowDiff [cs.CV]目的:拡散サンプリングの効率化
- 画像生成において拡散モデルが著しい成果を上げているが,実用上の速度が課題。
- 既存手法はモデル圧縮やステップ数削減に偏り,解像度の活用が不十分。
- 複数解像度を活用し,高速かつ高品質な画像生成を実現すること。
- 提案手法LowDiffは,低解像度から高解像度へと段階的に生成するカスケード構造を採用。
- LowDiffは,一貫したモデルで低解像度画像を徐々に洗練し,高解像度化を実現。
- CIFAR-10,FFHQ,ImageNet等で50%以上のスループット向上と,同等以上の画質を達成。
神経力学駆動結合ニューラルPシステムによる多焦点画像融合 [cs.CV]目的:多焦点画像融合における高精度な決定マップの生成
- 画像処理において,多焦点画像融合は重要な技術であり,様々な応用分野で利用されている。
- 従来の決定マップ生成手法は,ヒューリスティックなルールや解釈困難な深層学習に依存しており,高品質なマップ生成が課題である。
- 本研究は,ニューロダイナミクスに基づく新たなアプローチで,より正確な決定マップ生成を可能にすることを目指す。
- 本研究で提案するND-CNPFuseは,入力画像を解釈可能なスパイク行列に変換し,スパイク数比較により高精度な決定マップを直接生成する。
- 4つの古典的な多焦点画像融合データセット(Lytro, MFFW, MFI-WHU, Real-MFF)において,最先端の性能を達成した。
- モデルのニューロダイナミクス解析により,パラメータと入力信号間の制約を特定し,ニューロンの異常な発火を防ぎ,焦点領域と非焦点領域を正確に識別することを可能にした。
非ロバスト事前学習モデルからのロバストなファインチューニング:イプシロン・スケジューリングによる不適切な転移の緩和 [cs.LG, cs.AI, cs.CV]目的:非ロバスト事前学習モデルからのロバストなファインチューニングにおける不適切な転移の緩和
- 近年,機械学習において事前学習モデルのファインチューニングは標準的な手法であり,高性能な結果をもたらす。
- ロバストなファインチューニングは,タスクへの適応と敵対的サンプルへのロバスト性の両立が難しく,課題となっている。
- 非ロバスト事前学習モデルからでもロバストなファインチューニングが可能となるよう,転移学習のメカニズムを解明する。
- 非ロバストモデルをロバスト目的でファインチューニングすると,タスク適応が阻害され,最適な転移が妨げられることが示された。
- 提案手法であるイプシロン・スケジューリングは,学習中の摂動の強度を調整することで,不適切な転移を効果的に防止する。
- 様々な設定(6つの事前学習モデルと5つのデータセット)での実験により,イプシロン・スケジューリングが期待されるロバスト性を改善することが確認された。
SDPose:拡散事前分布を利用した領域外およびロバストな姿勢推定 [cs.CV]目的:領域外およびロバストな姿勢推定のための手法
- 人間の姿勢推定は,ロボティクスやコンピュータビジョンの応用において不可欠な技術である。
- 既存手法は,ドメイン間の差異やノイズに対して脆弱であることが課題である。
- 拡散モデルの潜在表現を活用し,ロバストかつ汎化性能の高い姿勢推定を実現する。
- SDPoseは,Stable DiffusionのU-Netから最適な特徴量を抽出し,集約モジュールを用いてロバストな表現を構築する。
- COCOデータセットの評価において,Sapiensと同等以上の性能,COCO-WholeBodyではSapiens-1Bを上回り,HumanArtおよびCOCO-OODで新たな最高性能を達成した。
- ヒートマップの教師あり学習に加え,潜在空間再構成損失を導入することで,学習の正則化と事前分布の維持を図っている。
MLLMを用いた複雑な視覚タスクに対する学習不要な不確実性ガイダンス [eess.SY, cs.RO, cs.SY, math.OC, cs.CV]目的:複雑な視覚タスクにおける不確実性ガイダンスの枠組み
- マルチモーダルな情報処理は,AIの応用範囲を広げ,より高度なタスクを可能にする上で重要である。
- MLLMは高解像度画像や長尺動画の細かい部分の認識に弱く,タスク固有の学習が必要となることが多い。
- 学習を必要とせず,MLLM自身の不確実性を活用することで,視覚タスクの性能向上を目指す。
- 提案手法は,応答の不確実性に基づいて視覚情報を評価し,モデルが最も情報量の多いデータに自律的に集中することを可能にする。
- Visual Search,Long Video Understanding,Temporal Groundingの3つのタスクで,専門的にファインチューニングされたシステムと同等の性能を達成した。
- モデルが持つ固有の不確実性を活用することが,マルチモーダル性能向上に有効であることを示した。
HoneyBee:ビジョン言語推論器のためのデータレシピ [eess.SY, cs.SY, math.OC, cs.DC, cs.CV, cs.LG]目的:ビジョン言語推論のための高性能な学習データセット構築原則の解明
- 近年,ビジョン言語モデルの進歩は目覚ましいが,性能を左右するデータセット構築の原理は未解明である。
- 既存のデータセットでは,推論能力を最大限に引き出すための適切なデータ構成が不明確である。
- 高品質な推論データセットを構築し,ビジョン言語モデルの性能向上に貢献することを目指す。
- コンテキストソース戦略がVLMの性能に大きな影響を与えることが明らかになった。
- 画像キャプションからの補助信号やテキストのみによる推論の導入が,性能向上に寄与する。
- 画像,質問,CoTのデータ量をそれぞれ拡大することで,推論能力が向上する。
NeuCo-Bench:地球観測におけるニューラル埋め込みのための新たなベンチマークフレームワーク [eess.SY, cs.SY, cs.LG, cs.AI, cs.CV]目的:地球観測におけるニューラル圧縮と表現学習の評価のためのフレームワーク
- 地球観測データ量は増大しており,効率的なデータ処理が重要となっている。
- 既存の評価方法は,特定のタスクに依存し,汎化性能を測りにくい。
- タスクに依存しない汎用的な埋め込み表現の評価方法を確立すること。
- NeuCo-Benchは,埋め込み表現を中心に評価を行うパイプライン,隠れたタスクを用いた挑戦モード,精度と安定性を考慮したスコアリングシステムから構成される。
- 公開チャレンジの結果から,最先端の基盤モデルの性能を比較検証した。
- このフレームワークは,地球観測分野におけるニューラル埋め込みの標準化された評価を促進し,コミュニティの発展に貢献する。
3次元思考:限られた視点からの幾何学的想像力に基づく空間推論 [cs.CV, cs.AI]目的:限られた視点からの3次元空間推論における幾何学的想像力の役割
- 視覚と言語を組み合わせたAIの発展は目覚ましいが,3次元空間の理解は依然として困難な課題である。
- 従来の推論手法はテキストや2次元視覚情報に依存し,3次元空間の想像力を必要とするタスクでの性能が制限される。
- 本研究は,3次元の事前知識やラベルなしに,画像から幾何学的情報を活用した3次元思考による推論を可能とする。
- 提案手法3DThinkerは,強力なベースラインと比較して,複数のベンチマークにおいて一貫して優れた性能を示す。
- 3DThinkerは,推論過程において視覚言語モデルが生成した3次元潜在空間を,3次元基盤モデルと整合させることで実現されている。
- 結果は,3次元表現をマルチモーダル推論に統合する新たな視点を提供するとともに,AIの空間認識能力向上に貢献する。
RobotArena ∞:リアルtoシミュレーション翻訳によるスケーラブルなロボットベンチマーキング [cs.RO, cs.AI, cs.CV, cs.LG]目的:ロボットの汎用性の評価のための,スケーラブルなベンチマーキングフレームワーク
- ロボットの汎用性を実現するには,多様なタスクと環境における厳密な評価が不可欠である。
- 実世界でのロボットポリシーのテストは,労力,時間,安全性に制約があり,再現性が低い。
- 本研究は,シミュレーション環境と人間のフィードバックを活用し,スケーラブルな評価を実現する。
- RobotArena Infinityは,ビデオデモンストレーションをシミュレーション環境に自動変換する。
- 自動化された視覚言語モデルによる評価と,クラウドワーカーによる人間の選好判断を用いる。
- シミュレーション環境を系統的に変化させることで,ポリシーの汎化性能を評価する。
段階的オブジェクト検出のためのパラメータ化プロンプト [cs.CL, cs.CV]目的:段階的オブジェクト検出におけるプロンプトの有効性向上
- 画像認識技術は,自動運転やロボット工学など幅広い分野で不可欠である。
- 段階的オブジェクト検出では,新しいクラスを学習する際に既存の知識を忘却しやすい。
- 既存のプロンプト手法は段階的オブジェクト検出に適しておらず,知識の忘却を防ぐ必要があった。
- 本研究では,ネットワークをパラメータ化プロンプトとして利用し,タスク間で知識を適応的に統合するP$^2$IODを提案した。
- P$^2$IODは,プロンプト構造の更新を抑制し,混乱とカタストロフィックフォゲティングを防ぐパラメータ化プロンプト融合戦略を採用する。
- PASCAL VOC2007とMS COCOデータセットにおける実験により,P$^2$IODが既存手法を上回る性能を示すことが確認された。
参照を意識したオーディオビジュアル・ディープフェイク検出 [cs.CV, cs.MM]目的:オーディオビジュアル・ディープフェイク検出手法
- 高度な生成モデルによるディープフェイクは脅威が増しており,その検出が重要である。
- 既存手法は,未知の操作方法への汎化性能に課題がある。
- 参照に基づく生体認証情報を活用し,汎化性能の高い検出を目指す。
- 提案手法 Referee は,話者固有の情報を参照画像から抽出し,一貫性を評価する。
- FakeAVCeleb,FaceForensics++,KoDFデータセットで最先端の結果を達成した。KoDFでは99.4%のAUCを実現。
- 参照ベースの生体認証情報の相関関係が,汎化された信頼性の高いフォレンジックの鍵となる。
グラフパイロット:言語ベースの自律運転のためのグラウンデッドシーングラフ条件付け [cs.CV]目的:言語ベースの自律運転モデルに対するシーングラフによる条件付け
- 自動運転は,交通社会の効率化や安全性向上に不可欠であり,その重要性は高い。
- 既存モデルは,関係性に着目した学習が不足しており,状況を正確に理解しきれない。
- シーングラフを用いて,モデルに交通状況の関係性を明示的に学習させることを目指す。
- 提案手法は,LangAutoおよびBench2Driveベンチマークにおいて,競合モデルを大幅に上回る性能を示した。
- シーングラフによる条件付けは,多様なアーキテクチャで効果的に機能し,関係性の事前知識を学習可能となった。
- テスト時にはシーングラフを必要とせず,汎用性も高い。
FSDAM:視覚と言語の結合による少数のサンプルを用いた運転注意モデリング [cs.CC, cs.CV]目的:運転者の注意予測と構造化された説明生成
- 自動運転における人間とAIの協調には,運転者の視線だけでなく,その理由の理解が不可欠である。
- 従来のモデルは,大規模なアノテーションを必要とし,少量のデータではタスク干渉が発生しやすい。
- 少数のアノテーションデータから運転者の注意を予測し,解釈可能な説明を生成することを目指す。
- FSDAMは90個の注釈付きサンプルを用いて,空間注意予測と構造化された説明生成を同時に行う。
- FSDAMは,タスク競合を軽減するため,空間予測とキャプション生成をそれぞれ担当するデュアルパスウェイアーキテクチャを採用している。
- データが少ない状況でも,既存手法と遜色ない性能を示し,文脈を考慮した構造的な推論を生成する。
FAPE-IR:周波数認識計画と実行による汎用画像復元フレームワーク [cs.CV, cs.AI]目的:汎用画像復元のための周波数認識計画と実行フレームワーク
- 画像劣化は多様であり,現実世界の画像には複数の劣化が同時に存在する。
- 既存手法はタスク固有の設計や潜在的なルーティング戦略に依存し,多様な劣化への適応が困難。
- 周波数特性を考慮した計画と実行により,様々な劣化に対応可能な汎用的な復元手法を確立する。
- FAPE-IRは,凍結された大規模言語モデルを用いて画像劣化を分析し,周波数認識復元計画を生成する。
- 生成された計画に基づいて,拡散ベースの実行モジュールが周波数特性に応じて適切な専門家を選択し,高品質な復元を実現する。
- 7つの復元タスクにおいて最先端の性能を示し,混合劣化に対するゼロショット汎化能力も高い。
EvoLMM:連続報酬による自己進化型大規模マルチモーダルモデル [cs.CV]目的:大規模マルチモーダルモデルの自己進化フレームワーク
- 大規模マルチモーダルモデルは,高度な推論・知覚能力を示すが,学習には人間によるアノテーションが不可欠である。
- 既存モデルは,アノテーション付きデータや外部報酬モデルに依存しており,自律性やスケーラビリティが課題である。
- アノテーションなしで,モデル自身が推論能力を向上させる方法を確立すること。
- EvoLMMは,質問生成エージェントと解答エージェントが協調し,内部整合性を通じて継続的に自己報酬化する。
- Qwen2.5-VLを基盤モデルとして用いることで,ChartQA,MathVista,MathVisionなどのベンチマークで約3%の性能向上を達成した。
- 本研究は,教師なし学習による自己改善型LMMの研究における基盤となる。
DSeq-JEPA:識別的逐次Joint-Embedding予測アーキテクチャ [cs.CV]目的:識別的逐次予測プロセスによる表現学習
- 画像認識の性能向上には,汎化能力の高い特徴量の抽出が不可欠である。
- 既存の自己教師あり学習は,予測の順序性に着目せず,並列処理に偏っている。
- 人間のように,視覚的な重要度に基づいた逐次的な予測を可能にする。
- DSeq-JEPAは,I-JEPAと比較して,より識別的で汎化性能の高い表現を学習することを示した。
- 注意機構由来の重要度マップを用いて,主要な領域を識別し,優先順位を付けて予測する。
- ImageNet,iNaturalist21など多様なタスクにおいて,優れた性能が確認された。
SuperQuadricOcc:スーパー二次曲面ボリュームレンダリングによるリアルタイム自己教師ありセマンティック占有推定 [cs.CV]目的:セマンティック占有推定の自己教師あり学習
- 自動運転データセットの規模拡大には,人手による注釈が不要な自己教師あり学習が不可欠である。
- スーパー二次曲面は表現力に優れるが,3Dシーン表現と2D学習用疑似ラベルを結びつける効率的なレンダリング手法が課題であった。
- スーパー二次曲面を用いた自己教師あり占有モデルを開発し,高速なレンダリングによる効率化を目指す。
- SuperQuadricOccは,空間的なスーパー二次曲面-ボクセルインデックスを用いることで,メモリ使用量と計算コストを大幅に削減した。
- Gaussian法よりも少ないプリミティブ数で,Occ3D-nuScenesデータセットにおいて最先端の性能を達成した。
- リアルタイム推論が可能であり,メモリフットプリントも大幅に削減されている。
JigsawComm:通信効率的な協調知覚のための,共同セマンティック特徴エンコーディングと伝送 [cs.CV]目的:通信帯域制限下における協調知覚の精度最大化
- 自動運転において,単独システムでは死角や距離の限界があるため,複数エージェントによる協調知覚が重要である。
- V2X通信の帯域制限が協調知覚の実用化を妨げており,効率的なデータ伝送が課題となっている。
- エージェント間で冗長な情報を排除し,セマンティックに関連性の高い特徴のみを伝送することで通信負荷を軽減する。
- JigsawCommは,協調知覚の精度を維持しつつ,データ量をOPV2VとDAIR-V2Xベンチマークで20~500倍削減した。
- スパースでセマンティックに関連性の高い特徴を抽出する正則化エンコーダと,特徴の有用性を予測する軽量なFUEを導入した。
- FUEから生成されるコンパクトなメタユーティリティマップを用いて,最適な伝送ポリシーを計算し,エージェント間の冗長性を排除する。
マルチシナリオからの視点に基づくMLLMによる継続学習 [cs.CV, cs.AI]目的:実世界のシナリオ変化下における破局的忘却の調査
- デバイスに展開されたMLLMは,複雑な視覚タスクを実行するために環境変化に適応する必要がある。
- 既存手法では,異なるシナリオ間の知識の相互強化が十分ではない。
- 視覚的差異に対処し,シナリオ間の知識の蓄積と強化を実現することを目指す。
- 提案手法UNIFIERは,VREとVCCにより,同一シナリオ内の知識蓄積と異なるシナリオ間の相互強化を可能にする。
- 20ステップのクロスシナリオ継続学習タスクにおいて,最先端手法QUADと比較して,VQAスコアが2.70%~10.62%向上した。
- 同様に,F1スコアも3.40%~7.69%向上し,UNIFIERの有効性が示された。
