arXiv雑要約
画像・音声 - 2025/10/14 公開
予測的4Dガウススプラッティング:90倍の圧縮 [cs.CV]目的:コンパクトな4Dシーンモデリング
- 動的な3Dシーン再構成は,リアリティの高い表現と高速レンダリングを実現する重要な技術である。
- 既存手法では,動的シーン内の空間的・時間的な冗長性を十分に活用できておらず,メモリ消費量が大きい。
- 空間時間相関を利用した予測と,効率的な量子化により,メモリ消費量を削減し,圧縮率を向上させる。
- 提案手法P-4DGSは,既存の動的3DGS表現と比較して,最先端の再構成品質と最速のレンダリング速度を実現する。
- 合成データセットと実データセットの両方で実験を行い,平均約1MBという非常に小さなフットプリントで動作することを確認した。
- 合成シーンで最大40倍,実シーンで最大90倍の圧縮率を達成し,高い圧縮効率を示す。
オーディオ・ビジュアルセグメンテーションのための補完的・対照的学習 [cs.CV]目的:オーディオ・ビジュアルセグメンテーションにおけるピクセル単位のセグメンテーションマップ生成
- 視覚情報と聴覚情報を統合することで,より高度な映像理解が可能となるため重要である。
- 従来のCNNは局所的な特徴抽出に偏り,Transformerは多岐にわたる動的特徴の抽出が課題であった。
- 多次元的な情報と時間的文脈を包括的に捉え,セグメンテーション精度向上を目指す。
- 提案手法CCFormerは,初期統合モジュールとマルチクエリTransformerモジュールにより,局所的・グローバル情報の処理を両立する。
- 二重モード対照学習を導入し,統合された特徴空間における両モダリティ間のアラインメントを促進する。
- S4,MS3,AVSSデータセットにおいて,最先端のベンチマークを更新した。
医療VLMsにおける反復的な視覚的推論:より深く見るために二度考える [cs.CV, cs.AI]目的:医療画像における反復的な視覚的推論の実現
- 医療診断において,視覚情報と自然言語処理を組み合わせるVLMsは重要性が増している。
- 既存のVLMsは,単一の推論に依存し,局所的な視覚的手がかりを見落とす場合がある。
- 人間の専門家のような反復的な思考プロセスをVLMsに組み込み,診断精度と信頼性を向上させる。
- ViTARは,「思考-行動-再思考-回答」の認知連鎖を通じて,人間の専門家の反復的な推論プロセスを模倣する。
- ViTARは,視覚的根拠を臨床的に重要な領域に集中させ,推論中の視覚トークンへの注意配分を維持する。
- 実験結果から,ViTARは最先端モデルを凌駕し,医療AIの性能と信頼性を向上させることが示された。
DREAM:ディープフェイクのリアリズム評価のためのベンチマーク研究 [cs.CV]目的:ディープフェイクの視覚的リアリズムの自動評価
- 情報信頼性の脅威であるディープフェイクの出現により,その影響評価が重要となっている。
- ディープフェイクのリアリズムに関する主観的知覚のモデル化・再現は重要課題だが,十分な研究が不足している。
- 人間の知覚に近いディープフェイクのリアリズム評価手法を確立し,影響予測や生成改善に貢献することを目指す。
- 大規模なデータセットDREAMを構築し,14万件の実感スコアとテキスト記述を含むアノテーションを収集した。
- 既存の16手法と新たに提案する手法を評価し,リアリズム評価の現状と課題を明らかにした。
- 本研究は,ディープフェイクのリアリズム評価に関する将来の研究の基盤となると期待される。
不完全ラベル画像認識のためのセマンティクスを意識した特徴学習とラベル回復の協調学習 [cs.CV]目的:不完全ラベル画像認識におけるセマンティクスを意識した特徴学習とラベル回復
- 画像認識はコンピュータビジョンの重要な分野であり,多様な応用が期待される。
- 不完全なラベルデータでの画像認識は,ラベルコスト削減に繋がるが,課題が多い。
- セマンティクスを考慮した特徴学習とラベル回復を統合し,認識精度向上を目指す。
- 提案手法CLSLは,セマンティクス関連特徴学習モジュールとセマンティクス誘導特徴強化モジュールを設計した。
- CLSLは,セマンティクスを意識した特徴学習とラベル回復を統合した協調学習フレームワークを採用した。
- MS-COCO,VOC2007,NUS-WIDEのデータセットで,最先端手法を上回る性能を示した。
適応的・相対的モデリングのための自己注意と畳み込みの統合 [cs.RO, cs.LG, cs.AI, cs.CL, cs.CV]目的:自己注意と畳み込みの利点を統合した演算子Translutionの提案
- データモデリングにおいて,要素の関連性特定と効果的な表現が重要である。
- 自己注意は絶対位置埋め込みに依存し,畳み込みは固定カーネルサイズで適応性に欠ける。
- 自己注意の適応性と畳み込みの相対的な表現能力を両立させることを目指す。
- Translutionは,自己注意と畳み込みの長所を組み合わせた新しい演算子である。
- パラメータ数の増加が課題であったため,軽量版α-Translutionを提案した。
- コンピュータビジョンと自然言語処理の両タスクで,自己注意よりも高い精度を達成した。
複数ランダムマスクオートエンコーダを用いた確率的ハイパーグラフ:半教師ありマルチモーダルマルチタスク学習 [cs.CV]目的:半教師ありマルチモーダルマルチタスク学習のための確率的ハイパーグラフモデルの提案
- コンピュータビジョンは,多様なモダリティの豊富なデータにより著しい進歩を遂げている。
- 従来の学習方法は,手動でラベル付けされたデータの必要性という課題を抱えている。
- モダリティ全体のランダムマスキングにより,各フォワードパスでハイパーエッジの分布からサンプリングする。
- 本研究では,マスクオートエンコーダとニューラルグラフを統合した新規モデルPHG-MAEを提案した。
- PHG-MAEは,プリトレーニングとファインチューニングを単一の学習ループに統合し,効率的な学習を実現している。
- 推論時のアンサンブルと知識蒸留により,予測性能と整合性を向上させることができることを示した。
SecureWebArena:LVLMベースのWebエージェントに対する包括的なセキュリティ評価ベンチマーク [cs.CL, cs.CR, cs.CV]目的:LVLMベースのWebエージェントのセキュリティ評価
- Webエージェントの活用が拡大する中で,セキュリティリスクへの対策が不可欠となっている。
- 既存のベンチマークは限定的なシナリオに偏っており,Webエージェントの脆弱性を十分に捉えられていない。
- 包括的なベンチマークを提供し,Webエージェントのセキュリティ課題を明らかにすること。
- 本研究で開発したSecureWebArenaは,6つのWeb環境と2970件のデータを含む包括的なベンチマークである。
- 9つの代表的なLVLMを用いた実験の結果,すべてのエージェントが巧妙な操作に脆弱であることが示された。
- モデルの専門性とセキュリティの間にはトレードオフが存在することが明らかになった。
相互情報正則化生成モデルによる音声感情認識の改善 [cs.CL, cs.SD, cs.LG]目的:音声感情認識性能の向上
- 感情認識は,人間と機械の自然な対話に不可欠であり,その精度向上は重要な課題である。
- 深層学習の進展はあるものの,大量の高品質な学習データが必要となる点が課題である。
- 相互情報正則化を用いた生成モデルにより,データ拡張を行い,学習データ不足を解決する。
- 提案手法は,IEMOCAP,MSP-IMPROV,MSP-Podcastの3つのベンチマークデータセットで性能が向上した。
- 相互情報に基づく指標が,生成データの品質評価に有効であることが示された。
- クロスモーダル情報なしでも,新たな入力を生成できることが確認された。
ランドスライド痕跡の時空間的進化追跡:ビジョンファウンデーションモデルを用いた新規かつ普遍的なフレームワーク [cs.CV]目的:ランドスライド痕跡の時空間的進化追跡
- 大規模なランドスライドは甚大な被害をもたらすため,その発生メカニズムの理解と早期警戒が重要である。
- 既存研究では,ランドスライド発生前後の二段階に焦点を当てることが多く,痕跡の継続的な追跡は困難であった。
- 本研究は,ビジョンファウンデーションモデルを用いて,ランドスライド痕跡の時空間的進化を継続的に追跡することを試みる。
- 提案フレームワークは,離散的なリモートセンシング画像を連続的な動画シーケンスに再構成することで,ランドスライド痕跡の進化を追跡可能にした。
- 知識誘導,自動伝播,インタラクティブな改良というパラダイムを通じて,継続的かつ正確なランドスライド痕跡の識別を実現した。
- 実証実験の結果,本フレームワークは,早期警戒に不可欠な前兆現象と,二次災害評価に必要な発生後の進化の両方を捉えることができた。
リアルタイムピアノ楽譜追跡と体系的な評価のためのオープンソースライブラリMatchmaker [cs.RO, cs.SD]目的:リアルタイム音楽アライメントの比較評価基盤
- 音楽情報処理において,インタラクティブな応用を実現する上で不可欠な技術である。
- 既存の環境との互換性が低く,大規模データセットを用いた評価が困難であった。
- モデル比較のための統一的なオープンフレームワークを確立し,評価を容易にすること。
- Matchmakerは,リアルタイム音楽アライメントのための使いやすいオープンソースPythonライブラリである。
- 音楽表現とアライメント手法の2つの側面から,複数の手法を体系的に比較した。
- (n)ASAP,Batik,Vienna4x22データセットを用いて,広範な評価指標で堅牢な評価を行った。
Gesplat:幾何学的ガイダンスに基づくガウススプラッティングによるロバストな姿勢フリー3D再構成 [cs.IR, cs.CL, cs.CV]目的:疎な画像からのロバストな新規視点合成と幾何学的に整合性の取れた3D再構成
- 3D再構成技術は,仮想現実,拡張現実,ロボティクスなど幅広い分野で不可欠である。
- 従来のNeRFや3DGSは正確なカメラ姿勢と密な視点範囲に依存しており,姿勢推定が困難な疎な視点環境下で性能が低下する。
- 姿勢推定に頼らず,疎な画像から高品質な3D再構成を実現し,より現実的な応用を可能にすること。
- GesplatはVGGTモデルを活用して初期姿勢と密な点群をより信頼性の高いものとし,姿勢フリーでの再構成を可能にした。
- デュアル位置・形状最適化とグラフ誘導アトリビュート改良モジュール,フローベースの深度正則化により,再構成品質を向上させた。
- 前方視点および大規模複雑データセットの両方で,既存の姿勢フリー手法と比較してよりロバストな性能を発揮した。
教師なし連合学習における協調型疑似ラベル生成 [cs.CV, cs.LG]目的:教師なし連合学習による分類モデルの性能向上
- データ共有なしでの協調学習は,プライバシー保護の観点から重要である。
- 連合学習におけるラベル情報の欠如が,分類タスクの課題となっていた。
- CLIP等のゼロショット予測能力を活用し,ラベルなし環境での分類問題を解決する。
- 提案手法FedCoPLは,クライアントの疑似ラベル分布を調整・再配布することで,クラス間の不均衡を抑制する。
- 視覚プロンプトをサーバー側で集約し,テキストプロンプトをローカルに残すことで,効果的な協調と個別化を実現する。
- 実験の結果,FedCoPLは既存手法と比較して優れた性能を示すことが確認された。
マルチモーダル大規模言語モデルのための解答整合型Chain-of-thought強化学習 [cs.CL, cs.CV]目的:マルチモーダル大規模言語モデルにおける,推論と解答の一貫性向上
- 大規模言語モデルの発展は,複雑な問題解決能力の向上に不可欠であり,様々な分野への応用が期待される。
- 従来の強化学習では,最終的な正答率向上に偏り,推論過程と解答との整合性が失われる問題が存在する。
- 推論過程と解答の一貫性を保ちつつ,正答率を向上させることで,より信頼性の高いモデルの構築を目指す。
- 提案手法ACREは,GRPOアルゴリズムに一貫性チェックを追加し,推論と解答の不整合を抑制する。
- 解答選択肢をシャッフルして再推論させ,最初の解答と一致かつ正答の場合に高い報酬を与えることで,一貫性を高める。
- Video ReasoningとMath Reasoningタスクにおいて,ベースラインのGRPOと比較して平均2.2%と1.5%の性能向上を達成した。
コンパクトな深層学習モデルにおける,不確実性を考慮した事後検出フレームワークによる火災・煙検出の強化 [cs.CV, cs.AI, cs.LG, eess.IV]目的:火災・煙検出の精度向上
- 安全確保や災害対応において,正確な火災・煙検出は不可欠である。
- 小型深層学習モデルは効率的だが,誤検出や検出漏れが生じやすい。
- 従来の事後検出手法の限界を克服し,信頼性の高い検出を目指す。
- 提案手法は,統計的不確実性と視覚的特徴を統合し,検出信頼性を再評価する。
- D-Fireデータセットを用いた実験で,既存手法と比較して精度,再現率,平均適合率が向上した。
- 軽量なConfidence Refinement Networkにより,計算負荷を抑えつつ性能改善を実現した。
トレーニング不要な文脈内フォレンジックチェーン:画像操作の検出と局在化 [cs.IR, cs.CV, cs.AI, cs.CR]目的:画像操作の検出と局在化
- 画像改ざん技術の進歩は深刻なセキュリティリスクをもたらすため,効果的な画像操作局在化が不可欠である。
- 教師あり学習は高性能だが,高コストなピクセルレベルのアノテーションが必要となる。
- 大規模言語モデルを活用し,解釈可能な画像操作局在化を実現することで,既存手法の課題を克服する。
- 本研究で提案するICFCは,トレーニング不要でありながら,最先端のトレーニング不要手法を上回る性能を示す。
- 弱学習や完全教師あり学習のアプローチと同等またはそれ以上の性能を複数のベンチマークで達成した。
- ICFCは,画像レベルの分類,ピクセルレベルの局在化,テキストレベルの解釈可能性を実現する体系的な推論パイプラインを備えている。
ImmerIris:大規模没入型虹彩認識データセットとオープン環境におけるベンチマーク [cs.CV]目的:没入型虹彩認識のための大規模データセットと評価プロトコル
- 拡張現実や仮想現実などの没入型アプリケーションにおいて,高精度かつシームレスな個人識別が重要視されている。
- 従来の虹彩認識システムは正面からの画像を用いるのに対し,没入型環境ではオフアキスの画像が中心となり,歪みや品質劣化が課題である。
- オフアキスの虹彩画像における課題を克服し,よりロバストな没入型虹彩認識を実現することを目指す。
- ImmerIrisは,VRヘッドセットを用いて収集された499,791枚の虹彩画像を含む大規模データセットである。
- 既存の方法は没入型環境で性能が低いが,これは誤った正規化に依存するためである。
- 正規化を用いない新しいアプローチが提案され,既存の手法を上回る性能を示し,没入型認識の有望な方向性を示唆している。
注意機構付きCNN-BiLSTMを用いた指タッピングに基づくパーキンソン病多クラス検出 [cs.CV]目的:パーキンソン病重症度分類
- パーキンソン病の適切な管理と治療介入には,正確な重症度評価が不可欠である。
- ジェスチャーに基づくパーキンソン病認識システムは存在するが,認識精度が十分ではない。
- 指タッピング動画から抽出した特徴量を用いて,重症度分類の自動化と精度向上を目指す。
- 提案モデルは,5つの重症度クラスを区別する上で高い性能を示した。
- 空間的・時間的特徴表現と注意機構の統合が,自動パーキンソン病重症度検出の精度向上に貢献する。
- 本研究は,臨床医によるパーキンソン病のモニタリングと進行追跡を支援する有望な非侵襲的ツールとなる可能性を示唆する。
DeepFusionNet:自動符号化器に基づく低照度画像強調と超解像 [cs.CV, cs.AI]目的:低照度画像強調および超解像技術の開発
- 画像処理技術は,リアルタイム画像伝送を含む様々な分野で不可欠である。
- 既存の自動符号化器は,性能が低い場合や計算コストが高いという課題がある。
- パラメータ数を削減し,より高いSSIMおよびPSNRスコアを実現すること。
- DeepFusionNetは,LOL-v1データセットにおいて,SSIM 92.8%,PSNR 26.30を達成した。
- DeepFusionNetは,約250万パラメータという少ないパラメータ数で高性能を実現している。
- DeepFusionNetに基づく超解像技術は,検証セットでPSNR 25.30,SSIM 80.7%を達成した。
UAV撮影画像に基づく効率的なライチ果実検出:YOLOv11-Litchi [cs.CV, cs.LG, eess.IV]目的:UAV撮影画像を用いたライチ果実の効率的な検出
- ライチは高付加価値な果物であり,生産性向上は重要である。
- 従来の人工選別では,増大する生産需要に対応できない課題がある。
- 複雑な果樹園環境下でのライチ果実検出の精度と効率を向上させる。
- YOLOv11-Litchiは,YOLOv11ベースラインより32.5%小型化された6.35MBでありながら,mAPを90.1%に,F1スコアを85.5%に向上させた。
- マルチスケール残差モジュールや軽量な特徴融合手法により,計算コストを削減しつつ高精度を実現した。
- フレームレートは57.2FPSを達成し,リアルタイム検出要件を満たしており,精密農業への応用が期待される。
Color3D:個人化されたカラー化器による制御可能かつ一貫性のある3Dカラー化 [cs.CV]目的:単色入力からの3Dシーンのカラー化
- 3Dコンテンツのリアリティ向上は,多様な応用分野において重要な課題である。
- 既存手法は静的なシーンに限定され,多視点の一貫性確保で色彩の多様性を損ねていた。
- ユーザ制御下で,色彩の多様性と一貫性を両立する3Dカラー化手法を確立すること。
- 本手法は,単一のキービューでカラー化を行い,個人化されたカラー化器で他の視点や時間ステップに色彩を伝播させる。
- 個人化により,カラー化器は参照ビューのシーン固有の色マッピングを学習し,一貫性のある色再現を可能にする。
- 多様なデータセットにおける実験により,本手法がより一貫性があり,色彩豊かなレンダリングと正確なユーザ制御を実現することが示された。
脳卒中血管局所化ネットワーク:MRI画像からの閉塞血管局在化 [cs.RO, cs.CV]目的:脳卒中における閉塞血管の局在化
- 脳卒中の早期発見・治療は重要であり,画像診断技術の進歩が求められている。
- 既存手法は病変部のセグメンテーションに偏っており,閉塞血管の直接的な局在化は課題である。
- MRI画像のみから,閉塞血管を正確かつ迅速に局在化する手法を開発する。
- 提案手法Stroke Locus Netは,病変セグメンテーションと動脈アトラス,画像生成を組み合わせることで閉塞血管の局在化を実現した。
- T1 MRI画像において,閉塞血管の局在化において有望な結果が得られた。
- 本研究は,より迅速かつ適切な脳卒中診断への貢献が期待される。
ReMix: 一貫性のあるキャラクター生成と編集に関する統一的な視点 [cs.CV]目的:一貫性のあるキャラクター生成と編集のための統一的フレームワーク
- 近年,大規模テキスト画像拡散モデルの発展により,キャラクターの描写品質が向上している。
- 既存手法では,生成と編集を単一の枠組みで統合することが困難である。
- 生成と編集の両方で,より一貫性のあるキャラクター表現を実現すること。
- ReMixは,MLLMの多岐にわたる推論能力を活用し,入力画像のセマンティック特徴を編集する。
- IP-ControlNetにより,参照画像からセマンティックとレイアウトの情報を分離し,潜在空間を{\epsilon}-同変的にすることで,一貫性を向上。
- 個人化生成,画像編集,スタイル変換,多条件合成など,多様なタスクに対応可能であり,有効性が実験的に検証された。
SaFiRe:Mambaを用いた注視点反復による参照画像セグメンテーション [cs.CL, cs.CV, cs.AI]目的:参照画像セグメンテーションにおける性能向上
- 画像と自然言語を結びつける技術であり,ロボット工学や画像検索に応用が期待される。
- 既存手法は単純な表現に偏っており,曖昧な表現に対する対応が不十分である。
- 曖昧な表現,特に文脈依存の表現やカテゴリが明示されていない表現への対応を目指す。
- SaFiReは人間の認知プロセスを模倣し,大まかな理解から詳細な検査へと段階的に対象物を特定する。
- Mambaの走査・更新特性を活用することで,効率的な多段階の精度向上を実現している。
- 新たにaRefCOCOベンチマークを導入し,曖昧な表現に対する性能評価を行った結果,最先端手法を上回る性能を示した。
SparseUWSeg:水中セマンティックセグメンテーションのための能動的疎点ラベル拡張 [cs.CV]目的:水中画像解析におけるセマンティックセグメンテーションの自動化
- 海洋生態系のモニタリングにおいて,水中画像解析の重要性は高い。
- 詳細な水中シーン解析は,高性能なセグメンテーションモデルでも依然として課題である。
- 高価な稠密アノテーションのコストを削減し,効率的なセグメンテーションを実現する。
- SparseUWSegは,アノテーターへの能動的サンプリング戦略により,点ラベルの価値を最大化する。
- SAM2と超ピクセルベースの手法を組み合わせたハイブリッドアプローチで,疎なラベルを効果的に伝播させる。
- 2つの水中データセットで最先端手法を上回り,最大で+5%のmIoUを達成した。
コード・カラーライザー:音楽の調性を可視化するニアリアルタイムシステム [cs.HC, cs.CY, cs.SD, eess.AS]目的:音楽の調性の検出と視覚表現
- 音楽教育やパフォーマンスにおいて,調性の理解は不可欠であり,効果的な可視化手法が求められている。
- 既存の調性解析システムは,リアルタイム性に課題がある場合や,視覚的な表現が抽象的で直感的に理解しにくい場合がある。
- 調性の視覚化を通じて,音楽とのインタラクションを促進し,教育や芸術表現の可能性を広げることを目指す。
- 本システムは,オーディオ信号から音楽の調性を検出し,ニュートン色輪に基づいた色を用いて視覚的に表現する。
- CQTクロマ特徴量を用いたコード推定と,閾値処理による信頼性の高い調性の抽出を実現している。
- グラフィカルなキーボードレイアウトと,Arduino制御LEDディスプレイによる空間的なフィードバックを組み合わせたマルチモーダルなシステムである。
ViConEx-Med:医療画像解析のためのマルチコンセプトトークントランスフォーマーによる視覚的概念説明可能性 [cs.CV]目的:医療画像における視覚的概念説明可能性の実現
- 医療診断の精度向上と,医師の意思決定支援が重要視されている。
- 既存の概念ベースモデルは概念を数値属性として扱うため,視覚的な説明が不足している。
- 視覚的概念を予測・局所化することで,モデルの解釈性と信頼性を高める。
- 提案手法ViConEx-Medは,マルチコンセプトトークンを用いて視覚的概念を同時に予測・局所化する。
- 専門的なアテンション層を用いることで,概念レベルの局所化マップを高精度に生成する。
- 合成データと実医療データでの実験により,ViConEx-Medが既存手法を上回り,高い概念検出・局所化精度を達成した。
Peransformer:スコア認識識別器を用いた低情報表現力豊かな演奏生成の性能向上 [cs.SD, eess.AS]目的:低情報表現力豊かな演奏生成システムの性能向上
- 音楽表現の自動生成は,作曲や演奏支援において重要であり,音楽制作の新たな可能性を拓く。
- 従来のシステムは詳細な楽譜を必要とし,MIDIデータと比較して柔軟性に欠けるという課題があった。
- 低情報入力からの演奏生成において,高精度で自然な表現を実現することを目的とする。
- Peransformerは,スコア情報を活用した識別器により,既存の低情報演奏生成システムを上回る性能を達成した。
- スコア由来のMIDI情報を利用することで,高情報システムとの性能差を縮小することに成功した。
- 既存の自動評価指標を拡張し,より直接的で信頼性の高いEPRシステム比較を可能にするGEMを提案した。
HccePose(BF):姿勢推定のための超高密度2D-3D対応関係構築に向けた,正面と背面の表面予測 [cs.CY, cs.CV, cs.AI]目的:姿勢推定のための超高密度2D-3D対応関係
- 物体認識において,正確な姿勢推定はロ봇の自律的な操作やAR/VR技術の発展に不可欠である。
- 既存手法は正面表面の3次元座標予測に注力しており,背面や内部の情報を活用できていない。
- 物体全体の表面と内部情報を活用し,姿勢推定の精度向上を目指す。
- 提案手法では,正面と背面の3次元座標を予測し,両者間の高密度サンプリングにより超高密度な2D-3D対応関係を生成する。
- 階層的な連続座標エンコーディング(HCCE)により,表面座標の正確かつ効率的な表現を実現した。
- BOPウェブサイトの7つの主要データセットにおいて,提案手法は既存の最先端手法を上回る性能を示した。
TCMA:テキスト条件付きマルチ粒度アライメントによるドローン越境型テキスト-動画検索 [cs.CV]目的:ドローン動画とテキスト間の対応付けによる検索手法の開発
- ドローンによる空撮映像は増加の一途を辿っており,効率的な情報検索が重要となっている。
- 既存のデータセットはキャプションが粗く冗長なため,ドローン映像の検索性能が十分ではない。
- 本研究は,高品質なアノテーションを用いたデータセットと新たな検索フレームワークを提案し,この課題を解決する。
- 新たなデータセットDVTMDを構築し,人間の行動,物体,背景など,多様な情報を網羅した詳細なキャプションを付与した。
- TCMAフレームワークを提案し,動画とテキストの多粒度アライメントと,不要な情報のフィルタリングを実現した。
- DVTMDとCapERAを用いた実験で,最先端の性能を達成し,提案手法の有効性を実証した。
デジャヴ:経験フィードバックによる展開後学習を用いた具現化されたエージェント [cs.RO, cs.AI, cs.CV]目的:展開後の具現化されたエージェントにおける経験学習の枠組み
- 具現化されたエージェントは,現実世界での応用が期待される重要な研究分野である。
- 展開後のエージェントは新たな知識を獲得できず,タスク性能向上が困難である。
- 展開後の環境において,過去の成功経験を活用し,エージェントの適応性を高める。
- 提案手法であるDejavuは,経験フィードバックネットワーク(EFN)を用いて,過去の成功事例を想起する。
- EFNは,現在の観測に基づいて行動予測を行い,強化学習とセマンティック類似度報酬によって調整される。
- 実験の結果,Dejavuは適応性,ロバスト性,成功率を向上させ,展開後の継続的な学習能力を示す。
INR-Bench:多ドメイン回帰と再構成のための暗黙的ニューラル表現統一ベンチマーク [cs.LG, cs.CV]目的:暗黙的ニューラル表現における効果と限界を評価するための統一ベンチマーク
- 暗黙的ニューラル表現は,連続性と無限分解能の利点から信号処理分野で注目されている。
- モデル構造や非線形性などが性能に与える影響は十分に解明されていない。
- 多様なタスクにおけるモデルの特性を明らかにし,今後の研究の基盤を確立する。
- INR-Benchは,座標MLPと座標KANの56種類と22種類の変種を含み,9つのマルチモーダルタスクで評価された。
- 実験により,モデル構造,位置エンコーディング,非線形性が周波数特性の異なる信号への応答に与える影響が明らかになった。
- 本ベンチマークは,異なるニューラルモデルの強みと限界を明確に示すための堅牢なプラットフォームを提供する。
ラベルなしでの公平性:顔性別分類におけるバイアス軽減のための疑似バランス化 [cs.CV]目的:顔性別分類モデルにおけるバイアス軽減
- 顔認識技術は,セキュリティや社会インフラなど幅広い分野で活用が拡大している。
- 学習データに存在する人口統計学的バイアスがモデルに反映され,性能に偏りが生じることが課題である。
- ラベルなしデータを用いた疑似バランス化によって,バイアスを軽減し,公平性を高めることを目指す。
- 疑似バランス化は,既存のバイアスのある顔性別分類モデルの公平性を改善し,精度を維持・向上させる。
- All-Age-Facesベンチマークにおいて,全体の精度は6.53%向上し,79.81%を達成した。
- 特に,東アジア人グループにおけるジェンダー精度格差を,49%超からわずか5.01%に大幅に縮小した。
B2N3D:二項関係からN項関係への段階的学習による3Dオブジェクトの特定 [cs.CV]目的:3Dオブジェクト特定のための関係性学習
- ロボットのシーン理解には,自然言語による3Dオブジェクトの特定が不可欠である。
- 既存手法は,二項関係のみをモデル化しており,多者間の知覚的意義を無視している。
- 本研究は,N項関係学習による3Dオブジェクトの特定精度向上を目指す。
- 提案手法は,ReferIt3DおよびScanReferのベンチマークで最先端手法を上回る性能を示した。
- N項関係を用いた知覚的認識が,3Dオブジェクトの特定において有効であることが証明された。
- 本手法は,参照対象オブジェクトの具体的な注釈がなくても学習可能である。
汎用から専門へ:自己教師あり学習を活用した子宮頸部組織病理診断システム [cs.CV]目的:子宮頸部組織病理診断の精度向上と汎化性能の実現
- 子宮頸癌は依然として主要な悪性腫瘍であり,正確な病理診断が不可欠である。
- 既存の深層学習モデルは,精度と汎化性能に課題が残されている。
- 子宮頸部病理に特化した特徴抽出と診断機能の統合により,診断精度を向上させる。
- CerS-Pathシステムは,約1億9000万の組織パッチを用いた自己教師あり学習と,250万の画像-テキストペアを用いたマルチモーダル強化により開発された。
- 8つの診断機能をサポートし,既存のファウンデーションモデルを凌駕する範囲と臨床応用可能性を示す。
- 3,173症例のprospective試験において,99.38%のスクリーニング感度と優れた汎化性能を維持した。
自律運転画像データセットにおける合成から現実へのギャップを定量化するためのスタイルベース指標 [eess.SY, cs.SY, math.OC, cs.CV]目的:自律運転システムの合成-現実間のギャップの定量化
- 自動運転の信頼性確保には環境テストが不可欠。現実世界での実行はコストや時間,安全性の問題がある。
- 合成データと現実データの間のドメインギャップが,AIモデルの汎化性能を阻害する主要な課題となっている。
- データセットの有用性を評価し,効果的な学習パイプラインの設計を支援する定量化手法の開発。
- 本研究では,Gram行列に基づくスタイル抽出と,クラス内凝縮・クラス間分離を最適化するmetric learningを組み合わせた新規評価指標SEDDを提案した。
- 公開データセットを用いたベンチマークを確立し,様々なデータセットやsim-to-real手法を用いてSEDDの有効性を検証した。
- 提案手法は,合成-現実間のギャップを定量的に評価できることを示した。合成データセットの品質管理ツールとして活用が期待される。
スケッチアニメーション:最新動向報告 [cs.GR]目的:スケッチアニメーションの最新動向と革新
- 娯楽,教育,医療など多岐にわたる分野で活用が広がり,視覚表現の可能性を広げる技術である。
- 計算複雑性,拡張性,ユーザーインターフェースの使いやすさなどが課題として残されている。
- メタバースや人間機械インタラクションといった新たな応用分野への可能性を探求する。
- 本調査は,キーフレーム補間,物理ベースアニメーション,データ駆動型,モーションキャプチャ,深層学習などの主要な手法を分類・評価している。
- 人工知能,リアルタイムレンダリング,クラウドベースソリューションの統合が,リアリズム,スケーラビリティ,インタラクティビティの向上に与える影響を明らかにしている。
- 学術界と産業界の専門家が本分野で革新を遂げるためのリソースとなることを目指している。
AI生成画像における意味的異常検出と推論 [cs.CV]目的:AI生成画像の意味的異常の検出と推論
- AI技術の発展により生成画像が増加しており,その信頼性評価が重要になっている。
- AI生成画像には,非現実的な配置や常識に反する描写など,意味レベルでの異常が含まれる場合がある。
- AI生成画像の信頼性を高めるため,意味的異常を検出し,その理由を解明することを目指す。
- 本研究では,AI生成画像の意味的異常検出と推論のための大規模ベンチマーク「AnomReason」を構築した。
- 「AnomReason」は,名前,現象,推論,深刻度の4要素で構成された構造化アノテーションを備えている。
- AnomReason上でファインチューニングされたモデルは,既存モデルよりも高い精度を示すことが確認された。
グラフ拡散と階層的音楽分析による構造化音楽生成:ProGress [cs.SD, cs.LG, eess.AS]目的:構造化された音楽生成のためのフレームワーク
- 音楽生成AIは急速に発展しており,創造性支援や作曲の可能性を広げている。
- 既存のモデルは構造的な一貫性,特に和声・旋律構造が不十分である。
- 音楽理論に基づき,解釈可能で構造化された音楽生成を目指す。
- ProGressは,拡散モデルとシェンカー分析の概念を組み合わせた新しいフレームワークである。
- DiGressモデルを音楽生成用に改良し,フレーズ融合手法を新たに開発した。
- 人間実験の結果,既存の最先端手法よりも優れた性能が示唆された。
MRI画像を用いた脳腫瘍検出 [cs.CV, cs.AI, cs.LG]目的:脳腫瘍の自動検出とセグメンテーション
- 脳腫瘍の早期発見は,患者の予後改善に不可欠であるため,その効率化が重要である。
- MRI画像の読影には専門知識と時間が必要であり,医師の負担が大きいという課題がある。
- 深層学習を用いて脳腫瘍検出を自動化し,医師の診断支援を行うことを目指す。
- 深層学習モデル(ロジスティック回帰,CNN,ResNet)による分類において,脳腫瘍の検出精度向上が確認された。
- U-NetとEfficientDetを用いたセマンティックセグメンテーションおよびアンカーベースの物体検出により,腫瘍の局在化と識別が向上した。
- 本研究は,医療画像における深層学習の可能性を示唆し,臨床結果の改善に貢献し得る。
ビデオモデルは,医療画像においてゼロショット学習者および推論者として出現しているか? [cs.CV]目的:医療画像タスクにおけるビデオモデルのゼロショット学習能力の評価
- 医療画像解析は,疾患診断や治療計画において不可欠であり,高精度な自動化技術が求められている。
- 既存の医療画像解析手法は,特定のタスクに特化しており,汎用性に欠ける場合がある。
- 汎用的なビデオモデルを用いて,医療画像解析におけるゼロショット学習の可能性を探求する。
- 大規模なビジョンモデル(LVM)が,医療データで訓練されることなく,臓器セグメンテーション,ノイズ除去,超解像において競争力のある性能を示した。
- 特に放射線治療における運動予測において,LVMは患者固有の呼吸動態を捉え,最先端の空間精度を達成した。
- 本研究は,医療画像におけるビデオモデルのゼロショット学習能力の出現を示し,汎用的なビデオモデルが今後の医療基盤モデル構築に貢献する可能性を示唆する。
コディメンショナル接触シミュレーションにおける厚さモデリングの解明 [cs.GR]目的:織物・編物の現実的なシミュレーションのための厚さを持つコディメンショナルモデルの信頼性向上
- 現実的な繊維材料のシミュレーションは,製品設計や製造プロセス最適化に不可欠である。
- メッシュ分割を細かくすると,非物理的な接触力が発生し,シミュレーションが不安定になる。
- 厚みのあるコディメンショナルシミュレーションの解像度制限と,接触の安定性を両立させる。
- 本研究では,新しい接触処理モデルを提案し,厚みのあるコディメンショナルシミュレーションにおける解像度制限を解消した。
- このモデルは,接触ロックが発生しない,かつ形状が交差しないシミュレーションを保証する。
- 提案モデルは,現実的な素材パラメータとパターンを用いた様々なシミュレーションシナリオで有効性を実証した。
不透明度勾配駆動による密度制御:コンパクトかつ効率的な少数ショット3Dガウススプラッティング [cs.CV, cs.LG]目的:少数ショットにおける3Dガウススプラッティングの効率向上
- 3Dシーンの表現において,ガウススプラッティングは高品質かつ高速なレンダリングを可能にする。
- 少数ショット条件下では,過学習や冗長な再構成が問題となり,効率が低下しやすい。
- 不透明度勾配を利用した密度制御により,よりコンパクトで効率的な再構成を目指す。
- 本手法は,従来のFSGSと比較して,3-view LLFFデータセットにおいて40%以上コンパクトなモデルを実現した。
- Mip-NeRF 360データセットでは,約70%の削減を達成し,品質と効率のトレードオフにおいて新たな最先端性能を示した。
- 不透明度勾配による積極的な密度化と,抑制的なプルーニングスケジュールの組み合わせが,効率向上に貢献する。
VividAnimator:音声と姿勢に基づく半身人物アニメーションの包括的フレームワーク [cs.CL, cs.CV]目的:音声と姿勢を入力とする半身人物アニメーションの生成
- 人間アニメーション技術は,ゲーム,映画,仮想現実など多様な分野で活用が拡大しており,その重要性が増している。
- 既存手法では,頭部の動きや手の表現が不自然になりやすく,高品質なアニメーション生成が課題となっていた。
- 音声と姿勢からの自然で高品質な半身人物アニメーション生成を可能にし,既存手法の課題を克服することを目指す。
- 本研究では,高精度な手のテクスチャ情報を事前学習した「Hand Clarity Codebook」を導入し,手の劣化を大幅に抑制することに成功した。
- また,音声と頭部姿勢を分離してモデリングする「Dual-Stream Audio-Aware Module」により,自然な口パクと頭部の動きを実現した。
- さらに,姿勢制約を緩和する「Pose Calibration Trick」により,滑らかで自然なジェスチャーの遷移を可能にした。
X-VLA:スケーラブルなクロスエンボディメント視覚言語行動モデルとしてのソフトプロンプト変換器 [cs.RO, cs.RO, cs.AI, cs.CV]目的:多様なロボットプラットフォームにおける大規模なクロスエンボディメント異種データセットを用いた効果的な学習
- ロボット工学において,汎用的な視覚言語行動モデルの構築は,多様な環境への適応と応用を可能にする上で重要である。
- 異種ロボットデータはデータの形式や特性が異なるため,効果的に活用するための手法が課題となっていた。
- 本研究は,異なるデータソースに適応したソフトプロンプトによる学習手法を提案し,クロスエンボディメントにおける性能向上を目指す。
- 提案手法X-VLAは,標準的なTransformerエンコーダーとソフトプロンプトのみを利用することで,スケーラビリティと簡潔さを実現した。
- シミュレーションと実機ロボットの両方において,様々なベンチマークで最先端の性能を達成した。
- 柔軟な操作性と,エンボディメント,環境,タスクへの迅速な適応能力において,優れた結果を示した。
ArtPerception:LLMに対するASCIIアートを用いた脱獄攻撃フレームワーク [cs.CL, cs.CR, cs.AI, cs.CL, cs.CV, cs.LG]目的:LLMのセキュリティ脆弱性
- LLMは様々な応用を可能にする一方,セキュリティ上の課題が顕在化している。
- 従来の安全性対策は意味解析に重点を置いており,非標準的なデータ表現に対する脆弱性が残る。
- ASCIIアートを用いてLLMのセキュリティ対策を回避する効率的な攻撃手法を確立する。
- ArtPerceptionは,ASCIIアートの認識能力を事前にテストし,最適パラメータを決定する二段階手法である。
- 四つのオープンソースLLMおよびGPT-4o,Claude Sonnet 3.7,DeepSeek-V3等の商用モデルに対して高い脱獄成功率を示した。
- LLMのセキュリティはテキストのみならず,多岐にわたる解釈空間に対する防御が必要であることを示唆する。
視点融合:基盤モデル誘導BEVマップによる3D物体検出と追跡 [cs.CV, cs.RO]目的:3D物体検出と追跡のための基盤モデル誘導BEVマップ
- 自動運転における知覚能力の向上は,安全性と信頼性の確保に不可欠である。
- 従来の物体検出・追跡手法は,PVまたはBEVのどちらかに偏り,両者の利点を活かしきれていない。
- PVとBEVの情報を融合し,より高精度かつロバストな3D物体検出・追跡を実現する。
- 本研究では,DINOv2の特徴量を活用した基盤モデル誘導BEVマップを導入することで,PVとBEVの融合を可能にした。
- 提案手法DualViewDistillは,nuScenesおよびArgoverse 2ベンチマークにおいて最先端の性能を達成した。
- 基盤モデルによるBEVマップが,自動運転のためのより信頼性の高い知覚能力を可能にする可能性を示唆する。
SAM2LoRA:複合損失関数に基づくSAM2のパラメータ効率的な微調整による網膜底面セグメンテーション [cs.CV]目的:網膜底面画像のセグメンテーションのためのSAM2のパラメータ効率的な微調整戦略
- 網膜疾患の早期発見には,正確な網膜底面画像セグメンテーションが不可欠である。
- 大規模モデルの微調整には,高い計算コストとデータ要件が伴う。
- 少ない計算資源で,高精度な網膜底面セグメンテーションを実現すること。
- SAM2LoRAは,オリジナルの5%未満の学習パラメータで,効果的な微調整を可能にする。
- 複合損失関数(segmentationBCE,SoftDice,FocalTversky)の組み合わせが最適なネットワーク調整に必要であることが示された。
- 11の網膜底面セグメンテーションデータセットで,最先端の性能を達成し,学習オーバーヘッドを大幅に削減した。
プログラムからポーズへ:学習済みプログラムライブラリによる現実世界シーンの生成 [cs.CV, cs.AI]目的:現実世界シーンの生成手法
- 現実世界のシーンデータは取得が難しく,データ量が限られているため,高品質なシーン生成が求められている。
- 既存手法では,多様なオブジェクトポーズを持つ現実的なシーン生成が困難である。
- 学習済みプログラムライブラリと大規模言語モデルを活用し,現実世界に即したシーン生成を実現する。
- FactoredScenesは,部屋の構造を考慮し,実在するシーンからオブジェクトポーズの多様性を学習することで,現実的な3Dシーンを合成する。
- シーンを部屋のプログラムとオブジェクトポーズという階層的な概念に分解するファクチャード表現を導入した。
- 生成されたシーンは,現実のScanNetシーンと区別がつかないほどリアルであり,高い品質を持つことが示された。
補助金付きの家事の比例的・パレート最適配分 [cs.GT]目的:家事の比例的かつ効率的な配分
- 公正な資源配分の実現は,社会の公平性と効率性を高める上で重要である。
- 家事の配分は,個々の負担感に差が生じやすく,不公平感につながりやすい。
- 補助金を利用することで,比例的な満足度を保証しつつ,配分の効率性を高めることを目指す。
- 本研究では,補助金の総額を最小化しつつ,比例性とパレート最適性を両立する多項式時間アルゴリズムを提案した。
- 提案アルゴリズムは,先行研究と同等の補助金上限を保証し,経済効率の観点からも優れている。
- アルゴリズムと解析は,先行研究よりも大幅に簡素化されている。