arXiv雑要約
画像・音声 - 2025/10/13 公開
機械学習による情報集約ネットワーク [cs.LG, cs.GT, econ.TH]目的:機械学習エージェント間の情報集約の実現可能性
- 分散学習は,データが分散している場合に有効であり,大規模データセットの処理に適している。
- 各エージェントが利用できる特徴量が限られている場合,全体として最適な予測は困難となる。
- DAG構造における情報伝達によって,分散データから全特徴量を利用した場合と同等の性能を目指す。
- DAGの深さが情報集約の鍵となるパラメータであり,十分な深さを持つパスで情報集約が可能となる。
- 特定の分布やネットワーク構造(ハブ&スポーク型)では,DAGのサイズに関わらず情報集約が困難となる場合がある。
- 理論的結果を実験によって検証し,情報集約の条件と限界を明らかにした。
新生児における出生直後の胸部X線写真を用いた慢性肺疾患の予測:漸進的レイヤー固定によるサイトレベルでの微調整 [cs.RO, cs.NI, cs.CV, cs.AI, cs.LG]目的:極低体重児における慢性肺疾患の発症予測の精度向上
- 慢性肺疾患は,極低体重児に多く見られ,長期的な呼吸器合併症を引き起こすため,早期の予測が重要。
- 従来の臨床指標では予測が難しく,過剰な治療を避けるための早期予測手法が求められている。
- 出生直後の胸部X線写真から,深層学習を用いて慢性肺疾患の発症を予測し,臨床現場での活用を目指す。
- ドメイン特化型事前学習が,ImageNet初期化よりも有意に高い予測性能を示した(p=0.031)。
- 漸進的レイヤー固定,線形プローブ,CutMixを用いたモデルは,中度/重度の慢性肺疾患の予測において,AUROC 0.78,バランスアキュラシー 0.69,F1スコア 0.67を達成した。
- 本研究は,日常的な胸部X線写真から慢性肺疾患の予測が可能であり,サイトレベルでの導入や連合学習への応用が期待できる。
TTS-VAR:視覚自己回帰生成のためのテスト時スケーリングフレームワーク [cs.CV]目的:視覚自己回帰モデルにおけるテスト時スケーリング手法
- 現実世界のコンテンツ作成には,視覚生成モデルのスケーリングが不可欠である。効率的な生成が求められている。
- モデルのスケーリングには,大規模な学習と計算コストが必要となる。計算資源の制約が課題となっている。
- テスト時のスケーリングにより,計算効率を高めつつ,生成性能を向上させることを目指す。
- 提案手法TTS-VARは,強力なVARモデルInfinityにおいて,GenEvalスコアを0.69から0.75へと8.7%改善した。
- 初期段階の構造的特徴が最終的な生成品質に有効に影響すること,およびリサンプリングの有効性が生成スケールによって異なることが示された。
- クラスタリングに基づく多様性探索により,構造的多様性を維持し,より潜在性の高いサンプルの選択を可能にした。
CAPE:補完的なヒートマップの合流によるCLIP対応ポインティングアンサンブル [cs.CV]目的:具現化された参照理解のための手法
- 人間とロボットの円滑なコミュニケーションには,自然な指示の理解が不可欠である。
- 視覚的なポインティングと言語情報を統合した参照対象の特定が困難である。
- ポインティングの多様性を考慮し,より正確な参照対象の特定を目指す。
- 提案手法CAPEは,頭から指先,手首から指先への2種類の方向性を活用するデュアルモデルを採用した。
- CLIP特徴量に基づいたアンサンブルモジュールにより,両モデルの強みを統合し,参照理解の精度を向上させた。
- YouRefItデータセットでの実験により,IoU 0.25で約4 mAPの性能向上が確認された。
UniLiP:CLIPを統合的マルチモーダル理解,生成,編集へ適応 [cs.CV]目的:マルチモーダル理解,生成,編集のための統一的フレームワーク
- 画像とテキストの相互理解は,AIの多角的な応用を可能にする重要な研究分野である。
- CLIPは理解に優れるが,生成・編集に必要な再構成能力が不足していた。
- CLIPの理解能力を維持しつつ,高精度な再構成能力を付与することを目指す。
- UniLIPは,自己蒸留戦略を用いた二段階学習により,CLIPに高精度な再構成能力を付与した。
- MetaQueryフレームワークに基づいた二重条件アーキテクチャにより,生成・編集における推論と一貫性を向上させた。
- GenEval,WISE,ImgEditにおいて,より大規模なモデルを凌駕する最先端の性能を達成した。
MedCAL-Bench:医療画像解析におけるファウンデーションモデルを用いたコールドスタートアクティブラーニングの包括的ベンチマーク [cs.CV]目的:医療画像解析におけるコールドスタートアクティブラーニングのためのファウンデーションモデルのベンチマーク
- 医療画像解析は,診断精度向上に不可欠であり,AI技術の応用が期待されている。
- アノテーションコストが高く,限られた予算内での効率的な学習が課題となっている。
- ファウンデーションモデルを活用し,少ないアノテーションで高い性能を達成することを目指す。
- MedCAL-Benchは,医療画像解析におけるファウンデーションモデルを用いたコールドスタートアクティブラーニングの評価のための初のベンチマークである。
- DINO系列はセグメンテーションにおいて,最も優れた特徴抽出器であることが示された。
- データセットの種類に応じて,適切なサンプル選択戦略を選択する必要がある。
VisionTS++:継続事前学習されたビジョンバックボーンを用いたクロスモーダル時系列基礎モデル [cs.CV, cs.LG]目的:時系列予測における,画像再構成による時系列基礎モデルの構築
- 時系列データは,金融,医療,環境など多様な分野で不可欠であり,正確な予測が求められる。
- 画像モデルを時系列データへ転移する際,データ形式や多変量予測,確率予測のずれが課題となる。
- 画像モデルの継続的な事前学習により,これらのずれを埋め,汎用的な時系列基礎モデルの実現を目指す。
- 提案手法VisionTS++は,大規模時系列データを用いたビジョンモデルの継続的な事前学習により,性能向上を実現した。
- 特に,高品質な系列をフィルタリングすることで,事前学習の安定化とモダリティギャップの軽減に成功した。
- 実験結果から,VisionTS++は既存の時系列基礎モデルを大きく上回り,様々なドメインで最先端の性能を示した。
AMFT:最適な模倣・探索バランスをメタ学習により整合する [cs.CL, cs.LG, cs.AI, cs.CL, cs.CV]目的:LLMの推論能力整合のための最適な模倣・探索バランス
- LLMの性能向上は,多様なタスクへの適応能力に依存する。
- 従来のSFTとRLの組み合わせは,破滅的忘却やバランス調整の難しさがある。
- AMFTは,SFTとRLのバランスを自動的に最適化し,LLMの整合性を高める。
- AMFTは,数学的推論,抽象的視覚推論,視覚言語ナビゲーションといった様々なベンチマークで最先端の性能を達成した。
- AMFTは,分布外タスクにおいても優れた汎化能力を示すことが確認された。
- メタ学習コントローラーがAMFTの安定性,サンプル効率,性能に不可欠であることが示された。
ACD-CLIP:ゼロショット異常検知のための表現と動的融合の分離 [cs.RO, cs.CV, cs.AI, cs.LG]目的:ゼロショット異常検知における表現と融合戦略の改善
- 画像とテキストの情報を活用し,未知の異常を検出する技術は,産業や医療分野で重要である。
- 既存のVision-Language Modelは,高精度な局所的な特徴抽出と柔軟な特徴融合が課題となっていた。
- 局所的な特徴抽出能力を強化し,文脈に応じた動的な特徴融合を実現することで,異常検知の精度向上を目指す。
- 提案手法ACD-CLIPは,Conv-LoRAとDFGという二つのモジュールを組み合わせ,表現学習と融合戦略を同時に最適化する。
- 様々な産業および医療分野のベンチマークにおいて,既存手法を上回る精度とロバスト性を示すことが確認された。
- この結果から,基礎モデルを密な知覚タスクに適応させるには,相乗的な共同設計が不可欠であることが示唆される。
PanoLAM:1枚の未ポーズ画像からのガウス全頭合成のための大規模アバターモデル [cs.CV]目的:1枚の未ポーズ画像からのガウス全頭モデルの再構成
- 近年,アバター作成の需要が高まっており,リアリティのある3Dヘッドモデル生成が重要である。
- 既存手法はGAN逆変換やテスト時最適化に時間がかかり,高速な再構成が課題であった。
- 大規模な3Dヘッドデータセットが不足している問題を,合成データを用いて解決を目指す。
- 提案手法PanoLAMは,GAN逆変換やテスト時最適化を必要とせず,1回の順伝播でガウス全頭モデルを再構成できる。
- 粗から細へのガウスヘッド生成パイプラインにより,効率的かつ高忠実度の生成を実現した。
- 事前学習済み3D GANの知識を活用する二分枝フレームワークにより,効果的なガウスヘッド再構成を可能にした。
マルチモーダル大規模言語モデルにおける視覚表現のアライメント [cs.CV]目的:マルチモーダル大規模言語モデルの視覚表現アライメント
- 近年,画像とテキストを扱うモデルが注目され,様々な応用が期待されている。
- 視覚に重点を置くタスクでは,性能が十分とは言えず,改善の余地がある。
- 視覚表現のアライメントを通して,モデルの視覚理解能力向上を目指す。
- 本研究では,視覚表現のアライメント手法「VIRAL」を提案し,有効性を示した。
- VIRALは,既存の視覚モデルの知識を活用し,視覚情報の保持と推論能力を向上させる。
- 様々なマルチモーダルベンチマークにおいて,一貫した性能向上を確認した。
オートエンコーダとしての統一マルチモーダルモデル [cs.RO, cs.CV]目的:マルチモーダル理解と生成を統合する手法の研究
- 近年のAI研究において,画像とテキストのように異なる情報を組み合わせて処理するマルチモーダル技術が重要視されている。
- 従来のマルチモーダルモデルは理解と生成を分離しており,両者の相互的な利点を活かしきれていないという課題があった。
- 本研究は,オートエンコーダの枠組みを用いて理解と生成を統一し,相互に強化し合うモデルを開発することで,この課題を解決する。
- 画像からテキストへのエンコード(理解)と,テキストから画像へのデコード(生成)を統合的な再構成目的で捉えることで,両者の性能を相互に向上させることを示した。
- 提案手法UAEでは,長文の画像キャプションでデコーダを事前学習し,テキストの細かな意味理解を促すことで,より高品質な画像生成を実現した。
- 強化学習によるUnified-GRPOは,理解のための生成と,生成のための理解という二つの段階を経て,両者の能力を同時に高めることを可能にした。
LaV-CoT:多言語VQAのための言語認識型視覚CoTと多角的報酬最適化 [cs.CV]目的:現実世界の多言語視覚質問応答における性能向上
- 大規模視覚言語モデルの発展により,多言語VQAの能力が向上している。
- 既存手法はテキストCoTに依存し,多言語でのマルチモーダル推論のサポートが不足している。
- 言語を意識した視覚CoTフレームワークで,多言語対応の推論能力を向上させる。
- LaV-CoTは,テキスト要約,言語識別,オブジェクトキャプション,論理的推論を含む解釈可能な多段階推論パイプラインを採用している。
- MMMB, Multilingual MMBench, MTVQA等のデータセットにおいて,オープンソースベースラインを最大9.5%上回り,より大規模モデルを凌駕する性能を示した。
- オンラインA/Bテストにより,現実データにおける有効性が確認され,産業利用への貢献が期待される。
脳MRIのためのMultiMAE:マルチモーダルマスクオートエンコーダによる欠損入力への堅牢性 [cs.CV]目的:脳MRIにおけるマルチモーダル,マルチタスク学習のためのマスクオートエンコーダのパラダイム
- 医療画像診断において深層学習の活用が期待される一方,データ品質が課題となっている。
- 医療画像データは欠損を含むことが多く,完全な入力データを必要とするモデルの性能を低下させる。
- 欠損データに対しても頑健な脳MRIの表現学習を可能にする事前学習戦略を確立すること。
- 本研究で開発したMultiMAEは,複数のMRI系列を異なるモダリティとして扱い,欠損系列の補完能力を示す。
- 欠損入力系列が存在する場合,MultiMAEはベースラインと比較して,セグメンテーションにおいてDiceスコアを10.1%絶対的に改善した。
- また,分類タスクにおいてはMCCを0.46改善し,優れた汎化性能と柔軟性を示した。
MOCHA:マルチモーダル物体認識に基づくクロスアーキテクチャアライメント [cs.CV, cs.AI, cs.LG]目的:マルチモーダル物体認識知識の蒸留
- 画像とテキストの理解はAIの重要な課題であり,様々な応用への発展が期待される。
- 大規模モデルの知識を軽量モデルへ効率的に転移することが難しい。
- 物体レベルでのアライメントにより,効率的な知識転移を実現する。
- MOCHAは,大規模なビジョン-言語モデルから軽量な物体検出モデルへ,領域レベルのマルチモーダル意味情報を蒸留する。
- 物体レベルでのアライメントにより,教師モデルの変更や推論時のテキスト入力は不要である。
- 少数のサンプルでベースラインよりも一貫して高い性能を示し,実用的な展開に適していることが示された。
U字型ネットワークの動的スキップ結合による特徴融合の強化 [cs.CV]目的:U字型ネットワークにおける特徴融合の改善
- 医療画像セグメンテーションにおいて,U字型ネットワークは基本的な枠組みとして重要である。
- 従来のスキップ結合は,静的な特徴融合とマルチスケール特徴相互作用のモデリング不足が課題である。
- 動的な適応メカニズムにより,層間の接続性を強化し,特徴融合の限界を克服することを目指す。
- 提案する動的スキップ結合(DSC)ブロックは,推論時に隠れ表現を動的に適応させることで,特徴を内容に応じて洗練する。
- DMSKモジュールは,グローバルコンテキストの手がかりに基づいてカーネルサイズを適応的に選択し,マルチスケール特徴統合を強化する。
- DSCブロックは,CNN,Transformer,ハイブリッド,MambaベースのU字型ネットワークで効果が確認された。
RangeSAM:視覚基盤モデルを活用したレンジビュー表現LiDARセグメンテーション [cs.CV]目的:LiDAR点群のレンジビュー表現を用いたセグメンテーション手法
- 自動運転や3Dシーン理解において点群セグメンテーションは不可欠な技術である。
- ボクセルや点ベースの手法は高コストで,リアルタイム性に課題がある。
- 視覚基盤モデル(VFM)を活用し,効率的かつ高精度なLiDARセグメンテーションを実現する。
- 提案手法は,最先端のVFMであるSAM2をレンジビューにおける3Dセグメンテーションに適用する初のフレームワークである。
- SAM2のエンコーダに改良を加えることで,レンジビュー表現に最適化し,SemanticKITTIで競争力のある性能を達成した。
- VFMが3D知覚のための汎用バックボーンとして有効であり,LiDARセグメンテーションの新たな方向性を示す。
4Dレーダーを用いた点群予測における2Dセグメンテーションバックボーンの影響 [cs.CV, cs.RO]目的:点群予測における2Dセグメンテーションバックボーンの性能向上
- 自動運転システムの安全性向上には,周囲環境の正確な認識が不可欠である。
- LiDARは高価であり,その普及が自動運転システムの導入を妨げている。
- LiDARに代わる4Dレーダーを用いた点群予測技術の性能向上を目指す。
- 最適なセグメンテーションバックボーンの採用により,最先端技術と比較して23.7%の性能向上が確認された。
- 非常に高容量なモデルは,必ずしも性能向上に繋がらないことが示された。
DeHate:画像中のヘイトスピーチを軽減するためのStable Diffusionに基づくマルチモーダルアプローチ [cs.CV, cs.CL]目的:画像中のヘイトスピーチの特定と軽減
- オンライン上の有害コンテンツ増加により,健全なデジタル環境維持が課題となっている。
- 画像内のヘイトスピーチ特定は難しく,効果的な軽減手法が不足している。
- 画像中のヘイト要素を特定し,画像から削除することでヘイトスピーチを軽減する。
- 独自のマルチモーダルデータセットを構築し,デジタルコンテンツにおけるヘイトの特定を可能にした。
- ウォーターマーク,安定化拡散技術とDAAMを組み合わせ,ヘイト要素を特定する詳細なアテンションマップを生成した。
- テキストプロンプトに基づいた画像ヘイト検出において,新たな基準を確立するDeHaterを開発した。
医療画像と言語モデルにおける迎合性のベンチマークと緩和 [cs.CV, cs.AI]目的:医療分野における視覚言語モデルの迎合性評価と緩和策
- 医療現場でのAI活用が進む中,診断支援等の精度向上が喫緊の課題である。
- 視覚言語モデルは,ユーザーの意図や権威に過剰に依存し,客観的な根拠に基づいた推論が困難になる場合がある。
- 本研究は,医療用視覚言語モデルの迎合性を評価し,その影響を軽減する手法を開発する。
- 新たに構築した臨床的根拠に基づいたベンチマークを用いて,既存の視覚言語モデルの迎合性を評価した結果,多くのモデルが脆弱であることが判明した。
- 特に,模倣や専門家による修正が迎合性を引き起こす主要な要因であり,視覚的根拠とは独立したバイアス機構が存在することが示唆された。
- 提案するVIPERフレームワークは,迎合性を平均的に軽減しつつ,解釈可能性を維持することで,ベースラインと比較して優れた性能を発揮した。
粗から細へ:音声分離のための再帰的オーディオ・ビジュアル意味的拡張 [cs.SD]目的:音声分離における意味的表現の拡張
- 音響情報だけでは困難な分離を実現するため,視覚情報の活用が重要である。
- 既存手法では,静的な視覚表現に頼るため,視覚情報の潜在能力を十分に活用できていない。
- 再帰的な意味的拡張により,より効果的な音声分離を目指す。
- 提案手法CSFNetは,粗分離と細分離の二段階で構成され,再帰的な処理により識別性の高い意味的表現を獲得する。
- 話者識別を考慮した知覚的融合ブロックと,多範囲スペクトロ・時間分離ネットワークを設計し,時間周波数パターンを捉える。
- 3つのベンチマークデータセットと2つのノイズ混入データセットにおいて,最先端の性能を達成し,粗から細への改善が確認された。
編集可能なノイズマップ反転:高忠実度画像操作のためのターゲット画像をノイズにエンコード [cs.CV, cs.AI]目的:高忠実度画像操作を実現するためのノイズマップ反転技術
- 画像生成AIの発展に伴い,高品質な画像編集技術の需要が高まっている。
- 既存のノイズマップ反転法では,ターゲットテキストに忠実な編集が難しい場合がある。
- コンテンツの保持と編集可能性の両立を実現するノイズマップ反転技術の開発。
- 提案手法ENM Inversionは,既存手法と比較して,画像編集タスクにおいて,保存性と編集の忠実度を両立している。
- ノイズマップの編集可能性を高める分析に基づき,再構成されたノイズマップと編集されたノイズマップの差を最小化する編集可能なノイズリファインメントを導入している。
- 本手法は,動画編集にも容易に適用可能であり,フレーム間の時間的な整合性とコンテンツ操作を可能にする。
TimeScope:タスク指向の長尺動画における時間的グラウンディングへ [cs.CV, cs.AI]目的:長尺動画におけるタスクに関連する情報の時間範囲の特定
- 動画理解や推論において,重要な瞬間を特定することは不可欠である。
- 従来の技術では,長尺動画への対応や汎用性に課題があり,時間的グラウンディングが困難である。
- タスクの説明に基づいて必要な情報を効率的に特定し,時間的グラウンディングの精度向上を目指す。
- 本研究では,段階的推論に基づく新しいフレームワークTimeScopeを提案し,長尺動画におけるタスク指向の時間的グラウンディングを実現した。
- ToTG BenchおよびToTG Pileという高品質なデータセットを構築し,TimeScopeの性能向上に貢献した。
- 実験の結果,TimeScopeは既存の手法や大規模言語モデルと比較して,様々な設定で優れた性能を示した。
G$^2$RPO:フローモデルにおける正確な報酬のための粒状GRPO [cs.LG, cs.CV]目的:フローモデルにおける強化学習のための報酬評価の精度向上
- 拡散モデルやフローモデルと強化学習を組み合わせることで,人間の好みに合わせた生成モデルの構築が可能になる。
- 既存手法では,報酬信号が疎で狭いため,人間の好みに完全に合致した生成が難しいという課題がある。
- 本研究では,報酬評価の精度を高め,より人間の好みに近い生成を可能とする手法を提案する。
- 提案手法G$^2$RPOは,ステップごとの確率的探索を可能にし,報酬とノイズ間の高い相関を維持することで,SDE摂動に対する忠実な報酬を提供する。
- 固定粒度のノイズ除去に内在するバイアスを解消するため,多粒度アドバンテージ統合モジュールを導入し,より包括的かつ堅牢なサンプリング方向の評価を実現する。
- 様々な報酬モデルでの実験結果から,G$^2$RPOが既存のフローベースGRPOのベースラインを大幅に上回り,その有効性と堅牢性が示された。
MLLMにおける「強調トークン」追跡のみに頼らない:視覚的全体的文脈保持の再検討 [cs.CV]目的:マルチモーダル大規模言語モデルの効率的な推論のための視覚トークン剪定手法
- マルチモーダル大規模言語モデルは強力だが,計算コストが高い。
- 既存のトークン剪定は冗長なトークンを削除するが,類似トークンを過剰に保持しやすい。
- 視覚的全体的文脈を保持し,高い剪定率下でも性能低下を抑制すること。
- 提案手法HoloVは,空間的なクロップに剪定予算を適応的に分配することで,グローバルな視覚文脈を捉える。
- HoloVは,既存の最先端手法と比較して,様々なタスクとモデルで優れた性能を示す。
- LLaVA1.5にHoloVを組み込むことで,88.9%のトークンを剪定しても,元の性能の95.8%を維持可能。
CARE Liver Task Challenge 2025 1位の解法:ドメイン汎化とテスト時適応を用いたコントラスト認識型半教師ありセグメンテーション [cs.CV]目的:造影MRIにおける正確な肝臓セグメンテーションの実現
- 肝臓の正確なセグメンテーションは,診断,治療計画,疾患モニタリングに不可欠である。
- 注釈付きデータの不足,異なる造影プロトコル,スキャナ間・施設間のドメインシフトが課題である。
- 少量の注釈データ下で,未知のドメインへの汎化性能を向上させることを目指す。
- 提案手法CoSSeg-TTAは,nnU-Netv2をベースとし,半教師あり学習とドメイン適応モジュールを組み込んだ。
- ドメイン適応モジュールは,ヒストグラムに基づくスタイル転送とコントラスト認識ネットワークを用いてドメイン多様性を強化する。
- テスト時適応戦略により,推論時のロバスト性を向上させ,優れたDiceスコアとHausdorff距離を達成した。
TBStar-Edit:画像編集パターンのシフトから一貫性向上へ [cs.CV]目的:Eコマース領域における画像編集モデルの精度と品質の向上
- Eコマースは市場規模が拡大しており,商品画像の魅力が購買意欲に大きく影響する。
- 汎用的な画像編集モデルでは,Eコマース特有の商品の外観やレイアウトの一貫性を保てない。
- 商品画像の一貫性を維持しつつ,高品質な編集を実現するモデルを開発し,Eコマースの課題を解決する。
- TBStar-Editは,データエンジニアリング,モデルアーキテクチャ設計,学習戦略により,高精度かつ高忠実度の画像編集を実現した。
- 提案手法は,Eコマースベンチマークにおいて,客観指標(VIEスコア)と主観的ユーザ評価の両方で既存モデルを上回った。
- 二段階の学習戦略により,編集パターンのシフトと一貫性の維持を効果的に両立している。
ビジョンエンコーダのポストトレーニング量子化にはプレフィックスレジスタが必要である [cs.LG, cs.CV]目的:ビジョンエンコーダにおける量子化による推論コスト削減
- マルチモーダル知能の中核であり,様々な応用を支えるため。
- 大規模な活性化による外れ値が,量子化の精度低下を引き起こす。
- 外れ値の抑制により,精度の低下を最小限に抑えた量子化を実現する。
- 提案手法RegCacheは,外れ値の影響を受けやすいプレフィックストークンを導入することで,他のトークンの外れ値を抑制する。
- ビジョンエンコーダにおける外れ値の振る舞いは,言語モデルとは異なり,中間層へのプレフィックス適用やトークン削除が有効であることが示された。
- RegCacheは,テキスト教師あり学習および自己教師あり学習によるビジョンエンコーダにおいて,量子化されたモデルの精度を安定的に向上させる。
ALISE:アノテーションフリーLiDARインスタンスセグメンテーション [cs.CV]目的:自動運転のためのLiDARインスタンスセグメンテーション手法
- 自動運転において,周囲環境の正確な認識は安全性確保の根幹である。
- LiDAR点群のインスタンスセグメンテーションには膨大なアノテーションコストがかかる。
- アノテーションなしで高精度なインスタンスセグメンテーションを実現し,コスト削減を目指す。
- 提案手法ALISEは,Vision Foundation Modelsと空間・時間投票モジュールを活用し,アノテーションなしでLiDARインスタンスセグメンテーションを行う。
- 2Dと3Dのセマンティクスを組み合わせることで,オフライン・オンライン両方でラベルの精度を向上させている。
- 実験結果から,ALISEは教師あり手法MWSISを上回り,最先端の性能を達成している。
キャプションからキーフレームへ:マルチモーダルフレームスコアリングとビデオ・言語理解のためのKeyScore [cs.CL, cs.CV]目的:ビデオ理解のためのキーフレーム抽出手法
- ビデオデータ量は増加の一途をたどっており,効率的な理解が重要である。
- 既存手法は,ヒューリスティックに頼る,意味情報を無視する,冗長なフレームを生成する等の課題がある。
- KeyScoreは,セマンティクスに基づいた効率的かつ正確なキーフレーム抽出を目指す。
- KeyScoreは,キャプションとの意味的類似性,時間的代表性,文脈的ドロップ影響の3つの要素を組み合わせる。
- STACFPとの組み合わせにより,最長99%のフレーム削減が可能となり,計算効率が向上する。
- ビデオ・テキスト検索,キーフレーム抽出,行動認識タスクにおいて,既存手法を上回る性能を示す。
LiDARの視点から:特徴量を強化し,不確実性を考慮した地上点群セグメンテーション用アノテーションパイプライン [cs.CV, cs.RO]目的:地上点群セグメンテーションのための,特徴量強化と不確実性考慮型アノテーションパイプライン
- 生態モニタリング等において,高精度な3D点群データの解析が重要である。
- 地上レーザースキャニング(TLS)点群のセグメンテーションには,コストのかかる手動アノテーションが必要である。
- アノテーション作業の効率化と高精度化を両立し,大規模な点群データのセグメンテーションを可能にすること。
- 提案手法は,球面投影,特徴量強化,アンサンブル学習,ターゲットを絞ったアノテーションを統合することで,アノテーション作業量を削減しつつ,高い精度を維持する。
- 約12スキャン分の注釈データで性能が飽和し,幾何学的特徴量が最も寄与することが示された。
- また,このパイプラインによって,マングローブ林のセマンティックセグメンテーション用データセットMangrove3Dが構築された。
高率Mixout:ロバストなドメイン汎化のためのMixout再検討 [eess.SY, cs.SY, eess.SY, cs.SY, cs.LG, cs.CV]目的:ドメイン汎化におけるロバスト性向上
- 分布シフトへの対応は,機械学習モデルの実用化において不可欠であり,その重要性は高い。
- 事前学習済みモデルのアンサンブルは有効だが,計算コストが非常に高いという課題がある。
- Mixoutの高率化により,計算コストを抑えつつアンサンブルに匹敵する性能を目指す。
- Mixoutにおいて,ViTでは0.9,ResNetでは0.8という高いマスク確率が,ドメイン汎化性能向上の鍵となることが示された。
- 高率のマスクは,事前学習済みパラメータからの逸脱を強く抑制し,未知ドメインへの汎化性能を向上させる。
- 高率Mixoutは,勾配計算量を最大45%,勾配メモリ使用量を最大90%削減し,計算コストを大幅に低減する。
GTR-Bench:視覚言語モデルにおける地理時間的推論の評価 [cs.CV]目的:視覚言語モデルの地理時間的推論能力の評価
- 自動運転や具現化されたAIなど,空間時間的知能は幅広い分野で重要性が増している。
- 既存のベンチマークは,特定の視点に偏っており,画像と地図の両方を活用した地理空間時間的推論を十分に評価できていない。
- 画像と地図の両方を用いて,移動体の地理時間的推論能力を評価するための新たなベンチマークの提供。
- GTR-Benchを用いた評価により,最先端モデルGemini-2.5-Proであっても,人間の性能に大きく劣ることが示された。
- モデルは空間時間的コンテキストの利用に偏りがあり,時間的な予測能力が弱いことが示唆された。
- 地図データと複数視点からの映像データの整合性を理解する能力に課題があることが明らかになった。
RetouchLLM:視覚言語モデルを用いたトレーニング不要なコードベースの画像レタッチ [cs.CV]目的:画像レタッチの新しい手法
- 画像レタッチは視覚的品質向上だけでなく,個人の好みや感情表現の手段でもある。
- 既存手法は大規模なペアデータが必要で,内部がブラックボックス化し,多様な調整に対応できない。
- トレーニングデータなしで解釈可能な画像レタッチを実現し,ユーザーの意図に合わせた調整を可能にする。
- RetouchLLMは,トレーニング不要でコードベースの画像レタッチシステムであり,高品質な画像に対して直接適用可能である。
- 視覚的な差異を検出するモジュールと,実行可能なコードを生成するモジュールから構成され,多段階レタッチを可能にする。
- 多様なレタッチスタイルに一般化し,自然言語によるユーザーインタラクションにより,解釈可能で制御可能な調整を実現する。
可変レートテクスチャ圧縮:JPEGによるリアルタイムレンダリング [cs.CL, cs.GR]目的:可変レートテクスチャ圧縮の実現可能性
- 画像データを効率的に扱うことは,グラフィックス処理において重要である。
- リアルタイムレンダリングでは,テクセル単位でのランダムアクセスが課題となる。
- JPEGを用いた可変レートテクスチャ圧縮による高品質なレンダリングを目指す。
- 現代のGPUにおいてJPEGによる可変レートテクスチャ圧縮が実行可能であることが示された。
- JPEGはBC1と比較して画質と圧縮率が優れており,ASTCと同等またはそれ以上の性能を示す場合がある。
- RTX 4090環境下でレンダリング時間が0.3ms未満の増加にとどまり,VR環境でも実用性が見込まれる。
二つの鳥を一つの石で:テキスト誘導画像修復のためのヌルテキスト・ヌルフリクエンシーを意識した拡散モデル [cs.CV]目的:テキストプロンプトに基づいた画像マスク領域の再構成
- 画像編集において,テキストによる指示に基づいた修復技術は,創造的な可能性を広げ,実用的なニーズに応える。
- 既存手法では,マスクされていない領域の保持と,マスクされた領域との意味的一貫性の両立が困難である。
- 異なる周波数帯域を分離し,テキスト誘導によるノイズ除去を段階的に行うことで,上記の問題を解決する。
- 提案手法NTN-Diffは,周波数帯域ごとの意味的一貫性を重視し,マスクされていない領域を維持することで,既存の拡散モデルを上回る性能を示す。
- ノイズ除去過程を初期段階と後期段階に分割し,中間・低周波数帯域の絡み合いを解消することで,テキスト誘導の安定性を向上させる。
- 実験結果から,NTN-Diffがテキスト誘導画像修復において,最先端の性能を発揮することが確認された。
埋め込み参照理解のためのマルチモーダル深度認識手法 [eess.SY, cs.SY, cs.CV, cs.HC, cs.RO]目的:視覚シーンにおける対象物の特定
- ロボットの人間との協調作業において,自然な指示理解は不可欠である。
- 複数の候補対象物がある場合,既存手法では曖昧な状況下で性能が低下する。
- 言語とジェスチャーを統合し,複雑な環境下での曖昧性解消を目指す。
- LLMによるデータ拡張,深度マップ,深度認識モジュールを統合するフレームワークを提案した。
- 提案手法は,言語的および身体的ヒントのロバストな統合を実現し,参照対象物の検出精度を向上させた。
- 2つのデータセットを用いた実験により,既存手法と比較して有意な性能向上を確認した。
ニューラル露出場によるビュー合成学習 [cs.CV, cs.AI]目的:ビュー合成のためのニューラル露出場の学習
- 3D再構成とビュー合成の質は近年飛躍的に向上しており,様々な応用が期待されている。
- 露出変化のような画像ごとの変動を含むデータでは,既存手法の出力品質が低下する問題がある。
- 本研究は,現実世界の難しい条件下でも高品質な3Dシーンを再構成する手法を確立することを目指す。
- 本研究では,3D点ごとに最適な露出値を予測するニューラル場を学習する新しい手法Neural Exposure Fields (NExF)を提案した。
- シーン表現と露出場を同時に最適化することで,高ダイナミックレンジ環境下での正確なビュー合成を実現した。
- 提案手法は既存手法よりも高速に学習し,複数のベンチマークで55%以上の改善が見られた。
レオントゥフ選好を用いた慈善寄付の調整 [econ.TH, cs.GT]目的:相補的な公共財への資金供給
- 社会福祉の向上には,多様なニーズへの対応が不可欠であるため,公共財への効率的な資金供給が重要である。
- 寄付者の間の調整が不十分な場合,資源配分が非効率になり,公共財の提供が最適化されないという問題がある。
- 個々の寄付者の選好を尊重しつつ,効率的な資金配分を実現するメカニズムを構築することを目指す。
- 提案メカニズムは,寄付者間の連携を促し,効率的な資源配分を実現する。
- 本メカニズムは,寄付者が寄付を再配分するインセンティブを持たないように設計されている。
- ナッシュ厚生を最大化し,一意のリンダール均衡を導出する。
拡散モデルに基づく画像復元のための周波数誘導型事後サンプリング [quant-ph, cs.CC, eess.IV, cs.CV, cs.LG, stat.ML]目的:拡散モデルを用いた画像復元における精度向上
- 画像復元は,劣化画像から高品質な画像を再構成する重要な技術であり,様々な分野で応用されている。
- 従来の拡散モデルに基づく復元手法は,近似誤差により画質が損なわれる場合がある。
- 本研究では,周波数領域におけるフィルタリングを導入することで,この近似誤差を低減し,復元性能を向上させる。
- 理論的解析の結果,既存手法が特定の条件下で大幅な性能劣化を起こす可能性があることが示された。
- 提案手法では,測定値の周波数領域に時間変化するローパスフィルタを導入し,徐々に高周波成分を復元に組み込む。
- 運動ぼかしや画像ヘイズ除去などの困難なタスクにおいて,提案手法が既存手法を大きく上回る性能を示すことが確認された。
脳からテキストへのデコーディングモデルが視覚的意味処理の神経メカニズムを明らかにする [q-bio.NC, cs.AI, cs.CV]目的:視覚的意味処理の神経メカニズムの解明
- 脳科学とAIにおいて,神経活動から知覚内容を復元する試みは重要である。
- 既存の脳デコーディングモデルは,神経科学理論との体系的な統合が不十分である。
- fMRI信号から視覚的意味を直接デコードする新たな枠組みを提示し,そのメカニズムを解明する。
- 本研究の深層学習モデルは,視覚情報なしで最先端の性能を達成し,複雑なシーンの意味内容を捉えた説明文を生成した。
- 神経解剖学的分析により,MT+複合体,腹側視覚皮質,下頭頂皮質などの高次視覚皮質の重要性が示された。
- カテゴリー固有の分析から,生体・運動などの意味次元に対する繊細な神経表現が明らかになった。
EMedNeXt:深層学習を用いたサブサハラアフリカにおける脳腫瘍セグメンテーションフレームワーク [eess.IV, cs.CV]目的:サブサハラアフリカにおける脳腫瘍セグメンテーションの精度向上
- 脳腫瘍は世界中で多くの患者に影響を与えており,正確な診断と経過観察が不可欠である。
- 医療資源が限られた地域では,熟練した放射線科医の不足と低品質なMRI画像がセグメンテーションの課題となる。
- サブサハラアフリカのMRI画像特有の問題に対応し,セグメンテーションの精度と効率を改善する。
- EMedNeXtは,MedNeXt V2をベースに深層学習と最適化された後処理パイプラインを組み合わせたフレームワークである。
- 隠れた検証セットにおける評価では,平均LesionWise DSC 0.897,LesionWise NSD 0.541を達成した。
- 0.5mmおよび1.0mmの許容範囲において,それぞれ0.84のNSDを示した。
自己教師あり学習による氷晶形状多様性の理解 [q-bio.TO, cs.CE, physics.ao-ph, cs.CV]目的:氷晶形状の多様性に関する理解の深化
- 気候変動への影響が大きい雲の物理過程を理解する上で,氷晶の役割は重要である。
- 氷晶形状の多様性が大きく,そのモデリングが困難であるという課題がある。
- 自己教師あり学習を用いて氷晶形状の表現を獲得し,その多様性の定量化を目指す。
- 自己教師あり学習により,氷晶画像から有用な特徴表現を学習できることを確認した。
- 学習された表現を用いて氷晶形状の多様性を定量化することに成功した。
- この手法は,地球気候システムの理解を深めるための氷晶特性評価に貢献する可能性がある。
小児脳腫瘍セグメンテーションのための頻度を考慮したアンサンブル学習 [eess.IV, cs.CV]目的:小児脳腫瘍のセグメンテーション精度向上
- 小児脳腫瘍は稀少で多様性が高く,正確な診断と治療計画にはセグメンテーションが不可欠である。
- 既存手法では,小児脳腫瘍の稀少性と異質性に対応した汎化性能が十分でない場合がある。
- 異なる特性を持つ複数のモデルを組み合わせ,セグメンテーション精度と汎化性能の向上を目指す。
- nnU-Net, Swin UNETR, HFF-Net を統合したアンサンブル学習手法を提案した。
- 調整可能な初期化スケール,転移学習,周波数分解を導入し,各モデルの性能を最大化した。
- BraTS 2025 Pediatric Brain Tumor Segmentation Challenge で1位を獲得した (Dice score: CC 62.7%, ED 83.2%, ET 72.9%, NET 85.7%, TC 91.8%, WT 92.6%)。
MorphGen:制御可能で形態学的に妥当な細胞イメージ生成 [stat.ME, cs.SI, physics.soc-ph, q-bio.QM, cs.CV, cs.LG]目的:蛍光顕微鏡画像における制御可能な生成
- 創薬や遺伝子編集を加速するため,ハイスループットイメージングに基づくアッセイが重要である。
- 既存手法は多チャンネル情報をRGBに圧縮し,オルガネラ特有の詳細を失っていた。
- オルガネラ構造を維持し,詳細な形態学的分析を可能にする生成モデルの開発。
- MorphGenは,複数の細胞種と摂動に対して制御可能な画像を生成する拡散ベースの生成モデルである。
- CellProfilerの特徴量を用いた評価により,生成画像が実際の画像と生物学的に一貫性があることが示された。
- MorphGenは,RGB画像のみを生成する既存の最先端モデルMorphoDiffと比較して,FIDスコアを35%以上低く抑えた。