arXiv雑要約
画像・音声 - 2026/02/03 公開
真実か偽りか?マルチモーダルな誤情報検出におけるディープフェイク検出器の役割評価 [cs.CV]目的:マルチモーダルな誤情報検出におけるディープフェイク検出器の有効性
- 画像とテキストを組み合わせた情報操作が深刻化しており,その検出が重要である。
- 既存のディープフェイク検出器は画像レベルの偽造に特化しており,画像とテキストの文脈的な意味を考慮していない。
- マルチモーダルな誤情報検出において,ディープフェイク検出器が有効な情報源となりうるか検証する。
- 単独で使用した場合,ディープフェイク検出器の性能は低く,F1スコアは0.26-0.53,0.33-0.49にとどまる。
- ディープフェイク検出器の予測をファクトチェックパイプラインに組み込むと,性能が低下する(F1スコアで0.04-0.08の減少)。
- 証拠に基づいたファクトチェックシステムは,意味理解と外部証拠により高い性能(F1スコア約0.81,0.55)を達成した。
参照に基づく拡散超解像における暗黙的参照相関モデリングによる適応的条件付け:信頼せよただし検証せよ [cs.RO, cs.CV]目的:拡散超解像における参照画像利用の適応的制御
- 画像復元において,拡散モデルは高い性能を示すが,幻覚を抑制する必要がある。
- 現実世界の劣化により,低品質画像と参照画像間の対応が不確実になりやすい。
- 低品質画像と参照画像間の相関を考慮し,信頼できる場合に参照情報を活用する手法を開発する。
- 提案手法Ada-RefSRは,「信頼せよただし検証せよ」の原則に基づき,参照情報の信頼性に応じて利用を調整する。
- Adaptive Implicit Correlation Gating (AICG)という主要コンポーネントにより,参照画像の主要パターンを抽出し,低品質画像特徴との暗黙的な相関を捉える。
- 実験結果から,Ada-RefSRは忠実度,自然さ,効率性のバランスに優れ,参照画像のアライメント変動に対してロバストであることが示された。
音なくして話す:顔入力のみによる多話者無声音声生成 [cs.SD]目的:多話者無声音声生成の実現
- 音声コミュニケーションの新たな可能性を広げ,様々な応用が期待される分野である。
- 既存手法では,音声入力が必要であり,プライバシーや環境に制約がある。
- 音声入力を用いずに,顔入力とEMG信号から多話者無声音声を生成する。
- 顔画像とEMG信号のみを用いて,多話者無声音声を生成できるフレームワークを提案した。
- EMG信号から言語内容を抽出するために,ピッチを分離したコンテンツ埋め込みを導入した。
- 提案手法の有効性,特にピッチ分離アプローチの効果が,広範な分析により確認された。
階層的・分離されたプロキシ埋め込みによる,高度に制御可能な画像表現:ProxyImg [cs.RO, cs.CV]目的:階層的プロキシに基づくパラメトリック画像表現
- 画像編集の効率化と制御性の向上は,コンピュータグラフィックスやビジョンにおける重要な課題である。
- 既存の画像表現は,冗長性や意味論的なインスタンスとの直接的な対応の欠如により,きめ細かい操作が困難である。
- 意味的,幾何学的,テクスチャ属性を分離し,操作可能なパラメータ空間を構築することで,効率的な画像編集を実現する。
- 提案手法は,少ないパラメータで最先端のレンダリング品質を実現し,直感的でインタラクティブな編集を可能にする。
- 適応的なベジェ曲線フィッティングと内部領域の細分化により,階層的なプロキシジオメトリを構築する。
- Position-Based Dynamicsとの統合により,軽量な暗黙的レンダリングを用いたリアルタイムの物理駆動アニメーションを実現し,時間的な一貫性と視覚的なリアリズムを向上させる。
不均衡データに対するロボット知覚のためのマルチタスク学習 [cs.RO, cs.CV]目的:ロボット知覚におけるマルチタスク学習手法
- ロボットは資源が限られているため,個々のタスク精度向上は重要課題である。
- 各タスクのラベル数が不均衡な場合,サンプル不足が問題となりやすい。
- ラベル付けが困難な環境下でもタスク学習を可能にすることを目的とする。
- 提案手法は,一部タスクの正解ラベルがなくても学習可能であることを示した。
- タスク間の相互作用を分析し,他のタスクの性能向上に寄与するタスクを特定する手法を提示した。
- 少量のデータで学習した場合においても有効性を示す実験結果を得た。
Qキャッシュ:マルチモーダル大規模言語モデルにおいて,デコード層の半分以上で視覚的注意は重要ではない [cs.CV]目的:マルチモーダル大規模言語モデルにおける計算コスト削減
- マルチモーダル大規模言語モデルは強力だが,推論コストが高いという課題がある。
- 視覚エンコーダ内の大量の視覚トークンが,計算負荷とKVキャッシュのボトルネックとなっている。
- 層間の注意の類似性を利用し,KVキャッシュ使用量を削減し,推論速度を向上させる。
- 提案手法Qキャッシュは,KVキャッシュ使用量を35%以上削減し,スループットを1.5倍に向上させる。
- 性能劣化はわずか約1%であり,既存のトークン単位の最適化手法よりも高い精度を維持する。
- Qキャッシュは,Flash AttentionやKVキャッシュを含む既存の推論フレームワークと完全に互換性がある。
空間・意味的因子分解による疎な視覚表現の学習 [cs.CV, cs.AI, cs.LG]目的:疎な視覚表現の学習
- 視覚情報の効率的な処理は,AI技術の発展に不可欠である。限られた計算資源での高性能化が求められる。
- 自己教師あり学習では,意味理解と画像再構成のトレードオフが存在する。両立が困難であり,性能向上のボトルネックとなっている。
- 意味情報と空間情報を分離することで,再構成と意味理解を両立し,より効率的な視覚表現を獲得することを目指す。
- STELLARは,視覚特徴を意味概念と空間分布の低ランク積に分解するフレームワークである。
- わずか16個の疎なトークンで,高品質な再構成(FID 2.60)と高精度な意味表現(ImageNet 79.10%)を両立した。
- STELLARは,識別的および生成的な視覚処理を繋ぐ,多様な疎表現を提供する。
DSXFormer:デュアルプーリングスペクトルスクイーズ・エクスパンションと動的コンテキスト注意Transformerを用いたハイパースペクトル画像分類 [cs.CV, cs.AI]目的:ハイパースペクトル画像分類における性能向上
- ハイパースペクトル画像は高次元で複雑な情報を持ち,精密な分析が求められる分野である。
- 限られた学習データと,高次元データ処理の計算コストが課題となっている。
- スペクトル特徴の識別能力向上と計算効率の改善を目指す。
- 提案手法DSXFormerは,4つのベンチマークデータセットで最先端手法を上回る分類精度を達成した。
- デュアルプーリングスペクトルスクイーズ・エクスパンションブロックがスペクトル特徴の識別能力を向上させた。
- 動的コンテキスト注意機構により,局所的なスペクトル-空間関係を効率的に捉え,計算コストを削減した。
LipSody:プロソディ一貫性を強化した口唇から音声への合成 [cs.SD]目的:口唇の動きから音声の生成
- 音声信号がない場合や劣化した場合でも音声復元が可能であり,多様な応用が期待される。
- 従来のモデルでは,生成された音声のプロソディ(韻律)の一貫性が課題となっていた。
- LipSodyは,プロソディの一貫性を向上させることで,より自然な音声生成を目指す。
- LipSodyは,話者ID,言語内容,感情的文脈という3つの手がかりを用いてプロソディを誘導する。
- 実験結果から,LipSodyは既存手法と比較して,ピッチやエネルギーのずれ,話者類似度などのプロソディ関連指標において大幅な改善が見られた。
LIEREx:ロボット探査のための言語画像埋め込み [cs.RO, cs.CV]目的:ロボット探査における言語と画像の埋め込み表現
- ロボットが環境を理解し,タスクを遂行するために,環境の理解が不可欠である。
- 従来の環境地図作成は,事前に定義された記号的語彙に依存し,未知の物体への対応が困難である。
- 未知の環境におけるロボットの目標指向型探査を可能とする埋め込み表現の構築。
- LIERExは,CLIPのような大規模言語画像モデルと3次元セマンティックシーングラフを統合している。
- これにより,ロボットは固定ラベルに頼らず,高次元埋め込みとして物体を認識し,未知の物体にも対応可能となる。
- 部分的に未知の環境において,自律的な目標指向型探査を実現する。
境界制約付き拡散モデルによるフロアプラン生成:リアリズムと多様性の両立 [cs.RO, cs.LG, cs.CV]目的:フロアプラン生成におけるリアリズムと多様性のバランス
- 建築設計において,効率的かつ機能的なフロアプランの自動生成は重要な課題である。
- 拡散モデルはリアリズムに優れるが,多様性に欠ける傾向がある。
- 境界制約と多様性を考慮したフロアプラン生成手法の確立。
- 境界クロスアテンション(BCA)モジュールが境界への適合性を大幅に向上させる。
- 長時間の学習は多様性の低下を引き起こし,FIDでは検出できないトレードオフが明らかになる。
- 生成モデルがデータセットの事前知識に依存することを示唆し,汎化性能の向上が課題である。
多重スケールピラミッドネットワークによる全スライド画像解析の漸進的実現 [cs.CV]目的:全スライド画像解析における多重スケール特徴の漸進的活用
- 病理診断の効率化と精度向上に貢献するため,計算病理学の研究が重要視されている。
- 従来法では,異なる倍率の画像を個別に処理し,後から特徴量を統合するため,柔軟性と計算効率に課題があった。
- 本研究では,異なるスケールの特徴間の関係性を保持しつつ,効率的な解析を可能にするネットワークを開発する。
- 提案手法であるMSPNは,既存の注意機構ベースのMILフレームワークに容易に組み込むことが可能である。
- MSPNは,様々な臨床タスクにおいて,既存手法と比較してMILの性能を安定的に向上させた。
- MSPNは軽量であり,使いやすいため,幅広い応用が期待される。
オープンボキャブラリを超えて:リモートセンシング画像における物体検出のためのマルチモーダルプロンプティング [cs.CV]目的:リモートセンシング画像における物体検出のための,インスタンスに基づいた視覚プロンプト,テキストプロンプト,およびそれらのマルチモーダル統合によるカテゴリー指定の再構築
- リモートセンシング技術は,地球観測や資源管理において不可欠であり,高精度な物体検出が求められる。
- 従来のオープンボキャブラリ検出はテキストのみに依存し,リモートセンシング特有の曖昧なカテゴリー定義が課題であった。
- 視覚プロンプトとテキストプロンプトを統合することで,カテゴリー指定の安定性と汎用性を向上させることを目指す。
- 提案手法RS-MPODは,視覚プロンプトエンコーダーを用いてカテゴリーの視覚的特徴を抽出し,テキストに依存しないカテゴリー指定を可能にする。
- マルチモーダル融合モジュールにより,視覚情報とテキスト情報を統合し,状況に応じた柔軟なカテゴリー指定を実現する。
- 実験結果から,視覚プロンプトが意味的な曖昧さや分布の変化に対してより安定したカテゴリー指定をもたらすことが示された。
AI生成画像検出器は,キャリブレーションによりSOTA精度を秘密裏に達成できる [cs.CV, cs.AI, cs.LG]目的:AI生成画像検出器のロバスト性向上
- AI生成技術の急速な発展に伴い,生成画像の識別が重要となっている。
- 既存の検出器は,テスト時に系統的な偏りを示し,誤分類が生じやすい。
- 分布シフトに対応し,検出器の決定境界を再調整することで,ロバスト性を向上させる。
- 提案手法は,再学習を必要とせず,わずかな検証データでロバスト性を大幅に改善する。
- ベイズ決定理論に基づき,モデルのロジットに学習可能なスカラー補正を適用する。
- これにより,テスト時分布シフトを補正し,信頼性の高いAI生成画像検出を実現する。
FlyPrompt:脳に触発されたランダム拡張ルーティングと時間的アンサンブルエキスパートによる汎用継続学習 [cs.LG, cs.AI, cs.CV]目的:汎用継続学習における課題解決
- 機械学習モデルの適応性と知識の維持が重要視されており,特に変化するデータ環境下での学習が不可欠である。
- 既存手法は複数回の学習や明示的なタスク情報に依存し,リアルタイムで変化するデータストリームへの対応が困難である。
- エキスパートパラメータの割り当てと,限られた教師データ下での表現能力向上という継続学習の課題を解決する。
- FlyPromptは,果実蠅の記憶システムに着想を得て,インスタンスレベルでのエキスパート活性化と動的な決定境界適応を実現する。
- CIFAR-100,ImageNet-R,CUB-200のデータセットにおいて,最先端手法と比較してそれぞれ最大11.23%,12.43%,7.62%の性能向上を達成した。
- ランダム拡張分析ルーターと時間的アンサンブルにより,変化するデータ分布への適応能力と表現能力を向上させている。
区切りトークン スケーリングによるマルチ画像理解の向上 [cs.CV]目的:マルチ画像理解の性能向上
- 画像とテキストを組み合わせた理解は,多様な応用において重要である。
- 複数画像入力時に,画像間の情報漏洩が性能低下の原因となる。
- 区切りトークンのスケーリングにより,画像固有情報の保持を強化する。
- 提案手法は,Mantis,MuirBench,MIRB,QBench2といったマルチ画像ベンチマークで性能向上を示した。
- テキストのみのタスク(TQABench,MultiNews,WCEP-10など)においても,性能が向上した。
- 追加の学習や推論コストを必要としない点が特徴である。
拡散モデルによる画像生成における潜在ベクトル予測の活用:局所的な制御に向けて [cs.CV]目的:画像生成における局所的な制御手法
- テキストからの画像生成技術は発展したが,詳細な制御は依然として困難である。
- 既存手法は画像全体に条件を適用するため,局所的な制御が制限される。
- ユーザー定義領域への精密な局所制御を実現し,高品質な画像合成を目指す。
- 提案手法では,マスク特徴と追加損失項を導入し,潜在空間での初期潜在ベクトルの予測を活用する。
- これにより,拡散過程の各ステップと最終的な生成サンプルとの対応性を高める。
- 実験結果から,提案手法が制御された局所条件を持つ高品質な画像を効果的に合成できることが示された。
表面連続性に基づく高速2Dガウススプラッティングによる3D再構成 [cs.CL, cs.CV, cs.AI]目的:疎な画像からの高精度な3Dシーン再構成
- 3Dシーンの再構成は,現実世界の理解や応用において不可欠な技術である。
- 既存手法では,最適化が困難で,連続的な表面を生成できず,アーティファクトが発生しやすい。
- 表面連続性の事前知識とアルファブレンド戦略を用いて,高精度な再構成を実現する。
- SurfSplatは,2Dガウススプラッティングを基盤とし,高い異方性と幾何学的精度を実現する。
- RealEstate10K,DL3DV,ScanNetの実験により,既存手法を凌駕する再構成品質が確認された。
- 新たに提案したHRRC評価指標により,高解像度再構成の品質が評価された。
UniDriveDreamer:自律運転のための単一段階マルチモーダルワールドモデル [cs.CV]目的:自律運転のためのマルチモーダルワールドモデルの構築
- 自律運転において,シミュレーションデータの重要性が増しており,ワールドモデルがその鍵となる技術である。
- 既存のワールドモデルは単一のモダリティに偏っており,複数のセンサー情報を統合的に扱えるものが少ない。
- カメラ画像とLiDARデータを同時に生成し,より現実的なシミュレーション環境を実現することを目指す。
- UniDriveDreamerは,従来の最先端手法と比較して,ビデオおよびLiDARデータの生成において優れた性能を示す。
- Unified Latent Anchoring(ULA)により,異なるモダリティの潜在分布を効果的に整合させることが可能となった。
- 構造化されたシーンレイアウト情報を条件付け信号として活用することで,より高品質なデータ生成を実現した。
ClueTracer:質問から視覚的手がかりの追跡による,学習不要なマルチモーダル推論における幻覚抑制 [cs.CV, cs.AI]目的:マルチモーダル推論における幻覚抑制
- 画像と質問から高度な問題を解決するマルチモーダル推論モデルは,AI研究において重要性が増している。
- 推論過程で,モデルが質問に関係のない要素に過度に注目し,視覚的根拠から逸脱する「推論の漂流」が課題となっている。
- 質問から手がかりを追跡することで,関連性の高い領域に焦点を当て,幻覚を抑制することを目的とする。
- ClueTracerは,追加の学習なしで,様々な推論モデルの性能を平均1.21倍向上させた。
- 本手法は,推論モデルだけでなく,非推論モデルにおいても性能向上(1.14倍)に寄与する。
- ClueRecallという,視覚的手がかりの検索を評価する指標を新たに提案した。
光学文字認識によるゲノムモデリングの再考 [cs.CV, cs.AI, cs.CL, cs.LG]目的:ゲノムモデリングにおける新たなアプローチ
- ゲノム解析は生命科学において不可欠であり,疾患理解や個別化医療に貢献する。
- 既存のモデルは逐次的な処理に偏り,ゲノムの持つ構造的特徴を活かしきれていない。
- ゲノム情報を効率的に圧縮し,長文脈における理解を深めることを目指す。
- OpticalDNAは,ゲノムモデリングをOCRのように視覚的な文書理解として捉えることで,既存モデルを凌駕する性能を発揮した。
- 45万塩基の配列において,従来のモデルと比較して,ほぼ20分の1のトークン数で最高のパフォーマンスを達成した。
- わずか25万6千の学習可能パラメータで,最大985倍多くのパラメータを持つモデルを上回る成果を得た。
多様なグループのクリック嗜好を大規模広告画像生成に適合させる [cs.CV, cs.AI]目的:大規模広告画像生成におけるグループごとのクリック嗜好の適合
- 広告効果を高めるため,オンライン指標であるCTRの向上が重要視されている。
- 従来の画像生成手法は全体的なCTR最適化に偏り,グループ間の嗜好性の多様性を無視する。
- グループごとの嗜好性を考慮した画像生成により,ターゲティング広告の効果を最大化する。
- 本研究では,ユーザー属性と商品特性に基づいた動的なグループ分けを行うことで,各グループの嗜好を捉える。
- グループの特徴と画像を同時に理解するGroup-aware Multimodal Large Language Model (G-MLLM) を用いて,グループに特化した画像を生成する。
- 提案手法は,オフラインおよびオンライン両方の環境において最先端の性能を達成し,広告画像のCTR向上に貢献する。
Auto-Comp:コントラスト視覚言語モデルの構成的プロービングのための自動パイプライン [cs.CV, cs.AI]目的:コントラスト視覚言語モデルにおける構成的推論の評価と分析
- 視覚と言語を組み合わせたAIモデルの性能向上は,画像認識や自然言語処理の発展に不可欠である。
- 既存の視覚言語モデルは,構成的な推論において誤りを犯しやすく,その原因特定が困難である。
- 本研究は,視覚と言語の役割を分離し,モデルの構成的推論の弱点を明らかにすることを目的とする。
- Auto-Compは,大規模なベンチマークを自動生成するパイプラインであり,モデルの様々な推論能力を詳細に分析することを可能にする。
- 20種類の視覚言語モデルの評価により,CLIPやSigLIPを含む多くのモデルが,色や空間関係の構成的推論において普遍的な失敗を示すことが明らかになった。
- 視覚言語的な文脈は空間推論を助ける一方で,局所的な属性の結合を妨げるという,意外なトレードオフが明らかになった。
トランスフォーマーに基づく多インスタンス学習を用いた多角的狭窄症分類:実際の臨床データ活用 [cs.CV, cs.AI]目的:冠動脈狭窄症の患者レベル分類
- 心血管疾患の主要因である冠動脈狭窄症の早期・正確な診断は,治療成績向上に不可欠である。
- 従来の深層学習モデルは,高コストなビューレベルの注釈に依存し,複数のビュー間の時間的依存性を捉えきれない。
- ビューレベルの注釈なしで,患者レベルの指導のみを用いて,狭窄症の存在と病変部位を特定すること。
- SegmentMILは,実際の臨床データを用いて学習し,患者レベルで狭窄症を高い精度で分類可能である。
- 従来のビューレベルモデルやMILベースラインを上回り,臨床での実用性と拡張性を示唆する結果が得られた。
- 右冠動脈と左冠動脈,およびそれらの区分を識別し,影響を受ける解剖学的領域を局所化する。
UrbanGS:幾何学的に正確な大規模シーン再構成のためのスケーラブルかつ効率的なアーキテクチャ [cs.CV]目的:大規模都市環境の幾何学的整合性,メモリ効率,計算のスケーラビリティに関する課題の解決
- 3Dシーン再構成は,自動運転やメタバースなど幅広い分野で不可欠な技術である。
- 既存の3D Gaussian Splattingは大規模シーンに適用する際,幾何学的整合性や計算効率が課題となる。
- 大規模都市環境における高精度な3Dシーン再構成を,効率的に実現すること。
- 提案手法UrbanGSは,深度一貫性のあるD-Normal正則化モジュールにより,幾何学的パラメータの更新精度を向上させている。
- 空間適応型ガウスプルーニングにより,冗長性を削減し,メモリ効率と計算スケーラビリティを高めている。
- 都市環境データセットを用いた実験により,レンダリング品質,幾何学的精度,メモリ効率において優れた性能を発揮している。
FSVideo:高圧縮潜在空間における高速ビデオ拡散モデル [cs.CV]目的:高速なビデオ生成手法の開発
- ビデオ生成技術は,コンテンツ制作や仮想現実など,幅広い分野で重要性が増している。
- 既存のビデオ拡散モデルは計算コストが高く,高速な生成が困難であるという課題がある。
- 高圧縮潜在空間と効率的なTransformerアーキテクチャにより,高速かつ高品質なビデオ生成を実現する。
- FSVideoは,空間・時間分解能を大幅に圧縮したビデオオートエンコーダを使用することで,計算効率を高めている。
- 拡散Transformer(DIT)に新たな層メモリ設計を導入し,層間情報伝達と文脈再利用を強化した。
- 140億パラメータのDITベースモデルとアップサンプラーを組み合わせることで,他のオープンソースモデルと同等の性能を,桁違いの速度で達成した。
拡散モデルを用いた教師誘導型生徒自己知識蒸留 [cs.CL, cs.CV]目的:知識蒸留による生徒モデルの性能向上
- 深層学習モデルの軽量化・高速化は,実用上重要である。
- 教師モデルと生徒モデルの潜在空間の分布のずれが課題である。
- 分布のずれを解消し,生徒が教師の知識を効果的に獲得すること。
- 本研究では,教師の分類器を用いて生徒の潜在特徴のノイズ除去過程を誘導する手法を提案。
- 提案手法は,教師と生徒のマップ方法や特徴分布の差異を解消し,知識伝達を改善する。
- 実験結果から,DSDKが既存の知識蒸留手法を様々なモデルとデータセットで上回ることが示された。
ワールドモデルの量子化に関する実証的研究 [cs.CL, cs.LG, cs.CV]目的:ワールドモデルの量子化の影響と最適化手法
- 環境ダイナミクスを学習し計画や予測を可能にするワールドモデルは,ロボティクス等の応用で重要性が増している。
- ワールドモデルは計算コストとメモリ消費が大きく,実用的な展開には量子化が不可欠である。
- 量子化がワールドモデルに及ぼす影響を明らかにし,効率的な展開のための指針を示す。
- 量子化は標準的な精度とビット幅のトレードオフを超え,ロールアウトの安定性やモジュールごとの感度に影響する。
- グループワイズ量子化は低ビットロールアウトを安定化させるが,活性化量子化の粒度は一貫した効果を示さない。
- 積極的な低ビット量子化は,計画目的とタスク成功の整合性を損ない,追加の最適化では回復できない失敗を引き起こす。
行列形式EDMと適応近傍学習による定量的制御可能な画像生成の強化 [cs.CV, cs.LG]目的:拡散モデルを用いた,連続回帰ラベルに基づく高品質な画像生成
- 画像生成技術は,現実世界の多様な応用において重要な役割を担っている。
- 既存の拡散モデルは,サンプリング効率や生成品質において課題を抱えていた。
- より高度な拡散フレームワークと学習戦略により,生成品質と効率を向上させる。
- 提案手法iCCDMは,既存手法と比較して一貫して高い生成品質を達成した。
- iCCDMは,Stable Diffusion 3やFLUX.1などの最先端モデルをも凌駕する性能を示した。
- サンプリングコストを大幅に削減し,より効率的な画像生成を可能にした。
MLV-Edit:分単位の動画編集に向けた整合性と高効率な編集 [cs.AR, cs.NI, cs.DC, cs.CV]目的:分単位の動画編集における整合性と効率の向上
- 動画編集技術は,コンテンツ制作や情報伝達において不可欠である。
- 長尺動画の編集では,計算コストと時間的な整合性の維持が課題となる。
- 分単位の動画編集における,時間的・構造的な不安定性の解決
- MLV-Editは,既存手法と比較して時間的安定性と意味的忠実度において優れた性能を示す。
- Velocity Blendモジュールにより,セグメント境界における動きの不整合が修正され,ちらつきや境界アーティファクトが低減される。
- Attention Sinkモジュールは,ローカルセグメントの特徴をグローバルな参照フレームに固定し,累積的な構造ドリフトを抑制する。
既知および新規異常に対するクラス認識マハラノビス距離を用いた前臨床病理組織学的毒性評価 [cs.CV, cs.AI, cs.LG]目的:前臨床病理組織学的画像における毒性評価のための異常検知フレームワーク
- 医薬品開発において,毒性は失敗の主要な原因であり,早期発見が安全性向上に不可欠である。
- 病理組織学的評価は専門家への依存度が高く,大規模スクリーニングのボトルネックとなっている。
- AI技術を用いて,病理組織学的画像からの異常を効率的に検出し,医薬品開発を加速すること。
- 本研究では,病理組織学的画像に対するAIベースの異常検知フレームワークを提案し,既知の病理と未知の病理の両方を検出可能にした。
- クラス固有の閾値を用いることで,病理組織の誤分類率を0.16%に,健常組織の誤分類率を0.35%に抑え,高い精度を達成した。
- このフレームワークは,前臨床ワークフローの支援,開発段階での失敗の削減,医薬品開発効率の向上に貢献する可能性を示す。
合成CT生成における登録バイアスの排除:物理ベースのシミュレーションフレームワーク [cs.CV]目的:合成CT生成のための登録バイアス排除
- 医用画像診断において,CTは重要な役割を果たすが,被ばく低減が課題である。
- CBCTからの合成CT生成において,完璧なスキャン間の登録は困難であり,バイアスを生む。
- 物理ベースシミュレーションを用いて,幾何学的に整合した訓練ペアを生成し,評価指標の信頼性を高める。
- 物理ベースのシミュレーションにより生成されたデータで訓練されたモデルは,従来の強度スコアは低かったものの,幾何学的整合性が向上した。
- 強度指標は,変形登録データにおいて臨床評価と逆相関を示したが,NMIは登録方法に関わらず観察者の好みを予測した。
- 臨床観察者は,合成データで訓練された出力を87%のケースで好み,幾何学的忠実度が臨床要件と一致することを示した。
FD-VLA:力蒸留によるビジョン言語行動モデル - 接触の多い操作向け [cs.CL, cs.RO, cs.CV]目的:接触の多い操作におけるビジョン言語行動(VLA)フレームワークへの力感覚の統合
- ロボットによる高度な操作には,視覚情報に加え,触覚情報が不可欠である。より器用な操作を実現するためには,力感覚の活用が重要となる。
- 従来のVLAフレームワークでは,高価で壊れやすい力覚センサが必須であり,ロボットの導入コストや複雑性を高める要因となっていた。
- 力覚センサなしで力感覚を統合し,安価で汎用性の高いロボットでの接触操作を可能にすることを目指す。
- 提案手法FD-VLAは,学習可能なクエリトークンを用いて力を蒸留し,実際の力信号の潜在表現に整合させる力蒸留モジュール(FDM)を導入する。
- 蒸留された力トークンを事前学習済みのVLMに注入することで,力覚を考慮した推論を可能にし,視覚言語意味の整合性を維持する。
- 実機実験の結果,蒸留された力トークンは直接的な力センサの計測値や他のベースライン手法を上回り,FD-VLAの有効性が示された。
深層学習による歴史地図の照合を通じた都市変遷のプロファイリング [cs.CV, cs.IR]目的:歴史地図を用いた都市変遷のプロファイリング手法
- 都市の歴史的変遷を理解する上で,歴史地図は貴重な情報源である。
- 歴史地図の空間的なずれや画質劣化が,定量的な分析を困難にしている。
- 深層学習を用いて,歴史地図からの都市変遷を自動的かつ定量的に分析する。
- 提案手法は,歴史地図の照合,物体検出,変遷プロファイリングを統合したモジュール構成である。
- パリの1868年から1937年までの変遷分析により,空間的・時間的な不均一性が明らかになった。
- 本手法は様々な地図や用途への適応が可能であり,社会科学・人文科学の研究に貢献する。
LoopViT:ループトランスフォーマーによる視覚的抽象的推論のスケール化 [cs.CV]目的:視覚的抽象的推論におけるスケーラビリティの向上
- 視覚的推論は,AIの知能レベルを測る上で重要な課題である。
- 従来のTransformerモデルでは,計算深さとパラメータサイズの制約から,反復的な思考プロセスを捉えきれない。
- 反復計算と動的終了メカニズムを導入することで,効率的な視覚的推論を実現すること。
- 提案手法LoopViTは,パラメータ数を抑えながら,ARC-AGI-1ベンチマークで高い精度を達成した。
- ループ構造と動的終了機構により,反復的な思考プロセスを効率的にモデル化できることを示した。
- ネットワークの幅を増やすよりも,適応的な反復計算が視覚的推論のスケーリングにおいてより有効であることを実証した。
Reg4Pru:トークン削減のためのランダムトークンルーティングによる正則化 [cs.CV]目的:トークン削減における性能損失の緩和
- Transformerは汎用性とデータセット規模への対応力で広く利用されている。
- トークン数が増加すると計算コストが二次関数的に増加する点が課題。
- トークン削減時の性能低下を抑制し,効率的な推論を実現すること。
- Reg4Pruは,ルーティングを用いないモデルと比較して,平均精度を絶対値で46%向上させた。
- この改善は,非削減ベースラインと比較して29%の相対的な高速化を達成する設定で観察された。
- Reg4Pruは,トークン削減戦略のための有用な正則化手法であることが示唆された。
二段階生成敵対的ネットワークによる肺結節画像合成 [cs.CV]目的:肺結節画像合成による検出モデルの性能向上
- 肺がんの早期発見には,画像診断が重要であり,高精度な検出モデルの開発が求められる。
- 肺結節CT画像のデータセットは,サンプル数が限られており,多様性が不足しているという課題がある。
- 既存の手法では多様性や制御性に乏しく,本研究は高品質な合成画像生成を目指す。
- 提案手法TSGANは,解剖学的構造とテクスチャ特徴を分離することで,多様性と空間的制御性を向上させた。
- LUNA16データセットでの実験結果,TSGANを用いた合成データにより,検出精度が4.6%向上,mAPが4%向上した。
- TSGANは,合成画像の質を向上させ,ひいては検出モデルの性能向上に貢献することが示された。
CIEC:暗黙的・明示的な手がかりの結合によるマルチモーダル弱教師あり操作局所化 [cs.CV]目的:マルチモーダル弱教師あり操作局所化
- 誤情報の拡散が問題となる中で,画像とテキストから操作箇所を特定する技術が重要視されている。
- 既存手法は,パッチやトークンレベルの細かなアノテーションが必要であり,コストと時間がかかる。
- 粗い粒度の画像・文レベルのアノテーションのみで,操作局所化を可能にすることを目指す。
- 提案手法CIECは,視覚的・テキスト的な手がかりを統合し,疑わしい領域を特定するTextual-guidance Refine Patch Selection(TRPS)モジュールを用いる。
- また,意味のある単語に着目し,視覚的なバイアスを活用するVisual-deviation Calibrated Token Grounding(VCTG)モジュールも導入する。
- 実験の結果,CIECは複数の評価指標において,完全教師あり手法に匹敵する性能を示すことが確認された。
Vision-DeepResearch Benchmark:マルチモーダル大規模言語モデルにおける視覚とテキスト検索の再考 [cs.CV, cs.AI, cs.CL, cs.LG]目的:マルチモーダル大規模言語モデルの視覚的・テキスト的検索能力の評価
- 近年,画像とテキストを組み合わせた情報検索の重要性が増しており,大規模言語モデルへの応用が期待されている。
- 既存の評価ベンチマークでは,視覚的検索が必要な問題がテキストからの推論や事前知識で解けてしまう場合がある。
- 現実的な条件下での視覚的・テキスト的検索能力を正確に評価するためのベンチマーク構築を試みる。
- 新たなベンチマークVDR-Benchを構築し,2,000件のVQAインスタンスを用いて評価を行った。
- 多段階の厳密なレビュープロセスにより,現実世界に近い条件での評価を実現した。
- マルチラウンドクロップドサーチワークフローが,現実的な視覚検索シナリオにおいてモデルの性能を向上させることを示した。
不完全なトポロジー的監督を用いた統合肺樹木モデリングのためのトポロジー認識暗黙的フィールド学習 [cs.CV]目的:肺樹木のトポロジー構造の欠如に対する解決策
- 肺の解剖学的分析において,正確な肺樹木モデルは重要な役割を担う。
- 既存の肺樹木モデリング手法は,不完全なトポロジー構造に弱く,効率性も低い。
- トポロジー認識暗黙的フィールドを用いて,不完全なデータでも高精度なモデリングを実現する。
- TopoFieldは,不完全な肺樹木のトポロジー構造を修復し,正確な解剖学的ラベル付けと肺領域の再構築を可能にする。
- トポロジー修復を主要なモデリング問題として扱い,完全な離脱注釈を必要としない点が特徴である。
- Lung3D+データセットでの実験により,TopoFieldは高い計算効率と実用性を示す。1ケースあたり1秒強で処理を完了する。
拡散モデルの特異点スキップ反転 (SSI-DM) [cs.CV]目的:拡散モデルにおける画像反転の改善
- 拡散モデルは画像編集において重要だが,高品質な編集には適切な反転技術が不可欠である。
- 既存手法では初期ノイズ化ステップの不正確さから,ガウス分布から外れたノイズが生じ,編集性が低い。
- 拡散モデル反転における数学的な特異点を回避し,編集性を向上させることを目指す。
- 提案手法SSI-DMは,標準的な反転の前に微小なノイズを加えることで,特異点を回避する。
- これにより,自然なガウス分布を持つ反転ノイズを生成しつつ,再構築精度を維持する。
- 公開画像データセットを用いた実験で,再構築と補間の両タスクにおいて優れた性能を達成した。
MAIN-VLA:意図と環境のアブストラクションをモデル化する視覚-言語-行動モデル [cs.CV]目的:複雑な環境下における行動決定のための,意図と環境のアブストラクションのモデル化
- 視覚-言語-行動モデルは,現実世界とのインタラクションにおいて重要であり,その性能向上は不可欠である。
- 複雑な環境では,冗長なセンサーデータから行動に必要な信号を効率的に抽出することが困難である。
- MAIN-VLAは,意図と環境のアブストラクションを通じて,行動決定の精度と効率を向上させることを目指す。
- MAIN-VLAは,意図のアブストラクション(IA)と環境セマンティクスのアブストラクション(ESA)を導入することで,深層セマンティックアラインメントを実現した。
- これにより,不要な知覚的冗長性を削減し,推論効率を向上させるトークンプルーニング戦略を可能にした。
- Minecraftや大規模PvP環境における実験で,MAIN-VLAが最先端の性能を示し,優れた意思決定,汎化性能,推論効率を達成した。
因果的強制:高品質リアルタイムインタラクティブ動画生成のための自己回帰拡散蒸留の正しい方法 [cs.CV]目的:高品質なリアルタイムインタラクティブ動画生成手法の開発
- 動画生成技術は,エンターテイメント,教育,コミュニケーションなど,幅広い分野で重要性が増している。
- 既存の動画拡散モデルは計算コストが高く,リアルタイムなインタラクティブ生成には課題が残る。
- 双方向モデルから自己回帰モデルへの蒸留におけるアーキテクチャのギャップを理論的に解決し,性能を向上させる。
- 提案手法Causal Forcingは,既存のベースライン手法を全ての評価指標で上回り,SOTA手法Self Forcingを大幅に凌駕する。
- Dynamic Degreeで19.3%,VisionRewardで8.7%,Instruction Followingで16.7%の性能向上を達成した。
- 自己回帰教師モデルを用いたODE初期化により,アーキテクチャのギャップを埋めることで,教師モデルのフローマップを回復し,性能低下を防ぐ。
LangMap: オープンボキャブラリ目標ナビゲーションのための階層的ベンチマーク [cs.CL, cs.CV, cs.RO]目的:オープンボキャブラリ目標ナビゲーションにおける評価基準
- 人間とAIのコミュニケーションや実用的な具現化された知能にとって,言語とオブジェクトの関係は重要である。
- 既存のベンチマークは,言語指示の多様性や粒度の違いを十分に考慮していない。
- 多粒度かつオープンボキャブラリな目標ナビゲーションタスクの評価基盤を確立し,言語駆動型ナビゲーションの進歩を促進すること。
- LangMapは,シーン,部屋,領域,インスタンスといった4つのセマンティックレベルで目標ナビゲーションを可能にする大規模ベンチマークである。
- LangMapはGOAT-Benchと比較して,識別精度が23.8%向上し,使用単語数は4分の1以下である。
- 豊富なコンテキストとメモリがナビゲーションの成功率を高める一方で,長尾分布の目標や複数目標の達成は依然として課題である。
MIRROR:汎用的なAI生成画像検出のための多様体理想参照再構成器 [cs.CL, cs.CV, cs.CR]目的:AI生成画像の検出
- 高精細な生成モデルの進化により,偽造画像によるセキュリティリスクが高まっている。
- 既存の検出器は生成痕跡に依存するため,進化する生成技術への対応が課題である。
- 現実世界の規則性に基づき,偽造検出の汎化性能向上を目指す。
- MIRRORは,現実世界の事前知識を学習可能な離散メモリバンクとして明示的に符号化する。
- 14のベンチマークで既存手法を上回り,特に実環境データセットで高い性能を発揮した。
- Human-AIGIベンチマークにおいて,人間専門家を超える精度を達成し,人間の知覚限界に近づいた。
支援技術におけるOCR性能評価:歩行速度,カメラ配置,カメラ種類の効果 [cs.CV]目的:視覚障碍者向け支援技術におけるOCR性能の評価
- 視覚障碍者への情報アクセス支援としてOCR技術の重要性が高まっている。
- モバイル環境下でのOCR性能評価は,静止データに依存しており現実的な課題が少ない。
- 歩行時の動的条件下におけるOCR性能を評価し,改善点を見出す。
- 認識精度は歩行速度の増加や広い視野角において低下する傾向が確認された。
- Google Visionが全体的に最も高い精度を示し,PaddleOCR 3.0が優れたオープンソース代替手段であった。
- スマートフォン内蔵のメインカメラと肩装着が最も高い精度を示したが,装着位置間の差は統計的に有意ではなかった。
見せることで語る:潜在的な推論を画像生成に変換する [cs.CV]目的:画像生成における動的な推論と洗練
- 画像生成技術は目覚ましい進歩を遂げているが,人間の創造性に見られるような動的な推論能力に課題がある。
- 従来の推論支援手法は,段階的なテキストデコードと画像エンコード/デコードを繰り返すため,非効率で情報損失が生じやすい。
- 潜在空間内での推論により,効率的かつ適応的な自己洗練を実現し,画像生成の質を向上させる。
- 提案手法LatentMorphは,GenEvalで16%,T2I-CompBenchで25%と,ベースモデルJanus-Proの性能を向上させた。
- 抽象的推論タスク(WISE,IPV-Txt)において,明示的な推論手法(TwiG等)よりもそれぞれ15%,11%高い性能を示した。
- 推論時間の44%削減,トークン消費量の51%削減を達成し,人間の直感との認知的な整合性も71%を示した。
LiFlow:3D LiDARシーン補完のためのフローマッチング [cs.CV]目的:3D LiDARシーン補完
- 自動運転において,周囲環境の正確な把握は安全性確保に不可欠である。
- LiDAR点群は,遮蔽や遠距離での疎さに起因する欠損が生じやすい。
- 学習時と推論時の初期分布の不一致を解消し,補完精度向上を目指す。
- 提案手法LiFlowは,フローマッチングを用いて初期分布の一貫性を担保する。
- ニアレストネイバーフローマッチング損失とChamfer距離損失により,点群の局所構造と全体的なカバレッジを強化する。
- LiFlowは,複数の評価指標において最先端の性能を達成した。
近隣スマートデバイス間の音響データ伝送方式の評価 [cs.NI, cs.SD]目的:近隣デバイス間音響通信方式の信頼性と一般化可能性の評価
- スマートデバイスの普及により,新たな近接通信手段の需要が高まっている。
- 既存研究はシミュレーションや限定的な実機検証に偏り,実環境での信頼性が不明である。
- 実環境における音響通信方式の課題を明らかにし,より堅牢な設計指針を提示する。
- 既存の音響通信方式は,室内環境におけるマルチパスの影響やデバイス間の音響特性のばらつきにより,実用性に課題があることが示された。
- 31の研究を調査した結果,ソースコードが公開されているものはなく,再現性の確保が困難であることが判明した。
- 本研究で構築したテストベッドと公開するデータセットは,今後の研究における評価の標準化に貢献すると考えられる。
予測を用いた安定マッチング:刈り込まれた優先度リストにおける頑健性と効率性 [cs.GT, cs.DS]目的:二側マッチング市場における安定マッチングの発見
- 大規模マッチング市場では,完全な優先度リストの作成が現実的ではないため,効率的なマッチング手法が求められている。
- 病院などが全ての応募者を評価できない場合,既存のマッチングアルゴリズムの性能が低下する可能性がある。
- 過去のデータに基づいた予測を利用し,優先度リストの長さを削減することで,効率的なマッチングを可能にすること。
- 予測に基づくアルゴリズムフレームワークを利用し,従来の遅延受諾(DA)アルゴリズムが優先度リストの刈り込みに対して頑健であることを示した。
- 提案するアルゴリズムの理論的・実験的評価により,予測の精度が比較的高い場合でも,インスタンスサイズと提案回数を大幅に削減できることが示された。
- これらの結果は,DAアルゴリズムの実用的な成功を説明し,市場設計と予測アルゴリズム理論を結びつける。
