arXiv雑要約
画像・音声 - 2026/05/06 公開
身体化AIの安全性:リスク,攻撃,防御に関する調査 [cs.HC, cs.HC, cs.CR, cs.AI, cs.CV, cs.RO]目的:身体化AIにおける安全性に関する研究の概観
- 身体化AIは現実世界で動作するため,安全性確保は不可欠である。
- 既存研究は断片的であり,体系的な整理が求められていた。
- 身体化AIの安全性に関する課題を明確化し,今後の研究方向を示す。
- 本調査は,知覚から行動,そしてシステム全体に至るまでの攻撃と防御を網羅的に分析した。
- マルチモーダル知覚の脆弱性,脱獄攻撃下での計画の不安定性,人間とのインタラクションの信頼性などの課題を指摘した。
- 安全性,堅牢性,信頼性を備えた身体化AIを開発するためのロードマップを提示する。
仮想没入型環境における物理オブジェクトの3D追跡のためのエンドツーエンドシステム [cs.HC, cs.CV]目的:仮想現実(VR)アプリケーションにおける物理3Dオブジェクトの追跡システム
- VR/XR技術の発展により,現実世界のオブジェクトと仮想空間の融合が重要になっている。
- 複雑なトラッキングシステムや手動実装が必要で,手軽にオブジェクト追跡を行うことが困難である。
- マーカーベースで,手軽かつ効率的なオブジェクト追跡とデータストリーミングを実現すること。
- AruCo,AprilTag,独自のカラー制御点を用いたフィデュシャルマーカーシステムを統合したシステムを構築した。
- 様々なタグサイズ,検出距離,カメラデバイスで評価を行い,理論的な限界との比較を行った。
- マーカーベースの現実世界から仮想世界へのオブジェクト位置マッピングを実装するための完全なソリューションを提供した。
AI医療画像診断における説明可能性に関するユーザ中心分析 [cs.HC, cs.AI, cs.CV]目的:AI医療画像診断における説明可能性に関するユーザニーズ
- 医療現場でのAI活用は重要だが,判断根拠の不明瞭さが課題となっている。
- AIの判断根拠が不明確なため,医師の信頼を得るのが難しい。
- 医師がAIの診断を信頼し,活用するための説明方法を確立すること。
- 33名の医師への調査で,88%がAIによる診断の説明が重要だと回答した。
- バウンディングボックスとレポートの組み合わせが,理解度,網羅性,速度,適用性において最も評価された。
- 誤ったAI診断に対してさえ,50%の医師がXAI手法よりもAIを信頼する傾向が示された。
Stable Diffusionにおける記憶は,CLIP埋め込みによって予期せず駆動される [cs.CV, cs.AI, cs.LG]目的:テキスト画像拡散モデルにおける記憶へのテキスト埋め込みの寄与
- 画像生成AIの安全性を確保し,その動作原理を解明するために不可欠な研究分野である。
- 拡散モデルが学習データの内容を不必要に記憶してしまう現象が課題となっている。
- CLIP埋め込みが記憶に及ぼす影響を特定し,記憶を抑制する対策を提案すること。
- Stable Diffusionでは,プロンプト以外の埋め込み(特に
)が記憶に大きく影響することが明らかになった。 - これは,CLIP学習時に最適化された
埋め込みの構造的な重複が原因で, 埋め込みの影響が増幅されるためである。 - トークナイザーの設定変更や埋め込みのマスク処理により,品質を損なわずに記憶を抑制できることが示された。
推論誘導によるグラウンディング:マルチモーダル大規模言語モデルによる異常動画検知の高度化 [cs.CV, cs.AI, cs.LG]目的:異常動画検知における,分類,空間的グラウンディング,そして推論能力の統合
- 動画解析は監視,自動運転などに応用され,社会の安全・安心に貢献する重要な技術分野である。
- 従来の異常動画検知は二値分類や外れ値検出が主流で,異常箇所の空間的な特定が困難であった。
- 本研究は,異常動画における解釈可能な推論と正確な空間的局在化を可能とする。
- VANGUARDは,UCF-Crimeデータセットにおいて94%のROC-AUCと84%のF1スコアを達成した。
- 異常動画の分類と同時に,解釈可能な推論と空間的グラウンディングを実現した。
- 段階的な学習が単一最適化を上回り,構造化された推論が予測のバランスを改善することを示した。
結合場所が重要である:Few-Shot 文字認識のための Vision Transformer におけるヘブの高速重み [cs.NE, cs.CV, cs.LG]目的:Few-Shot 文字認識における Vision Transformer の性能向上
- 画像認識分野では,少ないデータでの学習能力向上が重要課題である。
- Transformer は学習済みの重みを用いるため,新しいタスクへの迅速な適応が難しい。
- ヘブの高速重みモジュールを用いて,Transformer の Few-Shot 学習能力を改善する。
- Swin-Tiny モデルにヘブの高速重みモジュールを適用した結果,1-shot で 96.2%,5-shot で 99.2% の高い精度を達成した。
- このモジュール配置戦略は,各ステージにモジュールを配置するよりも安定しており,最高の性能を発揮した。
- Swin のシフトウィンドウとエピソードレベルのヘブ結合の相互作用が,性能向上に寄与していると考えられる。
ヒンディー語音声認識のための畳み込みニューラルネットワークを用いたキーワードスポッティング [cs.SD, cs.AI]目的:ヒンディー語音声認識におけるキーワードスポッティングの応用
- 音声認識技術は,人と機械の自然な対話を可能にする基盤技術である。
- 既存の音声認識システムは,計算コストが高く,特定の環境下での性能が課題である。
- デバイス上で効率的に動作する,ユーザーに特化したヒンディー語キーワードスポッティングシステムの開発。
- 提案手法では,畳み込みニューラルネットワーク(CNN)を用いて高精度なキーワード検出を実現した。
- 4万件のヒンディー語音声データセットを用いた評価により,91.79%の認識精度を達成した。
- 本研究は,ヒンディー語音声認識におけるオンデバイスキーワードスポッティングの可能性を示唆する。
交差的バイアスの探索と解明のためのフレームワーク:胎児超音波のケーススタディ [cs.LG, cs.CV, eess.IV]目的:交差的バイアスの探索と検出
- 医療AIの公平性は重要であり,特に画像診断におけるバイアスは患者への影響が大きいため。
- 医療AIにおいて,データ表現の偏りが必ずしもバイアスの一因ではなく,画像品質が重要な役割を果たす。
- 画像品質とデモグラフィック特性の相関を分析し,交差的バイアスの要因を特定すること。
- 胎児体重推定モデルおよびHadlock法において,ピクセル間隔(PS)がパフォーマンスに影響を与えることが明らかになった。
- 高BMIや低い妊娠週数(GA)の場合にPSが調整されることが,バイアスの混同要因となるリスクが示唆された。
- PSに関連するパフォーマンス改善の一部はGAによって説明される一方,BMI層間ではPSの影響が持続し,取得条件を考慮した評価の重要性が示された。
AsymK-Talker:非対称カーネル蒸留によるリアルタイムかつ長時間のトーキングヘッド生成 [cs.LG, cs.AI, cs.SD]目的:リアルタイムかつ長時間のトーキングヘッド生成手法
- 映像生成技術は,エンターテイメントやコミュニケーションにおいて重要な役割を担う。
- 既存手法は,リアルタイム処理の遅さ,時間的な一貫性の欠如,長時間の生成におけるずれが課題。
- これらの課題を克服し,より自然で実用的なトーキングヘッド生成を実現すること。
- 提案手法AsymK-Talkerは,カーネル蒸留を用いてリアルタイムかつ長時間の生成を可能にした。
- Kernel-Conditioned Loop Generationにより,時間的な一貫性を保ちつつ効率的な生成を実現。
- Temporal Reference EncodingとAsymmetric Kernel Distillationによって,視覚的品質と唇の動きの同期性を向上。
双極性躁病検出におけるオンデバイス特性・状態分離のための混合精度情報ボトルネック [cs.NI, cs.LG, cs.AI, cs.HC, cs.SD]目的:双極性躁病の音声バイオマーカーによる継続的モニタリングのための特性と状態の分離
- 精神疾患の早期発見・介入は,患者のQOL向上に不可欠である。
- エッジデバイスでの資源制約が,高精度な状態分離の妨げとなっている。
- 数値精度制御による情報ボトルネックを用いて,効率的な分離を実現する。
- MP-IBは,厳格な話者独立クロスバリデーションにおいて,高い相関係数(ρ=0.117)を示した。
- 94MパラメータのWavLM-Adapter等の既存手法を,絶対値で2.8~15.9ポイント上回る性能を実現した。
- 低コストデバイス上でのリアルタイムモニタリングを実現し,実用性を実証した(レイテンシ23.4ms, フットプリント617KB)。
自動オルガノイド画像セグメンテーションの品質における人間レベルへの接近 [cs.CL, cs.CL, cs.CV, cond-mat.soft, q-bio.QM]目的:オルガノイド画像の自動セグメンテーションの品質向上
- オルガノイドは疾患研究や治療法の開発に有用であり,その観察には高精度な画像解析が不可欠である。
- 既存のツールでは,オルガノイド画像の多様な条件下でのセグメンテーション精度が十分ではない。
- 汎用モデルと専門ツールを組み合わせることで,高精度なオルガノイド画像セグメンテーションを実現する。
- 本研究で提案する複合手法は,オルガノイド画像のセグメンテーションにおいて,既存のツールよりも高い精度を示した。
- その精度は,熟練した観察者間でのばらつきと同程度,あるいは非常に近い水準に達した。
- 特に困難な画像を除き,一貫性と正確性の高い結果が得られることが確認された。
要約統計量と弱い教師あり学習を用いたセグメンテーション学習 [cs.CV, cs.LG]目的:セグメンテーションモデルの学習
- 医療画像解析において,正確なセグメンテーションは診断精度向上に不可欠である。
- 専門家による手動アノテーションは負担が大きく,データ不足も課題である。
- 要約統計量と弱い教師信号を用いて,効率的なセグメンテーション学習を目指す。
- 要約統計量のみではセグメンテーション精度は十分ではないことが示唆された。
- 領域内の少数のピクセルという弱い教師信号を加えることで,性能が大幅に向上した。
- 提案手法は,画像,超音波,CTスキャンデータにおいて有効であることが確認された。
区間選挙におけるチーレ則の計算と一般化 [cs.AI, cs.GT]目的:区間選挙におけるチーレ則の計算可能性
- 承認型委員会投票は社会的選択理論で重要であり,チーレ則は比例表現性などの望ましい特性を持つ。
- 一般的なチーレ則の計算はNP困難であり,効率的な計算方法が課題であった。
- 候補者区間(CI)以外の区間である有権者区間(VI)における計算可能性を解決する。
- 有権者区間(VI)においても,標準的な線形計画法(LP)で最適な整数解が得られることを示した。
- この手法は,有権者候補者区間(VCI)や線形一貫性(LC)といった,より一般的な領域にも拡張可能である。
- 線形一貫性(LC)と有権者候補者区間(VCI)の関係をグラフ理論を用いて明らかにし,LCがVCIを厳密に包含することを示した。
TTS-STT フライホイール:合成されたエンティティ密度の高い音声が,商用およびオープンソースシステムが失敗するインド言語ASRのギャップを埋める [cs.NI, math.OC, cs.CL, cs.SD]目的:ニッチなドメインにおけるインド言語ASRの性能向上
- インド言語の音声認識は,多様な言語と方言が存在し,情報アクセス格差の解消に貢献する重要な分野である。
- 特定のドメイン(数字,金額,住所など)におけるインド言語ASRは,既存のオープンソースおよび商用システムで性能が低いという課題がある。
- エンティティ密度の高い合成データを用いたTTS-STTフライホイールにより,インド言語ASRの性能を向上させることを目指す。
- 合成されたエンティティ密度の高いテルグ語テストセットにおいて,提案手法はオープンソースSOTAモデルよりも17倍,商用モデルよりも3倍高いEntity-Hit-Rateを達成した。
- ヒンディー語およびタミル語においても性能が向上したが,テルグ語ほど顕著ではなかった。特に,ヒンディー語では商用システムの方が優位性を示した。
- 合成データで学習したモデルは,実際のテルグ語音声に対しても良好な性能を示し,合成データの有効性を裏付けた。また,Whisper-large-v3のテルグ語固有の文字崩壊の問題を修正する効果も確認された。
感情条件下の音素レベル深偽検出:自己教師あり埋め込みの利用 [cs.SD, cs.LG, eess.AS]目的:感情的な音声合成における深偽検出手法
- 音声合成技術の進歩により,感情表現豊かな音声が生成可能となり,その悪用が懸念される。
- 既存手法は音声全体を均質に扱い,音素構造に着目しないため,感情条件下の検出に限界がある。
- 感情操作された合成音声の音素レベルでの分析を通して,深偽検出の精度向上を目指す。
- 音素の挙動は種類によって異なり,複雑な母音や摩擦音は変動が大きく,単純な音素は安定していることが示された。
- 分布の違いが大きい音素は,感情や合成システムの種類に関わらず,検出が容易であることが確認された。
- 音素レベルでの分析は,感情操作された合成音声を検出するための効果的かつ解釈可能な手法である。
単一シーケンスで全てをセグメント化:CTおよびMRIクロスドメイン3D脊椎セグメンテーションのための効率的なデータ拡張 [cs.CV]目的:CTおよびMRI画像における脊椎セグメンテーションのクロスドメイン汎化性能向上
- 臨床診断支援や治療戦略開発において,深層学習を用いた医療画像セグメンテーションの重要性が高まっている。
- 高品質な注釈付きデータの不足や,画像撮影プロトコル間の汎化性能不足が課題となっている。
- 異なるモダリティ間(CTとMRIなど)の画像におけるセグメンテーション精度を向上させることを目指す。
- 提案手法により,未知のドメインにおける性能が大幅に向上した(平均Dice係数155%の改善)。
- インドメインの精度はほぼ維持され(平均Dice係数0.008%の低下),CTとMRI間の効果的な転移が確認された。
- GPU最適化により,計算コストを抑えつつ,トレーニング効率を約10%向上させた。
一側情報を持つ線形二次微分ゲームにおける情報プレイヤーのための高速戦略求解 [cs.RO, cs.CL, cs.GT]目的:情報プレイヤーのナッシュ均衡戦略の計算効率向上
- 現実世界とシミュレーションの乖離に対応したロバスト制御の実現が求められている。
- 従来のナッシュ均衡近似法は計算コストが高く,リアルタイムな部分ゲーム求解が困難であった。
- 線形ダイナミクスと二次損失関数を持つ微分ゲームにおいて,部分ゲーム求解の高速化を目指す。
- 提案手法は,付随変数を活用した逆伝播スキームにより,ナッシュ均衡戦略の計算を効率化する。
- シグナリング戦略(情報開示のタイミングと方法)を最適化する二層最適化問題としてナッシュ均衡計算を定式化する。
- 8次元状態空間,2次元行動空間を持つホーミング問題において,約10Hzのサブゲーム求解を実現し,情報非対称性下でのロバストなゲーム理論的計画を可能にした。
NucEval:核インスタンスセグメンテーションのための堅牢な評価フレームワーク [cs.CV]目的:核インスタンスセグメンテーション評価の改善
- 計算病理学において,核インスタンスセグメンテーションは臨床応用の基礎となる重要なタスクである。
- 既存の評価パイプラインでは,曖昧な領域,スコアの正規化,重複インスタンス,境界の不確実性などの問題が指摘されている。
- 核インスタンスセグメンテーション評価における課題を解決し,より信頼性の高い評価を可能にすること。
- 本研究では,NucEvalという統一されたフレームワークを提案し,上記の課題に対する解決策を統合した。
- NuInsSegデータセットおよび2つの外部データセットを用いた評価により,提案手法がセグメンテーション指標に与える影響を実証した。
- NucEvalのコードと詳細なガイドラインは公開されており,再現性と利用可能性を確保している。
山火事延焼予測における境界を考慮した不確実性定量化 [cs.CL, cs.CV]目的:山火事延焼予測の不確実性定量化手法
- 山火事の被害軽減には,正確な延焼予測とリスク評価が不可欠である。
- 深層学習モデルは予測精度が高いが,不確実性の評価方法が確立されていない。
- 境界付近の予測における不確実性を評価し,実用的なリスク管理に貢献する。
- 提案手法Fire-Centered Evaluation Region (FCER) は,山火事の重要領域における不確実性定量化に焦点を当てる。
- アンサンブルモデルと蒸留モデルを比較した結果,蒸留モデルが境界付近で同等の精度と相補的な不確実性ランキングを示した。
- FCERフレームワークは,運用上のニーズに合致した不確実性評価を可能にする。
DINOが飛翔する:リモートセンシング画像のオープンボキャブラリーセマンティックセグメンテーションのためのDINOv3 [eess.SY, cs.SY, eess.SY, cs.SY, cs.CV]目的:リモートセンシング画像のオープンボキャブラリーセマンティックセグメンテーションモデルの構築
- リモートセンシング技術は,地球観測や環境モニタリングに不可欠であり,その精度向上が求められている。
- リモートセンシング画像のセグメンテーションには大量の教師データが必要だが,その作成コストが高いという課題がある。
- 教師なし,または少量教師データで高精度なセグメンテーションを実現し,データ取得コストを削減することを目指す。
- 提案手法CAFe-DINOは,DINOv3の強力なオープンボキャブラリーセマンティックセグメンテーション能力を活用することで,リモートセンシングデータへのファインチューニングなしでも高い性能を実現した。
- CAFe-DINOは,コスト集約と特徴アップサンプリングによってDINOv3の性能を最大限に引き出し,既存のオープンボキャブラリーセマンティックセグメンテーション手法を上回る結果を達成した。
- COCO-Stuffのリモートセンシング画像サブセットでのファインチューニングにより,主要なリモートセンシングセグメンテーションデータセットで最先端の性能を達成した。
Sentinel2Cap:マルチモーダルリモートセンシング画像キャプションのための人間アノテーションベンチマークデータセット [cs.CV]目的:マルチモーダルリモートセンシング画像キャプションのためのデータセット
- リモートセンシング技術は,地球観測や環境モニタリングにおいて不可欠な役割を果たしている。
- SAR画像や中解像度センサーのキャプションデータセットが限られており,マルチモーダルデータの活用が課題である。
- Sentinel2Capデータセットにより,リモートセンシング画像の理解と活用を促進し,新たな研究を支援する。
- Sentinel2Capは,Sentinel-1 SAR画像とSentinel-2マルチスペクトル画像を含む,人間がアノテーションしたマルチモーダルキャプションデータセットである。
- RGB画像が最も高いキャプション性能を示したが,SAR画像は依然としてビジョン言語モデルにとって困難である。
- モダリティ固有のコンテキストプロンプトを使用することで,すべての評価指標において性能が向上した。
MenuNet:マッチング市場のための戦略的安全性を持つメカニズム [cs.MA, cs.GT, cs.AI]目的:戦略的安全性と安定性を両立するマッチング市場メカニズムの設計
- 市場メカニズム設計は,資源配分の効率性と公平性を高める上で不可欠である。
- 現実の市場では制約条件が複雑であり,安定したマッチングを得ることが難しい。
- 制約下で戦略的安全性を保ちつつ,不安定性を公平に分配するメカニズムを構築する。
- 提案手法MenuNetは,ニューラルネットワークを用いてパーソナライズされたメニューを生成する。
- MenuNetは,Random Serial Dictatorship(RSD)やDeferred Acceptance(DA)よりも,羨望と無駄の点で優れている。
- 学習ベースのメニューメカニズムは,制約の厳しい現実世界の環境において柔軟性と拡張性を提供する。
長尾分布を持つ医療画像分類のための合成データ生成:皮膚病変のケーススタディ [cs.CV]目的:長尾分布を持つ医療画像分類における合成データ生成手法
- 医療画像分類は,疾患の早期発見・診断に不可欠であり,高精度が求められる。
- 医療データセットは,稀な疾患クラスのサンプル数が少なく,分類性能が低下しやすい。
- 拡散モデルを用いた合成データ生成により,長尾分布の問題を改善し,分類精度向上を目指す。
- 提案手法は,皮膚病変のデータセットISIC2019において,全体的な性能を大幅に向上させた。
- 特に,サンプル数の少ないクラスにおいて,28%以上の性能改善が確認された。
- 拡散モデルに基づくデータ拡張は,長尾分布の偏りを緩和し,医療画像分類のロバスト性を高める有効な手段である。
占有関数を用いた適応型Delaunay骨格によるランダムサンプリング [cs.NI, cs.GR]目的:占有関数による形状のランダムサンプリングと表面化
- 多様な応用において,形状の表現と処理が不可欠であり,その効率的な手法が求められている。
- 既存手法では,ランダムサンプリングとメッシュ表面化のバランスが課題であり,一方のみに注力したものが主流である。
- 効率的な関数評価回数で,ランダムな表面サンプルと連結されたメッシュ表面を同時に実現すること。
- 本手法は,既存手法と比較して,同等の精度を達成するために必要な関数評価回数を大幅に削減することに成功した。
- 適応型Delaunay骨格を用いることで,表面近傍のサンプリングを効率的に行い,高精度な表面メッシュを生成する。
- 150種類の入力データを用いた実験により,本手法の有効性と,様々な応用への展開可能性が確認された。
公平でバランスの取れたグラフ分割に関する改善された結果 [cs.GT]目的:グラフの公平かつバランスの取れた分割
- 社会ネットワーク分析において,公平性と効率性を両立した分割は重要な課題である。
- 既存手法では,公平性とバランスを同時に満たす分割が困難である。
- 公平性とバランスを考慮した,近似的な分割アルゴリズムを開発する。
- 最大次数Δとノード数nを持つグラフに対し,√Δまたはk^2にlog nを加えた値で近似された,公平な分割が存在することを示した。
- 分割がk + o(k)近似コア内に存在することも示した。これは既存の結果と同等か改善されたものである。
- バランス制約を緩和することで,効率的な計算が可能となることを示した。k=2の場合,(1.618 + o(1))-コアが存在し,(2 + ε)-コアは多項式時間で計算可能である。
テキスト条件付きJEPA:意味的に豊かな視覚表現の学習 [cs.LG, cs.CV]目的:意味的に豊かな視覚表現の学習
- 視覚情報処理は,画像認識や物体検出など,様々な応用において重要である。
- 自己教師あり学習では,マスクされた領域の予測が困難であり,意味的表現の獲得が課題である。
- テキスト情報を活用することで,予測の不確実性を低減し,より意味的な特徴量を学習することを目指す。
- テキスト条件付きJEPA (TC-JEPA) は,画像キャプションを用いて予測の不確実性を低減し,ダウンストリームタスクの性能を向上させた。
- TC-JEPAは,特徴量予測のみに基づく新しい視覚-言語事前学習パラダイムを提示し,コントラスト学習法を上回る性能を示した。
- 特に,詳細な視覚的理解や推論を必要とするタスクにおいて,優れた結果が得られた。
Ortho-Hydra: DiT LoRAのための直交化エキスパート [cs.LG, cs.AI, cs.CV]目的:拡散Transformer(DiT)のLoRAファインチューニングにおけるスタイルブリードの克服
- 拡散モデルは高品質な画像生成を可能にするが,計算コストが高い。
- DiTのLoRA調整において,複数のスタイルを表現する際にスタイルブリードが発生しやすい。
- 初期状態から専門家が特殊化するように誘導し,効率的な学習を実現する。
- Ortho-Hydraは,Cayley直交共有基底と,事前学習済み重みの左特異ベクトルから切り出された専門家ごとの離散的な出力部分空間を組み合わせる。
- この手法により,ルーターの専門家ごとのスコアが初期状態から非退化し,早期の専門化を促進する。
- 実験の結果,Ortho-Hydraは初期段階から一様分布から逸脱し始めることが確認された。
CropVLM:オープンセット作物分析のためのドメイン適応型ビジョン言語モデル [cs.CV]目的:オープンセットにおける作物分析を可能にする,ドメイン適応型ビジョン言語モデルの開発
- 作物の表現型測定は,育種において重要な役割を果たすが,手作業によるデータ収集に限界がある。
- 従来のコンピュータビジョンシステムは,種特異的なアノテーションが必要であり,多様な育種集団への対応が難しい。
- 本研究は,種特異的なデータに依存せずに,多様な作物に対応できる表現型測定システムの構築を目指す。
- CropVLMは,52,987枚の画像とキャプションを用いて学習され,農業用語と微細な視覚的特徴を効果的に関連付けることができた。
- ゼロショット分類精度は72.51%を達成し,7つのCLIPスタイルのベースラインを上回る性能を示した。
- HOS-Netにより,言語による記述のみで未知の作物を検出でき,CVTCropDetおよび熱帯果物種において優れた汎化性能が確認された。
VEBench:現実世界の動画編集のための大規模マルチモーダルモデルのベンチマーク [cs.IR, cs.DB, cs.CV]目的:現実世界の動画編集における大規模マルチモーダルモデルの性能評価
- 動画編集は映像技術と多角的思考を要し,コンテンツ制作において不可欠である。
- 既存モデルは汎用的な動画理解には進歩するも,複数動画の推論や編集ワークフローは未開拓である。
- VEBenchは,動画編集知識と操作的推論の評価を通じて,モデルの課題を明確化し,進歩を促進する。
- VEBENCHは,高品質な動画3.9K本と,人間が検証したQAペア3,080組を含む包括的なベンチマークである。
- 編集技術の認識と編集操作のシミュレーションという2つのQAタスクを通じて,モデルの能力を評価する。
- 実験結果は,現在のモデル性能と人間の認知能力との間に大きな隔たりがあることを示した。
FACTOR:オープンボキャブラリ物体検出における反事実的学習不要テスト時適応 [cs.HC, cs.CY, cs.RO, cs.RO, cs.SY, eess.SY, cs.CV]目的:オープンボキャブラリ物体検出における分布シフトへのロバスト性向上
- 物体検出はコンピュータビジョンの根幹であり,様々な応用分野で重要である。
- オープンボキャブラリ物体検出は,分布シフトに弱く,見慣れない環境で性能が低下しやすい。
- 非因果的視覚的特徴に依存する誤りを抑制し,テスト時の適応能力を高めることを目指す。
- FACTORは,反事実的推論に基づき,テスト画像を非因果的属性で摂動させることで,属性感受性を定量化する。
- これにより,属性に依存する予測を選択的に抑制し,パラメータ更新なしにロバスト性を向上させる。
- PASCAL-C,COCO-C,FoggyCityscapesでの実験により,既存手法を上回る性能が示された。
アクセントに強いASRのためのコントラスティブ正則化 [cs.CY, cs.HC, cs.SD, cs.LG]目的:アクセントに強い音声認識システムの開発
- 音声認識技術は,人間と機械の自然な対話を可能にする基盤技術である。
- 既存の音声認識システムは,話者のアクセントによって性能が大きく変動する。
- アクセント変動にロバストな音声認識モデルを,軽量な方法で実現すること。
- 自己教師あり学習とCTCファインチューニングを組み合わせた音声認識システムに,コントラスティブ正則化を導入した。
- L2-ARCTICベンチマークでの実験により,未知のアクセントに対するWERが大幅に削減された。
- コントラスティブ正則化は,アクセント変動下での表現の安定性とコンパクトさを向上させる。
委任による信用評価を通じた無担保融資 [cs.CC, cs.GT, econ.TH]目的:匿名ユーザー間における無担保融資のメカニズム
- 金融包摂の推進には,信用履歴の浅い人々へのアクセスが不可欠である。
- 従来の信用評価システムは,個人情報の開示や中央集権的な機関への依存を伴う。
- スポンサーによる信用委譲を通じて,新たな信用創出とリスク管理を実現すること。
- スポンサーの信用力を再分配することで,担保や法的アイデンティティなしに融資が可能となる。
- 債務不履行時の損失はスポンサー経路に沿って伝播し,返済は将来の借入能力を拡大する。
- 信用委譲は総信用力を維持し,債務不履行は特定のスポンサー経路に限定されることが証明された。
TACO:軌道整列クロスビュー最適化 [cs.CL, cs.CV, cs.RO]目的:クロスビュー測位とIMUを組み合わせた,GNSSに依存しない自己位置推定パイプライン
- GNSSが利用できない環境下での絶対位置推定は,自動運転やロボット工学において不可欠である。
- 従来のCVGL手法は,リアルタイムパイプラインでの利用を想定しておらず,IMUのドリフト補正に限界があった。
- 本研究は,CVGLとIMUを融合し,ドリフトを抑制することで,GNSSに依存しない高精度な位置推定を目指す。
- TACOは,IMU単独に比べて絶対軌道誤差のメジアン値を97.0mから16.3mに低減することに成功した。
- 処理コストはフレームあたり0.1ms未満,カメラの稼働率は5〜10%と低い。
- ファクターグラフを用いたオフラインでの軌道平滑化も行い,精度向上に貢献している。
拡散Transformerのための適応階層的事前アラインメント (AHPA) [cs.CV, cs.AI]目的:拡散Transformerの訓練加速のための表現アラインメント手法
- 拡散モデルは高品質な画像生成が可能だが,訓練に膨大な計算資源を要する。
- 既存のアラインメント手法は,固定された粒度でアラインメントを行うため,最適ではない。
- ノイズレベルに応じて最適なアラインメント粒度を動的に変化させることで,訓練効率を改善する。
- 提案手法AHPAは,凍結されたVAEエンコーダの階層的表現を活用し,多レベルの事前知識を抽出する。
- timestepに応じて動的にこれらの階層的事前知識を選択・重み付けすることで,アラインメント粒度をモデルの学習ニーズに同期させる。
- 実験結果から,AHPAは収束性と生成品質を向上させ,追加の推論コストを発生させないことが示された。
FreeTimeGS++:動的ガウススプラッティングの秘訣とその原理 [cs.CV, cs.AI]目的:動的シーン再構成における4Dガウススプラッティングの根底にある原理の体系的理解
- 近年,4Dガウススプラッティングが急速に発展し,動的シーンの再構成において高い性能を示している
- その性能向上を支える具体的な要因が明確に解明されておらず,原理の理解が十分に進んでいない
- 4Dガウススプラッティングの隠れた要素を分析し,安定性とロバスト性を向上させる手法を提案する
- 本研究では,ガウスの持続時間に基づく時間的分割が自然に生じること,光度忠実性と時空間的一貫性の乖離を明らかにした
- 提案手法FreeTimeGS++は,ゲート付き周辺化とニューラル速度場を用いることで,従来の4DGSよりも優れた安定性と表現力を実現する
- 再現性の高い結果が得られ,実行間のばらつきを低減することが確認された
MedSR-Vision:マルチドメイン医用画像超解像のための深層学習フレームワーク [cs.CV]目的:医用画像超解像モデルの評価と比較
- 医用画像は診断精度に不可欠であり,高解像度化が求められる。
- 既存手法では,解剖学的正確性や知覚的品質の維持が課題である。
- 異なる医用画像ドメイン間での汎化性能向上を目指す。
- Real-ESRGANは,高倍率において優れた知覚的品質とエッジ復元能力を示す。
- SwinIRは,構造的および診断的特徴の保存において優れている。
- SRCNNは,低倍率において効率的かつ安定した性能を提供する。
フレームモギングによるトレーニングフリーな再計算回避を通じたVLMaxxing:ビデオ視覚言語モデルの性能向上 [cs.CV, cs.AI]目的:ビデオ視覚言語モデルにおける視覚情報の再利用による効率化
- ビデオ視覚言語モデルは,動画理解において重要な役割を担う技術である。
- 既存のモデルは,変化のないシーンでも冗長な計算を行い,効率が低いという課題がある。
- 本研究は,過去の情報を再利用することで,計算コストを削減し,応答速度を向上させることを目指す。
- Qwen2.5-VL-7B-Instruct-4bitを用いた実験で,同じ動画に対する一連の質問において,応答時間を14.90~35.92倍に短縮することに成功した。
- C-VISIONにより,Gemma 4-E4B-4bitでは最初の質問の処理速度が1.316倍に向上し,精度低下は見られなかった。
- 動画内の変化を直接的にモデルに伝えることで,フレーム毎の冗長なRGBデータの再学習を不要にすることを目指す。
多Modal大規模言語モデルは病的運動を理解できるか?てんかん兆候に関するパイロット研究 [cs.CV, cs.AI]目的:てんかん発作ビデオにおける病的運動の自動認識能力
- 神経疾患における非随意運動の解析は,疾患の正確な診断と治療に不可欠である。
- 既存の画像認識モデルは,臨床的に重要な非随意運動の識別には限界がある。
- 汎用的な大規模言語モデルを,専門的な臨床ビデオ解析に応用する可能性を検証する。
- 大規模言語モデルは,特定のタスク向けに学習されていないにも関わらず,従来の画像認識モデルを上回る性能を示した。
- 特に,姿勢や文脈の特徴認識において強みを発揮したが,微細で高周波な運動の認識には課題が残る。
- 特定の信号を強調する前処理(顔の切り抜き,姿勢推定,音声ノイズ除去)により,性能が向上した。
臨床医のトレーシングを模倣:頭蓋計測ランドマーク検出のための解剖学的誘導空間事前知識 [cs.CV]目的:頭蓋計測ランドマーク検出における解剖学的誘導空間事前知識の構築
- 歯科矯正治療において,頭蓋X線写真は重要な診断ツールである。正確なランドマーク検出は治療計画に不可欠。
- 既存の自動ランドマーク検出システムは,臨床医の思考プロセスを再現できていない。
- 臨床医のトレーシング手順を模倣し,解剖学的知識を事前知識として組み込むことで,ランドマーク検出の精度を向上させる。
- 提案システムは,3つのデータセット (1502枚のX線写真) において,25ランドマークの平均放射誤差1.04mmを達成した。
- これは,既存の最先端技術 (19ランドマークで1.23mm) を15.4%上回る結果である。
- 解剖学的事前知識を除去すると,汎化性能が著しく低下し,ランダムなガウス分布に置き換えた場合も同様であった。
Mix3R:フィードフォワード再構成と生成3D事前知識の混合による,多視点アライメント3D再構成と姿勢推定 [cs.CV]目的:多視点画像からの3D再構成と姿勢推定の性能向上
- 3D再構成は,ロボティクスや自動運転など幅広い分野で不可欠な技術である。
- 従来の3D再構成手法では,入力画像とのアライメントが不十分であるという課題があった。
- フィードフォワード再構成と生成3D事前知識を融合し,正確なアライメントを実現する。
- Mix3Rは,フィードフォワード再構成と3D生成を単一のフレームワークで統合することで,両者の利点を活かしている。
- 生成される3D形状は,入力画像とのアライメントが改善され,姿勢推定の精度も向上した。
- 事前学習済みのモデルを活用することで,学習データが少なくても高い性能を発揮できる。
動的蒸留と勾配一貫性によるロバストな長尾型インクリメンタル学習 [cs.RO, cs.SY, eess.SY, cs.CV]目的:長尾型クラスインクリメンタル学習におけるロバスト性の向上
- 継続学習は,限られたリソースで知識を蓄積する上で重要であり,AIの柔軟性と適応性を高める。
- インクリメンタル学習では,以前の知識が失われやすく,特に長尾分布のデータセットでは,少数クラスの学習が困難である。
- 少数クラスの学習不足と多数クラスの過学習を同時に解決し,忘却を抑制する。
- 提案手法は,CIFAR-100-LT,ImageNetSubset-LT,Food101-LTのベンチマークにおいて,最大5.0%の精度向上を達成した。
- 特に,多数クラスから少数クラスへ順に学習する「In-ordered」設定において,顕著な改善が見られた。
- 計算コストの増加はわずかであり,実用的な枠組みであることが示された。
教師なしドメイン適応のための二重基盤モデル [cs.CV]目的:教師なしドメイン適応における性能向上
- 自動運転や高精度な知覚タスクには,画像内の各ピクセルを理解するセマンティックセグメンテーションが不可欠である。
- セグメンテーションモデルの学習には,現実世界のデータセットに対する高コストなアノテーションが必要となる。
- 合成データで学習し,現実画像への適応を可能にする教師なしドメイン適応における課題解決。
- 本研究では,二つの基盤モデルを活用する二重基盤UDAフレームワークを提案する。
- Segment Anything Model (SAM)とDINOv3を用いることで,より多くのターゲットピクセルから学習し,安定したクラスプロトタイプを構築する。
- 提案手法は,GTA-to-Cityscapes,SYNTHIA-to-Cityscapesにおいて,既存のUDA手法と比較してそれぞれ+1.3%,+1.4%のmIoU改善を達成した。
クロスシーンハイパースペクトル画像分類のためのデカップルドアライメントによる単段型オープンセットドメイン適応 (SoDa2) [cs.CV]目的:クロスシーンハイパースペクトル画像分類におけるオープンセットドメイン適応手法
- リモートセンシングにおいて,多様な分野で応用が拡大しており,基礎的な研究テーマである。
- ターゲットドメインにおける未知カテゴリの包含と,異なるシーン間のドメインシフトが存在する。
- 混合スペクトル空間特徴の直接的なアライメントや,二段階の学習戦略による計算コストの問題を解決する。
- 提案手法SoDa$^2$は,貢献度を考慮した二重モード特徴抽出により,判別特徴を強化する。
- デカップルドアライメントモジュールは,ソースドメインとターゲットドメイン間のスペクトルおよび空間の差異を独立して低減する。
- ガウス混合モデルを用いて,既知クラスと未知クラスを適応的に識別し,高い分類精度とモデルの転移可能性を実現する。
DECKER:クロスキーボード抽出・認識のためのドメイン不変埋め込み [cs.CR, cs.SD]目的:キーボードからの音響サイドチャネル攻撃に対する堅牢なキーストローク推論
- キーボード操作音から情報を推測される音響サイドチャネル攻撃は,深刻なセキュリティリスクとなる。
- 既存研究は,ユーザー,キーボード,環境の多様性が限られた小規模データセットに依存しており,汎化性能が課題である。
- 多様な環境下での音響サイドチャネル攻撃の有効性と,それに対する対策の検討を可能とする。
- 提案手法DECKERは,デバイス固有の影響を低減し,キーボードIDを抑制することで,クロスキーボード・ユーザー設定でのキーストローク識別精度を向上させる。
- 大規模データセットHEARを用いて,従来のモデルと比較してDECKERの有効性を検証した結果,特にクロスキーボード環境で顕著な性能向上を示した。
- さらに,LLMを用いた後処理により,言語的文脈に基づいたキーストロークシーケンスの修正が可能となり,推論精度が向上した。
訓練不要な二重システムフレームワークによる自己教師ありトーキングヘッド偽造検出の強化 [cs.CV, cs.AI, cs.MM]目的:トーキングヘッド偽造検出における性能向上
- 生成モデルの進化に対応した汎化性能が重要視される。偽造手法は常に進化し続けるため。
- 既存の検出器は偽造パターンの識別能力に依存し,新しい偽造手法には弱い。
- 既存の自己教師あり検出器の潜在的な識別能力を引き出す。
- 提案手法TFDSは,既存の検出器のスコアに基づいて二重システムを構築し,曖昧なサンプルを再評価する。
- 確信度の低いサンプルに焦点を当てることで,スコアの信頼性の低い順序を修正する。
- 実験により,様々なデータセットや摂動下で性能が向上することが示された。
APEX:AI生成音楽の美的感覚に基づいた大規模多タスク人気予測 [cs.SD, cs.AI, cs.LG, cs.MM]目的:AI生成音楽の人気予測モデルの構築
- 音楽人気予測は,アーティスト,プラットフォーム,推薦システムにとって重要である。
- AI生成音楽プラットフォームの急増により,従来の指標が通用しない状況が生じている。
- 美的感覚が音楽の人気に与える影響を考慮した予測モデルを開発する。
- APEXは,SunoとUdioの21.1万曲以上の楽曲で学習された大規模多タスク学習フレームワークである。
- ストリーム数や「いいね」数といった人気指標と,音楽の美的品質の5つの側面を同時に予測する。
- Music Arenaデータセットでの評価において,美的特徴の組み込みが予測精度を向上させ,汎化性能が示された。
MASRA:MLLM支援による意味・関係整合性のあるビデオ時間的接地 [cs.AR, cs.IR, cs.CV]目的:ビデオ時間的接地における意味的・関係的な整合性向上
- ビデオ理解において,時間的な情報と意味的な情報の対応は重要である。多様な応用を可能にする基盤技術となる。
- 既存手法では,ビデオとクエリの間の意味的ギャップにより,背景情報が誤って関連付けられる場合がある。
- MLLMを活用し,意味と時間的関係の整合性を高めることで,ビデオ時間的接地性能の向上を目指す。
- MASRAは,イベントレベル記述とクリップレベルキャプションという2種類のテキスト事前知識をMLLMを用いて生成する。
- ESTAとLRCAという2つのMLLM支援アライメントにより,意味と時間的イベントの対応強化と,時間的一貫性の向上が図られた。
- 実験結果から,MASRAが既存手法を上回り,提案手法の有効性が確認された。
GRPO-TTA:GRPO駆動強化学習によるVision-Languageモデルのテスト時視覚チューニング [cs.CV, cs.LG]目的:Vision-Languageモデルのテスト時適応
- 画像と言語を結びつけるモデルは,多様な応用において重要な役割を担う。
- テスト時における環境変化への適応が困難であり,性能低下を招く場合がある。
- テスト時適応能力を向上させ,環境変化にロバストなモデルを構築すること。
- 本研究で提案するGRPO-TTAは,既存のテスト時適応手法を上回る性能を示すことが確認された。
- 特に,自然な分布シフト下において顕著な性能向上が認められた。
- 出力グループの構築と報酬関数の設計により,効果的な視覚エンコーダのチューニングを実現した。
TsallisPGD:セマンティックセグメンテーションに対する敵対的攻撃のための適応勾配重み付け [cs.CV, cs.LG]目的:セマンティックセグメンテーションモデルに対する敵対的攻撃手法
- セマンティックセグメンテーションは,画像認識において重要なタスクであり,その堅牢性を評価する必要がある。
- 従来の攻撃手法は,ピクセルごとの損失関数を用いるため,最適化が遅延し,モデルの頑健性を過大評価する可能性がある。
- Tsallisクロスエントロピーを用いて,勾配の集中度を制御し,攻撃の効率と精度を向上させる。
- TsallisPGDは,動的な$q$スケジュールを用いることで,様々なデータセット,モデル構造,摂動予算において優れた攻撃性能を示す。
- 既存の攻撃手法(CEPGD, SegPGD, CosPGD, JSPGD, MaskedPGD)と比較して,精度とmIoUの低下において優位性を示す。
- 単一の検証データで選択されたスケジュールで,全ての評価設定において平均的な攻撃ランクが最も高かった。
スマート受動音響モニタリング:AudioMothマイクロコントローラーへの分類器組み込み [cs.NI, cs.SD, cs.AI]目的:受動音響モニタリングにおける,音響データのその場での分析
- 生態系調査において,費用を抑えた効率的な手法が求められている
- 電力消費とデータ保存容量が限られており,調査期間が制限される
- AudioMoth上で分類器を実行し,効率的なデータ収集を可能とする
- 提案手法は,1D-CNNを用いてScopoli Shearwaterの鳴き声を91%の精度で分類できる
- モデルはAudioMothの制約に対応するため,約10KBのRAMフットプリントと20msの推論時間で動作する
- 本研究は,知能センサーの開発を促進し,生物音響モニタリングの効率と拡張性を高める
