arXiv雑要約
画像・音声 - 2025/12/19 公開
プログレッシブ再アラインメントによるマルチモーダルテスト時適応 [cs.RO, cs.DB, cs.LG, cs.CV]目的:マルチモーダルテスト時適応における課題解決
- モデルの汎化性能向上のため,テストデータを用いたオンライン適応が重要視されている。
- マルチモーダルデータでは,各モダリティ間の分布シフトが複雑に絡み合い,適応を困難にしている。
- 異なるモダリティ間のセマンティックなずれを解消し,よりロバストな適応を実現することを目指す。
- 提案手法BriMPRは,プロンプトチューニングを用いて各モダリティの分布を調整し,初期的なセマンティック再アラインメントを実現する。
- マスクされたモダリティの組み合わせに対して擬似ラベルを付与し,モダリティ間の情報交流を促進するコントラスティブ学習を導入する。
- 汚損データや実世界のドメインシフトのベンチマークにおいて,提案手法が既存手法を上回る性能を示すことが確認された。
マルコフ的スケール予測:視覚自己回帰生成の新しい時代 [cs.CV]目的:視覚自己回帰生成における計算効率とスケーラビリティの向上
- 視覚的データの自己回帰モデルは,生成能力において大きな進歩をもたらしている。
- 従来のVARモデルでは,全スケール依存性により計算コストが増大し,実用性と拡張性に課題があった。
- 本研究では,マルコフ過程としてVARを再構築し,計算効率を維持しつつ性能を向上させることを目指す。
- Markov-VARは,ImageNetにおいて,従来のVARと比較してFIDを10.5%削減することに成功した。
- また,ピークメモリ消費量を83.8%削減し,計算効率の大幅な改善を実現した。
- Markov-VARは,視覚自己回帰生成の基盤技術として,さらなる発展に貢献することが期待される。
交通事故予測と因果推定のためのマルチモーダル埋め込み学習 [cs.LG, cs.CV, cs.SI]目的:交通事故パターンの分析
- 交通安全の向上は社会的な重要課題であり,事故発生要因の特定が不可欠である。
- 従来の事故予測研究は道路ネットワーク構造に偏り,物理的・環境的情報が不足していた。
- 道路ネットワークと衛星画像を統合し,より高精度な事故予測と要因分析を目指す。
- マルチモーダル学習により,グラフニューラルネットワークのみを用いたモデルと比較して,予測精度が3.7%向上し,平均AUROCは90.1%を達成した。
- 降水量の増加により事故発生率が24%上昇し,高速道路では22%上昇,季節変動により29%上昇することが因果分析から明らかになった。
- 正確な予測には衛星画像の特徴が不可欠であることが,消去研究によって確認された。
言語駆動型ドメイン汎化によるセマンティックセグメンテーションにおけるドメイン特性の活用 [cs.CV]目的:セマンティックセグメンテーションにおけるドメイン汎化の向上
- 画像認識の分野において,様々な環境下での性能維持が重要視されている。
- 既存手法では,単一のソースドメインで学習された固定的なプロンプトがボトルネックとなり,ドメイン間の意味ずれが生じやすい。
- ドメイン固有の特性を考慮し,視覚的・テキスト的特徴間の意味的整合性を高めることで汎化性能を向上させる。
- 提案手法DPMFormerは,ドメインを意識したプロンプト学習とコントラスティブ学習により,多様なドメイン特性を捉える。
- また,テクスチャ擾乱とドメインロバスト性の一貫性学習により,環境変化への耐性を強化する。
- 複数のDGSSベンチマークにおいて,最先端の結果を達成し,提案手法の有効性が示された。
ライブアバター:無限長のリアルタイム音声駆動アバター生成 [cs.CV]目的:リアルタイム音声駆動アバターの効率的かつ高忠実度な生成
- 動画生成技術はエンターテインメントやコミュニケーションなど,多様な分野で重要性を増している。
- 従来の拡散モデルに基づく動画生成は,逐次処理と長期間の一貫性の問題により,リアルタイム処理が困難であった。
- 本研究は,大規模拡散モデルを用いたリアルタイムアバター生成の実現を目指す。
- 提案手法「Live Avatar」は,タイムステップ強制パイプライン並列化(TPP)により,複数のGPUで分散処理を行い,低遅延なリアルタイムストリーミングを実現した。
- ローリングシンクフレーム機構(RSFM)を導入することで,一貫性を維持し,IDのずれや色のアーティファクトを軽減することに成功した。
- 5基のH800 GPU上で,20 FPSのend-to-end生成を達成し,実用的なリアルタイム高忠実度アバター生成を可能にした。
D³-Predictor:高密度予測のためのノイズフリー決定論的拡散 [cs.DC, eess.SY, cs.SY, math.AP, math.OC, cs.CE, cs.CV, cs.AI]目的:高密度予測のためのノイズフリーかつ決定論的なフレームワークの構築
- 拡散モデルは強力な画像事前知識を持つが,その確率的なノイズが高密度予測の決定論的なマッピングと不適合である点が課題。
- 拡散サンプリングにおける確率的ノイズが空間的な手がかりを損ない,幾何学的構造のマッピングを歪める問題が存在する。
- 事前学習済み拡散モデルを確率的ノイズなしで再構築し,幾何学的構造の歪みを解消することを目指す。
- D³-Predictorは,事前学習済み拡散ネットワークをtimestep依存の視覚エキスパートの集合と捉え,それらの事前知識を統合することでノイズフリーな幾何学的事前知識を獲得する。
- タスク固有の教師データを用いて,このノイズフリーな事前知識を高密度予測タスクに適応させる。
- 様々な高密度予測タスクにおいて,競合する,あるいは最先端の性能を達成し,以前よりも少ないデータ量で単一ステップで効率的な推論が可能である。
データ効率の良い知覚を実現するための生成の必要性 [cs.CV, cs.LG]目的: compositional generalization (構成的一般化) を通じた,人間レベルの視覚知覚における生成の必要性の検証
- 人間の視覚知覚は生成的なアプローチが不可欠と考えられており,そのメカニズム解明はAI分野の進歩に繋がる。
- 既存の高性能な視覚モデルは非生成的であり,構成的一般化能力に課題があることが知られている。
- エンコーダーに適切な帰納バイアスを課すことの理論的限界を明らかにし,生成モデルの優位性を示す。
- 理論的に,エンコーダーに構成的一般化に必要な帰納バイアスを課すことは一般的に不可能であることが示された。
- 一方,生成モデルでは,デコーダーに適切な帰納バイアスを課すことで,構成的一般化が容易に実現される。
- 実験的に,生成モデルは追加のデータや教師なしで,構成的一般化において非生成モデルを上回る性能を示した。
合理性の錯覚:最先端LLM交渉ゲームにおける暗黙のバイアスと戦略的優位性 [cs.GT, cs.MA]目的:最先端LLMの交渉戦略
- 経済,政治,社会における交渉場面でLLMの利用が増加しており,その戦略的行動の理解は重要である。
- LLMの交渉戦略が十分に理解されていないため,リスクが存在する。
- LLMの交渉におけるバイアスや戦略的優位性を明らかにし,その問題を軽減するメカニズムの開発を促す。
- 実験の結果,LLMは最適な行動に収束せず,モデル固有の戦略的均衡に落ち着くことが明らかになった。
- 初期提案が最終合意を強く予測し,多様な内部評価を画一的な価格に落とし込むバイアスが確認された。
- 一部のLLMが他のモデルよりも高い報酬を得るという支配的なパターンが観察され,懸念が示唆された。
心の内部での推論:潜在空間における動的なマルチモーダル相互作用 [cs.RO, cs.CY, cs.CV, cs.CL]目的:マルチモーダル大規模言語モデルにおける潜在的思考トークン最適化と動的視覚特徴注入による推論能力の向上
- マルチモーダル理解は,人間のように視覚情報と言語情報を統合し推論するAIの実現に不可欠である。
- 既存手法は段階的な推論に依存し,推論と知覚の相互作用が不安定で計算コストが高いという課題がある。
- 人間の認知に着想を得て,推論と知覚を動的に相互作用させることで,効率的かつ堅牢な推論を目指す。
- 提案手法DMLRは,7つのマルチモーダル推論ベンチマークにおいて,推論性能と知覚性能を大幅に向上させることを示した。
- DMLRは,自信度に基づいた潜在的方策勾配最適化により,潜在的思考トークンを洗練させ,深い推論を実現する。
- 動的視覚特徴注入戦略により,関連性の高い視覚特徴を動的に選択し,テキストとの相互作用を促進することで推論精度を高める。
音声認識と大規模言語モデルを用いた音声対話アクションシステムの適応型エッジクラウド推論 [cs.SD, cs.AI]目的:音声対話アクションシステムの性能とシステムリソース利用のバランス
- IoTデバイスの制御において,音声インタラクションは自然で直感的な手段として重要性が高まっている。
- エッジデバイスでは,クラウドの高性能性と低遅延性・プライバシー保護を両立することが課題である。
- システム状態に応じて推論経路を動的に切り替えることで,ロバストかつ効率的な音声制御を目指す。
- 提案手法ASTAは,エッジとクラウド間の推論を動的に切り替えることで,全ての入力コマンドを確実に実行可能にした。
- ASTAは,オンライン推論とオフライン推論のバランスの取れた分布を実現し,ASRの認識精度は62.5%であった。
- コマンドの修復機構は,入力の47.5%で不要であったが,システムの堅牢性を向上させる上で重要な役割を果たすことが示された。
VLCache:2%のビジョン・トークン計算と98%の再利用による視覚言語推論 [cs.RO, cs.CV]目的:視覚言語推論におけるキャッシュ再利用フレームワーク
- 大規模言語モデルと画像処理の融合が,AI分野で重要な課題となっている。
- 多Modal入力の再計算は計算コストが高く,推論速度のボトルネックとなる。
- キャッシュ再利用による計算効率の向上と精度維持を目指す。
- VLCacheは,KVキャッシュとエンコーダキャッシュを効率的に再利用する。
- 再計算が必要なトークン数を2-5%に抑え,推論速度を1.2倍~16倍に向上させた。
- フル再計算と同等の精度を維持しつつ,実用的なデプロイメントに貢献する。
オープンボキャブラリ時代における教師なし変化検出の新手法UniVCD [cs.CV, cs.AI]目的:オープンボキャブラリ変化検出の新しいアプローチ
- 都市開発や環境モニタリングにおいて,変化検出は重要な役割を担う技術である。
- 既存手法は教師あり学習に依存し,データセットへの依存度が高く,アノテーションコストが課題である。
- ラベルなしデータやペア画像なしで,多様なシーンにおける変化検出を実現すること。
- UniVCDは,凍結されたSAM2とCLIPを活用し,カテゴリに依存しない変化検出を可能にする。
- 軽量な特徴量アライメントモジュールにより,高解像度で意味的に認識可能な変化推定を実現する。
- 複数のベンチマークにおいて,UniVCDは既存手法と同等またはそれ以上の性能を示す。
悪天候下におけるマルチモーダル3D物体検出のための拡散ベース復元 [cs.CV, cs.AI]目的:悪天候下でのマルチモーダル3D物体検出のロバスト性の向上
- ロボティクスや自動運転において,信頼性の高い知覚を実現するために重要である。
- 悪天候時の歪みや,異なるデータモダリティ間のずれにより,性能が制限される。
- 拡散ベース復元と適応的クロスモーダル融合により,悪天候下での課題を解決する。
- DiffFusionは,画像とLiDARデータの両方を復元することで,悪天候下でのロバスト性を向上させる。
- Bidirectional Adaptive Fusion and Alignment Module (BAFAM) により,モダリティ間のずれを解消し,空間的な整合性を維持する。
- 3つの公開データセットで最先端の性能を示し,実世界のDENSEデータセットでも汎化性能を実証した。
DisCo-Speech:分離された音声コーデックを用いたゼロショット制御型音声生成 [cs.SD]目的:制御可能なゼロショット音声生成の実現
- 音声合成技術は,人間とコンピュータの自然な対話を可能にする基盤技術である。
- 従来のコーデックは音色と韻律を強く結びつけており,独立した制御が困難である。
- コーデックレベルでの分離により,柔軟な音声制御を実現することを目指す。
- DisCo-Speechは,音色と韻律を分離するDisCodecとLMベースの生成器により,ゼロショット制御型TTSを実現した。
- 最先端の音声クローニング性能と同等であり,ゼロショット韻律制御において既存手法を上回る結果を示した。
- コーデックレベルでの分離により,制御可能な音声合成のための堅牢な基盤を提供する。
ビデオ現実テスト:AI生成ASMR動画はVLMと人間を欺けるか [cs.CV]目的:AI生成動画の知覚的リアリズムの評価
- 動画生成技術の進歩により,現実と区別がつかない動画が出現し,社会的な課題となっている。
- 既存のAIGC検出基準は,音声を含まず,広範な領域を対象とし,分類に焦点を当てている。
- VLMと人間に対するAI生成動画の欺瞞性を,音声と映像の緊密な結合下で検証する。
- 最先端の動画生成モデルVeo3.1-Fastは,多くのVLMを欺くことが示された。Gemini 2.5-Proの正答率は56%にとどまる。
- 音声を追加することで,真偽の識別は向上するが,ウォーターマークなどの表面的な手がかりがモデルを誤らせる可能性がある。
- 本研究は,動画生成の現実性の限界を示し,VLMの知覚的忠実性および音声と映像の一貫性における限界を明らかにする。
堅牢なAAV着陸のための専門家切り替え:シミュレーションにおける二重検出器フレームワーク [cs.RO, cs.CV]目的:AAV着陸におけるヘリパッド検出の信頼性向上
- 自動飛行の安全な着陸には,正確なヘリパッド検出が不可欠である。
- 単一モデルでは,着陸時のスケール変化に対応したロバスト性を確保できない。
- スケールに適応した二重専門家システムによる,高精度なヘリパッド検出を目指す。
- 二つのYOLOv8専門家モデルを,遠距離と近距離のスケールに特化して訓練した。
- 提案手法は,従来の単一検出器よりも着陸の安定性,精度,ロバスト性を大幅に向上させた。
- 視覚情報に基づく自律降下のための,レジリエントな知覚システムの基盤を確立した。
3Dシーン理解のための統合的な意味的Transformer [cs.CV]目的:3Dシーン理解における多様なタスクの統合
- 現実世界の複雑な環境を解析する上で,3Dシーン理解は不可欠である。
- 既存モデルは特定のタスクに特化しており,汎用性に欠ける点が課題である。
- 単一のモデルで多様な3D意味的タスクを処理し,汎用的な理解を目指す。
- 提案手法UNITEは,RGB画像から3Dシーンセグメンテーション,インスタンス埋め込み,アフォーダンスなどを直接予測する。
- 2D蒸留と自己教師あり学習,多視点損失を用いることで,3Dの一貫性を確保している。
- 複数の意味的タスクで最先端の性能を達成し,場合によっては正解3D形状を用いる手法をも上回る。
Null-LoRA:Null空間における低ランク適応 [cs.CL, cs.CL, cs.CV]目的:大規模モデルのダウンストリームタスクへの適応
- 大規模言語モデルの活用が広がり,特定タスクへの適応が重要になっている。
- 従来のファインチューニングは計算コストが高く,効率的な手法が求められている。
- Null空間に着目し,パラメータ効率の良い適応手法を開発すること。
- 提案手法Null-LoRAは,低ランク行列の一部を固定することで冗長性を低減し,効果的なランクを向上させている。
- 更新量をNull空間に制約することで,パラメータ効率を最大化し,新しいタスクへの適応能力を高めている。
- 画像-テキスト検索と視覚的質疑応答タスクにおいて,より少ないパラメータで最先端の性能を達成した。
橋梁の3Dセマンティックセグメンテーションのためのデータセットとドメインギャップ分析 [cs.CE, cs.CV]目的:橋梁の3Dセマンティックセグメンテーションとドメインギャップの評価
- 社会インフラの維持管理は重要であり,その自動化が求められている。
- センサーの種類によるデータ特性の違いが,セグメンテーション精度に影響を与える。
- 多様なセンサーデータを用いたドメインギャップの定量化と対策を検討する。
- 提案データセットを用いて既存の3D深層学習モデルを評価した結果,良好な性能が確認された。
- しかし,センサーの違いによるドメインギャップが最大11.4%のmIoU低下を引き起こす可能性があることが示された。
- 本研究は,橋梁の構造健全性監視の自動化に貢献し,インフラ管理の効率化に繋がる。
様式化された合成データ拡張がロバスト性向上に貢献 [cs.HC, cs.CV, cs.LG]目的:深層画像モデルの一般的な破損に対する脆弱性に対処するための訓練データ拡張パイプライン
- 画像認識技術は様々な分野で応用が広がっているため,その信頼性確保が重要である。
- 深層学習モデルは,ノイズや破損に対して脆弱であり,そのロバスト性向上が課題となっている。
- 合成データとスタイル変換を組み合わせることで,モデルの破損に対する耐性を高めることを目指す。
- スタイル変換を施した合成画像は,FID指標では品質が低下するが,モデル訓練には有効であることが示された。
- 本手法は,既存のデータ拡張技術と組み合わせることで,相乗効果を発揮し,高いロバスト性を実現する。
- CIFAR-10-C, CIFAR-100-C, TinyImageNet-Cにおいて,最先端のロバスト精度を達成した。
説得の堅牢な管理:割当規則の最適性 [econ.TH, cs.GT]目的:説得における割当規則の最適性
- 意思決定において,情報提供者からの助言は重要であり,その質が結果を左右する。
- 情報提供者の意図や利用可能な情報構造が不確実な場合,適切な意思決定が困難となる。
- 不確実性下における堅牢な意思決定規則の特定と,その最適化を目指す。
- 本研究では,最適な意思決定規則は常に割当規則であることが示された。
- この結果は,max-min utility,min-max regret,min-max competitive ratioといった様々な評価指標においても同様に成立する。
- この枠組みは,助言を求める意思決定者が情報提供者の意図を考慮する状況に適用可能である。
小さな無彩色フィードバック遅延ネットワークの最適化 [eess.AS, cs.SD]目的:人工響響アルゴリズムにおける音色の偏りの低減
- 人工響響は,音楽や音響空間のリアルな再現に不可欠であり,その品質が重要である。
- 従来の遅延ネットワーク方式では,遅延ライン数が少ないと,金属的な響きが生じやすいという課題がある。
- 少ない遅延ライン数でも,音色の偏りを効果的に低減する手法を開発することを目指す。
- わずか4本の遅延ラインを持つ微分可能なフィードバック遅延ネットワークを最適化するフレームワークを提案した。
- スペクトル平坦性を最大化し,パラメータ値の疎性を抑制することで,音色の偏りを効果的に低減できることが示された。
- 主観評価の結果,提案手法は後期残響の知覚的な音色の偏りを軽減することが確認された。
構造を考慮した拡散モデルによる3D微細な医用画像合成 [eess.IV, cs.CV]目的:3D微細な医用画像合成のための構造を考慮した拡散モデル
- 医用画像解析の発展には,十分なデータが必要であり,データの不足は重要な課題である。
- 既存の生成モデルは,臓器全体や大規模な組織構造の合成に偏っており,微細な解剖学的詳細の再現が困難である。
- 本研究は,複雑なトポロジー構造を維持しつつ,微細な解剖学的詳細を高精度に生成することを目指す。
- StructDiffは,従来のマスクベースのガイダンスに加え,画像-マスクテンプレートペアを利用することで構造的制約を導入する。
- マスク生成モジュール(MGM)を設計し,マスクの多様性を高め,高品質な参照マスクの不足を緩和する。
- スキップサンプリング分散(SSV)に基づいた確信度に基づいた適応学習(CAL)戦略により,合成データの不確実性を低減し,下流タスクの性能を向上させる。
TransUNet-GradCAM:自己注意機構と説明可能な可視化を用いたハイブリッドTransformer-U-Netによる足部潰瘍セグメンテーション [eess.IV, cs.CV]目的:糖尿病性足部潰瘍の自動セグメンテーション
- 足部潰瘍は臨床診断,治療計画,および経過観察において重要な役割を果たすため,その自動化が求められている。
- 潰瘍領域の多様な外観,不規則な形状,複雑な背景により,正確なセグメンテーションは依然として困難である。
- 本研究は,TransformerとU-Netを組み合わせることで,足部潰瘍のセグメンテーション精度向上と臨床応用を目指す。
- 提案手法は,公開データセットFUSegにおいて,Dice係数0.8886を達成した。
- 外部検証では,AZH Wound Care Centerデータセットで0.6209,Medetecデータセットで0.7850のDice係数を実現し,高い汎化性能を示した。
- 予測された潰瘍面積と実際の面積の間には強い相関関係(Pearson r = 0.9749)が認められ,臨床的有用性が示唆された。
チーム・ウェストウッド解法:MIDOG 2025 チャレンジにおけるアンサンブルCNNベースの有糸分裂検出・分類 [math.OC, cs.SY, eess.SY, eess.IV, cs.CV]目的:有糸分裂の検出と分類
- 病理診断において,細胞分裂の正確な検出は癌の進行度合いを評価する上で重要である。
- 画像解析における汎化性能,特に異なるデータセット間での性能維持が課題である。
- 異なるCNNモデルを組み合わせることで,よりロバストな検出・分類を目指す。
- 予備テストセットにおいて,有糸分裂検出のF1スコアは0.7450,非典型有糸分裂分類のバランスアキュラシーは0.8722を達成した。
- 最終テストセットでは,有糸分裂検出のF1スコアは0.6972,非典型有糸分裂分類のバランスアキュラシーは0.8242であった。
- アンサンブル学習により,複数モデルの利点を組み合わせ,高い性能を維持した。
少数の弱教師ありデータによる眼底画像からの視神経円板およびカップ領域のセグメンテーションのためのメタ学習器 [eess.IV, cs.AI, cs.CV]目的:緑内障診断のための視神経円板(OD)および視神経カップ(OC)セグメンテーションにおける,少数の弱教師ありセグメンテーション(FWS)のためのメタ学習器の開発
- 緑内障は世界的に失明原因の主要なものであり,早期発見と正確な診断が重要である。
- 眼底画像の正確なセグメンテーションには大量のラベル付きデータが必要であり,アノテーションコストが高い。
- ラベル付きデータが限られた状況でも高精度なセグメンテーションを実現することを目的とする。
- 提案手法であるEfficient Omni ProtoSeg (EO-ProtoSeg)は,REFUGEデータセットにおいて,わずか1枚の疎なラベル付き画像のみで,ODのIoUスコア88.15%,OCのIoUスコア71.17%を達成した。
- EO-ProtoSegは,より多くのラベル付き画像が必要な少数の教師あり学習法や半教師あり学習法と比較して,優れた性能を示した。
- EO-ProtoSegは,200万パラメータ未満と軽量であり,再学習を必要としないため,教師なしドメイン適応法と同等の性能を持ちながら,計算コストを抑えることができる。
