arXiv雑要約

画像・音声 - 2026/03/10 公開

  • 階層型辞書に基づくエントロピーモデリングによる学習画像圧縮 (Kaishō-gata jisho ni motomu entrōpī moderuringu ni yoru gakushū gazō asshuku) [eess.IV, cs.CV, cs.MM]目的:学習画像圧縮におけるエントロピーモデリングの効率向上
    • 画像圧縮はデータ容量削減に不可欠であり,高効率化が求められている。
    • 既存手法では,外部データの持つ豊富な事前情報を十分に活用できていない。
    • 階層型辞書と文脈認識パラメータ推定器により,効率的な情報利用を目指す。
    • 提案手法HiDEは,KodakデータセットでVTM-12.1に対し18.5%のBDレート削減を達成した。
    • CLICデータセットでは21.99%,Tecnickデータセットでは24.01%のBDレート削減を示した。
    • 階層型辞書と文脈認識推定器が,効果的な外部事前情報の活用を可能にした。

    Link: https://arxiv.org/abs/2603.06766

  • 重裾評価下における二国間貿易:無限分散に対するミニマックス後悔 [stat.ML, cs.GT, cs.LG]目的:重裾評価を持つ二国間貿易におけるミニマックス後悔の分析
    • 市場メカニズム設計において,参加者の評価分布の形状は効率的な取引に大きく影響する。
    • 従来の理論では,評価の分散が有限であることが前提とされており,無限分散の場合の分析は不足している。
    • 本研究は,評価に無限分散を持つ場合の最適な取引戦略と限界を明らかにすることを目指す。
    • 評価の密度が有界である場合に,価格の期待後悔が価格と最適な価値の差の二乗に比例することが示された。
    • ノイズのp次モーメントと市場価値関数の滑らかさの度合いに応じて,エポックベースアルゴリズムの後悔率の上界と下界が導出された。
    • 得られた結果は,pの値が1から2に近づくにつれて,最適な後悔率が非パラメータレートから線形レートへ変化することを示している。

    Link: https://arxiv.org/abs/2603.06851

  • 隠蔽された不公平性:ゼロATEにおける因果性の隠蔽 [stat.ML, cs.AI, cs.GT, cs.LG, cs.SI]目的:因果的隠蔽問題の能力と限界の評価
    • 公平性の評価において,因果推論の重要性が高まっている。社会的な公平性を担保するためには不可欠である。
    • 平均処置効果(ATE)に基づく規制では,不公平な扱いを招く可能性がある。
    • ATEに基づいた規制下での最適化が,不当な差別を助長する可能性を明らかにする。
    • 因果的隠蔽は,交絡によって真の公平性と乖離することが示された。
    • 因果的隠蔽された解を検出することは統計的・情報理論的に困難であり,長期にわたって存在しうる。
    • モデルレベルでの公平性規制の必要性が示唆される。

    Link: https://arxiv.org/abs/2603.06984

  • Vocosによる高速かつ柔軟なオーディオ帯域拡張 [eess.AS, cs.LG, cs.SD]目的:オーディオ帯域拡張のモデル
    • 音声技術はコミュニケーションやエンターテインメントにおいて不可欠であり,高品質な音声処理が求められる。
    • 低帯域の音声から高帯域を復元する帯域拡張は,計算コストが高い,品質が低いなどの課題がある。
    • Vocosを用いて,実用的な速度と品質で帯域拡張を実現すること。
    • 提案手法は,8kHzから48kHzまでのオーディオを高品質に拡張し,競合する手法と同等の性能を示す。
    • NVIDIA A100 GPU上では0.0001,8コアCPU上では0.0053というリアルタイム係数で動作し,高速処理を実現する。
    • 軽量なリファインナーにより,元の低帯域と生成された高帯域をスムーズに統合し,自然な音声合成を可能にする。

    Link: https://arxiv.org/abs/2603.07285

  • 報酬の提示は必ずしも空間ゲームにおける信頼を促進しない [cond-mat.stat-mech, cs.GT, nlin.CG]目的:空間ゲームにおける信頼の進化に関するメカニズム
    • 信頼は人間社会の基盤であり,進化の過程で重要な役割を果たしてきた。
    • 空間信頼ゲームにおける報酬の役割は,十分には解明されていない。
    • 報酬が信頼の進化に与える影響を明らかにすること。
    • 報酬の導入は必ずしも信頼を促進せず,過剰な報酬は裏切り戦略を誘発する。
    • 適度な報酬は不信感を抑制し投資を促進するが,報酬コストが低い場合は効果が限定的である。
    • 高コストだが過剰でない報酬は,投資の優位性を高め,信頼の進化を促進する。

    Link: https://arxiv.org/abs/2603.07328

  • 課題学習はサル視覚皮質の神経応答における情報冗長性を増加させる [q-bio.QM, cs.HC, q-bio.NC, q-bio.NC, cs.CV]目的:課題学習における神経情報の最適化機構の解明
    • 脳は効率的な意思決定のため,感覚情報を最適化する必要がある。
    • 神経表現における冗長性の変化が,効率性向上にどのように寄与するのか不明である。
    • 課題学習が神経応答の冗長性に及ぼす影響を明らかにすること。
    • 課題学習は,サルV4皮質の神経応答における冗長性を数週間にわたって増加させた。
    • この冗長性の増加は,情報量を減少させるのではなく,個々のニューロンの情報量を増加させた。
    • これらの結果は,脳の感覚処理が識別推論ではなく生成推論を反映することを示唆する。

    Link: https://arxiv.org/abs/2603.07369

  • 現実環境における音声強調モデルの軽量適応 [eess.AS, cs.AI, cs.LG, cs.SD]目的:音声強調モデルの現実環境下での適応手法
    • 音声強調は,雑音環境下での音声明瞭度向上に不可欠であり,様々な応用分野で重要性が高まっている。
    • 既存の適応手法は計算コストが高く,デバイス上での実装が困難であるという課題が存在する。
    • 本研究は,低コストで効率的な音声強調モデルの適応を実現し,デバイス上での利用を可能にすることを目指す。
    • 提案手法は,基盤モデルの1%未満のパラメータを更新しながら,平均1.51dBのSI-SDR改善を達成した。
    • 実環境における様々な騒音条件下で,スムーズかつ安定した収束性を示し,優れた知覚品質を実現した。
    • これにより,現実環境下での音声強調モデルの軽量なオンデバイス適応の実現可能性が示された。

    Link: https://arxiv.org/abs/2603.07471

  • DualTurn:二重チャネル生成音声事前学習による会話のターンテイキング学習 [eess.AS, cs.CL, cs.SD]目的:会話のターンテイキングの学習
    • 音声対話システムの自然な会話を実現するためには,適切なターンテイキングが不可欠である。
    • 既存システムは,ツール呼び出しや複雑な推論能力と自然なターンテイキングを両立できていない。
    • 二重チャネルの会話音声を用いた生成事前学習により,この課題を解決することを目指す。
    • DualTurnは,会話の双方の発話を同時予測することで,明示的なラベルなしに会話のダイナミクスを学習する。
    • エージェントのアクション予測において,既存のVAPよりも高い性能(wF1 0.633 vs. 0.389)を示す。
    • また,単語レベルのターン予測においても,3.1Bの音声テキストモデルを上回り,より早いターン境界の予測と中断の削減を実現した(AUC 0.930 vs. 0.880)。

    Link: https://arxiv.org/abs/2603.08216

  • 膠質腫患者に対する放射線治療前MRIからの術後脳MRI予測のための修正フローベース予測 [eess.IV, cs.CV]目的:放射線治療前MRIと線量分布に基づき,膠質腫患者の術後脳MRIを予測するAIモデルの開発
    • 脳腫瘍は平均して20年の寿命短縮を引き起こす。MRIによる構造変化のモニタリングが重要である。
    • 標準治療は脳に複雑な構造変化をもたらし,その正確な予測が困難である。
    • 治療最適化のため,放射線治療後の脳の変化をリアルにモデル化し予測することを目指す。
    • 提案モデルは,治療情報と統合した,任意の時点の術後MRIを生成できる。
    • 実画像と予測画像の比較では,SSIMが0.88,PSNRが22.82であった。
    • 実画像と予測画像からの組織セグメンテーションの平均Dice係数は0.91であった。

    Link: https://arxiv.org/abs/2603.08385

  • 統計的学習を用いたロバストな複数品目オークション設計 [cs.GT, stat.ML]目的:複数品目オークションにおける,統計的学習に基づく設計手法
    • オークションは資源配分の効率的な手段であり,現代経済において重要な役割を担う。
    • 入札者のタイプを正確に推定することは困難であり,オークション設計のボトルネックとなっている。
    • 信頼区間を用いた効率的な入札者スクリーニングと分布の簡略化により,実装コスト削減を目指す。
    • 提案手法は,信頼区間を利用した入札者価値領域のスクリーニングと分布の簡略化により,実装コストを削減する。
    • シミュレーション実験の結果,提案手法は既存手法と比較して収益最大化とコスト削減の両面で優れた性能を示す。
    • 提案手法は,公平性,支配戦略インセンティブ適合性,支配戦略個別合理性を高い確率で保証する。

    Link: https://arxiv.org/abs/2302.00941

  • クラスの圧倒:相互条件付きブレンドターゲットドメイン適応 [cs.CV]目的:ブレンドターゲットドメイン適応における性能向上
    • ドメイン適応は,異なるデータ分布間で学習モデルの汎化性能を高める上で重要である。
    • 既存手法はターゲットの特徴構造を十分に活用できず,ラベル分布のシフトに弱い。
    • カテゴリ分布の整合化と,ソース特徴の多様性向上による分類器の改善を目指す。
    • 本研究では,ドメインラベルを用いなくてもカテゴリ分布を整合化することで,高い性能が達成された。
    • 不確実性を考慮したカテゴリドメイン識別器により,カテゴリ分布の明示的なモデル化と整合化を実現した。
    • ソース特徴にターゲットの多様なスタイルを付加し,バイアスのある分類器を修正することで性能が向上した。

    Link: https://arxiv.org/abs/2302.01516

  • RGB-D異常検知のためのマルチスケール蒸留:PD-REALデータセットでの研究 [cs.CV]目的:3D領域における教師なし異常検知のための大規模データセットとマルチスケール蒸留フレームワーク
    • 画像認識分野において,異常検知は品質管理や安全確保において不可欠な技術である。
    • 従来の2D画像のみによる異常検知は,照明条件や撮影角度に依存し,幾何学的構造の異常を捉えにくいという課題があった。
    • 本研究では,安価で拡張性が高く,制御可能な3Dデータセットを構築し,マルチスケール蒸留による異常検知の精度向上を目指す。
    • PD-REALデータセットは,15種類のオブジェクトカテゴリーに対して,様々な異常(へこみ,ひび割れ,穿孔など)を含むPlay-Dohモデルで構成される。
    • 提案手法は,マルチスケール蒸留フレームワークにより,グローバルな文脈とローカルな特徴を効果的に統合し,より高精度な異常検知を可能にする。
    • 実験結果から,提案手法は既存の異常検知アルゴリズムと比較して,高い検出精度を示すことが確認された。

    Link: https://arxiv.org/abs/2311.04095

  • カメラ認識型Jaccard距離:人物再識別への応用 [cs.CV]目的:人物再識別におけるJaccard距離の信頼性向上
    • 人物再識別は,監視カメラ等による人物特定に不可欠な技術であり,その精度向上が求められている。
    • 従来のJaccard距離は,カメラ間の差異の影響を受けやすく,人物再識別の精度を低下させる要因となっている。
    • カメラ情報を活用することで,Jaccard距離の信頼性を高め,より正確な人物再識別を実現することを目指す。
    • 提案手法CA-Jaccard距離は,カメラ情報を考慮したk-最近傍探索により,信頼性の高い近傍サンプルを抽出する。
    • カメラ情報を制約として活用するローカルクエリ拡張により,近傍サンプルの信頼性を更に向上させ,Jaccard距離の精度を高める。
    • 実験結果から,CA-Jaccard距離が既存手法と比較して,人物再識別の性能を向上させることが示された。

    Link: https://arxiv.org/abs/2311.10605

  • ディープフェイクの生成と検出:ベンチマークとサーベイ [cs.HC, cs.CV]目的:ディープフェイクの生成および検出技術の現状と課題
    • エンターテイメント分野等への応用が期待される一方,悪用によるリスクも存在する。
    • プライバシー侵害やフィッシング詐欺といった悪用を防ぐ技術の進展が求められる。
    • ディープフェイク生成・検出技術の最新動向を整理し,今後の研究方向性を示す。
    • 生成技術として,Variational Autoencoders,Generative Adversarial Networks,Diffusion Models等の発展が確認された。
    • 代表的な手法を主要なデータセットで評価し,性能を詳細に比較検討した。
    • 顔の入れ替え,表情の書き換え,しゃべる顔の生成,顔属性編集といった分野の課題と将来展望を分析した。

    Link: https://arxiv.org/abs/2403.17881

  • 顔認証のためのゴルディロックス・テストセット [cs.CV]目的:顔認証システムの弱点を発見するための新たなテストセットの提案
    • 顔認証技術はセキュリティや利便性向上に不可欠であり,その性能評価は重要な課題である。
    • 既存のテストセットでは,顔認証の精度が頭打ちになっており,より現実的な評価が求められている。
    • 顔属性の変化,類似人物の識別といった既存アルゴリズムの弱点を明らかにするテストセットを構築する。
    • 提案されたテストセットは,既存のテストセットと同等かそれ以上の難易度を示すことが示された。
    • HadrianとEclipseは顔の毛や露出の違いに対する弱点を,ND-Twinsは類似人物の識別に対する弱点を検証する。
    • テストセットの構築には,難易度の調整,公平性の確保,データ重複の抑制といったルールが導入された。

    Link: https://arxiv.org/abs/2405.15965

  • 拡散モデルの少数ショットファインチューニングにおける破損段階の探求とベイズニューラルネットワークによる軽減 [cs.CV, cs.AI, cs.LG]目的:拡散モデルの少数ショットファインチューニングにおける破損段階の解明と,ベイズニューラルネットワークを用いた軽減策の提案
    • 拡散モデルは,高品質な画像生成を可能にし,AI応用の幅を広げる重要な技術である。
    • 少数ショットファインチューニングは効率的だが,生成画像の品質が一時的に悪化する現象が課題であった。
    • 学習分布の狭窄が破損段階の原因であると考え,それをベイズニューラルネットワークで緩和する。
    • 本研究では,拡散モデルのファインチューニング中に発生する画像品質の一時的な劣化現象(破損段階)を理論的にモデル化し,その原因を特定した。
    • ベイズニューラルネットワークを適用することで,学習分布を広げ,破損段階を効果的に軽減できることを示した。
    • 提案手法は,オブジェクト駆動型およびサブジェクト駆動型の生成タスクにおいて,生成画像の品質,多様性を向上させる。

    Link: https://arxiv.org/abs/2405.19931

  • RDM:人間のモーション生成のための再帰的拡散モデル [cs.CV]目的:人間のモーション生成
    • モーション生成は,人間と機械のインタラクションにおいて不可欠であり,多様な応用が期待される。
    • 高次元データへの対応と,細かなモーション生成の困難さが課題となっていた。
    • 計算コストを抑えつつ,長時間のモーションを生成できる手法の開発を目指す。
    • RDMは,自己回帰的ベースラインと同等の性能を達成した。
    • テキストとの整合性を保ちながら,長時間のモーションを生成できることを示した。
    • 推論時に拡散ステップをスキップすることで,計算コストを大幅に削減した。

    Link: https://arxiv.org/abs/2406.07169

  • プロンプタブルセグメンテーションにおける手動プロンプト依存性の軽減に向けた幻覚の活用 [cs.CV]目的:プロンプタブルセグメンテーションにおける手動プロンプト依存性の軽減
    • 画像認識分野において,特定の物体を正確に分割することは重要な課題である。
    • 従来のプロンプタブルセグメンテーションは,物体ごとに手動プロンプトが必要となり,手間がかかる。
    • 大規模言語モデルの幻覚を有効活用し,より正確なプロンプトを生成することで,この問題を解決する。
    • 本研究では,幻覚を利用して画像からタスク関連情報を抽出し,生成されるプロンプトの精度向上を図るProMaCフレームワークを提案する。
    • ProMaCは,プロンプト生成器とマスク生成器を反復的に連携させることで,タスクに合わせたプロンプトとマスクの精度を同時に高める。
    • 5つのベンチマークデータセットでの実験により,ProMaCの有効性が示された。

    Link: https://arxiv.org/abs/2408.15205

  • 声帯麻痺の診断支援のための多角的な喉頭鏡ビデオ解析 [cs.SD, cs.AI, eess.AS]目的:声帯麻痺の診断支援システム開発
    • 喉頭鏡検査は,声帯機能評価の重要な手段であり,早期発見・治療に不可欠である。
    • 検査者の熟練度によって診断のばらつきが生じ,客観的な評価が課題となっている。
    • 音声と映像を統合し,客観的かつ効率的な診断支援を実現することを目的とする。
    • 本研究で開発したMLVASは,音声と映像の両方から有効な特徴量を抽出し,声帯麻痺の検出能を高める。
    • 拡散モデルを用いたセグメンテーションモジュールは,誤検出を低減し,より正確な声帯マスクを生成する。
    • 臨床データを用いた実験では,MLVASが信頼性の高い客観指標および可視化を提供し,診断支援に貢献できることが示された。

    Link: https://arxiv.org/abs/2409.03597

  • 透明物体の操作のための深度知覚向上:ClearDepth [cs.RO, cs.CV]目的:透明物体の立体深度復元
    • ロボットの認識能力向上には,現実世界での正確な奥行き情報の把握が不可欠である。
    • 透明または反射性の物体では,従来の3Dセンサーによる正確な深度計測が困難である。
    • ロボットマニピュレーションを支援するための,透明物体の高精度な深度マップの作成。
    • 本研究では,ビジョンTransformerに基づく透明物体の立体深度復元アルゴリズムを開発した。
    • 画像内の構造的特徴を活用する特徴ポストフュージョンモジュールにより,深度復元の精度が向上した。
    • シミュレーションと現実世界のデータ間のドメイン適応により,実環境での汎用性が確認された。

    Link: https://arxiv.org/abs/2409.08926

  • 単一画像からの汎用的な3D顔生成 [cs.RO, cs.HC, cs.CV]目的:単一画像からの3D顔アバター生成
    • 現実世界の様々な視覚・グラフィックス応用において,3D顔モデルの作成は不可欠である。
    • 既存手法は顔に特化していないか,制約された学習ドメインからの汎化に失敗する。
    • 制約のない顔画像から汎用的に3D顔を生成する手法を開発し,評価すること。
    • 提案手法Gen3D-Faceは,マルチビュー整合性のある拡散フレームワーク内で,単一画像から3D顔を生成する。
    • 入力画像から特定主体のメッシュを直接推定することで,汎化性能を維持しつつ顔形状情報を組み込む。
    • 様々なドメインの対象者に対して,単一画像からのフォトリアリスティックな3D顔アバター生成において,既存手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2409.16990

  • 視覚的プロンプティングによる視覚オブジェクト追跡の改善 [cs.CV, cs.AI, cs.MM, eess.IV]目的:汎用オブジェクト追跡における視覚的プロンプティングの有効性
    • 画像認識技術は,自動運転やロボット工学など,様々な分野で不可欠である。
    • 追跡対象と背景の識別が困難であり,特に類似オブジェクトが多い場合に課題となる。
    • 事前学習済みモデルを活用し,動的にプロンプトを生成・更新することで追跡精度を向上させる。
    • PiVOTは,CLIPのような事前学習済みモデルを用いて視覚プロンプトを自動生成・洗練させる。
    • これにより,追跡対象と背景の区別が明確になり,不要な情報を抑制することが可能となる。
    • 複数のベンチマークテストの結果,PiVOTは追跡性能を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2409.18901

  • ポーズ事前学習器:ポーズ推定のための教師なしカテゴリカル事前学習 [cs.CV]目的:ポーズ推定のためのカテゴリカル事前知識の教師なし学習
    • ポーズ推定において,事前知識は推論や意思決定を支援する重要な要素である。
    • ポーズ推定における有効な事前知識の獲得は困難であり,アノテーションコストも高い。
    • 本研究は,人間によるアノテーションなしで,一般的なポーズ事前知識を学習することを目指す。
    • 提案手法PPLは,階層的メモリを用いてプロトタイプポーズの構成要素を記憶し,そこから汎用的なポーズ事前知識を抽出する。
    • PPLはテンプレート変換と画像再構成を通じてポーズ推定の精度を向上させ,既存手法を上回る性能を示す。
    • 特に,PPLは遮蔽された画像に対するポーズ推定において,学習したプロトタイプポーズの有効性を示す。

    Link: https://arxiv.org/abs/2410.03858

  • 拡散モデルとハイブリッド音声・テキストガイダンスによる表現力豊かな話者生成 [cs.SD, cs.CV, eess.AS]目的:表現力豊かな全身ジェスチャーの生成
    • 音声と連動した自然なジェスチャー生成は,人間とロボットのインタラクションにおいて重要な役割を果たす。
    • 既存手法は上半身のジェスチャーに偏り,感情や意味内容の伝達が不十分である。
    • テキストと音声を統合的に活用し,より自然で制御可能なジェスチャー生成を目指す。
    • ExpGestは,拡散モデルを用いて,テキストと音響情報を組み合わせた全身ジェスチャー生成を可能にする。
    • 感情分類器を活用することで,音声の歪みを抑制しつつ,指定された感情に沿ったジェスチャーを生成する。
    • テキストとジェスチャーを潜在空間で整合させることで,汎化性能の向上を実現した。

    Link: https://arxiv.org/abs/2410.09396

  • 二者間取引における最適な仲介メカニズム [cs.GT]目的:利潤最大化を目的とする仲介メカニズムの設計
    • 取引効率化は経済活動の根幹であり,その最適化は社会全体の利益に繋がる。
    • 従来のメカニズム設計は,情報の非対称性や参加者の利己性への対応が課題であった。
    • 利潤を追求する仲介者の行動を考慮した,最適な取引メカニズムを明らかにすること。
    • 仲介者は,二次元メニュー選択メカニズムに焦点を当てることで効率的なメカニズム設計が可能となることが示された。
    • インセンティブ整合性,服従性,情報量の同時達成は不可能であり,トレードオフの関係が明らかになった。
    • 売り手のコストが一定の場合,買い手のタイプに応じて取引閾値が変化するメカニズムが最適である。

    Link: https://arxiv.org/abs/2410.11683

  • 医学画像におけるモデリングと分類のための構造的表現の自己結合学習 [cs.CV, cs.LG]目的:医学画像における構造的表現の学習と分類
    • 医療現場での画像診断の精度向上は,患者の早期発見と適切な治療に不可欠である。
    • 深層学習は強力だが,特徴表現が滑らかで,人間の認識に近い明確な構造を捉えにくい。
    • 視覚素因子の再構成を通して構造的説明を学習し,診断精度と透明性を高める。
    • 提案手法は,組織学的画像における異常診断において,従来の深層学習モデルを上回る分類精度を示した。
    • 本手法は,画像を高レベルの構造的説明として捉えることで,より透明性の高い診断を実現する。

    Link: https://arxiv.org/abs/2411.12070

  • 拡散モデルにおける入力適応型生成ダイナミクス [cs.CV, cs.AI, cs.LG]目的:拡散モデルの入力適応型生成ダイナミクスの検討
    • 画像生成AIの性能向上は,多様な応用を可能にし,社会に大きな影響を与える。
    • 従来の拡散モデルは固定されたノイズ除去経路を用いるため,入力の違いに対応できない。
    • 入力に応じて生成過程を変化させ,効率的な画像生成を目指す。
    • 提案手法では,拡散モデルの生成過程を様々な水平線とノイズスケジュール下で学習させる。
    • これにより,入力に応じて生成ダイナミクスを調整し,高品質な画像を生成可能となった。
    • 条件付き画像生成実験の結果,サンプリングステップ数を削減できることが示された。

    Link: https://arxiv.org/abs/2411.15199

  • Prithvi-EO-2.0:地球観測アプリケーションのための多時間スケール汎用基盤モデル [cs.CV]目的:地球観測アプリケーションのための多時間スケール汎用基盤モデルの開発
    • 地球観測は,気候変動,環境モニタリング,資源管理など,地球規模の課題解決に不可欠である。
    • 既存の地球観測モデルは,解像度や適用範囲において制約があり,多様なタスクへの対応が困難であった。
    • 多様な地球観測タスクに対応可能な,高性能かつ汎用性の高い基盤モデルを提供することを目指す。
    • Prithvi-EO-2.0は,前モデルPrithvi-EO-1.0と比較して,GEO-Benchにおける性能が8%向上した。
    • 0.1mから15mまでの異なる解像度・ドメインにおけるリモートセンシングタスクにおいて,他の6つの基盤モデルを上回る性能を示した。
    • 災害対応,土地被覆マッピング,生態系動態モニタリングなど,多様な分野での応用可能性が示された。

    Link: https://arxiv.org/abs/2412.02732

  • iLLaVA:大規模マルチモーダルモデルにおいて,画像は1/3未満の入力トークンに相当する [cs.CV]目的:大規模ビジョン言語モデルの加速化
    • 近年,画像とテキストを扱うモデルの性能向上に伴い,計算コストが課題となっている。
    • 既存手法はLLM段階でのトークン削減に偏り,画像エンコーダのボトルネックを無視している。
    • 画像エンコーダとLLMを同時に最適化し,包括的な加速化を目指す。
    • 提案手法iLLaVAは,画像および動画理解タスクにおいて一貫した性能向上を実現した。
    • 処理速度は最大2倍に向上し,プレフィリング時間は最大4分の1に短縮された。
    • 大規模モデル(26B)が,より小規模なモデル(8B)を精度と効率の両面で上回ることが示された。

    Link: https://arxiv.org/abs/2412.06263

  • タロック競争の複雑性 [cs.GT]目的:異質プレイヤーを持つタロック競争における純粋ナッシュ均衡の計算のアルゴリズム複雑性
    • 競争理論は,資源配分,オークション,政治など広範な分野に応用されており,その重要性は高い。
    • タロック競争モデルは現実的な競争状況を記述するが,異質プレイヤーの複雑なケースでは計算が困難である。
    • 弾性パラメータに着目し,計算困難性の原因を特定することで,効率的なアルゴリズム設計を目指す。
    • 弾性パラメータが特定の範囲(1 < r_i ≦ 2)にあるプレイヤー数によって計算の複雑さが左右されることが示された。
    • そのプレイヤー数が対数的に制限される場合,多項式時間で純粋ナッシュ均衡が存在するかどうかを判定し,近似解を計算できるアルゴリズムが開発された。
    • そのプレイヤー数が対数的に増加する場合,純粋ナッシュ均衡の判定はNP困難であり,FPTASを用いた効率的な近似解法が提示された。

    Link: https://arxiv.org/abs/2412.06444

  • 視覚言語モデルによる多様式・多課題・多基準自動評価 [cs.CL, q-bio.NC, cs.CL, cs.CL, cs.AI, cs.CV]目的:視覚言語モデルが生成するテキストの品質評価手法
    • 視覚言語モデルの性能向上に伴い,その評価基準の重要性が増している。
    • 既存の評価指標は単一課題に特化し,多課題に対応した柔軟性に欠ける。
    • 多基準に基づいた包括的な評価指標を開発し,多課題への適応を目指す。
    • 提案手法HarmonicEvalは,従来の指標よりも人間の評価との相関性が高いことが示された。
    • HarmonicEvalは,各評価基準に対する数値スコアを提供し,詳細な分析を可能にする。
    • 多課題・多基準の人間評価ベンチマークMMHEを構築し,自動評価指標の汎化性能を検証した。

    Link: https://arxiv.org/abs/2412.14613

  • LangSurf:3Dシーン理解のための言語埋め込み表面ガウス [cs.CV]目的:3Dシーン理解のための言語埋め込み表面場
    • 3Dシーン理解は,ロボット工学や拡張現実など,多くの分野で不可欠な技術である。
    • 既存手法は,3D空間における物体のアライメントが不正確であり,コンテキスト情報の欠如が課題となっている。
    • LangSurfは,オブジェクト表面への言語ガウスの正確なアライメントにより,高精度なセグメンテーションを実現する。
    • LangSurfは,オブジェクト表面に言語ガウスを正確に配置するための共同学習戦略を提案する。
    • 階層的文脈認識モジュールにより,画像レベルでの特徴抽出と,SAMによるセグメンテーションマスクを用いた階層的なマスクプーリングを行う。
    • 2Dおよび3Dセマンティックセグメンテーションにおいて,最先端手法LangSplatを大幅に上回る性能を示す。

    Link: https://arxiv.org/abs/2412.17635

  • ピクセルから述語へ:事前学習済み視覚言語モデルによる記号的ワールドモデルの学習 [cs.RO, cs.AI, cs.CV, cs.LG]目的:複雑なロボティクス環境における長期的意思決定問題解決
    • ロボティクス分野では,複雑な環境での自律的な意思決定が不可欠である。
    • 従来のモデルは,未知の状況への汎化性能が低いという課題がある。
    • 事前学習済みモデルを活用し,汎化性能の高い記号的ワールドモデルを構築する。
    • 事前学習済み視覚言語モデルを用いて,多数の視覚的述語候補を提案し,カメラ画像から評価した。
    • 最適化ベースのモデル学習アルゴリズムにより,コンパクトな述語集合で記号的ワールドモデルを獲得した。
    • シミュレーションと実環境の両方で,多様な状況や新規目標に対する高い汎化性能を実証した。

    Link: https://arxiv.org/abs/2501.00296

  • 潜在クラスタリングに基づくデータ削減による効率的な半教師あり敵対的学習 [cs.LG, cs.AI, cs.CR, cs.CV]目的:半教師あり敵対的学習の効率改善
    • 敵対的環境下でのロバストなモデル学習は,大量の学習データが必要不可欠である。
    • 半教師あり敵対的学習は高性能だが,高いロバスト性を得るには大量の追加データを要し,計算コストが増大する。
    • 追加データの量を最適化し,効率的に半教師あり敵対的学習を行うことを目指す。
    • 潜在クラスタリングを用いたデータ削減により,半教師あり敵対的学習に必要なデータ量を大幅に削減できる。
    • 特に,k-meansクラスタリングに基づいた潜在空間選択とLCG-KMを用いたガイデッド拡散アプローチが最も効果的である。
    • これらの手法により,学習時間を約3~4倍短縮し,メモリ使用量も削減できる。

    Link: https://arxiv.org/abs/2501.10466

  • 予測的ワールドモデリングによる生成ロボットポリシーの強化 [cs.RO, cs.CV, cs.LG]目的:生成予測制御フレームワーク
    • ロボットの自律的な行動計画において,環境の予測は重要な役割を果たす。
    • 従来の行動模倣学習では,未知の状態への汎化が課題となる。
    • 専門家のデモンストレーションと探索から学習し,将来予測に基づく行動計画を行う。
    • 生成予測制御は,シミュレーションと実環境の両方において,行動模倣学習よりも高い性能を示す。
    • 拡散モデルに基づくポリシーのクローンと,行動条件付きのワールドモデルの学習を組み合わせる。
    • ワールドモデルを用いて未来を予測し,行動提案をランク付け・最適化することで,ロバストな制御を実現する。

    Link: https://arxiv.org/abs/2502.00622

  • VL-Nav:推論に基づく視覚言語ナビゲーションのためのニューロシンボリックアプローチ [cs.RO, cs.CV]目的:複雑な指示に基づくナビゲーションの実現
    • 自律移動ロボットにとって,複雑な環境でのナビゲーションは不可欠な技術である。
    • 既存手法は,複雑なタスクの分解や効率的な探索が苦手で,ロボットの彷徨や目標認識の失敗を招く。
    • 本研究は,タスク分解と効率的な探索を通して,ロボットナビゲーションの課題を解決することを目指す。
    • 提案システムVL-Navは,ニューラル推論とシンボリックガイダンスを組み合わせることで,ナビゲーションの性能を向上させた。
    • DARPA TIAMAT Challengeのナビゲーションタスクにおいて,VL-Navは室内環境で83.4%の成功率,屋外で75%の成功率を達成した。
    • 実環境実験では86.3%の成功率を達成し,複雑な指示にも対応可能であることを示した。

    Link: https://arxiv.org/abs/2502.00931

  • 潜在拡散を用いた構造表現プロンプト学習による単一画像ノイズ除去 [cs.CV, cs.AI]目的:単一画像ノイズ除去のための構造表現プロンプト学習手法
    • 画像ノイズ除去は,画像処理において基本的な課題であり,様々な応用分野で重要である。
    • ペアデータセットの作成コストが高いこと,既存の自己教師あり/教師なし学習では構造情報の損失が課題である。
    • 潜在拡散モデルと構造注意モジュールにより,構造情報の保持と効率的なノイズ除去を実現する。
    • 本研究では,潜在拡散に基づいた構造表現生成モデルと構造注意モジュールを組み込んだPrompt-SIDを提案した。
    • ダウンサンプリングされた画像ペアを用いた自己教師あり学習により,高解像度画像の情報も活用できる。
    • 合成画像,実画像,蛍光画像データセットを用いた実験で,Prompt-SIDの有効性が確認された。

    Link: https://arxiv.org/abs/2502.06432

  • Snapmoji:アニメーション可能な二重スタイル化アバターの即時生成 [cs.GR, cs.CV]目的:アニメーション可能な二重スタイル化アバターの生成
    • アバターシステムは広く普及しており,コミュニケーションにおいて重要な役割を担っている。
    • 既存のアバタープラットフォームは,アセット数の制限やカスタマイズの煩雑さなどの課題を抱えている。
    • Snapmojiは,これらの課題を解決し,より迅速かつ多様なアバター生成を可能とする。
    • Snapmojiは,Gaussian Domain Adaptation (GDA)という新しい技術を用いて,自撮り写真から主要なアバターを生成する。
    • 生成されたアバターは,骨格や糸などの二次的なスタイルを適用することで,多様な表現が可能となる。
    • このシステムにより,モバイルデバイス上で30~40FPSでアニメーションされた3Dアバターをレンダリングできる。

    Link: https://arxiv.org/abs/2503.11978

  • テキスト条件付き3D室内シーン合成における意味的整合性の評価 [cs.GR, cs.CV]目的:テキスト条件付き3D室内シーン生成手法の評価基準
    • 3Dシーン生成技術は,メタバース等の応用において重要であり,その発展が期待されている。
    • 既存の評価指標は,生成されたシーンのリアリズムに偏重しており,テキストとの整合性評価が不十分である。
    • テキストとシーンの整合性を定量的に評価し,シーン生成手法の改善に貢献することを目的とする。
    • SceneEvalフレームワークは,オブジェクト数,属性,空間関係などの明示的な要求と,支持,衝突,ナビゲート可能性などの暗黙の期待を評価する。
    • SceneEval-500データセットは,500のテキスト記述と詳細な注釈を提供し,再現性と体系的な比較を可能にする。
    • 評価実験の結果,既存手法に課題が残ることが示され,実用的かつ制御可能なシーン合成に向けた更なる研究の必要性が確認された。

    Link: https://arxiv.org/abs/2503.14756

  • 後方互換学習におけるアライメント制約緩和のためのプロトタイプ摂動 [cs.CV]目的:後方互換学習におけるアライメント制約緩和手法
    • 情報検索モデルの精度向上は,効率的なデータアクセスに不可欠であり,その重要性は増している。
    • 既存モデルの更新には計算コストがかかるため,効率的な更新手法が求められている。
    • 後方互換性を保ちつつ,新しいモデルの識別能力を向上させることを目指す。
    • 旧モデルのプロトタイプに摂動を加えることで,アライメント制約を緩和する手法を提案した。
    • 新しい特徴空間を摂動されたプロトタイプによって定義された擬似的な旧特徴空間にアライメントすることで,識別能力を維持する。
    • NDPPとODPPという2つの摂動計算手法を開発し,実データを用いた実験で最先端手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2503.14824

  • 2次元アライメントから3次元の妥当性へ:異質な2次元事前情報と侵入防止拡散を統合し,遮蔽に強い二手再構成を実現 [cs.CV, cs.AI]目的:単眼画像からの二手再構成における相互作用アライメントと侵入問題の解決
    • 人間の手の動き理解は,ロボット工学や人間とコンピュータのインタラクションにおいて不可欠な技術である。
    • 複雑なポーズや遮蔽により,既存手法では相互作用アライメントのずれや二手の侵入といった課題が存在する。
    • 異質な2次元事前情報を統合し,侵入防止拡散モデルを用いて,遮蔽に強く,物理的に妥当な再構成を目指す。
    • 本研究では,キーポイント,セグメンテーション,深度といった異質な事前情報を融合・アライメントするエンコーダを提案した。
    • 侵入を回避する拡散モデルを導入し,衝突勾配をガイドすることで,現実的な二手の相互作用を生成する。
    • InterHand2.6MおよびHICデータセットにおいて,相互作用アライメントと侵入抑制において最先端または優れた性能を達成した。

    Link: https://arxiv.org/abs/2503.17788

  • 汎化可能な偽造検出と推論に向けて [cs.CV]目的:AI生成画像の偽造検出と,その根拠となる属性の推論
    • AI技術の悪用リスク軽減のため,AI生成画像の正確な識別が不可欠である。
    • 生成モデル間のドメインギャップが大きく,汎用的な偽造検出モデルの開発が困難である。
    • マルチモーダル大規模言語モデルを活用し,偽造属性の推論に基づいた高精度な検出を目指す。
    • 提案手法FakeReasoningは,CLIPとDINOを組み合わせたデュアルブランチの視覚エンコーダを用いることで,高レベルな意味情報と低レベルなアーティファクトの両方を捉える。
    • 偽造属性に注意を向ける特徴融合モジュールと,言語モデルと偽造検出を連携させる分類確率マッパーにより,検出性能を向上させている。
    • 複数の生成モデルを用いた実験により,FakeReasoningが堅牢な汎化性能と最先端手法を上回る検出・推論能力を持つことが示された。

    Link: https://arxiv.org/abs/2503.21210

  • Climplicit:地球規模生態学的課題に対する気候の暗黙的埋め込み [cs.NI, cs.CL, cs.CV]目的:気候の暗黙的表現の生成
    • 気候データはマクロ生態学研究に有用だが,専門知識の壁がある。
    • 気候データの取得と特徴抽出には,膨大なストレージと計算資源が必要となる。
    • 気候データの取り扱いを容易にし,計算コストを削減すること。
    • Climplicitは,生の気候ラスタデータのダウンロードや特徴抽出器の学習を回避する。
    • バイオーム分類,種分布モデリング,植物形質回帰において,既存手法と同等以上の性能を示した。
    • Climplicitは,学習済みの埋め込み表現を用いることで,計算資源の消費を大幅に削減できる。

    Link: https://arxiv.org/abs/2504.05089

  • シーン制約を用いた点ベースインスタンス補完 [cs.CV]目的:シーンにおける部分的に観測されたオブジェクトの補完
    • 3Dシーンの理解は,ロボティクスやAR/VRなど幅広い分野で重要である。
    • 既存手法では,シーン内の制約や姿勢を考慮せず,補完品質が低い場合がある。
    • シーン制約を考慮し,任意のスケール・姿勢で高精度な補完を実現する。
    • 提案手法は,部分的なスキャンへの忠実度,補完品質,および妥当性において,既存手法を上回る。
    • シーンレベルでの推論を可能にするため,点群として表現されたシーン制約を導入した。
    • 屋内シーンのインスタンスシーン補完タスク評価用に,ScanWCFという新しいデータセットを構築した。

    Link: https://arxiv.org/abs/2504.05698

  • 効率的な脳波ベース感情認識のためのリプシッツ連続性制約アンサンブル学習 (LEL) [cs.CV]目的:脳波に基づく感情認識の精度と効率の向上
    • 感情認識は社会生活において重要であり,その障害は心理社会的な困難と関連する。
    • 既存の脳波ベース感情認識法は,モデルの安定性,非線形信号処理,個人差への対応に課題がある。
    • リプシッツ連続性制約アンサンブル学習(LEL)により,上記課題を克服し,感情認識の汎化性能を高める。
    • 提案手法LELは,Transformer機構,スペクトル抽出,正規化モジュールにリプシッツ連続性制約を導入する。
    • 3つの公開データセット(EAV, FACED, SEED)を用いた実験で,平均認識精度がそれぞれ74.25%, 81.19%, 86.79%を達成した。
    • 学習可能なアンサンブル融合戦略により,単一モデルのバイアスと分散を軽減し,ロバスト性を向上させた。

    Link: https://arxiv.org/abs/2504.09156

  • ネットワークエッジにおけるタスク指向型セマンティック圧縮による位置局在化 [cs.CV, cs.NI]目的:GPS制限下における都市環境での高精度な視覚的位置局在化
    • モバイルプラットフォームの位置局在化は,自動運転やロボティクスにおいて不可欠である。
    • 限られた帯域幅,メモリ,処理能力が,位置局在化の精度を制限する。
    • 帯域幅制約下での効率的かつ正確な位置局在化を実現すること。
    • 提案手法O-VIBは,非情報的な特徴量を削減し,冗長性を最小化することで,効率的な特徴抽出を可能にする。
    • 実世界の都市環境での実験により,O-VIBは厳しい帯域幅制限下で高精度な位置局在化を実現することが示された。
    • 既存手法と比較して,多様な通信制約下で優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2504.18317

  • 海洋ロボットのためのスケーラブルな航空機GNSS測位 [eess.SY, cs.SY, cs.HC, cs.RO, cs.CV]目的:海洋ロボットの測位手法
    • 水産,海洋調査等においてロボット活用が不可欠であり,正確な位置把握が重要である。
    • 水面反射等によりGNSSが利用困難であり,水中GNSS受信機は高価である。
    • ドローンを用いたGNSS測位で,水面付近の海洋ロボットの正確な位置を特定すること。
    • 提案手法により,単一および複数ロボットの海洋ロボット測位が可能となった。
    • 従来の慣性航法などに比べ,効率的かつスケーラブルなソリューションを提供する。

    Link: https://arxiv.org/abs/2505.04095

  • M3CAD:汎用的な協調自動運転ベンチマークに向けて [cs.RO, cs.CV]目的:汎用的な協調自動運転研究を促進するための包括的なベンチマーク
    • 自動運転技術は,交通の効率化と安全性の向上に不可欠であり,社会実装が期待されている。
    • 既存のベンチマークは,協調運転やマルチタスクに対応したものが少なく,研究開発のボトルネックとなっていた。
    • マルチエージェント環境における協調自動運転技術の性能評価と進歩を促すこと。
    • M$^3$CADは,LiDAR,画像,GPS/IMU等の多様なセンサーデータを含む204シーケンス,3万フレームから構成される。
    • 最先端の単車および協調運転ソリューションの評価を行い,ベースライン性能を確立した。
    • ネットワーク帯域幅を考慮した新しい多段階融合アプローチを提案し,通信効率と知覚精度のバランスを取ることを可能にした。

    Link: https://arxiv.org/abs/2505.06746

  • 音響コンテンツの推論に向けたマルチドメイン音声質問応答ベンチマーク [cs.SD, cs.AI, cs.CL, cs.MM, eess.AS]目的:マルチドメインにわたる音響理解のための音声質問応答ベンチマーク
    • 音声は,環境認識や状況把握において重要な役割を担うため,その理解はAIの発展に不可欠である。
    • 既存の音声質問応答システムは,特定のドメインに特化しており,多様な音響シーンへの汎化性能が課題である。
    • 異なるドメインの音響データに対する質問応答能力を評価し,音声言語モデルの汎化性能向上を目指す。
    • 本ベンチマークでは,生物音響,時間的音響風景,複雑なQAという3つのサブセットで音声言語モデルの性能を評価した。
    • Qwen2-Audio-7B,AudioFlamingo 2,Gemini-2-Flashといったベースラインシステムの予備的な結果を比較し,モデルとサブセット間で大きなばらつきが見られた。
    • この挑戦は,AIエージェントが世界を効果的に知覚し,相互作用するために不可欠な,人間レベルの音響理解と推論能力の向上を目指す。

    Link: https://arxiv.org/abs/2505.07365

  • FoldNet:衣類折り畳みにおける汎用的な閉ループポリシーの学習 - キーポイント駆動アセットとデモンストレーション合成による [cs.RO, cs.CV]目的:衣類折り畳みのための汎用的な閉ループポリシー
    • ロボットによる衣類操作は,柔軟な素材のため困難であり,データ収集が課題である。
    • 実世界の衣類は形状が多様であり,高品質な学習データの作成が難しい。
    • シミュレーションと実世界の両方で成功する,ロバストな折り畳みポリシーを開発する。
    • キーポイントに基づいたアセット生成とデモンストレーション合成によるデータセットを構築した。
    • 提案手法KG-DAggerにより,失敗からの回復能力が向上し,実世界での成功率が25%向上した。
    • 15Kの軌跡で学習したモデルは,実世界で75%の成功率を達成した。

    Link: https://arxiv.org/abs/2505.09109