arXiv雑要約

画像・音声 - 2026/02/05 公開

  • 積の制約を持つMin-Max最適化の複雑性 [cs.CC, cs.GT]目的:積の制約を持つゲームにおける局所的なMin-Max均衡の計算問題の計算複雑性
    • ゲーム理論は,経済学,コンピュータ科学など,多岐にわたる分野で重要な役割を果たす。
    • 非凸・非凹の効用関数を持つゲームにおけるMin-Max均衡の計算は,一般的に困難である。
    • より自然な制約下での計算複雑性を明らかにし,困難性を示すことを目指す。
    • この問題は,積の制約,特に超立方体上においてもPPAD困難であることが示された。
    • Daskalakisらの研究では,共同制約下での困難性が示されていたが,本研究でより一般的な制約下でも同様の結果が得られた。

    Link: https://arxiv.org/abs/2602.04665

  • AGILE:エージェントによる生成を用いたビデオからの手と物体のインタラクション再構成 [cs.CV, cs.GR, cs.RO]目的:手と物体のインタラクションの再構成
    • ロボット工学やVRにおいて,現実世界を忠実に再現したデジタルツインの作成が不可欠である。
    • 既存手法は,遮蔽物による情報の欠損や,初期化処理の不安定さにより,実用的な再構成が困難である。
    • 遮蔽物に強く,安定した再構成を実現し,ロボットシミュレーションに利用可能なアセット生成を目指す。
    • AGILEは,再構成という従来のパラダイムから,エージェントによる生成へとアプローチを転換することで,これらの課題を克服した。
    • 実験の結果,AGILEは既存手法と比較して,幾何学的な精度が高く,特に困難なシーケンスにおいても高いロバスト性を示した。
    • 生成されたアセットは物理的に妥当であり,ロボットアプリケーションのための現実世界からシミュレーションへのリターゲティングに利用可能であることが検証された。

    Link: https://arxiv.org/abs/2602.04672

  • REDistill:ロバスト性・効率性の両立を目指すロバスト推定蒸留 [cs.LG, cs.CV]目的:ロバスト性と効率性のバランスをとるための蒸留手法
    • 深層学習モデルの高性能化には,モデルの規模拡大が不可欠だが,計算コストが大きい。
    • 教師モデルからの知識伝達において,教師の予測がノイズを含む場合がある。
    • 教師モデルの信頼性の低い出力を抑制し,知識蒸留の汎化性能を向上させる。
    • REDistillは,標準的な知識蒸留の目的関数をロバスト統計に基づいたパワーダイバージェンス損失に置き換える。
    • これにより,教師のノイズを適切に処理し,ロジット間の情報関係を維持する。
    • CIFAR-100およびImageNet-1kにおける実験で,様々な教師・生徒モデル構成において,REDistillは常に生徒の精度を向上させた。

    Link: https://arxiv.org/abs/2602.04677

  • 微細な音声生成と編集のためのAudio ControlNet [cs.SD, cs.AI, cs.CL, cs.MM]目的:微細なテキストから音声への生成制御
    • 近年の音声技術の発展は,多様な応用を可能にする上で不可欠である。
    • 既存のモデルは高音質な音声を生成するものの,音量や音高などの詳細な制御が困難である。
    • 本研究は,既存モデルを再学習することなく,詳細な音声制御を実現することを目的とする。
    • 提案手法であるT2A-Adapterは,わずか38Mの追加パラメータで,AudioSet-Strongにおいて最先端の性能を達成した。
    • T2A-Adapterは,イベントレベルおよびセグメントレベルのF1スコアの両方で優れた制御能力を示した。
    • さらに,指示された時間位置で音声イベントの削除と挿入を可能にするT2A-Editorを提案し,音声編集への応用を示した。

    Link: https://arxiv.org/abs/2602.04680

  • UniAudio 2.0:テキストアラインメントされた因数分解オーディオトークン化を用いた統一オーディオ言語モデル [cs.SD]目的:オーディオ言語モデルにおけるオーディオトークナイザーの設計と,Few-shot/Zero-shot設定での汎化性能を持つ基盤モデルの構築
    • 近年,音声認識や生成といったタスクにおいて,大規模言語モデルの技術を応用する研究が活発に行われている。
    • 既存のオーディオトークナイザーは,音声理解と生成の両方を効率的に行うための表現力に課題があった。
    • テキストとオーディオを統一的に扱えるモデルを構築し,未学習のタスクへの汎化性能を向上させる。
    • 提案手法ReasoningCodecは,音声理解と高忠実度な波形再構成において,従来の離散トークナイザーよりも優れた性能を示した。
    • UniAudio 2.0は,1000億トークンのテキストと600億トークンのオーディオで学習され,様々な音声,音響,音楽タスクで高い競争力を発揮した。
    • 特に,Few-shot/Zero-shot評価において,UniAudio 2.0は未知のタスクへの優れた汎化能力を示した。

    Link: https://arxiv.org/abs/2602.04683

  • テキスト画像モデルにおける障害者の表現に関する調査 [cs.CL, cs.CV, cs.CY, cs.HC]目的:テキスト画像モデルにおける障害者の表現の分析
    • AI技術の発展に伴い,画像生成モデルの社会への影響が大きくなっている。
    • ジェンダーや人種に比べ,障害者の表現は十分に調査されていなかった。
    • 生成モデルにおける障害者の表現の偏りを明らかにし,改善策を探る。
    • Stable Diffusion XLとDALL-E 3の出力結果を分析した結果,表現の不均衡が確認された。
    • 特定の障害カテゴリーを参照するプロンプトと一般的なプロンプト間には,画像類似性の差が見られた。
    • 感情極性分析の結果,生成された画像における感情的なフレーミングの偏りが示唆された。

    Link: https://arxiv.org/abs/2602.04687

  • DRMOT:RGBD参照マルチオブジェクトトラッキングのためのデータセットとフレームワーク [cs.IR, cs.CV, cs.AI]目的:RGB,深度,言語モダリティを融合した3D空間認識トラッキングの実現
    • ロボティクスや自動運転などの対話型AIシステムにおいて,言語による指示に基づく対象物追跡が重要である。
    • 既存のRMOTモデルは2D RGBデータのみに依存しており,複雑な空間意味を持つ対象の検出や,遮蔽下でのID維持が困難である。
    • RGBD情報を活用することで,空間的な意味理解と,よりロバストな対象物追跡を目指す。
    • DRSetというRGBD参照マルチオブジェクトトラッキングのデータセットを構築し,モデルの空間的・意味的根拠付けと追跡能力を評価する。
    • MLLM(マルチモーダル大規模言語モデル)をガイドとした深度参照トラッキングフレームワークDRTrackを提案した。
    • DRSetデータセットでの実験により,提案手法が効果的であることが示された。

    Link: https://arxiv.org/abs/2602.04692

  • Vision Languageモデルを用いたアノテーションフリーの宇宙機検出とセグメンテーション [cs.DC, cs.CV]目的:宇宙機および軌道目標の検出とセグメンテーション
    • 宇宙開発の進展に伴い,宇宙空間における物体認識の重要性が増している。
    • 宇宙画像の低視認性や背景との融合により,正確なアノテーションが困難である。
    • アノテーションに頼らない宇宙機検出・セグメンテーション手法の開発が求められている。
    • Vision Languageモデル(VLM)を用いて,宇宙画像の擬似ラベルを自動生成するパイプラインを提案した。
    • 擬似ラベルを用いた教師あり蒸留により,軽量モデルの性能を大幅に向上させた。
    • SPARK-2024, SPEED+, TANGOデータセットにおいて,平均精度(AP)が最大10ポイント向上した。

    Link: https://arxiv.org/abs/2602.04699

  • 多頭自己注意における微細なフレームモデリング:音声ディープフェイク検出への応用 [cs.SD]目的:音声ディープフェイク検出のための微細なフレームモデリング
    • 音声データにおける偽装技術は巧妙化の一途を辿っており,その検出技術の重要性が増している。
    • 既存手法では,音声の微細な偽装痕跡を捉えきれず,高い検出精度を達成することが困難である。
    • 多頭自己注意機構を活用し,より効果的なフレームモデリングを通して検出性能の向上を目指す。
    • 提案手法では,多頭投票モジュールにより重要なフレームを選択し,クロスライヤー洗練モジュールで微細な偽装痕跡を強化する。
    • LA21, DF21, ITWデータセットにおいて,それぞれ0.90%, 1.88%, 6.64%の均等エラー率(EER)を達成した。
    • 複数のベンチマークにおいて一貫した改善が見られ,ロバストな音声ディープフェイク検出に有効であることが示された。

    Link: https://arxiv.org/abs/2602.04702

  • SAR-RAG:意味検索,検索,MLLM生成によるATR視覚質疑応答 [cs.CV, cs.AI, eess.IV]目的:合成開口レーダー(SAR)画像の自動標的認識(ATR)における視覚的コンテキストに基づく画像検索による生成の支援
    • SARは,国防や安全保障において軍用車両の位置を検知・監視する重要なリモートセンシング技術である。
    • SAR画像は,車両が画像上で区別しにくく,種類,特徴,計測の識別が課題であった。
    • 類似事例のデータベース検索を通じて,SAR画像のATR精度向上を目指す。
    • 提案手法SAR-RAGは,MLLMと意味埋め込みベクトルデータベースを組み合わせ,コンテキスト検索を可能にした。
    • 過去のSAR画像事例を参照することで,類似車両カテゴリ間の比較を行い,ATR予測精度を向上させた。
    • 検索・検索メトリクス,カテゴリ分類精度,車両寸法の数値回帰において,SAR-RAGの有効性が確認された。

    Link: https://arxiv.org/abs/2602.04712

  • テキスト画像生成のための適応的プロンプト抽出 [cs.HC, cs.AI, cs.CV]目的:テキスト画像生成におけるユーザーの意図との整合性向上
    • 画像生成技術は創造性を拡張するが,意図通りの画像を生成するには高度なプロンプト設計が必要である。
    • ユーザーは曖昧な入力やモデルの癖に苦戦し,意図した画像を生成できない場合が多い。
    • ユーザーの負担を軽減しつつ,対話的に意図を明確化することで,高品質な画像生成を実現する。
    • 適応的プロンプト抽出(APE)は,視覚的な質問を通じてユーザーのプロンプトを洗練させ,少ない記述労力で意図を反映する。
    • APEは,情報理論的枠組みに基づき,潜在的な意図を解釈可能な特徴要件として表現し,効果的なプロンプトを生成する。
    • IDEA-BenchとDesignBenchでの評価により,APEがより高い整合性と効率を達成することが示された。ユーザー調査でも高い整合性が確認された。

    Link: https://arxiv.org/abs/2602.04713

  • 果実の星座を通して,時間経過に伴う果樹園の変化を捉える方法 [cs.CV]目的:果実の成長を通した果樹園の変化の追跡
    • 精密農業において,作物の生育状況を把握することは収穫量の予測に不可欠である。
    • 生育段階での収穫量予測は手間がかかり,人手による計測では拡張性に限界がある。
    • 本研究は,時間経過に伴う同一果実のマッチング問題を解決し,自動的な追跡を可能にする。
    • 3次元重心からなる星座に基づいて,異なる動画間で果実を正確にマッチングさせる手法を提案した。
    • この手法は,非剛体性や遮蔽,特徴の少ない画像といった課題に対処できる。
    • 果樹園マップの作成や,ロボットの自律航行,選択的収穫への応用が期待される。

    Link: https://arxiv.org/abs/2602.04722

  • プロンプト制御拡散拡張によるロングテールバイアスの緩和 [cs.RO, cs.CV]目的:高解像度リモートセンシング画像のセマンティックセグメンテーションにおけるロングテールバイアスの緩和
    • 都市マッピングや土地被覆モニタリングにおいて,高解像度リモートセンシング画像のセマンティックセグメンテーションは不可欠である。
    • 学習データは通常,深刻なロングテールピクセル不均衡を示す。LoveDAデータセットでは,ドメイン間のクラス頻度統計量の不整合が問題となる。
    • ドメインとセマンティック構成を明示的に制御した合成データを用いて,セグメンテーションの性能向上とロングテールバイアスの軽減を目指す。
    • 提示手法は,ユーザーが指定したクラス比率を満たし,学習された共起構造を尊重するドメイン認識型の拡散モデルを用いてレイアウトを生成する。
    • 生成されたレイアウトは,Stable DiffusionとControlNetのガイダンスを用いて,写実的でドメイン一貫性のある画像に変換される。
    • 合成データと実データを混合することで,少数クラスの性能向上と都市・農村領域の汎化性能の向上が確認された。

    Link: https://arxiv.org/abs/2602.04749

  • ドリフトによる生成モデリング [cs.LG, cs.CV]目的:生成モデリングにおける分布学習
    • 画像生成などの分野で,高品質なデータ生成が求められている。
    • 既存手法では,生成に複数ステップを要し,計算コストが高い。
    • 1ステップで高品質な画像を生成できる新たな手法を確立する。
    • 提案手法「Drifting Models」は,学習中に分布を進化させ,1ステップ推論を可能にする。
    • ImageNet 256x256解像度で最先端の結果を達成し,FIDスコアは潜在空間で1.54,ピクセル空間で1.61。
    • 本研究は,高品質な1ステップ生成の新たな可能性を開くことが期待される。

    Link: https://arxiv.org/abs/2602.04770

  • 話し手情報を考慮したシミュレーションが会話音声認識を改善する [cs.SD, cs.CL, eess.AS]目的:会話音声認識の性能向上
    • 会話音声認識は,自然な対話の複雑さから,大規模な学習データが不足している分野である。
    • 学習データが限られているため,特にリソースの少ない言語では性能向上が課題となっている。
    • 話し手情報を考慮したシミュレーションにより,データ拡張を実現し,性能改善を目指す。
    • 話し手情報を考慮した会話シミュレーションが,単純な連結によるデータ拡張よりも一貫して認識性能を向上させる。
    • 発話時間に基づくポーズモデルを組み込んだC-SASCは,文字レベルのエラー率においてわずかながら安定した改善をもたらした。
    • シミュレーション設定や,ソースとターゲットのドメイン間の統計的マッチングが性能に影響を与えることが示された。

    Link: https://arxiv.org/abs/2602.04776

  • ライト・フォーシング:スパース注意による自己回帰型動画拡散の高速化 [cs.HC, cs.RO, cs.CV]目的:自己回帰型動画拡散モデルにおける効率的な展開
    • 動画生成モデルの発展は,高品質な映像コンテンツの作成に不可欠であり,その重要性は増している。
    • 従来の注意機構の計算量は動画長に比例するため,高解像度・長尺の動画生成におけるボトルネックとなっている。
    • 自己回帰型モデルに特化したスパース注意機構を開発し,計算効率と生成品質の両立を目指す。
    • 提案手法「ライト・フォーシング」は,既存のスパース注意機構と比較して,動画生成品質(VBenchで84.5)と処理速度(1.2~1.3倍高速化)を向上させた。
    • チャンク単位での貢献度推定と階層的なスパース注意により,過去の情報を効率的に活用し,多様な注意パターンに対応する。
    • FP8量子化やLightVAEとの組み合わせにより,さらなる高速化(2.3倍)とフレームレート向上(19.7 FPS)を実現した。

    Link: https://arxiv.org/abs/2602.04789

  • VISTA-Bench:視覚化されたテキストに対する言語モデルの理解力は,純粋なテキストと同等か? [eess.SY, cs.SY, cs.CV]目的:視覚化されたテキスト理解の評価
    • 画像とテキストの相互理解は,現実世界の多くのタスクに応用可能であり重要性が高い。
    • 既存のベンチマークは主に純粋なテキストによる質問に焦点を当てており,視覚化されたテキストへの対応が検証されていない。
    • 視覚化されたテキストに対する言語モデルの理解力のギャップを特定し,より統合的な言語表現の発展を促す。
    • VISTA-Benchは,多岐にわたるタスクを通して,視覚化されたテキストと純粋なテキストでの質問に対するVLMsの性能を比較する。
    • 多くのVLMsにおいて,純粋なテキストで高い性能を示すモデルでも,視覚化されたテキストでは大幅に性能が低下する「モダリティギャップ」が確認された。
    • このギャップは,視覚的な難易度が上昇するとさらに顕著になり,意味内容が変わらない場合でもレンダリングの違いに敏感であることが示唆された。

    Link: https://arxiv.org/abs/2602.04802

  • Skin Tokens: 統一的な自己回帰リギングのための学習されたコンパクトな表現 [cs.CL, cs.GR, cs.AI]目的:スキニング重みの学習されたコンパクトかつ離散的な表現
    • 3Dコンテンツ制作において,アニメーション制作のボトルネックとなっているリギングの効率化が重要である。
    • 既存のリギング手法は,スキニングを非効率な回帰問題として扱っており,骨格生成との連携が弱いという課題がある。
    • スキニングの表現方法を改善し,骨格とスキニング変形間の複雑な依存関係を学習する。
    • SkinTokens表現は,最先端の手法と比較してスキニング精度を98%-133%向上させた。
    • TokenRigフレームワークは,強化学習によって骨格予測を17%-22%向上させた。
    • 本研究は,高忠実度で堅牢な,スケーラブルなリギングソリューションを提供する。

    Link: https://arxiv.org/abs/2602.04805

  • X2HDR:知覚的に均一な空間におけるHDR画像生成 [cs.CV, cs.GR]目的:HDR画像生成手法の開発
    • HDR技術の普及に伴い,高品質なHDR画像生成の需要が高まっている。
    • 既存の画像生成モデルはLDRデータで学習しているため,HDR画像生成に課題がある。
    • 知覚的に均一な空間への変換により,既存モデルをHDR生成に容易に適応させる。
    • 事前学習済みの拡散モデルを,VAEを固定し,低ランク適応によってノイズ除去器を微調整することでHDR生成に対応。
    • 知覚的に均一な空間での適応により,知覚的な忠実度,テキストと画像の整合性,有効なダイナミックレンジが向上。
    • テキストからHDR合成と,RAW画像からのHDR再構成の両方をサポートする統一的な手法。

    Link: https://arxiv.org/abs/2602.04814

  • 多数候補者における限界での勝利:平均的なケースにおける委員会選択 [cs.GT, cs.DM, econ.TH, math.CO]目的:多数の有権者と候補者数を前提とした委員会選択問題における,特定の多数決レベルでの勝利条件
    • 社会選択理論は,公正な集団意思決定の原理を探求し,民主的なプロセスを理解する上で重要である。
    • 候補者数が多い場合,最適な委員会選択は計算が困難であり,効率的なアルゴリズムが求められる。
    • 多数決レベルと委員会規模の関係性を明らかにし,現実的な条件での委員会選択可能性を評価する。
    • α-勝利集合が存在する確率に関する鋭い閾値が,αwin* = 1 - 1/k で示された。
    • α-支配集合が存在する確率に関する閾値が,αdom* = 1/2 - 1/(2k) で示され,既存の結果を改善した。
    • 委員会規模kとα>αdom*の場合,α-支配集合が存在しないケースが存在することが証明された。

    Link: https://arxiv.org/abs/2602.04815

  • 事前状況におけるBel連立ゲームの核およびその他の解概念の特性 [cs.OS, cs.CL, cs.DC, cs.GT]目的:Bel連立ゲームにおける核およびその他の解概念の特性
    • 不確実性下での資源配分は,現実の経済状況や社会問題をより正確に反映する上で重要である。
    • 古典的な連立ゲームでは不確実性が考慮されておらず,現実の状況を捉えるのが困難である。
    • 事前状況における解概念の特性を明らかにすることで,不確実性下での協調的な意思決定を支援する。
    • 事前知識が確率分布である場合,事前核の幾何学的構造が分析された。
    • (プレ)核,カーネル,Mas-Colellの交渉集合が事前状況下で定義され,その特性が研究された。
    • これらの解概念間の包含関係は古典的な場合と同様であることが示された。凸Bel連立ゲームでは,事前核と事前交渉集合の一致が成立する。

    Link: https://arxiv.org/abs/2602.04817

  • ネoplastic tubular adenomasの分類のためのXtraLight-MedMamba [cs.CV, cs.LG]目的:ネoplastic tubular adenomasの分類
    • 大腸癌は罹患率と死亡率が高い癌であり,早期発見が重要である。
    • 低悪性度異形成の判定は主観的であり,正確なリスク評価が困難である。
    • 病理画像の深層学習による,微細な形態学的パターンを識別し,悪性化リスクを予測する。
    • XtraLight-MedMambaは,約32,000パラメータで97.18%の精度と0.9767のF1スコアを達成した。
    • Transformerベースや従来のMambaアーキテクチャよりも,パラメータ数が大幅に少なく,高い性能を示した。
    • 本研究は,大腸内視鏡検査における低悪性度ポリープのリスク層別化に貢献する可能性がある。

    Link: https://arxiv.org/abs/2602.04819

  • 信頼性と説明可能性の高い爪疾患分類:敵対的学習とGrad-CAM可視化の活用 [cs.CV, cs.AI, cs.LG]目的:爪疾患の自動分類モデル
    • 高齢化が進む中で,爪疾患は増加傾向にあり,早期発見・診断が健康管理上重要である。
    • 爪疾患の種類間における視覚的な差異が小さく,正確な診断が困難である。
    • 深層学習モデルによる爪疾患の自動分類の精度向上と,その根拠の解明を目指す。
    • InceptionV3モデルが95.57%の精度で最も高い性能を示し,DenseNet201が94.79%で続いた。
    • 敵対的学習を用いることで,モデルの頑健性を高め,ノイズ画像に対する誤診を防ぐ効果が確認された。
    • SHAPを用いて予測に重要な特徴を可視化し,モデルの判断根拠を説明可能にした。

    Link: https://arxiv.org/abs/2602.04820

  • 確率的な要素ではなく競争:勾配降下がネットワークの容量をタスクに適合させる仕組みの理解 [cs.LG, cs.AI, cs.CV, cs.NE]目的:ニューラルネットワークにおける勾配降下法の学習ダイナミクス
    • ニューラルネットワークは実証的に成功を収めているが,理論的な理解が遅れている。
    • 訓練中に,ネットワークの理論的な容量がタスクに適合する有効容量にどのように縮小されるかが不明である。
    • 勾配降下法が容量を縮小するメカニズムを,ReLUネットワークのニューロンレベルで解明する。
    • 相互整列,アンロック,競争という3つのダイナミクス原理が,同等なニューロンの結合や低ノルム重みのプルーニングを可能にする。
    • 特定のニューロンの初期状態が,より高い重みノルムを獲得する理由を説明し,ロッタリーチケット仮説のメカニズムを解明する。
    • 訓練後,ネットワーク容量を削減できるのは,これらの原理によるものである。

    Link: https://arxiv.org/abs/2602.04832

  • 点群のための新しい近傍記述子LitS [cs.CV]目的:点群の局所形状を正確に特徴づけるための近傍記述子
    • 3Dスキャン技術の進歩により,点群は3D空間データを表現する上で不可欠なものとなっている。
    • 点群のデータ分析には,局所形状を正確に記述する近傍記述子が重要であるが,既存手法には課題がある。
    • 点群の局所的配置のニュアンスを捉え,ノイズや密度変化に強い汎用的な近傍記述子を提案すること。
    • 本研究では,点群の周囲の状況を追跡可能な単位円上の区分定数関数であるLitSを提案する。
    • LitSは,ある方向を中心とした円錐領域内の近傍点の数を効率的に把握できる。
    • LitSには「通常版」と「累積版」の2種類があり,パラメータ調整により様々な点群に対応可能である。

    Link: https://arxiv.org/abs/2602.04838

  • PDF-HR:ヒューマノイドロボットのための姿勢距離場 [cs.PF, cs.RO, cs.CV]目的:ヒューマノイドロボットのための姿勢分布の表現
    • ヒューマノイドロボットにおける姿勢と動作の事前知識は重要である。複雑な動作の実現に不可欠な要素となる。
    • 高品質なヒューマノイドロボットの動作データが不足しており,事前知識の利用が制限されている。
    • ヒューマノイドロボットにおける姿勢の妥当性を評価する軽量な事前知識を提供し,動作の制御を改善する。
    • PDF-HRは,ロボットの姿勢分布を連続で微分可能な多様体として表現する。
    • 任意の姿勢に対し,再ターゲットされたロボット姿勢のコーパスとの距離を予測し,滑らかな姿勢の妥当性指標を提供する。
    • 様々なタスクにおいて,既存のベースラインを大幅に強化することが実験的に示された。

    Link: https://arxiv.org/abs/2602.04851

  • LLaVAと物体:ビジョン言語モデルのためのトークン構成 [cs.CV]目的:ビジョン言語モデルにおける効率的な視覚表現
    • 画像と言語を理解するAIの発展には,効率的な視覚情報の処理が不可欠である。
    • 既存のビジョン言語モデルは,大量の視覚トークンを使用するため,計算コストが高いという課題がある。
    • 本研究は,少ないトークン数で高性能を維持できる視覚表現を構築することを目的とする。
    • Mask-LLaVAフレームワークにより,異なるレベルの視覚特徴を組み合わせたコンパクトな視覚表現が実現された。
    • テスト時には,特にマスクベースの物体トークン数を削減することで,計算量を削減しつつ性能を維持できることが示された。
    • 本手法は,既存のトークン効率化手法と同等の性能を示し,オリジナルのLLaVAと同等の結果をより少ないトークン数で達成した。

    Link: https://arxiv.org/abs/2602.04864

  • 効率的な拡散のためのラミネート表現オートエンコーダ [cs.DL, cs.CV]目的:拡散モデルの効率化
    • 画像生成における拡散モデルの重要性が高まっている
    • DINOv2等のエンコーダによるパッチグリッドに冗長性が存在し,計算コストが高い
    • 冗長性を圧縮し,計算効率を向上させること
    • FlatDINOによって表現を圧縮し,シーケンス長を8分の1,次元数を48分の1に削減した。
    • ImageNet 256x256において,FlatDINOラテントで学習したDiT-XLは,gFID 1.80を達成した。
    • 推論および学習に必要なFLOPsを大幅に削減することに成功した。

    Link: https://arxiv.org/abs/2602.04873

  • PerpetualWonder:長期的な行動条件付き4Dシーン生成 [cs.CV]目的:単一画像からの長期的な行動条件付き4Dシーン生成
    • ロボット工学やコンピュータビジョンの発展には,現実世界を模倣したシミュレーション環境が不可欠である。
    • 既存手法では,物理状態と視覚表現が分離しており,その後のインタラクションのための物理演算の改善が困難である。
    • 物理状態と視覚表現を双方向に結びつけ,物理挙動と外観の両方を修正することで,長期的なインタラクションを可能とする。
    • PerpetualWonderは,物理状態と視覚表現を統合した閉ループシステムを初めて実現し,単一画像から複雑な多段階インタラクションをシミュレーションできる。
    • 本研究では,複数視点からの情報を活用するロバストな更新メカニズムを導入し,最適化の曖昧さを解消している。
    • 実験結果から,PerpetualWonderは物理的な妥当性と視覚的な一貫性を維持しつつ,長期的な行動を成功裏にシミュレーションできることが示された。

    Link: https://arxiv.org/abs/2602.04876

  • CoWTracker:相関ではなくワープによるトラッキング [cs.CV]目的:高密度点追跡手法
    • 動画解析やロボット操作など,コンピュータビジョンの基礎課題である。
    • 既存手法は空間解像度の2乗に比例する計算量が必要で,大規模データへの適用が困難である。
    • ワープを用いて効率的な追跡を実現し,長距離の対応付けを確立する。
    • 提案手法は,従来のコストボリュームを用いる方法を避け,ワープを利用することで高密度点追跡を行う。
    • Transformerアーキテクチャにより,全てのトラック間で時空間的な推論を行い,高い性能を達成した。
    • TAP-Vid-DAVIS,TAP-Vid-Kinetics,Robo-TAPなどの標準的なベンチマークで最先端の結果を示した。

    Link: https://arxiv.org/abs/2602.04877

  • 強化学習による注意機構の学習 [cs.CL, cs.CV, cs.LG]目的:大規模言語モデルにおける推論能力向上
    • LLMの性能向上は,自然言語処理の重要な課題であり,様々な応用を可能にする。
    • マルチモーダルLLMへの強化学習適用は,視覚情報の活用に課題があり,性能低下を招く場合がある。
    • 内部の注意機構を直接最適化することで,マルチモーダル入力における情報配分を改善し,性能向上を目指す。
    • RALは,出力トークンではなく内部の注意分布を最適化することで,GRPO等の既存手法を上回る性能を示す。
    • On-Policy Attention Distillationは,潜在的な注意行動の転移により,標準的な知識蒸留よりも強力なクロスモーダルアライメントを実現する。
    • 本研究は,マルチモーダルLLMのポストトレーニングにおいて,注意機構の最適化が有効なアプローチであることを示す。

    Link: https://arxiv.org/abs/2602.04884

  • パズルを解く:オフラインマルチエージェント強化学習のためのローカル・トゥ・グローバルな世界モデル [cs.AI, cs.GT, cs.LG]目的:オフラインマルチエージェント強化学習における協調的意思決定問題の解決
    • マルチエージェントシステムは現実世界の複雑な問題を解決する上で重要であり,協調的な行動を学習する必要がある。
    • 既存手法はデータ分布内に制約され,汎化性能が低く,データ範囲外の状況に対応できないという課題がある。
    • 学習した世界モデルを用いてデータ拡張を行い,より汎化性能の高い方策を学習することを目指す。
    • 提案手法では,推定が容易な局所予測を活用し,グローバルな状態遷移を推論するローカル・トゥ・グローバル(LOGO)世界モデルを提案した。
    • 不確実性を考慮したサンプリング機構を導入することで,合成データの信頼性を高め,方策学習における近似誤差の伝播を抑制した。
    • 8つのシナリオにおける実験結果から,提案手法が既存の最先端手法を凌駕し,汎化性能の高いオフラインマルチエージェント学習を実現できることが示された。

    Link: https://arxiv.org/abs/2601.07463

  • モビリティ・アズ・ア・サービス (MaaS) システム:多リーダー・多フォロワーゲームとしての単一レベル変分不等式 (VI) 形式化 [physics.plasm-ph, cs.DC, physics.comp-ph, cs.CL, cs.HC, econ.GN, cs.GT, math.OC, q-fin.EC]目的:モビリティ・アズ・ア・サービス (MaaS) システムの数理モデル
    • 都市交通の効率化と持続可能性が課題であり,MaaSはその解決策として注目されている。
    • MaaSシステムにおけるプラットフォーム,事業者,利用者の複雑な相互作用をモデル化することが困難である。
    • MaaSシステムの最適化と,関係者間の利益配分を同時に実現するモデルを構築すること。
    • 本研究では,仮想交通事業者を用いた単一レベル変分不等式 (VI) 形式化を提案し,大規模なMaaSシステムの解析を可能にした。
    • 卸売価格を調整することで,MaaSプラットフォーム,事業者,利用者の全員がより良い結果を得られる「三方よし」の状態を実現できることを示した。
    • 拡張されたマルチモーダル Sioux Falls ネットワークを用いた実験により,提案モデルと解法アルゴリズムのスケーラビリティが検証された。

    Link: https://arxiv.org/abs/2601.19880

  • 農業分野におけるインド言語向け自動音声認識のベンチマーク [math.CO, cs.DM, eess.AS, cs.AI, cs.CL, cs.SD]目的:インドの農業分野における自動音声認識システムの性能評価基準
    • インドの農業支援サービスのデジタル化が求められており,そのためには高精度な音声認識技術が不可欠である。
    • インドの多様な言語に対応した農業分野特有の用語認識における性能評価が十分ではない。
    • 農業分野における音声認識性能を客観的に評価し,改善のための指針を示す。
    • ヒンディー語が最も高い認識精度(WER: 16.2%)を示し,オディア語が最も課題が多い(最良WER: 35.1%)という結果が得られた。
    • 実環境の農業現場での録音特有の音質問題を特定し,話者分離技術の有効性を示した(最大66%のWER削減)。
    • 農業用語における誤認識パターンを分析し,低リソース環境での音声認識システム改善のための提言を行った。

    Link: https://arxiv.org/abs/2602.03868

  • DINO-AD:凍結されたDINO-V3特徴量を用いた教師なし異常検知 [eess.IV, cs.CV]目的:医療画像における異常領域の特定
    • 医療診断支援の効率化のため,ラベル付けコストを抑えた異常検知技術が求められている。
    • 既存手法では,異常部位の正確な特定や汎化性能に課題が残されている。
    • DINO-V3特徴量を利用し,高精度かつ解釈性の高い異常検知フレームワークを開発する。
    • 提案手法DINO-ADは,脳および肝臓データセットにおいて最先端手法を上回る高いAUROCスコア(最大98.71)を達成した。
    • 定性評価からも,DINO-ADがより明確で正確な異常領域の局所化能力を示すことが確認された。
    • 各構成要素の有効性が ablation study によって検証され,提案手法の頑健性と汎化性能が示された。

    Link: https://arxiv.org/abs/2602.03870

  • 病理基礎モデルからのトークンレベル表現は,高密度予測をどの程度向上させるか [eess.IV, cs.CV]目的:病理画像の高密度予測における,病理基礎モデルの性能評価
    • 病理診断支援において,AI技術の活用が期待されており,特に基礎モデルの重要性が高まっている。
    • 病理基礎モデルの性能はデータセットによって異なり,最適なモデル選択や調整方法が不明確である。
    • 様々な病理基礎モデルの性能を比較評価し,最適なモデル選択と調整方法を提示すること。
    • 大規模ベンチマークPFM-DenseBenchを構築し,18の公開セグメンテーションデータセットを用いて17の病理基礎モデルを評価した。
    • モデルの適応戦略やファインチューニング方法が,性能や安定性に影響を与えることを明らかにした。
    • 再現性のある評価を可能にするためのコンテナ,設定,データセットカードを公開した。

    Link: https://arxiv.org/abs/2602.03887

  • 動画ハイライト検出のための二重経路オーディオエンコーダ [eess.AS, cs.AI, cs.CV, cs.MM, cs.SD]目的:動画ハイライトの自動検出
    • 動画コンテンツの利用促進のため,重要な場面の自動抽出が不可欠である。
    • 既存手法では,音声情報を十分に活用できていない場合が多い。
    • 音響的な特徴量と意味的な特徴量を両立し,ハイライト検出性能の向上を目指す。
    • 提案手法であるDAViHDは,意味経路と動的経路を持つ二重経路オーディオエンコーダを採用している。
    • 動的経路は,周波数適応メカニズムにより時間変化する音響的特徴を捉え,過渡的な音響イベントを検出する。
    • 大規模なMr.HiSumベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2602.03891

  • 忍耐度の不均衡下における動的マッチング [econ.TH, cs.CY, cs.GT]目的:忍耐度の不均衡な二面プラットフォームにおける動的マッチング
    • プラットフォーム経済において,需給のマッチングは効率的な資源配分に不可欠である。
    • 需給の忍耐度(待ち時間許容度)に差がある場合,最適なマッチング戦略が複雑化する。
    • 忍耐度の不均衡下における分散型システムでの効率的なマッチングメカニズムを明らかにする。
    • 中央集権的な最適解は,高品質な供給を未来の高品質な需要のために温存する閾値ベースのルールに従う。
    • 分散型システムでは,エージェントの利己的な判断により,低品質な需要が利用可能な高品質な供給とマッチングする場合がある。
    • 適切な報酬分配調整により,分散型システムは中央集権的な最適解と完全に一致し,忍耐度を調整することで社会厚生が増加または減少する。

    Link: https://arxiv.org/abs/2602.03995

  • AtlasPatch:計算病理におけるホールスライド画像の前処理のための効率的かつスケーラブルなツール [eess.IV, cs.CV, q-bio.QM]目的:ホールスライド画像の前処理における組織検出とパッチ抽出の効率化
    • AIを活用した計算病理において,画像前処理は重要なステップである。処理速度が診断精度や効率に影響する。
    • 既存のツールは,組織検出の精度が低いか,計算コストが高いという課題がある。
    • 本研究では,高精度かつ低計算コストな組織検出とパッチ抽出を実現するツールを開発し,計算病理のワークフローを改善する。
    • AtlasPatchは,Segment-Anythingモデルを効率的にファインチューニングすることで,多様なデータセットに対して高精度な組織検出を実現した。
    • サムネイル画像から得られた組織マスクをフル解像度画像に適用することで,計算コストを削減し,高速なパッチ抽出を可能にした。
    • 最先端の性能と同等でありながら,計算コストを大幅に削減し,効率的な複数インスタンス学習をサポートする。

    Link: https://arxiv.org/abs/2602.03998

  • MS-SCANet:二重注意機構を用いたマルチスケールTransformerベースの画像品質評価アーキテクチャ [eess.IV, cs.CV, cs.MM]目的:無参照画像品質評価のためのアーキテクチャ
    • 画像処理技術の発展に伴い,高品質な画像評価の需要が高まっている。
    • 既存の評価手法は,参照画像が必要であったり,計算コストが高いなどの課題がある。
    • マルチスケール処理と注意機構により,効率的かつ高精度な無参照評価を実現する。
    • 提案手法MS-SCANetは,KonIQ-10k,LIVE,LIVE Challenge,CSIQなどのデータセットで,最先端手法を上回る性能を示した。
    • 二重分岐構造とクロスブランチ注意機構により,画像の詳細な特徴と全体的な構造を効果的に捉えることができた。
    • 新たに導入した一貫性損失関数は,特徴スケーリング中の空間的整合性を維持し,従来の線形・双線形手法よりも優れた結果をもたらした。

    Link: https://arxiv.org/abs/2602.04032

  • 最大最小相対改善:公平な学習を交渉問題として [stat.ML, cs.GT, cs.LG]目的:複数サブグループにわたる予測器の公平性確保
    • 社会の多様性を考慮した,公平な機械学習の重要性が高まっている。
    • 従来の公平性指標は,グループ間の予測可能性の差を考慮していない。
    • グループ間の規模や予測可能性の差に依存しない公平性の指標を提案する。
    • 本研究では,公平性をサブグループ間の交渉問題として捉え,相対改善という新たな指標を提案した。
    • 相対改善は,既存のロバスト最適化手法を包含し,Kalai-Smorodinsky解を回復することが示された。
    • 提案手法は,絶対的な規模に依存せず,個々のグループの予測性能向上を考慮する点で優れている。

    Link: https://arxiv.org/abs/2602.04155

  • 非滑らかな関数に対する改良ブースト型DCアルゴリズムと画像復元への応用 [math.OC, cs.CV]目的:非滑らか関数を含む非凸問題に対するブースト型DCアルゴリズムの改善
    • 画像処理を含む最適化問題において,DC分解は有効な手法である。より効率的な解法が求められている。
    • 従来のブースト型DCアルゴリズムは,非滑らか関数を伴う場合に方向が上昇し,線探索が困難になる問題があった。
    • 本研究では,特定の非滑らかDC問題に対して,単調な線探索が可能な改良型ブーストDCアルゴリズムを提案する。
    • 提案手法(IBDCA)は,得られる点列のクラスターポイントが問題の臨界点となることを示した。
    • IBDCAは,目的関数値を単調に減少させ,収束させることを理論的に保証した。
    • 画像復元への応用実験により,IBDCAが既存のDC手法よりも計算時間と反復回数で優れていることを確認した。

    Link: https://arxiv.org/abs/2602.04237

  • クロスドメイン音声認識・音響強調のための汎用的なロバストな音声適応 [eess.AS, cs.CL, cs.LG, cs.SD]目的:クロスドメインにおける音声認識と音響強調の性能劣化軽減
    • 音声認識や音響強調は,様々なアプリケーションにおいて重要であり,その性能向上が求められている。
    • 既存モデルは,未知のノイズやチャンネル特性に遭遇すると,性能が著しく低下するという課題がある。
    • ノイズとチャンネル条件の不一致による性能劣化を軽減し,汎化性能を高めることを目指す。
    • 提案手法URSA-GANは,ノイズとチャンネルのエンコーダを用いた二重埋め込み構造により,ドメイン固有の特徴を捉える。
    • URSA-GANは,GANベースの音声生成器を条件付け,音声の内容を保持しつつ,ターゲットドメインに音響的に整合した音声を合成する。
    • 動的確率的摂動により,生成時の埋め込みに制御された変動を導入し,未知のドメインへのロバスト性を向上させている。

    Link: https://arxiv.org/abs/2602.04307

  • 複雑ネットワークにおける協力と疫病拡散の共進化に対する異質性の影響 [physics.soc-ph, cs.GT, q-bio.PE]目的:協力と疫病拡散の共進化における異質性の影響の解明
    • 集団免疫の力学は,集団的行動と疾病伝播の相互作用に依存する。そのメカニズム解明は公衆衛生上重要である。
    • 異質性がどのようにアウトカムに影響を与えるか不明確な点が残されており,対策立案の妨げとなっていた。
    • ネットワーク構造や感染コストの異質性が協力と疫病拡散に及ぼす影響を明らかにし,効果的な介入策の提言を目指す。
    • 構造的異質性は協力と疾病抑制を促進する触媒として機能することが示された。ハブノードの自己利益による防御戦略が影響する。
    • 一方,個人の感染コストの異質性は協力関係を損ない,疫病を増幅させることがわかった。これが「弱点」問題を引き起こす。
    • 異質性は両刃の剣であり,影響は影響力の非対称性か動機づけの非対称性によって決まる。ハブノードへの介入とインセンティブの均質化が推奨される。

    Link: https://arxiv.org/abs/2602.04481

  • 多岐にわたる音声対話における安全性評価のための大規模オーディオ言語モデルのベンチマーク:LALMをジャッジとして [eess.AS, cs.SD]目的:多岐にわたる音声対話における安全性評価のための大規模オーディオ言語モデルの性能評価
    • 音声エージェントとの対話が増加する中,倫理的配慮に基づいた安全性評価が重要となっている。
    • 従来の安全性評価はテキスト中心であり,音声特有の情報や書き起こしエラーが考慮されていない。
    • 音声とテキストの両方を活用し,安全性評価の精度向上を目指す。
    • 大規模オーディオ言語モデル(LALM)を安全性評価ジャッジとして活用するベンチマーク「LALM-as-a-Judge」を構築した。
    • LALMの安全性検出感度,重症度順序の正確性,対話ターン間の安定性を評価した結果,アーキテクチャや入力モダリティによってトレードオフが存在することが示された。
    • 書き起こし品質が重要なボトルネックであり,Whisper-Large等の利用が感度低下を抑制する可能性があることが明らかになった。

    Link: https://arxiv.org/abs/2602.04796

  • ZipLoRA:効果的なLoRAの融合によるあらゆる被写体とスタイルの生成 [cs.CV, cs.GR, cs.LG]目的:生成モデルの被写体・スタイル制御のためのLoRA融合手法
    • 生成モデルのパーソナライズは,多様なコンテンツ生成を可能にするため重要である。
    • 既存のLoRA融合技術では,被写体とスタイルの両方の品質を維持することが困難である。
    • ZipLoRAは,被写体とスタイルの忠実性を損なわずに,任意の組み合わせを実現することを目指す。
    • ZipLoRAは,独立に学習されたスタイルと被写体のLoRAを効果的に融合する手法である。
    • 多様な被写体とスタイルの組み合わせで実験を行い,ベースラインと比較して,被写体とスタイルの忠実度が向上することを示した。
    • ZipLoRAは,文脈の再設定能力を維持しながら,魅力的な結果を生成できる。

    Link: https://arxiv.org/abs/2311.13600

  • 過去情報の活用:協調型鳥瞰視点予測における時間埋め込み [cs.CG, cs.CV]目的:協調型鳥瞰視点予測におけるBEVマップセグメンテーションの品質と信頼性向上
    • 自動運転において,安全かつ能動的なナビゲーションを実現するには,正確なBEVセグメンテーションが不可欠である。
    • 従来の協調型知覚アルゴリズムは,過去の観測情報という重要な情報を無視しているという課題がある。
    • センサー障害や通信問題発生時における性能低下を抑制し,BEVマップセグメンテーションを改善することを目指す。
    • 提案手法TempCoBEVは,既存の協調型知覚モデルに容易に組み込むことができる独立した時間モジュールである。
    • OPV2Vデータセットを用いた実験により,TempCoBEVは,特に通信障害時において,現在のBEVマップセグメンテーションと将来予測において,非時間モデルを上回る性能を示すことが確認された。
    • TempCoBEVは,最適な通信条件下で最大2%,通信障害下で最大19%の予測精度向上を実現し,過去の情報を現在のBEVマップに統合する有効性を示した。

    Link: https://arxiv.org/abs/2401.14325

  • パノガボールを用いた360度深度推定の再検討:新たな融合の視点 [cs.CV]目的:単眼360度画像からの深度推定
    • 360度画像は全3D環境の認識に不可欠であり,VR/AR等の応用において重要性が増している。
    • 360度画像の固有の歪みや広い視野角が,正確な深度推定を困難にしている。
    • 歪みを考慮した特徴抽出と融合により,高精度な360度深度推定を実現することを目指す。
    • 提案手法PGFuseは,Gaborフィルタと歪み補正モジュールを組み合わせ,高精度な深度推定を可能にした。
    • PanoGaborフィルタは,歪みを考慮して設計されており,特徴抽出における歪みの影響を軽減する。
    • CS-UFMモジュールは,異なる表現形式を統合し,歪みのない特徴量をERP形式で出力する。

    Link: https://arxiv.org/abs/2408.16227

  • 欠損モダリティを持つ深層多Modal学習:サーベイ [cs.CV, cs.AI, cs.LG]目的:欠損モダリティ下における深層多Modal学習手法の現状と課題
    • 現実世界のデータは,センサの制約やプライバシー保護により不完全になりがちである。
    • モダリティ欠損は,多Modalモデルの性能低下を招く大きな要因となっている。
    • 欠損モダリティにロバストなモデルを構築し,性能劣化を抑制すること。
    • 本サーベイは,欠損モダリティ下での多Modal学習(MLMM)の動機と標準的な多Modal学習との違いを明確にした。
    • 現在のMLMM手法,応用事例,データセットについて詳細な分析を行った。
    • MLMMの課題と将来の展望について議論し,今後の研究方向性を示唆した。

    Link: https://arxiv.org/abs/2409.07825

  • 準媒介距離場(Q-MDF):ニューラル媒介軸の近似と離散化のための堅牢な手法 [cs.CV, cs.GR]目的:形状の外部構造を捉える低次元記述子である媒介軸の近似と離散化
    • デジタル幾何学処理において,形状の構造把握や解析に不可欠な役割を果たす。
    • 特に欠陥のある点群のような多様な入力に対して,媒介軸変換を堅牢に計算することが難しい。
    • 複雑なメッシュや点群からのコンパクトな媒介軸変換の学習における精度と堅牢性を向上させる。
    • 提案手法は,従来の明示的な媒介軸計算とは異なる,暗黙的な再構成問題として媒介軸抽出を定式化する。
    • 符号付き距離場(SDF)と媒介場(MF)の差分が,形状の媒介軸の非符号付き距離場(UDF)と関係があるという知見を利用する。
    • 実験結果から,提案手法は既存手法を上回り,困難な形状からの媒介軸変換において高い精度と堅牢性を示す。

    Link: https://arxiv.org/abs/2410.17774