arXiv雑要約

画像・音声 - 2026/05/27 公開

  • 固定点と確率的成果主義:長期的な視点 [cs.CY, cs.GT, physics.soc-ph]目的:成果主義による選抜が優位性を永続させるメカニズムの分析
    • 社会における公平性の確保は,機会均等という観点から重要である。
    • 選抜過程における偏りが,世代を超えて不公平を固定化する可能性がある。
    • 公平性を損なうことなく,成果主義に基づく選抜を設計するための条件を明確化する。
    • 完全に対称的な状況下でも,初期条件のわずかなランダム性から不均衡が生じることが示された。
    • 優位性を確立した集団がわずかに優遇される場合,不均衡が確率的に発生し,永続化する。
    • プログラムの希少性や効果が,不均衡の持続または是正に影響を与えることが分析された。

    Link: https://arxiv.org/abs/2510.07478

  • SpaceVista:mmからkmまでの全スケール視覚空間推論 [cs.CV]目的:全スケール空間推論の実現
    • ロボティクスや自動運転など,多様な応用において空間認識能力は不可欠である。
    • 既存研究は屋内3Dスキャンに依存し,データセット構築に労力がかかるという課題がある。
    • 異なるスケールのシーンを効果的にモデル化し,汎化性能の高い空間推論モデルを構築することを目指す。
    • SpaceVista-1Mという,約100万件の空間QAペアを含む新しいデータセットを構築した。
    • スケールをアンカーとした専門家モデルと段階的な報酬を用いたSpaceVista-7Bモデルを開発した。
    • 5つのベンチマークにおける評価で競争力のある性能を示し,全スケール,全シナリオでの高い汎化性能を実証した。

    Link: https://arxiv.org/abs/2510.09606

  • ParsVoice:テキスト読み上げ合成のための大規模多話者ペルシャ語音声コーパス [cs.SD, cs.AI, cs.HC, cs.LG]目的:多話者テキスト読み上げ(TTS)システム学習用ペルシャ語音声テキストコーパス
    • ペルシャ語の音声データは限られており,音声技術の発展が遅れている。
    • 公開されているペルシャ語のTTSデータセットが小さく,高性能なTTSシステム構築が困難である。
    • 大規模な高品質なペルシャ語音声テキストコーパスを構築し,TTS研究を促進すること。
    • ParsVoiceは,2200時間のTTS準備完了サブセットを含み,既存のデータセットの25倍以上の規模である。
    • コーパスを用いてXTTSをファインチューニングした結果,自然度MOSが3.6/5,話者類似性MOSが4.0/5を達成した。
    • データセットはHugging Faceで公開されており,利用可能である。

    Link: https://arxiv.org/abs/2510.10774

  • VERA-V:Vision-Languageモデルの脱獄のための変分推論フレームワーク [cs.CR, cs.CL, cs.CV, cs.LG, stat.ML]目的:Vision-Languageモデルの脱獄プロンプトの学習と生成
    • 画像とテキストを扱うVLMsは,LLMsの能力を拡張する一方,新たな脆弱性を持ちうる。
    • 既存の手法は,脆弱なテンプレートに依存し,単一攻撃に焦点を当て,検出できる脆弱性の範囲が限定的である。
    • 多様な脱獄プロンプトを効率的に生成し,VLMsの脆弱性に関する分布的な知見を得ることを目指す。
    • VERA-Vは,テキストと画像のペアを組み合わせた,よりステルス性の高い攻撃を可能にする。
    • HarmBenchおよびHADESベンチマークにおいて,オープンソースおよび最先端のVLMsに対して,最先端の手法を上回る性能を示した。
    • GPT-4oに対しては,最高性能のベースラインを最大53.75%上回る攻撃成功率(ASR)を達成した。

    Link: https://arxiv.org/abs/2510.17759

  • UltraCUA:ハイブリッドアクションによるコンピュータ利用エージェントのための基盤モデル [cs.CV, cs.CL]目的:コンピュータ利用エージェントにおけるハイブリッドアクションの実現
    • コンピュータ利用エージェントの自動化は,生産性向上やアクセシビリティ向上に不可欠である。
    • 既存エージェントはGUI操作のみに依存し,堅牢性に欠け,エラーに弱いという課題がある。
    • GUI操作と高レベルなツール実行を統合し,より堅牢で適応性のあるエージェントを開発すること。
    • UltraCUAは,GUI操作とツール実行をシームレスに統合するハイブリッドアクションを実現した基盤モデルである。
    • OSWorldデータセットにおいて,既存手法と比較して22%の相対的な性能向上と11%の実行速度向上を達成した。
    • WindowsAgentArenaにおけるクロスドメイン検証では,21.7%の成功率で,Windowsで学習されたベースラインモデルを上回った。

    Link: https://arxiv.org/abs/2510.17790

  • 心血管センサーパッチのためのエンドツーエンドマルチモーダルTiny-CNNのプロトタイピング [cs.LG, cs.CV]目的:心血管疾患の早期兆候検出のための深層学習モデルの実現可能性
    • 心血管疾患は予防可能であり,早期発見が重要であるため,継続的なモニタリングが求められる。
    • ウェアラブルセンサーからのデータ解析には,高い堅牢性,信頼性,効率性,精度が課題となる。
    • 省電力で高精度な深層学習モデルを,医療エッジデバイスに実装し,エネルギー効率を改善すること。
    • 提案手法は,最先端の手法と比較して,メモリフットプリントと計算コストを約3桁削減できる。
    • Physionet Challenge 2016データセットを用いた評価で,競争力のある精度を維持していることが示された。
    • デバイス上での推論は,継続的なデータストリーミングよりもエネルギー効率が良いことが確認された。

    Link: https://arxiv.org/abs/2510.18668

  • PRBench:確率的ロバスト性評価の標準ベンチマーク [cs.SI, cs.CY, cs.CV, cs.LG]目的:確率的ロバスト性向上のための様々なロバスト性学習手法の評価
    • 深層学習モデルの脆弱性は重要な課題であり,実用的な応用において信頼性を高める必要がある。
    • 確率的ロバスト性(PR)の評価手法が統一されておらず,既存手法の比較が困難である。
    • PRBenchは,PRの向上を目指す様々な手法を比較し,汎化性能を評価することで,その課題を解決する。
    • 敵対的学習(AT)は,多様なハイパーパラメータ設定において,ARとPRの両方の性能向上に有効である。
    • PRを対象とした学習手法は,一貫して低い汎化誤差と高いクリーン精度を達成する。
    • PRBenchのリーダーボードには,7つのデータセットと10のモデルアーキテクチャで学習された229個のモデルが含まれている。

    Link: https://arxiv.org/abs/2511.01724

  • LaRe:多Modal推論のための潜在的リフォーカシング [cs.CV, cs.CL]目的:多Modal推論における潜在的リフォーカシングのメカニズム
    • 画像とテキストを組み合わせた推論は,AIの応用範囲を広げ,より高度な問題解決を可能にする重要な研究分野である。
    • 既存手法では,計算コストと推論精度の間にトレードオフが存在し,効率的な画像リフォーカシングが課題となっていた。
    • 潜在空間内での動的な画像リフォーカシングを実現し,計算効率と精度を両立させることで,多Modal推論の性能向上を目指す。
    • LaReは,既存のベースラインと比較して平均精度を7.6%向上させることが示された。
    • 推論に必要なトークン数を59.7%削減することで,計算効率の改善も達成された。
    • 80億パラメータのVision-Language Modelに適用した場合,最先端手法と同等の性能を発揮した。

    Link: https://arxiv.org/abs/2511.02360

  • 価値最大化入札者の協調 [cs.GT]目的:オンライン広告プラットフォームにおける複数自動入札者の協調問題
    • オンライン広告市場の効率化には,自動入札戦略の最適化が不可欠である。
    • 既存研究では独立入札が主流だが,複数の入札者の協調による効果は未解明である。
    • 協調入札メカニズムを構築し,独立入札と比較してその優位性を示す。
    • 理論モデルにおいて,最も価値の高い入札者のみが競合する協調メカニズムが独立入札を上回ることが示された。
    • シミュレーションにより,合成データおよび実データで協調入札が独立入札よりも高い費用対効果と価値を獲得することが確認された。
    • 本研究は,オンラインオークションにおける協調自動入札の理論的潜在力と実用的な堅牢性を示唆する。

    Link: https://arxiv.org/abs/2511.04993

  • 低線量CTによる心血管リスク評価のための疾患間推論の説明可能性 [cs.CV, cs.AI, cs.LG]目的:低線量CTからの心血管リスク評価
    • 肺と心血管の健康状態を同時に評価することで,包括的な健康管理が可能となるため重要である。
    • 既存手法では,肺と心血管を独立にモデル化しており,生理的な相互作用が明確に表現されていない。
    • 本研究は,肺の所見と医療知識に基づいて心血管リスクを評価する説明可能な枠組みを提案する。
    • 提案手法は,National Lung Screening Trialコホートにおいて,心血管疾患スクリーニングのAUCで0.919を達成した。
    • 心血管疾患死亡予測においてもAUC 0.838を達成し,既存手法を上回る性能を示した。
    • 心血管リスク評価において,肺の所見と医療知識に基づいた説明可能な推論が可能となった。

    Link: https://arxiv.org/abs/2511.06625

  • 音響シーンの空間的意味的セグメンテーションのための指標分析 [cs.SD]目的:音響シーンの空間的意味的セグメンテーションシステムの評価
    • 音響シーン理解は,ロボットや自動運転など,様々な応用分野において重要性を増している。
    • 既存の評価指標は分離と分類の性能を個別に評価するため,システム全体の比較が困難である。
    • 分離性能に焦点を当てた,より解釈性の高い評価指標を提案し,評価の改善を目指す。
    • 提案手法であるCASA-SDRは,分類誤差の影響を受けにくく,分離性能をより正確に評価できることが示された。
    • CA-SDRはラベルの入れ替わりや分離性能の低い場合に過剰なペナルティを与える傾向があることが明らかになった。
    • DCASE 2025チャレンジのTask 4の結果を用いて,CASA-SDRの有効性が実証された。

    Link: https://arxiv.org/abs/2511.07075

  • カンディンスキー5.0:画像および動画生成のための基盤モデル群 [cs.CL, cs.CV, cs.AI, cs.LG]目的:高解像度画像および10秒動画合成のための基盤モデル群
    • 画像生成技術は,コンテンツ制作,デザイン,エンターテイメントなど様々な分野で重要な役割を担う。
    • 既存の生成モデルは,生成速度や品質において課題があり,実用的な応用が制限される場合がある。
    • 高品質な画像・動画を高速に生成可能なモデルを開発し,生成AIの応用範囲を拡大すること。
    • カンディンスキー5.0は,画像生成モデル(60億パラメータ)と動画生成モデル(20億/190億パラメータ)を含む一連のモデル群を提供する。
    • データ収集・処理・フィルタリング・クラスタリングを含むデータキュレーションのライフサイクルを詳細に検討し,高品質なモデルの学習を実現した。
    • アーキテクチャ,学習,推論の最適化により,高速な生成速度と最先端の性能を達成し,人間による評価でも高い評価を得た。

    Link: https://arxiv.org/abs/2511.14993

  • 画像ごとの低ランクからエンコーディング不一致へ:Vision Transformerにおける特徴蒸留の再考 [cs.CV]目的:Vision Transformerにおける特徴蒸留の失敗とその改善策に関する研究
    • 画像認識において,Vision Transformerは高い性能を示すが,モデル圧縮が課題となっている。
    • 特徴マップ知識蒸留は有効だが,モデル圧縮時には性能が低下することが知られている。
    • エンコーディング不一致という現象を特定し,その対策を提案することで,圧縮時の性能低下を解消することを目指す。
    • 各画像は低ランクで圧縮可能であるにもかかわらず,教師モデルは入力ごとに異なる低ランク部分空間の集合体であるという矛盾を明らかにした。
    • トークンレベルでのスペクトルエネルギーパターン(SEP)分析により,エンコーディング不一致が生じる原因が,チャネルモードへのエネルギー拡散にあることを示した。
    • 提案手法であるLiftまたはWideLastを用いることで,特徴蒸留によるViT圧縮性能が大幅に向上し,蒸留なしの学習においても効果が確認された。

    Link: https://arxiv.org/abs/2511.15572

  • 効率的なVLA推論のためのビジュアルトークン剪定における意味-行動のギャップの架橋 [cs.CV, cs.AI]目的:ビジュアルトークン剪定によるVLA推論の効率化
    • VLAモデルは,視覚認識,言語理解,行動実行を統合し,具現化されたAIの可能性を秘めている。
    • リアルタイムでの展開において,VLAモデルは高い計算コストを伴う。
    • VLA推論特有の注意パターンに対応したトークン剪定手法による性能低下の抑制。
    • VLA-Prunerは,意味的プレフィリングと時間的に平滑化された行動関連性の両方からビジュアルトークンの重要性を推定する。
    • Combine-then-Filter戦略により,計算予算内でコンパクトで冗長性の低いトークンを保持する。
    • 複数のVLAアーキテクチャで最先端のアプローチを上回り,最長1.99倍の高速化を達成し,同等の操作品質を維持する。

    Link: https://arxiv.org/abs/2511.16449

  • 拡散モデルとフローベースモデルによる表現アライメントを用いた逆問題解決 [cs.CV, cs.LG]目的:逆問題における拡散モデルやフローベースモデルの表現アライメント
    • 画像生成モデルの性能向上には,事前学習済みの特徴抽出器との整合性が重要である。
    • 逆問題では正解データが存在しないため,再構成の質が向上しにくいという課題がある。
    • 事前学習済みの生成モデルを逆問題に適用する際の再構成品質の向上を目指す。
    • 拡散モデルまたはフローベースモデルとDINOv2ビジュアルエンコーダ間の表現アライメント(REPA)を適用することで,再構成過程を誘導できる。
    • REPA正則化は,DINOv2埋め込み空間における発散の最小化のための変分アプローチと見なせる。
    • REPA更新は,特定の規則性仮定の下で,潜在拡散状態をクリーン画像のそれへと導く。

    Link: https://arxiv.org/abs/2511.16870

  • 効率的な転移可能最適輸送:最小スライス輸送計画による [cs.CV]目的:分布間の対応付けと整合性のための最適輸送の効率化
    • 最適輸送は,画像処理など多様な分野で分布間の対応を見つける強力な手法である。
    • 最適輸送の計算コストは高く,大規模データへの適用が課題となっている。
    • 学習済みスライサーが分布の変化に対してどの程度有効かを検証し,効率的な転移学習を目指す。
    • 最適化されたスライサーは,データ分布のわずかな摂動下でも安定しており,関連タスクへの転移が可能である。
    • ミニバッチ化されたmin-STPは,スケーラビリティを向上させつつ,精度の統計的保証を提供する。
    • 転移可能なmin-STPは,ワンショットマッチング性能に優れ,点群アライメントや生成モデリングを促進する。

    Link: https://arxiv.org/abs/2511.19741

  • ユニークな生活,共有された世界:シングルライフ動画からの学習 [cs.CV]目的:シングルライフ動画を用いた視覚モデルの学習
    • 視覚モデルの性能向上は,ロボット工学や自動運転など様々な分野の発展に不可欠である。
    • 多様なデータセットが必要だが,データの収集・アノテーションにはコストがかかるという課題がある。
    • 個人による動画データから,効率的に汎化性能の高い視覚表現を獲得することを目指す。
    • 異なる個人のシングルライフ動画で学習させたモデルは,幾何学的な理解において高い整合性を示すことが確認された。
    • シングルライフモデルは,未知環境における深度推定などの下流タスクに対して,汎化性の高い幾何学的表現を学習する。
    • 同一人物の1週間の動画(最大30時間)での学習は,多様なウェブデータ(30時間)での学習と同等の性能を達成する。

    Link: https://arxiv.org/abs/2512.04085

  • ガウスVAEによる学習不要のベクトル量子化 [cs.LG, cs.CV]目的:ベクトル量子化変分オートエンコーダの性能向上
    • 画像圧縮における表現学習の重要性が高まっており,特に離散表現を用いた手法が注目されている。
    • 従来のベクトル量子化変分オートエンコーダは,離散化処理が訓練を困難にするという課題があった。
    • ガウスVAEを変換することで,追加学習なしに高精度なベクトル量子化を実現することを目指す。
    • 提案手法Gaussian Quant (GQ)は,既存のVQ-VAEよりもUNetおよびViTアーキテクチャにおいて優れた性能を示した。
    • GQは,コードブックサイズとガウスVAEのビットバックコーディングレートの関係を理論的に保証し,量子化誤差を抑制する。
    • Target Divergence Constraint (TDC)は,ガウスVAEの訓練を改善し,既存の離散化手法の性能も向上させる。

    Link: https://arxiv.org/abs/2512.06609

  • LiM-YOLO:光学リモートセンシングにおける船舶検出のためのピラミッドレベルシフトによる少ない要素でより良い結果 [cs.CV, eess.IV]目的:光学リモートセンシング画像における船舶検出のための効率的かつ高精度な検出器の開発
    • 衛星画像による船舶検出は,海上安全保障や海洋資源管理において重要である。
    • 既存の汎用オブジェクト検出器は,船舶の小型化や高アスペクト比に対応しきれない場合がある。
    • ピラミッドレベルシフト戦略により,より効率的な特徴表現を獲得し,検出精度を向上させる。
    • 提案手法LiM-YOLOは,従来のYOLOv9よりもパラメータ数を64.1%削減し,2116万パラメータでmAP_{50-95} 0.600を達成した。
    • ピラミッドレベルシフト戦略は,ナイキスト・シャノン原理に基づき,最小の対象物でも空間表現性を確保する。
    • グループ正規化補助投影モジュールにより,高解像度衛星画像入力における学習の安定化を実現した。

    Link: https://arxiv.org/abs/2512.09700

  • SketchAssist:セマンティック編集と正確な局所再描画のための実用的なアシスタント [cs.DC, cs.CV]目的:セマンティック編集と局所再描画の効率的かつ制御可能な操作
    • 線画は情報量が少なく,グローバルな変更と微細な制御を両立させることが難しい。
    • 既存手法では,セマンティックな修正と構造的制御の整合性が不十分である。
    • 指示に基づいた編集と線画に基づいた再描画を統合し,一貫性を保ちつつ編集を可能にする。
    • SketchAssistは,指示と線画ガイドを用いてスケッチを操作する統一的なフレームワークを提案する。
    • Task-guided Mixture-of-Experts(T-MoE)をLoRA層に統合し,セマンティックと構造的ガイダンスを適応的に制御する。
    • 実験により,指示への高い適合性,構造とスタイルの整合性の向上が確認された。

    Link: https://arxiv.org/abs/2512.14140

  • データ欠損?問題なし:欠損値に対応するロバストなビジョン・テーブル学習 [cs.CV]目的:欠損値を含む状況下におけるビジョン・テーブル学習のロバスト性の向上
    • 医療画像と臨床データの組み合わせは,疾患診断や治療において重要な役割を果たす。
    • 実際のデータセットでは,テーブルデータの属性が全て揃っているとは限らず,欠損値が課題となる。
    • 様々なテーブルデータ欠損率下でも安定した性能を発揮する学習手法を開発する。
    • RoVTLは,コントラスティブ事前学習と新しい損失関数によって,テーブルデータの欠損に対するロバスト性を実現した。
    • UK Biobankの心臓MRIデータを用いた実験で,既存手法と比較して優れたロバスト性が確認された。
    • 他の心臓MRIデータセットや自然画像データセットへの適用でも,高い汎化性能とロバスト性が示された。

    Link: https://arxiv.org/abs/2512.19602

  • 緊急および集中治療における不均衡な表形式臨床データに対する機械学習の頑健性とスケーラビリティに関する実証研究 [cs.LG, cs.CV]目的:緊急および集中治療における不均衡な表形式臨床データに対する機械学習モデルの性能評価
    • 救急部門や集中治療室では,迅速かつ正確な判断が求められるため,機械学習による支援が重要である。
    • 臨床データは不均衡であることが多く,多数派クラスに偏ったモデルとなり,予測性能が低下する。
    • 不均衡な臨床表形式データに対する,頑健かつ効率的なモデルの開発を目指す。
    • MIMIC-IV-EDデータセットでは,TabPFN v2.6とTabICLが最も高い平均Macro F1スコアを示し,XGBoostも競争力があった。
    • eICUデータセットでは,XGBoostが常に最良の性能を示し,他の決定木ベースの手法が続いた。ファウンデーションモデルは中間の性能を示した。
    • TabNetは不均衡の増加に伴い性能が最も低下し,計算コストも高かった。決定木ベースの手法はデータセットサイズに応じてスケールしやすく,ファウンデーションモデルはタスク適応コストが低い。

    Link: https://arxiv.org/abs/2512.21602

  • トークン疎な拡散モデルの誘導 [cs.DC, cond-mat.mtrl-sci, cs.CL, cs.CV]目的:拡散モデルにおける推論時の性能向上
    • 画像生成において高品質な結果を得られる拡散モデルだが,計算コストが高い点が課題である。
    • 既存の疎な訓練手法では,推論時にClassifier-free Guidanceへの応答性が低く,性能が低下する。
    • トークンレベルの疎性を活用し,推論時の性能低下を改善し,計算効率を高めることを目指す。
    • 提案手法であるSparse Guidance(SG)は,従来の条件付きドロップアウトではなく,トークンレベルの疎性を利用することで,条件予測の分散を維持し,高品質な出力を実現する。
    • ImageNet-256ベンチマークにおいて,FLOPsを25%削減しつつ,FIDを1.58で達成,または同等の品質を維持しつつ最大58%のFLOPs削減を可能にした。
    • 2.5Bのテキスト-画像拡散モデルの実験で,SGは画像の構成と人間の好みを改善し,同時にスループットを向上させることを示した。

    Link: https://arxiv.org/abs/2601.01608

  • 画像から動画生成における直接軌道アライメントによるGRPOの強化 [cs.CV]目的:画像から動画生成におけるGRPOの性能向上
    • 動画生成技術は,多様な応用分野で重要性を増しており,高品質な動画生成が求められている。
    • 画像から動画生成モデルへのGRPOの直接的な適用は,一貫した報酬改善をもたらさない場合がある。
    • 同一初期ノイズからのロールアウト動画を利用し,高報酬軌道への直接アライメントを促進することで性能向上を目指す。
    • 提案手法TAGRPOは,中間潜在空間における新たなGRPO損失関数を適用し,高報酬軌道とのアライメントを促す。
    • ロールアウト動画のメモリバンクを導入することで,多様性を高め,計算コストを削減する。
    • 画像から動画生成において,DanceGRPOと比較して顕著な性能向上が確認された。

    Link: https://arxiv.org/abs/2601.05729

  • 見る versus 信じる:反直感的シーンにおけるオープンソースMLLMの言語バイアス評価 [cs.RO, cs.CV, cs.AI]目的:反直感的な視覚的行動に関するベンチマークにおける,オープンソースMLLMの言語バイアス
    • 視覚理解はAIの重要な能力であり,現実世界とのインタラクションに不可欠である。
    • 既存のMLLMは,常識に反する視覚的シーンの処理能力が十分に検証されていない。
    • 視覚情報よりも言語情報に偏った判断を下す,オープンソースMLLMの課題解決。
    • 人間の精度はほぼ完璧(0.95)であり,商用モデルも高い理解度(最大0.88)を示した。
    • 標準的なオープンソースモデルは偶然レベルの性能にとどまり,言語バイアスの影響が示唆された。
    • ファインチューニングや構造化プロンプトにより,言語バイアスを軽減し,視覚的根拠に基づいた推論が可能となった。

    Link: https://arxiv.org/abs/2601.07737

  • ソースフリーな地理空間点群のセマンティックセグメンテーションのためのドメイン適応 [cs.CL, cs.CV]目的:地理空間点群のセマンティックセグメンテーションにおけるドメインシフトへの対応
    • リモートセンシング技術の発展に伴い,3D点群データの活用が不可欠となっている。
    • 地域や取得方法の違いによるドメインシフトが,セグメンテーション精度を低下させる。
    • ソースデータへのアクセスが困難な状況下でもドメイン適応を可能にする手法の開発。
    • 提案手法LoGoは,教師なしドメイン適応(SFUDA)フレームワークであり,ソースデータなしで高い性能を発揮する。
    • ローカルレベルでは,クラスバランスを考慮したプロトタイプ推定モジュールにより,少数クラスの表現能力を向上させている。
    • グローバルレベルでは,最適輸送に基づく分布アラインメントにより,多数クラスへの偏りを抑制し,より正確な擬似ラベルを生成している。

    Link: https://arxiv.org/abs/2601.08375

  • DSA-Tokenizer:フローマッチングに基づく階層的融合による,分離された意味・音響トークン化 [cs.CL, cs.SD, cs.AI, eess.AS]目的:離散的な意味および音響トークンへの音声の分離
    • 近年,大規模言語モデルを音声に適用する上で,音声トークナイザが重要な役割を担っている。
    • 既存のトークナイザは,意味表現の優先,意味と音響の不可分な融合,または不完全な分離に課題がある。
    • 意味と音響を明示的に分離し,高忠実度な再構成と発話者クローンを可能にすることを目指す。
    • DSA-Tokenizerは,意味と音響の強力な分離を実現し,信頼性の高い制御可能な音声クローニングを可能にする。
    • DiTデコーダーの知識蒸留により,推論ステップ数を削減し,GANによるファインチューニングで合成品質を向上させた。
    • 分離されたトークン化は,下流の大規模モデル音声生成のための,より効果的なインターフェースを提供する。

    Link: https://arxiv.org/abs/2601.09239

  • CLIP様ビジョン言語モデルにおける左右対称性の破れ:合成空間関係データによる学習 [cs.CV, cs.AI, cs.LG]目的:ビジョン言語モデルにおける空間理解のメカニズム解明
    • 視覚と言語を結びつける能力は,AIの高度化に不可欠であり,様々な応用への発展が期待される。
    • 既存モデルでは,空間関係の理解が表面的なものであり,汎用性に課題が残されている。
    • CLIP様モデルがどのように空間関係を学習し,左右対称性を獲得するのかを明らかにすること。
    • コントラスト学習によって,モデルが左右関係を学習することが確認された。
    • ラベルの多様性が,レイアウトの多様性よりも汎化性能に大きく貢献することが示された。
    • 位置埋め込みとトークン埋め込み間の相互作用が,左右対称性を破る水平方向の注意勾配を誘発することが明らかになった。

    Link: https://arxiv.org/abs/2601.12809

  • Drive-P2D:自動運転におけるVLMsのための段階的知覚から意思決定へのベンチマーク [cs.AI, cs.CV, cs.RO]目的:自動運転におけるVLMsの知覚と意思決定能力の評価
    • 自動運転技術は,安全で効率的な交通システムの実現に不可欠である。
    • 既存のベンチマークは,知覚と意思決定を分離して評価し,エラー分析が困難である。
    • 知覚から意思決定までの段階的な能力評価とエラー分析を可能にするベンチマークの提供。
    • Drive-P2Dは,オブジェクト,シーン,意思決定のレベルで6,650の質問を含む,段階的な知覚から意思決定へのベンチマークである。
    • 主流のVLMsを評価し,相関分析と類似シーンの頑健性テストを通じて知覚から意思決定への能力境界を特徴付けた。
    • 推論分析により,論理的推論エラーや意味的特徴の省略といったエラーモードを明らかにし,エラーモードの自動アノテーションモデルを開発した。

    Link: https://arxiv.org/abs/2601.14702

  • LuxRemix:屋内シーンにおける照明分解と再構成 [cs.CV, cs.GR]目的:屋内シーンにおけるインタラクティブな光編集手法
    • リアリティのある映像制作において,照明は重要な要素であり,その制御技術が求められている。
    • 単一のマルチビューキャプチャから高精度な照明分解と制御は困難であった。
    • マルチビューデータを用いた照明分解と再構成による,リアルタイムな光制御を実現する。
    • 本手法は,複雑な屋内シーンの照明を構成要素に分解する生成モデルを提案し,個々の光源の独立した操作を可能にした。
    • マルチビュー照明調和処理を導入することで,シーン全体における照明の一貫性を担保し,より自然な再照明を実現した。
    • 3D Gaussian splatting表現と統合することで,リアルタイムなインタラクティブな光制御を実現し,高品質な結果を示した。

    Link: https://arxiv.org/abs/2601.15283

  • RadJEPA:胸部X線写真のためのJoint Embedding Predictive Architectureによる放射線科エンコーダ [cs.CV]目的:胸部X線写真からの放射線科エンコーダの学習
    • 医療画像解析の精度向上は,診断支援や医療の質の向上に不可欠である。
    • 既存手法は,画像とテキストのペアデータに依存しており,データ不足や偏りが課題である。
    • 言語情報なしで,高性能な放射線科エンコーダを学習することを目指す。
    • RadJEPAは,約84万件のラベルなし胸部X線写真を用いて自己教師あり学習を行う。
    • RadJEPAは,既存の画像のみ,または画像とテキスト両方を用いたベースラインを上回る性能を達成した。
    • 特に,レポート生成においてVicuna-7Bデコーダと組み合わせた際に,高い性能を示した。

    Link: https://arxiv.org/abs/2601.15891

  • MetaSICL:メタ学習による音声LLMのIn-Context Learning適応 [cs.SD, cs.AI, cs.CL]目的:低リソースなタスクにおける音声LLMの適応手法
    • 音声認識や理解の分野でLLMの活用が進むが,低リソース言語への対応が課題である。
    • ドメイン固有のラベルデータが不足する場合,直接ファインチューニングは不安定になりやすい。
    • 少量のドメインデータでLLMを適応させるIn-Context Learningの能力向上を目指す。
    • 提案手法MetaSICLは,豊富な音声データを用いてモデルのIn-Context Learning能力を強化する。
    • 低リソース環境において,MetaSICLは直接ファインチューニングよりも優れた性能を示す。
    • Vanilla ICLが,多様な音声タスクでゼロショット性能を向上させることが示された。

    Link: https://arxiv.org/abs/2601.18904

  • ゲームにおける実現可能なペイオフ集合推定の最適レート [cs.GT, cs.LG]目的:ゲームにおける実現可能なペイオフ集合の推定
    • 多人数環境における意思決定の理解と予測に不可欠であるため。
    • 観測データのみからプレイヤーのペイオフを推定することは困難である。
    • ハウスドルフ距離に基づく推定精度と確率的保証を確立する。
    • 厳密均衡と近似均衡の両方において,最小最大最適レートを初めて提示した。
    • ゼロサムゲームおよび一般和ゲームの両方で結果が得られている。
    • 多人数環境における集合値ペイオフ推論の学習理論的基盤を提供する。

    Link: https://arxiv.org/abs/2602.04397

  • 心臓移植割り当てポリシー最適化における機械学習はインセンティブを考慮すべき [cs.LG, cs.GT]目的:心臓移植割り当てにおけるインセンティブ構造の重要性
    • 臓器移植は医療における重要な課題であり,限られた資源を効率的に配分する必要がある。
    • 既存の割り当てシステムは,関係者のインセンティブを考慮せず,非効率や不公平を生じさせる可能性がある。
    • 機械学習を活用し,関係者の戦略的な行動を考慮した,より公平で効率的な割り当てポリシーを設計すること。
    • 現在の臓器割り当ては単なる最適化問題ではなく,関係者間の複雑な駆け引きを含むゲームである。
    • 米国の心臓移植割り当てにおけるインセンティブの不整合が,現在のシステムに悪影響を与えている実証データを示した。
    • 機械学習コミュニティに対し,メカニズムデザイン,戦略的分類,因果推論,社会選択論の統合を求める研究課題を提示した。

    Link: https://arxiv.org/abs/2602.04990

  • MVISTA-4D:テスト時アクション推論による,視点一貫性のある4Dワールドモデル [cs.CV]目的:ロボットマニピュレーションのための4Dワールドモデル
    • ロボットが環境を理解し,自律的に行動するために,正確な環境モデルが不可欠である。
    • 既存のワールドモデルは,画像ベースか部分的な3D情報しか扱えず,完全な4Dシーンの予測が困難である。
    • 単一視点からの情報に基づいて,幾何学的に整合性の高い4Dシーンを生成し,ロボットの操作に活用する。
    • 提案手法は,単一視点からのRGBDデータから他の視点を推論し,それを融合することで完全な3D構造を時間軸に沿って構築する。
    • クロスビューおよびクロスモダリティ特徴の融合により,RGBと深度の一貫性と視点間幾何学的アライメントを強化する。
    • テスト時アクション最適化戦略と残差逆ダイナミクスモデルにより,生成された未来に基づいて最適な行動を推論し,実行可能なアクションに変換する。

    Link: https://arxiv.org/abs/2602.09878

  • Olaf-World:ビデオ世界モデルのための潜在的行動の方向付け [cs.CV, cs.AI, cs.LG]目的:ビデオ世界モデルにおける潜在的行動空間の構造化
    • ビデオ理解と制御において,行動可能な世界モデルの重要性が増している。
    • 行動ラベルの不足が,行動制御可能な世界モデルのスケール拡大を制限している。
    • 文脈を跨いだ潜在的行動の転移性を高め,より効率的な適応を目指す。
    • 提案手法Seq$\Delta$-REPAは,凍結されたビデオエンコーダからの特徴量差を利用し,潜在的行動を文脈間で整合させる。
    • Olaf-Worldパイプラインは大規模なビデオから行動条件付きの世界モデルを事前学習する。
    • 実験結果から,提案手法はゼロショット行動転移と新しい制御インターフェースへの適応において,最先端手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2602.10104

  • 状況適応型オンラインメタ学習:空間的概念を利用した地理空間探索 [cs.DB, cs.DC, cs.CL, cs.CV, cs.AI, cs.CY, cs.LG]目的:地理空間データにおける高リスク・未観測地域の効率的な特定
    • 環境モニタリングにおいて,費用と労力がかかるデータ収集の効率化が重要である。
    • 地理空間データのラベルは疎で偏りがあるため,既存の学習手法の適用が制限される。
    • 限られたデータと変化する状況下で,標的を確実に発見できる地理空間探索手法の確立。
    • 提案手法は,概念の関連度を考慮した不確実性サンプリングとメタバッチ形成戦略を導入する。
    • PFAS汚染の発見を対象とした実験により,限られたデータ下でも堅牢な標的発見能力を示す。
    • 動的な環境下における汎化性能の向上に貢献する。

    Link: https://arxiv.org/abs/2602.17605

  • 深層多岐にわたる興味関心の抽出:生成型推薦のためのマルチモーダルLLMの活用 [cs.LG, cs.CV, cs.CY]目的:深層多岐にわたる興味関心の抽出と,それを用いた生成型推薦
    • 推薦システムは,ユーザーに最適なアイテムを提示する上で不可欠であり,その精度向上が常に求められている。
    • 既存の生成型推薦手法は,表層的なテキスト特徴量に依存し,潜在的なユーザーの動機を捉えきれていない。
    • 本研究は,深層的な意味的興味関心を組み込むことで,推薦システムの精度と解釈可能性を向上させることを目指す。
    • DeepInterestGRは,既存の最良手法と比較して,HR@10で5.8%-8.3%,NDCG@10で7.7%-9.9%の相対的な改善を達成した。
    • ドメイン間の一般化性能も向上し,+24.8%の改善が見られた。
    • これらの結果は,深層的な意味的興味関心を組み込むことが,SIDベースの生成型推薦を効果的に改善することを示唆する。

    Link: https://arxiv.org/abs/2602.18907

  • GS-CLIP:幾何学的情報に基づいたプロンプトと相乗効果的な視点表現学習によるゼロショット3次元異常検知 [cs.CV]目的:3次元異常検知における性能向上
    • サンプル数が少ない,またはデータプライバシーが問題となる場合に,訓練データなしでの異常検知が重要である。
    • 既存手法は3次元点群を2次元表現に投影するため,幾何学的詳細が失われ,単一の2次元モダリティに頼るため,多様な異常の検出が困難である。
    • 幾何学的な異常を検知するための,3次元幾何学的事前知識を埋め込んだ動的なテキストプロンプト生成と,視覚情報の融合による性能向上を目指す。
    • GS-CLIPは,幾何学的な異常を検知するための二段階学習プロセスを導入し,3次元幾何学的事前知識を埋め込んだテキストプロンプトを動的に生成する。
    • レンダリング画像と深度画像を並行処理する相乗効果的な視点表現学習アーキテクチャにより,互いの強みを活かした特徴量の融合を実現した。
    • 4つの大規模な公開データセットにおける実験結果から,GS-CLIPが優れた検出性能を示すことが明らかになった。

    Link: https://arxiv.org/abs/2602.19206

  • 軸中心クロースプレーンアテンションを用いた3D医療画像分類 [cs.RO, cs.SY, eess.SY, cs.CV]目的:3D医療画像分類のための軸中心クロースプレーンアテンションアーキテクチャ
    • 3D医療画像解析は,病変の検出や診断において重要な役割を果たす。
    • 既存手法では,3Dボリューム全体を均等に扱うか,軸方向の重要性を考慮しない場合がある。
    • 臨床ワークフローにおける軸方向中心の解釈戦略を反映した,より高精度な分類手法を開発する。
    • 提案手法は,MedMNIST3Dベンチマークの6つのデータセットにおいて,既存の3Dモデルやマルチプレーンモデルを上回る精度を達成した。
    • 軽量なAC-Tinyモデルも,パラメータ数を削減しながら高い性能を維持し,アーキテクチャ設計の重要性を示した。
    • スライスレベルのGrad-CAM可視化により,モデルが全てのプレーンにおいて診断的に重要な領域を識別することが確認された。

    Link: https://arxiv.org/abs/2602.21636

  • LDPスライス:ランダム化ビットプレーンスライスによる画像ローカル差分プライバシー [cs.CV]目的:画像に対するローカル差分プライバシーの実現
    • プライバシー保護機械学習の信頼モデルとして重要であり,データソースレベルでのプライバシーを保証する。
    • 高次元の画像データに対し,既存のLDPメカニズムは,実用レベルのユーティリティを損なう問題がある。
    • 不適切なデータ表現に起因するユーティリティ低下を解消し,高次元データでもLDPを適用可能とする。
    • LDPスライスは,軽量かつ学習不要なフレームワークであり,ビットプレーンスライスによりデータ表現のミスマッチを解決する。
    • 知覚的な情報漏洩を軽減するモジュールと,プライバシー予算の最適化戦略を統合し,厳密なピクセルレベルのε-LDPを満足する。
    • 顔認識や画像分類の実験により,既存のDP/LDPベースラインよりも優れた性能を示し,計算オーバーヘッドは無視できるレベルである。

    Link: https://arxiv.org/abs/2603.03711

  • GeoSolver:リモートセンシングにおける微細なプロセス監督によるテスト時推論のスケール拡大 [cs.CV]目的:リモートセンシングにおけるテスト時推論のスケーリング手法
    • リモートセンシングは,環境監視や災害対応など,社会課題解決に不可欠な技術である。
    • 視覚言語モデルの推論過程の視覚的忠実性が課題であり,誤った情報に基づく判断を招く恐れがある。
    • プロセス監督による強化学習を通して,推論過程の信頼性を高め,テスト時推論のスケーリングを実現する。
    • GeoSolverは,プロセス報酬モデル(PRM)を用いて,推論過程の各ステップに対する詳細なフィードバックを提供する。
    • 提案手法Process-Aware Tree-GRPOは,ツリー構造探索と忠実度に基づいた報酬メカニズムを統合し,推論の精度を向上させる。
    • GeoSolver-9Bは,多様なリモートセンシングベンチマークで最先端の性能を達成し,汎用VLMsの性能向上にも貢献する。

    Link: https://arxiv.org/abs/2603.09551

  • LR-SGS:LiDARと反射率をガイドとする頑健な3次元ガウススプラッティングによる自動運転シーン再構成 [cs.CV, cs.AI]目的:自動運転シーンの再構成と新規視点合成の性能向上
    • 自動運転には,周囲環境の正確な3次元理解が不可欠であり,その再構成技術は重要である。
    • 既存手法は,カメラまたはLiDARのみに依存し,LiDAR点群の反射率情報やLiDARとRGBの相補性を十分に活用できていない。
    • 複雑な環境下や高速移動時にもロバストな再構成を可能にする新たな手法を開発すること。
    • 提案手法LR-SGSは,LiDARと反射率をガイドとして利用し,より少ないガウス数と短い学習時間で優れた再構成性能を達成した。
    • 特に,複雑な照明条件下のシーンにおいては,既存手法OmniReを上回るPSNRを記録した。
    • 構造を意識したSalient Gaussian表現を用いることで,エッジや平面構造の正確な捕捉を実現している。

    Link: https://arxiv.org/abs/2603.12647

  • 触覚3Dプリントリソグラフのためのオープンソースワークフロー:TAMP-OS [cs.GR, q-bio.TO]目的:触覚3Dプリントリソグラフ生成のためのワークフロー
    • 微細な生物構造の観察は重要だが,視覚情報だけでは不十分な場合がある。
    • 従来の顕微鏡画像は,視覚障害者や触覚による理解を求める人々にはアクセスが困難である。
    • 安価でオープンソースな手法により,顕微鏡画像の触覚的なアクセスを可能にすること。
    • 本ワークフローにより,100MB以下の3Dファイルで,350USDの3Dプリンターで0.75USDの低コストで触覚リソグラフを生成できる。
    • この手法は,科学へのアクセスを向上させ,生物学的構造の触覚的な探求を可能にする。
    • GitHubリポジトリを通じて,3Dプリントとリソグラフィの進歩に合わせて,触覚メディア作成の継続的な更新が期待される。

    Link: https://arxiv.org/abs/2603.16801

  • ビデオ推論の解明 [cs.CV, cs.AI]目的:ビデオモデルにおける推論メカニズムの解明
    • 近年のビデオ生成技術の発展は,新たな知能基盤として期待されている。
    • 既存研究では,ビデオ内のフレーム順序に依存する推論が想定されていた。
    • 拡散過程における推論メカニズムを明らかにすることで,モデルの性能向上を目指す。
    • 拡散モデルの推論は,フレーム順序ではなく拡散のステップに沿って発生することが示された。
    • モデルは初期ステップで複数の候補解を探索し,徐々に一つの解答に収束する(CoS)。
    • ワーキングメモリ,自己修正,知覚に基づく行動といった,推論に重要な挙動が確認された。

    Link: https://arxiv.org/abs/2603.16870

  • アライメントは言語モデルを規範的にし,記述的ではない [cs.CL, cs.AI, cs.GT]目的:言語モデルのアライメントが人間の行動を記述するモデルとして機能するかどうかの検証
    • 言語モデルの性能向上は,人間との円滑なコミュニケーションや意思決定支援に不可欠である。
    • アライメントは人間の選好を反映するが,実際の人間行動を正確にモデル化しているか不明である。
    • 戦略的状況下での言語モデルの予測性能低下を明らかにし,アライメントの影響を評価する。
    • ベースモデルは,複数ラウンドの戦略的ゲームにおいて人間の選択を予測する性能でアライメント済みモデルを大幅に上回る。
    • 一方,規範的な予測が有効な状況下では,アライメント済みモデルがより優れた予測性能を示す。
    • アライメントは,規範的解に沿った行動が支配的な場合には予測精度を向上させるが,戦略的状況下では予測精度を低下させるトレードオフが存在する。

    Link: https://arxiv.org/abs/2603.17218

  • 見るか,喜ばせるか:VLMにおける視覚的迎合と二重信念の解明 [eess.SY, cs.SY, math.DS, cs.CV, cs.AI]目的:VLMにおける視覚情報の利用状況の分析
    • 近年,画像とテキストを同時に処理するVLMの研究が活発であり,その性能向上は様々な応用への期待を高めている。
    • VLMは正答を出す際に,実際に視覚情報を活用しているかどうかの検証が課題となっていた。
    • VLMにおける視覚情報の利用状況を詳細に分析し,その問題点を明らかにすることを目的とする。
    • VLMの72.9%において「視覚的迎合」と呼ばれる現象が確認された。これは,内部証拠は保持されつつ,幻覚的な回答が生成されるパターンである。
    • 現在のVLMのAlignment Trainingは,拒否反応を抑制することには成功しているものの,視覚情報の正確な活用は不十分である。
    • モデルの規模拡大やポストトレーニングだけでは,VLMのGrounding問題を解決できないことが示唆された。診断スコアを用いた戦略により,精度向上が確認された。

    Link: https://arxiv.org/abs/2603.18373

  • 分離されたスキップリンクとRプローブ:MLLM OCRにおける特徴集約と勾配伝播の分離 [cs.CV, cs.AI]目的:マルチモーダル大規模言語モデルにおけるOCRタスクの性能向上
    • マルチモーダル大規模言語モデルは高度な推論に優れるが,OCRタスクでは微細な視覚情報が損なわれやすい。
    • 多層の特徴融合において,スキップパスウェイが低レベル信号を上書きし,学習を不安定化させる問題がある。
    • 勾配干渉を軽減し,安定した学習と収束を実現すること。
    • 提案手法「分離されたスキップリンク」は,勾配の逆伝播をスキップブランチで停止することで,勾配干渉を軽減する。
    • 「Rプローブ」により,投影された視覚トークンのピクセルレベル再構成可能性を評価し,微細な情報の保持を確認する。
    • ViTバックボーンと複数のマルチモーダルベンチマークにおいて,OCR性能と汎用マルチモーダルタスクの両方で改善が確認された。

    Link: https://arxiv.org/abs/2603.20020

  • 囚人のジレンマに別れを:カーネル・ブロットの登場 [cs.GT, cs.SY, eess.SY]目的:カーネル・ブロットゲームの制御理論コミュニティへの導入と応用可能性
    • 制御理論における対抗的課題は重要であり,サイバーセキュリティやインフラ保護など,実用的な応用範囲が広い。
    • カーネル・ブロットゲームは応用範囲が広いにも関わらず,制御理論コミュニティにおける利用が限定的である。
    • カーネル・ブロットゲームを制御理論に適用し,対抗的なリソース配分問題の解決を目指す。
    • カーネル・ブロットゲームは,ゼロサムゲームやLQRチーム問題などの従来のゲーム理論的手法よりも,より複雑な対抗環境をモデル化できる。
    • ネットワーク脆弱性を捉える相互依存的な目標,部分的な報酬や構造的非対称性をモデル化する代替勝利ルール,そして戦略的な譲歩や連携を伴う多エージェント環境に関する研究方向性が示された。
    • これらの方向性は,実用性と戦略的複雑さを両立するフレームワークであり,対抗的なリソース配分問題への応用が期待される。

    Link: https://arxiv.org/abs/2603.25979

  • SOLE-R1:ロボット強化学習における唯一の報酬としてのビデオ・言語推論 [cs.RO, cs.CL, cs.CV]目的:ロボット強化学習のための唯一の報酬信号としてのビデオ・言語推論モデル
    • ロボットの学習において,人間からの直接的な報酬を与えるのが困難な場合があるため,自動的な報酬生成が求められている。
    • 既存のビジョン言語モデルは,部分的な観測や分布の変化に弱く,報酬のハッキングを許してしまうという課題がある。
    • 本研究は,ロバストで信頼性の高い報酬信号を生成し,ロボットが未知のタスクを自律的に学習できるようにすることを目的とする。
    • SOLE-R1は,生のビデオ観察と自然言語の目標のみを用いて,タスクの進捗状況を密に推定し,強化学習の報酬として直接利用できる。
    • シミュレーション環境と実機ロボットの両方において,ゼロショットでのオンライン強化学習を可能にし,未知の操作タスクを学習できることを示した。
    • 既存の強固なビジョン言語報酬器と比較して,SOLE-R1は高い性能と報酬ハッキングに対する堅牢性を示した。

    Link: https://arxiv.org/abs/2603.28730