arXiv雑要約

画像・音声 - 2026/06/17 公開

プラグアンドアダプト：事前学習済みアラインメントモデルによる初見の多imodal共参照解決 [cs.DC, cs.CV, cs.AI]目的：多imodal共参照解決における初見性能の向上
- 共参照解決は自然言語処理の根幹技術であり，文章理解に不可欠である。
- 既存手法はターゲットデータでの学習が必要であり，汎化性能に課題がある。
- 事前学習済みアラインメントモデルを活用し，学習データ不要で共参照解決を可能にする。
- 提案手法は，Coreference Image Narratives (CIN) データセットで最先端手法を5.31%上回るCoNLL F1スコアを達成した。
- マスクされたCINデータセットでの評価により，ロバスト性も確認された。
- VCR-MCRデータセットによる評価では，汎化性能が示された。
Link: https://arxiv.org/abs/2606.17950
MLLMは正答から誤答へ：後期層におけるテキストバイアスの追跡と修正 [cs.CV]目的：マルチモーダル大規模言語モデルにおける後期層のテキストバイアスのメカニズム解明と修正手法
- 画像とテキストの組み合わせで推論を行うモデルの重要性が増しており，その精度が求められている。
- 視覚情報とテキスト情報に矛盾がある場合，モデルがテキスト情報を過度に優先する傾向がある。
- 後期層で発生するテキストバイアスを特定し，モデルが初期層で獲得した視覚情報を活用できるようにする。
- モデルは中間層で正しい視覚に基づく予測を行うことが多いが，最終的な出力でテキスト情報を優先してしまうことが明らかになった。
- 予測の変化方向が正誤の指標となり，失敗例の85%はテキストへ，成功例の89%は視覚へシフトすることが示された。
- CALRD（Conflict-Aware Layer Reference Decoding）という訓練不要な手法により，競合ベンチマークで最大9.4%の性能向上を達成した。
Link: https://arxiv.org/abs/2606.17953
視覚的手がかりを超えて：CoTによる半教師あり医用画像セグメンテーションの推論能力向上 [cs.CV, cs.LG]目的：半教師あり医用画像セグメンテーションにおける推論能力の向上
- 医用画像解析において，アノテーション不足を解消し，効率的な画像解析を実現する重要性が高まっている。
- 既存手法は視覚的パターンに依存しており，視覚的に類似する病変でも診断が異なる場合に課題がある。
- 視覚的特徴に加えて，専門家の診断ロジックを模倣した推論能力をセグメンテーションに導入し，精度向上を目指す。
- 本研究では，大規模言語モデルを用いたChain-of-Thought（CoT）推論を統合したCERS（CoT-Enhanced Reasoning Segmentation）を提案した。
- CERSは，病理学的に異なる症例を識別するために，形態学に基づいた参照選択とCoTの一貫性によるノイズ除去を組み合わせる。
- 実験結果から，CERSは境界の曖昧さや意味的な不整合を解消する上で，既存手法よりも優れていることが示された。
Link: https://arxiv.org/abs/2606.17958
回転に対する類似度に基づく位置エンコーディングの頑健性：理論的分析と実験的検証 [cs.CV, cs.AI]目的：回転に対する類似度に基づく位置エンコーディングの頑健性
- Transformerモデルにおいて，位置情報を組み込む位置エンコーディングは，性能を左右する重要な要素である。
- 医療画像など，幾何学的な歪みが発生しやすい分野では，位置エンコーディングの回転に対する頑健性が課題となる。
- 類似度に基づく位置エンコーディング(simPE)の回転に対する安定性を理論的・実験的に検証し，その限界と性能向上策を探る。
- simPEは一般的に回転不変ではないものの，適切な条件の下では回転に対する安定性を持つことが証明された。
- 実験結果は，simPEが標準的な学習型位置エンコーディングと比較して，特に小～中程度の回転角度において，精度，F1スコア，適合率，再現率の点で優れた性能を示すことを示した。
- これらの結果は，理論的な安定性の保証と一致しており，simPEの有効性を裏付けている。
Link: https://arxiv.org/abs/2606.17961
Reload-Mamba：多クラスセマンティックセグメンテーションのための階層型希釈防止状態空間モデリング [cs.CV]目的：多クラスセマンティックセグメンテーションにおける応答の希釈を軽減する手法
- セマンティックセグメンテーションは，画像内の各ピクセルを意味的に分類する重要なタスクであり，多様な応用分野を持つ。
- Mambaベースの状態空間モデルは，高解像度な密な予測において効率的だが，境界や詳細情報が希釈される課題がある。
- 境界情報を活用し，応答の希釈を抑制することで，セグメンテーション精度を向上させることを目指す。
- Reload-Mambaは，境界の監視付きローカルディテール事前知識，クラス不確実性を考慮したリロードゲート，階層型リロード機構を導入。
- ADE20Kベンチマークにおいて，47.9%（シングルスケール）～48.9%（マルチスケール）のmIoUを達成し，Cityscapesでは83.2%のmIoUを達成。
- PASCAL VOC 2012 validationでは，ResNet-101とCOCO事前学習により87.8%のmIoUを記録し，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2606.17966
SegDINO：DINOへの多段階構造導入による効率的な医用画像セグメンテーション [cs.CE, math-ph, math.MP, cs.CV, cs.AI]目的：効率的な医用画像セグメンテーションのためのフレームワーク
- 医用画像解析は，疾患の診断や治療計画において不可欠である。正確なセグメンテーション技術が求められる。
- 既存のセグメンテーション手法は，パラメータ数が多く計算コストが高いという課題がある。
- DINOの特徴量を活用し，軽量なフレームワークで高精度なセグメンテーションを実現すること。
- SegDINOは，DINOv3バックボーンと軽量なスケールモデリングを統合した効率的なセグメンテーションフレームワークである。
- Token Pyramid Adaptation (TPA)とScale-Aware Decoding (SAD)により，DINO特徴量に多段階構造を導入し，セグメンテーション精度を向上させた。
- 新たに構築したPanCTデータセットを用いた評価により，SegDINOが難しい小病変のケースでも高い性能を示すことが確認された。
Link: https://arxiv.org/abs/2606.17972
ガウス光場スプラッティング：物理的事前知識に基づくVision Transformerによる低照度画像強調 [cs.RO, cs.CV]目的：低照度画像強調の新しい手法
- 暗い場所で撮影された画像は視覚的に劣るため，実用的な応用には画像強調が不可欠である。
- 既存手法では，複雑な非一様照明下で局所的な露出の不均衡や色歪みが生じやすい。
- 照明劣化の物理的事前知識を明示的にモデル化することで，より正確な低照度画像強調を実現する。
- 提案手法GLFSは，ガウス光場スプラッティングとVision Transformerを組み合わせ，連続的な物理照明モデルを導入する。
- 空間的なゲインフィールドを適応的に推論することで，複雑な照明下でも正確かつ均一な復元を可能にする。
- 色ベクトル角損失と輝度エッジ損失により，色の一貫性と局所的な詳細構造の忠実性を向上させている。
Link: https://arxiv.org/abs/2606.17985
サービス機能チェーンオーケストレーションにおけるセキュリティ誘発型ブレースのパラドックス [cs.NI, cs.CR, cs.GT]目的：サービス機能チェーン（SFC）オーケストレーションにおけるセキュリティ誘発型ブレースのパラドックスの存在とその対策
- ネットワーク機能仮想化/ソフトウェア定義ネットワークは，柔軟なセキュリティ運用を可能にする重要な技術である。
- セキュリティ機能の追加が，必ずしもネットワーク全体の性能向上に繋がるとは限らないという課題がある。
- セキュリティ機能の追加が，逆にネットワークのボトルネックを招き，リスクを集中させる状況を回避する。
- セキュリティオプションの追加が，トラフィック集中と攻撃価値の集中を引き起こし，結果としてサービスコストが増加することが示された。
- 理論的に導出された条件に基づき，事前に有害なオプションを排除，制限，または予約することで，パラドックスを回避できる。
- パラドックスを考慮した制約付き運用は，サービスコストを削減し，攻撃に対する損失を大幅に軽減する効果がある。
Link: https://arxiv.org/abs/2606.17987
意味を優先し，より良い生成: 3D MRI再構成とクロスカントラスト合成のための潜在モデリングの改善 [cs.CV, cs.AI]目的：3D MRIの再構成とクロスカントラスト合成のための潜在モデリング手法
- 臨床診断において，異なる造影MRI画像は補完的な情報を提供する。効率的な診断のためには重要である。
- 全てのMRIシーケンスを取得するには時間とコストがかかる。既存の潜在空間圧縮手法では，解像度や精度が課題となる。
- 解剖学的構造の一貫性を保ち，臨床的に重要な情報を損失しない潜在空間を構築し，再構成と合成の質を向上させる。
- 提案手法では，Latent Harmonization Encoder (LHE)を用いてグローバルな解剖学的依存関係を捉え，一貫性のあるボリューム表現を実現した。
- Semantic Recovery Block (SRB)により，潜在空間への圧縮時のセマンティック情報の劣化を軽減し，コントラスト間の分離性を向上させた。
- 解剖構造を考慮した周波数損失関数(AFL)により，診断上重要な高周波構造を適応的に保存し，再構成の忠実度を高めた。
Link: https://arxiv.org/abs/2606.17989
AIGS-Net：2次元ガウススプラッティングによるコンパクトな照明場モデリングを用いた高速低照度画像強調 [cs.CV]目的：低照度画像強調のための照明場モデリングの表現能力と計算複雑性のトレードオフ改善
- 画像処理において，低照度環境下での有用な情報抽出は重要な課題である。
- 既存手法では，照明場モデリングの表現力と計算コストの両立が困難である。
- 入力画像に応じた照明場モデリングにより，効率的な低照度画像強調を実現すること。
- AIGS-Netは，入力画像の相対輝度統計量に基づいてガウス基底関数の不透明度を動的に調整する。
- ゼロパラメータの非線形マルチスケールコンテキストエンコーディングモジュールにより，効率的な照明補正を可能にする。
- LOLおよびLSRWベンチマークにおいて，AIGS-Netは詳細な復元と色再現性を向上させ，約40個の学習パラメータで高い効率を実現した。
Link: https://arxiv.org/abs/2606.17998
PhaseWin：忠実な視覚的帰属のための効率的な探索アルゴリズム [cs.CV]目的：忠実な視覚的帰属のための探索効率向上
- 深層学習モデルの解釈性は，モデルの信頼性向上やデバッグに不可欠である。
- 既存の探索手法は計算コストが高く，大規模な画像には適用が困難である。
- 計算効率を維持しつつ，忠実性の高い視覚的帰属を実現することを目指す。
- PhaseWinは，候補領域セット全体を再評価するのではなく，段階的なウィンドウ探索によって効率化を図る。
- 単調なエビデンス蓄積条件の下で，線形評価複雑度と貪欲法に近い忠実性を実現することを示した。
- 画像分類，物体検出，視覚的グラウンディング等の実験で，PhaseWinは最少のフォワードパスで高い忠実性を達成した。
Link: https://arxiv.org/abs/2606.18008
LLMによる傷跡分析：画像から臨床的に意味のある特徴量へ [cs.CV, cs.AI, cs.LG]目的：傷跡の画像から臨床的に意味のある特徴量の抽出
- 医療画像診断は進歩しているが，専門知識が必要な病変の分類は困難である。
- 傷跡の分類では，専門家の知識とラベル付き画像の不足が課題となっている。
- LLMを活用し，データ不足下でも高精度な傷跡分類を実現すること。
- LLMを知識駆動型特徴量エンジニアとして活用するScaFEという新しいフレームワークを提案した。
- ScaFEは，LLMが持つ医学知識を，臨床評価基準に合致する特徴量抽出コードに変換する。
- データ効率，プライバシー保護，解釈可能性の面で，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2606.18063
ブレンデッドチャートサーフェス：滑らかなサーフェスフィッティングのためのシームレスな明示表現 [cs.GR, cs.CG, cs.CV]目的：滑らかなサーフェスフィッティングのための新しいサーフェス表現
- 幾何学的処理において，コンパクトで明示的なサーフェス表現の重要性は高い。
- 既存のニューラル表現では，滑らかさ，トポロジー，微分量の算出などの特性を全て満たすことが困難。
- ユーザー定義のトポロジーに基づき，シームレスかつ滑らかなサーフェス表現を構築すること。
- ブレンデッドチャートサーフェスは，コンパクトで微分可能であり，微分量の算出が容易。
- プロキシメッシュのトポロジーと粗い幾何学構造を分離することで，詳細な幾何学形状を局所パッチで表現。
- 様々なトポロジーと幾何学的な複雑さに対して，コンパクト性，簡潔性，表現力のバランスに優れた結果を示した。
Link: https://arxiv.org/abs/2606.18069
時間経過を考慮したストリーミングエンドポイント検出：次発話開始予測による手法 [cs.SD]目的：ストリーミング音声システムにおけるエンドポイント検出の精度向上
- 自然な対話システム実現には，発話ターンの正確な認識が不可欠である。
- 発話中の言い淀みや詰まりにより，正確なエンドポイント検出が困難である。
- 次発話開始までの時間予測により，曖昧な教師データやストリーミング制約の問題を克服する。
- 提案手法は，従来の音響的および最新のセマンティックエンドポイント検出手法を上回り，最も強力なベースラインに対して320ms以内でエンドポイント精度が25.9%絶対的に向上した。
- 時間経過を考慮した目的関数と従来の二値エンドポイント検出の組み合わせにより，ポーズ時間が長くなるほど精度向上が見られた。
Link: https://arxiv.org/abs/2606.18094
Qwen-RobotNav技術報告：エージェント型ナビゲーションシステム向けに設計されたスケーラブルなナビゲーションモデル [cs.RO, cs.CV]目的：エージェント型ナビゲーションシステムにおけるナビゲーションモデルの設計
- ロボットナビゲーションは，多様なタスクを効率的に遂行するために不可欠であり，その重要性は増している。
- 従来のナビゲーションモデルは，特定のタスクに特化しやすく，柔軟性に欠けるという課題があった。
- 異なるナビゲーション戦略を柔軟に切り替え可能な，スケーラブルなナビゲーションモデルを開発すること。
- Qwen-RobotNavは，パラメータ化されたインターフェースにより，多様なタスクモードと可変な観測パラメータを制御可能である。
- 学習時のパラメータランダム化により，推論時のあらゆる設定にロバストであり，アーキテクチャの変更は不要である。
- 大規模ナビゲーションベンチマークにおいて，Qwen-RobotNavは最先端の結果を達成し，2Bから8Bパラメータへのスケーリングも良好に機能する。
Link: https://arxiv.org/abs/2606.18112
HLS-GPT：大陸規模のNASA Harmonized Landsat and Sentinel-2反射率再構成のための生成事前学習Transformer [cs.CV]目的：大陸規模のLandsatとSentinel-2の反射率時系列再構成
- 地球観測において，LandsatとSentinel-2は広範囲の土地利用変化を把握する上で重要である。
- 既存手法は，スペクトル範囲の制約，地理的スケーラビリティの限界，あるいは短期間の時系列データしか扱えないといった課題がある。
- あらゆるバンド，任意の日付，任意の地点における反射率を再構成し，より高精度な地球観測を実現すること。
- HLS-GPTは，LandsatとSentinel-2のスペクトル特性の違いを考慮した階層型Transformerアーキテクチャを採用している。
- テストデータを用いた評価により，多様な土地被覆条件下で頑健な再構成性能が確認された。
- 全HLSバンドにおいて，RMSEが0.026以下，可視バンドでは相対RMSEが35%以下，その他のバンドでは13%以下の高い精度を達成した。
Link: https://arxiv.org/abs/2606.18115
多様性を持つ専門家混合を用いた病理学的基盤モデルによる免疫バイオマーカー予測が，精密腫瘍学を推進する [cs.CV]目的：腫瘍免疫微小環境に関連する免疫バイオマーカーの予測
- 精密腫瘍学の進展には，免疫バイオマーカーの正確な予測が不可欠である。
- 既存の手法は単一の画像モダリティに限定され，解像度不足や臨床・生物学的情報の活用が不十分である。
- 多様なモダリティを統合し，高精度なバイオマーカー予測を実現することで，精密腫瘍学への貢献を目指す。
- MixTIMEは，異なるモダリティの病理学的基盤モデルを統合するMoEアーキテクチャを持つ多重モダリティ基盤モデルである。
- MixTIMEは，17種類のタンパク質マーカーにおいて，相関指標による最先端の性能を達成した。
- 予測されたmIFプロファイルは，空間領域の識別，生存予測，AI支援病理レポート作成などの下流タスクを大幅に向上させた。
Link: https://arxiv.org/abs/2606.18123
Certus口径分類銃声データセット (C3GD) [cs.SD, cs.AI]目的：銃声の口径分類を目的としたデータセット
- 銃声分析は，法医学，安全保障，犯罪捜査など，幅広い分野で重要である。
- 既存の銃声データはインターネット由来が多く，品質やラベルの信頼性に課題がある。
- 本研究は，多様な条件下で収集された高品質な銃声データセットを提供し，分類性能向上を目指す。
- 本データセットは，28種類の銃器，16種類の口径から得られた8000以上の実環境データを含む。
- 詳細なメタデータが付属しており，学術的な分析に適している。
- 口径分類に加え，銃声検知や音響信号処理など，多様な応用が可能である。
Link: https://arxiv.org/abs/2606.18135
オープン森林観測所のニューラルツリー再構成 [cs.CV]目的：低コスト森林マッピングの実現に向けた3Dツリーマップの再構成手法
- 森林生態系の理解や資源管理において，高精度な森林データは不可欠である。
- 従来の構造復元法は，アーティファクトが発生しやすく，詳細な再構成が困難である。
- ニューラル放射場（NeRF）等の最新3D再構成技術を導入し，森林データの品質向上を目指す。
- NeRFを用いることで，従来の構造復元法よりもロバストで詳細な3Dツリーマップの生成が可能となった。
- 本研究は，オープンな森林データセットへのNeRF統合の可能性を示し，さらなる3Dビジョンモデルへの対応を検討する。
- 高品質な3D再構成は，植林計画，山火事対策，炭素隔離モニタリングといった森林応用において重要である。
Link: https://arxiv.org/abs/2606.18153
ReAge3D：視点一貫性を備えた3D顔面の若返り [cs.CV, cs.AI]目的：3D顔面のリアルかつ制御可能な若返り手法
- 顔面認識や画像処理における重要な課題であり，エンターテイメントや法医学などへの応用が期待される。
- 既存の3D編集手法では，微細な年齢変化を再現する際に，視点間の不整合が生じやすく，結果が不自然になる。
- 視点一貫性を確保し，自然で詳細な3D顔面若返りを実現することで，この問題を解決することを目指す。
- 提案手法は，2D拡散モデルと中心から外側への編集伝播戦略を組み合わせることで，多視点一貫性を確保している。
- Masked-DiffReagingを用いることで，再構成された領域が既存のピクセルと一貫性を保ちながら，詳細な年齢変化を実現している。
- 視覚的および定量的な評価により，提案手法が既存の3D編集技術よりも優れていることが示された。
Link: https://arxiv.org/abs/2606.18156
EgoCS-400K：ワールドモデルのための一人称ゲームプレイデータセット [cs.CV]目的：ワールドモデル構築のための，大規模な一人称視点ゲームプレイデータセット
- 動画生成からインタラクティブなワールドモデリングへの移行に伴い，新しいデータニーズが生じている。
- 既存のデータセットでは，実行可能なアクションや信頼性の高い状態情報を大規模に取得することが困難である。
- 人間のゲームプレイ軌跡を活用し，視覚情報と行動，状態，イベントの関連付けを大規模に行うことを目指す。
- EgoCS-400Kは，Counter-Strikeの公開されたプロの試合デモから構築された，40万人分以上の動画と1万時間分のゲームプレイを含む大規模データセットである。
- プレイヤーの状態，視点，動き，入力，武器使用，ゲームイベント，ラウンドレベルのコンテキストを抽出・レンダリングできる。
- アクション予測，状態・イベントに基づいたシーン展開，再生に基づいたキャプション生成，エージェントの行動理解など，多様なタスクに対応する。
Link: https://arxiv.org/abs/2606.18180
有限ゲームにおけるミラー降下学習におけるエルゴード的逸脱頑健均衡 [cs.GT, math.DS, math.OC]目的：反復有限ゲームにおけるエントロピーミラー降下学習におけるエルゴード的逸脱頑健均衡の確立
- ゲーム理論は，経済学，政治学，生物学など，様々な分野における戦略的相互作用を分析する上で不可欠である。
- 従来の均衡概念は，ダイナミクスが不安定な均衡を選択する可能性があり，現実的な学習プロセスとの乖離が生じる。
- ダイナミクスに依存する新たな均衡概念を導入し，学習プロセスにおける均衡選択の頑健性を保証すること。
- 本研究では，エントロピーミラー降下学習を用いる反復有限ゲームにおけるエルゴード的逸脱頑健均衡（EDRE）を導入した。
- EDREは，累積逸脱利得が$\sqrt{T}$オーダーに制限され，限界プロファイルがEMD写像の固定点であるという条件を満たす。
- EDREは，線形不安定な均衡を排除し，ダイナミクスによる均衡選択の証明を提供する。
Link: https://arxiv.org/abs/2606.18194
視覚はスクリーニングではない：エージェントスキルスキャナに対するマルチモーダルな隠れた指示攻撃 [cs.CL, cs.CR, cs.CV]目的：エージェントスキルのスキャンにおける，視覚的に伝達される悪意のある意図の不十分な検証
- LLMベースシステムにおいて，エージェントスキルは新たな攻撃対象領域として重要性を増している。
- 既存のセキュリティ分析はテキスト情報に依存しており，画像に隠された悪意を見逃す可能性がある。
- 画像に隠された悪意のある指示を検出し，スキルスキャンの性能を向上させる。
- 画像に隠された悪意のある指示は既存のスキルスキャナにとって課題となることが示された。
- 提案手法ExecScanは，ドキュメント，コード，リソース，視覚コンテンツを共同で分析し，隠れた指示を復元する。
- ExecScanは，実行環境に基づいた分析により，データ漏洩などのリスクを特定し，スキルスキャンの性能を改善する。
Link: https://arxiv.org/abs/2606.18198
ループ化された世界モデル [cs.LG, cs.AI, cs.CL, cs.CV]目的：世界モデルのパラメータ効率と予測精度向上
- 長期的なシミュレーションは重要だが，計算コストと誤差の蓄積が課題である。
- 従来のモデルは，深層化による計算コスト増大と誤差の蓄積に直面している。
- 反復的な潜在状態の洗練により，計算効率と予測精度を向上させることを目指す。
- LoopWMは，パラメータ共有されたTransformerブロックにより，従来のモデルと比較して最大100倍のパラメータ効率を実現した。
- 予測ステップの複雑さに応じて計算量を自動的に調整する適応的な計算が可能となった。
- 反復的な潜在的深さを新たなスケーリング軸として確立し，世界シミュレーションの進歩に貢献する可能性がある。
Link: https://arxiv.org/abs/2606.18208
解像度に依存しない適応的体積力学特性場 [cs.HC, cs.CV, cs.LG, cs.RO]目的：デジタル世界の信頼性のある物理シミュレーションに必要な，ヤング率($E$)，ポアソン比($\nu$)，密度($\rho$)の正確な力学特性の予測
- デジタル世界の物理シミュレーションのリアリズムと精度は，使用されるオブジェクトの力学特性に大きく依存する
- 既存の3Dアセットの多くは，正確な力学特性情報を持っておらず，シミュレーションの質を低下させる
- 入力3Dオブジェクトの解像度，精度，メモリ効率を向上させ，シミュレーション可能なアセットへの変換を可能とする
- AdaVoMPは，従来のSAVよりも解像度が$16^3$倍高い，疎な適応的ボクセル構造を学習的に生成する。
- 実験の結果，AdaVoMPは既存手法よりも正確な体積特性を推定でき，テスト時の計算コストも低いことが示された。
- これにより，高解像度の複雑な3Dオブジェクトをシミュレーション可能なアセットに変換し，リアルな変形シミュレーションを実現できる。
Link: https://arxiv.org/abs/2606.18231
EventDrive：イベントカメラによる視覚言語駆動知能 [cs.RO, cs.CV]目的：イベントカメラとRGBフレーム，言語の統合による自動運転のための知能開発
- 自動運転技術の安全性向上は重要であり，多様なセンサ情報の活用が不可欠である。
- 従来のフレームベースのセンサは，高速移動や逆光などの条件下で性能が低下する。
- イベントカメラの特性を生かし，時間的精度とロバスト性を向上させる自動運転システムを構築する。
- EventDriveは，知覚，理解，予測，計画の４つの側面から自動運転を評価するための大規模ベンチマークとモデル群である。
- EventDrive-VLMは，イベントピラミッドと時間的ホライズン混合エキスパートモジュールを用いて，非同期データとフレームベースデータの融合を最適化する。
- イベントストリームは，時間的精度，運動認識能力，ロバスト性を大幅に向上させ，自動運転知能の中心となる。
Link: https://arxiv.org/abs/2606.18242
MOCHI：協調的な人間と物体間の相互作用のモーション強化 [cs.CV, cs.GR, cs.RO]目的：協調的な人間と物体間の相互作用のモーションデータ品質向上
- 人間と物体が協調する状況は，ロボット工学やバーチャルリアリティ等，多様な応用分野で重要性が増している。
- 現状のモーションキャプチャ技術では，人間同士や人間と物体が同時に相互作用する場合，ノイズが多く，正確なデータ取得が困難である。
- 本研究では，ノイズの多いモーションデータを改善し，より自然で正確な協調的相互作用の再現を目指す。
- 提案手法MOCHIは，まず最適化を通じて物理的に妥当な手の把持を生成し，身体のポーズと整合性の高い手と物体の相互作用シーケンスを作成する。
- 次に，拡散に基づいたノイズ最適化フレームワークを用いて，参加者全員の全身モーションを洗練させる。単一人物のモーション事前知識に，人間と物体，人間同士の相互作用情報を組み込む。
- 実験結果から，MOCHIは様々なMHOIデータに対して効果的であり，参加者数や相互作用の種類に関わらずロバストであることが示された。
Link: https://arxiv.org/abs/2606.18243
共有コンテキスト・視覚トークナイザーを用いた統一的な自己回帰多Modalモデリングが鍵となる [cs.CV]目的：視覚的理解と生成を単一のシステムに統合する
- 近年，画像とテキストのような異なるModalデータを統合する研究が盛んであり，その重要性が増している。
- 既存手法では，異なる視覚トークナイザーを使用し，表現空間が分断されるという課題があった。
- 単一の視覚トークナイザーを用いることで，統一的なモデリングを可能にし，生成と理解のギャップを埋める。
- UniARは，事前学習済みの視覚エンコーダーとビットワイズ量子化スキームを導入し，高品質な視覚的表現を獲得した。
- 自己回帰モデルは，空間的にグループ化された多層の視覚コードを予測することで，生成速度を大幅に向上させた。
- 画像生成，画像編集，多Modal理解のベンチマークにおいて，最先端の性能を達成した。
Link: https://arxiv.org/abs/2606.18249
将来の動的3D再構成：潜在的に分離された自己運動による3Dワールドモデル [cs.CV]目的：将来の動的3D再構成のための持続的な3D潜在表現の予測
- 自律エージェントにとって，動的環境の予測は不可欠である。現実世界での応用において重要性が高い。
- 既存モデルは，長期間の予測において，変形や消失といった物理的な不整合を引き起こす可能性がある。
- 自己運動とワールドモーションの曖昧性を解消し，幾何学的な整合性を確保することで，より正確な予測を目指す。
- FR3Dは，自己運動と環境変化を分離することで，将来の3D再構成における物理的な不整合を軽減することを示した。
- 教師あり蒸留戦略を用いることで，汎化性能が向上し，未知のデータセットへの適応も可能になった。
- 単眼観測から最長2秒先の将来の動的3D再構成において，FR3Dの高い性能が複数のデータセットで確認された。
Link: https://arxiv.org/abs/2606.18250
騒音環境下における音声明瞭度：振幅スペクトルと位相スペクトルの寄与の調査 [eess.SP, cs.ET, eess.AS, cs.SD]目的：騒音下における音声明瞭度の評価と，振幅スペクトルおよび位相スペクトルの個々の寄与の分析
- 音声コミュニケーションの根幹であり，その理解度は生活の質に直結するため，重要性が高い。
- 騒音環境下では，音声の明瞭度が低下し，特に子音の認識が困難になるという課題がある。
- 騒音環境下における子音の認識に影響する要素を特定し，明瞭度向上のための知見を得ることを目指す。
- 清浄な音声条件では振幅スペクトルが明瞭度に大きく貢献する一方，騒音下では位相スペクトルがよりロバストであることが示された。
- 子音の種類によって騒音の影響が異なり，鼻音は騒音に弱く，摩擦音や近似音は比較的ロバストであることが確認された。
- 位相スペクトルのみの信号と振幅スペクトルのみの信号の比較を通して，それぞれのスペクトルの役割の違いが明らかになった。
Link: https://arxiv.org/abs/2606.17259
自己教師あり学習によるTPFの表現型分類：ラベルに依存しない専門家による検証を含むフレームワーク [eess.IV, cs.CV]目的：脛骨高原骨折の表現型
- 人工知能は骨折の特性評価に有用だが，その可能性はラベル付きデータへの依存によって制限されている。
- 既存の分類法（SchatzkerやAO/OTA）は観察者間のばらつきが大きく，学習データに誤りが含まれる可能性がある。
- 本研究は，ラベルなし画像データから直接骨折の表現を学習する，ラベルに依存しないフレームワークを構築し検証する。
- 自己教師あり学習（SSL）を用いて表現型を分類し，安定性と内部凝集性が確認された。
- 発見された4つの表現型は，専門家によるブラインドレビューで臨床的に解釈可能であることが示された。
- 本手法は，既存の分類法とは異なる次元で骨折の特徴を捉え，補完的なアプローチとなることが示唆された。
Link: https://arxiv.org/abs/2606.17295
レコメンデーション露出とお気に入りリストの設計：スポットワークプラットフォームにおけるフィールド実験 [econ.GN, cs.GT, cs.IR, q-fin.EC]目的：希少で短命な機会へのアクセスを形成するレコメンデーションシステムの設計
- 労働市場におけるミスマッチ解消は重要である。特に，スポットワークのような柔軟な働き方では，効率的なマッチングが不可欠である。
- 人気のあるテンプレートに露出が集中し，労働力需要のあるテンプレートへの露出が不足するという問題が存在する。
- テンプレートの露出を調整し，掲載活動と未充足能力に基づいて再配分することで，マッチング率の向上を目指す。
- 提案されたレコメンデーションシステム「TEC」は，シミュレーションにおいて，1ラウンドあたりの求人発見率を57.6％から70.0％に向上させた。
- 県レベルのランダム化フィールド実験により，実現したマッチング数，アクティブテンプレートあたりの露出数が増加し，露出の少ないテンプレートの割合が減少した。
- 印象レベルのお気に入り登録と，それから派生するマッチングが改善された。
Link: https://arxiv.org/abs/2606.17397
ボトルネックモデルにおける粗い優先度報告：近似戦略的合理性と効率性 [math.OC, cs.GT, econ.TH]目的：ボトルネックにおける車両の通過時間割り当てを通じた動的システム最適化の実現
- 交通渋滞の緩和やインフラの効率的利用において，最適な車両通過時間割り当ては不可欠である。
- 正確な優先度を把握するには計算コストがかかり，複雑なメカニズムが必要となる。
- 限られた時間枠での報告により，効率性と戦略的合理性のバランスを取る。
- 粗い優先度報告メカニズムにおいて，誤報による利益と効率損失が時間枠の幅の二乗に反比例して減少することを示した。
- 容量制限下では効率損失が減少し，誤報による利益の減少には追加の条件が必要となる。
- 無料金の場合でも誤報の誘因が残存し，料金徴収が正確な報告を促す役割を担うことが示唆された。
Link: https://arxiv.org/abs/2606.17400
ELSA：ファインチューンドな参照なしテキスト音声評価のための音響イベントレベルの意味的アライメント [eess.AS, cs.SD]目的：テキスト音声間の音響イベントレベルの意味的アライメント
- テキストからの音声合成は，ユーザーの意図を正確に捉える能力から広く研究されている。
- 既存の自動評価指標は，人間の評価との相関性が低い場合がある。
- 音響イベントに基づいたファインチューンドなアライメントにより評価精度向上を目指す。
- ELSAは，テキストクエリから抽出された音響イベントに基づいて生成された音声を分解し，イベントレベルのアライメントを評価する。
- 4つのテキスト音声ベンチマークにおいて，ELSAは既存の指標よりも人間の主観的な評価との高い相関性を示すことが確認された。
- ELSAは，信頼性の高いテキスト音声評価のための有効性を示している。
Link: https://arxiv.org/abs/2606.17404
皮膚鏡画像における高感度なメラノーマ検出のためのResNet50の二段階ファインチューニング [eess.IV, cs.CV]目的：皮膚鏡画像を用いた二値分類によるメラノーマ検出のための，ResNet50の二段階ファインチューニング手法
- メラノーマは最も危険な皮膚癌であり，早期発見が重要である。生存率は発見のタイミングで大きく左右される。
- 既存の手法では，クラスの不均衡や単一のファインチューニングによる性能不足といった課題が存在する。
- 本研究は，クラス不均衡への対処と，最適な転移学習により，メラノーマの検出精度向上を目指す。
- 提案手法は，独立したテストセットでAUC-ROC 0.9559，正解率88.34%，感度87.56%を達成した。
- 二段階プロトコルは，単一段階ファインチューニングと比較して，感度を4%以上向上させることが確認された。
- Grad-CAMによる可視化により，病変部位の正確な局在化が確認された。
Link: https://arxiv.org/abs/2606.17504
行間を読む：臨床面接からの大規模言語モデルを用いた世界的な認知症およびうつ病評価 [eess.AS, cs.CL, cs.SD]目的：認知症とうつ病の重症度予測
- 高齢化社会において，認知症とうつ病は罹患率が高く，適切な診断とケアが重要である。
- 認知症とうつ病は症状が重なり合うため，鑑別診断が困難であるという課題がある。
- 大規模言語モデルを用いて，認知症とうつ病の鑑別診断を支援し，早期発見に貢献する。
- 大規模言語モデルは，ゼロショット設定でうつ病の重症度を効果的に予測することが示された (MAE 0.60)。
- 認知症の評価では，特徴量抽出による構造化アプローチが有効であり，ゼロショットベースラインと比較して最大35%エラーを削減した。
- 自動音声認識によるトランスクリプトでも良好な性能が得られ，自動化されたスクリーニングパイプラインの実現可能性を示唆する。
Link: https://arxiv.org/abs/2606.18019
Colab NAS: オッカムの剃刀に従った軽量タスク固有の畳み込みニューラルネットワークの獲得 [cs.CV]目的：軽量タスク固有の畳み込みニューラルネットワークの獲得
- 大規模データセットで訓練された畳み込みニューラルネットワークの転移学習は一般的だが，小規模な問題には過剰な場合がある。
- カスタムCNNの訓練には専門知識や高価なリソースが必要であり，NN開発者の参入障壁となっている。
- Google Colaboratory等の無料GPUサービスで，手頃な価格で軽量なタスク固有CNNを生成する。
- ColabNASは，オッカムの剃刀に触発された新規な導関数フリー探索戦略を用いる。
- Visual Wake Wordデータセットにおいて，最先端の結果をわずか3.1 GPU時間で達成した。
- 本手法は，TinyMLベンチマークにおいて，無料のオンラインGPUサービスで利用可能である。
Link: https://arxiv.org/abs/2212.07700
NTIRE 2024画像超解像度チャレンジ（x4）：手法と結果 [cs.CV]目的：画像超解像度における最先端の性能の獲得
- 画像処理分野において，高画質化技術は重要な課題である。視覚情報の向上に貢献する。
- シングルイメージ超解像度において，性能向上には限界が見えていた。
- より高度な超解像度技術を開発し，性能の限界を突破すること。
- NTIRE 2024チャレンジは，画像超解像度技術の進歩を促進した。
- 今回のチャレンジには199名が登録し，20チームが有効な結果を提出した。
- 提出された手法の性能は，PSNR指標を用いてDIV2Kテストデータセットで評価された。
Link: https://arxiv.org/abs/2404.09790
別名に注意せよ -- 信号の保存が堅牢な画像復元に不可欠である [cs.CV, cs.LG, eess.IV]目的：画像復元のためのモデルの堅牢性向上
- 画像復元は，ノイズや歪みを含む画像から高品質な画像を生成する上で重要な技術である。
- 既存の画像復元モデルは，高PSNRを追求するあまり，入力信号の再現性を損なう場合がある。
- 本研究は，エイリアシング（別名）の影響を抑制し，モデルの堅牢性を高めることを目指す。
- 提案手法BOA-Restormerは，周波数領域でのダウンサンプリング/アップサンプリングにより，エイリアシングを抑制する。
- これにより，従来のモデルと比較して，モデルの堅牢性が向上することが示された。
- 復元性能への影響は軽微であり，計算コストも低いことが確認された。
Link: https://arxiv.org/abs/2406.07435
サービスコンピューティングにおける様式化ロゴを用いた効率的なビデオに対する敵対的攻撃 [cs.CV, cs.CR]目的：ビデオに対する敵対的攻撃手法の開発
- サービスコンピューティングにおいて，ビデオ分類は多くの知能化アプリケーションの基盤である
- 深層ニューラルネットワークは脆弱であり，敵対的サンプルによる攻撃を受けやすい
- 低コストで，より自然な敵対的サンプルを生成し，ビデオ分類システムの安全性を検証する
- 提案手法Stylized Logo Attack (SLA)は，最先端の手法と比較して，より高い攻撃成功率を達成した
- SLAは，様々な防御手法に対しても良好な欺瞞効果を維持できることが実験的に示された
- 本研究は，ビデオ分類システムの信頼性・安全性に対するセキュリティコミュニティの意識向上に貢献する
Link: https://arxiv.org/abs/2408.12099
Vision Languageモデルの自動事前学習モデル選択：Mordal [cs.LG, cs.AI, cs.CL, cs.CV]目的：Vision Languageモデルのタスク固有の最適なモデルの自動検索
- LLMに多様なモダリティを取り入れることで，非テキストデータの理解が深まり，幅広い応用が可能となる。
- 既存のVLMは人間の専門家によって設計されており，タスクに応じた自動的なモデル構築手法が存在しない。
- タスク定義に基づき，手動介入なしで最適なVLMを効率的に探索することを目指す。
- Mordalは，候補モデル数を削減し，評価時間を最小化することで，効率的なVLMの検索を実現する。
- グリッドサーチと比較して，GPU時間で$8.9\times$--$11.6\times$低いコストで最適なVLMを見つけることができる。
- 多様なタスクにおいて，最先端のモデル選択手法よりも平均で69％高い重み付けKendallの$\tau$を達成した。
Link: https://arxiv.org/abs/2502.00241
NTIRE 2025画像超解像度(x4)チャレンジ：手法と結果 [cs.CV]目的：画像超解像度技術の進歩促進
- 画像処理分野において，高画質の画像は不可欠であり，その需要は常に高い。
- 低解像度画像からの高解像度画像復元は，計算コストや画質劣化の問題を抱えている。
- 既存技術の限界を打破し，より高品質な超解像度技術を開発することを目的とする。
- 本チャレンジでは，286名の参加者と25チームから有効な提出があった。
- 評価にはPSNRによるピクセル精度と，知覚スコアによる視覚的リアリズムの二つの側面が用いられた。
- 本チャレンジは，画像超解像度の分野における最先端技術のベンチマークとしての役割を果たす。
Link: https://arxiv.org/abs/2504.14582
EmbodiTTA：組み込みビジュアルシステムのための効率的なテスト時適応 [cs.LG, cs.CV]目的：組み込みビジュアルシステムにおけるテスト時適応の効率化
- ロボット工学等の分野で，環境変化に対応できる汎用的な知能が求められている。
- 既存のテスト時適応手法は，計算資源の制約があるエッジデバイスには不向きである。
- 限られた資源下でも，テスト時適応を実用化するための技術開発を目的とする。
- 本研究では，ドメインシフトの検出に基づき適応をトリガーするオンデマンドTTAパラダイムを提案。
- 提案手法OD-TTAは，軽量なドメインシフト検出機構，適切なソースモデルの選択，効率的なBN更新により，省資源での適応を実現。
- 実験の結果，OD-TTAは高い性能を維持しつつ，計算コストとエネルギー消費を大幅に削減できることが示された。
Link: https://arxiv.org/abs/2505.00986
ALAS：音声言語モデルの潜在的アライメントスコアの自動評価 [cs.CL, cs.SD, eess.AS]目的：音声言語モデルにおける音声とテキストのアライメントの質的評価指標
- 近年，音声とテキストを扱うLLMが発展しており，その性能は音声とテキストのアライメントの質に大きく左右される。
- 音声LLM内部での音声フレームとテキストトークンの結合度を測る標準的な手法が存在しない。
- 既存のモデルのアライメント状況を評価し，改善の方向性を示す。
- ALASは，モデルやタスクに依存しない指標であり，隠れ層の状態を分析することで，音声とテキスト表現のクロスモーダルなコサイン類似度を評価する。
- ALASは，追加の学習や分類器を必要とせず，既存のASR参照を用いることで，解釈可能な基準線と比較できる。
- 実験の結果，アライメントの深さと強さは，モデルのオーディオエンコーダー設計やタスクの要求によって異なり，タスク精度と必ずしも一致しないことが示された。
Link: https://arxiv.org/abs/2505.19937
SceneCompleter：生成的な新規視点合成のための高密度3Dシーン補完 [cs.CV]目的：生成的な新規視点合成のための高密度3Dシーン補完
- 視点変更可能なコンテンツ生成は，バーチャルリアリティやメタバースなど，様々な応用分野で重要性が増している。
- 既存手法は2D画像補完に依存し，3D構造の推論が不十分なため，幾何学的な歪みや外観のずれが生じやすい。
- 本研究は，3Dシーン全体を高密度に補完することで，より一貫性のある新規視点画像を生成することを目指す。
- SceneCompleterは，幾何学と外観を同時に処理する拡散モデルを用いて，RGBD空間で3Dシーンを高密度に補完する。
- Scene Embedderを用いることで，参照画像から得られるグローバルな意味情報やスタイル情報を生成に組み込む。
- 実験結果から，SceneCompleterは多様な状況において，視覚的に妥当で幾何学的に一貫性のある新規視点画像を生成することが示された。
Link: https://arxiv.org/abs/2506.10981
時間周波数較正蒸留を用いた局所・大域的知識統合による音声強調 [cs.SD, eess.AS]目的：音声強調のための局所的および大域的知識統合フレームワーク
- 音声強調は，通信，補聴，音声認識など，幅広い分野で不可欠な技術である。
- 従来の蒸留戦略では，音声の時間周波数特性を十分に活用できていない場合がある。
- 時間周波数特性を考慮した蒸留戦略により，音声強調性能の向上を目指す。
- 提案手法は，単一チャンネルおよび複数チャンネルの音声強調データセットにおいて，低複雑度な生徒モデルの性能を安定的に向上させる。
- 時間周波数領域における相互較正蒸留により，異なる層への蒸留貢献を音声特性に応じて適切に割り当てることが可能となる。
- L3DAS23チャレンジの音声強調トラックで1位を獲得したDPDCRNに提案手法を適用し，有効性を検証した。
Link: https://arxiv.org/abs/2506.13127
TextMesh4D：ゼロショットによるテキストから4Dメッシュ生成 [cs.CL, cs.CV]目的：テキストから動的な4Dメッシュを生成する手法
- 物理に基づいた表現学習には大規模な4Dデータが不可欠だが，その取得とアノテーションにはコストがかかる。
- 従来の陰解表現は，表面形状の制御が難しく，時間的に一貫性のある再構成が課題であった。
- 拡散モデルとトポロジー制約のあるメッシュの構造的な不一致を解消し，高精度な動的メッシュ生成を目指す。
- 提案手法であるTextMesh4Dは，ヤコビアン変形場を用いることで，トポロジーを意識した表面再構成を可能にした。
- 局所・大域的意味的正則化により，時間経過に伴う形状の一貫性を維持し，変形可能性を高めた。
- 実験結果から，提案手法が時間的一貫性，構造的忠実性，視覚品質において最先端の性能を示すことが示された。
Link: https://arxiv.org/abs/2506.24121
4DSloMo：非同期キャプチャによる高速シーンの4D再構成 [cs.CV]目的：高速シーンの4D再構成手法
- 高速運動解析やリアルな4D再構成には不可欠な技術である。
- 既存の4Dキャプチャシステムは30FPS以下に制限されていることが多い。
- 低FPSカメラのみで高速な4Dキャプチャを実現し，再構成品質を向上させる。
- 非同期キャプチャにより，特殊な高速カメラなしで実効フレームレートを100-200FPSに向上させた。
- 4D疎視点再構成によるアーティファクトを修正するビデオ拡散モデルを提案した。
- 実験結果から，本手法が同期キャプチャと比較して高速4D再構成を大幅に改善することが示された。
Link: https://arxiv.org/abs/2507.05163
ワールドモデル批判：ワールドモデリングのための生成潜在予測アーキテクチャ [cs.LG, cs.AI, cs.CL, cs.CV, cs.RO]目的：ワールドモデルの設計次元および生成潜在予測アーキテクチャ
- 人工知能，特に汎用人工知能の開発において，環境をシミュレーションするワールドモデルは不可欠である。
- 既存のワールドモデルは，現実世界の多様な可能性を網羅的にシミュレーションできていない。
- 現実世界の実行可能な可能性をシミュレーションし，目的を持った推論と行動を可能にするアーキテクチャを提案する。
- 本研究では，状態的，階層的，多層，連続/離散表現を組み合わせた生成潜在予測(GLP)アーキテクチャを提案する。
- GLPアーキテクチャは，自己教師あり学習フレームワークに基づき，物理的，能動的，ネストされた(PAN)AGIシステムの実現を目指す。
- 本研究は，ワールドモデルのデータ，表現，アーキテクチャ，学習目的，利用といった設計次元を詳細に分析した。
Link: https://arxiv.org/abs/2507.05169
ゼロサムゲームにおけるナッシュ均衡の特徴付け：線形勾配クエリ数による物理学に基づいた並列化可能なアプローチ [cs.GT, cs.LG]目的：ゼロサムゲームにおけるナッシュ均衡の特性
- 機械学習，経済学など幅広い分野で基盤となる問題であり，競争的環境の分析に不可欠である。
- 従来の計算手法は収束が遅い場合や，並列化が困難であるという課題があった。
- 物理学的手法に基づき，ナッシュ均衡を効率的に，かつ並列化可能な形で特定すること。
- 提案手法は，従来のアルゴリズムと比較して，ナッシュ均衡の計算において大幅な性能向上を示すことが実験的に確認された。
- 本研究は，線形数の勾配クエリでナッシュ均衡を特徴付ける初のオンライン最適化手法を提供する。
- 提案手法は，並列化が可能であり，任意の学習率で使用できるという利点がある。
Link: https://arxiv.org/abs/2507.11366