arXiv雑要約

画像・音声 - 2026/03/17 公開

ECHO：人間と物体の相互作用のエゴセントリックモデリング [cs.CV]目的：人間と物体の相互作用のモデリング
- ウェアラブルデバイスの普及により，人間行動の理解が不可欠となっている。
- ウェアラブルデバイスからの信号は疎であり，正確なモデリングが困難である。
- 疎な信号から人間と物体の相互作用を高精度に推定すること。
- ECHOは，頭部と手首のトラッキングのみを用いて，人間の姿勢，物体の動き，接触力学を同時に推定する統一的なフレームワークである。
- ECHOは，人間，物体，相互作用のモダリティ間の相互依存性をモデル化する新しい三変量拡散プロセスを採用している。
- 大規模な人間モーションデータセットと小規模なHOIコレクションを組み合わせた学習が可能で，既存手法を大幅に上回る性能を達成した。
Link: https://arxiv.org/abs/2508.21556
UPGS：動的シーンのデブラーリングのための統一ポーズ認識ガウススプラッティング [cs.CV]目的：動的3Dシーン再構築の質の向上
- AR/VR，ロボティクス，自動運転など幅広い分野で動的3Dシーン再構築が求められている。
- カメラや物体の動きによるモーションブラーが再構築の精度を著しく低下させるという課題がある。
- モーションブラーの影響を受けにくい，高精度な再構築手法の開発を目指す。
- 提案手法は，カメラポーズと3Dガウスを同時に最適化する統一的なフレームワークを採用している。
- 3Dガウスに対する原点周りのSE(3)アフィン変換としてカメラと物体の動きを表現することで，誤差の蓄積を抑制している。
- Stereo Blurデータセットや実世界のシーケンスにおける実験で，既存手法を上回る再構築品質とポーズ推定精度を達成した。
Link: https://arxiv.org/abs/2509.00831
UnLoc：奥行き不確実性を活用した間取り図内での位置推定 [eess.SY, cs.SY, math.OC, eess.SY, cs.SY, cs.CV]目的：間取り図内での逐次的なカメラ位置推定
- 間取り図は容易に入手でき，長期にわたって利用可能であり，視覚的な変化に強い。ロボットの自律移動に不可欠である。
- 既存手法では，奥行き予測における不確実性のモデリングが不十分であり，環境ごとにカスタムの奥行きネットワークが必要となる。
- 汎用的な奥行きモデルを用いて，環境依存性を低減し，未知の空間への適用性を高める。
- UnLocは，奥行き予測の不確実性を明示的な確率分布としてモデル化する新しい確率モデルを導入した。
- 大規模な合成データセットと実世界のデータセットで評価した結果，既存手法と比較して精度とロバスト性が大幅に向上した。
- 特に，LaMAR HGEデータセットにおいて，長いシーケンス（100フレーム）で2.7倍，短いシーケンス（15フレーム）で42.2倍のLocalization Recallを達成した。
Link: https://arxiv.org/abs/2509.11301
フレーム単位の追跡を超えて：効率的な点群追跡のための軌道ベースのパラダイム [cs.CV, cs.AI, cs.RO]目的：LiDARを用いた3D単一物体追跡の効率化
- ロボティクスや自律システムにおいて，3D物体追跡は重要な技術である。
- 既存手法は，計算コストまたはロバスト性に課題がある。
- 過去のバウンディングボックス軌跡から，効率的に運動の連続性を学習する。
- 提案手法TrajTrackは，ベースとなる2フレーム追跡器を強化し，高い精度を実現した。
- 大規模ベンチマークNuScenesにおいて，既存手法を3.02%上回り，最高水準の性能を達成した。
- 異なるベース追跡器に対しても，TrajTrackの汎用性が確認された。
Link: https://arxiv.org/abs/2509.11453
オルトモザイク画像からUAV生画像へ：ヤシの検出と冠心位置の特定精度向上 [cs.CV]目的：ヤシの検出と冠心位置の特定
- 生態学的モニタリングや森林管理において，個々の樹木の正確なマッピングは不可欠である。
- オルトモザイク画像は広く利用されているが，つなぎ目によるアーチファクトや重い前処理が現場での利用を制限する。
- UAV生画像を用いることで，現場での実用性を高め，検出精度を向上させることを目指す。
- UAV生画像は，実用的なシナリオにおいてオルトモザイク画像よりも優れた性能を示すことが明らかになった。
- オルトモザイク画像は，ロバストなドメイン横断汎化において依然として有用である。
- 冠心位置の注釈を取り入れることで，位置特定精度がさらに向上し，生態学的解析のための正確な樹木位置データが得られる。
Link: https://arxiv.org/abs/2509.12400
ドメイン適応型セグメンテーションのためのマスク表現モデリング [cs.CV]目的：ドメイン適応型セマンティックセグメンテーションにおける性能向上
- 画像認識の精度向上は，自動運転や医療診断など幅広い分野で重要である。
- ラベルなしターゲットドメインへの適応は困難であり，セグメンテーション性能が低下する。
- 潜在空間での表現モデリングにより，セグメンテーションタスクとの整合性を高める。
- マスク表現モデリング（MRM）は，多様なアーキテクチャとUDAベンチマークにおいてセグメンテーション性能を安定的に向上させる。
- MRMを4つの代表的なベースラインに統合することで，GTA→Cityscapesで平均+2.3 mIoU，Cityscapes→Synthiaで+2.8 mIoUの改善が確認された。
- MRMは，シンプルかつ効果的で汎用性の高いドメイン適応型セマンティックセグメンテーション戦略である。
Link: https://arxiv.org/abs/2509.13801
フレームサンプリング戦略が重要である：小型ビジョン言語モデルのベンチマーク [cs.CV, cs.CL]目的：小型ビジョン言語モデルのビデオ質問応答におけるフレームサンプリング戦略の影響評価
- ビデオ理解は，AI技術の応用範囲を広げる上で不可欠であり，その性能向上は重要な課題である。
- 既存のビデオベンチマークでは，フレームサンプリング戦略の違いにより，モデルの性能評価に偏りが生じやすい。
- フレームサンプリング戦略による偏りを解消し，公平なモデル評価を可能にするためのベンチマークを構築する。
- フレームサンプリング戦略が，小型ビジョン言語モデルのビデオ質問応答性能に大きな影響を与えることが確認された。
- データセットやタスクの種類によって，最適なフレームサンプリング戦略が異なることが示された。
- 再現性のあるベンチマークコードを公開し，ビデオVLMsの評価における標準化されたフレームサンプリング戦略の重要性を強調した。
Link: https://arxiv.org/abs/2509.14769
言葉を超えて：非言語的手がかりによる欲求，感情，センチメント認識の向上 [cs.CV, cs.CL]目的：欲求，感情，センチメント認識のための非言語的手がかりの活用
- ソーシャルメディア分析などへの応用が期待される，感情分析における重要な研究分野である。
- 既存手法は言語情報に偏重しており，画像に埋め込まれた非言語的手がかりの有効活用が不十分である。
- 画像とテキスト間の双方向の情報を活用し，非言語的手がかりの認識性能向上を目指す。
- 提案手法SyDESは，テキストと画像の双方向微調整によるモダルアライメントを達成し，新たな最高性能を確立した。
- 混合スケール画像戦略と対称的なクロスモダルデコーダにより，意図に関連する視覚表現を効果的に捉えた。
- 欲求理解においてF1スコアで1.1%の改善が確認され，感情・センチメント認識においても一貫した性能向上が認められた。
Link: https://arxiv.org/abs/2509.15540
RadarGaussianDet3D：4D自動車レーダーを用いたリアルタイム3D物体検出のためのガウス表現に基づく手法 [cs.CV]目的：4D自動車レーダーを用いたリアルタイム3D物体検出の精度向上
- 自動運転技術の発展において，低コストでロバスト，かつ速度計測が可能な4D自動車レーダーの重要性が高まっている。
- 従来のレーダーベースの3D物体検出器は，BEV特徴抽出にピラーエンコーダーに依存し，特徴マップが疎になり，表現品質が低下するという課題がある。
- ガウス表現を活用し，より高精度かつ高速なリアルタイム3D物体検出を実現することで，上記の課題を解決することを目指す。
- 提案手法RadarGaussianDet3Dは，ガウスプリミティブと分布を中間表現として用いることで，既存手法よりも高密度な特徴マップを実現した。
- Point Gaussian Encoder（PGE）の最適化により，高速な点特徴集約と3D Gaussian Splatting（3DGS）による高速レンダリングを実現し，低遅延性を実現した。
- Box Gaussian Loss（BGL）により，バウンディングボックスの包括的かつ一貫した最適化が可能となり，TJ4DRadSetとView-of-Delftでの実験で高い検出精度と高速な推論速度が確認された。
Link: https://arxiv.org/abs/2509.16119
非参照画像品質評価のための視覚言語基盤の再検討 [cs.RO, cs.CV]目的：非参照画像品質評価における視覚言語事前学習モデルの基礎
- 画像品質評価は，画像処理技術の性能向上に不可欠であり，ユーザー体験に直接影響する。
- 従来の画像品質評価手法は，参照画像が必要な場合が多く，現実的な利用が困難な場面がある。
- 本研究は，参照画像なしで画像品質を評価する手法の精度向上を目指す。
- SigLIP2が，一貫して高い性能を示すことが明らかになった。
- 活性化関数の選択が，モデルの汎化能力に大きく影響することが示された。
- チャネルごとに非線形性を適応的に決定する学習可能な活性化選択メカニズムにより，最先端の性能を達成した。
Link: https://arxiv.org/abs/2509.17374
Oracleによる教育付き強化学習：データ効率と事実に基づいた放射線レポート生成 [cs.CV, cs.AI, cs.CL]目的：放射線画像からの臨床的に信頼性の高いレポートの自動生成
- 医療現場では，迅速かつ正確な診断が求められ，放射線レポートの自動化は重要な課題である。
- 既存手法は，大規模データセットと計算資源を必要とし，実用上の制約がある。
- 限られたリソース下でも，効率的かつ正確なレポート生成を実現すること。
- 提案手法OraPOは，強化学習とOracleの活用により，単一の段階で学習可能である。
- FactScoreに基づいた報酬FactSは，診断根拠に基づいた学習を促し，解釈性の高い報酬を提供する。
- CheXpert Plusデータセットにおいて，既存の最高性能を更新し，少ないデータ量で高い性能を達成した。
Link: https://arxiv.org/abs/2509.18600
ラベル補間を用いた手術映像の理解 [cs.CV]目的：手術映像の理解に関する研究
- ロボット支援手術は患者回復を促進し，外科医の負担を軽減する重要な手法である。
- 既存研究は単一タスクに偏り，複雑な手術場面の包括的な理解が困難である。
- ラベルの少ないデータから高精度な理解を目指し，時間・空間的不均衡を解消する。
- 光学的フローに基づき，ラベルを補間することで，疎なアノテーションを補強する。
- マルチタスク学習との組み合わせにより，手術場面の理解精度と効率を向上させる。
- 本手法は，ロボット支援手術の有用性を高める貢献が期待される。
Link: https://arxiv.org/abs/2509.18802
Track-On2：メモリを用いたオンライン点追跡の性能向上 [cs.CV]目的：長期間にわたる点追跡の性能向上
- 動画解析において，対象物を正確に追跡することは，自動運転やロボット工学等の応用において不可欠である。
- 外観変化，動き，遮蔽といった課題により，長期間にわたる点追跡は困難である。
- 過去の情報を活用し，ドリフトや遮蔽へのロバスト性を高めることで，より安定した追跡を実現する。
- 提案手法Track-On2は，Transformerベースのアーキテクチャと効率的なメモリ機構により，オンライン点追跡において高い性能と効率を実現した。
- 特に，因果的なフレーム処理とメモリ機構により，未来のフレームに依存することなく，ドリフトや遮蔽を効果的に処理できる。
- 5つのベンチマークにおいて，既存のオンラインおよびオフラインの追跡手法を上回り，最先端の結果を達成した。
Link: https://arxiv.org/abs/2509.19115
SloPal：スロバキア議会発言6000万語コーパスとファインチューニング済みASRモデル [cs.CL, cs.AI, cs.SD]目的：スロバキア議会発言コーパスと音声データセット
- スロバキア語は言語資源が乏しく，音声認識の研究が進んでいない。
- 公開されているスロバキア語の音声認識学習データは100時間未満と少ない。
- 大規模な議会発言コーパスと音声データセットを構築し，音声認識の性能向上を目指す。
- SloPalは33万件の発話セグメント（6000万語，2億2000万トークン）を含む大規模コーパスである。
- SloPalSpeechは2806時間の音声データセットであり，WhisperベースのASR学習に最適化されている。
- SloPalSpeechでWhisperをファインチューニングすることで，WERを最大70％削減できた。
Link: https://arxiv.org/abs/2509.19270
UniPrototype：一様プロトタイプによる人間・ロボットの技能学習 [cs.RO, cs.CV]目的：人間とロボット間の技能伝達のためのフレームワーク
- ロボット学習におけるデータ不足は長年の課題であり，効率的な学習を阻害している。
- ロボット操作は，人間が豊富に利用できるモーションキャプチャデータやインターネット資源にアクセスできない。
- 人間とロボット間の技能格差を埋め，ロボットの学習効率と性能を向上させることを目指す。
- UniPrototypeは，共有された動作プリミティブを通じて人間からロボットへの知識伝達を可能にする。
- ソフトな割り当てを用いた構成的なプロトタイプ発見メカニズムにより，複合的な技能表現を実現した。
- 適応的なプロトタイプ選択戦略により，タスクの複雑さに応じてプロトタイプの数を調整し，スケーラブルな表現を可能にした。
Link: https://arxiv.org/abs/2509.23021
合成シーケンスと動的損失を用いた教師なしオンライン3Dインスタンスセグメンテーション [cs.CV]目的：LiDARスキャンにおける一貫した物体IDの維持
- 自動運転やロボティクスにおいて，周囲環境の正確な3D理解は不可欠である。
- 教師なしセグメンテーションは，アノテーションコストが高い3Dデータへの適用が困難である。
- 多様なデータと効率的な学習戦略により，教師なしセグメンテーションの性能向上を目指す。
- 提案手法では，合成点群シーケンス生成により学習データの多様性を高めた。
- 柔軟なフレームサンプリング戦略により，長距離依存性と短期変動の両方を学習した。
- 動的重み損失を用いることで，確信度の高いサンプルに焦点を当て，ロバストな表現を獲得した。
Link: https://arxiv.org/abs/2509.23194
視覚，深度，熱信号の協調によるマルチモーダル追跡：データセットとアルゴリズム [cs.CV]目的：マルチモーダル追跡のためのデータセットとアルゴリズムの開発
- 対象追跡は，自動運転やロボティクスなど，幅広い分野で重要な役割を担う。
- 従来の追跡手法は，入力モダリティが限られるため，複雑な状況下で課題が残る。
- RGB，深度，熱赤外線情報を統合し，複雑な環境下での追跡精度とロバスト性を向上させる。
- RGBDT500と呼ばれる新しいマルチモーダル追跡データセットを構築した。
- RDTTrackという新しいマルチモーダルトラッカーを提案し，RGB追跡モデルとプロンプト学習を活用した。
- 実験結果は，提案手法が既存の二重モーダルアプローチよりも追跡精度とロバスト性で優れていることを示している。
Link: https://arxiv.org/abs/2509.24741
UP2You：制約のない写真コレクションからの自己再構築の高速化 [cs.CV]目的：制約のない写真コレクションからの高忠実度3D衣服ポートレートの再構築
- 現実世界の人物認識やアバター作成において，高品質な3Dモデルの需要が高まっている。
- 従来の3D再構築手法は，高品質な入力画像や正確なキャリブレーションが必要であり，実用性に課題があった。
- UP2Youは，未加工の写真から高速かつ高精度に3Dモデルを生成することで，この課題を解決することを目指す。
- UP2Youは，従来のデータ圧縮手法とは異なり，データ整流パラダイムを用いて高速にクリーンなマルチビュー画像を生成する。
- 実験結果から，UP2YouはPuzzleIOIにおいて幾何学的精度（Chamfer-15%，P2S-18%），4D-Dressにおいてテクスチャ忠実度（PSNR-21%，LPIPS-46%）で既存手法を上回ることが示された。
- UP2Youは，1人あたり1.5分で再構築が可能であり，任意のポーズ制御やトレーニング不要なバーチャル試着にも対応できる。
Link: https://arxiv.org/abs/2509.24817
リアルタイム物体検出のためのYOLO26：主要なアーキテクチャの強化と性能ベンチマーク [cs.CV]目的：リアルタイム物体検出のためのYOLO26のアーキテクチャ強化と性能評価
- 物体検出は，自動運転，監視システム，ロボット工学など，多くの分野で不可欠な技術である。
- 既存の物体検出モデルは，計算コストが高く，エッジデバイスでのリアルタイム処理が困難である場合がある。
- YOLO26は，エッジデバイスや低消費電力デバイスでの効率的かつ正確なリアルタイム物体検出を実現することを目指す。
- YOLO26は，DFLの削除，NMS-free推論の採用，ProgLossやSTALの統合，MuSGDオプティマイザの導入など，アーキテクチャを強化している。
- YOLO26は，物体検出に加え，インスタンスセグメンテーション，ポーズ推定，配向検出，分類などのマルチタスクフレームワークとして機能する。
- NVIDIA Jetson NanoやOrinなどのエッジデバイス上でのベンチマークにより，YOLO26はYOLOv8やTransformerベースの検出器と比較して優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2509.25164
UniMMAD：MoE駆動型特徴量圧縮による統一マルチモーダル・マルチクラス異常検知 [cs.CV]目的：マルチモーダルかつマルチクラスの異常検知のための統一的フレームワーク
- 異常検知は，製造，医療，セキュリティなど幅広い分野で重要な役割を果たす。
- 既存手法は，モダリティとクラスを独立に扱うため，解決策が分断され，メモリ消費量が大きい。
- 本研究は，異なるドメイン間の多様性を考慮した効率的な異常検知を目指す。
- UniMMADは，MoE駆動型特徴量圧縮機構により，ドメイン特有の適応的かつ分離された再構成を実現。
- エンコーダは潜在的な異常を抑制し，クロスモーダル相互作用を促進することで，ショートカット学習を回避。
- 9つの異常検知データセットにおいて，最先端の性能を達成し，効率性と精度の両立を実現。
Link: https://arxiv.org/abs/2509.25934
拡散モデルにおけるモード衝突回避：合成の改善 [cs.CV, cs.LG]目的：拡散モデルにおけるマルチコンセプトプロンプトの忠実性向上
- 画像生成AIの発展は，創造性の支援や新しい表現の可能性を広げている。
- 複数のコンセプトを組み合わせたプロンプトにおいて，コンセプトが欠落したり，衝突したりする問題がある。
- プロンプト内の各コンセプトの視覚的な存在感を均等にし，安定した合成を実現することを目指す。
- 提案手法CO3は，既存の拡散モデルに容易に組み込むことができ，モデルの再学習は不要である。
- CO3は，コンセプトの網羅性，バランス，ロバスト性を向上させ，コンセプトの欠落や歪みを減少させる。
- 軽微な修正ガイダンスにより，最新の拡散システムの不安定な意味的整合性の問題を大幅に軽減できる。
Link: https://arxiv.org/abs/2509.25940
注意機構に基づく音声信号アーキテクチャにおける構造的プルーニング戦略：重みの沈黙 [cs.SD, cs.LG]目的：注意機構のパラメータ削減手法
- Transformerは様々な分野で最先端の性能を示しており，その応用範囲は広い。
- 注意層は多くのパラメータを必要とし，学習・推論に高性能なハードウェアが不可欠である。
- 注意機構のパラメータを効率的に削減し，計算コストを低減することを目指す。
- 提案手法は，Attentionブロック内のクエリ，キー，バリュー，出力射影行列を個別にプルーニングする。
- ASTおよびWhisperを用いた実験により，Attentionブロックの50%のパラメータをプルーニングしても，性能をほぼ維持できることが示された。
- 従来のヘッドプルーニングやMagnitudeベースのスコアリング手法と比較して，より効果的なプルーニングが可能である。
Link: https://arxiv.org/abs/2509.26207
ExoPredicator：動的な世界の抽象モデル学習によるロボット計画 [cs.AI, cs.CV, cs.LG, cs.RO]目的：動的世界の抽象モデル
- ロボットが複雑な環境で自律的に行動するためには，世界の状態変化を予測する能力が不可欠である。
- 既存手法では，エージェントの行動に加えて並行して発生する外的要因を考慮することが困難であった。
- 外的要因を含む世界の因果関係をモデル化し，より汎化性能の高い計画を可能にすること。
- 提案手法は，記号的な状態表現と，内的・外的要因の両方の因果過程を同時に学習する抽象世界モデルを構築する。
- 限られたデータから変分ベイズ推論とLLMの提案を活用することで，効率的な学習を実現した。
- シミュレーション実験の結果，学習されたモデルは，より多くのオブジェクトや複雑な目標を持つタスクに対しても高い計画性能を示した。
Link: https://arxiv.org/abs/2509.26255
バリアント対応型自律車両検査および欠陥検出のためのマルチビューカメラシステム [cs.CV]目的：バリアントに対応した自動車の品質管理
- 自動車産業における品質管理は，顧客満足度と安全性に直結する重要な課題である。
- 車両のバリアントが増加し，検査工程が複雑化している現状がある。
- マルチビューカメラを用いた自動検査システムによる，迅速かつ高精度な欠陥検出を目指す。
- 提案手法は，11台の同期カメラによる360度スイープと，深層学習を用いた部品検出，分類，OCR，セグメンテーションを組み合わせている。
- 検証の結果，93%の仕様検証精度と86%の欠陥検出リコール率を達成し，既存手法を大きく上回った。
- 本システムは，3.3台/分の処理速度で，実用的な自動車検査環境での展開が可能であることが示された。
Link: https://arxiv.org/abs/2509.26454
Purrception: ベクトル量子化画像生成のための変分フローマッチング [cs.MA, cs.SY, eess.SY, cs.CV, cs.AI, cs.LG]目的：ベクトル量子化画像生成における変分フローマッチング手法
- 画像生成技術は，現実世界の表現や新たなコンテンツ作成において重要な役割を担う。
- 既存手法では，生成効率と生成品質のバランスが課題であり，計算コストも大きい。
- 連続的な輸送ダイナミクスと離散的なカテゴリカルな監督学習を組み合わせることで，効率的な画像生成を目指す。
- Purrceptionは，コードブックインデックスに対するカテゴリカルな事後分布を学習することで，従来のフローマッチングよりも迅速に学習が収束する。
- ImageNet-1k 256x256生成において，最先端モデルと同等のFIDスコアを達成し，競争力のある性能を示す。
- 変分フローマッチングが，連続的な輸送と離散的な監督学習を効果的に統合し，画像生成のトレーニング効率を向上させることが示された。
Link: https://arxiv.org/abs/2510.01478
医療ロボットのための概念ボトルネックモデルによる自動ゲノム解釈 [cs.RO, cs.SY, eess.SY, cs.HC, eess.SY, cs.SY, cs.CV, q-bio.OT]目的：医療自動化・ロボットシステムへの統合に適した，実行可能で解釈可能な決定
- ゲノム医療は，個別化医療の実現に不可欠であり，その重要性は増している。
- ゲノムデータ解釈の複雑さから，自動化と臨床応用が困難である。
- 解釈可能なゲノムモデリングと自動意思決定を統合し，ロボットや臨床自動化の基盤を確立すること。
- 提案システムは，HIVサブタイプ分類において，既存の基盤と比較して最先端の性能を達成した。
- 概念予測の忠実度が高く，費用対効果のトレードオフも優れていることが示された。
- 予測結果を臨床的有用性と照らし合わせて検証可能なエビデンスを提供し，不必要な再検査を削減する。
Link: https://arxiv.org/abs/2510.01618
AI生成画像に対する安全で堅牢な透かし：包括的サーベイ [cs.CR, cs.CV]目的：AI生成画像ウォーターマーキング技術の現状と課題
- 生成AIの急速な発展に伴い，知的財産保護の重要性が高まっている。
- AI生成画像の真贋判定が困難であり，悪用リスクが存在する。
- AI生成画像の出所追跡と信頼性確保のための技術的課題解決を目指す。
- 本サーベイは，AI生成画像ウォーターマーキング技術を体系的に整理し，包括的な理解を促進する。
- 画像ウォーターマーキングシステムの構成要素，既存手法，評価指標，脆弱性，今後の展望について詳細に検討した。
- 安全で責任あるAI生成コンテンツの実践に向けた研究開発を支援することを目的とする。
Link: https://arxiv.org/abs/2510.02384
拡散・分類器の相乗効果：相互ブーストループによるFSCILにおける報酬整合学習 [cs.CE, cs.RO, cs.SY, eess.SY, cs.CV]目的：少数クラス増分学習における知識保持と新規クラス学習の向上
- 継続的な学習能力は，実世界でのAI応用のために不可欠であり，特にデータが限られた状況下で重要である。
- 既存のFSCIL手法は，データ不足や安定性・可塑性のジレンマにより，汎化性能が低い場合が多い。
- 拡散モデルとFSCIL分類器の相互ブーストループにより，データの制約下での学習効果を高めることを目指す。
- 提案手法DCSは，分類器の状態から得られる動的な多面的な報酬関数を用いて拡散モデルを誘導する報酬整合学習戦略を採用する。
- 特徴レベルではプロトタイプアンカー型MMDと次元ごとの分散一致により意味的な一貫性と多様性を確保し，ロジットレベルでは信頼度再調整とセッション間混同度認識機構により探索的な画像生成とクラス識別性を向上させる。
- FSCILベンチマークにおいて，最先端の性能を達成し，知識保持と新規クラス学習の両方を大幅に改善することを示した。
Link: https://arxiv.org/abs/2510.03608
コントラストノイズ最適化による多様なテキスト画像生成 [cs.GR, cs.AI, cs.CV, cs.LG]目的：テキスト画像生成における多様性の向上
- 画像生成技術は，多様な応用分野で注目されており，その発展は重要である。
- 既存のテキスト画像生成モデルは，高品質な画像を生成する一方で，出力の多様性に課題がある。
- 初期ノイズを操作することで，生成される画像の多様性を高め，高品質を維持することを目指す。
- コントラストノイズ最適化は，バッチ内のノイズを反発させることで，多様な出力を促進しつつ，参照サンプルへの忠実性を維持する。
- 提案手法は，中間層の潜在変数を調整する既存手法と比較して，より大きな改善効果とロバスト性を示す。
- 複数のテキスト画像生成モデルで実験を行い，品質と多様性の両立において優れた性能を実証した。
Link: https://arxiv.org/abs/2510.03813
オンライン動画からコンピュータ利用を学習 [cs.AI, cs.CV]目的：コンピュータ利用エージェントの学習データ
- 多様なアプリケーション操作を伴うタスク遂行能力は，コンピュータ利用の自動化に不可欠である。
- 大規模で高品質な学習データが不足しており，既存データセットは限定的で注釈コストも高い。
- Web上の人間によるコンピュータ利用動画から実行可能なUI軌跡を大規模に生成すること。
- 本研究では，オンライン動画をコンピュータ利用エージェントの学習データとして活用する「Watch & Learn」フレームワークを提案した。
- このフレームワークにより，53,000件以上の高品質な軌跡データが得られ，汎用および特殊なエージェントの性能向上に貢献した。
- OSWorldとWindowsAgentArenaでの実験で，最先端の結果を達成し，Web規模の人間デモンストレーション動画の有効性を示した。
Link: https://arxiv.org/abs/2510.04673
視覚的自己回帰モデルのための動的混合エキスパート [cs.CV]目的：視覚的自己回帰モデルにおける計算効率と生成品質の向上
- 画像生成技術は，高品質な画像を効率的に生成する上で重要な役割を担っている。
- 既存のVARモデルは，高解像度でのTransformerの繰り返し呼び出しにより，計算負荷が高いという課題がある。
- 本研究は，計算量を削減しつつ，生成品質を維持・向上させることを目指す。
- 動的混合エキスパートをVARに統合することで，計算量と品質のトレードオフを実現した。
- スケールを考慮した閾値処理により，トークンの複雑さと解像度に応じたエキスパート選択を可能にした。
- その結果，FLOPsを20%削減，推論速度を11%向上させ，ベースラインと同等の画像品質を達成した。
Link: https://arxiv.org/abs/2510.08629
Ultralytics YOLO の進化：YOLO26，YOLO11，YOLOv8，YOLOv5 オブジェクト検出器の概要 [cs.CL, cs.CL, cs.CV, cs.AI]目的：YOLOファミリーオブジェクト検出器のアーキテクチャ進化，ベンチマーク，展開，課題の包括的な概観
- 画像認識技術は，ロボティクス，農業，監視など広範な分野で不可欠であり，その重要性は増している。
- 既存のオブジェクト検出器は，精度と効率性のトレードオフ，特に小ターゲット検出に課題を抱えている。
- 本研究は，最新のYOLOモデルの性能を比較・分析し，今後の課題と方向性を示すことを目指す。
- YOLO26は，DFLの削除，NMSフリー推論，ProgLoss，STAL，MuSGDなどの革新的な技術を導入した。
- ベンチマークの結果，YOLOv5，YOLOv8，YOLO11，YOLO26の性能を定量的に比較し，精度と効率性のトレードオフが明らかになった。
- 本研究は，オブジェクト検出におけるYOLOファミリーの進化を明らかにし，今後の発展に向けた課題を特定した。
Link: https://arxiv.org/abs/2510.09653
いいね，予算，均衡：社会的に最適な広告コンテストの設計 [eess.SY, cs.SY, cs.GT]目的：社会的に最適な広告コンテストの設計
- 広告は企業や組織にとって重要な活動であり，ブランド認知度向上に不可欠である。
- 広告予算の最適配分は複雑であり，企業間の競争が激化している。
- ナッシュ均衡と社会福祉最大化の乖離を解消するコンテスト設計を模索する。
- 提案モデルにおいて，企業の最良応答ダイナミクスは純粋戦略ナッシュ均衡に収束することが示された。
- ナッシュ均衡が社会最適解から乖離する可能性があることが明らかになった。
- コンテスト成功関数を特徴付け，一意性と社会福祉最大化を両立する設計方法を示した。
Link: https://arxiv.org/abs/2510.11253
協力ゲームにおける一般化特性関数に対する逐次解概念 [cs.GT]目的：協力ゲームにおける報酬分配メカニズムの特性付け
- 経済学や政治学において，協力的な意思決定における公平な報酬分配は重要な課題である。
- 従来の協力ゲーム理論では，参加者の順序を考慮しないという問題点があった。
- 参加者の到着順序に依存する報酬分配メカニズムの公理的性質を明らかにすること。
- 本研究では，最適な到着順序を促すインセンティブ，遅延到着による不利益の回避，逐次効率性という3つの公理を導入した。
- これらの公理を満たす報酬分配メカニズムのクラスを特徴付け，従来のShapley値との差異を示した。
- Shapley値の逐次的な拡張を2つの異なる世界で構築し，それぞれの公理的特徴付けを行った。
Link: https://arxiv.org/abs/2510.11255
REACT3D：インタラクティブな物理3Dシーンのための関節の復元 [cs.CV, cs.RO]目的：インタラクティブな物理3Dシーン生成のためのフレームワーク
- 具現化された知能の発展には，インタラクティブな3Dシーンが不可欠である。
- 既存のデータセットは，アノテーション作業の負荷が高いため，規模が限られている。
- 静的な3Dシーンからインタラクティブな複製を自動的に生成し，研究の障壁を下げる。
- REACT3Dは，静的3Dシーンをシミュレーション可能なインタラクティブな複製に変換するスケーラブルなゼロショットフレームワークである。
- 検出/セグメンテーションおよび関節の推定において，最先端の性能を達成した。
- 多様な屋内シーンにおいて，フレームワークの有効性と実用性を実証した。
Link: https://arxiv.org/abs/2510.11340
Omni-Captioner：オムニ詳細知覚のためのデータパイプライン，モデル，およびベンチマーク [cs.CL, cs.CV, cs.MM, cs.SD]目的：オムニ詳細知覚に関するデータパイプライン，モデル，およびベンチマークの調査
- 人間とAIのインタラクションを向上させるには，マルチモーダル情報の詳細な知覚が不可欠である。
- 既存のOLMは，詳細な情報を捉え，記述する能力が限られている。
- 詳細さと幻覚のバランスを取りながら，より詳細なマルチモーダルデータの生成を目指す。
- Omni-Detectiveというデータ生成パイプラインを提案し，詳細で幻覚の少ないマルチモーダルデータを自動的に生成することに成功した。
- Audio-Captionerは，MMAUとMMARにおいて，既存のオープンソースモデルを上回り，Gemini 2.5 Flashと同等の性能を示した。
- Omni-Captionerは，VDCで最高性能を達成し，video-SALMONN 2テストセットで詳細さと幻覚の最適なバランスを実現した。
Link: https://arxiv.org/abs/2510.12720
衛星画像からの没入型3D都市景観の合成 [cs.CV]目的：大規模3D都市景観の合成
- 没入型アプリケーションにおいて，現実的で正確な3D都市環境は不可欠である。
- 汎用的な生成モデルの学習には，大規模で高品質な3Dスキャンデータが不足している。
- 衛星画像と拡散モデルを用いて，低コストで高品質な3D都市景観を生成すること。
- Skyfall-GSは，衛星画像による粗い形状と拡散モデルによる詳細なテクスチャ合成を組み合わせることで，大規模な3D都市景観を生成する。
- 本手法は，既存の手法と比較して，より一貫性のある形状と写実的なテクスチャを提供する。
- 高価な3Dアノテーションを必要とせず，リアルタイムでの3D探索を可能にする。
Link: https://arxiv.org/abs/2510.15869
言語支援画像クラスタリングにおける勾配の重要性に関する証明 [cs.CV]目的：言語支援画像クラスタリングにおける，画像に関連する名詞のフィルタリング手法
- 画像とテキストの意味情報を組み合わせることで，画像分類の精度向上が期待される分野。
- ラベル付けされていない大規模なテキストデータから，関連性の高い名詞を抽出することが難しい。
- 勾配情報を利用することで，より厳密な理論的根拠に基づいたフィルタリングを実現する。
- 提案手法GradNormは，理論的な保証を持ち，実験的にも高い性能を示す。
- GradNormは，既存のフィルタリング手法を特殊なケースとして包含する。
- 様々なベンチマークにおいて，最先端のクラスタリング性能を達成した。
Link: https://arxiv.org/abs/2510.16335
SAKE：大規模オーディオ言語モデルの聴覚属性知識編集に向けて [cs.SD, cs.AI, cs.CL, eess.AS]目的：大規模オーディオ言語モデルにおける聴覚属性知識の編集
- 音声処理と自然言語処理の融合が重要であり，多様な応用への道を開く。
- 既存の研究では，抽象的な聴覚的知覚知識の編集が未だ十分に検討されていない。
- 聴覚属性知識の編集能力向上を目指し，新たな評価基盤と手法を提案する。
- SAKEは，大規模オーディオ言語モデルの聴覚属性知識編集のための初のベンチマークである。
- 既存の編集手法は，信頼性は高いものの，聴覚の一般化，属性内局所性，マルチモーダル知識伝播に課題があることが示された。
- モダリティコネクタのファインチューニングが，LLM本体を直接編集するよりも堅牢でバランスの取れたベースラインとなることが明らかになった。
Link: https://arxiv.org/abs/2510.16917
CARE：イベント駆動型センサーデータからの日常生活活動認識のためのコントラスト的アラインメント [cs.CV, cs.AI]目的：イベント駆動型環境センサーデータからの日常生活活動（ADL）認識
- 高齢者や障がい者の自立支援のため，生活環境における活動認識は重要である。
- 既存手法は，表現レベルの制約により，センサーデータの時間的・空間的な情報を十分に活用できていない。
- シーケンスデータと画像データの相補的な強みを活かし，よりロバストな活動認識を実現すること。
- 本研究で提案するCAREは，シーケンスと画像間のコントラスト的アラインメントにより，表現学習と分類を同時に最適化する。
- 複数のCASASデータセットにおいて，最先端の性能（ミラノ：89.8%，カイロ：88.9%，京都7：73.3%）を達成した。
- センサーの故障やレイアウトの変動に対するロバスト性も示され，スマートホームにおける信頼性の高い活動認識への応用が期待される。
Link: https://arxiv.org/abs/2510.16988
AWARE：編集に対する耐性を持つ音声ウォーターマーキング [cs.SD, cs.LG, cs.MM, eess.AS]目的：編集に対する耐性を持つ音声ウォーターマーキング手法
- デジタルコンテンツ保護の重要性が高まり，音声データの改ざん防止技術が求められている。
- 従来の学習ベースの手法は，シミュレーションされた歪みに過剰適合し，未知の攻撃に弱いという課題がある。
- 攻撃シミュレーションに頼らず，敵対的最適化により編集に強いウォーターマークを生成することを目指す。
- AWAREは，時間周波数領域での敵対的最適化と，ビットごとの証拠を集約するBitwise Readout Head（BRH）を用いる。
- 様々な音声編集に対して高い音声品質と高い復号精度を達成し，既存の最先端手法を上回る性能を示した。
- 時間的なずれやカットに対しても安定したウォーターマーク検出が可能である。
Link: https://arxiv.org/abs/2510.17512
StreamingTOM：効率的な動画理解のためのストリーミングトークン圧縮 [cs.CV, cs.AI]目的：ストリーミング動画における効率的なトークン圧縮手法
- 動画理解は，自動運転や監視システムなど，幅広い応用分野で重要性が増している。
- ストリーミング動画処理では，逐次処理制約とトークン数増加による効率低下が課題となる。
- 動画内の冗長性を削減し，メモリ使用量を抑制することでリアルタイム処理を実現する。
- 提案手法StreamingTOMは，事前LLMと事後LLM両方のボトルネックに対処する，学習不要なプラグアンドプレイ型フレームワークである。
- Causal Temporal Reductionにより，フレームごとのトークン数を削減し，Online Quantized Memoryによりkv-cacheを4ビットで保存することで，メモリ使用量を大幅に削減した。
- 実験結果から，StreamingTOMはkv-cache圧縮率が15.7倍，ピークメモリ使用量が1.2倍削減，TTFTが2倍高速化されることが示された。
Link: https://arxiv.org/abs/2510.18269
ターゲットへの視線：一人称視点ビデオにおける視線認識型物体検出 [cs.DB, cs.RO, eess.SY, cs.SY, eess.SP, cs.CL, cs.CV, cs.AI]目的：一人称視点ビデオにおける視線認識型物体検出手法
- 視線は人間の注意を理解するための重要な手がかりであり，複雑な環境認識に不可欠である。
- 従来の物体検出器は全ての領域を均等に扱うため，人間の注目領域を優先的に検出できない。
- 人間の視線情報を活用し，物体検出の精度向上と注意メカニズムの解釈を目指す。
- 提案手法「Eyes on Target」は，視線情報をVision Transformerに組み込み，注意メカニズムを人間の注目領域に偏らせる。
- シミュレーターデータセットおよび公開データセット（Ego4D，Ego-CH-Gaze）での実験により，既存手法を上回る検出精度が確認された。
- 視線情報を考慮したAttention headの重要度指標を導入し，Transformerの注意ダイナミクスへの影響を可視化した。
Link: https://arxiv.org/abs/2511.01237
単一パノラマカメラによる歩行ロボットのためのセマンティック占有予測 OneOcc [cs.RO, cs.RO, cs.CV, eess.IV]目的：歩行ロボット向けセマンティックシーンコンプリーションの新しいフレームワーク
- 歩行ロボットの自律的な動作には，周囲環境の正確な３次元理解が不可欠である。
- 従来のセマンティックシーンコンプリーションは車輪型ロボット向けであり，歩行時の振動や全方位データの扱いに課題があった。
- 歩行ロボットの動作による振動の影響を軽減し，全方位データを用いた高精度な環境認識を実現する。
- OneOccは，デュアルプロジェクション融合，バイグリッドボクセル化，軽量デコーダ，歩行補正モジュールを組み合わせることで，従来手法を上回る性能を達成した。
- QuadOccデータセットにおいて，既存の画像ベース手法やLiDARベース手法と比較して優れた結果を示した。
- Human360Occデータセットにおいても，都市間での汎化性能で大幅な改善が見られた。
Link: https://arxiv.org/abs/2511.03571
文書の向き検出：効率的なOCRのための試み [cs.CL, cs.CV, cs.CL]目的：文書の向き検出によるOCR処理の効率化
- 現実世界の文書処理において，OCRの性能向上は重要である。スキャン画像等の向きの誤りは，OCRの精度を著しく低下させる。
- カメラの角度等の利用者側の誤操作により，文書画像の向きが不正確になることが多く，OCRの誤認識の原因となる。
- 本研究は，画像回転に対するOCRのロバスト性を評価するベンチマークと，高精度な回転検出パイプラインを提案し，OCRの性能向上を目指す。
- OCR-Rotation-Bench（ORB）という新しいベンチマークを構築した。英語と11のインド言語に対応しており，OCRの回転に対するロバスト性を評価できる。
- Phi-3.5-Visionモデルをベースとした軽量な回転分類パイプラインを開発し，96%と92%という高い精度を達成した。
- 提案手法をOCR処理に組み込むことで，クローズドソースモデルで最大14%，オープンウェイトモデルで最大4倍の性能向上が確認された。
Link: https://arxiv.org/abs/2511.04161
GazeVLM：マルチタスク注視理解のためのビジョン言語モデル [cs.CV, cs.AI]目的：マルチタスク注視理解
- 視線は人間の注意や意図を理解する上で重要であり，様々な応用が期待されている。
- 既存研究では視線情報を活用しているものの，視覚情報と言語情報を統合した統一的なシステムは不足している。
- 視覚情報と言語プロンプトを用いて，人物検出，注視対象検出，注視オブジェクト識別を統合的に解決する。
- GazeVLMは，RGB画像とHHAエンコードされた深度マップをテキストプロンプトで誘導することで，優れた性能を発揮する。
- 本研究で新たに提案したオブジェクトレベル注視検出指標($AP_{ob}$)を用いて評価を行った。
- GazeFollowおよびVideoAttentionTargetデータセットにおいて，最先端の評価スコアを達成した。
Link: https://arxiv.org/abs/2511.06348
MSGNav：ゼロショット埋め込みナビゲーションのためのマルチモーダル3Dシーングラフの活用 [cs.CV, cs.RO]目的：ゼロショット埋め込みナビゲーションシステム
- ロボットエージェントの自律的な動作に不可欠であり，実世界での応用が期待される。
- 既存手法では，視覚情報をテキストのみに圧縮するため，情報損失や語彙の制約が生じる。
- 視覚的情報を保持したシーングラフを構築し，効率的なナビゲーションを実現する。
- 本研究で提案するMSGNavは，GOAT-BenchとHM3D-ObjNavベンチマークにおいて最先端の性能を達成した。
- M3DSGにより，テキスト表現に比べて豊富な視覚情報を保持したシーングラフの構築が可能となった。
- 終盤の目標地点の特定という課題に対し，視覚情報に基づく視点決定モジュールが有効であることを示した。
Link: https://arxiv.org/abs/2511.10376
ビデオLLMにおける時間的エンコーディングの安定化のための訓練不要な安定化機構：PAS [cs.RO, cs.CV, cs.AI]目的：ビデオLLMにおける時間的一貫性の問題を解決するための機構
- ビデオLLMは，映像理解において重要な役割を担うが，時間的な不安定性が課題となっている。
- フレームタイミングのわずかなずれが注意機構を変化させ，重要なフレームを抑制する問題が存在する。
- マルチモーダルRoPEに起因する時間カーネルの不安定性を緩和し，注意機構の安定化を図る。
- 提案手法PASは，ヘッド間での位相オフセットと出力の集約により，時間カーネルを平滑化する。
- PASは，位置エンコーディング構造を変更することなく，時間シフトに対する注意機構の安定性を高める。
- 複数のビデオ理解ベンチマークにおいて，計算オーバーヘッドをほとんど発生させずに性能が向上した。
Link: https://arxiv.org/abs/2511.10979
状態の混合：マルチモーダル生成のためのトークンレベルの動的ルーティング [cs.CV]目的：マルチモーダル拡散モデルにおける柔軟な状態ベースの相互作用によるモダリティの融合
- 画像とテキストなど，複数のモダリティを組み合わせることで，より高度な生成が可能になる。
- 既存手法では，モダリティ間の特徴量アラインメントが不十分で，性能が制限される場合がある。
- トークンレベルでの動的ルーティングにより，モダリティ間の相互作用を効率的に最適化し，生成性能を向上させる。
- MoSは，入力と拡散ステップに依存したトークンごとのルーティング機構により，モダリティ間の柔軟な相互作用を実現する。
- MoS-ImageとMoS-Editingで最先端の結果を達成し，少ないパラメータ数（30億～50億）でより大規模なモデルと同等またはそれ以上の性能を示す。
- この結果は，MoSがマルチモーダル拡散モデルのスケーリングのための柔軟かつ計算効率の良い手法であることを示唆する。
Link: https://arxiv.org/abs/2511.12207
意味的文脈が重要である：自己回帰モデルの条件付けの改善 [cs.CV]目的：自己回帰モデルにおける条件付けの改善
- 画像生成において，拡散モデルと比較して拡張性や多様なモダリティとの統合に優れる。
- 一般的な画像編集への拡張は，弱い条件付けにより，指示への不正確さや視覚的なアーティファクトが発生しやすい。
- 意味的文脈を考慮することで，指示への忠実性と視覚的な品質を向上させることを目指す。
- SCARは，高レベルな意味情報を効率的なプレフィックスにエンコードする圧縮された意味的プリフィルと，自己回帰的なデコード中に最終的な視覚的な隠れ状態をターゲット意味に合わせる意味的アラインメントガイダンスを導入する。
- SCARはベクトル量子化に基づくプリフィルの柔軟性と一般性を活用しつつ，その意味的な制限と高コストを克服する。
- 指示編集および制御可能な生成ベンチマークにおいて，既存の自己回帰モデルを凌駕し，制御性を維持しながら優れた視覚的忠実度と意味的アラインメントを実現する。
Link: https://arxiv.org/abs/2511.14063