arXiv雑要約

画像・音声 - 2026/02/04 公開

表現整列された視覚特徴によるテスト時条件付け [cs.CV]目的：拡散モデルにおけるテスト時条件付けの強化
- 自己教師あり学習による表現整列は，拡散モデルの学習向上に寄与する。
- テスト時における条件付けの可能性は十分に探求されていない。
- 生成時に表現を用いたテスト時条件付けを可能とする。
- 表現整列ガイド（REPA-G）は，テスト時に特徴から条件付けを行うためのフレームワークである。
- 潜在関数を最適化することで，ノイズ除去プロセスを事前学習済みの特徴抽出器から抽出された条件付き表現に導く。
- ImageNetおよびCOCOにおける定量的評価により，高品質で多様な生成が実現されていることが示された。
Link: https://arxiv.org/abs/2602.03753
RAWDet-7：量子化されたRAW画像における物体検出と記述のためのマルチシナリオベンチマーク [eess.SY, cs.OS, cs.SY, cs.CV]目的：量子化されたRAW画像に対する物体検出と記述の評価
- 画像認識モデルの性能向上には，人間向けに最適化された画像処理パイプラインに依存しない，センサーレベルの情報活用が重要である。
- 従来の画像処理では，RAW画像に含まれる詳細な情報や空間的関係性が失われ，機械が解釈する上での課題となっていた。
- RAW画像に含まれる豊富な情報を活用し，低ビット量子化環境下での物体検出と記述性能を評価することで，新たな課題解決を目指す。
- 本研究で開発したRAWDet-7は，多様なカメラ，照明条件，環境下で収集された約25,000枚のRAW画像を含む大規模データセットである。
- データセットは，MS-COCOおよびLVISの慣例に従い，7つの物体カテゴリーに対して高密度にアノテーションされている。
- 対応する高解像度sRGB画像から得られた物体レベルの記述も提供しており，RAW画像処理と低ビット量子化における情報保持の研究を促進する。
Link: https://arxiv.org/abs/2602.03760
FOVI：深層視覚モデルのための生物学的触発型焦点領域インターフェース [cs.CV, cs.NE, q-bio.NC]目的：深層視覚モデルにおける焦点領域インターフェースの提案
- 人間の視覚は効率的であり，その仕組みを模倣することで，コンピュータビジョンの効率化が期待される。
- 既存のコンピュータビジョンシステムは均一な解像度で処理するため，高解像度画像処理に課題がある。
- 人間の網膜と一次視覚皮質に着想を得たインターフェースを構築し，効率的な画像処理を実現する。
- 提案手法FOVIは，可変解像度センサーアレイを均一な密度のV1様センサーマニホールドに変換する。
- k近傍探索を用いた畳み込み演算により，計算コストを削減しつつ，良好な性能を達成した。
- DINOv3 ViTモデルへの適用により，計算コストの大幅な削減と高い性能が確認された。
Link: https://arxiv.org/abs/2602.03766
QVLA：ビジョン・言語・行動モデルの量子化におけるチャネルの重要性の違い [cs.RO, cs.CV, cs.RO]目的：ビジョン・言語・行動モデルの量子化手法の改善
- ロボット工学における，ビジョン・言語・行動モデルの応用は重要だが，計算資源の制約が課題となる。
- 大規模言語モデルからの量子化手法をそのまま適用すると，行動のわずかなずれが大きな失敗につながる。
- 行動空間の感度に基づいたチャネルごとの量子化により，モデルの圧縮と性能維持を両立する。
- QVLAは，チャネルごとのビット割り当て戦略により，従来のLLM由来の手法よりも優れた性能を示す。
- OpenVLA-OFTをQVLAで量子化した場合，元のモデルのVRAMの29.2%で，性能の98.9%を維持し，1.49倍の高速化を実現した。
- SmoothQuantと比較して，22.6%の性能向上を達成し，ロボット工学におけるVLAモデル圧縮の新たな基盤を確立した。
Link: https://arxiv.org/abs/2602.03782
術前MRIから術中MRIへ：てんかん手術における側頭葉切除のブレインシフト予測 [cs.CL, cs.CV]目的：側頭葉切除におけるブレインシフトの予測
- 脳神経外科手術において，正確な手術は患者の予後を大きく左右するため，画像誘導システムが不可欠である。
- 術前のMRIは手術時の脳の状態変化（ブレインシフト）により精度が低下し，ナビゲーションの信頼性を損なう。
- 術中のMRIを用いることでブレインシフトに対応できるが，その取得には時間と労力がかかるため，代替手段が求められる。
- 提案モデルNeuralShiftは，術前MRIのみからブレインシフトを予測することで，術中のMRI取得の負担軽減に貢献する。
- 解剖学的ランドマークを用いた評価で，1.12mmという低いTRE（ターゲット登録誤差）を達成し，高い予測精度を示した。
- 予測された脳変形と術中MRIから得られたマスクとのDICE係数は0.97であり，ブレインシフトの全体的な変形を正確に捉えている。
Link: https://arxiv.org/abs/2602.03785
BridgeV2W：具現化マスクによるビデオ生成モデルと具現化された世界モデルの接続 [cs.RO, cs.CV]目的：ビデオ生成モデルと具現化された世界モデル間の接続
- ロボティクスにおいて，視覚情報や運動プライヤーを豊かにするため，インターネット動画や事前学習済みのビデオ生成モデルの活用が重要である。
- 座標空間のアクションとピクセル空間の動画の不整合，視点への依存性，異なる具現化におけるアーキテクチャの非統一性が課題である。
- 座標空間のアクションをピクセルに整合する具現化マスクを用いて，これらの課題を解決し，統一的な世界モデルを構築する。
- BridgeV2Wは，URDFとカメラパラメータからレンダリングされた具現化マスクを生成し，ControlNet様式で事前学習済みのビデオ生成モデルに注入する。
- これにより，アクション制御信号と予測動画の整合性が向上し，視点に依存しない条件付けが可能になり，具現化された世界モデルのアーキテクチャが統一される。
- DROIDとAgiBot-G1を用いた実験により，BridgeV2Wが従来の最先端手法と比較してビデオ生成品質を向上させることが示された。
Link: https://arxiv.org/abs/2602.03793
視点適応型人間ビデオ生成のための3D認識に基づく暗黙的モーション制御 [cs.CV]目的：視点適応型人間ビデオ生成におけるモーション制御手法
- ビデオ生成における人間モーション制御は，リアリティと柔軟性の向上に不可欠である。
- 既存手法は，2DポーズやSMPLといった制約に縛られ，自由な視点での生成が困難である。
- 大規模ビデオ生成モデルの潜在能力を最大限に活かす，視点に依存しないモーション表現を確立する。
- 3DiMoは，入力フレームからコンパクトなモーショントークンを生成し，クロスアテンションを通してビデオ生成器に注入する。
- 多様な視点からの学習とSMPLによる初期化，そして段階的な減衰により，3D空間のモーション理解を促進する。
- 実験の結果，3DiMoは高いモーション忠実性と画質を実現し，既存手法を大きく上回る性能を示した。
Link: https://arxiv.org/abs/2602.03796
フルスタック・エージェント：開発重視のテストとリポジトリ後翻訳によるエージェントによるフルスタックWebコーディングの強化 [cs.SE, cs.CL, cs.CV]目的：フルスタックWebアプリケーション開発を支援するエージェントシステムの開発
- LLMを活用したコードエージェントの需要が高まる中，複雑なWebサイト開発の支援が重要である。
- 既存のエージェントはフロントエンドに偏っており，実質的なバックエンド処理やデータ管理が不十分である。
- 本研究は，データフロー制御，依存関係管理，バグ特定といった課題を解決し，実用的なフルスタック開発を実現する。
- 本研究で開発したFullStack-Agentは，フロントエンド，バックエンド，データベースのテストケースにおいて，既存手法をそれぞれ8.7%，38.2%，15.9%上回る性能を示した。
- FullStack-Learnによる自己改善は，30Bモデルの性能を，各テストケースにおいてそれぞれ9.7%，9.5%，2.8%向上させた。
- これにより，開発重視のアプローチとリポジトリ後翻訳が，フルスタックWeb開発におけるLLMの有効性を高めることが示された。
Link: https://arxiv.org/abs/2602.03798
Split&Splat: 明示的なインスタンスモデリングと3Dガウススプラッティングによるゼロショット全景セグメンテーション [cs.GR, cs.CV]目的：全景シーン再構成
- 3Dシーン理解は，ロボティクス，AR/VRなど幅広い応用において重要である。
- 既存の3D再構成手法は，オブジェクトの一貫性や意味的理解が不足している。
- 本研究は，オブジェクト単位でのセグメンテーションと再構成により，この課題を解決する。
- Split&Splatは，3Dガウススプラッティングを用いて，オブジェクトインスタンスを明示的にモデル化する。
- まず，深度情報を利用してビュー間で一貫性のある2Dマスクを伝播させ，次に各オブジェクトを独立して再構成する。
- これにより，ScanNetv2セグメンテーションベンチマークにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2602.03809
漸進的チェッカーボードによる自己回帰型マルチスケール画像生成 [cs.CV]目的：自己回帰型マルチスケール画像生成における効率的なサンプリング手法
- 画像生成は，コンピュータビジョン分野における重要な課題であり，その品質向上は広く求められている。
- 自己回帰型画像生成では，並列サンプリングと系列条件付けのバランスが課題となっている。
- マルチスケールにおける効率的な条件付けを可能にし，生成性能を向上させる。
- 提案手法は，段階的なチェッカーボードパターンを用いた固定順序により，マルチスケールで並列サンプリングを実現する。
- バランスの取れた設定において，スケールアップ係数の範囲が広くても類似した結果が得られることが示された。
- ImageNetにおける実験では，同等のモデル容量を持つ最新の自己回帰システムと比較して，競争力のある性能を達成した。
Link: https://arxiv.org/abs/2602.03811
マルチモーダル大規模言語モデルの効率的な学習：視覚トークンプルーニングによる高速・低コスト化 [cs.CV, cs.LG]目的：マルチモーダル大規模言語モデルの学習効率向上
- 近年，画像とテキストを扱う大規模言語モデルの発展が著しいが，計算コストが課題である。
- 既存手法ではモデルサイズの縮小が中心であり，視覚トークンの削減は十分に行われていない。
- 学習時と推論時の視覚トークン数の不一致による性能低下を解決し，効率的な学習を実現する。
- 提案手法DualSpeedは，高速モードで視覚トークンを削減し，低コストな学習を実現する。
- DualSpeedは，低速モードで完全な視覚シーケンスを用いて学習し，推論時の性能を維持する。
- LLaVA-1.5とLLaVA-NeXTの学習において，それぞれ2.1倍，4.0倍の高速化を達成しつつ，性能を99%以上維持した。
Link: https://arxiv.org/abs/2602.03815
音声と空間・時間情報の融合のための適応的証拠重み付け [cs.SD, cs.AI]目的：音声と空間・時間情報を融合する際の証拠の重み付け方法
- 機械学習において，複数の情報源を統合することで予測精度向上が期待される。
- 各情報源の信頼性や有用性は入力ごとに異なり，最適な統合が困難である。
- 文脈情報と音声情報を効果的に統合し，ロバスト性を向上させることを目指す。
- 提案手法FINCHは，音声分類器と空間・時間予測器を統合する適応的証拠融合フレームワークである。
- FINCHは，文脈情報の信頼性を統計量から推定し，サンプルごとに重み付けを調整する。
- CBIやBirdSetのベンチマークにおいて，既存手法を上回り，高い性能を達成した。
Link: https://arxiv.org/abs/2602.03817
適応的起源ガイダンスによる編集モデルの連続制御 [cs.CV, cs.GR]目的：テキストによる編集の強度を滑らかに制御する機構
- 画像や動画の編集において，拡散モデルが強力なツールとして注目されている。
- 既存の編集モデルでは，テキスト指示に基づく編集の強度の連続的な制御が困難である。
- 編集の強度が滑らかに変化するような，新たな制御手法を開発すること。
- 提示手法であるAdaptive-Origin Guidance (AdaOr)は，標準的なガイダンス起源をアイデンティティ条件付きの適応的起源で調整する。
- 編集強度に応じて，このアイデンティティ予測と標準的な無条件予測を補間することで，入力画像から編集結果への滑らかな移行を実現する。
- 画像と動画の編集タスクにおいて，AdaOrが現在のスライダーベースの編集手法よりも滑らかで一貫性のある制御を提供する。
Link: https://arxiv.org/abs/2602.03826
科学論文用イラストの自動生成と改良 [cs.AI, cs.CL, cs.CV, cs.DL]目的：科学論文用イラストの生成と改良
- 科学技術の発展において，複雑な概念の視覚的伝達は不可欠であり，イラストはその重要な役割を担う。
- 高品質な科学イラストの作成は時間と労力を要し，研究や産業におけるボトルネックとなっている。
- 長文の科学技術テキストから，構造的にも美的にも優れた科学イラストを自動生成することを目指す。
- AutoFigureは，科学技術テキストから高品質なイラストを自動生成する初のagenticフレームワークである。
- FigureBenchという大規模なベンチマークデータセットを構築し，多様なテキスト-イラスト生成タスクに対応した。
- 実験結果から，AutoFigureは既存手法を上回り，出版可能な科学イラストを生成することが示された。
Link: https://arxiv.org/abs/2602.03828
プリビズウィズ：ラフな3Dシーンと2Dビデオを組み合わせた生成ビデオによるプレビズの誘導 [cs.HC, cs.AI, cs.CV]目的：映画の可能性を探求するためのプレビズの迅速なプロトタイプ作成
- 映画制作において，フルスケール制作前にアイデアを試すことは重要である。
- 従来のプレビズ手法は，効率性と表現力のバランスを取ることが困難である。
- ラフな3Dシーンと生成モデルを活用し，制作の障壁を低減し，コミュニケーションを円滑化する。
- 本システムは，映像制作における技術的なハードルを下げ，クリエイティブな反復を加速することが示された。
- また，AI支援による映画制作における継続性，著作権，倫理的な課題も明らかになった。
- 映像制作者との実験により，効果的にコミュニケーションギャップを埋めることが確認された。
Link: https://arxiv.org/abs/2602.03838
EventNeuS：単眼イベントカメラからの3Dメッシュ再構成 [cs.CV]目的：単眼カラーイベントストリームからの3D表現学習
- 従来のRGBカメラでは困難な状況下でも，イベントカメラは有効な選択肢となる。
- イベントベースの新規視点合成は進展しているものの，高精度な3Dメッシュ再構成は未だ課題である。
- イベントベースの3D再構成における精度向上を目指す。
- EventNeuSは，従来の最良手法と比較して，平均的にChamfer距離を34％，平均絶対誤差を31％低減した。
- 本研究では，3D符号付き距離関数と密度場学習をイベントベースの監視と初めて組み合わせた。
- 視点依存効果の処理を強化するため，球面調和関数エンコーディングを導入した。
Link: https://arxiv.org/abs/2602.03847
アバターのインタラクション実現：制御可能な会話型アバターのためのテキスト駆動型人間・物体インタラクションへ [math.AG, cs.SC, cs.CV, cs.AI, cs.CL]目的：制御可能な会話型アバターのための，テキストに基づいた人間・物体インタラクション
- 動画生成において，会話型アバターは重要な要素であり，より自然な表現が求められている。
- 既存手法では，単純な動作生成は可能だが，周囲の物体との連携やテキストに沿ったインタラクションが困難である。
- 環境認識と制御品質のトレードオフを解消し，テキストに即した人間・物体インタラクションを生成することを目指す。
- 提案手法InteractAvatarは，知覚と計画，そして動画合成を分離した二重ストリームフレームワークである。
- 環境認識を強化するため，検出を活用し，テキストに沿ったインタラクション動作を生成するPIMモジュールを導入した。
- さらに，音声とインタラクションを考慮したAIMモジュールにより，鮮明なアバターと物体インタラクションを合成する。
Link: https://arxiv.org/abs/2602.01538
多様なグループのクリック嗜好を大規模広告画像生成に適合させる [cs.CV, cs.AI, cs.MM]目的：多様なグループごとのクリック嗜好を整合させること
- 広告画像生成はCTR向上に注力するが，ユーザーグループ間の嗜好の多様性に着目する必要がある
- 従来の「一律」戦略では特定のグループに対するパフォーマンスが最適化されず，ターゲティング広告の効果が限定される
- グループごとの嗜好に最適化された広告画像を生成することで，マーケティング効果の向上を目指す
- 提案手法OSMFは，ユーザー属性と商品特性に基づいた動的なグループ化と，グループに特化した画像生成を実現した。
- グループに配慮した大規模多言語モデル(G-MLLM)とGroup-DPOによるファインチューニングにより，各グループのCTRが効果的に向上した。
- 大規模なグループ嗜好画像データセット(GAIP)を公開し，オフライン・オンライン両環境で最先端の性能を達成した。
Link: https://arxiv.org/abs/2602.02033
RLAnything：完全動的強化学習システムにおける環境，ポリシー，報酬モデルの生成 [cs.LG, cs.AI, cs.CL, cs.CV]目的：強化学習システムの環境，ポリシー，報酬モデルの動的な生成
- 大規模言語モデルの能力向上は，現実世界への適応を可能にするため重要である。
- 強化学習における報酬関数の設計は難しく，汎化性能のボトルネックとなる。
- クローズドループ最適化による自動化された環境適応を通じて，学習効率を向上させる。
- RLAnythingは，環境，ポリシー，報酬モデルを動的に生成することで学習信号を増幅し，強化学習システムの全体的な性能を向上させる。
- ステップごとのフィードバックと結果からのフィードバックを統合することで，ポリシーの学習を改善する。
- OSWorld，AlfWorld，LiveBenchなどのタスクにおいて，Qwen3-VL-8B-ThinkingやQwen2.5-7B-Instructの性能を大幅に向上させた。
Link: https://arxiv.org/abs/2602.02488
合成データを用いたハイパースペクトル画像の教師なし超解像 [eess.IV, cs.CV]目的：ハイパースペクトル画像の空間解像度向上
- リモートセンシング分野において，高空間分解能な画像は地表面観察に不可欠である。
- 高品質な教師データ獲得が困難であり，実用的な超解像手法のボトルネックとなっている。
- 教師なし学習により，実データ不要な超解像技術を確立し，応用範囲を拡大すること。
- 提案手法は，ハイパースペクトル画像の分解と合成を通して，教師なし超解像を実現している。
- 合成されたデータが，実データの特徴を反映しており，効果的な学習に貢献することが示された。
- 本研究は，データ取得の制約下におけるハイパースペクトル画像処理の可能性を広げた。
Link: https://arxiv.org/abs/2602.02552
空間的囚人のジレンマモデルにおける嘘の進化 [physics.soc-ph, cond-mat.stat-mech, cs.GT, q-bio.PE]目的：囚人のジレンマモデルにおける嘘の進化のメカニズム
- 協力と裏切りの関係は，生物学，経済学，社会学など，多様な分野で重要なテーマである。
- 従来の囚人のジレンマモデルでは，コミュニケーションにおける誠実さの役割が十分に考慮されていない。
- 嘘をつくことの進化が協力と裏切りのダイナミクスに与える影響を明らかにすること。
- 真実を語る確率が高い集団では，協調的な協力者が増加し，安定した集団を形成する。
- 一方，嘘をつく確率が高い集団では，裏切る者が増加し，同様に安定した集団となる。
- このモデルは，人間や動物の行動を理解するための新たな視点を提供する。
Link: https://arxiv.org/abs/2602.02587
心エコー画像のための潜在的予測基盤モデル EchoJEPA [eess.IV, cs.CV]目的：心エコー画像の汎化表現学習
- 心疾患の早期発見と診断の精度向上が重要であり，画像診断技術の発展が求められている。
- 心エコー画像はノイズやアーチファクトが多く，解釈が難しく，正確な診断を妨げる要因となっている。
- 本研究は，心エコー画像から解剖学的信号を抽出し，ノイズの影響を軽減することで，診断精度向上を目指す。
- EchoJEPAは，既存手法と比較して，左室駆出率推定誤差を19%削減した。
- 心エコー画像のビュー分類において，87.4%の精度を達成した。
- わずか1%のラベル付きデータで78.6%の精度に達し，サンプル効率の高さを示した。
Link: https://arxiv.org/abs/2602.02603
多色光子計数CTにおける血流イメージングと単一物質再構成 [quant-ph, cs.FL, physics.med-ph, cs.CV, eess.IV]目的：造影剤濃度のマップ再構成
- 血流CTは臨床で重要な検査だが，被ばく線量が大きいという課題がある。
- 従来の再構成法では，低線量条件下での画像品質維持が困難である。
- 多色光子計数CTの理論的アルゴリズムを血流CTへ応用し，低線量での再構成を実現する。
- VI-PRISMは，様々な線量条件下で，ヨウ素濃度を0.4mg/ml以下の誤差で再現できた。
- FBPと比較して，VI-PRISMは同程度の画像品質を，10倍〜100倍の線量削減で実現した。
- 光子数の少ない条件や，投影データの少ない条件でも，高精度な再構成が可能であった。
Link: https://arxiv.org/abs/2602.02713
ガウスモデリングとMCMLを用いた多層角膜OCTデータ生成：AI駆動型診断・手術支援への応用 [eess.IV, cs.CV]目的：角膜OCT画像データセットの生成
- 眼科領域において，AIによる診断・手術支援の精度向上が求められている。
- 深層学習モデルの学習には大量の注釈付きデータが必要だが，その収集が困難である。
- AIモデルの学習・検証・評価のための，信頼性の高い合成データセットを構築すること。
- モンテカルロシミュレーションフレームワークを用いて，高解像度な角膜OCT画像を生成した。
- 生成された画像には，5層の角膜構造に対応したピクセルレベルのセグメンテーションラベルが付与されている。
- 本研究は，AIモデル開発のための再現可能かつ拡張性のある基盤を提供する。
Link: https://arxiv.org/abs/2602.02755
リアルタイムトポロジー認識MモードOCTセグメンテーション：ロボット支援深部前板角膜移植（DALK）誘導への応用 [eess.IV, cs.CV]目的：ロボット支援深部前板角膜移植（DALK）におけるDescemet膜への正確な深度フィードバック
- 角膜移植は視力回復に不可欠であり，より正確な手術支援技術が求められている。
- MモードOCT画像はノイズや影の影響を受けやすく，層構造の正確なセグメンテーションが困難である。
- 低ノイズ条件下でも安定した層構造認識を実現し，リアルタイムな手術誘導を可能にすること。
- 提案システムは，U-NeXtに基づき，トポロジー認識を組み込むことで，境界の連続性と層構造の秩序を安定化させる。
- 単一GPU上で80Hzを超えるスループットを達成し，実用的なリアルタイム誘導が可能であることを実証した。
- 標準的なウサギ角膜Mモードデータセットを用いた評価で，トポロジーを無視した制御と比較して，境界の安定性が向上した。
Link: https://arxiv.org/abs/2602.02798
聴取可能性を正確に予測するためのマルチデコーダニューラルトラッキング法 [eess.SP, cs.SD]目的：脳波を用いた聴取閾値の予測
- 聴取可能性の評価は，聴覚障害の診断や補聴器の調整に不可欠である。
- 従来の脳波による聴取可能性予測は，行動聴力検査に比べて精度と頑健性に課題があった。
- 脳波から高精度に聴取閾値を予測し，行動聴力検査が困難な患者の評価を可能にすること。
- 予測された聴取閾値は，行動聴力検査の結果と有意な相関を示した（r = 0.647, p < 0.001; NRMSE = 0.19）。
- 予測誤差は全て1dB以内であり，臨床応用への可能性を示唆した。
- SHAP分析により，シータ/デルタバンドと初期遅延が予測にわずかに大きな影響を与えることが示された。
Link: https://arxiv.org/abs/2602.03624
閉曲面上における点渦力学 [math.DG, cs.CG, cs.GR, math.DS, physics.flu-dyn]目的：閉曲面上における点渦力学の包括的なガイド
- 流体シミュレーションにおいて，高速な計算が求められる場面が多い。
- 点渦力学は近似的な手法であり，精度に課題が残る場合がある。
- 平面，球面，閉曲面における点渦力学を統一的に理解するための基礎を提供する。
- 1891年にキルヒホフによって提唱された点渦力学を，閉曲面に拡張する理論が提示された。
- 総渦度がゼロである閉曲面（属0）における点渦力学の理論的背景と実装方法が解説されている。
- 流体ダイナミクスと曲面の基礎知識を説明し，点渦力学の理解を深めることを目指している。
Link: https://arxiv.org/abs/2602.03684
深層学習に基づく汎現象データが明らかにする鳥類の視覚的差異の爆発的な進化 [q-bio.PE, cs.CV]目的：鳥類の形態進化の解明
- 生物多様性の理解には，形態進化の研究が不可欠である。
- 従来の形態形質の選択や符号化には主観的な偏りが存在する。
- 深層学習を用いて，形態進化における隠れたパターンを明らかにすること。
- 深層学習モデルの埋め込み空間が，表現型収斂を符号化していることが示された。
- 種多様性が形態空間の拡大の主要な要因であることが明らかになった。
- K-Pg絶滅後，視覚的特徴量の「初期の急増」が確認された。
Link: https://arxiv.org/abs/2602.03824
注意機構に基づく音声翻訳のアライメントを活用した同時音声翻訳の誘導 [cs.CL, cs.LG, cs.SD, eess.AS]目的：同時音声翻訳のための注意機構に基づくアライメント生成と，その誘導ポリシー
- 自然言語処理の発展に伴い，音声翻訳の需要が高まっており，リアルタイム翻訳が求められている。
- 既存の同時音声翻訳は，遅延や翻訳精度の低下が課題であり，改善の余地がある。
- 注意機構から得られるアライメント情報を活用し，翻訳の精度と速度を向上させることを目指す。
- AlignAttは，MuST-C v1.0の8言語ペアにおいて，従来の同時音声翻訳ポリシーを上回る性能を示した。
- BLEUスコアで平均2ポイントの改善，遅延時間で0.5秒から0.8秒の短縮を達成した。
- 注意機構に基づくアライメントが，同時音声翻訳の誘導に有効であることが示された。
Link: https://arxiv.org/abs/2305.11408
見えざるものをマッピング：基盤モデルを用いた動的ラベリングによる統合的なプロンプタブル全景マッピング [cs.DC, cs.DM, cs.MA, cs.CV, cs.AI, cs.RO]目的：全景マッピングの精度向上
- ロボットが環境を理解し，自律的に行動するためには，幾何学的情報と意味的情報の両方が不可欠である。
- 既存のオープンボキャブラリモデルでは，関連性の高いラベルが繰り返し生成され，全景エンティティが分割され，体積の一貫性が損なわれる。
- 基盤モデルを活用し，動的な記述子を導入することで，オープンボキャブラリのラベルを統一的なカテゴリ構造と幾何学的サイズに関する事前知識と調和させる。
- 提案手法UPPMは，言語誘導によるオープンボキャブラリ全景セグメンテーションとセマンティック検索を活用し，追加のモデル学習なしに持続的でプロンプタブルな全景マップを実現する。
- 評価実験の結果，UPPMはマップ再構成の精度と全景セグメンテーションの品質において，最高の全体的な性能を示す。
- 消去実験により，UPPMの各コンポーネント（カスタムNMS，ぼやけフレームフィルタリング，統一的なセマンティクス）がシステム全体の性能に貢献することが明らかになった。
Link: https://arxiv.org/abs/2405.02162
HAAP：適応的置換を用いた階層的注意自己回帰モデルによるシーンテキスト認識 [cs.CV, cs.AI]目的：シーンテキスト認識における性能向上
- シーンテキスト認識は，様々な環境下でテキストを読み取る上で不可欠な技術である。
- 従来の置換言語モデリングは，ランダムな置換による学習の不安定性や計算コストが課題であった。
- 本研究は，動的な注意機構と階層的注意機構により，これらの課題を克服し，認識精度を向上させる。
- 提案手法HAAPは，暗黙的置換ニューロン(IPN)により，視覚情報と文脈の相関性を高め，学習の安定化を実現した。
- また，クロスモーダル階層的注意機構(CHA)を導入することで，位置情報，文脈，視覚情報の依存関係を捉え，反復的な改良処理を不要とした。
- 実験結果から，HAAPは複数のデータセットにおいて，最先端の性能(SOTA)を達成することが示された。
Link: https://arxiv.org/abs/2405.09125
顕著性ガイド型DETRによる瞬間検索とハイライト検出 [cs.CL, cs.CV]目的：動画瞬間検索とハイライト検出における性能向上
- 動画理解と自然言語処理の融合が，多様なメディアコンテンツの利用を促進する上で重要である。
- 既存手法では，テキストと動画の特徴量の効果的なアライメントが困難であり，性能が制限されている。
- テキストと動画のアライメントを強化し，動画瞬間検索とハイライト検出の精度を向上させる。
- 提案手法は，顕著性ガイド型クロスアテンション機構とハイブリッドDETRアーキテクチャを組み合わせることで，両タスクで著しい性能向上を達成した。
- 大規模かつ高品質なデータセットInterVid-MRを開発し，事前学習に活用することで，最先端の結果を得た。
- 本手法は，ゼロショット学習とファインチューニングの両方のシナリオにおいて，効率的かつスケーラブルな解決策を提供する。
Link: https://arxiv.org/abs/2410.01615
良いなら繰り返せ：反復的なコーパスキュレーションを試すべきである [cs.AI, cs.CY, cs.GT]目的：事前学習データの有害コンテンツフィルタリングによるモデル安全性の向上
- 大規模言語モデルの安全性確保は，社会実装において不可欠である。
- 既存のフィルタリング手法では，有害コンテンツの完全な除去が困難である。
- 反復的なフィルタリングによって，より安全なコーパスとモデルの実現を目指す。
- モデルをフィルタリングされたデータで訓練し，さらにそのモデルでコーパスをフィルタリングすることで，よりクリーンなモデルが得られる。
- このプロセスは，モデル自身が自身の訓練データを承認する自己整合的なコーパスへと収束する理論的根拠がある。
- 反復は有害コンテンツの減少をもたらし，スケーラブルな監視の形を提供する。また，解釈可能性研究に有用なドキュメントに対する大規模な選好アノテーションを生成する。
Link: https://arxiv.org/abs/2501.15280
視覚言語モデルの安全性ファインチューニングにおけるボトルネックの再考 [cs.CV, cs.CL, cs.CR]目的：視覚言語モデルの安全性に関する推論能力向上
- 近年，視覚言語モデルの性能は著しいが，安全性確保は重要課題である。
- 既存手法では，複雑な状況での安全性確保が難しく，有用性と無害性のバランスを損ねる場合がある。
- 視覚的な推論能力を向上させ，安全性と汎用性を両立させることを目指す。
- 提案手法では，多画像入力と安全性CoTラベルを用いた新たなデータセット「MIS」を導入した。
- MISを用いたInternVL2.5-8Bのファインチューニングは，既存モデルと比較して安全性関連タスクで大幅に性能が向上した。
- 一般的なベンチマークにおける精度も向上し，安全性ベンチマークでの攻撃成功率を大幅に削減した。
Link: https://arxiv.org/abs/2501.18533
拡散モデルの表現力ダイナミクスの低次元モデリングによる理解 [cs.LG, cs.CV]目的：拡散モデルにおける表現力ダイナミクス
- 画像認識等の分野において，自己教師あり学習による汎化性能の向上が重要視されている。
- 拡散モデルの表現力はノイズレベルに依存し，そのメカニズムは十分に解明されていない。
- 拡散モデルの表現力ダイナミクスを理論・実験的に解析し，そのメカニズムを解明すること。
- 拡散モデルがデータ分布を捉える際に，表現力ダイナミクスにおける単峰性が生じることを理論的に示した。
- この単峰性は，ノイズレベルごとのノイズ除去能力とクラス確信度の相互作用によって生じる。
- 分類タスクにおいて，単峰性の存在は拡散モデルの汎化性能と相関があり，生成能力が高い場合に顕著に現れる。
Link: https://arxiv.org/abs/2502.05743
ゲームへの学習的アプローチ [cs.GT, econ.TH, math.OC]目的：ゲーム分析のための統一的枠組み
- ゲーム理論は経済学，社会学，生物学など幅広い分野に応用され，意思決定の分析に不可欠である。
- 既存の研究ではプレイヤーの戦略がスカラー値で評価され，プレイヤー内部構造が無視されている。
- ゲームをプレイヤー自身の視点から定義し，学習理論との繋がりを深めることを目指す。
- 本研究では，強化学習に基づいたプレイヤーの抽象的定義を提案し，従来の枠組みの限界を克服する。
- 単純な二人ゲームにおいても，洗練されたプレイヤーはより複雑な動的戦略を採用することを示す。
- 平均場設定における均衡の明示的な例の構成や，動的計画法との関連性についても議論する。
Link: https://arxiv.org/abs/2503.00227
OptiPMB：最適化されたポアソン多重ベルヌーイフィルタによる3Dマルチオブジェクトトラッキングの強化 [eess.SY, cs.RO, cs.SY, cs.CV, cs.RO]目的：3Dマルチオブジェクトトラッキングの精度向上
- 自動運転においては，堅牢な認識，ナビゲーション，計画のために正確な3D MOTが不可欠である。
- 従来のモデルベーストラッカーは，ヒューリスティックなデータ関連付けとトラック管理に限界がある。
- RFSに基づくフィルタリングの理論的な利点を活かし，追跡性能の向上を目指す。
- OptiPMBは，nuScenesおよびKITTIデータセットにおいて，最先端手法と比較して優れた追跡精度を達成した。
- 測定駆動型ハイブリッド適応誕生モデルにより，トラッキング初期化が改善された。
- 適応検出確率パラメータと密度刈り込み/トラック抽出モジュールの最適化により，全体的な追跡性能が向上した。
Link: https://arxiv.org/abs/2503.12968
FedVSR：ビデオ超解像のためのモデル非依存型連合学習へ [cs.CV, cs.DC]目的：ビデオ超解像におけるモデル非依存型連合学習フレームワーク
- プライバシー保護が重要視される中，ビデオデータ活用が課題となっている。
- 既存の連合学習は，低レベルな画像処理タスクに適用しにくい。
- ビデオ超解像に特化した連合学習フレームワークを開発し，性能向上を目指す。
- FedVSRは，既存手法と比較して，知覚的なビデオ品質を向上させる。
- DWTに基づく軽量損失関数と損失に応じた集約戦略が，その性能に貢献する。
- 計算・通信オーバーヘッドをほぼゼロに抑えつつ，高い性能を達成した。
Link: https://arxiv.org/abs/2503.13745
V2P-Bench：視覚的プロンプトを用いたビデオと言語の理解評価による，より良い人間とモデルのインタラクション [cs.CV, cs.AI, cs.CL]目的：視覚的プロンプトによるビデオと言語の理解能力の評価
- ビデオ理解は，多様な応用分野において不可欠であり，その重要性は増している。
- 既存の評価基準はテキストプロンプトに依存しており，複雑な表現や非効率なインタラクションが課題である。
- 人間とモデルのインタラクションを改善し，ビデオ理解の評価方法を高度化することを目指す。
- V2P-Benchは，視覚的プロンプトを用いたLVLMの理解度を評価するための堅牢かつ包括的な基準である。
- 視覚的プロンプトは，テキストプロンプトと比較して，モデルとユーザーの両方にとって理解しやすく，パフォーマンスとユーザーエクスペリエンスが向上する。
- LVLMは視覚的プロンプトをある程度理解できるものの，時空間的な理解には課題が残る。また，ビデオの長さやフレームサンプリング密度によって性能が過大評価される傾向がある。
Link: https://arxiv.org/abs/2503.17736
プロトタイプを用いた解釈可能な拡散モデル：Patronus [cs.CV, cs.AI, cs.LG]目的：拡散モデルにおける生成過程の解釈
- 拡散モデルの応用範囲拡大に伴い，その内部メカニズムの理解が不可欠である。
- 拡散モデルはブラックボックスとなりがちで，生成過程の解釈が困難である。
- 視覚的パターンがモデル化され，ノイズ除去過程でどのように出現するかを明らかにすること。
- 提案手法Patronusは，プロトタイプネットワークを用いることで，拡散モデルの生成過程を解釈可能にした。
- Patronusは，望ましくない相関による捷径学習の検出や，意味的特徴の経時的追跡を可能にする。
- 自然画像および医療画像データセットで，高い生成性能と解釈の忠実性が確認された。
Link: https://arxiv.org/abs/2503.22782
SpecFLASH：潜在的ガイド付き半自己回帰的推測デコーディングフレームワークによる効率的なマルチモーダル生成 [cs.CV, cs.MM]目的：マルチモーダル生成の効率化
- 大規模言語モデルやマルチモーダルモデルの性能は高いが，処理速度が課題となっている。
- 特に視覚情報の処理では，テキストに比べてトークン数が多く，情報密度が低いことが速度低下の原因となる。
- 視覚表現の構造的特徴を考慮した推測デコーディングフレームワークを開発し，生成速度を向上させる。
- SpecFLASHは，既存の推測デコーディング手法と比較して，一貫して優れた性能を示す。
- ビデオキャプション生成では最大2.68倍，視覚的指示チューニングでは最大2.55倍の高速化を達成した。
- 潜在的ガイド付きトークン圧縮モジュールと半自己回帰的デコーディングスキームにより，効率的なマルチモーダル生成を実現した。
Link: https://arxiv.org/abs/2505.12728
AudioJailbreak：エンドツーエンド大規模音声言語モデルに対する脱獄攻撃 [cs.CR, cs.AI, cs.LG, cs.SD, eess.AS]目的：大規模音声言語モデルに対する脱獄攻撃の有効性と実現可能性の検証
- 音声言語モデルの利用拡大に伴い，そのセキュリティ確保が重要課題となっている。
- 既存の脱獄攻撃は強力な攻撃者を想定しており，現実的な弱者攻撃に対する脆弱性が不明である。
- 現実的な弱者攻撃シナリオにおける音声言語モデルの脆弱性を明らかにし，ロバスト性を向上させる。
- 提案手法AUDIOJAILBREAKは，従来の音声脱獄攻撃にはない非同期性，普遍性，隠蔽性，耐環境性を実現した。
- GPT-4o-AudioやLlama-Guard-3といった最先端の音声言語モデルに対し，弱者攻撃シナリオにおいても高い脱獄成功率を示した。
- 本研究は，音声言語モデルのセキュリティリスクを浮き彫りにし，ロバスト性改善への貢献を目指す。
Link: https://arxiv.org/abs/2505.14103
MedFrameQA：臨床推論のためのマルチ画像医療VQAベンチマーク [cs.CV, cs.CL]目的：臨床推論を必要とするマルチ画像比較推論を評価するための医療VQAベンチマーク
- 医療現場では複数の画像からの比較推論が不可欠であり，高度なAIモデルの能力評価が重要である。
- 既存の医療VQAベンチマークは単一画像の解釈に限定されており，臨床現場のニーズに対応できていない。
- マルチ画像医療VQAにおけるAIモデルの課題を明らかにし，臨床推論能力の向上を目指す。
- MedFrameQAは，教育的に検証された診断シーケンスに基づき，マルチ画像医療VQAをテストするための最初のベンチマークである。
- 11の高度なMLLMの評価結果から，マルチ画像の統合において50%以下の低い精度と不安定性が明らかになった。
- エラー分析の結果，モデルが画像を独立したものとして扱っており，病理学的進行や解剖学的変化の追跡ができていないことが示された。
Link: https://arxiv.org/abs/2505.16964
衛星画像からストリートビューを捉える [cs.CV]目的：衛星画像とカメラ位置からストリートビューの全景画像・動画の生成
- 地理空間情報の活用は，都市計画や防災など多岐にわたる分野で重要である。
- 衛星画像とストリートビューの間の視点差が大きく，高品質な生成が困難である。
- ストリートビュー特有の要素を考慮することで，写実的なストリートビュー生成を目指す。
- 本手法Sat2Density++は，都市部および郊外のデータセットにおいて，高品質なストリートビュー全景画像の生成に成功した。
- 生成されたストリートビューは，複数の視点間で一貫性を保ち，衛星画像との整合性も確認された。
- 空や照明効果など，ストリートビュー特有の要素をニューラルネットワークでモデル化することが有効であることが示された。
Link: https://arxiv.org/abs/2505.17001
Thalia: 火山活動監視のためのグローバルなマルチモーダルデータセット [cs.CV]目的：火山活動監視のためのグローバルデータセットの構築
- 火山活動の監視は，人命，インフラ，生態系を守る上で極めて重要である。
- 現在，継続的に監視されている火山は，知られている火山のほんの一部に過ぎない。
- InSARデータの解釈を自動化し，火山活動監視の精度向上を目指す。
- Thaliaは，7年間にわたる38の時空間データキューブで構成されるグローバルなデータセットである。
- InSAR製品，地形データ，大気変数を含み，地表変形を模倣する信号遅延を考慮している。
- 変形の種類，強度，範囲に関する専門家による注釈と説明文が付属しており，公平な評価を可能にするベンチマークを提供する。
Link: https://arxiv.org/abs/2505.17782
マルチモーダル根拠付き推論のための視覚トークンへの指向学習 [cs.CL, cs.CV]目的：マルチモーダル推論における視覚的根拠の参照メカニズム
- 画像とテキストを組み合わせた推論は，人間のように視覚情報を繰り返し参照することが重要である。
- 既存のモデルは画像情報を一度だけエンコードするため，推論の過程で視覚的根拠を失いがちである。
- 推論ステップと視覚的証拠の整合性を保つための，視覚的参照メカニズムの導入を試みる。
- 提案手法v1は，重要な画像領域を選択し，その埋め込み表現を推論過程に再利用する「ポイント＆コピー」メカニズムを用いる。
- v1は，意味表現に基づき領域を選択することで，推論空間と視覚的証拠の整合性を維持する。
- マルチモーダル数学的推論ベンチマークにおいて，v1は既存モデルを上回る性能を示した。
Link: https://arxiv.org/abs/2505.18842
CAD-SLAM：一貫性に基づいた動的SLAMと動的・静的デカップルドマッピング [cs.CV]目的：動的環境におけるロバストな動的物体識別とオンラインモデリング
- SLAMはロボットの自律移動や環境理解に不可欠であり，その性能向上が求められている。
- 従来のSLAMは静的な環境を前提としており，動的環境下では追跡やマッピングの精度が低下する。
- 本研究は，動的環境における一貫性に基づいた動的物体識別とマッピング手法を開発し，SLAMのロバスト性を向上させる。
- 提案手法CAD-SLAMは，視点間および時間的なシーンの一貫性の違反を利用して動的物体を検出する。
- 動的物体の追跡には双方向追跡を採用し，完全なシーケンス単位での動的認識を可能にする。
- 複数の動的データセットにおいて，提案手法は最先端の局所化およびマッピング性能を達成した。
Link: https://arxiv.org/abs/2505.19420
Ground-R1：強化学習による根拠に基づいた視覚的推論の促進 [cs.CV]目的：根拠に基づいた視覚的推論を促進するためのフレームワーク
- 大規模言語モデルの性能向上は目覚ましいが，視覚的根拠の信頼性・解釈性が課題である。
- 既存手法は，報酬が大きな領域に偏り，重要な小さな領域からの学習が抑制される傾向がある。
- 報酬の偏りを解消し，よりバランスの取れた学習と正確な根拠に基づく推論を実現する。
- Ground-R1は，標準的なGRPOを置き換える新しいSRPO目的関数を用いたフレームワークである。
- SRPOは，異なるサイズの領域に対する報酬を再調整し，規模を考慮したビニングとbin内/bin間の比較を行う。
- 実験結果は，Ground-R1が応答精度と根拠の正確性において標準的なGRPOよりも優れていることを示している。
Link: https://arxiv.org/abs/2505.20272
SEMNAV：セマンティックセグメンテーションによるロボットの視覚的セマンティックナビゲーションの強化 [cs.RO, cs.CV]目的：ロボットの未知環境における目標物体へのナビゲーション性能向上
- ロボットが自律的に環境を理解し行動するための基盤技術として重要である。
- シミュレーション環境で訓練されたモデルが現実環境で性能を発揮できない。
- セマンティックセグメンテーションを活用し，現実環境への適応性を高める。
- SEMNAVは，従来のVSNモデルと比較して，シミュレーション環境（Habitat 2.0，HM3Dデータセット使用）において高い成功率を達成した。
- 現実環境での実験により，セマンティックセグメンテーションがシミュレーションから現実へのギャップを埋める上で有効であることが示された。
- SEMNAVは，実用的なVSNベースのロボットアプリケーションに有望な解決策を提供する。
Link: https://arxiv.org/abs/2506.01418
SurgVidLM：大規模言語モデルを用いた多粒度手術ビデオ理解に向けて [eess.SY, cs.SY, cs.CV, cs.AI]目的：手術ビデオの多粒度理解
- 手術トレーニングやロボット支援手術におけるロボットの意思決定に不可欠な分野である。
- 既存手法は画像解析や大域的なビデオ理解に偏っており，手術中の詳細なタスク実行を捉える微細なビデオ推論が欠けている。
- この研究は，手術ビデオ全体と微細な側面の両方を理解できるモデルを構築し，その課題を解決することを目指す。
- SurgVidLMは，大規模なビデオ・インストラクションペアデータセットSVU-31Kを用いて訓練された。
- SurgVidLMは，グローバルな手続き的コンテキストを抽出する第1段階と，時間的手がかりに基づいて局所的な高頻度分析を行う第2段階のStageFocusメカニズムを備えている。
- 実験結果から，SurgVidLMは既存のVid-LLMを凌駕し，複雑なロボット支援手術のコンテキスト把握能力に優れていることが示された。
Link: https://arxiv.org/abs/2506.17873