arXiv雑要約

画像・音声 - 2026/04/28 公開

言語駆動による器用な把持生成：具現化された推論を伴う [cs.RO, cs.CV]目的：言語駆動による器用な把持生成の実現
- ロボットの多様な作業遂行能力向上には，対象物を確実かつ柔軟に把持することが不可欠である。
- 既存手法では，物理的な相互作用に関する中間的な推論を経ずに，直接観測から把持パラメータを推定している。
- 具現化された推論を導入し，把持生成における意図と物理制約のギャップを埋めることを目指す。
- DextERは，DexGYSにおいて67.14%の成功率を達成し，最先端手法を3.83%上回る性能を示した。
- 意図の合致度も96.4%改善され，言語による指示に忠実な把持生成が可能となった。
- 部分的な接触指定による制御可能な生成も可能であり，把持合成の微調整を実現した。
Link: https://arxiv.org/abs/2601.16046
Graphical X Splatting (GraphiXS): 不確実性下における4次元ガウススプラッティングのグラフモデル [cs.GR]目的：4次元ガウススプラッティングにおけるデータ不確実性の体系的な組み込み
- 近年，ニューラルレンダリングのパラダイムシフトとしてガウススプラッティングが注目されている。
- 従来のガウススプラッティングでは，データ不確実性（視点不足，欠損フレーム，カメラ非同期など）への対応が不十分である。
- 本研究では，様々なデータ不確実性を単一のフレームワークで包括的に扱うことを目指す。
- 提案手法GraphiXSは，ガウス分布やStudent-t分布など様々な素因数に対応可能な汎用的な確率的フレームワークである。
- GraphiXSを用いることで，既存のガウススプラッティング手法をデータ不確実性に対応させることが可能である。
- 実験結果から，GraphiXSは空間的・時間的に欠損または汚染されたデータに対して，既存手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2601.19843
構造的クロスモーダルアライメントによる継続的テキスト-ビデオ検索 [cs.CV]目的：継続的テキスト-ビデオ検索における構造的クロスモーダルアライメント手法
- マルチモーダル学習は，異なる種類のデータを統合し，より高度な理解を可能にするため重要である。
- 継続的学習では，新しい情報を学習する際に以前の知識を忘れてしまう「破滅的忘却」が課題となる。
- 本研究は，テキストとビデオの特徴表現のずれを抑制し，破滅的忘却を軽減することを目指す。
- 提案手法StructAlignは，簡潔な等角タイトフレーム幾何学を導入することで，モダリティ間のずれを抑制する。
- カテゴリレベルの等角タイトフレームプロトタイプを用いてテキストとビデオの特徴をアライメントすることで，表現の幾何学的構造を維持する。
- クロスモーダル関係を保持する損失関数により，モダリティ間の類似関係を安定させ，特徴更新時のずれを抑制する。
Link: https://arxiv.org/abs/2601.20597
粗からリアルへ：人口密集ダイナミックシーンの生成レンダリング [cs.CV]目的：人口密集ダイナミックシーンのリアルな映像生成手法
- 大規模なシーンを効率的にレンダリングする技術は，映画やゲーム制作において不可欠である。
- 従来のレンダリングパイプラインでは，複雑なアセットと計算資源が必要であり，大規模シーンのリアルな再現が困難である。
- 粗い3Dシミュレーションからリアルな映像を生成し，計算コストを削減し，大規模シーンの表現を可能にすること。
- 本研究では，粗い3Dレンダリングを制御しつつ，テキストプロンプトに基づき，ニューラルレンダラーでリアルな外観を生成するC2Rフレームワークを提案した。
- 大規模な実写映像から生成的な事前知識を獲得し，少量のペアデータを用いてドメイン間の空間・時間的特徴を固定する二段階戦略を採用した。
- 提案手法は，多様なCG入力に対して汎化し，一貫性と制御可能性を備えたリアルな都市シーン映像を生成できることを示した。
Link: https://arxiv.org/abs/2601.22301
プロンプト制御拡散データ拡張による長尾バイアスの軽減 [cs.CV]目的：長尾バイアスの軽減
- 高解像度リモートセンシング画像におけるセマンティックセグメンテーションは重要であり，土地利用分析などに不可欠である。
- クラス間のデータ量の不均衡（長尾バイアス）がセグメンテーション精度を低下させる主要な原因となっている。
- ドメイン間のずれがある場合，長尾バイアスはより深刻化し，その緩和が求められている。
- 提案手法では，プロンプト制御による拡散モデルを用いて，不足しているクラスのデータペアを生成する。
- 生成された合成データと実データを組み合わせることで，セグメンテーションバックボーンの性能が向上する。
- 特に，少数クラスやドメインシフト下において，セグメンテーション精度が改善されることが示された。
Link: https://arxiv.org/abs/2602.04749
ShapeUP：画像条件付き3D編集の拡張 [cs.CV, cs.GR]目的：画像に条件付けられた3D編集手法
- 3Dコンテンツ作成の重要性が高まる中，高品質な3Dアセットの編集技術が求められている。
- 既存の3D編集手法は，視覚的な制御性，幾何学的整合性，スケーラビリティのトレードオフに悩まされている。
- 本研究は，大規模な3Dデータセットを用いた効率的な編集手法を開発し，この課題を解決することを目指す。
- ShapeUPは，3D拡散Transformer（DiT）を用いて，ソース3D形状，編集された2D画像，対応する編集された3D形状のトリプレットで学習する。
- この画像プロンプトアプローチにより，ローカルおよびグローバルな編集に対して詳細な視覚的制御が可能となり，厳密な構造的一貫性を維持する。
- 実験結果から，ShapeUPは既存のベースラインと比較して，同一性の保持と編集の忠実度において一貫して優れた性能を発揮することが示された。
Link: https://arxiv.org/abs/2602.05676
Fine-R1：思考連鎖による推論で，マルチモーダルLLMを詳細な視覚認識において卓越させる [cs.CV, cs.AI]目的：詳細な視覚認識のためのマルチモーダルLLMの性能向上
- 視覚情報は階層的に分類可能であり，LLMによる高度な視覚理解が求められている。
- 汎用LLMは，詳細な視覚認識において性能が低い場合が多く，大規模なアノテーションが必要となる。
- 本研究は，少ないデータで詳細な視覚認識を実現し，未知のカテゴリへの汎化性能を高めることを目指す。
- Fine-R1は，思考連鎖を用いた教師ありファインチューニングと，トリプレット拡張による方策最適化により，詳細な視覚認識能力を獲得した。
- わずか4ショットの学習で，既存の汎用LLM，推論LLM，およびコントラスト学習CLIPモデルを上回る性能を示した。
- 特に，学習済みのカテゴリと未知のカテゴリの両方において優れた識別能力を発揮し，専門家によるアノテーションが困難な分野での活用が期待される。
Link: https://arxiv.org/abs/2602.07605
並行マルチエージェントシステムのモデル化 [cs.GT]目的：マルチエージェントシステムのモデル化に関する研究
- 複雑なシステムにおける厳密な理論的分析の必要性。
- 既存モデルの表現力不足や複雑性理論的結果の欠如。
- より表現力豊かで厳密なモデルによる分析手法の確立。
- 本研究では，既存の明示的モデルと新たに提案する回路ベースモデルを比較検討した。
- 回路ベースモデルは，実現可能性と検証問題の上界・下界を分析することで，その有効性を示した。
- 明示的モデルに固有の問題点を回路ベースモデルが適切に処理することを確認した。
Link: https://arxiv.org/abs/2602.08452
予算制約のある買い手に対するデータ市場における収益最大化価格設定 [cs.GT]目的：予算制約のある買い手に対するデータ市場における収益最大化価格設定
- データ市場は，予測精度の向上に不可欠であり，その収益性は市場の持続可能性に重要である。
- 買い手の予算制約下での最適なデータバンドル選択が，収益最大化を困難にしている。
- データ市場における収益最大化問題を近似解法によって解決し，実用的な価格設定戦略を提案する。
- データ市場における収益最大化問題がNP困難であることを示した。
- オンライン環境下では2-近似アルゴリズム，オフライン環境下では(1-1/e)^-1-近似アルゴリズムを設計した。
- これらのアルゴリズムは，収益最大化の近似解を提供する。
Link: https://arxiv.org/abs/2602.13897
EAGLE：専門知識による注意誘導を用いた，チューニング不要の産業異常検知 [cs.CV]目的：マルチモーダル大規模言語モデルにおける産業異常検知の精度向上
- 産業設備の異常検知は，安全性と生産性の維持に不可欠である。
- 大規模言語モデルは精度面で専門的な異常検知器に劣ることが課題である。
- モデルのチューニングなしに，専門知識と大規模言語モデルを融合することを目指す。
- EAGLEは，専門家の異常検知器と凍結された大規模言語モデルを統合するチューニング不要なフレームワークである。
- 専門家の信頼度が低い場合，EAGLEは視覚的証拠への注意を促し，異常予測の精度を向上させる。
- MVTec-ADとVisAにおける実験で，5つの大規模言語モデルにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2602.17419
TokenTrace：ウォーターマーク付きトークン復元による多概念帰属 [cs.CV]目的：生成AIモデルにおける多概念帰属
- 生成AIの発展に伴い，知的財産の保護が重要課題となっている。
- 既存のウォーターマーク技術は，複数の概念が混在する画像での概念の特定が困難である。
- 本研究は，複数の概念を独立して検証可能なウォーターマーク技術を提案する。
- TokenTraceは，テキストプロンプト埋め込みと潜在ノイズを同時に擾乱することで，秘密署名を埋め込む。
- クエリベースのモジュールにより，生成画像から特定の概念（オブジェクトやスタイル）を個別に検証する。
- 単一概念および多概念帰属タスクにおいて，既存手法を大幅に上回る性能を達成した。
Link: https://arxiv.org/abs/2602.19019
オープンVO：時間ダイナミクスを考慮したオープンワールド視覚測位 [cs.CV]目的：オープンワールド視覚測位の新しいフレームワーク
- 自動運転やロボット工学において，自己位置推定は不可欠な技術である。
- 既存の視覚測位手法は，固定された観測頻度やキャリブレーションされたカメラを前提としている。
- ダッシュカム映像のような現実世界のデータへの適用を可能にする汎用性の高い手法の構築。
- OpenVOは，時間ダイナミクス情報を明示的に符号化し，3D幾何学的事前知識を活用することで，既存手法を大幅に上回る性能を達成した。
- KITTI，nuScenes，Argoverse 2といった主要な自動運転ベンチマークにおいて，20%以上の性能向上を示した。
- 特に，観測頻度が変動する状況下では，46%～92%低い誤差で高いロバスト性を示した。
Link: https://arxiv.org/abs/2602.19035
LoGeR：ハイブリッドメモリによる長文脈幾何学的再構成 [cs.CV, cs.LG]目的：長文脈における3次元再構成
- ロボット工学や自動運転において，周囲環境の正確な3次元理解は不可欠である。
- 既存手法では，長時間の動画に対する再構成が計算量やメモリ容量の制約により困難である。
- チャンク単位での処理とハイブリッドメモリを用いて，長時間の動画でも高精度な再構成を可能にする。
- LoGeRは，最適化なしで非常に長いシーケンスに対して高密度な3次元再構成を可能にする新しいアーキテクチャである。
- KITTIベンチマークにおいて，既存の最先端手法と比較してATEを74%以上削減する顕著な性能向上を示した。
- 最長19,000フレームのシーケンスを含むデータセットで，ロバストかつグローバルに整合性の取れた再構成を実現した。
Link: https://arxiv.org/abs/2603.03269
反射フローサンプリングの強化 [cs.CV, cs.AI]目的：テキスト画像生成における生成品質及びテキストプロンプトとの整合性向上
- テキスト画像生成の需要増加に伴い，生成モデルの進化が加速している。
- 既存の推論時強化手法は従来の拡散モデルに特化しており，フローモデルへの適用が困難である。
- フローモデル，特にCFG蒸留モデルにおける推論品質及びプロンプト整合性を改善する。
- 提案手法であるRF-Samplingは，テキスト画像整合性スコアに対する勾配上昇を暗黙的に行うことが理論的に示された。
- RF-Samplingは，テキスト表現の線形結合とフロー反転を活用し，入力プロンプトと整合性の高いノイズ空間を探索する。
- 複数のベンチマークにおいて，RF-Samplingは生成品質とプロンプト整合性を一貫して向上させることが示された。
Link: https://arxiv.org/abs/2603.06165
幾何学的参照を持つ3Dシーン表現によるMLLMの空間推論能力の向上 [eess.SY, cs.SY, cs.CV]目的：MLLMの空間推論能力向上
- 画像認識AIの発展は，ロボット工学や自動運転など，様々な分野に不可欠である。
- 既存のMLLMは2D画像理解に優れる一方，3D空間の推論能力が十分ではない。
- 3D情報を言語として表現することで，MLLMの空間推論能力を向上させる。
- 提案手法であるGR3Dは，既存のMLLMに追加学習を要せず，容易に適用可能である。
- VSI-BenchとMindCubeにおいて，GPT-5の性能がそれぞれ9%，12%向上した。
- GR3Dは，限られた視点からの入力でも複雑な空間推論を可能にすることが示された。
Link: https://arxiv.org/abs/2603.08592
LLM駆動プログラム生成とテキストベースB-Repプリミティブの接地による高忠実度CAD生成 [cs.CV]目的：高忠実度CAD生成のための手法
- 産業製品設計において，CADは不可欠であり，その自動化は生産性向上に繋がる。
- 従来のCAD生成手法は，パラメトリックモデリングとB-Rep合成の間の隔たりが課題であった。
- LLMとBRepGroundを用いて，テキストから高忠実度CADを生成する新しいフレームワークを開発する。
- FutureCADは，実行可能なCadQueryスクリプトを生成し，自然言語による幾何選択を可能にする。
- 新しいデータセットを構築し，LLMに教師ありファインチューニングと強化学習を適用することで汎化性能を向上させた。
- 実験の結果，FutureCADは最先端のCAD生成性能を達成した。
Link: https://arxiv.org/abs/2603.11831
すべての方向が重要ではない：構造化されたタスク認識低ランクモデル適応へ [cs.MA, cs.HC, cs.RO, cs.SY, eess.SY, cs.CV]目的：低ランクモデル適応におけるセマンティックドリフトと構造的不整合の改善
- 大規模言語モデル等のファインチューニングにおいて，計算コスト削減が重要な課題となっている。
- LoRAはパラメータ効率の良い手法だが，更新方向の偏りや層間の不整合が性能を制限する。
- セマンティックドリフトの抑制と層間の整合性確保により，LoRAの性能向上を目指す。
- 提案手法StructLoRAは，情報ボトルネックによるフィルタリングとグラフベースのコーディネーターにより，セマンティックドリフトと構造的不整合を同時に解決する。
- LLaMA，LLaVA，ViT等の様々なモデルで，既存のLoRAや他の高度な手法を上回る性能を達成した。
- 特に，低ランクおよび低データ環境において顕著な効果が認められ，推論コストは増加しない。
Link: https://arxiv.org/abs/2603.14228
LLMind：視覚言語モデルのための生物学的インスピレーションに基づく，学習不要な適応視覚表現 [cs.CV]目的：視覚言語モデルにおける効率的かつ適応的な視覚表現の実現
- 視覚言語モデルは，画像とテキストの理解において重要な役割を担う。その性能向上はAI研究の重要な課題である。
- 既存の視覚言語モデルは，視覚入力全体の空間的忠実度を均一に扱うため，効率性に課題がある。
- 人間の視覚システムに着想を得て，限られたピクセル数で効率的な視覚表現を獲得し，モデルの性能を向上させる。
- 提案手法LLMindは，人間の視覚システムに見られる焦点性符号化や皮質拡大を模倣することで，限られたピクセル数でも高い性能を発揮する。
- 多様な視覚質問応答ベンチマークにおいて，従来の均一サンプリングと比較して，平均で+20%～+38%の性能向上を達成した。
- LLMindは，フル解像度性能の最大97%をわずか5%のピクセル数で維持可能であり，軽量かつ既存のVLMsに容易に組み込める。
Link: https://arxiv.org/abs/2603.14882
KL正則化されたグループ分布ロバスト最適化による公正かつ堅牢な容積CT分類 [cs.CL, cs.CV]目的：分布シフトと人口統計学的サブグループ間の性能格差に対処したCT画像分類
- CT画像診断は医療現場で重要だが，施設間や患者層によるばらつきが課題。
- 施設間でのデータ分布のシフトや，特定の患者層における性能低下が問題。
- グループ分布ロバスト最適化により，これらの問題を同時に解決することを目指す。
- COVID-19二値分類において，既存の最高記録を5.9ポイント上回るF1スコア0.835を達成。
- 4クラス肺病理認識では，性別に基づく公平性制約下で，平均F1スコアが0.815となり，既存の最高記録を11.1ポイント上回る。
- 特に，女性の扁平上皮癌のF1スコアが，Focal Lossのベースラインと比較して17.4ポイント向上。
Link: https://arxiv.org/abs/2603.15941
胸部X線画像の局所情報を考慮した微細特徴表現学習：LoFi [cs.CV, cs.AI]目的：胸部X線画像における微細特徴表現の学習
- 胸部X線画像診断において，局所的な所見が重要であり，それを捉える表現学習が求められる。
- 既存のコントラスト学習では領域レベルの教師信号が不足し，大規模言語モデルも微細な特徴を捉えきれない。
- 局所情報を考慮した損失関数により，領域レベルの教師信号を活用し微細特徴表現を学習する。
- 提案手法LoFiは，シグモイド損失，キャプション生成損失，局所情報を考慮したキャプション生成損失を同時に最適化する。
- これにより，MIMIC-CXRおよびPadChest-GRデータセットにおいて，検索およびフレーズグラウンディングの性能が向上した。
- 本手法は，検索ベースの文脈学習に微細特徴エンコーダを統合することで，多様な設定下でのグラウンディング性能を強化する。
Link: https://arxiv.org/abs/2603.19451
医療指示追従のための大規模視覚言語モデルの指示不要チューニング [cs.CV]目的：医療領域における大規模視覚言語モデルの指示追従能力向上
- 医療画像解析は疾患診断や治療において不可欠であり，AIによる支援が期待されている。
- 医療領域の指示データセット作成は専門知識が必要で，コストと時間がかかる。
- 高品質な指示データセットに頼らず，効率的にモデルを医療領域に適応させる。
- 提案手法は，画像と説明文のペアのみを用いた指示不要チューニングを実現した。
- モメンタムプロキシ指示を用いることで，事前学習済みのLVLMの指示追従能力を維持しつつ，推論時に有効なパラメータ更新を促進する。
- SKINCON，WBCAtt，CBIS，MIMIC-CXRデータセットにおいて，最先端の精度を達成し，医療領域におけるLVLMのチューニング効率を大幅に向上させた。
Link: https://arxiv.org/abs/2603.19482
SATTC：構造を考慮したラベルなしテスト時キャリブレーションによるクロスサブジェクトEEG-画像検索 [cs.CV]目的：クロスサブジェクトEEG-画像検索における性能向上
- 脳活動と画像の関連性を利用し，視覚情報を復元する技術であり，ブレイン・マシン・インターフェース等の応用が期待される。
- 個人差やハブネス問題により，埋め込み空間での類似度計算が歪み，上位k件の検索結果の信頼性が低い。
- テスト時にラベルを用いずに，埋め込み空間の歪みを補正し，検索精度と信頼性を向上させる。
- SATTCは，凍結されたEEGと画像のエンコーダの類似度行列に対して直接作用するラベルなしキャリブレーションヘッドである。
- 厳密なクロスバリデーション条件下で，Top-1とTop-5の精度が向上し，ハブネスとクラス間の不均衡が軽減された。
- SATTCは，様々なEEGエンコーダに適用可能であり，エンコーダに依存しないテスト時キャリブレーション層として機能する。
Link: https://arxiv.org/abs/2603.20738
セマンティック空間における簡潔さ：クリフォード-Mによる本質的なデカップリング - 眼底画像分類 [cs.CV]目的：眼底画像の多ラベル診断のための，効率的な特徴抽出手法の開発
- 眼底画像診断は，網膜疾患の早期発見・治療に不可欠であり，高精度な画像解析が求められている。
- 既存の多スケールモデルはパラメータ数が増加し，計算コストが高くなる傾向がある。
- 本研究では，複雑な周波数分解モジュールを用いずに，効率的に多スケール構造を捉える手法を提案する。
- 提案手法Clifford-Mは，パラメータ数を抑えつつ，既存のCNNベースラインを上回るAUC-ROCとF1スコアを達成した。
- Clifford-Mは，事前学習なしでODIR-5Kデータセットにおいて高い性能を示し，異なるデータセットRFMiDに対しても頑健性があることを示した。
- 明示的な周波数エンジニアリングなしに，効率的かつ競争力のある眼底画像診断が可能であることが示唆された。
Link: https://arxiv.org/abs/2603.20806
粒状ボールに基づくトポロジー構築，特徴強化，相互融合による多視点グラフ畳み込みネットワーク [cs.CL, cs.CV, cs.AI]目的：多視点データにおける一貫性の完全な活用
- 多視点学習は，多様な情報源からのデータ統合に不可欠であり，よりロバストで正確な分析を実現する。
- 既存手法では，近傍探索のパラメータ設定が性能に大きく影響したり，視点内の特徴間の一貫性が軽視されたりする。
- 本研究では，粒状ボールを用いたトポロジー構築，特徴強化，相互融合により，ノード間，特徴間，視点間の一貫性を最大限に活用する。
- 提案手法MGCN-FLCは，粒状ボールアルゴリズムによりノード間の類似性を捉え，トポロジー構造を改善する。
- 特徴強化モジュールは，視点内の特徴間の一貫性を捉え，より高品質な埋め込み表現を獲得する。
- 相互融合モジュールは，各視点が他のすべての視点と深く相互作用し，多視点間の一貫性を高める。
Link: https://arxiv.org/abs/2603.26729
Chat-Scene++：文脈豊富な物体識別を活かした3D LLM [cs.CV]目的：3Dシーンの理解とインタラクションの能力向上
- 3Dシーンの理解は，ロボット工学や拡張現実など，様々な分野で不可欠である。
- 既存手法では，微細な物体認識と文脈推論が課題であり，複雑な3D環境への対応が難しい。
- 文脈豊かな物体シーケンスによる表現で，3Dシーンの理解と操作の精度を高めることを目指す。
- Chat-Scene++は，3Dシーンを文脈豊富な物体シーケンスとして表現する新しいフレームワークである。
- 大規模な事前学習済みエンコーダを活用することで，物体間の関係性や全体的な意味を捉え，高い性能を実現した。
- 追加のタスク固有のヘッドやファインチューニングなしに，複数の3Dビジョン言語ベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.27507
網膜画像セグメンテーションにおける単一ソースドメイン汎化のためのウェーブレットサブバンドの分離 [cs.ET, cs.CV]目的：網膜画像セグメンテーションにおける単一ソースドメイン汎化の性能向上
- 眼科領域において，網膜画像の解析は疾患診断や治療効果の評価に不可欠である。
- 異なる撮影条件下での網膜画像は変動が大きく，深層学習モデルの汎化性能を低下させる。
- ウェーブレット変換を用いて解剖学的構造とドメイン固有の表現を分離し，汎化性能を向上させる。
- 提案手法WaveSDGは，ウェーブレットガイドセグメンテーションネットワークを用いて，解剖学的構造とドメイン固有の表現を分離する。
- WISERモジュールは，ウェーブレットサブバンドの役割を活かし，低周波成分の強化と高周波成分のノイズ抑制を行うことで，解剖学的構造を安定化させる。
- 複数のデータセットを用いた実験結果から，WaveSDGは既存手法を凌駕し，高い精度，ロバスト性，クロスドメイン安定性を示すことが確認された。
Link: https://arxiv.org/abs/2603.28463
OmniSch：構造化図式視覚的推論のための多Modal PCB回路図ベンチマーク [cs.CV]目的：PCB回路図の機械可読な空間加重ネットリストグラフへの変換能力の評価
- 電子設計自動化（EDA）の基盤となる回路図の理解は，現代の電子機器開発に不可欠である。
- 既存のLMMは回路図の要素間の接続性，属性，幾何学的配置を捉えたネットリストグラフの生成が困難である。
- LMMの回路図理解と空間ネットリストグラフ構築能力を評価するベンチマークの提供。
- 本研究で開発したOmniSchベンチマークは，1,854枚の実世界回路図と4つのタスクを含む。
- 実験の結果，既存のLMMは回路図の要素の正確な位置特定，レイアウトに基づいたグラフ解析，およびグローバルな接続性の推論において課題があることが示された。
- ツールを活用した視覚探索においても，既存モデルの効率の低さが明らかになった。
Link: https://arxiv.org/abs/2604.00270
LinguDistill：ビジョン言語モデルにおける選択的クロスモーダル蒸留による言語能力の回復 [cs.CV, cs.CL]目的：ビジョン言語モデルにおける言語能力の回復
- 事前学習済み言語モデルをビジョン言語モデルに適用する際の言語能力の低下を防ぐことが重要である。
- マルチモーダル適応時に表現のシフトとクロスモーダル干渉により，言語モデルの本来の言語能力が低下しやすい。
- 追加モジュールなしに，蒸留による言語能力の回復を目指す。
- LinguDistillは，元の凍結された言語モデルを教師として活用することで言語能力を回復する。
- レイヤーごとのKVキャッシュ共有により，教師モデルが学生モデルのマルチモーダル表現にアクセスできるようにした。
- 言語能力に重点を置いたデータを用いて選択的に蒸留することで，言語ベンチマークで約10%の性能回復を実現した。
Link: https://arxiv.org/abs/2604.00829
テキストによる位置特定とOpenStreetMap [cs.CV, cs.MM]目的：テキスト記述から都市環境における正確な2次元位置推定
- 位置特定は，地理空間アプリケーションにおいて不可欠であり，その精度と効率性が重要である。
- 既存手法は高密度点群や高解像度画像に依存し，大規模な位置特定には不向きな場合がある。
- OpenStreetMapの持つ豊富なセマンティック情報と構造情報を活用し，テキストによる位置特定を実現する。
- 提案手法TOLocは，周囲のオブジェクトのセマンティック情報と方向性を明示的にモデル化する粗→微なフレームワークである。
- TOLocは，既存手法と比較して，5m，10m，25mの閾値でそれぞれ6.53%，9.93%，8.32%高い位置特定性能を示す。
- 未知の環境に対しても優れた汎化性能を持つことが実験的に確認された。
Link: https://arxiv.org/abs/2604.01644
FastTurn：低遅延かつ堅牢なターン検出のための音響的・ストリーミング意味的手がかりの統合 [cs.SD, eess.AS]目的：低遅延かつ堅牢なターン検出のための統合的枠組み
- 音声対話システムはリアルタイムな双方向コミュニケーションへ移行しており，発話タイミングの判断が重要である。
- 既存手法は，意味理解不足または遅延，ノイズの影響を受けやすいという課題がある。
- 音響特徴とストリーミングCTCデコーディングを組み合わせ，早期判断と意味的手がかりの維持を目指す。
- FastTurnは，代表的なベースラインと比較して，より高い決定精度と低い中断遅延を達成した。
- 過酷な音響条件下でも堅牢性を維持し，実用的な双方向対話システムへの有効性を示した。
- 本研究では，現実的なターン遷移やノイズを含む新しいテストセットを公開し，評価の信頼性を高めた。
Link: https://arxiv.org/abs/2604.01897
ロシア語音声なりすまし対策の汎化性能と堅牢性の評価：RuASDイニシアチブ [cs.CL, cond-mat.stat-mech, physics.soc-ph, cs.SD]目的：ロシア語音声なりすまし対策の評価と，実環境での分布シフトに対する堅牢性
- 音声認証システムの普及に伴い，音声なりすまし攻撃への対策が重要になっている。
- 既存のデータセットでは，ロシア語音声に対する評価や，現実的な環境変化への対応が不十分である。
- 多様なデータソースと歪みシミュレーションを用いて，ロシア語音声なりすまし対策の性能を評価するデータセットを構築する。
- RuASDは，ロシア語音声のなりすまし対策ベンチマークとして，多様なデータソースと歪みシミュレーションに対応している。
- 様々な音声合成・クローニングシステムで生成された偽装音声と，複数のオープンデータセットから収集された本物音声を含む大規模なデータセットである。
- 軽量なモデルから大規模な事前学習済みモデルまで，複数のなりすまし対策を評価し，現実的な条件下での堅牢性を検証した。
Link: https://arxiv.org/abs/2604.02374
強化学習を用いたビジョン-言語モデルの失敗モードの発見 [cs.CV, cs.AI]目的：ビジョン-言語モデルの失敗モードの自動的な発見
- 近年，画像とテキストを同時に理解するモデルが発展している。その応用範囲は広い。
- 既存の研究では，人間が手動で弱点を見つけていたが，コストがかかり，網羅性に欠ける。
- 本研究は，人間の介入なしに，モデルの弱点を自動的に発見することを目的とする。
- 提案手法では，強化学習を用いて質問エージェントを訓練し，モデルの誤回答を引き出す。
- 質問の複雑さを徐々に上げ，微細な視覚情報や多様なスキルに焦点を当てることで，新たな失敗モードを特定する。
- 様々なモデルの組み合わせに対して，本手法の有効性が確認された。
Link: https://arxiv.org/abs/2604.04733
CLIP誘導データ拡張による夜間画像除去 [cs.CV]目的：夜間画像の除去に関する研究
- 夜間画像は低照度や光の干渉により，昼間よりも画像の劣化が複雑になる。
- 限られた教師データでは，ドメイン間のずれや学習の不安定性が課題となる。
- ターゲットドメインに近い学習データを構築し，安定した除去を目指す。
- 事前学習済みのCLIPを用いて類似画像を抽出し，ターゲットドメインに適した学習データを構築した。
- NAFNetを段階的に学習させることで，ドメイン適応と汎化性能の向上を実現した。
- 推論時には，アンサンブルとスナップショット融合により出力の安定性を高めた。
Link: https://arxiv.org/abs/2604.05500
FunRec：一人称視点インタラクション動画からの機能的3Dシーン再構築 [cs.CV]目的：機能的3Dシーンの再構築
- ロボット工学や拡張現実において，現実世界のシーンを正確に再現する技術は重要である。
- 既存手法は制御された環境やCADモデルに依存し，自然なインタラクション動画からの再構築は困難であった。
- 自然なインタラクション動画から，インタラクション可能な3Dシーンを自動的に再構築することを目的とする。
- FunRecは，従来の技術を大きく上回り，部品セグメンテーションで最大50mIoUの改善を達成した。
- 関節と姿勢の誤差を5〜10倍に低減し，再構築精度を大幅に向上させた。
- URDF/USDエクスポートによるシミュレーション，把持可能性マッピング，ロボットとシーンのインタラクションへの応用を実証した。
Link: https://arxiv.org/abs/2604.05621
潜在異常知識の発掘：視覚言語モデルにおける疎な感受性ニューロンの解明 [cs.CV, cs.AI]目的：視覚言語モデルにおける異常検知能力の根底にあるメカニズムの解明
- 大規模視覚言語モデルは多様なタスクで高性能を示すため，その内部メカニズムの理解が重要である。
- 既存手法では，モデルをブラックボックスとみなし，異常検知のための知識獲得に外部モジュールを必要とする。
- 事前学習済みモデル内に潜在的に存在する異常知識を，追加学習なしに発掘し活用することを目指す。
- 提案手法LAKEは，正常サンプルのみを用いて異常感受性ニューロンを特定し，活性化させる。
- LAKEは，視覚構造の逸脱とクロスモーダルな意味的活性化を統合した高精度な正常性表現を構築する。
- 工業用異常検知ベンチマークにおいて，LAKEは最先端の性能を達成し，ニューロンレベルでの解釈可能性を提供する。
Link: https://arxiv.org/abs/2604.07802
SceneScribe-1M：包括的な幾何学的・意味的注釈付き大規模ビデオデータセット [cs.CV]目的：大規模な幾何学的・意味的注釈付きビデオデータセット
- 3D幾何学認識とビデオ合成の融合が進み，両分野に富んだビデオデータへの需要が高まっている。
- 既存のデータセットは，3D理解かビデオ生成のいずれかに偏っており，両分野を統合的にサポートするものが不足している。
- 3D世界の認識と制御可能な現実的なビデオコンテンツ生成を促進するための包括的なベンチマークを提供すること。
- SceneScribe-1Mは，100万件のビデオと，詳細なテキスト記述，カメラパラメータ，深度マップ，3D点追跡を含む。
- 単眼深度推定，シーン再構成，動的点追跡などのタスクでベンチマークを確立し，テキストからのビデオ合成にも応用可能である。
- SceneScribe-1Mの公開により，動的な3D世界の認識と生成モデルの開発を加速させる。
Link: https://arxiv.org/abs/2604.07990
脳MRIにおける微細構造セグメンテーションのためのコンポーネント適応および病変レベルの教師あり学習 [cs.CV, cs.LG]目的：脳MRI画像における微細構造セグメンテーションの精度向上
- 脳MRIは，脳疾患の診断・治療において重要な役割を果たす。正確な病変のセグメンテーションは，その精度を左右する。
- 特に微細な病変のセグメンテーションは難易度が高く，既存手法では十分な精度が得られない場合がある。
- 病変のサイズに応じた重み付けと病変レベルの教師あり学習を組み合わせることで，微細病変のセグメンテーション精度を向上させる。
- 提案手法CATMILは，セグメンテーション精度，病変検出，誤り制御においてバランスの取れた性能を示した。
- Dice係数を向上させ，境界誤差を低減させた。特に，微細病変の再現率が大幅に向上し，偽陽性量を最小限に抑えた。
- コンポーネントレベルと病変レベルの教師あり学習を統合した統一的な目的関数が，高度に不均衡な環境下での微細病変セグメンテーションに有効であることを実証した。
Link: https://arxiv.org/abs/2604.08015
事前学習と適応：テキストに基づく人物検索のための不確実性を考慮したテスト時適応 [cs.IR, cs.CV]目的：テキストに基づく人物検索におけるテスト時適応手法
- プライバシー制約やアノテーションコストによりデータが不足する人物検索の課題解決が重要である。
- 従来のファインチューニングにはターゲットドメインのラベル付きデータが不可欠であり，現実的な展開が困難である。
- ラベルなしテストデータのみを用いた，テスト時の動的なモデル適応によるドメインシフトの軽減を目指す。
- 提案手法UATTAは，画像-テキスト間の双方向検索不一致を利用して不確実性を推定し，ラベルなしでモデルを再調整する。
- CUHK-PEDES，ICFG-PEDES，RSTPReid，PABの４つのベンチマークで一貫して性能が向上した。
- 既存のオフラインテスト時適応戦略と比較して，UATTAが新たなベンチマークを確立した。
Link: https://arxiv.org/abs/2604.08598
二分岐リモートセンシング赤外画像超解像 [cs.DB, cs.CV]目的：リモートセンシング赤外画像の超解像技術
- リモートセンシングは，地表面の温度分布を把握し，防災や環境監視に不可欠である。
- 低解像度赤外画像は情報が不足し，微細な温度変化の検出が困難である。
- 赤外画像の超解像によって，高精度な温度情報と鮮明な画像が得られるようにする。
- 提案手法は，HAT-L分岐とMambaIRv2-L分岐を組み合わせる二分岐システムである。
- HATのテスト時局所変換，MambaIRv2の8方向自己アンサンブル，固定等重み画像空間融合を適用した。
- 合成データセットにおいて，融合出力は単一分岐よりもPSNR，SSIM，総合スコアで優れていた。
Link: https://arxiv.org/abs/2604.10112
SIMPLER：H&E情報に基づく構造化照明顕微鏡法のための表現学習 [cs.CV]目的：構造化照明顕微鏡法のための再利用可能な表現の学習
- 生体組織の迅速かつ高コントラストな光学断面観察を可能とし，術中やポイントオブケア診断への応用が期待されている。
- 既存のデジタル病理モデルは薄切組織に最適化されており，厚みのある組織の蛍光イメージングであるSIMへの適用が課題である。
- H&E画像を利用し，SIM画像の表現学習を促進することで，モダリティシフトの影響を軽減し，汎用性の高いモデルを構築する。
- SIMPLERは，H&E画像をセマンティックアンカーとして活用し，SIMとH&Eの表現を段階的に整合させることで，SIMの埋め込み表現に組織構造を組み込む。
- 事前学習されたSIMPLERエンコーダは，複数インスタンス学習や形態学的クラスタリングなど，複数の下流タスクで，ゼロから訓練されたSIMモデルやH&Eのみで事前学習されたモデルを上回る性能を示した。
- 組織学的ガイダンスによるクロスモーダル事前学習は，生物学的に妥当なSIM埋め込み表現を生成し，幅広い下流タスクでの再利用に適していることが示唆された。
Link: https://arxiv.org/abs/2604.10334
マルチモーダル潜在推論のための視覚的強化された深さスケーリング [cs.CV]目的：マルチモーダル潜在推論における視覚情報の活用と複雑な潜在表現の洗練
- 近年，マルチモーダルな情報処理が注目されており，より高度な推論能力が求められている。
- 既存手法では，言語バイアスにより視覚情報の最適化が不十分になりやすいという課題がある。
- 視覚情報の活用を強化し，複雑な潜在表現をより深く推論することで，性能向上を目指す。
- 本研究では，視覚的リプレイモジュールとルーティング深さスケーリングを導入し，視覚的知覚と複雑な潜在表現の洗練を共同で行う。
- 視覚的リプレイモジュールは，トークンの重要度を推定し，空間的に一貫性のある制約を通じて詳細なグラウンディングを強化する。
- ルーティング深さスケーリングは，複雑なトークンに追加の推論ステップを適応的に割り当て，より深い文脈的洗練を可能にする。
Link: https://arxiv.org/abs/2604.10500
Audio-Omni：多様な音声生成・編集への多Modal理解の拡張 [cs.CL, cs.SD, cs.AI, cs.CV, cs.MM]目的：汎用的な音声，音楽，スピーチ領域における生成と編集を統合した統一的なフレームワークの開発
- 近年，多Modalモデルの進歩により音声理解，生成，編集技術が発展している。
- これらの能力は通常，特定のモデルに特化しており，統一的なフレームワークが不足している。
- 音声，音楽，スピーチの各領域を横断する汎用的な生成・編集の統合を目指す。
- Audio-Omniは，凍結された大規模多Modal言語モデルと訓練可能な拡散Transformerを組み合わせる。
- 音声編集のデータ不足を克服するため，100万件以上の編集ペアからなるAudioEditデータセットを構築した。
- 複数のベンチマークで最先端の性能を達成し，専門的なモデルと同等またはそれ以上の性能を示した。
Link: https://arxiv.org/abs/2604.10708
モデル設計を超えて：データ中心型学習と自己アンサンブルによるガウスカラー画像ノイズ除去 [cs.CV]目的：ガウスカラー画像ノイズ除去における性能向上
- 画像処理分野において，高画質化は重要な課題であり，ノイズ除去はその中でも不可欠な技術である。
- 既存のノイズ除去技術は，複雑なモデル設計に依存しがちであり，データ活用の潜在能力が十分に引き出せていない。
- 本研究は，データ中心型学習と自己アンサンブルを通じて，既存モデルの性能を最大限に引き出すことを目指す。
- 本研究では，成熟したRestormerアーキテクチャをベースに，データ中心型学習とテスト時アンサンブルを強化することで，性能向上を達成した。
- チャレンジ検証セットにおいて，PSNRが30.762 dB，SSIMが0.861を達成し，Restormerの事前学習済みベースラインを最大3.366 dB PSNR改善した。
- 性能向上の主な要因は，学習データの拡充と二段階の最適化スケジュールにあり，自己アンサンブルはわずかながら一貫した改善をもたらした。
Link: https://arxiv.org/abs/2604.11468
単一画像超解像のための，学習不要な強分岐補償によるモデルアンサンブル [cs.CV]目的：単一画像超解像の性能向上
- 画像を高解像度化する技術は，医療，監視，エンターテイメントなど幅広い分野で重要である。
- 高性能なモデルは学習コストが高く，実装や運用に負担が大きいという課題があった。
- 既存の事前学習済みモデルを有効活用し，学習コストをかけずに性能向上を目指す。
- 提案手法は，ベースとなるモデルと強分岐モデルを組み合わせることで，一貫して性能を向上させた。
- 学習不要な出力レベルでのアンサンブルにより，既存の超解像システムを低コストでアップグレードできる。
- NTIRE 2026 Image Super-Resolution チャレンジにおいて，優れた結果を達成した。
Link: https://arxiv.org/abs/2604.11564
長視野エージェントによるマルチモーダル検索 [cs.CV, cs.AI]目的：長視野におけるマルチモーダル検索の実現
- 複雑な課題解決において，テキストと視覚情報を組み合わせた検索エージェントの有用性が高まっている。
- マルチモーダル入力の多様性やトークンコストが高く，長期間にわたる処理で文脈の肥大化や視覚情報の損失が課題となる。
- 視覚情報をファイルシステムにオフロードし，テキストIDで管理することで，長視野検索における性能向上を目指す。
- 提案手法LMM-Searcherは，視覚情報を軽量なIDに変換し，必要な時に読み込むことで，文脈のオーバーヘッドを削減する。
- 複雑なクロスモーダル推論を必要とするクエリを生成するデータ合成パイプラインを構築し，モデルのファインチューニングに活用した。
- MM-BrowseCompやMMSearch-Plusなどのベンチマークで最先端の性能を達成し，汎化性能も高いことを示した。
Link: https://arxiv.org/abs/2604.12890
言語モデルの推論のためのピア予測型自己学習 [cs.CL, cs.AI, cs.GT]目的：言語モデルの推論能力向上
- 大規模言語モデルは様々なタスクで高い性能を示すが，さらなる能力向上が求められている。
- 外部の教師データなしに，言語モデルが自己改善する仕組みが未確立である。
- 複数のモデル間での協調学習により，自己学習の効率と精度を向上させる。
- 提案手法PSTは，複数の言語モデルが互いの応答を参考にしながら学習することで，数学的推論の正答率を向上させた。
- 特にSimulEq，Math500，MultiArithのベンチマークにおいて，2.2～4.3%の精度改善が確認された。
- モデル間の乖離（GV-Gap）も26～40%削減され，自己教師あり学習の有効性が示唆された。
Link: https://arxiv.org/abs/2604.13356
ロボットパン：具現化された知覚のための360度全方位ロボットビジョンシステム [cs.RO, cs.CV]目的：ロボットのナビゲーションとローコ・マニピュレーションにおける全方位知覚の実現
- ロボットが人間と協調して動作する上で，周囲の状況を正確に把握する全方位知覚は不可欠である。
- 従来のロボットビジョンシステムは視野が狭く，複数のカメラを使用する場合でも切り替えが煩雑である。
- リアルタイム性と精度を両立した，実用的な全方位ビジョンシステムを構築し，ロボットの性能向上を目指す。
- 本研究では，6つのカメラとLiDARを組み合わせた全方位ビジョンシステム「RobotPan」を開発した。
- RobotPanは，3Dガウス関数を効率的に予測するフレームワークにより，リアルタイムなレンダリングと再構成を実現する。
- 提案手法は，既存手法と同等の品質を維持しつつ，ガウス関数の数を大幅に削減し，実用的なロボットへの組み込みを可能にした。
Link: https://arxiv.org/abs/2604.13476
視覚言語モデルにおける推論ダイナミクスとモダリティ依存性の限界 [cs.CL, cs.AI, cs.CV, cs.LG]目的：視覚言語モデルにおける推論過程と視覚情報・テキスト情報の統合メカニズムの解明
- 近年，視覚言語モデルは高度化しているが，その推論過程の理解は不十分である
- モデルは初期の予測に固執しやすく，推論ステップで修正されない傾向がある
- 誤解を招くテキスト情報に対するモデルの依存性と，その影響の可視化を目指す
- モデルは誤解を招くテキスト情報の影響を受けやすく，十分な視覚情報が存在する場合でもその影響が持続する
- 推論訓練されたモデルは修正行動が優れているものの，その効果はモダリティ条件に依存する
- Chain-of-Thoughtはモダリティ依存性の完全な理解には不十分であり，モデルの透明性と安全性の向上に課題が残る
Link: https://arxiv.org/abs/2604.14888
報酬を考慮した軌道形成による数ステップのビジュアル生成 [cs.CV]目的：数ステップのビジュアル生成における生成品質の向上
- 生成モデルは，高忠実度の画像を少ないステップで生成することを目指しており，その効率性が重要視される。
- 既存手法は教師モデルの性能に依存し，教師モデルを超える性能を達成することが困難である。
- 本研究は，報酬に基づく生成品質の最適化により，教師モデルの限界を超えた性能を目指す。
- 提案手法RATSは，教師と生徒の潜在軌道を主要なノイズ除去段階で整合させることで，知識伝達を効率化する。
- 報酬を考慮したゲート機構により，教師の誘導を適応的に調整し，生徒の性能向上を促進する。
- 実験結果から，RATSは数ステップのビジュアル生成における効率と品質のトレードオフを大幅に改善し，多段階生成モデルとの差を縮小することが示された。
Link: https://arxiv.org/abs/2604.14910
AIFIND：アーティファクトを意識した微細なアライメントによるインクリメンタル顔なりすまし検出 [cs.CV, cs.AI]目的：インクリメンタル顔なりすまし検出における特徴ドリフトと破滅的忘却の抑制
- 顔なりすましは深刻な脅威であり，検出技術の進歩が不可欠である。
- 既存手法は粗いバイナリ supervision に依存し，特徴空間の制約が不十分である。
- セマンティックアンカーを活用し，インクリメンタル学習の安定化を目指す。
- AIFINDは，低レベルのアーティファクトから不変なセマンティックアンカーを生成する。
- アーティファクト・プローブアテンションにより，不安定な視覚特徴をセマンティックアンカーにアライメントさせる。
- 適応的決定ハーモナイザーは，セマンティックアンカーの角度関係を維持し，タスク間の幾何学的一貫性を保つ。
Link: https://arxiv.org/abs/2604.16207