arXiv雑要約

画像・音声 - 2026/03/10 公開

  • 断層撮影再構成のための摂動ガウス集合による能動的視点選択 [cs.RO, cs.CV]目的:断層撮影再構成における能動的視点選択の最適化
    • 被ばく線量低減は患者保護の観点から重要であり,低線量CT技術の開発が求められている。
    • 少ない視点からのCT画像再構成は,幾何学的曖昧性や物理的減衰特性によるアーチファクトが発生しやすい。
    • ガウススプラッティングに基づき,不確実性モデリングと逐次決定を統合した能動的視点選択フレームワークを提案する。
    • 提案手法である摂動ガウス集合は,低密度ガウスプリミティブに着目し,確率的な密度スケーリングにより複数の可能性のある密度場を構築する。
    • 各候補投影に対し,密度場予測の構造的変動を測定し,変動の大きい視点を次に追加視点として選択する。
    • 実験結果から,提案手法は幾何学的アーチファクトを効果的に除去し,既存手法を上回る再構成精度を達成することが示された。

    Link: https://arxiv.org/abs/2603.06852

  • 高コントラスト光流に対する拡張トポロジーモデル [cs.CV, math.AT]目的:高コントラスト光流パッチの低次元モデルの特定
    • コンピュータビジョンの分野において,画像中の動きの理解は重要な課題である
    • 既存のトポロジーモデルでは,高コントラスト光流パッチの構造を十分に捉えられていない
    • 光流パッチの構造をより正確にモデル化し,動きの理解を深めることを目指す
    • 高コントラスト光流パッチの大部分は,既存のトーラスモデルではなく,バイナリステップエッジ円ファミリーの近傍に存在することが示された
    • 提案する3次元多様体モデルは,既存のトーラスモデルの検証が困難であった理由を説明する
    • 本研究は,視覚データの推論におけるトポロジーと幾何学の間の微妙な関係性についての洞察を提供する

    Link: https://arxiv.org/abs/2603.06853

  • 音声言語モデルは聞いているか?適応型音声ステアリングのための音声専門家ヘッド [cs.SD, cs.AI]目的:マルチモーダル大規模言語モデルにおける音声への注意メカニズムの調査
    • 近年,画像や音声などの非テキスト情報を扱うマルチモーダル大規模言語モデルが重要視されている。
    • 既存の音声言語モデルは,テキスト情報に偏りやすく,音声情報の活用が不十分な場合がある。
    • 音声情報をより効果的に活用し,モデルの予測精度向上を目指す。
    • メカニズム解釈可能性を用いることで,音声への注意を示す「リスニング」信号を発する音声専門家ヘッドを特定した。
    • 特定されたヘッドを用いて音声・無音ステアリング方向を構築し,推論時の活性化介入を行った。
    • MMAUデータセット上で,Qwenベースの音声言語モデルにおいて,最大8.0パーセントポイントの精度向上を達成した。

    Link: https://arxiv.org/abs/2603.06854

  • ColonSplat:動的ガウススプラッティングによる大腸内視鏡検査における蠕動運動の再構成 [cs.CV]目的:大腸内視鏡検査データの蠕動運動を考慮した正確な3D再構成
    • 内視鏡検査は,手術支援や診断において不可欠であり,より高精度な3D再構成が求められている。
    • 大腸のような狭い空間では,視野が限られ,既存手法では完全な再構成が困難であった。
    • 蠕動運動を正確にモデル化し,大腸全体の形状を静的なものとして捉え再構成することを目指す。
    • 本研究では,既存の動的内視鏡手法が実際の蠕動運動をモデル化できていないことを示した。
    • DynamicColonという,真値点群を含む合成データセットを新たに構築し,評価を可能にした。
    • ColonSplatは,動的ガウススプラッティングフレームワークを用いて,優れた幾何学的精度を実現した。

    Link: https://arxiv.org/abs/2603.06860

  • IGLU:統合ガウス線形ユニット活性化関数 [cs.LG, cs.CV]目的:深層ニューラルネットワークにおける活性化関数の新しい設計
    • 深層学習モデルの性能を決定する重要な要素であり,勾配消失問題の回避に不可欠である。
    • ReLUは広く使われているが,勾配消失問題のリスクがあり,GELUなどの代替関数が模索されている。
    • Cauchy分布に基づいた新しい活性化関数IGLUを提案し,勾配消失問題への耐性を向上させる。
    • IGLUは,GELUと比較して,特に不均衡な分類データセットにおいて,高い性能を発揮することが示された。
    • IGLUのゲート成分はCauchy CDFであり,ReLUとIdentityの間の連続的な補間が可能である。
    • 計算効率を高めたIGLU-Approxは,IGLUと同等の性能を低コストで実現できる。

    Link: https://arxiv.org/abs/2603.06861

  • 事前情報に基づく飛行軌跡予測学習アーキテクチャ [cs.CV, cs.AI]目的:飛行物体の軌跡予測に関するアーキテクチャ
    • スポーツ分析や航空宇宙など幅広い分野で軌跡予測は不可欠である。
    • 従来の予測手法は,複雑な物理モデル化や計算コスト,ハードウェア要件に課題がある。
    • 環境に関する事前情報を活用し,より効率的かつ正確な軌跡予測を実現する。
    • 提案手法は,環境に関する事前情報をDual-Transformer-Cascaded(DTC)アーキテクチャに統合することで,既存手法を上回る性能を示す。
    • テニスボールの着地点予測実験において,単一の産業用カメラとYOLO検出により高精度な軌道座標を抽出。
    • 抽出された座標と環境構造に関する事前情報をDTCモデルに入力し,着地点を高精度に予測した。

    Link: https://arxiv.org/abs/2603.06863

  • 空間的相互作用を伴うペア画像合成:PICS [cs.CV]目的:画像ペアの合成における空間的関係の維持
    • 画像編集技術は,現実世界の表現や仮想環境の構築に不可欠である。
    • 拡散モデルを用いた画像合成では,複数回の編集時に空間的な一貫性を保つのが課題である。
    • 複数オブジェクトの合成における空間的相互作用を明示的にモデル化し,一貫性を向上させる。
    • PICSは,自己教師あり学習による分解・合成パラダイムを採用し,並列処理でオブジェクトを合成する。
    • Interaction Transformerがマスクを用いて,背景,排他的領域,重なり領域を専門家へルーティングすることで,高品質な合成を実現する。
    • 多様なシーンにおける実験で,既存手法と比較して合成品質と安定性が向上することが確認された。

    Link: https://arxiv.org/abs/2603.06873

  • OPTED:ゼロショットSAM 3セグメンテーションを用いた前処理済みトラコーマ眼データセット [cs.CV]目的:トラコーマの自動分類を促進するための,前処理済み眼データセットの公開
    • トラコーマは世界的な失明原因であり,特にサハラ以南アフリカでの負担が大きい。
    • トラコーマ分類のための公開された前処理済みデータセットは不足しており,特に影響の大きい地域からのものは存在しない。
    • 眼瞼写真に含まれるノイズを低減し,機械学習パイプラインでの利用を容易にすること。
    • Segment Anything Model 3 (SAM 3) を用いたゼロショットセグメンテーションによる眼瞼結膜領域の抽出パイプラインを開発した。
    • 最適なプロンプトとして「まぶたの内側の赤い組織」を選択し,平均信頼度0.872,検出率99.5%を達成した。
    • アスペクト比を維持したクロップ画像と,224x224ピクセルの標準化画像をデータセットとして公開し,トラコーマ分類研究の再現性を高める。

    Link: https://arxiv.org/abs/2603.06885

  • デザイン手順からの学習によるデータ拡張のためのCADプログラム生成 [cs.LG, cs.CV]目的:データ拡張のためのCADプログラム生成手法
    • 精密な設計・製造を支えるCAD技術は,産業界において不可欠である。
    • 既存のCADプログラム生成AIは,現実の複雑な形状を再現できていない。
    • デザイン手順に着目し,多様な形状を生成することでこの課題を解決する。
    • 提案手法は,参照サーフェスとモデリング手順に基づいてCADプログラムを生成する。
    • 生成されたCADサンプルは,幾何学的な多様性が大幅に向上し,産業界の設計に近い形状となった。
    • 特に,スプライン曲面によるエッジや面が豊富になり,既存のデータセットの不足を補った。

    Link: https://arxiv.org/abs/2603.06894

  • PaQ-DETR:パターンと品質を考慮した動的クエリ学習による物体検出 [cs.CV]目的:物体検出におけるパターンと品質を考慮した動的クエリの学習
    • 物体検出は,画像認識における基礎技術であり,自動運転やロボティクス等,幅広い応用分野が存在する。
    • DETRは学習可能な固定クエリに依存し,クエリ利用の偏りが課題であり,モデルの潜在能力を十分に引き出せていない。
    • 動的なパターン学習と品質に基づいたサンプリングにより,クエリの適応性と最適化のバランスを改善し,検出性能を向上させる。
    • PaQ-DETRは,共有潜在パターンを学習し,コンテンツに依存した重み付けによって画像固有のクエリを動的に生成することで,クエリの適応性を向上させる。
    • 品質を考慮したワンツーマンアサインメント戦略により,局所化と分類の一貫性を評価し,ポジティブサンプルを適応的に選択することで,学習を促進する。
    • COCOやCityScapes等のベンチマークにおいて,ResNetやSwin-Transformerを含む様々なDETRバックボーンで1.5%-4.2%のmAP向上を達成した。

    Link: https://arxiv.org/abs/2603.06917

  • DLRMamba:エッジマルチスペクトル融合物体検出のための低ランクMamba蒸留 [cs.RO, cs.RO, cs.CV]目的:エッジ環境におけるマルチスペクトル融合物体検出のための効率性と精度向上
    • 沿岸警備やリモートセンシングにおいて,高解像度入力に対する効率的な物体検出が不可欠である。
    • 既存のSSMモデルはパラメータ数が多く,リソース制約のある環境での展開が困難である。
    • モデルの圧縮による構造情報の損失を防ぎ,効率性と精度を両立させることを目指す。
    • 提案手法は,行列分解による低ランクSS2Dモデルと構造認識蒸留により,計算量とメモリ使用量を大幅に削減する。
    • ベンチマークデータセットおよびRaspberry Pi 5などのエッジプラットフォームでの実験により,既存の軽量アーキテクチャを凌駕する性能が示された。
    • 効率性と精度のトレードオフを改善し,実用的な展開シナリオにおいて優れた結果を達成する。

    Link: https://arxiv.org/abs/2603.06920

  • 可視光と赤外リモートセンシング画像におけるマスク強化注意融合に基づく小型ターゲット検出 [cs.CL, cs.RO, cs.CV]目的:可視光と赤外リモートセンシング画像における小型ターゲットの検出精度向上
    • リモートセンシング画像は広範囲の情報を取得可能であり,防災,環境監視など多岐にわたる分野で活用が期待されている。
    • リモートセンシング画像内のターゲットは小型でテクスチャが弱く,背景の影響を受けやすいため,高精度な検出が困難である。
    • 本研究は,可視光と赤外画像を効果的に融合し,小型ターゲットの表現力を高めることで,検出精度を向上させることを目指す。
    • 提案手法ESM-YOLO+は,MEAFモジュールにより可視光と赤外の特徴量をピクセルレベルで融合し,空間的注意機構によって特徴量のずれを軽減する。
    • 訓練時に構造表現(SR)を強化することで,微細な空間構造を保持し,特徴量の識別能力を高める。
    • VEDAIデータセットで84.71%,DroneVehicleデータセットで74.0%のmAPを達成し,パラメータ数とGFLOPsを大幅に削減した。

    Link: https://arxiv.org/abs/2603.06925

  • HIERAMP:生成データセット蒸留のための粗々から微細への自己回帰的増幅 [cs.CV]目的:データセット蒸留における効率的な蒸留データの生成
    • 大規模データセットの利用はコストがかかるため,小規模な代替データセットの作成が重要である。
    • 既存手法は全体的な意味的近接性に偏り,オブジェクトの階層的な意味構造を捉えきれない。
    • オブジェクトの階層的意味構造を考慮した蒸留データの生成により,認識性能の向上を目指す。
    • 提案手法HIERAMPは,VARモデルの粗々から微細への生成プロセスを活用し,異なるレベルでの意味的増幅を行う。
    • 各VARスケールでクラス識別トークンを注入し,注目領域を特定することで,識別的な部分と構造への合成を誘導する。
    • 複数のデータセット蒸留ベンチマークにおいて,HIERAMPはグローバルな近接性を明示的に最適化することなく,検証性能を向上させる。

    Link: https://arxiv.org/abs/2603.06932

  • 前立腺癌における神経血管浸潤に関連する3Dヒストモルフォメトリック特徴の抽出と解析 [eess.SY, cs.SY, cs.CV]目的:前立腺癌の神経血管浸潤に関連する3Dヒストモルフォメトリック特徴
    • 前立腺癌の診断・治療において,病理組織学的検査は重要な役割を担う。
    • 2D病理組織学的検査では,標本の限られたサンプリングや断面観察の曖昧さにより,最適な治療判断が困難な場合がある。
    • 3Dヒストモルフォメトリック解析によって,より正確なリスク評価と予後予測を目指す。
    • 3Dセグメンテーションモデルを用いて,神経と血管を高精度に識別するパイプラインを開発した。
    • 3D神経血管浸潤に関連する特徴量を抽出し,5年間の生化学的再発予測モデルを作成した。
    • 3D神経血管浸潤特徴量は,2D特徴量と比較して良好な予測性能を示した(AUC=0.71 vs. 0.52)。

    Link: https://arxiv.org/abs/2603.06936

  • 術中CT(viCT):内視鏡的鼻腔手術における組織切除のモデル化のための逐次解剖学的更新 [cs.RO, cs.SY, eess.SY, cs.RO, cs.SY, eess.SY, cs.CV]目的:内視鏡的鼻腔手術における組織切除のモデル化
    • 慢性副鼻腔炎治療において,手術の精度向上は重要な課題である。
    • 従来の術中ナビゲーションシステムは静的な術前CTに依存しており,変化する解剖学的状況に対応できない。
    • viCTは,内視鏡映像からリアルタイムに解剖学的情報を更新し,手術精度向上を目指す。
    • viCTは,手術段階を通して解剖学的正確性を示し,亜ミリメートル以下の平均表面誤差を達成した。
    • Dice係数(DSC)は0.88±0.05,Jaccard指数は0.79±0.07であり,高い一致性を示した。
    • HD95(0.69±0.28mm)やChamfer距離(0.09±0.05mm)等の表面距離指標も良好な結果を示した。

    Link: https://arxiv.org/abs/2603.06956

  • SurgCUT3R:手術シーンを意識した時系列3D表現の継続的理解 [cs.CV]目的:手術用内視鏡映像からの手術シーン再構成
    • ロボット支援手術の発展には手術シーンの正確な3次元把握が不可欠である。
    • 学習データ不足と長時間の映像シーケンスにおける性能劣化が課題となっていた。
    • 公開されている手術用ステレオデータを利用し,大規模な擬似教師データを作成する。
    • SurgCUT3Rは,既存の3D再構成モデルを手術領域に適応させる体系的なフレームワークである。
    • SCAREDおよびStereoMISデータセットにおいて,精度と効率性のバランスに優れた結果を示した。
    • 姿勢推定において,最先端技術に匹敵しつつも,大幅に高速な処理を実現した。

    Link: https://arxiv.org/abs/2603.06971

  • 条件付きアンバランス最適輸送写像:条件付き生成モデリングのための外れ値に頑健なフレームワーク [cs.LG, cs.CV]目的:条件付き生成モデリングにおける外れ値に対する頑健性
    • 分布間の効率的なマッピングは,生成モデルの性能向上に不可欠である。
    • 従来のCOTは外れ値に敏感であり,限られたデータからの条件付き分布推定で問題が生じる。
    • 外れ値の影響を軽減し,条件付き分布の一致性と生成効率を両立すること。
    • 提案手法CUOTMは,既存のCOTベース手法と比較して,外れ値に対する頑健性が向上することが示された。
    • CUOTMは,分布の一致性能を維持しつつ,高いサンプリング効率を実現する。
    • 理論的な解析により,最適な三角写像がc-変換の関係を満たすことが証明された。

    Link: https://arxiv.org/abs/2603.06972

  • T2SGrid:ビデオの時間的グラウンディングのための時空間グリッド化 [cs.CV]目的:ビデオの時間的グラウンディングにおける性能向上
    • ビデオの時間的グラウンディングは,自然言語によるクエリに対応するビデオセグメントを特定する上で重要である。
    • 既存手法は計算コストや絶対的な時間情報の把握,空間情報の損失といった課題を抱えている。
    • 時間情報を空間情報として捉え直し,効率的かつ高精度な時間的グラウンディングを実現することを目指す。
    • T2SGridは,ビデオをクリップ単位で処理し,フレームを時系列順にグリッド状に配置する時空間グリッド化を提案する。
    • これにより,時間情報と局所的な注意機構を強化し,効率的な時間的理解を可能にする。
    • 標準的なVTGベンチマークにおいて,T2SGridは優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.06973

  • NePPO:汎用和ゲーム多エージェント強化学習のためのニア・ポテンシャル方策最適化 [cs.LG, cs.AI, cs.GT]目的:一般和ゲームにおける近似ナッシュ均衡の計算
    • 多エージェント強化学習は,協調的環境下での学習エージェント設計に不可欠であり,複雑な問題解決への応用が期待されている。
    • 一般和ゲームでは学習の不安定性や収束性の保証が難しく,特にエージェントの嗜好が異なるときは,学習指針となるシステムレベルの目的が不明確である。
    • 本研究では,混合協調・競争環境下での近似ナッシュ均衡を効率的に計算する新しい手法を提案し,学習の安定化と性能向上を目指す。
    • 提案手法NePPOは,プレイヤー独立なポテンシャル関数を学習し,そのポテンシャル関数を用いた協調ゲームのナッシュ均衡が,元のゲームの近似ナッシュ均衡となるように最適化する。
    • NePPOは,ゼロ次微分法を用いて目的関数を最小化するアルゴリズムパイプラインを開発し,近似ナッシュ均衡方策を算出する。
    • 実験結果から,NePPOはMAPPO,IPPO,MADDPGなどの既存手法と比較して,優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.06977

  • 画像ベースの形状検索におけるマルチモーダルモデルの最適化:事前アライメントとハードコントラスティブ学習の役割 [cs.CV, cs.IR]目的:画像に基づく形状検索における性能向上
    • コンピュータビジョン,グラフィックス,ロボティクス分野において,3Dモデルの検索は古典的な課題であり,重要性が高い。
    • 2D画像と3D形状のドメインギャップを埋めることが課題であり,タスク固有の学習が必要となる場合が多い。
    • 大規模なマルチモーダル事前学習により,ドメインギャップを克服し,ゼロショットでの形状検索を実現すること。
    • ULIPやOpenShapeに触発された事前アライメント画像・点群エンコーダを用いることで,ゼロショットおよび標準的な画像ベースの形状検索が可能となった。
    • 提案手法は,既存手法と比較して,$Acc_{Top1}$および$Acc_{Top10}$において最先端の性能を示し,複数のデータセットで優れた結果が得られた。
    • 提案するマルチモーダルハードコントラスティブ損失(HCL)は,形状を中心としたデータに対する標準的なインスタンス検索タスクにおいて,データセット依存的な性能向上をもたらすことが確認された。

    Link: https://arxiv.org/abs/2603.06982

  • 単眼画像からの知覚を意識したマルチモーダル空間推論 [cs.CV]目的:単眼画像からの空間推論における,知覚を意識したマルチモーダル推論フレームワーク
    • 自動運転には不可欠であり,安全性向上に寄与する。
    • 大規模なスケール変化や曖昧な物体外観下での精度が課題である。
    • 視覚的証拠とテキスト推論を統合し,より堅牢な空間理解を目指す。
    • 提案手法は,既存のアプローチを大幅に上回る性能をSURDSベンチマークで達成した。
    • 特に,単一物体および複数物体タスクの両方において顕著な改善が見られた。
    • 正確な知覚とマルチモーダル推論が互いに強化しあい,堅牢な空間理解を実現することを示した。

    Link: https://arxiv.org/abs/2603.06985

  • ADAS-TO:大規模マルチモーダル自然環境データセットとADAS関与中の人間による介入の実証的特徴付け [cs.HC, cs.CV]目的:ADAS関与中の人間による介入に関する大規模な自然環境データセット
    • 先進運転支援システム(ADAS)の安全性向上は重要であり,人間の介入は重要な要素である。
    • ADASの介入に関する実際のデータが不足しており,安全性評価が困難である。
    • ADASから手動運転への移行データを用いて,介入のメカニズムを解明し,安全性を高める。
    • 本研究で公開されたADAS-TOデータセットは,ADASから手動運転への移行に関する大規模なデータセットである。
    • 安全性に影響を及ぼす可能性のある事例において,介入前に視覚的な兆候が確認された。
    • 視覚情報に基づいた早期警告システム開発の可能性を示唆する。

    Link: https://arxiv.org/abs/2603.06986

  • MipSLAM:エイリアスフリーなガウススプラッティングSLAM [cs.CV]目的:高忠実度なアンチエイリアシングによる新規視点合成と,多様なカメラ設定下でのロバストな姿勢推定
    • SLAMは,ロボットの自律移動や拡張現実など,様々な分野で重要な役割を担う技術である。
    • 既存の3DガウススプラッティングSLAMは,フィルタリング不足や空間最適化のみによる軌道ドリフトの問題を抱えている。
    • MipSLAMは,エイリアス現象や軌道ドリフトを抑制し,高精度なSLAMを実現することを目的とする。
    • MipSLAMは,幾何学に基づいた数値積分による楕円形適応型アンチエイリアシング(EAA)アルゴリズムを提案し,計算コストを抑えつつ高品質なレンダリングを実現した。
    • 周波数領域での姿勢グラフ最適化(SA-PGO)モジュールにより,高周波ノイズを抑制し,軌道ドリフトを効果的に低減することに成功した。
    • ReplicaとTUMデータセットにおける評価で,MipSLAMは最先端のレンダリング品質と局所化精度を複数の解像度で維持しつつ,リアルタイム性能を達成した。

    Link: https://arxiv.org/abs/2603.06989

  • マルチモーダルLLMによる解釈可能なオーディオ属性の適応的発見:低リソース分類への応用 [cs.SD, cs.LG]目的:低リソース環境におけるオーディオ分類のための解釈可能なオーディオ属性の発見
    • オーディオ分析は,様々な応用分野で重要であり,特に高信頼性アプリケーションにおいては必須である。
    • 人間による属性発見は有効だが,処理速度が遅く,ボトルネックとなりやすい。
    • マルチモーダルLLMを用いて,人間による属性発見を高速化し,実用的な解を得る。
    • 本研究では,AdaFlockフレームワークにおいて人間をマルチモーダルLLMに置き換えることで,属性発見を大幅に高速化することに成功した。
    • 提示された手法は,様々なオーディオタスクにおいて,直接的なLLM予測よりも優れた性能を示した。
    • 全トレーニングは11分以内に完了し,従来の人間依存型アプローチを上回る,実用的で適応的なソリューションであることが示された。

    Link: https://arxiv.org/abs/2603.06991

  • AdaGen:画像合成のための適応的ポリシー学習 [cs.CV]目的:画像合成における反復生成プロセスのスケジューリングに関する学習
    • 画像合成技術は近年目覚ましい進歩を遂げており,様々な応用が期待されている。
    • 既存の手法は手動で設計されたルールに依存し,サンプル固有の特性への適応が困難である。
    • サンプルごとに最適なパラメータを自動的に調整するフレームワークを構築し,合成品質を向上させる。
    • AdaGenは,画像合成の反復生成プロセスを制御する適応的なポリシー学習フレームワークである。
    • 強化学習を用いてポリシーネットワークを訓練し,報酬関数の設計に工夫を凝らした。
    • DiT-XLやVARといった様々な生成モデルで,性能向上と計算コスト削減を両立した。

    Link: https://arxiv.org/abs/2603.06993

  • TrajPred:軌道条件付きジョイント埋め込み予測による,視覚言語モデルにおける手術器具・組織相互作用認識 [cs.CV]目的:手術器具と組織の相互作用認識
    • ロボット支援手術において,状況を理解したAIアシスタントの構築は不可欠である。
    • 既存の視覚言語モデルは汎化性能に優れるものの,手術器具・組織相互作用認識の精度が十分ではない。
    • 本研究は,時間情報と視覚・言語間の詳細な対応関係の改善を通して,この課題を解決することを目指す。
    • 提案手法TrajPredは,手術器具の軌跡情報をエンコードし,時間的な動きの情報を組み込む。
    • 軌跡に条件付けられた予測モジュールにより,詳細な動作情報を捉えた視覚的意味埋め込みを生成する。
    • CholecT50データセットにおける実験により,平均精度とTop-K精度が向上することが示された。

    Link: https://arxiv.org/abs/2603.06999

  • OV-DEIM:GridSyntheticオーグメンテーションを用いたリアルタイムDETRスタイルオープンボキャブラリ物体検出 [cs.CV]目的:リアルタイムオープンボキャブラリ物体検出の性能向上
    • 多様な環境での実用化のため,未知のカテゴリをリアルタイムに認識する技術が不可欠である。
    • リアルタイムDETRベース手法は,YOLOと比較して推論速度やモデル軽量化が課題であった。
    • DEIMv2を基盤とし,GridSyntheticによるデータオーグメンテーションで稀少カテゴリの識別精度向上を目指す。
    • OV-DEIMは,オープンボキャブラリ物体検出ベンチマークにおいて最先端の性能を達成した。
    • 推論効率が向上し,特に難しい稀少カテゴリにおいて顕著な改善が見られた。
    • GridSyntheticは,物体共起パターンを学習し,ノイズの影響を軽減することで識別能力を高める。

    Link: https://arxiv.org/abs/2603.07022

  • 二つのフレームが重要:テキストから動画モデルの脱獄のための時間的攻撃 [cs.CR, cs.CV]目的:テキストから動画モデルにおける脱獄攻撃の有効性向上
    • 生成AIの発展により,テキストから動画を生成する技術が実用化され,悪用リスクが懸念されている。
    • 既存の攻撃手法はプロンプトの言い換えに依存し,潜在的な脆弱性を見落としている。
    • 時間的な曖昧性を利用し,モデルが有害な中間フレームを生成する脆弱性を突く。
    • 提案手法TFMは,時間的に疎なプロンプトを用いることで,既存手法より高い脱獄成功率を達成した。
    • 特に商用モデルにおいて,攻撃成功率が最大12%向上することを確認した。
    • モデルによる補完過程に着目した,時間的認識を組み込んだ安全対策の必要性が示唆された。

    Link: https://arxiv.org/abs/2603.07028

  • 微表情のための詳細な3D顔面再構成 [cs.RO, cs.DC, cs.CV]目的:微表情の3D顔面再構成手法
    • 感情認識において,顔表情は重要な情報源である。特に微表情は隠れた感情を表すため,その解析が重要視される。
    • 微表情は,動きが僅かで一過性であるため,安定した特徴量の抽出が困難であり,正確な再構成が課題である。
    • 本研究は,微表情の再構成精度向上を目指し,グローバルな動的特徴とローカルな特徴を統合する手法を提案する。
    • 提案手法では,豊富なマクロ表情データを利用し,微表情データの不足を補う動的エンコードモジュールを導入した。
    • また,疎なランドマークや顔面形状情報を用いて,微表情の詳細な顔面変形を適応的に行うモジュールを設計した。
    • 実験結果から,提案手法は既存手法と比較して,幾何学的精度と知覚的な詳細度において優れていることが示された。

    Link: https://arxiv.org/abs/2603.07043

  • 往復の視点:クロスイメージ注意機構の較正と注意に基づいた優先学習によるマルチイメージ幻覚の軽減 [cs.HC, cs.CV, cs.AI]目的:マルチイメージタスクにおける大規模視覚言語モデルの幻覚軽減
    • 近年,視覚と言語を統合するモデルが発展したが,マルチイメージ処理における誤り(幻覚)が課題となっている。
    • 既存の注意機構では,複数画像間の関係性を十分に捉えきれず,幻覚の原因となっている。
    • クロスイメージ注意機構の較正と優先学習により,画像間の関連性を強化し,幻覚を抑制することを目指す。
    • 提案手法CAPLは,複数モデルアーキテクチャにおいて,一貫して性能向上を示し,マルチイメージ幻覚と一般的なベンチマークの両方で安定した改善を実現した。
    • CAPLは,画像間の細かな関連付けを可能にする選択可能な画像トークン相互作用注意機構を導入することで,モデルの認識能力を高めた。
    • また,画像間の相互作用の有無を比較する優先最適化戦略により,テキスト情報に偏らず,視覚的証拠に基づいた推論を促し,幻覚を軽減した。

    Link: https://arxiv.org/abs/2603.07048

  • 拡散Transformerの感度指向動的加速:SODA [cs.CV]目的:拡散Transformerの推論効率改善
    • 画像生成において,拡散Transformerが主流であり,さらなる発展には効率化が不可欠である。
    • 既存の高速化手法は,速度と品質のトレードオフが存在し,細やかな調整が困難である。
    • 感度に基づいた動的なキャッシュ・プルーニングで,画質劣化を抑制しつつ高速化を実現する。
    • SODAは,時間ステップ,レイヤー,モジュールごとの感度誤差モデルを構築し,キャッシュ間隔を最適化する。
    • プルーニングとキャッシュ再利用時,感度の高いトークンを保持し,生成品質を向上させる。
    • DiT-XL/2,PixArt-α,OpenSoraでの実験により,SODAが最先端の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2603.07057

  • MedSteer:トレーニングフリーな活性化ベクトル操縦による反実仮想内視鏡画像合成 [cs.CV, cs.AI]目的:内視鏡画像における反実仮想的なデータペア生成手法
    • 医療画像におけるデータ拡張は,診断や治療の精度向上に不可欠である。特に,十分な学習データが得られない場合に重要となる。
    • 拡散モデルを用いたテキストプロンプトによるデータ生成は,目的とする病変を正確に再現できない場合がある。再プロンプトは画像全体を変化させてしまう。
    • 拡散モデルの活性化ベクトルを操作することで,構造を維持しつつ特定の病変のみを反実仮想的に変化させる手法を開発する。
    • MedSteerは,Kvasir v3およびHyperKvasirデータセットを用いた実験で,既存の画像編集手法と比較して高い概念反転率と構造維持率を示した。
    • 3つの臨床概念ペアにおける反実仮想的な生成において,0.800,0.925,0.950という高い反転率を達成した。
    • ポリプ検出のダウンストリームタスクにおいて,MedSteerで拡張したデータは,再プロンプトを用いた場合と比較して,ViT AUCを0.9755から0.9083へと向上させた。

    Link: https://arxiv.org/abs/2603.07066

  • VirtueBench:長編動画理解における不確実性下での信頼性評価 [cs.CV]目的:長編動画理解におけるモデルの信頼性評価
    • 動画と言語を組み合わせた理解は,AIの応用範囲を広げる重要な課題である。
    • 既存の評価方法では,不確実な状況下でのモデルの挙動が正しく評価されない。
    • モデルが正直に回答を拒否する能力を評価し,信頼性の高いモデル開発を促進する。
    • VirtueBenchは,動画のフレームサンプリングレベルを変化させ,回答可能性を評価することで,モデルの信頼性を測る。
    • 評価の結果,モデルによって回答拒否の精度に大きな差があり,最高のモデルでも70%以上の拒否精度を示す一方で,最悪のモデルではほぼ0%だった。
    • 明示的に回答拒否を求められない場合,ほとんどのモデルの拒否率は大幅に低下する。

    Link: https://arxiv.org/abs/2603.07071

  • 物理モデルに基づくVLM事前知識を用いた全天候クラウド除去 [cs.CV]目的:光学リモートセンシングにおけるクラウド除去
    • 光学リモートセンシングの精度向上には,大気の影響,特にクラウドの影響を正確に除去することが不可欠である。
    • 従来のクラウド除去手法では,薄雲と厚雲を区別する必要があり,境界付近で誤差が累積しやすいという課題があった。
    • VLMの持つ意味理解能力と物理モデルを統合し,クラウドの種類を明示的に識別することなく,高精度なクラウド除去を実現すること。
    • 提案手法PhyVLM-CRは,VLMから得られる情報を物理的な散乱パラメータと幻覚信頼度マップに変換し,クラウド除去に活用する。
    • 信頼度マップをソフトゲートとして利用することで,高透過度領域では物理的復元を優先し,低信頼度領域では時間的参照再構成にシームレスに移行する。
    • Sentinel-2のデータを用いた実験により,提案手法が既存手法と比較して,クラウド除去とコンテンツ保持のバランスに優れ,幻覚のない高品質な結果が得られることが確認された。

    Link: https://arxiv.org/abs/2603.07074

  • Retinexと言語:物理・意味論を導いた水中画像強調ネットワーク [cs.CV]目的:水中画像強調のためのネットワーク構築
    • 水中画像は,水中の光吸収・散乱により劣化しやすく,実用上の課題が多い。
    • 既存手法は,物理的仮定の限界や,学習データ不足による汎化性能の低さが課題である。
    • Retinex理論と言語情報を活用し,汎化性能の高い水中画像強調を実現する。
    • 提案手法は,Retinexに基づいた照明補正と,言語情報によるガイダンスを組み合わせたネットワークである。
    • CLIPモデルで生成されたテキスト記述を活用し,高レベルな意味情報を注入することで,より自然な画像復元を可能にする。
    • 大規模な水中画像-テキストデータセットLUIQD-TDを構築し,画像とテキストの意味的一貫性を最適化する損失関数を導入した。

    Link: https://arxiv.org/abs/2603.07076

  • 脳と視覚の整合:脳波と視覚表現の構造的対応 [cs.CV]目的:脳波と視覚表現の構造的対応による視覚復号の性能向上
    • 脳波を用いた非侵襲的なブレイン・コンピュータ・インターフェースは,医療や福祉分野での応用が期待されている。
    • 既存手法は抽象度の高い視覚表現を用いるため,脳波との間の情報不一致が問題となっている。
    • 脳波と視覚表現の間の不一致を最小化し,人間の視覚処理の段階的な特徴を考慮した復号を目指す。
    • 提案手法では,ニューラル可視性の概念に基づき,脳波と中間層の視覚表現を整合させることで,情報不一致を軽減した。
    • 階層的補完的融合(HCF)フレームワークにより,異なる階層レベルの視覚表現を統合し,人間の視覚処理の多段階性を考慮した。
    • THINGS-EEGデータセットにおいて,ゼロショット視覚復号で84.6%の精度を達成し,既存手法を大きく上回った。

    Link: https://arxiv.org/abs/2603.07077

  • mAVE:共同オーディオ・ビジュアル生成モデルのためのウォーターマーク [cs.HC, cs.IR, cs.CR, cs.AI, cs.CV]目的:共同オーディオ・ビジュアル生成モデルにおける著作権保護とコンテンツの真正性の確保
    • 商用展開が広がる中で,生成モデルの著作権保護とコンテンツの出所追跡は重要課題となっている
    • 既存技術はモダリティを分離して扱うため,オーディオとビデオの結合に関する脆弱性が存在する
    • オーディオとビデオを暗号的に結合し,Swap Attackに対する堅牢な防御を実現することを目指す
    • mAVEは,共同アーキテクチャ向けに設計された初のウォーターマークフレームワークである
    • mAVEは初期化時にオーディオとビデオの潜在変数を暗号的に結合し,性能劣化を伴わない
    • 実験により,Swap Attackに対する指数関数的な安全性を保証し,高い結合完全性(>99%)を達成した

    Link: https://arxiv.org/abs/2603.07090

  • 人間間の自然な対話に向けた好みに沿った表情生成 [cs.CV]目的:人間間の好みに沿った表情生成
    • 自然な対話システム構築には,相手の感情や状況に合わせた表情が不可欠である。
    • 表情生成において,人間が自然だと感じる基準をどのように組み込むかが課題である。
    • 人間のフィードバックを活用し,対話にふさわしい表情を生成することを目指す。
    • 人間のフィードバックをアクションラーニングとして活用することで,視覚的・個人識別バイアスからの影響を排除した。
    • 話者のマルチモーダル信号を表情表現に変換するモデルを教師あり学習で構築し,表情生成の精度を高めた。
    • 人間からのフィードバックを用いた強化学習により,質の高い表情応答を模倣し,最適化を促した。

    Link: https://arxiv.org/abs/2603.07093

  • ランダム化は単独で,チームとして到達 [cs.GT, cs.FL, cs.MA]目的:同時実行グラフゲームにおけるチームの目標到達戦略
    • 分散システムにおける協調的な意思決定の理論的基盤を確立する必要がある
    • 各エージェントが独立した乱数を用いる場合のチーム戦略の設計が困難
    • 共有乱数源がない状況下でのチームの目標到達確率の閾値問題解決
    • メモリレス戦略で閾値問題が解けることが示され,Existential Theory of the Realsに帰着。
    • 閾値問題はNP困難,ほぼ確実な到達問題はNP完全であることが証明された。
    • 個別に乱数化された時間論理IRATLを導入し,アルゴリズムに基づいたソルバーを実装・評価した。

    Link: https://arxiv.org/abs/2603.07094

  • NuNext: 核検出を次点検出として再構築 [cs.RO, cs.SY, eess.SY, cs.RO, cs.CV]目的:組織病理における核検出手法
    • 臨床応用の幅広さから,正確な核検出が不可欠である。
    • 既存手法は,複雑な後処理や前景・背景の不均衡が課題である。
    • 前景核の中心座標を直接予測する手法を開発し,検出精度向上を目指す。
    • 本研究では,核検出を次点予測として再構築する新しい手法を提案した。
    • 空間認識型のソフトな教師あり学習と,視覚的知識を活用する連鎖思考戦略を導入した。
    • 分布一致報酬やグループフィルタリング等の工夫により,検出精度をさらに向上させた。

    Link: https://arxiv.org/abs/2603.07098

  • セマンティック分割対照学習による効率的な胸部X線画像表現学習 [cs.CV]目的:胸部X線画像表現学習のための効率的な事前学習フレームワーク
    • 医療画像解析において,アノテーション不足は深刻な課題であり,自己教師あり学習が有効な解決策となる。
    • 既存の自己教師あり学習手法は,計算コストが高いか,臨床的に重要な構造を損なうリスクがある。
    • セマンティック分割対照学習により,効率的かつ高精度な胸部X線画像表現学習を実現する。
    • 提案手法S-PCLは,胸部X線画像をセマンティックな部分集合に分割し,部分的な情報から全体を推論させることで表現学習を行う。
    • S-PCLは,手動によるデータ拡張や複雑なアーキテクチャを必要とせず,計算効率と精度を両立している。
    • 大規模な胸部X線画像ベンチマークにおいて,S-PCLは既存の自己教師あり学習手法と同等以上の性能を達成した。

    Link: https://arxiv.org/abs/2603.07113

  • 生成画像におけるテキスト品質評価:人間との整合性を重視して [cs.CV]目的:生成画像内テキスト領域の品質スコア予測
    • 画像生成技術の発展に伴い,生成されるテキストの品質評価が重要になっている。
    • 既存の評価手法は,OCRの正確性やVLMに依存しており,人間の視覚的な判断と乖離している。
    • 人間が感じるテキスト品質と一致する評価指標を確立し,生成画像の品質向上を目指す。
    • 新たなタスクTIQAを提案し,高品質なデータセットTIQA-CropsとTIQA-Imagesを公開した。
    • 軽量な手法ANTIQAが,既存手法よりも人間の評価との相関が高いことを示した。
    • ANTIQAを用いた生成画像の選別により,テキスト品質が平均+14%向上し,実用性も確認された。

    Link: https://arxiv.org/abs/2603.07119

  • 複数画像間のピクセルシャッフルによる多焦点画像融合 [cs.CV]目的:多焦点画像融合のための手法
    • 画像処理分野において,より鮮明で情報量の多い画像を生成する技術は重要である。
    • 深層学習は有効だが,多焦点画像の学習データが不足しているという課題がある。
    • 学習データなしで,深層学習による多焦点画像融合を可能にすることを試みる。
    • 提案手法IPSは,ピクセル単位の分類問題として多焦点画像融合を捉える。
    • 鮮明な画像と低周波フィルタ処理画像を活用し,ピクセルシャッフルによって学習データを生成する。
    • IPSは既存手法を上回り,多焦点画像そのものでの学習なしでも高い融合品質を達成した。

    Link: https://arxiv.org/abs/2603.07120

  • マルチモーダル産業故障分析に向けた試み:オーディオと振動信号を含む単速チェーンコンベアデータセット [cs.SD, eess.AS]目的:産業設備の故障検出を目的としたマルチモーダルデータセット
    • 製造業における設備の安定稼働は,生産性維持に不可欠である。
    • 従来の故障診断は,単一のセンサ情報に依存し,ロバスト性に課題があった。
    • 様々な条件下での故障を的確に検知する,実用的なベンチマークデータセットの提供。
    • 単速チェーンコンベアの動作時における,オーディオと振動のマルチモーダルデータセットを構築した。
    • 正常状態と4種類の故障状態,複数の速度・負荷条件下,工場騒音環境下でのデータを収録した。
    • チャンネルごとの分析やマルチモーダル融合研究を支援する評価プロトコルとkNNベースラインを提供した。

    Link: https://arxiv.org/abs/2603.07130

  • 網膜VLMにおけるドメイン特化知識のアンカーリングのための深層専門家注入 [cs.CV, cs.AI]目的:網膜VLMへのドメイン特化知識のアンカーリング
    • 眼科診断の自動化は,医療現場における負担軽減や診断精度向上に貢献する重要な研究分野である。
    • 既存のLVLMは汎用的な知識に偏り,眼科領域特有の微細な病理学的特徴の認識が不十分であるという課題がある。
    • 本研究は,LVLMの認識能力と推論能力のギャップを埋め,信頼性の高い眼科AI開発を目指す。
    • 提案手法EyExInは,専門家知識を効率的に活用し,網膜VLMの性能を向上させることを示した。
    • 専門家向けデュアルストリームエンコーディングとセマンティック適応型ゲート融合モジュールにより,病変信号の強調とノイズ除去を実現した。
    • 深層専門家注入メカニズムによる「Vision Anchors」の埋め込みは,視覚的根拠に基づいた厳密な推論を可能にした。

    Link: https://arxiv.org/abs/2603.07131

  • モデルはどのトークンが重要かを知っている:ノイズゲーティングによる自動トークン選択 [cs.HC, cs.CV]目的:視覚的トークンの重要度に基づいた自動トークン選択手法
    • 大規模言語モデルと画像処理の融合が進み,視覚的情報を活用したタスクが重要になっている。
    • 視覚的トークンは計算コストが高いが,その多くは冗長な情報を含んでいる。
    • 限られた計算資源で,重要な視覚的情報を効率的に処理することを可能にする。
    • AutoSelectは,既存のVLMに軽量なScorerとDenoiserを追加するだけで,追加の学習データや変更を必要としない。
    • 10のVLMベンチマークにおいて,AutoSelectはモデルの精度を96.5%維持しながら,LLMのプレフィル速度を2.85倍に向上させた。
    • 推論時のオーバーヘッドはわずか0.69msで,異なるVLMバックボーンへの転移も容易である。

    Link: https://arxiv.org/abs/2603.07135

  • 医療異常検知のための多様な多様体事前知識蒸留 [cs.RO, cs.CV]目的:医療画像異常検知における性能向上
    • 医療画像は人命に関わるため,異常検知の精度向上が不可欠である。
    • 既存手法では,医療画像の微妙な異常を捉えきれない場合がある。
    • 多様体レベルでのモデリングにより,異常検知の精度向上を目指す。
    • 提案手法PDDは,複数の教師モデルの知識を共有の高次元多様体に統合し,2つの生徒モデルに蒸留する。
    • HeadCT,BrainMRI,ZhangLabデータセットで最先端手法を最大11.8%,5.1%,8.5%上回るAUROCを達成した。
    • Uni-Medicalデータセットでは,F1 maxスコアで3.4%の改善が見られ,新たな最高性能を確立した。

    Link: https://arxiv.org/abs/2603.07142

  • CanoVerse: 3Dオブジェクトのスケール可能な標準化と生成・姿勢のためのデータセット [cs.RO, cs.SY, eess.SY, cs.CV]目的:3Dオブジェクトの標準化と,それを用いた生成および姿勢推定のための大規模データセット
    • 3D学習において,物体が整合性のある参照フレームを持つことが重要である。しかし,実際には姿勢のずれが生じやすい。
    • 既存のデータセットでは姿勢の不整合が問題となっており,一貫性のある生成や方向性に関する意味の学習を妨げている。
    • 本研究では,大規模データセットと新しい標準化フレームワークにより,姿勢のずれを解消し,安定した3D生成を可能にすることを目指す。
    • 32万個のオブジェクトを含む大規模な3DデータセットCanoVerseを構築し,方向性に関する意味の学習を統計的に実現した。
    • CanoVerseを用いることで,3D生成の安定性が向上し,正確なクロスモーダル3D形状検索が可能になった。
    • さらに,分布外データに対しても,ゼロショットの点群方向推定が可能となった。

    Link: https://arxiv.org/abs/2603.07144

  • LiveWorld:生成ビデオワールドモデルにおける視界外のダイナミクスシミュレーション [cs.CV]目的:視界外のダイナミクス問題に対処し,持続的なワールド進化を可能にするフレームワーク
    • 生成ビデオワールドモデルはインタラクティブなシーン探索を可能にするが,現実世界の継続的な変化を捉えきれていない。
    • 従来のモデルでは,視界外のオブジェクトの状態が固定され,再訪時に矛盾が生じるという問題がある。
    • 視界外でもワールドが継続的に進化するよう,持続的なグローバル状態をモデル化し,一貫性のあるレンダリングを実現する。
    • LiveWorldは,静的な3D背景と動的なエンティティで構成される持続的なグローバル状態をモデル化することで,視界外のダイナミクスを維持する。
    • モニターベースのメカニズムにより,アクティブなエンティティの時間の経過を自律的にシミュレーションし,再訪時に状態を同期させる。
    • LiveBenchという専用ベンチマークを用いて評価を行い,持続的なイベント進化と長期的なシーンの一貫性が確認された。

    Link: https://arxiv.org/abs/2603.07145

  • オープンセット連合学習におけるプロンプトゲートクライアント適応視覚言語ゲーティング [cs.CV]目的:医療AIにおけるデータ効率的な学習パイプラインの構築
    • 医療AIの普及には,リソース制約のある機関での効率的な学習が不可欠である。
    • 連合学習では,分布外ノイズが誤って情報源と判断され,アノテーション予算を浪費する。
    • プロンプトゲートは,ノイズを除去し,アノテーション効率を向上させることを目指す。
    • プロンプトゲートは,ドメインに適応した軽量なプロンプトベクトルを使用し,ID/OOD境界を明確にする。
    • ダーマトロジーと乳房画像データセットにおいて,ID純度を95%以上,OOD再現率を98%維持することを示した。
    • 静的なVLMプロンプトがID純度を低下させるのに対し,プロンプトゲートは高い純度を維持する。

    Link: https://arxiv.org/abs/2603.07163