arXiv雑要約

画像・音声 - 2026/03/18 公開

  • 意図を考慮した視覚的手がかりによる医療画像質問応答 [cs.CV]目的:医療画像質問応答における,意図を考慮した視覚的手がかりの活用
    • 医療診断支援において,画像と自然言語を組み合わせた質問応答は重要性を増している。
    • 既存モデルは言語バイアスに依存し,視覚情報の活用が不十分な場合がある。
    • 視覚的情報を効果的に活用し,信頼性の高い医療画像質問応答を実現すること。
    • 提案手法InViCは,質問の意図に基づき,重要な視覚的特徴を抽出する。
    • 抽出された視覚的特徴をLLMに注入し,視覚情報に基づいた回答生成を促進する。
    • VQA-RAD等の評価データセットにおいて,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2603.16372

  • 画像再構成および生成のための意味的1次元トークナイザー [cs.CV]目的:画像再構成と生成における,意味的1次元トークナイザー
    • 潜在空間に基づく画像生成モデルが発展し,視覚的トークン化の重要性が高まっている。
    • 既存の視覚トークナイザーは,固定的な2次元グリッドに画像をマッピングし,ピクセルレベルの復元に重点を置いている。
    • 本研究は,高レベルな意味を持つコンパクトな1次元トークンへの圧縮により,この問題を解決する。
    • 提案手法SemTokは,画像再構成において最先端の性能を達成し,コンパクトなトークン表現で高い再現性を実現した。
    • 2次元から1次元へのトークン化スキーム,意味的アライメント制約,2段階生成学習戦略の相乗効果によってこれを実現している。
    • SemTokに基づき構築されたマスク自動回帰生成フレームワークは,画像生成タスクにおいて顕著な改善をもたらした。

    Link: https://arxiv.org/abs/2603.16373

  • CUTネットワークに基づくDMSPとVIIRS夜間光データのドメイン横断較正 [cs.CV]目的:DMSPとVIIRS夜間光データのドメイン横断較正手法
    • 都市化のモニタリングに夜間光データは不可欠であり,長期間の分析には重要な役割を果たす。
    • DMSPとVIIRSのセンサーの違いにより,長期間にわたるデータの一貫性が損なわれるという課題がある。
    • 異なるセンサー間のデータ融合問題を解決し,DMSPデータの欠点を較正することを目的とする。
    • 提案手法により生成されたVIIRSライクなデータは,実際のVIIRS観測データと高い一致性を示す(R^2値が0.87を超える)。
    • 本手法は,DMSPデータの欠点を効果的に較正し,長期間にわたる夜間光データの利用可能性を高める。
    • 社会経済指標との相関も確認され,都市化モニタリングへの応用が期待できる。

    Link: https://arxiv.org/abs/2603.16385

  • ダーマフラックス:修正フローを用いた合成皮膚病変生成による画像分類の精度向上 [cs.CV]目的:皮膚病変画像の合成
    • 皮膚科領域では,病変の正確な画像分類が診断や治療計画に不可欠である。
    • 臨床データの不足や偏りにより,深層学習モデルの汎化性能が制限されている。
    • 言語記述から臨床的に妥当な皮膚病変画像を生成し,データ拡張を行う。
    • ダーマフラックスは,自然言語による皮膚科的特徴の記述から,臨床的に意味のある皮膚病変画像を生成する。
    • この技術を用いたデータ拡張により,画像分類の精度が最大6%向上した。
    • ダーマフラックスで生成された画像のみで学習したモデルは,既存の皮膚科モデルを8%上回る精度を達成した。

    Link: https://arxiv.org/abs/2603.16392

  • 対称光源を用いたニアライトフォトメトリックステレオ [cs.CV]目的:ニアライトフォトメトリックステレオによる表面法線と深度の算出
    • 3次元形状復元において,光の情報を活用する技術は重要な役割を担っている。
    • 従来のニアライトフォトメトリックステレオは,初期値設定や光の較正が難しい場合がある。
    • 対称光源の配置を利用し,初期値設定や光の較正を不要とする手法を確立する。
    • 本手法は,対称な近接光源ペアを複数配置することで,閉形式解を導き出すことに成功した。
    • 光源が任意の点に関して対称に分布していれば,空間オフセットが未較正の場合でも適用可能である。
    • 実験結果から,本手法は最先端の較正済みニアライトフォトメトリックステレオと同等の精度を達成することが示された。

    Link: https://arxiv.org/abs/2603.16404

  • HGP-Mamba:Mambaに基づくマルチモーダル生存リスク予測における組織病理画像と生成されたタンパク質特徴の統合 [cs.CV]目的:Mambaに基づくマルチモーダルフレームワークHGP-Mambaによる生存リスク予測
    • がん治療において,患者の生存予測は治療方針の決定に不可欠であり,精度向上が求められている。
    • タンパク質マーカーと組織病理画像の組み合わせによる予測は潜在力があるものの,タンパク質発現プロファイリングのコストやデータ不足が課題である。
    • HGP-Mambaは,データ効率の良いタンパク質特徴の抽出と,モダリティ融合により,この課題を解決することを目指す。
    • HGP-Mambaは,pretrainedな基盤モデルを用いてWSIからタンパク質埋め込みを効率的に抽出し,分子情報を組み込む。
    • LiAMとGiEMにより,組織病理画像とタンパク質特徴間の複雑な相互依存性を捉え,高精度な生存リスク予測を実現する。
    • 4つの公開がんデータセットにおいて,既存手法と比較して最先端の性能と優れた計算効率を達成した。

    Link: https://arxiv.org/abs/2603.16421

  • SF-Mamba:Visionのための状態空間モデルの再考 [cs.CV, cs.AI]目的:Visionにおける効率的なエンコーダの実現
    • 画像認識分野では,計算量の課題が重要であり,より効率的なモデルが求められている。
    • 既存のVision Transformerは計算量が膨大であり,Mambaも双方向の相互作用に制約がある。
    • 本研究は,Mambaのスキャン操作を改良し,GPUの並列処理を促進することで効率化を目指す。
    • 提案手法SF-Mambaは,画像分類,物体検出,セグメンテーションで最先端の性能を達成した。
    • 補助的なパッチスワッピングにより,一方向のスキャンでも双方向の情報伝達を可能にした。
    • バッチフォールディングと状態のリセットにより,GPUの並列性を高め,処理速度を向上させた。

    Link: https://arxiv.org/abs/2603.16423

  • ハイパースペクトル画像分類のための3Dフーリエ変換に基づくグローバル特徴抽出 [cs.CV]目的:ハイパースペクトル画像分類における効率的かつロバストな空間-スペクトル表現学習
    • ハイパースペクトル画像は,地表対象物の詳細な物質情報を捉え,精密な分類を可能とするため重要である。
    • 既存手法は,計算コストやスペクトル情報の活用不足といった課題があり,分類精度向上の限界が見られる。
    • 本研究は,空間・スペクトル情報を効率的に処理し,高精度なハイパースペクトル画像分類を実現することを目指す。
    • HGFNetは,3D畳み込みと周波数領域フィルタを組み合わせることで,空間-スペクトル特徴を効果的に抽出する。
    • スペクトルフーリエ変換,空間フーリエ変換,空間-空間フーリエ変換を導入し,ハイパースペクトル画像の周波数モデリングを包括的に行う。
    • アダプティブ焦点損失(AFL)を組み込むことで,クラス間の不均衡を緩和し,少数クラスの識別精度を向上させる。

    Link: https://arxiv.org/abs/2603.16426

  • プランクトン認識のためのクロスモーダル学習 [cs.CV]目的:プランクトン認識のためのモデル構築
    • 海洋生態系の理解に不可欠なプランクトンの迅速かつ正確な識別が求められている。
    • 教師あり学習はラベル付けに手間がかかり,大量の未ラベルデータ活用が課題である。
    • 画像と測定データの相互活用により,ラベル付けコストを削減し認識精度向上を目指す。
    • 提案手法は,少量ラベル画像のみで高精度なプランクトン認識を実現した。
    • 画像情報と測定データの両方を活用する,本質的にマルチモーダルなモデルを構築した。
    • 画像のみの自己教師あり学習と比較して,認識精度が向上することを示した。

    Link: https://arxiv.org/abs/2603.16427

  • IRIS:単眼ビデオからの物理ダイナミクスシステムの逆問題と特定のための実世界ベンチマーク [cs.CV, cs.LG]目的:物理ダイナミクスシステムの逆問題と特定に関するベンチマークデータセット
    • 物理現象の理解とモデリングは,ロボティクスやシミュレーションなど幅広い分野で重要である。
    • 既存のベンチマークは合成データに依存しており,実世界の複雑な現象を捉えきれていない。
    • 実世界のデータを用いた評価を通じて,物理モデルの特定と推定の精度向上を目指す。
    • IRISは,4K解像度・60fpsで撮影された220本の高品質な実世界のビデオから構成される。
    • 単体および多体ダイナミクスを網羅し,真の値と不確かさの推定値が提供される。
    • 提案された評価プロトコルに基づき,複数のベースライン手法の性能を評価し,課題を明らかにした。

    Link: https://arxiv.org/abs/2603.16432

  • CD-FKD:物体検出におけるロバストな単一ドメイン汎化のためのクロスドメイン特徴知識蒸留 [cs.CV, cs.AI]目的:物体検出における単一ドメイン汎化能力の向上
    • 物体検出は,自動運転や監視など多様な応用において不可欠な技術である。
    • 既存手法はドメインシフトに弱く,未知の環境での性能低下が課題である。
    • ドメインシフトに対するロバスト性を高め,汎化性能を向上させることを目指す。
    • 提案手法CD-FKDは,教師ネットワークの特徴を生徒ネットワークに蒸留することで,ドメインシフトへの適応能力を高める。
    • 多様なデータを用いて生徒ネットワークを訓練し,物体中心の特徴抽出を可能にする。
    • 実験の結果,CD-FKDは最先端手法を凌駕し,物体検出のロバスト性を向上させる有効性が確認された。

    Link: https://arxiv.org/abs/2603.16439

  • Fast-HaMeR:知識蒸留による手メッシュ再構成の高速化 [cs.CV]目的:手メッシュ再構成の高速化と軽量化
    • VR/AR,ヒューマンコンピュータインタラクションなど実用化には高速な3D手再構成が不可欠である。
    • 既存手法はモデルが重大であり,ヘッドセットやスマートフォンなどリソースの限られたデバイスでの利用が困難である。
    • 軽量なネットワークと知識蒸留により,高精度を維持しつつ手メッシュ再構成を高速化,軽量化することを目指す。
    • 軽量なバックボーンを使用することで,推論速度を1.5倍に向上させ,モデルサイズを35%削減した。
    • 出力レベルの知識蒸留は,学生モデルの性能向上に大きく貢献する。
    • 一方,特徴レベルの知識蒸留は,より高容量の学生モデルに対して有効であることが示された。

    Link: https://arxiv.org/abs/2603.16444

  • 雨粒と反射の同時除去:新たなベンチマークと新規パイプライン [cs.CV]目的:雨粒と反射の同時除去タスクの解決
    • ガラス面や窓ガラスを通しての画像撮影において,視覚的な品質低下が問題となる。
    • 既存手法では,雨粒と反射が同時に発生する場合への対応が不十分である。
    • 雨粒と反射が同時に存在する画像からの両方の劣化要因の除去を目指す。
    • 本研究では,雨粒と反射の同時除去を対象とした新しいベンチマークデータセットRDRFを構築した。
    • 拡散モデルに基づく新規フレームワークDiffUR$^3$を提案し,両方の劣化を効果的に除去することに成功した。
    • 提案手法は,ベンチマークデータセットおよび実環境画像において最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.16446

  • プログレッシブアバター:段階的にアニメーション可能な3Dガウスアバター [cs.CV, cs.GR]目的:段階的な3Dアバター表現
    • XRやテレプレゼンスは,リアルタイム性が重要であり,ネットワーク環境への適応が不可欠である。
    • ネットワークや計算資源が変動する中で,安定したアバター品質を維持することが課題である。
    • ネットワーク帯域幅や計算資源の変化に対応し,スムーズな品質向上を実現すること。
    • ProgressiveAvatarsは,3Dガウスの階層構造を利用し,ネットワーク状況に応じて詳細度を動的に変化させる。
    • 重要度ランキングを活用することで,インクリメンタルなロードとレンダリングが可能になり,帯域幅の変動下でもスムーズな品質向上が実現される。
    • テンプレートメッシュ上で適応的な陰解的分割を行うことで,表情や頭部動作に対応したアニメーションを維持できる。

    Link: https://arxiv.org/abs/2603.16447

  • TinyGLASS:リアルタイム自己教師ありインセンサー異常検知 [cs.DB, cs.CV]目的:産業用品質管理における異常検知の効率化
    • 産業用品質管理では,不良品を特定することが重要であり,異常検知はその核となる技術である。
    • ラベル付きの不良サンプルが不足しているため,従来の異常検知は困難を伴う。
    • リソース制約のあるエッジデバイス上でのリアルタイム異常検知を可能にする軽量なモデルを開発する。
    • TinyGLASSは,従来のGLASSフレームワークを軽量化し,パラメータ数を8.7倍圧縮することに成功した。
    • MVTec-ADベンチマークにおいて,94.2%の画像レベルAUROCを達成し,競争力のある検知性能を維持した。
    • Sony IMX500プラットフォーム上で20 FPSのリアルタイム処理を実現し,低消費電力(4.0 mJ/推論)かつ高いエネルギー効率(470 GMAC/J)を示した。

    Link: https://arxiv.org/abs/2603.16451

  • Evo-Retriever:LLM誘導によるカリキュラム進化と視点経路協調を用いたマルチモーダル文書検索 [cs.CV]目的:マルチモーダル文書検索のためのLLM誘導型カリキュラム進化
    • 視覚と言語の情報を統合した検索は,情報アクセスにおいて重要な役割を担う。
    • 現実世界の文書は多様性に富み,構造化されていないため,クロスモーダル埋め込みの一貫性を損なう。
    • モデルの動的な進化に対応し,クロスモーダル検索の混乱を解消すること。
    • Evo-Retrieverは,ViDoRe V2とMMEBにおいて最先端の性能を達成した。
    • nDCG@5スコアはそれぞれ65.2%と77.1%を記録した。
    • 視点経路協調とLLMによるカリキュラム進化が,性能向上に貢献した。

    Link: https://arxiv.org/abs/2603.16455

  • GAP-MLLM:マルチモーダル大規模言語モデルにおける3D空間知覚を活性化するための幾何学的アラインメント事前学習 [cs.NI, cs.SY, eess.SY, cs.CL, cs.CV]目的:マルチモーダル大規模言語モデルにおける3D空間知覚の活性化
    • 近年のマルチモーダルAI研究では,画像とテキストを統合した高度な推論が期待されている。
    • RGB画像のみでは,マルチモーダル大規模言語モデルの3D空間知覚能力が限定的である。
    • 幾何学的知識を効果的に活用し,3D空間知覚を向上させる事前学習手法を開発すること。
    • 提案手法GAP-MLLMは,幾何学的アラインメント事前学習により,構造的知覚を明示的に活性化する。
    • 疎な点マップ予測と意味ラベル予測を組み合わせたビジュアルプロンプトによる共同タスクが有効である。
    • 3Dビジュアルグラウンディング,3D高密度キャプション,3Dビデオオブジェクト検出タスクにおいて,性能が大幅に向上した。

    Link: https://arxiv.org/abs/2603.16461

  • 摩擦接触条件下における変形物体の高速かつ信頼性の高い勾配計算 [cs.GR]目的:摩擦接触条件下の変形物体のシミュレーションにおける勾配計算の高速化と信頼性向上
    • 物理シミュレーションは,ロボット工学やコンピュータグラフィックスにおける逆問題解決の基礎となる重要な技術である。
    • 既存のシミュレーション手法では,摩擦接触における特異性への対処が不十分であり,勾配の歪みや最適化の停滞を引き起こす。
    • 本研究は,厳密な理論的枠組みに基づき,摩擦接触シミュレーションにおける勾配の不安定性を解消し,シミュレーションの精度を向上させることを目指す。
    • 提案手法は,長期的整合性,統一された接触安定性,およびロバストな材料識別により,従来の勾配計算手法における問題を解決する。
    • 実験結果は,本手法が,ロボットの器用な操作や布の折り畳みなど,接触が多いタスクにおいて,正確でノイズの少ない勾配を提供することを示している。
    • 本研究は,物理システムの同定と制御の忠実性を大幅に向上させ,Sim-to-Realのギャップを埋めることに貢献する。

    Link: https://arxiv.org/abs/2603.16478

  • 低照度画像強調のためのデュアルストリームTransformer:照明非依存特徴ガイダンスとマルチスケール空間畳み込み [cs.CV, cs.AI]目的:低照度環境で撮影された画像の視認性回復
    • 視覚センサで取得された低照度画像は,実用的な応用において不可欠な役割を担う。
    • 既存手法は,画像品質を向上させつつ,本質的な信号の事前情報を失いがちである。
    • 本研究は,信号の事前情報を活用し,画像の構造とテクスチャをより良く保持することを目指す。
    • 提案手法DST-Netは,照明に依存しない信号の事前情報を活用し,低照度画像の特徴抽出モジュールを設計した。
    • デュアルストリーム相互作用アーキテクチャとクロスモーダル注意メカニズムにより,画像の劣化信号表現を動的に修正する。
    • LSRWおよびLOLデータセットにおける評価実験により,提案手法の有効性と汎化性能が確認された。

    Link: https://arxiv.org/abs/2603.16482

  • ワンステップ生成モデルにおける非均衡オプティマル輸送によるアンラーニング [cs.CL, cs.CV, cs.AI]目的:ワンステップ生成モデルにおけるクラスアンラーニング手法
    • 生成モデルは画像生成の効率を向上させるが,プライバシー保護が重要課題となっている。
    • 既存のアンラーニング手法は拡散モデル向けであり,ワンステップモデルには適用できない。
    • 非均衡オプティマル輸送を用いて,生成品質を維持しつつ忘却対象クラスを効果的に除去する。
    • 提案手法UOT-Unlearnは,忘却コストと$f$-ダイバージェンスペナルティ間のトレードオフを最適化する。
    • UOTを用いることで,忘却されたクラスの確率質量を他のクラスに平滑に再配分できる。
    • CIFAR-10とImageNet-256での実験で,既存手法を上回るアンラーニング成功率と保持品質が確認された。

    Link: https://arxiv.org/abs/2603.16489

  • VIEW2SPACE:疎な観察からのマルチビュー視覚推論の研究 [cs.RO, cs.SY, eess.SY, cs.CV]目的:疎な観察からのマルチビュー視覚推論に関するベンチマークと手法
    • 複雑な環境を理解するには,複数の視点からの情報統合が不可欠であり,知能システムに必要とされている。
    • 既存研究は,単一画像や高密度な動画に偏っており,現実世界の疎なマルチビューデータに対する対応が不十分である。
    • 物理シミュレーションに基づいた大規模ベンチマークを構築し,疎なマルチビュー推論の課題を解決することを目的とする。
    • 新たに構築したVIEW2SPACEベンチマークを用いた評価により,既存モデルのマルチビュー推論能力は未解決であることが示された。
    • 提案手法であるGrounded Chain-of-Thought with Visual Evidenceは,中程度の難易度において性能を向上させ,現実データへの汎化も示唆された。
    • モデルサイズ,データ量,推論の深さ,可視性制約などを考慮した分析により,深い合成推論が依然として課題であることが示された。

    Link: https://arxiv.org/abs/2603.16506

  • 近似グラフによる爆轟格子抽出 [eess.SY, cs.SY, cs.CV, cs.LG, physics.comp-ph, physics.data-an]目的:爆轟格子
    • 爆轟現象の理解深化は,エネルギー応用や安全確保において不可欠である。
    • 従来の解析手法は手作業に頼るか,二次元的なものが多く,高精度な評価が困難であった。
    • 本研究は,三次元的な爆轟セル構造を正確に把握するための自動化手法を確立する。
    • 提案アルゴリズムは,生成データに対して2%の予測誤差で爆轟セルの分割に成功した。
    • 三次元シミュレーションデータから,波伝播軸に沿った長方形のセル形状が確認された(偏差17%)。
    • 体積の分散は線形変動の三次増幅を反映しており,複雑なセル形状の解析が課題として残る。

    Link: https://arxiv.org/abs/2603.16524

  • 3Dガウススプラッティングにおける姿勢洗練の再考:姿勢事前情報と幾何学的不確実性 [cs.CV]目的:3Dガウススプラッティングによる姿勢洗練のロバスト性向上
    • 3Dシーン表現技術は,視覚的な位置推定や姿勢洗練において重要性が増している。
    • 3Dガウススプラッティングの姿勢洗練は,初期姿勢や再構成された幾何学構造に大きく依存しやすい。
    • 姿勢事前情報と幾何学的不確実性を考慮し,より安定した姿勢洗練を目指す。
    • モンテカルロ法による姿勢サンプリングとFisher情報に基づくPnP最適化を組み合わせた新しいリローカリゼーションフレームワークを提案。
    • 提案手法は姿勢と幾何学的不確実性を明示的に考慮し,追加の学習や教師データは不要である。
    • 多様な屋内・屋外ベンチマークにおいて,位置推定の精度向上と姿勢・深度ノイズに対する安定性が確認された。

    Link: https://arxiv.org/abs/2603.16538

  • IC金属配線セグメンテーションのための汎用的かつスケーラブルな手法SAMSEM [cs.CR, cs.CV]目的:IC金属配線セグメンテーションの性能向上
    • グローバル化が進むハードウェアサプライチェーンにおいて,ハードウェアコンポーネントの信頼性確保は重要である。
    • 従来の機械学習モデルは,異なるICで学習データとテストデータのギャップが大きく,汎化性能が低い。
    • 異なる製造プロセスや技術に対応可能な,汎用的な金属配線セグメンテーション手法を開発する。
    • Meta社のSegment Anything Model 2 (SAM2)をIC金属配線セグメンテーションに適用し,SAMSEMを開発した。
    • マルチスケールセグメンテーションとトポロジーベースの損失関数を導入することで,多様なIC画像に対応した。
    • 14種類のIC画像データを用いてファインチューニングを行い,未知のICに対しても高い精度を達成した。

    Link: https://arxiv.org/abs/2603.16548

  • VAE-EM推定による電子顕微鏡較正のシミュレーションと現実のギャップを埋める [cs.CV, cs.LG]目的:電子顕微鏡の較正パラメータ推定手法
    • 科学的発見を支える電子顕微鏡において,光学収差の補正が不可欠である。
    • 診断画像のノイズと高次元性,及び単一画像からの最適パラメータ特定困難性が課題である。
    • シミュレーションデータと現実データのギャップを埋め,高精度な較正を実現する。
    • VAEを用いて画像を低次元表現に変換し,EM法と組み合わせることで,高速かつ安定した較正を可能にした。
    • 実STEMにおいて,既存手法と比較して推定誤差を2倍削減し,観測回数を削減することに成功した。
    • 本手法は,シミュレーションデータと現実のギャップが存在する逆問題への応用が期待される。

    Link: https://arxiv.org/abs/2603.16549

  • CompDiff:公平性とゼロショット交差型医療画像生成のための階層的構成的拡散 [cs.RO, cs.CV, cs.AI]目的:公平な医療画像生成のための,階層的構成的拡散モデルの提案
    • 医療AIの公平性を高めるため,データ拡張が重要視されている。
    • 生成モデルが,少数グループに対して質の低い画像を生成する問題がある。
    • 訓練データに存在しない交差グループへの汎化性能を向上させる。
    • CompDiffは,既存手法と比較して画像品質(FID)が向上した(64.3 vs. 75.1)。
    • 少数グループ間の公平性指標(ES-FID)と,未知の交差グループに対するゼロショット性能も改善された。
    • CompDiffで生成されたデータで訓練された分類器は,AUROCが向上し,人口統計学的偏りが軽減された。

    Link: https://arxiv.org/abs/2603.16551

  • セグメンテーションに基づく注意エントロピー:大規模ビジョン言語モデルにおける物体幻覚の検出と軽減 [cs.CV, cs.MM]目的:大規模ビジョン言語モデルにおける物体幻覚の検出と軽減
    • マルチモーダルなタスクにおいて,大規模ビジョン言語モデルの性能は高いが,その信頼性を損なう物体幻覚の問題が存在する。
    • 既存研究は主にテキストに着目しているが,視覚的な注意パターンも物体幻覚の一因となりうる点が課題である。
    • セマンティックセグメンテーションを用いた注意エントロピーを測定し,幻覚を検出し,注意を調整することで,信頼性の向上を目指す。
    • 提案手法であるSAEは,追加学習のコストなしに物体幻覚を大幅に削減できることが示された。
    • SAEは,物体レベルのセマンティック空間における視覚的注意の不確実性を定量化する。
    • 実世界のロボットを用いた実験でも,SAEによる信頼性の向上が確認された。

    Link: https://arxiv.org/abs/2603.16558

  • 時間的注意機構を用いた細胞運命決定の理解 [cs.CV, q-bio.CB, q-bio.QM]目的:細胞運命予測
    • がん治療の改善には,遺伝的要因以外の細胞運命決定要因の理解が不可欠である。
    • 同じ条件下でも細胞の挙動が異なる原因が不明であり,予測が困難である。
    • 細胞の時系列画像から,細胞運命を正確に予測し,その根拠を解明すること。
    • 本研究では,細胞の時系列画像のみから,高い精度(正解率0.94,F1スコア0.93)で細胞運命を予測できることを示した。
    • 予測に必要な情報は,細胞運命決定の直前だけでなく,10時間前まで遡って存在することが明らかになった。
    • 細胞分裂およびアポトーシス過程における予測情報の時間分布や,細胞形態およびp53シグナル伝達の役割が示唆された。

    Link: https://arxiv.org/abs/2603.16562

  • VideoMatGen:共同生成モデリングによるPBRマテリアルの生成 [cs.CV, cs.GR]目的:3D形状に対する物理ベースのマテリアルの生成
    • 3Dコンテンツ制作において,リアルな質感表現は重要な課題である。
    • 既存手法では,複数のマテリアル特性を同時に,かつ物理的に整合性のある形で生成することが困難である。
    • テキストと形状情報から,高品質で現実的なPBRマテリアルを効率的に生成すること。
    • ビデオ拡散Transformerアーキテクチャを用いて,3D形状とテキスト記述に基づいて物理ベースのマテリアルを生成する手法を提案。
    • 複数のマテリアル特性を共同でモデリングすることで,物理的に妥当なマテリアルの生成を実現。
    • カスタムの変分オートエンコーダにより,複数のモダリティをコンパクトな潜在空間にエンコードし,効率的な共同生成を可能にした。

    Link: https://arxiv.org/abs/2603.16566

  • Face2Scene:拡散モデルに基づくシーン復元における顔面劣化のオラクルとしての利用 [cs.CV]目的:顔面劣化を利用した拡散モデルに基づくシーン復元のための手法
    • 高画質な画像復元技術は,実用的な応用において重要である。特に,顔面だけでなく,全身や背景を含むシーン全体の復元が求められる。
    • 既存の顔面復元モデルは顔面領域に焦点を当てており,シーン全体の劣化に対応できない。一方,シーン全体を復元するモデルは劣化情報を無視している場合が多い。
    • 顔面をペルセプションオラクルとして利用し,劣化を推定し,シーン全体の復元を導くことで,この問題を解決することを目指す。
    • 顔面復元モデルを用いて高品質な顔面詳細を再構築し,復元された顔面と劣化された顔面のペアから劣化コードを抽出する。
    • 抽出された劣化コードを多段階の劣化認識トークンに変換し,拡散モデルにシーン全体の復元を条件付けする。
    • 提案手法は,最先端の手法と比較して優れた効果を示すことが実験的に証明された。

    Link: https://arxiv.org/abs/2603.16570

  • REFORGE:マルチモーダル攻撃による画像生成モデルにおける脆弱な概念アンラーニングの露呈 [cs.CL, cs.CV, cs.AI, cs.CR, cs.LG]目的:画像生成モデルの脆弱性評価
    • 画像生成技術の発展はコンテンツ作成を可能にする一方,著作権侵害や有害コンテンツ生成のリスクを増大させる。
    • 既存の画像生成モデルのアンラーニング手法は,敵対的入力に対する頑健性が十分に検証されていない。
    • 本研究は,画像生成モデルのアンラーニング手法に対するマルチモーダル攻撃の有効性を評価し,脆弱性を明らかにする。
    • 提案手法REFORGEは,クロスアテンションに基づくマスキング戦略により,概念に関連する領域にノイズを効率的に配置し,攻撃成功率を向上させる。
    • 実験結果から,現在の画像生成モデルのアンラーニング手法には依然として脆弱性が存在することが示唆された。
    • 頑健性を考慮したアンラーニング手法の開発が,マルチモーダルな敵対的攻撃に対する防御として不可欠である。

    Link: https://arxiv.org/abs/2603.16576

  • 視覚における collinearity (共線性) の転移 [cs.CV]目的:視覚における collinearity (共線性) の原理の応用可能性の探索
    • 人間の視覚認知における共線性原理は,直線上に配置されたエッジを強調する現象であり,そのメカニズム解明は重要である。
    • 共線性原理が現実世界でどのような役割を果たしているかは不明であり,コンピュータビジョンへの応用は未開拓である。
    • 本研究では,共線性原理をコンピュータビジョンに応用し,その有用性を検証することを目指す。
    • 共線性原理を応用することで,ウェーハの欠陥検出において,エラー率を 6.5% から 5.26% へ,1.24 倍の性能向上を達成した。
    • ナノテクノロジー材料の欠陥認識においては,深層学習と組み合わせることで,エラー率を 21.65% から 6.64% へ,3.2 倍の性能向上を実現した。
    • 共線性原理は,人工構造物を含む画像において有効であり,産業用途への応用が期待される。

    Link: https://arxiv.org/abs/2603.16592

  • FSMC-Pose:多重自己較正による周波数・空間融合を用いた牛の交尾姿勢推定 [cs.RO, cs.CV, cs.AI]目的:牛の交尾姿勢推定の精度向上
    • 酪農管理において,発情の正確な検出は繁殖効率に不可欠である。
    • 背景の複雑さや動物同士の遮蔽により,実環境での交尾姿勢推定は困難である。
    • 複雑な環境下でもロバストな姿勢推定を可能にする手法の開発。
    • FSMC-Poseは,軽量な周波数・空間融合バックボーンと多重自己較正ヘッドを組み合わせたフレームワークである。
    • 提案手法は,既存のベースラインと比較して高い精度を達成し,計算コストとパラメータ数を削減した。
    • 実環境下での複雑な状況下でも,牛の交尾姿勢を効果的に捉え,推定できることを実験により示した。

    Link: https://arxiv.org/abs/2603.16596

  • 根拠が重要である:プロキシガイド付き批判によるVLMRewardモデル向けの転移可能な評価基準の学習 [cs.CV]目的:視覚言語モデル(VLM)に対する報酬モデルの評価基準の品質向上
    • VLMの性能向上には,適切な報酬信号の設計が不可欠である。
    • 既存の手法では,評価基準の最適化が十分でなく,微分可能な信号が得られない。
    • プロキシを用いた評価基準の検証により,内部整合性と転移性を高めることを目指す。
    • 提案手法Proxy-GRMは,VL-Reward Bench等で最先端の結果を達成した。
    • Proxy-SFTがProxy-RLよりも優れた検証性能を示し,暗黙的な報酬集約が最適であることが確認された。
    • 学習された評価基準は,未知の評価者に対しても転移し,テスト時の報酬精度を向上させた。

    Link: https://arxiv.org/abs/2603.16600

  • 検索拡張されたスケッチ誘導による3D建築物生成 [cs.CL, cs.CL, cs.RO, cs.GR]目的:3D建築物生成のためのフレームワーク
    • 日本の住宅設計において,顧客,営業担当,設計者間の設計情報の共有が課題。
    • 営業担当から渡されるスケッチが簡略化されやすく,詳細が失われる場合がある。
    • 生成された3Dモデルが単一のメッシュ構造であり,部品レベルでの編集が困難。
    • 提案手法は,生成と検索に基づく手法を組み合わせることで,部品レベルの編集とカスタマイズを可能にする。
    • 3Dモデル生成に多 modal表現を採用し,窓やドアなどの建築部品を特定するための部品セグメンテーションを行う。
    • 実験により,本手法が個別化された建築設計に適したモジュールカスタマイズを可能にすることが示された。

    Link: https://arxiv.org/abs/2603.16612

  • ACPV-Net:航空画像からのシームレスなベクターマップ生成のための全クラスポリゴンベクトル化 [cs.HC, cs.CV]目的:航空画像からの完全なベクターマップ表現の生成
    • 地理空間情報の利用拡大のため,高精度なベクターマップの自動生成が重要である。
    • 既存のポリゴン化手法はクラスごとに実行され,境界の一貫性や重複,隙間が生じやすい。
    • 全クラスを同時に処理し,トポロジー的な矛盾のないベクターマップを生成すること。
    • 提案手法ACPV-Netは,セマンティック情報を幾何学的形状生成に組み込むことで,高い精度を実現した。
    • ACPV-Netは,既存のクラス固有の手法を上回り,Deventer-512データセットで優れた性能を示した。
    • 単一クラスのベクトル化にも適用可能であり,WHU-Buildingデータセットでも最高の結果を達成した。

    Link: https://arxiv.org/abs/2603.16616

  • TCATSeg:3D歯科モデルのセマンティックセグメンテーションのための歯中心型アテンションネットワーク [eess.SY, cs.SY, cs.CV]目的:3D歯科モデルのセマンティックセグメンテーションの精度向上
    • 矯正歯科やインプラント治療など,デジタルデンティストリー応用の発展に不可欠である。
    • 複雑な歯列配置や隣接する歯の形状類似性により,既存手法は正確なセグメンテーションが困難である。
    • 局所形状とグローバルな文脈情報を統合し,セグメンテーションの精度向上を目指す。
    • 提案手法TCATSegは,スパースかつ物理的に意味のあるスーパーポイント群を用いて,グローバルな意味的関係を捉える。
    • 新しい400件の歯科モデルデータセットを用いて,汎化性能を評価した結果,良好な結果が得られた。
    • TCATSegは,最先端の手法と比較して,セグメンテーション性能が向上することが示された。

    Link: https://arxiv.org/abs/2603.16620

  • 顔比較のためのMLLMベースのテキストによる説明 [cs.CL, cs.RO, cs.MA, cs.CV, cs.AI]目的:顔比較における説明の信頼性に関する分析
    • 顔認識技術の透明性・説明可能性の向上は,社会実装において不可欠である。
    • 既存の顔認識システムの説明は不十分であり,信頼性に課題がある。
    • MLLMによる説明の妥当性を検証し,信頼性の高い説明手法を模索する。
    • MLLMが正しい顔認証判断を下した場合でも,説明は視覚的証拠に基づかない,あるいは誤った属性に依存することが多い。
    • 従来の顔認識システムからの情報を追加しても,説明の忠実性は一貫して向上しない。
    • 提案された尤度比に基づく評価フレームワークにより,現在のMLLMにおける説明の限界が明らかになった。

    Link: https://arxiv.org/abs/2603.16629

  • FlowComposer:合成ゼロショット学習のための合成可能なフロー [cs.RO, cs.HC, cs.DL, cs.CV]目的:未見の属性・物体構成の認識
    • 画像と言語を結びつける技術は,多様なタスクに応用可能であり,AI研究の重要な分野である。
    • 既存手法では,属性と物体を分離し構成を明示的に表現できていない点が課題である。
    • フローマッチングを用いて,属性と物体の特徴を効果的に融合し,構成表現を改善することを目指す。
    • FlowComposerは,視覚的特徴を属性と物体のテキスト埋め込みに変換する2つの原始フローを学習する。
    • Composerは,これらの速度場を融合し,構成フローを明示的に表現することで,構成の構築を改善する。
    • 複数のベースラインモデルに統合した評価により,FlowComposerがCZSLベンチマークで一貫して大幅な改善を達成することが示された。

    Link: https://arxiv.org/abs/2603.16641

  • BUSSARD:シーン固有の異常な関係検出のための正規化フロー [cs.CV]目的:シーングラフにおける異常な関係の検出
    • 画像理解において,物体間の関係性を正確に把握することは重要である。
    • シーングラフにおける異常な関係の検出は困難であり,誤検出や見逃しが生じやすい。
    • シーングラフにおける関係性の異常を,より高精度かつ高速に検出すること。
    • 提案手法BUSSARDは,既存の最先端モデルと比較して,約10%高いAUROCスコアを達成した。
    • BUSSARDは,既存手法の5倍の速度で処理が可能である。
    • 類義語に対するロバスト性,普遍性において優れており,安定した性能を維持した。

    Link: https://arxiv.org/abs/2603.16645

  • 多様な画像スタイル変換のためのスタイル専門家混合 [cs.CV]目的:多様な画像スタイル変換手法
    • 画像生成技術は,創造的な表現や実用的な応用において重要性が高まっている。
    • 既存のスタイル変換手法は色彩に偏り,複雑な意味や材質の表現が課題となっていた。
    • 意味や材質を考慮した,より多様なスタイル変換を実現することを目指している。
    • 本研究では,専門家混合(MoE)に基づく新しいフレームワーク「StyleExpert」を提案した。
    • StyleExpertは,意味を考慮しながら多様なスタイルを表現し,既存手法よりも意味と材質の保持に優れていることが示された。
    • 未知のスタイルに対しても高い汎化性能を発揮することが実験により確認された。

    Link: https://arxiv.org/abs/2603.16649

  • ハチ・スズメバチの層状トラップ巣における効率的な巣室検出:アノテーション労力と種カバレッジのバランス [cs.CV]目的:層状トラップ巣における巣室の効率的な検出と分類
    • 野生のハチやスズメバチのモニタリングは,生物多様性の研究と保全にとって不可欠である。
    • 巣室の検出・分類は手作業で行われており,労力と時間がかかるという課題がある。
    • アノテーション労力を削減し,データ不均衡の影響を軽減することで,より効率的な巣室検出を目指す。
    • 深層学習を用いることで,層状トラップ巣における巣室の検出が可能であることが示された。
    • 提案手法である制約付き偽陽性損失(CFPL)は,性能向上とアノテーション労力と精度のバランスを実現した。
    • CFPLは,データ不均衡に対しても有効であることが確認された。

    Link: https://arxiv.org/abs/2603.16652

  • HeBA:ロバストな視覚言語モデルのための異種ボトルネックアダプター [cs.CV]目的:視覚言語モデルの適応手法
    • 視覚と言語の融合は,画像認識や自然言語処理の性能向上に不可欠である。
    • 既存手法は,視覚と言語の特性を区別せず,均一な処理を行っているため,性能が制限される。
    • 視覚と言語の構造的差異を考慮した,より効率的な適応手法を開発する。
    • HeBAは,視覚情報に対し2次元畳み込み,テキスト情報に対し線形変換を適用することで,各モダリティの特性を活かした処理を実現する。
    • ボトルネック構造を導入することで,モデルがよりコンパクトでロバストな特徴を学習することを促し,汎化性能を向上させる。
    • Kaiming初期化を用いることで,学習の高速化と事前学習された知識の維持を両立し,安定した学習を実現する。

    Link: https://arxiv.org/abs/2603.16653

  • スペクトル特性駆動型データ拡張によるハイパースペクトル単一ソースドメイン汎化 [cs.CV]目的:ハイパースペクトル画像のドメイン汎化性能向上
    • ハイパースペクトル画像は豊富な情報を有するが,高次元性とセンサー変動により,ドメイン間の分布のずれが性能に影響しやすい。
    • 既存のデータ拡張は,現実世界との整合性が低い場合や多様性を損なう場合があり,汎化性能に限界がある。
    • スペクトル特性を考慮したデータ拡張により,現実性と多様性のバランスを取り,ドメイン汎化性能を向上させる。
    • 提案手法SPDDAは,スペクトル次元に沿ったリサンプリングとチャンネル間類似度に基づく適応的なスペクトルミキサーを利用する。
    • 空間的忠実度制約とスペクトル連続性自己制約を共同最適化することで,拡張されたサンプルの現実性を高めている。
    • 3つのリモートセンシングベンチマークにおける実験により,SPDDAが最先端手法を上回ることが示された。

    Link: https://arxiv.org/abs/2603.16662

  • Kestrel:LVLMのハルシネーション軽減のための自己修正の根拠付け [cs.CV, cs.AI]目的:LVLMにおけるハルシネーション軽減
    • マルチモーダルタスクにおいて,大規模言語モデルの性能向上は著しいが,ハルシネーションが課題となっている。
    • ハルシネーションは,LVLMの現実世界への応用を阻害する大きな要因である。
    • 視覚的根拠に基づいた自己修正により,学習コストを抑えつつハルシネーションを軽減することを目指す。
    • Kestrelは,視覚的根拠収集エージェントと検証に基づく自己修正機構を組み合わせることで,既存手法を上回る性能を示す。
    • POPEとMME-Hallucinationにおいて,それぞれ平均+3.31%,+28.34%の改善が見られた(Qwen3-VL使用)。
    • 自己修正モジュールと根拠付けエージェントは,POPEにおいて平均+2.0%の性能向上に貢献している。

    Link: https://arxiv.org/abs/2603.16664

  • Fast-WAM:ワールドアクションモデルはテスト時の未来予測を必要とするか? [cs.CV, cs.AI]目的:ワールドアクションモデルにおける未来予測の必要性に関する検討
    • ロボットの行動計画において,環境変化を予測し,適切な行動を選択することは重要である。
    • 既存のワールドアクションモデルは未来予測に時間がかかり,リアルタイム性能が課題となっている。
    • テスト時の未来予測を省略することで,効率的な行動計画を可能にする手法を提案する。
    • 提案手法Fast-WAMは,未来予測を省略しつつ,既存の高性能な手法と同等の性能を達成した。
    • 特に,動画共同学習を訓練時に行うことが,性能向上に大きく貢献することが示された。
    • Fast-WAMは,従来のWAMよりも4倍高速に動作し,リアルタイムでの応用が可能となった。

    Link: https://arxiv.org/abs/2603.16666

  • Kinema4D:時空間埋め込みシミュレーションのための4次元運動学的ワールドモデリング [cs.RO, cs.CV]目的:ロボットと環境の相互作用の時空間的4次元モデリング
    • ロボットの知能を実現するには,現実世界の複雑な相互作用をシミュレーションする必要がある。
    • 従来のシミュレーターは,視覚的・物理的な制約が厳しく,ロボットと環境の動的な相互作用を正確に再現できない。
    • ロボットの行動と環境の反応を4次元時空間で統合的にモデル化し,より現実的なシミュレーションを実現する。
    • Kinema4Dは,ロボットの操作を正確な4次元軌跡として表現し,環境の反応を生成モデルで合成することで,ロボットと環境の相互作用をシミュレーションする。
    • 大規模データセットRobo4D-200kを活用し,物理的に妥当で,幾何学的に一貫性があり,ロボットの種類に依存しないシミュレーションを実現した。
    • 実世界の多様なダイナミクスを忠実に再現し,ゼロショット転移の可能性を示唆しており,次世代の埋め込みシミュレーションの基盤となる。

    Link: https://arxiv.org/abs/2603.16669

  • x^2-Fusion:イベントエッジ空間におけるクロスモーダリティ・クロス次元フロー推定 [cs.CV]目的:動的シーン理解のための,稠密な2D光学的フローと3Dシーンフローの推定
    • 動的シーンの理解には,正確なモーション推定が不可欠であり,様々なセンサーからの情報統合が重要である。
    • 既存手法では,異なるセンサーからの特徴量を別々の空間で扱うため,センサー間の不整合や融合の複雑化が課題となっていた。
    • イベントカメラのエッジ信号を利用し,統一的な潜在表現空間を構築することで,効率的かつ高精度なモーダル融合を実現する。
    • 提案手法x^2-Fusionは,イベントから導出される時空間エッジを基準とし,画像とLiDARの特徴量をこの共通表現空間に明示的に揃える。
    • 信頼度に基づいた適応的融合により,劣化条件下でも安定した推定が可能となり,2D光学的フローと3Dシーンフロー間のクロスカンラスト学習を導入することで,両者の関連性を強化している。
    • 合成データおよび実データを用いた実験により,x^2-Fusionが標準条件下で最先端の精度を達成し,困難なシナリオでも大幅な改善を示すことが示された。

    Link: https://arxiv.org/abs/2603.16671

  • HMAR:階層的モダリティ認識エキスパートと動的ルーティング医療画像検索アーキテクチャ [cs.CV]目的:医療画像検索の性能向上
    • 医療画像検索は,コンピュータ支援診断において不可欠な技術であり,診断精度向上に貢献する。
    • 既存手法は,解剖学的構造の重要度や局所的な病変に焦点を当てた検索が困難である。
    • 解剖学的構造と病変領域の両方を考慮した,高精度な画像検索を実現する。
    • 提案手法HMARは,グローバル特徴と局所特徴を効果的に組み合わせることで,従来の画像検索手法を上回る性能を達成した。
    • RadioImageNet-CTデータセットにおいて,64ビットおよび128ビットハッシュコードでそれぞれ0.711と0.724のmAPを達成し,最先端手法ACIRを0.7%と1.1%改善した。
    • HMARは,高精度な局所領域検索を可能にするスライディングウィンドウマッチングアルゴリズムを採用している。

    Link: https://arxiv.org/abs/2603.16679

  • 電気ギターのための意味的音色データセット [eess.SY, cs.SY, cs.SD]目的:電気ギターの音色と意味的記述子を結びつける注釈付きデータセット
    • 音色の理解と操作は音声合成において重要だが,機械学習分野での研究は遅れている。
    • 音色と意味的記述子を結びつける注釈付きデータセットが不足している。
    • 知覚的な音色と機械学習表現の間の架け橋となるデータセットの提供。
    • データセットを用いてVAEを学習し,知覚的判断と記述子分類器で評価した結果,音色構造を捉え,記述子間の滑らかな補間が可能となった。
    • 本データセット,コード,評価プロトコルを公開し,音色を意識した生成AI研究を支援する。

    Link: https://arxiv.org/abs/2603.16682