arXiv雑要約

画像・音声 - 2026/03/10 公開

  • 培養不要の水サンプル顕微鏡画像に対する深層学習推論を用いた新規な水質安全検査アプローチ [cs.OH, cs.CV, cs.CY, cs.LG]目的:水質安全検査の迅速化と低コスト化
    • 水質汚染は健康被害を引き起こすため,迅速かつ正確な水質検査が不可欠である。
    • 従来の検査法は培養に時間を要し,コストも高額であるという課題があった。
    • 培養を必要とせず,低コストで迅速な水質安全検査を実現すること。
    • 深層学習を用いることで,水中の病原体の有無を迅速かつ高精度に判定できる。
    • テストのコストを20~50ドルから0.44ドルに大幅に削減することに成功した。
    • Webサーバやモバイルアプリケーションへの展開により,手軽に水質検査が可能となった。

    Link: https://arxiv.org/abs/2603.06611

  • OptiRouletteオプティマイザー:最大5.3倍高速な収束を実現する新しい確率的メタオプティマイザー [cs.LG, cs.AI, cs.CV, cs.NE]目的:深層学習の最適化手法
    • 深層学習モデルの性能は最適化手法に大きく左右されるため,より効率的な手法の開発が重要である。
    • 既存の最適化手法は,特定のモデルやデータセットに対して最適な設定が難しく,汎用性に課題がある。
    • OptiRouletteは,複数の最適化手法を動的に選択することで,収束の安定性と高速化を目指す。
    • OptiRouletteは,画像分類タスクにおいて,AdamWベースラインと比較して平均テスト精度を大幅に向上させた。
    • 特に,CIFAR-100,CIFAR-100-C,Tiny ImageNet,Caltech-256において,9%以上の精度向上が確認された。
    • OptiRouletteは,AdamWでは達成できなかった目標精度に,全実行において安定して到達することが示された。

    Link: https://arxiv.org/abs/2603.06613

  • 生成モデルの相関分析 [cs.LG, cs.CV]目的:生成モデルの相関性に関する知見
    • 生成モデルは,画像生成など多様な分野で活用が広がっている。
    • 既存モデルでは,ノイズデータと予測ターゲットの相関が弱い場合がある。
    • 拡散モデルとフローマッチングの相関関係を分析し,予測精度の向上を目指す。
    • 拡散モデルとフローマッチングを統一的な数式で表現することに成功した。
    • 理論分析により,既存モデルにおけるノイズデータと予測ターゲットの相関の弱さが示唆された。
    • この相関の弱さが,モデルの学習プロセスに影響を与える可能性が示された。

    Link: https://arxiv.org/abs/2603.06614

  • RECAP:貯留槽ダイナミクスに対する自己組織化読み出しとしての局所Hebbianプロトタイプ学習 [cs.NE, cs.AI, cs.CV, cs.LG, q-bio.NC]目的:貯留槽ダイナミクスと自己組織化Hebbianプロトタイプ読み出しとの結合による,ロバストな画像分類戦略
    • 脳のロバストな知覚は高次元な集団活動と局所的な可塑性メカニズムに依る。計算神経科学の発展に不可欠。
    • 現代の画像認識システムは誤差逆伝播に依存し,局所計算や可塑性との整合性が低い。生物学的妥当性に課題が残る。
    • 局所的な学習則に基づき,ロバストな画像認識を実現する新たな学習戦略を確立することを目指す。
    • RECAPは,訓練されていない貯留槽ダイナミクスと自己組織化Hebbianプロトタイプ読み出しを組み合わせることで,ロバストな画像分類を可能にする。
    • 同手法は誤差逆伝播を回避し,オンラインプロトタイプ更新と自然に適合する。
    • MNIST-Cにおける実験により,RECAPが破損した学習サンプルにさらされなくても,多様な破損に対してロバストであることが示された。

    Link: https://arxiv.org/abs/2603.06639

  • 剪定に基づく拡散モデルにおける概念の再活性化リスクの解明 [cs.CV, cs.LG]目的:拡散モデルにおける剪定ベースのアンラーニングにおける概念再活性化リスク
    • 拡散モデルは強力な生成能力を持つが,学習データに含まれる不要な概念の除去が課題である。
    • 剪定ベースのアンラーニングは効率的だが,情報の漏洩リスクが十分に検証されていない。
    • 剪定された重みの位置情報が悪用され,削除された概念が再活性化される問題を解決する。
    • 剪定ベースのアンラーニングは,必ずしも安全ではなく,削除された概念をデータや再学習なしに再活性化可能であることが示された。
    • 拡散モデルにおける重要な概念関連重みを特定することで,剪定方法にかかわらず元の概念を効果的に復元できる。
    • 剪定位置を隠蔽し,アンラーニングの有効性を維持する安全な剪定メカニズムの検討が重要である。

    Link: https://arxiv.org/abs/2603.06640

  • VR環境における連続的な一人称視点からの物体状態変化の推論 [cs.CV, cs.AI]目的:VR環境における物体状態変化に関する質問応答タスクのベンチマーク
    • VR技術の発展に伴い,自然言語によるシーン変化の問い合わせが重要になっている。
    • 背景での状態変化など,直接的な操作がない変化の検出が困難である。
    • 既存のベンチマークが存在せず,状態変化の推論能力評価が難しい。
    • ObjChangeVR-Datasetを導入し,物体状態変化の質問応答タスクを評価するベンチマークを新たに提供した。
    • 視点と時間に基づいた検索と,複数視点からの情報を統合する推論フレームワークObjChangeVRを提案した。
    • ObjChangeVRは,既存手法と比較して,複数のMLLMにおいて有意な性能向上を示した。

    Link: https://arxiv.org/abs/2603.06648

  • 侵襲性肺腺癌の深部サブタイピングにおける周辺一貫性:全スライド画像解析における摂動忠実度 [cs.CV]目的:侵襲性肺腺癌のサブタイピング精度の向上
    • 肺腺癌は依然として罹患率・死亡率が高く,正確なサブタイピングが予後予測に重要である。
    • 画像解析モデルは,実際の画像変化に弱く,境界付近での信頼性が低いという課題がある。
    • 摂動忠実度に基づく手法により,モデルのロバスト性と汎化性能の向上を目指す。
    • Margin ConsistencyフレームワークとPerturbation Fidelityスコアリングにより,特徴量とロジット空間の整合性が高まった。
    • Vision Transformer-LargeおよびResNet101において,ベースラインと比較して大幅な精度向上が確認された(40~50%の誤り削減)。
    • WSSS4LUADベンチマークにおいても高い精度を示し,異なる施設間での汎化性能が確認された。

    Link: https://arxiv.org/abs/2603.06650

  • PaLMR:マルチモーダルプロセスアラインメントによる忠実な視覚的推論へ [cs.CV, cs.AI]目的:視覚的根拠に基づいた忠実な思考過程の構築
    • 大規模言語モデルの推論能力向上は重要であり,特にマルチモーダルLLMにおける視覚的推論は課題である。
    • 既存手法は最終的な正答率を重視する傾向があり,視覚的証拠の誤認識といったプロセスレベルの誤りが見過ごされがちである。
    • PaLMRは,最終結果だけでなく推論過程のアラインメントを実現し,視覚的に忠実な思考過程を促すことを目指す。
    • PaLMRは,プロセスを意識したデータ層と最適化層の2つの要素から構成され,思考過程と視覚的事実のアラインメントを強化する。
    • Qwen2.5-VL-7Bを用いた実験により,PaLMRは推論におけるハルシネーションを大幅に削減し,視覚的推論の忠実性を向上させることが示された。
    • HallusionBenchで最先端の結果を達成し,MMMU,MathVista,MathVerseにおいても高い性能を維持した。

    Link: https://arxiv.org/abs/2603.06652

  • マルチスペクトル航空画像における雑草検出のためのパラメータ効率的な畳み込みアプローチ [cs.CV, cs.AI]目的:マルチスペクトル航空画像における雑草セグメンテーション
    • 農業分野における生産性向上には,雑草の効率的な検出が不可欠である。
    • 既存のセグメンテーションモデルは,計算コストが高く,メモリ要件が大きいという課題がある。
    • 計算効率とメモリ消費量を削減しつつ,高精度な雑草検出を実現すること。
    • 提案手法FCBNetは,WeedBananaCODおよびWeedMapデータセットにおいて,mIoUで85%を超える性能を示した。
    • FCBNetは,U-Net,DeepLabV3+などの既存モデルと比較して,計算効率とメモリ効率において優れている。
    • バックボーンを固定化することで,学習パラメータ数を90%以上削減し,メモリ要件を大幅に軽減した。

    Link: https://arxiv.org/abs/2603.06655

  • GameVerse:視覚言語モデルはビデオベースの反省から学習できるか [cs.CV, cs.AI]目的:ビデオベースの反省学習の可能性
    • ゲームプレイは視覚情報と行動の相互作用であり,AIの学習において重要な示唆を与える。
    • 既存の視覚言語モデルは,単一の試行評価に偏り,反省と改善のループを欠いている。
    • ビデオベースの反省を通して,視覚言語モデルの学習能力と戦略改善を評価する。
    • GameVerseというゲームベンチマークを用いて,視覚言語モデルの反省学習能力を評価した。
    • 失敗例と専門家のチュートリアルを組み合わせることで,モデルの性能が向上することが示された。
    • この学習方法は,強化学習と教師ありファインチューニングを組み合わせたものに類似している。

    Link: https://arxiv.org/abs/2603.06656

  • アテンション安定化多インスタンス学習:全スライド画像診断への応用 [cs.CV]目的:全スライド画像診断のためのアテンション安定化多インスタンス学習手法
    • 病理診断の効率化と精度向上は,医療分野における重要な課題である。
    • 既存のアテンション機構を用いた多インスタンス学習は,アテンションの不安定性を示す。
    • アテンションの不安定性,過学習,アテンションの過集中という問題を解決する。
    • 提案手法ASMILは,最先端手法と比較して最大6.49%のF1スコア向上を達成した。
    • アンカーモデルと正規化シグモイドを既存手法に統合することで,F1スコアは最大10.73%向上した。
    • アテンションを安定化させることで,診断精度の改善に貢献する。

    Link: https://arxiv.org/abs/2603.06658

  • EnsAug:データ拡張駆動型アンサンブルによる人体モーション系列解析 [cs.CV, cs.LG]目的:人体モーション系列解析のためのロバストな深層学習モデル訓練
    • 人体モーション解析は,医療,スポーツ,エンターテイメントなど広範な分野で重要性が増している。
    • アノテーション付きデータセットが不足しやすく,汎用的なデータ拡張では不自然なモーションが生じやすい。
    • 多様な拡張手法から得られる学習信号を最大限活用し,より高精度なモデルを構築することを目指す。
    • 提案手法EnsAugは,各モデルを異なる単一の幾何学的変換で拡張したデータセットで訓練するアンサンブル学習を採用する。
    • 実験の結果,EnsAugは,単一のモデルを組み合わせた拡張データセットで訓練する標準的な方法よりも性能が大幅に向上した。
    • 手話認識および人体活動認識のベンチマークで最先端の精度を達成し,高いモジュール性と効率性を示した。

    Link: https://arxiv.org/abs/2603.06661

  • ハイパー・トークン:継続的なビデオ・言語理解のためのトークン動的制御 [cs.CV, cs.LG]目的:継続的なビデオ質疑応答におけるタスク間干渉の抑制と,タスク固有プロンプトの記憶コスト削減
    • マルチモーダル大規模言語モデルは,ビデオと言語の理解において高い性能を示すが,継続学習には課題がある。
    • 継続学習において,新しいタスクを学習する際に過去のタスクの知識が失われる「忘却」が問題となる。
    • 動的にトークンを生成・更新することで,記憶容量を固定しつつ忘却を抑制し,継続学習を可能にすること。
    • ハイパー・トークンは,Transformerベースのトークン生成器を用いて,必要に応じてファインチューニング・トークンを生成する。
    • メタ学習に触発された正則化項により,タスク固有の鋭い方向への過学習を抑制し,過去のタスクへの固定化を促進する。
    • 標準的な継続ビデオ質疑応答ベンチマークにおいて,ハイパー・トークンは高い平均精度と低い忘却率を達成し,クロスモーダルImageQA→VideoQAにおいても堅牢な継続転移を実現した。

    Link: https://arxiv.org/abs/2603.06662

  • グラフ・オブ・マーク:グラフベースの視覚的プロンプトによりマルチモーダル言語モデルの空間推論を促進する [cs.CV, cs.AI]目的:マルチモーダル言語モデルにおける空間推論能力の向上
    • 画像と言語を理解するAIの発展には,両者の関連性を正確に捉える能力が不可欠である。
    • 従来の視覚的プロンプトは,物体間の関係性を考慮せず,孤立したエンティティとして扱ってしまう。
    • シーングラフを画像に重ねることで,物体間の空間的な関係性を明示的にモデルに学習させる。
    • 提案手法「グラフ・オブ・マーク」は,3つのオープンソースのマルチモーダル言語モデルと4つのデータセットで評価された。
    • 実験の結果,視覚的質問応答と物体位置の特定において,ベースラインの精度が最大で11パーセント向上した。
    • グラフ記述をテキストプロンプトに加えることで,モデルのゼロショット性能が向上することが確認された。

    Link: https://arxiv.org/abs/2603.06663

  • グローバル時間インデックスを用いた逐次並列3D位置エンコーディングによるビデオ生成推論の高速化 [cs.CV, cs.AI]目的:ビデオ生成推論の高速化
    • ビデオ生成技術は,エンターテイメント,教育,コミュニケーションなど幅広い分野で重要性を増している。
    • 既存のビデオ生成モデルは,長尺ビデオの生成やリアルタイム推論において,計算コストとメモリ消費量の問題がある。
    • 本研究は,効率的な推論パイプラインを構築し,リアルタイムインタラクティブアプリケーションを可能にすることを目指す。
    • 提案手法は,8基のA800 GPUクラスタにおいて,生成品質を維持しつつ,最初のフレームのレイテンシーを1秒未満に短縮し,ほぼリアルタイムの推論速度を実現した。
    • 480Pの5秒ビデオ生成において,1.58倍の高速化を達成し,リアルタイムインタラクティブアプリケーションへの有効性を証明した。
    • 自己強制的な因果自己回帰フレームワークを順次並列推論に適合させ,計算局所化とランク間通信の削減を実現した。

    Link: https://arxiv.org/abs/2603.06664

  • より良い視覚,より良い思考:医学における視覚Chain-of-Thoughtが失敗する理由 [cs.CV, cs.AI]目的:医学的視覚言語タスクにおけるChain-of-Thought(CoT)の有効性に関する調査
    • 医療分野における画像とテキストの理解は,診断や治療の精度向上に不可欠である。
    • 既存の視覚言語モデルは,医学的画像における微妙な特徴の認識が困難な場合がある。
    • 視覚的根拠付けを強化することで,CoTによる性能低下を改善し,正確性を向上させる。
    • 医学的視覚質疑応答において,CoTは直接応答(DirA)よりも性能が低い傾向があることが示された。
    • この低下は,微妙な領域固有の手がかりが視覚的根拠付けを弱め,CoTが初期の認識の不確実性を増幅させる「医療的知覚のボトルネック」が原因であると考えられる。
    • 領域の関心領域や高品質なテキストガイダンスによる介入が,CoTの性能低下を緩和し,DirAとの逆転を解消した。

    Link: https://arxiv.org/abs/2603.06665

  • SJD-PV:句検証を用いた自己回帰型画像生成の推測ヤコビデコーディング [cs.CV]目的:自己回帰型画像生成における推論遅延の軽減
    • 画像生成モデルの性能向上は,コンピュータビジョン分野における重要な課題である。
    • 自己回帰型モデルは逐次処理のため,推論速度が遅いという課題がある。
    • 句レベルの検証により,複数のトークンを同時に検証し,推論効率を向上させる。
    • 提案手法SJD-PVは,推論に必要な関数評価回数(NFE)を大幅に削減する。
    • テキストから画像を生成する実験において,SJD-PVは最速で30%の速度向上を達成した。
    • 短距離のトークン共起性をモデル化することが,自己回帰型推論の高速化に有効であることが示された。

    Link: https://arxiv.org/abs/2603.06666

  • 水面環境におけるレーダー・カメラ融合検出のためのTransformerベースの微分可能キャリブレーション [cs.CV, cs.AI]目的:水面環境におけるレーダー・カメラ融合検出の精度向上
    • 悪天候や照明変化下での知覚性能向上が求められるため,レーダーとカメラの融合が重要である。
    • 従来のキャリブレーション手法は構造物が多い環境向けであり,水面のようなテクスチャの少ない環境では精度が低下する。
    • 水面環境におけるレーダー・カメラ間のずれを修正し,融合検出のロバスト性を高める。
    • 提案手法CalibFusionは,検出精度を目的としたエンドツーエンド学習で外在パラメータを自動的に最適化する。
    • 水面およびFLOWデータセットの実験により,融合に基づく2D検出性能と合成的なずれに対するロバスト性が向上することが示された。
    • nuScenesデータセットでの結果は,この最適化メカニズムが水面環境以外のシナリオにも適用可能であることを示唆する。

    Link: https://arxiv.org/abs/2603.06670

  • 画像から動画へのセマンティックノイズ初期化の転移:ペア診断研究 [cs.CV, cs.AI]目的:セマンティックノイズ初期化の有効性評価
    • 拡散モデルは画像生成において高品質な結果を生み出すが,動画生成への応用は課題が多い。
    • 動画生成では,時間的な一貫性を保つことが難しく,不安定な結果が生じやすい。
    • 動画生成におけるセマンティックノイズ初期化の効果を検証し,その課題を明らかにすること。
    • セマンティックノイズ初期化は時間的な側面においてわずかな改善傾向が見られた。
    • しかし,統計的有意差は確認されず,ベースラインと同程度の性能であった。
    • ノイズ空間の解析から,信号が弱く不安定であることが示唆された。

    Link: https://arxiv.org/abs/2603.06672

  • 歴史的油絵断面の微赤外分光画像アンミキシング [cs.CV, cs.LG]目的:歴史的油絵断面の微赤外分光画像の成分分離
    • 文化遺産科学において,非侵襲的な材料分析が重要視されており,分光イメージングはその中心的な役割を担う。
    • 分光データの解釈は困難であり,手動での参照ライブラリとの比較に依存しており,時間と労力を要する。
    • 本研究は,複数の成分が混在する複雑な試料から,自動的に純粋な成分スペクトルと存在量を推定することを目指す。
    • 本研究では,ATR-$\mu$FTIR HSIのブラインドアンミキシングのための教師なしCNNオートエンコーダを提案した。
    • 提案手法は,空間構造を考慮したパッチベースのモデリングと,スペクトル角度距離損失関数(WSAD)を導入することで,解釈性を向上させた。
    • ヘントの祭壇画の断面データへの適用により,本手法の有効性が示された。

    Link: https://arxiv.org/abs/2603.06673

  • AutoFigure-Edit:編集可能な科学イラストの生成 [cs.CV, cs.AI]目的:科学技術的なテキストから編集可能な科学イラストの生成
    • 科学的・技術的概念の伝達において,高品質なイラストは不可欠である。
    • 既存の自動システムは,編集性,スタイル制御,効率性に限界がある。
    • ユーザー指定の参照画像による柔軟なスタイル適応を可能にし,効率的なイラスト作成を目指す。
    • AutoFigure-Editは,長文の科学テキストから完全に編集可能な科学イラストを生成する。
    • 長文理解,参照画像に基づいたスタイリング,SVG編集を組み合わせることで実現した。
    • コードやデモサイトを公開し,本分野のさらなる進歩を促進する。

    Link: https://arxiv.org/abs/2603.06674

  • 植物の葉病診断のためのXAIとFew-shot学習に基づくハイブリッド分類モデル [cs.CV, cs.AI, cs.LG]目的:植物の葉病の病状段階の識別と分類
    • 農業生産性と食糧安全保障を維持する上で,作物の病気の適時かつ正確な識別は不可欠である。
    • 注釈付きデータが限られている状況下での病気の識別と分類は課題である。
    • 少ないサンプルから効果的に病気の識別特徴を学習し,高い識別精度を実現すること。
    • 提案モデルは,SiameseネットワークとPrototypicalネットワークを統合し,少数サンプルからの識別能力を高めている。
    • Grad-CAMを用いて,葉画像内の重要な決定領域を可視化し,分類過程の解釈可能性を確保している。
    • 実験結果から,様々な病状段階において92%を超える高い精度,適合率,再現率,F1スコアを達成することが示された。

    Link: https://arxiv.org/abs/2603.06676

  • LVLMにおける並列相対方策最適化によるチャート深層研究 [cs.CV, cs.AI, cs.LG]目的:チャート深層研究の能力向上
    • データ科学の発展に伴い,チャートは洞察発見や意思決定支援に不可欠なツールとなっている。
    • 既存のチャートデータインテリジェンスは,複雑な推論や高度なデータ分析といった深層研究能力に限界がある。
    • 多次元報酬信号の干渉や異種データ勾配の衝突を解消し,深層研究能力の客観的評価を可能にすること。
    • 提案手法PRPOは,報酬次元間の並列最適化とデータタイプ間の能力分割により,異種データと多次元報酬信号間の競合を効果的に解消する。
    • MCDR-Benchは「エラー一意性原理」に基づいて構築され,主観的な生成評価を制御可能なエラー注入による客観的なエラー特定へと変換する。
    • PRPOとMCDR-Benchの組み合わせは,チャート深層研究を体系的に発展させるための統一的な枠組みを確立する。

    Link: https://arxiv.org/abs/2603.06677

  • MultiGen:拡散ゲームエンジンにおける編集可能なマルチプレイヤーワールドのレベルデザイン [cs.AI, cs.CV, cs.GR]目的:拡散ゲームエンジンにおける編集可能なマルチプレイヤーワールドのレベルデザイン
    • インタラクティブなシミュレーションやエンターテインメントにおいて,ビデオワールドモデルの応用が期待されている。
    • 環境の再現性や編集可能性,複数プレイヤーによる共有といったインタラクティブ性において課題が存在する。
    • ユーザー操作に基づき環境構造を直接編集可能にし,リアルタイムマルチプレイヤー環境を実現する。
    • 外部メモリを導入することで,ユーザーアクションを反映した持続的な状態を管理し,環境生成をMemory,Observation,Dynamicsのモジュールに分解した。
    • これにより,ユーザーは環境構造を直接編集でき,一貫性のある複数プレイヤー間の相互作用が可能となった。
    • 従来型の拡散ゲームエンジンとは異なり,フレーム予測ではなく,編集可能なメモリ表現を通じて環境制御を実現した。

    Link: https://arxiv.org/abs/2603.06679

  • 画像における視認性と視点推論のための可視性ベンチマーク [cs.CV, cs.AI]目的:画像中の視認性の判断と,視点推論の能力を評価するベンチマーク
    • 画像認識技術は,ロボット工学や自動運転など,幅広い分野で不可欠である。
    • 既存のモデルは,画像中の何が見えるか,何が見えないかを正確に判断することが難しい。
    • 人間の視認性の限界を考慮した上で,モデルの判断能力を評価する。
    • 本ベンチマークは,モデルが画像の視認性を正確に判断し,判断できない場合は適切に回答を保留できるかを検証する。
    • GPT-4oとGemini 3.1 Proが最高の総合スコア(それぞれ0.728と0.727)を記録し,Gemini 2.5 Proがそれに続いた。
    • オープンソースモデルGemma 3 12Bは,ある閉鎖ソースモデルを上回る性能を示した。テキストの編集に対する頑健性が,画像の編集に対する頑健性よりも優れていることが示された。

    Link: https://arxiv.org/abs/2603.06680

  • 3D画像に基づく放射線科レポートレビューのためのマルチモーダルベンチマークRADAR [cs.CV]目的:放射線科レポートの不一致分析
    • 医療の質保証や臨床判断支援において,レポートの正確性が重要である。
    • 放射線科医間での解釈の相違やレポート作成のばらつきにより,不一致が生じやすい。
    • 臨床的な推論と画像とテキストの整合性を評価するベンチマークを構築する。
    • RADARは,3D医療画像と初期レポート,およびそれに対応する修正候補のペアを提供する。
    • 本ベンチマークは,画像レベルでの合意評価,臨床的重症度の評価,および編集タイプの分類を要求する。
    • 専門家によるアノテーション済みの腹部CT検査データと標準化された評価プロトコルを伴う。

    Link: https://arxiv.org/abs/2603.06681

  • ECHO:マルチエージェント協調によるマルチメディアイベント抽出のためのイベント中心ハイパーグラフ操作 [cs.CV]目的:マルチメディアイベント抽出のためのイベント中心ハイパーグラフの操作
    • マルチメディアコンテンツの活用において,イベント抽出は重要なタスクであり,多様な応用が期待されている。
    • 従来のイベント抽出手法は,エラーが連鎖的に発生しやすく,特にクロスモーダルな整合性の問題が課題となっている。
    • イベント中心ハイパーグラフとマルチエージェント協調により,エラー伝播を抑制し,イベント抽出の精度向上を目指す。
    • 提案手法ECHOは,既存の最先端手法と比較して,イベント言及と引数役割のF1スコアにおいて大幅な改善を示した。
    • 特にQwen3-32Bを使用した場合,イベント言及のF1スコアは7.3%,引数役割のF1スコアは15.5%向上した。
    • ECHOは,イベント中心ハイパーグラフを反復的に洗練することで,クロスモーダルな整合性を高め,エラー伝播を効果的に抑制する。

    Link: https://arxiv.org/abs/2603.06683

  • 骨材山地の三次元再構成とセグメンテーション:サイズと形状の解析 [cs.CV, eess.IV]目的:骨材のサイズと形状の解析
    • 道路建設や地盤工学において,骨材の品質を決定する上で,サイズと形状は重要な特性である。
    • 既存の骨材画像解析システムは,個々の粒子の分析か,手動分離された粒子の分析に焦点が当てられている。
    • 現場での骨材山地の三次元情報を効率的かつ低コストで取得するシステムを開発すること。
    • 本研究では,スマートフォン等のモバイルデバイスで撮影した動画/画像から,Structure-from-Motion (SfM) 技術を用いて骨材山地の三次元空間データを再構成する。
    • 再構成された骨材山地から個々の骨材を分離・抽出するために,三次元セグメンテーションアルゴリズムを使用する。
    • 得られた予備的な結果は,現場での品質管理/品質保証 (QA/QC) タスクにおける三次元骨材サイズと形状情報の活用可能性を示唆している。

    Link: https://arxiv.org/abs/2603.06684

  • TimeSpot: 現実世界の環境におけるビジョン言語モデルの時空間理解のベンチマーク [cs.CV, cs.CL, cs.ET, cs.MM, cs.RO]目的:ビジョン言語モデルにおける現実世界の時空間推論の評価基準
    • 災害管理やナビゲーションなど,場所と時間の理解は多様な応用分野において重要である。
    • 既存のビジョン言語モデルは,地理的・時間的な手がかりの推論能力に限界がある。
    • 現実世界の不確実性下における物理的に根拠のある時空間理解を達成することを目指す。
    • TimeSpotは,80カ国から収集された1,455枚の画像を用いて,時間属性と地理属性を予測する。
    • 最先端のビジョン言語モデルは,特に時間推論において低い性能を示すことが明らかになった。
    • 教師ありファインチューニングで改善は認められるものの,依然として十分な性能とは言えない。

    Link: https://arxiv.org/abs/2603.06687

  • 物語紡ぎ手:マルチモーダル条件付けによる制御可能な長距離視覚的一貫性の実現に向けて [cs.CV, cs.AI]目的:マルチモーダル制御,長距離,一貫性のある視覚コンテンツ生成
    • 映像制作や広告など,現実世界への応用において,長期間にわたる物語の一貫性が重要である。
    • 既存のモデルは高品質な短編コンテンツ生成には優れるものの,長編における物語の一貫性維持に課題がある。
    • 本研究は,物語の一貫性と視覚的一貫性を保ちつつ,コンテンツ生成を制御可能にすることを目指す。
    • 提案手法「Narrative Weaver」は,高水準のナラティブプランニングと詳細な制御モジュールを組み合わせている。
    • 動的なメモリバンクにより視覚的なドリフトを防ぎ,既存の事前学習モデルを活用する効率的な学習戦略を実現した。
    • E-commerce Advertising Video Storyboard Dataset (EAVSD)という新たな評価データセットを構築し,その有効性を検証した。

    Link: https://arxiv.org/abs/2603.06688

  • 粒子加速器向けイオンビームダイナミクスにおける,教師なし学習とノイズデータを用いた高解像度画像再構成 [cs.CV, cs.LG]目的:高解像度画像再構成手法の開発
    • 高エネルギー物理実験におけるビーム制御は重要であり,精密なビーム特性の把握が不可欠である。
    • 従来のビーム特性解析手法では,微弱な信号からのノイズ除去と高解像度化に限界がある。
    • 教師なし学習を用いて,ノイズの多いデータから高精度なビーム分布の再構成を可能にすること。
    • 提案手法は,教師データなしでロバストなノイズ除去と高精度なビームエミッタンス画像再構成を実現した。
    • 特に,低S/N比条件下において,従来の測定限界を超える解像度でのビームハロー検出を可能にした。
    • 7標準偏差を超える信号の測定を可能にし,未曽有のハロー分解能を達成した。

    Link: https://arxiv.org/abs/2603.06689

  • スペクトルギャップと空間事前知識:TerraMindを用いたハイパースペクトル下流タスク適応の研究 [cs.CV]目的:ハイパースペクトル画像処理における下流タスク適応
    • 地理空間基礎モデルは,多様なリモートセンシングデータの活用を可能にする重要な技術である。
    • ハイパースペクトル画像は高次元データであり,既存の地理空間基礎モデルでの直接的な処理が困難である。
    • TerraMindを用いてハイパースペクトル画像処理への適応可能性を検証し,今後のモデル設計に貢献すること。
    • TerraMindは,ハイパースペクトル画像に特化した事前学習なしに,下流タスクへの適応が可能であることが示された。
    • バンド選択戦略によって適応は実現するものの,ネイティブにハイパースペクトルデータを扱うモデルに比べて性能は低下した。
    • 本研究は,ハイパースペクトル画像統合のための基盤となり,将来のモデルにスペクトルトークン化の必要性を示唆する。

    Link: https://arxiv.org/abs/2603.06690

  • モバイルロボット向けワンショットバドミントンシャトル検出 [cs.CV, cs.RO]目的:バドミントンシャトル検出のためのフレームワーク
    • ロボット工学において,シャトル検出は競技の自動化や分析に不可欠である。
    • ロボット視点からのシャトル検出データセットが不足している。
    • 移動ロボット環境におけるリアルタイムなシャトル検出を実現すること。
    • 新しいデータセットを構築し,多様な背景と難易度で20,510フレームを半自動でアノテーションした。
    • YOLOv8ネットワークをファインチューニングし,提案メトリックにおいて0.86のF1スコアを達成した。
    • シャトルサイズと背景のテクスチャが検出性能に大きく影響することが示された。

    Link: https://arxiv.org/abs/2603.06691

  • 不変自己教師あり学習のためのソフトな等変性正則化 [cs.CV, cs.LG]目的:不変性および等変性を組み合わせた自己教師あり学習モデルの性能向上
    • 画像認識において,自己教師あり学習は重要な役割を果たしており,表現学習の効率化に貢献している。
    • 強い不変性を追求すると,幾何学的摂動に対するロバスト性や空間的感応性伝播に有用な構造が失われる場合がある。
    • 中間層で等変性を正則化することで,最終的な表現の性能を維持しつつ,ロバスト性と伝播性を向上させる。
    • 提案手法SERは,ベースとなる自己教師あり学習の目的関数を維持しながら,中間層の空間的特徴マップに対してソフトな等変性正則化を適用する。
    • ImageNet-1kのViT-S/16事前学習において,SERはMoCo-v3を+0.84 Top-1で改善し,DINOやBarlow Twinsも安定的に性能向上させた。
    • SERは,ImageNet-C/Pで+1.11/+1.22 Top-1,COCO検出で+1.7 mAPの性能改善を示し,汎用的な設計原則の有効性を裏付けた。

    Link: https://arxiv.org/abs/2603.06693

  • HARP:ファントムのみを用いたin vivo拡散MRIの調和 [cs.CV]目的:多サイト拡散MRIデータの調和
    • 拡散MRIは脳病変の診断や病態解明に不可欠であり,多施設共同研究の重要性が増している。
    • 拡散MRIは装置間差の影響を受けやすく,多施設データ統合の際の課題となっている。
    • ファントムデータのみを用いた調和手法を開発し,多施設共同研究の実現を目指す。
    • HARPはFA,MD,GFAにおける装置間変動をそれぞれ12%,10%,30%減少させた。
    • 調和処理後も線維方向およびトラクトグラフィーを保持することが確認された。
    • ファントムデータのみを用いた本手法は,大規模臨床試験における定量拡散MRIの実現可能性を高める。

    Link: https://arxiv.org/abs/2603.06696

  • 視線とともに考える:医療用VLMの視覚的推論監視としての逐次的な眼追跡 [cs.CV, cs.AI]目的:医療用VLMにおける視覚的推論の監視
    • 医療画像診断は視覚情報に基づいて行われるため,視覚的根拠に基づいた推論が重要である。
    • 既存のVLMはテキストによる推論に偏りがちで,視覚情報を十分に活用できていないという課題がある。
    • 眼追跡データを用いてVLMに人間の視線経路を学習させ,視覚的推論能力を向上させることを目指す。
    • 眼追跡データを視線トークンとしてVLMに導入し,画像パッチの選択予測を時間順に行わせることで,人間らしい証拠の獲得と統合を促した。
    • MIMIC-EYEおよび複数のゼロショットベンチマークにおいて,ベースラインと比較して一貫した性能向上を示し,最先端の性能を達成した。
    • 時間的な順序を持つ視線データが,視覚的根拠に基づいた医療推論学習のための有効な監視信号であることが示された。

    Link: https://arxiv.org/abs/2603.06697

  • 非対称蒸留と容量制約下クロスモーダル転移における情報保持 [cs.CV]目的:非対称アーキテクチャ間の知識蒸留における次元崩壊現象の分析
    • 深層学習モデルの効率化は,計算資源の制約や実用的な応用において重要である。
    • 知識蒸留において,教師モデルから生徒モデルへの転移は,容量の制約により困難を伴う。
    • 本研究は,容量制約下での次元崩壊を特定し,ロバスト性を改善する。
    • 知識蒸留において,教師モデル(500Mパラメータ)から生徒モデル(0.5M-8.0Mパラメータ)への転移時に,次元崩壊が確認された。
    • 生徒モデルは,教師モデル(実効ランク88.68)と比較して,実効ランクが約16まで低下し,81%の次元削減が発生する。
    • 容量が過剰な生徒モデルはクリーンデータに対して高い性能を示すが,ノイズに対して脆弱である一方,極端な容量制約はロバスト性を高める。

    Link: https://arxiv.org/abs/2603.06698

  • 農業における多ラベルインスタンスレベル汎化視覚的根拠付け [cs.CV]目的:農業における汎化視覚的根拠付けの実現
    • 精密農業において,植物検出や作物・雑草の個体識別は重要課題である。
    • 視覚的根拠付けは農業分野で未探索であり,適切なベンチマークデータセットが存在しない。
    • 実際の圃場環境における視覚的根拠付けモデルの性能向上を目指す。
    • 本研究では,農業分野初の汎化視覚的根拠付けデータセットgRef-CWを提案した。
    • gRef-CWを用いた評価により,既存モデルの性能ギャップが明らかになった。
    • 提案手法Weed-VGは,インスタンスレベルの視覚的根拠付けにおいて高い性能を示した。

    Link: https://arxiv.org/abs/2603.06699

  • SIQA:信頼性の高い科学的画像品質評価に向けて [cs.CV]目的:科学的画像品質の評価基準
    • 科学研究において,画像は重要なデータ伝達手段であり,その品質は研究の信頼性に直結する。
    • 既存の画像品質評価法は,知覚的な歪みや画像とテキストの対応に焦点を当てており,科学的妥当性を考慮していない。
    • 科学的画像の品質を,知識的側面と知覚的側面から多角的に評価する新しいフレームワークを提案すること。
    • SIQAフレームワークは,科学的画像の品質を「知識」「知覚」の2つの次元で評価する。
    • SIQA-U(理解度測定)とSIQA-S(スコアリング)という2つの評価プロトコルを設計し,専門家による評価との比較を行った。
    • 大規模言語モデルの実験により,スコアリングの一致度と科学的理解度の間に乖離があることが示された。スコアリングの改善が理解度の向上を伴わない場合もある。

    Link: https://arxiv.org/abs/2603.06700

  • MLLMにおける空間知能の一般化能力について [cs.DB, cs.CV, cs.LG]目的:MLLMの空間知能の一般化能力の向上
    • 視覚と言語を統合したMLLMは,3D認識やナビゲーションなど多様な応用が期待されている。
    • カメラパラメータを考慮しない既存手法は,物体特性と視点を混同し,カメラ依存性が高い。
    • カメラ情報を活用し,真の3D幾何学的原理の学習を促すことで,汎化性能を高める。
    • カメラパラメータを密な埋め込みで注入するCamera-Aware MLLMフレームワークを提案した。
    • カメラパラメータを変化させるデータ拡張により,モデルが視点とシーン内容を分離することを学習させる。
    • 3Dビジョンモデルからの幾何学的知識を蒸留することで,空間推論能力を強化する。

    Link: https://arxiv.org/abs/2603.06704

  • UWPD:埋め込みアルゴリズムに依存しない不可視ウォーターマーク検出の汎用パラダイム [cs.CV, cs.AI]目的:不可視ウォーターマークの有無の判定
    • ソーシャルメディアやAIGCの発展に伴い,画像著作権保護技術としての不可視ウォーターマークの重要性が増している。
    • 既存の検出手法は特定のアルゴリズムに依存するため,未知のウォーターマーク検出能力が限られている。
    • アルゴリズム情報が不要なウォーターマークの有無判定という課題を解決する。
    • 本研究では,UniFreq-100Kデータセットを構築し,様々な埋め込みアルゴリズムのサンプルを大規模に提供した。
    • 周波数シールドネットワーク(FSNet)を提案し,適応スペクトル知覚モジュール(ASPM)と動的マルチスペクトルアテンション(DMSA)を導入した。
    • FSNetは既存モデルを上回り,UWPDタスクにおいて優れたゼロショット検出能力を示すことが実験で明らかになった。

    Link: https://arxiv.org/abs/2603.06723

  • HERO:動画におけるオープン語彙時系列文脈特定のための階層的埋め込み洗練 [cs.CV]目的:動画におけるオープン語彙時系列文脈特定タスクの解決
    • 動画と自然言語を結びつける研究は,映像理解や検索に応用可能であり重要である。
    • 既存手法は語彙が限定されており,現実世界で多様な表現に対応できないという課題がある。
    • 未知の語彙や言い換えにも対応可能な,汎化性能の高い文脈特定手法の開発を目指す。
    • 提案手法HEROは,階層的な言語埋め込みとクロスモーダル洗練を用いることで,文脈特定性能を向上させている。
    • HEROは,標準的なベンチマークに加え,新たに構築されたオープン語彙ベンチマークにおいても,最先端手法を上回る性能を示した。
    • この結果は,オープン語彙時系列文脈特定が重要な研究方向性であることを示唆している。

    Link: https://arxiv.org/abs/2603.06732

  • OCTAに基づくAMD検出のための血管情報に基づいた深層学習 [cs.CV]目的:加齢黄斑変性症のOCTA画像からの検出における深層学習モデルの性能向上
    • 加齢黄斑変性症は失明原因の一位であり,早期発見と治療が重要である。
    • 既存の深層学習モデルは,血管の臨床的に重要なバイオマーカーを活用できていない。
    • 血管の歪度や血管消失マップを用いた注意機構により,病変部への学習を誘導する。
    • 動脈の歪度マップが最も識別力が高く,AMD病理生理と整合性のある結果が得られた。
    • 毛細血管の消失マップは,特に大規模な平滑化スケールにおいて,密度ベースの変種の中で最も優れた性能を示した。
    • 本手法は,解釈可能な洞察を提供し,AMD病態生理学に基づいた所見と一致する。

    Link: https://arxiv.org/abs/2603.06735

  • 異種分散型拡散モデル [cs.LG, cs.AI, cs.CV]目的:大規模拡散モデルの効率的な分散学習手法
    • 拡散モデルは高品質な画像生成が可能だが,学習には膨大な計算資源が必要である。
    • 既存の分散学習は,多大な計算資源と統一的な学習目標を必要とし,参加障壁が高い。
    • 異種な学習目標を許容し,計算資源を削減することで分散学習のハードルを下げる。
    • 本研究は,異なる目的関数(DDPMとFlow Matching)を用いる異種分散学習フレームワークを提案する。
    • 学習に必要な計算量を従来の16分の1(1176 GPU-days → 72 GPU-days)に削減し,データ量も大幅に削減した。
    • 提案手法は,FIDスコアとLPIPSスコアの両方で既存手法を上回り,多様性の高い画像を生成可能であることを示した。

    Link: https://arxiv.org/abs/2603.06741

  • ButterflyViT:エッジVision Transformerのための354倍の専門家圧縮 [cs.CV, cs.AI]目的:エッジデバイスにおけるVision Transformerのメモリ効率の向上
    • 近年,画像認識においてVision Transformerが注目を集めているが,メモリ消費量が課題となっている。
    • MoEを用いると専門家数に応じてメモリ使用量が線形に増加し,エッジデバイスでの利用が困難である。
    • 共有された基盤を用いて専門家を表現することで,メモリ使用量を専門家数に対して亜線形に削減することを目指す。
    • ButterflyViTは,専門家を独立した重み行列ではなく,共有された量子化された基盤の幾何学的再配向として扱う。
    • CIFAR-100を用いた実験で,64人の専門家に対して354倍のメモリ削減を達成し,精度への影響は無視できる程度であった。
    • 空間的平滑化正則化により,隣接するパッチトークン間のルーティングの不規則性を抑制し,パッチ相関を訓練信号として活用する。

    Link: https://arxiv.org/abs/2603.06746

  • XMACNet:マルチモーダル融合による軽量な注意ベースCNNを用いた唐辛子病害分類 [cs.CV, cs.AI]目的:唐辛子病害の検出
    • 精密農業において,画像による植物病害の分類は重要な課題である。
    • 病害の種類や生育環境により,正確な画像分類が困難となる場合がある。
    • 可視画像と植生指数を融合し,軽量かつ解釈可能なモデルを開発する。
    • 提案するXMACNetは,既存のResNet-50,MobileNetV2,Swin Transformer等のモデルを上回る高い精度を達成した。
    • XMACNetは,自己注意機構とマルチモーダル融合により,病害特徴への注目度を可視化し,解釈性を高めた。
    • モデルの小型化と高速な推論により,実世界の農場でのエッジ展開に適している。

    Link: https://arxiv.org/abs/2603.06750

  • EarthBridge:第4回マルチモーダル空中画像チャレンジ翻訳トラックへの解法 [cs.CV]目的:異なるセンサー間の画像変換技術の開発
    • 多種多様なセンサー情報を統合することで,より高度な空中画像解析が可能となる。
    • 光学,赤外線,SAR画像は特性が大きく異なり,相互変換は困難を極める。
    • 本研究は,これらのセンサー間における高精度な画像変換を実現することを目的とする。
    • 提案手法EarthBridgeは,Diffusion Bridge Implicit ModelsとContrastive Unpaired Translationを組み合わせることで,高精度な変換を実現した。
    • 特に,Karras-weighted bridge scalingや特殊なノイズ初期化が,変換の曖昧性を軽減し,空間詳細とスペクトル精度を向上させた。
    • MAVIC-Tチャレンジにおいて総合スコア0.38を達成し,ランキング2位となった。

    Link: https://arxiv.org/abs/2603.06753

  • 脳性麻痺検出のためのハイブリッド機械学習モデル [cs.CV, cs.AI]目的:脳性麻痺の検出
    • 早期発見が治療の成功に不可欠であり,医療現場でのニーズが高い。
    • 脳性麻痺の早期診断は難しく,専門知識と時間が必要とされる。
    • MRI画像を用いた高精度な自動診断システムの開発を目指す。
    • 提案モデルは98.83%という高い精度を達成し,既存のモデル(VGG-19, Efficient-Net, VGG-16)を上回った。
    • 3つのCNNモデル(VGG 19, Efficient-Net, ResNet50)とBi-LSTMを組み合わせることで,特徴抽出と分類の精度向上に貢献した。
    • 本研究は,脳性麻痺の早期診断を支援する有望な手法となりうる。

    Link: https://arxiv.org/abs/2603.06803

  • ステップレベルの視覚的根拠の忠実性が,長期的視覚言語モデルにおける分布外汎化を予測する [cs.RO, cs.CV, cs.AI]目的:長期的視覚言語モデルにおける分布外汎化の予測因子
    • 視覚言語モデルは,多様なタスクに応用可能であり,実用的な価値が高い。
    • 既存の研究では,最終的な回答の正確性のみが評価されることが多く,中間推論の視覚的根拠が不明確である。
    • モデルの中間推論が視覚情報と一貫性があるかを定量的に評価し,汎化性能との関係を明らかにする。
    • モデルのステップレベルでの視覚的根拠の忠実度(Step Grounding Rate: SGR)と,分布外データの保持率との間に強い相関関係が認められた(r = 0.83)。
    • SGRは,モデルの規模や学習データに依存せず,汎化性能を予測する独立した重要な要素であることが示された。
    • SGRは,カウンターファクチュアルなデータや異なるモデルアーキテクチャを用いた検証においても,一貫した結果を示した。

    Link: https://arxiv.org/abs/2603.06828

  • 剛体の運動レベル分析による動画セグメンテーション:MotionBits [cs.RO, math.OC, cs.RO, cs.CL, cs.GL, cs.DL, cs.RO, cs.CV, cs.RO]目的:剛体の運動レベル分析に基づく動画セグメンテーション手法
    • 現実世界での操作には剛体の理解が不可欠であり,ロボット工学や知能システムにおいて重要である。
    • 既存のセマンティックセグメンテーションでは,物理的な相互作用を捉えるための十分な情報が得られないという課題がある。
    • 剛体の運動に着目した新しいセグメンテーション概念を導入し,相互作用の理解を深めることを目指す。
    • 提案手法MotionBitsは,従来のセマンティックな意味に依存せず,剛体の運動特性に基づいて動画をセグメンテーションする。
    • 新たに作成したMoRiBoベンチマークにおいて,最先端の手法を大幅に上回る性能を達成した(macro-averaged mIoUで37.3\%向上)。
    • MotionBitsセグメンテーションは,後続の物理的相互作用の推論やロボット操作タスクにおいて有効であることが示された。

    Link: https://arxiv.org/abs/2603.06846