arXiv雑要約

画像・音声 - 2026/05/12 公開

  • フィッシャー市場における定数近似の困難性 [cs.GT, cs.CC]目的:フィッシャー市場における近似市場均衡の計算
    • 市場メカニズム設計において,効率的な資源配分は重要課題である。
    • 近似解の計算が困難な計算複雑性クラスに属する可能性がある。
    • 定数近似アルゴリズムの存在可能性を明らかにすること。
    • 本研究により,定数近似がPPAD困難であることが示された。
    • これは,多項式時間近似スキーム(PTAS)が存在しない可能性を示唆する。
    • 1/11より良い近似を計算することの困難性も証明された。

    Link: https://arxiv.org/abs/2605.10802

  • PhyGround:生成型ワールドモデルにおける物理的推論のベンチマーク [cs.CV, cs.AI, cs.LG]目的:生成型ワールドモデルにおける物理的推論の評価基準
    • 動画生成技術の発展に伴い,現実世界の物理法則を反映したシミュレーションが重要になっている。
    • 既存の物理学に焦点を当てた動画ベンチマークは,評価の粗さ,アノテーションのバイアス,自動評価の不十分さなどの課題を抱えている。
    • 物理法則に基づいた詳細な評価と,より信頼性の高い自動評価手法の開発を目指す。
    • PhyGroundは,250のプロンプトと13の物理法則に基づく評価基準を備えたベンチマークである。
    • 大規模な人間による評価実験の結果,モデル間の順位付けの相関性が高いことが確認された。
    • PhyJudge-9Bは,Gemini-3.1-Proよりも大幅に低いバイアスを示す,物理に特化したVLMである。

    Link: https://arxiv.org/abs/2605.10806

  • ALAM:視覚・言語・行動モデルのための代数的に整合的な潜在的遷移 [cs.RO, cs.AI, cs.CV]目的:視覚・言語・行動モデルにおける潜在的行動遷移の学習
    • ロボットの行動データは不足がちであり,視覚と言語を結びつける行動モデルの開発が重要である。
    • 既存の潜在的行動モデルは,再構成性能は高いが,ロボットの行動生成に必要な構造が不足している。
    • 視覚データから得られる物理世界の遷移構造を,代数的な整合性を通して潜在的遷移に組み込む。
    • ALAMは,再構成と代数的な整合性(合成と反転の一貫性)による正則化を組み合わせた潜在的行動モデルである。
    • ALAMの潜在的遷移をVLA学習の補助目標として活用することで,ロボットの行動生成性能が大幅に向上した。
    • MetaWorld MT50とLIBEROにおいて,成功率がそれぞれ47.9%から85.0%,94.1%から98.1%へと向上し,実世界の操作タスクでも同様の効果が確認された。

    Link: https://arxiv.org/abs/2605.10819

  • 潜在的後方サンプリングによる3次元構造予測 [cs.CV, cs.LG]目的:3次元構造予測手法
    • 画像生成モデルやニューラルフィールド表現の発展から,3次元シーン理解への新たな可能性が生まれている。
    • 3次元再構成には不確実性が伴うため,それを適切に扱う方法が課題であった。
    • 拡散モデルを用いた後方サンプリングにより,不確実性を考慮した3次元再構成を可能にする。
    • 本研究では,NeRFと拡散モデルを組み合わせた手法を提案し,多様な入力条件(単眼画像,多眼画像,ノイズ画像など)から高精度な3次元構造予測を実現した。
    • 3次元シーンを確率的潜在変数として表現することで,観測データに基づいた不確実性のモデリングと推論を可能にした。
    • 2段階の学習プロセス(再構成モデルの学習と潜在空間の事前分布の学習)により,高い再構成性能と汎化性能を両立した。

    Link: https://arxiv.org/abs/2605.10830

  • MMVIAD:産業異常検知のためのマルチビューマルチタスク動画理解 [cs.CL, cs.CV, cs.AI]目的:産業異常検知のためのマルチビューマルチタスク動画データセットおよびベンチマーク
    • 製造品質管理において,異常検知は不可欠であり,製品の信頼性向上に貢献する。
    • 既存のデータセットは静止画や限定的な視点に偏っており,実際の検査プロセスを反映できていない。
    • 連続的な複数視点からの動画データを用いて,より高精度な異常検知と理解を目指す。
    • MMVIADは,48種類の対象物,14の環境,6種類の構造的異常を含む,初の連続マルチビュー動画データセットである。
    • 既存の動画MLLMは,特に微細な欠陥認識と時間的局在化において,人間の性能を大きく下回る。
    • VISTAは,PS-SFTとVISTA-GRPOによるPost-trainingによりMMVIAD-Unseenでベースモデルを大きく上回り,GPT-5.4を凌駕する性能を示した。

    Link: https://arxiv.org/abs/2605.10833

  • Transcoda:データ中心型合成トレーニングによるゼロショット光学音楽認識 [cs.CV, cs.LG]目的:光学音楽認識の性能向上
    • 楽譜のデジタル化需要が高まる中,楽譜認識技術は重要な役割を担う。
    • 実楽譜の注釈付きデータセットが不足しており,高性能なモデルの学習が困難である。
    • 合成データと正規化,文法に基づくデコードにより,この課題を解決する。
    • 高度な合成データ生成パイプラインにより,少ないパラメータ数で高性能なモデルを実現した。
    • 新たに作成したベンチマークにおいて,最先端のシステムを上回る性能を達成した(OMR-NEDスコア18.46%)。
    • 歴史的なポーランド楽譜のスキャンにおけるエラー率を低減させた(OMR-NEDスコア63.97%)。

    Link: https://arxiv.org/abs/2605.10835

  • BabelDOC:中間表現によるレイアウト保持型PDF翻訳の改善 [cs.CV, cs.CL]目的:レイアウト保持型PDF翻訳のためのフレームワーク
    • グローバル化に伴い,多言語コミュニケーションの重要性が増しており,PDFなどの視覚的に豊かな文書の翻訳が課題となっている。
    • 既存の翻訳パイプラインでは,言語処理とレイアウト保持のバランスが難しく,構造メタデータの損失や再レンダリングの困難さがある。
    • BabelDOCは,レイアウトと内容を分離し,高品質なレイアウト保持と翻訳精度の両立を目指す。
    • BabelDOCは,中間表現(IR)を用いてPDFの翻訳を行い,用語抽出や複数ページにわたる文脈の考慮を可能にした。
    • 実験の結果,BabelDOCは既存のベースラインと比較して,レイアウトの忠実度,視覚的品質,用語の一貫性を向上させた。
    • BabelDOCは,GitHubで8.4K以上のスターと17人の貢献者を集め,活発に開発されている。

    Link: https://arxiv.org/abs/2605.10845

  • 検証の蜃気楼:医療VQAにおける自己検証の信頼性境界のマッピング [cs.CV]目的:医療VQAにおける自己検証の信頼性境界の特定
    • 医療画像と質問応答は,診断支援や治療計画に不可欠であり,その精度向上が重要。
    • 自己検証は安全対策として用いられるが,その信頼性が十分に検証されていない。
    • 自己検証の限界を明らかにし,より安全な医療VQAシステムの開発に貢献。
    • 自己検証は,生成された回答を検証する際,生成器と検証器の能力が結びついているため,誤った回答を肯定する「検証の蜃気楼」を生じさせる。
    • 知識集約的な臨床タスクほど「蜃気楼」に陥りやすく,単純なタスクほど抵抗性があることが判明した。
    • 自己検証は独立した安全信号を提供せず,検証器のエラーと同意バイアスは生成器が誤っている場合に増加する傾向にある。

    Link: https://arxiv.org/abs/2605.10850

  • あなたの運転ワールドモデルは万能選手か? [cs.CL, cs.CV, cs.RO]目的:運転ワールドモデルの忠実度評価
    • 自動運転技術開発において,現実世界を忠実に再現したシミュレーション環境が不可欠である。
    • 既存のワールドモデルは,見た目のリアルさに偏重し,物理法則や行動の一貫性に課題がある。
    • 視覚的な魅力だけでなく,物理的・行動的な忠実性を包括的に評価する手法が求められている。
    • WorldLensは,画質,4D幾何学,閉ループ運転,人間知覚の整合性など,ワールドモデルの忠実度を多角的に評価するベンチマークである。
    • 評価の結果,既存モデルはいずれも全ての軸で優位性を示すものはなく,得意分野と不得意分野が存在することが明らかになった。
    • WorldLens-26KとWorldLens-Agentにより,数値スコアとテキストによる理由付けに基づいた人間評価との整合性が可能となった。

    Link: https://arxiv.org/abs/2605.10858

  • マスク化生成Transformerは画像編集に必要なもの [cs.CV, cs.LG]目的:画像編集におけるMasked Generative Transformer(MGT)の有効性
    • 画像編集技術は,多様な応用分野で重要であり,その進歩が求められている。
    • 拡散モデルは強力だが,編集領域以外の意図しない箇所への影響が課題となっている。
    • MGTを用いることで,編集領域を局所的に制御し,不要な影響を抑制することを目指す。
    • EditMGTは,MGTを基盤とする新しい画像編集フレームワークであり,従来の拡散モデルと比較して編集速度が6倍向上する。
    • EditMGTは,クロスアテンションマップの集約とリージョンホールドサンプリングにより,編集領域の局所性を高めている。
    • 2Mサンプルからなる高解像度編集データセットCrispEdit-2Mを用いて,最先端の性能を達成している。

    Link: https://arxiv.org/abs/2605.10859

  • BenchCAD:プログラムによるCADのための包括的な業界標準ベンチマーク [cs.DC, cs.CL, cs.CL, cs.AI, cs.CV, cs.SE]目的:産業用CADコード生成の評価基準
    • 製造業における設計・製造の効率化に貢献するCAD自動化の重要性が高まっている。
    • 既存のベンチマークでは,実務的なCAD環境における性能評価が不十分であった。
    • マルチモーダル大規模言語モデルの産業用CAD分野への応用可能性を探求し,その限界を明らかにする。
    • BenchCADは,106の産業用部品ファミリー,17,900の実行検証済みCadQueryプログラムを含む統一ベンチマークである。
    • 現在の最先端モデルは,外形形状の認識はできるものの,忠実なパラメータCADプログラムの生成には課題があることが示された。
    • ファインチューニングや強化学習は性能を向上させるものの,未知の部品ファミリーへの汎化性能は限定的である。

    Link: https://arxiv.org/abs/2605.10865

  • BEACON:ゲームプレイデータからの行動指紋学習のためのマルチモーダルデータセット [cs.CR, cs.AI, cs.CV, cs.LG, cs.NI]目的:ゲームプレイデータからの行動指紋学習を目的とするマルチモーダルデータセット
    • 高リスクなデジタル環境では継続的な認証が重要であり,その実現には詳細な行動シグナルが必要不可欠である。
    • 既存のベンチマークは,規模が小さい,単一のセンシングに限定される,環境情報の同期がないなどの課題を抱えている。
    • 本研究は,これらの課題を解決し,高精度な行動生体認証技術の開発を促進することを目的とする。
    • BEACONデータセットは,競技性の高いValorantゲームプレイにおける多様なスキル層を捉えた,大規模なマルチモーダルデータセットである。
    • 約430GBの同期された多様なモダリティデータ(マウス,キーストローク,ネットワークパケット,画面記録など)を含み,行動生体認証の厳密なストレステストを提供する。
    • 本データセットとコードはHugging FaceおよびGitHubで公開され,次世代の行動指紋認証・セキュリティモデルの評価のための再現可能なベンチマークとなる。

    Link: https://arxiv.org/abs/2605.10867

  • CADBench:AI支援CADプログラム生成のためのマルチモーダルベンチマーク [cs.CV, cs.AI]目的:AI支援設計のためのCADプログラム生成に関する評価基準
    • AIを活用した設計は効率化に貢献するが,その進捗を客観的に評価する基準が重要である。
    • 既存の評価は,データセット,モダリティ,評価指標が分断されており,公平な比較が困難である。
    • 多様な入力と評価指標を用いた統一的なベンチマークにより,CADプログラム生成の進捗を正確に測る。
    • CADBenchは,DeepCAD,Fusion 360等のデータセットを含む18,000件の評価サンプルを提供する。
    • メッシュ,レンダリング画像など5種類の入力モダリティと,幾何学的忠実度,実行可能性等の6つの評価指標に対応。
    • 専門モデルは理想的な入力下で優位性を示すが,複雑な形状やモダリティの変化に弱いという課題が明らかになった。

    Link: https://arxiv.org/abs/2605.10873

  • 幾何構造を考慮したプロトタイプ学習によるクロスコープ少数ショット医用画像セグメンテーション [cs.RO, cs.CV]目的:クロスコープ少数ショット医用画像セグメンテーションにおけるモデルの汎化性能向上
    • 医用画像解析は,病変の早期発見や治療効果の向上に不可欠であり,その重要性は高い。
    • 少数ショット学習では,アノテーション不足が課題であり,特に異種データへの汎化が困難である。
    • 解剖学的構造というドメイン汎化可能な情報を活用し,少数ショット学習の精度向上を目指す。
    • 提案手法GeoProtoは,プロトタイプマッチングに幾何学的構造を明示的に組み込むことで,ドメインシフト下での信頼性向上を実現した。
    • GAPEは,臓器内の位置情報を幾何学的オフセットとしてエンコードし,プロトタイプを強化する。
    • 7つのデータセットによる実験の結果,GeoProtoは最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.10885

  • あらゆる粒度でのあらゆるものの数え方 [cs.CV]目的:オープンワールドにおける物体の数え方の改善
    • 画像認識と自然言語処理の進展により,人間らしい物体の数え方が求められている。
    • 既存手法では,数える対象の粒度(種類,属性,個体など)が曖昧になりがちである。
    • 本研究は,数える対象の粒度を明示的に指定することで,より正確な物体数えを実現する。
    • 本研究では,視覚的な例とテキストによる指示を組み合わせることで,多粒度での物体数えを可能にする。
    • 大規模なデータセットKubriCountを構築し,多様なシーンと詳細なアノテーションを提供することで,評価の信頼性を高めた。
    • 提案手法HieraCountは,既存モデルと比較して,多粒度での物体数えにおいて大幅な精度向上を示した。

    Link: https://arxiv.org/abs/2605.10887

  • 画像分類モデルに対する反事実的ストレステスト [cs.CL, cs.CV]目的:画像分類モデルの頑健性評価
    • 医療画像における深層学習は有用だが,臨床環境の変化に弱いため,信頼性の評価が重要である。
    • 既存のストレステストは,現実的でない摂動を用いるため,過大評価や誤ったモデル比較が生じることがある。
    • 因果生成モデルを用いて,臨床的に意味のある変化を反映した反事実的画像を生成し,より正確な頑健性評価を目指す。
    • 反事実的ストレステストは,従来の摂動と比較して,実分布外性能をより正確に予測できることが示された。
    • 性能変化の方向性と相対的な大きさ,そしてモデルのランク付けにおいて,高い一致性が見られた。
    • 因果生成モデルが,医療AIシステムの展開前の頑健性評価のための実用的なシミュレーターとして機能する可能性が示唆された。

    Link: https://arxiv.org/abs/2605.10894

  • 不完全情報拡張ゲームにおける効果的,効率的,汎用的な情報抽象化 [cs.GT]目的:不完全情報拡張ゲームにおける情報抽象化手法
    • 不完全情報ゲームは複雑であり,計算コストが高い。現実的な規模のゲームを解くためには,計算量の削減が不可欠である。
    • 既存の情報抽象化手法は,特定のゲームに依存したり,大規模な事前学習が必要となるなど,汎用性に課題がある。
    • ドメイン知識や事前学習なしに,効果的かつ効率的に情報抽象化を行うことによって,計算コストを削減し,ゲームの解を改善する。
    • 提案手法WEVAは,事前に行う少数のCFR反復によって得られる期待値を特徴量として用いることで,既存手法よりも高い性能を発揮する。
    • 特に,WEVAは公平性に基づく抽象化やランクに基づく抽象化と比較して,最大80%以上搾取可能性を低減することを示した。
    • わずか10回のウォームアップ反復で既存手法を上回る抽象化が可能であり,その効果と効率性が確認された。

    Link: https://arxiv.org/abs/2605.10900

  • CapVector:Vision-Language-Actionモデルのためのパラメーター空間における転移可能な能力ベクトルの学習 [cs.CV, cs.RO]目的:事前学習済みVLAモデルにおける性能向上と適応コスト削減
    • 視覚,言語,行動を統合したVLAモデルは,多様なタスクへの応用が期待されており,その重要性が高まっている。
    • 標準的な教師ありファインチューニングでは,性能向上が限定的で,適応コストが高いという課題が存在する。
    • 補助的な目的関数を用いたファインチューニングの利点を,計算コストを抑えつつ実現することを目指している。
    • 提案手法であるCapVectorは,異なる訓練戦略で得られたモデル間のパラメータ差を能力ベクトルとして捉える。
    • この能力ベクトルを事前学習済みパラメータに統合することで,補助的なファインチューニングと同等の性能を軽量な正則化損失と合わせて達成する。
    • 実験により,CapVectorは多様なモデルや新しい環境,具現化において有効であることが示された。

    Link: https://arxiv.org/abs/2605.10903

  • 信頼度誘導拡散データ拡張によるバングラ複合文字認識の性能向上 [cs.CV, cs.AI]目的:バングラ複合文字認識における性能向上
    • 文字認識技術は,デジタル化された文書の処理や情報の抽出において重要な役割を担う。
    • バングラ文字は複雑な構造と多様な書式を持つため,特に複合文字の認識は困難を伴う。
    • 高品質な学習データ不足を補い,多様な書式への汎化性能を高めることが課題である。
    • 提案手法では,信頼度を考慮した拡散データ拡張により,低解像度のバングラ複合文字認識の性能を向上させた。
    • Squeeze-and-Excitation機構を組み込んだ拡散モデルと,信頼度に基づくフィルタリングを導入した点が特徴である。
    • AIBanglaデータセットでの実験により,ResNet50,DenseNet121,VGG16,Vision Transformerなどのアーキテクチャで一貫した性能向上が確認された。最高精度は89.2%を達成し,既存のベンチマークを大幅に上回る結果となった。

    Link: https://arxiv.org/abs/2605.10916

  • Pixal3D:画像からのピクセルアライン3D生成 [cs.RO, cs.CV]目的:画像からの高忠実度3Dアセット生成
    • 3D生成モデルの進歩は目覚ましいが,入力画像との忠実度が課題である。
    • 既存手法では,2D-3D間の対応関係が曖昧になり,ピクセルレベルでの正確性が低い。
    • ピクセルアライン生成により,曖昧さを解消し,高忠実度な3D生成を実現する。
    • Pixal3Dは,3Dアセット生成において,従来法と同等の忠実度を達成した。
    • ピクセルバックプロジェクションにより,画像特徴を3D空間に明示的に対応付けた。
    • マルチビュー生成やシーン合成にも拡張可能であり,高忠実度な3Dシーン生成を実現する。

    Link: https://arxiv.org/abs/2605.10922

  • ニューラル傾きを用いたレヴィ過程駆動確率微分方程式の変分推論 [cs.LG, cs.AI, cs.CV, cs.RO, stat.ML]目的:レヴィ過程駆動確率微分方程式における変分推論手法
    • 金融,気候科学,安全重視AIなど,予測システムの信頼性向上において極端事象のモデリングは重要である。
    • レヴィ過程はジャンプや重い裾を捉えるのに適しているが,ベイズ推論は既存手法では困難である。
    • ニューラルネットワークによる柔軟な変分族を構築し,レヴィ過程のジャンプ構造を捉えつつ,効率的な推論を実現する。
    • 提案手法は,レヴィ測度をニューラルネットワークで再重み付けするニューラル指数傾きフレームワークを導入した。
    • このパラメトリック化は,ガウス近似に依存せず,ジャンプ構造を保持しつつ計算可能である。
    • 合成データおよび実世界データにおいて,ガウスベースの手法が失敗する領域でも,ジャンプダイナミクスを正確に捉え,信頼性の高い事後推論ができた。

    Link: https://arxiv.org/abs/2605.10934

  • 大規模マルチモーダルモデルにおけるパーソナル視覚的文脈学習 [cs.CV]目的:パーソナル視覚的文脈学習の実現
    • ウェアラブルデバイスの進化により,個人の視覚情報を活用した高度なアシスタントが求められている。
    • 既存モデルは,個人の視覚的文脈を効果的に活用できていない点が課題である。
    • 個人の視覚的文脈を学習し,パーソナライズされたクエリに答える能力を獲得することを目指す。
    • 本研究では,個人ごとの視覚世界を包括的に捉えたベンチマークPersonal-VCL-Benchを提案した。
    • 最先端のLMMの分析から,視覚的証拠の活用や複数観察の集約に課題があることが明らかになった。
    • Agentic Context Bankという推論時のベースラインを提案し,標準的なプロンプティング手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2605.10936

  • テキスト画像モデルのパワー強化後学習:超線形アドバンテージシェーピング [cs.CV]目的:テキスト画像モデルの後学習におけるパワー強化手法
    • 近年,テキスト画像モデルの性能向上において,強化学習に基づく後学習が有効性が示されている。
    • 既存手法は,不完全な報酬関数におけるバイアスを利用した報酬ハッキングが起こりやすいという課題がある。
    • 報酬ハッキングを抑制し,真の性能向上を促すための新たな後学習手法を提案する。
    • 本研究では,情報幾何学の視点から,超線形アドバンテージシェーピング(SLAS)を提案した。
    • SLASは,アドバンテージに依存する重み付けにより,局所的なポリシー空間の形状を非線形に変化させる。
    • 実験結果から,SLASは既存手法と比較して,学習速度の向上,汎化性能の向上,報酬ハッキングの抑制に優れることが示された。

    Link: https://arxiv.org/abs/2605.10937

  • ビデオオブジェクト中心学習における時間的一貫性の再考:予測から対応関係へ [cs.CV, cs.AI, cs.LG]目的:ビデオオブジェクト中心学習における時間的一貫性の維持
    • ビデオ理解において,オブジェクトの追跡と認識は重要な課題である。特に,時間的な一貫性を保つことが不可欠。
    • 既存手法では,時間的予測に学習されたダイナミクスモジュールを用いるため,計算コストが高いという問題があった。
    • 事前学習済みの特徴量を利用し,学習パラメータを用いない時間モデリングの実現を目指す。
    • 本研究では,学習された遷移関数を決定論的な二部マッチングに置き換える「Grounded Correspondence」フレームワークを提案。
    • このフレームワークは,時間モデリングのための学習パラメータを必要とせず,MOVi-D,MOVi-E,YouTube-VISで競争力のある性能を達成。
    • 特徴量に基づくオブジェクトの一貫性を保つことで,高コストな時間予測を回避する。

    Link: https://arxiv.org/abs/2605.03650

  • 人間行動認識のためのモジュール型検索拡張汎化 [eess.SP, cs.CV, cs.LG]目的:人間行動認識における汎化性能の向上
    • 活動認識は,健康管理やヒューマンコンピュータインタラクション等,多様な応用分野で重要性が増している。
    • IMUデータを用いた活動認識は,学習データ不足や知識の静的利用が課題であり,実用化の妨げとなっている。
    • 本研究は,学習データが少ない状況下でも頑健な認識を可能にするための手法を提案する。
    • 提案手法MoRAは,既存の活動認識モデルに容易に組み込むことができ,推論効率を維持しつつ認識性能を向上させる。
    • MoRAは,検索結果の情報冗長性や融合戦略の硬直性を解消するため,不確かさ適応型融合ユニットを導入している。
    • 10種類の現実世界のデータセットを用いた実験により,MoRAが既存のIMUベースの活動認識モデルの性能を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2605.08117

  • 粗→微:意味階層的分類のための段階的画像圧縮 [eess.IV, cs.CV]目的:意味階層に基づいた画像圧縮における段階的符号化
    • 画像認識の性能向上には,効率的な画像圧縮技術が不可欠である。
    • 既存の段階的圧縮は,サンプル難易度への適応に偏り,意味レベルでのスケーラビリティが不足している。
    • 意味階層を考慮した段階的符号化により,低ビットレートでの粗いレベル認識精度を向上させる。
    • 提案手法は,低ビットレートにおいて粗いレベルの認識精度を大幅に向上させることを実験的に示した。
    • より高いビットレートでは,微細な認識精度を維持しながら,効率的なタスク適応型画像符号化を実現する。
    • 既存の段階的符号化方式と比較して,階層的評価において優れた性能を示す。

    Link: https://arxiv.org/abs/2605.08266

  • ニューラル場とテンソル積展開を用いたモデルベース動的3D MRI再構成 [eess.IV, cs.CV]目的:動的3D MRIの再構成手法
    • 心臓などの動的撮像には高空間分解能が必要であり,そのためのMRI技術は重要である。
    • 従来のMRI再構成法はメモリ消費量が大きく,構造的情報を十分に活用できていない。
    • 高加速撮像下でも高画質を維持できる再構成手法を確立すること。
    • 提案手法は,従来のモデルベース再構成法と比較して,動的2Dおよび3D MRIにおいて優れた性能を示した。
    • 高加速撮像(例えば,加速係数16)下でも,構造と動きを正確に保持できることが確認された。
    • ニューラル場とテンソル積展開を用いることで,メモリ効率が向上し,高次元空間における最適化が可能となった。

    Link: https://arxiv.org/abs/2605.08275

  • cGANベースラインによる画像品質向上とベンチマークのためのPoint-of-Care超音波ペアデータセット [eess.IV, cs.AI, cs.CV]目的:Point-of-Care超音波(POCUS)画像の品質向上
    • 迅速かつ低コストなPOCUSは,医療現場での診断ニーズが高まっている。
    • POCUSの画像品質は,高額な診断用超音波装置に比べて劣ることが課題である。
    • 低価格帯POCUS画像の品質を,深層学習を用いて向上させることを目指す。
    • 提案手法により,SSIMが0.29から0.54へ,PSNRが19.16dBから22.41dBへと改善した。
    • 参照不要指標においても画像品質が向上し,NIQEとPIQEスコアがそれぞれ低下した。
    • 本研究は,低価格帯POCUSと高画質超音波画像のペアデータセットを公開し,POCUSの診断価値向上に貢献する。

    Link: https://arxiv.org/abs/2605.08282

  • 糖尿病網膜症グレード判定のためのクロスモーダル意味論強化拡散フレームワーク [eess.IV, cs.CV]目的:糖尿病網膜症のグレード判定
    • 糖尿病網膜症は,失明の主要な原因であり,早期発見と適切な治療が重要である。
    • 既存の画像解析手法では,微細な病変の識別や,異なる撮影環境への適応が困難である。
    • 臨床的知識と画像情報を統合し,より正確なグレード判定を実現すること。
    • 提案手法は,APTOS 2019データセットにおいて,87.5%の精度と0.731のmacro-averaged F1スコアを達成した。
    • ビジョンと自然言語処理の事前学習モデルを組み合わせることで,既存手法を上回る性能を示した。
    • 低ランク適応(LoRA)を用いることで,少ないパラメータでモデルを適応させ,汎化性能を高めた。

    Link: https://arxiv.org/abs/2605.09242

  • ML-CLIPSim:機械学習指向画像品質評価のための多層CLIP類似度 [eess.IV, cs.CV, cs.MM]目的:機械学習モデルの性能維持に資する画像品質の評価
    • 画像品質評価は,画像処理技術の発展において不可欠であり,様々な応用分野で重要である。
    • 従来の画像品質評価指標は,人間の視覚特性に最適化されており,機械学習モデルの性能との乖離が生じることがある。
    • 機械学習モデルの性能維持を直接反映する画像品質評価指標を開発し,機械学習の応用を促進すること。
    • ML-CLIPSimは,従来の指標よりも機械学習モデルの嗜好とより一致することが示された。
    • 人間の視覚品質予測においても競争力のある性能を発揮した。
    • 圧縮歪み項として使用することで,複数の下流タスクにおいてレート-タスク間のトレードオフを改善した。

    Link: https://arxiv.org/abs/2605.09479

  • 胎児脳MRIにおける胎児脳室周囲出血の検出・セグメンテーションのためのアノテーションフリー深層学習 [eess.IV, cs.CV]目的:胎児脳室周囲出血の自動検出およびセグメンテーションのためのアノテーションフリー深層学習フレームワークの開発と検証
    • 周産期の脳室周囲出血は乳児死亡および神経発達障害の主要な原因であり,早期発見が重要である。
    • 手動による診断や病変のセグメンテーションには労力と時間がかかり,誤りも生じやすいという課題がある。
    • アノテーションされた大規模データセットなしに,脳室周囲出血の自動検出・セグメンテーションを実現することを目的とする。
    • FreeHemoSegは,内部検証において感度0.914,特異度0.966,DSC 0.559という高い性能を達成した。
    • 外部検証においても,それぞれ感度0.824,特異度0.943,DSC 0.512と良好な結果を示し,既存手法を上回った。
    • FreeHemoSegの支援は,放射線科医の感度を向上させ,診断の確信度を高め,読影時間を短縮する効果が認められた。

    Link: https://arxiv.org/abs/2605.09575

  • 不確実性に基づく二領域学習による信頼性の高い皮膚病変セグメンテーション [eess.IV, cs.CV]目的:信頼性の高い皮膚病変セグメンテーションの実現
    • 皮膚科領域におけるコンピュータ支援診断において,正確な病変認識が不可欠である。
    • 視覚的な曖昧さや形状の不規則性がセグメンテーションの精度を低下させる。
    • 予測不確実性を活用し,ドメイン間の融合とラベルノイズへの過学習を防ぐ。
    • 提案手法UGDD-Netは,ISIC2017, ISIC2018, PH2, HAM10000データセットで最先端の性能を達成した。
    • 特に「困難なサンプル」において高い性能を示し,専門家間の可変性との一致も確認された。
    • 不確実性マップは解釈可能性を提供し,人間と機械の協調的な診断を支援する。

    Link: https://arxiv.org/abs/2605.09600

  • XTinyU-Net: 初期化時の感度を用いたU-Netのスケーリング [physics.ed-ph, cs.CY, physics.app-ph, eess.IV, cs.CE, physics.comp-ph, eess.IV, cs.CV]目的:リソース制約のある環境におけるU-Netの効率的な構成の自動特定
    • 医療画像セグメンテーションにおいて,U-Netは依然として標準的なアーキテクチャである。
    • 最適な効率化構成を見つけるには計算コストがかかり,徹底的な学習と評価が必要となる。
    • 学習を必要とせずに,初期化時に安定した最小構成を特定すること。
    • 提案手法XTinyU-Netは,nnU-Netのベースラインと同等のセグメンテーション精度を,パラメータ数を400倍~1600倍削減して達成した。
    • XTinyU-Netは,他の軽量アーキテクチャと比較してパラメータ数を5倍~72倍削減しながら,性能を上回った。
    • 初期化時のヤコビアンに基づく感度指標を用いて,データセット固有の最小構成を効率的に特定する。

    Link: https://arxiv.org/abs/2605.09639

  • 実校正された合成優先データエンジン [eess.IV, cs.CV, cs.GR, cs.LG]目的:データ不足領域におけるコンピュータビジョンシステムの性能向上
    • データ収集が困難な分野で,高品質な学習データの確保が重要となっている。
    • 合成データによる拡張は,データセット全体の品質とフィードバック不足により不安定になりがちである。
    • 実データと合成データの組み合わせによるデータ拡張の信頼性を高めることを目指す。
    • 合成データを,少量の人的アノテーションコストで実データ拡張に利用することで,性能向上が確認された。
    • 合成データのみでの学習は,実データのみでの学習に比べて大幅に性能が劣るという結果が出た。
    • セグメンテーション診断においても,同様のドメインギャップのパターンが確認された。

    Link: https://arxiv.org/abs/2605.09699

  • 光子数制限下における測定適応固有タスク表現 [physics.optics, cs.CV, cs.ET]目的:低光量イメージングにおける測定ノイズを考慮した,光センサー出力の表現方法
    • 低光量イメージングは,暗い環境での視覚情報の取得に不可欠であり,様々な応用分野で重要である。
    • 光子数制限下では,測定ノイズが顕著になり,高次元センサー測定の表現が推論精度に大きな影響を与える。
    • ノイズに対する分解能に基づいて特徴を並べ替えることで,より効率的な表現を構築し,推論精度を向上させる。
    • 固有タスク表現は,レンズベースの光学イメージングシステムと単一光子検出ニューラルネットワークのデータにおいて,標準的な手法と比較して優れた性能を示した。
    • 特に,光子数が制限された,少数のサンプルを用いた,または難度の高い分類タスクにおいて,その優位性が顕著であった。
    • 少数のクラス分類において,他の手法と比較して約10パーセントポイントの性能向上を達成し,サンプル効率の高い学習を可能にした。

    Link: https://arxiv.org/abs/2605.10008

  • PoDAR:生成モデリングのための電力分離オーディオ表現 [eess.AS, cs.AI, cs.LG, cs.SD]目的:生成モデリングにおける電力と意味内容の分離
    • 音声生成モデルの性能向上は,技術進歩の鍵であり,高品質な音声合成への期待が高まる。
    • 潜在空間のモデリングが困難であり,生成モデルの収束速度や最終的な性能を制限する要因となる。
    • 信号の電力と意味内容を分離し,潜在空間のモデリングを容易にすることで,性能向上を目指す。
    • PoDARは,ランダムな電力拡張と潜在的な一貫性目的を利用して,電力と意味内容を分離する。
    • Stable Audio 1.0 VAEとF5-TTSジェネレーターに適用した結果,収束が約2倍に加速された。
    • LibriSpeech-PCデータセットにおいて,スピーカー類似度が0.055向上,UTMOSが0.22向上した。

    Link: https://arxiv.org/abs/2605.10084

  • 可変長・可変コントラスト心臓MRIにおける集合に基づくグループワイズ登録 [eess.IV, cs.CV]目的:可変長・可変コントラスト心臓MRIシーケンスにおけるロバストなモーション補正
    • 心臓MRIは非侵襲的な心筋組織特性評価を可能にするが,その精度はモーション補正の質に大きく依存する。
    • 既存の深層学習ベースのグループワイズ登録法は,シーケンス長や入力順序,コントラストダイナミクスに依存し,異なるプロトコルへの汎化が困難である。
    • 本研究は,シーケンス長や入力順序に依存しない,より汎用性の高いグループワイズ登録フレームワークを開発し,異なるプロトコルへの適応を可能にすることを目指す。
    • 提案手法AnyTwoRegは,MRIシーケンスを順序を持たない集合として扱うことで,ネットワーク設計とシーケンス長の依存関係を解消した。
    • 単一のパブリックデータセット(STONE, L=11)で学習したAnyTwoRegは,未知のデータセット(MOLLI, ASL)に対し,ゼロショットで優れた汎化性能を示した。
    • 本フレームワークは,定量MRIだけでなく,心臓周期間登録のためのシネMRIにも直接適用可能である。

    Link: https://arxiv.org/abs/2605.10571

  • マルチモーダル大規模言語モデルによるリモートセンシング活動検知の時空間理解 [physics.soc-ph, cs.SI, math.OC, cs.MA, cs.RO, cs.SY, eess.SY, eess.IV, cs.AI, cs.CV]目的:リモートセンシング活動検知における時空間理解
    • 災害監視や都市計画など,社会課題解決にリモートセンシング技術の活用が不可欠である。
    • 既存手法では,衛星画像から活動を正確に認識し,その時系列変化を理解することが困難である。
    • 言語モデルを活用し,リモートセンシング画像の時空間的変化を理解する新たな手法を確立する。
    • SMART-HC-VQAデータセットを構築し,Sentinel-2画像を用いた視覚的質問応答を可能にした。
    • 画像ペアの組み合わせによるデータ拡張により,時系列比較のためのデータ量を大幅に増加させた。
    • LLaVA-NeXT Mistral-7Bを基盤としたマルチ画像MLLMフレームワークを実装し,メタデータ由来のVQA事例で学習させた。

    Link: https://arxiv.org/abs/2605.10739

  • 位相のずれのないシワ:周波数ベース損失を用いた布の弾性パラメータ推定 [cs.GR]目的:布の弾性パラメータ推定手法
    • オンライン小売やデジタルアバターなど,仮想アプリケーションにおけるリアルな衣服生成は重要である。
    • 既存の手法は,複雑で高価な特殊なキャプチャ装置を必要とする点が課題である。
    • 容易にキャプチャ可能な現実世界の生地からパラメータを自動的に決定する手法を提案する。
    • 提案手法は,シワを考慮した周波数ベースの損失関数を用いることで,異なるシワの配置でも同じ素材に対して類似したパラメータ値を生成する。
    • まず曲げ剛性を推定し,膜剛性が曲げに与える影響が小さいことを利用している。
    • キャプチャ方法と最適化を分離することで,キャプチャシステムを簡素化し,スキャンされた生地のシワを許容する。

    Link: https://arxiv.org/abs/2212.08790

  • 多人数確率的ゲームにおける戦略的価値と協力:サイドペイメントによる学習 [cs.GT, cs.AI]目的:多人数確率的ゲームにおける戦略的価値と協力の実現
    • 経済学や人工知能において,多人数間の協力的な行動を理解することは重要である。
    • ゲーム理論では,協力的な行動を促すためのメカニズム設計が難しい場合がある。
    • サイドペイメントを用いることで,協力が合理的になる条件を分析し,その価値を評価する。
    • ハーシャニ・シャプレイ値の拡張として,HS-SとCoco-Sという2つの価値概念が導入された。
    • 二者ゲームにおいてはHS-SとCoco-Sは一致するが,3者以上では不一致が生じることが示された。
    • Coco-Sの固定点存在と一意性,および新しいマルコフ一貫性公理による特徴付けが証明された。

    Link: https://arxiv.org/abs/2303.05307

  • 二重公平性パリティーゲーム [cs.CL, cs.GT]目的:公平性制約下の二者ゲームの決定性
    • ゲーム理論は,人工知能や経済学など,様々な分野で意思決定のモデル化に利用されている。
    • 公平性制約下のゲームは,通常のゲームに比べて解析が難しく,決定性の証明が課題であった。
    • 公平性制約下のパリティーゲームの決定性を証明し,効率的な解法を提案することを目的とする。
    • 公平性パリティーゲームが決定性を持つことが示された。
    • 公平性パリティーゲームを通常のパリティーゲームに多項式時間で帰着させるガジェット構成が提示された。
    • 直接的な記号固定点アルゴリズムによる公平性パリティーゲームの解法も提示され,ガジェット構成との関連性が議論された。

    Link: https://arxiv.org/abs/2310.13612

  • Attention-Mamba:Mamba強化マルチスケール並列推論ネットワークによる医用画像セグメンテーション [cs.CV, cs.AI, cs.LG]目的:医用画像セグメンテーションのためのマルチスケール並列推論ネットワーク
    • 医用画像セグメンテーションは,病変の正確な特定と診断に不可欠であり,医療の質向上に貢献する。
    • 従来のU字型アーキテクチャは暗黙的なスケール処理に依存し,Transformerは計算コストが高いという課題があった。
    • 本研究は,効率的かつ高精度な医用画像セグメンテーションを実現するため,Mambaを活用した新しいネットワークを提案する。
    • 提案手法は,MRI,CT,皮膚鏡画像など,複数の画像モダリティにおいて優れた汎化性能を示すことが確認された。
    • Synapse,ACDC,ISIC-2018,PH2データセットにおいて,最先端のCNN,Transformer,Mambaベースネットワークと比較して,最高のセグメンテーション性能を達成した。
    • パラメータ数は1405万,計算量は8.94GFLOPsと効率的であり,高性能と低計算コストを両立している。

    Link: https://arxiv.org/abs/2402.02286

  • SegSTRONG-C:非敵対的生成摂動に対する手術器具のセグメンテーションのロバスト性 -- EndoVis'24チャレンジ [cs.CV, cs.RO]目的:手術器具のセグメンテーションにおけるロバスト性の評価と向上
    • 手術データ科学は深層ニューラルネットワークの発展により急速に進歩しており,その応用が期待されている。
    • 深層ニューラルネットワークは,わずかな摂動に対しても脆弱であり,実用上の信頼性に課題がある。
    • 予測不能な摂動に対するロバスト性を評価し,改善策を検討することで,臨床応用を促進する。
    • SegSTRONG-Cチャレンジの結果,出血,煙,低照度といった摂動下で,平均DSC 0.9394,NSD 0.9301を達成した。
    • 事前の知識,カスタマイズされた学習戦略,アーキテクチャの選択が,ロバスト性の向上に貢献することが示された。
    • データ拡張以外の新たなパラダイムによる,未知の摂動に対する汎用的なロバスト性の向上が求められている。

    Link: https://arxiv.org/abs/2407.11906

  • ベータサンプリングですべてが足りる:ステップワイズスペクトル分析を用いた拡散モデルの効率的な画像生成戦略 [cs.CV, cs.AI]目的:拡散モデルにおける効率的な画像生成手法
    • 高品質な画像合成において,拡散モデルは強力なツールとして注目されている。
    • 拡散モデルの反復的な処理は,膨大な計算資源を必要とするという課題がある。
    • 重要なステップに焦点を当てることで,計算資源の効率的な活用を目指す。
    • 本研究では,拡散過程の画像スペクトル分析に基づいたベータ分布のようなサンプリング手法を提案した。
    • 実験の結果,ベータサンプリングは従来の均一サンプリングよりも優れたFIDおよびISスコアを達成した。
    • また,AutoDiffusionなどの最先端手法と比較しても,競争力のある効率性を示した。

    Link: https://arxiv.org/abs/2407.12173

  • LPT:視覚言語モデルのための過学習抑制プロンプトチューニング [cs.CV, cs.AI]目的:視覚言語モデルの過学習抑制と汎化性能向上
    • 視覚言語モデルは多様なタスクで高い性能を示すが,その汎用性が重要視されている。
    • プロンプトチューニングは効率的だが,過学習を起こしやすく,汎化性能が低下しやすい。
    • 本研究は,過学習を抑制し,視覚言語モデルの汎化性能を効果的に向上させることを目指す。
    • 提案手法LPTは,CLIPを用いて過学習を引き起こす可能性のある微細な情報をフィルタリングする。
    • 特徴量レベルで構造保存制約(SP)を導入し,モデル全体の特徴空間構造をCLIPと整合させる。
    • 出力層に階層的ロジット制約(HL)を適用し,出力におけるクラス情報を制御することで過学習を抑制する。

    Link: https://arxiv.org/abs/2410.10247

  • H-POPE:大規模ビジョン言語モデルにおける幻覚の評価のための階層型ポーリングに基づくプロービング評価 [cs.CV]目的:大規模ビジョン言語モデルにおける幻覚の評価
    • ビジョンと言語を組み合わせることで,多様なマルチモーダルタスクで著しい進歩が見られている。
    • モデルは,視覚入力とテキスト出力の間に不整合が生じる幻覚に悩まされることが多い。
    • 物体存在と属性に関する幻覚を体系的に評価するベンチマークを開発し,その原因を探る。
    • モデルは物体存在に関する幻覚を起こしやすく,特に細かい属性においてはその傾向が顕著であることが示された。
    • モデルがテキスト生成において視覚情報をどの程度利用しているかについても調査が行われた。

    Link: https://arxiv.org/abs/2411.04077

  • 事前学習済みモデルにおけるLoRAを用いた残差特徴量アラインメントによる機械的アンラーニング [cs.RO, cs.LG, cs.CV]目的:事前学習済みモデルからの特定データ削除手法
    • プライバシー保護の重要性が増し,学習データからのデータ削除技術が求められている。
    • モデル全体の再学習はコストが高く,特徴量のシフトによる性能低下も課題となる。
    • LoRAを活用し,効率的に特徴量を調整してデータ削除と性能維持を両立すること。
    • 本手法は,モデルの中間層特徴量を事前学習済みモデルにアラインメントすることで,効率的なアンラーニングを実現する。
    • LoRAによって残差特徴量を調整し,削除データと保持データの特性を分離することで,アンラーニングと性能維持を両立する。
    • 多様なデータセットでの実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2411.08443

  • 大規模視覚言語モデルと人物再識別 [cs.CL, cs.CV]目的:人物再識別の精度向上を目指した,大規模視覚言語モデルの活用
    • 近年,人物再識別において,より高精度な識別を実現するため,クロスモーダルな意味理解が重要視されている。
    • 大規模視覚言語モデルは生成的なパラダイムで動作する一方,人物再識別は識別的な特徴抽出が必要であり,その有効活用が課題である。
    • 大規模視覚言語モデルの持つ意味理解と生成能力を活かし,人物の特徴を効果的に表現するセマンティックトークンを生成することで,人物再識別の精度向上を目指す。
    • 提案手法LVLM-ReIDは,画像から重要な外見情報を要約したセマンティックトークンを生成し,視覚トークンとの相互作用を通じて精度を高める。
    • セマンティックトークンは,人物の識別表現として機能し,大規模視覚言語モデルの持つ潜在能力を最大限に引き出す。
    • 追加の画像テキストアノテーションなしで複数のベンチマークにおいて競争力のある結果を達成し,大規模視覚言語モデルが人物再識別の発展に貢献する可能性を示す。

    Link: https://arxiv.org/abs/2411.18111

  • Turbo-GS:高品質なラディアンスフィールドのための3Dガウス適合の高速化 [cs.CV]目的:3Dガウススプラッティングの適合過程の高速化
    • 新しい視点からの合成は,3D再構成,複合現実,ロボット工学など,コンピュータビジョンの重要な役割を担う。
    • 3Dガウススプラッティングは高品質だが,高解像度画像ではシーンの適合に時間がかかり,効率が課題である。
    • 計算オーバーヘッドを削減し,学習効率を向上させることで,3DGSの適合プロセスを加速することを目指す。
    • 提案手法により,4K解像度の高速な適合が可能となり,レンダリング品質を維持または向上させている。
    • dilated rendering techniqueにより,計算コストを大幅に削減し,学習効率を向上させている。
    • convergence-aware budget control mechanismにより,ガウスの追加と最適化のバランスを取っている。

    Link: https://arxiv.org/abs/2412.13547

  • PromptGuard:ソフトプロンプトによるテキスト-画像モデルの不適切なコンテンツ抑制 [cs.CV, cs.AI, cs.CR]目的:テキスト-画像モデルにおける不適切なコンテンツ生成の抑制
    • 近年のテキスト-画像モデルの発展は目覚ましいが,倫理的な問題も生じている。
    • テキスト-画像モデルは,性的,暴力的なコンテンツなど,不適切な画像を生成するリスクがある。
    • ソフトプロンプトを用いて,効率的に不適切なコンテンツ生成を抑制することを目指す。
    • PromptGuardは,テキスト-画像モデルの埋め込み空間内で機能するソフトプロンプトを最適化することで,不適切なコンテンツの生成を抑制する。
    • 本手法は,既存のコンテンツ抑制手法と比較して3.8倍高速であり,高い性能を示す。
    • 多頭安全分類器とVLMによる評価からも,その堅牢性が確認された(不適切なコンテンツの割合はそれぞれ5.84%と6.18%)。

    Link: https://arxiv.org/abs/2501.03544