arXiv雑要約

画像・音声 - 2026/04/28 公開

  • HalalBench:食品包装の成分抽出のための多言語OCRベンチマーク [cs.CV, cs.CL]目的:食品包装の成分抽出におけるOCR性能の評価
    • ハラール認証の自動化には,食品包装の正確な読み取りが不可欠である。
    • 既存のベンチマークは食品包装特有の課題(湾曲面,多言語,微細フォント)に対応できていない。
    • 食品包装に特化した多言語OCRベンチマークを構築し,性能評価を可能にすること。
    • HalalBenchは,14言語に対応した1,043枚の画像と36,438件のアノテーションを含む,初の食品包装OCR用ベンチマークである。
    • docTRはF1=0.193,ML Kitは0.180,EasyOCRは0.167であったが,日本語の認識精度は0.000であった。
    • 提案手法による後処理により,F1スコアが36%向上し,実運用環境での有効性が確認された。

    Link: https://arxiv.org/abs/2604.22754

  • VLMが学生の解答を「修正」するとき:複数行手書き数式OCR評価における過剰修正の特定とペナルティ [cs.CY, cs.HC, cs.CY, cs.AI, cs.CV, cs.LG]目的:複数行手書き数式OCRにおける過剰修正の特定と評価指標の提案
    • 教育AIシステムにおいて,手書き数式の正確な読み取りは学習評価に不可欠である。
    • 既存の評価指標は単一行の式に偏っており,複数行の解答全体の意味的推論を評価できていない。
    • VLMの過剰修正という問題に対処し,より信頼性の高い評価フレームワークを構築すること。
    • VLMは学生の解答を忠実に書き起こすのではなく,誤りを「修正」する傾向があることが明らかになった。
    • 提案する評価指標PINKは,ルブリックに基づく評価と過剰修正の明示的なペナルティにより,BLEUと比較して人間の判断とより一致する。
    • GPT-4oは過剰修正により評価が下がり,Gemini 2.5 Flashが最も忠実な書き起こしモデルとして評価された。

    Link: https://arxiv.org/abs/2604.22774

  • 見えざる悪: ARにおける意味的文脈を考慮したプライバシーリスク検出 [cs.DL, cs.SI, stat.AP, cs.CV, cs.AI, cs.SY, eess.SY]目的:AR環境における文脈依存のプライバシーリスク検出
    • AR技術の普及に伴い,視覚データの継続的な取得によるプライバシー侵害リスクが増大している。
    • 既存のARプライバシー保護策は視覚コンテンツの意味理解が不十分で,文脈に応じたリスク検出が困難である。
    • 視覚言語モデルを活用し,文脈に基づいたプライバシーリスクの検出と情報秘匿を実現することを目指す。
    • PrivARは,視覚シーンからの手がかりを利用し,パスワード等の機密情報となりうる要素を推論する。
    • PrivARは,テキスト情報を検出し隠蔽することで,プライバシー漏洩率を17.58%に低減し,高い精度(81.48%)とF1スコア(84.62%)を達成した。
    • 文脈に基づいた警告インターフェースの有効性に関するユーザー調査も実施し,プライバシーに配慮したAR設計の指針を得た。

    Link: https://arxiv.org/abs/2604.22805

  • FreqFormer:適応スペクトルルーティングを用いた長系列ビデオ拡散Transformerのための階層型周波数領域アテンション [cs.CV, cs.AI, eess.IV]目的:長系列ビデオ拡散Transformerにおける計算コストとメモリ使用量の削減
    • ビデオ処理において,長時間の動画を扱うことが重要であり,その計算効率が課題となっている。
    • 従来のTransformerでは,系列長が長くなるほど自己注意機構の計算量が急増する。
    • 周波数特性を考慮したアテンション機構により,計算効率を改善し,長系列ビデオの処理を可能にすること。
    • FreqFormerは,周波数帯域ごとに異なるアテンション機構を適用することで,計算量とメモリ使用量を大幅に削減する。
    • 低周波成分にはグローバルな注意機構,高周波成分にはローカルな注意機構を使用し,効率的な処理を実現している。
    • シミュレーションの結果,従来の自己注意機構と比較して,計算量とメモリトラフィックを大幅に削減できることが示された。

    Link: https://arxiv.org/abs/2604.22808

  • Audio2Tool:音声言語理解と機能呼び出しの架け橋 [cs.SD, cs.LG, eess.AS]目的:音声言語モデルのツール呼び出し能力の評価
    • 音声アシスタントの普及に伴い,自然な音声入力による高度なタスク実行が重要になっている。
    • 既存の評価データセットは,ドメインの広さ,音声の多様性,複雑な推論能力の評価が不足している。
    • 多様な環境下での音声言語モデルのツール呼び出し性能の課題を明らかにすること。
    • Audio2Toolは,スマートカー,スマートホーム,ウェアラブルの3つのドメインを網羅する約3万件のクエリを含む大規模データセットである。
    • 評価の結果,既存の音声言語モデルは単純なコマンドには強いが,複雑な条件下では性能が低下することが示された。
    • 本データセットは,現実的な環境下での音声アシスタントの性能向上に貢献すると期待される。

    Link: https://arxiv.org/abs/2604.22821

  • DO-Bench:ビジョン言語モデルにおける物体幻覚の診断のための属性化ベンチマーク [cs.CV, cs.AI]目的:ビジョン言語モデルにおける物体幻覚の診断
    • ビジョン言語モデルの信頼性は重要であり,その中でも物体レベルでの幻覚は主要な課題である。
    • 既存のベンチマークは総合的な精度に焦点を当てており,エラーの原因が知覚的限界か文脈的先入観か特定できていない。
    • 文脈的先入観と知覚的根拠の強さを評価し,エラーの原因を特定すること。
    • DO-Benchは,文脈的先入観を強化する「Prior Override」次元と,視覚的証拠を増強する「Perception-Limited」次元の2つの側面から評価する。
    • 評価の結果,様々なビジョン言語モデルにおいて,先入観への感受性と知覚的信頼性に系統的な違いが明らかになった。
    • 物体幻覚は,総合的な精度だけでは捉えきれない,多様なメカニズムに依存するエラーパターンを示すことが示された。

    Link: https://arxiv.org/abs/2604.22822

  • PivotMerge:ポストアラインメントモデルマージによる異種マルチモーダル事前学習の架橋 [cs.CV, cs.AI]目的:異種マルチモーダル事前学習から学習されたクロスモーダルアラインメント能力の統合
    • マルチモーダルLLMは,多様なデータソースに依存しており,その性能向上は重要である。
    • 既存のマージ研究はファインチューニング後のシナリオに焦点を当てており,事前学習段階は未開拓である。
    • 異なるデータ分布におけるパラメータ干渉や,アラインメント貢献度の不均衡を解消することを目指す。
    • PivotMergeは,共有空間分解とフィルタリングにより,共有アラインメントパターンとドメイン固有の変動を分離する。
    • アラインメント誘導層ごとのマージは,異なるアラインメント貢献度に基づいて層固有のマージ重みを割り当てる。
    • CC12Mベースの評価でPivotMergeは既存手法を上回り,有効性と汎化能力を示す。

    Link: https://arxiv.org/abs/2604.22823

  • WeatherSeg:教師・生徒型二重学習と分類器更新注意機構を用いた耐候性画像セグメンテーション [cs.CV, cs.AI]目的:悪天候下における自律運転の環境認識の課題解決
    • 自動運転の安全性向上には,様々な天候条件下での正確な環境認識が不可欠である。
    • 悪天候時の画像認識は,画像品質の低下により性能が著しく劣化する。
    • アノテーションコストを削減しつつ,悪天候下でもロバストなセグメンテーションを実現する。
    • WeatherSegは,クリア,雨,曇り,霧などの多様な天候条件下で,既存モデルを大きく上回る精度とロバスト性を示す。
    • 二重教師・生徒型重み共有モデル(DTSWSM)により,悪天候画像からの知識蒸留を可能にした。
    • 分類器重み更新注意機構(CWUAM)は,環境属性に基づいて分類器の重みを動的に調整し,セグメンテーション精度を向上させる。

    Link: https://arxiv.org/abs/2604.22824

  • SGP-SAM:3D Segment Anythingモデルを病変セグメンテーションへ転移させる自己ゲーティングプロンプティング [cs.CV, cs.AI]目的:3D病変セグメンテーションへの効率的かつ効果的な転移
    • 近年の画像セグメンテーション技術の発展は,医療画像診断の精度向上に不可欠である。
    • 3D画像における病変は小さく不規則な形状が多く,セグメンテーションが困難である。
    • 中間特徴量の空間表現能力の向上と,前景・背景の不均衡を是正することを目指す。
    • 提案手法SGP-SAMは,自己ゲーティングプロンプティングモジュール(SGPM)により,空間情報を効率的に強化する。
    • SGPMは,特徴量への多スケール融合の必要性を予測し,状況に応じて活性化することで計算コストを削減する。
    • MSD Liver TumorおよびMSD Brain Tumorデータセットにおいて,既存手法と比較して高い精度を達成した。

    Link: https://arxiv.org/abs/2604.22825

  • Shape:産業用CAD解析のための自己教師あり3次元形状基礎モデル [cs.CV, cs.LG]目的:産業用CAD解析を支援する汎用的な3次元形状表現の確立
    • 産業用CADは製品開発の根幹であり,その効率化が重要である。
    • 既存の3次元形状表現は,精度や説明可能性に課題が残る場合がある。
    • 3次元形状の自己教師あり学習により,汎用的な形状表現を獲得すること。
    • 本研究で開発したShapeは,表面メッシュを高密度なトークン埋め込みに変換する。
    • Shapeは,構造化された3次元潜在グリッド,MAGNO,Transformerプロセッサを組み合わせている。
    • 評価実験の結果,Shapeは高い再構成精度と検索精度を達成した。

    Link: https://arxiv.org/abs/2604.22826

  • DGHMesh:大規模なデュアルレーダーmmWaveデータセットと,ヒューマンメッシュ再構成のための汎化に焦点を当てたベンチマーク [cs.CV, cs.LG]目的:ヒューマンメッシュ再構成のための大規模データセットおよび汎化性能評価ベンチマーク
    • ミリ波レーダーは,非接触かつプライバシーを保護し,堅牢な人間センシングに有用である。
    • 既存のミリ波レーダーを用いたヒューマンメッシュ再構成研究では,設定の変化に対する汎化性能の評価が不足している。
    • 様々な測定設定下でのヒューマンメッシュ再構成手法の汎化性能を客観的に評価するためのデータセットとベンチマークを提供する。
    • DGHMeshは,15人の被験者の8つの動作を収録した36万フレームからなる大規模なデータセットである。
    • 提案手法mmPTMは,マルチレーダー融合フレームワークを用いて高い精度と汎化性能を示すことが実験で明らかになった。
    • DGHMeshおよびmmPTMは,今後のミリ波レーダーを用いたヒューマンメッシュ再構成研究の発展に貢献する。

    Link: https://arxiv.org/abs/2604.22827

  • MetaEarth3D:空間的に拡張可能な生成モデリングによる世界規模3D生成の解禁 [cs.CV, cs.AI]目的:世界規模での3D生成
    • 地球観測やシミュレーションにおいて,広範囲な空間情報を扱う重要性が高まっている。
    • 既存の生成AIモデルは空間スケールが限定的で,大規模な地理環境の表現が困難である。
    • 大規模な空間スケールを考慮した生成モデルを開発し,地球規模の空間知能を実現すること。
    • MetaEarth3Dは,惑星規模で空間的に一貫性のある3D生成を可能にする最初の生成基盤モデルである。
    • 1000万枚の地球観測画像を用いて学習し,高い視覚的リアリズムと地理統計的リアリズムを両立している。
    • 次世代の空間知能を地球観測分野に活用するための基盤技術となりうる。

    Link: https://arxiv.org/abs/2604.22828

  • 振動に迷う:視覚言語モデルは動的ゲージテストに失敗する [cs.CV]目的:動的ゲージにおける視覚言語モデルの性能評価
    • 産業界のデジタル化が進む中,ロボットが既存のインフラと連携する能力が重要となる。
    • 視覚言語モデルはゼロショットでの計器認識に可能性を示すが,高頻度な変化や針の振動を正確に解析できない。
    • 既存のIEEEやISO規格を満たす信頼性の高い合成計器としての性能を検証すること。
    • 最新の視覚言語モデルは,計器の針の軌跡や目盛りの意味を解釈する能力に限界があることが示された。
    • これらのモデルは,安全性が重要な監視用途に必要なトレーサビリティと信頼性を提供できないことが明らかになった。
    • 現時点では,信頼できる合成計器とみなされるための性能基準を満たしていない。

    Link: https://arxiv.org/abs/2604.22829

  • 3D姿勢推定のための2次元事前学習 [cs.CV, cs.LG]目的:3D姿勢推定における事前学習の効果検証
    • 深層学習において,入力データ理解の汎化が重要であり,事前学習はその有効な手段である。
    • 既存研究では,3D姿勢推定の事前学習に利用するデータセットが限定的であった。
    • 2次元データセットを用いた事前学習が,3D姿勢推定の性能向上に貢献するかを検証する。
    • 2次元での事前学習は,3次元データのみで学習するよりも,一貫して高い性能を示すことが確認された。
    • 特に計算効率の面で,2次元事前学習の優位性が明らかになった。
    • MPIIとHuman3.6Mを用いて,MPJPEスコア64.5mm以下を達成した。

    Link: https://arxiv.org/abs/2604.22830

  • 画像表現量と摂動トランスクリプトミクスを用いた介入を考慮した多重尺度表現学習 [cs.CV, cs.AI, cs.LG]目的:薬物発見のための画像表現学習における,介入情報を考慮した知識蒸留フレームワーク
    • 表現量の学習は,高スループットな薬物スクリーニングにおいて重要な役割を担う。
    • トランスクリプトミクスはコストが高く,データが限られているため,画像表現量との統合が課題である。
    • 弱くペア化されたデータにおける細胞型や用量変化を考慮し,未知の介入への汎化性能を向上させる。
    • 摂動トランスクリプトミクスを利用した教師モデルが,薬物類似性に基づいたコードブックからソフト分布を生成する。
    • 画像のみの生徒モデルは,教師モデルからの知識を蒸留することで,メカニズムに関する知識を獲得する。
    • Cell PaintingとRxRxデータセットを用いた実験で,未知の介入への転移学習と薬物標的遺伝子の発見において,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2604.22832

  • マイクロコントローラ向けWebSerialビジョン学習:デバイス上CNN学習のためのブラウザベースのコンパニオン [cs.CV, cs.LG]目的:TinyMLビジョンモデルの学習とSeeed Studio XIAO ESP32-S3 Senseへの展開のためのエンドツーエンドパイプライン
    • 組み込み機器での機械学習の需要が高まる中,学習環境の構築が課題となっている。
    • 従来の学習方法は,ソフトウェアのインストールや設定が煩雑で,手軽に試せない場合がある。
    • 本研究は,ブラウザ上で完結する学習環境を提供し,手軽にTinyMLモデルを開発できることを目指す。
    • 本システムは,Webブラウザ上でファームウェアの書き込み,画像収集,CNN学習,重みのエクスポート,活性化マップの可視化を可能にする。
    • TensorFlow.jsを用いた学習は,ブラウザ上で約1分で完了し,デバイス上での学習よりも高速である。
    • データは常にローカル環境に保持され,プライバシーを保護しつつ,学習,評価,展開のサイクルを約10分で実現する。

    Link: https://arxiv.org/abs/2604.22834

  • ParkingScenes:シミュレーション環境におけるエンドツーエンド自律駐車のための構造化データセット [cs.CV, cs.AI]目的:エンドツーエンド自律駐車のための構造化データセット
    • 都市部における駐車は困難であり,自動化技術の重要性が高まっている。
    • 自律駐車のための高品質で構造化されたデータセットが不足している。
    • 構造化されたデータセットを提供することで,自律駐車システムの性能向上を目指す。
    • ParkingScenesデータセットは,CARLAシミュレータ上で生成された16種類の縦列駐車と6種類の並列駐車シナリオを含む。
    • データセットはRGBカメラ,深度センサー,車両の状態,鳥瞰図など,豊富なマルチモーダルデータを提供する。
    • ParkingScenesで学習したモデルは,非構造化データで学習したモデルと比較して,駐車性能が大幅に向上した。

    Link: https://arxiv.org/abs/2604.22835

  • エージェントRVOsによる第5回PVUWチャレンジMeViS-Textトラック:第3位手法 [cs.CV]目的:参照VOSパイプラインにおけるエージェントの役割と,その効果検証
    • 動画中の対象物追跡は,ロボティクスや監視システムなど,様々な分野で重要である。
    • 参照表現を用いたVOSは難易度が高く,対象物の特定や時間的な追跡が課題となる。
    • Sa2VAとエージェントによる連携で,より高精度な参照VOSを可能にすることを目指す。
    • Sa2VAによる密な意味的仮説生成と,エージェントによる検証・修正・改善のループを組み込んだ。
    • エージェント群がクエリ分解,情報ブロック特定,アンカーフレーム探索,マスク精製などの役割を担う。
    • Sa2VAを密な grounded understanding に,エージェント層を存在検証・時間的探索・信頼度に基づいた修正・マスク精製に特化させた。

    Link: https://arxiv.org/abs/2604.22836

  • OAMVOS:第5回PVUW MOSEトラックの第2報告 [cs.CV, cs.AI]目的:SAMベースのトラッカーにおける頑健性の向上
    • 対象追跡は,自動運転やロボティクスなど,様々な分野で不可欠な技術である。
    • SAMベースのトラッカーは,長時間の遮蔽や急激な動きに弱く,特に小型物体で問題が顕著である。
    • 遮蔽や再出現に対する認識能力を高め,小型物体追跡の安定性を改善することを目指す。
    • 本研究では,DAM4SAMを拡張し,メモリ制御を改善することで,遮蔽や再出現に対する追跡性能を向上させた。
    • 信頼性に基づいた状態遷移機や分岐ベースの回復機構など,4つの要素を導入することで,状況に応じて最適なメモリ管理を実現した。
    • 小型物体の消失・再出現時には,古いアンカーへのアクセスを維持することで,追跡の継続性を高めている。

    Link: https://arxiv.org/abs/2604.22837

  • ニューラルネットワーク最適化の再考:スクラッチ学習とファインチューニングのための分離技術 [cs.CV, cs.AI]目的:ニューラルネットワークのスクラッチ学習とファインチューニングに適した最適化手法の分離
    • 大規模データと事前学習モデルの普及により,深層学習における最適化が重要視されている。
    • 既存の最適化手法は損失関数を最小化するのみで,スクラッチ学習とファインチューニングの違いに対応できていない。
    • スクラッチ学習とファインチューニングそれぞれに特化した最適化手法を開発し,性能向上を目指す。
    • DualOptは,スクラッチ学習にリアルタイムな層ごとの重み減衰を導入し,収束性と汎化性能を向上させる。
    • ファインチューニングにおいては,重みロールバックを最適化器に組み込み,モデル間の重み分布の整合性を保ち,知識の忘却を軽減する。
    • 層ごとの重み減衰を拡張し,ロールバックレベルを動的に調整することで,様々な下流タスクに対応する。

    Link: https://arxiv.org/abs/2604.22838

  • 骨格からピクセルへ:表現と予測の知識蒸留による少数ショット高精度イベントスポッティング [cs.CV, cs.AI]目的:少数ショット高精度イベントスポッティングにおける表現学習と予測の知識蒸留
    • スポーツ解析において,イベントの正確な検出は,競技の理解や分析に不可欠である。
    • イベントの発生は瞬間的であり,モーションブラーや微妙な動作の違いから正確な特定が困難である。
    • 限られたアノテーションデータで高精度なイベントスポッティングを実現する手法が求められている。
    • 適応重み知識蒸留(AWD)と焼きなまし多Modal知識蒸留(AMD-FED)の二つの戦略を提案し,F3Set-Tennis(sub)データセットで有効性を示した。
    • AMD-FEDは,骨格データの知識を視覚Modalに転送することで,少ないアノテーションでもロバストな性能を発揮した。
    • Figure SkatingデータセットにおいてもAMD-FEDの有効性を確認し,多Modal知識蒸留,特に表現レベルの転送の有効性を示した。

    Link: https://arxiv.org/abs/2604.22839

  • AeSlides:LLMベースのスライド生成における検証可能な報酬による美的レイアウトの促進 [cs.CV, cs.CL, cs.MM]目的:LLMベースのスライド生成における美的レイアウトの改善
    • プレゼンテーション資料の質は視覚的な美しさに大きく左右されるため,その自動生成における美的要素の重要性は高い。
    • 既存のスライド生成モデルはテキスト中心であり,視覚的美観の評価が難しく,レイアウトの最適化が不十分である。
    • 検証可能な報酬を用いて,スライド生成モデルを直接的に美的レイアウトへ最適化することを目指す。
    • AeSlidesは,スライドのレイアウト品質を定量化する検証可能な指標群を導入し,GRPOベースの強化学習手法を開発した。
    • GLM-4.7-Flashを用いて5Kの学習プロンプトで訓練した結果,アスペクト比の適合率が36%から85%に向上し,空白領域が44%減少した。
    • 人間による評価では,全体的な品質が3.31から3.56へ改善(+7.6%)し,他の手法やClaude-Sonnet-4.5を上回る結果が得られた。

    Link: https://arxiv.org/abs/2604.22840

  • ATTN-FIQA:Vision Transformerを用いた解釈可能な注意機構に基づく顔画像品質評価 [cs.CV, eess.IV]目的:顔画像品質評価における,事前学習済みVision Transformerの注意スコアの有効性
    • 顔認識システムの信頼性確保には,顔画像の品質評価が不可欠である。
    • 既存手法は計算コストが高いか,追加学習が必要であり,効率性に課題がある。
    • 事前学習モデルの注意機構を活用し,学習不要で効率的な品質評価を実現する。
    • 事前学習済みVision Transformerの注意スコアが,顔画像品質の指標として有効であることが示された。
    • 注意機構は,画像中の重要な顔領域を捉え,品質評価に寄与することが確認された。
    • 本手法は,単一のフォワードパスで評価が可能であり,計算コストを大幅に削減できる。

    Link: https://arxiv.org/abs/2604.22841

  • EX-FIQA:Vision Transformerからの途上表現を活用した顔画像品質評価 [cs.CV, eess.IV]目的:顔画像品質評価のための,Vision Transformerにおける途上表現の活用
    • 顔認識システムの信頼性確保に不可欠であり,その性能は顔画像品質に左右される。
    • 既存手法は最終層の表現に依存しており,途中のネットワーク層に内在する品質情報を無視している。
    • Vision Transformer途中の表現を分析し,品質評価への貢献度を明らかにすることで,効率的な評価を目指す。
    • Vision Transformerの各層が,異なる種類の品質情報を捉えていることが明らかになった。
    • 複数の層からの品質予測を融合する枠組みを提案し,単一の層からの予測よりも性能が向上した。
    • 深層の層に重みを置く深さ重み付き平均化が,最適な品質評価性能を実現した。

    Link: https://arxiv.org/abs/2604.22842

  • 汎がん認識とテキスト誘導腫瘍局在化のための統一マルチ基盤モデルスライド表現 [cs.CV]目的:汎がん認識とテキスト誘導腫瘍局在化を可能にする,統一されたスライドレベル表現の開発
    • 病理画像解析において,基盤モデルの活用が重要性を増している。多様なモデルの能力を統合する必要がある。
    • 既存の基盤モデルは,タイルレベルでの表現に留まり,スライド全体での推論や臨床情報の関連付けが困難である。
    • スライドレベルでの統一的な表現を学習し,臨床的に意味のある情報を活用することで,汎がん認識と局在化を可能にする。
    • ASTRAは,異種基盤モデルの表現を統合し,病理学的注釈に基づいてスライドレベル表現を構築する。
    • ASTRAは,4分類で97.8%のmacro-AUC,3分類の固形腫瘍タイプ判定で99.7%の精度を達成した。
    • 腫瘍局在化において,内部データセットでDice係数0.897,外部データセットで0.738を達成し,有効性が示された。

    Link: https://arxiv.org/abs/2604.22846

  • Minecraftにおける数十億個のキューブを用いた制御可能な生成モデリング:Dream-Cubed [cs.CV]目的:Minecraft世界の生成を通じた制御可能な生成モデリング
    • ゲームやシミュレーションにおける3D環境の自動生成は,コンテンツ制作の効率化に不可欠である。
    • 既存の3D生成モデルは,計算コストが高く,高品質なインタラクティブ環境の生成が困難である。
    • 効率的かつ意味的に整合性のある3D環境生成を実現し,ユーザーによるインタラクティブな編集を可能にすること。
    • 数十億個のキューブからなる大規模データセットDream-Cubedを構築し,3D拡散モデルの大規模な検証を行った。
    • キューブを基本単位とすることで,効率的かつ意味に基づいた生成を実現し,inpaintingやoutpaintingなどのユーザー操作に対応した。
    • FID指標を用いた定量評価と,人間による選好調査により,生成された世界の品質を検証した。

    Link: https://arxiv.org/abs/2604.22847

  • LunarDepthNet:深層学習と単眼衛星画像を用いたデジタル標高モデルの生成 [cs.CV]目的:月面デジタル標高モデルの生成手法
    • 月探査や将来のミッション計画において,高品質なデジタル標高モデルの重要性が高まっている。
    • 月面における詳細な標高データが不足しているという課題が存在する。
    • 単眼衛星画像から直接標高マップを推定し,データ不足を解消することを目指す。
    • 本研究で提案するLunarDepthNetは,UNetアーキテクチャを基盤とし,EfficientNetエンコーダーとカスタム層を組み込んだ。
    • これにより,月面の光影と実際の標高値の関係を正確に学習することが可能となった。
    • 検証結果として,安定した損失収束率12%を達成し,テスト段階では平均nRMSE 0.437,MAE 4.5mを示した。

    Link: https://arxiv.org/abs/2604.22848

  • 少数ショット拡散モデルに基づく欠陥合成による外観検査における新製品導入の加速 [cs.IR, cs.CV, cs.LG]目的:新製品導入時の外観検査における欠陥データの不足を解消するための高精度な欠陥合成手法
    • 製造業における品質管理の自動化は,生産効率向上とコスト削減に不可欠である。
    • 新製品導入段階では,欠陥データの収集が難しく,十分な学習データの確保が課題となる。
    • 実データが少ない状況でも,高精度な外観検査モデルを早期に構築することを可能とする。
    • 提案手法は,少ない実欠陥データから高品質な合成欠陥画像を生成し,データ拡張に利用できる。
    • 合成データを用いた学習により,mAPが78.8%から83.3%に向上し,性能改善が確認された。
    • 異なる表面への転移学習においても,mAPが65.0%から85.1%に向上し,ドメインギャップの縮小に貢献する。

    Link: https://arxiv.org/abs/2604.22850

  • EgoDyn-Bench:自律運転向けビジョン中心の基盤モデルにおける自己運動理解の評価 [cs.CV, cs.CL, cs.RO]目的:自己運動に関するセマンティックな理解の評価
    • 自動運転技術の発展には,周囲環境の正確な認識と物理法則に基づいた合理的な判断が不可欠である。
    • 既存のビジョン言語モデルは高度な推論が可能だが,自己運動の物理的理解が十分ではないという課題がある。
    • ビジョンと物理的推論の間のボトルネックを特定し,物理的に整合性の取れたAIの実現を目指す。
    • EgoDyn-Benchを用いた評価により,多くのモデルが論理的な物理概念は有しているものの,視覚情報との整合性に欠けることが示された。
    • モデルの規模やドメイン特化型学習に関わらず,古典的な幾何学的ベースラインよりも低い性能を示すという結果が出ている。
    • 明示的な軌跡エンコーディングの提供により,物理的な整合性が大幅に改善され,視覚と言語の機能的分離が明らかになった。

    Link: https://arxiv.org/abs/2604.22851

  • FastATベンチマーク:高速敵対的学習手法の公平な評価のための包括的フレームワーク [cs.CV, cs.LG]目的:高速敵対的学習手法の公平な評価フレームワーク
    • 敵対的ロバスト性は,機械学習モデルのセキュリティと信頼性を確保する上で重要である。
    • 既存のベンチマークは,モデル構造や設定が異なり,公平な比較が困難である。
    • 本研究は,標準化された環境下での高速敵対的学習手法の客観的な性能評価を目指す。
    • FastATベンチマークは,統一されたモデル構造,標準化された学習設定,外部データの使用禁止という3つの原則に基づいている。
    • 20以上の代表的なFastAT手法を実装し,再現性のある比較を可能にした。
    • 実験の結果,適切なシングルステップ手法は,大幅なコスト削減でPGD-ATと同等以上のロバスト性を実現できることが示された。

    Link: https://arxiv.org/abs/2604.22853

  • nnFormerを用いたデータ効率的な医用画像セグメンテーションのためのMAEベースの自己教師あり事前学習 [cs.CV, cs.AI]目的:医用画像セグメンテーションにおけるデータ効率の向上
    • 医用画像解析は,疾患の診断や治療計画に不可欠であり,その精度向上は重要である。
    • Transformerモデルは高性能だが,大量のアノテーション付きデータが必要で,過学習のリスクがある。
    • 自己教師あり学習を用いて,少ないアノテーションデータでも高い性能を発揮することを目指す。
    • MAEに基づく自己教師あり事前学習により,nnFormerのセグメンテーション性能が向上した。
    • ファインチューニングの収束速度が向上し,学習効率が改善された。
    • 限られたアノテーションデータでも,優れた汎化性能が確認された。

    Link: https://arxiv.org/abs/2604.22854

  • リモートセンシング画像キャプションの評価における指標バイアスの克服 [cs.CV]目的:リモートセンシング画像キャプションの評価基準の改善
    • リモートセンシング技術は,地球観測や環境モニタリングにおいて不可欠であり,その応用範囲は広い。
    • 既存の評価指標は人手による注釈に依存するため,モデルの真の記述能力を正確に測れない。
    • 人間の注釈バイアスを取り除き,モデルの潜在能力を正当に評価する新しい指標の開発。
    • 提案手法ReconScoreは,生成されたテキストから元の画像を再構築する能力でキャプションの質を評価し,人手による注釈バイアスを排除する。
    • 実験の結果,ファインチューニングされていない大規模多種言語モデル(MLLM)が,ファインチューニングされたモデルを上回るゼロショット性能を示すことが明らかになった。
    • ReconScoreを自己修正メカニズムとして利用するRemoteDescriberは,追加の学習なしで最先端の性能を達成し,既存指標の限界を検証した。

    Link: https://arxiv.org/abs/2604.22855

  • 注意機構とゴースト畳み込みを用いたYOLOv8によるリアルタイム車両検出 [cs.CV]目的:インテリジェント交通システムにおけるリアルタイム車両検出の性能向上
    • 自動運転や交通監視など,様々な分野で車両検出の正確性が不可欠である。
    • 既存の車両検出器は,計算コストや多様な交通環境への適応性に課題が残る。
    • 特徴冗長性の削減と注意機構の洗練により,ロバストかつ効率的な車両検出を実現する。
    • 提案手法は,KITTIデータセットにおいてmAP@0.5で95.4%を達成し,ベースラインのYOLOv8nを8.97%上回った。
    • 適合率96.2%,再現率93.7%,F1スコア94.93%と,主要な評価指標において最先端の検出器と比較して優位性を示した。
    • ゴーストモジュール,CBAM,DCNv2の統合が,個別に,また組み合わせることで性能向上に貢献することが検証された。

    Link: https://arxiv.org/abs/2604.22856

  • IoT連携CNNによるアディティブマニュファクチャリング画像アノテーションのためのラベル付きクラック検出 [cs.CV]目的:アディティブマニュファクチャリングにおける表面クラックの自動検出および分類
    • アディティブマニュファクチャリングは,製造業の革新を牽引する技術であり,品質管理の重要性が増している。
    • 従来の手法では,クラック検出に時間と労力がかかり,リアルタイムな品質管理が困難であった。
    • IoT技術と深層学習を組み合わせ,リアルタイムかつ高精度なクラック検出システムを構築し,品質管理の効率化を目指す。
    • 本研究で開発されたシステムは,14,982枚の画像に対して99.54%の精度を達成し,高精度なクラック検出が可能であることを示した。
    • データセットのバランス調整とデータ拡張により,汎化性能が大幅に向上し,精度が32%から99%に改善された。
    • IoT,エッジコンピューティング,デジタルツイン技術の統合により,アディティブマニュファクチャリングのインテリジェントな品質管理に貢献する。

    Link: https://arxiv.org/abs/2604.22857

  • 肝がん定量化のためのデジタル病理リソース:データセット,ベンチマーク,ツール [cs.CV]目的:肝がんの定量化のためのパッチレベル画像データベースと,関連するツール群
    • 肝がん治療成績向上には,病理学的検査による正確な診断と予後予測が不可欠である。
    • 肝がんの組織成分を特定するための,詳細なアノテーション付きのパッチレベルデータセットが不足している。
    • 肝がんの病理学的解析を自動化し,定量的な評価を可能にするための基盤を構築すること。
    • HepatoBenchという肝がんパッチレベル画像データベースを構築し公開した。
    • 組織分類のための深層学習モデルと,WSIレベルの腫瘍/非腫瘍セグメンテーションモデルを開発した。
    • これらを統合したHepatoQuantを開発し,WSIから組織構成の解析と定量統計を可能にした。

    Link: https://arxiv.org/abs/2604.22858

  • MeshLAM:フィードフォワードによる一ショットアニマ可能なテクスチャ付きメッシュアバター再構成 [cs.ET, cs.AR, cs.IR, cs.CL, cs.CV]目的:単一画像からの高忠実度,アニマ可能な3Dヘッドアバターの生成
    • 現実世界の人物をデジタル空間に再現する需要が高まっており,アバター生成技術は不可欠である。
    • 従来法は,時間のかかる最適化や多視点データが必要で,単一画像からの高速なアバター生成が課題であった。
    • 単一画像から,時間のかかる処理なしに,アニマ可能な高品質な3Dメッシュアバターを生成することを目指す。
    • MeshLAMは,単一画像からフィードフォワードで直接,アニマ可能な3Dメッシュヘッドを再構成する。
    • デュアル形状・テクスチャマップ構造とGRUベースのデコーディングメカニズムにより,形状と外観の一貫性を実現。
    • 実験結果から,MeshLAMは既存手法よりも再構成品質,アニメーション能力,計算効率において優れていることが示された。

    Link: https://arxiv.org/abs/2604.22865

  • 画像編集モデルにおける視覚的計画の探求 [cs.CV, cs.AI]目的:画像編集モデルにおける視覚的計画能力の評価
    • 視覚的計画は人間の知能の重要な側面であり,複雑な空間推論やナビゲーションに不可欠である。
    • 機械学習では,視覚的な問題が言語に依存したアプローチで扱われることが多い。
    • 本研究は,視覚的計画を単一ステップの画像変換として捉えることで,計算効率の課題を解決する。
    • 主要な画像編集モデルを評価した結果,ゼロショット環境下では苦戦することが示された。
    • 基本的なスケールでのファインチューニングにより,ドメイン内およびドメイン外のスケールや形状への汎化能力が向上した。
    • 最良モデルであっても,人間の効率には及ばず,ニューラル視覚推論における課題が残る。

    Link: https://arxiv.org/abs/2604.22868

  • リソース制約のある自律走行車向け:視覚に基づく車線追従と交通標識認識 [cs.CV, cs.SY, eess.SY]目的:リソース制約のある自律走行車における,車線追従と交通標識認識のための軽量な視覚ベースのフレームワーク
    • 自動運転技術は,交通安全の向上や移動の効率化に貢献する重要な分野である。
    • 限られた計算資源の組み込みプラットフォームでの信頼性の高い知覚アルゴリズムの実装が課題となる。
    • 組み込みシステムに適した,低計算コストで高性能な視覚知覚システムの開発を目指す。
    • 提案システムはリアルタイム性能を達成し,最大オフセットRMSE3.16%で正確な車線追従を実現した。
    • EfficientNet-B0は,テストデータセットで98.77%の高いオフライン分類精度と,リアルタイムデバイス展開で90%の精度を示した。
    • MobileNetV2は推論速度と計算コストの面で若干優れているが,全体としてEfficientNet-B0の方が高性能である。

    Link: https://arxiv.org/abs/2604.22872

  • SketchVLM:思考の説明とユーザーの誘導のために画像を注釈するビジョン言語モデル [cs.CV, cs.AI]目的:画像に関する質疑応答における思考過程の説明
    • 画像と言語を組み合わせた処理は,AIの理解力向上に不可欠である。
    • 既存のビジョン言語モデルはテキストのみで応答するため,根拠の確認が困難である。
    • モデルの思考過程を可視化し,ユーザーとの協調を促進することを目指す。
    • SketchVLMは,既存のビジョン言語モデルに追加の学習を必要とせず,画像にSVGオーバーレイを追加して思考過程を説明する。
    • 7つのベンチマークにおいて,SketchVLMは従来のモデルと比較して,視覚的推論の精度を最大28.5%向上させた。
    • 注釈の質も最大1.48倍に向上し,モデルの回答に対する忠実度も高めている。

    Link: https://arxiv.org/abs/2604.22875

  • NeuroAPS-Net:効率的なアルツハイマー病分類のための神経解剖学的認識点群表現 [cs.CV, cs.AI]目的:アルツハイマー病分類のための神経解剖学的認識点群表現
    • アルツハイマー病は認知症の主要な原因であり,早期診断が重要である。
    • 従来の3D CNNは計算コストが高く,リソースに制約のある環境での利用が困難である。
    • 神経解剖学的情報を活用した点群表現により,効率的かつ解釈可能な分類を目指す。
    • 提案手法NeuroAPS-Netは,既存の点群ベース手法と同等の分類精度を達成した。
    • NeuroAPS-Netは,推論遅延とGPUメモリ使用量を大幅に削減することに成功した。
    • 神経解剖学に基づいた点群学習が,アルツハイマー病分類における有効な代替手段となる可能性を示した。

    Link: https://arxiv.org/abs/2604.22883

  • マルチモーダル大規模言語モデルは小さな物体を本当に理解できるか [cs.CV, cs.AI]目的:小さな物体理解能力の評価と改善
    • 画像や動画解析など多様なタスクでMLLMの潜在能力が期待される。
    • MLLMにおける小さな物体理解能力の調査は未だ十分ではない。
    • MLLMの小さな物体理解能力を評価し,改善するための基盤を構築する。
    • 本研究では,初の包括的なベンチマークSOUBenchを導入し,既存のMLLMの小さな物体理解能力を評価した。
    • 15の最先端MLLMの評価から,小さな物体理解における弱点が明らかになった。
    • 新たなマルチモーダル学習データセットSOU-Trainを用いて,MLLMの小さな物体理解能力を効果的に向上させることを示した。

    Link: https://arxiv.org/abs/2604.22884

  • セマンティックルーティングとアダプター個別化による欠損モダリティを持つ連合クロスモーダル検索 [cs.CV, cs.AI]目的:連合クロスモーダル検索における性能向上
    • 異種データ環境下での情報検索の重要性が高まっているため。
    • クライアントデータの非IID性やモダリティ欠損が課題となっている。
    • データ不均衡による検索精度の低下を改善すること。
    • 提案手法RCSRは,共有アダプターとプロトタイプアンカリングにより,グローバル知識とクライアント固有の特徴を捉える。
    • サーバー側のセマンティックルーティングにより,異種更新時のずれを抑制し,集約重みを適応的に調整する。
    • MS-COCO等のベンチマークで,グローバル・クライアントレベルの検索精度と学習安定性を向上させることを示した。

    Link: https://arxiv.org/abs/2604.22885

  • 劣化の結合を断ち切る:構造エントロピーに基づく分離フレームワークと赤外線画像強調のベンチマーク [cs.CV]目的:熱赤外線画像強調における高品質な画像復元
    • 赤外線画像は,暗闇や悪天候下での視認性を高めるため,監視や自動運転等で重要性が増している。
    • 既存手法は多様な劣化を一度に処理するため,勾配の干渉やパラメータ競合が生じ,性能が制限される。
    • 本研究は,劣化を分離し,個別に処理することで,より高精度な画像強調を目指す。
    • 提案手法SEGDは,劣化を独立したサブプロセスに分解し,劣化特有の残差モジュール(DRM)を用いて処理することで,パラメータ競合を抑制する。
    • 劣化認識ネットワークは劣化の種類と強度を推定し,DRMの復元強度を適応的に調整することで,より効果的な復元を可能にする。
    • 実夜間条件でのベンチマークデータセットを構築し,提案手法が既存手法を凌駕し,より少ないパラメータで高い効率を達成することを示した。

    Link: https://arxiv.org/abs/2604.22886

  • 再構成権限モデル:部分的観測性下における実行妥当性の検証 [cs.CR, cs.AI, cs.GT]目的:部分的観測性下における実行妥当性の検証手法
    • 自律システムの普及に伴い,完全な状態把握が困難な状況下での安全性が重要となる。
    • 既存の統治メカニズムは,完全な状態把握が不可能であるため,実行妥当性を保証しきれない。
    • 状態の網羅性を評価し,行動クラスに応じた適切な権限を動的に調整することで,安全な実行を実現する。
    • 再構成権限モデル(RAM)は,完全性の保証と状態の網羅性の確認を分離することで,実行妥当性を評価する。
    • シミュレーション実験の結果,RAMはあらゆる網羅性レベルで無効な実行をゼロに抑えることが示された。
    • 既存の認証ベースシステムでは,網羅性が低い場合や完全な場合でも,無効な実行が発生することが確認された。

    Link: https://arxiv.org/abs/2604.22898

  • テキスト誘導型マルチモーダル統一産業異常検知 [cs.CV]目的:産業異常検知のための新しいフレームワーク
    • 産業の品質検査において,知的な異常検知の重要性が高まっている
    • 既存手法では,セマンティックな誘導不足によるモダリティ間アラインメントの曖昧さが課題
    • RGB-to-3D特徴マッピングにおける幾何学的モデリングの不足を解消すること
    • テキストセマンティクスによって誘導される統一フレームワークを提案した
    • 幾何学的構造を保持するモダリティ変換器と,セマンティック事前知識で特徴を整列させるアダプターを導入
    • 単一モデルで多様なクラスに対応可能な統一学習パラダイムを確立し,最先端の性能を達成した

    Link: https://arxiv.org/abs/2604.22899

  • 量子と古典的特徴の補完性:乳癌分類のための適応型ハイブリッド量子古典特徴融合 [cs.CV, cs.AI]目的:乳癌分類のための,古典的モデルと量子回路からの補完的な表現抽出と統合
    • 医療画像解析における量子機械学習と古典的深層学習の統合は,高次元ヒルベルト空間へのデータマッピングを可能にする。
    • 最適化の非対称性により,これらの異なるパラダイムを効果的に統合することは困難である。
    • 多様な特徴表現を統合し,より豊かなデータコンテキストを構築することで,分類精度を向上させる。
    • 提案するTSHF戦略は,ResNetバックボーンと学習可能な量子回路との組み合わせにおいて,最高87.82%の精度を達成した。
    • また,F1スコアは91.77%,AUC-ROCは89.08%であり,純粋な古典的ベースラインを上回った。
    • 本研究の結果は,提案するハイブリッドフレームワークが分類精度と閾値信頼性を向上させ,臨床展開可能な量子強化診断ツールを提供することを示す。

    Link: https://arxiv.org/abs/2604.22903

  • 自己知識の再表現:LLMを内部知識を用いてタスクに適応させるための完全な局所手法 [cs.CL, cs.AI, cs.CV, cs.IR]目的:LLMの内部知識を利用したタスク適応
    • LLMは大規模な知識を保有しているが,その活用方法が課題となっている。
    • LLMの知識表現メカニズムが,特殊な非生成タスクにおいて性能のボトルネックとなっている。
    • LLMの知識表現をタスク固有のものに変換し,性能向上を目指す。
    • 提案手法SKRは,LLMの出力を汎用的なトークン生成から,高効率なタスク固有の表現へと変換する。
    • 金融ドキュメントデータセットにおいて,情報検索のRecall@1が40%以上,物体検出のレイテンシが76%以上削減された。
    • 異常検知のAUPRCは33%以上向上し,MMDocRAGデータセットでは主要な検索モデルを12.6%以上上回る結果が得られた。

    Link: https://arxiv.org/abs/2604.22939

  • VS-DDPM:医療モダリティ変換のための効率的低コスト拡散モデル [cs.CV, cs.AI, cs.LG]目的:医療モダリティ変換における高速化と高画質化
    • 医療画像診断支援の精度向上には,高品質な画像データの確保が不可欠である。
    • 拡散モデルは高画質だが,推論速度が遅く実用化の障壁となっていた。
    • 推論速度を向上させつつ,生成品質を維持する新しい拡散モデルを開発する。
    • VS-DDPMは,欠損MRI合成において,Dice係数0.80~0.88,SSIM 0.95と高い性能を示した。
    • MRI腫瘍除去タスクでは,RMSE 0.053,PSNR 26.77,SSIM 0.918を達成した。
    • MRI-to-sCTおよびCBCT-to-sCTタスクではSOTAには至らなかったが,堅牢で調整可能なソリューションであることが示された。

    Link: https://arxiv.org/abs/2604.22942

  • AnemiaVision:スマートフォン画像を用いた効率的EfficientNet-B3による非侵襲性貧血検出 [cs.HC, cs.CV, cs.LG, cs.SE]目的:スマートフォン画像による非侵襲的な貧血スクリーニングシステムの開発
    • 貧血は世界で10億人以上に影響を与え,公衆衛生上の重要な課題である。
    • 低資源地域では血液検査へのアクセスが限られており,貧血の診断が遅れることが多い。
    • スマートフォン画像から貧血を非侵襲的に検出し,診断の早期化に貢献する。
    • 提案システムは,EfficientNet-B3をベースに改良された分類器ヘッドと,データ拡張技術を組み合わせることで高い精度を実現した。
    • 検証精度は96.2%,AUC-ROCは0.98に達し,ベースラインと比較して大幅な改善が見られた。
    • 貧血患者の検出感度は0.96と高く,遠隔地でのスクリーニングツールとしての有用性が示唆された。

    Link: https://arxiv.org/abs/2604.22964

  • BrickNet:グラフに基づく生成的レゴブロック組み立て [cs.CV, cs.GR]目的:レゴブロックの組み立てシーケンス生成
    • 創造性や設計の自動化への応用が期待される分野である。
    • 物理的制約を満たす構造の自動組み立ては困難である。
    • 多様なレゴブロックを用いた現実的な組み立てシーケンス生成を目指す。
    • 大規模なレゴブロックデータセットを構築し,グラフベースのプログラム表現を導入した。
    • 接続関係を通じて構造をパラメータ化することで,生成されるシーケンスの物理的整合性を向上させた。
    • データセットとモデルを公開し,今後の研究利用を促進する。

    Link: https://arxiv.org/abs/2604.22984