arXiv雑要約

画像・音声 - 2026/03/26 公開

DISCO：比較評価のためのドキュメントインテリジェンススイート [cs.CL, cs.AI, cs.CV]目的：ドキュメントインテリジェンスにおけるOCRパイプラインとビジョン言語モデルの評価
- ドキュメント活用の重要性が増す中，正確なテキスト抽出と文書内容の理解が不可欠である。
- ドキュメントの種類や特性によって，最適な処理手法が異なり，その選択が困難である。
- ドキュメントの構造と推論要求に基づいた処理戦略の選択指針を示すことを目指す。
- OCRパイプラインは手書き文字や長文ドキュメントで信頼性が高く，VLMは多言語テキストや視覚的に豊かなレイアウトで優れている。
- タスクに応じたプロンプティングは，ドキュメントの種類によっては性能を向上させる一方で，低下させる場合もある。
- ドキュメントの複雑さに応じたアプローチ選択の必要性が示唆された。
Link: https://arxiv.org/abs/2603.23511
チトラクシャラ：インド言語のための大規模多言語マルチモーダルデータセット [cs.CL, cs.AI, cs.CV]目的：インド言語に対応した大規模なマルチモーダルデータセット
- 画像とテキストの理解は，AI技術の発展において重要な役割を担う。
- 既存のVision-Language Modelは英語データに偏っており，インド言語への対応が不十分である。
- インド言語に対応したデータセットを構築し，文化的に包括的なVLMsの開発を促進すること。
- チトラクシャラデータセットは，11のインド言語に対応し，大規模な画像とテキストデータを提供する。
- Chitrakshara-ILは193Mの画像，30Bのテキストトークン，50Mの多言語ドキュメントを含む。
- Chitrakshara-Capは44Mの画像-テキストペア，733Mのトークンを含み，多様性と品質が評価された。
Link: https://arxiv.org/abs/2603.23521
ネイティブGUIエージェントのためのCAPTCHA解決：自動推論・行動データ生成と自己修正学習 [cs.CR, cs.AI, cs.CV]目的：CAPTCHA解決能力を備えたネイティブGUIエージェントの開発
- GUI自動化は，ソフトウェアテストやアクセシビリティ向上に不可欠であり，その重要性は増している。
- 汎用的なGUIタスクは進歩しているが，CAPTCHA解決は依然としてボトルネックとなっている。
- CAPTCHA解決と汎用GUIタスクの両立を目指し，よりロバストなGUIエージェントを開発する。
- ReCAPは，7種類の代表的なCAPTCHAに対応する動的CAPTCHAシステムを開発した。
- 大規模なCAPTCHAインタラクション軌跡と推論トレースを自動的に収集・整理するパイプラインを構築した。
- 失敗軌跡を活用した自己修正データによる学習により，CAPTCHA解決成功率を約30％から80％に向上させた。
Link: https://arxiv.org/abs/2603.23559
推論軌跡付きのロングテール運転シナリオ：KITScenes ロングテールデータセット [cs.CV, cs.RO]目的：ロングテール運転イベントに焦点を当てたエンドツーエンド運転のためのデータセット
- 自動運転などの現実世界では，稀なシナリオへの汎化が重要課題である。
- 既存のデータセットは，ロングテールイベントの多様性を十分に捉えられていない。
- 多様な推論軌跡を含むデータセットにより，少数ショット学習と汎化能力の向上を目指す。
- 本データセットは，多言語（英語，スペイン語，中国語）の専門家による推論軌跡を提供する。
- モデルの安全性と快適性だけでなく，指示への追従性と意味的な一貫性を評価できる。
- 異なる形式の推論が運転能力に与える影響を研究するための独自の資源となる。
Link: https://arxiv.org/abs/2603.23607
M3T：手話生成のための離散多様相動作トークン [cs.CV]目的：手話生成における多様な動作要素の離散的な表現
- 手話は，身体言語としてコミュニケーションにおいて重要な役割を担う。
- 既存の3D生成システムでは，顔の表現力が低く，非言語的要素の再現が困難。
- 多様相動作の離散化におけるコードブック崩壊問題を解決し，表現力を向上させる。
- SMPL-FXと有限スカラー量子化VAEを用いて，身体，手，顔の動作をモダリティごとにトークン化。
- M3Tは，この多様相動作語彙に基づいた自己回帰トランスフォーマー。
- How2Sign, CSL-Daily, Phoenix14T等のベンチマークで最先端の手話生成品質を達成。NMFs-CSLでは58.3%の精度。
Link: https://arxiv.org/abs/2603.23617
ウクライナ語視覚的語義曖昧性解消ベンチマーク [cs.CV, cs.AI]目的：ウクライナ語における視覚的語義曖昧性解消タスクの評価基準
- 自然言語処理において，言葉の意味を正しく理解することは重要である。特に，多義語の解釈は困難を伴う。
- 視覚情報を用いた語義曖昧性解消は，文脈情報が少ない状況での課題である。
- ウクライナ語における視覚的語義曖昧性解消の現状を把握し，モデルの性能を評価する。
- 本研究で構築したベンチマークを用いて，8つの多言語・多模態大規模言語モデルを評価した結果，全てのモデルがゼロショットCLIPベースラインよりも低い性能を示した。
- ウクライナ語と英語の視覚的語義曖昧性解消タスクの間には，顕著な性能差が存在することが明らかになった。
- 本ベンチマークは，言語を超えたモデルの性能比較のための枠組みに組み込むことができる。
Link: https://arxiv.org/abs/2603.23627
MIDI記録の可視化による音楽教育の支援 [cs.HC, cs.GR]目的：音楽教育におけるMIDI記録の可視化手法
- 音楽学習において，演奏分析は重要な要素である。耳での分析は限界がある。
- 楽曲全体を即座に把握することが難しく，誤差やスタイル差異の発見が困難である。
- MIDIデータを用いて，リズム分析を通じた誤差やスタイルの可視化を目指す。
- 提案する可視化手法は，楽曲全体の把握を容易にし，効率的な分析を可能にする。
- リズム分析に焦点を当てることで，演奏の誤差やスタイルの差異を視覚的に示す。
- この研究は，音楽教育における分析能力の向上に貢献すると期待される。
Link: https://arxiv.org/abs/2603.23631
3Dガウススプラッティング再構成のための確率的レイトレーシング [cs.CV]目的：3Dガウススプラッティングの再構成とレンダリング
- 3D表現のリアリズム向上に不可欠であり，新しい視覚体験の創出に貢献する。
- 従来のラスタライズ法は，カメラモデルの制約や影の精度，反射・屈折の表現に限界がある。
- レイトレーシングの利点を活かし，より高精度で汎用的な3Dガウススプラッティングを実現する。
- 本研究では，ソート不要な確率的レイトレーシングを用いた3Dガウススプラッティングの新たなフレームワークを提案した。
- 提案手法は，標準的な3DGSにおいて，ラスタライズベースの手法と同等の性能を示し，ソートベースのレイトレーシングを上回る速度を実現した。
- 再照明可能な3DGSにおいては，高品質な影の表現により，既存手法よりも高い再構成精度を達成した。
Link: https://arxiv.org/abs/2603.23637
楽器学習のための拡張現実視覚化 [cs.HC, cs.GR]目的：楽器学習を支援する拡張現実視覚化のデザイン
- 音楽学習は認知能力や創造性を育む重要な活動である。
- 従来の学習方法は視覚的なフィードバックが不足しがちである。
- 拡張現実を活用し，効果的な視覚的学習支援を実現すること。
- ドラムキットとギターを対象とした拡張現実視覚化プロトタイプを開発した。
- ドラムキットはプロジェクター，ギターは画面やARヘッドセットで評価を行った。
- ケーススタディの結果，有効性が確認され，デザイン上の課題も明らかになった。
Link: https://arxiv.org/abs/2603.23639
蛍光顕微鏡用自己教師ありコンテンツ認識スペクトル分解：{\lambda}Split [cs.CV, cs.AI, cs.LG]目的：蛍光顕微鏡画像におけるスペクトル分解の性能向上
- 蛍光顕微鏡は生物学研究において不可欠であり，多種類の蛍光色素を同時に可視化する必要がある。
- 従来のスペクトル分解法は，蛍光スペクトルの重なりやノイズに弱く，正確な濃度推定が困難である。
- 学習に基づいた手法では，顕微鏡データに最適化されておらず，汎用性に欠ける場合がある。
- 提案手法{\lambda}Splitは，階層型変分オートエンコーダと微分可能なスペクトルミキサーを用いて，濃度マップの条件付き分布を学習する。
- 66のベンチマークデータセットにおいて，従来の10手法と比較し，競争力のある性能と高いロバスト性を示した。
- {\lambda}Splitは，標準的なコンフォーカル顕微鏡で使用でき，特別なハードウェア変更は不要である。
Link: https://arxiv.org/abs/2603.23647
基盤モデル埋め込みと複合感情：BLEMOREチャレンジのためのマルチモーダル融合アプローチ [eess.SY, cs.SY, eess.SY, cs.MA, cs.RO, cs.SY, cs.CV]目的：複合感情認識と相対的な顕著性予測
- 感情認識は，人間と機械のより自然なコミュニケーションを実現するための重要な要素である。
- 複合感情の認識は難しく，既存の方法では個々の感情表現の違いを捉えきれない場合がある。
- 本研究は，マルチモーダルな情報を融合することで，複合感情認識の精度向上を目指す。
- Gemini Embedding 2.0を感情認識に初めて応用し，わずか2秒の入力で高い存在感精度(ACCP = 0.320)を達成した。
- Wav2Vec2の音声特徴量抽出において，特定の層(6-12層)を選択的に利用することで，エンドツーエンドのファインチューニングよりも高いスコア(0.207 vs 0.161)が得られた。
- アンサンブル学習において，タスク適応型エンコーダが汎用的な基盤モデルよりも高い割合(62%)の重みを受け取った。
Link: https://arxiv.org/abs/2603.23650
エコー：意味的に整合性のとれた音楽ディープフェイク検出データセット [cs.RO, physics.app-ph, cs.SD, cs.AI, eess.AS]目的：音楽ディープフェイク検出のためのデータセット
- AI技術の発展に伴い，音楽生成の信頼性確保が重要になっている。
- 既存のデータセットでは，汎化性能が低く，現実的な環境での検出が困難である。
- 多様なプロバイダと意味的な整合性に着目し，より堅牢な検出手法を開発する。
- エコーは，既存のAI生成音楽データセットの中で最も難易度が高いことが示された。
- 既存データセットで学習した検出器は，エコーに対して転移学習が困難である。
- エコーで学習することで，検出器の汎化性能が向上することが確認された。
Link: https://arxiv.org/abs/2603.23667
UAV画像からの個体樹高と樹種推定 [cs.CV, cs.AI, cs.LG]目的：個体樹高および樹種の推定
- 森林バイオマス推定は，主要な炭素吸収源としての森林の把握に不可欠である。
- 高精度な個体樹レベルでの情報取得は，コストと効率性の面で課題があった。
- UAV画像を用いた，効率的かつ高精度な個体樹高と樹種推定手法を開発すること。
- 本研究で開発したDINOvTreeは，既存手法と比較して高い精度で樹高を予測し，樹種分類においても競争力のある結果を示した。
- DINOvTreeは，既存の最良手法と比較してパラメータ数を54～58%削減しながら，同等の性能を達成した。
- 新たにBIRCH-Treesデータセットを構築し，個体樹高と樹種推定のベンチマークとして公開した。
Link: https://arxiv.org/abs/2603.23669
生物に触発されたイベントベース視覚サーボ制御による陸上ロボット [cs.RO, cs.CV]目的：イベントベース視覚サーボ制御フレームワーク
- 生物の感覚システムは効率的であり，ロボットの知覚にも応用が期待される。
- 従来の視覚システムは計算負荷が高く，リアルタイム性に課題がある。
- イベントベースの視覚情報を用いて，効率的かつ低遅延な制御を実現する。
- 動的視覚センサーを用いることで，特定の運動状態を解析的に分離できることを示した。
- 線形および二次空間プロファイルを利用し，ロボットの速度および位置速度積を分離した。
- 複数のパターン刺激を用いることで，従来のステート推定なしに非線形状態フィードバック項を合成した。
Link: https://arxiv.org/abs/2603.23672
プロトタイプ融合：学習不要な多層アプローチによるOOD検出 [cs.CV, cs.AI]目的：異常分布検出の性能向上
- 安全性が求められる応用において，深層学習モデルの信頼性は重要である。異常分布検出はその信頼性を担保する鍵となる。
- 既存手法は最終層の活性化に依存しており，その有効性には限界がある。中間層の情報の活用が課題となっていた。
- 中間層の情報を活用し，よりロバストで汎化性能の高い異常分布検出手法を開発することを目指す。
- 本手法は，複数の層から特徴量を集約し，クラスごとの平均埋め込み表現であるプロトタイプを形成する。
- テストデータの特徴量とプロトタイプのコサイン類似度を異常スコアとして利用することで，高い検出性能を実現した。
- 様々なアーキテクチャにおいて，AUROCが最大4.41%向上し，FPRが13.58%減少した。
Link: https://arxiv.org/abs/2603.23677
MoCHA：モーションとテキストの検索のためのノイズ除去キャプション教師あり学習 [cs.CV]目的：モーションとテキストの検索における共有埋め込み空間の学習
- モーションとテキストの検索は，ロボット工学やコンピュータグラフィックス等，様々な分野で重要性を増している。
- 既存手法では，キャプションの多様性（アノテーターによる違いや解釈の相違）が埋め込み空間の分散を招き，精度低下の原因となっている。
- MoCHAは，モーションから復元可能な内容にキャプションを射影することで，この分散を低減し，より精度の高い検索を実現する。
- MoCHAは，モーションから復元可能な内容に焦点を当てることで，テキスト埋め込みの分散を11～19％削減することに成功した。
- HumanML3Dデータセットにおいて，LLM版MoCHAはT2M R@1で13.9％（+3.1pp）の精度向上を達成し，KIT-MLデータセットでは24.3％（+10.3pp）の精度向上を達成した。
- 異なるデータセット間での転移学習性能も大幅に向上し，HumanML3DからKIT-MLへの性能向上率は94％，KIT-MLからHumanML3Dへの性能向上率は52％であった。
Link: https://arxiv.org/abs/2603.23684
AdvSplat：フィードフォワードガウススプラッティングモデルに対する敵対的攻撃 [cs.CV]目的：フィードフォワード3Dガウススプラッティングモデルへの敵対的攻撃の体系的調査
- 3D再構成の分野において，リアルタイムかつ高精度な表現が可能であるため，急速に注目を集めている
- シーン固有の最適化が必要であり，スケーラビリティや汎用性に課題が残されている
- フィードフォワードモデルの脆弱性を明らかにし，現実的な攻撃手法を開発することで，セキュリティリスクへの対策を目指す
- 本研究により，フィードフォワード3Dガウススプラッティングモデルが敵対的攻撃に対して脆弱であることが示された。
- 周波数領域パラメータ化を用いた効率的なブラックボックス攻撃アルゴリズムが開発された。
- 入力画像に微小な摂動を加えることで，再構成結果を著しく阻害できることが実験的に確認された。
Link: https://arxiv.org/abs/2603.23686
医療画像登録のためのコントラスト学習による同時最適化CoRe [cs.RO, cs.CV]目的：医療画像登録における性能向上
- 医療画像解析において，異なるモダリティや時系列の画像を正確に照合することは不可欠である。
- 強度不整合や非線形な組織変形が，登録手法の頑健性に大きな課題となっている。
- コントラスト学習を登録モデルに統合し，組織変形に強い特徴表現を獲得することで，登録精度を向上させる。
- 提案手法は，コントラスト学習と登録目的を同時に最適化することで，情報量が多く登録タスクに適した表現学習を可能にする。
- 腹部および胸部の画像登録実験の結果，既存手法と比較して有意な性能改善が確認された。
- コントラスト学習を直接登録フレームワークに組み込むことが，登録性能の向上に大きく貢献することが示された。
Link: https://arxiv.org/abs/2603.23694
トレーラー連結車の動的較正と関節知覚 [cs.CV]目的：トレーラーと牽引車のカメラ間の相対姿勢の継続的な推定
- 自動運転技術の発展に伴い，物流の効率化が期待される。
- 既存の知覚・較正手法は，トレーラーの関節運動や柔軟性を考慮していない。
- トレーラーの関節運動に対応し，信頼性の高い知覚を実現する。
- 提案手法dCAPは，クロスビューと時間的注意を用いたTransformerにより，関節運動や遮蔽下でも正確な知覚を可能にする。
- dCAPをBEVFormerに統合することで，静的な較正の制限を克服し，3D物体検出性能を向上させる。
- STT4ATというCARLAベースのベンチマークを新たに開発し，評価を容易にした。
Link: https://arxiv.org/abs/2603.23711
Bi-CRCL：事前学習済み基礎モデルを用いた双方向保守的・急進的相補学習によるクラス増分型医用画像解析 [cs.RO, cs.CV]目的：クラス増分型医用画像解析における診断知識の維持と新規疾患カテゴリーへの適応
- 臨床現場での実用化には，継続的な学習能力が不可欠であり，その重要性は高い。
- 医用画像特有のデータ異質性やプライバシー制約により，既存手法では記憶の再現が困難である。
- 事前学習済み基礎モデルの医用画像への応用と，ドメイン適応の難しさを克服することを目指す。
- 提案手法Bi-CRCLは，安定性重視の保守的学習者と，可塑性重視の急進的学習者を組み合わせることで，既存手法を上回る性能を示す。
- 双方向相互作用機構により，知識の転送と固定化を促進し，破滅的忘却を抑制する。
- 5つの医用画像データセットにおける実験で，多様な設定下で一貫した性能向上を実証した。
Link: https://arxiv.org/abs/2603.23729
3D基礎モデルのファインチューニングに対するアダプターフリーなアプローチ [cs.CV]目的：3D基礎モデルのダウンストリームタスクへの適応
- 3D点群データ処理は，ロボティクスや自動運転など幅広い分野で重要性が増している。
- 低データ環境下では，基礎モデルの適応が過学習や表現のずれを引き起こしやすい。
- 追加パラメータ導入なしに，効率的かつ高精度なファインチューニングを実現する。
- MCFTは，フルファインチューニングとパラメータ効率的なファインチューニングの中間を埋める。
- 5ショット設定で既存手法を3.30%上回り，半教師あり学習では最大6.13%の改善を達成した。
- モデルのパラメータ数や推論効率を維持しつつ，リソース制約のある環境への展開に適している。
Link: https://arxiv.org/abs/2603.23730
パップスメアにおける（前）癌細胞の検出と分類：RIVA宮頸細胞検診チャレンジのためのアンサンブル戦略 [cs.CV]目的：宮頸細胞の検出と分類
- 宮頸がん検診の精度向上は，女性の健康維持において重要である。
- 手作業による細胞診は負荷が高く，読者間での一貫性に課題がある。
- 細胞の種類が少ないという課題を解決し，検出精度を向上させる。
- 提案手法は，最終テストセットで最も優れた単一モデルと比較して，mAP50-95が29％向上した。
- YOLOv11mをベースに，損失の再重み付け，データのリサンプリング，転移学習を評価した。
- 異なる戦略で学習させたモデルをアンサンブルすることで，互いに補完的な検出能力を実現した。
Link: https://arxiv.org/abs/2603.23742
IJmond 産業煙セグメンテーションデータセット [cs.CL, cs.RO, cs.CV]目的：産業煙セグメンテーションのためのデータセット
- 産業活動における煙の検出は，安全管理や環境保護において重要である。
- 既存のデータセットでは，産業環境における煙の多様性を捉えきれていない。
- 産業現場で発生する煙のセグメンテーション精度向上に貢献する。
- 本データセットは，figshareリポジトリで公開されている。
- データセットはCC BY 4.0ライセンスで利用可能である。
Link: https://arxiv.org/abs/2603.23754
汎化性能の高いビデオベースのてんかん発作検出のための関節間注意学習 [cs.CV]目的：ビデオベースのてんかん発作検出における汎化性能の向上
- 長時間の臨床ビデオから自動的に発作を検出することは，医療現場での負担軽減に繋がる。
- 既存手法は，背景の影響や被験者固有の特徴に依存するため，未知の被験者への汎化が難しい。
- 本研究は，被験者間の汎化性能を高めるため，身体の動きに焦点を当てた発作検出手法を提案する。
- 提案手法では，身体の関節に注目し，背景の影響を抑制することで，より汎化性能の高い発作検出を実現した。
- 関節を中心としたクリップを用いて，Video Vision Transformer (ViViT) によって関節間の空間的・時間的相互作用を学習する。
- 実験の結果，提案手法は既存の最先端手法と比較して，未知の被験者に対して一貫して高い性能を示した。
Link: https://arxiv.org/abs/2603.23757
意味的反復再構成：ワンショット汎用異常検知 [cs.ET, cs.NI, cs.CV]目的：医療画像における異常検知のための手法
- 医療診断の精度向上に貢献し，医師の負担軽減に繋がる重要な研究分野である。
- 正常データの少なさにより，異常検知の性能が大きく制限されている現状がある。
- 極めて少ない正常データで，多様な医療領域における異常を検知することを可能にする。
- 提案手法SIRは，異なる医療データセット間で汎用的に機能する単一のモデルを実現した。
- SIRは，事前学習済みの教師エンコーダと反復的なデコーダ構造を用いることで，高い性能を達成した。
- 9つの医療ベンチマークにおいて，SIRは最先端の結果を示し，既存手法を上回った。
Link: https://arxiv.org/abs/2603.23766
深層学習を用いた眼底画像からの網膜疾患分類 [cs.CV, cs.LG]目的：網膜疾患リスクの二値分類
- 網膜疾患は世界的に視覚障害の主な原因であり，予防可能な疾患である。
- 十分な医療資源がない地域では，早期発見へのアクセスが限られている。
- 眼底画像解析による自動スクリーニングの実現を目指す。
- 転移学習を用いたVGG16モデルは，テスト精度90.8%を達成し，重み付きF1スコアは0.90となった。
- これは，ベースラインCNN（精度83.1%）を大幅に上回る結果である。
- 転移学習は識別能力を向上させる一方で，少数疾患に対する感度には課題が残る。
Link: https://arxiv.org/abs/2603.23785
オブジェクト検索によるSAM 3のリプロンプティング：PVUW MOSEトラック第5回チャレンジの第3位 [cs.CV]目的：複雑な半教師あり動画オブジェクトセグメンテーションのロバスト性向上
- 動画内のオブジェクト追跡は，自動運転やロボティクス等，多くの応用分野で不可欠な技術である。
- ターゲットオブジェクトが一時的に消失したり，外観が大きく変化したりすると，追跡性能が著しく低下する。
- ターゲット消失や外観変化，類似オブジェクトの存在下でも安定した追跡を実現する手法の開発。
- 提案手法は，SAM 3検出器を用いて後続フレームから候補オブジェクトを特定し，DINOv3に基づくオブジェクトレベルマッチングを行う。
- 信頼性の高いターゲットアンカーを抽出，SAM 3トラッカーに注入することで，マルチアンカー伝播を実現した。
- PVUW 2026 MOSEv2トラックのテストセットにおいて，J&Fスコア51.17%を達成し，第3位となった。
Link: https://arxiv.org/abs/2603.23788
解釈可能な医療画像表現学習のためのスパースオートエンコーダ [cs.CV, cs.LG]目的：医療画像表現の解釈可能性
- 医療画像診断の精度向上は，患者ケアにおいて不可欠である。
- 既存の画像表現は抽象的で，臨床医が検証困難である。
- 解釈可能な疎な特徴表現を学習し，臨床応用を促進する。
- スパースオートエンコーダ(SAE)は，元の埋め込みを高い忠実度で再構築し，わずか10個の特徴量で下流タスクの性能を維持する。
- 学習された疎な特徴は，画像検索タスクにおいて意味的忠実性を保持する。
- SAEは，大規模言語モデルを用いて画像に関連する概念を言語で表現し，臨床用語と抽象的な表現間の橋渡しを行う。
Link: https://arxiv.org/abs/2603.23794
ラベル誘導3D潜在拡散モデル：肝構造セグメンテーションにおける高解像度合成MRIの向上 [cs.CL, cs.CV]目的：肝構造セグメンテーションのための高解像度合成MRI生成
- 医療画像解析における深層学習の進展，そして信頼性の高い注釈付きデータセットの重要性が増している。
- 医療画像分野では，十分な注釈付きデータセットの不足が，深層学習の活用を妨げる大きな課題となっている。
- 本研究は，ラベル情報を活用することで，高品質な合成MRIデータ生成を実現し，データセット不足の問題を解決する。
- 3D-LLDMは，既存のGANモデルと比較してFIDスコアを70.9%改善，最先端の拡散モデルと比較しても26.7%改善した。
- 生成された合成MRIデータを用いたデータ拡張により，肝細胞癌セグメンテーションのDice係数が最大11.153%向上した。
- Gd-EOB-DTPA造影剤を用いた肝胆道相MRI画像を基に，肝臓，門脈，肝静脈，肝細胞癌の構造マスクを生成し，ControlNetアーキテクチャでボリューム合成を誘導する。
Link: https://arxiv.org/abs/2603.23845
見る，記憶する，探索する：ストリーミング空間推論のためのベンチマークとベースライン [cs.CV]目的：ストリーミング空間質疑応答と能動的探索のためのベンチマーク
- ロボット工学や視覚理解において，空間認識は重要な役割を果たす。
- 既存の空間VLMはオフライン評価が多く，リアルタイム性や能動的知覚が課題である。
- 長期にわたるストリーミング推論と，視点不足時の能動的探索を可能にする。
- 新しいベンチマークS3-Benchは，時間的制約のある空間質疑応答と能動的探索を可能にする。
- 提案手法AMF-VLMは，メモリ折り畳みと能動的探索により，限られた計算資源下での推論を実現。
- シミュレーションデータと実データでそれぞれ8.8%と13.3%の性能向上を示し，汎化性能も高い。
Link: https://arxiv.org/abs/2603.23864
VLMは堅牢に推論できるか？：神経記号的調査 [cs.HC, cs.LG, cs.AI, cs.CV]目的：視覚言語モデルにおける，分布シフト下での堅牢な推論能力の評価
- 視覚言語モデルは多様な推論タスクに応用されているが，汎化性能が課題となっている。
- 分布シフトが発生すると，従来のVLMは推論性能を著しく低下させる。
- VLMと記号的推論を組み合わせることで，分布シフトに対する堅牢性を向上させる。
- 本研究では，VLMの勾配ベースのファインチューニングでは，分布外汎化が困難であることを示した。
- 神経記号的アプローチでは，従来のブラックボックス型推論コンポーネントの不整合性が課題となっていた。
- 提案手法VLCは，VLMによる概念認識と回路ベースの記号的推論を組み合わせることで，分布シフト下で堅牢な推論を実現した。
Link: https://arxiv.org/abs/2603.23867
MLE-UVAD：完全教師なしビデオ異常検知のための最小潜在エントロピーオートエンコーダ [cs.CV]目的：ビデオ異常検知における，ラベルを用いない手法の性能向上
- 監視カメラ等の映像データ解析において，異常検知は重要な課題である。自動化による効率化が期待される。
- 既存手法は，ラベルデータの準備が必要，または正常データのみで学習するため，現実への適用が難しい。
- 本研究は，ラベル不要で，分布の変化にも強い異常検知手法の確立を目指す。
- 提案手法は，再構成誤差と潜在エントロピー最小化損失を組み合わせることで，正常フレームの再構成精度を高める。
- 異常フレームは潜在空間で正常フレームのクラスタに寄せられるため，再構成誤差が大きくなり，異常を検知できる。
- 二つのベンチマークデータセットと，運転映像データセットにおいて，提案手法が既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2603.23868
EnvSocial-Diff：環境条件と個人・集団間相互作用を用いた拡散ベースの群衆シミュレーションモデル [cs.CV]目的：現実的な歩行者軌跡のモデル化
- 現実的な群衆シミュレーションは，防災，都市計画，イベント管理等，多岐にわたる分野で重要である。
- 既存研究は社会的なダイナミクスに重点を置く傾向があり，環境要因の考慮が不十分である。
- 環境条件と多層的な社会相互作用を明示的に組み込むことで，群衆シミュレーションの精度向上を目指す。
- EnvSocial-Diffは，社会物理学に基づき，環境条件と個人・集団間相互作用を統合した拡散モデルである。
- 環境条件モジュールは，障害物，興味のある物体，照明レベルを明示的に符号化し，シーンの制約と誘引を捉える。
- 複数のベンチマークデータセットでの実験により，EnvSocial-Diffは最新技術を上回り，環境条件と多層的な社会相互作用の重要性が示された。
Link: https://arxiv.org/abs/2603.23874
BioVITA：視覚・テキスト・聴覚の整合のための生物学的データセット，モデル，ベンチマーク [cs.SI, cs.AR, cs.CV]目的：視覚，テキスト，聴覚データの整合性
- 生態学とコンピュータビジョンの融合領域において，動物種の理解が重要視されている。
- 既存モデルでは，画像とテキストの整合性は進むも，聴覚情報の統合が課題となっていた。
- 視覚，テキスト，聴覚データを統合し，生物多様性の理解を深めることを目指す。
- BioVITAは，14,133種の動物の130万件以上の音声と230万件の画像を含む大規模データセットを構築した。
- BioCLIP2を基盤とし，2段階の学習フレームワークを用いて，音声表現と視覚・テキスト表現の整合性を高めた。
- 種，属，科レベルでの3方向の検索ベンチマークを開発し，モデルが種レベルの意味を捉えていることを示した。
Link: https://arxiv.org/abs/2603.23883
現実的なシーン合成とドキュメント認識学習による実世界ドキュメント解析への道 [cs.GL, cs.CV]目的：実世界ドキュメント解析の堅牢性向上
- ドキュメント解析は，情報抽出や自動処理に不可欠であり，その重要性は増している。
- 既存手法は，レイアウト分析の精度に依存し，現実世界の多様なドキュメントに対応できない場合がある。
- 大規模かつ高品質な学習データと構造を意識した学習戦略の欠如を解消し，解析の精度と堅牢性を高める。
- 現実的なシーン合成により，大規模で多様な学習データを生成し，構造の多様性を確保した。
- ドキュメント認識学習レシピは，構造の忠実性と安定したデコードを強化する漸進学習と構造トークン最適化を導入した。
- 実環境で撮影されたドキュメントを含むベンチマークWild-OmniDocBenchを構築し，堅牢性を評価した結果，既存手法を上回る精度を達成した。
Link: https://arxiv.org/abs/2603.23885
FilterGS：大規模LoD 3D Gaussian Splattingのためのトラバーサル不要な並列フィルタリングと適応的縮小 [cs.CV]目的：大規模3D Gaussian Splattingにおける効率的なフィルタリングと冗長性削減
- 3D Gaussian Splattingは高速なレンダリングを可能にする技術であり，様々な分野での応用が期待されている。
- 大規模シーンへの適用では，シリアルなトラバーサル処理がボトルネックとなり，冗長なGaussian-tileペアが増加する。
- トラバーサル処理の不要化と冗長ペアの削減により，大規模3D Gaussian Splattingのレンダリング効率を向上させる。
- FilterGSは，2つの補完的なフィルタを用いた並列フィルタリングにより，効率的にGaussian要素を選択し，トラバーサルを不要にする。
- 新たなGTC指標によりGaussian-tileペアの冗長性を定量化し，シーンに合わせた適応的なGaussian縮小戦略を導入する。
- 実験により，FilterGSが最先端のレンダリング速度を達成し，複数の大規模データセットで競争力のある視覚的品質を維持することが示された。
Link: https://arxiv.org/abs/2603.23891
MMTIT-Bench：認知・知覚・推論に基づいた多言語・多シナリオテキスト画像機械翻訳ベンチマーク [cs.CV]目的：多言語・多シナリオテキスト画像機械翻訳の厳密な評価
- 現実世界の多言語シーン理解には，テキスト画像機械翻訳が不可欠である。
- 多様な視覚シーンや低リソース言語におけるロバスト性が十分に検証されていない。
- 多様な言語とシナリオに対応した評価ベンチマークの構築と，翻訳性能向上を目指す。
- MMTIT-Benchは，14の非英語・非中国語を含む1400枚の画像を含む，人間が検証した多言語・多シナリオベンチマークである。
- 認知・知覚・推論を統合するCPR-Transデータパラダイムを提案し，構造化された解釈可能な教師データを提供する。
- 3Bおよび7Bモデルの実験により，精度と解釈可能性の一貫した向上が示された。
Link: https://arxiv.org/abs/2603.23896
知識を洗練した二重文脈認識ネットワークによる部分的に関連する動画検索 [cs.CV, cs.AI]目的：部分的に関連する動画セグメントの検索
- 動画検索は，情報過多な時代において，必要な情報を迅速に取得するための重要な技術である。
- 動画とテキストの間の情報密度の不一致や，セマンティック焦点とイベント相関を見落とす注意メカニズムが課題である。
- テキストと視覚の両面からこれらの課題を解決し，より正確な動画検索を実現すること。
- 提案手法KDC-Netは，テキスト側で階層的セマンティック集約モジュールを用いてクエリのセマンティクスを強化する。
- 動画側では，動的Temporal Attentionメカニズムにより，局所的な時間的 coherence を持つキーイベントを強調する。
- 実験結果から，KDC-NetはPRVRベンチマークにおいて，既存手法を上回り，特に低いmoment-to-video比率で優れた性能を示す。
Link: https://arxiv.org/abs/2603.23902
現実世界の画像再構成と操作のための高忠実度拡散逆変換における潜在的バイアス整列 [cs.CV, cs.AI]目的：拡散モデルを用いた画像再構成・操作における高精度化
- 拡散モデルは高品質な画像生成が可能だが，現実世界の画像を再現するには逆変換技術が不可欠である。
- 既存の逆変換手法は，再構成品質の低さやロバスト性の弱さが課題となっている。
- 逆変換と生成の軌跡のずれ，およびVQAE再構成との不一致を解消し，再構成精度を向上させる。
- 提案手法（LBO）は，逆変換と生成の軌跡のずれを低減する潜在的バイアスベクトルを導入し，再構成品質を大幅に改善する。
- 画像潜在表現を調整するILBにより，拡散逆変換とVQAE再構成を近似的に同時最適化することで，更なる精度向上を実現する。
- 画像編集や希少概念生成といった下流タスクにおいても，提案手法の有効性が実験的に示された。
Link: https://arxiv.org/abs/2603.23903
GenMask：直接マスクによるDiTのセグメンテーションへの適応 [cs.CV]目的：セグメンテーションのためのDiTの適応手法
- 画像認識分野において，セグメンテーションはピクセル単位での詳細な理解を可能にする重要な技術である。
- 既存手法は間接的な特徴抽出に依存し，表現のずれや複雑なワークフローが課題となっていた。
- 本研究は，生成的な方法でセグメンテーションを直接学習する新しいアプローチを提案する。
- GenMaskは，DiTをセグメンテーションマスクとRGB画像を同時に生成するように学習させることで，特徴抽出パイプラインを不要にする。
- 提案手法は，バイナリマスクの潜在空間の特性を考慮し，セグメンテーションと画像生成の両立を可能にするタイムステップサンプリング戦略を採用している。
- 実験結果から，GenMaskは参照と推論セグメンテーションのベンチマークにおいて最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2603.23906
大規模ビジョン言語モデルにおける注意機構を意識した推論最適化とメモリ効率の良いデコーディング [cs.CV, cs.LG]目的：大規模ビジョン言語モデルの推論時間効率向上
- マルチモーダル推論において，大規模ビジョン言語モデルは目覚ましい成功を収めているため，その重要性が高まっている。
- デコーディング時のメモリオーバーヘッドが大きく，特に長文のクエリや回答を扱う場合に推論効率が課題となっている。
- 高解像度画像や動画など，多数の視覚入力と相互作用を伴う長文コンテキストタスクにおける効率改善を目指す。
- AttentionPackは，キーと値の行列を経済的に格納する多頭注意圧縮手法と，遅延オーバーヘッドを削減するトークン固有の注意機構を意識した解凍メカニズムを導入する。
- 複数のベンチマークにおいて，AttentionPackはメモリ効率を最大8倍に向上させ，より大きなバッチサイズと高速なバッチ推論を可能にする。
- AttentionPackは，退去，量子化，カーネル融合と組み合わせることで，リソース制限された環境において更なる効率向上を実現する。
Link: https://arxiv.org/abs/2603.23914
DecepGPT：スキーマ駆動型欺瞞検出における多文化データセットとロバストなマルチモーダル学習 [cs.CV, cs.AI]目的：多文化データセットとロバストなマルチモーダル学習による欺瞞検出手法
- 法医学やセキュリティ分野において，欺瞞行動の識別は重要な課題である。
- 既存のベンチマークは中間的な推論根拠がなく，データセットも規模が小さく，シナリオの網羅性も低い。
- 検証可能な根拠に基づいた欺瞞検出と，文化的な背景に依存しない汎化性能の向上を目指す。
- 本研究では，構造化された手がかりレベルの説明と推論チェーンを付加した推論データセットを構築した。
- 「To Tell The Truth」のテレビ番組フォーマットを4カ国で実施した多文化データセット「T4-Deception」を公開した。
- SICSモジュールとDMCモジュールを提案し，少ないデータ条件下でのロバストな学習を実現し，最先端の性能を達成した。
Link: https://arxiv.org/abs/2603.23916
不確実性考慮型ビジョンベースのリスクオブジェクト識別：Conformal Risk Tube Prediction [cs.CV]目的：ビジョンベースのリスクオブジェクト識別における不確実性のモデリング
- 自動運転システムにおける安全性確保のため，ハザード検知能力は不可欠である。
- 既存手法は不確実性を無視しており，複雑な状況下で誤検知や遅延検知を引き起こす可能性がある。
- 空間的・時間的なリスク不確実性を同時にモデル化する枠組みを構築し，安全性を向上させる。
- 提案手法は，真のリスクに対する保証カバレッジを提供し，校正されたリスクスコアと不確実性推定値を生成する。
- 新しいデータセットと評価指標を提示し，複雑な多リスク連動効果を持つ多様なシナリオを評価した。
- 実験により，既存手法と比較して大幅な改善が確認され，誤検知の抑制に貢献する。
Link: https://arxiv.org/abs/2603.23919
DepthArb：訓練不要な奥行き調停による遮蔽耐性のある画像合成 [cs.CV]目的：画像合成における遮蔽関係の正確性の向上
- 画像生成技術は発展しているが，複雑なシーンにおけるオブジェクト間の空間関係の再現は課題である。
- 既存手法は空間配置に硬直的な制約を課し，奥行き順を考慮しないため，オブジェクトの混同や不自然な遮蔽が生じやすい。
- 奥行き情報を活用し，アテンション機構を制御することで，遮蔽関係を正しく再現し，より自然な画像を生成すること。
- DepthArbは，アテンション競合を調停するAttention Arbitration Modulation（AAM）とSpatial Compactness Control（SCC）を導入することで，訓練なしに遮蔽表現を改善する。
- OcclBenchという遮蔽シナリオを網羅した評価ベンチマークを新たに提案し，DepthArbの有効性を検証した。
- 実験結果から，DepthArbは最先端手法と比較して遮蔽精度と視覚的品質の両面で優れていることが示された。
Link: https://arxiv.org/abs/2603.23924
DP^2-VL：データポイズニングによるビジョン言語モデルのプライベート写真データ保護 [cs.CV]目的：ビジョン言語モデルにおけるプライベート写真データの保護
- 画像と言語の連携が進み，ビジョン言語モデルの画像理解能力が向上している。
- プライベート写真を利用した学習により，個人情報漏洩のリスクが生じている。
- データポイズニングによって，プライベート写真データの悪用を防ぐ手法を開発する。
- 本研究では，わずかなプライベート写真のみで，モデルが個人の身元と属性の関係を学習してしまうという新たな脅威モデルを提示した。
- 提案手法DP^2-VLは，データポイズニングによりモデルの埋め込み空間をシフトさせ，プライベート写真の悪用を防ぐ効果が確認された。
- DP^2-VLは，様々なモデルや後処理に対して高い汎化性能と頑健性を示した。
Link: https://arxiv.org/abs/2603.23925
ORACLE：Transformer-CVAEと対照学習を用いたNPCの日常活動のオーケストレーション [cs.DC, cs.GR, cs.CL, cs.CV, cs.LG]目的：NPCのリアルな日常活動計画の生成
- デジタル環境におけるNPCは，没入感と認知能力の向上に貢献する重要な要素である。
- 既存手法では，人間らしい複雑さを捉えきれず，単調な繰り返しが生じやすい。
- 人間らしい多様性と自然さを持つ活動計画を生成し，NPCのリアリティを高める。
- ORACLEは，CASASスマートホームデータセットを用いて，不均衡なシーケンスデータや学習サンプル不足といった課題に対応している。
- Transformer，CVAE，対照学習を組み合わせることで，NPC活動計画の生成において既存手法を上回る性能を達成した。
- 本研究は，デジタル環境におけるNPCの行動にリアリズムと多様性をもたらす可能性を示唆する。
Link: https://arxiv.org/abs/2603.23933
大規模ビジョン言語モデルにおける多視点幻覚の解明 [cs.CV, cs.AI]目的：大規模ビジョン言語モデルにおける多視点幻覚の分析と軽減
- 多様な視点からの画像入力は，モデルの理解度と応用範囲を広げる上で不可欠である。
- 異なるインスタンスや視点の情報を混同する多視点幻覚が，モデルの精度低下を引き起こしている。
- 多視点幻覚を抑制し，モデルが正確な視覚的証拠とインスタンス/視点を関連付けられるようにすること。
- 本研究では，多視点幻覚を評価するためのベンチマークであるMVH-Benchを構築した。
- 提案手法であるReference Shift Contrastive Decoding (RSCD) は，既存手法と比較して，Qwen2.5-VLで最大21.1ポイント，LLaVA-OneVisionで最大34.6ポイントの性能向上を実現した。
- RSCDは，アテンションマスキングにより視覚的干渉を抑制することで，効果的に多視点幻覚を軽減することが示された。
Link: https://arxiv.org/abs/2603.23934
改ざん耐性汎用ウォーターマーキングによる高忠実度な顔コンテンツ復元 [cs.CL, cs.CV, cs.AI]目的：顔コンテンツの復元，操作箇所の特定，著作権保護
- AI技術による顔画像の改ざんが深刻化しており，メディアの信頼性確保が重要である。
- 従来のウォーターマーキング技術は，忠実度と機能性の両立が難しく，コンテンツ復元機能が不足している。
- 本研究は，改ざんされた顔画像からのコンテンツ復元を可能にし，フォレンジック分析を支援することを目的とする。
- 提案手法VeriFiは，コンテンツを保持する潜在的ウォーターマークを埋め込み，改ざん後の忠実な復元を可能にする。
- 画像特徴とProvenance信号の相関により，位置情報特定のためのアーティファクトを抑制し，高精度な操作箇所特定を実現する。
- 潜在空間混合とシームレスブレンディングを組み合わせたAIGC攻撃シミュレーターにより，現実的なディープフェイクに対するロバスト性を向上させる。
Link: https://arxiv.org/abs/2603.23940
可変長オーディオフィンガープリント [cs.CE, cs.DC, cs.SD, cs.AI, cs.MM]目的：可変長オーディオフィンガープリントの実現
- 音楽や音声の識別は，コンテンツ保護や検索において重要である。
- 既存手法は固定長セグメントに依存し，時間的変化に対応できない。
- 可変長に対応することで，よりロバストな識別を目指す。
- 提案手法VLAFPは，可変長のオーディオを処理可能な初の深層学習モデルである。
- 実世界の3つのデータセットで，既存の最先端手法を上回る性能を示した。
- ライブオーディオ識別とオーディオ検索の両タスクにおいて有効性が確認された。
Link: https://arxiv.org/abs/2603.23947
眼科のための汎用性と開放性の巨大言語モデル：VOLMO [cs.CL, cs.RO, cs.CL, cs.CV, cs.ET]目的：眼科領域特化型マルチモーダル大規模言語モデルの開発フレームワーク
- 視覚障害は世界中で多くの人々に影響を及ぼしており，早期発見は不可逆的な視力喪失を防ぐ上で重要である。
- 眼科医の診断は時間がかかり負担が大きく，画像，臨床データ，自由記述の統合が課題となっている。
- 既存の汎用・医療向けMLLMの眼科領域での性能不足を解消し，オープンな眼科特化型MLLMを開発すること。
- VOLMOは，画像記述，疾患スクリーニング，重症度分類において，既存のベースラインモデルを凌駕する性能を示した。
- 12種類の眼疾患において平均F1スコア87.4%を達成し，外部検証においても高い評価を得た。
- 本研究で開発された2BパラメータのコンパクトなMLLMは，眼科領域における臨床推論能力において優れた結果を示した。
Link: https://arxiv.org/abs/2603.23953