arXiv雑要約

画像・音声 - 2026/06/16 公開

転移学習による事前知識と物理ベース分解を融合した水中画像強調 [cs.CV]目的：水中画像強調のための新たな手法
- 水中画像は水中の環境により劣化しやすく，視覚的な情報取得が困難となるため，その改善は重要である。
- 既存手法は，データセットの疑似ラベルのノイズに起因する性能低下が課題となっている。
- 真のラベル収集の困難さを克服し，転移学習と物理モデルに基づいて高精度な水中画像強調を実現する。
- 提案手法は，他の分野の事前知識を転移学習で活用し，物理モデルに基づいた分解により，水中画像の強調を行う。
- 実験結果から，提案手法は既存の最先端手法を上回り，水中画像強調タスクにおいて高い性能を発揮することが示された。
- さらに，提案手法は下流の視覚タスクにおいても性能向上に貢献することが確認された。
Link: https://arxiv.org/abs/2606.15648
自己質疑型ビジョン言語モデル：構成的視覚推論のための強化学習 [cs.CV]目的：構成的視覚推論の性能向上
- 画像とテキストを扱うビジョン言語モデルはAI研究の重要な分野であり，多様な応用が期待されている。
- 複数のステップを必要とする複雑な視覚的推論問題に対して，既存のビジョン言語モデルは苦戦している。
- 人間の作成した段階的説明に頼らず，モデル自身が質問を分解する能力を獲得することを目指す。
- 自己質疑フレームワークと強化学習により，A-OKVQAデータセットにおいて，未学習モデルと比較して大幅な精度向上が確認された（52.2% vs 46.8%）。
- モデルは，最終的な答えだけでなく，中間的なサブ質問を生成することにも報酬を与えることで，自律的に構成的な分解戦略を発見した。
- AIシステムに中間的な質問を自らするように教えることは，複雑な視覚推論において有望な戦略であることが示唆された。
Link: https://arxiv.org/abs/2606.15651
SpatialAvatar-0：多段階再構成による高品質4Dヘッドアバター [cs.CV]目的：高品質な4Dヘッドアバターの生成
- 遠隔臨場感，AR/VR，デジタルヒューマンインタラクション等の分野において，高品質なアバターが不可欠である。
- 既存の汎用的な予測モデルは特定のデータセットに依存し，ドメインバイアスを抱えている。
- 両方のレジーム（汎用予測と個別最適化）を統合し，高品質かつ汎用性の高いアバター生成を目指す。
- 提案手法SpatialAvatar-0は，FLAMEメッシュにバインドされた共有のガウス表現を用いることで，両レジーム間のギャップを埋めている。
- VFHQ/HDTFクロスドメインのゼロショット評価において，既存の最先端手法GAGAvatarを+1.5dB PSNRで上回った。
- SplattingAvatarベンチマークでは，全ての評価指標で最高性能を達成し，GeoAvatarを+1.3dB PSNRで上回った。
Link: https://arxiv.org/abs/2606.15659
OneFocus：統一されたビジョン言語モデルによる現実世界のX線セキュリティスクリーニングの実現 [cs.CY, cs.CV]目的：X線を用いた違法物品検出の性能向上
- 大規模物流・輸送におけるセキュリティ確保は重要であり，X線検査はその根幹を担う。
- 従来の検出器は，新たな違法物品への対応や，画像の本質的な理解に課題がある。
- 高品質なX線画像-キャプションペアの不足を解消し，汎化性能の高いモデルを構築する。
- MMXrayという52,124組のX線画像-キャプションペアからなるベンチマークデータセットを構築した。
- 現実的な遮蔽パターンを考慮した合成データセットCleanDETおよびAnyContraSynを開発した。
- OneFocusという統一されたVLMを開発し，X線画像理解において最先端の性能を達成した。
Link: https://arxiv.org/abs/2606.15663
CEVAR：内腔線抽出による血管内動脈瘤修復 [cs.CV]目的：血管内動脈瘤修復後のシーリングゾーン評価
- 血管内動脈瘤修復後の長期生存率は，ステントグラフトのシーリング不良による破裂リスクが高いため改善が求められている。
- シーリングゾーンの評価にはCT画像による中心線測定が有効だが，手作業での編集や専門家の判断に依存する課題がある。
- 本研究は，自動化されたプロトコルに基づき，シーリングゾーンを評価するトランスフォーマーフレームワークを開発することを目指す。
- 提案手法は，フォローアップCT画像からの大動脈・腸骨動脈中心線抽出において，市販の半自動ワークフローを上回る性能を示した。
- 特に，造影剤を使用していない画像群においても高い精度を維持し，実用性が示唆された。
- 3次元中心線追跡と埋め込みベースの幾何学的予測を組み合わせることで，客観的かつ効率的なシーリングゾーン評価が可能となった。
Link: https://arxiv.org/abs/2606.15667
自己教師あり単眼ビデオ深度推定のための3次元整合性最適化 [cs.CV]目的：単眼ビデオ深度推定の精度向上
- 内視鏡ナビゲーション等の3次元推論や具現化AIにおいて，信頼性の高い深度推定は不可欠である。
- 既存手法はフレームを独立に扱うか，弱い時間的制約に頼るため，幾何学的に矛盾した予測やフレーム間のドリフトが発生しやすい。
- 3次元シーンの全体的な認識に基づき，幾何学的制約を活用することで，深度推定の整合性を高めることを目指す。
- 提案手法は，光度レンダリング，世界座標幾何学的整合性，マルチスケール時間勾配整合性という3つの制約に基づき，3次元整合性最適化フレームワークを導入した。
- この最適化により，単離されたフレームをグローバルに整合性のとれた3次元構造に固定することが可能となった。
- 自己教師あり学習とゼロショット臨床環境の両方で検証した結果，最先端の空間精度を達成し，既存手法を上回った。
Link: https://arxiv.org/abs/2606.15681
再利用可能なスキルを通じた新しいタスクの学習：具現化された継続学習のためのスキル構成エキスパート [cs.RO, cs.CV]目的：ロボットの継続的な操作タスク獲得と，クローズドループ制御下での以前の行動保持
- ロボットの自律性を高めるには，継続的に新しい能力を獲得し，既存の能力を維持することが不可欠である。
- 従来の継続学習よりも，クローズドループ制御下での忘却が深刻であり，特徴量のドリフトが問題となる。
- 継続的に進化するタスク間での構造化されたスキル再利用を促進し，忘却を抑制することを目的とする。
- 提案手法 SCE は，Compositional Skill Grounding (CSG) により再利用可能なスキルの基盤を構築する。
- Dual Execution-and-Transition Experts (DETE) がスキル構成を通じて新しいタスクを学習し，一貫性のある行動を可能にする。
- LIBEROベンチマークおよび実世界での実験により，SCEが保持率とタスクパフォーマンスを向上させることが示された。
Link: https://arxiv.org/abs/2606.15685
MAF：MLLMを用いた感情分析のためのマルチモーダル適応型Few-shotプロンプティング [cs.MM, cs.AI, cs.CV, cs.LG]目的：感情分析におけるMLLMの性能向上
- マルチモーダルな情報理解は，人間が情報を処理する自然な方法であり，AIにも不可欠である。
- MLLMの感情分析性能はプロンプト設計に大きく依存し，汎用的なプロンプトでは十分な性能を発揮できない。
- 入力に応じて最適なプロンプトを動的に生成し，感情分析の精度と安定性を高める。
- 提案手法MAFは，表情，シーン，テキストの意味を統合的にエンコードし，関連性の高い事例を動的に検索・統合する。
- MAFは，軽量な係数生成ネットワークを用いて，マルチモーダルな類似度スコアの重み付けを行い，最適な事例を選択する。
- 複数の候補出力に対する多数決を用いることで，予測の安定性を向上させている。
Link: https://arxiv.org/abs/2606.15694
OmniTraffic：空間的・時間的交通推論のための制御可能な生成パイプラインとベンチマーク [eess.SY, cs.SY, cs.CV, cs.AI, cs.SY, eess.SY]目的：空間的・時間的交通推論のための制御可能な生成パイプラインとベンチマークの提供
- 交通状況の理解は，自動運転や交通管理において不可欠であり，安全性向上に繋がる重要な課題である。
- 既存の交通関連ベンチマークは，受動的な画像認識に偏っており，構造を考慮した交通推論の評価が不十分である。
- 制御された条件下での交通推論評価を可能にし，より高度な交通理解モデルの開発を促進すること。
- OmniTrafficは，12の現実世界の交差点を編集可能な3D環境として再構築し，2か国からの監視映像を組み合わせたベンチマークである。
- 生成された800万件のVQAサンプルと，人間が検証した3000件のテストセットを用いて，最先端のMLLMの性能を評価した結果，人間とモデル間に大きな差が見られた。
- シミュレーションデータで軽量MLLMをファインチューニングすることで，現実世界の交通シーンにおける性能が向上し，シミュレーション生成による教師データの有効性が示された。
Link: https://arxiv.org/abs/2606.15749
少数の学習例における音声言語モデルのための段階的変調による音響プロンプティング [cs.SD, cs.LG, cs.MM, eess.AS]目的：音声言語モデルにおける少数の学習例での音響特徴の獲得
- 音声とテキストの関連付けにより音声分類性能が向上しており，その応用範囲は広い。
- テキスト側のプロンプト学習が中心だが，音声エンコーダ側の学習可能なプロンプトは未検討である。
- 音声エンコーダに学習可能なプロンプトを導入し，タスク固有の音響特徴を捉えることを目指す。
- 提案手法は，既存のテキスト側プロンプトチューニングと組み合わせることで，少数の学習例での適応性能を向上させる。
- 11のデータセットを用いた実験により，提案手法が性能改善をもたらすことが示された。
- 音響表現空間の明示的な変調が，テキストのみのプロンプティングアプローチを補完することが示唆された。
Link: https://arxiv.org/abs/2606.15751
感情認識における稀少クラス限界の背後にある循環的退化 [cs.CV]目的：感情認識における稀少クラスの誤認識原因の解明
- 感情認識は，人間とコンピュータのインタラクションにおいて重要な役割を担う技術である。
- 感情認識において，稀少な感情クラスの認識精度が低いという課題が存在する。
- 感情の幾何学的構造に着目し，稀少クラスの誤認識を抑制する手法を提案する。
- 感情認識の失敗は，クラスの不均衡ではなく，感情の幾何学的構造上の退化に起因することが示された。
- 感情の価値・覚醒度空間における距離に基づく損失関数を導入し，認識精度が向上した。
- 稀少クラスの誤認識は，データセットを跨いで安定しており，表現の区別能力向上策が有効であると結論付けられた。
Link: https://arxiv.org/abs/2606.15763
タスク指示によるビジョンファウンデーションモデルの因果的ルーティング：マルチタスク学習 [cs.CV]目的：複数の異質なビジョンファウンデーションモデルの協調
- 画像認識モデルは多様なタスクに応用可能だが，モデルごとに得意分野が異なる。
- 単一モデルでは，複数の高密度予測タスクに必要な多様な視覚表現を捉えにくい。
- タスク指示に基づくルーティングと因果的アラインメントにより，モデルの協調を実現する。
- TIGERは，自然言語タスク指示を用いて，トークンレベルの専門家重みを決定するルーティングネットワークを活用する。
- 提案手法は，各専門家の因果的貢献度を測定する反事実的損失を導入し，信頼性の高いルーティングを促進する。
- NYUD-v2とPascal Contextの評価において，既存のマルチタスク学習手法を上回る性能を示した。
Link: https://arxiv.org/abs/2606.15765
楕円とビットプレーンの融合：高度な画像処理と深層学習を用いたRNFLに基づく緑内障検出の新たなアプローチ [cs.CL, cs.CV]目的：緑内障の自動検出手法
- 緑内障は世界的な失明原因であり，早期発見が重要である。
- 従来の検査は専門知識や高価な機器を必要とする場合がある。
- 手軽な眼底画像から高精度な緑内障検出を実現すること。
- 提案手法は，眼底画像からRNFL解析を強化する適応的な楕円ベースの極座標変換を導入した。
- 深層学習を用いたフレームワークは99.3%の検出率を達成し，高精度を要求する環境に適している。
- ビットプレーンスライスに基づいた画像処理アルゴリズムは92.31%の精度で，低リソース環境での高速推論に適している。
Link: https://arxiv.org/abs/2606.15772
反実仮想的に忠実な感情の説明のための信頼性の高い表情行動単位因果推論 [cs.CV, cs.LG]目的：表情行動単位（AU）から感情への推論における忠実性向上
- 感情認識モデルの透明性と解釈可能性が重要視されている。
- 既存モデルのAUから感情への説明は，必ずしも予測の根拠と一致しない。
- AUと感情の因果関係に基づき，忠実な説明を生成する手法を開発する。
- 提案手法FACRは，独立に誘導されたAUと感情の因果グラフを用いて推論を安定化させる。
- 介入的指標を用いて忠実性を測定し，UNBC-PAINデータセットで効果を検証した結果，AUとPSPI構成の一致率が向上した。
- 言語モデルに組み込むことで，AUの活性化に基づいて生成される説明の忠実性を高めることが確認された。
Link: https://arxiv.org/abs/2606.15779
検索拡張による信頼度を考慮した推論を通じたマルチモーダルシステムにおける視覚的幻覚の軽減 [cs.AI, cs.CV]目的：マルチモーダルシステムの視覚的幻覚軽減
- 視覚と言語を理解するAIは，多様な応用が期待され，その重要性は増している。
- 視覚的証拠が弱く曖昧な場合，マルチモーダル大規模言語モデルは誤った出力を生成しやすい。
- 提示されたフレームワークは，信頼性の推定と選択的な判断により，誤りを減らすことを目指す。
- 提案手法は，ImageNet-100データセットにおいて，正答率を向上させ，誤答率を低下させた。
- 信頼度を考慮した判断ゲートにより，システムのキャリブレーションが改善され，過信による誤りが減少した。
- 大規模モデルの再学習なしに，検索による証拠の統合，信頼性推定，選択的判断により効果が得られた。
Link: https://arxiv.org/abs/2606.15782
領域知識に基づいたプロンプティングによるセグメンテーション・エニシング・モデルの地震探査への応用：属性，可視化，ハイブリッドプロンプトの役割 [cs.CV, cs.AI, physics.geo-ph]目的：地震探査におけるセグメンテーション・エニシング・モデルのゼロショット適応
- 地震探査はエネルギー資源探査や地殻構造解明に不可欠であり，効率的な解釈手法が求められている。
- 既存手法はラベル付きデータの大量取得や高コストな計算資源を必要とし，汎化性能が低い場合がある。
- 本研究は，ラベルデータ不要で汎化性能を維持しつつ，地震探査のセグメンテーション精度を向上させることを目指す。
- 地震学的ターゲットに合わせた地震属性とカラーマップの選択，およびハイブリッドプロンプティングが地質特徴の分離能と境界の明確化を向上させる。
- 提案手法により，セグメンテーション・エニシング・モデルは追加学習なしに，既存手法と同等以上の性能を発揮する。
- 本研究は，ラベルデータへの依存を低減しつつ，汎化性能を維持した地震探査における基盤モデル活用の実用的な経路を示す。
Link: https://arxiv.org/abs/2606.15786
DifFRACT：拡散特徴再構成と帰属による回路追跡 [cs.CV, cs.AI]目的：拡散モデルにおける特徴と回路の解明
- 深層学習モデルの解釈性は，モデルの動作原理を理解し，改善に繋げる上で重要である。
- 画像生成拡散モデルは，その複雑さから，内部の情報の流れや表現の相互作用が不明確である。
- 拡散モデルの回路追跡を実現し，意味情報伝播や生成エラーの原因を特定することを目指す。
- 本研究では，FLUX.1のMLPサブ層を忠実に近似する，時間ステップ条件付きトランスコーダーを訓練した。
- トランスコーダーを用いた回路分析により，属性結合やクロスストリーム意味伝播のメカニズムが明らかになった。
- 回路誘導による介入は，従来のSAEに基づく操作よりも精密かつ効果的であることが示された。
Link: https://arxiv.org/abs/2606.15796
クラスプロンプト駆動型半教師あり脊椎セグメンテーション：クラス固有の一貫性制約付き [cs.CV]目的：脊椎セグメンテーションにおける疑似ラベルの質の向上
- 脊椎セグメンテーションは，脊椎の病変検出や手術計画において不可欠であり，高精度な自動化が求められている。
- 教師あり学習には大量のラベル付きデータが必要であり，医療画像のアノテーションはコストと時間がかかる。
- テキストによるクラスプロンプトを活用し，少ないラベル付きデータでも高精度なセグメンテーションを実現すること。
- 提案手法CPS4は，公開されている脊椎セグメンテーションデータセットにおいて，5%のラベル付きデータのみでDice係数80.44%を達成した。
- これは，既存の半教師あり学習やVLM手法を上回る優れた性能を示す。
- クラス固有の一貫性制約を導入することで，テキストプロンプトと脊椎領域の一致性を高め，セグメンテーション精度を向上させている。
Link: https://arxiv.org/abs/2606.15802
SACE：視覚自己回帰モデルにおける意味的特異点での概念消去 [cs.CV, cs.AI]目的：視覚自己回帰モデルにおける安全性を高めるための概念消去手法
- 画像生成AIの進歩は著しいが，生成されるコンテンツの安全性確保が課題となっている。
- 既存の概念消去技術を自己回帰モデルに適用すると，意味崩壊や視覚的欠陥が生じやすい。
- 意味的特異点に着目し，初期段階での介入により，安全性を損なわずに概念を消去することを目指す。
- 意味的特異点という概念を提唱し，その妥当性を検証するIncremental Semantic Saliency Analysis(ISSA)を開発した。
- スケールを考慮した概念消去フレームワークSACEを導入し，初期スケールに介入を限定することで，概念の外科的消去を実現した。
- 様々なドメインにおいて，学習コストを抑えつつ，高い消去性能と安全性確保を両立することを示した。
Link: https://arxiv.org/abs/2606.15819
少量トレーニングセットからのサンプリングフリー変分DNNプラグイン学習：不確実性推定によるOODセグメンテーションの改善 [cs.CV, cs.LG, stat.ME, stat.ML]目的：分布外（OOD）医療画像におけるセグメンテーションの改善
- 医療画像診断の精度向上は，患者ケアの質を左右する重要な課題である。
- スキャナや撮影プロトコルの違いにより，深層ニューラルネットワーク（DNN）はOOD画像への汎化性能が低下しやすい。
- 少量データのみでOODセグメンテーションの精度を高め，不確実性も推定すること。
- VarDeepPCAは，小規模な分布内（ID）データセットのみを用いて，有効な解剖学的形状の分布を明示的に学習する。
- 既存手法と比較して，VarDeepPCAはOODデータに対するセグメンテーションマップを改善し，解剖学的妥当性と臨床的有用性を向上させる。
- 追加のトレーニングデータなしでエラーを大幅に削減し，セグメンテーションの不確実性も推定可能である。
Link: https://arxiv.org/abs/2606.15837
EmoZone-Talker：顔面動作単位を用いた地域的意味制御による音声駆動3DGSトークヘッド [eess.SY, cs.SY, cs.RO, cs.CV]目的：音声駆動型3DGSトークヘッドにおける表情制御の精密化と解釈可能性向上
- リアルな人物描写が求められる映像制作において，高品質なトークヘッド合成技術は不可欠である。
- 既存手法では，音声と表情情報の融合が不十分で，空間的な絡み合いや時間的な不安定さが発生しやすい。
- 表情制御の解釈可能性を高め，より自然で正確な顔の動きを生成することを目指す。
- EmoZone-Talkerは，音声駆動型表情アニメーションを，クロスモーダルな競合下での構造化された空間-時間協調問題として再構築する。
- Synergy Zones with Prioritized Attention Bias（SZ-PAB）により，解剖学的知識に基づき，領域ごとにモダリティの貢献度を明示的に分離する。
- Channel-Independent Temporal AU Encoder（CIT-AE）を用いて，時間的に一貫性のある顔面動作単位（AU）の動的モデリングを実現し，表情制御の精度とリアリズムを向上させた。
Link: https://arxiv.org/abs/2606.15848
水中画像強調と物体検出の同時最適化のための二分岐協調フレームワーク [eess.SY, cs.SY, cs.CV]目的：水中画像強調と物体検出の同時最適化
- 水中環境は，光の吸収と散乱により，画像が劣化しやすく，水中での視覚的な認識が困難である。
- 既存の画像強調手法は，視覚的品質向上に偏りがちで，処理効率と下流タスクの性能とのバランスが課題である。
- 複雑な水中環境下での物体検出性能を向上させ，強調品質と処理効率のバランスを取ることを目指す。
- 提案手法は，UIEBデータセットでUIQMスコア2.249，EUVPデータセットで2.576を達成した。
- URPCデータセットを用いたYOLOv8検出タスクにおいて，mAP50をベースラインと比較して2.1%向上させた。
- 本手法は，複雑な水中シーンにおいて物体検出性能を向上させ，強調品質と処理効率のバランスを両立できることを示した。
Link: https://arxiv.org/abs/2606.15857
ロボット手術におけるセグメンテーションとVisual Question Answeringの架け橋としてのオブジェクトトークン [cs.AR, cs.CV]目的：ロボット手術におけるVisual Question Answeringの性能向上
- ロボット手術支援は，熟練した外科医の技術を共有し，手術の安全性と効率を向上させる上で重要である。
- 既存手法は，粗い視覚的根拠に依存しており，手術シーンの微細な空間構造を捉えられないという課題がある。
- 視覚と言語の連携を通じて，手術シーンの理解を深め，より正確な回答を導き出すことを目指す。
- 提案手法は，セグメンテーションとVisual Question Answeringを統合した統一的なフレームワークを実現した。
- オブジェクトトークンを導入することで，視覚的根拠を強化し，微細な手術シーンの理解を向上させた。
- RAMIEおよびEndoVis18データセットにおいて，既存手法と比較して，Visual Question Answeringの性能が向上した。
Link: https://arxiv.org/abs/2606.15861
CogCanvas：マルチ被写体参照に基づく画像生成の評価ベンチマーク [cs.CV]目的：マルチ被写体参照画像生成におけるモデルの性能評価
- 画像生成技術は，多様な応用分野で重要性が増しており，高品質な生成が求められている。
- 既存のベンチマークは，単一の要素のみを評価しており，複雑な条件を網羅できていない。
- 複数被写体の識別，オブジェクトの関連付け，背景の整合性を同時に評価するベンチマークの提供。
- CogCanvasは，100人の著名人，115種類のオブジェクト，29の背景シーンを含む1,952枚の参照画像で構成される。
- 提案されたBG-SimとAttr-VQAは，背景の忠実度と属性の一貫性を定量的に評価する。
- 最先端モデルは，グループサイズが増加すると性能が大幅に低下し，3人以上の被写体におけるオブジェクトの関連付けに失敗する傾向がある。
Link: https://arxiv.org/abs/2606.15867
Metis：自律運転と都市ナビゲーションのための汎用性と効率性を備えた世界・行動モデル [cs.CV]目的：自律運転および都市ナビゲーションのための世界・行動モデルの構築
- 自動運転技術は，交通渋滞の緩和や交通事故の削減に貢献し，社会に大きな変革をもたらすと期待されている。
- 既存のモデルは推論時に将来の映像予測を行うため遅延が生じやすく，映像と行動モデルの結合が汎化性能を低下させている。
- Metisは，映像生成と行動予測を分離し，効率性と汎化性能の向上を目指す。
- Metisは，映像生成と行動予測に専用のTransformerを用いることで，各タスクの分布特性を維持する。
- 非対称な注意マスクにより，推論時には行動モデルが明示的な映像生成を回避し，計算コストを削減する。
- NAVSIMやCityWalkerなどのベンチマークテストで，最先端の性能と高い汎用性，効率性が確認された。
Link: https://arxiv.org/abs/2606.15869
マルチモーダル大規模言語モデルにおけるフルスペクトルフォレンジック信号知覚のための深層残差注入 [cs.CV, cs.AI]目的：マルチモーダル大規模言語モデルにおけるフルスペクトルフォレンジック信号知覚の実現
- AI生成画像が高度化する中，その真偽判定技術の重要性が増している。
- 従来のセマンティックレベルの不整合だけでは，AI生成画像を確実に検出できない場合がある。
- セマンティック知識を維持しつつ，低レベルな生成アーティファクトを捉える手法を開発する。
- 提案手法Deep-VRMは，セマンティック処理を維持しつつ，アーティファクト信号を注入することで，両方の情報を統合する。
- モデルは入力に応じてフォレンジック信号のレベルを適応的に活用し，堅牢かつ汎化性能の高い検出を実現する。
- 多くのベンチマークにおいて，提案手法が最先端の結果を達成した。
Link: https://arxiv.org/abs/2606.15880
歴史的 астрономических 図におけるテキスト領域検出 [cs.CL, cs.CV]目的：歴史的 астрономических 図におけるテキスト領域検出のためのデータセットと手法
- 歴史的文書の分析において，テキスト認識は重要な役割を果たす。
- 数学図表内のテキスト検出に関する研究は不足している。
- 多様な歴史的 астрономических 図におけるテキスト領域検出の精度向上を目指す。
- 948枚の астрономических 図からなる大規模データセットを構築した。
- 構築したデータセットは，8世紀から18世紀までの7つの言語圏を網羅する。
- 提案手法Poly-DETRは既存のベンチマークで最先端の性能を示した。
Link: https://arxiv.org/abs/2606.15886
非言語性発声の知覚的品質評価：NVMOS [cs.SD, cs.AI, eess.AS]目的：非言語性発声の知覚的品質の評価基準
- 感情や意図を伝える上で，笑いやため息などの非言語性発声は重要な役割を担う。
- 従来の音声品質評価は自然さに重点を置き，非言語性TTS評価は種類や位置の正確性のみを検証しがちである。
- 非言語性発声自体の知覚的品質に着目し，その評価手法を確立することを試みる。
- 非言語性発声の知覚的品質を評価するためのNV-MOSデータセットを構築し，専門家による評価を得た。
- Gemini等のマルチモーダルLLMは，専門家の評価と乖離があることが示された。
- NVMOSは，非言語性発声に特化したモジュールにより，人間の評価と同等以上の精度を達成した。
Link: https://arxiv.org/abs/2606.15888
SiGnature：様式化された意味的ジェスチャーのための明示的な動作拡散 [cs.CV]目的：様式化された意味的ジェスチャー生成
- 共話ジェスチャーはコミュニケーションにおいて重要な役割を果たす。自然な人間らしい表現を実現するためには不可欠である。
- 意味的ジェスチャーはデータが稀少であり，既存の生成モデルでは学習が困難である。
- 話者のスタイルを維持しつつ，意味的にも自然なジェスチャー生成を可能にすることを目指す。
- SiGnatureは，関節回転空間で動作を明示的に制御することで，高い様式保持と精度の高い意味的制御を両立する。
- 提案手法であるJMIにより，外部の動作シーケンスを再学習なしで拡散プロセスに注入し，自然なジェスチャー生成を実現する。
- 実験により，SiGnatureは最先端手法と比較して，意味的制御性，自然性，話者特有の様式保持において優れていることが示された。
Link: https://arxiv.org/abs/2606.15889
マルチビュー空間時間トラッキングと物理ベースのガウスによる高忠実度4Dハンドオブジェクトキャプチャ [cs.CV]目的：高忠実度4Dハンドオブジェクト相互作用データの取得
- 具現化されたAIや空間コンピューティングにおいて，ハンドオブジェクト相互作用のデータは不可欠である。
- 従来の技術は，事前にスキャンされたオブジェクトテンプレートやマーカーに依存しており，汎用性に欠ける。
- テンプレートやマーカーなしで，ロバストかつ高精度なハンドオブジェクト再構成を実現する。
- マルチビューフィードフォワードTransformerモデルにより，信頼性の高い初期推定値を得ることに成功した。
- 物理ベースのガウス最適化フレームワークが，初期推定値を洗練し，物理的に妥当で視覚的に正確な再構成を可能にした。
- 公開ベンチマークおよび内部データセットにおいて，堅牢でアーティファクトの少ない再構成が実現された。
Link: https://arxiv.org/abs/2606.15908
感情計算のための根拠重視オンポリシー自己蒸留：OmniOPSD [cs.RO, cs.HC, cs.CV]目的：マルチモーダル大規模言語モデルにおける感情計算の性能向上
- 人間中心のAIシステム開発において，感情理解は不可欠であり，その精度向上が求められている。
- 複雑な推論タスクにおいて，報酬の希薄性が強学習のボトルネックとなっており，質の高いアノテーションの取得が困難である。
- 根拠情報を活用した自己蒸留により，ラベルやアノテーションに依存せず，高性能な感情計算を実現する。
- OmniOPSDは，既存手法を凌駕するMER-UniBenchの平均スコア84.19を達成した。
- 教師モデルの根拠情報による指導が，学習効果に大きく貢献することが示された。
- 推論時にはラベルや外部モデルへのアクセスが不要であり，実用性に優れている。
Link: https://arxiv.org/abs/2606.15920
TurboGS：誤差誘導型疎ピクセルサンプリングと最適化による3Dガウススプラッティングの高速化 [cs.CV, cs.GR]目的：3Dガウススプラッティングの高速化
- 3Dシーンの高品質なレンダリングは，様々な応用において重要である。
- 既存手法では，冗長なピクセル計算が発生し，細部の再現性が失われる場合がある。
- 知覚的に重要なピクセルに最適化を集中させ，効率的な学習を実現する。
- TurboGSは，誤差に基づいてピクセルを疎にサンプリングすることで，不要な勾配計算を削減する。
- タイルごとの構造を考慮した損失関数と，動的なガウス密度制御により，細部を維持しつつ学習を安定化させる。
- RTX 5090 GPU上で，従来の3DGSと比較して最大10倍の学習速度向上を達成し，同等またはそれ以上のレンダリング品質を100秒で実現する。
Link: https://arxiv.org/abs/2606.15924
GOOSE-M2F：構造化されていない屋外地形における高精度，ロングテールな細粒度セマンティックセグメンテーションのためのMask2Formerの適応 [cs.CL, cs.CV]目的：屋外地形における高精度でロングテールな細粒度セマンティックセグメンテーションの実現
- ロボットの自律走行や環境理解において，詳細なセマンティックセグメンテーションは不可欠である。
- 既存手法では，屋外地形のような複雑な環境における稀少クラスの認識精度が課題であった。
- 稀少クラスの認識精度向上と，ロングテールなデータ分布への対応を目指す。
- Mask2Formerを拡張し，オブジェクトクエリ数増加，特徴精製モジュール，補助教師あり学習を導入した。
- Distribution-Balanced lossやCopy-Pasteデータ拡張を含む多段階学習戦略を用いることで，性能を向上させた。
- 公式Composite mIoUで70.08%を達成し，GOOSE 2D FGSSリーダーボードで3位となった。
Link: https://arxiv.org/abs/2606.15937
経時的胸部X線分析のための方向性意味遷移学習 [cs.CV, cs.MM]目的：胸部X線画像の経時的な変化を捉えるための手法
- 胸部X線画像は疾患の進行評価に不可欠であり，その解釈には経時的な比較が重要である。
- 既存手法では，微細な疾患進行の意味を捉えきれず，疾患軌跡の方向性を考慮していない。
- 疾患進行を方向性のある意味遷移として捉え，より正確な経時的理解を目指す。
- ProTransは，胸部X線画像と放射線レポートを活用し，疾患状態間の意味遷移を学習する。
- 時間的順序を考慮した学習と双方向再構成の一貫性により，方向性意味の明確化を実現した。
- 疾患進行分類やキャプション生成などのタスクで，既存手法を上回る性能を実証した。
Link: https://arxiv.org/abs/2606.15938
強い仮定は不要：時間的差分による視覚表現学習 [cs.CV, cs.AI, cs.LG]目的：視覚表現学習における新たなパラダイム
- AIの進歩は，より少ない仮定に基づく手法によって牽引されてきた。大規模データ時代において，弱い帰納的バイアスが有効である。
- 既存の自己教師あり学習は，データ拡張やマスキングなどの強い帰納的バイアスに依存しており，スケール拡大の際のボトルネックとなる可能性がある。
- 本研究は，そのような強いバイアスに頼らず，因果関係に基づいた表現学習を目指す。
- 本研究で提案するTemporal Difference in Vision (TDV)は，過去の状態が未来を決定するという因果的仮定のみに依存する。
- TDVは，画像エンコーダと運動エンコーダを同時に学習し，現在のフレーム表現と運動エンコーダの出力が次のフレーム表現と等価となるようにする。
- 強い帰納的バイアスを用いなくても，TDVは既存の最先端手法と同等の性能を示す。これにより，強い仮定に依存しない表現学習の基盤が構築される。
Link: https://arxiv.org/abs/2606.15956
VEPHand：大規模なビュー効率フォトメトリックハンドパフォーマンスキャプチャ [cs.CV, cs.GR]目的：ビュー効率の良い設定における動的なハンドパフォーマンスキャプチャと登録パイプライン
- デジタルヒューマン制作において，高精度な3Dハンドキャプチャは不可欠である。
- 限られた視点密度による幾何学的な曖昧さ，背景のクラッタが再構成の課題となる。
- 少ないビュー数でも詳細なハンド形状と外観をロバストに抽出することを目指す。
- マスクを使用せずに，シーンパラメータ化と密度正則化により，詳細なハンド形状と外観をロバストに抽出できる。
- 物理学に基づいたフレームワークにより，非線形な皮膚変形や自己接触時の妥当性を考慮した正確な登録が可能である。
- 12,000件以上のシーケンスで，単独のハンド，複雑な二ハンドインタラクション，ハンドとオブジェクトの操作に有効であることが示された。
Link: https://arxiv.org/abs/2606.15966
CRIS：異方性ボリューム画像に対するクロースプレーン自己教師あり等方性復元 [cs.CV]目的：異方性ボリューム画像の等方性復元
- 臨床MRIや体積電子顕微鏡では，異方性画像取得が一般的であり，高精度な解析が求められる。
- 通常，スライス間隔が粗いため，直交方向への再構成や後続の解析において画質劣化が生じる。
- 対になった等方性画像データなしで，異方性ボリューム画像の等方性を復元することを目的とする。
- CRISは，脳MRIにおいて既存手法を上回り，高いPSNRとSSIM，優れたセグメンテーションの一貫性を示した。
- 腹部MRIでは，FID/KIDを低減し，体積電子顕微鏡においても既存手法を凌駕する性能を発揮した。
- 変数間隔CRISモデルは，様々な分解条件下でinterpolationよりも高いPSNR/SSIMを維持し，頑健性も確認された。
Link: https://arxiv.org/abs/2606.15967
HadBalance: 一般化可能な生体医用セグメンテーションのためのプラグアンドプレイ統一的グローバル幾何学的事前知識フレームワーク [cs.CL, cs.CV]目的：一般化可能な生体医用セグメンテーションのための統一的グローバル幾何学的事前知識フレームワーク
- 臨床診断において，正確な生体医用画像セグメンテーションは不可欠であるため，その精度向上が重要視されている。
- 既存手法はタスク固有であり，臓器やモダリティ間で一般化可能な統一的な幾何学的基盤が欠如している。
- 近凸形状という概念に基づき，臓器やモダリティを問わず適用可能な幾何学的事前知識を導入し，セグメンテーション精度を向上させる。
- Hadwigerの定理から導出されるHadwiger Shape Priors を活用し，領域，周長，オイラー特性数の３つの２次元指標を用いて形状の規則化を行った。
- Conflict-Aware Objective Balancing (CAOB) により，セグメンテーションとの競合する勾配成分のみを除去し，形状事前知識の過剰な正則化を抑制した。
- 提案手法HadBalanceは，形状の多様性を持つデータに対しても，凹凸や微細構造を保持しつつ，安定したセグメンテーション性能を発揮する。
Link: https://arxiv.org/abs/2606.15976
テキスト画像編集における制約発見の失敗要因の診断 [cs.CV]目的：テキスト画像編集における制約発見の失敗要因
- マルチモーダル推論は，視覚的な内容認識だけでなく，特定のタスクにおいて関連する視覚的依存関係を特定することが重要である。
- 既存モデルは，明示的に示されていない依存関係を自律的に発見し，適用することが困難である。
- テキスト画像編集における制約発見の失敗要因を特定し，改善策を検討する。
- モデルは，制約が明示的に与えられない場合，制約発見の再現率が大幅に低下する。
- ケース固有の原因説明が，領域名やタイプラベルよりも効果的な部分的なガイダンスとなる。
- 高い自己発見再現率は必ずしもタスクパフォーマンスの向上につながらず，偽陽性の問題が示唆された。
Link: https://arxiv.org/abs/2606.15982
サヒド方言古代写本からのテキスト認識データセット [cs.CL, cs.CV, cs.DL]目的：サヒド方言古代写本を用いたテキスト認識のためのデータセット
- 歴史的文書のデジタル化が進む中で，そのテキスト認識技術の重要性が増している。
- 低リソース言語や稀少な文字体系のテキスト認識は，データ不足により困難である。
- サヒド方言という低リソース言語におけるテキスト認識の課題解決を目指す。
- 本研究で構築したSCAMデータセットは，多様な図書館の画像と劣化状況を反映しており，現実的な難易度を誇る。
- 最先端のテキスト認識手法の性能評価を行い，低リソース環境における課題と限界を明らかにした。
- 既存のテキスト認識技術と，歴史的低リソース言語との間には性能差が存在することが示された。
Link: https://arxiv.org/abs/2606.15987
メディアパイプポーズを用いた多課題テニスストロークバイオメカニクス解析 [cs.CV]目的：テニスストロークのバイオメカニクス分析のための多課題パイプライン
- スポーツ科学分野において，客観的な動作分析はパフォーマンス向上や怪我予防に不可欠である。
- 従来のバイオメカニクス分析は，専門的な設備や手作業によるアノテーションが必要で，時間とコストがかかる。
- 本研究は，RGB動画のみからテニスストロークを自動的に解析し，コーチングのヒントを提供する。
- 提案手法は，7名のプロと1名の初心者の動画データを用いて評価され，ストロークの種類で83.7%の精度を達成した。
- ストローク方向の予測精度は61.9%，姿勢の評価精度は62.6%であり，特にプロからアマチュアへの転移学習においても高いストローク種類の認識精度を維持した。
- ワールド座標系のランドマークが性能に大きく影響し，画像空間への変換は精度を著しく低下させた。
Link: https://arxiv.org/abs/2606.15992
代理タスクによる分類：児童性的虐待画像分類のための説明可能かつ再現性のある代理タスクアンサンブル [cs.CY, cs.CV]目的：児童性的虐待画像分類における再現性，説明可能性，セキュリティの向上
- 児童性的虐待画像は深刻な問題であり，迅速な検知と削除が求められる。
- 関連データセットへのアクセス制限により，研究の再現性や検証が困難である。
- 代理タスクアンサンブルを用いて，説明可能かつ安全な分類モデルを構築し，問題を解決する。
- 提案手法は，RCPDデータセットにおいて91.9%のバランスの取れた精度を達成した。
- 既存の最先端モデルであるDINOと比較して，精度が向上し，分類結果の説明を提供した。
- 代理タスクアンサンブルは，単一の深層学習モデルでは難しい，説明可能性を実現した。
Link: https://arxiv.org/abs/2606.15993
Stringalign：要約統計を超え，Unicodeに対応した自動音声認識モデル評価ツール [cs.CV]目的：自動音声認識モデルの評価に関する透明性の高いツール
- 文書認識や音声認識の性能評価は重要であり，AI技術の発展に伴い，そのニーズは高まっている。
- 従来の評価指標は定義が曖昧で，文字や単語の認識にばらつきが生じることが課題であった。
- Stringalignは，評価プロセスの透明性を高め，モデルの改善点や選択を支援することを目的とする。
- Stringalignは，エラー率とエラーの種類を可視化し，モデル改善の洞察を提供するPythonライブラリである。
- 前処理の透明性と再現性を確保し，要約統計を超えた詳細なエラー分析を可能にする。
- 研究ソフトウェアのFAIR原則に準拠しつつ，軽量で既存のワークフローに容易に組み込める。
Link: https://arxiv.org/abs/2606.16015
人間およびG2Pによる指導の規模拡大と，堅牢な音素転写 [eess.SY, cs.SY, cs.CL, cs.LG, cs.SD]目的：音素転写の性能向上
- 音声認識の精度は，正確な音素転写に大きく依存しているため，その重要性は高い。
- 標準的な方言や非典型的な発話における専門家による音素注釈はコストが高く，規模拡大が困難である。
- 人間による注釈とG2Pの組み合わせ方によって，音素転写の性能がどのように変化するかを明らかにすること。
- G2Pによる自動音素転写は，人間による注釈が20～30時間未満の場合に有効であることが示された。
- 人間注釈が30時間を超えると，G2Pの活用は効果がなく，方言間での汎化性能を低下させる可能性もある。
- ASRの事前学習によって，従来のシステムと比較して音素特徴エラー率を2.3倍削減し，非母語話者や失語症患者の音声認識性能を向上させた。
Link: https://arxiv.org/abs/2606.16019
NTIRE 2026画像ノイズ除去チャレンジ：手法と結果 [cs.CV]目的：画像ノイズ除去における最新技術の動向
- 画像処理分野において，高品質な画像復元は重要な課題である。
- 高ノイズ環境下での画像復元は，既存手法では困難な場合が多い。
- 本研究は，パラメータ数や計算コストに制限のない環境での性能向上を目指す。
- 本チャレンジでは，20チームの最終候補による手法が評価され，最先端技術のベンチマークが提供された。
- 参加チームは，付加性白色ガウスノイズ（AWGN）に汚染された画像から，高忠実度なディテールを復元するニューラルアーキテクチャを開発した。
- 評価指標としてピーク信号対雑音比（PSNR）が用いられ，定量的な性能の頂点を追求した。
Link: https://arxiv.org/abs/2606.16031
深層学習解釈性のLIMEに基づく分析：肺がん診断における予測の信頼性と根拠 [cs.CV]目的：深層学習モデルの解釈性評価に関する分析
- 肺がんは死亡率が高く，正確な診断が喫緊の課題である。
- 深層学習モデルの診断精度は高いものの，その意思決定プロセスは不透明である。
- 予測精度と解釈性の乖離を明らかにし，臨床応用における信頼性を検証する。
- 3種類の深層学習モデル（CNN，ResNet50，ViT）はいずれも高い分類性能を示した。
- モデル間の予測は高い相関性を示す一方で，LIMEによる解釈には大きな差異が見られた。
- 誤った予測は肺組織外の領域に注意が集中する傾向があり，解釈性の重要性が示唆された。
Link: https://arxiv.org/abs/2606.16036
点群拡散：点群ドメインにおける拡散ベースのシーン補完 [cs.CL, cs.CV]目的：点群からの3次元シーンの再構築
- 自動運転において，周囲環境の正確な3次元把握は不可欠であり，点群データの活用が重要である。
- 既存手法は，大規模な屋外環境において不安定な表現となりやすく，測位誤差によるノイズの影響を受けやすい。
- 測位誤差を低減し，安定したシーン表現を可能とする点群圧縮と，高速なシーン補完を目指す。
- 提案手法は，SemanticKITTI seq. 08において，二乗Chamfer距離を約16倍削減することに成功した。
- LiDiffやScoreLiDARと比較して，それぞれ17-19%と10-11%高い性能を示した。
- 推論速度も25-143倍向上し，リアルタイムへの応用可能性を示唆した。
Link: https://arxiv.org/abs/2606.16048
効率的なマルチモーダル大規模言語モデルのための段階的トークン選択 [cs.CV]目的：マルチモーダル大規模言語モデルにおける効率改善のためのトークン削減手法
- マルチモーダル大規模言語モデルの推論コストは高く，実用上の課題となっている。
- 既存手法はトークンの独立性を仮定し，圧縮率が均一であるという制約がある。
- トークンの依存関係を考慮し，動的に圧縮率を決定する手法を開発する。
- 提案手法は，既存の固定比率ベースラインと比較して，様々な圧縮レベルで一貫して性能を上回る。
- 88.9%の視覚トークンを削減する強力なプルーニング下でも，元の精度を94.6%維持しながら，事前計算の待ち時間を1.88倍高速化する。
- トークン選択を逐次的な意思決定プロセスとして定式化し，学習可能な終了アクションを用いて最適な部分集合とサイズを同時に最適化する。
Link: https://arxiv.org/abs/2606.16067
生成AI市場における多種貢献者帰属フレームワーク AME [cs.LG, cs.CV]目的：生成AIにおける価値分配の実現
- 生成AIの発展は，データ，モデル，プロンプトなど多様な貢献者による協力で価値を生み出す。
- 貢献者の貢献度に応じた公正な価値分配の方法論が確立されていない。
- 異質なデータ貢献の評価，データ権利のマッピング，信頼性の高い実行を統合的に解決する。
- 提案フレームワークAMEは，人間による評価との整合性が高く，低コストで信頼性の高い実行を可能にする。
- AMEは，データ貢献の評価，権利のマッピング，実行を一つのワークフローに統合する。
- 本研究は，生成AIデータ市場における価値評価と収益分配の基礎となる。
Link: https://arxiv.org/abs/2606.16075
物理知識に基づく潜在世界モデルによる多変量時系列予測 [cs.LG, cs.AI, cs.GT]目的：多変量時系列予測のための物理知識に基づく潜在世界モデル
- 物理システムの予測は，現実世界の理解と制御に不可欠であり，様々な分野で重要性を増している。
- 既存モデルでは，予測精度と物理的整合性の両立が難しく，解釈可能性にも課題がある。
- 潜在的な予測状態に物理的な制約を導入し，解釈可能な時系列モデルを構築することを目指す。
- 提案手法Phys-JEPAは，潜在状態を物理成分と残差成分に分解し，潜在空間での物理的整合性を強制することで，予測性能を向上させた。
- Jena Climateデータセットでは，予測誤差(MSE)の集約値が0.12482から0.12273に，温度MSEが0.01892から0.01831に減少した。
- Trafficデータセットでは，全ての予測 horizonにおいて，教師ありモデルよりも集約MSEが改善され，Electricityデータセットでも良好な結果が得られた。
Link: https://arxiv.org/abs/2606.16076