arXiv雑要約

画像・音声 - 2026/06/03 公開

存在しない会話による効率的な音声認識モデルの学習 [cs.CL, cs.AI, cs.SD, eess.AS]目的：低リソース言語やニッチなドメインにおける会話型音声認識の性能向上
- 音声認識技術は，多様な言語や分野でのコミュニケーションを円滑にする上で不可欠である。
- 特定のドメインや言語に特化した多話者音声データが不足しており，音声認識モデルの学習を妨げている。
- 大規模言語モデルとTTSを活用し，合成会話データによる学習効果の向上を目指す。
- 合成会話データを用いた学習により，音声認識性能が安定して向上することが示された。
- 生成モデルの選択やデータ構成が，性能向上に大きく影響することが明らかになった。
- 実データ67時間と合成データ636時間を用いた学習は，2700時間の実データのみで学習したモデルよりも高い評価性能を達成した。
Link: https://arxiv.org/abs/2606.03957
Video-Mirai：自己回帰型ビデオ拡散モデルには先見性が必要である [cs.CV]目的：ビデオ生成における表現学習の計画ギャップの解消
- ビデオ生成技術は，エンターテイメントから科学的可視化まで，幅広い分野で応用が期待されている。
- 従来の自己回帰型ビデオ生成モデルでは，一貫性のある未来のフレーム生成が課題となっていた。
- 未来のフレーム情報を活用し，現在の表現学習に先見性を持たせることで，一貫性を向上させる。
- Video-Miraiは，既存のCausal-Forcingベースラインと比較して，VBenchのTotal Scoreを有意に改善した。
- 30秒のロールアウトにおいて，主観的な一貫性と背景の一貫性が大幅に向上した。
- 未来フレームを条件としたターゲットが，表現学習の改善に重要な役割を果たしていることが示された。
Link: https://arxiv.org/abs/2606.03971
AAD-1：一段階自己回帰型ビデオ生成のための非対称敵対的蒸留 [cs.CV]目的：一段階画像からビデオへの自己回帰型生成における非対称敵対的蒸留フレームワーク
- ビデオ生成技術は，コンピュータビジョン分野において重要な課題であり，現実世界の応用が期待される。
- 既存の敵対的蒸留法は，モーションコラプスや学習の不安定性といった課題を抱えており，静的なビデオになりやすい。
- AAD-1は，非対称な設計と段階的な学習戦略により，モーションコラプスを抑制し，安定した学習を実現する。
- AAD-1は，生成器と識別器の非対称な設計を採用し，識別器がビデオ全体の時空間的文脈を考慮することで，モーションコラプスを効果的に検出する。
- 分布マッチングによる事前学習段階を導入することで，学習を安定化させ，敵対的蒸留の性能を向上させている。
- VBenchにおける実験により，AAD-1が一段階自己回帰型ビデオ生成において最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2606.03972
束縛問題の形式化 [cs.CV, cs.AI, cs.LG, q-bio.NC]目的：モデル表現における束縛情報の測定
- 視覚認識において，物体の特徴とそれらが同一物体に属することの認識は不可欠である。
- ViTアーキテクチャでは，特徴の誤った物体への帰属が頻繁に発生する問題がある。
- 情報理論的アプローチで束縛問題を形式化し，モデル表現の束縛情報を測定する手法を提案する。
- ViTにおける束縛情報は，画像要約トークンや空間トークンなど，アーキテクチャの異なる部分から測定された。
- 特徴共有，隠蔽，自然な特徴といった様々な束縛課題を含むデータセットを用いた実験の結果，ViTの性能が評価された。
- 本研究は，強力な視覚認識と推論において，束縛が重要な要素であることを示唆している。
Link: https://arxiv.org/abs/2606.03976
ヒューマノイドGPT：ゼロショットモーション追跡のためのデータと構造の拡張 [cs.CL, cs.RO, cs.AI, cs.CV]目的：ゼロショットモーション追跡のためのデータとモデル構造の拡張
- ヒューマノイドロボットの制御は，多様なタスクへの適応に不可欠である。
- 従来のモーション追跡器はデータ不足と汎化性能のトレードオフに悩まされていた。
- 大規模データとモデルにより，未知のモーションやタスクへの汎化性能向上を目指す。
- ヒューマノイドGPTは，20億フレームのモーションデータで事前学習されたGPTスタイルのTransformerである。
- データとモデル規模の拡張により，高い汎化性能とダイナミックな動作の追跡を両立した。
- 未知のタスクや複雑なモーションに対するゼロショット汎化性能において，新たな水準を確立した。
Link: https://arxiv.org/abs/2606.03985
NewtPhys：基礎モデルはニュートン物理を理解しているか [cs.CV]目的：基礎モデルにおけるニュートン物理の理解度評価
- 物理現象の理解は，ロボット工学やコンピュータビジョンの発展に不可欠である。
- 既存の評価データセットは現実世界の複雑さを捉えきれていない。
- 現実的な視覚的複雑性を持つデータセットによる評価が求められている。
- NewtPhysは，現実世界のマルチビュー画像と物理シミュレーションに基づく4次元データセットである。
- 56のVLMsと10のVFMsを評価した結果，低レベルの物理推論に限界があることが明らかになった。
- 本データセットは，物理に基づいたビジョン研究や次世代評価の開発を促進する。
Link: https://arxiv.org/abs/2606.03986
PixVOD：ピクセル分散型直接Visual Odometryと深度推定 [cs.CV]目的：ピクセル分散型Visual Odometryおよび深度推定手法
- 画像処理において，計算資源の効率的な利用が重要であり，特にリアルタイム処理が求められる分野ではその傾向が強い。
- 従来の画像処理は中央処理に依存しており，大量のピクセルデータ伝送によるボトルネックが生じやすい。
- ピクセル内で処理を行うことで，データ伝送量を削減し，より効率的な画像処理を実現することを目指す。
- 提案手法は，Gaussian Belief Propagation (GBP)を用いてピクセル間で情報を交換し，カメラの動きと深度を推定する。
- 幾何学的な安定性を維持するため，キーフレームのようなアンカリングメカニズムを導入し，フレーム間のベースラインを制御する。
- 現実的なデータセットでの評価により，センサー上でのGBPベースのピクセルレベル分散型オドメトリと深度推定の実現可能性が示された。
Link: https://arxiv.org/abs/2606.03989
ニューロン集団はスケールに伴い多様な選択性を示す [cs.LG, cs.CL, cs.CV]目的：ニューロン集団のスケールに伴う進化の予測可能性
- 近年，大規模ニューラルネットワークの学習則が注目されている。その規模拡大に伴う振る舞いの理解は重要である。
- モデル規模が拡大するにつれて，ニューロンの機能や役割がどのように変化するかが不明であった。
- モデル規模に伴うニューロン集団の選択性変化のメカニズムを明らかにすることを目指している。
- Rosettaニューロンと呼ばれる，モデル間で共通の活性パターンを示すニューロン集団を分析した。
- Rosettaニューロンの数はモデル規模に対して亜線形に増加し，全体に占める割合は減少する傾向が見られた。
- モデル規模が大きくなるにつれて，Rosettaニューロンはより選択的かつ単一の意味を表すようになり，他のニューロンとの偏りが生じた。
Link: https://arxiv.org/abs/2606.03990
LiDARセマンティックシーン補完の容易な性能向上手法の探求 [cs.CV, cs.RO]目的：LiDARセマンティックシーン補完における性能向上戦略
- 自動運転やロボット工学において，周囲環境の理解は不可欠であり，高精度な3Dシーン認識が求められる。
- LiDARデータのセマンティックシーン補完は計算コストが高く，既存手法では複雑なネットワーク設計が必要となる場合がある。
- 複雑な設計変更なしに，LiDARセマンティックシーン補完の性能を向上させる簡便な手法を確立すること。
- 既存のアーキテクチャに，汎用的なセグメンターからのセマンティック擬似ラベルを付与することで，性能が大幅に向上することが示された。
- 高品質なセマンティック事前知識が，mIoUの向上に大きく寄与することが確認された。
- LiDARスキャンに視認性情報を付与することで，さらなる性能向上が確認され，古いモデルでも最新モデルと同等以上の性能を示すことが示された。
Link: https://arxiv.org/abs/2606.03992
SimuScene：単一画像からのシミュレーション対応型構成的3Dシーン再構築 [cs.CV, cs.RO]目的：単一画像からのシミュレーション対応3Dシーンの構成的再構築
- ロボットマニピュレーションにおいて，現実世界を再現する3Dシーンの構築は不可欠である。
- 既存手法では，再構成されたオブジェクト間の衝突や不安定性により，物理シミュレーションが困難となる問題がある。
- 物理シミュレーションを再構築プロセスに組み込み，より安定で正確な3Dシーンの生成を目指す。
- SimuSceneは，重力下でのシミュレーションを通じて，再構成オブジェクトの形状と配置を修正するフィードバックループを実現した。
- この手法により，オブジェクト間の侵入や浮遊，沈降といった問題を軽減し，物理シミュレーションに適した安定した3Dシーンを生成できる。
- 実験の結果，物理的安定性と幾何学的整合性に関するベンチマークにおいて，最先端の性能が示された。
Link: https://arxiv.org/abs/2606.03994
PaintBench：正確な視覚編集の決定論的評価 [cs.GR, cs.CV, cs.LG]目的：正確な視覚編集操作の性能評価
- 視覚編集技術は，画像処理やデザインにおいて不可欠であり，その精度向上は重要な課題である。
- 既存のモデルは，自由形式の編集は得意だが，正確な単一解答編集は依然として課題である。
- PaintBenchは，正確な視覚編集操作の性能を客観的に評価し，進捗を測定するための基盤を提供する。
- PaintBenchは，20種類の基本的な視覚編集操作を網羅する拡張可能なベンチマークである。
- 11の画像編集モデルの評価の結果，全体的な性能は低く，最良のモデルでもmIoUは17.1%に留まった。
- PaintBenchのスコアとデータ可視化編集の性能の間には，強い線形相関が認められた（$R^2 = 0.91$）。
Link: https://arxiv.org/abs/2606.00188
VESTA：統計ツールエージェントによる視覚的探索 [cs.AI, cs.CL, cs.CV, cs.LG, stat.CO]目的：統計モデルの適合における自動化の実現
- 科学的ワークフローにおいて定量モデルの適合は不可欠だが，自動化が遅れている。
- 既存のエージェントベースシステムは，複雑なモデリングタスクで性能が限界を迎えている。
- データ変換，可視化，統計的検定を組み合わせた探索ツールキットを活用し，モデリングの精度向上を目指す。
- VESTAは，動的にツールを作成することで，既存のエージェントパイプラインよりも優れた性能を示すことが確認された。
- 特に複雑なタスクやドメイン固有のタスクにおいて，その効果が顕著であった。
- 動的に生成されたツールは，既存のツール作成システムと比較して，より洗練された診断カテゴリーを網羅していた。
Link: https://arxiv.org/abs/2606.00384
FSA-GRPO：少数の事例学習を聴覚LLMに教える [eess.AS, cs.AI, cs.SD]目的：聴覚大規模言語モデルにおける少数の事例学習能力の強化
- 聴覚LLMは，音声認識や翻訳など多様なタスクに応用可能であり，その性能向上が求められている。
- 既存の聴覚LLMは，事例学習形式での推論に最適化されていないため，その効果が限定されている。
- 本研究は，事例学習を活用しやすい聴覚LLMを開発し，低リソース環境での性能向上を目指す。
- FSA-GRPOは，報酬関数を工夫した強化学習による後学習手法であり，少数の事例学習を効果的に活用する。
- 高リソースな成人音声認識データのみで学習することで，子供の音声認識だけでなく，音声翻訳や音声理解の性能も向上する。
- FSA-GRPOは，ドメイン内データが利用できない場合や利用が難しい場合に，関連するドメイン外データでの直接的な調整よりも有効である。
Link: https://arxiv.org/abs/2606.02615
ウェーブレットをトークナイザーとして：自然信号に対する共有ウェーブレットトークンスキーマの予備的な結果 [eess.AS, cs.AI, cs.CV, cs.LG, cs.SD]目的：音声，画像，動画の共通ウェーブレットトークンスキーマの可能性
- マルチモーダル学習において，異なる種類のデータを統合的に処理する重要性が高まっている。
- 各モダリティに特化した潜在的なグリッドに依存しており，データ間の共有が困難である。
- 異なるモダリティ間で共有可能なトークンスキーマを構築し，効率的なデータ処理を目指す。
- 音声，画像，動画の共通モデルは，それぞれ39.92 dB，29.37 dB，23.93 dBのPSNRを達成した。
- 視覚的な改善は潜在容量だけでは説明できず，メタデータの埋め込みも常に効果的ではないことが示された。
- 固定レートのエネルギー選択は強力なベースラインとなり，音声，画像，動画で平均PSNRが15dB以上向上した。
Link: https://arxiv.org/abs/2606.02631
疎な視点からのデジタル再構成レントゲン写真による肺結節容積測定：解剖学的正則化TensoRF [eess.IV, cs.AI, cs.CV]目的：肺結節の容積測定手法の開発
- 肺がんの早期発見には，正確な結節容積の把握が不可欠である。
- 従来のTensoRFは，レントゲン画像への適用時に密度勾配を抑制する問題があった。
- 本研究では，疎な視点からの肺結節容積測定を可能にする手法を提案する。
- 密度シフトを0に設定することで，TensoRFの勾配フローを回復し，安定した容積再構成を実現した。
- 解剖学的正則化TensoRF (AReT) は，わずか3つの直交レントゲン投影から肺結節を再構成可能である。
- AReTは，臨床的に有用な10mm以上の結節において，Pearsonの相関係数0.983を達成し，体積誤差を大幅に改善した。
Link: https://arxiv.org/abs/2606.02639
SVHalluc：音声視覚大規模言語モデルにおける音声-視覚幻覚のベンチマーク [eess.AS, cs.AI, cs.CV, cs.LG, cs.MM, cs.SD]目的：音声視覚大規模言語モデルにおける音声-視覚幻覚の評価
- 近年，音声と視覚情報を統合する大規模言語モデルが注目されている。それらの性能向上は，人間らしい知能を実現する上で重要である。
- 既存の研究では，環境音を用いた評価が中心であり，人間の言語のような複雑な意味構造を持つ音声の扱いは不十分である。
- 本研究は，音声内容が音声視覚大規模言語モデルに幻覚を引き起こすことを示し，その評価基準を確立する。
- 本研究で開発したSVHallucベンチマークを用いて，最先端のオープンソース音声視覚大規模言語モデルが，音声と視覚の整合性に課題があることが明らかになった。
- 複数のタスクにおいて，これらのモデルの精度はほぼランダムレベルにとどまるのに対し，Gemini 2.5 Proは大幅に高い性能を示した。
- 分析の結果，モデルの失敗は，単一モダリティの認識能力は高いものの，モダリティ間の理解が不十分なことが原因と考えられる。
Link: https://arxiv.org/abs/2606.02642
コヒーレントな交換後悔とチャネル証明学習 [quant-ph, cs.GT, cs.LG, math.OC]目的：コヒーレントな交換後悔に対するアルゴリズムの開発と，分散型完全情報学習における量子ゲームの分離可能量子相関均衡への到達
- ゲーム理論は，経済学や計算機科学など，様々な分野における意思決定の分析に不可欠である。
- 従来の外部後悔は，量子ゲームにおける局所的なCPTPマップによる状態変化を考慮していない。
- 本研究は，CPTPマップによる任意の局所的な状態変化に対する後悔指標を導入し，学習アルゴリズムを開発する。
- コヒーレントな交換後悔を達成するためのエントロピーミラーアセントを用いたアルゴリズムが提案され，その後悔量は$O(\sqrt{dT\log d})$であることが示された。
- 置換チャネルは従来の外部後悔と同程度の学習速度$\Theta(\sqrt{T\log d})$を示す一方，ユニタルチャネルは最小後悔ゼロを達成する。
- 有限量子ゲームにおける分散型完全情報学習は，$T=O(\max_i d_i\log d_i/\varepsilon^2)$ラウンドで$\varepsilon$-近似分離可能量子相関均衡に到達する。
Link: https://arxiv.org/abs/2606.02655
二重微分デフォーカスとステレオ合意による深度推定 [math.PR, cs.SI, math.CO, quant-ph, cs.CG, cs.SY, eess.SY, eess.IV, cs.CV]目的：深度推定の精度向上
- 近距離・遠距離を問わず，正確な深度情報を取得することは，ロボット工学やコンピュータビジョンの発展に不可欠である。
- 従来のステレオやデフォーカス法では，基線距離や被写界深度の制約から，小型化と高精度化が課題であった。
- 二重微分デフォーカスとステレオ情報を統合し，より小型で高精度な深度推定を実現することを目的とする。
- 二重微分デフォーカス（D^3）理論とステレオ情報を組み合わせたD^3S Consensusアルゴリズムを提案した。
- D^3Sは，従来の三角測量法に比べ，10分の1の基線距離で同等の動作範囲を実現し，小型化に貢献する。
- 4mmの基線長と12mmの焦点距離のプロトタイプで，0.3-1.64mの範囲で1cmの平均絶対誤差の深度マップを取得することに成功した。
Link: https://arxiv.org/abs/2606.02906
音声強調における生成モデルと識別モデルの比較：ロバスト性，複雑性，および幻覚 [eess.AS, cs.SD]目的：音声強調における生成モデルと識別モデルの比較
- 近年，音声強調技術は，多様な環境下での音声通信品質向上に不可欠である。
- 既存手法では，低SNR環境や訓練データとの不一致による性能劣化が課題である。
- 生成モデルと識別モデルの特性を比較し，実用的な応用における最適な手法を特定する。
- 生成モデルと識別モデルの性能を，様々なSNR条件下および訓練シナリオにおいて比較検討した結果，両者の特徴が明確になった。
- 生成モデルは，特に幻覚の発生という課題が確認された一方で，識別モデルは計算コストとのトレードオフが存在する。
- 本研究は，実用的な音声強調システム構築において，モデル選択のための知見を提供する。
Link: https://arxiv.org/abs/2606.02913
BEAST3D：ガウススプラッティングによる多視点動画からの動物行動分析と神経符号化 [q-bio.NC, cs.CV]目的：動物行動分析と神経符号化のための3次元視覚表現学習
- 動物実験における行動解析は，神経科学研究において不可欠であり，高精度な3次元運動把握が求められている。
- 既存の3次元再構築手法は，動物実験に適した特殊な画像や視点数の少ない環境への対応が課題であった。
- BEAST3Dは，ラベルなし多視点動画から3次元視覚表現を学習し，動物実験における行動解析の精度向上を目指す。
- BEAST3Dは，わずか4つの視点からでも高精度な3次元構造再構築が可能であり，カメラパラメータの推定を必要としない。
- 学習された3次元視覚表現は，新規視点合成，多視点姿勢推定，神経符号化といった下流タスクにおいて高い性能を発揮する。
- BEAST3Dは，現代的な多視点実験記録を活用し，動物行動分析のための汎用的なフレームワークを確立する。
Link: https://arxiv.org/abs/2606.02937
AnyAudio-Judge：音声指示追従のための動的ルーブリックベースのベンチマークと評価器 [eess.AS, cs.AI, cs.SD]目的：音声指示追従の厳密な評価
- 近年の音声生成技術の発展に伴い，指示と生成物の整合性評価が重要となっている。
- 既存の自動評価手法は汎用LLMに依存し，複雑な指示の分解や詳細な不一致の検出が困難である。
- 複雑な指示を分解し，詳細な属性の不一致を捉えることで，より正確な評価を可能とする。
- 提案手法は，複雑な音声キャプションを検証可能な二値ルーブリック項目に動的に分解する。
- AnyAudio-Judge Benchは，4つの多様な音声ドメインを含む7,920件のサンプルで構成される包括的なベンチマークである。
- 実験により，AnyAudio-Judgeは最新技術と比較してゼロショット整合性検出を大幅に向上させ，音声生成における指示整合性を改善する。
Link: https://arxiv.org/abs/2606.03116
SpeakerCard-1M：実世界の音声認証のための証拠に基づいた話者カードコーパス [math.CO, cs.DM, eess.AS, cs.SD]目的：音声認証のための，証拠に基づいた話者カードの構築
- 現代の音声認証システムは高性能だが，その根拠が理解しづらい点が課題である。
- 既存の音声-テキストコーパスは制御された合成や発話レベルのキャプションに偏り，話者レベルの監督が不足している。
- 実環境における音声認証の性能向上と，説明可能性の向上を目指す。
- 大規模な話者カードコーパスSpeakerCard-1Mを構築し，1.78M件の発話レベルのキャプションを含んだリソースを公開した。
- 提案する双方向Speaker-Text Retrieval（T2S-R/S2T-R）およびAttribute-Conditioned Verification（AC-Verify）プロトコルを用いて評価を行った。
- 音声とテキストの共同学習はVoxCeleb1-OのEERを0.31%改善したが，大規模言語モデルの性能は双方向エンコーダーに劣った。
Link: https://arxiv.org/abs/2606.03283
WavTTS：直接生波形モデリングによる高品質ゼロショットTTSへ [eess.AS, cs.SD]目的：高品質なゼロショットTTSの実現
- 音声合成技術は，人間と機械の自然なコミュニケーションを可能にする上で重要である。
- 従来のゼロショットTTSは，圧縮表現による情報損失や非エンドツーエンドな学習が課題であった。
- 生波形を直接モデリングすることで，情報損失を回避し，エンドツーエンドな学習を実現する。
- WavTTSは，Diffusion Transformer (DiT)とフローマッチングを基盤とする初の生波形生成TTSモデルである。
- WavTTSは，マルチスケールメルスペクトログラムの教師あり学習を統合し，学習中の知覚的ガイダンスを提供する。
- 実験の結果，WavTTSは，既存の最先端の潜在空間生成ゼロショットTTSモデルに匹敵する性能を示した。
Link: https://arxiv.org/abs/2606.03455
SEAOTTER：効率的な再構成のためのワンタイムトランスコード付きセンサー埋め込みオートエンコーダー [eess.IV, cs.CV, cs.LG, cs.RO]目的：ロボティクスにおける効率的な画像圧縮フレームワーク
- ロボティクスでは大量の画像データを取得可能だが，帯域幅や計算資源の制約がある。
- 既存のコーデックはエンコードに高負荷であり，組込み機器での利用が困難である。
- JPEGインフラとの互換性を維持しつつ，高効率な圧縮と再構成を実現すること。
- SEAOTTERは，学習された潜在表現と標準JPEGファイルの組み合わせにより，帯域幅と計算資源の制約下でも高い性能を発揮する。
- 200:1の圧縮率において，AVIFと比較してエンコード速度が7倍，デコード速度が3.5倍向上し，ImageNet Top-1精度も+8%改善された。
- 学習可能なJPEG色と量子化変換により，グローバル，高密度，そして視覚言語ベースの知覚における精度向上が可能となった。
Link: https://arxiv.org/abs/2606.03940
複数サブモジュラー目的関数のアルゴリズム的公平性最大化と制約付き公平分割への示唆 [cs.CL, cs.DC, cs.DS, cs.GT, math.OC]目的：複数エージェントにおけるサブモジュラー目的関数の制約付き最大化
- 組合せ最適化における重要な問題であり，現実世界の資源配分に応用可能である。
- エージェント間の公平性を考慮した資源配分は，既存手法では困難である。
- 公平性を担保しつつ，各エージェントの目的関数を最大化する手法を提案する。
- ラウンドロビン方式を用いることで，制約下のエージェントは，モノトーンおよび非モノトーンな目的関数において堅牢な性能保証が得られる。
- 特にモノトーンな目的関数においては，エージェントは最適な価値の1/(n+p_i)を達成し，競争の影響が小さい場合，1/Θ(p_i)の近似率で最適解に近づく。
- 提案手法は，近似的な実現可能羨望フリー（FEF1, FEFu）割り当てを生成し，制約付きサブモジュラーエージェントに対する可能な最大化シェア（FMMS）保証も提供する。
Link: https://arxiv.org/abs/2402.15155
GS-ROR$^2$: 双方向ガイドによる3DガウススプラッティングとSDFを用いた反射性オブジェクトの再照明と再構成 [cs.CV, cs.GR]目的：反射性オブジェクトの再照明と高精度な形状再構成
- 3Dコンテンツは様々な分野で重要であり，特に高品質なレンダリングが求められる。
- 3Dガウススプラッティングは高速だが，反射面での形状制約が難しく，正確な形状再構成が課題。
- 3DガウススプラッティングとSDFを双方向でガイドし，再照明と形状再構成の精度向上を目指す。
- SDFの支援により，3Dガウススプラッティングの再照明モデルの効率的な最適化を実現した。
- 3Dガウススプラッティングで生成された法線を用いてSDFを改良し，高品質な形状再構成を可能にした。
- 提案手法は，わずか17%の追加学習時間で反射性オブジェクトの高精度なメッシュを提供できる。
Link: https://arxiv.org/abs/2406.18544
拡散モデルのパーソナライズ改善手法 [cs.CV]目的：拡散モデルのパーソナライズ
- 画像生成技術の発展は，多様なコンテンツ制作を可能にし，社会に貢献する。
- 既存手法では，特定の画像を学習させると，汎用性が低下する問題がある。
- モデルの知識を保持しつつ，効率的にパーソナライズを実現する。
- 本研究では，Dreamboothやテキストインバージョンと比較して，少ない学習時間でより高品質な画像生成が可能となった。
- 提案手法は，モデルの既存知識を維持しながら新たな情報を統合することに成功した。
Link: https://arxiv.org/abs/2407.05312
ResCLIP：トレーニングフリーな密な視覚言語推論のための残差注意機構 [cs.DM, math.CO, cs.CV]目的：密な視覚言語推論における性能向上
- 視覚言語モデルは，オープンボキャブラリタスクで目覚ましい成果を上げており，様々な応用が期待される。
- 既存の視覚言語モデルは，画像レベルのタスクに限定され，密な予測タスクでは性能が低いという課題がある。
- CLIPの潜在能力を引き出し，密な視覚言語推論における空間情報の再構築を目指す。
- 提案手法ResCLIPは，CLIPの注意機構を改善することで，密な予測性能を大幅に向上させる。
- 中間層におけるクロス相関自己注意を活用し，最終層の注意機構を再構成するRCSモジュールが有効である。
- セマンティックフィードバックを用いた注意スコア調整により，カテゴリの一貫性を高め，更なる性能向上を実現した。
Link: https://arxiv.org/abs/2411.15851
Align-KD：モバイルVision-Languageモデルの強化に向けたクロスモーダルアライメント知識の蒸留 [cs.CV, cs.AI]目的：モバイルVision-Languageモデルの性能向上
- マルチモーダルタスクにおいて，高度な理解と推論能力を持つVision-Languageモデルの重要性が増している。
- モデルを小型化すると性能が低下しやすく，性能とサイズのトレードオフが課題となっている。
- Vision-Languageモデルにおける重要なクロスモーダルアライメント知識の蒸留を可能にすること。
- Align-KDにより，1.7BのMobileVLM V2モデルが7Bの教師モデルから豊富な知識を獲得できる。
- トレーニング損失の設計を工夫することで，6つのベンチマークで平均スコアが2.0%向上した。
- 提案手法は，異なるトレーニングサブセットにおいても一貫した性能向上を示した。
Link: https://arxiv.org/abs/2412.01282
線形微分マイクロホンアレイの微分可能最適化：ジョイントな形状とフィルタ設計フレームワーク [cs.SD, eess.AS]目的：制約付き線形微分マイクロホンアレイの設計
- 音響センシング技術は，様々な分野で重要な役割を担っており，その性能向上は不可欠である。
- マイクロホンアレイの性能は，配置とフィルタ設計に大きく依存するが，最適化は困難である。
- マイクロホン位置とフィルタ重みを同時に最適化することで，高性能なアレイ設計を実現する。
- 提案手法は，軽量な基盤モデルを用いて，LDMAの最適なビームパターンを達成する。
- 歪みフリー制約下でフィルタを設計し，マイクロホン配置にも制約を課すことで，安定した性能を確保する。
- MSE，DI，WNGなどの評価指標において，最先端手法と比較して，柔軟性，指向性，ロバスト性，ハードウェア効率に優れることが示された。
Link: https://arxiv.org/abs/2412.05123
TALKPLAY：大規模言語モデルを用いたマルチモーダル音楽推薦 [cs.IR, cs.SD, eess.AS]目的：大規模言語モデルによるトークン生成問題としての音楽推薦
- 音楽推薦は，ユーザーの多様な好みに応える上で重要な役割を果たす。
- 従来のシステムは，推薦エンジンと対話管理を分離しており，一貫性に課題があった。
- 長文の対話履歴を活用し，自然な対話と高精度な推薦を両立することを目指す。
- TALKPLAYは，テキストやリスニング履歴のみに基づく従来のシステムを大きく上回る性能を示す。
- 音楽の特徴，歌詞，メタデータなどを統合的に処理することで，より文脈に沿った推薦を実現する。
- 推薦システムと対話管理を統合したエンドツーエンドシステムであり，自然な言語応答を生成する。
Link: https://arxiv.org/abs/2502.13713
WISE：テキストから画像生成のための世界知識に基づいた意味的評価 [cs.CV, cs.AI, cs.CL]目的：テキストから画像生成モデルにおける世界知識の統合と応用能力の評価
- 画像生成技術は急速に進歩しており，多様なコンテンツ作成に貢献している。
- 既存の評価基準は，写実性や単純なテキスト-画像対応に偏重し，複雑な意味理解が不足している。
- 世界知識の統合と応用能力を評価することで，次世代の画像生成モデルの改善を目指す。
- 本研究では，世界知識に基づいた意味的評価のためのベンチマーク「WISE」を提案した。
- 「WISE」は，文化常識，時空間推論，自然科学など25の分野で，モデルの知識活用能力を評価する。
- 実験の結果，既存モデルは世界知識の統合・応用において課題を抱えており，改善の余地があることが示された。
Link: https://arxiv.org/abs/2503.07265
皮膚癌診断のためのニューロファジーとコロニアル競争アルゴリズムの最適化 [cs.CV, cs.LG]目的：皮膚癌診断におけるニューロファジーおよびコロニアル競争アルゴリズムの最適化
- 皮膚癌の罹患率増加と専門医不足から，迅速かつ正確な診断支援システムの必要性が高まっている。
- 既存のAIシステムは，臨床現場への導入が遅れており，実用的な診断支援システムへの発展が課題である。
- 皮膚癌の早期発見と診断精度向上に貢献できる，実用的なAI診断システムの構築を目指す。
- ISICデータベースの皮膚画像に対し，本手法は94%の診断精度を達成した。
- この結果は，臨床医によるメラノマの早期発見を支援する可能性を示唆している。
- 画像処理技術と機械学習アルゴリズムの融合が，皮膚癌診断に貢献することが示された。
Link: https://arxiv.org/abs/2505.08886
Plan-R1：言語モデリングによる安全かつ実行可能な軌道計画 [cs.IR, cs.CL, cs.RO, cs.CV]目的：安全かつ実行可能な軌道計画の実現
- 実世界における自動運転システムにおいて，安全な軌道計画は不可欠である。
- 既存手法は専門家のデモンストレーションに依存し，安全性の欠如や不適切な行動の学習が課題である。
- 安全性を高めつつ，人間らしい運転行動を維持し，デモンストレーションの欠点を克服すること。
- Plan-R1は，原理の整合性と行動学習を分離する二段階フレームワークである。
- Group Relative Policy Optimization（GRPO）を用いたルールベースの報酬によるファインチューニングにより，安全性と交通規則遵守を強化する。
- Variance-Decoupled GRPO（VD-GRPO）により，安全に関する最適化を抑制する問題を解決し，nuPlanベンチマークで最先端の性能を達成した。
Link: https://arxiv.org/abs/2505.17659
リアルタイム手話生成のためのハイブリッド自己回帰拡散モデル [cs.CV]目的：リアルタイム手話生成における品質と効率のトレードオフの改善
- 手話は，聴覚障害者にとって重要なコミュニケーション手段であり，その自動生成技術の発展が求められている。
- 従来の自己回帰モデルはエラーが累積しやすく，拡散モデルは処理に時間がかかるという課題があった。
- 因果フレーム生成と拡散による洗練を組み合わせることで，低遅延かつ高品質な手話生成を実現する。
- HybridSignは，PHOENIX14TとHow2Signの両データセットにおいて，既存手法よりも優れた品質と効率のバランスを実現した。
- How2Signテストセットでは，BLEU-1/4スコアがそれぞれ30.12/6.48，DTWが3.89を達成した。
- また，最初のフレームまでの時間（5.90秒）が短縮され，処理速度（10.17 FPS）も向上した。
Link: https://arxiv.org/abs/2507.09105
CoMPAS3D：インタラクティブモーションのためのデータセットとベンチマーク [cs.LG, cs.AI, cs.CL, cs.CV]目的：インタラクティブモーションの評価のためのデータセットおよびフレームワーク
- 人間と協調するロボット開発には，相手の動きや意図を理解する能力が不可欠である。
- 既存の評価指標は，動きの意味や相手の熟練度を考慮できていない。
- サルサダンスを評価対象とし，客観的・主観的な指標を用いた評価枠組みを構築する。
- CoMPAS3Dは，18人のダンサーによる3時間のサルサダンスのモーションキャプチャデータセットである。
- データセットには，ムーブの種類，エラー，スタイルなどの専門家による注釈が2,800以上含まれる。
- 提案手法は，既存の指標では捉えきれない生成モーションの問題点を明らかにすることができた。
Link: https://arxiv.org/abs/2507.19684
視覚言語モデルによる運転者の注意シフトの解釈可能なモデリング [cs.CV]目的：運転者の注意シフトの解釈可能な記述
- 運転行動の理解は，安全性向上や自動運転技術開発に不可欠である。
- 従来のヒートマップでは，注意が向いている対象や理由が不明瞭である。
- 視覚言語モデルを用いて，人間が理解しやすい注意記述を生成すること。
- 専門家による80件の注意記述を用いたファインチューニングにより，ROUGE-L，METEOR，Entity Alignment F1，Human Alignment Scoreが向上した。
- 言語による記述は，ヒートマップを補完し，人間工学分析や状況認識支援に役立つ可能性がある。
- 少量の人間によるガイダンスで，視覚言語モデルが解釈可能な注意記述を生成できることが示された。
Link: https://arxiv.org/abs/2508.05852
HiRQA：意見に依存しない画像品質評価のための階層的ランキングと品質アラインメント [cs.CV]目的：画像品質評価における汎化性能向上
- 画像処理技術の発展に伴い，高品質な画像の重要性が増しているから。
- 既存の画像品質評価手法は，データセットの偏りや主観ラベルへの依存がある。
- データセットの偏りに依存せず，汎化性能の高い評価手法を開発する。
- 提案手法HiRQAは，ランキングとコントラスト学習を組み合わせた自己教師あり学習フレームワークである。
- HiRQAは，入力画像のみを用いて品質スコアを予測し，様々な歪みに対して高い汎化性能を示す。
- 軽量なHiRQA-Sは，1枚あたり3.5msという高速な推論速度を実現している。
Link: https://arxiv.org/abs/2508.15130
Transformer誘導によるコンテンツ適応型グラフ学習を用いたハイパースペクトル分解 [cs.CV]目的：ハイパースペクトル分解のためのTransformer誘導コンテンツ適応型グラフ学習フレームワーク
- リモートセンシング画像解析において，混合画素を構成成分に分解する技術は，地表面の物質組成を把握する上で不可欠である。
- 既存の深層学習手法は，大域的な依存関係と局所的な整合性を同時に捉えきれず，長距離相互作用と境界の詳細の保持が課題である。
- 本研究は，Transformerとコンテンツ適応型グラフニューラルネットワークを統合し，ノイズに強いロバストな分解を目指す。
- 提案手法T-CAGUは，Transformerによって大域的な依存関係を捉え，コンテンツ適応型グラフニューラルネットワークによって局所的な関係性を強化する。
- T-CAGUは，複数の伝播順序を統合することで動的にグラフ構造を学習し，ノイズへの堅牢性を高める。
- 実験結果から，T-CAGUが最先端手法と比較して優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2509.03376
TalkPlayData 2：マルチモーダル対話型音楽推薦のためのエージェントによる合成データパイプライン [cs.IR, cs.AI, cs.MM, cs.SD, eess.AS]目的：マルチモーダル対話型音楽推薦のための合成データセット
- 音楽推薦システムは，ユーザーに最適な音楽を提案する上で重要な役割を担う。
- 対話型音楽推薦における学習データが不足しており，多様な対話パターンを学習することが困難である。
- 多様な対話シナリオを網羅した高品質な学習データを提供することで，推薦システムの性能向上を目指す。
- TalkPlayData 2は，複数のLLMエージェントを活用した合成データパイプラインによって生成された。
- 生成されたデータセットは，音楽推薦モデルの学習において様々な側面で目標を達成した。
- データセットと生成コードは公開されており，研究コミュニティへの貢献が期待される。
Link: https://arxiv.org/abs/2509.09685
LLMツール呼び出しによる会話型音楽推薦システム：TalkPlay-Tools [cs.DC, cs.IR, cs.MM, cs.SD, eess.AS]目的：会話型音楽推薦のためのLLMツール呼び出しフレームワーク
- 音楽推薦はユーザーに適切な音楽を提供する上で重要であり，多様なニーズに応えることが求められる。
- 既存のLLMベース推薦システムでは，メタデータフィルタリング等の機能が十分に活用されていない。
- 多様な検索手法を統合し，ユーザーの意図に基づいた最適な推薦を実現することを目指す。
- LLMがツール計画を通じて，適切なツールとその実行順序，引数を予測することで，多様なモダリティに対応。
- 提案手法は，ユーザーのクエリに応じて適切な検索方法を選択的に使用し，様々な推薦シナリオで競争力のある性能を発揮。
- 会話型音楽推薦システムの新たなパラダイムを提示し，統合的なツール呼び出しフレームワークの有効性を示す。
Link: https://arxiv.org/abs/2510.01698
XD-RCDepth：説明可能性と分布を考慮した蒸留による軽量なレーダー・カメラ深度推定 [cs.CV]目的：軽量なレーダー・カメラ深度推定アーキテクチャの開発
- 自動運転において，周囲環境の正確な把握は安全性確保に不可欠である。
- 従来の深度推定手法は，計算コストが高く，リアルタイム処理が困難な場合がある。
- パラメータ削減と性能維持を両立させ，リアルタイム処理を可能にする手法の確立。
- 本研究では，最先端の軽量ベースラインと比較して29.7%少ないパラメータで同等の精度を維持するXD-RCDepthを提案した。
- 説明可能性に配慮した蒸留と深度分布蒸留という2つの知識蒸留戦略を導入することで，直接学習と比較してMAEを7.97%削減した。
- nuScenesおよびZJU-4DRadarCamデータセットにおいて，競争力のある精度とリアルタイム効率を実現した。
Link: https://arxiv.org/abs/2510.13565
LAMP：パラメータ制御された3D形状生成と外挿のためのデータ効率の良い線形アフィン重み空間モデル [cs.LG, cs.CE, cs.CV]目的：パラメータ制約下での高忠実度3D形状生成
- 工学設計において，パラメータ制御された3D形状生成は不可欠であり，効率的な手法が求められている。
- 既存手法は，大規模データセットを必要とし，学習範囲外の制御が困難であるという課題がある。
- LAMPは，データ効率性と安全性を高め，制御可能な3D形状生成を可能にすることを目指す。
- LAMPは，わずか50サンプルで制御された補間を実現し，学習範囲を100%超える安全な外挿を可能にする。
- LAMPは，条件付きオートエンコーダやDNIなどの既存手法と比較して，データ効率，パラメータ忠実度，外挿性能において優れている。
- LAMPは，設計探索，データセット生成，性能重視の最適化において，制御可能，データ効率的，かつ安全な3D生成を促進する。
Link: https://arxiv.org/abs/2510.22491
CropCraft：農業タスクのロボットシミュレーションのための手続き型ワールドジェネレーター [cs.CV, cs.RO]目的：農業ロボットシミュレーション用3D環境の生成
- 現代農業におけるアグロエコロジカルな慣行の導入には，多様な環境下でのロボット技術が不可欠である。
- アグロエコロジカルな多様性を表現した現実的で設定可能な3D環境の生成が困難である。
- 農業ロボットの性能評価を可能にする，現実的なシミュレーション環境の構築を支援する。
- CropCraftは，BlenderとPythonに基づいて構築されたオープンソースの手続き型ワールドジェネレーターである。
- 多様な作物配置，生育段階，雑草の混在状態などをYAMLファイルで設定可能である。
- 合成データのみで学習したモデルは，実画像とのギャップを約10%のmIoUに抑え，既存手法を上回った。
Link: https://arxiv.org/abs/2511.02417
HCM-GRPOによる物理的妥当性推論：高性能なコンパクトモデルの実現 [cs.HC, cs.RO, cs.CV]目的：画像スクリーニングにおける物理的妥当性推論能力の向上
- 画像生成技術は飛躍的に進歩したが，画像の妥当性評価は遅れており，重要性が増している。
- 大規模多層言語モデル（MLLM）はデータ不足と物理的妥当性推論能力の低さにより，画像スクリーニング性能が低い。
- 本研究は，データセットの構築と新しい手法により，MLLMの物理的妥当性推論能力の課題を解決する。
- 128k以上のサンプル，約640kの画像を含む，物理的妥当性を評価する包括的な画像スクリーニングデータセットを構築した。
- ハードケースマイニング（HCM）戦略と動的比例精度（DPA）報酬を導入したHCM-GRPOにより，元のGRPOよりも優れた物理的妥当性推論能力を実現した。
- HCM-GRPOを用いることで，GPT5.2やGemini3-Proなどの最先端のクローズドソースMLLMを凌駕する性能を，より小型のモデルで達成した。
Link: https://arxiv.org/abs/2511.10055
生理学的認識に基づくハイパースペクトル再構成：物体から人体へのドメイン適応 [cs.CV, cs.AI]目的：ハイパースペクトル情報の再構成
- 非侵襲的な生理学的洞察を提供するハイパースペクトルイメージングの臨床応用可能性向上。
- 既存手法は物体中心のシーン向けで，生理学的イメージング特有の課題に対応できていない。
- 生理学的状態の違いを考慮したハイパースペクトル再構成法の開発。
- PHASEは，生理学的チャネル再解釈と生理学的に妥当な解への制約により，再構成精度を向上。
- 2つの転送プロトコルにおいて，最先端手法をSSIMで最大+2.20，SAMで-3.06上回る性能。
- わずか1.5%のラベル付きデータで優れた性能を発揮。
Link: https://arxiv.org/abs/2511.13020
高解像度編集には低解像度編集で十分である [cs.DC, cs.CV]目的：高解像度画像編集の実現
- 画像は視覚表現の基本であり，コンテンツ生成において重要な役割を担う。
- 既存手法は低解像度設定に限定され，1Kを超える解像度での編集が困難である。
- 高解像度画像編集を可能にし，ユーザー意図に沿ったコンテンツ作成を支援する。
- 提案手法は，高解像度画像に対してパッチごとの最適化を行い，高品質な編集を実現した。
- 詳細転送モジュールと同期戦略により，パッチ間の整合性を維持している。
- 実験結果から，本手法が実用的な高解像度コンテンツ作成を可能にすることが示された。
Link: https://arxiv.org/abs/2511.19945
CREward：タイプ特化型創造性報酬モデル [cs.CV]目的：タイプ特化型創造性報酬モデルの学習
- 創造性は複雑であり，その表現と評価が重要である。
- 創造性を単一の量として捉えるアプローチは不十分である。
- 画像生成パイプラインの観点から創造性を捉えるモデルを開発する。
- 本研究では，幾何学，素材，テクスチャの3つの創造性軸に対応する初のタイプ特化型報酬モデルCREwardを開発した。
- 人間の創造性評価と大規模ビジョン言語モデル（LVLM）の予測との相関が確認され，LVLMが人間の認識と高い一致性を示すことが明らかになった。
- LVLM生成ラベルを用いてCREwardモデルを学習し，創造性の評価と生成の両方に適用可能なモデルを構築した。
Link: https://arxiv.org/abs/2511.19995
一人称視点動画における手のインタラクションタイムラインに沿った物体の再構成 [cs.CV]目的：手のインタラクションタイムラインに沿った物体再構成
- 人間活動理解において，物体とのインタラクションは重要な要素である。手と物体の関係性を把握することで，より高度な状況認識が可能となる。
- 従来の物体再構成手法では，3D ground truth が必要となる場合が多く，アノテーションコストが高いという課題があった。
- 本研究では，3D ground truth を必要とせず，2D情報のみを用いて，より正確な物体再構成を目指す。
- 提案手法COPは，安定した把持における物体再構成精度を6.2-11.3%向上させた。
- また，インタラクションタイムライン全体での再構成精度を最大24.5%改善した。
- HOT3DとEPIC-Kitchensのデータセットを用いて，提案手法の有効性を検証した。
Link: https://arxiv.org/abs/2512.07394
PubTables-v2：フルページおよび複数ページテーブル抽出のための大規模データセット [cs.CV]目的：フルページおよび複数ページテーブル抽出のための大規模データセット
- 文書理解において，テーブル抽出は重要な課題であるため，その精度向上は不可欠である。
- 高品質なテーブル抽出にはアノテーションデータが必要だが，既存のデータセットは不足している。
- フルページや複数ページにわたるテーブル抽出を可能にする大規模データセットの構築により，課題解決を目指す。
- 新しい大規模データセットPubTables-v2を構築し，様々なコンテキストレベルでのテーブル抽出を可能にした。
- 最難関タスク（フルドキュメント複数ページTE）では最先端モデルが優位だが，限定的なタスクでは差が縮小，または逆転する。
- データセットは公開されており，コードとモデルも近日公開予定である。
Link: https://arxiv.org/abs/2512.10888