arXiv雑要約

画像・音声 - 2026/06/16 公開

ワークフローに注目：ビデオストリームからの自動効率的なイベント検出 [cs.CV, cs.LG]目的：ビデオストリームからのイベントデータの抽出
- 業務プロセス管理は，組織のプロセス改善に不可欠であり，データに基づいた意思決定を支援する。
- ビデオデータのようなマルチモーダルデータは，直接イベントとして解釈が難しく，分析のボトルネックとなる。
- 既存手法の限界を克服し，ビデオデータから正確かつ詳細なイベントログを生成すること。
- 提案手法SnapLogは，画像埋め込みとフレーム間の類似度行列を用いて，ビデオフレームからイベントデータを抽出する。
- 少数の学習データを用いた分類により，フレームセグメントにラベルを付与し，タイムスタンプ付きのイベントログを作成する。
- 実験結果から，生成されたログがビデオ内のプロセスを正確に反映することが示された。
Link: https://arxiv.org/abs/2604.22476
SAM 3およびDINOv3の軽量蒸留による，エッジデバイス展開可能な個体レベルの家畜モニタリングと縦断的視覚分析 [cs.CV, cs.AI]目的：家畜の個体レベルモニタリングパイプラインの軽量化
- 精密畜産は，家畜の福祉向上と生産性向上に不可欠である。
- 高性能なモデルはGPUメモリを多く消費し，エッジデバイスでの利用が困難である。
- GPUメモリ消費量を削減し，エッジデバイスでの運用を可能にすること。
- SAM 3のバックボーンを蒸留し，パラメータ数を大幅に削減することに成功した。
- Edinburgh Pigデータセットにおいて，MOTAは92.29%，IDF1は96.15%を達成し，教師モデルとの性能差は小さい。
- NVIDIA Jetson Orin NX 16GB上で動作し，将来的なオンデバイス埋め込みプールの再識別メカニズムの可能性を示唆した。
Link: https://arxiv.org/abs/2604.27128
新しい時代のビジュアル生成：アトミックマッピングからエージェント的世界モデリングへの進化 [cs.HC, cs.CV]目的：知的なビジュアル生成の実現に向けた，構造，ダイナミクス，ドメイン知識，因果関係に基づいた妥当なビジュアルの生成
- 近年，画像生成技術は飛躍的に進歩しているが，空間推論や一貫性維持といった課題が残る。
- 既存の評価方法では知覚的な品質が重視されがちで，構造的・時間的・因果的な欠陥が見過ごされる。
- 生成モデルの進化段階を分類し，今後の研究開発の方向性を示すことで，より知的なビジュアル生成を促進する。
- 既存の画像生成モデルの限界を指摘し，外観合成から知的なビジュアル生成への転換を提唱している。
- アトミック生成から世界モデリング生成まで，５段階の分類体系を提示し，技術的な進歩の方向性を示している。
- ベンチマークレビュー，ストレステスト，専門家による事例研究を通じて，評価方法の改善を訴えている。
Link: https://arxiv.org/abs/2604.28185
視覚言語モデルにおけるラベルノイズに対するプロンプトチューニングの内在的な勾配抑制 [cs.HC, cs.CV]目的：ラベルノイズに対するプロンプトチューニングのロバスト性向上
- CLIPのような視覚言語モデルはゼロショット汎化能力に優れるが，プロンプトチューニングはラベルノイズに弱い。
- 誤ったラベルのサンプルが大きな勾配を生み出し，事前学習された知識を損なう可能性がある。
- 勾配抑制によって，ノイズの影響を軽減し，ロバスト性を高めることを目指す。
- Double-Softmax Prompt Tuning (DSPT)という，ハイパーパラメータフリーな勾配抑制手法を提案した。
- DSPTは確率的正規化により，自己適応的な飽和領域を誘導し，高エラーノイズサンプルの勾配を抑制する。
- 様々なノイズベンチマークにおいて，DSPTは最先端のロバスト性を達成し，複雑なアーキテクチャを上回った。
Link: https://arxiv.org/abs/2605.00591
BRITE：あり得ないシナリオにおけるT2V評価のための信頼性と解釈可能性のあるベンチマーク [cs.MM, cs.AI, cs.CV]目的：テキストから動画への生成モデルの評価のためのベンチマークフレームワーク
- 写実的な動画生成技術の進歩に伴い，適切な評価手法の確立が急務となっている。
- 既存のベンチマークは，現実離れしたシナリオや音響と映像の一致を十分に評価できていない。
- 本研究は，現実離れしたプロンプト，音響と映像の一致評価，解釈可能な評価を統合した新たなベンチマークを提供する。
- BRITEは，人間による評価を組み込むことで，自動評価パイプラインが抱える幻覚や曖昧さの問題を克服し，信頼性の高い評価を実現する。
- 最先端の5つのモデルの評価から，静止オブジェクトの合成には優れるものの，オブジェクトの動作と音響・映像の同期に課題があることが明らかになった。
- 本フレームワークは，次世代T2Vモデルの限界を特定し，特に現実離れしたプロンプトに対する性能評価に役立つ。
Link: https://arxiv.org/abs/2605.00873
仮想言語聴覚士：個別化・監督型治療のためのAI言語聴覚治療エージェント [cs.AI, cs.CL, cs.SD, eess.AS]目的：吃音評価の効率化と，自動化・適応的なAI駆動型ワークフローによる個別化された治療計画の提供
- 言語聴覚士の業務負担は大きく，より効率的な治療支援ツールの需要が高い。
- 既存の吃音治療計画は，専門家の知識と経験に依存しており，標準化が難しい。
- AIを活用し，客観的データに基づいた，質の高い治療計画を迅速に生成すること。
- 開発された仮想言語聴覚士(VST)は，最先端の深層学習と大規模言語モデル(LLM)を活用し，吃音の種類を正確に分類する。
- VSTは，LLMエージェントによる自律的な治療計画の生成，批判，反復的な改善を行い，臨床的な安全性と有効性を確保する。
- 専門家による評価の結果，VSTが生成する治療推奨は質の高いものであり，臨床ワークフローの改善に貢献する可能性が示された。
Link: https://arxiv.org/abs/2605.01101
GEASS：ゲート付きエビデンス適応型選択的キャプション信頼性による視覚言語モデル [cs.CV, cs.AI]目的：視覚言語モデルにおける幻覚（存在しない対象の生成）の抑制
- 視覚言語モデルの性能向上は，画像とテキストを理解するAI開発の鍵となる。
- 視覚言語モデルは，画像に存在しない物体を幻覚することが課題となっている。
- キャプションの利用方法を改善し，幻覚を抑制することで精度向上を目指す。
- 既存手法では，キャプションを単純に追加すると精度が低下することが示された。
- GEASSは，クエリの種類に応じてキャプションの信頼度を動的に調整する。
- GEASSは，４つの視覚言語モデルと２つのベンチマークで，既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2605.01733
アクセントに強いASRのためのコントラスト正則化 [cs.SD, cs.LG]目的：アクセント変動に対するASRシステムのロバスト性向上
- 音声認識技術は，人間と機械の自然な対話を可能にする重要な技術である。
- 既存の音声認識システムは，アクセントの変化に弱く，性能が低下しやすい。
- コントラスト正則化を用いて，アクセントに依存しない堅牢な表現学習を目指す。
- L2-ARCTICベンチマークにおいて，複数の事前学習済みエンコーダで一貫したWERの低減が確認された。
- 未知のアクセントでの評価において，最大で25～29％の相対的なWER削減を達成した。
- SupConは，アクセント変動下でよりコンパクトかつ安定した表現幾何学を促進する。
Link: https://arxiv.org/abs/2605.03297
ジャンル適応型コード生成のためのポップとジャズの混合比に関する実証的研究 [cs.SD, cs.IR, cs.LG]目的：ジャンル適応型コード生成における混合比の最適化
- 音楽生成の自動化は，作曲支援や新たな音楽表現の可能性を広げる上で重要である。
- 既存のコード生成モデルは，特定のジャンルに特化しやすく，他のジャンルへの適応が困難な場合がある。
- ポップとジャズの混合比を調整することで，多様なジャンルに対応可能なコード生成モデルを開発すること。
- 最適な混合比は，ポップの精度を維持しつつ，ジャズの予測性能を向上させることが確認された。
- バージョン2では，チェックポイントの選択に誤りがあった点を修正し，より正確な結果が得られた。
- 異なるシードを用いても，ジャズに適応したモデルの性能が再現性をもって確認された。
Link: https://arxiv.org/abs/2605.04998
iTRIALSPACE：肺CTモデルの制御された評価のためのプログラム可能な仮想病変試験 [cs.CV]目的：肺CTモデルの制御された評価のためのプログラム可能な仮想病変試験フレームワーク
- 肺CT画像解析は，疾患の早期発見や治療効果の評価に不可欠であり，その精度向上は医療の発展に貢献する。
- 既存のベンチマークは静的で，病変サイズや解剖学的構造が入り混じっており，モデルの精度に影響する要因の特定が困難である。
- 本研究では，制御された仮想病変試験を通じて，肺CTモデルの性能を評価するためのフレームワークを開発し，モデルの評価方法の改善を目指す。
- iTRIALSPACEは，多データセットからの結節プロファイリング，試験仕様，解剖学的構造を考慮したマスク挿入，ControlNetによるCT合成の4段階パイプラインで構成される。
- 合成された画像は，実画像との比較においてFIDスコアが同程度であり，合成データでの性能ランキングは実際の臨床データと強い相関関係を示す（ρ = 0.93, p < 10⁻¹⁵）。
- 制御された試験モードにより，従来のベンチマークでは得られない知見が得られ，病変サイズの予測における偏りや，ホスト・ドナー間のばらつきなどが明らかになった。
Link: https://arxiv.org/abs/2605.05761
InfoGeo：クロスビュー汎化UAVジオロケーションのための情報理論的物体中心学習 [cs.CL, cs.CV]目的：クロスビュー汎化ジオロケーションの精度向上
- GPS非利用環境下での精密な位置特定とナビゲーションは，自動運転や災害対応において不可欠である。
- 既存手法は領域ごとのテクスチャや天候条件の変化によるドメインシフトの影響を受けやすく，汎化性能が課題である。
- 物体中心学習の考え方を導入し，ドメインシフトに強いロバストなジオロケーション手法を開発する。
- 提案手法InfoGeoは，クロスビューにおける物体中心構造の関係性の整合性を高めることで，ビュー不変情報を最大化する。
- また，クロスビュー知識制約を通じてビュー特有のノイズ信号を最小化し，汎化性能を向上させている。
- 多様なベンチマークおよび困難なシナリオにおける評価で，最先端手法を大きく上回る性能を示した。
Link: https://arxiv.org/abs/2605.07099
識別的なスパンの活用による，合成データ有用性の予測：分類器再構築を介して [cs.HC, cs.CV, cs.LG]目的：合成データの有用性予測
- 現実の画像認識応用では，正例が不足しがちである。データ拡張による解決が期待される。
- 合成データの品質評価が困難であり，モデル性能向上に繋がるか判断が難しい。
- 合成データの品質を，モデル訓練なしに予測する指標を提案し，評価する。
- 提案手法は，事前学習済みモデルの埋め込み空間でデータセットを差分ベクトルとして表現する。
- 線形分類器の重みベクトルが，これらの差分ベクトルが張る部分空間内に表現可能かどうかを評価する。
- 実験の結果，提案指標は，実データと合成データを混合して訓練したCNNの分類性能と強い相関があることが示された。
Link: https://arxiv.org/abs/2605.09697
MolSight：画像による分子特性予測 [cs.CV, cs.CL]目的：分子特性予測における画像利用の可能性
- 分子設計や創薬において，分子の特性を正確に予測することは重要である。
- 既存手法は計算コストが高い，またはデータ準備が煩雑であるという課題がある。
- 画像から直接分子特性を予測することで，効率的な予測手法を確立することを目指す。
- 画像認識技術を用いて分子の2D構造図から特性を予測する有効性を示した。
- 構造の複雑さに応じた段階的な学習（カリキュラム学習）が，予測精度向上に貢献する。
- 既存のマルチモーダルモデルと比較して，80分の1の計算量で同等以上の性能を達成した。
Link: https://arxiv.org/abs/2605.10157
地理空間基盤モデルの最新技術は誰にも分かっていない [cs.CV, cs.CY]目的：地理空間基盤モデルに関する現状の把握
- 災害対応や土地被覆マッピングなど，地球観測タスクの重要性が高まっている。
- 地理空間基盤モデルの研究において，評価基準や学習・テストプロトコルが標準化されていない。
- 地理空間基盤モデルの技術革新を促進するための共通理解を醸成すること。
- 論文調査の結果，同一モデル・ベンチマーク・プロトコルにおいて，少なくとも10ポイントの性能差が見られた。
- 抽出可能な事前学習データを持つ論文の94%が，他の論文とは異なる設定を使用している。
- 地理空間基盤モデルの論文の39%は，モデルの重みを公開していない。
Link: https://arxiv.org/abs/2605.12678
TERMS-Bench：LLM交渉エージェントの評価における取引成功率以上の診断 [cs.GT, cs.AI]目的：LLM交渉エージェントの経済的推論能力と戦略的多様性の診断
- 交渉は経済活動の根幹であり，市場形成，調達，労働協定など多岐にわたる分野で重要である。
- 従来のLLM交渉エージェントの評価は，取引成功率などの集約的な指標に依存し，失敗の原因特定が困難であった。
- 隠れた情報や戦略的コミュニケーションを考慮した環境下で，エージェントの失敗要因を詳細に分析し，改善点を見出す。
- TERMS-Benchは，相手方の潜在的なタイプ，戦略，報酬構造を明示的に定義することで，環境自体を検証者として機能させる。
- 13のLLMエージェントの評価から，最先端モデルでも取引成功率は飽和するものの，利益最大化，手がかりの利用，信念の較正，遵守において差異が見られた。
- この結果は，既存のベンチマークでは隠されていたエージェント固有の交渉上のボトルネックを明らかにし，改善の方向性を示唆する。
Link: https://arxiv.org/abs/2605.13909
ポーズを考慮した展開と点群融合による3Dと2D指紋のクロスモーダル登録 [cs.CV]目的：3D指紋と2D指紋間のクロスモーダル登録のための統一的フレームワーク
- 指紋認証は，生体認証の中でも広く利用されており，セキュリティ分野で重要な役割を担っている。
- 3D指紋は変形に強いものの，既存の2D指紋システムとの統合が困難であるという課題がある。
- 3D指紋と2D指紋間のギャップを埋め，両者の相乗効果を引き出すことを目指している。
- 提案手法は，3D指紋点群を2D表現に変換する非パラメトリックな可視化と展開手法を採用している。
- 実験の結果，提案フレームワークは0.09mm程度の3D融合誤差，リッジスケールの投影精度を達成した。
- ポーズを考慮した展開により，2D指紋との適合性が向上し，指紋認証における有効性が示された。
Link: https://arxiv.org/abs/2605.15796
EF1 分割における並列アルゴリズムの改善 [cs.IR, cs.DS, cs.GT]目的：EF1分割のための並列アルゴリズムの性能向上
- 公平な資源配分は，経済学，計算機科学など様々な分野で重要な課題である。
- EF1分割の並列アルゴリズムは，効率的な資源配分を実現するためには不可欠だが，計算複雑性が高い。
- 本研究は，EF1分割における並列アルゴリズムの計算効率を向上させることを目指す。
- 2エージェントの場合，深さをO(log^2 m)からO(log m)，作業量をO(m log m)からO(m)に大幅に改善した。
- エージェント数が定数であれば，NCアルゴリズムを適用可能であると示した。
- さらに，エージェントがpolylog(m)個以下の商品を評価し，各商品がO(1)個以下のエージェントに評価される場合，NCアルゴリズムが利用可能となる。
Link: https://arxiv.org/abs/2605.16791
信頼性の高い医療画像質問応答のためのWasserstein均衡デコーディング [cs.IR, cs.CV, cs.AI]目的：医療画像質問応答における信頼性向上
- 医療現場では，プライバシー保護と低遅延が重要であり，小型言語モデルの活用が求められている。
- 小型モデルは，容量の制約から，妥当だが誤った回答を生成しやすいという課題がある。
- 意味的な合意に基づくデコーディングにより，誤った回答を抑制し，効率的な推論を実現することを目指す。
- VQA-RADとPathVQAにおいて，貪欲法や識別的ベースラインと比較して，一貫した統計的に有意な改善が確認された。
- VQA-RADでは，Qwen3-VL-2Bの精度を3.5%向上させ，4Bモデルの貪欲法による性能を上回った。
- PathVQAでは，ドメイン特化型ファインチューニングなしでGemma-3-4BがMedGemma-4Bに匹敵する性能を示し，Wasserstein基準により平均収束イテレーション数を約20%削減した。
Link: https://arxiv.org/abs/2605.18313
表現自動符号化器の改善されたベースライン [cs.CV, cs.AI, cs.GR, cs.LG, stat.ML]目的：表現自動符号化器の設計選択の系統的な調査
- 画像生成モデルの性能向上は，多様な応用において重要である。
- 従来のVAEでは，十分な表現学習が困難であり，学習効率が低い場合がある。
- RAEの改良により，より効率的で高性能な画像生成を実現することを目指す。
- RAEv2は，オリジナルRAEと比較して10倍以上の高速な収束を実現した。
- ImageNet-256において，わずか80エポックで最先端のgFID 1.06を達成した。
- FDr6においても，最先端の2.17を80エポックで実現し，訓練効率の指標EPFID@2で35エポックを達成した。
Link: https://arxiv.org/abs/2605.18324
視点一致性を考慮したテキストから3D生成のための構造的エネルギーガイダンス [cs.CV]目的：拡散モデルに基づくテキストから3D生成における多視点一貫性の改善
- 3Dコンテンツ生成の自動化が求められており，テキストからの生成は重要なアプローチである。
- 拡散モデルを用いた生成において，視点間の不整合（ヤヌス問題）が課題となっていた。
- 2D拡散モデルの視点バイアスを解消し，多視点一貫性を高めることを目指す。
- 提案手法であるSEGSは，U-Net特徴量のPCA空間で構造的エネルギーを構築し，ノイズ除去プロセスに注入する。
- SEGSは，DreamFusionやMagic3Dなど既存手法と比較して，ヤヌス率を約10%削減し，View-CSスコアを向上させた。
- 外観の忠実性を維持しつつ，視点アーティファクトを効果的に軽減する柔軟な解決策を提供する。
Link: https://arxiv.org/abs/2605.19876
DySink：自己回帰的長尺ビデオ生成のための動的フレームシンク [cs.CV, cs.AI]目的：長尺ビデオ生成における動的フレームシンクのメカニズム
- ビデオ生成の効率化には，メモリ使用量の制約が重要となる。長尺ビデオ生成では特にその課題が顕著。
- 従来のフレームシンクは固定されており，状況変化への適応性が低い。古い情報に偏り，生成品質を損なう可能性。
- 視覚的に関連性の高い過去のフレームを動的に選択し，コンテキストの崩壊を防ぐことで，生成品質の向上を目指す。
- DySinkは，コンパクトなメモリバンクと適応的検索を組み合わせ，動的なフレームシンクを実現。
- シンクアノマリゲートにより，過剰なヘッド間の一致を検出し，崩壊しやすいコンテキストを抑制。
- 実験の結果，DySinkは既存手法と比較して，動的度合いと時間的品質を向上させることを実証。
Link: https://arxiv.org/abs/2605.21028
Pantheon360：3D認識360°動画拡散によるデジタルツイン生成の制御 [cs.CE, physics.ao-ph, cs.CV]目的：デジタルツイン生成の制御
- デジタルツイン技術は，現実世界のシミュレーションや応用において重要性が増している。
- 従来の動画生成手法では，視野角の狭さから一貫性や時間軸のずれといった課題が存在する。
- 360°動画生成により，視野角の問題を克服し，高品質なデジタルツイン生成を目指す。
- Pantheon360は，3Dキャッシュを用いて幾何学的な整合性を維持しつつ，高品質な360°動画を生成する。
- 本手法は，従来の動画生成手法と比較して，視覚的な品質と幾何学的な一貫性において優れている。
- これにより，シミュレーションやデジタルツインへの応用において，信頼性と柔軟性の高い360°シーン生成が可能となる。
Link: https://arxiv.org/abs/2605.25449
ATV-Net：動的特徴融合を用いた適応型トリプルビューネットワーク [cs.CV]目的：セマンティックセグメンテーションにおける高性能かつ効率的なヘッド構造の提案
- セマンティックセグメンテーションは，画像認識や自動運転など，多くの応用分野で重要な役割を担っている。
- 近年，高性能なセグメンテーションモデルは複雑な構造と高い計算コストを伴う傾向がある。
- 本研究は，軽量なCNNベースのヘッド構造により，効率的かつ高性能なセグメンテーションを実現することを目標とする。
- ATV-Netは，点ごとの特徴，近傍レベルの特徴，拡大されたコンテキストの3つのビューを適応的に融合することで，優れた性能を発揮する。
- Cityscapesデータセットにおいて，ResNet-101とConvNeXt-Tinyを用いた場合，それぞれ80.31%と80.90%のmIoUを達成した。
- ATV-Netは，既存のコンテキスト集約やアテンションベースの手法と比較して，より少ないGFLOPsで同等の性能を達成することを示した。
Link: https://arxiv.org/abs/2605.25803
KGEdit: 曖昧性認識知識グラフを用いたトレーニングフリーな高精度動画生成・編集 [cs.CV]目的：高精度な動画生成と編集のための構造化されたセマンティック制御フレームワーク
- 動画生成技術は近年目覚ましい進歩を遂げている。多様なコンテンツ作成への応用が期待されている。
- 複雑な指示文に対する既存手法では，意味の曖昧性や概念の誤った結合，フレーム間の不整合といった課題が存在する。
- 入力プロンプトの曖昧性を解消し，セマンティックな制御と時間的一貫性を向上させることを目指す。
- KGEditは，入力プロンプトを解釈するための曖昧性認識知識グラフ（AAKG）を構築し，より正確な動画生成を可能にする。
- 構造化されたセマンティック注入モジュール（SSIM）により，拡散Transformerの主要層にセマンティック信号を注入し，きめ細やかな制御を実現する。
- 時間的特徴を考慮したセマンティック制御モジュール（TASC）は，ノイズ除去プロセスに合わせてセマンティック目標を動的にスケジュールし，整合性を高める。
Link: https://arxiv.org/abs/2605.29509
次世代LLMエージェントシステムにおける協力の進化力学：クロスプロバイダー実証的拡張 [cs.MA, cs.AI, cs.GT]目的：次世代LLMエージェントにおける協力行動の傾向
- LLMエージェントの発展は，社会実装において重要であり，その協力性理解が不可欠である。
- 既存研究ではLLMエージェントの協力バイアスが確認されるも，大規模化やプロバイダーの多様性が行動に与える影響は不明確である。
- 異なるプロバイダーの次世代LLMエージェントにおける協力行動の傾向を比較し，影響要因を特定すること。
- ChatGPT-4oとClaude 3.5 Sonnetにおいて協力バイアスが確認されていたが，次世代モデルでも同様の傾向が認められた。
- Gemini 2.5 Flashは偏った条件で攻撃的な均衡に達する一方，GPT-5.4 Miniは自己修正プロンプト下で協力的な均衡が高い傾向を示した。
- プロバイダーの特性が均衡結果に最も強く影響し，ノイズはモデルサイズに関わらず普遍的な課題として残る。
Link: https://arxiv.org/abs/2605.29874
飛ぶ前に見極める：ビジョン言語モデルにおける蜃気楼の検出 [cs.CV, cs.AI]目的：ビジョン言語モデルにおける蜃気楼検出の事前実施
- ビジョン言語モデルは多様な応用が期待されるが，誤った情報に基づく回答は重大な問題を引き起こす可能性がある。
- ビジョン言語モデルは，視覚的証拠がない，または不適切であるにも関わらず，自信のある回答を生成することがある。
- 視覚的証拠の有無を事前に判断し，回答を控えることで，誤った回答のリスクを軽減することを目指す。
- 提案手法TC-LIAは，CLIP ViT-H/14の各層におけるパッチトークン表現を解析し，質問との関連性を評価する。
- Qwen2.5-VL-32Bは，5つのVQAドメインにおいて94.7%の検出精度と3.0%の蜃気楼発生率を達成した。
- Qwen2.5-VL-72Bは，94.6%の精度と2.8%の発生率を示し，既存手法と比較して大幅な改善が見られた。
Link: https://arxiv.org/abs/2606.00435
言語駆動による映画的構図：人間中心ビデオ生成のための手法 [cs.CV]目的：人間中心のビデオ生成のための言語駆動型映画的構図
- ビデオ生成技術は進化したが，意図的なカメラ制御は難題だった。
- 既存手法では，カメラの動きがランダムで，人間との一貫性がない。
- 自然言語と人の動きから映画的な構図を生成する。
- Auteurは，映画監督の視点に基づき，人間の姿勢と動きに対するカメラの構図を定義する。
- 人間の動きと自然言語の説明を基に，カメラの軌跡を決定的に生成する。
- 提案する評価指標において，既存手法を上回る映画的な表現を達成した。
Link: https://arxiv.org/abs/2606.01900
質問認識型エビデンス台帳による動画の関係性推論 [cs.CL, cs.CV]目的：動画の関係性推論における質問認識型エビデンス台帳の有効性
- 動画理解は，ロボット工学や自動運転など，様々な応用分野で重要な役割を担う。
- 動画中の関係性推論は，単一のフレームだけでは不十分で，文脈理解が課題となる。
- 質問の内容を考慮したエビデンスの活用により，関係性推論の精度向上を目指す。
- 強力なGPT-5.5動画QAソルバーと質問認識型エビデンス台帳を組み合わせた推論パイプラインを構築した。
- エビデンス台帳は，対象，数，フレーム，時間的・空間的な範囲を明示することで，推論を支援する。
- 最終的なエビデンスゲート付きパイプラインは，全体で92.95％，マクロで93.79％の精度を達成した。
Link: https://arxiv.org/abs/2606.02506
経路構造化された特権的知識蒸留による展開可能な計算病理 [cs.CV]目的：展開可能な計算病理のための特権的知識蒸留手法
- 癌リスクモデリングにおいて，トランスクリプトミクスと組織病理学の統合は重要である。
- ルーチン設定におけるRNAプロファイリングの可用性の制限が，実用上の制約となっている。
- 組織画像のみから分子情報を活用し，予測性能の向上を目指す。
- MoPEは，経路ベースの知識蒸留により，組織画像のみからの推論性能を改善した。
- 経路の使用状況分析と専門家による検証により，モデルの挙動が解釈可能であることが示された。
- 本研究は，分子情報を活用したトレーニングとRNAフリーな推論を両立する有望な手法を提示する。
Link: https://arxiv.org/abs/2606.02877
グラフ正則化非負簡約双四元行列分解によるカラー画像認識 [cs.CV, cs.NA, math.NA]目的：カラー画像認識のためのグラフ正則化非負簡約双四元行列分解モデル
- 画像認識は，コンピュータビジョンの重要な分野であり，様々な応用が存在する。
- 既存手法では，画像の局所的な幾何学的構造を十分に活用できていない場合がある。
- 画像の局所構造を考慮し，識別能力の高い低次元表現を獲得することを目指す。
- 提案手法では，グラフラプラシアン正則化項を導入し，類似した画像が類似した表現を持つように誘導する。
- 実験結果から，提案手法は既存手法と比較して，競争力のある認識性能を示すことが確認された。
- 最適化問題に対しては，成分ごとの交互投影勾配法を導出し，収束性も解析している。
Link: https://arxiv.org/abs/2606.03654
SLU-2K：手話翻訳の意味的評価のための質問ベースのベンチマーク [cs.IR, cs.IR, cs.DL, cs.CV]目的：手話翻訳の理解度評価のためのデータセットおよび評価手法
- 手話翻訳は，聴覚障碍者支援技術において重要な役割を担う。
- 既存の手話翻訳評価指標は，意味の正確性を直接的に測れていない。
- 手話翻訳の理解度を測るための，意味的評価のベンチマークを確立すること。
- SLU-2Kは，PHOENIX-2014TとCSL-Dailyデータセットに基づいた，2,350組の質問応答ペアを含む。
- 大規模マルチモーダル言語モデル(MLLM)は，ほぼランダムな性能しか示さなかった。
- 最新の手話翻訳システムでも，依然として意味的なギャップが存在し，性能は56.7%から75.2%の範囲だった。
Link: https://arxiv.org/abs/2606.03788
GroupToM-Bench：MLLMにおける集団心の理論と非線形社会創発のベンチマーク [cs.CV]目的：集団レベルの心の理論評価のためのベンチマーク
- 汎用人工知能には物理世界に加え，社会世界モデルが不可欠である。人間の社会行動を理解するには，個人の心の状態を考慮する必要がある。
- 既存のマルチモーダル大規模言語モデルは，個人の心の理論推論は可能だが，集団レベルでの推論には限界がある。
- 集団行動の非線形性を捉え，社会構造と集団ダイナミクスの理解を深めることを目指す。
- GroupToM-Benchは，個人のBDI状態，集団の緊張，構造的制約，そして結果予測とメカニズムの帰属を網羅する因果連鎖に基づいた新しいベンチマークである。
- 実験の結果，現在のモデルは人間のベースラインと比較して集団構造や非線形ダイナミクスを処理する能力で劣ることが示された。
- この研究は，マルチモーダル大規模言語モデルにおける集団レベルの心の理論推論のギャップを明らかにした。
Link: https://arxiv.org/abs/2606.04184
MeshFlow：MeshVAEとフローベース拡散Transformerによる効率的な芸術的メッシュ生成 [cs.CC, cs.CG, math.MG, cs.IR, cs.CL, cs.CV, cs.GR]目的：芸術的な3Dメッシュの生成
- 3Dコンテンツ制作において，高品質なメッシュ生成は重要な課題である。
- 既存のメッシュ生成手法は計算コストが高く，精度にも課題がある。
- 本研究は，効率性と精度を両立する新たなメッシュ生成手法を開発する。
- 本手法は，MeshVAEを用いて頂点位置と接続性を連続的な潜在空間に表現することで，計算コストを削減する。
- Rectified Flow Transformerを用いることで，メッシュの頂点とエッジを並列に生成し，高速化を実現する。
- 実験結果から，本手法は最速のAR生成器よりも18倍高速であり，高い精度を達成することが示された。
Link: https://arxiv.org/abs/2606.04621
RQUL-UIE：データ内自己教師あり学習による不安定なラベルの活用を通じた水中画像強調 [cs.CE, cs.CV]目的：水中画像強調のための品質不安定なラベルの活用戦略
- 水中環境下での視界確保は，海洋調査や資源開発において極めて重要である。
- 既存手法は，高品質なペアデータに依存しており，ラベルの品質が低い場合，性能が低下する。
- データ内のラベル品質分布を活用し，学習過程におけるラベルの影響を制御することで性能向上を目指す。
- 提案手法は，事前学習済みの拡散モデルを用いてラベル品質を評価し，ノイズレベル指標を算出する。
- この指標に基づいて，多段階のノイズ除去プロセスを通じて段階的な教師あり学習を行うことで，低品質なラベルの影響を抑制する。
- 実験結果から，提案手法が既存の最先端手法と比較して，復元品質において一貫して優れた性能を示すことが明らかになった。
Link: https://arxiv.org/abs/2606.06176
伴奏の共同生成による統一的な楽曲生成と歌声変換 [cs.CL, q-bio.GN, cs.SD, cs.AI]目的：楽曲生成，歌声変換，伴奏の共同生成
- 音楽制作の自動化が求められる中で，楽曲生成と歌声変換技術の重要性が増している。
- 楽曲生成は話者クローニングが困難であり，歌声変換は伴奏との連携が不十分であるという課題があった。
- 楽曲生成と歌声変換を統合し，伴奏との相乗効果を実現することで，より自然な音楽生成を目指す。
- UniSingerは，楽曲生成と歌声変換を統合する初のend-to-endフレームワークである。
- マルチモーダル拡散トランスフォーマーを基盤とし，歌声変換から楽曲生成へ話者表現を転移させる。
- タスク固有のモダリティマスキングを用いたカリキュラム学習により，各生成メカニズムを段階的に習得する。
Link: https://arxiv.org/abs/2606.07015
ノイズを含むラベル検出のための適応型データクリーニングフレームワーク [cs.CV, cs.LG]目的：ノイズを含むラベルの検出
- 深層学習は大規模なアノテーション済みデータセットがあれば画像認識で高い性能を発揮する。
- 現実世界ではラベルが曖昧さや人的エラー，動的な環境により汚染されている場合がある。
- 複雑なデータにおいて，安定したノイズ検出を実現する。
- 提案手法は，局所的，グローバル，学習ダイナミクスの手がかりを統合し，ロバストなノイズラベル検出を行う。
- CIFAR-10，MNIST，ImageNet-100での実験で，5%から40%の対称的ラベルノイズ下で高い再現率を示した。
- 特にImageNet-100において，40%のノイズ下でほぼ完璧な再現率(>=98%)を達成し，精度向上が確認された。
Link: https://arxiv.org/abs/2606.07086
コードシンボル時系列適応はどの程度ジャンルアイデンティティを維持できるか：マルチジャンルコードシンボルモデリングの能力と限界 [cs.SD, cs.LG]目的：マルチジャンルコードシンボルモデリングにおけるコードシンボル時系列適応の能力と限界の評価
- 音楽ジャンルは，音楽表現の重要な要素であり，その理解と再現は音楽情報処理の重要な課題である。
- 既存のコードシンボルモデルは，特定のジャンルに特化していることが多く，異なるジャンルへの適応が困難である。
- コードシンボル時系列適応によって，ジャンル間のコード進行の違いを捉え，より汎用的なモデルを構築することを目指す。
- 11ジャンルにおけるコードシンボル適応の結果を更新し，全ての方法が純粋なポップベースモデルよりも改善されることを確認した。
- 明確な勝者はおらず，様々な適応方法が有効であることが示唆された。
- ベース修復ノートの追加と統計データの修正を行い，CSVファイルの正確性を向上させたが，結論は変わらない。
Link: https://arxiv.org/abs/2606.07334
SceneConductor：単一画像からのマルチエージェントオーケストレーションによる3Dシーン生成 [cs.CV, cs.AI, cs.MA]目的：単一画像からの3Dシーン生成
- 3Dシーン生成は，メタバースやロボティクスなど，様々な応用分野で重要性が増している。
- 既存手法は，複雑なシーン全体を一度に処理するため，汎化性能が低いという課題がある。
- マルチエージェントによる段階的生成により，複雑な環境下での3Dシーン生成を可能にすることを目指す。
- 本手法は，初期化，環境構築，多エージェントによる修正という3段階のフレームワークを用いる。
- 点群マップから得られる幾何学的事前知識を活用し，シーンの初期レイアウト予測の精度を向上させた。
- ベンチマークデータセットにおいて，幾何学的精度，空間的一貫性，知覚的なリアリズムにおいて既存手法を上回る性能を示した。
Link: https://arxiv.org/abs/2606.08402
DriveReward：自律走行のための包括的なデータセットと生成型ビジョン言語報酬モデル [cs.CV]目的：自律走行のための報酬モデルに関するデータセットおよびモデル
- 自律走行技術の発展には，強化学習における適切な報酬関数の設計が不可欠である。
- 従来の報酬関数は手動で設計されるため，汎化性能に限界があり，データ拡張が困難である。
- 多様な運転状況に対応できる，汎化性能の高い報酬モデルを開発すること。
- 本研究では，時系列的に視覚情報に基づいて厳密にラベル付けされたデータセットDriveRewardを公開した。
- 提案する10億パラメータの報酬モデルは，大規模なVLMと比較してタスク固有の報酬調整において優れていることを示した。
- 強化学習や多Modal軌道評価への統合により，ルールベースの報酬計算と同等の性能を達成した。
Link: https://arxiv.org/abs/2606.08525
DeepMine-Mamba：Mambaベース状態空間モデルにおける情報希釈の軽減 - ドキュメント画像二値化 [cs.CV]目的：ドキュメント画像二値化における情報希釈の軽減
- ドキュメント画像は，記録媒体として広く利用され，デジタルアーカイブ化が重要である。
- 既存手法では，微細な文字や低コントラストな部分の二値化が困難な場合がある。
- Mambaモデルの情報希釈を抑制し，文字の鮮明な二値化を実現すること。
- 提案手法DeepMine-Mambaは，Mambaモデルに新規なAnti-Dilution Gateを導入することで，特徴量の希釈を抑制する。
- DIBCO/H-DIBCOベンチマークにおいて，DeepMine-Mambaは競争力のある性能を示し，高いFMおよびFps平均値を達成した。
- Anti-Dilution Gateが，前景の希釈を軽減し，ストロークの保存を改善する上で重要な役割を果たすことが示された。
Link: https://arxiv.org/abs/2606.08781
スカラー報酬を超えて：推論をスコア分布に内在化する [cs.CV]目的：テキストから画像へのポストトレーニングにおける報酬モデルの改善
- 画像生成において，報酬モデルは生成品質を向上させる上で不可欠な要素である。
- 既存の報酬モデルは不確実性を十分に表現できず，スコアの微細な違いを捉えきれていない。
- 推論に基づいた高品質な報酬信号を，効率的に利用可能な形式で提供すること。
- Z-Rewardは，推論能力を持つ教師モデルと，効率的な報酬展開を行う学生モデルから構成される。
- 教師モデルは，人間による評価に近いスコア分布を推論し，89.6%という高い人間選好精度を達成した。
- 学生モデルは，教師モデルの推論能力を内在化し，9Bモデルで88.6%の精度を達成し，SFTベースラインよりも41.3%の人間選好改善を実現した。
Link: https://arxiv.org/abs/2606.09076
ウルトラフラッシュ：高解像度リアルタイムストリーミング動画生成のスケールアップ [cs.CV]目的：高解像度リアルタイムストリーミング動画生成の実現
- 動画生成技術は，エンターテイメント，コミュニケーションなど多岐にわたる分野で重要性が増している。
- 既存の動画拡散モデルは，解像度が低く，効率的かつ高解像度なリアルタイム生成が困難であった。
- 高解像度かつリアルタイムなストリーミング動画生成を可能にするフレームワークを開発すること。
- ウルトラフラッシュは，単一のGPU上で1K解像度で約30FPS，2K解像度で約18FPSのリアルタイム高解像度動画生成を達成した。
- アーキテクチャを維持する超解像度学習パラダイムとAIGC指向のデータ劣化パイプラインにより，高品質な高解像度ディテールを実現した。
- 因果ストリーミング潜在的アップサンプラーと高解像度デコーダーにより，空間的・時間的コヒーレンスを高め，効率的な高解像度デコーディングを可能にした。
Link: https://arxiv.org/abs/2606.09150
合成音声が皮肉に聞こえる要因：韻律制御による知覚実験 [cs.SD, eess.AS]目的：皮肉の知覚における韻律の役割
- コミュニケーションにおいて皮肉は頻繁に用いられ，その理解は社会的な相互作用に不可欠である。
- 自然な音声データでは韻律要素が複雑に絡み合っており，個々の要素の影響を特定することが困難である。
- 韻律制御可能な合成音声を用いることで，皮肉の知覚に寄与する要素を明らかにすること。
- 人間の皮肉の知覚は主に音量によって左右されることが示された。
- 一方で，モデルは発話速度により大きな重みを置いており，人間とモデルで韻律の重み付けが異なることが明らかになった。
- 制御可能なニューラルTTSが，音声知覚における韻律要素の重み付けの研究を可能にすることを示した。
Link: https://arxiv.org/abs/2606.09717
LentiAvatar：擬似多視点再構成とサブピクセルプリズムレンダリングによるリアルタイムな立体通信 [cs.RO, cs.CV, cs.GR]目的：リアルタイム立体映像通信のためのガウスヘッドアバターシステム
- 没入型テレプレゼンス実現には不可欠であり，遠隔コミュニケーションの質を向上させる。
- 既存システムは特殊な撮影装置が必要，または遠隔ユーザーに単一の正面像しか提供できない。
- 単眼映像から高精度な立体映像を生成し，リアルタイム通信を可能にすること。
- LentiAvatarは，単眼ポートレート映像から制御可能なヘッドアバターを再構成し，立体表示に最適化する。
- 自然な頭部回転を擬似多視点（PMV）の教師データとして活用し，観察が難しい領域の再構成精度を向上させる。
- ライブトラッカープロトタイプは10.65FPS，パーソナライズされたドライバーは38.49FPSのフレームレートを達成した。
Link: https://arxiv.org/abs/2606.10550
シーン誘発閉塞下における視覚-言語-行動モデルの評価と改善：視点想像によるアプローチ [cs.AR, cs.CV, cs.AI]目的：シーン誘発閉塞下における視覚-言語-行動モデルの性能低下とその改善
- ロボットの視覚的認識は，現実世界の複雑な環境での自律的な操作に不可欠である。
- 既存のモデルは，対象物が完全に視認可能であることを前提としており，閉塞状況下での性能が課題となる。
- 閉塞による視覚情報の欠損を補完し，よりロバストな行動予測を可能にすることを目指す。
- 実験の結果，最先端の視覚-言語-行動モデルは，閉塞状況下で顕著な性能低下を示すことが明らかになった。
- 提案手法である視点想像（VIM）は，閉塞された観察から補完的な視点を生成し，行動予測のロバスト性を向上させる。
- VIMは，追加のカメラを必要とせず，様々なタスク，閉塞の種類，および深刻度に対して効果を発揮する。
Link: https://arxiv.org/abs/2606.10862
シミュレーションから現実世界へ：ロボットによるイチゴ収穫のための現場6D姿勢データセットとベースライン [cs.CV]目的：ロボットによるイチゴ収穫のための6D姿勢推定
- 農業分野における自動化は，人手不足の解消や効率化に不可欠である。
- 実際の農地での6D姿勢推定の正解データ収集は困難であり，シミュレーションデータに依存している。
- 現実の農地環境におけるロボットによるイチゴ収穫の性能評価のためのデータセットを構築する。
- 本研究では，実際の農地で収集されたイチゴの6D姿勢データセットを新たに作成した。
- シミュレーションデータセットも作成し，現実世界とシミュレーション間の性能差（sim-to-real gap）を定量的に評価した。
- シミュレーション環境の改善にも関わらず，依然としてsim-to-real gapが存在することを示した。
Link: https://arxiv.org/abs/2606.11381
複数回の画像編集における因果的記憶による時間的一貫性の維持：AnchorEdit [cs.CV, cs.AI]目的：複数回の画像編集における，時間的一貫性の維持
- 画像編集技術は，デザインの反復的な改善に不可欠であり，その重要性は高い。
- 既存モデルでは，複数回の編集において，同一性の喪失や誤りの蓄積が課題となっている。
- 本研究は，長期間にわたる編集において，時間的一貫性を保ち，安定した結果を得ることを目指す。
- AnchorEditは，高解像度かつ長期間にわたる複数回の画像編集に特化した自己回帰型拡散モデルである。
- 本手法は，自己ロールアウト戦略を用いた因果的AR強制微調整と，一貫性蒸留により，編集の安定性を向上させている。
- 提案手法は，10回を超えるインタラクションラウンドにおいても，被写体の忠実性と指示の追従性を維持し，最先端の結果を達成した。
Link: https://arxiv.org/abs/2606.11751
ビジョン言語行動モデルに対する軌道レベルのリダイレクト攻撃 [eess.SY, cs.SY, math.PR, eess.SY, cs.SY, cs.RO, cs.CV, cs.SY, eess.SY]目的：ビジョン言語行動モデルにおける軌道レベルのリダイレクト攻撃の可能性
- ロボットの制御において，自然言語による指示は柔軟性と汎用性をもたらし，複雑なタスクの実行を可能にするため重要である。
- テキスト指示に基づいたロボット制御は，指示のわずかな変更や解釈の違いによって，予期せぬ動作を引き起こす可能性がある。
- 本研究は，一見意図したタスクを維持しているように見えるテキスト指示によって，ロボットの最終的な動作を操作する攻撃を分析し，対策を検討する。
- 本研究では，攻撃者が事前に選択したプロンプトのみを用いて，ロボットの軌道を特定の目標に向かわせる「コマンド維持型軌道リダイレクト」という新たな攻撃手法を提示した。
- 提案手法では，ロールアウトを用いて，指示の意味を保ちつつ，攻撃者が指定した目標を達成するようなプロンプトの微調整を自動的に探索する。
- シミュレーションと実機実験の結果，わずかな変更を加えたプロンプトによって，ビジョン言語行動モデルの動作を誘導できることが示された。
Link: https://arxiv.org/abs/2606.12978
リアルタイムにおける完全分散型マルチビュー3Dトラッキング [cs.CV]目的：大規模カメラネットワークにおけるリアルタイムマルチビュー3Dトラッキングの実現
- 監視，ロボティクス等において，複数カメラによる対象物の追跡は重要である。高精度かつ効率的な追跡技術が求められている。
- 従来の集中型アプローチでは，計算負荷がボトルネックとなり，大規模システムへの展開が困難であった。
- 本研究では，中央集権的な集約処理を排除し，カメラ間連携による分散型トラッキングを実現することで，スケーラビリティの向上を目指す。
- 提案手法MV3DTは，WILDTRACKデータセットにおいて，最先端の集中型手法と遜色ない性能(IDF1:96.5%, MOTA:93.1%, MOTP:94.6%)を示した。
- SCOUTデータセットでは，IDF1:41.7%, MOTA:50.9%という，これまでの最高性能を更新し，優れたスケーラビリティも確認された。
- MV3DTは，カメラキャリブレーションのみで動作し，シーン固有の学習を必要としないため，新規環境への展開が容易である。
Link: https://arxiv.org/abs/2606.13127
Flex4DHuman：4D人間再構成のための柔軟な多視点ビデオ拡散 [cs.CV, cs.GR]目的：単眼または疎な多視点ビデオから，相対的なカメラ姿勢の条件付けのみを用いて，同期された密な多視点ビデオの生成
- 映像コンテンツの作成において，リアルな人間の動きを再現する4Dモデルの需要が高まっている。
- 既存手法は，骨格，深度マップ，法線といった明示的な幾何学的情報を必要とし，柔軟性に課題がある。
- 明示的な幾何学的情報を必要とせず，カメラ姿勢のみで4Dモデルを生成することで，汎用性と拡張性を向上させる。
- Flex4DHumanは，DNA-RenderingおよびActorsHQデータセットにおいて，既存の最先端手法を上回る性能を示した。
- 人間に加えて動物のデータに対しても汎化可能であり，多様なコンテンツ作成への応用が期待される。
- 本研究は，シミュレーション，ゲーム，AR/VR，ビデオ再撮影など，様々な分野における4Dコンテンツ作成の規模拡大に貢献する。
Link: https://arxiv.org/abs/2606.13655