arXiv雑要約

画像・音声 - 2026/05/29 公開

  • GrowLoop:人間による初期シードに基づいた自己進化型会話評価 [cs.CL, cs.AI, cs.SD]目的:大規模言語モデルの人間らしさ評価に関する研究
    • 言語モデルの急速な進歩に伴い,人間らしい会話の評価が重要になっている。
    • 人間らしさの基準は暗黙知であり,明確な定式化が困難である。
    • モデルの進化と人間の期待に応じた継続的な評価基準の進化を目指す。
    • GrowLoopは,最小限の人間によるシードアノテーションから始まり,LLMエージェントがヒューリスティック学習を通じて評価ルブリックを反復的に抽出・洗練する。
    • 生成されたルブリックは,既存の方法よりも人間の判断との整合性が高く,アノテーターが見落としがちな問題も明らかにする。
    • この研究は,手動更新や難易度調整から,包括的で継続的な自己進化へとベンチマークのパラダイムを変える。

    Link: https://arxiv.org/abs/2605.28882

  • 拡散ブリッジにおけるエンドポイントアンダーフィッティングの解消:ノイズアラインメントによる解決 [cs.CV]目的:拡散ブリッジにおけるエンドポイントアンダーフィッティングの解消
    • 画像修復や変換など,データ分布間の接続において強力な枠組みを提供する。
    • 従来の拡散モデルのスコアマッチング手法を模倣することで,ターゲットエンドポイント近傍にアンダーフィッティングが生じやすい。
    • ネットワーク入力と回帰ターゲット間のノイズレベルの不一致を解消し,エンドポイント近傍のアンダーフィッティングを修正する。
    • 提案手法NADBは,平均ネットワークを用いて条件付きターゲットを改善し,ノイズアラインメントマッピングを導入する。
    • これにより,ノイズの不一致が解消され,ターゲットエンドポイント近傍のアンダーフィッティングが修正される。
    • 画像修復および画像変換タスクにおける実験により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2605.28962

  • GAP3D:3D生成のためのVLM潜在空間とパッチレベル埋め込みの生成的アライメント [cs.CV]目的:VLM潜在空間とパッチレベル埋め込みのアライメントによる3D生成手法
    • 大規模言語モデルと画像処理技術の融合が,多様なタスクにおいて高い性能を示すようになってきた。
    • 従来のVLMを3D生成に利用する際,高コストな学習や情報損失の問題があった。
    • VLMと画像エンコーダ間の表現ギャップを埋め,モジュール化された統合を可能にすること。
    • GAP3Dは,事前学習済みの画像エンコーダのパッチレベル特徴空間にVLM潜在空間を直接アライメントすることで,3D生成モデルの条件付けにVLMを効果的に利用する。
    • 大規模な3Dデータセットを必要とせず,汎用的な画像-テキストペアで学習可能である。
    • テキスト入力のみで学習しているにも関わらず,マルチモーダルプロンプトに対するゼロショット能力を示す。

    Link: https://arxiv.org/abs/2605.28995

  • トレーニング不要の3D形状検索における監査:拡散測地モーメントによる検証 [eess.SY, cs.SY, cs.CV, cs.GR]目的:トレーニング不要の形状記述子の評価プロトコル
    • 3D形状検索は,コンピュータグラフィックスやCAD/CAMなど幅広い分野で重要である。
    • 形状記述子の性能評価において,構成要素ごとの影響を分離することが困難であった。
    • 記述子評価を「プロトコル監査」として再定義し,客観的な性能評価を目指す。
    • 拡散測地モーメント(DGM)は,疎な熱応答を利用し,頂点ごとに低次のモーメントを計算する。
    • DGMとGMSD-HKSの比較実験により,GMSD-HKSがFAUST-RegとTOSCAにおいて最高の精度を示した。
    • 入力場と集約プロトコルが,モーメントの式に大きな影響を与えることが示唆された。

    Link: https://arxiv.org/abs/2605.29004

  • 画像逆問題に対する軌道制約 [cs.CV]目的:画像逆問題における再構成軌道の安定化
    • 画像再構成は,医療,科学,工学など幅広い分野で不可欠な技術である。
    • 従来の再構成手法では,中間推定値間の遷移が十分に制御されていない場合がある。
    • 再構成経路全体を考慮し,中間状態間の遷移を明示的に制約することで安定性を向上させる。
    • 提案手法TRACEは,学習を必要とせず,隣接状態を結合することで再構成経路を安定化させる。
    • 軌道レベルでのモデル化により,近接更新のシーケンスとして解釈でき,時間的結合が軌道変動を抑制する。
    • 線形および非線形画像再構成タスクにおいて,TRACEが再構成品質を向上させることが示された。

    Link: https://arxiv.org/abs/2605.29012

  • 都市環境におけるマルチモーダルLLMエージェントの生成する説明に対するペルソナ効果の分析 [cs.CL, cs.CL, cs.CV, cs.HC, cs.MA]目的:都市環境におけるマルチモーダル大規模言語モデルによる説明生成におけるペルソナ効果
    • 都市の認識と理解は,自動運転や都市計画など,様々な応用分野において重要である。
    • 大規模言語モデルにおけるペルソナ設定が,生成される説明の質やバイアスに与える影響は未解明な点が多い。
    • ペルソナ設定が生成される説明にどのように影響するかを定量的に明らかにすること。
    • 異なるペルソナによるキャプション生成は収束する傾向がある。
    • 正当化においては,社会経済的および政治的属性に関連した系統的な変化が見られた。
    • 認識タグには統計的に有意なペルソナ関連の差は認められなかったが,傾向は見られた。また,ペルソナによって同じシーンに対する評価テーマが異なることが明らかになった。

    Link: https://arxiv.org/abs/2605.29064

  • Embodied3DBench:ビジョン言語モデルの低レベル埋め込み空間知能のベンチマーク [cs.CV, cs.RO]目的:ビジョン言語モデルにおける3次元環境での複雑な埋め込みインタラクションの理解と推論能力の評価
    • ロボット工学の発展には,現実世界の複雑な環境を理解し,対応できる知能が不可欠である。
    • 既存のビジョン言語モデルは,高レベルな空間推論は可能だが,インタラクション指向の知覚において脆弱である。
    • 低レベル埋め込み空間知能の評価フレームワークと大規模なデータセットを提供し,モデル開発の目標を明確にすること。
    • Embodied3DBenchは,空間構造理解とインタラクション指向知覚の2つのコアグループに分類された6つのタスクカテゴリを含む。
    • 13種類の最先端モデルを評価した結果,インタラクション指向の知覚能力に課題が残ることが示された。
    • 130万組のQAペアを含む大規模なトレーニングデータセットでファインチューニングすることで,低レベル空間知能が大幅に向上した。

    Link: https://arxiv.org/abs/2605.29074

  • アジマスドップラー分解に基づくセンチネル1ストリップマップ画像強化のための深層学習反復フレームワーク [cs.CV]目的:センチネル1ストリップマップ画像の品質向上
    • SAR画像は全天候・昼夜の地球観測を可能とするが,解釈が難しいノイズやアーチファクトを含む。
    • センチネル1ストリップマップ画像は高解像度だが,スペックルノイズと空間制約が詳細な分析の妨げとなる。
    • アジマス部分開口分解を用いて,外部データやシミュレーションなしに画像強化を行う。
    • 提案手法は,PSNRおよびSSIMの点で,広く採用されているMERLINを上回る性能を示した。
    • MERLINはENLが高く,構造的忠実度とスペックル平滑化のトレードオフがあることが示された。
    • 部分開口に基づく教師あり学習は,センチネル1データを用いたSAR画像強化に有効である。

    Link: https://arxiv.org/abs/2605.29088

  • 言語モデルのオンポリシー内部自己蒸留 (OISD) [cs.LG, cs.AI, cs.CV]目的:言語モデルにおける推論能力の向上
    • 大規模言語モデルの性能向上が,様々な自然言語処理タスクの発展に不可欠である。
    • 強化学習による後学習では,最終出力のみに注目し,中間表現に含まれる予測信号が十分に活用されていない。
    • 中間表現へ最終層の予測信号を伝搬し,推論能力の向上を目指す。
    • 本研究で提案するOISDフレームワークは,最終層を教師として,中間層の表現を整合させることで推論能力を向上させる。
    • ロジットアライメントとアテンションアライメントという二つのメカニズムにより,推論方法と注意の集中先を一致させる。
    • 数学的推論タスクにおいて,既存の強化学習ベースラインと比較して,OISDが大幅かつ一貫した改善を示すことが確認された。

    Link: https://arxiv.org/abs/2605.29089

  • 堅牢なビデオ顔偽造検出のための軽量相補的キュー融合 [cs.HC, cs.RO, cs.MA, cs.CV, cs.LG, cs.MM]目的:ビデオ顔偽造検出における精度向上とモデル軽量化
    • ビデオ顔偽造は,社会に大きな混乱をもたらす可能性があり,その検出技術の重要性が増している。
    • 既存の検出器は,大規模なモデルを使用するため,計算コストが高いという課題がある。
    • 軽量な手法で高精度な検出を実現し,計算コストを削減することを目指す。
    • 提案手法は,Xceptionをベースに,わずか292パラメータを追加するだけで,AUCを3.8~4.4%向上させた。
    • FaceForensics++およびDFDC-Previewにおけるベンチマークで,F3NetやSRMといった既存手法を上回る性能を示した。
    • 特徴量の組み合わせ方と軽量な融合ブロックにより,高精度かつ低コストな偽造検出が可能となった。

    Link: https://arxiv.org/abs/2605.29092

  • GeRaF:電波信号からのニューラルジオメトリ再構成 [cs.CV]目的:電波信号からの近距離3Dジオメトリ再構成
    • 電波は遮蔽物に透過可能だが,分解能が低くノイズが多いという課題があった。
    • 従来のボリューメトリックレンダリングは計算量が膨大で,電波特有の反射現象への対応が困難だった。
    • 電波信号のノイズと計算量を抑制し,高精度な3D再構成を実現すること。
    • GeRaFは,ニューラル暗黙的学習を用いて,電波信号からの近距離3Dジオメトリ再構成を可能にした最初の手法である。
    • フィルタリング,物理ベースのレンダリングパイプライン,およびレンズレスサンプリング戦略により,電波信号の課題を克服している。
    • 符号付き距離関数,反射率,信号強度を学習することで,ミリメートルレベルのジオメトリ再構成を実現した。

    Link: https://arxiv.org/abs/2605.29097

  • 箱の中を透視する:レーダー信号からの非視認領域3D再構成 [cs.CV]目的:レーダー信号からの非視認領域3D再構成手法
    • 電波を用いた物体形状の復元は,高解像度化やノイズ処理が課題であり,重要な研究分野である。
    • 従来の非視認領域3D再構成は,最適化の不安定さや形状の曖昧さから,精度の高い復元が困難であった。
    • 本研究は,視認領域の幾何学情報を活用し,より安定かつ高精度な再構成を目指す。
    • 提案手法GeRaF 2.0は,視認領域と非視認領域を統合的に扱うことで,安定した学習を実現した。
    • 視認領域の情報を活用することで,物理的に整合性のある形状再構成を可能にした。
    • RFベースの幾何学復元において,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.29098

  • ソースドメインの教師あり学習とターゲットドメインの教師なし学習を用いたロバストなクロスドメイン汎化 [cs.HC, cs.CV]目的:異なるドメイン間の医療画像AIモデルの汎化性能向上
    • 医療画像AIは診断支援に不可欠だが,異なる機器や施設間での汎化が課題となっている。
    • 異なる環境で取得されたデータにはドメインシフトが存在し,AIモデルの性能が低下する。
    • ラベル付きターゲットデータが不足する状況下で,ドメインシフトの影響を軽減すること。
    • 提案手法は,ターゲットドメインの構造表現をラベルなしで学習し,ソースドメインの教師あり学習と組み合わせる。
    • 自信度を考慮した予測の統合により,ターゲットドメインにおけるDice係数が6%以上向上した。
    • 本研究は,ラベル効率が高く,プライバシーを保護しながら,異なる機器間でのロバストなAIを実現する。

    Link: https://arxiv.org/abs/2605.29122

  • ハッシュ確率ピラミッドを用いたオイラーガウススプラッティング [cs.PF, cs.AR, cs.DC, cs.CV, cs.LG]目的:確率に基づくスプラッティングによるラディアンスフィールドのフレームワーク
    • 3Dシーンの高品質な再構成は,VR/AR等の応用において不可欠である。
    • 既存手法では,手動調整されたパラメータに依存し,最適化が不安定になりやすい。
    • 損失関数の勾配に基づいて確率密度を最適化し,頑健な再構成を実現すること。
    • 提案手法は,3Dガウススプラッティングの高速性を維持しつつ,勾配ベースの最適化により再構成品質を向上させた。
    • メモリ効率の高い階層的グリッドと,分散を低減するバイアスなし勾配推定器を用いることで,安定した最適化を可能にした。
    • mip-NeRF 360において,最先端の再構成品質と3DGSと同等のレンダリング速度を両立した。

    Link: https://arxiv.org/abs/2605.29136

  • 離散型方策最適化のためのガイダンス対照的トークン信用配分 [cs.CV]目的:離散型方策最適化におけるトークンレベルの信用配分手法
    • 強化学習は,複雑な意思決定問題の解決に不可欠であり,その性能向上は重要な課題である。
    • 従来のグループ利点に基づく手法では,トークンごとの貢献度を捉えきれないという課題があった。
    • トークンレベルでの貢献度をより正確に評価し,学習信号を改善することを目的とする。
    • GCPOは,正と負のプロンプトの下でのモデル予測を対比することで,トークンレベルの信用配分を可能にする。
    • 実験の結果,GCPOはテキスト-画像生成において,テキストプロンプトに一致する視覚領域を強調することが示された。
    • GCPOは,テキスト-画像生成と推論ベンチマークの両方において,既存手法を上回り,汎用性と拡張性を示す。

    Link: https://arxiv.org/abs/2605.29198

  • MetaRanker:金属レンズ画像品質のための人間介入型アクティブランキング [cs.CV, cs.HC]目的:金属レンズ画像品質の評価手法
    • 光学モジュールの小型化が求められる中で,金属レンズは有望な技術である。
    • 金属レンズは色収差や視野依存性があるため,計算再構成が必要となる。
    • 人間の知覚に基づいた,より実用的な金属レンズの評価を目指す。
    • MetaRankerは,人間の認識能力に基づいた「意味的解釈可能性」を金属レンズ画像品質の指標として採用した。
    • 確率的嗜好モデルと不確実性に基づいたクエリ選択により,人間の判断を効率的に活用する。
    • 従来の画質評価指標との乖離が示され,MetaRankerがより人間知覚に即した評価手法となることが示唆された。

    Link: https://arxiv.org/abs/2605.29212

  • 心臓周囲の心外膜脂肪と縦隔脂肪の自動セグメンテーション:被験者間登録とランダムフォレストを用いたマルチベンダーアプローチ [cs.CV]目的:心外膜脂肪と縦隔脂肪の自動セグメンテーション手法
    • 心臓周囲の脂肪量は,頸動脈硬化や心房細動など,様々な健康リスク因子と関連性が示唆されている。
    • 全身の脂肪量とは異なり,心臓周囲の脂肪量評価の定量分析が重要であるが,手作業では時間と労力を要する。
    • 冠動脈カルシウムスコアリングの標準プロトコルで得られたCT画像から,心外膜脂肪と縦隔脂肪を完全に自動でセグメンテーションする手法を提案する。
    • 提案手法は,被験者間登録による画像調整,ピクセルおよびその周辺領域の特徴抽出,データマイニングに基づくセグメンテーションによって構成される。
    • 心外膜脂肪と縦隔脂肪の平均精度は98.4%,真陽性率は96.2%であった。
    • 平均ダイス類似性指数は96.8%であり,高いセグメンテーション性能が確認された。

    Link: https://arxiv.org/abs/2605.29217

  • SalsaAgent:インタラクティブなダンス生成のためのマルチモーダル具現化言語モデル [cs.CV]目的:人間とのインタラクティブなサルサダンス生成
    • ロボットやバーチャルエージェントの社会性を高めるには,双方向の非言語的な反応が不可欠である。
    • 既存の手法では,音楽やパートナーとの調和のとれた自然なダンスモーションの生成が難しい。
    • 言語モデルを用いて,人間とのインタラクションに基づいたリアルなサルサダンス生成を目指す。
    • SalsaAgentは,言語モデルがモーション,関係性,音楽を処理し,サルサダンスモーションを生成する。
    • モーションの質,音楽との調和,パートナーとの連携において,既存手法を上回る結果が得られた。
    • モーションのダイナミクスをテキストで記述し,トークン接地を行うことで,より自然な動きを実現した。

    Link: https://arxiv.org/abs/2605.29219

  • 運動誘導型疎な補正が,多様な顕微鏡条件下での高品質な点追跡を可能にする [cs.CV]目的:顕微鏡動画における非定型生物システムのダイナミクスの追跡
    • 生物学研究において,細胞や分子の動きを正確に捉えることは,生命現象の理解に不可欠である。
    • 従来の追跡手法は,専門家による注釈に依存しており,大規模なデータセットへの適用が困難である。
    • 本研究は,手動注釈の負担を軽減しつつ,高品質な点追跡を実現する新たな手法を提示する。
    • RIPPLEは,ユーザーが開始点をクリックするだけで,完全な軌跡を提案し,ずれが生じた箇所のみを修正する。
    • 5つの異なる顕微鏡データセットで評価した結果,RIPPLEは手動注釈と同等の品質を達成しつつ,クリック数を3倍から25倍削減した。
    • これにより,生物学的ダイナミクスの迅速な定量化や,自動追跡手法のベンチマーク,高品質な学習データの作成が可能になる。

    Link: https://arxiv.org/abs/2605.29220

  • 熱画像を用いた甲状腺結節解析へのアプローチ [cs.CV]目的:甲状腺結節の熱画像解析
    • 甲状腺癌は増加傾向にあり,早期発見が生存率向上に不可欠である。
    • 医師は短時間で大量の情報を分析する必要があり,負担が大きい。
    • 熱画像解析による甲状腺結節の早期発見を支援する。
    • 本研究では,甲状腺結節の熱画像解析のための画像取得プロトコルと自動登録法を提案した。
    • 画像データの特徴抽出,画像処理,および健康/非健康患者の分類アプローチを検討した。
    • 本研究は,大学病院における腫瘍検出のパイロットプロジェクトであり,予防医療への貢献を目指す。

    Link: https://arxiv.org/abs/2605.29221

  • 倫理的な顔年齢推定に向けて:子供のデータで学習しない汎化ゼロショットベンチマーク [cs.CV, cs.AI]目的:顔年齢推定における,子供のデータを使用しない汎化ゼロショットベンチマークの提案
    • 顔年齢推定は,セキュリティやマーケティングなど様々な分野で応用が期待される重要な技術である。
    • 既存の顔年齢推定は未成年者の画像データに依存しており,倫理的・法的・プライバシー上の問題が指摘されている。
    • 子供のデータを使用せずに,年齢層の変化に対応できるロバストなモデル開発を促進すること。
    • 提案されたベンチマークを用いて9つの最先端の年齢推定手法を評価した結果,全ての手法が未知の年齢層への汎化に失敗した。
    • 未知の年齢層に対する性能は,教師あり学習のベースラインと比較して平均46.4%,最大52.8%も低下した。
    • モデルは未知の年齢層の予測を,学習済みの近い年齢層に固定する傾向があり,これが汎化性能低下の要因となっている。

    Link: https://arxiv.org/abs/2605.29230

  • ChildVox:幼少期の音の理解と特徴づけのための音声,オーディオ,大規模オーディオ言語モデルベンチマーク [cs.SD]目的:幼少期の音を通じたコミュニケーションを特徴づけるためのベンチマーク
    • 子どもの発達段階に応じた音声の研究は,言語習得や発達障害の早期発見に不可欠である。
    • 既存のデータセットは,子どもの音声の発達段階を網羅的に評価するものが少ない。
    • 子どもの音声データを体系的に分析し,モデルの性能を評価するためのベンチマークを構築する。
    • ChildVoxは,生理的な音,非言語的な発声,正準音節,そして話し言葉を含む,子どもの音声データを網羅的にカバーしている。
    • 様々な音声モデルの評価を通して,ChildVoxは,子どもの言語レベルの特性評価や発音の成長追跡といった応用を支援する。
    • 既存の高性能モデルでも,多様な子どもの音響信号の認識には課題が残されていることが示された。

    Link: https://arxiv.org/abs/2605.29257

  • 深層心理視覚画像表現 [cs.CV]目的:深層心理視覚に基づいた画像表現の学習
    • 人間の視覚認知メカニズムの理解は,より高性能な画像処理技術の開発に不可欠である。
    • 従来の深層学習モデルは解釈性が低く,視覚認知のプロセスを必ずしも反映していない。
    • 心理視覚モデルに着想を得て,効率的かつ解釈可能な深層学習モデルを構築すること。
    • 提案手法は,周波数領域での学習表現を用いることで,人間の視覚システムに類似した抽象化を実現した。
    • 従来のCNNと比較して,より解釈性の高いオブジェクト部分を抽出できることが示された。
    • 深層学習モデルの深さに対する依存性を低減し,モデルのスケーリングを容易にすることが可能となった。

    Link: https://arxiv.org/abs/2605.29260

  • UniNote:マルチモーダル表現とランキングのための統一埋め込みモデル [cs.IR, cs.IR, cs.CV]目的:マルチモーダルコンテンツの表現とランキングのための統一埋め込みモデル
    • 現代のコンテンツプラットフォームにおいて,アイテム間の検索は重要な機能である。
    • マルチモーダル埋め込みは進歩したが,I2I検索において,大域的な表現と細粒度の検索のバランスが課題である。
    • 埋め込みとランキングの非効率性,精度と遅延のトレードオフを解決すること。
    • UniNoteは,多様なI2Iタスクにおいて最先端の性能を達成する。
    • 小紅書に導入された結果,大規模アプリケーションにおいて検索品質とコスト効率が大幅に向上した。
    • コントラスティブSFTと強化学習を用いた二段階の学習パラダイムが有効であることが示された。

    Link: https://arxiv.org/abs/2605.29287

  • マルチ信号事前情報とSAM2改良による乱流堅牢な動的物体セグメンテーション [cs.CG, cs.CV]目的:乱流環境下における動的物体セグメンテーション手法
    • 近年,監視カメラ等で得られる映像からの動的物体認識の重要性が高まっている。
    • 乱流環境下では,擬似的な動きやぼかしが生じ,正確な物体セグメンテーションが困難である。
    • 本研究は,乱流環境下でもロバストなセグメンテーションを実現することを目的とする。
    • 事前学習済みのモーション推定,セマンティック事前情報,背景異常モデリング等を組み合わせた推論パイプラインを提案した。
    • 提案手法は,CVPR 2026 UG2+ Challenge Track 3において,mIoU 0.425041,mDice 0.457206を達成した。
    • タスク固有のモデル学習や微調整は行っていないため,更なる改善の余地があると考えられる。

    Link: https://arxiv.org/abs/2605.29292

  • Pocket-Dentist:効率的なマルチモーダル大規模言語モデルによるオンデバイス歯科画像理解 [cs.RO, cs.CV, cs.AI]目的:歯科画像理解のための効率的なマルチモーダル大規模言語モデルの性能評価
    • 歯科医療における画像診断は,疾患の早期発見や治療計画の策定に不可欠である。
    • 既存の歯科画像・言語モデルの評価は断片的であり,計算コストが実用上の課題となっていた。
    • 省電力かつ迅速な推論が可能な歯科画像理解モデルの開発を目指す。
    • コンパクトな大規模言語モデル(20億パラメータ)が,より大規模なモデルよりも高い精度で歯科画像理解を実現した。
    • iPhone 17 Pro上で動作するPocket-Dentist-2Bは,70億パラメータのベースラインと比較して,処理時間を4.9倍,メモリ使用量を2.3倍削減した。
    • 本研究は,専門医のいない場所でも,プライバシーを保護しつつ,迅速な歯科スクリーニングを可能にする可能性を示した。

    Link: https://arxiv.org/abs/2605.29299

  • MusTBENCH:音楽LLMにおける時間的根拠付けのベンチマークと進歩 [cs.CL, cs.AI, cs.SD]目的:音楽LLMの時間的根拠付けの評価と改善
    • 音楽理解において,重要な情報は時間的に局在したイベントとして現れることが多い。
    • 既存の音楽LLMは,時間的な根拠付けがどの程度正確か十分に検証されていない。
    • 音楽LLMの時間的根拠付け能力を評価し,その改善を目指す。
    • 既存の音楽LLMは,正確な時間的根拠付けに苦戦していることが示された。
    • 提案手法MusTは,強力なベースラインと比較して,時間的根拠付けの性能を大幅に向上させた。
    • 本研究は,時間的根拠付けを音楽LLMの重要な課題として確立し,MusTBENCHを新たなベンチマークとして提示した。

    Link: https://arxiv.org/abs/2605.29300

  • ViASNet:動的な注目度と視聴者の関与を予測する動画広告注目度ネットワーク [cs.RO, cs.CV]目的:動画広告における動的な注目度予測
    • デジタルメディアにおいて短尺動画広告が普及しており,その効果測定が重要である。
    • 動画広告の注目度は時間とともに変化するため,静的な分析では不十分である。
    • 視聴者の視線予測に基づき,広告デザインの最適化と効果的なコンテンツ制作を目指す。
    • 提案手法ViASNetは,3D U-Netを基盤とし,音声と意味情報を考慮することで高い予測精度を実現した。
    • 予測された注目度マップのエントロピーを分析することで,視聴者の関与が低い広告やシーンを特定することが可能となった。
    • ViASNetのような深層学習モデルを活用することで,広告デザインとテストの効率化に貢献できることが示唆された。

    Link: https://arxiv.org/abs/2605.29302

  • CapTalk:テキストによるスタイル化と音声駆動3Dヘッドアニメーション [cs.CL, cs.CV]目的:テキストによるスタイルと感情の制御を可能にする3Dヘッドアニメーション生成手法
    • 音声駆動型3D顔面アニメーションは,リアルな表現を実現する上で重要である。
    • 既存手法では,スタイルの自由な制御が難しく,感情の変化に対応できない場合がある。
    • テキストによるスタイルと感情の指定により,より自然で多様なアニメーションを生成する。
    • 本研究では,スタイルと感情を分離して制御可能な新しいフレームワークを提案した。
    • テキストによるスタイル指定と音声入力により,リアルタイムで高精度なアニメーションを生成可能である。
    • 感情の動的な制御にも対応し,発話中の感情変化に適応した表現を実現した。

    Link: https://arxiv.org/abs/2605.29316

  • FreeForm: 粒子ベーススキニング固有モードに基づく低次元変形シミュレーション [cs.CL, cs.GR, cs.CV]目的:変形可能な超弾性物体の低次元シミュレーション手法
    • 現実的な変形シミュレーションは,ロボティクスや視覚効果など幅広い分野で重要である。
    • 複雑な形状のメッシュ作成や,ニューラルフィールドの形状ごとの最適化に課題があった。
    • 粒子ベース表現を用いて,高速かつ高精度な低次元変形シミュレーションを実現する。
    • 提案手法は,ニューラルフィールドの形状ごとの最適化と比較して,学習速度を40倍向上させる。
    • 有限要素法による収束結果と比較して,シミュレーション誤差を低減することに成功した。
    • メッシュやガウススプラットなど,様々な表現形式のオブジェクトに対してシミュレーション結果が得られた。

    Link: https://arxiv.org/abs/2605.29318

  • STAMP:制御可能かつ拡張性のある仮想環境におけるモバイルGUIエージェントのための明示的メモリの訓練 [cs.CL, cs.IR, cs.CL, cs.CV]目的:モバイルGUIエージェントにおける明示的メモリの訓練
    • モバイルGUIエージェントは実用性が高いが,長期的なタスク遂行にはメモリが不可欠である。
    • 限られたコンテキストウィンドウとトークン量の多いスクリーンショットがメモリ利用のボトルネックとなっている。
    • 明示的なメモリ訓練を通じて,エージェントの長期タスク遂行能力とメモリ精度を向上させる。
    • STAMPフレームワークは,制御可能な仮想環境で明示的メモリを訓練することにより,大規模な検証可能な教師ありデータを生成する。
    • Stamp-GUIエージェントは,GUIに特化したモデルの中で最先端の性能を達成し,Memory-Worldベンチマークで新たな最高記録を樹立した。
    • 高いメモリ精度とタスクへの耐性,そして優れた汎用的なモバイルナビゲーション能力を両立している。

    Link: https://arxiv.org/abs/2605.29324

  • ゼロショット交通事故理解のための多段階VLMパイプライン [cs.CV]目的:交通事故の発生時刻,衝撃中心,衝突タイプ予測
    • 自動運転技術の発展には,事故状況の正確な理解が不可欠である。
    • 既存手法では,未学習の事故映像に対する汎化性能が課題である。
    • ゼロショット学習による事故理解の精度向上を目指す。
    • Qwen3-VL-32B-Instructと235B Mixture-of-Expertsモデルを組み合わせた多段階パイプラインを構築した。
    • Public LB 0.55469,Private LB 0.57080を達成し,既存のベースライン(Molmo-7B, 0.358)を大幅に上回った。
    • 衝撃中心の正確な位置特定のために,車両検出結果との整合性を高めた。

    Link: https://arxiv.org/abs/2605.29325

  • EarthShift:地球観測における現実世界の分布シフトへの頑健性を測定するためのベンチマーク [cs.CV]目的:地球観測モデルの分布外汎化性能の評価
    • 地球観測は,環境変化の監視や資源管理に不可欠であり,その精度向上は重要である。
    • 既存のベンチマークは,分布内での性能評価に偏っており,現実世界の多様なシフトへの対応が課題である。
    • 現実世界の分布シフトに対するモデルの頑健性を評価し,改善の方向性を示すことを目指す。
    • EarthShiftは,異なるデータソース,時間,場所,センサーからのデータセットを用いて分布外性能を測定する。
    • 8つの地球空間基礎モデル(GFM)の実験結果から,GFMは平均して分布外で15-20%性能が低下することが示された。
    • GFMの頑健性は汎用的な画像モデルと同程度であり,分布外性能の向上が必要であることが示唆された。

    Link: https://arxiv.org/abs/2605.29330

  • 参照データセットの幾何学を通じたFIDの再考 [cs.CV, cs.AI]目的:画像生成器の評価指標としてのFIDの不一致に関する考察
    • 画像生成技術の発展に伴い,生成画像の品質評価が重要になっている
    • FIDは広く利用されているが,必ずしも生成品質と一致しないという問題がある
    • 参照データセットの幾何学構造がFIDに与える影響を解明し,より信頼性の高いベンチマーク手法を提案する
    • FIDスコアの変化は,参照データセットの分布密度と有効ランクによって大きく左右されることが示された
    • データセットが集中しているほどFIDは改善傾向にある一方,分散している場合はFIDが悪化する可能性がある
    • FIDのような分布指標は,参照データセットの幾何学構造と合わせて解釈されるべきである

    Link: https://arxiv.org/abs/2605.29335

  • DMC-CF:因果推論のための動的マルチモーダル反事実QAベンチマーク [cs.CL, cs.CV]目的:マルチモーダル因果反事実QAベンチマークの構築
    • マルチモーダル大規模言語モデルの発展に伴い,その能力向上は重要である。
    • 既存のデータセットは規模が小さく,現実離れしたデータに依存している。
    • 現実世界の動画を用いた大規模ベンチマークによる評価を目指す。
    • DMC-CFは,静的評価と動的評価の両方を含む大規模ベンチマークである。
    • DGIフレームワークを用いることで,データ汚染の問題を軽減した動的評価が可能となった。
    • 現状のマルチモーダル大規模言語モデルは,現実世界の因果推論能力において改善の余地が大きい。

    Link: https://arxiv.org/abs/2605.29339

  • WorldMemArena:行動世界インタラクションを通じたマルチモーダルエージェントメモリの評価 [cs.CL, cs.CV, cs.CL]目的:マルチモーダルエージェントメモリの評価
    • 大規模言語モデルが長期的なエージェントとして活用される場面が増加しており,メモリの重要性が高まっている。
    • 既存の評価方法は静的な対話に焦点を当てており,メモリの書き込み,維持,検索,利用における失敗原因の特定が困難である。
    • エージェントメモリのライフサイクルを定義し,既存の手法と自己管理型手法を比較可能な形で評価する。
    • 従来のメモリの書き込み・保存能力向上だけでは性能向上が保証されないことが示された。
    • マルチモーダルメモリは,視覚的証拠を十分に活用できていないという課題が残る。
    • ドメインを跨いでの安定性や,現実的なエージェントの軌跡における性能劣化が課題として浮上した。

    Link: https://arxiv.org/abs/2605.29341

  • ディープフェイク鑑識AI:マルチモーダル検出とブロックチェーンに基づく証拠管理プラットフォーム [cs.CR, cs.CV]目的:AI生成メディアの検知と,改ざん防止可能な証拠の管理
    • デジタル証拠の信頼性確保は,法的手続きや捜査において極めて重要である。
    • 既存のディープフェイク検知システムは単一のモダリティに限定され,証拠の保全機能が不十分である。
    • 本研究は,複数のモダリティに対応し,ブロックチェーンで証拠を確実に管理するシステムを構築することを目指す。
    • 画像,動画,音声の各モダリティにおいて高い検知精度(AUC=0.9868, 0.9628, EER=18.63%)を達成した。
    • 生成モデルのフィンガープリントを特定するモジュールは99.88%の精度を示した。
    • SHA-256ハッシュ,IPFS,Solidityスマートコントラクトによる,改ざん不可能な証拠管理システムを構築した。

    Link: https://arxiv.org/abs/2605.29353

  • TRACER:ロバストなマルチモーダルファインチューニングのための持続的な正則化 [cs.LG, cs.AI, cs.CV]目的:マルチモーダルモデルのロバスト性向上に焦点を当てた正則化手法の開発
    • 事前学習済みモデルの活用は,様々なタスクで高い性能を発揮するが,汎化性能の維持が課題である。
    • ファインチューニングによる性能向上は,分布外データに対する頑健性を損なう「破滅的忘却」を引き起こしやすい。
    • 標準的なEMA教師の崩壊問題を解決し,安定した正則化を可能とするWMA教師の有効性を示す。
    • 本研究では,マルチモーダルコントラスティブファインチューニングの理論的枠組みを構築し,各戦略の幾何学的分解を明らかにした。
    • 提案手法TRACERは,コントラスティブ学習とWMAによる多視点蒸留を組み合わせることで,CLIPファインチューニングにおいて一貫したOOD精度とキャリブレーションの向上を実現した。
    • 実験結果から,TRACERが原理的であり,ハイパーパラメータ選択に頑健であることが確認された。

    Link: https://arxiv.org/abs/2605.29380

  • テキストから画像生成における注意特徴空間での直交負の誘導 [cs.CE, cs.CV]目的:テキストから画像生成における指定されたオブジェクトまたは属性の明示的な不在の強制
    • 画像生成技術は進化しているが,特定の要素の完全な除去は依然として課題である。
    • 既存手法では,不要な概念の抑制が不十分で,画像品質の低下を招く場合がある。
    • 注意特徴空間での直交負の誘導により,概念抑制と画像品質の両立を目指す。
    • 提案手法は,MM-DiTベースのT2Iトランスフォーマーにおいて,正のプロンプト特徴量に対して負のプロンプト特徴量を直交化する。
    • FLUX-devおよびFLUX-schnellでの実験により,概念抑制,プロンプト整合性,画像品質のバランスが良いことが示された。
    • 人間による評価では,最良のベースラインと比較して18.78%の性能向上を達成した。

    Link: https://arxiv.org/abs/2605.29390

  • 効率的な長編ビデオ推論のための意味的・視覚的証拠:HD-EPIC VQA チャレンジへの解決策 [cs.CV, cs.AI]目的:長編ビデオ推論における意味的証拠と視覚的証拠の活用
    • マルチモーダル大規模言語モデルの性能向上には,長時間のビデオ理解が不可欠である。
    • 既存モデルは,文脈長の制限や視覚的詳細の認識不足により,長編ビデオの理解が困難である。
    • 意味的・視覚的証拠を構造化し,統合することで長編ビデオ理解の精度向上を目指す。
    • 本手法は,HD-EPIC-VQA チャレンジにおいて,複数のタスクカテゴリで競争力のある性能を達成した。
    • 意味的証拠と視覚的証拠を分離し,動的に情報を選択・統合するフレームワークが有効であることが示された。
    • マルチモーダル大規模言語モデルによる長編ビデオ理解には,明示的な証拠構造化が重要である。

    Link: https://arxiv.org/abs/2605.29402

  • 3DVLA:3D空間とインスタンス理解によるビジョン-言語-行動モデルの強化 [cs.RO, cs.CV]目的:ロボット操作におけるビジョン-言語-行動モデルの性能向上
    • ロボットの自律的な行動を実現するには,周囲環境を正確に理解することが不可欠である。
    • 既存のビジョン-言語-行動モデルは,3次元空間の理解が不十分であり,その性能を制限している。
    • 3DVLAは,追加のアノテーションなしに,既存のモデルに3D推論能力を組み込むことで,この問題を解決する。
    • 3DVLAは,マルチビューの一貫性制約と空間条件付きジオメトリ集約を用いることで,3次元空間位置の抽出を強化する。
    • インスタンス推定モジュールとマスクされた自己教師あり学習により,3次元インスタンス認識とオクルージョンへの対応力を向上させる。
    • LIBERO-PlusとRoboTwin 2.0での評価により,操作性能が大幅に向上し,3DVLAの有効性とプラグアンドプレイ互換性が確認された。

    Link: https://arxiv.org/abs/2605.29416

  • ParCo-SDF: 変形物体の部分から全体への符号付き距離関数学習 [cs.CV]目的:変形物体の部分データからの完全な形状再構成
    • ロボットの正確な物体操作には,物体の形状を正確に把握することが不可欠である。
    • 既存手法は,特定の物体の形状に関する事前知識に依存しており,汎化性能が低い。
    • 事前知識なしで,変形物体の形状を安定的に再構成することを目指す。
    • 提案手法ParCo-SDFは,時間的な形状エンコーディングとFiLM条件付きSDF予測の二段階構成を採用する。
    • 時間的エンコーダーは,変形物体のシーケンス間の構造的類似性を捉え,安定した学習を可能にする。
    • 実験結果から,ParCo-SDFは,ゴムバンド操作データセットにおいて,高精度かつロバストな再構成性能を示すことが確認された。

    Link: https://arxiv.org/abs/2605.29417

  • 細胞タイプあたり1クリックで十分:細胞インスタンスセグメンテーションのためのトレーニング不要グループインタラクション [cs.CL, cs.CV]目的:細胞インスタンスセグメンテーションにおける,細胞タイプごとのインタラクティブなアプローチ
    • 病理組織画像解析において,細胞の正確な識別とセグメンテーションは診断精度向上に不可欠である。
    • 既存モデルは,特定の細胞タイプに特化し,未知の細胞タイプへの汎化性能が低いという課題がある。
    • 本研究は,細胞タイプごとのインタラクションにより,トレーニング不要で汎化性能の高いセグメンテーションを実現する。
    • 提案手法「グループプロンプティング」は,細胞インスタンスごとの操作から細胞タイプごとの操作に転換し,コストを大幅に削減する。
    • SAMの凍結された画像エンコーダが,プロンプトなしで同じタイプの細胞を特徴空間上でクラスタリングすることに着目した。
    • 3つの細胞タイプ注釈付きベンチマークで,タイプあたり1クリックで90%以上の性能を維持し,教師あり学習法を上回る結果が得られた。

    Link: https://arxiv.org/abs/2605.29429

  • ポリシー誘導エラーからの回復:堅牢なGUIエージェントのためのベンチマークと軌道合成 [cs.CV, cs.CL]目的:GUIエージェントの堅牢性向上
    • GUI自動化は効率化に貢献するが,実用化には課題が多い
    • GUIエージェントは自己エラーからの回復能力が低い
    • エラー回復能力の評価とデータ生成を同時に改善する
    • GUI-RobustEvalは,多様なエラーモードを網羅した$1,216$件のテストケースを含む。
    • RoTSは,エラーモードを探索し回復ステップを合成するスケーラブルなデータ生成フレームワークである。
    • RoTS-32BはOSWorldで最先端の性能を達成し,エラー回復能力が全体的な性能向上に貢献することを示唆する。

    Link: https://arxiv.org/abs/2605.29447

  • データセットの価値はどの程度か?スケーリング則,Vendiスコア,および行列スペクトル関数 [cs.LG, cs.AI, cs.CV, cs.IT, math.IT]目的:データセットの価値評価
    • 機械学習の性能向上には,良質な学習データが不可欠であり,データセットの価値を定量的に評価する手法が求められている。
    • 既存手法では,データセットの価値を正確に予測することが難しく,効率的なデータ選択が困難である。
    • データセットの価値をより正確に評価し,効率的なデータ選択を可能にする新たな手法を提案する。
    • Vendiスコアや一般的なニューラルスケーリング則の目的関数は,劣モジュール性を持つことが示された。
    • Vendiスコアは,より広範な行列スペクトル関数の特殊なケースであり,弱行列単調関数を用いることで,実用的なデータ評価の目的関数が導出された。
    • 高速な最適化手法の開発により,ImageNet-1K規模のデータセットに対してもVendiスコアの直接最適化が可能になり,様々な目的関数を用いて評価を行った結果,施設配置法が最も優れた性能を示した。

    Link: https://arxiv.org/abs/2605.29448

  • 道路表面粗さ解析のためのフォトグラメトリ再構成手法と3Dガウススプラッティングの比較評価 [cs.CV]目的:道路表面粗さの推定
    • 道路インフラの維持管理において,路面状態の正確な把握は不可欠である。
    • 従来のセンサーを用いた評価は高コストであり,広範囲のモニタリングが困難である。
    • 低コストな画像ベースの再構成手法を用いて,路面粗さの効率的な評価を目指す。
    • COLMAPは微細なテクスチャの検出に優れ,Meshroomは適度な粗さ変動でバランスの取れた再構成を実現した。
    • Metashapeは内部フィルタにより滑らかな形状を生成し,3DGSは視覚的な不規則性を捉えるもののノイズが多い。
    • オープンソースパイプラインは相対的な粗さ評価に有効であり,低コストな舗装モニタリングに貢献する。

    Link: https://arxiv.org/abs/2605.29452

  • Uni-RCM:多クラス異常検知のための統一的参照ガイド付きクロスモーダルマッピング [cs.CV, eess.SP]目的:多クラス異常検知における統一的パラダイムの実現
    • 産業界における品質管理の自動化が求められており,異常検知技術の重要性が高まっている。
    • 従来の多モーダル異常検知は製品カテゴリごとにモデルが必要で,スケーラビリティに課題がある。
    • 異なるクラス間の干渉や特徴量の多様性による精度低下を克服し,汎用的な異常検知を実現する。
    • 提案手法Uni-RCMは,学習可能な参照特徴を用いることで,カテゴリ固有のノイズを動的に除去する。
    • オフライン残差量子化器により,正常分布を複数のカスケードされたコードブックで特徴づける。
    • MVTec-3D ADデータセットを用いた評価で,画像レベルおよびピクセルレベルでの最先端性能を示した。

    Link: https://arxiv.org/abs/2605.29455

  • FedSmoothLoRA:連合学習における低ランク適応のよりスムーズで高速な収束に向けて [cs.CV]目的:連合学習における低ランク適応(LoRA)の収束性向上
    • 近年,大規模基盤モデルの連合学習が注目されており,データプライバシーを保護しながら効率的な学習が求められている。
    • LoRAを用いた連合学習では,更新空間の制限,ラウンド間での状態の不一致,クライアント固有の初期状態の欠如が課題となっていた。
    • FedSmoothLoRAは,これらの課題を解決し,よりスムーズで高速な収束を実現することを目的としている。
    • FedSmoothLoRAは,ラウンドマッチング行列と勾配整合行列を用いて,ラウンド間の状態連続性を保ち,クライアント固有の最適化ガイダンスを提供する。
    • 提案手法は,既存の連合LoRAチューニング手法と比較して,画像分類および自然言語生成タスクにおいて,一貫して優れた性能を示す。
    • 実験結果から,FedSmoothLoRAが更新空間を拡大し,クロスラウンドの局所最適化の連続性を改善し,クライアントを意識した初期状態を提供することが示された。

    Link: https://arxiv.org/abs/2605.29460

  • FlowSeg:LLM条件付きセグメンテーションのための動的意味的ガイダンス [cs.CV]目的:LLM条件付きセグメンテーションにおける言語とマスクのずれの改善
    • 画像と自然言語を結びつける研究は,画像認識の精度向上や人間とのインタラクションを円滑にする上で重要である。
    • 既存手法では,言語情報を静的なプロンプトや後処理として扱うため,セグメンテーションの精度が言語条件に一致しない場合がある。
    • 中間段階で言語情報を活用し,マスクの改善を促すことで,言語とマスクの整合性を高めることを目指す。
    • FlowSegは,中間デコーディング状態とLLM由来の条件埋め込み間の双方向意味フローを導入することで,動的な意味的ガイダンスを実現した。
    • 言語条件が各段階でマスクの改良を積極的に誘導し,条件埋め込みは出現する視覚的証拠によって徐々に更新される。
    • 参照表現セグメンテーションおよび推論セグメンテーションタスクにおいて,FlowSegは言語とマスクの整合性を一貫して向上させ,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2605.29461

  • CFMMEベンチマーク:中国金融マルチモーダル評価データセットによる大規模視覚言語モデルの性能評価 [cs.CV, cs.AI]目的:大規模視覚言語モデルの中国金融分野における認識,理解,推論,認知能力の包括的評価
    • 近年,画像とテキストの両方を処理できる大規模言語モデルが進化し,金融を含む様々な分野での応用が期待される。
    • 既存の評価データセットでは,中国金融分野に特化したマルチモーダルな評価が不十分である。
    • 中国金融分野におけるマルチモーダルタスクの性能向上を目指し,モデル開発を促進する。
    • CFMMEベンチマークを用いて代表的な大規模視覚言語モデルを評価した結果,全体的な正答率は66.11%であった。
    • 検出,認識,情報抽出タスクの平均スコアは77.18であり,現状のモデルには改善の余地があることが示唆された。
    • エラー原因,クロスモーダル能力,多角的設定に関する詳細な分析から,今後の研究への示唆を得られた。

    Link: https://arxiv.org/abs/2605.29462