arXiv雑要約

画像・音声 - 2026/06/05 公開

  • 部分モジュール評価における同時EF1および近似MMS割り当て [cs.GT]目的:部分モジュール評価に対する同時EF1および近似MMS割り当ての設計
    • 公平な資源配分は,社会全体の効率性と個人の満足度を高める上で重要である。
    • 従来の公平性基準では,share-basedとcomparison-basedの間でトレードオフが存在する。
    • 両方の公平性基準を同時に満たす割り当て手法を開発し,資源配分の改善を目指す。
    • 本研究では,部分モジュール評価を持つエージェントに対して,定数$\rho$で$\rho$-MMSとEF1(さらにEFL)を同時に満たす割り当てを設計した。
    • この結果は,以前は加法的な評価を持つエージェントに対してのみ知られていた。
    • より一般的な部分モジュール評価においても同様の結果が得られることを証明した。

    Link: https://arxiv.org/abs/2606.06451

  • 文脈内多インスタンス学習 [cs.LG, cs.AI, cs.CV]目的:多インスタンス学習における新しいタスクへの適応
    • 病理計算や衛星画像など,幅広い分野で応用されており,重要性が高い。
    • ラベル数が少ない状況下では,既存のアルゴリズムは性能が低下する。
    • 合成データを用いた事前学習により,少ないラベルでもタスクに適応する。
    • Perceiverアーキテクチャを用いた文脈内学習器を合成データで事前学習することで,少数のラベル付きバッグから新しいタスクを解決できる。
    • 推論時には,勾配更新なしで1回のフォワードパスで分類が可能である。
    • 複数の合成データ生成器を組み合わせることで,タスクごとの強みを活かし,12のMILベンチマークで最良の性能を達成した。

    Link: https://arxiv.org/abs/2606.06458

  • 想像力による思考:ワールドシミュレーターを用いた能動的な視覚空間推論 [cs.CV]目的:視覚空間推論における想像力の活用
    • 視覚と言語を組み合わせたモデルの発展は,画像理解の可能性を広げている。
    • 既存モデルは,観察された情報に依存し,隠れたレイアウトの推論や視点変更が困難である。
    • ワールドシミュレーターとの相互作用により,想像力に基づいた推論能力の向上を目指す。
    • 提案手法Astraは,ワールドシミュレーターとVLMを連携させ,視覚的な想像力を付与する。
    • シミュレーターの出力の信頼性を高めるため,視点一貫性を重視した学習を行う。
    • 実験の結果,AstraがMMSI-BenchおよびMindCubeにおいて性能向上を示し,想像力が空間推論に有効であることが示された。

    Link: https://arxiv.org/abs/2606.06476

  • 複雑度バランス拡散分割 [cs.CV]目的:拡散モデルにおける時間的容量配分
    • 生成モデルの性能向上は重要だが,計算コストも課題となる。
    • 生成過程全体に均一なモデルを適用すると,効率が悪くなる。
    • 局所的な複雑度に応じて容量を配分し,効率的な生成を目指す。
    • 複雑度バランス分割(CBS)は,生成過程を複数のサブネットワークに分割する。
    • フローのディリクレエネルギーとサンプリング軌道の加速に基づいて複雑度を測定する。
    • SiT-XLにおいて,CFGを用いたFIDスコアを約35%改善する。

    Link: https://arxiv.org/abs/2606.06477

  • 部分観測n人ゲームのための深層ナッシュQネットワーク [cs.GT, cs.LG]目的:複数プレイヤーの同時入札における均衡戦略の学習
    • 現実の競争システムでは,限られた情報下での同時行動が重要であり,その分析が求められている。
    • 大規模なプレイヤー数では,均衡戦略の計算コストが課題となる。
    • 計算コストを削減しつつ,複数プレイヤーの競争環境における均衡戦略を学習すること。
    • 提案手法DNQは,軌跡収集,報酬推定,均衡計算,方策模倣を繰り返すことで,エージェントの学習を促進する。
    • ペアワイズな定式化は,計算コストを削減し,スケーラビリティを向上させる。
    • 実験結果から,ペアワイズ手法は大規模なプレイヤー数に対応できる一方,完全な定式化は計算量が大きくなることが示された。

    Link: https://arxiv.org/abs/2606.06480

  • PAR3D:部分構造を意識した表現によるシーン理解のための統合3D-MLLM [cs.CV]目的:3Dシーンにおける物体と部分構造の理解,推論,そして位置づけ
    • 3Dシーンの理解は,ロボティクスや拡張現実など,多くの応用分野において重要である。
    • 既存の3D-MLLMは物体中心であり,3D環境における具現化されたインタラクションに不可欠な詳細な部分構造のモデリングが困難である。
    • 部分構造を意識した表現を通して,3Dシーン理解の精度を向上させることを目指す。
    • 本研究では,部分構造を意識した統合3D-MLLMフレームワーク「PAR3D」を提案する。
    • 新たに,部分レベルのアノテーションと言語指示を含む合成3Dシーンデータセット「ScenePart」を導入した。
    • 実験により,本手法が部分レベルの質問応答と参照セグメンテーションを大幅に改善し,物体レベルのタスクでも優れた性能を発揮することが示された。

    Link: https://arxiv.org/abs/2606.06485

  • 反復ゲームにおける適応的対戦相手に対する後悔最小化 [cs.LG, cs.AI, cs.GT]目的:反復ゲームにおける後悔最小化
    • ゲーム理論は,経済学,政治学,生物学など,様々な分野で戦略的意思決定を分析するための基盤となる。
    • 従来のオンライン学習の枠組みでは,対戦相手の適応性を十分に捉えきれない場合がある。
    • 対戦相手の行動履歴に応じた適応性を考慮した,より適切な後悔指標を定義すること。
    • 本研究では,対戦相手の行動履歴への応答を考慮した新しい後悔指標「反復ポリシー後悔(RP-Regret)」を導入した。
    • RP-Regretを最小化するための3つのアルゴリズムを提案し,非凸な戦略空間における最適化に挑んだ。
    • シミュレーション実験により,RP-Regretの最小化が,より協調的な解決策と高い有用性につながることが示された。

    Link: https://arxiv.org/abs/2606.06486

  • 指示の曖昧性解消:多段階対話による解決 [cs.RO, cs.CV]目的:指示の曖昧性解消と,それに基づく行動生成
    • 人間と協調する具現化されたエージェントの実現には,コミュニケーション能力が不可欠である。
    • 従来のVLAベースエージェントは一方通行であり,曖昧な指示への対応が困難である。
    • 曖昧な指示を質問で明確化し,人間との協調的な行動を可能にすることを目指す。
    • 提案手法は,多段階対話を通じて指示の曖昧性を解消するフレームワークである。
    • VLMによる協調と,diffusionモデルによる行動生成を組み合わせることで,高い性能を実現した。
    • 8つの現実世界のタスクにおいて,既存の最先端VLAを上回る結果が得られた。

    Link: https://arxiv.org/abs/2509.15061

  • 機能からシーンへ:機能仕様からの3D屋内シーンレイアウト [cs.CV, cs.GR]目的:機能仕様に基づく3D屋内シーンレイアウトの生成
    • 室内デザインにおいて,空間の利用目的や人の活動を考慮したレイアウトが重要である。
    • 既存手法は,家具配置に重点を置き,空間利用者のニーズに基づいたレイアウトが困難である。
    • 利用者の活動やニーズを考慮した,機能的な屋内レイアウトの自動生成を目指す。
    • 本研究は,空間利用者のペルソナと活動を解析し,17の基準に基づく機能的制約を導出する。
    • これらの制約を用いて,幾何学的測定,LLM,VLMを活用した反復評価と修正を行うことでレイアウトを生成する。
    • 専門家が作成した30ケースの評価で,Function2Sceneは既存手法よりも機能要件を満たすレイアウトを生成した。

    Link: https://arxiv.org/abs/2605.30819

  • Oklch+: 知覚的色差予測の改善のためのOklabの3パラメータ拡張 [eess.IV, cs.CV, cs.GR]目的:知覚に基づいた色空間における色差予測の精度向上
    • 色彩管理やデザインにおいて,人間の視覚特性に合致した色空間の利用が重要である。
    • 既存のOklab/Oklchは有用だが,CIEDE2000と比較して色差予測の精度が不足している。
    • Oklabの拡張により,より正確な色差予測と知覚的な均一性を実現することを目指す。
    • 提案手法Oklch+は,COMBVDデータセットにおいてCIEDE2000に匹敵する色差予測精度(STRESS=29.09)を達成した。
    • Oklch+は,わずか3パラメータでCIEDE2000(約17パラメータ)と同等の性能を示す。汎化性能も確認された。
    • Oklch+はOklabと比較して大幅に性能が向上し,線形補間における知覚的均一性も改善される。

    Link: https://arxiv.org/abs/2606.05255

  • 承認投票ゲームにおける権力集中度の測定 [econ.TH, cs.GT]目的:承認投票ゲームにおける権力集中度を測る関数
    • 政治的意思決定において,投票権力の評価は公平性の確保に不可欠である。
    • 既存の権力指数は指標によって数値が異なり,二種類のプレイヤーに分かれた状況でのみ意味を持つ。
    • プレイヤー間の権力配分の不均衡さを表す単一の値を提供する尺度を開発すること。
    • 本研究で提案する尺度は,Deegan-Packel権力指数の二乗和に比例する。
    • この尺度は,最小勝利連立の重複度合いとしても解釈できる。
    • 国連安全保障理事会への応用も示され,権力集中度の分析が可能となった。

    Link: https://arxiv.org/abs/2606.05655

  • M2S-AVSR:ロバストな音声・視覚音声認識のためのモダリティ認識マルチビュー自己教師あり表現 [eess.AS, cs.SD]目的:ロバストな音声・視覚音声認識のためのモダリティ認識マルチビュー自己教師あり表現の確立
    • 音声認識の精度向上は,人間と機械の自然なコミュニケーション実現に不可欠である。
    • 現実環境では,視点変化,音声歪み,視覚的遮蔽により認識性能が低下する。
    • 視覚情報の活用とモダリティ間の不整合に対処し,ロバスト性を高めることを目指す。
    • 提案手法M2S-AVSRは,視点変化や視覚劣化条件下でLRS3において最達29.4%の性能向上を達成した。
    • MISP2021-AVSRテストセットにおいても,最先端の性能を達成した。
    • 新たに公開したデータセットAISHELL8-RealSceneにおいて,屋外環境下で最高の結果を得た。

    Link: https://arxiv.org/abs/2606.05763

  • 実現可能なメタサーフェス吸波体の逆設計:改良された条件付けと多様性強化された漸進的成長GANの利用 [physics.soc-ph, cs.SY, eess.SY, physics.optics, cs.CV]目的:ターゲットとする電磁波応答を持つメタサーフェスの逆設計
    • メタサーフェスは,ビーム操向,センシング,ステルス技術などに応用される電磁波の精密な操作を可能にする。
    • 反復的な波動シミュレーションによる最適化の計算コストや,既存の生成アプローチの条件付けの忠実度と多様性の限界が課題である。
    • 連続的なスペクトル制約下で制御可能かつ物理的に整合性の取れたメタサーフェスの合成を目指す。
    • 提案手法は,Wasserstein生成敵対ネットワークと特徴線形変調に基づく条件付けを組み合わせ,安定した学習を実現した。
    • スペクトルアラインメント損失を導入することで,物理制約に基づいた生成を訓練中に実現し,電磁波の一貫性を組み込んだ。
    • 決定論的点過程に基づく多様性正則化戦略により,同一のターゲット応答に対して幾何学的に多様でありながらスペクトル的に整合性のとれた実現を生成した。

    Link: https://arxiv.org/abs/2606.05849

  • USAD 2.0:汎用オーディオ理解のための表現蒸留のスケール拡大 [q-bio.GN, cs.PF, eess.AS, cs.CL, cs.SD]目的:汎用オーディオエンコーダの開発
    • 大規模言語モデルの発展に伴い,多様な音声入力に対応できる汎用的なエンコーダが重要になっている。
    • 既存の汎用エンコーダは,対応範囲や評価が限定的であり,性能向上の余地がある。
    • 自己教師あり学習と教師あり学習の知識を統合し,大規模化することで,より高性能な汎用エンコーダを実現する。
    • USAD 2.0は,自己教師あり学習と教師あり学習を組み合わせた知識蒸留により,教師間の不一致を解消している。
    • 音楽ドメインへの対応範囲を拡大し,さらに教師あり学習による蒸留を二段階で行うことで,下流タスクでの性能を向上させている。
    • 実験の結果,USAD 2.0は様々な評価において,最先端の性能を達成している。

    Link: https://arxiv.org/abs/2606.06444

  • 言語モデルは聞くことを学べるか? [cs.CV]目的:対話における聞き手の適切な表情生成
    • 人間は言葉だけでなく,表情も読み取りコミュニケーションを行うため,自然な対話システム構築に不可欠。
    • 既存手法では,発話内容に即した聞き手の表情生成が難しく,不自然な対話が生じやすい。
    • 発話内容に基づき,流暢で意味的に適切な聞き手の表情を自動生成することを目指す。
    • 発話者の言葉と時間情報を入力とし,量子化された表情ジェスチャー列を自己回帰的に予測するフレームワークを提案。
    • テキストのみで事前学習された言語モデルの重みを初期値として利用することで,ゼロから学習するよりも高品質な聞き手の表情生成が可能となった。
    • 定量評価とユーザー調査により,生成された表情が流暢で言語の意味を反映していることが示された。

    Link: https://arxiv.org/abs/2308.10897

  • 自分自身をより良く知る:多様な物体関連特徴が開放集合認識を向上させる [cs.CV, cs.LG]目的:開放集合認識の性能向上
    • 機械学習において,未知のクラス検出は重要な課題である。実環境での応用には不可欠。
    • 従来の深層学習モデルは未知クラスを正しく識別できず,誤った予測を引き起こす。
    • 特徴量の多様性を活用し,開放集合認識のメカニズムを解明することを目指す。
    • 特徴量の多様性と開放集合認識性能の間には有意な相関関係が認められた。
    • 提案手法は,標準的な評価ベンチマークにおいて最先端手法を大きく上回る性能を示した。
    • 本研究は,開放集合認識における特徴量の重要性を明らかにした。

    Link: https://arxiv.org/abs/2404.10370

  • FATE:焦点変調注意エンコーダによる多変量時系列予測 [cs.LG, cs.CV]目的:多変量時系列予測のための新たなTransformerアーキテクチャ
    • 気候変動は21世紀における喫緊の課題であり,その監視と対策には正確な予測が不可欠である。
    • 既存の時系列予測モデルは,長期間の多変量気象データにおいて,系列依存性や並列化に課題がある。
    • 時系列データの空間的・時間的相関を明示的に捉え,予測性能と解釈性を向上させることを目指す。
    • FATEは,ETTh1,ETTm2,Trafficなど7つの実世界データセットで,最先端手法を安定的に上回る性能を示した。
    • 提案するテンソル化された焦点変調メカニズムが,時系列データの空間的・時間的相関を効果的に捉えていることが示唆された。
    • FATEは,温度データセットを含む広範な多変量時系列予測タスクへの汎化性能も確認された。

    Link: https://arxiv.org/abs/2408.11336

  • 羨望サイクル除去アルゴリズムの二つの利点を両立する公平性 [cs.GT]目的:付加価値評価を持つエージェント間で分割不可能な財を公平に分割すること
    • 資源配分における公平性は,社会的な効率性と公正性を両立させる上で重要である。
    • 既存手法では,分割の効率性と公平性を同時に達成することが困難である。
    • 本研究では,羨望サイクル除去アルゴリズムのランダム化によって,効率性と公平性を高めることを目指す。
    • 2人のエージェントに対して,ランダム化された羨望サイクル除去アルゴリズムが,ほぼ線形時間でエピステミックEFXと事前的な羨望フリーな分割を計算できることを示した。
    • 3人のエージェントに対しては,いくつかの自然なランダム化手法が事前的な比例性を達成できないことを示した。

    Link: https://arxiv.org/abs/2410.08986

  • 効率的な大規模圧縮のためのデータセット剪定と蒸留の統合 [cs.CV, cs.LG]目的:データセット圧縮の効率化
    • 大規模なデータセットは深層学習モデルの性能向上に不可欠だが,計算コストやストレージ容量が課題となる。
    • データセット剪定と蒸留は圧縮手法だが,それぞれ異なるアプローチを取っており,その比較・統合が不足している。
    • データセット剪定と蒸留の特性を理解し,両者の利点を組み合わせた効率的な圧縮手法を開発すること。
    • ソフトラベルを用いたデータセット蒸留では,ラベルの情報が有用である一方,蒸留の必要性が低下する場合があることが示された。
    • 小規模なデータセットにおいては,データセット剪定がデータセット蒸留よりも優れた性能を示すことが明らかになった。
    • PCAフレームワークは,ソフトラベルに依存せず,画像品質に焦点を当てたハードラベルデータセット圧縮のアプローチを提案している。

    Link: https://arxiv.org/abs/2502.06434

  • PC-Talk:音声駆動型顔生成における精密な表情制御 [cs.CV, cs.AI]目的:音声駆動型顔生成における表情の精密制御
    • 近年,動画生成技術が発展し,リアルな人物の表現が求められている。
    • 既存手法では,口の動きは再現できても,感情表現や話し方が単調になりがちである。
    • 多様で自然な表情生成と,ユーザーによる細やかな制御を実現することを目指す。
    • 本研究では,PC-Talkという新しいフレームワークを提案し,キーポイント変形を通じて精密な表情制御を可能にした。
    • 提案手法は,単語レベルでの話し方編集や,音声の大きさに応じた口の動きの調整により,口と音声の同期精度を高めた。
    • さらに,感情の強度調整や複数感情の組み合わせにより,生き生きとした感情表現の生成に成功した。HDTFとMEADデータセットで最先端の性能を達成した。

    Link: https://arxiv.org/abs/2503.14295

  • 自己教師あり特徴分解と拡張ネットワークによるワンクラス顔認証の偽造防止 [cs.CV]目的:顔認証における偽造検出性能の向上
    • 顔認証のセキュリティ向上は重要であり,なりすまし行為から保護する必要がある。
    • ワンクラス方式は未知の攻撃に強いが,特徴量に含まれるドメイン情報に弱点がある。
    • 本研究は,特徴量の分解と拡張により,未知の偽造攻撃に対する汎化性能を高める。
    • 提案手法UFDANetは,特徴量の分解により,生体特徴とドメイン特徴を分離し,識別学習を促進する。
    • 未知の偽造クラスの生体特徴を生成する拡張スキームを導入し,生体特徴の表現力と識別能力を向上させる。
    • 実験結果から,UFDANetは既存のワンクラス方式を上回り,最先端の二クラス方式と同等の性能を示すことが確認された。

    Link: https://arxiv.org/abs/2503.22929

  • 予測的視覚運動協調の学習 [cs.CV, cs.RO]目的:視覚運動協調の予測モデル
    • ロボティクスや人間-コンピュータ間インタラクション等に応用可能。人間の行動理解に不可欠な分野。
    • 視覚情報と運動情報の統合が難しく,正確な予測が困難である。
    • マルチモーダル情報の統合による,視覚運動協調の予測精度向上を目指す。
    • 提案手法は,大規模なEgoExo4Dデータセットにおいて,多様な実世界の活動に対して高い汎化性能を示す。
    • 視覚情報と運動情報の時間的依存性を構造的に学習する「視覚運動協調表現(VCR)」を提案。
    • 拡散モデルを拡張し,視覚情報と運動情報を統合することで,一貫性のある正確な予測を実現。

    Link: https://arxiv.org/abs/2503.23300

  • 性能向上の幻想:コントラストデコーディングはMLLMにおける物体幻覚を軽減できないのか? [cs.CL, cs.AI, cs.CV]目的:マルチモーダル大規模言語モデルにおける物体幻覚の軽減
    • MLLMは画像とテキストを理解するため重要であり,その性能は様々な応用を支える。
    • MLLMはしばしば存在しない物体を幻覚し,その原因と対策が課題となっている。
    • コントラストデコーディングの有効性に対する誤解を解き,真の解決策の探求を促す。
    • コントラストデコーディングによる性能向上は,出力分布の粗雑な調整や貪欲探索に起因する。
    • 性能向上が幻覚の軽減とは無関係であることが,偽の改善手法を用いた実験で示された。
    • コントラストデコーディングの有効性に対する従来の認識に疑問を投げかける結果となった。

    Link: https://arxiv.org/abs/2504.10020

  • Eコマースプラットフォームにおける決定論的割当と匿名性の共同広告 [cs.GT]目的:Eコマースプラットフォームにおける最適な共同広告設計
    • 機械学習の進展に伴い,広告配分最適化への応用が期待される分野である。
    • 既存の自動メカニズム設計は,決定論的割当や匿名性の確保が不十分である。
    • 決定論的割当と匿名性を両立する共同広告設計手法を提案し,実用性を高める。
    • 従来の非決定論的割当手法が,現実の広告シナリオにおいて実行不可能な解を生むことを証明した。
    • TransformerベースのニューラルネットワークJTransNetを提案し,最適な決定論的割当と匿名性の共同オークション設計を実現した。
    • オフラインおよびオンライン実験の結果,JTransNetはプラットフォーム収益において既存手法を大きく上回る性能を示した。

    Link: https://arxiv.org/abs/2506.02435

  • RoCA:堅牢なクロスドメインエンドツーエンド自律運転 [cs.CV]目的:クロスドメインにおける堅牢なエンドツーエンド自律運転のためのフレームワーク
    • 自動運転技術の発展は,交通システムの効率化や安全性向上に不可欠である。
    • 既存の自律運転システムは,特定の環境に最適化され,異なる環境への適応が困難である。
    • RoCAは,ドメイン間の知識転移を可能にし,少ないコストで新しい環境に対応することを目指す。
    • RoCAは,自己車両と周囲車両の情報を確率的に表現するフレームワークであり,多様な運転シナリオに対応可能である。
    • ソースドメインでの学習とRoCAの組み合わせにより,ベースモデルの汎化性能が向上し,追加の推論計算は不要である。
    • RoCAは,直接ファインチューニングよりも優れたドメイン適応能力を示し,様々なクロスドメインシナリオで高い性能を発揮する。

    Link: https://arxiv.org/abs/2506.10145

  • 意味的に分離された空間分割による点監視型向き物体検出 [cs.CV]目的:向き物体検出における点アノテーションに基づく弱学習の効率化
    • アノテーションコスト削減が課題であり,弱学習による点アノテーションが注目されている。
    • 既存手法では,サンプル割り当ての不足や疑似ラベルの品質が課題となっている。
    • ルールベースとデータ駆動型のラベル精製により,効率的な学習フレームワークを構築する。
    • 提案手法SSPは,DOTA-v1.0においてベースラインよりmAPを+6.73%向上させた。
    • 学習時間はわずか2時間,GPUメモリは6GBで済むため,低コストな学習が可能である。
    • より強力な検出器と組み合わせることで,mAPは50.81%に達する。

    Link: https://arxiv.org/abs/2506.10601

  • 少ないサンプル数における細分類画像認識のための階層的マスク強調二重再構成ネットワーク [cs.CV]目的:少ないサンプル数における細分類画像認識の性能向上
    • 画像認識技術は,様々な分野で活用されており,その精度向上は重要な課題である。
    • 細分類画像認識では,類似したクラスを識別する必要があり,サンプル数が少ないと困難が生じる。
    • 既存手法の課題を克服し,より識別能力の高い特徴表現を獲得することを目的とする。
    • 提案手法HMDRNは,異なる階層の特徴を統合することで,高レベルな意味情報と中レベルな構造情報をバランス良く活用する。
    • 空間バイナリマスク強調Transformerモジュールにより,識別的な領域を強調し,背景ノイズを除去することで,認識精度を向上させる。
    • 3つの細分類データセットにおいて,HMDRNは最先端手法を上回り,その有効性が確認された。

    Link: https://arxiv.org/abs/2506.20263

  • 周期性誘導rPPG推定と信号再構成による超短時間ビデオクリップからの高精度心拍数計測 [cs.CV]目的:超短時間ビデオクリップからの心拍数計測の精度向上
    • 遠隔心拍数計測は,医療やウェルネス分野での活用が期待され,非接触での健康状態モニタリングに貢献する。
    • 既存手法では,十分な心拍周期が含まれない超短時間ビデオからの心拍数推定の精度が課題であった。
    • 超短時間ビデオの周期性を活用し,より正確な心拍数推定を実現することを目指す。
    • 提案手法は,短いビデオクリップから得られるrPPG信号の周期性を考慮し,より長い参照信号との整合性を保つことで,高精度な心拍数推定を可能にする。
    • スペクトルリーケージによる推定誤差を軽減するため,超短時間rPPG信号から周期性を維持したまま長尺の信号を再構成する生成器を導入した。
    • 4つのベンチマークデータセットでの実験により,提案手法が既存手法を凌駕し,最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2506.22078

  • 単眼画像からの拡散事前分布を用いた教師なし3Dキーポイント検出 [cs.CV]目的:単眼画像からの3Dキーポイント検出
    • 3Dキーポイント推定は,ロボティクスやコンピュータビジョンの応用において不可欠な技術である。
    • 既存手法は,高価な手動アノテーションやマルチビュー画像に依存しており,データ収集コストが高い。
    • 本研究は,高価なデータ収集を必要とせず,単眼画像から高精度な3Dキーポイント推定を実現することを目的とする。
    • 提案手法KeyDiff3Dは,事前学習済みのマルチビュー拡散モデルを活用し,単眼画像から3Dキーポイントを高精度に予測する。
    • 拡散モデルが生成するマルチビュー画像を教師信号として利用することで,3D幾何学的情報を効果的にモデルに伝達する。
    • Human3.6MやCUB-200-2011などの多様なデータセットで,精度,汎化性能,3Dオブジェクト操作の有効性が確認された。

    Link: https://arxiv.org/abs/2507.12336

  • ラベルノイズに対する耐性を高める最適脳損傷マスキング [cs.LG, cs.CV]目的:ラベルノイズに対する学習耐性の向上
    • 深層学習は高性能だが,ラベルノイズに弱い点が課題。
    • 従来のノイズ対策は損失関数やサンプル選択に偏り,構造的なアプローチが不足。
    • ノイズ勾配の伝播を遮断し,モデルの接続性を最適化する。
    • 提案手法SEMは,重要なエッジを保持しつつノイズ勾配を抑制。
    • OBD理論に基づき,低活性エッジのマスキングによりモデルの適合能力を維持。
    • 合成データと実データでの評価で,最先端手法を上回る性能を確認。

    Link: https://arxiv.org/abs/2508.09697

  • メッシュベース計算のためのGPUを用いた局所性認識自動微分 [cs.CL, cs.DL, cs.CL, cs.GR]目的:メッシュベース計算における自動微分の高速化
    • シミュレーションなどの数値計算において,微分計算は最適化や感度解析に不可欠である。
    • 従来の自動微分は,計算グラフの構築やメモリ転送のオーバーヘッドが大きく,特に大規模メッシュに対する効率が課題であった。
    • メッシュの局所性と疎性を利用し,GPU上で効率的な微分計算を実現することで,計算コストを削減する。
    • 提案手法は,レジスタと共有メモリ内での計算に限定し,グローバルな計算グラフや中間バッファを回避することで,メモリトラフィックを最小限に抑えている。
    • 様々なソルバータイプ(Newton法,Gauss-Newton法など)や微分利用モード(ヘッセ行列ベクトル積など)において,既存の自動微分フレームワークを上回る性能を示した。
    • 弾性シミュレーション,クロスシミュレーション,表面パラメーター化など,幅広いアプリケーションで有効性が確認された。

    Link: https://arxiv.org/abs/2509.00406

  • HiDe:高解像度MLLMにおけるズームイン手法の再考:階層的デカップリングによるアプローチ [cs.CV, cs.AI]目的:高解像度画像における視覚理解の性能向上
    • マルチモーダル大規模言語モデルは視覚理解で進歩しているが,高解像度画像での性能向上が課題となっている。
    • 従来,高解像度画像処理の課題は,小物体認識の難しさにあると考えられていた。
    • 本研究は,背景ノイズが性能低下の主要因である点を明らかにし,それを解決する。
    • 提案手法HiDeは,V*Bench,HRBench4K,HRBench8Kで新たなSOTAを達成し,Qwen2.5-VL 7BとInternVL3 8Bの性能を向上させた。
    • HiDeは,既存の学習不要アプローチと比較して,メモリ使用量を75%削減することに成功した。
    • 質問トークンと重要情報トークンをデカップリングし,背景干渉を抑制することで,高精度な視覚領域とのアライメントを実現した。

    Link: https://arxiv.org/abs/2510.00054

  • 大規模言語モデルから視覚言語モデルへの推論能力転移:オンポリシー蒸留による手法 [cs.CL, cs.CV]目的:視覚言語モデルの複雑な推論能力の向上
    • 視覚言語モデルは,画像とテキストの両方を理解するAIの重要な要素である。
    • 高品質な画像とテキストによる推論データの不足が,視覚言語モデルの学習を困難にしている。
    • テキストベースの豊富なリソースを活用し,視覚言語モデルの推論能力を向上させる。
    • VOLDは,テキストベースの教師モデルから視覚言語モデルへの推論能力転移を可能にするフレームワークである。
    • 強化学習とオンポリシー蒸留を組み合わせることで,教師モデルの指針に基づいた学習を実現し,大幅な性能向上を示した。
    • 初期段階のアライメントが効果的な転移に不可欠であり,教師と生徒の分布アライメントが不十分な場合,オンポリシー蒸留は効果を発揮しない。

    Link: https://arxiv.org/abs/2510.23497

  • 顔の感情分析のための推論と認識の整合:Facial-R1 [cs.CV]目的:顔の感情分析における推論と認識の整合化
    • 感情理解は,人間と機械の自然なコミュニケーションに不可欠であり,その重要性は増している。
    • 既存手法では,感情に関する知識不足から誤った推論や,視覚特徴と最終的なラベルの乖離が生じやすい。
    • 感情と行動単位(AU)に基づく推論を整合させ,より正確で解釈可能な感情分析を実現することを目指す。
    • 提案手法Facial-R1は,感情分析において最先端の性能を達成し,汎化性能と解釈可能性に優れている。
    • 感情とAUラベルを報酬信号とする強化学習により,生成された推論プロセスと予測された感情との整合性を高めている。
    • データ合成パイプラインを活用することで,モデルの自己改善を可能にし,大規模なデータセットFEA-20Kを構築した。

    Link: https://arxiv.org/abs/2511.10254

  • GenTract:生成によるグローバル線維路描画 [cs.CV]目的:脳白質の線維路を推定するグローバル線維路描画手法
    • 脳機能解明には,脳内の線維路構造の正確な把握が不可欠である。
    • 従来の線維路描画法は,ノイズや低解像度データで誤検出が多く,精度に課題がある。
    • GenTractは,精度と計算効率を両立するグローバル線維路描画法の確立を目指す。
    • GenTractは,拡散MRIデータから直接,解剖学的に妥当な線維路を描画する生成モデルである。
    • DDTrackingやTractOracleなどの最先端手法と比較して,GenTractは1.8倍から2.1倍高い精度を達成した。
    • 特に,低解像度やノイズの多いデータにおいて,GenTractの優位性は顕著であり,最も近い競合手法を3.5倍上回る。

    Link: https://arxiv.org/abs/2511.13183

  • 安全性を考慮したMLLMの継続的視覚指示チューニングにおける調和的なパラメータ適応 [cs.CL, cs.CV]目的:安全性を考慮したマルチモーダル大規模言語モデル(MLLM)における継続的視覚指示チューニングの調和的なパラメータ適応
    • MLLMは多様なタスクに応用可能だが,安全性確保が不可欠である。
    • 継続学習において,タスクの忘却に加え,安全性低下が課題となる。
    • 安全性とタスク性能のバランスを保ち,継続学習時の安全性低下を抑制すること。
    • 提案手法HPAは,パラメータを安全性とタスク性能に着目して分割し,バランスの取れた選択を行う。
    • パラメータ更新時に直交制約を課すことで,破滅的忘却を緩和する。
    • CVITベンチマークと安全性評価データセットにおいて,HPAは既存手法よりも高い安全性と忘却抑制効果を示した。

    Link: https://arxiv.org/abs/2511.20158

  • 積極的ビデオ知覚:エージェント的長編ビデオ理解のための反復的証拠探索 [cs.CV, cs.AI, cs.CL]目的:長編ビデオ理解における証拠探索の効率化
    • 現実世界のクエリ応答には,長時間のビデオから関連情報を効率的に抽出する必要がある。
    • 従来のフレームワークはクエリに依存しないキャプションを使用するため,無関係なコンテンツの処理に計算資源を浪費する。
    • ビデオをインタラクティブな環境として扱い,クエリ関連の証拠を直接ピクセルから取得することで効率化を図る。
    • AVPは,5つの長編ビデオ理解ベンチマークにおいて,最高の全体精度を達成した。
    • 既存の最良のエージェント的メソッドと比較して,平均全体精度で5.7%の改善を達成した。
    • 推論時間と入力トークン数を大幅に削減し,効率的なビデオ理解を実現した。

    Link: https://arxiv.org/abs/2512.05774

  • 脳探査:ヒト脳における解釈可能な視覚表現の大規模発見 [cs.ET, cs.CV]目的:ヒト脳における視覚表現の発見と説明
    • 脳科学研究は,知覚や認知のメカニズム解明に不可欠であり,神経疾患の治療にもつながる。
    • 脳信号の複雑さと視覚概念の多様性から,大規模かつ系統的な研究が困難であった。
    • fMRIデータから自動的に解釈可能な視覚パターンを発見し,その意味を記述すること。
    • 本研究では,fMRI活動を分解し,数千もの解釈可能なパターンを発見した。
    • 各パターンを最も強く活性化する画像を特定し,自然言語でその視覚的意味を説明した。
    • これにより,これまで報告されていなかった詳細な視覚表現が明らかになった。

    Link: https://arxiv.org/abs/2512.08560

  • マルチモーダルChain-of-Thoughts推論を活用した行動フォーム評価の説明可能性 [cs.CV]目的:人間の行動の標準度評価と,行動標準化を改善するための妥当なフィードバックの提供
    • 現実世界のシナリオにおいて,人間の行動の標準化は重要であり,その評価は不可欠である。
    • 既存のビデオ理解手法は,行動の「何を」「どこで」に焦点を当てており,標準度評価の要求を満たせない。
    • 本研究は,行動標準度を明示的に評価し,詳細なフィードバックを提供する事を目的とする。
    • 提案手法は,説明生成(CIDErで+16.0%),行動分類(精度+2.7%),品質評価(精度+2.1%)において性能向上を示した。
    • CoT-AFAデータセットは,フィットネスや武道の動画を多段階で注釈付けし,包括的な分析を可能にする。
    • Explainable Fitness Assessorフレームワークは,視覚情報と意味情報を融合し,行動の判断,理由の説明,解決策の提案を行う。

    Link: https://arxiv.org/abs/2512.15153

  • 潜在的暗黙的視覚推論 [cs.CV]目的:潜在的視覚推論トークンの発見と利用
    • 大規模多種別モデルの発展において,視覚情報処理能力の向上が重要である。
    • 既存モデルは言語中心であり,視覚的な推論タスクにおいて限界がある。
    • 明示的な中間的監督なしに,視覚的推論能力を獲得することを目指す。
    • LIVRは,多様な視覚中心タスクにおいて,直接的な教師ありファインチューニングを上回る性能を示す。
    • 既存のテキストベース,または明示的な視覚的推論手法と同等以上の性能を維持する。
    • 追加の中間的監督(補助画像,バウンディングボックス,深度マップなど)を必要としない。

    Link: https://arxiv.org/abs/2512.21218

  • HOLO:SDマップ上での高精度な視覚的局所化のためのホモグラフィー誘導姿勢推定ネットワーク [cs.RO, cs.CV]目的:SDマップ上での高精度な視覚的局所化手法
    • 自動運転において,高精度かつ低コストな位置推定は不可欠であり,視覚的局所化はその有力な手段である。
    • 既存の回帰ベースの手法は,幾何学的制約を考慮しないため,学習効率や局所化精度が低いという課題がある。
    • ホモグラフィーの制約を利用することで,学習効率と局所化精度を向上させることを目指す。
    • 提案手法は,BEV空間への特徴量投影とマップ特徴量との意味的アライメントを通じて,ホモグラフィー制約を満たす入力ペアを構築する。
    • ホモグラフィー関係を特徴量融合と姿勢推定の制約に活用することで,既存手法と比較して学習効率と精度が大幅に向上した。
    • nuScenesデータセットを用いた実験により,提案手法が既存の最先端手法を凌駕することが示された。

    Link: https://arxiv.org/abs/2601.02730

  • ストリートビュー画像とビジュアルLLMを用いた文化遺産価値の予測:ガバナンス支援,リスク,倫理,政策への示唆 [cs.CY, cs.AI, cs.CV]目的:文化遺産価値の予測
    • 建築物の文化遺産価値は,都市計画や保存活動において重要な情報である。
    • スウェーデンには,文化遺産価値を持つ建築物を網羅的に記録した国家登録簿が存在しない。
    • LLMを活用し,スウェーデンの建築ストックにおける文化遺産価値に関する情報提供を支援する。
    • ストリートビュー画像から得られたデータを用いて,LLMによる文化遺産価値の予測を行った。
    • 予測結果は,500万平方メートルの暖房面積を持つ建築物の潜在的な文化遺産価値の特定に貢献した。
    • LLMの利用に伴う透明性,誤検出,迎合性などのリスクについても議論した。

    Link: https://arxiv.org/abs/2601.06056

  • 画像高解像度コーナー検出のための二階ガウス方向微分表現 [cs.CE, physics.comp-ph, stat.ML, cs.CV]目的:画像高解像度コーナー検出手法の開発
    • 画像マッチングや3D再構成など,多様なコンピュータビジョンタスクにおいて,コーナー検出は重要な役割を担う。
    • 既存手法では,隣接するコーナー間のグレースケール情報が互いに影響し合うという理論的な欠陥が存在する。
    • 隣接するコーナーを正確に表現し,ガウスフィルタリングのスケール選択を可能にする。
    • 提案手法は,既存の高解像度コーナーモデル(END型,L型)に対し,二階ガウス方向微分(SOGDD)フィルタを適用した。
    • これにより,コーナーの位置誤差,画像ぼかしに対するロバスト性,画像マッチング,3D再構成において,最先端手法を上回る性能が確認された。
    • 提案手法は,隣接するコーナー点を正確に検出する新たな画像高解像度コーナー検出法である。

    Link: https://arxiv.org/abs/2601.08182

  • ロバストな多ラベルリモートセンシング画像分類のためのノイズ適応正則化 [cs.CV, cs.LG]目的:多ラベルリモートセンシング画像分類におけるロバスト性の向上
    • リモートセンシングデータの活用は,地球規模の環境変化監視に不可欠である。
    • リモートセンシング画像の注釈コストが高く,ノイズを含む注釈データが課題となる。
    • 異なる種類のノイズに対応し,注釈データの信頼性を高める分類手法の開発。
    • 提案手法NARは,付加型と減算型ノイズを明示的に区別する正則化手法である。
    • NARは,信頼度に基づくラベル処理メカニズムにより,ノイズの影響を抑制し,学習の安定化を図る。
    • 実験結果から,NARは既存手法と比較して,特に減算型および混合型ノイズ下で高いロバスト性を示す。

    Link: https://arxiv.org/abs/2601.08446

  • Drive-KD:自動運転におけるVLMのためのマルチ教師蒸留 [cs.AI, cs.CV]目的:自動運転用VLMの性能向上
    • 自動運転は安全性に重要な課題であり,LLM/VLMの進展が新たな可能性を開いている。
    • 大規模モデルはGPUメモリを多く消費し,推論速度が遅い。SFTでは小型モデルの性能向上が難しい。
    • 知覚・推論・計画の分解と知識蒸留により,効率的なVLMの実現を目指す。
    • Drive-KDは,自動運転を「知覚・推論・計画」の三要素に分解し,知識蒸留を通じて能力を伝達するフレームワークである。
    • 蒸留信号として層特異的な注意を使用し,単一教師モデルの性能を向上させる。複数の教師モデルを統合し,勾配の競合を軽減する。
    • 蒸留されたInternVL3-1Bモデルは,78Bモデルと同等以上の性能を持ち,GPUメモリ消費量と推論速度で優位性を示す。

    Link: https://arxiv.org/abs/2601.21288

  • メッシュベース直接ソルバーのための高速疎行列順序付け [cs.GR, cs.DC]目的:三角形メッシュから生じる線形方程式系のための高速疎行列順序付け手法
    • 計算効率が求められるグラフィックスアプリケーションにおいて,大規模な線形方程式系の解法は重要である。
    • 従来の順序付けアルゴリズムは計算コストが高く,ソルバー全体の性能を制限する要因となっている。
    • 高速な順序付けにより,疎行列の直接解法の効率を向上させることを目指す。
    • 本手法は,ネスト分解様式の順序付けを,順序付けの実行時間オーバーヘッドを大幅に削減しながら実現する。
    • 厳密なバランスや分離器の最適性を緩めることで,高速な分割と効率的な消去木構築を可能にしている。
    • CPUとGPUの両方において,スパースチョレスキーソルバーの性能を最大6.27倍向上させる。

    Link: https://arxiv.org/abs/2602.00898

  • UnHype:CLIP誘導ハイパーネットワークによる動的LoRAアンラーニング [cs.DC, math.OC, cs.CV]目的:大規模拡散モデルからの特定の知識または概念の選択的な除去
    • 拡散モデルの悪用懸念から,有害コンテンツ生成を防ぐ必要性が高まっている。
    • LoRAアンラーニングは概念の意味適応性や,関連概念の除去と汎化能力維持のバランスが課題。
    • 複数の概念を同時に削除する際のLoRAのスケーラビリティ問題を解決すること。
    • UnHypeは,ハイパーネットワークをLoRA学習に組み込むことで,安定した学習と効果的な概念制御を実現した。
    • 推論時には,CLIP埋め込みに基づいて動的にLoRA重みを生成し,文脈を考慮したスケーラブルなアンラーニングを可能にした。
    • オブジェクト除去,有名人除去,露骨なコンテンツ除去など,様々なタスクでその有効性と汎用性を示した。

    Link: https://arxiv.org/abs/2602.03410

  • 4DPC$^2$hat:失敗を意識したブートストラップによる動的点群理解へ [cs.CV]目的:動的点群理解のための大規模なクロスモーダルデータセットとMambaエンハンスメントされた時系列推論MLLM
    • 3次元物体の表現として点群は重要であり,マルチモーダル大規模言語モデルへの統合が進んでいる。
    • 既存手法は静的な物体に偏っており,動的な点群シーケンスの理解は未開拓の分野である。
    • 大規模データセットの不足と,時空間コンテキストにおける動きのモデリングの難しさを克服する。
    • 4DPC$^2$hat-200Kという大規模クロスモーダルデータセットを構築し,44K以上の動的物体シーケンス,700Kの点群フレーム,200KのQAペアを提供した。
    • Mambaエンハンスメントされた時系列推論MLLMを導入し,点群シーケンス内の長距離依存性と動的パターンを捉えることを可能にした。
    • 失敗を意識したブートストラップ学習戦略により,モデルの弱点を特定し,対応する推論能力を継続的に強化した。

    Link: https://arxiv.org/abs/2602.03890

  • ロールアウト拡張によるビジョン言語モデルにおける自己修正学習 [cs.CV, cs.CL, cs.LG]目的:ビジョン言語モデルにおける自己修正能力の学習
    • 複雑な推論問題解決において,自己修正は不可欠な能力であるため,その重要性が増している。
    • 従来の強化学習法では,有効な自己修正行動が稀にしか出現せず,学習信号が極めて疎になるという課題があった。
    • 既存のロールアウトを再結合することで自己修正例を合成し,学習信号の疎性を解消することを目的とする。
    • 提案手法(Octopus)は,ロールアウトの再利用によるサンプル効率の向上と,バランスの取れた教師信号による強化学習の最適化を同時に実現した。
    • 応答マスキング戦略により,自己修正と直接的な推論を分離し,それぞれの学習を効果的に行うことを可能にした。
    • Octopus-8Bは,オープンソースのビジョン言語モデルの中で最高水準の性能を示し,RLVRベースラインを上回った。

    Link: https://arxiv.org/abs/2602.08503

  • フローマッチングにおける壊れ点のシフト:マルチインスタンス編集への応用 [cs.CV]目的:マルチインスタンス編集における問題点の克服
    • 画像生成・編集において,拡散モデルに代わる効率的な手法としてフローマッチングが注目されている。
    • 既存のフローベースエディタは,グローバル編集や単一指示編集に限定され,複数の部分を独立して編集するマルチインスタンス編集が困難である。
    • インスタンス間の干渉を抑制し,独立した編集を可能にするメカニズムの開発。
    • 提案手法であるインスタンス分離注意機構は,共同注意操作を分割することで,テキスト指示と空間領域間の結合を強化する。
    • 自然画像編集とテキスト密度の高いインフォグラフィックを用いた実験により,編集の分離性と局所性を高めつつ,全体的な出力の一貫性を維持することが示された。
    • 本研究は,一度のパスでインスタンスレベルの編集を可能にする基盤技術を提供する。

    Link: https://arxiv.org/abs/2602.08749