arXiv雑要約

画像・音声 - 2026/03/04 公開

  • 調和ベルトラミ署名ネットワーク:深層学習フレームワークにおける形状事前モジュール [cs.CV]目的:調和ベルトラミ署名の計算
    • 画像認識において形状情報は重要な特徴量であり,認識精度向上に寄与する。
    • 既存手法では,複雑な形状の表現や形状情報の効率的な活用が課題であった。
    • 深層学習を用いて形状情報を効率的に抽出し,認識モデルに組み込むことを目指す。
    • 提案手法HBSNは,バイナリ画像から調和ベルトラミ署名を正確に計算できることが示された。
    • HBSNを既存のセグメンテーションモデルに組み込むことで,形状事前情報により性能向上が確認された。
    • HBSNは,コンピュータビジョンパイプラインに幾何学的形状情報を埋め込む汎用モジュールとして有用である。

    Link: https://arxiv.org/abs/2603.02907

  • 運動中の関節:動的静的分離による関節物体の事前知識なしの部品可動性解析 [cs.CV]目的:関節物体の部品分解,関節運動学的解析,そしてインタラクティブな3Dデジタルレプリカの再構成
    • 関節物体は日常生活に不可欠であり,それらの理解はロボティクスやコンピュータビジョンの発展に寄与する。
    • 従来の関節解析手法は部品数に関する事前知識を必要とし,その汎用性と性能が制限されていた。
    • 本研究は,事前知識なしで関節物体の部品分解と可動性解析を可能にすることを目的とする。
    • 提案手法AiMは,ユーザと物体のインタラクション動画と初期状態のスキャンから部品レベルの分解と関節運動学的情報を推論する。
    • 動的静的分離と逐次RANSACを用いることで,部品数に関する事前知識なしに高精度な部品可動性解析を実現する。
    • 実験結果は,提案手法が従来の既存手法よりも高い品質の部品分割を可能にすることを示している。

    Link: https://arxiv.org/abs/2603.02910

  • 解釈可能なモーションアテンションマップ:ビデオ拡散Transformerにおける概念の時空間局在化 [cs.CV, cs.AI, cs.LG]目的:ビデオ拡散Transformerにおける運動に関する概念の時空間的な局在化
    • ビデオ生成AIの発展に伴い,その内部動作の理解が不可欠となっている。
    • 既存研究では,物体認識に重点が置かれ,運動のような動的な要素の解釈が不足している。
    • ビデオ拡散Transformerがどのように運動表現を映像に変換するかを明確にすること。
    • 提案手法GramColは,運動と非運動の概念に対し,フレーム単位で顕著性マップを生成する。
    • IMAPは,運動特徴の選択アルゴリズムにより,運動を時空間的に局在化する。
    • 実験の結果,本手法は運動局在化タスクとゼロショット動画セマンティックセグメンテーションで優れた性能を示した。

    Link: https://arxiv.org/abs/2603.02919

  • HDINO:簡潔かつ効率的なオープンボキャブラリ検出器 [cs.CV]目的:オープンボキャブラリ物体検出の効率化と精度向上
    • 物体検出技術は,画像認識分野において重要な役割を担っており,様々な応用が期待される。
    • 既存手法は,大規模な注釈付きデータセットや計算コストの高い処理に依存していることが多い。
    • 注釈付きデータセットや計算コストを削減し,より実用的なオープンボキャブラリ検出を実現すること。
    • HDINOは,DINOモデルを基盤とした二段階学習戦略により,手動でのデータキュレーションやグラウンディングデータなしで高い性能を達成した。
    • COCOデータセットにおいて,Grounding DINO-TやT-Rex2を上回り,SwIN Transformer-T設定で49.2 mAPを記録した。
    • COCOでのファインチューニングにより,HDINO-TとHDINO-Lはそれぞれ56.4 mAP,59.2 mAPを達成し,手法の有効性と拡張性を示した。

    Link: https://arxiv.org/abs/2603.02924

  • GloPath:糸球体病変評価と臨床病理学的洞察のためのエンティティ中心型ファウンデーションモデル [cs.CV]目的:糸球体病変の評価と臨床病理学的洞察の発見
    • 腎疾患の診断と予後において,糸球体病理学的検査は不可欠である。
    • 現在のAIアプローチでは,糸球体の形態の多様性や微細な病変パターンの解釈が困難である。
    • 糸球体病変評価の精度向上と,臨床指標との関連性解明を目指す。
    • GloPathは,52のタスクにおいて最先端の手法を80.8%で上回り,高い性能を示した。
    • 大規模な実臨床データを用いた研究では,病変認識において91.51%のROC-AUCを達成し,実用性を証明した。
    • 糸球体形態パラメータと臨床指標の間に224組の有意な関連性が確認され,臨床アウトカムとの繋がりが示唆された。

    Link: https://arxiv.org/abs/2603.02926

  • TRACE:タスク適応型推論と表現学習による汎用マルチモーダル検索 [cs.CV]目的:多様なユーザー意図に対応可能な統合埋め込みモデルの構築
    • マルチモーダル検索は,画像とテキストなど複数の情報を統合し,より高度な検索を可能にするため重要である。
    • 既存手法では,複雑な意図を理解するための論理的推論が不十分であり,表面的なパターンマッチングに頼りがちである。
    • 複雑なクエリに対する推論能力を高め,検索精度と効率性の両立を目指す。
    • TRACEは,クエリに対する構造化された思考の連鎖(CoT)を生成し,それをコンパクトな埋め込みに圧縮することで,タスク適応型推論と表現学習を統合している。
    • M-BEIR-CoTデータセットを用いた実験により,TRACEがM-BEIRベンチマークで最先端の性能を達成することが示された。
    • TRACEは,複雑なクエリに対しては推論を自動的に活性化し,単純なクエリに対しては推論を回避することで,最適なバランスを実現する。

    Link: https://arxiv.org/abs/2603.02929

  • TC-Padé:拡散モデル加速のための軌道整合型Padé近似 [cs.DB, cs.IR, cs.CV]目的:拡散モデルのサンプリングプロセス高速化
    • 拡散モデルは高品質な画像を生成するが,計算コストが高い点が課題である。
    • 低ステップ数(20-30ステップ)では,既存の高速化手法の効果が限定的である。
    • Padé近似に基づき,より正確な特徴量予測により高速化を図る。
    • TC-Padéは,FLUX.1-devにおいて2.88倍,Wan2.1で1.72倍の高速化を達成した。
    • FID,CLIP,Aesthetic,VBench-2.0などの評価指標において,既存手法を大幅に上回る性能を示した。
    • 特徴量の進化を合理関数でモデル化し,移行期を含む多様な挙動を正確に捉えることに成功した。

    Link: https://arxiv.org/abs/2603.02943

  • AI委任下における学習の幾何学 [cs.CY, cs.AI, cs.GT]目的:AI委任と人間のスキル進化の連立動力学系モデル
    • AI技術の進展に伴い,人間とAIの協働が重要になっている。
    • AIへの依存度が上がるにつれて,人間のスキル低下が懸念される。
    • AI委任が人間のスキル獲得に与える安定性への影響を分析する。
    • AI委任は,人間のスキル習得の安定構造を変化させる。
    • 初期の判断が,誘導される動力学により不可逆になる明確な境界が存在する。
    • AIの支援は短期的なパフォーマンスを向上させつつ,長期的にパフォーマンスを低下させる可能性がある。

    Link: https://arxiv.org/abs/2603.02950

  • CGL:強化学習による微調整を通じた継続的なGUI学習の促進 [cs.LG, cs.CV]目的:GUI継続学習における適応効率とスキル維持のバランス
    • GUIエージェントは進歩しているが,GUIアプリケーションの頻繁な更新に対応する必要がある。
    • GUI継続学習では,新しいタスクへの適応と過去のタスクの忘却を防ぐことが課題である。
    • 知識の上書きを防ぎつつ,GUI環境の変化に効率的に適応することを目指す。
    • 提案手法CGLは,SFTとRLの相乗効果を高めることで,GUI継続学習の性能を向上させる。
    • SFTの割合調整機構により,適応効率とスキル維持のバランスを動的に制御する。
    • GRPOに基づくアンカー勾配へのSFT勾配の射影により,勾配干渉を抑制し,安定した学習を実現する。

    Link: https://arxiv.org/abs/2603.02951

  • クラス不均衡な半教師あり学習のためのラベル割合事前知識の活用 [cs.HC, cs.LG, cs.CV]目的:クラス不均衡な半教師あり学習における性能向上
    • 教師ありデータの取得コストが高いため,ラベルなしデータ活用が重要視されている。
    • 半教師あり学習では,擬似ラベリングが多数派クラスの偏りを増幅しやすい。
    • ラベル割合からの学習の考え方を導入し,クラス分布の偏りを軽減することを目指す。
    • 提案手法では,FixMatchやReMixMatchにラベル割合損失を組み込むことで,既存手法を上回る性能を達成した。
    • 特に,ラベルの少ない状況下で,既存のクラス不均衡な半教師あり学習法と比較して競争力のある結果が得られた。
    • ラベル割合損失は,多数派クラスと少数派クラスの両方におけるバイアスを軽減する効果が確認された。

    Link: https://arxiv.org/abs/2603.02957

  • 視覚言語モデルの半教師あり少数ショット適応 [cs.CV]目的:視覚言語モデルの少数ショット適応における性能向上
    • 医療画像診断における専門家の注釈コストが高いという課題があるため,少ないデータでの学習が重要である。
    • 医療タスクではクラス間の不均衡が起じやすく,少数ショット学習において性能低下の原因となる。
    • 未ラベルデータを活用し,テキスト情報を活用した疑似ラベル伝播により,少数ショット適応を改善する。
    • 提案手法は,半教師あり学習を通じて,少数のアノテーションで視覚言語モデルを適応させることを可能にする。
    • 実験結果から,本手法はラベル付けコストを50%以上削減できることが示された。
    • 特に少数ショットの状況下において,クラス不均衡の影響を軽減し,モデルの性能を向上させることが確認された。

    Link: https://arxiv.org/abs/2603.02959

  • AI下における委任と検証 [cs.GT, cs.AI, cs.CY, econ.TH]目的:AI導入環境下における労働者の委任・検証行動の最適化
    • AIの職場への導入が進む中で,労働者の生産性向上が重要な課題である。
    • 成果主義評価が労働者の検証努力を阻害し,AIへの過度な委任を招く可能性がある。
    • AI導入が労働者の質に与える影響を構造的に解明し,格差拡大のメカニズムを明らかにする。
    • AIの検証能力のわずかな差が,労働者の行動に大きな変化をもたらすことが示された。
    • AIは,検証能力の高い労働者の能力を増幅させる一方,検証を怠る労働者の質を低下させる可能性がある。
    • AI導入は,労働者の質を再構築し,検証能力による格差を拡大する構造的メカニズムを特定した。

    Link: https://arxiv.org/abs/2603.02961

  • 基礎モデル合成とウェーブレット領域Attentionによる異常検知の改善 [cs.CV]目的:異常検知性能の向上
    • 産業分野における品質管理等において,異常の早期発見は重要である。
    • 異常データの不足や,現実世界の異常の複雑さが課題となっている。
    • 現実的な異常サンプルを生成し,異常特徴の抽出を強化することで,検知率の向上を目指す。
    • 基礎モデルに基づく異常合成パイプライン(FMAS)により,高精度な異常サンプルを生成可能となった。
    • ウェーブレット領域Attentionモジュール(WDAM)は,周波数特性に着目し,異常特徴の抽出を強化する。
    • WDAMは既存手法と比較して,高い性能向上を実現し,汎用性の高いモジュールであることが示された。

    Link: https://arxiv.org/abs/2603.02964

  • トポロジーを意識したグローバル行動推論によるビジョン言語ナビゲーション:TagaVLM [cs.DC, cs.CE, cs.CV, cs.RO]目的:ビジョン言語ナビゲーションにおける大規模ビジョン言語モデルの性能向上
    • ビジョン言語ナビゲーションは,現実世界とのインタラクションを必要とする重要な研究分野である。
    • 既存の大規模モデルは,視覚情報と空間情報をテキストに変換するため,複雑な関係性の推論が困難である。
    • 本研究は,トポロジー構造を明示的に組み込むことで,空間推論能力を向上させることを目指す。
    • TagaVLMは,ビジョン言語モデルの自己注意メカニズムにトポロジー構造を統合するSTAR-Attモジュールを導入した。
    • また,ノードレベルの視覚とテキストのアライメントを強化するInterleaved Navigation Promptを採用した。
    • R2Rベンチマークにおいて,TagaVLMは成功率51.09%,SPL 47.18を達成し,既存手法を大きく上回った。

    Link: https://arxiv.org/abs/2603.02972

  • DINOv3埋め込みを用いた空間自己回帰モデルによる教師なし異常検知 [cs.CV]目的:教師なし異常検知のためのDINOv3埋め込みの空間自己回帰モデリング
    • 異常検知は,医療画像診断など,様々な分野で重要な役割を果たすため,その精度向上が求められている。
    • 従来の異常検知手法では,パッチ間の空間的関係性を考慮せず,計算コストが高いという課題があった。
    • 本研究では,空間自己回帰モデルを用いてパッチ間の関係性を明示的にモデル化し,効率的な異常検知を目指す。
    • 提案手法は,BMADベンチマークにおいて,既存手法と同等以上の異常検知性能を達成した。
    • 特に,推論時間とメモリ消費量を大幅に削減できることが示された。
    • 空間的な依存関係の明示的なモデル化が,異常検知性能向上に貢献していると考えられる。

    Link: https://arxiv.org/abs/2603.02974

  • 腹腔鏡手術シーンの4D再構成のためのドレスデンデータセット [cs.CV]目的:非剛体腹腔内手術シーンの4D再構成評価のためのデータセット
    • 手術支援ロボットの普及に伴い,手術中の臓器変形を正確に把握する技術が重要となる。
    • 手術映像の3D再構成は,変形や遮蔽の影響を受けやすく,正確な評価が困難である。
    • 現実的な手術環境下における非剛体腹腔内組織の4D再構成アルゴリズムの評価基準となるデータセットを提供する。
    • 本データセットは,内視鏡映像と高品質な構造化光幾何学データを組み合わせ,現実的な手術条件下での3D再構成を評価可能にする。
    • 30万フレーム以上,369個の点群を含む大規模なデータセットであり,非剛体SLAM,4D再構成,深度推定手法の開発と評価に役立つ。
    • カメラの動き,変形の程度,視界外更新へのアルゴリズムの頑健性を評価するための3種類のシーケンスタイプが含まれている。

    Link: https://arxiv.org/abs/2603.02985

  • VIRGi:3Dガウススプラットにおける視点依存型インスタントリカラーリング [cs.CV, cs.GR]目的:3Dガウススプラットによる3Dシーンの色編集手法
    • 3Dシーンの表現とレンダリングにおいて,3Dガウススプラッティングは高性能な手法として注目されている。
    • 3Dガウススプラッティングでは,シーンの内容の外観を効率的かつ写実的に編集する手段が課題であった。
    • 視点依存効果を維持しつつ,3Dガウススプラットでモデル化されたシーンの色を迅速に編集することを可能にする。
    • 本研究では,色を拡散成分と視点依存成分に分離する新しいアーキテクチャと,多視点からの学習戦略を提案する。
    • 単一の編集画像を用いて,わずか2秒でシーン全体に色変更をシームレスに伝播させることが可能となる。
    • 多様なデータセットでの評価により,Neural Radiance Fieldsに基づく競合手法と比較して,大幅な改善が確認された。

    Link: https://arxiv.org/abs/2603.02986

  • 仲介業者を伴う単一サンプル二者間取引 [cs.IR, cs.GT]目的:仲介業者を伴う単一サンプル二者間取引における取引効率性
    • オンライン市場や分散型取引プラットフォームにおける仲介の重要性が増している。
    • 限られた情報下で効率的な仲介メカニズムの設計が課題となっている。
    • 最小限のデータで堅牢かつインセンティブ両立的な仲介を実現する方法を模索する。
    • 買い手と売り手の評価分布が同一の場合と確率的に順序付けられている場合を分析した。
    • 単純なメカニズムが,第一最良の取引利益,社会厚生,および利益に対して一定の係数近似を達成することを示した。
    • 仲介業者の存在による第一最良の取引利益と社会厚生への近似損失は比較的小さいことがわかった。

    Link: https://arxiv.org/abs/2603.03016

  • あらゆる解像度,あらゆるジオメトリ:マルチビューからマルチパッチへ [cs.CV]目的:高解像度深度・法線推定のためのマルチパッチ変換器
    • 3Dシーン理解には表面法線と深度の同時推定が不可欠であり,その重要性は高い。
    • 高解像度予測では,詳細な局所情報の保持と全体的な整合性の維持との間にトレードオフが存在する。
    • 本研究は,このトレードオフを克服し,高品質なジオメトリを効率的に推定することを目指す。
    • 提案手法URGTは,UnrealStereo4Kにおいて最先端の結果を達成した。
    • 深度推定のAbsRelを0.0582から0.0291に,RMSEを2.17から1.31にそれぞれ低減した。
    • 平均角度誤差も23.36度から18.51度に低減し,よりシャープで安定したジオメトリを生成した。

    Link: https://arxiv.org/abs/2603.03026

  • BRIGHT:乳腺病理のための協調的汎用・専門家基盤モデル [cs.CV]目的:乳腺病理における汎用性と専門性を兼ね備えた基盤モデルの開発
    • 病理診断は,がん治療において重要な役割を担うため,その精度向上は喫緊の課題である。
    • 特定の臓器系に特化した大規模な検証データセットや,専門的な知識を習得させるための訓練方法が不足している。
    • 乳腺病理に特化した基盤モデルを構築し,診断・予後予測等の臨床タスクにおける性能向上を目指す。
    • BRIGHTは,約21000万の病理組織画像タイルを用いて訓練され,汎用性と専門性を協調的に学習する。
    • 大規模な多施設共同データセットを用いた評価の結果,24の内部検証タスクのうち21個,10の外部検証タスクのうち5個で最先端の性能を達成した。
    • 本研究は,BRIGHTの臨床的有用性を示すとともに,特定の臓器系における基盤モデル開発のためのスケーラブルなテンプレートを提供する。

    Link: https://arxiv.org/abs/2603.03030

  • IoUCert:アンカーベース物体検出器のロバスト性検証 [cs.LG, cs.AI, cs.CR, cs.CV]目的:アンカーベース物体検出器のロバスト性検証手法
    • 安全性確保が重要視される自動運転やロボティクス分野において,物体検出の信頼性向上は不可欠である。
    • 既存の形式的検証手法は,複雑な座標変換やIoU指標により物体検出への適用が困難であった。
    • アンカーベースの物体検出器におけるロバスト性を効率的に検証するフレームワークを開発すること。
    • IoUCertは,非線形なボックス予測関数の精度劣化を回避する座標変換を提案し,IoUの最適境界を導出した。
    • 本手法により,SSD,YOLOv2,YOLOv3などの実用的なモデルに対するロバスト性検証が可能となった。
    • 様々な入力摂動に対して,従来の検証手法では困難であったロバスト性の保証を実現した。

    Link: https://arxiv.org/abs/2603.03043

  • EduVQA:教育向けAI生成動画品質評価のベンチマーク [cs.CY, cs.HC, cs.DB, cs.CV]目的:教育用AI生成動画の品質評価基準
    • 教育現場での視覚的学習の重要性が高まる中で,AI生成動画の活用が期待されている。
    • 既存の動画品質評価指標は,教育用動画特有の要求に対応できていない。
    • 教育用動画の品質を多角的に評価し,AI生成動画の教育への応用を促進する。
    • 本研究では,教育用AI生成動画の品質評価に特化したデータセットEduAIGV-1kを構築した。
    • 提示するEduVQAは,既存のVQAベースラインを上回る性能を示すことが確認された。
    • 空間・時間的忠実度やプロンプトとの整合性といった多次元的な評価を可能とする。

    Link: https://arxiv.org/abs/2603.03066

  • TikZilla:高品質データと強化学習によるテキストからTikZへのスケーリング [cs.AI, cs.CL, cs.CV]目的:テキスト記述からTikZプログラムを生成するタスクにおける性能向上
    • 科学研究における図表作成の自動化は,研究効率の向上に不可欠である。
    • 既存のテキストからTikZへのデータセットは規模が小さく,ノイズが多いため,複雑なTikZ表現に対応できない。
    • 高品質なデータセットと強化学習を用いることで,正確で意味的に忠実な図表生成を目指す。
    • DaTikZ-V4という,DaTikZ-V3の4倍以上の規模で品質も高いデータセットを構築した。
    • QwenモデルをベースとしたTikZillaは,SFTと強化学習の二段階パイプラインで学習された。
    • 人間による評価で,TikZillaはGPT-4oを上回り,GPT-5と同等の性能を示した。

    Link: https://arxiv.org/abs/2603.03072

  • TinyIceNet:衛星搭載FPGA推論のための低消費電力SAR海氷セグメンテーション [cs.CV, cs.AI, cs.AR]目的:海氷の段階的発達 (SOD) マッピングのためのコンパクトなセマンティックセグメンテーションネットワーク
    • 北極海の安全な航行には正確な海氷情報が不可欠であり,変化の激しい海氷状況下では迅速な情報が求められる。
    • 従来の地上処理は,ダウンリンク帯域幅,遅延,および大量データの送信に伴うエネルギーコストによって制約される。
    • 衛星搭載処理により,軌道上で海氷製品を生成し,これらの課題を解決することを目指す。
    • TinyIceNetは,AI4Arcticデータセットを用いて学習され,SARに配慮したアーキテクチャ簡略化と低精度量子化を組み合わせている。
    • Xilinx Zynq UltraScale+ FPGAプラットフォーム上で合成・展開した結果,リアルタイムに近い推論が可能となり,消費電力を大幅に削減した。
    • SODセグメンテーションにおいて75.216%のF1スコアを達成し,フル精度GPUベースラインと比較してエネルギー消費量を2倍削減した。

    Link: https://arxiv.org/abs/2603.03075

  • カスタムキープアライブキャッシュポリシー [cs.DC, cs.GT]目的:キープアライブキャッシュポリシーの市場設計
    • サーバーレスコンピューティングの効率的な運用には,キャッシュの適切な管理が不可欠である。
    • 従来のキャッシュミスコストの均一化の仮定は,アプリケーション特性を無視している。
    • 顧客のキャッシュミスコストに応じた最適なキャッシュ割り当てメカニズムの確立。
    • 本研究では,オンライン学習に基づくカスタムキャッシュ割り当てポリシーを提案した。
    • 提案ポリシーは,顧客の入札額に対して漸近的に効率的かつ単調非減少性を示す。
    • マイヤーソンの理論に基づく課金方式と,外部性に基づく課金方式の両方が良好な収益とインセンティブ特性を示すことが確認された。

    Link: https://arxiv.org/abs/2603.03091

  • MoECLIP:パッチ特化型エキスパートによるゼロショット異常検知 [cs.CV, cs.AI]目的:ゼロショット異常検知における異常検知タスクへのモデル特化
    • 画像認識技術は,産業や医療など幅広い分野で重要であり,異常検知はその応用先として期待される。
    • 既存手法は,パッチごとの特徴を考慮せず,画像全体を均一に処理するため,検知精度に限界がある。
    • パッチごとの特徴に基づいて専門家を動的にルーティングすることで,より高精度な異常検知を目指す。
    • MoECLIPは,Mixture-of-Expertsアーキテクチャを用いて,各画像パッチを特性に基づいてLoRAエキスパートにルーティングする。
    • Frozen Orthogonal Feature SeparationとETF損失を導入し,エキスパート間の機能冗長性を抑制し,表現能力を高める。
    • 14のベンチマークデータセットで既存の最先端手法を上回り,その有効性を実証した。

    Link: https://arxiv.org/abs/2603.03101

  • 肺超音波画像合成のためのア・トゥルウェーブレット拡散モデル [cs.CV]目的:肺超音波画像の合成手法
    • 肺超音波検査は安全で簡便だが,データ不足が機械学習の発展を阻害している。
    • 既存の生成手法は,解像度低下により診断に重要な微細構造を失う場合がある。
    • 微細構造を保持しつつ,臨床的に意味のあるラベルとの整合性を高めることを目指す。
    • 提案手法AWDiffは,既存手法と比較して歪みが少なく,知覚的な品質が高いことが示された。
    • 構造的忠実性と臨床的多様性が確認された。
    • ア・トゥルウェーブレット変換により,解像度を落とさずに微細構造を保持することに成功した。

    Link: https://arxiv.org/abs/2603.03125

  • 幾何学誘導強化学習による多視点一貫性のある3Dシーン編集 [cs.CV, cs.AI]目的:多視点一貫性を維持した3Dシーン編集の実現
    • 3Dコンテンツの作成・編集は,メタバース等において重要な役割を担う。
    • 編集後の多視点一貫性の確保が難しく,学習データの不足が課題である。
    • 強化学習を用いて,3D一貫性を保ちながら高品質な編集を実現する。
    • 本研究では,3D基礎モデルVGGTからの報酬を用いて強化学習による単一パスフレームワークRL3DEditを提案した。
    • RL3DEditは,VGGTの信頼度マップと姿勢推定誤差を活用し,2D編集の知識を3D一貫性のある空間に固定する。
    • 実験の結果,RL3DEditは安定した多視点一貫性を実現し,既存手法を上回る編集品質を示した。

    Link: https://arxiv.org/abs/2603.03143

  • ベンガル語長尺音声の書き起こしと話者区別に関する多様なアプローチの調査 [cs.SD, cs.AI]目的:ベンガル語長尺音声の書き起こしと話者区別の性能向上
    • 音声技術において,ベンガル語はリソースが限られており,発展が遅れている。
    • 長尺音声に対する書き起こしや話者区別は,特に技術的難易度が高い。
    • 本研究は,ベンガル語音声の書き起こしと話者区別の精度向上を目指す。
    • Whisper Mediumをベンガル語データでファインチューニングし,書き起こしに利用した。
    • pyannoteと独自のセグメンテーションモデルを統合し,多様な環境下での話者区別を実現した。
    • DER 0.27,WER 0.38を達成し,ハイパーパラメータ調整とデータ活用が有効であることを示した。

    Link: https://arxiv.org/abs/2603.03158

  • Kling-MotionControl技術報告 [cs.CV]目的:キャラクターアニメーションのロバスト性,正確性,表現力を高める統合DiTベースのフレームワーク
    • リアリティのある動画生成が求められるため,モーションダイナミクスの転送技術は重要である。
    • 既存手法では,全身の安定性と細かい表現力の両立が課題となっていた。
    • 多様なキャラクターに対する自然なモーションリターゲティングと忠実な外観維持を目指す。
    • Kling-MotionControlは,体,顔,手のモーション表現を巧みに調整し,構造的安定性と表現力を両立した。
    • アダプティブな学習により,多様なキャラクターへのモーション転送を可能にし,外観も忠実に再現する。
    • マルチステージ蒸留による高速化を実現し,実用性と高性能を両立した。

    Link: https://arxiv.org/abs/2603.03160

  • T2I安全制御のための条件付き活性化輸送 [cs.CV, cs.AI]目的:T2Iモデルにおける安全性確保のための手法
    • 画像生成AIの利用拡大に伴い,有害なコンテンツ生成のリスクが重要視されている。
    • 既存の安全性制御手法は,画像品質を損なうという課題があった。
    • 有害コンテンツ生成を抑制しつつ,良好な画像品質を維持することを目指す。
    • 提案手法CATは,Z-ImageとInfinityという2つの最新アーキテクチャで有効性を検証した。
    • CATは,攻撃成功率を大幅に低減しつつ,画像品質を維持することが示された。
    • 活性化マップを条件付けすることで,安全でない活性化領域のみに干渉を最小限に抑える。

    Link: https://arxiv.org/abs/2603.03163

  • ProSMA-UNet:近接スパーススキップ特徴選択のためのデコーダ条件付け [cs.RO, eess.SP, cs.CV]目的:医療画像セグメンテーションにおけるスキップ特徴選択の改善
    • 医療画像セグメンテーションは診断や治療計画において不可欠であり,高精度なセグメンテーション技術が求められている。
    • 従来のU-Netでは,スキップコネクションを通じてノイズや背景情報が伝播し,セグメンテーション精度を低下させる場合がある。
    • ProSMA-UNetは,デコーダ条件付きスパース特徴選択により,不要な情報を効果的に除去し,セグメンテーション精度を向上させる。
    • ProSMA-UNetは,軽量な畳み込みと$\ell_1$近接演算子を用いて,スパースなゲートを生成し,ノイズを抑制する。
    • デコーダ条件付きチャネルゲーティングにより,意味的に無関係なチャネルをさらに抑制し,セグメンテーション性能を向上させる。
    • 2Dおよび3Dベンチマークにおいて,最先端の性能を示し,特に困難な3Dセグメンテーションタスクで大幅な改善が見られた。

    Link: https://arxiv.org/abs/2603.03187

  • MoD-DPO:マルチモーダルLLMにおけるクロスモーダルな幻覚を軽減するためのモダリティ非依存型選好最適化 [cs.CV, cs.CL, cs.LG]目的:マルチモーダルLLMにおけるクロスモーダルな幻覚の軽減
    • マルチモーダルLLMは,画像と音声の理解において高い性能を示すが,幻覚が発生しやすい。
    • 不適切な相関や言語事前知識の偏りにより,クロスモーダルな幻覚が頻繁に発生する。
    • モダリティ間の不要な相互作用を抑制し,より信頼性の高いマルチモーダルモデルを実現する。
    • MoD-DPOは,モダリティ間の不変性と関連モダリティへの感度を明示的に強制する正則化項を導入することで,幻覚を軽減する。
    • 言語事前知識への偏りを抑制するペナルティを組み込むことで,テキストのみの幻覚しやすい応答を抑制する。
    • 複数のオーディオビジュアル幻覚ベンチマークにおいて,MoD-DPOは既存の選好最適化手法を上回り,知覚精度と幻覚に対する耐性を向上させる。

    Link: https://arxiv.org/abs/2603.03192

  • 潜在的運動における世界の連鎖:世界モデル思考 [cs.CV, cs.AI, cs.RO]目的:視覚,言語,行動モデルにおける世界の予測と時間的因果構造の組み込み
    • 具現化された知能を実現するため,視覚と行動を結びつけるモデルが重要である。
    • 既存モデルは,視覚的な動的構造の予測や時間的な因果関係を十分に考慮していない。
    • 世界のモデルと潜在的運動表現を統合し,効率的な視覚運動学習を目指す。
    • CoWVLAは,背景の冗長な再構成を避けつつ,時間的な推論と世界知識を活用する。
    • 潜在的運動の連続性と世界知識を保持しつつ,計算効率と解釈性を実現している。
    • ロボットシミュレーションの実験で,既存の手法を上回り,効果的な事前学習パラダイムであることを示している。

    Link: https://arxiv.org/abs/2603.03195

  • ファインチ grained オープンワールド分類のためのSpecificity-aware強化学習 [cs.CV]目的:ファインチ grained オープンワールド設定における正確かつ具体的な分類
    • 画像認識技術は,多様な分野で応用が拡大しており,その重要性は増している。
    • 既存の画像分類モデルは,未知のカテゴリに対する汎化性能に課題がある。
    • モデルが持つ潜在的な知識を活用し,正確性と具体性を両立する分類手法の開発。
    • 提案手法SpeciaRLは,動的な検証者ベースの報酬信号を用いることで,正確性を損なわずに具体性を向上させる。
    • 広範なファインチ grained ベンチマークにおいて,既存手法を上回り,正確性と具体性の最適なトレードオフを実現した。
    • SpeciaRLは,オープンワールドファインチ grained画像分類の進歩に貢献する。

    Link: https://arxiv.org/abs/2603.03197

  • ACE-Brain-0:多様な具現化における空間知能を共通基盤とする [cs.RO, cs.CL, cs.CV]目的:多様な具現化における汎用的な知能の実現
    • 自動運転,ロボティクス,UAVなど,多様な具現化に対応する汎用的な知能が求められている。
    • 異なる具現化での学習は,ロングテールデータ,勾配干渉,破滅的忘却といった問題が発生しやすい。
    • 空間知能を共通基盤とすることで,具現化間の知識転移を円滑にし,汎化性能と専門性を両立することを目指す。
    • ACE-Brain-0は,空間推論,自動運転,具現化された操作を単一のマルチモーダル大規模言語モデルに統合した汎用的な基盤モデルである。
    • 提案するSSRパラダイムは,共有空間基盤の確立,ドメイン専門家の育成,データフリーなモデルマージによる調和を可能にする。
    • 24の空間および具現化関連ベンチマークにおいて,競争力のある,あるいは最先端の性能を達成した。

    Link: https://arxiv.org/abs/2603.03198

  • メッシュ上の2次測地線 [cs.GR]目的:離散測地線の表現と最適化のフレームワーク
    • 3Dモデルの形状解析やテクスチャマッピングなど,様々な応用分野で測地線距離の計算は不可欠である。
    • 粗いメッシュや不均一なメッシュでは,線形法では測地線を正確に計算できず,アーティファクトが発生しやすい。
    • メッシュ品質に依存せず,より正確な測地線距離を計算し,線形法のアーティファクトを低減すること。
    • 本研究では,ピースワイズ2次要素を用いて,点や曲線ソースからの2乗測地線距離を計算する新しい手法を提案する。
    • 提案手法は,メッシュ品質に関わらず,平坦な距離を正確に再現し,湾曲したメッシュ上での既存手法よりも精度を向上させる。
    • また,ソースは頂点に限定されず,メッシュ上の任意の場所に配置できる。

    Link: https://arxiv.org/abs/2603.03231

  • COP-GEN:コペルニクス地球観測データに対する潜在拡散トランスフォーマー -- 設計による確率的生成 [cs.CV]目的:異種地球観測モダリティの同時分布のモデリング
    • 地球観測は,光学,レーダー,標高,土地被覆など多様なセンサーデータに依存しており,その統合が重要である。
    • 従来の決定論的モデルは,条件付き平均に収束しやすく,データの不確実性やばらつきを捉えきれないという課題がある。
    • 本研究は,条件付き分布としてクロスモーダルマッピングをパラメータ化することで,不確実性を考慮したデータ生成を可能とする。
    • COP-GENは,光学,レーダー,標高モダリティにおいて,多様でありながら物理的に整合性のとれた実現を生成する。
    • モデルは,意味のあるクロスモーダル構造を捉え,条件付け情報が増加するにつれて出力の不確実性を系統的に調整する。
    • これらの結果は,地球観測における確率的生成モデリングの実用的な重要性を示唆し,単一参照の点ごとのメトリックを超えた評価プロトコルを促す。

    Link: https://arxiv.org/abs/2603.03239

  • UniG2U-Bench: 統一モデルはマルチモーダル理解を進めるか [cs.CV, cs.AI]目的:マルチモーダル理解における生成の有効性評価
    • 視覚情報と言語情報を統合するマルチモーダル研究は,AIの汎用性向上に不可欠である。
    • 既存のベンチマークでは,生成が理解にどう貢献するかを系統的に評価できていない。
    • 生成を通して理解が促進される具体的なタスクを特定し,そのメカニズムを解明する。
    • 統一モデルは,基本となるVision-Language Model (VLM)よりも性能が劣ることが多い。
    • 空間認識,視覚的錯覚,多段階推論など,特定のタスクでは生成による性能向上が見られた。
    • 類似の推論構造を持つタスクや同じアーキテクチャのモデルは,一貫した振る舞いを示した。

    Link: https://arxiv.org/abs/2603.03241

  • DuoMo:ワールド空間における人体再構成のための二重モーション拡散 [cs.CV]目的:ワールド空間座標における人体モーションの再構成
    • 映像から自然な人体モーションを理解することは,VR/ARやロボティクスなど多くの応用分野で重要である。
    • ノイズや不完全な観察を含む映像からのモーション再構成は,多様性と一貫性の両立が課題である。
    • 本研究は,多様なシーンや軌跡において,ノイズや欠損のある映像からでも精度の高いモーション再構成を目指す。
    • 提案手法DuoMoは,カメラ空間モデルとワールド空間モデルの二つの拡散モデルを組み合わせることで,モーション学習を効率化する。
    • EMDBデータセットにおいて,ワールド空間再構成誤差を16%削減し,足の滑りを抑制する性能を達成した。
    • RICHデータセットにおいても,ワールド空間再構成誤差を30%削減する優れた結果を得ている。

    Link: https://arxiv.org/abs/2603.03265

  • LoGeR:ハイブリッドメモリによる長文脈幾何学的再構成 [cs.CY, cs.CV, cs.LG]目的:長尺動画における高精度な3次元再構成
    • 動画理解において,長時間の文脈を捉えることは重要である。しかし,計算量やメモリ容量が課題となる。
    • 既存手法では,長尺動画への対応が困難であり,再構成精度が低下する問題がある。
    • チャンク間のコヒーレンスを維持しつつ,長尺動画の3次元再構成を実現することを目指す。
    • LoGeRは,従来の最先端手法と比較して,KITTIデータセットでのATEを74%以上削減した。
    • 学習時に128フレームのシーケンスで学習し,推論時に数千フレームまでのシーケンスに一般化できる。
    • 提案手法は,最長19,000フレームのシーケンスを持つVBRデータセットでも,ロバストで一貫性のある再構成を達成した。

    Link: https://arxiv.org/abs/2603.03269

  • 言語モデリングを超えて:マルチモーダル事前学習の探求 [cs.CV]目的:マルチモーダル事前学習を制御された実験により検証し,その支配要因の解明
    • 基礎モデルの能力向上には,言語だけでなく視覚情報の活用が不可欠である。
    • 既存の研究では,言語事前学習の影響を受けずにマルチモーダルモデルを設計・評価することが困難である。
    • 言語と視覚の両方において,効率的かつ効果的なスケーリングを実現するアーキテクチャの探索。
    • RAE(Representation Autoencoder)が,視覚的理解と生成の両方に優れる最適な統一視覚表現を提供することを示した。
    • 視覚データと言語データは互いに補完的であり,下流タスクで相乗効果を生み出すことを明らかにした。
    • MoE(Mixture-of-Experts)アーキテクチャが,言語と視覚のスケーリングの非対称性を調和させ,統一されたマルチモーダルモデルの道を拓く。

    Link: https://arxiv.org/abs/2603.03276

  • テザー:対応に基づく軌道変形を用いた自律的な機能的遊び [cs.RO, cs.AI, cs.CV]目的:自律的な機能的遊びの実現
    • ロボット工学において,人間による手間のかかるデモンストレーションの代替として,相互作用と経験から学習する能力は重要である。
    • 多様な環境状態や未知の状況に対応できるロバストなポリシーと,継続的に有用な経験を生み出す方法が課題である。
    • 少ないデモンストレーションから,タスク指向の相互作用を通じて自律的な学習サイクルを確立し,ロボットのデータ収集を効率化する。
    • 提案手法テザーは,少数のデモンストレーション(10個以下)から,シーン内の意味的キーポイントに対応づけを行い,アクションを調整することで,高いデータ効率とロバスト性を実現した。
    • ビジョン言語モデルを活用したタスク選択,実行,評価,改善のサイクルを繰り返すことで,人間の介入を最小限に抑えつつ,多様で高品質なデータセットを生成した。
    • 本研究は,家庭環境下で長時間にわたる自律的なマルチタスクプレイを可能にし,クローズドループ模倣学習ポリシーの性能向上に貢献する1000以上の専門レベルの軌道データを生成した。

    Link: https://arxiv.org/abs/2603.03278

  • 自律ヒューマノイド全身移動操作のための統一マルチモーダル制御:ULTRA [cs.RO, cs.CV]目的:ヒューマノイドの自律かつ多様な全身移動操作の実現
    • ヒューマノイドロボットの実用化には不可欠な技術であり,人間のような複雑な動作を実現する鍵となる。
    • 既存手法は,データ不足や汎化性能の低さ,事前定義されたモーションへの依存といった課題を抱えている。
    • 知覚情報と高レベルなタスク仕様から動作を生成し,多様な環境下での自律的な動作を可能にすること。
    • ULTRAは,物理ベースのニューラルリターゲットアルゴリズムにより,大規模なモーションキャプチャデータをヒューマノイドに適用し,物理的整合性を保つ。
    • また,密な参照と疎なタスク仕様の両方をサポートする統一マルチモーダルコントローラを学習し,多様なセンシングに対応する。
    • シミュレーションと実機Unitree G1での評価により,ULTRAがエゴセントリックな知覚情報を用いた自律的な全身移動操作において,追跡のみのベースラインを上回ることが示された。

    Link: https://arxiv.org/abs/2603.03279

  • 包丁を使った皮むき:微細な操作と人間の嗜好との整合 [cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY]目的:微細な操作と人間の嗜好の整合
    • 料理,外科手術,職人技など,多くの重要な操作は自動化が困難である。
    • タスクの質が連続的かつ主観的であり,定量的な評価が難しい。
    • 人間の嗜好に合致したタスク品質の向上を目指す。
    • 力覚を考慮したデータ収集と模倣学習により,頑健な初期ポリシーを学習した。
    • 学習した報酬モデルと定量的指標を組み合わせ,人間のフィードバックに基づきポリシーを微調整した。
    • 50~200件の皮むき軌跡で,90%以上の成功率を達成し,最大40%の性能向上を示した。

    Link: https://arxiv.org/abs/2603.03280

  • CFG-Ctrl:制御に基づく分類器不要型拡散ガイダンス [cs.CV, cs.LG]目的:拡散モデルにおけるセマンティックアライメントの強化
    • 拡散モデルは画像生成において高品質な結果を生み出すため,その制御手法の改善が重要である。
    • 従来のCFGは線形制御に依存するため,大規模なガイダンススケールで不安定性やセマンティック精度の低下が生じる。
    • スライディングモード制御を導入し,セマンティックエラーに対する収束性とロバスト性を向上させる。
    • 提案手法SMC-CFGは,Stable Diffusion 3.5, Flux, Qwen-Imageを含む様々なモデルで,セマンティックアライメントの性能を向上させる。
    • SMC-CFGは従来のCFGと比較して,より広い範囲のガイダンススケールで安定した性能を示す。
    • 本研究は,スライディングモード制御による非線形フィードバックが,拡散モデルの収束性を理論的に保証することを示した。

    Link: https://arxiv.org/abs/2603.03281

  • MIBURI:表現豊かなインタラクティブなジェスチャ合成に向けて [cs.CV, cs.GR, cs.HC]目的:表現豊かな全身ジェスチャおよび表情のリアルタイム生成
    • 対話型エージェントの自然な人間とのインタラクション実現に,ジェスチャは不可欠である。
    • 既存のジェスチャ生成手法は,柔軟性や多様性に欠け,人間らしい表現が難しい。
    • リアルタイムかつ因果的な枠組みにより,自然で文脈に沿ったジェスチャ生成を目指す。
    • MIBURIは,LLMに基づいた音声・テキスト埋め込みを条件とした2次元の因果的枠組みを採用している。
    • ボディパーツを意識したジェスチャコーデックを用いることで,階層的なモーション情報を効率的に表現する。
    • 比較評価により,MIBURIが自然で文脈に合ったジェスチャを生成することが示された。

    Link: https://arxiv.org/abs/2603.03282

  • Utonia:あらゆる点群に対する単一エンコーダへ [cs.CV]目的:多様な点群データの統合による汎用的な表現学習
    • 点群データは,ロボティクスや自動運転など幅広い分野で利用が拡大している。
    • 各分野固有のデータ形式や特性の違いが,汎用的なモデル開発の課題となっている。
    • 異なるドメインの点群データを統合し,共通の表現空間を学習することで解決を目指す。
    • Utoniaは,リモートセンシング,LiDAR,RGB-D,CADモデルなど多様な点群データに対し,一貫した表現空間を学習した。
    • ドメインを統合的に学習することで,知覚能力の向上と新たな振る舞いの創出が確認された。
    • Utoniaの表現は,ロボット操作や視覚言語推論など,様々なタスクにおいて性能向上に寄与した。

    Link: https://arxiv.org/abs/2603.03283

  • ALARM:不確実性定量を用いた複雑環境モニタリングにおけるMLLMベースの異常検知の自動化 [cs.LG, cs.AI, cs.CV]目的:複雑環境におけるMLLMベースの異常検知システムの開発
    • 近年,視覚情報の異常検知において,大規模言語モデル(LLM)の活用が注目されている。
    • 複雑な環境下では異常が文脈に依存し曖昧になりやすく,正確な判断が困難である。
    • 不確実性定量を取り入れることで,より堅牢で信頼性の高い異常検知を目指す。
    • 本研究では,不確実性定量と品質保証技術を統合したALARMフレームワークを提案した。
    • ALARMは,推論パイプラインと計算プロセスに基づき,ロバストかつ正確な性能を実現する。
    • スマートホームと創傷画像分類のデータセットを用いた実験により,ALARMの優れた汎用性と意思決定の信頼性が示された。

    Link: https://arxiv.org/abs/2512.03101

  • ドメイン横断型乳児の泣き声分類のためのLMUベースの逐次学習と事後アンサンブル融合 [eess.AS, cs.LG, cs.SD]目的:乳児の泣き声原因のドメイン横断的な分類
    • 乳児の健康状態モニタリングにおいて,泣き声は重要な情報源である。
    • 泣き声は短く非定常な信号であり,アノテーションが限られており,ドメイン間のシフトが大きい。
    • 異なるデータセット間での汎化性能向上と,効率的な実時間処理の実現。
    • 提案手法は,MFCC,STFT,ピッチ特徴を融合した多分岐CNNエンコーダと,強化されたLegendre Memory Unit (LMU) を用いる。
    • LMUはLSTMと比較して,少ないパラメータで安定した系列モデリングが可能である。
    • 事後アンサンブル融合により,ドメイン特有の知識を保持しつつ,データセットバイアスを軽減し,Baby2020およびBaby CryingデータセットでマクロF1スコアの改善が確認された。

    Link: https://arxiv.org/abs/2603.02245