arXiv雑要約

画像・音声 - 2026/04/29 公開

  • 不確実性の中を歩む:音声認識型大規模言語モデルにおける不確実性推定の経験的研究 [eess.AS, cs.AI, cs.CL, cs.LG, cs.SD]目的:音声認識型大規模言語モデルにおける不確実性推定手法の性能評価
    • 近年,音声とテキストの両方を処理可能なモデルが発展したが,その信頼性が課題となっている。
    • 大規模言語モデルは幻覚や過信した出力を生成することがあり,不確実性の推定が重要である。
    • 音声条件付き生成における特有の課題を考慮し,不確実性推定の有効性を検証すること。
    • セマンティックレベルおよび検証に基づく手法が,一般的な音声推論ベンチマークにおいてトークンレベルのベースラインを上回る性能を示すことが判明した。
    • 信頼性重視のベンチマークにおいては,不確実性推定手法の有効性がモデルやベンチマークに依存する傾向が見られた。
    • 不確実性に基づいた適応型推論の潜在的な応用可能性についても検討した。

    Link: https://arxiv.org/abs/2604.25591

  • 腹部CTにおけるシミュレーションされたドメインシフト下での基礎セグメンテーションモデルの頑健性評価:ヘルスデジタルツイン展開への示唆 [eess.IV, cs.CV]目的:腹部CT画像における脾臓セグメンテーションに対するSAM(ViT-B)の頑健性の系統的な評価
    • 医療画像診断の精度向上は,患者ケアの質を直接左右するため,非常に重要である。
    • 基礎モデルの医療画像における汎用性は確認されているものの,臨床現場の現実的なドメインシフトに対する頑健性は不明な点が多い。
    • ヘルスデジタルツインにおける解剖学的モデリングや臓器モニタリングのための,セグメンテーションモデルの信頼性を担保すること。
    • SAMは,標準的な評価プロトコルにおいて,平均Dice係数0.9145という高い精度を示した。
    • 様々なCT画像ドメインシフトに対し,平均Dice係数の絶対変化は0.01以下に抑えられ,安定したセグメンテーション性能を維持した。
    • 本研究結果は,SAMが中程度のCTドメインシフト下でも頑健な性能を発揮し,医療画像セグメンテーション研究の堅牢な基盤となり得ることを示唆する。

    Link: https://arxiv.org/abs/2604.25685

  • 量子に着想を得た堅牢かつスケーラブルなSAR物体分類 [quant-ph, cs.CV, physics.comp-ph]目的:SAR画像物体の分類における堅牢性と効率性
    • SAR画像はノイズが多く,動的範囲が広いため,高精度な分類が求められる。
    • エッジデバイスでの利用には,モデルサイズと分類精度のバランスが課題となる。
    • データ汚染に対する堅牢性と,モデルの効率化を両立することを目指す。
    • テンソルネットワークは,データ汚染に対する高い耐性を持つことが示された。
    • 従来のニューラルネットワークと比較して,モデルのサイズを削減しながら高い分類精度を維持できる。
    • 本研究は,レーダー技術や深層学習の分野に貢献すると考えられる。

    Link: https://arxiv.org/abs/2604.25755

  • 量子校正プロット理解のためのビジョン-言語モデルのベンチマーク:QCalEval [quant-ph, cs.CV]目的:量子校正プロットの解釈能力の評価
    • 量子計算の精度向上には,実験データの適切な解釈が不可欠である。
    • 量子校正プロットの解釈は専門知識を要し,自動化が困難であった。
    • ビジョン-言語モデルによる量子校正プロットの理解度を定量的に評価する。
    • QCalEvalは,量子校正プロットに関する初のビジョン-言語モデルベンチマークである。
    • 汎用的なゼロショットモデルの平均スコアは72.3%であり,一部のモデルはマルチ画像インコンテキスト学習で性能が低下した。
    • 教師ありファインチューニングによりゼロショット性能は向上するが,マルチモーダルなインコンテキスト学習のギャップを埋めるには至らなかった。

    Link: https://arxiv.org/abs/2604.25884

  • 補償による実用的な露出補正 [cs.CV]目的:実用的な露出補正手法の開発
    • 画像認識において,適切な明るさは視覚品質に不可欠であり,多様な環境下での応用が求められている。
    • 既存手法は,限定的なモデル化や複雑な計算により,未知のシーンへの適応性や効率性に課題があった。
    • 未知の環境下でも高品質かつ効率的に露出を補正できる汎用的なモデルを構築すること。
    • 提案手法(PEC)は,露出感応型補償を用いた汎用的なモデルと,シーン適応型補償を促進する敵対的関数により,高品質と効率を両立している。
    • PECは,複雑な推論を回避する安定した反復縮小スキームを採用しており,高い処理速度を実現している。
    • 8つのデータセットでの実験により,未知環境への適応性と柔軟性が確認された。2K画像処理に0.0009秒しか要しない。

    Link: https://arxiv.org/abs/2212.14245

  • フィードバック・フォーマーを用いた細胞画像セグメンテーションの精度向上 [cs.CV]目的:細胞画像セグメンテーションにおける精度向上
    • 細胞の理解は生命科学研究の基礎であり,正確なセグメンテーションが不可欠である。
    • Transformerは画像認識で優れているが,細胞セグメンテーションでは詳細情報の欠如が課題となる。
    • Transformerの弱点である詳細情報の欠如を補い,セグメンテーション精度を向上させる。
    • 提案手法であるFeedback Formerは,Transformerをエンコーダーとし,フィードバック機構を組み込んだ新しいアーキテクチャである。
    • 3つの細胞画像データセットで実験した結果,フィードバックを用いない手法を上回り,高いセグメンテーション精度を示した。
    • 従来のフィードバック手法と比較して,計算コストを抑えつつ,より高い精度を実現した。

    Link: https://arxiv.org/abs/2408.12974

  • BEVal:自動運転におけるBEVセグメンテーションモデルのクロスデータセット評価研究 [cs.CV, cs.RO]目的:BEVセグメンテーションモデルの汎化性能評価
    • 自動運転の安全性向上には,周囲環境の正確な認識が不可欠である。
    • 単一データセットでの学習は,環境変化への対応が難しく,実用性に課題がある。
    • 異なるデータセットでの性能評価を通して,汎化性能の高いモデルを開発する。
    • 既存のBEVセグメンテーションモデルは,データセットや環境によって性能が大きく変動することが示された。
    • カメラとLiDARといったセンサー構成がモデルの汎化性能に影響を与えることが明らかになった。
    • 複数データセットでの学習が,単一データセットでの学習よりも高い性能をもたらすことが確認された。

    Link: https://arxiv.org/abs/2408.16322

  • PortraVec:テキスト誘導による画像ベースのポートレートベクター化 [cs.CV]目的:画像ベースのポートレートをテキスト制御可能なベクター化
    • 人物のスケッチ生成は特殊なタスクであり,編集可能性が求められる。
    • 既存のベクター化手法は,顔の整合性や細かいディテールを捉えきれていない。
    • 顔の構造を維持しつつ,セマンティックな制御を可能にするベクター化手法を開発する。
    • PortraVecは,Attention-aware Offset Samplingを用いて顔構造を捉え,ディテールのずれを修正する二段階の生成モジュールを提案。
    • Region-based Parameter Freezingに基づいたテキスト誘導による操作モジュールにより,局所的なセマンティック編集とグローバルな整合性の維持を実現。
    • 実験の結果,PortraVecは最先端手法と比較して,構造的一貫性,視覚的な忠実度,セマンティック制御性に優れていることが示された。

    Link: https://arxiv.org/abs/2410.04182

  • AIDOVECL:AI生成による車両の周辺画像データセット - 目線レベルでの分類と位置推定 [cs.CV, cs.AI, cs.LG]目的:車両の分類と位置推定のためのAI生成データセット
    • コンピュータビジョンの発展には画像アノテーションが不可欠だが,手作業によるアノテーションには時間と労力がかかる。
    • 特に自動運転や都市計画において,多様な車両画像のデータ不足が課題となっている。
    • AIによる周辺画像生成技術を用いて,アノテーションの労力を削減し,データ不足を解消することを目指す。
    • AIDOVECLデータセットの導入により,車両検出性能が最大約10%向上した。
    • 特に多様な背景,オブジェクトのスケール,配置条件下では,性能向上率は最大約40%に達した。
    • 表現の少ないクラスにおいて,真陽性率が最大約50%向上する効果が確認された。

    Link: https://arxiv.org/abs/2410.24116

  • ARQ:正確かつ検証可能なロバストなDNNのための混合精度量子化フレームワーク [cs.LG, cs.CR, cs.CV]目的:深層ニューラルネットワークの正確性と検証可能なロバスト性の維持
    • 深層学習の効率的な実行には,モデルの軽量化が不可欠であり,量子化はその主要な手法の一つである。
    • 量子化におけるロバスト性の保証は計算コストが高く,十分に検討されてこなかった。
    • 量子化を通して,深層学習モデルの精度とロバスト性を両立させることを目指す。
    • ARQは,強化学習を用いて,精度とロバスト性を兼ね備えたDNN量子化を効率的に実現する。
    • ARQは,様々なベンチマークと摂動レベルにおいて,最先端の量子化手法を上回る性能を示す。
    • ARQで量子化されたネットワークは,浮動小数点演算のDNNと同等の性能を,より少ない計算資源で達成する。

    Link: https://arxiv.org/abs/2410.24214

  • 継続学習のためのソフト・トランスフォーマー [cs.LG, cs.AI, cs.CV]目的:継続学習のためのパラメータ効率の良いフレームワーク
    • 深層学習モデルの応用範囲拡大に不可欠であり,様々なタスクへの適応が求められている。
    • 逐次的に学習を行うと,過去の知識を忘却するCatastrophic Forgettingが課題となる。
    • 過去の知識を保持しつつ,効率的に新しいタスクに適応する手法の開発を目指す。
    • ソフト・トランスフォーマーは,事前学習済みのTransformerモデルを凍結しつつ,タスク固有の乗算マスクを学習することで,効率的な適応を実現した。
    • 従来のプロンプトやアダプターベースの手法と比較して,少ないパラメータで高い性能を発揮し,最先端の結果を達成した。
    • 二重プロンプト機構との組み合わせにより,知識の保持能力を高め,Catastrophic Forgettingを軽減することに成功した。

    Link: https://arxiv.org/abs/2411.16073

  • ビデオ検索システムを強化するためのマルチモーダル文脈化サポート [eess.SY, cs.SY, cs.CV, cs.AI]目的:ビデオ検索システムの精度向上
    • 動画コンテンツの利用拡大に伴い,効率的な検索技術の重要性が増している。
    • 既存システムは静止画に偏っており,動画全体の文脈を捉えきれていない。
    • 動画全体の情報を活用し,より高度な意味理解に基づく検索を実現すること。
    • 本研究では,複数のフレームとマルチモーダルデータを統合することで,動画の潜在的な意味を抽出するパイプラインを提案。
    • 提案システムは,単一の静止画ではなく,動画クリップから推論できる情報を重視することで,より深い理解を可能にする。
    • その結果,従来システムよりも高精度な検索結果が得られることが期待される。

    Link: https://arxiv.org/abs/2412.07584

  • ボリュumetricデータからの3D再構成モデルの体積計算のための新しい3Dバイナリインデックスツリー [cs.GR, cs.AI, cs.CV]目的:3D再構成モデルの体積計算
    • 医療画像分野では,3D再構成物体の定性分析のため,正確な3D体積計算が不可欠である。
    • 従来の体積計算手法では,計算コストが高く,効率性に課題があった。
    • 本研究は,高速かつ正確な3D体積計算アルゴリズムを開発し,医療画像解析の効率化を目指す。
    • 多変量解析,マーチングキューブ法,バイナリインデックスツリーを組み合わせたアルゴリズムを開発した。
    • 提案アルゴリズムは,スキャンライン順にデータを処理し,Fenwick treeを構築することで高速なクエリを実現する。
    • 単純な形状から複雑な構造まで,体積計算の誤差は±0.004 cm³以内であり,更なる改善の余地がある。

    Link: https://arxiv.org/abs/2412.10441

  • パーソナライゼーションツールキット:大規模視覚言語モデルの学習不要なパーソナライズ [cs.CV]目的:大規模視覚言語モデルのパーソナライズ手法
    • 視覚と言語を理解するAIの応用範囲拡大に不可欠であるため。
    • 各アイテムごとに学習が必要で,実用化が困難である。
    • 学習を不要にし,実用的なパーソナライズを実現すること。
    • 本研究では,学習不要なパーソナライズ手法「\ours」を提案した。
    • 既存の学習ベースの手法を上回る性能を達成した。
    • 画像と動画の両方で,効率的かつ柔軟なマルチコンセプトパーソナライズを可能にする。

    Link: https://arxiv.org/abs/2502.02452

  • 深度整合性事前知識と微細パッチ戦略による高精度二値画像セグメンテーション [cs.CV]目的:高精度二値画像セグメンテーションの実現
    • 高解像度画像からの微細オブジェクト抽出は,コンピュータビジョンの重要な課題である。
    • 既存手法は,精度と効率のトレードオフに陥っており,精度が低いか,計算コストが高い。
    • 深度情報を用いることで,セグメンテーション精度と効率の両立を目指す。
    • 提案手法PDFNetは,RGB画像と擬似深度情報を融合し,深度を意識した構造認識を行う。
    • 深度整合性事前知識損失を用いることで,セグメンテーションにおける深度の一貫性を強化する。
    • DIS-VDとDIS-TEにおいて,最先端の性能(Fmax 0.915)を,拡散ベース手法よりも少ないパラメータで達成した。

    Link: https://arxiv.org/abs/2503.06100

  • NimbleReg:複数の解剖学的領域の表面表現を用いた軽量な深層学習ベースの微分同相画像登録フレームワーク [cs.CV]目的:複数の領域の表面表現を用いた画像登録手法
    • 画像登録は医療画像解析において不可欠であり,疾患の診断や治療計画に貢献する。
    • 既存の深層学習ベースの手法は計算コストが高く,汎用性に課題がある。
    • 軽量かつ高精度な画像登録手法を開発し,計算資源の制約下でも利用可能にすること。
    • 本研究では,PointNetをバックボーンとする軽量な深層学習フレームワークNimbleRegを提案する。
    • NimbleRegは,複数の領域の表面表現を利用し,微分同相変換を生成することで高精度な画像登録を実現する。
    • 提案手法は,既存の深層学習ベースの手法と同等の精度を,より少ない計算コストで達成できることを示す。

    Link: https://arxiv.org/abs/2503.07768

  • AIベース3D放射線画像再構成における表現パラダイム:系統的レビュー [cs.CV, cs.AI, cs.GR]目的:AIベース3D放射線画像再構成アルゴリズムの表現パラダイム
    • 臨床診断において高品質な医療画像が不可欠であり,3D画像再構成は重要な研究分野である。
    • 従来の再構成手法では,計算コストや被ばく線量の問題が存在する。
    • AIを用いて再構成精度向上と,被ばく線量・処理時間の低減を目指す。
    • AIベースの3D再構成アルゴリズムを,離散グリッド,基底関数,明示的プリミティブ,暗黙的ニューラル表現の4つの表現ファミリーに分類した。
    • 暗黙的ニューラル表現の一種であるラディアンスフィールド法の位置づけを明確にした。
    • 評価指標やベンチマークデータセットをまとめ,今後の研究の方向性を示した。

    Link: https://arxiv.org/abs/2504.11349

  • 反復的な暗黙的ニューラル表現 (I-INR) [cs.CV]目的:暗黙的ニューラル表現の性能向上
    • 信号処理や画像処理分野において,ニューラルネットワークを用いた表現は重要な役割を担う。
    • 従来の暗黙的ニューラル表現は,高周波情報の保持やノイズに対する頑健性に課題があった。
    • 本研究は,反復的な改良プロセスを通じて,これらの課題を解決することを目指す。
    • 提案手法I-INRは,既存のINRアーキテクチャに容易に組み込むことが可能である。
    • I-INRは,パラメータの増加を最小限に抑えつつ,大幅な性能向上を実現する。
    • 画像フィッティング,画像ノイズ除去,オブジェクト占有予測など,様々なタスクでWIRE, SIREN, Gaussを上回る性能を示す。

    Link: https://arxiv.org/abs/2504.17364

  • DEGround:均一なフレームワークによる一人称視点3D視覚的グラウンディングの有効なベースライン [cs.DM, cs.CV]目的:一人称視点3D視覚的グラウンディングにおける性能向上
    • ロボットやAIエージェントが環境を理解し,指示に従うために不可欠な技術。
    • 既存手法は多段階パイプラインであり,物体認識とグラウンディング間の知識伝達が不十分。
    • 検出とグラウンディングで物体レベルの情報を共有する均一なフレームワークを構築し,性能を向上させる。
    • DEGroundは,検出とグラウンディングの両方に共通の物体表現を用いることで,物体レベルの知識伝達を改善する。
    • Regional Activation GroundingモジュールとQuery-wise Modulationモジュールを導入し,詳細な指示のグラウンディングを強化する。
    • EmbodiedScanデータセットにおいて,既存手法を大幅に上回り,全体的な精度で7.52%の性能向上を達成した。

    Link: https://arxiv.org/abs/2506.05199

  • SIV-Bench:社会的相互作用の理解と推論のためのビデオベンチマーク [cs.CL, cs.CV, cs.AI]目的:社会的相互作用の理解と推論能力の体系的な評価
    • 人間と機械の自然な対話を実現するには,社会的な相互作用の理解が不可欠である。
    • 既存のベンチマークでは,社会的な相互作用の多面性を十分に評価できていない。
    • 大規模多層言語モデル(MLLM)の社会的知性を向上させるための評価基盤を提供する。
    • SIV-Benchは,社会Scene理解(SSU)は比較的良好だが,社会状態推論(SSR)と社会力学予測(SDP)は未熟であることを示した。
    • 関係推論における系統的な混乱が,MLLMの性能低下の主な原因であることが判明した。
    • 音声と字幕は,高度な推論を必要とするSSRとSDPにおいて,推論能力の向上に役立つことが示された。

    Link: https://arxiv.org/abs/2506.05425

  • ReSim:自律運転のための信頼性の高いワールドシミュレーション [cs.CV, cs.RO]目的:多様な運転行動下における将来の運転シナリオの信頼性あるシミュレーション
    • 自律運転技術の安全性向上には,多様な運転状況下での検証が不可欠である。
    • 実世界の運転データは安全な運転行動に偏っており,危険な状況を網羅できない。
    • 実データとシミュレータデータを統合し,多様な運転行動を再現できるモデルの構築。
    • ReSimは,拡散変換器を用いたビデオ生成モデルにより,多様なオープンワールドの運転シナリオをシミュレーション可能である。
    • 従来のモデルと比較して,ReSimは最大44%高い視覚的忠実度と,50%以上の制御性能向上を実現した。
    • NAVSIMにおける計画およびポリシー選択の性能をそれぞれ2%と25%向上させ,実用性を示した。

    Link: https://arxiv.org/abs/2506.09981

  • SynMotion:モーションカスタマイズ動画生成のためのセマンティック・ビジュアル適応 [cs.CV]目的:モーションカスタマイズ動画生成におけるセマンティック誘導とビジュアル適応の共同活用
    • 動画生成技術はエンターテイメントから研究開発まで幅広い分野で重要であり,その応用範囲は拡大している。
    • 既存手法はセマンティックレベルの整列に依存し,複雑な動画の空間・時間パターンを捉えきれていない。
    • セマンティックとビジュアル両面の適応により,より忠実で一貫性のあるモーション動画生成を目指す。
    • 提案手法SynMotionは,被写体とモーション表現を分離する二重埋め込みセマンティック理解メカニズムを導入した。
    • 事前学習済みの動画生成モデルにパラメータ効率的なモーションアダプターを統合し,モーションの忠実性と時間的な一貫性を向上させた。
    • 被写体とモーションの埋め込みを交互に最適化するトレーニング戦略と,新規ベンチマークMotionBenchによって,既存手法を上回る性能を実証した。

    Link: https://arxiv.org/abs/2506.23690

  • オーディオビジュアル音声強調:アーキテクチャ設計と展開戦略 [cs.SD, eess.SP]目的:リアルタイムオーディオビジュアル音声強調システムの設計,展開,評価
    • 没入型マルチメディアサービス実現には不可欠であり,通信品質が重要な要素となる
    • ネットワーク遅延,アップリンク容量,計算遅延が性能を大きく制限する
    • 5Gエッジネットワーク環境下でのリアルタイム性能維持と品質向上を目指す
    • エッジコンピューティングでの処理がリアルタイム性の確保に重要であることが示された
    • アップリンク容量がインタラクティブAVSEサービスのボトルネックとなることが多い
    • 圧縮によりデータ量を最大80%削減でき,知覚的な劣化は軽微であった

    Link: https://arxiv.org/abs/2508.08468

  • 準周期グラフアンサンブルと西森温度におけるランダム結合イジングモデルによる自然画像分類 [cs.LG, cs.CV, cs.IT, math.AT, math.IT]目的:自然画像分類における高次元特徴量の圧縮と分類精度の向上
    • 自然画像分類は,画像認識の基盤技術であり,様々な応用分野で重要である。
    • 従来の画像分類は,計算コストが高く,特徴量空間の幾何学的構造を捉えきれていない。
    • グラフ構造と物理モデルを組み合わせることで,計算効率の良い高精度な分類器を開発する。
    • MobileNetV2の特徴量をイジングスピンとして捉え,準周期LDPCグラフを構築することで,特徴量の次元削減を実現した。
    • 西森温度での演算により,グラフのトラップ集合と位相不変量との間の対応関係を利用し,分類精度を向上させた。
    • ImageNet-10で98.7%,ImageNet-100で84.92%のトップ1精度を達成し,計算量を大幅に削減した。

    Link: https://arxiv.org/abs/2508.18717

  • InternScenes:現実的なレイアウトを持つ大規模シミュレーション可能な屋内シーンデータセット [cs.CV, cs.RO]目的:大規模でシミュレーション可能な3Dシーンデータセットの構築
    • 具現化されたAIの進歩には,多様性と現実感を備えた3Dシーンデータセットが不可欠である。
    • 既存のデータセットは,データ規模や多様性が不十分,またはレイアウトが単純でオブジェクトの衝突が多いという課題がある。
    • 現実的で複雑なレイアウトを持つ大規模データセットを提供し,AIモデルの学習を促進すること。
    • InternScenesは,現実世界のスキャン,手続き型生成シーン,デザイナー作成シーンを統合した約40,000の多様な屋内シーンを含む。
    • データセットは196万個の3Dオブジェクトと15種類のシーンタイプ,288個のオブジェクトクラスを網羅し,平均41.5個のオブジェクトを各領域に配置している。
    • シーンレイアウト生成とポイントゴールナビゲーションのベンチマークテストにより,InternScenesが新たな課題を提起し,複雑なシーンでの学習とナビゲーションを可能にすることを示した。

    Link: https://arxiv.org/abs/2509.10813

  • Gelina:交差トークン予測による統一的な音声とジェスチャー合成 [cs.SD, cs.AI, eess.AS]目的:音声とジェスチャーの同時合成
    • 人間は,音声とジェスチャーを組み合わせてコミュニケーションをとるため,その自然な再現が求められる。
    • 従来の合成法では,音声とジェスチャーを別々に生成するため,同期や韻律の一致が課題であった。
    • Gelinaは,音声とジェスチャーを同時に生成することで,より自然なコミュニケーションを実現する。
    • Gelinaは,離散自己回帰モデルを用いて,テキストから音声とジェスチャーを同時に合成する統一的なフレームワークである。
    • 主観評価および客観評価の結果,Gelinaは既存の単一モダリティベースラインと比較して,音声品質と同等の性能と,ジェスチャー生成の改善を示すことが確認された。
    • Gelinaは,複数話者や複数スタイルのクローニングをサポートし,音声入力からジェスチャーのみの合成も可能である。

    Link: https://arxiv.org/abs/2510.12834

  • 位置エンコーディングの失敗による座標予測バイアス軽減 [cs.CL, cs.CV, cs.AI, cs.CL]目的:高解像度入力における視覚位置エンコーディングの劣化から生じる座標予測バイアス
    • マルチモーダル大規模言語モデルの性能向上は重要だが,正確な座標予測は依然として課題である。
    • 視覚位置エンコーディングが劣化すると,ランダムなノイズではなく予測可能な方向性バイアスが生じる。
    • 位置情報に依存しない傾向を利用し,座標予測のずれを修正すること。
    • Vision-PE Shuffle Guidance (VPSG)は,位置エンコーディングをシャッフルすることでバイアスを特定し,座標予測を修正する。
    • VPSGは,モデルの規模に関わらず,ScreenSpot-Proベンチマークにおいて局所化精度を改善する。
    • VPSGは,再学習を必要としない推論時の修正方法であり,簡便に適用可能である。

    Link: https://arxiv.org/abs/2510.22102

  • ジェスチャーから音楽:連続ジェスチャー駆動型音楽生成のための低遅延リアルタイムフレームワーク [cs.MM, cs.SD]目的:連続ジェスチャー駆動型音楽生成のための低遅延ストリーミングフレームワーク
    • 音楽表現における新たなインタラクション方法が求められており,ジェスチャーによる制御は非接触で表現力豊かな演奏を可能にする。
    • 既存の手法は,ジェスチャーの離散的な分類やMIDI変換に依存し,時間的な連続性やリアルタイム性が課題となっていた。
    • 本研究は,リアルタイム性と時間的な一貫性を向上させ,より自然な音楽生成を実現することを目指す。
    • ウェブカメラからのジェスチャーデータを入力とし,因果的Temporal Convolutional Network (TCN)を用いて音符レベルの音楽制御イベントを予測する。
    • 単音の記録データから連続的なジェスチャーストリームを生成する合成戦略と,時間的な一貫性損失,スペクトルプロキシ損失を用いることで,予測のジッターを低減し,安定した音楽出力を実現。
    • 実験の結果,21種類のジェスチャーと音符のクラスにおいて,30msの低遅延と安定したリアルタイム性能,時間的な連続性の向上が確認された。

    Link: https://arxiv.org/abs/2511.00793

  • UltraGS:超音波新規視点合成のためのリアルタイム物理非結合ガウススプラッティング [cs.CV, cs.AI]目的:超音波画像からの新規視点合成手法
    • 臨床診断において不可欠な超音波検査だが,視野の狭さが課題となっている。
    • 超音波画像からの新規視点合成は,計算コストが高く,リアルタイム性に課題がある。
    • 物理モデルに基づいた効率的なレンダリングにより,リアルタイムな新規視点合成を実現する。
    • UltraGSは,ガウススプラッティングを応用し,超音波画像のリアルタイムな新規視点合成を可能にする。
    • 学習可能な視野角を持つ深度認識ガウス素子と,微分可能な音響演算子PD Renderingを導入し,高精度かつ高速な合成を実現。
    • PSNR(最大29.55),SSIM(最大0.89)で最先端の結果を達成し,単一GPU上で64.69fpsのリアルタイム合成を実現した。

    Link: https://arxiv.org/abs/2511.07743

  • UniSER:統一的なソフト効果除去のための基盤モデル [cs.CV]目的:ソフト効果による画像劣化の除去
    • 画像編集技術の進展は,写真や映像の品質向上に不可欠である。
    • 既存手法は特定の効果に特化し,汎用性や拡張性に課題がある。
    • 複数のソフト効果を単一のモデルで効率的に除去することを目指す。
    • UniSERは,レンズフレア,霞,影,反射といったソフト効果を統一的に除去できる基盤モデルである。
    • 大規模な380万ペアのデータセットを用いて学習し,ロバスト性と汎化性能を向上させている。
    • 専門モデルや汎用モデルと比較して,UniSERはより高品質な復元結果を実現する。

    Link: https://arxiv.org/abs/2511.14183

  • MiMo-Embodied:X-Embodied基盤モデル技術報告 [cs.RO, cs.CL, cs.CV]目的:自律走行と具現化AIにおける最先端の性能を実現した初のクロス具現化基盤モデル
    • ロボティクス分野において,多様な環境下での知的な動作を実現することが重要である。
    • 既存モデルは特定のタスクに特化しており,汎用性に課題があった。
    • 異なる具現化形式間の知識転移を可能にし,汎用的なAIモデルを開発すること。
    • MiMo-Embodiedは,タスクプランニング,アフォードダンス予測,空間理解において,17の具現化AIベンチマークで新たな記録を樹立した。
    • また,環境認識,状態予測,運転計画を含む12の自律走行ベンチマークにおいても優れた性能を発揮した。
    • 多段階学習,データキュレーション,CoT/RLによるファインチューニングにより,両分野間の正の知識転移と相互強化が確認された。

    Link: https://arxiv.org/abs/2511.16518

  • OmniAlpha:マルチタスク統一強化学習による透明度を考慮した生成の整合性向上 [cs.CV, cs.AI]目的:透明度を考慮した生成・操作のための統一的なマルチタスク強化学習フレームワーク
    • 画像編集やコンテンツ生成において,RGBA情報の正確な扱いは不可欠である。
    • 既存手法はタスクごとに分断されており,統一的なモデルの最適化が困難である。
    • RGBA生成における層間整合性,アルファ境界の精度,構造の一貫性向上を目指す。
    • OmniAlphaは,VAEとDiffusion Transformerを組み合わせ,層間関係を考慮した報酬関数を用いて学習を行う。
    • 5種類の透明度を考慮したタスクにおいて,SFTベースラインや専門モデルを上回る性能を示す。
    • 層分解のRGB L1誤差を9.07%削減,自動マット分割のSAD/Gradをそれぞれ74%/68%改善した。

    Link: https://arxiv.org/abs/2511.20211

  • セマンティクスを意識したランダム畳み込みとソースマッチングによる医療画像セグメンテーションにおけるドメイン汎化 [cs.CV, cs.LG]目的:医療画像セグメンテーションにおけるドメイン汎化の達成
    • 医療画像解析は疾患診断や治療計画において不可欠であり,高い精度が求められる。
    • 異なる医療機関や画像モダリティ間での汎化性能が課題であり,ドメインシフトの影響が大きい。
    • 単一ソースドメインからの学習で,未知ドメインへの汎化性能向上を目指す。
    • セマンティクスを意識したランダム畳み込みにより,ソースドメインの多様性を高めることで汎化性能を向上。
    • ターゲットドメインの強度をソースドメインに近づけるソースマッチングによって,さらなる汎化性能の改善を実現。
    • 腹部,心臓全体,前立腺セグメンテーションにおいて,既存のドメイン汎化手法を上回る最先端の性能を達成。

    Link: https://arxiv.org/abs/2512.01510

  • OneThinker:画像と動画のための統合的な推論モデル [cs.CV]目的:画像および動画の視覚的推論の統合
    • マルチモーダル大規模言語モデルの応用拡大に伴い,視覚的推論能力の重要性が増している。
    • 既存手法では,タスクごとにモデルを個別に学習するため,汎用性と知識共有が課題となっていた。
    • 多様な視覚タスクに対応可能な,汎用性の高いマルチモーダル推論モデルを開発すること。
    • OneThinkerは,31のベンチマークで優れた性能を示し,10の基本的な視覚理解タスクに対応可能である。
    • 特定のタスク間で効果的な知識伝達が可能であり,ゼロショット汎化能力の初期的な兆候が見られた。
    • 画像と動画の理解を統合することで,マルチモーダル推論の汎用性向上に貢献する。

    Link: https://arxiv.org/abs/2512.03043

  • C3G:2K個のガウス関数を用いたコンパクトな3D表現の学習 [cs.CV]目的:コンパクトな3D表現の学習
    • 3Dコンピュータビジョンは,現実世界の理解に不可欠であり,様々な応用分野で重要性が増している。
    • 既存手法では,冗長なガウス関数が生成され,メモリ消費量が多く,特徴量の集約が不十分になりやすい。
    • 本研究は,冗長性を最小限に抑えつつ,効果的な特徴量リフティングを可能にする3Dガウス関数の効率的な推定を目指す。
    • 提案手法C3Gは,主要な空間位置でのみ3Dガウス関数を推定することで,冗長性を削減しつつ,効果的な特徴量リフティングを実現する。
    • 学習可能なトークンを用いて多視点特徴量を集約し,ガウス関数の生成を誘導することで,各ガウス関数が関連する視覚特徴を統合する。
    • 実験の結果,コンパクトかつ幾何学的に意味のある表現で高品質なシーン再構成と理解が可能となり,既存手法と比較してメモリ効率と特徴量の忠実度が向上した。

    Link: https://arxiv.org/abs/2512.04021

  • ヒューリスティクス,画像,深度データに基づく重要インフラのグラフ生成パイプライン [cs.CV, cs.LG]目的:重要インフラのグラフ生成
    • 重要インフラのレジリエンス向上は社会機能維持に不可欠であり,そのためのシミュレーション需要が高い。
    • 従来の3D点群データ取得は高コストであり,専門知識が必須となる点が課題であった。
    • フォトグラメトリを用いた,低コストかつ透明性の高いグラフ生成手法を確立すること。
    • 提案パイプラインは,RGB画像と深度データからオブジェクト検出と関係予測を行い,グラフを生成する。
    • 2つの水力システムへの適用により,生成されたグラフが実測値に近いことが示された。
    • ユーザー定義ルールにより透明性が確保され,重要インフラの意思決定への応用が期待される。

    Link: https://arxiv.org/abs/2512.07269

  • MICo-150K:マルチ画像合成を促進する包括的なデータセット [cs.CV]目的:マルチ画像合成のための高品質なデータセット
    • 画像生成技術の発展は,多様な表現を可能にし,応用範囲を広げる上で重要である。
    • マルチ画像合成において,高品質な学習データの不足が課題となっていた。
    • 本研究は,高品質なデータセットと評価基準を提供することで,この課題を解決することを目指す。
    • MICo-150Kは,7つの代表的なタスクに基づき,バランスの取れた複合画像を大規模に生成した。
    • 実世界の複雑な画像を分解・再構成するDe&Reサブセットを構築し,現実的かつ合成的な構成を可能にした。
    • MICo-150Kでモデルをファインチューニングした結果,既存のモデルの性能向上と新たな機能の付与に成功した。

    Link: https://arxiv.org/abs/2512.07348

  • 口腔内3Dスキャンからの歯科ランドマーク検出:3DTeethLandチャレンジ [cs.CV]目的:歯科ランドマークの検出
    • 矯正歯科医療の発展に不可欠であり,精密な診断と個別化治療計画を支援する。
    • 個々の歯の複雑な形状や個人差により,正確なランドマーク検出が困難である。
    • 深層学習等の技術を用いて,口腔内3Dスキャンからのランドマーク検出精度向上を目指す。
    • 3DTeethLandチャレンジは,歯科ランドマーク検出アルゴリズムの評価基準となる公開データセットを提供した。
    • 49チームが参加し,上位6チームは最終段階に進出した。
    • 優勝チームは0.91のランクスコア,0.78の平均適合率,0.65の平均再現率を達成し,精度と再現率のバランスを示した。

    Link: https://arxiv.org/abs/2512.08323

  • Splatent:拡散潜在空間のスプラッティングによる新規視点合成 [cs.CV]目的:新規視点合成のための拡散潜在空間のスプラッティング
    • 3Dコンテンツ生成において,高品質な3D再構成技術は不可欠である。生成AIの進化に伴い,その重要性は増している。
    • VAE潜在空間におけるマルチビューの一貫性欠如が,3D再構成時のテクスチャのぼやけや詳細の欠落を引き起こす。
    • VAEの再構成品質を維持しつつ,詳細な情報を忠実に復元する手法を確立すること。
    • Splatentは,3Dガウススプラッティング(3DGS)上で動作する拡散ベースの強化フレームワークであり,潜在空間で2Dからの詳細復元を行う。
    • 既存のVAE再構成品質を維持しつつ,マルチビューアテンション機構を通じて忠実な詳細復元を可能にする。
    • 複数のベンチマークで最先端のVAE潜在空間ラディアンスフィールド再構成を達成し,既存のフレームワークとの統合により詳細保持を向上させる。

    Link: https://arxiv.org/abs/2512.09923

  • AdaTooler-V: 画像および動画のための適応的ツール利用 [cs.CV]目的:画像と動画処理における適応的なツール利用
    • マルチモーダル大規模言語モデルの応用範囲拡大に不可欠な研究分野である。
    • 既存のモデルは,不要なツール利用が多く,計算コストが増大し,性能が低下する。
    • 必要な場合にのみツールを利用する適応的なツール利用メカニズムを構築すること。
    • AdaTooler-Vは,ツール利用の必要性を判断することで,適応的なツール利用を実現した。
    • AT-GRPOアルゴリズムにより,ツールが真に改善をもたらす場合にのみツール利用を促す。
    • 12のベンチマークで優れた推論能力を示し,V*ベンチマークではGPT-4oやGemini 1.5 Proを上回る精度89.8%を達成した。

    Link: https://arxiv.org/abs/2512.16918

  • MMLANDMARKS:地理空間理解のためのクロスビューインスタンスレベルベンチマーク [cs.CV]目的:地理空間理解のためのマルチモーダルベンチマークデータセット
    • 地理空間分析は,画像,テキスト,座標など多様な情報を統合することで,より高度な理解が可能となる。
    • 既存のベンチマークは,モダリティ間の網羅性が低く,特定の分野に特化したモデルが主流である。
    • 多様なモダリティを統合し,汎用的な地理空間理解を促進するデータセットの提供を目指す。
    • MMLandmarksデータセットは,18,557箇所のランドマークに対し,航空画像,地上画像,テキスト情報,地理座標を対応付けて収録している。
    • 既存のモデルは,この多様なタスクを単純に解決できないことが示され,マルチモーダルデータセットの重要性が明らかになった。
    • CLIPに触発されたシンプルなベースラインモデルが,MMLandmarksで学習することで汎用性と高い性能を発揮することが確認された。

    Link: https://arxiv.org/abs/2512.17492

  • タスク駆動型プロンプト学習:マルチモーダル雲除去とセグメンテーションのための統合フレームワーク [cs.CV]目的:マルチモーダル雲除去と土地被覆セグメンテーションの共同実行
    • 地球観測において光学リモートセンシング画像は不可欠だが,雲の存在が利用を妨げる。
    • 既存の雲除去手法は,分析可能なデータに必要なテクスチャや境界を損なうことがある。
    • 視覚的な復元とセマンティックな有用性の間のギャップを埋めることを目指す。
    • 提案手法TDP-CRは,既存手法と比較してPSNRが0.18dB向上,パラメータ数は15%削減を実現。
    • 土地被覆セグメンテーションの平均IoUも1.4%改善し,分析可能なデータを提供。
    • 学習可能な劣化プロンプトとSAR情報の適応的な統合により,雲の影響下での精度向上。

    Link: https://arxiv.org/abs/2601.12052

  • 分割不可能な資源の時分割的公平配分とスケジューリング [cs.GT]目的:分割不可能な資源に対する時分割的公平配分における可能性と不可能性の境界
    • 資源配分の公平性は,社会正義の観点から重要であり,様々な分野で応用が期待される。
    • 時分割的公平配分は,従来の配分方法では実現困難な,時間軸に沿った公平性を追求する必要がある。
    • 本研究は,スケジューリングを導入することで,時分割的公平配分における実現可能性を向上させることを目指す。
    • スケジューリングがない場合,一般的な状況下では一定の近似率のα-TEFXは不可能である。
    • 二人のエージェントと特定の評価関数において,1/2近似のα-TEFXが実現可能であることが示された。
    • スケジューリングバッファのサイズがn/2以上であれば,同一日においてTEF1が実現可能となることが示されたが,TEFXやTMMSは依然として困難である。

    Link: https://arxiv.org/abs/2601.12835

  • MTPano:ラベルフリー統合による多タスク全景シーン理解 [cs.CV]目的:多タスク全景シーン理解のための頑健な基盤モデルの確立
    • 没入型アプリケーションにおいて,全景シーンの理解は不可欠であり,その重要性は増している。
    • 高解像度かつ多タスクの注釈データの不足が,全景シーン理解の大きな課題となっている。
    • 既存のモデルが抱える幾何学的歪みや座標系の不一致を克服し,タスク間の干渉を軽減すること。
    • MTPanoは,透視ベースの密な予測の事前知識を活用することで,ラベルフリーな訓練パイプラインを実現した。
    • 回転不変タスクと回転変動タスクを分類し,幾何学的な認識を考慮したモジュールを用いて特徴を分離することで,タスク間の干渉を抑制した。
    • 複数のベンチマークにおいて最先端の性能を示し,タスク特化型のモデルに対しても競争力のある結果が得られた。

    Link: https://arxiv.org/abs/2602.05330

  • SecureScan: ロジスティック回帰と脅威インテリジェンス統合を用いたAI駆動型多層マルウェア/フィッシング検出フレームワーク [cs.CR, cs.AI, cs.CV, cs.LG]目的:マルウェアおよびフィッシングの検出
    • サイバー攻撃の巧妙化により,従来のシグネチャベースの検知システムでは対応が困難になっている。
    • 誤検知が多く,運用上の負担が大きいことが課題である。
    • AIと脅威インテリジェンスを活用し,高精度かつ効率的な検知を実現する。
    • SecureScanは,URL,ファイルハッシュ,バイナリのトリアージにおいて,93.1%の精度を達成した。
    • ロジスティック回帰,ヒューリスティック分析,脅威インテリジェンスを組み合わせることで,高い汎化性能と過学習の抑制を実現した。
    • 閾値ベースの決定キャリブレーションとグレイゾーンロジックにより,誤検知を最小限に抑え,実用性を高めた。

    Link: https://arxiv.org/abs/2602.10750

  • アライン・ゼン・アダプト:4D知覚におけるパラメータ効率の良い転移学習の再考 [cs.RO, cs.RO, cs.CV]目的:4D知覚のためのパラメータ効率の良い転移学習パラダイムの提案
    • ロボット工学において,動きとシーンの相互作用を正確に捉える点群動画の理解は重要である。
    • 4Dデータセットは3Dデータセットに比べて著しく少ないため,自己教師あり4Dモデルのスケーラビリティが制限されている。
    • 3D事前学習モデルから4D知覚タスクへの転移能力を向上させ,過学習とモダリティギャップを解消する。
    • 提案手法PointATAは,3Dと4Dデータセット間の分布の乖離を最適輸送理論を用いて定量化し,モダリティギャップを軽減する点群アライン埋め込み器を学習する。
    • 過学習を抑制するため,凍結された3Dバックボーンに効率的な点動画アダプターと空間コンテキストエンコーダーを組み込み,時間モデリング能力を向上させる。
    • PointATAは,フルファインチューニングモデルと同等またはそれ以上の性能を,より少ないパラメータコストで実現する。例えば,3Dアクション認識で97.21%の精度,4Dアクションセグメンテーションで+8.7%,4Dセマンティックセグメンテーションで84.06%の精度を達成した。

    Link: https://arxiv.org/abs/2602.23069

  • SARE:学習不要な微細粒度視覚認識のためのサンプルごとの適応的推論 [cs.CL, cs.CV, cs.AI]目的:学習不要な微細粒度視覚認識における性能向上
    • 画像と言語を組み合わせた大規模モデルの発展により,微細粒度視覚認識が可能になった。
    • 下位レベルのカテゴリ分類は視覚的な曖昧さを持ち,既存手法では精度と効率が課題である。
    • サンプルごとの難易度に応じた推論と,過去の失敗事例の活用により,課題解決を目指す。
    • 提案手法SAREは,高速な候補検索と微細な推論を組み合わせたカスケード設計を採用している。
    • SAREは,過去の失敗から得られた知識を推論時に活用する自己反省的な経験メカニズムを組み込む。
    • 14のデータセットにおける実験で,SAREが最先端の性能を達成し,計算コストを大幅に削減することが示された。

    Link: https://arxiv.org/abs/2603.17729

  • ストロークサイズを変更することで拡散を容易にできるか [cs.CV, cs.AI]目的:拡散モデルにおける低信号対雑音比環境での課題軽減
    • 画像生成における拡散モデルの重要性が高まっており,高品質な画像を生成できる。
    • 拡散モデルは,ノイズが多い状況下でのピクセルレベル予測が困難になる場合がある。
    • 本研究では,ストロークサイズの制御を通じて,拡散モデルの学習を容易にすることを目指す。
    • ストロークサイズを制御することで,目標,予測,摂動の粗さを調整できることが示された。
    • この制御は,低信号対雑音比環境における課題を軽減する効果が期待される。
    • 油絵の例えを用いて,ストロークサイズの重要性を説明し,効果的な学習戦略を示唆する。

    Link: https://arxiv.org/abs/2603.26783

  • 外科AIの比較研究:データセット,基盤モデル,およびMed-AGIへの障壁 [cs.AI, cs.CV, cs.LG]目的:外科AIにおけるデータセット,基盤モデル,障壁に関する比較分析
    • 医療分野におけるAI活用は,診断や治療の精度向上に貢献し,医療現場の負担軽減に繋がる重要な研究領域である。
    • 既存の医療AIベンチマークには,視覚的認識能力を要する外科手術の評価が含まれていない場合が多く,進歩の妨げとなっている。
    • 本研究は,外科手術におけるAIの有用性を評価し,性能向上に向けた課題を特定することを目的とする。
    • 2026年時点で最先端のAI手法を用いた外科ツール検出実験で,大規模言語モデルであっても,神経外科手術におけるツール検出において十分な性能を発揮できないことが示された。
    • モデルの規模拡大や学習時間の増加は,関連するパフォーマンス指標の改善に限界が見られ,単純な規模拡大だけでは課題解決には繋がらない可能性が示唆された。
    • 現在のモデルが外科手術への応用において依然として大きな障壁に直面していることが示され,データやラベルの可用性以外にも制約要因が存在することが議論された。

    Link: https://arxiv.org/abs/2603.27341

  • モダリティギャップはバグか特徴か:ロバストネスの観点から [cs.CV, cs.LG]目的:マルチモーダルモデルにおけるモダリティギャップの性質とそのロバストネスへの影響
    • 画像とテキストを統合するマルチモーダル学習は,多様な応用を可能にする重要な技術である。
    • 既存の多くのモデルでは,画像とテキストの分布が埋め込み空間で分離されており,性能向上の妨げとなる。
    • モダリティギャップがロバストネスに与える影響を分析し,ギャップを縮小する手法を提案する。
    • コントラスト損失の最小化により,モダリティ間のギャップが,埋め込み表現に直交するベクトルによって特徴付けられることが示された。
    • モダリティギャップの大きさはロバストネスと単調な関係にあり,ギャップを縮小することで,摂動に対する頑健性が向上する。
    • 単純な後処理により,クリーンな精度を損なわずに,実世界のVLMsのロバストネスを大幅に向上させることができた。

    Link: https://arxiv.org/abs/2603.29080