arXiv雑要約

画像・音声 - 2026/06/16 公開

  • WaveDINO:GNSSによる検証を用いたアンラップ干渉SAR画像における学習に基づく大気補正 - ラグナ・デル・マウレ火山とカンピ・フレグレイ火山での結果 [cs.CV]目的:アンラップ干渉SAR画像のノイズ除去
    • 火山活動監視において,干渉SARは有効な手段である。
    • 大気遅延や地表面変化,デコヒーレンスにより,観測信号が歪められる場合がある。
    • 既存手法の課題を克服し,より正確な大気補正を実現する。
    • WaveDINOは,GNSS測定との整合性を向上させ,既存モデルを凌駕する性能を示した。
    • ラグナ・デル・マウレとカンピ・フレグレイにおいて,GNSSとの平均不一致をそれぞれ約3%と19%減少させた。
    • 気象モデルに基づく補正手法と比較しても,優位性が見られた。

    Link: https://arxiv.org/abs/2606.16795

  • AI+CADデータ表現アーキテクチャ:AI+CADソリッドモデリングからAI+CAD産業グレードパラメトリックフィーチャモデリングへ [cs.GR]目的:AI+CADにおけるデータ表現アーキテクチャの分類と研究動向
    • 中国の産業ソフトウェアの海外依存度が高く,国産化が急務である。
    • 既存のAI+CAD研究は,産業利用における実用性に課題がある。
    • 産業グレードパラメトリックフィーチャモデリングを実現するデータ表現の基盤を確立すること。
    • 本研究では,DeepCADとWHUCADというオープンソースのデータ表現を比較分析した。
    • WHUCADの三層アーキテクチャが,産業グレードパラメトリックフィーチャモデリングを根本的に支援することが示された。
    • AIの急速な進化に対応した,AI+産業グレードCADの将来展望を提示した。

    Link: https://arxiv.org/abs/2606.16797

  • 意味と歪みを分離:AI生成画像品質評価のためのマルチスケール二重ストリーム視覚言語アライメント [cs.CV, cs.AI]目的:AI生成画像品質評価における意味と歪みの分離
    • AI生成画像の普及に伴い,その品質評価の重要性が増している。
    • 既存手法では,意味理解と低レベル知覚が混在し,微細な品質劣化を見逃す場合がある。
    • マルチスケールアライメントにより,意味と歪みを分離し,より正確な品質評価を実現する。
    • 提案手法 MST-CLIPIQA は,二重ストリーム構造とマルチスケールアライメントにより,優れた性能を示す。
    • 5つのベンチマークにおいて,品質評価とテキスト-画像対応予測の両方で,最先端の結果を達成した。
    • 学習可能なパラメータ数はわずか0.8Mであり,効率性も高い。

    Link: https://arxiv.org/abs/2606.16799

  • 入力サイズに比例する時間での確率的支配羨望フリー性の検証 [cs.GT]目的:確率的支配羨望フリー性(SD-EF)およびその緩和版(SD-EF1)の検証
    • 公正な分割問題は,資源配分における公平性を保証する上で重要である。
    • 既存の検証アルゴリズムは計算量が多く,大規模なインスタンスへの適用が困難であった。
    • 本研究は,効率的な検証アルゴリズムを開発し,計算量の問題を解決することを目指す。
    • 提案アルゴリズムは,従来のアルゴリズムの計算量を$\mathcal{O}(n^2m)$から$\mathcal{O}(nm)$へと大幅に削減した。
    • 入力サイズに関する漸近最適性を達成し,大規模なインスタンスへの適用が可能となった。
    • 単一パスの接頭辞支配チェックと遅延初期化を用いることで,時間効率の良い検証を実現した。

    Link: https://arxiv.org/abs/2606.16816

  • 時間ピラミッドモデリングによるロバストな偽装音声検出 [cs.CL, cs.CV, cs.AI, cs.SD]目的:偽装音声検出の精度向上
    • 音声認証システムのセキュリティにおいて,偽装音声の検出は不可欠である。高度化する偽装技術への対策が求められる。
    • 既存手法は,リアルな合成音声や声質変換,録音音声による攻撃に脆弱であり,データセット間の汎化性能が低い。
    • マルチスケールな特徴を捉え,データセットや言語に依存しないロバストな検出手法を確立すること。
    • 提案手法である時間ピラミッドモデルは,PartialSpoofデータベースにおいてAUC 99.24%とEER 3.87%を達成し,既存モデルを大幅に上回った。
    • マルチリンガル評価の結果,言語に依存しない偽装音声の特徴が確認された。
    • 自己教師あり学習による表現はロバスト性を向上させる一方で,ドメインや言語の変化により性能が低下することから,適応戦略の重要性が示唆された。

    Link: https://arxiv.org/abs/2606.16837

  • 進化と基盤:AIによる創造性の共有 [cs.NE, cs.GR, cs.HC]目的:自動化されたデザインと芸術的評価の創造的プロセス
    • デザインや芸術分野において,AIの活用は新たな可能性を広げる重要な課題である。
    • 従来の生成手法では,複雑なデザイン空間の探索に時間と労力がかかるという問題がある。
    • AIの審美的な判断能力を活用し,効率的なデザイン探索を可能にすること。
    • 本研究では,遺伝的アルゴリズムと大規模AIモデルを統合したシステムを開発し,美しい3D有機形態の進化を実現した。
    • AIが詳細なステップバイステップのキュレーションを行うことで,アーティストの役割はシステム設計へと移行する。
    • AIの審美的推論の監査証跡や可視化ツールにより,AI主導のプロセスに対する透明性が確保される。

    Link: https://arxiv.org/abs/2606.16849

  • 多施設画像研究におけるデータ探索と進捗追跡のためのオープンソース監視フレームワーク [cs.RO, cs.CV]目的:多施設画像研究におけるデータ探索と進捗追跡の監視
    • 医学・放射線学研究の発展には多施設研究が不可欠であり,効率的なデータ活用が重要である。
    • 現状では,進捗管理が手作業や共有テーブルに依存し,大規模研究での連携が困難である。
    • 本研究は,透明性の高い進捗監視を実現し,多施設研究の効率的な連携を支援することを目的とする。
    • 提案フレームワークは,Grafana-Prometheusスタックに基づき,分散した研究拠点のデータを集約・可視化する。
    • ドイツ全土のRACOONコンソーシアムへの導入により,データ探索と進捗監視が38の大学病院で実現可能となった。
    • 本フレームワークは,大規模多施設研究における研究活動の透明性のある連携を支援し,効率的な管理に貢献する。

    Link: https://arxiv.org/abs/2606.16861

  • 注意分布のシフトによる画像カスタマイズの方向転換 [cs.CV]目的:主題主導型画像カスタマイズにおける問題解決
    • 画像生成技術は多様な応用分野で重要であり,その制御性と品質向上が求められている。
    • 既存手法は効率性,特徴量と生成過程のずれ,無関係情報の干渉といった課題を抱えている。
    • 参照画像の活用による分布シフトに着目し,より高品質なカスタマイズを実現すること。
    • 本研究では,最大エントロピー理論に基づいたConditional Attention Distribution Shiftを提案した。
    • CustomShiftという二分枝アーキテクチャを開発し,参照画像と主題名の自己注意機構による層ごとのアライメントを実現した。
    • DreamBoothやCustom101のベンチマークにおいて,最先端手法を凌駕する性能を達成し,意味的忠実性と主題の一貫性のバランスを向上させた。

    Link: https://arxiv.org/abs/2606.16866

  • 現実世界のラベルノイズ下における連合医療画像セグメンテーション:ノイズラベル学習手法選択のためのベンチマークスイート [cs.CL, cs.CV, cs.AI, cs.DC]目的:現実世界のノイズを含む医療画像セグメンテーションデータセットと評価指標を含むベンチマークスイート
    • 医療画像セグメンテーションは,疾患診断や治療計画において不可欠であり,その精度向上は重要である。
    • 連合学習におけるラベルノイズは,セグメンテーション性能を著しく低下させる問題である。
    • 現実世界のラベルノイズに対応した連合学習手法の評価と選択を支援する。
    • 本研究では,多様な現実世界のノイズデータセットとクライアントノイズシナリオを含むベンチマークスイートを開発した。
    • このスイートは,現実的かつ識別的な評価基盤を提供し,公平なベンチマークやデータセット固有のノイズ特性評価を可能にする。
    • 開発したベンチマークスイートは,連合環境下でのノイズに強いセグメンテーション手法開発の基礎となる。

    Link: https://arxiv.org/abs/2606.16868

  • 食品破壊シミュレーションにおける逆素材推定のための潜在空間強化学習 [cs.CV, cs.GR]目的:食品破壊シミュレーションにおける素材パラメータの逆推定
    • 食品の視覚シミュレーションのリアリティ向上には正確な素材パラメータが不可欠である。
    • 素材パラメータの直接測定は困難であり,単一の食品でも地域によって異なる。
    • ターゲットとなる破壊挙動から素材パラメータを推定する実用的な手法を開発する。
    • 潜在空間を用いた強化学習により,元のパラメータ空間よりも高い復元率を達成した。
    • 目標条件付きPPOポリシーは,任意のオレンジの剥離挙動に対して,わずか10msで素材パラメータを推定できる。
    • CMA-ESのウォームスタート拡張により,復元率をさらに向上させることができた。

    Link: https://arxiv.org/abs/2606.16870

  • 意味の反転:頑健な拒否応答のための合成されたOOD生成(具現化された質問応答と空間的局所化) [cs.CL, cs.CV, cs.AI]目的:具現化された質問応答と空間的局所化における頑健な拒否応答のためのOOD(分布外)サンプル合成
    • 現実世界での具現化されたエージェントの信頼性向上には,回答不能な質問の検出が不可欠である。
    • 既存のビジョン言語モデルは,視覚的根拠がない場合でも過信した回答を生成する傾向がある。
    • 過信による誤情報や不適切な誘導を防ぐため,拒否応答の精度向上を目指す。
    • Semantic Flipは,追加のOODアノテーションなしに,補助的なOODサンプルを合成することで拒否応答を実現する。
    • クエリとビデオメモリを独立して変換することで,視覚的根拠の乏しいOODペアを生成し,拒否モジュールの学習に利用する。
    • SpaceRejectという新しい拒否応答ベンチマークにおいて,F1スコア0.9559を達成し,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2606.16898

  • ウッディ・ブレスト鶏胸肉のマルチフィレ評価のためのシミュレーションに基づく研究 [cs.CG, cs.CV, eess.IV]目的:ウッディ・ブレスト鶏胸肉の品質評価手法
    • 鶏肉の品質低下と経済損失の原因となるウッディ・ブレストの発生が問題視されている。
    • 既存の自動検出システムは一度に一枚のフィレしか処理できず,処理能力が低い。
    • 複数フィレを同時に評価可能な,より効率的な検出アーキテクチャを開発する。
    • シミュレーションにより,高忠実度のコンベアシステムを再現し,多様な形状のフィレを生成した。
    • トップダウンカメラからの2次元形状変形スコアが,フィレの曲げ変化を効果的に捉えることを示した。
    • 本手法は,サイドビュー画像システムに代わる,スケーラブルな評価手法となり得る。

    Link: https://arxiv.org/abs/2606.16951

  • SurroundNEXO:自車中心的測度による空間一貫性のある幾何学的構造の実現 [cs.CV]目的:自動運転における空間的に一貫性のある幾何学的構造の実現
    • 自動運転の精度向上には,正確な3次元環境理解が不可欠である。正確な3次元環境理解は,知覚,再構成,計画の基盤となる。
    • 車両搭載の全方位カメラシステムは視野の重複が少なく,従来のマルチビュー幾何学の前提となる対応関係に基づく推論が困難である。
    • 視野の重複が少ない環境下でも,正確な3次元環境を再構成し,自動運転の性能を向上させることを目指す。
    • SurroundNEXOは,自車中心幾何学に基づいて,少ない視野の重複があるカメラ間でも,より正確な3次元奥行き情報を予測する。
    • NuScenes,Waymo,DDADなどのベンチマークにおいて,単一カメラの誤差を33.2%削減し,カメラ間の奥行き情報の整合性を10.5%向上させた。
    • また,疎な深度プロンプトに対しても頑健であり,未知のカメラレイアウトへの汎化性能も高いことが示された。

    Link: https://arxiv.org/abs/2606.16960

  • ニューラル音声コーデックにおける低フレームレート劣化の探求 [cs.DM, math.CO, cs.SD, cs.AI, eess.AS]目的:ニューラル音声コーデックの低フレームレート劣化メカニズムの解明
    • 高音質な音声合成は,コミュニケーションにおいて不可欠であり,その効率化が求められている。
    • ニューラル音声コーデックにおける低フレームレート化は,計算コスト削減に繋がるが,品質劣化が課題となる。
    • 本研究は,低フレームレート劣化の原因を特定し,より効率的な音声合成の実現を目指す。
    • フレームレートを6.25Hzまで下げた際に品質が著しく低下することが確認された。
    • この劣化は,音素の衝突やコードブックの飽和が原因ではないことが示された。
    • 訓練時の固定クリップ長が問題であり,訓練設定を修正することで,より低いフレームレートでもスムーズな性能低下を達成できた。

    Link: https://arxiv.org/abs/2606.16969

  • 公共財の安定メニュー:AIを活用した進展 [cs.GT, cs.AI, cs.CY]目的:AIを活用した経済計算機科学研究ワークフローの有効性に関する理解
    • 公共財の配分は社会厚生に不可欠であり,最適な配分方法の探求は経済学の重要な課題である。
    • 従来の公共財の分析手法では,複雑な状況下での最適なメニューの特定が困難であるという問題がある。
    • AIの活用により,公共財メニューの安定性と効率性を向上させる新たなアプローチを開発することを目指す。
    • プロンプトに人間の直感を取り入れることで,LLMの出力の質を向上させることが示唆された。
    • 複数回の対話型ワークフローは,LLMがより意欲的なステップを実行する際に有効であることが確認された。
    • LLMは,初期の博士課程学生と比較して,わずかに劣るパフォーマンスを示した。

    Link: https://arxiv.org/abs/2606.16989

  • 造影なしCTからの腹部疾患診断とレポート生成に関する多施設共同ベンチマーク [cs.CV, cs.LG]目的:造影なしCTからの腹部疾患診断と自動放射線レポート生成
    • 腹部疾患の診断においてCT検査は不可欠だが,造影剤使用にはリスクが伴う。
    • 造影CTは腎機能障害のリスクや,読影医の負担増大が課題となっている。
    • 造影なしCTから造影CT相当の情報を合成し,安全かつ効率的な診断を可能にする。
    • 造影なしCTでも診断に必要な信号が保持されており,多臓器AUCは内部データセットで69.1%を達成。
    • 外部検証データセットにおいても63.1%の平均AUCを示し,汎用性も確認された。
    • 本研究は,造影剤を使用しない腹部イメージングの発展を促進する基盤となる。

    Link: https://arxiv.org/abs/2606.16991

  • DreamX-World 1.0:汎用インタラクティブ世界モデル [cs.CV]目的:制御可能な長期間生成を可能にする汎用的なインタラクティブなテキスト/画像から動画への世界モデル
    • 仮想世界の研究は,現実世界のシミュレーションやAIエージェントの学習環境として重要である。
    • 既存モデルでは,長期的な一貫性やカメラ制御,多様なドメインへの対応が課題であった。
    • 生成された映像の品質を維持しつつ,カメラ制御とイベント制御を可能にする世界モデルを開発する。
    • DreamX-World 1.0は,Unreal Engineによるレンダリング,ゲームプレイ録画,実世界の動画を組み合わせたデータエンジンを用いる。
    • E-PRoPEという軽量な位置エンコーディングにより,カメラジオメトリを維持しつつ空間的に削減されたトークンへの注意機構を実現している。
    • 5秒間の評価において,カメラ制御スコア73.75,全体スコア84.76を達成し,HY-WorldPlay 1.5やLingBot-Worldを上回る性能を示した。

    Link: https://arxiv.org/abs/2606.16993

  • ActiveSAM:画像条件クラスプルーニングによる高速かつ高精度なオープンボキャブラリセグメンテーション [cs.CV, cs.AI, cs.LG]目的:オープンボキャブラリセマンティックセグメンテーションにおける効率的な分割
    • 画像認識技術の発展は,自動運転やロボット工学など,様々な分野での応用を可能にする。
    • 既存のオープンボキャブラリセグメンテーション手法は,計算コストが高く,処理速度が遅いという課題がある。
    • 画像の内容に応じて分割対象のクラスを絞り込むことで,計算コストを削減し,高速化を図る。
    • ActiveSAMは,学習データなしでSAM 3をアクティブボキャブラリセグメンターに変換する推論フレームワークである。
    • 8つのオープンボキャブラリセグメンテーションベンチマークにおいて,既存手法を平均で約1.4 mIoU上回り,最大で5.5倍高速に動作する。
    • 画像劣化に対するロバスト性も高く,ノイズの多い環境下での利用に適している。

    Link: https://arxiv.org/abs/2606.16996

  • 二次多項式におけるmin-max最適化の複雑性 [cs.CC, cs.GT, cs.LG, math.OC]目的:二次多項式に対するmin-max最適化の近似停留点の計算困難性
    • 最適化問題は,機械学習や経済学など広範な分野で基盤となる重要な課題である。
    • 多項式最適化問題はNP困難であり,効率的な解法が未だ確立されていない。
    • 本研究は,二次多項式におけるmin-max最適化の計算困難性の限界を明らかにする。
    • 超立方体上のmin-max最適化における近似停留点の計算はPPAD困難であることが証明された。
    • この困難性は,多項式が多項式である場合,変数ごとに最大で3つの単項式が含まれる場合,そして近似係数が多項式の逆数であっても成立する。
    • この結果から,二チームのゼロサムポリマトリックスゲームに対する最初のPPAD困難性が導かれる。

    Link: https://arxiv.org/abs/2606.17000

  • TuneJury:音楽生成の嗜好性アライメント向上のためのオープンな指標 [cs.SD, cs.AI, cs.LG, cs.MM, eess.AS]目的:テキストから音楽への変換における音楽の嗜好性スコアの予測
    • 音楽生成技術は,創造的な表現を可能にし,エンターテイメントや教育など多岐にわたる分野で活用が期待されている。
    • 生成された音楽の品質を客観的に評価することが難しく,人間の好みに合致する音楽を生成するための指標が不足している。
    • 人間の嗜好に基づいた,より信頼性の高い音楽評価指標を開発し,音楽生成モデルの性能向上に貢献すること。
    • TuneJuryは,人間の嗜好ラベルを用いて学習された,オープンなペアワイズ報酬モデルである。
    • 予測されたスコア差は,テストデータや未知のデータに対しても良好な校正結果を示し,データフィルタリングに利用可能である。
    • 学習後にリリースされた生成器に対しても,アンカーキャリブレーションにより,効率的な性能改善を実現する。

    Link: https://arxiv.org/abs/2606.17006

  • FusionRS:RGB-赤外リモートセンシング大規模データセット - デュアルモーダルVision-Language基盤モデル向け [cs.CV, cs.AI]目的:RGB-赤外リモートセンシング画像とテキストのデュアルモーダル学習を可能にする大規模データセット
    • 地球観測において,リモートセンシング技術は不可欠であり,その応用範囲は多岐にわたる。
    • 既存研究は主にRGB画像に焦点を当てており,赤外データの補完的な情報は十分に活用されていない。
    • RGBと赤外データを統合的に学習することで,より高度な地球観測理解を目指す。
    • FusionRSデータセットを用いることで,RGB-赤外画像のalignment,赤外画像からテキスト検索,デュアルモーダルキャプション生成の性能が向上した。
    • 赤外画像に特化したテキストキャプション(IR-aware captions)が,赤外とテキストのalignment強化に重要な役割を果たすことが確認された。
    • 本研究は,リモートセンシング分野におけるscalableなRGB-赤外Vision-Language表現学習の重要性を示唆する。

    Link: https://arxiv.org/abs/2606.17020

  • MeshLoom: メッシュ系列のフィードフォワード非剛体レジストレーション [cs.CV]目的:メッシュ系列における頂点変形を直接再構成すること
    • コンピュータグラフィックスやアニメーションにおいて,形状の正確なモデリングと操作は不可欠である。
    • 従来の非剛体レジストレーション手法は,計算コストが高い,適用範囲が狭い,入力に制限があるなどの課題があった。
    • 本研究は,高速かつ汎用性の高い非剛体レジストレーション手法を開発し,その問題を解決することを目指す。
    • MeshLoomは,複数のメッシュを数秒以内にレジストレーションできる,シンプルかつ効率的なネットワークである。
    • トポロジーを考慮したエンコーダー・デコーダー設計により,メッシュの幾何学構造をより正確に理解し,高いレジストレーション精度を実現した。
    • 提案手法は,モーション補間やメッシュモルフィングにも応用可能であり,その有用性を拡張している。

    Link: https://arxiv.org/abs/2606.17027

  • Qwen-RobotWorld技術報告:言語条件付きビデオ生成による具現化された世界モデルの統合 [cs.CL, cs.CV]目的:具現化された知能のための言語条件付きビデオ世界モデル
    • ロボット工学における環境理解は,自律的な行動を可能にする上で不可欠である。
    • 既存のモデルは,特定のタスクに特化し,汎用性に欠ける場合が多い。
    • 多様なロボットタスクに対応可能な,汎用的な世界モデルの構築を目指す。
    • Qwen-RobotWorldは,ロボット操作,自動運転,屋内ナビゲーション,人とロボットのインタラクションなど,幅広い分野で高い性能を示す。
    • EWMBenchとDreamGen Benchで全体1位を獲得し,WorldModelBenchとPBenchでは他のオープンソースモデルを上回る結果を達成した。
    • RoboTwin-IFベンチマークでのゼロショット分析により,頑健な汎化性能と多視点の一貫性が確認された。

    Link: https://arxiv.org/abs/2606.17030

  • ニューラル表現における位相の重要性:画像分類器に対する内部 Oppenheim-Lim テスト [cs.CV, cs.AI, cs.LG]目的:画像分類器の隠れ層における位相と振幅の役割の非対称性
    • 画像認識技術は,コンピュータビジョンの根幹であり,様々な応用分野で不可欠である。
    • ニューラルネットワークの内部表現がどのように情報を符号化しているのか,そのメカニズムは未だ解明されていない。
    • 画像認識における位相と振幅の役割を内部表現レベルで明らかにすること。
    • PRISM2D,GFNet,ViT-B/16では,予測が位相または符号の供与者に従い,振幅を削除しても精度がほとんど低下しないことが示された。
    • ResNet-50ではReLU層後の符号の移植は効果がないように見えるが,ReLU層前の介入により,遅延ブロックに強い潜在的符号コードが存在することが明らかになった。
    • これらのアーキテクチャは位相/符号による同一性コードを共有するが,整流と読み出しの幾何学によって異なる基底で表現している。

    Link: https://arxiv.org/abs/2606.17037

  • R2RDreamer:空間汎化された2D操作ポリシーのための3D認識データ拡張 [cs.RO, cs.CV]目的:模倣学習された操作ポリシーの空間汎化性能の向上
    • ロボットの操作学習において,多様な環境下での汎化能力は不可欠である。
    • 多様な物体姿勢,ロボット構成,カメラ視点での実データ収集はコストがかかる。
    • 実データから3D情報を活用し,2D操作ポリシーの空間汎化を改善する。
    • R2RDreamerは,3Dアクション・観測編集の幾何学的整合性を維持しつつ,視覚的補完を2D動画空間で行う。
    • 不完全な物体点群とエンドエフェクタ軌跡を3D空間で編集後,マスク画像空間に投影し,RGB画像を生成する。
    • 2D拡散ポリシーと視覚-言語-行動ポリシーの実験で,限られたソースデモンストレーションからの空間汎化が向上した。

    Link: https://arxiv.org/abs/2606.17040

  • ロボットのポリシー学習のための幾何学的行動モデル [cs.RO, cs.CV, cs.LG]目的:ロボットの汎用的なポリシー学習
    • ロボットが人間からの指示に従い,3D環境で動作するためには,物体の理解が不可欠である。
    • 既存モデルは2D画像に依存しており,接触操作に必要な3D幾何学的情報を十分に活用できていない。
    • 事前学習済みの幾何学的モデルを活用し,3D幾何学情報を効果的に利用する手法を開発する。
    • 幾何学的行動モデル(GAM)は,事前学習済みの幾何学的基礎モデルを,知覚,時間予測,行動デコードの共有基盤として活用する。
    • GAMは,モデルを中間層で分割し,言語,固有受容性,行動履歴に基づいて未来の潜在的なトークンを予測する。
    • シミュレーションおよび実機ロボットでの実験により,GAMは既存のモデルよりも精度,ロバスト性,速度,軽量性に優れていることが示された。

    Link: https://arxiv.org/abs/2606.17046

  • 線形逆問題解決のための正確な事後スコア推定 [cs.LG, cs.CV, stat.ML]目的:線形逆問題における正確な事後スコア推定手法
    • 画像復元などの分野で,データ分布の事前知識を活用することが重要である。
    • 既存手法では,事前分布のスコアを事後分布に変換する際に近似やモデル構造の変更が必要となる。
    • ガウス補間を用いた線形ガウス逆問題において,正確な事後スコアを閉形式で導出し,事後サンプリングを効率化する。
    • 本研究では,正確な事後スコア推定 (EPS) という,標準的な事前学習構造を維持したまま事後分布を推定できる学習目的関数を提案した。
    • EPSは,FFHQとImageNetの5つの線形逆問題において,既存の学習済みおよび学習不要な手法と比較して,忠実度,知覚品質,分布メトリクスにおいて優れた性能を示した。
    • また,勾配ベースの事後サンプラーと比較して,大幅に少ないノイズ除去評価回数で同等以上の性能を達成した。

    Link: https://arxiv.org/abs/2606.17048

  • BRDFusion:都市シーン逆レンダリングにおける物理と生成の融合 [cs.CV]目的:都市シーンの逆レンダリングのための物理ベースモデルと生成モデルの統合フレームワーク
    • 都市のデジタルツイン実現に不可欠であり,様々な応用分野への発展が期待されている。
    • 物理ベースモデルは写実性に欠け,生成モデルは一貫性と制御性に課題があった。
    • 物理モデルと生成モデルの長所を活かし,高品質かつ制御可能な逆レンダリングを実現する。
    • BRDFusionは,物理モデルによる制御性と生成モデルによるノイズ除去を組み合わせることで,高画質な動画生成を可能にした。
    • 実写および合成データにおいて,既存手法と比較して高い性能を示した。
    • 新規視点からの再照明,夜間シミュレーション,動的オブジェクトの挿入・編集など,多様な応用をサポートする。

    Link: https://arxiv.org/abs/2606.17049

  • 文脈を考慮した強化学習によるエージェント的・マルチモーダルLLM [cs.CL, cs.CV]目的:LLMにおける長期的推論とマルチモーダル性能の向上
    • LLMの性能は向上しているが,長文や複雑な文脈からの重要な証拠の特定が課題である。
    • LLMは,ツールトレースの一行や画像内の微妙な詳細など,文脈中の小さな決定的な証拠を見つけるのが苦手である。
    • 文脈選択を通じて,LLMの文脈へのより詳細な接地を促し,推論能力を高める。
    • ContextRLは,5つの長期的推論ベンチマークで標準的なGRPOと比較して平均2.2%の性能向上を達成した。
    • また,12の多様な視覚的質疑応答ベンチマークで平均1.8%の性能向上を示した。
    • 文脈選択目的が,単なる対照的なデータだけによるものではないことが示された。

    Link: https://arxiv.org/abs/2606.17053

  • 静的推論から動的相互作用へ:ストリーミング大規模言語モデルの調査 [cs.CL, cs.CV]目的:ストリーミング大規模言語モデルに関する包括的な概要と分析
    • 近年の大規模言語モデルの発展は目覚ましいが,リアルタイム処理への適用が課題となっていた。
    • 既存のストリーミングLLMの定義は断片的であり,混同が見られ,体系的な分類が不足していた。
    • ストリーミングLLMの明確な定義と体系的な分類を通して,リアルタイム処理への応用を促進すること。
    • 本研究では,データフローと動的相互作用に基づくストリーミングLLMの統一的な定義を確立した。
    • 既存のストリーミングLLMを体系的に分類し,その基盤となる方法論について詳細な議論を行った。
    • ストリーミングLLMの現実世界での応用例を示し,今後の研究の方向性について考察した。

    Link: https://arxiv.org/abs/2603.04592

  • Pixel-TTS:堅牢なテキスト読み上げのための画像ベースのテキストレンダリング [eess.AS, cs.AI, cs.CV, cs.SD]目的:画像に基づくテキストレンダリングによるテキスト読み上げの実現
    • 言語理解に視覚的情報を活用できる可能性が示唆されており,テキストモデリングの新たなアプローチとして注目されている。
    • 従来のテキストベースのアプローチでは,未知の文字への対応や多言語への適応が課題となっていた。
    • 視覚的な情報を活用することで,未知の文字や異なる文字コードへの対応を可能にし,多言語での性能向上を目指す。
    • Pixel-TTSはテキストを画像としてレンダリングすることで,未知の文字や文字のバリエーションに対する堅牢性を向上させている。
    • 従来のモデルと比較して,学習の収束が速く,ゼロショット汎化性能に優れていることが実験的に示された。
    • ファインチューニング時に埋め込み行列の拡張を必要とせず,高い性能を維持できることが確認された。

    Link: https://arxiv.org/abs/2606.14750

  • エージェント経済学:人間とAIの協働におけるAIエージェントの評価,貢献度測定,価格設定の経済的基盤 [econ.EM, cs.AI, cs.GT]目的:人間とAIの協働ワークフローにおけるAIエージェントの経済的価値,貢献度,価格設定
    • AIの組織への導入が進む中で,その経済的貢献を正確に評価する必要性が高まっている。
    • 既存の評価手法は,AIの技術的性能に偏重し,経済的な貢献度を総合的に捉えられていない。
    • AIの導入を経済学的な視点から評価し,公正な価格設定と説明責任を実現すること。
    • 本研究は「エージェント経済学」というワークフローベースのフレームワークを提案し,人間とAIエージェントの価値を定量的に評価する。
    • AI導入をチーム形成問題として捉え,Shapley値を用いてAIエージェントへの経済的貢献度を分配する手法を提示した。
    • セキュリティ運用事例を通して,本フレームワークがAIと人間のハイブリッドワークフローにおける効果を定量的に示せることを示した。

    Link: https://arxiv.org/abs/2606.14769

  • 物理学から表現へ:手続き的生成による合成事前学習を用いた音声学習 [eess.AS, cs.LG, cs.SD]目的:手続き的生成による音声合成フレームワークを用いた,大規模な実データに依存しない事前学習手法
    • マルチメディア解析において,音声表現の重要性は高まる一方である。
    • 既存手法は大規模な音声データセットに依存し,コストやプライバシーの問題がある。
    • 実データを用いずに,効率的かつ解釈可能な事前学習を可能にすること。
    • 手続き的生成により,実音声を用いずに事前学習を完了できる。
    • ESC-50で90.60%の精度,FSD50Kで0.546 mAP,UrbanSound8Kで88.17%の性能を達成した。
    • 潜在空間の解析から,基本周波数や相対的な強度が直交する部分空間に出現することが明らかになった。

    Link: https://arxiv.org/abs/2606.14791

  • AIネイティブ6Gネットワークのための説明可能なタスク指向型トークン通信 [eess.IV, cs.CV, cs.IT, math.IT]目的:タスク指向型トークン通信フレームワークの提案
    • 無線通信における画像伝送は,タスク指向型へと進化を遂げている。効率的な通信が求められている。
    • 既存手法では,タスク指向型トークン表現の不足,視覚トークンとタスクトークンの連携不足が課題となっている。
    • 視覚情報とタスク意図を統合し,タスクに基づいた効率的な画像伝送と解釈可能性の向上を目指す。
    • 提案フレームワークET-TokenComは,視覚トークンとタスクトークンを統合的に扱うことで,端から端までの通信リンクを構築する。
    • クロスモーダルアテンション機構により,タスクトークンが視覚トークンの選択と伝送を明示的に制御し,タスク目標に応じた重要領域を強調する。
    • シミュレーション結果は,提案手法の有効性と堅牢性を示すとともに,タスク目標と出力の関連性を示唆する。

    Link: https://arxiv.org/abs/2606.14808

  • DSAにおける血管グラフニューラルネットワークを用いた硬膜下側副血行路の検出 [eess.IV, cs.AI, cs.CV]目的:急性虚血性脳卒中における予後因子である硬膜下側副血行路の検出
    • 急性虚血性脳卒中の予後予測において,側副血行路の評価は重要である。
    • CTアンギオグラフィでは側副血行路が小さすぎて識別が難しく,評価が粗雑になりがちである。
    • DSA画像から個々の側副血行路を客観的に,かつ定量的に評価する方法を確立する。
    • 本研究では,DSA画像から構築した血管グラフの各セグメントを分類することで側副血行路の検出を試みた。
    • グラフ構造と画素情報を組み合わせたハイブリッドモデルが,PR-AUC 0.434を達成し,既存手法を上回った。
    • DSAにおける個々の側副血行路の定量的な評価を可能にし,客観的な評価への移行を促す。

    Link: https://arxiv.org/abs/2606.14828

  • 大腸ポリープ分類におけるドメイン適応型深層学習:ラベル分布シフトへの対応 [eess.IV, cs.CV]目的:大腸ポリープの分類
    • 大腸癌の早期発見は生存率向上に不可欠であり,ポリープの正確な分類が重要である。
    • 実際の臨床データでは,データ量に偏りやラベル分布のシフトが生じやすく,汎化性能が課題となる。
    • 異なる特徴を持つポリープの分類精度向上と,実臨床での応用を目指す。
    • 提案手法Polyp-D2ATLは,既存の最先端モデルと比較して,様々な評価指標で顕著な性能向上を示した。
    • 検証セットにおいて,正解率82.38%,Macro-F1スコア77.49%,特異度87.47%を達成した。
    • テストセットにおいても一貫した改善が見られ,提案手法の汎化能力と臨床的応用可能性が示された。

    Link: https://arxiv.org/abs/2606.15000

  • EChO-Agent:音声推論のための証拠連鎖オーケストレーションエージェント [quant-ph, cs.SY, eess.SY, physics.soc-ph, cs.SI, eess.AS, cs.AI, cs.SD]目的:複雑な音声質問応答における推論プロセスの明確化と検証可能性向上
    • 音声に関する質問応答は,情報検索や理解において重要性が増している分野である。
    • 既存のモデルは,質問に関連する音声セグメントに焦点を当てず,推論過程が不明確である。
    • 質問と音声の関連性を高め,セグメントの理解・統合・自己検証を可能にする手法が求められている。
    • EChO-Agentは,計画,ツール実行,証拠統合,回答検証のワークフローとして複雑な音声QAを再構成する。
    • MMARベンチマークにおける実験により,EChO-Agentがベースラインと比較して精度と評価スコアの両方を向上させることが示された。
    • 証拠統合が,性能向上における重要な要素であることが,消去実験によって明らかになった。

    Link: https://arxiv.org/abs/2606.15141

  • VoxWatermark:摂動下における音声ウォーターマーク検出のための大規模ベンチマーク [math.OC, cs.SY, eess.SY, eess.AS, cs.SD]目的:音声ウォーターマーク検出の性能評価
    • 音声生成技術の普及に伴い,コンテンツの出所特定と著作権保護が重要となっている。
    • 既存の研究では,現実的な条件下でのウォーターマーク手法の比較評価が不十分である。
    • 多様な条件下におけるウォーターマーク検出の安定性と汎用性を検証することを目指す。
    • 本ベンチマークは,多様なウォーターマーク手法と現実的な摂動の影響を体系的に評価可能である。
    • 提案手法AudioWMDは,大規模かつ多様な設定において堅牢な検出性能を示すことが確認された。
    • ウォーターマーク手法の多様性と分布のシフトが検出の安定性に影響を与えることが示された。

    Link: https://arxiv.org/abs/2606.15187

  • LLMベースTTSにおける期間埋め込み型ウォーターマーク [eess.AS, cs.SD]目的:LLMベースTTS生成音声へのロバストなウォーターマーク埋め込み
    • LLM-TTSの高性能化に伴い,悪用を防ぐための対策が重要となっている
    • 既存のウォーターマーク手法は,生成モデルによる攻撃に脆弱である
    • 生成モデルに強い,情報レベルのウォーターマーク手法を開発する
    • DuraMarkは,音節の長さを編集することでウォーターマークを埋め込む手法である
    • 実験により,DuraMarkは従来の信号レベルのウォーターマークよりも高いロバスト性を示すことが確認された
    • 音節期間を抽出するメカニズムにより,ウォーターマークの検出も可能である

    Link: https://arxiv.org/abs/2606.15264

  • LLMベースTTSにおける動的韻律予測による話者類似性の向上 [eess.AS, cs.SD]目的:話者類似性の向上のための動的韻律予測
    • 近年,高品質な音声合成技術が求められており,特に話者固有の特徴を再現する技術が重要である。
    • LLMベースTTSでは,韻律パターンが十分に学習されず,話者類似性が制限されるという課題がある。
    • 本研究では,韻律予測を通じて,音声合成における話者類似性の向上を目指す。
    • 提案手法では,過去の韻律予測に基づいて現在の音節の韻律を予測する。
    • 3つのデータセットを用いた実験により,提案手法が韻律学習能力を高め,話者類似性を向上させることが示された。
    • 音声サンプルはhttps://muzw.github.io/dynapros/で公開されている。

    Link: https://arxiv.org/abs/2606.15267

  • 拡散モデルを用いた強化学習による話者匿名化:DDPO-VC [eess.AS, cs.SD]目的:話者匿名化の課題解決
    • 話者識別情報は,個人のプライバシーに関わる重要な情報である。
    • 従来の匿名化手法では,プライバシー保護と実用性の両立が困難であった。
    • プライバシーと実用性を両立する新たな匿名化手法の開発を目指す。
    • 提案手法DDPO-VCは,プライバシー保護と実用性の両面で,既存手法を上回る性能を示した。
    • 強化学習と拡散モデルを組み合わせることで,プライバシー漏洩を抑制しつつ,認知機能の情報を維持することが可能となった。
    • 認知症患者の音声データを用いた評価実験で,その有効性が確認された。

    Link: https://arxiv.org/abs/2606.15313

  • クロマゲートを用いた微分可能なOKLCH補間:色かぶりの軽減のための連続Oklabフォールバック [eess.IV, cs.CV, cs.GR]目的:OKLCHにおける色かぶりの軽減
    • 色彩表現は,グラフィックスや画像処理において重要な役割を担う。
    • OKLCHは色空間としての利点がある一方,特定条件下で色かぶりが生じる問題がある。
    • OKLCHの色かぶりを軽減し,より自然なグラデーションを実現すること。
    • 本研究では,クロマゲートを用いた連続Oklabフォールバック(COFb)を提案し,OKLCHのパスをOklabのパスへ連続的にブレンドすることで色かぶりを軽減する。
    • COFbは,既存の二値スイッチ方式では対処できない,色相変化による色かぶりを効果的に抑制し,色かぶりと色相変化のトレードオフを最適化する。
    • COFbはOklab空間で動作するため,最新のCSSカラー補間が利用できない環境でも同様の効果を発揮し,幅広い応用が可能である。

    Link: https://arxiv.org/abs/2606.15352

  • 音響的に説明可能な音声ディープフェイク検出 [eess.AS, cs.SD]目的:音声ディープフェイクの検出における解釈可能性の向上
    • 音声認証のセキュリティにおいて,ディープフェイクによる偽装は深刻な脅威となりうる。
    • 既存のディープフェイク検出手法は,ブラックボックス化しており,その判断根拠が不明確である。
    • 音素情報を活用することで,検出の根拠を明確にし,より信頼性の高い検出を目指す。
    • 提案手法では,音素情報をガイドとしたクロスアテンション機構により,検出過程を音響的に解釈可能としている。
    • 実験の結果,弁別力が高いのは閉鎖音,摩擦音,破裂音などの調音カテゴリーであり,生成モデルが再現しにくいことが示された。
    • 本研究は,性能競争に加え,調音カテゴリーごとの内訳という構造的な解釈可能性を提供することで,検出の信頼性を高める。

    Link: https://arxiv.org/abs/2606.15454

  • MambAdapter:音声とオーディオにおけるパラメータ効率的な転移学習のための軽量Mambaベースアダプター [eess.AS, cs.SD]目的:音声とオーディオにおけるパラメータ効率的な転移学習手法
    • Transformerモデルは音声処理で高い性能を示すが,計算コストが大きい。
    • Transformerのファインチューニングには多大な計算資源とメモリが必要となる。
    • Mambaをボトルネックアダプターに組み込み,計算効率を高めることを目指す。
    • MambAdapterは,4つの音声分類タスクと5つの音声認識言語で,既存のPETL手法と同等またはそれ以上の性能を示した。
    • パラメータ予算を削減しても,高い性能を維持できることが確認された。
    • 軽量なMambaモジュールの導入とパラメータ共有により,オーディオ特徴のモデリングが効果的に行われた。

    Link: https://arxiv.org/abs/2606.15638

  • AdaTT:ターゲット適応構造制御によるテキスト誘導楽器音色変換 [math.CO, cs.DM, eess.AS, cs.SD]目的:楽器音色変換における音色曖昧性の解消
    • 音楽制作において,楽器音色を自在に変化させる技術は重要である。表現の幅を広げ,新たな音楽体験を生み出す可能性を秘めている。
    • 従来の音色変換では,楽器特有の表現がターゲット楽器と衝突し,音色の忠実度が損なわれる場合がある。
    • ターゲット楽器の特性に応じて,音色変換の制御を適応的に調整することで,音色の忠実度を高めることを目指す。
    • AdaTTはControlNetの枠組み内で,テキストプロンプトを通じてピッチと音量の制御の影響をターゲット楽器に合わせて選択的に調整する。
    • 提案手法は,多様な音色変換シナリオにおいて,優れた音色の忠実性と自然性を実現している。
    • 半自動的なデータ構築パイプラインにより,モデルがどの表現を変換または維持すべきかを学習している。

    Link: https://arxiv.org/abs/2606.15813

  • タスクの連鎖と仕事の再定義:AI自動化の理論 [econ.GN, cs.GT, q-fin.EC]目的:AIと人間のステップへの最適な割り当てと,それによる企業の職務構造
    • 生産活動は,効率化とコスト削減の要であり,企業の競争力を左右する重要な要素である。
    • AI導入が進む中で,AIと人間の役割分担が最適化されていない場合がある。
    • AIによるタスクの連鎖が生産性に与える影響を理論的に,かつ実証的に分析する。
    • AIによるステップの連鎖は,非線形な生産性向上をもたらす可能性がある。
    • AIステップの分散は,職務レベルでのAI実行を低下させる。
    • AIステップへの隣接性は,ステップがAI実行される可能性を高める。

    Link: https://arxiv.org/abs/2606.15960

  • 南東アジア言語におけるニューラル音声コーデック合成音声の偽装音声の初期ベンチマーク [eess.AS, cs.SD]目的:南東アジア言語におけるコーデックフェイク(CF)検出のための大規模ベンチマーク
    • 音声偽装技術は,セキュリティやプライバシー侵害のリスクを高めるため,その検出が重要である。
    • 既存の偽装音声検出器は,英語中心のデータで訓練されているため,南東アジア言語への汎化性能が低い。
    • 本研究は,南東アジア言語に特化した偽装音声検出のためのベンチマークと軽量なモデルを開発し,実用的な検出手法を確立することを目指す。
    • 南東アジア言語の音声は,言語特有の音素構造や声調,豊かなプロソディにより,英語中心のデータで訓練された検出器では性能が低いことが示された。
    • 大規模な言語モデルのファインチューニングは性能向上に寄与するものの,モデルサイズが大きいため,低リソース環境や低遅延環境での実用性に課題が残る。
    • 提案手法である軽量な言語モデルGARUDAは,既存手法を上回り,南東アジア言語における堅牢な偽装音声検出の新たな方向性を示す。

    Link: https://arxiv.org/abs/2606.15968

  • 漸進的学習による低ランク適応に基づく可変レート深層画像圧縮 [eess.IV, cs.CV, cs.MM]目的:可変レート深層画像圧縮の実現
    • デジタル化の進展により,効率的な画像圧縮技術の重要性が増している。
    • 既存の深層画像圧縮技術では,可変レート圧縮が課題となっていた。
    • 低ランク適応(LoRA)を用いた漸進的学習で,効率的な可変レート圧縮を実現する。
    • 提案手法は,複数のモデルを用いる従来法と比較して,同等の性能を維持する。
    • パラメータ保存量を99%,データセット量を90%,学習ステップ数を97%削減できる。
    • 推論時の計算コスト増加を抑制するため,LoRAを再パラメータ化して統合している。

    Link: https://arxiv.org/abs/2606.16107

  • ハイブリッド登録によるニューラル再評価を通じた短時間話者検証の安定化 [eess.AS, cs.SD]目的:短時間話者検証の安定化
    • 個人化されたキーワードスポッティングにおいて,短時間音声の利用が不可欠である。
    • 短い音声では話者表現が不安定になり,雑音や音素変動の影響を受けやすい。
    • テキスト依存とテキスト非依存の登録を組み合わせ,話者表現の安定化を図る。
    • 大規模短時間話者検証コーパスVoxPhraseを構築し,テキスト依存登録の不安定性を確認した。
    • テキスト非依存登録は,登録時間が長くなるほど表現が安定することを示した。
    • 提案手法は,複数の話者モデルで一貫した性能向上を実証した。

    Link: https://arxiv.org/abs/2606.16115

  • 波長多重化によるパッシブ回折ネットワークを用いた2次元ビームステアリング [physics.optics, cs.CV, cs.NE, physics.app-ph]目的:波長アドレス可能な回折光学ネットワーク
    • 光通信やイメージングなど,ビームステアリング技術は幅広い分野で重要である。
    • 従来のビームステアリングは機械的走査や電子制御が必要で,小型化や高速化に課題があった。
    • 波長を制御パラメータとして用いることで,小型・高速な2次元ビームステアリングを実現する。
    • 提案手法では,波長を変化させることで25x25の独立したビーム位置を制御可能であることを数値的に示した。
    • テラヘルツ波および可視光領域での実験により,3次元加工されたパッシブ回折層を用いた波長多重化ビームステアリングを実証した。
    • 本研究は,光通信,ルーティング,イメージング,センシングなどへの応用が期待される。

    Link: https://arxiv.org/abs/2606.16261