arXiv雑要約

画像・音声 - 2026/01/30 公開

  • 一般化線形需要の下でのオンライン価格競争 [cs.GT, math.ST, stat.ME, stat.TH]目的:一般化線形需要におけるオンライン価格競争の分析
    • オンライン市場の拡大に伴い,価格競争戦略の最適化が重要となっている。
    • 既存研究は線形需要モデルに限定されており,現実の需要の複雑さを捉えきれていない。
    • より現実的な需要モデルに基づいた,分散型価格設定戦略の提案を目指す。
    • 提案手法PML-GLUCBは,既存手法と比較して,協調的な探索フェーズを必要としない。
    • 各売り手は,$O(N^{2}\sqrt{T}\log(T))$ のリグレットを達成し,線形設定における最適なレートに匹敵する。
    • 単一エージェントシステムで用いられる楕円ポテンシャル補題を,競争的なマルチエージェント環境へ拡張した。

    Link: https://arxiv.org/abs/2511.10718

  • 拡散モデルとフローベースモデルにおける表現アラインメントによる逆問題解決 [cs.CV, cs.LG]目的:拡散モデルまたはフローベースモデルと事前学習済み自己教師ありエンコーダとの間の表現アラインメント
    • 生成モデルの性能向上には,事前学習済みモデルの知識を活用することが重要である。
    • 逆問題では,真の信号がないため,再構成の質を維持することが難しい。
    • 表現アラインメントを通じて,逆問題における再構成品質と知覚的なリアリズムを向上させる。
    • 拡散モデルやフローベースモデルとDINOv2ビジュアルエンコーダ間の表現アラインメント(REPA)が再構成プロセスを改善する。
    • REPAは,DINOv2埋め込み空間における発散の最小化を目的とした変分アプローチと解釈できる。
    • REPAは,潜在拡散状態をクリーンな画像の状態に誘導し,知覚的忠実度を向上させる。

    Link: https://arxiv.org/abs/2511.16870

  • 意味的ルーター:単一の敵対的摂動によるMLLMの乗っ取り可能性について [cs.RO, cs.CV, cs.AI, cs.CR]目的:マルチモーダル大規模言語モデルの乗っ取り可能性
    • 自動運転やロボット工学など,MLLMの利用が拡大しており,安全性確保が重要である。
    • MLLMは入力に対する脆弱性が指摘されているが,複数の決定を同時に操作する攻撃は未解明である。
    • 単一の摂動でMLLMの複数決定を操作し,安全性への脅威を明らかにすること。
    • 本研究では,意味を認識し,攻撃者が定義したターゲットへ入力信号を誘導する「意味的ルーター」の実現可能性を示した。
    • 潜在空間の幾何学的特性の分析に基づき,「SORT」最適化戦略と詳細な意味的注釈付きデータセットを提案した。
    • Qwenに対して,5つのターゲットに対し単一フレームで66%の攻撃成功率を達成し,攻撃の根本的な実行可能性を実証した。

    Link: https://arxiv.org/abs/2511.20002

  • モーション:ML支援によるオンデバイス低遅延モーション認識 [cs.CV, cs.AI, cs.HC]目的:低遅延モーション認識の実現
    • 日常の人間とコンピュータのインタラクションや医療モニタリングにおいて,小型デバイスの需要が高まっている。
    • 誤検知を避けつつ,高速かつ効率的な動きの追跡が求められている。
    • 三軸加速度センサーのみを用いた効率的なモーションモデルの構築を目指す。
    • AutoMLパイプラインにより,データから重要な特徴量を抽出することに成功した。
    • ニューラルネットワークが,精度,遅延,メモリ使用量のバランスに優れていることが判明した。
    • WeBe Band上で信頼性の高いリアルタイムジェスチャー認識が可能であり,医療モニタリングへの応用が期待される。

    Link: https://arxiv.org/abs/2512.00008

  • LLM2Fx-Tools:音楽ポストプロダクションのためのツール呼び出し [cs.SD]目的:音楽ポストプロダクションのためのオーディオエフェクトシーケンス生成
    • 音楽制作において,高品質な音響効果は不可欠であり,制作効率向上へのニーズが高い。
    • 既存の手法では,適切なエフェクト選択やパラメータ設定に専門知識と時間がかかるという課題があった。
    • LLMを活用し,音楽の特性に基づいた効果的なエフェクトシーケンスを自動生成することで,この課題を解決する。
    • LLM2Fx-Toolsは,未処理と処理済みのオーディオペアからエフェクトシーケンスとパラメータを推論できることが示された。
    • Chain-of-Thought推論とツール呼び出し,自己回帰的シーケンスモデリングにより実現されている。
    • LLMをジャッジとして用いた評価により,音楽制作に関する適切な推論と応答が生成されることが確認された。

    Link: https://arxiv.org/abs/2512.01559

  • RAVE:3Dガウススプラッティングのためのレート適応型視覚符号化 [cs.CV]目的:3Dガウススプラッティングのレート適応型圧縮方式
    • 没入型マルチメディアにおいて,3DGSはリアルタイムな高品質なレンダリングを可能にする。
    • 3DGSはメモリ要件が大きく,学習コストが高いという課題がある。
    • 帯域幅やデバイス制約に応じた適応的な圧縮を可能にすること。
    • 本研究では,任意のレートで補間可能な柔軟な3DGS圧縮方式を提案した。
    • 提案手法は計算コストが低く,再学習を必要とせず,広い動作範囲でレンダリング品質を維持する。
    • 実験により,効率的かつ高品質な圧縮と動的なレート制御が実証された。

    Link: https://arxiv.org/abs/2512.07052

  • SSCATeR:LiDAR点群における時間的データ再利用による疎な散布ベース畳み込みアルゴリズム [cs.CV]目的:リアルタイム3D物体検出のための効率化
    • 自動運転やロボティクスにおいて,周囲環境の3次元認識は不可欠である。
    • LiDAR点群の処理は計算コストが高く,リアルタイム性が課題となる。
    • 時間的な冗長性を利用し,計算量を削減することで効率化を図る。
    • 提案手法SSCATeRは,時間的なデータ再利用により,畳み込み演算量を大幅に削減する。
    • 従来手法と同等の精度を維持しつつ,最大6.61倍の処理時間短縮を実現した。
    • 特徴マップは従来の疎な畳み込み技術と同等であり,計算効率が向上する。

    Link: https://arxiv.org/abs/2512.08557

  • MultiHateLoc:オンライン動画におけるマルチモーダルヘイトコンテンツの時間的局在化に向けて [cs.CV]目的:オンライン動画におけるマルチモーダルヘイトコンテンツの時間的局在化
    • 動画共有プラットフォームの拡大に伴い,ヘイトスピーチの拡散が深刻化しており,その対策が急務である。
    • 既存研究は動画全体の分類に偏っており,ヘイトコンテンツが具体的にいつ発生しているかの特定は困難であった。
    • 粗いラベルのみを用いて,動画内のヘイトコンテンツの時間的な位置を正確に特定することを目指す。
    • 提案手法MultiHateLocは,時間的な局在化において最先端の性能を達成した。
    • 本手法は,各モーダルの時間的パターンを捉えるエンコーダ,動的なクロスモーダル融合,そしてモーダルを意識したMIL目的関数を用いる。
    • MultiHateLocは,動画レベルのラベルのみでフレームレベルの予測を可能にし,解釈性の高い結果を提供する。

    Link: https://arxiv.org/abs/2512.10408

  • 拡散に基づくリアルタイムエンドツーエンドストリーミング・トーキングヘッド生成:ID-Contextキャッシュと非同期ストリーミング蒸留による [cs.CV, cs.SD]目的:リアルタイムエンドツーエンドストリーミング・トーキングヘッド生成フレームワーク
    • トーキングヘッド生成は,バーチャルアバターやビデオ会議など,多様な応用分野で重要性が増している。
    • 拡散モデルは高品質だが,推論速度が遅く,リアルタイム処理が困難であるという課題がある。
    • 拡散モデルの効率性を高め,リアルタイムストリーミング可能なトーキングヘッド生成を実現すること。
    • RESTは,高圧縮率の空間的・時間的VAEとID-Contextキャッシュ機構により,リアルタイムなストリーミング生成を可能にした。
    • 非同期ストリーミング蒸留(ASD)により,エラーの蓄積を抑制し,時間的な一貫性を向上させた。
    • 実験結果から,RESTは既存手法よりも生成速度と全体的な性能において優れていることが示された。

    Link: https://arxiv.org/abs/2512.11229

  • Uni-Parser技術報告書 [cs.SI, cs.CV]目的:科学文献と特許文書の解析エンジン
    • 科学技術情報の爆発的な増加に伴い,効率的な情報抽出が不可欠である。
    • 従来のパイプライン型解析では,複数モダリティ間の関係性が十分に捉えられない。
    • 大規模データに対する高効率かつ高精度な解析を実現し,AI4Scienceを支援する。
    • Uni-Parserは,テキスト,数式,表,図,化学構造などの複数モダリティ間の関係性を維持する。
    • 8基のNVIDIA RTX 4090D GPU上で1秒あたり最大20ページを処理可能であり,コスト効率に優れる。
    • 文献検索,要約,化学構造抽出,大規模言語モデルの学習など幅広い応用が期待される。

    Link: https://arxiv.org/abs/2512.15098

  • 荒野における都市ナビゲーション:MLLMにおけるWeb規模知識からの創発的ナビゲーションの探求 [cs.CV]目的:大規模マルチモーダル言語モデル(MLLM)を用いた都市ナビゲーション能力の評価
    • 実世界タスクを解決するため,具現化されたエージェント開発におけるMLLMの重要性が高まっている。
    • 既存の評価ベンチマークは言語中心,またはシミュレーション環境に依存しており,実世界での知識集約的な推論評価が不足している。
    • 実世界環境におけるMLLMの逐次的意思決定能力を評価するための新しいタスクとベンチマークを提案すること。
    • 現在の最先端MLLMは,この困難な設定において,GEPA,Chain-of-Thought,Reflectionなどの推論手法やPRePなどのベースラインと比較して,性能が低いことが示された。
    • 提案手法であるVoP(Pathの言語化)は,MLLMから都市規模の認知マップ(主要なランドマークと目的地への方向)を抽出することにより,内部推論を具体化し,ナビゲーションの成功率を大幅に向上させる。
    • CityNavベンチマークは,多様なグローバル都市を包含し,環境注釈や特殊なアーキテクチャ修正なしに,視覚入力と内部マルチモーダル推論のみに基づいてナビゲーションを行うエージェントを評価する。

    Link: https://arxiv.org/abs/2512.15933

  • 基礎的な音声エンコーダは楽曲構造を理解しているか [cs.SD, cs.LG, eess.AS]目的:楽曲構造分析における基礎的な音声エンコーダの性能評価
    • 音楽情報検索分野では,楽曲の自動解析が重要であり,その精度向上は長年の課題である。
    • 既存の音声エンコーダでは,楽曲構造の理解度が十分ではなく,性能にばらつきがある。
    • 多様な音声エンコーダの性能を比較し,楽曲構造分析に最適な学習方法を明らかにすること。
    • 自己教師あり学習による,特にマスク言語モデリングを用いたエンコーダが楽曲構造分析で高い性能を示した。
    • 学習方法,学習データ,モデルの文脈長などが楽曲構造分析の性能に影響を与えることが明らかになった。
    • これらの結果は,今後の音声エンコーダと楽曲構造分析の研究開発に貢献すると期待される。

    Link: https://arxiv.org/abs/2512.17209

  • 高性能ドローン視点ジオロケーションのための効率的なスパイク駆動型Transformer [cs.RO, cs.CV]目的:高性能ドローン視点ジオロケーションの実現
    • ドローン利用の拡大に伴い,高精度かつ低消費電力な位置推定技術が求められている。
    • 従来のニューラルネットワークは計算負荷が高く,ドローンへの搭載には不向きな場合がある。
    • スパイクニューラルネットワークの可能性をドローン視点ジオロケーションに応用し,課題を解決する。
    • 提案手法SpikeViMFormerは,最先端のSNNよりも優れた性能を達成した。
    • 高度なANNと比較しても,競争力のある性能を示すことが確認された。
    • スパイク駆動型Transformerと選択的注意機構により,情報損失を抑制し,長距離依存性を学習する。

    Link: https://arxiv.org/abs/2512.19365

  • 状態的反射メモリによる学習:Memento 2 [cs.AI, cs.CV, cs.LG]目的:継続的および経験的学習のメカニズムの理論的考察
    • 大規模言語モデルの継続的な適応能力向上は,実用的な応用において不可欠である。
    • 従来の強化学習では,モデル更新なしでの継続学習が困難であった。
    • 過去の経験を活用した反射的メカニズムによる適応能力の解明を目指す。
    • エピソード記憶と強化学習を組み合わせることで,長期的なタスクに対する汎化適応が可能となることが示された。
    • 状態的反射決定過程という新しいモデルを導入し,反射メモリの動的な挙動を形式的に記述した。
    • 記憶容量が増加し状態空間の網羅性が向上するにつれて,合成ポリシーが最適解に収束することが証明された。

    Link: https://arxiv.org/abs/2512.22716

  • MiLDEdit:推論に基づく多層デザインドキュメント編集 [cs.CV]目的:多層デザインドキュメント編集のための推論フレームワーク
    • 現実世界のドキュメントは多層構造であり,編集には高度な理解が求められる。
    • 既存研究は単層編集や生成に偏っており,多層ドキュメントの編集における推論が不足している。
    • 多層ドキュメント編集における層ごとの理解と正確な変更を実現することを目指す。
    • 本研究では,層ごとの理解とターゲットを絞った変更を行うMiLDEAgentを提案した。
    • MiLDEBenchという,2万件以上のデザインドキュメントと編集指示を含むデータセットを構築した。
    • MiLDEAgentは既存手法を大幅に上回り,クローズドソースモデルと同等の性能を示した。

    Link: https://arxiv.org/abs/2601.04589

  • UniHash:点積およびペアワイズハッシュパラダイムの統合 [cs.HC, cs.CV]目的:見知らぬカテゴリを含む画像検索性能のバランス
    • 画像検索システムにおいて,既知・未知のカテゴリ双方に対応できることが重要である。
    • 既存の深層ハッシュ法は,点積またはペアワイズのいずれかに限定され,汎化性能に課題がある。
    • 点積とペアワイズの利点を統合し,未知カテゴリでの性能向上を目指す。
    • UniHashは,点積とペアワイズの二つのブランチを持つ統合フレームワークである。
    • ブランチ間の双方向知識転移により,ハッシュコードの識別性と汎化性能を向上させている。
    • CIFAR-10,MSCOCO,ImageNet等の実験で,UniHashは最先端の性能を達成している。

    Link: https://arxiv.org/abs/2601.09828

  • アルゴリズムの視線:LAION-Aesthetics予測モデルの監査と民族誌的考察 [cs.HC, cs.AI, cs.CV]目的:視覚生成AIモデルにおける美的評価のバイアス検証
    • 視覚生成AIの発展は著しいが,美的評価基準の偏りは,生成されるコンテンツの多様性を損なう恐れがある。
    • 既存の美的評価モデルは,特定の文化や価値観に偏った判断を下す可能性があり,公正性に問題がある。
    • 本研究は,LAION-Aesthetics予測モデルのバイアスを明らかにし,より包括的な美的評価のあり方を模索する。
    • LAION-Aesthetics予測モデルは,女性に関するキャプションを持つ画像を過剰に選択し,男性やLGBTQ+に関する画像を却下する傾向が見られた。
    • 西洋および日本のアーティストによる風景,都市景観,ポートレイトの写実的な画像が,モデルによって高く評価される傾向があった。
    • モデルの開発過程において,英語圏の写真家や西洋のAI愛好家の美的評価が中心であったことが,バイアスの原因として考えられる。

    Link: https://arxiv.org/abs/2601.09896

  • 小規模分類のための信頼性の高い深層学習:バングラデシュの現実世界画像データセットにおける実験 [cs.CV]目的:小規模画像分類における深層学習モデルの性能評価
    • 画像認識技術は,社会インフラの維持管理や農業支援など,様々な分野で重要性が増している。
    • 深層学習モデルは,データセット規模が小さい場合,過学習を起こしやすく,汎化性能が低下しやすい。
    • 小規模データセットでも,効率的かつ高精度な画像分類を可能とする深層学習モデルの構築を目指す。
    • 提案するコンパクトなCNNは,バングラデシュの現実世界の画像データセットにおいて高い分類精度を示した。
    • モデルは,効率的な学習収束と低い計算コストを実現し,多様な状況下でロバストに機能することが示された。
    • 特徴量の可視化により,モデルが識別的な特徴を効果的に捉えていることが確認された。

    Link: https://arxiv.org/abs/2601.11911

  • ビデオからの物体除去のための確率的ブリッジ学習:ビデオ対ビデオ変換による [cs.CV]目的:ビデオ物体除去における性能向上
    • ビデオ編集において,不要な物体を自然に除去する技術は重要な課題である。
    • 既存手法はノイズからの生成に依存し,入力動画の構造的情報を活用できていない。
    • 入力動画の構造的情報を活用し,より自然で論理的な除去を実現すること。
    • 本研究では,ビデオ物体除去を確率的ブリッジモデルによるビデオ対ビデオ変換タスクとして再構築した。
    • これにより,入力動画を強力な構造的Priorとして活用し,高精度な除去と論理的な整合性を実現した。
    • 適応的なマスク変調戦略により,大規模な物体除去時の課題を克服し,既存手法を大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2601.12066

  • 半教師あり物体検出アプローチの実用的な考察 [cs.CL, cs.CL, cs.CV]目的:半教師あり物体検出における性能変動の理解
    • データ不足環境下での学習は重要であり,特に物体検出の分野でそのニーズは高まっている。
    • ラベル付きデータが限られている場合,既存の物体検出手法の性能は著しく低下する。
    • 少ないラベル付きデータでも高精度な物体検出を実現するための手法を特定すること。
    • MixPL,Semi-DETR,Consistent-Teacherの3つの最先端SSOD手法を比較検討した結果,ラベル付きデータ数による性能差が明らかになった。
    • MS-COCOとPascal VOCのベンチマークデータセットに加え,独自のBeetleデータセットを用いた評価により,専門的なデータセットにおける性能に関する知見が得られた。
    • 精度,モデルサイズ,遅延時間のトレードオフが明らかになり,低データ環境下で最適な手法選択の指針が得られた。

    Link: https://arxiv.org/abs/2601.13380

  • 空間V2A:視覚誘導による高忠実度空間オーディオ生成 [cs.CV]目的:視覚情報に基づく空間オーディオ生成手法
    • 動画と音響の連携は,没入感の高いメディア体験を実現する上で重要である。
    • 既存研究では,空間的な知覚や臨場感といった空間オーディオの質が十分とは言えない。
    • 視覚情報から空間的な特徴を抽出し,リアルな空間オーディオを生成することを目指す。
    • 大規模な動画-バイノーラル音声データセットBinauralVGGSoundを構築した。
    • 視覚情報に基づいてオーディオの空間化を行うモジュールを組み込んだ生成フレームワークを提案した。
    • 提案手法は,空間的な忠実度において既存手法を大幅に上回り,より没入感のある聴覚体験を提供する。

    Link: https://arxiv.org/abs/2601.15017

  • DrivIng:完全なデジタルツイン統合を備えた大規模マルチモーダル運転データセット [cs.CV]目的:自律運転のための大規模マルチモーダル運転データセットの提供
    • 自動運転技術の発展には,周囲環境の正確な認識が不可欠である。
    • 既存のデータセットは,高精度なデジタルツインを欠き,体系的なテストが困難である。
    • 高精度なデジタルツインと豊富なアノテーションを用いて,自動運転の認識アルゴリズムを向上させる。
    • DrivIngは,約18kmのルートをカバーする大規模なマルチモーダルデータセットである。
    • 6つのRGBカメラ,1つのLiDAR,高精度なADMAベースのローカリゼーションデータを提供する。
    • 12クラスの3DバウンディングボックスとトラックIDで,約120万件のアノテーションを含む。

    Link: https://arxiv.org/abs/2601.15260

  • GR3EN:3D環境の生成によるライティング変更 [cs.CV]目的:大規模ルームスケールの3D環境再構成におけるライティング変更手法
    • 現実世界の再現度向上が求められる中,3D環境のライティングは重要な要素である。
    • 既存手法は逆レンダリング問題に起因する課題を抱え,複雑なシーンでの高品質なライティング変更が困難。
    • 複雑な現実世界のシーンにおける柔軟な3Dライティング変更を実現すること。
    • 本手法は,ビデオtoビデオのライティング変更拡散モデルの出力を3D再構成に蒸留することで,難しい逆レンダリング問題を回避する。
    • 合成データと現実世界のデータセットを用いて検証した結果,新しい照明条件下でシーンの新しい視点を忠実にレンダリングできることが示された。
    • 複雑な実世界シーンの3D再構成に対し,制御可能なライティング変更が可能となった。

    Link: https://arxiv.org/abs/2601.16272

  • SkyReels-V3技術報告 [cs.CL, cs.HC, cs.CV]目的:マルチモーダル文脈推論による世界モデル構築のためのビデオ生成手法
    • 世界モデル構築において,ビデオ生成は重要な役割を担う。多様な情報から状況を理解する能力を試す上で不可欠である。
    • 既存手法では,参照画像からの高品質なビデオ生成,ビデオの拡張,音声に基づくビデオ生成を単一のモデルで実現することが困難であった。
    • 本研究は,参照画像,ビデオ,音声の各条件に対応した高品質なビデオ生成を単一のアーキテクチャで実現し,その性能を向上させることを目指す。
    • SkyReels-V3は,参照画像からビデオを生成する際に,高い忠実度,一貫性,および被写体の同一性維持を可能にする。
    • ビデオ拡張モデルは,空間的・時間的一貫性を考慮し,シームレスな継続や高度な編集パターンを実現する。
    • 音声駆動型ビデオ生成モデルは,音声とビデオの同期を最適化し,高品質なトーキングアバターを生成する。主要な評価指標において,最先端またはそれに匹敵する性能を示す。

    Link: https://arxiv.org/abs/2601.17323

  • VidLaDA:効率的な動画理解のための双方向拡散大規模言語モデル [cs.RO, cs.CL, cs.CV, cs.AI]目的:効率的な動画理解のための新しい大規模言語モデル
    • 動画理解は,AI技術の発展において重要な役割を担う。様々な応用が期待されている。
    • 既存の動画大規模言語モデルは,効率性の面でボトルネックが存在する。
    • 双方向アテンションと並列デコードによる効率的な動画理解モデルの開発。
    • VidLaDAは,最新の一方向モデルと同等の性能を示す。
    • 拡散言語モデルの性能を上回り,MARS-Cacheによって12倍以上の高速化を実現。
    • 正確性を損なうことなく,計算コストを大幅に削減することに成功した。

    Link: https://arxiv.org/abs/2601.17868

  • OREHAS:MRIにおける内耳水腫の体積定量のための完全自動深層学習パイプライン [cs.HC, cs.HC, cs.CV]目的:内耳水腫の体積定量
    • 内耳疾患の早期発見と治療効果の評価には,内耳水腫の正確な定量が不可欠である。
    • 従来,内耳水腫の定量は専門家による手作業に依存しており,時間と労力がかかる。
    • 本研究は,内耳水腫の定量処理を自動化し,再現性と効率性を向上させることを目指す。
    • OREHASは,限られた教師データ(患者あたり3〜6枚のスライス)のみで,SPACE-MRCおよびREAL-IRのMRIにおいて高い精度(Diceスコア:0.90/0.75)を示した。
    • 外部検証データセットでは,専門家の評価と高い一致度(VSI = 74.3%)を示し,臨床ソフトウェアsyngo.via(VSI = 42.5%)を大幅に上回った。
    • 本研究により,標準的なMRIを用いて,限られた指導のもとで信頼性の高い内耳水腫の定量が可能であることが示された。

    Link: https://arxiv.org/abs/2601.18368

  • GUIGuard:プライバシー保護GUIエージェントのための汎用的なフレームワークへ [cs.CR, cs.AI, cs.CV]目的:GUIエージェントにおけるプライバシー保護
    • GUIエージェントは自動化の効率化に貢献するが,個人情報の取り扱いが課題となる。
    • GUI操作は,より詳細でアクセスしやすい個人情報を含むため,プライバシーリスクが高い。
    • GUIエージェントのプライバシー保護を実現し,実用性を高めることを目指す。
    • 既存のエージェントはプライバシー認識において限定的な性能しか示しておらず,特にAndroidやPC環境での精度が低いことが示された。
    • プライバシー保護下においても,タスクプランニングのセマンティクスを維持可能であり,クローズドソースモデルの方がより一貫性を示すことが確認された。
    • 適切な保護戦略により,プライバシーを維持しつつタスクの精度を向上させることが可能である。

    Link: https://arxiv.org/abs/2601.18842

  • 制約を考慮した損失関数とクロス学習モジュールを用いた決定トランスフォーマーによる自動入札の強化 [cs.LG, cs.GT]目的:自動入札のための決定トランスフォーマーの性能向上
    • オンライン広告における入札戦略は,広告効果と費用対効果に直結する重要な課題である。
    • 従来の決定トランスフォーマーは,状態,行動,残りの報酬間の相互相関のモデリングが不十分であり,最適な行動とそうでない行動を区別できていない。
    • 状態,行動,残りの報酬間の相関関係を強化し,制約条件を考慮した損失関数によって最適な行動の学習を促進すること。
    • 提案手法C2は,クロスアテンションを用いたクロス学習ブロック(CLB)と,予算およびCPA制約を組み込んだ制約を考慮した損失関数(CL)を導入することで,決定トランスフォーマーの性能を向上させている。
    • AuctionNetデータセットを用いたオフライン評価の結果,C2は様々な予算設定において最先端の手法と比較して一貫した性能向上(最大3.2%)を示した。
    • CLBとCLの相乗効果を示すアブレーションスタディにより,C2が自動入札において優れていることが確認された。

    Link: https://arxiv.org/abs/2601.20257

  • 適切な位置に:テキストから画像生成モデルの空間知能のベンチマーク [cs.CV]目的:テキストから画像生成モデルの空間知能の評価
    • 画像生成技術の発展に伴い,空間認識能力の重要性が高まっている。
    • 既存の評価指標では,複雑な空間関係の理解度が十分に測れていない。
    • 空間知能の評価を可能にし,モデルの空間的推論能力向上を目指す。
    • 本研究では,空間知能を評価するための新たなベンチマーク「SpatialGenEval」を開発した。
    • SpatialGenEvalは,25種類のシーンと10の空間サブドメインを含む1,230の長文プロンプトで構成される。
    • SpatialT2Iデータセットを用いたファインチューニングにより,モデルの性能が向上し,より現実的な空間関係が生成された。

    Link: https://arxiv.org/abs/2601.20354

  • MARE:説明可能なディープフェイク検出のためのマルチモーダルアライメントと強化学習 [cs.CV]目的:ディープフェイク検出における精度と信頼性の向上
    • 偽情報拡散の抑制は重要であり,ディープフェイク検出はその鍵となる技術の一つである。
    • 既存手法は分類や空間局在化に偏り,生成モデルの進化に対応できていない。
    • 人間によるフィードバックを取り入れ,より精度の高い検出と説明を可能にすること。
    • MAREは,人間の好みに合致したテキストと空間情報の整合性を促す報酬関数を設計した。
    • 高レベルな顔のセマンティクスから偽造痕跡を捉える偽造分解モジュールを導入し,検出能力を向上させた。
    • 実験結果から,MAREが精度と信頼性の両面で最先端の性能を達成することが示された。

    Link: https://arxiv.org/abs/2601.20433

  • 人間とAIの協調における規範的同等性:協調を促進するのはアイデンティティではなく行動 [cs.AI, cs.GT, cs.HC, econ.GN, q-fin.EC]目的:人間とAIが混ざったグループにおける協調的規範の創発と維持機構
    • 社会生活において協調は不可欠であり,集団の持続可能性に大きく影響する。
    • AIエージェント導入により,従来の人間関係に基づく規範がどのように変化するか不明である。
    • AIエージェントが協調規範に与える影響を明らかにすることで,より良い人間とAIの協調を促進する。
    • 反復的な公財ゲーム実験の結果,協調は相互作用と行動慣性によって主に促進されることが示された。
    • AIエージェントのラベルは,協調レベルに有意な差をもたらさず,規範的メカニズムは条件間で一貫していた。
    • この研究は,協調規範がAIエージェントにも適用可能であることを示唆し,集団意思決定における人間とAIの境界を曖昧にする。

    Link: https://arxiv.org/abs/2601.20487

  • 継続的なGUIエージェント [cs.CL, cs.LG, cs.CV]目的:GUI環境の変化下における継続学習
    • デジタル環境は常に変化しており,GUIデータも時間とともに更新されるため,エージェントの適応が重要である。
    • 静的な環境で訓練されたエージェントは,GUIの分布が変化すると性能が低下するという課題がある。
    • GUI分布の変化に対応し,安定したGUI操作を実現するための継続学習フレームワークを提案する。
    • 提案手法GUI-AiFは,既存のベースライン手法を大きく上回る性能を示した。
    • GUI-AiFは,報酬関数に「アンカリングポイント報酬」と「アンカリング領域報酬」を導入することで,変化するGUI要素への適応を促進する。
    • 本研究は,GUIエージェント向けの最初の継続学習フレームワークを確立し,強化学習によるファインチューニングの可能性を示す。

    Link: https://arxiv.org/abs/2601.20732

  • カメラ・IMU融合によるロバストな路面分類のための新規データセットとフレームワーク [cs.CV, cs.AI]目的:路面分類のためのロバストなフレームワークの提案
    • 環境認識型予測保全システムにおいて,路面分類は重要な役割を果たす。
    • 既存手法は,限られたセンサの種類や多様性の低いデータセットにより,様々な環境下での汎化性能が低い。
    • 環境変化に対するロバスト性を高めるため,カメラとIMUの情報を効率的に融合するフレームワークを開発する。
    • 提案手法は,PVSベンチマークで最先端手法よりも1.4pp,新規データセットROADのマルチモーダルサブセットで11.6ppの性能向上を達成した。
    • 特に少数クラスにおけるF1スコアが向上し,夜間や雨天など困難な視覚条件下でも安定した性能を示した。
    • 安価なカメラとIMUセンサの組み合わせとマルチモーダルアテンション機構により,環境変動が大きくコスト制約のある地域でも路面理解が可能となる。

    Link: https://arxiv.org/abs/2601.20847

  • スケール不変イメージング:画像超解像と鮮明化のための自己教師あり学習 [eess.IV, cs.CV]目的:画像超解像および鮮明化のための自己教師あり学習手法
    • 科学・医療画像分野では,教師データ獲得が困難であり,自己教師あり学習の重要性が高まっている。
    • 既存手法では,画像超解像や鮮明化といった重要な問題において十分な性能が得られていない。
    • 低周波情報のみから高周波情報を復元するため,スケール不変性を活用する新たな手法を開発する。
    • 提案手法は,既存の自己教師あり学習アプローチを凌駕する性能を示すことが実験で明らかになった。
    • 実データを用いた実験において,提案手法は完全に教師あり学習に匹敵する結果を達成した。
    • 画像分布のスケール不変性を利用することで,測定プロセスで失われた高周波情報を効果的に復元する。

    Link: https://arxiv.org/abs/2312.11232

  • OmniLens:LensLibから特定ドメインへの適応による普遍的なレンズ収差補正へ [physics.optics, cs.CV, eess.IV]目的:普遍的なレンズ収差補正モデルの汎化性能向上
    • 近年,軽量かつ高品質な画像取得が求められており,レンズ収差補正技術の重要性が高まっている。
    • 既存のレンズライブラリの網羅性が低く,未知のレンズに対する汎化性能が課題となっていた。
    • レンズ記述が不明なレンズに対しても,汎化性能の高い収差補正を実現することを目指している。
    • 進化ベースの自動光学設計パイプラインを用いて,多様なレンズサンプルを生成し,汎用的なレンズライブラリを構築した。
    • 提案手法により,レンズライブラリを用いて事前学習したモデルは,未知のレンズに対しても高い汎化能力を示すことが確認された。
    • ドメイン適応により,特に重度の収差の場合において,ベースモデルの性能を大幅に向上させることができた。

    Link: https://arxiv.org/abs/2409.05809

  • 拡散に基づく音声強調にEMAは必要か? 振幅保存ネットワークアーキテクチャに向けて [eess.AS, cs.SD]目的:拡散に基づく音声強調におけるEMAの必要性検証と振幅保存ネットワークアーキテクチャの提案
    • 音声強調は,雑音環境下での音声の明瞭度向上に不可欠であり,様々な応用分野で求められている。
    • 近年の拡散モデルは画像生成で成功を収めているが,音声強調への適用はまだ発展途上であり,安定した学習が課題である。
    • 本研究は,拡散モデルにおけるEMAの影響を検証し,より高品質な音声強調を実現するアーキテクチャを模索する。
    • 拡散モデルにおいて,EMAパラメータの平滑化は,画像生成とは異なり,短いEMAやEMAなしの方が音声強調性能を向上させることが示された。
    • ネットワーク入力と出力の時間依存プレコンディショニングや,スキップ接続の構成を工夫することで,学習の安定化と性能向上が確認された。
    • VoiceBank-DEMANDおよびEARS-WHAMデータセットでの実験により,提案手法が競争力のある性能を示すことが確認された。

    Link: https://arxiv.org/abs/2505.05216

  • MindGrab:コマンドラインとブラウザ向け高速かつ高精度な頭蓋剥離 [eess.IV, cs.AI, cs.CV, cs.NE]目的:頭蓋剥離の高速化と利便性の向上
    • 脳画像解析において,頭蓋の除去は前処理として不可欠であり,解析精度に影響する。
    • 既存手法は計算コストが高く,専用ハードウェアを必要とするため,利用の妨げとなっていた。
    • 計算資源の限られた環境でも利用可能な,高速かつ高精度な頭蓋剥離手法の開発。
    • MindGrabは,従来の頭蓋剥離手法と比較して,最大40倍の高速化とメモリ使用量の削減を実現した。
    • 様々なデータセットと画像モダリティにおいて,平均Dice係数95.9%という高い精度を達成した。
    • コマンドラインツールとウェブアプリケーションの両方で提供され,幅広い環境で利用可能である。

    Link: https://arxiv.org/abs/2506.11860

  • OrthoInsight:マルチモーダル大規模モデルに基づく肋骨骨折の診断とレポート作成 [eess.IV, cs.AI, cs.CV]目的:肋骨骨折の診断およびレポート作成
    • 医療画像データ量は増加の一途を辿り,特に肋骨骨折のような筋骨格系損傷の迅速な診断が求められている。
    • 手動による画像診断は時間と労力を要し,見落としなどの誤りが生じやすいという課題がある。
    • マルチモーダル学習を用いて,医療画像分析の効率化と放射線科医支援を目指す。
    • OrthoInsightは,CT画像と専門的なテキストデータを統合し,臨床的に有用な診断結果を提供する。
    • 28,675枚のCT画像と専門レポートによる評価において,診断精度,内容の完全性,論理的な整合性,臨床ガイダンス価値において高い性能を示した。
    • 平均スコア4.28は,GPT-4やClaude-3などの既存モデルを上回る結果である。

    Link: https://arxiv.org/abs/2507.13993

  • 時間的に類似構造を考慮した衛星画像の時空間融合 [eess.SP, cs.CV]目的:衛星画像の空間分解能と時間分解能のトレードオフを解消するための時空間融合手法
    • 衛星画像は,地球観測において重要な役割を担い,環境変化のモニタリングなどに不可欠である。
    • 現実の衛星画像はノイズの影響を受けやすく,高品質な画像を得ることが困難である。
    • ノイズに強く,かつ微細な空間構造を保持する時空間融合手法の開発が求められている。
    • 提案手法TSSTFは,ノイズがない条件下では最先端手法と同等の性能を示す。
    • TSSTFは,ノイズ条件下では既存手法を上回り,優れた性能を発揮する。
    • TGTVとTGECの導入により,空間的な滑らかさと構造の詳細を両立し,エッジの保持も実現した。

    Link: https://arxiv.org/abs/2508.11259

  • 騒音環境下における人工内耳音響符号化シミュレーションのためのエンドツーエンドな聴覚-視覚学習 [eess.AS, cs.AI, cs.SD, eess.IV]目的:人工内耳の音響符号化における聴覚と視覚情報の統合
    • 重度の難聴者にとって人工内耳は有用だが,騒音下での聴取は依然として課題である。
    • 従来の符号化戦略では,騒音環境下での性能向上が限定的である。
    • 聴覚と視覚情報を統合することで,騒音環境下での人工内耳の性能を向上させる。
    • 提案手法AVSE-ECSは,客観的な音声明瞭度を高く維持する。
    • AVSE-ECSは,先進的な組み合わせエンコーダ(ACE)戦略と比較して,信号対誤差比(SER)を7.4666 dB改善した。
    • これらの結果は,AVSEに基づく人工内耳音響符号化の可能性を示唆する。

    Link: https://arxiv.org/abs/2508.13576

  • テキスト音声生成拡散モデルにおける反記憶ガイダンスによるデータ複製軽減 [eess.AS, cs.LG, cs.SD, eess.SP]目的:テキスト音声生成拡散モデルにおけるデータ複製軽減策
    • 生成モデルの発展は,高品質な音声コンテンツの自動生成を可能にするため重要である。
    • 生成モデルが学習データを無意識に複製してしまう問題が存在する。
    • 拡散モデルにおける反記憶ガイダンスによって,データ複製を抑制しつつ高品質な音声を生成することを目指す。
    • 反記憶ガイダンス(AMG)は,拡散モデルのサンプリング過程を調整することで,記憶を抑制する。
    • 実験結果から,AMGがStable Audio Openを用いたテキスト音声生成において,データ複製を大幅に軽減できることが示された。
    • AMGは,音声の忠実度や意味的整合性を損なうことなく,記憶の抑制に貢献する。

    Link: https://arxiv.org/abs/2509.14934

  • リアルタイムMRIによる音声韻位認識のための可解釈的発声時系列ダイナミクスのモデル化 [eess.IV, cs.SD, eess.AS]目的:リアルタイムMRI動画からの音声韻位認識に用いられる,発声時系列ダイナミクスのコンパクトな表現
    • 音声研究において,発声器官の動きを直接観察できるリアルタイムMRIは重要なデータ源である。
    • リアルタイムMRIのデータは高次元でノイズが多く,解釈が困難であるという課題がある。
    • 本研究は,リアルタイムMRIデータから効果的に特徴量を抽出し,高精度な音声韻位認識を実現することを目指す。
    • 複数の特徴量を組み合わせたモデルが,単独の特徴量を用いたモデルよりも常に高い性能を示した。
    • ROIと生動画を組み合わせたモデルが最も低い音声韻位エラー率(PER)0.34を達成した。
    • 時間分解能の実験から,微細な発声ダイナミクスへの依存性が示され,ROIの除去実験から,舌と唇の重要な役割が明らかになった。

    Link: https://arxiv.org/abs/2509.15689

  • 報酬検証なしの韻律:TTSにおける嗜好性誘導韻律学習へ [eess.AS, cs.AI, cs.CL, cs.SD]目的:TTSにおける韻律の自然性最適化
    • 音声合成技術は,人間と自然なコミュニケーションを可能にする上で不可欠である。
    • 韻律の評価は自動化が難しく,客観的な報酬設計が課題となっている。
    • 人間の嗜好に基づいて韻律を直接最適化することで,自然な音声合成を目指す。
    • 提案手法は,KoCC-TTSデータセットにおいて,既存手法や商用システムを上回る人間の嗜好スコア(ELO)を獲得した。
    • 転写エラー率(CER)も競争力のある水準を維持しており,韻律と明瞭度の両立を実現している。
    • 人間の嗜好最適化が,韻律の自動評価が困難な状況下における実用的かつデータ効率の良い解決策となりうることを示唆する。

    Link: https://arxiv.org/abs/2509.18531

  • SPADE:効率的なLLM-TTSのための構造化プルーニングと適応的知識蒸留 [eess.AS, cs.SD]目的:大規模言語モデルに基づくテキスト読み上げ (LLM-TTS) の効率化に関するフレームワーク
    • LLM-TTSは高い制御性とゼロショット汎化能力を持つが,その巨大さと遅延が実用化の課題となっている。
    • パラメータ数が多く,推論速度が遅いため,リアルタイムな音声生成が困難である。
    • モデルの構造化プルーニングと知識蒸留により,パラメータ削減と高速化を図る。
    • SPADEはTransformer層の重要度に基づいたプルーニングと多層知識蒸留を組み合わせることで,モデルを効率化する。
    • ゼロショット評価において,知覚的な品質を維持しつつ,Transformer層の深さを半分に減らし,VRAM使用量を最大20%削減した。
    • さらに,元の学習データの5%未満で,リアルタイム係数を最大1.7倍高速化し,自然さと話者類似性を維持した。

    Link: https://arxiv.org/abs/2509.20802

  • 音を聞き分ける学習:頑健なオーディオビジュアルインスタンスセグメンテーションの向上 [eess.AS, cs.AI, cs.MM, cs.SD]目的:オーディオビジュアルインスタンスセグメンテーションにおける音源とオブジェクトの関連付けの改善
    • 映像と音響を統合することで,より高度な状況理解が可能となり,ロボティクスや自動運転などの応用が期待される。
    • 既存手法は視覚情報に偏りがちであり,音源情報が十分に活用されていないという課題がある。
    • 音源に特化したクエリ生成と,音源数の明示的な学習により,視覚情報の偏りを抑制し,セグメンテーション精度向上を目指す。
    • 本研究では,クロスアテンションを用いた音響中心のクエリ生成により,各クエリが特定の音源に選択的に注目できるよう改善した。
    • さらに,音源数の順序回帰と単調性制約によるSound-Aware Ordinal Counting (SAOC)損失を導入し,視覚情報のみへの収束を抑制した。
    • AVISegベンチマーク実験の結果,mAPが+1.64,HOTAが+0.6,FSLAが+2.06と一貫して改善し,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2509.22740

  • CASTELLA:キャプションと時間境界付きの長尺音声データセット [nlin.AO, cs.MA, math.OC, q-bio.NC, eess.AS, cs.CL, cs.SD]目的:音声モーメント検索のためのベンチマークデータセット
    • 音声処理技術は,様々な実用的な応用可能性を持つため重要である。
    • 実環境での性能評価が困難なほど,既存のデータセットが小規模である。
    • 大規模な実データを用いて,音声モーメント検索の性能向上を目指す。
    • CASTELLAは,従来のデータセットの24倍にあたる規模のデータセットである。
    • 合成データで事前学習したモデルをCASTELLAでファインチューニングすることで,Recall1@0.7が10.4ポイント向上した。
    • CASTELLAは,実環境での応用を考慮した性能評価を可能にする。

    Link: https://arxiv.org/abs/2511.15131

  • コンドセット勝者・敗者基準,肯定/否定的関与,解決可能性の非両立性 [econ.TH, cs.GT, cs.MA]目的:コンドセット勝者・敗者基準,肯定/否定的関与,およびn人解決可能性を満たす選好投票法の存在可能性
    • 投票手続きの公正性・合理性は,民主主義社会において極めて重要な課題である。
    • 既存の投票法は,必ずしも公平な結果をもたらさない場合があり,様々な矛盾が指摘されている。
    • 肯定/否定的関与と解決可能性という条件を組み合わせた場合に,矛盾が生じる可能性を明らかにすること。
    • コンドセット勝者・敗者基準,肯定/否定的関与,n人解決可能性を同時に満たす投票法は存在しないことが証明された。
    • 肯定的関与は,否定的関与に置き換えても同様の非両立性が成立することが示された。
    • 5人候補の選挙においても,追加の公理(序数マージン不変性)は,非両立性の証明に必要ないことが示された。

    Link: https://arxiv.org/abs/2601.10506

  • MK-SGC-SC:非教師型話者分離のためのスペクトルクラスタリングにおける多重カーネル誘導疎グラフ構築 [eess.AS, cs.LG, cs.SD]目的:非教師型話者分離のための,多重カーネル誘導疎グラフ構築手法
    • 音声処理分野において,話者分離は音声データの利用価値を高める上で重要である。
    • 非教師型話者分離は,事前学習データが不要である一方,精度向上が困難である。
    • 話者埋め込み間の多重カーネル類似度に基づき,疎グラフを構築することで,分離精度を向上させる。
    • 提案手法は,DIHARD-III,AMI,VoxConverseコーパスにおいて,非教師型話者分離で最先端の性能を達成した。
    • 複数の多項式カーネルと1次の逆コサインカーネルを用いることで,話者埋め込み間の類似度を効率的に計測する。
    • 疎グラフ構築により,局所的な類似性を強調し,より正確な話者クラスタリングを実現する。

    Link: https://arxiv.org/abs/2601.19946