arXiv雑要約

画像・音声 - 2026/03/11 公開

EasyText：多言語テキストレンダリングのための制御可能な拡散Transformer [cs.CV]目的：多言語テキストレンダリングのためのフレームワーク
- グローバル化が進む中，多言語対応のテキスト処理技術の重要性が増している。
- 既存手法では，単一言語のレンダリングは可能だが，任意の言語に対応できるものは少ない。
- 多言語テキストの高品質なレンダリングを可能にし，レイアウト制御を実現すること。
- 本研究では，拡散Transformerを基盤としたEasyTextを提案し，多言語テキストレンダリングの新たな可能性を示した。
- 文字の位置エンコーディングと位置エンコーディング補間により，制御可能かつ正確なテキストレンダリングを実現した。
- 大規模な合成データセットと高品質なアノテーションデータセットを構築し，効果的な事前学習とファインチューニングを可能にした。
Link: https://arxiv.org/abs/2505.24417
協力ゲーム理論に基づくマルチエージェント方策勾配におけるクレジット配分：コアによるアプローチ [cs.MA, cs.AI, cs.GT, cs.LG]目的：協力型マルチエージェント強化学習におけるクレジット配分の問題
- マルチエージェントシステムは複雑なタスクを解決する上で重要であり，各エージェントの協調が不可欠である。
- 従来のクレジット配分方法は，エージェント間の貢献度を適切に評価できず，学習の効率を阻害する。
- 協力ゲーム理論のコア概念を用いて，エージェント間の貢献度をより公平に評価し，最適化を促進する。
- 提案手法CORAは，エージェントの連立に対する周辺貢献を評価することで，連立ごとの利得を推定する。
- コア配分の定式化により，利得の高い連立がより多くのクレジットを受け取るように保証し，協調的な最適行動を促進する。
- 実験結果は，マトリックスゲームや協調タスクにおいて，提案手法が既存手法を上回ることを示している。
Link: https://arxiv.org/abs/2506.04265
SpikeSMOKE：クロスコールゲートコードを用いた単眼3D物体検出のためのスパイクニューラルネットワーク [cs.CV]目的：単眼3D物体検出における低消費電力化
- 自動運転等の分野で3D物体検出の応用が拡大しており，その消費電力削減が重要な課題となっている。
- スパイクニューラルネットワークは情報損失を起こしやすく，特徴表現能力が人工ニューラルネットワークに劣ることが課題である。
- スパイクニューラルネットワークの表現力を向上させ，低消費電力での3D物体検出を実現することを目指す。
- 提案手法SpikeSMOKEは，KITTIデータセットにおいて，AP|R11@0.7IoUの精度をEasyで2.82%，Moderateで3.2%，Hardで3.17%向上させた。
- 従来のSpikeSMOKEと比較して，SpikeSMOKEは大幅な消費電力削減を達成した。
- 軽量版SpikeSMOKE-Lは，パラメータ数を3分の1，計算量を10分の1に削減し，低消費電力化に貢献する。
Link: https://arxiv.org/abs/2506.07737
真実的または戦略的な選好の不確実性下における安定マッチングの二段階確率的キャパシティ拡張 [eess.SY, cs.SY, math.OC, cs.SI, cs.CY, cs.GT, math.OC]目的：真実的な選好報告を持つ多対一のマッチング市場におけるキャパシティ拡張とマッチング選択の同時設計
- 学校選択やレジデンシーマッチングなど，現実世界での応用において，資源配分におけるキャパシティ決定の重要性が高まっている。
- キャパシティ決定後に選好が明らかになるため，選好の不確実性を考慮したキャパシティ計画が課題となっている。
- 戦略的行動による選好の虚偽申告の影響を考慮し，最適なキャパシティ拡張を決定することを目的とする。
- 二段階の確率的マッチング問題を提案し，サンプル平均近似法(SAA)を用いることで，不確実な選好下でのキャパシティ拡張問題を解くことができた。
- SAAに基づくアプローチは，平均シナリオアプローチよりも学生のマッチング選好と入学結果において優れていることが示された。
- 学生の行動がキャパシティ設計に大きく影響することが明らかになり，虚偽申告を考慮する必要性が示唆された。
Link: https://arxiv.org/abs/2506.22560
流れ場データの理解のための大規模視覚言語モデルの改善 [cs.CV]目的：流れ場データの理解に関する大規模視覚言語モデルの性能向上
- 自然科学分野における複雑なデータ解釈の自動化が求められている。
- 既存の大規模視覚言語モデルは，科学分野の専門的なデータへの適用が少ない。
- 流れ場データに特化したモデルの改良により，科学研究への応用を目指す。
- FieldLVLMは，流れ場データの主要な物理的特徴をテキスト形式で記述する手法を導入した。
- データ圧縮技術を用いて，モデルが扱うデータの複雑さを軽減し，学習効率を向上させた。
- 新たなベンチマークデータセットを用いた実験で，既存手法を大きく上回る性能を示した。
Link: https://arxiv.org/abs/2507.18311
表情認識のためのパーソナライズされた特徴変換：効率的なソースフリードメイン適応法 [cs.CV, cs.AI]目的：表情認識の性能向上
- 感情を読み取る技術は，人間とコンピュータのインタラクションやヘルスケアなど，幅広い分野で重要性が高まっている。
- 深層学習モデルは，微妙な表情や個人差に弱く，実用的な性能を出すのが難しい。
- ラベルなしのターゲットデータのみを用いて，プライバシーを保護しつつ，モデルを個人に最適化することを目指す。
- 提案手法は，潜在空間で特徴を変換することで，ノイズの多い画像生成を避け，計算コストを削減する。
- BioVid，StressID，BAH，Aff-Wild2などのデータセットで，既存のソースフリードメイン適応法を上回る性能を示した。
- 特に，プライバシー保護が重要な表情認識の状況において有効であることが確認された。
Link: https://arxiv.org/abs/2508.09202
EgoCross：クロスドメイン一人称視点ビデオ質問応答のためのマルチモーダル大規模言語モデルのベンチマーク [cs.CV, cs.AI]目的：クロスドメインにおける一人称視点ビデオ質問応答のマルチモーダル大規模言語モデルの汎化性能評価
- 一人称視点ビデオは，実世界の多様な状況を捉えられ，ロボティクスや医療などへの応用が期待される。
- 既存のベンチマークは日常的な活動に偏っており，現実世界の多様なドメインへの適応性が課題である。
- 現実世界のドメインシフトに対応可能な，頑健なモデル開発を促進することを目的とする。
- 既存の汎用または一人称視点特化型マルチモーダル大規模言語モデルは，日常的な活動以外のドメインへの汎化が困難であることが示された。
- EgoCrossは，外科手術，産業，エクストリームスポーツ，動物視点など，多様なドメインを網羅する約1,000組の質問応答ペアから構成される。
- EgoCrossとその分析が，ドメイン適応型で堅牢な一人称視点ビデオ理解の進展に貢献することが期待される。
Link: https://arxiv.org/abs/2508.10729
単一ポーズのみ：単眼RGB画像を用いたカテゴリレベル9Dマルチオブジェクトポーズ推定のためのミニマリスト検出トランスフォーマー [cs.CV, cs.RO]目的：単眼RGB画像からの特定カテゴリにおける未知のインスタンスの9自由度ポーズ推定
- ロボット工学や自動化において，単一画像からの正確な3次元姿勢把握は重要な課題である。
- 既存手法は疑似深度，CADモデル，または検出と姿勢推定を分離する多段カスケードに依存している。
- RGB画像のみで直接学習可能な，より単純なカテゴリレベルの姿勢推定手法を開発すること。
- YOPOは，オブジェクト検出と9自由度ポーズ推定を，追加データなしで統合するシングルステージのクエリベースフレームワークである。
- REAL275データセットにおいて，従来のRGB画像のみの手法を上回り，RGB-Dシステムとの差を縮めている。
- $\rm{IoU}_{50}$で79.6%，$10^\circ$$10{\rm{cm}}$メトリックで54.1%の精度を達成した。
Link: https://arxiv.org/abs/2508.14965
CoRe-GS：セマンティックオブジェクトに焦点を当てた粗から精細なガウススプラッティング [cs.CV]目的：タスク駆動型のPOI（関心領域）に焦点を当てた最適化
- 遠隔操作や災害対応など，迅速な3D再構成が求められるロボット工学分野において不可欠である。
- 既存のセマンティックガウススプラッティングはシーン全体を最適化するため，必要な領域のみにリソースを集中できない。
- POIに特化した最適化により，不要な計算を削減し，再構成の効率と品質を向上させる。
- CoRe-GSは，セグメンテーション可能なガウススプラッティング表現を迅速に生成する。
- 選択されたPOIに関連するガウスのみを最適化することで，背景の計算量を大幅に削減する。
- カラーベースのフィルタリングにより，セグメンテーションによる外れ値を効果的に抑制し，再構成品質を向上させる。
Link: https://arxiv.org/abs/2509.04859
リアルタイムMRIにおける高精度な声道セグメンテーションのためのマルチモーダル学習：VocSegMRI [cs.CV]目的：リアルタイムMRIにおける声道構造の正確なセグメンテーション
- 音声研究や言語病理学において，声道形状の正確な把握は不可欠である。
- 既存手法は主に視覚情報に依存しており，音声情報との統合が不十分である。
- 視覚情報に加え，音声と音韻情報を活用し，セグメンテーション精度を向上させる。
- 提案手法VocSegMRIは，動画，音声，音韻情報をクロスアテンション融合することで，動的な特徴量の整合性を高める。
- コントラスト学習を導入することで，推論時に音声情報が利用できない場合でもセグメンテーション性能を維持する。
- USC-75データセットでの評価において，Dice係数0.95，HD_95 4.20mmを達成し，最先端の性能を示した。
Link: https://arxiv.org/abs/2509.13767
倉本モデルに基づく配向拡散モデル [cs.LG, cs.CV, q-bio.NC]目的：配向情報が豊富な画像生成のためのモデル
- 画像生成において，複雑な構造やパターンを捉えることが重要である。
- 従来の生成モデルでは，等方的な拡散を基盤とするため，配向を持つ画像のモデリングが困難である。
- 生物学における同期現象に着想を得て，配向情報の生成に特化した拡散モデルを開発する。
- 本研究では，倉本ダイナミクスを用いたスコアベース生成モデルを提案し，周期的なドメイン上で拡散過程を実現した。
- 前進過程では位相変数の同期を促進し，逆過程では学習されたスコア関数を用いて多様なパターンを生成する。
- 指紋やテクスチャといった配向密度の高いデータセットにおいて，生成品質の向上が確認された。
Link: https://arxiv.org/abs/2509.15328
サンゴ産卵モニタリング自動化：サンゴ産卵・幼生画像撮影システム（CSLICS） [cs.CL, cs.HC, cs.RO, cs.CV]目的：サンゴ礁再生のためのサンゴ産卵数自動計測と幼生状態モニタリング
- サンゴ礁は生態系の多様性を支える重要な役割を持つ。気候変動によるサンゴ礁の減少が深刻化している。
- サンゴ礁の再生には大量のサンゴが必要だが，現在の産卵数計測は手間がかかり，ボトルネックとなっている。
- 本研究は，省力化された自動計測システムを開発し，サンゴ礁再生の効率化を目指す。
- 開発したCSLICSは，水面産卵の検出においてF1スコア82.4％，水面下産卵の検出において65.3％の精度を達成した。
- CSLICSは，従来の人的サンプル調査に比べて，1回の産卵イベントあたり5,720時間の労働時間を削減できることが示された。
- グレートバリアリーフでの大規模産卵イベントにおいて，CSLICSによる受精成功率と水面下産卵数の測定精度が確認された。
Link: https://arxiv.org/abs/2509.17299
深層視覚ネットワークにおける影響概念を明らかにするためのエンコーディング・デコーディング方向ペア学習 [cs.CV]目的：深層視覚ネットワークにおける影響概念のエンコーディング・デコーディング機構の解明
- 深層学習モデルの解釈可能性向上は，モデルの信頼性向上と応用範囲拡大に不可欠である。
- 深層ネットワーク内部の概念表現メカニズムはブラックボックスであり，理解が困難である。
- ネットワークが概念情報をエンコード・デコードする方向を特定し，解釈可能性を高める。
- 提案手法は合成データにおいて，真の方向ペアを正確に復元することを示した。
- 実データにおいては，デコーディング方向が単一の意味を持つ解釈可能な概念と対応し，既存手法を上回った。
- シグナルベクトルはエンコーディング方向を忠実に推定し，活性化最大化によって検証された。
Link: https://arxiv.org/abs/2509.23926
VoiceBridge：潜在ブリッジモデルを用いた汎用音声復元 [cs.SD, cs.AI, eess.AS]目的：多様な歪みからの高音質全帯域音声の効率的な復元
- 音声処理技術は，コミュニケーションの質を向上させ，様々な応用分野で不可欠である。
- 既存のブリッジモデルは特定のタスクに限定され，汎用的な音声復元能力に課題があった。
- 異なる歪み条件やデータに対して，単一のモデルで高性能な音声復元を実現することを目指す。
- VoiceBridgeは，エネルギー保存型変分オートエンコーダとスケーラブルなTransformerを活用した，ワンステップ潜在ブリッジモデルである。
- 提案手法は，多様な音声復元タスクにおいて，高い性能を示すことが実験的に確認された。
- 精製された音声合成や，ノイズ除去，スーパーレゾリューションなど，様々なタスクで有効であることが示された。
Link: https://arxiv.org/abs/2509.25275
v-HUB：視覚と聴覚からのビデオユーモア理解のためのベンチマーク [cs.CV, cs.AI, cs.CL]目的：ビデオユーモア理解の評価と診断
- 人間と機械のインタラクションの質を高めるため，ユーモア理解AIの重要性が増している。
- 既存のマルチモーダル大規模言語モデルは，視覚情報のみからユーモアを理解するのが難しい。
- 視覚と聴覚情報を組み合わせることで，ビデオユーモア理解の精度向上を目指す。
- v-HUBは，視覚情報のみでユーモアが理解できる短編ビデオのコレクションである。
- 実験結果から，マルチモーダル大規模言語モデルは視覚情報のみではユーモア理解が困難であることが示された。
- 聴覚情報を加えることでビデオユーモア理解が向上し，多角的なモダリティ統合の有用性が示唆された。
Link: https://arxiv.org/abs/2509.25773
LLaVAShield：視覚言語モデルにおけるマルチターン対話の安全確保 [cs.CV]目的：視覚言語モデルにおけるマルチターン対話の安全性評価と向上
- 視覚言語モデルの対話的利用拡大に伴い，安全性確保が重要な課題となっている。
- マルチターン対話では，悪意の隠蔽やリスクの蓄積，モダリティ間連携によるリスク増大が問題である。
- 本研究は，マルチターン対話における新たな安全性評価手法と防御策を提案し，リスク軽減を目指す。
- マルチターン対話の安全性評価データセットMMDSを構築し，リスク分類体系を整備した。
- LLaVAShieldは，既存モデルやコンテンツモデレーションツールを大幅に上回る性能を示した。
- 主流の視覚言語モデルの脆弱性を分析し，安全性メカニズムへの理解を深めた。
Link: https://arxiv.org/abs/2509.25896
フランスにおける歴史的都市足跡のマッピング：品質，拡張性，AI技術のバランス [cs.CV]目的：フランスにおける1970年以前の歴史的都市拡大の定量分析
- 都市の歴史的変遷の理解は，現代都市計画や地域開発の基礎となる重要な研究分野である。
- フランス全土を対象とした，1970年以前の都市足跡のデジタルデータが不足しており，定量分析の障壁となっていた。
- 歴史的地図から都市部を抽出し，フランス全土を網羅する都市足跡データセットを構築することで，この問題の解決を目指す。
- 1925年から1950年のScan Histo地図シリーズから都市部を抽出するスケーラブルな深層学習パイプラインを開発し，初のオープンアクセス，全国規模の都市足跡データセットを構築した。
- デュアルパスU-Netアプローチにより，歴史的地図の多様な放射輝度とスタイルの複雑さを克服し，誤検出を最小限に抑えた。
- 最終的なモザイクは73%の全体的な精度を達成し，ラベルや等高線などの一般的なアーティファクトを克服しつつ，多様な都市パターンを効果的に捉えた。
Link: https://arxiv.org/abs/2510.02097
LARA-Gen：潜在的な感情表現の整合による音楽生成モデルの継続的な感情制御の実現 [cs.RO, cs.SD]目的：音楽生成における継続的な感情制御
- 音楽生成技術の発展は，新たな表現手段を可能にするため重要である。
- テキストからの音楽生成は進む一方，繊細な感情制御は未解決の課題である。
- 潜在的な感情表現の整合により，音楽生成における感情制御の精度向上を目指す。
- LARA-Genは，内部状態と外部の音楽理解モデルを整合させることで，効果的な訓練を可能にする。
- 連続的な感情空間に基づき，テキストプロンプトの制約を超えた感情制御を実現した。
- 客観評価のためのベンチマークと感情予測器を確立し，感情制御能力を検証した結果，ベースラインを上回る性能を示した。
Link: https://arxiv.org/abs/2510.05875
NavSpace：ナビゲーションエージェントが空間的知能指示に従う方法 [cs.RO, cs.AI, cs.CL, cs.CV]目的：ナビゲーションエージェントの空間的知能の評価
- 具現化された知能の実現には，指示に従うナビゲーションが不可欠である。
- 既存の評価基準は意味理解に偏り，空間認識能力の評価が不十分である。
- ナビゲーションエージェントの空間的知能を詳細に評価し，その能力向上を目指す。
- NavSpaceは，ナビゲーションエージェントの空間的知能を試すための6つのタスクカテゴリーと1228組の軌跡-指示ペアを含む。
- 22のナビゲーションエージェントを評価した結果，空間認識能力に課題があることが明らかになった。
- SNavはNavSpaceおよび実ロボットテストで既存のエージェントを上回り，新たな基準を確立した。
Link: https://arxiv.org/abs/2510.08173
LiDARベースのセマンティックセグメンテーションにおける不完全ラベル下でのドメイン汎化の探求 [cs.CV, cs.LG, cs.RO]目的：LiDARベースの3次元セマンティックセグメンテーションにおけるドメイン汎化とノイズラベル学習
- 自動運転における安全性確保のため，LiDARを用いた高精度な環境認識が不可欠である。
- LiDARアノテーションは，センサーの不具合やヒューマンエラーによりノイズを含みやすい。
- ドメインシフト下でノイズの影響を抑制し，ロバストなセグメンテーション性能を達成すること。
- 提案手法DuNeは，特徴レベルの一貫性を強化する二つの異なる視点からの学習を行う。
- SemanticKITTI，nuScenes，SemanticPOSSのデータセットで最先端の性能を達成した。
- 10%の対称的なラベルノイズ下で，平均mIoUは49.57%であり，ドメイン汎化能力の高さを示した。
Link: https://arxiv.org/abs/2510.09035
視覚的質問応答のためのコード生成による推論：RECODE [cs.RO, cs.RO, cs.CV, cs.AI, cs.LG]目的：視覚的質問応答におけるコード生成を通じた推論手法
- マルチモーダル大規模言語モデルの発展は，画像とテキストの理解を深める上で重要である。
- グラフや図表など構造化された視覚情報の正確な推論が，既存のモデルでは困難である。
- 視覚情報を実行可能なコードに変換することで，検証可能な推論を可能にすることを目指す。
- RECODEは，入力画像を再現する複数の候補プログラムを生成し，最も忠実なものを選択・改良する。
- この手法は，曖昧な知覚タスクを検証可能な記号問題へと変換し，正確な計算と論理的推論を可能にする。
- CharXiv, ChartQA, Geometry3Kなどのベンチマークで，既存手法を大幅に上回る性能を示した。
Link: https://arxiv.org/abs/2510.13756
統合されたイントラ/インター符号化によるリアルタイムニューラルビデオ圧縮 [cs.CV]目的：ニューラルビデオ圧縮における効率と安定性の向上
- ビデオ圧縮は，通信やストレージにおいて重要な役割を担う技術である。
- 既存のニューラルビデオ圧縮は，遮蔽や新規コンテンツの処理，フレーム間エラーの伝播に課題がある。
- イントラ/インター符号化を統合することで，上記課題を解決し，圧縮効率と安定性を高める。
- 提案手法は，DCVC-RTと比較して平均12.1%のBDレート削減を達成した。
- フレームごとのビットレートと品質がより安定していることが確認された。
- リアルタイムエンコード/デコード性能を維持している。
Link: https://arxiv.org/abs/2510.14431
空間から行動へ：空間的基礎知識に基づく視覚-言語-行動モデル [cs.RO, cs.AI, cs.CV, cs.LG]目的：視覚，言語，行動を統合したモデルにおける空間的基礎知識の活用
- ロボット工学やコンピュータビジョンの発展において，現実世界とのインタラクションは不可欠である。
- 既存のモデルは2次元画像処理に基づき，3次元空間認識能力の不足が汎化性能の限界となっている。
- 3次元空間情報を活用し，視覚と行動の整合性を高めることで，モデルの性能向上を目指す。
- 提案手法FALCONは，RGB画像のみから空間情報を抽出し，行動予測に活用することで，高い性能を発揮する。
- FALCONは，奥行き情報や姿勢情報を追加的に活用することで，さらに精度を向上させることができる。
- シミュレーションおよび実環境での評価において，FALCONは最先端の性能を達成し，既存手法を上回る結果を示した。
Link: https://arxiv.org/abs/2510.17439
ノイズ条件付きエキスパート混合モデルによるロバストな話者検証 [cs.SD, cs.MM, eess.AS]目的：ノイズ条件下におけるロバストな話者検証
- 話者検証は，セキュリティシステムや音声インターフェースにおいて重要な役割を担う技術である。
- 実際の環境ではノイズが混入することが多く，ノイズに強い話者検証が課題となっている。
- 多様なノイズ条件下での話者検証のロバスト性と汎化性能の向上を目指す。
- 提案手法では，入力ノイズ情報に基づいてエキスパートネットワークへのルーティングを行う。
- 各エキスパートは特定のノイズ特性に対応しつつ，話者固有情報を保持する。
- 実験結果から，提案手法が既存手法と比較して一貫して優れた性能を示すことが確認された。
Link: https://arxiv.org/abs/2510.18533
適切な身体ランドマーク部分集合が，ブラジル手話LIBRASにおける単独手話認識の精度向上と5倍の高速化を可能にする [cs.MA, eess.SY, cs.SY, cs.RO, cs.CL, cs.CV]目的：ブラジル手話LIBRASにおける単独手話認識のための，軽量な身体ランドマーク検出の実現可能性
- 手話認識は，聴覚障害者と健聴者のコミュニケーションを円滑にする上で重要である。
- 既存手法では，高精度なランドマーク抽出に時間がかかり，処理速度が課題となっていた。
- 適切なランドマーク部分集合の選択により，処理速度を向上させつつ，認識精度を維持・向上させる。
- 適切なランドマーク部分集合を用いることで，最先端手法と同等またはそれ以上の性能を達成した。
- 処理時間は，Alves et al. (2024)の手法と比較して5倍以上短縮された。
- スプライン補間による欠損ランドマークの処理が，認識精度の大幅な向上に貢献した。
Link: https://arxiv.org/abs/2510.24887
SynHLMA：関節オブジェクトに対する手による操作の合成 - 離散的な人間オブジェクト相互作用表現を用いた [cs.RO, cs.AI, cs.CV]目的：関節オブジェクトに対する手による操作系列の生成
- 具現化されたAIやVR/AR応用の発展には，言語指示に基づいた手による把持の生成が不可欠である。
- 関節オブジェクトの操作では，オブジェクトの機能だけでなく，変形に伴う長期間の操作系列が必要となる。
- 本研究は，関節オブジェクトに対する手による操作を生成するフレームワークを開発し，この課題を解決することを目指す。
- 提案手法SynHLMAは，離散的な人間オブジェクト相互作用表現を用いて，各操作フレームをモデル化する。
- 言語埋め込みと表現を共有表現空間で整合させ，操作過程と言語記述を一致させるHAOI操作言語モデルを学習する。
- 実験結果から，SynHLMAは最先端の手法と比較して優れた把持系列生成性能を持つことが示された。また，ロボットによる把持への応用も可能である。
Link: https://arxiv.org/abs/2510.25268
ニューラルオーディオコーデックの潜在空間における音声強調のモデリング戦略 [cs.SD, eess.AS]目的：ニューラルオーディオコーデックの潜在表現を用いた音声強調のモデリング
- 近年，音声処理においてニューラルオーディオコーデックの利用が拡大しており，効率的な音声表現が求められている。
- 音声強調において，コーデックの潜在表現を学習対象とする場合，連続値と離散値のどちらが有効か不明である。
- 潜在表現の種類やモデル構造が音声強調性能に与える影響を明らかにすること。
- 連続値の潜在表現を用いた予測が，離散値のトークン予測よりも高い性能を示すことが確認された。
- 自己回帰モデルは高品質な音声強調を実現するものの，明瞭度と効率性の面で非自己回帰モデルがより実用的である。
- エンコーダのファインチューニングを追加することで，全体的な音声強調性能が向上する。
Link: https://arxiv.org/abs/2510.26299
これは誰が作ったのか？拡散特徴を用いた偽造検出と生成元特定 [cs.CV]目的：生成画像の偽造検出と生成元特定
- 生成モデルの急速な発展により，現実と見分けがつかない偽造画像が増加しており，画像信憑性の確保が重要である。
- 既存の検出器は特定の生成モデルに依存し，未知の生成モデルに対する汎化性能が課題となっている。
- 拡散モデルの特徴を利用し，少ないデータで高精度な偽造検出と生成元特定を実現する。
- 提案手法FRIDAは，事前学習済みのStable Diffusionモデルの特徴を用いることで，高い偽造検出性能と生成元特定能力を発揮する。
- GenImageベンチマークにおいて，FRIDAは限られたデータで最先端の検出性能を達成し，ロバストな生成元特定能力を維持した。
- 拡散特徴は，AI生成画像フォレンジックのための信頼できる基盤となりうることを示した。
Link: https://arxiv.org/abs/2510.27602
単眼3次元物体検出のための空間投影アラインメント [cs.RO, cs.SY, eess.SY, cs.CV]目的：単眼3次元物体検出における性能向上
- 自動運転やロボティクスにおいて，周囲環境の正確な3次元把握は不可欠である。
- 従来の単眼3次元物体検出では，3次元バウンディングボックスの回帰精度に課題があった。
- 空間投影アラインメントによって，幾何学的整合性を高め，検出精度を向上させる。
- 提案手法であるSPANは，空間点アラインメントと3次元-2次元投影アラインメントの二つの要素で構成される。
- 空間点アラインメントは，予測と正解の3次元バウンディングボックス間の空間的な制約を明示的に適用することで，空間ドリフトを修正する。
- 実験結果から，SPANは既存の単眼3次元物体検出器に容易に統合でき，性能が大幅に向上することが示された。
Link: https://arxiv.org/abs/2511.06702
MediRound：医療画像における多段階エンティティレベル推論セグメンテーション [cs.CY, cs.CL, cs.CV, cs.AI]目的：医療画像セグメンテーションのための多段階エンティティレベル推論
- 医療教育において，知識の段階的な理解促進が重要であり，そのためには対話的な推論が必要である。
- 既存の医療画像セグメンテーション手法は単一ラウンドの対話に限定され，多段階推論をサポートしていない。
- 多段階のクエリとエンティティレベルの推論を通じてセグメンテーションマスクを生成するタスクを可能にすること。
- 本研究では，多段階エンティティレベル医療推論セグメンテーション(MEMR-Seg)という新しいタスクを提案し，大規模データセットMR-MedSegを構築した。
- MediRoundというベースラインモデルを提案し，多段階セグメンテーションにおけるエラー伝播を軽減する判断・修正メカニズムを導入した。
- 実験結果から，提案手法がMEMR-Segタスクにおいて従来の医療参照セグメンテーション手法よりも優れていることが示された。
Link: https://arxiv.org/abs/2511.12110
HOI検出における長尾バイアス軽減のための適応的多様性キャッシュ [cs.CV, cs.AI]目的：HOI検出における長尾バイアスの軽減
- 人間と物体とのインタラクション理解は，実世界での多様な状況を把握する上で重要である。
- 従来のVLMベース手法は計算コストが高く，特に稀なインタラクションの検出性能が低い。
- 追加学習なしで稀なインタラクションの検出性能を向上させることを目指す。
- 本研究では，学習不要でプラグアンドプレイ可能な適応的多様性キャッシュ（ADC）モジュールを提案する。
- ADCは，推論時に高信頼かつ多様な特徴表現を蓄積するクラス固有のキャッシュを構築する。
- 実験により，ADCが既存のHOI検出器を改善し，特に稀なカテゴリの検出性能を向上させることが示された。
Link: https://arxiv.org/abs/2511.18811
V-Attack：LVLMに対する制御可能な敵対的攻撃のための解きほぐされた価値特徴の標的化 [cs.CV]目的：大規模ビジョン言語モデル（LVLM）に対する制御可能な敵対的攻撃手法
- 画像とテキストを理解するLVLMの発展に伴い，その堅牢性評価が重要になっている。
- 既存の手法では，LVLMの画像セマンティクスを精密に操作するための制御性が課題となっていた。
- 価値特徴を標的化することで，より精密な局所的なセマンティック操作を可能にし，LVLMの脆弱性を明らかにする。
- 提案手法V-Attackは，従来の最先端手法と比較して平均で攻撃成功率を36%向上させた。
- V-Attackは，自己注意機構における価値特徴に着目し，局所的なセマンティック情報の保持と精密な操作を実現した。
- 価値特徴の強化とテキスト誘導による操作モジュールにより，LVLMの視覚言語理解における重要な脆弱性を突いている。
Link: https://arxiv.org/abs/2511.20223
ロボットが従うパッチ：視覚言語行動モデルへの汎用的な転送可能なパッチ攻撃 [cs.CV, cs.AI]目的：視覚言語行動モデルに対する汎用かつ転送可能な攻撃手法の開発
- ロボットの安全性を確保するためには，AIモデルへの攻撃に対する理解と対策が不可欠である。
- 既存のパッチ攻撃は特定のモデルに過剰適合し，未知の環境やモデルでは効果を発揮しないという問題がある。
- 未知のモデルや環境下でも有効な汎用的なパッチ攻撃手法を確立し，現実的な攻撃経路を明らかにする。
- 提案手法UPA-RFASは，特徴空間，注意機構，意味的整合性を考慮した統合的なフレームワークである。
- 多様な視覚言語行動モデル，操作スイート，実機実験において，モデル，タスク，視点を超えた高い転送性能を示した。
- 本研究は，パッチベースの攻撃表面を明らかにし，将来の防御策の基盤を確立する。
Link: https://arxiv.org/abs/2511.21192
スケーラブルなロボット学習のための動的認識3D視覚表現のブートストラップ [cs.RO, cs.CV]目的：ロボット学習における3D視覚表現の学習
- ロボット工学において，環境を正確に認識し，それに対応することは，自律的な行動を実現する上で不可欠である。
- 既存の3D視覚事前学習法は，認識やセグメンテーションには優れるものの，ロボット操作においては性能が低いという課題がある。
- 状態遷移のモデリング不足と，明示的な幾何学的再構成の冗長性が課題であり，AFROはこれを解決する。
- AFROは，行動や再構成の教師なしで，動的な状態を考慮した3D表現を学習する自己教師ありフレームワークである。
- AFROは，状態予測を生成拡散過程として捉え，共有された潜在空間で順方向と逆方向のダイナミクスを同時にモデル化する。
- Diffusion Policyと組み合わせることで，16のシミュレーションおよび4つの実世界のタスクにおいて操作成功率が大幅に向上し，既存の事前学習アプローチを上回った。
Link: https://arxiv.org/abs/2512.00074
オーディオビジュアル世界モデル：視覚と聴覚における多感覚的想像力へ [cs.MM, cs.CV, cs.SD]目的：オーディオビジュアル世界モデルの形式的枠組みと，そのためのデータセット構築
- 現実世界の知覚は多感覚であり，環境とのインタラクションには様々な感覚情報が不可欠である。
- 既存の世界モデルは主に視覚情報に焦点を当てており，聴覚情報の統合が遅れている。
- 視覚と聴覚情報を統合した世界モデルを構築し，環境シミュレーションの精度向上を目指す。
- 本研究では，バイノーラル空間オーディオと視覚ダイナミクスを統合した最初の形式的枠組みを提案した。
- 76の屋内環境における30時間のバイノーラルオーディオビジュアル軌跡データセット「AVW-4k」を構築した。
- 提案手法AV-CDiTは，視覚と聴覚情報を効果的に統合し，高精度な多感覚予測を実現した。
Link: https://arxiv.org/abs/2512.00883
AVGGT：VGGTの高速化に向けたグローバルアテンションの再考 [cs.CV]目的：VGGT等の多視点3Dモデルにおけるグローバルアテンションの役割分析と高速化手法
- 多視点3D表現は，ロボティクスや自動運転等の分野で重要な役割を担う。
- VGGT等のモデルは計算コストが高く，リアルタイム処理が困難な場合がある。
- グローバルアテンションの役割を分析し，効率的な高速化を実現すること。
- 本研究では，VGGTと$\pi^3$におけるグローバルアテンションモジュールの詳細な分析を行った結果，層ごとに役割分担があることが判明した。
- 提案手法は，早期のグローバル層をフレームアテンションに変換し，K/Vのサブサンプリングによりグローバルアテンションを削減する。
- その結果，100フレームで約2倍，300フレームで4-5倍，800フレームで8-10倍の推論速度向上を達成し，既存モデルと同等以上の精度を維持した。
Link: https://arxiv.org/abs/2512.02541
視覚言語モデルの公平性に基づいた微調整：医療における緑内障診断への応用 [cs.CL, cs.CV, cs.LG]目的：医療における視覚言語モデルの公平性向上
- 医療画像診断において，視覚言語モデルの活用が期待されている。
- 既存の視覚言語モデルは，人種などの属性によって診断精度に差が生じる可能性がある。
- 異なる属性間での診断精度格差を縮小し，公平なAI診断を実現する。
- 提案手法であるGR-LoRAは，診断精度の格差を69%削減し，全体的な診断精度を53.15%に維持した。
- 適切な正則化強度を用いることで，精度の低下を最小限に抑えつつ，公平性を最適化できることが示された。
- 本手法は，わずか0.24%の学習パラメータで実現可能であり，リソースの限られた医療現場への導入に適している。
Link: https://arxiv.org/abs/2512.03477
騒音下における対話的な会話中の頭部，姿勢，全身のジェスチャー [cs.HC, cs.SD, eess.AS]目的：騒音下における対話的な会話における，頭部，姿勢，全身のジェスチャーとジェスチャーの質に関する役割
- 対面でのコミュニケーションにおいて，視覚的要素は重要な役割を果たす。特に騒音環境下では，その重要性が増す。
- 騒音環境下では，聴取者の負担が増大し，コミュニケーションの効率が低下する可能性がある。
- 本研究は，騒音環境下での会話における身体動作の変化を明らかにすることで，円滑なコミュニケーションを支援することを目的とする。
- 発話時と聴取時でジェスチャーの頻度に差が見られ，発話時のジェスチャー頻度が高かった。
- 騒音レベルの上昇に伴い，手ジェスチャーの複雑さ，頭部動作の変化，胴体の動きの変化が認められた。
- 中程度の騒音レベル下では，音声と手ジェスチャーの同期性にわずかな低下が見られた。
Link: https://arxiv.org/abs/2512.03636
LiM-YOLO：光学的リモートセンシング画像における船の検出のためのピラミッドレベルシフトと正規化された補助ブランチによる，より少ない要素でより良い結果 [cs.CV, eess.IV]目的：衛星画像における船の検出における精度と効率のバランス改善
- 海洋資源の管理や安全確保のため，衛星画像からの船の自動検出は重要である。
- 既存の物体検出器は，船の極端なスケールばらつきと縦横比に対応できていない。
- 本研究は，ピラミッドレベルシフトと正規化手法を用いて，効率的な船検出を実現する。
- LiM-YOLOは，従来のYOLOアーキテクチャのピラミッドレベルをP2-P4に再構成するピラミッドレベルシフト戦略を導入した。
- このシフトにより，小規模な船の検出精度が向上し，計算量の冗長性を削減することに成功した。
- SODA-A，DOTA-v1.5，FAIR1M-v2.0，ShipRSImageNet-V1における実験で，LiM-YOLOは最先端の検出精度を達成した。
Link: https://arxiv.org/abs/2512.09700
ADHint：強化学習のための難易度事前確率を用いた適応的ヒント [cs.RO, cs.CV, cs.LG]目的：強化学習における能力拡張とサンプル効率の向上
- 強化学習は，複雑な意思決定問題への応用が期待されるが，学習に多くのサンプルを必要とする。
- 既存のヒントベース手法は，ヒントの難易度を考慮せず，学習が不安定になりやすい。
- ヒントの難易度を考慮し，探索と模倣のバランスを取ることで，学習の安定化と汎化性能の向上を目指す。
- ADHintは，現在のポリシーに基づいてサンプルの難易度を評価し，適切なヒント比率をスケジュールすることで，探索と模倣のトレードオフを改善する。
- ヒント内のトークンレベルの勾配を調整し，ヒントの保存を促進することで，偏った破壊的な更新を防ぐ。
- ヒントの有無によるロールアウトの相対的な難易度を利用してアドバンテージを推定し，よりバランスの取れた更新を実現する。
Link: https://arxiv.org/abs/2512.13095
パーソナライズされたテキストから画像生成のための方向性テキスト反転 [cs.LG, cs.CV]目的：テキストから画像へのパーソナライズされた生成における問題点とその解決策
- 画像生成技術の発展は，創造的な表現の可能性を広げ，多様な応用分野に貢献する。
- テキスト反転は効率的だが，複雑なプロンプトに対して性能が低下することが課題である。
- 埋め込みベクトルの方向のみを最適化することで，より忠実なパーソナライズを実現する。
- 提案手法であるDTIは，テキストの忠実性を向上させつつ，被写体の類似性を維持する。
- DTIは，標準的なTIでは実現できない，学習された概念間の滑らかな補間を可能にする。
- 方向のみの最適化が，プロンプトに忠実なパーソナライズのための堅牢かつスケーラブルな手法である。
Link: https://arxiv.org/abs/2512.13672
3Dセマンティックシーン補完のための可視・遮蔽統合ガイダンス [cs.CL, cs.CV]目的：3Dセマンティックシーン補完の精度向上
- 自動運転やロボットの環境理解において，3Dセマンティックシーンの把握は不可欠である。
- 単一画像からの補完では，可視領域と遮蔽領域の認識の干渉が課題となり，特徴量の希釈や誤差伝播を引き起こす。
- 可視領域と遮蔽領域を分離し，それぞれに特化した処理を行うことで，補完精度を高めることを目指す。
- 提案手法VOICは，可視領域と遮蔽領域を分離するデュアルデコーダ構造を採用し，高精度な3Dシーン補完を実現した。
- SemanticKITTIとSSCBench-KITTI360のベンチマークにおいて，既存手法を上回り，最先端の性能を達成した。
- 可視領域からの情報を活用することで，遮蔽領域の推論精度を向上させ，全体的なシーン理解に貢献する。
Link: https://arxiv.org/abs/2512.18954
軽量自己回帰型ビデオ履歴埋め込みのためのフレーム保持事前学習 [cs.CV]目的：自己回帰型ビデオ生成におけるコンテンツの一貫性と物語性の維持
- ビデオ生成の品質向上には，過去の文脈を効率的に活用することが不可欠である。
- 長大なビデオ履歴の効率的なエンコードは，計算資源の制約下で課題となる。
- 計算資源が限られた環境でも高性能なビデオ履歴エンコーダを実現すること。
- 提案手法は，フレームクエリ目標を用いた事前学習により，ビデオ履歴の密な特徴抽出を可能にする。
- 事前学習により獲得したエンコーダを自己回帰型ビデオ生成に適合させることで，軽量な埋め込み表現を実現した。
- 実験結果から，提案手法が重い代替手法と同等の性能を達成することが示された。
Link: https://arxiv.org/abs/2512.23851
拡散強化学習における方向性分離アラインメントによる好みのモード崩壊の抑制 [cs.CV]目的：好みのモード崩壊の抑制
- 画像生成AIの発展は，人間との協調が重要であり，そのために人間のフィードバックを活用した学習が不可欠である。
- 既存手法は自動評価指標では高スコアだが，生成される画像の多様性が著しく損なわれる好みのモード崩壊という問題が生じている。
- 報酬モデルの偏りを方向的に修正し，多様性を維持しながら人間の好みに沿った画像生成を目指す。
- 本研究では，好みのモード崩壊を定量化するための新たなベンチマークDivGenBenchを提案した。
- 提案手法D$^2$-Alignは，報酬モデルを固定したまま埋め込み空間内で方向性修正を学習し，報酬信号を調整することでモード崩壊を抑制する。
- 定量的・定性的評価の結果，D$^2$-Alignは人間の好みに優れたアラインメントを実現することが示された。
Link: https://arxiv.org/abs/2512.24146
汎化性能向上のための低ランク直交部分空間介入 [cs.CL, cs.CV]目的：顔の偽造検出における汎化性能の向上
- 顔の偽造検出技術は，なりすましや誤情報の拡散を防ぐ上で不可欠である。
- 既存手法は，汎化性能が低く，未知の偽造手法に対して脆弱である。
- 偽造に無関係な情報による偽相関を低減し，汎化性能を向上させる。
- 提案手法SeLopは，偽造に無関係な情報を低ランク部分空間に集約し，その影響を除去する。
- 直交低ランク投影により，偽相関要素を効果的に排除し，偽造検出に必要な特徴を抽出する。
- わずか0.39Mの学習パラメータで，複数のベンチマークにおいて最先端の性能を達成した。
Link: https://arxiv.org/abs/2601.11915
生成器アーキテクチャの最終コンポーネントを活用したAI生成画像検出 [cs.NI, cs.CV]目的：AI生成画像の検出方法
- オンライン環境の信頼性維持のため，AI生成画像の正確な検出が不可欠である。
- 既存の検出器は，未知の生成器によって生成された画像への汎化性能が低い。
- 生成器の最終コンポーネントを用いた検出器の汎化性能向上を目指す。
- 生成器の最終コンポーネントで実画像を「汚染」し，オリジナルの実画像との識別を学習する。
- 21種類の一般的な生成器を，最終コンポーネントに基づいた分類群に整理した。
- DINOv3を基盤とする検出器は，未知の生成器に対して平均98.83%の精度を達成した。
Link: https://arxiv.org/abs/2601.20461
CLEAR-Mamba：正確で適応性があり信頼性の高い多系列眼血管造影画像分類に向けて [cs.CV, cs.AI]目的：眼血管造影画像の分類手法の開発
- 眼科領域における疾患の早期発見，治療計画，予後評価において，画像診断は重要な役割を担う。
- 既存手法は，単一モダリティ，微細な病変パターン，デバイス間変動の影響を受け，汎化性能や確信度予測に限界がある。
- マルチモダリティ画像に対応し，汎化性能と信頼性を両立した眼科画像分類手法の確立を目指す。
- 提案手法CLEAR-Mambaは，既存モデルと比較して，様々な評価指標において一貫して優れた性能を示した。
- 特に，多疾患分類と信頼性に基づいた予測において顕著な優位性が見られた。
- 本研究は，眼科画像分類における汎化性能と信頼性を両立する効果的な解決策を提供する。
Link: https://arxiv.org/abs/2601.20601
RegionReasoner：領域に基づいた多段階の視覚的推論 [cs.CV]目的：多段階視覚的推論の精度向上
- 視覚的推論は，AIの知能化に不可欠であり，多様な応用が期待される。
- 既存のモデルは単一ステップまたはテキストのみの推論に依存し，複数視覚的文脈での反復的な理解が困難である。
- 領域に基づいた推論とグローバル・ローカルの一貫性による多段階推論の改善を目指す。
- RegionReasonerは，参照バウンディングボックスを明示的に引用する強化学習フレームワークである。
- グローバル・ローカルの一貫性報酬により，推論ステップ間の整合性を確保し，精度が向上する。
- RegionDial-Benchを用いた実験により，RegionReasoner-7Bが多段階推論性能で優れた結果を示した。
Link: https://arxiv.org/abs/2602.03733
WebAccessVL：Webアクセシビリティのための違反を意識したVLM [cs.HC, cs.AI, cs.CV]目的：ウェブコンテンツ・アクセシビリティ・ガイドライン2 (WCAG2) の違反修正
- デジタルコンテンツのアクセシビリティは，情報への平等なアクセスを保証する上で重要である。
- Webサイトのアクセシビリティ違反は依然として多く，手動修正にはコストと労力がかかる。
- Webサイトのアクセシビリティを自動で改善し，効率的な修正を可能にすること。
- 提案手法は，未修正のWebサイトあたり平均0.211件の違反に抑え，これは生のデータにおける5.34件から96.0%の削減率である。
- GPT-5と比較して87%の改善が見られ，アクセシビリティの向上と性能の高さを示す。
- 知覚的評価では，修正されたWebサイトが元の視覚的表現とコンテンツをより良く維持することが確認された。
Link: https://arxiv.org/abs/2602.03850
自己回帰型長尺ビデオ生成におけるテスト時パスワイズ補正 [cs.CV]目的：長尺ビデオ生成における誤差蓄積の軽減
- ビデオ生成技術は，エンターテインメントやコミュニケーションにおいて重要な役割を担う。
- 自己回帰型拡散モデルは長尺ビデオ生成時に誤差が蓄積しやすく，品質が劣化する。
- テスト時補正により，初期フレームを基準に中間状態を較正し，誤差蓄積を抑制する。
- 本手法は，様々な蒸留モデルに容易に統合でき，生成時間を大幅に増加させずに品質を維持する。
- テスト時最適化では不安定な報酬関数やパラメータの過敏性が課題となるが，本手法は訓練不要でこれを克服する。
- 30秒のベンチマークにおいて，計算コストの高い訓練ベースの手法と同等の品質を達成した。
Link: https://arxiv.org/abs/2602.05871