arXiv雑要約

画像・音声 - 2026/06/16 公開

ジョイント条件モデリングと段階的訓練による統一的な音声生成と編集 [quant-ph, cs.ET, quant-ph, cs.CC, eess.AS, cs.SD]目的：テキストからの音声生成と音声編集の統一的モデル
- マルチメディア応用において音声の重要性が増しており，高品質な音声生成技術が求められている。
- 既存研究では，音声生成タスクが個別に扱われ，システム構築の負担が大きい。
- テキスト音声生成と音声編集を単一のモデルで効率的に実現し，拡張性を高める。
- AudioWeaveは，タスク固有の要素を用いずに，テキストからの音声生成と音声編集を統一的に行うモデルである。
- ファクタライズされた位置埋め込みを用いたジョイント条件モデリングにより，多様な入力に対応する拡散Transformerを構築した。
- 段階的な多段階訓練戦略により，タスク間の干渉を軽減し，個々のタスク性能を維持・向上させた。
Link: https://arxiv.org/abs/2606.16435
ベクトル量子化に基づくニューラルオーディオコーデックを用いたロバストな生成型音声強調 [eess.AS, cs.SD]目的：ベクトル量子化（VQ）に基づくニューラルオーディオコーデック（NAC）を用いた音声強調（SE）におけるモデリング戦略
- 現代社会における音声通話の品質向上は重要であり，特に雑音環境下での明瞭度確保が求められる。
- 既存の音声強調技術は，環境変化や未知のノイズに対して頑健性に課題が残る場合がある。
- 本研究は，VQによる正則化が音声強調のロバスト性を高めることを示す。
- 提案するcNAC-SEモデルは，様々なテスト条件下で他のdNAC-SEモデルを安定して上回り，最先端の性能を達成した。
- VQは，クリーンな事前分布による制約付き正則化の効果により，ロバスト性を向上させる。
- この結果は，VQ正則化の有用性が連続モデリング手法にも適用可能であることを示唆する。
Link: https://arxiv.org/abs/2606.16464
適応しながらのデコーディング：高齢者音声認識のための音声・テキストプロンプトによるゼロショットオンライン話者適応 [math.OC, cs.SY, eess.SY, eess.AS, cs.SD]目的：高齢者音声認識におけるゼロショットオンライン話者適応手法
- 高齢化社会の進展に伴い，高齢者音声の認識精度の向上は重要な課題である。
- 話者固有の特徴に起因する音声認識の誤り，特に高齢者音声においては顕著である。
- リアルタイムでの話者適応により，個人差を考慮した高精度な音声認識を実現すること。
- 提案手法は，DementiaBank Pitt（英語）とJCCOCC MoCA（広東語）の高齢者音声データセットで，単語誤り率（WER）および文字誤り率（CER）をそれぞれ0.61%と1.22%絶対（2.99%と4.48%相対）改善した。
- オフラインバッチモード適応と比較して，最大9.83倍のリアルタイム係数（RTF）の高速化を達成した。
- 本研究は，ゼロショットオンライン話者適応により，実用的な高齢者音声認識システムへの応用可能性を示唆している。
Link: https://arxiv.org/abs/2606.16539
高齢者音声認識のための信頼度スコアに基づく漸進的・話者適応型擬似ラベリング [math.OC, cs.DM, math.AC, eess.AS, cs.SD]目的：半教師あり高齢者音声認識における擬似ラベリング手法
- 高齢化社会の進展に伴い，高齢者の音声認識技術の重要性が増している。
- 教師ありデータの収集コストが高く，十分な学習データが不足している。
- 信頼度に基づき，未ラベルデータを段階的に活用し，話者間の差異を軽減する。
- 提案手法は，DementiaBank PittおよびJCCOCC MoCAデータセットで，既存の半教師あり学習手法を上回る性能を示した。
- 単語誤り率(WER)は1.45%，文字誤り率(CER)は2.27%絶対的に改善された(それぞれ6.21%，6.98%相対的)。
- 信頼度スコアに基づく漸進的な学習と話者適応型学習が，性能向上に貢献している。
Link: https://arxiv.org/abs/2606.16546
CraBERT：サブワード表現の階層融合による効率的な音素エンコーダ事前学習 [eess.SP, cs.RO, eess.AS, cs.SD]目的：テキスト音声合成のための音素エンコーダ事前学習の効率化
- 自然な音声合成を実現するには，テキスト情報から音韻情報を効率的に抽出する必要がある。
- 従来の音素エンコーダの事前学習には膨大な計算リソースと時間が必要となる点が課題である。
- サブワードレベルの知識を活用し，音素エンコーダの事前学習に必要なデータ量を削減することを目指す。
- CraBERTは，サブワードBERTと音素レベルBERTを階層融合することで，効率的な事前学習を可能にした。
- 従来の音素エンコーダと比較して，CraBERTは約10分の1の事前学習時間で同等のMOSスコアを達成した。
- CraBERTは，合成音声の自然さとプロソディを向上させるための表現を効率的に学習できることが示された。
Link: https://arxiv.org/abs/2606.16668
3D骨格に基づく人物再識別に関する調査：分類，進歩，課題，および学際的な展望 [cs.CV, cs.AI]目的：3D骨格を用いた人物再識別手法の分類と現状分析
- 監視カメラ等の画像認識技術は，セキュリティ向上に不可欠であり，その精度向上が求められている。
- 既存手法では，姿勢変化や視点変化に対するロバスト性が課題であり，識別精度が低下することがある。
- 3D骨格情報を活用することで，姿勢や視点変化に強く，より高精度な人物再識別を実現することを目指す。
- 本調査は，既存の3D骨格ベース人物再識別手法を，手動特徴，シーケンスベース，グラフベースの3つのカテゴリに分類した。
- 各カテゴリの代表的なモデルについて，基本的なメカニズムを詳細に解説し，学習パラダイム（教師あり，自己教師あり，教師なし）の概要を示した。
- 様々なベンチマークデータセットを用いて最先端手法の評価を行い，有効性，効率性，特性を比較検討した。
Link: https://arxiv.org/abs/2401.15296
時間割引を伴うスケジューリング [cs.GT, econ.TH]目的：時間割引型価値を持つパケットの重み付きスケジューリング問題における競争率
- 金融市場において，将来の行動価値は割引されるため，時間割引の考慮は不可欠である。
- 従来のスケジューリング問題ではパケットの重みが固定されているため，金融環境への適用が困難である。
- 時間割引型価値を持つパケットのスケジューリングにおける最適な競争率を達成するアルゴリズムを開発すること。
- 割引率が約0.77までの範囲において，提案する決定論的アルゴリズムが到達可能な最良の競争率を保証する。
- 開発したランダム化アルゴリズムは，いかなる割引率においても，最適な決定論的アルゴリズムを上回る性能を示す。
- 既存手法が，より一般的な割引設定において最適でない性能を示すことが示された。
Link: https://arxiv.org/abs/2402.08549
MixTeX：合成事前学習と限定的なファインチューニングによるデータ効率の良いLaTeX OCR [cs.CV]目的：LaTeX OCRのデータ効率向上
- 科学技術論文のデジタル化需要が高まっており，LaTeXへの変換技術が重要である。
- 既存手法は大規模なペアデータセットに依存し，コストが高く，低リソース言語に対応が難しい。
- 大規模データセットに頼らず，合成データを用いた効率的な学習を目指す。
- MixTeXは，実データを用いない合成事前学習により，データ効率の良いLaTeX OCRを実現した。
- 文法的に正しいWikipediaのテキストとLaTeX数式をランダムに組み合わせることで，120Mトークン規模の学習データを生成した。
- 英語と中国語のベンチマークにおいて，大規模データで学習した既存手法を凌駕する性能を示した。
Link: https://arxiv.org/abs/2406.17148
ランダム消去 vs. モデル反転：有望な防御か，誤った希望か [cs.RO, cs.LG, cs.CR, cs.CV]目的：機械学習モデルからのプライベート学習データ再構成を試みるモデル反転攻撃に対する防御
- 機械学習モデルのプライバシー保護は重要であり，攻撃による個人情報の漏洩を防ぐ必要がある。
- モデル反転攻撃は効果的なプライバシー侵害手段であり，既存の防御策では十分な対策が講じられていない。
- ランダム消去という既存技術の新たな応用により，モデル反転攻撃に対する効果的な防御を実現すること。
- ランダム消去を用いたモデルは，再構成画像とプライベートデータの特徴間に有意な差異を生じさせ，モデル反転攻撃の精度を低下させる。
- 部分的な消去はモデルが物体全体を学習することを防ぎ，モデル反転攻撃の成功を阻害する。
- ランダムな消去位置は，プライバシーとユーティリティのトレードオフを最適化する上で重要な役割を果たす。既存手法を上回る性能を37の実験設定で示した。
Link: https://arxiv.org/abs/2409.01062
再学習不要な計算MRIにおける敵対的頑健性 [cs.RO, cs.CL, cs.CV, cs.LG, eess.IV, physics.med-ph]目的：敵対的摂動に対する計算MRI再構築モデルの頑健性向上
- MRI画像再構築において深層学習の利用が一般的であり，高精度な画像再構築に貢献している。
- 深層学習モデルは，微小な敵対的摂動に対して脆弱であり，画像に大きな歪みを引き起こす可能性がある。
- 敵対的攻撃に対する頑健性を，モデルの再学習なしに向上させることを目指す。
- 提案手法は，様々なデータセット，攻撃タイプ，強さ，PD-DLネットワークにおいて，敵対的摂動の影響を大幅に軽減する。
- 提案手法は，従来の緩和手法と比較して，定量的および定性的に優れた性能を示す。
- 生データにおけるインパルスノイズをモデル化した現実的なシナリオにおいても有効性が確認された。
Link: https://arxiv.org/abs/2501.01908
低リソース多言語音声認識における階層型ソフトマックスのためのクロスリンガル埋め込みクラスタリング [cs.CL, cs.SD, eess.AS]目的：低リソース多言語音声認識の性能向上
- グローバル化に伴い，多言語音声認識の需要が高まっている。
- リソースが少ない言語では，十分な学習データが得られにくい。
- 言語間の類似性を活用し，少ないデータでも認識精度を高める。
- 提案手法では，クロスリンガル埋め込みクラスタリングを用いて階層型ソフトマックスデコーダを構築した。
- これにより，異なる言語間で類似したトークンが類似したデコーダ表現を共有することが可能となった。
- 15言語のダウンサンプリングデータセットでの実験により，低リソース多言語音声認識の精度向上が確認された。
Link: https://arxiv.org/abs/2501.17615
トークンレベルのエントロピーが言語モデルにおける人口統計学的格差を明らかにする [cs.CL, cs.CV]目的：言語モデルにおける人口統計学的アイデンティティが生成分布に与える影響の検証
- 言語モデルは自然言語処理の基盤であり，その公平性は社会的に重要な課題である。
- 言語モデルが潜在的な偏見を学習し，少数派グループに対して不公平な出力を生成する可能性がある。
- 暗黙的なプロンプトによる人口統計学的アイデンティティの信号が言語モデルの生成分布に与える影響を定量化する。
- 名前のみで示された人口統計学的アイデンティティが言語モデルの生成分布を系統的に変化させることが示された。
- Black系の名前はWhite系の名前よりも高い最初のトークンのエントロピーを示すことが，6つのモデル全てで確認された。
- instruction tuningは，人種間の格差を縮小する効果がないことが示された。
Link: https://arxiv.org/abs/2501.19337
領域適応型サンプリングによる拡散Transformer [cs.CV, cs.AI]目的：拡散Transformerにおける効率的なサンプリング手法
- 画像生成において拡散モデルが主流であり，リアルタイム処理の需要が高まっている。
- 従来の高速化手法は，空間領域の変動を考慮せず，Transformerの柔軟性を活かせていない。
- Transformerモデルの注視領域に基づき，サンプリング頻度を動的に変化させることで高速化を図る。
- RASは，Stable Diffusion 3とLumina-Next-T2Iにおいて，最大2.36倍と2.51倍の高速化を達成した。
- 生成品質の低下は最小限であり，ユーザースタディでは同等の品質が確認された。
- 本手法は，拡散Transformerのリアルタイム応用の可能性を広げる重要な一歩となる。
Link: https://arxiv.org/abs/2502.10389
制約付き潜在行動拡散：視覚言語手順計画 [cs.CY, cs.ET, cs.HC, cs.CV]目的：視覚言語手順計画における潜在行動拡散モデル
- AIシステムの高度化には，視覚情報と言語情報を統合した手順計画能力が不可欠である。
- 既存の手法では，視覚情報と言語情報を効果的に組み合わせて手順を計画することが困難である。
- 視覚と言語の両方の情報を活用し，より正確な手順計画を実現することを目指す。
- 提案手法CLADは，VAEを用いて行動と観察の潜在表現を制約として拡散過程に統合する。
- CrossTask，Coin，NIVのデータセットにおいて，最先端手法を大幅に上回る性能を示す。
- VAEの潜在空間で学習された行動と観察表現の統合が，性能向上に重要な役割を果たすことが示された。
Link: https://arxiv.org/abs/2503.06637
知識に基づく視覚的質問応答システムの包括的調査：視覚的推論タスクにおける知識のライフサイクル [cs.CV, cs.IR, cs.MM]目的：知識に基づく視覚的質問応答(KB-VQA)手法の体系的な分類と現状分析
- 視覚情報と知識を活用し，より高度な質問応答を実現することは，実世界アプリケーションの発展に不可欠である。
- 多様な情報源からの知識の統合，ノイズの多い大規模データからの関連知識の検索が課題である。
- 知識の表現，検索，推論の各段階における技術的課題と将来の方向性を示すことを目指す。
- 本調査では，KB-VQAアプローチを知識表現，知識検索，知識推論の段階に分類する構造化された分類体系を確立した。
- 大規模言語モデル(LLM)の進展がKB-VQAシステムの変革をもたらしており，LLMは強力な知識リポジトリ，検索拡張ジェネレーター，および推論エンジンとして機能する。
- 本研究は，KB-VQAモデルの進歩と応用を促進するための基盤を提供し，今後の研究の方向性を示唆する。
Link: https://arxiv.org/abs/2504.17547
PURe：ビジョンネットワークのためのプラグアンドプレイ型プロダクトユニット残差モジュール [cs.CV, cs.AI, cs.LG, eess.IV]目的：ビジョンネットワークにおける乗算的な局所相互作用のモデリング
- 近年のビジョンネットワークは局所変換が主流だが，明示的な乗算的相互作用は未開拓な分野である。
- プロダクトユニットは有効だが，深い構造での最適化の不安定性が課題となっている。
- 深い残差階層内で実数値の対数領域を用いたプロダクトユニットを導入し，最適化を安定化させる。
- PUReは既存の残差ユニットの代替として容易に組み込むことができる。
- 画像分類やボリューメトリックCTデータのスライスベースセグメンテーションで，PUReは性能向上とパラメータ効率の改善を示す。
- PUReは，より浅いモデルでResNetの性能を上回り，より良い精度-パラメータのトレードオフを実現する。
Link: https://arxiv.org/abs/2505.04397
潜在変数を用いた効率的なフローマッチング [cs.CV, cs.AI, cs.LG]目的：画像生成におけるフローマッチングの効率化
- 画像生成は，AI研究において重要な課題であり，多様な応用が期待されている。
- 既存のフローマッチングモデルは，データの潜在的なクラスタ構造を十分に活用できていない。
- 潜在変数を活用することで，学習効率を向上させ，より高品質な画像生成を目指す。
- 提案手法Latent-CFMは，事前学習済みの潜在変数モデルを活用することで，学習と計算コストを大幅に削減する。
- 合成データと画像ベンチマークデータセットにおいて，最先端のフローマッチングモデルと比較して，生成品質が向上した。
- 2次元Darcy流データセットにおいて，より物理的に正確なサンプル生成が可能であることを示した。
Link: https://arxiv.org/abs/2505.04486
CheXGenBench：合成胸部X線画像の忠実度，プライバシー，有用性に関する統一ベンチマーク [cs.CV]目的：合成胸部X線画像の忠実度，プライバシーリスク，および下流タスクでの有用性の統一評価
- 医療画像診断の精度向上には，高品質な学習データが不可欠である。データ不足を補う合成データ生成研究が活発である。
- 既存研究では評価基準が統一されておらず，忠実度，プライバシー，有用性の総合的な評価が困難であった。
- 合成胸部X線画像の生成モデルの性能を客観的に評価し，今後の研究方向性を示すことを目指す。
- CheXGenBenchは，11の最先端T2Iアーキテクチャに対応する統一評価フレームワークである。
- 最先端モデルでも，医療データの長尺分布への対応が課題であることが示された。
- 合成データは分類タスクには有効だが，マルチモーダルタスクへの応用は限定的である。
Link: https://arxiv.org/abs/2505.10496
LM-SPT：言語モデルに整合したセマンティック蒸留による音声トークン化 [cs.CL, cs.CL, cs.AI, cs.SD, eess.AS]目的：音声とテキスト間の統一的なモデリングを可能にする離散的な音声トークン化手法の開発
- 音声言語モデルの進展に伴い，音声とテキストのインターフェースとしての音声トークン化が重要となっている。
- 既存のトークン化手法では，トークン列がテキストよりも長くなり，事前学習済みの言語モデルとの統合が困難である。
- 言語モデルとの整合性を高めつつ，トークン化のフレームレートを削減し，効率的な統合を目指す。
- 提案手法LM-SPTは，セマンティックな音声再合成蒸留に基づいており，従来の平均プーリングによる過剰な平滑化を回避する。
- LM-SPTは，元の波形と再合成波形の表現のずれを最小化することで，よりセマンティックに整合したトークン単位を生成する。
- 自動音声認識およびテキスト読み上げタスクにおいて，既存のセマンティック強化型音声トークン化手法を上回る性能を示す。
Link: https://arxiv.org/abs/2506.16738
ChildGuard：子供を標的としたヘイトスピーチに対抗するための特化データセット [cs.CL, cs.SD, eess.AS]目的：子供を標的としたヘイトスピーチのデータセット
- ソーシャルメディア上での子供に対するヘイトスピーチは，発達段階の心理に悪影響を及ぼすことが懸念されている。
- 既存のヘイトスピーチデータセットは成人向けに設計されており，子供特有の表現に対応できない点が課題である。
- 子供を標的としたヘイトスピーチに特化した大規模データセットを構築し，検出精度向上を目指す。
- ChildGuardは，X(旧Twitter)，Reddit，YouTubeから収集した351,877件の注釈付きインスタンスを含む大規模な英語データセットである。
- データセットは，未就学児童（11歳未満），学童期（11-12歳），および10代（13-17歳）の3つの年齢層をカバーしている。
- 最新のTransformerベースのモデルおよびLLMを用いた評価では，最高Macro-F1スコアは82.07%を達成した。
Link: https://arxiv.org/abs/2506.21613
言語誘導と表現アラインメントによるドメイン汎化のためのプロンプト分離 [cs.CL, cs.DL, cs.DC, cs.SY, eess.SY, cs.CV, cs.LG]目的：ドメイン汎化におけるプロンプト分離
- 未知のドメインへの対応が求められるため，汎化性能の向上が重要である。
- 多様なドメイン間で不変の特徴を分離するプロンプトの設計が困難である。
- 言語誘導と表現アラインメントにより，プロンプト分離の課題を解決する。
- 提案手法は主要なドメイン汎化データセットにおいて，最先端の手法を上回る性能を示した。
- テキスト特徴を用いた視覚的プロンプトのチューニングにより，ドメイン不変な表現を獲得する。
- 最悪明示表現アラインメント(WERA)により，多様なドメインに対応可能なロバストな特徴を獲得する。
Link: https://arxiv.org/abs/2507.02288
LISTEN：エッジ通知のための軽量産業音響表現Transformer [cs.SD, eess.AS]目的：産業音響分析におけるエッジ環境での即時通知を可能にする軽量な基盤モデルの開発
- 産業現場における異常検知は，生産効率の向上と安全確保に不可欠である。
- 従来の機械学習は，タスクごとに大量のラベル付きデータが必要であり，現場への導入が困難であった。
- この研究は，限られた計算資源のエッジ環境でも高性能な産業音響分析を実現することを目指す。
- LISTENは，大規模な教師モデルIMPACTからの知識蒸留により，リソース制約のある環境向けに最適化されている。
- バックボーンを固定し，ターゲットプロセスデータ上で浅いヘッドのみを学習することで，IMPACTと同等の性能を達成した。
- ライブCNCマシンでの検証により，実際の産業環境における軽量な産業音響基盤モデルの導入が初めて実現された。
Link: https://arxiv.org/abs/2507.07879
マルチモーダル機械翻訳のための二分岐プロンプティング [cs.CY, cs.CV, cs.CL]目的：マルチモーダル機械翻訳におけるロバストな視覚誘導翻訳
- 画像とテキストの両方を活用することで，機械翻訳の精度向上が期待される分野。
- 既存手法は，画像とテキストのペアを必要とし，ノイズに弱く実用性に課題がある。
- 拡散モデルを用いて画像再構成を行い，ノイズを除去し翻訳精度を高める。
- 提案手法D2P-MMTは，元のテキストと拡散モデルで再構成された画像のみを用いて翻訳を行う。
- 二分岐プロンプティング戦略により，クロスモーダルな相互作用を促進し，モダリティ間のギャップを埋める。
- Multi30kデータセットでの実験により，D2P-MMTが既存の最先端手法を上回る性能を示すことが確認された。
Link: https://arxiv.org/abs/2507.17588
パワーバッテリー検出 [cs.DB, cs.CV]目的：パワーバッテリーの品質検査のための，カソードおよびアノード板の密集した終端位置の特定
- 電気自動車の普及に伴い，パワーバッテリーの安全性確保が不可欠となっている。
- 従来の検査方法は，板の密集度，コントラストの低さ，スケールの変動，画像アーチファクトにより課題がある。
- 本研究は，X線画像を用いたパワーバッテリー検出の自動化と高精度化を目指す。
- パワーバッテリー検出のための大規模ベンチマークデータセットPBD5Kを構築した。
- 多次元構造情報を活用するMDCNeXtモデルを提案し，高い検出性能を達成した。
- タスク固有のプロンプトを用いたフィルタリングや，密度を考慮した再配置モジュールが性能向上に貢献した。
Link: https://arxiv.org/abs/2508.07797
3Dガウススプラッティング応用に関する調査：セグメンテーション，編集，生成 [cs.RO, cs.CV]目的：3Dガウススプラッティングの応用の概観
- 新たな視点合成の分野で，リアルタイムかつ高品質なレンダリングが求められている。
- 従来のNeRFは計算コストが高く，効率的な代替手法が課題となっていた。
- 3DGSのセグメンテーション，編集，生成といった応用を体系的に整理し，今後の発展を促す。
- 3Dガウススプラッティングは，NeRFと比較して効率的で競争力のある手法として注目されている。
- 本調査では，セグメンテーション，編集，生成といった主要な応用分野における最近の研究動向をまとめた。
- 関連するデータセットや評価プロトコル，そして最新手法の比較分析も提供している。
Link: https://arxiv.org/abs/2508.09977
コンピュータビジョンの推論：分類，モデル，タスク，および方法論 [cs.CV]目的：コンピュータビジョンにおける推論の体系化と分析
- 物体検出・分類を超え，より高度なビジョンタスクに推論が不可欠である。
- 既存の調査は，推論の一側面のみに焦点を当て，全体像の分析が不足している。
- 多様な推論タイプと評価方法を統合的に分析し，課題を明確化する。
- 視覚的推論を，関係性，記号，時間，因果，常識の5つの主要なタイプに分類した。
- グラフベースモデル，注意機構，ニューロシンボリックシステムなど，様々な手法における実装を検討した。
- 汎化性能，再現性，信頼性，説明可能性に関する評価プロトコルの限界と今後の課題を提示した。
Link: https://arxiv.org/abs/2508.10523
隣接格子幻覚輪郭の機械知覚のための生物学的視覚に触発されたフレームワーク [cs.CV, cs.AI]目的：隣接格子幻覚輪郭の機械知覚に関する研究
- 機械知能の高度化には，人間の知覚・認知との整合が不可欠である。
- 深層ニューラルネットワークは，幻覚輪郭の知覚において人間のパターンと乖離が見られる。
- 本研究は，深層ニューラルネットワークにおける幻覚輪郭知覚能力の向上を目指す。
- 提案手法ICPNetは，既存モデルと比較して隣接格子幻覚輪郭に対する感度が高いことが実験的に示された。
- 多規模特徴射影(MFP)モジュール，特徴相互作用注意(FIAM)モジュール，エッジ融合(EFM)モジュールが有効であることが確認された。
- 本研究は，深層ニューラルネットワークベースのモデルにおける人間レベルの知能への一歩となることが期待される。
Link: https://arxiv.org/abs/2508.17254
TUNI：RGB-Tセマンティックセグメンテーションのためのモダリティ認識相互学習と修正による事前学習とファインチューニングの統合 [cs.CV]目的：RGB-Tセマンティックセグメンテーションにおける効率的かつリアルタイムな性能向上
- 自動運転プラットフォーム等の環境認識において，困難な条件下での性能向上が重要である。
- 既存手法では，マルチモーダル特徴抽出・融合が不十分であり，モダリティ間の依存関係が不均衡である。
- RGBと熱画像の情報を効果的に活用し，モダリティ間の偏りを軽減することで，セグメンテーション精度を向上させる。
- TUNIは，RGBと熱画像の局所特徴を統合的に抽出・融合する事前学習フレームワークを提案する。
- モダリティ反転型コントラスト相互学習により，RGB優勢と熱優勢のエンコーダ間での知識交換を実現する。
- ファインチューニング段階では，モダリティ修正学習により残差熱情報を活用し，セグメンテーション精度を向上させる。
Link: https://arxiv.org/abs/2509.10005
マルチモーダルLLMによる思考連鎖型差共通性推論を用いた解釈可能なオーディオ編集評価 [cs.RO, cs.HC, cs.SD, eess.AS]目的：オーディオ編集の評価
- オーディオ品質評価は，主観的リスニングテストや客観的指標の代替として重要である。大規模な評価を効率的に行う上で不可欠。
- 既存の評価手法は，評価の根拠が不明確で，人間の判断との乖離が生じやすいという課題がある。
- LLMを活用し，根拠に基づいた解釈可能な自動評価フレームワークを構築することで，評価の信頼性を高める。
- 提案手法は，Qwen2-Audioを基盤とした自然言語ベースの自動評価フレームワークであり，解釈可能なテキスト評価を生成する。
- 思考連鎖型プロンプティング戦略により，構造化された段階的な推論を促し，論理的な整合性を高めている。
- 実験の結果，提案手法は人間の判断と高い一致度を示し，既存のベースライン手法を上回る性能を発揮した。
Link: https://arxiv.org/abs/2509.16975
世界モデルを通じた潜在的行動の事前学習 [cs.RO, cs.CV]目的：ロボット操作タスクにおける潜在的行動表現の学習
- ロボットの知能化には，人間からの指示に基づいた柔軟な動作能力が不可欠である。
- 既存のVLAモデルはデータセット構築にコストがかかり，実環境での利用が難しい。
- ラベルなし動画データから潜在的行動表現を学習することで，効率的な事前学習を目指す。
- 提案手法LAWMは，世界モデルを通じて自己教師あり学習を実現し，ロボットの汎化性能を向上させる。
- LAWMは，既存の事前学習手法や実ロボットでの行動データを用いた事前学習を上回る性能を示す。
- モデルサイズが小さく，実環境での導入が容易である点が特徴である。
Link: https://arxiv.org/abs/2509.18428
統一マルチモーダルモデルによる計画 [cs.CV]目的：マルチモーダルモデルを用いた計画フレームワーク
- 近年，LLMやVLMの推論能力を活用した意思決定研究が盛んである。
- 従来の多くのアプローチは言語ベースの推論に依存し，情報に基づいた意思決定が制限されている。
- 統一マルチモーダルモデルの可能性を最大限に活かし，視覚コンテンツによる推論を可能にする。
- 提案手法Uni-Planは，ポリシー，ダイナミクスモデル，価値関数を単一のモデルで実現する。
- ダイナミクス予測における幻覚を抑制するため，自己識別フィルタリングを導入した。
- 実験の結果，Uni-PlanはVLMベースの手法と比較して成功率が大幅に向上し，データスケーラビリティも高いことが示された。
Link: https://arxiv.org/abs/2509.23014
結合確率的微分方程式による意味編集 [cs.LG, cs.CV, stat.ML]目的：事前学習済みのテキスト画像生成モデルを用いた画像内容編集手法
- 画像生成AIは多様な応用を持つが，その制御は依然として課題である。
- 既存手法では，詳細な部分の歪みや意図しないアーティファクトが発生しやすい。
- 画像編集時に，意味の一貫性と元の画像との類似性を両立すること。
- 提案手法は，結合確率的微分方程式を用いて，生成モデルのサンプリング過程を制御する。
- 同じ相関ノイズで元の画像と編集画像を駆動することで，意味の変更と視覚的な一貫性を維持する。
- 再学習や補助ネットワークを必要とせず，高精度なプロンプトへの追従性とピクセルレベルの一貫性を実現した。
Link: https://arxiv.org/abs/2509.24223
知識誘導・プロンプト統合による汎用的な医用画像セグメンテーションモデル K-Prism [cs.CL, cs.CV, cs.AI]目的：医用画像セグメンテーションの汎用性と柔軟性の向上
- 臨床意思決定において，正確な画像セグメンテーションは不可欠である。診断精度向上に貢献する。
- 既存モデルは，単一の知識源や特定のタスク・モダリティ・臓器に特化し，汎用性に欠ける。
- 多様な知識を統合し，柔軟なセグメンテーションを実現することで，臨床ワークフローへの適応を目指す。
- K-Prismは，アノテーションデータ，参照事例，ユーザ入力という3つの知識パラダイムを統合する。
- 異なる知識源を1次元の疎プロンプトと2次元の密プロンプトにエンコードし，MoEデコーダで動的にルーティングする。
- 18の公開データセットでの実験により，K-Prismが最先端の性能を達成することが示された。
Link: https://arxiv.org/abs/2509.25594
FrameOracle：動画における見るべきフレームと見るべきフレーム数の学習 [cs.CG, cs.CV]目的：動画理解のためのフレーム選択戦略
- 動画理解は，様々な応用分野において重要であり，その精度向上が求められている。
- 既存のフレーム選択戦略は，動画の内容密度やタスクの複雑さに適応できないという課題があった。
- 動画の内容とタスクに応じて，必要なフレームを効率的に選択する手法を開発する。
- FrameOracleは，動画とクエリの関連性を予測し，必要なフレームとその数を決定する軽量なモジュールである。
- FrameOracleは，フレーム入力数を平均16フレームから10.4フレームに削減し，精度を維持した。
- 64フレームから開始した場合，フレーム数を13.9に削減しつつ，精度を1.5%向上させた。
Link: https://arxiv.org/abs/2510.03584
射影と量子化：学習によるハッシュの統一的見解 - ランダム射影からRAG時代へ [cs.IR, cs.AI, cs.CV, cs.LG]目的：大規模検索および検索拡張生成における近似最近傍探索手法の統一的理解
- 大規模データにおける効率的な情報検索は，様々な応用において不可欠である。
- 近似最近傍探索は異なる分野で研究されており，知識の統合が遅れている。
- 既存手法を射影，量子化，組織化という共通の枠組みで捉え，効率的な検索手法を確立する。
- 量子化は最も大きなメモリ削減効果をもたらし，1ビットコードでフル精度再ランキングと同等の品質を達成した。
- 埋め込みのサイズが大きくなるにつれて，バイナリコードが一致するバイト予算で，従来の inverted-file product quantiserを上回る傾向が確認された。
- クラスラベルを利用した8バイトの教師ありコードは，置き換える2キロバイトのタスク非依存floatの検索品質を2倍以上に向上させた。
Link: https://arxiv.org/abs/2510.04127
大規模な生物多様性データを用いたニューラルアーキテクチャ探索による多種目昆虫分類のためのエンドツーエンドAutoMLフレームワークBioAutoML-NAS [cs.CV]目的：多種目昆虫分類のためのAutoMLフレームワークの開発
- 昆虫分類は，作物の健康と生産に直接影響するため，農業管理と生態学的研究において重要である。
- 昆虫の複雑な特性，クラス不均衡，大規模データセットが，昆虫分類の課題となっている。
- 画像とメタデータを活用し，ニューラルアーキテクチャ探索により最適なネットワーク構造を自動的に学習する。
- BioAutoML-NASは，BIOSCAN-5Mデータセットにおいて96.81%の精度，97.46%の適合率，96.81%の再現率，97.05%のF1スコアを達成した。
- 既存の転移学習，Transformer，AutoML，NAS手法と比較して，それぞれ約16%，10%，8%高い性能を示した。
- Insects-1Mデータセットにおいても93.25%の精度を達成し，持続可能な農業を支援する高精度な昆虫分類が可能であることが示された。
Link: https://arxiv.org/abs/2510.05888
皮肉表現のモデル化：音声合成フレームワークにおける意味的・韻律的手がかり [cs.HC, cs.RO, cs.CL, cs.SD, eess.AS]目的：皮肉表現のモデル化
- コミュニケーションにおいて，皮肉表現は重要な役割を果たすが，そのメカニズムは未解明な点が多い。
- 皮肉の認識には意味と韻律が相互作用するが，両者の寄与度合いが明確ではない。
- 意味と韻律の手がかりを統合することで，皮肉表現の理解度向上を目指す。
- LLaMA 3モデルと韻律的特徴量を組み合わせたフレームワークにより，皮肉表現の認識精度が向上した。
- 意味的・韻律的手がかりの組み合わせが，皮肉表現の知覚的評価において最も高いF1スコアと主観的な評価を得た。
- 本研究は，皮肉表現理解における意味と韻律の補完的な役割を明らかにした。
Link: https://arxiv.org/abs/2510.07096
閉鎖空間における暗黙的ニューラル周波数応答場の学習：車内環境への応用 [cs.SD]目的：閉鎖空間，特に車内環境における複雑な周波数応答場を学習すること
- 没入感と明瞭度の高い音響環境は，車内などの閉鎖空間において重要な課題である。
- 従来の音響調整は手動で，ハードウェアに依存し，乗員やシート位置の変化に対応できない。
- 周波数選択的な特性と動的な変化を考慮した，音響応答場の学習手法を開発すること。
- 提案手法INFERは，ソースと受信点の位置・方向に基づき，周波数応答場を直接学習する。
- 周波数領域のフォワードモデル，知覚・ハードウェアを考慮したスペクトルによる教師あり学習，クラマース・クローニッヒ整合性制約を導入した。
- 実車データを用いた評価により，既存手法と比較して，振幅と位相の再構成誤差をそれぞれ39%と51%削減した。
Link: https://arxiv.org/abs/2510.07442
MIRAGE：階層的分解によるマルチベクトル画像検索のランタイムスケジューリング [cs.CV, cs.DC, cs.IR]目的：マルチベクトル画像検索におけるランタイムスケジューリング手法
- 近年，マルチモーダルLLMにおいて検索拡張生成（RAG）が重要視されている。
- 従来の検索手法では，検索精度が十分でないという課題が存在する。
- 画像オブジェクト間のアライメントと冗長なセグメントを削減し，精度と効率を向上させる。
- MIRAGEは，複数の粒度を用いた階層的パラダイムを導入し，クエリと画像オブジェクトのアライメントを強化する。
- クロス階層の類似性の一貫性と階層の疎性を活用することで，不要なマッチング計算を削減する。
- 実証実験により，MIRAGEは既存のMVRシステムと比較して，大幅な精度向上と最大3.5倍の計算量削減を達成した。
Link: https://arxiv.org/abs/2510.08976
MambaH-Fit：状態空間モデルを用いたハイパースurfaceフィッティングに基づく点群法線推定の再考 [cs.CV]目的：点群法線推定におけるハイパースurfaceフィッティングの再構築
- 点群データは3次元形状の表現に不可欠であり，自動運転やロボティクスなど幅広い分野で活用されている。
- 既存手法では，微細な幾何学的構造のモデリングが不十分であり，法線推定の精度が制限される場合がある。
- 本研究は，点群の微細な幾何学的特徴を捉え，法線推定の精度向上を目指す。
- 提案手法MambaH-Fitは，Attention-driven Hierarchical Feature Fusion (AHFF)により，多スケール点群パッチ特徴を適応的に融合し，局所的な幾何学的文脈学習を強化する。
- さらに，Patch-wise State Space Model (PSSM)を提案し，点群パッチを状態ダイナミクスを通じて暗黙的なハイパースurfaceとしてモデリングすることで，微細な幾何学的理解を促進する。
- ベンチマークデータセットにおける実験により，提案手法が既存手法を精度，ロバスト性，柔軟性の面で上回ることが示された。
Link: https://arxiv.org/abs/2510.09088
CoIRL-AD：潜在ワールドモデルにおける協調的・競争的模倣・強化学習による自動運転 [cs.CL, cs.CV, cs.LG, cs.RO]目的：自動運転のための協調的・競争的模倣・強化学習フレームワーク
- 自動運転技術は，交通システムの安全性向上や効率化に不可欠であり，社会実装が急務である。
- 模倣学習はデータ依存性が高く，特に稀な状況への汎化性能が課題となっている。
- 専門家の行動に偏ったオフラインデータセットでも，頑健な自動運転を実現すること。
- 提案手法CoIRL-ADは，模倣学習と強化学習の長所を活かし，客観的衝突を緩和する。
- 将来の行動を予測することで，長期的報酬の推定精度を向上させている。
- 実験結果から，CoIRL-ADは既存の模倣学習ベースラインを上回り，特にクロスシティ汎化性能とレアケースでの性能が改善された。
Link: https://arxiv.org/abs/2510.12560
グローバルイルミネーションのための汎用的な光輸送3D埋め込み [cs.CL, cs.GR, cs.CV]目的：グローバルイルミネーションの直接的な近似表現
- リアルなレンダリングには不可欠だが，計算コストが高いという課題がある。
- 既存手法はシーンごとに最適化が必要で，汎化性能が低い。
- 3Dシーン構成から直接光輸送を予測し，汎用性を高める。
- 提案手法は，点群と幾何・材質特徴を用いてシーンを表現する。
- スケーラブルなTransformerにより，点間の相互作用をモデル化し，光輸送を埋め込み表現に変換する。
- 学習済み埋め込み表現は，少ないファインチューニングで新たなレンダリングタスクに適応可能である。
Link: https://arxiv.org/abs/2510.18189
真実，正義，そして秘密：プライバシー制約下でのケーキ分割 [cs.GT, cs.MA]目的：プライバシーを保護したケーキ分割プロトコルの開発
- 資源配分は，公正性と効率性が重要であり，社会の様々な場面で不可欠である。
- 従来のケーキ分割アルゴリズムでは，プライバシー保護が十分に考慮されていなかった。
- 本研究は，プライバシーを保護しつつ，公正性と戦略的操作防止を両立するプロトコルを提案する。
- 本研究で提案するプロトコルは，最初のプライバシー保護されたケーキ分割プロトコルである。
- 提案プロトコルは，嫉妬フリー性と戦略的操作防止性も満たすことが示された。
- 暗号化技術の応用により，プライバシー保護と公正性の両立を実現した。
Link: https://arxiv.org/abs/2511.09882
レンズレスイメージングにおける速度，忠実度，リアリズムを解き放つナルの拡散蒸留 [cs.CV]目的：レンズレスイメージングにおける高速かつ高精度な画像再構成
- レンズレスイメージングは，特殊な光学系を必要とせず，小型化や低コスト化が期待されるため重要である。
- 従来のレンズレスイメージング手法は，逆問題の解が一意に定まらず，再構成の質が低いという課題がある。
- 測定の一貫性，知覚的品質，推論速度のトレードオフを解決し，効率的な再構成を実現することを目指す。
- 提案手法であるNSDDは，拡散モデルの推論を効率的なニューラルネットワークに蒸留することで，高速な画像再構成を実現した。
- NSDDは，従来の拡散モデルと同等の知覚的品質と一貫性を維持しつつ，大幅な高速化を達成した。
- レンジ-ナル分解を蒸留することで，再構成品質とロバスト性が向上し，未知のシーンにも対応可能であることが示された。
Link: https://arxiv.org/abs/2511.12024
森林植生を通じた地表面温度再構成による早期の山火事検知 [cs.CV]目的：森林植生を通じた地表面温度の再構成手法
- 山火事は生態系や人々の生活に甚大な被害をもたらすため，早期発見と対応が重要である。
- 従来の熱画像では，樹冠による遮蔽や熱拡散により，微小な火源の検出が困難であった。
- 本研究は，合成開口レーダーの課題を克服し，より正確な地表面温度再構成を可能とする。
- 提案手法は，合成開口レーダーの熱拡散の影響を軽減し，シミュレーションデータでRMSEを2-2.5%削減した。
- 実際のホットスポット実験では，RMSEがそれぞれ12.8倍と2.6倍改善され，高い精度を実証した。
- 本手法は人の熱信号など他の熱信号にも適用可能であり，部分的な遮蔽下でも形態や範囲を捉えることができる。
Link: https://arxiv.org/abs/2511.12572
FDIO：周波数分解慣性航法 [cs.CV, cs.RO]目的：歩行者の慣性航法による自律的な移動推定
- 低価格なIMUを利用し，屋内やGPS非利用環境での位置推定を実現する基盤技術である。
- 携帯デバイス搭載IMUの信号は，歩行者の体幹運動と四肢の動きが混ざり合い，正確なモーションモデル化を困難にしている。
- 周波数分解により，体幹運動と四肢の動きを分離し，より正確な歩行者モーションモデルを構築することを目指す。
- 提案手法FDIOは，5つの公開PIOデータセットにおいて，平均絶対軌道誤差3.221m，平均相対軌道誤差2.550mを達成した。
- これは，RoNIN ResNetベースラインと比較して，それぞれ33.3%，16.7%の誤差低減に相当する。
- この結果は，提案する周波数分解戦略の有効性を示すものである。
Link: https://arxiv.org/abs/2511.15645
AVA-VLA：アクティブな視覚的注意による視覚-言語-行動モデルの改善 [cs.LG, cs.CV, cs.RO]目的：視覚-言語-行動モデルの性能向上
- ロボット工学において，人間の指示に基づいた複雑なタスク実行が求められている。
- 従来のモデルは，過去の情報を考慮せず，各時点の視覚情報を独立に処理する傾向がある。
- 部分的に観測可能な環境下でのロボット制御における課題解決を目指す。
- AVA-VLAは，過去のインタラクション履歴を考慮した再帰的な状態を用いて，行動生成を条件付けする。
- アクティブな視覚的注意機構により，指示と実行履歴に基づいて，重要な視覚領域に動的に注意を向ける。
- 標準的なロボットベンチマークや実世界のデュアルアーム操作タスクで，最先端の性能を達成した。
Link: https://arxiv.org/abs/2511.18960
ニューロインスパイア型マルチモーダル視覚言語モデルは，メンバーシップ推論プライバシー漏洩に対して堅牢であるか？ [cs.CV, cs.AI, cs.CR]目的：マルチモーダル視覚言語モデルにおけるメンバーシップ推論攻撃によるプライバシー漏洩の脆弱性評価
- エージェントAIの発展に伴い，マルチモーダルモデルの利用が増加しており，プライバシー保護が重要になっている。
- 既存研究では，単一モダルのAIモデルのプライバシー攻撃が中心であり，マルチモーダルモデルの脆弱性評価は不十分である。
- 脳科学に着想を得た正則化手法を用いて，マルチモーダルモデルのプライバシー攻撃に対する耐性を高めることを目指す。
- BLIPモデルを用いたCOCOデータセット実験では，ニューロモデル（tau > 0）におけるMIA攻撃の成功率が平均ROC-AUCで24%低下した。
- モデルの有用性（MPNet，ROUGE-2指標による生成キャプションと参照キャプションの類似性）は，ニューロモデルとベースラインモデルで同程度に維持された。
- PaliGemma 2およびViT-GPT2モデルを用いた追加の評価実験により，同様の結果が一貫して確認された。
Link: https://arxiv.org/abs/2511.20710
HanDyVQA：微細な手と物体の相互作用ダイナミクスのための動画QAベンチマーク [cs.RO, cs.MA, cs.CV]目的：微細な手と物体の相互作用ダイナミクスに関する動画質問応答
- 手と物体の相互作用は，ロボット工学やコンピュータビジョンにおいて重要な研究分野である。
- 既存のベンチマークは粗いレベルでの評価に留まり，相互作用の背後にあるダイナミクスの詳細な把握が困難であった。
- 手と物体の相互作用における操作と結果の両面を網羅する，詳細な空間・時間的推論を可能にするベンチマークを構築する。
- HanDyVQAベンチマークは，6種類の質問タイプと11.1K組のQAペアを含む。
- 最先端のモデル(Gemini-2.5-Pro)でも平均精度73%に留まり，人間の性能(97%)には及ばないことが示された。
- HOI関連の情報を視覚的特徴に組み込むことで性能向上が見られ，今後のモデル開発に示唆を与える。
Link: https://arxiv.org/abs/2512.00885
CycliST：環状状態遷移に関する推論のためのビデオ言語モデルベンチマーク [cs.CV, cs.AI, cs.LG]目的：環状状態遷移に関するテキスト推論能力を評価するためのベンチマークデータセット
- 現実世界のプロセスを理解するためには，時間的な変化や周期的なパターンを認識することが不可欠である。
- 既存のビデオ言語モデルは，周期的な動きや視覚的変化といった時間的なパターンを捉えることが苦手である。
- ビデオ言語モデルの周期的な動体認識能力を向上させるための評価基準と課題を提示すること。
- CycliSTは，オブジェクトの動きや視覚的属性における周期的なパターンを特徴とする合成ビデオシーケンスを生成する。
- 現在の最先端のVLMsは，線形運動や軌道運動，色やスケールといった時間依存的な視覚的変化において，一般化に苦戦していることが示された。
- モデルのサイズやアーキテクチャは必ずしも性能と相関せず，どのモデルも全てのタスクで一貫して高い性能を示さなかった。
Link: https://arxiv.org/abs/2512.01095