arXiv雑要約
画像・音声 - 2026/06/16 公開
UAV画像消去:UAV大気散乱モデル,ベンチマーク,およびジオメトリ認識型深層アンフォールディングネットワーク [cs.CV]目的:UAV画像のヘイズ除去手法の開発
- UAV画像は遠方詳細を捉える上で重要だが,ヘイズの影響を受けやすい。
- 実世界でのヘイズ画像と鮮明画像のペア取得が困難であり,既存モデルはUAV画像特有のヘイズ分布に対応できていない。
- UAV画像に特化した大気散乱モデルと,それに基づくヘイズ除去手法の確立。
- 本研究では,UAV大気散乱モデル(UASM)を提案し,飛行高度や視差を考慮したヘイズ分布のモデル化を実現した。
- UASMに基づき,ジオメトリ認識型プロキシマル深層アンフォールディングネットワーク(GP-DUN)を開発し,物理モデルとデータ駆動型学習を組み合わせた。
- UASM-HazeSetという合成・実データセットを構築し,実験によりGP-DUNが既存手法を上回る性能を示すことを確認した。
SP$^3$: プラグアンドプレイ復元のための球面事前分布 [cs.CV, eess.IV]目的:画像復元のための新しいプラグアンドプレイアルゴリズム
- 画像処理分野において,高品質な画像復元は重要な課題である。
- 従来の復元手法では,計算コストが高く,リアルタイム処理が困難である。
- 球面エンコーダを用いた効率的な復元手法を開発し,高速化を実現する。
- SP$^3$は,最先端のゼロショット拡散モデルやフローモデルと同等の知覚品質を達成する。
- SP$^3$は,それらの手法と比較して,$3$-$630\times$高速に処理を実行できる。
- SP$^3$は,最初の反復から鮮明で妥当な画像を生成する「anytime」復元機能を備えている。
参照に基づくフローマッチングによる顔動画復元 [cs.RO, cs.CV]目的:顔動画の復元
- 動画処理技術は,監視,エンターテインメントなど様々な分野で重要性が増している。
- 既存手法では,画質が悪い動画から個人を特定しつつ,自然な動画を復元することが困難である。
- 参照画像を利用し,個人を特定しつつ,画質劣化された顔動画を高精度に復元すること。
- 提案手法は,事前学習済みの生成モデルに参照画像による個人情報条件付けを導入することで,顔動画の復元精度,時間的一貫性,個人識別能力を向上させた。
- ダウンサンプリング,ぼかし,ノイズ,圧縮などの様々な劣化に対して,既存手法を上回る性能を発揮した。
- 個人に依存しないフレームワークであるため,未知の個人に対しても一般化性能が高いことが示された。
間隔の協和性の非対称公式とその調和的偶然の一致との関連 [cs.SD, eess.AS, math.HO, math.NT]目的:間隔の協和性を測る非対称公式の提案と,調和的偶然の一致との関係の解明
- 音楽理論において,協和性と不協和性は楽曲の美しさや感情表現に不可欠な要素である。
- 従来の協和性の評価指標は複雑で,直感的な理解が難しい場合がある。
- より簡潔で理解しやすい協和性の公式を提示し,知覚的なメカニズムを説明すること。
- 提案された非対称公式は,従来の公式と同程度の精度で協和性を評価できることが示された。
- オイラーのGradus Suavitatisは,特定の重み付けされた調和的偶然の一致のカウントと等価であることが示された。
- この公式は,調和的文脈と部分認識という観点から解釈でき,知覚的な仮説を提示する。
衝突回避システムのための半教師あり学習インスタンス認識知識蒸留 [cs.RO, cs.HC, cs.CV]目的:衝突回避システムのオンボード多タスク高密度予測モデルの半教師あり学習
- 自動運転技術の発展に伴い,安全性を高める衝突回避システムの重要性が増している。
- エッジ環境での計算資源の制約や,大規模アノテーションデータのコストが課題となっている。
- 知識蒸留により,軽量なモデルで高精度な衝突回避を実現し,エッジ環境への導入を可能とする。
- 提案手法は,教師バイアスを軽減し,基礎モデルからのインスタンス中心知識を活用することで,疑似ラベルの精度向上を実現した。
- 学習済み軽量学生モデルは,大規模教師モデルを上回るインスタンスセグメンテーション性能を示し,単眼深度推定の性能劣化を抑制した。
- 学生モデルは,計算量とパラメータ数を大幅に削減し,低コストエッジデバイス上で6.46 FPSのリアルタイム処理を達成した。
拡散モデルに基づくアクセントTTS:アクセント付音素予測なし [cs.SD, eess.AS]目的:アクセント付き音声合成
- 音声合成技術は,人間と機械の自然な対話を可能にする上で重要である。
- 既存のアクセントTTSは,付音素予測の誤りやデータ不足が課題となっていた。
- 標準的な音素列から直接アクセント付き音声を合成し,上記課題を解決すること。
- Joycentは,付音素予測なしで,拡散モデルを用いてアクセント付き音声を直接合成する。
- テキストエンコーダにアクセントと話者情報を組み込み,条件付きレイヤー正規化(CLN)を用いる。
- 実験結果から,Joycentはアクセント性を向上させつつ,話者IDを維持することが示された。
ビール・ランベルト則に基づく表現学習によるサブTHz食品検査画像における教師なし異常検知 [cs.CV]目的:サブTHz食品検査画像における教師なし異常検知のための表現学習
- 食品製造において,異物混入を検出し,製品安全を確保する信頼性の高い検査システムが不可欠である。
- 既存の異常検知手法はRGB画像で事前学習された表現に依存しており,サブTHz画像の透過特性を十分に捉えられていない。
- サブTHz画像の透過挙動を考慮した表現学習により,異常検知性能の向上を目指す。
- 提案手法は,減衰分解モジュールを導入し,学習中に減衰再構成を通して生徒表現を制約することで,表現学習をガイドする。
- 新たなLeave-One-Food-Outプロトコルを用いて,未知の食品カテゴリにおける汎化能力を評価した。
- Inline-Food-Inspection-THzデータセットを用いた実験により,提案手法がベースライン手法と比較して全体的な異常検知性能を向上させることが示された。
単眼人間動画からの器用な操作学習:V2P-Manip [cs.RO, cs.CV]目的:器用なロボット操作のための行動系列
- ロボットの自律的な操作能力向上は,産業界における自動化の鍵となる。
- 高コストな遠隔操作データの依存や,現実物理との整合性の問題が存在する。
- 人間によるデモンストレーション動画から,効率的に操作ポリシーを獲得すること。
- V2P-Manipは,3Dアセット取得,軌跡推定,および器用なポリシー学習を統合した効率的なフレームワークである。
- TACOおよびOakInkベンチマークにおいて,既存手法を大きく上回る姿勢精度と適応性を示した。
- 複数の操作タスクにおいて75%を超える成功率を達成し,多様なロボットハンドへの適応可能性を検証した。
階層的詳細空中物体検出 [cs.CV]目的:詳細な空中物体検出の性能向上
- リモートセンシングにおける高度なシーン理解には,現実世界の物体カテゴリーの細かさが不可欠である。
- 既存手法は粗粒度検出の枠組みを継承し,微妙な構造的差異を持つモデルレベルのカテゴリーの識別が困難である。
- 本研究は,属性や階層構造といった構造的知識を活用し,より詳細な識別を可能にすることを目的とする。
- 提案手法ExpertDetは,ビジョン情報を考慮した属性モデリング(VMAM)と階層的視覚インスタンス促進(HierVIP)により,細粒度空中物体検出の性能を向上させる。
- 新たなベンチマークデータセットPSPを構築し,船舶106クラス,航空機30モデルの詳細な認識を可能にした。
- PSPベンチマーク上での評価実験により,ExpertDetが既存の競合手法を上回る性能を示すことが示された。
PermaVid:編集に強い一貫性のある動画生成のための分離されたコンテキストメモリ [cs.CV]目的:編集操作下における一貫性のある動画生成
- 動画生成技術は,エンターテイメント,教育,コミュニケーションなど,多様な分野で重要な役割を担う。
- 既存の動画生成手法では,編集後の長期的な一貫性を維持することが困難である。
- 編集操作の影響を受けにくく,時間的・視点的に一貫性のある動画生成を実現すること。
- 提案手法PermaVidは,セマンティックな外観と幾何学的構造を分離したマルチモーダルコンテキストメモリを用いる。
- 編集に対応したメモリ更新と検索戦略により,メモリの進化を観測と同期させる。
- 実験結果から,PermaVidは編集後の長期的な意味的・構造的一貫性を大幅に向上させることが示された。
ResEdit:正確な生成画像編集のための残差埋め込み [cs.CV, cs.GR]目的:生成画像編集における残差埋め込みの有効性
- 画像生成技術は,多様なコンテンツ作成を可能にするため,重要性が増している。
- 既存手法では,編集品質と画像の一貫性維持が難しく,課題となっている。
- 残差埋め込みによる条件付けで,編集精度と画像同一性の保持を目指す。
- 残差画像エンコーディングの導入により,画像同一性の維持と編集可能性が向上した。
- 勾配反転に基づく最適化戦略により,残差と編集条件の分離に成功した。
- 本手法は,正確な編集,再照明,テキスト誘導操作において高い結果を示した。
ロボット操作コマンド生成のための,解結合された物体中心の動画理解 [eess.SY, cs.ET, cs.SY, cs.CV, cs.RO]目的:ロボット操作コマンドの生成
- ロボットの自律的な動作を実現するには,人間によるデモンストレーションを理解し,実行可能な命令に変換する技術が不可欠である。
- 既存手法では,操作に関与する物体を正確に特定できず,意味的に曖昧なコマンドが生成される場合がある。
- 動画から,操作に必要な物体を特定し,正確なロボット操作コマンドを生成することを目指す。
- 提案手法は,動画中のアクション認識と物体識別を分離することで,高精度な操作コマンドの生成を実現した。
- Something-Something V2データセットにおいて,アクション認識精度は86.79%,標準物体のBLEU-4スコアは0.337,新規物体のBLEU-4スコアは0.261を達成した。
- 既存のタスク特化型ベースラインと比較して,大幅な性能向上を示し,汎用的なVLMとも遜色ない結果が得られた。
MVOFormer:ロバストな単眼視覚測位のためのフロー・セマンティックTransformer [cs.CV, cs.RO]目的:ロバストな単眼視覚測位のためのTransformerフレームワーク
- 自律ナビゲーションやロボット局在化の基盤技術であり,実用性が高い。
- 既存手法は,解釈可能な特徴の欠如や複雑なアーキテクチャが課題。
- 多様な環境下での汎化性能とロバスト性を向上させる。
- MVOFormerは,フローとセマンティックの二重ブランチエンコーダにより,幾何学的運動情報と物体中心のセマンティック情報を融合。
- 反復型マルチモーダルデコーダを用いて,粗い推定から詳細な姿勢推定へと洗練させ,信頼性の低い領域への注意を抑制。
- ターゲットドメインのファインチューニングなしに,TartanAir,KITTI,TUM-RGBD,ETH3D-SLAMなどのベンチマークで,既存手法を凌駕するゼロショット汎化性能とロバスト性を示した。
AURA:細菌細胞プロファイリングにおける治療の曖昧性下での活性反応の帰属 [cs.CV]目的:細菌の細胞形態変化から,実際に効果を示した抗生物質の組み合わせの特定
- 細菌感染症の治療において,適切な抗生物質選択は重要であり,耐性菌の出現を抑制する上で不可欠である。
- 既存の解析手法は,実際に効果があった抗生物質を正確に特定できておらず,誤った薬剤選択につながる可能性がある。
- 実験データから効果のある抗生物質を正確に推定する新しい手法を開発し,臨床現場での薬剤選択の精度向上を目指す。
- AURAは,エネルギーベースの逆帰属問題としてこの課題を再構築し,活性セットは投与セットの部分集合であるという制約を導入した。
- AURAは,残差形態を抗生物質反応原子に分解し,再構成エネルギーが最も低い部分集合を選択することで,活性な抗生物質の組み合わせを推測する。
- 交差検証の結果,AURAは95.47%という高い精度で活性抗生物質の組み合わせを特定できた。
VGGTの不確実性品質:DTUベンチマークデータセットにおける分析 [cs.CV, cs.AI]目的:VGGTの不確実性予測の品質に関する分析
- 測量や3Dモデリングにおいて,リアルタイム性とスケーラビリティが求められている。
- 既存手法は計算コストが高く,大規模データへの適用が困難である場合がある。
- VGGTのようなニューラルネットワークの信頼性を高めるための不確実性評価が重要である。
- VGGTの出力に対する有効な信頼度閾値が特定された。
- 不確実性品質の向上は,3D再構成の精度向上に大きく貢献する可能性が示された。
- VGGTは,複数の画像から直接カメラ姿勢,深度マップ,3D構造を予測する革新的な手法である。
脳MRI補完と理解のための統一マルチモーダルモデル [cs.CV, cs.AI, cs.MM]目的:脳MRIデータの補完と理解
- 医療分野における画像診断の精度向上に貢献し,疾患早期発見や治療効果の改善に繋がる。
- 高品質な学習データが不足しており,実際の臨床現場ではデータ欠損が頻繁に発生する。
- 脳MRIデータの欠損に対処し,高精度な画像補完と疾患診断を実現すること。
- UniBrainは,複数の脳MRIモダリティの欠損に対応し,高精度な画像補完と理解を可能にする。
- 自己アライメント戦略により,詳細な画像キャプションなしで,脳の微細な解剖学的特徴を学習できる。
- 動的隠れ状態メカニズムによって,長文脈マルチモーダル推論における暴露バイアスを軽減した。
マルチモーダル検索拡張型質問応答における最初優位性 [cs.RO, cs.RO, eess.SY, cs.SY, math.RA, cs.CL, cs.AI, cs.CV]目的:マルチモーダルKB-VQAにおける読者側の位置依存性の制御された調査
- 知識ベースVQAは,既存の知識を超える質問に答える能力を持つビジョン-言語システムを実現する重要な分野である。
- 大規模言語モデルでは,検索された文脈の利用において「中間部喪失効果」が問題となっている。
- マルチモーダルKB-VQAにおいても同様の効果が確認され,読者側の改善が必要とされている。
- マルチモーダルKB-VQAにおいて,正解の文脈が最初に配置された場合に,最後に配置された場合よりも16~26ポイント高い性能が確認された。
- テキストのみの環境でも最初優位性は確認されたが,マルチモーダル設定によってその効果が2.2~4.5倍に増幅された。
- 検索側の修正(MMR,オラクル再ランキング,ランクベース再配置)では効果が見られず,読者側の介入が不可欠である。
少数ショットフォント生成における能動的な参照取得 [cs.CV]目的:少数ショットフォント生成における参照取得戦略
- フォントデザインの効率化が求められており,デザイン支援技術が重要である。
- 既存手法では,参照 glyph が不十分だと,期待されるスタイルを再現できない場合がある。
- 追加の参照 glyph を能動的に取得し,より高品質なフォント生成を目指す。
- 提案手法では,モデルが次に参照すべき文字を逐次的に決定する。
- 参照 glyph の局所特徴量をヒストグラムで表現し,未カバーな部分を優先的に取得する。
- Google Fonts データセットでの実験により,提案手法が既存手法よりも高い生成品質を達成した。
擬似ラベリングとWhisper埋め込みを用いた半教師あり音声自信度検出 [cs.RO, cs.SD, cs.LG]目的:話者自信度の検出
- 教育現場において,学習効果向上に話者自信度の理解が不可欠である。
- 学習データが不足しているため,高精度な自信度検出が困難である。
- 擬似ラベリングとWhisper埋め込みを活用し,データ不足を克服する。
- 本研究では,人間が設計した特徴量とWhisperエンコーダからの埋め込みを統合する新たなフレームワークを提案した。
- 擬似ラベリングにより,ラベル付きデータセットを拡張し,モデルの学習を促進した。
- 提案手法は,全体で75%の精度を達成し,個別学習や発話スキル開発を支援する音声分析技術の発展に貢献する。
BadWorld:ワールドモデルに対する敵対的攻撃 [cs.CV]目的:視覚ワールドモデルの脆弱性評価
- 近年,視覚ワールドモデルは,画像からインタラクティブな未来予測を可能にする重要な技術である。
- ワールドモデルは,わずかな摂動によって予測が大きく崩れる可能性があり,その頑健性は未評価である。
- 本研究は,教師なしでワールドモデルの脆弱性を評価する敵対的攻撃手法を開発する。
- 提案手法BadWorldは,未来の正解データやユーザー操作の予測が不要な自己教師ありアプローチを用いる。
- BadWorldは,モデルの初期段階のノイズ除去を妨害する速度攻撃と,操作に依存しない摂動を生成する軌道適応型二段階最適化を組み合わせる。
- 実験により,わずかな摂動がワールドモデルの予測を著しく劣化させ,構造崩壊や制御の不整合を引き起こすことが示された。
汎用的な音声ディープフェイク検出のための二重粒度直交的潜在変数分離 [cs.SD, cs.AI]目的:音声ディープフェイク検出における汎化性能の向上
- 音声合成技術の進歩により,ディープフェイク音声が深刻な脅威となっている。
- 既存の検出器は話者固有の特徴を学習しやすく,未知の話者に対する汎化性能が低い。
- 潜在変数の分離により,話者情報と合成アーティファクトを分離し,汎化性能を高める。
- 本手法はサンプルレベルとバッチレベルで直交性を強制する二重粒度潜在変数分離フレームワークを用いる。
- ASVspoof 2019 LA, 2021 DF,およびIn-the-Wildデータセットで最先端の性能を達成した。
- 特に,クロスデータセット転移において,勾配反転分離法を2.60%絶対的に上回る結果が得られた。
カイロス:物理AIのためのネイティブワールドモデルスタック [cs.AI, cs.CV]目的:物理AIのためのワールドモデルスタックの設計と実装
- 物理AIの発展には,環境を理解し,長期的な予測を行う能力が不可欠である。
- 既存のワールドモデルは,多様なデータからの学習や,長期的な状態維持に課題がある。
- 多様な経験からの学習,長期的な状態維持,効率的な実行を可能にするワールドモデルの構築。
- カイロスは,クロスエンボディメントデータカリキュラムを用いたネイティブ事前学習パラダイムを採用し,多様なデータから世界を学習する。
- ハイブリッド線形時間注意機構を備えたネイティブ統一アーキテクチャにより,世界理解,生成,予測を統合し,長期的な状態維持を実現する。
- サーバーおよびコンシューマーグレードのハードウェアでの低遅延ロールアウト生成を可能にする,デプロイメントを意識したシステム共同設計を取り入れている。
コンセプトボトルネックモデルにおけるシンボル検出の信頼性評価 [cs.DC, cs.LG, cs.CV, cs.SC]目的:コンセプトボトルネックモデルにおけるシンボル検出の信頼性の評価
- 説明可能なAIの実現は重要であり,人間の理解可能なシンボルを用いるCBMはその有力な手法である。
- CBMはタスク精度が高い場合でも,ボトルネックにタスク固有の近道が学習され,説明の信頼性が損なわれる可能性がある。
- 本研究は,CBMにおける信頼性の低いシンボルを特定し,その影響を軽減する訓練戦略を提案することを目的とする。
- 概念検出器と分類ヘッドを入れ替える実験により,信頼性の低い概念を特定し,その程度を評価した。
- 概念の完全な教師あり学習データセットでは,シンボルの交換による性能劣化は軽微であった。
- 信頼性に基づいた訓練戦略は,性能劣化を大幅に軽減し,シンボルの交換精度を向上させた。
Local-GS: タイルローカルなワープコヒーレンスによる3Dガウススプラッティングの高速化 [cs.CV]目的:3Dガウススプラッティングのレンダリング効率向上
- リアルタイムな新規視点合成技術は,没入型体験の実現に不可欠であり,その重要性は増している。
- 従来の3Dガウススプラッティングでは,ガウス分布の不規則な配置によりGPU利用効率が低下する問題がある。
- ワープコヒーレンスを導入し,GPUのSIMT実行境界に沿ってガウスを整理することで,レンダリング性能の向上を目指す。
- Local-GSは,タイルレベルでの共有パラメータ事前計算,貢献度のないワープの除外,および均一な命令ストリームによるブレンディングを実現した。
- 複数のデータセットにおける広範なベンチマークの結果,Local-GSは品質を損なうことなく効率を改善することが示された。
- Deep Blendingシーンにおいて最大で7.76倍の高速化を達成し,既存のベースラインにも追加の性能向上をもたらすプラグアンドプレイ型の最適化である。
学習不要な視覚言語モデルによる一人称視点シーン登録 [cs.CV, cs.RO]目的:異なる時点での同一屋内空間のキャプチャ間の登録
- ロボットやARシステムにおける持続的な空間記憶の基盤となる技術であり,実用性が高い。
- 一人称視点でのRGBデータのみでの登録は,視覚情報の曖昧さや動きの速さから困難である。
- 事前学習済み視覚言語モデルを活用し,学習パラメータや深度センサーなしで高精度な登録を実現する。
- PROSEは,オフザシェルフの基礎モデルを用いてRGBシーケンスをオブジェクトレベルの3Dシーングラフに変換する。
- 視覚言語モデルへのプロンプトにより,2つのRGBシーケンス間でオブジェクトインスタンスをマッチングさせる。
- Aria Digital TwinおよびAria Everyday Activitiesのベンチマークにおいて,従来の幾何学的および学習型手法を上回る登録精度を達成した。
多様性解剖学的シーンからの比較可能な投影画像生成:変換駆動アプローチ [cs.RO, cs.RO, cs.CV]目的:多様な解剖学的シーンからの再現性のある投影空間観察の生成
- 医療画像処理は,診断精度向上や治療計画の最適化に不可欠であり,その発展が求められている。
- 既存の投影画像生成手法は,登録やレンダリング効率に偏りがちで,解剖学的シーンの変換を考慮した比較可能性に課題がある。
- 本研究は,解剖学的シーンの変換を明示的に考慮し,再現性と比較可能性を確保した投影画像生成フレームワークを提案する。
- 提案手法は,CT/CBCTボリューム,セグメント構造,表面モデルなどを統合した共有解剖学的参照シーンを用いることで,複数の解剖学的配置からの直接比較可能なVirtualRTG投影画像の生成を可能にする。
- 従来のDRRアプローチとは異なり,投影画像を解剖学的シーンに対する観察過程として扱い,幾何学,取得モデリング,材質解釈を分離することで,方法論的仮定の制御と再現性を実現する。
- 本研究は,解剖学と投影の関係,運動の可視性,変換を意識した画像処理ワークフローを研究するための制御可能で再現性のある方法論的環境を提供する。
放熱星上歩行法:ノイマン境界条件を持つ放物型熱方程式 [cs.CL, cs.GR, cs.NA, math.NA]目的:放物型熱方程式に対するモンテカルロ解法
- 偏微分方程式の数値解法は,科学技術計算の根幹であり,効率的な手法が求められている。
- 時間発展を伴う放物型方程式に対するモンテカルロ法の適用は,空間と時間の結合により困難であった。
- 時間変化する領域を扱うための枠組みを構築し,モンテカルロ法を放物型方程式に適用可能とする。
- 新たなモンテカルロ解法「放熱星上歩行法」を提案し,境界積分の枠組みを放物型方程式に拡張した。
- 時間座標と空間方向の対数パラメータ化により,二重層カーネルが独立なガンマ関数と一様成分に分解されることを示した。
- 空間微分を境界積分で表現する解離型勾配推定器を導出し,空間時間領域にヘテロスカダスティック回帰ベースのノイズ除去を適用した。
土壌有機炭素予測のための専門家混合を用いた多モーダル時空間グラフニューラルネットワーク [cs.LG, cs.CV]目的:土壌有機炭素量の予測
- 農業の持続可能性,土地利用政策,施肥計画において,土壌有機炭素量の予測は不可欠である。
- 既存手法は,手動で作成された特徴量と古典的な機械学習,または単一モーダルの深層モデルを用いており,豊富なスペクトル情報や時間情報を捉えられていない。
- 不均一な土壌測定の空間構造を無視したグリッドベースのアーキテクチャを克服し,高精度な土壌有機炭素量予測を目指す。
- 提案手法SpTGNNは,空間的近接性,スペクトル類似性,標高の3種類の辺を持つ異種グラフを用いて土壌測定をノードとして表現し,関係性グラフ注意機構を適用することで,各関係ごとのパターンを学習する。
- TerraMindエンコーダを用いてSentinel-2,Sentinel-1,DEM信号からノード特徴量を抽出し,サンプルごとの環境共変量,位置埋め込み,時間埋め込みと組み合わせ,MoEモジュールで融合する。
- グローバルSOCデータセットにおける評価の結果,Africaテスト分割において$R^2=0.762$,RMSE $=3.51\pm0.48$ g/kg,MAPE $=22.9\%$を達成し,XGBoostベースラインを上回った。
LOCUS:マルチモーダル大規模言語モデルにおける微細な知覚を向上させる局所的な視覚的手がかり探索 [cs.CL, cs.CV]目的:マルチモーダル大規模言語モデルにおける微細な視覚的知覚の向上
- 近年,画像とテキストを扱う大規模言語モデルが発展しているが,その視覚的理解の精度が課題となっている。
- 高解像度な画像を用いても,モデルは重要な局所情報を捉えられず,無関係な背景に惑わされることがある。
- 局所的な手がかり探索を学習させ,モデルが画像内の証拠を正確に特定し利用できるようにすることを試みる。
- LOCUSは,局所的な視覚的手がかりをモデルに提示し,その手がかりが示す領域を画像全体から特定させる訓練フレームワークである。
- 実験の結果,LOCUSは微細な視覚的知覚の精度を向上させるとともに,モデルの一般的な理解力や推論能力を維持することが示された。
- 注意メカニズムの解析により,訓練中に局所的な手がかり探索を行うことで,タスクに関連する領域への集中度が高まることが確認された。
点群からの回転対称性に基づく物体姿勢推定:既知の3Dモデルなし [cs.CV]目的:点群からの物体姿勢推定
- 産業用途において,ロボットを用いた自動スプレー塗装など,物体姿勢推定は不可欠である。
- 機密保持の観点から,高品質な3Dモデルへのアクセスが制限されることが多く,課題となっている。
- 3Dモデルなしで姿勢推定を行うため,回転対称性という特性を利用して問題を解決する。
- 提案手法は,回転対称性を明示的に組み込むことで,ロバストな姿勢推定を実現する。
- 既知の3Dモデルに依存する手法と同等の性能を,新規に作成したデータセットで示す。
- 点群の精度向上と姿勢推定を同時に最適化する反復プロセスを用いる。
ArtNet:JEPAに類似した発音予測フレームワークによるロバストなゼロショット音素認識 [cs.SD, cs.AI]目的:ゼロショット多言語音素認識の性能向上
- 言語に依存しない普遍的な音声特徴の抽出は,音声処理の重要な課題である。
- 直接的な音響-記号マッピングは言語特有の変動に弱く,ゼロショット認識のボトルネックとなる。
- 発音特徴に基づく予測タスクにより,音響的ロバスト性を高め,言語変動を抑制すること。
- ArtNetは,自己教師あり学習の特徴から普遍的な発音表現を抽出する発音予測器と,情報ボトルネックを統合する。
- 7つの未知言語での実験により,ArtNetが競合するベースラインを大幅に上回ることが示された。
- 提案するベクトル空間音素インベントリ整合(VSIA)戦略と組み合わせることで,音素エラー率(PER)が20.56%相対的に,音素特徴エラー率(PFER)が7.01%減少した。
DifferAD-R1:マルチモーダル大規模言語モデルを用いた差分誘導型産業異常局所化 [cs.RO, cs.CV]目的:産業製品における異常領域の正確な特定と局所化
- 製造業において,品質管理は製品の信頼性と安全性を担保する上で不可欠である。
- 従来の閉じたセットの方式では,異なる状況への汎化性能が低いという課題がある。
- 既存のMLLMベース手法の課題を克服し,微細な欠陥の局所化性能を向上させる。
- 提案手法DifferAD-R1は,実世界の産業環境における未知の欠陥カテゴリの検出に有効である。
- 差分誘導型デュアル画像パラダイムにより,クロスシナリオ異常の探索を効率的に行うことができる。
- デュアル一貫性局所化報酬と難易度対応戦略により,最適化の安定性とロバスト性を高めている。
人工物にとらわれず: 音楽固有特徴による汎化可能な生成楽曲検出へ [cs.SD, cs.LG, cs.MM]目的:生成楽曲検出のための音楽固有特徴による汎化性能の向上
- AI音楽生成技術の急速な発展に伴い,生成楽曲の信頼性評価が重要課題となっている。
- 既存の検出手法は低レベルな人工物や限定的な特徴に依存し,生成モデルに依存しない識別が困難である。
- 音楽固有の特徴を活用し,生成モデルに依存しない汎化性能の高い検出手法を開発する。
- 提案手法Sofiaは,音楽固有の属性を特徴量ごとの専門家と適応的なMoEモジュールでモデル化する。
- 実験の結果,SofiaはMUSIC8K-Oにおいて最良のベースラインと比較してF1スコアを18.5ポイント向上させた。
- Sofiaは音楽固有特徴から生成モデルに依存しない表現を学習し,高いロバスト性を示すことが確認された。
SUP-MCRL:被験者適応型統一疑似特徴符号化多様相コントラスト表現学習による脳波視覚デコーディング [cs.CV]目的:脳波視覚デコーディングのための,被験者適応型統一疑似特徴符号化多様相コントラスト表現学習手法
- 非侵襲型脳コンピュータインタフェースは,自然な視覚体験への汎化において性能低下が課題である。
- 従来の多様相コントラスト表現学習は幾何学的距離の最適化に偏り,意味的一貫性や被験者特異性を無視している。
- 本研究は,誤ったゼロショットアラインメントを解消し,脳波視覚デコーディングの精度向上を目指す。
- 提案手法SUP-MCRLは,空間的注意機構による意味内容抽出,多重スケール畳み込みによる被験者間ロバスト性向上,および疑似特徴プールの維持を実現した。
- THINGS-EEGデータセットを用いた実験で,被験者内およびLOSO評価において,最先端手法を上回る精度を達成した。
- 具体的には,被験者内評価でTop-1/Top-5精度がそれぞれ66.0%/91.9%,LOSO評価で24.0%/52.9%であった。
DCP-Prune:分布の一貫性維持による超低トークンプルーニング [cs.CL, eess.SY, cs.SY, cs.CV, cs.AI]目的:超低トークン予算下におけるモデル性能維持
- 画像認識モデルの効率化が重要視されており,パラメータ削減が研究課題となっている。
- 既存のトークンプルーニング法は,超低トークン予算下では性能が不安定になるという課題がある。
- 分布シフトを抑制し,低予算下でも高い性能を維持することを目指す。
- 本研究では,分布の一貫性を重視した新しいプルーニングフレームワークDCP-Pruneを提案する。
- 提案手法は,コンテキスト情報の転送と代表的なトークンの動的再選択により,分布シフトを抑制する。
- 実験結果から,LLaVA-1.5-7Bにおいて,わずか16個のビジュアルトークンで92.1%の上限性能を維持することが示された。
MVM-IOD:3次元再構成手法評価のための産業オブジェクト中心ベンチマークデータセット [eess.SY, cs.SY, cs.CV]目的:産業用途における3次元オブジェクト再構成およびカメラ姿勢推定の評価
- 産業における品質管理や自動化には,高精度な3次元認識技術が不可欠である。
- 既存のデータセットは,現実の産業環境を十分に反映していない場合が多い。
- 現実的な産業環境下での3次元再構成とカメラ姿勢推定の性能評価を可能にする。
- 本研究で構築したMVM-IODデータセットを用いて,最新の3次元再構成手法およびカメラ姿勢推定手法を評価した。
- その結果,既存の学習済みモデルは,本データセットの分布外の画像に対して性能が低下することが示唆された。
- 簡単な前処理を施すことで性能改善が可能であり,産業用途における学習済みモデルの適用には注意が必要である。
ヒストパソロジーにおけるゼロアノテーションのオラクルとしてのビジョン言語モデル [cs.CV]目的:ヒストパソロジー画像の前景セグメンテーションの改善
- 病理診断のデジタル化が進み,画像解析による効率化が求められている。
- 既存手法は特定の染色やスキャナーに依存し,汎用性に課題がある。
- インターネット規模のデータで学習された汎用モデルの活用による課題解決。
- 提案手法は,既存の教師あり学習ベースラインよりも,分布外の染色におけるセグメンテーション品質で優れている。
- 自動的にキュレーションされた事例を用いたFew-shot promptingにより,難易度の高い症例のセグメンテーション精度が向上した。
- VLMベースのアノテーションレビューは,人間の専門家との合意度が高く,効率的なアノテーション支援が可能である。
棄権前に再確認を:予算制約下での確証的証拠獲得による信頼性の高い視覚言語モデル [cs.CV]目的:視覚言語モデルにおけるハルシネーションの抑制と,確証的推論による信頼性向上
- 大規模視覚言語モデルは多様な応用が期待されるが,その信頼性が課題となっている。
- 既存の確証的推論は高い棄権率を招き,実用性に乏しいという問題がある。
- 追加の視覚的証拠獲得を組み込むことで,棄権率を抑えつつ信頼性を担保することを目指す。
- 予算制約下での証拠獲得(BCEA)を提案し,既存手法よりも高いカバレッジを実現した。
- BCEAは,ハルシネーション率を目標レベルに制御し,統計的な保証を維持する。
- 提案手法は,POPEベンチマークとCOCOデータセットにおいて,複数の視覚言語モデルで有効性を確認した。
Sinkhorn-CPD:アンバランスなエントロピー最適輸送によるロバストな点群登録 [cs.CV]目的:点群登録の精度向上
- 点群データは3次元形状の表現として広く利用され,ロボティクスやコンピュータビジョンの分野で不可欠である。
- 従来のCPD法は外れ値や部分的重複に対して弱く,登録精度が低下しやすい。
- 外れ値の影響を軽減し,部分的重複下でも高精度な点群登録を実現すること。
- Sinkhorn-CPDは,CPDのターゲット側の制約を修正し,両側の外れ値を効果的に除去する。
- 提案手法は,エントロピー最適輸送問題を効率的に解き,手動によるパラメータ調整を不要とする自動的な焼きなましスケジュールを実現する。
- 実験結果から,Sinkhorn-CPDは最先端の精度を達成し,外れ値や部分的重複に対して高いロバスト性を示すことが確認された。
MMDiff:拡散Transformerを多Modal生成へ拡張 [cs.CV]目的:多Modal生成のためのフレームワーク
- 画像生成AIの性能向上は,様々な分野での応用を可能にするため重要である。
- 拡散Transformerは生成能力が高いが,生成過程で得られる知覚的表現が失われている。
- 拡散Transformerの知覚的表現を有効活用し,多Modalな情報を同時に生成すること。
- MMDiffは,凍結された拡散Transformerを用いて,画像と様々な知覚的Modalityを同時に生成する。
- 多段階のFeature融合と空間的に変化する重み付け集約が,セマンティックセグメンテーションの性能を最大28.7%向上させる。
- MMDiffはDINOv3などの最先端エンコーダーと競合し,補完的な関係にあることを示す。
ロボット操作のための行動チャンク条件付き潜在的パッチ革新監視 [cs.RO, cs.AI, cs.CV]目的:ロボット操作における,行動チャンクに条件付けられた潜在的パッチ革新の監視
- ロボットの自律操作は,現実世界でのタスク遂行において不可欠であり,その信頼性向上は重要な課題である。
- オープンな環境下では,予期せぬ状況変化によりロボットの操作が不安定になる場合が多く,そのロバスト性が課題となっている。
- 本研究は,タスクに関連するリスクを正確に検出し,安全かつ効率的なロボット操作を実現するための監視システムを開発する。
- PATCHは,行動チャンクに基づいて実行経路を予測し,ロボット自身の動作で説明できない残差を検出する。
- この残差が,局所的な介入信号として機能し,実行の一時停止やリカバリーソースの選択を可能にする。
- 実機実験の結果,PATCHは既存の監視システムよりも安定した,文脈に即したトリガーを生成することが示された。
MuVAP:自然な会話における発話者交代予測のためのマルチモーダル複数音声活動予測 [cs.SD, cs.AI, cs.HC]目的:自然な会話における発話者交代予測
- 人間とロボットのインタラクションにおいて,発話者交代の予測は円滑なコミュニケーション実現に不可欠である。
- 従来のモデルは複雑な機器に依存するため,現実の環境への応用が困難であった。
- 単一マイクとカメラで複数話者の発話者交代を予測する手法を開発し,その問題を解決する。
- MuVAPは,音声活動予測と顔のトラッキングを組み合わせることで,単一の音響ストリームとカメラ映像から発話者交代を予測する。
- Role-Relative Projectionにより,複数話者の複雑さを固定された状態に変換し,計算コストを削減している。
- 新たに構築したAudio-Visual Conversation Corpusを用いて評価を行い,既存手法を上回る性能を示した。
ノイズ増幅によるアーティファクトの露呈:AI生成動画検出のための新たな視点 [cs.CV, cs.AI]目的:AI生成動画と本物の動画の識別
- 動画生成技術の急速な進歩に伴い,偽動画の検出が重要となっている。
- 既存研究はGAN生成動画に偏っており,特にテキストからの動画生成モデルの検出は未開拓である。
- AI生成動画に特有のアーティファクトをノイズ増幅により検出し,識別精度を向上させる。
- 提案手法「ノイズ増幅」は,ビットプレーンに基づくノイズ信号の抽出と増幅を行うことで,識別器の性能を向上させる。
- ピクセルレベル,領域レベル,フレームレベルでのノイズ増幅を組み合わせることで,より効果的な識別を実現する。
- 大規模データセットGenVidBenchおよび新規ベンチマークHardGVDにおいて,最先端手法を大幅に上回る性能を達成した。
貢献度に基づく公平な分割:シャプレー値の視点 [cs.GT]目的:貢献度に応じた資源配分における公平性の評価基準
- 資源配分問題において,主観的な選好だけでなく,資源から生み出される価値を考慮する必要がある。
- 従来の公平性概念は,主体間の貢献度の違いを反映できず,最適な資源配分を阻害する可能性がある。
- 貢献度に応じた公平性を評価するための新たな基準を確立し,効率性と公平性のバランスを取ることを目指す。
- シャプレー値公平性(SVF)を導入し,資源配分における主体の権利を,社会厚生への期待される限界貢献度として定義した。
- 一般的な凹関数型評価に対して,シャプレー値近似率の最悪ケース解析を行い,$\Theta(\ln n)$ の限界が示された。
- 線形評価においては,エージェントタイプ数$k$や価値変動率$\gamma$を用いて,より詳細な限界$\Theta(\min\{k, \ln \gamma, \ln n\})$を導出した。
STAR-NT:リアルタイムニューラル透明度レンダリングの時空間的加速 [cs.GR, cs.LG]目的:リアルタイムニューラル透明度レンダリングの効率化
- 透明な表面の高品質な描写は,ゲームやVR/AR等のリアルタイムグラフィックスにおいて重要である。
- 既存手法では,複雑な透明度処理がモバイルデバイスや旧来のハードウェアで重荷となる。
- 時空間的なコヒーレンスを利用し,計算コストを削減することで,効率的なレンダリングを実現する。
- 空間的適応クアッドツリー分割により,局所的な色の分散に応じてジオメトリパスの解像度を調整する。
- 時間的に,深度に基づくリプロジェクションを用いて,一部のフレームで以前の透明度結果を再利用する。
- これらの最適化により,レンダリングコストが削減され,既存のリアルタイムレンダリングパイプラインに効率的に統合される。
構造を考慮した知識誘導型ヘテロなMambaによる頬骨上顎縫合線の評価 [cs.CV]目的:頬骨上顎縫合線の成熟度評価
- 上顎前進治療の抵抗部位であり,治療時期や有効性に影響するため,縫合線の成熟度評価は重要である。
- 縫合線の微妙な変化や,隣接する成熟段階間の意味的な曖昧さから,正確な成熟段階の判定が困難である。
- 構造的特徴と知識を統合し,より高精度な成熟度評価を実現することを目指す。
- 本研究では,4歳から24歳までの3,790枚の頬骨上顎縫合線画像を含む初の公開データセットを構築した。
- 構造を考慮したMambaベースのSKMambaを提案し,画像から縫合線の境界を強調することでノイズを低減した。
- 大規模言語モデルからの解剖学的記述を取り入れ,形態学的特徴と意味的情報を統合することで,最先端の性能を達成した。
多発性硬化症における常磁性リム病変の3次元分類:非対称QSM-FLAIRモデリングによる [cs.CV]目的:多発性硬化症における常磁性リム病変の3次元分類
- 多発性硬化症の病態解明と予後予測において,慢性炎症を示すバイオマーカーの特定が重要である。
- 常磁性リム病変の検出は専門的な知識と時間を要し,自動化された解析はデータ不足により困難である。
- QSMとFLAIR MRIを用いた非対称モデリングにより,常磁性リム病変の自動識別精度向上を目指す。
- 提案手法は,既存のアーキテクチャと比較して性能が向上し,非対称マルチモーダルモデリングの有効性を示す。
- QSMを主要な信号とし,FLAIR由来の構造的コンテキストで条件付けすることにより,病変の分類精度を高めた。
- 自己教師あり学習とコントラスト正則化を用いることで,限られたデータ下での頑健性を向上させた。
テキストと視覚による共同指示画像編集 [cs.CV]目的:テキスト指示と視覚的プロンプトの利点を統合した画像編集手法
- 画像編集技術は,コンテンツ制作や画像操作において不可欠であり,その精度向上が求められている。
- テキスト指示は意味表現が豊かだが空間制御が粗く,視覚的プロンプトは空間制御は正確だが意味解釈が曖昧である。
- テキストと視覚的指示を組み合わせて,正確かつ意図に沿った画像編集を実現することを目的とする。
- 本研究では,23,000件以上のペアデータセットを構築し,テキストと視覚的指示を合わせた学習を可能にした。
- 提案手法TV-Editは,既存手法と比較して,空間制御の精度,指示の曖昧さの低減,構造の一貫性において優れていることが示された。
- TV-Edit-Benchは,編集結果の信頼性評価のための新たなベンチマークとして構築され,その有効性が確認された。
Gen-VCoT:拡散ベースのRGB中間表現による生成型視覚Chain-of-Thought推論 [cs.RO, cs.HC, cs.RO, cs.CV, cs.AI, cs.LG]目的:視覚的推論のための生成型Chain-of-Thoughtフレームワーク
- マルチモーダル大規模言語モデルの視覚的推論能力向上は,AI研究の重要な進展である。
- 既存手法では,解釈可能な視覚中間表現が不足しており,推論過程の透明性に課題がある。
- 視覚的なChain-of-Thought推論を可能にし,推論過程の可視化と解釈性を実現すること。
- Gen-VCoTは,空間推論と深度推論において既存手法を大幅に上回る性能を示した。
- ただし,単純な事実に関する質問においては,テキストベースのChain-of-Thoughtの方が優れている場合がある。
- タスクに応じて最適な表現形式が異なり,Gen-VCoTは解釈可能なマルチモーダル推論の新たなパラダイムを確立する。
顔面皮膚疾患分類モデルの説明可能性評価のためのLLMベースの視覚的説明評価フレームワーク [cs.CV]目的:顔面皮膚疾患分類モデルにおけるGrad-CAMの説明の評価
- 医療診断におけるAIの信頼性向上は,患者ケアの質を大きく左右する重要な課題である。
- モデルの説明が臨床的に妥当な病変領域に基づいているかどうかの体系的な検証が不足している。
- 臨床的妥当性と信頼性を考慮したGrad-CAM説明の客観的評価手法を確立すること。
- 提案フレームワークは,GPT-5.5,Gemini 3.5 Flash,Claude Sonnet 4.6といったLLMを用いてGrad-CAMの説明を評価する。
- 評価は,病変局在性と説明の信頼性の観点から行われ,評価の一貫性を高めるための段階的なプロンプトエンジニアリングが導入された。
- 幾何学的拡張,色に基づく拡張,混合拡張の戦略を適用し,モデルの説明可能性を評価した結果,臨床的根拠に基づいた説明の重要性が示された。
