arXiv雑要約
画像・音声 - 2026/01/30 公開
転移学習に基づく説明可能なビジョンTransformerによる効率的な干ばつストレスの識別 [cs.CV, cs.AI, cs.ET, cs.LG]目的:干ばつストレスの効率的な識別
- 食糧生産において,干ばつは深刻な脅威であり,早期発見と対策が不可欠である。
- 従来の識別方法は,微妙な兆候の検出が難しく,迅速な対応が遅れる場合がある。
- 画像データとTransformerを用いることで,早期かつ正確な干ばつストレスの識別を目指す。
- 提案手法は,高い精度で干ばつストレスを識別できることを示した。
- ViTモデルの注意機構を可視化することで,干ばつストレスの識別における重要な空間的特徴を明らかにした。
- 本研究は,農家が作物の管理判断を行うための,堅牢かつ解釈可能なソリューションを提供する。
アサインメント問題からゼロサムゲームへのフォン・ノイマン還元式の一般化 [cs.GT, cs.DS, econ.TH]目的:ゼロサムゲームへのアサインメント問題の還元式の一般化
- ゲーム理論と最適化は,それぞれ重要な分野であり,互いに密接な関係がある。
- フォン・ノイマンのミンマックス定理の証明は,プレイヤーの役割分担が明確でない点が課題であった。
- 特定の条件下でのみ適用可能な既存の還元式を拡張し,より一般的な経済シナリオに対応する。
- 本研究では,LPの目的関数や制約条件において負の要素を許容する還元式を提案した。
- この還元式では,ゲームのプレイヤーの役割が明確になり,最適解がLPの解と対応することが示された。
- さらに,還元されたゲームの値が,与えられたLPの値を直接示すことが明らかになった。
プロンプト最適化のためのテキスト事前サンプリングによる画像生成:TIPO [cs.CV]目的:テキスト画像生成におけるプロンプトの自動改善
- 画像生成技術は,創造性や表現の可能性を広げるものであり,その重要性は増している。
- 生成される画像の品質は,入力するプロンプトの質に大きく依存するが,適切なプロンプト作成は容易ではない。
- 本研究は,効率的かつスケーラブルなプロンプト自動改善手法を開発し,高品質な画像生成を可能とする。
- TIPOは,軽量な事前学習モデルを用いてプロンプトを拡張し,視覚品質,一貫性,詳細度を大幅に向上させる。
- 大規模言語モデルや強化学習に基づく手法と比較して,計算効率とスケーラビリティに優れている。
- 実験結果から,TIPOはテキストとの整合性向上,視覚的アーティファクトの低減,および高い人間による好みを実現することが示された。
EROAM:リアルタイムイベントベースカメラ回転測位とマッピング [cs.CL, cs.CV, cs.RO]目的:イベントベースカメラを用いたリアルタイムな回転測位とマッピングシステム
- ロボットの自律移動や環境理解において,正確な位置と姿勢の推定は不可欠である。
- 従来のカメラでは高速な動きや低照度下で性能が低下するため,新たなセンサとアルゴリズムが求められている。
- イベントカメラの特性を生かし,高精度かつロバストな回転測位とマッピングを実現すること。
- EROAMは,イベントを単位球上に投影する球面表現と,それに対応したES-ICPアルゴリズムを導入することで,高精度な回転推定を実現した。
- 効率的なマップ管理と並列点線最適化により,計算コストを抑えながら長期的な運用が可能となった。
- 合成データと実データでの実験により,既存手法と比較して精度,ロバスト性,計算効率において大幅な性能向上が確認された。
CMOOD:概念に基づく多ラベルOOD検出 [cs.CV, cs.AI, cs.LG]目的:複雑な多ラベル設定におけるOODサンプルの検出
- 現実世界のデータは多ラベルである場合が多く,その取り扱いが重要である。
- 既存手法は多ラベル間の複雑な関係性を捉えきれず,汎化性能が低い。
- 追加学習なしに,多ラベルデータにおけるOODサンプルを正確に識別すること。
- 提案手法CMOODは,既存手法を大幅に上回り,VOCとCOCOデータセットで約95%の平均AUROCを達成した。
- CMOODは,概念ベースのラベル拡張と新しいスコアリング関数を用いて,ラベル間の依存関係をモデル化する。
- 追加学習を必要とせず,様々なラベル数やOODサンプルタイプに対して堅牢な性能を維持する。
テキストからのモーション合成のための双方向部分遮蔽ネットワークBiPO [cs.CV, cs.GR]目的:テキスト記述からの自然で表現力豊かな人間モーションの生成
- 人間と自然にインタラクトするAIの実現には,テキストから適切なモーションを生成する技術が不可欠である。
- 全身のダイナミクスと,テキストを正確に反映した細かなモーションパターンを長期間にわたって捉えることが困難である。
- 部分ベース生成と双方向自己回帰構造を統合し,詳細な制御と文脈の考慮を実現することで,モーション生成の品質向上を目指す。
- BiPOは,HumanML3Dデータセットにおいて,FIDスコアおよび全体的なモーション品質の点で,ParCo,MoMask,BAMMなどの最新手法を凌駕する最先端の性能を達成した。
- BiPOは,モーション生成だけでなく,部分的に生成されたモーションとテキスト記述に基づいてモーションを合成する編集タスクにおいても優れた性能を示した。
- これらの結果は,BiPOがテキストからのモーション合成を進歩させ,実用的な応用への可能性を秘めていることを示唆している。
ACDiT:自己回帰的条件モデリングと拡散Transformerの補間 [cs.HC, cs.RO, cs.CV]目的:連続的な視覚情報の生成手法
- 言語モデルや画像生成において,自己回帰モデルと拡散モデルが著しい進歩を遂げている。
- 既存手法は離散的なトークン化に依存しており,柔軟性に課題がある。
- 自己回帰と拡散のパラダイムを組み合わせることで,この課題を克服し,視覚生成の性能向上を目指す。
- ACDiTは,ブロック単位の自己回帰ユニットを導入し,トークン単位の自己回帰とシーケンス全体の拡散の間の柔軟な補間を可能にする。
- 画像,動画,テキスト生成において有効性が確認され,類似規模の自己回帰モデルと比較して,視覚生成タスクで最高の性能を示した。
- 事前学習されたACDiTは,生成的な目的で学習されたにも関わらず,視覚理解タスクにも転移可能であることが示された。
自律型太陽光発電所点検におけるセマンティック構造を用いた視覚的局所化 [cs.CV, cs.RO]目的:太陽光発電所点検のための視覚的局所化手法
- 太陽光発電所の効率的な保守・運用には,定期的な点検が不可欠である。
- ドローン点検では,最適な距離や角度からの画像取得が課題となっている。
- ドローンが正確な位置を把握し,自動で点検作業を進めることを可能にする。
- 太陽光パネルの検出とドローンのナビゲーションを統合した局所化パイプラインを提案。
- 提案手法は,カスタムの空撮データセットを用いて堅牢性と実用性が検証された。
- 発電所モデルの精度が局所化手法の性能に与える影響も評価された。
大規模言語モデルはビデオゲームの没入感を捉えられるか [cs.CV, cs.AI, cs.CL, cs.HC]目的:ビデオゲームプレイ動画に対する人間の感情認識能力の評価
- 感情認識は,人間とコンピューターのより自然なインタラクションを可能にする上で重要である。
- 既存の感情認識技術は,ビデオゲームプレイのような複雑な状況下での微妙な感情の変化を捉えるのが難しい。
- 大規模言語モデルを用いて,ビデオゲームプレイ中の没入感の変化を高精度に予測することを目指す。
- 事前学習済みの大規模言語モデルは,マルチモーダル入力を用いて感情を予測できる。
- GameVibeコーパスのデータを用いた実験の結果,人間の連続的な感情アノテーションに及ばない場合が多い。
- ゲームによって性能が変動する要因を分析し,今後の感情認識技術開発の方向性を示す。
分類能力の不均衡を軽減する視点からのマルチモーダル学習の再考 [cs.CV]目的:マルチモーダル学習における分類能力の不均衡軽減
- 多様な情報源を活用し,より高度な認識・理解を目指す上で重要である。
- モダリティ間の情報量の差により,学習が偏り,性能が低下する問題がある。
- 分類能力の弱いモダリティを強化し,モダリティ間のバランスを改善すること。
- 提案手法は,ブースティングの原理を取り入れ,弱いモダリティと強いモダリティの分類能力を動的に調整する。
- 持続的なブースティングアルゴリズムと適応的な分類器割り当て戦略により,弱いモダリティの分類性能を向上させる。
- クロスモーダルギャップ関数の収束性も理論的に解析し,提案手法の有効性を保証している。
任意の解像度におけるビデオ表現のための段階的に変形可能な2Dガウススプラッティング [cs.CV]目的:任意の解像度でのビデオ表現を可能にする段階的変形可能な2Dガウススプラッティング手法
- ビデオ圧縮と処理において,高速化と効率化が求められている。陰的ニューラル表現はその有望な手法である。
- 単一のモデルでは,様々なレートと解像度に対応することが困難であり,再学習や多分岐設計が必要となる場合が多い。
- 単一のモデル内で任意の解像度とレートに対応できる,効率的なビデオ表現手法を開発すること。
- D2GV-ARは,2Dガウススプラッティングの利点を活かし,任意のスケールでのレンダリングと任意の比率での段階的符号化を実現する。
- フレームを固定長のグループに分割し,各グループを2Dガウス素セットで表現,時間変化をニューラル常微分方程式でモデル化する。
- 訓練時とレンダリング時にナイキストサンプリング定理に基づいたスケール対応グループ化を行い,解像度ごとのネストされた階層を形成する。
本当に忘れられているのか?機械アンラーニング評価プロトコルの批判的再検討 [cs.LG, cs.CV]目的:機械アンラーニング評価の妥当性検証
- プライバシー保護や法的要件に対応するため,機械学習モデルからのデータ削除が重要視されている。
- 既存の評価手法は小規模な状況でlogitベースの指標に偏り,実用上安全性を保証できない可能性がある。
- 大規模な状況下で,モデル表現レベルでの真のデータ削除を検証し,より現実的な評価基準を確立する。
- 現在の最先端アンラーニング手法は,モデル表現の質を低下させるか,分類器のみを変更し,logitベースの性能は向上するものの表現類似性は維持されることが判明した。
- ダウンストリームタスクのクラスとの意味的類似性を持つ忘れ去るクラスを導入することで,より厳格な表現レベルでの評価を実現した。
- 本研究で提案する評価基準は,現実的な条件でのアンラーニングアルゴリズム評価のための標準プロトコルとして機能することが期待される。
限定されたラベルからオープンな領域へ:ドローン視点での地理位置特定のための効率的な学習手法 [cs.CV, cs.IR]目的:ドローン視点地理位置特定における効率的な学習手法の開発
- ドローン技術の発展に伴い,正確な位置特定が不可欠であり,自動化された地理位置特定システムの需要が高まっている。
- 既存の教師あり学習は,ペアデータに依存し,ドメインが変わると再学習が必要で,計算コストが高い。
- 少量のペアデータとドメイン間の知識転移により,教師なし学習の課題である誤った擬似ラベルによる最適化を改善する。
- 提案手法CDIKTNetは,教師あり学習と比較して最先端の性能を達成し,既存の教師なし学習手法を上回る性能を示す。
- CDIKTNetは,少ないデータやドメイン間での初期化において,特に優れた性能を発揮する。
- ドメイン不変性のサブネットワークと知識転移のサブネットワークにより,特徴学習と知識転移の閉ループフレームワークを実現した。
再学習を超えて:Vision-Languageモデルのソースフリー型オープンセットドメイン適応のための学習不要な未知クラスフィルタリング [cs.CV]目的:Vision-Languageモデルにおける未知クラスのフィルタリング手法
- Vision-Languageモデルは多様なタスクで高いゼロショット性能を示すが,未知クラスへの対応が課題である。
- 既存手法は再学習が必要であり,セマンティックな類似性により未知クラスが既存クラスに誤って分類されることがある。
- 学習不要な推論モジュールにより,性能劣化なく未知クラスを効果的に識別・排除することを目指す。
- 提案手法VLM-OpenXpertは,高信頼度の未知サンプルから「未知部分空間」を抽出し,特徴量から未知成分を抑制する。
- Box-Cox変換と二峰性ガウス混合モデルにより,閾値の感度問題を改善し,最適な閾値を適応的に推定する。
- 9つのベンチマークと3つのバックボーン(CLIP, SigLIP, ALIGN)において,再学習を必要とする最先端手法と同等またはそれ以上の性能を示す。
CacheFlow:キャッシュされた正規化フローによる高速な人体モーション予測 [cs.CV]目的:3D人体モーション予測のための高速な密度推定
- ロボット工学やコンピュータグラフィックスなど,様々な分野で人体モーションの理解と予測が重要である。
- 既存の密度推定手法は計算コストが高く,予測時間よりも長い推論時間を要することが課題であった。
- 計算効率を改善しつつ,予測精度とモデルの表現力を維持することを目指す。
- 提案手法CacheFlowは,事前に計算された正規化フローの結果をキャッシュすることで,高速な推論を実現する。
- Human3.6MやAMASSデータセットにおいて,従来のVAEや拡散モデルと比較して,それぞれ4倍,30倍の高速化を達成した。
- 予測精度は最先端手法と同等であり,密度推定の精度も向上している。
コアセット選択に関する文献のコアセット選択:序論と最近の進歩 [cs.LG, cs.CV]目的:コアセット選択に関する文献の体系化と最近の研究動向の把握
- 機械学習において,大規模データセットの取り扱いは計算コストや効率性の面で重要な課題である。
- 既存の調査研究は,古典的な幾何学的手法や能動学習に焦点を当てがちであり,包括的な視点が不足している。
- 本研究は,コアセット選択の多様なアプローチを統合的に理解し,今後の研究課題を明確にすることを目指す。
- 本調査では,コアセット選択研究を,学習不要型,学習指向型,ラベル不要型という3つの主要な分類群に統一的に整理した。
- サブモジュール性定式化,双層最適化,未ラベルデータに対する擬似ラベリングなど,既存研究で注目されにくい分野についても検討を加えた。
- 剪定戦略が汎化性能やニューラルスケーリング則に与える影響を分析し,新たな知見を提供することで,今後の研究の方向性を示唆した。
マルチモーダル大規模言語モデルにおけるモダリティ干渉の診断と軽減 [cs.LG, cs.AI, cs.CV]目的:マルチモーダル大規模言語モデルにおけるモダリティ干渉の診断と軽減
- 近年,画像とテキストを統合するマルチモーダル大規模言語モデルが注目されている。
- しかし,これらのモデルは,無関係なモダリティからの干渉に弱く,性能が低下することがある。
- 本研究は,モダリティ干渉を診断し,その影響を軽減するための手法を提案する。
- 原因を特定するため,因果関係に基づく摂動実験を実施し,干渉のメカニズムを分析した。
- ヒューリスティックと敵対的摂動によるデータ拡張と出力レベルの一貫性正則化を組み合わせたファインチューニングフレームワークを提案した。
- 画像,テキスト,マルチモーダルベンチマークにおける実験により,モデルの頑健性と汎化性能が向上することが示された。
LLMの過剰な課金:トークン化,透明性,およびインセンティブ [cs.GT, cs.AI, cs.CY, cs.LG]目的:LLM利用におけるトークン課金メカニズムの経済的インセンティブと,それによる過剰課金の可能性
- LLMは高性能だが,利用にコストがかかるため,料金体系の透明性と公平性が重要となる。
- 現在のトークン課金システムでは,利用者は実際に使用されたトークン数を確認できず,不正な課金を見破ることが困難である。
- 本研究は,トークン課金における不正インセンティブを解消するための料金メカニズムの提案を目指す。
- LLMプロバイダーは,トークン数を偽報することで,利用者に気付かれずに課金を高く設定する経済的インセンティブを持つことが示された。
- 開発されたヒューリスティックアルゴリズムにより,プロバイダーは不正な課金を実行しても,利益を最大化しつつ疑念を抱かせないことが可能となる。
- 文字数に基づいた線形料金メカニズムへの移行が,不正インセンティブの解消策として提示された。
キャリブレーションのための再重み付きリスクの再検討:AURC,Focal,逆Focal損失 [cs.CV]目的:モデルのキャリブレーション改善のための再重み付きリスク関数の理論的関係性
- 機械学習モデルの信頼性向上には,予測確率と実際の正解率の一致が不可欠である。
- 既存手法では,キャリブレーション誤差と損失関数の関係が十分に解明されていない。
- 選択的分類のパラダイムを通じて,キャリブレーション誤差の低減を目指す。
- キャリブレーション誤差の最小化と選択的分類は密接に関連していることが示された。
- 提案手法は,デュアルFocal損失と同様の戦略を持ちつつ,信頼度スコア関数選択の柔軟性を提供する。
- ビンベースCDF近似により,nサンプル,Mビンに対してO(nM)の効率的な勾配ベース最適化を実現した。
弱指導学習とVLM蒸留の架け橋:効率的な下流適応のためのノイズ部分ラベル学習 [cs.CV, cs.AI]目的:ノイズ部分ラベルからの学習手法
- 画像と言語を理解する高性能なVLMが発展しており,手動アノテーションの代替として注目されている。
- VLMによって生成されるノイズは,従来の研究で仮定される対称的なノイズとは異なり,インスタンスに依存する。
- VLM生成ノイズに対処し,弱指導学習と知識蒸留を統合することで,効率的な下流適応を目指す。
- 提案手法は,共同正則化と擬似ラベリングメカニズムにより,ラベルの精製を共同で行う。
- 対照表現と擬似ラベルの交互最適化,共有特徴空間でのクラスプロトタイプ維持などの過学習防止戦略を導入した。
- 少数の手動アノテーションラベルを組み込むことで,性能をさらに向上させることが示された。
感情と意味に基づいた会話ジェスチャー合成システム [cs.HC, cs.CL, cs.LG, cs.SD, eess.AS]目的:感情と意味に基づいた会話ジェスチャーの合成
- デジタルヒューマンのリアリティ向上に,自然な身振り手振りが不可欠である。
- テキストや音声から自然なジェスチャーを生成することが困難であった。
- テキスト,音声,感情に基づき,より表現豊かなジェスチャー合成を目指す。
- DeepGestureは,拡散モデルを用いて,テキスト,音声,感情を条件としたジェスチャーを生成する。
- 感情に基づいた生成制御が可能となり,多様な感情表現を実現した。
- ZeroEGGSデータセットでの評価により,生成されたジェスチャーの人間らしさと文脈への適合性が確認された。
FastDINOv2:周波数に基づいたカリキュラム学習がロバスト性と学習速度を向上させる [cs.CV, cs.AI, cs.LG]目的:DINOv2のロバスト性と学習速度の向上
- 大規模な画像認識モデルは性能が向上しているが,計算コストが高い。
- 独自データや新しいモダリティでの再学習は,計算資源の制約により困難である。
- 計算効率を上げつつ,モデルのロバスト性を高めることを目指す。
- 周波数フィルタリングによるカリキュラム学習とガウシアンノイズパッチングにより,DINOv2の学習が加速し,ロバスト性が向上した。
- ImageNet-1Kでの学習において,学習時間とFLOPsをそれぞれ1.6倍,2.25倍削減し,従来の性能を維持した。
- ImageNet-Cのロバスト性評価において,ベースラインと同等の性能を達成した。
オンラインナビゲーションの改良:標準定義マップとオンライン知覚マップの関連付けによるレーンレベルの誘導の実現 [cs.CV]目的:標準定義マップとオンライン知覚マップの関連付けによるレーンレベルナビゲーションの精度向上
- 地理情報システムやナビゲーションにおいて,レーンレベルの誘導は,より詳細な情報を提供する重要な技術である。
- 従来のレーンレベルナビゲーションは,動的な道路状況に対応できない大規模なHDマップに依存しているという課題がある。
- 本研究は,リアルタイムなオンライン知覚マップと標準定義マップを統合することで,この課題を解決することを目指す。
- 提案手法MATは,空間的な変動や意味的な差異にも関わらず,トポロジーを正確に整列させる。
- MATは,ノイズを含むオンライン知覚マップの特徴をグローバルなコンテキストを通じて統合する。
- 実験により,MATは既存手法を凌駕し,低コストで最新のレーンレベルナビゲーションを可能にすることが示された。
CycleDiff:ペアなし画像間変換のためのサイクル拡散モデル [cs.CV]目的:ペアなしデータを用いた画像間変換手法
- 画像間変換は,画像処理分野において重要な課題であり,様々な応用が期待される。
- GANベースの手法では,多様なデータ分布の学習や性能向上が課題であった。
- 拡散モデルと変換プロセスを整合的に学習し,最適化の局所最小解を回避する。
- 拡散モデルを用いて画像成分を抽出し,変換プロセスに適用することで,端から端までの共同学習を可能にした。
- 時間依存の変換ネットワークを導入し,複雑な変換マッピングを学習することで,効果的な変換性能を実現した。
- RGB↔RGBやRGB↔Edgeなど多様なタスクにおいて,最先端手法を上回る生成性能を実証した。
内視鏡検査における意思決定のための記憶誘導型反省的エージェント:EndoAgent [cs.AI, cs.CL, cs.CV]目的:内視鏡画像診断を支援する汎用人工知能システムの開発
- 内視鏡検査は,早期発見・治療に不可欠であり,AIによる診断支援の需要が高い。
- 既存手法はタスク間の連携が不十分で,複雑な臨床ワークフローに対応できない場合がある。
- EndoAgentは,反復推論と適応的なツール選択を通じて,この課題を解決することを目指す。
- EndoAgentは,短期的な行動追跡と長期的な経験学習により,論理的な一貫性を確保し,洗練された意思決定を可能にする。
- EndoAgentは,汎用および医療分野のマルチモーダルモデルと比較して,優れた柔軟性と推論能力を示すことが実験により確認された。
- 5,709組の視覚的質問応答ペアからなるベンチマーク「EndoAgentBench」を新たに提示し,現実的なシナリオにおける視覚理解と自然言語生成能力を評価した。
社会的合意における不確実性の代償 [cs.GT, cs.MA, cs.SI]目的:社会ネットワークにおける合意形成の困難性
- 社会現象の理解に不可欠であり,意見形成や意思決定のメカニズム解明に貢献する。
- 現実の社会では情報が不完全であり,不確実性が合意形成を阻害する可能性がある。
- 不確実性が合意形成に与える影響を定量的に評価し,その限界を明らかにすること。
- わずかな不確実性(ε)が,社会ネットワークにおける合意形成を著しく困難にする。
- 不確実性の代償(price of uncertainty)に関して,理論的に厳密な上限と下限を導出した。
- この結果は,ネットワークゲームにおける不確実性の影響を理解するための基盤となる。
PRISM:非教師あり視覚表現とテキストプロンプトを活用した心臓シネMRIによるMACE生存予測のためのフレームワーク [cs.CV]目的:心臓シネMRIと電子カルテ情報を統合した生存分析によるMACE予測
- 心血管疾患は主要な死亡原因であり,正確な予後予測が重要である。
- 既存の予測モデルは,画像情報と臨床情報の統合が不十分である。
- 画像と臨床情報の融合による,より高精度なMACEリスク予測の実現。
- PRISMは,4つの独立した臨床コホートにおいて,従来のモデルや最先端の深層学習モデルを上回る性能を示した。
- PRISMから得られた画像と電子カルテの表現は,多様なコホートにおける心臓リスクに関する貴重な洞察を提供した。
- 側壁の不同期,下壁の過敏性,拡張期における前部の焦点などが,MACEリスク上昇と関連する画像特徴として明らかになった。
視覚的粒度化による因果律に基づいた視覚言語モデルのプロンプト学習 [cs.CV]目的:視覚言語モデルへのプロンプト学習手法
- 画像と言語を連携させる技術は,多様な応用分野で重要性を増している。
- 既存手法では,微細なクラスを区別する能力が十分でない場合がある。
- 微細なクラス間の差異を捉え,識別能力を高めることを目指す。
- 提案手法CaPLは,ブラウン橋拡散モデルを用いて視覚特徴を分解し,識別可能な視覚的粒度を構築する。
- 因果推論戦略に基づき,より識別力の高いテキストプロンプトを学習できる。
- 15のデータセットにおける実験で,既存手法を大きく上回り,特に微細なデータセットで優れた性能を示した。
BIR-Adapter:ブラインド画像復元のためのパラメータ効率的な拡散アダプター [cs.CV]目的:ブラインド画像復元のためのパラメータ効率的な拡散アダプター
- 画像復元は,コンピュータビジョンの基礎課題であり,様々な応用分野で不可欠である。
- 従来の復元手法は,大規模なモデルのファインチューニングや補助的な特徴抽出器に依存し,計算コストが高い。
- 事前学習済み拡散モデルの表現力を活かし,少ないパラメータで効率的な画像復元を実現する。
- BIR-Adapterは,最先端手法と同等以上の性能を,最大36分の1の学習パラメータ数で達成した。
- 提案手法は,既存のモデルに容易に組み込むことができ,汎用性が高い。
- 超解像モデルを拡張し,未知の劣化にも対応可能であることを示した。
大規模ビジョンモデルはメンタルローテーション問題を解決できる [cs.CV, cs.AI]目的:メンタルローテーションタスクにおけるビジョンモデルの能力評価
- 空間認識能力は人間にとって重要であり,認知科学の基盤となる。
- 既存のビジョンモデルが人間の空間認識能力をどの程度獲得しているかは不明である。
- ビジョンモデルにおける空間認識能力の獲得状況と制約を明らかにすること。
- 自己教師あり学習のViTは,教師あり学習のViTよりも幾何学的構造をより良く捉えている。
- 中間層の方が最終層よりも良い性能を示す。
- タスクの難易度は回転の複雑さや遮蔽の程度に応じて増加し,人間の反応時間と類似した傾向が見られる。
継続的な自己教師あり事前学習によるセマンティックセグメンテーションの性能向上 [cs.CV]目的:セマンティックセグメンテーション性能の向上
- 大規模データから汎化性能の高いモデルを学習する自己教師あり学習は,画像認識の基礎技術として重要である。
- 新しいドメインへの適応において,限られたデータでの継続的な事前学習は未だ十分には研究されていない。
- 低データ環境下でのセマンティックセグメンテーション性能向上を目指す。
- 提案手法GLAREは,局所的な一貫性と空間的な意味構造を活用し,セグメンテーション性能を向上させる。
- ViTを既存のSSLモデルで初期化し,軽量なアダプターモジュールのみを更新することで,効率的な継続事前学習を実現する。
- 複数のセマンティックセグメンテーションベンチマークにおいて,GLAREが最小限の計算コストで性能向上を示す。
SEGA:No-Reference画像品質評価モデルに対する転移可能な符号化されたアンサンブルガウシアンブラックボックス攻撃 [cs.CV]目的:No-Reference画像品質評価モデルへの転移可能なブラックボックス攻撃手法
- 画像処理技術の発展に伴い,画像品質評価の自動化が重要視されている。
- ブラックボックス環境下では,既存の攻撃手法は未知のモデルへの転移性が低い。
- ソースモデルの勾配を近似することで,高い転移性を実現する攻撃手法を開発する。
- 提案手法SEGAは,ガウシアン平滑化と勾配のアンサンブルにより,ターゲットモデルの勾配を近似する。
- SEGAは,設計された摂動フィルタマスクを用いて,知覚できない摂動を生成する。
- CLIVEデータセット上での実験により,SEGAの優れた転移性と有効性が確認された。
任意のデータモダリティを持つ偏微分方程式の基盤モデルMORPH [cs.CV, cs.AI, cs.LG, physics.comp-ph]目的:偏微分方程式のためのモダリティに依存しない自己回帰型基盤モデル
- 科学技術の発展には,複雑な物理現象のシミュレーションが不可欠であり,その効率化が求められている。
- 既存のモデルは,特定のデータ形式や空間次元に限定され,汎用性に欠ける場合が多い。
- 多様なデータ形式と次元に対応し,科学技術計算の効率化を目指す。
- MORPHは,多様な時空間データ(1D~3D)やスカラー・ベクトル場を扱える。
- 事前学習と転移学習により,既存モデルを上回る予測性能を示した。
- この柔軟性は,科学的観測データの異質性と多様性から学習するための強力な基盤となる。
MusicWeaver:作曲家スタイルの構造編集と小規模コヒーレント音楽生成 [cs.SD, cs.MM]目的:作曲家スタイルの構造編集と小規模コヒーレント音楽生成のためのフレームワーク
- 音楽生成技術は進歩しているが,実用的な音楽制作には更なる発展が求められている。
- 既存の音楽生成は,楽曲全体の構造編集や,細部の音楽的繋がりが十分でない場合がある。
- 作曲家が直感的に編集可能な構造と,小規模なコヒーレンスを両立する音楽生成を目指す。
- MusicWeaverは,編集の局所性を保証する中間表現を用いて,長編楽曲の生成と編集を可能にする。
- 構造化された計画の予測と,その計画に基づいたオーディオのレンダリングという二段階構成を採用している。
- Global-Local Diffusion TransformerとMotif Memory Retrievalモジュールにより,楽曲全体のコヒーレンスとモチーフの一貫性を実現。
JointDiff:マルチエージェント軌道生成における連続データと離散データの統合 [cs.LG, cs.CV]目的:マルチエージェント軌道と離散イベントの同時生成
- 複雑なシステムのモデル化には,連続データと離散データの同時考慮が不可欠である。
- 既存の手法では,連続データと離散イベントを別々に扱うため,相互作用を捉えきれない。
- 連続データと離散イベントを同時に生成することで,より現実的なシミュレーションを実現する。
- JointDiffは,連続データと離散イベントを同時に生成する新しい拡散フレームワークである。
- スポーツドメインにおいて,マルチエージェントの軌道とキーとなるボールポゼッションイベントのモデル化に有効性が示された。
- テキストによる誘導や,ボール保持者の指定など,多様な制御シナリオが可能であり,最先端の性能を達成した。
RestoRect:潜在的整流フローと特徴蒸留による劣化画像復元 [cs.CV]目的:劣化画像復元のための手法
- 画像劣化は,現実世界の画像取得において避けられない問題であり,その復元は重要な課題である。
- 高性能な復元モデルは処理速度が遅く,高速なモデルは復元品質が低いというトレードオフが存在する。
- Transformerアーキテクチャにおける動的な特徴生成を捉え,より効率的な知識蒸留を実現することを目指す。
- 提案手法RestoRectは,潜在的整流フローを用いた特徴蒸留により,教師モデルの高品質な特徴を学習する。
- Retinex分解や学習可能な異方性拡散制約などを組み合わせることで,学習の安定性と収束速度を向上させている。
- 15の画像復元データセットにおいて,既存手法と比較して優れた性能と高速な処理速度を両立している。
歩行者横断識別・分類フレームワークPCICF [cs.CV]目的:歩行者横断状況の識別と分類
- 自動運転技術の発展に伴い,都市部における歩行者等の安全確保が重要となっている。
- 複雑な歩行者状況を正確に識別・分類するための体系的なデータセットが不足している。
- 自動運転システムの異常検知やOOD(Operational Design Domain)分析を支援する。
- 本研究で提案するPCICFフレームワークは,現実世界の歩行者横断動画データセットPIEにおいて,複雑な歩行者横断状況を高い精度で識別・分類できることを示した。
- 既存の合成データセットSMIRKを拡張したMoreSMIRKデータセットと,空間充填曲線(SFC)を用いることで,効率的な識別・分類を実現した。
- PCICFは計算効率が高いため,自動運転車への搭載も視野に入れ,OOD検知への応用が期待される。
ランドマークトークン化拡散Transformer:微細な顔面編集 [cs.CY, cs.CV]目的:微細かつ同一性を維持した顔面編集の実現
- 顔画像編集は,人々のデジタル表現やコミュニケーションにおいて重要な役割を担っている。
- 既存手法では,正確な属性制御と同一性の維持が課題であり,ランドマークの活用も限界がある。
- ランドマークを柔軟に活用し,高精度な顔面編集と同一性の維持を両立することを目指す。
- 提案手法LaToは,ランドマーク座標を離散的な顔面トークンに変換することで,柔軟な編集を可能にした。
- 位置マップされた位置エンコーディングとランドマークを意識したClassifier-Free Guidanceにより,指示,形状,外観の相互作用を強化し,同一性の維持に貢献した。
- 大規模なデータセットHFL-150Kを構築し,最先端手法と比較して,同一性の維持率で7.8%,意味の一貫性で4.6%の改善を達成した。
MuSLR:マルチモーダル記号論理推論 [cs.CV]目的:マルチモーダル入力からの形式論理による新たな事実の導出
- 自動運転や医療診断など,高度な判断が求められる分野で,厳密な推論は重大な結果を防ぐ上で不可欠である。
- 既存のビジョン言語モデルは,マルチモーダル記号論理推論において十分な能力を発揮できていない点が課題である。
- 形式論理規則に基づいたマルチモーダル記号論理推論の評価基準を確立し,モデルの性能向上に貢献すること。
- MuSLRベンチマークを構築し,最先端のVLMsの性能を評価した結果,いずれも苦戦していることが明らかになった。
- LogiCAMというモジュール型フレームワークを提案し,GPT-4.1のChain-of-Thought性能を向上させ,特に複雑な論理において大きな改善が見られた。
- エラー分析の結果,失敗の約70%がモダリティ間の論理的な不一致に起因することが示され,今後の改善に向けた洞察を得た。
エントロピーに基づく動的パッチ分割による時系列Transformer [cs.CV, cs.AI, cs.LG]目的:時系列モデリングにおける,エントロピーをガイドとした動的パッチ分割手法
- 時系列データ分析は,金融,気象,医療など幅広い分野で不可欠である。
- 従来のパッチ分割は時間的 coherence を無視し,自然な遷移を断ち切ってしまう。
- エントロピーに基づいて動的にパッチ境界を決定し,時間構造を保持することを目指す。
- 提案手法 EntroPE は,条件エントロピーを用いて遷移点を検出し,動的にパッチ境界を配置する。
- EDP と APE の 2 つのモジュールで構成され,時間的シフトを捉え,パッチ内の依存関係を学習する。
- 長期的予測,分類,異常検知の実験で,提案手法は精度と効率を向上させることを示した。
iPEAR:注意と残差を用いた反復ピラミッド推定による変形可能な医用画像登録 [cs.CV, cs.AI]目的:変形可能な医用画像登録における精度向上
- 医療画像解析の精度向上は,診断精度向上や治療計画の最適化に不可欠である。
- 既存のピラミッド登録ネットワークは,解剖学的ずれの蓄積や,最適化反復回数の動的な決定メカニズムの欠如が課題である。
- 解剖学的ずれの蓄積を軽減し,最適な反復回数を決定することで,医用画像登録の精度を向上させる。
- 提案手法iPEARは,脳MRIおよび腹部CTのデータセットにおいて,最先端の登録ネットワークを精度面で上回る結果を示した。
- iPEARは,Fused Attention-Residual Module (FARM)とThreshold-Controlled Iterative (TCI)戦略により,解剖学的ずれの蓄積を抑制し,効率的な反復最適化を実現した。
- FARMとTCIの有効性は,汎化性能および ablation study によって検証された。
変換空間の拡大と過学習の軽減による視覚的プロンプティングの強化 [cs.CV]目的:視覚的プロンプティングの性能向上
- 事前学習済みモデルの転移学習は,計算コストを抑えつつ高い性能を発揮するため重要である。
- 従来の視覚的プロンプティング法は,他の適応手法と比較して精度が低いという課題がある。
- 単純な変換の表現力不足と過学習の問題を解決し,視覚的プロンプティングの性能を最大化すること。
- 提案手法ACAVPは,アフィン変換と色変換を導入することで,視覚的プロンプティングの表現力を向上させた。
- 過学習への対策としてTrivialAugmentを適用することで,既存の視覚的プロンプティング法の性能も大幅に改善された。
- 12種類の画像分類データセットで,ACAVPは最先端の精度を達成し,線形プローブよりも優れた性能と分布シフトへの堅牢性を示した。
ViSurf:大規模視覚言語モデルに対する視覚的監督・強化学習による微調整 [cs.CV]目的:大規模視覚言語モデルの性能向上と知識注入
- 視覚と言語を統合したAIモデルは,多様なタスクに応用可能であり,その発展が期待される。
- 既存の微調整手法は,性能不足,計算コスト,知識の忘却といった課題を抱えている。
- ViSurfは,これらの課題を克服し,効率的かつ安定した微調整を実現することを目指す。
- ViSurfは,既存のSFT,RLVR,および二段階パイプラインを,多様なベンチマークにおいて一貫して上回る性能を示した。
- ViSurfは,SFTとRLVRの利点を統合した単一ステージのパラダイムであり,計算効率と性能の両立を実現する。
- 報酬制御戦略の導入により,訓練の安定性と最適化を促進し,ViSurfの有効性を実証した。
InternSVG:マルチモーダル大規模言語モデルによるSVGタスクの統合に向けて [cs.CV]目的:SVGの理解,編集,生成を統合的に行うモデルの開発
- SVGは多様な分野で利用され,その自動化ニーズは高い。しかし,データや手法が分散している。
- 既存手法は,タスク間の汎用性や構造の複雑さへの対応が課題であった。
- 大規模言語モデルを活用し,SVGタスクのデータ,評価基準,モデルを統合的に解決する。
- 大規模マルチモーダルデータセット「SAgoge」とベンチマーク「SArena」を構築し,SVGタスクを網羅的に評価可能にした。
- SVG特有のトークンや初期化戦略,段階的な学習戦略を用いた「InternSVG」を提案し,タスク間の正の転移を促進した。
- SArenaおよび既存ベンチマークにおいて,InternSVGは既存のオープンソースおよび商用モデルを上回る性能を示した。
MotionBeat:具現化された対照学習と小節等価な接触認識符号化による運動に同期した音楽表現 [cs.SD, cs.AI, cs.MM]目的:運動に同期した音楽表現の学習
- 音楽は聴覚的体験だけでなく,身体的な現象であり,人間の動きと密接に関連する。
- 既存の音声表現は,この身体的な側面を無視しており,動きを誘発するリズムや構造的特徴の捉え方に限界がある。
- 音楽と動きの関連性をより良く捉えるための表現学習手法を開発し,音楽生成や分析の精度向上を目指す。
- MotionBeatは,運動と音楽の同期性を高めるため,新たな損失関数(ECLとSRAL)を導入した。
- 音楽からダンスを生成するタスクにおいて,既存の音声エンコーダーよりも優れた性能を示した。
- 拍動追跡,音楽タグ付け,ジャンル分類など,様々な音楽分析タスクへの応用が可能である。
AudioEval:テキストから音声生成の自動二観点・多次元評価 [cs.SD, eess.AS]目的:テキストから音声生成の評価に関する大規模データセット
- 音声生成技術の進歩に伴い,客観的かつ信頼性の高い評価手法が不可欠となっている。
- 既存の自動評価指標は,知覚的な品質を十分に捉えきれていないという課題がある。
- 専門家と一般の評価者による多角的な評価データを用いて,より精度の高い自動評価指標の開発を目指す。
- AudioEvalは,24システムから生成された4,200件の音声サンプルと126,000件の評価を含む大規模データセットである。
- 多様な自動評価器を比較検討し,モデル間の視点や次元レベルでの差異を明らかにした。
- Qwen-DisQAは,プロンプトと生成された音声を同時に処理し,高い次元評価性能を示す強力な基準として提案された。
DyPE:超高解像度拡散のための動的ポジション外挿 [cs.CV]目的:超高解像度画像生成の実現
- 画像生成技術は,エンターテインメントから医療まで幅広い分野で重要性が増している。
- 拡散モデルは計算コストが高く,特に高解像度での学習が困難である。
- DyPEは,学習済みモデルで高解像度画像を生成するための計算コスト問題を解決する。
- DyPEは,拡散モデルのポジションエンコーディングを動的に調整することで,学習解像度を超える画像生成を可能にする。
- DyPEは,FLUXを用いて1600万ピクセルの画像を生成するなど,複数のベンチマークで性能を向上させた。
- 超高解像度画像生成において,DyPEは最先端の性能を達成し,解像度が高くなるほどその効果が顕著になった。
統合レンダリング・通信を用いたエッジ協調ガウススプラッティング [cs.CL, cs.IT, cs.CV, math.IT]目的:低コストデバイスにおけるガウススプラッティングのレンダリング品質低下の改善
- ガウススプラッティングは高品質な3D表現を実現するが,計算コストが高い。
- 低コストデバイスでは,ガウススプラッティングの品質が低下しやすいという課題がある。
- エッジコンピューティングを活用し,レンダリングと通信を最適化することで品質向上を目指す。
- 提案手法(ECO-GS)では,ローカルモデルとリモートモデルを使い分け,リアルタイム性と高品質を両立する。
- レンダリング要件とリソース状況を考慮し,最適な協調状態とエッジパワー配分を決定する。
- ペナルティ主要化最小化法(PMM)と模倣学習最適化法(ILO)により,効率的なアルゴリズムを実現した。
FreeFuse:テスト時適応トークンレベルルーティングによる複数被写体LoRA融合 [cs.CV]目的:複数被写体画像生成におけるLoRA融合手法
- 画像生成技術は,多様な表現を可能にし,クリエイティブな応用範囲が広がっている。
- 複数被写体を扱う際,LoRA融合における特徴量の衝突が画質低下や同一性喪失を引き起こす。
- テスト時に被写体領域を特定し,LoRAの影響範囲を制限することで,融合時の衝突を回避する。
- FreeFuseは,追加の学習やモデル変更,マスク画像なしで,被写体キーワードのみで高品質な画像を生成可能である。
- 提案手法は,フローマッチングモデルの持つ意味的整合性を利用し,被写体固有のトークンを対応する空間領域に動的に対応させる。
- 実験結果から,FreeFuseは既存手法と比較して,同一性の保持と構図の忠実性において優れた性能を示すことが確認された。
教師なし3D形状抽象化のための階層型Transformer [cs.CV]目的:3D形状の階層的な抽象化
- 3D形状処理は,コンピュータビジョンやロボティクスにおいて重要な役割を果たす。
- 既存手法では,固定された階層構造に制約され,複雑な形状を表現できない場合がある。
- データから直接階層構造を学習し,多様な形状を表現すること。
- 提案手法HiTは,教師なしで3D形状の階層構造を学習する新しいニューラルフィールド表現である。
- 階層型Transformerを用いることで,形状カテゴリを問わず,一般的な階層を粗いものから細かいものへと学習する。
- ShapeNetの55カテゴリにおいて,形状を複数の粒度レベルでセグメンテーションすることに成功した。
