arXiv雑要約
画像・音声 - 2026/05/15 公開
Realiz3D:ドメイン認識学習によるフォトリアリスティックな3D生成 [cs.GR, cs.CV, cs.LG]目的:フォトリアリスティックかつ3D整合性のある画像生成手法
- 高品質な3Dコンテンツ生成は,コンピュータグラフィックスや仮想現実などの分野で不可欠である。
- 実写画像とレンダリング画像のドメインギャップが,フォトリアリズムを損なう課題となっている。
- 制御信号と視覚的ドメインの関連性を分離し,実写画像への制御転移を可能にすること。
- Realiz3Dは,拡散モデルの軽量な学習フレームワークであり,制御と視覚ドメインを分離する。
- ドメインをシフトさせる共変量を導入することで,特定の視覚ドメインに適合することなく制御を獲得する。
- テキストからのマルチビュー生成や3D入力からのテクスチャリングにおいて,3D整合性とフォトリアリズムを両立した結果を示した。
FaceParts:ガウススプラッティングにおける顔部位のセグメンテーションと編集 [cs.GR, cs.AI, cs.CV]目的:ガウススプラッティングアバターの教師なしセグメンテーションと編集
- エンターテイメント,VR,デジタルアバターなど,顔編集の応用範囲は広い。
- 3Dでの編集は手作業が多く,2D生成モデルに頼る手法が主流である。
- ガウス空間で顔を部位に分解し,高精度な編集と部位の入れ替えを実現する。
- FacePartsは,ガウススプラッティングアバターを意味的に一貫性のある顔部位に分解できる。
- 実験の結果,髭,眉,目などの特徴を頑健に分離することができた。
- 転送された部位はポーズや表情に適応し,IDの一貫性も維持されている (ID = 0.943)。
3D群衆メッシュ復元のためのコントラスト多モーダルハイパーグラフ推論 [cs.CV, cs.GR, cs.MM, eess.IV]目的:3D群衆メッシュ復元のための手法
- 現実世界とのインタラクション分析には不可欠だが,閉塞や深度の曖昧さから困難な課題である。
- 既存手法は単一のモダリティに依存し,幾何学的ガイダンスに欠ける。個々の対象物を孤立して再構成する傾向がある。
- セマンティック,幾何学的,ポーズ情報を統合し,群衆のコンテキストを考慮した再構成を実現する。
- RGB特徴,幾何学的事前知識,および閉塞を考慮した不完全なポーズを組み合わせることで,頑健なノード表現を初期化する。
- 骨盤深度指標を導入し,視覚特徴をメートルスケールに依存しない深度順序に整合させる。
- 共有トポロジーを持つハイパーグラフを構築し,高次の群衆ダイナミクスをモデル化することで,優れた性能を発揮する。
SparseOIT:アクティブセット法による順序非依存透過3DGSの改善 [cs.GR, cs.AI, cs.CV]目的:順序非依存透過(OIT)を用いた3Dガウススプラッティング(3DGS)再構成アルゴリズム
- 3DGSはフォトリアリスティックな映像生成を可能にするが,非ランバート反射や透明な材質には不向きである。
- 既存のOIT法では,最適化の潜在能力が十分に活用されていない。
- ガウススプラット間の依存関係の疎性を利用し,アクティブセット法による高速化を実現する。
- SparseOITはOITレンダリング方程式,再構成アルゴリズム,幾何学的正則化を統合的に設計した。
- 実験の結果,既存のOIT法と比較して大幅な性能向上を示した。
- ボリューメトリックレンダリングに基づく最新の3DGS再構成法と同等の性能を達成した。
ポスターデザインのためのユーザー制約を考慮した画像認識型レイアウト生成 [cs.GR]目的:ポスターデザインにおける画像認識型レイアウトの自動生成
- 視覚的なレイアウトは,効果的な情報伝達に不可欠であり,デザインの質を大きく左右する。
- ユーザーの要望に沿った多様なレイアウトを手動で作成するには,専門知識と時間が必要となる。
- ユーザーが指定した制約条件を満たすレイアウトを自動生成することで,デザイン作業の効率化を目指す。
- 本研究では,レイアウト属性や部分的なレイアウトといったユーザー定義の制約条件を考慮したレイアウト生成モデルを提案した。
- 提案モデルは,多次元ガウスノイズを用いて属性を表現し,属性の一貫性と分離を促す損失関数を導入することで,制約条件を満たすレイアウトを生成する。
- 実験結果から,提案モデルが様々なユーザー制約に応じて多様な画像認識型レイアウトを生成し,最先端の性能を達成することが示された。
MoZoo:動物の毛皮と筋肉シミュレーションにおけるビデオ拡散力の解放 [cs.GR, cs.CV, cs.LG]目的:動物の高品質な映像生成
- 映画のような動物効果の作成には精密なモデルが必要であり,その需要は高い。
- 従来のワークフローは,時間と計算コストがかさむという課題がある。
- 拡散モデルの潜在能力を活用し,効率的な動物シミュレーションを実現する。
- MoZooは,粗いメッシュから高品質な動物動画を生成する生成ダイナミクスソルバーである。
- Role-Aware RoPEにより,モーションアラインメントを同期させ,特徴干渉を防ぎ,計算効率を向上させている。
- MoZoo-DataとMoZooBenchを導入し,大規模データセットと包括的なベンチマークを確立した。
Seed3D 2.0:高忠実度シミュレーション対応3Dコンテンツ生成の発展 [cs.GR, cs.CV, eess.IV]目的:高忠実度な3Dコンテンツ生成システムの開発
- ゲームや映像制作など,多様な分野で3Dコンテンツの需要が高まっている。
- 既存の3Dコンテンツ生成は,品質やシミュレーションへの対応に課題があった。
- 高品質でシミュレーション可能な3Dコンテンツを効率的に生成することを目指す。
- Seed3D 2.0は,粗い構造から細かいディテールを生成する2段階のパイプラインを採用し,生成品質を向上させた。
- テクスチャとマテリアルの生成には,統一されたPBRモデルを使用し,より精密な表現を実現した。
- シーンの配置計画,部品認識分解,訓練不要のア articulation生成により,物理エンジンやグラフィックスエンジンとの連携を可能にした。
効率的なジェスチャー理解のための弾性スパイク変換器 [cs.CY, econ.GN, q-fin.EC, cs.NE, cs.AI, cs.CV]目的:ジェスチャー理解における効率化を目指した弾性スパイク変換器の提案
- 医療応用向けに,イベントベースセンサーデータの効率的な処理が重要視されている。
- 既存のスパイクニューラルネットワークは固定されており,ハードウェア制約への対応が困難である。
- ハードウェア資源に応じてモデルサイズを動的に調整し,性能と効率を両立することを目指す。
- 提案手法は,特徴抽出器,スパイク自己注意,フィードフォワードブロックに弾性を導入することで,モデルの複雑さを動的に変化させる。
- 学習済み単一モデルから,推論時にネットワーク幅とアテンションヘッド数を調整し,ハードウェアメモリ制限に対応する。
- 実験結果から,提案手法は既存手法と同等またはそれ以上の性能を示し,リソース制約のあるエッジデバイスでのリアルタイムジェスチャー認識を可能にする。
マルチ目的テスト時アラインメントのための共通代理ゲーム [cs.GT]目的:マルチ目的テスト時アラインメントの枠組み
- 大規模言語モデルの活用が広がる中,人間の選好との整合性が重要である。
- 多様なユーザーや評価基準が存在し,モデル出力に対する要求が衝突しやすい。
- 複数の目的を同時に考慮し,柔軟なトレードオフを実現する手法が求められる。
- CAGEは,トークンレベルのインセンティブを用いることで,複数の目的を同時に満たす均衡ポリシーを誘導する。
- 既存のテスト時アラインメント手法と比較して,CAGEは目的間の柔軟なトレードオフを可能にし,性能を向上させる。
- リソース制約のある環境下でも,マルチ目的アラインメントを実用的に行うための弱汎化能力を示す。
TERMS-Bench: LLM交渉エージェントの評価における合意率を超えた診断 [cs.CY, cs.GT, cs.AI]目的:LLM交渉エージェントの経済的推論能力の診断
- 交渉は経済活動の根幹であり,市場や資源配分を形成する上で不可欠である。
- 既存のLLM交渉評価は,合意率などの集計結果に依存し,失敗の原因が不明確である。
- 隠れた情報下での戦略的コミュニケーション能力を詳細に分析し,改善点を見出す。
- TERMS-Benchは,ベイジアンゲームフレームワークを用いて,相手の戦略や報酬構造を明確化することで,環境自体を検証者とする。
- 13のLLMエージェントを評価した結果,合意率は高いものの,余剰の獲得,手がかりの利用,信念の校正,遵守において差異が見られた。
- この結果は,既存のベンチマークでは見過ごされていた,エージェント固有の交渉上のボトルネックを明らかにする。
意味的潜在表現を用いた可変仕様下での視覚に基づく実行時監視 [cs.LG, cs.CV, cs.RO, cs.SY, eess.SY]目的:部分観測下における視覚情報からの過去時間信号 temporal logic (ptSTL) の検証可能実行時監視
- 自動運転やロボット工学において,システムの安全性を保証する実行時監視は不可欠である。
- 従来の監視手法は特定の仕様に依存するため,再学習が頻繁に必要となり,効率が悪い。
- 再利用可能な監視システムの構築により,様々な仕様に対応し,効率的な安全保証を実現する。
- 有限の temporal atom の辞書によって誘導される断片に対して,原子のロバストネススコアのベクトルである「意味的基盤」が,単調かつ1-Lipschitz再利用可能なインターフェースの中で最小の予測ターゲットであることが証明された。
- 解析木から派生した決定論的デコーダにより,あらゆる公式を評価でき,単一の conformal calibration パスで断片全体を検証できる。
- 歩行者と交差点のベンチマークにおいて,意味的基盤モニターは長期的にはローリング予測モニターよりも最大4倍タイトな保証範囲を提供する。
少数のチャネルが全体像を描く:拡散Transformerにおける大規模活性化の解明 [cs.CV, cs.AI, cs.MM]目的:拡散Transformerにおける大規模活性化の機能と構造
- 画像生成AIの性能向上に伴い,その内部メカニズムの理解が不可欠となっている。
- 拡散Transformerは強力だが,プロンプトがどのように画像セマンティクスを形成するのか不明確である。
- 大規模活性化に着目し,セマンティック情報を効率的に伝達・制御する仕組みを解明する。
- 大規模活性化は,わずかな数のチャネルでありながら,画像生成において重要な役割を果たしていることが示された。
- 大規模活性化は空間的に組織化されており,画像内の主要な被写体や注目領域と対応する構造化された空間コードを隠している。
- 大規模活性化を別のプロンプトに転送することで,最終画像はソースプロンプトにシフトしつつ,ターゲットのコンテンツを維持したセマンティック補間が可能となる。
CineMesh4D:疎なシネMRIからの個別化4D全心臓再構築 [cs.CL, cs.CV, cs.AI]目的:疎なシネMRIからの個別化4D全心臓メッシュ再構築
- 心臓疾患の診断・治療において,心臓の形状と動きの正確な把握は不可欠である。
- 従来の再構築手法では,心臓の一部分しか再構築できない,あるいは単一の心周期に限定される場合がある。
- 本研究は,複数視点からのシネMRIから,全心臓の3次元形状と時間変化を同時に正確に再構築することを目的とする。
- 提案手法CineMesh4Dは,微分可能なレンダリング損失と二重コンテキスト時間ブロックを導入することで,既存手法よりも再構築品質と動きの一貫性を向上させた。
- CineMesh4Dは,患者特有の全心臓メッシュを直接再構築するエンドツーエンドの4Dパイプラインであり,個別化されたリアルタイム心臓評価への道を開く。
- コードは,論文採択後に公開予定である。
エージェント型ソフトウェアエンジニアリングによるデジタル楽器の迅速な開発:事例研究と考察 [cs.DC, cs.SE, cs.SD]目的:デジタル楽器開発におけるエージェント型ソフトウェアエンジニアリングの応用
- デジタル楽器開発は,音楽表現の可能性を広げる上で重要である。
- 既存のツールは,寿命,相互運用性,参入障壁の高さが課題である。
- エージェント型ソフトウェアエンジニアリングによるこれらの問題解決を目指す。
- エージェント型ソフトウェアエンジニアリングを用いて,C++とJUCEフレームワークでオーディオソフトウェアを3つの事例で開発した。
- ローリー・スピゲルの「Music Mouse」をネイティブプラグインとして再実装し,パシェの「Continuator」システムをPythonからネイティブプラグインへ移植した。
- 既存のトラッカーシーケンサーに対し,OpenGLを用いた3Dユーザーインターフェースを新たに開発し,開発者の経験を自己民族誌的に分析した。
ピクセルと単語トークンを統合した生成言語モデル [cs.CV]目的:ピクセルと単語トークンを統合した生成言語モデルの開発
- 画像認識技術は,画像内の情報を理解し活用するために不可欠であり,様々な応用分野で重要性が増している。
- 既存の画像認識モデルは,画像内の細部の認識,特に小さなテキストや数字の認識に課題を抱えている。
- 本研究は,画像の各ピクセルにトークン埋め込みを付与することで,細部までの認識能力を向上させることを目指す。
- 提案モデルは,少ないモデルパラメータと限られた学習データでも良好な性能を発揮することが実験で示された。
- モデルパラメータと学習データの増加に伴い,性能が向上し,スケーリング則に従う可能性が示唆された。
- 画像内の細部,例えば小さなテキストや数字の認識における課題解決に貢献することが期待される。
生成・実世界3Dアセットの高速かつロバストなメッシュ簡略化 [cs.GR, cs.CG]目的:生成および実世界の3Dアセットに対するメッシュ簡略化手法
- 3Dコンテンツの急増により,シミュレーションやAR/VR等の効率的な幾何学が不可欠となっている。
- 既存手法では,ノイズが多く非多様体なメッシュに対応できず,高画質を維持するのが困難である。
- 本研究は,幾何学的構造と高品質な外観を維持しつつ,高速かつロバストな簡略化を実現することを目指す。
- 提案手法FA-QEMは,幾何学的偏差,境界曲率,法線の一貫性を考慮した新規な二乗誤差計量を用いる。
- FA-QEMは,既存手法と比較して,幾何学的誤差が小さく,視覚的品質が高く,処理速度が大幅に向上する。
- 高精度な幾何学的簡略化は,テクスチャマッピングによる外観転送を改善し,スケーラブルな3D再構成・生成パイプラインに貢献する。
限られたデータにおけるマスクオートエンコーダ:有効か? - 生物音響学的事例研究 [cs.SD, cs.CV, cs.LG]目的:生物音響データの種分類におけるマスクオートエンコーダ(MAE)の事前学習効果の検証
- 生物音響認識は,類似した音響を持つ種を識別するために,詳細な音響理解が不可欠である。
- 大規模なデータリポジトリは,弱くアノテーションされていることが多く,教師あり学習を困難にしている。
- 限られたデータ規模の生物音響データにおけるMAE事前学習の有効性を検証し,最適なモデル選択の指針を提供する。
- 多様な汎用音声データで事前学習したモデルが,iNatSoundsでの転移学習において最も優れた性能を示すことが確認された。
- ドメイン固有データでの追加的なマスク再構成事前学習は,必ずしも性能向上に繋がらず,場合によっては汎用モデルを下回る結果となった。
- データ規模が限られている環境下では,選択的なデータフィルタリングは,ほとんど性能向上に寄与しないことが示された。
PVRF:事前知識と速度制約による修正フローを用いた汎用的な悪天候除去 [cs.CL, eess.SY, cs.SY, cs.CV]目的:悪天候下で撮影された画像からの悪天候要素の除去
- 現実世界の画像は多様な悪天候の影響を受けるため,悪天候除去技術の重要性が高い。
- 既存手法では,悪天候の多様性に対応できず,過度に滑らかな結果になりがちである。
- 事前知識と速度制約を組み合わせた新しい修正フローを用いて,より自然な復元を目指す。
- PVRFは,凍結されたビジョン言語モデルを用いて悪天候の種類と属性を推定し,復元ネットワークに活用する。
- 終端一貫性を持つ残差修正フローを学習することで,学習の安定化を図っている。
- 実験により,PVRFは最先端手法と比較して,忠実性と知覚品質の両方を向上させ,異なるデータセット間での汎化性能も高いことが示された。
ハードウェアを意識したTransformer適応のための層固有スカラー関数の進化 [cs.CV, cs.AR]目的:Transformerの層固有スカラー関数最適化手法
- 画像認識においてViTが高性能だが,エッジデバイスでの利用には計算コストが課題。
- 層正規化がボトルネックとなり,ハードウェアフレンドリーな近似置換が必要とされている。
- 事前学習済みモデルから層固有の近似関数を効率的に進化させることで,性能劣化を抑制する。
- 遺伝的プログラミングを用いて層固有のスカラー関数を進化させるフレームワークを提案。
- 進化させた近似式は,既存手法と比較して高い精度で正規化の振る舞いを再現(分散の91.6%)。
- ImageNet-1Kで84.25%のTop-1精度を20エポックで回復し,効率的なエッジデバイスへの展開を実現。
視覚が悪いのか,思考が悪いのか? 視覚と言語の推論に対する報酬 [cs.AI, cs.CV]目的:視覚と言語の推論における知覚と推論の相乗効果の改善
- 高度な視覚言語モデル(VLM)の実現には,視覚と言語の協調が不可欠である。
- 既存手法は,静的なテキスト推論や複雑な外部エージェントに依存し,性能向上が限定的である。
- 知覚の忠実度を報酬化することで,視覚と言語の推論におけるボトルネックを解消することを目指す。
- 本研究では,強化学習フレームワークを導入し,知覚と推論を交互に行うことで,知覚の精度を向上させた。
- 「盲目的な推論」による知覚検証(PV)を導入し,推論結果に依存せず知覚の忠実度を評価・報酬化した。
- 構造化された言語検証により,大規模なタスクにおいても効率的な学習を可能にした。
CurveBench:ネストされたジョルダン曲線における正確なトポロジカル推論のためのベンチマーク [cs.CV, cs.LG]目的:ネストされたジョルダン曲線におけるトポロジカル推論の精度評価
- 視覚情報から空間的な関係性を理解することは,ロボティクスや画像解析において重要である。
- 複雑な曲線構造における包含関係の正確な把握は,既存の手法では困難である。
- この研究は,正確なトポロジカル推論能力を測るためのベンチマークを提案し,その課題を明確にする。
- CurveBenchは,様々な複雑さのジョルダン曲線画像756枚で構成され,領域の包含関係をツリー構造で表現する。
- Gemini 3.1 Proなどの強力なモデルでも,CurveBench-Easyで71.1%,CurveBench-Hardで19.1%の精度しか達成されていない。
- ファインチューニングされたQwen3-VL-8Bモデルは,GPT-5.4やClaude Opus 4.5を上回り,CurveBench-Easyで33.3%の精度を達成した。
合成的社会性:生成モデルがどのように社会構造を私物化するか [cs.CY, cs.GR, cs.LG]目的:生成モデルによる社会的能力の自動化
- デジタル経済の発展により,社会的なデータが商品化され,生成モデルの前提条件となっている。
- 生成モデルによる社会性の代替または媒介が,既存の社会関係やプロセスに与える影響が不明確である。
- シリコンバレーが所有する生成モデルによって構築される合成的社会性という新たな現実を分析し,その問題を提起する。
- 生成モデルは,知的労働や知性だけでなく,より広範な人間社会的能力である「社会的な営み」を自動化する。
- 生成モデルに基づいた製品の使用は,ユーザーに影響を与え,私有化された社会現実である「合成的社会性」を生み出す。
- 本研究は,生成モデルの倫理的課題を明らかにし,より民主的な設計の可能性を検討する。
Venus-DeFakerOne:統一された偽画像検出と局所化 [cs.CV]目的:偽画像検出と局所化の統一的基盤モデル
- 生成AIの進化により画像偽造が多様化しており,その検出技術の重要性が増している。
- 既存の偽画像検出研究は分野ごとに分断されており,汎用的な偽造手法への対応が遅れている。
- 異なるドメインの偽造画像に対する検出と局所化を同時に行う基盤モデルを構築する。
- DeFakerOneはInternVL2とSAM2を統合したデータ中心型モデルであり,画像全体とピクセルレベルでの偽造局所化を可能にする。
- 39の検出ベンチマークと9の局所化ベンチマークで最先端の性能を達成し,既存手法を上回る結果を示した。
- 実世界の摂動やGPT-Image-2のような高度な生成器に対しても高い頑健性を持つことが確認された。
DUET:単一細胞誘導事前知識を用いた二重パラダイム適応型エキスパートトリアージによる空間トランスクリプトミクス予測 [eess.SY, cs.SY, cs.CV]目的:空間トランスクリプトミクス予測の性能向上
- 組織画像から空間分解能の遺伝子発現量を推測する手法は,コスト効率が良い。
- 既存手法は,形態学的特徴と遺伝子発現の単純な対応関係に頼っており,分子的な一貫性が保証されない。
- 単一細胞データを活用し,柔軟性と生物学的信頼性のバランスを取ることで,予測精度を向上させる。
- DUETは,パラメトリック予測とメモリベース検索を組み合わせた二重パラダイムフレームワークである。
- 大規模な単一細胞データを参照として組み込むことで,予測の信頼性を高めている。
- 複数のデータセットで最先端の性能を示し,提案された各コンポーネントが性能向上に貢献している。
地方の医療格差を解消する:自動網膜検査のためのカスケード型エッジクラウドアーキテクチャ [eess.SY, cs.SY, cs.RO, cs.CV, cs.AI, cs.LG]目的:糖尿病性網膜症の早期発見を目的とした,カスケード型エッジクラウドアーキテクチャの開発
- 糖尿病性網膜症は,予防可能な失明の主要な原因であり,早期発見が重要である。
- 地方では専門家やインフラが不足しており,早期発見が遅れる課題がある。
- 低遅延かつ低コストで網膜検査を実現し,地方の医療格差を縮小することを目指す。
- 提案手法では,Tier1でMobileNetV3-smallを用いて重症度をスクリーニングし,Tier2でRETFoundDINOv2を用いて詳細な重症度分類を行う。
- Tier1は98.99%の感度と84.37%の特異度を達成し,Tier2への画像転送数を50.48%削減することに成功した。
- カスケード型アーキテクチャは,クラウドのみの場合と比較して,わずかな性能低下でクラウド利用量を削減した。
SToRe3D:ViTにおける疎なトークン関連性による効率的なマルチビュー3D物体検出 [eess.SY, cs.SY, cs.CV, cs.RO]目的:効率的なマルチビュー3D物体検出のための疎なトークン関連性
- 自動運転やロボット工学において,周囲環境の正確な3D認識は不可欠である。
- ViTは高性能だが,多数のトークン処理により推論速度が遅いという課題がある。
- ViTの計算効率を向上させ,リアルタイムでの3D物体検出を実現すること。
- SToRe3Dは,2D画像トークンと3D物体クエリを同時に選択し,計算リソースを効率的に配分する。
- nuScenesおよびnuScenes-Relevanceベンチマークにおいて,推論速度を最大3倍に向上させ,精度を維持した。
- 計画に重要なエージェントに対する精度を維持しつつ,大規模ViTベースのリアルタイム3D検出を確立した。
ProtoMedAgent:プライバシー保護機能を備えたエージェントワークフローによるマルチモーダル臨床解釈可能性 [cs.CV, cs.AI, cs.LG, cs.MA]目的:マルチモーダル臨床レポートの解釈可能性向上
- 臨床診断における根拠に基づいた判断の重要性が高まっている。
- 既存のRAG手法では,幻覚による誤った根拠の生成が課題となっている。
- 信頼性の高い臨床レポート生成とプライバシー保護を両立させる。
- ProtoMedAgentは,厳密な神経記号的ボトルネックを用いて,視覚的特徴と表形式データの潜在表現を離散的な意味記憶に変換する。
- 臨床コホートにおいて,ProtoMedAgentは標準的なRAGと比較して,比較セットの忠実度において大幅な改善(91.2% vs. 46.2%)を示した。
- $\ell$-多様性フェーズ移行により,メンバーシップ推論リスクを平均9.8%削減し,プライバシー保護を強化した。
パノプレーン:平面認識による疎な視点からの屋内3Dガウススプラッティングのパノラマ補完 [cs.CV]目的:疎な視点からの高精度な屋内新規視点合成
- 3Dシーンの再構成は,ロボット工学や拡張現実など,幅広い分野で重要な役割を担う。
- 限られた視点からの再構成は,情報不足により不完全な結果になりやすい。
- パノラマ画像を利用することで,視点不足を補い,より正確な3D再構成を実現する。
- パノプレーンは,パノラマ補完を用いて3Dガウススプラッティングの品質を向上させる。
- Layout Anchored Attention Steeringにより,拡散モデルの注意機構を効果的に制御し,正確な表面外挿を実現した。
- Replica,ScanNet++,Matterport3Dの実験で,最先端の性能を達成し,PSNRを最大17.8%向上させた。
TeDiO:学習不要なコヒーレントビデオ拡散のための時間的対角最適化 [cs.CV]目的:ビデオ拡散モデルにおける時間的コヒーレンスの向上
- 近年,テキストからビデオを生成する技術が発展しているが,生成されたビデオの品質向上が課題である。
- 既存のビデオ生成モデルは,ちらつきや不安定な動きといった時間的コヒーレンスに問題を抱えている。
- 内部の注意機構を調整することで,学習なしに時間的コヒーレンスを改善することを試みる。
- TeDiOは,中間的な自己注意マップの時間的対角の平滑性を評価し,不安定な領域を特定する。
- 軽量な潜在的更新を実行することで,フレーム間のコヒーレントな動きを促進する。
- 複数のビデオ拡散モデルで,TeDiOはより滑らかな動きを実現し,フレームごとの視覚的な品質を維持する。
容易なFew-Shot学習のための十分な埋め込みの再検討 [cs.CV]目的:Few-Shot学習における十分な埋め込み表現の有効性検証
- 深層ビジョン認識は,汎用的な表現へとパラダイムシフトを起こしている。
- 大規模データセットで訓練されたモデルが,理想的な潜在空間に収束する傾向がある。
- 既存の埋め込み表現でも十分な性能が得られるか検証し,Fine-tuningの必要性を低減する。
- 本研究では,DINOv2-Lの特徴量を用いたk-Nearest Neighbor分類器で高い性能を達成した。
- 層ごとの解析により,最適な特徴抽出層を特定し,PCAやICAによる多様体洗練の効果を確認した。
- 4つの主要ベンチマークにおいて,高度なメタ学習アルゴリズムを凌駕し,最先端の性能を示した。
ランドマークを一度だけ利用:YOLO-Worldランドマークヒートマップを用いた軽量U-Net顔超解像 [cs.CV]目的:顔画像超解像による高解像度顔画像の復元
- 顔画像は個人識別や表情認識など,様々な応用において重要な役割を担う。
- 高倍率の超解像では,微細な顔の特徴が失われやすく,正確な復元が困難である。
- YOLO-Worldランドマークヒートマップを活用し,効率的な顔超解像を実現する。
- 提案手法は,重いネットワーク構造や敵対的学習,個別の位置合わせネットワークを必要とせず,計算コストを抑えた超解像を実現した。
- YOLO-Worldの出力であるランドマークヒートマップを損失関数に組み込むことで,重要な領域の再構成誤差を強調し,より鮮明で自然な画像を生成した。
- CelebAデータセットでの実験により,提案手法が定量的な評価指標を改善し,知覚的に説得力のある超解像が可能であることが示された。
空間コヒーレンス誘導型トークン剪定・再構成による効率的な拡散Transformer [cs.CV]目的:拡散Transformerの効率化
- 画像生成AIの高性能化と,その計算コストの課題解決が重要である。
- 拡散Transformerは計算コストが高く,実用的な規模での利用が困難である。
- 空間コヒーレンスを利用し,計算コストを削減しつつ,高品質な画像を生成すること。
- CoReDiTは,拡散Transformerの自己注意層におけるFLOPsを最大55%削減し,推論速度を向上させた。
- クラウドGPUでは1.33倍,モバイルNPUでは1.72倍の高速化を実現し,高画質を維持した。
- さらに,デバイス上のメモリ使用量を削減し,より高解像度の画像生成を可能にした。
MAPLE:エンドツーエンド自律運転のための潜在的マルチエージェントプレイ [cs.RO, cs.CV]目的:エンドツーエンド自律運転システムの堅牢性向上
- 自動運転技術は,交通渋滞の緩和や交通事故の削減に貢献し,社会に大きな変革をもたらす可能性を秘めている。
- 従来の模倣学習によるVLAモデルは,閉ループ環境下では脆く,現実世界の複雑な状況に対応できない場合がある。
- 潜在空間におけるマルチエージェントロールアウトを通じて,VLAモデルのリアクティブ性を高め,安全かつ現実的な運転行動を学習する。
- MAPLEは,VLAモデルの潜在空間で動的な運転シナリオをロールアウトすることで,リアクティブなマルチエージェント環境を実現する。
- 本研究では,教師ありファインチューニングと強化学習を組み合わせ,安全性,進行性,相互作用のリアリズムを向上させる報酬関数を導入した。
- MAPLEはBench2Driveにおいて最先端の運転性能を達成し,スケーラブルな閉ループマルチエージェントプレイによる堅牢なエンドツーエンド自律運転システムの実現を示した。
MRIにおけるランドマークに基づく脳下皮質構造の自動セグメンテーション [cs.CV]目的:脳下皮質構造のセグメンテーション手法
- 脳画像解析において,正確な脳構造のセグメンテーションは不可欠である。
- ボクセルベースの深層学習モデルは,解剖学的に一貫性のない結果を生む場合がある。
- 専門家による手動セグメンテーションに沿った,より正確なセグメンテーションを実現する。
- 提案手法では,ランドマーク検出とセマンティックセグメンテーション,後処理を組み合わせる。
- ランドマーク検出により,脳の主要な参照点を自動的に特定する。
- 実験結果から,境界の精度が向上し,手動セグメンテーションとの整合性が高まることが示された。
AudioMosaic:コントラスト学習を用いたマスク音声表現学習 [cs.LG, cs.AI, cs.SD]目的:汎用的な音声表現の学習
- 音声データは多様であり,その理解には汎用的な表現が不可欠である。
- 効果的な音声のデータ拡張が難しく,コントラスト学習には大きなバッチサイズが必要。
- 効率的なバッチ学習と識別能力の高い表現を獲得すること。
- AudioMosaicは,スペクトログラムパッチへの構造化された時周波数マスキングを用いることで,効果的なコントラスト学習を実現した。
- 生成的なアプローチと比較して,AudioMosaicはより識別可能な発話レベルの表現を学習し,データセット間の転移性能に優れる。
- 複数の音声ベンチマークにおいて,線形プローブおよびファインチューニングの両方で最先端の性能を達成した。また,音声-言語モデルへの統合も有効であることが示された。
Kolmogorov-ArnoldネットワークによるハイパースペクトルとLiDARデータの暗黙的空間周波数融合 [cs.CV]目的:ハイパースペクトル画像とLiDARデータの融合による画像分類精度の向上
- 複雑なシーンにおける画像分類において,スペクトル情報と空間情報の両方が重要である。
- 従来の融合手法は,LiDARデータの構造的不連続性やハイパースペクトルデータの複雑なスペクトル特徴を捉えきれない。
- 本研究は,空間周波数両面でのLiDAR誘導型融合により,これらの課題を克服することを目的とする。
- 提案手法IFGNetは,Kolmogorov-Arnoldネットワークを用いて,ハイパースペクトルとLiDAR特徴間の非線形関係を適応的に捉える。
- LiDAR誘導型暗黙的集約モジュールを導入することで,幾何学的な情報を考慮した空間表現を強化し,構造パターンを捉える。
- Houston 2013およびMUUFLベンチマークにおいて,既存手法を上回る分類精度を達成した。
計算病理画像における計算染色・脱染色を目的とした生成深層学習 [cs.CV]目的:デジタル病理画像の計算染色と脱染色
- 病理診断の効率化と精度向上に貢献するため,画像処理技術の重要性が高まっている。
- 異なる機関で撮影された画像データ間には差異が生じやすく,汎用的なモデル構築が課題である。
- 画像登録なしでのドメインシフト軽減策を開発し,汎用性の高いモデルの実現を目指す。
- 仮想的な脱染色において,Pearson相関係数0.854,SSIM 0.699,PSNR 18.41dBを達成した。
- 計算脱染色後の再染色が,生画像からの直接染色よりも高い性能を示した(PCC: 0.798 vs. 0.715)。
- 良性腺構造は維持されたが,悪性腺は血管様の形態で描出される場合があることが示された。
リアルタイム自律航行に向けた透視下カテーテル先端追跡のためのTransformerベース手法 [cs.CV, cs.LG]目的:透視下におけるカテーテル先端のリアルタイム追跡パイプラインの開発と評価
- 脳卒中治療において機械的血栓摘出は有効だが,治療へのアクセスが限られている。
- 強化学習を用いた自律航行ロボットの普及には,リアルタイムなカテーテル先端座標の追跡が不可欠である。
- 低コントラストやノイズ,デバイスの遮蔽といった課題を克服し,高精度な追跡を実現すること。
- 提案手法は,手動でラベル付けされた中程度の複雑さの透視映像データにおいて,平均絶対誤差4.44mmを達成した。
- SegFormer(二値化)は,U-Net(4.60mm),U-Net+Transformer(6.20mm)および三値化モデル(5.19-7.74mm)を上回る性能を示した。
- セグメンテーションベンチマークでは,既存のCathActionの結果を最大5%のDiceスコアで上回る性能を発揮した。
産業用ビジュアル検査のためのアーキテクチャを考慮した説明監査 [cs.LG, cs.CV]目的:深層学習分類器の説明の忠実性評価プロトコル
- 産業用ビジュアル検査における深層学習の重要性が増しているため,その説明可能性の検証が不可欠である。
- 深層学習モデルの説明は視覚的には妥当に見えても,実際の意思決定に影響を与える領域を特定できない場合がある。
- モデルのアーキテクチャと説明手法の適合性を評価し,より信頼性の高い説明を設計するための指針を提供する。
- ViT-Tiny + Attention Rolloutは,Swin-Tiny / ResNet18+CBAM / DenseNet121 + Grad-CAMと比較して,高いDeletion AUCを示した。
- Swin-Tinyは,アーキテクチャファミリーと読み出し構造を分離し,読み出し構造が重要であることを示唆した。
- 説明経路はモデルアーキテクチャと共同で設計されるべきであり,デプロイされたヒートマップには定量的な忠実性指標を伴うべきである。
AIVAT系手法におけるヒューリスティックな脆弱性と不確実性伝播による分散削減 [cs.AI, cs.GT]目的:多人数エージェント環境におけるエージェントの性能評価手法
- マルチエージェント環境の評価は,試行回数やコストが限られる場合,効率的な手法が求められる。
- AIVAT系手法では,ヒューリスティックな価値関数選択の制約や不確実性の扱いが課題であった。
- ヒューリスティック関数の脆弱性を明らかにし,不確実性伝播による分散削減を目指す。
- ヒューリスティックな価値関数は,評価データ観察前に固定すべきである。
- ヒューリスティックな不確実性を伝播することで,AIVATの推定値の不確実性を定量化できる。
- 不確実性の伝播と分散重み付け平均により,統計的結論を得るためのサンプル数を43.0%削減できた。
拡散モデルを用いた動的分解能による画像復元 [cs.CV, cs.AI]目的:拡散モデルによる画像復元手法の効率化
- 画像復元は,ノイズ除去や解像度向上など,画像処理において重要な課題である。
- 従来の拡散モデルは計算コストが高く,実用上のボトルネックとなっていた。
- 動的分解能を活用し,計算効率を向上させつつ高画質な復元を実現すること。
- 提案手法は,既存の拡散モデルを動的分解能に適合させ,計算コストを大幅に削減した。
- SubDAPS++は,既存のDMベース手法と比較して,多くの実験において優れた性能を示した。
- 提示するフレームワークは,画像復元タスクにおける実用性と効率性を向上させる可能性を秘めている。
PhyMotion:物理に基づいた3Dモーション報酬による人間ビデオ生成 [cs.CV, cs.AI]目的:物理シミュレーターに基づいた3D人間の軌跡の妥当性を評価する構造化された,きめ細かいモーション報酬
- ビデオ生成において,リアルな人間モーションは重要な課題であり,その品質向上は不可欠である。
- 既存のビデオ報酬は2D情報に依存しており,3Dボディの状態や物理的なダイナミクスを考慮していない。
- 浮遊や不自然な動きといった物理的にありえない問題を解決し,モーションのリアリズムを向上させる。
- PhyMotionは既存の報酬と比較して,人間の判断との相関性が高いことが示された。
- PhyMotionを用いた強化学習による後処理により,自動評価指標およびブラインド人間評価でモーションのリアリズムが向上した(+68 Elo gain)。
- 報酬の3つの軸(運動学的妥当性,接触とバランスの一貫性,動的妥当性)は,互いに補完的な学習信号を提供する。
マルチモーダル拡散Transformerにおける概念省略の診断と修正 [cs.CV]目的:マルチモーダル拡散Transformerにおける概念省略の診断と修正
- 画像生成技術は,芸術,デザイン,コミュニケーションなど,多様な分野で重要性が増している。
- 既存のモデルでは,指定されたオブジェクトや属性が画像に現れない概念省略の問題が発生している。
- 提示する研究は,概念省略を効果的に軽減し,生成画像の品質を向上させることを目指す。
- テキストトークンに対する線形プロービングにより,対象概念の不在を示す「省略シグナル」が存在することが示された。
- この知見に基づき,省略シグナルを増幅することで,欠落した概念の生成を促進する「OSI」を提案した。
- FLUX.1-DevとSD3.5-Mediumを用いた実験により,OSIが極端な条件下でも概念省略を大幅に軽減することが確認された。
CreFlow:スパース報酬埋め込みビデオ拡散RLのための修正リフロー [cs.CV]目的:異種データで学習されたビデオ生成モデルの物理的制約違反を修正する手法
- ロボットの具現化された操作において,視覚的に妥当な動作生成が重要である。
- 既存のビデオRL報酬は低レベルな視覚指標に頼っており,複雑なタスク仕様の検証が困難である。
- 論理に基づく制約を用いて,生成ビデオの報酬を忠実に評価し,エラー箇所を特定することを目的とする。
- CreFlowは,既存手法よりも人間の評価やシミュレータの成功ラベルとの整合性が高い報酬判断を実現した。
- 8つの二足歩行操作タスクにおいて,下流の実行成功率を23.8パーセントポイント改善した。
- 報酬関連領域へのRL更新を制限するクレジットアウェアNFT損失と,修正方向を推定する修正リフロー損失が有効である。
反事実後悔最小化の並列化 [cs.AI, cs.GT]目的:反事実後悔最小化(CFR)アルゴリズムの並列化
- AI分野では並列化が重要であり,モデルの学習・評価時間を大幅に短縮できる。
- ゲームソルビングへの並列化の適用は,その潜在力にも関わらず,十分に検討されていない。
- CFRアルゴリズムを並列化し,大規模な不完全情報ゲームの解法を加速させる。
- CFRを線形代数の演算として捉え,既存の並列化技術を適用するフレームワークを提案した。
- CFR+,割引CFR,予測型CFRなど,CFRファミリーの他のアルゴリズムにも適用可能である。
- GPU実装は,CPU上のGoogle DeepMind OpenSpiel CFR実装と比較して,最大4桁高速であった。
KVPO:KVセマンティック探索による自己回帰型動画アラインメントのためのODEネイティブGRPO [cs.CV]目的:自己回帰型動画生成モデルと人間の好みの整合性
- 動画生成技術は,コンテンツ制作やエンターテイメント分野で重要な役割を担う。
- 従来の強化学習はノイズに依存し,動画のストーリーラインの整合性に課題があった。
- KVPOは,セマンティック探索とODEネイティブな最適化により,この課題を解決する。
- KVPOは,歴史的KVキャッシュを活用した因果的セマンティック探索により多様な動画生成を実現した。
- Trajectory Velocity Energy (TVE)に基づく速度場代替ポリシーは,ODEのネイティブな定式と完全に一致する。
- 短編および長編動画の両方において,視覚品質,モーション品質,テキスト-動画の整合性の向上が確認された。
完全情報拡張形式ゲームにおけるゲームエージェントの水印 [eess.SY, cs.SY, cs.GT, cs.AI, cs.CR]目的:ゲームエージェントの水印埋め込み手法
- AI技術の不正利用検出は,公平な競争環境維持や知的財産保護に不可欠である。
- ゲームプラットフォームにおけるAIツールの不正使用(チート行為)の検出が課題である。
- ゲーム戦略に水印を埋め込み,不正利用を検出する手法を確立すること。
- LLMの水印技術KGWを拡張し,完全情報拡張形式ゲームのエージェントに適用可能であることを示した。
- 水印埋め込みによる戦略プロファイルの品質低下は限定的であり,検出可能性とのトレードオフが存在する。
- チェスエンジンへの適用実験で,品質への影響が無視できず,少数のゲームで水印を検出できることを確認した。
見ることは学習ではない:大規模視覚言語モデルの不正なファインチューニングからマルチモーダルデータを保護する [cs.CR, cs.AI, cs.CL, cs.CV, cs.LG]目的:マルチモーダルデータの不正なファインチューニングからの保護
- 大規模視覚言語モデルの発展は目覚ましいが,データ利用に関する権利侵害のリスクが存在する。
- 既存の対策は事後的なものが多く,権利侵害が発生した後の対応に限られる。
- データ所有者が,未然に不正なファインチューニングを防止するための防御策を提案する。
- MMGuardは,人間には知覚できない摂動を注入することで,学習不可能なサンプルを生成する。
- この摂動はLVLMの学習ダイナミクスを利用し,モデルがノイズに過学習することで,推論時の性能を低下させる。
- クロスモーダル結合の破壊により,ノイズと学習ターゲットの間に誤った相関関係を強制し,防御効果を高める。
ICED:解釈可能な概念分解による概念レベルの機械的アンラーニング [cs.CL, cs.IR, cs.CV, cs.AI, cs.LG]目的:視覚言語モデルにおける概念レベルの機械的アンラーニング手法
- 視覚言語モデルは多様なタスクに応用可能だが,特定の知識を削除する際に精度劣化が生じる場合がある。
- 従来のアンラーニングは画像やインスタンスレベルで行われるため,関連性のない情報まで削除されるリスクがある。
- 画像内に混在する概念を分解し,ターゲット概念のみを選択的に抑制することで,精度劣化を抑制する。
- 提案手法は,マルチモーダル大規模言語モデルを用いてタスク固有の概念語彙を構築し,視覚表現を解釈可能な形で分解する。
- 概念レベルでの最適化により,ターゲット概念を抑制しつつ,画像内の他の情報やモデル全体の知識を保持する。
- 実験結果から,提案手法はターゲット概念のより完全な忘却,非ターゲット知識の保持,モデルの有用性の維持に貢献することが示された。
CoRDS:ストリーミング動画理解のためのコアセットに基づく代表的かつ多様な選択 [cs.CV]目的:ストリーミング動画理解における効率的なキーバリューキャッシュ圧縮
- 動画理解は,AI技術の発展により重要性が増しており,様々な応用が期待されている。
- 大規模なビジョン言語モデルの利用には,膨大なメモリが必要であり,ストリーミング動画のような長時間のデータ処理が課題となる。
- 蓄積された視覚情報の代表性を最適化するコアセット選択により,メモリ制約下での動画理解の性能向上を目指す。
- 提案手法CoRDSは,既存のヒューリスティックな圧縮手法と比較して,固定されたキャッシュ容量下で性能が向上した。
- CoRDSは,キーとバリュー空間の両方におけるカバレッジを重視した目的関数により,効果的な圧縮を実現する。
- 直交性に基づく多様性基準を導入することで,より代表的なキャッシュ選択が可能となった。
