arXiv雑要約
画像・音声 - 2026/02/02 公開
ストリートビューから可視性ネットワークへ:ビジョン言語モデルによる都市における視覚的関係の写像 [cs.CV]目的:都市における視覚的関係の写像
- 都市計画や景観研究において,可視性分析は不可欠な手法である。
- 従来の可視性分析は幾何学的な視線のみに依存し,文脈や知覚的な側面を捉えきれていない。
- 実世界の知覚に近い,画像に基づいた可視性分析手法を開発し,都市の視覚的関係性を明らかにすること。
- 提案手法は,世界各地のランドマークの可視性を87%の精度で検出し,その信頼性を示した。
- ランドマークの知覚・経験における文脈的な差異が明らかになった。
- ロンドンのテムズ川沿いのランドマーク間のつながりの構造と強度が可視性グラフによって明らかにされ,橋梁が重要な役割を担っていることが示された。
CacheFlow:キャッシュされた正規化フローによる高速な人体モーション予測 [cs.CV]目的:3D人体モーション予測のための高速な密度推定手法
- リアルタイムなモーション予測は,ロボット工学やVR/ARなどの分野で重要性を増している。
- 既存の密度推定手法は計算コストが高く,予測時間の長さが課題となっていた。
- 計算効率を向上させつつ,予測精度とモデル表現力を維持することを目指している。
- 提案手法CacheFlowは,事前計算とキャッシュを活用することで,推論速度を大幅に向上させた。
- Human3.6MおよびAMASSデータセットにおいて,既存のVAEや拡散モデルよりも高速な処理を実現した。
- 密度推定精度と予測精度において,最先端手法と同等以上の性能を示した。
3D大規模カーネル最適化のための空間適応勾配再パラメータ化 [cs.CV, cs.LG]目的:3D大規模カーネル最適化における最適化安定性の向上
- 高解像度3Dボリューメトリック解析において,Transformerに代わる効率的な手法として大規模カーネル畳み込みが注目されている。
- 大規模カーネルサイズを単純に増加させると,最適化が不安定になるという課題が存在する。
- 有効受容野に着目し,空間的に変化する学習率を導入することで,最適化の安定化を目指す。
- Rep3Dは,軽量なモジュールネットワークを用いて受容野バイアスを考慮したスケーリングマスクを生成し,カーネル更新を適応的に重み付けする。
- この手法は,複雑なマルチブランチ設計を避けつつ,局所から全体への安定した収束を保証する。
- 5つの3Dセグメンテーションベンチマークにおいて,最先端のTransformerや固定事前分布ベースラインと比較して一貫して高い性能を示した。
VScan:効率的な大規模視覚言語モデルのための視覚トークン削減の再考 [cs.CV, cs.CL]目的:大規模視覚言語モデルにおける効率的な推論の高速化
- 近年,マルチモーダル理解において視覚情報の重要性が増しており,高性能なモデルが求められている。
- 視覚トークン数の増加は計算コスト増大を招き,リアルタイムでの利用が困難となる場合がある。
- 視覚トークンの冗長性を解消し,計算効率と性能の両立を目指す。
- VScanは,視覚エンコーディングと言語デコーディングの中間層でトークン削減を行う2段階フレームワークである。
- LLaVA-NeXT-7Bへの適用により,プレフィリング速度が2.91倍向上,FLOPsが10分の1に削減された。
- 元の性能の95.4%を維持しつつ,16のベンチマークにおいて最先端技術を上回る性能を発揮した。
3DGS圧縮のための階層的スパース変換符号化学習 [cs.SI, cs.CV, eess.IV]目的:3DGS圧縮における効率的な変換符号化手法の開発
- 3DGSは没入感の高い体験を提供するが,データ量が巨大であり,効率的な圧縮が不可欠である。
- 既存手法では,ニューラル解析・合成変換が不十分で,エントロピー符号化に負担がかかり,性能が制限される。
- ニューラル解析・合成変換を導入し,3DGS表現とエントロピーモデルと同時に最適化することで,圧縮性能向上を目指す。
- 提案手法は,高速な復号を可能にしながら,既存の最先端3DGS圧縮器と比較して良好なレート歪み性能を示す。
- チャンネルワイズKLTによるデコリレーションとエネルギー集約,およびスパース性を考慮したニューラル変換を組み合わせることで,パラメータ効率を向上させた。
- レート,歪み,復号時間のトレードオフを有利に改善し,実用的な3DGS圧縮システムへの応用が期待できる。
低ランク拒否ベクトルによる動画アンラーニング [cs.CV]目的:動画生成モデルにおける有害概念の除去
- 動画生成モデルの発展は,高品質なコンテンツ生成を可能にするが,安全性への配慮が不可欠である。
- 既存のアンラーニング手法は,フィルタリングによる回避や,高コストな再学習が必要となる場合がある。
- 再学習を伴わない,効率的かつスケーラブルな有害概念除去手法の確立。
- 提案手法は,安全/不安全プロンプトペアから拒否ベクトルを推定し,モデルの重みを閉形式で更新する。
- コントラスト低ランク分解により,標的概念の選択的な抑制と生成品質の維持を実現している。
- Open-SoraとZeroScopeT2Vモデルにおいて,T2VSafetyBenchとSafeSoraベンチマークでそれぞれ平均36.3%と58.2%の安全性向上を確認した。
対称的フローマッチング:スコアベース生成モデルによる画像生成,セグメンテーション,分類の統一 [cs.CV, cs.AI]目的:画像生成,セマンティックセグメンテーション,分類の統合
- 画像生成技術は,現実的な画像を生成する上で重要な役割を担う。
- 既存手法では,画像生成とセグメンテーション・分類を別々に行う必要があった。
- 一つのモデルで複数のタスクを効率的に処理し,高い性能を実現すること。
- SymmFlowは,セマンティック画像合成において最先端の性能を達成した(CelebAMask-HQでFIDスコア11.9,COCO-Stuffで7.0)。
- SymmFlowは,双方向の一貫性を保ちつつ,生成多様性を確保する対称的な学習目的を導入した。
- セマンティックセグメンテーションおよび分類タスクにおいても,競争力のある結果を示している。
BNMusic:環境ノイズをパーソナライズされた音楽に融合 [cs.SD, cs.AI, eess.AS]目的:環境ノイズを,ユーザー提供のテキストプロンプトに基づき生成されたパーソナライズされた音楽に融合させる手法
- 騒音環境下での快適性向上は重要であり,特に都市生活やオフィス環境において,音環境の質が生活の質に大きく影響する。
- 従来の音響マスキング技術では,ノイズとマスキング音の不整合が課題であり,効果的なマスキングには過剰な音量が必要となる場合がある。
- ユーザーの好みに合わせた音楽を生成し,環境ノイズを自然に融合することで,騒音による不快感を軽減し,より快適な音響体験を提供する。
- 本研究で提案するBNMusicフレームワークは,ノイズの本質を捉えた音楽を生成し,環境ノイズの知覚を低減することに成功した。
- MusicBench,EPIC-SOUNDS,ESC-50を用いた評価実験により,リズムに合わせ,適応的に増幅された音楽セグメントに環境ノイズを効果的に融合できることが示された。
- この手法は,ノイズの目立ちにくさを最小限に抑え,全体的な音響体験を向上させる可能性を秘めている。
SuperPoint-SLAM3:深層特徴,適応NMS,学習ベースのループクロージャによるORB-SLAM3の拡張 [cs.CL, cs.CV, cs.RO]目的:視覚SLAMの精度向上
- SLAMは,ロボットの自律移動や環境理解に不可欠な技術であり,その精度が求められる。
- 従来のSLAMは,特徴点の抽出に手動設計された特徴量を用いるため,多様な環境変化に弱いという課題がある。
- 深層学習を用いた特徴量とループクロージャにより,SLAMのロバスト性と精度を向上させることを目指す。
- 提案手法SuperPoint-SLAM3は,既存のORB-SLAM3を深層特徴で置き換え,精度を大幅に改善した。
- KITTI Odometryベンチマークにおいて,平均並進誤差を4.15%から0.34%へ,平均回転誤差を0.0027 deg/mから0.0010 deg/mへ減少させた。
- EuRoC MAVデータセットでも,全てのシーケンスで誤差をほぼ半減させる結果が得られた。
明白な範囲を超えて:隠れた視覚的不変性の景観を明らかにする勾配不要フレームワーク [cs.CV, cs.NE]目的:視覚ユニットによって符号化される特徴量の組み合わせの解明
- 画像認識のメカニズム理解には不可欠であり,汎化性能向上に繋がる。
- 既存手法では,ユニットの応答が不変である変換の多様性を捉えきれない。
- 視覚ユニットの最も不変な刺激と,敵対的摂動に対する脆弱性を特定する。
- SnSは,既存のアフィン変換よりもピクセル空間で参照画像から遠い不変変換を明らかにした。
- 最適化に使用する画像表現の段階によって,発見された不変画像に違いが見られた。
- L2ロバストネットワークで得られた階層的な不変画像は,深い層でストレッチされると解釈可能性が低下した。
拡散光-Turbo: シングルパスのクロームボールインペインティングによる高速光プローブ推定 [cs.CV, cs.GR, cs.LG]目的:単一の低輝度範囲(LDR)画像からの照明推定
- 実写的な映像制作において,正確な照明表現は重要な課題である。
- 既存手法は,限られたHDRパノラマデータセットに依存し,汎化性能が低いという問題がある。
- 拡散モデルの不安定性を克服し,高速かつ高品質な照明推定を実現すること。
- 本研究では,拡散モデルを用いたクロームボールのインペインティングというシンプルなアプローチで,照明推定を行う。
- 反復インペインティングとLoRAの微調整により,従来のDiffusionLightと比較して60倍高速化し,推定時間を約30秒に短縮した。
- 多様な環境下で説得力のある照明推定結果が得られ,汎化性能の高さが示された。
オンラインナビゲーションの改良:標準定義マップとオンライン知覚マップの関連付けによるレーンレベルの誘導 [cs.CV]目的:標準定義マップとオンライン知覚マップの関連付けによるレーンレベルナビゲーションの実現
- 地理情報システムやナビゲーションにおいて,より詳細な誘導を可能とするレーンレベルナビゲーションの重要性が高まっている。
- 従来のレーンレベルナビゲーションは,動的な道路状況に対応できない高精度なグローバルHDマップに依存しているという課題がある。
- 本研究は,リアルタイムな道路形状を提供するオンライン知覚マップと標準定義マップを関連付けることで,この課題を解決することを目指す。
- オンラインマップアソシエーションデータセット(OMA)を構築し,レーンと道路の対応関係に関するベンチマークデータセットを新たに提供した。
- パス認識型アテンション機構を用いたTransformerモデル(MAT)を開発し,空間的・意味的な変動にも強いトポロジーアライメントを実現した。
- MATは,既存手法と比較して低遅延(34ms)で高性能を発揮し,低コストかつ最新のレーンレベルナビゲーションを可能にすることが示された。
BlindSight:スパース性を活用した効率的な視覚言語モデル [cs.CV]目的:大規模視覚言語モデルの推論効率向上
- 視覚と言語の同時処理は,画像認識や自然言語処理の融合に不可欠である。
- 視覚データの組み込みにより,プロンプト長が増加し,処理速度がボトルネックとなる。
- 注意機構のスパース性を利用することで,推論速度の向上を目指す。
- BlindSightは,入力テンプレートを考慮した注意スパースマスクを用いることで,ランタイムオーバーヘッドなしに推論を高速化する。
- 注意ヘッドを,Dense,Sink,Intra-Image,Intra-Image+Sinkの4つのカテゴリに分類し,スパース性を活用するGPUカーネルを開発した。
- 注意計算において1.8~3.2倍の高速化を実現し,汎用性も高く,精度劣化も平均0.78%程度に抑制された。
有糸分裂像分類のための基盤モデルのベンチマーク [cs.CV]目的:有糸分裂像分類における基盤モデルの性能評価
- 病理画像解析において,十分なラベル付き画像データが不足することが多い。
- 限られたデータでの学習は,モデルの汎化性能やロバスト性を低下させる。
- 基盤モデルとLoRAによる適応で,データ不足とドメイン不一致の問題を克服する。
- LoRA適応された基盤モデルは,線形プロービングと比較して優れた性能を示した。
- 10%の学習データで,ほぼ100%のデータ量で達成可能な性能に匹敵する。
- 最新の基盤モデルのLoRA適応により,未知の腫瘍ドメインにおける性能ギャップが縮小した。
ラベルエラー検出から修正へ:物体検出データセットのためのモジュール型フレームワークとベンチマーク [cs.CL, math.PR, cs.CV, cs.LG]目的:物体検出データセットにおけるラベルエラーの検出と修正
- 物体検出の性能向上には,大規模かつ多様なデータセットが不可欠である。
- データセットに存在するラベルエラーは,学習や評価結果に悪影響を及ぼす可能性がある。
- ラベルエラーを体系的に効率的に修正する手法の確立が求められている。
- 提案手法Recheckedは,既存のラベルエラー検出手法とクラウドソーシングを組み合わせることで,少ない人的コストでラベルエラーを修正できる。
- KITTIデータセットの歩行者クラスにおいて,オリジナルデータに約18%のラベルエラー(欠落または不正確)が存在することが確認された。
- 公開されたベンチマークは,さらなるラベルエラー検出手法の研究開発を促進する。
平面作製による発生形態形成:複合材料の簡略モデルによる実現 [cs.DC, cs.GR, cs.RO]目的:平面シートからの複雑な三次元形状の工学的創出
- ソフトロボティクス等の発展において,精密な制御による三次元形状の設計が不可欠である。
- 従来のモデルは多層構造を扱うため,計算負荷が高く,効率的な設計が困難であった。
- 簡略化されたモデルを用いて,計算負荷を軽減し,設計の自由度を高めることを目指す。
- 刺激応答性シートとキリガミパターン層の組み合わせにより,加熱による収縮と曲げを制御する。
- 多層複合材料を単一層のノードと要素に置き換えることで,計算コストを大幅に削減した。
- シミュレーションと物理プロトタイプにより,ボウル,カヌー,花びら等の様々な形状の実現性を確認した。
幾何学的最大重複を用いた軽量なロバスト点群登録フレームワークGMOR [cs.CV, cs.RO]目的:点群登録の精度と効率の向上
- 3次元点群データは,ロボット工学,自動運転,VR/ARなど様々な分野で活用されており,その応用範囲は広い。
- 従来の点群登録手法は,高外れ値率下での登録に注力する一方,計算コストが高い,または局所最適解に陥りやすいという課題があった。
- 回転のみの枝刈り探索を用いた幾何学的最大重複登録フレームワークを提案し,精度と効率を両立することを目指す。
- 提案手法は,Chaslesの定理を用いて剛体変換を回転軸方向の並進と2次元剛体変換に分解することで計算量を削減。
- 候補となる回転軸を効率的に探索し,残りのパラメータはRMQ問題として決定的に解くことで,高い精度と効率を実現。
- 3DMatch/3DLoMatch,KITTI LiDARデータセットを用いた実験により,既存手法と比較して優れた精度と効率が確認された。
MemoryVLA:ロボット操作のためのビジョン・言語・行動モデルにおける知覚・認知記憶 [cs.RO, cs.CV]目的:ロボット操作における長期的依存性を持つ課題への対応
- ロボット操作は本質的に非マルコフ性を持つため,時間的文脈の考慮が不可欠である。
- 既存のVLAモデルは時間的文脈を軽視しており,長期間にわたるタスクで苦戦する。
- 人間の認知メカニズムに着想を得て,長期的なロボット操作に対応する新たなフレームワークを提案する。
- 提案手法MemoryVLAは,シミュレーションおよび実世界環境における多様なロボットタスクで,最先端のベースラインモデルを上回る成功率を達成した。
- 特に,SimplerEnv-BridgeとMikasa-Roboにおいて顕著な性能向上(それぞれ+14.6%と+11.8%)を示した。
- 実世界タスクにおいても84.0%の成功率を達成し,長期的な依存性を持つタスクでは+26%の改善が見られた。
FLM-Audio:自然な独白が二重訓練によりネイティブな全二重チャットボットを改善する [cs.SD, cs.AI, cs.CL]目的:全二重対話型チャットボットの性能向上
- 自然な対話システムの実現は,人間との円滑なコミュニケーションに不可欠である。
- 既存の全二重モデルは,テキストを単語レベルで音声と同期させるため,言語モデル能力が低下する。
- 連続的な文と「待ち」間隔で構成される自然な独白を導入し,音声との意味的整合性を高める。
- FLM-Audioは,連続的な独白と二重訓練戦略により,優れた応答品質とチャット体験を実現した。
- 従来のモデルと比較して,大幅に少ない学習データで同等の性能を発揮する。
- ネイティブな全二重性を持ち,低遅延で動的なユーザー入力に迅速に対応可能である。
SpiderNets:画像から人間の恐怖を予測するビジョンモデル [cs.AR, cs.CV, cs.AI, cs.HC, cs.LG]目的:恐怖画像からの恐怖予測の自動化
- 恐怖症は一般的であり,視覚刺激を用いた暴露療法が有効である。
- 刺激選択と治療強度を適応させる自動化には,画像からの恐怖予測が必要。
- 個人や刺激間で信頼性が高く汎化する恐怖予測手法の開発。
- 事前学習済みのビジョンモデルが,クモに関する画像の集団レベルでの恐怖度を高い精度で予測。
- 予測は画像内のクモ固有の領域によって駆動されていることが視覚的説明分析で示された。
- トランスフォーマーモデルはデータ効率が高く,約300枚のデータで性能飽和に近づく。
DF-LLaVA:知識注入と衝突駆動型自己反省による合成画像検出のためのMLLMの可能性解放 [cs.CV]目的:合成画像検出における精度向上と説明可能性の提供
- 画像偽造技術の進歩に伴い,画像の真正性を評価し,偽造箇所を特定する重要性が増している。
- 既存の検出モデルは単純な真偽判定に留まり,その根拠に関する説明が不足している点が課題である。
- MLLMの潜在能力を引き出し,専門家モデルを超える検出精度と説明可能性を両立させる。
- DF-LLaVAは,MLLMから潜在的な知識を抽出・注入し,自己反省プロセスを導入することで,高い検出精度を実現した。
- 実験により,DF-LLaVAが専門家モデルを上回る精度と,MLLMならではの説明可能性を兼ね備えていることが確認された。
- 本手法は合成画像検出における精度と説明可能性の向上に貢献する。
敵対的音声攻撃における音声学の影響 [cs.SD, cs.AI, cs.CR, eess.AS]目的:敵対的音声攻撃による話者識別への影響の解明
- 音声認識や話者認証は,セキュリティシステムの重要な要素であり,その堅牢性が求められている。
- 敵対的摂動は,人間の知覚では捉えにくい微細な波形改変によって,音声認識システムを欺く可能性がある。
- 音声学的な特徴に着目し,敵対的攻撃が話者識別にもたらす影響を明らかにすることで,より強固な防御策を開発する。
- 敵対的音声は,母音の中央化や子音の置換といった,音声学的な混乱を利用していることが示された。
- これらの歪みは,音声認識の誤りを引き起こすだけでなく,話者認証に不可欠な音声特徴を劣化させ,話者識別のずれを引き起こす。
- 実験結果から,敵対的音声は転写エラーと話者識別のずれの両方を誘発することが明らかになり,音声学に基づいた防御の必要性が示唆された。
カクテルパーティーでの思考:ターゲットスピーカー自動音声認識のための思考連鎖と強化学習 [cs.SD, eess.AS]目的:ターゲットスピーカー自動音声認識における性能向上
- 騒音環境下での音声認識は,多様な応用において重要であり,特に複数話者の混話環境での性能向上が求められる。
- 混話環境下では,話者分離や音声認識精度の低下が課題であり,従来の技術では十分な性能が得られていない。
- 大規模音声言語モデルのアーキテクチャ内で,思考連鎖と強化学習を用いることで,より高度な音声理解と話者識別を実現する。
- 思考連鎖データセットを構築し,まず通常のデータで学習させた後,思考連鎖データでファインチューニングすることで性能が向上した。
- さらに,選択されたデータを用いて強化学習によって学習させることで,汎化された推論能力が強化された。
- 実験結果は,提案する思考連鎖と強化学習の訓練方法がターゲットスピーカー自動音声認識タスクにおいて有効であることを示している。
CompSpoof:コンポーネントレベルの音声改ざん対策のためのデータセットと共同学習フレームワーク [cs.SD, eess.AS]目的:コンポーネントレベル音声改ざんの検出
- 音声認証システムのセキュリティ確保は重要であり,改ざん攻撃への対策が不可欠である。
- 既存手法は音声全体を対象とし,一部コンポーネントのみが改ざんされた場合に対応できない。
- 音声の各コンポーネントを分離し,個別に改ざんを検出することで,より高度な対策を目指す。
- 新しいデータセットCompSpoofを構築し,音声と環境音の複数の組み合わせを網羅した。
- 分離を強化した共同学習フレームワークを提案し,各コンポーネントにアンチスプーフィングモデルを適用した。
- 提案手法はベースラインを上回り,コンポーネント分離と個別の改ざん検出の重要性を示した。
コア空間における正確かつ効率的な低ランクモデルのマージ [cs.CV, cs.AI]目的:大規模ニューラルネットワークの低ランク適応モデルのマージ
- 近年,LoRA等のパラメータ効率の良い適応技術により,モデルのファインチューニングが容易になった。
- 既存のマージ手法は効率性を損ない,フルサイズの重み行列を扱うため計算コストが高い。
- コア空間を用いることで,効率性を維持しつつ,タスク間の精度を大幅に向上させることを目指す。
- コア空間マージフレームワークは,共通の配置基底内でLoRA適応モデルをマージすることで,低ランク適応の効率を維持する。
- コア空間への投影が情報損失をもたらさないことの形式的な証明と,効率性の利点を示す複雑性分析を提供する。
- ビジョンと言語タスクの両方において,既存のマージ技術を大幅に改善し,最先端の結果を達成する。
異種エージェントを持つ連合学習におけるインセンティブ [cs.GT]目的:異種データ環境下での連合学習におけるインセンティブ設計
- データ利用のプライバシー保護が重要視される中,分散型学習手法として連合学習が注目されている。
- 連合学習では,データ提供者のコストと参加者全体の利益が一致せず,貢献意欲が低下する可能性がある。
- データ提供者の負担を軽減し,連合学習の効率的な協調を促進するメカニズムを構築することを目指す。
- ゲーム理論的枠組みを用いて解析した結果,非協調的な状況下では最適な均衡が存在しない,または高コストになることが示された。
- 貢献ベクトルを最小化する問題はNP困難であるが,対数近似解を提供する多項式時間線形計画法を導出した。
- 貢献度に応じた報酬分配ルールを線形計画法と組み合わせることで,戦略操作が不可能なメカニズムを構築した。
因果適応器:忠実な反事実生成のためのテキスト-画像拡散の制御 [cs.CV, cs.AI]目的:忠実な反事実画像生成のためのテキスト-画像拡散モデルの制御
- 画像生成AIの発展は,創造性や表現の可能性を広げるが,意図した変更が反映されない場合がある。
- 既存手法では,プロンプトの調整に頼るため,属性間の因果関係を考慮した正確な制御が難しい。
- 属性間の因果構造を明示的に利用し,より正確で忠実な反事実画像生成を実現することを目指す。
- Causal-Adapterは,既存のテキスト-画像拡散モデルを改変することなく,反事実画像生成を可能にする。
- Pendulumデータセットにおいて,属性制御の平均絶対誤差を最大91%削減し,高い精度を示した。
- ADNIデータセットでは,MRI画像の高品質な生成においてFIDを87%削減し,現実的な画像を生成した。
YOLO26:リアルタイム物体検出のための主要なアーキテクチャ改良と性能ベンチマーク [cs.CV]目的:YOLO26のアーキテクチャ改良とリアルタイム物体検出における性能評価
- リアルタイム物体検出は,自動運転やロボティクスなど幅広い分野で不可欠な技術である。
- 既存の物体検出モデルは,計算コストが高く,エッジデバイスでの利用が制限される場合がある。
- エッジデバイスや低消費電力デバイスでの効率的なリアルタイム物体検出を実現すること。
- YOLO26は,DFLの削除,NMSフリー推論の採用,ProgLossやSTALの統合,MuSGDオプティマイザの導入など,複数のアーキテクチャ改良を導入している。
- YOLO26は,物体検出,インスタンスセグメンテーション,姿勢推定,指向性検出,分類など,複数のタスクをサポートするマルチタスクフレームワークとして機能する。
- NVIDIA Jetson NanoやOrinなどのエッジデバイスにおけるYOLO26の性能は,YOLOv8やTransformerベースの検出器と比較して優れていることが示された。
IRIS:内在報酬による画像合成 [cs.AI, cs.CL, cs.CV, cs.LG]目的:自己回帰型テキスト-画像生成モデルの性能向上
- 画像生成AIの発展は,多様で高品質なコンテンツ制作を可能にするため重要である。
- 人間の好みのデータ収集はコストが高く,学習データ不足が課題となっている。
- 人間の報酬に頼らず,モデル内部の信号のみで学習を進めることを目指す。
- 自己確信度を最小化することで,画像生成の質が向上することが示された。
- IRISは,内在報酬のみを用いた強化学習フレームワークとして,優れた性能を発揮する。
- IRISは,外部報酬による学習と同等以上の性能を達成し,より詳細な画像を生成する。
テスト時アンカリングによる離散拡散事後サンプリング [cs.LG, cs.CV, stat.ML]目的:離散拡散モデルを用いた事後サンプリング手法
- 近年,画像とテキストを統一的にモデル化できる離散拡散モデルが注目されている。
- 既存手法は,勾配誘導の疎さ,連続的緩和の適用限界,ギブスサンプリングの次元の呪いといった課題を抱える。
- これらの課題を克服し,より高性能な離散拡散サンプラーを開発すること。
- 提案手法APSは,離散埋め込み空間での勾配類似の誘導と適応的デコーディングを実現し,最先端の性能を示す。
- APSは,画像ベンチマークにおける線形・非線形逆問題,学習不要のスタイル変換,テキストガイダンス編集で有効性が確認された。
- 大規模拡散言語モデルへの適用により,質問応答性能の一貫した向上が示された。
VideoNSA:ネイティブスパースアテンションによる動画理解のスケーリング [cs.CV, cs.AI, cs.LG]目的:動画理解における長文脈処理の性能向上
- マルチモーダル言語モデルにおいて,動画理解は重要な課題であり,その性能は文脈長の制限に左右される。
- 既存モデルは,重要なフレームを見逃したり,長時間の動画における一貫性を維持することが困難である。
- ネイティブスパースアテンションを動画言語モデルに適用することで,長文脈動画理解の課題を解決する。
- VideoNSAは,Qwen2.5-VLを216Kの動画指示データセットでEnd-to-End学習させることで実現された。
- 動画に対しスパースアテンション,テキストに対し密アテンションを用いるハイブリッドアプローチにより,長文脈動画理解,時間的推論,空間的ベンチマークにおいて性能が向上した。
- 実験により,128Kトークンへのスケーリング,最適なグローバル・ローカルアテンション配分,タスク依存的な分岐利用パターン,動的なアテンションシンクの誘導が確認された。
FrameOracle:動画における見るべきものと,その見ることの度合いの学習 [cs.CV]目的:動画理解のためのフレーム選択戦略
- 動画理解はAI研究の重要な分野であり,様々な応用が期待されている。
- 既存のフレーム選択手法は,コンテンツの密度やタスクの複雑さに適応できないという課題がある。
- 動画理解における計算コストを削減しつつ,精度を維持・向上させることを目指す。
- FrameOracleは,関連性の高いフレームと必要なフレーム数を予測する軽量なモジュールである。
- 実験の結果,FrameOracleはフレーム数を削減しつつ,既存のVLMsの精度を維持または向上させた。
- 特に,64フレームから13.9フレームへの削減と,1.5%の精度向上が確認された。
Identity-GRPO:強化学習による複数人物の同一性維持動画生成の最適化 [cs.RO, cs.CV]目的:複数人物の同一性維持動画生成の最適化
- 動画生成技術は,エンターテイメントやコミュニケーションなど様々な分野で重要性が増している。
- 既存手法では,複数人物が動的に相互作用する動画において,人物の同一性を維持することが困難である。
- 本研究は,複数人物の同一性維持を向上させる動画生成パイプラインを提案し,その問題を解決することを目指す。
- Identity-GRPOは,人間のフィードバックに基づき,動画の一貫性を評価する報酬モデルを用いる。
- 提案手法は,VACEやPhantomといった既存手法の性能を大幅に向上させ,人物の一貫性指標で最大18.9%の改善を達成した。
- アブレーションスタディにより,アノテーションの品質や設計選択がポリシー最適化に与える影響を評価した。
DialectGen:マルチモーダル生成における方言ロバスト性のベンチマークと改善 [cs.CL, cs.CV, cs.LG]目的:方言を用いたマルチモーダル生成モデルの性能評価と改善
- 言語は地域によって多様な方言を持つため,生成モデルとの対話において方言への対応は重要である。
- 既存の生成モデルは方言表現への対応が不十分であり,性能低下を引き起こす場合がある。
- 方言を理解しつつ標準語の性能を維持できる,マルチモーダル生成モデルの改善を目指す。
- 既存の最先端モデルは,方言表現を含むプロンプトにおいて32.26%から48.17%の性能低下を示す。
- 提案手法は,5つの方言における性能を標準語と同程度に向上 (+34.4%) させることができた。
- 標準語の性能劣化はほぼなく,汎用的なエンコーダーベースの軽減戦略が有効であることが示された。
ドメインシフト下におけるデータ効率的な音響シーン分類のための動的二重信号カリキュラム [cs.SD, cs.AI]目的:音響シーン分類におけるドメインシフト問題への対処
- 音響シーン分類は,様々な環境音を認識する技術であり,多様な応用分野で重要である。
- デバイスの違いによるドメインシフトが性能低下の大きな要因となっている。
- 学習の進捗に応じてカリキュラムを動的に調整し,データ効率を高めることを目指す。
- 提案手法DDSCは,ドメイン不変性信号と学習進捗信号を組み合わせることで,オンラインにカリキュラムを適応させる。
- DDSCは,初期段階ではドメイン不変なサンプルを優先し,徐々にデバイス固有のケースを重視する。
- DCASE 2024 Task 1の公式プロトコルにおいて,多様なベースラインでDDSCはクロスデバイス性能を改善した。
TopSeg:データ効率的な心音セグメンテーションのためのマルチスケールトポロジーフレームワーク [cs.SD, cs.AI]目的:データ効率的な心音セグメンテーションのためのトポロジー表現中心のフレームワーク
- 心音解析は,心疾患の早期発見や診断に不可欠であり,医療現場での応用が期待されている。
- 深層学習は高い精度を達成するものの,大量の専門家によるラベル付きデータが必要となり,汎用性に課題がある。
- ラベル付きデータが限られた状況下でも,効率的かつ汎用性の高い心音セグメンテーションを実現すること。
- TopSegは,マルチスケールトポロジー特徴量を用いることで,従来のスペクトログラムやエンベロープ入力よりも優れた性能を発揮した。
- 特に,データ量が少ない場合において,その効果が顕著であり,限られたデータでの学習においても高い精度を実現した。
- 本研究の結果は,トポロジーに基づいた表現が,データ効率的かつクロスデータセットでの心音セグメンテーションに有効であることを示唆している。
Metis-SPECS:自己蒸留による嗜好ベースのコールドスタートを通じたマルチモーダル学習の分離 [cs.LG, cs.AI, cs.CL, cs.CV]目的:マルチモーダル学習におけるコールドスタート時の課題解決
- 視覚言語モデルへの強化学習の応用が盛んになり,その性能向上が期待されている。
- 従来のコールドスタート手法は,タスク解決と出力形式の学習が混在し,汎化性能が低下しやすい。
- 嗜好ベースの学習による汎化性能向上と,深層推論と浅層学習の分離を目指す。
- 自己蒸留による内部的嗜好データペアの生成により,教師データや手動アノテーションへの依存を回避した。
- 浅層で汎用的な形式基準(フォーマット,構造,スタイル)に焦点を当てた嗜好ベースの学習が有効であることを示した。
- MEGA-Benchで4.1%,MathVistaで12.2%の性能向上を達成し,学習の安定化と探索能力の向上に貢献した。
LoCoT2V-Bench:長編かつ複雑なテキストから動画生成のベンチマーク [cs.CV, cs.AI]目的:長編動画生成における評価基準とフレームワーク
- 動画生成技術の発展は,エンターテインメントや教育など多岐にわたる分野への応用が期待される。
- 長編動画生成において,複雑なテキストプロンプトに対応し,高品質な動画を生成する評価方法が不足している。
- 本研究は,長編動画生成モデルの能力を多角的に評価するためのベンチマークと評価フレームワークを開発すること。
- LoCoT2V-Benchは,現実世界の動画から収集した,シーン遷移やキャラクター設定を含む複雑なプロンプトで構成される。
- LoCoT2V-Evalは,知覚的品質,テキスト-動画の一致,時間的品質,動的品質,期待実現度を多角的に評価する。
- 実験結果から,既存モデルは知覚的品質は高いものの,詳細なテキスト-動画の一致やキャラクターの一貫性に課題があることが示された。
NegoCollab:異種協調知覚のための共通表現交渉アプローチ [cs.CV]目的:異種協調知覚における共通表現の獲得と性能向上
- 多エージェント環境において,知覚範囲の拡大とタスク性能の向上が期待される分野である。
- 異なる知覚モデルを持つエージェント間では,中間特徴量のドメインギャップが生じ,協調性能が低下する。
- ドメインギャップを低コストで解消し,エージェント間の適切な表現揃えを実現することを目指す。
- 提案手法NegoCollabは,各エージェントのローカル表現から共通表現を導出する交渉者機構を導入する。
- これにより,多様なローカル表現間の固有のドメインギャップを効果的に削減できることが示された。
- 構造アラインメント損失とプラグマティックアラインメント損失の導入により,マルチモーダル情報を含む共通表現へのローカル表現のアラインメントが改善される。
動的な反射:テキストとのアラインメントによる動画表現の探求 [cs.CV]目的:動画とテキストの表現アラインメントに関する研究
- 異なるモダリティ間の表現アラインメントは,様々なデータ型におけるエンコーダの構造的類似性と下流タスク能力の洞察を提供する。
- 画像とテキストのアラインメント研究は進展しているが,動画データの時間的な性質は十分に探求されていない。
- 最先端の動画エンコーダの性能を評価するための,動画とテキストのアラインメントの有用性を示す。
- クロスモーダルアラインメントは,テスト時に提供される視覚情報(静止画 vs. 多フレーム動画)とテキスト情報(単一キャプション vs. 複数文)の豊富さに大きく依存することが示された。
- 提案されたテスト時スケーリング則は,この振る舞いを捉え,実験結果に対して高い予測能力を示す。
- セマンティックアラインメントと下流タスクの性能との間に相関関係が見られ,テキストエンコーダに対する強いアラインメントは汎用的な動画表現と理解に関連する可能性がある。
価値最大化入札者の協調 [cs.GT]目的:オンライン広告プラットフォームにおける複数自動入札者の協調問題
- オンライン広告市場は競争が激しく,広告効果の最大化が重要である。
- 自動入札において,入札者間が独立して行動するため,全体として最適化されていない。
- 複数入札者の協調による入札戦略を確立し,広告効果を向上させる。
- 理論モデルにおいて,最高価値入札者のみが競争に参加し,他の入札者が協調することで,独立入札よりも優位であることが示された。
- シミュレーション結果からも,協調入札がRoS遵守率と総価値の両方を向上させることが確認された。
- 協調入札は,オンラインオークションにおいて理論的にも実践的にも有効であることが示唆される。
オムニビュー:マルチビュー画像に基づく統一3Dモデルにおける生成が理解を促進する仕組みの解明 [cs.CV]目的:マルチビュー画像に基づく3Dシーン理解と生成の相乗効果
- 3Dシーンの理解は,ロボティクスや拡張現実など多くの分野で不可欠である。
- 既存手法では,3Dシーン理解と生成が分離しており,全体的な理解が不十分である。
- 3Dシーン理解と生成を統合し,相互に促進するモデルを構築すること。
- オムニビューは,3Dシーン理解,新規視点合成,幾何推定を同時にモデル化することで,高い性能を実現した。
- VSI-Benchベンチマークにおいて,既存の3D理解モデルを上回る最先端のスコア55.4を達成した。
- 新規視点合成と3Dシーン生成においても優れた性能を示し,生成が理解を促進する原理を実証した。
MACEval:大規模モデルの継続的評価のためのマルチエージェントネットワーク [cs.CV]目的:大規模モデルの動的な評価
- 大規模言語モデルの性能評価は,その能力を測る上で不可欠である。
- 既存の評価ベンチマークは,データ汚染や維持・適応の困難さといった課題を抱えている。
- MACEvalは,これらの課題を解決し,より効率的で信頼性の高い評価手法を提供する。
- MACEvalは,役割分担,データ生成,評価ルーティングを行うマルチエージェントネットワークを用いて,大規模モデルを継続的に評価する。
- 23のモデルに対する実験により,MACEvalの有効性が確認された。
- MACEvalは,評価プロセスを簡素化し,オーバーヘッドを大幅に削減する。
問題提起の学習:大規模推論モデルのための推論駆動型・ソルバー適応型データ合成 [cs.AI, cs.CV]目的:大規模推論モデルの訓練のためのデータ合成手法
- 推論モデルの性能向上には大量の学習データが必要であり,データ収集の効率化が課題である。
- 既存手法では,ソルバーの能力を考慮しない問題生成や,問題の難易度調整の複雑さが問題となっている。
- ソルバーの能力に適応し,推論に基づいた問題生成により,より効果的な学習データを提供する。
- 提案手法は,問題設計における中間的な思考過程(CoT)を組み込むことで,問題生成の質を向上させている。
- ソルバーからのフィードバックを報酬信号として活用し,問題の難易度を調整し,ソルバーの能力限界付近の問題を生成する。
- 10の数学および汎用推論ベンチマークにおいて,平均で3.4%の性能向上を達成し,言語モデルと視覚言語モデルの両方で汎化性能を示した。
A2GC:幾何学的制約を用いた非対称集約による局所集約記述子 [cs.CV]目的:視覚的場所認識におけるマッチング精度向上
- ロボットナビゲーション等において,場所の特定は重要であり,その精度が求められる。
- 既存手法では,特徴量とクラスタ中心の分布差を考慮できておらず,性能が限界を迎えている。
- 分布差に適応的に対応することで,マッチング精度とロバスト性を向上させる。
- 提案手法A2GC-VPRは,行・列正規化平均と個別周辺較正により非対称マッチングを実現した。
- 幾何学的制約を組み込むことで,空間的に近い特徴量を同一クラスタに促し,空間認識能力を強化した。
- MSLS,NordLand,Pittsburghのデータセットで,既存手法を上回る優れた性能が確認された。
大規模グラフに基づく脳血管解析の自動化フレームワーク [cs.CV, cs.CY]目的:大規模脳血管解析のための自動化フレームワーク
- 脳血管構造の解析は,脳疾患の理解と診断に不可欠であり,その重要性は高い。
- 既存手法は手作業による解析が多く,大規模データへの適用が困難であった。
- 脳血管ネットワークの定量的な特徴抽出を自動化し,効率的な解析を実現する。
- CaravelMetricsは,脳血管形態をグラフ表現でモデル化する自動化フレームワークである。
- IXIデータセット(570例)の解析により,年齢や性別による血管構造の変化を再現性良く捉えた。
- 教育水準と血管複雑性の関連性も確認され,先行研究の結果と一致した。
ViTの完全な表現を活用するVision Action Transformer [cs.CV, cs.RO]目的:ロボット学習における視覚と行動の融合による高性能な模倣学習モデル
- ロボット学習において,視覚情報は重要な役割を担うため,高性能な視覚認識技術が不可欠である。
- 既存のVision Transformer(ViT)は最終層の出力のみを使用しており,潜在的な表現力を十分に引き出せていない。
- ViTの全層の情報を活用することで,より高度な視覚と行動の融合を実現し,ロボットのタスク成功率向上を目指す。
- 提案手法Vision Action Transformer (VAT)は,4つのLIBEROベンチマークにおいて98.15%という高い平均成功率を達成した。
- 既存手法OpenVLA-OFTを大きく上回り,ロボットの模倣学習における新たな最高水準を確立した。
- ViTの「表現軌跡」を最大限に活用することの重要性を示し,ロボットポリシーの発展に貢献する。
AlignGemini:タスクとモデルのアライメントによる汎用的なAI生成画像検出 [cs.CY, cs.HC, cs.CL, cs.CV, cs.AI]目的:AI生成画像検出の汎用性向上
- AI生成画像の増加に伴い,その検出技術の重要性が増している。
- 既存の画像検出モデルは,幻覚や汎化性能の低さといった課題を抱えている。
- タスクとモデルのアライメントにより,AI生成画像検出の精度と汎用性を高める。
- 視覚言語モデル(VLM)と従来の画像モデルは,それぞれ異なる特性を持つことが示された。
- AI生成画像検出を,意味的一貫性のチェックとピクセルアーティファクト検出の2つのサブタスクに分割するアプローチが有効である。
- AlignGeminiは,それぞれのサブタスクに特化したモデルを組み合わせることで,平均精度を9.5%向上させた。
正規化ラドン累積分布変換の一般化:限られたデータ認識への応用 [math.NA, cs.CV, cs.IT, cs.NA, math.IT]目的:限られたデータにおける画像認識のための特徴表現
- 画像認識は,コンピュータービジョンの根幹であり,多様な応用分野で不可欠である。
- 限られたデータ環境下では,従来の認識手法は性能が低下しやすいという課題がある。
- アフィン変換に不変な特徴表現を構築し,限られたデータ環境での認識精度向上を目指す。
- ラドン累積分布変換(R-CDT)の正規化を一般化することで,柔軟性を高めた。
- 多次元および非ユークリッド空間における一般化されたラドン変換の利用を検討した。
- 提案手法は,特定の変換に対して不変であり,特徴空間での線形分離を可能にすることを示した。
ReGlove:手首装着型ビジョンによる日常生活活動支援のためのソフト空気圧グローブ [cs.CY, cs.RO, cs.CV]目的:日常生活活動支援のためのソフト空気圧グローブシステム
- 上肢機能障害は世界中で多くの人々を苦しめており,支援技術の需要は高い。
- 既存の支援技術は高価であるか,信頼性の低い生体信号に依存しているという課題がある。
- 手首装着型ビジョンを活用し,安価で信頼性の高い上肢支援システムの実現を目指す。
- 本研究で開発されたReGloveは,96.73%の把持認識精度と40ミリ秒以下の低遅延を実現した。
- 標準的な評価において,YCBオブジェクト操作で82.71%の成功率,27種類の日常生活活動で信頼性の高い性能を示した。
- 総コスト250ドル以下で,従来のEMG制御デバイスを利用できない人々へのアクセス向上に貢献する基盤となる。
