arXiv雑要約
画像・音声 - 2026/02/03 公開
大規模ビジョン言語モデルにおける美術作品の説明 [cs.IR, cs.CV]目的:美術作品の説明生成
- 画像とテキストを理解するAIの発展は,人間とAIのコミュニケーションを豊かにする上で重要である。
- 大規模言語モデルは説明能力を持つが,美術作品に関する知識の理解度と説明への統合が不明である。
- 大規模言語モデルの美術作品理解と説明能力を評価し,改善策を検討する。
- 本研究では,美術作品の説明生成タスクと評価データセットを提案し,大規模言語モデルの知識理解と活用能力を定量的に評価した。
- 実験の結果,大規模言語モデルは言語情報と視覚情報の統合に苦戦し,特に画像からの知識獲得に限界があることが示された。
- このタスクは,大規模言語モデルが美術作品に関する事前知識を持っていることを前提とし,その知識の活用能力を評価するのに適している。
InterDreamer:ゼロショットによるテキストから3D動的ヒューマン・オブジェクトインタラクション [cs.CV, cs.AI]目的:テキストに基づいた3Dヒューマン・オブジェクトインタラクション生成
- 人間行動理解は,ロボット工学やバーチャルリアリティなど,様々な分野で重要性を増している。
- 大規模なインタラクションデータセットの不足が,3D動的ヒューマン・オブジェクトインタラクション生成の課題となっている。
- テキストとインタラクションデータのペアによる直接的な学習なしに,インタラクション生成を可能にすること。
- InterDreamerは,大規模言語モデルとテキストからモーションへのモデルを組み合わせることで,インタラクションの意味とダイナミクスを分離し,ゼロショットでの生成を実現する。
- 物理シミュレーションを理解するワールドモデルを導入し,低レベルのインタラクションダイナミクスの複雑さを克服する。
- BEHAVEとCHAIRSデータセットを用いた実験により,テキスト指示に沿った現実的で一貫性のあるインタラクションシーケンス生成能力が示された。
Mask2Former様式モデルのための効率的なTransformerエンコーダ [cs.RO, cs.CV, cs.LG]目的:Mask2Former様式モデルにおけるTransformerエンコーダの効率化
- 画像セグメンテーション技術は,自動運転や医療診断など幅広い分野で不可欠であり,高精度化が求められている。
- Transformerベースのモデルは高性能だが,計算資源を大量に消費するため,実用デバイスへの実装が課題となる。
- 入力画像に応じてエンコーダの層数を動的に調整することで,計算コストを削減しつつ性能を維持することを目指す。
- 提案手法ECO-M2Fは,入力画像に応じてエンコーダの層数を自己選択することで,計算コストを削減する。
- 実験結果から,ECO-M2Fは性能を維持しつつ,エンコーダの計算コストを削減できることが示された。
- 本手法は,様々な計算資源環境への適応が可能であり,セグメンテーション以外の物体検出にも拡張できる。
単眼画像を用いた船載ドローンの姿勢推定のための深層Transformerネットワーク [cs.DL, cs.CV, cs.AI, cs.RO, eess.IV]目的:船に対するドローンの相対6次元姿勢推定
- ドローン技術は,海上輸送や安全保障における活用が期待されており,自律航行の実現が重要である。
- 正確な姿勢推定は,ドローンの自律航行において不可欠だが,環境光の変化や複雑な背景に弱いという課題がある。
- 船載環境におけるドローンの安定した姿勢推定と,自律的な着陸・航行への応用を目指す。
- 提案手法では,船の各部位の2Dキーポイントを検出し,それらを用いて6次元姿勢を推定する深層Transformerネットワークを開発した。
- 合成データおよび実機飛行実験の結果,様々な照明条件下でロバストかつ高精度な姿勢推定が可能であることが示された。
- 合成データでは約0.8%,飛行実験では約1.0%の船との距離に対する位置推定誤差を達成した。
継続学習のための回顧的特徴推定 [cs.LG, cs.CV]目的:継続学習における,過去知識の忘却抑制
- 深層学習モデルは,変化するデータストリームへの継続的な学習能力が求められる。
- 既存の深層学習モデルは,過去の知識を忘却する災厄的忘却の問題を抱えている。
- 本研究は,回顧的特徴推定という新たな手法で,災厄的忘却を軽減することを目指す。
- 本研究では,回顧的特徴推定(RFE)という手法を提案し,過去タスクの特徴空間への特徴量の逆変換を行うことで,知識の忘却を抑制する。
- RFEは,小さな特徴写像ネットワーク(レトロスペクターモジュール)の連鎖を利用して,この逆変換を実現する。
- CIFAR10,CIFAR100,Tiny ImageNetにおける実験により,RFEが既存手法と比較して有効であることが示された。
構造的ひび割れセグメンテーションのための軽量局所パターン認識と長距離依存性の階層的カスケード融合 [cs.CV, cs.AI]目的:構造的ひび割れセグメンテーションにおける高精度化と計算効率の向上
- インフラの老朽化が進み,構造物のひび割れ検査は安全管理上重要である。
- 既存手法は局所的なテクスチャとピクセル間の依存関係の統合が不十分で,セグメンテーション精度が低い。
- 軽量なネットワーク構造で,高精度かつ効率的なひび割れセグメンテーションを実現することを目指す。
- 提案手法 CrackSCFは,既存手法と比較して,複数のデータセットで高いF1スコアとmIoUを達成した。
- 特に,新規に作成したTUTデータセットにおいて,F1スコア0.8382,mIoU0.8473という良好な結果が得られた。
- CrackSCFは,パラメータ数がわずか4.79Mであり,エッジデバイスでの実用化に適している。
MCTR:複数カメラ追跡Transformer [cs.CV]目的:複数カメラにおける複数オブジェクトの検出と追跡
- 現実世界の様々な応用において重要な役割を果たすため。
- 単眼カメラ追跡はEnd-to-End手法が主流だが,複数カメラ追跡は依然としてヒューリスティックな手法に依存している。
- 複数カメラ環境下でのEnd-to-End追跡を可能とし,既存手法の限界を克服すること。
- 本研究では,複数カメラにおける検出と追跡を統合的に行うTransformerモデルMCTRを提案した。
- MCTRは,各カメラからの検出結果と埋め込み表現を活用し,追跡対象オブジェクトに関するグローバルな情報を保持する追跡埋め込みを更新する。
- 確率的な関連付けにより,End-to-Endの学習を可能にする微分可能な損失関数を設計し,MMPTrackおよびAI City Challengeデータセットで有効性を示した。
逐次変動正則化を用いた不変表現誘導によるマルチモーダル感情復号 [cs.LG, cs.AI, cs.CV]目的:マルチモーダル感情分析における一貫性のある感情表現の獲得
- 感情分析は,人間とコンピュータの自然な対話を可能にする上で不可欠である。
- 異なるモダリティ間での感情表現の一貫性維持が課題となっている。
- 時間的な感情変動による不安定性を抑制し,予測性能の向上を目指す。
- 提案手法では,モダリティ不変融合機構により安定したクロスモーダル表現を獲得する。
- 逐次変動正則化項を導入し,逆伝播時の学習軌跡を制御することで時間的な安定性を高める。
- 3つの公開データセットでの実験により,提案手法の有効性が検証された。
EgoFSD:不確実性ノイズ除去と反復的洗練を用いた効率的なエンドツーエンド自己運転のためのエゴセントリックフルスパースパラダイム [cs.RO, cs.CV, cs.RO]目的:エンドツーエンド自己運転のための,エゴセントリックフルスパースパラダイムの提案
- 自動運転技術は,交通事故の削減や移動の効率化に貢献し,社会に大きな利益をもたらす重要な分野である。
- 従来のE2E-ADは,冗長な情報伝達やラスタライズされたシーン表現学習により,性能と効率が十分でないという課題があった。
- エゴセントリックな設計とスパース表現を用いることで,効率性と性能を向上させ,より安全な自動運転を実現することを目指す。
- 提案手法EgoFSDは,nuScenesとBench2Driveデータセットにおいて,UniADと比較して平均L2誤差を59%削減し,衝突率を92%削減した。
- EgoFSDは,スパースな知覚,階層的なインタラクション,反復的なモーションプランナーから構成され,効率的な自己運転を実現する。
- 位置レベルのモーション拡散と軌道レベルの計画ノイズ除去により,不確実性のモデル化を強化し,学習の安定性と収束速度を向上させた。
生体医学応用における光音響イメージング再構成と定量解析の進歩 [cs.CV]目的:生体医学応用を目的とした光音響イメージングの再構成と定量解析に関する進歩
- 光と音響の利点を併せ持つ光音響イメージングは,安全性が高く,生体組織の深部を可視化する技術として重要である。
- 光音響イメージングは,分解能と浸透深度のトレードオフ,そして高速化という課題を抱えており,臨床応用に至っていない。
- 本研究は,光音響イメージングの画質向上と高速化を目的とし,再構成技術やアーチファクト軽減法の開発に取り組む。
- 光音響コンピューテッドトモグラフィー(PACT),光音響顕微鏡(PAM),光音響内視鏡(PAE)の原理と特徴,そしてそれぞれの限界について評価した。
- PACT,PAM,PAEにおける画像再構成とアーチファクト軽減において,従来の技術と深層学習(DL)の有効性が示された。
- 組織内のヘモグロビン濃度や酸素飽和度といった生理学的パラメータの定量分析における最近の進歩についても議論した。
拡散に基づく層ごとの意味的再構成による教師なし外れ値検出 [cs.CV, cs.LG, eess.IV]目的:教師なし外れ値検出における性能向上
- 機械学習システムの安全性確保のため,未知データ検出は不可欠である。
- 再構成誤差に基づく手法は有効だが,再構成能力とコンパクトな表現の両立が課題である。
- 拡散モデルを用いて,潜在空間での特徴再構成による識別能力向上を目指す。
- 拡散モデルの潜在空間での再構成能力を活用し,IDサンプルとOODサンプルを識別する。
- 多層的な意味特徴抽出戦略により,識別力の高い特徴表現を構築する。
- 複数のベンチマークで最先端の検出精度と速度を達成した。
カテゴリに依存しないポーズ推定のためのエッジ重み予測 [cs.CV]目的:カテゴリに依存しないポーズ推定におけるキーポイント局所化の最適化
- 多様な物体カテゴリに対するポーズ推定は,ロボティクスやコンピュータビジョンの重要な課題である。
- 既存手法では,静的なポーズグラフと均一なエッジ重みを用いるため,性能が制限される場合がある。
- エッジ重みを予測することで,ポーズグラフの表現力を高め,局所化精度を向上させることを目指す。
- 提案手法EdgeCapeは,MP-100ベンチマークにおいて,1-shot設定で最先端の結果を達成した。
- また,5-shot設定においても,同規模の手法の中で優れた性能を示した。
- Markovian Structural Biasの導入により,グローバルな空間的依存関係の捕捉能力が向上した。
HI-SLAM2:幾何構造を考慮したガウスSLAMによる高速単眼シーン再構成 [cs.RO, cs.CV]目的:高速かつ高精度な単眼シーン再構成
- SLAMはロボットの自律移動や拡張現実において,環境理解の基盤技術として重要である。
- 既存のニューラルSLAMや3DGSベースSLAMは,レンダリング品質と幾何学的精度でトレードオフが生じやすい。
- 単眼画像から高品質な再構成を可能にし,SLAMの精度と効率を向上させる。
- 本研究では,容易に入手可能な単眼画像の特徴と学習ベースのSLAMを組み合わせることで,幾何構造推定能力を向上させた。
- 3Dガウススプラッティングをコアマップ表現として採用し,効率的なシーンモデリングを実現し,リアルタイム処理を可能にした。
- Replica,ScanNet,ScanNet++を用いた実験により,既存のニューラルSLAMやRGB-DベースSLAMよりも優れた性能を実証した。
Feat2GS:ガウススプラッティングによる視覚基盤モデルの探求 [cs.CL, cs.CV]目的:視覚基盤モデルの3次元認識能力の評価
- 視覚基盤モデルは大規模データセットで学習されるが,その3次元世界理解度は不明確である。
- 既存の研究は,テクスチャを考慮せず,3次元データに依存するため,評価の規模と多様性に限界がある。
- 3次元データを必要とせず,視覚基盤モデルのフィーチャから3次元ガウス表現を読み出すことで,3次元認識能力を評価する。
- Feat2GSを用いることで,様々な視覚基盤モデルの3次元認識能力を広範に評価できることが示された。
- 3次元認識能力に影響を与える要素が特定され,より3次元認識能力の高いモデル開発に貢献する。
- Feat2GSは,視覚基盤モデルの評価ツールとして,また新規視点合成のシンプルな基盤として有用である。
意味的ガイド付き動的視覚プロトタイプ洗練による構成的ゼロショット学習 [cs.CV]目的:未観測状態-物体ペアの認識
- 画像とテキストを結びつけ,未知の概念を理解する能力が求められている。
- 既存手法では,意味情報に基づいたプロトタイプが視覚的特徴空間で識別しにくい。
- 未観測ペアに対するバイアスを軽減し,視覚的識別性能を向上させる。
- Duplexフレームワークは,二重プロトタイプ学習と動的ローカルグラフ洗練を組み合わせる。
- 視覚プロトタイプをミニバッチのローカルグラフ上で動的に集約することで,詳細な視覚的証拠を取り入れ,意味構造を保持する。
- MIT-States,UT-Zappos,CGQAデータセットで高い性能を示し,構成的な汎化能力を実証した。
3Dダイナミクスを考慮した操作:3D予測能力を備えた操作ポリシー [cs.CL, q-bio.GN, cs.CV, cs.RO]目的:3Dダイナミクスを考慮した操作フレームワークの開発
- ロボット操作において,環境の理解は重要な課題である。特に,奥行き方向の動きを含む複雑なタスクでは重要性が増す。
- 従来の視覚ダイナミクスのモデルは2Dに限られ,奥行き方向の動きを伴う操作タスクにおいて汎用性に欠けるという課題があった。
- 3D環境モデルとポリシー学習を統合し,3D予測能力を操作ポリシーに付与することで,よりロバストな操作を実現することを目指す。
- 提案手法では,深度推定,RGB-D予測,3Dフロー予測という3つの自己教師あり学習タスクを導入し,3D予測能力を獲得した。
- シミュレーションおよび実環境での実験により,3D予測能力が操作パフォーマンスを大幅に向上させることが示された。
- 推論速度を犠牲にすることなく,操作ポリシーの性能を向上させることが確認された。
自律運転を形作るワールドモデルの役割:包括的な調査 [cs.CV]目的:自律運転におけるワールドモデルの現状と将来展望
- 自動運転技術は,交通渋滞の緩和や交通事故の削減に貢献し,社会に大きな変革をもたらす可能性がある。
- 現在の自動運転システムは,予測不可能な現実世界の複雑な状況への対応が課題となっている。
- ワールドモデルは,運転環境の変化を予測し,より安全で信頼性の高い自動運転を実現するための鍵となる。
- 本調査は,ワールドモデルの生態系を包括的にレビューし,主要なシミュレータ,データセット,評価指標を整理している。
- 既存のアプローチを予測するシーンのモダリティ(動画,点群,占有グリッドなど)に基づいて分類し,自動運転研究への応用をまとめている。
- 現在の研究の限界を議論し,将来の方向性を示唆することで,ワールドモデルのさらなる発展と普及に貢献する。
エントロピーレンズ:LLMにおける意思決定戦略の解明 [cs.CL, cs.LG, cs.AI, cs.CV]目的:LLMにおける意思決定戦略の解明
- LLMの性能向上は,その内部メカニズムの理解に依存する。
- トークン空間の動的挙動は高次元で分析が困難である。
- 残差ストリームの動的挙動を低次元信号に集約する。
- エントロピーレンズは,各層のトークン予測ダイナミクスを捉えるスカラー指標を提供する。
- LLMファミリー固有の展開と剪定戦略が,予測ダイナミクスを特徴づけることが示された。
- 展開戦略は通常,ダウンストリーム性能に重要な影響を与える。
InterMimic:物理ベース人間と物体の相互作用に向けた汎用全身制御 [cs.CV, cs.GR, cs.RO]目的:多様な人間と物体の相互作用を学習する汎用的な全身制御ポリシー
- 物理ベースのシミュレーションは,現実的な人間動作の再現に不可欠であり,ロボット工学や仮想現実などに応用が期待される。
- モーションキャプチャデータの不正確さや物体の形状の多様性により,複雑な人間と物体の相互作用のシミュレーションは困難である。
- 不完全なモーションキャプチャデータから,多様な物体との相互作用をロバストに学習できる制御フレームワークを開発する。
- InterMimicは,まず教師ポリシーでモーションキャプチャデータを模倣・修正し,次にその教師を蒸留して学生ポリシーを学習させる。
- 学生ポリシーは,教師からのオンライン指導と高品質な参照により,単なる模倣を超えた高品質な解を達成する。
- 実験により,InterMimicが複数のHOIデータセットで現実的かつ多様な相互作用を生成し,ゼロショットで汎化することが示された。
Helios 2.0:イベントセンサーベースのウェアラブル向け,堅牢かつ超低消費電力のジェスチャー認識システム [cs.HC, cs.CV, cs.LG]目的:ウェアラブルデバイス用ジェスチャー認識システムの開発
- ウェアラブル技術の発展は,ハンズフリーでの操作を可能にし,ユーザーエクスペリエンスを向上させる上で重要である。
- 既存のジェスチャー認識システムは,消費電力が高く,多様なユーザーや環境への適応が課題であった。
- 本研究は,低消費電力で直感的かつ汎用性の高いジェスチャー認識システムを実現し,ウェアラブルデバイスでの実用化を目指す。
- イベントカメラを用いたシステムにより,リアルタイムかつ超低消費電力でのジェスチャー認識を実現した。
- シミュレーション技術を活用し,多様なユーザーや環境に対応可能なロバストなモデルを構築した。
- Qualcomm Snapdragon Hexagon DSP上で6-8mWの消費電力でF1スコア80%以上を達成し,既存技術を大きく上回る性能を示した。
SuperCarver:高精細な表面ディテール生成のためのテクスチャ一貫性のある3Dジオメトリ超解像 [cs.CV]目的:3Dメッシュのジオメトリ超解像による表面ディテールの付加
- 3Dコンテンツ制作において,高品質なメッシュアセットの作成は重要である。特に,リアリティの高い表面表現は不可欠である。
- 既存の3Dメッシュのジオメトリ品質を向上させることは難題であり,手作業によるモデリングに依存する状況が続いている。
- SuperCarverは,テクスチャ情報を活用し,粗いメッシュにリアルな表面ディテールを効率的に付加することを目指す。
- SuperCarverは,入力メッシュから多視点画像をレンダリングし,ノイズ耐性のある逆レンダリングスキームを用いることで,ジオメトリの超解像を実現する。
- 提案手法は,詳細が欠損したノーマルマップと詳細なノーマルマップのペアで学習された拡散モデルを活用し,テクスチャと一貫性のある表面ディテールを生成する。
- 実験の結果,SuperCarverは既存の低品質アセットの品質向上や,高ポリゴンメッシュのモデリング作業の効率化に貢献できることが示された。
ナッシュ均衡制約を持つ大規模自動入札 [cs.LG, cs.AI, cs.GT]目的:オンライン広告における自動入札の最適化
- オンライン広告の効率化は,広告主にとって収益最大化に不可欠である。
- 既存の自動入札システムは,広告主間の戦略的相互依存性を考慮していない。
- ナッシュ均衡制約を導入し,プラットフォーム全体の最適化を目指す。
- 本研究では,ナッシュ均衡制約を持つ自動入札フレームワーク(NCB)を提案した。
- NCBは,広告主レベルの安定性とプラットフォーム全体の最適性を両立させる。
- 理論的に保証された収束性を持つペナルティベースのアルゴリズムを開発し,実用性も確認した。
CAARMA:敵対的混合正則化によるクラス拡張 [cs.CL, cs.SD, cs.CL, cs.LG]目的:音声認識におけるゼロショット学習のためのクラス拡張手法
- 音声認識は,未知の音声に対する識別能力が求められるため,汎化性能が重要となる。
- 既存の音声データセットは,十分なクラス多様性を有していない場合が多く,汎化性能の向上を阻害する。
- データ拡張によって訓練クラス数を増やし,汎化性能の向上を図ることを目的とする。
- CAARMAは,埋め込み空間でのデータ混合によって合成クラスを生成するクラス拡張フレームワークである。
- 合成クラスの信頼性を高めるため,合成クラスと実クラスのカテゴリ的区別を最小化する敵対的洗練メカニズムを採用している。
- 複数の音声認識タスクにおいて,ベースラインモデルと比較して平均で8%の性能向上を達成した。
DenseFormer:条件付き拡散モデルによる疎な深度と画像からの高密度深度マップ学習 [cs.CV, cs.AI]目的:疎な深度マップとRGB画像からの高密度深度マップ生成
- 自動運転において,周囲環境の正確な把握は不可欠であり,深度情報はその重要な要素である。
- 既存手法は空間伝播ネットワークに依存し,計算コストが高く,精度の向上が課題となっていた。
- 拡散モデルを用いて初期深度分布を反復的に洗練することで,高精度な深度マップの生成を目指す。
- 提案手法DenseFormerは,拡散モデルを深度補完タスクに統合した新規なアプローチである。
- 特徴抽出モジュールと深度洗練モジュールにより,疎な深度マップとRGB画像から効率的に特徴を抽出し,深度マップの精度を向上させている。
- KITTIデータセットを用いた実験により,DenseFormerが従来の深度補完手法を上回る性能を示すことが確認された。
マルコフ的公平性の学習における時間割引の重要性 [cs.CL, cs.AI, cs.GT, cs.MA]目的:長期的視野でのマルコフ的公平性学習における時間割引の役割
- マルチエージェントシステムにおける資源配分において,公平性は重要な検討課題である。
- 既存手法は多くが静的な問題として扱っており,時間的ダイナミクスを考慮しない。
- 時間割引を導入し,記憶空間の爆発的増加を抑制することで,長期的視野での公平性学習を可能とする。
- 過去の資源配分を時間割引することで,記憶空間を有限に保ち,学習アルゴリズムのスケーラビリティを向上させる。
- 時間割引は,即時的な公平性と完全な記憶に基づく公平性の間のトレードオフを調整する。
- 実験により,完全な記憶に基づく手法が失敗する状況において,時間割引が有効であることが示された。
SignX:コンパクトな姿勢情報豊富な潜在空間における連続手話認識 [cs.CL, cs.DB, cs.IR, cs.CV, cs.CL]目的:連続手話認識のためのフレームワーク
- 手話は聴覚障害者にとって重要なコミュニケーション手段であり,その自動認識技術の発展が求められている。
- 既存手法は計算コストが高く,多様な姿勢データの効率的な処理が課題となっている。
- 姿勢情報を活用し,計算コストを削減しながら高精度な連続手話認識を実現すること。
- SignXは,複数の姿勢データ形式を統合し,コンパクトかつ情報密度の高い潜在空間を構築した。
- ViTベースのVideo2Poseモジュールを用いて,生の動画から直接潜在表現を抽出する。
- 潜在空間上で時間的モデリングとシーケンスの洗練を行い,連続手話認識の精度を向上させた。
生成敵対ネットワークを用いた顔認識 [cs.CV, cs.CR]目的:顔認識におけるデータ拡張手法
- 顔認識はセキュリティや認証など,幅広い分野で重要な技術である。
- 深層学習を用いた顔認識は大量の学習データに依存し,データ不足が課題となる。
- 限られた学習データでも高精度な顔認識を実現するデータ拡張手法の開発。
- 本研究では,生成敵対ネットワーク(GAN)に基づくデータ拡張手法を提案した。
- 残差ネットワークとInception ResNet-V1を用いたGANにより,安定した学習と精度向上を実現した。
- LFWベンチマークにおいて,ベースライン手法と比較して12.7%の認識精度向上を達成した。
MVAR:スケールと空間マルコフ的条件付けによる視覚自己回帰モデリング [cs.CV]目的:視覚データの事前分布の効率的なモデリング
- 視覚生成において,効率的なデータモデリングは不可欠である。
- 既存手法は冗長性が高く,計算コストが高い。
- スケールと空間の冗長性を低減し,計算効率を向上させる。
- MVARはスケールと空間のマルコフ的仮定を導入し,条件付き確率モデリングの複雑さを軽減する。
- GPUメモリ消費量を大幅に削減し,並列学習戦略を可能にする。
- ImageNetにおける実験で,既存手法と同等またはそれ以上の性能を示し,GPUメモリ使用量を3.0倍削減した。
U2-BENCH:超音波理解に関する大規模ビジョン言語モデルのベンチマーク [cs.CV, cs.LG]目的:超音波理解における大規模ビジョン言語モデルの性能評価
- 超音波は世界中の医療において不可欠な画像診断法であり,その普及は重要である。
- 超音波画像の解釈は,画質やオペレーターの熟練度,解剖学的構造によって左右され,困難を伴う。
- 大規模ビジョン言語モデルの超音波画像理解能力を評価し,その課題を明確にすること。
- U2-BENCHは,超音波画像の分類,検出,回帰,テキスト生成タスクを評価する初の包括的なベンチマークである。
- 評価の結果,画像レベルの分類では良好な性能が示されたが,空間的推論や臨床言語の生成には課題が残る。
- U2-BENCHは,医療超音波画像という特有のマルチモーダル領域における大規模ビジョン言語モデルの研究を促進する。
ポーズスプラッター:動物の姿勢と外観を定量化するための3Dガウススプラッティングモデル [cs.CL, cs.CV, cs.LG]目的:動物の姿勢と外観の定量化
- 行動研究において,動物の姿勢と外観の正確な定量化は不可欠である。
- 既存の3D姿勢推定技術は,表現力の限界,煩雑なアノテーション,計算コストの問題を抱える。
- 動物の形状知識やフレームごとの最適化,手動アノテーションなしで姿勢と外観をモデル化すること。
- Pose Splatterは,マウス,ラット,シマメドリのデータセットにおいて,正確な3D動物形状を学習することを示した。
- Pose Splatterは,微細な姿勢の変化を捉え,最先端技術と比較して優れた低次元姿勢埋め込みを提供することが示された。
- アノテーションやフレームごとの最適化のボトルネックを解消し,遺伝子型,神経活動,行動の高解像度マッピングを可能にする。
CoT-RVS:動画に対するゼロショットChain-of-Thought推論セグメンテーション [cs.CL, cs.CV]目的:複雑なテキストクエリに基づいた動画からのマスクシーケンス生成
- 動画と言語を組み合わせた理解は,AI技術の発展に不可欠である。
- 複雑な時間的・空間的関係を捉えることが,動画セグメンテーションの課題である。
- 時間的・意味的推論を通じて,複雑な動画セグメンテーションを解決すること。
- CoT-RVSは,MLLMのゼロショットCoT能力を活用し,時間的・意味的推論を行う。
- フレーム内のオブジェクトを分析し,クエリに合致するキーフレームを選択する。
- 学習不要でクローズドソースMLLMにも対応し,顕著な性能向上を実証した。
ConsiStyle:トレーニング不要な一貫性のあるテキストから画像生成におけるスタイル多様性 [cs.CV]目的:テキストから画像生成におけるスタイル多様性と被写体の一貫性の両立
- テキストから画像生成技術は,多様なコンテンツ作成を可能にする重要な分野である。
- 既存手法では,スタイルと被写体特徴が絡み合い,スタイル変更時に被写体の一貫性を保てない。
- 本研究は,トレーニング不要でスタイルと被写体を分離し,多様なスタイルで一貫した画像を生成することを目指す。
- 提案手法は,被写体を定義するアンカー画像からQueryとKeyを,それ以外の画像からValueを抽出することで,スタイルと被写体を分離する。
- 自己注意機構にクロス画像コンポーネントを追加し,Value行列の統計量を整列させることで,ターゲットスタイルからの逸脱を防ぐ。
- 定性的・定量的な実験により,提案手法がスタイルと被写体を効果的に分離し,多様なスタイルでテキストに忠実な画像を生成することが示された。
ゼロショット異常検知のためのアテンションヘッドのドメイン適応 [cs.CV]目的:ゼロショット異常検知における性能向上
- 異常検知は,製造や医療など幅広い分野で重要であり,品質管理や安全確保に不可欠である。
- ターゲットカテゴリの正常サンプルがない状況での異常検知は困難であり,既存手法では十分な適応がなされていない。
- 視覚言語モデルのアテンションヘッドを適応させ,異常検知の精度向上を目指す。
- 提案手法HeadCLIPは,テキストエンコーダと画像エンコーダの両方を効果的に適応させる。
- HeadCLIPは,工業分野においてピクセルレベルおよびイメージレベルの平均異常検知スコアを最大4.9%p,3.7%p改善した。
- 医療分野においても同様に,それぞれ3.2%p,3.2%pのスコア改善を達成した。
ワイルド環境における読書認識 [cs.CV, cs.LG]目的:読書状況の判定
- 常時装着型スマートグラスの普及に伴い,ユーザーと環境の相互作用記録が不可欠である。
- 現実的な環境下での読書認識に関する大規模データセットが存在しなかった。
- 多様かつ現実的なシナリオにおける読書認識モデルの構築を目指す。
- 大規模なマルチモーダルデータセット「Reading in the Wild」を構築し,100時間の読書・非読書ビデオを収録した。
- RGB画像,視線,頭部姿勢の3つのモダリティが読書認識に有効であることが示された。
- 柔軟なTransformerモデルを用いて,各モダリティを個別に,または組み合わせて読書認識を実行できることを示した。
PointT2I: LLMに基づいたキーポイントによるテキストから画像生成 [cs.CV]目的:テキストプロンプトに基づく正確な人物ポーズに対応した画像生成
- 画像生成技術は近年飛躍的に進歩しているが,複雑な概念や人物ポーズの正確な表現が課題である。
- テキストプロンプトに複雑な概念,特に人物ポーズが含まれる場合,正確な画像生成が困難である。
- LLMを活用し,追加の学習なしに,テキストプロンプトから正確なポーズを反映した画像を生成する。
- 提案手法PointT2Iは,LLMを用いてテキストプロンプトから直接人物ポーズのキーポイントを生成する。
- 生成されたキーポイントとテキストプロンプトに基づいて画像を生成することで,正確なポーズに対応した画像を生成する。
- LLMに基づくフィードバックシステムにより,生成結果とプロンプトの整合性を評価し,出力を改善する。
HueManity:MLLMにおける微細な視覚知覚の探求 [cs.CL, cs.CV, cs.AI, cs.LG]目的:MLLMにおける微細な視覚知覚能力の評価
- MLLMは画像認識の分野で急速に進歩しているが,安全性や信頼性が求められる場面が増加している。
- 既存のベンチマークは高次の視覚的推論に偏っており,微細な視覚的詳細の認識能力を十分に評価できていない。
- MLLMの視覚的基礎能力の弱点を明らかにし,より安全で信頼性の高いシステム開発に貢献すること。
- HueManityは,アルファニューメリック文字列を埋め込んだ石原式図形を用いた大規模な自動ベンチマークである。
- 9つの最先端MLLMの評価の結果,最も性能の良いモデルでも単純な数値タスクで33.6%の精度,困難なアルファニューメリックタスクでわずか3%の精度しか達成できなかった。
- 人間の99.38%,93.25%や,ファインチューニングされたResNet-50の96.5%,94.5%と比較すると,MLLMには大きな性能差が見られた。
MineInsight:オフロード環境における人道的な地雷除去ロボットのためのマルチセンサーデータセット [cs.CY, cs.RO, cs.CV]目的:オフロード環境における地雷除去ロボットのためのマルチセンサーデータセット
- 人道的な地雷除去は,紛争後の復興において重要な課題であり,ロボット技術の活用が期待される。
- 地雷除去ロボットの性能評価には,多様で現実的なデータセットが不可欠だが,そのようなデータセットは不足している。
- 本研究は,地雷除去ロボットのアルゴリズム検証に必要な,多様なセンサー情報を統合したデータセットを開発・提供する。
- 本研究で開発されたMineInsightデータセットは,異なる環境下で収集された35種類のターゲット(地雷15個,その他20個)を含む。
- データセットは,無人地上車両とロボットアームの両方からのデュアルビューセンサーデータを提供し,隠蔽物の問題を軽減し,空間認識を向上させる。
- RGB,VIS-SWIR,LWIRなど多様なスペクトル範囲の画像データに加え,自動パイプラインで生成・人間が修正したバウンディングボックスも提供する。
学習データへの寄与度評価のためのパラメータ重み付け学習 [cs.LG, cs.CV]目的:出力に最も影響を与える学習事例の特定
- 機械学習モデルの解釈可能性向上は,信頼性向上やデバッグに不可欠である。
- 既存手法では,ネットワークパラメータの重要度を十分に考慮できていない。
- データから直接パラメータの重要度を学習し,より正確な寄与度評価を目指す。
- 提案手法は,画像分類,言語モデリング,拡散モデルなど,多様なタスクで寄与度評価の精度を向上させた。
- 被写体やスタイルといった概念レベルでの,より詳細な寄与度評価が可能となった。
- アノテーションされたラベルを必要とせず,データから直接パラメータの重要度を学習する点が特徴である。
PAL:LLMによるオーディオエンコーダの検証 -- LLMへのオーディオ情報の転送 [cs.SD, cs.AI, cs.CL, eess.AS]目的:LLMへの効率的なオーディオ意味情報の転送
- LLMとオーディオ処理の融合は,機械によるリスニング応用の発展に不可欠である。
- 既存手法では,オーディオエンコーダからLLMへの効率的な意味情報の転送が課題となっていた。
- 計算コストを抑えつつ,オーディオ情報をLLMへ効果的に統合することを目指す。
- LALは,既存の統合手法と比較して,同等以上の性能を複数のLLMとタスクで示している。
- LALは,メモリ使用量を約60%削減し,スループットを約190%向上させている。
- PALは,PLITSと同等以上の性能を達成しつつ,計算効率とメモリ効率を大幅に改善している。
NAP-Tuning:敵対的ロバストな視覚言語モデルのためのニューラル拡張プロンプトチューニング [cs.HC, cs.HC, cs.CV, cs.AI]目的:敵対的攻撃に対する視覚言語モデルのロバスト性の向上
- 視覚言語モデルは画像とテキストの関連性を理解する上で高い能力を示すため,様々な応用が期待されている。
- 視覚言語モデルは敵対的攻撃に対して脆弱であり,セキュリティ上の懸念が存在する。
- 敵対的攻撃による特徴空間の歪みを直接的に軽減し,モデルのロバスト性を高めることを目指す。
- NAP-Tuningは,既存手法と比較して様々なデータセットと攻撃タイプにおいて大幅な性能向上を示した。
- 特に,AutoAttackベンチマークにおいて,ViT-B16とViT-B32アーキテクチャでそれぞれ33.5%,33.0%の改善が見られた。
- その上で,クリーンな精度を維持しつつ,敵対的ロバスト性を強化することに成功した。
HalluRNN:大規模ビジョン言語モデルにおける幻覚の軽減:再帰的クロスレイヤー推論による [cs.CV, cs.AI, cs.LG]目的:大規模ビジョン言語モデルにおける幻覚の軽減
- ビジョン言語モデルは多様なタスクで優れた性能を示すが,誤った情報を生成する幻覚の問題が存在する。
- 既存の手法はデータや設定に依存し,リソース消費が大きい場合がある。
- モデルの安定性を高め,表現のずれによる幻覚を軽減することを目指す。
- HalluRNNは,再帰的クロスレイヤー推論を通じてモデルの安定性を向上させるアーキテクチャレベルのソリューションである。
- Dual-Gated Depth Propagation Unit(DG-DPU)モジュールを導入し,隠れ状態を再帰的に洗練することで,情報の適応的な伝播と層間の整合性を実現する。
- DG-DPUモジュールのみをファインチューニングすることで,複数のベンチマークで堅牢な性能を達成する。
部分確率性によるGANとベイジアンニューラルネットワークの接続 [cs.LG, cs.CV, stat.ML]目的:GANとベイジアンニューラルネットワークの関係性の解明
- 生成モデルは多様な応用可能性を持ち,AI研究の重要な分野である。
- GANの最適化は困難であり,学習の安定性や汎化性能に課題がある。
- GANの理論的な理解を深め,より安定した学習方法を確立すること。
- GANを部分確率性を持つベイジアンニューラルネットワークとして解釈する新しい視点を示した。
- GANの最適化が,確率変数を周辺化することによって得られる尤度関数の近似最適化と等価であることを示した。
- 損失地形を平滑化し,最小記述長を探索する戦略が,GANの性能向上に寄与することが実験的に確認された。
画像ゴールナビゲーションにおいて重要な要素とは何か [cs.CV, cs.RO]目的:画像ゴールナビゲーションにおける主要因の解明
- ロボットの自律的な移動能力向上は,実世界での応用を広げる上で不可欠である。
- 既存手法は,画像照合や姿勢推定の事前学習に依存しており,効率性に課題がある。
- ナビゲーション報酬のみから相対姿勢推定を学習可能とするエージェントの実現を目指す。
- 大規模な実験の結果,最近の手法の成功はシミュレータの設定に依存する側面があることが示された。
- しかしながら,その能力はより現実的な環境へも一定程度転移可能であることが確認された。
- ナビゲーション性能と,浮上する相対姿勢推定性能との間に相関関係が存在することが示唆された。
数量プロンプトを用いた弱学習対照学習による移動赤外微小ターゲット検出 [cs.CV]目的:移動赤外微小ターゲット検出における性能向上
- 赤外線画像は,暗闇や悪天候下での監視に不可欠だが,微小ターゲットの検出は困難である。
- 従来の検出手法は大量の手動アノテーションに依存しており,コストと時間がかかる。
- 手動アノテーションの負担を軽減し,弱学習による検出性能の向上を目指す。
- 提案手法WeCoLは,SAMを活用し,ターゲットの活性マップと多フレームのエネルギー蓄積を統合する。
- 対照学習により擬似ラベルの信頼性を高め,局所的な動きと全体的な軌跡を同時にモデル化する。
- DAUBとITSDT-15Kデータセットでの実験により,従来のフルスーパーバイズ手法を上回る性能が確認された。
トレーニング不要!参照画像に基づくインスタンスセグメンテーション [cs.CV]目的:参照画像のみを用いた物体セグメンテーション
- 画像セグメンテーションは,大量の注釈付きデータが必要であり,コストが高いという課題があった。
- SAMは課題を緩和したが,新しい画像に対して手動プロンプトや複雑なルールが必要となる。
- 参照画像のみでセグメンテーションを実現し,プロンプト作成の負担を軽減することを目指す。
- 基礎モデルの学習済み意味情報を活用し,参照画像とターゲット画像間の対応領域を特定する。
- 対応関係を利用することで,インスタンスレベルのセグメンテーションマスクを自動生成する。
- COCO FSOD,PASCAL VOC Few-Shot,Cross-Domain FSODにおいて,最先端の性能を達成した。
自己説明モデルの視覚的説明可能性を,追加学習なしで予測のみのモデルへ転移 [cs.CV, cs.AI, cs.LG]目的:自己説明モデルの視覚的説明能力の転移
- 画像認識において,予測性能と説明可能性の両立が重要であり,効率的な手法が求められている。
- 既存の予測のみのモデルに説明可能性を付与するには,新たな学習コストが発生する。
- タスク演算フレームワークを用いて,学習済みの予測モデルに説明能力を付与する。
- 自己説明モデルから予測のみのモデルへの視覚的説明能力の転移が可能であることが示された。
- 転移元のドメインと転移先のドメインの関係性が低い場合を除き,転移は成功する。
- 転移により,分類精度を損なうことなく,転移先のドメインにおける説明品質が向上する。
OpenWorldSAM:言語プロンプトによる汎用画像セグメンテーションのためのSAM2の拡張 [cs.CV]目的:言語プロンプトを用いた汎用的な画像セグメンテーション手法
- 画像認識技術は,コンピュータビジョンの基盤であり,多様な応用分野で不可欠である。
- 従来のセグメンテーション手法は,事前に定義されたカテゴリに限定され,未知のカテゴリへの対応が困難である。
- OpenWorldSAMは,未知のカテゴリを含む画像セグメンテーションの精度と汎化性能を向上させる。
- OpenWorldSAMは,軽量な視覚言語モデル(VLM)とSAM2を組み合わせることで,多様なプロンプトに対応可能である。
- SAM2とVLMの事前学習済みパラメータを固定することで,わずか450万パラメータの学習で高い効率を実現している。
- 新たな位置埋め込みとクロスアテンション層により,複数インスタンスのセグメンテーション精度を向上させている。
SpatialViz-Bench:MLLMにおける空間視覚化能力の診断のための認知に基づいたベンチマーク [cs.CV, cs.CL, cs.HC]目的:MLLMにおける空間視覚化能力の診断
- 視覚情報処理はAIにとって重要であり,人間の認知能力を模倣することが求められている。
- 既存のベンチマークは,見えている情報に基づく推論に偏っており,空間視覚化能力の評価が不十分である。
- データ汚染のリスクを避け,公平かつ信頼性の高い空間視覚化能力の評価を実現すること。
- SpatialViz-Benchは,4つのサブ能力と1,180の問題を含む包括的なベンチマークである。
- 27のMLLMを評価した結果,性能にばらつきがあり,ベンチマークの識別力が高く,CoTプロンプトがオープンソースモデルの精度を低下させるという逆説的な結果が得られた。
- 最先端のMLLMは空間視覚化タスクに課題を抱えており,この分野の重要なギャップを埋める。
CoDi:一貫性のある被写体と多様なポーズのテキストから画像生成 [cs.CV]目的:テキストから画像を生成する際の,被写体の一貫性とポーズの多様性の両立
- 画像生成技術は,創造的なコンテンツ制作や情報伝達において重要な役割を担っている。
- 既存の技術では,被写体の一貫性を保ちつつ,ポーズやレイアウトの多様性を実現することが困難である。
- 被写体の一貫性を損なわずに,ポーズとレイアウトの多様性を実現し,より表現力豊かな画像生成を目指す。
- CoDiは,拡散モデルの段階的な性質に着目し,Identity Transport (IT)とIdentity Refinement (IR)という二段階戦略を採用している。
- ITは初期段階で最適な輸送を用いて被写体の特徴を転送し,一貫性を保ちながらポーズの多様性を促進する。
- IRは後期段階で重要な特徴を選択し,被写体の詳細をさらに洗練することで,視覚的な品質とパフォーマンスを向上させている。
メカニズム設計者との契約 [cs.GT]目的:現代のクラウドソーシング市場における経済的相互作用
- クラウドソーシングは,労働市場に革新をもたらし,多様なタスクを効率的に処理可能にする。
- 依頼者,プラットフォーム,ワーカー間の情報非対称性が,最適な契約設計を困難にしている。
- 依頼者とプラットフォーム間の契約設計が,ワーカーへのインセンティブ設計に及ぼす影響を解明する。
- 本研究は,依頼者とプラットフォームの契約をバーチャルバリュープライシングとして定式化し,線形契約の最適性を示す。
- 二重マージン化の価格(PoDM)と無秩序の価格(PoA)を導入し,委任と情報非対称性による依頼者の効用損失を定量化する。
- プラットフォームの価格設定制限や依頼者の市場規模に関する不確実性を考慮したモデル拡張を行う。
