arXiv雑要約
画像・音声 - 2026/06/16 公開
シグナルを示す,ノイズを隠す:ピクセル空間拡散のためのスペクトル強制 [cs.RO, cs.CV]目的:ピクセル空間拡散モデルにおける効率的な信号処理とノイズ抑制
- 画像生成AIの性能向上には,計算資源の効率的な利用が不可欠である。
- 既存のピクセル空間拡散モデルは,全帯域のノイズを処理するため計算コストが高い。
- 本研究は,スペクトル強制によって信号とノイズを分離し,計算効率を高めることを目指す。
- スペクトル強制は,拡散の時間経過とともにカットオフ周波数を増加させる低域通過フィルタである。
- ImageNet-256における実験で,FIDおよびInception Scoreが安定的に向上した。
- SenseNova-U1への適用により,DPG-BenchとGenEvalのスコアも改善され,汎用性も示された。
HairLRM:大規模再構成モデルによるストランドベースの髪の毛モデリング [cs.GR, cs.CV]目的:髪の毛モデリングにおける新規手法
- リアルな髪の毛の表現は,映像制作やバーチャルアバターにおいて不可欠である。
- 従来のストランドベースモデリングは,2D画像から3D形状を推定する際の制約不足により,不自然な結果になりやすい。
- 大規模再構成モデルの幾何学的制約を利用し,より正確で堅牢な髪の毛モデリングを実現すること。
- 大規模再構成モデル(LRM)を構造的アンカーとして用いることで,複雑な髪の毛の形状を正確に再現可能となった。
- Dual Orientation AutoEncoderにより,粗い形状から高精度なストランドへの変換を実現し,ベクトル場特異点を解決した。
- 本手法は,髪の毛の再構成において,堅牢性と精度に関する新たなベンチマークを確立した。
SPARK:知識蒸留のための空間ポリシー駆動適応強化学習 [cs.CV]目的:低ビット量子化における知識蒸留の空間的な適応的努力配分
- 画像修復ネットワークの低ビット量子化は,リソース制約のあるデバイスでの展開を可能にする重要な技術である。
- 量子化による丸め誤差が,エッジや微細なテクスチャといった高周波領域の再構成品質を著しく低下させる。
- 画像領域ごとの再構成難易度の違いに着目し,蒸留努力を適応的に配分することで再構成品質の向上を目指す。
- SPARKは,ラプラシアン分散,ピクセル分散,生徒の再構成誤差,教師-生徒間の知識格差を特徴量として利用する。
- 軽量な強化学習ポリシーネットワークを用いて空間的な重みマップを生成し,量子化認識訓練(QAT)中に知識蒸留損失を調整する。
- SPARKは,PTQ,QAT,最先端の知識蒸留手法を凌駕し,フル精度教師に近い再構成品質を達成した。
膝X線写真からの陰解示ニューラル形状関数による下腿アライメントのランドマークフリー評価 [cs.CV, cs.AI]目的:下腿アライメントの評価手法
- 全膝関節置換術の予後予測や関節健康評価において,下腿アライメントの正確な評価は重要である。
- 従来法は手作業で時間がかかり,近年の機械学習もランドマーク位置に依存するため,定義変更時に再アノテーションが必要となる。
- ランドマークに依存しないことで,下腿アライメント評価の柔軟性と拡張性を向上させる。
- 陰解示ニューラル形状関数を用いることで,ランドマーク座標に頼らず,コンパクトな潜在空間から臨床的アライメント測定値を直接回帰することが可能になった。
- 内部データセットおよび外部データセットでの評価において,ランドマークベースの手法や手作業による評価と同等の性能を示した。
- このアーキテクチャは,基盤表現を変更することなく,追加の測定タスクに迅速に拡張できる柔軟な形状表現を提供する。
フォーカス,アライメント,維持:増分オブジェクト検出における勾配希釈への対策 [cs.IR, cs.CV]目的:増分オブジェクト検出における勾配希釈の根本原因の特定と対策
- オブジェクト検出はコンピュータビジョンの重要なタスクであり,リアルワールドアプリケーションへの応用が期待される。
- 従来のオブジェクト検出器を増分学習に適用すると,既存知識の忘却が問題となる。
- 勾配希釈という現象に対処することで,増分学習時の性能低下を抑制することを目指す。
- 本研究では,FAS(フォーカス,アライメント,維持)というフレームワークを提案し,勾配の流れを最適化する。
- FASは,バックグラウンドノイズのフィルタリング,クエリ・ターゲット割り当ての一貫性強化,および古いクラスの分布サポートの維持を実現する。
- 実験の結果,FASは最先端の手法と比較して5.0 AP以上の改善を達成し,頑健な最適化ダイナミクスを回復することを示した。
胎児先天性心疾患の多視点深層学習分類:特徴レベルおよび決定レベルの融合 [cs.CV]目的:胎児先天性心疾患の二値分類
- 先天性心疾患は,乳幼児の死亡原因の上位を占めており,早期診断が重要である。
- 従来の診断法は,心臓の複雑な構造により,高い精度と効率を達成することが困難である。
- 本研究は,多視点データを利用することで,診断精度と信頼性を向上させることを目指す。
- 提案手法は,大規模なデータセットにおいて,最先端の性能を達成した。
- 複数の視点からの情報を統合することで,診断のロバスト性を高めている。
- 不確実性に基づく意思決定コンポーネントにより,低品質な画像への対応が可能となった。
MamBOA: ビデオ認識のための状態空間アーキテクチャ [cs.CV]目的:ビデオ認識における状態空間アーキテクチャの構築
- ビデオ認識は,人間の行動理解に不可欠であり,監視やロボット工学などへの応用が期待される。
- 既存手法では,計算コストと認識精度にトレードオフが存在し,柔軟性に課題があった。
- 状態空間モデルを構造的に誘導することで,より原理的かつ一般的な運動モデリングを目指す。
- MamBOAは,既存のバックボーンに容易に組み込むことができ,計算コストの増加も抑制されている。
- Diving48データセットにおいて,画像で事前学習したバックボーンと組み合わせることで85.02%のTop-1精度を達成した。
- ビデオで事前学習したバックボーンを用いることで,86.24%のTop-1精度を単一のフォワードパスで実現した。
マルチクラス植物病害分類と解釈性を高めるハイブリッド深層学習フレームワーク [cs.CV]目的:マルチクラス植物病害の分類および解釈性の向上
- 精密農業の発展には,迅速かつ正確な病害診断が不可欠であり,食糧生産の安定化に貢献する。
- 既存の病害診断は,専門知識が必要であり,時間とコストがかかる場合がある。
- 高精度な画像認識技術を用いて,病害の自動診断と被害箇所の特定を実現する。
- ResNet-50が最も高い精度(98.74%)を示し,ハイブリッドResNet+ViTモデルも競争力のある精度(98.58%)を達成した。
- ハイブリッドアーキテクチャは,局所的特徴と全体的な情報の両方を捉える上で有効であることが示された。
- 本研究は,高精度,解釈性,計算効率に優れたマルチクラス病害分類システムの可能性を示唆する。
移動赤外微小目標検出のための分離型運動表現学習 [cs.RO, cs.CV]目的:移動赤外微小目標検出における分離型運動表現学習のフレームワーク
- 動的シーンにおける赤外微小目標検出は,監視やセキュリティなど様々な分野で重要である。
- 既存手法は,背景の運動との相関学習が不十分で,検出率と誤警報の抑制に課題がある。
- 背景運動と目標運動を分離し,正確な目標検出と誤警報の低減を目指す。
- 提案手法は,事前学習済みの光流を用いた明示的な運動ブランチと,変形可能な特徴量アライメントに基づく暗黙的な運動ブランチを導入する。
- これにより,背景運動の全体的な一貫性と目標の局所的な運動異常を分離して表現することで,検出性能を向上させる。
- 二つのベンチマークデータセットでの実験により,提案手法が既存の最先端手法を凌駕し,特に複雑な運動がある動的シーンで優れた性能を示すことが確認された。
G2IA:幾何学誘導インスタンス認識によるクロスモーダル場所認識とその改良 [cs.CV]目的:クロスモーダル場所認識における検索と改良
- 自律ナビゲーションにおいて,カメラのみのロボットがLiDARマップを用いて自己位置推定を行う上で重要である。
- RGB画像とLiDAR点群のモダリティギャップ,および類似した都市空間における知覚的曖昧さが課題となっている。
- 幾何学に基づく表現アラインメントと,候補のきめ細かい検証によって,信頼性の高い場所認識を実現することを目指す。
- 提案手法G2IAは,視覚幾何学情報とインスタンス特徴を統合し,LiDARマップとの適合性が高い場所記述子を構築する。
- 検索された候補は,インスタンス形状と相対的な空間配置の一致を明示的に検証することで再ランク付けされる。
- 公開ベンチマークを用いた実験により,G2IAが様々な閾値で画像-点群場所認識の性能を向上させ,高い汎化性能を示すことが確認された。
HemExp:臨床に基づいた潜在拡散モデルによる血腫拡大のモデリング [cs.CV]目的:自発性脳内出血後の血腫拡大モデリング
- 脳内出血は重篤な疾患であり,迅速かつ適切な治療判断が求められる。
- 既存手法では,血腫拡大リスクを二値で予測するか,単一の追跡ボリュームしか予測できず,不確実性を考慮した判断が困難。
- 不確実性を考慮した血腫拡大予測と,臨床シナリオの制御可能なシミュレーションを実現する。
- HemExpは,ベースライン画像,臨床変数,拡大指標に基づいて,患者固有の追跡CT画像を生成する。
- 臨床入力(症状発症から画像撮影までの時間など)を変化させると,予測される追跡血腫量の分布が変化する。
- HemExpは,血腫量,脳室への波及,圧迫効果など,臨床的に重要なアウトカムのロバストな推定を可能にする。
CoMNeT:MedNeXt-CorrDiffフレームワークによる脳腫瘍容積セグメンテーション [cs.CV]目的:脳腫瘍の容積セグメンテーションの精度向上
- 脳腫瘍の治療計画や効果評価には,正確なセグメンテーションが不可欠である。
- 患者ごとの腫瘍の形状やMRIプロトコルの違いにより,自動セグメンテーションは困難である。
- 腫瘍領域が脳全体に対して小さいため,高精度なセグメンテーションが課題である。
- CoMNeTは,MedNeXtとCorrDiffを組み合わせることで,脳腫瘍セグメンテーションの精度を向上させた。
- UTSデータセットを用いた5分割交差検証において,CoMNeTはDice係数で最も高い成績を示した。
- 特に,腫瘍増強部(ET),腫瘍核(TC)のセグメンテーションにおいて,既存モデルを上回る結果が得られた。
長尺動画における条件付き複数イベントの時間的配置 [cs.RO, cs.DC, cs.CV]目的:長尺動画における条件付き複数イベントの時間的配置の課題解決
- 動画理解は,映像コンテンツの検索や分析において不可欠であり,その重要性は増している。
- 既存の動画時間配置タスクは,単一のイベント配置や条件の考慮が不十分である。
- 複雑な条件を満たす複数イベントの時間的配置を正確に行うための評価ベンチマークの構築。
- CoMET-Benchは,5つの実世界のドメインにわたる600本の長尺動画と2789のクエリから構成される。
- 既存のマルチモーダル大規模言語モデルは,このタスクを解決するには至っていないことが判明した。
- CoMET-Agentは,構造化探索と集約により,F1@0.5を6.1%向上させ,GPT-5を上回る性能を示した。
PPDM:速度とメモリ効率に優れた体積型医用画像変換のためのピクセルパズル拡散モデル [cs.ET, cs.CV]目的:体積型医用画像変換における速度とメモリ効率の向上
- 医用画像変換は,疾患の診断や治療計画において重要な役割を担う。
- 高解像度3D体積への拡散モデルの適用は,計算コストとGPUメモリの制約により困難である。
- メモリ効率を維持しつつ,体積全体の整合性と詳細な解剖学的構造を保つことを目指す。
- PPDMは,ピクセルパズル・アンパズル演算子により,空間解像度をチャンネル次元に変換し,活性化メモリを大幅に削減する。
- 直接ブリッジ拡散法を採用することで,タスクに関連する残差に焦点を当て,効率性と安定性を向上させる。
- パズル勾配損失を導入することで,空間的な一貫性を強化し,グリッド状のアーティファクトを抑制する。
SGFormer++:3次元シーングラフ生成のためのセマンティックグラフTransformer [cs.CV]目的:3次元点群シーンをセマンティック構造グラフに解析する
- ロボット工学や自動運転において,周囲の環境を理解する上で重要な技術である。
- 従来のグラフ畳み込みネットワークは,過剰平滑化や受容野の限界といった課題を抱えている。
- 複雑なシーン構造を効率的にモデル化し,段階的な関係カテゴリの追加に対応する。
- SGFormer++はTransformer層を基盤とし,グローバルなメッセージパッシングを可能にしている。
- グラフ埋め込み層++とセマンティック注入層++により,効率的な文脈統合と表現力豊かな特徴抽出を実現している。
- 3DSSGベンチマークにおいて,incremental設定でPredicate A@1が4.49%絶対的に向上し,最先端の性能を達成した。
CausalDrive:自律運転のためのリアルタイム因果的世界モデル [cs.CV]目的:自律運転のためのリアルタイムな因果的世界モデルの構築
- 自律運転のデータ効率向上の鍵となる世界モデル研究は,安全性向上に不可欠である。
- 既存モデルは,インタラクティブなシミュレータとしては反応性や制御性に課題があった。
- テキストによる制御可能な,リアルタイムな運転シミュレーション環境の実現を目指す。
- CausalDriveは,初期フレーム,エゴ車両の軌跡,テキストプロンプトのみを用いて世界を生成する。
- Context-Forced DMDアーキテクチャにより,12FPSというインタラクティブな速度を実現した。
- CausalDriveで訓練されたポリシーは,現実世界での相互作用能力が向上することが確認された。
DYNA-PRUNER:入力適応データ・モデル共同剪定による効率的でスケーラブルな時空間メディア予測 [cs.CL, cs.IR, cs.CV, cs.LG, cs.MM]目的:効率的でスケーラブルな時空間メディア予測のための入力適応データ・モデル共同剪定手法
- 気象予測や交通監視等に不可欠だが,計算コストが高く実用化が課題となっている。
- 入力データの冗長性(静穏な海や晴天)に対し,計算資源が無駄に消費されている。
- 入力データに応じてデータとモデル構造を動的に剪定し,計算コストを削減することを目指す。
- Dyna-Prunerは,データとモデル構造を共同で剪定するエンドツーエンドのフレームワークである。
- WeatherBench,SEVIR,TaxiBJの実験で,CNN,RNN,Transformerとの統合が確認された。
- FLOPsを最大70%削減し,NVIDIA Jetson AGX Orin上で2.5倍の高速化を達成。精度損失は1%未満である。
サービス指向システムのための表情分析:進歩,課題,そして将来展望 [cs.CV]目的:サービス指向ソフトウェアエコシステムにおける表情分析の再利用可能な知覚能力
- 人間とコンピュータの自然な相互作用を実現するため,表情分析の重要性は高まっている。
- 表情分析のシステムとしての信頼性や,様々な環境下での汎用性が課題となっていた。
- 表情分析をサービスとして運用するための明確なインターフェースと品質保証を目指す。
- 既存の表情分析手法を,サービス指向システムにおける要件に基づいて再評価した。
- ベンチマークの向上だけでは不十分であり,ロバスト性,公平性,プライバシー保護が重要である。
- 表情分析を運用サービスコンポーネントとして扱うためのロードマップを提示した。
低消費電力デバイス向けVQ-VAE埋め込みによる持続可能な顔認識 [cs.CV]目的:低消費電力デバイス上での持続可能な顔認識フレームワーク
- 顔認識は現代AI応用の基盤技術であり,その重要性は増している。
- 従来の顔認識は計算資源を必要とし,クラウドへの依存度が高いという課題がある。
- エッジデバイスでの効率的な顔認識を実現し,環境負荷を低減することを目指す。
- ベクトル量子化変分オートエンコーダ(VQ-VAE)を用いることで,顔画像のコンパクトかつ意味的に豊かな潜在表現を獲得した。
- 知識蒸留と組み合わせることで,最先端の顔埋め込みモデルと同等の精度を維持しつつ,メモリと計算量を大幅に削減した。
- VQ-VAE圧縮によりネットワークのオーバーヘッドを最小限に抑え,重要な顔の特徴を保持することで高い照合精度を実現した。
MNet++:異方性医療画像セグメンテーションのための拡張された2D/3Dネットワーク [cs.CV, cs.LG]目的:異方性医療画像セグメンテーションのためのMNetの再現と拡張
- 医療画像解析は,疾患診断や治療計画において不可欠であり,高精度なセグメンテーションが求められる。
- 医療画像は,等間隔でないボクセルサイズを持つ異方性を持つ場合が多く,セグメンテーションの精度を低下させる。
- 異方性を持つ医療画像に対しても高いセグメンテーション精度を維持できるネットワークの構築を目指す。
- MNetの再現実験により,PROMISEデータセットで89.0±0.9%のDice係数を達成し,公表された結果とほぼ同等の性能が確認された。
- 学習型Fusion Gating機構とVMambaモジュールを導入した拡張MNet++により,セグメンテーション精度と安定性が向上した。
- 特に,VMambaはLiTS肝臓セグメンテーションにおいて95.8%の最高Dice係数を達成し,異方性に対するロバスト性も維持された。
拡散逆変換におけるタイムステップの再スケジュール [cs.CV]目的:拡散逆変換におけるエラー最小化と精度向上
- 画像再構成や編集において,拡散モデルの潜在空間へのマッピングは不可欠である。
- 既存手法では,タイムステップ選択が精度に与える影響が十分に考慮されていなかった。
- タイムステップサイズの依存性を明らかにし,エラーを最小化するスケジュールを提案する。
- 拡散逆変換における誤差規模がタイムステップサイズに強く依存し,放物線的な傾向を示すことが判明した。
- 提案手法は,グローバルなリ scaling と局所的な動的計画法に基づく再スケジュールを統合する。
- 実験により,提案手法が既存の逆変換手法の性能を一貫して向上させることが確認された。
複数の公平性概念下におけるオンライン公正分割の競争分析 [cs.GT]目的:オンライン公正分割における競争分析
- 資源配分は経済学,計算機科学において重要な問題であり,社会全体の効率性と公平性を高める上で不可欠である。
- 従来のオフライン分割では,将来の情報が事前に分かっている必要があり,現実的な状況に適用が難しいという課題があった。
- オンライン環境下での効率的かつ公平な分割アルゴリズムの設計と,その性能評価を行うことが本研究の目的である。
- 本研究では,様々な公平性概念を考慮し,オンラインアルゴリズムの競争比を評価することで,公平な分割の限界と可能性を明らかにした。
- 多くのケースにおいて,提案するアルゴリズムが最適であることが示され,オンライン公正分割の理論的基盤を確立した。
- 本研究は,物品や雑務の配分,効用関数の正規化など,幅広いモデルに対して適用可能であり,実用的な貢献も期待できる。
セグメンテーションに基づく効率的なマルチタスク宇宙船知覚 [eess.SY, cs.SY, cs.CV]目的:宇宙船の分類,検出,および詳細なコンポーネントセグメンテーション
- 宇宙状況把握や自律軌道上操作において,視覚に基づく知覚が不可欠である。
- 宇宙画像の注釈データが不足しており,照明変化やノイズなどの課題が存在する。
- 限られた計算資源で高精度なマルチタスク性能を実現する手法を開発する。
- 本研究では,MobileNetV3エンコーダとU-Netスタイルのデコーダを組み合わせた軽量なアーキテクチャを提案した。
- コンポーネントマスクの和集合から検出を行うことで,バウンディングボックス回帰の必要性を回避した。
- SPARK 2026 Challengeにおいて,分類で1.0000,検出で0.9788,セグメンテーションで0.8917を達成し,総合スコア0.9482で2位となった。
フレームから時間グラフへ:ビジョン言語モデルによる文脈内エゴセントリック行動認識 [cs.CL, cs.CV]目的:エゴセントリック動画における行動推論の性能向上
- 日常生活支援やロボット工学において,人間の行動を理解することは不可欠である。
- 汎用ビジョン言語モデルは,生のピクセル情報から直接行動認識を行う際に課題を抱える。
- 動画を時間行動グラフに変換することで,より効率的な行動推論を目指す。
- 提案手法により,EGTEAとEpic-Kitchens-100データセットで,少数のグラフ示範だけで高い精度向上を実現した。
- ゼロショット設定においても,グラフベースの推論はピクセルベース推論と同等の性能を維持し,モデルの潜在的な推論能力を活用した。
- 様々な規模のビジョン言語モデルで,視覚観察よりも記号的推論の方が有効であることが示された。
打ち上げ後のプロンプトによる視覚言語モデルの機能拡張:軌道上宇宙船検査への応用 [cs.CL, q-bio.BM, cs.LG, cs.AI, cs.CV]目的:軌道上宇宙船検査のための視覚言語モデルの打ち上げ後機能拡張
- 宇宙船の運用において,軌道上での検査は安全性確保と効率的な運用に不可欠である。
- 従来のモデルは打ち上げ前に固定されたラベルセットに依存するため,新たな構成要素への対応が困難である。
- 本研究は,モデルの再学習やパラメータ更新なしに,プロンプトによる機能拡張を可能にすることを目的とする。
- プロンプト駆動型視覚言語モデルSAM3を用いて,未知の宇宙船構成要素のゼロショットインスタンスセグメンテーションを評価した結果,mAP@0.5で0.385,mAP@0.5:0.95で0.267を達成した。
- 大規模構造物(宇宙船本体,ソーラーアレイ)の局所化性能は高い一方,アンテナやスラスタなどの小型部品の局所化は課題が残る。
- プロンプトの構造化が性能に大きく影響し,空間的・幾何学的な記述子を含むプロンプトは,単純なカテゴリ名プロンプトと比較して最大82%の改善を示した。
線形二次微分ゲームにおけるタイプ欺瞞について [cs.RO, cs.RO, cs.HC, cs.SY, eess.SY, cs.GT, cs.SY, eess.SY, math.OC]目的:不完全情報型線形二次微分ゲームにおけるタイプ欺瞞のメカニズム
- 不完全情報下での意思決定は,経済学,工学など幅広い分野で重要である。
- 相手のタイプを隠蔽するインセンティブと,それを推測する可能性が共存する状況は分析が困難である。
- 欺瞞と情報開示の最適なタイミングを特定し,欺瞞の価値を定量化することを試みる。
- ゲームは欺瞞的な混合段階と,完全情報に基づく開示段階に分解できることが示された。
- 各段階はネストされたリッcati方程式を用いて解くことができる。
- 追跡・回避ゲームの例において,欺瞞が定量的な価値を持つことが確認された。
有限クリプケ意味論における有界不可識別性のGPU加速探索と検証 [cs.LO, cs.GR]目的:有限クリプケ意味論における様相式探索と検証問題
- 様相論理は,知識,信念,時間といった概念の形式化に不可欠であり,AIや検証分野で応用が拡大している。
- 有限モデルにおける様相式の検証は計算コストが高く,大規模な探索には限界がある。
- GPUの並列処理能力を活用し,有限モデルにおける様相式検証の効率化を目指す。
- GPUによる高速な探索と検証により,5,624個の様相式を5つの状態を持つ全てのフレーム上で45分で評価した。
- 検証された反駁モデル証明書は全て正当であり,計算効率の高さが示された。
- ある条件下では,反駁可能な様相式は2つの状態での反駁モデルを持つことが示され,標準的なフィルタリング限界を下回る結果となった。
病変強調3D拡散モデル:多発性硬化症MRI合成 [cs.CV, cs.LG]目的:多発性硬化症MRI画像合成のための病変強調3D拡散モデル
- 多発性硬化症の診断・治療には脳MRIが不可欠であり,高精度な画像解析が求められる。
- 十分な量のMRIデータセットの公開が限られており,機種やプロトコルによるばらつきが大きい。
- 病変を保持しつつMRI画像を合成し,機械学習モデルの性能向上を目指す。
- 提案手法Lesion-DDPMは,既存のGANや拡散モデルと比較して,病変領域の再構成誤差が最も低かった。
- Lesion-DDPMで生成された画像のみで学習した3D U-Netは,実際のMRIで評価した際に0.616のDice係数を達成した。
- 実際のMRIデータとLesion-DDPM画像を組み合わせた学習で,Dice係数はさらに0.685に向上した。
スパースオートエンコーダを用いた航空機視覚表現の分析 [cs.CY, cs.CV, cs.LG]目的:航空機認識における視覚的特徴の解釈可能性
- 画像認識の性能向上は目覚ましいが,その判断根拠の解明が課題となっている。
- 既存モデルの内部表現は複雑で,人間が理解することが困難である。
- スパースオートエンコーダを用いて,解釈可能な視覚的特徴を抽出・分析する。
- スパースオートエンコーダは,航空機認識に関わる部分的に解釈可能な視覚的特徴を抽出できることが示された。
- 抽出された特徴は,認識可能な航空機の構造や視覚パターンと対応していることが確認された。
- ただし,多義性や粗い空間局在性といった限界も明らかになった。
ST-DiffEye:スキャンパスと軌跡の同時モデリングによる拡散ベースの連続視線生成 [cs.CV]目的:人間の視線パターン生成
- 視線は人間の認知状態を反映し,ヒューマンコンピュータインタラクションやマーケティング等に応用が期待される。
- 視線データの個人差や状況変化が大きく,汎用的なモデル構築が困難である。
- スキャンパスと軌跡を同時モデリングすることで,視線の多様性を捉え,より自然な生成を目指す。
- 本研究で提案するST-DiffEyeは,視線軌跡とスキャンパスを同時に入力として扱うことで,既存モデルを上回る性能を達成した。
- 連続ランク確率スコア(CRPS)に基づく評価フレームワークにより,生成された視線の精度と多様性を客観的に評価した。
- 実験結果から,スキャンパスと軌跡の同時モデリングが,視線の内在的変動を捉える上で有効であることが示された。
ビデオオブジェクト中心学習のための選択的相乗学習 [cs.CV, cs.AI]目的:ビデオオブジェクト中心学習における分解品質の向上
- ビデオ理解において,オブジェクト単位での表現獲得は重要であり,より高度なシーン解釈を可能にする。
- 従来の枠組みでは,エンコーダとデコーダの特性のずれが分解性能を低下させ,計算コストも高い。
- 信頼性の高い手がかりを選択的に活用し,エンコーダとデコーダの弱点を補完することで,効率的な学習を目指す。
- 提案手法SSyncは,エンコーダによる境界の明確化とデコーダによる内部のノイズ除去を組み合わせることで,エラーの伝播を抑制する。
- SSyncは,線形的な複雑さで擬似ラベリングを実現し,計算コストを大幅に削減し,スケーラビリティを向上させる。
- 実験結果から,SSyncは分解品質を改善し,スロット構成の変動に対するロバスト性も示すことが確認された。
Track2View:ペア化された3D点軌跡による4D一貫性のあるカメラ制御ビデオ生成 [cs.CV]目的:新たなカメラ視点からの既存ビデオの再レンダリング
- 視覚コンテンツの生成・編集において,多様な視点からの映像生成は重要な課題である。
- 既存手法は,フレーム毎の姿勢推定やノイズの多い点群レンダリングに依存し,時間的な一貫性が課題である。
- 本研究は,時間的に連続的な3D点軌跡を用いて,一貫性のある映像生成を実現する。
- Track2Viewは,3D点軌跡を条件としたビデオ拡散トランスフォーマーを提案し,視点間の一致性を高めている。
- デュアルビュー軌跡コンディショナーにより,学習なしの幾何学的演算と時間集約を通じて,視覚コンテキストを転送する。
- 400ビデオのベンチマークにおいて,既存手法と比較して回転誤差を30-65%,並進誤差を61-72%削減した。
アンカーゲート付き音韻アライメントと方策最適化による病理的音声再構築 [cs.HC, cs.SD, cs.AI, cs.MM, eess.AS]目的:病理的音声からの意図されたテキスト内容の回復
- 神経変性や神経運動障害患者の音声は,コミュニケーション手段を著しく損なうため,その回復が重要である。
- 病理的音声は歪みが大きく,断片的であるため,正確なテキストの復元が困難である。
- 音声中の信頼できる部分(アンカー)を活用し,病理的音声の再構築精度を向上させることを目指す。
- AP-GRPOは,病理的音声再構築の忠実性を向上させる。
- 学習されたアンカー制約は各疾患の状態に適応し,解釈可能な疾患特有のプロファイルを明らかにする。
- 重度の発話器官の障害がある場合はアンカーの強化が必要であり,軽度の障害や言語障害の場合は音韻アライメントに依存する傾向がある。
汚染を考慮した廃棄物分類のための二段階深層畳み込みニューラルネットワーク EcoBin [cs.CV, cs.AI]目的:廃棄物分類モデルにおける汚染の考慮
- 廃棄物管理は環境保全と資源の有効活用に不可欠である。
- 既存のモデルは,リサイクル廃棄物における汚染を考慮していない。
- 汚染を考慮した廃棄物分類モデルを開発し,リサイクル率向上を目指す。
- EcoBinは,廃棄物を適切な処理経路に分類する二段階の深層畳み込みニューラルネットワークである。
- 第一段階で廃棄物の種類を分類し,第二段階でリサイクル経路に汚染がないかを確認する。
- 汚染を考慮することで,従来モデルと比較して分類精度が大幅に向上した (p < 0.001)。
RaLMPH:全スライド画像分類における多病理医調和のための信頼性に基づいた学習 [cs.CV]目的:全スライド画像における多病理医アノテーションの調和
- 病理診断の精度向上には,デジタル病理画像の解析が不可欠であり,近年急速に進展している。
- 病理医間での診断意見のばらつきが大きく,アノテーションの一貫性を保つことが課題である。
- 病理医の信頼性を考慮し,アノテーションを調和させることで,診断精度を向上させる。
- 提案手法RaLMPHは,全スライド画像の特徴空間における局所的な近傍構造と専門家の不確実性(エントロピー)を共同でモデル化する。
- 信頼性フィールドを活用し,サンプルごとに信頼できる近傍を選択し,局所的な信頼性に基づいてラベルを融合する適応的なゲーティング機構を適用する。
- 臨床データセットおよびシミュレーション実験において,既存手法と比較してRaLMPHが常に優れた性能を示すことが確認された。
単一ラウンドおよび複数ラウンドの指示に基づく画像編集の広範なベンチマーク [cs.CV]目的:指示に基づく画像編集モデルの評価
- 画像編集技術は,創造性や実用性の両面で重要であり,様々な分野での応用が期待されている。
- 指示の複雑さや編集内容の多様性から,画像編集モデルの性能を客観的に評価する手段が不足している。
- 既存モデルの強みと弱みを明らかにし,今後の研究方向性を示すための信頼性の高い評価フレームワークを確立する。
- I2EBench2.0は,単一ラウンドと複数ラウンドの両方でIIEモデルを評価可能であり,編集の正確性と一貫性を評価する。
- 16個の単一ラウンド評価次元と7個の複数ラウンド評価次元を含む,広範な評価基準を設けることで,多角的な評価を実現した。
- ユーザー調査を通じて人間による評価との整合性を確認し,評価の信頼性を高めた。最新のIIEモデル8つを用いて検証を行い,学術的な知見を得た。
全体像への道:小領域モバイルセンサーのための累積指紋マッピングと再構成 [cs.CV]目的:小領域モバイルセンサーにおける指紋マッピングと再構成
- モバイルデバイスのセキュリティにおいて,生体認証は重要な役割を担う。
- 小領域センサーでは,指紋の局所的な情報しか取得できず,全体的な指紋情報の再現が困難である。
- 部分的な指紋情報を累積的に統合し,より正確でロバストな指紋認識を実現すること。
- 提案手法は,局所的な観察を統合し,指紋の状態を段階的に洗練させる。
- 従来の多重マッチング処理から,累積的なマップ構築と一回のマッチングへと指紋認識の枠組みを転換する。
- 効率的で姿勢に強く,小領域モバイルプラットフォームへの展開に適した生体認証の実現を目指す。
拡散階層の解明:ゼロショットセグメンテーションのための適応的タイムステップ選択 [cs.CV]目的:ゼロショットセグメンテーションにおける性能向上
- 大規模テキスト画像拡散モデルは強力な視覚的知識を持つため,ゼロショットセグメンテーションへの応用が期待されている。
- 既存手法は空間解像度と文脈情報のトレードオフ,および固定されたタイムステップへの依存が課題となっていた。
- 文脈特徴と動的な階層的タイムステップ選択を組み合わせることで,この課題を解決する。
- 文脈類似度マップにより,高解像度アテンションマップとU-Netエンコーダ特徴を融合し,高精度なピクセル表現を実現した。
- 拡散モデルのノイズ除去過程における階層的な意味的進行を明らかにし,ピクセルごとに最適なタイムステップを適応的に選択するメカニズムを導入した。
- 提案手法は既存のゼロショットセグメンテーション手法を凌駕し,その有効性を実証した。
DenseControl:高密度な群衆画像インスタンスレベル制御合成 [cs.CV]目的:高密度な群衆画像の生成におけるインスタンスレベルの制御
- 群衆解析は,セキュリティ,都市計画,災害対応など,幅広い分野で重要である。
- 群衆画像の合成は,データ不足やプライバシー保護の観点から困難を伴う。
- インスタンスの配置,サイズ,属性を精密に制御することで,高品質な合成画像を生成する。
- DenseControlは,事前に定義された座標とスケールに正確に沿ってインスタンスを配置・サイズ調整する。
- Isolated Object Embedding (IOE)マップとImplicit Scale Embedding (ISE)戦略により,空間位置とスケールの制御を実現する。
- 合成品質の評価において,最先端の結果を達成し,データ不足時の群衆解析,転移学習,天候汎化に貢献する。
ピクセルから証明へ:確率的に安全な潜在世界モデル制御のための並列共形ロバストMPC [cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY]目的:学習された潜在世界モデルを用いた安全なフィードバックモーションプランニング
- ロボット工学において,環境を認識し安全に動作することは重要である。
- 潜在世界モデルの予測誤差は,ロボットの安全性を損なう可能性がある。
- 潜在空間における誤差を考慮した,安全性を保証するプランニング手法を開発する。
- 提案手法SLS^2は,潜在世界モデルの予測誤差を共形予測によって定量化する。
- これにより,ロバストMPCにおいて安全性を保証するための制約条件を確立する。
- シミュレーション実験の結果,提案手法は目標達成率と安全性の両方で既存手法を上回った。
Fusion-E2Pulse:非接触式脈波再構成のためのマルチモーダルイベント-RGB融合ネットワーク [cs.CV]目的:非接触式脈波再構成の精度向上
- 健康状態の遠隔モニタリングや異常検知において,脈波は重要な生理指標である。
- 従来のRGBカメラでは,血管の微細な動きが滑らかされてしまうという課題があった。
- イベントカメラとRGBカメラの長所を組み合わせ,高精度な脈波再構成を目指す。
- 提案手法Fusion-E2Pulseは,イベントカメラのノイズの影響を抑制しつつ,微細な形態学的特徴を復元することに成功した。
- 心拍数推定の平均絶対誤差は0.78 bpm,波形相関は0.89,収縮期持続時間誤差は16.74 msであり,最先端の性能を達成した。
- これにより,病理学的特徴の再構成において高い有効性が確認された。
4DCT画像からの自動ITV生成のためのSAM 3のパラメータ効率的な適応 [cs.CV]目的:4DCT画像からの自動ITV生成のためのSAM 3適応フレームワーク
- 呼吸運動に伴う解剖学的変化を考慮した放射線治療計画は重要である。従来のITV作成方法は時間的な一貫性を欠く。
- 従来のITV作成は,各相を独立して処理するため,時間的な整合性が失われ,相特異的なアーチファクトの影響を受けやすい。
- 本研究は,少ない注釈データでSAM 3を適応させ,時間的に一貫性のある正確なITVを作成することを目的とする。
- 提案手法は,低ランク適応(LoRA)を用いてSAM 3を少量のアノテーションデータで医療分野に適合させる。
- 肺と心臓構造において,ダイス係数中央値がそれぞれ0.968と0.910,95パーセンタイルハウスドルフ距離が0.998mmと2.931mmという高い精度を達成した。
- 本フレームワークは,SAM 3のゼロショット推論に固有の誤検出を効果的に排除し,データ効率とスケーラビリティを実現する。
マルチモーダルLLMジャッジの敵対的頑健性について [cs.DM, cs.CV]目的:マルチモーダルLLMジャッジの敵対的頑健性の評価フレームワーク
- 画像品質や安全性評価など,自動ジャッジの利用が拡大しており,その公平性と信頼性が重要になっている。
- マルチモーダルLLMジャッジの敵対的頑健性は未解明であり,悪意のある攻撃に対して脆弱である可能性がある。
- 既存の評価プロトコルの制約を回避し,より効果的かつ汎用性の高い攻撃手法を開発すること。
- マルチモーダルLLMジャッジは,スコアを不正に増加させる敵対的攻撃に対して脆弱であることが明らかになった。
- 既存の攻撃手法は,LLMジャッジの評価プロトコル特有の制約により効果が制限されるという課題が判明した。
- 新しい攻撃手法MGSIAは,これらの制約を回避し,高度なLLMジャッジを欺く上で優れた性能と汎用性を示すことが実証された。
半教師ありPET/CTセグメンテーションのためのデュアル基盤モデルの相互蒸留 [cs.CV, cs.AI]目的:PET/CTセグメンテーションにおける相互蒸留フレームワーク
- がんの定量分析や放射線治療計画において,PET/CTからの臓器セグメンテーションは不可欠である。
- PET/CTセグメンテーションには高コストな注釈が必要であり,データ不足が課題となっている。
- ラベル付きデータが少ない状況で,基盤モデルの知識を活用し,セグメンテーション精度を向上させる。
- 提案手法MuDuoは,CTとPETそれぞれの基盤モデル(SAM-Med3DとSegAnyPET)から知識を蒸留する。
- 手動プロンプトが不要であり,無ラベルデータの活用により自動セグメンテーションの性能を最大化する。
- AutoPETデータセットにおいて,わずか5件のラベル付きデータで最先端の性能を達成した。
拡散同期のためのテスト時最適化 [cs.CV]目的:拡散モデルにおける協調生成の改善
- 事前学習済みモデルの能力拡張に,複数拡散軌道の協調が有効な手法として注目されている。
- 既存の同期手法は経験則に依存し,汎用性や性能に課題が残されている。
- 最適な制御理論に基づく同期フレームワークを導出し,汎用的な協調生成を目指す。
- 本研究では,テスト時に制御変数を最適化することで,複数の軌道を一貫した解に導く。
- 追加の学習を必要とせず,事前学習済みモデルと組み合わせることで多様な生成シナリオに適用可能である。
- 3つの協調生成タスクにおいて,ベースラインと比較して一貫した性能向上を確認した。
拡散Transformerにおける専門家分解と特徴再利用の整合:MoECa [cs.LG, cs.CV]目的:拡散Transformerにおける効率的な推論のための特徴再利用手法
- Transformerモデルの性能向上は,大規模モデルの実現を促し,様々な応用分野での活用が期待されている。
- 拡散モデルの推論速度は,各タイムステップでの冗長な計算によって制限されているという課題がある。
- MoEを活用した拡散Transformerにおいて,より効率的な特徴再利用により推論速度を向上させる。
- MoECaは,expert-branchレベルでの細粒度なキャッシュ機構を導入することで,推論速度の向上を実現した。
- 実験の結果,MoECaは既存のキャッシング手法と比較して,最大2.83倍の推論速度向上を達成した。
- 画質劣化を最小限に抑えつつ,速度と品質のトレードオフを改善した。
NeRD:効率的なオントロジーに基づいた思考連鎖のためのニューロシンボリックルール蒸留 [cs.CV]目的:医療画像診断における,効率的かつオントロジーに基づいた思考連鎖の生成
- 医療画像診断において,信頼性を確保するための解釈可能性は不可欠である。
- 既存の概念駆動型解釈手法は,概念ボトルネックモデルの計算コストや,根拠選択の診断オントロジーからの乖離が課題である。
- NeRDは,手動でのルール作成を伴わず,十分かつ冗長でないオントロジーに基づいた思考連鎖を生成することで,これらの課題を解決する。
- NeRDは,2つの皮膚データセットにおいて高い診断性能と解釈可能性を示した。
- 盲検実験による専門家評価により,NeRDが生成する根拠の臨床的妥当性が確認された。
- NeRDは,マルチモーダル思考連鎖ベースの診断における,専門家による概念レベルでの介入を可能にする。
XPASS-Vis:クロスドメインパーソナライズ画像美意識評価のためのデータセット [cs.CV]目的:クロスドメインパーソナライズ画像美意識評価のためのデータセットの構築
- 美意識の評価は主観的であり,個人差が大きい。そのため,個人の好みを捉える研究が重要である。
- 既存のデータセットは単一ドメインに限定されており,ドメイン横断的なパーソナライズ評価が困難である。
- 本研究は,複数のドメインにおける十分なサンプル数を提供し,ドメイン横断的なパーソナライズ評価を可能にする。
- XPASS-Visは,アート,ファッション,風景の3つのドメイン,129人の評価者による87,836件の評価データを含む。
- 教師なしドメイン適応(UDA)を用いたベースラインモデルでは,教師ありの性能の約60%を達成した。
- パーソナライズされた美意識の好みは,ある程度ドメイン横断的に転移可能である可能性が示唆された。
オープンワールド動画セグメンテーション [cs.CV]目的:オープンワールド動画セグメンテーションにおける物体発見とID維持の課題解決
- 動画セグメンテーションは,ロボティクスや自動運転など,様々な分野で不可欠な技術である。
- 従来の動画セグメンテーション手法は,長時間の動画や未知の物体への対応が苦手である。
- 本研究は,長時間の動画における新規物体発見と安定したID維持を可能とする。
- 提案手法Savvyは,階層的なマスク発見,遅延的な承認,トラック統合により,長期的な物体発見とID維持を実現した。
- 新たな評価指標OGAは,従来の1対1マッチングの厳格さを緩和し,より公平な評価を可能にする。
- VIPSeg,ScanNet,HM3D等のデータセットで,提案手法が既存手法を上回る性能を示した。
次世代ヘルスケアへ: 知覚,意思決定,行動のための医療具現化AIに関する調査 [cs.AI, cs.CV, cs.RO]目的:医療具現化AIの構成要素と応用
- 医療現場における効率化が求められており,AI技術はその重要な役割を担う。
- 既存のAIは物理世界とのインタラクションが限定的で,臨床現場での活用に課題がある。
- 医療現場における知覚・意思決定・行動の統合的なAIシステム構築を目指す。
- 本調査では,医療具現化AIの中核となる構成要素を体系的に整理・分析した。
- 知覚,意思決定,行動の連携に焦点を当て,代表的な応用例とデータセットをレビューした。
- 臨床現場での課題を明らかにし,将来の研究方向性について議論した。
