arXiv雑要約
画像・音声 - 2026/02/05 公開
WebAccessVL:違反条件付きVLMによるアクセシブルなWebの実現 [cs.HC, cs.AI, cs.CV]目的:ウェブコンテンツ・アクセシビリティ・ガイドライン2(WCAG2)違反への対応を目的としたウェブサイトHTMLの自動修正
- デジタルコンテンツの利用において,アクセシビリティの確保は,多様な利用者を包摂する上で不可欠である。
- 既存のウェブサイトには,WCAG2に準拠しないアクセシビリティ違反が依然として多く存在し,対応に課題がある。
- WCAG2違反を検出し,視覚情報と違反情報を条件としてHTMLを修正することで,アクセシビリティ改善を自動化する。
- 提案手法は,ウェブサイト1つあたりの平均違反数を5.34から0.44に効果的に削減することを示した。
- 商用LLM API(Gemini,GPT-5)と比較して,優れた性能を発揮することが確認された。
- 修正されたウェブサイトは,元の視覚的外観とコンテンツを維持していることが,知覚研究により裏付けられた。
音声言語モデルにおけるテスト時スケーリングを用いた曖昧な感情の解読 [cs.SD, cs.AI, eess.AS]目的:音声における曖昧な感情認識のためのベンチマーク
- 人間らしい会話型AIの実現には,音声からの感情認識が不可欠である。
- 現実世界の感情は曖昧で重なり合い,文脈に依存するため,モデル化が困難である。
- 大規模音声言語モデルとテスト時スケーリングの有効性を検証し,曖昧な感情認識の課題を明らかにする。
- 本研究では,音声言語モデルとテスト時スケーリングを用いた曖昧な感情認識のベンチマークを新たに構築した。
- 8つの最先端音声言語モデルと5つのテスト時スケーリング戦略を比較評価した結果,モデルの能力とテスト時スケーリングが曖昧な感情認識に影響を与えることが示された。
- このベンチマークは,より堅牢で文脈を考慮した,感情的に知的な音声AIシステムの開発の基礎となる。
3Dガウススプラッティングアセットの知的財産保護:サーベイ [cs.CV, cs.CR]目的:3Dガウススプラッティングアセットの知的財産保護に関する現状と課題
- 3Dコンテンツの活用が拡大し,その知的財産保護の重要性が高まっている。
- 3DガウススプラッティングのIP保護に関する研究は分断されており,体系的な整理が不足している。
- 3Dガウススプラッティングアセットの信頼性と安全性を担保するためのIP保護技術を確立すること。
- 本調査は,3DガウススプラッティングのIP保護に関する最初の体系的なサーベイである。
- ガウスベースの摂動メカニズム,受動的・能動的保護パラダイム,そして生成AI時代の脅威を包括的に分析した。
- IP保護における技術的な課題と脆弱性を明らかにし,今後の研究の方向性を示した。
TruKAN: truncated power関数を用いたより効率的なKolmogorov-Arnoldネットワークに向けて [cs.CV, cs.AI, cs.LG]目的:Kolmogorov-Arnoldネットワークの効率性向上
- Kolmogorov-Arnoldネットワークは,関数近似において高い表現力を持つ。
- 従来のネットワークでは,計算効率と表現力のバランスが課題だった。
- truncated power関数を用いて,計算効率と表現力を両立することを目指す。
- TruKANは,従来のKANと比較して,精度,計算効率,メモリ使用量の全てで優れていた。
- truncated power関数を用いることで,ネットワークの解釈性が向上した。
- EfficientNet-V2との統合により,複雑な画像認識タスクにおいても高い性能を発揮した。
DiGAN:拡散を誘導する注意ネットワークによる早期アルツハイマー病検出 [cs.CV, cs.AI, cs.LG]目的:早期アルツハイマー病検出のための手法
- アルツハイマー病は高齢化社会において重要な課題であり,早期発見が治療に繋がる。
- プロドロマル期における脳構造変化は微細かつ不規則であり,既存手法では検出が困難である。
- 限られたデータから脳画像経時変化を合成し,早期アルツハイマー病検出の精度向上を目指す。
- DiGANは潜在拡散モデルと注意機構を組み合わせることで,従来の深層学習手法の課題を克服した。
- 合成データとADNIデータセットの実験により,DiGANが最先端の手法を上回る性能を示すことが確認された。
- DiGANは,臨床データにおける時間的連続性とモダリティの不規則性を効果的にモデル化できる。
PriorProbe:表情認識におけるニューラルネットワークの個人化のための個別事前知識の回収 [cs.CV, cs.AI]目的:表情認識におけるニューラルネットワークの個人化のための個別事前知識の回収と活用
- 人間の認知特性を考慮することで,ニューラルネットワークの性能向上が期待される分野である。
- 既存手法では,個人の事前知識を正確に特定したり,系統的な偏りを導入したりする問題がある。
- PriorProbeにより,個人の事前知識を正確に回収し,ニューラルネットワークの個人化を実現する。
- PriorProbeによって回収された事前知識は,最先端のニューラルネットワークの性能を大幅に向上させた。
- ニューラルネットワーク単体や,他の事前知識と比較しても優れた結果が得られた。
- また,PriorProbeは,ネットワークの正確な推論能力を維持しながら個人化を達成した。
アディティブマニュファクチャリングにおける自動的な孔検出と重要度評価のための説明可能なコンピュータビジョンフレームワーク [cs.CV, cs.AI, cs.CE, cs.LG]目的:アディティブマニュファクチャリングにおける孔の検出と重要度の評価
- アディティブマニュファクチャリングの品質と信頼性を確保するため,内部欠陥の検出が不可欠である。
- 既存の自動欠陥検出方法は解釈可能性に欠け,欠陥の重要度の根拠が不明確である。
- 欠陥の重要度評価の根拠を明らかにし,製造プロセスの最適化に役立てる。
- 機械学習モデルによる重要度予測において,表面距離が他の特徴量よりも圧倒的に大きな影響を与えることが示された。
- 孔のサイズや幾何学的パラメータは重要度予測にほとんど影響を与えないことが明らかになった。
- 表面との距離と重要度の間に強い負の相関関係があり,境界に起因する破壊メカニズムを示唆している。
4DPC$^2$hat:失敗に強いブートストラップによる動的点群理解に向けて [cs.CV]目的:動的点群理解のための大規模なクロスモーダルデータセットと,それを活用するMLLMの構築
- 3次元物体の表現として点群は有用であり,近年,マルチモーダル大規模言語モデルへの応用が進んでいる。
- 既存手法は静的な物体に焦点を当てており,動的点群シーケンスの理解は未開拓の領域である。
- 大規模データセットの不足と,時空間的コンテキストにおける運動のモデリングの難しさを克服することを目指す。
- 4DPC$^2$hat-200Kという大規模なクロスモーダルデータセットを構築し,動的点群理解を支援する。
- Mambaエンハンスメントによる時間的推論機能を備えたMLLMを導入し,点群シーケンス間の長距離依存関係と動的パターンを捉える。
- 失敗に強いブートストラップ学習戦略により,モデルの欠点を特定し,対応する推論能力を継続的に強化する。
セグメンテーション後の監査:言語参照オーディオビジュアルセグメンテーションのための参照不要マスク品質評価 [cs.CV, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS]目的:言語参照オーディオビジュアルセグメンテーションにおけるマスク品質の評価
- 近年,映像,音声,テキストを統合的に解析する技術が発展しており,その応用範囲は広い。
- セグメンテーションマスクの品質評価は重要だが,参照データなしで行うことは困難である。
- 本研究は,参照データなしでセグメンテーションマスクの品質を評価し,改善を促すことを目指す。
- 本研究では,参照データなしのマスク品質評価タスク(MQA-RefAVS)を提案し,多様なマスクエラーモードのベンチマーク(MQ-RAVSBench)を構築した。
- 提案手法MQ-Auditorは,マルチモーダル大規模言語モデル(MLLM)を用いて,定量・定性のマスク品質評価を実現した。
- 実験により,MQ-Auditorが既存のMLLMを上回り,セグメンテーションシステムの改善に貢献できることが示された。
GPAIR:ガウスカーネルに基づく超高速3次元光音響反復再構成法 [cs.CV]目的:3次元光音響断層撮影における超高速な反復再構成
- 光音響断層撮影は,生体組織の機能と構造を非侵襲的に可視化する技術として,臨床応用が期待されている。
- 反復再構成法は画質に優れるが,特に大規模3次元画像では再構成に時間がかかり,実用上の課題となっていた。
- 本研究は,再構成速度の飛躍的な向上を図り,臨床応用の促進を目指している。
- 提案手法GPAIRは,ガウスカーネルとGPUを活用することで,従来の反復再構成法に比べて大幅な高速化を実現した。
- 動物実験において,840万ボクセルの3次元ターゲットの再構成を1秒未満で達成し,実用的な速度を示した。
- この高速再構成技術は,大規模3次元光音響断層撮影のリアルタイム化を可能にし,臨床応用への道を開く。
動物画像に対するゼロショットクラスタリングのためのVision Transformer:比較ベンチマーク研究 [cs.CV, cs.AI]目的:動物画像の種レベルクラスタリング
- 生態学的調査において,動物画像のラベル付けは大きな課題であり,生物多様性モニタリングの効率を制限している。
- 大量の未ラベル動物画像を扱う際に,手動によるラベル付けの労力がボトルネックとなっている。
- ViTモデルを用いて,ラベル付けなしで効率的に動物画像を種レベルで分類することを目指す。
- DINOv3埋め込みとt-SNE,および教師あり階層的クラスタリングを組み合わせることで,ほぼ完璧な種レベルクラスタリング(V-measure: 0.958)が達成された。
- 教師なしアプローチは,事前知識なしで競争力のある性能(0.943)を示し,専門家によるレビューが必要な外れ値をわずか1.14%に抑えた。
- 意図的な過剰クラスタリングにより,年齢層,性的二型性,毛皮の違いなど,種内変異を確実に抽出できることが示された。
視覚モデルからLVLMへのバイアス軽減のベンチマーク:公平性と危害回避に向けて [cs.CV, cs.LG]目的:バイアス軽減手法の有効性比較のための統一的ベンチマーク
- 実世界データに基づく機械学習モデルは社会集団に対するバイアスを内在し,大規模展開における倫理的懸念が高まっている。
- 既存のバイアス軽減手法の比較は,データセットの異質性や評価指標の不統一により困難である。
- 標準化されたデータと指標を用いた,公平性と精度を両立する効果的なバイアス軽減手法の特定を目指す。
- NH-Fairは,視覚モデルと大規模視覚言語モデル(LVLM)の両方に対応した公平性評価のベンチマークである。
- 多くのバイアス軽減手法は,適切に調整されたERMベースラインを安定的に上回らず,複合データ拡張手法が有効であることが示された。
- LVLMは平均精度が高いが,サブグループ間の不均衡は依然として存在し,モデルの規模拡大による改善は限定的である。
HY3D-Bench:3Dアセットの生成 [cs.CV, cs.AI]目的:3D生成のための統一的で高品質な基盤
- 近年のAI技術発展により3Dコンテンツ生成が注目されている。
- 大規模なデータ処理のボトルネックが3Dコンテンツ作成の制約となっている。
- 多様な3Dアセットの不足を補い,データアクセスを容易にすること。
- HY3D-Benchは,25万件の高精度な3Dオブジェクトのライブラリを構築した。
- 構造化されたパートレベル分解を導入し,詳細な知覚と制御可能な編集を可能にした。
- AIGC合成パイプラインにより12.5万件の合成アセットを追加し,多様性を向上させた。
GPS困難な都市環境における協調測位:ポイントクラウドの融合による車両を超えて [cs.RO, cs.CV]目的:都市部における車両の協調測位手法
- 自動運転やロボティクスにおいて,正確な自己位置推定は不可欠である。
- 都市部の高層ビルや構造物により,GPS信号が遮断・減衰しやすい。
- GPSに依存しない,よりロバストな測位システムの構築が求められている。
- 車両間(V2V)および車両-インフラ間(V2I)通信による協調測位を提案する。
- LiDARやステレオカメラ等のポイントクラウドデータを融合し,SLAMアルゴリズムに組み込む。
- インフラからの情報共有により,GPS信号が不安定な環境下での測位精度と信頼性を向上させる。
エントロピーを考慮した構造的アライメントによるゼロショット手書き中国文字認識 [cs.CV, cs.AI, cs.LG]目的:未視認文字の認識
- 手書き中国文字認識は,文化的遺産や情報アクセシビリティにおいて重要な役割を果たす。
- 既存手法では,文字の階層構造や各構成要素の情報密度が考慮されていない。
- 文字の構造的特徴を捉え,視覚と意味のギャップを埋めることを目指す。
- 提案手法は,情報理論的モデリングにより,位置埋め込みを動的に調整し,識別力の高い要素を優先する。
- 二つの視点からラジカルツリーを構築し,多粒度構造特徴を抽出,グローバルレイアウトとローカル空間役割をエンコードする。
- セマンティック近傍の重心を利用することで,視覚的な曖昧さを特徴レベルでの合意によって修正する。
物理科学のための高忠実度離散トークン化学習:Phaedra [cs.CV, cs.AI, cs.CE, cs.LG]目的:物理科学画像におけるPDE特性の忠実度を測る指標を用いた画像トークナイザーの精度評価と,その改善
- 深層学習の規模拡大に不可欠であり,画像・動画生成,物理シミュレーションなど幅広い分野で基盤技術となっている。
- 既存のトークナイザーは現実的な視覚認識に最適化されており,物理的・分光学的特性を保持する必要がある科学画像には不向きな点がある。
- 科学画像特有のダイナミックレンジに対応し,PDE特性をより忠実に捉えるトークナイザーを開発することで,その精度向上を目指す。
- 提案手法Phaedraは,古典的な形状-ゲイン量子化と固有直交分解に触発されており,様々なPDEデータセットにおいて再構成精度を向上させる。
- Phaedraは,異なる条件の既知のPDE,未知のPDE,現実世界の地球観測・気象データといった複雑性の異なるタスクにおいて,高い分布外汎化能力を示す。
- 既存の画像トークナイザーでは,微細な詳細と正確な大きさの両方を捉えるのが難しいという課題を克服している。
SpatiaLab:大規模言語モデルは現実世界で空間推論を行えるか [cs.CV, cs.CE, cs.CL, cs.LG]目的:視覚と言語モデルにおける空間推論能力の評価
- 空間推論は人間認知の根幹であり,AIにおける高度な理解に不可欠である。
- 既存の評価は合成環境や単純なタスクに偏り,現実世界の複雑さを捉えきれていない。
- 現実的で制約のない環境下での空間推論能力を評価し,課題を明確にすること。
- SpatiaLabは,相対位置,奥行き,方向など6つの主要カテゴリからなる大規模なベンチマークである。
- 最先端の視覚言語モデルは,人間の精度と比較して,空間推論において顕著な差が見られた。
- SpatiaLabは,空間推論能力の向上に向けた研究を促進するための評価フレームワークを提供する。
エントロピーがマスク自己教師ありVision Transformerにおけるブロック重要度を明らかにする [cs.CV]目的:マスク自己教師ありVision Transformerにおけるブロック重要度の推定
- 大規模モデルの効率的な利用が重要視されるなか,モデル圧縮技術は不可欠である。
- Transformerモデルのブロック全てが同程度に重要という仮説が未検証であった。
- データを用いずにブロック重要度を推定し,効率的なモデル圧縮を実現すること。
- 事前学習済みブロックの重みの情報エントロピーと,ブロック削除による性能変化の相関が確認された。
- 提案手法Gardenerは,データを用いずにブロック重要度を推定し,不要なブロックを特定できる。
- VideoMAE-Bを用いた実験で,最大91.7%のブロックを削減しても高い転移学習性能を維持した。
分布外汎化性能の診断としての表現幾何学 [cs.LG, cs.CV, math.DG, math.GN]目的:分布外データのロバスト性評価指標
- 機械学習モデルの汎化性能評価は重要であり,特に分布外データへの対応能力は不可欠である。
- 分布外データに対する性能予測が難しく,同じ精度でもロバスト性に差が生じることが課題である。
- 学習済み埋め込みの幾何学的構造からロバスト性を診断し,ラベルなしでcheckpointを選択すること。
- 埋め込み空間のスペクトル複雑性とオッリビエ・リッチ曲率が,分布外データの精度と相関することが示された。
- スペクトル複雑性の低下とリッチ曲率の上昇は,よりロバストなモデルを示す指標となりうる。
- 表現幾何学は,解釈可能なロバスト性診断を可能にし,分布シフト下でのcheckpoint選択を支援する。
VLS:ビジョン言語モデルによる事前学習済みロボットポリシーの制御 [cs.RO, cs.CV]目的:事前学習済みロボットポリシーの,視覚と言語による制御手法
- ロボットの汎用的な動作獲得には,環境変化への適応能力が不可欠である。
- 従来の模倣学習は,学習時の環境に依存し,未知の環境への適応が課題である。
- 学習済みポリシーの再学習を避け,推論時に環境に適応する手法を開発する。
- VLSは,推論時に視覚と言語情報を用いて,事前学習済みポリシーのサンプリングを制御する。
- 報酬関数を合成し,環境の変化に対応した行動軌道へと誘導することで適応を実現する。
- シミュレーションと実機実験で,既存手法を上回り,高い適応性能を示すことが確認された。
静的・動的分割による長視野の視覚言語行動モデルの効率化 [cs.RO, cs.CV]目的:視覚情報と言語指示に基づいたロボット制御のための効率的なモデルの構築
- 汎用的なロボット制御の実現には,視覚と言語を理解し,それに基づいて行動を決定するモデルが不可欠である。
- 既存の視覚言語行動モデルは,長時間の文脈を捉える能力や計算効率に課題があった。
- 視覚情報の静的・動的な要素を分離することで,計算負荷を軽減し,長時間の文脈を効率的に処理することを目指す。
- 提案手法SD-VLAは,静的トークンを再利用することで,文脈長を大幅に削減し,効率的な推論を可能にした。
- 新しいベンチマークにおいて,SD-VLAはベースラインと比較して成功率を39.8%絶対的に向上させた。
- また,SimplerEnvベンチマークでは3.9%の性能向上と,2.26倍の推論速度向上を達成し,実用的な展開に貢献する。
プロンプトレベルの不一致を明らかにするPromptSplit [cs.LG, cs.AI, cs.CV]目的:生成モデル間のプロンプト依存性の不一致の検出と分析
- 生成AIモデルは急速に発展しており,その多様な挙動を理解する必要がある
- 異なるデータやアーキテクチャで学習されたモデル間の挙動の違いを特定する方法が不足している
- 生成モデルがどこで意見を異にするかを検出し,解釈可能なツールを提供する
- PromptSplitは,プロンプトと出力の表現をテンソル積埋め込みで構築し,カーネル共分散行列を計算する
- 行列差分の重み付き固有空間を用いて,プロンプト間の行動の違いの主要な方向性を特定する
- テキスト・画像間,テキスト・テキスト間,画像・キャプション間の設定で,PromptSplitは挙動の違いを正確に検出し,原因となるプロンプトを特定する
TiCLS:密結合言語テキストスポッター [cs.CV]目的:シーンテキストスポッティングにおける性能向上
- 現実世界の画像からテキストを検出・認識する技術であり,実用性が高い。
- 既存手法は視覚情報に依存し,言語知識の活用が不十分である。
- 言語モデルを活用し,曖昧なテキストの認識精度向上を目指す。
- TiCLSは,事前学習済みの言語モデルを利用し,視覚情報と言語情報を融合する。
- これにより,断片的なテキストや曖昧なテキストの認識性能が向上する。
- ICDAR 2015とTotal-Textでの実験で,TiCLSが最先端の性能を達成した。
AnyStyle:3Dガウススプラッティングのための単一パス多様式スタイル化 [cs.CV]目的:3Dガウススプラッティングによる,姿勢フリーなゼロショットスタイル化
- 3D資産作成の需要増加に伴い,迅速かつスケーラブルな手法が求められている。
- 3D再構成パイプラインへのスタイル化統合が十分に進んでいない。
- テキストや画像を用いた,より柔軟なスタイル制御を実現する。
- AnyStyleは,既存のスタイル化手法と比較して,スタイル制御性を向上させている。
- 高品質な幾何学的再構成を維持しつつ,多様なスタイルを適用可能である。
- ユーザー調査の結果,AnyStyleは最先端手法よりも優れたスタイル化品質を達成していることが確認された。
組込み深層学習アプリケーションのためのパラメータ化可能な畳み込みアクセラレータ [cs.CV, cs.AR]目的:組込み深層学習アプリケーション向け畳み込みアクセラレータの設計手法
- 深層学習は画像認識など多様な分野で活用が広がっており,高速処理の重要性が増している。
- 既存のアクセラレータは性能偏重で,消費電力や実装面積等の制約への対応が課題である。
- 複数の設計制約を考慮した効率的な最適化を可能にする設計手法の確立を目指す。
- 提案手法は,高レベル合成ツールを用いてパラメータ化された設計を可能にし,多様な制約条件への対応を容易にする。
- 実験結果から,提案手法が従来の非パラメータ化設計手法よりも優れた性能を示すことが確認された。
- この設計手法は,他の深層学習アプリケーションにも容易に拡張可能である。
マルチ染色組織切片ペアの登録品質評価のための高速・教師なしフレームワーク [cs.CV]目的:マルチ染色組織切片ペアの登録品質評価
- 病理診断の精度向上に不可欠であり,分子解析との統合も重要である。
- 正確な評価には専門家の注釈が必要で,時間と労力がかかる。
- グランドトゥルース(GT)なしで,高速かつ信頼性の高い品質評価を実現する。
- 提案手法は,ダウンサンプリングされた組織マスクと変形に基づく指標を組み合わせて,登録品質を評価する。
- マスクに基づく指標は全体的な構造対応性を,変形に基づく指標は局所的な滑らかさを評価する。
- 複数のIHCマーカーと専門家による評価において,自動指標と人間の評価との間に強い相関が認められた。
AFMにおけるアーティファクト除去と画像復元:構造化マスク誘導方向性インペインティング手法 [cs.HC, cs.FL, math.CT, math.DS, nlin.CG, cs.RO, cs.CV]目的:AFM画像におけるアーティファクト検出と復元
- ナノスケールでの高解像度表面観察を可能にするAFMは,科学技術の発展に不可欠である。
- AFM画像は環境ノイズやスキャン欠陥によりアーティファクトが発生し,データ解釈を困難にする。
- AFM画像のアーティファクトを自動的に検出し,高精度に復元することで,データ信頼性を向上させる。
- 提案手法は,AFM画像に存在するアーティファクトを高精度に検出する分類モデルとセマンティックセグメンテーションネットワークを活用する。
- 生成されたマスクは構造的特徴を考慮して拡張され,方向性に基づいた補間により3次元表面の連続性を維持した復元を実現する。
- 実験結果は,ナノスケールの構造詳細を保持しつつ,効果的なアーティファクト除去が可能であることを示している。
散乱を克服して:反復的な物体除去による構造化3Dシーン再構成 [cs.CV]目的:単一画像からの構造化3D表現の再構成
- 3Dシーンの理解は,ロボティクスや拡張現実などの分野において不可欠である。
- 複雑なシーンや遮蔽物がある環境では,既存手法の性能が低下する。
- 遮蔽や散乱の多いシーンにおいても,高精度な3D再構成を可能にすること。
- 本手法は,物体を一つずつ反復的に除去することで,よりクリーンなセグメンテーションを実現する。
- タスク固有の学習を必要とせず,基盤モデルの進歩を直接的に活用できる。
- 3D-FrontおよびADE20Kデータセットにおいて,最先端の堅牢性を示す。
SEIS:ニューラル表現に対する部分空間ベースの等変性と不変性スコア [cs.LG, cs.CV]目的:ニューラル表現における幾何学的変換への応答性の理解
- 学習された特徴が意味のある空間構造を保持しているか評価する上で重要である
- 既存手法では内部表現の幾何学的情報がどのように整理されているか洞察しにくい
- 内部表現における等変性と不変性を分離し,情報損失と再符号化を区別すること
- SEISは,層ごとの特徴表現を幾何学的変換下で分析するための部分空間指標である。
- 学習済み分類ネットワークへの適用により,初期層で等変性から深い層で不変性への移行が明らかになった。
- データ拡張は不変性を高めながら等変性を維持し,多タスク学習は共有エンコーダで両方の特性を相乗的に向上させる。
iSight:免疫組織化学染色解釈の改善に向けた専門家とAIの共同評価 [cs.CV]目的:免疫組織化学染色の自動評価のための多タスク学習フレームワークの開発
- 病理診断や疾患の選別において,組織におけるタンパク質発現情報を得る上で,免疫組織化学が重要な役割を担う。
- H&E染色画像に対するAIモデルは有望視される一方,ドメイン固有の変動により免疫組織化学への適用は限定的である。
- 大規模な免疫組織化学画像データセットとAIフレームワークを構築し,染色の正確な評価を支援することで,診断精度向上を目指す。
- iSightは,染色強度,位置,量,組織型,悪性度を同時に予測する。
- 独立データセットにおいて,iSightは既存モデルを上回り,高い精度(位置85.5%,強度76.6%,量75.7%)を達成した。
- 病理医の評価と比較して,iSightはHPAデータセット上でより高い精度を示し,AI支援により病理医間の合意度も向上した。
BASS:音楽構造と意味的推論のための音声LMのベンチマーク [cs.SD, cs.CL]目的:音楽構造と意味的推論に関する音声言語モデルの評価
- 音楽理解は複雑であり,構造的・意味的要素の両方に対する推論が必要となるため,重要性が高い。
- 既存のモデルは,音楽構造,ボーカル,音楽学的属性に関する推論能力に限界がある。
- 音声言語モデルにおける音楽理解と推論能力の現状を明らかにし,今後の発展を促す。
- BASSは,構造的セグメンテーション,歌詞の書き起こし,音楽学的分析,アーティストのコラボレーションという4つのカテゴリーで構成される。
- 最新モデルでさえ,構造的セグメンテーションやアーティストのコラボレーションといった高次の推論タスクで苦戦している。
- BASSは,音楽推薦や検索への応用が期待され,音声LM開発の指針となる可能性を秘めている。
VideoBrain:長編ビデオ理解のための適応的フレームサンプリング学習 [cs.CV]目的:長編ビデオ理解における効率的なフレームサンプリング戦略
- 長編ビデオ理解は,計算資源の制約と情報の捕捉の必要性のバランスが難しいため,重要な研究課題である。
- 既存手法では,均一サンプリングによる情報損失や,一度の選択による回復不可能なキーフレーム選択の問題がある。
- 学習されたサンプリングポリシーにより,VLMsが適応的に視覚情報を獲得し,上記の問題を解決することを目指す。
- VideoBrainは,セマンティック検索と密な時間的サンプリングを行う二つのエージェントを活用し,VLMsが直接フレームを認識して情報充足性を判断する。
- 行動を考慮した報酬関数とデータ分類パイプラインにより,エージェントの無駄な呼び出しを抑制し,効果的な学習を促進する。
- 4つの長編ビデオベンチマークで,ベースライン比+3.5%〜+9.0%の性能向上を達成し,フレーム使用量を30-40%削減。短編ビデオへの汎化性能も高い。
DMS2F-HAD:ハイパースペクトル異常検知のための二分岐Mambaベース空間スペクトル融合ネットワーク [cs.CV, cs.AI]目的:ハイパースペクトル画像の異常検知
- 高次元ハイパースペクトル画像から稀少な異常を検出することは,環境監視や精密農業等において重要である。
- 従来の深層学習手法は,長距離スペクトル依存性の捕捉や計算コストの高さといった課題を抱えていた。
- Mambaを用いた効率的な空間・スペクトル特徴抽出と動的ゲート融合により,異常検知の精度と効率を向上させる。
- 提案手法DMS2F-HADは,14のベンチマークデータセットにおいて,平均AUCで最先端の98.78%を達成した。
- DMS2F-HADは,既存の深層学習手法と比較して,推論速度が4.6倍高速である。
- これらの結果は,DMS2F-HADの優れた汎化性能とスケーラビリティを示しており,実用的な異常検知アプリケーションに適している。
SuperPoint-E:内視鏡下でのトラッキング適応による3D再構築のための局所特徴点 [cs.CV]目的:内視鏡動画におけるStructure-from-Motion(SfM)の性能向上を目指した特徴抽出の強化
- 医療分野において,内視鏡を用いた3D再構築は,術前計画や手術支援に不可欠な技術である。
- 内視鏡動画は,テクスチャが乏しく,照明条件が変化しやすく,特徴点抽出が困難である。
- 内視鏡動画におけるSfMの精度を向上させるため,ロバストな特徴点検出・記述手法を開発する。
- 提案手法SuperPoint-Eは,トラッキング適応による教師あり学習により,内視鏡動画における特徴点検出と記述の質を大幅に向上させた。
- SuperPoint-Eを用いた3D再構築は,既存手法と比較して,より高密度で,より広範囲かつ長時間の動画セグメントをカバーすることが示された。
- SuperPoint-Eの記述子は識別能力が高く,特徴点マッチングの精度が向上し,SfMパイプライン全体を改善した。
属性と重要度が選好を決定する安定マッチングのロバスト性 [cs.GT]目的:属性と重要度に基づいた安定マッチングにおけるロバスト性の評価
- マッチング市場は,スポーツ選手のスカウトや大学の入学選考など,様々な分野で重要な役割を果たす。
- 重要度の変化が選好に影響を与えるため,安定マッチングの安定性が損なわれる可能性がある。
- 安定マッチングが重要度の変化に対してどの程度安定であるかを定量的に評価する。
- 重要度の変化に対するロバスト性を半径として定義し,その半径内で安定マッチングがブロックされないことを確認するアルゴリズムを開発した。
- 与えられた安定マッチングの最大ロバスト性半径を多項式時間で計算するアルゴリズムを提案した。
- ロバスト性とコストのトレードオフを効率的に計算できる境界を特徴づけ,最もロバストな安定マッチングを近似する探索アルゴリズムを設計した。
動的なゲーム環境におけるスケーラブルなナビゲーションのためのマルチスレッドRecastベースA*経路探索 [cs.GR, cs.RO]目的:動的なゲーム環境におけるスケーラブルなナビゲーション手法
- ゲーム開発において,現実的で効率的なナビゲーションは重要な課題である。
- 従来のA*アルゴリズムは,複雑な環境下で計算コストが高くなるという課題がある。
- 本研究は,A*アルゴリズムの性能を向上させ,大規模なエージェント群のナビゲーションを実現する。
- マルチスレッド化とRecastによるメッシュ生成により,計算負荷を軽減し,処理速度を向上させた。
- ベジェ曲線による軌道平滑化と密度解析により,より自然で衝突のない群集ナビゲーションを実現した。
- 1000エージェントの同時実行環境において,350FPS以上のフレームレートを維持することに成功した。
JSynFlow: 大規模言語モデルを用いた日本語フローチャート視覚質疑応答データセット [cs.CV, cs.AI]目的:日本語フローチャートに関する視覚質疑応答タスクのための合成データセット
- フローチャートは,テキストだけでは得られない貴重な洞察を提供する。ビジネスシーンでの活用が期待される。
- フローチャートの正確な理解を必要とする視覚言語モデルの開発には,大規模なデータセットが不可欠である。
- 大規模言語モデルを用いて日本語フローチャートのデータセットを自動生成し,視覚言語モデルの性能向上を目指す。
- 本研究で開発したJSynFlowデータセットは,多様なビジネス職種に関するフローチャート画像と質疑応答ペアを含む。
- JSynFlowによるファインチューニングは,フローチャートベースの質疑応答タスクにおいて視覚言語モデルの性能を大幅に向上させる。
- JSynFlowデータセットはHugging Faceで公開されており,研究コミュニティへの貢献が期待される。
材料セグメンテーションにおける最適なアーキテクチャはコンテキストによって決定される [cs.CV]目的:材料画像セグメンテーションにおける最適なアーキテクチャの決定
- 材料科学研究において,画像解析は材料の特性評価に不可欠であり,その精度向上は重要である。
- 単一のモダリティに最適化されたアーキテクチャが,他のモダリティでは性能を低下させる場合がある。
- 異なる画像モダリティにおける最適なアーキテクチャの選択を支援し,信頼性の高い予測を可能にすること。
- SEM,AFM,XCT,光学顕微鏡を含む多岐にわたる画像モダリティを用いた評価により,最適なアーキテクチャがコンテキストによって変化することが示された。
- UNetは高コントラストな2D画像に,DeepLabv3+は困難なケースに優れていることが明らかになった。
- 本研究は,材料特性評価におけるアーキテクチャ選択の指針,信頼性評価,解釈可能性を提供することで,実用的な課題を解決する。
PFluxTTS:堅牢なクロスリンガル音声クローニングと推論時モデル融合を備えたハイブリッドFlow-Matching TTS [cs.RO, cs.HC, cs.SD]目的:Flow-Matching TTSにおける安定性と自然さのトレードオフ,弱いクロスリンガル音声クローニング,および低レートのメル特徴量からの音質制限
- 音声合成技術は,人間とコンピュータ間の自然なコミュニケーションを可能にする上で重要である。
- 既存のFlow-Matching TTSは,高品質な音声を生成するために安定性と自然性のバランスを取ることが難しい。
- 多様な言語間で高品質な音声クローニングを実現し,低レートのメル特徴量でも優れた音質を確保すること。
- PFluxTTSは,デュアルデコーダ設計と推論時ベクトル場融合により,F5-TTS,FishSpeech,SparkTTSを凌駕する性能を示した。
- 自然さの評価(MOS 4.11)ではChatterBoxと同等でありながら,WER(単語誤り率)は23%低く,また,ElevenLabsよりも話者類似性(+0.32 SMOS)が高い。
- 短い参照音声のみで,追加のトレーニングなしに,多くのオープンソースモデルが失敗する困難なシナリオでも堅牢な性能を維持する。
3D医用画像における2D拡散モデルの改善:スライス間一貫性のある確率的アプローチ [cs.CV, cs.AI, eess.IV]目的:3D医用画像再構成における2D拡散モデルの性能向上
- 臨床診断や科学研究において,3D医用画像は不可欠であり,その需要は高い。
- 3Dデータの分布学習は,データ収集の困難さや計算コストの高さから課題となる。
- 拡散サンプリングにおけるスライス間不連続性を抑制し,高精度な3D再構成を実現する。
- 本研究では,拡散サンプリングにおける確率的ノイズ成分の一貫性を制御する「スライス間一貫性のある確率的アプローチ (ISCS)」を提案した。
- ISCSは,追加の損失関数や最適化ステップなしに,既存の2D訓練済み拡散モデルに容易に組み込むことができる。
- 実験の結果,ISCSは様々な医用画像再構成タスクにおいて,2D拡散モデルに基づいた3D画像品質を効果的に向上させることが示された。
疎な点による誘導を用いた動画へのオブジェクト挿入 [cs.CV]目的:動画への柔軟かつユーザフレンドリーなオブジェクト挿入
- 動画編集のニーズ増加に伴い,オブジェクト配置の効率化が重要である。
- 従来のマスクベース手法は手間がかかり,指示ベース手法は正確な配置が難しい。
- 疎な点による誘導で正確なオブジェクト配置を可能にし,労力を削減する。
- Point2Insertは,マスクや指示に頼らず,少数の点のみでオブジェクトを挿入可能である。
- マスクによる編集モデルを教師として活用し,点誘導モデルへの知識蒸留を行う。
- 実験の結果,Point2Insertは既存手法を凌駕し,パラメータ数が10倍のモデルを超える性能を示した。
部分リングスキャン:ビジョン状態空間モデルにおけるスキャン順序の再検討 [cs.CV]目的:ビジョン状態空間モデルにおけるスキャン順序の影響と,その改善手法
- 画像処理において,効率的かつ高精度なモデルの構築が求められている。特に,長距離依存関係のモデル化が重要である。
- 従来のビジョン状態空間モデルでは,画像の2次元構造を1次元のトークン列に変換するスキャン順序が性能に大きな影響を与える可能性がある。
- 回転に対するロバスト性を高め,精度と効率を向上させる新たなスキャン順序の設計を目指す。
- PRISMambaはImageNet-1Kにおいて,84.5%のTop-1精度を達成し,VMambaよりも高い精度とスループットを示した。
- PRISMambaは,回転変形下においても性能を維持し,従来の固定パススキャンと比較して1〜2%の性能低下を抑制した。
- スキャン順序の設計とチャネルフィルタリングが,ビジョン状態空間モデルの精度,効率,回転ロバスト性に不可欠であることが示された。
GenMRP:効率的で個別化されたリアルタイム産業用ナビゲーションのための生成型マルチルート計画フレームワーク [cs.RO, cs.GR, cs.IR]目的:効率的かつ個別化された産業用ナビゲーションのためのマルチルート計画
- 産業規模のナビゲーションは,物流効率化に不可欠であり,その重要性は増している。
- 従来のルート計画手法は,多様性やリアルタイム性,個別化対応に課題があった。
- 大規模な産業環境において,効率性と多様性を両立するルート計画を実現すること。
- GenMRPは,大規模な道路ネットワークから関連するサブネットワークを動的に構築することで,生成効率を高めている。
- 最適なルートをまず特定し,その後,修正ブースティングを用いて,品質と多様性のバランスが取れた代替ルートを生成する。
- オフラインおよびオンライン環境の両方で,最先端の性能と高い効率を達成し,実用性を実証している。
HoloEv-Net:ホログラフィック空間埋め込みとグローバルスペクトルゲーティングによる効率的なイベントベース行動認識 [cs.CV, cs.AI]目的:イベントベース行動認識の効率化
- イベントカメラは高時間分解能と高ダイナミックレンジを持ち,行動認識における応用が期待される。
- 既存手法は,計算冗長性や構造冗長性,スペクトル情報の未活用といった課題を抱えている。
- 本研究は,効率的な表現学習と構造設計により,これらの課題を解決することを目指す。
- 提案手法HoloEv-Netは,コンパクトなホログラフィック空間埋め込みにより,計算・構造冗長性を抑制する。
- グローバルスペクトルゲーティングモジュールにより,周波数領域での特徴抽出を通じて,スペクトル情報を有効活用する。
- THU-EACT-50-CHL,HARDVS,DailyDVS-200において最先端の性能を達成し,軽量モデルは高い効率性を示す。
視覚言語行動モデルを用いた自律走行におけるシーン応答型ヒューマン・イン・ザ・ループ動作計画のための自然言語指示 [cs.CV, cs.AI, cs.LG, cs.RO]目的:自然言語指示に基づく軌道計画
- 自動運転技術の発展において,人間の意図を理解した安全な走行が重要である。
- 従来の指示追従型プランナーはシミュレーション環境に依存,または限定的な指示語彙しか扱えない。
- 現実世界の多様な指示に対応可能な,自律走行システムの軌道計画を改善する。
- 現実世界のデータセットdoScenesを活用し,OpenEMMAを自然言語指示に対応させることで再現性のあるベースラインを確立した。
- 指示に基づく条件付けにより,急激な計画の失敗を大幅に削減し,ロバスト性を向上させた(平均ADE98.7%減少)。
- 適切な指示文を用いることで,さらに軌道精度を向上させることが示された(最大でADEを5.1%改善)。
DiMo:モーション生成と理解のための離散拡散モデリング [cs.CV]目的:モーション生成と理解のための統一的フレームワーク
- モーション生成技術は,ロボット工学,アニメーション,VR/ARなど広範な分野で不可欠である。
- 既存手法はテキストからモーションへの変換に偏っており,双方向理解やモーション間の変換が課題である。
- テキスト・モーション間の双方向理解と生成を可能にし,多様なタスクに対応できるモデルを開発する。
- DiMoは,離散拡散モデルを用いて,テキストからモーション,モーションからテキスト,モーションからモーションといったタスクを単一のモデルで実現した。
- 残差ベクトル量子化(RVQ)とグループ相対ポリシー最適化(GRPO)により,モーションの品質と制御性を向上させた。
- HumanML3DとKIT-MLの実験で,高いモーション品質と双方向理解能力が確認された。
現実世界の超解像のための潜在的フローマッチングによる連続劣化モデリング [cs.CV]目的:現実世界の超解像学習のための大規模データセット生成
- 画像超解像は,医療,監視,衛星画像など,様々な分野で重要な役割を担う技術である。
- 既存の超解像技術は,単純な劣化モデルに依存しており,現実世界の複雑な劣化に対応できない場合が多い。
- 本研究は,潜在的劣化空間とフローマッチングを利用し,現実的な劣化を含む低解像画像生成を可能にする。
- 提案手法により生成された低解像画像は,現実世界の劣化を正確に再現することが定量・定性評価により確認された。
- 提案手法で学習された超解像モデルは,従来のモデルと比較して,より高画質な結果を生成することが示された。
- 本手法は,特定のダウンサンプリング係数に限定されず,任意のスケールでの超解像学習を可能にする。
VTok:分離された空間・時間潜在変数を持つ統一的な動画トークナイザー [cs.CV]目的:動画の生成と理解の両方に使用可能な,統一的な動画トークナイズフレームワーク
- 動画理解・生成技術は,多様な応用分野で重要性が増しており,高性能な動画表現が求められている。
- 従来の動画トークナイズ手法は,単純なフレームサンプリングに依存しており,動画の効率的な表現が課題であった。
- 本研究は,空間情報と時間情報を分離することで,よりコンパクトかつ表現力豊かな動画トークナイズ手法を確立する。
- VTokは,動画表現の複雑さを削減し,短いトークン列で高い性能を実現した。
- 動画理解ベンチマークにおいて,従来のトークナイズ手法と比較して高い精度を示した。
- テキストからの動画生成において,より一貫性のある動きと強い指示追従性を実現した。
AGMA:事前知識誘導型多次元人間軌跡予測のための適応ガウス混合アンカー [cs.CV, cs.LG]目的:歩行者の行動の多次元性を捉えた人間軌跡予測
- 人間中心の社会において,安全な移動やロボットとの協調に不可欠な技術である。
- 既存手法では,事前知識の不整合が課題であり,予測の精度と多様性を制限している。
- 高品質な事前知識を構築することで,軌跡予測の性能向上を目指す。
- 提案手法AGMAは,学習データから多様な行動パターンを抽出し,シーンに適応した事前知識を生成する。
- ETH-UCY,Stanford Drone,JRDBデータセットを用いた実験で,AGMAが最先端の性能を達成した。
- この結果は,高品質な事前知識が軌跡予測において極めて重要な役割を果たすことを示している。
トークンベース音声認識のためのフロントエンドトークン改善 [cs.SD, cs.CL, eess.AS]目的:ノイズに強い音声認識のためのトークン改善手法
- 音声認識は,人間と機械のコミュニケーションを円滑にする上で重要な技術である。
- 自己教師あり学習で得られるトークンはノイズに弱く,認識性能が低下しやすい。
- ノイズに強いトークンを生成し,音声認識のロバスト性を向上させる。
- 波形からトークンへの改善(wave-to-token)が,他の手法よりも優れた性能を示した。
- wave-to-tokenは,連続的な自己教師あり学習特徴量を用いたシステムよりも高い性能を達成した。
- 本研究により,ノイズ環境下での音声認識の性能向上が期待できる。
