arXiv雑要約
画像・音声 - 2025/12/16 公開
テスラの信号機・停止標識制御のベンチマーク:実地データセットと挙動に関する考察 [cs.RO, cs.CV, cs.HC]目的:テスラの信号機・停止標識制御(TLSSC)と交通管制装置(TCD)の相互作用挙動の分類と定量化
- 先進運転支援システム(ADAS)の安全性向上は重要であり,交通管制装置との相互作用理解が不可欠である。
- ADASと交通管制装置の相互作用に関する実証的な研究が不足している。
- TLSSCの挙動特性を明らかにし,ADAS-TCD間の相互作用ロジックの設計に資する基盤を提供する。
- 実験により,TLSSCの停止,加速,車間追従といった挙動を分類し,そのタクソノミを構築した。
- 車間追従の閾値(約90m)を新たに発見し,速度偏差と相対速度が停止挙動に強く影響することを定量的に示した。
- 交差点での車間追従挙動は,通常の車間追従よりもスムーズで,より安全な間隔を保つ傾向があることが明らかになった。
大規模言語モデル誘導注意による,クラウドソーシング洪水画像に対する都市視覚場所認識の強化 [cs.CY, cs.CL, cs.AI, cs.CV, cs.CY]目的:クラウドソーシング洪水画像に対する都市視覚場所認識の性能向上
- 災害対応において,迅速かつ正確な位置情報が不可欠であるため,画像の位置特定技術の重要性が高い。
- 異なる情報源からの画像間で,視覚的な歪みやドメインの変化により,既存の視覚場所認識モデルの性能が低下する。
- 大規模言語モデルを活用し,画像中の位置情報を特定し,ノイズを除去することで,視覚場所認識の精度向上を目指す。
- 本研究で提案するVPR-AttLLMは,既存の視覚場所認識パイプラインに大規模言語モデルの知識を統合し,特徴記述子の強化を実現した。
- SF-XLを含む複数のベンチマークにおいて,VPR-AttLLMを統合することで,CosPlace,EigenPlaces,SALADといった最先端の視覚場所認識モデルの再現率が向上した。
- 特に,実際の洪水画像においては,最大8%の改善が見られ,大規模言語モデル誘導マルチモーダル融合の有効性が示された。
考古学的遺物画像のスクレイピング,構造化,セグメンテーションのための再現可能なワークフロー [cs.CY, cs.CV]目的:考古学的遺物画像コレクションを構造化されたセグメンテーション準備完了データセットに変換するワークフロー
- 考古学研究における画像データの重要性は増しており,デジタルアーカイブの活用が不可欠である。
- 既存の考古学画像データは,ダウンロードや自動処理の仕組みが整っておらず,分析が困難である。
- ウェブベースの考古学画像コレクションを機械学習に適した形式に変換し,研究の再現性を高めることを目指す。
- ウェブスクレイピングスクリプトと画像処理パイプラインを開発し,考古学画像の収集,メタデータ抽出,ファイル名変更を自動化した。
- 古典的なコンピュータビジョン技術を用いて,画像からバイナリマスクとバウンディングボックスを生成し,COCO互換JSONファイルに保存した。
- オリジナル画像は再配布せず,マスクやアウトラインなどの派生産物のみを共有することで,倫理的配慮も行った。
ReGlove:手首装着型ビジョンによる日常生活支援のためのソフト空気圧グローブ [cs.CY, cs.CC, cs.DM, cs.CY, cs.CY, cs.CY, cs.RO, cs.CV]目的:日常生活支援のためのソフト空気圧グローブシステム
- 上肢機能障害は世界中で多くの人々を苦しめている。既存の支援技術は高価であるか,信頼性の低い生体信号に依存している。
- 既存の支援技術は高価であるため,利用できる人が限られている。また,生体信号に基づく制御は,信号の信頼性に課題がある。
- 手首装着型ビジョンを用いて,安価かつ信頼性の高い上肢支援システムを実現すること。
- 本システムは,低コストな空気圧リハビリ用グローブを,ビジョン誘導の支援装具へと変換する。
- リアルタイムYOLOに基づくコンピュータビジョンモデルにより,96.73%の把握分類精度と40ミリ秒以下のエンドツーエンド遅延を達成した。
- YCBオブジェクト操作の成功率は82.71%,27種類の日常生活動作において信頼性の高い性能を示した。総コストは250ドル以下である。
ChatGPT,Claude,Geminiによる緑地魅力度の評価:AIモデルは人間の認識を反映しているか [cs.AR, eess.IV, cs.CY, cs.AI, cs.CV]目的:緑地魅力度の評価
- 都市環境の居住性と包容性を高める上で,緑地の魅力度理解は不可欠である。
- 既存の評価手法は,一時的な空間や主観的認識の把握が困難である。
- 大規模なデータ収集を可能にするAIモデルによる評価手法を確立する。
- AIモデルと人間の魅力度判断は,魅力的なフォーマルな緑地と魅力のないインフォーマルな緑地で一致率が高い。
- AIモデルは,美観やデザイン要素を重視する傾向があり,安全性や機能性といった人間の評価要素を過小評価する。
- AIモデルは,緑地の事前評価を支援できるが,文脈を考慮した人間の評価に取って代わることはできない。
ショートカットフローパスによるワンステップ拡散モデルの設計 [cs.LG, cs.CV]目的:ワンステップ拡散モデルの設計に関する共通フレームワーク
- 拡散モデルは画像生成において高性能だが,計算コストが高い。
- ワンステップ拡散モデルの理論的根拠と実装が密接に結合している。
- ショートカットモデルの設計空間を明確にし,改善を系統的に特定すること。
- 提案フレームワークにより,代表的なショートカットモデルの正当性が理論的に裏付けられた。
- ImageNet-256x256において,FID50k 2.85を達成し,最新技術を更新した。
- 事前学習,蒸留,カリキュラム学習を必要とせず,コンポーネントレベルの革新を促進する。
ソフト決定木分類器:説明可能かつ拡張可能なPyTorch実装 [cs.LG, cs.AI, cs.CV]目的:ソフト決定木及び短期記憶ソフト決定木の実装と評価
- 医療分野等における予測モデルの需要が高く,その性能と解釈可能性が重要視されている。
- 既存の決定木モデルは解釈性は高いが,性能が十分でない場合がある。
- ソフト決定木を用いることで,予測性能と解釈可能性の両立を目指す。
- ソフト決定木(SDT)及び短期記憶ソフト決定木(SM-SDT)をPyTorchで実装し,シミュレーション及び臨床データで評価した。
- SDTは高い解釈可能性を示し,AUCの値はXGBoostと同程度であった。
- 臨床データにおける結果は,決定木以外では,全ての分類手法が同程度の性能を示唆している。
KH-FUNSD:低リソース・クメール語ビジネス文書のための階層的かつ詳細なレイアウト分析データセット [cs.CL, cs.AI, cs.CV]目的:クメール語ビジネス文書のレイアウト分析のための,階層的注釈付きデータセット
- 非ラテン文字の低リソース言語における文書AIツール開発は遅れており,クメール語はその代表例である。
- クメール語のビジネス文書に特化したデータセットが存在せず,文書AIの発展が阻害されている。
- クメール語ビジネス文書のレイアウト分析と情報抽出を可能にするデータセットを構築し,公開すること。
- 本研究では,初のクメール語フォーム文書理解用データセットKH-FUNSDを公開する。
- データセットは,リージョン検出,FUNSDスタイル注釈,詳細な分類の3層構造を採用している。
- KH-FUNSDを用いて既存モデルの性能を評価し,クメール語ビジネス文書特有の課題を議論した。
ロボット操作のための説明可能な敵対的ロバスト性を持つビジョン-言語-行動モデル [cs.CV, cs.AI, cs.RO]目的:敵対的条件下における行動予測の精度と説明可能性の向上
- スマート農業は,自動化とインテリジェント制御を通じて現代農業を推進する重要な技術である。
- 従来の画像認識やロボット制御は,色合い,照明,ノイズの変化などの影響を受けやすく,敵対的攻撃に脆弱である。
- 本研究は,光度摂動を検出し,原因と影響を自然言語で説明することで,この脆弱性を克服することを目指す。
- 提案モデルは,ベースラインと比較して,Current Action L1損失を21.7%,Next Actions L1損失を18.4%削減した。
- これにより,敵対的条件下での行動予測の精度が向上することが示された。
- さらに,Evidence-3モジュールにより,光度摂動の原因と影響に関する自然言語の説明が可能となった。
継続学習におけるブートストラップ生成の危険性とそれ以外 [cs.LG, cs.AI, cs.CV, eess.IV]目的:合成データによる生成ブートストラップの危険性
- 機械学習の発展に伴い,データ量は重要性を増している。
- 合成データは,データ不足を補う手段だが,分布の偏りが懸念される。
- 継続学習における合成データの利用が,性能劣化を引き起こす可能性を調査する。
- 合成データは,学習目的関数に有意なバイアスと分散をもたらすことが示された。
- 一般的な生成モデルは,合成データを用いた反復学習によって性能が低下することが確認された。
- 最先端のGER手法でさえ,潜在空間における整合性を維持できないことが定量的に示された。
Temporal-Anchor3DLane:マルチタスク損失とLSTM融合による3D車線検出の強化 [cs.CV]目的:単眼カメラ画像からの3D車線検出性能向上
- 自動運転や高度運転支援システムにおいて,正確な車線認識は安全確保に不可欠である。
- 単眼カメラでは深度推定が難しく,遮蔽やフレーム間の不安定性により,高精度な3D車線検出が課題となっている。
- 回帰外れ値への頑健性向上,全体的な曲線形状の学習,損失項目のバランス調整,時間的な連続性の活用を目指す。
- 提案手法Temporal-Anchor3DLaneは,Balanced L1回帰,Chamfer点集合距離,不確実性に基づく損失重み付けなどのマルチタスク損失を導入し,性能を向上させた。
- 軽量なTemporal LSTM Fusionモジュールにより,フレーム間の特徴量を集約することで,時間的な連続性を効果的に活用した。
- OpenLaneデータセットにおいて,F1スコアを+6.2%改善し,より滑らかな時間的軌跡を実現した。
ハイブリッド軽量CNN-MobileViTモデルを用いた在来作物病害虫自動検出システム [cs.CV, cs.AI]目的:在来作物の病害虫診断のための自動検出システム
- 農業はエチオピアのティグレ地域で人口の8割以上を支えており,食糧安全保障上重要である。
- インフラの混乱により,専門家による作物病害診断へのアクセスが限られているという課題がある。
- 紛争後のエッジ環境における展開を考慮し,在来作物の形態に特化した病害虫検出を目指す。
- EfficientNet-Lite1は90.7%のテスト精度を達成し,軽量CNNは42msの推論遅延と4.8MBのモデルサイズで89.5%に達した。
- MobileViT-XSは平均交差検証精度97.3%を示し,MHSAに基づくグローバルな推論が,局所的なテクスチャCNNよりも病害虫の識別において優れていることが示された。
- ARM互換モデルは,Tigrigna語とAmharic語に対応したFlutterアプリケーションに組み込まれ,オフライン環境での診断を可能にする。
二段階ハイブリッド学習によるロバストな小麦穂セグメンテーションのための疑似ラベルの改良 [cs.RO, cs.CV]目的:小麦穂のセグメンテーション精度向上
- 食糧生産において,小麦の収量推定は重要であり,そのためには正確な小麦穂の検出が不可欠である。
- 高品質なアノテーションデータが不足しているため,セグメンテーションの精度向上が課題となっている。
- 疑似ラベルを用いて教師あり学習を行い,少ないアノテーションデータでも高精度なセグメンテーションを実現する。
- SegFormerをベースとしたモデルに,二段階のハイブリッド学習とデータ拡張を組み合わせた自己学習フレームワークを適用した。
- 反復的な教師・生徒ループにより,モデルの精度を段階的に向上させ,データ利用率を最大化することに成功した。
- 開発データセットとテストデータセットの両方で,競争力のある性能を達成した。
審美的整合性が同化のリスクをもたらす:画像生成と報酬モデルが美の偏りを強化し,イデオロギー的な「検閲」を招く仕組み [cs.CY, cs.AI, cs.CV]目的:画像生成モデルの審美的整合性と,ユーザーの意図との間の矛盾
- 画像生成技術は,表現の自由や多様性に貢献しうる重要な分野である。
- 現在の画像生成モデルは,特定の審美的基準に偏っており,多様な表現を阻害する可能性がある。
- ユーザーの意図を尊重し,多様な美的表現を可能にする画像生成モデルを開発すること。
- 画像生成モデルは,指示された品質やイメージに関わらず,慣習的に美しい画像を生成する傾向があることが示された。
- 報酬モデルは,ユーザーの明示的な指示に合致する反審美的画像であっても, penalize する傾向が確認された。
- 画像編集や抽象芸術作品との比較を通じて,この偏りが systemic であることが裏付けられた。
汎化と特化:SAM3のゼロショットセグメンテーションとファインチューニングされたYOLO検出器の評価 [cs.CV]目的:SAM3とYOLO検出器のインスタンスセグメンテーション性能の比較
- 画像認識技術は,自動運転や医療診断など,様々な分野で重要な役割を担っている。
- 高密度な物体や遮蔽物がある環境下では,既存のインスタンスセグメンテーション手法の精度が低下しやすい。
- 本研究は,高密度な環境下でのセグメンテーション性能を向上させるための最適なモデル選択指針を示す。
- YOLOモデルは,IoU閾値0.15において68.9%,72.2%,71.9%のF1スコアを達成したが,SAM3は59.8%であった。
- IoU閾値の変化に対するYOLOモデルの性能劣化は大きく,48~50ポイント低下したが,SAM3はわずか4ポイントの低下を示し,境界の安定性が格段に高かった。
- SAM3はマスクの精度に優れており,YOLO11は検出の網羅性に強みがあることが明らかになった。
mmWEAVER:写真と活動記述に基づく環境特有のミリ波信号合成 [cs.CV, cs.LG]目的:環境特有のミリ波信号合成手法
- ミリ波レーダーは活動認識や姿勢推定などに応用され,多様な環境データが不可欠である。
- ミリ波信号は複雑で高次元であり,物理シミュレーションは計算コストが高いという課題がある。
- 環境情報と人体の動きに基づき,効率的にリアルなミリ波信号を合成することを目指す。
- mmWEAVERは,Implicit Neural Representations (INRs)を用いてミリ波信号を効率的に圧縮し,最大49倍の圧縮を実現した。
- 環境コンテキストと人体の動きに応じてINRパラメータを動的に生成するハイパーネットワークを組み込んだ。
- 活動認識の精度を最大7%向上させ,人体姿勢推定誤差を最大15%削減し,シミュレーションよりも6~35倍高速に動作する。
熱いサイゴン:サイゴンにおける不均衡な熱 [cs.CV, cs.CE, cs.CY]目的:都市部の歩行者熱暴露の評価と,熱を考慮した経路探索
- 熱帯都市における歩行者の健康リスクは深刻であり,都市計画や健康管理において重要である。
- 既存の経路探索アルゴリズムは,微視的な温度変化を考慮せず,最適なルートを提供できない場合がある。
- 本研究は,都市における温度分布を詳細に把握し,歩行者の熱暴露を最小限に抑える経路探索を可能にすることを目指す。
- Googleストリートビュー画像,セマンティックセグメンテーション,リモートセンシングを組み合わせたGeoAIワークフロー「Hot Hém」を開発した。
- XGBoostモデルを用いて,土地表面温度を予測し,OSMnxから得られた歩行者ネットワークに適用することで,熱を考慮した経路探索を実現した。
- 本研究は,都市の温度不均衡を特定し,その原因を理解するための基盤を提供する。
UAV撮影動画から得られる多様な都市交通における車両軌跡データセット [cs.CV]目的:多様かつ地域的な都市交通における車両軌跡データセット
- 都市交通の効率化や安全性の向上は,社会基盤整備における重要な課題である。
- 従来の路側カメラでは,交通密度の高い状況下で車両の隠蔽や視角の制限が発生しやすい。
- UAVを用いたデータ収集により,複雑な都市交通環境下での車両挙動の正確なモデル化を目指す。
- 本研究では,インドの都市部において,UAVを用いて収集した車両軌跡データセットを公開する。
- データセットは,車両の位置,速度,加速度,種類を含み,毎秒30フレームの解像度で記録されている。
- 収集データを用いた分析により,車線維持,速度分布,横方向の操作といった都市交通特有の行動特性が明らかになった。
読むか無視するか:視覚言語モデルにおけるタイポグラフィ攻撃への耐性とテキスト認識の統一ベンチマーク [cs.CV]目的:視覚言語モデルにおけるテキスト利用の選択的理解
- 視覚言語モデルは実世界での応用が期待されるが,テキストの理解は重要な課題である。
- 既存の評価手法は,タイポグラフィ攻撃への耐性を高めるためにテキストを無視することを暗黙的に推奨している。
- 現実的な状況下では,物体とテキストの両方を理解する必要があり,そのバランスを取ることが重要である。
- 既存の強力な視覚言語モデルや防御策は,タイポグラフィ攻撃への耐性とテキスト認識能力との両立ができていないことが示された。
- 新たなベンチマークデータセット「RIO-Bench」を用いて,状況に応じてテキストを読むか無視するかを判断する能力の評価が可能になった。
- 適応的なテキスト利用を学習するデータ駆動型防御策が有効であり,既存のテキスト無視型の防御策を上回る可能性が示唆された。
CLARGA:任意のモダリティ集合におけるマルチモーダルグラフ表現学習 [cs.RO, cs.CV, cs.LG]目的:マルチモーダル表現学習のための汎用的な融合アーキテクチャ
- 多様なデータ形式の統合が,AIの性能向上に不可欠となっている。
- 既存手法では,モダリティ数や種類が増えると計算コストが増大しやすい。
- 様々なモダリティを効率的に統合し,ロバストな表現を獲得すること。
- CLARGAは,モダリティ間の注意機構に基づいたグラフを構築し,効率的な情報伝達を実現した。
- 7つのデータセットを用いた実験で,既存手法やベースラインモデルを上回る性能を示した。
- 欠損モダリティに対しても頑健性があり,多様なタスクに適用可能であることが確認された。
ファイアーエムブレムにおけるミラーモード:模倣と強化学習によるプレイヤーの戦術への挑戦 [cs.AI, cs.GT, cs.LG]目的:プレイヤーの戦術を模倣する敵AIによるゲームモードの開発
- ターン制ゲームにおいて,敵の戦略は多様性が重要であり,プレイヤーに新たな挑戦を提供する。
- 既存の敵AIはパターン化しやすく,プレイヤーを飽きさせることがある。
- プレイヤーの戦術を模倣することで,よりパーソナライズされた,刺激的なゲーム体験を提供する。
- 敵AIの模倣モデルは,Generative Adversarial Imitation Learning,Behavioral Cloning,Proximal Policy Optimizationの組み合わせにより実現された。
- プレイヤーテストの結果,敵AIは防御行動において良好な模倣能力を示したが,攻撃行動では課題が残った。
- アンケート調査において,プレイヤーは自身の後退戦術を認識し,ミラーモード全体に対する満足度が高いことが示された。
Aion:時間的フローダイナミクスを持つ階層的4Dシーングラフへ [cs.RO, cs.CV]目的:動的な環境における自律ナビゲーションのための空間表現
- ロボットの自律的な移動には,周囲環境の理解が不可欠である。
- 既存のシーングラフは静的な環境を対象としており,動的な変化への対応が課題である。
- シーングラフに時間的情報を組み込み,動的な環境への対応能力を高める。
- Aionは,階層的な3Dシーングラフに時間的フローダイナミクスを埋め込むフレームワークである。
- グラフベースの疎なMoD表現を用いて,任意の時間間隔における運動フローを捉える。
- 複雑な動的環境における計画とインタラクションの改善に貢献する。
日常生活における幸福度の行動指標としての笑顔のスマートフォンモニタリング [cs.CV]目的:日常生活における幸福度の行動指標としての笑顔の定量化
- 個人の健康と社会の健全性を測る上で,主観的な幸福度は重要な指標である。
- 従来の幸福度測定は自己申告に頼るため,回顧バイアスや参加者への負担が大きい。
- スマートフォンで自然に捉えられた笑顔を,客観的な幸福度指標として活用する可能性を探る。
- スマートフォンで記録された動画から笑顔の強度を定量的に評価し,日内変動と日々のパターンを特定した。
- 週ごとの笑顔強度のパターンは,幸福度に関する全国調査データと強い相関関係を示した(r=0.92)。
- 笑顔の強度と身体活動量,光曝露量との間に有意な関連が認められ,スマートフォン利用には有意な影響はなかった。
MPath:全スライド画像からのマルチモーダル病理レポート生成 [cs.CV, cs.LG]目的:全スライド画像からの病理レポート自動生成
- 病理診断は医療において重要であり,効率化と精度向上が求められている。
- 高解像度画像から臨床的に意味のあるテキストを生成することは,組織構造の複雑さから困難である。
- 学習済み言語モデルを活用し,画像情報を効果的に統合することでレポート生成を可能とする。
- MPathは,既存の画像特徴量と言語モデルを組み合わせることで,病理レポート生成を実現した。
- プロンプトベースのマルチモーダル条件付けが,拡張性があり解釈可能な戦略であることを示した。
- RED 2025 Grand Challengeにおいて,限られた提出機会にも関わらず,上位4位の成績を収めた。
FloraForge:LLM支援による編集可能で解析対応の3D植物幾何モデルのプロシージャル生成 [cs.CV, cs.AI]目的:農業応用向けの3D植物幾何モデルのプロシージャル生成手法
- 植物の形態計測や物理シミュレーションにおいて,正確な3Dモデルは不可欠である。
- 既存手法は,学習データ依存性や専門知識の必要性から,利用が限定されている。
- LLMを活用し,専門知識がなくても植物モデルを生成・編集可能にすることを目指す。
- FloraForgeは,自然言語による指示で植物モデルを反復的に改良するフレームワークである。
- LLMによる協調設計により,Pythonスクリプトを洗練させ,植物の幾何学的構造を生成する。
- 生成されたモデルは,可視化と定量解析の両方に対応し,植物科学における幾何学的モデリングを促進する。
TransBridge:Transformerデコーダによるシーンレベル補完を用いた3D物体検出の向上 [cs.CV]目的:3D物体検出性能の向上
- 自動運転において,移動物体や障害物の情報提供は不可欠であり,3D物体検出は重要な役割を担う。
- LiDAR点群が疎な遠方領域の物体検出は依然として課題であり,点群の疎性を解消するための手法が求められている。
- 本研究は,Transformerを用いた特徴融合により,疎領域における検出性能の向上を目指す。
- 提案手法TransBridgeは,検出ネットワークと補完ネットワークの特徴を融合することで,疎領域の検出特徴を改善する。
- Dynamic-Static Reconstructionモジュールにより,補完ネットワークに必要な高密度なLiDARデータを生成する。
- nuScenesおよびWaymoデータセットにおける実験により,提案手法の有効性が確認され,mAPが平均0.7〜1.5ポイント向上した。
MONET - 参照一貫性拡散を用いた明視野画像と時間経過画像の仮想細胞ペインティング [cs.CV, cs.AI]目的:明視野画像からの細胞ペインティングチャネル予測
- 細胞形態の研究において,視覚的に解釈可能な高コントラスト画像が重要である。
- 従来の細胞ペインティングは手間がかかり,細胞動態の研究が困難である。
- 明視野画像から細胞ペインティングを仮想的に実現し,細胞動態の解析を可能にする。
- 拡散モデルMONETを開発し,明視野画像から細胞ペインティングチャネルを予測する性能を向上させた。
- 一貫性アーキテクチャにより,実際の細胞ペインティング動画の学習データがなくても時間経過動画を生成できる。
- 本アーキテクチャは,異なる細胞株やイメージングプロトコルへの汎化性能を示すインコンテキスト学習を可能にする。
文脈的ペーノ走査と隠れ・証拠的マルコフ連鎖を用いた高速画像セグメンテーション [cs.CV, math.ST, stat.AP, stat.TH]目的:画像セグメンテーションのための文脈的ペーノ走査と証拠的隠れマルコフ連鎖モデル
- 画像処理において,効率的かつ高精度なセグメンテーションは重要な課題である。
- 従来の画像セグメンテーション手法は計算コストが高く,リアルタイム処理が困難な場合がある。
- 文脈的ペーノ走査と証拠的隠れマルコフ連鎖を組み合わせることで,高速かつ高精度なセグメンテーションを実現する。
- 提案手法は,合成画像および実画像を用いた実験により,ベイズ最大事後モード(MPM)セグメンテーションにおいて有効であることが示された。
- 隠れマルコフ連鎖と証拠的隠れマルコフ連鎖の拡張により,より複雑な画像のモデリングとセグメンテーションが可能となる。
- 本モデルは画像セグメンテーションに限定されず,空間的に相関するデータ全般に応用可能である。
DynaPURLS: 部分認識表現の動的洗練によるゼロショットアクション認識 [cs.CV, cs.AI]目的:骨格データに基づくゼロショットアクション認識における性能向上
- 行動認識は,ロボット工学や人間-コンピュータインタラクションにおいて重要であり,多様な環境での応用が期待される。
- 従来のゼロショット認識手法は,静的なクラスレベルのセマンティクスに依存し,未知のクラスへの汎化性能が課題であった。
- 本研究は,動的な洗練機構により,骨格データとセマンティクスの間のずれを解消し,認識精度を向上させることを目指す。
- DynaPURLSは,大規模言語モデルを用いて階層的なテキスト記述を生成し,骨格関節をセマンティックにグループ化することで,多規模な視覚-セマンティック対応を確立する。
- 動的洗練モジュールは,推論時にテキスト特徴を視覚ストリームに適合させ,ノイズの多い疑似ラベルからの誤差伝播を抑制する。
- NTU RGB+D 60/120およびPKU-MMDといった大規模データセットにおける実験により,DynaPURLSが既存手法を大きく上回り,最新技術を達成することが示された。
ハイパーゲーム合理化:戦略的ゲームにおけるエージェントの誤整合性の解決 [cs.AI, cs.FL, cs.GT]目的:戦略的ゲームにおけるエージェントの誤整合性解決のための手法
- ゲーム理論は,経済学やAIなど,多様な分野で意思決定の分析に不可欠である。
- 従来のゲーム理論は,プレイヤーの認識や情報の非対称性を考慮していない。
- ハイパーゲーム理論の活用を促進するための言語とアルゴリズムの開発。
- ハイパーゲーム構造と解概念を記述するための宣言的論理ベースのドメイン固有言語を提案。
- Answer Set Programmingを活用し,ハイパーゲーム構造のインスタンス化とハイパーゲーム合理化手続きを自動化するパイプラインを開発。
- ハイパーゲーム理論,マルチエージェントシステム,戦略的AI間の連携を確立した。
半導体ウェーハマップ欠陥検出におけるImage Transformerの比較分析 [cs.CV]目的:半導体ウェーハマップ欠陥の分類
- 半導体製造は高度な技術を要し,不良品の早期発見が品質向上とコスト削減に不可欠である。
- データ不足や不均衡なデータセットにおいて,従来のCNNモデルの性能が低下する課題がある。
- データ制約下におけるウェーハマップ欠陥の分類精度向上を目指す。
- DeiTモデルは,分類精度90.83%を達成し,VGG-19(65%),SqueezeNet(82%),Xception(66%),Hybrid(67%)といったCNNモデルを上回った。
- DeiTモデルは,F1スコアも90.78%と高く,少数派の欠陥クラス検出において優れたロバスト性を示した。
- 学習収束が速く,半導体ウェーハ欠陥検出と予知保全戦略へのTransformerモデルの応用可能性が示唆された。
CARI4D:人間と物体間の相互作用のカテゴリーに依存しない4次元再構成 [eess.SY, astro-ph.IM, cs.SY, cs.CV]目的:人間と物体間の相互作用の4次元再構成
- 人間理解,ゲーム,ロボット学習など,幅広い分野で重要性が増している。
- 単一のRGB画像から4D相互作用を推定することは,深度の曖昧さや遮蔽により困難である。
- 既存手法の制約を克服し,カテゴリーに依存しない汎用的な4D再構成を実現する。
- 本研究で提案するCARI4Dは,単眼RGB動画から空間的・時間的に一貫性のある4D人間と物体間の相互作用をメートル単位で再構成する。
- 基礎モデルからの予測を統合し,レンダリングと照合を通じて空間的・時間的,ピクセルレベルでの整合性を高める手法を提案。
- 実験結果から,CARI4Dは既存手法を上回り,学習データ内外のデータセットで高い再構成精度を示した。
V-REX:質問の連鎖による探索的視覚推論のベンチマーク [cs.CV, cs.AI, cs.LG]目的:探索的な視覚推論能力の評価
- 画像と言語を組み合わせたAIは急速に発展しているが,複雑な問題解決には課題が残る。
- 既存の評価方法は,明確な質問への回答に偏っており,複数段階の探索と推論を必要とする状況に対応できていない。
- 複数段階の探索と推論を伴う視覚推論能力を定量的に評価するためのベンチマークを構築し,課題を明確化する。
- V-REXは,多様なドメインにおける複雑な視覚推論タスクを評価する新しいベンチマークとして開発された。
- 最先端のVLMsを評価した結果,計画能力と実行能力に差が見られ,特に複数段階の探索的推論においては改善の余地が大きいことが示された。
- V-REXは,質問の連鎖(CoQ)を用いることで,中間ステップの信頼性の高い定量分析を可能にした。
Semantic-Drive:オープンボキャブラリーに基づくグラウンディングとニューロシンボリックVLMコンセンサスによる,ロングテールデータキュレーションの民主化 [cs.SI, econ.GN, q-fin.EC, cs.CV, cs.AI, cs.CL, cs.RO]目的:ロングテールデータのキュレーションにおける効率性とプライバシー保護
- 自動運転システムの信頼性向上には,多様な学習データが不可欠である。
- 希少な危険な状況データの特定は手作業であり,コストと時間がかかる。
- クラウド利用を伴わない,効率的でプライバシーを保護するデータキュレーション手法の確立。
- Semantic-Driveは,ローカル環境でニューロシンボリックなフレームワークを用いてセマンティックデータマイニングを実現した。
- nuScenesデータセットにおいて,Recallは0.966とCLIPの0.475を大きく上回り,リスク評価エラーを40%削減した。
- 本システムは,コンシューマー向けハードウェア(NVIDIA RTX 3090)で動作し,プライバシーを保護する代替手段を提供する。
mmWaveレーダーを用いた人体活動認識のためのスターグラフによる空間-時間表現の探求 [cs.CV, cs.LG, eess.IV]目的:mmWaveレーダーに基づく人体活動認識のための空間-時間表現
- 人体活動認識は,健康管理や生活支援など,幅広い分野で重要性が増している。
- mmWaveレーダーの点群データは,疎性と可変サイズの問題を抱えており,認識精度が課題である。
- 本研究は,mmWaveレーダーの特性に適したグラフ表現を用いて,認識精度向上を目指す。
- 提案手法では,静的な中心点と動的なレーダー点群の関係性をスターグラフで表現し,DDGNNを用いて特徴量を学習する。
- 実験結果から,提案手法は既存手法を上回り,94.27\%という高い分類精度を達成した。
- Raspberry Pi~4上での推論テストにより,リソース制約のある環境での有効性も確認された。
多様な衛星画像ソースにおける船の検出のための適応型連合学習 [cs.CV]目的:多様な衛星データセットにおける船の検出
- 衛星画像は広範囲の監視に有用だが,データの収集・共有は困難を伴う。
- 各データセットの規模が小さい場合,検出精度が低下する問題がある。
- 連合学習を用いて,データ共有なしに検出精度向上を目指す。
- 連合学習モデルは,小規模ローカルデータセットでの学習と比較して検出精度を大幅に向上させた。
- 連合学習は,全てのデータセットを集中学習するグローバル学習に近い性能を達成した。
- 通信ラウンド数やローカル学習エポック数などの連合学習設定の選択が重要であることが示された。
緊急管理のためのSPOT-6/7画像による焼失域抽出における深層学習性能の向上 [cs.CV]目的:緊急管理を支援するための焼失域抽出の性能と効率の向上
- 森林火災後の被害量評価や生態系回復において,焼失域の迅速かつ正確な把握は不可欠である。
- 既存の焼失域マッピング手法は,緊急時の時間制約を考慮した適用可能性が十分でない場合がある。
- 本研究は,限られた時間内で高品質な焼失域抽出を実現するための手法を確立する。
- U-NetとSegFormerは,限られた学習データ下では同程度の性能を示すことが明らかになった。
- SegFormerはより多くの計算資源を必要とするため,緊急時の実用性に課題が残る。
- 土地被覆データを補助タスクとして組み込むことで,モデルのロバスト性が向上し,推論時間への影響はみられなかった。
拡散事前知識に基づく構造・運動復元アプローチ:生成および実動画への応用 [cs.CV, cs.LG, cs.MM]目的:生成動画および実動画における構造と運動の復元
- 動画生成技術の発展に伴い,高品質な動画生成が求められている。しかし,生成動画には構造的な欠陥がしばしば見られる。
- 既存の動画修復技術は,合成的な劣化に最適化されており,構造的なアーティファクトの除去には不十分である。
- 生成動画および実動画に存在する構造・運動のアーティファクトを効果的に除去することを目指す。
- CreativeVRは,拡散事前知識を活用した動画修復フレームワークであり,深刻な構造的・時間的アーティファクトを持つ動画に対して高い性能を示す。
- 同手法は,入力への追従度を制御する精度調整ノブを備え,標準的な劣化に対する正確な復元と,困難なコンテンツに対する構造・運動補正の間の滑らかなトレードオフを実現する。
- AIGC54ベンチマークを用いて評価した結果,CreativeVRは最先端の結果を達成し,標準的な動画修復ベンチマークでも競争力のある性能を発揮する。
BAgger:自己回帰型ビデオ拡散モデルにおけるドリフト軽減のための逆向き集約 [cs.CV, cs.LG]目的:自己回帰型ビデオ拡散モデルにおけるドリフト軽減
- ビデオ生成モデルは,現実世界のモデリングにおいて重要な役割を担う。
- 自己生成フレームによる推論とクリーンな文脈での学習のずれが,品質低下を引き起こす。
- モデル自身のロールアウトから軌道修正を学習し,エラーの蓄積を抑制することを目指す。
- BAggerは,標準的なスコアまたはフローマッチング目的関数を用いて学習を行う。
- 従来の蒸留法や分布一致損失とは異なり,大規模な教師モデルや長時間の逆伝播を必要としない。
- テキストからのビデオ生成,ビデオ拡張,マルチプロンプト生成において,より安定した長期的運動と視覚的整合性が確認された。
RePack:視覚基盤モデルの特徴表現の圧縮が拡散Transformerを強化する [cs.CV]目的:視覚基盤モデルの特徴表現の圧縮による拡散Transformerの性能向上
- 事前学習済みの視覚基盤モデルは,画像生成において強力な表現能力を発揮する重要な技術である。
- 高次元な視覚基盤モデルの特徴量は,復号処理において情報過多を引き起こす可能性がある。
- RePackは,特徴量の次元を削減することで情報過多の問題を解決し,効率的な画像生成を目指す。
- RePackは,視覚基盤モデルの特徴量を低次元多様体へ投影することで,不要なノイズを除去しつつ構造情報を保持する。
- RePackをDiT-XL/2に適用した結果,FIDが3.66を64エポックで達成し,最先端手法よりも35%高速に収束した。
- RePackは,視覚基盤モデルの主要な意味情報を抽出し,高次元性の副作用を回避することに成功した。
VEGAS:視覚エンコーダの注意機構による適応的制御を通じて,大規模視覚言語モデルの幻覚を軽減する [cs.CV, cs.CL]目的:大規模視覚言語モデルにおける幻覚の軽減
- 視覚とテキストを統合するモデルは,画像認識と自然言語処理の融合を促進し,多様な応用を可能にする。
- 大規模視覚言語モデルは流暢な文章を生成する一方,視覚的証拠と矛盾する内容を生成する幻覚が問題となっている。
- 視覚エンコーダの注意機構を活用し,言語モデルの推論過程を制御することで幻覚を抑制することを目指す。
- 視覚言語モデルが幻覚を起こす際,最終的な視覚注意マップが重要な画像オブジェクトに集中していない傾向があることが示された。
- 視覚エンコーダの注意マップを言語モデルの中間層に注入することで,視覚とテキストの矛盾が抑制され,幻覚が効果的に軽減される。
- VEGASは,推論時に視覚エンコーダの注意機構を統合し,幻覚を抑制することで,最先端の性能を達成する。
SPDMark:ロバストなビデオ透かしのための選択的パラメータ置換 [cs.CV, cs.CR, cs.LG]目的:生成ビデオの信頼性のある検出と追跡
- 高品質なビデオ生成モデルの普及に伴い,生成されたビデオの出所を特定する技術が重要になっている。
- 既存の透かし技術は,不可視性,ロバスト性,計算効率を同時に達成できていない。
- ビデオ拡散モデルの選択的なパラメータ置換により,効率的でロバストな透かし技術を確立することを目指す。
- SPDMarkは,生成モデルのパラメータの一部を修正することで,知覚できない透かしを生成する。
- 透かしの埋め込みと抽出器は,メッセージ復元,知覚的類似性,時間的一貫性の損失を最小化する共同学習により実現される。
- テキストからビデオ,画像からビデオへの生成モデルにおける評価により,高い精度で透かしを復元できるロバスト性が示された。
獣医画像におけるAI支援下での花粉認識:光学顕微鏡とホログラフィー顕微鏡 [cs.CV, cs.LG]目的:獣医画像における花粉の自動認識
- 花粉はアレルギーの原因となり,動物の健康に影響を与えるため,正確な花粉認識は重要である。
- ホログラフィー顕微鏡画像は,ノイズやアーチファクトの影響を受けやすく,花粉の認識が困難である。
- ホログラフィー顕微鏡画像の認識精度を向上させ,獣医診断への応用を目指す。
- 光学顕微鏡画像では高い検出精度と分類精度が得られたが,ホログラフィー顕微鏡画像では精度が低かった。
- ホログラフィー顕微鏡画像のバウンディングボックスを拡張することで,精度が向上した。
- WGAN-SNを用いたデータ拡張により,ホログラフィー顕微鏡画像の検出精度が改善され,実用化への一歩となった。
心エコー画像に対する測定に基づいたマルチモーダル学習:EchoVLM [cs.CY, cs.DC, cs.AR, cs.CV]目的:心エコー画像のマルチモーダル解釈のための基盤モデルの構築
- 心エコー検査は循環器医学において最も一般的な画像診断法であり,正確な診断に不可欠である。
- 心エコー画像の解釈は専門知識を要し,解釈者の負担が大きいという課題がある。
- 大規模な臨床データセットと測定に基づく推論能力を持つモデルを開発し,心エコー解釈を支援する。
- 本研究で開発したEchoVLMは,マルチモーダル疾患分類において最先端の性能(ゼロショットでAUC 86.5%)を達成した。
- また,心エコー画像のビュー分類においても高い精度(95.1%)を示した。
- 臨床的に整合性のあるマルチモーダル事前学習が,汎用性の高い視覚表現を学習することを実証した。
Computed Tomographyのための新規パッチベースTDAアプローチ [cs.CV, cs.LG]目的:Computed Tomography画像に対する新規なパッチベースのTDA手法
- 医療画像解析において,機械学習の活用は診断精度向上に不可欠であり,高度な特徴抽出が重要である。
- 従来の3次元キュービック複合体によるTDA構築は,計算コストが高く,高解像度画像への適用が課題であった。
- 本研究は,CT画像におけるTDAの性能向上と計算効率化を目指す。
- 提案手法は,分類性能と計算時間において3次元キュービック複合体法を上回る優位性を示した。
- 精度,AUC,感度,特異度,F1スコアにおいて,平均10.38%, 6.94%, 2.06%, 11.58%, 8.51%の改善が確認された。
- 提案手法の実装を容易にするため,Pythonパッケージ「Patch-TDA」を公開した。
小型無人航空機災害画像における空間的整列を用いた道路損傷評価のためのベンチマークデータセット [cs.NI, cs.CV, cs.AI]目的:道路損傷評価および道路整列のためのベンチマークデータセット
- 災害時の道路状況把握は,迅速な復旧活動や人命救助に不可欠である。
- 既存の災害道路損傷評価データセットは規模が小さく,十分な解像度がない場合が多い。
- 道路の位置ずれが評価精度に影響するため,空間的な整列の重要性を検証する。
- 本研究では,連邦政府が認定した10件の災害における小型無人航空機(sUAS)画像を用いて,657.25kmの道路を10クラスでラベル付けした。
- 道路の位置ずれを考慮しない場合,道路状況の誤認識が約8%(11km)発生し,約9%(59km)の道路線が実際の道路からずれることが判明した。
- 実際の道路線がずれている状況下では,18個のベースラインモデルの性能が平均で5.596%のマクロIoUで低下した。
子供音声変換のための生成モデルの比較研究 [cs.SD]目的:子供音声変換における生成モデルの比較と改善策
- 音声変換技術は,多様な応用が期待され,人間と機械の円滑なコミュニケーションに貢献する。
- 成人間の音声変換は進展しているが,成人から子供への変換は十分な研究が進んでいない。
- 生成モデルを用いて成人から子供への音声変換の精度向上と自然性を目指す。
- 拡散モデル,フローベースモデル,変分オートエンコーダ,GANの比較を行った結果,生成された音声はそれらしく聞こえるものの,子供特有の音声特徴が不足していることが判明した。
- 周波数ワーピング技術を導入することで,成人音声と子供音声のミスマッチを大幅に軽減できることが示された。
- 客観評価と主観評価の両方を用いて評価を行い,子供音声のダビング用に収集された独自のコーパスを用いたペア比較を行った。
融解水ベンチ:地表融解水の時空間ダウン スケーリングにおける深層学習 [eess.SY, cs.SY, cs.CV, cs.AI, cs.LG, physics.ao-ph, physics.data-an]目的:地表融解水の時空間ダウン スケーリング手法の開発
- グリーンランド氷床の融解加速が問題となっており,その過程の理解が重要である。
- 既存の融解水マップは,時間分解能と空間分解能のトレードオフが存在する。
- 深層学習を用いて,高分解能な融解水マップを生成し,その理解を深める。
- 深層学習モデルは,既存の非深層学習手法と比較して,融解水の予測精度を10%以上向上させた。
- SARデータを用いた移動窓計算でも高い精度(90%)が得られ,深層学習に依存しない代替手法を示した。
- 時空間的に整列されたデータセット「MeltwaterBench」を公開し,さらなる研究の比較基線を提供する。
開かれた地平線:実環境における深層モデルの評価 [cs.CV]目的:実環境での深層モデルの性能評価
- 現実世界の応用では,既知のカテゴリに加え,未知のカテゴリへの対応が重要となる。
- 既存手法では,未知のクラスが出現した場合の信頼性確保が課題である。
- 未知クラスに対する検出性能と,継続学習時の性能低下抑制を目指す。
- オープンセット認識において,CLIPが既知・未知サンプル間の分離能力で優れていることが示された。
- Energyスコアリング関数は,様々なバックボーンで安定した性能を発揮する。
- Few-shot継続学習では,ConCMが10-shot設定で高い精度を達成し,学習時の混同を抑制する。
障壁を用いないロバストかつ効率的な非貫通エラストダイナミクス [cs.GR]目的:非貫通エラストダイナミクスシミュレーションのための最適化フレームワーク
- 物理シミュレーションは,映画,ゲーム,ロボティクスなど,幅広い分野で重要な役割を担う。
- 従来の非貫通シミュレーション法は,計算コストが高く,複雑な形状の処理が困難である。
- 本研究は,高速かつ安定な非貫通シミュレーションを実現し,現実的な物理現象の再現を目指す。
- 本研究では,Incremental Potential Contact (IPC)と同等のロバスト性を持ちながら,効率性を向上させる新しい最適化フレームワークを提案する。
- 提案手法は,対数障壁関数に依存しないことで,線形ソルバーの収束性を改善し,TOIロッキング問題を回避する。
- GPU最適化により,GIPCと比較して最大103倍の高速化を達成し,複雑な接触シーンにおいて実用的な性能を示す。
