arXiv雑要約
画像・音声 - 2025/10/14 公開
自動運転における異常事例に対する機械学習的アプローチ [eess.SY, cs.SY, cs.CV]目的:自動運転における異常事例の認識に関する機械学習的手法
- 自動運転の安全性確保は,人命に関わる重大な課題であり,信頼性の高いシステム開発が求められる。
- 従来の異常事例への対応は個別事例に依存し,網羅性に欠けるため,機械学習モデルの汎化性能を阻害する。
- データ分布を考慮した機械学習的アプローチにより,異常事例を体系的に認識し,自動運転の安全性を向上させる。
- 本研究では,既存の異常事例分類をデータ分布の視点から統合する新しいフレームワークを提案した。
- 標準的なベンチマークデータセットにおいて,提案手法が異常事例検出において高い性能を発揮することが示された。
- 新たに構築したfog-augmented Lost & Foundデータセットを用いて,複合的な異常事例の分析を可能にした。
オンラインHDマップ構築における表現パラダイムの安定性評価 [cs.CL, cs.CV]目的:オンラインHDマップ構築モデルの時間的安定性評価
- 自動運転において,高精度な地図は安全性向上に不可欠であり,コスト効率の良いオンラインHDマップへの期待が高まる。
- 既存モデルはフレームごとの精度向上に偏りがちで,時間的な安定性評価が体系的に行われていないという課題がある。
- オンラインHDマップ構築モデルの時間的安定性を包括的に評価するベンチマークを構築し,安定性の重要性を提示する。
- 提案する多次元安定性評価フレームワーク(mAS)により,精度(mAP)と安定性(mAS)が独立した性能次元であることが示された。
- モデル設計の要素が精度と安定性に与える影響を分析し,高い精度と安定性を両立させる要因を特定した。
- 時間的安定性を主要な評価基準として扱うことの重要性を強調し,より信頼性の高い自動運転システムの開発に貢献する。
ディープフェイク,拡散,なりすまし検出のためのスケーラブルな顔セキュリティビジョンファウンデーションモデル [cs.CV, cs.AI]目的:様々な顔セキュリティタスクにおける汎化性能向上を目指した,ロバストで転移可能な顔表現の学習
- 顔認識技術は,セキュリティ,認証,監視など,多岐にわたる分野で不可欠な役割を担っている。
- ディープフェイクやなりすましといった顔画像に対する攻撃が巧妙化しており,既存の手法では十分な防御が困難である。
- 大量のラベルなし顔画像を利用し,汎化性能の高い顔表現を学習することで,これらのセキュリティ脅威に対抗することを目指す。
- 提案手法FS-VFMは,マスク画像モデリングとインスタンス識別を組み合わせた自己教師あり事前学習フレームワークであり,顔画像の局所パターンと大域的意味をエンコードする。
- FS-VFMは,自然画像および顔画像領域における多様なVFMsと比較して,一貫して優れた汎化性能を示すことが,11の公開ベンチマークで実証された。
- 軽量なFS-Adapterを用いることで,事前学習済みのFS-VFMを効率的に転移することが可能であり,高い性能と効率性のトレードオフを実現した。
AdaViewPlanner:4Dシーンにおける視点計画のためのビデオ拡散モデルの適応 [cs.CV]目的:4Dシーンからの視点計画に関する研究
- 現実世界の物理法則をシミュレーションする技術は,ロボティクスや自動運転などの応用において重要である。
- 従来の視点計画手法は,複雑なシーンにおいて適切な視点を見つけるのが困難であった。
- ビデオ生成モデルを活用し,自然な視点を含む動的なシーンを生成することで,視点計画の精度向上を目指す。
- 提案手法は,既存の手法と比較して優れた性能を示すことが実験的に確認された。
- 4Dシーン表現をビデオ拡散モデルに注入する適応学習ブランチが,有効であることが検証された。
- 本研究は,ビデオ生成モデルが現実世界における4Dインタラクションの可能性を秘めていることを示唆する。
画像言語基盤モデルに基づく画像から動画への転移学習:包括的調査 [cs.CV, cs.AI]目的:画像から動画への転移学習に関する既存研究の整理と課題,今後の展望
- 動画とテキストの理解は,人間にとって自然な情報処理であり,様々な応用への展開が期待される。
- 動画の学習には大量のデータと計算資源が必要であり,その効率化が課題となっている。
- 画像言語基盤モデルを活用することで,動画学習のデータ依存性と計算コストを削減することを目指す。
- 本調査は,画像言語基盤モデルの活用による画像から動画への転移学習戦略を,特徴の固定と修正の2つのカテゴリーに分類し,体系的に整理した。
- 様々な動画-テキスト学習タスクにおける転移学習の有効性を実験的に分析し,各手法の特性を明らかにした。
- 今後の研究に向けて,既存の課題と有望な方向性を示し,動画-テキスト学習の発展に貢献することを目指している。
MSM-Seg:カテゴリ非依存プロンプトを用いたモダリティ・スライス記憶フレームワークによるマルチモーダル脳腫瘍セグメンテーション [cs.AR, cs.CL, cs.RO, eess.AS, cs.CL, cs.CV]目的:マルチモーダル脳腫瘍セグメンテーションのためのフレームワーク
- 臨床診断において脳腫瘍の正確なセグメンテーションは不可欠であり,治療計画や予後予測に大きく影響する。
- 既存手法はモダリティ間の相関を無視し,カテゴリ特化的なプロンプトに依存するため,汎用性に課題がある。
- モダリティ・スライス間の情報を効果的に統合し,カテゴリ非依存なプロンプトによりセグメンテーション精度を向上させる。
- 提案手法MSM-Segは,モダリティ間およびスライス間の情報を活用する二重記憶セグメンテーションパラダイムを採用している。
- 実験の結果,MSM-Segは,脳転移および膠腫のセグメンテーションにおいて,既存の最先端手法を上回る性能を示した。
- モダリティ適応型融合デコーダにより,異なるモダリティ間の補完的な情報を活用し,セグメンテーション精度が向上した。
オンライン行動理解のための行動力学モデリングと時間的相互作用 [cs.CV]目的:行動理解における検出と予測の向上
- 人間の行動理解は,様々な応用において不可欠な技術である。
- 動画データには冗長な情報やノイズが多く含まれることが課題である。
- 行動者の意図を考慮した行動理解モデルの構築が求められている。
- 提案手法は,重要な状態にフレーム系列を圧縮し,情報冗長性を削減する。
- 状態遷移グラフを用いて複雑なシナリオにおける行動力学をモデル化し,将来の予測を可能にする。
- 時間的相互作用モジュールにより,意図と過去・現在の情報の相互影響をモデル化し,特徴量を精緻化する。
LSZone:リアルタイム車内多ゾーン音声分離のための軽量空間情報モデリングアーキテクチャ [cs.SD, cs.AI]目的:リアルタイム車内多ゾーン音声分離のための軽量空間情報モデリングアーキテクチャ
- 人間と車両のインタラクションにおいて,異なる領域からの音声を捉えることが重要である。
- 既存のSpatialNetは高性能だが,計算コストが高く,リアルタイム処理が困難である。
- 計算負荷を軽減しつつ,高性能なリアルタイム車内多ゾーン音声分離を実現すること。
- LSZoneは0.56G MACsの複雑性と0.37のリアルタイムファクター(RTF)を達成した。
- LSZoneは,複雑なノイズや複数話者環境下で優れた性能を発揮する。
- 空間情報抽出圧縮(SpaIEC)モジュールと軽量なCNPモジュールが,性能維持に貢献する。
焦点の合っていない動画とモーションブラー動画からの動的ガウススプラッティング [cs.CV]目的:焦点の合っていない動画とモーションブラー動画からの高品質な動的ガウススプラッティング
- 動的シーンの再現は,VR/ARやロボティクスなど様々な分野で重要であり,リアリティの追求が求められている。
- 従来の動的3D復元手法は,被写界深度やモーションブラーなどの影響を十分に考慮できていない場合が多い。
- 焦点の合っていない画像とモーションブラー画像の両方に対応できる動的3D復元手法の開発が課題である。
- 本研究では,各ピクセルに対して信頼性の高いぼかしカーネルを推定するぼかし予測ネットワークを提案し,精度の向上に貢献した。
- 動的ガウスの密度化戦略により,不完全な領域の不足を緩和し,新しい視点からの合成性能を向上させた。
- 焦点の合っていない動画とモーションブラー動画の両方から,高品質な新規視点合成を実現できることを実験的に示した。
非分割可能タスクの非対称エージェントへの公平な割り当て [cs.GT]目的:最大最小シェア値における,異なる権利を持つエージェントへの非分割可能タスクの割り当て
- 資源配分は,公正性と効率性の観点から社会経済活動において重要である。
- 権利が異なるエージェント間でのタスク割り当ては,公平性を保証することが難しい。
- 権利の非対称性下における,より良いタスク割り当てアルゴリズムの構築を試みる。
- 本研究により,非対称な権利を持つエージェントに対しても,定数倍の加重最大最小シェア値(WMS)を保証する割り当てが存在することが示された。
- 従来,$O(\log n)$-WMSしか保証されていなかった非分割可能タスクの割り当てにおいて,その上限が改善された。
- 具体的には,20-WMSの割り当ての存在が証明されたが,定数係数の最適化は今後の課題である。
VLM誘導による適応的負のプロンプト:創造的な生成のために [cs.GR, cs.CV]目的:創造的な画像生成における新規性と妥当性の向上
- 画像生成技術は,人間の想像力を拡張し,新たな視覚概念の発見を可能にする重要な分野である。
- 既存のテキスト画像生成モデルは写実的な画像を生成できるが,真に斬新なコンテンツの生成には課題がある。
- 本研究は,学習を必要とせず,推論時に創造性を高める手法を提案し,その有効性を示す。
- 提案手法は,VLMを用いて生成過程の中間出力を分析し,従来の視覚概念から逸脱させることで,創造的な画像を生成する。
- 実験結果から,提案手法は計算コストをほとんど増加させずに,創造的な新規性を一貫して向上させることが示された。
- 提案手法は単一オブジェクトだけでなく,複雑なシーンや合成プロンプトにおいても創造性を維持できる。
SS-DPPN:汎用的な心音表現のための自己教師あり二重経路基盤モデル [cs.RO, cs.SD, cs.AI]目的:汎用的な心音表現と分類のための基盤モデル
- 心血管疾患の早期診断には心音の自動解析が不可欠であり,医療現場での重要性が高い。
- 心音データの専門家によるアノテーションは希少であり,教師あり深層学習のボトルネックとなっている。
- ラベルなしデータから心音表現を学習することで,アノテーション不足の問題を克服することを目指す。
- 提案手法SS-DPPNは,4つの心音ベンチマークにおいて最先端の性能を達成した。
- 教師あり学習モデルにおいて,ラベル付きデータ量を3分の1に削減しても高い性能を維持した。
- 学習された表現は,肺音分類や心拍数推定など,他の生理学的信号にも汎用的に適用可能であることが示された。
WorldMirror:あらゆる事前情報を用いた汎用3Dワールド再構築 [cs.CV]目的:多様な幾何学的事前情報を用いた3D幾何予測タスクの実現
- 3Dモデルの構築は,ロボティクスや拡張現実など幅広い分野で不可欠である。
- 既存手法は入力制限や特定のタスクに特化しており,柔軟性に欠ける点が課題である。
- 様々な事前情報を統合し,幾何学的に整合性の取れた3D出力を効率的に生成すること。
- WorldMirrorは,カメラポーズ,内部パラメータ,深度マップなどの多様な幾何学的事前情報を柔軟に統合できる。
- 本手法は,点群,深度マップ,カメラパラメータ,法線ベクトル,3Dガウスなど,複数の3D表現を単一のフォワードパスで生成する。
- 多様なベンチマークにおいて,最先端の性能を達成し,効率的な推論を維持している。
第二言語学習者向けロバストな音声認識のための習熟度に応じた適応とデータ拡張 [cs.CY, cs.SD, cs.AI]目的:第二言語学習者に対するロバストな音声認識性能の向上
- 多様な学習者へのアクセシビリティ向上は,教育分野における重要な課題である。
- 既存の汎用音声認識システムは,第二言語学習者に対して十分な性能を発揮しない。
- 習熟度に応じた適応とデータ拡張により,性能格差の是正を目指す。
- 習熟度を考慮したマルチタスク学習と標的型データ拡張により,WERを最大29.4%削減。
- 挿入/削除エラーも最大58.6%削減し,音声認識精度を大幅に向上させた。
- データセットの不均衡にも関わらず,両手法は習熟度間の格差を縮小することに成功した。
ロバストなユーザー定義キーワードスポッティングのための二重データスケーリング [cs.SD]目的:ユーザー定義キーワードスポッティングのロバスト性の向上
- 音声認識技術は,人間と機械の自然な対話を可能にする基盤であり,その精度向上は重要である。
- キーワードスポッティングは,特定のキーワードを検出する技術だが,環境ノイズや話者変動に弱いという課題がある。
- 本研究は,データ拡張と音素識別の強化により,キーワードスポッティングの精度とロバスト性を高めることを目指す。
- 提案手法DS-KWSは,既存手法と比較してLibriPhraseのHardサブセットで大幅な性能向上を示し,EER 6.13%とAUC 97.85%を達成した。
- Hey-Snipsデータセットにおいて,ゼロショット学習でフルショット学習モデルと同等の性能(1時間あたり1回の誤検知時に99.13%のリコール)を達成した。
- 二重データスケーリング戦略が,音響モデルの強化と音素識別の明確化に貢献し,高い認識精度を実現した。
未来の自分を見る:仮想現実における状況的行動の予測 [cs.CV, cs.LG]目的:仮想現実における状況的行動予測のフレームワーク
- VR/ARの没入感向上には,ユーザー行動への知的な適応が不可欠である。
- 人間の意図を正確に理解し,状況に応じた行動を予測する技術が十分ではない。
- 認知メカニズムを活用し,より正確な行動予測を実現することを目的とする。
- 提案手法は,過去の動向とシーン情報を基に,行動ターゲットを特定し,詳細な未来行動を予測する。
- 動的グラフ畳み込みネットワーク(GCN)を用いて,人間と環境の関係性を効果的に捉える。
- 実世界のベンチマークとライブVR環境での実験により,提案手法の有効性が確認された。
視覚的異常検知による海洋環境モニタリングにおける異常事象の発見 [cs.DC, cs.OS, cs.PF, cs.CV]目的:海洋環境モニタリングのための異常事象検出
- 海洋生物多様性の評価に水中映像は有効だが,そのデータ量は膨大である。
- 手動での映像確認は非現実的であり,効率的な異常検知手法が求められている。
- 深層学習に基づく視覚的異常検知を用いて,異常事象の自動検出を目指す。
- 新たな水中VADベンチマークデータセットAURAを開発し,複数のモデルを評価した。
- 頑健なフレーム選択戦略が,意味のある動画セグメント抽出に重要であることが示された。
- 現在のVADモデルの性能は大きく変動し,学習データ量や視覚的な多様性に敏感であることが明らかになった。
構造を考慮した変分最適化による高品質なメディアルメッシュ計算:MATStruct [cs.GR]目的:3D形状のメディアル軸変換の計算
- 3D形状解析において,形状の構造理解は重要である。メディアル軸は形状の骨格を表し,解析を助ける。
- 既存手法では,メディアル構造の保存とメッシュ品質の両立が困難であった。
- 構造を考慮した最適化により,高品質なメディアルメッシュを生成し,形状の構造分解を可能とする。
- 提案手法は,制限付きパワーダイアグラム(RPD)を用いて,メディアル構造を保存しながらメッシュ品質を向上させる。
- MATFPやMATTopoといった既存手法と比較して,よりクリーンで正確なメディアル構造が得られる。
- 幾何学的忠実度,トポロジカルな正確性,および明示的な構造分解において,優れた性能を示す。
顔認証のための制限された受容野 [cs.CV]目的:顔認証における類似度指標の設計
- 深層学習の意思決定プロセスの理解は,モデルの挙動分析と問題診断に不可欠である。
- 既存の説明手法は評価指標の信頼性に課題があり,モデルの実際の推論を正確に反映しているか不明である。
- 受容野を制限することで,モデルの解釈性を高め,信頼性の高い類似度指標を構築することを目指す。
- 提案手法は,顔画像の局所的な類似度を合計することで全体的な類似度を算出する。
- 28x28の小さなパッチを用いても競争力のある認証性能を達成し,56x56のパッチでは最先端手法を上回る。
- このアプローチにより,事後分析に頼らず,局所的な加算説明が可能となる。
最適深度ネットワーク -- データセットに適応したモデル深さによる優れた効率 [cs.CL, stat.AP, cs.CE, cs.LG, cs.AI, cs.CV]目的:データセットとタスクの複雑さに応じたモデルの最適な深さのバランス
- 深層ニューラルネットワークは様々なタスクで高い性能を示すが,その成功は計算資源を多く必要とする場合がある。
- 多くのデータセットやタスクは,必ずしも深いモデルの容量を必要とせず,計算資源の無駄遣いにつながる。
- データセットの複雑さに応じた最適な深さのモデルを構築し,効率的な学習と推論を実現すること。
- 提案手法Optimally Deep Networks (ODNs) は,浅い深さから段階的に深さを増やし,目標精度に達するまで学習を進める。
- MNISTおよびSVHNデータセットにおけるResNet-18とResNet-34の実験で,メモリ使用量を最大98.64%と96.44%削減できた。
- 精度はそれぞれ99.31%と96.08%を維持しており,エッジデバイスへの展開を可能にする。
EGD-YOLO:ゴーストエンハンスメントYOLOv8nとEMAアテンションを用いた,悪条件下における頑健なドローン・鳥識別軽量マルチモーダルフレームワーク [cs.CV]目的:ドローンと鳥の正確な識別
- 空の安全確保とセキュリティシステムの向上において,ドローンと鳥の正確な識別が不可欠である。
- 既存手法では,悪条件下や多様な形状・サイズの物体に対して,識別精度と処理速度の両立が課題となっている。
- 本研究は,軽量かつ高精度な物体検出モデルを開発し,実用的なドローン・鳥識別システムを実現することを目指す。
- EGD-YOLOv8nは,RGB画像,赤外線画像,および両方の組み合わせで学習が行われた。
- RGBと赤外線の両方の画像を組み合わせたモデルが,最も高い精度と信頼性を実現した。
- 本モデルは,一般的なGPU上でリアルタイム処理が可能であり,実用性が高い。
ParsVoice:テキスト読み上げ合成のための大規模多話者ペルシャ語音声コーパス [cs.SD, cs.AI, cs.HC, cs.LG]目的:ペルシャ語テキスト読み上げ(TTS)技術開発のための大規模多話者音声コーパス
- ペルシャ語音声技術の発展は,言語的・文化的多様性の維持に不可欠である。
- 既存のペルシャ語音声データセットは規模が小さく,高性能なTTSの開発を妨げている。
- 高品質かつ大規模なペルシャ語音声データセットを構築し,TTS技術の性能向上を目指す。
- 本研究で構築したParsVoiceは,3,526時間の音声と470人以上の話者を含む,高品質なペルシャ語音声コーパスである。
- ParsVoiceを用いてXTTSをファインチューニングした結果,自然度MOSが3.6/5,話者類似度SMOSが4.0/5と良好な性能を示した。
- ParsVoiceは,主要な英語コーパスに匹敵する話者多様性と音質を備え,ペルシャ語音声技術の開発を加速させることが期待される。
3D胸部CTスキャンの多ラベル異常分類のための構造化スペクトルグラフ学習 [cs.RO, cs.CV]目的:3D胸部CTスキャンにおける多ラベル異常分類
- CT検査数の増加に伴い,放射線科医の負担軽減のため自動化ツールが重要視されている。
- 3Dボリュームデータの複雑な空間的関係性と異常の多様性から,多ラベル異常分類は困難である。
- 3D CTデータの長距離依存関係を捉え,臨床利用に適した複雑度で異常分類を可能とする。
- 提案手法は,独立した機関からの3つのデータセットで高い汎化性能を示した。
- 最先端のビジュアルエンコーダと比較して,競争力のある性能を達成した。
- 集約戦略,エッジ重み付け,グラフ接続パターンに関する詳細な検証を行った。
DISC-GAN:クラスタ固有の合成水中画像生成のためのスタイルとコンテンツの分離 [cs.RO, cs.MA, cs.SY, eess.SY, cs.CV, cs.AI]目的:水中画像のフォトリアリスティックな合成
- 水中画像は水中での色彩減衰や濁りなどの光学現象により画質が劣化する。
- 多様な水中環境の非均一な条件を生成モデルで捉えるのが難しい。
- クラスタ固有の特性を保持した合成画像の生成を目指す。
- 提案手法DISC-GANは,スタイルとコンテンツを分離し,クラスタ固有の学習戦略を用いる。
- 実験結果から,構造類似性指標(SSIM)が0.9012,平均ピーク信号対雑音比(PSNR)が32.5118 dB,Frechet Inception Distance(FID)が13.3728と,最先端の性能を示す。
- K-meansクラスタリングにより,スタイル固有のドメインにデータを分割し,それぞれのクラスタで独立してモデルを学習する。
因子化音声コーデックを用いた制御可能なゼロショット外国アクセント変換 [cs.SD]目的:外国アクセント変換の制御可能性
- 音声コミュニケーションにおいて,アクセントは重要な役割を果たす。
- 既存のアクセント変換手法では,変換の度合いを制御することが困難である。
- アクセント変換における強度と話者固有性のバランスを改善する。
- 提案手法は,アクセント変換の度合いをユーザーが明示的に制御できるフレームワークを提供する。
- 発音を対象としつつ,イントネーションや音素の持続時間といった超区分的特徴を維持する。
- 最新のアクセント変換システムと同等の性能を示し,話者固有性の保持に優れる。
ImHead:局所的な頭部モデリングのための大規模暗黙的形状モデル [cs.CV]目的:表情豊かな3Dアバターのモデリングと局所的な顔特徴編集の実現
- 3Dアバター生成において,リアリティと表現力が重要視される分野である。
- 従来の3DMMは形状の複雑さや多様性の表現に限界があり,柔軟性に欠ける。
- 局所的な編集を可能にしつつ,コンパクトな表現を維持することを目指す。
- 本研究で提案するimHeadは,多様なアイデンティティと表情を表現する能力において,既存手法を上回る。
- imHeadは,顔の局所的な編集を可能にする解釈可能なソリューションを提供する。
- 4Kの異なるアイデンティティからなる大規模データセットを用いて,大規模3D頭部モデリングへの一歩を踏み出した。
MDA231細胞の3D時間経過顕微鏡画像の完全セグメンテーション注釈 [cs.CV]目的:MDA231細胞の3D時間経過顕微鏡画像のセグメンテーション注釈データセット
- 画像処理技術の発展には,高品質な注釈付きデータセットが不可欠である。特に,多数の対象を含む体積画像の注釈は困難。
- 細胞の複雑な形状変化を捉えた3D体積画像の注釈作成には,時間と労力がかかるという課題がある。
- 本研究は,Cell Tracking Challengeのデータセットに対し,高品質な3Dセグメンテーション注釈を提供し,評価を行う。
- 作成された注釈は,Cell Tracking Challengeで公開されているトラッキングマーカーと一貫性があることが確認された。
- CTCが提供する2Dゴールドスタンダードとのセグメンテーション精度は,アノテーター間のばらつき範囲内であった。
- 本注釈は,入力画像の複雑さをより良く表現しており,細胞セグメンテーションの学習や評価に活用可能である。
マルチスケールコンテキストを用いたクロスアテンションによるマルチスペクトル雲セグメンテーション:MSCloudCAM [cs.CV, cs.AI, cs.LG]目的:マルチスペクトルおよびマルチセンサーデータの雲セグメンテーション
- 環境モニタリング,土地被覆マッピング,気候研究において,光学衛星画像における雲は大きな課題である。
- 既存手法では,マルチスペクトルおよびマルチセンサーデータの効果的な活用が不十分である。
- マルチスケールコンテキストとクロスアテンションにより,高精度な雲セグメンテーションを実現する。
- MSCloudCAMは,Sentinel-2とLandsat-8のデータを活用し,空,薄雲,厚雲,雲影の4つのカテゴリーに分類する。
- Swin Transformer,ASPP,PSP,クロスアテンションブロック,ECAB,空間注意モジュールを組み合わせることで,高精度なセグメンテーションを実現した。
- CloudSEN12とL8Biomeデータセットでの実験により,MSCloudCAMが最先端の性能を示すことが確認された。
LLMを戦略的エージェントとして:信念,最適反応行動,創発的ヒューリスティクス [cs.AI, cs.GT]目的:戦略的思考の能力の識別
- 交渉や政策設計など,他者の行動を推論する応用が増加しており,その戦略的思考のメカニズム理解が重要である。
- 既存研究では均衡プレイへの適合性や推論の深さが評価されているが,信念形成と行動選択の整合性に着目した研究は不足している。
- LLMにおける信念形成,行動評価,選択のプロセスを解明し,戦略的思考の能力を明らかにすることを目的とする。
- 最新のLLMは,特定の推論深さにおいて信念に基づいた最適反応行動を示すことが確認された。
- 制約がない場合,LLMは自己的に推論の深さを制限し,人間と合成対戦相手に対して異なる推測を形成し,メタ推論の一種を示す。
- 複雑性が増すにつれて,明示的な再帰は内部生成された選択のヒューリスティクスに取って代わり,安定したモデル固有のルールが形成される。
検出から軽減へ:胸部X線診断における深層学習モデルのバイアスへの対処 [eess.SY, cs.SY, eess.SP, cs.CV, cs.AI]目的:胸部X線診断における深層学習モデルのバイアス検出と軽減
- 医療におけるAI活用が進む中で,診断精度の向上が期待されている。
- 深層学習モデルが人種や性別などの属性によって異なる性能を示す場合がある。
- バイアスを軽減し,公平な診断を実現するための手法を確立すること。
- CNNとXGBoostを組み合わせたパイプラインにおいて,CNNの最終層をXGBoostに置き換えることで,公平性が向上することが示された。
- DenseNet-121やResNet-50といった異なるバックボーンでも同様の効果が確認され,モデル非依存な設計であることが示された。
- 軽量なアダプター学習が,従来のバイアス軽減手法と比較して,計算コストを抑えつつ同等またはそれ以上の効果を発揮することが示された。
追跡・回避ゲームにおける素早い開始戦略 [cs.MA, cs.GT, cs.LG]目的:追跡・回避ゲームにおける追跡者の初期配置戦略
- 追跡・回避ゲームは,ロボット工学やセキュリティなど幅広い分野に応用可能であるため重要である。
- 回避者の位置を事前に知らずに追跡者を効果的に配置することは依然として課題である。
- ゲーム理論とグラフニューラルネットワークを組み合わせ,戦略的に有効な初期配置を生成すること。
- グラフニューラルネットワークによって生成された初期配置は,ランダムな配置と比較して有意な優位性を示す。
- 複数の追跡者と回避者を伴うシナリオにおいて,回避者の生存率低下を早め,追跡者の移動距離を短縮する。
- 包含率の向上により,明確な戦略的利点が示されている。
共有する炎 [cs.GR]目的:山火事のデータを生態的・社会的な絡み合いの生きた記録として扱うための,ケアに基づき,結果を考慮した可視化の枠組み
- 山火事は生態系や社会に深刻な影響を与えるため,その影響を理解し,備えることが重要である。
- 既存の山火事データの可視化は,静的な指標に留まり,その複雑な関係性や倫理的側面を捉えきれていない。
- 山火事のデータを傷ついた記録として捉え,その関係性と倫理性を強調することで,より深い理解と共感を促す。
- 本研究は,植物を模したデータ形式,イベントベースのマッピング,物語の階層化を組み合わせることで,山火事のデータを多角的に表現する。
- 山火事を自然周期と人間のシステムにまたがる共有の時制的条件として提示し,その複雑な生態的・社会的な絡み合いを強調する。
- 山火事のデータを単純化せず,むしろ質感と傷跡を持つ記録として再構築することで,倫理的な視点を提供する。
高速HMR:拡散復号によるトークンとレイヤーのマージを通じた人体メッシュ復元加速 [cs.CV]目的:3D人体メッシュ復元(HMR)の高速化
- 近年,3Dヒューマンメッシュ復元は,モーションキャプチャやVR/AR等の分野で重要性が増している。
- TransformerベースのHMRモデルは高性能だが,計算コストと複雑さが課題となっていた。
- レイヤーとトークンのマージにより計算効率を向上させ,性能低下を防ぐことを目指す。
- 提案手法では,誤差制約レイヤーマージとマスク誘導トークンマージを導入し,処理速度を最大2.3倍に向上させた。
- 拡散ベースのデコーダを用いることで,マージによる性能低下を抑制し,時系列情報を活用した精度向上を実現した。
- 複数のベンチマークにおいて,ベースラインと比較して同等以上の性能を維持しながら高速化を達成した。
RareBoost3D:希少クラスを強化した合成LiDARデータセット [cs.AR, cs.CV]目的:希少クラスのLiDARデータセットの提供
- 自動運転技術の発展にはLiDARデータの活用が不可欠である。
- 現実世界のデータセットでは,希少クラスのサンプル数が少なく,学習の課題となる。
- 現実世界のデータセットを補完し,希少クラスの認識精度向上を目指す。
- 合成データセットRareBoost3Dを構築し,希少クラスのサンプル数を大幅に増加させた。
- 合成データと現実データを活用するための,ドメイン適応手法CSC lossを提案した。
- 提案手法は,現実世界のLiDAR点群セグメンテーションモデルの性能を大幅に向上させることを実証した。
どこにいるのか?モデルの地理位置特定能力を様々なスケールで検証するビジョン-言語ベンチマーク [cs.CV]目的:ビジョン-言語モデルの画像に基づいた地理位置特定能力の評価
- 現実世界での地理位置特定は重要な課題であり,様々な応用が期待される。
- 既存のビジョン-言語モデルの地理位置特定能力は,包括的に評価されていない。
- オープンワールド環境における地理位置特定能力を客観的に評価するベンチマークを構築する。
- 提案されたベンチマークEarthWhereは,国レベルとストリートレベルの2つのスケールでモデルの視覚認識,推論,証拠利用能力を評価する。
- Gemini-2.5-Proが平均精度56.32%で最高の性能を示し,GLM-4.5Vが34.71%の精度を達成した。
- ウェブ検索と推論が必ずしも性能向上に繋がらず,モデルに地域的な偏りが存在することが明らかになった。
共有Vision-Language埋め込み空間のトポロジー的アラインメント [cs.CV, cs.AI, cs.LG]目的:多言語Vision-Languageモデルにおける構造的整合性の向上
- 画像と言語を跨いだAIの性能向上は,多様な応用を可能にする重要な課題である。
- 既存モデルは英語に偏ったアラインメントになりがちで,多言語対応が不十分である。
- 埋め込み空間のトポロジーを考慮し,多言語間の構造的整合性を高めることを目指す。
- 提案手法ToMCLIPは,永続ホモロジーを用いてトポロジー的アラインメント損失を定義する。
- グラフの疎化戦略により,持続ホモロジー図を理論的な誤差範囲内で近似する。
- CIFAR-100でのゼロショット精度向上と,xFlickr&COでの多言語検索性能の強化が確認された。
シーンテキストスタイライザー:拡散モデルを用いた訓練不要のシーンテキストスタイル変換フレームワーク [cs.CV, eess.IV]目的:シーン画像中のテキストの柔軟かつ高精度なスタイル変換
- シーンテキスト認識は,屋外広告やナビゲーションなど幅広い応用があり重要である。
- 既存手法では,シーンテキストのスタイル変換が限定的で,自由なスタイル変換が困難である。
- テキスト領域に特化したプロンプト駆動のスタイル変換による高精度なスタイル変換を実現する。
- 提案手法は,拡散モデルの反転と自己注意機構を利用した特徴注入モジュールにより,効果的にスタイル特徴を伝達する。
- 距離に基づく変化マスクを各ノイズ除去ステップに適用するリージョン制御機構により,空間的な制御を可能にする。
- フーリエ変換に基づくスタイル強調モジュールを組み込むことで,視覚的な品質をさらに向上させる。
DreamMakeup:潜在拡散モデルを用いた顔メイクのカスタマイズ [cs.CV, cs.AI, cs.LG]目的:顔メイクのカスタマイズ手法
- メイク市場の拡大に伴い,仮想メイク技術の重要性が高まっている。
- GANでは,学習の不安定性やカスタマイズ性の限界が課題となっていた。
- 拡散モデルの利点を活かし,より精密な画像編集と制御を可能とする。
- DreamMakeupは,GANや他の拡散モデルよりも優れたカスタマイズ性,色合わせ能力,およびID保持能力を示す。
- 顔の構造とアイデンティティを保持しつつ,参照画像,RGBカラー,テキストによる多様なカスタマイズを可能にする。
- テキスト記述やLLMとの互換性を持ちながら,計算コストを抑えた効率的な手法である。
FG-CLIP 2:日英両言語に対応した高精度な視覚と言語の対応モデル [cs.CV, cs.AI, cs.LG]目的:視覚と言語の細粒度な対応
- 視覚と言語の理解は,AIの多様な応用において不可欠であり,その重要性は増している。
- 既存モデルは,物体の属性や空間関係などの細部に着目した正確な対応が課題である。
- 日英両言語における,視覚と言語の細粒度な対応能力の向上を目指す。
- FG-CLIP 2は,領域とテキストの対応,長文キャプションのモデリング等の学習方法を導入し,両言語で高い性能を発揮する。
- 新たに中国語のマルチモーダル理解のためのベンチマークを構築し,長文キャプション検索やバウンディングボックス分類タスクで有効性を示した。
- 29のデータセット,8つのタスクにおいて既存手法を凌駕し,最先端の結果を達成した。
非協力型共同補充ゲームにおける協調の達成 [cs.CL, cs.GT]目的:長期平均システムコストを最小化するコスト配分規則の設計
- サプライチェーン管理において,小売業者間の連携はコスト削減とサービス向上に不可欠である。
- 小売業者は自身の利益を優先するため,共同補充における最適な協調体制が確立されていない。
- 小売業者の独立した意思決定下で,協調を促進し,システム全体のコストを削減する仕組みを構築する。
- 提案するコスト配分規則は,小売業者の定義された重みに応じて主要な設定コストを分配する。
- この規則の下では,エージェントの最適反応の単調性が証明され,純粋なナッシュ均衡の存在が示された。
- ある規則は,小売業者の保有コスト率を活用することで,1.25というほぼ最適な安定価格(PoS)を達成した。
テクスチャレスオブジェクトの6D姿勢推定のためのマルチビューRGBフレームからの高密度キーポイント融合(DKPMV) [cs.CV, cs.RO]目的:テクスチャレスオブジェクトの6D姿勢推定
- 産業用ロボット応用のために重要であり,奥行き情報の損失が課題となる分野。
- 既存手法は深度情報に依存するか,マルチビュー幾何学的情報を十分に活用できていない。
- マルチビューRGB画像のみを用いて高密度キーポイントレベルの融合を実現する。
- DKPMVは,マルチビューRGB画像を入力として,高密度キーポイントレベルの融合パイプラインを提案する。
- 3段階の漸進的な姿勢最適化戦略により,高密度マルチビューキーポイント幾何学情報を活用する。
- ROBIデータセットを用いた実験により,最先端のマルチビューRGBアプローチやRGB-D手法を上回る性能を示す。
生成事前分布を用いた逆問題における分布シフト不確実性推定に向けて [cs.CV]目的:逆問題における分布シフトの不確実性推定
- 医療画像再構成などに応用でき,データ駆動型事前分布の有用性が高まるため。
- テスト画像が訓練分布外にある場合,特徴量を幻覚するリスクがある。
- 分布シフトに敏感な,再訓練不要な不確実性指標を提案し,問題を解決する。
- 訓練分布内の画像再構成は測定変動に対して安定している一方,分布外画像は不安定になるという仮説を検証した。
- 提案手法は,MNISTの数字再構成実験で,分布外の数字で高い変動性と再構成誤差を示すことを確認した。
- 生成事前分布と軽量なガードレールを組み合わせることで,分布内では測定量を削減し,分布外では警告を発する戦略が示唆された。
埋め込み有効ランクによる汎用音声表現のニューラルスケーリング則の統一 [cs.SD, cs.AI, eess.AS]目的:汎用音声表現のスケーリング則
- 画像処理や自然言語処理で重要性が増しており,音声表現学習への応用が期待される。
- 音声長,埋め込み次元数など複数の要因が複雑に絡み合い,解析が困難である。
- 埋め込み有効ランクを用いて,多様な変数が表現品質に与える影響を統一的に評価する。
- 埋め込み有効ランク(RankMe)と表現品質の間に一貫したべき乗則の関係が示された。
- RankMeが,音声表現学習におけるモデル性能の評価と予測の信頼できる指標となることが確認された。
- 古典的なスケーリング則が汎用音声ドメインにも適用可能であることが検証された。
未知の構築環境における汎化可能な人間の空間的選好予測のためのニューラルネットワークアーキテクチャの比較評価 [cs.CE, cs.CV, cs.LG, cs.MA]目的:汎化可能な人間の空間的選好予測
- 都市計画や建築設計において,人間の空間的選好を理解することは,快適で機能的な環境を作る上で重要である。
- 既存の選好モデルは,学習データにない環境への汎化性能が低いという課題がある。
- 未知の環境においても,人間の空間的選好を正確に予測するための最適なニューラルネットワークアーキテクチャを特定すること。
- グラフニューラルネットワーク,畳み込みニューラルネットワーク,フィードフォワードニューラルネットワークの比較を行った結果,それぞれの汎化性能に差が見られた。
- 不均衡データに対応可能なPrecision-Recall曲線下の面積を汎化スコアとして用いることで,各アーキテクチャの適性を評価した。
- 簡略化された公園環境を用いた研究ではあるが,学習された選好パターンを未知の空間シナリオに転移する能力に違いが確認された。
IUT-Plug:交差型画像テキスト生成のためのプラグインツール [cs.CV]目的:交差型画像テキスト生成における論理,物体同一性,スタイルの維持
- 画像とテキストを組み合わせた処理は,AI技術の応用範囲を広げる上で不可欠である。
- 既存のモデルでは,複雑な場面で論理的な一貫性や物体・スタイルの維持が課題となっていた。
- 文脈のずれを抑制し,より正確で信頼性の高い交差型生成を目指す。
- IUT-Plugは,画像理解木(IUT)に基づき,既存のモデルに構造化された推論能力を付与する。
- 提案手法は,動的なIUT-Plug抽出モジュールと,協調的なナラティブフロー・画像合成メカニズムの二段階構成である。
- 実験結果から,IUT-Plugは既存のベンチマークで精度を向上させ,文脈のずれを効果的に軽減することが示された。
Chart-RVR:説明可能なチャート推論のための検証可能な報酬を用いた強化学習 [cs.CV, cs.LG]目的:チャート推論における大規模ビジョン言語モデルのロバスト性と説明可能性の向上
- 視覚的推論は,AIの重要な能力の一つであり,多様な応用分野への発展が期待される。
- 大規模言語モデルは分布外データに対して脆弱であり,推論根拠の説明が困難であるという課題がある。
- 検証可能な報酬を用いて強化学習を行うことで,モデルの信頼性と解釈性を高めることを目指す。
- Chart-RVRは,標準的な教師ありファインチューニングを上回り,分布内および分布外のデータセットの両方で優れた性能を発揮する。
- これにより,分布外データの性能ギャップを縮小しつつ,推論根拠の忠実性を向上させることに成功した。
- 検証可能な報酬とGRPOの組み合わせが,信頼性が高く解釈可能なチャート推論モデルの学習に有効であることを示す。
Barlow Twins の最適な表現効率:情報幾何学的解釈 [cs.IR, cs.RO, cs.LG, cs.CV, cs.IT, math.IT, math.ST, stat.ML, stat.TH]目的:表現効率の定量化
- 教師なし学習はラベルなしで有用な表現を獲得するため,近年重要性が増している。
- 様々な教師なし学習手法の効率を統一的に理論的に比較する枠組みが不足している。
- Barlow Twins の有効性を理解するための厳密な理論的基盤を確立すること。
- 本研究では,表現効率を情報幾何学的に定義し,Fisher情報行列のスペクトル特性を用いることで定量化する。
- Barlow Twins は,表現の相互相関行列を単位行列に近づけることで最適な表現効率(η = 1)を達成することを理論的に証明した。
- この成果は,Barlow Twins の有効性に対する新たな幾何学的視点を提供する。
Mixupはマルチモーダルビデオの理解を改善する [cs.CV]目的:マルチモーダルビデオ理解の汎化性能向上
- ビデオ理解は,行動認識や感情分類など多岐にわたるタスクにおいて重要な役割を担う。
- モデルが強いモダリティに過剰適合し,弱いモダリティの貢献を抑制することが課題である。
- 過剰適合の軽減と,モダリティ間の不均衡への対処を目指す。
- 提案手法Multimodal Mixup (MM) は,集約されたマルチモーダル特徴レベルでMixup戦略を適用し,過剰適合を軽減する。
- さらに,Balanced Multimodal Mixup (B-MM) は,学習目的への寄与度に基づいて各モダリティの混合比を動的に調整する。
- 複数のデータセットでの実験により,汎化性能とマルチモーダルなロバスト性の向上が確認された。
エージェント型マルチモーダル大規模言語モデルに関する調査 [cs.CV, cs.AI, cs.CL]目的:エージェント型マルチモーダル大規模言語モデルの包括的な調査
- 近年,自律エージェントシステムへの関心が高まっており,AI研究に新たな可能性をもたらしている。
- 従来のAIエージェントは,静的で受動的,かつ特定領域に限定される傾向があった。
- エージェント型マルチモーダル大規模言語モデルの概念的枠組みを確立し,研究を加速させる。
- 本調査では,エージェント型マルチモーダル大規模言語モデルの内部知能,外部ツール利用,環境とのインタラクションという3つの次元を明らかにした。
- オープンソースの学習フレームワークやデータセットをまとめ,エージェント型マルチモーダル大規模言語モデルの開発を支援する。
- エージェント型マルチモーダル大規模言語モデルの応用例と,今後の研究方向性について概説した。
視点認識を用いた多視点整合3Dガウス欠損補完 [cs.CV]目的:3Dガウス欠損補完における多視点整合性の向上
- VR/MM分野の発展に不可欠であり,高品質な3Dコンテンツ作成が求められている。
- 既存手法では,多視点間の一貫性を確保することが困難であり,品質低下を招く。
- 視点情報を活用し,多視点間の整合性を検証することで,高品質な3D欠損補完を実現する。
- 提案手法PAInpainterは,視点に応じたコンテンツ伝播と多視点整合性検証により,3Dガウス欠損補完を高度化する。
- SPIn-NeRFとNeRFillerデータセットにおいて,PSNR値がそれぞれ26.03dB,29.51dBと,既存手法を凌駕する性能を示す。
- これにより,復元された3Dシーンにおける全体的な整合性とテクスチャの忠実性が大幅に向上する。