arXiv雑要約
画像・音声 - 2026/02/03 公開
予測子の情報量は別の予測子よりも優れているか? 決定理論的比較 [cs.LG, cs.GT]目的:予測子間の情報量の差の評価
- 現実世界の様々な意思決定において,確率予測は重要であり,予測の質が意思決定の成果に直結する。
- 複数の予測モデルが存在する場合,どのモデルを選択すべきか,その判断基準が明確でない。
- 予測モデルの校正が保証されない状況下で,意思決定タスクに応じた予測子の有用性を比較する手法を提案する。
- 提案手法では,任意の2つの予測子の情報量の差を,全ての意思決定タスクにおける最大正規化されたペイオフの優位性として定義した。
- 情報量の差の二重表現を導出し,予測分布間の地球移動距離の緩和版と見なせる情報量指標を提案した。
- LLMを用いた実験により,提案指標が従来の指標よりも意思決定に適切であり,事後校正の効果を評価する上で有効であることが示された。
ReasonVQA:構造的知識を用いた視覚的質問応答の多段階推論ベンチマーク [eess.SY, cs.SY, cs.CV]目的:視覚的質問応答タスクのための多段階推論ベンチマーク
- 画像と質問から答えを導くVQAは,AIの知能評価において重要である。
- 既存のVQAモデルは,複雑な推論や外部知識を必要とする問題に弱い。
- 構造化知識を活用し,多段階推論を要するVQAデータセットを構築することで,モデルの限界を明らかにする。
- ReasonVQAデータセットは,既存のデータセットと比較して大幅に規模が大きく,外部知識を必要とする質問を豊富に含む。
- 最先端のVQAモデルはReasonVQAにおいて著しく性能が低下し,データセットが高度な推論能力を試すベンチマークとして機能することが示された。
- 本データセットは,VQA分野の発展を促進し,より高度なモデル開発に貢献する可能性を持つ。
効率的なマルチモーダル大規模言語モデルのためのトークン圧縮に関する調査 [cs.CV]目的:マルチモーダル大規模言語モデルにおけるトークン圧縮手法の体系的な調査と分析
- マルチモーダル大規模言語モデルは急速に発展しており,高度な情報処理能力が求められている。
- 入力トークン数の増加に伴い,計算コストが急増し,性能のボトルネックとなっている。
- トークン圧縮によって計算効率を向上させ,マルチモーダルモデルの実用化を促進すること。
- 本調査は,画像,動画,音声といった各モダリティに特化したトークン圧縮手法を分類し,整理した。
- 変換,類似性,注意,クエリに基づいた圧縮メカニズムを詳細に分析し,それぞれの特徴を明らかにした。
- 現在の進捗状況をまとめ,今後の研究方向性を示唆することで,本分野の発展に貢献する。
深層ネットワークのベールを剥ぐ [cs.CL, cs.LG, cs.CV, cs.NE]目的:深層ニューラルネットワークの説明性
- 深層学習の応用拡大に伴い,その意思決定過程の透明性が重要視されている。
- 既存の説明手法はノイズが多く,知覚的な整合性に欠け,解釈が困難な場合がある。
- ネットワークの線形作用を抽出し,意味のある特徴を明確にすること。
- Semantic Pullbacks (SP) は,従来の帰属手法よりも高い忠実度を示す。
- SP は,ResNet50,VGG,PVT などの様々なモデルで優れた性能を発揮する。
- SP は,既存の深層学習パイプラインに容易に組み込むことができ,他のモダリティにも拡張可能である。
DA-Occ:効率的かつ形状保持のための方向認識2D畳み込みによる3D occupancy予測 [cs.CV]目的:自動運転における3D occupancy予測の効率化と高精度化
- 自動運転システムの性能向上に不可欠な要素技術であり,安全な走行実現に貢献する。
- 高精度な手法は計算コストが高く,高速処理が難しい。BEV表現は高速だが,垂直方向の情報が失われる。
- 垂直方向の幾何学的情報を保持しつつ,効率的かつ高精度な3D occupancy予測を実現する。
- 提案手法DA-Occは,Lift-Splat-Shoot (LSS)パラダイムを基盤とし,高さスコア投影により垂直方向の幾何学的情報を明示的に符号化する。
- 方向認識畳み込みを用いることで,垂直方向と水平方向の両方の幾何学的特徴を効果的に抽出し,精度と計算効率のバランスをとる。
- Occ3D-nuScenesデータセットにおいて,mIoU 39.3%と27.7 FPSの推論速度を達成し,エッジデバイス上では14.8 FPSを実現した。
拡張VIIRS様夜間光データ再構成(1986-2024年) [cs.CV, eess.IV]目的:夜間光データの長期的な時系列分析
- 夜間光データは,人間の活動強度と空間分布を定量化する上で重要な指標である。
- 既存のVIIRSデータは2012年からしか観測できておらず,過去の長期的な分析に制約がある。
- 既存の拡張データには,光の強度の過小評価と構造情報の欠如という課題があった。
- 本研究では,1986年から2024年までの中国における年次夜間光データセットEVALを開発した。
- EVALは,二段階の深層学習モデルを用いて,既存の課題を克服し,より高精度なデータを提供している。
- 定量評価の結果,EVALは既存のデータセットを凌駕し,優れた時間的一貫性と社会経済指標との高い相関性を示した。
DeepGB-TB:迅速かつ解釈可能な結核スクリーニングのためのリスクバランス型クロスアテンション勾配ブースティング畳み込みネットワーク [cs.LG, cs.AI, cs.SD, eess.AS]目的:結核リスクスコアの即時算出
- 結核は依然として世界的な健康問題であり,早期発見と迅速な対応が重要である。
- 従来の結核診断はコストと運用が複雑であり,大規模スクリーニングの妨げとなっている。
- AIを活用し,迅速かつ安価に結核リスクを評価することで,スクリーニングの効率化を目指す。
- DeepGB-TBは,咳の音声と基本的な属性情報から結核リスクスコアを算出するシステムである。
- 多様なデータセットを用いた評価では,AUROC 0.903,F1スコア 0.851を達成し,最先端の性能を示した。
- 計算効率が高く,一般的なモバイルデバイスでもリアルタイム推論が可能であり,低資源環境での活用に適している。
デルタ埋め込みによるロバストな介入表現の学習 [cs.HC, cs.CY, cs.CE, cs.CV, cs.AI]目的:介入画像ペアのロバストな表現
- モデルの汎化性能とロバスト性を向上させる手段として,因果表現学習が注目されている。
- 既存研究は主にシーン内の変数の識別・表現に注力しており,介入自体の表現は十分ではない。
- 潜在空間における作用可能反事実の表現に焦点を当て,分布外のロバスト性を改善する。
- 提案手法である因果デルタ埋め込みは,視覚シーンに不変で,影響を受ける因果変数に関して疎である。
- 追加の教師信号なしに,画像ペアから因果表現を学習する手法を提案した。
- Causal Tripletチャレンジにおいて,合成データと実世界のベンチマークでベースラインを大きく上回る性能を示した。
VQAThinker:強化学習による汎化性と説明可能性を備えたビデオ品質評価の探求 [cs.CV]目的:ビデオ品質評価における汎化性と説明可能性の向上
- ビデオ品質評価は,人間の視覚認識に合致した客観的評価が求められる分野である。
- 既存モデルは,分布外の動画への汎化性能と説明可能性に課題を抱えている。
- 本研究は,強化学習を用いて,汎化性と説明可能性を高めたVQAモデルを開発する。
- 提案手法VQAThinkerは,大規模マルチモーダルモデルと強化学習を組み合わせることで,人間の知覚意思決定を模倣する。
- 実験結果から,VQAThinkerは,既存手法を上回り,汎化性能と歪み帰属,品質記述において優れていることが示された。
- スコアレベルの教師信号のみで,汎化性と説明可能性を両立したVQAモデル構築の有効性が確認された。
STELAR-VISION:視覚的アラインメントのための自己トポロジー認識型効率学習 [cs.AI, cs.CV]目的:視覚的推論におけるトポロジー認識型学習の効率化
- 近年,画像と言語を組み合わせたモデルの推論能力は向上している。
- 複雑なマルチモーダルタスクにおいて,冗長な出力や推論構造の硬直性が課題となっている。
- 多様なトポロジー構造を活用し,より正確かつ効率的な推論を可能にすること。
- STELAR-Visionは,TopoAugという合成データパイプラインを用いて,多様なトポロジー構造を学習データに組み込んだ。
- MATH-VとVLM-S2Hにおいて,ベースモデルと比較して精度が9.7%向上し,Qwen2VL-72B-Instructをも上回った。
- 様々な外部データセットでもPhi-4-Multimodal-InstructやLLaMA-3.2-11B-Vision-Instructを最大で28.4%,13.2%上回り,高い汎化性能を示した。
光学リモートセンシング画像における顕著物体検出のための適応的視覚状態空間モデリング [cs.CV]目的:光学リモートセンシング画像における顕著物体検出の性能向上
- 地球観測技術の発展に伴い,リモートセンシング画像の活用が重要性を増している。
- 対象物の規模変化や背景とのコントラストの低さにより,顕著物体検出は困難を伴う。
- 異質な特徴量の統合が課題であり,適応的な状態空間モデリングによる解決を目指す。
- 提案手法ASCNetは,状態空間モデル機構を用いて長距離依存性と局所特徴表現を同時に捉える。
- MLCMモジュールは,多段階の文脈情報を活用し,異なるスケールの特徴間の相互作用を強化する。
- DAGSとGPMを統合したAPVSSブロックは,局所情報の捕捉と状態空間モデルの局所モデリング能力を向上させる。
オーディオ編集の自動評価と高品質な疑似並列データセット構築:人間介入型手法 [cs.SD]目的:オーディオ編集の評価とデータセット構築における課題解決
- オーディオ編集はテキスト指示に基づき音声を操作する技術であり,多様な応用が期待される。
- 高品質な評価データセットと包括的な評価指標の不足が,研究の発展を阻害している。
- 専門家の知識を活用し,評価とデータセット構築の両面から課題を解決することを目指す。
- AuditScoreという,7つのオーディオ編集フレームワークと23のシステム構成から生成された6,300以上の編集サンプルからなる,主観評価用データセットを構築した。
- AuditEvalという,SSLベースとLLMベースのアプローチを組み合わせた,オーディオ編集に特化した自動MOSスタイル評価器を提案した。
- AuditEvalを用いて合成された編集ペアを評価・フィルタリングすることで,高品質な疑似並列データセットを効率的に構築した。
パッチベース病理モデルにおける病院特有のバイアス [cs.CV, eess.IV]目的:病理学的基礎モデルの病院特有ドメインシフトへの感受性評価とバイアス軽減
- 病理診断は疾患診断や予後予測に不可欠であり,AIによる支援が期待される。
- 病院ごとに画像取得条件や染色方法が異なり,モデルの汎化性能を阻害する要因となる。
- 病院間のドメインシフトによるバイアスを軽減し,汎化性能を向上させる手法の開発。
- 最新の病理学的基礎モデルの評価により,病院特有のドメインシフトに敏感であることが示された。
- 軽量な敵対的アダプターを用いることで,潜在表現から病院関連情報を効果的に除去できることが確認された。
- このアダプターは疾患分類精度を維持しつつ,病院特有のバイアスを低減する効果を持つ。
仮想コミュニティ:人間,ロボット,そして社会のためのオープンワールド [cs.CV, cs.CL, cs.RO]目的:人間,ロボット,社会が共存する環境下における具現化された社会知能の研究
- AIとロボティクスの進展は社会に変革をもたらす可能性があり,その影響を理解することが重要である。
- 現実世界のような複雑な環境下での人間とロボットの協調や社会的な相互作用の評価が困難である。
- 人間とロボットが共存するオープンワールド環境における社会知能の研究を促進すること。
- 仮想コミュニティは,リアルな3Dシーンを基盤とした,人間,ロボット,社会のためのオープンワールドプラットフォームとして構築された。
- コミュニティプランニングチャレンジとコミュニティロボットチャレンジという二つの課題を提案し,高度な計画立案と低レベルの協調制御の課題を実証した。
- 仮想コミュニティは,オープンワールド環境における人間とロボットの共存に関する研究を促進することが期待される。
追跡可能な診断推論のためのエンドツーエンドエージェント型RAGシステム訓練 [cs.IR, cs.CL, cs.AI, cs.CV]目的:追跡可能な診断推論のためのエンドツーエンドエージェント型RAGシステムの開発
- 医療分野におけるLLM活用は,知識不足や誤情報の生成,エビデンスに基づく医療(EBM)との乖離が課題となっている。
- 従来のRAGシステムは静的なワークフローに依存し,臨床医の反復的な仮説検証型推論を捉えきれていない。
- 大規模医療データから統計的規則性を活用し,信頼性の高い診断支援システムを構築することを目指す。
- 本研究で開発したDeep-DxSearchは,強化学習を用いてエンドツーエンドで訓練されたエージェント型RAGシステムである。
- 実験の結果,Deep-DxSearchはGPT-4oやDeepSeek-R1を含む既存手法を凌駕し,平均して22.7%の精度向上を達成した。
- 150件の実際の症例を用いた検証では,Deep-DxSearchは医師の平均診断精度を45.6%から69.1%に向上させた。
メッシュベース計算のためのGPUを用いた局所性認識自動微分 [cs.GR]目的:メッシュベース計算における自動微分システム
- 物理シミュレーション等,多くの計算がメッシュ構造に基づいているため,効率的な微分が重要である。
- 従来の自動微分は,グローバルな計算グラフやメモリ転送が発生し,性能が課題であった。
- メッシュの局所性と疎性を活用し,GPU上で効率的な自動微分を実現することを目指す。
- 本システムは,レジスタと共有メモリ内で計算を完結させ,GPU上で直接疎な勾配,ヤコビアン,ヘッセ行列を構築する。
- エネルギー項をメッシュ近傍で表現するプログラミングモデルにより,並列実行,微分伝播,疎集合,行列フリー演算を自動的に管理する。
- 弾性・布シミュレーション等,様々なアプリケーションで既存の微分フレームワークを上回る性能を示した。
事前知識誘導型残差拡散:キャリブレーションと効率的な医用画像セグメンテーション [cs.CV]目的:医用画像セグメンテーションにおけるボクセルごとの分布学習
- 医療画像解析は診断精度向上に不可欠であり,セグメンテーションはその重要な構成要素である。
- 医用画像セグメンテーションは曖昧さを抱え,単一推定値では不確実性の表現が難しい。
- 確実性を考慮したセグメンテーションモデルを構築し,効率的なサンプリングを可能にすること。
- PGRDは,事前知識を基に拡散モデルを誘導することで,高いDiceスコアと低いNLL/ECE値を実現した。
- 従来のBayesian,アンサンブル,Probabilistic U-Net,バニラ拡散モデルと比較して,より少ないステップ数で同等の性能を達成した。
- 拡散モデルにおけるセグメンテーションと事前分布のアラインメントにより,収束が加速し,キャリブレーションが向上した。
テキストから画像生成における推論時最適化のためのデータ駆動型損失関数 [cs.CV]目的:テキストから画像生成モデルにおける空間的推論の精度向上
- 画像生成技術の発展は目覚ましいが,空間認識能力の課題が残されている。
- 既存手法では,手動で設計された損失関数が最適とは限らず,空間的推論の誤りが頻発する。
- モデルの内部表現から空間関係を学習し,データ駆動型損失関数を構築することで精度向上を目指す。
- 提案手法「Learn-to-Steer」は,拡散モデルのクロスアテンションマップから空間関係を識別する軽量な分類器を学習する。
- 訓練データに誤った関係詞を含むプロンプトを付加することで,言語的ショートカットを回避し,空間パターンを学習する。
- FLUX.1-devとSD2.1において,空間精度が大幅に向上し,汎化性能も確認された。
UrbanTwin:合成された道路脇LiDARデータセット [cs.CV]目的:道路脇LiDARデータセットの合成
- 自動運転やロボティクス分野において,LiDARによる環境認識は不可欠である。
- LiDARデータセットの収集はコストと時間がかかるため,十分な量のデータが利用できない場合がある。
- 高品質な合成データセットを提供し,データ不足による課題を解決することを目指す。
- UrbanTwinデータセットは,LUMPI,V2X-Real-IC,TUMTraf-Iの3つの公開LiDARデータセットを高精度に再現している。
- 合成データセットを用いて3D物体検出モデルを学習した結果,実データのみで学習した場合と比較して性能が向上した。
- デジタルツインの特性を利用し,様々なシナリオでの検証が可能であり,既存のベンチマークデータセットを拡張する。
GLEAM: クロスビュー地理位置特定におけるマッチングと説明の学習 [cs.CV, cs.CL]目的:クロスビュー地理位置特定における,異なる視点からの画像間の対応関係の特定
- 地理位置特定は,ロボティクスや拡張現実など,様々な分野で不可欠な技術である。
- 既存手法は単一の視点やモダリティに限定され,対応の根拠の説明が欠けている。
- 複数の視点とモダリティを統合し,対応の理由を説明できる地理位置特定モデルの構築。
- GLEAM-Cは,衛星画像とのアライメントにより,複数の視点とモダリティを統合する基盤モデルである。
- 新しい二段階の学習戦略により,既存のモダリティ固有のCVGLモデルと同等の精度を達成した。
- GLEAM-Xは,大規模言語モデルを活用して説明可能な推論を行うことで,対応予測と説明を組み合わせる。
現実的な動的環境におけるGUIエージェントに対する環境注入攻撃 [cs.HC, cs.HC, cs.HC, cs.CR, cs.CV]目的:GUIエージェントに対する環境注入攻撃の脆弱性
- オンラインサービスとのインタラクションにおいてGUIエージェントの利用が増加しており,セキュリティが重要となる。
- 既存研究では,Webコンテンツの動的な変化が考慮されておらず,現実的な環境での脆弱性評価が不十分である。
- 動的環境下でのGUIエージェントの脆弱性をより正確に評価し,堅牢性を向上させる。
- Chameleonという攻撃フレームワークを提案し,動的環境下での現実的なWebページシミュレーションを実現した。
- Attention Black Holeというメカニズムを導入し,GUIエージェントの注意を効果的に誘導することで,動的環境におけるロバスト性を向上させた。
- 6つの現実的なWebサイトと4つの代表的なLVLM搭載GUIエージェントに対してChameleonを評価し,既存手法を大幅に上回る性能を示した。
GenExam:多様な分野にわたるテキストから画像への試験 [cs.CV]目的:多分野にわたるテキストから画像への試験ベンチマーク
- 専門レベルの知能を測る試験は重要であり,統合的な理解,推論,生成能力が求められる。
- 既存の試験ベンチマークは理解と推論に偏っており,生成ベンチマークは厳密な描写試験の評価を欠いている。
- 理解,推論,生成を統合する能力を厳密に評価するベンチマークを提供し,生成モデルの知能向上を目指す。
- GenExamは,10分野1000サンプルからなる初の多分野にわたるテキストから画像への試験ベンチマークである。
- 17のテキストから画像生成モデルの実験により,GenExamの難易度と,オープンソースモデルとクローズドソースモデルの性能差が明らかになった。
- 画像生成を試験として捉えることで,モデルの能力を厳密に評価し,知的な生成モデル開発の洞察を提供する。
閉塞性睡眠時無呼吸症候群スクリーニングのための夜間呼吸音からの呼吸努力推定 [cs.SD, cs.AI, eess.AS]目的:閉塞性睡眠時無呼吸症候群のスクリーニングにおける呼吸努力の推定
- 睡眠時無呼吸症候群は有病率が高く,健康に重大な影響を及ぼすため,早期発見が重要である。
- 従来の検査は高額で複雑であり,多くの患者が診断を受けていない現状がある。
- 夜間の呼吸音のみから呼吸努力を推定し,簡便かつスケーラブルなスクリーニングを実現する。
- 夜間呼吸音から呼吸努力を推定する手法を提案し,意味のある呼吸動態を捉えることに成功した。
- 推定された呼吸努力と音響特徴量を融合することで,OSA検出の感度とAUCが向上した。
- 本手法はスマートフォンのみで実行可能であり,センサーレスで長期的なOSAモニタリングを可能にする。
視覚受容野に対する一般化ガウス微分モデルのためのハイブリッドLie半群とカスケード構造 [cs.CV, q-bio.NC]目的:視覚受容野応答の空間・時空間パラメータ間の関係性の導出
- 自然画像変換下での多様性を考慮した視覚システム構築は重要である。人間の視覚は様々な条件下で物体を認識する必要があるため。
- パラメータ変化に対する受容野応答の関係性が不明確である。これにより,効率的な計算や生物学的モデルの構築が困難になっている。
- Lie半群とカスケード構造を用いて,受容野応答の空間・時空間パラメータ依存性を解析し,効率的な計算手法を確立する。
- 空間・時空間受容野応答間の関係性を,Lie群と半群の概念を組み合わせることで数学的に記述した。
- カスケード平滑化特性を導出し,粗いスケールでの応答がより細かいスケールからのincrementalフィルタ適用によって計算されることを示した。
- これらの結果は,受容野応答計算の効率化と,単純細胞の計算モデル構築に貢献すると考えられる。
費用対効果制約下における自動入札:不確実性評価 [cs.RO, cs.LG, cs.GT]目的:費用対効果制約下での自動入札システムにおける不確実性評価手法
- 広告における自動入札は,予算や費用対効果などの制約下で入札額を決定する上で重要である。
- 既存研究では,広告効果(コンバージョン率など)が既知であるという前提があり,現実的ではない。
- 未知の広告効果に対する不確実性を評価し,費用対効果を最大化する入札手法を提案する。
- 本研究では,機械学習と共形予測を組み合わせることで,広告効果の不確実性を定量化する手法を提案した。
- 提案手法は,既存の自動入札システムに容易に組み込むことができ,理論的な性能保証も確立した。
- シミュレーションおよび実データを用いた実験により,提案手法が性能向上と計算効率維持の両立を可能にすることが示された。
航空画像における微小物体の検出性能向上 [cs.CV]目的:航空画像における微小物体の検出精度向上
- 航空画像分析は,都市計画,災害監視,環境保全など,多岐にわたる分野で不可欠である。
- 航空画像における微小物体検出は,低解像度や背景の複雑さから困難である。
- YOLOv8の検出性能を向上させ,微小物体検出の課題解決を目指す。
- YOLOv8に画像解像度調整,データ拡張,注意機構,代替ゲーティング関数を導入した。
- 画像サイズ拡大と適切なデータ拡張により,検出性能が向上した。
- 複数の注意モジュールを組み合わせたMoonNetパイプラインが,YOLOv8のバックボーンを上回る精度を示した。
クラスタ内Mixup:相補的ラベル学習のための効果的なデータ拡張手法 [cs.LG, cs.AI, cs.CV]目的:相補的ラベル学習におけるデータ拡張の有効性
- 弱教師あり学習の一手法であり,ラベルコスト削減が期待されるため重要である。
- 既存のMixupのようなデータ拡張手法が,相補的ラベル学習においては効果を発揮しない。
- 近傍のサンプルのみでデータ拡張を行うことで,ノイズの影響を軽減し性能向上を目指す。
- 提案手法Intra-Cluster Mixup (ICM) は,相補的ラベルの共有を促進し,性能の大幅な改善を実現した。
- MNISTデータセットでは,最先端の相補的ラベル学習アルゴリズムと組み合わせることで,精度が30%向上した。
- CIFARデータセットにおいても,同様に10%の精度向上が確認された。
MoCrop:効率的なビデオ行動認識のための自由運動誘導クロッピング訓練 [cs.CV]目的:効率的なビデオ行動認識のための運動誘導適応的クロッピング技術
- ビデオ行動認識は,監視システムやロボット工学など,多様な応用分野で重要性が増している。
- 既存手法は,冗長な空間情報と高コストな計算量が課題となっている。
- 本研究は,計算コストを削減しつつ認識精度を向上させることを目指す。
- MoCropは,H.264ビデオのモーションベクトルを活用し,訓練やパラメータ更新を必要とせずに適応的なクロップを生成する。
- UCF101データセットを用いた実験で,MoCropはResNet-50において,同等のFLOPsでTop-1精度を3.5%向上させた。
- また,CoViARでは,精度を89.2%に向上させるか,または計算量を約27%削減することに成功した。
修正された分離データセット蒸留:公平かつ包括的な評価のための詳細な検討 [cs.CV]目的:データセット蒸留における評価プロトコルの不整合性の解明
- データセットは機械学習の根幹であり,その規模は学習コストに直結する。効率的な学習手法が求められる。
- 既存のデータセット蒸留手法では,評価プロトコルの不統一が手法間の比較を困難にしている。
- 標準化された評価プロトコルを確立し,公平な手法比較を可能にすることを目指す。
- 提案手法RD$^3$により,評価設定の違いがテスト精度に与える影響を体系的に調査した。
- 既存手法間の性能差の多くは,手法自体の質ではなく,評価手順の不整合に起因することが示された。
- 蒸留されたデータセットの有効性を向上させる一般的な戦略を特定し,再現性のある比較の基盤を構築した。
FAST:セグメンテーション指向異常合成のための前景認識型拡散と加速サンプリング軌跡 [eess.SY, cs.SY, cs.CV]目的:セグメンテーション指向異常合成におけるサンプリング効率と生成品質のバランス
- 産業分野における異常検知は品質管理に不可欠であり,高精度なセグメンテーションが求められる。
- 異常データのラベル付けはコストがかかる上に,異常は多様であるためデータ収集が困難である。
- 前景を考慮した拡散モデルにより,構造特異的な異常合成を可能にし,セグメンテーション性能を向上させる。
- 提案手法FASTは,AIASとFARMという2つのモジュールにより,少ないステップ数で高品質な異常画像を合成できる。
- AIASは,粗いスケールから細かいスケールへ集約することでサンプリングを高速化する。
- FARMは,前景領域において異常に特化したノイズ調整を行うことで,局所的な異常信号を保持する。
音楽のためのオーディオLLMにおけるモダリティの貢献度調査 [cs.LG, cs.SD]目的:オーディオLLMにおける各モダリティの出力への貢献度
- 音楽理解におけるAIの重要性が増しており,より高度な分析が求められている。
- 現在のオーディオLLMが実際に音響情報を利用しているか不明確である。
- オーディオLLMがどのように音響情報を活用しているかを定量的に評価する。
- MM-SHAPフレームワークを適用し,各モダリティの貢献度を定量化した。
- 高い精度を持つモデルはテキストにより依存する傾向が見られた。
- 全体のオーディオ貢献度が低くても,重要な音響イベントを特定できることが示された。
SupCLAP:サポートベクター正則化による音声-テキスト対照学習における最適化軌道のドリフト制御 [cs.SD, cs.AI]目的:音声-テキスト対照学習における最適化軌道のドリフト制御
- マルチモーダル表現の統一は,クロスモーダル検索から最先端のマルチモーダル大規模言語モデルまで,幅広い応用を支える基盤技術である。
- 対照学習における負例からの斥力成分は,不安定な学習を引き起こす最適化軌道のドリフトを招くという問題がある。
- サポートベクター正則化により,この斥力成分を制御し,ドリフトを軽減しつつ,その豊富な情報を活用することを目指す。
- 提案手法SupCLAPは,分類,単言語検索,多言語検索の標準的な音声-テキストデータセットにおいて,InfoNCEやSigLIPといった既存手法を上回る性能を示す。
- 理論解析と実験結果の両方から,SupCLAPが最適化軌道のドリフトを抑制し,有効であることを確認した。
- 追加の学習データや推論計算を必要とせず,訓練へのオーバーヘッドも軽微であるため,効率的な手法である。
リモートセンシングにおける確実な推論に向けて:視覚に基づいた地理空間Chain-of-Thought [cs.CV]目的:リモートセンシング分析における検証可能な多段階プロセス
- 地球観測は,環境変動の監視や災害対策など,多岐にわたる分野で不可欠である。
- 既存の視覚言語モデルは,複雑な分析タスクにおいて推論過程が不透明で,検証が困難である。
- 地理空間Chain-of-Thoughtにより,推論過程を明確化し,正確性を向上させることを目指す。
- 提案手法Geo-CoTは,リモートセンシング分析を検証可能な段階的なプロセスとしてモデル化する。
- 教師ありファインチューニングとグループ報酬ポリシー最適化により,モデルの推論能力を強化する。
- 開発したモデルRSThinkerは,最先端モデルを大幅に上回る性能を示すとともに,推論根拠を提示する。
安全性のギャップを埋める:視覚的自己回帰モデルにおける外科的コンセプト消去 [cs.CV]目的:視覚的自己回帰モデルにおけるコンセプト消去の実現
- テキストから画像を生成する技術は進歩しているが,安全性への懸念が高まっている。
- 既存のコンセプト消去技術は拡散モデル向けであり,自己回帰モデルには適用できない。
- 自己回帰モデルにおける安全性を確保し,生成品質を維持することを目的とする。
- 提案手法VAREは,補助的な視覚トークンを用いることで,自己回帰モデルにおける安定したコンセプト消去を実現した。
- S-VAREは,フィルタリングされたクロスエントロピー損失と保存損失により,言語のずれや多様性の低下を抑制し,コンセプト消去の精度を向上させた。
- 実験結果から,提案手法は生成品質を維持しながら,外科的コンセプト消去を達成することが示された。
3D Gaussian Splatting の統一的な表現学習 [cs.CV]目的:3D Gaussian Splatting のベクトル化された表現の学習
- 3D 再構成の効率化が求められているため。
- Gaussian のパラメータ表現は学習が難しく,データ依存性が高い。
- Gaussian の構造を保ちつつ,一意なマッピングと均質性を実現する表現を学習する。
- 本研究では,Gaussian の本質的な情報を包含する連続部分多様体場に基づく埋め込み表現を提案する。
- 提案手法により,3D Gaussian Splatting の学習が改善される。
- 実装は https://github.com/cilix-ai/gs-embedding で公開されている。
事前学習済み医療画像登録モデルにおける変換等変性を用いた不確実性推定 [cs.HC, cs.CV]目的:事前学習済み医療画像登録モデルに対する不確実性推定手法
- 医療画像処理において,正確な画像登録は診断や治療計画の精度向上に不可欠である。
- 深層学習を用いた画像登録モデルは性能が高い反面,予測の信頼性に関する情報が不足している。
- 事前学習済みモデルに追加の学習や構造変更を要することなく,不確実性を推定する手法を確立する。
- 提案手法は,画像登録の変換等変性という性質を利用し,入力画像の空間的な摂動に対する反応に基づいて不確実性を推定する。
- 実験の結果,推定された不確実性マップは登録誤差と一貫して相関し,信頼性の低い領域を特定することができた。
- 本手法により,事前学習済み登録モデルはリスクを考慮したツールとなり,臨床応用への道が開かれる。
DiffInk:字形とスタイルを考慮した潜在拡散Transformerによるテキストからオンライン筆跡生成 [cs.CV]目的:テキストとスタイル参照に基づいてリアルなペン先の軌跡を合成する
- 手書き文字生成は,人間とコンピューターのインタラクションや,デジタル文書のパーソナライズに重要である。
- 既存手法は文字や単語レベルに集中しており,全文行に対する効率性や構造的モデリングが不足している。
- 字形とスタイルを考慮した効率的な全文行の手書き文字生成を実現すること。
- DiffInkは,字形精度とスタイル再現性において,既存の最先端手法を上回る性能を示す。
- InkVAEとInkDiTという新しいモデルにより,潜在空間での字形とスタイルの分離を効果的に実現した。
- 生成効率が大幅に向上し,実用的な手書き文字生成への道を開いた。
EditScore:高精度な報酬モデルによる画像編集のためのオンライン強化学習の可能性 [cs.CV]目的:画像編集のための高精度な報酬モデルの開発と,それを用いたオンライン強化学習の実現
- 画像編集技術は発展しているが,複雑な指示への対応や高品質な結果の再現性に課題が残る。
- 強化学習は有望な解決策であるが,画像編集における高精度で効率的な報酬信号の欠如が普及の妨げとなっている。
- 本研究は,報酬モデルのベンチマークと開発,強化学習による画像編集の性能向上を目指す。
- EditReward-Benchという画像編集における報酬モデル評価用の包括的なベンチマークを新たに構築した。
- EditScoreという一連の報酬モデル(7B-72B)を開発し,既存の汎用VLMsに匹敵する性能を達成し,最大モデルはGPT-5を上回った。
- EditScoreを用いることで,オンライン強化学習が画像編集において有効であり,ベースモデル OmniGen2 の性能が大幅に向上することを示した。
HunyuanImage 3.0 技術報告 [cs.CV]目的:マルチモーダル理解と生成の統合
- 画像とテキストの理解・生成は,AI研究における重要な課題である。
- 既存モデルは,性能と規模の点で限界があり,高度なマルチモーダル処理が困難である。
- 大規模なパラメータ数を持つモデルを開発し,最先端の性能を達成することを目指す。
- HunyuanImage 3.0は,800億以上のパラメータを持つMoEモデルであり,オープンソースで公開されている。
- 自動評価と人間評価の結果,テキストと画像の整合性および視覚品質において,既存モデルと同等以上の性能を示す。
- このモデルの公開により,マルチモーダル分野の研究開発を加速することが期待される。
医療データのためのビジョン言語基盤モデルへ:ベトナム語PET/CTレポート生成のためのマルチモーダルデータセットとベンチマーク [cs.CV]目的:ベトナム語のPET/CT画像と臨床レポートのペアからなるマルチモーダル医療データセット
- 医療画像診断の精度向上に,AI技術の応用が期待されている。
- 既存の医療用VLMsは,データ量や言語の偏りが課題となっていた。
- ベトナム語のPET/CTデータセットを提供し,低リソース言語への対応を目指す。
- 本研究で構築したデータセットは,既存のVLMsの性能を大幅に向上させる。
- 特に,機能画像診断であるPET/CTデータの活用を促進する。
- ベトナム語医療分野におけるAI技術の発展に貢献することが期待される。
GHOST:マルチモーダルLLMにおける幻覚を引き起こす画像生成 [cs.CV, cs.AI, cs.LG]目的:マルチモーダルLLMの幻覚誘発
- 画像とテキストを理解するLLMの重要性が増している。その信頼性が不可欠である。
- LLMは画像に存在しない物体を認識することがあり,幻覚問題が課題となっている。
- LLMに幻覚を誘発する画像を生成し,弱点を特定・改善することを目指す。
- GHOSTは,LLMを欺く画像を自動で生成する手法である。
- 生成された画像は視覚的に自然でありながら,LLMに幻覚を引き起こす微妙な手がかりを含む。
- Qwen2.5-VL向けに最適化された画像が,GPT-4oでも高い幻覚誘発率を示した。
Point2RBox-v3:統合された疑似ラベルの改良と利用による点アノテーションからの自己ブートストラップ [cs.CV, cs.AI]目的:点アノテーションを用いた弱学習による配向オブジェクト検出の性能向上
- 配向オブジェクト検出は,自動運転や衛星画像解析など幅広い分野で重要性が増している。
- 従来の配向オブジェクト検出には,高コストで手間のかかる手動アノテーションが不可欠であった。
- 点アノテーションから学習することで,アノテーションコストを削減し,実用的な検出性能を実現することを目指す。
- 提案手法Point2RBox-v3は,動的な疑似ラベルを用いてラベル割り当てを効率化し,性能を向上させている。
- 特に,オブジェクトサイズが大きく変動する場面や,オブジェクトが疎に存在する場面において優れた性能を発揮する。
- DOTA-v1.0等6つのデータセットにおいて,競争力のある性能を達成している。
バイアス評価ベンチマークは一般化するのか? 音声に基づくSpeechLLMのジェンダーバイアス評価からの証拠 [cs.CL, cs.AI, cs.SD, eess.AS]目的:SpeechLLMにおけるジェンダーバイアスの評価方法の一般化可能性
- 音声LLMの普及に伴い,公平性やバイアスの評価が重要になっている。
- 既存のバイアス評価は多肢選択形式に偏り,現実的なタスクへの一般化が不明である。
- 多肢選択形式でのバイアスが,より自然な生成タスクでも一貫するかを検証する。
- 既存の多肢選択形式のバイアスベンチマークは,他のベンチマークや長文生成タスクへの性能予測には信頼性がないことが示された。
- 特定のバイアス傾向を誘導したモデルにおいて,その傾向が別のタスクに一般化しないことが確認された。
- 今後のモデルやベンチマークにおいて,行動の転移可能性を測定するための評価スイートの提案を行った。
F-スケジューラ:拡散モデルの高速サンプリングのための無償設計空間の解明 [cs.GR, cs.AI, eess.IV]目的:拡散モデルの高速サンプリング手法の開発
- 拡散モデルは高解像度画像の生成において最先端の性能を示すが,計算コストが高いという課題がある。
- 少ステップ(10ステップ未満)サンプリングでは,既存のFree-U Netによる改善効果が限定的である。
- Free-U NetとODEソルバーを組み合わせた新たなスケジューラにより,高速かつ高品質なサンプリングを実現する。
- 提案手法F-スケジューラは,DPM++ 2mやUniPCといった既存のODEソルバーと互換性があり,少ないステップ数で高品質な画像生成を可能にする。
- 1024x1024解像度の画像を6ステップ,512x512解像度の画像を5ステップでサンプリングでき,最先端の蒸留モデルや20ステップDPM++ 2mソルバーを上回るFIDスコアを達成する。
- 情報理論に基づき,適切なスケジューリングが,学習ベースの拡散蒸留モデルを凌駕する可能性を示唆する。
シーケンス to シーケンス生成ニューラルレンダリングのスケーリング [cs.CV]目的:フォトリアリスティックな物体およびシーンレベルのニューラルレンダリングのための生成モデル
- 3Dコンピュータグラフィックスは,現実世界の表現において重要な役割を担う分野である。
- 高品質な3Dモデルの作成には,大量のカメラ位置情報付きデータが必要となる。
- 少ない視点からの情報で高品質なレンダリングを実現し,データ依存性を低減すること。
- Kaleidoは,明示的な3D表現なしに,生成的な視点合成を可能にする。
- マスクトされた自己回帰的フレームワークにより,任意の数の参照視点から任意の数の6DoFターゲット視点を生成する。
- 大規模なビデオデータによる事前学習により,空間の一貫性が向上し,3Dデータへの依存度が低下する。
3Dシーングラフ予測のための物体中心表現学習 [cs.CV]目的:3Dシーングラフの正確性向上
- ロボット工学やAR/VRへの応用が期待される重要な技術分野である。
- 物体や関係性の特徴表現能力が不十分で,グラフニューラルネットワークに過度に依存する傾向がある。
- 識別能力の高い物体特徴エンコーダを開発し,シーングラフ予測から分離した表現学習を行う。
- 提案手法は,既存のフレームワークに組み込むことで,全ての評価指標において顕著な性能向上を示した。
- 幾何学的特徴と意味的特徴を効果的に組み合わせることで,関係性予測の精度を向上させた。
- 3DSSGデータセットでの実験により,提案手法が最先端手法を大幅に上回る性能を持つことが示された。
HOI-R1:ヒューマン・オブジェクトインタラクション検出におけるマルチモーダル大規模言語モデルの可能性の探求 [cs.CV, cs.AI]目的:ヒューマン・オブジェクトインタラクション検出における言語モデルの潜在能力
- 人間と物体とのインタラクション理解は,ロボティクスや画像認識などの分野で不可欠な技術である。
- 既存手法は,複雑なフレームワークと追加モジュールを必要とし,開発や応用が難しいという課題がある。
- 大規模言語モデルの推論能力を活用し,追加モジュールなしでHOIDタスクを解決することを試みる。
- 提案手法HOI-R1は,Qwen-VL系列やRex-Omniを含む複数のオープンソースMLLMにおいて,一貫した性能向上を示した。
- 特に,HOI-R1はQwen2.5-VL-3Bの精度を2倍に向上させ,高い汎化能力を発揮した。
- HOIDタスクを純粋なテキストによって解決するためのHOI推論プロセスとHOID報酬関数を導入した。
iPEAR:注意と残差を用いた反復ピラミッド推定による変形可能な医用画像登録 [cs.CV, cs.AI]目的:変形可能な医用画像登録の精度向上
- 医用画像解析において,正確な画像登録は疾患の診断,治療計画,手術支援に不可欠である。
- 既存のピラミッド登録ネットワークでは,解剖学的ずれの蓄積や,変形要件に応じた最適化反復回数の動的な決定機構が不足している。
- 解剖学的ずれの蓄積を軽減し,変形要件に応じた最適化反復回数を適応的に決定することで,医用画像登録の精度向上を目指す。
- 提案手法iPEARは,脳MRIと腹部CTのデータセットにおいて,最先端の登録ネットワークと比較して精度が向上した。
- iPEARは,Fused Attention-Residual Module(FARM)と,二段階のThreshold-Controlled Iterative(TCI)戦略を導入することで,この精度向上を実現している。
- 推論速度とモデルパラメータサイズは,既存手法と同等レベルを維持している。
強化学習とマスク生成モデルの融合:テキストから画像を生成するMask-GRPO [cs.CV]目的:テキストから画像を生成する際の性能向上
- 近年の画像生成技術において,テキストからの画像生成は重要な課題となっている。
- 既存の強化学習アプローチは,拡散モデルや自己回帰モデルに特化しており,マスク生成モデルへの応用が遅れている。
- マスク生成モデルにおける強化学習の有効性を検証し,生成画像の品質とテキストとの整合性を高める。
- Mask-GRPOは,ベースモデルShow-oの性能を大幅に向上させ,標準的なT2Iベンチマークで既存の最先端手法を上回った。
- 本手法では,遷移確率の再定義とアンマスキングプロセスを多段階の意思決定問題として定式化した点が特徴である。
- KL制約の除去や,低品質サンプルのフィルタリングなど,有用な戦略を組み合わせることで,さらなる性能向上が確認された。
UniCalli:中国書道のカラムレベル生成と認識のための統一拡散フレームワーク [cs.CV]目的:中国書道のカラムレベルにおける生成と認識
- 中国書道は歴史的・文化的価値が高く,そのデジタル保存と復元が重要である。
- 既存手法では,文字品質とページ全体の美観の両立が難しく,誤字脱字や不自然な配置が生じやすい。
- 高品質な書道生成と正確な認識を両立させ,書道の構造とスタイルをより深く理解することを目指す。
- UniCalliは,拡散モデルを用いて書道の生成と認識を同時に行うことで,文字構造の正確性とページ全体の美観を向上させた。
- 認識タスクが生成の制約となり,生成タスクがスタイルとレイアウトの事前知識を提供するという相乗効果が,特にデータが少ない状況下で有効に機能する。
- 本フレームワークは,甲骨文字やエジプト象形文字といった他の古代文字にも適用可能であり,汎用性も高い。
