arXiv雑要約
画像・音声 - 2026/02/04 公開
翻訳を超えて:ビジョン言語モデルによる異文化ミーム再創造 [cs.CY, cs.AI, cs.CL, cs.CV]目的:異文化ミーム再創造
- インターネット文化においてミームは重要なコミュニケーション手段であり,その影響力は大きい。
- ミームは文化特有性が強く,異文化への適応は困難を伴う。
- 文化的な参照を維持しつつ,意図とユーモアを伝えるミームの異文化適応を目指す。
- 現在のビジョン言語モデルは,ある程度の異文化ミーム再創造が可能であるが,限定的である。
- 米国から中国への再創造は,中国から米国への再創造よりも一貫して高品質であるという方向性非対称性が見られた。
- ユーモアや視覚的・テキスト的デザインのどの側面が文化間で伝わり,何が課題となるかを特定した。
疎な判断から密な推論へ:マルチモーダルモデレーションのための多属性軌跡パラダイム [cs.LG, cs.AI, cs.CL, cs.CV]目的:マルチモーダルモデレーションにおける安全性向上
- 有害コンテンツの識別は,オンラインプラットフォームの安全性維持に不可欠である。
- マルチモーダルモデレーションは,データと教師信号の不足により,テキスト単独の場合に比べて進歩が遅れている。
- 本研究は,二値ラベルに依存するショートカット学習を回避し,より詳細な境界学習を実現することを目指す。
- 提案手法UniModは,証拠の根拠付け,モダリティ評価,リスクマッピングなどの段階を含む構造化された軌跡を構築する。
- UniRMと呼ばれる多頭スカラー報酬モデルを開発し,応答生成段階で属性レベルのスコアを付与することで,多次元的な教師信号を提供する。
- 実験結果から,UniModはテキストモデレーションと同等の性能を示し,主要なベースラインよりも少ないデータで新たなマルチモーダルベンチマークを達成した。
WorldVQA:マルチモーダル大規模言語モデルにおける原子的な世界知識の測定 [cs.CV, cs.LG]目的:マルチモーダル大規模言語モデルにおける原子的な視覚世界知識の評価
- AIの進化には,現実世界を理解する能力が不可欠であり,そのために世界知識の獲得と活用が重要である。
- 既存の評価方法では,視覚知識の検索と推論が混同されており,モデルが実際にどの程度知識を記憶しているかの正確な測定が困難である。
- WorldVQAは,モデルが視覚的エンティティを正確に認識し,命名できるかを厳密に評価することで,視覚的事実性のテストを提供する。
- WorldVQAは,一般的なオブジェクトから希少なものまで,階層化された分類体系に沿って視覚的エンティティのグラウンディングと命名能力を評価するベンチマークである。
- このベンチマークは,視覚知識の検索と推論を分離し,モデルが「何を記憶しているか」を厳密に測定することを目的としている。
- WorldVQAは,現在の最先端モデルと次世代モデルの百科的知識の広さと幻覚率を評価するための標準を確立することを目指す。
未来の活性化を考慮したポストトレーニング量子化の強化 [cs.LG, cs.CL, cs.CV]目的:ポストトレーニング量子化による大規模言語モデルの圧縮手法
- 大規模言語モデルの利用拡大に伴い,モデルの軽量化が重要課題となっている。
- 従来のポストトレーニング量子化は,量子化バイアスや誤差の蓄積により性能が不安定になりやすい。
- 未来の層の活性化情報を活用することで,量子化の精度と安定性を向上させる。
- 提案手法FAQは,既存手法と比較して,わずかな計算コストで一貫して優れた性能を示す。
- FAQは,バックプロパゲーションやデータ再構成,チューニングを必要とせず,エッジデバイスへの展開に適している。
- 未来層の活性化をソフトに集約するウィンドウ機構により,単一の層への過度な依存を抑制している。
ビジョンモデルにおけるトークンが保持できる情報量:VLMの認識限界に関するスケーリング則 [cs.LG, cs.CV]目的:視覚トークンの情報保持能力の限界
- 近年,視覚情報を中心とした長文脈モデリングが急速に進展している。
- 視覚エンコーダの表現能力には限界があり,高圧縮率と認識精度を両立するのが課題。
- 視覚トークンの情報量限界を定量的に把握し,効率と精度を両立する指針を示す。
- 画像内の情報量(文字数)を増加させることで,安定相,不安定相,崩壊相という明確な相転移現象が観察された。
- これらの相転移のメカニズムを分析し,重要な要因を特定した。
- 視覚トークンの負荷と視覚密度を統合したスケーリング則が,様々なVLMで普遍的に成立することが示された。
ToolTok: GUIエージェントのための効率的かつ汎用的なツールトークン化 [cs.LG, cs.AI, cs.CV, cs.MA]目的:GUIエージェントの効率化と汎用性の向上
- GUI自動化は,ソフトウェア利用の効率化やアクセシビリティ向上に不可欠である。
- 従来の座標ベースの手法では,解像度やアスペクト比の変化に弱く,汎用性に課題がある。
- 本研究は,データ不足下でも効率的に学習可能なツールトークン化により,この問題を解決する。
- ToolTokは,人間が操作する際の習慣に合わせたツールを定義し,学習可能なトークン埋め込みを用いる。
- 意味的アンカー機構により,少ない教師データでも効果的な埋め込み学習を実現した。
- 複数のベンチマークにおいて,同規模のモデルよりも優れた性能を示し,大規模モデルにも匹敵する。
EEO-TFV:Web規模時系列予測と画像解析のための脱出探索最適化手法 [cs.LG, cs.AI, cs.CV]目的:Web規模データにおける時系列予測と画像解析のための最適化手法
- Webデータ分析はデータ量が膨大であり,複雑なパターンや多種多様な特徴を捉えることが重要である。
- Transformerモデルは長系列予測で誤差が累積しやすく,分布外データに対して脆弱であるという課題がある。
- 高次元パラメータ空間におけるサドルポイントへの陥り込みを防ぎ,汎化性能と安定性を向上させることを目指す。
- 提案手法EEO-TFVは,11の時系列予測ベンチマークデータセットとSynapse医療画像セグメンテーションタスクにおいて,最先端モデルと同等の性能を達成した。
- 特に,Webデータシナリオにおける汎化性能と安定性が向上し,クロス タスク汎用性の可能性を示した。
- 軽量なTransformerアーキテクチャとEEO最適化手法により,効率的な学習を実現している。
アライメントの呪い:全能モデルにおけるクロスモーダル脱獄転移 [cs.LG, cs.AI, cs.SD]目的:テキストからオーディオへの脱獄攻撃のクロスモーダル転移
- マルチモーダル理解の進展に伴い,全能モデルの安全性評価が重要になっている。
- テキストだけでなく,音声による脱獄攻撃も存在するが,両者の関連性は未解明である。
- アライメントが強すぎると,テキストの脆弱性がオーディオに波及する現象を解決する。
- テキストから転移したオーディオ脱獄攻撃は,既存のオーディオ脱獄攻撃と同等か,それ以上の性能を示す。
- この結果は,今後のオーディオ安全性評価における強力なベースラインを確立する。
- 転移された攻撃は,オーディオのみへのアクセス制限下でも有効であり,モデル間の転移性も高い。
経験に基づくマルチエージェントシステムは,トレーニングフリーの文脈認識地球観測者である [cs.AI, cs.CV, cs.LG, cs.MA]目的:地球観測タスクにおけるマルチエージェントシステムの自己進化メカニズム
- 地球観測は,気候変動や災害監視など,人類の重要な課題解決に不可欠である。
- 複雑な地球観測ワークフローでは,ツール連携や制約条件の遵守が困難である。
- ツールレベルの専門知識を相互作用を通じて獲得し,ワークフローの信頼性を高める。
- GeoEvolverは,パラメータ更新なしに,構造化された相互作用を通して地球観測の専門知識を獲得する。
- クエリを独立したサブゴールに分解し,サブゴールレベルでツールパラメータ構成を探索する。
- 成功パターンと失敗原因を進化するメモリバンクに集約し,今後のクエリに活用する。
Sybilの監査:生成的介入帰属による深層肺がんリスク予測の説明 [cs.LG, cs.AI, cs.CV]目的:深層学習モデルSybilによる肺がんリスク予測のメカニズム解明
- 肺がんは癌死因の第一位であり,放射線科医の負担軽減のため自動スクリーニングツール開発が急務である。
- 既存の評価は観察的指標に依存し,モデルの判断根拠が不明確である。
- 因果検証に基づき,臨床応用前の意思決定の信頼性を確保すること。
- 提案手法S(H)NAPは,専門家による検証済みの生成的介入帰属を構築し,解釈可能性を提供した。
- Sybilは良性・悪性肺結節の識別において専門家と類似した行動を示す一方で,臨床的に根拠のないアーチファクトに敏感であるという欠陥が明らかになった。
- また,特徴的な放射状バイアスも確認された。
オイラー平均流における一ステップ生成のための軌跡一貫性 [cs.CG, cs.LG, cs.AI, cs.CV]目的:一ステップおよび少数ステップ生成における長距離軌跡の一貫性
- 生成モデルの性能向上は,画像や形状の高品質な生成に不可欠である。
- 長時間の軌跡一貫性の制約は,監督と最適化が困難であるという課題がある。
- 長距離におけるフローマップ合成の直接的なデータ監督を可能にする線形近似を用いる。
- 提案手法であるオイラー平均流(EMF)は,最小限のサンプリングコストで長距離の軌跡一貫性を実現する。
- EMFは,従来のone-step法と比較して,訓練時間とメモリ消費量を約50%削減する。
- 画像合成,粒子ベースの形状生成,関数生成において,最適化の安定性とサンプル品質の向上が確認された。
シーン認識に基づく視覚駆動型音声合成のための統一フレームワークVividVoice [cs.RO, cs.SD, cs.AI]目的:シーン認識に基づく視覚駆動型音声合成
- 没入感のある体験提供が重要であり,現実世界の物理的環境と調和した音声生成が求められている。
- 既存の音声生成モデルは,現実世界の環境との整合性やデータ不足といった課題を抱えている。
- 現実世界との整合性と高品質な音声合成を実現するための新しいフレームワークを開発すること。
- VividVoiceは,大規模なマルチモーダルデータセットVivid-210Kを活用し,視覚シーンと音声の関連性を強化した。
- D-MSVAモジュールは,視覚シーンと音声の特徴を細かく対応付けることで,音質と環境音響の再現性を向上させた。
- 主観評価と客観評価の結果,VividVoiceは既存モデルと比較して,音声の忠実度,明瞭度,マルチモーダル整合性において顕著な性能向上を示した。
二人のプレイヤーによる割当問題 [cs.GT, cs.CC, cs.DM, math.CO]目的:競争的割当問題の研究
- 資源配分は,スポーツのドラフトやカードゲームなど,多様な分野で重要な課題である。
- 限られた資源を巡る競争と,その後のパフォーマンス評価が複雑に絡み合っている。
- 二人のプレイヤーが交互に資源を獲得し,その後の競争結果を予測するモデルを構築する。
- 競争的割当問題は,NP困難であること,特にエージェントの有効性が最大で2つのタスクに対してのみ非ゼロの場合でPSPACE完全であることが示された。
- エージェントの有効性が各タスクに対して高々1つのみ非ゼロの場合,タスク数による指数時間解が可能なXP問題となる。
- タスク数が2つの場合は,最適なスコアを線形時間で計算できる。
AdaptMMBench:モード選択と推論プロセスに関する適応型マルチモーダル推論のベンチマーク [cs.CV]目的:適応型マルチモーダル推論のベンチマーク
- 画像とテキストを組み合わせたVLMsは,多様なタスクで高い性能を示すため,その発展が期待されている。
- 既存の評価指標は,モデルの能力に応じた難易度の変動を捉えきれておらず,適応的なモード選択能力の評価が困難である。
- モデルの能力境界に基づき,タスク難易度を動的に特定し,適応型マルチモーダル推論の評価を改善すること。
- AdaptMMBenchは,現実世界,OCR,GUI,知識,数学の五つの領域を含む包括的なベンチマークである。
- モード選択の合理性は,マシューズ相関係数(MCC)を用いて評価され,適応的なモード選択能力と最終的な精度は必ずしも相関しないことが示された。
- 主要なステップの網羅率は性能と一致する一方,ツールの有効性はモデルアーキテクチャ間で大きく異なることが明らかになった。
物理ベース学習によるOCT光学的特性とスペックル低減構造強度画像の端点間再構成 [cs.CV]目的:OCT光学的特性とスペックル低減構造強度画像の同時再構成
- 生体組織の光学特性把握は,疾患診断や治療効果評価において重要である。
- OCT画像は,減衰やスペックルノイズ,パラメータ間の強い結合により,正確な特性評価が困難である。
- 物理モデルと深層学習を組み合わせ,ノイズに強く高精度な再構成を実現する。
- モンテカルロシミュレーションで学習したネットワークは,物理整合性を保ちながらパラメータを回復する。
- 角膜OCTデータセットの実験で,ノイズ下でのロバストな光学マップの回復と,構造の忠実度が向上した。
- 本手法は多パラメータ組織特性評価を可能にし,物理情報に基づいたモデリングと深層学習の融合の利点を示す。
階層型エンティティ中心強化学習と因数分解されたサブゴール拡散 [cs.LG, cs.CV, cs.RO]目的:長視野タスクにおけるエンティティの組み合わせ複雑性を軽減するための,サブゴール分解と因数分解構造を組み合わせた階層型エンティティ中心フレームワーク
- 強化学習は,複雑な環境で長期的な目標達成を可能にする重要な技術である。
- 複数のエンティティが存在する場合,状態空間の組み合わせ爆発により,強化学習の学習が困難になる。
- 疎な報酬下での高次元な観測と組み合わせ状態空間における課題を克服し,長期的な目標達成を可能にする。
- 提案手法は,画像ベースの長期タスクにおいて,ベースとなる強化学習エージェントの性能を大幅に向上させる。
- 最も難しいタスクにおいて,成功率が150%以上向上し,より長い視野やエンティティ数の増加にも対応可能である。
- サブゴール生成を価値関数に基づいて選択的に行うことで,モジュール性と既存のGCRLアルゴリズムとの互換性を実現している。
非侵襲的頸部音響センシングによる嚥下障害の自動スクリーニング [cs.LG, cs.SD, eess.AS, eess.SP]目的:嚥下障害の検出
- 呼吸,嚥下,発声など生命維持に重要な咽頭の健康維持が不可欠である。
- 既存の診断法は,放射線や侵襲的検査に依存するため,負担が大きい。
- 非侵襲的な音響センシングで嚥下障害を早期に検出し,負担を軽減すること。
- 提案手法は,5回の独立した学習・テスト分割で0.904のAUC-ROCスコアを達成した。
- 頸部からの微小な音響信号を捉え,異常な生理的状態に関連するパターンを識別する。
- 本研究は,咽頭の健康モニタリングにおける非侵襲的音響センシングの有用性を示す。
ノイズが損失を下げる:音楽大規模言語モデルにおける尤度ベース評価の再考 [cs.CL, cs.SD, cs.AI]目的:音楽大規模言語モデルの出力品質評価手法の改善
- 音楽生成AIの発展に伴い,生成された音楽の質を客観的に評価する手法が不可欠となっている。
- 従来のクロスエントロピー損失は,質の低い音楽に対しても低下することがあり,信頼性の指標とならない場合がある。
- 損失曲線の形状が,生成された音楽の品質に関する重要な情報を含んでいることを示す。
- ノイズ注入実験の結果,音楽大規模言語モデルは,グローバルな意味的破損よりも,ローカルなテクスチャレベルの乱れに強く反応することが確認された。
- 損失がノイズに対して示す反応(特に短時間の注入に対する急増)は,モデルが音楽の整合性を識別する能力の指標となりうる。
- 損失曲線の形状に着目した評価は,ラベルを用いないモデル内的な音楽品質評価フレームワークとして期待される。
SVD-ViT:SVDはビジョンTransformerに前景への注意をより集中させるか? [cs.CV]目的:前景特徴の学習優先度向上
- Transformerは大規模な基盤モデルとして確立され,画像認識分野で重要性が増している。
- Transformerの自己注意機構はグローバルに作用するため,前景と背景の区別が曖昧になりやすい。
- 背景ノイズやアーチファクトの影響を軽減し,前景表現の学習を効果的に行うことを目指す。
- 提案手法SVD-ViTは,特異値分解(SVD)を用いて前景特徴の学習を優先することで,分類精度を向上させる。
- SPCモジュール,SSVA,ID-RSVDの3つの要素により,前景情報を捉えた特異ベクトルを抽出・集約し,背景ノイズを抑制する。
- 実験結果は,SVD-ViTが背景ノイズの影響を低減しつつ,有益な前景表現を効果的に学習することを示している。
3D点群における解剖学的ランドマーク検出のための条件付きポイントトランスフォーマー [cs.CV, cs.AI, cs.LG]目的:解剖学的ランドマークの自動検出
- 医療応用において,解剖学的ランドマークの正確な特定は不可欠である。
- 従来のランドマーク設定は時間がかかり,観察者間のばらつきが生じやすい。
- 種をまたいだ研究に活用可能なランドマーク検出手法の開発。
- 提案手法LmPTは,点群データから解剖学的ランドマークを自動的に検出する。
- 異なる種(ヒトと犬)の太腿の骨を用いて評価を行い,種をまたいだ汎化性能と有効性を実証した。
- LmPTは,様々な入力タイプへの適応を可能にする条件付き機構を備えている。
トークンから数値へ:SVG生成のための連続数値モデリング [cs.LG, cs.AI, cs.CV]目的:SVG生成における連続数値モデリングの提案
- 画像生成において,柔軟性や効率性からベクター形式の重要性が高まっている
- SVGの数値パラメータがトークン列として非効率に表現され,学習速度や精度を低下させている
- 連続値を直接モデリングすることで,表現の数学的優雅性を回復し,離散化による問題を解決する
- 提案手法(CNM)は,従来のトークンベースの手法と比較して,学習速度を30%以上向上させる
- CNMは,知覚的フィードバックを用いた強化学習によるファインチューニングにより,視覚的な品質をさらに向上させる
- 本研究は,高品質なベクター生成のための実用的かつ効率的なアプローチとしてCNMを確立する
手術室における自己教師あり非キャリブレーション複数視点ビデオ匿名化 [cs.CV]目的:手術室ビデオデータの匿名化手法
- 手術室での研究にはビデオデータが不可欠だが,患者のプライバシー保護が重要課題である。
- 既存手法は,高い精度を出すために各臨床現場での手動アノテーションが必要であり,手間がかかる。
- 複数カメラの利用で曖昧さを解消するが,カメラの位置変更には再キャリブレーションが必要となる問題を解決する。
- 本研究では,アノテーションやカメラキャリブレーションなしに,複数視点ビデオデータから個人を匿名化する手法を提案する。
- 提案手法は,単一視点検出器の性能を,時間的・複数視点コンテキストを利用して向上させる自己教師ありドメイン適応を用いる。
- シミュレーション手術および実手術データセットでの実験により,97%以上の再現率を達成し,実用性も示唆された。
ViThinker:動的な知覚クエリによる能動的な視覚言語推論 [cs.CV]目的:視覚言語推論のための能動的な知覚クエリ生成フレームワーク
- 視覚言語モデルは多様な応用可能性を持つため,その性能向上は重要である。
- 既存の視覚言語モデルは,視覚情報をテキストに変換する際に情報を失う傾向がある。
- ViThinkerは,タスク関連の詳細を能動的に探索することで,視覚言語推論の精度向上を目指す。
- ViThinkerは,訓練中に視覚専門家の能力をモデルパラメータに組み込むことで,外部ツールを必要とせずに推論を実行する。
- 2段階のカリキュラムにより,ViThinkerは各推論ステップに必要な最小限の知覚情報を発見する。
- 実験結果から,ViThinkerの能動的なクエリ生成は,受動的なアプローチよりも知覚的根拠付けと推論の精度において優れていることが示された。
医療画像における確実な意思決定のための対照的推論:DoubleTake [cs.DC, cs.CV, cs.LG]目的:医療画像における信頼性の高い意思決定のための対照的推論手法
- 医療画像診断は患者の予後を左右するため,正確性が極めて重要である。
- 既存手法は類似事例の検索に依存し,冗長な情報や誤った仮説の強化を招く可能性がある。
- 識別力を高めるための対照的な参照選択と,信頼性の高い意思決定を可能とする推論手法の開発。
- 提案手法は,視覚的な関連性,埋め込みの多様性,情報源を考慮した参照選択により,識別能力を向上させた。
- Counterfactual-Contrastive Inferenceにより,ペアワイズ比較とマージンベースの意思決定ルールを用いた信頼性のある推論を実現した。
- MediConfusionベンチマークにおいて,既存手法を大幅に上回り,セットレベルの精度を約15%向上させた。
VoroUDF: ボロノイ最適化による符号なし距離場のメッシュ化 [cs.GR]目的:符号なし距離場からの高品質な三角形メッシュ再構成
- 3Dモデリングにおいて,複雑な形状を効率的に表現する手法が求められている。
- 既存手法では,複雑な形状のトポロジーを正確に捉えることが困難であった。
- 複雑な形状のトポロジーを正確に捉え,軽量なメッシュを生成すること。
- VoroUDFは,ノンマニホールド形状,シャープな特徴,開放境界をサポートする。
- ボロノイ図に基づく手法により,トポロジーの一貫性と幾何学的精度が向上した。
- リアルタイムおよびインタラクティブなアプリケーションに適した軽量メッシュを生成する。
拡散モデルの一貫性に関するランダム行列理論的考察 [cs.LG, cs.AI, cs.CV, stat.ML]目的:拡散モデルのデータ分割における出力の一貫性のメカニズム解明
- 拡散モデルは高品質な画像生成が可能だが,学習データに依存した不安定性がある。
- 異なるデータ分割で学習されたモデル間の一貫性が高く,その理由が不明であった。
- ランダム行列理論を用いて,有限データセットが生成過程に与える影響を定量化する。
- 異なるデータ分割間の一貫性は,学習されたノイズ除去器とサンプリングマップの期待値と分散が,データセットのガウス統計によって予測されることに起因する。
- データサイズが有限であるため,分散が低い方向へ過小収縮し,サンプルがデータセットの平均に引き寄せられる現象が明らかになった。
- 固有モード間の異方性,入力間の不均一性,データセットサイズが,データ分割間の一貫性の違いに影響を与える主要な要因であることが示された。
FaceLinkGen:プライバシー保護型顔認識における身元漏洩の再考と身元抽出 [cs.CV]目的:プライバシー保護型顔認識における身元漏洩とその対策
- 顔認識技術はセキュリティ分野で重要であり,個人情報保護との両立が課題。
- 既存研究では画素レベルの再構成耐性のみが評価され,実質的なプライバシー保護が不十分。
- 保護されたテンプレートからの身元抽出攻撃によるリスクを明らかにし,プライバシー保護の強化を目指す。
- 提案手法FaceLinkGenは,既存のプライバシー保護型顔認識システムに対して98.5%以上の照合精度と96%以上の顔再生成成功率を達成した。
- 近ゼロ知識設定下でも,92%の照合精度と94%の再生成成功率を維持し,プライバシー保護の脆弱性を浮き彫りにした。
- 従来の画素歪み指標が,プライバシー保護の有効性を適切に評価できていないという構造的なギャップを指摘した。
全スライド画像解析のためのマルチスケール線形時間エンコーダ [cs.CV, cs.AI, cs.LG, q-bio.TO]目的:全スライド画像解析のためのマルチスケール線形時間エンコーダ
- 病理診断支援において,全スライド画像解析は不可欠であり,診断精度向上に貢献する。
- 従来の解析手法は計算コストが高く,ギガピクセル画像への対応が課題であった。
- マルチスケール情報を効率的に処理し,計算コストを削減する新たなフレームワークを開発する。
- 本研究で提案するMARBLEは,既存手法と比較してAUCが最大6.9%,精度が20.3%,C-indexが2.3%向上した。
- MARBLEは,線形時間状態空間モデルを用いることで,効率的なマルチスケール依存関係の捕捉を実現した。
- 本フレームワークは,全スライド画像解析における汎用性とスケーラビリティを示すことができた。
小規模神経画像データに対するバイアスに強い機械学習のための再現可能なフレームワーク [cs.LG, cs.CV, q-bio.NC, q-bio.QM]目的:小規模神経画像データにおけるバイアスに強い機械学習フレームワーク
- 脳機能画像解析は,精神疾患や神経疾患の理解・診断に不可欠である。
- データ量が少ない場合,モデルの過学習や結果のバイアスが生じやすい。
- バイアスを抑制し,再現性の高い機械学習モデルの構築を目指す。
- ドメイン知識に基づいた特徴量エンジニアリング,ネストされた交差検証,最適化された決定閾値を用いることで,バイアスを低減。
- 深部脳刺激認知結果の構造的MRIデータセットを用いて,ネストCVにおけるバランスアキュラシー0.660±0.068を達成。
- 重要度に基づくランキングにより選択された解釈可能なサブセットを用いることで,高い解釈性と信頼性を両立。
SRA-Seg:半教師あり医用画像セグメンテーションのための合成から現実へのアライメント [cs.CV]目的:医用画像セグメンテーションにおける合成データと現実データの特徴分布のアライメント
- 医用画像セグメンテーションは,病変の正確な検出・診断に不可欠であり,医療の質向上に貢献する。
- 高品質なアノテーション付きデータの取得は困難であり,学習データ不足が課題となっている。
- 合成データと現実データの間のドメインギャップを埋め,半教師あり学習の性能向上を目指す。
- SRA-Segは,ACDCデータセットにおいて10%の実データと90%の合成データのみで89.34%のDice係数を達成した。
- FIVESデータセットにおいても84.42%のDice係数を達成し,既存の半教師あり手法を大きく上回った。
- 本手法は,実データのみを用いた手法と同等の性能を示すことが示された。
災害コミュニケーションにおけるグラフィックスの役割:実務家による利用,課題,包摂性に関する視点 [cs.GR]目的:災害コミュニケーションにおけるグラフィックスの利用状況,課題,包摂性に関する実務家の視点
- 災害時は迅速な情報伝達が不可欠であり,視覚情報は文字情報よりも効果的な場合が多い。
- 災害情報グラフィックスは,全ての人にとって等しく理解しやすいとは限らず,アクセシビリティに課題がある。
- 災害時のグラフィックス利用における課題を明らかにし,包摂性を高めるための提言を行う。
- 災害コミュニケーションの実務家はグラフィックスへの期待が高い一方で,視覚障碍者や高齢者などへのアクセシビリティに大きな課題が残存している。
- 緊急時における包摂的な改変は,運用上の制約,ガイダンスの不足,資源の限界により困難であることが示された。
- 災害管理機関やグラフィックデザイナーへの提言と,より包摂的な災害グラフィックスのための技術的・適応的支援に関する研究の方向性が示された。
N\"uwa: VLMトークン剪定による空間的整合性の回復 [cs.CV, cs.AI, cs.CL]目的:VLMの効率化のためのトークン剪定手法
- 大規模言語モデルと画像認識の融合が進む中で,VLMの効率的な処理が重要になっている。
- 既存の剪定手法はVQAでは性能を維持できるものの,VGタスクでは大幅に性能が低下する。
- 空間情報を維持しつつ,効率的な特徴量集約を実現し,VGタスクの性能向上を目指す。
- 提案手法N\"uwaは,複数のVQAベンチマークで最高水準の性能(94%から95%)を達成した。
- VGタスクにおいては,大幅な性能向上(7%から47%)が確認された。
- N\"uwaは,空間情報の損失を防ぎながら,効率的なトークン剪定を実現した。
医療音声分類のための合成データ拡張:予備評価 [cs.SD, cs.AI, cs.LG]目的:医療音声分類における性能向上
- 医療音声は,病状診断に不可欠であり,正確な分類が求められる。
- ノイズ,微細な特徴,クラス内変動が大きいことが課題であり,データ不足も深刻。
- 合成データ拡張によるデータ増強が,これらの課題解決に貢献しうる。
- ベースラインモデル(CNN)のF1スコアは0.645であった。
- 個々の拡張手法では性能向上は見られず,中立または低下を示す結果も。
- 拡張モデルのアンサンブルのみ,F1スコアのわずかな改善(0.664)が見られた。
TRACE:時間的変化を説明する画像解釈による胸部X線レポート生成 [cs.CV]目的:胸部X線画像の経時的な変化の検出と説明
- 臨床放射線科において,病状の進行や治療効果の評価に不可欠な技術である。
- 既存の手法では,画像と自然言語を結びつける能力と時間的な変化検出を同時に行うことが困難である。
- 時間的変化,変化の分類,空間的局在化を統合的に行うモデルを開発し,その課題を解決する。
- TRACEは,90%を超える空間的局在化の精度を達成し,この困難なタスクの基盤を確立した。
- 時間的比較と空間的局在化を同時に学習することで初めて変化検出が可能になることが明らかになった。
- 局在化が,時間的な推論に不可欠な空間的注意メカニズムを提供する可能性が示唆された。
赤外線微小ターゲット検出のための動的ハイ周波畳み込み [cs.CV]目的:赤外線微小ターゲット検出における性能向上
- 赤外線画像における微小ターゲットの検出は,セキュリティや監視において重要な役割を担う。
- 従来の深層学習手法は,様々な高周波成分を区別する能力に課題があり,誤検出を引き起こしやすい。
- 本研究は,特徴的な高周波成分を動的に捉え,ターゲットとその他の成分を識別する畳み込み演算を提案する。
- 提案手法DHiFは,フーリエ変換の特性に基づき,動的に生成される局所フィルタバンクを用いることで,高周波成分に特化した処理を実現している。
- DHiFは,標準的な畳み込み演算の置き換えとして利用でき,既存のSIRST検出ネットワークへの組み込みが容易である。
- 実データセットを用いた実験により,DHiFは他の最先端の畳み込み演算と比較して,優れた検出性能を示すことが確認された。
魚眼ステレオビジョン:深度および距離誤差 [cs.CV]目的:魚眼ステレオビジョンシステムの深度および距離誤差の解析
- 広視野角の映像取得が可能なため,ロボットや自動運転等の分野で応用が期待される。
- 魚眼レンズ特有の歪みにより,深度や距離の推定精度が低下する問題がある。
- 対象距離に応じて変化する深度・距離誤差を定量的に評価し,精度向上の指針を得る。
- 本研究により,物体の距離に応じて変化する深度誤差と距離誤差を解析的に導出した。
- 特に,大角度における精度を考慮した分析を行い,誤差特性を明らかにした。
SceneLinker:RGBシーケンスからの意味的シーングラフによる構成的な3Dシーン生成 [cs.CV]目的:RGBシーケンスからの意味的シーングラフによる構成的な3Dシーンの生成
- MRコンテンツの体験をユーザー空間に適合させるには,周囲のセマンティックな手がかりを効率的に捉え,現実世界のレイアウトを反映した3Dシーン生成が不可欠である。
- 既存研究では,オブジェクト間の文脈的関係を完全に捉えきれていないか,多様な形状の合成に重点を置いており,オブジェクト配置に合致した3Dシーン生成が困難であった。
- シーングラフを用いた3D空間の一貫性のある生成を可能にし,物理環境から空間MRコンテンツを作成する課題を解決することを目指す。
- 提案手法SceneLinkerは,シーングラフ予測のためのクロスチェック特徴注意機構を持つグラフネットワークと,3Dシーン生成のためのジョイント形状・レイアウトブロックを持つグラフ変分オートエンコーダ(graph-VAE)を組み合わせている。
- 3RScan/3DSSGおよびSG-FRONTデータセットでの実験により,複雑な室内環境や困難なシーングラフ制約下においても,提案手法が最先端手法を凌駕することが示された。
- 本研究は,シーングラフを通じて物理環境から一貫性のある3D空間を生成し,空間MRコンテンツの創造を可能にする。
画像と長いキャプションにおける視覚的根拠に基づいた理解のための森林と木の整合 [cs.CV, cs.AI, cs.LG]目的:画像と長いキャプション間の階層的セマンティクスの整合
- 画像とテキストの理解は,AI技術の発展において不可欠であり,様々な応用を可能とする。
- 既存のモデルは長いキャプションの理解に苦戦しており,視覚的詳細と文脈の整合性に課題がある。
- 画像とテキストの階層的な整合を促し,視覚的根拠に基づいた詳細な理解を実現することを試みる。
- 提案手法CAFTは,画像と長いキャプション間のグローバルとローカルなセマンティクスを整合させる階層的表現学習フレームワークである。
- CAFTは,ピクセルレベルの教師なしで,画像全体とキャプション全体のマッチングを実現し,領域と文の対応を誘導する。
- 3000万組の画像-テキストペアで学習した結果,6つの長文検索ベンチマークで最先端の性能を達成し,優れたスケーリング性を示した。
SharpTimeGS:ライフスパン変調によるシャープかつ安定した動的ガウシアン・スプラッティング [cs.CV]目的:動的シーンの新しい視点合成に関する研究
- フォトリアリスティックな4D再構成や没入感のある視覚体験を実現するための基盤技術である。
- 既存手法は,静的領域と動的領域の長期的なバランスを,表現と最適化の両面で維持するのが難しい。
- ガウシアン形状の減衰を平坦化プロファイルに再構成し,安定性と動的忠実度を両立する手法を提案する。
- 提案手法SharpTimeGSは,静的領域と動的領域を統一的な表現下で時間的に適応的にモデル化する。
- 学習可能なライフスパンパラメータを用いて,ガウシアンの動作を調整し,静的点のドリフトを低減するとともに,動的点の自由な動作を維持する。
- 複数のベンチマークにおいて,最先端の性能を達成し,RTX 4090上で4K解像度100FPSのリアルタイムレンダリングを実現した。
ビデオOPD:時系列ビデオグラウンディングのためのオンポリシー蒸留によるマルチモーダル大規模言語モデルの効率的な後学習 [cs.CV]目的:時系列ビデオグラウンディングのためのマルチモーダル大規模言語モデルの後学習手法
- ビデオグラウンディングは,ビデオとテキストの関係を理解する上で重要なタスクであり,様々な応用が期待される。
- 強化学習は有望だが,疎な報酬信号と計算コストが課題となっていた。
- オンポリシー蒸留を用いて,強化学習の課題を克服し,効率的な後学習を実現する。
- 提案手法Video-OPDは,既存の強化学習手法GRPOと比較して,一貫して高い性能を示す。
- Video-OPDは,GRPOよりも収束が速く,計算コストが低いことが実証された。
- オンポリシー蒸留が,ビデオグラウンディングにおける従来の強化学習に代わる有効な選択肢となり得る。
情報価値に基づく忠実度選択: コストを意識したマルチモーダル質問応答 [cs.CV, cs.AI, cs.LG]目的:コストを意識したマルチモーダル質問応答における忠実度選択の最適化
- 視覚情報処理コストが高いが,高忠実度入力が重要である。効率的な処理が求められる。
- 既存システムは固定忠実度で動作し,コストと精度のバランスが課題である。
- 情報価値に基づいて忠実度を動的に選択し,コストを削減しつつ精度を維持すること。
- VOILAは質問の特徴から各忠実度での正答率を予測し,コストと精度のバランスを最適化する。
- 5つのデータセットと6つのVLMsで実験した結果,50-60%のコスト削減と90-95%の精度維持を達成した。
- 事前検索における忠実度選択は,リソース制約下でのマルチモーダル推論に不可欠である。
画像修復における畳み込み内思考:グローバル・ローカル側からの構造を通じたテクスチャ再構成 [cs.CV]目的:画像修復のための構造とテクスチャの特徴マップ相互支援による畳み込みダウンサンプリング時の情報損失の軽減
- 画像修復は,画像処理において重要な課題であり,実用的な応用範囲が広い。
- 従来の畳み込みニューラルネットワークでは,ダウンサンプリング時に構造とテクスチャの特徴マップの情報損失が発生しやすい。
- 本研究は,ダウンサンプリングにおける情報損失を構造とテクスチャの相互作用で軽減することを目指す。
- 提案手法では,統計的正規化と非正規化戦略を用いて,畳み込みダウンサンプリング中の特徴マップ再構成を誘導する。
- 実験結果から,提案手法は256*256および512*512の低解像度から高解像度の画像に対し,既存手法よりも優れていることが示された。
- 特に,エンコーダを提案手法のものに置き換えることで,顕著な性能向上が認められる。
ニューヨーク市の混雑料金制度に関する視覚的分析 [cs.CV]目的:ニューヨーク市の混雑料金制度の影響評価
- 都市交通の効率化は,経済活動や生活の質に直結する重要な課題である。
- 混雑料金制度の効果測定は,従来のデータ収集方法では手間と時間がかかる。
- 交通カメラ映像の解析により,混雑料金制度の効果を効率的に定量化すること。
- マンハッタンとニューヨークの900以上の交通カメラの映像を解析した結果,制度導入後の交通パターン変化が確認された。
- 2024年11月から2026年1月までのデータを比較分析し,車両密度の体系的な変化を特定した。
- これにより,混雑料金制度が交通量に与える影響を客観的に評価することが可能となった。
音楽メタデータLLMを用いた音楽キャプションの再考 [cs.SD, cs.LG]目的:音楽の記述生成
- 音楽理解と制御可能な音楽生成に応用可能な研究分野である。
- 高品質な音楽キャプションデータが不足しており,学習データ確保が課題である。
- 音楽メタデータから詳細な情報を推論し,多様なキャプション生成を可能にする。
- 本手法は,メタデータ由来のLLM生成キャプションで学習したモデルと同等の性能を,より短い学習時間で実現する。
- 学習後にキャプションのスタイルを容易に変更でき,特定の要件に合わせた出力が可能となる。
- 音声と部分的なメタデータを入力することで,メタデータの補完やデータ整理に貢献する。
MUSE:閉ループ認知オーケストレーションによる制約のない物語構想のためのマルチエージェントフレームワーク [cs.CV]目的:制約のない物語構想
- 物語生成は,エンターテイメントや教育など,様々な分野で重要な役割を担う。
- 既存手法では,長編物語生成時に意味のずれや一貫性の欠如が課題となる。
- 本研究は,物語生成における意図と実行のギャップを埋めることを目指す。
- MUSEは,計画,実行,検証,修正を繰り返す閉ループ構造を採用し,物語の一貫性を向上させる。
- MUSEは,キャラクター,空間構成,時間的連続性といった要素を制御し,マルチモーダルなフィードバックを活用する。
- MUSEBenchを用いて評価した結果,既存手法と比較して,物語の整合性,モード間の一貫性,映像品質が大幅に向上した。
知覚と推論の境界におけるボンガード問題:プログラムか言語か [cs.CV, cs.AI]目的:ボンガード問題解決のためのニューロシンボリックアプローチ
- 視覚的推論は人間にとって不可欠であり,そのメカニズム解明が重要である。
- 既存の視覚言語モデルは,未知の状況への適応能力に課題がある。
- ボンガード問題を通して,視覚的推論における言語とプログラムの役割を解明する。
- 提案手法では,LLMを用いてボンガード問題の仮説ルールをプログラム表現に変換し,ベイズ最適化でパラメータを調整する。
- 正解ルールが与えられた画像分類と,ルールなしでの問題解決の両方において有効性が確認された。
- このアプローチは,視覚的推論におけるニューロシンボリックな方法論の可能性を示す。
HP-GAN:FakeTwinsと識別器の一貫性によるGAN改善のための事前学習ネットワークの活用 [cs.CV]目的:GANの性能向上
- 画像生成技術は近年目覚ましい発展を遂げているが,さらなる品質向上が求められている。
- GANの学習は不安定になりやすく,多様性と品質を両立させることが難しい。
- 事前学習ネットワークの知見を活用し,GANの学習安定性と生成画像の品質向上を目指す。
- HP-GANは,FakeTwinsと識別器の一貫性という二つの戦略によって,事前学習済みネットワークの潜在能力を最大限に引き出す。
- 実験結果から,HP-GANは17のデータセットにおいて,最先端手法と比較してFIDスコアが大幅に改善され,画像多様性と品質が向上することが示された。
- 識別器間の一貫性維持は,GANの学習をより堅牢にし,画像の品質評価の整合性を高める。
SAFE-KD:リスク制御型早期終了蒸留による視覚バックボーン [cs.LG, cs.AI, cs.CV]目的:視覚バックボーンにおけるリスク制御型早期終了蒸留手法
- 深層学習モデルの推論コスト削減が重要であり,特にエッジデバイスでの利用が求められている。
- 早期終了ネットワークでは,いつ早期終了させれば安全かが課題となっていた。
- 早期終了の安全性を保証しつつ,計算コストと精度のトレードオフを改善すること。
- SAFE-KDは,複数のデータセットとアーキテクチャにおいて,精度と計算量のトレードオフを改善した。
- 各出口におけるキャリブレーションを強化し,データ破損に対するロバスト性を向上させた。
- 交換可能性の仮定の下で,指定された選択的な誤分類リスクを保証する有限サンプルリスクを提供した。
IVC-Prune:LVLMにおける暗黙的な視覚座標の解明とビジョン トークン プルーニング [cs.IR, cs.HC, cs.CL, cs.ET, cs.IR, cs.CV]目的:LVLMにおける視覚トークン プルーニング手法の開発
- 大規模な視覚言語モデルは多岐にわたるタスクで優れた性能を示すが,計算コストが高い。
- 既存のプルーニング手法は意味的な関連性に焦点を当てており,空間推論に必要なトークンを誤って削除する可能性がある。
- RoPEの数学的特性を分析し,空間推論に不可欠な暗黙的な視覚座標を特定し,高精度なプルーニングを実現する。
- IVC-Pruneは,学習を必要とせず,プロンプトに合わせたトークン プルーニング戦略であり,視覚トークン数を約50%削減する。
- 削減後も,元の性能の99%以上を維持し,一部のベンチマークでは性能が向上する。
- RoPEにおける回転行列の特性を理論的に分析することで,暗黙的な視覚座標トークンを特定する。
JRDB-Pose3D:ロボットのための複数人物3D人体姿勢・形状推定データセット [cs.CV, cs.AI]目的:複数人物の3D人体姿勢および形状推定のためのデータセット
- 自動運転やロボットの知覚,ナビゲーション,人とロボットのインタラクションなど,多くの応用分野で重要である。
- 既存のデータセットは単一人物または制御された環境に限定され,現実世界への応用が難しい。
- 現実世界の複雑な環境における複数人物の姿勢推定に関する課題を解決する。
- JRDB-Pose3Dは,移動型ロボットから収集した屋内および屋外環境の複数人物の3D人体姿勢を記録したデータセットである。
- 各個人のSMPLベースの姿勢アノテーション,一貫性のある身体形状パラメータ,および時間経過に伴うトラックIDを含む。
- 本データセットは,頻繁なオクルージョン,身体の欠損,フレーム外の身体部位など,現実世界の課題を反映している。
