arXiv雑要約
画像・音声 - 2026/02/04 公開
次元を意識したマッピングによるウォーターマーキングの統合 [cs.CV]目的:ウォーターマーキング手法の機能レベルでの統合
- デジタルコンテンツの不正利用防止は重要であり,ウォーターマーキングは有効な手段である。
- 既存のウォーターマーキング手法は多様であり,その機能的な違いを統一的に理解することが困難である。
- 異なる次元のマッピングを通じて,様々なウォーターマーキング機能を統一的に実現することを目指す。
- 提案手法DiMは,ウォーターマーク情報を様々な次元のペイロードとしてモデル化することで,既存手法を統合する。
- 埋め込みと抽出の次元構成を変えるだけで,ウォーターマーキングの挙動を変化させることが可能となった。
- 実験により,DiMが時空間的な改ざん検出,局所的な埋め込み制御,フレーム破壊時の時間順序回復に有効であることが示された。
PlanTRansformer:目標条件付きTransformerによる統一的な予測と計画 [cs.HC, cs.RO, cs.CV]目的:自律走行におけるエージェントの軌道予測と計画の統合
- 自動運転の実現には不可欠であり,安全性と効率性の向上に貢献する。
- 予測と計画が分離しており,エージェントの意図を考慮した計画が困難である。
- 予測と計画を統合し,意図不明な状況下でも安全な計画を可能にする。
- PlanTRansformerは,Motion Transformerと比較して,mAPにおいて4.3%/3.5%の改善を達成した。
- また,GameFormerと比較して,5秒先の計画誤差を15.5%削減した。
- 本アーキテクチャはTransformerベースの様々な予測モデルに適用可能である。
連鎖を看破する:CoT圧縮と対照的嗜好最適化によるマルチモーダル推論モデルにおける幻覚の軽減 [cs.CV]目的:マルチモーダル推論モデルにおける幻覚軽減策
- マルチモーダル推論は,画像とテキストを統合し高度なタスクを遂行するため,AI研究の重要分野である。
- マルチモーダル推論モデルは幻覚を起こしやすく,その原因究明と効果的な解決策が課題となっている。
- CoT圧縮と対照的嗜好最適化により,幻覚を抑制し,より信頼性の高い推論を実現することを目指す。
- Chain-of-Thoughtの冗長な思考トークンをフィルタリングし,よりコンパクトで効率的な表現を獲得した。
- 高品質なAIフィードバックを活用した嗜好チューニングにより,推論過程の質を向上させ,幻覚の発生を抑制した。
- 多様なマルチモーダル推論モデルとベンチマークにおいて,一貫した幻覚軽減効果を確認した。
マルコフ決定過程における認識的不確実性に対する動的計画法 [cs.GT]目的:認識的不確実性を持つマルコフ決定過程におけるリスク尺度に基づいた方策の評価
- 不確実な環境下での意思決定は,ロボティクス,金融,医療など多岐にわたる分野で重要である。
- 従来のマルコフ決定過程では,遷移確率が既知であると仮定されており,認識的不確実性の扱いに限界があった。
- 本研究は,リスク尺度を用いた曖昧さ回避型マルコフ決定過程の理論を確立し,動的計画法の適用可能性を調査する。
- 曖昧さ回避型マルコフ決定過程のフレームワークは,特定のリスク尺度を選択することで,既存の不確実性を持つマルコフ決定過程のモデルを統一的に表現できる。
- 価値関数とベルマン作用素の概念を拡張し,動的計画法の原理(停留方策の存在,価値反復と方策反復アルゴリズム)を確立した。
- 動的計画法と適合する不変リスク尺度を完全に特徴付け,動的計画法の限界と適用可能なリスク尺度を明確にした。
持続可能な連合学習エコシステムの構築に向けて:ペイオフ配分のための実用的な最小コアメカニズム [cs.GT, cs.AI]目的:連合学習におけるペイオフ配分メカニズム
- プライバシー保護と協調的知能を実現する連合学習の重要性が増している。
- 連合学習環境の持続可能性を損なう,公平で安定したペイオフ配分メカニズムの欠如。
- 最小コア概念に基づくペイオフ配分フレームワークにより,連合の安定性を高める。
- 提案メカニズムは,潜在的なサブグループ間の不満を最小化し,参加者の離脱インセンティブを抑制する。
- スタックベースのプルーニングアルゴリズムにより,計算効率と配分精度を両立している。
- 連邦型侵入検知のケーススタディにより,重要な貢献者と戦略的同盟を特定できることが示された。
悪循環から良循環へ:教師なしビデオオブジェクト中心学習のための相乗的表現学習 [cs.CV, cs.LG]目的:ビデオにおけるオブジェクト中心学習のための相乗的表現学習手法
- 複雑なシーンを理解する上で,オブジェクト単位での分析が重要となるため,その自動学習手法の確立が求められる。
- 既存手法では,エンコーダとデコーダの表現ギャップが原因で,鮮明な特徴抽出と正確な再構成が両立しない問題が存在する。
- エンコーダとデコーダが互いに改善し合うことで,表現ギャップを解消し,オブジェクト中心学習の性能向上を目指す。
- 提案手法(SRL)は,エンコーダの鮮明性とデコーダの空間的一貫性を互いに活用することで,再構成の曖昧さを解消する。
- スロット正則化によるウォームアップ段階を導入し,初期段階でのエンティティの分離を促進することで,学習の安定化を図る。
- 複数のビデオオブジェクト中心学習ベンチマークにおいて,最先端の結果を達成し,提案手法の有効性が確認された。
UnHype:CLIP誘導型ハイパーネットワークによる動的LoRAアンラーニング [cs.CV]目的:大規模拡散モデルからの特定の知識や概念の選択的除去
- 拡散モデルの進化により,悪用リスクが高まり,モデルの安全性確保が重要になっている。
- LoRAベースのアンラーニングは,概念の意味理解や複数概念同時除去に課題がある。
- CLIP埋め込みに基づく動的なLoRA重み生成により,文脈を考慮したスケーラブルなアンラーニングを実現する。
- UnHypeは,Stable Diffusionや最新のテキストto画像モデルに組み込むことが可能であり,安定した学習と効果的な概念制御を実現する。
- 物体除去,有名人除去,露骨なコンテンツ除去などのタスクにおいて,その有効性と汎用性が示された。
- ハイパーネットワークを利用することで,単一概念および複数概念に対するLoRA学習の適応性を高める。
ソクラテス・ジオ:マルチエージェント対話による合成データ生成と幾何学的推論 [cs.CL, cs.CV, cs.AI]目的:幾何学的推論のための合成データ生成と学習フレームワーク
- マルチモーダル大規模言語モデルの発展に伴い,視覚と言語の理解は向上している。
- 高品質な画像とテキストのペアが不足しており,幾何学的推論がボトルネックとなっている。
- 教師エージェントとソルバーエージェントの相互作用により,データ生成と学習を効率化する。
- ソクラテス・ジオは,わずか108の初期問題から,6つのベンチマークでベースラインの4分の1のデータ量で49.11のスコアを達成した。
- ソクラテス・ジェネレーターはGenExamで42.4%のスコアを達成し,オープンソースモデルとして最高の結果を更新した。
- この結果は,Seedream-4.0やGemini-2.5-Flash-Imageに匹敵する性能を示している。
CoCoEmo:活性化ベクトル操舵による,合成可能で制御可能な人間らしい感情表現TTS [cs.SD, cs.LG]目的:感情豊かな音声合成の実現
- 人間は微妙な感情表現でコミュニケーションを取るため,自然な感情表現の音声合成が重要である。
- 既存のTTSシステムは単一の感情しか表現できず,多様性やテキストとの不一致を抑えていた。
- 活性化ベクトル操舵を用いて,感情表現を合成・制御し,人間らしい自然な音声を目指す。
- 感情的なプロソディや表現の多様性は,TTSの言語モジュールによって主に合成されることが示された。
- 活性化ベクトル操舵によって,自然で人間らしい感情豊かな音声を生成する軽量な手法が確立された。
- 複数の感情を組み合わせたり,テキストと感情の不一致を再現する合成が可能になった。
起源レンズ:暗号学的画像来歴とAI検出のためのプライバシー重視型モバイルフレームワーク [cs.IR, cs.CR, cs.CV, cs.CY, cs.HC]目的:生成AIによる情報操作への対策
- 生成AIの普及により,情報の信頼性確保が重要課題となっている。
- 既存の画像検証システムはプライバシー侵害や中央集権化の問題を抱えている。
- モバイルデバイス上でプライバシーを保護しつつ,画像の信頼性を検証すること。
- 起源レンズは,暗号学的来歴検証とAI検出をモバイルデバイス上でローカルに実行する。
- 生成モデルのフィンガープリントや追加検証情報を統合し,信頼性指標を提供する。
- EU AI法やDSAなどの規制要件への適合性を示し,プラットフォームレベルの仕組みを補完する。
ConsistentRFT:フローベース強化学習ファインチューニングにおける視覚的な幻覚の低減 [cs.CV]目的:フローベースモデルにおける視覚的幻覚の低減
- 生成モデルの性能向上には,人間の嗜好との整合が不可欠であり,強化学習によるファインチューニングが重要となる。
- 強化学習によるファインチューニングは,過度に最適化された詳細や意味的なずれといった視覚的幻覚を引き起こす可能性がある。
- 本研究は,フローベースモデルにおける視覚的幻覚の原因を解明し,その低減手法を提案することを目的とする。
- 提案手法ConsistentRFTは,視覚的幻覚を大幅に低減し,ローレベルおよびハイレベルの知覚的幻覚をそれぞれ平均49%,38%削減した。
- ConsistentRFTは,既存のファインチューニング手法と比較して,ドメイン外の評価指標においても5.1%の改善を示した(ベースラインは-0.4%の低下)。
- 動的粒度ロールアウト(DGR)機構と一貫性のある方策勾配最適化(CPGO)により,グローバルな意味とローカルな詳細のバランスを取り,モデルの一貫性を保つ。
HetroD:異種交通における自律運転のための高精度ドローンデータセットとベンチマーク [cs.RO, cs.CV]目的:異種交通環境における自律運転システムの開発
- 現実世界の交通環境は多様であり,特に歩行者や自転車などの弱者交通参加者の安全確保が重要である。
- 既存のデータセットは,車線規制が整った交通環境に偏っており,弱者交通参加者の複雑な行動を十分に捉えられていない。
- 弱者交通参加者の行動をモデル化し,予測,計画,シミュレーションなどのタスクにおけるベンチマークを提供する。
- HetroDは,弱者交通参加者の軌跡が全体の70%を占める65.4k件以上の高精度なエージェント軌跡を含む大規模なドローンベースのデータセットである。
- 最先端の予測・計画モデルは,本データセットが提示する課題に対して苦戦しており,特に横方向の弱者交通参加者の動きの予測や,非構造化された操縦への対応が困難である。
- これは,異種交通に対するよりロバストなアプローチの必要性を示唆している。
複数被写体画像生成のための階層的概念-外観ガイダンス [cs.CV, cs.AI]目的:複数被写体画像生成における,参照被写体のID維持とテキスト指示への忠実な追従
- 画像生成技術は,創造的なコンテンツ制作やデータ拡張など,多様な分野で重要性が増している。
- 既存手法では,IDの一貫性の欠如や合成制御の限界が課題となっている。
- テキストと参照画像の間の明示的な関連付けにより,IDの一貫性と制御性を向上させる。
- 提案手法は,概念レベルと外観レベルで明示的なガイダンスを提供することで,IDの一貫性を高める。
- VAEドロップアウト戦略により,VLMからのセマンティック信号への依存度を高め,概念レベルでの生成の一貫性を促進する。
- 対応関係を考慮したマスク付き注意モジュールにより,テキストトークンと参照領域の正確な対応付けを実現し,属性結合の信頼性を向上させる。
視覚言語モデルにおける文脈的視覚的パーソナライズ [cs.CV]目的:視覚言語モデルによる文脈的視覚的パーソナライズの実現
- 視覚言語モデルは急速に進歩しているが,ユーザーの経験に基づいたパーソナライズが課題である。
- 既存モデルは,視覚情報をユーザーの過去の視覚的・テキスト的文脈と結びつけられない。
- ユーザーの視覚的経験を認識・検索し,パーソナライズされた応答を生成する能力向上を目指す。
- 提案手法CoViPは,パーソナライズ画像キャプションを中核課題とし,強化学習とキャプション拡張生成により能力を向上させる。
- CoViPは,テキストの近道に頼らないことを検証する診断評価を導入し,視覚的文脈の利用を明示的に確認する。
- 実験の結果,CoViPはパーソナライズ画像キャプションの改善に加え,下流タスク全体で性能向上を実現する。
交差コスト下におけるマルチエージェント経路探索のゲーム理論的・アルゴリズム的解析 [cs.MA, cs.CC, cs.GT]目的:マルチエージェント経路探索における交差コストを考慮した経路の最適化
- ロボティクス,交通システム,分散システム等において,複数エージェントの効率的な経路調整は不可欠である。
- 従来の経路探索手法は同期処理に依存し,非同期環境での衝突回避が困難であるという課題がある。
- 非同期環境下での効率的な経路調整を可能にする新たなフレームワークの構築を目指す。
- 交差コストを導入することで,衝突を厳格な制約ではなく,リスクの指標として捉える新たなモデルを提案した。
- このモデルは congestion game として定式化され,純粋ナッシュ均衡の存在と到達可能性が理論的に証明された。
- 交差コスト最小化はNP困難であるが,パラメータ化アルゴリズムにより,特定の条件下で効率的な解法を提供した。
物体検出モデルのための内点中心事後学習量子化 [cs.CV]目的:物体検出モデルの量子化における精度低下の抑制
- 物体検出はコンピュータビジョンの重要な要素であり,その処理能力向上が求められている。
- 量子化は計算コスト削減に有効だが,ノイズ等の不要な活性化により精度が低下しやすい。
- 本研究は,不要な活性化を抑制し,有用な特徴量を保持することで量子化精度を向上させる。
- 提案手法InlierQは,勾配情報を考慮したボリュームサリエンススコアを用いて,内点と異常値を識別する。
- EMアルゴリズムによりスコアの分布を推定し,異常値を抑制することで,情報的な特徴量を保持する。
- COCOとnuScenesベンチマークにおいて,カメラ画像およびLiDARデータを用いた物体検出において,量子化誤差の低減が確認された。
バイレベルルーティング混合エキスパートによる継続学習のスケーラビリティ向上 [cs.LG, cs.CV]目的:継続学習におけるスケーラビリティ向上
- 事前学習モデルを活用した継続学習は重要性が増している。
- 長期的なタスクシーケンスにおいて,安定性と可塑性を両立した学習が困難である。
- 本研究は,多数のタスクに対応可能な継続学習手法を開発する。
- 提案手法CaREは,バイレベルルーティング混合エキスパート(BR-MoE)を導入し,タスク固有のルーターとエキスパートを動的に活用する。
- CaREは,様々なデータセットとタスク設定で既存手法を大きく上回り,優れた性能を示す。
- 特に,100~300以上のタスクシーケンスに対応可能なスケーラビリティが確認された。
骨格と内容の分離:分離されたアライメントと構造を意識したガイダンスによる効率的なマルチモーダル表推論 [cs.CV, cs.CL]目的:大規模ビジョン言語モデルにおける表推論能力の向上
- 表形式データは情報検索や意思決定において不可欠であり,その理解はAIの重要な課題である。
- 既存手法は高コストな教師あり学習や外部ツールに依存し,効率性と拡張性に課題がある。
- 最小限の注釈と外部ツールなしで,大規模言語モデルが表推論に適応する手法を開発する。
- 提案手法DiSCoは,マルチモーダルアライメントにおいて構造抽象化と意味的根拠付けを分離することで,表構造への適応を効率化する。
- Table-GLSは,構造化された探索と根拠に基づいた推論を通じて表推論を実行し,大規模言語モデルの理解能力を向上させる。
- 多様なベンチマークにおける実験により,提案手法が未見の表構造に対しても汎化性能が高いことが示された。
セマンティックルーティング:拡散Transformerのための多層LLM特徴量重み付けの探求 [cs.CL, cs.CV]目的:拡散Transformerにおけるテキスト条件付けの改善
- 近年の画像生成モデルではLLMがテキストエンコーダとして利用され,生成性能に大きな影響を与えている。
- LLMの層構造や拡散過程の変化に対応した動的なテキスト条件付けが十分に行われていない。
- LLMの多層的な特徴量を活用し,時間的・深さ方向の融合により,より効果的なテキスト条件付けを実現する。
- 深さ方向のセマンティックルーティングが最も優れた条件付け戦略であり,テキストと画像の整合性,および構成的生成能力を向上させる。
- 時間方向のみの融合は,視覚生成の忠実度を低下させる可能性があり,これは学習時と推論時における軌道の不一致が原因と考えられる。
- 深さ方向のルーティングは堅牢なベースラインとなり,時間依存型条件付けには軌道に配慮した信号が重要であることが示された。
D3PIA:リードシートからのピアノ伴奏生成のための離散ノイズ除去拡散モデル [eess.SY, cs.SY, cs.SD, cs.AI, cs.MM]目的:ピアノ伴奏生成
- 音楽生成分野において,自動伴奏は作曲支援や音楽表現の多様化に不可欠である。
- 既存モデルでは,旋律とコード進行を忠実に反映した自然な伴奏生成が困難である。
- リードシートと伴奏の局所的な整合性を重視し,より高品質な伴奏生成を目指す。
- D3PIAは,既存の連続拡散モデルやTransformerベースのモデルと比較して,コード進行をより正確に反映した伴奏を生成する。
- 主観評価の結果,D3PIAによって生成された伴奏は,音楽的に一貫性が高く,より自然に聞こえると評価された。
- D3PIAは,ピアノロール表現におけるリードシートと伴奏の局所的なアラインメントを活用し,効果的な伴奏生成を実現した。
制約分解と命令ファインチューニングによる解釈可能な論理的異常分類 [cs.CV]目的:産業画像における論理的制約違反の分類
- 品質保証において,異常の検出だけでなく,どの論理規則が破られたか特定することが重要である。
- 従来の異常検知は二値分類に留まり,異常の種類や原因を特定できないという課題があった。
- 複雑な論理的制約を検証可能なサブクエリに分解し,詳細な根拠と共に異常分類を行うことを目指す。
- LogiClsは,複雑な論理的制約をサブクエリに分解するvision-languageフレームワークである。
- データ中心の命令合成パイプラインにより,画像とテキストの多様な拡張を用いたCoT supervisionを生成する。
- 難易度を考慮したリサンプリング戦略により,困難なサブクエリと少数制約タイプの学習を安定化させる。
マスク化オートエンコーダにおけるロバストな表現学習 [cs.LG, cs.CV]目的:マスク化オートエンコーダによって学習される表現のロバスト性
- 画像認識技術の発展は,様々な分野での応用を可能にする重要な研究領域である。
- マスク化オートエンコーダの内部表現は高性能を示す一方で,そのメカニズムは十分に解明されていない。
- 画像劣化に対するロバスト性を評価し,表現学習の過程を理解することを試みる。
- 事前学習とファインチューニングで学習された表現は,ぼかしや遮蔽といった劣化に対して高い分類性能を示すことが示された。
- ネットワークの深層化に伴い,クラス間の分離性が高まるような,クラスを意識した潜在空間が構築されることが明らかになった。
- 標準的なVision Transformerと比較して,マスク化オートエンコーダはエンコーダ層全体で,初期段階から持続的なグローバルアテンションを示すことが確認された。
PnP-U3D: 自己回帰と拡散を橋渡しするプラグアンドプレイ3Dフレームワークによる統一的な3D理解と生成 [cs.CV]目的:3D理解と生成のための統一的フレームワーク
- マルチモーダルモデルの発展に伴い,理解と生成を組み合わせた統一的な枠組みが求められている。
- 既存の自己回帰パラダイムは,3Dにおいて性能劣化や高コスト化が課題となっていた。
- 自己回帰と拡散を組み合わせることで,高性能かつ効率的な3D処理を目指す。
- 提案手法は,3D理解と生成における多様なベンチマークで最先端の性能を達成した。
- 軽量なTransformerを用いることで,クロスモーダルな情報交換を効率的に実現している。
- 3D編集タスクにおいても優れた結果を示し,汎用的な3D知能への可能性を示唆する。
制約付き動的ガウススプラッティング [cs.CV]目的:動的シーン再構成におけるガウス数制約下での最適化
- 高精度な4D再構成技術は,現実世界のデジタル化に不可欠である。
- ガウス数の増加によるメモリ消費が,エッジデバイスでの利用を妨げている。
- ガウス数の上限を厳守しつつ,再構成品質を最大化することを目指す。
- 本研究では,予算制約最適化問題として動的シーン再構成を定式化するCDGSを提案する。
- 提案手法は,幾何学,運動,知覚の情報を統合し,ガウス数の厳密な制御を可能にする。
- CDGSは既存手法と比較して3倍以上の圧縮率を達成し,ハードウェア制約下でも高画質を維持する。
マトロイドにおける逐次線形契約 [cs.GT]目的:マトロイド制約下における逐次契約の分析
- 資源配分や組合せ最適化において,マトロイド構造は重要な役割を果たす。
- エージェントへの適切なインセンティブ設計が,効率的な資源利用のために不可欠である。
- マトロイド構造に基づく報酬関数を持つ環境下での最適な線形契約設計を明らかにすること。
- 本研究では,逐次契約問題とマトロイド信頼性問題の間に密接な関係があることを示した。
- マトロイドへの要素の並列コピーの追加によって,両問題は等価になることが判明した。
- この結果は,最適な線形契約の設計や,それに対応するプリンシパルの効用計算に役立つ。
アフォードンスGrasp-R1:推論に基づくアフォードンスセグメンテーションと強化学習を用いたロボット把持 [cs.RO, cs.CV]目的:ロボット把持のための推論駆動型アフォードンスセグメンテーションフレームワーク
- ロボットの自律的な動作には,対象物のアフォードンスを理解することが不可欠である。
- 複雑なシーンにおけるアフォードンスの正確な認識と把持計画が課題となっている。
- 言語指示に基づいた複雑な状況下でのロボット把持の信頼性と汎化性能の向上を目指す。
- アフォードンスGrasp-R1は,思考連鎖(CoT)を用いた初期戦略と強化学習を組み合わせることで,推論と空間的根拠付けを強化する。
- シーン全体の点群クラウドから把持候補を生成し,指示に応じたアフォードンスマスクでフィルタリングすることで,より文脈を意識した把持パイプラインを実現している。
- ベンチマークデータセットにおいて最先端手法を上回り,実世界のロボット把持評価でも堅牢性と汎化性能が確認された。
イヤホンを用いた適応的ノイズ抑制による,リアルタイムな呼吸数推定システムEarResp-ANS [cs.CL, cs.SD, cs.HC]目的:呼吸数のリアルタイム推定
- 健康状態や精神的な幸福度を評価する上で,呼吸数は重要なバイタルサインである。
- 日常的なモニタリングには,目立たないセンシング技術が不足している。
- 省電力かつプライバシーを保護しつつ,リアルタイムな呼吸数推定を実現すること。
- EarResp-ANSは,市販のイヤホン上で完全にオンデバイスで動作し,リアルタイムな呼吸数推定を可能にする初のシステムである。
- LMSに基づく適応的ノイズ抑制により,周囲のノイズを抑制しつつ,呼吸に関連する音響成分を保持する。
- 実環境下での評価で,平均絶対誤差(MAE) 0.84 CPMを達成し,外れ値除去により0.47 CPMまで低減された。処理負荷は2%未満。
単純なデータ拡張が,限られた臓器セグメンテーションデータセットにおいて高度なものよりも優れた性能を示す [cs.CV]目的:限られたデータセットにおける多臓器セグメンテーションの性能向上
- 臨床現場で多臓器セグメンテーションの重要性が増しており,自動化ツールによる効率化が求められている
- 深層学習モデルの学習には大量の注釈付きデータが必要だが,臨床データは不足しがちである
- 少ないデータでも効果的な深層学習モデルを構築するため,データ拡張技術を調査する
- CutMix,CarveMix,AnatoMixといった画像間データ拡張手法が,ベースラインのnnUNetと比較してDice係数を平均4.9,2.0,1.9%向上させた。
- CutMixは特にロバストであり,直感的に不自然に見える画像であってもセグメンテーション性能を向上させる。
- 本研究で実装したデータ拡張手法は,今後のベンチマークに利用可能である。
ELIQ:進化するAI生成画像の品質評価のためのラベルフリーフレームワーク [cs.CV, cs.AI, cs.MM]目的:AI生成画像の品質評価
- AI画像生成技術の急速な進歩に伴い,生成画像の品質評価が重要となっている。
- 既存の品質評価手法は,ラベルの信頼性低下により,新しい生成画像に対応できない問題がある。
- ラベルを用いずに,AI生成画像の品質を評価する新たな手法を開発し,その汎化性能を高める。
- ELIQは,従来の歪みとAIGC特有の歪みを網羅するペアを自動構築し,ラベルフリーでの品質評価を実現した。
- 事前学習済みのマルチモーダルモデルを,指示チューニングにより品質評価器へと適応させた。
- 複数のベンチマークにおいて,既存のラベルフリー手法を上回り,AIGCからUGCへの汎化性能も示した。
SlowFocus:ビデオLLMにおけるきめ細かい時間的理解の強化 [cs.CV]目的:ビデオLLMの時間的理解能力向上
- ビデオデータ解析において,LLMの活用が期待される。
- 既存のビデオLLMは,フレームレベルと動画レベルの情報保持に課題がある。
- SlowFocus機構により,時間的理解の精度向上を目指す。
- SlowFocus機構は,クエリ関連の時間セグメントを特定し,高頻度特徴を抽出する。
- マルチ周波数混合注意モジュールにより,局所的な詳細と大域的な文脈を統合する。
- 提案手法は,既存のベンチマークおよび新規ベンチマークで優位性を示す。
高解像度水中迷彩物体検出:GBU-UCODデータセットとトポロジー認識・周波数分離ネットワーク [cs.CV]目的:水中迷彩物体検出の性能向上
- 海洋資源探査や環境保護において,水中の物体を正確に検出する技術は重要である。
- 深海における物体と背景の類似性が高く,既存手法では細長い生物のトポロジーの断片化や透明な生物の微細な特徴抽出が困難である。
- 水中の物体検出において,トポロジー構造の維持と周波数特性の分離による高精度な検出を目指す。
- 本研究では,トポロジー認識モデリングと周波数分離知覚を統合したDeepTopo-Netを提案する。
- 高解像度(2K)のGBU-UCODデータセットを新たに構築し,深海や深淵帯のデータ不足を解消した。
- MAS3K,RMAS,GBU-UCODデータセットを用いた実験により,DeepTopo-Netが最先端の性能を達成し,複雑な水中の模様の形態的完全性を維持することが示された。
TIPSの活用:効果的なゼロショット異常検知のためのシンプルなプロンプト [cs.CV]目的:ゼロショット異常検知における性能向上
- 安全性が重視される分野において,異常検知は重要な技術である。
- 従来のCLIPモデルでは,空間的なずれや微細な異常に対する感度が低いという課題があった。
- TIPSを用いた簡潔なプロンプト設計により,この課題を解決し,異常検知の精度向上を目指す。
- TIPSを用いることで,従来のCLIPモデルが抱える空間的なずれと微細な異常に対する感度の低さを軽減できる。
- 画像レベルの検出性能が1.1-3.9%,ピクセルレベルの定位性能が1.5-6.9%向上し,7つの産業データセットで高い汎化性能を示した。
- 複雑な補助モジュールを使用せず,TIPSベースのパイプラインにより,軽量なアーキテクチャで優れた結果が得られた。
参照エージェント:推論と内省を用いた参照動画オブジェクトセグメンテーションのための協調マルチエージェントシステム [cs.CV]目的:参照動画オブジェクトセグメンテーションの性能向上
- 動画とテキスト情報を活用し,対象オブジェクトを特定・分割する技術であり,多様な応用が期待される。
- 既存手法は大規模データへの依存度が高く,最新モデルへの対応が遅れるという課題がある。
- 大規模データに頼らず,柔軟かつ高性能なセグメンテーションを実現することを目指す。
- 提案手法Refer-Agentは,マルチエージェントシステムと推論・内省の仕組みにより,既存手法を大幅に上回る性能を示す。
- 粗調整から詳細調整へのフレーム選択戦略と動的フォーカスレイアウトにより,効率的な推論を実現する。
- 質問者・応答者のペアによる内省の連鎖機構は,中間結果の検証と次の推論の改善に貢献する。
エネルギーに基づく関節埋め込み予測アーキテクチャのための軽量ライブラリ [cs.RO, cs.CV, cs.AI]目的:関節埋め込み予測アーキテクチャを用いた表現学習と世界モデルの学習
- 表現学習は,画像や動画などのデータを効率的に処理し,様々なタスクに応用可能な基盤技術である。
- 従来の生成モデルは計算コストが高く,意味のある特徴を捉えにくいという課題があった。
- 表現空間での予測を通じて,計算効率と表現能力の両立を目指す。
- 本ライブラリは,画像から動画,さらには行動条件付きの世界モデルへと,表現学習技術の適用範囲を拡張する。
- CIFAR-10の実験では,91%の精度で有用な特徴を学習することを示した。
- Two Roomsナビゲーションタスクでは,97%の計画成功率を達成し,行動条件付きの世界モデルの有効性を実証した。
KTV:効率的な学習不要型動画LLMのためのキーフレームとキートークン選択 [cs.CV]目的:効率的で効果的な学習不要型動画理解のためのフレームワーク
- 事前学習済みの画像言語モデルの活用が重要視されている。動画理解への応用が期待されている。
- 動画の冗長性が高く,計算コストが大きいことが課題となっている。
- 既存のキーフレーム選択戦略のバイアスを軽減し,動画理解の精度向上を目指す。
- KTVは,フレームレベルの特徴量のクラスタリングによるキーフレーム選択で,冗長性を低減する。
- キーフレーム内の重要度の低いトークンを削減することで,LLMへの入力トークン数を大幅に削減する。
- MLVU-Testベンチマークにおいて,既存手法を上回り,60分動画でわずか504トークンで44.8%の精度を達成した。
網膜疾患診断のための準多峰型病理学的特徴学習 [cs.CL, cs.CV, physics.med-ph]目的:網膜疾患の分類と重症度評価
- 網膜疾患は多様であり,早期発見と正確な診断が重要である。多角的な情報が診断精度向上に繋がる。
- 異なるモダリティのデータ間には不均一性があり,統合的な診断が困難である場合がある。
- 複数のモダリティデータを効率的に統合し,診断精度と効率を向上させることを目指す。
- 提案手法は,血管造影画像,多波長画像,視覚的注意マップを統合した多峰型データ合成と特徴抽出を行う。
- 各モダリティに特化したモデルを独立して学習し,病理学的特徴を捉えることで,モダリティ間の柔軟な統合を実現した。
- 公開データセットを用いた実験で,最先端の手法と比較して,多ラベル分類と糖尿病網膜症重症度評価において優れた性能を示した。
合成から現実へのスタイル変換のための多目的最適化 [cs.RO, cs.CV]目的:合成画像から現実画像へのドメイン適応のためのスタイル変換パイプラインの最適化
- セマンティックセグメンテーションは高度な認識能力に不可欠だが,高品質な学習データ収集にコストがかかる。
- 合成画像で学習したモデルは,現実画像とのドメインギャップにより性能が低下しやすい。
- スタイル変換を用いてドメインギャップを縮小し,ロバストなセグメンテーションモデルを開発すること。
- 多目的遺伝的アルゴリズムにより,構造的整合性とスタイル類似性のバランスを取るパイプラインを最適化した。
- 画像ペアの類似度に基づいた評価指標を用いることで,高速なパイプライン評価を実現した。
- GTA5からCityscapes,ACDCへの適応実験で,多様なデータ拡張パイプラインが有効性を示した。
SPWOOD:疎な部分弱教師あり方向性オブジェクト検出 [cs.CV]目的:疎な部分弱教師ありデータと大量の未ラベルデータを活用する方向性オブジェクト検出フレームワーク
- リモートセンシング分野では,高密度なオブジェクト分布と多様なカテゴリにより,ラベル付けコストが非常に高くなる。
- 従来のオブジェクト検出は,大量の正確なラベルを必要とし,ラベル付けのコストと時間が課題となっている。
- 少ないラベルと未ラベルデータのみで,効率的なオブジェクト検出を実現することを目指す。
- 提案手法は,疎な弱教師あり設定において,背景からオブジェクトを分離し,方向性とスケール情報を学習するSOS-Studentモデルを導入した。
- モデル予測の分布を活用する多層擬似ラベルフィルタリング戦略と,各カテゴリを公平に扱う疎な分割アプローチを構築した。
- DOTAおよびDIORデータセットでの実験により,提案手法が従来の方向性オブジェクト検出手法と比較して大幅な性能向上を達成することが示された。
MM-SCALE:スカラー判断とリストワイズアラインメントによるグラウンデッドなマルチモーダル倫理的推論 [cs.CV, cs.HC]目的:マルチモーダル倫理的推論のアラインメント
- 社会生活において倫理的な判断は不可欠であり,AIにもその能力が求められる。
- 既存のモデルは二値やペアワイズの学習に頼るため,倫理観の多様性や連続性を捉えきれていない。
- 5段階評価と明示的なモダリティによるグラウンディングを通して,より高度な倫理的推論を可能にする。
- MM-SCALEデータセットを用いたファインチューニングにより,VLMsはランキングの忠実度と安全性の安定性を向上させた。
- スカラーによる教師データが,従来の二値教師データよりも豊かなアラインメント信号を提供することを示した。
- より詳細なマルチモーダル倫理的推論のキャリブレーションが可能になった。
MVP-LAM:クロスビューポイント再構成による行動中心潜在行動の学習 [cs.RO, cs.CV]目的:行動中心潜在行動の学習
- ロボット学習の汎用化には,特定のロボットに依存しないデータセットが不可欠である。
- 既存手法では,教師なし学習による潜在行動の質が課題となっていた。
- マルチビュー動画からの潜在行動学習により,ロボットの行動認識精度向上を目指す。
- MVP-LAMは,クロスビューポイント再構成により,視点依存性を低減し,潜在行動の表現力を高めた。
- Bridge V2データセットにおいて,MVP-LAMは潜在行動と正解行動の相互情報量を増加させ,行動予測性能を向上させた。
- SIMPLERおよびLIBERO-LongベンチマークにおけるVLA事前学習において,下流タスクの操作性能が向上した。
空間的・時間的注意機構と線形LSTMを用いた効率的な逐次ニューラルネットワークによる,マルチフレーム画像を用いたロバストな車線検出 [cs.CV, cs.AI, cs.LG, eess.IV]目的:マルチフレーム画像を用いたロバストな車線検出手法
- 自動運転や先進運転支援システムにおいて,車線検出は不可欠な要素である。交通環境下での安全性向上に寄与する。
- 既存手法では,精度,ロバスト性,リアルタイム性の両立が難しく,特に重要な画像領域への注意が不足している。
- 空間的・時間的な注意機構を用いることで,車線検出の精度向上と計算効率化を目指す。
- 提案手法は,複数の公開データセットにおいて,最先端の手法を上回る性能を示すことが確認された。
- 空間的・時間的注意機構により,モデルパラメータ数を削減し,計算コストを低減できることが示された。
- 本研究で開発したモデルのデータ,コード,およびモデルは公開されている。
参照による産業異常セグメンテーション [cs.CV]目的:産業異常のセグメンテーション手法
- 製造業において,異常検知は品質管理や自動化に不可欠であり,生産性向上に貢献する。
- 従来の異常検知は,閾値設定の困難さや学習データ不足による過学習といった課題を抱えている。
- 言語指示を用いて多様な異常を単一モデルで検出し,高精度なセグメンテーションを実現すること。
- 提案手法RIASは,テキスト指示に基づいて正確な異常マスクを生成し,手動による閾値調整を不要とする。
- MVTec-Refデータセットを新たに構築し,多様な指示表現と小規模な異常パターンに焦点を当てた。
- DQFormerにより,効率的な視覚とテキストの統合を実現し,異常検知のオープンセット化を推進する。
微分可能シーケンシャル決定問題において,エージェントはいつ協調すべきか? [cs.MA, cs.GT, cs.RO, math.OC]目的:エージェントの協調が必要なタイミングの判断
- 複数ロボットシステムにおいて,効率的な運用には協調が不可欠である。
- 協調には通信コストがかかるため,最適な協調レベルの決定が課題である。
- 微分可能計画問題における協調の価値を分析し,協調のタイミングを決定する。
- 協調は,エージェントの目的関数の二階特性を考慮することで判断できることが示された。
- 提案手法は,チームがいつ協調すべきかを判断するためのアルゴリズムを提供する。
- 協調のスペクトラムを定義し,共同最適化とナッシュ均衡の間のトレードオフを分析した。
公共交通における効率的な投資 [cs.GT, cs.MA]目的:公共交通における限られた資源の投資に関する研究
- 都市交通の効率化は,経済活動や生活の質に不可欠である。
- 資源配分の最適化は計算困難であり,実用的な解法が求められている。
- 公平性と効率性を考慮した資源配分問題の解決を目指す。
- 線形ネットワークモデルにおいて,平等厚生を最大化する近似解の計算はNP困難である。
- 重み付きグラフモデルでは,少数のエージェントに対する最適解を多項式時間で求められる。
- エージェント数が増加すると,厚生と平等厚生の最適化はNP困難かつ近似困難となる。
RegionReasoner: 領域に基づいた多段階視覚推論 [cs.CV]目的:多段階視覚推論における精度向上
- 視覚と言語の理解を組み合わせるAI研究は,人間のような知能の実現に不可欠である。
- 既存の視覚推論システムは,単一ステップやテキストのみに依存し,文脈の理解が不十分である。
- 領域と推論の整合性を高め,多段階での視覚的理解を深めることを目指す。
- 新たなベンチマークRegionDial-Benchを導入し,検出とセグメンテーションタスクで多段階推論の評価を可能にした。
- 強化学習フレームワークRegionReasonerは,参照バウンディングボックスの引用を強制し,領域に基づいた推論を促進する。
- グローバル-ローカル整合性報酬により,シーン全体と領域レベルの説明の一貫性を確保し,推論精度を向上させた。
地下インフラ評価のためのエッジ最適化された視覚言語モデル [cs.CV]目的:地下インフラの欠陥に関する簡潔な要約の自動生成
- 公共の安全と都市の持続可能性にとって,地下インフラの検査は不可欠である。
- 既存のシステムでは,特にリソースに制約のあるエッジデバイス上での自動要約が困難である。
- エッジ環境での効率的な欠陥検知と,人間が理解できる洞察の提供を目指す。
- 軽量なRAPID-SCANモデルにより,0.64MパラメータでF1スコア0.834を達成し,効率的な欠陥セグメンテーションを実現した。
- Phi-3.5 VLMを微調整し,セグメンテーション結果から簡潔でドメイン固有の自然言語要約を生成した。
- モバイルロボットプラットフォーム上での実証実験により,実世界の検査シナリオにおける有効性が確認された。
3D都市分析のための空間的・時間的視覚化に向けた遮蔽のない共形レンズ [cs.HC, cs.GR]目的:都市における時間変化するデータ(影,騒音,太陽光ポテンシャルなど)の分析
- 都市空間の分析において,時間的データの視覚化は不可欠であり,都市計画や環境問題解決に貢献する。
- 高密度な都市環境では,データの遮蔽や視覚的混乱が頻発し,効果的な視覚化を妨げる。
- 遮蔽を解消し,時間変化するデータを直感的に表現することで,都市分析の精度向上を目指す。
- 提案手法は,建物形状に合わせて時間情報を表示する共形レンズ視覚化を用いることで,遮蔽の問題を解決する。
- ユーザー実験の結果,提案手法は従来の視覚化手法と比較して,タスクの正確性と完了時間を向上させることが確認された。
- 本研究は,3D視覚化における空間埋め込み型レンズの設計指針と今後の研究方向性を示す。
LIVE:長期的インタラクティブビデオ世界モデル [cs.CV]目的:長期的なビデオ生成における誤差蓄積の抑制
- ビデオ生成は,ロボット工学やシミュレーションなど,様々な分野で重要性を増している。
- 従来のビデオ世界モデルは,長期的な生成において誤差が蓄積し,品質が低下する課題があった。
- 本研究は,サイクル整合性に基づく新しい目的関数により,誤差蓄積を抑制し,高品質な長期ビデオ生成を実現する。
- LIVEは,教師モデルや分布マッチングを必要とせず,計算コストを削減しつつ,長期的なビデオ生成の安定性を向上させる。
- 提案手法では,順方向ロールアウトと逆生成プロセスを用いることで,長期的な誤差伝播を明示的に抑制する。
- 実験結果から,LIVEが既存の最先端手法を凌駕し,訓練ロールアウト長よりも長い期間,安定した高品質なビデオを生成することが示された。
透過:アニメキャラクターの単一画像レイヤー分解 [cs.CV, cs.GR]目的:アニメキャラクターの操作可能な2.5Dモデル生成手法
- アニメーション制作において,高品質なキャラクターモデルの需要は高い。
- 従来のワークフローは手作業による分割や隠れた領域の補完に多大な労力を要する。
- 単一画像から自動的にレイヤー分解し,高品質なモデル生成を可能にすること。
- 本手法は,単一画像を完全に補完された意味的に明確なレイヤーに分解し,描画順序を推論する。
- 商業用Live2Dモデルから高品質な教師データを生成するスケーラブルなエンジンを導入し,データ不足の問題を解決する。
- 拡散ベースのBody Part Consistency Moduleとピクセルレベルの疑似深度推論により,複雑なレイヤー構造を解決し,高品質なモデルを生成する。
古骨骼X線画像アーカイブにおけるゼロショット大規模視覚言語モデルのプロンプティングによる自動骨骼識別 [cs.CV, cs.AI]目的:古骨骼X線画像における主要な骨格,投影ビュー,および左右の識別
- 古骨骼放射線学は,人類の健康に関するミレニアムスケールのパターンを明らかにする新たな手段を提供する。
- 収集されたX線画像は,骨の離断,位置の不規則性,左右表示の欠如など,多様性が高く,分析が困難である。
- 大規模な古骨骼データセットにおける効率的なコンテンツナビゲーションを可能にすること。
- 本研究では,最先端の大規模視覚言語モデルを活用したゼロショットプロンプティング戦略を報告した。
- 専門家による検証の結果,主要な骨格の識別精度は92%,投影ビューは80%,左右は100%であった。
- これらの結果は,大規模な古骨骼データセットにおけるコードワード開発を大幅に加速できることを示唆している。
