arXiv雑要約

画像・音声 - 2026/03/02 公開

  • TARDis:不完全マルチモーダル腫瘍セグメンテーションと分類のための時間減衰表現の分離 [cs.CV]目的:不完全なマルチモーダルデータからの腫瘍セグメンテーションと分類における性能向上
    • 腫瘍診断において,造影CTにおける造影剤の時間経過は重要な情報源である。
    • 実際の臨床では,放射線量の制限やプロトコルの違いから,時間経過の完全なデータが得られない場合が多い。
    • 時間経過が不完全なデータでも高精度な腫瘍診断を可能にする手法を開発すること。
    • TARDisは,欠損した位相を連続的な時間減衰曲線上の欠損サンプル点として再定義する物理知識に基づいたフレームワークである。
    • 静的な解剖学的特徴と時間依存的な血流動態の特徴を分離する二重経路アーキテクチャを採用している。
    • 大規模なデータセットにおける実験により,TARDisが最先端の手法を大きく上回ることが示された。

    Link: https://arxiv.org/abs/2512.04576

  • 自己教師ありAI生成画像検出:カメラメタデータからの視点 [cs.CV]目的:AI生成画像の検出
    • デジタルコンテンツの信頼性確保は重要であり,AI生成画像の識別技術が求められている。
    • 既存の検出器は特定の生成モデルに依存し,汎用性に課題がある。
    • カメラメタデータを用いて,モデルに依存しないロバストな検出手法を確立する。
    • カメラメタデータ(EXIFタグ)を用いた自己教師あり学習により,AI生成画像を検出する。
    • 学習特徴量に基づき,一類分類と二値分類の両方で高い検出性能を達成した。
    • 多様な生成モデルに対し,高い汎化性能と画像劣化に対する頑健性を示した。

    Link: https://arxiv.org/abs/2512.05651

  • FRIEDA:ビジョン言語モデルにおける多段階の地図的推論のベンチマーク [cs.CV, cs.AI]目的:ビジョン言語モデルにおける複雑な地図的推論能力の評価
    • 地図的推論は,災害対応や都市計画といった重要なタスクに不可欠な認知能力である。
    • 既存の評価方法は,地図特有の多層的な記号や空間関係を捉えきれていない。
    • 多段階の推論を必要とする,より厳格な地図的推論のベンチマークを確立すること。
    • 新たなベンチマークFRIEDAは,現実の地図画像を用いて,多様な空間関係を評価する。
    • 最新のビジョン言語モデルは,人間のパフォーマンスを大きく下回る結果となった。
    • この結果は,空間知能における課題を示し,さらなる研究の必要性を示唆する。

    Link: https://arxiv.org/abs/2512.08016

  • 1秒未満の鋭い単眼視点合成 [eess.SY, cs.SY, cs.CV, cs.LG]目的:単一画像からのフォトリアリスティックな視点合成
    • 仮想現実や拡張現実の実現に不可欠な技術であり,没入感の向上に貢献する。
    • 高品質な視点合成には膨大な計算資源と時間がかかり,リアルタイム性が課題であった。
    • 高速かつ高品質な単眼視点合成を実現し,リアルタイムアプリケーションへの応用を可能にする。
    • SHARPは,単一画像からシーンの3Dガウス表現を回帰し,1秒未満で処理を完了する。
    • 生成された3Dガウス表現はリアルタイムレンダリングが可能で,高解像度なフォトリアリスティック画像を生成する。
    • 既存モデルと比較して,LPIPSとDISTSのスコアを大幅に改善し,処理時間を3桁削減した。

    Link: https://arxiv.org/abs/2512.10685

  • 認知的な潜在的推論を活用した自律走行のための階層的並列軌道計画 [cs.CV]目的:自律走行における安全で信頼性の高い軌道の生成
    • 自動運転技術は,交通安全の向上や移動の効率化に不可欠であり,社会実装が期待されている。
    • 従来のモジュール型パイプラインは複雑で,エンドツーエンド型システムは推論速度が課題となっている。
    • テキストと連続制御のミスマッチ,高遅延,非因果計画といった問題を解決し,リアルタイム性能を実現すること。
    • ColaVLAは,視覚と言語の情報から潜在空間へ推論を転移させ,階層的並列軌道デコーダーと組み合わせることで,効率的な軌道生成を可能にする。
    • 認知的な潜在的推論器は,シーンの理解をコンパクトなメタアクション埋め込みに圧縮し,VLMの汎化性能と解釈可能性を維持する。
    • nuScenesベンチマークにおいて,ColaVLAはオープンループとクローズドループの両方で最先端の性能を達成し,効率性と堅牢性も高いことが示された。

    Link: https://arxiv.org/abs/2512.22939

  • 潜在世界モデルを用いたビデオ生成モデルの推論時物理整合性調整 [cs.CV]目的:ビデオ生成における物理整合性の向上
    • ビデオ生成技術は目覚ましい発展を遂げているが,現実世界の物理法則を無視した不自然な映像生成が課題である。
    • 既存のビデオ生成モデルは,事前学習データが不足していることが物理法則の理解を妨げていると考えられる。
    • 潜在世界モデルの物理法則に関する事前知識を活用し,推論時の処理を調整することで物理整合性を高める。
    • 提案手法WMRewardは,潜在世界モデルからの報酬を用いて複数の生成候補を探索・制御し,物理整合性を大幅に改善する。
    • 画像,複数フレーム,テキストなどの様々な条件設定において,物理的妥当性の向上が確認された。
    • ICCV 2025 Perception Test PhysicsIQ Challengeにおいて,最高スコア62.64%を達成し,既存技術を7.42%上回る成果を得た。

    Link: https://arxiv.org/abs/2601.10553

  • CSyMR: シンボル音楽推論における楽曲情報検索のベンチマーク [cs.CL, cs.LG, cs.AI, cs.CL, cs.SD, eess.AS]目的:シンボル音楽の楽曲情報検索における構成的推論のためのベンチマーク
    • 楽曲の構造を理解することは,音楽分析や自動作曲など,音楽情報処理の根幹をなす。
    • 自然言語とシンボル楽譜の間のギャップにより,複雑な楽曲情報を正確に検索することが困難。
    • 現実的なユーザーのニーズに基づいた,楽曲の構成的推論を評価するベンチマークの確立。
    • CSyMR-Benchは,実際のユーザーシナリオに基づいた126個の多肢選択問題で構成される。
    • ツールを統合した検索・推論フレームワークは,LLMのみのアプローチと比較して5-7%の精度向上を示した。
    • 分析に重点を置いたカテゴリーにおいて,特に改善が見られた。

    Link: https://arxiv.org/abs/2601.11556

  • CPiRi:多変量時系列予測のためのチャネル順序不変関係性相互作用 [cs.CV]目的:多変量時系列予測におけるチャネル順序に依存しない関係性相互作用の学習
    • 時系列データは様々な分野で利用され,将来予測は重要である。そのため,多変量時系列予測技術は不可欠である。
    • 従来のモデルはチャネル順序に依存しやすく,順序が変わると性能が低下する。また,チャネル間の依存関係を無視するモデルもある。
    • チャネル順序に依存せず,チャネル間の依存関係を捉え,構造変化にも対応できる予測モデルを開発する。
    • 提案手法CPiRiは,チャネル順序に不変なフレームワークであり,固定された順序を記憶せず,データからチャネル間の構造を学習する。
    • CPiRiは,凍結された事前学習済みの時間エンコーダと軽量な空間モジュールを組み合わせ,チャネルシャッフル戦略によって順序不変性を強制する。
    • 実験結果から,CPiRiは既存手法を上回り,シャッフルされたチャネル順序に対しても安定しており,少ないチャネル数での学習で未知のチャネルにも汎化する。

    Link: https://arxiv.org/abs/2601.20318

  • SpatiaLab:大規模言語・視覚モデルは現実世界で空間推論を行えるか [cs.CV, cs.CE, cs.CL, cs.LG]目的:視覚言語モデルにおける空間推論能力の評価
    • 空間推論は人間認知の根幹であり,AIの高度化に不可欠な能力である。
    • 既存の研究は合成環境や限定的なタスクに偏り,現実世界の複雑さを捉えられていない。
    • 現実的かつ制約のない環境下での空間推論能力評価フレームワークを構築し,課題を明確化する。
    • SpatiaLabは,6つの主要カテゴリ,30のタスクタイプで構成される大規模なベンチマークである。
    • 最先端の視覚言語モデルは,人間と比較して空間推論能力に大きな差があることが示された。
    • 本研究は,視覚言語モデルの空間理解を向上させるための指針を提供する。

    Link: https://arxiv.org/abs/2602.03916

  • 都市を想像する:手続き型3D都市生成のためのCityGenAgent [cs.CV]目的:手続き型3D都市の高品質生成
    • 自動運転,VR,具現化された知能など幅広い応用分野で,インタラクティブな3D都市の自動生成が不可欠である。
    • 既存手法は,高忠実度なアセット生成,制御性,操作性に課題があり,現実的な都市生成が難しい。
    • CityGenAgentは,高品質な3D都市を生成するための,自然言語駆動型の階層的な手続き型生成を目指す。
    • CityGenAgentは,Block ProgramとBuilding Programという解釈可能な2つのコンポーネントに都市生成を分解する。
    • 構造の正確性と意味的整合性を確保するため,教師ありファインチューニング(SFT)と強化学習(RL)の二段階学習戦略を採用する。
    • 実験の結果,既存手法と比較して,意味的整合性,視覚的品質,制御性が向上し,スケーラブルな3D都市生成の基盤が確立された。

    Link: https://arxiv.org/abs/2602.05362

  • 機械学習における表現の消去:機械的アンラーニングのための表現アンラーニング [cs.LG, cs.CV]目的:機械的アンラーニングのための表現アンラーニング手法
    • 機械学習モデルのプライバシー保護や法的要件への対応が重要視されている。
    • 従来のアンラーニング手法では,出力レベルでの忘却は達成できても,内部表現レベルでの忘却が不十分である。
    • 内部表現全体にわたる忘却を強制することで,より完全な忘却を実現すること。
    • 提案手法ECは,忘却対象データセットと保持データセットの両方に対して,多層コントラスティブアンラーニングと深層教師あり学習を統合する。
    • ECは,中間層に補助モジュールを接続し,各層でコントラスティブアンラーニングとクロスエントロピー損失を適用する。
    • 実験結果から,ECは出力レベルでの忘却だけでなく,中間層における表現の類似性を大幅に低減することが示された。

    Link: https://arxiv.org/abs/2602.05375

  • DynFOA:条件付き拡散を用いた動的かつ音響的に複雑な360度動画の第一級アンビソニク生成 [cs.SD]目的:動的かつ音響的に複雑な360度動画からの第一級アンビソニク生成
    • 没入型360度動画体験において,空間オーディオは不可欠であり,リアリティの向上に寄与する。
    • 既存手法は,シーンの動的な性質や音響的複雑性を十分に考慮していない場合が多い。
    • 本研究は,シーンの幾何形状や材質に基づいた遮蔽,反射,残響を正確にモデル化することを目指す。
    • DynFOAは,視覚情報から複数の動的音源を検出し,位置,深度,セマンティクスを推定する。
    • 3D Gaussian Splattingを用いてシーンの幾何形状と材質を再構築し,遮蔽,反射,残響をモデル化する。
    • 評価実験の結果,DynFOAは空間精度,音響的忠実度,分布の一致において既存手法を凌駕することが示された。

    Link: https://arxiv.org/abs/2602.06846

  • PixelRush:ワンステップ拡散による超高速,学習不要な高解像度画像生成 [cs.CV]目的:高解像度画像生成の効率化
    • 画像生成技術は,様々な分野で活用が期待されており,その重要性は高い。
    • 既存の拡散モデルは解像度に制約があり,高解像度化には計算コストがかかる。
    • PixelRushは,学習なしで高速な高解像度画像生成を実現し,この課題を解決する。
    • PixelRushは,従来の最先端手法と比較して10倍から35倍の高速化を実現した。
    • 4K画像を約20秒で生成可能であり,実用的な高解像度テキストから画像生成フレームワークである。
    • パッチベースの効率的なノイズ除去とシームレスなブレンド戦略により,優れた視覚的忠実度を維持する。

    Link: https://arxiv.org/abs/2602.12769

  • 地上からの超越:UAV向け地図不要LiDAR再定位 [cs.CV, cs.RO, eess.IV]目的:UAVにおける地図不要LiDAR再定位手法
    • UAVの自律飛行には高精度な位置推定が不可欠であり,特にGNSSが利用できない環境下での位置把握が重要である。
    • 既存のLiDAR再定位手法は自動運転向けに最適化されており,UAV特有の飛行特性において精度が低下する課題がある。
    • UAVの不規則な軌跡や高度変化に対応し,現実的な環境下での高精度な再定位を実現することを目的とする。
    • 提案手法MAILSは,疎な点群から局所的に識別可能な幾何学的特徴を抽出するLocality-Preserving Sliding Window Attentionモジュールを導入する。
    • 座標に依存しない特徴初期化モジュールと局所的に不変な位置エンコーディングメカニズムにより,大きなヨー回転と高度変化に対するロバスト性を向上させる。
    • UAVの飛行特性を捉えた大規模なLiDAR局所化データセットを構築し,現実的な条件での再定位性能を評価した結果,既存手法を大幅に上回る精度を達成した。

    Link: https://arxiv.org/abs/2602.13267

  • COOPERTRIM:不確実性を考慮した協調知覚のための適応的データ選択 [cs.CV, cs.NI]目的:不確実性を考慮した協調知覚における,適応的なデータ選択手法
    • 自動運転やロボティクスにおいて,周囲環境の正確な認識は不可欠であり,協調知覚はその精度向上に貢献する。
    • 無線通信帯域幅の制約が,豊富なセンサ情報共有のボトルネックとなり,実用化を妨げている。
    • 環境の動的な変化を捉え,冗長な情報の伝送を抑制することで,通信帯域幅の圧迫を緩和することを目指す。
    • COOPERTRIMは,セマンティックセグメンテーションと3D検出において,それぞれ最大80.28%と72.52%の帯域幅削減を達成した。
    • 他のデータ選択戦略と比較して,COOPERTRIMはIoUを最大45.54%改善し,帯域幅を最大72%削減した。
    • 圧縮戦略と組み合わせることで,IoU性能を損なうことなく,帯域幅使用量を1.46%まで削減できる。

    Link: https://arxiv.org/abs/2602.13287

  • 拡散モデルにおける推論時の適応的相互作用ノイズ除去:Diff-Aid [cs.CV]目的:複雑なテキスト記述への忠実な画像生成
    • 近年のテキスト-画像生成モデルの進歩は目覚ましいが,高品質な画像生成には改善の余地がある。
    • テキストと視覚特徴間の不十分な相互作用が,複雑なテキスト指示への正確な対応を妨げている。
    • 推論時にテキストと画像の相互作用を動的に調整し,生成品質とsemantic alignmentを向上させる。
    • Diff-Aidは,Transformerブロックとデノイジングステップ間で,トークンごとのテキストと画像の相互作用を適応的に調整する軽量な手法である。
    • 生成品質の向上に加え,Diff-Aidはデノイジング中のsemantic alignmentへの各ブロック,ステップ,トークンの貢献度を示す解釈可能なパターンを提供する。
    • SD 3.5およびFLUXを用いた実験で,プロンプトへの適合性,視覚品質,人間による好みの評価において,一貫した改善が示された。

    Link: https://arxiv.org/abs/2602.13585

  • SceneTok:3Dシーンの圧縮可能かつ拡散可能なトークン空間 [cs.CV, cs.AI, cs.LG]目的:3Dシーンのビューセットを圧縮された非構造化トークンの集合としてエンコードする手法
    • 3Dシーンの表現と生成は,仮想現実やロボティクスなど幅広い分野で重要である。
    • 既存手法は空間格子の制約を受け,効率的な表現や新しい視点からのレンダリングが課題である。
    • 空間格子から独立したトークン表現により,圧縮性とレンダリングの自由度を向上させる。
    • SceneTokは,既存の手法と比較して1~3桁高い圧縮率を実現しつつ,最先端レベルの再構成品質を達成した。
    • 入力軌道から逸脱した新規軌道からもレンダリングが可能であり,デコーダーは不確実性にも柔軟に対応できる。
    • 高度に圧縮された潜在シーントークンにより,5秒で高品質なシーン生成を実現し,従来のパラダイムよりも優れた品質と速度のトレードオフを実現した。

    Link: https://arxiv.org/abs/2602.18882

  • CRAFT-LoRA:ランク制約適応とトレーニング不要な融合によるコンテンツスタイル個別化 [cs.CV]目的:テキストと参照画像に基づく画像合成におけるコンテンツ忠実性とスタイルの一貫性のバランス
    • 画像生成技術は,多様なコンテンツ作成を可能にし,創造性を拡張する重要な分野である。
    • LoRAのような軽量な適応技術は効率的だが,コンテンツとスタイルの表現が絡み合いやすい。
    • CRAFT-LoRAは,コンテンツとスタイルの分離を改善し,柔軟な意味的制御を実現する。
    • CRAFT-LoRAは,ランク制約されたバックボーン微調整により,コンテンツとスタイルの表現の分離を促進する。
    • プロンプト誘導による専門家エンコーダにより,アダプターの選択的集約と意味的制御が可能となる。
    • トレーニング不要なタイムステップ依存のclassifier-free guidanceにより,生成の安定性を向上させる。

    Link: https://arxiv.org/abs/2602.18936

  • プロトタイプ誘導データ合成による,シンプルなマルチモーダルデータセット蒸留 [cs.CV]目的:マルチモーダルデータセット蒸留の効率化と汎化性能の向上
    • マルチモーダル学習は様々なタスクで成功を収めているが,大規模データセットへの依存度が高い。
    • 既存のデータセットフィルタリングや蒸留手法は,十分な性能を維持するために大規模なサブセットが必要となる。
    • アーキテクチャに依存せず,小規模データセットでも汎化性能を維持できる蒸留手法を開発する。
    • 提案手法は,学習を必要とせず,CLIPを用いて画像とテキストの埋め込み表現を取得し,プロトタイプを抽出する。
    • さらに,unCLIPデコーダを用いて画像を合成することで,効率的かつスケーラブルなデータセット蒸留を実現する。
    • 実験結果から,本手法が最適化ベースの蒸留手法やサブセット選択手法を凌駕し,最先端の汎化性能を示すことが明らかになった。

    Link: https://arxiv.org/abs/2602.19756

  • 単一画像からの幾何学的整合性のある探索可能な3Dシーン生成 [cs.CV]目的:単一画像からの探索可能な3Dシーン生成
    • 3Dビジョン分野は,現実世界の理解と再現において重要な役割を担う。
    • 既存手法は,視点移動によって幾何学的歪みやノイズが発生し,自由な探索が困難である。
    • 本研究は,幾何学的整合性を保ちながら,自由な探索が可能な3Dシーン生成を可能とする。
    • 提案手法One2Sceneは,問題を3つの段階に分解し,没入感のあるシーン生成を実現する。
    • パノラマ生成,Gaussian Splattingによる3D骨格構築,そして新規視点生成を組み合わせる。
    • 大規模データセットから学習した幾何学的知識を活用し,カメラ移動に安定した高品質なシーン探索を可能にする。

    Link: https://arxiv.org/abs/2602.19766

  • KVバインディングを用いたテスト時学習は,実は線形アテンションである [cs.LG, cs.AI, cs.CV]目的:テスト時学習におけるKVバインディングのメカニズム解明
    • 大規模言語モデルの性能向上は,計算資源と効率性のバランスが重要である。
    • テスト時学習は計算コストが高く,そのメカニズムも不明な点が多い。
    • テスト時学習の効率化と,その背後にある原理の解明を試みる。
    • テスト時学習とKVバインディングは,単純な記憶メカニズムではなく,学習された線形アテンションとして表現できることが示された。
    • この新しい視点により,モデルの構造を簡素化し,計算効率を向上させることが可能になった。
    • 多様なテスト時学習手法を,標準的な線形アテンション形式に統一的に還元できることが示された。

    Link: https://arxiv.org/abs/2602.21204

  • FedVG:勾配誘導集約による連合学習の性能向上 [cs.LG, cs.AI, cs.CV]目的:連合学習における性能向上
    • プライバシー保護と機械学習の活用が求められる中で,連合学習の重要性が増している。
    • クライアント間のデータ異質性が高く,モデルの汎化性能が低下しやすいという課題がある。
    • データ異質性に起因するクライアントドリフトを抑制し,汎化性能を改善することを目指す。
    • 提案手法FedVGは,グローバル検証セットを用いて勾配を誘導する集約フレームワークである。
    • クライアントモデルの汎化能力を層ごとの勾配ノルムで評価し,適応的な集約を実現する。
    • 自然画像および医療画像データセットで,FedVGは高い性能向上を示し,既存手法とも容易に組み合わせられる。

    Link: https://arxiv.org/abs/2602.21399

  • FlowFixer:詳細を保持する被写体駆動生成に向けて [cs.CV]目的:被写体駆動生成における詳細な復元
    • 画像生成技術は,多様なコンテンツ作成を可能にする重要な技術である。
    • 被写体駆動生成では,スケールや視点の変化により,詳細が失われやすい。
    • 生成された画像の詳細な品質を向上させること。
    • FlowFixerは,視覚的な参照画像から直接画像変換を行うことで,言語プロンプトの曖昧さを回避する。
    • 自己教師あり学習のためのノイズ除去スキームを導入し,高周波の詳細を自動的に除去することで,現実世界の生成エラーをシミュレーションする。
    • 詳細の忠実性を評価するためのキーポイントマッチングに基づく指標を提案し,既存のSDG手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2602.21402

  • 単純な料金と最適な交通渋滞課金 [cs.GT, econ.TH, math.OC]目的:静的料金と動的な最適な交通渋滞課金方式の性能差
    • 交通渋滞は都市の効率を低下させるため,その緩和策は重要である。
    • 最適な動的料金設定は複雑で,実用化が困難な場合が多い。
    • 静的料金設定が,最適料金設定に比べてどの程度の損失を招くかを評価する。
    • 最悪の場合でも,静的料金は動的料金の少なくとも半分以上の収益を達成する。
    • 静的料金は,システムコストを最小化する動的料金に対して,最大で2倍のコストとなる。
    • サンフランシスコとニューヨークのデータに基づくと,静的料金は動的料金の収益の80-90%を達成する。

    Link: https://arxiv.org/abs/2602.21495

  • 静的から動的へ:潜在的遷移事前知識を用いた物理に基づいた画像編集 [cs.CV]目的:物理に基づいた画像編集における課題解決
    • 画像編集技術は高度化しているが,物理法則に沿った自然な表現が難題となっている。
    • 既存手法では,複雑な物理現象(屈折,変形など)を扱う際に,物理的に妥当でない結果が生じやすい。
    • 物理現象の遷移を予測する新たな手法を開発し,より自然な画像編集を実現すること。
    • 本研究では,38Kの物理遷移軌跡を含む大規模データセットPhysicTran38Kを構築した。
    • テキストと視覚情報を活用するPhysicEditフレームワークを提案し,物理的リアリズムと知識に基づいた編集性能を向上させた。
    • PhysicEditはオープンソースモデルとして最先端の性能を示し,商用モデルにも匹敵する結果を達成した。

    Link: https://arxiv.org/abs/2602.21778

  • SemVideo:階層的な意味的ガイダンスによる脳活動からの視聴内容の再構成 [cs.CV, cs.AI]目的:脳活動からの動的視覚体験の再構成
    • 脳の視覚認知メカニズム解明に貢献し,ブレイン・マシン・インターフェースなど応用範囲が広い。
    • 動画の再構成は画像に比べ難易度が高く,物体の一貫性や時間的な整合性の欠如が課題である。
    • 意味的情報を活用し,より正確で自然な動画再構成を目指す。
    • SemVideoは,階層的な意味情報に基づいてfMRI信号と動画を整合させる新しいフレームワークである。
    • 提案手法は,CC2017およびHCPデータセットで既存手法を上回り,意味的整合性と時間的整合性において優れた性能を示した。
    • SemMinerが構築する意味的ガイダンスが,動画再構成の精度向上に貢献している。

    Link: https://arxiv.org/abs/2602.21819

  • 情報が失われないように [cs.CV]目的:物体検出における背景情報の活用
    • リアルタイム物体検出は,自動運転や監視システムなど,様々な分野で不可欠な技術である。
    • 既存の物体検出モデルは,前景物体に焦点を当て,背景情報の活用が不十分である。
    • 背景情報を取り込み,物体検出の精度向上を目指す。
    • 提案手法 Association DETRは,COCO val2017データセットにおいて,他の物体検出モデルと比較して最先端の結果を達成した。
    • 背景情報が物体検出に有意に貢献し,特に複雑なシーンにおいて効果が認められた。
    • 前景と背景の関連性を考慮することで,よりロバストな物体検出が可能となることが示された。

    Link: https://arxiv.org/abs/2602.22595

  • 単一画像からの反射除去におけるギャップの探求:GFRRN [cs.CL, cs.CV]目的:単一画像からの反射除去性能向上
    • 画像編集技術の発展に伴い,高品質な画像復元が求められている。
    • 既存手法では,事前学習モデルと反射除去モデルの間の意味理解のずれが生じやすい。
    • 合成データと実データ間の反射ラベルの不一致問題を解決し,性能向上を目指す。
    • 本研究では,PEFT戦略とラベル生成器により,特徴方向の整合性とラベルの一貫性を高めた。
    • 新たにG-AFLBとDAAを導入し,周波数領域の適応的な学習と注意機構を改善した。
    • 提案手法GFRRNは,最先端のSIRR手法と比較して,優れた性能を示すことが実験で確認された。

    Link: https://arxiv.org/abs/2602.22695

  • 動画生成における動的空間関係の整合性向上:SPATIALALIGN [cs.CV]目的:動画生成における動的空間関係の表現能力向上
    • 近年の動画生成技術の発展は目覚ましいが,生成される動画の品質が重視されがちである。
    • テキスト指示に基づいた空間関係の正確な表現が十分でないという課題が存在する。
    • テキスト指示された動的空間関係と生成動画の整合性を定量的に評価し,改善することを目指す。
    • 提案手法SPATIALALIGNは,テキストから動画への生成モデルを,動的空間関係の指示に沿うように微調整する。
    • DSR-SCOREという幾何学に基づいた評価指標を新たに設計し,生成動画と指示された空間関係の整合性を定量的に評価する。
    • 実験結果から,提案手法によってベースラインモデルと比較して空間関係の表現が大幅に向上することが示された。

    Link: https://arxiv.org/abs/2602.22745

  • WARM-CAT:合成ゼロショット学習のためのウォームスタート型テスト時包括的知識蓄積 [cs.RO, cs.CV]目的:合成ゼロショット学習における新たな属性・オブジェクトの組み合わせ認識
    • 画像認識技術の発展は,より多様な物体や状況の理解を可能にする上で重要である。
    • 既存手法では,テスト時のラベル空間の分布シフトが性能低下の原因となっている。
    • テスト時に教師なしデータから知識を蓄積し,分布シフトへの適応能力を高める。
    • 本研究では,テキストと視覚の両モダリティから知識を蓄積し,テスト時にマルチモーダルプロトタイプを更新する手法を提案した。
    • 適応的な更新重みを設計することで,モデルがテスト時の分布シフトに柔軟に対応することを可能にした。
    • 新たなベンチマークデータセットC-Fashionを導入し,既存のMIT-Statesデータセットを改良することで,より信頼性の高い評価を実現した。

    Link: https://arxiv.org/abs/2602.23114

  • 運動を考慮したイベント抑制 [cs.CV, cs.RO]目的:運動によるイベントの抑制
    • イベントカメラは高速・低消費電力であり,次世代の視覚センサとして期待されている。
    • イベントカメラは,動体や自己運動に起因する不要なイベントを多く生成する。
    • 不要なイベントをリアルタイムに抑制し,効率的な処理を実現することを目指す。
    • 本研究では,不要なイベントを抑制するフレームワークを提案し,動体と自己運動を同時に考慮する。
    • 提案手法は,EVIMOベンチマークにおいて,セグメンテーション精度で既存手法を67%上回り,推論速度も53%向上した。
    • また,Vision Transformerの推論を83%高速化し,イベントベースのVisual Odometryの精度も13%向上した。

    Link: https://arxiv.org/abs/2602.23204

  • 離散最適輸送と声質変換 [math.OC, cs.SY, eess.SY, eess.AS, cs.LG, cs.SD]目的:声質変換におけるベクトルベースインターフェースの最適化
    • 多様な話者間の音声特徴を変換する技術であり,対話システムや音声合成への応用が期待される。
    • 話者間の音声特徴の対応付けが難しく,自然な音声を生成することが困難である。
    • 離散最適輸送を用いることで,より高品質で効果的な声質変換を実現すること。
    • 提案手法は,高品質かつ効果的な声質変換を可能にすることが評価実験で示された。
    • 埋め込みベクトルの数に関する消去研究を行い,kNNとOTの単純平均の結果を拡張した。
    • 離散OTを音声生成のポスト処理に適用すると,合成音声が実音声と誤認されるという,新たな強力な敵対的攻撃を明らかにした。

    Link: https://arxiv.org/abs/2505.04382

  • FermatSyn:SAM2強化双方向Mambaと等方性フェルマー螺旋スキャンによるマルチモーダル医用画像合成 [eess.IV, cs.CV]目的:マルチモーダル医用画像合成手法
    • 臨床データの不足を補い,診断・治療の精度向上に貢献するため,医用画像合成技術は不可欠である。
    • 既存手法では,全体的な解剖学的整合性と高精細な局所的詳細の調和が難しく,実用上の課題となっていた。
    • 全体と局所表現の融合と,方向バイアスを低減する手法を導入し,医用画像合成の質を向上させることを目指す。
    • FermatSynは,SynthRAD2023,BraTS2019等のデータセットにおいて,PSNR,SSIM,FID,3D構造的一貫性において最先端手法を上回る性能を示した。
    • 合成画像を用いた下流タスクのセグメンテーション精度は,実画像を用いた訓練の結果と有意差がない($p{>}0.05$)ことが確認され,臨床的有用性が示唆された。
    • SAM2ベースのPrior Encoderやフェルマー螺旋スキャン戦略など,新たな技術要素が合成画像の品質向上に貢献している。

    Link: https://arxiv.org/abs/2505.07687

  • 長尾分布分類に対する帰納的予測 [stat.ML, cs.CV, cs.LG, stat.ME]目的:長尾分布分類問題における予測集合の性能向上
    • 現実の分類問題では,クラス分布が長尾であることが多く,その対応が重要である。
    • 既存の帰納的予測法は,クラス条件付きカバレッジと予測集合のサイズのトレードオフに課題がある。
    • クラス条件付きカバレッジと予測集合のサイズを両立させる手法を提案し,問題を解決する。
    • 提案手法では,マクロカバレッジを最適化する新しい帰納的スコア関数である prevalence-adjusted softmax を導入した。
    • 周辺カバレッジとクラス条件付きカバレッジの間を線形補間する新しい手続きを提案し,両者のトレードオフを制御する。
    • Pl@ntNet-300KとiNaturalist-2018のデータセットを用いて,提案手法の有効性を検証した。

    Link: https://arxiv.org/abs/2507.06867

  • Transformer 기반의 자기 지도 학습事前学習による動物行動解析と神経符号化 [q-bio.NC, cs.CV]目的:動物行動解析と神経符号化のためのフレームワーク
    • 脳機能理解には行動との関連性が不可欠であり,神経科学研究の基盤となる。
    • 行動解析にはラベル付きデータが必要だが,その取得は時間とコストがかかる。
    • ラベルなし動画データ活用で,効率的な行動解析を実現する。
    • BEASTは,Transformerを用いた自己教師あり事前学習により,多様な神経行動解析を可能にする。
    • 複数の種における実験で,神経活動との相関,姿勢推定,行動セグメンテーションの性能が向上した。
    • ラベル付きデータが少ない状況下での行動解析を加速する強力な基盤モデルを確立した。

    Link: https://arxiv.org/abs/2507.09513

  • より少なく,より良く:AMBER-AFNO - 軽量3D医療画像セグメンテーションの新たなベンチマーク [eess.IV, cs.AI, cs.CV, cs.LG]目的:軽量な3D医療画像セグメンテーション手法の開発
    • 医療画像解析は,疾患の診断や治療計画において不可欠であり,高精度なセグメンテーションが求められる。
    • 従来の3D画像セグメンテーションは,計算コストが高く,メモリ消費量が大きいという課題があった。
    • 本研究では,計算効率の良い新しいアーキテクチャを提案し,その有効性を検証する。
    • 提案手法AMBER-AFNOは,ADCD,Synapse,BraTSの3つの公開データセットにおいて,最先端またはそれに匹敵する性能をDSCおよびHD95で達成した。
    • 周波数領域でのトークン混合により,自己注意メカニズムと比較して計算コストとメモリ使用量を大幅に削減できることを示した。
    • AMBER-AFNOは,コンパクトなモデルサイズでありながら,既存のCNNやTransformerアーキテクチャと比較して高いDiceスコアを達成した。

    Link: https://arxiv.org/abs/2508.01941

  • 深層学習を用いた電場からの花形再構築:BeeNet [q-bio.QM, cs.CV]目的:花形の電場からの再構築
    • 昆虫の送粉行動において,花が発する電場が重要な役割を果たす可能性があり,その詳細なメカニズム解明が求められている。
    • 花の電場情報がどの程度有用で,どのような形状情報を伝えているのかは,これまで不明であった。
    • 電場情報から花形を再構築するアルゴリズムを開発し,電場を通じた形状認識の可能性を探る。
    • 深層学習モデル(U-Net)を用いて,多様な花形を高精度に再構築できることを示した。
    • 昆虫と花の距離が最適である場合,形状情報のエンコード効率が最大になることがわかった。
    • 本研究は,電場受容が昆虫の空間認識に豊かな詳細を提供する可能性を示唆し,逆静電イメージング問題を解決するための深層学習フレームワークを提示する。

    Link: https://arxiv.org/abs/2508.11724

  • 音声条件付き拡散LLMを用いたASRと熟考処理 [eess.AS, cs.AI, cs.SD]目的:自動音声認識(ASR)における拡散LLMの有効性評価
    • 音声認識は,人間と機械間の自然なコミュニケーションを可能にする基盤技術である。
    • 従来の音声認識モデルは,計算コストが高い,または低リソース環境での性能が低いという課題がある。
    • 拡散LLMを用いることで,これらの課題を克服し,より効率的で高精度な音声認識を実現することを目指す。
    • 拡散LLMであるLLaDAをWhisper-LLaMAのトランスクリプトに対する熟考処理モジュールとして利用した結果,WERが大幅に低減された。
    • LibriSpeechのテストデータにおいて,最良のシステムはテストクリーンで2.25%,テストその他で4.94%のWERを達成し,Whisper-LLaMAのベースラインと比較して12.3%の相対的な改善を示した。
    • 音声特徴を条件付けたLLaDAは認識精度を向上させた一方,音声特徴を用いないLLaDAでは改善は見られなかった。

    Link: https://arxiv.org/abs/2509.16622

  • 断片化なしの結束の不可能性 [physics.soc-ph, cs.GT]目的:関係維持の構造的理論
    • 社会関係の維持は,社会秩序の安定と発展に不可欠である。
    • 既存の研究では,関係維持メカニズムの構造的な理解が不足している。
    • 関係維持における結束と断片化の共存を構造的に解明することを目指す。
    • 関係維持は,位置制約の充足問題として定式化され,結束と断片化が同一の整合性関数によって必然的に生じることが示された。
    • 関係維持には論理積が必要である一方,崩壊には論理和のみで十分であるという,構造的な拒否権の非対称性が証明された。
    • 位置的多様性下では関係崩壊を回避することが構造的に不可能であり,普遍的な結束のためには強制的な均質化が必要となることが示された。

    Link: https://arxiv.org/abs/2601.15317

  • 高ダイナミックレンジモジュロイメージングにおけるスケール不変正則化と特徴量リフティング [eess.IV, cs.CV]目的:高ダイナミックレンジ画像復元
    • 近年,高ダイナミックレンジイメージングの需要が高まっており,より鮮明な画像表現が求められている。
    • モジュロイメージングは飽和を伴うが,自然なエッジと人工的なラップ不連続性の区別が困難である。
    • ラップアーティファクトと真の構造を区別し,高精度な画像復元を可能にすること。
    • 提案手法では,露出変化に対する一貫性を強制するスケール不変正則化を導入した。
    • また,モジュロ画像,ラップ有限差分,およびクローズドフォーム初期化を組み合わせた特徴量リフティング設計を採用した。
    • これらの要素により,知覚的および線形HDR品質指標において最先端の性能を達成した。

    Link: https://arxiv.org/abs/2601.23037

  • Resp-Agent:多imodal呼吸音生成と疾患診断のためのエージェントベースシステム [eess.AS, cs.AI, cs.DB, cs.HC, cs.MA, cs.SD]目的:多imodal呼吸音の生成と疾患診断システムの開発
    • 呼吸音解析は,非侵襲的で簡便な検査手法であり,呼吸器疾患の早期発見に貢献しうる。
    • 既存手法では,信号変換による情報損失や,データ不足,特にクラス不均衡が課題となっていた。
    • 本研究では,情報損失の軽減とデータ不足への対処を目指し,新たなシステムを提案する。
    • Resp-Agentは,診断の弱点を特定し,ターゲットを絞った合成を繰り返すことで,診断精度を向上させる。
    • 臨床テキストと音声情報を効果的に統合するDiagnoserにより,詳細な臨床的背景と瞬間的な音響イベントを捉える。
    • LLMを活用したGeneratorは,テキスト情報から病理学的特徴と音響スタイルを分離し,診断困難な症例のサンプルを合成する。

    Link: https://arxiv.org/abs/2602.15909