arXiv雑要約

画像・音声 - 2026/02/03 公開

  • 潜在行動モデルにおける注意誘導:妨害要素存在下での手法 [cs.LG, cs.CV]目的:潜在行動モデルにおける,行動に関連する表現の抽出と改善
    • 強化学習において,ラベルなし動画からの学習はデータ量を飛躍的に増加させ,効率的な学習を可能とする。
    • 潜在行動モデルは,背景などの行動と相関するノイズの影響を受けやすく,最適な潜在空間を構築できない場合がある。
    • 背景ノイズの影響を軽減し,よりロバストな潜在行動空間を構築することを目指す。
    • MaskLAMは,事前学習済みのセグメンテーションモデルを用いて,再構成損失に重みを付与することで,背景要素よりも重要な情報を優先する。
    • MuJoCoの連続制御タスクにおいて,MaskLAMは標準的な手法と比較して,最大4倍の報酬を獲得した。
    • 線形プローブ評価により,MaskLAMは潜在行動の質を3倍に向上させることが示された。

    Link: https://arxiv.org/abs/2602.02259

  • WildSpoofチャレンジ用DFKI-Speechシステム:In-the-WildにおけるロバストなSASVフレームワーク [cs.SD, cs.AI, cs.LG]目的:In-the-Wild環境におけるSASV(スピーカ認証における偽造検知)フレームワーク
    • 音声認証技術は,セキュリティシステムや個人認証など,幅広い分野で利用されており,その重要性は高い。
    • 実際の環境下では,ノイズや様々な偽造音声による攻撃が存在し,認証精度が低下する課題がある。
    • 本研究では,ノイズや偽造音声にロバストなスピーカ認証システムを構築し,その精度向上を目指す。
    • 偽造音声検知器として,自己教師あり学習による音声埋め込み抽出と最先端のグラフニューラルネットワークを組み合わせた。
    • スピーカ認証には,2Dと1D特徴量を多スケールで融合する低複雑度なCNNを採用し,SphereFace損失とコントラスト円損失を用いた。
    • AS Normスコア正規化やモデルアンサンブルにより,スピーカ認証システムの識別能力をさらに向上させた。

    Link: https://arxiv.org/abs/2602.02286

  • スパースクエリに基づく多階層整合的知識蒸留による屋内占有予測の向上 [cs.CL, cs.CV]目的:効率的かつロバストな屋内占有予測の実現
    • ロボティクスにおいて,屋内環境の幾何学的・意味的理解は重要であり,占有予測はその基礎となる。
    • 既存手法では,計算効率と予測精度とのトレードオフが存在し,特に複雑なシーンでのロバスト性に課題がある。
    • スパースクエリに基づく枠組みに多階層蒸留を導入し,効率性とロバスト性を両立することで,この課題を解決する。
    • 提案手法DiSceneは,深度情報を用いずに23.2 FPSを達成し,ベースライン手法OPUSを36.1%上回る性能を示す。
    • 深度情報を統合したDiScene{\dag}は,既存の最先端手法EmbodiedOccを3.7%上回り,推論速度も1.62倍向上した。
    • Occ3D-nuScenesベンチマークや実環境での実験からも,本手法の多様な環境への適応性が確認された。

    Link: https://arxiv.org/abs/2602.02318

  • VQスタイル:残差量子化表現によるモーションのスタイルとコンテンツの分離 [cs.CV, cs.AI, cs.LG]目的:モーションデータのスタイルとコンテンツの分離
    • 人間のモーションは多様であり,コンテンツとスタイルの理解が重要である。
    • モーションデータのスタイルとコンテンツを効果的に分離することは困難である。
    • 未知のスタイルへのモーションスタイル転送を可能にすること。
    • 残差ベクトル量子化変分オートエンコーダ(RVQ-VAE)を用いて,モーションの粗い表現から細かい表現への階層的表現学習を実現した。
    • コントラスト学習と新しい情報漏洩損失を統合することで,コンテンツとスタイルを異なるコードブックに整理し,分離を強化した。
    • 量子化コードスワップというシンプルな手法により,未知のスタイルに対してもファインチューニングなしにモーションのスタイル転送を可能にした。

    Link: https://arxiv.org/abs/2602.02334

  • LongVPO:アンカー化された手がかりから自己推論へ,長尺動画の嗜好最適化 [cs.DC, cs.CV]目的:長尺動画の嗜好最適化
    • 動画理解は,コンテンツ推薦や検索など,様々な応用において重要な役割を果たす。
    • 既存手法では,長尺動画の理解に大量の注釈データが必要であり,コストが高い。
    • 少ないデータで長尺動画の嗜好を効率的に最適化することを目指す。
    • LongVPOは,短文脈のビジョン言語モデルを用いて,長尺動画を理解する新しい枠組みを提案する。
    • 16Kの合成データのみで,既存のオープンソースモデルを凌駕する性能を複数のベンチマークで達成した。
    • 短尺動画の性能も維持しており,効率的な長尺動画理解のパラダイムを提供する。

    Link: https://arxiv.org/abs/2602.02341

  • なぜステアリングが機能するのか:言語モデルパラメータダイナミクスの統一的見解に向けて [cs.CL, cs.AI, cs.CV, cs.IR, cs.LG]目的:大規模言語モデルの制御手法に関する研究
    • 言語モデルの制御は,その能力を最大限に引き出す上で不可欠であり,応用範囲の拡大に繋がる。
    • 既存の制御手法は個別に研究されており,それらの関連性や比較が困難であるという課題がある。
    • 様々な制御手法を統一的な枠組みで捉え,制御効果のメカニズムを解明することを目指す。
    • 様々な制御手法は,制御信号によって誘起される動的な重み更新として捉えることができる。
    • 制御効果は,目的概念への傾向である「選好度」と,一貫性のある生成である「有用性」に分けられ,トレードオフの関係が観察された。
    • 新しいステアリング手法SPLITは,選好度を向上させつつ,有用性の低下を抑制することに成功した。

    Link: https://arxiv.org/abs/2602.02343

  • テクスチャの暗黙的ニューラル表現 [cs.CV, cs.AI, cs.GR, cs.LG]目的:テクスチャの暗黙的ニューラル表現
    • 近年の機械学習の発展は,画像処理分野に革新をもたらしている。
    • 従来のテクスチャ表現は,離散的な情報に基づき,高解像度化に課題があった。
    • 連続的な表現を用いることで,テクスチャの品質向上と効率的な処理を目指す。
    • 提案手法は,画像品質の面で良好な性能を示すことが実験的に確認された。
    • メモリ使用量とレンダリング速度のバランスについても分析が行われた。
    • リアルタイムレンダリングやmipmapfittingといった応用例についても検討された。

    Link: https://arxiv.org/abs/2602.02354

  • NAB:疎視点CT再構成のためのニューラル適応ビニング [cs.CV, cs.LG]目的:疎視点CT再構成の精度向上
    • 工業製品の内部構造検査においてCTは不可欠であり,品質管理に大きく貢献する。
    • 疎視点からのCT再構成は,コスト削減に繋がるが,再構成品質の低下が課題である。
    • 工業製品の多くが矩形構造を持つ点に着目し,形状事前知識を再構成に組み込むことで精度向上を目指す。
    • 提案手法NABは,座標空間をビニングベクトル空間に変換する革新的なビニングメカニズムを用いる。
    • NABは,ビニング関数の滑らかさを調整することで,複雑な形状を持つ物体への汎化性能も示す。
    • 工業製品データセットにおいて,既存手法を上回る優れた性能が確認された。

    Link: https://arxiv.org/abs/2602.02356

  • スペクトル正規化ニューラルガウス過程を用いた生体医用画像における不確実性認識画像分類 [cs.CV]目的:生体医用画像における不確実性認識画像分類の枠組み
    • 臨床判断には正確な病理学的解釈が不可欠であり,画像診断の精度向上が重要である。
    • 既存の深層学習モデルは,分布外データに対して過信傾向があり,信頼性に課題がある。
    • 安全性が求められる医療現場において,分布外データを正確に識別する不確実性認識が重要である。
    • スペクトル正規化ニューラルガウス過程(SNGP)は,既存手法と同程度の分類性能を示す。
    • SNGPは,不確実性の推定と分布外検出において有意な改善が見られた。
    • SNGPは,安全な展開と病理医との信頼関係構築を支援する有用な枠組みとなりうる。

    Link: https://arxiv.org/abs/2602.02370

  • 視覚生成のための統一的パーソナライズされた報酬モデル [cs.CV]目的:視覚生成における報酬モデリングの性能向上
    • 画像生成技術は急速に進歩しており,高品質な画像生成が求められている。
    • 既存の報酬モデルは,画一的な評価基準や固定されたルーブリックに依存し,主観的な人間 の好みに対応できていない。
    • 文脈適応的な推論による,人間 の好みに合わせた柔軟な評価基準の構築を目指す。
    • 提案手法UnifiedReward-Flexは,プロンプトと生成された画像の内容に基づいて,意味的な意図を解釈し,視覚的な証拠に基づいて評価を行う。
    • 高度なVLMsから構造化された推論トレースを蒸留し,SFTとDPOを組み合わせることで,モデルの推論能力を高めている。
    • 画像および動画の合成フレームワークGRPOに統合し,その有効性を実験的に示し,既存手法を上回る性能を達成した。

    Link: https://arxiv.org/abs/2602.02380

  • 人間と連携したベイズ最適化によるパーソナライズ画像生成 [cs.CV, cs.LG]目的:パーソナライズ画像生成の精度向上
    • 画像生成技術は,多様なニーズに応える上で重要であり,表現の可能性を広げる。
    • 言語による指示だけでは,ユーザーが求める画像に近づける限界がある。
    • 人間の判断を組み込み,言語の限界を超えることで,よりパーソナルな画像生成を目指す。
    • 提案手法MultiBOは,複数候補画像に対するユーザーの選好フィードバックを活用する。
    • フィードバックを基に拡散モデルを誘導することで,より目標画像に近い画像を生成できる。
    • 30人のユーザーによる評価と定量的な比較により,有効性が示された。

    Link: https://arxiv.org/abs/2602.02388

  • 無限世界:姿勢推定を用いない階層型メモリによる1000フレームのインタラクティブ世界モデルの拡張 [cs.RO, cs.CV, cs.AI]目的:複雑な実世界環境における1000フレーム以上の視覚的記憶を維持可能な,堅牢なインタラクティブ世界モデル
    • 現実世界の理解と操作を可能にするAI開発において,長期的な記憶と環境の認識は不可欠である。
    • 既存の世界モデルは,ノイズの多い姿勢推定と視点再訪の稀少性により,実世界の動画に対する効果的な学習方法が課題である。
    • 本研究は,姿勢推定に依存せず,長期間にわたる一貫性のある視覚的記憶を効率的に構築することを目的とする。
    • 提案手法であるInfinite-Worldは,ヒエラルキー型姿勢推定を用いないメモリ圧縮器(HPMC)により,過去の状態を効率的に要約し,長期的な生成を可能にする。
    • 不確実性を考慮した行動ラベリングモジュールは,連続的な動きを離散化することで,ノイズの影響を軽減し,堅牢な行動学習を実現する。
    • コンパクトなデータセットを用いた再訪集中ファインチューニング戦略により,モデルの長距離ループクロージャ能力を効果的に活性化させる。

    Link: https://arxiv.org/abs/2602.02393

  • 超人:人間モーションの知覚と生成のためのスケルトンと視覚の統合 [cs.CV]目的:人間モーションの知覚と生成に関する統一的フレームワーク
    • 人間モーション解析は,コンピュータビジョンの重要な分野であり,様々な応用が期待される。
    • 既存手法は,知覚モデルと生成モデルの分断,時間的モーションの扱いの限界といった課題を抱える。
    • 視覚情報とスケルトン情報を統合し,時間的モーションを効率的に扱う手法を開発すること。
    • 提案手法「Superman」は,視覚とスケルトン情報を連携させ,モーション知覚と生成を統一的に行う。
    • Vision-Guided Motion Tokenizerにより,視覚情報とスケルトン情報のクロスモーダルな学習を実現。
    • Human3.6Mデータセットにおける実験で,提案手法は最先端の性能またはそれに匹敵する性能を示した。

    Link: https://arxiv.org/abs/2602.02401

  • SoMA:ロボットによるソフトボディ操作のためのリアル・トゥ・シムニューラルシミュレータ [cs.RO, cs.AI, cs.CV, physics.app-ph]目的:ロボットによるソフトボディ操作のリアル・トゥ・シムシミュレーション
    • ロボットの物理的な操作は複雑であり,シミュレーションによる効率的な学習が不可欠である。
    • 既存のシミュレータは,物理モデルの定義やデータ依存性が高く,汎化性能が低い。
    • ロボットの行動を考慮した,より正確で安定したシミュレーションを実現すること。
    • SoMAは,3Dガウススプラットを用いてソフトボディの変形,環境力,ロボット動作を統合的に学習する。
    • 学習されたガウススプラットを活用することで,物理モデルなしに安定した長時間の操作と汎化が可能となる。
    • 実世界のロボット操作において,再シミュレーション精度と汎化性能が20%向上し,複雑なタスクのシミュレーションを安定して実現する。

    Link: https://arxiv.org/abs/2602.02402

  • ReasonEdit:人間による推論を用いた視覚言語モデルの編集 [cs.CV, cs.AI]目的:視覚言語モデルの編集性能向上
    • 大規模言語モデルの利用拡大に伴い,その誤り修正の重要性が増している。
    • 既存の編集手法は,推論能力を要するタスクへの対応が不十分である。
    • 人間による推論を編集過程に組み込み,汎化性能を高めることを目指す。
    • ReasonEditは,人間の推論をコードブックに格納し,関連性の高い情報を効率的に検索する。
    • ネットワーク科学に着想を得た新しいマルチモーダル埋め込み方法により,編集性能が向上する。
    • 複数の視覚的質問応答データセットにおいて,最先端の編集性能を達成した。

    Link: https://arxiv.org/abs/2602.02408

  • 触媒:弾性スケーリングによる分布外検出 [cs.CV]目的:分布外データの検出性能向上
    • 深層ニューラルネットワークの安全な運用には,分布外検出が不可欠である。
    • 既存手法は,ロジットや最終層のベクトルに依存しており,事前特徴マップの情報が失われている。
    • 事前特徴マップの統計量を利用し,分布内データと分布外データをより分離可能にする。
    • 提案手法Catalystは,既存のロジットベースおよび距離ベースの手法と容易に統合可能である。
    • Catalystは,CIFAR-10,CIFAR-100,ImageNetにおいて,偽陽性率を大幅に低減した。
    • 事前特徴マップの統計量が,分布外検出において未開拓の可能性を秘めていることが示された。

    Link: https://arxiv.org/abs/2602.02409

  • マスク化オートエンコーダによる汎用的な音声強調 [cs.SD, cs.LG]目的:音声強調の性能向上と,他の音声関連タスクへの応用可能性
    • 実用的な音声処理において,ノイズや残響などの音響劣化は避けることができない。
    • 教師あり学習にはクリーンな音声データが必要だが,現実には入手が困難である。
    • 自己教師あり学習を用いて,クリーンなデータなしで高精度な音声強調を実現すること。
    • 提案手法は,ノイズ除去と残響除去の両タスクにおいて,既存手法を上回る性能を達成した。
    • 事前学習された特徴量は,少量のペアデータを用いたファインチューニングにより,高い性能を発揮する。
    • データ拡張や入力特徴量の圧縮処理が,事前学習された特徴量と下流タスクの性能に影響を与えることが示された。

    Link: https://arxiv.org/abs/2602.02413

  • SelvaMask:熱帯林およびそれ以上の樹木のセグメンテーション [cs.CV]目的:熱帯林における樹木のセグメンテーション技術の開発
    • 地球の樹木多様性の大部分を抱え,地球の生態学的バランスに不可欠である熱帯林の研究。
    • 既存のトランスフォーマーベースモデルでは,特に熱帯林において,個々の樹冠セグメンテーションの性能が低い。
    • SelvaMaskデータセットを用いて,熱帯林における樹冠セグメンテーションの精度向上を目指す。
    • 新たなデータセットSelvaMaskを構築し,パナマ,ブラジル,エクアドルの熱帯林における8,800以上の樹冠をアノテーションした。
    • ドメイン固有の検出プロンプターを用いたパイプラインにより,既存モデルを上回る性能を達成した。
    • 熱帯および温帯の外部データセットにおいても性能を検証し,汎化性の高い森林モニタリングを可能にした。

    Link: https://arxiv.org/abs/2602.02426

  • UniReason 1.0: 世界知識に整合した画像生成・編集のための統一的な推論フレームワーク [cs.CV, cs.AI]目的:世界知識に整合した画像生成と編集の統合
    • マルチモーダルモデルの発展は,画像生成と編集の質の向上に不可欠である。
    • 複雑なタスクにおいて,既存モデルは深層的な推論能力に課題を抱えている。
    • 画像生成と編集を統合し,推論能力を高めることによって,より高品質な画像生成を目指す。
    • UniReasonは,世界知識を活用した計画立案と,自己修正による微調整という二つの推論パラダイムを統合する。
    • 大規模な推論データセットを構築し,計画立案と視覚的な自己修正のための学習を可能にした。
    • WISE,KrisBench,UniREditBenchなどのベンチマークにおいて,高い性能を達成した。

    Link: https://arxiv.org/abs/2602.02437

  • RANKVIDEO: テキストからビデオ検索のための推論による再ランク付け [cs.IR, cs.CV]目的:テキストからビデオ検索における関連性評価
    • 情報検索の精度向上は,大量のデータから必要な情報を効率的に見つける上で重要である。
    • 既存のビデオ検索システムでは,テキストのみのモデルや画像とテキストのモデルが主流で,推論能力を活用した再ランク付けが不十分である。
    • ビデオの内容を理解し,クエリとの関連性を推論することで,より正確な検索結果を提供することを目指す。
    • RANKVIDEOは,大規模なMultiVENT 2.0ベンチマークにおいて,二段階のフレームワークで検索性能を平均31%向上させた。
    • テキストのみのモデルや画像とテキストのモデルと比較して,一貫して高い性能を示し,効率的である。
    • 知覚に基づいた教師ありファインチューニングと,点ごとの損失,ペアワイズ損失,教師の信頼性蒸留を組み合わせた再ランク付け訓練を採用している。

    Link: https://arxiv.org/abs/2602.02444

  • メンティスオクリ: メンタルイメージによる推論の限界の解明 [cs.CL, cs.AI, cs.CV, cs.LG]目的:モデルの推論能力におけるメンタルイメージの有効性の評価
    • 近年,画像情報を処理するモデルから,視覚とテキストを統合的に生成するモデルへの移行が進んでいる。
    • 生成モデルはテキストによる推論能力を持つものの,視覚情報の活用が不十分であるという課題がある。
    • 本研究は,モデルが視覚情報を効果的に利用できない原因を特定し,その改善に資することを目的とする。
    • 最先端モデルに対し,視覚的な解決策を必要とする多段階の推論問題を提示するMentisOculiを開発した。
    • 潜在的なトークンから明示的な生成画像まで,様々な視覚戦略を評価した結果,性能向上は限定的であった。
    • UMMは,タスクを解決するテキスト推論能力と正しい画像を生成できるものの,生成エラーの蓄積により,視覚情報を活用できていないことが判明した。

    Link: https://arxiv.org/abs/2602.02465

  • 文脈層ニューラルネットワークに検出ヘッドを組み込んだ多ヘッド自動セグメンテーション [cs.CV, cs.AI, physics.med-ph]目的:放射線療法における自動セグメンテーションの精度向上
    • 放射線療法では正確な臓器輪郭が重要であり,自動セグメンテーションはその効率化に貢献する。
    • 従来のモデルでは,対象構造が存在しないスライスで解剖学的に不自然な誤検出が生じやすい。
    • 誤検出を抑制し,解剖学的に妥当なセグメンテーションを実現することを目的とする。
    • 検出ヘッドによるゲーティングにより,誤検出が大幅に抑制され,解剖学的な妥当性が向上した。
    • 提案手法は,Dice損失においてベースラインモデルを大幅に上回り,優れた性能を示した。
    • 検出確率と実際の解剖学的存在との間に強い相関が認められ,誤ったセグメンテーションが効果的に排除された。

    Link: https://arxiv.org/abs/2602.02471

  • 繰り越し抽選配分:実用的でインセンティブ整合的なドラフト [cs.GT]目的:競争均衡を促進するドラフトメカニズムの提案
    • NBAドラフトは,弱小チームを支援し,リーグ全体の競争力を維持する上で重要である。
    • 現在のドラフト方式は,意図的な敗北(タンキング)を誘発するインセンティブを生んでいる。
    • タンキングのインセンティブを取り除き,弱小チームを公平に支援するドラフトメカニズムを構築する。
    • 本研究で提案するCOLAドラフトメカニズムは,過去数年間のプレイオフ結果に基づいてチームの質を評価する。
    • COLAでは,ノンプレイオフチームは均等な抽選チケットを受け取り,敗北によるインセンティブが除去される。
    • 特に強力なドラフトクラスの場合,プレイオフ進出チームへの抽選資格拡大により,タンキングの防止策を維持する。

    Link: https://arxiv.org/abs/2602.02487

  • PixelGen:知覚損失を用いたピクセル拡散が潜在拡散を上回る [cs.CV, cs.AI]目的:高次元ピクセル多様体上の最適化における課題解決と,より意味のある知覚多様体の学習
    • 画像生成技術は,コンピュータビジョン分野において重要な役割を果たし,その発展が求められている。
    • 従来のピクセル拡散モデルは,高次元ピクセル多様体の最適化が難しく,潜在拡散モデルに劣るという問題点があった。
    • PixelGenは,知覚的損失を用いて,より効率的にピクセル多様体を学習し,潜在拡散モデルを超える性能を目指す。
    • PixelGenは,VAEを用いないシンプルなピクセル拡散フレームワークであり,知覚的損失によってより意味のある多様体を学習する。
    • ImageNet-256において,分類器フリーガイダンスなしでFIDスコア5.11を達成し,わずか80エポックで強力な潜在拡散モデルを上回った。
    • 大規模テキスト画像生成においてGenEvalスコア0.79を示し,優れたスケーリング性能を実証した。

    Link: https://arxiv.org/abs/2602.02493

  • 実践におけるプライバシー:X線画像におけるプライベートなCOVID-19検出(拡張版) [cs.LG, cs.AI, cs.CR, cs.CV]目的:X線画像におけるプライベートなCOVID-19検出モデルの構築
    • パンデミック対策において,画像解析による迅速なスクリーニングの重要性が高まっている。
    • 既存研究は小規模データセットに依存し,プライバシー保護の保証が不十分である場合がある。
    • 実用的なプライバシー保護を考慮したCOVID-19検出モデルを開発し,有用性とプライバシーのトレードオフを評価する。
    • 差分プライバシー(DP)を適用したモデルを構築し,メンバーシップ推論攻撃(MIA)によるプライバシー漏洩を評価した。
    • タスクに依存したMIAからの脅威に応じて,必要なプライバシーレベルが異なることが示唆された。
    • DPの強化が必ずしも実用的なMIA防御に大きな影響を与えない可能性が示され,攻撃特有のプライバシー評価の重要性が示唆された。

    Link: https://arxiv.org/abs/2211.11434

  • プライバシー保護機械学習における画像データセットの特徴の影響評価 [cs.LG, cs.AI, cs.CR, cs.CV, cs.DB]目的:画像データセットの特徴がプライバシー保護機械学習モデルの有用性と脆弱性に与える影響の特定
    • 機械学習は様々な分野で重要であり,特に画像認識技術は急速に発展している。
    • 機密データで学習された機械学習モデルは,情報漏洩のリスクを抱えている。
    • データセットの特徴に応じたプライバシー保護と有用性のトレードオフの最適化を目指す。
    • 不均衡なデータセットは少数クラスの脆弱性を高めるが,差分プライバシーはこの問題を緩和する。
    • クラス数が少ないデータセットは,モデルの有用性とプライバシーの両方を向上させる。
    • エントロピーが高い,またはFisher識別比率が低いデータセットは,有用性・プライバシーのトレードオフを悪化させる。

    Link: https://arxiv.org/abs/2409.01329

  • クライアントサンプリングによる個別プライバシーを考慮した連合学習 [cs.LG, cs.AI, cs.CR, cs.CV]目的:個別差分プライバシーを連合学習に適用するための手法
    • ユーザーデータの収集に対する懸念から,プライバシー保護と利便性の両立が重要視されている。
    • 従来の匿名化手法は,すべてのユーザーに対して均一な水準を適用するため,柔軟性に欠ける。
    • ユーザーのプライバシー設定に応じた学習を実現し,プライバシーと利便性のトレードオフを改善する。
    • 提案手法は,一様DPベースラインと比較して,プライバシーと利便性のトレードオフを明確に改善した。
    • 関連研究のSCALE法と比較して,より優れた性能を示した。
    • 非i.i.d.データや複雑なタスクにおいては,分散環境の制約から課題が残る。

    Link: https://arxiv.org/abs/2501.17634

  • 頻繁パターンマイニングによる画像圧縮 [eess.IV, cs.AI, cs.CV]目的:画像圧縮手法
    • 画像データは容量が大きく,効率的な圧縮が重要である。
    • 従来の圧縮手法では,計算量や圧縮率に課題が残る場合がある。
    • 頻繁パターンマイニングを用いて,より効率的な圧縮アルゴリズムを開発する。
    • 類似ピクセルをクラスタリングし,クラスタIDを用いて画像圧縮を行うことで,冗長データを削減した。
    • 従来のJPEGのDCT段階を,k-meansクラスタリングと閉頻出シーケンスマイニングの組み合わせで置き換えた。
    • 提案手法はベンチマークデータセットで45%の圧縮率向上を達成し,既存手法を上回る結果を示した。

    Link: https://arxiv.org/abs/2602.00100

  • 深層JSCCに基づくEO画像伝送のための統一的なセマンティック損失モデル [eess.IV, cs.CV]目的:EO画像伝送におけるセマンティック損失の包括的理解
    • 地球観測の重要性が増す中,高解像度画像の効率的な伝送が課題となっている。
    • 衛星通信の帯域幅,電力,動的リンク条件の制約が,データ伝送のボトルネックとなっている。
    • JSCCとセマンティック損失の統合的解析により,効率的な画像伝送を実現することを目指す。
    • 再構成品質に着目した評価と,タスク指向の評価の両面からセマンティック損失を分析した。
    • JSCC圧縮率,チャネルSNRとセマンティック品質の間の関係性を明らかにした。
    • 再構成品質とタスク精度を統合した統一的なセマンティック損失モデルを提案した。

    Link: https://arxiv.org/abs/2602.00136

  • クォークグルーオンジェット分類における画像処理モデルの比較 [physics.data-an, cs.CV, cs.LG, hep-ex]目的:クォークおよびグルーオンジェットの識別
    • 高エネルギー物理学において,ジェット構造の理解は重要な課題である。
    • ジェット構造の分類は,バックグラウンドノイズの影響を受けやすく困難である。
    • ジェット画像から特徴を抽出し,高精度な分類を実現することを目指す。
    • Swin-Tinyモデルの最終2ブロックのファインチューニングが,効率と精度のバランスに優れる。
    • 識別精度は81.4%,AUCは88.9%を達成した。
    • MoCoによる自己教師あり学習により,特徴のロバスト性が向上し,学習パラメータ数を削減できる。

    Link: https://arxiv.org/abs/2602.00141

  • 限定角度CT再構成のための可視特異点誘導相関ネットワーク [eess.IV, cs.AI, cs.CV]目的:限定角度CT再構成の精度向上
    • 被ばく線量低減と検査時間短縮が期待できるため,医療現場での応用が重要である。
    • 限定角度CTでは,投影角度の欠損によるアーチファクトや構造情報の方向性損失が課題となる。
    • 可視特異点の理論に基づき,アーチファクトの方向性を考慮した再構成を目指す。
    • 提案手法(VSGC)は,可視特異点エッジ特徴を抽出し,モデルの注意を集中させる。
    • VSGCは,エッジ特徴と他の領域との相関関係を確立することで,再構成精度を向上させる。
    • シミュレーションおよび実データによる評価で有効性が確認され,PSNRが2.45dB,SSIMが1.5%向上した。

    Link: https://arxiv.org/abs/2602.00184

  • SurfelSoup: 確率的サーフェルトゥリー表現を用いた点群幾何圧縮 [eess.IV, cs.CV]目的:点群幾何圧縮のためのサーフェルベースのフレームワーク
    • 3Dコンテンツの利用拡大に伴い,効率的な点群データの圧縮技術が重要視されている。
    • 既存のボクセルベース圧縮は,滑らかな領域で冗長な情報を含み,圧縮効率が低いという課題がある。
    • 滑らかかつ一貫性のある表面構造を維持しつつ,より効率的な点群データの圧縮を実現すること。
    • 本研究では,確率的サーフェル(pSurfel)とpSurfelTree構造を導入し,点群幾何形状を効率的に圧縮するSurfelSoupを提案した。
    • 実験結果から,MPEG共通テスト条件下において,提案手法はボクセルベース手法やMPEG標準G-PCC-GesTM-TriSoupと比較して,幾何圧縮性能で優位性を示した。
    • さらに,提案手法は,滑らかで一貫性のある表面構造を持つ,視覚的に優れた再構成結果を提供することが確認された。

    Link: https://arxiv.org/abs/2602.00186

  • プレノプティック画像システムにおけるパラメータ推定の下限計算のためのレンダラ対応フレームワーク [eess.IV, cs.CV, eess.SP]目的:プレノプティック画像システムにおけるシーンパラメータ推定の情報理論的限界の評価
    • プレノプティック画像は,光場情報を捉え,多様な視点からの画像再構成を可能にするため,応用範囲が広い。
    • 間接的な観察では,パラメータに関する直接的な視線情報が得られないため,推定精度が制限される。
    • 複雑な光線追跡モデルを用いて,パラメータ推定誤差の下限を効率的に計算することを目指す。
    • 提案フレームワークは,ハマーズリー・チャップマン・ロビンス限界を用いてパラメータ推定誤差の下限を評価する。
    • レンダリングの精度が下限計算に与える影響を理論的およびシミュレーションにより分析した。
    • 実験結果から,計算された下限は,代表的なシナリオにおいて真の限界を反映していることが示された。

    Link: https://arxiv.org/abs/2602.00215

  • 3D医療再構築のための高度な幾何学的補正アルゴリズム:CTと巨視的イメージングの比較 [eess.IV, cs.CV]目的:3D腎臓解剖構造の再構築のためのハイブリッド二段階登録フレームワーク
    • 医療画像処理は,診断精度向上や治療計画の最適化に不可欠である。
    • 巨視的イメージングでは,データ不足と高い歪みが課題となり,学習ベースの登録が困難である。
    • 本研究は,データが少なく歪みの大きい巨視的イメージングにおける登録精度向上を目指す。
    • 提案手法は,CT由来のモデルを幾何学的基準として用いることで,安定した腎臓解剖構造の再構築を可能にした。
    • OCMアルゴリズムによる制約付き大域的アライメントと,軽量な深層学習による局所的変形予測を組み合わせたハイブリッド設計が有効である。
    • 40個の腎臓データセットを用いた実験により,単一段階のベースラインと比較して良好な結果が得られた。

    Link: https://arxiv.org/abs/2602.00220

  • MRI再構築のためのVanilla GAN,DCGAN,WGANアーキテクチャのベンチマーク:定量的分析 [eess.IV, cs.CV]目的:MRI再構築におけるGANモデルの性能評価
    • MRIは,体内の構造を可視化するための重要な画像診断技術である。
    • GANを用いたMRI再構築において,十分な画像品質と診断精度を達成することが課題である。
    • 様々なGANアーキテクチャを比較し,最適なMRI再構築手法を特定する。
    • DCGANとWGANは,Vanilla GANと比較して,高いStructural Similarity Index(SSIM)およびPeak Signal-to-Noise Ratio(PSNR)を示した。
    • DCGANとWGANは,良好な画像品質と高い精度により,MRI画像再構築において有望な手法である。
    • 本研究は,異なる臓器におけるGANのベースラインベンチマークを提供し,今後のハイブリッドGANや臨床応用を促進する。

    Link: https://arxiv.org/abs/2602.00221

  • 二重クォータニオンを用いたSE(3)同期:保証付き復元 [math.OC, cs.CV, cs.RO, eess.SP]目的:絶対姿勢の復元
    • ロボティクスや3Dビジョンにおいて,絶対姿勢の推定は基本的な技術である。
    • 既存手法は,有効な姿勢を復元するために,解析が難しく保証もない経験則に頼ることが多い。
    • 本研究は,理論的な保証を持ちつつ,より正確かつ効率的な姿勢推定を目指す。
    • 二重クォータニオン表現を用いることで,SE(3)同期を直接単位二重クォータニオン上で行うことが可能となった。
    • スペクトル初期化と二重クォータニオン一般化べき乗法(DQGPM)の二段階アルゴリズムを開発し,反復ごとの投影によって実現可能性を保証した。
    • スペクトル推定器とDQGPMのエラー限界を確立し,線形誤差収縮が確認された。シミュレーションと実データで既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2602.00324

  • 児童の漢字書き取りにおける漢字失憶症を評価するための30項目テスト [q-bio.QM, cs.CV]目的:児童の漢字失憶症の評価
    • 学習・コミュニケーションにおいて,筆記能力は重要なスキルである。
    • デジタル化により筆記能力が低下しており,特に非アルファベット文字系で顕著である。
    • 児童の漢字失憶症を評価するための標準化された診断ツールを開発する。
    • 大規模な書き取りデータセットを用いて,漢字失憶症と正しい書き取りの反応を分析した結果,2パラメータIRTモデルが有効であることが示された。
    • 項目選択方法の比較の結果,上位・下位識別スコア法による30項目テストが,個人の特性を捉え,未知のテスト受検者にも一般化することが確認された。
    • 本テストは,児童の漢字失憶症を効率的に評価し,発達性失書症などの早期発見に貢献する信頼性の高いツールとなる。

    Link: https://arxiv.org/abs/2602.00464

  • AVS標準開発のためのエンドツーエンド動画符号化技術の最近の進展 [eess.IV, cs.CV, cs.MM]目的:エンドツーエンド動画符号化技術の開発動向
    • 動画圧縮技術の効率化は,多様なデバイスでの利用を促進し,通信コスト削減に貢献する重要な課題である。
    • 従来の動画符号化方式では,圧縮効率の限界が近づいており,新たなアプローチが求められている。
    • 本研究は,実用的な複雑度制約下で,より高い圧縮効率を実現するインテリジェント動画符号化技術の開発を目指す。
    • AVS-EEMプロジェクトは,実用的な低計算複雑度を重視し,従来の動画符号化方式との互換性を維持している。
    • モデルアーキテクチャ,学習戦略,推論最適化などの技術革新により,AVS-EEMは急速な性能向上を遂げている。
    • 最新モデルの実験結果は,従来のAVS3参照ソフトウェアと比較して,優れた圧縮効率を示す。

    Link: https://arxiv.org/abs/2602.00483

  • 0.275kbpsにおける高忠実度生成オーディオ圧縮 [eess.AS, cs.SD]目的:超低ビットレートにおける高忠実度汎用オーディオ圧縮技術
    • 低帯域幅通信や生成AIなど,多様な応用において重要性が増している。
    • 極めて低いビットレートでは,従来の圧縮方式は劣化が激しく,音質や意味が損なわれる。
    • 信号忠実度からタスク指向の効果へとパラダイムシフトし,情報伝送のボトルネックを解消する。
    • 提案手法GACは,0.275kbpsという前例のないビットレートで32kHzの汎用オーディオを高忠実に再構成する。
    • 0.175kbpsでも良好な通話品質を維持し,既存のニューラルコーデックを大幅に上回る圧縮率を実現した。
    • GACは,送信側での意味理解と受信側でのスケーラブルな生成合成を統合することで,情報の負担を軽減する。

    Link: https://arxiv.org/abs/2602.00648

  • FinEvo:孤立したバックテストから多エージェント金融戦略進化のための生態学的市場ゲームへ [physics.soc-ph, cs.AI, cs.GT, cs.MA]目的:多エージェント金融戦略の進化ダイナミクスに関する研究
    • 金融市場は複雑であり,戦略間の相互作用が価格形成に影響するため,生態学的視点が重要である。
    • 従来のバックテストは市場環境の変化や戦略間の相互作用を考慮せず,戦略の持続性や消滅を説明できない。
    • 多エージェント金融戦略の進化を,生態学的ゲーム形式で分析するためのフレームワークを提供する。
    • FinEvoは,再現性の確保と,文脈依存の結果の開示において,安定性と表現力を両立している。
    • 戦略は,競合相手に応じて優位になる,崩壊する,または提携を形成するなど,静的なバックテストでは見えないパターンを示す。
    • FinEvoは,金融市場におけるロバスト性,適応,創発的ダイナミクスを分析するための統一されたプロトコルを提供する。

    Link: https://arxiv.org/abs/2602.00948

  • 重要箇所への適応:低リソース言語向け効率的な多言語音声認識のための深層適応 [eess.AS, cs.CL, cs.SD]目的:低リソース言語における効率的な多言語音声認識のための深層適応手法
    • 多言語音声認識はグローバルコミュニケーションを促進する上で不可欠であり,その重要性は高まっている。
    • 低リソース言語への適応は,データ不足と計算資源の制約により困難であるという課題がある。
    • 層ごとに適応容量を調整することで,効率性と精度を両立した適応手法を確立することを目指す。
    • DAMAは,最新の低リソース言語音声認識の精度と同等またはそれ以上の性能を,80%少ない学習パラメータで実現した。
    • 極端なデータ不足下では,エラー率を29%削減し,メモリ,学習時間,計算効率を大幅に向上させた。
    • この結果は,構造を意識した適応が効率的でスケーラブルな多言語音声認識に有効であることを示唆する。

    Link: https://arxiv.org/abs/2602.01008

  • 効率性,対称性,戦略的合理性によるRSD特性の領域 [econ.TH, cs.GT]目的:RSDメカニズムを特徴づける公理の組み合わせの特定
    • 資源配分問題において,効率性,公平性,インセンティブ整合性は重要な要請である。
    • RSDメカニズムは広く利用されているが,公理的特徴付けは未完成であった。
    • RSDメカニズムを特徴づける公理の組み合わせを,規模($n, m$)ごとに特定すること。
    • RSDメカニズムが効率性,平等性,戦略的合理性によって一意に特徴づけられる($n, m$)の組が特定された。
    • 一意に特徴づけられない場合,追加の公理で代替メカニズムを除外できるか検討された。
    • ($n, m$)の組によって,RSDメカニズムを特徴づける公理の組み合わせが異なることが示された。

    Link: https://arxiv.org/abs/2602.01224

  • 拡散逆サンプリングによる音声と背景雑音の分離:SSNAPS [eess.AS, cs.LG, cs.SD]目的:実世界の環境雑音下における単一マイクロホン音声分離・強調
    • 日常生活における音声通話や録音の品質向上は重要であり,雑音環境下での分離技術が不可欠である。
    • 従来の音声分離技術は,教師あり学習に依存する場合が多く,多様な雑音環境への適応が課題であった。
    • 本研究では,教師なし学習によるロバストな音声分離・雑音分離を目指し,汎用的な手法を提案する。
    • 提案手法SSNAPSは,拡散モデルを用いた逆サンプリングにより,音声と背景雑音を分離する。
    • 実験の結果,SSNAPSは完全に教師なしでありながら,主要な教師あり学習ベースラインを上回る性能を示した。
    • 分離された雑音成分は高品質であり,音響シーン検出などの下流タスクへの応用も可能である。

    Link: https://arxiv.org/abs/2602.01394

  • 基礎的超音波モデルのためのテクスチャに基づくフレームワーク [eess.IV, cs.CV]目的:超音波画像固有のテクスチャ分析による,自己教師あり学習の再構築
    • 超音波は広く用いられる画像診断法である。その画像特性は独特であり,自然画像とは異なる。
    • 自然画像向けに設計されたアルゴリズムは,超音波画像の解析に課題を抱える場合がある。
    • 超音波物理に基づいたドメイン知識を学習フレームワークに統合し,汎化性能を高める。
    • 提案手法TUSAは,既存の基盤モデルと比較して,より良い汎化性能を示すことが確認された。
    • COVID-19,脊髄血腫,硝子体出血の検出精度はそれぞれ70%,100%,97%と高い。
    • 肝脂肪症,駆出率,酸素飽和度といった定量パラメータとの相関も良好な結果を示した。

    Link: https://arxiv.org/abs/2602.01444

  • 回旋溝パターンにおけるコミュニティレベルモデリング:堅牢かつ解剖学的情報に基づいた個別化脳マッピング [q-bio.NC, cs.AI, cs.CV]目的:回旋溝パターンのコミュニティレベルモデリング
    • 脳の形態は個人差が大きいが,解剖学的ランドマークは安定しており,皮質組織の精密な特徴づけに重要である。
    • 既存手法は各回旋溝を独立にモデル化するため,高次構造の捉え方が弱く,位置変動に敏感である。
    • コミュニティレベルでのモデリングにより,解剖学的に妥当な,より堅牢な個別化脳マッピングを実現すること。
    • 提案手法は,表面トポロジーと構造的結合に基づいた二重プロファイル表現を用いて,一貫性のある回旋溝コミュニティを特定する。
    • 1000件を超えるHuman Connectome Projectのデータを用いた評価で,提案手法は既存手法と比較して,形態学的変動の低減,モジュール組織の強化,半球の一貫性向上,優れたアライメントを示した。
    • これらの結果は,コミュニティレベルモデリングが,個別化皮質特徴付けと信頼性の高い交差対象対応のための堅牢かつ解剖学的に根ざしたフレームワークを提供する。

    Link: https://arxiv.org/abs/2602.01482

  • MarkCleaner:知覚できない微小幾何学的摂動による高忠実度ウォーターマーク除去 [eess.IV, cs.AI, cs.CR, cs.CV]目的:ウォーターマーク除去の有効性と視覚的忠実度
    • 画像に埋め込まれたウォーターマークは,著作権保護や改ざん検出に重要である。
    • 従来のウォーターマーク除去手法は,画像の品質を損なうか,ウォーターマークを完全に除去できない。
    • 微小幾何学的摂動によるウォーターマーク除去という新しいアプローチで,高品質な画像復元を目指す。
    • MarkCleanerは,微小幾何学的摂動を考慮した学習により,セマンティックな内容を維持しつつウォーターマークを除去する。
    • このフレームワークは,空間表現を学習するマスクガイデッドエンコーダと,幾何学的摂動を明示的にパラメータ化する2D Gaussian Splattingデコーダを採用している。
    • 実験結果から,MarkCleanerはウォーターマーク除去の有効性と視覚的忠実度において優れた性能を発揮し,リアルタイム推論が可能であることが示された。

    Link: https://arxiv.org/abs/2602.01513

  • ラメ曲線LEDを用いた可視光位置推定:カメラ姿勢推定のための汎用的なアプローチ [eess.SP, cs.CV]目的:カメラ姿勢推定のための可視光位置推定手法
    • 室内での高精度かつ低コストな位置推定技術として,可視光位置推定が重要視されている。
    • 既存手法は特定のLED形状に依存するため,多様な形状のLEDが混在する環境下での性能が課題であった。
    • ラメ曲線という統一的な表現を用いることで,様々なLED形状に対応可能な汎用的な位置推定を実現する。
    • 提案手法LC-VLPは,シミュレーションにおいて,円形および長方形LEDシナリオで最先端手法を上回り,位置誤差を40%以上,回転誤差を25%以上削減した。
    • 実験の結果,LC-VLPは平均4cm以下の位置精度を達成できることが示された。
    • ラメ曲線パラメータを可視光通信で伝送し,オフラインで構築されたLEDデータベースと組み合わせることで,高精度なカメラ姿勢推定を実現した。

    Link: https://arxiv.org/abs/2602.01577

  • スペクトルバンドと融合スケールに依存しないハイパースペクトル画像融合 [eess.SP, cs.SY, eess.SY, eess.IV, cs.CV, cs.MM]目的:マルチスペクトル画像とハイパースペクトル画像の融合
    • リモートセンシング技術の発展に伴い,多様なセンサーからの画像利用が不可欠となっている。
    • 既存の深層学習モデルは特定のセンサーに特化し,汎用性に乏しいという課題がある。
    • 異なるセンサーや解像度への対応を可能にし,画像融合モデルの汎化性能を高める。
    • 提案手法SSAは,Matryoshka KernelとImplicit Neural Representationを組み合わせることで,任意のスペクトルバンド数と空間解像度に対応する。
    • 実験の結果,SSAは未知のセンサーとスケールに対しても高い性能を維持し,最先端の結果を達成した。
    • 本研究は,将来的なハイパースペクトル画像の基礎モデル構築への道を開く。

    Link: https://arxiv.org/abs/2602.01681

  • 3フレームRGBスキャンエンコーディングを用いたリアルタイム2D LiDAR物体検出 [eess.SP, cs.CV, cs.LG, cs.RO]目的:屋内サービスロボット向けリアルタイム2D LiDAR物体検出パイプライン
    • 屋内ロボットの自律的な動作には,周囲環境の正確な認識が不可欠である。
    • 従来のRGBカメラによる認識はプライバシー侵害のリスクがあり,計算コストも高い。
    • LiDARのみを用いて,軽量かつ高精度な物体検出を実現することで,これらの課題を解決する。
    • 提案手法は,3フレームのLiDARスキャンをRGBチャネルとしてエンコードすることで,コンパクトな入力画像を生成する。
    • Webots上での評価により,4つの物体クラスで98.4%のmAP@0.5(0.778 mAP@0.5:0.95)を達成した。
    • Raspberry Pi 5上でリアルタイム動作し,平均エンドツーエンドレイテンシは47.8msであった。

    Link: https://arxiv.org/abs/2602.02167

  • 因数分解テンソルネットワークを用いたパラメータ効率的なマルチタスク・マルチドメイン学習 [cs.LG, cs.CV]目的:マルチタスクおよびマルチドメイン学習におけるパラメータ効率の向上
    • 多様なタスクやドメインへの適応は,AIの汎用性を高める上で重要である。
    • 既存手法では,複数のタスクを扱う際にパラメータ数が増加し,計算コストやメモリ消費が課題となる。
    • 少ない追加パラメータで高い精度を維持し,効率的な学習を実現することを目指す。
    • 提案手法である因数分解テンソルネットワーク(FTN)は,タスク固有の低ランクテンソル因子を共有ネットワークに組み込む。
    • FTNは,単一タスクモデルと同等の精度を,既存手法よりも少ないパラメータ数で達成できることを実験で示した。
    • この手法は,畳み込みニューラルネットワークおよびTransformerアーキテクチャの両方で有効であることが確認された。

    Link: https://arxiv.org/abs/2310.06124