arXiv雑要約

画像・音声 - 2026/02/05 公開

  • EAG3R:動的・極端照明環境におけるイベント拡張3Dジオメトリ推定 [cs.CV, cs.AI]目的:動的・極端照明環境における3Dジオメトリ推定手法
    • 自動運転,SLAM,3Dシーン再構成などに応用される3Dジオメトリ推定技術は,重要性が増している。
    • 従来のRGBカメラでは,動的物体や極端な照明条件下で正確な推定が困難であるという課題があった。
    • 本研究では,イベントストリームを活用し,動的・低照度環境下でもロバストなジオメトリ推定を実現することを目指す。
    • 提案手法EAG3Rは,RGBとイベントデータを組み合わせることで,従来のRGBのみの手法を大幅に上回る性能を示す。
    • 特に,単眼深度推定,カメラポーズトラッキング,動的シーン再構成タスクにおいて優れた結果が得られた。
    • EAG3Rは,夜間データでの再学習を必要とせず,過酷な環境下でも堅牢なジオメトリ推定を可能にする。

    Link: https://arxiv.org/abs/2512.00771

  • 深層学習と衛星画像を用いた紛争関連火災のほぼリアルタイム検出 [cs.CV, cs.AI]目的:紛争関連火災被害の迅速なモニタリング
    • 紛争地域における被害状況把握は,人道支援や復興計画の策定において不可欠である。
    • 従来の被害状況把握は時間とコストがかかり,迅速な対応が困難であった。
    • 深層学習と衛星画像により,高頻度かつリアルタイムな火災検知を可能にすることを目指す。
    • 本研究では,軽量なVAEモデルとPlanet Labsの4バンド衛星画像を組み合わせることで,紛争関連火災をほぼリアルタイムに検出する手法を開発した。
    • 提案手法は,既存のコサイン距離を用いた手法と比較して,高い再現率とF1スコアを達成し,特に火災検出の偏りが大きい状況下で優れた性能を示した。
    • 8バンド画像や時間系列画像を用いた実験では,4バンド画像を用いた手法と比較して,性能向上は限定的であり,提案手法の効率性とスケーラビリティが示された。

    Link: https://arxiv.org/abs/2512.07925

  • StainNet:免疫組織化学および特殊染色における自己教師あり学習基盤モデルの拡張 [cs.CV]目的:免疫組織化学および特殊染色画像のための自己教師あり学習基盤モデル
    • 病理診断の効率化と精度向上に貢献する計算病理学は,医療分野において重要性が増している。
    • 既存の基盤モデルは主にヘマトキシリン・エオジン染色画像で学習されており,免疫組織化学や特殊染色画像への応用が限定的である。
    • 免疫組織化学および特殊染色画像に対応した基盤モデルを開発し,臨床応用における汎用性を高める。
    • StainNetは,ViTアーキテクチャに基づき,140万枚以上の免疫組織化学および特殊染色画像パッチで自己蒸留による学習を行った。
    • 社内および公開データセットを用いた分類実験により,StainNetの高い性能が実証された。
    • 少量データでの学習や画像検索においても優れた性能を示し,既存の基盤モデルと比較して優位性が見られた。

    Link: https://arxiv.org/abs/2512.10326

  • 嫉妬比率のための学習増強型施設配置メカニズム [cs.GT]目的:嫉妬比率を目的とする施設配置メカニズムの設計
    • 公平性の観点から,施設配置問題において,効用最大化だけでなく,公平性の指標が重要視されている。
    • 既存のメカニズムは近似比に限界があり,より良い性能が求められている。
    • 機械学習による予測を活用し,より良い近似比と頑健性を実現するメカニズムを開発する。
    • 決定的な設定において,α-Bounding Interval Mechanism (α-BIM)を提案し,α-consistencyと(α/(α-1))-robustnessを達成した。
    • Ding et al. [10]が提起した未解決問題に対し,予測を用いないランダム化メカニズムを考案し,近似比を約1.8944に改善した。
    • 予測を取り入れたBias-Aware Mechanism (BAM)を構築し,一貫性と頑健性の保証を向上させた。

    Link: https://arxiv.org/abs/2512.11193

  • RePackとRefine:Vision Foundationモデルを用いた効率的な拡散Transformer [cs.CV]目的:Vision Foundationモデルの特徴量を拡散Transformerに活用し,学習効率を向上させる手法
    • 画像生成モデルの性能向上には,より豊かな意味情報を持つ特徴量の活用が不可欠である。
    • Vision Foundationモデルの特徴量は高次元で冗長性が高く,学習が困難になりやすい。
    • 高次元な特徴量を圧縮し,効率的に学習を進めることで,より高品質な画像生成を目指す。
    • RePackモジュールにより,Vision Foundationモデルの特徴量を低次元の潜在空間に投影することで,冗長性を削減した。
    • ImageNet-1Kでの実験により,RePack-DiT-XL/1は64エポックでFID 1.82を達成した。
    • Latent-Guided Refinerを追加することでFIDは1.65に向上し,既存のLatent Diffusion Modelsを上回る収束効率を示した。

    Link: https://arxiv.org/abs/2512.12083

  • 重み空間相関分析:深層学習モデルにおける特徴利用量の定量化 [cs.CV, cs.LG, eess.IV]目的:深層学習モデルにおける特徴利用量の定量化
    • 医療画像における深層学習は進歩するが,モデルの判断根拠の透明性が課題。
    • モデルが臨床的に無関係な情報に依存し,ショートカット学習を起こしやすい。
    • モデルが臨床的に重要な特徴を選択的に利用しているか検証する手法が求められる。
    • 提案手法である重み空間相関分析は,ショートカット学習を人工的に誘導した場合に検出できることが示された。
    • sPTB予測モデルの分析により,重みベクトルは臨床的に関連する要因と相関し,無関係な取得要因からは分離されていることが確認された。
    • 本手法はモデルの信頼性を検証するツールとなり,バイアスのない臨床モデルが適切な特徴を利用することを示す。

    Link: https://arxiv.org/abs/2512.13144

  • 情報理論的圧縮による適応型離散動画トークナイザー:InfoTok [cs.RO, cs.CV, cs.AI]目的:長動画シーケンス処理のための正確かつ効率的な離散動画トークナイゼーション
    • 動画データは情報量が膨大であり,効率的な処理が求められている。
    • 既存のトークナイザーは固定レートで圧縮するため,冗長性や情報損失が生じやすい。
    • 動画の情報密度に応じてトークン数を最適化し,より効率的な表現を目指す。
    • 提案手法InfoTokは,情報理論に基づき,動画の情報を効率的に圧縮する適応型トークナイゼーションを実現した。
    • 既存手法よりも20%トークン数を削減しつつ,性能に影響を与えない,あるいは,2.3倍の圧縮率を達成した。
    • 情報量の多さに応じてトークンを割り当てることで,動画表現の圧縮と精度向上を両立した。

    Link: https://arxiv.org/abs/2512.16975

  • オープンソースのマルチモーダルMoxinモデル:Moxin-VLMとMoxin-VLA [cs.CL, cs.CV, cs.LG]目的:大規模言語モデルの透明性と活用範囲の拡大
    • 近年のAI分野において,大規模言語モデルは急速に発展しており,その重要性は増している。
    • 商用モデルの台頭により,研究の透明性や再現性が課題となっている。
    • 完全な透明性を備えたオープンソースモデルを開発し,研究コミュニティに貢献すること。
    • Moxin 7Bは,モデルの重みだけでなく,学習データや実装詳細も公開するModel Openness Frameworkに基づいて開発された。
    • Moxinをベースに,視覚-言語,視覚-言語-行動,中国語能力に特化したMoxin-VLM,Moxin-VLA,Moxin-Chineseを開発した。
    • 各種評価において,これらのモデルが優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2512.22208

  • 同一か否か? ビジョン言語モデルにおける視覚知覚の強化 [cs.CL, cs.CV]目的:ビジョン言語モデルの視覚知覚能力向上
    • 画像とテキストを理解するモデルは,様々な応用で重要性が増しており,その性能向上が求められている。
    • 既存のモデルは,詳細な視覚情報の認識に乏しく,バイアスを持ちやすいという課題がある。
    • 微妙な視覚的特徴に注意を払うようモデルを訓練し,詳細な認識能力を向上させる。
    • TWINと呼ばれる大規模な画像ペアデータセットを構築し,モデルに同じオブジェクトかどうかを判断させることで,視覚知覚能力の向上を目指した。
    • TWINでファインチューニングしたモデルは,アート,動物,植物などの未学習領域においても,詳細な認識性能が向上した。
    • 新たなベンチマークFGVQAを用いて評価した結果,TWINでファインチューニングすることで最大19.3%の性能改善が確認された。

    Link: https://arxiv.org/abs/2512.23592

  • 視覚数学問題解決のための知識内面化による知覚と推論の架橋:CogFlow [cs.CL, cs.CL, cs.CV, cs.AI]目的:視覚数学問題解決における知覚と推論の統合機構
    • マルチモーダル大規模言語モデルの応用拡大に伴い,視覚情報と論理的推論の融合が重要となる。
    • 既存研究では,視覚情報の抽出・解釈の改善に焦点が当たり,抽出された情報が推論に適切に活用されているか検証されていなかった。
    • 視覚情報の忠実な統合と適切な活用を促し,人間らしい推論フローを模倣したフレームワークを構築することで,問題を解決する。
    • 提案手法CogFlowは,知覚,内面化,推論の3段階からなる認知に着想を得たフレームワークである。
    • Synergistic Visual Rewardsを用いて,記号と図形からの視覚情報抽出能力を向上させた。
    • Knowledge Internalization RewardモデルとVisual-Gated Policy Optimizationアルゴリズムにより,視覚情報と推論の整合性を高めた。

    Link: https://arxiv.org/abs/2601.01874

  • 大規模オーディオ言語モデルにおける空間理解の実現 [cs.HC, cs.RO, cs.NI, cs.DC, cs.SD, cs.AI]目的:大規模オーディオ言語モデルにおける空間理解
    • 音響シーン分析は,音声認識やロボティクスなど,多様な分野で重要性を増している。
    • 既存モデルは空間情報を無視しており,現実世界の音響シーンを正確に理解できていない。
    • 大規模言語モデルに空間理解能力を付与し,音響シーン分析の精度向上を目指す。
    • 本研究では,高品質な空間オーディオデータ合成パイプラインを構築し,大規模言語モデルへの空間情報の統合を可能にした。
    • 提案手法は,原子的な知覚,関係的統合,認知的な推論能力を評価する包括的なベンチマークで優れた性能を示した。
    • これにより,「モノ」的な意味認識から空間知能へと,大規模オーディオ言語モデルの音響シーン分析能力が飛躍的に向上することが期待される。

    Link: https://arxiv.org/abs/2601.02954

  • ICASSP 2026 HumDialチャレンジ:LLM時代における人間らしい対話システムのベンチマーク [cs.CC, cs.SD, cs.CL, cs.HC, eess.AS]目的:人間らしい対話システムの二つの能力のベンチマーク
    • 近年のLLM発展により,対話システムは人間との自然なコミュニケーションに近づいている。
    • 感情理解とリアルタイムの対話制御が,人間らしいコミュニケーション実現の課題である。
    • 感情知能と全二重対話能力を評価するベンチマークの構築。
    • HumDialチャレンジは,感情知能と全二重対話という二つのトラックで構成されている。
    • 感情知能トラックは,長期的な感情理解と共感的な応答生成を目的とする。
    • 全二重対話トラックは,「聞きながら話す」条件下でのリアルタイム意思決定を評価する。

    Link: https://arxiv.org/abs/2601.05564

  • 限られたデータを用いた6DoF姿勢推定のための3D線分検出 [cs.HC, cs.CV]目的:6DoFオブジェクト姿勢推定
    • 産業自動化をはじめ,3Dビジョンの応用範囲は広く,基盤技術として重要である。
    • 従来の深層学習は大量のデータやCADモデルを必要とし,データ不足の産業現場での利用が課題である。
    • 産業用ビンに特化し,3D線分検出と幾何学的処理により,データ不足下での姿勢推定を可能とする。
    • 提案手法では,点群データ上で2D線分検出ネットワークLeTRを拡張し,3D線分を検出する。
    • 検出された3D線分から,簡潔な幾何学的処理を用いて,ビンの6DoF姿勢をロバストに推定する。
    • 実スキャンデータにおける精度向上に,合成データでの学習が有効であり,既存手法を上回る精度を達成した。

    Link: https://arxiv.org/abs/2601.12090

  • VidTune:生成音楽と文脈的サムネイルによる動画サウンドトラック作成 [cs.HC, cs.MM, cs.SD, eess.AS]目的:動画のムードとナラティブに合うサウンドトラックの作成支援
    • 動画表現において音楽は重要な役割を果たすが,適切な楽曲選定は困難である。
    • テキストからの音楽生成モデルの利用において,多様なプロンプト作成や楽曲比較が課題となる。
    • 動画の文脈に基づいた楽曲の迅速なレビューと選択を可能にすること。
    • VidTuneは,動画から代表的な被写体を抽出し,文脈に基づいたサムネイルを生成する。
    • 楽曲の感情価とエネルギーを視覚的な手がかり(色や明るさ)にマッピングし,ジャンルや楽器を表現する。
    • ユーザー調査の結果,VidTuneは楽曲の効率的なレビューと選択に役立ち,創造的で豊かな体験を提供することが示された。

    Link: https://arxiv.org/abs/2601.12180

  • Think3D:空間的推論のための空間との思考 [cs.CV]目的:空間的推論の性能向上
    • 物理世界を理解するには空間知能が不可欠であり,AIの高度化に貢献する。
    • 既存のビジョン大規模モデルは2D認識に偏っており,真の3D推論が困難である。
    • 3D空間の操作を通じて,AIの空間的推論能力を向上させることを目指す。
    • Think3Dは,3D再構成モデルを活用し,カメラ操作や視点切り替えを可能にする。
    • 追加学習なしに,GPT-4.1やGemini 2.5 Proの空間的推論性能を平均+7.8%向上させた。
    • 強化学習を用いることで,より小さなモデルの性能向上幅が+0.7%から+6.8%に拡大した。

    Link: https://arxiv.org/abs/2601.13029

  • ConceptCaps:音楽モデルの解釈可能性のための蒸留された概念データセット [cs.SD, cs.AI, cs.LG]目的:音楽モデルにおける解釈可能性のための概念データセット
    • 音楽理解の高度化には,音楽の構成要素を明確に把握する必要がある。
    • 既存の音楽データセットは,タグ付けが不十分,ノイズが多い,定義が曖昧である。
    • 明確な概念に基づいた音楽データの提供により,モデルの解釈性を高める。
    • ConceptCapsは,200属性の分類に基づいた21,000件の音楽・キャプション・タグの組で構成される。
    • セマンティックモデリングとテキスト生成を分離することで,一貫性と制御可能性を向上させている。
    • オーディオ・テキストの整合性,言語的品質,TCAV分析により,データセットの有効性が確認された。

    Link: https://arxiv.org/abs/2601.14157

  • マルチモーダル大規模言語モデルにおける強化学習によるドメイン知識の学習 [cs.RO, cs.CL, cs.SI, cs.CL, cs.CV]目的:マルチモーダル大規模言語モデルへのドメイン知識の組み込み
    • 近年のマルチモーダル大規模言語モデルの発展は目覚ましいが,専門領域への応用には限界がある。
    • テキストによるドメイン知識の注入は効果が薄く,モデルが知識を内部化できていない点が課題である。
    • 最適化レベルでドメイン知識を組み込むことで,モデルの性能向上を目指す。
    • 強化学習フレームワークにより,ドメイン知識を制約と報酬信号として組み込んだ。
    • リモートセンシングおよび医療分野のデータセットで,性能向上が確認された。
    • 最適化レベルでの知識統合の重要性と,テキストによる知識注入の限界が示された。

    Link: https://arxiv.org/abs/2601.16419

  • GEDIバイオマス推定値の補間と較正された不確実性定量化 [cs.LG, cs.CE, cs.CV]目的:GEDIミッションからのバイオマス密度推定の補間
    • 地球規模でのバイオマス変動把握は,気候変動対策や生態系保全において不可欠である。
    • 既存手法では,不確実性の定量化が不十分であり,予測区間の較正が困難である。
    • 複雑な地形や植生に対応可能な,空間的な文脈を考慮した高精度な推定手法を開発する。
    • Attentive Neural Processes (ANPs)は,局所的な観測データと地理空間基礎モデル埋め込みを活用し,柔軟な空間共分散関数を学習する。
    • ANPsは,熱帯雨林から寒帯,温帯,高山生態系まで,5つの異なるバイオームで高い精度と理想的な不確実性較正を達成した。
    • 少ない現地データを用いた少数の学習例による適応により,地域間転移学習における性能ギャップを縮小できることが示された。

    Link: https://arxiv.org/abs/2601.16834

  • 微細な音声・視覚的証拠の統合による,堅牢な多Modal感情推論 [eess.SY, cs.SY, cs.HC, cs.MM, cs.CL, cs.CV]目的:多Modal感情推論の堅牢性向上
    • 感情理解は,人間関係やコミュニケーションにおいて重要な役割を果たすため,その精度向上が求められている。
    • 既存の多Modal大規模言語モデルは,データ不足やModal融合の不十分さにより,微細な感情表現の認識が困難である。
    • 音声と視覚情報をより深く理解し,曖昧な状況下でも正確な感情推論を可能にすることを目指す。
    • 本研究では,60万件の動画クリップから構成される大規模な感情推論データセットSABERを構築した。
    • 構造化された証拠分解パラダイムを提案し,証拠抽出と推論を分離することで,特定のModalへの偏りを軽減した。
    • 一貫性に基づいた直接的な優先順位最適化により,曖昧または矛盾する条件下でのModal間の整合性を高めた。

    Link: https://arxiv.org/abs/2601.18321

  • MMSF:WSI分類と生存分析のためのマルチタスク・マルチモーダル教師ありフレームワーク [cs.RO, cs.CV]目的:WSI分類と生存分析のためのマルチタスク・マルチモーダルな教師ありフレームワーク
    • 病理診断の精度向上には,画像情報と臨床情報の統合が不可欠である。
    • 異なるデータ形式・スケールを持つ情報を効率的に統合する手法が課題である。
    • マルチモーダルな情報を統合し,病理診断と予後予測の精度向上を目指す。
    • MMSFは,線形複雑度のMILバックボーンに基づき,クロスモーダル情報を明示的に分解・融合する。
    • CAMELYON16およびTCGA-NSCLCにおいて,既存手法と比較して精度とAUCがそれぞれ2.1-6.6%,2.2-6.9%向上した。
    • TCGA生存コホート5つにおける評価では,C-indexが単一モーダル法と比較して7.1-9.8%向上し,マルチモーダル法よりも5.6-7.1%向上した。

    Link: https://arxiv.org/abs/2601.20347

  • CLEAR-Mamba:正確で適応性があり信頼性の高い多系列眼血管造影画像分類に向けて [cs.CL, cs.CV, cs.AI]目的:眼血管造影画像の分類手法
    • 医学画像診断は,疾患の早期発見,治療計画,患者予後評価において重要な役割を担う。
    • 既存手法は,単一モダリティ,微細な病変パターン,デバイス間変動により,汎化性能と信頼性が課題。
    • CLEAR-Mambaは,多様な眼血管造影画像に対し,汎化性と信頼性を高めることを目指す。
    • CLEAR-Mambaは,MedMambaを基盤とし,アーキテクチャと学習戦略を最適化することで,既存モデルを上回る性能を達成。
    • 特に,多疾患分類と信頼性に基づいた予測において顕著な優位性を示した。
    • 本研究は,モダリティ特有の医学画像分類において,汎化性と信頼性を両立する有効な解決策を提供する。

    Link: https://arxiv.org/abs/2601.20601

  • 一貫性から相補性へ:時系列理解と推論のための整列化・非絡み合いマルチモーダル学習 [cs.LG, cs.AI, cs.CL, cs.CV]目的:時系列データの理解と推論のためのマルチモーダル学習手法
    • 時系列データは様々な分野で重要な役割を果たしており,その分析・理解は不可欠である。
    • 異なるモダリティ間の微細な時間ずれや意味の絡み合いが,精度の高い理解と推論を妨げている。
    • モダリティ間の整列化と非絡み合いを実現し,局所的な解釈と相補的な推論を可能にすることを目的とする。
    • 提案手法MADIは,パッチレベルの整列化,離散的な非絡み合い相互作用,および重要なトークンの強調により,時系列データの理解度を向上させる。
    • 実験結果から,MADIは汎用LLMや時系列特化型MLLMと比較して,一貫して優れた性能を示すことが明らかになった。
    • MADIは,数値データと視覚データの間の微細なずれを解消し,より正確な推論を可能にする。

    Link: https://arxiv.org/abs/2601.21436

  • 拡散モデル画像へのウォーターマーク評価:ビジョン言語モデルによる検討 [cs.CV]目的:拡散モデル生成画像のウォーターマーク評価に関する統一的かつ解釈可能なフレームワーク
    • 生成AIの普及に伴い,生成されたコンテンツの著作権保護が重要になっている。
    • 既存の評価手法は,残差と意味的ウォーターマークの統一的評価や,セキュリティ評価が不十分である。
    • ビジョン言語モデルを用いて,ウォーターマークの品質とセキュリティを包括的に評価する。
    • 提案手法WMVLMは,残差ウォーターマークのアーティファクト強度と消去耐性,意味的ウォーターマークの潜在分布シフトに基づいて評価する。
    • WMVLMは,分類,スコアリング,解釈可能なテキスト生成を段階的に学習する3段階の学習戦略を採用している。
    • 実験により,WMVLMは最先端のビジョン言語モデルを凌駕し,データセット,拡散モデル,ウォーターマーク手法に対する高い汎化性能を示す。

    Link: https://arxiv.org/abs/2601.21610

  • OCRVerse:エンドツーエンドのビジョン言語モデルにおける包括的なOCR [cs.ET, cs.CV]目的:テキスト中心型OCRとビジョン中心型OCRを統合する包括的なOCR手法の開発
    • 大規模ビジョン言語モデルの発展に伴い,多種多様なマルチモーダルデータを扱う必要性が高まっている。
    • 既存のOCR技術はテキスト認識に偏っており,図表やウェブページなどビジョン情報が豊富な画像からの情報抽出が課題である。
    • テキストとビジョン両面から情報を抽出できる,汎用的なOCR手法を確立することを目指す。
    • OCRVerseは,テキスト中心型とビジョン中心型の両方のOCRタスクで優れた性能を発揮し,大規模なオープンソースおよびクローズドソースモデルに匹敵する結果を得た。
    • データエンジニアリングにより,新聞,雑誌,書籍などのテキスト中心型ドキュメントと,図表,ウェブページ,科学プロットなどのビジョン中心型複合レンダリングを網羅したデータセットを構築した。
    • SFT-RLを用いた二段階のマルチドメイン学習により,ドメイン間の知識融合を促進し,データ競合を回避することで,各ドメインの特徴に適応した報酬戦略を学習した。

    Link: https://arxiv.org/abs/2601.21639

  • 自己注意機構における重要度推定を用いた過去・未来情報を活用したKVキャッシュポリシー [cs.CV]目的:自己回帰型動画拡散モデルにおけるKVキャッシュポリシーの改善
    • 動画生成はデジタルメディア制作において不可欠であり,リアルタイム合成の効率向上が求められている。
    • 既存手法はトークンの重要度の違いを無視しており,長編動画生成において情報損失や冗長なキャッシュの蓄積が問題である。
    • 重要なトークンを保持し,不要なものを削除することで,キャッシュ効率を向上させ,動画生成の質と効率を改善すること。
    • 提案手法PaFu-KVは,双方向教師モデルから蒸留された軽量な重要度推定ヘッドを用いて,トークンの重要度を推定する。
    • PaFu-KVはKVキャッシュの容量を削減し,メモリフットプリントを低減することで,品質と効率のトレードオフを改善する。
    • 実験結果から,PaFu-KVは高忠実度な動画生成を維持しつつ,推論を高速化し,より効率的な長編動画生成を可能にすることが示された。

    Link: https://arxiv.org/abs/2601.21896

  • グローバルアラインメントを超えて:ピラミッド型シャプレイ・テイラー学習による詳細なモーション-言語検索 [cs.CV]目的:モーションと言語の間の詳細な対応関係の学習
    • 人間中心のクロスモーダル知能の基盤であり,直感的なモーション分析を可能にする。
    • 既存手法は全体的なモーションとテキストのアラインメントに重点を置いており,詳細な相互作用を見落としている。
    • モーションセグメントとボディー関節,テキストトークン間の詳細な関係性を捉え,検索性能を向上させる。
    • 本研究では,人間のモーション知覚のピラミッド構造に着想を得た新しいPyramidal Shapley-Taylor (PST) 学習フレームワークを提案する。
    • フレームワークはモーションを時間的セグメントと空間的関節に分解し,段階的なアラインメントを通じてクロスモーダルな対応関係を学習する。
    • 複数のベンチマークデータセットにおける実験により,提案手法が最先端手法を大きく上回り,正確なアラインメントを実現することが示された。

    Link: https://arxiv.org/abs/2601.21904

  • 色は重要である:デモザイクによる色相関学習を用いた汎化可能なAI生成画像検出 [cs.CV, cs.CR]目的:AI生成画像の検出
    • デジタルコンテンツの信頼性確保が重要であり,AI生成画像検出技術の精度向上が求められている。
    • 既存のAI生成画像検出器は,未知の生成モデルに対して汎化性能が低いという課題がある。
    • カメラの画像処理パイプラインの特性を利用し,色相関に着目することで汎化性能を向上させる。
    • 提案手法であるDCCTは,色相関の特徴量を学習することで,写真画像とAI生成画像間の分布の違いを捉える。
    • DCCTは,20種類以上の未知の生成モデルに対して,既存手法を大幅に上回る汎化性能と堅牢性を示す。
    • デモザイク処理のシミュレーションにより,色相関学習を効果的に行い,AI生成画像検出の精度を向上させる。

    Link: https://arxiv.org/abs/2601.22778

  • データ汚染下における多重手がかり異常検知と局所化 [cs.CV]目的:現実世界の産業環境における異常検知と局所化
    • 産業における品質管理において,異常の早期発見は生産性の向上とコスト削減に不可欠である。
    • 既存手法は正常データのみで学習するか,汚染されたデータセットを想定しており,現実との乖離がある。
    • 汚染されたデータに対してもロバストな異常検知フレームワークを構築し,信頼性の高い性能を実現する。
    • 提案手法は,統計的な不規則性,予測の一貫性の欠如,空間的な異常性を統合した複合異常スコアを用いる。
    • 少数のラベル付き異常サンプルを活用し,適応的なインスタンス重み付けにより汚染されたサンプルの影響を軽減する。
    • MVTecとVisAベンチマークにおいて,最先端手法を凌駕する検知・局所化性能,解釈可能性,ロバスト性を示す。

    Link: https://arxiv.org/abs/2601.22913

  • 固定フレームの制約を超えて:動的な文字アライメント型音声トークン化 [cs.LG, cs.AI, cs.SD]目的:動的な文字アライメント型音声トークン化の実現
    • 近年の対話型音声技術において,音声の離散トークン列への変換が不可欠である。
    • 既存の音声コーデックは固定フレームレートで動作し,トークン列が不必要に長くなる問題がある。
    • 可変フレームレートでのトークン化により,トークン数の削減と効率的な処理を目指す。
    • DyCASTは,ソフトな文字レベルのアライメントと明示的な持続時間モデリングにより,可変フレームレートでのトークン化を実現した。
    • 低フレームレートでの音声再合成品質向上のため,検索拡張デコーディング機構を導入し,ビットレート増加なしに再構築精度を高めた。
    • DyCASTは,固定フレームレートコーデックと同等の再合成品質とダウンストリーム性能を,より少ないトークン数で達成した。

    Link: https://arxiv.org/abs/2601.23174

  • 3D CTAスキャンにおける動的4D-CTAデータを用いたロバストな脳血管セグメンテーション [cs.CV]目的:脳血管の自動セグメンテーション手法
    • 脳血管病変の早期発見・治療には,高精度な血管画像の解析が不可欠である。
    • CTA画像からの脳血管セグメンテーションは,骨や軟部組織の影響を受けやすく,正確性に課題がある。
    • 動的4D-CTAデータを利用し,骨や軟部組織の影響を軽減することで,セグメンテーション精度を向上させる。
    • 動的4D-CTAデータを用いることで,血管の可視化を改善し,手動アノテーションの労力を削減することが可能となった。
    • 本研究で構築したデータセットを用いて訓練したnnUNetモデルは,既存のデータセットで訓練したモデルと比較して,全ての血管領域で有意に高いセグメンテーション精度を示した。
    • 平均mDCは動脈で0.846,静脈で0.957であり,adHDやtSensなどの指標も高い精度を示唆している。

    Link: https://arxiv.org/abs/2602.00391

  • 多様体上の不変性:場所認識のためのロバストな視覚表現の理解 [cs.CV]目的:場所認識のためのロバストな視覚表現
    • 場所認識は,ロボット工学や拡張現実など,多くの分野で重要な役割を担う技術である。
    • 既存の視覚表現は,環境や視点の変化に弱く,ロバスト性に課題が残る。
    • 本研究は,訓練データを必要とせず,幾何学的な安定性を利用した新しい視覚表現を提案する。
    • 本手法では,シーンをSPD多様体上の共分散記述子として捉え,摂動を扱いやすい合同変換として表現する。
    • 幾何学を考慮したリーマン写像を用いることで,信号構造とノイズを分離し,効果的に表現を学習する。
    • 実験の結果,提案手法は最先端の手法と比較して高い性能を示し,特にゼロショットシナリオで優れた結果が得られた。

    Link: https://arxiv.org/abs/2602.00841

  • BioTamperNet:親和性誘導状態空間モデルによる改ざんされたバイオメディカル画像の検出 [cs.CV]目的:改ざんされたバイオメディカル画像における重複領域の検出
    • バイオメディカル画像は実験の信頼性に直結するため,その完全性の保証が重要である。
    • 自然画像で学習した既存のフォレンジックモデルは,バイオメディカル画像では性能が低下する。
    • 本研究は,バイオメディカル画像の微妙な改ざんを正確に検出することを目指す。
    • BioTamperNetは,親和性誘導アテンションを用いた新しいフレームワークを提案する。
    • 画像内の類似性と画像間の対応関係を捉え,効率的な局所化を実現する。
    • ベンチマークデータセットでの実験により,競合モデルを上回る性能が示された。

    Link: https://arxiv.org/abs/2602.01435

  • 歪み制御球面双射のための二チャート・ベルトラミ最適化:脳表面登録への応用 [cs.GR, cs.CV, cs.LG, math.AG]目的:歪み制御された球面双射の最適化
    • 表面マッピングは,ランドマーク整列や画像駆動登録など,様々な分野で不可欠である。
    • 既存手法では,生成されるマッピングの幾何学的歪みを効率的に制御する仕組みが欠けている。
    • 球面上の歪みを明示的に制御し, bijective 性を保証する最適化手法を確立すること。
    • 本研究では,球面上の準共形自己写像を表す二チャート球面ベルトラミ微分(SBD)を導入した。
    • SBDとクロスチャート一貫性条件を用いることで, globally bijective な球面変形を実現する BOOST フレームワークを開発した。
    • ランドマーク照合や強度ベースの球面登録実験で,高いタスク性能と制御された歪み,堅牢な bijective 性が確認された。

    Link: https://arxiv.org/abs/2602.01589

  • なぜ操舵が機能するのか:言語モデルのパラメータダイナミクスに関する統一的視点 [cs.CL, cs.AI, cs.CV, cs.IR, cs.LG]目的:大規模言語モデルの制御手法に関する統一的分析
    • 言語モデルの制御は,その応用範囲拡大に不可欠であり,人間とのより自然な対話実現に繋がる。
    • 既存の制御手法はそれぞれ独立して研究されており,相互の関係性や比較が困難であった。
    • 本研究は,既存手法を統合的に捉え,制御性能の向上を目指す。
    • 様々な制御手法は,制御信号によって誘起される動的な重み更新と捉えることができる。
    • 制御の強さと,対象概念への指向性(preference)と,一貫性のある生成(utility)の間にはトレードオフが存在する。
    • 新たな操舵手法SPLITは,preferenceを向上させつつ,utilityの低下を抑制する。

    Link: https://arxiv.org/abs/2602.02343

  • 人間介入型ベイズ最適化によるパーソナライズ画像生成 [cs.CV, cs.LG]目的:パーソナライズ画像生成のための手法
    • 生成AIの発展により,多様な画像生成が可能になったが,ユーザーの意図を正確に反映することが課題である。
    • 言語によるプロンプトだけでは,ユーザーが求める理想の画像に近づける限界がある。
    • 人間が判断する画像間の近さを活用し,よりユーザーの好みに合致した画像生成を目指す。
    • 本研究では,MultiBOという手法を提案し,複数候補画像からの選択によるフィードバックをベイズ最適化に組み込んだ。
    • ユーザーからのフィードバックを繰り返すことで,生成モデルが理想の画像に近づくことを実験的に示した。
    • 30人のユーザーによる評価と定量的な指標から,提案手法がパーソナライズ画像生成において有効であることが示唆された。

    Link: https://arxiv.org/abs/2602.02388

  • UniReason 1.0:世界知識に整合した画像生成・編集のための統一的な推論フレームワーク [cs.CV, cs.AI]目的:画像生成と編集を統合した推論能力
    • 画像生成AIの発展は,創造性の拡張や新たな表現方法の創出に貢献する重要な分野である。
    • 既存のマルチモーダルモデルは複雑な推論を苦手とし,生成と編集を分離して扱っている。
    • 世界知識を活用し,生成と編集を統合することで,より高度な推論能力を実現することを目指す。
    • UniReasonは,生成時に世界知識に基づいたテキスト推論を取り入れ,潜在的な知識を推測する。
    • 編集機能を活用して,視覚的なエラーを自己修正し,細部を洗練させることで,より自然な画像を生成する。
    • WISE,KrisBench,UniREditBenchなどの評価において,UniReasonは高度な性能を示し,汎用的な合成能力も維持している。

    Link: https://arxiv.org/abs/2602.02437

  • 災害情報伝達におけるグラフィックスの役割:実務家の視点から見た利用,課題,包容性 [cs.CL, cs.GR]目的:災害情報伝達におけるグラフィックスの利用状況,課題,および包容性に関する実務家の視点
    • 災害発生時,迅速かつ正確な情報伝達は人命保護に不可欠であり,グラフィックスはその重要な手段となる。
    • 既存の災害情報グラフィックスは,視覚障碍者や高齢者,多様な文化的背景を持つ人々への配慮が不十分な場合がある。
    • 災害時にすべての人が情報を理解し,適切な行動をとれるよう,グラフィックスの包容性を向上させる。
    • 災害情報伝達において,グラフィックスは広く活用されており,その重要性が認識されている。
    • しかし,視覚障碍者,高齢者,文化的・言語的多様性を持つ人々に対して,グラフィックスの理解度に格差が存在することが明らかになった。
    • 緊急時における資源の制約や指針の不足が,包容的なグラフィックス作成の課題となっている。

    Link: https://arxiv.org/abs/2602.02947

  • 訓練なしでの最適な動画瞬間発見:ガウス境界最適化による弱教師あり動画グラウンディング [cs.CV]目的:弱教師あり動画グラウンディングにおけるクエリに関連するセグメントの特定
    • 動画とテキストの理解は,動画検索やコンテンツ理解において重要である。
    • 既存手法では,ガウスパラメータからセグメント境界へのマッピングが最適化されていなかった。
    • 提案手法は,境界の探索とセグメントのコンパクト性を両立させる最適化問題を解く。
    • 提案手法であるガウス境界最適化(GBO)は,訓練なしでセグメント境界を予測する効率的なフレームワークである。
    • GBOは,提案の網羅性とセグメントのコンパクト性のバランスをとることで,局所化性能を向上させている。
    • 標準ベンチマークにおいて,GBOは最先端の結果を達成し,様々な提案スキームへの汎用性も示された。

    Link: https://arxiv.org/abs/2602.03071

  • 現実世界の環境における空間汎用オーディオ表現GRAM [cs.SD]目的:現実世界の音響環境に対応した空間オーディオ表現の学習
    • 音響環境の理解は,様々な応用分野において重要である。例えば,自動運転やロボット工学など。
    • 既存のオーディオ基盤モデルは,残響やノイズを含む現実世界の環境下では性能が制限される。
    • 空間情報を考慮した,よりロバストな音響モデルを開発し,音源定位などのタスクを可能にすること。
    • GRAMは,NatHEARおよびHEARのベンチマークタスクにおいて,最先端の自己教師あり学習オーディオ基盤モデルを凌駕する性能を示した。
    • シミュレーション環境における音源定位性能も最先端であり,現実世界の録音に対しても効率的に一般化することが確認された。
    • GRAMは,現実世界の環境に対応したロバストな空間オーディオ基盤モデルへの重要な一歩となる。

    Link: https://arxiv.org/abs/2602.03307

  • 複数オブジェクト再配分におけるトップ・トレーディング・サイクルに関する公理 [math.OC, cs.SY, eess.SY, econ.TH, cs.GT]目的:複数オブジェクトの再配分における公理的特徴付け
    • 資源配分の公平性や効率性を追求する上で,個々の嗜好を考慮したメカニズム設計が重要である。
    • 既存の配分ルールでは,個々のオブジェクトに対する評価を十分に反映できず,効率的な配分が困難な場合がある。
    • トップ・トレーディング・サイクル(TTC)ルールの公理的特徴付けを通じて,より良い配分ルールの設計を目指す。
    • TTCルールは,レキシコグラフィック領域において,バランス性,個別物品効率性,最悪配分下限,および切り捨て耐性またはドロップ戦略耐性によって特徴付けられる。
    • 応答的領域においては,TTCルールは,個別物品効率性,切り捨て耐性,および最悪配分下限または個別合理性によって一意に特徴付けられる。
    • シャプレイ・スカーフ住宅市場において,TTCルールはパレート効率性,個別合理性,および切り捨て耐性によって特徴付けられる。

    Link: https://arxiv.org/abs/2404.04822

  • 期限付き逐次選択 [math.OC, cs.DS, cs.GT]目的:オプション選択による期待総価値の最大化
    • 意思決定において,不確実性と時間的制約は常に存在する重要な要素である。
    • オプションの評価時間や有効期限が不明確な状況下での最適な選択が困難である。
    • 不確実性下における効率的な近似アルゴリズムの開発が求められている。
    • 線形計画緩和により,最適方策の期待値の上限を算出する手法を提示した。
    • 提案アルゴリズムは,最適線形計画値に対して $(1/2)\cdot (1-1/e)$-近似を達成する。
    • 評価時間が独立同一分布の場合,貪欲方策が最適期待値の $1/2$-近似となることを示した。

    Link: https://arxiv.org/abs/2406.15691

  • 多数の対象物におけるスクリーニングの省略がより効率的である [econ.TH, cs.AI, cs.GT, cs.LG]目的:複数の異質な対象物の配分における効率的なメカニズム設計
    • 資源配分は経済学の根幹であり,効率的な配分メカニズムの構築が重要である
    • スクリーニングは情報非対称性を解消するが,コストがかかり,必ずしも効率的とは限らない
    • 対象物の多様性が増すにつれて,スクリーニングを省略したメカニズムがより効率的になることを示す
    • 対象物の種類が増えるほど,スクリーニングを行わないメカニズムの方が良好な結果を示す傾向にあることが判明した。
    • 漸近的に効率的なメカニズムの特徴付けにより,この傾向の根本的な理由が明らかになった。
    • パンデミックに対するワクチン接種スケジュールに,効率的なシステム「登録・招待・予約」を提案した。

    Link: https://arxiv.org/abs/2408.10077

  • EDNet:ゲーティングMamba機構と位相シフト不変学習を用いた汎用的な音声強調フレームワーク [eess.AS, cs.SD]目的:多様な音声歪みに対する汎用的な音声強調フレームワークの提案
    • 現実環境の音声はノイズや残響の影響を受けやすく,高品質な音声処理が不可欠である。
    • 従来の音声強調手法は特定の歪みに特化しており,多様な環境への適応が課題であった。
    • 様々な歪み条件において高い性能を発揮する,適応性と柔軟性に優れたフレームワークを開発する。
    • 提案手法EDNetは,ゲーティングMamba機構により,マスキングとマッピングを状況に応じて使い分けることで,幅広い歪みに対応可能である。
    • 位相シフト不変学習(PSIT)は,学習中の動的なアライメントを可能にし,位相推定の精度向上に貢献する。
    • ノイズ除去,残響除去,帯域拡張,複数歪み強調タスクにおいて,EDNetは既存手法を上回る性能を実証した。

    Link: https://arxiv.org/abs/2506.16231

  • リソース制約デバイス向け量子化対応ニューロモルフィックアーキテクチャ:皮膚疾患分類への応用 [eess.IV, cs.AI, cs.CV]目的:皮膚疾患の分類における量子化対応ニューロモルフィックアーキテクチャの提案
    • 皮膚疾患の早期発見・診断は,医療において非常に重要である。
    • 従来のCNN推論は計算コストと消費電力が大きく,デバイスへの実装が困難である。
    • CNNからSNNへの変換における課題を解決し,省電力な皮膚疾患分類を実現する。
    • 提案手法QANAは,HAM10000データセットにおいて,既存のSNNベースラインをTop-1精度で3.5%,Macro F1で12.0ポイント上回る。
    • 臨床データセットにおいても,Top-1精度で3.2%,Macro F1で3.6ポイントの改善が確認された。
    • BrainChip Akida上での実機評価では,GPU実装と比較してレイテンシを94.6%,エネルギー消費量を99.0%削減した。

    Link: https://arxiv.org/abs/2507.15958

  • 非監視型自己適応聴覚注意デコーディングにおける初期化バイアスの軽減策 [eess.SP, cs.SD]目的:多話者環境における聴取話者のデコーディング
    • 脳波(EEG)を用いた聴覚デバイスの応用が期待され,神経制御型補聴器などの実現に貢献する分野である。
    • 従来のデコーディング手法は,個々のユーザーやEEG設定ごとにラベル付きデータが必要であり,キャリブレーションに手間がかかる。
    • ラベルなしデータでも利用可能な自己適応聴覚注意デコーディング(AAD)の初期化バイアスを軽減し,計算コストを削減すること。
    • 提案手法は,既存のバイアス除去手法と同等の性能を,大幅に低い計算コストで実現している。
    • 特に計算複雑性がデータサイズに依存する既存手法に対し,提案手法は定数時間で処理が完了する。
    • 提案アルゴリズムのコードは公開されており,再現性および今後の研究への貢献が期待される。

    Link: https://arxiv.org/abs/2509.14764

  • 発話者区切り条件付きWhisperをエンドツーエンド多話者音声認識に適用 [eess.AS, cs.CL, cs.SD]目的:多話者音声認識のための発話者属性付きWhisperベースモデル
    • 音声認識は,人間と機械の円滑なコミュニケーションを実現する上で不可欠な技術である。
    • 複数話者の同時発話は,従来の音声認識システムにとって依然として困難な課題である。
    • 同時発話を含む多話者環境下での音声認識性能の向上を目指す。
    • 提案手法は,既存の逐次出力学習 (SOT) ベースのアプローチを上回り,LibriMix等の多話者混合データセットにおいてDiCoWを凌駕する性能を示す。
    • 発話者区切り条件付きWhisper (DiCoW) エンコーダを用いて発話者埋め込みを抽出し,共有デコーダに渡すことで,同時発話の書き起こしを可能にする。
    • DiCoWとは異なり,提案手法は各話者を個別にデコードするのではなく,全ての話者の文脈を考慮した同時デコーディングを行う。

    Link: https://arxiv.org/abs/2510.03723

  • 患者を考慮したRGB-HSIマルチモーダル融合:増分ヒューリスティックメタ学習による口腔病変分類 [eess.IV, cs.CV]目的:口腔病変の四分類
    • 口腔がんの早期発見は重要であり,特にリソースが限られた環境下では困難である。
    • 十分なアノテーション付きデータが不足しており,高精度な分類が難しい。
    • 限られたデータでもロバストな診断を実現する手法を開発すること。
    • RGB画像から再構成されたハイパースペクトル画像とメタ学習により,診断精度を向上させた。
    • 患者固有の検証を用いた評価により,異質な小規模医療データセットでの予測安定性を確認した。
    • テストセットにおいて,マクロF1スコア66.23%,全体精度64.56%を達成した。

    Link: https://arxiv.org/abs/2511.12268