arXiv雑要約

画像・音声 - 2025/12/18 公開

  • LLMをニューラルアーキテクチャとする:厳格なAPI契約下での画像キャプションモデルの制御生成 [cs.LG, cs.AI, cs.CL, cs.CV]目的:画像キャプションモデルの生成
    • 深層学習モデル設計は,高度な専門知識や試行錯誤を必要とし,自動化が求められている。
    • 従来のニューラルアーキテクチャ探索(NAS)は,時間と計算資源を多く消費する。
    • LLMを活用し,API契約を遵守した画像キャプションモデルの生成パイプラインを確立する。
    • LLM(DeepSeek-R1-0528-Qwen3-8B)を用いて,数十の画像キャプションモデルを生成し,その過半数が正常に学習された。
    • プロンプトに提供する候補コンポーネント数を変えた実験の結果,コンポーネント数が多いほど成功率がわずかに低下した。
    • LLMはアーキテクチャの提案に加え,ハイパーパラメータや学習方法についても提案する可能性が示唆された。

    Link: https://arxiv.org/abs/2512.14706

  • SepsisSuite:リスク層別化を超えて - 処方型敗血症AIにおける深層融合と専門家スタッキングの比較分析 [cs.LG, cs.AI, cs.CL, cs.CV, cs.CY]目的:敗血症タスクにおける深層融合と文脈認識スタッキングのアーキテクチャ比較
    • 敗血症はICU入室の約20%を占める深刻な疾患であり,早期発見と適切な治療が重要である。
    • 従来の予測モデルは,異種データストリームの統合に課題があり,個別モダリティでの分析や脆弱な早期融合に頼りがちである。
    • 本研究は,複数のモダリティデータを効果的に統合し,より高精度な敗血症予測と処方支援を目指す。
    • 文脈認識MoEアーキテクチャ「SepsisLateFusion」が,臨床発症4時間前の予測において,AUC 0.915という最先端の性能を達成した。
    • 臨床的安全性に合わせた閾値調整により,見逃しケースを48%削減し,タイムリーな介入を可能にする予防的ウィンドウを開いた。
    • 多クラス抗生物質選択という新たな処方タスクにおいて,四重モダリティアンサンブルが最高の性能(AUC 0.72)を示した。

    Link: https://arxiv.org/abs/2512.14712

  • 学習可能なガボールフィルタ畳み込みと注意機構による水中音響分類の改善 [cs.LG, cs.AI, cs.SD]目的:水中音響目標の分類精度向上
    • 環境モニタリングや防衛において,水中音響信号の正確な処理が不可欠である。
    • データセットの制約や実験の標準化不足が,汎化性能とロバスト性の向上を阻害している。
    • 学習可能なガボールフィルタと注意機構を導入し,データ制約下での分類性能を改善する。
    • 提案手法GSE ResNeXtは,Xception,ResNet,MobileNetV2等の既存モデルと比較して,分類性能において一貫して優れている。
    • ガボール畳み込みを初期層に導入することで,学習時間が28%削減され,安定性と収束性が向上した。
    • 訓練データとテストデータ間の時間的差が性能に影響し,特に船とセンサー間の距離が重要であることが示された。

    Link: https://arxiv.org/abs/2512.14714

  • 腹部CTにおける偶発所見管理のためのLLMとVLMの統合:INFORM-CT [cs.LG, cs.AI, cs.CV, eess.IV]目的:腹部CTにおける偶発所見の検出,分類,報告の効率性と精度向上
    • CT検査は広く用いられ,偶発所見は臨床的に重要な意味を持つため,適切な管理が重要である。
    • 放射線科医による手動検査は時間がかかり,検査者によるばらつきが生じやすいという課題がある。
    • LLMとVLMを組み合わせた自動化フレームワークにより,偶発所見管理の効率化と精度向上を目指す。
    • 提案手法は,純粋なVLMベースの手法と比較して,精度と効率の両面で優れた性能を示すことが示された。
    • 腹部CTの3臓器に関するベンチマークデータセットを用いた実験で,完全自動のエンドツーエンド方式での有効性が実証された。
    • LLMベースのプランナーとVLMによるエグゼキューターの組み合わせにより,医療ガイドラインに沿った偶発所見管理の自動化を実現した。

    Link: https://arxiv.org/abs/2512.14732

  • SkyCap:双時間VHR光学・SARクワッドによる振幅変化検知と基礎モデル評価 [cs.CV]目的:高解像度VHR光学・SARデータの組み合わせによる振幅変化検知
    • 線形インフラのモニタリングには高解像度データと定期的な取得が不可欠である。
    • 光学データは雲の影響を受けやすく,SARデータは注釈付けが困難である。
    • 光学からSARへのラベル転移により,専門家によるSARアノテーションが不要となる。
    • SkyCapデータセットを構築し,SARATR-Xの継続的な事前学習を実施した。
    • MTP(ViT-B+RVSA)は,dB+Z-score前処理において最高の性能(F1$_c$ = 45.06)を示した。
    • 光学モデルの光学変化検知におけるランキングは,SAR振幅変化検知に単純には転移しないことがわかった。

    Link: https://arxiv.org/abs/2512.14755

  • SocialNav-MoE:社会的に適切なナビゲーションのためのエキスパート混合型ビジョン言語モデルと強化学習による微調整 [cs.CV, cs.RO]目的:社会的に適切なナビゲーションのための効率的なビジョン言語モデル
    • 人間が多く存在する環境でのロボットナビゲーションにおいて,安全性と社会的な適合性は不可欠である。
    • 従来のナビゲーション研究は安全性に重点が置かれがちで,人間が快適に感じるような社会的な規範や状況に応じたナビゲーションは未だ十分に探求されていない。
    • 大規模モデルの計算コストを削減し,リソース制約のあるロボットプラットフォームへのリアルタイム展開を可能にすること。
    • SocialNav-MoEは,ナビゲーションの精度と効率性のバランスに優れていることがSNEIデータセットの実験で示された。
    • 提案する意味的類似性報酬(SSR)は,従来の報酬関数よりも効果的であることが確認された。
    • Phi,Qwen,StableLMなどの小型言語モデルや,CLIPとSigLIPといったビジョンエンコーダーの有効性が検証された。

    Link: https://arxiv.org/abs/2512.14757

  • 印刷された中国簡譜楽譜と歌詞の光学的認識:エキスパートシステムの復興 [cs.CV]目的:中国簡譜楽譜と歌詞の機械可読なMusicXMLおよびMIDIへの変換
    • 音楽情報処理の発展は,楽曲のデジタル化と分析を促進し,音楽研究や教育に貢献する。
    • 西洋の五線譜の光学的音楽認識技術は進歩しているが,中国簡譜への応用は遅れている。
    • 大規模なアノテーションデータがなくても,中国簡譜楽譜の自動認識を実現すること。
    • 本システムは,中国民歌選集を用いて,5000曲以上のメロディーと1400曲以上の歌詞を含む大規模な楽譜をデジタル化することに成功した。
    • メロディーの認識精度はF1スコアで0.951,歌詞の認識精度は文字単位で0.931と高い精度を達成した。
    • 伝統的なコンピュータビジョン技術と教師なし深層学習を組み合わせたハイブリッドなアプローチが,解釈可能性と精度を両立している。

    Link: https://arxiv.org/abs/2512.14758

  • AquaDiff:色ずれを解消するための拡散ベース水中画像強調 [cs.CV]目的:水中画像の色彩歪みを補正し,構造と知覚的忠実性を維持すること
    • 水中画像は,水中での視覚的応用において重要であり,その品質が応用性能を左右する
    • 水中画像は,波長依存的な光吸収と散乱により,色ずれやコントラスト低下が課題である
    • 既存手法では,色補正と画像品質の両立が難しく,より高精度な水中画像強調が求められる
    • 提案手法AquaDiffは,拡散モデルと色事前知識を活用し,色ずれを効果的に補正する。
    • 残差密ブロックとマルチ解像度アテンションにより,大域的な色彩情報と局所的な詳細を捉える。
    • 複数の水中画像ベンチマークにおいて,最先端手法と比較して優れた色補正性能と総合的な画質を示す。

    Link: https://arxiv.org/abs/2512.14760

  • VQA信頼性向上:自己反省とクロスモデル検証による二重評価アプローチ [cs.CV, cs.AI]目的:VQAにおける信頼性向上
    • 画像と言語を理解するモデルは,人間とAI間のインタラクションを豊かにする鍵となる。
    • 既存のモデルは,幻覚により誤った自信過剰な回答をする可能性があり,信頼性が低い。
    • モデルの不確実性を評価し,幻覚を抑制することで,VQAの信頼性を高める。
    • DAVRは,自己反省とクロスモデル検証を統合した新しいフレームワークである。
    • 二重経路アーキテクチャにより,応答信頼性の評価と事実確認を両立する。
    • ICCV-CLVL 2025のReliable VQA Challengeで,$\Phi_{100}$スコア39.64と100-AUC 97.22を達成し,1位を獲得した。

    Link: https://arxiv.org/abs/2512.14770

  • オーディオ・マルチチャレンジ:自然な人間対話における音声対話システムのマルチターン評価 [cs.SD, cs.CL, cs.LG]目的:自然な人間対話における音声対話システムのマルチターン能力の評価
    • 音声対話システムは,人間とAIのインタラクションにおいて重要な役割を担う技術である。
    • 既存の評価基準は,合成音声や単一ターンタスクに偏っており,現実的なマルチターン対話能力の評価が不十分である。
    • 本研究は,自然なマルチターン対話パターンにおける音声対話システムの評価基準を確立し,その性能向上を目指す。
    • 本研究で開発されたAudio MultiChallengeは,音声編集,推論記憶,指示保持,自己整合性の4つの軸でE2E音声対話システムを評価する。
    • 最先端モデルであるGemini 3 Pro Preview (Thinking)でさえ,54.65%の合格率にとどまり,特に新たな評価軸において課題が残ることが示された。
    • エラー分析の結果,音声編集の追跡,音声キューの認識,長距離文脈の把握が困難であることが,モデルの失敗の主な原因であることが判明した。

    Link: https://arxiv.org/abs/2512.14865

  • HERBench:ビデオ質疑応答における複数証拠統合のベンチマーク [cs.CV, eess.IV]目的:ビデオ質疑応答における複数証拠の統合能力の評価
    • ビデオ理解は,AIの視覚的認知能力を測る上で重要であり,その応用範囲は広い。
    • 既存のビデオ質疑応答ベンチマークは,単一の視覚的手がかりで回答可能な問題が多く,複数証拠の統合能力を十分に評価できていない。
    • 時間的に離れた複数の視覚的証拠を統合する能力を正確に評価できるベンチマークの必要性。
    • HERBenchは,少なくとも3つの非重複する視覚的証拠を必要とする26,000個の多肢選択問題で構成される。
    • 評価された13種類の最先端ビデオLLMは,HERBenchにおいて20%のランダム回答と同程度の低い精度(31-42%)を示した。
    • 性能低下の要因は,関連するフレームの検索不足と,取得された証拠の統合不足にあることが示された。

    Link: https://arxiv.org/abs/2512.14870

  • 分離手話認識におけるセグメンテーションと姿勢推定 [cs.CV]目的:分離手話認識の性能向上
    • 手話は視覚情報に依存し,言語モデルの恩恵を受けにくいため,手話者のコミュニケーション支援が重要である。
    • 手話データが少なく,話者による変動が大きく,計算コストが高いことが課題となっている。
    • 計算コストを削減しつつ,話者変動へのロバスト性を確保することを目指す。
    • 姿勢推定とセグメンテーションを統合することで,計算量を削減しつつ,手話認識の精度を維持した。
    • 手と顔の関節座標を抽出する姿勢推定パイプラインと,関連情報を分離するセグメンテーションモジュールを組み合わせた。
    • ResNet-Transformerバックボーンを用いて,空間的・時間的依存性を共同でモデリングした。

    Link: https://arxiv.org/abs/2512.14876

  • 視覚・テキストによる動物皮膚紋理バイオメトリクス:トラ(Panthera tigris)における最初のケーススタディ [cs.CV]目的:トラの個体識別に関する視覚情報と皮膚紋理記述子の統合手法
    • 生態モニタリングにおいて,個体識別は個体数推定や行動解析に不可欠であり,その精度向上は重要な課題である。
    • 既存の個体識別手法は主に画像認識に依存しており,データ不足や環境変化に弱いという課題があった。
    • 皮膚紋理記述子を導入することで,画像情報だけでは困難な個体識別を可能にし,識別精度を向上させる。
    • 皮膚紋理記述子と視覚情報を組み合わせることで,クロスモーダルな個体検索が可能となり,高い識別能力が確認された。
    • テキストと画像を相互に生成するパイプラインを開発し,データ不足を補うことでAIの精度を大幅に向上させた。
    • 皮膚紋理言語に基づくバイオメトリクスは,説明可能性の高い個体識別を実現し,生態モニタリングにおける記述的モダリティの統合を促進する。

    Link: https://arxiv.org/abs/2512.14878

  • タスク行列:クロスモデルファインチューニング転移のための線形写像 [cs.LG, cs.CL, cs.CV]目的:クロスモデルファインチューニング転移のための線形写像の存在とその有効性
    • 大規模言語モデルや画像モデルの解釈可能性向上は,AIの信頼性向上に不可欠である。
    • ファインチューニング後のモデルと事前学習済みモデル間の線形表現の存在は,未検証のままであった。
    • ファインチューニングされたモデルの状態を線形写像で近似し,効率的な知識転移を実現すること。
    • タスク行列を用いることで,線形プローブよりも高い性能が示され,場合によってはファインチューニングに近い結果が得られた。
    • 事前学習済みモデルとファインチューニング済みモデルの間に存在するクロスレイヤー線形エンコーディングの存在が確認された。
    • データに基づいた線形エンコーディングの近似が,効率的かつ汎用性が高いことが示された。

    Link: https://arxiv.org/abs/2512.14880

  • 視覚コンセプトの創造的な接続と表現のためのVibe空間 [cs.CV]目的:視覚コンセプトの共有属性に基づくハイブリッド生成
    • 視覚的アイデアの創出は,多様な分野で必要とされ,その重要性は高い。
    • 潜在空間における非線形な概念間の関係性の特定と遷移が困難である。
    • コンセプト間の滑らかで意味的に一貫性のある遷移を実現し,創造性を高める。
    • Vibe空間は,CLIPのような特徴空間において低次元測地線を学習する階層的グラフ多様体である。
    • 本手法は,既存手法と比較して,より創造的で一貫性のあるブレンドを生成することが示された。
    • 人間の評価,LLM推論,幾何学的パスに基づく難易度スコアを組み合わせた評価フレームワークが構築された。

    Link: https://arxiv.org/abs/2512.14884

  • PANDA-PLUS-Bench:前立腺がん診断におけるAI基盤モデルの頑健性を評価するための臨床ベンチマーク [cs.CV]目的:前立腺がんのグリソングレード分類におけるAI基盤モデルの頑健性評価
    • 前立腺がん診断は患者の治療方針を左右するため,高い精度が求められる。
    • AIモデルが特定の標本に依存した学習をしてしまい,汎化性能が低い場合がある。
    • AIモデルが生物学的特徴を捉え,標本特有のノイズに左右されないかを評価する。
    • PANDA-PLUS-Benchは,AIモデルが標本ごとのアーチファクトではなく,汎用的な生物学的特徴を学習しているかを評価するために開発された。
    • Virchow2は大規模モデルの中で最も低いスライドレベルのエンコーディングを示したが,クロススライド精度は2番目に低かった。
    • 前立腺組織に特化して学習したHistoEncoderは,最も高いクロススライド精度と最も強いスライドレベルのエンコーディングを示した。

    Link: https://arxiv.org/abs/2512.14922

  • 事前学習済みセグメンテーションモデルのポスト処理による改善 [cs.CV, cs.AI]目的:glioblastoma(神経膠腫)のセグメンテーション精度向上
    • 脳腫瘍の中でも最も一般的な神経膠腫は致死率が高く,正確な画像解析が重要である。
    • 大規模事前学習モデルは汎化性能が低く,誤検出やスライス不連続などの問題が生じやすい。
    • 大規模モデルの訓練コストを抑えつつ,セグメンテーション精度を高めることを目指す。
    • ポスト処理技術により,サブサハラアフリカチャレンジにおいてランキング指標が14.9%向上した。
    • 成人神経膠腫チャレンジにおいても,ランキング指標が0.9%向上した。
    • 複雑なモデル開発から,効率的で臨床的に有用なポスト処理戦略への転換を促進する。

    Link: https://arxiv.org/abs/2512.14937

  • TalkVerse:1分間の音声駆動型動画生成の民主化 [cs.CV, cs.AI, cs.MM, cs.SD]目的:1分間の音声駆動型動画生成のための大規模なオープンコーパス
    • 動画生成技術は,エンターテイメント,教育,コミュニケーションなど幅広い分野で重要性が増している。
    • 既存の高品質な動画生成システムは,データセットが非公開であったり,計算コストが高く,研究の障壁となっている。
    • 本研究は,高品質で再現性のある動画生成を,より多くの研究者が利用できるようにすることを目指す。
    • TalkVerseは,230万件以上の高解像度(720p/1080p)の音声・動画同期クリップから構成される大規模なデータセットである。
    • 50億パラメータのDiTベースラインモデルを構築し,長時間の動画生成におけるドリフトを低減することに成功した。
    • 本モデルは,140億パラメータのモデルと同等の品質を,10分の1の計算コストで実現し,ゼロショットの動画ダビングも可能である。

    Link: https://arxiv.org/abs/2512.14938

  • ビジョンセントリック推論のためのパズルカリキュラムGRPO [cs.CV]目的:ビジョン言語モデルにおける視覚的推論能力の強化
    • 視覚言語モデルは,画像とテキストを理解し推論する能力が求められており,様々な応用分野で重要性が増している。
    • 従来のGRPOアプローチは,高コストな手動アノテーションや外部検証者に依存しており,報酬設計も課題となっていた。
    • アノテーションや外部検証者なしで,報酬のスパース性に対処し,推論と回答の一貫性を高めることを目指す。
    • パズルカリキュラムGRPO(PC-GRPO)は,自己教師あり学習を用いた環境により,アノテーションや外部検証者なしで視覚的推論を強化する。
    • 難易度に応じたカリキュラムにより,報酬の平坦化とグループ相対的優位性の消失を防ぎ,推論と回答の一貫性を維持する。
    • Qwen-7BおよびQwen-3Bバックボーンにおいて,PC-GRPOは推論品質,訓練安定性,および最終タスクの精度を向上させる。

    Link: https://arxiv.org/abs/2512.14944

  • 適応的多様相人物認識:欠損多様相への耐性を持つ堅牢なフレームワーク [cs.CV, cs.SD, eess.AS, eess.IV]目的:多様相人物識別における欠損多様相への耐性
    • 現実環境では,音声,視覚,行動などの多様相が欠損することが多い。
    • 欠損多様相下での人物認識性能の低下が課題である。
    • 欠損多様相にも耐性を持つ,よりロバストな人物認識システムを開発する。
    • 提案手法は,CANDORデータセットにおいて99.18%のTop-1精度を達成し,単一多様相および後処理融合アプローチを上回った。
    • VoxCeleb1データセットにおける二相モードでは99.92%の精度を達成した。
    • 一つの,あるいは二つの多様相が欠損した場合でも高い精度を維持し,実用的な人物認識への応用が可能である。

    Link: https://arxiv.org/abs/2512.14961

  • 多岐にわたる化学オリンピックの問題に対する大規模言語モデルの評価 [cs.CL, cs.AI, cs.CV]目的:大規模言語モデルにおける多角的科学的推論能力の評価
    • 科学分野,特に化学において,高度な推論能力が求められるため,AIによる問題解決の自動化が重要である。
    • 現在のLLMは,図や分子構造などの視覚情報を言語情報と統合し,科学的推論を行うことが困難である。
    • LLMの多角的科学的推論能力の限界を明らかにし,より堅牢で解釈可能なシステム開発の方向性を示す。
    • 多くのモデルにおいて,画像とテキストの統合に課題があり,場合によっては画像を削除した方が精度が向上することが示された。
    • Chain-of-Thoughtプロンプトは,精度と視覚的根拠の強化に一貫して効果的であることが確認された。
    • 本研究は,特定の分野における多角的AIの進捗を測定するためのベンチマークを提供し,さらなる発展の必要性を示唆する。

    Link: https://arxiv.org/abs/2512.14989

  • ウォーターマークはどこにあるか?ブロックレベルでの解釈可能なウォーターマーク検出 [cs.CV, cs.AI]目的:デジタルコンテンツの信頼性,所有権,不正利用に関する懸念への対処
    • 生成AIの進化に伴い,デジタルコンテンツの真正性保護が重要となっている。
    • 既存のウォーターマーク技術はブラックボックス的であり,透明性に欠ける。
    • 画像内のウォーターマークの位置や改ざん箇所を特定すること。
    • 本研究では,離散ウェーブレット変換領域での統計的なブロック単位の埋め込みにより,局所的な埋め込みと領域レベルでの解釈可能性を組み合わせたウォーターマーク検出手法を提案。
    • 提案手法は,一般的な画像変換に対して高い堅牢性を持ちながら,意味的な操作に敏感であり,ウォーターマークの知覚可能性も低い。
    • 従来のポストホック手法と比較して,より解釈可能な検出結果と競争力のある堅牢性を両立している。例えば,画像全体の半分までのクロッピングに強い。

    Link: https://arxiv.org/abs/2512.14994

  • 近接性を超えて:乳用牛における親和的および攻撃的な社会ネットワークを分類するためのキーポイント・軌跡フレームワーク [cs.CV, cs.AI]目的:乳用牛の親和的・攻撃的社会ネットワーク分類のためのキーポイント・軌跡に基づくフレームワーク
    • 精密畜産において,群れの福祉をモニタリングするためには,社会行動の客観的な評価が不可欠である。
    • 既存のアプローチは,静的な近接性閾値を用いて相互作用を推測するため,複雑な環境下での親和性・攻撃性の区別が困難である。
    • 本研究は,キーポイント軌跡の時空間的幾何学をモデル化することで,より正確な社会行動の分類を目指す。
    • 提案フレームワークは,YOLOv11,ByteTrack,ZebraPoseなどの技術を統合したコンピュータビジョンパイプラインとして実装された。
    • 乳用牛の行動に関する注釈付きデータを用いた実験の結果,姿勢情報のみで77.51%の精度で親和的・攻撃的な行動を識別できた。
    • 近接性のみを用いるベースラインと比較して,特に親和的な行動の識別において,大幅な性能向上が認められた。

    Link: https://arxiv.org/abs/2512.14998

  • 専門知識の引き出しにおける動画質問生成能力の評価 [cs.CV, cs.AI]目的:専門家の知識を引き出すための質問生成モデルの評価プロトコル
    • 専門家へのインタビューは貴重な情報を得る手段であり,効果的な質問の重要性が認識されている。
    • 既存の動画質問生成モデルの評価は,質問への回答可能性に偏っており,質問自体の質に着目した評価が不足している。
    • 本研究は,専門家から未知の知識を引き出す質問の質を評価するプロトコルを提案し,動画質問生成モデルの改善を目指す。
    • 提案する評価プロトコルは,より豊富な文脈にアクセスできるモデルほど高い評価を得るという結果が得られ,意図した通りに機能していることが示唆された。
    • 専門家との質疑応答をシミュレーションすることで質問の質を評価する新しいデータセットEgoExoAskを構築した。
    • EgoExoAskデータセットは,動画質問生成モデルの継続的な改善に貢献することが期待される。

    Link: https://arxiv.org/abs/2512.15006

  • 医療画像セグメンテーションのためのモデル非依存型嗜好最適化 [cs.CV]目的:医療画像セグメンテーションにおける嗜好最適化
    • 医療画像分析は,疾患の診断,治療計画,予後予測において不可欠である。
    • 従来のセグメンテーションは,正確なアノテーションを必要とし,コストと時間がかかる。
    • モデルに依存せず,限られたデータでも効率的なセグメンテーション学習を実現する。
    • MAPOは,ドロップアウト駆動型確率的セグメンテーション仮説を利用し,直接的な正解ラベルなしで嗜好一貫性のある勾配を構築する。
    • MAPOは,2D/3D CNNやTransformerベースのセグメンテーションパイプラインなど,様々なアーキテクチャや次元に適用可能である。
    • 多様な医療データセットでの評価により,MAPOは境界の適合性を向上させ,過学習を軽減し,より安定した最適化ダイナミクスをもたらすことが示された。

    Link: https://arxiv.org/abs/2512.15009

  • 外部性と適応を伴う共同オークションフレームワーク [cs.CL, cs.IR, cs.GT]目的:広告枠割当における効率と収益の向上を目指す共同広告の枠組み
    • 広告効果の最大化が重要視される中で,広告枠の効率的な利用が求められている。
    • 従来の広告枠の割当方法では,共同広告と従来型広告の同時対応が課題となっていた。
    • グローバル外部性や複数広告主の入札変動に対応できる,共同オークション機構の設計。
    • 提案手法JEANetは,個々の合理性と近似的な支配戦略インセンティブ適合性を満たす共同オークション機構を算出する。
    • JEANetは,グローバル外部性を共同オークションに統合する最初のAMD手法であり,複数広告主の入札特性に適応的に対応する。
    • 実験結果から,JEANetが複数スロットの共同オークションにおいて,既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2512.15043

  • HERO:移動可能な障害物の中での具現化されたナビゲーションのための階層的トラバース可能な3Dシーングラフ [cs.RO, cs.AI, cs.CL, cs.CV]目的:移動可能な障害物環境下での具現化されたナビゲーションのための階層的トラバース可能な3Dシーングラフの構築
    • 現実世界でのロボットの自律的な行動には,環境の構造的理解が不可欠である。
    • 既存の研究は静的な環境を前提としており,動的な障害物への対応が不十分である。
    • 障害物を経路の一部として認識し,ナビゲーションの効率と到達範囲を向上させる。
    • HEROは,障害物を経路としてモデル化することで,従来のモデルの課題を克服する。
    • 部分的に遮蔽された環境において,パス長(PL)を35.1%削減することに成功した。
    • 完全に遮蔽された環境において,成功率(SR)を79.4%向上させ,効率と到達範囲を大幅に改善した。

    Link: https://arxiv.org/abs/2512.15047

  • エピポーラ制約による多視点整合3Dガウス超解像:MVGSR [cs.CV]目的:3Dガウススプラッティングによる超解像処理の品質向上
    • 3Dガウススプラッティングは,高画質な3Dシーン再構成を可能にする重要な技術である。
    • 低解像度画像で学習された3Dガウススプラッティングは,高解像度レンダリングに適さないという課題がある。
    • 多視点情報を活用し,3Dガウススプラッティングの超解像処理における整合性と詳細度を向上させる。
    • 提案手法MVGSRは,カメラ姿勢に基づいた補助視点選択により,任意の多視点データセットに対応可能である。
    • エピポーラ制約を用いた多視点注意機構を導入することで,整合性の高い情報を選択的に集約し,幾何学的整合性と詳細度を高めている。
    • 客体中心およびシーンレベルの3Dガウス超解像ベンチマークにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2512.15048

  • 高頻度構造変形計測のための非同期イベントストリームノイズフィルタリング [cs.CV]目的:高頻度構造変形計測手法
    • 大規模構造物の安全性を確保するため,高頻度変形の正確な把握が不可欠である。
    • 従来の高速カメラでは,コストや照明条件の制約により計測が困難な場合がある。
    • イベントカメラとLEDマーカーを用いて,安価かつ高精度な計測を可能にすること。
    • イベントカメラで取得したイベントストリームのノイズを,LEDマーカーの特徴と時空間相関に基づいて効果的にフィルタリングした。
    • LEDマーカーの点滅と運動によるイベントを識別することで,高速移動するLEDマーカーを高精度に抽出することに成功した。
    • 単眼イベントカメラを用いて,高頻度平面変形を正確に計測できることを実験的に示した。

    Link: https://arxiv.org/abs/2512.15055

  • ウェーブレット解析とメモリバンクによる超音波長尺動画における空間的・時間的詳細の追跡 [cs.CV, cs.AI]目的:超音波長尺動画における病変領域と標的臓器のセグメンテーション精度向上
    • 医療検査,疾患診断,手術計画において超音波動画の利用が不可欠であり,高精度なセグメンテーションが求められる。
    • 超音波動画はコントラストが低くノイズが多い為,臓器境界のセグメンテーションが困難であり,小さな病変の見落としや境界誤差が生じやすい。
    • 長尺動画における物体追跡の課題を克服し,特に小さな病変のセグメンテーション精度を向上させる。
    • 提案手法は,ウェーブレット解析とメモリバンクを組み合わせることで,超音波動画から空間的・時間的な詳細を効果的に捉える。
    • 実験結果から,提案手法は既存手法と比較して,セグメンテーション指標において顕著な改善が確認された。
    • 特に,小さな甲状腺結節のセグメンテーション精度が向上しており,長尺動画中の小さな超音波オブジェクトに対する有効性が示された。

    Link: https://arxiv.org/abs/2512.15066

  • ポーズ誘導マルチビューマルチモーダル拡散による人物生成 (PMMD) [cs.CV, cs.AI]目的:人物生成のためのポーズ誘導マルチビューマルチモーダル拡散モデル
    • 仮想試着や画像編集など,現実的な人物画像生成のニーズが高まっている。
    • 既存手法では,隠蔽,服装スタイルのずれ,ポーズの不整合といった課題がある。
    • マルチモーダルな情報を活用し,高品質で整合性の高い人物画像生成を目指す。
    • PMMDは,マルチビュー参照,ポーズマップ,テキストプロンプトを条件に,写実的な人物画像を合成する。
    • マルチモーダルエンコーダが,異なるモダリティ間のずれを減らし,人物同一性の忠実度を高める。
    • DeepFashion MultiModalデータセットでの実験により,PMMDが既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2512.15069

  • Uni-Parser 技術報告書 [cs.CV]目的:科学文献と特許のドキュメント解析エンジン
    • 科学技術情報の爆発的増加に対応するため,効率的な解析技術が不可欠である。
    • 従来のパイプライン方式では,複数モダリティ間の関係性を維持しにくく,拡張性も低い。
    • 大規模なドキュメント群を効率的に解析し,多様な科学技術情報の抽出を可能にすること。
    • Uni-Parserは,テキスト,数式,表,図,化学構造などの多岐にわたるモダリティ間の細かな対応関係を維持する。
    • 分散推論や動的なモジュール調整により,最大20ページ/秒の高速処理を実現し,コスト効率に優れる。
    • 大規模言語モデルやAI4Scienceモデルの学習用コーパス構築など,幅広い応用が期待される。

    Link: https://arxiv.org/abs/2512.15098

  • ナノバナナProは低レベルビジョンの万能選手か?14のタスクと40のデータセットによる包括的評価 [cs.CV]目的:ナノバナナProの低レベルビジョン課題における汎用性評価
    • 画像生成技術の進歩は視覚コンテンツ制作を革新し,多様な応用分野での活用が期待されている。
    • 既存の汎用モデルは,特定の低レベルビジョンタスクにおいて専門モデルに劣ることが課題である。
    • ナノバナナProが低レベルビジョンタスクにおいてどの程度汎用的に機能するかを明らかにすること。
    • ナノバナナProは,主観的な視覚品質において専門モデルを上回る優れた結果を示した。
    • しかし,従来の参照ベースの定量的な指標では,専門モデルに劣る結果となった。
    • この乖離は,生成モデル特有の確率的性質が,厳密なピクセルレベルの一貫性を損なっていることが原因と考えられる。

    Link: https://arxiv.org/abs/2512.15110

  • BEV-Patch-PF:BEVと航空写真特徴量の一致に基づくオフロード測位のためのパーティクルフィルタ [cs.RO, cs.CV]目的:オフロード環境における自己位置推定システム
    • ロボットの自律走行には高精度な位置推定が不可欠であり,特にGPSが利用できない環境での位置推定が課題。
    • 既存の視覚SLAMは,天候や植生の影響を受けやすく,ロバスト性に課題が残る。
    • 航空写真と鳥瞰画像の特徴量マッチングにより,ロバストかつ高精度な位置推定を実現する。
    • 提案手法BEV-Patch-PFは,実世界のオフロードデータセットにおいて,既存手法と比較して絶対軌道誤差を大幅に低減した。
    • 特に,未知の経路における誤差低減率は7.0倍と高く,汎用性も実証された。
    • 本システムはNVIDIA Tesla T4上でリアルタイム処理が可能であり,実用的なロボット展開に貢献する。

    Link: https://arxiv.org/abs/2512.15111

  • Synaspot:音声とテキストの相乗効果によるキーワードスポッティングのための軽量ストリーミングマルチモーダルフレームワーク [cs.SD]目的:音声とテキストの相乗効果を利用したキーワードスポッティングのための軽量ストリーミングマルチモーダルフレームワーク
    • 継続的な音声ストリームにおけるキーワードスポッティングは,幅広い実用的な応用において重要な価値を持つ。
    • マルチモーダル統合による効果は認められているものの,パラメータコスト増加とエンドツーエンド展開の制約が課題となっていた。
    • パラメータ数を削減しつつ,実用的なキーワードスポッティングシステムを構築することを目指している。
    • 提案手法は,LibriPhaseとWenetPraseデータセットにおいて良好な性能を示した。
    • 既存のストリーミング手法と比較して,パラメータ数を大幅に削減しつつ,より高い性能を実現した。
    • 話者固有情報を抑制したマルチモーダル登録特徴と,効率的な特徴融合,ストリーミング復号化フレームワークが効果を発揮した。

    Link: https://arxiv.org/abs/2512.15124

  • 単一画像からの2D-3Dアラインメントされたプロキシ埋め込みによる制御可能な3Dアウェアアニメーション合成 [cs.CV]目的:単一画像からの制御可能な3Dアウェアアニメーション合成手法
    • 現代のビジュアルメディアにおいて,3Dアニメーションは不可欠であり,その重要性は増している。
    • 従来の3Dアニメーション制作は,労力,専門知識,計算コストが高く,効率性に課題がある。
    • 高品質なレンダリングと3D制御のトレードオフという制約を克服し,効率的かつ制御可能なアニメーション生成を目指す。
    • 提案手法は,構造的キャリアとして粗い3D推定値を使用し,高忠実度の外観と視点合成を学習された画像空間の生成事前分布に委ねることで,幾何学的制御と外観合成を分離している。
    • これにより,正確な形状や高コストな最適化を必要とせず,古典的なパイプラインに匹敵する3Dアウェアなモーション制御とインタラクションが可能となる。
    • 実験結果から,低消費電力プラットフォーム上での効率的なアニメーション生成が可能であり,ID保持率,幾何学的・テクスチャの一貫性,そしてユーザーへの精密なインタラクティブ制御において,ビデオベースの3Dアニメーション生成手法を上回ることが示された。

    Link: https://arxiv.org/abs/2512.15126

  • 参照からの借用:汎用的な参照誘導インスタンス編集フレームワーク [cs.CV]目的:参照誘導インスタンス編集における意味的絡み合いの解消
    • 画像編集技術は,多様な応用分野で重要な役割を担う。
    • 既存手法では,参照画像の固有特徴と外在的属性が混在し,編集精度が制限される。
    • 参照画像から借用すべき情報を特定し,ターゲット画像への適切な適用方法を確立する。
    • 提案手法GENIEは,空間配置モジュールで位置ずれを補正し,固有特徴を強調,外在的属性を抑制する。
    • 適応的残差スケーリングモジュールと漸進的注意融合メカニズムにより,ターゲット画像の構造を維持したレンダリングを実現する。
    • AnyInsertionデータセットでの実験により,最先端の精度と堅牢性が確認された。

    Link: https://arxiv.org/abs/2512.15138

  • マルチモーダルChain-of-Thoughts推論を用いた説明可能な行動フォーム評価 [cs.CL, cs.CV]目的:人間の行動が標準的かどうかを評価し,行動の標準化を改善するための妥当なフィードバック
    • 現実世界の様々な場面で,人間の行動の標準化は重要であり,その評価は不可欠である。
    • 既存の動画理解手法は,行動の「何を」と「どこで」に焦点を当てており,標準化度評価には不十分である。
    • 行動の標準化度を明示的に示すラベルを持つデータセットが不足しており,本研究はそれを補完する。
    • 提案手法は,説明生成(CIDErで+16.0%),行動分類(正解率+2.7%),品質評価(正解率+2.1%)において性能向上を示した。
    • 新しいHuman Action Form Assessment(AFA)タスクを定義し,詳細なアノテーションを含むCoT-AFAデータセットを構築した。
    • 行動ステップの識別から結果分析,具体的な解決策の提案までを含むChain-of-Thoughtによる説明パラダイムを導入した。

    Link: https://arxiv.org/abs/2512.15153

  • EagleVision:BEV-groundingに基づく思考連鎖を用いた二段階空間知能フレームワーク [cs.CE, cs.DB, cs.CV]目的:空間知能におけるグローバルな空間認識,3D仮説とビデオフレームの関連付け,空間的根拠に基づく報酬設計
    • 空間知能は,ロボット工学や自動運転など,現実世界とのインタラクションにおいて不可欠な能力である。
    • 既存手法は,空間的一貫性や視点多様性の不足,証拠の追跡困難性といった課題を抱えている。
    • EagleVisionは,これらの課題に対し,効率的なキーフレーム選択と空間的根拠に基づく強化学習を適用することで解決を目指す。
    • EagleVisionは,長尺ビデオからジオメトリと意味情報を考慮したキーフレームを効率的に選択する。
    • 空間的思考連鎖をBEV平面上でのポーズクエリとして定式化し,予測ポーズと観測視点の整合性を評価する。
    • VSI-Benchにおいて,既存のオープンソース視覚言語モデルを上回る性能を達成し,汎用的な空間理解能力を示す。

    Link: https://arxiv.org/abs/2512.15160

  • 腎生検画像のトリモーダルを用いた超大規模クロスコモダル学習:糸球体多疾患補助診断への応用 [cs.CV]目的:腎生検画像の3種類のモダリティに基づく多疾患自動分類モデルの構築
    • 腎臓病の正確な診断は,適切な治療方針の決定に不可欠である。病理診断の効率化が求められている。
    • 透過型電子顕微鏡 (TEM) 画像と光学顕微鏡 (OM) / 免疫蛍光顕微鏡 (IM) 画像の間スケール差が大きい。
    • ナノスケールとマイクロスケールの画像間のスケール差を埋め,特徴融合を促進し,分類精度を向上させる。
    • 提案手法CMUS-Netは,スパースマルチインスタンス学習モジュールとクロスコモダルスケール注意モジュールを採用。
    • CMUS-Netは,IgA腎症,膜性腎症,ループス腎炎を含む複数の糸球体疾患の自動分類を可能にした。
    • 社内データセットにおいて,95.37+/-2.41%のACC,99.05+/-0.53%のAUC,95.32+/-2.41%のF1スコアを達成。

    Link: https://arxiv.org/abs/2512.15171

  • ESDD 2026チャレンジのためのレイヤー融合BEAT2AASISTモデル [cs.SD, cs.LG]目的:環境音のディープフェイク検出
    • 近年,音声生成技術の進歩により,環境音の操作リスクが増加している。
    • 環境音ディープフェイクの検出に関する大規模なベンチマークが存在しなかった。
    • ディープフェイク検出の精度向上と,未知の改ざん手法へのロバスト性向上を目指す。
    • 提案手法BEAT2AASISTは,BEATs-AASISTを拡張し,周波数またはチャネル次元で分割したBEATs表現を二つのAASISTブランチで処理する。
    • トップkトランスフォーマー層融合により,特徴表現を強化している。
    • ボコーダーベースのデータ拡張により,未知の改ざん手法に対するロバスト性を向上させている。

    Link: https://arxiv.org/abs/2512.15180

  • 自動運転における物体検出の安全性評価における関連性分類のための重要度指標 [cs.CV, cs.RO]目的:自動運転における物体検出システムの安全性評価のための重要度指標
    • 自動運転の安全性確保は最重要課題であり,環境の正確な認識が不可欠である。
    • 既存の性能評価指標では,安全性に特化した評価が不十分である。
    • 関連する物体と関連しない物体を区別する重要度指標の有効性を検証する。
    • 既存の重要度指標をレビューし,その有効性をDeepAccidentデータセットを用いて実証した。
    • 評価精度向上のため,双方向重要度評価と多指標集約という2つの新たな応用戦略を提案した。
    • 提案手法により,重要度分類精度が最大100%向上し,安全性評価の進歩に貢献する可能性を示した。

    Link: https://arxiv.org/abs/2512.15181

  • 堅牢かつ較正された真正なマルチメディアコンテンツの検出 [cs.CV]目的:真正なマルチメディアコンテンツの検出における堅牢性と較正
    • デジタルメディアの信頼性維持は重要であり,偽情報の拡散を防ぐ上で不可欠である。
    • ディープフェイク技術の進歩により,検出器は容易に回避され,誤検出率が増加している。
    • 効率的な攻撃に対する堅牢性と,真正なコンテンツの信頼性の高い識別を目指す。
    • 提案手法は,制御可能な低い誤検出率を維持しつつ,真正なサンプルを検証する上で最も信頼性が高い。
    • 本手法は,効率的な攻撃者に対して,従来の検出手法よりも高い堅牢性を示す。
    • 本手法は,複数のモダリティに対応し,最先端の反転技術を活用している。

    Link: https://arxiv.org/abs/2512.15182

  • 暗所環境下における効率的なRAW画像強調ネットワーク [cs.CL, cs.CV]目的:低照度環境下におけるRAW画像強調手法の開発
    • 画像処理技術は,監視,医療,自動車など幅広い分野で不可欠であり,その性能向上は重要である。
    • 既存のRAW画像強調手法は,処理速度やモデルの軽量化が課題であり,リアルタイム処理が困難な場合がある。
    • 本研究は,高速かつ効率的なRAW画像強調ネットワークを開発し,低照度環境下における画像品質の向上を目指す。
    • 提案手法ERIENetは,並列処理と効率的な畳み込みモジュールにより,計算コストを削減し,リアルタイム処理速度を実現した。
    • グリーンチャネルの情報を活用するガイダンスブランチを導入することで,少ないパラメータと計算量で再構成品質を向上させた。
    • 実験結果から,ERIENetは既存手法を凌駕する性能を示し,4K解像度画像で146FPS以上の処理速度を達成した。

    Link: https://arxiv.org/abs/2512.15186

  • ファジー輪郭アンサンブル可視化のための確率的包含深度 [cs.GR]目的:スカラー場のアンサンブル可視化手法
    • 科学的可視化は,複雑なデータを理解するための重要な手段である。
    • 従来の輪郭抽出は,不確実性を考慮しないため,曖昧なデータには不向きである。
    • ファジー輪郭アンサンブルに対し,不確実性を考慮した可視化手法を確立すること。
    • 確率的包含深度(PID)を導入し,ファジー輪郭のアンサンブルを表現する汎用的なデータ深度モデルを提案した。
    • 平均確率的輪郭を用いることで,計算量を削減し,GPUによる効率的な並列アルゴリズムを実現した。
    • 合成データセットや実世界のデータセットを用いた評価により,提案手法の有効性を実証した。

    Link: https://arxiv.org/abs/2512.15187

  • EPSM:自動運転における環境認識の安全性を評価する新規指標 [cs.RO, cs.CV]目的:自動運転における環境認識の安全性評価
    • 自動運転の安全確保は重要であり,環境認識システムの性能評価が不可欠である。
    • 従来の評価指標は精度のみに偏っており,安全性に関わる誤検出を見逃す可能性がある。
    • 環境認識における安全性評価に特化した指標を開発し,事故リスクを低減すること。
    • 提案手法EPSMは,物体検出と車線検出における潜在的リスクを定量化する。
    • DeepAccidentデータセットを用いた実験で,従来の指標では捉えられない安全上の重要な誤りを検出できた。
    • 安全性に焦点を当てた評価方法が,自動運転における環境認識システムの開発に重要であることが示された。

    Link: https://arxiv.org/abs/2512.15195

  • 低高度赤外・可視画像融合のためのターゲット背景コントラスト指標:TBC [cs.CV]目的:低高度UAV偵察ミッションにおける赤外・可視画像融合品質の評価
    • 低高度UAV偵察において,目標検出・追跡等のタスクの精度向上に不可欠な技術である。
    • 従来の無参照評価指標は,暗い環境下でノイズを有効な情報と誤認する問題がある。
    • ターゲットの視認性を重視し,背景ノイズの影響を受けにくい評価指標を開発する。
    • 提案手法TBCは,ウェーバーの法則に基づき,ターゲットと背景の相対的なコントラストに着目する。
    • TBCは,従来の指標と異なり,背景ノイズを抑制し,ターゲットの視認性を向上させる。
    • DroneVehicleデータセットを用いた実験により,TBCが人間の視覚評価とより高い一致性を示すことが確認された。

    Link: https://arxiv.org/abs/2512.15211

  • カメラから世界へ:人間のメッシュ変換のためのプラグアンドプレイモジュール [cs.CV]目的:野生環境下の画像からの3Dヒューマンメッシュの正確な再構成
    • 3Dヒューマンメッシュ再構成は,バーチャルリアリティやモーションキャプチャなどに応用され,重要性が増している。
    • 既存手法はカメラの回転を無視しており,再構成されたメッシュを世界座標系に変換する際に誤差が生じる。
    • カメラの回転情報を推定し,メッシュを正確に世界座標系に変換することを目指す。
    • 提案手法Mesh-Plugは,RGB画像と初期メッシュからレンダリングされた深度マップを用いてカメラの回転パラメータを推定する。
    • 人間の姿勢に着目し,カメラのピッチ角を予測するモジュールと,メッシュ調整モジュールを組み合わせることで,高精度な変換を実現した。
    • SPEC-SYNとSPEC-MTPのベンチマークデータセットにおいて,最先端手法と比較して優れた性能を示した。

    Link: https://arxiv.org/abs/2512.15212

  • 夜間フレア除去のための物理に基づいたフレア合成とスペクトルローカルコンテキストTransformer: SLCFormer [cs.HC, cs.CV]目的:夜間レンズフレアの効率的な除去
    • 夜間撮影において,レンズフレアは画質劣化の主要な原因となるため,その除去は重要である。
    • 既存手法では,不均一なフレアに効果的に対処できず,複雑な現実世界の環境への適用が困難である。
    • 本研究は,多様な照明条件下での複雑なフレア除去を可能にする。
    • 提案手法SLCFormerは,周波数領域でのグローバルコンテキストと空間領域での局所構造を効果的に統合する。
    • ZernikeVAEを用いたフレア生成パイプラインにより,物理的に現実的なフレアを合成し,光学物理学とデータ駆動型学習を繋ぐ。
    • Flare7K++データセットでの実験により,既存手法を凌駕する性能と汎化能力が示された。

    Link: https://arxiv.org/abs/2512.15221

  • O-EENC-SD:話者分離のための効率的なオンラインエンドツーエンドニューラルクラスタリング [cs.LG, cs.SD, eess.SP]目的:話者分離のためのオンラインエンドツーエンドニューラルクラスタリングシステム
    • 会話や会議の音声データから,誰がいつ話しているかを正確に把握することは重要である。
    • 従来のシステムは,パラメータ調整が煩雑であったり,計算コストが高く実用性に課題があった。
    • ハイパーパラメータ調整が不要で,計算効率の良いオンライン話者分離システムの開発を目指す。
    • 提案システムO-EENC-SDは,既存の手法と比較してハイパーパラメータ調整が不要である。
    • O-EENC-SDは,計算コストの高い既存のオンラインエンドツーエンド手法よりも効率的である。
    • CallHomeデータセットを用いた評価により,O-EENC-SDが最先端技術と同等の性能を持つことが示された。

    Link: https://arxiv.org/abs/2512.15229