arXiv雑要約

画像・音声 - 2026/04/28 公開

  • ボクセル変形を考慮したニューラル交差関数 [cs.GR]目的:パラメータ化された変形可能/アニメーションジオメトリのサポート
    • リアルタイムレンダリングにおいて,複雑な形状を効率的に表現する技術の重要性が高まっている。
    • 従来のニューラルレンダリングは,形状変化に弱く,再学習が必要となる場合が多い。
    • 本研究は,形状変化に対してロバストなニューラルレンダリング手法の確立を目指す。
    • 本手法は,メッシュレスレンダリングに触発されたレストスペースと変形スペースの定式化を導入し,ポーズ間で一貫したジオメトリ表現を実現する。
    • スケール不変距離回帰,不確実性重み付けマルチタスク学習,ハイブリッド位置グリッドエンコーディングにより,変形を考慮した学習における精度を維持する。
    • LSNIFのコンパクトさと効率性を維持しつつ,動的なジオメトリに対する堅牢なニューラル交差予測を可能にする。

    Link: https://arxiv.org/abs/2604.24666

  • 乳がん生存予測のための病理学的基盤モデルのベンチマーク [cs.CV, cs.LG]目的:乳がん生存予測における病理学的基盤モデルの性能評価
    • 病理画像解析は,がん診断や予後予測において重要な役割を担う。
    • 既存の病理学的基盤モデルの比較評価が不足しており,汎化性能の検証が必要である。
    • 複数の臨床コホートを用いた厳密な検証により,臨床応用可能なモデル選定を支援する。
    • H-optimus-1が最も高い生存予測性能を示した。
    • 第二世代のモデルは,第一世代のモデルよりも優れた性能を発揮する傾向が見られた。
    • 小規模なH0-miniが,大規模なH-optimus-0を上回る結果が得られ,効率的なモデル展開の可能性を示唆した。

    Link: https://arxiv.org/abs/2604.24679

  • 深層学習に基づく中期画像からの自動染色体検出のためのオープンソースプラットフォームAycromo [cs.RO, cs.CV]目的:深層学習を用いた中期染色体画像の自動検出プラットフォームの開発
    • 遺伝疾患の診断において染色体解析は不可欠であり,臨床応用が求められている
    • 従来の染色体解析は専門家による手作業に依存し,時間と労力がかかる
    • 本研究は,臨床利用に適した染色体解析の自動化と効率化を目指す
    • Aycromoは,ElectronとONNX Runtimeに基づいて構築されたAI支援染色体解析プラットフォームである
    • YOLOv11を用いた実験では,mAP@50で99.40%という高い検出精度が確認された
    • 本プラットフォームにより,一枚の染色体スライドの解析時間を大幅に短縮することが可能となった

    Link: https://arxiv.org/abs/2604.24685

  • NeuroClaw技術報告書 [cs.CL, cs.CV]目的:実行可能かつ再現性のある神経画像研究のためのドメイン特化型マルチエージェント研究支援システム
    • 科学的ワークフローの加速が期待されるエージェント型AIだが,神経画像解析には特有の課題が多い。
    • 神経画像データは形式が多様であり,多段階パイプライン,再現性の問題が根強い。
    • データ形式やメタデータを活用し,ユーザーが特別な準備やコーディングをすることなく研究を進められる環境を提供する。
    • NeuroClawは,生の神経画像データを直接扱い,環境管理やツール構成を自動化することで,透明性と再現性を向上させる。
    • ユーザーインターフェース,高レベルオーケストレーション,低レベルツールスキルを分離した3層構造により,複雑なワークフローを安全かつ再利用可能な単位に分解する。
    • NeuroBenchという実行可能性,アーティファクトの妥当性,再現性準備状況のベンチマークシステムを導入し,複数のLLMでスコア改善を確認した。

    Link: https://arxiv.org/abs/2604.24696

  • WildLIFT:種に依存しない野生動物モニタリングのための単眼ドローン映像の3D化 [cs.CV]目的:野生動物モニタリングのための3D検出と追跡
    • ドローンによる野生動物モニタリングは広範に行われ,生態学研究に不可欠である。
    • 既存の解析は2D画像に限定され,映像内の幾何学的情報を十分に活用できていない。
    • 単眼ドローン映像から3D情報を抽出し,効率的なモニタリングを実現すること。
    • WildLIFTは,単眼ドローン映像から3Dシーン構造を構築し,種に依存しない3D検出・追跡を可能にする。
    • 本手法は,多動物シーンにおいて高い識別一貫性を維持し,3Dアノテーションの労力を大幅に削減する。
    • 従来のドローン映像を構造化された3D表現に変換することで,行動研究や個体数モニタリングの分析能力を拡張する。

    Link: https://arxiv.org/abs/2604.24718

  • DiffuSAM:拡散に基づくプロンプト不要SAM2を用いた少数ショットおよびソースフリーな医用画像セグメンテーション [cs.CV]目的:少数ショットおよびソースフリーな医用画像セグメンテーションの実現
    • 医用画像解析は,診断精度向上や治療計画最適化に不可欠であり,その重要性は高い。
    • 既存のセグメンテーションモデルは自然画像で訓練されているため,医用画像への転移性能が課題である。
    • プロンプトや大規模なファインチューニングなしで,医用画像のセグメンテーション精度を高めることを目指す。
    • DiffuSAMは,拡散モデルを用いてSAM2を医用画像向けに適応させ,プロンプト不要なセグメンテーションを実現した。
    • 凍結されたSAM2の特徴量から,軽量な拡散事前分布を用いてセグメンテーションマスク様の埋め込みを合成する。
    • BTCVおよびCHAOSデータセットにおいて,SF-UDAおよびFew-Shot設定で競争力のある性能を示した。

    Link: https://arxiv.org/abs/2604.24719

  • 線形契約の分布ロバスト性 [cs.GT]目的:線形契約の最適性に関する分布ロバスト性の正当化
    • 契約理論は経済学の重要な分野であり,インセンティブ設計や効率的な資源配分に不可欠である。
    • 最適な契約は非線形になりがちだが,現実の契約は線形であることが多い。この乖離を説明する必要がある。
    • 分布に関する不確実性を考慮することで,線形契約が最適となる理由を理論的に示すことを目指す。
    • 本研究では,主人がエージェントの努力を条件とする線形契約が,分布に関する不確実性下で最適であることを示した。
    • 任意の契約に対して,少なくとも同程度の最悪ケースのペイオフを得られる線形契約が存在する。
    • 複数の主体が存在する場合にも,線形契約(アフィン契約)が各主体の最悪ケースのペイオフを改善することが示された。

    Link: https://arxiv.org/abs/2604.24732

  • 北極オークションに対する強力な多項式時間アルゴリズム [cs.GT, cs.DS]目的:北極オークションの均衡計算
    • 資源配分の効率化は経済学における重要な課題であり,オークション設計はその解決策の一つである。
    • 既存のアルゴリズムはパラメータ設定に依存し,実用的な時間内で均衡を求めることが困難な場合がある。
    • 北極オークションにおける効率的な均衡計算アルゴリズムを開発し,迅速なパラメータ調整を可能にすること。
    • 本研究では,線形フィッシャー市場モデルの準線形拡張である北極オークションに対し,強力な多項式時間アルゴリズムを開発した。
    • このアルゴリズムは,Orlin (2010) の線形フィッシャー市場に対する強力な多項式時間アルゴリズムを基盤としている。
    • 本アルゴリズムにより,銀行等における実用的なオークション設計とパラメータ調整がより迅速に行えるようになる。

    Link: https://arxiv.org/abs/2604.24756

  • オムニショットカット:ショットクエリTransformerによる包括的な関係ショット境界検出 [cs.CV]目的:ショット境界の包括的な関係予測
    • 映像コンテンツの編集や分析において,ショット境界の正確な検出は不可欠である。
    • 既存手法は解釈困難な境界を生成したり,微細な不連続を見落としたりする課題がある。
    • 手動アノテーションの課題を回避し,より正確な評価のためのベンチマークを構築すること。
    • 提案手法オムニショットカットは,ショット範囲と関係性をTransformerで予測する。
    • 合成データを用いた遷移合成パイプラインにより,高精度な境界を再現した。
    • オムニショットカットベンチマークは,多様なドメインでの包括的な評価を可能にする。

    Link: https://arxiv.org/abs/2604.24762

  • Tuna-2: ピクセル埋め込みがマルチモーダル理解と生成におけるビジョンエンコーダを凌駕する [cs.CV]目的:マルチモーダル理解と生成のための新たなアプローチ
    • 画像とテキスト等の多様な情報を統合するマルチモーダル学習は,AI研究の重要な分野である。
    • 従来のモデルは,理解と生成で異なる視覚表現を用い,タスク間の整合性に課題があった。
    • 生のピクセル情報から直接学習することで,より効率的かつ高性能なマルチモーダルモデルを構築する。
    • Tuna-2は,従来のモデルと比較して,マルチモーダルベンチマークにおいて最先端の性能を達成した。
    • ピクセル空間での統一的なモデリングが,潜在空間アプローチと同等以上の高品質な画像生成を可能にすることを示した。
    • 大規模な学習においては,Tuna-2はより高度なマルチモーダル理解能力を発揮し,特に微細な視覚認識を必要とするタスクで優位性を示した。

    Link: https://arxiv.org/abs/2604.24763

  • World-R1:テキストからビデオ生成のための3次元制約の強化 [cs.CV]目的:テキストからビデオ生成における3次元制約の一貫性向上
    • ビデオ生成技術の発展は,多様なコンテンツ制作を可能にするため重要である。
    • 既存のビデオ生成モデルは,3次元空間における幾何学的矛盾を抱えることが多い。
    • 3次元制約を強化し,現実世界の構造と整合性のとれたビデオ生成を実現すること。
    • World-R1は,強化学習を用いてビデオ生成を3次元制約と整合させるフレームワークである。
    • 専用のテキストデータセットとFlow-GRPOを用いることで,既存のアーキテクチャを変更することなく,3次元の一貫性を向上させる。
    • 周期的なデカップリング訓練戦略により,幾何学的正確性と動的なシーンの流動性を両立している。

    Link: https://arxiv.org/abs/2604.24764

  • マルチウォデンによる秘匿通信におけるソフトフュージョンの構造的限界 [eess.SP, cs.CR, cs.GT]目的:マルチウォデン環境におけるソフトフュージョンを用いた秘匿無線通信の限界
    • 無線通信の安全保障は重要であり,秘匿通信はその中でも特に重要な課題である。
    • 既存の検知技術は,送信者と受信者の戦略に依存し,検知性能が向上しにくいという課題がある。
    • ソフトフュージョンによる検知の構造的限界を明らかにし,より効果的な検知アーキテクチャの必要性を示す。
    • FC(Fusion Center)がウォデンの数をランダム化しても,検知上有利な点はないことが示された。
    • 送信者と妨害者が適切な電力範囲を設定することで,高い確率で秘匿通信を維持できることが証明された。
    • FCの運用コストが増加しても,検知性能の向上が限定的であるという「レッドクイーン効果」が明らかになった。

    Link: https://arxiv.org/abs/2604.22790

  • 同期:単語レベルタイムスタンプ予測を用いたASRのための音声認識大規模言語モデルの適応 [eess.AS, cs.CL, cs.LG, cs.SD]目的:単語レベルタイムスタンプ予測を伴う音声認識大規模言語モデルの適応
    • 音声認識技術は,コミュニケーションの自動化や情報アクセスの向上に不可欠である。
    • 従来のタイムスタンプ予測は外部ツールに依存し,精度や効率に課題があった。
    • 大規模言語モデル内で直接タイムスタンプ予測を行うことで,精度向上と効率化を目指す。
    • 提案手法は,複数のデータセットにおいてタイムスタンプ予測の精度を向上させた。
    • 新たな軽量な学習戦略は,認識品質を維持しつつ,タイムスタンプ予測のロバスト性を高めた。
    • 音声認識と精密なタイムスタンプ予測を効率的に統合するアプローチの有効性が示された。

    Link: https://arxiv.org/abs/2604.22817

  • 小児患者における汎用性の高いCTフリーPET減衰・散乱補正 [eess.IV, cs.CV]目的:小児PET画像の減衰・散乱補正における,ドメインに依存しない汎用的な手法の開発
    • PET画像定量化には正確な減衰・散乱補正が不可欠であり,特に小児における放射線被ばく低減が重要である。
    • 既存のCTフリー法は,均一な環境で学習されることが多く,スキャナやトレーサの変化に弱く,臨床応用が限られている。
    • 本研究は,スキャナやトレーサに依存せず,小児PET画像の減衰・散乱補正を正確に行うことを目指す。
    • 提案手法GPCNは,多バンドコンテキストリファインメントモジュールと周波数認識スペクトルデカップリングモジュールを組み合わせ,小児の解剖学的変動とドメイン特異的ノイズを分離する。
    • GPCNは,2つのスキャナと5つの放射性トレーサを用いた1085例の小児全身PET画像で評価され,従来のベースライン法を上回り,未知のスキャナ・トレーサ組み合わせでも安定した定量精度を維持した。
    • 本研究の結果は,小児PETにおける信頼性の高いCTフリー補正の臨床的価値を示唆しており,従来のプロトコルと比較して平均10.8mSvの有効線量を削減できる可能性がある。

    Link: https://arxiv.org/abs/2604.22894

  • 肝胆相MRI画像合成のための三相逐次融合ネットワーク [eess.IV, cs.CV]目的:肝胆相MRI画像の合成
    • 肝細胞癌の検出・特徴付けには肝胆相MRIが不可欠であり,臨床応用が広がっている。
    • 肝胆相MRIの撮像には遅延が必要で,撮影効率の低下やモーションアーチファクトのリスクがある。
    • 前相からの情報を活用し,遅延を必要としない肝胆相MRI画像の合成を目指す。
    • 提案手法TriPF-Netは,動脈相および静脈相の情報を適応的に統合することで,ロバストな肝胆相MRI画像合成を実現した。
    • 内部データセットでは,MAE 10.65,PSNR 23.27,SSIM 0.76を達成し,外部検証データセットでも同等の性能を示した。
    • 本手法は臨床ワークフローの改善と病変描出の向上に貢献し,遅延肝胆相撮像の必要性を低減する可能性がある。

    Link: https://arxiv.org/abs/2604.22904

  • CT誘導による空間変動正則化を用いたボクセル単位の全身PET画像登録 [eess.IV, cs.AI, cs.CV]目的:全身PET画像登録の精度向上
    • 多パラメータ腫瘍評価や転移病変の進行評価に必須であるため,全身PET画像登録の重要性は高い。
    • 全身画像では解剖学的異質性が高く,硬組織と軟組織で適切な正則化の強さを設定することが課題である。
    • CT画像を用いて,ボクセルごとの正則化マップを構築し,解剖構造に応じた正則化を実現することで,この課題を解決する。
    • 提案手法は,18F-PSMAと18F-FDGを用いた臨床データセット(296例)において,従来の弱教師あり学習ベースラインと比較して統計的に有意な改善を示した。
    • 全身登録性能および臓器単位のアライメントにおいて,提案手法が優れていることが確認された。
    • CT画像を用いることで,硬組織には強い正則化,軟組織には弱い正則化を適用し,解剖構造に応じた柔軟な変形を実現した。

    Link: https://arxiv.org/abs/2604.22905

  • 統計的埋め込みによるポピュラーソングの分析 [stat.AP, cs.SD]目的:ポピュラーソングの統計的分析手法
    • 音楽の構造は複雑であり,統計的分析が困難であった。
    • 従来の統計手法では,楽曲の構造を解析しにくいという課題がある。
    • 楽曲の特徴量をベクトル化し,統計的分析を可能にすること。
    • 楽曲のグローバルな特徴量から埋め込みを構築し,多変量解析を適用した。
    • ビートルズの楽曲を用いて,アルバムごとのクラスタリングや作曲スタイルの変遷を分析した。
    • レノンとマッカートニーの作曲スタイルが収束または発散したかについても検討した。

    Link: https://arxiv.org/abs/2604.22925

  • 物理情報に基づいた時間的U-Netによる高精度流体補間 [physics.flu-dyn, cs.CV, cs.LG, math.DS, nlin.CD, physics.data-an]目的:高精度流体補間手法の開発
    • 流体解析は,気象,海洋,航空など幅広い分野で重要であり,高精度なシミュレーションが求められる。
    • 従来の深層学習による補間手法では,空間のぼかしや時間的なちらつきが発生しやすい。
    • 流体の物理法則を考慮し,滑らかな遷移と端点の一貫性を保証することで,より高精度な補間を実現する。
    • 提案手法は,標準的なL1ベースラインと比較して,平均絶対誤差を0.015まで低減し,0.085を達成した。
    • 空間パワースペクトル密度分析により,提案手法が高周波の乱流詳細を保持できることが示された。
    • VGGに基づく知覚損失と物理情報ブリッジの統合により,構造とテクスチャの忠実度が向上した。

    Link: https://arxiv.org/abs/2604.23372

  • 拡散光学トモグラフィのためのガウススプラッティングに基づく画像再構成法GS-DOT [eess.IV, cs.CV, physics.med-ph]目的:拡散光学トモグラフィにおける画像再構成
    • 生体組織内の光学特性評価は,医療診断や治療において重要である。
    • 従来の画像再構成法は,計算コストが高い,またはノイズに弱いという課題があった。
    • ガウススプラッティングを活用し,高精度かつ効率的な画像再構成を実現する。
    • 提案手法GS-DOTは,吸収係数を疎なガウス分布の和として表現することで,高精度な再構成を可能にした。
    • シミュレーション実験により,GS-DOTがノイズに強く,記憶容量を大幅に削減できることが示された。
    • 光拡散の特性を考慮したガウススプラッティングの適用は,本研究が初めてである。

    Link: https://arxiv.org/abs/2604.23675

  • ポアソン画像再構成のための共有カーネルウェーブレットニューラルネットワーク [q-bio.PE, cs.CC, eess.IV, cs.CV, cs.MM, stat.AP]目的:ポアソン画像の再構成手法
    • 画像処理において,効率的な表現と再構成は重要な課題である。特に,高解像度画像や大規模データの処理には,計算コスト削減が不可欠である。
    • 従来の画像再構成手法は,計算量が多く,リアルタイム処理が困難な場合がある。また,高い精度を維持しつつモデルサイズを小さくすることが課題である。
    • スパースなラプラシアン場を活用し,軽量かつ高速な画像再構成を実現すること。
    • ラプラシアン場が画像に対してスパースかつ安定した分布を持つことが確認された。
    • 提案手法は,0.0002M以下のパラメータ数で高精度な画像再構成を可能にし,従来のモデルよりも高い精度を達成した。
    • 線形計算複雑度を持つため,リアルタイム再構成を実現する可能性を示した。

    Link: https://arxiv.org/abs/2604.24000

  • 価格を焦点として:予測市場,条件付き反射性,そして共通認識の政治 [math.OC, cs.SY, eess.SY, econ.GN, cs.GT, q-fin.EC, q-fin.TR]目的:予測市場における価格形成と,それが政治的行動に与える影響の分析
    • 社会現象や政治的イベントの予測は重要であり,意思決定の基盤となる。
    • 予測市場の予測精度が評価の中心となりがちだが,調整機能としての側面が軽視されている。
    • 価格変動が人々の行動に影響を与えるメカニズムを解明し,市場の信頼性を評価する指標を提案する。
    • 予測市場の社会的影響力は,価格変動の大きさよりも持続性,参加者の多様性,そしてプラットフォーム間の合意に依存することが示された。
    • 新規指標「シグナル信頼性指数(SCI)」は,価格変動が行動に影響を与えるタイミングを予測する上で有効であることが確認された。
    • 最も注目度の高い市場が必ずしも最も正確な予測を提供するとは限らず,社会的な権威と知識的信頼性の乖離が確認された。

    Link: https://arxiv.org/abs/2604.24147

  • 深層学習を活用したバイオファウリング環境下における溶存酸素センシング:海洋モニタリングへの応用 [eess.IV, cs.AI, cs.CV, eess.SP]目的:バイオファウリング環境下における高精度な溶存酸素センシング手法
    • 地球温暖化と生態系の劣化が進み,長期的な環境モニタリングが不可欠である。
    • 従来の安価な溶存酸素センサーは,信号のドリフトや海洋生物付着の問題を抱えている。
    • バイオファウリングの影響を受けにくい,信頼性の高い溶存酸素センシングを実現すること。
    • カメラベースの溶存酸素センサーとVisual Transformer (ViT) を組み合わせた新しいセンシングパラダイムを提示した。
    • ViT-PINNは,Stern-Volmer式を損失関数に組み込むことで,従来の統計的・機械学習手法と比較して平均絶対誤差を大幅に低減した。
    • 深層アンサンブルを用いることで予測の不確実性を定量化し,自己診断機能を可能にした。

    Link: https://arxiv.org/abs/2604.24236

  • グローバルプロポーションに基づく学習正則化を用いた組織病理画像セマンティックセグメンテーション [eess.IV, cs.CV, cs.LG]目的:組織病理画像におけるセマンティックセグメンテーション手法
    • 病理診断において,組織タイプ分布は疾患進行の重要な指標であり,詳細なアノテーションより容易に把握可能である。
    • 組織タイプ分布のみからは,多数のセグメンテーションが考えられ,ピクセルレベルの制約がないため問題解決が困難である。
    • グローバルプロポーションから高精度なセグメンテーションを推定し,解釈可能性の高い手法を開発することを目指す。
    • 提案手法VSLPは,ピクセルレベルのアノテーションなしにグローバルプロポーションからセグメンテーションを推定する二段階フレームワークである。
    • 事前学習済みTransformerとテスト時拡張によりピクセルレベルの信頼度を推定し,Wassersteinデータ忠実度項と学習正則化項を含む変分最適化問題を解く。
    • 公開データセットで既存手法を上回り,また,病理医のノイズを含むデータセットでも優れた性能を示し,実用性を証明した。

    Link: https://arxiv.org/abs/2604.24347

  • 分散型予測市場の構造:Polymarketオーダーブックからのミクロ構造的証拠 [q-fin.TR, cs.GT, q-fin.GN]目的:分散型予測市場Polymarketのミクロ構造の分析
    • 予測市場は,情報の集約と将来予測の有用性が期待されるため,学術的・実用的に重要である。
    • 既存の予測市場におけるオーダーブックのミクロ構造は十分に解明されていない。
    • Polymarketのオーダーブックデータを分析し,予測市場特有の構造を明らかにすること。
    • Polymarketのオーダーブックは,一様分布に近い奥行き濃度プロファイルを示すことが明らかになった。
    • 公開されているオーダーブックデータから推測される取引方向は,オンチェーンデータと一致率が低い(約59%)。
    • 取引方向の推定には,オンチェーンのOrderFilledイベントを利用する必要がある。

    Link: https://arxiv.org/abs/2604.24366

  • 容易なアンサンブル:センサーベースのヒューマンアクティビティ認識のためのシンプルな深層アンサンブル学習 [cs.HC, cs.CV]目的:センサーベースのヒューマンアクティビティ認識における深層アンサンブル学習の簡素化
    • IoTサービスにおいて,人間の活動を認識する技術は不可欠である。生活の質向上や新たなサービスの創出に貢献する。
    • 従来の深層アンサンブル学習は,データ分割や複数モデルの訓練など,時間と計算コストがかかるという課題があった。
    • 単一モデルで深層アンサンブル学習を容易に実現し,計算コストを削減することで,より実用的なHARシステムを構築する。
    • 提案手法Easy Ensemble(EE)は,既存のアンサンブル学習と比較して同等以上の認識精度を達成した。
    • 入力変動,段階的アンサンブル,チャネルシャッフルといった技術が,EEの性能向上に寄与していることが示された。
    • EEは,既存手法と比較して,計算コストを抑えつつ高い汎化性能を実現する有効な手法である。

    Link: https://arxiv.org/abs/2203.04153

  • 潜在拡散モデルを用いた言語指示によるビデオ予測: Seer [cs.DB, cs.CV]目的:言語指示に基づくビデオ予測モデルの開発
    • ロボットの計画立案と目標達成には未来の軌跡予測が不可欠である。
    • 汎用的なロボットのポリシー学習を促進するためのテキスト条件付きビデオ予測の性能向上が課題である。
    • 事前学習済みモデルの知識を活用し,効率的なビデオ予測を実現することを目指す。
    • Seerは,事前学習済みのテキスト-画像モデルを時間軸に沿って拡張することで,計算効率の高いビデオ予測を可能にする。
    • フレームごとの指示分解モジュールにより,文全体の指示を時間的に整合性のとれた部分指示に分解し,高精度なビデオ生成を実現した。
    • SSv2データセットにおいて,FVDスコアが31%向上し,人間による評価でも83.7%の好ましい結果が得られた。

    Link: https://arxiv.org/abs/2303.14897

  • SRL-CLIP:構造化された意味役割ラベルによるCLIP動画効率的適応 [cs.CV]目的:CLIP動画への効率的な適応
    • 動画理解において,意味的で豊かな表現を持つCLIPの活用が重要視されている。
    • 既存手法では,動画理解に必要な情報がテキストデータに不足しており,学習効率が低い。
    • 構造化された意味役割ラベルを用いて,より効率的な動画理解を実現することを目指す。
    • 構造化された意味役割ラベルからルールベースのキャプションを生成し,わずか23,000ペアの動画-キャプションペアでの対照学習で強力な表現を獲得した。
    • SRL-CLIPは,パラメータ数やデータ量がより多い最先端モデルと同等またはそれ以上の性能を,ゼロショットテキスト-動画検索において示した。
    • 複数の動画ベンチマークでCLIPを上回り,効率的な学習と表現の改善を実証した。

    Link: https://arxiv.org/abs/2401.07669

  • エッジ属性を持つ二部グラフにおけるスカイラインコミュニティ検索 [cs.SI, cs.GR]目的:エッジ属性を持つ二部グラフにおけるスカイラインコミュニティの探索
    • 二部グラフは多様な関係性を表現でき,実用的な応用範囲が広い。
    • 既存研究では,エッジ属性が無視されるか,単一次元の重要度しか考慮されない。
    • 多次元エッジ属性を考慮し,構造的結束性と優位性を同時に捉えるコミュニティモデルを提案する。
    • 本研究では,エッジ属性を持つスカイラインコミュニティ(ESC)という新しいモデルを導入した。
    • 効率的なピリングアルゴリズムと拡張アルゴリズムを開発し,検索空間の削減と処理速度の向上を実現した。
    • 大規模な実データ実験により,提案手法の効率性,有効性,スケーラビリティが実証された。

    Link: https://arxiv.org/abs/2401.12895

  • LLM駆動による主題条件付けを用いたテキスト画像合成 [eess.SY, cs.SY, cs.CV, cs.CL, cs.MM]目的:テキスト画像合成における主題理解の改善
    • 画像合成技術は目覚ましい進歩を遂げているが,実世界の複雑なキャプションへの対応が課題である。
    • 既存の画像テキストエンコーダは,複数主題,文脈,抽象的な表現の理解に困難を抱えている。
    • LLMを活用し,主題の表現を強化することで,画像キャプションの一貫性を向上させることを目指す。
    • 大規模データセットANCHORの分析により,既存モデルが多主題理解や文脈推論で課題を抱えていることが明らかになった。
    • 提案手法SAFEは,LLMを用いて主題を抽出し,埋め込みレベルで表現を強化する。
    • 実験の結果,SAFEは画像キャプションの一貫性および人間による評価において顕著な改善を示した。

    Link: https://arxiv.org/abs/2404.10141

  • 大規模ビジョン言語モデルにおける医療用ハルシネーションの検出と評価 [cs.CV]目的:大規模ビジョン言語モデルにおける医療用ハルシネーションの検出と評価
    • 医療現場でのAI活用が進む中,その信頼性は不可欠である。誤情報は患者に深刻な影響を及ぼす可能性がある。
    • 大規模言語モデルに起因するハルシネーションは,特に医療分野において重大な問題となりうる。
    • 医療分野特有のハルシネーション検出・評価手法の確立と,その影響の定量化を目指す。
    • 本研究では,医療分野に特化したハルシネーション検出・評価ベンチマーク「Med-HallMark」を新たに提案した。
    • ハルシネーションの重症度や種類を考慮した階層型スコアリングシステム「MediHall Score」を開発し,既存指標より詳細な評価を可能にした。
    • マルチタスク学習によるハルシネーション検出に特化したモデル「MediHallDetector」を開発し,その有効性を実験的に示した。

    Link: https://arxiv.org/abs/2406.10185

  • 残差知識の回収:低ビット量子化のための新しいパラダイム [cs.CV, cs.AI]目的:低ビット量子化における性能劣化の抑制
    • 深層学習モデルの効率化が重要であり,特にモデルサイズの削減は,リソースの限られた環境での利用を可能にする。
    • 既存の量子化手法では,浮動小数点数と量子化された重みの間の情報損失(残差知識)が無視されてきた。
    • 残差知識を効率的に回収し,最適化空間を縮小することで,低ビット量子化の効率性と性能を向上させる。
    • 提案手法CoRaは,従来の量子化手法と比較して,大幅に少ない計算量で同等の性能を達成できる。
    • CoRaは,ImageNetデータセットを用いた実験において,4ビットおよび3ビット量子化で最先端の性能を確立した。
    • 低ランクアダプターを用いることで,量子化残差重みを近似し,わずかなパラメータ増加で性能劣化を抑制する。

    Link: https://arxiv.org/abs/2408.00923

  • PDF-WuKong:エンドツーエンドの疎なサンプリングによる効率的な長PDF読解のための大規模マルチモーダルモデル [cs.CV, cs.AI, cs.CL]目的:長編PDF文書に対するマルチモーダル質疑応答の性能向上
    • 大量のテキストと視覚情報を処理する必要があり,高度な理解が求められる分野である。
    • 既存手法は,プレーンテキストか限定的な画像に焦点を当て,長編PDFの処理に課題がある。
    • 長編PDF文書の質疑応答において,効率と能力を向上させることを目指す。
    • PDF-WuKongは,テキストと画像表現の両方に対して動作する疎なサンプラーを組み込んでいる。
    • 疎なサンプラーは,ユーザーのクエリに最も関連性の高い段落や図を選択する。
    • PaperPDFデータセットを用いて学習・評価を行い,既存モデルを平均8.6%上回るF1スコアを達成した。

    Link: https://arxiv.org/abs/2410.05970

  • 変動する状況下での公平な分割 [cs.GT, cs.DS]目的:エージェントやアイテムの集合が時間とともに変化する状況下における,アイテムの公平な分割の復元
    • 資源配分は,社会の公平性を実現する上で不可欠な課題であり,幅広い分野で重要視されている。
    • 従来の公平分割問題では,エージェントやアイテムの集合が固定されていることが前提であり,現実の動的な状況に対応できない。
    • 本研究は,エージェントやアイテムが変動する状況下でも,公平性を維持するための効率的なアルゴリズムを開発することを目的とする。
    • エージェントの評価が一様で単調増加であり,アイテムが全て利益となるか,全て負担となる場合,EF1復元問題に対する効率的なアルゴリズムが存在する。
    • 一様で加法的な評価関数であっても,有効な転送回数を最小化する問題はNP困難であることが示された。
    • バイナリ加法的な評価関数においては,EF1復元が可能かどうかを判定する問題はNP困難であり,可能な場合でも最小転送回数の計算も困難である。

    Link: https://arxiv.org/abs/2410.14421

  • pTSE-T:非整列テキスト手がかりを用いた話者分離 [cs.NI, cs.SD, cs.MM, eess.AS]目的:非整列テキスト手がかりを利用したターゲット話者分離技術
    • 近年,音声混合から特定の話者の音声を分離する技術が求められている。会議や講演など,実用的な場面での利用が期待される。
    • 従来の技術では,高品質な分離のために事前録音された音声や視覚情報が必要であり,リアルタイムでの取得が困難な場合が多い。
    • 本研究では,プレゼンテーションのスライド要約などの限られた非整列テキストから意味的情報を抽出し,話者分離に活用することを試みる。
    • 提案手法では,音声特徴量とテキスト由来の意味的情報を融合させることで,時間周波数マスクを生成し,不要なノイズを除去する。
    • 実験結果から,限られた非整列テキストから抽出された意味的情報を用いることで,ターゲット話者の音声を高精度に分離できることが示された。
    • SI-SDRiが12.16 dB,SDRiが12.66 dB,PESQiが0.830,STOIiが0.150という結果が得られた。

    Link: https://arxiv.org/abs/2411.03109

  • NVILA:効率的なフロンティア視覚言語モデル [eess.SY, cs.SY, cs.CV]目的:視覚言語モデルの効率と精度を両立するための設計
    • 近年,視覚言語モデルは著しい進歩を遂げているが,その効率性は十分とは言えない。
    • 既存の視覚言語モデルは,高解像度画像や長尺動画の処理において計算コストが高いという課題がある。
    • 本研究は,効率性と精度を同時に最適化することで,視覚言語モデルの性能向上を目指す。
    • NVILAは,VILAを基盤とし,空間的・時間的解像度を向上させた後,視覚トークンを圧縮する「スケール-圧縮」アプローチを採用。
    • NVILAは,幅広い画像・動画ベンチマークにおいて,既存のオープンソースおよび商用視覚言語モデルと同等以上の精度を達成。
    • また,学習コストを1.9〜5.1倍,プリフィル遅延を1.6〜2.2倍,デコード遅延を1.2〜2.8倍削減することに成功。

    Link: https://arxiv.org/abs/2412.04468

  • 拡散と整合性精錬による音楽分離の改善 [cs.SD, eess.AS]目的:音楽分離のための拡散モデルと整合性蒸留の活用
    • 音楽分離は,音楽制作や分析において重要な役割を担う技術である。
    • 従来の音楽分離技術は,分離品質と計算コストのトレードオフが存在する。
    • 本研究は,計算コストを抑えつつ分離品質を向上させることを目指す。
    • 拡散モデルによる精錬が分離品質の向上に寄与することが確認された。
    • 整合性蒸留の適用により,推論ステップ数を削減しつつ,品質を維持・向上させた。
    • 提案手法は,様々な分離器アーキテクチャに対して有効であることが示された。

    Link: https://arxiv.org/abs/2412.06965

  • ビデオの時間的グラウンディングのためのマルチスケールコントラスティブ学習 [cs.CV]目的:ビデオの時間的グラウンディングの性能向上
    • 映像と言語の相互理解は,多様な応用において重要な役割を果たす。
    • 既存手法では,長時間の動画表現において情報損失が生じやすい。
    • マルチスケールコントラスティブ学習により,情報損失を軽減し性能向上を目指す。
    • 提案手法は,ビデオエンコーダの多段階からの特徴空間を利用し,データ拡張やオンラインメモリバンクを必要としない。
    • 異なるスケールの動画表現間を繋ぐ新たなコントラスティブ学習により,局所的特徴と大域的特徴を結びつける。
    • 実験により,長編・短編両方の動画グラウンディングにおいて,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2412.07157

  • 運動を考慮したコントラスト学習による時系列パノラマシーングラフ生成 [cs.CV]目的:時系列パノラマシーングラフの生成
    • AIに時間的な世界を理解させる上で,映像データの抽象化は重要である。
    • 既存手法は,時間的な特徴を十分に活用できていないという課題がある。
    • エンティティの関係性を示す運動パターンに着目し,その問題を解決する。
    • 本研究では,類似する主語・関係・客体トリプレットを持つマスクチューブの表現を近づけるコントラスト学習を導入した。
    • 時間的にシャッフルされたマスクチューブとの表現を遠ざけることで,時間的な関係性をより明確に学習する。
    • 提案手法は,ビデオおよび4Dデータセットにおいて最先端手法を大幅に上回る性能を示した。

    Link: https://arxiv.org/abs/2412.07160

  • GCP:空間・時間的認識を用いた悪意エージェント検出によるガード付き協調知覚 [cs.CV]目的:悪意のあるエージェントの空間・時間的パターンを考慮した協調知覚システムの防御
    • 自動運転の安全性向上に,車両間の情報共有による協調知覚が不可欠である。
    • 協調知覚システムは,悪意あるエージェントからの攻撃に対して脆弱である。
    • 既存手法が検知できない巧妙な攻撃に対抗する,新たな防御手法を開発する。
    • 提案手法GCPは,空間的一貫性と時間的異常の両方を検出し,悪意エージェントを高精度に検出する。
    • 既存の防御手法と比較して,BAC攻撃下で最大34.69%のAP@0.5向上を達成した。
    • 他の一般的な攻撃に対しても,5-8%の性能向上が確認された。

    Link: https://arxiv.org/abs/2501.02450

  • YOLOv8からYOLO11へ:包括的なアーキテクチャの比較検討 [cs.CV, cs.AI]目的:YOLOv8からYOLO11までの最新YOLOモデルのアーキテクチャ比較
    • 深層学習に基づくコンピュータビジョンは,画像認識等の分野で急速に発展している。
    • YOLOモデルの進化が速いため,学術論文や公式図が存在しないモデルが存在する。
    • YOLOモデルのアーキテクチャの違いを明確化し,理解を深めることを目指す。
    • YOLOv8からYOLO11にかけて,アーキテクチャと特徴抽出が改良されていることが判明した。
    • 一部のブロックは,YOLOのバージョン間で変更されていないことが確認された。
    • 学術論文や公式図の不足は,モデル理解と将来の改善の妨げとなる課題である。

    Link: https://arxiv.org/abs/2501.13400

  • Speech-FT:事前学習済みとファインチューニング済み音声表現モデルの統合による汎化性能向上 [cs.CL, cs.AI, cs.SD]目的:音声表現モデルの汎化性能維持とタスク特化性能向上
    • 音声認識をはじめとする多様な音声処理タスクにおいて,高性能なモデルが求められている。
    • ファインチューニングは性能向上に有効だが,汎化性能を低下させる課題がある。
    • 事前学習時の情報を維持しつつ,ファインチューニングによる性能向上を実現すること。
    • Speech-FTは,表現のドリフトを抑制するファインチューニングと,事前学習モデルとの重み空間補間を組み合わせる。
    • HuBERT,wav2vec 2.0など複数のモデルで,多様なファインチューニングシナリオにおいて性能向上が確認された。
    • 特にSUPERBベンチマークにおいて,自動音声認識のPERRを5.17%から3.94%に,WERを6.38%から5.75%に,話者識別精度を81.86%から84.11%に改善した。

    Link: https://arxiv.org/abs/2502.12672

  • クロスモーダルアライメントを超えて:ビジョン-言語モデルにおけるモダリティギャップの測定と活用 [cs.CV, cs.AI]目的:ビジョン-言語モデルにおけるモダリティギャップの測定と活用
    • 視覚と言語の理解はAIの重要な課題であり,両者の連携は高度な情報処理に不可欠である。
    • 既存のアライメント手法では,モダリティ間のギャップが完全には解消されておらず,モデルの性能向上を阻害している。
    • モダリティギャップを定量的に測定し,モデルの編集や制御に活用することで,性能と解釈性を高める。
    • モダリティ優勢度スコア(MDS)を導入し,マルチモーダル特徴を視覚優勢,言語優勢,クロスモーダルに分類した。
    • タスクに依存しない解釈性ツールと組み合わせることで,マルチモーダルモデルの系統的な分析と軽量編集が可能となった。
    • トレーニングフリーのモデル編集により,ジェンダー分類のバイアス軽減,敵対的例の生成,テキストから画像生成の制御など,様々なダウンストリームタスクの性能が向上した。

    Link: https://arxiv.org/abs/2502.14888

  • UMAPにおける引力の形状:次元削減における埋め込み力の探求 [cs.LG, cs.AI, cs.CV]目的:UMAP埋め込みにおける引力と斥力の効果に関する分析
    • 高次元データの可視化や解析は,複雑な現象の理解に不可欠である。
    • UMAPを含む次元削減手法は,パラメータ設定が難しく,結果の安定性に課題がある。
    • UMAPの引力と斥力のメカニズムを解明し,クラスター形成の一貫性を向上させる。
    • UMAPでは,斥力はクラスター境界とクラスター間距離の制御に寄与し,差異を強調する。
    • 引力は,点間の引張力として作用する一方で,低次元空間では斥力としても現れる。
    • 引力の調整により,ランダム初期化時のクラスター形成の一貫性を改善できることが示された。

    Link: https://arxiv.org/abs/2503.09101

  • 楕円体事前知識とニューラル残差を用いたシーンレベルの符号付き方向距離関数学習 [cs.RO, cs.CV]目的:符号付き方向距離関数(SDDF)の学習
    • 3Dビジョンとコンピュータグラフィックスにおける基本的な要素であり,高精度な再構成とレンダリングが求められる。
    • NeRFやSDFなどの既存のニューラル暗黙的表現は,レンダリング効率や幾何学的精度に課題がある。
    • 効率的かつ高精度な幾何学的再構成と方向距離予測を可能にするSDDF表現を開発すること。
    • 提案手法SDDFは,SDFやNeRFと比較して,競争力のあるSDDF予測精度と高速な予測速度を実現した。
    • 特に,NeRFやGaussian Splattingと比較して,幾何学的整合性において優れた性能を示した。
    • 楕円体事前知識とニューラル残差の組み合わせにより,障害物の境界における距離不連続性を効果的に処理し,高精度な距離予測を可能にした。

    Link: https://arxiv.org/abs/2503.20066

  • ConsDreamer:ゼロショットテキストから3D生成における多視点整合性の向上 [cs.CV, cs.AI]目的:ゼロショットテキストから3D生成における多視点整合性の改善
    • 3Dコンテンツ作成において,テキストからの直接生成は効率化に不可欠である。
    • 既存手法は,T2Iモデルの事前バイアスにより,多視点間での矛盾が生じやすい。
    • 多視点間の矛盾(多面ヤヌス問題)を緩和し,幾何学的整合性を高めることを目指す。
    • ConsDreamerは,スコア蒸留プロセスの条件付き・無条件項を洗練することで,視点バイアスを軽減する。
    • View Disentanglement Module(VDM)により,条件付きプロンプトから無関係な視点要素を分離し,正確な視点制御を可能にする。
    • 類似度に基づく部分順序損失を用いることで,無条件項における幾何学的整合性を方位関係と整合させる。

    Link: https://arxiv.org/abs/2504.02316

  • MARRS:マスクされた自己回帰ユニットに基づく反応合成 [cs.CV]目的:人間のアクションと反応の合成
    • 人間の行動理解や生成は,ロボット工学やバーチャルリアリティ等の分野において重要である。
    • 既存手法は,量子化による情報損失や計算コストの問題を抱えていた。
    • ユニット間の相互作用を考慮した,より自然な反応生成を目指す。
    • 提案手法MARRSは,連続表現を用いて協調的で詳細な反応モーションを生成する。
    • ユニット識別型変分オートエンコーダ(UD-VAE)により,身体と手の動きを独立してエンコードする。
    • アクション条件付き融合(ACF)と相互ユニット変調(MUM)により,より高品質な反応生成を実現した。

    Link: https://arxiv.org/abs/2505.11334

  • 潜在的ステルス性:表現力豊かな人体ポーズと形状推定に対する気づかれにくい効率的な敵対的攻撃 [cs.CV]目的:表現力豊かな人体ポーズと形状推定モデルに対する敵対的攻撃手法の開発
    • デジタルヒューマン生成技術は,ライブストリーミングなど様々な応用で重要性が増している。
    • 既存のEHPSモデルは推定誤差の最小化に重点を置いており,セキュリティ脆弱性への対策が不十分である。
    • 目に見える摂動を伴う既存の攻撃手法の課題を克服し,実用的なセキュリティリスクを明らかにする。
    • 提案手法LatentStealthは,潜在空間で敵対的パターンを生成・洗練することで,高い隠蔽性と攻撃効果を両立する。
    • モデルへのクエリ数を抑えた効率的な最適化により,低コストで実用的な攻撃を可能にする。
    • 3DPWおよびUBodyデータセットでの実験により,現在のシステムにおける重大な脆弱性が示された。

    Link: https://arxiv.org/abs/2505.12009

  • VisRet:可視化が知識集約型テキスト画像検索を改善する [cs.CV, cs.CL]目的:テキスト画像検索における性能向上
    • 画像とテキストの関連性を理解することは,AI分野における重要な課題である。
    • 既存の検索手法では,視覚的な構造や空間的関係の把握が不十分である。
    • テキストを画像に変換することで,より正確な画像検索を実現する。
    • VisRetは,既存のクロスモーダル類似度照合を大幅に上回り,高い性能を示す。
    • CLIPやE5-Vを用いた場合,nDCG@30が平均で0.125,0.121それぞれ改善された。
    • 下流の質問応答タスクにおいて,VisRetは検索精度を大幅に向上させた。

    Link: https://arxiv.org/abs/2505.20291

  • SIV-Bench:社会的な相互作用の理解と推論のためのビデオベンチマーク [cs.CV, cs.AI]目的:社会的な相互作用の理解と推論能力を体系的に評価するビデオベンチマーク
    • 人間と機械の円滑な対話には,社会的な相互作用の理解が不可欠である。
    • 既存のベンチマークでは,社会的な相互作用の多面性を十分に評価できていない。
    • 多角的視点からMLLMの社会性を評価し,その能力向上を促す。
    • SIV-Benchは,社会場面理解,社会的状態の推論,社会的動態予測の3つの側面からMLLMを評価する。
    • 既存のMLLMは,社会場面理解は比較的得意だが,社会的状態の推論と動態予測は苦手であることが示された。
    • 推論における関係性の誤認がボトルネックであり,人間との思考のずれと推論の深さ不足が原因と考えられる。

    Link: https://arxiv.org/abs/2506.05425

  • ODE-GS:3Dガウススプラッティングによる動的シーン外挿のための潜在常微分方程式 [cs.GR, cs.CV, cs.LG]目的:動的3Dシーンの外挿
    • 3Dシーンの理解は,ロボット工学,AR/VR,自動運転などの分野において不可欠である。
    • 既存手法は時間依存性があり,限られた時間範囲でのみ外挿が可能である。
    • ガウスパラメータの軌跡を連続時間潜在ダイナミクスとしてモデル化し,時間依存性を解消すること。
    • ODE-GSは,3Dガウススプラッティングと潜在常微分方程式を統合することで,動的3Dシーンの外挿を可能にする。
    • D-NeRF,NVFi,HyperNeRFのベンチマークで,最先端の外挿性能を達成し,主要なベースラインと比較して19.8%の性能向上を示した。
    • ODE-GSは,滑らかで物理的に妥当な将来のガウス軌跡を生成し,任意の将来のタイムスタンプでレンダリングを可能にする。

    Link: https://arxiv.org/abs/2506.05480