arXiv雑要約

画像・音声 - 2025/10/14 公開

  • プロンプトをグラフ化せよ [cs.LG, cs.AI, cs.CV]目的:モデル予測から得られる関係グラフ構造を学習プロセスに注入するフレームワーク
    • 深層学習は強力だが,特徴表現がノイズを含む場合があり,精度の向上が課題である。
    • クラス間の類似関係が,モデルの予測セマンティクスと矛盾することがある。
    • モデル自身の出力を利用し,内部構造を改善することで,より意味のある特徴表現を獲得する。
    • 提案手法GCRは,クラスを意識したセマンティックな特徴表現を促進し,汎化性能を向上させる。
    • GCRは,グラフの不一致の大きさから層の重要度を学習し,信頼性の高い層を優先することで,特徴品質を高める。
    • GCRはモデルに依存せず,軽量であり,様々なネットワークやデータセットで効果が確認された。

    Link: https://arxiv.org/abs/2509.23373

  • PD-Diag-Net:脳MRIに基づくパーキンソン病補助診断のための臨床的先行知識に基づくネットワーク [cs.CV]目的:パーキンソン病の補助診断手法
    • パーキンソン病は罹患率が増加しており,患者の生活の質を著しく低下させる神経変性疾患である。
    • 既存の診断は専門医の知識に依存し,早期発見の遅れや治療機会の逸失が生じやすい。
    • 脳MRI画像から,早期かつ正確なパーキンソン病の診断を支援することを目的とする。
    • PD-Diag-Netは,外部データで86%の精度を達成し,既存手法を20%以上上回った。
    • 特に早期診断においては96%を超える高い精度を示した。
    • 脳領域の関連性と加齢による変化を考慮することで,診断精度と解釈性を向上させている。

    Link: https://arxiv.org/abs/2509.23719

  • LaMoGen:ラバン・ムーブメントに基づいたテキストからモーション生成拡散モデル [cs.CV, cs.AI]目的:テキストに基づくモーション生成における表現力と制御性の向上
    • モーション生成は,コンピュータビジョン,HCI,アニメーション等の分野で重要性が増している。
    • 既存モデルでは,モーションの多様性不足と自然言語での定量的な表現の難しさから,繊細なモーション制御が困難である。
    • ラバンの理論を活用し,モーション生成モデルを制御することで,解釈可能かつ表現豊かなモーション生成を目指す。
    • 提案手法は,事前学習済みの拡散モデルのテキスト埋め込みを更新することで,追加のモーションデータなしにラバンの要素を制御する。
    • 目標とするラバンのタグに従ってモーション属性を操作することで,多様な表現力豊かなモーション品質を実現した。
    • モーションの同一性を維持しつつ,モーション属性をターゲットのラバンタグに沿って操作できることを示した。

    Link: https://arxiv.org/abs/2509.24469

  • NeMo:ビデオと言語の理解のためのモザイクの中の針 [cs.CV, cs.CL]目的:ビデオと言語の理解における複雑な時間的推論を評価するための新たなプロトコルとベンチマーク
    • ビデオと言語の理解は,AI技術の応用範囲を広げる上で重要な研究分野である。
    • 既存の評価方法では,長時間のビデオにおける時間的推論能力を十分に評価できない。
    • ビデオ大規模言語モデルの,長期的な文脈の想起と時間的配置の能力を評価する。
    • 提案されたデータ生成パイプラインは,高品質な評価データを信頼性と拡張性をもって生成できることが示された。
    • NeMoBenchは31,378個の自動生成された質問応答ペアを含む,ビデオと言語のベンチマークとして構築された。
    • 20の最先端モデルの評価を通じて,その能力と限界に関する重要な知見が得られた。

    Link: https://arxiv.org/abs/2509.24563

  • SANA-Video:ブロック線形拡散Transformerによる効率的な動画生成 [cs.CV, cs.AI]目的:高解像度かつ長時間の動画の効率的な生成
    • 動画生成技術は,コンテンツ制作やコミュニケーションにおいて重要な役割を担う。
    • 既存の動画生成モデルは計算コストが高く,リソースに制約がある環境での利用が難しい。
    • 低コストで高品質な動画生成を実現し,幅広い環境で利用可能にすることを目指す。
    • SANA-Videoは,線形注意機構と定数メモリKVキャッシュを用いることで,効率的かつ長時間の動画生成を可能にした。
    • MovieGenの訓練コストの1%で訓練を完了し,Wan 2.1-1.3BやSkyReel-V2-1.3Bといった既存モデルと同等の性能を16倍の速さで実現した。
    • RTX 5090 GPU上でのデプロイメントも可能であり,5秒の720p動画生成時間を71秒から29秒に短縮することに成功した。

    Link: https://arxiv.org/abs/2509.24695

  • GeoVLM-R1:リモートセンシング推論の改善のための強化学習によるファインチューニング [cs.CV]目的:リモートセンシング画像の推論能力の向上
    • 地球観測は,環境変動の監視や災害対策など,社会にとって重要な課題解決に貢献する。
    • 既存の画像認識技術では,多様な地球観測タスクに対応した高度な推論が困難である。
    • 強化学習を用いて,多様な地球観測タスクにおける推論能力を向上させることを目指す。
    • 本研究では,タスクに応じた報酬を組み込んだ新たなファインチューニングフレームワークを提案した。
    • 提案手法は,リモートセンシング画像の推論能力を向上させ,最適化の安定性とロバスト性を高める。
    • 複数のベンチマーク実験において,既存の汎用モデルや専用モデルを上回る性能が確認された。

    Link: https://arxiv.org/abs/2509.25026

  • DA$^2$: 全方向の深度推定 [cs.CV]目的:全方向パノラマ画像の深度推定手法の開発
    • 3Dビジョンにおいて,全視野角(FoV)を持つパノラマ画像は,従来の画像よりも包括的な視覚情報を提供する点が重要である。
    • パノラマ画像データの不足により,既存手法は特定の条件下での性能に限定され,未知の環境への汎化性能が低いという課題がある。
    • 本研究では,パノラマ画像データの生成と球面歪みに対応するモデル構造により,汎化性能の高い深度推定を目指す。
    • 提案手法DA$^2$は,既存のゼロショット学習ベースラインと比較して,AbsRelで平均38%の性能向上を達成した。
    • DA$^2$は,既存の特定条件下で学習した手法よりも優れた汎化性能を示すことが明らかになった。
    • また,DA$^2$はエンドツーエンドの処理系であり,既存の融合ベースの手法よりも効率的である。

    Link: https://arxiv.org/abs/2509.26618

  • Pure-Pass:軽量画像超解像のための動的トークン混合ルーティングに対する微細で適応的なマスキング [cs.CV]目的:軽量画像超解像における計算効率と再構成品質の向上
    • 画像超解像は,低解像度画像から高解像度画像を復元する技術であり,様々な応用分野で重要である。
    • 深層学習を用いた手法は計算量が多く,実用化が困難な場合がある。既存手法では,適応性や空間的な柔軟性に課題が残る。
    • Pure-Passは,不要な計算を削減し,より効率的かつ高品質な画像超解像を実現することを目的とする。
    • Pure-Passは,ピクセルレベルでのマスキングにより,計算コストの高い処理を不要なピクセルに対して行わないようにする。
    • ATD-lightモデルに統合したPP-ATD-lightは,CAMixer-ATD-lightと比較して,再構成品質とパラメータ効率で優れた性能を発揮する。
    • 固定された色中心点を用いることで,微細で空間的に柔軟なマスキングを実現し,適応性を維持している。

    Link: https://arxiv.org/abs/2510.01997

  • NeuroSwift:複雑なシーンのfMRI視覚再構成のための軽量な被験者間フレームワーク [cs.RO, cs.SY, eess.SY, cs.CV, cs.HC]目的:fMRIデータを用いた複雑なシーンの視覚再構成
    • 脳活動から視覚情報を再構成することは,視覚神経メカニズムの理解に不可欠である。
    • 被験者間の神経表現のばらつきが大きく,計算資源も必要とされる。
    • NeuroSwiftは,被験者間の汎化性能を高め,計算コストを削減することを目指す。
    • NeuroSwiftは,拡散モデルとアダプターを組み合わせることで,高精度な視覚再構成を実現した。
    • 事前学習と微調整を組み合わせることで,少ないパラメータ数で高い性能を発揮する。
    • 軽量なGPU環境でも,短時間で学習が完了し,既存手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2510.02266

  • 平衡マッチング:暗黙的エネルギーベースモデルによる生成モデリング [cs.LG, cs.AI, cs.CV]目的:生成モデリングにおける新しいフレームワーク
    • 画像生成の分野は,現実世界の多様性を捉える上で重要な課題である。
    • 拡散モデルやフローベースモデルは計算コストが高く,最適化が難しいという課題がある。
    • 平衡状態に着目することで,より効率的で柔軟な生成モデルを開発することを目指す。
    • 平衡マッチング(EqM)は,拡散モデルやフローベースモデルを上回る生成性能を示すことが実証された。
    • ImageNet 256$\times$256において,FIDスコア1.90を達成し,データ多様性の学習とサンプリングが理論的に正当化された。
    • 部分的にノイズ化した画像の復元,外れ値検出,画像合成など,多様なタスクへの応用が可能である。

    Link: https://arxiv.org/abs/2510.02300

  • FSFSplatter:疎な視点からの高速表面再構成と新規視点生成 [cs.CV, cs.GR]目的:疎な視点からの高速表面再構成手法
    • 3D再構成は,仮想現実やロボット工学など幅広い分野で重要である。
    • 従来のGaussian Splattingは,密な視点データを必要とし,疎なデータでは性能が低下する。
    • 本研究は,疎な視点データからの高品質な3D再構成と新規視点生成を可能にする。
    • FSFSplatterは,Transformerを用いて画像から密なGaussianシーンを初期化する。
    • 貢献度に基づくプルーニングにより,ノイズを低減し,過学習を防ぐ。
    • DTU,Replica,BlendedMVSデータセットで最先端手法を上回る性能を示した。

    Link: https://arxiv.org/abs/2510.02691

  • HAVIR:CLIP誘導型汎用拡散を用いた階層的視覚から画像再構成 [cs.CV, cs.AI]目的:脳活動からの視覚情報再構成
    • 脳科学とコンピュータビジョンの融合に不可欠であり,脳の可視化技術の発展に貢献する。
    • 複雑な視覚刺激の正確な復元が困難であり,低レベル特徴の異質性や高レベル特徴の意味的絡み合いが課題である。
    • 視覚皮質の階層的表現理論に基づき,構造と意味情報を分離することで再構成精度を向上させる。
    • HAVIRは,構造的および意味的品質の両方を向上させ,複雑なシーンにおいても既存モデルを上回る再構成性能を示す。
    • 空間処理ボクセルから構造情報を抽出し,意味処理ボクセルからCLIP埋め込みを生成する二つの階層的領域を設ける。
    • Versatile Diffusionモデルを通して両者を統合し,最終的な画像を合成する。

    Link: https://arxiv.org/abs/2510.03122

  • レンズレスカメラを用いた学習型表示輝度場 [cs.RO, cs.CV, cs.ET]目的:ディスプレイ特性の測定と再構成
    • コンテンツ制作において,最適な視覚体験を維持するためのディスプレイ調整は不可欠である。
    • 従来の測定には特殊な機器や暗室が必要で,一般ユーザーには負担が大きい。
    • レンズレスカメラとニューラル表現を組み合わせ,手軽なディスプレイ特性測定を目指す。
    • レンズレスカメラとImplicit Neural Representationに基づくアルゴリズムを共同設計した。
    • 46.6° x 37.6°の視野角から,ディスプレイの発光する光場を効率的に再構成できることを示した。
    • 本研究は,容易なディスプレイ調整と特性評価への第一歩となる。

    Link: https://arxiv.org/abs/2510.03356

  • コントラストノイズ最適化による多様なテキスト画像生成 [cs.GR, cs.AI, cs.CV, cs.LG]目的:テキスト画像生成における多様性の向上
    • 近年,テキストから画像を生成する技術は目覚ましい発展を遂げている。
    • 生成される画像がテキストの指示に強く依存し,多様性に欠けるという課題がある。
    • 初期ノイズを調整することで,生成画像の多様性を高めることを目指す。
    • コントラストノイズ最適化は,初期ノイズを調整することで,生成画像の多様性を促進する。
    • Tweedieデータ空間におけるコントラスト損失を導入し,ノイズラテントを最適化する。
    • 複数のT2Iモデルで,品質と多様性のバランスにおいて優れた結果が得られた。

    Link: https://arxiv.org/abs/2510.03813

  • 抑制された擬似ラベル生成:現実的な長尾型半教師あり学習へ [cs.CV, cs.LG]目的:長尾型分布に対する信頼性の高い擬似ラベルの生成と活用
    • 機械学習において,ラベル付きデータが不足する状況での性能向上は重要な課題である。
    • 既存手法は,ラベルなしデータの分布を仮定しており,現実のデータ分布との乖離が問題となる。
    • 未知のデータ分布に対してもロバストな半教師あり学習フレームワークを構築する。
    • 提案手法(CPG)は,動的なフィルタリングにより信頼性の高い擬似ラベルを選択的に組み込むことで,既知の分布を維持したラベルデータセットを更新する。
    • logit調整に基づいたBayes最適分類器を構築し,より信頼性の高い擬似ラベルの識別を可能にする。
    • 複数のベンチマークデータセットにおいて,最先端手法を最大15.97%上回る精度を達成した。

    Link: https://arxiv.org/abs/2510.03993

  • VaseVQA-3D:古代ギリシャ陶器に関する3D VLMのベンチマーク [cs.CL, cs.CV]目的:古代ギリシャ陶器の分析のための3Dビジュアル質問応答データセット
    • 文化遺産研究において,デジタルアーカイブの活用が重要視されている。
    • 既存のVLMは,専門的な文化遺産領域においてデータ不足と知識不足に直面している。
    • 古代ギリシャ陶器の分析において,VLMの性能向上を目指す。
    • VaseVQA-3Dデータセットを構築し,古代ギリシャ陶器の3Dモデルと質問応答データを収集した。
    • ドメイン適応学習により,陶器分析におけるモデル性能を向上させたVaseVLMを開発した。
    • R@1指標で12.8%,語彙的類似性で6.6%改善し,3D陶器の認識と理解を大きく進歩させた。

    Link: https://arxiv.org/abs/2510.04479

  • ビデオLMMのポストトレーニング:大規模マルチモーダルモデルによるビデオ推論の深掘り [cs.CV]目的:ビデオLMMのポストトレーニング手法の研究と体系化
    • ビデオ理解はコンピュータビジョンの最重要課題であり,高度な知能を必要とする。
    • ビデオLMMのポストトレーニングは,モデルを高度な推論エンジンへと進化させる重要な段階だが,研究が断片的である。
    • ビデオLMMのポストトレーニング手法を体系化し,今後の研究発展を促進すること。
    • 本調査では,SFT,RL,TTSの3つの主要なポストトレーニング手法を包括的に分析した。
    • 時間的局在化,空間的・時間的グラウンディングなど,ビデオ特有の課題への対応策を明らかにした。
    • 報酬設計,スケーラビリティ,費用対効果の最適化など,今後の課題を特定し,評価のためのベンチマークを整理した。

    Link: https://arxiv.org/abs/2510.05034

  • 不完全なモダリティにおけるロバストで信頼性の高いマルチモーダル誤情報認識に向けて [cs.RO, cs.CL, cs.MM, cs.CV]目的:マルチモーダル誤情報認識のロバスト性と信頼性の向上
    • ソーシャルメディア上の偽情報拡散は深刻化しており,その検知は喫緊の課題である。
    • 既存手法は完全なモダリティを前提とするため,情報が欠損した場合の汎化性能が低い。
    • 情報伝播に伴うモダリティ欠損下でも誤情報認識の精度を維持する手法を開発する。
    • 提案手法MMLNetは,複数の専門家による協調推論により欠損モダリティを補完する。
    • 不完全モダリティアダプターは新たな特徴分布を利用して欠損情報を補償する。
    • ラベルを考慮した適応的重み付け戦略により,コントラスト学習を用いたロバストな表現を獲得する。

    Link: https://arxiv.org/abs/2510.05839

  • コンセプト検索:何を,どのように? [cs.CV]目的:画像間のコンセプト共有による検索手法
    • 画像検索は情報アクセスにおいて不可欠であり,より高度な検索ニーズに応える必要性が高まっている。
    • 従来の画像検索は視覚的・意味的な類似性に基づくため,抽象的なコンセプトに基づいた検索が困難である。
    • 画像の背後にある物語を捉え,共通のコンセプトを持つ画像を効率的に検索することを目指す。
    • 本研究では,埋め込み空間における近傍画像が必ずしも同じコンセプトを共有しないという点に着目した。
    • 近傍関係を二峰性ガウス分布でモデル化することで,意味のある構造を明らかにし,コンセプトの識別を容易にした。
    • 定性的,定量的,そして人間による評価により,提案手法の有効性が確認された。

    Link: https://arxiv.org/abs/2510.07058

  • TalkCuts:複数ショット人間の会話動画生成のための大規模データセット [cs.CV]目的:複数ショット人間の会話動画生成の研究を促進するための大規模データセット
    • 動画生成技術は,エンターテインメント,教育,コミュニケーションなど,多様な分野で応用が期待されている。
    • 既存のデータセットは単一ショットに限定され,多様なカメラワークや人物の動きを表現することが困難であった。
    • 本研究は,多様なカメラショットと人物の動きを含むデータセットを提供し,より自然で高品質な動画生成を可能とする。
    • TalkCutsは,高品質な人間の会話動画を164,000クリップ,500時間以上収録し,多様なアノテーションデータを提供する。
    • OratorというLLM駆動のマルチモーダル生成フレームワークを基盤として,カメラ遷移,ジェスチャー,音声調節を制御した長編動画の合成を実現した。
    • TalkCutsを用いた実験により,生成された複数ショット会話動画の映画的な一貫性と視覚的な魅力を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2510.07249

  • 拡散モデルのための局所MAPサンプリング [cs.GR, cs.AI, eess.IV]目的:拡散モデルにおける逆問題解決のための局所MAPサブ問題を反復的に解くこと
    • 逆問題は,医療画像処理や天文学など,様々な分野で重要であり,ノイズ除去や画像再構成に役立つ。
    • 最適化に基づく拡散ソルバーは性能が高いものの,確率的根拠が不明確であり,理論的な理解が深まっていない。
    • 最適化手法と確率的推論のギャップを埋め,逆問題解決の理論的基盤を明確にすること。
    • 局所MAPサンプリング(LMAPS)は,拡散軌跡に沿って局所MAPサブ問題を反復的に解く新しい推論フレームワークである。
    • LMAPSは,最適化に基づく方法とDPSの関係を明らかにし,統一的な確率的解釈を提供する。
    • 画像復元や科学的タスクにおいて,モーションデブラーリング,JPEG復元,量子化において最先端の性能を達成した。

    Link: https://arxiv.org/abs/2510.07343

  • SyncHuman:2Dと3Dの生成モデルを同期させるシングルビュー人体復元 [cs.RO, cs.CV]目的:シングルビュー画像からのフォトリアリスティックな人体3Dモデル復元
    • 映画やゲーム制作において,リアルな人体表現は不可欠であり,そのための技術需要は高い。
    • SMPL推定の精度限界や,複雑なポーズ・細かいディテールの復元が課題となっていた。
    • 2Dと3D生成モデルの長所を組み合わせ,高精度な人体復元を実現することを目的とする。
    • SyncHumanは,2Dマルチビュー生成モデルと3Dネイティブ生成モデルを組み合わせることで,構造の一貫性と詳細な2D情報を両立した。
    • 提案手法では,ピクセルレベルで2Dと3Dを同期させるアテンション機構と,2D画像からの特徴注入メカニズムを導入した。
    • 実験により,SyncHumanが既存手法よりも高い幾何学的精度と視覚的忠実度で人体を復元できることが示された。

    Link: https://arxiv.org/abs/2510.07723

  • FMANet:融合モーション注意ネットワークを用いた新規二相光流アプローチによるロバストな微表情認識 [cs.CV]目的:微表情認識のためのロバストな手法
    • 心理学,セキュリティ,行動分析において,微表情は重要な感情の指標となる。
    • 微表情の捉えにくさから,認識は困難であり,既存手法では十分な精度が得られない。
    • 微表情の二相(発現期と消失期)の動きを考慮することで,認識精度を向上させる。
    • 提案手法では,発現期から消失期までの動きを統合したMM-COFを導入し,ロバストな特徴記述子を得る。
    • FMANetは,二相分析と振幅変調を学習可能なモジュールに組み込み,適応的にモーションを融合する。
    • 標準ベンチマークデータセットでの実験により,提案手法が既存手法を上回る性能を示すことが確認された。

    Link: https://arxiv.org/abs/2510.07810

  • MMHOI:複雑な3D複数人間・複数物体インタラクションのモデリング [cs.CV]目的:複雑な3D複数人間・複数物体インタラクションのモデリング
    • 現実世界の理解には,人間と物体の複雑な関係性を把握することが不可欠である。
    • 既存のHOIベンチマークは,このような複雑なインタラクションを十分に扱えていない。
    • 複数人間と複数物体が関わるインタラクションを網羅的に評価できるデータセットとモデリング手法の確立。
    • MMHOIは,12種類の日常シーンを含む大規模な3D複数人間・複数物体インタラクションデータセットである。
    • MMHOI-Netは,人間・物体3D形状,インタラクション,行動を同時に推定するTransformerベースのネットワークである。
    • MMHOIとCORE4Dでの実験により,MMHOI-Netが最先端の性能を達成し,高い精度と再構成品質を示した。

    Link: https://arxiv.org/abs/2510.07828

  • 潜在的調和:潜在空間正則化と制御可能な洗練による相乗的統合UHD画像復元 [cs.CL, cs.CV]目的:UHD画像復元の効率と高周波詳細の保持のバランス
    • 高解像度画像復元は,映像技術の進歩に伴い,その重要性が増している。
    • 従来の復元手法では,計算コストと高周波情報の損失のトレードオフが存在する。
    • 潜在空間の正則化と洗練により,効率と品質を両立した復元手法を確立すること。
    • 提案手法Latent Harmonyは,VAEの潜在空間を正則化し,高周波情報を考慮した復元を実現する。
    • LH-VAEとHF-LoRAを組み合わせることで,セマンティックな頑健性と高周波の再現性を向上させる。
    • 実験の結果,UHDおよび標準解像度の両タスクにおいて,最先端の性能を達成した。

    Link: https://arxiv.org/abs/2510.07961

  • ビデオから音声生成における挿入ハルシネーションの検出と軽減 [cs.SD, cs.LG]目的:ビデオから音声生成における挿入ハルシネーションの検出と軽減
    • 動画に音を自動生成する技術は発展している。現実世界の音響体験を再現する上で重要である。
    • 既存の評価指標は,意味や時間的な整合性に焦点を当て,視覚的根拠のない音の生成を見過ごしている。
    • この研究は,視覚的根拠のない音の生成(挿入ハルシネーション)を定量化し,その軽減策を提案することを目的とする。
    • 研究では,複数の音声イベント検出器を用いた評価フレームワークと,ハルシネーションの頻度と持続時間を定量化する指標(IH@vid, IH@dur)を開発した。
    • 提案手法「Posterior Feature Correction (PFC)」は,ハルシネーションが発生したセグメントを検出し,対応するビデオの特徴をマスクすることで,平均して50%以上のハルシネーションの頻度と持続時間を削減した。
    • PFCは,従来の音声品質や時間的同期の評価指標を低下させることなく,場合によっては改善さえした。

    Link: https://arxiv.org/abs/2510.08078

  • 二つの鳥を一つの石で:テキスト誘導画像補完のためのNull-Text-Null周波数認識拡散モデル [cs.CV]目的:テキストプロンプトに基づいた画像補完におけるマスク領域の再構成
    • 画像処理技術は,画像編集,修復,生成など幅広い分野で不可欠である。
    • 既存手法では,マスク領域と非マスク領域の一貫性維持と非マスク領域の保護が課題である。
    • 周波数帯域の分離により,画像の一貫性と保護を同時に実現することを目指す。
    • 提案手法NTN-Diffは,周波数帯域ごとに意味的一貫性を考慮することで,両課題を克服する。
    • 拡散過程において,ノイズ除去段階を早期と後期に分け,周波数帯域を分離する。
    • 実験結果から,NTN-Diffは最先端の拡散モデルと比較して優れていることが示された。

    Link: https://arxiv.org/abs/2510.08273

  • 視覚的象徴性の課題:手話の形態・意味のマッピングに関する視覚言語モデルの評価 [cs.CV, cs.CL]目的:手話における形態と意味のマッピングの評価
    • 言語と視覚の融合研究は,AIの多角的理解に不可欠であり,人間のコミュニケーション能力向上に繋がる。
    • 既存の視覚言語モデルは,静的な文脈に依存し,動的な人間の動きからの意味抽出が課題である。
    • 視覚的象徴性の課題を通じて,視覚的根拠に基づいた言語理解能力の向上を目指す。
    • 提示された視覚的象徴性の課題は,視覚言語モデルの性能を評価するための有効なベンチマークとなりうる。
    • 最先端の視覚言語モデルは,手話の形態予測においてある程度の性能を示すものの,人間のレベルには及ばない。
    • 形態予測の性能が向上することで,人間の象徴性判断との相関性が高まることが示唆され,視覚的構造への感度共有が示唆される。

    Link: https://arxiv.org/abs/2510.08482

  • SliceFine:事前学習済みネットワークに対する普遍的な勝利スライス仮説 [cs.CV, cs.CL]目的:事前学習済みモデルにおける微調整可能なサブネットワーク(スライス)の有効性
    • 大規模言語モデルの性能維持と効率的な学習が重要視されている。
    • 全パラメータの微調整は計算コストが高く,非効率であるという課題がある。
    • パラメータ効率の良い微調整(PEFT)の理論的根拠を確立し,新たな手法を提案する。
    • 事前学習済みネットワークは,スペクトルバランスと高いタスクエネルギーを示す普遍的な勝利スライス特性を持つことが証明された。
    • 提案手法SliceFineは,既存のPEFT手法と同等の性能を,パラメータ数の増加なしに達成する。
    • SliceFineは,学習速度,メモリ効率,モデルコンパクト性において,既存手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2510.08513

  • MM-HELIX:包括的なプラットフォームと適応型ハイブリッド方策最適化によるマルチモーダル長鎖反復推論の強化 [cs.CV]目的:マルチモーダル大規模言語モデルにおける長鎖反復推論能力の向上
    • 複雑な現実世界の問題解決には,反復的な思考と試行錯誤を含む長鎖反復推論が不可欠である。
    • 既存のマルチモーダル大規模言語モデルは,長鎖反復推論能力に課題を抱えており,その性能は十分とは言えない。
    • 本研究は,長鎖反復推論を必要とするタスクにおいて,マルチモーダル大規模言語モデルの性能を向上させることを目指す。
    • 大規模データセットMM-HELIX-100Kを構築し,反復推論の学習を促進するStep-Elicited Response Generationパイプラインを開発した。
    • 適応型ハイブリッド方策最適化(AHPO)という新しい学習戦略を提案し,オフライン学習とオンライン学習を統合することで,性能向上を実現した。
    • Qwen2.5-VL-7Bをベースラインとした実験で,MM-HELIXベンチマークにおいて18.6%の精度向上を達成し,汎化性能も確認できた。

    Link: https://arxiv.org/abs/2510.08540

  • MultiCOIN:マルチモーダル制御による動画中間生成 [cs.CV]目的:動画中間生成の実現
    • 動画編集や長編動画合成において,滑らかな移行は不可欠であり,その需要は高い。
    • 既存手法では,複雑な動きやユーザーの意図を反映した精緻な制御が困難である。
    • ユーザーの多様な意図に対応し,詳細な制御を可能にする中間生成手法を開発する。
    • MultiCOINは,深度遷移,モーション軌跡,テキストプロンプトなど,多様なモードで動画を制御可能である。
    • DiTアーキテクチャを採用し,高品質で長時間の動画生成を実現している。
    • 制御信号を共通の点ベース表現に変換し,内容と動きを分離することで,より動的でカスタマイズ可能な動画生成が可能となった。

    Link: https://arxiv.org/abs/2510.08561

  • Q-Router:専門家モデルのルーティングとアーティファクト局在化による動画品質評価 [cs.CV]目的:多様な動画コンテンツとタスクに対する汎用的な動画品質評価
    • 動画品質評価は,人間の視覚的認識と一致する動画の品質を予測する上で不可欠なコンピュータビジョンの課題である。
    • 既存の高性能な動画品質評価モデルは,コンテンツの種類やタスクの変化に対する汎化性能が低いという課題がある。
    • Q-Routerは,専門家モデルの組み合わせにより,多様な動画ソースとタスクに対して堅牢性と一貫性のある性能を実現することを目指す。
    • Q-Routerは,様々なベンチマークにおいて最先端の動画品質評価モデルと同等またはそれ以上の性能を示す。
    • Q-Routerは,汎化性能と解釈可能性を大幅に向上させている。
    • Q-Routerは,動画中の空間的・時間的なアーティファクトを正確に局在化できるため,動画生成モデルの報酬関数としての応用が期待される。

    Link: https://arxiv.org/abs/2510.08789

  • ホッジ理論的シャプレー値の公理的・確率的基礎 [physics.bio-ph, cs.SY, eess.SY, q-bio.QM, math.OC, cs.GT, econ.TH]目的:ホッジ理論的シャプレー値の公理化と確率的解釈
    • ゲーム理論は,資源配分や協力関係の分析に不可欠であり,公正な分配方法を模索する上で重要である。
    • 従来のシャプレー値は,特定の条件下では適切でない場合があり,より広範な状況に対応できる一般化が求められていた。
    • ホッジ理論的シャプレー値の理論的基盤を確立し,その公正性と確率的解釈を明確にすること。
    • 効率性,線形性,対称性,修正された無効プレイヤー条件,独立性の5つの公理が,ホッジ理論的シャプレー値を一意に特徴づけることが示された。
    • 各プレイヤーの価値は,連合グラフ上でのランダムウォークにおける期待累積限界貢献として確率的に表現されることが明らかになった。
    • 公理的・確率的結果を統合することで,ホッジ理論的シャプレー値がシャプレー値の正則な一般化であることが示された。

    Link: https://arxiv.org/abs/2106.15094

  • 拡散モデルに基づく音声強調および残響除去 [eess.AS, cs.LG, cs.SD]目的:拡散モデルを用いた音声強調と残響除去の技術
    • 音声信号処理は,人間と機械間のコミュニケーションにおいて不可欠であり,その品質向上は重要な課題である。
    • 従来の音声強調技術は,ノイズの種類や環境に依存し,汎化性能に課題があった。
    • 本研究は,拡散モデルの改良により,よりロバストで汎用的な音声強調・残響除去技術を実現することを目的とする。
    • 拡散モデルの逆過程を,ノイズと音声の混合から開始する手法を提案し,高音質な音声の生成を30ステップで実現した。
    • ネットワーク構造の改良により,従来のモデルの限界を克服し,最新の識別モデルと競合できる性能を達成した。
    • 実世界のノイズ環境下での評価やリスニングテストにおいても,提案手法が最良の結果を示し,残響除去への応用も可能であることが示された。

    Link: https://arxiv.org/abs/2208.05830

  • さようなら,負け犬:終盤の分析 [math.CO, cs.GT]目的:終盤におけるBlueの勝利条件と戦略
    • ゲーム理論は,戦略的意思決定の数学的モデルを構築する上で重要である。
    • 複雑な交渉や裏切りが許されるゲームの戦略分析は困難である。
    • 2人終盤におけるBlueの勝利条件を特定し,戦略を明確にすること。
    • 本研究では,Blueの勝利シナリオと戦略を網羅的に分類した。
    • ケース分析を通じて,Blueが勝利するための具体的な条件が明らかになった。
    • 複雑なゲームにおいても,厳密な分析による戦略解明が可能であることが示された。

    Link: https://arxiv.org/abs/2403.17302

  • 脳MRIにおける異常検出の再考:画像品質評価の視点 [eess.IV, cs.CV]目的:脳MRIにおける異常検出のための画像品質評価手法
    • 脳MRIは疾患診断に不可欠であり,異常検出の精度向上は医療の質向上に繋がる。
    • 従来の異常検出手法は,アーキテクチャやアルゴリズムの改良に偏りがちで,画像品質評価の視点が欠けていた。
    • 再構成画像の微妙な差異を捉え,異常検出性能を向上させるための新たな画像品質評価指標を開発すること。
    • 提案手法であるFusion Qualityは,SSIMの構造レベルの感度とL1のピクセルレベルの精度を統合することで,再構成画像の品質を包括的に評価する。
    • SSIMの分割特性を考慮したAIRに基づくデータ変換により,正常領域と異常領域間の差異を増幅し,異常検出能力を向上させる。
    • 2つの脳MRIデータセットにおける実験結果から,提案手法は最先端のベースラインと統合することで,医療異常検出の性能を大幅に向上させることが示された。

    Link: https://arxiv.org/abs/2408.08228

  • 刺激モダリティが重要である:異なるモダリティからの知覚的評価が音声感情認識システムの性能に与える影響 [eess.AS, cs.MM, cs.SD, eess.SP]目的:音声感情認識システムにおける,異なる刺激モダリティによって得られた感情ラベルの有効性
    • 感情認識は,人間関係やコミュニケーションにおいて重要な役割を果たすため,その自動化が求められている。
    • 感情データベースにおけるラベルの収集方法が異なり,それがシステム性能に影響を与える可能性が指摘されている。
    • 様々なモダリティからのラベルの有効性を比較し,最適なラベルを特定することで,システム性能の向上を目指す。
    • 音声のみの刺激で得られたラベルを用いた学習が,テストデータにおいてより良い性能を示すことが確認された。
    • 音声と映像の両方を用いたラベルは,必ずしも性能向上に繋がるとは限らないことが示唆された。
    • 様々なモダリティからのラベルを統合した包括的なラベルの導入も試みられた。

    Link: https://arxiv.org/abs/2409.10762

  • 細胞を点と捉える:効率的な細胞追跡のためのワンステージフレームワーク [math.PR, cond-mat.dis-nn, cs.DM, math.CO, eess.IV, cs.CV, q-bio.QM]目的:効率的な細胞追跡のためのフレームワーク
    • 細胞追跡は,生物学,医学研究において細胞の挙動を理解する上で不可欠である。
    • 従来法は,高精度なセグメンテーションマスクが必要で,計算コストが高く,処理時間が長くなるという課題があった。
    • セグメンテーションに依存せず,細胞の軌跡間の相関性を活用することで,効率的な追跡を実現することを目指す。
    • 提案手法CAPは,細胞を点と捉え,検出やセグメンテーションを省略することで,従来の課題を克服している。
    • 細胞分裂イベントの不均衡や長時間のシーケンス追跡という課題に対し,適応的イベント誘導サンプリングとローリング・アズ・ウィンドウ推論を導入した。
    • その結果,CAPは既存手法と比較して8~32倍の効率で細胞追跡を行い,良好な性能を示した。

    Link: https://arxiv.org/abs/2411.14833

  • テキストと画像データを用いた需要推計 [econ.GN, cs.CV, cs.LG, q-fin.EC]目的:需要推計の新たな手法
    • 消費者行動の理解は,マーケティング戦略や製品開発において不可欠である。
    • 製品属性データが不足している場合,需要を正確に推計することが困難である。
    • テキストや画像データを用いて,より精度の高い需要推計を実現すること。
    • 本手法は,製品画像とテキスト記述から特徴量を抽出し,ランダム係数logitモデルに組み込む。
    • 選択実験データを用いた分析により,従来の属性ベースモデルよりも優れた予測性能が示された。
    • Amazonの40製品カテゴリーにおいて,テキストと画像データが密接な代替品を特定するのに役立つことが確認された。

    Link: https://arxiv.org/abs/2503.20711

  • MedVKAN:MambaとKANを用いた効率的な特徴抽出による医用画像セグメンテーション [eess.IV, cs.CV]目的:医用画像セグメンテーションのための効率的な特徴抽出手法
    • 医用画像セグメンテーションは,病変の正確な診断と治療計画に不可欠な技術である。
    • 従来のCNNは受容野が限られ,Transformerは計算量が膨大になるという課題があった。
    • MambaとKANの組み合わせにより,効率的かつ高精度な特徴抽出を実現し,セグメンテーション性能を向上させる。
    • 提案手法MedVKANは,5つの公開データセットにおいて最先端の性能を達成した。
    • MambaとKANの組み合わせが,特徴抽出において有効であることが示された。
    • 計算効率に優れた新しい特徴抽出フレームワークを医用画像セグメンテーションに導入した。

    Link: https://arxiv.org/abs/2505.11797

  • OSCAR:複数ビットレートに対応するワンステップ拡散コーデック [eess.IV, cs.CV]目的:損失のある画像圧縮のための新しいコーデック
    • 画像圧縮は,データ伝送や保存において不可欠であり,効率的な手法が求められている。
    • 既存の拡散モデルは計算コストが高く,ビットレートごとにモデルを学習する必要がある。
    • 単一モデルで複数ビットレートに対応し,計算効率を向上させることを目指す。
    • OSCARは,圧縮された潜在変数をノイズのある状態と見なし,ワンステップで復元する。
    • ビットレートを疑似的な拡散ステップにマッピングすることで,単一の生成モデルで複数ビットレートに対応。
    • 実験により,OSCARが定量評価および視覚的品質において優れた性能を示すことが確認された。

    Link: https://arxiv.org/abs/2505.16091

  • 広範囲加工を考慮した計算回折光学 [physics.optics, cs.CV, cs.ET, cs.GR]目的:計算回折光学系の設計パイプライン
    • 回折光学はホログラフィー等に応用され,光学システムの革新的な設計を可能にする重要な技術である。
    • シミュレーションと製造されたデバイスの品質の乖離が大きく,実用化の妨げとなっている。
    • 安価な大量生産に適した設計手法を確立し,実用的な回折光学システムを実現すること。
    • 本研究では,直接描画グレースケールリソグラフィーとナノインプリントレプリケーションを考慮した設計パイプラインを提案した。
    • スーパー解像度ニューラルリソグラフィーモデルにより,製造プロセスで生成される3D形状を高精度に予測可能となった。
    • 32.16 mm × 21.44 mmという広範囲な回折光学素子の設計とシミュレーションを実現し,ホログラフィーやPSFエンジニアリングへの応用を示した。

    Link: https://arxiv.org/abs/2505.22313

  • w2v-BERT 2.0と知識蒸留による構造化プルーニングを用いた話者認証の性能向上 [eess.AS, cs.SD]目的:話者認証における性能向上
    • 話者認証は,セキュリティやユーザ認証において重要な技術である。
    • 大規模モデルの計算コストが課題であり,効率的なモデル圧縮が求められている。
    • モデルの軽量化と性能維持を両立する手法の開発。
    • w2v-BERT 2.0とLayer Adapterを用いることで,Vox1-Oで0.12%,Vox1-Hで0.55%のEERを達成した。
    • 知識蒸留ガイド付き構造化プルーニングにより,モデルサイズを80%削減しつつ,EERの劣化を0.04%に抑えた。
    • 効率的なモデル圧縮が可能であり,実用的な話者認証システムの実現に貢献する。

    Link: https://arxiv.org/abs/2510.04213