arXiv雑要約

AI - 2026/03/09 公開

  • 融合前の浄化:堅牢な音声・視覚音声認識のためのマスクフリー音声強調 [eess.AS, cs.AI, cs.LG, cs.MM, cs.SD]目的:ノイズに強い音声・視覚音声認識の実現
    • 音声認識は,多様なインターフェースの実現に不可欠であり,その堅牢性が重要である。
    • 騒音下では音声認識性能が低下し,特に音声と映像の融合過程で悪影響が生じる。
    • 既存手法の課題であるマスク生成による情報損失を回避し,堅牢性を向上させる。
    • 提案手法は,Conformerベースのボトルネック融合モジュールを用いて,視覚情報により音声特徴量を暗黙的に改善する。
    • モダリティ冗長性を低減し,モダリティ間相互作用を強化することで,音声の意味的整合性を維持する。
    • 公開ベンチマークLRS3での評価により,ノイズ下において既存のマスクベース手法を上回る性能を示す。

    Link: https://arxiv.org/abs/2601.12436

  • 機械学習のための堅牢なニューロモルフィックプラットフォームとしてのレーザー干渉計 [physics.optics, cs.ET, cs.LG]目的:機械学習のための光ニューラルネットワークの実装
    • AI技術の発展には,高性能かつ効率的な計算基盤が不可欠である。
    • 従来のニューラルネットワークは,計算資源の消費が大きいという課題がある。
    • 光の干渉を利用し,少ない資源で学習可能なニューラルネットワークの実現を目指す。
    • 線形光学素子のみを用いてニューラルネットワークを実装する方法を提示した。
    • 入力情報を位相シフトに変換することで,実験的な実現が容易であることを示した。
    • 光回路の測定から直接勾配を抽出する手法により,その場での学習が可能であることを確認した。

    Link: https://arxiv.org/abs/2601.18047

  • 深層フォトニックニューロモルフィックネットワークにおけるオンライン非教師型ヘブ学習 [physics.optics, cond-mat.dis-nn, cs.ET, cs.LG]目的:深層フォトニックニューロモルフィックネットワークにおけるオンライン非教師型ヘブ学習の実現
    • ニューラルネットワークは計算能力を向上させてきたが,従来のアーキテクチャは速度とエネルギー効率に限界がある。
    • 既存のフォトニックニューロモルフィックネットワークは,デバイスレベルや教師あり学習に偏り,効率が低い変換を必要とする。
    • 本研究は,光領域で動作するヘブ学習規則を用いて,効率的な学習を可能とするフォトニックニューロモルフィックネットワークを開発する。
    • 全光の深層フォトニックニューロモルフィックネットワークアーキテクチャを提案し,オンライン非教師型学習を実現した。
    • 非揮発性相変化材料を用いたシナプスを通じて,光ドメイン内でのローカルフィードバックメカニズムを実装した。
    • 市販の光ファイバープラットフォームで文字認識タスクを行い,100%の認識率を達成し,リアルタイム情報処理の可能性を示した。

    Link: https://arxiv.org/abs/2601.22300

  • siRNA有効性予測における解釈可能性の検証:摂動に基づくデータセット認識プロトコル [q-bio.GN, cs.LG]目的:siRNA有効性予測における解釈可能性の検証プロトコル
    • siRNAは,遺伝子機能を抑制する強力なツールであり,創薬や遺伝子治療への応用が期待されている。
    • 予測モデルの解釈可能性を検証する手法が確立されておらず,誤った解釈に基づく設計変更のリスクが存在する。
    • モデルが重要と判断した配列を改変した場合の予測変化を検証し,解釈可能性の妥当性を評価する。
    • 既存の解釈可能性評価方法では見過ごされる2つの問題(妥当だが誤り,反転したサリエンス)を特定した。
    • mRNAレベルのアッセイで訓練されたモデルは,ルシフェラーゼレポーターデータセットで性能が低下し,データセットの変更が予測に影響することを明らかにした。
    • 生物学的知識に基づいた正則化手法(BioPrior)を導入し,解釈可能性を向上させ,予測性能のトレードオフを調整した。

    Link: https://arxiv.org/abs/2602.10152

  • 生物学的基盤モデルはどのようなトポロジー構造と幾何学的構造を学習するか:141の仮説からのエビデンス [q-bio.QM, cs.LG, q-bio.GN]目的:生物学的基盤モデルにおける内部表現の幾何学的・トポロジー構造
    • 単一細胞遺伝子発現解析において,モデルの内部構造を理解することは,生物学的知見の獲得に不可欠である。
    • モデルが学習する構造が,生物学的な意味を持つのか,それとも学習の副産物なのか不明確である。
    • モデルが学習する構造の起源と,その生物学的妥当性を検証することを目的とする。
    • モデルは,有意なトポロジー構造を学習しており,特にtransformer層において,永続ホモロジーが有意なp値を示した。
    • scGPTとGeneformer間のCCAアラインメントは高い相関を示したが,遺伝子レベルの対応関係は必ずしも再現性がないことが示された。
    • 構造は免疫組織に集中しており,他の組織では信号が弱まることから,局所的な構造であることが示唆された。

    Link: https://arxiv.org/abs/2602.22289

  • ドメイン横断型乳児泣き声分類のためのLMUベースの逐次学習と事後アンサンブル融合 [eess.AS, cs.LG, cs.SD]目的:ドメイン横断型乳児泣き声分類における精度向上
    • 乳児の健康モニタリングにおいて,泣き声の解析は重要な課題である。早期発見や適切なケアに繋がる可能性を秘めている。
    • 泣き声信号は短く非定常であり,注釈データが限られ,個人やデータセット間でのドメインシフトが課題となっている。
    • 異なるデータセット間での汎化性能を向上させ,実用的なモニタリングシステムを実現することを目指す。
    • 提案手法は,MFCC,STFT,ピッチ特徴量を多分岐CNNエンコーダで統合し,強化されたLMUを用いて時間的動態をモデル化する。
    • LMUはLSTMと比較して,少ないパラメータで安定した系列モデリングを実現し,効率的な実装を可能にする。
    • キャリブレーションされた事後アンサンブル融合により,ドメイン固有の知識を保持しつつ,データセットバイアスを軽減することで,Baby2020とBaby CryingデータセットでマクロF1スコアが向上した。

    Link: https://arxiv.org/abs/2603.02245

  • Whisper-RIR-Mega:自動音声認識の音響環境ロバスト性評価のためのクリーン・残響ペア音声ベンチマーク [eess.AS, cs.AI, cs.LG, cs.SD]目的:自動音声認識の音響環境に対するロバスト性評価
    • 音声認識技術は,多様な環境下での利用が求められており,音響環境への適応が重要である。
    • 残響環境下では音声認識性能が低下する傾向にあり,ロバスト性の向上が課題となっている。
    • 音響環境変化に対する音声認識モデルの性能評価を可能にするベンチマークデータセットの構築。
    • Whisper-RIR-Megaは,クリーン音声と残響音声のペアから構成されるベンチマークデータセットである。
    • 実験の結果,残響はすべてのモデルサイズにおいて性能を低下させ,WERの低下は0.12~1.07ポイントである。
    • 本データセット,評価コード,およびベースライン結果は公開されており,ロバストな音声認識研究を支援する。

    Link: https://arxiv.org/abs/2603.02252