arXiv雑要約
画像・音声 - 2026/05/12 公開
AIを活用した聴診器による遠隔心肺疾患診断 [eess.SP, cs.CV]目的:心肺疾患の遠隔診断のためのAI聴診器のモデル
- 心肺疾患の増加は世界的な健康問題であり,早期発見と治療が重要である。
- 遠隔地や医療資源の限られた地域では,熟練した医療従事者が不足している。
- 低コストなデバイスで利用可能なAIモデルを開発し,遠隔地での診断を支援する。
- 本研究では,MFCC特徴抽出とGRU-CNNハイブリッドモデルを用いて,心肺の音響信号を高精度に分析する。
- 低コスト聴診器とAIモデルを組み合わせることで,6つの肺疾患と5つの心血管疾患を分類可能である。
- ウェブアプリにAIモデルを実装することで,リアルタイム分析を実現し,標準化された医療への貢献を目指す。
MECAT:詳細な音声理解タスクのためのマルチ専門家構築型ベンチマーク [eess.AS, cs.AI, cs.CL, cs.SD]目的:詳細な音声理解のためのベンチマーク
- 音声と言語の融合は,人間のような高度な音声理解を実現する上で重要である。
- 既存のベンチマークは,アノテーションや評価指標の限界から,モデルの性能を正確に評価できない。
- 詳細な音声理解能力を評価するための信頼性の高いベンチマークを構築し,評価指標を改善する。
- MECATは,専門家モデルと大規模言語モデルの推論を組み合わせることで,多角的な詳細なキャプションと質問応答ペアを提供する。
- 新たな評価指標DATEは,汎用的な表現を抑制し,詳細な記述を促進することで,より識別的な評価を可能にする。
- 最先端の音声モデルの評価を行い,その能力と限界に関する新たな知見を得た。
GenCellAgent:大規模言語モデルエージェントによる汎用的な学習不要細胞画像セグメンテーション [math.OC, cs.SY, eess.SY, q-bio.QM, cs.AI, cs.CV, cs.MA]目的:細胞画像セグメンテーションの汎用性と効率性の向上
- 定量生物学において細胞の形態や状態を正確に把握するため,細胞画像セグメンテーションは不可欠である。
- 細胞画像は,モダリティの多様性や細胞の形態変化,アノテーション不足により,正確なセグメンテーションが困難である。
- 学習データが少なくても,様々な細胞画像を正確にセグメンテーションできる手法を開発し,アノテーションの負担を軽減する。
- GenCellAgentは,複数のセグメンテーションツールと視覚言語モデルを組み合わせた学習不要のマルチエージェントフレームワークである。
- 7つの細胞セグメンテーションベンチマークにおいて,GenCellAgentは既存のツールやベースラインモデルを上回り,高い精度を達成した。
- 特に,未知のオルガネラデータに対して,GenCellAgentは専門モデルよりも大幅に優れた性能を示し,検出が困難な構造を復元した。
見えない握手:適応型市場エージェントによる持続的な価格つり上げ [q-fin.TR, cs.GT, cs.LG]目的:市場における持続的な価格つり上げのメカニズム
- 金融市場の効率性は経済活動の根幹であり,価格形成メカニズムの理解は重要である。
- 市場参加者の行動が価格に与える影響が十分に解明されておらず,非効率な価格形成が起こりうる。
- 適応型市場エージェントによる学習が,持続的な価格つり上げを招く要因を特定すること。
- 市場メーカーと市場参加者の反復ゲームにおいて,取引による価格インパクトと外部ショックが価格変動の要因となる。
- 価格インパクトを抑制した架空の価格パスと比較して,持続的な価格つり上げの戦略プロファイルを特定した。
- 分散学習が有限時間内に価格つり上げ領域に到達するための十分条件を示し,その条件が満たされることを確認した。
EchoFake:実用的な音声ディープフェイク検出のためのリプレイ対応データセット [math.OC, cs.RO, eess.AS, cs.AI, cs.SD]目的:音声ディープフェイク検出のためのデータセット
- 音声ディープフェイク技術の発展は,詐欺やなりすましといった深刻な問題を引き起こす可能性があり,対策が急務である。
- 既存の音声詐欺検出システムは,実験室環境で生成されたデータに対しては高い性能を示すものの,現実的なリプレイ攻撃に対しては脆弱である。
- 現実的なリプレイ攻撃を含むデータセットを構築し,より実用的な音声詐欺検出技術の開発を促進すること。
- 本研究で作成したEchoFakeデータセットは,120時間以上の音声と13,000人以上の話者を含み,最新のTTS合成音声と実際の環境で録音されたリプレイ音声を網羅している。
- EchoFakeで学習したベースラインモデルは,既存のデータセットで評価した場合と比較して,平均EERが低く,汎化性能が向上することが示された。
- EchoFakeは,より現実的な課題を提供することで,音声詐欺検出技術の進歩を促進するための基盤となる。
AQUA-Bench:音声質疑応答における回答の有無の認識を超えて [eess.AS, cs.AI, cs.CL, cs.LG, cs.SD]目的:音声質疑応答における回答不能な質問の評価
- 音声情報処理は,人間と機械のより自然なコミュニケーションを可能にする上で重要である。
- 既存のベンチマークは回答可能な質問に偏っており,回答不能な質問への対応が課題となっていた。
- 音声と質問の適合性を評価し,より信頼性の高い音声言語システムを開発することを目指す。
- AQUA-Benchは,回答の欠如,選択肢の不適合,音声と質問の関連性の欠如という3つのシナリオを評価する。
- 実験結果から,既存モデルは回答可能な質問には優れるものの,回答不能な質問には課題があることが示された。
- このベンチマークは,モデルの信頼性評価と,より堅牢な音声言語システムの開発を促進する。
GLEAM:緑内障分類のためのマルチモーダル画像データセットとHAMM [eess.IV, cs.CV]目的:緑内障の病変評価と解析
- 緑内障は失明の主要な原因であり,早期発見と適切な治療が重要である。
- 既存のデータセットは単一の画像タイプに限定され,多角的な解析が困難であった。
- マルチモーダルな情報を統合し,より正確な診断と治療を支援する。
- GLEAMは,眼底写真,OCT画像,視野異常マップを含む初の公開トリモーダル緑内障データセットである。
- 提案手法HAMMは,階層的な注意機構を用いてクロスモーダル表現学習に焦点を当てている。
- HAMMにより,異なるモダリティ間の相補的な情報を効果的に活用し,緑内障分類の精度向上に貢献する。
バイオメディカル領域汎化のための不変性だけでは不十分であり,その修正方法 [eess.IV, cs.CV]目的:3Dバイオメディカル画像セグメンテーションにおけるドメイン汎化
- 医療画像解析は,診断精度向上や医療の効率化に不可欠である。
- モダリティ,疾患重症度,臨床サイトの変化に対し,セグメンテーションモデルの性能が著しく低下する。
- 既存手法の複雑さを軽減し,様々な臨床環境で安定した性能を達成すること。
- MaskGenは,画像強度とドメイン安定な基礎モデル表現を活用した学習戦略である。
- 全教師あり学習とFew-Shot学習の両方で,幅広い臨床的変化において性能向上を達成した。
- MaskGenは,アーキテクチャや損失関数に依存せず,既存のパイプラインに容易に実装可能である。
ADP-FL-MedSeg:多様なモダリティにおける連合医療セグメンテーションのための適応的差分プライバシー [eess.IV, cs.AI, cs.CV]目的:連合医療画像セグメンテーションにおけるプライバシーと実用性のトレードオフの最適化
- 医療データはプライバシー規制により共有が難しく,有効活用が課題となっている。
- 中央集権的な学習では,異なる臨床環境への汎化性能が低いという問題がある。
- 差分プライバシーを連合学習に組み込む際の精度低下と不安定性を解消すること。
- 提案手法であるADP-FLは,プライバシー保護とセグメンテーション精度の両立に貢献する。
- 多様な画像モダリティとセグメンテーションタスクにおいて,既存手法を上回る精度を達成した。
- トレーニングの安定性,収束速度,境界の鮮明さも向上し,実用的な連合学習の可能性を示した。
MonoUNet:ポイント・オブ・ケア超音波装置における膝軟骨自動セグメンテーションのための堅牢な小型ニューラルネットワーク [eess.IV, cs.CV]目的:ポイント・オブ・ケア超音波装置における膝軟骨自動セグメンテーションのための,堅牢かつコンパクトな深層学習モデルの開発
- 膝関節症は高齢化社会において増加傾向にあり,早期発見と適切な治療が重要である。
- 超音波検査は簡便だが,画像品質は検査者や装置に依存し,正確な軟骨評価が課題である。
- 本研究は,超音波画像の変動に強い,小型かつ高精度なセグメンテーションモデルを構築し,膝関節症評価の効率化を目指す。
- MonoUNetは,既存の軽量セグメンテーションモデルと比較して,高いDice係数(92.62%~94.82%)と低いMASD(0.133mm~0.254mm)を示した。
- MonoUNetは,パラメータ数と計算コストを大幅に削減(10倍~700倍,14倍~2000倍)し,計算資源の限られた環境での利用を可能にした。
- 軟骨の厚さとエコー強度に関して,MonoUNetの測定値は手動測定値と高い相関(ICC$_{2,k}$=0.96, 0.99)を示し,良好な一致性(バイアス=2.00%, 0.80%)が確認された。
