作者 | 方文三
人体器官的物理结构会随着生理和病理状态的变化而改变,这导致不同疾病患者发出的声音以及器官自身发声产生特异性变化,这些声音特征可以作为疾病的[声音标志物]。
声学标志物应用于临床的可行性提高
一个简单的例子是,感冒患者的声音会变得沙哑,这便是声音特征变化的一种体现。
随着数字时代的到来,听诊器这一拥有超过两百年历史的医疗工具焕发了新的生机。
数字听诊器通过电子技术将声波转换为高精度的数字化电信号,并经过放大与处理,实现了比传统听诊器更为清晰的声音输出。
加之人工智能技术的迅猛发展,将生物声学标志物应用于临床的可行性正逐渐从[遥不可及]转变为[触手可及]。
然而,这一进程并非一帆风顺。环境噪声等外部因素会对音频信号造成干扰,影响到咳嗽音特征的提取与分析。
受限于硬件性能,过去难以捕捉到高质量的声音信号。
值得庆幸的是,传感器技术的快速进步有效弥补了这一缺陷。
新一代电子听诊器采用压电陶瓷传感器作为拾音部件,相较于以往产品,其信号质量和频率响应曲线更为优异,能够提供更准确、清晰的心肺音信号,进而精确获取用户的健康数据。
更为关键的是,智能手机作为声音标志物采集设备,在经历了多年的激烈竞争和技术革新后,其麦克风拾音性能普遍有了显著提升,足以满足基本的音频信号采集需求。
在克服了硬件障碍之后,声学标志物的发展正步入快车道。
谷歌大模型下场,进入声学标志物AI领域研究
今年初,谷歌发布了名为Health Acoustic Representations(简称HeAR)的生物声学基础模型,该模型旨在协助研究人员开发出能够通过监听人体声音来识别早期疾病征兆的系统。
谷歌Research团队利用了一个包含三亿条经过去识别化处理的音频数据集对HeAR进行了训练,特别使用了一亿条咳嗽声音数据来训练咳嗽识别模型。
像HeAR这样的解决方案,将使AI驱动的声学分析在结核病筛查和检测领域开辟新的可能性,为最需要的人群提供一种潜在的低成本、易于获取的工具。
这项AI系统经过对数百万个音频剪辑样本的训练,未来有望辅助医生诊断包括COVID-19和肺结核在内的肺部疾病,并对个人的肺功能进行评估。
HeAR的创新之处在于其使用的庞大训练数据集,以及其能够针对多种不同任务进行微调的能力。
在该领域开发的大多数人工智能工具都是通过音频记录进行训练的,例如咳嗽的录音,这些录音与发出声音者的健康信息相匹配。
例如,这些录音片段可能会被标记为录音时该人患有支气管炎。这些人工智能工具通过监督学习(Supervised Learning)的训练过程,将声音特征与数据标签相关联。
而在本项研究中,谷歌的研究人员采用了自监督学习(Self-supervised Learning),使用未标记的数据,并通过自动化过程,从公开的YouTube视频中提取了超过三亿个咳嗽、呼吸、清喉咙及其他人类声音的短片段。
每个片段被转换为声音的视觉表示——频谱图。研究团队随后对频谱图的片段进行了屏蔽处理,以帮助模型学习预测缺失的部分。
这与聊天机器人ChatGPT的大型语言模型在经过大量人类文本示例训练后学会预测句子中下一个单词的过程类似。
利用这种方法,研究团队构建了一个基础模型,该模型能够适应多种不同的任务。
研究显示,HeAR在多项任务中的平均表现超越了其他模型,尤其在跨麦克风泛化能力方面,展现了其在捕捉与健康相关的声学数据中的显著模式识别能力。
基于HeAR训练的模型即使在数据量有限的情况下也能实现高性能,这对于医疗研究领域中数据稀缺的问题具有特别重要的意义。
HeAR现已向研究人员开放,目的是促进定制化生物声学模型的快速发展,即使在数据稀缺或面临成本和计算能力限制的情况下,也能为特定疾病和人群的研究提供支持。
8月底,谷歌宣布了HeAR模型的第一个应用项目,将与印度企业Salcit Technologies合作,将HeAR应用于肺结核的早期筛查。
Eko人工智能算法获FDA首批,进一步加速产业发展
在今年五月,Eko公司宣布其与数字听诊器相辅相成的人工智能软件——[Eko低射血分数工具(eleft)]获得了批准。
这一软件被认定为美国食品药品监督管理局(FDA)批准的首个能够辅助进行心力衰竭早期筛查的人工智能算法,标志着医学领域的一项重大创新,紧接着在6月完成了4100万美元的D轮融资。
通过Eko的人工智能技术,医生能够在短短15秒内,仅凭数字听诊器采集到的心音,检测出心脏低射血分数(亦称心脏低EF值)——这一指标反映了心脏的收缩泵血能力。
射血分数降低型心力衰竭(HFrEF)是心力衰竭的主要类型之一。
据数据显示,在美国超过六百万的心力衰竭患者中,约有一半患有射血分数降低型心力衰竭。
Eko的人工智能算法与配套的数字听诊器相结合,能够识别心脏杂音,有望在最初的常规检查中,尽早识别出射血分数降低型心力衰竭患者。
被识别出的患者随后可以接受进一步的检查,以便及时进行干预。
在2020年至2023年期间,Eko公司还获得了多款医疗器械的批准,这些不仅包括升级版的数字听诊器,还包括能够生成心音图并对其进行分析的人工智能算法。
其他企业也在该领域取得了实质性进展
另一家在业界享有盛誉的公司TytoCare,在去年8月完成了4900万美元的融资。
其人工智能算法在7月底也获得了FDA的进一步批准,该算法能够检测成人及两岁以上儿童的肺部湿啰音,从而有助于早期发现潜在的肺部疾病。
除了肺结核,哮喘和慢性阻塞性肺疾病(慢阻肺)也是生物声学标志物研究的重点。
澳大利亚的Resapp Health在该领域有着长期的研究积累,并已在澳大利亚上市。
该公司旗下两款产品之一——SleepCheckRx,用于识别阻塞性睡眠呼吸暂停,已获得FDA批准;
另一款产品ResAppDx则通过分析咳嗽和呼吸声来辅助诊断肺部疾病,也已获得CE认证。
2022年底,制药巨头辉瑞以1.79亿美元收购了Resapp Health。
例如,日本AMI(Acute Medical Innovation)旗下的AI听诊器,它能够辅助识别瓣膜性心脏病(包括主动脉瓣狭窄)的早期征兆,在2022年10月获得了日本医疗器械的审批。
TytoCare 在去年 8 月完成了 4900 万美元的融资,其人工智能算法在 7 月底获得了 FDA 的额外批准,可用于检测成人和两岁以上儿童的肺部湿啰音。
韩国的研究人员运用了基于进化深度学习的逆向设计技术,成功研发出一种先进的声学超材料。
釜山国立大学所开发的通风声学谐振器(VAR)超材料,具备了降低噪音与提供通风的双重功能。
传统分析方法在处理形状复杂的VAR时存在局限性,仅能实现基础的参数设计。
釜山的研究团队创新性地开发了一种基于深度学习的逆向设计方法,该方法能够灵活地设计复杂的非参数VAR,从而提升性能并降低计算成本。
在所提出的逆向设计方法中,条件变分自动编码器(CVAE)——一种深度学习生成模型——对潜在空间中的VAR几何特征进行编码。
潜在空间是一个低维空间,它包含了高维输入(本例中为VAR)的核心信息。
这种声学超材料的设计方法标志着人工智能驱动的先进制造(AM)以及其他复杂机械结构设计领域迈出了关键性的一步。
这些企业的努力和成就共同推动了声学标志物 AI 领域的快速发展,使得这一新兴领域展现出巨大的潜力和广阔的应用前景。
声学标志物AI在发展过程中面临着一系列挑战
①高质量的音频数据对于训练精准有效的人工智能模型至关重要,但目前大多数医疗机构尚未建立完善的音频数据库,这给模型的训练和优化带来了极大困难。
②由于声音特征的复杂性和多变性,模型在不同环境和人群中的表现可能存在差异,导致结果的可靠性受到影响。此外,诊断准确度的提升仍有很大空间。
尽管声学标志物AI展现出一定的潜力,但在面对复杂的疾病和个体差异时,仍可能出现误诊或漏诊的情况。
③在通用音频特征的基础上,针对咳嗽的发声特性以及特定疾病(例如肺结核)的病理特征和症状表现,设计精准的特定疾病患者咳嗽音的靶点特征,以实现对特定疾病患者与健康人群以及其他肺部疾病患者的精确区分,这一问题仍需解决。
④通常,模型训练所用的音频数据较为理想,但在实际应用中,需要识别的音频信号会受到各种干扰,这会影响咳嗽音特征的提取和分析。
不同拾音设备的性能差异也可能导致咳嗽音频质量和特性发生变化,进而影响模型的诊断结果。
由于音频数据的采集及标注都较为困难,这要求模型在少量精标注数据的条件下仍然保持较好的检测性能。
如何解决小样本数据和复杂模型学习之间的矛盾,也是一个亟待解决的课题。
结尾:
在模型训练过程中,如何通过数据增强、噪声抑制等方法减轻噪声影响,利用领域泛化技术消除设备差异,从而提升诊断模型的鲁棒性,将是提升生物声学标志物模型实际可用性的关键问题。
部分资料参考:
医健网:《谷歌 AI用声音数据预测健康风险,让声音成为健康监测新工具》,生物世界:《谷歌最新论文:用AI通过咳嗽声来诊断疾病》,vb动脉网:《谷歌大模型下场,FDA完成首批,这个AI赛道起飞在即》,DeepTech深科技:《AI软件通过患者咳嗽声识别结核病,已通过3.3万次自发咳嗽检验》,21dB声学人:《声学研究新进展:AI创造声学超材料》