当前位置:首页 » 《关注互联网》 » 正文

文献综述·人工智能在鼻咽癌治疗中的应用

5 人参与  2024年05月06日 11:20  分类 : 《关注互联网》  评论

点击全文阅读


小罗碎碎念

本期分享的文献是一篇系统综述,主题是**人工智能在鼻咽癌治疗中的应用**——【Application of Artificial Intelligence for Nasopharyngeal Carcinoma Management——A Systematic Review】。

本文是一篇系统性综述,探讨了人工智能(AI)在鼻咽癌(NPC)治疗中的应用。作者进行了文献检索,审查了符合纳入标准的 60 篇文章。所发现的**人工智能应用的主要类型是自动轮廓、诊断、预后和其他应用,尤其是在放疗计划中的应用**。

卷积神经网络(CNN)是最常用的深度学习算法,而**人工神经网络(ANN)则是最常用的机器学习模型**。综述认为,人工智能在鼻咽癌管理中的应用总体上产生了积极影响,随着人工智能算法的不断改进,人工智能有望成为临床中的常规应用。该文件强调了人工智能在改善鼻咽癌诊断、治疗过程和预后方面的重要性。

要点

鼻咽癌在东亚和东南亚地区最为流行,与其他头颈部癌症相比,鼻咽癌在流行病学、治疗和预后方面具有独特性。人工智能,尤其是深度学习,具有改善鼻咽癌管理的潜力。综述确定了**人工智能在鼻咽癌管理中的四大应用类型:自动轮廓、诊断、预后和其他应用**。卷积神经网络(CNN)是最常用的深度学习算法,而人工神经网络(ANN)则是最常用的机器学习模型。人工智能在鼻咽癌管理中的应用具有全面的积极影响,有望成为临床中的常规应用。

一、引言

根据国际癌症研究机构的数据,鼻咽癌(NPC)是全球第23种最常见的癌症。2020年全球新发病例和死亡病例分别为133,354例和80,008例。[1,2]尽管**鼻咽癌并不罕见,但其分布具有明显的地理特征,在东亚和东南亚地区最为常见,占全球病例的76.9%。在中国,新发病例几乎占到一半。[2]由于其晚期症状和解剖位置,早期检测非常困难。放疗是主要治疗方式,对于晚期局部区域性疾病,常常需要联合/辅助化疗。[3]此外,附近有许多器官易受辐射影响,包括唾液腺、脑干、视神经、颞叶和耳蜗。[4]因此,研究人工智能(AI)是否可以帮助改善NPC的诊断、治疗过程和预后预测是有趣的**。

在过去十年中,随着AI的进步,它已经渗透到许多行业中,扮演着主要和次要角色。这包括癌症治疗,医疗专业人员寻找利用AI改善治疗质量的方法。AI指任何允许算法模拟智能行为的方法。它有两个子集,即机器学习(ML)和深度学习(DL)。ML使用统计方法使算法能够学习和提高其性能,如随机森林和支持向量机。人工神经网络(ANN)是ML的一个例子,也是DL的一个核心部分。[5] DL可以定义为一种学习算法,通过多层ANN自动更新其参数。卷积神经网络(CNN)和循环神经网络等都是DL架构。

除了组织学、临床和人口统计信息外,从基因组学、蛋白质组学、免疫组织化学和成像等广泛的领域获取的数据必须由医生整合,以制定患者的个性化治疗方案。这导致了对开发计算方法以改善医疗管理的兴趣,通过提供洞察力来提高患者结果和患者旅程中的工作流程。

鉴于AI在癌症护理中使用的增加,在本系统性文献综述中,收集并研究了关于NPC管理的AI应用的论文,以提供当前趋势的概述。此外,探讨了文章中讨论的可能局限性。


二、方法

2-1:搜索协议

进行了一次系统的文献搜索,以获取所有使用人工智能或其子领域在鼻咽癌管理中应用的研究。开发了关键词,并使用布尔逻辑将其组合以生成结果搜索短语:

(“artificial intelligence” OR “machine learning” OR “deep learning”OR “Neural Network”) AND (“nasopharyngeal carcinoma” OR “nasopharyngeal cancer”)

使用该搜索短语,在PubMed、Scopus和Embase上进行了过去15年(至2021年3月)的研究文章搜索。三个数据库的结果被整合,并删除了重复项。在可能的情况下遵循了首选报告项目系统评价和元分析(PRISMA)的原则,并使用了PRISMA流程图和清单作为指南,以考虑系统性文献回顾的关键方面。[6]


2-2:合格性

为了评估检索到的出版物的合格性,确定了排除和纳入标准。

首先检查文章,去除那些不符合排除标准的文章。这些包括书籍章节、会议报告、文献综述、社论、编辑评论和个案报告。此外,其他语言(英语或中文之外)的文章以及全文无法访问的论文也被排除

剩余的研究然后通过阅读标题和摘要来过滤,去除任何不符合**纳入标准(人工智能或其子领域的应用以及NPC实验)**的文章。进行了全文审查,以根据这两个标准确认文章的合格性。该过程由两位独立评审员(B.B. & H.C.)进行。


2-3:数据提取

从每篇文章中提取了关键信息,并放入**数据提取表**(表1)中。

这些信息包括**作者、发表年份、国家、样本类型、样本量、使用的AI算法、应用类型、研究目标、报告的性能指标、结果、结论和局限性**。从每项研究中选择了性能指标最佳的人工智能模型并纳入分析。

此外,获取了使用训练队列训练的模型的性能结果,这些结果是通过评估测试队列而不是训练队列获得的。这样做是为了防止过拟合,避免使用同一数据集来训练和测试模型。


2-4:质量评估

选定的文章使用**QUADAS-2工具**(表2)进行了风险偏倚和适用性的评估。[7]

如果一项研究中有多个部分被评为“高”或“不明确”,则将其排除。还进一步完成了质量评估,以确保论文达到所需的标准。这是使用Luo等人和Alabi等人(表3)开发的**机器学习预测模型开发和报告指南**进行的。[8,9]

这些指南被总结,并为每个遵循的指南主题给出一个标记。阈值设定为最大标记的一半,得分显示在表4中。


三、结果

3-1:数据库搜索

选择过程使用了**PRISMA流程图**(图1)。

从三个数据库中检索到304篇论文。删除148篇重复论文后,拒绝了一篇无法访问的文章。不符合纳入(n=59)和排除(n=20)标准的论文也被过滤掉。此外,在文献综述中发现的额外两项研究在删除一篇重复的研究和另一篇不符合排除标准的研究后纳入分析。最终,78篇论文被评估质量(图1)。

补充:PRISMA流程图

PRISMA流程图通常包含以下几个步骤:

准备阶段:在这个阶段,研究者确定研究问题,制定搜索策略,并定义纳入和排除研究的准则。进行数据库搜索:研究者会在各个数据库中输入相关的**关键词**进行搜索,并将搜索结果导入到EndNote或其他参考管理软件中。额外的资源:除了数据库搜索外,研究者可能会通过其他途径(如Google Scholar、参考文献列表等)寻找更多的研究。去除重复:为了避免查看重复的文章,研究者需要删除所有出现多次的文章。这一步可以通过EndNote等软件完成。筛选研究:根据事先定义的纳入和排除标准,研究者会筛选出符合要求的研究。这个过程通常需要两个人独立完成,以保证结果的可靠性。数据提取:从选定的研究中提取必要的信息,如作者、发表日期、样本大小、研究结果等。分析和解释:对提取的数据进行分析,得出结论。

以上就是PRISMA流程图的基本步骤。在实际操作过程中,研究者可以根据具体情况进行调整。例如,有些研究可能会在“额外的资源”步骤之后再进行一次“去除重复”的操作。

值得注意的是,随着技术的发展,现在有一些工具可以帮助研究者生成符合PRISMA标准的流程图,如R包和Shiny应用程序。这些工具不仅可以自动生成流程图,还可以生成交互式的流程图,让读者能够更好地理解研究过程和方法。


3-2:质量评估

18篇论文因存在一个或多个部分被评为“高”或“不明确”的风险而被排除,剩下60项研究进一步评估。QUADAS-2工具显示,48.3%的文章整体上存在低风险偏差,而98.3%的文章在适用性方面存在低关注度(表2)。

根据表3进行了额外的评估,该表是根据Luo等人和Alabi等人修改后的指南改编的。[8,9]在60项相关研究中,有52项的得分超过70%(表4)。还应注意的是,23篇论文包含了评估标准的项目,但没有完全遵循所提出指南的结构。[10-32]然而,这仅影响文章的可读性和信息提取的便利性,不影响论文的内容和质量。


3-3:相关研究的特征

仅使用成像数据

66.7%(n=40)仅使用成像数据,如磁共振成像、计算机断层扫描或内窥镜图像。文献编号:15,16,18,19,21–24,26–28,30,32,34,37–39,41–43,45–56,58–63,67,69

同时包含临床病理数据和图像

四项研究同时包含临床病理数据和图像用于模型训练。文献编号:25,31,36,40

使用图像、临床病理数据和血浆EBV DNA

三项研究使用图像、临床病理数据和血浆EBV DNA训练模型。文献编号:29,33,35

同时使用临床病理数据和血浆EBV DNA/血清学数据

四篇文章同时使用临床病理数据和血浆EBV DNA/血清学数据训练模型。文献编号:12–14,17

使用临床病理数据和剂量学数据

文献编号:57

风险因素

如人口统计、医疗史、家族癌症史、饮食、社会和环境因素,也被用于开发AI模型。文献编号:11,20

研究可以分为4个领域

自动描绘(n=21):15,16,18,22,24,30–32,45–55,67,69诊断(n=17):10,15,16,23,26,27,49,52,54,56–63预后(n=20):12–14,17,19,25,28,29,33–44杂项应用(n=7):11,20,21,64–66,68,包括风险因素识别、图像配准和放射治疗计划(图2A)。

同时检查诊断和自动描绘

文献编号:15,16,49,52,54

分析应用目的显示,仅在自动描绘中,DL是最常使用的(22例中的19例)。对于其余类别(NPC诊断、预后和杂项应用),ML是最常见的技术(每个类别的出版物超过一半)(图2A)。此外,本文献回顾中选中的DL模型研究发表于2017年至2021年,其中更侧重于实验DL。

DL模型——CNN(n=30)

文献编号:15,18,19,21–24,28–34,36,45–53,55,56,60,65,67,69

ML方法——ANN(n=12)

文献编号:13,16,26,42–44,54,61–64,68

报告的主要指标

受试者操作特征曲线下的面积(AUC)准确性敏感性特异性Dice相似性系数(DSC)平均对称表面距离(ASSD)


3-4:自动描绘

关于自动描绘的研究主要集中在对**大体肿瘤体积(GTV)、临床靶体积(CTV)、器官易受辐射(OARs)和原发肿瘤体积**的分割。

GTV(n=7)

文献编号:30,48,49,51,53,55,69

OARs(n=3)

文献编号:50,52,67

临床靶体积和原发肿瘤体积

文献编号:46,55,56

3-5:诊断

关于鼻咽癌(NPC)的检测,有六篇论文比较了人工智能(AI)和人类(肿瘤科医生和经验丰富的放射科医生)的性能。其中两篇论文发现**AI的诊断能力优于人类,[15,49]而另外两篇论文报告AI的性能与耳鼻喉科专家相当**。[16,62]

然而,最后两篇论文发现**结果取决于人员的经验。例如,高级临床医生的表现优于AI,而初级医生的表现较差。[23,60]这是因为NPC的可能大小、形状、位置和图像强度变化很大,使得确定诊断变得困难**。这些因素使得经验较少的临床医生难以诊断,而AI诊断工具可以支持初级医生。

在17篇实验AI诊断应用的论文中,有三篇文章分析了**辐射诱导损伤的诊断**。[27,57,58]其中两篇关注辐射诱导的颞叶损伤,[57,58]而另外一篇预测了放疗后颈部肌肉的纤维化水平。[27]建议通过早期检测和预测辐射诱导的损伤,可以采取预防措施以最小化副作用。


3-6:预后

关于鼻咽癌(NPC)预后的研究

预测治疗结果(n=11),其中**大多数将无病生存作为研究目标之一**。

文献编号:12,13,17,19,29,33,36,39–42

关注治疗反应预测(n=2)

文献编号:35,43

预测患者生存风险(n=5)

文献编号:14,25,37,38,44

T分期预测和远处转移预测(n=2)

文献编号:28,34

3-7:杂项应用

除了上述方面外,人工智能(AI)还被用于

风险因素识别(n=2)

文献编号:11,20

图像配准(n=1)

文献编号:21

剂量/剂量-体积直方图(DVH)分布(n=4)

文献编号:64–66,68

特别是,剂量/DVH分布预测在治疗计划中经常使用。对目标和组织易受辐射(OARs)给予的剂量的更好理解可以帮助临床医生制定更个性化的治疗计划,具有更好的一致性,并减少计划持续时间。


四、讨论

从这项系统性回顾中明显可以看出,在临床管理鼻咽癌(NPC)中应用人工智能(AI)的兴趣呈指数级增长。收集到的文章中,有**很大一部分是在2019年至2021年间发表的**(n=45),与2010年至2018年间发表的文章(n=15)相比。

在AI的特定领域中,也更多地关注了机器学习(ML)和深度学习(DL)。关于ML的研究有31篇,关于DL的研究有37篇。AI子领域的选择有时取决于任务。例如,86%的文章集中于使用DL进行NPC自动描绘(n=19),而在其他应用中,尽管大多数研究使用ML,但它们分布得更均匀(图2A)。

自动描绘中AI类型存在显著差异的原因可能与算法的功能和数据的性质有关。获取的医学图像有很多因素影响自动描绘的质量,包括肿瘤大小和形状的变化、图像分辨率、区域之间的对比度、噪声以及数据获取期间缺乏一致性,这些数据来自不同的机构。[70]由于这些挑战,基于ML的算法在训练前的图像处理中难以执行NPC的自动分割,这是一个耗时的过程

此外,由于NPC的大小和形状存在显著变化,手工制作的特征对于精确描绘每个器官或肿瘤是必要的。另一方面,DL不需要这个问题,因为它们可以直接处理原始数据,无需手工制作的特征。[70]

在NPC的AI应用开发中,80%的研究文章在其模型中结合了ANN或DL技术,因为神经网络通常在图像识别方面表现更好。[12,13,15–19,21–26,28–34,36,38,39,42–56,60–69]。然而,一项研究警告称,ANN不一定比其他ML模型在NPC识别中表现更好。[61]因此,尽管DL模型和ANN应该是主要的发展焦点,其他**ML技术也不应被忽视**。

根据收集的文献,AI应用在每个类别的整合对从业者都有益。AI的自动描绘不仅可以减少临床医生描绘的时间,[46,51,53,64]还可以**提高用户的准确性。[51]同样,AI可以用于减少放射治疗的计划时间**,[64]从而提高放射治疗计划过程的效率和有效性。

对于一些NPC研究,从图像中提取了额外的特征和参数,以进一步提高模型的性能。然而,应注意的是,并非所有特征都适合,因为一些特征对模型性能的影响大于其他特征。[40,57,58,61]因此,在可能的情况下应考虑特征选择。

目前,AI还不能完全替代人类执行最复杂和耗时的任务。这是因为许多比较其开发模型与医疗专业人员表现的文章得出了相互矛盾的结果。临床医生的经验是一个重要的因素,影响着比较结果。Chuang等人和Diao等人开发的模型在初级专业人员中的表现更好,但在更有经验的临床医生面前表现较差。[23,60]甚至有一篇文章显示,一个AI模型的能力低于初级物理学家。[68]此外,训练数据的质量和AI开发者的经验也非常关键

回顾显示,当前的AI仍存在一些局限性。首先,关于模型的普适性的不确定性,因为**许多研究的数据集是回顾性的,具有单机构性质。[15,19,28,33,35–38,41,48,57–59]数据集可能无法代表真实人群,可能只代表一个人群子组或地区。因此,这降低了模型的适用性,并可能影响将其应用于其他数据集时的性能。另一个原因是机构之间的扫描协议差异组织对比度或视野的差异可能会影响性能,因为模型并未针对相同条件进行训练。[45,56]因此,不同机构之间扫描协议的一致性对于AI模型的训练和验证非常重要**。

另一个局限是**用于训练模型的数据量较小。33%(n=20)选定的文章在训练和测试模型时总样本量≤150。原因是这些文章通常基于单中心数据,而且NPC与其他癌症相比较少见。这尤其影响了DL模型,因为与ML模型相比,它们更依赖于更大的数据集来实现潜力;当数据有限时,过度拟合很可能发生;因此,数据增强通常用于增加数据集大小。此外,一些研究存在患者选择偏差**,而其他研究则关注是否将多模态输入实施到训练模型中(表1)。

在开发新模型时,未来的工作应该解决这些问题。可能的解决方案包括**结合其他数据集或与其他机构合作进行外部验证或扩大数据集**,这些在大多数分析的论文中都是缺失的。前者可以通过提高模型的普适性并避免患者选择偏差来增强模型的适用性,而后者可以通过提供更多的训练样本来提高AI模型的能力。

其他方法也包括使用大数据,这可以在更大规模上完成。大数据可以定义为由技术和物联网产生的大量数据,使得信息更容易获取。[71]在医疗保健领域,这将使得更容易访问大量医疗数据,从而促进AI模型的训练。然而,随着大量数据的收集,隐私保护成为一个严重的挑战。因此,未来的研究需要调查如何实施它。

AI模型的性能也可以通过增加训练样本量和使用数据增强技术来提高,这在一些研究中已经实现。然而,随着训练样本量的增加,更多的数据标注将需要,使得过程更加耗时。因此,一项研究提出了**使用持续学习,它发现这可以在减少标注努力的同时提高模型的性能。[47]然而,持续学习容易受到灾难性遗忘的影响,这是一个长期存在的、极具挑战性的问题**。[72]因此,需要进一步研究解决这个问题的方法,以便更容易地在其他研究环境中实施。

这项文献回顾存在几个局限性。从出版物中提取的度量性能结果不足以进行元分析。因此,从这个回顾中获得的认识不够全面。纳入研究的研究质量也不一致,这可能会影响所进行的分析。


五、结论

有越来越多的证据表明,人工智能(AI)可以在各种情况下应用,特别是在预后、诊断和自动描绘应用中作为支持工具,以及为患者提供更个性化的治疗计划方面。

基于深度学习(DL)的算法被发现是使用最频繁的AI子领域,并且通常在与其他方法比较时取得良好的结果。然而,有限的训练数据集和模型的普适性是需要克服的关键挑战,以进一步提高AI模型的性能和可访问性。

尽管如此,AI在支持医疗专业人员在NPC管理方面的研究显示出非常可观的潜力;因此,更加协调的努力来快速发展是值得的。


点击全文阅读


本文链接:http://m.zhangshiyu.com/post/104064.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1