Academics | The Hong Kong University of Science and Technology

非病理图像过滤
非病理图像过滤
前,像Quilt这样的公开可获取的病理图像对数据集的一部分是通过社交网络上的爬虫获得的。然而,Quilt数据集存在一些问题,比如非病理图片的混入、文本中的非病理描述、以及图片与文本之间的不正确对应。这些数据对多模态模型的训练产生了不利影响,导致模型在下游任务上的性能下降。数据过滤能够筛选出高噪声水平的数据,而在清洁子集上训练的模型将在下游任务上获得更好的性能。