现有公开病理图文配对数据集(如Quilt-1m)通过截取YouTube视频片段构建,尽管已实施初步过滤策略,但仍存在显著噪声(如非病理图像)。基于不同数据规模与模型架构的分类器训练表明,各类模型在分类性能上存在显著差异。实验验证表明,通过过滤非病理数据构建的优化数据集对大模型进行微调,能够显著提升其在下游任务上的表现。
病理数字切片的制作流程涉及多个关键环节,其中任一环节的潜在质量问题均可能引发图像失焦、组织重叠等缺陷。这些异常区域会导致病理组织结构信息缺失,严重影响临床诊断的准确性和可靠性。因此,亟需建立一种快速、高效的算法模型,实现问题区域的精准识别与过滤,并深入探究此类低质图像块对病理智能分析模型训练的干扰机制及其影响程度。
探讨向量检索技术的发展,从传统的CPU索引方法到现代GPU加速方案。重点介绍近似最近邻搜索(ANNS)中的多种经典算法及其在大规模数据处理中的应用,特别是在医疗领域的快速语义搜索和实时决策支持方面的关键作用。
数据滤波以获得滤除噪声高的数据。
评估多模态大型语言模型(MLLMs)在乳腺癌任务中的表现。
该项目旨在经验性地验证一个假设,即增加训练数据量显著提升了病理学特定基础模型的性能能力,特别是那些整合了视觉和语言理解的模型。
基于CLAM的现有能力对WSI图片进行弱监督-少样本的标注。
基于知识库增强的病理学CLIP致力于解决病理学基础模型在不同病理学领域性能变化的问题。
我们的研究专注于构建一个全面的基准来评估其性能。
一个新颖的、公平且基于质量的数据市场FQora
利用大型语言模型(LLM)对私有病理数据进行深度挖掘与分析,通过构建精细化的知识图谱,整合病理学领域内的丰富信息。