Academics | The Hong Kong University of Science and Technology

图像描述数据市场演示
图像描述数据市场演示
取高质量的训练数据对于开发高度准确和稳健的机器学习模型至关重要,特别是在基础模型出现的情况下。

然而,关于数据市场的先前研究遇到了两个关键挑战。首先,大多数市场未能让买家要求其购买数据的质量要求。因此,由于购买数据的质量不佳,买家可能无法利用所有购买的数据。其次,现有市场的主要优化目标是最大化卖家的效用,而未考虑买家的效用。因此,现有偏见目标获得的价格是不公平的,可能导致买家购买减少,数据市场的交易量下降。

为解决这两个挑战,我们提出了一个新颖的、公平且基于质量的数据市场FQora。具体而言,FQora利用两种类型的基于质量的定价函数和有效的质量评估函数来实施质量约束查询。此外,为了确保平衡的效用分配,我们引入均值方差约束以保持长期低风险的发展,并解决公平市场目标,通过一种新颖的平衡帕累托优化来最大化卖家和买家的效用。我们在理论上展示了平衡帕累托优化可以通过利用对偶问题和确保收敛来解决多目标优化问题。对四个真实数据集的广泛实验为我们的理论分析提供了经验支持,并确认了我们提出的FQora的卓越性能。