邮箱:yiyouhengxin@163.com
手机:0531-87595859
电话:0531-87595859
地址:山东济南历下区解放路43号银座数码广场707
产品详情
我局官微“上海统计”已开设专栏“理论应用”,内容聚焦前沿理论、立足全球视野,以传播现代统计方法、实践和成功案例为主,助推统计人科研水平提升和统计事业的改革发展,欢迎各位及时关注分享。
自Transformer模型问世以来,数据规模和模型参数量的逐步扩大,成为AI领域发展的一个重要趋势。然而,这种趋势并非适用于所有场景。尽管在机器人技术等领域,扩展数据规模带来了显著进展,但在识别虚假信息等任务中,扩展数据规模并未带来预期的效果。原因主要在于,高质量数据是有限的,而低质量数据可能会对模型的性能和可靠性产生负面影响;较大的模型对哪怕少量不可靠数据也尤为敏感,可能会记住错误信息,因此导致不恰当的输出。
文章指出,数据形态(即数据的组成和结构模式)对数据驱动型扩展至关重要。拓扑数据分析框架能够在一定程度上帮助识别数据集内在的维度和模式,从而判断数据驱动型扩展是否适用。例如,在机器翻译领域,语言的稳定性和高质量的翻译数据为模型训练提供了坚实的基础;然而,在新闻事实核查和揭露错误信息等任务中,由于数据缺乏明显且持久的拓扑特征,扩展数据规模的方法可能并不适用。
除了数据形态,数据驱动型扩展的可行性也在很大程度上取决于数据采集过程的性质。若能够得到高质量且易于获取的数据,那么扩展的潜力就会明显地增加。例如,在无人驾驶汽车领域,持续收集的传感器数据能不断提升模型的性能。
当然,数据质量的定义是复杂的,其与应用场景以及训练模型为用户所带来的价值紧密相关。此外,我们还需要批判性地审视当今的评估框架,进一步考虑人工智能模型怎么样应对现实世界的复杂性,并反映用户满意度和经济价值。
在数据驱动型扩展中,我们应当有明确的意图。通过专注于那些对扩展效果有较强假设的用例,并依据需求收集有明确的目的性的数据,能大大的提升模型训练的效率,并减少所需的数据量。这种方法的演进可能会在主动学习中发挥及其重要的作用,通过人机交互和模型交互,模型可以优先选择合适类型的数据,从而加快研究进展。
这种更具针对性的方法不仅仅可以高效利用资源,还能为解决那些需要的不单单是数据和规模的复杂AI挑战铺平道路。
产品中心