大模型对数据的新要求
大语言模型和视觉大模型对训练数据的规模、质量和多样性提出了全新要求。
大模型数据标注四大特点
规模巨大
需要TB级甚至PB级的训练数据,远超传统AI项目。
质量要求高
脏数据会直接影响模型输出质量,甚至产生有害内容。
典型流程
数据采集 → 数据清洗 → 数据标注 → 数据格式化 → 数据分发。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
大语言模型和视觉大模型对训练数据的规模、质量和多样性提出了全新要求。
需要TB级甚至PB级的训练数据,远超传统AI项目。
脏数据会直接影响模型输出质量,甚至产生有害内容。
数据采集 → 数据清洗 → 数据标注 → 数据格式化 → 数据分发。
暂无评论内容