自己抓取,如 OpenAI 或 Anthropic 等公司; 使用抓取网页的公共资源库,如非营利组织 CommonCrawl 维护的资源库。
CommonSense QA HellaSwag OpenBook QA PIQA SIQA WinoGrande ARC MMLU
应用 URL 过滤; 应用 fastText 语言分类器,仅保留分数≥0.65 的英文文本; 应用来自 MassiveText 的质量和重复过滤器(使用默认阈值)。
基础过滤 每个转储独立的 MinHash 重复数据删除 精选 C4 过滤器 自定义过滤器
我们的训练数据包括经过严格过滤的公开网络数据(根据「教育程度」),这些数据来自各种开放的互联网资源,以及 LLM 生成的合成数据。
我们发现,前几代 Llama 擅长识别高质量数据,因此我们使用 Llama 2 来帮助构建文本质量分类器,为 Llama 3 提供动力。
FineWeb-Edu 超越了 FineWeb 和所有其他开放网络数据集,在教育基准(如 MMLU、ARC 和 OpenBookQA)方面取得了显著改进。 与 C4 和 Dolma 相比,它需要的 token 数量减少了 10 倍,才能与 MMLU 的结果相媲美。 这证明了使用在 LLM 注释上训练的分类器进行大规模数据过滤的有效性。