「被门夹过的核桃,还能补脑吗?」
提出了一个高质量的中文指令调优数据集,专门用于与人类交互保持一致,并通过严格的过滤程序实现; 探讨了各种数据源(包括社交媒体、百科全书和传统 NLP 任务)对模型性能的影响。为从中国互联网中选择训练数据提供了重要见解; 各种基准测试和人工评估证实,在 CQIA 数据集上微调的模型表现出卓越的性能,从而使 CQIA 成为中国 NLP 社区的宝贵资源。
论文地址:https://arxiv.org/pdf/2403.18058.pdf 数据地址:https://huggingface.co/datasets/m-a-p/COIG-CQIA 论文标题:COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning
社交媒体和论坛:包括知乎、SegmentFault 、豆瓣、小红书、弱智吧。 世界知识:百科全书、四个特定领域的数据(医学、经济管理、电子学和农业)。 NLP 数据集:COIG-PC 、COIG Human Value 等。 考试试题:中学和大学入学考试、研究生入学考试、逻辑推理测试、中国传统文化。