Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

知乎、清华大学作者

1亿个行为数据,知乎、清华大学开放国内最大个性化推荐实际交互数据集ZhihuRec

知乎联合清华大学对外开放基于知乎的大规模富文本查询和推荐数据集「ZhihuRec」。该数据集包含了知乎上的 1 亿个行为数据,是目前为止,国内用于个性化推荐的最大的实际交互数据集。

数据在机器学习中扮演着重要角色。在推荐系统的研究中,对用户建模来说,用户行为和附带信息都非常有帮助。因此,大规模真实场景下的用户丰富行为是非常有用的数据。但是,这些数据很难获取,因为这种数据大部分都被公司拥有并且保护起来。

本文中,知乎联合清华大学对外开放基于知乎的大规模富文本查询和推荐数据集ZhihuRec。该数据集中的曝光数接近 1 亿,并具有目前为止最丰富的上下文信息,覆盖 10 天、79.8 万用户、16.5 万个问题、55.4 万个回答、24 万个作者、7 万话题以及 50.1 万用户搜索行为日志。它可以被用于各种推荐方法,如协同过滤、基于内容的推荐、基于序列的推荐、知识增强的推荐和混合推荐等。此外,由于 ZhihuRec 数据集中信息丰富,不仅可以将它应用于推荐研究,还可以将它应用于用户建模(如性别预测、用户兴趣预测)、跨平台应用(查询平台和推荐平台)等有趣的课题。据了解,这是用于个性化推荐的最大的实际交互数据集。

总结来说 ZhihuRec 数据集主要具有三个优点:

  1. ZhihuRec 是最大的公共推荐数据集,包含从知乎收集的各种用户交互,该数据集是开源的。

  2. ZhihuRec 数据集提供了丰富的内容信息,包括问题、回答、个人资料、话题。特别是用户的搜索日志也会显示出来,这些以前没有包含过。

  3. 除 top-N 推荐、上下文感知推荐等推荐研究外,ZhihuRec 还可用于各种研究领域,例如用户建模、集成搜索和推荐研究。



  • 论文地址:https://arxiv.org/pdf/2106.06467.pdf

  • 数据集地址:https://github.com/THUIR/ZhihuRec-Dataset


数据集简介

下表 1 展示了 ZhihuRec 与其他一些经典推荐数据集之间的差异,结果表明,ZhihuRec 数据集比传统推荐数据集包含更多的信息和类型,如文本、用户画像、物品属性、时间戳等。

表格中 O 表示 ZhihuRec 数据集中虽然没有记录用户具体的评分 / 收藏行为,但是记录了用户的收藏回答总量。

下图给出了 ZhihuRec 数据集的构建过程,可以看出数据集包含的上下文信息有用户对回答的点击和浏览行为日志、用户查询词记录、用户画像信息、答案属性信息、问题属性信息、作者画像信息和话题属性等各类信息,以及每个用户最多 20 个最近查询关键词。


表 2 显示了 ZhihuRec 中每个印象记录的字段及其说明。根据答案的读取时间,所有用户的点击和未点击的印象都记录在数据集中。


表 3 显示了 ZhihuRec 数据集中的每个搜索记录的字段及其说明。所有用户的搜索关键字和时间戳都记录在数据集中。


由于 ZhihuRec 数据集包含约 1 亿个用户 - 答案交互,因此也称为 Zhihu100M。此外,还构造了两个从 Zhihu100M 数据集中随机抽取的较小数据集,称为 Zhihu20M 和 Zhihu1M,以满足各种应用需求。它们包含大约 2000 万和 1M 的用户答案日志,可以将其视为中等大小的数据集和相对较小的数据集。表 4 中显示了它们的一些统计信息。


用户画像和属性都记录在 ZhihuRec 中。该数据集保留用户、问题、回答和作者的内容信息。表 5 显示了用户的属性,表 6 显示了回答的属性,表 7 显示了问题的属性,表 8 显示了作者的属性。

用户的属性。

回答的属性。
 

问题的属性。

作者的属性。

如表中所示,关于用户、问题、回答和作者的功能十分丰富,可以对用户和内容(回答)进行全面建模。问题属性中没有 authorID,原因是随着时间的推移,许多人可以修改知乎问答社区中的问题。 

请注意,authorID 与 userID 是不同的,这意味着如果一个人在数据集中同时扮演用户和作者的角色,则其 authorID 和 userID 是不同的,因为发布者和阅读者是不同的角色。

每个用户或问题还具有几个话题(从 0 到 70,308),由用户本人(用户话题)或系统用户(问题话题,所有用户都可以对其进行编辑)标记。它提供了一种更明确的方式来帮助了解用户的兴趣和问题的类型,这对于推荐也很有用。每个话题都有一个话题 ID 和话题描述作为其属性,话题 ID 进行了散列处理,并且话题描述中的所有上下文都已转换为数字编号。

数据集隐私保护

由于整个数据集都是从真实场景中的真实用户那里收集的,因此有必要保护用户隐私。因此,并非用户的所有内容信息都被释放。

ZhihuRec 数据集中的所有 ID 均被匿名和散列处理。所有文本信息(例如问题的标题、回答的内容、话题的描述和搜索关键字)均被分解为单词,并且所有单词均被数字替换。用户画像中的所有文本功能(例如性别、注册类型、登录频率、省、城市)也都已转换为数字号码。因此,无法从 ZhihuRec 数据集中获取用户个人资料和内容属性的详细信息。

ZhihuRec 数据集删除了用户的出生日期、工作经历、教育经历等敏感信息。用户的网络信息 (如 IP 地址) 也已被删除。用户对回答的显式反馈如赞同、感谢、收藏、评论、反对和举报等都被隐藏,ZhihuRec 数据集只保存了相关的总的统计量,如用户总的赞同数、收藏数、评论数、反对数和举报数等。

数据集统计特性

图 2 显示了用户注册时间的分布;可以发现,随着时间的推移,每月注册用户的数量逐渐增加。


图 3 显示了每个话题的用户分布数:


图 4 显示了每个话题下的问题分布数:


图 5 显示了每个话题下的回答分布数。它显示大多数用户关注的话题少于 100 个,大多数回答和问题绑定不止一个话题。


图 6 显示了 ZhihuRec 数据集中每个搜索的用户分布数量。大多数用户的搜索少于 3 个,并且分布显示出类似对数的衰减。但是,有许多用户有 20 个搜索,原因是研究者在此处进行了截断(最多将保留该用户的 20 个最近搜索关键字)。


 数据集在多项推荐任务中的应用

 topN 推荐

用户的交互日志包含在 ZhihuRec 数据集中;从推荐系统的角度来看,可以将用户在日志中交互的回答视为商品。该信息适用于协同过滤,其中包含通用的 topN 推荐的主要方法。为了评估 ZhihuRec 数据集的性能,在 Zhihu1M 数据集中应用了 5 种推荐算法。

  • Pop:此基准始终会推荐训练集中最受欢迎的回答(用户点击)。

  • ItemKNN:此方法选择前 K 个最近邻,并使用其信息进行预测。

  • BPR:此方法应用贝叶斯个性化排名目标函数来优化矩阵分解。 

  • LightGCN:此方法使用图卷积网络来增强协同过滤的性能。

  • ENMF:使用高效神经矩阵分解的非采样神经网络推荐模型。


实验已使用 RecBole 完成。对于所有方法,用户和回答的 embedding 大小为 64。ItemKNN 的邻居数为 100。采用留一法(Leave-one-out)。实验结果如表 9 所示:


序列推荐

序列推荐在改善许多推荐任务的性能方面起着重要作用,因为它们可以揭示用户的动态偏好,这也是前 N 个推荐。通常,序列推荐与传统推荐之间的区别在于序列推荐需要清晰的时间信息。它使用用户交互的商品序列作为输入,并根据交互时间戳对商品进行排序。推荐系统中对商品的展示也有排序。由于所有用户的交互都记录在 ZhihuRec 数据集中,因此本文已在 Zhihu1M 数据集中应用了四个最新的序列模型(FPMC 、GRU4Rec、NARM 、SASRec)。

  • FPMC:此方法基于基础马尔可夫链上的个性化过渡图,并结合了 MF。 

  • GRU4Rec:基于会话的模型,使用 RNN 捕获序列依赖关系并进行预测。 

  • NARM:此方法使用具有注意力机制的混合编码器来捕获用户的意图。 

  • SASRec:采用自注意力层来捕获动态用户交互序列的顺序模型。


实验已使用 RecBole 完成。对于所有方法,用户和回答的 embedding 大小为 64。使用留一法。实验结果如表 10 所示:


上下文感知推荐

上下文感知推荐模型使用来自用户、商品和上下文来增强模型性能。上下文感知推荐结合了不同推荐模型的优势,例如协同过滤,基于内容的模型以获得更好的推荐;该数据集非常适合上下文感知推荐。如点击预测任务中通常描述的那样,一个用户点击一个回答的交互标记为 1,而该用户有被展示但不点击一个回答的交互标记为 0。本文在 Zhihu1M 数据集中应用了 4 个最新的上下文感知模型。

  • Wide&Deep :由 Google 提出,它结合了深度神经网络和线性模型,并广泛用于实际场景中。

  • NFM :使用双向交互层对二阶特征交互进行建模的神经模型。

  • ACCM:这是一个注意力协同和内容模型,它将内容和用户交互结合在一起。

  • CC-CC:此方法使用自适应 “特征采样” 策略。


实验已使用 CC-CC 工具箱完成。所有方法的用户和回答的 embedding 大小为 64。对于每个用户,最后一次点击和最后一次点击之后的展示均被视为测试集,最后一次点击之前的点击以及最后一次点击之前的点击和最后一次点击之间发生的展示被视为验证集,其他被视为训练集。实验结果如表 11 所示:


跨场景推荐 

如上所述,用户的搜索关键字也包含在 ZhihuRec 数据集中;搜索使用的关键词可以视为其明确的需求信息。虽然以前的推荐系统的研究主要集中于从用户的隐式反馈中学习,但如果更多的研究人员尝试整合搜索和推荐,将很有帮助,这将有助于更好地了解用户的信息需求并提供更好的信息服务。该数据集由于其丰富的搜索和推荐日志可以应用于此类研究。

基于负反馈的推荐

 当用户与回答进行交互时,他们会给答案以正反馈和负反馈。正面反馈是指用户对回答进行点击、收藏、点赞等。负反馈则是用户删除、跳过回答等。传统的推荐数据集存在缺乏负反馈问题。ZhihuRec 数据集同时记录了用户的正反馈和负反馈。利用用户的负向偏好可以提高推荐质量,该数据集适用于基于负反馈的推荐模型。

由于 ZhihuRec 数据集具备了丰富的上下文信息,它还可以被用在推荐之外的任务上,例如识别最有价值的回答者、识别优质回答等。

 结论

本文介绍了来自在线知识共享社区的一个新数据集,旨在为个性化推荐做出贡献。据了解,这是一个包含详细信息的最大的公开数据集,包括用户、内容、行为、作者、话题以及包含搜索和对推荐结果是否点击的用户交互日志。该研究呈现了有关最新算法在该数据集上的实验结果。该数据集可用于以下方面的研究:上下文感知推荐、序列推荐、利用负反馈的推荐、集成搜索和推荐以及用户画像和内容属性的建模。该数据集是公开可用的,并且在交互日志和搜索关键字中包含大量信息,适合跨平台研究。
理论
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

马尔可夫链技术

马尔可夫链,又称离散时间马尔可夫链,因俄国数学家安德烈·马尔可夫得名,为状态空间中经过从一个状态到另一个状态的转换的随机过程。该过程要求具备“无记忆”的性质:下一状态的概率分布只能由当前状态决定,在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔可夫性质。

知乎机构

知乎,中文互联网综合性内容平台,自 2010 年成立以来,知乎凭借认真、专业、友善的社区氛围,独特的产品机制,以及结构化、易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类,在诸多领域具有关键影响力的内容平台。知乎将AI广泛应用与社区,构建了人、内容之间的多元连接,提升了社区的运转效率和用户体验。知乎通过内容生产、分发,社区治理等领域的AI应用,也创造了独有的技术优势和社区AI创新样本。

zhihu.com
矩阵分解技术

矩阵分解是一种将矩阵简化为其组成部分的方法。这种方法可以简化更复杂的矩阵运算,这些运算可以在分解的矩阵上执行,而不是在原始矩阵本身上执行。它的衍生Non-negative matrix factorization也被用于降维等操作上。

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

用户画像技术

用户画像(persona)的概念最早由交互设计之父Alan Cooper提出:“Personas are a concrete representation of target users.” 是指真实用户的虚拟代表,是建立在一系列属性数据之上的目标用户模型。

推荐文章
暂无评论
暂无评论~