「AI开发者成长计划」首期公开课由机器之心与微众银行联合开设,主题为《联邦学习FATE入门与应用实战》,特邀合作伙伴 VMware 也将参与分享。 公开课为期4周,共6期课程 ,设置主题分享、项目实践、在线答疑等环节,从零入门联邦学习。
整体学习计划与加入方式请查看:《联邦学习FATE入门与应用实战》公开课上线!
3 月 12 日,机器之心联合微众银行开设的公开课《联邦学习 FATE 入门与应用实战》第二讲结课,VMware 研发工程师陈家豪为大家介绍了开源框架 FATE 的部署,第二讲视频回顾:
第二课精选问答
在第2课的 QA 环节中,有一些问题被广泛提到并且很有价值,所以我们进行了精选与编辑,供大家参考。
1)「toy_example」跑不通原因是什么?
因为 FATE 的架构比较复杂,加上系统和网络不稳定性等客观原因,一遍下来某些步骤有不可控的小问题。这些问题可以逐步去排除,但是我们推荐比较简单的方法是可以重新跑一遍或几遍。如果还是不行那就定位是否是指令集不支持的问题,详情请参考我们 kubeFATE 在 github 上的 wiki。
2)Exchange 也负责模型聚合吗,还是只负责建立底层通信?
它是不负责模型聚合的,只负责通讯。
3)目标机和部署机有什么区别?
我们前面说 KubeFATE 的使用其实分为两个部分,一个部分是生成启动集群的配置文件。另外一个部分就是运行的 FATE 集群。部署机就是生成配置文件的机器,目标机是运行集群的机器。部署机和目标机只是一个逻辑上的划分,他们实际上可以是同一台服务器。
4)每个 party 都是有自己的 k8s 集群么?
其实取决于你是哪种部署方式,如果是 docker-compose 的话,你就不需要有 k8s 集群了。
5)这些 party 里有分中心机构和参与机构吗?
没有严格的区分,一个 party 即可以做分享数据的中心机构,也可以做参与机构,这取决于训练的具体内容。
6)如何实现分布式训练?
分布式训练由 EggRoll 模块提供支持,它向上提供了一个 MapReduce 的功能。
7)kubefate 支持容灾吗,节点挂了怎办?
如果是使用 k8s 部署的话,那么容灾其实是依赖于 k8s。节点挂也没关系,k8s 会帮你重新起一个。
8)一个 party 有多个用户吗?
一个 party 可以有多服务多个用户,这是没问题。
大家如有更多疑问,也欢迎在评论区留言讨论,我们也会定期邀请讲师在评论区答疑,并持续将精选问答收录到本篇文章的正文内容中。