Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

Daniel Bourke作者高璇 张倩编译

没有三年实战经验,我是如何在谷歌云专业数据工程师认证中通关的

谷歌云平台为构建数据处理系统提供了基础架构,掌握谷歌云的使用可以在简历上起到锦上添花的效果。那么,如何在简历上证明「我学过」呢?当然是考证啦!所谓「证多不压身」。本文作者详述了自己考取谷歌云专业数据工程师认证的通关历程,还附赠了一些通关秘籍……

注:本文专用于2019年3月29日前的谷歌云专业数据工程师认证考试。此后我也做了一些更新,放在了Extras的部分。

在过去的几个月里,我一直在Google Cloud学习课程并准备专业数据工程师考试。然后我顺利通过了。几周后,我的连帽衫到了,证书也到手了。

本文将列出读者想知道的一些事,以及我为获取Google Cloud专业数据工程师认证所采取的行动步骤。

为什么要进行Google Cloud专业数据工程师认证?

数据无处不在。而且,我们需要知道如何构建能够处理和利用数据的系统。Google Cloud提供了构建这些系统的基础架构。

你可能已经掌握了使用Google Cloud的技能,但如何向未来的雇主或客户证明这一点呢?两种方式:通过项目或认证。

证书能够帮你告诉未来的客户和雇主,「嘿,我已经掌握了技能,并且我也努力获得了认证。」

谷歌用一句话对此进行了总结。

展示你在Google Cloud平台上设计和构建数据处理系统以及创建机器学习模型的能力。

如果你还不具备这些技能,那么通过认证的学习材料,你将学习如何在Google Cloud上构建世界一流的数据处理系统。

谁需要获得Google Cloud专业数据工程师认证?

你已经看到这些数字了。「云」正在扩增。它就在这里。如果你还没有看到这些数字,请相信它正在扩增。

如果你已经是一名数据科学家、数据工程师、数据分析师、机器学习工程师或正在寻找进入数据世界的职业,Google Cloud专业数据工程师认证就非常适合你。能够熟练使用云技术对所有类型的数据来说都是至关重要的。

你是否需要证书才能成为优秀的数据工程师/数据科学家/机器学习工程师?

并不是。

没有证书你也可以使用Google Cloud寻求数据解决方案。

证书只是对现有技能的验证。

参加认证考试需要多少钱?

参加认证考试的费用为200美元。如果失败,需要再次支付考试费。

准备课程和使用平台本身都有成本。

平台费用是使用Google Cloud服务的费用。如果你是它的发烧友,你会很清楚这些。如果你只阅读了本文中的培训材料,那么你可以创建一个新的Google Cloud帐户,并在Google提供的300美元信用额度内完成注册。

我们会马上讲到课程费用。

证书的有效期为多久?

2年。 之后需要再次参加考试。

而且Google Cloud每天都在不断发展,因此证书所需要的内容可能会发生变化(我在开始撰写本文时也发现了这一点)。

你需要为考试做什么准备?

Google建议有3年以上行业经验和1年以上使用GCP设计和管理解决方案的人员参加专业认证。

我没有这些经历和经验,我只准备了半年时间。

为了弥补这一块的不足,我充分利用了在线培训资源。

我参加了哪些课程?

如果你像我一样没有达到谷歌建议的要求,可能需要学习以下课程来提高自己的技能。

以下课程是我用于准备认证的课程,按完成顺序排列。我列出了通过认证考试的费用、时间表和实用值。
这是一些令人获益匪浅的在线学习资源,我过去常用它们备战考试。依次是A Cloud Guru、Linux Academy、Coursera。

Cousera网站上的Google Cloud平台专业数据工程课

链接:http://bit.ly/courseraGoogleDataEng
费用:每月49美元(7天免费试用)
时间: 1-2个月,每周10个小时以上
实用值: 8/10

Coursera上的Google Cloud平台专业数据工程课是Coursera与Google Cloud合作完成的。

它有五个子课程,每个课程都需要每周10个小时的学习时间。

如果你不熟悉Google Cloud上的数据处理,那这门课算是领你入门。你将使用名为QwikLabs的迭代平台进行一系列实践练习。在此之前,将由Google Cloud从业者讲授如何使用Google BigQuery、Cloud Dataproc、Dataflow和Bigtable等不同的项目。

Cloud Guru上关于谷歌云平台的介绍

链接:https://acloud.guru/learn/gcp-101
费用:免费
时间: 1周,4-6小时
实用值: 4/10

不要认为这门课实用值低就没用。远非如此。得分较低的唯一原因是它没有专注于专业数据工程师认证(从标题可以看出)。

在完成Coursera专业化课程后,我将此作为复习课程,因为我只在一些特定的时候使用过Google Cloud。

如果你来自其他云服务提供商,或之前从未使用过Google Cloud,你可能需要参加此课程。它对Google Cloud平台做了精彩的介绍。

Linux Academy Google认证专业数据工程

链接:https://linuxacademy.com/google-cloud-platform/training/course/name/google-cloud-data-engineer

费用:每月49美元(7天免费试用)
时间: 1-4周,每周4小时以上
实用值:10/10

在完成考试并回顾我所完成的课程后,Linux Academy的Google认证专业数据工程课对我是最有帮助的。

课程视频以及 Data Dossier的电子书(https://www.lucidchart.com/documents/view/0ca44a63-4ea4-4d78-8367-2465512d21be/1)(课程附带的免费学习资源)和练习考试使这个课程成为我用过的最好的学习资源之一。

我甚至在考试后在给后团队的Slack笔记中推选它为首选课程。

零散笔记
• 考试中的某些内容不在Linux Academy或A Cloud Guru或Google Cloud Practice考试中(预计)
• 出现一个有数据点图表的问题,你需要用公式对它们进行聚类(例如cos(X) 或 X²+Y²)
• 必须了解Dataflow、Dataproc、Datastore、Bigtable、BigQuery、Pub/Sub之间的区别,以及如何使用它们
• 考试中的两个案例研究与实践中的案例完全相同,但我在考试期间根本没有阅读这些研究(这些问题可见一斑)
• 了解一些基本的SQL查询语法非常有用,特别是对于BigQuery问题而言
• Linux Academy和GCP提供的练习考试与考试的真题非常相似,我会做大量模拟练习,找到自己的短板
• 帮助记忆Dataproc的打油诗:「Dataproc the croc and Hadoop the elephant plan to Spark a fire and cook a Hive of Pigs」
• 「Dataflow 是流动的光束」(Dataflow联想Apache Beam)
• 「世界各地的人都可以参与到ACID wash Spanner的制作。」(Cloud Spanner是一款专为云计算而设计的数据库,兼容ACID且可在全球范围内使用)
• 大致了解一些相关和非相关的数据库选项(例如MongoDB,Cassandra)的曾用名
• 每个服务的IAM功能略有不同,但了解如何将用户从可以看见数据与可以设计工作流分离开来是有益处的(例如,Dataflow Worker可以设计工作流,但不能查看数据)

这可能已经足够了。每次考试内容可能会有出入。但Linux Academy的课程会提供80%的知识。

Google Cloud 1分钟视频

链接:https://www.youtube.com/playlist?list=PLIivdWyY5sqIij_cgINUHZDMnGjVx3rxi
费用:免费
时间: 1-2小时
实用值: 5/10

这些是在A Cloud Guru论坛上推荐的。其中许多内容与专业数据工程师认证无关,但我选择了一些我认可的课程。

在学习课程时,有些服务看起来很复杂,所以花一分钟听完对一些特定服务的描述还是很值得的。

准备云专业数据工程师考试

链接:http://bit.ly/preparingforGCPDataExam
费用:有证书49美元,无证书免费
时间:1-2周,每周6小时以上
实用值:N / A.

我在考试前一天找到了这个资源。由于时间限制,我没有参与,因此缺乏实用值的的评分。

但是,在浏览课程概述页面后,我发现这个资源很不错,可以将你在Google Cloud上学习的数据工程内容综合起来,并发现你的短板。

我把这门课程作为参考资料发给了一位正在准备认证考试的同事。

Maverick Lin的谷歌数据工程秘籍

链接:https://github.com/ml874/Data-Engineering-on-GCP-Cheatsheet

费用:免费
时间:N / A.
实用值:N / A.

这是我在考试后偶然发现的另一个资源。我看了一下,这份资源全面又简洁。另外,它是免费的。这可以在练习考试间歇将其当做补充读物,甚至可以在认证之后用来回顾。

课程结束后的事宜

在快要完成课程后,我提前一周预约了考试。

毕竟deadline是第一生产力,可以让你充分了解你所学到的知识。

我多次参加了Linux Academy和Google Cloud的练习考试,每次都能达到95%以上的准确率

首次以90%以上的成绩通过Linux Academy练习考试。

每个平台的测验都很相似,但我发现,复习出错的题并记录下出错原因能有效地帮我查漏补缺。

我在Google Cloud上进行的考试以设计数据处理系统为主题,进行了两个案例的研究(自2019年3月29日后这一形式发生变化)。整个过程多是选择题。

我花了大约2个小时。并且比我参加的任何一次练习考试都要困难20%。

所以我反复强调的模拟考试还是非常重要的。

如果再考一次,我会改变什么?

更多练习模拟考试。学习更实用的知识。


当然,你可以做更多的准备工作。


谷歌建议考生有GCP的3年以上使用经验。但我缺少这一经验,所以我必须从我拥有的部分下手。

附注

考试于3月29日更新。本文中的材料仍将为你提供良好的基础,但要及时注意到内容的变化。

Google Cloud专业数据工程师考试的不同部分(版本1)

1. 设计数据处理系统
2. 构建和维护数据结构和数据库
3. 分析数据并实现机器学习
4. 为分析和优化建模
5. 确保可靠性
6. 可视化数据和提议策略
7. 考虑安全性和合理性

Google Cloud Professional数据工程师考试的不同部分(第2版)

1. 设计数据处理系统
2. 构建和运行数据处理系统
3. 实现机器学习模型(大部分改变都在这里) [新]
4. 确保解决方案质量

版本2将版本1的第1、2、4和6合并为1和2。它还将版本1的第5和第7部分合并到第4部分。第2版的第3部分已经扩展到包含所有Google Cloud的新机器学习功能。

由于最近考试内容改变,许多训练资料都没来得及更新。

但是,本文提到的材料能覆盖70%的内容。我将结合自身对以下内容做一些研究(这些在考试的第2版中介绍过)。

  • Google机器学习(ML)API

  • Google Cloud 机器学习引擎

  • Google Cloud TPU(Google专为ML培训而构建的自定义硬件)

  • Google ML术语表

最新的考试更新主要集中在Google Cloud的ML功能上。

2019年4月29日更新:来自Linux Academy课程讲师Matthew Ulasien的消息:

仅供参考,我们计划更新Linux Academy的数据工程师课程,以应对从5月中旬开始的新方案。

考试结束后

完成考试后,你只会收到通过或失败两种结果。我建议考试成绩至少达到70,因此我练习考试时的目标至少是90。

一旦通过,你将收到一封电子邮件,里边有官方Google Cloud专业数据工程师证书的兑换代码。恭喜!

你还可以在Google Cloud专业数据工程师商店中使用兑换代码。可以兑换T恤,背包和连帽衫(库存可能会变)。我选择了连帽衫。

现在你已经通过认证,可以(正式地)展示你的技能,继续做你最擅长的事情了。

记得两年后要获得重新认证。


原文链接:https://towardsdatascience.com/passing-the-google-cloud-professional-data-engineer-certification-87da9908b333

入门数据工程师谷歌云
2
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

暂无评论
暂无评论~