博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Google Cloud 专业数据工程师经验分享
阅读量:4175 次
发布时间:2019-05-26

本文共 2392 字,大约阅读时间需要 7 分钟。

写在前面:

考试结束后,趁还记着的时候我赶紧记录下来。因为这些是没有顺序的,我只是根据自己遇到的问题总结一下考点。我记录考点的目的不是为您提供问题,而是为您提供您可以备考的重点。 我经常被一些问题困扰; 希望你可以根据我的经验做好准备。 祝你一切顺利!

因为我以前有参加过其他认证考试的经验,我觉得数据工程师认证整体相对简单。在考试结束后我又回顾了一下所有的问题,方便后期提醒我覆盖的知识点,我觉得知识点几乎都覆盖了,没有一个是直接可以给出答案的,所有问题都是基于一个场景或者一个案例。

  • BigQuery Data Transfer Service.  涉及到储存传输服务和BigQuery Connectors 
  • IAM + Dataflow. Dataflow 开发模式和允许开发人员在没有数据访问权限的情况下使用管道的IAM权限设置
  • IAM + BigQuery. 这里有好几个问题, Bigquery相关的最多。至少 2 or 3 与访问权限有关tables/datasets. 记住:你不能基于tables分配权限,只能基于datasets.
  • BigQuery: partitioning tables. 基于它们分区的内容 - 摄取时间,时间戳,日期。 他们是如何命名的? 然后如何在查询中访问它们? 使用_PARTITIONTIME
  • BigQuery. 名称中通配符的语法
  • BigQuery: bq的表日期范围。 使用TABLE_DATE_RANGE,_TABLE_SUFFIX,TABLE_QUERY等函数访问包含日期和分区表的表
  • Cloud Spanner: 第二索引、如何创建索引和第二索引
  • Datastore: 索引
  • BigTable: row key 结构.  ?  推荐创建row_key的方式?如何避免hotspotting? 如何时候使用时间戳以及哪里使用
  • BigTable: 优化方法. 
  • PubSub, Dataflow, Dataproc —这些产品的特性和用途。 没有直接的问题,但适用于一个场景。 Coursera,Linux Academy和Cloud Academy的课程涵盖了这些课程
  • Dataproc: 使用gcs而不是现有的文件系统。 最佳做法是使用Google云端存储而不是使用HDFS, 您可以在数据处理后销毁计算节点并节省成本 .
  • BigQuery+DataStudio — 缓存/预取缓存。 了解如何将DataStudio连接到存储解决方案。 了解默认缓存(无法禁用)和预取缓存(可以禁用)之间的区别。 使用Viewer凭据和所有者凭据执行此操作有何不同。
  • Dataprep: jobs. Dataprep作业是如何创建和运行的? 你需要什么权限? 我看到的一个术语是,这是一种更“随意”的数据清理方式。 我想,Dataproc / Dataflow会更具程序性,因此“强烈”。
  • DataStudio: visualisation. 旧数据产生的原因是什么? 你怎么得到最新的? 您需要设置哪些缓存选项?
  • Machine Learning : feature crosses. 无法提供更多信息,或者我会透露这个问题。 了解这些是什么以及它解决了什么问题。
  • Machine Learning. 还有一个关于特征交叉和计算特征的问题。 这是关于ML的Coursera材料的直接提升.
  • Machine Learning: 处理过拟合. 
  • Machine Learning: 正则化. 困扰我的一个选择是“增加正规化”。 增加或减少正规化意味着什么? 增加或减少数值或增加或减少要正则化的参数数量? 您可能想知道这意味着什么。 我个人认为这是令人困惑的措辞,我随机选择了两个选项. 
  • Dataproc: 如何控制缩放? 配置自动扩展? 我可能没有正确地解释这个问题,但我对这个选项感到困惑。 当我们设置自动缩放时,我们应该设置或不设置工人数量或最大工人数量? (或者它是节点?)我完全不知道这个答案。  
  • Avro file format. 这在选项和问题中多次出现。 查看它是什么,并知道它是一种压缩格式。 此外,bigquery / dataflow可以直接使用它。.
  • 我注意到至少有两个问题,其中选项对于不完整性是错误的。 例如。 这里有3个需要满足的要求。 这是一个只满足其中两个但是按照gcp建议进行的选项。 这是另一个涵盖所有三个要求的选项,但在方法中显然是错误的。 我一遍又一遍地阅读这些问题,寻找明确的线索,选择哪个选项,但我什么都没看到。 如果你遇到这种情况,老实说我没有任何建议.
  • 有一个问题我必须从非GCP产品列表中进行选择。 例如。 Redis,Cassandra,Hbase with Hive,MySQL等。所以这需要了解其他技术及其存储/查询格式。 看起来只是心烦意乱的GCP不会削减它.
  • 密钥管理服务。 这个问题是关于将KMS与非GCP产品一起使用。 请注意,有一个默认密钥管理,Google管理所有密钥,然后是客户管理的加密密钥,还有客户提供的加密密钥.
  • BigQuery query plan. BigQuery允许您查看运行的查询的查询计划和执行配置文件。 了解阶段,平均时间和最长时间之间的差异,为什么计划可能存在偏差,以及如何优化计划.
  • BigQuery + GCS. 知道如何将GCS和BigQuery之间的表链接为永久表和临时表。
  • 大约8个问题来自案例研究,FlowLogistics和MJTelco。 你没有心理,但要好好研究它们。 通过自己解决方案。 Linux Academy课程有一个模块可以用于案例研究.
  • Bigquery. 知道联合表是什么。 在您熟悉它的同时,还要了解群集表.

翻译:原文: 

转载地址:http://aekai.baihongyu.com/

你可能感兴趣的文章
Python安装虚拟环境
查看>>
网络字节序VS主机字节序
查看>>
LeetCode Substring with Concatenation of All Words
查看>>
LeetCode Unique Paths
查看>>
页面静态化处理-必须利用URL重写规则
查看>>
[No00000A]计算机的存储单位
查看>>
NYOJ——301递推求值(矩阵快速幂)
查看>>
[洛谷P3384]【模板】树链剖分
查看>>
java的基础概念(1)
查看>>
卸载CentOS7-x64自带的OpenJDK并安装Sun的JDK7的方法
查看>>
[Node.js] 基于Socket.IO 的私聊
查看>>
poj 1287 Networking (最小生成树Kruskal算法)
查看>>
w3c 学习html DOM
查看>>
Socket连接、TCP、UDP、HTTP连接详解
查看>>
linux权限设置
查看>>
python 10 days
查看>>
解决tomcat启东时一闪而过的问题
查看>>
C# 参考之上下文关键字get、set、value、partial、where和yield
查看>>
c网购物车流程图
查看>>
油豆腐
查看>>