大数据分析面试题库-有经验的大数据分析面试问题-AAA教育

大数据分析面试题库-有经验的大数据分析面试问题

时间：2019-12-26来源：www.aaa-cg.com.cn点击量：次作者：Sissi

时间：2019-12-26点击量：次作者：Sissi

　　之前我分享了《大数据分析面试题库—基本的大数据分析面试问题》，这个是针对基本的大数据分析问题，如果您在大数据分析世界中有相当丰富的工作经验，那么根据您以前的经验，您将在大数据分析采访中被问到许多问题。这些问题可能只是与您的经验或场景有关。因此，AAA教育为您准备好这些最佳的大数据分析面试问题和答案。

11.您有大数据分析经验吗?

　　如何处理：由于该问题是主观问题，因此没有具体答案，并且答案取决于您以前的经验。在大数据分析采访中问这个问题时，采访者想了解您以前的经验，并且还试图评估您是否适合项目要求。

　　那么，您将如何处理这个问题?如果您以前有经验，请从以前的职务开始，然后慢慢地在对话中添加细节。告诉他们您使项目成功的贡献。这个问题通常是面试中问到的第二个或第三个问题。后面的问题基于此问题，因此请仔细回答。您还应该注意不要过度处理以前的工作。保持简单明了。

12.您喜欢好的数据还是好的模型?为什么?

　　如何处理：这是一个棘手的问题，但通常在大数据分析面试中会问到。它要求您在良好的数据或良好的模型之间进行选择。作为候选人，您应该尝试根据自己的经验来回答。许多公司希望遵循严格的数据评估流程，这意味着他们已经选择了数据模型。在这种情况下，拥有良好的数据可能会改变游戏规则。另一种方法是根据良好的数据选择模型。

　　如前所述，请根据您的经验进行回答。但是，不要说拥有良好的数据和良好的模型很重要，因为在现实生活中很难同时拥有两者。

13.您是否会优化算法或代码以使其运行更快?

　　如何处理：这个问题的答案应该始终是“是”。真实世界的性能很重要，它并不取决于您在项目中使用的数据或模型。

　　面试官也可能想知道您以前是否有代码或算法优化方面的经验。对于初学者而言，这显然取决于他过去从事的项目。经验丰富的候选人也可以相应地分享他们的经验。但是，请诚实对待您的工作，如果您过去没有优化代码，那也很好。只要让面试官知道您的真实经验，您就可以破解大数据分析面试。

大数据分析

14.您如何进行数据准备?

　　如何进行：数据准备是大数据分析项目中的关键步骤之一。大数据分析采访可能涉及基于数据准备的至少一个问题。当面试官问您这个问题时，他想知道您在数据准备过程中采取了哪些步骤或预防措施。

　　如您所知，需要进行数据准备才能获得必要的数据，然后可以将这些数据进一步用于建模目的。您应该将此信息传达给面试官。您还应该强调要使用的模型的类型以及选择该特定模型的原因。最后但并非最不重要的一点，您还应该讨论重要的数据准备术语，例如转换变量，离群值，非结构化数据，识别差距等。

15.如何将非结构化数据转换为结构化数据?

　　如何处理：非结构化数据在大数据分析中非常常见。应将非结构化数据转换为结构化数据，以确保进行正确的数据分析。您可以通过简要区分两者来开始回答问题。完成后，您现在可以讨论将一种形式转换为另一种形式的方法。您也可能会分享实际情况。如果您刚毕业，则可以共享与您的学术项目有关的信息。

　　通过正确回答此问题，表示您了解结构化和非结构化的数据类型，并且具有处理这些数据的实践经验。如果您具体回答该问题，那么您肯定可以破解大数据分析采访。

16.哪种硬件配置最适合Hadoop作业?

　　配置4/8 GB RAM和ECC内存的双处理器或核心计算机是运行Hadoop操作的理想选择。但是，硬件配置会根据特定于项目的工作流和处理流程而有所不同，因此需要进行相应的自定义。

17、当两个用户尝试访问HDFS中的相同文件时会发生什么?

　　HDFS NameNode仅支持独占写入。因此，只有第一个用户将获得文件访问许可，而第二个用户将被拒绝。

18、NameNode出现故障时如何恢复?

　　需要执行以下步骤以使Hadoop集群启动并运行：

　　使用文件系统元数据副本FsImage来启动新的NameNode。

　　配置数据节点以及客户端，以使它们确认新启动的名称节点。

　　一旦新的NameNode完成加载最后一个从DataNode接收到足够阻止报告的检查点FsImage，它将开始为客户端提供服务。

　　在大型Hadoop集群的情况下，NameNode恢复过程会耗费大量时间，这对于例行维护而言是一个更大的挑战。

19、您对Hadoop中的Rack Awareness了解什么?

　　这是应用于NameNode的算法，用于确定如何放置块及其副本。根据机架定义，可将同一机架内各DataNode之间的网络流量最小化。例如，如果我们考虑复制因子为3，则将两个副本放在一个机架中，而将第三副本放在一个单独的机架中。

20、“ HDFS块”和“输入分割”之间有什么区别?

　　HDFS将输入数据物理上划分为块进行处理，这称为HDFS块。

　　输入拆分是映射器对数据的逻辑划分，用于映射操作。

预约申请免费试听课

填写下面表单即可预约申请免费试听！怕钱不够？可先就业挣钱后再付学费！怕学不会？助教全程陪读，随时解惑！担心就业？一地学习，可推荐就业！

AAA教育

大数据分析面试题库-有经验的大数据分析面试问题

预约申请免费试听课

AAA教育官方微信

视频学习群