旗下产业: A产业/ A实习/ A计划
全国统一咨询热线:010-5367 2995
首页 > 热门文章 > 大数据分析 > 大数据分析面试题库-有经验的大数据分析面试问题

大数据分析面试题库-有经验的大数据分析面试问题

时间:2019-12-26来源:www.aaa-cg.com.cn点击量:作者:Sissi
时间:2019-12-26点击量:作者:Sissi



  之前我分享了《大数据分析面试题库—基本的大数据分析面试问题》,这个是针对基本的大数据分析问题,如果您在大数据分析世界中有相当丰富的工作经验,那么根据您以前的经验,您将在大数据分析采访中被问到许多问题。这些问题可能只是与您的经验或场景有关。因此,AAA教育为您准备好这些最佳的大数据分析面试问题和答案。

 

11.您有大数据分析经验吗?
 

  如何处理: 由于该问题是主观问题,因此没有具体答案,并且答案取决于您以前的经验。在大数据分析采访中问这个问题时,采访者想了解您以前的经验,并且还试图评估您是否适合项目要求。
 

  那么,您将如何处理这个问题?如果您以前有经验,请从以前的职务开始,然后慢慢地在对话中添加细节。告诉他们您使项目成功的贡献。这个问题通常是面试中问到的第二个 或第三个问题。后面的问题基于此问题,因此请仔细回答。您还应该注意不要过度处理以前的工作。保持简单明了。
 

12.您喜欢好的数据还是好的模型?为什么?
 

  如何处理: 这是一个棘手的问题,但通常在大数据分析面试中会问到。它要求您在良好的数据或良好的模型之间进行选择。作为候选人,您应该尝试根据自己的经验来回答。许多公司希望遵循严格的数据评估流程,这意味着他们已经选择了数据模型。在这种情况下,拥有良好的数据可能会改变游戏规则。另一种方法是根据良好的数据选择模型。
 

  如前所述,请根据您的经验进行回答。但是,不要说拥有良好的数据和良好的模型很重要,因为在现实生活中很难同时拥有两者。
 

13.您是否会优化算法或代码以使其运行更快?
 

  如何处理: 这个问题的答案应该始终是“是”。真实世界的性能很重要,它并不取决于您在项目中使用的数据或模型。
 

  面试官也可能想知道您以前是否有代码或算法优化方面的经验。对于初学者而言,这显然取决于他过去从事的项目。经验丰富的候选人也可以相应地分享他们的经验。但是,请诚实对待您的工作,如果您过去没有优化代码,那也很好。只要让面试官知道您的真实经验,您就可以破解大数据分析面试。

大数据分析
 

14.您如何进行数据准备?
 

  如何进行: 数据准备是大数据分析项目中的关键步骤之一。大数据分析采访可能涉及基于数据准备的至少一个问题。当面试官问您这个问题时,他想知道您在数据准备过程中采取了哪些步骤或预防措施。
 

  如您所知,需要进行数据准备才能获得必要的数据,然后可以将这些数据进一步用于建模目的。您应该将此信息传达给面试官。您还应该强调要使用的模型的类型以及选择该特定模型的原因。最后但并非最不重要的一点,您还应该讨论重要的数据准备术语,例如转换变量,离群值,非结构化数据,识别差距等。
 

15.如何将非结构化数据转换为结构化数据?
 

  如何处理: 非结构化数据在大数据分析中非常常见。应将非结构化数据转换为结构化数据,以确保进行正确的数据分析。您可以通过简要区分两者来开始回答问题。完成后,您现在可以讨论将一种形式转换为另一种形式的方法。您也可能会分享实际情况。如果您刚毕业,则可以共享与您的学术项目有关的信息。
 

  通过正确回答此问题,表示您了解结构化和非结构化的数据类型,并且具有处理这些数据的实践经验。如果您具体回答该问题,那么您肯定可以破解大数据分析采访。
 

16.哪种硬件配置最适合Hadoop作业?
 

  配置4/8 GB RAM和ECC内存的双处理器或核心计算机是运行Hadoop操作的理想选择。但是,硬件配置会根据特定于项目的工作流和处理流程而有所不同,因此需要进行相应的自定义。
 

17、当两个用户尝试访问HDFS中的相同文件时会发生什么?
 

  HDFS NameNode仅支持独占写入。因此,只有第一个用户将获得文件访问许可,而第二个用户将被拒绝。
 

18、NameNode出现故障时如何恢复?
 

  需要执行以下步骤以使Hadoop集群启动并运行:

  使用文件系统元数据副本FsImage来启动新的NameNode。

  配置数据节点以及客户端,以使它们确认新启动的名称节点。

  一旦新的NameNode完成加载最后一个从DataNode接收到足够阻止报告的检查点FsImage,它将开始为客户端提供服务。

  在大型Hadoop集群的情况下,NameNode恢复过程会耗费大量时间,这对于例行维护而言是一个更大的挑战。
 

19、您对Hadoop中的Rack Awareness了解什么?
 

  这是应用于NameNode的算法,用于确定如何放置块及其副本。根据机架定义,可将同一机架内各DataNode之间的网络流量最小化。例如,如果我们考虑复制因子为3,则将两个副本放在一个机架中,而将第三副本放在一个单独的机架中。
 

20、“ HDFS块”和“输入分割”之间有什么区别?
 

  HDFS将输入数据物理上划分为块进行处理,这称为HDFS块。

  输入拆分是映射器对数据的逻辑划分,用于映射操作。




 

预约申请免费试听课

填写下面表单即可预约申请免费试听!怕钱不够?可先就业挣钱后再付学费! 怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可推荐就业!

©2007-2021/北京漫动者教育科技有限公司版权所有
备案号:京ICP备12034770号

©2007-2022/ www.aaa-cg.com.cn 北京漫动者数字科技有限公司 备案号: 京ICP备12034770号 监督电话:010-53672995 邮箱:bjaaa@aaaedu.cc

京公网安备 11010802035704号

网站地图