当前位置:网站首页>【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(五)
【300+精选大厂面试题持续分享】大数据运维尖刀面试题专栏(五)
2022-07-19 15:58:00 【大数据研习社】
持续分享有用、有价值、精选的优质大数据面试题
致力于打造全网最全的大数据面试专题题库
41、NodeManager节点会将当前节点的DataNode实时上报给RescourceManager,但您之前说HDFS集群的唯一访问入口是NameNode,那是否每台NodeManager在收集本地的DataNode数据时都得访问NameNode获取呢?如果是的话也太浪费HDFS性能了吧,如果不是那是NodeManager是采用什么机制实现不经过NameNode就能获取一个DataNode的数据呢?
参考答案:
“NodeManager节点会将当前节点的DataNode实时上报给RescourceManager”,这个说法是不对的,应该是DataNode上报自己的block给NameNode,RescourceManager和NodeManager管的是资源而不是数据。当作业要读取hdfs数据的时候仅仅从NameNode上获取数据的位置,而不会获取数据本身,得到数据的位置后作业再去找DataNode获取数据本身。
42、CDH 是开源的产品,但是 CM 是付费的呀,我们在生产环境中使用 CM 没有向 cloudera 公司交钱是否会收到律师函呢?但是不用 CM 我们又不知道如何管理(搭建,扩容,监控等)CDH 集群了,如果公司不愿意交钱的话我们大数据运维该如何处理呢?
参考答案:
以后都没有免费的了,不愿意交钱的话可以使用开源社区版,节点不多的话可以人肉运维,自搭建监控平台,节点多的话自己可以写脚本或借助自助化工具运维,比如 ansible 等。
43、ElasticSearch和HDFS都是分布式文件系统,也都可以做数据存储和检索功能,也都是JAVA开源产品,为什么在大数据领域中HDFS比ES更火呢?
参考答案:
这两个组件没有可比性,应对的场景不一样,HDFS应用于海量数据存储,ES应用于全文搜索,在电商和搜索引擎用的多
44、开发人员在hive中创建的元数据表信息该如何实时监控呢?
参考答案:
可以使用阿里开源的Canal来实时读取Hive的元数据库mysql的binlog数据,达到实时监控表的变更操作。
45、HDFS的数据被删除没法直接被监控,企业中该如何避免开发人员误删除数据免得咱们运维背锅呢?
参考答案:
打开审计日志,并使用filebeat采集然后写入ES中,可以实时查询所有数据的操作。
46、大数据安全,权限管理,审计是否有一套完整的解决方案呢?
参考答案:
目前老师所知,没有一套完整方案,可能商业化产品有,大数据安全可以大概有边界网关的安全,比如云桌面、VPN等,其次是大数据组件自己的安全。
47、生产环境中我们有必要利用 CM 的"图表生成器"来自定义图标形成仪表盘吗?如果有必要,官方提供的度量值太多了,您在是生产环境中都定义了哪些监控图标呢?
参考答案:
这个我们会在正式课中 CM 监控章节进行讲解,主要是主机以及各个组件的核心指标,当出现问题之后再去查看其他指标即可。
48、前面我的问题是想了解,冷热数据文件类型与存储压缩,是两个点,老师仅回复了压缩。压缩层,这个细想,它就仅与 CPU 挂钩,没有过多好探讨的,目前我好奇的是对于 1000 规模的集群文件存储类型的选择。ORC,TEXT,Parquert 等这些,都是基于哪方面设计层的。
参考答案:
我们采集的数据格式是 snappy, 可以认为是 ODS 层;沉淀数据用的 gz;parquet不是不适合数仓,而是对数仓的特定分层来说优势没有体现出来,parquet是当只关注表中的极少的字段的时候优势很明显,在数仓中的ODS、DWD层都是要关注表的几乎所有字段的,这个时候parquet的优势不明显,在DM层和OLAP优势还是比较明显的。
49、集群出现故障如何实现自动修复呢?比如一个 DataNode 在凌晨 2 点半突然挂了 4 个节点,那时候咱们运维人员已经进入深度睡眠状态,如何让其自动将该节点进程自动拉起呢(此处我们假设进程存放则被成功启动)?
参考答案:
我们采集了 CDH 的严重事件,更加严重事件盘点是否有 datanode 挂掉了,如果有则调研 CDH API 启动 datanode。此外我们每天都有人轮流值班的。
50、缺少大一统的开源监控解决方案,各公司都得自行研发相关的大数据监控平台吗?
参考答案:
一般是开源加二次开发,很难有完美的方案。
持续分享有用、有价值、精选的优质大数据面试题
致力于打造全网最全的大数据面试专题题库
边栏推荐
- Practical demonstration: how to make a scrum iteration plan with ones?
- 树莓派4B解析PWM
- gcc: error trying to exec ‘cc1‘: execvp: No such file or directory解决方法
- 使用cpolar建立一个仪式感点满的网站(2)
- Entry development environment configuration
- CM4开发之交叉编译工具链制作
- LoRa的技术特点有哪些?
- 结构化数据与非结构化数据有什么区别?
- hikariCP连接池一段时间不操作数据自动断开连接问题
- 数据库架构优化的12种组合方式与风险解读(有书送)
猜你喜欢
实操演示:如何用 ONES 制定 Scrum 迭代计划?
hikariCP连接池一段时间不操作数据自动断开连接问题
Matic recorded a double-digit increase. What might be the new target?
AIOps 还是 APM,企业用户应如何作出选择?
Nature子刊综述:焦虑和抑郁的性别差异—回路和机制
【性能优化】MySQL性能优化之存储引擎调优
gcc: error trying to exec ‘cc1‘: execvp: No such file or directory解决方法
A simple student information management system based on jsp+servlet+mysql+bootstrap
教你看懂电脑验光单
[UE4] human matting in complex background - flying plasma AI paddlepaddle depth training model
随机推荐
Swift初始化相关内容
【动态规划】—— 背包模型
玩转时习知No.1 | 直播课堂竟然还可以这样?快来解锁“新姿势”!
程序员到了35岁就不能打了,到底是事实还是误解?
请教下flink cdc在sql里面如果有复杂select嵌套,遇到DELETE的binlog时,会
dried food! Fldetector: defend against model pollution attacks in federated learning by detecting malicious users
开创“隐私科技”概念 360数科助力维护行业数据安全
干货!FLDetector:通过检测恶意用户防御联邦学习中的模型污染攻击
时习知新功能上线啦丨6月有这些新功能上线,你会用了吗?
互联网快讯:支付宝上线“安全锁”;腾讯发布交通OS高速版
信标组的比赛路径设计
瑞达期货平台开户安不安全?
How to open an account for agricultural futures trading?
JMeter learning notes 002 response assertion of JMeter
Room数据库迁移
What are the technical characteristics of Lora?
Explanation of some concepts in sending and receiving e-mails (CC of the addressee, BCC of the addressee, reply to all)
关于收发邮件中的一些概念解释(收件人 抄送人 密送人 回复 回复全部)
8位Oracle ACE聚首的巅峰之夜,聊了哪些技术热点?
新手应该先投资什么产品,基金吗?