关于CDH平台Hive Metastore Server的Canary duration指标 2021-12-21 17:42:15 最近在帮忙客户分析Hive Metastore慢的问题,从CDH监控上有个关于canary duration的数据指标,这个指标背后对应的到底是怎样的一种统计没有细究过。 以往主要关注的是Apache Hive的相关能力,对于Metastore的单次RPC请求应该是毫秒级的,那么这个canary duration是否可以对应到rpc请求上有些疑惑,于是深入了解了下这个指标的含义。 在Hive的官网上查了下是没有关于这个指标的相关信息的。cloudera官网可以找到,看来Canary是CDH特有的了,进一步查了下发现CDH为了探测Hive Metastore的健康状况,引入了一个canary job,周期性执行,并保存相关指标数据形成监控,如果这个canary job执行时间超过5s,会比较为系统异常状态。 那这个canary job具体干了些啥? 1. 创建一个数据库 2. 在这个数据库内,创建一张表,包含多个类型的字段以及2个分区 3. 为新创建的表创建一系列分区 4. 删除新创建的表和数据库 而`canary duration`就是整个canary job的执行耗时。所以这么看,这个指标并不等同于Metastore的RPC请求耗时。 而且这个指标还涉及到HDFS操作,权限验证的组件(如果有kerberos、sentry之类的配置),也就是canary duration的耗时长,可能是受到其他组件的影响,不一定是Hive Metastore本身的问题。 参考: - <https://docs.cloudera.com/cloudera-manager/7.4.2/health-tests/topics/cm_ht_hive_metastore_server.html#ariaid-title5> 非特殊说明,均为原创,原创文章,未经允许谢绝转载。 原始链接:关于CDH平台Hive Metastore Server的Canary duration指标 赏 Prev 记mac下尝鲜colima的坎坷经历 Next 对Rust生命周期的常见误解