2015-10-08 12:00:12 Hadoop在线修改日志级别 修改地址: ``` http://{your_hadoop_namenode_ip}:50070/logLevel ``` 对于在线排查问题还是很方便的。 hadoop 2.4.0, 当配置双namenode,其中一个挂掉很长时间时,再次启动,会有大量的FSImage同步操作,此时namenode处于safe mode,这个操作可能非常耗时(视文件变动多少而定),关闭无关日志可以加快namen 阅读全文...
2015-09-18 06:40:05 Spark 1.5.0的Hive版本配置 由Spark 1.4.1升级到Spark 1.5.0,发现一些sql执行出错了,原因是Spark将内置的Hive client版本升级到了1.2.1,原来是0.13.1。 不过Spark依然支持低版本的Hive,只需添加两个配置到spark-default.conf或启动Driver的时候执行这两个配置也可以,配置如下(我这里用的0.13.1所以配置看你的客户端版本而定): ``` spark 阅读全文...
2015-09-11 06:43:55 Hive Server2提示PermGen space的问题 PermGen space的全称是Permanent Generation space,是指内存的永久保存区域,出现这个错误是因为PermGen的内存分配不足导致。 可以修改Hadoop的配置etc/hadoop/hadoop-env.sh,调整以下配置: ``` export HADOOP_CLIENT_OPTS="-Xmx1024m -XX:PermSize=64M -XX:MaxPerm 阅读全文...
2015-09-10 03:45:03 解决Spark1.5.0依赖twtter的maven库,导致无法编译的问题 Spark 1.5.0发布了,诸多性能改进,心动啊,赶紧编译玩玩,编译过程中发现有个包一直下载超时,是maven.twttr.com的一个仓库中的包,尼玛,twtter在国内是被墙的! 没办法,要么翻墙,要么自己配个host,linux翻墙有些麻烦,也懒得折腾了,配置`/etc/hosts`是比较简单的方法,推荐一个网站测速的服务 , 通过这个服务,我们可以找到maven.twttr.com能够 阅读全文...
2015-08-31 07:16:32 Hive执行SQL提示SemanticException TOK_ALLCOLREF is not supported in current context的问题 错误原因,执行distinct *时报错,hive不支持。 原SQL如下: ``` SELECT DISTINCT * FROM ( SELECT test1.fkd1512d23 AS fkb80bb774 , test1.fk89a97c52 AS fk919b1d80 , t 阅读全文...
2015-08-08 11:27:43 解决使用SBT编译Spark出现UNRESOLVED DEPENDENCIES的问题 ``` [warn] :::::::::::::::::::::::::::::::::::::::::::::: [warn] :: UNRESOLVED DEPENDENCIES :: [warn] :::::::::::::::::::::::::::::::::::::::::::::: [warn] :: org.apache.spark#spa 阅读全文...
2015-08-07 10:17:37 Spark 1.4.1解决重新创建Parquet数据表后无法执行查询的问题 Spark 1.4.1的parquet metadata缓存机制设计的有问题,在数据没有变化的情况下读取数据表没有问题,当表的数据更新后,再次读取会报类似这样:`java.io.FileNotFoundException: File does not exist: /user/hive/warehouse/test.db/b/part-r-00004-3abcbb07-e20a-4b5e-a6e5 阅读全文...
2015-07-16 05:43:00 解决Spark 1.4.1中SUM为null的列返回0的问题 常规的SQL中,执行SUM函数时,如果一列全为null,那么SUM应该返回null,不过在Spark 1.4.0 ~ 1.4.1版本中(目前的最新版本),SUM为null的列返回0,Spark 1.3.x中没有这个问题,我在Spark社区提过这个问题,给的解释是为了规避Hive的一个问题,估计要在Spark 1.5的版本中才能解决。 ## 解决方案 修改`sql/catalyst/src 阅读全文...
2015-07-09 09:21:21 解决SparkSQL 1.3 ~ 1.4 saveAsTable默认保存到default数据的问题 在Spark1.3~1.4.0的版本中,在SparkSQL中使用HiveContext的DataFrame的saveAsTable方法时,数据表默认保存到了default数据库中。 相关文件为:spark/sql/hive/src/main/scala/org/apache/spark/sql/hive/HiveMetastoreCatalog.scala 134行开始的一段代码有问题,如下: 阅读全文...