Stan Zhai's Tech Blog

2015-10-08 12:00:12

Hadoop在线修改日志级别

修改地址： ``` http://{your_hadoop_namenode_ip}:50070/logLevel ``` 对于在线排查问题还是很方便的。 hadoop 2.4.0，当配置双namenode，其中一个挂掉很长时间时，再次启动，会有大量的FSImage同步操作，此时namenode处于safe mode，这个操作可能非常耗时（视文件变动多少而定），关闭无关日志可以加快namen 阅读全文...

2015-09-18 06:40:05

Spark 1.5.0的Hive版本配置

由Spark 1.4.1升级到Spark 1.5.0，发现一些sql执行出错了，原因是Spark将内置的Hive client版本升级到了1.2.1，原来是0.13.1。不过Spark依然支持低版本的Hive，只需添加两个配置到spark-default.conf或启动Driver的时候执行这两个配置也可以，配置如下(我这里用的0.13.1所以配置看你的客户端版本而定)： ``` spark 阅读全文...

2015-09-11 06:43:55

Hive Server2提示PermGen space的问题

PermGen space的全称是Permanent Generation space,是指内存的永久保存区域，出现这个错误是因为PermGen的内存分配不足导致。可以修改Hadoop的配置etc/hadoop/hadoop-env.sh，调整以下配置： ``` export HADOOP_CLIENT_OPTS="-Xmx1024m -XX:PermSize=64M -XX:MaxPerm 阅读全文...

2015-09-10 03:45:03

解决Spark1.5.0依赖twtter的maven库，导致无法编译的问题

Spark 1.5.0发布了，诸多性能改进，心动啊，赶紧编译玩玩，编译过程中发现有个包一直下载超时，是maven.twttr.com的一个仓库中的包，尼玛，twtter在国内是被墙的！没办法，要么翻墙，要么自己配个host，linux翻墙有些麻烦，也懒得折腾了，配置`/etc/hosts`是比较简单的方法，推荐一个网站测速的服务，通过这个服务，我们可以找到maven.twttr.com能够阅读全文...

2015-08-31 07:16:32

Hive执行SQL提示SemanticException TOK_ALLCOLREF is not supported in current context的问题

错误原因，执行distinct *时报错，hive不支持。原SQL如下： ``` SELECT DISTINCT * FROM ( SELECT test1.fkd1512d23 AS fkb80bb774 , test1.fk89a97c52 AS fk919b1d80 , t 阅读全文...

2015-08-08 11:27:43

解决使用SBT编译Spark出现UNRESOLVED DEPENDENCIES的问题

``` [warn] :::::::::::::::::::::::::::::::::::::::::::::: [warn] :: UNRESOLVED DEPENDENCIES :: [warn] :::::::::::::::::::::::::::::::::::::::::::::: [warn] :: org.apache.spark#spa 阅读全文...

2015-08-07 10:17:37

Spark 1.4.1解决重新创建Parquet数据表后无法执行查询的问题

Spark 1.4.1的parquet metadata缓存机制设计的有问题，在数据没有变化的情况下读取数据表没有问题，当表的数据更新后，再次读取会报类似这样：`java.io.FileNotFoundException: File does not exist: /user/hive/warehouse/test.db/b/part-r-00004-3abcbb07-e20a-4b5e-a6e5 阅读全文...

2015-07-16 05:43:00

解决Spark 1.4.1中SUM为null的列返回0的问题

常规的SQL中，执行SUM函数时，如果一列全为null，那么SUM应该返回null，不过在Spark 1.4.0 ~ 1.4.1版本中（目前的最新版本），SUM为null的列返回0，Spark 1.3.x中没有这个问题，我在Spark社区提过这个问题，给的解释是为了规避Hive的一个问题，估计要在Spark 1.5的版本中才能解决。 ## 解决方案修改`sql/catalyst/src 阅读全文...

2015-07-09 09:21:21

解决SparkSQL 1.3 ~ 1.4 saveAsTable默认保存到default数据的问题

在Spark1.3~1.4.0的版本中，在SparkSQL中使用HiveContext的DataFrame的saveAsTable方法时，数据表默认保存到了default数据库中。相关文件为：spark/sql/hive/src/main/scala/org/apache/spark/sql/hive/HiveMetastoreCatalog.scala 134行开始的一段代码有问题，如下：阅读全文...

2015-06-09 08:45:10

键盘侠必备——机械键盘

阅读全文...