Tag-spark

2019-08-18 17:34:31

解决Spark Standalone模式下Work的Address和HDFS不匹配的问题

## 问题描述 HDFS的DataNode节点，节点名称为主机名，非IP。 Spark Standalone模式下，Worker列表中，Address信息为IP，不是主机名。这会导致Spark处理HDFS上的数据时，无法精准分发任务，大数据量下会有性能问题。 ## 解决方案修改`sbin/start-slave.sh`下的`start_instance`方法。默认为： ```b 阅读全文...

2018-11-28 11:48:22

Spark之BloomFilter有趣的bitwise运算

最近好奇的研究了下Spark的BloomFilter的实现，发现其`org/apache/spark/util/sketch/BitArray.java`对bit处理的实现很巧妙（源码可能是从其他开源项目借鉴的也不好说），从中学到不少东西，记录下。 ## 巧妙的核心设计 BitArray内部采用`long[] data`来表示一个大的bitmap，long类型相比int在相同的数组个数下可以阅读全文...

2018-09-19 22:07:52

优雅地解决Spark Application jar包冲突问题

前言当我们开发的Spark Application变得越来越复杂，依赖的jar包越来越多时，难免会碰到jar包冲突的问题。举个例子：我们的业务代码用到了一个第三方库，好比：guava（虽然好用，但是版本间的兼容性差的一坨翔） Spark本身也依赖了guava，但是和业务代码中依赖的guava版本不同这种情况下，把我们的Spark Application提交到集群里执行，很有可能因为版本问题导致运行出错。大家都知道，JVM的ClassLoader加载类的时候，同一个ClassLoader加载的类，如果出现重复，只有第一个会被加载，后面重复的类会被忽略掉。就我们阅读全文...

2018-04-07 21:44:10

使用SBT编译Spark子项目

前言最近为了解决Spark2.1的Bug，对Spark的源码做了不少修改，需要对修改的代码做编译测试，如果编译整个Spark项目快的话，也得半小时左右，所以基本上是改了哪个子项目就单独对那个项目编译打包。 Spark官方已经给出了如何使用mvn单独编译子项目的方法：http://spark.apache.org/docs/latest/building-spark.html#building-submodules-individually 使用mvn单独编译子项目是节约了不少时间。但是频繁的改动项目，每次用mvn编译还是挺耗时间的。之前看官方文档提到，对于开发者，为了提高效率阅读全文...

2018-04-07 21:41:52

Spark 1.6升级2.x防踩坑指南

原创文章，谢绝转载 Spark 2.x自2.0.0发布到目前的2.2.0已经有一年多的时间了，2.x宣称有诸多的性能改进，相信不少使用Spark的同学还停留在1.6.x或者更低的版本上，没有升级到2.x或许是由于1.6相对而言很稳定，或许是升级后处处踩坑被迫放弃。 Spark SQL是Spark中最重要的模块之一，基本上Spark每个版本发布SQL模块都有不少的改动，而且官网还会附带一个Migration Guide帮忙大家升级。问题在于Migration Guide并没有详尽的列出所有变动，本文以SQL模块为主，扒一扒Spark升级2.x过程中可能会踩到的坑。计算准确阅读全文...

2018-04-07 21:35:14

为Spark Application指定不同的JDK版本

随着企业内部业务系统越来越多，基于JVM的服务，通常情况线上环境可能会有多套JDK跑不同的服务。大家都知道基于高版本的Java规范编写的服务跑在低版本的JVM上会出现：java.lang.UnsupportedClassVersionError的异常。 Spark 2.2开始移除了对Java 7的支持，大多数情况下，我们的Spark Application是和Hadoop系统公用的JDK，如果Hadoop依赖的JDK版本是7，那我们基于JDK 8编写的Application跑在上面就会出问题。该文主要介绍在不同的场景下，如何为Spark Application指定不同的JDK版本。阅读全文...

2017-07-12 00:23:28

标签-spark

解决Spark Standalone模式下Work的Address和HDFS不匹配的问题

Spark之BloomFilter有趣的bitwise运算

优雅地解决Spark Application jar包冲突问题

使用SBT编译Spark子项目

Spark 1.6升级2.x防踩坑指南

为Spark Application指定不同的JDK版本

Apache Spark 2.2.0 正式发布

sbt结合IDEA对Spark进行断点调试开发

如何优雅地合并Spark官方Patch(PR)

深度剖析Spark分布式执行原理