最近过了遍Kafka的文档,发现其设计思想和HDFS非常类似,对Kafka的整体设计上也有了更好的理解。 通过topic对数据进行逻辑划分,类似HDFS的一个文件 topic的数据分布取决于partition和replica设置,partition数量影响消费者任务的并行度,replica影响的是容错性。 partition类似HDFS的split概念,如果一个topic设置多个partition,那么写过来的数据会被拆分写到多个partition中,默认采用round-robin的方式写到不同的partition中,当然可以自定义写入策略。 对于设置多个partition的topic, 阅读全文...