Spark 可以从 Elasticsearch 读取数据, 并且支持查询.
但是!
却并不支持 aggregation! 至少 elasticsearch-spark20-2.11
还不行.
如果要做聚合查询, 那么就要用到 elastichsearch scala client elastic4s
(https://github.com/sksamuel/elastic4s)了.
构建自己的Spark库
发表于
Spark:自定义Transformer
发表于
Transformer
当我们从数据源读取了一些数据之后, 我们经常需要对这些数据进行一些预处理(类型转换,增删改等等). Spark的mllib提供了一些数据转换的类和函数,但是有时候并不能满足我们的需求,所以我们需要自给自足。当然,我们可以自己构建这些类和函数,如果可以利用Spark提供的一些接口,当然就事半功倍了。其中一个方法就是extends Transformer
。关于Transformer
和 Pipeline
的介绍请戳官方文档.
逆变和协变的一点理解
发表于
前言
刚开始接触Scala,各种复杂的features真是有点难理解,特别是逆变和协变,网上其实很多资料都有详细介绍,但看完后总有一种:道理我都懂,但是为什么呢?
的感觉。好吧,自己试一下应该会帮助理解。