Junlang

ORZ...


  • 首页

  • 归档

  • 标签

elastic4s 和 Spark 排雷

发表于 2017-08-22

Spark 可以从 Elasticsearch 读取数据, 并且支持查询.
但是!
却并不支持 aggregation! 至少 elasticsearch-spark20-2.11 还不行.
如果要做聚合查询, 那么就要用到 elastichsearch scala client elastic4s (https://github.com/sksamuel/elastic4s)了.

阅读全文 »

构建自己的Spark库

发表于 2017-07-27

获取Spark源码

开发中难免需要修改Spark源码, 构建自己的Spark库, 并在自己的项目中引用. 下面来说一下具体步骤.

阅读全文 »

Spark:自定义Transformer

发表于 2017-05-04

Transformer

当我们从数据源读取了一些数据之后, 我们经常需要对这些数据进行一些预处理(类型转换,增删改等等). Spark的mllib提供了一些数据转换的类和函数,但是有时候并不能满足我们的需求,所以我们需要自给自足。当然,我们可以自己构建这些类和函数,如果可以利用Spark提供的一些接口,当然就事半功倍了。其中一个方法就是extends Transformer。关于Transformer 和 Pipeline 的介绍请戳官方文档.

阅读全文 »

逆变和协变的一点理解

发表于 2017-04-27

前言

刚开始接触Scala,各种复杂的features真是有点难理解,特别是逆变和协变,网上其实很多资料都有详细介绍,但看完后总有一种:道理我都懂,但是为什么呢? 的感觉。好吧,自己试一下应该会帮助理解。

阅读全文 »
Junlang

Junlang

4 日志
4 标签
© 2017 Junlang
由 Hexo 强力驱动
主题 - NexT.Muse