安装Apache Druid

soulballad约 1688 字大约 6 分钟

1. Apache Druid安装

安装包下载地址：http://druid.apache.org/downloads.htmlopen in new window

1610485566332

当前最新的版本是0.20.0，支持很多丰富功能，因此我们使用该版本。首先下载下来该安装包，并上传到服务器指定目录下/usr/local/gupao，并解压改文件：

1610485681077

我们这里为了方便操作，启动单机版即可，但单机版启动会自动加载Zookeeper，集群版可以自由配置Zookeeper外部节点，但单机版不行。我们前面Kafka也用到了Zookeeper，为了让2个Zookeeper不冲突，我们需要将要安装的Apache Druid的Zookeeper端口换掉，把2181换成3181，在apache-druid-0.20.0目录下执行如下2行命令即可：

sed -i "s/2181/3181/g" `grep 2181 -rl ./`

sed -i "s/druid.zk.service.host=localhost/druid.zk.service.host=localhost:3181/g" `grep druid.zk.service.host=localhost -rl ./`

说明：sed -i "s/原字符串/新字符串/g" grep 原字符串 -rl 所在目录

Druid的时区和国内时区不一致，会比我们的少8个小时，我们需要修改配置文件，批量将时间+8，代码如下：

sed -i "s/Duser.timezone=UTC/Duser.timezone=UTC+8/g" `grep Duser.timezone=UTC -rl ./`

接下来进入到/usr/local/gupao/apache-druid-0.20.0/bin目录下启动Apache Druid即可：

./start-micro-quickstart

启动后，等待20秒我们可以访问Apache Druid的控制台http://192.168.100.130:8888/效果如下：

1610486049650

注意：如果需要后台运行，可以直接执行./start-micro-quickstart &

2. 数据摄入

1610485180084

Apache Druid数据摄入方式支持多种，可以批量从文件中摄入，也可以从实时数据流中摄入，我们接下来对这2种摄入方式分别进行讲解。

2.1 文件批量摄入

文件批量摄入主要是把现有的数据批量导入到Apache Druid中，典型的应用就是历史数据分析，我们项目中可以分析历史订单。大家可能会问，数据不是已经存在数据库了吗，为什么还要用Apache Druid做分析？我们这里如果是PB级别数据，用数据库查询很有可能超时，但用Apache Druid查询，效率极高，是MySQL数据库的几百倍甚至更高。

我们按照官网文档学习一下批量文件摄入，打开http://druid.apache.org/docs/latest/tutorials/index.htmlopen in new window按照该文档一步一步实现。

点击控制台中的 Load data,选择 Local disk,然后点击 Connect data

1610486234660

在 Base directory 中输入 quickstart/tutorial/, 在 File filter 中输入 wikiticker-2015-09-12-sampled.json.gz。 Base directory 和 File filter 分开是因为可能需要同时从多个文件中摄取数据。

点击 Preview，确保您看到的数据是正确的。

数据定位后，您可以点击"Next: Parse data"来进入下一步。

1610486318729