强势围观：征服大数据的东方神兽-kylin！by彭文华

这是彭文华的第176篇原创

如果你是在 2015 年前玩大数据，你会遇到一个巨大的障碍，就是装上 Hadoop 之后，计算是不成问题了，但是怎么解决在线分析的需求？

因为分布式计算引擎 MapReduce 的计算步骤非常复杂，计算命令下达之后得先调拨资源才能启动计算，然后还得先拆开任务方便各节点分别计算，计算完之后还要合并，这效率可想而知。你去 Hive 里取数再运算，那起码得好几分钟才能出结果。这谁能忍得了啊？

所以当时的 Hadoop 都只是当做存储数据的介质，最多当做数据仓库的 ODS 和 DWD 层。甚至恨不得数据刚进 ODS ，就马上写个 MapReduce 汇总一下直接扔到 MySQL 里去。至少在 MySQL 速度还能快点，但是 MySQL 数据上千万也完蛋。

你说，咋办？

中国神兽出笼！

当时的 eBay 也遇到这个问题了。之前分享过，当时最牛的数据仓库工具是 Oracle、Teradata 等业界大佬。他们不仅也有性能瓶颈，而且还有一个更让人无法接受的阻碍-价格。

他们可不是只是按用户数收费，他们还按机器的 CPU 收费！也就是说，你的数据量上去了，不仅要买更牛的机器，还要给 Oracle、Teradata 付更多的钱才能用。动辄几千万的单机，这谁玩儿的起啊？

eBay虽然有钱，但也不想乱花，这简直是个无底洞啊！换谁都肉疼。于是 eBay 就想搞一个 Hadoop 环境下的 OLAP 产品，内部试一试，不成就算，成了不是可以省好大一笔钱么？于是，在 2013 年底， eBay 中国区组建了一个 4、5 人的小团队。项目经理叫韩卿，主程是李扬。

经过小团伙一年多的内部开发，一个叫“Kylin”的产品悄摸儿的上线了。你看，Kylin 的生态位站的那叫一个稳啊！以前从数据存储和计算的 Hadoop 平台到用户的在线多维分析需求中间是一个天堑，Kylin 直接填补了这个空白！

这一上线就吧，可不得了啦！数据分析师同学们都爱死他们了，因为 Kylin 可以做到在线多维分析的亚秒级反应。

这是啥概念？

原来的工作状态是：选好分析维度和度量，点一下运行，然后可以去开个会再回来看看。等数据跑出来，估计都忘了要分析啥了。

现在呢？点一下，马上就看到结果，这简直给跪了好么？当时的项目经理韩卿把源码放到 git 上开源了。上去就是爆赞！那句话怎么说来着？出道就无敌！

紧接着， Kylin 在无数人的支持下，韩卿又把Kylin贡献给 Apache 基金会进行孵化，由 Apache 孵化副总裁亲自担任孵化导师！是当时Apache 160 多个顶级项目中唯一一个完全由中国人开发出来的！也是 Apache 动物园里唯一一只中国神兽。对，就是这货：麒麟！

这还不算完。从 Apache 毕业后，这只麒麟神兽不断斩获各种大奖，“最佳开源大数据工具奖”都拿到手软！

这是啥？中国码农走向世界巅峰的桥段么？小说也不敢这么写好吗？

Kylin怎么这么猛？

你可能会说Kylin 当时猛，原理其实也没啥复杂的，无非是生态位站的好。

确实，当时Kylin就是把 BI 产品里建 Cube 的那套逻辑搬到 Hadoop 大数据环境里了。详细的技术说明我介绍过，这里就不重复了，你可以参考一下【戳我查阅：传统数据仓库转型最佳利器：Kylin！】。

这个 Cube 简单来说，就是先算好放在哪里，想用的时候就不用算了，直接读取就好了，这当然就快了。

没有 Kylin 的时候，小学生算乘法，就像没有乘法表一样，得挨个加：3*3，就是 3 个 3,3+3=6，再加 3 等于 9。

有 Kylin ，提前就把数算好了，就相当于给小学生一个九九乘法表，背下来就好了。3*3 ,三三得九么！

而且 Kylin 还有 Hadoop 的加持，数据量轻松过 PB 级别！而普通的结构化数据库，单表过2千万条数据，性能就开始直线下滑。这完全没有可比性，直接碾压。

但是！光凭这一招，只能是一时的威猛。因为你能这么做，回头我也弄一个开源项目跟你竞争也行啊。所以还得不能一时威猛，还得持久的威猛。

持久得有钱才能持久啊，要不一帮人喝西北风？于是韩卿带着Kylin 开发团队创业了，取名 Kyligence ，就是 Kylin + Intelligence。

如果说开源代表着梦想中的爱情，那么创业就是照进现实的婚姻，要面对无数的琐事。

于是，Kyligence 的小伙伴一边挣钱养家，一边努力生娃。啊不对，是努力迭代产品：

2016年3月：支持自定义聚合类型、TopN聚合、BitMap、克隆Cube；

2016年4月：支持从事实表查询详细数据、自定义维度；

2016年9月：支持窗口函数、分组功能、cube导入；

2017年4月：支持Spark的Cube构建、高可用的Job引擎；

2017年11月：支持Ranger、传统关系型数据库、流式多维数据集示例；

2018年6月：支持kafka与Hive表join、各种case when等处理函数；

2019年4月：全面支持实时流式数据处理、云原生，支持通过Livy递交Spark作业；

2019年12月：支持presto，支持列计数，支持Docker！

他们保持着每两个月就迭代一次的速度！就在刚过去的2021年2月，Kylin4.0版本发布，新增各种高级函数，关键还支持读写分离！

这真是一帮勤奋的中国汉子，在孜孜不倦的建造属于中国的大数据智能产品。这实在是太猛了！又猛又持久的真男人！

Kylin咋用？有啥案例不？

话都说到这里了，我还能不给点真货啊？我这么实诚的人，事儿得办妥了！二话不说，上干货！2本电子书+22份实操案例，理论实践全都有了！

2本电子书，尤其是第一本权威指南，Kylin核心团队编写，没有比这个再权威的了！

22份案例，eBay、携程、马蜂窝、小米、58、腾讯、中通快递、平安、建行、滴滴等国内外各大厂的实践经验，那是杠杠的干货啊，干的不能再干了。

技术引领，数据赋能——建行大数据能力建设之路.docx

【05-倪春恩-Kyligence】Apache Kylin 大数据 OLAP 利器.pdf

「案例」Kylin 在携程的实践_20210303_202427.pdf

Kylin在马蜂窝数据分析团队的应用实战_20210303_202427.pdf

Kylin–基于Hadoop的大规模联机分析引擎_20210303_202427.pdf

Kylin-on-Kuberes-in-eBay.pdf

Kylin 最佳实践｜爱奇艺如何处理千亿级数据_20210303_202426.pdf

Kylin 在小米大数据中的应用_20210303_202425.pdf

Kylin 在 58 集团的实践和应用_20210303_202429.pdf

Apache-Kylin在爱奇艺的实践.pdf

Apache Kylin－Hadoop上的大规模联机分析平台_20210303_202428.pdf

Apache Kylin 在中通快递的实践_20210303_202428.pdf

5-Apache Kylin 在腾讯的平台化及 Flink 引擎实践_20210303_202351.pdf

4-RocketMQ 高可用存储演进之路_20210303_202359.pdf

4-Kylin 在一点资讯的实践_20210303_202412.pdf

4 大数据多维分析引擎在MEIZU的实践－Kylin分享.pdf

3-Kylin在用户行为分析场景的应用_20210303_202412.pdf

3-Kylin 精确去重及在用户行为分析中的应用_20210303_202351.pdf

2-基于 RocketMQ Connect构建全新数据流转处理平台_20210303_202354.pdf

2-Linkis on Kylin meetup_20210303_202413.pdf

1-Kylin 在平安云大数据组的探索与实现_20210303_202353.pdf

1-Kylin 引擎在滴滴的应用及实践_20210303_202412.pdf

24份资料下载方式：关注本公众号“大数据架构师”，后台回复“kylin”即可下载。

你也可以加我微信：shirenpengwh，随时聊啊~

配合以下文章享受更佳

【附下载】实时数仓架构设计与选型

干货 | 如何搭建一个数据仓库

【资料包】实时数仓架构选型资料包

【实战】手摸手搭建一个实时数据仓库

【干货】数仓到底要分多少层？

传统金融业务场景下Flink实时计算的探索与实践？

我需要你的转发，小小的满足一下我的虚荣心

转载请注明：电商实战教程 » 强势围观：征服大数据的东方神兽-kylin！by彭文华

喜欢 (0)

电商实战教程 _淘宝开店教程_抖音开店_直播电商教程_拼多多运营知识

强势围观：征服大数据的东方神兽-kylin！by彭文华

文章评论已关闭！