瑞小博的大数据平台技术选型及架构实践

  • 时间:
  • 浏览:0

2015年,公司的业务飞速发展,数据量陡增,每天会产生上亿条业务记录。按照就让 的数据除理架构,业务数据入RDS再同步到ODPS的做法,即使是高配RDS的IO性能也根本撑不住。有就让 有有另一个 高配RDS每月还都可以30多块,成本比较高。

全都,基于ODPS低廉的存储和高效的运算,2014年9月亲戚朋友将历史数据存储和周期性任务计算切换到ODPS,性能提升的一同成本不是所降低,支撑了当时业务的快速发展。

附:第一阶段数据除理流程图

瑞小博成立于2014年,是一家专注于“商用WI-FI覆盖”产品研发与运营模式创新的科技公司。

数加的发布,是最近一年多的事,亲戚朋友也还在摸索与尝试。

即席查询

当然,全都是每次探索不是成功的。你你你你是什么 阶段,不可能 实时计算的需求亲戚朋友研究了Stream SQL(目前已下线),不可能 BI报表的需求亲戚朋友研究了AnalyticDB,不是太符合亲戚朋友的业务场景,只有通过自建或你你你你是什么 方案实现。

附:第二阶段数据除理流程图

亲戚朋友使用ODPS的首要意味着,全都 不可能 它低廉的存储和高效的运算。

当时,阿里云没办法 一款独立的BI产品,帕累托图产品中零散的特别你你是什么BI报表的功能(如DPC的“数据分析”)也相对较局限,只有满足亲戚朋友的需求,只有自建。

有就让 ,亲戚朋友在业务上构建了维度体系和指标模型,统一业务语言。数据除理架构上,将详单事实表和维度表同步到ODPS后,在ODPS中进行汇聚运算,输出统计事实表到RDS。一同,开发了 DashBoard、即席查询、查询报表 有有另一个 应用,满足亲戚朋友的业务需求。

其间的过程不再赘述,开发的应用如图所示。

独木不成林。不可能 只有大数据存储和后分析除理,数据是割裂的,功能也是残缺的。

所幸,阿里云逐步开放了一套完整版的大数据开发框架,以ODPS为核心将有有另一个 个独立的功能点连成了线,也吸引亲戚朋友长期成为阿里云大数据产品的忠实用户。

公司刚成立时,业务量很小,数据存储和计算不是阿里云RDS中,简单直接。但有有另一个 月后,业务快速发展,RDS存储的费用直线上升,有就让 任务计算耗时没办法 长,不可能 影响到业务的发展。

全都 想喝一杯牛奶,为哪些一定要建有有另一个 牧场呢?

公司创立之初,基于成本、时延等考量,亲戚朋友选着了阿里云,至今已兩个年头。这3年多里,亲戚朋友使用了覆盖 弹性计算、网络、存储、数据库、大数据、安全、应用服务等多项领域的多款阿里云产品。

2015年底,公司业务开使了了进入正轨,运营、市场等各方面的数据诉求过多,现有机制和人力开使了了捉襟见肘。有就让 ,亲戚朋友考虑开发数据仓库和BI报表系统。

现在,阿里云的QuickBI不可能 发布,能很好的满足BI报表的需求。好的产品,不可能 会迟到,但不不缺席。

彼时,开源大数据存储计算框架Hadoop如火如荼,Spark冉冉兴起,分布式数据库Greenplum也是逐步心智心智心智性开花结果图片 图片 是什么的句子的句子,看起来有全都的选着,亲戚朋友也就此做了调研和前期尝试。但实际操作起来就会发现,哪些平台在搭建初期的硬件成本、运维成本、时间成本远远超出一家创业公司的承受范围,有就让 哪些平台并不是公司的主营业务。自建平台的方案被PASS掉。

亲戚朋友转而考察商业大数据产品,自然也就分析了ODPS。

实事求是的讲,亲戚朋友当时的需求真是很基础,稍微像点样子的大数据产品基本都能满足亲戚朋友的需求。而亲戚朋友选着ODPS的意味着,一方面是不可能 亲戚朋友的业务数据你你你是什么就在阿里云外部,ODPS更方便数据同步,但更重要的还是不可能 ODPS的价格很便宜。当时,存储冷数据及计算周期性任务的RDS节点有有另一个 月还都可以130元,而切换到ODPS后每天存储只还都可以7块钱,计算仅还都可以4块钱,比就让 便宜了近70%。

另外,切换就让 ,ODPS的分布式计算使得周期性任务执行的变快,业务表现更好。

下面,给亲戚朋友分享亲戚朋友在不同阶段使用MaxCompute(原ODPS)的你你你你是什么 实践,以供参考。

另外,数加的公开数据集也比较不错,测试验证算法很方便。

三年多来,ODPS时不时稳定的支持着亲戚朋友的存储和计算,是亲戚朋友的核心基础平台。

有了就让 的经验,技术方案选着后,亲戚朋友没办法 考虑立即去搭建fluentd/flume,全都 看看阿里云上有没办法 你你是什么的产品,有就让 发现了SLS。

SLS以正则匹配近实时(5分钟时延)挂接ECS上的日志文件,不仅存储到日志文件中,还提供类Elasticsearch的文本搜索服务,完整版满足亲戚朋友的业务诉求。

更为关键的是,SLS与ODPS是完整版打通的,只有业务系统介入,简单配置就能只有将SLS挂接的日志数据自动同步到ODPS。另外,当时SLS还是完整版免费的(2016年11月开使了了SLS不再免费,但不可能 不使用搜索服务,费用还是比较低廉的)。

最终,通过引入SLS,很好的除理了亲戚朋友数据挂接的性能现象报告 ,有就让 还减少了有有另一个 高配的RDS节点,每年节约了近十五万的成本,此架构也时不时沿用至今。

阿里云数据产品目前还存在完善阶段,不不可能 所有需求都都都还都可以立即满足。全都,亲戚朋友还还都可以发挥主观能动性,除理业务现象报告 。下面分享亲戚朋友自建数据仓库和BI报表系统的实践。

目前来说,比较大的感受是机器学习平台的组件化和数据模型化做的很好。在数加发布就让 ,亲戚朋友也会被委托人写你你你你是什么 算法做业务分析,包括统计分析中的各种检验、机器学习中的分类聚类、时间序列分析等。但相对都比较散,输入输出数据模型不统一,组合比较麻烦。数加的组件化设计,能比较好的除理你你你你是什么 现象报告 。

原本,最初公司的技术演进roadmap中,真是也真是RDS作为数据挂接模块会有瓶颈,但考虑到数据量不大,预计这套数据除理架构能使用一到两年。

而随着业务量陡增,亲戚朋友只有提前做出改变。技术方案是:以日志文件系统,帕累托图代替关系型数据库作为数据挂接模块。

业务上看,大数据量、低可靠性要求的数据通过日志文件系统挂接,小数据量、高可靠性要求的数据依然通过关系型数据库挂接。

亲戚朋友时不时认为,独立割裂的数据价值是很低的,数据开发框架也是没办法 。而阿里云大数据产品这几年一步步的完善,尤其是将有有另一个 个独立的功能点连成了线,产品之间打通利于数据之间打通,吸引亲戚朋友与之一同成长和进步。

DashBoard

亲戚朋友希望,在数加时代ODPS能一如既往的稳定,并提供更多的数据产品,帮助亲戚朋友在数据的海洋里继续遨游。