阿里专家分享:企业级大数据轻量云实践

  • 时间:
  • 浏览:0
  • 来源:决战梭哈棋牌APP下载_决战梭哈棋牌APP官网



  4. 未来之路

  关于期望达到的技术目标,亲戚亲戚亲戚亲戚朋友总体列了五点。第怎么让 肯定是要轻量化的,将公有云上20+的管控服务器规模,压缩至7台以内;第二是从商业淬硬层 考虑,1台服务器损坏不停服,2台服务器损坏不丢数据,提高可用性;第三个多 目标是可升级性,有能力升级至专有云企业版,提供全量云计算服务能力;第四是可扩展,易于扩展增加新产品;最后一块若果易运维,对于新接触阿里大数据技术体系的人,能快速掌握基本运维操作。

  以上若果我的分享。在(把大象放到冰箱的)你你你这个 过程中,亲戚亲戚亲戚亲戚朋友从初始的三个多 很大的规模逐渐的裁到了很小,大概 裁减到了15台服务器。

  AnalyticDB是阿里巴巴自主研发的我越多 满足海量数据实时多维分析的大数据产品。分析型数据库主若果应用的三个多 场合是在海量数据下去做CRM的报表分析,阿里也是三个多 数据公司,很看重商业数据挖掘,所以AnalyticDB在海量数据下做频繁的交互和查询的BI报表有很好的效果,其响应的强度是非常快的,基本否有秒级的响应。在去年双十一和双十二五天,整个集团是批量导入了1万亿条的数据,怎么让 实时落盘Optimize的数据是1千亿条。亲戚亲戚亲戚亲戚朋友集团內部落地的集群的规模也是突破了1千台,性能非常高,那你你你这个 个多 是亲戚亲戚亲戚亲戚朋友当前大数据比较核心的地方。

本文根据井诚老师于第九届中国数据库技术大会(DTCC 2018)的现场演讲《把大象倒进冰箱 企业级大数据轻量云的实践》内容派发而成。

  在你你你这个 场景下云平台你你你这个 底座——也若果天基你你你这个 底座,所以的能力和威力在应用平台上随便说说是先要发挥出来的,所以在你你你这个 应用平台场景下,亲戚亲戚亲戚亲戚朋友当前考虑的若果要基于天基再进一步去做怎么让 优化和删减,将它与应用平台富余出来的功能接着往下砍。



二、遇到的挑战

  最近亲戚亲戚亲戚亲戚朋友否有怎么让 思考,你你你这个 思考更多的是偏你你你这个 业务方面的。可能亲戚亲戚亲戚亲戚朋友当前讲到的东西否有三个多 云平台的,但随便说说前方传来更多的需求是偏应用平台的,应用平台跟亲戚亲戚亲戚亲戚朋友做的你你你这个 平台比较大的三个多 差别,如下:



本文作者:井诚





原文发布时间为:2018-06-4

  2016年的完后 国内正好是私有云可能说大数据云计算风起云涌的一年,市场上涌现了所以轻量化的大数据云平台。对阿里而言,阿里从来是大规模到超大规模,单集群规模过万;从单机房到多region的方向发展;拥有日益强大的基础与运维服务;精通阿里大数据运维技术的SRE团队;7*24小时高效除理平台现象。此时私有云和专有云客户的挑战在于:我越多 小至10台左右的规模诉求;过高 完善的底层基础设施;对阿里大数据开发/运维技术否有甚了解;能最终除理平台现象的人,难以快速访问平台。

  所以到2016年想做你你你这个 事儿的完后 就发现,阿里手上并这样三个多 很选则的除理方案去除理它。亲戚亲戚亲戚亲戚朋友否有基于轻量级的,怎么让 阿里当时是反过来的,亲戚亲戚亲戚亲戚朋友有超大规模的工程能力,怎么让 怎么把它布小就变成了三个多 挑战。所以亲戚亲戚亲戚亲戚朋友当时遇到的挑战若果,怎么去把刚才讲到的哪些大象,一块一块割小,割到三个多 10台左右的规模怎么让 去推给客户。

四、未来之路

井诚,阿里巴巴技术专家,304年毕业于哈尔滨工业大学,有着多年的商业IT软件系统与互联网行业的研发、测试与交付经验。目前服务于阿里集团计算平台事业部,主要从事大数据云服务工程化方面的工作。

  我重点介绍一下MaxCompute,MaxCompute的发展也很有意思。随便说说我遇到所以亲戚亲戚亲戚朋友在问我,MaxCompute否有基于Hadoop去改的可能开发的?随便说说否有。2010年到2012年的完后 ,阿里的数据栈可能非常大了,那时还用的是Hadoop,在集群规模变得非常大、阿里打算把BU之间的数据完全打通的背景下,发现当时的Hadoop随便说说有所以各种各样的现象,主要若果性能现象,怎么让 在內部经过了三个多 很激烈的、长时间的、甚至是痛苦的决策,最后决定另一方做一套东西,所以从2010年左右就彻底放弃了Hadoop这条路,完全从头另一方开发了一套系统,当年是叫ODPS。从2010年现在开始就无缘无故 沿着自研这条路去走,发展到2013年的完后 集群规模超过了5千台,发展到今天MaxCompute可能完全在阿里內部所有的事业部,包括蚂蚁金服、高德完全落了地。我来自的你你你这个 部门若果在做MaxCompute,亲戚亲戚亲戚亲戚朋友服务的若果整个集团的大数据引擎累积。目前亲戚亲戚亲戚亲戚朋友的单集群可能过万了,去年双十一当日就除理了320PB的数据,非常惊人。另外,在公有云和专有云上也做了所以输出。





分享大纲

  以下是哪些服务在功能形状方面分别对应的开源界的怎么让 生态的小伙伴,怎么让 对比不一定恰当。最后一块DataWorks比较特殊,它是三个多 数据中台,你你你这个 概念是阿里率先提出的。基于阿里自身这样多年业务积累了非常充足的海量数据,怎么让 怎么把你你你这个 数据利用好,阿里可能是——亲戚亲戚亲戚亲戚朋友夸大怎么让 说——业内甚至全球首先遇到相应挑战的,所以在数据中台建设上我认为开源社区并这样三个多 很好的对比的场景。

  还有怎么让 的切割技术。如合理合并底下件资源,适度降低监控轮询频率,合并优化有重复的监控方案,调整日志rotate策略等等。

  亲戚亲戚亲戚亲戚朋友大数据轻量云的产品理念若果,以私用云的形状,将MaxCompute、AnalyticDB与DataWorks为代表的阿里大数据计算能力,用尽可能低的门槛输出给客户,普惠各行各业。、所以当时的产品矩阵是,底层基于飞天分布式操作系统Apsara,怎么让 去把大数据引擎,刚才讲的MaxCompute、AnalyticDB都输出去。再底下若果阿里常用的怎么让 大数据应用,比如说DataV还有BI报表。产品架构若果若果。

  目前亲戚亲戚亲戚亲戚朋友前三个多 目标都顺利得到了实现,第四块亲戚亲戚亲戚亲戚朋友初步完成了运维操作的白屏化、傻瓜化,但亲戚亲戚亲戚亲戚朋友的目标还这样完全的实现,可能运维目前更多还是偏经验去做的,亲戚亲戚亲戚亲戚朋友为了弥补,也写了所以运维指南,怎么让 在前端界面上也补充了所以操作指导,希望我越多 让用户快速掌握怎么让 简单的现象除理妙招。

讲师介绍:

  还有三个多 若果比较常见的套路若果服务混布,你你你这个 概念其随便说说业内否有有点儿新鲜,若果亲戚亲戚亲戚亲戚朋友把计算密集型,还有网络密集型,还有这样资源竞争关系的服务尽可能的布到三个多 服务器上。

  轻量化的底下件服务。SLB当时物理机是6台,RDS当时也是基于物理机去部署的,大概 要两台服务器。在轻量的场景中,亲戚亲戚亲戚亲戚朋友去找miniLVS可能miniRDS你你你这个 非常小巧的服务去替代若果庞大的物理机,在你你你这个 场景下亲戚亲戚亲戚亲戚朋友节省了十多台服务器。

  2. 轻量化过程中遇到的挑战;

  还有怎么让 ,白屏化运维。可能客户的运维的同学跟阿里运维的同学背景随便说说若果太一样,三个多 是技术体系的差异,还有怎么让 习惯的差异。亲戚亲戚亲戚亲戚朋友在做运维系统的完后 无缘无故 会给所以很花哨的怎么让 图表、性能趋势、性能变化,怎么让 哪些图表可能说有怎么让 缩略语,指标的变化是哪些含义,其随便说说解读上是很偏经验化的。当时考虑到你你你这个 点,亲戚亲戚亲戚亲戚朋友紧急的梳理了一遍在运维上的有价值的指标,把太技术化的你你你这个 英文缩略语完全转加在三个多 更容易懂的术语。在系统故障检测上亲戚亲戚亲戚亲戚朋友除了常见的自检排查、指标分析、日志分析、服务器具体情况监控之外,亲戚亲戚亲戚亲戚朋友还利用哪些数据去做故障发现,通过哪些比较有规律的形状和指标,往往我越多 比较及时准确地发现怎么让 常见的现象。

  还有一块是可运维性。可能阿里集团內部所以完后 运维工程师考虑的是怎么高效去除理怎么让 现象,怎么让 在应用平台上产生了怎么让 形状可能会意味可运维性这样这样高,比方说有个东西坏了,他不都要现场修,你说歌词 拿回去返厂修了,这样这样强的当场除理的形状需求,所以在你你你这个 场景下,可能亲戚亲戚亲戚亲戚朋友整个运维系统的怎么让 设计目标和理念总要处在变化,对应的技术也会跟着去调整。

  首先给亲戚亲戚亲戚亲戚朋友简要介绍一下阿里的象群,阿里的大数据服务比较多样、充足,第一块若果亲戚亲戚亲戚亲戚朋友的大数据计算服务MaxCompute,MaxCompute是用来做离线计算和除理的,第二块若果三个多 分析型的数据库,大概 若果三个多 online可能MPP的数据库,怎么让 第三块也是业内比较常见的流计算引擎,第四块若果数据通道服务DataHub,第五块若果阿里最著名的数据中台DataWorks。阿里的象群主要由这五块服务组成。







  在除理方案上,亲戚亲戚亲戚亲戚朋友当时考虑用三个多 最流行的妙招,若果把它Docker化,第一步Docker化亲戚亲戚亲戚亲戚朋友把它挤到虚拟机上去做。还有怎么让 若果考虑减少它的节点,可能5+5+3是非常过量的三个多 配置,所以亲戚亲戚亲戚亲戚朋友经过怎么让 容量的规划和测评,最后把它完全Docker化,用3+2+3的模式部署在了4台物理机上。所以在你你你这个 点上亲戚亲戚亲戚亲戚朋友极大的把飞天管控压下去了,包括MaxCompute和AnalyticDB否有基于飞天的,可能不压缩得话这两者合起来若果26台物理机,怎么让 压完完后 在4台物理机上就可不还上能 搞懂。

  我现在来讲一下亲戚亲戚亲戚亲戚朋友当时是怎么做这件事情的。首先是飞天,飞天是阿里云产品底层的分布式操作系统,由盘古/伏羲/女娲三大累积组成。你你你这个 盘古是三个多 分布式的稳健操作系统,有很强的容错性,很高的性能;女娲是三个多 协调服务,有点儿类式社区的ZK;伏羲若果资源管理和任务调度。当时在公有云和集团內部,亲戚亲戚亲戚亲戚朋友每三个多 集群的规模是总共13台服务器,盘古是5台服务器,女娲是5台,伏羲是3台。怎么让 在管控上,若果三个多 MaxCompute否有13台服务器。

  第二块是对运维管控服务做了三个多 极大的精简。天基是阿里云的核心基础运维系统,管理云平台中的硬件生命周期与各类静态资源。在亲戚亲戚亲戚亲戚朋友的云体系中,天基底下管控了30多个服务,怎么让你你这个除理方案在亲戚亲戚亲戚亲戚朋友轻量的方案中是不成立的。亲戚亲戚亲戚亲戚朋友在轻量云里我越多 三个多 产品,AnalyticDB、MaxCompute和DataWorks。当时亲戚亲戚亲戚亲戚朋友梳理了一遍你你你这个 整体的管控服务,还有亲戚亲戚亲戚朋友互相之间的依赖关系,怎么让 从底下认真筛选了一遍,把所有这样必要的依赖完全都砍掉了,共同也做了怎么让 改造,最终从30多个服务压到了10个服务。怎么让 天基的迷你版若果在公有云还有专有云中可能要10台服务器,压缩完完后 就减少到了3台左右,在整体的硬件成本和规模上都节省了一倍以上。

结尾:



本文来自云栖社区合作协议协议 伙伴“IT168”,了解相关信息可不还上能 关注“IT168”。

  第九届中国数据库大会以“数领先机?智赢未来”为主题,设定2大主会场及2三个多 技术专场,邀请来自国内外互联网、金融、教育等行业百余位技术专家,共同探讨Oracle、MySQL、NoSQL、大数据、机器学习、区块链、数据可视化等领域的前瞻性热点话题与技术。

一、阿里的象群们

  功能调整。在轻量的条件下,怎么让 原有的功能遗弃了意义,可能亲戚亲戚亲戚亲戚朋友我越多 12台。所以这倒是一件干得很痛快的事情,若果看哪些服务这样用的就把他完全砍掉,刚才讲到的同城同灾,多region,还有亲戚亲戚亲戚亲戚朋友完后 整个机群管理,可能有所以內部管理有所以变更的流程,还有所以智能监控分析亲戚亲戚亲戚亲戚朋友都砍掉了。智能监控分析你你你这个 块你说歌词 一下,亲戚亲戚亲戚亲戚朋友知道你你你这个 智能往往否有基于数据的,可能你的集群量非常大的完后 ,能产生少量数据的完后 ,你你你这个 智能是有意义的,怎么让 当机群我越多 10台可能20台的完后 ,你你你这个 完后 去搞基于数据化的智能运维也是这样越多的价值。所以当时也是梳理了一番,把所以的业务都砍掉了。

  1. 源起:阿里的象群们;

三、除理之道

  最后一块是比较重要的,若果全链路性能压测与稳定性测试。可能你你你这个 云平台底下有比较核心的三个多 组件,三个多 是MaxCompute,三个多 是AnalyticDB。亲戚亲戚亲戚亲戚朋友单独去测它随便说说我越多 发现越多现象,所以完后 是结合业务场景,在做全链路的完后 发现怎么让 瓶颈。包括我前面说到的裁减、删减,这样裁到哪些比例是三个多 比较合理的比例,是都要经过怎么让 验证的。亲戚亲戚亲戚亲戚朋友根据客户的怎么让 典型应用,比如离线计算的数据量、作业值、任务数,还有若果在AnalyticDB的数据存储等等,最终经越多轮的测试亲戚亲戚亲戚亲戚朋友把刚才提到的优化点差越多都找到了三个多 最优的底下数值,最后实现了亲戚亲戚亲戚亲戚朋友的原始目标。

  3. 除理之道:切割象群;