淘宝从几百到千万级并发的十四次架构演进之路!

  • 时间:
  • 浏览:31
  • 来源:言午博客 - 专注共享福佳博客活动

作者:huashiou

来源:https://segmentfault.com/a/1190000018626163

1. 概述

本文以淘宝为例,介绍从一百个并发到千万级并发具体情况下服务端的架构的演进过程,一同列举出每个演进阶段会遇到的相关技术,让如此 人 对架构的演进有有三个小整体的认知,文章最后汇总了其他采集的原则。  

2. 基本概念

在介绍架构以前,为了除理次要读者对采集中的其他概念不了解,下面对几块最基础的概念进行介绍:

  • 分布式

    系统中的多个模块在不同服务器上部署,即可称为分布式系统,如Tomcat和数据库分别部署在不同的服务器上,或有三个小相同功能的Tomcat分别部署在不同服务器上
  • 高可用

    系统中次要节点失效时,其他节点促使接替它继续提供服务,则可认为系统具有高可用性
  • 集群

    有三个小特定领域的软件部署在多台服务器上并作为有三个小整体提供一类服务,什儿 整体称为集群。如Zookeeper中的Master和Slave分别部署在多台服务器上,一同组成有三个小整体提供集中配置服务。在常见的集群中,客户端往往促使连接任意有三个小节点获得服务,怎么让我当集群所含三个小节点掉线时,其他节点往往促使自动的接替它继续提供服务,这以前说明集群具有高可用性
  • 负载均衡

    请求发送到系统时,通过其他法律措施把请求均匀采集到多个节点上,使系统中每个节点促使均匀的除理请求负载,则可认为系统是负载均衡的
  • 正向代理和反向代理

    系统组织组织结构要访问组织组织结构网络时,统一通过有三个小代理服务器把请求转发出去,在组织组织结构网络看来却说代理服务器发起的访问,此时代理服务器实现的是正向代理。当组织组织结构请求进入系统时,代理服务器把该请求转发到系统中的某台服务器上,对组织组织结构请求来说,与之交互的必须代理服务器,此时代理服务器实现的是反向代理。简单来说,正向代理是代理服务器代替系统组织组织结构来访问组织组织结构网络的过程,反向代理是组织组织结构请求访问系统时通过代理服务器转发到组织组织结构服务器的过程。

3. 架构演进

3.0 单机架构

以淘宝作为例子,在网站最初时,应用数量与用户数都较少,还能不能 把Tomcat和数据库部署在同一台服务器上。

浏览器往www.taobao.com发起请求时,首先经过DNS服务器(域名系统)把域名转换为实际IP地址10.102.4.1,浏览器转而访问该IP对应的Tomcat。如下图所示:

随着用户数的增长,Tomcat和数据库之间竞争资源,单机性能不足英文以支撑业务

3.1 第一次演进:Tomcat与数据库分开部署

第一次演进如此 什么不怎么的,将 Tomcat 和数据库分别独占服务器资源,显著提高两者所如此 人性能。如下图所示:

随着用户数的增长,并发读写数据库成为瓶颈

3.2 第二次演进:引入本地缓存和分布式缓存

第二次架构演进引入了缓存,在Tomcat服务器上增加本地缓存,并在组织组织结构增加分布式缓存,缓存热门商品信息或热门商品的html页面等。

通过缓存能把绝大多数请求在读写数据库前拦截掉,大大降低数据库压力。其中涉及的技术包括:使用memcached作为本地缓存,使用Redis作为分布式缓存,还会涉及缓存一致性、缓存穿透/击穿、缓存雪崩、热点数据集中失效等什么的问题。

演进以前,如下图所示:

缓存抗住了大次要的访问请求,随着用户数的增长,并发压力主要落在单机的Tomcat上,响应逐渐快一点

3.3 第三次演进:引入反向代理实现负载均衡

在多台服务器上分别部署Tomcat,使用反向代理软件(Nginx)把请求均匀采集到每个Tomcat中。

此处假设Tomcat最多支持200个并发,Nginx最多支持200000个并发,如此 理论上Nginx把请求采集到2000个Tomcat上,就能抗住200000个并发。

其中涉及的技术包括:Nginx、HAProxy,两者还会工作在网络第七层的反向代理软件,主要支持http协议,还会涉及session共享、文件上传下载的什么的问题。

一同来看看使用反向代理以前的架构图:

反向代理使应用服务器可支持的并发量大大增加,但并发量的增长也由于更多请求穿透到数据库,单机的数据库最终成为瓶颈

3.4 第四次演进:数据库读写分离

把数据库划分为读库和写库,读库可否有多个,通过同步机制把写库的数据同步到读库。

对于还能不能 查询最新写入数据场景,可通过在缓存中多写一份,通过缓存获得最新数据。

其中涉及的技术包括:Mycat,它是数据库上边件,可通过它来组织数据库的分离读写和分库分表,客户端通过它来访问下层数据库,还会涉及数据同步,数据一致性的什么的问题。

读写分离以前的架构图:

业务逐渐变多,不同业务之间的访问量差距较大,不同业务直接竞争数据库,相互影响性能

3.5 第五次演进:数据库按业务分库

数据库按业务分库,把不同业务的数据保存到不同的数据库中,使业务之间的资源竞争降低,对于访问量大的业务,还能不能 部署更多的服务器来支撑。

却说一同由于跨业务的表无法直接做关联分析,还能不能 通过其他途径来除理,但这还会本文讨论的重点,有兴趣的还能不能 自行搜索除理方案。

分库以前的架构图如下所示:

随着用户数的增长,单机的写库会逐渐会达到性能瓶颈

3.6 第六次演进:把大表拆分为小表

比如针对评论数据,可按照商品ID进行hash,路由到对应的表中存储。

针对支付记录,可按照小时创建表,每个小时表继续拆分为小表,使用用户ID或记录编号来路由数据。

怎么让我实时操作的表数据量足够小,请求促使足够均匀的采集到多台服务器上的小表,那数据库就能通过水平扩展的法律措施来提高性能。其中前面提到的Mycat也支持在大表拆分为小表具体情况下的访问控制。

什儿 做法显著的增加了数据库运维的难度,对DBA的要求较高。数据库设计到什儿 形态学 时,以前还能不能 称为分布式数据库。

怎么让我这却说有三个小逻辑的数据库整体,数据库里不同的组成次却说由不同的组件单独来实现的。

比如分库分表的管理和请求采集,由Mycat实现,SQL的解析由单机的数据库实现,读写分离以前由网关和消息队列来实现,查询结果的汇总以前由数据库接口层来实现等等,什儿 架构实在 是MPP(大规模并行除理)架构的一类实现。

目前开源和商用都以前有不少MPP数据库,开源中比较流行的有Greenplum、TiDB、Postgresql XC、HAWQ等,商用的如南大通用的GBase、睿帆科技的雪球DB、华为的LibrA等等。

不同的MPP数据库的侧重点却说一样,如TiDB更侧重于分布式OLTP场景,Greenplum更侧重于分布式OLAP场景。

什么MPP数据库基本都提供了什儿 Postgresql、Oracle、MySQL那样的SQL标准支持能力,能把有三个小查询解析为分布式的执行计划采集到每台机器上并行执行,最终由数据库一种汇总数据进行返回。

此外,也提供了诸如权限管理、分库分表、事务、数据副本等能力,怎么让我大多促使支持200个节点以上的集群,大大降低了数据库运维的成本,怎么让我使数据库促使够实现水平扩展。

如此 人 来看拆分小表以前的架构图:

数据库和Tomcat都促使水平扩展,可支撑的并发大幅提高,随着用户数的增长,最终单机的Nginx会成为瓶颈

3.7 第七次演进:使用LVS或F5来使多个Nginx负载均衡

以前瓶颈在Nginx,怎么让我无法通过两层的Nginx来实现多个Nginx的负载均衡。

上图中的LVS和F5是工作在网络第四层的负载均衡除理方案,其中LVS是软件,运行在操作系统内核态,可对TCP请求或更高层级的网络协议进行转发,怎么让我支持的协议更宽裕,怎么让我性能也远高于Nginx,可假设单机的LVS可支持几十万个并发的请求转发

F5是一种负载均衡硬件,与LVS提供的能力什儿 ,性能比LVS更高,但价格昂贵。

以前LVS是单机版的软件,若LVS所在服务器宕机则会由于整个后端系统都无法访问,怎么让我还能不能 有备用节点。

如此 人 可使用keepalived软件模拟出虚拟IP,怎么让我把虚拟IP绑定到多台LVS服务器上。

却说浏览器访问虚拟IP时,会被路由器重定向到真实的LVS服务器,当主LVS服务器宕机时,keepalived软件会自动更新路由器中的路由表,把虚拟IP重定向到另外一台正常的LVS服务器,从而达到LVS服务器高可用的效果。

此处还能不能 注意的是,上图中从Nginx层到Tomcat层却说画不须代表完整Nginx都转发请求到完整的Tomcat。

在实际使用时,以还会是几块Nginx下面接一次要的Tomcat,什么Nginx之间通过keepalived实现高可用,其他的Nginx接另外的Tomcat,却说可接入的Tomcat数量就能成倍的增加。

以前LVS也是单机的,随着并发数增长到几十万时,LVS服务器最终会达到瓶颈,此时用户数达到千万甚至上亿级别,用户分布在不同的地区,与服务器机房距离不同,由于了访问的延迟会明显不同

3.8 第八次演进:通过DNS轮询实现机房间的负载均衡

在DNS服务器中可配置有三个小域名对应多个IP地址,每个IP地址对应到不同的机房里的虚拟IP。

当用户访问www.taobao.com时,DNS服务器会使用轮询策略或其他策略,来选择某个IP供用户访问。此法律措施能实现机房间的负载均衡

至此,系统可做到机房级别的水平扩展,千万级到亿级的并发量都可通过增加机房来除理,系统入口处的请求并发量不再是什么的问题。

演进以前的架构图如下:

随着数据的宽裕程度和业务的发展,检索、分析等需求如此 宽裕,单单依靠数据库无法除理如此 宽裕的需求

3.9 第九次演进:引入NoSQL数据库和搜索引擎等技术

当数据库中的数据多到一定规模时,数据库就不适用于比较复杂的查询了,往往必须满足普通查询的场景。

对于统计报表场景,在数据量大时不一定能跑出结果,怎么让我在跑比较复杂查询还会由于其他查询快一点

对于全文检索、可变数据形态学 等场景,数据库天生不适用。怎么让我还能不能 针对特定的场景,引入大约的除理方案。

如对于海量文件存储,可通过分布式文件系统HDFS除理,对于key value类型的数据,可通过HBase和Redis等方案除理,对于全文检索场景,可通过搜索引擎如ElasticSearch除理,对于多维分析场景,可通过Kylin或Druid等方案除理。

当然,引入更多组件同还会提高系统的比较复杂度,不同的组件保存的数据还能不能 同步,还能不能 考虑一致性的什么的问题,还能不能 有更多的运维手段来管理什么组件等。

引入NoSQL和搜索引擎的架构图:

引入更多组件除理了宽裕的需求,业务维度促使极大扩充,随之而来的是有三个小应用中所含了很多的业务代码,业务的升级迭代变得困难

3.10 第十次演进:大应用拆分为小应用

按照业务板块来划分应用代码,使单个应用的职责更清晰,相互之间还能不能 做到独立升级迭代。

这以前应用之间以还会涉及到其他公共配置,还能不能 通过分布式配置中心Zookeeper来除理。

架构图如下:

不同应用之间指在共用的模块,由应用单独管理会由于相同代码指在多份,由于公共功能升级时完整应用代码还会跟着升级

3.11 第十一次演进:复用的功能抽离成微服务

如用户管理、订单、支付、鉴权等功能在多个应用中都指在,如此 还能不能 把什么功能的代码单独抽取出来形成有三个小单独的服务来管理,却说的服务却说所谓的微服务

应用和服务之间通过HTTP、TCP或RPC请求等多种法律措施来访问公共服务,每个单独的服务都还能不能 由单独的团队来管理。

此外,还能不能 通过Dubbo、SpringCloud等框架实现服务治理、限流、熔断、降级等功能,提高服务的稳定性和可用性。

不同服务的接口访问法律措施不同,应用代码还能不能 适配多种访问法律措施促使使用服务,此外,应用访问服务,服务之间也以前相互访问,调用链以前变得非常比较复杂,逻辑变得混乱

3.12 第十二次演进:引入企业服务总线ESB屏蔽服务接口的访问差异

通过ESB统一进行访问协议转换,应用统一通过ESB来访问后端服务,服务与服务之间也通过ESB来相互调用,以此降低系统的耦合程度。

什儿 单个应用拆分为多个应用,公共服务单独抽取出来来管理,并使用企业消息总线来解除服务之间耦合什么的问题的架构,却说所谓的SOA(面向服务)架构,什儿 架构与微服务架构容易混淆,以前表现形式十分什儿 。

我所如此 人理解,微服务架构更多是指把系统里的公共服务抽取出来单独运维管理的思想,而SOA架构则是指一种拆分服务并使服务接口访问变得统一的架构思想,SOA架构中所含了微服务的思想。

来看看演进以前的架构图:

业务不断发展,应用和服务还会不断变多,应用和服务的部署变得比较复杂,同一台服务器上部署多个服务还能不能 除理运行环境冲突的什么的问题,此外,对于如大促什儿 还能不能 动态扩缩容的场景,还能不能 水平扩展服务的性能,就还能不能 在新增的服务上准备运行环境,部署服务等,运维将变得十分困难

3.13 第十三次演进:引入容器化技术实现运行环境隔离与动态服务管理

目前最流行的容器化技术是Docker,最流行的容器管理服务是Kubernetes(K8S),应用/服务还能不能 打包为Docker镜像,通过K8S来动态采集和部署镜像。

Docker镜像可理解为有三个小能运行你的应用/服务的最小的操作系统,上边放着应用/服务的运行代码,运行环境根据实际的还能不能 设置好。

把整个“操作系统”打包为有三个小镜像后,就还能不能 采集到还能不能 部署相关服务的机器上,直接启动Docker镜像就还能不能 把服务起起来,使服务的部署和运维变得简单。

在大促以前,还能不能 在现有的机器集群上划分出服务器来启动Docker镜像,增强服务的性能。大促以前就还能不能 关闭镜像,对机器上的其他服务不造成影响

使用容器化技术后服务动态扩缩容什么的问题得以除理,怎么让我机器还是还能不能 公司自身来管理,在非大促的以前,还是还能不能 闲置着小量的机器资源来应对大促,机器自身成本和运维成本都极高,资源利用率低

3.14 第十四次演进:以云平台承载系统

系统可部署到公有云上,利用公有云的海量机器资源,除理动态硬件资源的什么的问题。

在大促的时间段里,在云平台中临时申请更多的资源,结合Docker和K8S来快速部署服务。

在大促现在开始后释放资源,真正做到按需付费,资源利用率大大提高,一同大大降低了运维成本。

所谓的云平台,却说把海量机器资源,通过统一的资源管理,抽象为有三个小资源整体。

在云平台之上可按需动态申请硬件资源(如CPU、内存、网络等),怎么让我云平台之上提供通用的操作系统,提供常用的技术组件(如Hadoop技术栈,MPP数据库等)供用户使用,甚至提供开发好的应用。

用户必须关系应用组织组织结构使用了什么技术,就促使除理需求(如音视频转码服务、邮件服务、我所如此 人博客等)。

在云平台中会涉及如下几块概念:

  • IaaS:基础设施即服务。对应于上边所说的机器资源统一为资源整体,可动态申请硬件资源的层面;
  • PaaS:平台即服务。对应于上边所说的提供常用的技术组件方便系统的开发和维护;
  • SaaS:软件即服务。对应于上边所说的提供开发好的应用或服务,按功能或性能要求付费。

至此,以上所提到的从高并发访问什么的问题,到服务的架构和系统实施的层面还会了所如此 人的除理方案。

但一同也应该意识到,在上边的介绍中,实在 是有意忽略了诸如跨机房数据同步、分布式事务实现等等的实际什么的问题,什么什么的问题以前有以前再搞定来单独讨论

4. 采集总结 & 思考

接下来,如此 人 来讨论一下关于采集的其他什么的问题:

  • 架构的调整否有还能不能 按照上述演变路径进行?

    否!以上所说的架构演变顺序却说针对某个侧面进行单独的改进,在实际场景中,以前同一时间会有几块什么的问题还能不能 除理,以前以前先达到瓶颈的是另外的方面,这以前就应该按照实际什么的问题实际除理。举个例子,比如在政府类的并发量以前不大,但业务以前很宽裕的场景,高并发就还会重点除理的什么的问题,此时优先还能不能 的以还会是宽裕需求的除理方案。
  • 对于将要实施的系统,架构应该设计到什么程度?

    对于单次实施怎么让我性能指标明确的系统,采集到促使支持系统的性能指标要求就足够了,但要留有扩展架构的接口以便不备之需。对于不断发展的系统,如电商平台,应设计到能满足下一阶段用户量和性能指标要求的程度,并根据业务的增长不断的迭代升级架构,以支持更高的并发和更宽裕的业务。
  • 服务端架构和大数据架构有什么区别?

    所谓的“大数据”实在 是海量数据采集清洗转换、数据存储、数据分析、数据服务等场景除理方案的有三个小统称,在每有三个小场景都所含了多种可选的技术。比如数据采集有Flume、Sqoop、Kettle等,数据存储有分布式文件系统HDFS、FastDFS,NoSQL数据库HBase、MongoDB等,数据分析有Spark技术栈、机器学习算法等。总的来说大数据架构却说根据业务的需求,整合各种大数据组件组合而成的架构,一般会提供分布式存储、分布式计算、多维分析、数据仓库、机器学习算法等能力。而服务端架构更多指的是应用组织层面的架构,底层能力往往是由大数据架构来提供。
  • 有如此 其他采集的原则?
    • N+1设计。系统中的每个组件都应做到如此 单点故障;
    • 回滚设计。确保系统还能不能 向前兼容,在系统升级时应能有法律措施回滚版本;
    • 禁用设计。应该提供控制具体功能否有可用的配置,在系统出現故障时促使快速下线功能;
    • 监控设计。在设计阶段就要考虑监控的手段;
    • 多活数据中心设计。若系统还能不能 极高的高可用,应考虑在多地实施数据中心进行多活,大约在有三个小机房断电的具体情况下系统依然可用;
    • 采用性性性成熟 图片 图片 的句子的句子 图片 的技术。刚开发的或开源的技术往往指在很多很多隐藏的bug,出了什么的问题如此 商业支持以还会是有三个小灾难;
    • 资源隔离设计。应除理单一业务占用完整资源;
    • 架构应能水平扩展。系统必须做到能水平扩展,促使有效除理瓶颈什么的问题;
    • 非核心则购买。非核心功能若还能不能 占用小量的研发资源促使除理,则考虑购买性性性成熟 图片 图片 的句子的句子 图片 的产品;
    • 使用商用硬件。商用硬件能有效降低硬件故障的机率;
    • 快速迭代。系统应该快速开发小功能模块,尽快上线进行验证,早日发现什么的问题大大降低系统交付的风险;
    • 无具体情况设计。服务接口应该做成无具体情况的,当前接口的访问不依赖于接口上次访问的具体情况。

本文由

纯洁的微笑

发布在

ITPUB

,转载此文请保持文章完整,并请附上文章来源(ITPUB)及本页链接。

原文链接:http://www.itpub.net/2019/06/27/2292/