新闻动态

完善的7*24小时服务,携手共赢,共同成长

首页 新闻动态公司动态 正文

云平台全球网络节点部署演进实录 | ArchSummit演讲

2015-12-25 16:24:24   
本文是对高级网络总监暴永锋在2015ArchSummit大会上所做的《云平台全球网络节点部署演进实录》的整理。暴永锋现场分享了SpeedyCloud基础设施支撑七大业务模块的应用细节,还分享了我们的全球节点部署过程及未来网络架构演进方向。
本文是对高级网络总监暴永锋在2015ArchSummit大会上所做的《云平台全球网络节点部署演进实录》的整理。暴永锋现场分享了SpeedyCloud基础设施支撑七大业务模块的应用细节,还分享了我们的全球节点部署过程及未来网络架构演进方向。

作者简介


暴永锋 
负责SpeedyCloud云计算网络的设计、规划、运维、管理及各行业解决方案的实施落地工作。暴永锋拥有超过十年时间的互联网从业经验,具备丰富的网络规划建设及运维经验,之前曾在世纪互联等公司任职,期间设计并主导了多个核心网络规划及运营项目,其中包括北京地区OTN网络规划、全国20+节点全网OTN网络规划、以及数据网OSPF+BGP网络规划设计等


本次演讲中,暴永锋主要讲到以下两点:



云平台网络节点部署与架构

云平台网络技术,通过虚拟技术将计算、存储、网络三大块形成资源池,就如水电一样,既使发电功率再强劲,没有电网,用户也无法享受到便利。云计算环境对网络需求更复杂,需要针对网络产品和解决方案实现变革。

2012年,我们开始涉足云计算和网络。首先从基础网络上,我们选择多区域IDC机房,实现多节点的互联。计算、存储、网络,前两个可通过虚拟技术,提供云存储服务。随着业务的发展,我们由单个节点向多个节点实现互联互通。在实践过程中,机房里服务器和交换机之间的互联,会遭遇许多问题如网络不通、丢包等,一般是因服务器硬件、网络、网卡或网线等问题造成的。

如果服务器到交换机之间端口的物理传输是正常的,但端口起不来或互联网IP地址不通,查找多次但不明原因,后来发现是端口和端口之间的应用功能出了问题,我们可以尝试对端口强制速率,打开功能模式实现网络之间的互通。



我们用裸光缆的方式实现亦庄、兆维及电子城三个机房的互联互通,刚开始时,我们从亦庄到电子城实现点对点的业务互通,但随着业务的不断发展,GE网络无法满足需求,我们进一步扩充至万兆,当万兆不够用时,我们采用全新的技术,如使用主干光缆进行光分通道复用,在双芯光缆上实现更大带宽的传输。

我们开了八个通道波分,分别是粗波,粗波从1470,1490,1530开始,每20个纳米为一个波道,进行光分复用。部署北京网络节点时,我们实现了三个机房的互联互通,并且进行了机房的数据备份,从而在亦庄、电子城和兆维中实现了一个大二层的网络。波分设备分为粗波分和密集波分。



随着业务发展,北京、上海、广州进行了互联互通,以北京为中心形成了小环网。这种城域网的架构,装入双路光纤备份保护及多点容灾的功能,实现内部协议加大二层的网络。

上海机房和上海节点打通,从北京到上海使用的是长途传输。目前长途传输只有三大运营商:中国电信、中国联通、中国移动。我们作为初创公司,使用他们的数据传输,价格非常昂贵,于是会采用第三方如中信网络、蓝汛等资源。

我们在北京、上海、广州组成了全国环网,在环网中可实现北京机房数据调用到上海机房,上海机房数据调用到广州机房,从而进行内部网数据的互调。网络从北京到上海,形成的环网之间的距离很长,大概有2000多公里,因为光缆距离比较长,导致光缆会出现各式各样的问题。

网络内部是大局域网,实现了一个大二层、三层的保护机制。现在北京到广州的实践是OTN通道的互通。广州的资源调用到北京,北京的调用到广州,内部延时很小。从北京到上海的延时一般是20毫秒左右,某次在调试过程中,开通后发现北京到上海是60毫秒,经过排查,我们发现是从北京的节点在天津和济南加了两个业务站,从而导致延时增加,我们经过协调把中间的两个业务站打通,采用直通的方式解决了这个问题。

我们下一步在全国部署节点,首先北京经过廊坊,部署节点,直至天津,这是我们第一个小的环网。从北京到廊坊、天津,再到上海,表示从北京到上海已经打通了,然后我们加入廊坊和天津的节点,实现北京、廊坊、天津小的保护网。



然后我们加入武汉节点,北京、廊坊、天津、上海和武汉五大城市形成一个大环网,导致任何环网的中断都不会影响业务。我们在杭州有IDC机房,从杭州和广州建成了环网,包括西部成都,实现了全国节点的部署架构。

我们通过内部OSPF和外网BGP间的互联互通方式,实现了环网内部应用互联的方式。我们为用户提供MPLS-VPN的方式,无论是从北京到上海,北京到成都,各个方向只要通过协议都可以实现互联互通,这张网络使我们在行业内的资源达到了互补。

无论是上海电信资源还是北京资源,我们实现了多节点的互联方式,无论从北京的数据中心、北京的云计算及北京服务,均可向广州提供服务和数据,我们实现跨区域地互联互通及数据冗余。我们从北京的数据,可调用至天津和廊坊,实现多机房的数据冗余节点。无论云用户从什么地方访问,都能在全国网上实现数据的漂移。

云平台网络的实践与应用



弹性扩展,多业务硬件配备及操作系统,提供分布式持久化的存在环境。云数据库、云缓存,云视频,云DNS,SDN、云网络及云安全,为云部署提供更严格和安全的控制。云分发、对象存储及托管服务,为用户提供优质的国内与海外CDN节点。

接入的交换机和堆叠的服务器可承载3000台的网络,网络是大二层的网络,中间使用是40G或10G的光纤互联。随着云计算的发展,10G服务器成主流,入口是40G和100G。核心交换机使用二层和三层网络。那有什么好处呢?

实现内部动态协议加大二层网络,网络首选云主机包括内部存储,网络试验可实现内部的二层传输。上层使用了三层隔离,机房实施可实现虚拟机的网络集群架构,过程有收敛比,简化部署维护,规模架构可实现5000—10000台的部署,未来近20000台的集群。

服务器以实际的网卡为主,运维模式实现高效的自动运维,未来每台服务器直接插入网络可实现数据同步。无论是服务器出现故障或物理机云平台出现故障,把这台服务器拿出来,拿新的服务器直接加入就行,网络不需要重新配置。如果机柜出现问题,放入新的服务器,实现自动部署。



接入的交换机和堆叠的服务器可承载3000台的网络,网络是大二层的网络,中间使用是40G或10G的光纤互联。随着云计算的发展,10G服务器成主流,入口是40G和100G。核心交换机使用二层和三层网络。

现在各大运营商互联互通存在瓶颈,导致业务之间的访问非常缓慢,运营商之间的骨干网会出现问题。骨干网通过OTN光缆传输,首先通过长途光缆,然后从两个新光缆中架设DWDM系统。而OTN通道是DWDM密集波分,L波段和C波段
我们把北京和天津作为案例即交换机。从交换机的一个TX,到RXTX的接入,再到M40板即光分板,这里是一个出,这是一束光,一边是发射端,一边是接收端。相反从TX到RX,再发布,到这里的接收。整个示意图中,我们实现了北京到天津40G和400G的扩容。

粗波分和密集波分

粗波分。CWDM是波道20纳米,即1470、1490、1510、1530、1550、1570、1610等。一般情况下,通道是2.5G或GE,如果粗波分开10G,会出现波道和波道之间的干扰情况。

密集波分。2个纳米为1个波道,C波道和L波道。过程中,OTN板实现波长转换的显示,现在的常用波道是1310波道,还有1550的常用模块。波长传输是80到120公里,普通机房的传输是10公里,或500-1000米的过程。如果我们运用全国网络,显然无法使用短距实现。相当于光缆距离是80公里,比如说从北京到天津,或从北京到上海,中间的二层通道或光缆通道,实现从北京到天津是光缆过去,但是不可能北京放一台设备,上海放一台设备,中间可以打通,并不现实。

北京到上海大概有20多个放大站。实现业务还需要放大站,中间还有业务站,像廊坊、天津属于业务站。放大站在传输过程中存在损耗,光传输距离越远,光的参数会下降,导致光传到一定距离,功率很低,没有光了,或者是搜不到了,导致丢包。我们经常遇到的问题是服务器应用都好,但是网络质量不好,常常出现丢包现象,访问不及时等问题。比如我在北京节点IDC,上海用户来北京访问有几条路径。

最短的是从上海到天津、廊坊、北京,这一条是最短的,一旦哪个节点发生故障的话,协议会自动收敛过去,收敛比是几十毫秒或50毫秒内的收敛比。全国OTN网建设标准手机上网,首先搭建2G,3G网络,无论是WIFI还是电视等,要上网的话,首先接入OTN和SDH网络。内部SDH比如说1个G到10G,直至100G。SDH是普通语音和电话语音,155线路实现传输。我们现在常用方式是GE或以太网接入,FDS网络是最常用但最古老的网络。

Anycast网络+BGP网络



首先是与运营商建立的BGP网络,BGP建立起来后,一旦用户遭遇攻击,或某个IP地址有问题或流量大时,可通过BGP流量至其它交换机。比如说我可以牵引到40G或10G大的出口上,实现IP地址的迁移,流量可直接清洗。

我们实现了电信、联通、移动BGP互联及教育网。Anycast国外使用挺多,主要为运营商提供流量清洗。比如说你打过来100G,你根本找不到IP地址在什么位置,可能在北京,可能在其他地方,我们通过Anycast互联互通,把流量清洗迁移至其他地方,或找不到我的主机在什么位置。

我们在上层开发了许多应用,包括智能DNS,智能调度系统,实现多流量的自动调配,我们规划了核心POP点,实现A、B、C等地多个机房的互联互通,实现了多出口BGP网络。Anycast网络中,业务服务访问时并不关心它提供什么样的服务,具体在哪台主机或DNS服务位置?包括任意一台服务器或网络设备上,实现路由器至云主机,提供是一种无状态情况,可以使攻击流量的牵引服务。目前Anycast网络有单播、任播和选播的方式。

全球云网络节点部署



我们在全球部署了节点,包括洛杉矶、法兰克福、莫斯科、温哥华、日本等地区,实现了全球范围的互联互通。我们提供了二层点对点的传输通道及三层调度,使用国际传输的方式部署节点,实现内网的互联互通。目前国内北京到洛杉矶是160毫秒,迈阿密到国内是230毫秒,纽约到国内是230毫秒,法兰克福到国内是240毫秒左右。