数据还有5纳秒抵达战场漫画数据中心高速网络

来源:bob体肓官网入口 发布时间:2024-02-03 08:15:13 阅读: 1

  云计算数据中心市场急剧增长,处理器和存储的能力大步前进,压力给到网络通信这边。

  回看网络技术架构几十年,有很多因素影响技术演进,但是,规模自始至终都是主要驱动力。

  梅特卡夫定律(Metcalfes law)告诉我们,一个网络的价值等于该网络内节点数的平方,而且该网络的价值与联网用户数的平方成正比。

  网络是个系统,里面包含很多网络设备(交换机,路由器,网卡,网关等等),首先这些设备能互联在一起,能通信,这需要一种双方都懂的“语言”,这就我们常说的网络协议。

  以“协议为中心”的时代,只要你一字不漏地执行协议,遵循标准,万里通信咫尺间。

  除此之外,还需要运行维护这些设备的管理系统,以及流量优化的调度系统等等。

  那时,以欧美厂商为主导,充斥着垄断和高门槛,孤傲厂商独霸一方,列鼎而食。

  风吹浪大,随网络规模慢慢的变大,对系统的要求也越高,当传统网络协议和管理运维方法都不足以满足规模的需求,量变触发质变,引发技术架构革新。

  有人把网络比作路网,规模决定复杂度,一个大城市上万条路,得来个复杂系统性设计。

  软件定义网络由谷歌首先探索完成,人们发现,当规模大到某些特定的程度,以前特别好用的技术慢慢都不给力了。

  网络协议不行,网络架构也不行,网络的设备管理得也不行,设备多了,要上自动化,手工管理跟不上了。

  装满硬件设置的数据中心“变身”软件为中心,这在某种程度上预示着:对协议的需求降低,对协议做减法,交换机功能大大简化。

  虽然都是交换机,经典网络里的厂商黑盒交换机和互联网定义下的白盒交换机本质上是属于两套不同的网络系统,有不同的管理运维方式,和端侧协同方式也不一样。

  规模依然是最大的不同和驱动力,另外,谷歌等网络公司的数据中心网络只自用,不对外。网络就能做到简单,效率高。

  有人把此阶段叫做互联网重新定义网络系统。网络公司引领潮流,美国 Big4 那几家头部互联网陆续在2017 年完成了转变。

  中国互联网大公司转变的步伐从阿里云开始,在2017到2019年之间研发,2019年完成。

  它建立在交换机抽象接口(SAI)上,SAI是核心,提供了统一的API,以SAI作为中间件,能屏蔽不同ASIC处理器之间的驱动差异,可以运行在不同芯片上。

  SONiC的竞争者并无无名之辈,除了闭源的竞争者,谷歌那一派的开源力量也不容小觑。

  谷歌搞得很早,网络控制面和转发面分离得有点过于彻底,软件为中心做得有点过重,结果头部玩家们没有人愿意跟随。

  以协议为中心的时期有一个特点,网络设备是黑盒。你怎么做大家不关心,设备之间只要互通就可以了。

  华为,思科等厂商都做各自的设备,外界并不清楚技术细节。能用就行,管他怎么实现的。内部情况,一无所知。

  当网络交换机这个硬件交由阿里云的软件来控制,任何异常,各种故障,瞬息万变,立即就知。

  SONiC于2022年正式引入到Linux 基金会。同年,它有一个很重要的里程碑,谷歌加入这个开源社区了。

  微软,阿里云,谷歌互联网界三巨头最终在开源上走到一起,在网络的高铁时代开始引领生态发展(另外3个 SONiC 创始成员均来自于美国芯片厂商及 1 个OEM 厂商)。

  谷歌在与众不同和紧随潮流中做出了选择。谷歌是“整个软件定义网络时期”的开创者,如今也加入了这个阵营,意义是非同凡响的。

  过去十年是网络发展的第二阶段(软件定义网络时代),此阶段谷歌给我们大家带来个头。但是未来网络向何处演进,当第三阶段开始,没有谁看得十分清楚,所有不想死的公司都在创新的道路上狂奔。

  业界没形成统一,一致,主流的意见,没有人心里清楚一定要干嘛,这样一个时间段,谁先站出来引领,那谁就比较牛。

  彼时,阿里云的远谋是可预期网络(于2019 年提出),或者说这是一个目标,它的核心做法是端网融合。

  人们对端的范围的理解前所未有地扩大。端可以指应用,包括计算,存储,数据库,数据仓库。端也可以指网卡,指服务器。

  当然,众所周知,AI在球场上的表现很突出,AI开大脚,一球开出大算力。这一脚,驱动网络技术的变革。这需另一篇文章来聊。

  当然,未来网络变化还有一个主旋律,就是以5G网络驱动的边缘计算,这也需另一篇文章来聊。

  以前,网络只是光纤和交换机的事儿。现在不同了,服务器里的网卡也热情参加了。网卡和交换机默契配合,一起把成绩(网络性能)搞上去。

  两台服务器之间的通信路径的排列组合,可能有上千条。这样一个时间段智能性就特别重要。

  高并发的本质是“多打一”,会发生拥塞。九台服务器同时往一台服务器发送数据,第十台服务器急疯了,网卡收不过来,就出乱子,比如丢包。

  据实验统计,对重要业务网络上0.1%的丢包率,可能带来计算性能50%的损失。

  这里会用到高超的监控手段和拥塞算法。如果看得够远,可以彻底避免拥塞发生。

  数据中心网络中得有一种硬核技术,看得清状况。从此端到彼端,必须了解到途中信息。网络中有没有丢包,有没有拥塞。端和网能够瞬时感知到有拥塞是先进的体现。

  网透明了,端也透明,交换机白盒只是起点,网络融合要把整个网络路径都做成一览无余。

  可预期网络的核心思想是让网络更加透明,让计算能够感知整个网络的状态,一个实时的状态。端网融合更进一步,做协同设计。

  协同已经不仅仅在网络自身范畴,计算和网络要协同,存储和网络要协同,重新定义整个计算结构,进而重新定义了底层的网络协议和芯片。

  这样一来,网络传输的延时降低了,通信的额外开销降低了。换成技术表达,就是带宽能够保证,延迟能够保证,特别是长尾延迟可以保证。

  前几年,有的美国硬件厂商就发现,分开做计算芯片和网络芯片,会导致竞争力有所下降。

  过去几年,热门现象是不少计算芯片公司收购了网络设备公司,正是此大趋势下的一个反应。

  同时,有云计算业务的大型网络公司都在自己做芯片,想要获取更高的算力,就要进行协同,端和网进行协同,软件跟硬件进行协同。

  “我们现在深入下去看,发现瓶颈已经不单单是在服务器跟交换机之间了,瓶颈已经到了服务器的内部,它的网络范畴需要延伸到服务器的内部那些部件之间的互联了,也就是说CPU跟GPU,CPU跟SSD,PCIE这些互联,要跟外面以太网互联,要协同得更加深入一步。所以才要说整个计算体系结构会发生明显的变化。”

  “但是,在现代化的数据中心的网络已经比经典网络时候的网络带宽高上千倍,网络的质量更是不知道要高多少倍。这样一个时间段,从网络的Best Effort(尽力而为)到Predictable(可预期)的改变,是思想的改变。我们的思想需要全面革新。”

  结论很简单,三个时期,三个阶段(经典网络,软件定义网络,可预期网络),中国厂商阿里云在数据中心网络产业生态中已成为领导者。