IBM李永辉:Watson大数据与分析平台(2)

来源:bob体肓官网入口 发布时间:2024-04-07 10:14:54 阅读: 1

  Watson的样子是怎样?Watson不是一台机器,其实就是一个集群,是IBM Power的集群。我们做一百周年人机大战的时候,结合了优秀的工程师、研究院还有硬件软件平台结合一起,集中起来做了这样的平台。这样的平台里面包含了10个机柜,5个在前面5个后面,里面有16TB的内存。响应是需要在两三秒钟做一个响应,因此我们很多计算分析都是在内存里面操作,它跑的操作系统今天我们也看到很多大数据的工具包等等都是在开源的社区。因此我们跑的操作系统有一些开源工具放在里面。

  IBM把自身研究的工具放在里面,IBM贡献给业界很重要工具,自然语言分析,UMEA,我们采用高度并行化架构来提供支持。同时我们里边也做了一些深度大数据的分析,工具,还有我们采用了集群的方式,优化环境等等,这是大概它的平台介绍。

  从这个平台我们正真看到,发展下去我们会有怎样落地方式?如果今天我们说中国有客户感兴趣,做这些有关的分析,从前我们是透过Watson平台基于power7的平台,今天已经发布了power8,从8个CPU到128个CPU,简单性能Watson提高一倍,而且他们提供非常大的内存容量。Power7到Power8 4.35赫兹,最高组频的芯片,这个芯片也能提供8线程的并发度,在大数据的世界里面我们要做很多的并行的操作,里边吞吐量非常好。

  内存采用了记忆内存,在大数据处理中,内存的速度很重要,速度是今天英特尔平台的4倍,处理内存操作的流程里面。我打包一个直接写到内存,有问题一起回答,透过硬件来实现,通过编程方式实现操作。这里简单讲讲硬件差异,大数据领域有一个标准测试terasort,Power8做出来的结果超过英特尔公布出来最快数据的两倍,IBM为什么做Watson平台,有平台支撑我们高速率的分析。

  我们今天需要新办法解决大数据的难题,IBM在Power8公开了标准,可以让板卡直接插在主板卡跟CPU相连,这是业界的创新,也是一个开放的标准,这种标准我们有一个客户做关键字的查询,大数据很常见的使用场景。terasort是一个开源工具,做了24台机器,将来扩展数据要不停加机器,今天可以透过闪存把内存拓展开,板卡读到内存空间,我们在一台Power8机器里面插一个卡,接到闪存机器里面提供40个TB闪存空间,做数据交互,我只需要传统24台机器,我们只用一台机器,两个U的机器加两个的闪存替代了原来四个机柜的方案,节省了成本3倍。

  刚才讲了很多硬件上面的创新,这个还不止,今天早上第一个议题提到,未来发展趋势是开放开源等等,IBMPower现在也开放了,我们开放联盟叫open Power联盟,全球65家企业参加,包括谷歌自己开发了Power8样板机,将来用在谷歌里边。其中有11家在大中华区的企业,我们开放给全世界,同时中国政府也非常感兴趣,在过去几个月,我们得到很多中国政府支持,两个月前我们在苏州跟工信部的副部长杨学山宣布了中国的Power技术产业生态联盟的成立,未来我们再看到Power的芯片可能是在中国生产,这是一个真正的开放的一个平台。

  刚才大概讲了一些硬件,接下来我从软件方面讲讲Watson软件。作为一个软件,你需要有一个基准,怎么叫好怎么叫不好。我们开发Watson参加了精准问答游戏的节目,大家别以为问答很简单,你问一个问题我给一个很明确的答案,它的答案里面隐藏了很多双关语,当我们回答那个问题的时候,我们是有必要了解到整个问题它在问什么?要很有信心,而且要很快速做回答,是非常难的一个事情。