数据可视分析的1996-2018 海云数据首席科学家·陈为

来源:bob体肓官网入口
发布时间:2024-02-06 12:24:56

...

  熟悉我们的小伙伴一定对陈为教授不陌生啦。作为海云数据的首席数据科学家,陈为教授可以说是中国数据可视化&可视分析领域的顶级学者。他领导的浙大VAG小组,多次在世界顶级可视化会议IEEE VIS发表重要论文。其编著的《数据可视化》一书,填补了中国在系统介绍数据可视化的基本理论和方法上的空白,成为可视化领域的经典参考书目。下面,就让海云君带领大家管中窥豹,从他二十多年的研究历程中看一看中国“数据可视化”的历史吧。

  五月份杭州已确定进入初夏,浙江大学紫金港校区的校园里,学生们三三两两,匆忙穿行在一幢幢的教学楼间,大多在为马上就要来临的期末考试做最后的准备。在蒙民伟楼的CAD&CG(计算机辅助设计与图形学)实验室里,几位博士、硕士研究生正坐在电脑前,对复杂的数据可视化方法与应用进行着探索。

  这间始建于1989年的国家重点实验室,在过去几十年里,始终是中国可视化研究的最前沿阵地之一,也是陈为教授最主要的工作场所。陈为是实验室的“老人”了,当他还是个学生的时候,就是从这间实验室开始,第一次走进了可视化的世界。

  在刚过去不久的三月份,陈为每天从8点到晚上10点,一直待在实验室里,与学生交流、讨论项目,也会自己钻研可视化课题。“主要因为4月1日是 IEEE VIS(目前国际最顶级的可视化学术会议)论文投稿的截止日期了,哈哈”,陈为打趣说。

  几年前,他几乎全年都是如此,常常整日地待在实验室中。在采访中,陈为觉得做数据可视化研究,需要有一种对“数据的狂热”——“你能够每天花八个小时坐在那里,围绕数据做所有的事情“,陈为说,这是他对自己,也是对学生们的基本要求。

  1996年,陈为从浙江大学应用数学系毕业,进入CAD&CG国家重点实验室主攻图形学的研究。不过当时,他对数据可视化还没什么具体的概念,学习的重点是图形学。幸运的是,CAD&CG实验室是中国最早开始研究可视化的单位之一,当时的实验室元老石教英教授正在浙大开设“科学计算可视化”的相关课程,这是陈为“数据可视化”的启蒙课,“当时对数据可视化,就有那么一点概念了“,陈为回忆说。

  在陈为看来,“数据可视化”可以简单地定义为:通过可视表达,增强人们完成某些任务效率的过程。这其中,“数据”就是信息,它可以是各种各样的形式(数字、文本、图像等等);可视化是方式和方法,它能够最终靠各种工具和载体实现。

  如今,我们每个人在生活中都会或多或少接触到数据可视化:当你用EXCEL画统计表时,当你看新闻看到信息图时,当你使用导航app查询出行线路时.......你都在有意无意地与可视化打着交道。

  可视化的历史非常悠久,其起源如今一致认为是在中世纪伴随着几何图形和地图的出现,而逐渐生成。在17世纪,随着物理学、制图学、统计学等学科的慢慢的提升,可视化也迅速成长,其当时目的主要是展示一些重要的信息。

  (图片说明:英国流行病学家 John Snow 通过在地图分析法,成功发现1854年伦敦霍乱病源是一口在布拉德街区的水井,进而阻止了疫情的蔓延,留下了著名的Ghost Map;图片来自:DataVis.ca)

  1786年,苏格兰政治经济学家 William Playfair 第一次发明了折线图、柱状图、面积图等现代统计图表,1801年又发明了饼状图,成为了统计图形分析的开创者和奠基人,影响了未来两百多年的数据可视化的发展。这是可视化历史上第一个里程碑的事件,从此,这种辅助思考的方式同时衍生了可视化思考的新方式:用图片表达数学和证明函数、列线图辅助计算,表达数据趋势和分布等。

  (图片说明:苏格兰政治经济学家 William Playfair 发明的折线年间英格兰的进出口数据;图片来自:Wikipedia)

  法国工程师 Charles Joseph Minard 在1869年发布的描绘拿破仑进军莫斯科的可视化图标,被誉为是“有史以来最好的统计可视化”,他是将可视化用于工程和统计的先行者,如实生动记载了法军的位置,行军方向,军队汇集、分散、重聚的时间、地点,军队减员过程等信息。这是计算机出现以前,最具代表性的数据可视化作品之一。

  20世纪以来,随着图形符号学理论的发展和人类计算能力的增强,以计算机为载体的信息可视化开始慢慢的变成为一门独立的学科。1987 年,在美国国家科学基金会召开的“科学计算可视化研讨会”中,会议首次正式提出“科学计算可视化”(Visualization in Scientific Computing)概念,主要使用可视化技术探讨研究自然科学领域的数据建模、分析、处理问题。

  后来随着网络浪潮的出现,新的研究分支“信息可视化”开始涌现,它起源于统计图形学,主要是对抽象信息的展示、说明和研究。这也是大众最熟悉、在媒体上出现频率最高一种可视化分支。

  进入数据爆炸时代后,可视化与数据分析技术的结合又产生了“可视分析学”。这是一门把可视化、人机交互、数据挖掘结合在一起的新的思维方法,是当前可视化领域最大的研究热点之一。

  陈为最早接触的是“科学可视化”。在石教英教授的影响下,他很早就对科学可视化有了一个初步的概念。后来在德国 Fraunhofer Institute of Computer Graphics 的求学经历,更让他充分领略到了可视化的魅力,并坚定了自己在这一领域研究的决心。

  “在德国念联合培养博士的时候 ,我开始接触到医学可视化。”陈为早期的数据可视化工作,大多分布在在医学领域的科学可视化。

  他当时主要的工作,就是把骨骼、器官等通过可视化技术呈现出来,例如帮助医生更快、更立体地观察CT影像中蕴藏的奥秘。不过这一阶段,应用场景范围仍然局限在放疗层面。

  中国可视化方向的研究工作起步较早,早在九十年代初,国家自然科学基金委就将科学计算可视化列为“八五”重点资助项目,国家科委也将其列为基础研究专门项目给予资助。

  国内的第一批图形学研究中心,如浙江大学计算机辅助设计与图形学国家重点实验室、清华大学计算机系、中科院CAD 开放实验室和中科院软件所等,都在90年代初相继开展了可视化方向的基础研究和应用研究。1996年,石教英与蔡文立(现为哈佛大学医学院研究员)等学者就编著了国内第一本可视化教材——《科学计算可视化算法与系统》,在高校开始推广可视化教育,陈为就是在当时初识了可视化。

  但是当时国内的相关研究都是源自美国、欧洲等高等院校的经验,相关领域人才匮乏,与产业应用之间更是有巨大的差距。

  “当时在德国,我的导师做了一个三维医学影像系统,在德国的奥芬巴赫医院投入实用。而国内医院对三维影像还没什么概念,以为只需要看二维片子就行了。”陈为说,直到若干年后,中国的临床医生才陆续认可并引入国外的这些可视化技术软件。

  虽然起步较早,但是从1998到2008,中国国内的可视化研究基本处于零星发展的停滞状态,没形成有效规模效应,石教英教授的那本教材至今也没有更新再版。而企业界此时正是互联网浪潮的高峰期,可视化长期处于一种无人问津的尴尬状态。

  2006年到2008年,陈为来到美国普渡大学的可视分析研究中心(美国国土安全部成立的五大可视分析之一)做访问学者, 经常与David S. Ebert 等可视化领域顶级学者交流谈论(David S. Ebert 教授是时任 IEEE Transactions on Visualization and Computer Graphics 期刊主编,这是可视化领域的顶级期刊之一),拓展了自己在可视化领域的视野,并初步接触了可视分析。

  在陈为看来,两次在国外的学习经历,对自己的影响非常巨大。“可视化是舶来品,只有到最先进的地方,与最聪明的人一起交流,才能够弥补这之间巨大的差距。”在德国,陈为初步接触了科学可视化;在美国,他逐渐将目光扩展到信息可视化和可视分析等更广阔的可视化领域。

  “2008年之后,中国与欧美在可视化上的差距已经不在于理念或者技术,重点是人才和研究的积累。”回国后,陈为立刻在浙大牵头成立了VAG可视化与可视分析小组;几乎同一时期,袁晓如教授也从美国回来,在北京大学牵头成立了北大可视化小组;还有早些时间从美国回到香港科技大学,领导了科大可视化实验室的屈华民教授等等。一批优秀学者开始着力耕耘国内的数据可视化研究,并在接下来的十年里影响了中国可视化行业的发展。

  陈为2008年回到浙大,在CAD&CG实验室里领导创建了可视化及可视分析小组VAG。

  这个小组除了平时的研究以外,还日常运营着一个有趣的博客。上面会像日记一样,记录小组生活的点点滴滴,比如科研领域最新的论文摘编,实验室的对外交流讨论,同学们的想法和体会等等。陈为自己也常常在闲暇时候撰写博客,分享自己的生活感受。

  陈为个子不高,大多数时候笑眯眯的,待人很和善,在同学们的博客中,提到他最多的一个词是“平易近人”。合肥工业大学罗月童教授当年在访问VAG后,在博客中写到,“我很吃惊地见到陈老师和同学们非常‘随意’地交流、开玩笑,不由感叹原来师生之间也能这么相处。”VAG自由、温馨的氛围令他印象深刻。

  在学术界,国际顶级会议、期刊的论文数量和质量,是评价科研工作最简单粗暴的方法。2009年,陈为小组连发4篇 IEEE VIS 文章,一鸣惊人,仿佛要一口气弥补上前几年中国在国际顶级可视化论文中缺席的窘状。

  “当2008年刚回国的时候,回来跟同事们讲可视分析,大家都不知道这是啥东西。”到2011年,当陈为与袁晓如、屈华民、彭群生等学者申请国家自然科学基金重点项目“探索式可视分析的理论与方法”时,才发现全国只有他们一家申报此类项目,由此项目搁浅。这足以看出,当时可视化研究在国内所碰到的冷遇。(他们在第二年再度申报,并取得了成功。)

  在这样的背景下,袁晓如、陈为等学者开始在国内,通过开设学术研讨会、暑期学校等方式,逐步推动数据可视化的发展。陈为团队从2011年起在浙大为本科生开设数据可视化课程和暑期学校,每年都有数以百计的学生能够近距离领略数据可视化的魅力。

  2013年对于陈为来说是一个有特殊意义的年份。这一年,他与沈则潜(现为阿里云零售总监)、陶煜波(现为CAD&CG实验室研究员)合作出版了一本名为《数据可视化》的工具类书籍。在陈为的心目中,这是他的研究生涯中一件具有里程碑意义的事情。它填补了自1996年后,中国在系统介绍数据可视化的基本理论和方法上的空白。

  从1996年石教英教授的第一本可视化教材,到2013年陈为出版的这本书,中国的学者们用了二十多年的时间,将数据可视化从曲高和寡慢慢的变普及。陈为的这本书后来被当作国内研究数据可视化的必读书目,成为很多可视化科研和教学的科普读物。

  2013年之后,陈为领导VAG小组开始发力,他们的论文几乎年年都会出现在IEEE VIS会议中。“从在顶级国际会议上发表的论文数量与影响力看,如今整个浙江大学的可视化研究在整个世界排名是第19位。”陈为自豪地说,这从某一些程度上肯定了他们这些年努力的成果。

  与此同时,大数据的概念开始风靡全球,可视化也搭上了这班顺风车。数据的爆炸式增长和计算能力的提升,从客观上直接催化了数据可视化的热潮——传统的数据分析方式,已经没办法解释、挖掘海量数据背后的价值。可视化凭借其绚丽的外形和直观的呈现方式,逐渐被慢慢的变多地应用到商业领域。很多商业公司为了开拓这方面的业务会来咨询陈为,一时间,关注数据可视化的人,突然就多了起来。

  2013年年底的时候,正在美国访学的陈为在博客中以“从不受待见到趋之若鹜“为标题,写下了这一年自己的一些感受。

  “收藏界有一个有趣的现象:很多当代最受追捧的钱币(价格随之高企)在发行之时或发行之初都是不受待见的品种。这些币刚刚发行时,由于种种问题导致发行量低或返熔量大,结果几十年后反倒成全了它们,成为藏家趋之若鹜的品种。做研究与其非常相似。科学研究与工程开发不是一锤子买卖,不是投机,是一项投资的长跑。”

  大屏,是最近两年最火爆的数据可视化线年热播的电视剧《人民的名义》中,达康书记就用大屏的可视化方式,向沙书记做了汇报;在天猫双十一的庆典上,阿里巴巴也用了大屏来展示实时交易数据,一时间,“大屏”的可视化概念突然热闹了起来。

  (图片说明:电视剧《人民的名义》中达康书记汇报工作时出现的“数据大屏”;图片来自:电视剧截图)

  其实早在2012年,陈为就开始了对“数据大屏”的相关可视化研究。在大规模流数据、异构数据、关联数据、图数据等课题上取得了一定成果。同在杭州的阿里 DataV 团队也常常和陈为团队讨论与合作,用学术上的研究解决商业中遇到的实际问题。

  陈为认为,“学术领域的可视化研究一定要做前瞻性的事情,要领先业界五年左右。”他们现在所研究的课题,许多都是针对未来的应用领域。

  在他看来,未来可视化领域的研究将会集中在三个热点方向:大数据的关联整合与可视分析;大规模流数据的在线可视分析,以及面向不一样的行业的通用型底层可视化工具。这些也都是VAG小组重点的研究方向。

  除了与互联网等技术公司合作,陈为还将可视化拓展到了很多社会研究中——数据新闻、气象分析、城市计算、体育观察等等,数据可视化的应用场景范围越来越广。它已经逐渐走出学术圈,渗透进普通人的工作和生活中。

  (图片说明:浙大VAG团队与中国气象局国家卫星中心合作开发的一个全球尺度多变量时变的大气数据可视化平台,已在国家卫星中心内部试用;图片来自:陈为)

  2017年,随着数据科学的持续不断的发展,以李飞飞、吴恩达为代表的一大批优秀学者都转身走入工业界,将自己在学术领域的成就更快地与业务实践相结合。当被问道是否也会转身进入业界的话题时,陈为的回答是:“有可能“,不过他觉得短期内应该还不会,因自己的科研还没有到最好的程度。

  在陈为2013年底那篇博文的最后一节,他写下了一段预言:“接下来10年是做数据可视化和可视分析的攻坚期。尽管大数据时代泡沫很多,但沙子里总有金子,埋头苦干,做好了前途一片光明。”

  浙江大学计算机学院CAD&CG国家重点实验室,教授,博导,国家优秀青年基金获得者,十三五国家重点研发专项“云计算与大数据”总体组与指南组专家,浙江大学计算机学院副院长。研究兴趣是可视分析与医疗AI。承担国家自然科学基金重点项目等国家项目十余项;发表国际顶尖学术期刊和会议论文70余篇;担任十余个国际一流学术会议的大会论文主席、国际SCI期刊JVLC副主编、JOV编委、IEEE Pacific Visualization大会指导委员会委员等职务。2017年6月,担任海云数据首席科学家。

  海云数据是AI应用与可视分析领导者,专注于利用A与可视分析技术,赋予用户在灵活科学地分析数据中形成更加智慧的业务决策能力,真正帮助用户实现业务场景中的效率提升与价值变现。返回搜狐,查看更加多