智能治理大模型、大数据与大算力:ChatGPT引发新一轮智能革命

来源:bob体肓官网入口 发布时间:2024-04-27 23:46:00 阅读: 1

  原标题:智能治理大模型、大数据与大算力:ChatGPT引发新一轮智能革命

  如果说机器学习实现了学习算法的统一,深度学习实现了模型架构的统一,那么大模型则实现了模型本身的统一。大语言模型是当前一轮大模型的成功典范,其本质是以自然语言理解为内核,构建起人-机间互理解、互操作的高效、高性能媒介通道。因此,直观上来看,与人机交互、人机协同、人机融合最相关的领域将最直接体现大模型的应用价值。正向来看,大模型将人对世界的模糊、抽象认知转化为可精确表达、高度量化的特征,供机器进一步计算、推演,解决人机高效交互协作问题。反向来看,大模型将机器高度精确却难以窥探的黑箱计算结果转化为人可理解、可接受的形式进行呈现,解决AI的可解释性问题。例如,大模型可对人的历史经验、判断偏好、直觉认知进行精确理解,变成可供计算的特征表达;反过来,机器的推理计算过程及结果可以自然语言形式输出,供人实时掌握情况并做进一步决策。人机混合智能是AI的高级形态,而大语言模型展现出的通用性为我们粗浅地勾勒出通用AI的图景,因此,大模型为迈向更高级形态的AI奠定了重要的阶段性基础。

  应谨防关键领域技术突袭。当前,人工智能技术正以史无前例的速度自我迭代,据估计,AI领域约每3个月便会产生一种全球范围内具有重大影响的主流算法。作为对比,传统科学技术的迭代更新较慢,例如,当今全世界控制领域90%以上使用的比例-积分-微分(PID)控制器始于上世纪20年代;即使是迭代较快的集成电路领域,摩尔定律告诉我们,其迭代速度也大概为18-24个月。不久前,我们仍慨叹市面上各种聊天机器人的智能水平较低,ChatGPT的横空出世瞬间颠覆了这一认知。因此,在当前国际关系日益复杂的局势下,我们应谨防关键领域对手的技术突袭,特别是当我们步入多方面并跑的“无人区”领域时,而AI的加速发展使得技术突袭的“黑暗森林法则”越来越成为可能。

  应重新审视“人工”的作用。人工智能的发展离不开“人工”的参与,而随着AI技术的迭代,“人工”所扮演的角色也在逐步更迭。早期的监督学习时期,人主要扮演数据标注角色,数据标注被认为是技术上的含金量很低的工作,并一度出现了各种数据标注工厂。到了近些年发展出的指令学习,人不再简单给出标签数据,还需要按要求给出数据指令。而在RLHF中,人需要出示AI模型的输出反馈,从而训练一个良好的奖惩函数。在ChatGPT的代码生成中,拥有非常良好人工注释的训练代码是其掌握推理编程能力的重要基础。随着AI 的发展,“人工”的作用越来越精细。例如,在智能指控领域,高度专业化的人工标注数据、人类指挥员经验和人机混合训练方式,可最大化发挥大模型作用,应提前进行部署。

  应审时度势迎接创新范式变革。近些年,AI正加速为其他学科内在发展提供颠覆性范式创新,例如,2020年的AlphaFold展现出惊人的蛋白质结构预测效率,2022年的AlphaTensor发现了迄今效率最高的矩阵乘法运算法则。AI为科学研究和技术创新范式带来了全新机遇和挑战,人工智能驱动的科学研究(AI for Science)也成为当前国际瞩目的热点方向,国家科技部、自然科学基金委也于今年3月联合启动了AI for Science专项部署。为此,应重新审视这一变局下的科学技术创新范式。例如,在智能指控领域,一是如何以智能技术先行带动体系创新,如概念设计、战法创新,二是重新梳理创新成果体系,重视算法等软实力打造,以及大模型加持下的技术集成、模型训练方式创新等。

  ChatGPT是一款由美国OpenAI公司开发的自然语言人机交互应用,拥有接近人类水平的语言理解和生成能力,是迄今为止AI领域最成功的产品和历史上用户上涨的速度最快的应用程序。ChatGPT依赖大模型、大数据、大算力支撑,其出现标志着通用AI的起点和强人工智能的拐点,是里程碑式的技术进步,将引发新一轮人工智能革命。国内人工智能“大模型”已具备一定基础,但与ChatGPT还存在一定差距,其背后面临数据、算力和创新环境等深层次制约。需从战略格外的重视ChatGPT引发的新一轮人工智能革命,瞄准大模型、整合大数据、布局大算力,实施包容审慎监管,为新事物发展留足空间,加快抢占未来科技竞争制高点。

  ChatGPT重点是“三大支撑”。一是“大模型”。全称是“大语言模型”(Large Language Model),指参数量庞大(目前规模达千亿级)、使用大规模语料库进行训练的自然语言处理模型,是ChatGPT的“灵魂”。二是“大数据”。GPT-1使用了约7000本书籍训练语言模型。GPT-2收集了Reddit平台(美国第五大网站,功能类似于国内的)800多万个文档的40GB文本数据。GPT-3使用等众多资料库的高质量文本数据,数据量达到45TB,是GPT-2的1150倍。三是“大算力”。以GPT-3为例,其参数量达1750亿,采用1万颗英伟达V100 GPU组成的高性能网络集群,单次训练用时14.8天,总算力消耗约为3640PF-days(假如每秒进行一千万亿次计算,需要3640天)。

  人工智能大模型具备极其重大的战略意义,是未来科技竞争的制高点,也是重要的智能基础设施。需从战略格外的重视ChatGPT引发的新一轮人工智能革命,从算法、算力、数据等方面加快布局和突破,构建包容创新的监管环境,积极应对新一轮人工智能科技竞争。一是瞄准通用AI“大模型”发力,加快推进大规模应用。基于通用数据集的大模型是人工智能走向商业化应用落地的重要手段,将带动新的产业和服务应用范式。建议加快自然语言处理、计算机视觉以及多模态大模型攻关。同时,在细致划分领域构筑优势,进一步深耕垂直领域,从实际场景中积累行业数据和知识,加快孵化人脸识别、音频生产、财务分析、法律服务、教育培训等行业大模型,逐步完善模型架构、提升参数数量,推进应用落地。二是整合“大数据”,聚焦打造专业数据服务。训练大模型需要优质的大数据集合,有些数据还需要人工标注。收集和清洗数据是一项耗时较长的基础性工作,其质量直接决定模型的智能程度。建议加快推进数据资源整合共享和开发利用。ChatGPT的成功因素之一是拥有大量的优质训练数据。我国具备海量数据和丰富应用场景,建议进一步促进图书、期刊和传统行业的优质数据开放,激发数据要素活力。制定政府公共数据资源开放清单,开展数据资源开放试点,优先开放高价值、低敏感、数据量大的民生公共数据,逐步开放公共数据库、专业数据库等。培育专业数据服务商,培育壮大数据采集、标注、清洗等服务产业。扩大优质数据供给,特别是快速推进历年来中文图书、纸质文献等的数字化,搭建用于人工智能大模型训练的优质数据集,扩大面向人工智能大模型的数据供给。三是布局“大算力”,聚焦建立算力统一大市场。充分的发挥市场机制的作用,坚决遏制低水平、不可持续、缺乏商业闭环的智算中心盲目建设,避免算力市场和人工智能服务市场的碎片化。支持围绕云计算建设的各类行业训练数据集、人工智能训练平台,形成从理论模型创新、模型工程化到场景化服务的技术和商业闭环,构建统一、开放、有序的AI产业大生态。建立AI计算资源共享名录,支持各省市超算中心、算力平台、行业训练数据集、人工智能训练平台等人工智能基础设施资源开放共享。四是支持以头部企业为主体,推动形成人工智能“大模型”攻坚合力。加大对头部企业组织大模型核心技术攻关的支持力度,发挥重点企业和研究机构的数据、算力、算法和人才优势,联合产业链上下游企业、高校院所、新型研发机构,协同开展科研攻关,加快推出国产大模型拳头产品。五是实施包容审慎的监管,为新生事物发展留足空间。类ChatGPT产品作为新生事物,不可能十全十美,鼓励发展是主旋律。ChatGPT初期也会不断“犯错误”,但其自身也逐步建立了技术机制,针对内容、伦理等相关风险进行了过滤与阻断,经过用户反馈、专家机制优化迭代后逐步成熟完善。依托优良的网络环境,丰富的内容治理经验,以及完善的AI监管框架,我国完全具备对于以ChatGPT为代表的人工智能大模型技术治理自信。因此,面对也许会出现伦理、数据、舆情等风险,要建立容错机制,实行沙盒监管和敏捷治理,实现规范与发展的动态平衡。

  许多学者觉得数字全球化所带来的机遇、风险与挑战,改变了我们这样一个世界的生活方式和生存方式。丹尼尔·席里罗认为,数字转型和第四次工业革命能刺激创新和生产力增长,转变公共服务和改善福祉。它将有利于解决卫生系统、老龄化护理等带来的政策挑战,提高政府服务的效率和透明度。詹姆斯·马尼卡早在2016年就极有远见地指出,全球数字化为发展中国家、小公司和初创企业和数十亿人打开了大门。即使是小公司也能与最大的跨国公司相竞争;人们使用数字平台做学习和工作;大企业能以更加精简高效的方式管理国际业务;落后国家获得了追赶的机会,正缓慢缩小着与领先国家的差距。联合国贸易与发展会议在2021年的数字化的经济报告中指出,加强全球数据治理具有很强的合理性,其作用包括促进实现全球数据共享、开发可应对重大全球发展挑战的公共产品、增强跨境技术协调等。由数据驱动的数字化创造了全球的机遇和挑战,全球解决方案有助于增强积极影响,减轻其消极影响,是实现2030年可持续发展议程中以人为本的经济、社会、环境目标的先决条件。

  第一,数字化的经济和数字全球化所面临的风险和挑战,引起国外学界的强烈关注。德国社会学家贝克认为:“风险(包括信息风险)在全世界内无所不在,这种全球风险和不确定性有三个特征:非本地化、不可估量性、不可补偿性。全球风险社会的第一定律:灾难的风险会困扰穷人指向一种不平等关系:决策者获得潜在的好处,而另一部分人承担风险却被排除于决策和潜在利益之外。”卢普顿认为:“社会生活和制度由于数字技术的发展产生了新的风险。第一,具有风险的现象和个体慢慢的变多地通过数字媒体进行配置与传播。第二,数字技术的用途对用户可能构成风险。第三,一部分群体由于缺乏数字技能,在数字鸿沟中处于不利地位。”非洲裔学者尤努斯痛斥道,在全球治理的过程中,世贸组织没有承担应有的责任,这导致了强者对弱者不平等统治模式的增强。穷人无法支付信息通信技术的费用、教育落后、专利的固化都使非洲本地的公司无法与大型跨国公司竞争。尽管数字服务的可用性提高了,但可负担性降低了。这削弱了弱国独立发展的能力,导致信息时代非但没再次出现多元化,反而出现了同质化倾向。信息时代的新帝国主义正在通过技术壁垒等多种手段复兴。学者们关切数字鸿沟问题,他们都以为这是目前最严峻的社会风险。联合国发表《数字化的经济报告2021》非常关切这个严峻问题:在数据跨境流动的过程中存在数字鸿沟和严重失衡。最不发达国家和其他几个国家使用互联网的人数和目的相差巨大。巨大的数字鸿沟反复挑战着发展,这一鸿沟随着由数据驱动的数字化的经济的发展而加剧。发展中国家可能发现了自己在数字化的经济中处于从属地位,并且不得不为获得数字情报而向少数全球跨国公司付费。

  第二,数字技术与个体隐私、数字技术对伦理道德的破坏和伦理底线的穿透也引起学界的强烈关注。“数字启蒙论坛”指出,数字技术正在慢慢的变多地破坏社会的道德基础。这种变化导致了人类道德和社会意识的淡化,减轻了个人对其行为负责的问责制的影响。与数字技术相关的安全和隐私问题也十分尖锐。市场慢慢的变多地与消费者或公民直接互动,导致民族国家和组织机构的作用被侵蚀。新的世界秩序还加剧了已有的权力、知识和金钱的不对等。这些风险一方面导致了政府和数字公司之间的权力差异,另一方面导致了公民和消费的人之间的权力差异。一份提交给联合国人权理事会的报告说明,数字通信中的匿名性应当得到有力的保护。在生活中存在大规模有明确的目的性的数字监控和攻击。政府应认真考虑对隐私工具的限制,考虑到它们会造成的侵权时,仅在必要时谨慎地使用公民的隐私信息。

  第三,全球数字风险加重,治理问题迫在眉睫,亟须解决。本文认为,在数字全球化和数字风险社会里,数字风险呈现出三大特性,即弥漫性、穿透性、隐秘性。这三大特性可以从新冠疫情的传播、发展和对人类的影响反映出来,其危险性更加隐蔽和更加不易被人观察。“当今世界的数字风险在多个层次上爆发和蔓延,包括全球层次、国家间层次、国内和跨国安全层次、公司媒体层次和个人层次。据此,数字风险可分为以下几大类型:全球数字分配结构失衡(数字鸿沟问题)、国家间数字权力角力(数字博弈、数字霸权、数字冷战)、跨国和国内数字挑战(数字安全)、数字公司和数字媒体的异化(数字垄断、数字极化、数字政治化)、数字空间中的个人权利异常(数字自由、数字隐私权)。”我们尤其关注了全球数字分配结构的失衡以及国家间数字权力的交易,即数字博弈、数字霸权、数字冷战,这三者之间有内在的递进的逻辑关系,从数字博弈到数字霸权再到数字冷战,其危险程度日益加深,其逻辑发展递进关系说明跨国之间数字领导权的争夺和斗争白热化,美国开始在全球拉开数字战争的序幕。欧美国家对数字霸权赤裸裸的争夺,引发学界有识之士的强烈关注。贝克在临终前出版的《世界的变形》一书中也关注了数字自由和数字隐私权的问题。他说:“爱德华·斯诺登揭露了当代(西方)社会中对自由和数据保护的预期与现实状况之间的差距。在这样的领域,一种在全世界内看不见的霸权控制,是可以与核灾难相提并论的真正的大灾难。因为全球的数据监控越是全面,公众就越是无法意识到这种监控。数字风险的独特之处和内在的悖谬就在于此:我们离灾难越近,就越是看不见灾难,数据的全球控制正是这样一种灾难。我们之所以意识到这场潜在的灾难,只是因一个美国国家安全局的外包商的工作人员,把信息控制手段用来向全世界通报全球数字风险。”为此,他呼吁建构一个保证个体安全有序的数字伦理学,使这一个数字全球化的世界更加公平、正义、稳定,而不是让人们在超级国家和数字公司后面摇尾乞怜,归顺驯化。(《世界社会科学》(原名《国外社会科学》)2023年第1期)

  联合国人口趋势预测表明,全球老龄化程度正在迅速加深,预计老年人口所占比例将从2022年的10%跃升至2050年的16%。其中中国、欧洲和美国最显著,届时65岁以上人口比例将分别达到27.9%、34%和28%,我国将成为老年人口第一大国。与人口老龄化趋势相伴的是智能化时代的到来,计算设备的微缩化、可穿戴化和普及化,以及虚拟化技术的大量应用,数字世界对现实世界呈现了高度的交叠化和替代化趋势。两种趋势并行给社会带来了前所未有的变化,也引发了一系列经济与社会问题,最突出的是老年数字鸿沟(grey digital divide)。

  老年数字鸿沟反映了老年群体因面临诸多障碍而逐渐与数字社会脱节的现实。随着全球数字化程度的加深,老年数字鸿沟所带来的问题逐渐由老年人无法享受数字生活带来的便利和优势,转化为衣食住行等日常生活所面临的障碍,构成了权利行使的隐性限制和侵害,导致了“数字不平等”(digital inequity)。联合国2021年国际老年人日的主题是“全部年龄段的数字公平”,呼吁关注老年人有意义地访问和参与数字世界的权利,并强调不应剥夺老年人享受技术进步所带来的机会和红利。

  在社会资本层面考量,无法融入与被排斥的现实意味着数字贫富差距的拉大。美国是网络和智能科技的发源地,是信息与通信技术(ICT)领域发展最迅速的国家,其反映的问题比其他几个国家更为复杂与深刻。我国快速地发展的数字化的经济社会也凸显出同样的问题,但治理经验上相对欠缺。智能化时代老年数字鸿沟表现出的新特点需要被关注,美国近年来在弥补老年数字鸿沟方面的探索既有成功亦有不足,具有较强的参考意义。

  数字包容的概念源于《网络的落伍者:走向数字包容》报告。这份由美国电信和信息管理局于2000年发布的互联网发展报告中,提出数字包容应当做到“无论年龄、收入、种族、宗教信仰、残疾与否、性别和地理位置,保证每一个美国人都可以获取新兴经济环境中所需要的技术工具和能力”。

  老年数字包容最重要的内涵是通过一定的方法让老年人自发地融入数字化社会,掌握数字化社会的生活逻辑,具备数字技能,提升数字素养。数字包容蕴含的行动方向为老年人→数字社会,目的是加快老年人落后的步伐,关注技术的接入与使用,强调参与社会活动,加大对的关注以及尝试突破社会壁垒,有学者将其形容为螺旋上升的过程。该模型表明通过动态调适和持续深化已达到数字融合目标。其中,外部力量指影响数字参与和融入的积极动力和消极阻力,社会资源表示社会中的数字化供给、培训和信息服务等;主动接受、电子参与、数字包容表示基于行为动机的不同参与行为,成为“认同”到“参与”再到“融入”的调适过程。

  《南方治理评论》始创于2013年,CNKI来源集刊。广州大学南方治理研究院主办、社会科学文献出版社出版的连续性学术辑刊。《南方治理评论》秉持“培育公共精神,直面转型中国,诠释社会热点,扩展学术深度,贴近重大需求,服务国家治理”,追求“本土化、专业化、个性化、国际化”,崇尚原创研究、微观研究和深度研究的学术精神,试图在中国繁杂的地方语境下运用本土话语体系着力解读地方性知识和日常性逻辑。主要设置有“学术一线”、“数字治理”、“健康治理”、“灾害治理”、“南国讲堂”、“伶仃书评”、“回归访谈”等栏目。

  当前浏览器不支持播放音乐或语音,请在微信或其他浏览器中播放葬花吟 音乐: 陈力 - 红楼梦 电视连续剧歌曲集原声带