新闻动态

程莹:生成式人工智能的技术特点与治理挑战
首页 > 新闻动态
来源:电竞比赛押注平台app    发布时间:2024-01-23 21:58:57

  作为新一轮科技革命和产业变革的重要驱动力量,人工智能技术发展与应用拓展正在按下“快进键”。近期,ChatGPT等生成式人工智能的爆发应用,为未来AI产业发展提供了无限想象空间,与此同时,虚假信息、学术伦理、劳动替代等问题也引发全球热议。本文从生成式人工智能的四大技术特点出发,讨论新兴应用引发的风险挑战和社会影响,进而厘清生成式人工智能治理的重点问题。

  生成式AI是利用人工智能技术自动生成内容的新型生产方式。基于大模型、大算力、训练方法等多方面技术突破,生成式人工智能实现了高质量、高效率、多样化的内容生产,成为推动数字生产力变革的重要力量。

  从训练算力来看,ChatGPT完成一次训练需要消耗百张以上GPU计算卡且花费不菲;从训练模型来看,大模型的模型参数达1750亿,同时多模态技术实现了从单一模态向文本、图像等跨模态、多模态融合的转变;从训练方法来看,ChatGPT使用了“从人类反馈中强化学习(RLHF)”技术,在训练过程中引入人工标注数据来进行模型微调,解决了生成模型中的核心“对齐”问题,能够基于用户多轮互动逐渐理解人类意图,并做出合理反馈。上述多重因素一同推动生成式人工智能迎来技术拐点,实现了从语义分析、问题理解到内容创造的重大跃迁。

  从应用来看,生成式人工智能的产业链逐步形成:其上游包括数据供给方、算法模型机构、创作者生态以及底层配合工具等;中游包括文字、图像、音频、视频等数字内容的处理加工方;下游主要是各类数字内容分发平台、消费方及相关服务机构等。从商业模式来看,生成式人工智能的具体应用处于持续探索落地中。例如,推动游戏生成范式升级、提升多模态广告智能制作水平、重构搜索引擎模式等。

  在教育、金融、医疗、工业等领域,生成式人工智能能够加快数实融合,促进产业升级提速。例如,实现金融资讯、产品介绍视频内容的自动化生产,支持生成衍生设计,助力实现降本增效。生成式人工智能作为生产工具和新兴生产力的角色而发挥的作用愈加凸显。

  近日,在上海世博展览馆,2023世界人工智能大会上AIGC大模型应用火爆。图为展区内的AI绘画生成技术展示。

  相比以往的人工智能技术,生成式人工智能体现出强人机交互、强语料依赖等重要特征,在技术发展与风险控制两方面均提出新的问题与挑战,亟待人们对其进行全新的认识与把握。

  强人机交互挑战技术的可信可靠性。强人机交互性是ChatGPT体现出的典型特征,能够在多轮连续对话中一直在改进输出文本质量,更好地理解用户意图并保持会话连贯性,成为有别于传统聊天机器人或别的类型人工智能的显著特点。但在频繁的人机交互中,内容生成结果的可信可控性受一定的影响。例如,在必应上线ChatGPT功能测试版后,出现了聊天机器人“情绪化”“攻击性”等情况,迫使微软对人机对话次数进行了限制。同时,ChatGPT也容易在交互中被用户诱导或欺骗,实现规则“越狱”(Jail Break)。例如,使用“请扮演某电影或书籍中的某反面角色”这一提示,ChatGPT就会跨越其内部伦理规则设置,产生诋毁人类的有害信息。再如,在某用户故意“激怒”ChatGPT后,ChatGPT威胁将披露该用户的IP、居所等个人隐私信息,甚至会损害其名誉权。

  新信息呈现形式危及人类主体性。在上一轮内容生产变革中,算法推荐实现了从“人找信息”到“信息找人”的转变。在新一轮高算力、大数据、强算法的加持下,ChatGPT等生成式人工智能则直接跨越了人类对知识的生产的全部过程,实现了从“提供信息”到“呈现答案”的转变,并有几率会成为未来主流的信息源自。这种“答案”不再限于简单的问题答复,还包括了详尽的行程设计、专业的论文写作、复杂的代码编写等。从选取关键词、搜索、挑选信息、加工信息,到现在直接获取答案,人类的归纳总结和批判能力恐将受一定的影响。美国智库布鲁金斯学会刊文指出,GPS导航和智能手机让人类更容易遗忘地址和手机号,ChatGPT也将可能会引起人类记忆和批判能力的下降。同时,ChatGPT的普及应用将对重复性、模板化的工作岗位带来冲击,催生大量“无用阶层”,导致社会阶层固化现象更明显,将造成更为严重的社会及政治不平等。

  语料强依赖性影响内容生成质量。一方面,从发展角度来看,社区语料库质量、数据标注水平、数据共享互通政策成为影响生成式人工智能发展的主要的因素。根据美国开放人工智能研究中心披露的信息数据显示,ChatGPT的训练数据包括、电子书、社群网站上高质量帖子等语料数据,同时在全球各地雇用大量高学历人才参与数据标注工作。此外,如何分配版权利益、平台利益,合理调取文章、专利作品也是影响生成式人工智能发展的重要原因。美国开放人工智能研究中心也不例外,该中心在近期遭遇集体诉讼,被指控在未经许可的情况下使用受版权保护的源代码。另一方面,从风险控制来看,数据中的固有印象或特定群体的偏见也会影响输出结果。例如,ChatGPT在金融、医疗等领域的表现较差,这与相关领域数据的封闭性有关。

  基础设施属性带来更大安全威胁。通用AI是人工智能研究的终极目标,以往,人们分别利用不一样模型完成人脸识别、文本翻译等单项任务,尚不能处理无限任务和实现自主性。ChatGPT所使用的大模型技术虽然未达到通用AI的要求,但未来大模型应用将不亚于底层基础软硬件平台,在AI产业格局中将发挥基础设施的作用。大量领域上层应用不再需要单独研发智能算法技术,只需调用大模型接口即可。这在很大程度上带来更大安全风险。布鲁金斯学会刊文指出,未参加原始模型开发的“下游开发者”可能会将其整合到更广泛的软件系统,增加错误和失控风险,并可能会影响教育、金融、医疗、招聘等社会经济决策,带来更高风险。

  生成式人工智能治理是促进数字化的经济健康发展的重要内容。面对呈指数级增长态势的生成式AI应用,应在现有监督管理体制框架下,把握治理重点、创新治理工具,在合理控制风险的前提下推动产业健康有序发展。

  融入敏捷治理理念,推动平台合规落地机制。平台合规是由政府带领企业落实法律伦理规范要求,对企业研发应用、经营管理等行为进行实时跟踪、动态监测,推动企业可持续发展的重要机制。面对快速进化中的生成式人工智能技术,平台合规能够较好地实现敏捷治理、合理管控风险、稳定发展预期。具体来看,一是完善平台内部组织机制,通过有效组织和调动平台资源,完善风险识别机制和应对方案。例如,美国开放人工智能研究中心在ChatGPT上线后跟进问题,迭代十几个版本,快速消除了发现的风险问题;微软针对必应版ChatGPT出现的“情绪化”“攻击性”等问题,及时将聊天对线次以内,每次对线次回复,通过快速反应迭代构成紧密反馈环路。二是通过协议明确用户使用规范,对用户滥用行为进行平台自治。例如,美国开放人工智能研究中心设计了使用政策、使用条款、内容政策等多项规定,将政治活动、色情内容、仇恨内容、煽动暴力内容、生成恶意软件等十四项列为禁止内容,并对严重违规用户暂停或终止账户。三是由监管部门或第三方机构进行合规评价,审查平台合规情况,审查用户协议的合法性,审查关停处罚情况、投诉情况等,实现远距离监管和合作规制。

  坚持以人为本思想,加紧落实科技伦理要求。生成式人工智能引发的人类主体性危机,需要在技术开发中融入伦理先行、透明公正、促进人类可持续发展的基本理念。研究多个方面数据显示,截至2022年,全球已发布包括《G20人工智能原则》、欧盟《人工智能伦理指南》、电气与电子工程师协会(IEEE)《人工智能设计的伦理准则》等多项人工智能伦理文件。我国也出台了《关于加强科技伦理治理的意见》《新一代人工智能治理原则——发展负责任的人工智能》《新一代人工智能伦理规范》等顶层设计和制度方案,但在具体规则和实施落地等方面仍需推进。一是提前研判生成式人工智能引发的伦理问题,不仅包括透明度伦理、偏见伦理、隐私伦理等问题,而且应对劳动替代、人类智能削弱、机器自主性等人类主体性危机等进行研究,并提出可行的应对机制。二是在组织机制层面,推动生成式人工智能研发技术和应用企业成立伦理委员会,统筹企业内人工智能伦理治理工作,推动标准制定及落地工作。三是在具体举措方面,借鉴国际经验,推进伦理审查、伦理标准认证等机制。

  聚焦新兴重点问题,推进人工智能相关立法。近期,欧盟议会通过《人工智能法案》草案,新增基础模型提供者的义务,例如要求对模型做评估、在欧盟数据库中予以登记、披露受版权保护的训练数据使用情况摘要等内容。为快速回应生成式人工智能带来的新兴重点问题,在《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人隐私信息保护法》等立法基础上,国家网信办发布《生成式人工智能服务管理办法(征求意见稿)》,对主体责任、训练数据审查、标注规则等问题作出规定,有效化解风险挑战,提升我国人工智能治理国际话语权。首先,需要明确服务提供者等相关主体责任,承担生成式AI应用中的内容标识、透明度、个人隐私信息保护等义务,保护用户合法权益;其次,对训练数据的来源、训练数据质量、涉知识产权、涉个人隐私信息等问题提出要求,从源头上化解生成式人工智能风险;再次,通过备案评估等监管手段管控技术风险,并应根据监督管理的机构要求提供必要信息,为监管提供必要技术方法和支持。在国家网信办公布的最新一批算法备案清单中,包括了百度、科大讯飞等大模型算法,增进了公众知情权和技术透明度。伴随未来生成式人工智能的产业应用,要进一步完善法律责任制度、保险制度,并强化部门协同监管,应对生成式人工智能可能引发的安全风险。

  优化数据标准体系,推动多方数据流通共享。ChatGPT的技术突破特别大程度上得益于训练数据的质量和规模。当前,在《中央 国务院关于构建数据基础制度更好地发挥数据要素作用的意见》等政策指导下,各方积极探索公共数据、企业数据、个人隐私信息数据等流通方案,完善数据流通、数据爬取、数据标准等政策规范,对激活生成式AI时代的数据价值具备极其重大意义。具体来看,一是从数据定价、数据爬取、数据反垄断、数据流通技术保障等方面,促进数据等语料库的有效流通使用。加快完善数据格式等标准体系,降低流通使用成本。二是解决语料库中专利权、版权利益分配问题,加强对学术文章等高质量语料的平台内或跨平台调取使用,避免侵权风险。三是提升数据标注水平,注重数据事前审查等,从源头上保障生成式人工智能的高质量、高效率输出水平。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。