随着5G、AI及移动互联技术的迅猛发展,视频已全面融入了我们的日常生活,影响着我们与世界的连接方式与沟通形式。同时也带来一个严峻的挑战:如何有效处理爆炸性增长的海量数据?视觉智能技术也许就是最佳答案。
通过场景与算法的有效结合,视觉智能技术已在平安城市、智能交通、智能医疗、智能金融、视频侦查和移动互联网等多种场景中得到了广泛应用。视觉计算和识别的技术都是怎么样发展的?让我们大家一起跟随中国科学院自动化研究所研究员王金桥,去探寻展望视觉智能技术的美好未来。
经过六十多年的发展,上升到国家战略地位的AI已经敲响了“未来之门”,为人类拉开了第四次工业革命的序幕,除了成为军事、工业核心的竞争力,更成为大国之间竞争的新焦点。
第四次工业革命到来之前,中国、美国、欧盟、英国、日本,都围绕着深度学习、超级算力、工业软件、智能系统这几方面做了深入布局,其中,最有代表性的就是中国和美国。从中、美对比来看,美国在自然语言处理、机器学习、计算机视觉领域很强大,而中国更多在应用与计算机视觉和图像、机器人和NLP自然语言处理领域有更多积累。
2020年,中国人工智能的论文数量第一次超过了美国,但引用次数、论文影响力比美国稍差一点。在一些大公司的布局上,人工智能的竞争核心也由一些高等院校不断转入到现在的“巨无霸”企业,美国主要是谷歌、Facebook、亚马逊、微软,中国更多则是阿里、腾讯、字节跳动、华为等。人工智能的竞争从研究层面到企业层面,再到应用层面,目前发展得非常快。
更重要的是数据和人才的对比。相比美国,中国拥有更丰富的C端企业和C端数据——比如交通出行、网上购物,各种各样的直播等,勇于探索商业模式的公司也在持续不断的增加,数据迎来了持续性的、爆炸性的增长,在数据可当作生产力重要要素的新时代,数据可当作智能发展的强驱动力,这让中美之间的差距不断缩小。
另外,还有计算资源的极大丰富。中国现在的计算力有了大幅度跃升,给智能化提供了条件。2012年,深度学习的出现,把一个两层的神经网络变成了几百层、上千层,而其他没有过大变化。
算法的提升,助力机器学习的性能一下提升了30%,这是大数据时代人工智能的条件。数据爆炸性的增长、算力的丰富和深度学习的复兴,给智能化时代提供了充分的条件。
不过,这也并不意味着目前人工智能的智能性就特别高。人工智能分为两部分:感知智能和认知智能。所谓感知智能,就是在数据基础上,让数据去驱动智能化的应用,没有人类的高级感知和认知概念。而认知智能是通过对数据的加工,能够理解数据,提炼出数据包含的褒贬情绪、个人自己的观点以及作者观点;在理解基础上,要像写作文一样,上段写完把下段写出来。现在的人工智能仍是感知智能,还处在非常弱的起步阶段,所以现阶段不需要过多的担心机器会超过人类。
作为一个生命体,人类感受世界70%是依靠视觉——这也是怎么回事在AI领域,目前应用最广的是各种视觉技术,因为能代替人的眼睛。
远在寒武纪时期,一个生命体进化出了具有视觉感知的细胞,能感受很近范围的太阳光,出现了最早的视力系统。视觉产生的原理是小孔成像:光线通过视网膜映射在我们的瞳孔中,成为一个倒立的像,再通过视神经传导到大脑的视觉神经中枢,视觉神经中枢再把它正过来,就是视觉成像。
光的作用结束后,视觉形象在视神经并不立即消失,这种残留的视觉称为“视觉暂留”,但是非常遗憾,这个成像时间仅仅不到1秒。也就是说,无论面前站了多美的人,你也只能“看见”他1秒。1秒之后,你对他面部特征的记忆点,就都是通过大脑加工出来的。下次再见面,你就是依靠这些大脑加工后的特征记忆,从茫茫人海中来辨认他。
视觉技术的进化和人眼进化的过程类似。第一代照相机胶卷的整个成像过程是模拟可见光,通过化学元素的调配,使感光胶片记录下来的影像与人眼看到的图像一致,这是化学成像阶段。后来,随技术发展变为第二代电子管成像,等有了数字化后,电子管又进化成第三代LED液晶屏,一直到现在的触摸屏OLED屏,成像过程从原来的模拟信号到了数字信号。
这一阶段出现了视频编解码技术,从算法角度来看,之前很多安防场景,靠的是保安天天盯着监视器屏幕,后来有了变化检测,通过一系列分析检测前一帧和后一帧的影像,让机器自主学习人脸模型特征,把人脸图像投影到非线性的空间,但整个特征空间比较小,算法很难得到保证。
从2012年开始,迎来了第四代视觉技术阶段,通过深度学习网络来模拟人的感知过程,对视觉的理解从被动防御变为了主动预警,视觉识别应用处在落地关键期。
2014年,人脸识别在上一阶段的基础上,针对姿态、光照、表情、遮挡等外界影响因素,提出了一系列的改进算法与新的理论,但在现实场景中应用还不够好,经常有人坐高铁刷不了脸。
当数据积累到某些特定的程度,2019年至今,迎来了人脸识别快速成长期,图像识别、视觉识别的技术在交通出行、住宿、手机解锁、手机转账等多个领域百花齐放,得到了广泛应用。
零售领域用视觉智能技术分析人的行为,机器人领域应用在物流机器人,实现自动搬运、自动运输、自动抓取,在新零售领域商品自动识别、场景的OCR(Optical Character Recognition,光学字符识别,是指电子设备检查纸上打印的字符,通过检验测试暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程)和无人驾驶领域发展也特别快,进入了人工智能视觉应用的关键时期。
视觉智能技术主要涉及三个方面。第一,提取关键特征来表示。比如一堆蓝色口罩中的红色口罩;第二,实现语义的理解。语义的理解分为几个层次,比如最底层是目标级语义:土地、矿泉水、椅子、人坐着;还有场景级的语义,这个人在站着喝水、他们在握手,这类行为语义涉及人和人之间的交互。再往上一级,涉及环境和人之间的交互,比如两人在报告厅坐着,台上有人在演讲,可以推理这两个人在听报告;第三,关联和推理。我们不难发现了场景之后,应该做什么样的判断和执行,通过场景行为动作的理解和分析,来预设下一步应该做什么。
在细颗粒度的差异上,经过大量数据训练,机器练就了“火眼金睛”:当你在路上看到一个行驶中的汽车,可能并不知道它是哪年生产的,甚至不知道它是哪个型号,机器通过大量的数据学习后,可以把这些精细化的差异有效地分辨出来。
在无人驾驶领域,视觉智能用来解决交通场景分割、目标探测、目标速度、目标距离、障碍物检测等问题。比如识别车道线和可行驶区域,哪条线是我要走的,哪条线是别人要走的,前面是否有红绿灯,周围是否有行人或障碍物。机器学习最大的难点是,面对没见过的事物就手足无措,这时就需要让其跑更多的路,“喂到”更多的场景数据。这里也涉及AI的边界和局限,机器跟人还是有差异的。如果在数据标注过程中要识别一辆只露出1/3或者更少画面的车,在机器学习领域称之为困难样本,机器学起来就会特别困难,所以在训练机器的时候,为了能够更好的保证识别准确度,必须要给它很清晰的模型。
无人驾驶通用很难,简单的场景就是公园园区或者码头,点到点的路线和场景基本是单一和固定的,所以就不会有太多安全事故,而在交通复杂的场景下,就变得异常困难。因为除了需要感知,还牵涉到决策的问题,前一段时间出了一个新闻,无人驾驶的特斯拉行驶中撞上了一辆白色货车。特斯拉有8个视觉摄像头,为什么还撞了呢?因为它的视觉无法测距,也没有推理和常识能力,把近在咫尺的白色货车看成了远在天边的一朵白云,结果就发生了交通事故。
还有用于交通信息的采集,应用场景是车的识别。识别的特征包括车停得歪不歪、司机的行为(有没有打电话、有没有抽烟、有没有系安全带)、车的挂件摆件、车的类型品牌等。
▲车纹识别系统目前已可以精细识别5000多种车型车款,检索假牌和,协助公安部门快速查找嫌疑车辆、帮助交通部门做违章车限行、大货车收费等管理(图源:中科视语)
识别车是否套牌是应用最广的,通过对类似人类指纹一样“车纹”的身份识别,能够迅速地查找到真牌和假牌。可能拍一张照片,就能了解这辆车的载重、排放是多少。通过一个摄像头,就能够直接进行多种角度对车的属性、身份、行为的识别,知道每个车的行为轨迹。
在大众传媒领域,目前应用比较普遍的是,在一个播放器上叠加一个透明播放器,通过预估摄像头的运动轨迹,把目标做有效替换,来做场景广告的植入。
电影行业里,未来虚拟的合成演员数量也会因此而增长。通过人脸上的256个关键点,精确地拟合出XYZ轴的角度,把人脸肌肉的运动用注意力模型来模拟真实演员的动作。合成演员的优点是能集所有优秀演员的表演特征为“一脸”,而且成本也比较低,所以未来市场空间巨大。目前一些电视台也有了自己的虚拟主播,它的声音是合成出来的,人脸的表情也很自然。
应用在体育领域,比如NBA勇士队当年夺冠,数据分析就出了大力。一个篮球场有六个相机,对球员进行识别和分析,比普通的识别难度大。除了要精准地定位每个衣着相同的球员的行为和轨迹,判断每个球员分别跑了多少公里,起跳多少次,多少次投篮,多少次持球,多少次运球,还要对其进行精准的数据分析,制定应对战术。视觉智能技术也将应用在北京2022年冬奥会,对各种冰上运动中运动员的动作标准化做多元化的分析,应用场景非常多。
通用的物品商品识别,现在应用得慢慢的变多。很多无人商店智能货架都是靠视觉来识别商品,每个重量不同的商品下面都有一个重力传感器,通过人进去之后抓取的动作实现人和商品的精准绑定,其他应用也包括一些智能家电。比如智能冰箱食品生鲜识别系统,你打开冰箱门的时候会自动拍照,识别冰箱内的食物,分析食物中的营养成分,告诉使用者应该吃什么。当然,目前也仍存在一些识别难点,比如土豆和姜、苹果和梨,机器有时就难以做到“窥一斑而知全豹”。
另外,这也会牵涉数据隐私等问题,今年的3·15晚会就曝光了一些通过数据侵害用户隐私的案例,目前我国也为此成立了人工智能治理专业委员会来保护个人隐私,防止大数据杀熟等行为的发生。
身份识别是大家见得最多的。通过人脸、年龄、性别、姿态、衣着进行身份识别,虽然目前判断人的情绪方面精度还不是非常高,但已能通过呼吸时人脸部血管的伸缩变化,精确“看见”这个人的心跳和呼吸次数。
当下是人工智能加快速度进行发展的阶段,现有条件下数据爆炸性地增长,人工智能也会在数据的偏见里形成智能的偏见。像中国的人脸识别系统,比起其他人种,对黄色人种识别效果就更好,因为学习的数据样本更丰富。
视觉智能技术在所有的领域里的辅助应用也慢慢变得多。工业质检和农业也是视觉智能应用非常多的领域,通过替代人工的重复性劳动来提高生产效率。iPhone的生产线个工人,其中很多特别精细的操作,是目前机器搞不定的,但一些重复性的质检过程,就能够正常的使用智能化检测来代替。
我所带领研究团队的一些技术成果,也在央视一些节目中进行了展示。在央视《加油!向未来》节目中,我们团队的机器人守门员挡住了130公里时速射过来的足球。130公里时速射过来的足球是什么概念?如果是真人守门员,这威力足以把人打穿。这里的上限在于电机的响应速度,从这一点看,机器有时候比人要厉害,如果用机器人守门员的话,中国足球的大门就非常安全了。
可以说,目前人工智能技术还处在爬升期。视觉、文本、NLP、自然语言、感知技术已相对来说还是比较成熟,只要数据足够多,场景的边界掌控得比较好,就会发展得更为迅速。生物芯片、全自动驾驶、下一代脑机接口、量子计算等领域可能还需要二十年,高性能芯片也还有很大的发展空间,现在还处于高速成长期。
2017年,人工智能作为独立的学科,中国科学院大学设立了国内第一个人工智能学院。目前在国内人工智能领域,中科院自动化所是中国最强的单位,所里的模式识别国家重点实验室排在全球第七位,培养了很多人才。人工智能学院招生也特别火热,成长的空间非常大。
未来几年,机器人的理解能力、行为分析、地图定位的能力将越来越强。三至五年后,家务机器人可能会成为每个家庭的普遍配置;十年左右,随着机器人情感学习能力的提升,它也可能成为人很好的陪伴。通过日常生活中的观察学习,可能你回家只给机器人一个眼神,它就知道怎样为你提供最好的服务。
认知智能现在还没有看到,但随着未来机器人的数据不断增加,等到它自己能主动获取数据、加工数据,优化自己模型的时候,机器人可能就有了意识。当机器人有了自我意识,有了推理能力的时候,就会涉及到生命体如何定义的问题:机器和人的区别在哪里,机器什么时候是生命体,机器人是不是有生存的价值观,是不是有它的权利、能力、生存的空间⋯⋯这些都会带来很大的挑战。
随着智能技术的发展,人类要管控机器的边界,使机器有效地为人类服务。在技术发展中人类如何管控智能,人和机器怎么和谐共存,在智能制造领域、无人驾驶领域,在操作机器过程中如何保证人的安全,对人工智能的安全管理也非常重要。
从技术角度来讲,当下语音技术很成熟,但囿于方言、噪声、专业度等问题,语音识别还有一定的限制。相对而言,图像识别的应用会更多,只要人眼睛可以干的事,都可以用AI代替,视觉是主流应用的落地场景。安防行业中的车辆数据提取、医疗行业的影像诊断、电子商务行业中的精准营销,以及辅助驾驶都为图像识别技术提供了许多落地变现机会。
从行业角度来看,安防是AI在中国最容易变现的行业:中国的城市管理者已经积累了强大的视频数据采集能力,交通拥堵和反恐等应用场景又急需最先进的人工智能技术。互联网广告和电商蕴含大量数据,也为AI在这两个领域的应用提供了广阔的资源和空间。比如2020年新冠肺炎疫情期间,电商外卖业务成倍增长,通过数据优化外卖行进路径,效率变得更高。“电动化+智能化”重构了汽车的生产的全部过程,许多工厂都是机械臂加自动化流水线进行智能生产,在这一领域,计算机视觉的应用空间也非常大。
从理论发展上,AI将从感知智能向认知智能发展,通过编码进行快速计算,降低功耗,从“后深度学习”到量子计算,从情感计算到伦理思考,让机器做到“察言观色”。从产业高质量发展来看,会从人脸识别慢慢向各行各业延伸,在各领域百花齐放。软件、芯片、算法、5G⋯⋯特别是5G大幅度提高通信带宽后,怎样把软件算法芯片和5G融合到一起是产业高质量发展的重要潮流。
在未来,“人机耦合,取长补短”的状态将是一个长期过程,让我们继续期待智能产业不断改变我们的工作和生活方式,谢谢大家。