何搏飞表示,我们大脑所接收80%的信息都源自视觉,同时大脑中接近一千亿个神经元,绝大多数只做一件事情,就是处理我们的视觉信息。
为什么我们是一步步地从文字,发展到声音,最后才到动态视频?何搏飞认为,就是因为动态的视觉信息是最丰富,但也是最复杂的。
那么机器有没有视觉?何搏飞表示,实际上在很多领域,机器视觉已经在改变我们的生活,他举了微软体感游戏的例子说,当我们做各种动作时,它会理解我们的行为,配合多媒体的体验,让我们有种互动和丰富的感受。
机器有了视觉之后会产生什么影响?何搏飞分享了几个案例来阐述,机器视觉可以给予我们一个更加互动、更加健康、更方便快捷的世界。
格灵深瞳创立一年多就拿到了两轮融资,去年获得了红杉资本数千万美元的A轮融资。比尔·盖茨访华时还专门造访了格灵深瞳。何搏飞毕业于美国斯坦福大学,他和联合发起人赵勇的愿景是将格灵深瞳打造成一家千亿级的人工智能公司。
以下是整理的何搏飞的演讲实录:大家好!“Vision”这个单词在任何一本英汉词典里,第一条解释就是视觉,视觉是什么?视觉是一种感知能力。我们人身上一共有五种感知能力,包括视觉、听觉、嗅觉、味觉和触觉。
余凯博士刚才讲到人工智能的本质就是自主学习的能力。我们人的大脑之所以这么聪明,这么复杂,这么高级,主要是因为我们人可以自主地学习,而自主学习要源自这五种感知能力。[page]
这五种感知能力中,我们大脑所接收的80%的信息都来自视觉,我问大家一个问题,如果我们不得已放弃四种感知能力,只保留一种,你会保留哪一种?
我相信在座的很多人答案跟我一样,你会保留视觉信息。大家有没有想过为什么?我们都知道有这样一个数据,我们的大脑分成两半,左脑和右脑,左脑是理性,右脑是感性的,是有创造力的。
还有一个数据可能大家并不知道,我们大脑有接近一千亿个神经元,绝大多数只做一件事情,就是处理我们的视觉信息。大家想想当我们休息时,会做什么,通常会闭上我们的眼睛,所以每一天当我们的眼睛睁开时我们在主动或者被动地接受大量的复杂信息。
大家知道,我们人类主要是通过学习来成长,智慧也是在这样的过程中提高。那么分享知识就很重要。从几千年前开始我们人类就把文字编辑成书。但文字承载的信息量是有限的,我们还希望它更加的丰富多彩。
所以到了100多年前有了电话,我们大家可以远距离的让听到我们的声音,后来我们就了广播,终于几十年前我们有了电视,到了十年前最近最近一段时间各位明白在网络带宽成为可能的情况下视频网站才成为可能。
为什么从文字,到声音,到视频,一步一步到几千年前,到最近几年,才能随时随地的分享动态的画面视频?无另外的原因,就是因为动态的视觉信息是最丰富的,也是最复杂的。
当我们讨论人工智能,讨论计算机、机器是否有学习能力时,我们第一步要问自己一个问题,那就是机器有视觉吗?我必须要这样讲,在今天绝大多数场合下,对我们绝大多数人来说,机器是没有视觉的,机器是瞎子。
你们可能会反对我,会说我在用手机拍照,我的电脑上也有摄像头,大街小巷有这么多摄像头,难道它们不都是机器的眼睛吗?难道这不是视觉吗?但是大家想一想,当我们拍了这些照片视频,最终计算机看懂这些视频照片了吗?
我们把它存下来,不管是单反相机、摄像机,拍完以后,最终还是要人处理这一些信息。为什么?因为在绝大多数情况下,电脑是无法处理这种复杂信息的。
机器视觉给予我们一个更加互动的世界但今天我也要对大家说,实际上在很多领域,机器视觉已经在改变我们的生活。当我说到这儿时,可能很多人马上会想到的第一件事情是微软的体感游戏,当你做各种动作时它会理解你的行为,配合多媒体的体验,你会感受到互动和丰富的感受。
所以,当机器有视觉的时候,首先带给我们的就是一个更加互动的世界。在这儿我给大家看一段特别有意思的视频,我的朋友黄沙,就用微软的这个传感器拍了一段动感的视频。我们大家都知道,好莱坞电影和美剧在制作的步骤中会有一个绿色的背景,它就是做一件事情,就是把人和背景区分开,这样后期制作时,就可以把绿色背景换成任何的场景,但有了三维计算机视觉,任何在座的每个人都能超越好莱坞特效师,更好地完成精彩的动画,这只是个简单的例子。
当机器有了视觉以后,还会给我们大家带来一个更加健康的世界。举个例子,在我们做心脏手术时有一件特别痛苦的事。各位明白,人的心脏是唯一不能够被麻痹使它静止的器官,只要人活着心脏就会不停的跳动,在跳动的心脏上做手术难度是非常大的。
所以,很多时候当要对心脏做手术的时候,医生做的第一件事情是通过医学的手段让心脏停止跳动,然后用最短的时间做完手术再让心脏重新起搏,但将有30%心脏将会永远不能再跳动起来。但如果有一种技术使医生在跳动的心脏上做手术将会挽救很多人的人。
大家想一下,人的心脏跳动是非常有规律的,如果手术刀可以跟心脏同频率振动,医生通过摄像头看到的就是相对静止的心脏,那时动手术就等于在静止的心脏上做手术。
这个画面上,白色的网格就是要做手术的区域,通过计算机深度视觉,已经把它稳定下来了。心脏手术很多人看了可能会不舒服,所以我们做了这样一个演示,医生给葡萄剥皮,这在国外已经应用了,我相信不会很久中国也会应用。
机器视觉创造一个更方便快捷的世界刚才余凯博士也谈到了无人驾驶汽车,大家想一想,当无人驾驶这一天来临时,我们将有一个更方便快捷的世界。各位极客可能对刚刚过去的2015美国电子消费展CES有更深刻的印象。
除了智能硬件以外,应该说2015年今年是无人驾驶的元年。奔驰、宝马、尼桑,几乎所有的车厂都在今年推出了自己无人驾驶汽车的计划,很多车厂宣称在2020年,就是五年以后,他们的无人驾驶汽车就会跑在大街小巷。
我在这里有个判断,我自己觉得,无人驾驶汽车,将会是第一个真正被人类大规模使用,且对人类生活产生颠覆性影响,真正意义上的机器人。因为当汽车可以无人驾驶时,它对我们来说才是一个真正智能,不需要人为干预的机器人。
大家可能都看到过左边这辆汽车,它实际上的意思就是Google的无人驾驶汽车。Google应该说是到现在为止全世界第一个让无人驾驶汽车在人类的公路上行驶超过100万公里的公司。
我曾经跟Google无人驾驶汽车负责人聊过,当时我开了个玩笑,你们Google无人驾驶汽车业只敢在美国这样的城市测试,敢来北京测吗?他当时告诉我,无人驾驶汽车这件事情要成功,最大的障碍和挑战只有一个,那就是计算机视觉。[page]
大家想一想,控制汽车的方向盘、油门、刹车,这些事情简单的传感技术就能解决,甚至如果是一个纯电动车的话,可能一个软件就能解决。告诉汽车,从A到B你的目的地在哪,这件事情GPS就可以解决。
但面对路上发生的一切,可能很多人也学过,所以大家都知道,特别是现在自动挡的车,要把车开起来很容易,开车真正难的是怎么样应对路上各种复杂的状况,而这些需要的就是视觉的感知能力。我们想一想,假如没有视觉感知,你如何知道前面有行人在穿越马路,必须要依靠计算机视觉。
大家可能也知道,格灵深瞳是把计算机视觉技术应用在监控领域的公司,为什么到处有这么多摄像头,连接到监控中心,有很多人盯着它看,为什么还需要计算机视觉,我们应该人工智能做这么多事儿吗?
我在这里给大家假象一个场景,如果让你在你自己家里,你在看电视,比如时下特别热门的一部电视剧,在很认真的看,这时又把ipad摆在前面观看意甲联赛,同时你的朋友还在给你发微信,三个屏幕。
我跟你打个赌,给你10分钟时间,10分钟以后我随机考你这三个屏幕的内容,我相信在座很少有人跟我赌,为什么?因为三个屏幕展示的东西动态画面的时候,对人来说信息太复杂了。
但想一想,安保中心监控室面对的是这样一个屏幕,我看了很多美剧电影,有那么多高端技术,我能告诉大家,我曾经参观过拉斯维加斯所有大赌场后台的监控中心,跟中国任何一家普通银行的监控中心没有一点区别,都是这样一个大屏幕,几个人盯着这个屏幕在看。
我自己在监控中心呆过可能超过100个小时,我当时去的时候正好是世界杯期间,保安们大多数在玩儿手机、看球赛,但相信我,如果让你们去,这不是职业道德的问题,人类是有极限的,当人盯着这样一个大屏幕看,超过10分钟时,说实话你其实跟什么都没看一样。
所以大家想象一下,现在屏幕上所显示的一共是10个大屏,每个大屏16宫格,也就是160路视频。北京机场就有几万路视频,也就是说,如果把每一路视频放一分钟把这些视频轮一遍,就需要5万个小时。所以,发生事情能看到吗?
每时每刻,每一路视频我们都把它存下来,最后我们当证据用。是的,但你想一想,这么多路视频无时不刻都在存,全世界每卖出两块视频,其中有一块就是卖给安防监控视频的。当有这样海量数据的时候,人类如何处理?
所以大家想象一下,如果我们大家可以把每个摄象头,都换成一个智慧像小机器人一样帮我们盯着,当发生问题的时候就可以第一时间预警。所以,当我们的机器有了视觉的时候,我相信我们大家都能清楚看到,我们的世界会变得更好。
但是当世界变得更好时,我们人会变成什么样呢?可能你会说人会变得更高、更快、更强,那是奥林匹克精神,其实在我看来,我自己觉得我们人的愿望,其实一开始就跟更高、更快、更强是相反的,我们有时候经常说越是说什么越是代表不具备什么。
我自己有个观点,我总觉得,人类从一开始所有技术进步的唯一源动力,就是把自己解放出来,或者说的更直白一点,就是让自己会变得更懒。
今天有很多服务都可以上门,O2O上门美甲、洗车,所有事情都是把人类解放出来。每次重大的技术革命,比如17世纪的蒸汽机革命,19世纪的电力革命,近代的信息革命。工业革命发生以后,机器能开始取代人类做一些简单的体力劳动,我们的四肢被解放出来,去到一个地方不再需要走路去,可以坐车去。
随着电力革命、信息革命,到今天大脑一部分功能都已经被计算机所替代。比如我们要去做运算的时候,我们大家可以用计算器,电脑、手机也能够在一定程度上帮助我们记忆、存储。
但是我觉得,这就是为什么我总觉得,人工智能这件事情一定会实现,因为从潜意识里,人一定会不懈的朝着这个方向努力,因为对人来说,最终最难被解放的两个器官,一个是眼睛、一个是大脑。
也曾经有人问我说,大家可能也都知道,马斯特和霍金都对人工智能发表了很多,人工智能成熟以后是不是有很多人会失业?
我对这样的一个问题是这么看的。技术变革时,都会迫使我们做更有创造力、更高级的事情。举个例子,比如农民工进城,过去做农活这是个相对来说更简单的体力劳动,而当这样的体力劳动被机械化所替代时,我们的农民工来到城里,他们做了泥瓦匠、水电工、月嫂,他们挣的钱比我们很多人都多。
而未来人工智能替代人做更多事情时,人会逼迫做更高级的事情。而人能做什么呢?去交流、去分享、去进步、最终去进化。所以人做的所有事情,最终就是想实现一件事情,那就是人工智能,把我们的大脑彻底解放出来,让人自由自在地做有创造性的事。
今天我们这个论坛的主题叫X论坛,“Vision”这个词的第二条解释是“远见”,也就是在未看见的时候,就能通过想象力看到未来。今天我希望我们大家在一起分享,能跟我一样,看见未来其实就在我们眼前。谢谢!
在无人驾驶领域,华为早有准备。近日,华为技术有限公司公开了一项名为“自动驾驶人工接管的预报方法、装置及系统”的发明专利,它能大大的提升车辆行驶安全性。该专利申请日为2020年4月10日,公开日为2021年5月4日,当前简单法律状态为“审中”。 华为公开“无人驾驶人工接管”相关专利 根据专利摘要,该专利涉及一种无人驾驶人工接管的预报方法、装置及系统。方法有:第一车辆检测到第一车辆存在人工接管需求时,向第二车辆发送第一消息,第一消息包括:第一车辆的第一位置的信息,第一位置的信息用于指示第一车辆检测到第一车辆存在人工接管需求时所在的位置。使得第二车辆接收到第一消息后,向第二车辆的驾驶员预报第一位置处在大多数情况下要人工接管车辆,使得
人工接管”相关专利 可提高安全性 /
以AlphaGo为分水岭,中国的企业发生了一次从“互联网+”到“AI+”的转型。各个行业都在思考,基于大数据分析的AI究竟能带来怎样的改变。如果说2016年是AI概念的兴起之年,2017年则是AI落地之年。 在显示技术领域摸爬滚打了48年的海信集团,因为家电业务而家喻户晓,但是它在医疗领域的探索却鲜为人知。借着5月15日,在上海开幕的第77届中国国际医疗器械博览会(CMEF),海信医疗向外界展示了自己在AI领域的另一面。 5大核心设备,解决医生痛点 在本届博览会上,海信医疗主推的“精准数字化手术室系统”包含5大核心设备:CAS/SID 、智能中控、一体化工作站、专业显示器、移动示教系统,涉及诊断、手术和术后的全部环节。 海信
据外媒报道,激光雷达科技公司RoboSense(中国深圳)推出了一款适用于低成本、大批量无人驾驶汽车的生产型激光雷达平台。该平台名为RS-IPLS系统,具有类似人眼的“凝视”功能。据悉,该系统价格大约是传统64线。 基于微电子机械系统(MEMS)固态激光雷达打造,该RS-IPLS通过将2D图像的底层硬件与专为无人驾驶开发的公司专有深度学习感知算法相结合,输出高分辨率色点云数据。该智能探测算法达到了目标水平信息,可实时、无延迟地调整感兴趣区域(ROI)的探测区域。 该RS-IPLS采用了RoboSense(速腾聚创)的RS-激光雷达-凝视技术(RS-lidar-Gaze):当系统的视野感知到感兴趣
汽车行业是用AI( AI )来模仿、增强和支持人类行为的前沿领域。利用先进的基于机器的精确定位系统,现在的半 无人驾驶 汽车和未来的完全无人驾驶汽车将依赖AI系统来执行各种任务。 根据Trac ti ca的最新分析,虽然无人驾驶将成为AI在汽车行业消费的主要动力,但AI在汽车行业的用例实际上要广泛得多,包括汽车人机交互(HMI)功能,如语音/ 语音识别 、驾驶员面部分析、情感识别和手势识别;维护和安全应用,如预测性维护、自动化交通客户服务、车辆网络和数据安全;和汽车个性化服务等。 总而言之, Trac TI ca预测到2025年汽车人工智能软件、硬件和服务的收入将从2018年的20亿美元增长到265亿美元,复合年
如何让人们驾车出行更加省心和安全,正成为各大车企的研发的重要内容,其中福特汽车围绕“人车生活”形成了许多好“点子”。福特汽车公司总裁兼首席执行官马克·菲尔兹(Mark Fields)曾表示,“作为一个以汽车产品和移动出行为核心业务的公司,我们正在业务的方方面面进行创新。”截止2015年底,福特汽车共提交专利申请近6000份,创下单年申请数量新纪录。发现,这些专利中,在智能驾驶以及车辆安全和汽车核心技术方面均有涉及,其中有7项颇有意思的“黑科技”。这种技术或许才处于概念阶段,但为福特汽车未来发展指明方向。 无人驾驶技术 在无人驾驶方面,福特汽车已拥有多项专利,这中间还包括去年申报的一套新型座椅。这套座椅可以实现
8月6日消息,锤子科技创始人、CEO罗永浩今天下午参加了2017极客公园奇点创新者峰会,在现场问答环节中,罗永浩透露了锤子科技的最新融资情况。“我们最近这轮融资大概10亿左右规模,这在某种程度上预示着我们从明年开始会向已经正规的。”罗永浩表示。接下来锤子科技会和全球正规的手机生产厂商一样,每年会推出5-6款产品,覆盖高中低三个档位。至于更具体融资信息,罗永浩称会在一两个月后的新闻发布会上揭晓。 在这场问答环节中,罗永浩对此前坚果Pro发布会上的情绪失控以及后续该机的销量问题进行了公开回应。罗永浩坦言,坚果Pro的实际销量会比知乎流传的20万台多得多,但又不及部分新闻媒体报道的200万台。 “希望我们大家原谅我,咱们不可以报假数字也不能报真数字,只能到一个阶
《华尔街日报》报导,继云端运算带动资料中心芯片需求后,人工智能(AI)应用场景范围扩大也为芯片业创造新商机,吸引辉达电子(Nvidia)、英特尔及超微等半导体大厂争相发展人工智能芯片。 研究机构IDC估计,人工智能软硬体市场正以50%的年成长率快速扩张。今年全球AI软硬体支出总额约120亿美元,IDC预期2021年将扩大至576亿美元。届时绝大多数支出将投入资料中心,而资料中心的处理内容将有四分之一是人工智能有关数据。 举凡亚马逊智能居家装置Echo、Alphabet旗下事业Nest开发的智能居家保全系统,甚至是脸书依照用户发文内容来显示相关广告的分析技术都是以AI为基础。 这类人工智能通常透过复杂演算式来提升电脑
【导读】“如果AI是新的电力能源,那么数据就是新的煤炭能源”。由于人工智能(AI)和深度学习的加快速度进行发展,到现在为止,影响了无数的生命,改变了大千世界,这些都是我们曾经在科幻小说中梦寐以求的。不幸的是,正如我们已看到的那样,目前世界上可消耗的煤炭资源濒临枯竭,许多 AI 应用系统基本上没有,甚至根本就没有可以访问到它们的数据。 新技术弥补了物理资源的不足,同样,也需要新技术来满足在获得很少数据的情况下应用系统依然能正常地运行。那么,N-shot Learning 就成为了这个异常热门领域的核心话题。 N-Shot Learning 你可能会问,到底什么是“shot”?问得好。“ shot ”仅仅是一个可供训练的实
快速发展,N-shot Learning 如何破解? /
计算机视觉之深度学习:使用TensorFlow和Keras训练高级神经网络
解锁【W5500-EVB-Pico】,探秘以太网底层,得捷电子Follow me第4期来袭!
有奖直播 与英飞凌一同革新您的电动汽车温控系统:集成热管理系统(低压侧)
德州仪器新发布符合 AEC-Q100 标准的 MSPM0 MCU,助力优化汽车车身控制模块设计
汽车慢慢的变成了现代人出行的必备工具,随着科学技术的进步,它不仅提供了便捷的交通方式,还慢慢的变成为未来生活的“第三空间”。驾驶者和乘客对汽车 ...
2023年12月21日,中国– 意法半导体发布了STM32 ZeST*(零速满转矩)软件算法。该算法运行在STM32微控制器上,让无感电机驱动器能够在零转 ...
英特尔 Gaudi2C AI 加速卡现身 Linux 驱动,消息称是中国版
12 月 20 日消息,今年 7 月,英特尔面向中国市场推出了一款 Gaudi2 处理器,主要使用在于加速 AI 训练及推理。据 Phoronix 报道 ...
12月19日,摩尔线程首个全国产千卡千亿模型训练平台——摩尔线程KUAE智算中心揭幕仪式在北京成功举办...
现代世界正逐渐采用更自然的人机界面(HMI)。我们不但可以与智能音箱交谈,还可以在纸张般的电子阅读器上阅读。电子科技类产品已是我们的数字 ...
Achronix提供由FPGA赋能的智能网卡(SmartNIC)解决方案来打破智能网络性能极限
站点相关:嵌入式处理器嵌入式操作系统开发相关FPGA/DSP总线与接口数据处理消费电子工业电子汽车电子其他技术存储技术综合资讯论坛电子百科