读博期间,他凭实力夺得2012年度全亚洲唯一的计算机视觉领域“微软学者”奖;放弃百度、华为、字节跳动等头部企业的诱人高薪,他选择站上“三尺讲台”,成为深受学生喜爱的青年教师;他带领团队勇闯“高效率视觉目标识别”研发难关,与世界顶尖AI研究团队同台竞技,创造性发明空间稀疏的视觉自注意力模型,为计算机视觉研究领域“解锁”更多可能,收获过万次学术引用,入选国家青年人才计划。
他是华中科技大学青年学者王兴刚,从信心不足到敢于挑战,从建立自信到善于竞争,用“青春无悔、只争朝夕”诠释新时期青年科学家的中国自信。
近日,华中科技大学(以下简称“华中大”)与地平线计算机视觉联合研究中心为期四年的合作研究落下帷幕。4月2日,王兴刚团队关于《基于神经结构搜索的高效率人体姿态估计》论文获得了《计算机可视媒体》期刊2021年度最佳论文奖。
计算机视觉作为AI领域前沿研究学科,是一门关于如何运用照相机和计算机来获取被拍摄对象的数据与信息的学问,好比给计算机安装上“眼睛”和“大脑”,让计算机能够感知环境。
视觉识别是计算机视觉的基础问题,其研究目的是让计算机、机器人的“眼睛”能在图像视频中精确的定位出感兴趣的目标位置并确定目标类别,在无人驾驶、移动机器人、遥感影像分析、医学影像病灶定位等应用中发挥及其重要的作用。视觉识别作为关键共性技术,被纳入《新一代AI发展规划》。
目前,全球计算机视觉识别研究主要存在三大难题,即当前的深度神经网络模型难以准确灵活地刻画复杂的视觉场景特征,视觉识别模型依赖于完美精确的人工标注数据来进行训练和学习,方法需要的计算量大、功耗高,难以在低成本硬件上实时运行。
王兴刚带领团队历经四年研究,提出空间稀疏的视觉自注意力模型,为实现高效率的计算机视觉识别“解锁”巨大潜力,在图像视频语义分割、目标检测等视觉识别问题中被广泛采用。
此外,空间稀疏的视觉自注意力模型的影响力还辐射到生命科学领域,于2021年被《自然》封面文章蛋白质结构预测AI AlphaFold使用,有效解决了人工智能程序AlphaFold的内存爆炸和计算速度慢难题。谷歌DeepMind创始人哈撒比斯博士评价:“该模型的成功启发了采用注意力方法来解译蛋白质序列的探索。”
“一开始不够自信,当时的对手太强了。”王兴刚回忆,刚去微软亚洲学院实习时,与亚太地区一流高校的计算机学科博士生竞争微软学者奖学金。
让他没想到的是,一路过关斩将,最终成为亚洲区十位获奖的微软学者之一,也是唯一一个从事计算机视觉研究方向的获奖者。“这给了我莫大信心——我们华中大出来的学生,可完全跟业界顶尖选手过招,并争得一席之地。”王兴刚说。
博士毕业,有企业为他开出百万年薪。他却选择了留校,起步阶段薪资仅是企业的十分之一。在王兴刚看来,热爱是他做出这个看似“不划算”选择的原动力。
“国内当时从事这方面基础理论和方法的研究人员较少,它涉及视觉表达的底层问题。而国外研究机构在这个研究问题上具有特别强话语权,先发优势显著,且软硬件资源优越。”王兴刚说。
是否需要在这样一个极具挑战的领域与国际一流团队“正面刚”?是否能赢?带着这些疑问,王兴刚选择接受挑战。
刚开始,实验设备缺乏、团队经费不足、人手严重不够。王兴刚团队摒弃国外竞争对手做大算力大模型的思路,从数据高效和计算高效的思路实现独辟蹊径。
“从最开始的一穷二白、艰难起步,到站上国际舞台与世界顶尖同行同台竞技,从敢于竞争到善于竞争,我们是华中大精神的践行者。”王兴刚自信满满。
当前,新一轮科技革命和产业革命正在发生变革,这与我国高水平质量的发展形成历史汇。
王兴刚认为,加快发展新一代AI是“事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题”,是“我们赢得全球科学技术竞争主动权的重要战略抓手”,作为新时期青年科学家,理应当仁不让、一马争先,立足于“四个面向”,践行科研报国初心。“作为80后青年学者,我们经历了中国科研由弱到强的发展历史、由不自信到自信的心路历程。”在王兴刚看来,科研自信是土生土长的中国学者的自信,是关于中国科研体系的自信,是“四个自信”在科研领域的集中体现。