百度计算机视觉首席科学家王井东：在视觉的竞技场，研究与落地没有明显的界限

智能设备 2022-08-12 10:16:30 转载来源: 网络整理/侵权必删

在王井东看来，百度搜索引擎、自动驾驶、智能云、小度等等不同的业务线中，有共同的视觉研究难题。作者 | 陈彩娴、李梅编辑 | 岑峰去年年底，2022年 IEEE Fellow（全球电子与电气工程领域最高荣誉）名单发布，有人在知乎上评论：「王井东老师终于当选了，实至名归

在王井东看来，百度搜索引擎、自动驾驶、智能云、小度等等不同的业务线中，有共同的视觉研究难题。

作者 | 陈彩娴、李梅

编辑 | 岑峰

去年年底，2022年 IEEE Fellow（全球电子与电气工程领域最高荣誉）名单发布，有人在知乎上评论：

「王井东老师终于当选了，实至名归。」

在中国计算机视觉领域，王井东几乎是一个无人不知、无人不晓的研究者。在学术圈，人们会讨论他在 2019 年视觉算法数不胜数之际仍能占据群雄的 HRNet（一个用于视觉识别的高分辨率神经网络）；在工业界，他在微软亚洲研究院（MSRA）视觉计算组的工作多年，后加入百度，负责视觉领域的技术研究工作，为百度的多线业务提供视觉技术支持。

图注：王井东

无论在学术研究还是技术落地上，王井东都取得了不错的成就。至今，他的谷歌学术被引数超过三万次，对于主要为解决产品问题而开展科研工作、发论文只是「茶余饭后」之消遣的企业科学家来说，这是一个相当难得的成绩。

据雷峰网近日与王井东的交谈，王井东认为，百度的搜索引擎、自动驾驶、语音助手等等不同业务线虽然场景应用有所差异，但彼此之间也存在共通的视觉问题。他从微软离开，加入百度，一方面便是看中了百度这个能够研究贯穿不同场景的独一视觉问题的平台。

王井东凭什么引领百度的视觉研究？百度的视觉布局又将朝着什么样的方向发展？

与天才同行

江苏人王井东是一个名副其实的理工科学霸。

他的本科与硕士就读于清华大学自动化系（国内最早研究人工智能的院系之一），硕士导师为张长水，张长水的学生里就包括目前的阿里巴巴技术副总裁贾扬清。博士阶段，他就读于香港科技大学计算机视觉与图形实验室，该实验室走出来的视觉大拿包括思谋科技创始人贾佳亚、旷视前上海研究院院长危夷晨、AutoX 创始人肖健雄、阿里巴巴前计算机视觉首席科学家谭平等人。

走出校园后，他加入微软亚洲研究院。从微软亚洲研究院出来的知名视觉研究者包括沈向洋、汤晓鸥、孙剑、马毅、屠卓文、华刚、何恺明等人。到微软亚研实习的青年学生对王井东的评价是：「井东老师对细节要求非常严格，是一个非常严谨的科研工作者。」

在谈到当初为何会选择研究计算机视觉时，王井东就告诉雷峰网，那时一个主要的契机是2003年他在微软亚研跟着沈向洋实习时，尽管视觉的热浪还未在中国掀起，但周围许多优秀的人都在研究视觉，这使他自然而然地觉得：在未来，计算机视觉一定是一个潜力无限的发展方向。

所以，2004 年硕士毕业后，在沈向洋的推荐下，他就去了香港科技大学读博，师从权龙做视觉研究。

值得一提的是，权龙与沈向洋都是早期进入视觉领域的中国科学家。权龙早年在法国国家信息与自动化研究所取得博士学位，法国是欧洲视觉研究最重要的发源地之一，权龙得天独厚，吸收了许多前沿的视觉知识，在 2001 年回到香港科技大学建立视觉实验室（即 VisGraph），该实验室与汤晓鸥在香港中文大学建立的多媒体实验室（MMLab）是早期代表中国学者参与国际视觉顶会的中坚力量。

图注：王井东（右）与博士导师权龙（左）

王井东告诉雷峰网，他在清华与港科大的两段学习经历都对他产生了较大的影响。

1997年，王井东考入清华大学自动化系，本硕连读。自动化与视觉研究在外界看起来似乎毫无关联，但据王井东介绍，视觉与自动化及控制的渊源十分深厚，这体现在两方面：一是机器人等硬件控制中视觉对识别、定位与导航的重要作用（近年来如日中天的自动驾驶离不开视觉感知算法便是一个典型的例子）；二是清华自动化系早期有许多研究模式识别的学者，王井东的硕士导师张长水便是其中之一，而张长水的导师是中国科学院技术科学部委员（院士）常迥教授。

据王井东介绍，在他读硕士期间，神经网络还没火，但他的导师张长水就已经在神经网络方向做了许多出色的工作。2000 年，张长水与阎平凡合著出版了《人工神经网络与模拟进化计算》一书。张长水还曾邀请一些国外的学者到清华全英文讲授神经网络的前沿课程，王井东由此第一次了解到用来训练多层神经网络的反向传播算法及其工作机制。

2004年，王井东和同学李建国就在张长水、边肇祺的指导下，在人工智能国际顶会 ICML 上发表了“Probabilistic Tangent Subspace: A Unified View”一文。要知道，当时能在 ICML 之类顶会上留名的人，可是屈指可数。

王井东告诉雷峰网，那时他在模式识别方向学到的许多知识，对他如今做研究仍有重要影响。例如，当时模式识别中一统天下的「核方法」（Kernel Method），如今虽然已经很少用于视觉研究，但「核方法的思想仍然存在于今天的深度学习中，人工智能领域现在用得比较多的 Transformer 架构在某种意义上也与之相关」。再如矩阵分析方法，如今被用在注意力加速的任务中，王井东本人也用矩阵分析来研究将平方级的复杂度变为线性的复杂度的方法，来优化速度。

去了港科大读博后，王井东的直观体验到的一个变化是，与清华的实验室侧重机器学习不同，港科大的VisGraph实验室最大的特色是：应用。实验室的研究方向都是计算机视觉或计算机图形学。在这样的环境中，王井东对视觉的理解也有了更多新的思考。

博士三年，王井东主要研究机器学习与计算机视觉，用图、半监督等方法处理图像分割问题。那时，虽然人在香港，但他与清华、微软亚研的伙伴都保持着密切的研究交流。2006 年，王井东与沈向洋等微软研究员的合作（“Picture Collage”），以及他与张长水的工作（“Semi-Supervised Classification Using Linear Neighborhood Propagation”），就一同被视觉顶会 CVPR 2016 接收。

当年的 CVPR 在美国纽约召开，王井东记得那时参会的中国学者已经不少。CVPR 是六月举行。印象中，许多中国学者吃不惯西餐，于是他们一行人就汇集了来参会的中国学者和当时在国外的中国教授和学生，大家一起去找中餐馆吃饭、聊研究与参会的见闻。

王井东是站在视觉腾飞的起点、并见证视觉在全球走向辉煌发展的一批研究者中的一员。在回忆中，他告诉雷峰网，那时选择计算机视觉真的并不见得是一个明智的选择。从大的视角回看，王井东无疑是一个少数者，但一个人的生活并不触及太广的半径，所以对青年王井东来说，他在视觉研究上并不孤独。

微软十四年：视觉技术落地

2007 年，王井东博士毕业，回到了北京，加入微软亚洲研究院。

王井东将他在微软亚研的研究分为两个阶段，也就是「7+7」（王井东一共在微软亚研工作了十四年）：第一个七年，他主要研究计算机视觉在多媒体搜索的应用；第二个七年，他的研究则聚焦在了深度学习和计算机视觉核心问题上。

第一个七年

2007年，多媒体搜索刚刚展示出需求与轮廓，当时的必应还是一个尚待开发的业务，沈向洋被分派到必应的研发团队负责技术。由于擅长计算机视觉，王井东被派去了解决多媒体搜索中的图像检索难题。

王井东向雷峰网介绍，那时图像搜索功能不尽如人意，如果用户想搜索一张「蓝天白云下，一只狗卧在绿色的草地上」的图像，在搜索栏里敲下这样一串文字时，搜索引擎大概率无法理解用户的搜索意图。为了解决这个问题，他与团队研发了基于草图的图像检索技术和开发一个用户交互的工具：用户可以画一个颜色草图，如用绿色来表达草地这一搜索意图，相比纯文本搜索方法取得了明显的效果提升。

这个思路并不新，早在上世纪就有基于草图的多媒体搜索方法，但用在商业搜索引擎上还是第一次。

王井东的一个体会是，在企业做研究，只有更好，没有最好。就拿上述这个例子来说，第一代用户交互方式还是繁琐，为了更简化，他和团队又继续开发了一种颜色过滤器来使用户交互更加简单：例如，如果你希望图片中的狗是蓝色的，那么就可以设置颜色筛选来获得包含蓝色的狗的图片。这项功能至今仍被应用于必应中。

围绕图像搜索，王井东从应用转向基础关键算法研究，取得了更大的成绩。

在搜索中，一个图像（即一个查询项）通常会被转化为一个向量，数据库中包含着成百上千亿的向量，如何快速搜索就成了一个问题。自 2009 年起，王井东开始研究搜索应用中的基础问题之一近似最近邻算法（Approximate Nearest Neighbor，ANN）。

ANN 搜索的目标是在一个定义的距离度量下，从数据库中寻找出离查询项的距离最近项。王井东观察到一个有趣的事实：如果一个向量靠近查询项的向量，那么这个向量的相邻向量也可能靠近查询项的向量。这个思路跟「六度分割理论」（小世界理论）类似，即世界上任何互不相识的两人，只需要很少的中间人就能够建立起联系。

受此启发，王井东设计了一种 ANN 搜索算法，以近邻图（Neighborhood Graph）作为索引来进行图像搜索。结果，该算法带来的搜索效果非常惊艳。王井东回忆，当时他还以为是测试出了问题，连忙又重复核查了一下，最终他惊喜地发现，这个办法比当时号称效果最佳的其他同样基于kd-trees的方法要好很多。2014年，这个算法已经应用在必应的图像搜索和广告中，是第一个在商业产品中成功应用基于近邻图的最近邻搜索算法。后来，微软的许多产品包括网页搜索也采用了该算法作为核心组件。目前，许多商业搜索以及推荐产品都采用了基于近邻图的近似最近邻搜索算法。

第二个七年

2014 年，在多媒体搜索上研究多年后，王井东将目光投向了另一个发展正热的新方向——深度学习。

事实上，据王井东回忆，早在 2005 年，他就已经试过用人工智能来解决实际问题。那一年，王井东还在香港读博时，他的一位清华师兄回国创业，将卷积神经网络（CNN）用于车牌识别，他在实习时也参与了其中。

探索初期，王井东的主要工作是把深度学习算法的端到端（end-to-end）性质拓展到一些新的应用上。不过很快，他就发现了一个更重要的研究课题：视觉网络架构的设计。网络架构的设计是深度学习的核心问题之一。当时许多人都在思考：如何让神经网络变得更深。

王井东从2015年开始，则思考利用神经网络解决分类以外的视觉问题。

2015年前后，视觉领域的普遍做法是使用图像分类的网络来解决分类以外的分割、检测、姿态估计等问题，如 2012 年的 AlexNet、2014 年的 GoogleNet、2015 年的ResNet等架构。但他发现，分类网络存在一个显而易见但始终未被提出的弊端：分类网络结构在学习高分辨率表示时，先将分辨率慢慢变小，然后通过上采样的方法在分割等任务中逐步从低分辨率恢复高分辨率，这种方法所获得的特征空间精度很低。

对此，王井东提出了自己的疑问：能不能不降分辨率而保持高分辨率？能不能不依赖分类网络？

那时大家未必没有同样的疑问，保持高分辨率的想法也并不复杂，但考虑到分类的网络已经训练得很好，用到其他任务中更容易训练，所以学术界与工业界都没有人迈出改变的一步。但是，不破不立，王井东心想，若能直接学习高分辨率的表示，一定能大幅改进视觉任务的解决。

经过两三年的思路酝酿，2018 年，王井东感到万事俱备，便领导团队开始着手设计一个学习高分辨率表示的通用视觉架构。2019年，HRNet 在 CVPR 上横空出世，惊艳众人。它是王井东在视觉研究上的又一大高峰，引用数在短短三年内超过了3000次。

论文地址： https://jingdongwang2017.gith

ub.io/Pubs/TPAMI-HRNet.pdf

HRNet 不再沿用以往的分类架构从低分辨率恢复到高分辨率的设计规则，而是让高中低分辨率不停交互融合，使高分辨率可以获得低分辨率语义信息较强的表征，低分辨率可以获得高分辨率的空间精度比较强的表征，能够从头就保持高分辨率。同时，由于 HRNet 不以分类任务出发点，所以也具有更强的通用性，广泛适用于分割、检测、姿态估计等位置敏感的一般视觉任务。这项工作发布以后，在学术界与工业界都引起了广泛的讨论。

王井东告诉雷峰网，HRNet 与他之前所提出的网络架构看起来相似。从 2015 年开始，他就采用多路（ Multi-branch）方法设计出了 DFN（Deeply-fused nets，深度融合网络）、IGC（Interleaved Group Convolution，交错组卷积）等视觉网络架构，HRNet 也同样采用了多路方法，所以有相通之处，但本质上，HRNet 展示了一种研究思维上的转变。

后来，HRNet 视觉网络架构被微软在内的许多公司采用，拿去解决实际问题，如自动驾驶、3D点云识别、人体姿态估计、卫星图像分割、OCR表单识别与检测等等。可以说，HRNet 兼顾了学术研究突破的优雅与解决实际问题的效用，是仰望天空，也是脚踏实地。

可以说，王井东虽然身处产业界，但并不受实际问题的约束。相反，他的例子证明，在工业界，杰出的研究者也能有科研上的创新，「工程师」也能成为「科学家」。他入选 2022 年 IEEE Fellow 的理由，就是对视觉内容理解与检索的杰出贡献。

截至发稿，王井东一共有 6 篇谷歌学术引用过千的论文，但他谈道：「在企业做研究，我们都是围绕实际问题出发，在解决问题的过程提出新的方法、新的思路。我更享受我的研究能够解决实际的问题。」

他还提到，在计算机视觉领域，近年来许多伟大的工作都是来源于工业界，而不是学术界。这说明，视觉领域的研究，也包含所谓的「感知智能」，要取得大的突破，必须要与实际的应用问题紧密结合，用实际需求指导学术研究。

走进百度视觉

从微软离开后，王井东选择加入国内人工智能研发实力最强的平台之一：百度。

作为国内最早押注 AI 技术的互联网企业，百度在多个热门的人工智能赛道都有布局：语言、语音、视觉……同时，百度的搜索引擎、自动驾驶、智能云、小度等等不同业务线，也为每一项技术提供了丰富的落地场景。

王井东向雷峰网坦诚道，他对不同方向里面的共性问题最感兴趣，比如，视觉研究中的检测与分割是 OCR 与自动驾驶都关注的问题，表征学习又是检测、分割、搜索等问题里的核心。尽管每个任务都有一些小的差异，但一旦从不同任务的共性问题中提取出基础技术，这项技术就能支撑多个应用。

他直接隶属于百度的技术中台，他的团队对内支持百度搜索、自动驾驶、智能云、小度等多个业务部门的视觉应用，对外通过飞桨和智能云赋能工业制造、智慧城市、智慧金融等产业领域，这一点很吸引王井东。他告诉雷峰网，「一干多支」，这也是他加入百度后开展视觉研究的基本思路。

从去年9月到现在，王井东在百度的时间不到一年，但在带领百度视觉发展上已经卓有成就。

作为一个浸润于卓越中成长的领军者，王井东对百度视觉目前最大的影响，可能就是对前沿研究趋势的把握与紧跟时代的实践，比如主推学术界与工业界都密切关注的、减少对数据依赖的自监督学习方法、以及视觉大模型。

在实际应用中，自监督学习带来的好处是显然的：它可以减少人工对数据的标注，降低劳动力成本，提升研发效率。在 2020 年的 ICLR 大会上，图灵奖得主 Yann LeCun 和 Yoshua Bengio 就曾摇旗呐喊「自监督学习是 AI 的未来」。王井东对自监督也表现出很大的兴趣和信心，他认为，自监督学习能够从未标注的数据中学到知识，这给了大家无限的想象力。

加入百度后，他带领百度团队与北京大学、香港大学合作，提出一种自监督表征学习算法：CAE（Context Autoencoder）、新型掩码图像建模（MIM）方法，这项工作已经开源在百度飞浆平台上。在百度 OCR 识别技术中，就采用了自监督学习算法 CAE，效果上取得了突破性的提升。

「自监督在 OCR 中的应用只是第一步，我们希望对通用的图像自监督学习有更深刻的理解。」王井东正在努力推进的一个方向，是对自监督学习做数据规模化，从大量数据中学到有用的知识，这也是整个业界关注的问题。在将来，他希望能够在因果关系、预测等更高级的认知学习方面有所进展。

王井东加入百度后的另一个成就，是打造通用的视觉大模型。在今年的 WAVE SUMMIT 深度学习开发者峰会上，他领导团队开发的视觉大模型发布，在百度文心大模型的版图中强化了视觉的一角。

在自动驾驶领域，王井东也带领团队开展了一些工作。例如，今年，王井东带领的百度视觉团队就与华中科技大学的研究人员合作，从端到端方案中的一个代表即 BEV（Birds-Eye-View）语义分割出发，提出了一个 GitNet 架构来解决自动驾驶中的感知问题。这项工作发表在了今年的视觉顶会 ECCV 上。

尽管加入百度的时间还不长，但上述的工作已足以诠释王井东在企业做研究「仰望星空、脚踏实地」的经验与精神。王井东本人也对雷峰网表示，在企业里做研究，有的人会说产品需求是一种制约，有的人也会说这是一种可以利用的资源，关键在于个人如何看待。

而从王井东的履历来看，显然他是看向了后者。

以下是雷峰网与王井东探讨视觉发展技术的部分问答整理：

雷峰网：基于未来几年的计算机视觉发展趋势，您在百度的研究规划是什么？您重点关注什么？

王井东：第一，从方法上讲，大家越来越趋于 Transformer 这个方向。Transformer 几乎统一了自然语言、视觉、语音等等不同的信号，大家都希望有一个统一的框架出现，这是我们关注的。

第二是规模化。你要处理更多的数据，那么你能不能从海量的数据中学到你想要的知识。归纳起来，就是数据量给你的知识规模，同时也包括模型参数的规模化。规模化是未来视觉里备受关注的一个方向。

第三个就是我刚才讨论的自监督，因为它给大家带来了无限的想象力。

雷峰网：您怎么看「通用人工智能」（GAI）？

王井东：我其实觉得现在谈通用人工智能还是有点太早了。从我们的路径来讲，我们希望一步一个脚印，把每个环节都弄透了，我们认为可以的时候，再朝着通用人工智能的方向走。当然每个人的观点是不一样的。

我自己很喜欢 Transformer。Transformer 里面最关键的是注意力（Attention）。为什么我喜欢它呢？很多年前，我跟权龙老师读博时，他就说，视觉识别领域最重要的就是两个点，一个是特征，一个是匹配。而 Attention 天然就是干这个事儿的。Attention本身就是一个搜索、匹配的过程。同时，在 Transformer 里面，它也是学习特征的过程。我自己看好Transformer 的一个很大的原因是，它把特征与匹配完美地融合到了 Attention 机制里。所以我觉得将来它有可能成为网络结构统一的助推。

另外，Attention 非常直观、可解释性强。以前大家都说 CNN 要往可解释性的方向走，要能解释一些网络结构，要费很多功夫去解释。但 Attention 可以直接告诉你，它本来就是可解释的，是非常直观的。

Transformer 作为 Backbone（骨干网络），真的比CNN有优势吗？这是个值得思考的问题。我们去年上半年做了一些工作，分析了 transformer 中 local (window) attention 跟卷积神经网络（特别是depth-wise convolution）之间的关系。

论文地址：https://arxiv.org/pdf/2106.04263.pdf

后来发表在今年的 ICLR（机器学习领域的一个重要会议）。这项工作应用了矩阵分析里面的一些知识，当你把 local attention跟 depth-wise convolution 写成矩阵的形式，就会发现它们很相像，某种意义上是等价的。我们这项工作表明，基于 local attention 的 Transformer，在结果和效率上跟卷积很类似，没有谁强谁弱。

前几年，我们还做过一个工作，提出了一个方法「OCRNet」（不是「光学字符识别」）。在这个工作中，我们就用了一个 attention 的机制去做分割，后来我们研究目标的检测方法 DERT，提出了 Conditional DERT 方法，发现其实 attention 工作的原理跟人去做目标检测的原理是一样的。

什么意思呢？我们在做目标检测时，直观上也要找到目标的 bounding box，即最上面一条边、最左边一条边、最下面一条边和最右边一条边，那我们怎么去找？我们人工去标注的时候是会找你最上面、最下面、最左边、最右边的那个点分别在哪，而 Conditional DERT 在检测时也是这样做的。这非常有意思，这也是为什么我觉得 Transformer 在视觉识别领域有可能成为一个统一框架的原因之一。

雷峰网：您觉得在百度研究视觉有什么独特的机会与优势？

王井东：我谈谈我自己的一些感受，每个人的感受可能是不太一样的。

对我来讲，我觉得，首先你在公司做计算机视觉，得有一个很好的应用背景，百度正好提供了非常丰富的应用需求。

其次，百度在计算机视觉上有很好的积累，2012年成立了多媒体部，2013年成立了深度学习研究院（IDL），百度有很强的技术积累。计算机视觉在今天离不开深度学习，而百度有很强的深度学习平台（Paddle Paddle），还有深度学习技术与应用国家工程研究中心。

第三点，就是百度有很强、很浓厚的技术基因，对技术有信仰。可能不仅仅是计算机视觉的技术，其他技术也是一样，很多有技术理想的人去做事情，这是我目前看到的一些特点。

雷峰网：谈谈您多年来做科研的感受。

王井东：科研创新是搜索的过程。科研创新本质上不是在创造新东西，事实上那些东西本来就在，只是被发现了。科研创新是寻找的过程，就像捉迷藏，只有不停的找，才可能找到答案。

勤于思考。创新就是做些未知的东西，没有现成的可以参考。这个时候需要思考，通过写作来深度思考、完善思考、修改思考，分享写作的内容以得到更加有效的反馈，最终提升做事的效率。

做事要够狠。更多的是对自己要狠，要有把事情彻底搞清楚的勇气和自己能够搞清楚的信心。也是跟自己过不去，在做一些自己不知道答案是什么、甚至可能没有答案的事情，这是一个经历无数次失败后才可以看到成功的过程。

持续关注有突出研究贡献的科学家与他们的工作，对该系列内容感兴趣的读者可以添加微信 Fiona190913 进一步交流。