从学术研究到应用落地，这6位计算机视觉大咖在CV专场上都讲了什么？|CCF-GAIR2018|博鱼官网

编辑：时间：2024-09-25 点击：

本文摘要：(公众号：)按：2018 全球人工智能与机器人峰会（CCF-GAIR）在深圳开会，峰会由中国计算机学会（CCF）主办，、香港中文大学（深圳）主办，获得了宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，目的打造出国内人工智能领域最不具实力的跨界交流合作平台。

(公众号：)按：2018 全球人工智能与机器人峰会（CCF-GAIR）在深圳开会，峰会由中国计算机学会（CCF）主办，、香港中文大学（深圳）主办，获得了宝安区政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会，目的打造出国内人工智能领域最不具实力的跨界交流合作平台。CCF-GAIR 2018 沿袭前两届的“顶尖”阵容，获取 1 个主会场和 11 个专场（仿生机器人专场，机器人行业应用于专场，计算机视觉专场，智能安全性专场，金融科技专场，智能驾驶专场，NLP 专场，AI+ 专场，AI 芯片专场，IoT 专场，投资人专场）的非常丰富平台，意欲给三界参会者从产学研多个维度，呈现更加丰前瞻性与落地性结合的会议内容与现场体验。

6 月 30 日，CCF-GAIR 大会展开到第 2 天，计算机视觉专场如期举行。本专场由两大议题构成，分别是上午场“计算机视觉前沿与智能视频”以及下午场“计算机视觉与医疗影像分析”。本文为计算机视觉专场上半场的精选辑内容。在上午场的主题演说中，港科大电子及计算机工程学系助理教授、RAM-LAB 主任刘明参演主持人。

在他的串联下，港科大教授权龙、旷视科技首席科学家孙剑、云从科技牵头创始人姚志强、臻诸法科技 CEO 任鹏、云天励飞首席科学家王孝宇以及商汤牵头创始人林达华这些学术界、工业界的众多大牛展开了 6 场深度共享，既有计算机视觉技术的前沿研究动态，也有涉及技术落地的方向。首先登场的是港科大教授权龙。*香港科技大学教授、ICCV 2011 主席、IEEE Fellow 权龙权龙教授今天共享的主题是“计算机视觉、辨识与三维重建”，他主要从三个方面展开阐释，分别是计算机视觉的基础、计算机视觉的变迁与发展，以及计算机视觉近期的进展。他谈及，当下因为深度自学技术的发展，人工智能显得十分火热，计算机视觉作为人工智能的一个领域，也显得出现异常火热。

人工智能的目的就是让计算机去看、去听得、去读书，其中一个最重要的部分就是图像。权龙教授指出视觉是人工智能的核心领域，因为视觉占有人类感官系统的 80%，也是最难做的一部分。他甚至指出计算机视觉是推展人工智能“革命”的决定性技术。

接着，权龙教授非常简单总结了一下计算机视觉的变迁和发展。在上世纪70、80年代，计算机视觉有了最初的发展，权龙教授回应他很幸运地在80年代就参予了涉及工作，那时候主要做到一些非常简单的物体分类工作，通过一些特征点来做到。在 90年代至 2000年这段时间，变化再次发生了，以前都是萃取一些特征点，这些年大家开始回过头来看几何的问题，几何就是“三维重建”，这就推展了很多工作以点为基础，对点要做到叙述。

这是推展计算机视觉发展的一个很最重要的事情。到了 2012 年以后，计算机视觉转入到卷积神经网络（CNN）时代，该领域再次发生了翻天覆地的变化，基本上就是指特征到各种有所不同的算法，都被CNN一统。CNN有一个益处，它是末端到端的，它的构建是较为更容易的。

而在谈及计算机视觉的发展问题时，权龙教授回应，现在每个人都在做到辨识，但是它并无法代表所有计算机视觉，辨识只是一部分。如果要去做到一些交互和感官，必需再行完全恢复三维，所以在辨识的基础上，下一个层次必需南北“三维重建”。针对这个领域，权龙教授和他的研究团队早已做到了诸多的工作并获得了一定的成绩，在 4 月份，他们夺下了两个计算机视觉榜单的全球第一。

当然，目前在深度自学推展下的计算机视觉技术还有很多严重不足和挑战，必须更加多业内研究者大大去探寻，特别是在卷积神经网络发展回头到更高维度的时候。*旷视科技首席科学家、研究院院长孙剑紧接着是旷视科技首席科学家孙剑上台，共享了他眼中的云、末端、芯上的视觉计算出来。旷视科技正式成立至今已有 7年，仍然专心在计算机视觉感官领域。计算机视觉非常简单来说就是让机器能看，如果更进一步，机器能解读一张图像或者一段视频，我们能做到什么？针对这个问题，孙剑和旷视得出的答案是“赋能亿万摄像头”，让应用于在所有领域的摄像头都不具备智能，无论是在云、末端还是芯片上。

孙剑回应，旷视一直在研究计算机视觉的几个核心问题，还包括分类、检测以及拆分，分别对一张图、一张图的有所不同区域和一张图的每个像素做到辨识，其中，分类是尤为核心的工作。如果输出的是视频，则必须利用帧与帧之间的时间关系来做到辨识。

孙剑详细谈到计算机视觉的历史，在他显然，计算机视觉的发展就是研究图像如何 Representation 的历史。在80年代的时候，早期神经网络顺利运用在人脸和文字辨识上，但当时仅限于在这两个领域，所以很难去定义什么是图像 Representation。

2000年初，在深度自学风行之前，有一类方法较为热，那就是 Feature-based，在图片里提取Feature，然后对它展开分析，这是深度自学之前最差的方法。但这个方法仅次于的问题是它有两个缺点：其一，它是整体的非线性转换，向量的转换次数是受限的；其二，里面大多数参数都是人工设计的，还包括Feature。今天并转到深度神经网络，这两个缺失都被填补了。

其一是整个非线性转换可以做到十分多次，所以它有十分强劲的辨识能力；第二是所有的参数都是牵头训练的，这两点让深度神经网络确实需要获得十分好的效果。孙剑在微软公司时明确提出的152层的ResNet，第一次在ImageNet上多达了人的能力。从2012年开始，各种各样的Net经常出现了。

孙剑从计算出来平台的角度对这些 Net 做到了一个非常简单的分类，分别是云、末端以及芯片三个有所不同的计算出来平台。GoogleNet、ResNet 就是在云上；谷歌 MobileNet 以及旷视在去年明确提出的 ShuffleNet 则归属于末端这一类；还有一些 Net 则是在芯片上，比如说BNN还有旷视明确提出的DorefaNet。孙剑针对 ShuffleNet 的结构展开了更为详尽的讲解，该神经网络是专门为手机末端设计的。今年他们还设计了第二版的 ShuffleNet，舍弃了分组卷积的思想，而是引进了一个新的方法，用非常简单的结构来做到。

针对目前分平台分别设计涉及网络的现状，孙剑坚信未来不会有一个“MetaNet”经常出现，需要统一解决问题各个平台上的神经网络设计和优化问题。最后，孙剑非常简单讲解了旷视在云、末端、芯三个平台上做的计算机视觉的应用于，还包括人脸识别、车辆辨识、人脸缴纳、智慧安防、智慧金融等等。*云从科技牵头创始人姚志强云从科技牵头创始人姚志强随后上台共享了作为一家人工智能视觉方案公司对于行业的解读和公司的进展。

他指出人工智能仅次于的起到在于当作极大的计算资源、智力资源与广泛应用之间的桥梁。2015 年正式成立至今，云从科技已将企业的最重要定位瞄准在嵌入式领域，但对于人工智能技术、服务和生态的解读经过了很多思索。

姚志强指出，一家人工智能企业必须汇聚技术资源、数据资源、平台、入口和资金，才能以求较慢发展，一些成熟期的企业不会对外开放一些技术给初创公司，使后者以求在其中的某个场景耕耘。数据资源优势的累积也很最重要，另外还有平台资源，目前云从的很多人工智能服务通过云平台对外开放。目前，云从在数据领域正式成立牵头实验室提供行业内部数据，并在对应行业的内部获取训练和服务。

云从还与政府有大数据等合作。在银行方面，姚志强讲解，云从银行已是行业第一大人脸识别供应商，并期望夹住更加多生态银行获取原始的智慧银行服务。安防行业也有很多挑战，出于安全性考虑到，安防行业牵涉到到诸如信息提供、加密、解密等简单挑战。

未来，云从并非以定坐落于一家行业简化的公司，而是基于人工智能、嵌入式领域的公司，通过现有资源扩展更加多行业，将更加多行业和人连接起来。*臻诸法科技牵头创始人兼任 CEO 任鹏臻诸法科技 CEO 任鹏闲谈了如何打造出一款智能照相机产品。

臻诸法科技致力于将计算出来入视觉技术产业化，而智能照相机作为载体，早已在诸如智能交通、智慧社区、安防等各个场景中获得应用于。任鹏说道，一款全智能照相机，是要符合一个场景应用于感官必须的照相机，而有所不同领域对场景的感官市场需求各不相同。

任鹏用“金字塔型”叙述原始的感官应用于场景，底层是像素，中间是对象，最上层是不道德。但问题在于目前大部分应用于逗留在对象层，有很多还没解决问题像素层的问题，例如智慧城市用云端辨识结果做到决策，但前端图像模糊不清，辨识有误报，就不会影响决策乃至系统运作效率。

总而言之，构建这种智能照相机的落地还包括三个难题：光学、算法、生产。光学方面，目前智能照相机光学评测行业标准缺陷，只不过除了解决问题硬件、结构、热设计、光学等问题，ISP（Image Signal Processing，图像信号处理）是照相机的核心问题，智能照相机与普通拍电影照相机仅次于的区别在于，智能照相机的 ISP 研发核心要基于物体的感官。算法方面，在嵌入式设备上研发智能照相机，第一对于数据多样性、均衡性、场景适应性的把触十分最重要，第二芯片方案选型中有极大挑战。

生产方面，供应链是不能回避的问题。除了寄予厚望双目深度摄像头，臻诸法也在尝试多传感器融合等更加多的感官方案。*云天励飞首席科学家王孝宇云天励飞首席科学家王孝宇博士从其学术界到工业界的经历共享了有关 AI 应用于的最重要观点。

王孝宇博士 2012 年之后在 NEC 美国研究院展开无人车、人脸识别研究，之后与李佳等人牵头创立了 Snapchat 研究院，专心研究计算机视觉在手机终端上的应用于。重新加入云天励飞后，主要探讨 AI+ 新的警务、AI+ 新的社区、AI+ 新零售。

王孝宇博士指出，可以和人权利交流的强劲 AI 有可能要到一百年后才能构建，眼下的人工智能带给的更好是基础性能的改变，享有更加大量的数据，创建更加准确的模型，是目前人工智能的最主要进展。王孝宇博士以 Snapchat 与 Facebook 的竞争发展为事例，描写了一个观点，即技术发展的时间节点至关重要，技术不必须几乎成熟期才能落地，关键是获取用户接纳的产品；技术应用于必须寻找准确的角度和平台；算法不相等技术，数据的重要性更加引人注目。*商汤科技牵头创始人、港中文-商汤牵头实验室主任林达华香港中文大学资讯工程系助理教授、商汤科技牵头创始人、港中文-商汤牵头实验室主任林达华教授在计算机视觉专场上公开发表了演说。商汤仍然颇受资本的注目，大家都很奇怪这家创业公司为何能有这么大的吸引力。

林达华在现场回应，商汤能获得如今的成绩，必不可少其背后的香港中文大学多媒体实验室 18 年如一日的潜心技术研究。林达华提到海量数据、运用场景数据的累积，以及 GPU 的发展、计算能力大幅的跃居，获取了算法变革的基础，在这个基础之上带给了今天人工智能的顺利和计算机视觉技术在众多的应用于场景的落地。同时林达华总结了计算机视觉在过去几年的发展，他指出这项技术还有很多的事情可以做到，还有很长的路必须回头。他指出可以往提高计算机视觉技术的辨识效率、减少数据成本、以及提升辨识质量三个方向希望。

现阶段，计算机视觉还是以粗放型的方法在发展，依赖冲刷数据、冲刷计算资源，取得高性能。但未来还是必须更进一步展开优化，他共享了商汤在视频以及自动驾驶上的案例。此外，目前计算机视觉研究还是高度依赖人力展开标示，因此成本十分低。

林达华指出可以必要换思路，从数据、场景里面去谋求里面本身就蕴涵的一些标示信息。而针对计算机视觉辨识的质量提高方面，还有更好的技术可能性必须去探寻。原创文章，予以许可禁令刊登。

下文闻刊登须知。

本文关键词：博鱼官网

本文来源：博鱼官网-www.deceleratedenergy.com

网易有道副总裁金磊：AI+教育需长期演进，教学内容数字化是当前关键|CCF-GAIR2019“博鱼官网” 博鱼官网_LBDA第四次理事会议召开海外年会和共享教育列入2018年重点