云从科技:人脸识别技术照进产业场景的距离有多远AI+

来源:机器之心 / 作者:zz / 2018-06-10 22:20
在 2050 大会上,发起了一场以《AI 技术公司的活法和前景是什么》为主题的论坛,云从科技、体素科技、深瞐科技、声智科技、一知智能和 Udacity 分别谈了谈 AI 技术如何才能「落

5 月 25 - 27 日,在杭州,上千名志愿者、出品人完成了一场为年青人举办的大会。按照发起人阿里巴巴技术委员会主席王坚的说法,2050 是一个年份,不太近,充满想象,也不太远,我们都能活着看到。

 

在第一次听到「让世界离年青人更近,让年青人离世界更近」这样的办会理念时,我们想起机器之心用前沿科技内容聚合的全球 AI 青年,从在象牙塔里研究技术到毕业后面临创业、择业的选项,他们不仅应该关心技术走向,也需要了解因为这些技术的创新促成了产业正在发生的商业变革。

 

而那些被我们报道过的 AI 创业公司,大多恰好处于成长周期的少年或是青年阶段,如何生存和发展也同样是他们心头大事。

 

在 2050 大会上,机器之心发起了一场以《AI 技术公司的活法和前景是什么》为主题的论坛,云从科技、体素科技、深瞐科技、声智科技、一知智能和 Udacity 分别谈了谈 AI 技术如何才能「落地为安」。以下为第一支演讲视频——云从科技联合创始人温浩《人脸识别技术照进产业场景的距离有多远》。

 

要点速览:

 

  • 为什么选择人脸识别?人机交互的视觉入口,跟机器打交道必须知道你是谁,这是一个入口;这是一个市场足够大的 AI 赛道;人脸识别是天然的跨行业入口。

     

  • 我们应用时发现,学术和实验室的领先并不能带来你多大的落地优势。如果真正去做一个行业落地的方案,可能要非常多的技术模块累积,才能代入到你的值函数里面去,真正做到适应某一个场景,某一个行业的人脸识别的应用。

     

  • 算法的门槛在降低,这个门槛最多保持两年时间。

     

  • 巨头来了怎么办?保持各种技术的相对领先,尽量向你的上下游扩展,上游包括芯片、下游包括硬件和集成提供商,建立产业生态圈,去做跨行业的 AI+ 的行业大脑。

     

  • 今天其实是科学家创业最好的时代,大家可以看到现在所有 AI 企业的背景都有科技的背景。这是十年前很难想象的,十前年有很好想法,就可以做互联网创业,现在还要有科技的背景,这是资本对知识性人才的一个热捧。

 

 

感谢机器之心邀请,也感谢云栖大会,我讲的题目是:人脸识别技术照进行业场景的距离有多远,这是主办方给我规定的题目。

 

在 AI 的里面,我们有很多落地的想法,我们也把我们的经验给大家分享一下。

 

2014 年冬天的时候,我和云从科技的创始人也是我的大学校友,就是周曦博士,当时在中科院重庆院。

 

我们在思考到底做哪个具体的方向,云从当时还没成立。

 

我们当时的优势在计算机视觉,我简单列了 CV 可以做到哪些内容。

 

一个是物体识别,包括搜索变革,以图搜图,这个已经开始有了。然后还有生产制造,在生产制造过程中识别物体。

 

还有在交通领域识别汽车和物流的东西,这是物体识别这一大类。

 

另外一类是人脸识别。

 

现在可以看到很多人脸识别的应用,包括安防,包括娱乐,直播,广告营销,金融、社区,这是我们平时会碰到的运用。

 

CV 还可以结合其他的 AI 技术,比如说自然语言理解,人机交互,可以做一些自动驾驶或者 AR 方面的工作。

 

或者像刚才结合生物科技和医疗技术,做一个疾病辅助检测。这个应用就是计算机应用非常多的方面,我们知道 70% 到 80% 的技术是来自人脸识别。这是很大的一个方面。

 

当时,我们在中科院的时候,做了很多东西。

 

除了人脸识别,车辆识别,还有一个机器人模型试衣,给远程买家看一下,效果是如何。我们做了这些类似的应用。

 

但是,大家都知道,微软是在计算机视频和 AI 技术,各方面语音都做的非常好的公司,有很多大牛。周博士当时在微软亚洲研究员和西雅图做过访问,像微软这么牛的公司都没有完全在市场上做的非常好,也没有实现盈利,所以,我们 AI 初创企业不可能把资源都分散到很多点上去,要专注道一个点上面。

 

我们为什么选择人脸识别?

 

第一个,因为是人机交互的视觉入口,跟机器打交道必须知道你是谁,这是一个入口。

 

然后,市场也是比较巨大的,我们选一个 AI 的赛道就要选一个市场足够大,哪怕是很小的市场份额都可以获得一个比较大的盈利空间。

 

举个例子,微软鲍尔默评价谷歌和微软都是大的公司,但是,谷歌比微软更伟大,不是因为谷歌技术更牛,而是因为谷歌的赛道是在搜索和广告上,这是一个非常大的市场。

 

微软主要在办公软件上,操作系统这个市场没有广告市场这么大。

 

所以,他认为谷歌更厉害。当然,这是一方面的评价。

 

所以我们要选择一个大的赛道,才能保持快速增长。

 

第三个,最重要的是,人脸识别是天然的跨行业入口。在 AI 技术里面,人脸就是非常好的入口。

 

我们刚才列举了很多服务,金融、安防都可以用人脸,你既然选这个技术,以后可以到很多行业去,可以把你的技术延伸到非常多的方面去,这是我们的一个考虑。

 

我们其实在这方面也是有一定的底气。从 2007 年到 2016 年,我们拿了相关计算机视觉挑战赛的七次冠军。

 

比如说像 2010 年 ImageNet 就是一个非常权威的视觉识别挑战赛,超过一千个图像种类,100 万张训练图片的时候,我们领先第二名 17% 的成绩。当时,全球参赛者 150 个队伍,包括 IBM、东京大学、索尼等世界一流的研究机构,我们还能领先他们 17%,所以,我们也觉得是比较有底气。

 

2016 年,我们参加了微软的全球图像挑战赛,在困难挑战数据集,它是考虑了光照,主要针对人脸的,光照、视觉和分辨率的各种情况下,算法拿第一。

 

在理论实验上,我们可以做到相对领先。

 

但是,实际上,我们应用时发现,学术和实验室的领先并不能带来你多大的落地优势。

 

我们当时做了很多 SDK 卖给集成商或者合作合作伙伴,很多时候,实际现场效果不是特别好,甚至做倒闭了的也有,我们也是感到迷惑。

 

人脸识别各种现实的挑战是很多的,我们知道在光线、角度、遮挡、表情、年龄、模糊的情况下,计算机要做到非常精准地识别一个人,不是这么容易办到的。

 

列举一下。

 

不同的光照的情况下,脸上感觉是不一样的。这个是模糊,因为摄像机是抓取的,有可能在运动中,也可能焦距对的不准,产生模糊状态,这个时候辨别一个人就比较困难。

 

还有这种角度,除非这个是计算机是周杰伦的粉丝,不然,这种情况一般来说都会有影响。

 

这种,如果是粉丝估计也比较困难,确实年纪变化比较大。

 

还有遮挡,这是纯天然的。表情,当然这是影帝级的,这会严重影响五官的扭曲。

 

如果把这些因素克服了,是不是可以识别人脸?不是,还有很多要考虑的问题。

 

第一个就是确认和识别的问题,1:1 和 1:N

 

1:1 回答的是这个照片是不是这个人,这个照片是我吗?是一个确认问题。

 

但是,识别,是一个我是谁的问题。他在 N 个人里面,这个 N 可能很大,可能是,一般来说小的话是几千人几百人,大的话是几千万人,比如说杭州市可能是上千万人,上海 2 千万,中国十几亿。

 

所以,上千万上亿人口中,回答他是谁的问题,这个就非常困难了。

 

有一些资料表明,大概一亿个人左右,就有长的跟你相像的人,更不用说双胞胎。1:N 是比较大的问题。

 

还有配合和非配合。

 

很多时候,配合式地去在设备上刷卡,但有很多时候,我是在抓取,处在远距离,比如,我们在这个空间里面,动态地看某个人,

 

甚至这个人是逃犯,有意识地戴一个鸭舌帽戴个口罩进行遮挡,非配合情况下,怎么把他识别出来。

 

甚至可能连脸都抓不到。这个时候,我们有一个技术,叫跨镜头,跨场景行人的再识别检索,叫 ReID,只看到它的衣着和他的步态,就可以把他判别是同一个人,这种的话难度就更大,还是跨镜头的,可能是相关区域的一个镜头。

 

还有防攻击。

 

我们知道,很多时候是关键性应用,我们要确保他是真人而不是照片,不是视频,这是一个活体检测。

 

活体检测,现在是常见的技术。以前手机常用的是动作,让你扭一下头,眨一下眼睛,不是特别好。

 

现在可以做到红外,结构光,结构光就是类似 iPhoneX 上的 3D 投射技术。根据投射光的反射来计算是否是一个 3D 的技术。

 

还有其他一些技术,还有这个识别。这是谁出的题,这根本不是一张脸,这就是部分了,这个时候,你的心情可能是这样的。这个表情,要要注意分析。计算机分析它的内心是沮丧还是崩溃,表情分析现在也是一个应用方向。以后做到人机的情感交流,计算机不光要知道你是谁,还要知道你的内心,通过表情判断你的内心,这个也是非常重要的一个方面。

 

所以说,我们从实际的经验来看的话,现在有很多开源的人脸算法和开源软件,其实它并不能真正解决问题,它们根本没有考虑到各种场景和各种应用的因素,如果真正去做一个行业落地的方案,可能要这么多的技术模块累积,从这个角度,旋转,光照,光线照、年龄、性别、表情、活体比对识别等,这里列了一部分,没列完,这样的话,才能代入到你的值函数里面去,真正做到适应某一个场景,某一个行业的人脸识别的应用。

 

这就是我们大概创业三年来,我们的 SDK 或者技术方案都是分的行业、场景,甚至分的前端,还是在什么样的配合下,或者非配合下,考量的一个技术。这是我们的一个想法。

 

另外一个就是说技术累积,是日积月累的,不是一蹴而就的,我们在埋头拉车的同时,我们要看看到底要走什么样的路,就要抬头看路,这是今天第二个给大家分享的。

 

当时有一个选择,是做 C 端还是 B 端。

 

这个照片是以前拍下来的,我们做了一个换发型的,直接去理发店做一个发型,我不要看着明星的脸,那个没感觉,我会把自己的脸拍下来含一个发型,看一下想要的效果是什么样的,这是 2013 年做出来的,大家看效果,还凑合。

 

我们还做了一个游戏,叫智慧顶球,在重庆高交会上,根据人脸来判断位置,来顶球,这个游戏很火爆,每天从开馆到闭馆,排队要玩。

 

还有一个是金融领域的应用,用在 B 端的,刷脸取款。现在在农行里面,很多 ATM 刷脸取款机都会慢慢支持,现在在北京有试点,带身份证,不用带银行卡,然后刷身份证进行比对,就可以进行小额的取款。农行和建行今年大部分都会上,整个过程中没有任何的手机或者银行卡相关的应用,这个都没有。

 

另外在公安里面,一直是有刚需。

 

公安里面两大类,一个是抓人,它一般是在火车站地铁站进行布控。

 

另外就是大库检索。假如我从天网里面抓到一张比较模糊的嫌犯的照片,我要知道身份是什么,这个库有上千万的,比如三千万人口,去搜索,它最像谁。

 

这个是 B 端的应用,这个是 C 端的应用。

 

C 端对客户的体验要求是非常高的,要求你的体验非常好,不会想一个不好玩的东西,用两天就没意思了的。

 

第二,使用起来要非常方便、稳定,不希望 AI 有非常复杂的使用手册给到终端的客户。

 

还有对价格很敏感,考虑到成本,不能是太贵的东西。

 

在 B 端,要面对的第一个问题是,门槛会相对高一点。

 

比如说,我们跟银行做的话,银行对供货商的要求是比较高的,这个我们也是走过弯路的。我们第一次给农行做生意,当时我们是初创,还不是农行,是工行,第一大行做生意,谈到最后发现我们的资质跟不上,刚成立,没有资质,这个就非常可惜,很多投标,只能委托其他家帮我们一起投标,只能这样,这个事是比较曲折的故事。但是,只要你进去了,你就比较稳定的。

 

还有就是它对专业服务要求比较高。像银行里面,它要求八个小时之内就必须做到响应,否则就是事故。

 

它对价格相对来说不太敏感,所有 B 端客户对价格都不是特别敏感,除非是非常靠近 C 端的,比如说,做门禁的厂商,门禁的终端价格要很低,这个时候相对来说敏感一点。一般来说都是不太敏感的。

 

对技术要求来讲的话,总的说来,C 端的要求比 B 端的高,这就是为什么我们会选择 B 端做切入口。

 

在做 B 端的行业时,需要考虑的几个问题,第一个就是行业里的产品和解决方案必须多。

 

在银行网点里面,比如这是一个常见的银行网点,我们做了 9 个方案,从排号填单到远程 VIP,终端,和超级柜台,体验和客户分析的终端,包括售卖机还有还有网点智能平台,我们都做了相应的解决方案,有些是是终端,有些是远程业务,有些是分析平台,从 15 年开始,我们在银行领域做了 42 个解决方案,不是简单的卖个算法进去就 OK 的事情。

 

第二个,如何增加行业客户的黏度。

 

我们觉得是云加端,不只是算法。

 

算法你觉得很高大上,但是很容易被颠覆,百度都开源了,谷歌推出了自动机器学习,以后完全不懂 AI 的公司可以自动训练,你算法的门槛会降低,这个门槛最多保持两年时间。

 

我们可以在行业客户的云端,就是软件端,它的软件系统其实是不容易被替换的。

 

大家可以自己想想,你的手机,你的手机号很难换掉,s 手机只要出新的,我基本上都会换掉,哪怕手机再贵。

 

这个其实是一个道理,客户的软件系统和业务系统很难换掉。

 

所以,我们做 AI 的可以尽量考虑占它的软件和硬件,硬件就是它的终端,把一些算法置前,然后它也会用到终端。

 

用上了一个轨道之后,也会有一定的依赖性,终端的依赖性不是特别高,还是要和云端进行配合,才可以形成标准的黏度的系统。这是我们的第二个想法。

 

第三个,在全国,我们有一个销服的体系。同时,真的是风里来,雨里去,跋山涉水,到机房,到现场,甚至自己装摄像机,我们还发生了触电的事件,这个也是比较危险的事。但是没有这个事情,你是做不到这个银行客服满意的,因为不是高大上才是 AI 企业,你还要做脏活累活。

 

巨头来了怎么办,所有所有企业都会面临的问题。BAT、做得非常好的科大讯飞、安防做得很好的海康威视,电商做的很好的京东,可以说,它们既是伙伴也是一个压力,我们怎么和他们在这个市场里面去博弈呢?

 

每家其实都不一样的路数,我们提供一下我们云从的想法给大家分享一下。

 

首先是保持技术的相对领先,你做 AI 的,技术不领先,怎么做你的市场和和你的产品呢。

 

所以我们第一,我们还是相对专在人脸技术和人机交互的技术,比如说,人证对比的通过率上做到金融级的,误识率要做到百万分之一甚至千万分之一之下,同时还要做到 95% 以上的通过率。

 

通过率是指,如果是你本人去比对,通过率 95%。如果是别人的话,就是误识率,只有千万分之一的误识。这个指标是非常重要的,我们在银行和公安里面,拿了 85 次测试的第一名。这是一个硬指标。

 

另外一个像一些新的技术,比如说跨境追踪,我们刚刚在三月份,刷新了三个世界记录,特别在 Market-1501,这是一个比较权威的数据集,我们做到 96.6% 的首位命中率,刷新了阿里 1 月份的世界记录,首次达到商用水平。以后我们基本上可以用这个技术进行跨境追踪,哪怕没有你的人脸,你的衣着体态都可以判断出来,这是一个比较好的技术运用。

 

当然还有 3D 结构光,我们在前面也发布了。

 

尽量向你的上下游扩展,上游包括芯片,下游包括硬件和集成提供商。

 

其实,你在扩展的同时,这个可以给你增加一个生存空间。

 

比如说你的芯片集成了你的算法,同时你的硬件是软硬一体的,你的成本很容易控制

 

这时候你跟巨头博弈的时候,成本会很低,性价比很高,这样可以营造空间增加你的竞争力。

 

还有一个就是,因为人工智能已经上升到国家的一个战略,所以我们作为中科院的背景,我们也有义务去支持国家战略,建立产业生态圈,两个方面:

 

一个是顶层上,我们参与了国家和行业的人脸识别标准的制定,同时和四大行,公安部,民航总局和中科院进行战略合作,建立联合实验室,合理合法获取他们的一些数据。

 

第二我们也承接了国家发改委的两大平台,一个是基础资源公共服务平台,这个是和和百度、腾讯、科大讯飞一起分别承担的,还有一个是今年 1 月份在高准确度的人脸识别系统产业化,和公安部一所一起承担的。

 

地方上,和重庆、广州、上海、苏州、成都、黑龙江这些省市进行战略性的合作,进行落地和生态圈,这样可以把很多上下游的产业和合作伙伴一起拉进来,把这个事情做大。

 

第四个就是我们去做 AI+ 的行业大脑。

 

AI 是跨行业的,所以我们做了很多行业大脑,从银行到公安,到机场,到社区、零售还有教育,还有健康。健康跟刚才的医疗不太一样,还是日常的健康检测。

 

最后会构成我们的云从大脑。

 

这个地方,大家会觉得,跟刚才前面的是不是有点矛盾,不是说要保证技术上的专注吗?

 

是的,专注人脸识别,人机交互技术。但是行业上是有扩张性的,这个是不矛盾的。

 

这个是一个战略步骤,只有这样,体量才能迅速增长,体量增长了,才有和巨头博弈的实力。

 

最后,AI 初创企业还是要有梦想,云从的梦想是定义智慧生活,提升人类潜能。

 

这个口号似乎有点大,梦想和企业能不能成功没有必然的关系。就像腾讯这么大了,也有人说它没有梦想,这个不是必然的,但是我们觉得,这个定义智慧生活,其实很显然不是一个简单的口号,我们是实实在在做的,比如说定义智慧生活,真的用我们各行各业的方案,也许今天你还没接触到,也许很快就能接触到这些东西,包括购物机及这些终端设备会很快接触到,这个是智慧生活的定义。

 

我们认为人工智能也不是代替人类,在可预见的未来是提升人类潜能的,用专家的经验进行复制,帮助人类。就像刚才用医疗技术帮助医学专家一样,所以说,这个是我们的一个想法。

 

最后两句话作为一个结束。

 

一个是虽有智慧,不如乘势,虽然镃基,不如待时。这是出自孟子。

 

镃基,是一个农业工具,农业活动必须看天时。整句话就是就是说,要乘势而为。

 

也就是说,如果你选对一个事,可以做到事半功倍。

 

我们觉得今天其实是科学家创业最好的时代,大家可以看到现在所有 AI 企业的背景都有科技的背景。这是十年前很难想象的,十前年有很好想法,就可以做互联网创业,现在还要有科技的背景,这是资本对知识性人才的一个热捧。

 

在座的各位应该感到自豪,真正的是知识经济时代真正来临了。

 

这是我们的一个想法,所以在这个时代,大家只要有梦想去创造,一定可以成功。
 

阅读延展

1
3