您现在的位置是:智能家居 > 智能安防 > 高文:城市大脑2.0已来,数字视网膜是核心驱动力

高文:城市大脑2.0已来,数字视网膜是核心驱动力

时间:2020-08-12 12:17  来源:  阅读次数: 复制分享 我要评论

【智能家居网】

    【智能家居网】 2020年年终国度提出的“新基建”,为手艺变迁和行业生长,带来了新的时期时机,而伶俐都市也成为全国都市生长革新的重要一环。

都市大脑是现有伶俐都市中的一个中心系统,它将算力及数据会聚到一同,加上算法,便可以发挥庞大的作用。

比方,将收集数据、政务数据、社会数据等等,搜集到一同,然后供应一个云盘算效劳,便可以够提拔政府效力、加快企业立异、增进生活便利。

在伶俐都市系统当中,搜集了各种百般的数据,其中有90%摆布的数据都与图象、视频相关联,怎样处置惩罚好图象和视频数据,在都市大脑系统中是异常症结的要素。

那末,如今都市大脑系统的生长到了哪一个阶段?从系统1.0到2.0,哪些痛点被处理了?手艺又有哪些立异呢?

在8月7日第五届环球人工智能与机器人峰会(CCF-GAIR 2020)上,中国工程院院士、鹏城试验室主任高文,分享了主题为《都市大脑2.0-边端云处置惩罚分工的人工智能赋能系统》的报告。

高文院士在报告中,从都市大脑1.0的近况、问题,谈到都市大脑2.0的立异、上风,以及伶俐都市生长的症结手艺和才能。

1、都市大脑1.0的近况

都市大脑是伶俐都市的中心系统,是算力和数据的会聚地,是生产力和生产资料的集合展示。

它也是超大规模的人工视觉系统运用,经由过程数据的会聚、治理、盘算、剖析、发掘和调理,完成数据的全流程加工,面向行业供应差别条理的产物和效劳。

所以,视觉认知盘算(VCC)是都市大脑的中心。现在,视频存储、剖析与辨认都在云上完成,剖析辨认的视频路数与云效劳器的算力成正比。

在现有的系统中,数据基础以图象与视频两种情势进入:

第一种形式:摄像头就是一个简朴的传感器,捕捉到图象或许视频今后,举行一个编码紧缩,传送给云端,云端将它存储起来。

也大概将它解码以后举行剖析,辨认出人脸、车辆,或许举行交通数据的剖析等等,这是一种信息或许数据感知的形式。

另一种形式叫做智能终端,在摄像头这一端就把人脸或许车牌等信息辨认出来,辨认出来的信息被传送到云端,直接可以举行剖析运用。

这两种形式是现在都市大脑中数据运用的重要形式,固然这两种形式都多若干少存在一些问题。

假如仅仅作为一个感知终端,背面假如须要挪用,除了解码之外,还要举行特征提取等事情,须要大批的盘算程序,这些盘算异常消耗云盘算的算力资本。别的,智能终端还没法辨认出未被指定的人或物。

所以,都市大脑须要一个更好的系统,这个系统不仅云上算力资本需求不多,而且可以完成一些未经划定的行动。

换句话说,以云盘算为中心的都市大脑1.0现在存在的一些问题是,系统各个部份分工谐和不太好,系统本钱比较高,相应速度慢,数据的可利用度比较低。

假如要从1.0演进到2.0,首先要面对一些应战:

第一,海量数据≠大数据

如今的都市大脑1.0,它是一个具有海量数据的系统,然则这个海量数据并不等于大数据,因为90%的海量数据都是没有构造化的,只是举行了一个简朴的编码紧缩。

第二,数据海量 vs 低价值

别的,这些数据的价值也比较低,它不是构造化的,你没法在上面举行剖析,这也是为何许多伶俐都市的视频数据,一段时刻以后就被覆盖了。

高文院士示意,问题的本质是现有都市大脑里的数据表达是不到位的。

假如只是在感知数据后,将编码紧缩送到云端,它照样一个非构造化的数据;假如能把它辨认出来是张三、李四,或许车牌号若干,虽然它已构造化了,然则它是过分构造化的,关于没有划定的使命就没法执行了。

所以须要一种泛化才能更强的数据表达,这个数据的表达是一个机遇表达,用这些机遇既可以完成现有的使命,也可以完成如今还没有定义的一些使命。

这些数据表达想要获得一个比较好的效果,悉数系统就必须做得好,包含系统的智力、机能(相应时刻、并发、吞吐)、效力(耗电多大)等等。

假如某套系统可以经由过程评测,那就代表这套系统比较智能化了。

都市大脑1.0系统的弊病在于:它的智能价值比较高,要么是造价高、要么就是耗电高。

假如要将都市大脑1.0升级到2.0,高文院士示意,可以自创人的视觉系统,比方人的视网膜、视觉通道、大脑分工是异常谐和和高效的。


从视网膜传到大脑之间,是一个特征紧缩,被称为:特征编码,但这个编码和如今传统的图象编码并不一样,它是一个特征紧缩编码的东西送到大脑中去。

都市大脑2.0就是自创如许一个系统提出的一个系统架构,不仅能传特征,还能传紧缩图象。这个系统架构须要数字视网膜的手艺及其范例化,如今这些思绪、手艺、范例化都逐渐到位。

2、都市大脑2.0:数字视网膜

高文院士以为,都市大脑2.0是一个边、端、云合理分工的系统,而把边、端、云连系的最中心的手艺叫做数字视网膜,它是悉数都市大脑2.0内里一个基础架构,又被称为仿生视网膜的盘算架构。

数字视网膜现在有8个特征可以定义它:

  1、 运用全网一致的时刻;

  2、 可定位,可标识,供应准确地理位置,如GPS、Baidou北斗;

  3、 视频编码:为了存储和离线寓目的影象重构;

  4、 特征编码:为了形式辨认和场景明白的紧凑特征示意;

  5、 团结优化:模仿生物视网膜,支撑视频流与特征流团结编码优化,都市大脑有两个码流,视频编码紧缩流和特征编码紧缩流,这两个码流会绑缚到一同举行传输,所以要有一个优化战略,把这个带宽究竟分若干给视频编码、分若干给特征编码,经由过程一个团结优化,使得悉数系统到达最优。

  6、 模子可更新:支撑端/边深度进修模子的自适应迁徙、紧缩、更新与转换;

  7、 注重可调治:模仿视觉注重机制,在端装备、感知收集等层面完成动态注重调治;如今的摄像头没有“注重”,只能人工拉近拉远调治它,做不到自动的注重可调治。

  8、 软件可定义:支撑端边云协同盘算与推理,完成特征及时会聚与视频按需调取。系统要想升级,可以经由过程软件定义的要领,对系统自动升级。

要想把数字视网膜手艺悉数用起来,这内里有一些使能手艺。

第一个使能手艺,是视频编码。

如今做都市大脑、监控系统都离不开视频编码,摄像头内里都有一个视频编码芯片,视频编码芯片用的范例,最早期是H.264,或许用AVS的编码范例。

近来开始运用H.265或许AVS2的范例,将来不久就会用上H.266和AVS3的范例,这个范例差不多每10年就会更新一代,效力每10年就会进步一倍。

为何可以做到编码紧缩?一个视频就是一个图象序列,图象序列内里包含了许多数据的冗余,基础上有三大类冗余:一类是和空间冗余有关的,一类是和时刻冗余有关的,别的一类是和编码冗余有关的。

如今悉数视频编码内里用的算法,叫做夹杂视频编码架构,这个夹杂就把适才三种主流的冗余用差别的算法去掉。

比方说为了去除空间冗余,平常我们采纳正交变更,比方说DCP变更等把它去撤除。

为了去除时刻上的冗余,就是帧和帧上的冗余,平常我们会采用展望编码,比方说林林总总的滤波器,把帧间的冗余去撤除。

为了使得编码的分派最相符熵的定义,可以运用信息熵编码来去除编码上的冗余。

这三个冗余都去除清洁了,悉数视频流里便可以够压得很小,只要有效的信息、有效的数据甩出去,这些冗余都被挤压掉了,这是视频编码。

要想把视频编码做得好,算法要做得很精,跟着时刻的推移,可以用盘算、带宽把这些东西一点点都去撤除。

第二个使能手艺,是特征编码。

这是异常症结的一个使能手艺,这个手艺的范例有两部份中心的内容,一部份叫CDVS,一部份叫CDVA,它们也是国际范例MPEG-7内里的两部份。

为何要做视觉特征的紧缩呢?因为依据差别的特征,提取出来的特征数据大概很大,假如不紧缩的话,特征数据大概比图象自身都大,所以要么就传个图象过去,要传特征的话数据太大,所以就要对它举行特征紧缩。

怎样举行紧缩?假如是先把图象编码传过去,再提取特征,再举行辨认,和先把特征提取出来,然后把特征传过去再辨认,这两个其实有一个剪刀差,大概有时刻辨认率会相差百分之二三十。

先紧缩了今后,大概有一些比较有效的特征丢了,因为所谓编码紧缩,它是保存大众部份,把一些非大众的、异罕见的东西紧缩掉了,而异罕见的部份恰好多是特征,所以把这个打磨掉今后,它的辨认率大概就下来了,所以要先提特征,再在云端手艺辨认如许一个手艺战略。

固然先提特征,怎样提的特征体量比较小,我们早期是采纳手事情业的战略,固然手工特征怎样支撑深度进修,这是别的一个问题,背面我们做了初版今后,又特地做了一个面向深度进修的编码紧缩的框架,这个重如果给小视频来做的,有了这两个部份今后,基础上可以应对图象特征编码和视频特征编码这两个需求。

第三个使能手艺,叫做团结优化。

所谓团结优化,就是在视频编码和特征编码之间,要找到一个最优的连系点,使得这两个流绑缚到一同的时刻,脑力分派是最优的,上面这个流是视频紧缩流,下面这个流是特征紧缩流,如许送到云里,它俩合起来是最优的。

怎样可以做到最优呢?因为各自的优化模子都是有的,比方如今看到的这些是上面这部份,它是一个视频编码优化的流程,上面的虚线是视频编码,下面的虚线是特征编码,这两个编码在右端,合成一个流,就是视频和特征流。

这一个流怎样优化呢?要设置一个团结优化流程,把它放到一同去优化。视频编码的优化模子叫RBO,RBO就是给定码率丧失最小的优化模子,它的优化曲线就是右下角这个曲线。在辨认特征表达方面,它有一个RAO,就是给定码率,让准确度最高的优化模子。

这个优化模子给的曲线是反过来的,所以把这两个须要优化的东西给它放到一个优化函数内里表达出来,就是这张图的表达,依据这个东西团结求解一个优化的解。

第四个使能手艺,是深度进修模子编码的使能手艺。

就是经由过程多模子的重用,经由过程模子紧缩更新来做。这是深度进修怎样去经由过程重用,去使得悉数模子的重用精度更高。

这个重用既包含现有模子的重复运用,也依据目的模子练习所获得的提拔,使得优化做得更好。

多模子重用,假如是在进修系统内里把它用好的话,它的机能便可以够进步得比较好,所以怎样使得这个多模子编码紧缩,使得在重用当中可以疾速地更新一个模子,就使得这个机能不停地提拔,这两个就是模子编码的重要效果,有了这个便可以够使妥当模子练习完了今后,紧缩完了今后便可以够疾速推到终端去升级模子。

上面这些使能手艺,末了它要汇总到一个芯片内里,这个芯片如今在北大杭州研讨院下面的一家公司做出来了,第一个数字视网膜的芯片叫GV9531,适才的8个特征,这个芯片全都是支撑的。

除了数字视网膜自身之外,如今合营人工智能手艺的推进,也在推进中国的一些AI手艺的国度范例,包含神经收集模子示意与紧缩的范例、都市级大数据搜集关联的范例和范例,包含这些范例研讨开发的路线图,什么时刻要把哪一个范例提出来完成等等。

数字视网膜,简朴来说是三个编码流兼并的系统,固然前两个是最重要的,就是视频流和特征流,这两个流每时每刻都是搜集到一同举行传输的,第三个是模子编码,只是在模子须要紧缩的时刻,从云端推到边沿端或许终端上,举行一些增量的更新。

3、都市大脑2.0的上风

都市大脑1.0是一个以云盘算为中心的系统,因为系统各个部份分工谐和不太好,所以系统本钱比较高,相应速度慢,数据的可利用度比较低。自创人的视觉系统,比方说人的视网膜、视觉通道、大脑分工异常谐和,异常合理。

都市大脑2.0的中心在于数字视网膜及其范例化,它相较都市大脑1.0具有四慷慨面的机能提拔:

  1、它有先进视频编码手艺:节约存储和带宽50%以上;

  2、它可以定制ASIC边沿盘算:节约云盘算资本90%以上;

  3、它能在原始图象上特征提取:低延时和高精度;

  4、它还可以做范例化特征的提取,存储和复用:明显提拔信息密度和价值。

如今鹏城试验室对都市大脑2.0——鹏城云脑,有一些较完全的设想和计划,鹏城云脑到如今为止已投入了几十亿元去打造,鹏城云脑只要100P的算力,虽然说只要100P的算力,这也是到现在为止国内作为AI练习算力最大的一套系统。

背面还会有更强的系统,如今有一个原型,可以有数据进来,对数据举行标注、收集,可以举行练习,练习完了今后便可以够用适才这些和芯片有关的系统举行提取,然后可以剖析和辨认。

这个原型系统,平常边沿用的,以至在云端大数据效劳内里用的东西,如今都在逐渐进入系统,上面会有林林总总的参考软件,去合营硬件的东西,最上面是开源的算法练习,有这些东西以后,将来在鹏城云脑上就会对都市大脑举行比较强有力的支撑。

固然这个系统要想完美,大概还须要一点时刻,还须要在更多的处所去做试验考证,等这些手艺都成熟了,范例全都到位了,以至都市大脑2.0真正运营起来,对中国的都市化、智能都市等等方面会有一个比较大的孝敬。

  本文部份内容和图片来自雷锋网