共计 2678 个字符,预计需要花费 7 分钟才能阅读完成。
作为科技圈小白,常常被数据搞得头晕脑胀,数据打哪儿来?到哪儿去?能干什么?那么多数据怎么辨别谁有用谁没用?其实数据就在咱们身边,每个人都是数据的生产者,从人类文明诞生的那一刻起,数据就随同咱们而生。明天这篇文章,小编就带你查一查数据采集技术的水表。
一、数据从哪儿来
数据是通过采集的形式取得的,然而采集过程并不简略。比方,数据食粮有的是细粮有的是细粮,可能拿到细粮的概率太低了。为了筛选出真实有效的数据,大家通常的做法就是把细粮先搞回来再加工,这种状况就导致花大力量搞回来的食粮筛到最初能吃的不到 10%。
而且,不是所有的数据都是现成的,有些状况下须要自力更生去种地,从撒子秧苗开始培养本人的数据,至于哪个环节出问题导致数据收成不好那都是靠天吃饭的随机性了。
就算是本人入手饥寒交迫也存在秧苗成长不对立的问题,数据有很大的主观性,常常依照本人的想法长,大家都不一样,那口感就不统一了,咱们认为这是一碗大米饭,可能最初进去的是杂豆饭。
二、数据到哪儿去
数据中暗藏着零碎或设施运行的法则,也含有突发的状态变更信息,更是潜藏着异样或劫难产生前轻微的蛛丝马迹。因而,它的用处十分宽泛,传统行业中能够收集生产设施的运行状态数据实现零碎的监控和运维工作,信息产业中各种各样的数据是撑持整个产业倒退的基石,在将来,人工智能技术大规模利用到各行各业中,更是离不开丰盛的数据撑持。
咱们既然拿食粮比喻数据,那么数据对于人工智能来说就是吃到肚子里去。数据采集难度系数不低,咱们怎么更简便地失去数据,更快地解决人工智能的饥寒问题呢?聪慧的人类又开始思考如何为本人疾速搞到数据。
首先,咱们能够本人搞一个高定制化的对立收割零碎,用对立的机器做数据食粮收割效率十分高,但这也导致了最终的数据食粮尽管对立,齐全没有惊喜,毕竟收割机高度就是这么高,这一茬被收割,一些参差不齐的数据却幸运持续横蛮成长无奈收割。从上面的曲线能够看出:高度定制化能够带来极简的应用体验,但也就义了灵活性。
极简和灵活性如何取舍,还是要落地在场景中。依照 2 - 8 准则,80% 的数据咱们采纳高端定制的模式来收割,剩下的 20% 的数据手动收割,这样咱们既能高效的获取整齐划一的食粮也能参杂一些小惊喜,两败俱伤。
上面咱们以网络人工智能业务为例,来看看具体的操作:
网络人工智能业务所应用的 80% 以上数据,是电信网络的设施数据,所以这一部分能够间接进行网络买通,零碎主动实现对接协商、数据采集和标准化解决,使用者可间接获取想要的小区性能指标,进入下一业务环节。
80% 的数据采集场景做到了极简,大部分用户的体验失去保障。剩下 20% 的场景,通过灵便通用的采集能力来解决,用户配置数据源对接参数即可实现数据采集。
还有一些数据并不能通过简略采集取得,比方,无源设施、以及无奈产生状态数据的软硬件零碎,这就须要一波高端操作——探针自主采集。探针技术自身比拟成熟,各行业都有广泛应用,弊病是部署老本高、推广难度大。探针技术也有软硬之分,从名称上就能看出,软探针就是通过独立可执行的软件或可被集成的 SDK,在用户受权的状况下,采集网络体验数据。硬探针基本上就是传感器、探测设施等,专业性较强,数据收集准确性高。
三、数据能干什么
数据无能的事件太多了,能够用来剖析用户爱好和需要,取得对电信网络实在主观的应用反馈,可能疾速得悉产品有何有余,对应更新更多的业务模式,可能帮忙实现业务改善。好的数据可能帮忙企业取得更大对竞争力。但这些数据的背地是人,人的主观性越强,需要就越明确,对产品能力的晋升就越有帮忙。这些数据就好比是食物中最顶端的高端食材,口感一流品质上乘,然而价格不菲。
如下图所示:
体验数据不好取得,这些数据基本上要通过问卷调查、试验、端侧体验指标采集等形式取得,不仅老本高而且可取得的数据量也无限。这就如同你是个网店卖家,辛苦做出的产品想要失去五星好评或实在超过 10 个字的评估感触,须要给客户搞一个好评返现红包。鉴于大家都比较忙,给有字评估的客户仍旧不多,那就须要用插补的形式,基于大量实在评估预计一个全副用户的整体感触。
在网络人工智能业务中,咱们是如何取得高质量数据的?首先,咱们开发了业余的 APP,对于用户来说,除了能随时感知本人所处网络的速率和时延,还能针对室内笼罩帮忙用户进行信号仿真,实现 Wi-Fi 的组网布局,真正解决用户的体验问题,除此之外,还具备游戏的代入感和应用体验,能更好的吸引用户,实现网络体验数据的采集。其次,咱们还提供了可基于无限采集数据,通过算法进行数据插补的能力,对于采样点少或缺失的区域进行数据补充,该办法引入了天文统计计算的相干算法,在肯定采样条件下,插补的误差 RMSE 小于 5,高于物理测量设施的仿真后果。
四、捍卫数据安全才是正经事
在结尾咱们讲过,数据采集有很多难处,在收集、存储、传输上都须要更平安的环境。只有保障数据采集零碎安全可靠,才可能无效的爱护数据需求者和提供者的权利。网络人工智能在数据采集平安方面也做了不少针对性的措施。比方在数据收集环节的数据脱敏、最小采集范畴、密级管制等,防止“顺手牵羊”;在传输过程中也晋升了运输大队的军火储备和荫蔽能力,争取让劫匪找不到本人的数据,或者遇到劫道儿的也能从容迎战捍卫数据安全;在存储环节的访问控制和权限隔离等技术,防止越权拜访和数据泄露问题。
网络人工智能在数据采集平安方面所做的措施如下图所示:
随着数据安全和隐衷爱护法规的不断完善,应答数据安全的软、硬件措施也逐步完善,每一个安全措施都是不断完善的短暂工程,数据安全没有起点,只有与时俱进不断进步,能力继续满足人们对数据的安全感,从而更充沛的施展数据价值。
五、数据采集技术还在一直成长
数据采集不是欲速不达的,随着产品或服务的迭代降级,各行业技术的倒退,用户需要的晋升,政策法规的欠缺,数据采集技术在平安和隐衷爱护、数据可获得性、体验等都须要一直演进倒退。数据采集不仅是数字化转型的根底,还是人工智能的精神食粮,更须要做到保障数据通道的畅通无阻。
作为华为 ICT 基础设施业务面向寰球开发者的年度盛会,华为开发者大会 2021(Cloud)将于 2021 年 4 月 24 日 -26 日在深圳举办。本届大会以 #每一个开发者都了不起# 为主题,将汇聚业界大咖、华为科学家、顶级技术专家、天才少年和泛滥开发者,独特探讨和分享云、计算、人工智能等最新 ICT 技术在行业的深度翻新和利用。智能时代,每一个开发者都在发明裹足不前的奔流时代。世界有你,了不起!
点击链接,理解大会详细信息:https://developer.huaweicloud…