大数据时代企业腾飞的利器:接入一套高效的外部数据系统来辅助决策
外部数据(本企业之外的数据,第三方数据)可用于提高整体业务绩效。当然,首先,这一步骤最关键的就是深入的数据挖掘,已经如何更有效的利益和管理这些数据。
外部数据数据量每年都在增加。随着获取数据的方式,变得越来越简单,成本越来越低,规模较小的企业也越来越容易进行。数据相关的应用也越来越多。然而对这些数据的适当管理仍然是一个问题。过去几年进行的一项调查显示,有很多大企业也难越来越难以管理这些数据。
什么是外部数据,如何认识?
外部数据是从企业或组织外部获取的所有数据。通常,它通常被称为第三方数据。
外部数据有多种产生途径,从数据质量和产生方式上,我们把外部数据还可以细分为三类:外部数据,高级外部数据,和替代数据。
首页,我们日常接触最多的外部数据就是-政府报告,统计部门的统计报告,还有新闻等。目前来讲,严重依赖这些数据的企业并不是很多,但是这部分数据在金融行业,还有一些外贸行业等的领域,仍然有效很广泛的应用。
那么相当于以上传统的外部数据,什么是先进的外部数据? 先进的外部数据是通过互联网后台日志,监控,分析和和各类应用自动数据收集产生的, 这部分数据旨在产生更大的价值,找到更广泛的受众。比如,现在广泛提起的舆情数据,用户UGC的评论数据等,一些商业企业,利用这些数据可以分析社会情绪和预测用户行为。
替代数据又是什么呢?这并不是一种新的数据分类,相对于传统的数据而言,这是一种不常用的数据,量不大,但是质量很高,提取的指标很有效。这些不常用的数据(表面上可能和企业经营没有关系),收集起来,参与分析,对业务能产生很好的指导。
举个栗子,卫星图像,很多人可能想不通,卫星图像怎么作为替代数据,可是确实是,在很多金融行业,卫星图像的变化和趋势,非常有助于金融领域业务场景有很大的指导作用。卫星图像中零售商或各类市场参与者的卫星图像变化趋势,能让金融分析师从中发现一些有价值的端倪。
那么?如何将外部数据集成到企业的现有系统当中,这是本文要探讨的一个重要问题。
内存数据,业务很好活动,在生产经营活动中,就可以随时获得。外部数据不一样,不属于企业,需要一定的成本才能获得,需要组建专门的数据团队,或者从第三方购买获得。
无论是购买还是组建团队抓取数据,都需要提前规划好三件事,需要什么类型的外部数据,如何获取,如何存储。
存储这一块,并不仅仅是存储在数据仓库那么简单,因为外部数据拿来不仅仅是存储的,还需要如何清洗,如何使用,如何从清洗结果中采集指标。所以,仅仅把数据简单的存储在数据仓库是不行的。而且很多外部数据是动态的,流式的,不是固定的一成不变的批量数据。所以仅仅是常规的数据库或数据仓库去存储这些数据,并不是很合适。而且对外部数据的读取,和处理,往往需要一些额外的处理工具,因为不是企业自己产生的,各种外部数据有着特殊的格式,所以不同的外部数据可能需要不同的特定的流程来处理,这又加大了系统的复杂性。比如一些实时的数据,比如某一类产品的市场动态价格,往往这里数据需要从外部的API接口获得,或许还得经过复杂的计算和处理,才能形成各种指标用于决策,这种数据绝不仅仅是数据仓库能够解决的,至少需要一套接入和处理系统。
接入以后,关于外部数据的使用和处理。
外部数据比企业内部的传统数据要复杂的多,很多外部数据,必须依赖某些附加信息或在某些相关联的业务场景下才能被理解,数据才有意义,这往往会加大外部数据处理和使用的复杂性。
外部数据非常多,我们不能漫无目的的收集,企业使用外部使用,往往是先设定一个目的或预测结果,然后再收集与之相关的外部数据,并长期存储,然后用这部分外部数据,佐证这个结论正确与否,这是一类使用方法。
在这一前提下,往往收集了很多的外部数据,结果发现,这部分数据对于设定的目的,帮忙并不大,或者压根使用不上,这也很正常。
外部数据的使用和处理,已经日常流程维护,往往比企业自己的内部数据,更复杂,需要更专门的团队(因为数据不是自产的,各种来源,各种格式,维护起来有一定技术难度)。
不过,这并不是说外部数据不值得使用,恰恰说明,对于企业有用的外部数据,如何能使用好,往往会有很好的效果和收益。
那么,如何搭建一个外部处理系统,简单说一些心得和注意的细节。
先说简单的情况,某些情况下,外部数据是某些专业的数据提供商提供的,拿过来就可以使用,这部分处理起来就比较简单,或者并不需要什么处理,这不是要说的重点。
要重点说的是,某些外部数据,没有专门的数据提供商,是各种渠道收集来的,往往这数据就不能直接使用,需要企业自己处理,简单归纳了一下,有三点是首先需要企业数据团队自己去做的:
1. 数据清洗
2. 数据格式的归一化
3. 数据质量的验证
数据清洗和归一化主要是为了把收集来的数据规范化,比如数据格式,字段命名方案等等,并且把一些残缺的数据清除掉。
数据质量的验证,往往需要积累一些测试用例,用于获取的验证数据,是否符合预期,是否是想要的数据。
结论:
外部数据是复杂的,相当于企业的内存业务数据流程,复杂度往往是指数级的增加。
外部数据的处理流程,构建成本比较高,往往需要很专业的团队。
这是因为这两点,如果能成功搭建一个有效的外部数据处理系统,所带来的效果和收益,往往是惊人的,值得期待。
轻松一刻
- 所有评论