跳到分类
  • 首页
  • 关于本站

关注互联网最新资讯,最新技术趋势
首页
码农视界
大数据
开源技术
创业动态
发表于 2022-01-08
0 条评论

大数据时代企业腾飞的利器:接入一套高效的外部数据系统来辅助决策

大数据 首页


外部数据(本企业之外的数据,第三方数据)可用于提高整体业务绩效。当然,首先,这一步骤最关键的就是深入的数据挖掘,已经如何更有效的利益和管理这些数据。
外部数据数据量每年都在增加。随着获取数据的方式,变得越来越简单,成本越来越低,规模较小的企业也越来越容易进行。数据相关的应用也越来越多。然而对这些数据的适当管理仍然是一个问题。过去几年进行的一项调查显示,有很多大企业也难越来越难以管理这些数据。
什么是外部数据,如何认识?
外部数据是从企业或组织外部获取的所有数据。通常,它通常被称为第三方数据。
外部数据有多种产生途径,从数据质量和产生方式上,我们把外部数据还可以细分为三类:外部数据,高级外部数据,和替代数据。
首页,我们日常接触最多的外部数据就是-政府报告,统计部门的统计报告,还有新闻等。目前来讲,严重依赖这些数据的企业并不是很多,但是这部分数据在金融行业,还有一些外贸行业等的领域,仍然有效很广泛的应用。
那么相当于以上传统的外部数据,什么是先进的外部数据? 先进的外部数据是通过互联网后台日志,监控,分析和和各类应用自动数据收集产生的, 这部分数据旨在产生更大的价值,找到更广泛的受众。比如,现在广泛提起的舆情数据,用户UGC的评论数据等,一些商业企业,利用这些数据可以分析社会情绪和预测用户行为。
替代数据又是什么呢?这并不是一种新的数据分类,相对于传统的数据而言,这是一种不常用的数据,量不大,但是质量很高,提取的指标很有效。这些不常用的数据(表面上可能和企业经营没有关系),收集起来,参与分析,对业务能产生很好的指导。
举个栗子,卫星图像,很多人可能想不通,卫星图像怎么作为替代数据,可是确实是,在很多金融行业,卫星图像的变化和趋势,非常有助于金融领域业务场景有很大的指导作用。卫星图像中零售商或各类市场参与者的卫星图像变化趋势,能让金融分析师从中发现一些有价值的端倪。
那么?如何将外部数据集成到企业的现有系统当中,这是本文要探讨的一个重要问题。
内存数据,业务很好活动,在生产经营活动中,就可以随时获得。外部数据不一样,不属于企业,需要一定的成本才能获得,需要组建专门的数据团队,或者从第三方购买获得。
无论是购买还是组建团队抓取数据,都需要提前规划好三件事,需要什么类型的外部数据,如何获取,如何存储。
存储这一块,并不仅仅是存储在数据仓库那么简单,因为外部数据拿来不仅仅是存储的,还需要如何清洗,如何使用,如何从清洗结果中采集指标。所以,仅仅把数据简单的存储在数据仓库是不行的。而且很多外部数据是动态的,流式的,不是固定的一成不变的批量数据。所以仅仅是常规的数据库或数据仓库去存储这些数据,并不是很合适。而且对外部数据的读取,和处理,往往需要一些额外的处理工具,因为不是企业自己产生的,各种外部数据有着特殊的格式,所以不同的外部数据可能需要不同的特定的流程来处理,这又加大了系统的复杂性。比如一些实时的数据,比如某一类产品的市场动态价格,往往这里数据需要从外部的API接口获得,或许还得经过复杂的计算和处理,才能形成各种指标用于决策,这种数据绝不仅仅是数据仓库能够解决的,至少需要一套接入和处理系统。
接入以后,关于外部数据的使用和处理。
外部数据比企业内部的传统数据要复杂的多,很多外部数据,必须依赖某些附加信息或在某些相关联的业务场景下才能被理解,数据才有意义,这往往会加大外部数据处理和使用的复杂性。
外部数据非常多,我们不能漫无目的的收集,企业使用外部使用,往往是先设定一个目的或预测结果,然后再收集与之相关的外部数据,并长期存储,然后用这部分外部数据,佐证这个结论正确与否,这是一类使用方法。
在这一前提下,往往收集了很多的外部数据,结果发现,这部分数据对于设定的目的,帮忙并不大,或者压根使用不上,这也很正常。
外部数据的使用和处理,已经日常流程维护,往往比企业自己的内部数据,更复杂,需要更专门的团队(因为数据不是自产的,各种来源,各种格式,维护起来有一定技术难度)。
不过,这并不是说外部数据不值得使用,恰恰说明,对于企业有用的外部数据,如何能使用好,往往会有很好的效果和收益。
那么,如何搭建一个外部处理系统,简单说一些心得和注意的细节。
先说简单的情况,某些情况下,外部数据是某些专业的数据提供商提供的,拿过来就可以使用,这部分处理起来就比较简单,或者并不需要什么处理,这不是要说的重点。
要重点说的是,某些外部数据,没有专门的数据提供商,是各种渠道收集来的,往往这数据就不能直接使用,需要企业自己处理,简单归纳了一下,有三点是首先需要企业数据团队自己去做的:
1. 数据清洗
2. 数据格式的归一化
3. 数据质量的验证
数据清洗和归一化主要是为了把收集来的数据规范化,比如数据格式,字段命名方案等等,并且把一些残缺的数据清除掉。
数据质量的验证,往往需要积累一些测试用例,用于获取的验证数据,是否符合预期,是否是想要的数据。

结论:
外部数据是复杂的,相当于企业的内存业务数据流程,复杂度往往是指数级的增加。
外部数据的处理流程,构建成本比较高,往往需要很专业的团队。
这是因为这两点,如果能成功搭建一个有效的外部数据处理系统,所带来的效果和收益,往往是惊人的,值得期待。

转发到新浪微博
除非注明,本站文章均为原创或编译,转载请注明: 文章来自程序界
分享给朋友:

轻松一刻

相关文章
随机文章
    • 暂无相关日志
    • 腾讯刘炽平:页游与社交游戏市场占有率超30%
    • 以开发者为核心:开放微博平台App.net发起众募获追捧
    • 摩托罗拉中国裁员让步:每人约增三四万元赔偿
    • 老罗写代码了
    • Google 官方证实佩奇失声,但仍在管理公司
    • 摩托罗拉成都或裁员一半 补偿费最高超10万
    • 大数据时代企业腾飞的利器:接入一套高效的外部数据系统来辅助决策
    • facebook开发出投票类app来辅助完成美国总统大选
    • 戴志康谈微信二维码运营:学会注重结果
    • 百度隐忧:流量变现曲线下滑 遭遇内容壁垒
所有评论

发表评论

取消回复

带星号*是必填项目。由于缓存,您的评论会稍后显示;请以个人的名义发表评论,昵称填写产品或网站名、评论内容附加无关网址将不通过审核。

上一篇: 好马还需要配好鞍-现代化数据体系架构是企业在大数据时代取胜的关键

下一篇: 专利文件暴露Meta元宇宙野心:克隆全人类

← 返回首页
热门资讯
本周
本月
昨日
    • 失乐园—疫情下北京手艺人众生像,当下失落的码农和相声艺人
    • 字节跳动裁撤投资部,反垄断改革举措继续深入
    • 微软将面临严格审查!斥资687亿收购暴雪或将构成垄断
    • 专利文件暴露Meta元宇宙野心:克隆全人类
    • chrome代码的编译和调试(全部过程经本人亲自验证)
    • windows下搭建android开发环境-史上最正确最清楚版
    • 简单谈一谈字符编码这点事儿
    • 这一年,过的快–我的2014年终总结
    • 个人角度谈一点对go和erlang两门语言的体会
    • 自己验证过的centos上protobuf安装过程
    • 从高级语言学起还是从c学起?
技术宅的思考
本周
    • 大数据时代企业腾飞的利器:接入一套高效的外部数据系统来辅助决策
    • 好马还需要配好鞍-现代化数据体系架构是企业在大数据时代取胜的关键
    • 细说互联网大数据时代蕴藏的创业机会
    • 盛大游戏高管再变动:董事长兼CEO谭群钊离职
    • 360搜索被指偷来的“市场第二”
    • 疑似PPS代理公司声明曝光:曾讨论收购PPTV
    • 网谣传盛大游戏,盛大在线将打包被360收购,良知网友诅咒造谣者:造谣死全家
    • 谁为京东苏宁的价格战埋单?
    • 硅谷创业公司出奇招,直接用函数作为招聘广告的标题
    • 传雅虎CEO梅耶尔要为每位员工配备iPhone
创业动态
本周
    • 密码保护:Chromium代码下载编译
    • 过去几年很火的万门大学倒闭,创始人童哲连夜跑路
    • 字节跳动裁撤投资部,反垄断改革举措继续深入
    • 2015年,年终小结
    • 国内访问gmail的方法
    • 那些年,我开发过的约炮软件-由陌陌上市谈谈im产品这点事儿
    • linux共享动态库中同名对象重复析构-两次析构或多次析构的解决办法
    • 周鸿祎冰水浇头,接受als慈善冰桶挑战
    • 一场地方网站的盛宴-5.10日车库咖啡地方站长沙龙小记
    • 一个比较靠谱的awk的学习笔记
联系我们

关于 / 关于本站

本站由 WordPress 驱动 ,主题由SoftUses 提供技术支持
沪ICP备11048881号-1

©2025