用户
 找回密码
 立即注册
搜索

47

主题

49

帖子

875

积分

高级会员

Rank: 4

积分
875
发表于 2017-3-23 09:46:51
                                              1504071039689711.jpg

大数据的数据有多种来源,包括公司或机构的内部来源和外部来源。数据来源可分为五大类。

1) 交易数据。包括 POS 机数据、信用卡刷卡数据、电子商务数据、互联网点击数据、“企业资源规划”(ERP)系统数据、销售系统数据、客户关系管理 (CRM) 系统数据、公司的生产数据、库存数据、订单数据、供应链数据等。

2) 移动通信数据。能够上网的智能手机等移动设备越来越普遍。移动通信设备记录的数据量和数据的立体完整度,常常优于各家互联网公司掌握的数据。移动设备上的软件能够追踪和沟通无数事件,从运用软件储存的交易数据 (如搜索产品的记录事件) 到个人信息资料或状态报告事件 (如地点变更即报告一个新的地理编码) 等。



3) 人为数据。人为数据包括电子邮件、文档、图片、音频、视频,以及通过微信、博客、推特、维基、脸书、Linkedin 等社交媒体产生的数据流。这些数据大多数为非结构性数据,需要用文本分析功能进行分析。

4) 机器和传感器数据。来自感应器、量表和其他设施的数据、定位/ GPS 系统数据等。这包括功能设备会创建或生成的数据,例如智能温度控制器、智能电表、工厂机器和连接互联网的家用电器的数据。来自新兴的物联网(IoT) 的数据是机器和传感器所产生的数据的例子之一。来自物联网的数据可以用于构建分析模型,连续监测预测性行为 (如当传感器值表示有问题时进行识别),提供规定的指令 (如警示技术人员在真正出问题之前检查设备)等。

5) 互联网上的“开放数据”来源,如政府机构,非营利组织和企业免费提供的数据。

尽管上面列出了大量的数据源,但要满足具体企业或机构的具体需要,也常常有困难。这种情况在我国更加突出。因为我国政府公开的数据非常有限。比如,即使号称为我国三大数据平台的北京、上海、贵州的政府数据网,公布的数据都非常少,非常粗略,很难被视为大数据。而非政府机构和民间企业,更不会轻易对外公布数据。此外单是获得数据还不够,还需要获得有关资料的很多细节,如对资料的说明,资料的背景,以及其他能帮助分析员理解数据的信息。如果没有这些细节,对数据的正确解读就可能有困难,数据就失去价值。而我国政府提供的很多数据常常缺乏这些细节。

因此,大数据分析的数据来源及其细节信息常常需要数据分析员的创新发现。即使对信息最开放的美国也是如此。以美国著名的娱乐城市拉斯维加斯的公司为例。尽管该市的政府已有非常详细的游客统计数据、游客调查数据,以及各研究部门的分析数据,但企业要深入了解具体游客的消费行为,仍需要采取各种创新的手段来收集数据。以哈乐斯公司为例,为尽可能地了解游客(公司的主要顾客),他们采用的创新方法包括: 通过提供各种积分,奖励和优惠鼓励游客成为公司的会员。成为会员需要填写会员申请,提供比较详细的各种个人资料,包括: 姓名、电话号码、出生年月、家庭住址等。一旦有了游客的这些数据,只要游客使用会员卡消费,公司就能够获得游客的“可辨识个人行为资料” (Personally Identi-fiable Information)。什么游客在什么时间什么地方消费了什么,消费了多久都详细记录在案,这样公司就可以针对具体的个人提供营销和服务。即使这样,公司收集的数据仍有缺陷: 公司难以收集不愿意成为会员的游客的行为数据。针对这些游客,哈乐斯公司采取的创新方法是让游客免费使用 WiFi,但前提是每天使用都需要申请,在酒店房间里使用和房间外使用要分别申请。由于游客入住酒店时公司已掌握了游客的姓名、年龄、性别、国别等资料,接下来游客只要使用 WiFi,公司就知道什么游客什么时间在房间里,什么时间离开房间,离开房间后光顾了酒店的什么餐馆、剧院、商店等 (通过手机定位系统)。

如果大数据分析涉及一个地区或城市的人口的情况,收集资料就需要了解获得的数据与有关总体的关系,以了解获得的数据有多大代表性,占总体数据的比重有多大,等等。比如,一个机构有能力收集大量的微信数据,但这并不一定能代表了解一个地方整体居民的情况,因为使用微信的人再多,也只是所有的人里面的一部分,而不是“所有的人”。同样的,互联网公司掌握的网民的数据再大,这些数据也只是一部分习惯上网的民众的数据,不一定能代表另一些没有上网习惯的人群的情况。因此,获得的任何大数据如果没有考虑样本的代表性,要根据这些数据做宏观决策就可能出现偏差。

大数据的数据收集,需要避免如下错误: 不加区别地收集数字信息,而没有收集模拟资料和自然人领域的资料; 缺乏分析模型来将注意力集中在重要信息上,发现缺口。没有使所有大数据都有地理空间特征; 没有一个全面的分析框架,使所有语言的所有信息都在超大规模 (Ex-oscale) 环境下工作。




使用道具 举报 回复
发表于 2017-3-29 16:07:10
看了,感觉不错
使用道具 举报 回复 支持 反对
好帖子不顶不行
使用道具 举报 回复 支持 反对
发表于 2017-3-31 00:05:33
请楼主继续发好贴,支持你
使用道具 举报 回复 支持 反对
发表于 2017-4-6 13:43:56
不错不错,值得学习啊!
使用道具 举报 回复 支持 反对
发表于 2017-4-7 09:39:56
值得收藏
使用道具 举报 回复 支持 反对
发表于 2017-4-7 14:32:03
说的好,一定要回复~
使用道具 举报 回复 支持 反对
发表于 2017-4-13 08:48:59
很好啊,谢谢楼主啊
使用道具 举报 回复 支持 反对
发表于 2017-4-13 16:32:26
回帖是必须的,这个可以有!
使用道具 举报 回复 支持 反对
发表于 2017-4-13 21:55:25
好东西,大家不要光看不顶
使用道具 举报 回复 支持 反对
1234下一页
发新帖