大数据时代笔记
大数据时代笔记
一,大数据特点:
1,数据量大,以PB(1024TB)为计数单位
2,数据结构复杂(含有结构与非结构的不规则数据)
3,需要发掘数据价值(表面上看不到有价值的数据)
4,没有因果关系,逻辑关系,只有通过挖掘建立数据之间的某些特定相关联系
二,大数据带来的问题\
一个大规模生产,分享和应用数据时代正在开启,目前的单个计算机或者服务器已经无法满足大数据产生的大量的,复杂的,无规则的数据进行分析,计算,统计等操作
三,解决问题的方法—-云计算
云计算特点:
1,便宜–有效存储终端数据并随时分析与计算
2,精准–分析大数据结果更精准,更多的挖掘数据的隐藏价值
3,处理数据能力超强,专为大数据的解决方案
四,大数据的未来
1,成为基础设施的一部分
2,价值不会贬值,而且数据会永远保存
五,大数据带来的变化
20世纪价值已经从实体基建转变为无形财产,从工地和工厂转变为品牌和产权\
现在,一个新的价值转变为:电脑不存储和分析数据的方法取代了电脑硬件成为了价值的源泉
\
1,可以分析更多的数据,甚至可以处理特定某个两家的相关所有数据,据而不必依我倚赖随机采样
2,研究的数据太多,我们不再热衷于追求精准度,允许一些错误
3,不再热衷于寻找因果关系,而是去挖掘数据发现相关关系\
可以看一部电影《点球成金》(money ball)
大数据区别于传统数据收集的概念与三个思维转变有关:
1,利用所有的数据,而不仅仅依靠一小部分数据
2,不是让数据一定要精确,而是要混杂性
3,不是因果关系,而是相关关系\
\
- 第一章\
让数据发声
**
随机采样是小数据时代的产物,目的是以最少的数据获取最多的信息**(因为受环境与工具的限制,当时无法收集大量的数据或者如果需要花费大量时间,财力,物力得到的数据将会严重滞后)
\
随机采样天生的缺陷:
1,采样分析的精确性受样本选择随机性影响很大,比选择的样本数量影响更重要
2,随机采样确实取得了巨大成功,成为现代测量等相关领域的主心骨,但这只是在不可收集全部数据情况下选择的一种捷径,并不是完全正确的选择
**
**
而大数据则就是要把这样的样本数据替换成全部数据进行分析与计算,找出数据之前的关系,从而让数据说话
**
**
**
**
**
**
- 第二章\
不是精确性,而是混杂性
执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下的95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界窗口。
**
**
- 大数据允许错误\
- 错误并不是大数据固有的特性,而是一个亟需解决的现实问题\
- 大数据的简单算法比小数据的复杂算法更有效\
- 大数据时代让我们重新审理精确性的优劣\
- 大数据不仅让我们不再期待准确性,而且无法实现准确性
- 一个唯一真理标准是不可能的,要想获得大规模数据带来的好处,混乱是一种标准途径,而不应该竭力避免
- 关系型数据库需要向非关系型数据库转变
\
- 第三章\
不是因果关系,而是相关关系
知道是什么就可以了,没必要知道为什么
**
**
**
**
**
**
\
\
\