本文共 1806 字,大约阅读时间需要 6 分钟。
一、大数据:
世界的本质就是数据,大数据将开启一次重大的时代转型;大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。从因果关系到相关关系的思维变革是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心。
如今,一个大规模生产、分享和应用数据的时代正在开启。大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都被隐藏在表面之下。而发掘数据价值、征服数据海洋的动力就是云计算。互联网时代,尤其是社交网络、电子商务与移动通信把人类社会带入了一个PB(1024TB)为单位的结构与非结构数据信息的新时代。
在人类历史长河中,即使是在现代社会日新月异的发展中,人们还主要是依赖抽样数据、
局部数据和片面数据,甚至在无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去
发现未知领域的规律。因此,人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者
是无知的。维克托指出,大数据时代的来临使人类第一次有机会和条件,在非常多的领域和非
常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过
去不可能获取的知识,得到过去无法企及的商机。
大数据的出现,使得通过数据分析获得知识、商机和社会服务的能力从以往局限于少数象
牙塔之中的学术精英圈子扩大到了普通的机构、企业和政府部门。门槛的降低直接导致了数据
的容错率提高和成本的降低,但正如维克托所强调的,最重要的是人们可以在很大程度上从对
于因果关系的追求中解脱出来,转而将注意力放在相关关系的发现和使用上。只要发现了两个
现象之间存在的显著相关性,就可以创造巨大的经济或社会效益,而弄清二者为什么相关可以
留待学者们慢慢研究。大数据之所以可能成为一个 “ 时代 ” ,在很大程度上是因为这是一个可以
由社会各界广泛参与,八面出击,处处结果的社会运动,而不仅仅是少数专家学者的研究对
象。
大数据将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电和通信网络
一样不可或缺。但就其价值特性而言,大数据却和这些物理化的基础设施不同,不会因为人们
的使用而折旧和贬值。例如,一组 DNA 可能会死亡或毁灭,但数据化的 DNA 却会永存。所以,
维克托赞同许多物理学家的看法,世界的本质就是数据。因此,大数据时代的经济学、政治
学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体
系、知识体系和生活方式。哲学史上争论不休的世界可知论和不可知论将会转变为实证科学中
的具体问题。可知性是绝对的,无事无物不可知;不可知性是相对的,是尚未知道的意思。
大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构,以及政府与公民关系的方法。
就像望远镜能够让我们感受宇宙,显微镜能够让我们观测微生物,这种能够收集和分析海
量数据的新技术将帮助我们更好地理解世界 —— 这种理解世界的新方法我们现在才意识到。
在小数据时代,我们会假想世界是怎么运作的,然后通过收集和分析数据来验证这种假
想。在不久的将来,我们会在大数据的指导下探索世界,不再受限于各种假想。我们的研究始
于数据,也因为数据我们发现了以前不曾发现的联系。因此,大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。
二、狭义hadoop:
狭义的hadoop就是hadoop本身,主要处理海量离线数据的分析和存储。
1、HDFS:海量数据存储。
2、MapReduce:海量数据分析,业务算法需自己编程处理。
3、YARN:负责资源调度。
三、广义的hadoop:
广义的hadoop指hadoop平台,包含许多相关技术,主要处理海量离线/在线数据的分析和存储。
1、hadoop
2、storm
3、spark
4、hive
5、hbase
......
注意:2、3、4、5...类MapReduce,业务算法2、3、4、5已实现,用时只需调度即可,
主要负责海量数据的分析。
本文转自lzf0530377451CTO博客,原文链接:http://blog.51cto.com/8757576/1765286 ,如需转载请自行联系原作者