大数据技术的发展是一个非常典型的技术工程的发展过程 , 荣辛通过对于谷歌经典论文的盘点 , 希望可以帮助工程师们看到技术的探索、选择过程,以及最终历史告诉我们什么是正确的选择 。
何为大数据
“大数据”这个名字流行起来到现在,差不多已经有十年时间了 。在这十年里,不同的人都按照自己的需要给大数据编出了自己的解释 。有些解释很具体 , 来自于一线写 Java 代码的工程师,说用 Hadoop 处理数据就是大数据;有些解释很高大上 , 来自于市场上靠发明大词儿为生的演说家 , 说我们能采集和处理全量的数据就是大数据,如果只能采集到部分数据 , 或者处理的时候要对数据进行采样,那就不是大数据 。
在笔者看来,其实“大数据”技术的核心理念是非常清晰的,基本上可以被三个核心技术理念概括 。
- 服务器规模:能够伸缩到一千台服务器以上的分布式数据处理集群的技术 。
- 服务器架构:这个上千个节点的集群,是采用廉价的 PC 架构搭建起来的 。
- 编程模式:“把数据中心当作是一台计算机”(Datacenter as a Computer) 。
笔者认为,Google 能成为散播大数据火种的人,是有着历史的必然性的:作为一个搜索引擎,Google 在数据层面,面临着比任何一个互联网公司都更大的挑战 。无论是 Amazon 这样的电商公司,还是 Yahoo 这样的门户网站 , 都只需要存储自己网站相关的数据 。而 Google,则是需要抓取所有网站的网页数据并存下来 。而且光存下来还不够,早在 1999 年,两个创始人就发表了 PageRank 的论文,也就是说,Google 不只是简单地根据网页里面的关键字来排序搜索结果,而是要通过网页之间的反向链接关系,进行很多轮的迭代计算,才能最终确认排序 。而不断增长的搜索请求量,让 Google 还需要有响应迅速的在线服务 。
三驾马车和基础设施
面对存储、计算和在线服务这三个需求,Google 就在 2003、2004 以及 2006 年,分别抛出了三篇重磅论文 。也就是我们常说的“大数据”的三驾马车:
推荐阅读
- .NET 源码学习 [数据结构-线性表1.2] 链表与 LinkedList<T>
- 斗罗大陆电视剧什么时候播_斗罗大陆电视剧定档时间
- 元数据性能大比拼:HDFS vs S3 vs JuiceFS
- 叫我大掌柜2022巅峰商会战活动详解攻略
- 百变大侦探罗夫尔斯庄园谜案剧本真相详解
- 小米大师65寸oled烧屏吗_小米大师65寸oled使用评测
- 我没用过苹果手机,想问一下,大家用过苹果手机长久的感受如何
- JS数据结构与算法-队列结构
- 叫我大掌柜2022史莱克学院活动攻略大全
- 成语故事大全 短小成语故事大全100篇