过去几年来,开源技术Apache Hadoop在BI和数据仓库专业人士当中已经变得相当流行。在本篇教程中,我们将通过回答一些关于Hadoop的常见问题来解释它的概念。
MapReduce是Google公司的核心计算模型,它将运行于大规模集群上的复杂的并行计算过程高度地抽象为了两个函数:map和reduce。Hadoop是Doug Cutting受到Google发表的关于MapReduce的论文的启发而开发出来的。
大家还认为在单一集成架构中管理获取非结构化数据、半结构化数据以及传统的行与列的数据仓库是不可能的事吗?Teradata定会让你眼前一亮。Teradata统一数据平台架构(Unified Data Architecture)的发布引领了一股新潮,就连IBM、EMC和Oracle都有可能紧随其后。
我们通常说的分布式系统其实是分布式软件系统,即支持分布式处理的软件系统,它是在通信网络互联的多处理机体系结构上执行任务的,包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。
Apache Hadoop技术经常与大数据概念联系在一起,它们常常同时出现在各种行业会议和媒体报道中。而IT人员、咨询顾问和行业分析师已经逐渐达成共识,Hadoop只是诸多大数据技术中的一种。
HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持的,并且它会通过MapReduce来实现对分布式并行任务处理的程序支持。
Hadoop这一备受瞩目的技术随着大数据的发展愈发火爆起来,许多厂商以拥有Hadoop或类似技术进入大数据领域。在刚刚举办的Strata+Hadoop World大会上,这些厂商就发布了各自的大数据产品,并且大多与Hadoop密切相关。
最近很多人都在讨论Spark这个貌似通用的分布式计算模型,国内很多机器学习相关工作者都在研究和使用它。Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。那么Spark和Hadoop有什么不同呢?
近期人气颇高的Cloudera公司在Strata大会上发布了实时SQL查询引擎Impala,一时间引起了业界的广泛关注。Impala将同之前的的MapReduce一起成为Cloudera Hadoop的原生数据处理方式。对此,著名分析师Curt Monash也发表了他的看法,Monash认为Impala将成为Hadoop转向分析型数据库的重要工具……
日前,SAP发布新的程序更新包,并将在Hadoop中集成分析和数据库技术,包括倍受追捧的HANA内存数据库平台和Sybase IQ(列式数据库)。另外,SAP还宣称该程序包将与Hadoop、SAP Data Integrator和SAP BusinessObjects BI套件进行集成。
云计算大潮有没有退去暂时谁也说不好,而就著名研究机构Gartner的最新调查报告显示,云计算领域还将保持增长趋势,而增长的幅度将会放缓,毕竟云计算已经风风火火了不少时间。而今,和云计算同样没有明确定义的一个新概念越来越流行——“大数据”。而且大数据已经开始改变了IT格局...
大数据将带动2012年全球280亿美元的IT支出,2013年带动的IT支出规模可望进一步增至340亿美元。但不可否认的是,大数据时代,没有一种方案是可以包打天下的。国内解决方案的供应商,需要通过一些实际企业应用案例实施的磨练,以及一些合作伙伴的帮助,才能真正走向成熟和商用,去挑战国外知名产品。
现在Hadoop已经发展成为包含多个子项目的集合。虽然其核心内容是MapReduce和Hadoop分布式文件系统(HDFS),但Hadoop下的Common、Avro、Chukwa、Hive、HBase等子项目也是不可或缺的。它们提供了互补性服务或在核心层上提供了更高层的服务。
Hadoop的发行版除了社区的Apache hadoop外,cloudera,hortonworks,mapR,EMC,IBM,INTEL,华为等等都提供了自己的商业版本。商业版主要是提供了专业的技术支持,这对一些大型企业尤其重要。每个发行版都有自己的一些特点,本文就各发行版做简单介绍。
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。
上周,一年一度的中国系统架构师大会(SACC)在北京福朋喜来登酒店举行,本次大会吸引了1000位来自全国各地的架构师、工程师、开发经理、DBA、运维总监、CTO来参加,为来自全国各地的专业人士搭建一个充分的交流互动平台。在这里,笔者将对本次大会做个回顾,并对本周的其他热点事件进行盘点。,。
大数据时代已经来临,并悄悄的影响着我们的生活。根据IDC最近一项研究显示,在Facebook上每20分钟就有100万个新链接被分享,1000万条用户评论被发布。Facebook和其他所有互联网网站、互联网应用,已经逐渐变成了整个数据采集、分析、处理、增值的数据架构。
接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。
曾几何时,社交网络正悄然成长起来,并逐渐成为人们工作和生活中不可或缺的一部分。如今,社交网络发展得如火如荼,Facebook就是其中的一个典型代表。Facebook作为社交网站的领头羊,最初只是为了方便大学宿舍成员之间的沟通,后来发展成用户数超过9亿、全球排名第一的社交网络。
到2020年,电子数据存储量将在2009年的基础上增加44倍,达到35万亿GB。根据IDC数据显示,截止到2010年,这个数字已经达到了120万PB,或1.2ZB