面向服务的大数据分析平台解决方案

首页    行业资讯    面向服务的大数据分析平台解决方案

一、大数据技术发展现状

  大数据时代来临,工业界是技术争霸的主战场。全球大数据产业界针对大数据特有的海量、非结构化、关系复杂、动态时变等特性以及不断涌现的各种新型应用需求,围绕海量复杂数据的存储、管理、整合、处理、分析、展现、应用等主要环节,已经形成了新的大数据产业体系。

  从发展路线角度看,业界将大数据产业划分为三大阵营:一类是以IB M、微软惠普ORACLE,EM C等为代表的传统仃领导厂商,通过“硬件十软件十数据”整体解决方案向用户提供以平台为核心的完备的基础架构与服务,并通过密集地并购大数据分析企业,以迅速增强和扩展在大数据分析领域的实力和市场份额;一类是以SA S, SPSS等为代表的专业商务智能公司,专注于智能数据分析;还有一类是以G oogle,Am azon, Facebook等互联网公司为代表,基于自身的应用平台、庞大用户群和海量用户信息,提供精准营销和个性化推荐等商业活动。以上三大阵营各有特点和优势,形成了大数据时代三足鼎立的格局。

  1.平台解决方案厂商

  以IB M、微软、惠普、ORACLE, EMC等为代表的传统IT巨头,通过“硬件+软件+数据”的整体平台向用户提供大数据一站式解决方案。IBM在过去几年连续投入160亿美元,收购了30多家与大数据相关的企业,初步实现了大数据行业应用的布局。目前IBM在软件架构层而,收购了商务智能软件供应商Cognos、统计分析软件SPSS、数据库分析供应商Netezza。结合IBM的DB2数据库,推出了支持Apache Hadoop的Info Sphere BigIn sights软件,支持大数据的应用。在硬件架构层而,IBM发布了集成了刀片服务器、存储、网络设备及相应软件系统的大数据一体机Pure Data,提供数据仓库、和数据分析等功能。

  为了应对行业竞争,数据库龙头企业ORACLE推出了0racle大数据一体机。该一体机集成了0racle Exalogic中间件服务器,  0racle Exadata数据库云服务器和0racle Exalytics商务智能云服务器形成了ORACLE企业级端到端大数据的产品线。

  通过收购 Vertica 公司,惠普推出针对大数据的Vertica 6.1 数据分析平台,突破了传统数据仓库和数据库无法实现纵向扩展的瓶颈。在大数据管理方面,Vertica 信息优化平台实现高速度、高性能、高可扩展,通过内嵌  R 语言包实现了分析功能。Vertica 数据分析平台以软件的形式存在,可以加载在不同的计算资源上运行,包括一体机,同构或异构的硬件集群,甚至是公有云环境。

  存储服务器厂商 EMC 依托其 Greenplum 数据库推出了第一款 Greenplum 一体机产品(Appliance),对原有的EMC硬件和Greenplum 软件进行了整合。Greenplum 采用不同于Oracle,DB2等数据库产品的shared-nothing 大规模并行处理(Massive Parallel Process,MPP) 架构,特别适用于大数据分析场景,可以通过增加节点方式进行横向扩展,从而有效控制成本和性能。Greenplum 包含支持结构化数据处理的 Greenplum Database 和非结构化数据处理的Greenplum HD (Hadoop)。

  整体平台解决方案厂商依靠自身原有的软件、硬件或技术优势,通过收购及整合不同公司的产品线,实现对大数据各个领域的覆盖。但是这种堆砌式的系统整合,并不能彻底的突破大数据分析的瓶颈。只有通过对自身产品和技术的原始创新,才能实现对大数据处理问题的彻底解决。

  2. 商务智能专业厂商

  以 SAS、Teradata、Hyperion、Business Objects、Cognos、SPSS 等为代表的商务智能专业厂商长期专注于智能数据分析领域,具有技术实力强、产品线丰富、深刻理解传统行业(如银行、电信、零售)应用需求等优势。近年来,随着大数据分析竞争日趋激烈,该类厂商成为传统  IT 巨头的争夺焦点,早在 2007年至 2009 年,Oracle、SAP、IBM 等 IT 巨头就已完成对商务智能前四大厂商 Hyperion、Business Objects、Cognos、SPSS 的并购。

  商务智能专业厂商在大数据时代的发力点在结构化数据处理。在大数据时代,这些厂商开始加大在高可扩展计算、非结构化数据处理、以及与业务运营集成的实时处理(即操作型商务智能)等方面的投入和创新。例如,SAS 在 2012 年推出了基于内存计算的高性能数据分析方案,核心部件包括:SAS 高性能分析服务器、SAS 可视化分析和 SAS DataFlux 数据流处

  理引擎。SAS 高性能分析服务器采用库内分析和内存计算两种解决方案。库内分析技术在数据库内实现分析的过程,用户过去开发的 SAS 程序可以直接移植使用,而且这样的分析过程无需提取数据,避免了数据传输的额外开销,分析能力极大地提高。内存计算技术则利用大内存服务器的优势,减少数据从硬盘加载到内存的机会,把数据和分析程序直接放置在内存中执行,特别适合具有迭代和嵌套模式的分析算法,极大地提高了建模处理的速度。除此之外,SAS 公司最新推出的高性能分析解决方案还采用了“SAS Visual Analytics”技术,即可视化分析,让用户及时地查看分析结果。

  Teradata 公司针对大数据处理提出了统一数据架构 (Teradata Unified Data Architecture,UDA)下的 Aster 大数据分析平台该平台继承了Teradata公司统一数据架构在数据管理方面的优势,它与大数据的收集、处理等工作紧密相连,为企业提供一个完善的数据源。UDA 通过 Hadoop 实现数据存储管理,通过 Aster 实现数据探索和分析,通过 Teradata实现统

  一的数据架构,将存储、分析与整合相互结合,实现大数据价值的一个完整的闭环。

  商务智能专业厂商(如 SAS、Teradata)凭借在数据分析领域的长期积累,在大数据的分析建模方面仍然处于行业领导地位。但是,这些产品的大数据处理能力往往依赖于高性能服务器的处理能力,虽然他们也在向 Hadoop 等分布式平台迁移,但是实际的效果还有待观察。

  3. 互联网公司

  大型的互联网巨头,如国外的 Google、Facebook、Amazon,国内的阿里巴巴百度腾讯等,基于自身海量的用户信息和互联网处理平台,依托大数据提供精准营销和个性化广告推介等商业活动。十年前,Google发表的  GFS(Google File System)、MapReduce、和 BigTable论文催生了大数据处理的事实标准Hadoop。目前,Google 通过自身开发的 Caffeine平台,直接将索引放置在分布式数据库 BigTable 上。Google 还向用户提供了大数据的虚拟服务器业务,用户可以把数据上传到 Google,采用 Google 提供的BigQuery和 Google Compute Engine等服务和基础设施完成数据查询和分析。

  Facebook 目前运行着世界上最大的 Hadoop 服务器集群,存储的数据超过了 100PB,每30 分钟可以处理的数据超过了 105TB。然而,爆炸式增长的数据使Facebook 的 Hadoop 服务器集群难以承受,出现数据雪崩问题 (avalanche of data)。为此,Facebook 开发出两种全新软件平台处理大数据的挑战,第一种叫做“Corona ( 日冕 )”,它可以实现在数目庞大的

  Hadoop 服务器之间运行大量的任务,并且不用担心软件错误会导致整个服务器集群出现崩溃。第二种叫做“Prism ( 棱镜 )”,它实现了不同地域服务器的数据自动复制和传输,使 Facebook  遍布全球数据中心的Hadoop 服务器集群的数据得到同步,形成更加庞大的Hadoop 数据集群。

  云计算服务提供商 Amazon 推出了 Amazon 弹性MapReduce(Amazon Elastic MapReduce)。弹性MapReduce 是一项能够迅速扩展的 Web 服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务平台上(Amazon S3)上。作为业界领先的云计算服务提供商,Amazon  提供网页检索、日志分析、数据挖掘、金融建模等数据密集型的任务需要的弹性云服务,动态地满足用户对于计算资源的需求。

  相对于国外互联网企业在大数据技术上的不断创新,国内互联网企业主要在大数据应用模式上创新。阿里巴巴利用旗下淘宝网的历史交易数据,推出了“淘宝指数”,相对于国外互联网企业在大数据技术上的不断创新,国内互联网企业主要在大数据应用模式上创新。阿里巴巴利用旗下淘宝网的历史交易数据,推出了“淘宝指数”,商家可以参考该指数指导生产、制定价格和控制库存。百度面对大数据时代企业需求,从数据、工具及应用三个层面规划大数据时代的企业战略。腾讯利用自身强大的社会网络通讯平台资源,通过大数据技术挖掘社会网络中的商业价值,实现了不同产品营销平台,为用户推荐感兴趣的产品和内容。

  综上所述,当前的大数据技术领域以产业引领为主,在大数据集中的领域推出相应的产品和服务。学术界主要围绕其中的难点问题展开基础性研究。目前,围绕大数据的科学研究、技术创新、系统开发和实际应用刚刚起步,无论产业界还是学术界,正处在群雄并起的“大数据春秋时期”。可以预计,在未来五至十年,大数据领域将会发展成若干核心团队、公司、典型应用的“大数据战国时代”。


2018年4月14日 01:43
浏览量:0
收藏