MPP (Massively Parallel Processing),即大规模并行处理,在数据库非共享集群中,每个节点都有独立的磁盘存储系统和内存系统,业务数据根据数据库模型和应用特点划分到各个节点上,每台数据节点通过专用网络或者商业通用网络互相连接,彼此协同计算,作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。
简单来说,MPP是将任务并行的分散到多个服务器和节点上,在每个节点上计算完成后,将各自部分的结果汇总在一起得到最终的结果(与Hadoop相似)。
它由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统。其基本特征是由多个SMP服务器(每个SMP服务器称节点)通过节点互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),是一种完全无共享(Share Nothing)结构,因而扩展能力最好,理论上其扩展无限制。
MPPDB是一款 Shared Nothing架构的分布式并行结构化数据库集群,具备高性能、高可用、高扩展特性,可以为超大规模数据管理提供高性价比的通用计算平台,并广泛地用于支撑各类数据仓库系统、BI系统和决策支持系统。
MPP采用完全并行的MPP + Shared Nothing的分布式扁平架构,这种架构中的每一个节点(node)都是独立的、自给的、节点之间对等,而且整个系统中不存在单点瓶颈,具有非常强的扩展性。
MPP 具备以下技术特征:
MPPDB与Hadoop都是将运算分布到节点中独立运算后进行结果合并(分布式计算),但由于依据的理论和采用的技术路线不同而有各自的优缺点和适用范围。两种技术以及传统数据库技术的对比如下:
特征 | Hadoop | MPPDB | 传统数据仓库 |
---|---|---|---|
平台开放性 | 高 | 低 | 低 |
运维负责度 | 高 | 中 | 中 |
扩展能力 | 高 | 中 | 低 |
拥有成本 | 低 | 中 | 高 |
系统和数据管理成本 | 高 | 中 | 中 |
应用开发维护成本 | 高 | 中 | 中 |
SQL支持 | 中(低) | 高 | 高 |
数据规模 | PB级别 | 部分PB | TB级别 |
计算性能 | 对非关系型操作效率高 | 对关系型操作效率高 | 对关系型操作效率中 |
数据结构 | 结构化、半结构化和非机构化数据 | 结构化数据 | 结构化数据 |
Hadoop在处理非结构化和半结构化数据上具备优势,尤其适合海量数据批处理等应用要求
MPP适合替代现有关系数据机构下的大数据处理,具有较高的效率
MPP适合多维度数据自助分析、数据集市等;Hadoop适合海量数据存储查询、批量数据ETL、非机构化数据分析(日志分析、文本分析)等。
内容来源于网络,如有侵权,请联系作者删除!