大数据管理平台是企业交付式大数据开放平台,主要作用是能够实现大数据管理套件的自动化部署、启停、配置以及监控集群状态,同平台提供多种接入手段将企业内部所有结构化和非结构化数据进行整合,为企业在运维、研发、产品、运营、等多个部门及管理层提供统一的检索、分析和挖掘的服务。
集群服务包括: HDFS、YARN、Mapreduce2、 Spark、Tez、Nagios、Ganglia 、Hive、HBase、Sqoop、ZooKeeper、HugeTable等。同时,通过接口可实现二次开发,以满足业务深入定制需求,让企业数据应用一目了然。
平台特点在统一的分布式存储之上数据平台上通过YARN提供统一的资源管理调度,结合LDAP与Kerberos提供完备的权限管理控制,不同的部门以及使用租户可以按需创建计算集群访问其授权数据,包括基于Spark计算框架的SQL类统计分析应用与数据挖掘类应用,或者基于MapReduce计算框架的应用。同时,平台通过使用Hbase结合Hive/Phoenix/Impala/SparkSQL,为用户提供基于SQL的高并发的查询以及分析能力。
在数据集成与交换方面,平台提供统一数据管道服务,支持实时与非实时的结构/非结构化的数据导入与交换能力,包括Flume提供海量数据文件的聚合汇总到HDFS的功能,Sqoop提供与关系型数据库的数据交换以及Kafka消息队列集群接收实时流数据,实时摄取关系型数据库增量事务数据(CDC)。
此外,TDP数据平台提供实时的流处理能力,通过消息队列Kafka接收实时数据流,做到数据不丢不重,通过Stream基于SparkStreaming提供类似与批处理系统的计算能力、健壮性、扩展性的同时,将数据时延降低至秒级甚至毫秒级。