分享以下大数据处理工具 大数据处理工具有哪些?( 四 )


Apache Griffin官网:http://griffin.apache.org/

分享以下大数据处理工具 大数据处理工具有哪些?

文章插图
数据质量管理是数据系统中不可或缺的一环,初期的时候我们往往在ETL的各个阶段,加入一些简单的脚本来对生成的数据进行检查,而Apache Griffin也是一款这样的产品,它是由eBay开发的一个数据质量监控平台,后上升为Apache顶级项目 。 它提供了数据校验和报警的功能,也支持一些参数的可视化展现,相关的配置步骤都可以在Griffin的页面上完成 。 除了能完成一些最基本最简单的诸如是否存在异常值的数据检查,也能完成一些诸如最值、中值的数据统计需求等等,并且提供了专业的图表报告 。
Apache Zeppelin官网:http://zeppelin.apache.org/
Zeppelin是一款非常方便的在线笔记本,使用体验有点像Python的Jupyter NoteBook,可以从图中看到使用者可以在线执行,并绘制简单的图表 。 并且Zeppelin有了用户的概念,使得多人协同工作更加方便 。 Zeppelin支持了非常多的数据源,通过该平台,可以调用Hive、Cassandra、R、Kylin、Flink、Spark、ElasticSearch、HBase、Python、Shell等等 。
我在使用时出现了Spark连接不稳的情况,需要使用者反复登录才可以 。 但总之我还是非常喜欢这款工具的 。
Apache Superset官网:http://superset.apache.org/
Superset是一款开源的可视化工具,使用该工具可以方便快速的创建数据Dashboard,同类型的产品还有Redash、Metabase,但调研过后个人还是更喜欢Superset一些 。 不过因为同期引入了Tableau,Superset并没有在实际项目中使用 。
Tableau官网:https://www.tableau.com/
和介绍的其它软件不同,Tableau是一款商用软件,根据购买的账号数量按年付费,之所以这里提到它,也是因为Tableau在BI领域内的名气着实有点高 。 Tableau分为Server端和本地客户端,使用者通过在客户端上的拖拽,即可快速生成一个数据Dashboard,使得Dashboard的开发工作从开发侧下放到了需求方 。 并且Tableau也提供了完备的用户管理功能,还支持了非常多的数据源 。 商业软件和开源软件比起来,无论功能完备性上还是使用体验上,的确都有明显的提升 。 我觉得唯一的难度可能就是如何把这个开发维护的工作在需求方落地吧,毕竟它还是有一些学习成本的 。
TPCx-BB官网:http://www.tpc.org/
TPC全称是事务处理性能委员会,是由数十家公司组成的非盈利性组织,负责订制各个行业的基准测试规范,阿里巴巴的MaxCompute和OceanBase都参加过该项测试,并取得了非常好的成绩 。 TPCx-BB是一个大数据基准测试工具,该工具模拟了一个网上零售的场景,首先工具会先向被测系统中插入预定好的表和数据,然后经过一系列的SQL操作,来对大数据集群的性能进行评估 。 TPC针对不同的被测场景,提供了很多现成的工具,可以供大家下载使用:
http://www.tpc.org/tpc_documents_current_versions/current_specifications5.asp

推荐阅读