数据格式有哪几种,数据系列格式 。小编来告诉你更多相关信息 。
文章插图
文章插图
Spark 常用文件格式
介绍:Apache Spark支持许多不同的数据格式 , 例如无处不在的CSV格式和Web友好的JSON格式 。主要用于大数据分析目的的常见格式是Apache Parquet和Apache Avro 。
在本文中 , 我们将使用Apache Spark来介绍这四种格式的特性-CSV , JSON , Parquet和Avro 。
CSVCSV(逗号分隔值)文件通常用于在使用纯文本的系统之间交换表格数据 。CSV是基于行的文件格式 , 这意味着文件的每一行都是表中的行 。基本上 , CSV包含一个标题行 , 该标题行提供了数据的列名 , 否则 , 文件被认为是部分结构化的 。
CSV文件最初不能显示层次结构或关系数据 。数据连接通常使用多个CSV文件进行组织 。外键存储在一个或多个文件的列中 , 但是这些文件之间的链接不是由格式本身来表示的 。另外 , CSV格式尚未完全标准化 , 因此文件可以使用逗号以外的定界符 , 例如制表符或空格 。
CSV文件的其他属性之一是 , 仅当它是未压缩的原始文件或使用可拆分压缩格式(例如bzip2或lzo)时 , 它们才可以拆分(注意:lzo需要索引才能可拆分!) 。
好处:
·CSV是人类可读的 , 并且易于手动编辑 。
·CSV提供了简单明了的信息模式 。
·几乎所有现有应用程序都能处理CSV 。
·CSV易于实现和解析 。
·CSV紧凑 。对于XML , 您可以为每行中的每一列添加开始标签和结束标签 。在CSV中 , 您只需写入一次列标题 。
缺点:
·CSV允许使用平面数据 。除了格式外 , 还需要处理复杂的数据结构 。
·不支持列类型 。文本列和数字列之间没有区别 。
·没有表示二进制数据的标准方法 。
·导入CSV的问题(NULL和引号之间没有区别) 。
·特殊字符支持差 。·缺乏通用标准 。
尽管存在局限性 , 但CSV文件还是数据共享的流行选择 , 因为它们得到了广泛的业务应用程序 , 消费者和科学应用程序的支持 。同样 , 大多数批处理和流数据处理模块(例如Spark和Hadoop)最初都支持CSV文件的序列化和反序列化 , 并提供了在读取时添加架构的方法 。
JSON格式JSON数据(JavaScript对象表示法)以部分结构化格式表示为键值对 。JSON通常与XML进行比较 , 因为它可以按分层格式存储数据 。子数据由父数据显示 。两种格式都是自描述的 , 并且可由用户读取 , 但是JSON文档通常要小得多 。因此 , 它们更常用于网络通信中 , 尤其是随着基于REST的Web服务的出现 。
由于许多数据传输已经使用JSON格式 , 因此大多数Web语言最初都支持JSON或使用外部库对JSON数据进行序列化和反序列化 。由于有了这种支持 , JSON通过显示数据结构 , 热数据的交换格式和冷数据存储以逻辑格式使用 。
许多批处理和流数据处理模块本机支持JSON序列化和反序列化 。尽管JSON文档中包含的数据最终可以以性能更优化的格式(例如Parquet或Avro)存储 , 但它们提供原始数据 , 这对于重新处理数据非常重要(如有必要) 。
JSON文件具有以下优点:
·JSON支持分层结构 , 简化了一个文档中相关数据的存储和复杂关系的表示 。
·大多数语言都提供简化的JSON序列化库或对JSON序列化/反序列化的内置支持 。
·JSON支持对象列表 , 有助于避免列表到关系数据模型的错误转换 。
·JSON是NoSQL数据库(例如MongoDB , Couchbase和Azure Cosmos DB)广泛使用的文件格式 。
·当今大多数工具中的内置支持 。
ParquetParquet于2013年推出 , 由Cloudera和Twitter开发 , 用作基于列的存储格式 , 已针对多列数据集进行了优化 。由于数据是按列存储的 , 因此可以进行高度压缩(压缩算法对信息熵较低的数据(通常包含在列中)的性能更好) , 并且可以拆分 。该格式的开发者声称 , 这种存储格式非常适合大数据问题 。
与CSV和JSON不同 , Parquet文件是二进制文件 , 其中包含有关其内容的元数据 。因此 , 无需读取/解析文件的内容 , Spark可以仅依靠元数据来确定列名称 , 压缩/编码 , 数据类型 , 甚至一些基本统计信息 。Parquet文件的列元数据存储在文件的末尾 , 从而可以进行快速的一次性写入 。
推荐阅读
- 已损坏硬盘数据恢复教程 硬盘故障怎么快速修复
- 电脑数据恢复收费标准 笔记本数据恢复多少钱
- dxf格式文件用什么软件打开 dxf格式用什么软件打开
- 0TG数据线怎么用 数据线怎么用
- 数据分析报告写作攻略 什么是策略性思考
- 详述华为nova系列好评率最高的三款手机 华为nova系列哪款性价比高
- 小米手机清除用户数据后开不了机,有什么解决的办法? 快来这里看解决途径
- 怎么格式化iphone 苹果怎么格式化电脑
- 大数据营销的特点以及运营方式 大数据推广是什么
- 苹果手机如何迁移数据 如何将安卓手机数据导入iphone7