数据分类的维度大全 定类数据有哪些( 四 )


12.按字段的类型
l 文本类(string、char、text等)
文本类数据常用于描述性字段 , 如姓名、地址、交易摘要等 。这类数据不是量化值 , 不能直接用于四则运算 。在使用时 , 可先对该字段进行标准化处理(比如地址标准化)再进行字符匹配 , 也可直接模糊匹配 。
l 数值类(int、float、number等)
数值类数据用于描述量化属性 , 或用于编码 。如交易金额、额度、商品数量、积分数、客户评分等都属于量化属性 , 可直接用于四则运算 , 是日常计算指标的核心字段 。邮编、身份证号码、卡号之类的则属于编码 , 是对多个枚举值进行有规则编码 , 可进行四则运算 , 但无实质业务含义 , 不少编码都作为维度存在 。
l 时间类(data、timestamp等)
时间类数据仅用于描述事件发生的时间 , 时间是一个非常重要的数据分析维度 。
13.按数据的粒度
l 明细数据
通常从业务系统获取的原始数据 , 是粒度比较小的 , 包括大量业务细节 。比如 , 客户表中包含每个客户的性别、年龄、姓名等数据 , 交易表中包含每笔交易的时间、地点、金额等数据 。这种数据我们称之为明细数据 。明细数据虽然包括了最为丰富的业务细节 , 但在分析和挖掘时 , 往往需要进行大量的计算 , 效率比较低 。
l 汇总数据
为了提高数据分析效率 , 需要对数据进行预加工 , 通常按时间维度、地区维度、产品维度等常用维度进行汇总 。分析数据时 , 优先使用汇总数据 , 如果汇总数据满足不了需求则使用明细数据 , 以此提高数据使用效率 。
14.按数据的归属主体
l 政府数据
政府数据是指政府所拥有和管理的数据 , 以及政府因开展工作而产生或因管理服务需求而采集的外部大数据 , 为政府自有和面向政府的大数据 。狭义上的政府数据主要包括公安、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、环境、金融、统计及气象等数据 。
l 企业数据
企业数据是指所有与企业经营相关的信息和资料 , 包括企业概况、产品信息、经营数据及研究成果等 , 也包括企业的商业机密 。
l 个人数据
个人数据是指以电子或其他方式记录的能够单独或与其他信息结合识别自然人个人身份的各种信息 , 包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址及电话号码等 。
15.按公民个人维度
按照数据是否可识别自然人或与自然人关联 , 将数据分为个人信息、非个人信息 。
16.按公共管理维度
为便于国家机关管理数据、促进数据共享开放 , 将数据分为公共数据、社会数据 。
17.按信息传播维度
按照数据是否具有公共传播属性 , 将数据分为公共传播信息、非公共传播信息 。
18.按行业领域维度
按照数据处理涉及的行业领域 , 将数据分为工业数据、电信数据、金融数据、交通数据、自然资源数据、卫生健康数据、教育数据、科技数据等 , 其他行业领域可参考GB/T 4754—2017《国民经济行业分类》 。
19.按组织经营维度
分为用户数据、业务数据、经营管理数据、系统运行和安全数据 。
l 用户数据
组织在开展业务服务过程中从个人用户或组织用户收集的数据 , 以及在业务服务过程中产生的归属于用户的数据 。如个人用户信息(即个人信息)、组织用户信息(如组织基本信息、组织账号信息、组织信用信息等) 。
l 业务数据
组织在业务生产过程中收集和产生的非用户类数据 。如产品数据、合同协议等 。
l 经营管理数据
组织在机构经营管理过程中收集和产生的数据 。如经营战略、财务数据、并购及融资信息等 。
l 系统运行和安全数据
网络和信息系统运维及网络安全数据 。如网络和信息系统的配置数据、网络安全监测数据、备份数据、日志数据、安全漏洞信息等 。
20.按组织数据的来源
按组织数据的来源 , 分为内部数据和外部数据 。
内部数据自己单位内部产生的数据 。
外部数据指从本单位外部得到的数据 。
21.按数据的业务主题

推荐阅读