利用Pandas处理数据缺失值的处理数据库的使用 python-数据描述与分析2( 二 ) _生活百科

#output aabbccddaNaNNaNNaNNaNb4.05.06.07.0c8.09.010.011.0d12.013.014.015.0print (df.fillna(0.0)) #fillna 默认会返回新的对象#output aabbccdda0.00.00.00.0b4.05.06.07.0c8.09.010.011.0d12.013.014.015.0#也可以像dropna 操作一样进行必要的限定而不是所有的值都进行填充#print df.fillna({1:0.5,2:5.5)#测试失败#当需要在旧的对象上进行更改，而不是经过过滤返回一个新的对象时df.fillna(0.5,inplace = True)df#outputaabbccdda0.50.50.50.5b4.05.06.07.0c8.09.010.011.0d12.013.014.015.0#也可以选择一些线性插值进行填充df.loc[:1,:] = np.nandf.fillna(method ="bfill")#后向寻值填充#outputaabbccdda4.05.06.07.0b4.05.06.07.0c8.09.010.011.0d12.013.014.015.0df.fillna(df.mean())#使用平均值进行填充#outputaabbccdda8.09.010.011.0b4.05.06.07.0c8.09.010.011.0d12.013.014.015.0另外，在处理缺失值时除了以上介绍的简单操作之外，更多的时候需要根据数据挖掘需要或者程序运行方面灵活地进行缺失值处理，程序是人为设定的规则，但针对这些规则进行优化组合，将会带来新的效果
3.数据库的使用关于数据库的使用，虽然各大厂商都在追捧NOSQL,但是目前使用最多的还是关系型数据库（MySQL、SQLServer、PostgreSql等）。总体而言，数据库的选择取决于其性能、数据完整性及应用程序的需求等。在这里我们使用python内置的sqlite3驱动器，操作过程如下所示：
#sql MySqlimport sqlite3 as sql#首先我们需要导入sqlite3包#现在我们使用的是python内置的数据库#创建数据库表（table）query = "create table test(a varchar(20),b varchar(20),c real,d integer);"con = sql.connect(":memory:")#可以看出它是内置数据库而且此处又使用memory#因此它的处理是放在内存进行处理的内置操作con.execute(query)con.commit()#对刚才创建的test表写入数据#insert datadata = https://www.huyubaike.com/biancheng/[("UCAS","NSLCAS",0.5,1),("UCAS","NSLCAS",0.5,2),("UCAS","NSLCAS",0.5,3),("UCAS","NSLCAS",0.5,4)]stmt="insert into test values(?,?,?,?)"con.executemany(stmt,data)#多行方式写入，如果单行模式用con.executecon.commit#查找数据#select datasql_str="select*from test"cursor=con.execute(sql_str)rows=cursor.fetchall()rows#output[('UCAS', 'NSLCAS', 0.5, 1), ('UCAS', 'NSLCAS', 0.5, 2), ('UCAS', 'NSLCAS', 0.5, 3), ('UCAS', 'NSLCAS', 0.5, 4)]#说明：查找的数据是我们刚才写入的数据关键的地方才正式开始：通过获取的数据rows生成DataFrame（这里是建立数据库中数据同pandas数据对象DataFrame之间关系的关键）import pandas as pdcolumn =list(zip(*cursor.description))[0]#获取列名df = pd.DataFrame(rows,columns = column)df#书本上写的是：column = zip(*cursor.description)[0]

文章插图
#错误：'zip' object is not subscriptable#解决办法：使用list包装zip对象#代码：column =list(zip(*cursor.description))[0]#注意[0]是在list的括号()外
#outputabcd0UCASNSLCAS0.511UCASNSLCAS0.522UCASNSLCAS0.533UCASNSLCAS0.54优化：之前的操作看似简单流畅，但是针对具体应用来看不是很理想，原因在于我们需要对数据库的每次操作进行代码的重写，这样既耗时又耗力，庆幸的是pandas提供了一组方法帮我们解决类似难题。
#pandas 针对该种繁琐的操作提供了更加优化的方式进行数据访问import pandas.io.sql as pdsql#需要导入这个库pdsql.read_sql_query("select * from test",con)#当然con都是同样的#outputabcd0UCASNSLCAS0.511UCASNSLCAS0.522UCASNSLCAS0.533UCASNSLCAS0.54另外，也就是说read_sql_query(查询语句，连接)返回的就是我们需要的数据格式DataFrame，仅用此句代码搞定。当然这里只是抛砖引玉，当真正需要同数据库进行数据交互时，查询相关文档时最好的方式.

利用Pandas处理数据缺失值的处理数据库的使用 python-数据描述与分析2( 二 )

推荐阅读

伶人是男是女

2020疫情期间蓝梦海洋王国开园时间

崂山特产都有什么，青岛崂山的特产与介绍

炒茄子怎么做好吃窍门炒茄子怎么做好吃窍门图片

古风诗意的句子古风诗意的句子是什么

观香看事可信吗观香是什么意思

新宝马5果断黑色宝马5系黑色

让天蝎男疯狂的水瓶女天蝎男一生难忘的水瓶女

客来福衣柜与好莱客衣柜哪个质量好好莱客衣柜怎么样

健康平安的名字新生儿取名方法

钟原赵欣是什么电视剧啊钟原赵欣是什么电视剧啊?

男女初次见面送的花第一次约会送什么礼物好

天天酷跑五星宠物哪个比较好一些[多图]

铁锈水滴在车上怎么洗锈水滴在车上怎么清洗

四大民间故事分别指什么

长沙市毕业生档案存放地址长沙高校毕业生档案信息查询指南

铁线莲的种子播种 * 和注意事项铁线莲种子播种前的处理 *

苹果13激活时间查看技巧苹果如何查询手机激活时间

2021一2022女排超级联赛时间表 2021一2022女排超级联赛时间

小伤痕容易导致车体生锈车身容易生锈

利用Pandas处理数据 缺失值的处理 数据库的使用 python-数据描述与分析2( 二 )

推荐阅读

利用Pandas处理数据缺失值的处理数据库的使用 python-数据描述与分析2( 二 )