问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

python中怎么看缺失数据却了多少个

发布网友 发布时间:2024-09-08 18:17

我来回答

1个回答

热心网友 时间:2024-10-03 20:24

导读:今天首席CTO笔记来给各位分享关于python中怎么看缺失数据却了多少个的相关内容,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

python数据分析使用的数据

1、对数据进行排序df.sort_values()

#读取数据

titanic_survival=pd.read_csv(r"C:Userspythonwandata_minepython_pandasitanic_train.csv")

#用sort_values()函数对指定列排序,默认升序排序,inplace=True表示在原来的df上排序titanic_survival.sort_values(("Age"),inplace=Tru

2、缺失值判断及统计pandas.isnull()、pandas.isnull

空值统计方法一:df.isnull().sum():

#当不指定具体列时,统计整个df的缺失值个数

titanic_survival['Age'].isnull().sum()

通过len()函数统计缺失值

3、缺失值处理

处理缺失值可以分为两类:删除缺失值和缺失值插补。而缺失值插补又分为以下几种:

均值/中位数/众数插补

使用固定值(将缺失值的属性用一个常量代替)

最近邻插补(在记录中找到与缺失值样本最接近的样本的该属性插补)

回归方法(对带有缺失值的变量,根据已有数据和与其有关的其他变量建立拟合模型来预测缺失值)

插值法(利用已知点建立合适的插值函数f(x),未知值由对应点xi求出来近似代替)

下面,我们主要讨论删除缺失值,学习一些pandas缺失值删除的操作。

1)df.dropna(),舍弃含有任意缺失值的行

#等价于titanic_survival.dropna(axis=0)axis=0表示删除行,axis=1表示删除列

dropall=titanic_survival.dropna()

删除含任意空值的行

2)df.dropna()函数删除某个列中含有空值的行

现在这个数据中age、cabin、embarked都有缺失值,如果我们直接使用df.dropna()会删除掉这三列中都有空值的所有行,但是我们希望只删除age列中有空值的数据,那该如何处理呢?

直接使用df.dropna(subset=['column_list'])

drop_age_null=titanic_survival.dropna(subset=["Age"])

删除指定列中含有缺失值的行

pandas自定义函数

python检查是否有缺失值

统计data里每一列是否有空值:

data.isnull().any()

统计data里每一列空值的个数:

data.isnull().any().sum()

但是有的时候,明明有空值却统计不出来。

最近我遇到的数据,空值的填充是null,这个需要转化一下才可以用上面的函数。

data?=?data.replace('null',np.NaN)

然后你再继续用data.isnull().any(),ata.isnull().any().sum()就没问题了。

如果这么做,你的问题还没解决,查看你的缺失值的填充是什么,用np.NaN替代。、

另外的方法:

np.any(np.isnan(data))

np.all(np.isfinite(data))

Python数据分析案例-药品数据分析案例

最近学习了python数据分析的一些基础知识,有numpy,pandas,matplotlib等,找了一个药品数据分析的小项目练一下手。

数据分析的步骤一般可以分为6个:

1,明确分析的目的

2,数据准备

3,数据清洗

4,数据分析

5,数据可视化

6,分析报告

数据分析的目的:

通过对朝阳区医院的药品销售数据的分析,了解朝阳医院的患者的月均消费次数,月均消费金额、客单价以及消费趋势、需求量前几位的药品等。

数据准备

数据是存在Excel中的,可以使用pandas的Excel文件读取函数将数据读取到内存中,这里需要注意的是文件名和Excel中的sheet页的名字。读取完数据后可以对数据进行预览和查看一些基本信息。

通过数据的基本信息可以看出来,总行数6578,但是社保卡号只有6576,其他行只有6577行,说明存在缺失值,这些将在数据清洗中进行处理。

数据清洗

数据清洗过程一般包括:选择子集、列名重命名、缺失数据处理、数据类型转换、数据排序及异常值处理等。

(1)选择子集

在我们获取到的数据中,可能数据量非常庞大,并不是每一列都有价值都需要分析,这时候就需要从整个数据中选取合适的子集进行分析,这样就可以提高效率。但是这个案例数据列较少,可以忽略这一步。

(2)列名重命名

在数据分析过程中,有些列名和数据容易混淆或产生歧义,不利于数据分析,这时候需要把列名换成容易理解的名称,可以采用rename函数实现:

(3)缺失数据处理

通过查看基本信息可以推测“社保卡号”这列存在缺失值,如果不处理这些缺失值会干扰后面的数据分析结果。缺失数据常用的处理方式有:删除缺失值,一般用于少量缺失值,对整体数据影响不大的情况;平均值填充,对于数值型常用;算法填充等。在本次案例中缺失值商量很少,直接使用dropna函数删除缺失数据。

(4)数据类型转换

在导入数据时为了防止导入不进来,会强制所有数据都是object类型,但实际数据分析过程中“销售数量”,“应收金额”,“实收金额”,这些列需要浮点型(float)数据,“销售时间”需要改成时间格式,因此需要对数据类型进行转换,可以使用astype()函数。

(5)异常值处理

查看数据的描述统计信息:我们可以看到最小值出现了负数,原因是销售数量的值为负数,需要将销售数量小于0的数据剔除掉。

数据分析及可视化

这里涉及到的数据可视化的部分并不多所以将数据分析和可视化结合起来,数据分析之前我们应该确定分析的指标。

(1)指标1:月均消费次数?计算:月均消费次数=总消费次数/月份数

(2)指标2:月均消费金额?计算:月均消费金额=总消费金额/月份数

(3)指标3:客单价?计算:客单价=总消费金额/总消费次数

(4)指标4:消费趋势

每天的消费金额分布情况:一横轴为时间,纵轴为实收金额画散点图。

结论:从散点图可以看出,每天消费金额在500以下的占绝大多数,个别天存在消费金额很大的情况。

月消费金额变化趋势,将销售时间按月聚合分组,然后求出分组后的累计金额,画出折线图。

结论:1月,4月,5月,6月的消费金额变化不大,基本持平,2月和3月金额较低,可能是受春节假期影响,部分外来居民回家了,7月份最低是因为数据不全造成的。

药品销售情况分析,对“商品名称”和“销售数量”这两列数据进行聚合为Series形式,方便后面统计。

结论:对于销售量排在前几位的药品,医院应该时刻关注,保证药品不会短缺而影响患者。

Python数据分析(八):农粮组织数据集探索性分析(EDA)

这里我们用FAO(FoodandAgricultureOrganization)组织提供的数据集,练习一下如何利用python进行探索性数据分析。

我们先导入需要用到的包

接下来,加载数据集

看一下数据量,

看一下数据的信息,

我们先来看一下variable,variable_full这两列的信息,

看一下统计了多少国家,

看一下有多少个时间周期,

看一下时间周期有哪些,

我们看一下某一列某个指标的缺失值的个数,比如variable是total_area时缺失值的个数,

我们通过几个维度来进行数据的分析:

我们按照上面的处理继续,现在我们想统计一下对于一个时间周期来说,不同国家在这个周期内的变化情况,

我们也可以按照国家分类,查看某个国家在不同时期的变化,

我们还可以根据属性,查看不同国家在不同周期内的变化情况,

我们还可以给定国家和指标,查看这个国家在这个指标上的变化情况,

我们还有region(区域)没有查看,我们来看一下:

通过上图可以看出,区域太多,不便于观察,我们可以将一些区域进行合并。减少区域数量有助于模型评估,可以创建一个字典来查找新的,更简单的区域(亚洲,北美洲,南美洲,大洋洲)

我们来看一下数据变化,

紧接着上面的数据处理,我们重新导入一下包,这次有一些新包,

我们看一下水资源的情况,

通过上图可以看出只有一小部分国家报告了可利用的水资源总量,这些国家中只有极少数国家拥有最近一段时间的数据,我们将删除变量,因为这么少的数据点会导致很多问题。

接下来我们看一下全国降雨指数,

全国降雨在2002年以后不再报到,所以我们也删除这个数据,

我们单独拿出一个洲来进行分析,举例南美洲,我们来看一下数据的完整性,

我们也可以指定不同的指标,

接下来,我们使用pandas_profiling来对单变量以及多变量之间的关系进行统计一下,

这里我们要计算的是,比如

我们按照rural_pop从小到大进行排序,发现的确有几个国家的农村人口是负数,

人口数目是不可能小于0,所以这说明数据有问题,存在脏数据,如果做分析预测时,要注意将这些脏数据处理一下。

接下来我们看一下偏度,我们规定,

正态分布的偏度应为零,负偏度表示左偏,正偏表示右偏。

偏度计算完后,我们计算一下峰度,峰度也是一个正态分布,峰度不能为负,只能是正数,越大说明越陡峭,

接下来我们看一下,如果数据分布非常不均匀该怎么办呢,

上图是2013-2017年国家总人数的分布,通过上图我们发现,人口量少于200000(不考虑单位)的国家非常多,人口大于1200000的国家非常少,如果我们需要建模的话,这种数据我们是不能要的。这个时候我们应该怎么办呢?

通常,遇到这种情况,使用log变换将其变为正常。对数变换是数据变换的一种常用方式,数据变换的目的在于使数据的呈现方式接近我们所希望的前提假设,从而更好的进行统计推断。

接下来,我们用log转换一下,并看一下它的偏度和峰值,

可以看出偏度下降了很多,减少了倾斜。

可以发现峰度也下降了,接下来我们看一下经过log转换后的数据分布,

虽然数据还有一些偏度,但是明显好了很多,呈现的分布也比较标准。

首先我们先来看一下美国的人口总数随时间的变化,

接下来,我们查看北美洲每个国家人口总数随着时间的变化,

这个时候我们发现,一些国家由于人口数量本身就少,所以整个图像显示的不明显,我们可以改变一下参照指标,那我们通过什么标准化?我们可以选择一个国家的最小、平均、中位数、最大值...或任何其他位置。那我们选择最小值,这样我们就能看到每个国家的起始人口上的增长。

我们也可以用热度图来展示,用颜色的深浅来比较大小关系,

接下来我们分析一下水资源的分布情况,

我们可以进行一下log转换,

我们用热度图画一下,

连续值可以画成散点图,方便观看,

我们来看一下随着季节变化,人均GDP的变化情况,

相关程度:

相关度量两个变量之间的线性关系的强度,我们可以用相关性来识别变量。

现在我们单独拿出来一个指标分析是什么因素与人均GDP的变化有关系,正相关就是积极影响,负相关就是消极影响。

当我们在画图的时候也可以考虑一下利用bined设置一下区间,比如说连续值我们可以分成几个区间进行分析,这里我们以人均GDP的数量来进行分析,我们可以将人均GDP的数据映射到不同的区间,比如人均GDP比较低,比较落后的国家,以及人均GDP比较高,比较发达的国家,这个也是我们经常需要的操作,

做一下log变换,这里是25个bin

我们指定一下分割的标准,

我们还可以看一下人均GDP较低,落后国家的内部数据,下面我们看一下内部数据分布情况,用boxplot进行画图,

对于这部分的分布,我们还可以统计看一下其他指标,如下图所示,我们还可以看一下洪水的统计信息,

为什么有缺失值python却查找不出来

采集器故障。在使用python进行数据分析时,有缺失值python却查找不出来是因为采集器故障,数据集中出现缺失值、空值、异常值,那么数据清洗就是尤为重要的一步。

结语:以上就是首席CTO笔记为大家整理的关于python中怎么看缺失数据却了多少个的相关内容解答汇总了,希望对您有所帮助!如果解决了您的问题欢迎分享给更多关注此问题的朋友喔~

python中怎么看缺失数据却了多少个

1、对数据进行排序df.sort_values() #读取数据 titanic_survival=pd.read_csv(r"C:Userspythonwandata_minepython_pandasitanic_train.csv") #用sort_values()函数对指定列排序,默认升序排序,inplace=True表示在原来的df上排序titanic_survival.sort_values(("Age"),inplace=Tru 2、缺失值判断及统计pandas.isnu...

python检测一列有多少?

在python中,可以使用info()函数查看整个数据的详细信息。 printdata.info() 输出 RangeIndex:7entries,0to6 Datacolumns(total3columns): Gene7non-nullobject Size7non-nullint64 Function5non-nullobject dtypes:int64(1),object(2) memoryusage:240.0+bytes None 此外,还可以通过shape,column,index,values,dtypes...

python怎么查看数据有多少条记录(2023年最新整理)

(5)执行sql语句,查询记录:cur.execute("select语句")执行成功后cur变量中保存了查询结果记录集,然后再用循环打印结果:foreachincur:print(each[1].decode('utf-8'))#each[1]表示当前游标所在行的的第2列值,如果是中文则需要处理编码 python数据分析怎样查有多少行数据from?__future__?import?

6.python高频函数-处理缺失值isnull()、fillna()、dropna()

首先,我们有isnull()和isna()这两个函数。它们的作用是检查DataFrame或Series中的每个元素是否为NaN。如果元素缺失,返回True,否则为False。例如,你可以通过这些函数快速检查数据集中的空白值。接着,all()和any()函数能辅助我们深入理解缺失值的情况。all()函数用于检查每一行或列的所有元素是否全为...

python查看数组有多少行(python查看数组里面元素个数)

4、python数据分析模块:numpy、pandas全解5、python 二元数组列数怎么统计?Python中数组的基本操作 先定义一个数组列表: 列表合并也可以用+,但是用+的话,会产生一个新的列表(当然也可以赋值给任何的变量),而extend则只是修改了原来的对象 只读数组,只能查看不能编辑,列表的切片操作同样适于元组。 表达方式:tuple=(...

python统计输出多少次(python找出输入数的次数)

1、python统计字符串中字母数字出现的次数2、python3如何统计通过循环输出的结果的个数?3、python最大值重复怎么都输出4、Python读取一个字符串,并循环输出几遍5、python中怎么输出一个字符串25遍?6、pythonpandas统计某一数据出现多少次python统计字符串中字母数字出现的次数Python统计字符串中字母数字出现...

python统计出现多少次标点(python统计某个字符出现次数)

1、自定义函数:打开PyCharm,自定义一个函数“def+函数名”。2、输入字符串:定义函数后,输入字符串并保存至变量中。3、统计次数:使用for循环统计某个字母出现的次数,最后返回num的值。4、输出函数:最后输出函数“print(函数名())”。python怎么计算字符出现次数如果要统计英文字符出现的次数,可以...

python看数据集多少个值(2023年最新整理)

python查看dataframe每列有多少个不同元素方法一:mylist=set(say)???#say为所要统计的列表??foriteminmylist:??#将列表中的元素无重复的抽取出来,赋值给另一个列表 printitem+str(say.count(item))???#list.count(item)?输出item在list中出现的次数 方法二:counts={}???#字典 forxintime_z...

python怎么看输出多少次(python怎么记录输出循环次数)

pythonpandas统计某一数据出现多少次输入:importpandasaspd data0=[0,1,2,0,1,0,2,0]pd.value_counts(data0)输出每个数出现的频数:04 22 12 (0出现4次,2出现2次,1出现两次)python怎么计算字符出现次数如果要统计英文字符出现的次数,可以设置一个128个元素的数组,初始化全部清零,对每一个...

判断一个字符串有多少个字符python?

python语言中如何判断一个字符串有多少位?用len,或者用下面这个啦 length=0 some_str="tooyoungtoosimple"whileTrue:try:some_str[L]length+=1 except:break python函数统计字符串中字母数学其他字符的个数代码如下:text="HelloPython,Hello2021."letter=0 digital=0 other=0 foriintext:ifi.isalpha...

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
...帮帮忙,我想回家。。。(听说聊城火车站封站了) 谁知道散打高手乔立夫 EXCEL中怎样快速填充数据 电脑跟武术那个有前途点 武术家老了后怎么保持状态 2011年中俄武术散打对抗赛中方名单 中泰对抗赛用的是中国"功夫"吗? 政务处分的种类为:警告、记过、 散打散打名将 不知道怎么在Excel中数据填充,给你6个方法,最实用! ?前合伙人回应女子卖房创业负债1亿是怎么回事 前合伙人回应女子卖房创业... 拦标价合理使用 什么是马面裙:: 马面裙腰小了怎么办 韩剧《看了又看》里男主人公给女人公讲的笑话很好笑,谁发一下。谢谢... 格力空调显示h4什么故障? 格力空调出现h4是什么原因? 韩剧"看了又看"的同人文 要BG的 不限已完结 初中数学代数题:已知2a²+a-1=0,求(a+2)²-3(a-1)+(a+2)(a-2... 初中代数题!! 急,几个初中代数题 一道初中的代数题:若关于x的方程x方+2(1+m)x+(3m方+4mn+4n方+2)=0有... 一道初中数学代数题 正数x,y满足x^2-y^2=2xy,求(x-y)/(x+y)的值_百 ... 请问一道初中代数题,急用! 东芝166复印机卡纸,我想问:最外面一层打开,再掰开一层以后,最后一层看... 考驾驶证 我还没开始学车 但是先要考交规 交规没考过关就不能去学车... 海南地方教育附加税率是多少 2011年我国所有税目的税率,最好简单易懂,顺便麻烦各位高手再推荐一个... 我在榆林昌盛驾校报名学车。明天就要分车了。可是公司实在走不开... 报名一人一车驾校,一天只能抽出2小时学车,多长时间可以考下来拿证?一... 杰克逊经的一生是怎样的? 海信变频空调三个指示灯闪烁怎么回事? 海信变频空调忽冷忽热 GROUPBY函数是什么意思? 海航负债倒闭是误传吗? 英灵召唤好玩吗?英灵召唤简介 茶食与当代乡民礼俗 茶不能和哪些食物搭配? <艾蜜莉圆舞曲>用的是什么乐器 ...是简单式压力容器不需办理备案手续,配套的油气筒(名牌上未标注简单压... 中专毕业怎么才能上大学呢? 油气筒可以更换吗 郭富城携娇妻高调秀恩爱,方媛黑色裙配格纹帽,高级贵妇感很真实... 我是中专毕业,想读本科,可不可以通过成人高考上大专然后专升本呢?_百度... 关于说“成功是基础重要”的谚语或成语或古文或习语,总之要有理有据... 新生儿退黄疸的方法 新生儿有黄疸吃茵栀黄可以吗 时尚革命维多利亚时代的贵妇时尚革命 奶瓶上oz是什么意思? 如何幽默地回复女生说你好能睡觉?