问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

python 怎么修改pandas的某个cell的值

发布网友 发布时间:2022-04-24 08:31

我来回答

1个回答

热心网友 时间:2022-04-28 09:10

数据缺失
数据缺失在大部分数据分析应用中都很常见,Pandas使用浮点值NaN表示浮点和非浮点数组中的缺失数据,他只是一个便于被检测出来的数据而已。
from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")
print(string_data.isnull())12345671234567

Python内置的None值也会被当作NA处理
from pandas import Series,DataFrame

string_data=Series(['abcd','efgh','ijkl','mnop'])

print(string_data)
print("...........\n")

string_data[0]=None
print(string_data.isnull())123456789123456789

处理NA的方法有四种:dropna,fillna,isnull,notnull
is(not)null,这一对方法对对象做出元素级的应用,然后返回一个布尔型数组,一般可用于布尔型索引。
dropna,对于一个Series,dropna返回一个仅含非空数据和索引值的Series。
问题在于DataFrame的处理方式,因为一旦drop的话,至少要丢掉一行(列)。这里解决方法与前面类似,还是通过一个额外的参数:dropna(axis=0,how=’any’,thresh=None),how参数可选的值为any或者all.all仅在切片元素全为NA时才抛弃该行(列)。thresh为整数类型,eg:thresh=3,那么一行当中至少有三个NA值时才将其保留。
fillna,fillna(value=None,method=None,axis=0)中的value除了基本类型外,还可以使用字典,这样可以实现对不同列填充不同的值。
过滤数据:
对于一个Series,dropna返回一个仅含非空数据和索引值的Series:
from pandas import Series,DataFrame
from numpy import nan as NA

data=Series([1,NA,3.5,NA,7])

print(data.dropna())123456123456

另一个过滤DataFrame行的问题涉及问题序列数据。假设只想留一部分观察数据,可以用thresh参数实现此目的:
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.dropna(thresh=2))1234567891011121312345678910111213

不想滤除缺失的数据,而是通过其他方式填补“空洞”,fillna是最主要的函数。
通过一个常数调用fillna就会将缺失值替换为那个常数值:
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna(0))1234567891011121312345678910111213

若是通过一个字典调用fillna,就可以实现对不同列填充不同的值。
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(7,3))

data.ix[:4,1]=NA
data.ix[:2,2]=NA

print(data)

print("...........")

print(data.fillna({1:111,2:222}))1234567891011121312345678910111213

可以利用fillna实现许多别的功能,比如可以传入Series的平均值或中位数:
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=Series([1.0,NA,3.5,NA,7])
print(data)
print("...........\n")
print(data.fillna(data.mean()))

123456789123456789

检测和过滤异常值
异常值(outlier)的过滤或变换运算在很大程度上就是数组运算。如下一个(1000,4)的标准正态分布数组:
from pandas import Series,DataFrame, np
from numpy import nan as NA

data=DataFrame(np.random.randn(1000,4))
print(data.describe())

print("\n....找出某一列中绝对值大小超过3的项...\n")
col=data[3]
print(col[np.abs(col) > 3] )

print("\n....找出全部绝对值超过3的值的行...\n")
print(col[(np.abs(data) > 3).any(1)] )123456789101112123456789101112

移除重复数据
DataFrame的plicated方法返回一个布尔型Series,表示各行是否是重复行。
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.plicated())123456789123456789

与此相关的还有一个drop_plicated方法,它用于返回一个移除了重复行的DataFrame:
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
print(data)
print("........\n")
print(data.drop_plicates())123456789123456789

上面的两个方法会默认判断全部列,也可以指定部分列进行重复项判断,假设还有一列值,而只希望根据k1列过滤重复项。
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_plicates(['k1']))1234567891012345678910

plicates和drop_plicates默认保留第一个出现的值组合。传入take_last=True则保留最后一个:
from pandas import Series,DataFrame, np
from numpy import nan as NA
import pandas as pd
import numpy as np

data=pd.DataFrame({'k1':['one']*3+['two']*4, 'k2':[1,1,2,2,3,3,4]})
data['v1']=range(7)
print(data)
print("........\n")
print(data.drop_plicates(['k1','k2'],take_last=True))1234567891012345678910
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
如何分别真金和仿金首饰 怎样区分真金和仿金首饰呢 小学生新年晚会主持人的串词!!(不要太多)急 大大后天就需要了!!!_百度... 周年晚会策划公司 奥格瑞玛传送门大厅在哪 奥格瑞玛传送门大厅怎么走 锻炼颈椎的几个动作 水多久能结冰 冰能在多长时间内形成 请问水低于0度会结冰吗? 如何防止脱发严重 嘴唇上有黑印用蜜蜡和棉线去除了胡须 狼毒是什么? 如何周全的考虑空数据的情况 螺旋状的直立茎,,有点像仙人掌类的,有叶子,这是什么花 雨菲的英文名字怎么取跟中午名字谐音相似? 局域网上网速度慢是什么原因? eva 破 ost下载 hxj9420 AT sina.com谢! a99420处理器怎么样 简单爱9420小说txt全集免费下载 谁能得出http://www.weimei.org/forum/content/69911 里面的音乐下载地址 跪求下载丁丁^黄一-Baby[HD](中国好声音)(现场版)-英语-942057.mpg种子的网址有发必采纳 (2012)什么时候才有BT高清下载??? 求9420麦小兜唱的MP3 听完《9420》之后的感受? 求《35岁的高中生(2013)》百度网盘高清资源在线观看佐久间纪佳导演的 9420网的粉爱粉爱你全集为什么看不了啊 已经下载了风行播放器 可还是看不了 为什么? 下载黄勇^梁博-北京 北京[HD](中国好声音)(现场版)-国语-942096.mpg种子的网址谢谢 金志文^曹寅-走四方[HD](中国好声音)(现场版)-国语-942092.mpg种子下载,好人一生平安 电影<<2012>>哪里有完整版下载? 杨贵妃秘史在线观看 杨贵妃秘史高清DVD在线观看地址 杨贵妃秘史全集下载 求麦小兜9420 MP3 百度网盘,谢谢! 毛毛眼是什么东西? 大戟科的下级分类 以下Java代码实现的效果 求教PowerDesigner表太多,Relationship怎么连 玉树花怎么吃 Err] 1064 - You have an error in your ……pd生成mysql导入失败问题 求一个SQL Server触发器 狼毒的药性是什么? 翻译 高额的 素奶油该怎么做? SQL语句嵌套查询,大牛快来(SQL sever2005) 各位大侠帮忙 能帮我把下述的SQL语句改写成能在Mysql5.0下运行么?我试了很多次都曾在错误! 火秧竻的版本二 mysql 添加外键报错,Error Code: 1215. Cannot add foreign key constra... 如何为powerdesigner添加charset=utf-8支持 仙人掌类及多浆植物在园林中的作用 Excel表格用Python读取,识别异常。表头、表内容错误。求大神指导,谢谢... junit怎么写 求让mysql自动编号的语句? ts = pd.Series(np.random.randn(6), index=dates)