求助,python + spark运行程序出现错误
发布网友
发布时间:2022-04-26 19:09
我来回答
共1个回答
热心网友
时间:2023-10-22 20:20
你全是win环境
代码没有什么太多的问题 spark环境检查 测试pyspark能否正常使用
再像你这样提交spark作业
tmprdd1 = csdnRDD.map(lambda x: (x.split("\t")[2]))
x.split("\t")会产生一个list,有些数据是异常异常,产生的list不一定会有三个元素,所以就会异常退出。
你可以使用csdnRDD.map(lambda x:x.split("\t")).filter(lambda x:len(x)<3) 看看有哪一写异常数据,然后确定如何过滤掉这些异常数据。