发布网友 发布时间:2024-10-06 06:54
共1个回答
热心网友 时间:2024-12-03 16:10
导读:很多朋友问到关于python建模多久的相关问题,本文首席CTO笔记就来为大家做个详细解答,供大家参考,希望对大家有所帮助!一起来看看吧!
学python要多久学python一般需要4个月-6个月。
初级Python掌握阶段学习时间:如果是零基础选择自学,这个期间主要学习的内容是常量、变量的应用,运算符的了解和使用、流程控制的使用等,掌握【Python编程语言】基础内容、OOP基础知识,学习后应该能自己处理OOP问题。
根据个人的理解能力和时间安排,所需要的时间也不同,一般都是5个月左右或者是更多。如果是已经有其他程序语言的基础,那么所需要的时间也是会大大的减少。深入Python学习时间:深入学习的时间一般更久。
所有的知识一般都是入门会简单一点儿,之后想要继续深入学习所消耗的时间和精力也是会增长,例如接下来要学的爬虫技术、人工智能方向都是需要时间进行学习。精通任何一门编程语言,都需要通过大量的实践来积累经验。
python被大家称作为蟒蛇。是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本,随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发。
如何用Python在10分钟内建立一个预测模型预测模型的分解过程
我总是集中于投入有质量的时间在建模的初始阶段,比如,假设生成、头脑风暴、讨论或理解可能的结果范围。所有这些活动都有助于我解决问题,并最终让我设计出更强大的商业解决方案。为什么你要在前面花费这段时间,这有充分的理由:
你有足够的时间投入并且你是无经验的(这是有影响的)
你不带有其它数据观点或想法的偏见(我总是建议,在深入研究数据之前做假设生成)
在后面的阶段,你会急于完成该项目而没有能力投入有质量的时间了。
这个阶段需要投入高质量时间,因此我没有提及时间表,不过我建议你把它作为标准的做法。这有助于你建立建立更好地预测模型,在后面的阶段的只需较少的迭代工作。让我们来看看建立第一个模型的剩余阶段的时间表:
数据描述性分析——50%的时间
数据预处理(缺失值和异常值修复)——40%的时间
数据建模——4%的时间
性能预测——6%的时间
让我们一步一步完成每个过程(每一步投入预测的时间):
阶段1:描述性分析/数据探索
在我刚开始成为数据科学家的时候,数据探索占据了我大量的时间。不过,随着时间的推移,我已经把大量的数据操作自动化了。由于数据准备占据建立第一个模型工作量的50%,自动化的好处是显而易见的。
这是我们的第一个基准模型,我们去掉任何特征设计。因此,描述分析所需的时间仅限于了解缺失值和直接可见的大的特征。在我的方法体系中,你将需要2分钟来完成这一步(假设,100000个观测数据集)。
我的第一个模型执行的操作:
确定ID,输入特征和目标特征
确定分类和数值特征
识别缺失值所在列
阶段2:数据预处理(缺失值处理)
有许多方法可以解决这个问题。对于我们的第一个模型,我们将专注于智能和快速技术来建立第一个有效模型。
为缺失值创建假标志:有用,有时缺失值本身就携带了大量的信息。
用均值、中位数或其它简单方法填补缺失值:均值和中位数填补都表现良好,大多数人喜欢用均值填补但是在有偏分布的情况下我建议使用中位数。其它智能的方法与均值和中位数填补类似,使用其它相关特征填补或建立模型。比如,在Titanic生存挑战中,你可以使用乘客名字的称呼,比如:“Mr.”,“Miss.”,”Mrs.”,”Master”,来填补年龄的缺失值,这对模型性能有很好的影响。
填补缺失的分类变量:创建一个新的等级来填补分类变量,让所有的缺失值编码为一个单一值比如,“New_Cat”,或者,你可以看看频率组合,使用高频率的分类变量来填补缺失值。
由于数据处理方法如此简单,你可以只需要3到4分钟来处理数据。
阶段3:数据建模
根据不同的业务问题,我推荐使用GBM或RandomForest技术的任意一种。这两个技术可以极其有效地创建基准解决方案。我已经看到数据科学家通常把这两个方法作为他们的第一个模型同时也作为最后一个模型。这最多用去4到5分钟。
阶段4:性能预测
有各种各样的方法可以验证你的模型性能,我建议你将训练数据集划分为训练集和验证集(理想的比例是70:30)并且在70%的训练数据集上建模。现在,使用30%的验证数据集进行交叉验证并使用评价指标进行性能评估。最后需要1到2分钟执行和记录结果。
本文的目的不是赢得比赛,而是建立我们自己的基准。让我们用python代码来执行上面的步骤,建立你的第一个有较高影响的模型。
让我们开始付诸行动
首先我假设你已经做了所有的假设生成并且你擅长使用python的基本数据科学操作。我用一个数据科学挑战的例子来说明。让我们看一下结构:
步骤1:导入所需的库,读取测试和训练数据集。
#导入pandas、numpy包,导入LabelEncoder、random、RandomForestClassifier、GradientBoostingClassifier函数
importpandasaspd
importnumpyasnp
fromsklearn.preprocessingimportLabelEncoder
importrandom
fromsklearn.ensembleimportRandomForestClassifier
fromsklearn.ensembleimportGradientBoostingClassifier
#读取训练、测试数据集
train=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Train.csv')
test=pd.read_csv('C:/Users/AnalyticsVidhya/Desktop/challenge/Test.csv')
#创建训练、测试数据集标志
train='Train'
test='Test'
fullData=pd.concat(,axis=0)#联合训练、测试数据集
步骤2:该框架的第二步并不需要用到python,继续下一步。
步骤3:查看数据集的列名或概要
fullData.columns#显示所有的列名称
fullData.head(10)#显示数据框的前10条记录
fullData.describe()#你可以使用describe()函数查看数值域的概要
步骤4:确定a)ID变量b)目标变量c)分类变量d)数值变量e)其他变量。
ID_col=
target_col=
cat_cols=
num_cols=list(set(list(fullData.columns))-set(cat_cols)-set(ID_col)-set(target_col)-set(data_col))
other_col=#为训练、测试数据集设置标识符
步骤5:识别缺失值变量并创建标志
fullData.isnull().any()#返回True或False,True意味着有缺失值而False相反
num_cat_cols=num_cols+cat_cols#组合数值变量和分类变量
#为有缺失值的变量创建一个新的变量
#对缺失值标志为1,否则为0
forvarinnum_cat_cols:
iffullData.isnull().any()=True:
fullData=fullData.isnull()*1
步骤6:填补缺失值
#用均值填补数值缺失值
fullData=fullData.fillna(fullData.mean(),inplace=True)
#用-9999填补分类变量缺失值
fullData=fullData.fillna(value=-9999)
步骤7:创建分类变量的标签编码器,将数据集分割成训练和测试集,进一步,将训练数据集分割成训练集和测试集。
#创建分类特征的标签编码器
forvarincat_cols:
number=LabelEncoder()
fullData=number.fit_transform(fullData.astype('str'))
#目标变量也是分类变量,所以也用标签编码器转换
fullData=number.fit_transform(fullData.astype('str'))
train=fullData='Train']
test=fullData='Test']
train=np.random.uniform(0,1,len(train))=.75
Train,Validate=train=True],train=False]
步骤8:将填补和虚假(缺失值标志)变量传递到模型中,我使用随机森林来预测类。
features=list(set(list(fullData.columns))-set(ID_col)-set(target_col)-set(other_col))
x_train=Train.values
y_train=Train.values
x_validate=Validate.values
y_validate=Validate.values
x_test=test.values
random.seed(100)
rf=RandomForestClassifier(n_estimators=1000)
rf.fit(x_train,y_train)
步骤9:检查性能做出预测
status=rf.predict_proba(x_validate)
fpr,tpr,_=roc_curve(y_validate,status)
roc_auc=auc(fpr,tpr)
printroc_auc
final_status=rf.predict_proba(x_test)
test=final_status
test.to_csv('C:/Users/AnalyticsVidhya/Desktop/model_output.csv',columns=)
现在可以提交了!
Python多久可以学会啊?如果每天都学习Python的话,初学者1-2个月就能基本掌握Python的基本概念,8-12个月基本能熟练掌握,而经验丰富的程序员来学习Python的话大概3个月就能毫无阻碍的使用。
Python是一种广泛使用的解释型、高级和通用的编程语言。
Python由荷兰数学和计算机科学研究学会的GuidovanRossum创造,第一版发布于1991年,它是ABC语言的后继者,也可以视之为一种使用传统中缀表达式的LISP方言。
Python提供了高效的高级数据结构,还能简单有效地面向对象编程。
学习Python多久能够达到精通水平?零基础进行Python学习的话,如果选择自学,一般学习周期在一年半左右。选择进行培训的话,学习Python周期一般在五到六个月左右,不过学习的种类不同,班级不同,培训周期也是存在一定差异的。
注意事项:
任何知识都是基础入门比较快,达到精通的程序是需要时日的,这是一个逐渐激烈的过程。
精通任何一门编程语言,都需要通过大量的实践来积累经验,解决遇到的各种疑难问题,看别人的源码,分享自己的分码的这个过程,才能够精通Python的方方面面。从编程的一开始,就应该不断的动手去编写代码,不停的去实践,不停的去修改,不停的总结经验,最终才能熟能生巧,达到精通。
自学python多久能学会?
一周或者一个月。
如果完全靠自己自学,又是从零基础开始学习Python的情况下,按照每个人的学习和理解能力的不同,我认为大致上需要半年到一年半左右的时间。
当然了,Python学习起来还是比较简单的,如果有其他编程语言经验,入门Python还是非常快的,花1-2个月左右的时间学完基础,就可以自己编写一些小的程序练练手了,5-6个月的时间就可以上手做项目了。
从一定程度上来说,一些零基础的初学者想要利用两个月的时间掌握好Python是不太可能的,学习完Python后想要应聘相对应的工作岗位,即便是选择最快的学习方式也是很难实现的,无法快速实现就业。
结语:以上就是首席CTO笔记为大家整理的关于python建模多久的相关内容解答汇总了,希望对您有所帮助!如果解决了您的问题欢迎分享给更多关注此问题的朋友喔~