最近在用pandas做一个机器学习的项目训练集大概2G。我用的dataFrame来操作数据对训练集做了一次groupby和mean的操作,速度还挺快的但把得到的结果赋值给用户参数(也是一个dataframe表)的时候,速度缺特别慢请问这是什么原因呢?
训练集大概有7000多万行做groupby和mean操作大概十几分钟也就完成了,但赋值操作缺超级慢每秒钟大概只能赋值50条左右,差距太大了其中赋值语句大概是这样操作的:
dataframeA.loc[user,'']=dataframeB.loc[user,'']。两张dataFrame表都很大都是百万级的,不知道是不是和量级较大有关但千万級的训练集做groupby也没什么压力啊,而且这个机器学习项目会经常使用和修改表中的参数,如果都这么慢的话可能就无法正常使用了,哪位大神有什么好的解释或者建议吗非常感谢了。部分代码如下有什么细节没有说清楚的话可以问我,我再详细解释下