大家好,之前介绍过不少关于pandas性能加速的技巧,但这些技巧再厉害,整体运行速度方面也会遇到瓶颈。本篇介绍8个可以替代pandas的库,在加速技巧之上,再次打开速度瓶颈,大大提升数据处理的效率。1.DaskDask在大于内存的数据集上提供多核和分布式并行执行。在Dask中,一个DataFrame
Dask库可以将Python计算扩展到多个核心甚至是多台机器。关于Python性能的一个常见抱怨是全局解释器锁(GIL)。由于GIL,同一时刻只能有一个线程执行Python字节码。因此,即使在现代的多核机器上,使用线程也不会加速计算。但当你需要并行化到多核时,你不需要放弃使用Python