使用Dask在Python中进行并行计算

2023-02-26

arr mean dask

 Dask库可以将Python计算扩展到多个核心甚至是多台机器。关于Python性能的一个常见抱怨是全局解释器锁（GIL）。由于GIL，同一时刻只能有一个线程执行Python字节码。因此，即使在现代的多核机器上，使用线程也不会加速计算。但当你需要并行化到多核时，你不需要放弃使用Python

Dask 库可以将 Python 计算扩展到多个核心甚至是多台机器。

关于 Python 性能的一个常见抱怨是全局解释器锁（GIL）。由于 GIL，同一时刻只能有一个线程执行 Python 字节码。因此，即使在现代的多核机器上，使用线程也不会加速计算。

但当你需要并行化到多核时，你不需要放弃使用 Python：Dask 库可以将计算扩展到多个内核甚至多个机器。某些设置可以在数千台机器上配置 Dask，每台机器都有多个内核。虽然存在扩展规模的限制，但一般达不到。

虽然 Dask 有许多内置的数组操作，但举一个非内置的例子，我们可以计算偏度：

import numpy
import dask
from dask import array as darray
 
arr = dask.from_array(numpy.array(my_data), chunks=(1000,))
mean = darray.mean()
stddev = darray.std(arr)
unnormalized_moment = darry.mean(arr * arr * arr)
## See formula in wikipedia:
skewness = ((unnormalized_moment - (3 * mean * stddev ** 2) - mean ** 3) /
            stddev ** 3)
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.

请注意，每个操作将根据需要使用尽可能多的内核。这将在所有核心上并行化执行，即使在计算数十亿个元素时也是如此。

当然，并不是我们所有的操作都可由这个库并行化，有时我们需要自己实现并行性。

为此，Dask 有一个“延迟”功能：

import dask
 
def is_palindrome(s):
    return s == s[::-1]
 
palindromes = [dask.delayed(is_palindrome)(s) for s in string_list]
total = dask.delayed(sum)(palindromes)
result = total.compute()
1.
2.
3.
4.
5.
6.
7.
8.