Python 下载大文件，哪种方式速度更快！

2023-02-28

true url raw

通常，我们都会用requests库去下载，这个库用起来太方便了。方法一使用以下流式代码，无论下载文件的大小如何，Python内存占用都不会增加：复制defdownload_file(url):local_filename=url.split('/')[-1]#注意传入参数stream=Truewit

通常，我们都会用 requests 库去下载，这个库用起来太方便了。

方法一

使用以下流式代码，无论下载文件的大小如何，Python 内存占用都不会增加：

def download_file(url):
    local_filename = url.split('/')[-1]
    # 注意传入参数 stream=True
    with requests.get(url, stream=True) as r:
        r.raise_for_status()
        with open(local_filename, 'wb') as f:
            for chunk in r.iter_content(chunk_size=8192): 
                f.write(chunk)
    return local_filename1.
2.
3.
4.
5.
6.
7.
8.
9.

如果你有对 chunk 编码的需求，那就不该传入 chunk_size 参数，且应该有 if 判断。

def download_file(url):
    local_filename = url.split('/')[-1]
    # 注意传入参数 stream=True
    with requests.get(url, stream=True) as r:
        r.raise_for_status()
        with open(local_filename, 'w') as f:
            for chunk in r.iter_content(): 
                if chunk:
                    f.write(chunk.decode("utf-8"))
    return local_filename1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

iter_content^[1] 函数本身也可以解码，只需要传入参数 decode_unicode = True 即可。另外，搜索公众号顶级Python后台回复“进阶”，获取一份惊喜礼包。

请注意，使用 iter_content 返回的字节数并不完全是 chunk_size，它是一个通常更大的随机数，并且预计在每次迭代中都会有所不同。

方法二

使用 Response.raw^[2] 和 shutil.copyfileobj^[3]

import requests
import shutil

def download_file(url):
    local_filename = url.split('/')[-1]
    with requests.get(url, stream=True) as r:
        with open(local_filename, 'wb') as f:
            shutil.copyfileobj(r.raw, f)

    return local_filename1.
2.
3.
4.
5.
6.
7.
8.
9.
10.

这将文件流式传输到磁盘而不使用过多的内存，并且代码更简单。

注意：根据文档，Response.raw 不会解码，因此如果需要可以手动替换 r.raw.read 方法

response.raw.read = functools.partial(response.raw.read, decode_content=True)1.

速度

方法二更快。方法一如果 2-3 MB/s 的话，方法二可以达到近 40 MB/s。

参考资料

[1]iter_content: https://requests.readthedocs.io/en/latest/api/#requests.Response.iter_content

[2]Response.raw: https://requests.readthedocs.io/en/latest/api/#requests.Response.raw

[3]shutil.copyfileobj: https://docs.python.org/3/library/shutil.html#shutil.copyfileobj

深圳幻海软件技术有限公司

Python 下载大文件，哪种方式速度更快！

方法一

方法二

速度

参考资料

用350行代码从零开始，将Lisp编译成JavaScript

如何基于匹配预设句式，动态提取用户评价标签

26个适用于VMware管理员的强大工具

Python字符串处理的8招秘籍

Zadig 基于 OPA 实现 RBAC 和 ABAC 权限管理技术方案详解

改进YOLOv5系列：27.YOLOv5 结合 Swin Transformer V2结构，Swin Transformer V2：通向视觉大模型之路

疫情可视化part2

IDC发布研究报告：2022年全球公共云服务支出已经突破5000亿美元大关

深圳幻海软件技术有限公司

Python 下载大文件，哪种方式速度更快！

方法一

方法二

速度

参考资料

如何两天时间上线一款AI应用？

用自己的编程语言实现了一个网站（增强版）