深圳幻海软件技术有限公司 欢迎您!

  • linux下 yolov8 tensorrt模型加速部署【实战】

    ubuntu下yolov8tensorrt模型加速部署【实战】TensorRT-Alpha基于tensorrt+cudac++实现模型end2end的gpu加速,支持win10、linux,在2023年已经更新模型:YOLOv8,YOLOv7,YOLOv6,YOLOv5,YOLOv4,YOLOv3,

  • OpenPPL PPQ量化(2):离线静态量化 源码剖析

    目录模型支持量化onnx原生模型:quantize_onnx_model输入输出执行流程ONNX格式解析后记模型支持openppl支持了三种模型:onnx、caffe、pytorch,其中pytorch和caffe是通过quantize_torch_model和quantize_caffe_mode

  • win10下 yolov8 tensorrt模型加速部署【实战】

    Windows10下yolov8tensorrt模型加速部署【实战】TensorRT-Alpha基于tensorrt+cudac++实现模型end2end的gpu加速,支持win10、linux,在2023年已经更新模型:YOLOv8,YOLOv7,YOLOv6,YOLOv5,YOLOv4,YOLO

  • 只需几个小操作,就能让transformer模型推理速度加3.5倍

    你在用PyTorch写transformer吗?请关注下这个项目。大多数关于在生产中部署Transformer类模型的教程都是基于PyTorch和FastAPI构建的。两者都是很好的工具,但在推理方面的性能不是很好。而如果你花费时间进行研究,可以在ONNXRuntime和Triton推理服务器上构建

推荐阅读