深圳幻海软件技术有限公司 欢迎您!

  • 数据结构:堆的应用(堆排序和topk问题)

    个人主页:个人主页个人专栏:《数据结构》《C语言》文章目录堆排序建堆堆的删除思想排序代码实现topk问题思路代码实现总结堆排序堆排序即是先将数据建堆,再利用堆删除的思想来排序。将待排序数组建堆将堆顶数据与数组尾部数据交换调整新的堆顶数据,使其保证堆的结构不变重复2,3步直到堆中没有数据结束。建堆降序

  • 云原生高性能分布式文件系统 JuiceFS 还真有点意思

    JuiceFS是一款面向云原生设计的高性能分布式文件系统,在Apache2.0开源协议下发布。提供完备的POSIX兼容性,可将几乎所有对象存储接入本地作为海量本地磁盘使用,亦可同时在跨平台、跨地区的不同主机上挂载读写。简介JuiceFS采用 「数据」与「元数据」分离存储 的架构,

  • 100种目标检测数据集【voc格式yolo格式json格式coco格式】+YOLO系列算法源码及训练好的模型

    提示:本文介绍并分享了应用于各行业、各领域非常有用的目标检测数据集(感谢您的关注+三连,数据集持续更新中…),其中绝大部分数据集作者已应用于各种实际落地项目,数据集整体质量好,标注精确,数据的多样性充分,训练模型拟合较好,具有较高的研究和使用价值,标签格式多数为voc和yolo格式,若需要json格

  • 统计建模的24种应用(第1部分)

    2019独角兽企业重金招聘Python工程师标准>>>   在这里,我们讨论统计模型的一般应用情况.不管他们是否源自数据科学,运筹学,工程学,机器学习或统计学.如决策树,logistic回归,贝叶斯模型,马尔可夫模型,数据压缩和特征选择等,我们都不会讨

  • 关于可观测能力,阿里云的思考与实践

    嘉宾丨周小帆整理丨千山审校|云昭随着云原生架构开始落地实践,应用架构从单体系统逐步转变为微服务,越来越多企业意识到可观测能力已经成为云原生的基础设施与必备能力。那么,最近被频频提及的可观测性,相比监控、APM等名词,区别在哪里?日前,51CTO特邀阿里云资深技术专家周小帆,围绕可观测技术的演进等议题

  • 亚马逊云科技三种数据分析服务的无服务器功能正式可用

    日前,亚马逊云科技宣布三种数据分析服务的无服务器功能正式可用,客户无需配置、扩展或管理底层基础架构,即可轻松地分析任何规模的数据。AmazonEMRServerless让客户无需管理底层基础设施,即可使用开源大数据框架(如ApacheSpark、Hive)运行分析型应用程序;AmazonManage

  • Pandas:用于数据分析和数据科学的最热门 Python 库

    Pandas为Python中数据分析提供了基础和高级的构建组件。Pandas库是用于数据分析与数据操作的最强大和最灵活的开源分析工具之一,并且它还提供了用于建模和操作表格数据(以行和列组织的数据)的数据结构。Pandas库有两个主要的数据结构:第一个是“系列Series”,该数据结构能够很方便地从P

  • Join优化技术之Runtime Filter

    1.背景RuntimeFilter又称为DynamicFilter,其目的在于通过在join的probe端提前过滤掉那些不会命中join的输入数据来大幅减少join中的数据传输和计算,从而减少整体的执行时间。简单来说就是利用小表的Joinkeys基于大表Joinkeys构造过滤器,来减少大表的数据读

  • 为什么有些人宁愿花费很多时间去自己手工配置Python环境, 也不用Anaconda?

    也有很多人是自己配置Python环境,而不用Anaconda,我理解有两方面原因。首先Anaconda对数据科学很友好,但对于其他Python应用场景并不是最佳选择,更多人会使用原生python+pip+venv,去搭配自己的开发环境。其次,Anaconda过于臃肿,光安装包就有五六百兆,占用几个G

  • 健康的Ceph 集群需要避免的16种操作

    前言Ceph是一个可靠地、自动重均衡、自动恢复的分布式存储系统,根据场景划分可以将Ceph分为三大块,分别是对象存储、块设备存储和文件系统服务。在虚拟化领域里,比较常用到的是Ceph的块设备存储,比如在OpenStack项目里,Ceph的块设备存储可以对接OpenStack的cinder后端存储、G

  • 性能提升100倍!基于Hadoop的TB级大文件上传优化实践

    一、写在前面上一篇文章,我们聊了一下Hadoop中的NameNode里的editslog写机制。主要分析了editslog写入磁盘和网络的时候,是如何通过分段加锁以及双缓冲的机制,大幅度提升了多线程并发写editslog的吞吐量,从而支持高并发的访问。如果没看那篇文章的同学,可以回看一下:《​每秒上

  • 麻了,代码改成多线程,竟有九大问题

    前言很多时候,我们为了提升接口的性能,会把之前单线程同步执行的代码,改成多线程异步执行。比如:查询用户信息接口,需要返回用户基本信息、积分信息、成长值信息,而用户、积分和成长值,需要调用不同的接口获取数据。如果查询用户信息接口,同步调用三个接口获取数据,会非常耗时。这就非常有必要把三个接口调用,改成

  • 美国大厂新员工薪资曝光! 微软最高近30万美元,TikTok低至时薪30美元

    国内互联网大厂裁员不断,越来越多的人把目光投向海外,主要是美国。 那么,美国科技大厂员工一年大概能挣多少钱? 最近,知名资讯站BusinessInsider又发布了新的科技大厂员工年收入统计数据。 和以前一样,数据来源仍然是美国劳工部关于外籍员工工作签证申请的公开披露。

  • 从 Notion 分片 Postgres 中吸取的教训

    今年(2021)早些时候,我们对Notion进行了五分钟的定期维护。虽然我们的声明指向“提高稳定性和性能”,但在幕后是数月专注、紧迫的团队合作的结果:将Notion的PostgreSQL整体分片成一个水平分区的数据库舰队。分片命名法被认为起源于MMORPGUltimaOnline,当时游戏开发者需要

  • 面试必问 | 聊聊Kafka的消费模型?

    大家好,我是冰河~~最近,有些读者去头条二面,被面试官问了一个关于Kafka的问题:多个Kafka消费者如何同时消费相同Topic下的相同Partition的数据?看似一个简单的问题,竟然把这位读者问懵了!今天,我们就一起来说说这个面试题,好了,开始今天的主题。题目分析首先,要明确面试官的问题:多个

  • Hadoop 生态之 MapReduce 及 Hive 简介

     1.计算框架Hadoop是一个计算框架,目前大型数据计算框架常用的大致有五种:仅批处理框架:Apachehadoop.仅流处理框架:ApacheStorm、ApacheSamza.混合框架:ApacheSpark、ApacheFlink.这其中名气最大、使用最广的当属Hadoop和Spa

  • 加速数据分析,这10个小技巧好用到哭

    划重点!!!本文列举了一些使用Python和JupyterNotebook的技巧,讨论了如何轻松分析数据以及如何进行格式化编码、输出和调试等操作。在编程领域,有时一个小技巧就能节省大量时间,甚至能起到救命的效果。这些“必杀技”往往能在未来的数据分析中发挥重大作用。1.分析Pandas数据框架Prof

  • 比较五款企业级ETL工具,助你选出适合项目的解决方案

    【51CTO.com快译】在商业环境中,随着各类数据量的不断猛增,企业对于那些以ETL为基本要素的数据仓库项目和高级分析系统的需求也在不断增多。此处ETL所对应的是数据仓库的三个概念:提取(Extracting)、转换(Transforming)和加载(Loading)。其主要流程包括:从不同的外部

  • 万字长文揭秘:阿里如何实现海量数据实时分析?

    挑战随着数据量的快速增长,越来越多的企业迎来业务数据化时代,数据成为了最重要的生产资料和业务升级依据。伴随着业务对海量数据实时分析的需求越来越多,数据分析技术这两年也迎来了一些新的挑战和变革:在线化和高可用,离线和在线的边界越来越模糊,一切数据皆服务化、一切分析皆在线化。高并发低延时,越来越多的数据

  • 下一代的DevOps服务:AIOps

    【51CTO.com原创稿件】AIOps是什么以及了解下它可以如何帮助您的IT部门,例如,利用它来快速处理所有数据。AIOps是一个总称,用于指代使用复杂的基础设施管理软件和云解决方案监控工具来实现自动化数据分析和日常的DevOps操作。那些10年前甚至是5年前构建的系统监控工具的主要缺陷是它们不是

推荐阅读