热门标签【数据】- 幻海软件

一文了解-云原生大数据知识地图
一、大势所趋：云原生大数据随着行业的快速发展和业务的高速迭代，数据量也呈爆炸式增长，传统的大数据架构在资源利用、高效运维、可观测性等方面存在诸多不足，已经越来越无法适应当下的发展需求。具体来讲，传统大数据架构主要存在以下几方面的问题：传统大数据组件繁多，安装运维复杂，在生产使用中需要大量的人力支持；
「云原生」Prometheus Pushgetway讲解与实战操作
一、概述Pushgateway是Prometheus的一个组件，prometheusserver默认是通过Exporter主动获取数据（默认采取pull拉取数据），Pushgateway则是通过exporter主动方式推送数据到Pushgateway，再由Prometheus主动去拉取Pushgat
构建云原生数据仓库和数据湖的优秀实践
与连续处理实时工作负载的动态数据相比，为报告和分析存储静止数据需要不同的功能和服务等级协议(SLA)。目前有许多开源框架、商业产品和SaaS云服务。不幸的是，这些底层技术经常被误解，被过度用于单片和不灵活的架构，并被供应商用于错误的用例。本文将探讨面临的这个困境，了解如何使用原生云技术构建现代数据堆
云计算提速人工智能辅助药物发现(AIDD)，药物研发全面步入“AI时代”
2020年底，DeepMind旗下人工智能（AI）系统AlphaFold在蛋白质分子结构预测领域取得了史无前例的进步。这不仅有力推动了生命科学领域的发展，也愈发印证了具备掌握“暗知识”能力的AI能够助力人们直接跳过在“未知”暗箱中摸索的过程，而直接抵达“新知”的彼岸。因此，也就不难理解近年来日渐成熟
一文速学(二十四)-数据分析之Pandas数据展示选项设置详解+实例代码操作展示
目录前言一、获取数据展示参数二、可选展示选项1.describe_option（） 2.get_option()/set_option()文章知识点与官方知识档案匹配，可进一步学习相关知识Python入门技能树结构化数据分析工具PandasPandas概览237982人正在系统学习中技术分
简单三步用Yolov5快速训练自己的数据集
简单三步！用自己的数据集快速训练Yolov5模型文章目录简单三步！用自己的数据集快速训练Yolov5模型1第一步；准备好划分完的数据集2第二步；写一个数据集的配置文件3第三步；修改train.py参数4小知识💡：标签内容解释5常见问题🌟本人更多YOLOv5实战内容导航🍀🌟🚀网上关于Yolo
替代ELK：ClickHouse+Kafka+FlieBeat才是最绝的
saas服务未来会面临数据安全、合规等问题。公司的业务需要沉淀一套私有化部署能力，帮助业务提升行业竞争力。为了完善平台系统能力、我们需要沉淀一套数据体系帮助运营分析活动效果、提升运营能力。然而在实际的开发过程中，如果直接部署一套大数据体系，对于使用者来说将是一笔比较大的服务器开销。为此我们选用折中方
RocketMQ 消息集成：多类型业务消息 - 普通消息
引言ApacheRocketMQ诞生至今，历经十余年大规模业务稳定性打磨，服务了100%阿里集团内部业务以及阿里云数以万计的企业客户。作为金融级可靠的业务消息方案，RocketMQ从创建之初就一直专注于业务集成领域的异步通信能力构建。本篇将从业务集成场景的诉求开始，介绍RocketMQ作为业务消息集
给你一份精心设计的消息中间件高扩展架构，赶紧写进简历吧
1、写在前面本文咱们来聊聊如何通过MQ消息中间件的使用，重构系统之间的耦合，让系统具备高度的可扩展性。首先看一张系统之间的耦合图，大家先不用关注图中数据查询平台和实时计算平台的具体细节。只需知道这里的数据查询平台和实时计算平台两个系统，通过一套共享存储（数据库集群+缓存集群）进行了耦合。2、划分系统
终于有人把灰度发布架构设计讲明白了
灰度发布的定义互联网产品需要快速迭代开发上线，又要保证质量，保证刚上线的系统，一旦出现问题可以很快控制影响面，就需要设计一套灰度发布系统。灰度发布系统的作用，可以根据配置，将用户的流量导到新上线的系统上，来快速验证新的功能，而一旦出现问题，也可以马上的修复，简单的说，就是一套A/BTest系统。灰度

自动化测试和数据驱动之间的关系，十分钟带你弄清楚
软件测试是对项目研发过程的产物（文档,代码等）进行审查，保障产品质量的过程。我们可以通过手工测试，自动化测试，工具扫描等方法完成这个任务。其中，自动化测试是当前重要的一种测试方法，具有响应速度快、稳定性高、人工干预少的特点，很好的契合了高响应、海量数据验证等需求的测试任务。数据驱动是自动化测试的灵
聊聊高并发下如何防重？
最近测试给我提了一个bug，说我之前提供的一个批量复制商品的接口，产生了重复的商品数据。追查原因之后发现，这个事情没想象中简单，可以说一波多折。1.需求产品有个需求：用户选择一些品牌，点击确定按钮之后，系统需要基于一份默认品牌的商品数据，复制出一批新的商品。拿到这个需求时觉得太简单了，三下五除二就搞
如何设计百万级商品数据实时同步的秒级搜索系统？
前阵子老板安排了一个新任务，要建设一个商家商品搜索系统，能够为用户提供快速、准确的搜索能力。图片来自Pexels设计要求在用户输入搜索内容时，要能从商家名称和商品名称两个维度去搜索，搜索出来的结果，按照准确率排序，并按商家所属商品的关联关系，来组合数据结构，同时提供API给业务系统调用。背景很简单，
凯哥讲数据中台[009]2020数据中台的七个趋势
导读在2019年3月份，文章《数据中台已成为下一个风口，它会颠覆数据工程师的工作么?》获得了10万+的阅读量，这对于这样一篇万字左右，干货很多的技术类文章来说，是很少见的。行业称2019年为数据中台元年，为什么数据中台会备受关注，2019年我做了一个数据中台的行业调研，到现在为止，获得了463个有效
详细的六款主流ETL工具介绍及功能对比
 概述ETL(Extract-Transform-Load的缩写，即数据抽取、转换、装载的过程)，对于企业或行业应用来说，我们经常会遇到各种数据的处理，转换，迁移，所以了解并掌握一种etl工具的使用，必不可少。最近用kettle做数据处理比较多，所以也就介绍下这方面内容，这里先对比下几款主
重磅！谷歌发布用于保护数据隐私的开发工具
无论你是城市规划师还是小型企业CEO或者是一名软件开发者，利用好数据可以让你更好地为客户提供服务，但是如果没有强有力的隐私保护，你也可能因此失去用户的信任。差分隐私是数据分析的一种手段，旨在提供一种当从统计数据库查询时，最大化数据查询的准确性，同时最大限度减少识别其记录的机会。例如，如果您是一名健康
常用的模型集成方法介绍：bagging、boosting 、stacking
本文将讨论一些众所周知的概念，如自助法、自助聚合(bagging)、随机森林、提升法(boosting)、堆叠法(stacking)以及许多其它的基础集成学习模型。为了使所有这些方法之间的联系尽可能清晰，我们将尝试在一个更广阔和逻辑性更强的框架中呈现它们，希望这样会便于读者理解和记忆。何为集成方法?
官宣！阿里Blink和Flink合并计划出炉
 春节前一周，经过社区内部讨论，阿里巴巴大数据引擎Blink作为Flink的分支正式开源。如今，ApacheFlink官方网站发文对Blink贡献回Flink项目的意义作进一步说明，并公布了Blink和Flink的合并计划。社区的合并计划最初会将重点放在有界/批处理功能上，社区将对SQL/
仅需六步，从零实现机器学习算法
从头开始写机器学习算法能够获得很多经验。当你最终完成时，你会惊喜万分，而且你明白这背后究竟发生了什么。有些算法比较复杂，我们不从简单的算法开始，而是要从非常简单的算法开始，比如单层感知器。本文以感知器为例，通过以下6个步骤引导你从头开始写算法：对算法有基本的了解找到不同的学习资源将算法分解成块从简单
20个机器学习工具，哪个语言最适合程序员入门AI？（上）
训练有素的士兵无法空手执行任务。数据科学家拥有自己的武器-机器学习（ML）软件。已经有大量文章列出了可靠的机器学习工具，并对其功能进行了深入的描述。然而，我们的目标是获得行业专家的反馈。 这就是为什么我们采访数据科学从业者-大师，真正考虑他们为项目选择的有用工具。我们联系的专家拥有各种专业

深圳幻海软件技术有限公司

推荐阅读

使用消息中间件时，如何保证消息仅仅被消费一次？

利用多线程和 C++ 实现一个简单的 HTTP 服务器

聊聊Git 分支管理策略

R-CNN史上最全讲解

使用微软分布式缓存服务Velocity Part 2

ML.NET Cookbook：（17）如何在分类数据上训练模型？

热门标签