深圳幻海软件技术有限公司 欢迎您!

  • 多云缓存在知乎的演进

    一、多云缓存产生的背景1、多云架构知乎目前采用的是多云架构,主要基于以下三个方面的考虑:服务多活。这是为了防止在某个机房出现不可抗力、不能提供服务的时候,业务被全面中断。容量扩展。单一机房的容量上限是万台,知乎目前的服务器规模已经超过了万台。降本增效。同一云服务在不同云厂商的定价是不同的,我们希望能

  • 高性能、云原生湖仓一体存储架构探秘

    一、湖仓一体存储架构的演进1、存储架构的演进阶段大数据存储系统的演进,分为两个阶段:机房时代和云计算时代。第一个阶段,也是最早Hadoop诞生的时代,这个时代主要以机房的系统为主,HDFS基本上是唯一的存储选型方案。随着云计算的普及和发展,对象存储逐渐成为企业主流的存储方案。尤其是在数据湖架构中,对

  • 【云原生】HBase on K8s 编排部署讲解与实战操作

    一、概述HBase 是一个面向列式存储的分布式数据库,其设计思想来源于Google的BigTable论文。HBase底层存储基于HDFS实现,集群的管理基于ZooKeeper实现。HBase良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能,基于数据副本机制和分区机制可以轻松实现

  • 基于云原生的Flink计算平台实践

    作者|王杰,单位:中国移动智慧家庭运营中心​Labs导读随着云原生的普及,越来越多的后端应用进行了容器化迁移,并通过k8s进行编排管理。而最近这几年,大数据领域比如Flink,Spark等计算引擎也纷纷表示对k8s的支持,使得大数据应用从传统的yarn时代转变为云原生时代。本文以Flink和k8s为

  • 兄弟们给我十分钟,带你了解一下大数据技术的入门原理和架构设计

    一、前奏Hadoop是目前大数据领域最主流的一套技术体系,包含了多种技术。包括HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统),等等。有些朋友可能听说过Hadoop,但是却不太清楚他到底是个什么东西,这篇文章就用大白话给各位阐述一下。假如你现在公司里的

  • 10亿级数据量的系统性能优化设计,被惊艳到了

    首先一起来画个图,回顾一下HadoopHDFS中的超大数据文件上传的原理。其实说出来也很简单,比如有个十亿数据量级的超大数据文件,可能都达到TB级了,此时这个文件实在是太大了。此时,HDFS客户端会给拆成很多block,一个block就128MB。这个HDFS客户端你可以理解为是云盘系统、日志采集系

  • 终于有人把HDFS架构和读写流程讲明白了

    一、HDFS基础以下是HDFS设计时的目标。1.硬件故障硬件故障对于HDFS来说应该是常态而非例外。HDFS包含数百或数千台服务器(计算机),每台都存储文件系统的一部分数据。事实上,HDFS存在大量组件并且每个组件具有非平凡的故障概率,这意味着某些组件始终不起作用。因此,检测故障并从中快速自动恢复是

  • 性能提升100倍!基于Hadoop的TB级大文件上传优化实践

    一、写在前面上一篇文章,我们聊了一下Hadoop中的NameNode里的editslog写机制。主要分析了editslog写入磁盘和网络的时候,是如何通过分段加锁以及双缓冲的机制,大幅度提升了多线程并发写editslog的吞吐量,从而支持高并发的访问。如果没看那篇文章的同学,可以回看一下:《​每秒上

  • vivo 万台规模 HDFS 集群升级 HDFS 3.x 实践

    作者|vivo互联网大数据团队-LvJiaHadoop3.x的第一个稳定版本在2017年底就已经发布了,有很多重大的改进。在HDFS方面,支持了ErasureCoding、Morethan2NameNodes、Router-BasedFederation、StandbyNameNodeRead、Fa

  • DanceNN:字节自研千亿级规模文件元数据存储系统概述

    作者|黄冬发背景介绍在一个典型的分布式文件系统中,目录文件元数据操作(包括创建目录或文件,重命名,修改权限等)在整个文件系统操作中占很大比例,因此元数据服务在整个文件系统中扮演着重要的角色,随着大规模机器学习、大数据分析和企业级数据湖等应用,分布式文件系统数据规模已经从PB级到EB级,当前多数分布式

  • 三分钟读懂Hadoop、HBase、Hive、Spark分布式系统架构

    机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统,hadoop用于分布式存储和map-reduce计算,spark用于分布式机器学习,hive是分布式数据库,hbase是分布式kv系统,看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理,本文通过全套部署方法来让大家深入系统

  • 比较容易理解的Hbase架构全解,10分钟学会,建议收藏

    依然是Hadoop组件的讲解,今天说到HBase架构,都是一字一句打出来的,希望各位转发加关注,会一直给大家写优质的内容。物理上,Hbase是由三种类型的server组成的的主从式(master-slave)架构:RegionServer,负责处理数据的读写请求,客户端请求数据时直接和RegionS

  • 大规模集群故障处理,能抗住这3个灵魂拷问算你赢

    我相信每一个集群管理员,在长期管理多个不同体量及应用场景的集群后,都会多少产生情绪。其实这在我看来,是一个很微妙的事,即大家也已经开始人性化的看待每一个集群了。既然是人性化的管理集群,我总是会思考几个方向的问题:集群的特别之处在哪儿?集群经常生什么病?对于集群产生的突发疾病如何精准地做到靶向定位?应

  • 可能是最易懂的Hbase架构原理解析

     小史是一个非科班的程序员,虽然学的是电子专业,但是通过自己的努力成功通过了面试,现在要开始迎接新生活了。今天,小史的姐姐和吕老师一起过来看小史,一进屋,就有一股难闻的气味。可不,小史姐姐走进卫生间,发现地下一个盆子里全是没洗的袜子。小史:当然不是,盆里的袜子满了,就先放到这个桶里,然后再

  • 京东JDK在大数据平台的探索与研究

    本文旨在概述京东在JDK方向上的尝试与探索,以及京东JDK项目背景,基本特性以及未来的工作方向。对于JDK特性的技术讨论,实现细节及效果,将在后续系列文章中深入讨论。一、HDFS简介HDFS是作为底层的分布式存储服务而存在的,是Hadoop的分布式文件系统组件。HDFS是高容错的,被设计成在低成本硬

  • 用大白话告诉你小白都能看懂的Hadoop架构原理

     Hadoop是目前大数据领域最主流的一套技术体系,包含了多种技术,例如HDFS(分布式文件系统),YARN(分布式资源调度系统),MapReduce(分布式计算系统)等等。有些朋友可能听说过Hadoop,但是却不太清楚它到底是个什么东西,这篇文章就用大白话给各位阐述一下。 假如

推荐阅读