热门标签【hdfs】- 幻海软件

多云缓存在知乎的演进
一、多云缓存产生的背景1、多云架构知乎目前采用的是多云架构，主要基于以下三个方面的考虑：服务多活。这是为了防止在某个机房出现不可抗力、不能提供服务的时候，业务被全面中断。容量扩展。单一机房的容量上限是万台，知乎目前的服务器规模已经超过了万台。降本增效。同一云服务在不同云厂商的定价是不同的，我们希望能
高性能、云原生湖仓一体存储架构探秘
一、湖仓一体存储架构的演进1、存储架构的演进阶段大数据存储系统的演进，分为两个阶段：机房时代和云计算时代。第一个阶段，也是最早Hadoop诞生的时代，这个时代主要以机房的系统为主，HDFS基本上是唯一的存储选型方案。随着云计算的普及和发展，对象存储逐渐成为企业主流的存储方案。尤其是在数据湖架构中，对
【云原生】HBase on K8s 编排部署讲解与实战操作
一、概述HBase 是一个面向列式存储的分布式数据库，其设计思想来源于Google的BigTable论文。HBase底层存储基于HDFS实现，集群的管理基于ZooKeeper实现。HBase良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能，基于数据副本机制和分区机制可以轻松实现
基于云原生的Flink计算平台实践
作者｜王杰，单位：中国移动智慧家庭运营中心Labs导读随着云原生的普及，越来越多的后端应用进行了容器化迁移，并通过k8s进行编排管理。而最近这几年，大数据领域比如Flink，Spark等计算引擎也纷纷表示对k8s的支持，使得大数据应用从传统的yarn时代转变为云原生时代。本文以Flink和k8s为
兄弟们给我十分钟，带你了解一下大数据技术的入门原理和架构设计
一、前奏Hadoop是目前大数据领域最主流的一套技术体系，包含了多种技术。包括HDFS（分布式文件系统），YARN（分布式资源调度系统），MapReduce（分布式计算系统），等等。有些朋友可能听说过Hadoop，但是却不太清楚他到底是个什么东西，这篇文章就用大白话给各位阐述一下。假如你现在公司里的
10亿级数据量的系统性能优化设计，被惊艳到了
首先一起来画个图，回顾一下HadoopHDFS中的超大数据文件上传的原理。其实说出来也很简单，比如有个十亿数据量级的超大数据文件，可能都达到TB级了，此时这个文件实在是太大了。此时，HDFS客户端会给拆成很多block，一个block就128MB。这个HDFS客户端你可以理解为是云盘系统、日志采集系
终于有人把HDFS架构和读写流程讲明白了
一、HDFS基础以下是HDFS设计时的目标。1.硬件故障硬件故障对于HDFS来说应该是常态而非例外。HDFS包含数百或数千台服务器（计算机），每台都存储文件系统的一部分数据。事实上，HDFS存在大量组件并且每个组件具有非平凡的故障概率，这意味着某些组件始终不起作用。因此，检测故障并从中快速自动恢复是
性能提升100倍！基于Hadoop的TB级大文件上传优化实践
一、写在前面上一篇文章，我们聊了一下Hadoop中的NameNode里的editslog写机制。主要分析了editslog写入磁盘和网络的时候，是如何通过分段加锁以及双缓冲的机制，大幅度提升了多线程并发写editslog的吞吐量，从而支持高并发的访问。如果没看那篇文章的同学，可以回看一下：《每秒上

vivo 万台规模 HDFS 集群升级 HDFS 3.x 实践
作者｜vivo互联网大数据团队-LvJiaHadoop3.x的第一个稳定版本在2017年底就已经发布了，有很多重大的改进。在HDFS方面，支持了ErasureCoding、Morethan2NameNodes、Router-BasedFederation、StandbyNameNodeRead、Fa
DanceNN：字节自研千亿级规模文件元数据存储系统概述
作者｜黄冬发背景介绍在一个典型的分布式文件系统中，目录文件元数据操作(包括创建目录或文件，重命名，修改权限等)在整个文件系统操作中占很大比例，因此元数据服务在整个文件系统中扮演着重要的角色，随着大规模机器学习、大数据分析和企业级数据湖等应用，分布式文件系统数据规模已经从PB级到EB级，当前多数分布式
三分钟读懂Hadoop、HBase、Hive、Spark分布式系统架构
机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统，hadoop用于分布式存储和map-reduce计算，spark用于分布式机器学习，hive是分布式数据库，hbase是分布式kv系统，看似互不相关的他们却都是基于相同的hdfs存储和yarn资源管理，本文通过全套部署方法来让大家深入系统
比较容易理解的Hbase架构全解，10分钟学会，建议收藏
依然是Hadoop组件的讲解，今天说到HBase架构，都是一字一句打出来的，希望各位转发加关注，会一直给大家写优质的内容。物理上，Hbase是由三种类型的server组成的的主从式(master-slave)架构：RegionServer，负责处理数据的读写请求，客户端请求数据时直接和RegionS
大规模集群故障处理，能抗住这3个灵魂拷问算你赢
我相信每一个集群管理员，在长期管理多个不同体量及应用场景的集群后，都会多少产生情绪。其实这在我看来，是一个很微妙的事，即大家也已经开始人性化的看待每一个集群了。既然是人性化的管理集群，我总是会思考几个方向的问题：集群的特别之处在哪儿?集群经常生什么病?对于集群产生的突发疾病如何精准地做到靶向定位?应
可能是最易懂的Hbase架构原理解析
 小史是一个非科班的程序员，虽然学的是电子专业，但是通过自己的努力成功通过了面试，现在要开始迎接新生活了。今天，小史的姐姐和吕老师一起过来看小史，一进屋，就有一股难闻的气味。可不，小史姐姐走进卫生间，发现地下一个盆子里全是没洗的袜子。小史：当然不是，盆里的袜子满了，就先放到这个桶里，然后再
京东JDK在大数据平台的探索与研究
本文旨在概述京东在JDK方向上的尝试与探索，以及京东JDK项目背景，基本特性以及未来的工作方向。对于JDK特性的技术讨论，实现细节及效果，将在后续系列文章中深入讨论。一、HDFS简介HDFS是作为底层的分布式存储服务而存在的，是Hadoop的分布式文件系统组件。HDFS是高容错的，被设计成在低成本硬
用大白话告诉你小白都能看懂的Hadoop架构原理
 Hadoop是目前大数据领域最主流的一套技术体系，包含了多种技术，例如HDFS（分布式文件系统），YARN（分布式资源调度系统），MapReduce（分布式计算系统）等等。有些朋友可能听说过Hadoop，但是却不太清楚它到底是个什么东西，这篇文章就用大白话给各位阐述一下。 假如

深圳幻海软件技术有限公司

推荐阅读

该醒醒了，Python没有那么容易找工作

创始人服药自杀！遗书曝光：做网约车是我这辈子最傻的决定

这六个 TS 新特性经常用到，用了之后我再也离不开它！

95%的程序员都用不到的“算法”，是不是没必要死磕？

2022双十一筹备：一个细小疏忽差点酿成大祸

【微信小程序】使用uni-app——开发首页搜索框导航栏（可同时兼容APP、H5、小程序）

热门标签

深圳幻海软件技术有限公司

推荐阅读

该醒醒了，Python没有那么容易找工作

创始人服药自杀！遗书曝光：做网约车是我这辈子最傻的决定

这 六个 TS 新特性经常用到，用了之后我再也离不开它！

95%的程序员都用不到的“算法”，是不是没必要死磕？

2022双十一筹备：一个细小疏忽差点酿成大祸

【微信小程序】使用uni-app——开发首页搜索框导航栏（可同时兼容APP、H5、小程序）

热门标签

这六个 TS 新特性经常用到，用了之后我再也离不开它！