深圳幻海软件技术有限公司 欢迎您!

【数据结构】详解二叉树与堆与堆排序的关系

2023-04-19

🌇个人主页:平凡的小苏📚学习格言:别人可以拷贝我的模式,但不能拷贝我不断往前的激情🛸C语言专栏:https://blog.csdn.net/vhhhbb/category_12174730.html🚀数据结构专栏:https://blog.csdn.net/vhhhbb/category_1

🌇个人主页:平凡的小苏

📚学习格言:别人可以拷贝我的模式,但不能拷贝我不断往前的激情

🛸C语言专栏:https://blog.csdn.net/vhhhbb/category_12174730.html

🚀数据结构专栏:https://blog.csdn.net/vhhhbb/category_12211053.html

        家人们更新不易,你们的👍点赞👍和⭐关注⭐真的对我真重要,各位路过的友友麻烦多多点赞关注,欢迎你们的私信提问,感谢你们的转发

        关注我,关注我,关注我,你们将会看到更多的优质内容!!

目录

1、树概念及结构

1.1、树的概念

1.2 树的相关概念 

2、二叉树概念及结构

2.1、概念

2.2、 特殊的二叉树

2.3、二叉树的性质 

2.5 、二叉树的存储结构

3、二叉树的顺序结构及实现

3.1、 二叉树的顺序结构

3.2、堆的概念及结构

 3.3、堆的实现

3.3.1、堆的结构代码

3.3.2、堆的初始化

3.3.3、堆的插入

 3.3.4、堆的删除

 3.3.5、取堆顶数据

3.3.6、堆的个数

3.3.7、堆的判空

3.3.8、堆的销毁

3.4、建堆的时间复杂度

3.4.1、向上建堆的时间复杂度

 3.4.2、向下调整建堆的时间复杂度证明

3.5、堆的应用

3.5.1、堆排序

 3.5.2、堆排序代码

3.5.3、TOP-K问题


1、树概念及结构

1.1、树的概念

树是一种非线性的数据结构,它是由n(n>=0)个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。
  • 有一个特殊的结点,称为根结点,根节点没有前驱结点
  • 除根节点外,其余结点被分成M(M>0)个互不相交的集合T1、T2、……、Tm,其中每一个集合Ti(1<= i <= m)又是一棵结构与树类似的子树。每棵子树的根结点有且只有一个前驱,可以有0个或多个后继
  • 因此,树是递归定义的。

下面我们来看一个树的结构图:

 注意:树形结构中,子树之间是不能有交集的,否则就不是树形结构,变成了一个图。

1.2 树的相关概念 

节点的度:一个节点含有的子树的个数称为该节点的度; 如上图:A的为6
叶节点或终端节点:度为0的节点称为叶节点; 如上图:B、C、H、I...等节点为叶节点
非终端节点或分支节点度不为0的节点; 如上图:D、E、F、G...等节点为分支节点
双亲节点或父节点:若一个节点含有子节点,则这个节点称为其子节点的父节点; 如上图:A是B的父节点
孩子节点或子节点:一个节点含有的子树的根节点称为该节点的子节点; 如上图:B是A的孩子节点
兄弟节点:具有相同父节点的节点互称为兄弟节点; 如上图:B、C是兄弟节点
树的度:一棵树中,最大的节点的度称为树的度; 如上图:树的度为6
节点的层次:从根开始定义起,根为第1层,根的子节点为第2层,以此类推;
树的高度或深度树中节点的最大层次; 如上图:树的高度为4
堂兄弟节点:双亲在同一层的节点互为堂兄弟;如上图:H、I互为兄弟节点
节点的祖先:从根到该节点所经分支上的所有节点;如上图:A是所有节点的祖先
子孙:以某节点为根的子树中任一节点都称为该节点的子孙。如上图:所有节点都是A的子孙
森林:由m(m>0)棵互不相交的树的集合称为森林;

2、二叉树概念及结构

2.1、概念

一棵二叉树是结点的一个有限集合,该集合:
1. 或者为空
2. 由一个根节点加上两棵别称为左子树和右子树的二叉树组成

 从上图可以看出:

1. 二叉树不存在度大于2的结点
2. 二叉树的子树有左右之分,次序不能颠倒,因此二叉树是有序树

2.2、 特殊的二叉树

1. 满二叉树:一个二叉树,如果每一个层的结点数都达到最大值,则这个二叉树就是满二叉树。也就是说,如果一个二叉树的层数为K,且结点总数是2^k-1 ,则它就是满二叉树。
2. 完全二叉树:完全二叉树是效率很高的数据结构,完全二叉树是由满二叉树而引出来的。对于深度为K的,有n个结点的二叉树,当且仅当其每一个结点都与深度为K的满二叉树中编号从1至n的结点一一对应时称之为完全二叉树。 要注意的是满二叉树是一种特殊的完全二叉树。

2.3、二叉树的性质 

1. 若规定根节点的层数为1,则一棵非空二叉树的第i层上最多有 2^(i-1)个结点.
2. 若规定根节点的层数为1,则深度为h的二叉树的最大结点数是 2^h-1.
3. 对任何一棵二叉树, 如果度为0其叶结点个数为 , 度为2的分支结点个数为n2 ,则有 n0=n2 +1
4. 若规定根节点的层数为1,具有n个结点的满二叉树的深度h= log(n+1). (ps: 是log以2 为底,n+1为对数)
5. 对于具有n个结点的完全二叉树,如果按照从上至下从左至右的数组顺序对所有节点从0开始编号,则对 于序号为i的结点有:
1. 若i>0,i位置节点的双亲序号:(i-1)/2;i=0,i为根节点编号,无双亲节点
2. 若2i+1<n,左孩子序号:2i+1,2i+1>=n否则无左孩子
3. 若2i+2<n,右孩子序号:2i+2,2i+2>=n否则无右孩子

2.5 、二叉树的存储结构

目前我们是需要讲堆结构的,这里只详细介绍二叉树的顺序存储

二叉树一般可以使用两种结构存储,一种顺序结构,一种链式结构。
1. 顺序存储
顺序结构存储就是使用数组来存储,一般使用数组只适合表示完全二叉树,因为不是完全二叉树会有空间的浪费。而现实中使用中只有堆才会使用数组来存储,关于堆我们后面的章节会专门讲解。二叉树顺 序存储在物理上是一个数组,在逻辑上是一颗二叉树。
如下图所示:

3、二叉树的顺序结构及实现

3.1、 二叉树的顺序结构

普通的二叉树不适合数组来存储的,因为可能会存在大量的空间浪费。而完全二叉树更适合使用顺序结 构存储。现实中我们通常把堆(一种二叉树)使用顺序结构的数组来存储,需要注意的是这里的堆和操作系统 虚拟进程地址空间中的堆是两回事,一个是数据结构,一个是操作系统中管理内存的一块区域分段。

3.2、堆的概念及结构

堆是具有下列性质的完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆(例如下面第一张图所示);或者每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆(例如下面第二张图所示)

 3.3、堆的实现

3.3.1、堆的结构代码

  1. typedef int HPDataType;
  2. typedef struct Heap
  3. {
  4. HPDataType* a;//数组
  5. int size;//堆结点个数
  6. int capacity;//堆的容量
  7. }Heap;

3.3.2、堆的初始化

  1. // 堆的构建
  2. void HeapCreate(Heap* hp)
  3. {
  4. assert(hp);
  5. hp->a = (HPDataType*)malloc(sizeof(int) * 4);
  6. hp->size = 0;
  7. hp->capacity = 4;
  8. }

3.3.3、堆的插入

  1. //堆的向上调整
  2. void AdjustUp(HPDataType* a, int child)
  3. {
  4. //这里构建的是大根堆
  5. int parent = (child - 1) / 2;
  6. while (child > 0)//如果孩子结点不大于0就跳出循环
  7. {
  8. if (a[child] > a[parent])
  9. {
  10. Swap(&a[child], &a[parent]);
  11. child = parent;//孩子结点走到父节点
  12. parent = (child - 1) / 2;//更新父节点
  13. }
  14. else
  15. {
  16. break;
  17. }
  18. }
  19. }
  20. void HeapPush(Heap* hp, HPDataType x)
  21. {
  22. assert(hp);
  23. if (hp->size == hp->capacity)//判断堆的容量是否满足
  24. {
  25. HPDataType* tmp = (HPDataType*)realloc(hp->a, sizeof(int) * hp->capacity * 2);
  26. if (tmp == NULL)
  27. {
  28. perror("realloc fail:");
  29. exit(-1);
  30. }
  31. hp->a = tmp;
  32. hp->capacity *= 2;
  33. }
  34. hp->a[hp->size] = x;
  35. hp->size++;
  36. AdjustUp(hp->a, hp->size - 1);//插入向上调整算法
  37. }

算法思想:

我们每次向堆里面插入一个树,都需要调用向上调整算法,如果我们不这样操作,那么我们插入的数就不是一个大根堆,就无法实现堆的删除,取前k大的数等等操作

1.首先我们先让插入的数当做孩子结点,拿去和父亲结点比较,如果孩子结点大于父结点,那么我们就需要交换

2.更新孩子结点和父节点

3.孩子结点不大于0就跳出循环

 3.3.4、堆的删除

  1. //堆的向下调整
  2. void AdjustDown(HPDataType* a, int n, int parent)
  3. {
  4. int child = 2 * parent + 1;
  5. while (child < n)
  6. {
  7. if (child + 1 < n && a[child + 1] > a[child])
  8. {
  9. child += 1;
  10. }
  11. if (a[child] > a[parent])
  12. {
  13. Swap(&a[child], &a[parent]);
  14. parent = child;
  15. child = 2 * parent + 1;
  16. }
  17. else
  18. {
  19. break;
  20. }
  21. }
  22. }
  23. void HeapPop(Heap* hp)
  24. {
  25. assert(hp);
  26. Swap(&hp->a[0], &hp->a[hp->size - 1]);将堆顶的数和最后一个叶子结点交换
  27. hp->size--;//堆个数减1
  28. AdjustDown(hp->a, hp->size, 0);//调用向下调整算法
  29. }

算法思想:

1.交换堆顶和最后叶子结点

2.堆个数减12,并且调用向下调整算法

3.找到孩子两个孩子结点中最小的结点,将™交换

4.更新父节点和孩子结点

5.如果孩子结点大于结点个数就退出循环

 3.3.5、取堆顶数据

  1. HPDataType HeapTop(Heap* hp)
  2. {
  3. assert(hp);
  4. return hp->a[0];
  5. }

3.3.6、堆的个数

  1. int HeapSize(Heap* hp)
  2. {
  3. assert(hp);
  4. return hp->size;
  5. }

3.3.7、堆的判空

  1. bool HeapEmpty(Heap* hp)
  2. {
  3. assert(hp);
  4. return hp->size == 0;
  5. }

3.3.8、堆的销毁

  1. void HeapDestory(Heap* hp)
  2. {
  3. assert(hp);
  4. free(hp->a);
  5. hp->capacity = hp->size = 0;
  6. }

3.4、建堆的时间复杂度

3.4.1、向上建堆的时间复杂度

 时间复杂度证明如下图所示:

 3.4.2、向下调整建堆的时间复杂度证明

向下调整建堆的时间复杂度是O(N),是向上调整建堆的时间复杂度的优化

计算证明如下图所示: 

3.5、堆的应用

3.5.1、堆排序

堆排序就是利用堆进行排序的方法。它的基本思想是,将待排序的序列构造成一个大顶堆。此时,整个序列的最大值就是堆顶的根节点。将它移走(其实就是将其与堆数组的末尾元素交换,此时末尾元素就是最大值),然后将剩余的n-1个序列重新构造一个堆,这就会得到n个元素的次大值。如此反复执行,便能得到一个有序序列。

注意:我们需要升序,就需要建大堆。降序就需要建小堆。

 堆排序的图形演示:

从左至右,从上至下演示

 3.5.2、堆排序代码

  1. #define _CRT_SECURE_NO_WARNINGS 1
  2. #include<stdio.h>
  3. void Swap(int* p1, int* p2)
  4. {
  5. int x = *p1;
  6. *p1 = *p2;
  7. *p2 = x;
  8. }
  9. void PrintArray(int* a, int n)
  10. {
  11. for (int i = 0; i < n; i++)
  12. {
  13. printf("%d ", a[i]);
  14. }
  15. }
  16. void AdjustDown(int* a, int n, int parent)
  17. {
  18. int child = 2 * parent + 1;
  19. while (child <= n)
  20. {
  21. if (child + 1 <= n && a[child + 1] < a[child])
  22. {
  23. child += 1;
  24. }
  25. if (a[child] < a[parent])
  26. {
  27. Swap(&a[child], &a[parent]);
  28. parent = child;
  29. child = 2 * parent + 1;
  30. }
  31. else
  32. {
  33. break;
  34. }
  35. }
  36. }
  37. void HeapSort(int* a, int n)
  38. {
  39. for (int i = (n - 2) / 2; i >= 0; i--)
  40. {
  41. AdjustDown(a, n - 1, i);
  42. }
  43. int end = n - 1;
  44. while (end > 0)
  45. {
  46. Swap(&a[0], &a[end]);
  47. end--;
  48. AdjustDown(a, end, 0);
  49. }
  50. PrintArray(a, n);
  51. }
  52. int main()
  53. {
  54. int a[10] = { 4,2,7,8,3,1,5,6,9,0 };
  55. HeapSort(a, sizeof(a) / sizeof(a[0]));
  56. return 0;
  57. }

3.5.3、TOP-K问题

TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大
比如:专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。
对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:
1. 用数据集合中前K个元素来建堆
前k个最大的元素,则建小堆
前k个最小的元素,则建大堆
2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素
将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。
这里利用文件形式演示top-k问题
代码如下:
  1. #include<stdio.h>
  2. #include<stdlib.h>
  3. #include<assert.h>
  4. #include<time.h>
  5. void Swap(int * p1,int * p2)
  6. {
  7. int x = *p1;
  8. *p1 = *p2;
  9. *p2 = x;
  10. }
  11. //堆的向下调整
  12. void AdjustDown(int * a, int n, int parent)
  13. {
  14. int child = 2 * parent + 1;
  15. while (child < n)
  16. {
  17. if (child + 1 < n && a[child + 1] < a[child])
  18. {
  19. child += 1;
  20. }
  21. if (a[child] < a[parent])
  22. {
  23. Swap(&a[child], &a[parent]);
  24. parent = child;
  25. child = 2 * parent + 1;
  26. }
  27. else
  28. {
  29. break;
  30. }
  31. }
  32. }
  33. void PrintTopK(const char* fin, int k)
  34. {
  35. // 1. 建堆--用a中前k个元素建堆
  36. int* topK = (int*)malloc(sizeof(int) * k);
  37. if (topK == NULL)
  38. {
  39. perror("malloc fail:");
  40. return;
  41. }
  42. FILE* fout = fopen(fin, "r");
  43. if (fout == NULL)
  44. {
  45. perror("FILE fail");
  46. return;
  47. }
  48. for (int i = 0; i < k; i++)
  49. {
  50. fscanf(fout,"%d",&topK[i]);
  51. }
  52. // 2. 将剩余n-k个元素依次与堆顶元素交换,不满则则替换
  53. for (int i = (k - 2) / 2; i >= 0; i--)
  54. {
  55. AdjustDown(topK, k, i);
  56. }
  57. int val = 0;
  58. int ret = fscanf(fout, "%d", &val);
  59. while (ret != EOF)
  60. {
  61. if (val > topK[0])
  62. {
  63. topK[0] = val;
  64. AdjustDown(topK, k, 0);
  65. }
  66. ret = fscanf(fout, "%d", &val);
  67. }
  68. for (int i = 0; i < k; i++)
  69. {
  70. printf("%d ", topK[i]);
  71. }
  72. printf("\n");
  73. free(topK);
  74. fclose(fout);
  75. }
  76. void CreateNDate()
  77. {
  78. // 造数据
  79. int n = 10000;
  80. srand(time(0));
  81. const char* file = "data.txt";
  82. FILE* fin = fopen(file, "w");
  83. if (fin == NULL)
  84. {
  85. perror("fopen error");
  86. return;
  87. }
  88. for (size_t i = 0; i < n; ++i)
  89. {
  90. int x = rand() % 10000;
  91. fprintf(fin, "%d\n", x);
  92. }
  93. fclose(fin);
  94. }
  95. int main()
  96. {
  97. CreateNDate();
  98. PrintTopK("data.txt", 10);
  99. return 0;
  100. }

 注:这里得到的就是前10个最大的数

好了!小编的分享到这里就结束了,有什么不足的地方请大佬多多指教!!! 

文章知识点与官方知识档案匹配,可进一步学习相关知识
算法技能树首页概览44435 人正在系统学习中