乐趣区

堆排序就是这么容易

[toc]

原文地址

前言

声明:参考来源互联网,有任何争议可以留言。站在前人的肩上,我们才能看的更远。

本教程纯手打,致力于最实用教程,不需要什么奖励,只希望多多转发支持。
欢迎来我公众号,希望可以结识你,也可以催更,微信搜索:JavaPub

有任何问题都可以来谈谈!

堆排序在常用排序算法中属于比较难理解的,本篇就以最简单的方式讲解。如果还有什么疑问,

1. 什么是堆?

  • 弄清楚 <font color=#159957> 堆排序 </font> 以前,我们先要知道什么是<font color=#159957> 堆 </font>

堆是具有以下性质的 完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆;或者每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆。

下图:

简单用公式描述一下就是:

大顶堆:arr[i] >= arr[2i+1] && arr[i] >= arr[2i+2]

小顶堆:arr[i] <= arr[2i+1] && arr[i] <= arr[2i+2]

问题二:什么是<font color=#159957> 完全二叉树 </font>

百度百科:

一棵深度为 k 的有 n 个结点的二叉树,对树中的结点按从上至下、从左到右的顺序进行编号,如果编号为 i(1≤i≤n)的结点与满二叉树中编号为 i 的结点在二叉树中的位置相同,则这棵二叉树称为完全二叉树。

2. 堆排序

百度百科:

堆排序(英语:Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。

堆排序是利用 <font color=#159957> 堆 </font> 这种数据结构而设计的一种排序算法,堆排序是一种 <font color=#159957> 选择排序 </font>,它的最坏,最好,平均 <font color=#159957> 时间复杂度 </font> 均为 O(nlogn),它也是 <font color=#159957> 不稳定排序 </font>。

3. 原理

堆排序的基本思想是:将待排序序列构造成一个大顶堆,此时,整个序列的最大值就是堆顶的根节点。将其与末尾元素进行交换,此时末尾就为最大值。然后将剩余 n - 1 个元素重新构造成一个堆,这样会得到 n 个元素的次小值。如此反复执行,便能得到一个有序序列了

<font color=#159957>步骤一 构造初始堆。将给定无序序列构造成一个大顶堆(一般升序采用大顶堆,降序采用小顶堆)。</font>

a. 假设给定无序序列结构如下



b. 此时我们从最后一个非叶子结点开始(叶结点自然不用调整,第一个非叶子结点 arr.length/2-1=5/2-1=1,也就是下面的 6 结点),从左至右,从下至上进行调整。



c. 找到第二个非叶节点 4,由于[4,9,8] 中 9 元素最大,4 和 9 交换。



d. 这时,交换导致了子根 [4,5,6] 结构混乱,继续调整,[4,5,6]中 6 最大,交换 4 和 6。



此时,就将一个无需序列构造成了一个大顶堆。

<font color=#159957>步骤二 将堆顶元素与末尾元素进行交换,使末尾元素最大。然后继续调整堆,再将堆顶元素与末尾元素交换,得到第二大元素。如此反复进行交换、重建、交换。</font>

a. 将堆顶元素 9 和末尾元素 4 进行交。



b. 重新调整结构,使其继续满足堆定义。



c. 再将堆顶元素 8 与末尾元素 5 进行交换,得到第二大元素 8。



后续过程,继续进行调整,交换,如此反复进行,最终使得整个序列有序。





- 再简单总结下堆排序的基本思路:

<font color=#159957>a. 将无需序列构建成一个堆,根据升序降序需求选择大顶堆或小顶堆;</font>

<font color=#159957>b. 将堆顶元素与末尾元素交换,将最大元素 ” 沉 ” 到数组末端;</font>

<font color=#159957>c. 重新调整结构,使其满足堆定义,然后继续交换堆顶元素与当前末尾元素,反复执行调整 + 交换步骤,直到整个序列有序。</font>

4. 代码

代码是基于 Java语言。

package cn.javapub;

import java.util.Arrays;

public class HeapSort {public int[] sort(int[] sourceArray) throws Exception {
        // 对 arr 进行拷贝,不改变参数内容
        int[] arr = Arrays.copyOf(sourceArray, sourceArray.length);

        int len = arr.length;

        // 构建大顶堆
        buildMaxHeap(arr, len);

        // 调整堆结构 + 交换堆顶元素与末尾元素
        for (int i = len - 1; i > 0; i--) {swap(arr, 0, i);// 将堆顶元素与末尾元素进行交换
            len--;
            heapify(arr, 0, len);// 重新对堆进行调整
        }
        return arr;
    }

    private void buildMaxHeap(int[] arr, int len) {for (int i = (int) Math.floor(len / 2); i >= 0; i--) {
            // 从第一个非叶子结点从下至上,从右至左调整结构
            heapify(arr, i, len);
        }
    }

    // 调整大顶堆
    private void heapify(int[] arr, int i, int len) {
        int left = 2 * i + 1;
        int right = 2 * i + 2;
        int largest = i;

        if (left < len && arr[left] > arr[largest]) {largest = left;}

        if (right < len && arr[right] > arr[largest]) {largest = right;}

        if (largest != i) {swap(arr, i, largest);
            heapify(arr, largest, len);
        }
    }
    
    // 交换元素
    private void swap(int[] arr, int i, int j) {int temp = arr[i];
        arr[i] = arr[j];
        arr[j] = temp;
    }

    public static void main(String[] args) throws Exception {int[] arr = {5, 1, 4, 2, 3};
        HeapSort heapSort = new HeapSort();
        int[] sort = heapSort.sort(arr);
        System.out.println(Arrays.toString(sort));
    }

}

返回结果:

[1, 2, 3, 3, 5]

5. 最后

​ 堆排序是一种选择排序,整体主要由构建初始堆 + 交换堆顶元素和末尾元素并重建堆两部分组成。其中构建初始堆经推导复杂度为 O(n),在交换并重建堆的过程中,需交换 n - 1 次,而重建堆的过程中,根据完全二叉树的性质,[log2(n-1),log2(n-2)…1]逐步递减,近似为 nlogn。所以堆排序时间复杂度一般认为就是 O(nlogn)级。

6. 扩展阅读

<font color=#159957> 光说不练假把式 </font>,看看下面题目。

题目 1 亿 数据中找出 k 大的数据(内存不够的情境,磁盘足够大)

  • 方法一:在内存中新建一个 k 的 <font color=#159957> 小顶锥 </font>,如果插入的元素比锥顶大,则把锥顶的元素扔掉,然后重新调整使其变成小顶锥,重复该过程,最后剩下的 k 个元素就是最大的。

同理,当找出 k 个最小数字的话,意味着剩下的这 k 个数组元素为最小的,这就要确保每次排序要把大的都扔掉,因此要新建大顶堆。

  • 方法二:采用分治法,划分为若干个小文件(通常利用 hash(x)%M,m 是划分的大小,来进行划分),每个文件依次找出前 k 大个,然后放在一起再找出 k 大个。每次文件找出 k 大个,可以利用快速排序,每次 快速排序 分为两部分(一边是小的,一边是大的),如果大的部分长度大于 k,接着利用快速排序,直到大的部分小于 k(假设为 n)(说明这些肯定是这么多数中最大的),然后对剩下的部分进行快排,找出前(k-n)个最大的,然后在对剩下的进行快排,最后会发现递归到最后,只需要找到最大的那个数就行了。这种思想是分治思想,一直分下去。
  • 方法三:hash,采用 hash 主要是先去重,然后再利用分治或者是堆排序进行查找。

这个题目受限于内存不够情况,当足够大内存和多核情况,我们可以划分成一个个小任务单独执行,最后一个线程再合并。

(1)单机 + 单核 + 足够大内存

    如果需要查找 10 亿个查询次(每个占 8B)中出现频率最高的 10 个,考虑到每个查询词占 8B,则 10 亿个查询次所需的内存大约是 10^9 * 8B=8GB 内存。如果有这么大内存,直接在内存中对查询次进行排序,顺序遍历找出 10 个出现频率最大的即可。这种方法简单快速,使用。然后,也可以先用 HashMap 求出每个词出现的频率,然后求出频率最大的 10 个词。

(2)单机 + 多核 + 足够大内存

这时可以直接在内存总使用 Hash 方法将数据划分成 n 个 partition,每个 partition 交给一个线程处理,线程的处理逻辑同(1)类似,最后一个线程将结果归并。该方法存在一个瓶颈会明显影响效率,即数据倾斜。每个线程的处理速度可能不同,快的线程需要等待慢的线程,最终的处理速度取决于慢的线程。而针对此问题,解决的方法是,将数据划分成 c×n 个 partition(c>1),每个线程处理完当前 partition 后主动取下一个 partition 继续处理,知道所有数据处理完毕,最后由一个线程进行归并。

(3)单机 + 单核 + 受限内存

    这种情况下,需要将原数据文件切割成一个一个小文件,如次啊用 hash(x)%M,将原文件中的数据切割成 M 小文件,如果小文件仍大于内存大小,继续采用 Hash 的方法对数据文件进行分割,知道每个小文件小于内存大小,这样每个文件可放到内存中处理。采用(1)的方法依次处理每个小文件。

(4)多机 + 受限内存

    这种情况,为了合理利用多台机器的资源,可将数据分发到多台机器上,每台机器采用(3)中的策略解决本地的数据。可采用 hash+socket 方法进行数据分发。

对于这类问题,更好解决方案是使用 MapReduce 处理任务。

退出移动版