深入解析V8中sort的工作原理

30次阅读

共计 6120 个字符,预计需要花费 16 分钟才能阅读完成。

深入解析 V8 中 sort 的工作原理

背景

由一道算法题引起的思考。
之前在 leetcode 刷题的时候遇到这道题(题目来源寻找两个有序数组的中位数)

给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。
请你找出这两个有序数组的中位数,并且要求算法的时间复杂度为 O(log(m + n))。
你可以假设 nums1 和 nums2 不会同时为空。

示例 1
nums1 = [1, 3]
nums2 = [2]

则中位数是 2.0

示例 2
nums1 = [1, 2]
nums2 = [3, 4]

则中位数是 (2 + 3)/2 = 2.5

当初做的时候没有认真审题,直接两个数组合并然后排序再取中位数,提交的时候也直接 AC 了。后来看解析的时候发现有人吐槽 js 直接用 sort,耍赖皮,我才发现,原来题目要求时间复杂度为 O(log(m + n))。

那么问题来了,排序最快也要 O(nlogn),那为何不会超时呢?

先看下我不审题的解答

var findMedianSortedArrays = function(nums1, nums2) {let num = nums1.concat(nums2);
    num = num.sort((a, b) => a - b);
    let mid = Math.floor(num.length / 2);
    if (num.length % 2 === 0) {return (num[mid-1] + num[mid])/2
    } else {return num[mid]
    }
};

我这里用的是 V8 优化过后的 sort 而不是普通的快排,那么是不是证明 V8 的 sort 要比快排还要快呢?

V8 中的 sort 与快速排序比较

这里我写了一个脚本,用来比较两个算法的运行时长

var quickSort = function (arr) {if (arr.length <= 1) {return arr;}
    var pivotIndex = Math.floor(arr.length / 2);
    var pivot = arr.splice(pivotIndex, 1)[0];
    var left = [];
    var right = [];
    for (var i = 0; i < arr.length; i++) {if (arr[i] < pivot) {left.push(arr[i]);
        } else {right.push(arr[i]);
        }
    }
    return quickSort(left).concat([pivot], quickSort(right));
};

let arr = [], brr = [], idx = 0, length = Math.floor(Math.random() * 10000000);
while (idx < length) {arr[idx] = brr[idx] = Math.floor(Math.random() * length);
    idx++;
}
console.log('length===', length)

console.time('quicksort')
quickSort(arr)
console.timeEnd('quicksort')

console.time('V8_sort')
brr.sort((a, b) => {return a - b})
console.timeEnd('V8_sort')

我们可以看到结果,无论随机数组的长度如何,显然 V8 提供的 sort 是要比快排快的(可能有人吐糟我的快排有问题,快排写法取自阮一峰老师的博客,可能又有杠精要说阮一峰老师的快排是非原地快排,好的,请出门左拐,不送)

快排原理

这里先给大家补习一下快排的原理,熟悉的同学可以直接到下一标题。

原理

①选择一个元素作为 ” 基准 ”
②小于 ” 基准 ” 的元素,都移到 ” 基准 ” 的左边;大于 ” 基准 ” 的元素,都移到 ” 基准 ” 的右边。
③对 ” 基准 ” 左边和右边的两个子集,不断重复第一步和第二步,直到所有子集只剩下一个元素为止。

示例

以下示例取自阮一峰老师的博客快速排序(Quicksort)的 Javascript 实现
举例来说,现在有一个数据集{85, 24, 63, 45, 17, 31, 96, 50},怎么对其排序呢?

第一步,选择中间的元素 45 作为 ” 基准 ”。(基准值可以任意选择,但是选择中间的值比较容易理解。)

第二步,按照顺序,将每个元素与 ” 基准 ” 进行比较,形成两个子集,一个 ” 小于 45″,另一个 ” 大于等于 45″。

第三步,对两个子集不断重复第一步和第二步,直到所有子集只剩下一个元素为止。

V8 中 sort 原理

其中 V8 中的 sort 并不是单一的一种排序方法,而是根据数组长度来选择具体的方法,当数组长度小于等于 22,选择用插入排序,大于 22 则选择快速排序,源码中是这样写到:

  // In-place QuickSort algorithm.
  // For short (length <= 22) arrays, insertion sort is used for efficiency.

插入排序其实没什么好说的,本文就此略过。
那么我们重点来看 V8 中 sort 的快速排序是怎么实现的。

基准的选择

先看源码

  if (to - from <= 10) {InsertionSort(a, from, to);
    return;
  }
  if (to - from > 1000) {third_index = GetThirdIndex(a, from, to);
  } else {third_index = from + ((to - from) >> 1);
  }

①当数组长度小于等于 10,剩下的数组直接用插入排序
②当数组长度大于 10 小于等于 1000 时,third_index = from + ((to - from) >> 1);
③当数组长度大于 1000 时,通过以下函数获取

var GetThirdIndex = function(a, from, to) {var t_array = new InternalArray();
    // Use both 'from' and 'to' to determine the pivot candidates.
    var increment = 200 + ((to - from) & 15);
    var j = 0;
    from += 1;
    to -= 1;
    for (var i = from; i < to; i += increment) {t_array[j] = [i, a[i]];
      j++;
    }
    t_array.sort(function(a, b) {return comparefn(a[1], b[1]);
    });
    var third_index = t_array[t_array.length >> 1][0];
    return third_index;
 }

这里补充一下 from + ((to - from) >> 1)200 + ((to - from) & 15)中的 & 和 >>:

①&:按位与运算符“&”是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位都为 1 时,结果位才为 1。参与运算的两个数均以补码出现。

规则:

1&1=1
1&0=0
0&1=0
0&0=0

例如:

3:0000 0011 
5:0000 0101
得到的结果是:1:0000 0001
所以 3 & 5 = 1

②>>: 按照二进制把数字右移指定数位,符号位为正补零,符号位负补一,低位直接移除。
例如:

let a = 60;
(60: 0011 1100)
a >> 2 之后等于 15
(15: 0000 1111)

源码解析

源码太长,我们在这就不一行一行地过,直接贴上比较关键的代码,有兴趣的同学可以去看 github 上面的源码 V8 sort 源码,建议从第 710 行开始看

if (!IS_CALLABLE(comparefn)) {comparefn = function (x, y) {if (x === y) return 0;
      if (%_IsSmi(x) && %_IsSmi(y)) {return %SmiLexicographicCompare(x, y);
      }
      x = TO_STRING(x);
      y = TO_STRING(y);
      if (x == y) return 0;
      else return x < y ? -1 : 1;
    };
  }
  var InsertionSort = f

用过 sort 的同学应该知道,该函数接收一个函数 comparefn 作为参数,若不传,则默认将元素以字符串的方式升序排序,如:

var InsertionSort = function InsertionSort(a, from, to) {for (var i = from + 1; i < to; i++) {var element = a[i];
      for (var j = i - 1; j >= from; j--) {var tmp = a[j];
        var order = comparefn(tmp, element);
        if (order > 0) {a[j + 1] = tmp;
        } else {break;}
      }
      a[j + 1] = element;
    }
  };

  var GetThirdIndex = function(a, from, to) {var t_array = new InternalArray();
    // Use both 'from' and 'to' to determine the pivot candidates.
    var increment = 200 + ((to - from) & 15);
    var j = 0;
    from += 1;
    to -= 1;
    for (var i = from; i < to; i += increment) {t_array[j] = [i, a[i]];
      j++;
    }
    t_array.sort(function(a, b) {return comparefn(a[1], b[1]);
    });
    var third_index = t_array[t_array.length >> 1][0];
    return third_index;
  }

  var QuickSort = function QuickSort(a, from, to) {
    var third_index = 0;
    while (true) {
      // Insertion sort is faster for short arrays.
      if (to - from <= 10) {InsertionSort(a, from, to);
        return;
      }
      if (to - from > 1000) {third_index = GetThirdIndex(a, from, to);
      } else {third_index = from + ((to - from) >> 1);
      }
      // Find a pivot as the median of first, last and middle element.
      var v0 = a[from];
      var v1 = a[to - 1];
      var v2 = a[third_index];
      var c01 = comparefn(v0, v1);
      if (c01 > 0) {
        // v1 < v0, so swap them.
        var tmp = v0;
        v0 = v1;
        v1 = tmp;
      } // v0 <= v1.
      var c02 = comparefn(v0, v2);
      if (c02 >= 0) {
        // v2 <= v0 <= v1.
        var tmp = v0;
        v0 = v2;
        v2 = v1;
        v1 = tmp;
      } else {
        // v0 <= v1 && v0 < v2
        var c12 = comparefn(v1, v2);
        if (c12 > 0) {
          // v0 <= v2 < v1
          var tmp = v1;
          v1 = v2;
          v2 = tmp;
        }
      }
      // v0 <= v1 <= v2
      a[from] = v0;
      a[to - 1] = v2;
      var pivot = v1;
      var low_end = from + 1;   // Upper bound of elements lower than pivot.
      var high_start = to - 1;  // Lower bound of elements greater than pivot.
      a[third_index] = a[low_end];
      a[low_end] = pivot;

      // From low_end to i are elements equal to pivot.
      // From i to high_start are elements that haven't been compared yet.
      partition: for (var i = low_end + 1; i < high_start; i++) {var element = a[i];
        var order = comparefn(element, pivot);
        if (order < 0) {a[i] = a[low_end];
          a[low_end] = element;
          low_end++;
        } else if (order > 0) {
          do {
            high_start--;
            if (high_start == i) break partition;
            var top_elem = a[high_start];
            order = comparefn(top_elem, pivot);
          } while (order > 0);
          a[i] = a[high_start];
          a[high_start] = element;
          if (order < 0) {element = a[i];
            a[i] = a[low_end];
            a[low_end] = element;
            low_end++;
          }
        }
      }
      if (to - high_start < low_end - from) {QuickSort(a, high_start, to);
        to = low_end;
      } else {QuickSort(a, from, low_end);
        from = high_start;
      }
    }
  };
  1. 用上面所阐述的方法获取基准
  2. 将基准、第一个元素以及最后一个元素进行排序处理
  3. 分别从第二个元素往右遍历和倒数第二个元素往左遍历,获取基准左侧比基准大的数与基准右侧比基准大的数,然后交换位置,接着基准与交换后较小的数字互换位置。
  4. 继续遍历,继续交换,直至左游标与右游标相会。
  5. 这时,基准左侧均是比基准小的数,基准右侧均是比基准大的数,分拆为两个数组,再递归遍历重复上面所有步骤,直到递归的数组长度小于等于 10,便直接使用插入排序。

举个例子????:
现有一个数组let arr= [1, 3, 9, 7, 0, 5, 2, 10, 6, 8, 4];

  1. 首先执行 QuickSort 函数,from 是 0,to 是 11,数组长度为 11,基准为 0 + ((11 - 0) >> 1) 等于 5
  2. 所以 a[from] 也就是 a[0]a[to] 也就是 a[10] 和基准 a[5] 三者之间比较大小,得到新的数组是[1, 3, 9, 7, 0, 4, 2, 10, 6, 8, 5],其中a[from] == a[0] == 1,a[from] == a[10] == 5,基准值 a[5] == 4;
  3. 基准与 a[to+1]互换,得到[1, 4, 9, 7, 0, 3, 2, 10, 6, 8, 5]
  4. 然后便进入 partition 循环,其中 a[low_end] = 9; a[high_start] = 8; 开始从 low_end 往右找比基准大的值 9,以及从 high_start 开始往左找比基准小的值 2,互换得到[1, 4, 2, 7, 0, 3, 9, 10, 6, 8, 5]
  5. 然后基准值与刚才的较小值互换,得到[1, 2, 4, 7, 0, 3, 9, 10, 6, 8, 5],接着重复步骤 4
  6. 然后遍历 7,7 与 3 互换得到[1, 2, 4, 3, 0, 7, 9, 10, 6, 8, 5]
  7. 紧接着基准与较小值互换[1, 2, 3, 4, 0, 7, 9, 10, 6, 8, 5]
  8. 最后得到[1, 2, 3, 0, 4, 7, 9, 10, 6, 8, 5]
  9. 可以看出,基准左侧为比基准小的数组,基准右侧为比基准大的数组,分别用 QuicSort 递归左侧数组和右侧数组,最后便得到结果。

总结

V8 中的 sort 并不是一种单纯的排序方式,而是结合了插入排序以及快速排序的函数,并且针对快排做了优化。

本人才疏学浅,若有错误之处,请指正,必定尽快更改。

正文完
 0