乐趣区

关于java:如何写出高性能代码二巧用数据特性

导语

同一份逻辑,不同人的实现的代码性能会呈现数量级的差别;同一份代码,你可能微调几个字符或者某行代码的程序,就会有数倍的性能晋升;同一份代码,也可能在不同处理器上运行也会有几倍的性能差别;十倍程序员 不是只存在于传说中,可能在咱们的四周也亘古未有。十倍体现在程序员的办法面面,而代码性能却是其中最直观的一面。

本文是《如何写出高性能代码》系列的第二篇,本文将通知你如何利用数据的几个个性以达到晋升代码性能的目标。

可复用性

咱们在代码中所用到的大部分数据,都是能够被重复使用的,这种能被重复使用的数据就不要去重复去获取或者初始化了,举个例子:

上图中在 for 循环中调用了 getSomeThing()函数,而这个函数理论和循环无关,它是能够放在循环外,其后果也是能够复用的,下面代码放在循环内白白多调用了 99 次,这里如果 getSomeThing()是个十分耗时或者耗 CPU 的函数,性能将会查近百倍。

在 Java 代码中,咱们很罕用的枚举类,大部分的枚举类可能常常有获取所有枚举信息的接口,大部分人可能写进去的代码像下面的 getList()这样。然而这种写法尽管性能上没啥问题,但每调用一次就会生成一个新的 List,如果调用频次很高就会对性能产生显著的影响。正确的做法应该动态初始化生成一个 不可变 的 list,之后间接复用就行。

舒适提醒:这里我特意标注了一个 不可变,在对象复用的状况下须要额定关注下是否有中央会扭转对象内容,如果对象须要被扭转就不能复用了,能够 deepcopy 之后再更改。当然如果这个对象生来就是会被扭转的,就没必要复用了。

非必要性

非必要性的意思是有些数据可能没必要去做初始化。举个简略的例子:

在下面代码中 sth 对象被获取后,才校验了参数的合法性,事实上如果参数是不非法的,sth 就没必要初始化了,这里 sth 就具备了非必要性。相似下面这种代码其实很常见,我在咱们公司代码库中就遇到了很屡次,根本的模式都是先获取了某些数据,但在之后有些过滤或者查看的逻辑导致代码跳出,而后这些数据就齐全没有用上。
应答非必要性的一个解决方案就是 提早初始化 ,有些中央也叫 懒加载 或者 惰性加载 ,像下面代码中只须要把 getSomeThing() 挪动到参数校验的前面,就能够防止这个性能问题了。像 Java 中咱们在用的 checkstyle 插件,就提供了一个 VariableDeclarationUsageDistance 的规定,这个规定的作用强制让代码的申明和应用不会距离太多行,从而避免出现上述这种申明但未应用导致的性能问题。
事实上, 提早初始化 是一个十分罕用的机制,比方驰名的 copy on write 其实就是提早初始化的榜样。另外像 Jdk 中很多汇合根本也都是提早初始化的,就拿 HashMap 为例,你在执行 new HashMap()时,只是创立了一个空壳对象,只有第一次调用 put()办法时整个 map 才会初始化。

// new HashMap()只是初始化进去一个空壳 hashmap
public HashMap(int initialCapacity, float loadFactor) {if (initialCapacity < 0)
        throw new IllegalArgumentException("Illegal initial capacity:" +
                                       initialCapacity);
    if (initialCapacity > MAXIMUM_CAPACITY)
        initialCapacity = MAXIMUM_CAPACITY;
    if (loadFactor <= 0 || Float.isNaN(loadFactor))
        throw new IllegalArgumentException("Illegal load factor:" +
                                       loadFactor);
    this.loadFactor = loadFactor;
    this.threshold = tableSizeFor(initialCapacity);
}

public V put(K key, V value) {return putVal(hash(key), key, value, false, true);
}
    
final V putVal(int hash, K key, V value, boolean onlyIfAbsent,
               boolean evict) {Node<K,V>[] tab; Node<K,V> p; int n, i;
    // 第一次 put 触发外部真正的初始化
    if ((tab = table) == null || (n = tab.length) == 0) 
        n = (tab = resize()).length;
    if ((p = tab[i = (n - 1) & hash]) == null)
        tab[i] = newNode(hash, key, value, null);
    else {// 省略其它代码}
    ++modCount;
    if (++size > threshold)
        resize();
    afterNodeInsertion(evict);
    return null;
}

局部性


局部性也是陈词滥调的个性了,局部性有好多种,数据局部性、空间局部性、工夫局部性……能够说就是因为局部性的存在,世界能力更高效地运行。更多对于局部性的内容,能够参考下我之前写的一篇文章局部性原理——各类优化的基石。
这里先说下数据局部性,在大多数状况下,只有大量的数据是会被频繁拜访的,俗称热点数据。解决热点数据最简略的办法就是给它加缓存加分片,具体计划就得看具体问题了。我来举个在互联网公司很常见的例子,很多业务数据都是存在数据库中,然而数据库在面对超大量的申请就有点力不从心了,因为局部性的存在,只有大量的数据是被频繁拜访的,咱们能够将这部分数据缓存在 Redis 中,从而缩小对数据库的压力。
另外说个大家比拟容易疏忽的一点,代码局部性。零碎中只有大量的代码是被重复执行的,而且如果零碎有性能问题,也是大量的代码导致的,所以只有找出并优化好这部分代码,零碎性能就能显著晋升。依赖一些性能剖析工具,比方用 arthas 火焰图就能很容易找到这部分代码(其余工具会在本系列第五篇文章中介绍)。

多读少写

除了局部性外,数据还有另外一个十分显著的个性,就是多读少写。这个也很合乎大家的直觉和习惯,比方大部分人都是看文章而不是写文章,你到如何网站上也都是看的多,改的少,这是一条简直放之四海而皆准的法则。那这个个性对咱们写代码有什么意义?这个个性意味着大概率你的代码局部性就产生在读数据的代码上,额定关注下这部分代码。
当然也不是说写数据不重要,这里就不得不说到多读少写的另外一个特点了,那就是写的老本远高于读的老本,而且写的重要性也远高于读的重要性。重要性显而易见,去银行只是看不到余额能够承受,但取不了钱那必定就是不行了。那为什么写数据的老本会远高于读数据的老本呢?简略能够这么了解,因为数据局部性的加持,很多读都能够通过各种伎俩来优化,而写就不大行,而且写可能会产生很多额定的副作用,须要增加很多校验之类的逻辑防止不必要的副作用。

以上就是本文的全部内容,心愿大家有所播种。

如何写出高性能代码系列文章

  • (一)善用算法和数据结构
  • (二)巧用数据个性
退出移动版