java中的各个数据结构区别-转

44次阅读

共计 9736 个字符,预计需要花费 25 分钟才能阅读完成。

ArrayList 和 Vector 是采用数组方式存储数据,此数组元素数大于实际存储的数据以便增加和插入元素,都允许直接序号索引元素,但是插入数据要设计到数组元素移动等内存操作,所以索引数据快插入数据慢,Vector 由于使用了 synchronized 方法(线程安全)所以性能上比 ArrayList 要差,LinkedList 使用双向链表实现存储,按序号索引数据需要进行向前或向后遍历,但是插入数据时只需要记录本项的前后项即可,所以插入数度较快!

线性表,链表,哈希表是常用的数据结构,在进行 Java 开发时,JDK 已经为我们提供了一系列相应的类来实现基本的数据结构。这些类均在 java.util 包中。本文试图通过简单的描述,向读者阐述各个类的作用以及如何正确使用这些类。

Collection
├List
│├LinkedList
│├ArrayList
│└Vector
│ └Stack
└Set
Map
├Hashtable
├HashMap
└WeakHashMap

Collection 接口
Collection 是最基本的集合接口,一个 Collection 代表一组 Object,即 Collection 的元素(Elements)。一些 Collection 允许相同的元素而另一些不行。一些能排序而另一些不行。Java SDK 不提供直接继承自 Collection 的类,Java SDK 提供的类都是继承自 Collection 的“子接口”如 List 和 Set。
所有实现 Collection 接口的类都必须提供两个标准的构造函数:无参数的构造函数用于创建一个空的 Collection,有一个 Collection 参数的构造函数用于创建一个新的 Collection,这个新的 Collection 与传入的 Collection 有相同的元素。后一个构造函数允许用户复制一个 Collection。
如何遍历 Collection 中的每一个元素?不论 Collection 的实际类型如何,它都支持一个 iterator()的方法,该方法返回一个迭代子,使用该迭代子即可逐一访问 Collection 中每一个元素。典型的用法如下:
Iterator it = collection.iterator(); // 获得一个迭代子
while(it.hasNext()) {
Object obj = it.next(); // 得到下一个元素
}
由 Collection 接口派生的两个接口是 List 和 Set。

List 接口
List 是有序的 Collection,使用此接口能够精确的控制每个元素插入的位置。用户能够使用索引(元素在 List 中的位置,类似于数组下标)来访问 List 中的元素,这类似于 Java 的数组。
和下面要提到的 Set 不同,List 允许有相同的元素。
除了具有 Collection 接口必备的 iterator()方法外,List 还提供一个 listIterator()方法,返回一个 ListIterator 接口,和标准的 Iterator 接口相比,ListIterator 多了一些 add()之类的方法,允许添加,删除,设定元素,还能向前或向后遍历。
实现 List 接口的常用类有 LinkedList,ArrayList,Vector 和 Stack。

LinkedList 类
LinkedList 实现了 List 接口,允许 null 元素。此外 LinkedList 提供额外的 get,remove,insert 方法在 LinkedList 的首部或尾部。这些操作使 LinkedList 可被用作堆栈(stack),队列(queue)或双向队列(deque)。
注意 LinkedList 没有同步方法。如果多个线程同时访问一个 List,则必须自己实现访问同步。一种解决方法是在创建 List 时构造一个同步的 List:
List list = Collections.synchronizedList(new LinkedList(…));

ArrayList 类
ArrayList 实现了可变大小的数组。它允许所有元素,包括 null。ArrayList 没有同步。
size,isEmpty,get,set 方法运行时间为常数。但是 add 方法开销为分摊的常数,添加 n 个元素需要 O(n)的时间。其他的方法运行时间为线性。
每个 ArrayList 实例都有一个容量(Capacity),即用于存储元素的数组的大小。这个容量可随着不断添加新元素而自动增加,但是增长算法并没有定义。当需要插入大量元素时,在插入前可以调用 ensureCapacity 方法来增加 ArrayList 的容量以提高插入效率。
和 LinkedList 一样,ArrayList 也是非同步的(unsynchronized)。

Vector 类
Vector 非常类似 ArrayList,但是 Vector 是同步的。由 Vector 创建的 Iterator,虽然和 ArrayList 创建的 Iterator 是同一接口,但是,因为 Vector 是同步的,当一个 Iterator 被创建而且正在被使用,另一个线程改变了 Vector 的状态(例如,添加或删除了一些元素),这时调用 Iterator 的方法时将抛出 ConcurrentModificationException,因此必须捕获该异常。

Stack 类
Stack 继承自 Vector,实现一个后进先出的堆栈。Stack 提供 5 个额外的方法使得 Vector 得以被当作堆栈使用。基本的 push 和 pop 方法,还有 peek 方法得到栈顶的元素,empty 方法测试堆栈是否为空,search 方法检测一个元素在堆栈中的位置。Stack 刚创建后是空栈。

Set 接口
Set 是一种不包含重复的元素的 Collection,即任意的两个元素 e1 和 e2 都有 e1.equals(e2)=false,Set 最多有一个 null 元素。
很明显,Set 的构造函数有一个约束条件,传入的 Collection 参数不能包含重复的元素。
请注意:必须小心操作可变对象(Mutable Object)。如果一个 Set 中的可变元素改变了自身状态导致 Object.equals(Object)=true 将导致一些问题。

Map 接口
请注意,Map 没有继承 Collection 接口,Map 提供 key 到 value 的映射。一个 Map 中不能包含相同的 key,每个 key 只能映射一个 value。Map 接口提供 3 种集合的视图,Map 的内容可以被当作一组 key 集合,一组 value 集合,或者一组 key-value 映射。

Hashtable 类
Hashtable 继承 Map 接口,实现一个 key-value 映射的哈希表。任何非空(non-null)的对象都可作为 key 或者 value。
添加数据使用 put(key, value),取出数据使用 get(key),这两个基本操作的时间开销为常数。
Hashtable 通过 initial capacity 和 load factor 两个参数调整性能。通常缺省的 load factor 0.75 较好地实现了时间和空间的均衡。增大 load factor 可以节省空间但相应的查找时间将增大,这会影响像 get 和 put 这样的操作。
使用 Hashtable 的简单示例如下,将 1,2,3 放到 Hashtable 中,他们的 key 分别是”one”,”two”,”three”:
Hashtable numbers = new Hashtable();
numbers.put(“one”, new Integer(1));
numbers.put(“two”, new Integer(2));
numbers.put(“three”, new Integer(3));
要取出一个数,比如 2,用相应的 key:
Integer n = (Integer)numbers.get(“two”);
System.out.println(“two =”+ n);
由于作为 key 的对象将通过计算其散列函数来确定与之对应的 value 的位置,因此任何作为 key 的对象都必须实现 hashCode 和 equals 方法。hashCode 和 equals 方法继承自根类 Object,如果你用自定义的类当作 key 的话,要相当小心,按照散列函数的定义,如果两个对象相同,即 obj1.equals(obj2)=true,则它们的 hashCode 必须相同,但如果两个对象不同,则它们的 hashCode 不一定不同,如果两个不同对象的 hashCode 相同,这种现象称为冲突,冲突会导致操作哈希表的时间开销增大,所以尽量定义好的 hashCode()方法,能加快哈希表的操作。
如果相同的对象有不同的 hashCode,对哈希表的操作会出现意想不到的结果(期待的 get 方法返回 null),要避免这种问题,只需要牢记一条:要同时复写 equals 方法和 hashCode 方法,而不要只写其中一个。
Hashtable 是同步的。

HashMap 类
HashMap 和 Hashtable 类似,不同之处在于 HashMap 是非同步的,并且允许 null,即 null value 和 null key。,但是将 HashMap 视为 Collection 时(values()方法可返回 Collection),其迭代子操作时间开销和 HashMap 的容量成比例。因此,如果迭代操作的性能相当重要的话,不要将 HashMap 的初始化容量设得过高,或者 load factor 过低。

WeakHashMap 类
WeakHashMap 是一种改进的 HashMap,它对 key 实行“弱引用”,如果一个 key 不再被外部所引用,那么该 key 可以被 GC 回收。

总结
如果涉及到堆栈,队列等操作,应该考虑用 List,对于需要快速插入,删除元素,应该使用 LinkedList,如果需要快速随机访问元素,应该使用 ArrayList。
如果程序在单线程环境中,或者访问仅仅在一个线程中进行,考虑非同步的类,其效率较高,如果多个线程可能同时操作一个类,应该使用同步的类。
要特别注意对哈希表的操作,作为 key 的对象要正确复写 equals 和 hashCode 方法。
尽量返回接口而非实际的类型,如返回 List 而非 ArrayList,这样如果以后需要将 ArrayList 换成 LinkedList 时,客户端代码不用改变。这就是针对抽象编程。

同步性
Vector 是同步的。这个类中的一些方法保证了 Vector 中的对象是线程安全的。而 ArrayList 则是异步的,因此 ArrayList 中的对象并不是线程安全的。因为同步的要求会影响执行的效率,所以如果你不需要线程安全的集合那么使用 ArrayList 是一个很好的选择,这样可以避免由于同步带来的不必要的性能开销。
数据增长
从内部实现机制来讲 ArrayList 和 Vector 都是使用数组 (Array) 来控制集合中的对象。当你向这两种类型中增加元素的时候,如果元素的数目超出了内部数组目前的长度它们都需要扩展内部数组的长度,Vector 缺省情况下自动增长原来一倍的数组长度,ArrayList 是原来的 50%, 所以最后你获得的这个集合所占的空间总是比你实际需要的要大。所以如果你要在集合中保存大量的数据那么使用 Vector 有一些优势,因为你可以通过设置集合的初始化大小来避免不必要的资源开销。
使用模式
在 ArrayList 和 Vector 中,从一个指定的位置(通过索引)查找数据或是在集合的末尾增加、移除一个元素所花费的时间是一样的,这个时间我们用 O(1)表示。但是,如果在集合的其他位置增加或移除元素那么花费的时间会呈线形增长:O(n-i),其中 n 代表集合中元素的个数,i 代表元素增加或移除元素的索引位置。为什么会这样呢?以为在进行上述操作的时候集合中第 i 和第 i 个元素之后的所有元素都要执行位移的操作。这一切意味着什么呢?
这意味着,你只是查找特定位置的元素或只在集合的末端增加、移除元素,那么使用 Vector 或 ArrayList 都可以。如果是其他操作,你最好选择其他的集合操作类。比如,LinkList 集合类在增加或移除集合中任何位置的元素所花费的时间都是一样的?O(1),但它在索引一个元素的使用缺比较慢-O(i), 其中 i 是索引的位置. 使用 ArrayList 也很容易,因为你可以简单的使用索引来代替创建 iterator 对象的操作。LinkList 也会为每个插入的元素创建对象,所有你要明白它也会带来额外的开销。
最后,在《Practical Java》一书中 Peter Haggar 建议使用一个简单的数组(Array)来代替 Vector 或 ArrayList。尤其是对于执行效率要求高的程序更应如此。因为使用数组 (Array) 避免了同步、额外的方法调用和不必要的重新分配空间的操作。

一、集合与数组

数组(可以存储基本数据类型)是用来存现对象的一种容器,但是数组的长度固定,不适合在对象数量未知的情况下使用。

集合(只能存储对象,对象类型可以不一样)的长度可变,可在多数情况下使用。

二、层次关系

如图所示:图中,实线边框的是实现类,折线边框的是抽象类,而点线边框的是接口

Collection 接口是集合类的根接口,Java 中没有提供这个接口的直接的实现类。但是却让其被继承产生了两个接口,就是 Set 和 List。Set 中不能包含重复的元素。List 是一个有序的集合,可以包含重复的元素,提供了按索引访问的方式。

Map 是 Java.util 包中的另一个接口,它和 Collection 接口没有关系,是相互独立的,但是都属于集合类的一部分。Map 包含了 key-value 对。Map 不能包含重复的 key,但是可以包含相同的 value。

Iterator,所有的集合类,都实现了 Iterator 接口,这是一个用于遍历集合中元素的接口,主要包含以下三种方法:
1.hasNext()是否还有下一个元素。
2.next()返回下一个元素。
3.remove()删除当前元素。

三、几种重要的接口和类简介

1、List(有序、可重复)
List 里存放的对象是有序的,同时也是可以重复的,List 关注的是索引,拥有一系列和索引相关的方法,查询速度快。因为往 list 集合里插入或删除数据时,会伴随着后面数据的移动,所有插入删除数据速度慢。

2、Set(无序、不能重复)
Set 里存放的对象是无序,不能重复的,集合中的对象不按特定的方式排序,只是简单地把对象加入集合中。

3、Map(键值对、键唯一、值不唯一)
Map 集合中存储的是键值对,键不能重复,值可以重复。根据键得到值,对 map 集合遍历时先得到键的 set 集合,对 set 集合进行遍历,得到相应的值。

对比如下:

是否有序

是否允许元素重复

Collection

List

Set

AbstractSet

HashSet

TreeSet

是(用二叉排序树)

Map

AbstractMap

使用 key-value 来映射和存储数据,key 必须唯一,value 可以重复

HashMap

TreeMap

是(用二叉排序树)

四、遍历

在类集中提供了以下四种的常见输出方式:

1)Iterator:迭代输出,是使用最多的输出方式。

2)ListIterator:是 Iterator 的子接口,专门用于输出 List 中的内容。

3)foreach 输出:JDK1.5 之后提供的新功能,可以输出数组或集合。

4)for 循环

代码示例如下:

for 的形式:for(int i=0;i<arr.size();i++){…}

foreach 的形式:for(int i:arr){…}

iterator 的形式:
Iterator it = arr.iterator();
while(it.hasNext()){object o =it.next(); …}

五、ArrayList 和 LinkedList

ArrayList 和 LinkedList 在用法上没有区别,但是在功能上还是有区别的。LinkedList 经常用在增删操作较多而查询操作很少的情况下,ArrayList 则相反。

六、Map 集合

实现类:HashMap、Hashtable、LinkedHashMap 和 TreeMap

HashMap

HashMap 是最常用的 Map,它根据键的 HashCode 值存储数据,根据键可以直接获取它的值,具有很快的访问速度,遍历时,取得数据的顺序是完全随机的。因为键对象不可以重复,所以 HashMap 最多只允许一条记录的键为 Null,允许多条记录的值为 Null,是非同步的

Hashtable

Hashtable 与 HashMap 类似,是 HashMap 的线程安全版,它支持线程的同步,即任一时刻只有一个线程能写 Hashtable,因此也导致了 Hashtale 在写入时会比较慢,它继承自 Dictionary 类,不同的是它不允许记录的键或者值为 null,同时效率较低。

ConcurrentHashMap

线程安全,并且锁分离。ConcurrentHashMap 内部使用段 (Segment) 来表示这些不同的部分,每个段其实就是一个小的 hash table,它们有自己的锁。只要多个修改操作发生在不同的段上,它们就可以并发进行。

LinkedHashMap

LinkedHashMap 保存了记录的插入顺序,在用 Iteraor 遍历 LinkedHashMap 时,先得到的记录肯定是先插入的,在遍历的时候会比 HashMap 慢,有 HashMap 的全部特性。

TreeMap

TreeMap 实现 SortMap 接口,能够把它保存的记录根据键排序,默认是按键值的升序排序(自然顺序),也可以指定排序的比较器,当用 Iterator 遍历 TreeMap 时,得到的记录是排过序的。不允许 key 值为空,非同步的;

map 的遍历

第一种:KeySet()
将 Map 中所有的键存入到 set 集合中。因为 set 具备迭代器。所有可以迭代方式取出所有的键,再根据 get 方法。获取每一个键对应的值。keySet(): 迭代后只能通过 get()取 key。
取到的结果会乱序,是因为取得数据行主键的时候,使用了 HashMap.keySet()方法,而这个方法返回的 Set 结果,里面的数据是乱序排放的。
典型用法如下:
Map map = new HashMap();
map.put(“key1″,”lisi1”);
map.put(“key2″,”lisi2”);
map.put(“key3″,”lisi3”);
map.put(“key4″,”lisi4”);  
// 先获取 map 集合的所有键的 set 集合,keyset()
Iterator it = map.keySet().iterator();
// 获取迭代器
while(it.hasNext()){
Object key = it.next();
System.out.println(map.get(key));
}

第二种:entrySet()
Set<Map.Entry<K,V>> entrySet() // 返回此映射中包含的映射关系的 Set 视图。(一个关系就是一个键 - 值对),就是把 (key-value) 作为一个整体一对一对地存放到 Set 集合当中的。Map.Entry 表示映射关系。entrySet():迭代后可以 e.getKey(),e.getValue()两种方法来取 key 和 value。返回的是 Entry 接口。
典型用法如下:
Map map = new HashMap();
map.put(“key1″,”lisi1”);
map.put(“key2″,”lisi2”);
map.put(“key3″,”lisi3”);
map.put(“key4″,”lisi4”);
// 将 map 集合中的映射关系取出,存入到 set 集合
Iterator it = map.entrySet().iterator();
while(it.hasNext()){
Entry e =(Entry) it.next();
System.out.println(“ 键 ”+e.getKey () + “ 的值为 ” + e.getValue());
}
推荐使用第二种方式,即 entrySet()方法,效率较高。
对于 keySet 其实是遍历了 2 次,一次是转为 iterator,一次就是从 HashMap 中取出 key 所对于的 value。而 entryset 只是遍历了第一次,它把 key 和 value 都放到了 entry 中,所以快了。两种遍历的遍历时间相差还是很明显的。

七、主要实现类区别小结

Vector 和 ArrayList
1,vector 是线程同步的,所以它也是线程安全的,而 arraylist 是线程异步的,是不安全的。如果不考虑到线程的安全因素,一般用 arraylist 效率比较高。
2,如果集合中的元素的数目大于目前集合数组的长度时,vector 增长率为目前数组长度的 100%,而 arraylist 增长率为目前数组长度的 50%。如果在集合中使用数据量比较大的数据,用 vector 有一定的优势。
3,如果查找一个指定位置的数据,vector 和 arraylist 使用的时间是相同的,如果频繁的访问数据,这个时候使用 vector 和 arraylist 都可以。而如果移动一个指定位置会导致后面的元素都发生移动,这个时候就应该考虑到使用 linklist, 因为它移动一个指定位置的数据时其它元素不移动。
ArrayList 和 Vector 是采用数组方式存储数据,此数组元素数大于实际存储的数据以便增加和插入元素,都允许直接序号索引元素,但是插入数据要涉及到数组元素移动等内存操作,所以索引数据快,插入数据慢,Vector 由于使用了 synchronized 方法(线程安全)所以性能上比 ArrayList 要差,LinkedList 使用双向链表实现存储,按序号索引数据需要进行向前或向后遍历,但是插入数据时只需要记录本项的前后项即可,所以插入数度较快。

arraylist 和 linkedlist
1.ArrayList 是实现了基于动态数组的数据结构,LinkedList 基于链表的数据结构。
2. 对于随机访问 get 和 set,ArrayList 觉得优于 LinkedList,因为 LinkedList 要移动指针。
3. 对于新增和删除操作 add 和 remove,LinedList 比较占优势,因为 ArrayList 要移动数据。这一点要看实际情况的。若只对单条数据插入或删除,ArrayList 的速度反而优于 LinkedList。但若是批量随机的插入删除数据,LinkedList 的速度大大优于 ArrayList. 因为 ArrayList 每插入一条数据,要移动插入点及之后的所有数据。

HashMap 与 TreeMap
1、HashMap 通过 hashcode 对其内容进行快速查找,而 TreeMap 中所有的元素都保持着某种固定的顺序,如果你需要得到一个有序的结果你就应该使用 TreeMap(HashMap 中元素的排列顺序是不固定的)。
2、在 Map 中插入、删除和定位元素,HashMap 是最好的选择。但如果您要按自然顺序或自定义顺序遍历键,那么 TreeMap 会更好。使用 HashMap 要求添加的键类明确定义了 hashCode()和 equals()的实现。
两个 map 中的元素一样,但顺序不一样,导致 hashCode()不一样。
同样做测试:
在 HashMap 中,同样的值的 map, 顺序不同,equals 时,false;
而在 treeMap 中,同样的值的 map, 顺序不同,equals 时,true,说明,treeMap 在 equals()时是整理了顺序了的。

HashTable 与 HashMap
1、同步性:Hashtable 是线程安全的,也就是说是同步的,而 HashMap 是线程序不安全的,不是同步的。
2、HashMap 允许存在一个为 null 的 key,多个为 null 的 value。
3、hashtable 的 key 和 value 都不允许为 null。
更多技术资讯可关注:gzitcast

正文完
 0