关于hash:教你几招HASH表查找的方法

摘要：依据设定的哈希函数 H(key) 和所选中的解决抵触的办法，将一组关键字映象到一个无限的、地址间断的地址集 (区间) 上，并以关键字在地址集中的“象”作为相应记录在表中的存储地位，如此结构所得的查找表称之为“哈希表”。

本文分享自华为云社区《查找——HASH》，原文作者：ruochen。

对于频繁应用的查找表，心愿 ASL = 0
记录在表中地位和其关键字之间存在一种确定的关系

HASH

定义

依据设定的哈希函数 H(key) 和所选中的解决抵触的办法，将一组关键字映象到一个无限的、地址间断的地址集 (区间) 上，并以关键字在地址集中的“象”作为相应记录在表中的存储地位，如此结构所得的查找表称之为“哈希表”

HASH函数的结构

结构准则
- 函数自身便于计算
- 计算出来的地址散布平均，即对任一关键字k，f(k) 对应不同地址的概率相等，目标是尽可能减少抵触

间接定址法

哈希函数为关键字的线性函数
- H(key) = key
- H(key) = a * key + b

此法仅适宜于：
地址汇合的大小 = = 关键字汇合的大小
长处：以关键码key的某个线性函数值为哈希地址，不会产生抵触
毛病：要占用间断地址空间，空间效率低

数字分析法

假如关键字汇合中的每个关键字都是由 s 位数字组成 (u1, u2, …, us)，剖析关键字集中的整体，并从中提取散布平均的若干位或它们的组合作为地址
此办法仅适宜于：
能事后预计出整体关键字的每一位上各种数字呈现的频度

平方取中法

以关键字的平方值的两头几位作为存储地址。求“关键字的平方值” 的目标是“扩充差异” ，同时平方值的两头各位又能受到整个关键字中各位的影响
此办法适宜于:
关键字中的每一位都有某些数字反复呈现频度很高的景象

折叠法

将关键字宰割成若干局部，而后取它们的叠加和为哈希地址。有两种叠加解决的办法：移位叠加和间界叠加
此办法适宜于:
关键字的数字位数特地多

除留余数法

Hash(key)=key mod p (p是一个整数)
p≤m (表长)
- p 应为小于等于 m 的最大素数
- 为什么要对 p 加限度？

给定一组关键字为: 12, 39, 18, 24, 33, 21若取 p=9, 则他们对应的哈希函数值将为:
3, 3, 0, 6, 6, 3

可见，若 p 中含质因子 3, 则所有含质因子 3 的关键字均映射到“3 的倍数”的地址上，从而减少了“抵触”的可能

随机数法

H(key) = Random(key) （Random 为伪随机函数）
此办法用于对长度不等的关键字结构哈希函数

思考因素

执行速度（即计算哈希函数所需工夫）
关键字的长度
哈希表的大小
关键字的散布状况
查找频率

采纳何种结构哈希函数的办法取决于建表的关键字汇合的状况
准则是使产生抵触的可能性降到尽可能地小

解决抵触的办法

1. 凋谢定址法

根本思维

有抵触时就去寻找下一个空的哈希地址，只有哈希表足够大，空的哈希地址总能找到，并将数据元素存入

线性探测法

Hi=(Hash(key)+di) mod m ( 1≤i < m )
其中：m为哈希表长度
di 为增量序列 1，2，…m-1，且di=i
一旦抵触，就找下一个空地址存入

长处：只有哈希表未被填满，保障能找到一个空地址单元寄存有抵触的元素
毛病：能使第i个哈希地址的同义词存入第i+1个地址，这样本应存入第i+1个哈希地址的元素变成了第i+2个哈希地址的同义词，……，产生“汇集”景象，升高查找效率

二次探测法

di = 12, -12, 22, -22, …±k2

伪随机探测法

Hi=(Hash(key)+di) mod m ( 1≤i < m )
其中：m为哈希表长度
di 为随机数

凋谢定址法建设哈希表步骤

- 取数据元素的关键字key，计算其哈希函数值（地址）。若该地址对应的存储 空间还没有被占用，则将该元素存入；否则执行step2解决抵触
- 依据抉择的抵触解决办法，计算关键字key的下一个存储地址。若下一个存储地址仍被占用，则继续执行step2，直到找 到能用的存储地址为止

#### 凋谢定址哈希表的存储构造
/* ------------- 凋谢定址哈希表的存储构造 ------------- */

int hashsize[] = {997, ...};
typedef struct{
    ElemType* elem;
    int count;  // 以后数据元素个数
    int sizeindex;  // hashsize[sizeindex]为以后容量
} HashTable;

#define SUCCESS 1
#define UNSUCCESS 0
#define DUPLICATE -1

Status SearchHash(HashTable H, KeyType K, int &p, int &c){
    // 在凋谢定址哈希表H中查找关键码为K的记录
    p = Hash(K);  // 求得哈希地址
    while(H.elem[p].key != NULLKEY && !EQ(K, H.elem[p].key))
        collisiion(p, ++c);  // 求得下一探测地址p
    if(EQ(K, H.elem[p].key)) return SUCCESS;  // 查找胜利，返回待查数据元素地位 p
    else return UNSUCCESS;  // 查找不胜利
}

2. 再HASH法

H2(key) 是另设定的一个哈希函数，它的函数值应和 m 互质

3. 链地址法

根本思维

雷同哈希地址的记录链成一单链表，m个哈希地址就设m个单链表，而后用用一个数组将m个单链表的表头指针存储起来，造成一个动静的构造

长处：

非同义词不会抵触，无“汇集”景象
链表上结点空间动静申请，更适宜于表长不确定的状况

哈希表的查找

对于给定值 K,计算哈希地址 i = H(K)

若 r[i] = NULL 则查找不胜利
若 r[i].key = K 则查找胜利，否则 “求下一地址 Hi” ，直至r[Hi] = NULL (查找不胜利) 或r[Hi].key = K (查找胜利) 为止

案例v01

线性探测法解决抵触

案例v02

链地址法解决抵触

哈希表查找的剖析

从查找过程得悉，哈希表查找的均匀查找长度实际上并不等于零

决定哈希表查找的ASL的因素

选用的哈希函数
选用的解决抵触的办法
哈希表饱和的水平，装载因子 α=n/m 值的大小(n—记录数，m—表的长度)

α 越大，表中记录数越多，阐明表装得越满，发生冲突的可能性就越大，查找时比拟次数就越多

对哈希表技术具备很好的均匀性能，优于一些传统的技术
链地址法优于开地址法
除留余数法作哈希函数优于其它类型函数

哈希表利用举例

编译器对标识符的治理多是采纳哈希表

结构哈希函数的办法
- 将标识符中的每个字符转换为一个非负整数
- 将失去的各个整数组合成一个整数（能够将第一个、两头的和最初一个字符值加在一起，也能够将所有字符的值加起来）
- 将后果数调整到0~M-1范畴内，能够利用取模的办法，Ki%M（M为素数）

点击关注，第一工夫理解华为云陈腐技术~

关于hash:教你几招HASH表查找的方法

HASH

定义

HASH函数的结构

间接定址法

数字分析法

平方取中法

折叠法

除留余数法

随机数法

解决抵触的办法

1. 凋谢定址法

根本思维

线性探测法

二次探测法

伪随机探测法

凋谢定址法建设哈希表步骤

2. 再HASH法

3. 链地址法

根本思维

哈希表的查找

案例v01

案例v02

哈希表查找的剖析

哈希表利用举例

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于hash:教你几招HASH表查找的方法

HASH

定义

HASH函数的结构

间接定址法

数字分析法

平方取中法

折叠法

除留余数法

随机数法

解决抵触的办法

1. 凋谢定址法

根本思维

线性探测法

二次探测法

伪随机探测法

凋谢定址法建设哈希表步骤

2. 再HASH法

3. 链地址法

根本思维

哈希表的查找

案例v01

案例v02

哈希表查找的剖析

哈希表利用举例

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复