1、词频
词在文档中呈现的频度是多少?频度越高,权重 _越高_;批改为词频对得分没有影响:
tf(t in d) = √frequency 词 t 在文档 d 的词频(tf)是该词在文档中呈现次数的平方根。
index
{
“mappings”: {
“doc”: {
"properties": {
"text": {
"type": "string",
"index_options": "docs"
}
}
}
}
}
设置为 docs
能够禁用词频统计及词频地位,这个映射的字段不会计算词的呈现次数,对于短语或近似查问也不可用。要求准确查问的 not_analyzed
字符串字段会默认应用该设置。
2、文档长度归一
字段越短,字段的权重 越高。如果词呈现在相似题目 title
这样的字段,要比它呈现在内容 body
这样的字段中的相关度更高。字段长度的归一值公式如下:
norm(d) = 1 / √numTerms
index
{
“mappings”: {
“doc”: {
"properties": {
"text": {
"type": "string",
"norms": {"enabled": false}
}
}
}
}