关于spring:ES-评分去除词频去除简索源对score的影响

36次阅读

共计 458 个字符,预计需要花费 2 分钟才能阅读完成。

1、词频

词在文档中呈现的频度是多少?频度越高,权重 _越高_;批改为词频对得分没有影响:
tf(t in d) = √frequency 词 t 在文档 d 的词频(tf)是该词在文档中呈现次数的平方根。
index
{
“mappings”: {
“doc”: {

"properties": {
  "text": {
    "type":          "string",
    "index_options": "docs" 
  }
}

}
}
}
设置为 docs 能够禁用词频统计及词频地位,这个映射的字段不会计算词的呈现次数,对于短语或近似查问也不可用。要求准确查问的 not_analyzed 字符串字段会默认应用该设置。
2、文档长度归一
字段越短,字段的权重 越高。如果词呈现在相似题目 title 这样的字段,要比它呈现在内容 body 这样的字段中的相关度更高。字段长度的归一值公式如下:
norm(d) = 1 / √numTerms
index
{
“mappings”: {
“doc”: {

"properties": {
  "text": {
    "type": "string",
    "norms": {"enabled": false} 
  }
}

}
}

正文完
 0