关于nlp:什么是ngram最简理解短小精悍

gram 指句子中的间断的一小部分。you are my ex-girlfriend. 外面，you are my就可以看做是 gram。gram 中几个单词就说是几 gram，you are my是 3 -gram。n gram 指数量是 n 的 gram。

在 statistical language model，统计语言模型中假使要实现这个填词工作 you are my ___，前面词填什么才最合适？
转换成统计问题就变成了，一个句子中 you are my 曾经产生了，前面是什么词才冀望最大。写作 $$\argmax_x P(x|w_1,w_2,w_3)$$
$w_1$ 是 you、$w_2$ 是 are、$w_3$ 是 my，x 是要填的词。而你的抉择是整个语言中的所有的词。

咱们冀望有个模型能间接帮忙给出最合适的答案 w，然而这个模型是有参数的，需要求他的参数:
$$\argmax_\theta P(w|w_1,w_2,w_3)$$
然而假使句子特地长，模型参数的计算量会极其宏大，为了解决计算量宏大的问题，提出假如 n -gram：要填的这个词 w 只和词后面的 n 个词无关，来加重计算累赘。当然除了 n -gram 假如，还有 bi-gram 等其余假如，无非就是假如词与前后 n 个词相干等等的变体了。

对于下面的问题，假使我应用 2 -gram，那么参数求解的问题就能够简化到：
$$\argmax_\theta P(w|w_2,w_3)$$
$w_1$ 就能够不用参加相干计算。

ngram 在统计语言模型中利用很宽泛，比方 IBM model1/ 2 等。

关于nlp:什么是ngram最简理解短小精悍

最简了解

起源

利用