# 一、引言

n-gram 算法通过统计文本中连续 n 个词的序列（或称为 “词组”）出现的频率，为各种 NLP 任务提供了有力的支持。

N-gram 模型的基本原理是基于马尔可夫假设，在训练 N-gram 模型时使用最大似然估计模型参数 —— 条件概率.

# 二、示例

例如，对于 “The cow jumps over the moon” 这句话。如果 N=2（称为二元模型），那么 ngram 将为：

the cow
cow jumps
jumps over
over the
the moon

在这种情况下有 5 个 n 元语法。请注意，从 the->cow 转移到 cow->jumps 到 Jumps->over 等，本质上是向前移动一个单词以生成下一个二元组。

如果 N=3，则 n 元语法将为：

the cow jumps
cow jumps over
jumps over the
over the moon

在这种情况下有 4 个 n 元语法。当 N=1 时，被称为一元语法，本质上是句子中的各个单词。当 N=2 时，称为二元组；当 N=3 时，称为三元组。当 N>3 时，这通常被称为多元组等等。

$N_{gram}=X-(N-1)$

（1）优点

（2）缺点

	import re

	def generate_ngrams(text,n):

	# split sentences into tokens
	tokens=re.split("\\s+",text)
	ngrams=[]

	# collect the n-grams
	for i in range(len(tokens)-n+1):
	temp=[tokens[j] for j in range(i,i+n)]
	ngrams.append(" ".join(temp))

	return ngrams

	sentence = '_start_ this is ngram _generation_'
	my_ngrams = generate_ngrams(sentence.split(), 3)
	print([w for w in my_ngrams])

输出：

['_start_ this is', 'this is ngram', 'is ngram _generation_']

或者使用 NLTK 包

	from nltk import ngrams

	sentence = '_start_ this is ngram _generation_'
	my_ngrams = ngrams(sentence.split(), 3)
	print([w for w in my_ngrams])

输出：

[('_start_', 'this', 'is'), ('this', 'is', 'ngram'), ('is', 'ngram', '_generation_')]