基于深度学习的自然语言处理
上QQ阅读APP看书,第一时间看更新

1.4.1 文本预处理

在回答关于理解文章的问题时,由于问题针对文章的不同部分,因此一些词和句子对你很重要,有些则无关紧要。诀窍是从问题中找出关键词,并将其与文章匹配,以找到正确的答案。

文本预处理思想是这样的:机器不需要语料库中的无关部分。它只需要执行手头任务所需的重要单词和短语。因此,文本预处理技术涉及为机器学习模型和深度学习模型以及适当的分析准备语料库。文本预处理基本上是告诉机器什么需要考虑、哪些可以忽略。

每个语料库根据需要来执行任务的不同文本预处理技术,一旦你学会了不同的预处理技术,你就会明白什么地方使用什么文本预处理技术和为什么使用。其中技术的解释顺序通常是被执行的顺序。

在下面的练习中,我们将使用NLTK Python库,但是在进行这些活动时可以随意使用不同的库。NLTK代表自然语言工具包(Natural Language Toolkit),是自然语言处理最简单也是最受欢迎的Python库之一,这就是为什么我们用它来理解自然语言处理的基本概念。

注意 关于自然语言工具包的更多信息,请访问https://www.nltk.org/