手动下载数据
首先,手动下载数据:github (注意,整个文件大小约500m,从github上下载可能会耗费很长时间)
第二步,很关键!下载的数据文件名默认为 nltk_data-gh-pages ,现在你需要找到放置的位置。
当你在执行 nltk.downloads('stopwords') 报错时,会出现以下提示
Please use the NLTK Downloader to obtain the resource: >>>
nltk.download()
Searched in:
- '/usr/local/lib/nltk_data'
- ...
...
诸如此类路径。随便找一个你想要放置数据的文件目录,(注意,当前目录下并没有 nltk_data ),例如我们找到第一个目录 ‘/usr/local/lib/’,在当前目录下面创建 nltk_data。接下来,将下载完毕的数据集文件 nltk_data-gh-pages 解压至当前文件下。你需要进入解压后的文件找到 corpora 文件,(即,在相对路径下 ‘nltk_data-gh-pages/packages/’),将该文件复制到 ‘/usr/local/lib/nltk_data’ 文件下,即可。