在对自然文本进行分类时,出现了一个问题,即如何在有和没有文本规范化的情况下直观地显示文本的频率特征。
首先想到的是条形图,但不可能超过 20-30 个单词——一切都太小而且难以理解。
通过规范化,我的意思是将词带入它们的正常(规范)形式。
我尝试以答案的形式找到解决方案,但看看其他解决方案和想法会很有趣。
在对自然文本进行分类时,出现了一个问题,即如何在有和没有文本规范化的情况下直观地显示文本的频率特征。
首先想到的是条形图,但不可能超过 20-30 个单词——一切都太小而且难以理解。
通过规范化,我的意思是将词带入它们的正常(规范)形式。
我尝试以答案的形式找到解决方案,但看看其他解决方案和想法会很有趣。
在使用NLTK和pymorphy2对文本进行标记和规范化之后,我决定使用WordCloud (c) Andreas Mueller。
示例(下面的代码):
安东·契诃夫。全集和信件 - ModernLib.Ru.txt:
普希金亚历山大。完整的诗集-royallib.ru.txt:
编码: