Сергей Андреев Asked:2020-01-07 18:06:47 +0000 UTC2020-01-07 18:06:47 +0000 UTC 2020-01-07 18:06:47 +0000 UTC 训练神经网络识别文本主题的困难 772 我需要训练一个神经网络来识别特定主题(例如体育)的文本。在这种情况下,神经网络应该预测文本的主题是否与运动有关。以下不清楚: 训练的数据集应该是什么? 有关体育的文本示例,以及有关其他主题的随机文本示例? 以其他方式? python 1 个回答 Voted Best Answer MaxU - stop genocide of UA 2020-01-07T20:24:24Z2020-01-07T20:24:24Z 我会尝试选择一个训练样本,其中一半的文本与体育主题相关,而另一半——与文本无关的各种主题的文本。在平衡的训练数据上建立分类模型更容易。 PS 为什么不一次建立一个多类(multiclass & multilabel)模型,它会预测一个文本同时属于不同主题(类)的概率程度? PPS 技术doc2vec就是为此类任务而发明的——我建议您在网上搜索其使用示例。
我会尝试选择一个训练样本,其中一半的文本与体育主题相关,而另一半——与文本无关的各种主题的文本。在平衡的训练数据上建立分类模型更容易。
PS 为什么不一次建立一个多类(multiclass & multilabel)模型,它会预测一个文本同时属于不同主题(类)的概率程度?
PPS 技术
doc2vec就是为此类任务而发明的——我建议您在网上搜索其使用示例。