wcobalt Asked:2020-07-15 20:56:26 +0000 UTC2020-07-15 20:56:26 +0000 UTC 2020-07-15 20:56:26 +0000 UTC 为什么要识别单个音素? 772 在学习语音识别时,我偶然发现了这篇文章。它识别音素,然后将它们组合成单词。 为什么要这样做,因为您可以将传入的流拆分为单词,然后为它们生成MFCC ,并通过神经网络将MFCC与字典进行比较?或者那不可能? нейронные-сети 1 个回答 Voted Best Answer MaxU - stop genocide of UA 2020-07-15T21:29:37Z2020-07-15T21:29:37Z 因为音频流中没有单词/单词之类的东西。有一个音频序列流,如果不使用相同的神经网络,很难在其中选择单词——不同的人有不同的发音、旋律、发音速度等。有时整个短语/句子听起来在一起(没有停顿),有时人们在发音一个单词时会停顿。 一般来说,如果可以轻松地将音频流分解为单词,那么语音识别的任务将大大简化......
因为音频流中没有单词/单词之类的东西。有一个音频序列流,如果不使用相同的神经网络,很难在其中选择单词——不同的人有不同的发音、旋律、发音速度等。有时整个短语/句子听起来在一起(没有停顿),有时人们在发音一个单词时会停顿。
一般来说,如果可以轻松地将音频流分解为单词,那么语音识别的任务将大大简化......