有一些文本,我将其分解为段落、句子和单词的 ArrayList。该代码可以从/向文件解析/收集此文本,只需在每个实体中调用嵌套表(后继)。还需要确保将句子分解为标点符号、单词、数字、符号等。我听说通过正则表达式可以设置数字和符号的模式。但是我不知道在实践中如何做到这一点,就像想出一种拆卸和组装的方法一样。有一个想法是在单词之后创建一个带有元素的表单,例如“Hello, Dear World!” 列表 - {”,”, ””, ”!”}
但我不是很喜欢,而且这些只是标点符号,但你仍然需要计算单个字符。制表符和多个空格可以替换为单个空格。有人能想出一个主意吗?
是的,这很容易通过正则表达式完成:
在方括号中,指定要分割的所有字符。
如果要按字符拆分,同时保留它们,则正则表达式会更改: