例如,有这样一行: String text = "然后骨灰盒被抬到火化现场几圈,作为游行的最后一站。"
我需要将其分解为单词,删除所有标点符号和特殊字符,并将单词放入列表中。
ArrayList words = new ArrayList<>(); Stringword = text.replaceAll(",", " "); - 这里,据我了解,有必要做正则表达式吗?或者你能去掉标点符号和特殊字符吗?
例如,有这样一行: String text = "然后骨灰盒被抬到火化现场几圈,作为游行的最后一站。"
我需要将其分解为单词,删除所有标点符号和特殊字符,并将单词放入列表中。
ArrayList words = new ArrayList<>(); Stringword = text.replaceAll(",", " "); - 这里,据我了解,有必要做正则表达式吗?或者你能去掉标点符号和特殊字符吗?
您可以使用正则表达式拆分字符串。
要
\\W+“理解”Unicode,(?U)请在正则表达式之前添加(这样就不会删除俄语和其他字母)"(?U)\\W+",.请注意,
\\W+它不会找到下划线_,如果需要找到,请使用"[\\W_]+".在线查看演示
您可以找到所有 Unicode 字母 (
\p{L}) 和 ASCII 数字 ([0-9])另一个Java 演示
仅获取单词数组