圣诞树动画

Question

TWOfish

Asked:2020-08-10 23:43:00 +0000 UTC2020-08-10 23:43:00 +0000 UTC 2020-08-10 23:43:00 +0000 UTC

如何仅剪切没有重复字符（剪切/sed/awk）或Python的行？

772

如何从文本数组中只删除行中任何字符不重复的行，不管它是什么类型的字符以及它在行中的什么位置？

如果没有通用算法，那么怎么做，知道整个数组的所有字符（字母、数字）的集合（多个字符串之间可能没有共同的字符，但包含在字符集中）整个数组）和字符串的长度？

或者，您可以使用 Python，如果它更容易的话。谢谢

3 个回答

Voted

Hellseher · Answer 1 · 2020-08-11T04:26:46Z

黑客乐此不疲！

从逻辑上讲，任务分为

计算字符串的长度
计算唯一字符的数量
如果两个值相等，则输出一个字符串

./get_line_uniq_chars.sh

#!/usr/bin/env bash

make_strings()
{
    strings /dev/urandom \
        | head -c100k \
        | sed -e ':a;N;$!ba;s/\n//g' -e 's/ //g' -e 's/\t//g' \
        | fold -s -w40
}

get_lines_uniq_chars()
{
    local line_ln
    local uniq_chars

    while read -r line; do
        line_ln="$(echo "$line" | wc -c)"
        uniq_chars="$(echo "$line" \
            | grep -o . \
            | sort -u \
            | paste -s -d '\0' - \
            | wc -c)"

        if [[ "$line_ln" == "$uniq_chars" ]]; then
           echo "$line"
        fi
    done
}

main()
{
    make_strings | get_lines_uniq_chars
}

main "$@"
# End of script

如果您需要从文件中读取，我们会得到什么，将 make_strings 函数替换为从文件中读取cat "$1" | get_lines_uniq_chars

~$ time  ./get_line_uniq_chars.sh
CBn{|F>1OSpR!j0lkeY%XT]UwPH"gW
,8KbSi6>Y\_7N';fvnXtj+1`@Fgy0)
v0o&}Fmjb7E89K>DHWY2dy_CJf[*Z4
Ly>G7&=(/Q-nOgf;^jKX.2zu`U$'!9
J}]^7nmt16iuWGF4~[Y/"*\yL>rM?A
^!iu1aT4GF_@klnA%$&?BeU";M=<+|
u1{+B8k2z,tVm5Lq6e'AyF~HOGo3<X
plP\mwK5MIVa"<!L7n^UyR3;eC,rqO
M%b'=#[]P`a{.7B!wFZe8QCmg~+I9T
|Hw/~(8!7IO'k`5)$:W-sPCG]r+#L_
[urVw7zJvg.]eO^cQ>~d)Eq<Ka?8%f
zY;}RAi{H~yfqld?Uv5"O\De[+Cg*|
G$I02y7e1KBgqZl:M\*bS~Xus+k}DW
NC1{Yq0ciBD2)\Q<7?]sUhRy!#I6A[
real    0m13.880s
user    0m9.366s
sys     0m17.788s

jfs · Answer 2 · 2020-08-11T17:36:51Z

Best Answer

jfs

2020-08-11T17:36:51Z2020-08-11T17:36:51Z

要过滤重复任何字符的行：

#!/usr/bin/env python3
import fileinput

for line in fileinput.input():
    if len(line) == len(set(line)): # all chars in the line are unique
        print(line, end='')

使用@Anton 在评论中建议的字符唯一性条件。

示例：

$ echo $'abc\nded\nfghi' | lines-with-uniq-chars
abc
fghi

这也支持在当前编码（区域设置）中可能占用超过一个字节的非 ascii 字符。它不支持由多个 Unicode 代码点组成的字符（例如ё-- U+0435 U+308）。如果您想支持此类字母，请参阅如何将字符串拆分为单独的字符？

2

MarianD · Answer 3 · 2020-08-11T09:13:02Z

MarianD

2020-08-11T09:13:02Z2020-08-11T09:13:02Z

def has_dup(strings):
    used = set()
    for letter in string:
        if letter in used:
            return True
        else:
            used.add(letter)
    return False


def only_without_dups(string):
    return [string for string in strings if not has_dup(string)]


# Тестировка

strings = ["Hello, world", "abcdABCD", "abcdAbCD", "xyzXYZ"]
result  = only_without_dups(strings)

print(result)

结论：

['abcdABCD', 'xyzXYZ']

解释：

该函数has_dup()收集一组字符串中使用的字符，used并将任何连续字符与该组中的字符进行比较 - 命令

     if letter in used:

当它匹配时，字符串中的字符被重复，并且函数立即终止，返回一个值True。

0

如何仅剪切没有重复字符（剪切/sed/awk）或Python的行？

是否可以在 C++ 中继承类 <---> 结构？

这种神经网络架构适合文本分类吗？

为什么分配的工作方式不同？

控制台中的光标坐标

如何在 C++ 中删除类的实例？

点是否属于线段的问题

json结构错误

ServiceWorker 中的“获取”事件

c ++控制台应用程序exe文件[重复]

按多列从sql表中选择

如何仅剪切没有重复字符（剪切/sed/awk）或Python的行？

3 个回答

相关问题