RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 867163
Accepted
TWOfish
TWOfish
Asked:2020-08-10 23:43:00 +0000 UTC2020-08-10 23:43:00 +0000 UTC 2020-08-10 23:43:00 +0000 UTC

如何仅剪切没有重复字符(剪切/sed/awk)或Python的行?

  • 772

如何从文本数组中只删除行中任何字符不重复的行,不管它是什么类型的字符以及它在行中的什么位置?

如果没有通用算法,那么怎么做,知道整个数组的所有字符(字母、数字)的集合(多个字符串之间可能没有共同的字符,但包含在字符集中)整个数组)和字符串的长度?

或者,您可以使用 Python,如果它更容易的话。谢谢

python
  • 3 3 个回答
  • 10 Views

3 个回答

  • Voted
  1. Hellseher
    2020-08-11T04:26:46Z2020-08-11T04:26:46Z

    黑客乐此不疲!

    从逻辑上讲,任务分为

    • 计算字符串的长度
    • 计算唯一字符的数量
    • 如果两个值相等,则输出一个字符串

    ./get_line_uniq_chars.sh

    #!/usr/bin/env bash
    
    make_strings()
    {
        strings /dev/urandom \
            | head -c100k \
            | sed -e ':a;N;$!ba;s/\n//g' -e 's/ //g' -e 's/\t//g' \
            | fold -s -w40
    }
    
    get_lines_uniq_chars()
    {
        local line_ln
        local uniq_chars
    
        while read -r line; do
            line_ln="$(echo "$line" | wc -c)"
            uniq_chars="$(echo "$line" \
                | grep -o . \
                | sort -u \
                | paste -s -d '\0' - \
                | wc -c)"
    
            if [[ "$line_ln" == "$uniq_chars" ]]; then
               echo "$line"
            fi
        done
    }
    
    main()
    {
        make_strings | get_lines_uniq_chars
    }
    
    main "$@"
    # End of script
    

    如果您需要从文件中读取,我们会得到什么,将 make_strings 函数替换为从文件中读取cat "$1" | get_lines_uniq_chars

    ~$ time  ./get_line_uniq_chars.sh
    CBn{|F>1OSpR!j0lkeY%XT]UwPH"gW
    ,8KbSi6>Y\_7N';fvnXtj+1`@Fgy0)
    v0o&}Fmjb7E89K>DHWY2dy_CJf[*Z4
    Ly>G7&=(/Q-nOgf;^jKX.2zu`U$'!9
    J}]^7nmt16iuWGF4~[Y/"*\yL>rM?A
    ^!iu1aT4GF_@klnA%$&?BeU";M=<+|
    u1{+B8k2z,tVm5Lq6e'AyF~HOGo3<X
    plP\mwK5MIVa"<!L7n^UyR3;eC,rqO
    M%b'=#[]P`a{.7B!wFZe8QCmg~+I9T
    |Hw/~(8!7IO'k`5)$:W-sPCG]r+#L_
    [urVw7zJvg.]eO^cQ>~d)Eq<Ka?8%f
    zY;}RAi{H~yfqld?Uv5"O\De[+Cg*|
    G$I02y7e1KBgqZl:M\*bS~Xus+k}DW
    NC1{Yq0ciBD2)\Q<7?]sUhRy!#I6A[
    real    0m13.880s
    user    0m9.366s
    sys     0m17.788s
    
    • 2
  2. Best Answer
    jfs
    2020-08-11T17:36:51Z2020-08-11T17:36:51Z

    要过滤重复任何字符的行:

    #!/usr/bin/env python3
    import fileinput
    
    for line in fileinput.input():
        if len(line) == len(set(line)): # all chars in the line are unique
            print(line, end='')
    

    使用@Anton 在评论中建议的字符唯一性条件。

    示例:

    $ echo $'abc\nded\nfghi' | lines-with-uniq-chars
    abc
    fghi
    

    这也支持在当前编码(区域设置)中可能占用超过一个字节的非 ascii 字符。它不支持由多个 Unicode 代码点组成的字符(例如ё-- U+0435 U+308)。如果您想支持此类字母,请参阅如何将字符串拆分为单独的字符?

    • 2
  3. MarianD
    2020-08-11T09:13:02Z2020-08-11T09:13:02Z
    def has_dup(strings):
        used = set()
        for letter in string:
            if letter in used:
                return True
            else:
                used.add(letter)
        return False
    
    
    def only_without_dups(string):
        return [string for string in strings if not has_dup(string)]
    
    
    # Тестировка
    
    strings = ["Hello, world", "abcdABCD", "abcdAbCD", "xyzXYZ"]
    result  = only_without_dups(strings)
    
    print(result)
    

    结论:

    ['abcdABCD', 'xyzXYZ']
    

    解释:

    该函数has_dup()收集一组字符串中使用的字符,used并将任何连续字符与该组中的字符进行比较 - 命令

         if letter in used: 
    

    当它匹配时,字符串中的字符被重复,并且函数立即终止,返回一个值True。

    • 0

相关问题

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    是否可以在 C++ 中继承类 <---> 结构?

    • 2 个回答
  • Marko Smith

    这种神经网络架构适合文本分类吗?

    • 1 个回答
  • Marko Smith

    为什么分配的工作方式不同?

    • 3 个回答
  • Marko Smith

    控制台中的光标坐标

    • 1 个回答
  • Marko Smith

    如何在 C++ 中删除类的实例?

    • 4 个回答
  • Marko Smith

    点是否属于线段的问题

    • 2 个回答
  • Marko Smith

    json结构错误

    • 1 个回答
  • Marko Smith

    ServiceWorker 中的“获取”事件

    • 1 个回答
  • Marko Smith

    c ++控制台应用程序exe文件[重复]

    • 1 个回答
  • Marko Smith

    按多列从sql表中选择

    • 1 个回答
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Suvitruf - Andrei Apanasik 什么是空? 2020-08-21 01:48:09 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5