RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1186681
Accepted
Odyssey
Odyssey
Asked:2020-10-06 15:45:36 +0000 UTC2020-10-06 15:45:36 +0000 UTC 2020-10-06 15:45:36 +0000 UTC

如何获取文本中重复的单词的某些信息?[关闭]

  • 772
关闭 这个问题是题外话。目前不接受回复。

仅当您在提出问题之前尝试自己解决问题时,才允许将学习问题作为问题。请编辑问题并指出究竟是什么导致您难以解决问题。例如,请提供您在尝试解决问题时编写的代码

1 年前关闭。

改进问题

需要高手对正则表达式的帮助,有一段文字:

Техническая информация
Дата
Время 

Документ № 1   

Подпись

Дата 10.08.2020

Какой-то текст

1/10    


Техническая информация
Дата
Время 

Документ № 2

Подпись

Дата 16.09.2020

Снова какой-то текст

2/10

...

告诉我如何编写正则表达式以获得某些信息(位置和数字),重复“文档”一词?

结果,我想获取这些文档的所有文档编号和位置,即 文件编号 1 和位置 1/10,文件编号 2 和位置 2/10。

c#
  • 2 2 个回答
  • 10 Views

2 个回答

  • Voted
  1. Best Answer
    user341547
    2020-10-06T18:18:51Z2020-10-06T18:18:51Z

    我会将我的答案移至评论:

    Документ №\h*(\d+)[\S\s]*?(\d+\/\d+)
    

    我将尝试解释更多
    。使用这个正则表达式,我们正在寻找从“文档”的出现到“一个或多个数字/一个或多个数字”的匹配:


    文件 #1
    签名
    日期 08/10/2020
    一些文字
    1/10

    技术信息
    日期
    时间
    文件 #2
    签名
    日期 09/16/2020
    一些文字再次
    2/10


    这是正则表达式捕获的完全匹配,但是我们在模板中有捕获组,括号中的数据(...)可以单独获取。

    第一组\1将存储文件编号,第二组将包含\2位置。
    正是这些组需要进一步使用,因为C#我不擅长它,我将给出一个来自docs.microsoft.com 文档页面的示例:

    using System;
    using System.Text.RegularExpressions;
    
    public class Example
    {
       public static void Main()
       {
          string pattern = @"Документ №\h*(\d)[\S\s]*?(?:(\d+\/\d+)|(?=Документ))";
          string input = "Техническая информация
    Дата
    Время 
    
    Документ № 1   
    
    Подпись
    
    Дата 10.08.2020
    
    Какой-то текст
    
    1/10    
    
    
    Техническая информация
    Дата
    Время 
    
    Документ № 2
    
    Подпись
    
    Дата 16.09.2020
    
    Снова какой-то текст
    
    2/10
    ";
          MatchCollection matches = Regex.Matches(input, pattern);
          
          foreach (Match match in matches)
          {
             Console.WriteLine("DOC: {0}", match.Groups[1].Value);
             Console.WriteLine("POZ: {0}", match.Groups[2].Value);
             Console.WriteLine();
          }
          Console.WriteLine();
       }
    }
    ________
    // The example displays the following output:
    //       DOC:  1
    //       POZ:  1/10
    //       
    //       DOC:  2
    //       POZ:  2/10
    //       
    
    

    关于正则表达式本身:
    Документ №\h*- 文本文档 # 和零个或多个水平空白字符
    (\d+)- 要在第 1 组中捕获的一个或多个数字
    [\S\s]*?- 零个或多个任何空白和非空白字符,其中*?- 将停止在最近的惰性量词匹配匹配
    (\d+\/\d+)- 第二个要捕获的组,其中一个或多个数字表示通过/,然后是一个或多个数字。


    小心!

    如果文本中未指定位置,则执行将持续到下一次匹配,即 如果保证文本在每个文档中都有指定的位置,则此模板适用。
    如果可能没有指定位置,那么您应该在模板中指定当到达文本“文档”时停止对该文本的检查

    Документ №\h*(\d)[\S\s]*?(?:(\d+\/\d+)|(?=Документ))
    

    工作示例:regex101

    • 1
  2. Alexander Mashin
    2020-10-06T16:20:38Z2020-10-06T16:20:38Z

    像这样的东西,我想:Документ № (?<number>\d+)\s+(?<signature>[^\n]+)\s*Дата\s*(?<date>\d{2}\.\d{2}\.\d{4})\s*(?<text>.*?)\s+(?<position>\d+\/\d+)。假定签名不包含换行符。请注意文本中的非贪婪捕获。 链接到测试。

    • 0

相关问题

  • 使用嵌套类导出 xml 文件

  • 分层数据模板 [WPF]

  • 如何在 WPF 中为 ListView 手动创建列?

  • 在 2D 空间中,Collider 2D 挂在玩家身上,它对敌人的重量相同,我需要它这样当它们碰撞时,它们不会飞向不同的方向。统一

  • 如何在 c# 中使用 python 神经网络来创建语音合成?

  • 如何知道类中的方法是否属于接口?

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    如何从列表中打印最大元素(str 类型)的长度?

    • 2 个回答
  • Marko Smith

    如何在 PyQT5 中清除 QFrame 的内容

    • 1 个回答
  • Marko Smith

    如何将具有特定字符的字符串拆分为两个不同的列表?

    • 2 个回答
  • Marko Smith

    导航栏活动元素

    • 1 个回答
  • Marko Smith

    是否可以将文本放入数组中?[关闭]

    • 1 个回答
  • Marko Smith

    如何一次用多个分隔符拆分字符串?

    • 1 个回答
  • Marko Smith

    如何通过 ClassPath 创建 InputStream?

    • 2 个回答
  • Marko Smith

    在一个查询中连接多个表

    • 1 个回答
  • Marko Smith

    对列表列表中的所有值求和

    • 3 个回答
  • Marko Smith

    如何对齐 string.Format 中的列?

    • 1 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5