RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 767440
Accepted
андрей гривкин
андрей гривкин
Asked:2020-01-07 04:41:00 +0000 UTC2020-01-07 04:41:00 +0000 UTC 2020-01-07 04:41:00 +0000 UTC

我在哪里可以获得俄英词典的词库?

  • 772

我正在用 Python 3 编写一个简单的英俄词典。用户输入一个单词 - 用英语显示它的类似物(如何)。因此,查看一个单词的翻译是通过一个 .txt 文件执行的,该文件中写入了单词(示例):

дом
house
дом
цветок
flower
цветок

等等。

对于一本至少有能力的字典,你需要 2000 多个单词。也许已经有一个使用某些站点的资源以这种方式填充文件的脚本?

我是初学者,刚开始理解OOP,所以不能自己写这个脚本,手动输入6000字太费时间了。

python
  • 2 2 个回答
  • 10 Views

2 个回答

  • Voted
  1. AivanF.
    2020-01-07T07:08:54Z2020-01-07T07:08:54Z

    对于这个查询:русский английский словарь txt -разговорник,找到了Muller 1995年的《英俄词典》,没有格式化,纯文本txt,12万行,10MB:

    http://www.alleng.ru/d/engl/engl150.htm

    更高级的查询google translate download dictionary txt给出了更丰富的结果,下面的链接是一堆XML 格式的字典。第一个可用的俄语-英语包含 100 万行 45.8 万行,重 107 MB:

    http://translateclient.com/download_dictionary/

    不幸的是,我没有为初学者找到一个紧凑而简单的txt,csv显然,很少有人需要这样的东西。但是如果这个任务对你来说真的很重要,那么就去解析其中的一个。选择并享受!

    • 3
  2. Best Answer
    gil9red
    2020-01-07T07:09:34Z2020-01-07T07:09:34Z

    谷歌搜索2000 слов на английском языке并找到了该站点。检查其HTML内容并决定解析。

    主要问题是该站点的数据结构非常不方便 - 没有信标属性(class, id),方便从中提取数据,因此需要研究结构并找到准确的数据(例如,某个属性)以分离必要的数据。

    例子:

    import requests
    from bs4 import BeautifulSoup
    
    rs = requests.get('http://www.7english.ru/dictionary.php?id=2000&letter=all')
    root = BeautifulSoup(rs.content, 'html.parser')
    
    en_ru_items = []
    
    for tr in root.select('tr[onmouseover]'):
        td_list = [td.text.strip() for td in tr.select('td')]
    
        # Количество ячеек в таблице со словами -- 9
        if len(td_list) != 9 or not td_list[1] or not td_list[5]:
            continue
    
        en = td_list[1]
    
        # Русские слова могут быть перечислены через запятую 'ты, вы',
        # а нам достаточно одного слова
        # 'ты, вы' -> 'ты'
        ru = td_list[5].split(', ')[0]
    
        en_ru_items.append((en, ru))
    
    print(len(en_ru_items), en_ru_items)
    # 2000 [('a', 'неопределенный артикль'), ('abili... , ('zero', 'ноль')]
    

    我认为作者本人将能够将此列表输出到文件

    • 3

相关问题

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    是否可以在 C++ 中继承类 <---> 结构?

    • 2 个回答
  • Marko Smith

    这种神经网络架构适合文本分类吗?

    • 1 个回答
  • Marko Smith

    为什么分配的工作方式不同?

    • 3 个回答
  • Marko Smith

    控制台中的光标坐标

    • 1 个回答
  • Marko Smith

    如何在 C++ 中删除类的实例?

    • 4 个回答
  • Marko Smith

    点是否属于线段的问题

    • 2 个回答
  • Marko Smith

    json结构错误

    • 1 个回答
  • Marko Smith

    ServiceWorker 中的“获取”事件

    • 1 个回答
  • Marko Smith

    c ++控制台应用程序exe文件[重复]

    • 1 个回答
  • Marko Smith

    按多列从sql表中选择

    • 1 个回答
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Suvitruf - Andrei Apanasik 什么是空? 2020-08-21 01:48:09 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5