RError.com

RError.com Logo RError.com Logo

RError.com Navigation

  • 主页

Mobile menu

Close
  • 主页
  • 系统&网络
    • 热门问题
    • 最新问题
    • 标签
  • Ubuntu
    • 热门问题
    • 最新问题
    • 标签
  • 帮助
主页 / 问题 / 1057136
Accepted
Roberto
Roberto
Asked:2020-12-11 13:07:35 +0000 UTC2020-12-11 13:07:35 +0000 UTC 2020-12-11 13:07:35 +0000 UTC

如何加快从文件读取到数据量较大的数据库?

  • 772

我正在尝试解决以下技术问题。我有几个 csv 文件,每个文件包含 400 万到 1100 万行。我需要阅读它们,形成对象,处理并写入数据库)

现在我制作了 mvp,以便逐个文件读取整个文件,形成一个 ArrayList 并将所有内容依次写入数据库

这种方法的问题:

  1. 极长
  2. OutOfMemoryException 有跌倒的风险

我如何决定:

  1. 接下来继续阅读。仅在前一个工作完成后归档
  2. 将 ArrayList 拆分为 10k 块(如何做得更好?)
  3. 创建一定数量的线程(Worker 模型)并在它们被释放时为它们提供这些 10k 元素以写入数据库。因此,每个线程都有自己的从 ThreadPool 到数据库的连接。

问题:解决方案中是否有明显的侧柱?如何将 ArrayList 拆分为块?对于这样的任务,默认创建多少个线程是安全的,5-10?

工作中我使用spring4、java8、oracle11g、was8.5.5.13

java
  • 1 1 个回答
  • 10 Views

1 个回答

  • Voted
  1. Best Answer
    Barmaley
    2020-12-11T21:03:39Z2020-12-11T21:03:39Z

    没有人会马上给你写一份食谱——毕竟,我们谈论的是微调,这里的每一个细节都很重要。粗略地说,我会测量 3 个主要结构元素的速度:

    1. 阅读速度
    2. 处理速度
    3. 插入数据库的速度

    很有可能,我预计大部分时间都花在了读写上(磁盘操作通常总是很长)。

    这就是想法本身出现的地方:在一个流中读取并在另一个流中写入。粗略的轮廓是:

    • 我们在内存中构造一个结构,有条件地调用数据缓冲区
    • 我们启动读取输入文件并将它们传输到数据缓冲区的读取器流
    • 我们启动一个写入线程,检查数据缓冲区并将进入数据缓冲区的所有内容写入数据库,写入后清除缓冲区

    基本上,这就是生产者-消费者模式。

    这个模式有很多实现,从重的JMS到更轻量的lib,你可以基于BlockingQueue自己写

    • 2

相关问题

Sidebar

Stats

  • 问题 10021
  • Answers 30001
  • 最佳答案 8000
  • 用户 6900
  • 常问
  • 回答
  • Marko Smith

    根据浏览器窗口的大小调整背景图案的大小

    • 2 个回答
  • Marko Smith

    理解for循环的执行逻辑

    • 1 个回答
  • Marko Smith

    复制动态数组时出错(C++)

    • 1 个回答
  • Marko Smith

    Or and If,elif,else 构造[重复]

    • 1 个回答
  • Marko Smith

    如何构建支持 x64 的 APK

    • 1 个回答
  • Marko Smith

    如何使按钮的输入宽度?

    • 2 个回答
  • Marko Smith

    如何显示对象变量的名称?

    • 3 个回答
  • Marko Smith

    如何循环一个函数?

    • 1 个回答
  • Marko Smith

    LOWORD 宏有什么作用?

    • 2 个回答
  • Marko Smith

    从字符串的开头删除直到并包括一个字符

    • 2 个回答
  • Martin Hope
    Alexandr_TT 2020年新年大赛! 2020-12-20 18:20:21 +0000 UTC
  • Martin Hope
    Alexandr_TT 圣诞树动画 2020-12-23 00:38:08 +0000 UTC
  • Martin Hope
    Air 究竟是什么标识了网站访问者? 2020-11-03 15:49:20 +0000 UTC
  • Martin Hope
    Qwertiy 号码显示 9223372036854775807 2020-07-11 18:16:49 +0000 UTC
  • Martin Hope
    user216109 如何为黑客设下陷阱,或充分击退攻击? 2020-05-10 02:22:52 +0000 UTC
  • Martin Hope
    Qwertiy 并变成3个无穷大 2020-11-06 07:15:57 +0000 UTC
  • Martin Hope
    koks_rs 什么是样板代码? 2020-10-27 15:43:19 +0000 UTC
  • Martin Hope
    Sirop4ik 向 git 提交发布的正确方法是什么? 2020-10-05 00:02:00 +0000 UTC
  • Martin Hope
    faoxis 为什么在这么多示例中函数都称为 foo? 2020-08-15 04:42:49 +0000 UTC
  • Martin Hope
    Pavel Mayorov 如何从事件或回调函数中返回值?或者至少等他们完成。 2020-08-11 16:49:28 +0000 UTC

热门标签

javascript python java php c# c++ html android jquery mysql

Explore

  • 主页
  • 问题
    • 热门问题
    • 最新问题
  • 标签
  • 帮助

Footer

RError.com

关于我们

  • 关于我们
  • 联系我们

Legal Stuff

  • Privacy Policy

帮助

© 2023 RError.com All Rights Reserve   沪ICP备12040472号-5