gangsta Asked:2020-05-01 23:44:35 +0000 UTC2020-05-01 23:44:35 +0000 UTC 2020-05-01 23:44:35 +0000 UTC 向数据集添加日期和时间 772 我有两个数据集——一个是训练,第二个是主要的。 需要为每个数据集添加一个新列,该列又必须填充日期和时间(我将在模型中使用时间序列)。 第一个数据集包含 498534 条记录。开始日期/时间值为2016-01-15 00:00:00,结束值为2016-01-15 23:59:59。我计算出平均 5-6 条记录应该在一秒钟内落下。 第二个数据集包含 4406900 条记录。开始日期/时间值为2016-01-16 00:00:00,结束值为2016-01-28 23:59:59。平均还 - 5-6 记录一秒钟。 我用谷歌搜索了熊猫日期时间文档,但仍然不明白如何最终实现这一点。 python 1 个回答 Voted Best Answer MaxU - stop genocide of UA 2020-05-02T00:01:08Z2020-05-02T00:01:08Z 使用pd.date_range()。 例子: 创建一个玩具数据集: n_samples = 498534 df = pd.DataFrame({"blah": np.random.randint(100, size=n_samples)}) 添加一个字段TimeStamp: dt_from = pd.to_datetime("2016-01-15 00:00:00.000000") dt_to = pd.to_datetime("2016-01-15 23:59:59.999999") df["TimeStamp"] = pd.date_range(dt_from, dt_to, periods=n_samples) 结果: In [132]: df Out[132]: blah TimeStamp 0 91 2016-01-15 00:00:00.000000000 1 29 2016-01-15 00:00:00.173308487 2 7 2016-01-15 00:00:00.346616974 3 97 2016-01-15 00:00:00.519925461 4 83 2016-01-15 00:00:00.693233948 ... ... ... 498529 56 2016-01-15 23:59:59.306765051 498530 9 2016-01-15 23:59:59.480073538 498531 60 2016-01-15 23:59:59.653382025 498532 78 2016-01-15 23:59:59.826690512 498533 45 2016-01-15 23:59:59.999999000 [498534 rows x 2 columns]
使用pd.date_range()。
例子:
创建一个玩具数据集:
添加一个字段
TimeStamp:结果: