大家好,我对这样的任务很感兴趣:我有一个 csv 文件,每个单元格中都有文本。文本以这样的方式分为段落,每个段落落入一个单独的单元格。您需要在数据框中添加两列:第一列将包含文本的编号,第二列将包含文本中的段落编号。例如,我们有文本 foo 和 bar:
| Абзац | Индекс_Текста | Индекс_Абзаца |
|------- |--------------- |--------------- |
| foo_0 | 0 | 0 |
| foo_1 | 0 | 1 |
| foo_2 | 0 | 2 |
| foo_3 | 0 | 3 |
| bar_0 | 1 | 0 |
| bar_1 | 1 | 1 |
| bar_2 | 1 | 2 |
我处理了如何分成段落和制作 text_indexes 的任务,所以让我们假设我们有一个包含 1 列和 2 列的特定数据框。如何制作段落索引?
cumcount 将列出每组中的连续数字