跳转到内容

MaiMemo 间隔重复记忆行为开源数据集

介绍

为了促进记忆领域研究的发展,墨墨背单词在 2022 年初开源了 2.2 亿条记忆行为的数据集:Replication Data for: A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling

数据来源

2021 年 12 月 1 日至 2021 年 12 月 31 日期间墨墨背单词 APP 的在线学习用户。

收集方法

  1. 一位学习者对一个单词的一次复习将产生一条记忆行为数据。其主要字段包括单词 id、学习者 id、时间戳、反馈。
  2. 当学习者完成当日的学习任务后,当日所有的记忆行为数据将以日志的形式上传至服务器。
  3. 在服务器上,日志同步系统将学习者的学习日志结构化,写入数据库。
  4. 按照学习者和单词进行分组,计算每次复习之间的间隔。并将每次的反馈和间隔按先后顺序拼接,得到反馈序列和间隔序列。

数据预处理

  • 对学习者 id 进行了脱敏处理
  • 将单词 id 替换为单词拼写
  • 删除时间戳,保留复习间隔
  • 排除第一次反馈认识不确定的数据
  • 排除反馈序列中包含熟知模糊的数据
  • 排除未按算法规划时间复习的数据
  • 排除单词拼写中包含特殊字符的数据

数据类型与结构

本数据集包含三份文件:

  • opensource_dataset_raw.tsv
  • opensource_dataset_difficulty.tsv
  • opensource_dataset_forgetting_curve.tsv

其中 opensource_dataset_raw.tsv 是原始数据,其结构如下:

opensource_dataset_difficulty.tsv 和 opensource_dataset_forgetting_curve.tsv 都可以从 opensource_dataset_raw.tsv 中得出。具体过程请见论文:优化间隔重复调度的随机最短路径算法

应用价值

该数据集可用于研究人类记忆规律,提高学习者记忆效率。墨墨已经基于该数据集,发表了两篇学术论文:

关于该数据集的其他研究:

注意事项

本数据集采用 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 协议进行授权。

使用本数据集时,请引用本出版物。BibTeX 记录如下:

@inproceedings{10.1145/3534678.3539081,
author = {Ye, Junyao and Su, Jingyong and Cao, Yilong},
title = {A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling},
year = {2022},
publisher = {ACM},
doi = {10.1145/3534678.3539081},
pages = {4381–4390},
numpages = {10}
}

更新日志

2025 年 9 月 3 日

新增了表 opensource_dataset_offset.tsv,其包含以下四个字段:

  • u:与原始数据含义一致
  • w:同上
  • i:同上
  • offset:本次复习相对于该用户在 2021 年 12 月 1 日至 2021 年 12 月 31 日期间首次复习任一单词相隔了多少天

给定相同 u 和 offset,可以得到该用户在当天复习了哪些单词。