MaiMemo 间隔重复记忆行为开源数据集

介绍

为了促进记忆领域研究的发展，墨墨背单词在 2022 年初开源了 2.2 亿条记忆行为的数据集：Replication Data for: A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling

数据来源

2021 年 12 月 1 日至 2021 年 12 月 31 日期间墨墨背单词 APP 的在线学习用户。

收集方法

一位学习者对一个单词的一次复习将产生一条记忆行为数据。其主要字段包括单词 id、学习者 id、时间戳、反馈。
当学习者完成当日的学习任务后，当日所有的记忆行为数据将以日志的形式上传至服务器。
在服务器上，日志同步系统将学习者的学习日志结构化，写入数据库。
按照学习者和单词进行分组，计算每次复习之间的间隔。并将每次的反馈和间隔按先后顺序拼接，得到反馈序列和间隔序列。

数据预处理

对学习者 id 进行了脱敏处理
将单词 id 替换为单词拼写
删除时间戳，保留复习间隔
排除第一次反馈认识和不确定的数据
排除反馈序列中包含熟知和模糊的数据
排除未按算法规划时间复习的数据
排除单词拼写中包含特殊字符的数据

数据类型与结构

本数据集包含三份文件：

opensource_dataset_raw.tsv
opensource_dataset_difficulty.tsv
opensource_dataset_forgetting_curve.tsv

其中 opensource_dataset_raw.tsv 是原始数据，其结构如下：

opensource_dataset_difficulty.tsv 和 opensource_dataset_forgetting_curve.tsv 都可以从 opensource_dataset_raw.tsv 中得出。具体过程请见论文：优化间隔重复调度的随机最短路径算法

应用价值

该数据集可用于研究人类记忆规律，提高学习者记忆效率。墨墨已经基于该数据集，发表了两篇学术论文：

关于该数据集的其他研究：

注意事项

本数据集采用 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 协议进行授权。

使用本数据集时，请引用本出版物。BibTeX 记录如下：

@inproceedings{10.1145/3534678.3539081,
author = {Ye, Junyao and Su, Jingyong and Cao, Yilong},
title = {A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling},
year = {2022},
publisher = {ACM},
doi = {10.1145/3534678.3539081},
pages = {4381–4390},
numpages = {10}
}

更新日志

2025 年 9 月 3 日

新增了表 opensource_dataset_offset.tsv，其包含以下四个字段：

u：与原始数据含义一致
w：同上
i：同上
offset：本次复习相对于该用户在 2021 年 12 月 1 日至 2021 年 12 月 31 日期间首次复习任一单词相隔了多少天

给定相同 u 和 offset，可以得到该用户在当天复习了哪些单词。