MaiMemo 间隔重复记忆行为开源数据集
介绍
为了促进记忆领域研究的发展,墨墨背单词在 2022 年初开源了 2.2 亿条记忆行为的数据集:Replication Data for: A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling
数据来源
2021 年 12 月 1 日至 2021 年 12 月 31 日期间墨墨背单词 APP 的在线学习用户。
收集方法
- 一位学习者对一个单词的一次复习将产生一条记忆行为数据。其主要字段包括单词 id、学习者 id、时间戳、反馈。
- 当学习者完成当日的学习任务后,当日所有的记忆行为数据将以日志的形式上传至服务器。
- 在服务器上,日志同步系统将学习者的学习日志结构化,写入数据库。
- 按照学习者和单词进行分组,计算每次复习之间的间隔。并将每次的反馈和间隔按先后顺序拼接,得到反馈序列和间隔序列。
数据预处理
- 对学习者 id 进行了脱敏处理
- 将单词 id 替换为单词拼写
- 删除时间戳,保留复习间隔
- 排除第一次反馈
认识
和不确定
的数据 - 排除反馈序列中包含
熟知
和模糊
的数据 - 排除未按算法规划时间复习的数据
- 排除单词拼写中包含特殊字符的数据
数据类型与结构
本数据集包含三份文件:
- opensource_dataset_raw.tsv
- opensource_dataset_difficulty.tsv
- opensource_dataset_forgetting_curve.tsv
其中 opensource_dataset_raw.tsv 是原始数据,其结构如下:
opensource_dataset_difficulty.tsv 和 opensource_dataset_forgetting_curve.tsv 都可以从 opensource_dataset_raw.tsv 中得出。具体过程请见论文:优化间隔重复调度的随机最短路径算法
应用价值
该数据集可用于研究人类记忆规律,提高学习者记忆效率。墨墨已经基于该数据集,发表了两篇学术论文:
关于该数据集的其他研究:
- Optimizing learning return on investment: Identifying learning strategies based on user behavior characteristic in language learning applications
- Combining Denoised Neural Network and Genetic Symbolic Regression for Memory Behavior Modeling via Dynamic Asynchronous Optimization
- Modeling Learner Memory Based on LSTM Autoencoder and Collaborative Filteringrative Filtering
- Evolvable psychology informed neural network for memory behavior modeling
- DRL-SRS: A Deep Reinforcement Learning Approach for Optimizing Spaced Repetition Scheduling
注意事项
本数据集采用 Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0) 协议进行授权。
使用本数据集时,请引用本出版物。BibTeX 记录如下:
@inproceedings{10.1145/3534678.3539081,
author = {Ye, Junyao and Su, Jingyong and Cao, Yilong},
title = {A Stochastic Shortest Path Algorithm for Optimizing Spaced Repetition Scheduling},
year = {2022},
publisher = {ACM},
doi = {10.1145/3534678.3539081},
pages = {4381–4390},
numpages = {10}
}
更新日志
2025 年 9 月 3 日
新增了表 opensource_dataset_offset.tsv,其包含以下四个字段:
- u:与原始数据含义一致
- w:同上
- i:同上
- offset:本次复习相对于该用户在 2021 年 12 月 1 日至 2021 年 12 月 31 日期间首次复习任一单词相隔了多少天
给定相同 u 和 offset,可以得到该用户在当天复习了哪些单词。