第四章 所获平均值的效用
AI 导读
本章的核心目的是验证前一章提出的实验方法是否科学有效。艾宾浩斯通过详细的统计分析,旨在证明通过该方法收集到的数据是可靠的、可用于科学研究的,而不仅仅是一堆随机的心理波动。
文章主要分为两个核心论点:
一、论点一:分组测试的数据是可靠的(第 17 节)
- 问题: 艾宾浩斯首先提出一个关键问题:将若干个无意义音节列表组合成一次「测试」,其完成时间的平均值是否像物理学或生理学测量那样稳定可靠?
- 验证方法: 他检验了大量测试(例如,一组包含 92 次测试)的总耗时数据。他发现,这些数据的分布模式(即波动情况)与统计学上的「误差定律」(即正态分布/钟形曲线)高度吻合。
- 结论: 这是一个决定性的证明。它表明,尽管人的心理状态多变,但通过分组测试,各种随机的干扰(如分心、疲劳)会相互抵消。因此,每次测试的平均耗时是一个科学上有效的、可信赖的测量指标,可以作为建立因果关系的基础。
二、论点二:单个列表的数据揭示了心理节律(第 18 节)
- 问题: 既然分组数据可靠,那么学习单个列表的数据又呈现什么模式呢?
- 意外发现: 艾宾浩斯发现,学习单个列表所需的时间并不可靠,其分布不符合正态分布。更重要的是,他揭示了一个出乎意料的模式:
- 并非越学越累: 学习时间并非随疲劳线性增加。
- 存在振荡周期: 在一次测试中,学习第一个列表通常很快;第二个列表会突然变得非常困难,耗时最长;之后的列表则会在一个较高水平上上下波动。
- 结论: 这表明人的注意力和接受能力存在一种短期的周期性振荡,而非简单的线性疲劳。这个发现也反过来解释了为什么必须进行「分组测试」——只有通过平均,才能平滑掉这种内在的心理节律波动,从而获得一个稳定的测量结果。
总而言之,本章通过严谨的数据分析,成功地论证了其研究方法的科学性:虽然单次心理活动(学习一个列表)是「嘈杂」且波动的,但通过分组平均,可以获得一个稳定、可靠的「信号」,从而为研究记忆的普适规律奠定了坚实的基础。
第 17 节. 测试结果的分组模式
通过前述方法所进行的研究,首先需要回答的问题,正如在第 7 节和第 8 节中所阐述的,是关于我们所获得的平均值的性质。在尽可能同一的条件下,记忆某一特定长度序列所需的时间,其分布模式是否能让我们有理由将其平均值视为物理科学意义上的量度?
如果测试以上述方式进行,即总是将若干个序列接连在一起进行记忆,那么我们几乎不能期望每次的学习时间记录会呈现出那种理想的分布模式。因为,随着在一次实验中投入的学习时间延长,某些可变条件会在学习各个序列时发挥作用,而根据我们对这些条件的性质的了解,我们很难期望它们的波动会围绕一个平均值对称分布。因此,结果的分组模式必然是不对称的,并且不能符合「误差定律」。这类条件包括注意力的波动,以及心理清新度的下降——后者起初迅速,而后越来越缓慢地让位于某种心理疲劳。由于异常分心所导致的学习过程减慢,可以说是不设上限的;其结果是,学习一个序列的时间偶尔可能会增加到其平均值的两倍甚至更多。而其反向效应,即异常的努力,就其本质而言,则不可能超越某个极限。它永远无法将学习时间减少到零。
然而,如果我们以数量相等且连续学习的序列组为单位进行考察,那么这些干扰性影响就可以被视为已经消失或在实践中已无足轻重。一个组别中所出现的精神活力下降,与另一个组别中的将大致相同。在相似条件下,于一刻钟或半小时内发生的注意力的正向和负向波动,日复一日也近似相同。因此,我们只需要问:学习同等规模的序列组所需的时间,是否呈现出我们所期望的分布模式?
对于这个问题,我可以足够肯定地给出肯定的回答。我所拥有的、在相似条件下获得的最长的两个系列,诚然,在上述理论意义上样本量并不算大;此外,它们还有一个缺点,即它们的产生时间相隔较长,在此期间,实验条件必然发生了许多变化。尽管如此,它们的分组模式已经尽可能地接近理论所要求的了。
第一个测试系列是在 1879-80 年间进行的,包含 92 次测试。每次测试包括记忆 8 个由 13 个音节组成的序列,学习过程一直持续到每个序列都能被连续两次再现为止。完成所有 8 个序列(包括两次再现的时间,但自然不包括中间的停顿,见第 13 节,规则 4)所需的总时间,平均为 1112 秒,其观测的或然误差为 ± 76。因此,结果的波动非常显著:所获数据中只有一半落在 1036 秒和 1188 秒的范围内,另一半则分布于此范围之外。具体的分组情况如下:
在 1/4 P.E. 至 1/2 P.E. 的区间内,出现了一个数值的轻微聚集,而这又被紧随其后的 1/2 P.E. 至 1 P.E. 区间内更显著的数值缺失所抵消。除此之外,计算出的理论值与实际观测值的吻合度是令人满意的。分布的对称性尚有待改善。低于平均值的数值在数量上略占优势,而高于平均值的数值则在偏差量上略占优势:最大的八个偏差中,只有两个低于平均值。这表明,前述注意力的影响——其在学习单个序列时的波动呈现出向上(耗时更长)的偏差大于向下偏差的特点——并未通过将若干序列组合的方式被完全抵消。
在第二个大型测试系列中,观测的准确性及其分布与理论要求的吻合度都得到了极大的改善。该系列包含 1883-84 年间进行的 84 次测试的结果。每次测试包括记忆 6 个由 16 个音节组成的序列,每次都学习至首次无差错再现为止。完成此任务所需的总时间平均为 1261 秒,观测的或然误差为 ± 48.4——即,全部 84 个数据中,有一半落在 1213 秒至 1309 秒的范围内。与前一个测试系列相比,观测的精确性已大大提高:[1]
或然误差所覆盖的区间仅占平均值的 7.5%,而早期测试中该比例为 14%。具体的数值分布如下:
除了那些因数量太少而无关紧要的数据点外,分布的对称性在这里得到了令人满意的维持。
绝对值最大的偏差出现在低于平均值的一侧。
如果我们将若干个音节序列组合成组,然后分别进行记忆,那么在重复测试时,记忆整个组所需的时间长度诚然差异巨大;但是,尽管如此,作为一个整体来看,这些数值的变化方式,与那些理想的、同质的自然科学过程的测量值的变化方式是相似的,后者同样也彼此不同。所以,至少在实验的层面上,我们被允许使用从各种测试的数值结果中获得的平均值,来确立因果关系的存在,正如自然科学通过其各种常数所做的那样。
需要组合成一个单独的组别(或一次测试)的音节序列的数量,自然是不确定的。然而,我们可以预期,随着这个数量的增加,实际观测到的时间分布与根据误差定律计算出的理论分布之间的吻合度会更高。在实践中,我们会尝试将这个数量增加到这样一个点,即进一步增加所带来的更紧密的吻合度,已不足以补偿其所需的时间成本。如果在一次给定的测试中减少序列的数量,我们所期望的吻合度大概也会随之下降。然而,我们希望即便如此,与理论所要求的分布的近似性仍能保持在可感知的程度。
即便是这一要求,也由我所获得的数值结果满足了。在我刚刚描述的两个最大的测试系列中,我检验了记忆每个测试前半部分所需的不同时间长度。在较早的系列中,这是指每 4 个音节序列所需的时间;在较近的系列中,这是指每3个音节序列所需的时间。结果如下:
- 在前一个系列中:平均值 (m) = 533 (P.E.o) = ± 51。
- 在后一个系列中:m = 620, P.E.o = ± 44。
这两个表格都很好地证实了前述的假设,即在观测分布与计算分布之间,存在着一种虽不完美但仍可感知的对应关系。
如果我们不是减少组合成一次测试的序列数量,而是减少测试的总次数,那么我们也必须预设会存在完全相同的近似对应关系。在这种情况下,我同样会补充一些验证性的汇总数据。
我拥有两个长测试系列,是在早期测试期间进行的,它们是在与上述系列相同的条件下获得的,但在一天中较晚的 B 时段和 C 时段。
其中之一,B 时段系列,包含 39 次测试,每次 6 个序列;另一个,C 时段系列,包含 38 次测试,每次 8 个序列。每个序列都包含 13 个音节。获得的结果如下:
- 对于B时段的测试:m = 871, P.E.o = ± 63。
- 对于C时段的测试:m = 1258, P.E.o = ± 60。
此外,我还要提及一个只有二十次测试的系列,并以此结束本节的总结。每次测试包括学习八个独立的、各含十三个音节的序列,这些序列在一个月前曾被记忆过一次。在这种情况下,平均值为 892 秒,观测的或然误差为 54。单个数值的分布如下:
尽管测试的总次数如此之少,但在所有这些案例中,理论计算与实际偏差计数之间的一致性都如此之高,以至于我们有理由承认这些平均值的有效性,当然,前提是要考虑到其较宽的误差范围。
第 18 节. 单个序列结果的分组模式
前文提及的、关于学习单个序列所需时间的分布模式的假设,自然不只是理论上的推测,而是早已被实际观测到的分布模式所证实。前述的两个大型测试系列,一个包含 92 次测试(每次 8 个序列),另一个包含 84 次测试(每次 6 个序列),从而分别提供了 736 个和 504 个独立数值,这为我们的判断提供了足够广阔的基础。这两组数据,都以同样的方式,展现出如下的特异之处:
- 算术平均值之上的数值分布,要比其下的数值分布松散得多,延伸得也更远。高于平均值的最极端数值,其与平均值的距离分别是低于平均值的最远数值的 2 倍和 1.8 倍。
- 由于这些较大数值的拉动作用,算术平均值被从数据最密集的区域向上拉高,其结果是,低于平均值的偏差在数量上占据了优势。两组数据中,分别有 404 个和 266 个偏差低于平均值,而高于平均值的则分别只有 329 个和 230 个。
- 从数据最密集区域向两端延伸时,偏差的数量并非均匀减少——尽管从如此大量的组合数据来看,人们会非常倾向于这样预期——而是可以清晰地观察到若干个密度上的极大值和极小值。因此,在产生这些单个数值时——即,在记忆单个序列时——存在着恒定的误差来源在起作用。这些误差来源一方面导致了数值的不对称分布,另一方面则导致了它们在某些区域的聚集。根据本章已有的研究,我们只能假定,当我们将连续学习的若干个序列的数值组合在一起时,这些影响相互抵消了。
我已经提及,这种不对称分布的可能原因,是高度专注和分心状态对学习效果所产生的特殊变化。我们很自然地会推测,单个序列在每次测试中的位置,是导致数值在平均值两侧反复聚集的原因。如果在一个大型测试系列中,我们将所有测试的第一个序列、第二个序列、第三个序列等的数值分别汇总并取平均值,我们发现,正如所预期的,这些不同位置的平均值差异巨大。围绕着各自的平均值,单个数值的分布只能说是尚可地近似于误差定律,但它们总体上最密集地分布在各自的平均值区域,而这些分散的密集分布区域,自然也就体现在了总体的结果之中。
以下内容可作为补充:由于在一个测试系列的过程中,心理疲劳会逐渐累积,那么序列的平均学习时间理应随着序列位置的后移而增加;然而,事实并非如此。
我只在一个案例中注意到了与此假设相符的情况,即在那个包含 92 次测试(每次 8 个 13 音节序列)的大型且因此很重要的系列中。在这种情况下,92 个第一个序列、92 个第二个序列……的平均学习时间分别为 105、140、142、146、148、140 秒,其相对长度由图 2 展示。而对于我所研究的所有其余案例,典型的情况恰恰相反,其数值的变化过程更类似于那个包含 84 次测试(每次 6 个 16 音节序列)的系列,如图 3 所示。
这里的平均值分别为 191、224、206、218、210、213 秒。可以看出,学习时间从一个远低于平均值的点开始,但立刻跃升至一个在后续过程中再未达到的高点,然后开始相当显著地振荡。一个类似的过程也体现在 7 次测试(每次 9 个 12 音节序列)的数据中,即:71、90、98、87、98、90、101、86、69(图 4)。
此外,在 B 时段获得的 39 次测试(每次 6 个 13 音节序列)的数值如下:118、150、158、147、155、144(图 5,下曲线)。
在 C 时段获得的 38 次测试(每次8个13音节序列)的数值为:139、159、167、168、160、150、162、153(图 5,上曲线)。
最后,从 7 次测试(每次学习 6 节拜伦的《唐璜》)中获得的数值为:189、219、171、204、183、229。
即使是在前面提到的那个与常态相悖的测试组中,如果我们不将全部 92 次测试一次性纳入考量,而是将其分为几个部分——即,将那些大约在同一时间、在约同等条件下进行的测试组合在一起——那么也会出现与正常模式相协调的、各位置平均值的组合模式。
我们无法从这些数值结果中得出结论说,在测试持续的二十分钟内逐渐累积的心理疲劳没有产生任何影响。
我们只能说,疲劳对数值的假定影响,被另一种我们先验地不那么容易想到的倾向远远盖过了,即:相对较低的数值倾向于被相对较高的数值所跟随,反之亦然。似乎存在着一种心理接受能力或注意力的周期性振荡,而逐渐累积的疲劳,正是通过围绕着一个逐渐位移的中值的波动来表达自身的。[2]
在对通过完整记忆实验所获数值结果的性质与价值进行了这样的定位之后,我们现在将转向本研究的真正目的,即对因果关系进行数值描述。
脚注
[1] 当然,此处获得的精确性无法与物理测量相提并论,但完全可以与生理测量相比,后者自然是人们在此会首先想到的。最精确的生理测量当属亥姆霍兹和巴克斯特最后所做的神经传导速度测定。这些研究中作为其精确性例证而发表的一份记录(Mon. Ber, d. Berl. Akad. 1870, S. 191),经过适当计算后,得出的平均值为 4.268,观测的或然误差为 0.101。因此,其误差区间占平均值的 5%。所有早期的测定都远不如此精确。在亥姆霍兹首次测定中最精确的测试系列中,该误差区间约占平均值的 50%(Arch. f. Anat. u.. Physiol. 1850, S. 340)。即便是物理学,在其开创性研究中,也常常不得不在其数值结果上接受较低的精确度。在他首次测定热功当量时,焦耳得到的数值是 838,观测的或然误差为 97。(Phil. Mag., 1843, p. 435 ff.)
[2] 如果将来有人对此感兴趣,可以尝试用数值来界定该倾向在不同情况下的不同效应。因为,序列组数值的观测或然误差,为记忆行为每日所受的偶然干扰的影响提供了一个量度。现在,如果学习单个序列时所受的条件变化与一次次测试之间发生的变化大致相同或相似,那么根据误差理论的基本原理,直接从单个数值计算出的观测或然误差,与前述的测试组误差之比,应为 1 比 √n,其中 n 代表组合成一次测试的单个序列的数量。然而,如果像这里的情况一样,在记忆这些单个序列的过程中,有特殊的影响在起作用,并且这些影响倾向于使数值的分散程度超过其他条件变化所导致的程度,那么从单个数值计算出的 P.E.o 必然会显得过大,而前述的比例也因此会过小,并且影响越强,这种情况就越明显。
对实际关系的检验,诚然有点困难,但完全证实了上述说法。在 84 次测试(每次 6 个 16 音节序列)中,√n = 2.45。我们发现这 84 次测试的观测或然误差为48.4。而 504 个单个数值的或然误差是 31.6。商数 31.6 : 48.4 = 1.53;因此,还不到 √n 值的三分之二。
上一章:第三章 研究方法