医学统计学的逻辑基础与报道准则

发布于:2013-10-18 16:55

编者按：医学科学研究中必须采用的两种方法包括专业方法与统计方法。通常，课题研究的创新性有赖于前者，而研究的科学性则有赖于统计方法，后者也是所有医学研究的共同方法，因此理清其内在逻辑，不仅有助于提高研究报告文献的写作质量，同时有助于内容知识被快速接纳以及传播。下文中有关医学统计学的逻辑基础概述或可抛砖引玉，有助理清逻辑。首先，医学统计学逻辑基础统计学核心问题是研究总体与样本之间的关系，而鉴于总体的无限性和巨大的特征，因此对使用不完全归纳法得来的科学“抽样”样本的研究，可获取对总体的推断。其次，生物统计学对照原则与“求因果五法”的差异法、重复原则、随机化原则可以实现样本含量的科学归纳，例如其分别可对处理因素和非处理因素的差异进行科学对比；可以探求现象间的内在因果关系；保证研究过程中研究对象或次数的量；以及保证研究过程中质的规定性。另外，概率是统计归纳推理中最基本的概念，其是事物发生的度量，是统计归纳的必备工具。除此之外，贯穿着反证法(Reduction ad absurdum)的假设检验逻辑推理过程“建立假设——验证假设——作出结论”则是推断总体的有效途径之一。更多有关统计学数学表达与辩证逻辑以及医学统计学的报道准的则相关内容，下文也将一一呈现。

文/ 向晋涛武汉大学人民医院

向晋涛　武汉大学人民医院；医学学士，科技哲学硕士，研究方向为电生理学、科技编辑和医学科学研究方法。《中国心脏起搏与心电生理杂志》编辑部主任，编审，中国生物医学工程学会心律分会委员，中国心电学会委员。发表有影响的心血管学术论文20余篇。组织心律失常专题会议近20次。

从本质上看，一般进行医学科学研究必须采用两种方法，其一是专业方法，其二是统计方法。前者保证课题研究的创新性，后者保证研究的科学性。医学统计方法是所有从事医学研究的共同方法。弄清其内在逻辑含义，则有助于我们正确使用与报道。这对稿件的快速被接纳及知识传播无疑具有重大意义。

一、医学统计学的逻辑基础

1. 由样本到总体与不完全归纳

统计学的核心问题是研究总体与样本之间的关系。

总体(Population)是我们研究的全部对象。总体又分为无限总体和有限总体。例如，我们要研究新生儿体重，因为新生儿是无止境的，所以这一总体可以设想是无限的。如果要调查一所学校今年新生的身高，这一总体则是有限的。生物统计学所遇到的总体多数都是无限总体。构成总体的每个成员称为个体。由于总体的无限性或总体很大，为了达到对总体的认识，又无法穷尽总体的所有个体，为此采取了科学“抽样”得到样本，通过对样本的研究推断其总体。其实质是采用的不完全归纳法。

样本是总体的部分。样本内个体数目称为样本含量。如何确定样本的含量属于科学归纳问题。

2. 生物统计学的三大原则与科学归纳

2.1 对照原则与“求因果五法”的差异法

生物学实验涉及三个基本要素：处理因素、受试对象和实验效应。科学探求三者的内在联系是实验的最终目的。影响医学实验效应的因素错综复杂，往往处理因素与非处理因素引起的效应交织在一起。对照(Control)的意义在于它可以使处理因素和非处理因素的差异有一个科学的对比。实验设计的目的是使处理因素T能得到相应的实验效应e，即e是T相应的结果：T→e；众多夹杂的非处理因素的总和以S表示，S的影响结果以s表示，则整个实验的因素与效果可以写成T+S=e+s。实验效应e是与s混在一起的，实验设计的主要任务是如何使e能单独显示出来。实验对照，使实验中两组的S均衡，即S1=S2，这样实验组T的效应e就可显不出来。用公式表示：

差异法是这样来探求现象间的因果关系的：如果被研究现象(实验效应)出现的场合与被研究现象(实验效应)不出现的场合只有一个情况(处理因素)是不同的，其他的情况(非处理因素)完全相同，而两场合唯一不同的这个情况(处理因素)在被研究现象(实验效应)出现的场合中是存在的，在被研究现象(实验效应)不出现的场合中是不存在的，那么这个唯一不同的情况(处理因素)就是被研究现

象的原因(或结果)(括号内文字为笔者所加，目的是便于比较分析)。用公式表示为：

–

所以，A情况是a现象的原因(或结果)

从以上可以看出：生物实验是从处理因素→处理因素引起的效应；差异法是从效应(现象)→引起效应的因素(情况)，它们的思维方式和操作的出发点相反，但它们都是寻求原因效果的一一对应关系。从公式可以得出两者的本质是一样的。可以说对照是求因果关系五法的差异法在医学实验中的具体应用。它是一种探求事物内在联系的科学方法。

2.2 重复原则与研究量的保证

重复(Replication)就是将一基本实验重做一次或几次。例如，测定不同年龄组正常人的血红蛋白含量的实验，在每一年龄组内测定一人，即为一基本实验，若将这一基本实验重做5次，即每一年龄组抽取5人测血红蛋白含量，则称该实验有5次重复。重复有三个重要意义：(1)因为只有重复，才能得到实验误差的估计。根据误差的估计值，才能判断处理之间的差异是否存在统计学上的显著性。(2)设置重复，可以更精确地估计处理效应。例如，比较两种不同药物的疗效，每一种药物只由一人服用。服用A药的人10天痊愈，服用B药的人12天痊愈。这时我们无法正确判断药效有无差异。两种药物之间的差异可能是药效不同，也可能是由于实验误差造成的。若以上结果是n次重复的平均值，由于平均数的方差只是样本方差的1/n(sx２=s2/n)，当n足够大时，A和B之间的差异，就有理由认为是不同药物的效应。(3)重复是扩大一个实验的推断范围的方法。我们不能根据一个或几个人的某项检测值而推断总体人群这项值的范围。只有通过选择适宜的变动相当多的n个人检测值，即重复n次实验后，才能从样本达到对总体的推断。因此，重复是对归纳事物研究量的保证，即所归纳的事物要达到一定的数量。达不到一定数量的事物的归纳是不可靠的归纳。重复保证了研究过程中研究对象或次数的量。

2.3 随机化原则与研究质的保证

随机化(Randomization)是指实验材料的配置和处理的顺序都是随机确定的。(1)对实验材料的随机化保证了实验材料(样本)与总体材料在质上的统一，即样本能够代表总体，亦即样本具有代表性。(2)对处理的顺序随机化就是保证每一个实验材料受到的处理在质上是统一的，即每种处理有同等的机遇被分配到任何一个实验材料上去，不论对它有利或不利。随机化提供了机会均等的方法，Cochrane

和Cox说过：“随机化多少有点像保险，它是一种对付也许会也许不会发生的扰乱的防患未然的措施，这种扰乱即使发生，也是可能严重可能并不严重”。对实验做适当的随机化从效应上讲还可以平均掉可能存在的外来因素的影响。如在前面药效实验中，假设药效受年龄影响。若服A药的都较年轻，服B药的都较年老，这时药效与年龄效应混杂，降低了实验结果的可靠性。经过随机化，每一药物组中均有不同年龄的个体，这样就可以防止不同处理之间比较时可能产生的偏倚。总之，随机化原则保证了研究过程中质的规定性。

3. 概率与统计归纳推理

概率(Probability)是事物发生的度量。事件如属常有，它的发生概率是大的；事件如属不常有，它的发生概率是小的。大多数人都以一种或另一种方式使用过整个范围的概率。如果有人说：“这次火警可能是粗心大意之故”，他对于原因何在根本还没有确定；如果他说：“这次火警几乎肯定是粗心大意之故”，他对于原因的感觉就很强烈了。统计学中把此类形容性的但不确定的诸如“可能、几乎肯定”等字眼代以处在0~1之间的数字；精确地指示出一桩事件可能到怎样或者不可能到怎样。统计学方法被用来从局部推断整体，即从样本推断总体。显然在资料不完全的情况下，我们不能期望每一推断都是正确的，机遇起了一部分的作用，那些因果关系很明确的定律并不适用。在这种情况下，我们就必须借助概率这个概念来描述对某一推断程度的量度或者借助概率和假设检验达到统计推断的目的。从某种意义上说概率是统计归纳推理最基本的概念，离开了概率，统计归纳推理就失去度量的工具。

4. 假设检验与反证法

我们根据统计的原理，利用一般数学方法获取了关于样本的数据后，如何通过样本去推断总体呢?由样本推断总体是以各种样本统计量的抽样分布为基础的。对总体的推断可以通过两条途径进行。其一是统计假设检验(Statisticaltest of hypothesis)；其二是总体参量估计(Estimation ofpopulation parameter)。这里主要讨论假设检验与统计推断。如试验某种减肥药是否有效，可通过样本中用药前、后体重的差值作出推断，并对该药是否可推广作出决策。在作假设检验时，首先要有个假设H0：该药无减肥作用，其对立的假设H1则是该药有减肥作用；然后用配对计量资料t检验(或其他方法)来验证假设；最后再作出拒绝或不拒绝H0的结论。这里的“建立假设——验证假设——作出结论”贯穿着反证法(Reduction ad absurdum)的逻辑推理过程。

4.1 建立假设

(1)假设是对于总体特征的表述。上例推论的总体是假想的，包括所有使用该药的受试者用药前后的体重差值，其均数为μ，因而可写成H0:μ=0,H1:μ>0。(2)H0是从反证法的思想提出的。本例最初的问题是“该药是否能减轻肥胖者的体重?”而这里提出的H0是“该药无减肥作用”，称无效假设，意图是提出根据以否定它，即回答：“是的，该药能减轻体重。”故H0亦称解消假设。H1是和H0相联系而对立的。(3)H0与H1不是平列的。H0是验证的主题，只有在H0被拒绝的情况下才接受H1，故H0称为备择假设。(4)H0和H1的具体表述随资料性质、分析目的和检验方法而异。

4.2 验证假设

(1)由样本推断总体都是以统计量的分布为推理依据的(如t 检验中的t)。(2)在计算统计量时必须用到有关H0 。如上例，

式中 x为样本体重差值的均数，s为差值的标准差，n为样本含量，0来自H0∶μ=0。因此，上述t 的抽样分布可视为在H0成立条件下统计量t 的概率。如果这里不用H0，那也就无法获得t 的分布。(3)推理的基本思想是反证法。意思是如果在某一统计量的概率分布中，抽得现有样本统计量的概率P很小，我们就怀疑样本数据与所设H0有矛盾，而这种矛盾不宜用抽样误差来解释，故拒绝H0；相反，若抽得现有样本统计量的概率P并不小，也就是样本数据与所设H0虽不一致，但仍可用抽样误差来解释，故我们就没有理由拒绝这个H0 。(4)确定P值的大小应该事先规定一个标准，这个标准称为检验的含量，即检验水准或显著水准α。

4.3 作出结论

(1)若P≤α，则拒绝H0，这就是“有显著性”的同义语。按反证法的逻辑推理必须导致接受H1。如上例可以认为该药减肥有效，可以推广。

(2)若P>α，则不拒绝H0，就是“无显著性”的同义语。按反证法的逻辑推理，不拒绝H0，却未必蕴藏着H0的真实性。而从决策论的观点看，只好接受H0，或者说暂时接受它。如上例，可认为该药无效，不予推广。这点类似临床上常说的：“根据现有检验，未发现阳性结果，只好作无病处理。”；或者说：“阴性待诊”。

(3)上述两种结论不是绝对的肯定或否定，都有发生错误的可能性，因而是概率性的。在医学科学研究中经常用到假设检验，正确理解其基本涵义和逻辑推理将有助于正确应用。

5. 统计学数学表达与辩证逻辑

统计学方法的整体与部分、集中与离散、正态与偏态、直线与曲线、比较与分类、演绎与归纳等辩证法已有学者论述。世界是辩证的，因此研究世界的方法也应该是辩证的。统计学是数学的方法，其成为现代科学研究的重要手段的另一重要原因就是它把丰富的辩证法赋于了数学表达、推导和计算。例如：

x±s(均数±标准差)：x表达了研究对象数量的集中趋势，而s则表示其数量的离散程度，因此x±s是集中与离散的统一。

%(百分数)：%表示相对数，其实质是由分数即分子/分母组成，分子表示部分，而分母表示整体，%体现了部分与整体的关系。

μ±1.96σx(总体均数±1.96总体标准误)：是在μ与σ已知的总体中，随机抽取样本含量为n的许多样本，这些样本均数服从正态分布，而在100个样本中，理论上有95个在μ±1.96σx的范围内。这是从共性到个性，在思维方法上属于演绎推理形式。

x±t^0.05,νs^x［样本均数±(α=0.05,ν=n-1时的t 界值)×标准差］：是在μ与σ未知的情况下，估计总体均数可能在什么范围内，称为95%可信区间。理论上作100次估计，求得100个区间，其中有95个区间将包含总体均数在内。这是从个性到共性，在思维方法上属归纳推理形式。

总之，统计方法是充满辩证法的数学方法，对其辩证表达、推理与运算的理解，无疑会有助于正确运用。

二、医学统计学的报道准则

与一般科学研究必须采用的两种方法(专业、统计方法)相对应，科技论文中始终贯穿着两条主线：专业主线与统计主线。既然科技论文是为读者服务的，那么医学统计学的报道就必须贯彻一条宗旨：使普通的、具有一般素养的读者(而不是研究特殊课题的专家)在初次阅读时就能够看懂。这样关于医学统计学的报道就必须遵循一定的报道准则。

1. 描述具有足够细节的统计学方法，从而使有素养的读者能够通过原始资料核实报道的结果。

2. 若可能，用定量所见及其表述给出测量误差或不确定性(诸如可信限)的适当指标。

3. 避免单独地依赖统计学假设检验，如使用P值，这样不能表达出重要的数量信息。

4. 适宜地选择实验对象。

5. 给出其随机化的细节。

6. 对任何盲法的观察，应描述其实验方法及成功之处。

7. 报告治疗的并发症。

8. 给出观察的例数。

9. 报告观察中的丢失(如临床试验中的丢失)。

10. 研究设计和统计学方法所引用的参考文献必须是标准的出版物(给出所在的页数)，如有可能，最好引用报道该设计和方法的原始论文。

11. 指明所用的任何通用计算机程序。

12. 在方法部分对所用统计学方法进行综合描述，在结果部分总结数据时应详细说明分析资料所采用的统计学方法。