第三节 实验误差分析与数据处理
任何实验研究的目的都旨在通过实验数据获得可靠的、有价值的、可重复的实验结果或者某种变化规律。而实验结果的准确性、精密性和可靠性,必须应用科学的数学方法加以分析、归纳和评价。因此,掌握和应用误差理论、统计理论和科学的数据处理方法是十分必要的。本节将简单介绍有关实验数据的处理问题。
一、实验数据的误差分析
由于实验方法和实验设备的不完善、周围环境的影响、人的观察力和测量程序等的限制,实验测量值和真值之间,总是存在一定的差异。人们常用绝对误差、相对误差或有效数字来说明一个近似值的准确程度。为了评定实验数据的精确性或误差,认清误差的来源及其影响,需要对实验误差进行分析和讨论。由此可以判定哪些因素是影响实验精确度的主要因素,从而在以后的实验中进一步改进实验方案,缩小实验观测值和真值之间的差值,提高实验的精确性。
化工综合实验均系一系列测量的结果,各种测量总是或多或少地包含一定的误差,评定实验数据误差,设法提高实验的准确度,需要进行实验数据的误差分析。
(一)真值和平均值
真值是指在一定的时间和空间条件下,能够准确反映某一被测物理量的真实状态和属性的量值,也就是某一被测物理量的客观存在的、实际具有的量值。真值是一个理想的概念,分理论真值和约定真值两种。理论真值是在理想情况下表征某一被测物理量的真实状态和属性的量值。理论真值是客观存在的,或者是根据一定的理论所定义的。例如,三角形的三个内角之和为180°。约定真值是指人们为了达到某种目的,按照约定的办法所确定的量值。约定真值是人们定义的,得到国际上公认的某个物理量的标准量值。例如:光速被约定为3×108 m/s。然而由于观测的次数总是有限的,在不存在系统误差的情况下,科学实验中常用平均值来近似真值。化工中常用的平均值有算术平均值、均方根平均值和几何平均值三种。
算术平均值:
(1)
均方根平均值:
(2)
几何平均值:
(3)
(二)误差的表示方法
误差的定义是测量值与真值之间的差异,即:误差=测量值-真值。常用的误差表示方法有三种:绝对误差、相对误差和引用误差。
1.绝对误差
在一定条件下,某一物理量所具有的客观大小称为真值。测量的目的就是力图得到真值。但由于受测量方法、测量仪器、测量条件以及观测者水平等多种因素的限制,测量结果与真值之间总有一定的差异,即总存在测量误差。设测量值为N,相应的真值为N0,则测量值与真值之间的绝对误差ΔN为:
(4)
误差存在于一切测量之中,测量与误差形影不离,分析测量过程中产生的误差,将影响降低到最低程度,并对测量结果中未能消除的误差做出估计,是实验测量中不可缺少的一项重要工作。
2.相对误差
绝对误差与真值之比的百分数叫做相对误差,用E表示:
(5)
由于真值N0无法知道,所以计算相对误差时常用N代替N0。在这种情况下,N可能是公认值,或高一级精密仪器的测量值,或测量值的平均值。相对误差用来表示测量的相对精确度,相对误差用百分数表示,保留两位有效数字。
3.引用误差
绝对误差和相对误差仅能表明某个测量点的误差。实际的测量装置往往可以在一个测量范围内使用,为了表明测量装置的精确程度,人们引入了引用误差。
引用误差定义为绝对误差ΔN与测量装置的量程B的比值,用百分数来表示,即
(6)
引用误差实际上是用相对误差形式表示了测量装置所具有的测量精度。
测量装置应当保证,在规定的使用条件下,其引用误差的极限不超过某一个规定值。这个规定值称为仪表的允许误差。允许误差能够很好地表征测量装置的测量精确程度,它是测量装置最主要的质量指标之一。
4.算术平均误差和标准误差
在化工领域中,一般常用算术平均误差和标准误差(习惯上称为标准偏差)来表示数据的精度。其中,标准偏差因为对一组数据中的较大误差和较小误差比较敏感,能够更好地反映实验数据的离散程度。两者的计算公式如下:
(算术平均误差) (7)
(标准偏差) (8)
式中,n为测量次数;xi为第i次测量值;为n次测得值的算术平均值。
(三)可疑数据的剔除
在实际测量中,系统误差和随机误差之间不存在明显的界限,两者在一定条件下可以相互转化。对某项具体误差,在一定条件下为随机误差,而在另一个条件下则可能为系统误差,反之亦然。如果一些测量结果误差相对较大,称为粗大误差,则在数据处理中,应把这些具有粗大误差的异常数据剔除。
常用的剔除准则有Q值检验法、拉伊达准则或格拉布斯准则等。
1.Q值检验法
Q值检验法是迪克森(Dixon)在1951年提出的一种简易判据式,专门针对分析化学中观测次数较少(n≤10)的情况。在数据量较少的情况下,能够快速剔除异常数据,具体步骤为:
(1)将数据按从小到大的次序排列:x1, x2, x3,…, xn−1, xn
(2)其中xn和x1为可疑值,确定极端值差,即xn−x1
(3)算出可疑值与其邻近值的差xn−xn−1
(4)计算Q值:
或 (9)
(5)根据测定次数n和所要求的置信度,查表8得Q基准;
表8 不同置信度下舍弃可疑数据的Q基准值
(6)若Q>Q基准,则舍去异常值,否则保留。
例:在洗涤剂去污力评价测定中,测得白度差值分别为12.62、12.30、11.62、12.54,在置信度90%的情况下,对上述数据做置信度检验。
(1)将数据按从小到大的次序排列:11.62、12.30、12.54、12.62;
(2)其中11.62和12.62为可疑值,确定极端值差为12.62−11.62=1.00;
(3)算出可疑值与其邻近值的差;
(4)计算Q值:
Q1=(12.30−11.62)/1.00=0.68
Q2=(12.62−12.54)/1.00=0.08
(5)根据测定次数4次和所要求的置信度90%,查表8得Q基准=0.76;
(6)Q1(Q2)<Q基准,因此可疑数据有效,无需舍去。
2.拉伊达准则
拉伊达(Pau Ta)准则又称3σ准则,它的理论基础是正态分布理论。该准则认为:凡残余误差大于三倍标准偏差的误差就是粗大误差,相应的测量值就是坏值,应予以舍弃。其数学表达式为:
(10)
式中 xb——坏值;
vb——坏值的残余误差;
——包括坏值在内的全部测量值的算术平均值;
σ——测量列的标准偏差。
拉伊达准则方法简单,无需查表,便于应用,但在理论上不够严谨,只适用于重复测量次数较多(n>50)的场合。若测量次数不够多,使用拉伊达准则就不可靠,一般无法从测量列中正确判别出坏值来。
3.格拉布斯准则
格拉布斯(Grubbs)准则的计算量较大,但在理论上比较严谨,它不仅考虑了测量次数的影响,而且考虑了标准差本身存在误差的影响,被认为是较为科学和合理的,可靠性高,适用于测量次数比较少而要求较高的测量列。该准则认为,凡残余误差大于格拉布斯鉴别值的误差就是粗大误差,相应的测量值就是坏值,应予以剔除。其数学表达式为:
(11)
式中 xb——坏值;
vb——坏值的残余误差;
——包括坏值在内的全部测量值的算术平均值;
σ——测量列的标准偏差;
G(n, Pa)——格拉布斯临界系数,[G(n, Pa)]σ为格拉布斯鉴别值,它与测量次数n 和取定的置信概率Pa有关。表9给出了对应不同测量次数n和不同置信概率Pa的格拉布斯临界系数G(n, Pa)。
表9 格拉布斯(Grubbs)临界系数G(n, Pa)
应用格拉布斯准则时,先计算测量列的算术平均值和标准偏差;再取定置信概率Pa,根据测量次数n查出相应的格拉布斯临界系数G(n, Pa),计算格拉布斯鉴别值[G(n, Pa)]s;将各测量值的残余误差vbi与格拉布斯鉴别值相比较,若满足格拉布斯公式,则可认为对应的测量值xbi为坏值,应予剔除;否则xbi不是坏值,不予剔除。
二、有效数字及其运算法则
实验中,为了获取准确的结果,不仅需要精确地测量,还需要正确地记录和计算数据。因此,实验数据的记录和计算,要根据测量仪器的精度、分析方法的准确度来决定,这就涉及有效数字的概念。
(一)有效数字的概念
有效数字指仪器实际能够测得的数字,它由准确数字和一位欠准确数字组成。显然,在有效数字中,只有最末一位数字是欠准确的,亦称可疑数字,其余数字都是准确的。一个数的全部有效数字所占有的位数称为该数的有效位数,有效位数直接反映了仪器测量的精度。
(二)有效位数判定
数据处理过程中,数据应取多少位有效数字,应根据下述的有效位数判定准则来确定。
(1)数字“0”是否是有效数字的判定准则是:处于数中间位置的“0”是有效数字;处于第一个非零数字前的“0”不是有效数字;处于数后面位置的“0”则难以确定,这时应采用科学记数法。例如,120000可以写成1.2×105,其有效数位是2位,乘号后面的数字不包含在有效数位中。
(2)对pH、lgK等对数数值,有效数字仅由小数部分的位数决定,整数部分只起定位作用。例如,pH=2.23,其有效数字为2位,而不是3位。
(3)实验数据中的单位可以改变,但有效数字的位数不能任意改变。例如,1.05kg改为以g为单位时,应写成1.05×103g,不能写成1050g。
(4)对不需要标明误差的数据,确定有效位数时应取最末一位数字为可疑数字;对需要标明误差的数据,其有效位数应取到与误差同一数量级。
(5)测量误差的有效位数应按仪器的精度来确定,例如电子天平仪器精度0.0001g,实际数据10.2580g,则有效位数为6位。
(三)有效数字的运算法则
在进行有效数字计算时,各分量数值的大小及有效数字的位数不一定相同,而且在运算过程中,有效数字的位数会越乘越多,除不尽时有效数字的位数也会无止境,即便是使用计算器,也会遇到中间数的取位问题以及如何更简洁的问题。为了不作徒劳的运算,尽量简化有效数字的运算,达到不因计算而引进误差和影响结果,通常约定下列规则。
1.有效数字的修约
根据有效数字的运算规则,为使计算简化,在不影响最后结果应保留有效数字的位数(或欠准确数字的位置)的前提下,可以在运算前、后对数据进行修约,其修约原则是“四舍六入五留双”。“五留双”是指尾数正好为5时若5后面数字不为零则一律进位、若5后面的数字为0时,采用5前是奇数则进位,偶数则舍去。例如,将下列数字修约为4位有效数字:
11.2843→11.28;11.2863→11.29;11.2852→11.29;11.2850→11.28;11.2750→11.28;11.275→11.28。
一般中间运算过程中要多保留一位有效数字。且在修约数字时,只允许对原数据一次修约到所需位数,不能逐次修约。
2.加减法运算
多个数据进行加法或减法运算时,其和或差的有效数字以参与运算的各个数据中小数点后位数最少的为准。因此,几个数据的加减法运算时,可先将多余数修约,将应保留的欠准确数字的位数多保留一位进行运算,最后结果按保留一位欠准确数字进行取舍。这样可以减小繁杂的数字计算。例如:
5.282+22.35−0.0125=5.28+22.35−0.01=27.62
3.乘除法运算
用有效数字进行乘法或除法运算时,乘积或商的结果的有效数字的位数与参与运算的各个量中有效数字的位数最少者相同。例如:
25.34×0.0125×1.00528=25.3×0.0125×1.01=0.319
4.乘方和开方运算
有效数字的位数与其底数的有效数字的位数相同。
此外,自然数1、2、3、4、…不是测量而得,不存在欠准确数字;而无理常数如π、、、…的位数可以看成无限多位有效数字,不能根据它们来确定计算结果的有效数字。
三、实验数据处理
实验所得的结果最初是以数据的形式来表达和记录的,所谓数据处理就是要用简明而严格的方法提炼出实验数据所代表的事物的内在规律性。通过了解和建立各变量之间的定量关系,结合分析实验现象,借助于不同的数据处理方法,找出规律,是从获得数据到得出结果的加工过程。数据处理包括记录、整理、计算、分析、拟合等多种处理方法,本节将对实验中最常用的列表法和作图法以及简单的计算机处理法做一些介绍。
(一)列表法
列表法是记录数据的基本方法,其形式紧凑、实验结果一目了然,且不会丢失数据,便于查对。数据列表通常是整理数据的第一步,为绘制曲线图或者建立经验公式打下基础。一张完整的表格应该包含表格的序号、名称、项目、说明及数据来源等,设计和记录表格一般有如下要求:
(1)列表要简单明了,便于一目了然地看出有关变量之间的关系,方便记录、运算处理数据和检查处理结果。
(2)列表要标明符号所代表的物理量的意义,并写出数据所代表物理量的单位及量值的数量级。单位一般写在符号标题栏,不能重复记在各个数值上。
(3)列表的形式不限,根据具体情况,决定列出哪些项目。除原始数据外,计算过程中的一些中间结果和最后结果也可以列入表中。
(4)表格记录的测量值和测量偏差,应正确反映所用仪器的精度,即正确反映测量结果的有效数字。
(二)作图法
用作图法处理实验数据是数据处理的常用方法之一,它能直观地反映出数据中的极值点、转折点、周期性、变化率及变化趋势等特性,便于比较实验结果,显示数据之间的对应关系,揭示数据之间的联系,建立关系式。将实验数据用几何图形表示出来,可以在不知数学表达式的情况下进行微积分运算,因此在数据处理中得到广泛应用。在作图中要注意以下几点:
(1)作图的关键是合理选择坐标,坐标选择不当,会掩盖数据的本来面目而无法得到可靠的结果,甚至会导致错误的结论。
(2)选择坐标类型的一般原则是尽可能使函数的图形线性化,尽可能使图形呈现线性函数关系y=a+bx。例如指数函数y=abx可以转化为lny=lna+xlnb,形式上与Y=A+BX一致,幂函数y=axb可以转化为lny=lna+blnx,亦符合Y=A+BX的形式。
(3)坐标比例应当根据所测得的有效数字和结果的需要来确定,原则上数据中的可靠数字在图中应当标出。
(4)除特殊需要外,数值的起点一般不必从零开始,X轴和Y轴的比例可以不同,使作出的图形大体上能充满整个坐标空间,图形布局美观、合理。
(5)一般以自变量为横轴,因变量为纵轴,注明所示物理量的名称,单位。坐标轴上要注意有效位数。
(6)根据测量数据,需要在一张图纸上画出几条实验曲线时,每条图线应当用不同的标记如“○”“· ”“U”“Δ”等符号标出,以免混淆。
(7)由于每个实验数据都有一定的误差,所以将实验数据点连成直线或光滑曲线时,应尽可能多地通过所描的点,对于不能通过的点,应尽可能使数据点均匀分布在图线的两侧,尽可能使两侧所有点到曲线的距离之和最小并且接近相等。对个别偏离很大的点,应当应用异常数据剔除法中介绍的方法进行分析,决定是否舍去。原始数据点应保留在图中。
(8)在图纸下方或空白的明显位置处,写上图的名称、作者和作图日期,有时还要附上简单的说明,如实验条件等,使读者一目了然。
(三)用计算机进行数据处理
计算机技术发展一日千里,其在现代实验技术中的应用具有无可比拟的优势,传统实验技术和数据处理方法正逐渐被取代。应用计算机进行数据处理的方法称为计算机法,具有速度快、精度高的优点,通过相应软件可以快速得到数据处理的结果,直观性强,减轻人们处理数据的工作量。例如在一些平均值、相对误差、绝对误差、标准误差、线性回归、数据统计等方面的数值计算,常用函数计算,定积分计算,曲线拟合,数据作图等方面都可以通过计算机来处理。化学化工实验数据处理中常用的软件有SAS、MATLAB、EXCEL、Origin等,其中EXCEL软件是最常用的办公软件,具有处理速度快,方便易用、功能强大的优点,在实验数据处理中得到广大化工人的欢迎。该软件的数据分析功能不仅可以给出选定数据的各项统计参数,还可以对选定数据作图。例如:
气升式环流反应器流体力学及传质性能的测定实验中,采用动态氧浓度法来测定气升式环流反应器的液相氧体积传质系数KLa,得到如表10所示的数据。
表10 气升式环流反应器的液相氧体积传质系数KLa随时间的变化
去掉无意义数据,以t为横坐标、KLa·t为纵坐标作图,用“图表向导”——选“X、Y散点图”作带平滑线的散点图如图2所示。
图2 气升式环流反应器液相氧体积传质系数KLa随时间的变化(全程)
观察所作图形,选定线性较好部分(t=28s至t=142s)的数据再次作图。在线性较好的直线上点左键,再点右键;选“添加趋势”,选“显示公式”“显示R2”得拟合的直线方程(如图3):其斜率就是KLa=0.0173s−1。
图3 气升式环流反应器液相氧体积传质系数KLa随时间的变化(线性段)
另一个非常有用的数据处理工具是Excel-工具中的规划求解功能。其基本功能是,设置一个目标单元格,设定一个或几个可变单元格,然后改变可变单元格中的参数,使目标单元格中的数据达到最大值,或者最小值,或者指定的某个数值,于是计算机通过运算和作图,最终确定可变参数的取值。
运用这一功能可以方便地求方程的数值解。例如,在研究混合表面活性剂的
协同效应时,需要从下述方程中求解(组分1在界面的摩尔分数):
(12)
已知在0和1之间,其余都是已知数。为了求出,最简便的方法是用试差法,设定一个的取值,例如0.001,按式(12)计算出结果,按步长=0.001,
每次增加一个步长,直至计算结果为1或者最接近1。
为了获得精确的取值,可以借助于规划求解功能。方法是设定为可变单
元格,然后分别计算式(12)左边的分子(记为y1)和分母(记为y2),取y=(y1/y2)作为目标单元格,并设定其目标值为1。于是选定目标单元格,点击求解,计算
机自动改变的取值,直到y=1时停止,很快求得的取值。为了防止出错,可以先用试差法得到一个粗略的,再利用规划求解获得精确值。
规划求解的另一个重要功能是确定数学模型的参数。例如表面活性剂能够降低水的表面张力,于是水溶液的表面张力γ(mN/m)随表面活性剂浓度c(mol/L)的增加而降低,直至临界胶束浓度CMC。理论上,γ与c的关系符合Szyszkowski公式:
(13)
式中,为纯水的表面张力;R为通用气体常数;T为热力学温度;为
表面活性剂的饱和吸附量,mol/cm2;K为与吸附自由能相关的常数;n为表面活性剂分子在水中能产生的浓度随c而变化的质点数目。如果把式(13)看作是一个数学模型,那么浓度c是自变量,溶液的表面张力 γ 是函数,和K为两个未知参数,其余为常数。
当我们合成了一个表面活性剂并纯化后,常常通过测定表面张力随浓度的变化来获得相关的表面活性参数,其中包括关键的参数和K。传统的方法是测定表面张力,作γ-lgc图,沿曲线在不同的浓度点做切线,求斜率dγ/dlgc,从Gibbs公式:
(14)
计算得到不同浓度时的吸附量Γ,再将Langmuir方程:
(15)
变形为:
(16)
以(1/Γ)对(1/c)作图,最后从斜率和截距获得和K两个参数,过程复杂,误差大,尤其是作图求斜率时会引入较大的误差。
利用Excel的工具中的规划求解功能,可以容易地获得这两个参数。以十二烷基硫酸钠(SDS)为例,首先测定溶液的表面张力随浓度的变化,得到一组原始数据,如表11第一列和第二列所示。按式(13)计算表面张力(25℃下=72mN/m,R=8.314J/(mol·K),如表11第三列所示,其中两个参数分别取值2´10−10mol/cm2和3´103L/mol,可见由于参数取值不精确,计算值与测量值之间存在较大误差,将两者的绝对值(也可以是误差的平方),列入第四列,并计算各点的误差绝对值之和,作为目标单元格,可见误差绝对值之和为82.18,很大。将测量值和计算值分别对浓度c作图,如图4所示,可见计算值(线)与测定值(点)之间有较大偏差。
表11 十二烷基硫酸钠(SDS)水溶液的表面张力测定和数据处理(未应用规划求解)
图4 25℃下SDS水溶液的表面张力测定值和计算值的比较(应用规划求解前)
点为测定值,线为计算值
选定目标单元格(82.18),进行规划求解(结果见表12)。设定其值为最小,以可调参数(1)和可调参数(2)为可变单元格,点击“求解”,计算机自动调正两个参数的大小,直至误差之和为最小(6.81),相应地,图4变成了图5,计算值与测定值几乎重合。此时两个参数的取值分别为3.487572和5.14723,即得=3.49´10−10mol/cm2和K=5.15´103L/mol。而SDS饱和吸附量的文献值为=3.3´10−10mol/cm2。注意,可变单元格中的数据最好在1~10之间,以提高计算的灵敏度。
表12 十二烷基硫酸钠(SDS)水溶液的表面张力测定和数据处理(应用规划求解)
图5 25℃下SDS水溶液的表面张力测定值和计算值的比较(应用规划求解)
点为测定值,线为计算值
灵活应用这一方法可以对各种数学模型求取参数。求取一个参数或两个参数时效果良好,但注意同时求取更多参数时,所得结果不一定是最佳值,毕竟计算次数有限。在这种情况小,应充分利用已知条件,减少待定参数的数量。