DOi:10.13590/j.cjfh.2017.02.005
小麦中元素含量相关性分析的方法比较
任鹏程1,苏亮1,刘卿1,伍鹏程2,杨大进1

(1.国家食品安全风险评估中心,北京100022; 2.首都经济贸易大学安全与环境工程学院,北京100070)

作者简介: 任鹏程男助理研究员研究方向为食品安全信息化 E-mail:renpengcheng@cfsa.net.cn
通信作者: 杨大进男研究员研究方向为食品安全风险监测 E-mail:yangdajin@cfsa.net.cn

收稿日期: 2016-12-15

基金项目: 国家食品安全风险评估中心青年基金项目

摘要:目的 建立小麦中元素含量相关性分析方法,并比较其相关性。研究对象为小麦中钡、钒、镉、锂、铝、锰、铅、铜、硒、铬、砷共11种元素。方法基于皮尔森相关系数法和偏相关系数法,建立小麦中11种元素的相关性分析,并对两种方法及结果进行比较。结果两种方法均能从数据中发现多种元素间的相关关系,并在运算复杂度、反映信息等方面各有特点:其中皮尔森相关系数法运算量较小,但反映的信息也较少;偏相关系数法的计算量和反映信息量都大于皮尔森相关系数。结论在当前的数据和软硬件条件下,建议采用偏相关系数进行小麦元素含量的相关性分析。
关键词:  小麦; 元素; 相关性分析; 食品污染物; 统计学; 皮尔森相关系数法; 偏相关系数法
文章编号:1004-8456(2017)02-0140-05     中图分类号: R155     文献标识码:A
Method comparison of correlation analysis of element content in wheat
REN Peng-cheng1, SU Liang1, LIU Qing1, WU Peng-cheng2, YANG Da-jin1

(1.China National Center for Food Safety Risk Assessment,Beijing 100022,China; 2.School of Safety and Environmental Engineering,Capital University of Economics and Business, Beijing 100070,China)

2016-12-15

Abstract: Objective To construct and compare the methods for correlation analysis of different elements in wheat, including barium, vanadium, cadmium, lithium, aluminum, manganese, lead, copper, selenium, chromium, and arsenic. MethodsPearson correlation coefficient and partial correlation coefficient were applied and compared to analyze the correlation among the 11 elements in wheat. ResultsBoth of the methods could find the correlations among various contaminants from the data and had their own characteristics on computational complexity, information reflection and other aspects: Pearson correlation coefficient method need less calculation, but also reflected less information; partial correlation coefficient reflected more information but need more samples and computing resources. Under the current data and software and hardware conditions, the correlation analysis of the partial correlation coefficient was proposed.
Key words:  Wheat; element; correlation analysis; food contaminants; statistics; Pearson correlation coefficient; partial correlation coefficient
        小麦中含有多种元素,这些元素的摄入对人体健康有很大影响。从含量上看,不同元素间可能存在着相当复杂的相关性。相关性分析是食品污染物数据分析的一个重要方面[1-2],其通过对食品污染数据的深度挖掘,发现食品污染物间的相关关系以及背后隐藏的同源性或相互作用。在小麦中元素含量的相关性分析方面,一些学者已经做了相关研究及应用。鲁璐[3]分析了小麦中微量元素含量与土壤中微量元素含量的相关性;张勇等[4]分析了小麦籽粒中包括铁、锌、锰、铜等微量元素与钙、镁、钾、磷、硫等常量元素在内的主要矿物质元素含量的相关性。上述的研究主要针对少数几种元素,分析方法较为单一,只能得出一些相对简单的相关性分析结果;因此,针对多种元素含量之间的相关性,需要对其统计分析方法进行专门研究或比较。
        本文采用皮尔森相关系数法和偏相关系数法[5-10]两种相关性分析方法对监测数据进行多元素分析,通过比较两种方法的特点和可行性、可靠性,揭示污染的金属元素间的相关关系,为溯源分析和预警提示提供线索。
1材料与方法
1.1材料
        小麦的元素含量为2015年全国13个省小麦中元素的监测数据,共有1 171份样品,涉及钡、钒、镉、锂、铝、锰、铅、铜、硒、铬和砷共计11种元素。
1.2方法
1.2.1皮尔森相关系数
        皮尔森相关系数可以定量描述食品中两种元素(设为X、Y)含量间线性关系的密切程度和相关方向[11]。皮尔森相关系数的计算公式为:
                                                                            
        通过皮尔森相关系数得出的相关性,可以用t检验来检验其显著性。原假设:相关系数为0,检验的统计量为:
                                                                            
        式中,Sr为样本相关系数r的标准误,Sr=1-r2n-2,H0成立时,tr服从自由度为v=n-2的t分布。检验时,若检验的P>0.05,不拒绝原假设,即认为两种元素含量之间无相关性;若检验的P≤0.05,拒绝零假设,接受备择假设,即认为两种元素含量间的相关性差异有统计学意义[11-14]
1.2.2偏相关分析
        偏相关系数可以发现某两种元素含量之间纯粹的相关性,通过变量控制的方法,去除其他元素对这两种元素相关性的影响。在分析变量x1和x2之间的相关性时,当控制了变量x3的线性作用后,x1和x2之间的偏相关系数定义为:
                                                                               
         式中r12是变量x1和x2的相关系数,r13是变量x1和x3的相关系数,r23是变量x2和x3的相关系数[15]
        同样,用样本计算的偏相关系数仍需要显著性检验,原假设:偏相关系数为0,检验的统计量是:
                                                                          
         式中,r是特定的偏相关系数,n为观测值个数,k为控制变量个数,n-k-2为自由度[15-17]。 
2结果与分析
2.1皮尔森相关系数结果分析
        鉴于皮尔森相关系数方法的简洁性,首先采用这种方法分析小麦中元素含量的相关性。对于小麦中11种元素含量计算皮尔森相关系数,结果见表1。对计算得出的皮尔森相关系数做显著性检验,得到t统计量的值和P值,见表2、3。结果显示(显著性水平α为0.05),小麦的各个元素含量之间没有明显的负相关。小麦的各个元素中,正相关性很强的元素对包括:钡-锰、镉-铅、铝-锂、铝-铜、铝-铬、铅-硒、铜-硒、铜-铬,共8对。其余各项元素之间相关性差异无统计学意义(P>0.05)。
表1小麦中元素的皮尔森相关系数
Table 1Pearson correlation coefficients of elements of the wheat    
表2皮尔森相关系数显著性检验的t统计量值
Table 2T-values of significance test of the Pearson correlation coefficients    
表3皮尔森相关系数显著性检验的P
Table 3P-values of significance test of the Pearson correlation coefficients    
图1小麦元素含量相关性雷达图
Figure 1Radar map of the correlation of the amounts 
of elements of the wheat    
2.2偏相关系数结果分析
        在实际情况中,小麦中通常会含有两种以上的元素,计算食品中两种元素含量的皮尔森相关系数时会受其他元素含量的影响,从而使真正的相关性扩大或缩小。而偏相关系数可以去除其他含量的影响,发现某两种元素含量之间纯粹的相关性;因此采用偏相关系数方法做进一步分析。经过计算得出的小麦中两种元素含量的偏相关系数见表4。对计算得出的偏相关系数做显著性检验,得到t统计量的值和P值,结果见表5、6。显著性水平α为0.05,通过t检验,偏相关系数呈较强正相关的有锰-钡、铅-镉,相关系数分别为0.949、0.919,其余各项元素之间没有相关性。与皮尔森相关系数相比,输出结果的形式大致相同,但分析结果有差异,其中,铝-锂、铝-铜、铝-铬、铅-硒、铜-硒、铜-铬的相关性差异无统计学意义(P>0.05)。可见上述6对元素的皮尔森相关系数较高,是由其他元素的多重相关性造成的。事实上这些元素之间只存在伪相关,没有真正的高度相关性。
3讨论
        在分析食品中元素的相关性时,首先采用了皮尔森相关系数方法。该方法十分简洁,结果也容易理解。但是,由于元素之间可能存在的多重相关性,皮尔森相关系数可能会错误估计元素之间的相关性强弱。有鉴于此,本文又采用了偏相关系数方法。该方法直接计算两种元素之间的相关性,排除了其他所有元素的影响,从而也排除了多重相关性的影响,得到两种元素之间更为准确的相关性度量。数据实证分析表明,偏相关系数法发现了一些元素之间的伪相关现象,而皮尔森相关系数却会把这种伪相关当成真实的高度相关;因此皮尔森相关系数和偏相关系数各有优缺点。
表4小麦中元素含量偏相关系数
Table 4Partial correlation coefficients of elements of the paddies    
表5偏相关系数显著性检验的t统计量值
Table 5T-values of significance test of the partial correlation coefficients    
表6偏相关系数显著性检验的P
Table 6P-values of significance test of the partial correlation coefficients    
参考文献
[1]梁建秀.向量组的线性相关性的若干应用[J].高等数学研究,2015,18(6):13-15.
[2]陆建良,梁月荣,龚淑英,等.茶汤色差与茶叶感官品质相关性研究[J].茶叶科学,2002,22(1):57-61.
[3]鲁璐.小麦中微量元素锌铁硒的含量的分析[D].四川:中国科学院成都生物研究所,2008:27-30.
[4]张勇,王德森,张艳,等.北方冬麦区小麦品种籽粒主要矿物质元素含量分布及其相关性分析[J].中国农业科学,2007,40(9):1871-1876.
[5]蔡力钢,李广朋,程强,等.基于粗糙集与偏相关分析的机床热误差温度测点约简[J].北京工业大学学报,2016,42(7):969-974.
[6]武阿璟.互联网发展和技术创新能力的偏相关分析[J].机械制造,2011,49(3):71-74.
[7]KENETT D Y,TUMMINELLO M,MADI A,et al.Dominating clasp of the financial sector revealed by partial correlation analysis of the stock market[J].PLoS One,2010,5(12):e15032.
[8]江丽杰,胡镜清,易丹辉,等.缺血性中风病中医证候要素动态变化与NIHSS评分变化相关性的贝叶斯网络分析[J].世界中医药,2013,8(6):613-617.

[9]许洪国,张慧永,宗芳.交通事故致因分析的贝叶斯网络建模[J].吉林大学学报(工学版),2011,41(S1):89-94.
[10]SILANDER T,MYLLYMAKI P.A simple approach for finding the globally optimal Bayesian network structure[J].UAI,2006:1-8.
[11]汪朋.统计学:基于Excel和R语言[M].北京:电子工业出版社,2015:31-37.
[12]张玉平,董昌州.向量组的线性相关性证明方法初探[J].教育教学论坛,2015(16):201-202.
[13]张沛华.判定向量组线性相关性的若干方法[J].教育教学论坛,2013(19):167-168.
[14]YAIR O,TALMON R.Local canonical correlation analysis for nonlinear common variables discovery[J].ArXiv,2016(6):1-11.
[15]贾俊平,何晓群,金勇进.统计学[M].北京:中国人民大学出版社,2000:57-59.
[16]WANG Y K,KANG J,KEMMER P B,et al.An efficient and reliable statistical method for estimating functional connectivity in large scale brain networks using partial correlation[J].Front Neurosci,2016,10(22):123
[17]MALEC L.Some remarks on the functional relation between canonical correlation analysis and partial least squares[J].Journal of Statistical Computation and Simulation,2016,86(12):2379-2391.