Alternative models for describing biological variables with non-normality and non-linear performance. Study case

Introduction

⌅

In the scientific community, procedures for modeling linear and non-normal data are known. However, sometimes the variable under study may have non-linear performance and not be normally distributed. This case has occurred with biological growth variables, which are characterized by having three phases: 1) acceleration, 2) deceleration and 3) linear or asymptotic (Ortega-Monsalve et al. 2021Ortega-Monsalve, M., Velásquez-Henao, A.M., Ortiz-Acevedo, A., Galeano-Vasco, L.F. & Medina-Sierra, M. 2021. Ajuste a un modelo matemático, comparación de las curvas de crecimiento y características morfológicas de cuatro Urochloas de una colección in vivo establecida en Antioquía, Colombia. Revista de Investigaciones Veterinarias del Perú, 32(5): 1-7, ISSN: 1609-9117. https://doi.org/10.15381/rivep.v32i5.19678.). This performance can be described with non-linear models. However, another possibility could be the use of segmented linear regressions, where each segment is related to a growth phase.

Whitlock and Schluter (2009)Whitlock, M.C. & Schluter, D. 2009. The Analysis of Biological Data. Roberts and Company Publishers, Greendwood Village, Colorado, USA. suggested three possible alternatives to analyze biological variables that do not fulfill with normality, but they assume randomness and independence: 1) ignore the non-compliance with the premises, 2) transform the data and 3) use non-parametric methods. These include those that use the probability density function of the data distribution: the maximum likelihood and restricted maximum likelihood methods (Gomez-Mejia 2021Gomez-Mejia, A. 2021. Modelo de máxima verosimilitud. Libre Empresa, 17(2): 121-138, ISSN: 1657-2815. https://doi.org/10.18041/1657-2815/libreempresa.2020v17n2.8027. ). For its application, a function that links the population mean with the linear predictor of the observations is needed. The link function can be non-linear and varies depending on the probabilistic distribution to which the response variable is fitted, which must belong to the exponential family (Mesa-Fúquen et al. 2021Mesa-Fúquen, E., Hernández, J.S. & Camperos, J.E. 2021. Uso de modelos lineales generalizados en el conteo de Leptopharsagibbicarina (Hemiptera: Tingidae) en palma de aceite. Revista Colombiana de Entomología, 47(1): 2-5, ISSN: 2665-4385. https://doi.org/10.25100/socolen.v47i1.7661.).

Programs such as R and SAS allow studying models with variables that do not follow a normal distribution (Hernández et al. 2021Hernández, A.Á., García-Munguía, C.A., García-Munguía, A.M., Valencia-Posadas, M., Ruiz, J.H. & Velázquez-Madrazo, P.A. 2021. Tipificación y caracterización del sistema de producción del cerdo criollo de la Región Centro, México. Ecosistemas y Recursos Agropecuarios, 8(2): 37, ISSN: 2007-901X. https://doi.org/10.19136/era.a8n3.2777. ). The SAS includes the GENMOD, GLIMMIX, and NLMIXED procedures. The latter is designed to handle functions dependent on general conditional means, whether they contain a linear component or not. However, the appropriate way to treat non-normal and non-linear variables is to use link functions that relate the population mean with the non-linear predictors (Bono et al. 2023Bono, R., Alarcón, R., Arnau, J., García-Castro, F.J. & Blanca, M.J. 2023. Robustez de los Modelos Lineales Mixtos Generalizados para diseños Split-Plot con datos binarios. Anales de Psicología, 39(2): 332-343. ISSN: 1695-2294. https://doi.org/10.6018/analesps.527421.). But will link functions, used to model generalized linear models (GLMs), be useful if the predictor is non-linear? Is it appropriate to model non-linear data using a segmented linear model that allows using the GLM procedures? Violating the assumption of normality can be an option? These questions lead to look for alternatives for modeling non-normal and non-linear biological variables through a case study. Hence, the objective of this study.

Materials and Methods

⌅

Experimental procedure: Data were selected from an experiment conducted at the Instituto de Ciencia Animal (ICA) in 2018. The IVGP production technique proposed by Theodorou et al. (1994)Theodorou, M.K., Williams, B.A., Dhanoa, M.S., McAllan, A.B. & France, J. 1994. A simple gas production method using a pressure transducer to determine the fermentation kinetics of ruminant feeds. Animal Feed Science and Technology, 48: 185-197, ISSN: 0377-8401. https://doi.org/10.1016/0377-8401. was used. The IVGP was measured at 3, 6, 9, 12, 15, 18, 21, 24, 29, 48, 72, 77, and 144 h. The IVGP data of silage were used, with 50% OM-22, 50% moringa and Lactobacillus pentosus.

Statistical analysis: For the non-parametric statistical analysis, three elements proposed by Bandera and Pérez (2018)Bandera, E. & Pérez, L. 2018. Los modelos lineales generalizados mixtos. Su aplicación en el mejoramiento de plantas. Cultivos tropicales, 39(1): 127-133, ISSN: 1819-4087. https://ediciones.inca.edu.cu/index.php/ediciones/article/view/1437/2302. were used:

distribution function of the variable, each result of the dependent variable "Y" is generated from a particular distribution of the exponential family (normal, binomial, Poisson, gamma, among others)
a predictor η=(Xβ), which can be linear or non-linear, where Xβ is the predictor, a linear or non-linear combination of unknown parameters.
a link function g, such that E (Y) = µ = g^-1 (η), where:
- E (Y): expectation of the dependent variable.
- µ: mean of the dependent variable.
- g^-1 (η): inverse of the link function evaluated at the “linear” or “non-linear” predictor.

Table 1 shows the equations used to fit the experimental data. The logistic and linear models were used, as they are the most widely used in the agricultural field (García Ávila et al. 2022García Avila, Y., Herrera Villafranca, M., Rodríguez Hernández, R., & Ontivero Vasallo, Y. 2022. Evaluación de modelos no lineales y no lineales mixtos para describir la cinética de producción de gas in vitro de alimentos para rumiantes. Cuban Journal of Agricultural Science, 56(1): 1-9, ISSN: 2079-3480. https://www.cjascience.com/index.php/CJAS/article/view/1040/.). Two analyses were performed: the first ignored the lack of normality of the IVGP variable, while the other considered the non-compliance with this assumption

Table 1. Mathematical models used to describe the kinetics of IVGP

Models	Mathematical equation
Logistic Schofield et al. (1994)Schofield, P., Pitt, R.E. & Pell, A.N. 1994.Kinetics of fiber digestion from in vitro gas production. Journal of Animal Science, 72(11): 2980-2991, ISSN: 1525-3163. https://doi.org/10.2527/1994.72112980x.	$IVGP (t) = \frac{b}{1 + e^{(2 - 4 c (t - L))}}$
Segmentally linear	$IVGP (for t \leq T_{1}) = V_{1} t + F_{1}; (Phase 1)$ $IVGP (f o r T_{1} < t \leq T_{2}) = V_{2} t + F_{2}; (Phase 2)$ $IVGP (f o r t > T_{2}) =$ b; $(Phase 3)$

IVGP: in vitro gas production at time t (mL g^-1OM incubated), c: IVGP rate (h^-1), t: fermentation time (h), L: Lag phase (h), b: asymptote when t -> ∞ (ml g^-1OM incubated), t₁, t₂ critical points that mark the beginning of the second and third phases of IVGP, respectively_. V₁ and V₂ average velocities of the first and second phases; F₁ and F₂: approximate IVGP at the beginning of the first and second phases.

Taking into account the performance of the IVGP over time, a break point was considered equivalent to an inflection point. When a curve reaches an inflection point, it is because its concavity has changed. The IVGP is the point where the curve transitioned from one phase to another. The ProGas v1.1 program was used to determine these inflection points (García et al. 2022García, Y., Torres, M. & Rodríguez, R. 2022. ProGas v1.1: Programa para el pre-procesamiento y análisis de datos de producción de gas in vitro de alimentos para rumiantes. Nota técnica. Cuban Journal of Agricultural Science, 56(2): 105-109, ISSN: 2079-3480. https://www.cjascience.com/index.php/CJAS/article/view/1050/.).

Statistical analyses were mainly performed using the SAS 9.3 (2013)SAS Institute Inc. 2013.SAS/IML 9.3 User’s Guide.SAS Institute Inc., Cary, NC. URL http://www.sas.com/ . The (PROC) UNIVARIATE procedure was used to select the most suitable probability distribution for the data. This procedure evaluated the normal, exponential, and Weibull distributions. The Cramer-von Mises and Anderson-Darling goodness-of-fit tests were used to select the distribution (Zetina-Moguel et al. 2018Zetina-Moguel, C.E., Sánchez y Pinto, I., González-Herrera, R., Osorio-Rodríguez, J.H., Barceló- Quintal, I.D. & Méndez-Novelo, R.I. 2018. Modelación estocástica del nivel freático en pozos de la ciudad de Mérida, Yucatán, México. Ingeniería, 22(2): 25-35, ISSN: 1665-529X. https://www.redalyc.org/journal/467/46758579003/html/.). The estimation of the parameters in the generalized models was performed with PROC NLMIXED. This method uses likelihood estimation techniques. The “log” link function was applied because it is the most commonly used with exponential distributions (Bandera and Pérez 2018Bandera, E. & Pérez, L. 2018. Los modelos lineales generalizados mixtos. Su aplicación en el mejoramiento de plantas. Cultivos tropicales, 39(1): 127-133, ISSN: 1819-4087. https://ediciones.inca.edu.cu/index.php/ediciones/article/view/1437/2302. ). The presence of independence or autocorrelation was tested using the Durbin-Watson (DW) test, according to Rozo (2017)Rozo, A.J. 2017. La educación secundaria y sus dos dimensiones. Efectos del barrio y del colegio sobre los resultados saber 11. Revista de Economía del Rosario, 20(1): 33-69, ISSN: 2145-454X. http://dx.doi.org/10.12804/revistas.urosario.edu.co/economia/a.6148.. The non-parametric Streaks test for the residuals was performed using the IBM-SPSS statistical program, version 22. This test allowed contrasting the hypothesis of a random ordering versus a trend alternative.

The selection of the model with the best fit was made based on the mean square error (MSE), the adjusted coefficient of determination (R²aj), the Akaike and Bayesian information criteria (AIC and BIC, respectively) (Montoya and Quiroz 2021Montoya, E.A.F. & Quiroz, A.B. 2021. Un Enfoque Bayesiano en Modelos Heterocedásticos de Series de Tiempo y su Aplicación en la Volatilidad de Activos Financieros.Pesquimat, 24(2): 1-12, ISSN: 1609-8439. https://doi.org/10.15381/pesquimat.v24i2.21152. ) and the significance of the parameters. Models with lower values MSE, AIC, and BIC were considered better fit, while higher values for R²aj were preferred. The fulfillment of independence and randomness hypothesis of the residual component were also considered.

Results and Discussion

⌅

When evaluating IVGP data with Cramer-von Mises and Anderson-Darling tests, it was observed that the data can be exponentially distributed (table 2). Authors such as Zetina-Moguel et al. (2018)Zetina-Moguel, C.E., Sánchez y Pinto, I., González-Herrera, R., Osorio-Rodríguez, J.H., Barceló- Quintal, I.D. & Méndez-Novelo, R.I. 2018. Modelación estocástica del nivel freático en pozos de la ciudad de Mérida, Yucatán, México. Ingeniería, 22(2): 25-35, ISSN: 1665-529X. https://www.redalyc.org/journal/467/46758579003/html/. used the Kolmogorov-Smirnof, Cramer-von Mises and Anderson Darling goodness of fit tests. In addition, the AIC and BIC information criteria to select the best distribution that their data followed. Finally, they considered that one of the best selection criteria is Anderson Darling's test. In this study, the two tests had similar results.

Table 2. Goodness-of-fit tests to select the probability distribution that best describes the IVGP variable

Probability distribution function for IVGP	Cramer-von Mises test (P value)	Anderson-Darling test (P value)
Normal	P=0.024	P=0.006
Exponential	P=0.056	P=0.050
Weibull	P<0.010	P<0.010

To fit the segmental linear model, the inflection points were calculated. Using the ProGas v1.1 program, it was determined that the IVGP acceleration phase developed during the first 18 h (t₁=18 h), time the maximum IVGP speed was reached. After this time (t>18 h), the deceleration phase began, which lasted until 48 h (t₂=48 h) to begin the linear or asymptotic phase, in which the GPIV stabilized.

Table 3 shows the results after modeling the data considering normal and exponential distribution with a “log” link. The fermentation of IVGP produced an asymptotic value of IVGP, which ranged between 121.03 and 139.06 mL.g^-1OMinc. In models assuming normal IVGP, all parameters were significant (P<0.05). However, when considering that the IVGP had an exponential distribution, the Lag phase (L) and the mean deceleration velocity (V₂) were not significant (P>0.05). The nonparametric fit made difficult to identify the Lag and deceleration phases.

The experimental data showed that after three hours of incubation there was little IVGP, with values below 2 mL.g^-1OMinc, which indicated the existence of a lag phase, where the microorganisms colonize or hydrate the substrate. Also, after 18 h, all models estimated deceleration rate V₂<1.58 mL.g^-1OMinc/h. Authors such as Solís et al. (2023)Solís, C., Ruiloba, M.H., Rodríguez, R. & Marrero, Y. 2023. Dinámica de la fermentación ruminal in vitro de la mezcla integral de camote (Ipomoea batata, l.) presecada y ensilada. Revista Investigaciones Agropecuarias, 5(2): 88-96, ISSN: 2644-3856. https://revistas.up.ac.pa/index.php/investigaciones_agropecuarias/article/view/3899. found that the Lag phase of whole-grain sweet potato mixtures was 2.5 to three hours, while the deceleration phase began after 12 hours.

The evaluation of the logistic model showed problems of residual independence in both analyses (table 3). Autocorrelation, especially in longitudinal data, could be due to that variables that really affect the model have not been included or that the appropriate model has not been chosen (Gómez and Agüero 2020Gómez, M.A. & Agüero, Y. 2020. Ajuste de modelos mixtos no lineales para la descripción de curvas de lactación bovina bajo pastoreo en El Mantaro, Junín, Perú. Revista Investigaciones Veterinarias del Perú, 31(4): 19027, ISSN: 1609-9117. http://dx.doi.org/10.15381/rivep.v31i4.19027. ). Failure to comply with the assumption of independence of errors is a limitation that can lead to biased estimates (Pérez Pelea 2018Pérez Pelea, L. 2018. ¿Cómo proceder ante el incumplimiento de las premisas de los métodos paramétricos? o ¿cómo trabajar con variables biológicas no normales? Revista del Jardín Botánico Nacional, 39: 1-12, ISSN: 2410-5546. https://www.researchgate.net/publication/327752027. ). In this case, the Runs test for randomness showed that the residuals were random, which was contradicted with the residuals graph (figure 1), which showed a trend and lack of randomness. The correlation of the residuals with the nonparametric logistic model may be due to that the “log” link function was not adequate. It is necessary to search for new link functions for nonlinear predictors. However, little is discussed in the literature because no published information on link functions for nonlinear models was found.

The same table shows problems with residual independence. Gómez and Agüero (2020)Gómez, M.A. & Agüero, Y. 2020. Ajuste de modelos mixtos no lineales para la descripción de curvas de lactación bovina bajo pastoreo en El Mantaro, Junín, Perú. Revista Investigaciones Veterinarias del Perú, 31(4): 19027, ISSN: 1609-9117. http://dx.doi.org/10.15381/rivep.v31i4.19027. suggest that, in longitudinal data, autocorrelation could be due to that the model has not included variables that actually affect it or that the appropriate model has not been selected. Pérez Pelea (2018)Pérez Pelea, L. 2018. ¿Cómo proceder ante el incumplimiento de las premisas de los métodos paramétricos? o ¿cómo trabajar con variables biológicas no normales? Revista del Jardín Botánico Nacional, 39: 1-12, ISSN: 2410-5546. https://www.researchgate.net/publication/327752027. refers that the non-compliance of the assumption of independence of errors is a limitation that can lead to biased estimates.

Table 3. Modeling of the data obtained from the experiment where the nutritional value of silage with 50 % OM-22, 50 % moringa and Lactobacillus pentosus was evaluated

Model	Parameters	R²aj %	CME	AIC	BIC	DW	Runs P value
Logistic (Normal distribution)	b= 133.11±2.24, P<0.0001 c=0.04±0.003, P<0.0001 L=9.37±0.78, P<0.0001	92.8	54.38	275	281	1.2	0.004
Segmentally linear t₁=18 t₂=48 (Normal distribution)	V₁=3.2±0.23, P<0.0001 V₂=1.58±0.14, P<0.0001 F₁=-14.0±2.74, P<0.0001 F₂=40.72±4.53, P<0.0001 b=139.06±5.92, P<0.0001	98.9	32.06	250	260	1.7	0.37
Logistic (Exponential distribution and log link function)	b=121.03±1.29, P<0.0001 c= 1.05±0.01, P=0.0029 L=1.7±20.01, P=0.8601	86.4	73.79	377	389	0.62	0.0005
Segmentally linear t₁=18 t₂=48 (Exponential distribution)	V₁=1.26±1.05, P<0.0001 V₂=1.02±1.03, P=0.54 F₁=1.00±1.79, P=0.99 F₂=51.84±2.46, P<0.0001 b=139.04±1.39, P<0.0001	98.8	42.09	372	380	1.5	0.0981

The Streak test showed the randomness of the residuals with probability values above 0.05. However, the results in figure 1 contradicted this test by showing a trend and lack of randomness. The results obtained with the non-parametric logistic model could be due to that the proposed “log” link function was not adequate. It is necessary to search for new link functions for nonlinear predictors. It should be noted that little is reported in the scientific literature about other link functions that relate to different distributions. In the review carried out, there was not information on link functions for the case of nonlinear models.

Figure 1. Residues of the models when the IVGP of silage was evaluated with 50 % OM-22, 50 % moringa and Lactobacillus pentosus and the assumption of normality was violated or not

When normality and the “log” link function were ignored for exponentially distributed data, the results were similar (table 3). However, with segmental linear models, the R²aj were higher and the CMEs were lower. The DW test did not have any problems in fulfilling the assumption of residual independence for these models.Also, the segmental models produced favorable residuals with a random point cloud and no pattern (figure 1). The Streaks test rejected the hypothesis of random performance for the residuals. It is necessary to highlight that the Wald and Wolfowitz (1940)Wald, A. & Wolfowitz, J. 1940. On a Test Whether Two Samples are from the Same Population. The Annals of Mathematical Statistics, 11(2): 147-162, ISSN: 0003-4851. http://dx.doi.org/10.1214/aoms/1177731909. Runs test takes into account the number of runs and their length, ignoring that the runs can be concentrated in specific intervals of the sample, as was the case with the logistic model fitted in this study (figure 1). In this case, it was assumed to have lost power.

The segmental linear model is an option that allows knowing the average speed of phases 1 and 2 of IVGP. In addition, it can be used to estimate the Lag phase by setting the first stage equation to zero: $0 = V_{1} t + F_{1}$ ; where $L a g = - \frac{F_{1}}{V_{1}}$ . Linear equations also estimate the IVGP with which the second phase begins. Knowing the relation between V₁/V₂ is useful for researchers because it allows them to better understand the performance of the substrate under study. Using the phase 3 equation, the asymptotic IVGP can be determined.

Figure 2 shows the performance of the models fitted under the parametric and non-parametric approaches. It was observed that the maximum IVGP estimated by both linear models was 140 mL.g^-1OMInc at approximately 80 h. The segmental linear model best described the IVGP of silage with 50 % OM-22, 50 % moringa and Lactobacillus pentosus. It is incorrect to assume that data are normal when statistical tests show opposite. According to Pérez Pelea (2018)Pérez Pelea, L. 2018. ¿Cómo proceder ante el incumplimiento de las premisas de los métodos paramétricos? o ¿cómo trabajar con variables biológicas no normales? Revista del Jardín Botánico Nacional, 39: 1-12, ISSN: 2410-5546. https://www.researchgate.net/publication/327752027. , a significant deviation from the premises can seriously increase the researcher's chances of committing a type I or type II error, depending on the nature of the analysis, which implies inaccurate results and incorrect interpretations in statistical tests (Zhou Kimbeng 2010Zhou, M.M. & Kimbeng, C.A. 2010. Multivariate repeated measures: A statistical approach for analyzing data derived from sugarcane breeding variety trials. Proceeding sof the South African Sugar Technologists' Association, 83: 92-105, ISSN: 0370-1816. https://www.cabidigitallibrary.org/doi/pdf/10.5555/20113349222.). Since there are no definitive instructions on how to act in each case, a study of the variable must be done before performing any test. When distributions are very far from normal, have outliers, or the distributions of the groups to be compared are very different and have very heterogeneous variances, the failure to meet the assumptions should not be ignored. In these cases, an alternative approach should be used, such as transforming the scale of the variable, use a non-parametric simulation method, or a generalized linear model.

Figure 2. Contrast between the actual IVGP and that estimated by the models when the IVGP of silage was evaluated with 50 % OM-22, 50 % moringa and Lactobacillus pentosus

Conclusions

⌅

It is concluded that the logistic model with the “log” link function to estimate the population mean of the IVGP did not show adequate results. However, the segmental linear model was the one that best described this performance, showing the best R²aj, CME, AIC, BIC, and visually random residuals. In addition, with the segmental linear model, similar results were obtained regardless of the normality of the response variable. The results showed that in certain cases parametric procedures can be used with data that do not comply with normality. However, the consequences of such violations must be taken into account. A segmental linear model is proposed as an alternative to describe the IVGP when the data do not comply with normality.

Introducción

⌅

En la comunidad científica se conocen los procedimientos para modelar datos lineales y no normales Sin embargo, algunas veces, la variable en estudio puede tener un comportamiento no lineal y no distribuir de forma normal. Este caso, se ha dado con variables de crecimiento biológico, que se caracterizan por tener tres fases: 1) aceleración, 2) desaceleración y 3) lineal o asintótica (Ortega-Monsalve et al. 2021Ortega-Monsalve, M., Velásquez-Henao, A.M., Ortiz-Acevedo, A., Galeano-Vasco, L.F. & Medina-Sierra, M. 2021. Ajuste a un modelo matemático, comparación de las curvas de crecimiento y características morfológicas de cuatro Urochloas de una colección in vivo establecida en Antioquía, Colombia. Revista de Investigaciones Veterinarias del Perú, 32(5): 1-7, ISSN: 1609-9117. https://doi.org/10.15381/rivep.v32i5.19678.). Este comportamiento se puede describir con modelos no lineales. No obstante, otra posibilidad podría ser la utilización de regresiones lineales segmentadas, donde cada segmento se relaciona con una fase de crecimiento.

Whitlock y Schluter (2009)Whitlock, M.C. & Schluter, D. 2009. The Analysis of Biological Data. Roberts and Company Publishers, Greendwood Village, Colorado, USA. sugirieron tres posibles alternativas para analizar variables biológicas que no cumplen con la normalidad, pero que sí asumen aleatoriedad e independencia: 1) ignorar el incumplimiento de las premisas, 2) transformar los datos y 3) emplear métodos no paramétricos. Entre estos se encuentran los que utilizan la función de densidad de probabilidad de la distribución de los datos: los métodos de máxima verosimilitud y máxima verosimilitud restringida (Gomez-Mejia 2021Gomez-Mejia, A. 2021. Modelo de máxima verosimilitud. Libre Empresa, 17(2): 121-138, ISSN: 1657-2815. https://doi.org/10.18041/1657-2815/libreempresa.2020v17n2.8027. ). Para su aplicación se necesita de una función que enlace la media de la población con el predictor lineal de las observaciones. La función de enlace (link function) puede ser de tipo no lineal y varía en dependencia de la distribución probabilística a la que se ajuste la variable respuesta, que debe pertenecer a la familia exponencial (Mesa-Fúquen et al. 2021Mesa-Fúquen, E., Hernández, J.S. & Camperos, J.E. 2021. Uso de modelos lineales generalizados en el conteo de Leptopharsagibbicarina (Hemiptera: Tingidae) en palma de aceite. Revista Colombiana de Entomología, 47(1): 2-5, ISSN: 2665-4385. https://doi.org/10.25100/socolen.v47i1.7661.).

Programas como R y SAS permiten estudiar modelos con variables que no siguen una distribución normal (Hernández et al. 2021Hernández, A.Á., García-Munguía, C.A., García-Munguía, A.M., Valencia-Posadas, M., Ruiz, J.H. & Velázquez-Madrazo, P.A. 2021. Tipificación y caracterización del sistema de producción del cerdo criollo de la Región Centro, México. Ecosistemas y Recursos Agropecuarios, 8(2): 37, ISSN: 2007-901X. https://doi.org/10.19136/era.a8n3.2777. ). El SAS cuenta con los procedimientos GENMOD, GLIMMIX y NLMIXED. Este último, diseñado para manejar funciones dependiente de las medias condicionales generales, ya sea que contengan un componente lineal o no. Sin embargo, lo adecuado para tratar variables no normales y no lineales es utilizar funciones de enlace que relacionen la media poblacional con los predictores no lineales (Bono et al. 2023Bono, R., Alarcón, R., Arnau, J., García-Castro, F.J. & Blanca, M.J. 2023. Robustez de los Modelos Lineales Mixtos Generalizados para diseños Split-Plot con datos binarios. Anales de Psicología, 39(2): 332-343. ISSN: 1695-2294. https://doi.org/10.6018/analesps.527421.). Pero, ¿serán útiles las funciones de enlace, utilizadas para modelar modelos lineales generalizados (MLG), en caso de que el predictor no sea lineal? ¿Será conveniente modelar datos no lineales mediante un modelo lineal segmentado que permita utilizar los procedimientos de los MLG? ¿Violar el supuesto de normalidad puede ser una opción? Estas interrogantes conducen a buscar alternativas para modelar variables biológicas no normales y no lineales mediante un estudio de caso. De ahí el objetivo del presente estudio.

Materiales y Métodos

⌅

Procedimiento experimental: Se seleccionaron datos de un experimento que se realizó en el Instituto de Ciencia Animal (ICA) en el 2018. Se utilizó la técnica de producción de PGIV, propuesta por Theodorou et al. (1994)Theodorou, M.K., Williams, B.A., Dhanoa, M.S., McAllan, A.B. & France, J. 1994. A simple gas production method using a pressure transducer to determine the fermentation kinetics of ruminant feeds. Animal Feed Science and Technology, 48: 185-197, ISSN: 0377-8401. https://doi.org/10.1016/0377-8401. . La PGIV se midió a las 3, 6, 9, 12, 15, 18, 21, 24, 29, 48, 72, 77 y 144 h. Se utilizaron los datos de la PGIV del ensilaje, con 50 % de OM-22, 50 % de moringa y Lactobacillus pentosus.

Análisis estadístico: Para el análisis estadístico no paramétrico se utilizaron tres elementos propuestos por Bandera y Pérez (2018)Bandera, E. & Pérez, L. 2018. Los modelos lineales generalizados mixtos. Su aplicación en el mejoramiento de plantas. Cultivos tropicales, 39(1): 127-133, ISSN: 1819-4087. https://ediciones.inca.edu.cu/index.php/ediciones/article/view/1437/2302. :

función de distribución de la variable, cada resultado de la variable dependiente “Y” se genera a partir de una distribución particular de la familia exponencial (normal, binomial, Poisson, gamma, entre otras)
un predictor η= (Xβ), que puede ser lineal o no lineal, donde Xβ es el predictor, una combinación lineal o no lineal de parámetros desconocidos.
una función de enlace g, de modo que E (Y)=µ=g^-1 (η), donde:
- E (Y): esperanza de la variable dependiente.
- µ: media de la variable dependiente.
- g^-1 (η): inversa de la función de enlace evaluada en el predictor “lineal” o “no lineal”.

La tabla 1 muestra las ecuaciones utilizadas para ajustar los datos experimentales. Se utilizaron los modelos logístico y lineal, por ser de los más usados en la esfera agropecuaria (García Ávila et al. 2022García Avila, Y., Herrera Villafranca, M., Rodríguez Hernández, R., & Ontivero Vasallo, Y. 2022. Evaluación de modelos no lineales y no lineales mixtos para describir la cinética de producción de gas in vitro de alimentos para rumiantes. Cuban Journal of Agricultural Science, 56(1): 1-9, ISSN: 2079-3480. https://www.cjascience.com/index.php/CJAS/article/view/1040/.). Se realizaron dos análisis: el primero ignoró la falta de normalidad de la variable PGIV, mientras que el otro consideró el incumplimiento de este supuesto.

Tabla 1. Modelos matemáticos utilizados para describir la cinética de PGIV

Modelos	Ecuación matemática
Logístico Schofield et al. (1994)Schofield, P., Pitt, R.E. & Pell, A.N. 1994.Kinetics of fiber digestion from in vitro gas production. Journal of Animal Science, 72(11): 2980-2991, ISSN: 1525-3163. https://doi.org/10.2527/1994.72112980x.	$PGIV (t) = \frac{b}{1 + e^{(2 - 4 c (t - L))}}$
Lineal por segmentos	$PGIV (para t \leq T_{1}) = V_{1} t + F_{1}; (Fase 1)$ $PGIV (p a r a T_{1} < t \leq T_{2}) = V_{2} t + F_{2}; (Fase 2)$ $PGIV (p a r a t > T_{2}) =$ b; $(Fase 3)$

PGIV: producción de gas in vitro en el tiempo t (mL g^-1MO incubada), c: tasa de PGIV (h^-1), t: tiempo de fermentación (h), L: fase Lag (h), b: asíntota cuando t -> ∞ (ml g^-1MO incubada), t₁, t₂ puntos críticos que marcan el comienzo de la segunda y tercera fase de PGIV, respectivamente. V₁ y V₂ velocidades promedio de la primera y segunda fase; F₁ y F₂: PGIV aproximada a inicio de la primera y segunda fase.

Teniendo en cuenta el comportamiento de la PGIV en el tiempo, se consideró que un punto de quiebre fue equivalente a un punto de inflexión. Cuando una curva tiene un punto de inflexión, es porque cambió su concavidad. La PGIV es el punto donde se transitó de una fase a otra. Para determinar estos puntos de inflexión se utilizó el programa ProGas v1.1 (García et al. 2022García, Y., Torres, M. & Rodríguez, R. 2022. ProGas v1.1: Programa para el pre-procesamiento y análisis de datos de producción de gas in vitro de alimentos para rumiantes. Nota técnica. Cuban Journal of Agricultural Science, 56(2): 105-109, ISSN: 2079-3480. https://www.cjascience.com/index.php/CJAS/article/view/1050/.).

Los análisis estadísticos se realizaron principalmente con el SAS 9.3 (2013)SAS Institute Inc. 2013.SAS/IML 9.3 User’s Guide.SAS Institute Inc., Cary, NC. URL http://www.sas.com/ . El procedimiento (PROC) UNIVARIATE se utilizó para seleccionar la distribución de probabilidad más acertada para los datos. Con dicho procedimiento se evaluaron las distribuciones normal, exponencial y Weibull. Para la elección de la distribución, se utilizaron las pruebas de bondad de ajuste Cramer-von Mises y Anderson-Darling (Zetina-Moguel et al. 2018Zetina-Moguel, C.E., Sánchez y Pinto, I., González-Herrera, R., Osorio-Rodríguez, J.H., Barceló- Quintal, I.D. & Méndez-Novelo, R.I. 2018. Modelación estocástica del nivel freático en pozos de la ciudad de Mérida, Yucatán, México. Ingeniería, 22(2): 25-35, ISSN: 1665-529X. https://www.redalyc.org/journal/467/46758579003/html/.). La estimación de los parámetros en los modelos generalizados se realizó con el PROC NLMIXED. Este utiliza técnicas de estimación por verosimilitud. Se aplicó la función de enlace “log” porque es la que más se emplea con distribuciones exponenciales (Bandera y Pérez 2018Bandera, E. & Pérez, L. 2018. Los modelos lineales generalizados mixtos. Su aplicación en el mejoramiento de plantas. Cultivos tropicales, 39(1): 127-133, ISSN: 1819-4087. https://ediciones.inca.edu.cu/index.php/ediciones/article/view/1437/2302. ). La presencia de independencia o autocorrelación se contrastó con la prueba de Durbin-Watson (DW), según Rozo (2017)Rozo, A.J. 2017. La educación secundaria y sus dos dimensiones. Efectos del barrio y del colegio sobre los resultados saber 11. Revista de Economía del Rosario, 20(1): 33-69, ISSN: 2145-454X. http://dx.doi.org/10.12804/revistas.urosario.edu.co/economia/a.6148.. La no paramétrica de Rachas para los residuos se realizó con el programa estadístico IBM-SPSS, versión 22. Esta prueba permitió contrastar la hipótesis de un ordenamiento aleatorio versus una alternativa de tendencia.

La selección del modelo con mejor ajuste se realizó en función del cuadrado medio del error (CME), el coeficiente de determinación ajustado (R²aj), los criterios de información de Akaike y Bayesiano (AIC y BIC, respectivamente) (Montoya y Quiroz 2021Montoya, E.A.F. & Quiroz, A.B. 2021. Un Enfoque Bayesiano en Modelos Heterocedásticos de Series de Tiempo y su Aplicación en la Volatilidad de Activos Financieros.Pesquimat, 24(2): 1-12, ISSN: 1609-8439. https://doi.org/10.15381/pesquimat.v24i2.21152. ) y la significación de los parámetros. Modelos con menores valores CME, AIC y BIC se consideraron de mejor ajuste a diferencia del R²aj, donde se prefieren los valores más altos. También se consideró el cumplimento de las hipótesis de independencia y aleatoriedad de la componente residual.

Resultados y Discusión

⌅

Al evaluar los datos de PGIV con las pruebas Cramer-von Mises y Anderson-Darling, se observó que los datos se pueden distribuir de forma exponencial (tabla 2). Autores como Zetina-Moguel et al. (2018)Zetina-Moguel, C.E., Sánchez y Pinto, I., González-Herrera, R., Osorio-Rodríguez, J.H., Barceló- Quintal, I.D. & Méndez-Novelo, R.I. 2018. Modelación estocástica del nivel freático en pozos de la ciudad de Mérida, Yucatán, México. Ingeniería, 22(2): 25-35, ISSN: 1665-529X. https://www.redalyc.org/journal/467/46758579003/html/. utilizaron las pruebas de bondad de ajuste Kolmogorov-Smirnof, Cramer-von Mises y Anderson Darling. Además, los criterios de información AIC y BIC para seleccionar la mejor distribución que seguían sus datos. Finalmente, consideraron que uno de los mejores criterios de selección es la prueba de Anderson Darling. En este estudio, las dos pruebas tuvieron resultados similares.

Tabla 2. Pruebas de bondad de ajuste para seleccionar la distribución de probabilidad que mejor describe la variable PGIV

Función de distribución de probabilidad para la PGIV	Test de Cramer-von Mises (valor de P)	Test de Anderson-Darling (valor de P)
Normal	P=0.024	P=0.006
Exponencial	P=0.056	P=0.050
Weibull	P<0.010	P<0.010

Para efectuar el ajuste del modelo lineal por segmentos, se procedió al cálculo de los puntos de inflexión. Con el programa ProGas v1.1 se determinó que la fase de aceleración de PGIV se desarrolló durante las primeras 18 h (t₁=18 h), momento en que se alcanzó la velocidad de máxima PGIV. Pasado este tiempo (t>18 h), comenzó la fase de desaceleración, que duró hasta las 48 h (t₂=48 h) para dar comienzo a la fase lineal o asintótica, en la cual se estabilizó la PGIV.

En la tabla 3 se muestran los resultados, luego de modelar los datos considerando distribución normal y exponencial con enlace “log”. La fermentación de la PGIV arrojó un valor asintótico de PGIV, que osciló entre 121.03 y 139.06 mL.g^-1MOinc. En los modelos que asumieron que la PGIV fue normal, todos los parámetros resultaron significativos (P<0.05). Sin embargo, cuando se consideró que la PGIV tuvo una distribución exponencial, la fase Lag (L) y la velocidad media de desaceleración (V₂) no fueron significativos (P>0.05). El ajuste no paramétrico dificultó la identificación de las fases Lag y la desaceleración.

Los datos experimentales mostraron que a las tres horas de incubación existía poca PGIV, con valores inferiores a los 2 mL.g^-1MOinc, lo que indicó la existencia de una fase de latencia o retraso, donde los microorganismos colonizan o hidratan el sustrato. Además, después de las 18 h, todos los modelos estimaron velocidad de desaceleración V₂<1.58 mL.g^-1MOinc/h. Autores como Solís et al. (2023)Solís, C., Ruiloba, M.H., Rodríguez, R. & Marrero, Y. 2023. Dinámica de la fermentación ruminal in vitro de la mezcla integral de camote (Ipomoea batata, l.) presecada y ensilada. Revista Investigaciones Agropecuarias, 5(2): 88-96, ISSN: 2644-3856. https://revistas.up.ac.pa/index.php/investigaciones_agropecuarias/article/view/3899. encontraron que la fase Lag de mezclas integrales de camote fue de 2.5 a tres horas, mientras que a partir de las 12 h comenzó la fase de desaceleración.

La evaluación del modelo logístico evidenció problemas de independencia residual en ambos análisis (tabla 3). La autocorrelación, sobre todo si se trata de datos longitudinales, se podría deber a que en el modelo no se han incluido variables que realmente afectan o que no se ha escogido el modelo adecuado (Gómez y Agüero 2020Gómez, M.A. & Agüero, Y. 2020. Ajuste de modelos mixtos no lineales para la descripción de curvas de lactación bovina bajo pastoreo en El Mantaro, Junín, Perú. Revista Investigaciones Veterinarias del Perú, 31(4): 19027, ISSN: 1609-9117. http://dx.doi.org/10.15381/rivep.v31i4.19027. ). El incumplimiento del supuesto de independencia de los errores es una limitación que puede conducir a estimaciones sesgadas (Pérez Pelea 2018Pérez Pelea, L. 2018. ¿Cómo proceder ante el incumplimiento de las premisas de los métodos paramétricos? o ¿cómo trabajar con variables biológicas no normales? Revista del Jardín Botánico Nacional, 39: 1-12, ISSN: 2410-5546. https://www.researchgate.net/publication/327752027. ). En este caso, la prueba de Rachas para la aleatoriedad arrojó que los residuos fueron aleatorios, lo que se contradijo con el gráfico de los residuos (figura 1), el cual mostró tendencia y falta de aleatoriedad. La correlación de los residuos con el modelo logístico no paramétrico se puede deber a que la función de enlace “log” no fue la adecuada. Es necesario buscar nuevas funciones de enlace para cuando los predictores no sean lineales. Sin embargo, poco se habla en la literatura, porque no se encontró información publicada sobre funciones de enlace para el caso de modelos no lineales.

En la misma tabla se muestran problemas de independencia residual. Gómez y Agüero (2020)Gómez, M.A. & Agüero, Y. 2020. Ajuste de modelos mixtos no lineales para la descripción de curvas de lactación bovina bajo pastoreo en El Mantaro, Junín, Perú. Revista Investigaciones Veterinarias del Perú, 31(4): 19027, ISSN: 1609-9117. http://dx.doi.org/10.15381/rivep.v31i4.19027. plantean que, cuando se trata de datos longitudinales, la autocorrelación podría estar dada a que en el modelo no se han incluido variables que realmente afectan o que no se ha seleccionado el modelo adecuado. Pérez Pelea (2018)Pérez Pelea, L. 2018. ¿Cómo proceder ante el incumplimiento de las premisas de los métodos paramétricos? o ¿cómo trabajar con variables biológicas no normales? Revista del Jardín Botánico Nacional, 39: 1-12, ISSN: 2410-5546. https://www.researchgate.net/publication/327752027. refiere que el incumplimiento del supuesto de independencia de los errores es una limitación que puede conducir a estimaciones sesgadas.

Tabla 3. Modelación de los datos obtenidos del experimento donde se evaluó el valor nutritivo del ensilaje con 50 % de OM-22, 50 % de moringa y Lactobacillus pentosus

Modelo	Parámetros	R²aj %	CME	AIC	BIC	DW	Rachas Valor P
Logístico (Distribución Normal)	b= 133.11±2.24, P<0.0001 c=0.04±0.003, P<0.0001 L=9.37±0.78, P<0.0001	92.8	54.38	275	281	1.2	0.004
Lineal por segmentos t₁=18 t₂=48 (Distribución Normal)	V₁=3.2±0.23, P<0.0001 V₂=1.58±0.14, P<0.0001 F₁=-14.0±2.74, P<0.0001 F₂=40.72±4.53, P<0.0001 b=139.06±5.92, P<0.0001	98.9	32.06	250	260	1.7	0.37
Logístico (Distribución Exponencial y función de enlace log)	b=121.03±1.29, P<0.0001 c= 1.05±0.01, P=0.0029 L=1.7±20.01, P=0.8601	86.4	73.79	377	389	0.62	0.0005
Lineal por segmentos t₁=18 t₂=48 (Distribución Exponencial)	V₁=1.26±1.05, P<0.0001 V₂=1.02±1.03, P=0.54 F₁=1.00±1.79, P=0.99 F₂=51.84±2.46, P<0.0001 b=139.04±1.39, P<0.0001	98.8	42.09	372	380	1.5	0.0981

La prueba de Racha mostró la aleatoriedad de los residuos con valores de probabilidad por encima de 0.05. Sin embargo, los resultados de la figura 1 contradijeron dicha prueba al mostrar tendencia y falta de aleatoriedad. Los resultados obtenidos con el modelo logístico no paramétrico pudieran estar dados porque la función de enlace “log” propuesta no fue la adecuada. Se hace necesario buscar nuevas funciones de enlace para cuando los predictores no sean lineales. Cabe señalar que en la literatura científica se informa poco acerca de otras funciones de enlace que se relacionan con diferentes distribuciones. En la revisión que se realizó no se encontró información sobre funciones de enlace para el caso de modelos no lineales.

Figura 1. Residuos de los modelos cuando se evaluó la PGIV del ensilaje con 50 % de OM-22, 50 % de moringa y Lactobacillus pentosus y se violó o no el supuesto de la normalidad

Cuando se ignoró la normalidad y la función de enlace “log” para datos con distribución exponencial, los resultados fueron similares (tabla 3). Sin embargo, con los modelos lineales por segmentos, los R²aj fueron mayores y menores los CME. La prueba de DW no presentó problemas en el cumplimiento del supuesto de independencia residual para estos modelos. Además, los modelos por segmentos arrojaron residuos favorables con una nube de puntos aleatorios y sin patrón (figura1). La prueba de Rachas rechazó la hipótesis de un comportamiento aleatorio para los residuos. Vale la pena señalar que, la prueba de Rachas de Wald y Wolfowitz (1940)Wald, A. & Wolfowitz, J. 1940. On a Test Whether Two Samples are from the Same Population. The Annals of Mathematical Statistics, 11(2): 147-162, ISSN: 0003-4851. http://dx.doi.org/10.1214/aoms/1177731909. tiene en cuenta la cantidad de rachas y el largo de cada una, ignorando que las rachas se pueden concentrar en intervalos específicos de la muestra, como ocurrió con el modelo logístico ajustado en este estudio (figura 1). En este caso, se supuso que perdió potencia.

El modelo lineal por segmentos es una opción que permite conocer la velocidad media de la fase 1 y 2 de PGIV. Además, con él se puede estimar la fase Lag, igualando a cero la ecuación de la primera etapa: $0 = V_{1} t + F_{1}$ ; donde $L a g = - \frac{F_{1}}{V_{1}}$ . Las ecuaciones lineales también estiman la PGIV con la que se inicia la segunda fase. Conocer la relación entre V₁/V₂ es útil para los investigadores porque comprenden mejor el comportamiento del sustrato en estudio. Mediante la ecuación de la fase 3 se puede conocer la PGIV asintótica.

En la figura 2 se evidenció el comportamiento de los modelos ajustados bajo los enfoques paramétricos y no paramétricos. Se observó que la PGIV máxima estimada por ambos modelos lineales fue de 140 mL.g^-1MOInc a las 80 h aproximadamente. El modelo lineal por segmentos describió mejor la PGIV del ensilaje con 50 % de OM-22, 50 % de moringa y Lactobacillus pentosus. Es incorrecto asumir que los datos son normales, cuando las pruebas estadísticas indican lo contrario. Según Pérez Pelea (2018)Pérez Pelea, L. 2018. ¿Cómo proceder ante el incumplimiento de las premisas de los métodos paramétricos? o ¿cómo trabajar con variables biológicas no normales? Revista del Jardín Botánico Nacional, 39: 1-12, ISSN: 2410-5546. https://www.researchgate.net/publication/327752027. , una desviación significativa de las premisas puede incrementar seriamente las posibilidades del investigador de cometer error tipo I o tipo II, en dependencia de la naturaleza del análisis, lo que implica resultados inexactos e interpretaciones incorrectas en las pruebas estadísticas (Zhou Kimbeng 2010Zhou, M.M. & Kimbeng, C.A. 2010. Multivariate repeated measures: A statistical approach for analyzing data derived from sugarcane breeding variety trials. Proceeding sof the South African Sugar Technologists' Association, 83: 92-105, ISSN: 0370-1816. https://www.cabidigitallibrary.org/doi/pdf/10.5555/20113349222.). Como no existen instrucciones definitivas de cómo actuar en cada caso, se debe hacer un estudio de la variable antes de realizar cualquier prueba. Cuando las distribuciones están muy distantes de la normalidad, tienen valores atípicos, o las distribuciones de los grupos a comparar son muy diferentes y tienen varianzas muy heterogéneas, no se debe ignorar el incumplimiento de las premisas. En estos casos, se debe utilizar una vía alternativa como transformar la escala de la variable, emplear un método no paramétrico de simulación o un modelo lineal generalizado.

Figura 2. Contraste entre la PGIV real y la estimada por los modelos cuando se evaluó la PGIV del ensilaje con 50 % de OM-22, 50 % de moringa y Lactobacillus pentosus

Conclusiones

⌅

Se concluye que el modelo Logístico con función de enlace “log” para estimar la media poblacional de la PGIV no mostró resultados adecuados. Sin embargo, el modelo lineal por segmento fue el que mejor describió dicho comportamiento, mostrando los mejores R²aj, CME, AIC, BIC y residuos visualmente aleatorios. Además, con el modelo lineal por segmentos, se obtuvieron resultados similares sin importar la normalidad de la variable respuesta. Los resultados evidenciaron que en determinados casos se pueden utilizar procedimientos paramétricos con datos que no cumplen la normalidad. No obstante, se deben tener en cuenta las consecuencias de dichas violaciones. Se propone como alternativa un modelo lineal por segmentos para describir la PGIV, cuando los datos no cumplen con la normalidad.