Leidy Pico Martínez
Para los análisis de reconstrucción filogenética, encontrados dos métodos principales, los primeros utilizan distancias genéticas, como Neighbor-Joining (NJ) y Mínima Evolución, y los basados en caracteres, como es el caso de Máxima Parsimonia (MP), Máxima Verosimilitud (ML por sus siglas en inglés “Máximum Likelihood) e inferencia Bayesiana (IB). En los métodos basados en caracteres, ML y IB, se caracterizan por ser métodos probabilísticos y a diferencia de MP, tratan la inferencia filogenética como un problema estadístico, en el cual, se utilizan modelos de evolución molecular para llevar a cabo el cálculo de probabilidades (Swofford et al 1996).
El principio de Máxima Verosimilitud ha sido utilizando con mayor frecuencia por los biólogos sistemáticos para inferir filogenias. Este método fue desarrollado por Ronald Fisher y es definido como La probabilidad de la observación de datos cuando un parámetro es dado (Queiroz & Poe 2001). ¿en qué consisten los datos? Los datos para ML son secuencias homologas alineadas presentada como una matriz. para definir la probabilidad de los datos, se debe especificar un modelo de evolución, los cuales describen la evolución de las secuencias en términos de probabilidad; Los modelos de evolución, son descripciones matemáticas de la evolución de las secuencias, son de gran importancia, ya que permiten conectar los datos (alineamientos) con los métodos de reconstrucción filogenética (Yang et al. 2006).
En la utilización de dichos modelos, la sustitución entre nucleótidos, aminoácidos o condones se modela como un evento aleatorio y los cambios entre los estados se describen mediante una cadena de Markov tiempo-continua (D.Bryant et al. 2005). Los modelos tienen dos tipos de parámetros principales: las probabilidades de cambio entre estados (nucleótidos, aminoácidos o codones) y las frecuencias de estos estados en el alineamiento. El modelo de evolución nucleotídica más sencillo es el conocido como Jukes-Cantor (JC) y asume que cualquier cambio entre nucleótidos tiene la misma probabilidad de ocurrir y que las frecuencias de los cuatro nucleótidos son iguales. Mientras que el modelo más complejo es GTR (general time reversible) ya que se basa en una asunción de estacionariedad, reversibilidad y homogeneidad, que utiliza un parámetro distinto para modelar cada una de las sustituciones entre nucleótidos y sus frecuencias (S. Tavaré 1986). Para los modelos de aminoácidos, los parámetros generalmente no se estiman a partir de los datos, sino que vienen previamente fijados, esto es porque los aminoácidos tienen un alfabeto más extenso (20 vs 4), y se incrementaría el número de parámetros a estudiar. Dado lo anterior, se utilizan matrices de reemplazamiento pre-calculadas, que han sido estimadas a partir de grandes conjuntos de datos, algunas de estas incluyen: Blosum, Dayhoff, JTT, LG, WAG, entre otras (Yang et al. 2006). Es así como el cálculo de la verosimilitud para cada posición se realiza teniendo en cuenta todos los posibles escenarios. En este caso, las búsquedas heurísticas permiten visitar un cierto número de árboles entre todos los posibles, y valorar si un árbol es mejor o peor en función de un criterio de optimización, es decir, el mejor árbol será aquel que tiene el mayor valor de verosimilitud entre todos los arboles evaluados. Pero para hacer las búsquedas más fiables y veraces, se pueden llevar a cabo múltiples búsquedas heurísticas para comparar los distintos arboles de ML encontrados y así tener una mayor certeza de que la exploración ha sido completa, aumentando la confianza en la robustez de la estimación Huelsenbeck & Crandall 1997).
Partiendo de lo expuesto anteriormente, se puede resumir a ML como la probabilidad de un modelo de evolución dado (nucleótidos, codones, aminoácidos) y una historia evolutiva hipotética (el árbol) hayan dado lugar a los datos observados (alineamiento de secuencias); en este caso, el árbol será aquel que tenga una mayor probabilidad de generar los datos observados. Considero, que ML es un método más eficiente y robusto, ya que, a diferencia de otros métodos como MP, ML es consistente estadísticamente y se ve menos afectado por el error de muestreo, haciendo estimaciones con menor varianza. Además, este método es poco sensible a atracción por ramas largas y las estimaciones convergen en un valor correcto del parámetro a medida que aumenta el número de caracteres.
Referencias
D. L. Swofford, G. J. Olsen, P. J. Waddell, and D. M. Hillis, Phylogenetic inference. Sunderand, Massachusetts: Sinauer Associates, 1996, pp. 407–514.
D. Bryant, N. Galtier, and M.-A. Poursat, Likelihood calculation in molecular phylogenetics. Oxford, New York: Oxford University Press, 2005, pp. 33–58.
J. P. Huelsenbeck and K. A. Crandall, “Phylogeny estimation and hypothesis testing using maximum likelihood,” Annual Review of Ecology and Systematics , vol. 28, no. 1, pp. 437–466, 1997.
Queiroz K., Poe S. 2001. Philosophy and phylogenetic inference: a comparison of likelihood and parsimony methods in the context of Karl Popper’s writings on corroboration. Syst. Biol. 50:305–321.
S. Tavaré, “Some probabilistic and statistical problems in the analysis of dna sequences,” Lectures on Mathematics in the Life Sciences, vol. 17, pp. 57–86, 1986.
Yang, Z. (2006) Computational molecular evolution. Oxford University Press, USA.
Comentarios
Publicar un comentario