miércoles, 22 de junio de 2011

Diagrama de tallo y hoja

Esta es una manera de poder visualizar la distribución de un conjunto de datos utilizando los valores originales.

Esta técnica consiste en separar el valor de un dato en 2 dígitos.


El primer o los primeros dígitos de izquierda a derecha representan al tallo y el último dígito representa a la hoja, este tallo y esta hoja se separan mediante una línea vertical.


Para comprender mejor observe el siguiente ejemplo:



Se tienen datos referentes a temperaturas en grados Fahrenheit en un experimento de química de -42º, -12º,5º, 8º, 9º, 23º, 24º, 25º, 26º, 60º, 27º y 111º.


Se solicita sean presentados en un diagrama de tallo-hoja.


Solución:


Los datos deben ser ordenados de menor a mayor, se realiza una línea vertical para separar el tallo de la hoja y por ultimo se procede a ingresar los datos iniciando con los negativos y terminando con los positivos.


En este caso el tallos tiene las decenas y centenas y las hojas la unidad.


El siguiente histograma fue creado con los valores anteriores, observe la similitud en cuanto a la distribución del conjunto de datos donde la diferencia radica en la posición de los valores observados, en el histograma se observan en el eje de la Y las frecuencias (hojas) y en el eje de las X (los tallos).



Hay una pequeña diferencia ya que el histograma presenta 7 clases y en el diagrama tallo y hoja hay 6 clases pero esto lo define el usuario en el histograma por lo que no debería ser problema .



Una ventaja de realizar un diagrama de tallo y hoja es poder obtener los valores originales aplicando notación científica.


Lo anterior consiste en visualizar los datos como un diagrama de tallo.hoja multiplicado por una base 10 y elevado a un exponente “a”. Note que ya no se utiliza una línea vertical para separar al diagrama tallo y hoja, sino utilizar un “punto”.


Después de visualizar al diagrama como tallo.hoja se procede a multiplicar por la base 10 al exponente a = 1 (el valor del exponente “a” dependerá de cómo el usuario establezca la separación del tallo.hoja), logrando con esto transformar el tallo.hoja al valor original del dato.


En el ejemplo anterior el tallo I hoja, -4 I 2 necesita ser visualizado como tallo.hoja -4.2 para luego ser multiplicado por 10 al exponente 1 y con esto obtener el valor original -42.



Realizando la multiplicación anterior se obliga a que le punto decimal se desplace una posición a la derecha, logrando con esto el valor -42.0.



Misma situación ocurre al tallo l hoja 11 1 que al ser visualizado como tallo.hoja 11.1, y ser multiplicado por 10 al exponente 1 este punto decimal se desplaza hacia la derecha generando esto el valor original 111.0.




Precaución: si al tallo.hoja se multiplicara por una base 10 y exponente -1 el punto decimal se desplaza hacia la izquierda dando como resultado un -0.42 y -1.11 respectivamente, siendo estos valores incorrectos a los valores buscados.


El programa Minitab con fin estadístico es de los pocos que generan un diagrama de tallo y hoja, este link lo describe si desean saber más.



Ejemplo
Para realizar un diagrama de tallo y hoja en Minitab se debe de realizar lo siguiente:



Con Microsoft Excel se tabulan datos obteniendo la siguiente base de datos descargarla.



O bien pueden descargar la base de datos ya en Minitab con extensión .MTV descargarla.



Utilizando la opción de Excel, será necesario copiar y pegar los datos de una hoja de Excel hacia una hoja de trabajo de Minitab.






Luego en Minitab ubique la pestaña "gráfica" y la opción "tallo y hoja".






Al realizar lo anterior se abre la ventana tallo y hoja en ella es necesario seleccionar con un clic la variable que se desea analizar, el siguiente paso es hacer clic izquierdo en el botón “Seleccionar” y por ultimo hacer clic en el botón aceptar.






El resultado es el siguiente diagrama de tallo y hoja:





En este se puede observar que la mayor cantidad de los datos se encuentran en la parte central del diagrama, también que la variable analizada fue No. de tomates por planta en la cosecha 1999-2000 y que el total de plantas que contenían los tomates fue de 250.



El diagrama generado muestra del lado derecho a la hoja (un dígito por cada observación), en el centro al tallo y en al lado izquierdo los conteos con intervalos de 5 unidades.



Lo anterior genera 12 grupos distanciados de la siguiente manera (120-124), (125-129), (130-134), (135-139), (140-144), (145-149), (150-154), (155-159), (160-164), (165-169), (170-174) y (175-179).



En el diagrama se muestra del lado izquierdo un conteo entre paréntesis este indica que es ahí donde se encuentra la mediana que divide al conjunto de datos en 2 grupos.



Los conteos son acumulativos de arriba hacia el medio y de abajo hacia el medio generando un conteo total de 250 (71+60+119).


El siguiente histograma fue creado para compararlo con el resultado del diagrama tallo y hoja de la base de datos tallo-hoja (la que se dio para descargar).

Para obtener este histograma se utilizó el software estadístico Infostat, con las siguientes restricciones:

10 clases, intervalos de clase de 5 unidades, un rango de 57 tomates/plantas, límite inferior de clase de 123 tomates/planta y límite superior de 177 tomates/planta.

En el eje “X” se encuentra un mínimo de 123 y máximo de 177, con 12 divisiones.

El eje “Y” son las frecuencias absolutas con un mínimo de 0 y un máximo de 60 con 12 divisiones.







Al realizar la comparación del tallo y hoja con el histograma generado y las restricciones anteriormente descritas se observa la similitud entre ambos en cuanto a la distribución del conjunto de datos.