lunes, 3 de octubre de 2011

Frecuencias con datos cuantitativos en Microsoft Excel

El diccionario de la Real Academia española define a la frecuencia como “Repetición mayor o menor de un acto o suceso”.

Descrita en otras palabras la frecuencia es el número de veces que un valor se repite dentro de un conjunto de datos.

La frecuencia de un conjunto de datos se puede dividir mediante la creación de las Marcas de Clase.

Estas Marcas de Clase son creadas previamente por la determinación de un número de clases y el cálculo del rango estadístico que sirven para determinar al Intervalo de Clase siendo este último el que servirá para definir las Marcas de clase.

Con las Marcas de Clase se logra agrupas los datos de un conjunto.

En este artículo del blog se describe el cálculo de las frecuencias para datos no agrupados.

En posteriores entradas se tratará el tema de frecuencias para datos agrupados.

Una de las tantas bondades de Microsoft Excel son las funciones, este es el caso de la función CONTAR.SI que puede ser utilizada para establecer la frecuencia de un determinado número dentro de un conjunto de datos.

La función CONTAR.SI cuenta las celdas de un rango que coinciden con el valor dado en la condición SI.

Ejemplo:

Se obtienen 1200 datos de semillas germinadas del cultivo de soya por metro cuadrado, se solicita se obtenga la frecuencia cuando la cantidad de semillas germinadas es de 100 semillas por metro cuadrado.

La base de datos utilizada para el ejemplo puede descargarla haciendo clic aquí.

Paso 1: Abra la base de datos




Observar que se cuenta con 1200 datos para realizar la frecuencia de 100 semillas de por metro cuadrado.

Paso 2: Preparar los campos “Condición” y “Frecuencia” e ingresar en la celda A2 el valor 100.




El campo condición sirve para indicar que la frecuencia que se busca es la de 100 semillas germinadas de soya por metro cuadrado.

Paso 3: En la celda C2 debajo del campo “Frecuencia” insertar la función =CONTAR.SI( , seleccionar el rango de A2:A1201 y separar este mediante una coma (,) o punto y coma (;) de la condición 100 que deberá de ingresar mediante la selección de la celda B2.




Para terminar la función será necesario cerrarla con un paréntesis y dicha función CONTAR.SI debe de visualizarse de la siguiente manera:




Paso 4: Se observó que la frecuencia para 100 semillas por metro cuadrado dentro de los 1200 datos es de 32

miércoles, 17 de agosto de 2011

Frecuencias para variable cualitativa

Como el título de esta publicación menciona se desarrollara en torno a una variable cualitativa donde esta no es un valor sino una cualidad que presenta un individuo o variable.

El diccionario enciclopédico Océano Uno Color en su página 430 describe a la cualidad como un carácter natural o adquirido que distingue a la persona o cosa.

En publicaciones anteriores se describe los tipos de variables y se menciona que una variable cualitativa puede tomar números para codificarla y de esta manera permitir un mejor manejo de la misma, pero esta presencia de números no representa valor alguno.

Una frecuencia (f) es el número de veces que se repite una cualidad en una población o muestra.

El significado de frecuencia es tan claro que no será necesario profundizar más en él y se procederá a explicarlo gráficamente mediante el siguiente ejemplo.

Se capturo información mediante un cuestionario a 25 individuos sobre ¿Qué tipo de bebida es su favorita?, y la posible selección era excluyente siendo estas: Agua, Café, Gaseosa y Te, obteniéndose los siguientes resultados:






Se procede a realizar un arreglo en columnas de la variable tipo de bebida y su frecuencia:





A simple vista se observa que la principal bebida consumida por la muestra estudiada es el café, en segundo lugar está la gaseosa y el té, en tercer lugar se encuentra el agua pura.

Contando con las frecuencias se hace el cálculo de las frecuencias relativas y estas corresponden a la división entre la frecuencia de cada variable entre el total de las frecuencias.

La fórmula es la siguiente:





En el caso de la frecuencia relativa del café se observa en la figura de abajo que esta corresponde a 0.4, también se visualiza que al expresarla en porcentaje esta corresponde al 40 % de las observaciones.





Al aplicar la anterior fórmula a las otras variables de bebida favorita se obtiene el siguiente cuadro:





Ejemplo usando SPSS:

La siguiente base de datos corresponde a la preferencia del consumo de carne en la comida de los guatemaltecos, para este caso se cuenta con 1500 datos donde la respuesta fue excluyente y las posibles selecciones fueron:

Carne de cabra, cerdo, pollo, pavo y res.

Descargue la base de datos en Excel.
Descargue la base de datos en SPSS.

Copie los datos de Excel a SPSS y configure la variable cualitativa





Al declarar la variable como tipo cadena en SPSS se está indicando que se trata de una variable cualitativa nominal





Haga clic en pestaña Analizar escoja la opción Estadísticos descriptivos, seleccione la opción 123 Frecuencias.





Cuando visualice la siguiente ventana haga clic en la variable “Carne para almorzar”




Mediante el botón con una flecha azul lleve la variable al campo de las variables y haga clic en el botón aceptar.



El resultado es el siguiente:





Se puede visualizar que de los 1500 guatemaltecos muestreados estos prefieren comer carne de cabra en el almuerzo y tienen poco gusto por la carne de cerdo a este tiempo de la comida.

La frecuencia relativa se visualiza como porcentaje por lo que será necesario dividir estos porcentajes por 100 para obtener dicha frecuencia relativa.

miércoles, 22 de junio de 2011

Diagrama de tallo y hoja

Esta es una manera de poder visualizar la distribución de un conjunto de datos utilizando los valores originales.

Esta técnica consiste en separar el valor de un dato en 2 dígitos.


El primer o los primeros dígitos de izquierda a derecha representan al tallo y el último dígito representa a la hoja, este tallo y esta hoja se separan mediante una línea vertical.


Para comprender mejor observe el siguiente ejemplo:



Se tienen datos referentes a temperaturas en grados Fahrenheit en un experimento de química de -42º, -12º,5º, 8º, 9º, 23º, 24º, 25º, 26º, 60º, 27º y 111º.


Se solicita sean presentados en un diagrama de tallo-hoja.


Solución:


Los datos deben ser ordenados de menor a mayor, se realiza una línea vertical para separar el tallo de la hoja y por ultimo se procede a ingresar los datos iniciando con los negativos y terminando con los positivos.


En este caso el tallos tiene las decenas y centenas y las hojas la unidad.


El siguiente histograma fue creado con los valores anteriores, observe la similitud en cuanto a la distribución del conjunto de datos donde la diferencia radica en la posición de los valores observados, en el histograma se observan en el eje de la Y las frecuencias (hojas) y en el eje de las X (los tallos).



Hay una pequeña diferencia ya que el histograma presenta 7 clases y en el diagrama tallo y hoja hay 6 clases pero esto lo define el usuario en el histograma por lo que no debería ser problema .



Una ventaja de realizar un diagrama de tallo y hoja es poder obtener los valores originales aplicando notación científica.


Lo anterior consiste en visualizar los datos como un diagrama de tallo.hoja multiplicado por una base 10 y elevado a un exponente “a”. Note que ya no se utiliza una línea vertical para separar al diagrama tallo y hoja, sino utilizar un “punto”.


Después de visualizar al diagrama como tallo.hoja se procede a multiplicar por la base 10 al exponente a = 1 (el valor del exponente “a” dependerá de cómo el usuario establezca la separación del tallo.hoja), logrando con esto transformar el tallo.hoja al valor original del dato.


En el ejemplo anterior el tallo I hoja, -4 I 2 necesita ser visualizado como tallo.hoja -4.2 para luego ser multiplicado por 10 al exponente 1 y con esto obtener el valor original -42.



Realizando la multiplicación anterior se obliga a que le punto decimal se desplace una posición a la derecha, logrando con esto el valor -42.0.



Misma situación ocurre al tallo l hoja 11 1 que al ser visualizado como tallo.hoja 11.1, y ser multiplicado por 10 al exponente 1 este punto decimal se desplaza hacia la derecha generando esto el valor original 111.0.




Precaución: si al tallo.hoja se multiplicara por una base 10 y exponente -1 el punto decimal se desplaza hacia la izquierda dando como resultado un -0.42 y -1.11 respectivamente, siendo estos valores incorrectos a los valores buscados.


El programa Minitab con fin estadístico es de los pocos que generan un diagrama de tallo y hoja, este link lo describe si desean saber más.



Ejemplo
Para realizar un diagrama de tallo y hoja en Minitab se debe de realizar lo siguiente:



Con Microsoft Excel se tabulan datos obteniendo la siguiente base de datos descargarla.



O bien pueden descargar la base de datos ya en Minitab con extensión .MTV descargarla.



Utilizando la opción de Excel, será necesario copiar y pegar los datos de una hoja de Excel hacia una hoja de trabajo de Minitab.






Luego en Minitab ubique la pestaña "gráfica" y la opción "tallo y hoja".






Al realizar lo anterior se abre la ventana tallo y hoja en ella es necesario seleccionar con un clic la variable que se desea analizar, el siguiente paso es hacer clic izquierdo en el botón “Seleccionar” y por ultimo hacer clic en el botón aceptar.






El resultado es el siguiente diagrama de tallo y hoja:





En este se puede observar que la mayor cantidad de los datos se encuentran en la parte central del diagrama, también que la variable analizada fue No. de tomates por planta en la cosecha 1999-2000 y que el total de plantas que contenían los tomates fue de 250.



El diagrama generado muestra del lado derecho a la hoja (un dígito por cada observación), en el centro al tallo y en al lado izquierdo los conteos con intervalos de 5 unidades.



Lo anterior genera 12 grupos distanciados de la siguiente manera (120-124), (125-129), (130-134), (135-139), (140-144), (145-149), (150-154), (155-159), (160-164), (165-169), (170-174) y (175-179).



En el diagrama se muestra del lado izquierdo un conteo entre paréntesis este indica que es ahí donde se encuentra la mediana que divide al conjunto de datos en 2 grupos.



Los conteos son acumulativos de arriba hacia el medio y de abajo hacia el medio generando un conteo total de 250 (71+60+119).


El siguiente histograma fue creado para compararlo con el resultado del diagrama tallo y hoja de la base de datos tallo-hoja (la que se dio para descargar).

Para obtener este histograma se utilizó el software estadístico Infostat, con las siguientes restricciones:

10 clases, intervalos de clase de 5 unidades, un rango de 57 tomates/plantas, límite inferior de clase de 123 tomates/planta y límite superior de 177 tomates/planta.

En el eje “X” se encuentra un mínimo de 123 y máximo de 177, con 12 divisiones.

El eje “Y” son las frecuencias absolutas con un mínimo de 0 y un máximo de 60 con 12 divisiones.







Al realizar la comparación del tallo y hoja con el histograma generado y las restricciones anteriormente descritas se observa la similitud entre ambos en cuanto a la distribución del conjunto de datos.



sábado, 7 de mayo de 2011

Percentiles

Estos se crean mediante el ordenamiento ascendente de los valores que toma la variable dentro de un conjunto de datos y los divide en 100 subconjuntos.

Cada conjunto de datos presenta 99 percentiles esto se debe a que NO existe un percentil 0 porque este dato lo toma el valor mínimo y NO existe un percentil 100 porque este dato lo toma el valor máximo.


Para calcular un percentil se utilizan dos fórmulas, la primera a utilizar dependerá si el percentil buscado es entero:
Px=valor del percentil calculado
Xnp= valor de la posición encontrada entre n * p
X(np+1) = valor de la posición encontrada entre n * p más 1
np = Posición de dato
n = Numero de datos
p = Percentil a calcular


Esta fórmula se utiliza cuando el percentil a buscar es No entero:
Px=valor del percentil calculado
X [int(np)+1] = valor de la posición encontrada entre n * p aproximado al entero mínimo proximo más 1
np = Posición de dato
n = Numero de datos
p = Percentil a calcular


Para comprender mejor el tema se realizará los siguientes ejemplos:
Descargar la siguiente base de datos clic aquí


Ejemplo: (percentil No entero)


La base de datos descargada corresponde al peso en Kg. de 1750 personas durante el mes de diciembre.

Se pide encontrar el “valor" de peso que separa al 45% de las personas con mayor peso. (Pongamos atención, para encontrar el 45% de las personas con mayor peso es necesario buscar el percentil 55 porque a partir de este valor hacia el valor máximo se encuentra el 45% restante de personas con mayor peso).

Respuesta

El primer paso consiste en ordenar de forma ascendente los valores del conjunto de datos



Realice el siguiente cálculo

A partir de 55.89 Kg. hacia el dato máximo se encuentran las personas con mayor peso que corresponden al 45% del conjunto de datos.


Vea que el correlativo 963 corresponde al valor 55.89 Kg.

Ejemplo: (percentil Entero)

Una prestigiosa empresa de alimentos decide realizar una donación para ser repartida entre el 30% de las personas con menor peso, se le pide que indique el valor límite para este subconjunto.

Respuesta

El primer paso consiste en ordenar de forma ascendente los valores del conjunto de datos


Realice el siguiente cálculo




A partir del valor 51.445 Kg hacia el mínimo se encuentra el 30% de las personas con menor peso.



Vea que el correlativo 525 y 526 corresponden a los valores 51.44 Kg. y 51.45 Kg.




Excel

Con Microsoft Excel utilizando funciones se puede realizar el cálculo de percentiles para ello observe las siguientes figuras y realice los cambios en la base de datos proporcionada previamente:

En la celda E6 ingrese la siguiente función =PERCENTIL.EXC(C3:C1752,0.55), con esto logra calcular el percentil 55 de la base de datos





En la celda E6 ingrese la siguiente función =PERCENTIL.EXC(C3:C1752,0.30), con esto logra calcular el percentil 30 de la base de datos




Al utilizar Excel y realizar el cálculo del percenti 30 se observa una pequeña discrepancia de 0.002 Kg. entre percentiles encontrados utilizando la función de Excel y la formúla para percentil entero.


Lo importante de esto es ver que del valor 51.44 hacia el mínimo esta el 30% de personas con los pesos mas bajos de la población.



Importante

Cuando se calcula el percentil diez (P10 = primer decil) este puede tomar el nombre “Decil”, significa que divide un conjunto de datos en nueve subconjuntos.

El percentil 10 = Decil 1
El percentil 25 = Cuartil 1
El percentil 50 = Cuartil 2 = Mediana
El percentil 75 = Cuartil 3
El percentil 90 = Decil 9

miércoles, 30 de marzo de 2011

Cuartiles estadísticos

Otra medida de dispersión utilizada para el resumen de la información son los cuartiles, estos pueden definirse como “la mediana de la mediana”.


Cuando se dice la mediana de la mediana es fácil de entender que se habla del cuarto de un total, la finalidad de los cuartiles es dividir un grupo de datos en 4 subgrupos conteniendo la misma cantidad de datos cada subgrupo.




El primer subgrupo llamado cuartil uno (Q1) contiene el 25% del total de datos, El cuartil se denota con una Q por la palabra inglesa “Quarter” que significa la cuarta parte de una unidad.


El segundo subgrupo llamado cuartil dos (Q2) contiene un nuevo 25% del total de los datos y coincide con el valor de la “mediana”, cabe resaltar que el cuartil dos termina hasta donde se encuentra el cuartil uno.


El tercer subgrupo llamado cuartil tres (Q3) contiene otro nuevo 25% del total de datos, el valor del Q3 hacia el valor mínimo contiene al 75% del total de datos.


No existe un cuartil cuatro ya que este coincidiría con el dato máximo del conjunto de datos.


Para entender y aprender de una forma activa los cuartiles propongo se descargue esta base de datos, y mediante Excel utilizar funciones para encontrar el cuartil 1, cuartil 2 y cuartil 3




Abra la base de datos:




Posiciónese en la celda A2 ingrese dentro de la celda: =CUARTIL(A2:A1001,1) para obtener el primer cuartil




Luego en la celda A3 ingrese: =CUARTIL(A2:A1001,2) para obtener el segundo cuartil




Para obtener el cuartil tres ingrese en la celda A4: =CUARTIL(A2:A1001,3) para obtener el tercer cuartil


En esta figura se demuestra gráficamente como debería verse la función del cuartil 1, en colores aparece los significados de los argumentos de la función.





Esta figura muestra los resultados de los tres cuartiles al ingresar correctamente los argumentos de la función siendo estos: Q1=2990 granos/mazorca Q2=3000 granos/mazorca Q3=3011 granos/mazorca.





Para corroborar los datos se realizó un análisis para cuartiles utilizando el programa estadístico Infostat, se observa que los datos obtenidos en Microsoft Excel e Infostat coinciden utilizando la misma base de datos.