CONCEPTOS GENERALES
FILA DE DATOS: consiste en datos recolectados que no han sido organizados en numéricamente por ejemplo las alturas de 100 estudiantes por letra alfabética.
ORGANIZACION U ORDENACION DE DATOS: Una ordenación datos es un conjunto de datos numéricos en orden creciente o decreciente y a la diferencia que existen entre el dato mayor y menor se le llama rango, de ese conjunto de datos. Así, si la mayor altura de entre 100 estudiantes era 74 pulgadas, y la menor era de 60 pulgadas. EL rango seria:
RANGO = DATO MAYOR - DATO MENOR= 74–60= 14 PULGADAS.
La organización de los datos recogidos en una muestra depende de forma directa del tipo de variable que deseamos analizar.
De este modo podemos distinguir cuatro formas distintas de resumir la información:
1. Para variables cualitativas.
2. Con variables cuasi-cuantitativas.
3. En variables discretas.
4. Para variables continuas.
Variables Cualitativas Datos nominales y ordinales: Las variables pueden ser cualitativas o cuantitativas.
Variables cualitativas: aquellas que no aparecen en forma numérica, sino como categorías o atributos (sexo, profesión, color de ojos) y sólo pueden ser nominales u ordinales.
Variables nominales: lo único que puede hacerse es establecer frecuencias en cada atributo y la igualdad o desigualdad entre los diferentes casos, ver cuál es el grupo que tiene mayor frecuencia alcanzando el concepto de “moda” (y también obtener algunas medidas de asociación cuando se relacionan variables entre sí).
Variables ordinales: recogen la idea de orden pero no tiene sentido realizar operaciones aritméticas con ellas (acuerdo o desacuerdo con un proyecto de ley) ya que no puede medirse distancia entre una categoría y otra. Se puede establecer aquí igualdad y desigualdad, y relaciones como mayor que, y menor que. Puede establecerse orden, pero no medirse distancia dentro de ese orden. La medida estadística de tendencia central más apropiada para estas escalas es la "mediana".
Tabulación: frecuencia absoluta y relativa: Una de las finalidades de la estadística descriptiva es resumir gran cantidad de información en pocos valores. La distribución de frecuencias consiste en un agrupamiento de datos en categorías ( o clases) que muestren el número de observaciones registradas en cada categoría.
La frecuencia absoluta es el número de observaciones que la variable toma en cada clase. Dicho de otra manera, la frecuencia absoluta de una clase (con , siendo k el número de categorías de la variable) es el número de observaciones que presentan una modalidad perteneciente a esa variable.
Los pictogramas, por su parte, son dibujos –generalmente alusivos al tema que se esté midiendo y cuyas áreas son proporcionales al peso relativo que cada categoría guarda sobre el total. Por ejemplo un dibujo de un puerco de 50kg y otro de 90kg uno es mas grande.
La moda: La moda o clase modal es el dato o clase de mayor frecuencia. La moda es el valor o el intervalo que se repite más veces en una variable. Dicho de otra manera: es aquel valor o categoría de la variable que presenta la mayor frecuencia en una distribución. Sirve como descripción de la variable en el sentido de ser el dato o clase más representativo por ser el más frecuente. Como puede existir más de una clase o dato con la máxima frecuencia, la moda no es necesariamente única.
Aquellas distribuciones que tienen una sola moda se llaman unimodales; cuando hay dos modas se dice que la distribución es bimodal y si hay más de dos modas la distribución se llama multimodal.
Si bien la moda es la única medida descriptiva importante de las variables nominales, en las ordinales, también podemos calcular la mediana.
La mediana es el valor que la variable que deja, por encima y por debajo, el 50% de los casos. Es la categoría o valor de la distribución que posee el orden medio cuando las observaciones N/2 aparecen ordenas según las categorías de la variable.
La mediana tiene más sentido de ser hallada en las variables cuantitativas. En el caso de variables cualitativas generalmente lo que conviene es dar porcentajes de clases agrupadas (oponiendo así, por ejemplo, aquellas categorías que muestran aceptación a las que no, de forma de establecer porcentajes diferenciales).
Variables estadísticas
Cuando hablemos de variable haremos referencia a un símbolo (X,Y,A,B,...) que puede tomar cualquier modalidad (valor) de un conjunto determinado, que llamaremos dominio de la variable o rango.
En función del tipo de dominio, las variables las clasificamos del siguiente modo:
Variables cualitativas
Cuando las modalidades posibles son de tipo nominal. Por ejemplo, una variable de color
NOTA: La E mayúscula es el símbolo de una e curva.
AE(“rojo”, ”azul”, ”verde”).
Variables cuasi cuantitativas
Son las que, aunque sus modalidades son de tipo nominal, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos la llegada a la meta de un corredor en una competición de 20 participantes, su clasificación C es tal que
C E (1º, 2º, 3º,…20º).
Otro ejemplo de variable cuasi cuantitativa es el nivel de dolor, D, que sufre un paciente ante un tratamiento médico:
D E (“inexistente”, “poco intenso”, “moderado”, “fuerte”).
Variables cuantitativas
Son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos:
Discretas cuando no admiten siempre una modalidad intermedia entre dos cualesquiera de sus modalidades. Un ejemplo es el número de caras X, obtenido en el lanzamiento repetido de una moneda. Es obvio que cada valor de la variable es un número natural
X E IN
Continuas, cuando admiten una modalidad intermedia entre dos cualesquiera de sus modalidades, v.g. el peso X de un niño al nacer. En este caso los valores de las variables son números reales, es decir
X E IR
Ocurre a veces que una variable cuantitativa continua por naturaleza, aparece como discreta. Este es el caso en que hay limitaciones en lo que concierne a la precisión del aparato de medida de esa variable, v.g. si medimos la altura en metros de personas con una regla que ofrece dos decimales de precisión, podemos obtener
X E (…, 1.50, 1.51, 1.52, 1.53,…).
En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de radio 5-10exp-3. Por tanto cada una de las observaciones de X representa más bien un intervalo que un valor concreto.
Tal como hemos citado anteriormente, las modalidades son las diferentes situaciones posibles que puede presentar la variable. A veces éstas son muy numerosas (v.g. cuando una variable es continua) y conviene reducir su número, agrupándolas en una cantidad inferior de clases.
Estas clases deben ser construidas, tal como hemos citado anteriormente, de modo que sean exhaustivas e incompatibles, es decir, cada modalidad debe pertenecer a una y sólo una de las clases.
Distribución de frecuencias
Distribución de frecuencias es como se denomina en estadística a la agrupación de datos en categorías mutuamente excluyentes que indican el número de observaciones en cada categoría. Esto significa una de las cosas más importantes de la matemática, su estadística con la agrupación de datos. La distribución de frecuencias presenta las observaciones clasificadas de modo que se pueda ver el número existente en cada clase.
Elementos fundamentales para elaborar una distribución de frecuencia:
1) RANGO. Es una medida de dispersión que se obtiene como la diferencia entre el número mayor y el número menor de los datos. R = N_max - N_min Ejemplo. Dados los números: 5, 10, 12, 8, 13, 9, 15 R= 15- 5
2) AMPLITUD TOTAL. Simplemente se obtiene sumándole 1 al rango. AT = (R+1)
MEDIDAS DESCRIPTIVAS
Con estas medidas se persigue reducir en pocas cifras significativas el conjunto de observaciones de una variable y describir con ellas ciertas características de los conjuntos, logrando una comparación más precisa de los datos que la que se puede conseguir con tablas y gráficas.
MEDIDAS DE TENDENCIA CENTRAL: PROMEDIOS
Los promedios son una medida de posición que dan una descripción compacta de como están centrados los datos y una visualización más clara del nivel que alcanza la variable, pueden servir de base para medir o evaluar valores extremos o raros y brinda mayor facilidad para efectuar comparaciones.
Es importante poner en relieve que la notación de promedio lleva implícita la idea de variación y que este número promedio debe cumplir con la condición de ser representativo de conjunto de datos.
El promedio como punto típico de los datos es el valor al rededor del cual se agrupan los demás valores de la variable.
MEDIA ARITMÉTICA
Es una medida matemática, un número individual que representa razonablemente el comportamiento de todos los datos.
Para datos no agrupados X = S xi / n
Para datos agrupados X = S fi Xi / S fi
donde Xi es la marca de clase para cada intervalo y fi es la frecuencia de clase
Características de la Media:
1. En su cálculo están todos los valores del conjunto de datos por lo que cada uno afecta la media.
2. La suma algebraica de las desviaciones de los valores individuales respecto a la media es cero.
3. La suma del cuadrado de las desviaciones de una serie de datos a cualquier número A es mínimo si A = X 4. Aunque es confiable porque refleja todos los valores del conjunto de datos puede ser afectada por los valores extremos, y de esa forma llegar a ser una medida menos representativa, por lo que si la distribución es asimétrica, la media aritmética no constituye un valor típico.
LA MODA
Es el valor de un conjunto de datos que ocurre más frecuentemente, se considera como el valor más típico de una serie de datos. Para datos agrupados se define como Clase Modal el intervalo que tiene más frecuencia. La moda puede no existir o no ser única, las distribuciones que presentan dos o más máximos relativos se designan de modo general como bimodales o multimodales.
Características de la Moda.
1. Representa más elementos que cualquier otro valor
2. No está afectada por los valores extremos pero para datos continuos es dudoso su cálculo.
3. La moda para una distribución de frecuencias de datos agrupados no puede ser calculada exactamente, el valor de la moda puede ser afectado por el método de agrupación de los intervalos de clase.
4. La moda no permite conocer la mayor parte de los datos
5. Algunas veces el azar interviene de manera importante y hace que un valor no representativo se repita frecuentemente.
6. Puede usarse para datos cuantitativos como cualitativos
7. La moda como estadístico, varía mucho de una muestra a otra
8. Cuando se tienen dos o más modas es difícil su interpretación
9. Tiene la ventaja de que los datos desproporcionados con respecto al resto no la distorsionan, pero no se presta para un tratamiento matemático.
LA MEDIANA
Es el valor de la observación que ocupa la posición central de un conjunto de datos ordenados según su magnitud. Es el valor medio o la media aritmética de los valores medios. La mediana es un valor de la variable que deja por debajo de él un número de casos igual al que deja por arriba. Geométricamente la mediana es el valor de la variable que corresponde a la vertical que divide al histograma en dos áreas iguales.
Cuando determinados valores de un conjunto de observaciones son muy grandes o pequeños con respecto a los demás, entonces la media aritmética se puede distorsionar y perder su carácter representativo, en esos casos es conveniente utilizar la mediana como medida de tendencia central.
Características de la mediana
1. Es un promedio de posición no afectado por los valores extremos.
2. No está definida algebraicamente
3. Cuando la localización del elemento central puede ser determinada y los límites de clase mediana son conocidos, la mediana para la distribución de frecuencias puede ser calculada por interpolación, no importando que ésta contenga intervalos abiertos, cerrados, iguales o diferentes.
4. La suma de los valores absolutos, sin considerar el signo, de las desviaciones individuales respecto a la mediana es mínimo.
5 La mediana en caso de una distribución asimétrica, no resulta desplazado del punto de tendencia central. 6. Si el universo tiene curtosis excesiva la mediana como estadístico, varía menos que cualquier otra medida. 7. Si la mediana se calcula por interpolación y hay lagunas en los valores de la clase mediana o los datos son irregulares, esta medida no es buena ya que su ubicación puede resultar falsa.
8. Si se desea ubicar las condiciones de un elemento en una clase, la mediana resulta se indicada, ya que por comparación pone en evidencia si un elemento está en la mitad superior a ella o en la inferior.
MEDIA ARITMETICA PONDERADA
En ésta, para cada uno de los valores de xi se asigna un factor wi de peso, que depende de la importancia que el investigador desee darle.
Xp = S ( xi wi) / S wi
MEDIA GEOMÉTRICA
Útil cuando la variable cambia a lo largo del tiempo, esto es, en el calculo del promedio de tasas, razones, proporciones geométricas y relaciones de variables. Se utiliza en Matemáticas Financieras y Finanzas para promediar números índices, tasas de cambio, etc.
La media Geométrica de una serie de números es la raíz n-ésima del producto de esos números
M = n e (x 1 * x 2 * x 3 *.....*x n )
Se ve afectada por todos los números y valores extremos pero en menor grado que la Media Aritmética, su valor siempre es menor que el de ésta.
MEDIA ARMÓNICA
Se utiliza para el promedio de rendimientos y velocidades. La Media Armónica de una serie de números es el reciproco de la media aritmética del recíproco de esos números.
1 / MH = [ S 1 / xi ] / n
MEDIA CUADRÁTICA
Es la raíz cuadrada de la media aritmética de los cuadrados de los números, se usa eficientemente para promediar los errores o desviaciones porque es más susceptible a los mismos.
MC = 2 e S [ xi 2 ] / n
LOS CUANTILES
Son valores que dividen a la distribución en n partes iguales
Cuartiles, cuatro partes iguales: Q1, Q2, Q3
Deciles, diez pares iguales : D1, D2..........D9
Percentiles o centiles, cien partes iguales: P1, P2.....P99
Los cuantiles permiten hacer un análisis minucioso de la distribución, se utilizan generalmente cuando se quiere ubicar un dato dentro del conjunto. Por ejemplo. Pertenece el dato x al 50% superior ?, al 10% inferior? , al 50 % central?, etc.
MEDIDAS DE DISPERSIÓN
Un rasgo principal de los datos es su dispersión o amplitud, que se refiere a su variabilidad, a la evaluación de cuán separados o extendidos están estos datos o bien cuanto difieren unos de otros.
Variación: es el grado en que los datos numéricos tienden a extenderse al rededor de un valor, generalmente el valor medio
RANGO
Mide la dispersión de la totalidad de los datos. Es la más obvia de las mediadas ya que es la distancia entre los valores máximo y mínimo.
El rango o recorrido da alguna idea del grado de variación que ocurre en la población, pero con frecuencia los resultados pueden ser engañosos, pues este depende de los valores extremos e ignora la variación de las demás observaciones. Está afectado por ocurrencias raras o extraordinarias.
LAS CLASES.
Están formadas por dos extremos. El menor se llama límite inferior el mayor se llama límite superior. hay distintos tipos de clases. Ej. Notas (20-26) Edades (20-26.5) Salarios (20-26.99)
EL NÚMERO DE CLASES.
Se determina a través de la formula de stuger, la cual es valida cuando el No de observaciones sea menor o igual a 500. Formula. Nc= 1 + 3.33log (N) Donde: Nc es el número de clases. N es la cantidad de muestras tomadas.
VALOR DEL INTERVALO O AMPLITUD
Se Obtiene por medio de la ecuación de dicta: Vi = AT / Nc Donde: Vi es el valor de intervalo AT es la amplitud total Nc es el número de clase
DISTRIBUCION DE FRECUENCIA
Si se reúnen grandes cantidades de datos sueltos es útil distribuirlos en clases o categorías y determinar el número de individuos que pertenecen a cada categoría, a lo que se le llama frecuencia de clase. A una disposición tabular de los datos por clases, con sus correspondientes frecuencias de clase, se le conoce como distribución de frecuencia o tabla de frecuencias.
INTERVALOS DE CLASE Y LÍMITES DE CLASE
El símbolo que define una clase, como el 60–62 se llama intervalo de clase. A los números 60 y 62 se les conoce como limites de clase; el numero mas pequeño (60) es el limite inferior de clase, mientras que el numero mas grande (62) es el limite superior de clase. Se acostumbra usar los términos clase e intervalo de clase indistintamente, aunque el intervalo de clase es en realidad un símbolo de la clase.
A un intervalo de clase que, por lo menos teóricamente, no tiene límite de clase inferior o límite de clase superior se le llama intervalo de clase abierto. Por ejemplo, en grupos de edades de individuos, el intervalo de clase “65 años a mas” es un intervalo de clase abierto”
FRONTERAS DE CLASE
Si se miden estaturas con exactitud de 1 pulg., en teoría el intervalo de clase 60–62 incluye todas las medidas desde 59.5000 hasta 62.5000 pulg. Estos números, indicados brevemente por los números exactos 59.5 y 62.5 se llaman fronteras de clase o limites verdaderos de clase; el numero menor (59.5) es la frontera inferior de clase y el numero mayor (62.5), la frontera superior de clase.
En la práctica, las fronteras de clase se obtienen promediando los límites superior e inferior de un intervalo de clase. Algunas veces se emplean las fronteras para simbolizar clases. Por ejemplo, las clases en la primera columna de la tabla 2–1 se podrían indicar mediante 59.5–62.5, 62.5–65.5, etcétera.
Clase o Intervalo de clase.
Son divisiones o categorías en las cuales se agrupan un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores comprendidos entre dos limites.
Para organizar los valores de la serie de datos hay que determinar un número de clases que sea conveniente. En otras palabras, que ese número de intervalos no origine un número pequeño de clases ni muy grande. Un número de clases pequeño puede ocultar la naturaleza natural de los valores y un número muy alto puede provocar demasiados detalles como para observar alguna información de gran utilidad en la investigación.
Tamaño de los Intervalos de Clase
Los intervalos de clase pueden ser de tres tipos, según el tamaño que estos presenten en una distribución de frecuencia: a) Clases de igual tamaño, b) clases desiguales de tamaño y c) clases abiertas.
TAMAÑO O AMPLITUD DE UN INTERVALO DE CLASE.
El tamaño o la amplitud de un intervalo de clase es la diferencia entre las fronteras de clase inferior y superior y se le conoce como amplitud, tamaño o longitud de clase. Si todos los intervalos de una distribución de frecuencia son de la misma amplitud, a esta amplitud común se le denota por c. En tal caso, c es igual a la diferencia entre dos limites inferiores (o superiores) de clases sucesivas. Para los datos de la tabla 2–1, por ejemplo, la amplitud del intervalo de clase es c = 62.5–59.5=65.5–62.5=3.
MARCA DE CLASE
La marca de clase, que es el punto medio del intervalo de clase, se obtiene promediando los límites inferior y superior de clase. De este modo, la marca de clase del intervalo 60–62 es (60+62)/ 2 = 61. A la marca de clase también se le denomina punto medio de clase.
Marca de clase La marca de clase es el punto medio de cada intervalo. La marca de clase es el valor que representa a todo el intervalo para el cálculo de algunos parámetros. Se representa por ci.
REGLAS GENERALES PARA CONSTRUIR DISTRIBUCIONES DE FRECUENCIA.
1. Determinar el número mayor y el menor en los datos sueltos con el fin de especificar el rango (la diferencia entre ambos).
2. Dividir el rango en un número adecuado de intervalo de clase del mismo tamaño. Si esto no es posible, usar intervalos de clase de distintos tamaños o intervalos de clase abiertos. Se suelen tomar entre 5 y 20 intervalos de clase, según los datos. Los intervalos de clase se eligen también de modo tal que las marcas de clase (o puntos medios) coincidan con los datos realmente observados. Ello tiende a disminuir el llamado error de agrupamiento que se produce en análisis matemáticos posteriores. No obstante, las fronteras de clase no debieran coincidir con los datos realmente observados.
3. Determinar el número de observaciones que corresponden a cada intervalo de clase; es decir, hallar las frecuencias de clase.
Clase o Intervalo de clase.
Son divisiones o categorías en las cuales se agrupan un conjunto de datos ordenados con características comunes. En otras palabras, son fraccionamientos del rango o recorrido de la serie de valores para reunir los datos que presentan valores comprendidos entre dos limites.
Para organizar los valores de la serie de datos hay que determinar un número de clases que sea conveniente. En otras palabras, que ese número de intervalos no origine un número pequeño de clases ni muy grande. Un número de clases pequeño puede ocultar la naturaleza natural de los valores y un número muy alto puede provocar demasiados detalles como para observar alguna información de gran utilidad en la investigación.
Tamaño de los Intervalos de Clase
Los intervalos de clase pueden ser de tres tipos, según el tamaño que estos presenten en una distribución de frecuencia:
a) Clases de igual tamaño, b) clases desiguales de tamaño y c) clases abiertas.
Tipos de frecuencia
Fig.1 Ejemplo: variables de A en una muestra estadística de un conjunto B de tamaño 50 (N)En estadística se pueden distinguir hasta cuatro tipos de frecuencias (véase fig.1), estas son: Frecuencia absoluta (ni) de una variable estadística Xi, es el número de veces que aparece en el estudio este valor. A mayor tamaño de la muestra, aumentará el tamaño de la frecuencia absoluta; es decir, la suma total de todas las frecuencias absolutas debe dar el total de la muestra estudiada (N). Frecuencia relativa (fi), es el cociente entre la frecuencia absoluta y el tamaño de la muestra (N). Es decir, siendo el fi para todo el conjunto i. Se presenta en una tabla o nube de puntos en una distribución de frecuencias. Si multiplicamos la frecuencia relativa por 100 obtendremos el porcentaje o tanto por ciento (pi) que presentan esta característica respecto al total de N, es decir el 100% del conjunto.
Frecuencia absoluta acumulada (Ni), es el número de veces ni en la muestra N con un valor igual o menor al de la variable. La última frecuencia absoluta acumulada deberá ser igual a N. Frecuencia relativa acumulada (Fi), es el cociente entre la frecuencia absoluta acumulada y el número total de datos, N. Es decir, Con la frecuencia relativa acumulada por 100 se obtiene el porcentaje acumulado (Pi)), que al igual que Fi deberá de resultar al final el 100% de N.
Histograma
En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.
Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.
Ejemplos de tipos de representaciones gráficas Histogramas:Se agrupan los datos en clases, y se cuenta cuántas observaciones (frecuencia absoluta) hay en cada una de ellas. En algunas variables (variables cualitativas) las clases están definidas de modo natural, p.e sexo con dos clases: mujer, varón o grupo sanguíneo con cuatro: A, B, AB, O. En las variables cuantitativas, las clases hay que definirlas explícitamente (intervalos de clase).
Se representan los intervalos de clase en el eje de abcisas (eje horizontal) y las frecuencias, absolutas o relativas, en el de ordenadas (eje vertical).
A veces es más útil representar las frecuencias acumuladas.
O representar simultáneamente los histogramas de una variable en dos situaciones distintas.
Otra forma muy frecuente, de representar dos histogramas de la misma variable en dos situaciones distintas.
Otra más En las variables cuantitativas o en las cualitativas ordinales se pueden representar polígonos de frecuencia en lugar de histogramas, cuando se representa la frecuencia acumulativa, se denomina ojiva.