lunes, 24 de noviembre de 2014

RECTA DE REGRESION POR EL METODO DE LOS MINIMOS CUADRADOS

RECTA DE REGRESION POR EL METODO DE LOS MINIMOS CUADRADOS

REGRESION LINEAL

La regresión lineal o ajuste lineal es un método matemático que modela la relación entre una variable dependiente Y, las variables independientes Xi y un término aleatorio ε. Este modelo puede ser expresado como:
Y_t = \beta_0  + \beta_1 X_1 + \beta_2 X_2 +  \cdots +\beta_p X_p + \varepsilon
 Y= m(x) + b










METODO DE LOS MINIMOS CUADRADOS

Mínimos cuadrados es una técnica de análisis numérico enmarcada dentro de la optimización matemática, en la que, dados un conjunto de pares ordenados: variable independiente, variable dependiente, y una familia de funciones, se intenta encontrar la función continua, dentro de dicha familia, que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.

Y= m(x) + b



EN EL SIGUIENTE VIDEO ENCONTRARAS LA FORMA EN COMO SE RESUELVE UN EJERCICIO APLICANDO EL METODO DE LOS MINIMOS CUADRADOS






COEFICIENTE DE CORRELACION "r" DE PEARSON

COEFICIENTE DE CORRELACION "r" DE PEARSON

CORRELACION LINEAL

La correlación indica la fuerza y la dirección de una relación lineal y proporcionalidad entre dos variables estadísticas. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. La correlación entre dos variables no implica, por sí misma, ninguna relación de causalidad.

COEFICIENTE "r" DE PEARSON

El coeficiente de correlación de Pearson es una medida de la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.
Podemos calcular este coeficiente sobre un estadístico muestral, denotado como r_{xy} a:

r_{xy}=\frac{\sum x_iy_i-n \bar{x} \bar{y}}{n s_x s_y}=\frac{n\sum x_iy_i-\sum x_i\sum y_i}
{\sqrt{n\sum x_i^2-(\sum x_i)^2}~\sqrt{n\sum y_i^2-(\sum y_i)^2}}.
  • INTERPRETACION
    • Si r = 1, existe una correlación positiva perfecta. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta, la otra también lo hace en proporción constante.
    • Si 0 < r < 1, existe una correlación positiva.
    • Si r = 0, no existe relación lineal. Pero esto no necesariamente implica que las variables son independientes: pueden existir todavía relaciones no lineales entre las dos variables.
    • Si -1 < r < 0, existe una correlación negativa.
    • Si r = -1, existe una correlación negativa perfecta. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta, la otra disminuye en proporción constante.

    EL SIGUIENTE VIDEO MUESTRA UN PROBLEMA RESUELTO POR SU SERVIDOR EN DONDE APLICAMOS EL COEFICIENTE "r" DE PEARSON







    lunes, 29 de septiembre de 2014

    COMO REPRESENTAR TABLAS DE VARIABLES CUANTITATIVAS

    CARACTERISTICAS Y FORMAS GRAFICAS PARA REPRESENTAR TABLAS DE VARIABLES CUANTITATIVAS

    Para las variables cuantitativas, consideraremos dos tipos de gráficos, en función de que para realizarlos se usen las frecuencias (absolutas o relativas) o las frecuencias acumuladas:
    Diagramas diferenciales:
    Son aquellos en los que se representan frecuencias absolutas o relativas. En ellos se representa el número o porcentaje de elementos que presenta una modalidad dada.
    Diagramas integrales:
    Son aquellos en los que se representan el número de elementos que presentan una modalidad inferior o igual a una dada. Se realizan a partir de las frecuencias acumuladas, lo que da lugar a gráficos crecientes, y es obvio que este tipo de gráficos no tiene sentido para variables cualitativas. 
    Según hemos visto existen dos tipos de variables cuantitativas: discretas y continuas. Vemos a continuación las diferentes representaciones gráficas que pueden realizarse para cada una de ellas así como los nombres específicos que reciben.

    Gráficos para variables discretas

    Cuando representamos una variable discreta, usamos el diagrama de barras cuando pretendemos hacer una gráfica diferencial. Las barras deben ser estrechas para representar el que los valores que toma la variable son discretos. El diagrama integral o acumulado tiene, por la naturaleza de la variable, forma de escalera. Un ejemplo de diagrama de barras así como su diagrama integral correspondiente están representados en la siguiente figura.


    Se lanzan tres monedas al aire en 8 ocasiones y se contabiliza el número de caras, X, obteniendose los siguientes resultados: 
    \begin{displaymath}X{\leadsto}\, 2,1,0,1,3,2,1,2
\end{displaymath}

    Representar gráficamente el resultado.
    Solución: En primer lugar observamos que la variable X es cuantitativa discreta, presentando las modalidades:

    \begin{displaymath}X\in{0,1,2,3}
\end{displaymath}

    Ordenamos a continuación los datos en una tabla estadística, y se representa la misma en la siguiente figura.

    Figura: Diagrama diferencial (barras) e integral para una variable discreta. Obsérvese que el diagrama integral (creciente) contabiliza el número de observaciones de la variable inferiores o iguales a cada punto del eje de abscisas.
    \includegraphics[angle=0, width=0.8\textwidth]{fig01-06.eps}

    xinifiNiFi
    011/811/8
    133/844/8
    233/877/8
    311/888/8
    n=81

    Ejemplo

    Clasificadas 12 familias por su número de hijos se obtuvo:

    Número de hijos (xi)1234
    Frecuencias (ni)1353

    Comparar los diagramas de barras para frecuencias absolutas y relativas. Realizar el diagrama acumulativo creciente.
    Solución: En primer lugar, escribimos la tabla de frecuencias en el modo habitual:

    VariableF. AbsolutasF. RelativasF. Acumuladas
    xinifiNi
    110,0831
    230,2504
    350,4169
    430,25012
    121

    Con las columnas relativas a xi y ni realizamos el diagrama de barras para frecuencias absolutas, lo que se muestra en la siguiente figura. Como puede verse es identico (salvo un cambio de escala en el eje de ordenadas) al diagrama de barras para frecuencias relativas y que ha sido calculado usando las columnas de xi y fi. El diagrama escalonado (acumulado) se ha construido con la información procedente de las columnas xi y Ni.

    Figura: Diagramas de frecuencias para una variable discreta
    \includegraphics[angle=0, width=0.8\textwidth]{fig01-07.eps}

    Gráficos para variables continuas

    Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polígonos de frecuencias.

    Un histograma se construye a partir de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.

    El polígono de frecuencias se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante lineas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase. Obsérvese que de este modo, el polígono de frecuencias tiene en común con el histograma el que las áreas de la gráficas sobre un intervalo son idénticas. 

    El diagrama integral para una variable continua se denomina también polígono de frecuencias acumulado, y se obtiene como la poligonal definida en abcisas a partir de los extremos de los intervalos en los que hemos organizado la tabla de la variable, y en ordenadas por alturas que son proporcionales a las frecuencias acumuladas. Dicho de otro modo, el polígono de frecuencias absolutas es una primitiva del histograma. Véase la parte inferior de la figura en la que se representa a modo de ilustración los diagramas correspondientes a la variable cuantitativa continua expresada en la tabla siguiente:

    IntervalosciniNi
    0 -- 2122
    2 -- 4313
    4 -- 6547
    6 -- 87310
    8 - 109212
    12

    Figura: Diagramas diferenciales e integrales para una variable continua.
    \includegraphics[angle=0, width=0.5\textwidth]{fig01-08.epsi}

    Ejemplo

    La siguiente distribución se refiere a la duración en horas (completas) de un lote de 500 tubos:

    Duración en horasNúmero de tubos
    300 -- 50050
    500 -- 700150
    700 -- 1.100275
    más de 1.10025
    Total 500
    • Representar el histograma de frecuencias relativas y el polígono de frecuencias.
    • Trazar la curva de frecuencias relativas acumuladas.
    • Determinar el número mínimo de tubos que tienen una duración inferior a 900 horas.
    Solución: En primer lugar observamos que la variable en estudio es discreta (horas completas), pero al tener un rango tan amplio de valores resulta más conveniente agruparla en intervalos, como si de una variable continua se tratase. La consecuencia es una ligera perdida de precisión.
    El último intervalo está abierto por el límite superior. Dado que en él hay 25 observaciones puede ser conveniente cerrarlo con una amplitud ``razonable''. Todos los intervalos excepto el tercero tienen una amplitud de 200 horas, luego podríamos cerrar el último intervalo en 1.300 horas.

    Antes de realizar el histograma conviene hacer una observación importante. El histograma representa las frecuencias de los intervalos mediante áreas y no mediante alturas. Sin embargo nos es mucho más fácil hacer representaciones gráficas teniendo en cuenta estas últimas. Si todos los intervalos tienen la misma amplitud no es necesario diferenciar entre los conceptos de área y altura, pero en este caso el tercer intervalo tiene una amplitud doble a los demás, y por tanto hay que repartir su área en un rectángulo de base doble (lo que reduce su áltura a la mitad). 
    Así será conveniente añadir a la habitual tabla de frecuencias una columna que represente a las amplitudes ai de cada intervalo, y otra de frecuencias relativas rectificadas, fi', para representar la altura del histograma. 

    Intervalosainififi'Fi
    300 -- 500200500,100,100,10
    500 -- 7002001500,300,300,40
    700 -- 1.1004002750,550,2750,95
    1.100 -- 1.300200250,050,051,00
    n=500

    Figura: Histograma. Obsérvese que la altura del histograma en cada intervalo es fi' que coincide en todos con fisalvo en el intervalo 700 -- 1.100 en el que $f_i{\mbox{$'$ }}= 1/2\, f_i$ ya que la amplitud de ese intervalo es doble a la de los demás.
    \includegraphics[angle=0, width=0.7\textwidth]{fig01-09.eps}


    Figura: Diagrama acumulativo de frecuencias relativas
    \includegraphics[angle=0, width=0.8\textwidth]{fig01-10.eps}

    Por otro lado, se ve que sumando frecuencias relativas, hasta las 900 horas de duración hay
    0,10 + 0,30 + 0,275 = 0,675 = 67,5 % de los tubos.
    Esta cantidad se obtiene de modo más directo viendo a qué altura corresponde al valor 900 en el diagrama de frecuencias acumuladas.
    Como en total son 500 tubos, el número de tubos con una duración igual o menor que 900 horas es $
0,675 \times 500= 337,5
$, redondeando, 338 tubos.


    Tabla: Principales diagramas según el tipo de variable.
    Tipo de variableDiagrama
    V. CualitativaBarras, sectores, pictogramas
    V. DiscretaDiferencial (barras)
    Integral (en escalera)
    V. ContinuaDiferencial (histograma, polígono de frecuencias)
    Integral (diagramas acumulados)
    COMO REPRESENTAR TABLAS DE VARIABLES CUALITATIVAS
    (CARACTERISTICAS Y FORMAS GRAFICAS)



    Los gráficos más usuales para representar variables de tipo nominal son los siguientes:
    Diagramas de barras:
    Representamos en el eje de ordenadas las modalidades y en abscisas las frecuencias absolutas o bien, las frecuencias relativas. Si, mediante el gráfico, se intenta comparar varias poblaciones entre sí, existen otras modalidades, como las mostradas en la segundo figura. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas, ya que en otro caso podrían resultar engañosas.

    Figura: Diagrama de barras para una variable cualitativa.
    \includegraphics[angle=0, width=0.5\textwidth]{fig01-01.eps}


    Figura: Diagramas de barras para comparar una variable cualitativa en diferentes poblaciones. Se ha de tener en cuenta que la altura de cada barra es proporcional al número de observaciones (frecuencias relativas).
    \includegraphics[angle=-90, width=0.5\textwidth]{fig01-02.eps}


    Diagramas de sectores
    Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa.

    Figura: Diagrama de sectores.
    \includegraphics[angle=-90, width=0.6\textwidth]{fig01-03.epsi}

    El arco de cada porción se calcula usando la regla de tres:

    \begin{eqnarray}\html{eqn1}n & \longrightarrow & 360^{\circ} \nonumber
\\
n_i & \longrightarrow &x_i = \frac{360 \cdot n_i}{n} \nonumber
\end{eqnarray}

    Como en la situación anterior, puede interesar comparar dos poblaciones. En este caso también es aconsejable el uso de las frecuencias relativas (porcentajes) de ambas sobre gráficos como los anteriores. Otra posibilidad es comparar las 2 poblaciones usando para cada una de ellas un diagrama semicircular, al igual que en la segunda figura. Sean $n_1 \leq n_2$ los tamaños respectivos de las 2 poblaciones. La población más pequeña se representa con un semicírculo de radio r1y la mayor con otro de radio r2. La relación existente entre los radios, es la que se obtiene de suponer que la relación entre las areas de las circunferencias es igual a la de los tamaños de las poblaciones respectivas, es decir:


    \begin{displaymath}\frac{r_2^2}{r_1^2} = \frac{n_2}{n_1} \Longleftrightarrow
r_2 = r_1 \cdot \sqrt{\frac{n_2}{n_1}}
\end{displaymath}



    Figura: Diagrama de sectores para comparar dos poblaciones
    \includegraphics[angle=-90, width=0.6\textwidth]{fig01-04.epsi}

    CONSTRUIR TABLAS DE FRECUENCIAS POR INTERVALOS

    La frecuencia absoluta de un dato es el número de veces que se da un resultado concreto y la frecuencia relativa es el porcentaje que representa la frecuencia absoluta respecto del total.

    La media aritmética representa el valor medio que toman los datos de una observación estadística. Se calcula sumando todos los resultados y dividiendo la suma entre el número de registros. La media aritmética tan sólo se puede calcular con datos numéricos (no se puede calcular con datos cualitativos).

    Moda: es el resultado más repetido en una observación estadística (se puede calcular con datos numéricos y cualitativos).


    La media la hemos calculado sumando las 20 estaturas (33,23 cm) y dividiéndolo entre el número de datos (20).

    Las frecuencias absolutas o relativas se pueden representar sobre una gráfica de barras en la que la altura de cada barra representa el valor de la frecuencia.


    En este gráfico hemos representado la frecuencia absoluta.

    También se puede utilizar el diagrama de sectores para representar las frecuencias (absolutas o relativas). Se utiliza un círculo dividido en sectores; cada sector representa cada uno de los posibles valores que toma la variable que se mide; la superficie del sector mide el valor de la frecuencia (absoluta o relativa). 


    COMO CONSTRUIR TABLAS DE VARIABLES CUALITATIVAS


    Una tabla estadística sirve para presentar de forma ordenada las distribuciones de frecuencias. Su forma general es la siguiente: 


    ModalidadFrecuencia AbsolutaFrecuencia RelativaPorcentajeFrecuencia Absoluta AcumuladaFrecuencia Relativa Acumulada
    ci, xinipi=100 fi


    TABLA PARA VARIABLE CUALITATIVA

    En el caso de variable cualitativa no se pueden calcular las frecuencias acumuladas pues no es posible establecer un orden en las clases dentro de la modalidad.Colocamos en la tabla aquellos valores que son independientes del lugar en que se pongan las modalidades. 
    Calculemos la tabla de frecuencias para una variable cualitativa.
    Inactivos por tipos de inactividad declarada (miles de personas).

    Modalidadnifipi
    Estudiante522,60,138013,80%
    Percibiendo una pensión de jubilación o unos ingresos de prejubilación712,30,188218,82%
    Labores del hogar1.480,000,391039,10%
    Incapacitado permanente 265,90,07027,02%
    Percibiendo una pensión distinta de la jubilación o prejubilación525,30,138813,88%
    Otras situaciones279,50,07387,38%
     3785,61100,00%