Regresión Lineal

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 20

Regresión lineal

PROBABILIDAD Y ESTADÍSTICA
Diagrama de dispersión
Es la ubicación de los datos muestrales en un plano bidimensional, el cual proporciona
una imagen visual del tipo de relación involucrada y sugiere el tipo de ecuación que
mejor se ajustará a los datos.

2 Claudia Leticia Cen Che


Ejemplo:
Se desea determinar la relación entre los promedio de puntos de calificación (PPC) de
bachillerato y universidad. Según algunos estudios si el PPC de un estudiante en
bachillerato es alto, es posible que le vaya bien en la universidad. La información que se
tiene es la siguiente:
Estudiante PPC Bachiller PPC Univ Estudiante PPC Bachiller PPC Univ

1 3 5 11 4 8
2 2 4 12 8 4
3 4 4 13 3 7
4 12 9 14 12 6
5 11 8 15 9 8
6 8 9 16 8 5
7 9 7 17 11 10
8 7 8 18 7 7
9 6 5 19 8 6
10 5 6 20 10 5

3 Claudia Leticia Cen Che


Realizando el diagrama de dispersión:

X: promedio de puntos de calificación en bachillerato


Y: promedio de puntos de calificación en universidad

4 Claudia Leticia Cen Che


¿Cómo se construyó?
1. Se localizan loa valores de la variable independiente X sobre el eje horizontal
2. Se localizan los valores de la variable dependiente Y sobre el eje vertical
3. Los pares de observaciones X y Y ; (X,Y) está representado mediante un punto
en el plano
4. La forma más tosca de trazar una recta a través de estos puntos es el método
llamado de “mano alzada”. La cual implica trazar una línea recta a “mano
alzada” a través de/o cerca de los puntos del diagrama de dispersión, de manera
que el número de puntos que se encuentren por debajo de la recta sea casi igual
al de aquellos que se encuentran por encima de la línea.

5 Claudia Leticia Cen Che


Nota:
No existe un límite para el número de líneas rectas que podrían trazarse en cualquier
diagrama de dispersión.
Muchas de las rectas no ajustan o no corresponden a los datos y deberán desecharse,
mientras que puede parecer que otras ajustan muy bien con los puntos. Sin embargo solo se
necesita una recta.
El objetivo principal es seleccionar la recta que ajusta “mejor” a los datos.
¿MEJOR?
Todos los puntos del diagrama caen sobre una recta. Sin embargo, rara vez ocurre.

6 Claudia Leticia Cen Che


¿Cuál es la recta con el mejor ajuste?

Para ajustar una recta, se utiliza el CRITERIO DE MÍNIMOS CUADRADOS.

Este criterio implica que la recta elegida para ajustar los puntos del diagrama de
dispersión sea tal que la suma de los cuadrados de las distancias verticales entre los
puntos y la recta sea lo más pequeña posible.

En el ejemplo anterior, cada punto representa un par ordenado de observaciones… lo


que se quiere es “ajustar” esos puntos de forma tal que “queden” sobre una recta:

Y= a + bx
7 Claudia Leticia Cen Che
(x16, a+b x16)

(x1, y1) (x16, y16)

(x1, a+b x1)

8 Claudia Leticia Cen Che


… entonces
Hay 20 desviaciones verticales entre los dos valores, entre la recta y el punto observado:

Y1 – (a + b x 1)
Y2 – (a + b x 2)
Y3 – ( a + b x 3)
.
.
.
Y20 – (a + b x 20)
_________________
 Y  a  bX 2

El criterio de mínimos cuadrados exige que sea la suma mínima. Entonces cualquier recta
que minimice esta cantidad recibe el nombre de RECTA DE MÍNIMOS
CUADRADOS.
9 Claudia Leticia Cen Che
a : es la intersección con el eje Y
b: es la pendiente de la recta

a y b son los coeficientes de regresión


10 Claudia Leticia Cen Che
Ecuaciones normales
Los valores de a y b que hacen que la suma de los cuadrados de las desviaciones sean tan
pequeñas como es posible se obtienen resolviendo al mismo tiempo LAS ECUACIONES
NORMALES.
n n

y
i 1
i  a n  b  xi
i 1
n n n

x yi  a  xi  b  xi
2
i
i 1 i 1 i 1

n, es el número de pares de observaciones


Con excepción de a y b, todos los datos se pueden calcular.
11 Claudia Leticia Cen Che
Estudiante PPC PPC Univ XY X²
Bachiller y
x
1 3 5 15 9

2 2 4 8 4

3 4 4 16 16

4 12 9 108 144

5 11 8 88 121

6 8 9 72 64

7 9 7 63 81

8 7 8 56 49

9 6 5 30 36

10 5 6 30 25

12 Claudia Leticia Cen Che


Estudiante PPC PPC Univ XY X²
Bachiller y
x
11 4 8 32 16

12 8 4 32 64

13 3 7 21 9

14 12 6 72 44

15 9 8 72 81

16 8 5 40 64

17 11 10 110 121

18 7 7 49 49

19 8 6 48 64

20 10 5 50 100

n=20 ∑X=147 ∑ Y=131 ∑XY= 1012 ∑X²=1261

13 Claudia Leticia Cen Che


Sustituyendo esos valores en las ECUACIONES NORMALES:

n n

(1) y
i 1
i  a n  b  xi
i 1
n n n

x yi  a  xi  b  xi
2
(2) i
i 1 i 1 i 1

Resolviendo las ecuaciones:


(1) 131= 20 a + 147 b b= 0.272
(2) 1012= 147 a + 1261 b a= 4.55

La ecuación de mínimos cuadrados es entonces:

Y= 4.55 + 0.272 x
14 Claudia Leticia Cen Che
Las fórmulas para a y b, pueden obtenerse resolviendo algebraicamente las ecuaciones (1) y (2).
Se tiene:
 x  y   x  xy 
a 
2

n x   x  2 2

n xy    x  y 
b
n x 2   x 
2

a
1261131  147 1012  165191  148764  16427  4.55
20 1261  147  25220  21609
2
3611

201012  147 131 20240  19257 983


b    0.272
201261  147  25220  21609 3611
2

La ecuación de mínimos cuadrados es entonces:

Y= 4.55 + 0.272 x
15 Claudia Leticia Cen Che
16 Claudia Leticia Cen Che
Una vez que se determina la ecuación de la recta de mínimos cuadrados, es posible predecir el
desempeño académico de un estudiante en la universidad con base a su desempeño en bachillerato.
Ejemplo:
Si el PPC de un estudiante en bachillerato es 10; su PPC en la universidad puede predecirse
sustituyendo x=10 en la ecuación anterior:
Y = 4.55 + 0.27 x ------------------ y = 4.55 + 0.27 (10)
y= 4.55 + 2.7
y= 7.25

El PPC predicho es 7.25 es lo que puede esperarse si el PPC de bachillerato es 10.


Es posible que distintos estudiantes con el mismo PPC de bachillerato puedan tener PPC bastante diferente
en la universidad. Por lo que, cualquier predicción basada en rectas de mínimos cuadrados deberá
considerarse como promedio. Por esta razón a la recta de mínimos cuadrados a menudo se le denomina
MEDIA CONDICIONAL. Cualquier punto sobre la recta es la media de todos los posibles valores Y
asociados con un valor dado predeterminado de X.

17 Claudia Leticia Cen Che


Ejercicio:
1. Los datos siguientes son relativos a los residuos de cloro en una alberca en diversos
momentos después de que se ha tratado con productos químicos:
Número de horas Residuos de cloro (partes por millón)
X Y
2 1.8
4 1.5
6 1.4
8 1.1
10 1.1
12 0.9

a) Ajusta una línea de mínimos cuadrados con la que se pueda predecir los residuos
de cloro en función del número de horas después de que al alberca ha sido tratada
con los productos químicos
b) Utiliza la ecuación de los mínimos cuadrados para estimar los residuos de cloro en
la alberca 5 horas después de que se ha tratado con productos químicos

18 Claudia Leticia Cen Che


2. Los siguientes datos son las mediciones de la velocidad del aire y del coeficiente de
evaporación de las gotitas de combustible en una turbina de propulsión:

Velocidad del aire Coeficiente de


(cm/seg) evaporación (mm^2/seg) Ajusta una línea recta a estos
X Y datos por el método de mínimos
cuadrados y utilízala para
20 0.18
estimar el coeficiente de
60 0.37 evaporación de una gotita
100 0.35 cuando la velocidad del aire es
de 190 cm/seg.
140 0.78
180 0.56 R= y=0.069 + 0.0038x
220 0.75
260 1.18
300 1.36
340 1.17
380 1.65

19 Claudia Leticia Cen Che


Respuestas:

1. Σx= 42 Σx²= 364 (Σx)²=1764 Σy= 7.8 Σxy= 48.6 n= 6


2. Σx= 2000 Σx²= 532,000 (Σx)²=4,000,000 Σy= 8.35 Σxy= 2175.4
n= 10

20 Claudia Leticia Cen Che

También podría gustarte

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy