Larotonda CA Print
Larotonda CA Print
Larotonda CA Print
varias variables
U N CURSO INTRODUCTORIO
Gabriel Larotonda
FCEyN-UBA
2020
FCEN-UBA A NÁLISIS 1 A LIMENTOS Álgebra lineal y Cálculo
Este texto presenta una introducción a los temas de cálculo en varias variables reales, y para ello
no presupone conocimientos de álgebra lineal ya que las ideas necesarias para su desarrollo están
presentadas en los primeros capítulos.
Si bien el tratamiento es riguroso, hemos omitido la mayor parte de las demostraciones de los teore-
mas que enunciamos y utilizamos, concentrándonos más en sus interpretaciones, aplicaciones y usos.
El lector interesado en las pruebas puede recurrir a textos clásicos de Cálculo como el de Stewart
“Cálculo de varias variables”, o el texto del que suscribe “Cálculo y Análisis”.
Hemos incluido lecciones grabadas en video que recorren todos los temas de este texto de manera
coherente, que pueden verse online o descargarse para ver luego. Los hipervínculos a esos videos
pueden hallarse al comienzo de cada sección.
También hemos usado el software GeoGebra para ilustrar algunos de los ejemplos que se presentan
en el texto, el lector hallará que clickeando en el hipervínculo correspondiente se abre una página web
de geogebra. En ocasiones el applet de Geogebra tiene sliders para modificar los gráficos presentados
de manera dinámica.
5
FCEN-UBA A NÁLISIS 1 A LIMENTOS Álgebra lineal y Cálculo
y
Los pares ordenados de números reales se pueden re-
V = (v1 , v2 )
v2 presentar en el plano con dos ejes perpendiculares, el
eje horizontal donde van las x es el eje de abcisas y
el eje vertical donde van las y es el eje de ordenadas.
Este plano se denomina plano euclideo o plano car-
(0, 0) v1 x tesiano.
7
FCEN-UBA A NÁLISIS 1 A LIMENTOS Álgebra lineal y Cálculo
DEFINICIÓN 1.1.5 (Vectores en coordenadas). Dado un par ordenado (a, b) ∈ R2 , lo podemos pen-
sar como un punto del plano, pero también como un vector: dibujamos la flecha con origen en (0, 0)
y extremo en (a, b) -ver la Figura 1.1-.
2V
V 1/2 V
−1/2 V
−V
1. Producto de un vector por un número: λV = (λv1 , λv2 ), se multiplican ambas coordenadas por
el mismo número. Corresponde geométricamente a estirar, contraer o dar vuelta el vector (esto
último con números negativos).
V +W
O
W
V ·W = v1 w1 + v2 w2 .
V V ⊥W
V
α α = π/2 (90o )
O O
W W
−kV k kW k ≤ V ·W ≤ kV k kW k.
DEFINICIÓN 1.1.12 (Vectores ortogonales). Decimos que V,W son ortogonales si son perpendicu-
lares, y lo denotamos V ⊥ W .
OBSERVACIÓN 1.1.13 (Ortogonalidad y producto interno). Dos vectores V,W son ortogonales ⇔
el ángulo que forman es α = ± π2 (90 grados) ⇔ se tiene cos α = 0, y esto último por la ecuación
(1.1.1) es equivalente a que V ·W = 0. Luego
V ⊥ W ⇐⇒ V ·W = 0. (1.1.2)
2. V +W = (v1 + w1 , v2 + w2 , · · · , vn + wn )
q
3. kV k = v21 + v22 + · · · + v2n .
4. V ·W = v1 w1 + v2 w2 + · · · + vn wn .
Estas operaciones tienen las mismas propiedades ya enunciadas en 1.1.7, 1.1.9 y 1.1.11.
Dados V,W ∈ Rn podemos pensar que están en un plano bidimensional, luego aplican las reglas
geométricas para producto por números y suma (usando la ley del paralelogramo). Es más, está bien
definido el ángulo entre ellos, y se calcula usando la ecuación (1.1.1). También vale por este motivo
V ·W = 0 ⇔ V ⊥ W = 0.
L : tV + P, t ∈ R.
L : t(Q − P) + P, t ∈ R.
PQ
O Q
P
L1 : tV + P L2 : sW + Q
con los parámetros s,t ∈ R, entonces L1 es paralela a L2 (denotado L1 //L2 ) si y sólo si V = λW para
algún λ ∈ R. Equivalentemente, como V,W son no nulos, son paralelas si y sólo si W = αV para algún
α ∈ R.
Las rectas L, L0 de la Figura 1.5 son paralelas.
DEFINICIÓN 1.2.4 (Forma paramétrica del plano). Dados V,W, P ∈ Rn , el plano π generado por
V,W que pasa por P tiene ecuación
Π : sV + tW + P, s,t ∈ R.
Los vectores V,W son los generadores de Π y s,t son los parámetros.
OBSERVACIÓN 1.2.5 (Plano que pasa por tres puntos). Si P, Q, R ∈ Rn no están alineados, existe
un único plano Π que pasa por los tres puntos. Su ecuación paramétrica es
R
P Π
Q
R−P
O
Q−P
Π0 = α(Q − P) + β(R − P), α, β ∈ R
1. V ×W = −W ×V (no es conmutativo).
2. (V +W ) × Z = V × Z +W × Z.
por las propiedades recién enunciadas. Entonces V ×W tiene producto interno nulo contra cualquier
punto del plano Π. Luego V × W es perpendicular a cualquier punto del plano Π, por lo remarcado
en (1.1.2).
Por la observación previa, siempre podemos tomar Nπ = V ×W si V,W son generadores del plano.
X
Nπ = V ×W
P
Π
W
X −P
O V
Π: X · Nπ = P · Nπ .
Π: ax + by + cz = d,
donde d = P · Nπ ∈ R. Los números a, b, c, d son los coeficientes de la ecuación. Una tal ecucación es
una ecuación lineal.
DEFINICIÓN 1.2.11 (Posiciones relativas). Dos rectas L1 , L2 ⊂ Rn son
1. Paralelas si tienen vectores directores alineados.
2. Ortogonales si se cortan y tiene vectores directores ortogonales.
3. Alabeadas si no se cortan pero tampoco son paralelas.
Dos planos Π1 , Π2 ⊂ R3 son paralelos si tienen vectores normales paralelos; equivalentemente si
N1 = λN2 para algún λ ∈ R. Los planos de la Figura 1.6 son paralelos.
Π2
Π1
L = Π1 ∩ Π2
son equivalentes porque la segunda ecuación de S1 es en realidad, una copia de la primera ecuación
(multiplicada por (−2)).
PROPOSICIÓN 1.3.3 (Operaciones con filas). Las operaciones permitidas para transformar un
sistema en otro equivalente son dos:
1. Multiplicar una fila por un número λ , 0 (ambos lados del igual).
2. Sumar dos filas y guardar el resultado en el lugar de cualquiera de las dos que sumamos.
Combinando estas dos operaciones podemos escribir
Fi + λFj −→ Fi λ ∈ R,
que se interpreta como: multiplicar la fila j por λ, sumarle la fila i, y guardar el resultado en el lugar
de la fila i.
DEFINICIÓN 1.3.4 (Clasificación del conjunto de soluciones). Los sistemas lineales se clasifican
en compatibles e incompatibles. Los compatibles tienen al menos una solución, los incompatibles no
tienen solución (equivalentemente, el conjunto de soluciones de un sistema incompatible es vacío).
Los sistemas compatibles se clasifican en compatible determinado (cuando tienen una única solución)
y compatible indeterminado (cuando tiene más de una solución; en ese caso siempre tiene infinitas
soluciones).
DEFINICIÓN 1.3.5 (Matriz ampliada de un sistema lineal). Dado un sistema lineal como (1.3.1),
podemos escribir su matriz ampliada como
a11 a12 · · · a1n b1
a21 a22 · · · a2n b2
...
..
. .
ak1 ak2 · · · akn bk
SISTEMA LINEAL
INCOMPATIBLE COMPATIBLE
(sin solución)
Sol. = 0/
DETERMINADO INDETERMINADO
(única solución) (infinitas soluciones)
Sol. = {P} Sol. = recta, plano, etc.
El bloque que está a la izquierda de la barra vertical se denomina matriz del sistema; esta matriz tiene
n columnas y k filas.
DEFINICIÓN 1.3.6 (Método de Gauss y matriz escalonada). El método de Gauss para resolver un
sistema lineal consiste en hacer operaciones con las filas de la matriz ampliada, hasta obtener una ma-
triz escalonada: cada fila de una matriz escalonada tiene su primer coeficiente no nulo (comenzando
desde la izquierda) a la derecha del primer coeficiente no nulo de la fila superior.
a11 a12 · · · a1n b1
0 a22 · · · a2n b2
...
..
. .
0 0 · · · akn bk
Puede ocurrir que el primer coeficiente no nulo de la fila inferior esté varios lugares a la derecha,
como en este ejemplo de matriz escalonada:
3 0 –2 7 –4 0 –2 2
0 0 0 3 1 –2 1 0. (1.3.2)
0 0 0 0 0 7 –1 2
DEFINICIÓN 1.3.7 (Ecuaciones independientes). En una matriz (o un sistema) escalonado, las ecua-
ciones son independientes (descartamos las filas de ceros). La cantidad de filas (ecucaciones) inde-
pendientes es la cantidad de restricciones del sistema.
DEFINICIÓN 1.3.8 (Solución de un sistema lineal). Se busca dar una expresión paramétrica del
conjunto de soluciones del sistema, la dimensión del conjunto solución es la cantidad de parámetros
independientes. Se puede calcular la dimensión del conjunto como la dimensión del espacio total
menos la cantidad de restricciones (cantidad de ecuaciones independientes).
EJEMPLO 1.3.9 (Soluciones del sistema (1.3.2)). Como la matriz del sistema (sin ampliar) tiene 7
columnas, es un sistema con siete variables y las soluciones son de la forma X = (x1 , x2 , x3 , x4 , x5 , x6 , x7 ).
El sistema está escalonado, las tres ecuaciones son indpendientes. El conjunto solución tiene que tener
dimensión 7 − 3 = 4; la solución se tiene que poder expresar usando 4 parámetros independientes. Lo
resolvemos: la última fila se reescribe como ecuación
7x6 − x7 = 2.
La segunda fila se corresponde con la ecuación 3x4 + x5 − 2x6 + x7 = 0. De aquí despejamos 3x4 =
−x5 + 2x6 − x7 . Reemplazando la variable x6 en función de la x7 según lo deducido de la tercer fila, y
dividiendo luego por 3, se obtiene
De la primer fila despejamos la variable x1 en función de las demás variables, reemplazando además
las variables x6 y x5 por los valores ya despejados (que estaban en función de las variables x5 y x7 ):
Las variables x2 , x3 , x5 , x7 quedaron como variables libres: son los 4 parámetros independientes. La
solución general del sistema es
2 19 11 2 −1 5 4 1 2
( x3 + x5 + x7 + , x2 , x3 , x5 − x7 + , x5 , x7 + , x7 )
3 9 9 9 3 21 21 7 7
que se puede reescribir usando las propiedades de las operaciones con vectores como
1.4. Matrices
Las entradas se indican con un subíndice, el primero indica la fila y el segundo la columna. Así por
ejemplo a21 es el coeficiente de la segunda fila y la primer columna, mientras que a12 es el coeficiente
de la primer fila y la segunda columna.
Dado un vector V ∈ Rd , podemos pensarlo como un vector fila (matriz en R1×d ), o como un vector
columna (matriz de Rd×1 ), según se indique (o sea conveniente).
DEFINICIÓN 1.4.2 (Operaciones con matrices: suma y producto por números). Sean A, B ∈ Rk×n .
Entonces la suma A + B ∈ Rk×n se calcula lugar a lugar. El producto de la matriz A por el número λ da
también una matriz del mismo tamaño, cuyas entradas se obtienen multiplicando todas las entradas
de A por λ. Valen las propiedades distributivas de suma con producto.
C · (A + B) = C · A +C · B.
Si A ∈ Rn×n (es una matriz cuadrada, es decir, tiene la misma cantidad de filas que de columnas)
entonces la matriz traspuesta de A se obtiene haciendo una reflexión de los coeficientes de A respecto
de la diagonal. Decimos entonces que A es simétrica si At = A.
DEFINICIÓN 1.4.7 (Sistema homogéneo asociado). Dado el sistema lineal AX = b, el sistema ho-
mogéneo asociado es el sistema lineal AX = O, donde O denota el vector columna de ceros (del
mismo largo que el vector columna b).
1. Si V es solución del sistema homogéneo asociado y P es solución del sistema original, entonces
V + P también es solución del sistema original:
A(V + P) = AV + AP = O + b = b.
2. Si P, Q son soluciones del sistema original, entonces V = P − Q es solución del sistema homo-
géneo asociado:
AV = A(P − Q) = AP − AQ = b − b = O.
3. Si S0 es el conjunto de todas las soluciones del sistema homogéneo, y P es solución del sistema
original, entonces
Sb = S0 + P = {V + P : V ∈ S0 }
es el conjunto de todas las soluciones del sistema original.
DEFINICIÓN 1.4.9 (Combinación lineal). Una combinación lineal de dos vectores (o dos matrices)
V,W que están en el mismo espacio, es cualquier suma de dos múltiplos de V,W . Es decir, cualquier
elemento de la forma
αV + βW α, β ∈ R.
Si V,W son dos soluciones de un sistema homogéneo, cualquier combinación lineal de ellos también
es solución del mismo sistema homogéneo.
A(λV ) = λ(AV ) = λO = O.
A(V +W ) = AV + AW = O + O = O.
EJEMPLO 1.4.14 (Planos y rectas). Dada una recta por el origen, es un subespacio y si tenemos su
forma paramétrica L : tV , t ∈ R, entonces el generador es V (alcanza con uno solo).
Dado un plano por el origen, si tenemos su forma paramétrica Π : tV + sW , s,t ∈ R, entonces los
generadores son V,W (necesitamos dos generadores).
EJEMPLO 1.4.15 (Comprobar si un vector está en un subespacio). Si V = (1, 3, 1),W = (0, 2, −1)
son generadores del subesapacio S, para saber si P = (2, 1, 7) es un elemento de S, hay que plantear
Igualando las coordenadas obtenemos un sistema lineal con tres ecuaciones (hay tres coordenadas) y
dos incógnitas (α y β). Su matriz ampliada es
1 0 2
3 2 1.
1 -1 7
La última ecuación dice 0 = 5 entonces el sistema es incompatible. Esto nos dice que P no pertenece
a S, lo escribimos como P < S.
DEFINICIÓN 1.4.16 (Matriz nula y matriz identidad). La matriz nula es aquella cuyas entradas son
todas 0, la denotamos Ok×n o O si se entiende su tamaño del contexto. Es el neutro de la suma: para
toda matriz A ∈ Rk×n se tiene
A + O = A.
La matriz identidad es la matriz cuadrada de n × n cuyas entradas son todas nulas salvo las de la
diagonal, que son 1, la denotamos In . Por ejemplo:
1 0 0 0
1 0 0
1 0 0 1 0 0
I2 = , I3 = 0 1 0 , I4 = .
0 1 0 0 1 0
0 0 1
0 0 0 1
A In = A = In A.
DEFINICIÓN 1.4.17 (Matriz inversa). Si A ∈ Rn×n , decimos que A tiene inversa (o que A es inver-
sible) si existe una matriz B ∈ Rn×n tal que
AB = In = BA.
Si existe, la matriz B es única y en general se denota A−1 (se lee A a la menos uno), es la matriz
inversa de A. Entonces si A es inversible, vale
AA−1 = In = A−1 A.
OBSERVACIÓN 1.4.18 (Cálculo de la matriz inversa). Para ver si A ∈ Rn×n tiene inversa (y calcular-
la en ese caso), planteamos un sistema con matriz ampliada que a la derecha lleva la matriz identidad:
(A|In ) o más explícitamente
a11 a12 · · · a1n 1 0 · · · 0
a21 a22 · · · a2n 0 1 · · · 0
.. .
.. .. ..
. . . .
ak1 ak2 · · · akn 0 · · · 0 1
Aplicamos el método de Gauss a la matriz de la izquierda, hay que escalonar debajo de la diagonal y
luego también arriba de la diagonal.
Si al triangular, a la izquierda nos queda alguna fila de ceros, la matriz A no tiene inversa.
PROPIEDADES 1.4.19 (Matrices inversibles y sistemas). Sea A ∈ Rn×n la matriz asociada al sistema
lineal AX = b (aquí X, b ∈ Rn ) ya que A es cuadrada; el sistema tiene la misma cantidad de incógnitas
que de ecuaciones). Entonces
1.5. Determinante
• Corresponde a clase en video 1.14
DEFINICIÓN 1.5.1 (Determinante). Es un número real que puede ser positivo, negativo o nulo,
denotado det(A). Cuando tenemos la matriz podemos cambiar los paréntesis por barras verticales
para indicar que se trata del determinante. Se calcula en A ∈ R2×2 de la siguiente manera:
a11 a12
= det a11 a12 = a11 a22 − a12 a21 .
a21 a22 a21 a22
Para matrices de 3 × 3 se elige una fila o una columna y se desarrolla siguiendo la regla de signos
+ − +
− + −
+ − +
y tomando los determinantes de las matrices que quedan al tachar esa fila y esa columna.
EJEMPLO 1.5.2 (Determinante de una matriz 3 × 3). Calculamos por la primer fila
3 2 -7
2 0 1 0 1 2
det(A) = 1 2 0 = 3 −2
4 9 + (−7) 4 -2
4 -2 9 -2 9
Entonces det(A) = 106. Si intentamos por otra fila (o columna), llegamos al mismo resultado. Por
Es conveniente calcular el determinante usando la fila (o la columna) que tenga más ceros.
EJEMPLO 1.5.3 (Determinante de una matriz de 4 × 4). La regla de los signos es similar a la de
3 × 3, se comienza con un + en el lugar 11 (la esquina superior izquierda) y se van alternando los
signos:
+ − + −
− + − +
+ − + − .
− + − +
Damos un ejemplo, calculemos el determinante de la matriz
2 -1 0 5
3 0 -2 0
B= .
1 -1 4 3
2 3 0 1
Hay dos términos nulos (en la fila habia dos ceros). Calculamos los dos determinantes de 3 × 3 que
quedaron (desarrollando por alguna fila o columna; por ejemplo el primero es conveniente desarro-
llarlo por la segunda columna, ya que tiene dos ceros). Obtenemos
1. det(At ) = det(A).
4. det(λA) = λn det(A)
En general es FALSO que det(A + B) = det(A) + det(B), es decir el determinante no es una función
lineal.
TEOREMA 1.5.5 (Determinante versus inversa). Sea A ∈ Rn×n . Entonces A tiene inversa si y sólo si
det(A) , 0.
COROLARIO 1.5.6. Si A, B son matrices inversibles del mismo tamaño, entonces AB también es
inversible (y lo mismo vale para BA pero cuidado que BA , AB).
COROLARIO 1.5.7. Un sistema homogéneo cuadrado (misma cantidad de ecuaciones que de in-
cógnitas) es compatible determinado (tiene única solución, la solución trivial X = O) si y solo si el
determinante de la matriz del sistema es no nulo.
DEFINICIÓN 2.1.1 (Independencia lineal). Dados V1 ,V2 , . . . ,Vk ∈ Rn son linealmente independien-
tes si la única manera de obtener una combinación lineal de ellos que da cero, es tomando todos los
coeficientes 0. Es decir, si α1 , α2 , . . . , αk ∈ R son tales que
V4
V1 V3
O
V2
Figura 2.1: El conjunto {V1 ,V2 ,V3 } es l.d., el conjunto {V1 ,V2 ,V4 } es l.i.
Si los vectores son l.d. siempre es posible despejar alguno de ellos en función de todos los demás. En
la Figura 2.1 el conjunto {V1 ,V2 ,V3 } es l.d. porque V3 se puede escribir como combinación lineal de
V1 ,V2 (está en el mismo plano que generan ellos dos). También es cierto en esa figura que V2 se puede
escribir como combinación lineal de V1 ,V3 y que V1 es combinación lineal de V2 ,V3 .
El conjunto {V1 ,V2 ,V4 } es l.i. porque V1 ,V2 lo son y además V4 no está en el plano generado por los
dos primeros, luego no es combinación lineal de ellos.
25
FCEN-UBA A NÁLISIS 1 A LIMENTOS Álgebra lineal y Cálculo
OBSERVACIÓN 2.1.2. Los vectores V1 ,V2 , . . . ,Vr son l.d. si y sólo si existe una combinación lineal
no trivial de ellos que da el vector nulo. Por no trivial queremos decir que alguno (o varios) de los
coeficientes son distintos de cero.
Un vector V , O siempre es l.i. El vector nulo V = O es siempre l.d. Cualquier conjunto de vectores
que incluya al vector nulo es l.d.
W
V
V
W
V
V O
O W
O W
O
Figura 2.2: En los primeros dos casos {V,W } es l.i., en los dos casos restantes es l.d.
Dados dos vectores V,W ambos no nulos, el conjunto es l.d. si y solo si los vectores están alineados,
esto es, si V = αW (equivalentemente, si W = βV ).
EJEMPLO 2.1.3. Si un conjunto de vectores es l.d., entonces se puede despejar algún vector en
función de los demás, pero no es cierto que se puedan despejar todos en función de los demás. Por
ejemplo, consideremos los vectores V1 = (−1, 2, 0),V2 = (2, −4, 0),V3 = (0, 0, 1). Este conjunto es l.d.
porque tomando α1 = −2, α2 = 1, α3 = 0 tenemos
es imposible.
DEFINICIÓN 2.1.4 (Base y dimensión). Los {V1 , . . . ,Vr } son generadores del subespacio S si ∀ W ∈
S existen α1 , . . . , αr ∈ R tales que
EJEMPLO 2.1.5 (Rectas y planos). Una recta por el origen es un subespacio de dimensión 1: con un
sólo vector no nulo de la recta lo generamos (un vector no nulo siempre es l.i.)
Un plano por el origen es un subespacio de dimensión 2: con dos vectores no alineados del plano
podemos generarlo (si no están alineados son l.i.).
Ejemplo: en la Figura 2.1 podemos extraer varias bases del plano marcado: B = {V1 ,V2 }, B0 = {V1 ,V3 }, B00 =
{V2 ,V3 } (y también, por ejemplo, B000 = {V2 ,V1 } ya que el orden es relevante.
PROPIEDADES 2.1.6 (Ecuaciones implícitas y dimensión). Sea S ⊂ Rn subespacio dado por ecu-
caciones implícitas: S es el conjunto de soluciones del sistema lineal homogéneo AX = O. Con el
método de Gauss, obtenemos un sistema equivalente escalonado MX = O. Descartando las filas de
ceros, supongamos que la cantidad de filas de M es j. Entonces:
• la dimensión del subespacio es dim(S) = n − j, la dimensión del espacio total menos la cantidad de
filas independientes (y no triviales) del sistema.
Atención que en este resultado se puede usar únicamente cuando tenemos las ecuaciones impícitas
de S, que son entonces tantas como filas del sistema homogéneo que lo define. Es decir, si tenemos
ecuaciones paramétricas, no tiene sentido usar este resultado.
ax + by = 0
dim(L) = 1 = n − j = 2 − 1
2 ecuaciones lineales homogéneas independientes (que no sea una múltiplo de la otra), tiene
única solución S = {O}:
dim(S) = 0 = n − j = 2 − 2.
Si n = 3, estamos en el espacio R3 .
dim(Π) = 2 = 3 − 1.
2 ecuaciones independientes: intersección de dos planos por el origen que no son paralelos, la
solución es una recta L:
dim(L) = 1 = n − j = 3 − 2.
son dos ecuaciones implícitas en tres variables, pero puede el lector verificar que la solución es un
plano (dimensión 2). Ocurre que la segunda fila es una múltiplo de la primera. Luego de escalonar,
obtenemos una sola ecuación en R3 , por ello la dimensión correcta es 2 = 3 − 1.
PROPIEDADES 2.1.8 (Extraer una base). Dado un conjunto de generadores {V1 ,V2 , . . . ,Vr } del
subespacio S, para descartar los vectores redundantes y quedarnos con una base se puede escribir
una matriz cuyas filas son los Vi , y escalonarla sin intercambiar filas. Las filas de ceros que queden
son los vectores que hay que descartar. Los que quedaron no nulos forman una base de S. También
puede uno quedarse con los vectores originales de las filas que no se anularon y eso da (otra) base de
S.
OBSERVACIÓN 2.1.9 (l.d. ó l.i.). El método anterior también nos dice: si ninguna fila se anula, los
vectores eran l.i., mientras que si se anulan una o más filas, eran l.d.
DEFINICIÓN 2.1.10 (Bases ortogonales y ortonormales). Sea S ⊂ Rn subespacio (puede ser todo
Rn ). Sea B = {V1 , . . . ,Vr } base de S.
• Decimos que la base es ortogonal si tomados dos a dos, todos los vectores son perpendiculares
entre si: Vi ⊥ V j para i , j.
• Si además todos los vectores tienen longitud 1, decimos que la base es ortonormal.
OBSERVACIÓN 2.1.11. Como el producto interno nulo describe la ortogonalidad, una base es or-
togonal si y solo si
Vi ·V j = 0 ∀i , j.
Por otro lado la base será ortonormal si además
E3
E2 = (0, 1)
E1 = (1, 0) E2
O
O
E1
DEFINICIÓN 2.1.12 (Base canónica de Rn ). Es la base ortonormal dada por los n vectores que
tienen un 1 en algún lugar y todas las demás entradas 0. Por ejemplo,
PROPIEDADES 2.2.1 (De la matriz traspuesta). Si A ∈ Rn×n entonces para todo par de vectores
V,W ∈ Rn se verifica
(AB)t = Bt At
para todo par de matrices A, B para las que sea posible hacer el producto (esto es, A ∈ Rk×n , B ∈ Rn×d ).
En general entonces hAV,W i , hV, AW i salvo que A sea una matriz simétrica (At = A).
DEFINICIÓN 2.2.2 (Funciones, dominio, codominio, imagen, inyectividad). Si X,Y son dos con-
juntos cualesquiera, una función f : X → Y es una asignación que toma elementos de su dominio
(que es un conjunto dentro de X denotado Dom( f ) en general) y les asigna un elemento f (x) dentro
del conjunto Y . El conjunto Y se denominia codominio de f , en general escribimos y = f (x) o bien
x 7→ f (x) para indicar esta asignación.
El conjunto de todos los y = f (x) con x ∈ Dom( f ) se denomina imagen de f , lo denotamos im( f ).
Cuando im( f ) es igual a todo Y decimos que f es sobreyectiva (sinónimo=suryectiva). Entonces f no
es sobreyectiva cuando la imagen es estrictamente más chica que el codominio.
Decimos que f es inyectiva si cada vez que f (x1 ) = f (x2 ) es porque x1 = x2 . Dicho de otra manera:
en una función inyectiva, puntos distintos del dominio van a parar a puntos distintos del codominio.
DEFINICIÓN 2.2.4 (Matrices como funciones). Dada una matriz A ∈ Rk×n , la función de f : Rn →
Rk dada por f (V ) = AV (multiplicar contra A) se denomina transformación lineal asociada a la matriz
A. Como función, tiene la propiedad
f (αV + βW ) = α f (V ) + β f (W ) ∀V,W ∈ Rn , α, β ∈ R
de linealidad, consecuencia de las propiedades del producto y la suma de matrices. En este caso
Dom( f ) = Rn mientras que el codominio de f es Rk .
DEFINICIÓN 2.2.5 (Núcleo y rango de una matriz). Dada A ∈ Rk×n , el subconjunto del dominio
dado por los ceros de A
Nu(A) = {V ∈ Rk : AV = O}
se denomina núcleo de A. El vector nulo siempre está en Nu(A) porque AO = O. Decimos que el
núcleo de A es trivial si Nu(A) = {O}.
El conjunto del codominio de A dado por
Veamos cómo se relacionan los tamaños de los subespacios rango y núcleo de una matriz:
TEOREMA 2.2.8 (de la dimensión para matrices). Si A ∈ Rn×n entonces
dim(Ran(A)) + dim(Nu(A)) = n.
OBSERVACIÓN 2.2.9 (Núcleo y determinante). Si A es una matriz cuadrada, entonces por el teo-
rema anterior A es sobreyectiva si y solo si el núcleo de A es trivial. Esto ocurre si y solo si A es
inversible, y entonces podemos afirmar que para una matriz cuadrada
o equivalentemente
Nu(A) , {O} ⇐⇒ det(A) = 0.
DEFINICIÓN 2.2.10 (Matrices ortogonales). Sea U ∈ Rn×n , decimos que U es una matriz ortogonal
si hUV,UW i = hV,W i para todo V,W ∈ Rn . Son equivalentes
1. U es ortogonal
2. kUV k = kV k para todo V ∈ Rn
3. U es inversible y U −1 = U t .
U es ortogonal si y solo si U t es ortogonal.
OBSERVACIÓN 2.2.11 (Matrices y bases ortogonales). Si
también es ortogonal. Además si U es ortogonal los nuevos vectores tienen la misma longitud que los
originales, luego: si B era base ortonormal entonces B0 también lo es.
EJEMPLO 2.2.12 (rotaciones). Si n = 2 tenemos la matriz con el parámetro θ ∈ [0, 2π],
cos θ - sen θ
Uθ = .
sen θ cos θ
Aplicada a cualquier vector lo transforma en uno rotado en un ángulo θ positivo (es decir, en contra
del reloj).
En particular tomando θ = π/4 la base canónica se transforma en la base
√ √ √ √
B = {V1 ,V2 } = {( 2/2, 2/2) ; (- 2/2, 2/2)},
Uθ
E2 V2 = UE2 V1 = UE1
E1 θ = π/4
O O
PROPIEDADES 2.2.14 (Orientación). Las matrices de rotación preservan la orientación (tienen de-
terminante det(U) = 1). Si queremos invertir la orientación podemos hacer una reflexión alrededor de
una recta por el origen.
UW
U −
y=x
UV
y=x W
V +
Figura 2.5: La reflexión U INVIERTE la orientación de la base {V,W }
que es ortogonal (preserva longitudes y ángulos) pero no preserva la orientación (tiene det(U) = −1):
la base {V,W } tiene orientación positiva (en contra del reloj) y la base {UV,UW } tiene orientación
negativa (a favor del reloj).
Puede probarse que toda matriz ortogonal es una rotación, o es una rotación seguida de una simetría
como la del ejemplo anterior.
W
Uθz z=0 Usim
UθzV
θ θ
UsimW =W
UθzW
UsimV
Si queremos invertir la orientación, podemos hacer una reflexión (o simetría) alrededor de un plano.
Por ejemplo, alrededor del plano Π : z = 0, la matriz de simetría es
1 0 0 0 0
Usim = 0 1 0 , Usim · 0 = 0 .
0 0 -1 1 -1
V3
Decimos que B está orientada de forma positiva si ve-
rifica la regla de la mano derecha: ubicando los vec-
tores V1 ,V2 -en el orden dado- en los dedos índice y
V1 mayor de la mano derecha respectivamente, el vector
V3 debe apuntar en la dirección del dedo pulgar de la
mano. La base canónica tiene orientación positiva.
V2
Figura 2.7: Regla de la mano derecha
Dados V,W l.i. en R3 , la base B = {V,W,V ×W } tiene orientación positiva, y la base B0 = {V,W, −V ×
W } negativa.
En R3 , puede probarse que toda matriz ortogonal es un producto de rotaciones y reflexiones co-
mo las de la Observación 2.2.15. Las rotaciones preservan la orientación (tienen det(U) = 1), las
reflexiones la invierten (tienen det(U) = −1).
que tiene a los vectores como columnas es una matriz ortogonal. En efecto
− V1 − V1 ·V1 V1 ·V2 · · · V1 ·Vn
− V2 − | | ... | V2 ·V1 V2 ·V2 · · · V2 ·Vn
U t U = .. .. V1 V2 . . . Vn = ..
..
. . . .
| | ... |
− Vn − Vn ·V1 Vn ·V2 · · · Vn ·Vn
PROPIEDADES 2.2.19 (de la matriz como transformación lineal). Dado un conjunto Ω ⊂ Rn y una
matriz inversible C ∈ Rn×n el conjunto
Ω0 = CΩ = {CV : V ∈ Ω}
CΩ = λCV +CP = λV 0 + P0 .
es también un plano.
• Si C = Uθ es una matriz de rotación, el objeto Ω0 = CΩ difiere de Ω en exactamente esa rotación
(en otras palabras, obtenemos Ω0 rotando Ω).
U
L0 = UL
O
O
0 U Ω
Ω =
Figura 2.8: Movimiento rígido del objetos por una transformación ortogonal U
• Si U es una matriz ortogonal, el nuevo objeto Ω0 = UΩ sólo difiere del anterior en un movimien-
to rígido (el movimiento que hace la matriz ortogonal puede pensarse como una serie rotaciones y
reflexiones).
2.3. Diagonalización
• Corresponde a clase en video 2.9
Por ejemplo: si A(1, −1) = (2, −2) entonces V = (1, −1) es autovector de autovalor λ = 2 de la matriz A, porque
AV = 2V .
En ese caso, los autovectores son los elementos de Nu(A − λI), se obtienen resolviendo el sistema
homogéneo (A − λI)X = O.
COROLARIO 2.3.3 (Autoespacios). Para cada autovalor λ ∈ R de la matriz A, el conjunto de au-
tovectores es un subespacio no trivial de Rn , denominado autoespacio del autovalor λ, lo denotamos
Eλ = {V ∈ Rn : AV = λV } = Nu(A − λI).
DEFINICIÓN 2.3.4 (Polinomio característico). Pensamos λ como incógnita real y notamos que
p(λ) = det(A − λI) es un polinomio en la variable λ, denominado polinomio característico de la
matriz A.
A veces denotamos pA para indicar que se trata del polinomio de la matriz A.
-10 -6
EJEMPLO 2.3.5 (de autovalores y autovectores). Si A = entonces su polinomio carac-
18 11
terístico es
−10 − λ -6
= (−10 − λ)(11 − λ) + 18 · 6 = λ2 − λ − 2.
p(λ) =
18 11 − λ
Las raíces del polinomio son λ1 = −1, λ2 = 2. Para hallar los autovectores resolvemos primero el
sistema homogéneo
(A − λ1 I)X = O, es decir (A + I)X = O,
cuya matriz ampliada es
-10 – λ1 -6 0 -10 – (-1) -6 0 -9 -6 0
= = .
18 11 − λ1 0 18 11 – (-1) 0 18 12 0
Como la segunda fila es (−2) por la primera, el sistema se reduce a −9x − 6y = 0. De aquí 6y = −9x
o bien y = −3/2x. Entonces la solución es (x, −3/2x) con x libre, o sea
En general un polinomio de grado n no tiene por qué tener n raíces reales distintas. Por ejemplo
p(λ) = λ2 + 1 no tiene ninguna raíz real, mientras que p(λ) = (λ − 1)2 tiene una sola raíz real (doble).
DEFINICIÓN 2.3.7 (Matriz diagonal). Una matriz cuadrada D es diagonal si todas las entradas fuera
de la diagonal de D son nulas.
Cualquier múltiplo de la identidad es diagonal, pero como no es necesario que todas las entradas
diagonales sean iguales, hay muchas más matrices diagonales.
DEFINICIÓN 2.3.8 (Matrices diagonalizables). Una matriz cuadrada A es diagonalizable si existen
una matriz diagonal del mismo tamaño D y una matriz inversible C tales que A = CDC−1 .
TEOREMA 2.3.9 (Bases de autovectores). A ∈ Rn×n es diagonalizable si y sólo si existe una base
B = {V1 , . . . ,Vn } de Rn tal que todos los Vi son autovectores de A (y en ese caso la matriz D tiene a
los autovalores de A en la diagonal). La matriz C que hay que tomar es la que tiene a los Vi como
columnas.
Una matriz diagonal D siempre es diagonalizable, basta tomar C = I (no es necesario que las
entradas diagonales sean distintas).
EJEMPLO 2.3.10 (de matriz diagonalizable). La matriz del Ejemplo 2.3.5 es diagonalizable. Como
los autovalores son λ = −1 y λ = 2 tomamos
-1 0
D=
0 2
Como C hay que tomar la matriz que tiene a los autovectores como columnas, en el orden que pusimos
los autovalores en D. Entonces, como pusimos primero el −1 hay que tomar como primer columna
V1 = (2, −3), y como segunda columan V1 = (1, −2):
2 1
C= .
-3 -2
−1 2 1
Si calculamos la matriz inversa de C obtenemos C = . Entonces podemos verificar el
-3 -2
teorema recién enunciado:
−1 2 1 -1 0 2 1
CDC =
-3 -2 0 2 -3 -2
-2 2 2 1 -10 -6
= = = A.
3 -4 -3 -2 18 11
3 0
La matriz A = no es diagonalizable. Puede el lector verificar que A tiene solamente λ = 3
1 3
como autovalor, y que el autoespacio tiene dimensión 1, de hecho E3 = {(0, 1)}. Entonces no podemos
armar una base de R2 con los autovectores de A, así que por el Teorema 2.3.9, A no es diagonalizable.
De acuerdo a los últimos dos ejemplos, algunas matrices que no son simétricas (At , A) pueden ser
diagonalizables, pero otras no. En cambio, todas las matrices simétricas siempre son diagonalizables,
y eso es lo que dice el próximo teorema:
3. Existe una base ortonormal B = {V1 , . . . ,Vn } de Rn , donde todos los Vi son autovectores de A.
A = UDU t
donde D es una matriz diagonal que tiene a los autovalores de A y U es la matriz ortogonal
que tiene a la base B de autovectores como vectores columna.
Como la base es ortonormal, la matriz que tiene a los vectores de la base como columnas (o como
filas) es ortogonal y así en lugar de calcular la inversa de U, podemos trasponerla -y es lo mismo que
invertirla, porque para matrices ortogonales, U −1 = U t -.
DEFINICIÓN 2.3.12 (Matrices definidas positivas). Decimos que la matriz simétrica At = A ∈ Rn×n
es
donde los λi son los autovalores de A. Como los coeficientes de V están al cuadrado, se tiene que A es
EJEMPLO 2.3.14 (definidas e indefinidas en 2 variables). Aquí V = (x, y), damos un ejemplo de
cada caso
• definida positiva: si λ1 = λ2 = 1 entonces hAV,V i = x2 + y2 .
• definida negativa λ1 = λ2 = −1 entonces hAV,V i = −x2 − y2 .
• indefinida λ1 = 1, λ2 = −1 entonces hAV,V i = x2 − y2 .
• semi-definida positiva: si λ1 = 1, λ2 = 0 entonces hAV,V i = x2 .
• semi-definida negativa: si λ1 = −1, λ2 = 0 entonces hAV,V i = −x2 .
DEFINICIÓN 3.1.1 (Cotas de conjuntos de números reales). Dado un conjunto A ⊂ R, decimos que
A está
• acotado superiormente si ∃ c ∈ R tal que x ≤ c para todo x ∈ A. El número c es una cota superior
de A.
• acotado inferiormente si ∃ d ∈ R tal que x ≥ d para todo x ∈ A. El número d es una cota inferior de
A.
0 7
A2 = [−10, +∞) no está acotado superiormente, pero si está acotado inferiormente. Cotas inferiores
son d = −10 ó d = −11, etc.
R A2
−10 0
A3 = [−1, 3] ∪ [7, 9) está acotado superiormente por c = 9 e inferiormente por d = −1. Los números
entre intervalos (por ejemplo x = 3 ó x = 4) no son cotas del conjunto.
A3
0
R
−1 3 7 9
41
FCEN-UBA A NÁLISIS 1 A LIMENTOS Álgebra lineal y Cálculo
A4 = {2n : n ∈ N0 } no está acotado superiormente. Pero tiene cota inferior, por ejemplo d = 0 ó
d = 1.
A4
0
1 = 20 R
2 = 21 4 = 22 8 = 23 16 = 24
A5
0
R
1/n 1/4 1/3 1/2 1 = 1/1
Como puede verse en los ejemplos, una vez hallada una cota superior, en realidad hay muchas
(infinitas), porque cualquier número más grande sirve también de cota superior. Lo mismo vale para
las cotas inferiores: una vez hallada una, cualquier número más chico también es cota inferior. Veamos
como elegir una cota óptima
El supremo es único.
El supremo no tiene por qué estar en el conjunto, cuando está, decimos que es el máximo del
conjunto A, denotado M = máx(A).
El ínfimo es único.
EJEMPLO 3.1.6 (máximos y mínimos de conjuntos del Ejemplo 3.1.2). . A3 = [−1, 3] ∪ [7, 9).
A1 R
0 7
R A2
−10 0
A3
0
R
−1 3 7 9
A4
0
1 = 20 R
2 = 21 4 = 22 8 = 23 16 = 24
A5
0
R
1/n 1/4 1/3 1/2 1 = 1/1
min(A2 ) = −10 porque −10 es ínfimo y es un elemento del conjunto A2 = [−10, +∞). El con-
junto no tiene máximo porque no tiene supremo.
máx(A5 ) = 1 (tomando n = 1 vemos que 1 = 1/1 ∈ A5 ). No tiene mínimo porque 0 = inf(A) < A5
(no hay ningún n ∈ N tal que 1/n = 0).
DEFINICIÓN 3.1.7 (Módulo). La función módulo toma un número y devuelve el mismo número (si
era positivo ó 0) o devuelve el opuesto si el número era negativo. En cualquier caso, devuelve siempre
un número mayor o igual a 0. La definición formal es como función partida
x si x ≥ 0
|x| =
−x si x < 0
La función módulo es el análogo de la norma en dimensión 1, de hecho podemos decir sin equivocar-
nos que el módulo es la norma del espacio R. Eso se ve bien si recordamos algunas de sus propiedades
|yx| = |y||x|
|x + y| ≤ |x| + |y|
|x| = dist(x, 0)
|x − y| = dist(x, y).
A = {x ∈ R : |x| ≤ 3} = {x ∈ R : dist(x, 0) ≤ 3}
consta de todos los puntos tales que su distancia al 0 es menor o igual que 3. Vemos que entonces se
trata de un intervalo, A = [−3, 3].
Esto a veces se menciona como la propiedad de “desdoblar” el módulo: pedir |x| ≤ 3 es equivalente
a pedir −3 ≤ x ≤ 3 y también es equivalente a pedir
x ≥ −3
x≤3
donde la llave indica que pedimos que se cumplan simultáneamente las dos condiciones.
En general entonces, para r ≥ 0 se tiene |x| ≤ r es equivalente a −r ≤ x ≤ r y entonces es equivalente
a pedir que se cumplan las dos desigualdades x ≥ −r, x ≤ r.
R −r 0 r R −r 0 r
−r ≤ x ≤ r −r < x < r
Por las mismas consideraciones, |x| < r es equivalente a −r < x < r (siempre que r > 0).
I = (x − r, x + r)
para algún r > 0. El número r se conoce como radio del intervalo, porque si tomamos un compás y lo
pinchamos en x con apertura r, la intersección de la recta real con el interior del disco es el intervalo
que nos interesa.
R x−r x x+r
I = {x ∈ R : |x + 5| < δ} = (−5 − δ, −5 + δ)
Q
r
r0
P
DEFINICIÓN 3.1.11 (Bolas y discos abiertos en Rn ). Decimos que B ⊂ Rn es una bola abierta de
centro P y radio r > 0 si
r4
P4 B4
P5
r1
P1
r5
B1 B5
r3 B3
P3
r6 B6
P6
r7 B7
P7
r2 B2
P2
El radio depende del punto, para puntos muy cerca del borde del conjunto, hay que tomar un radio
más pequeño.
Ac = X \ A,
donde el símbolo \ se interpreta como un “menos”, pero no en el sentido de restar números, sino en
el sentido de restar=sacar.
Nuevamente: Ac = X \ A se lee “X menos A” y se interpreta como “todos lo elementos de X, menos
los elementos de A”.
reescribirlo como A8 = (−∞, 3). Como la semirrecta original contenía al 3, el conjunto A8 no contiene
al 3.
A9 = R \ (−6, 2), vemos que A9 = (−∞, −6] ∪ [2, +∞) con ambos números −6, 2 incluidos, puesto
que lo que sacamos no los contenía.
Si el conjunto universal X (donde está A) no se explicita, hay que deducirlo del contexo. Así por
ejemplo si nos dan un intervalo A = [−2, 6) de números reales, hay que sobreentender que X = R y
entonces
Ac = R \ [−2, 6) = (−∞, −2) ∪ [6, +∞)
En cambio si A = {λV : λ ∈ R} con V ∈ Rn , entendemos que A es una recta en Rn y entonces X = Rn .
Luego Ac será todo Rn menos esa recta.
Ac Q2
A
P1
Q1
En la definición recién dada, es crucial que haya puntos de A y de Ac en cualquier bola alrededor
del punto del borde X (no importa que tan pequeña sea la bola, siempre hay puntos de A y de Ac en la
bola). Por ejemplo en la figura de arriba, Q1 < bd(A) porque la bola más pequeña no toca Ac .
Notemos que los puntos de la frontera de A pueden ser puntos de A, o puntos fuera de A. Por
ejemplo en la figura de arriba, P1 ∈ A, pero P2 < A.
DEFINICIÓN 3.1.15 (Clausura de un conjunto). Dado A ⊂ Rn , el conjunto clausura de A (denotado
A) se obtiene tomando A y agregando todos los puntos del borde de A, es decir
A = A ∪ bd(A).
Por ejemplo:
Si B = B1 (0) (la bola unitaria abierta), entonces B = {X : kXk ≤ 1} (la bola unitaria cerrada).
La clausura del conjunto de la Figura 3.2 se consigue agregando los puntos del borde faltante
(como P2 ):
Algunas equivalencias útiles que relacionan estos conceptos (pensarlo sobre los dibujos que tenemos):
1. Un conjunto A es cerrado si y solo si bd(A) ⊂ A, es decir todos los puntos de la frontera son
puntos de A.
2. Un conjunto es abierto si y solo si bd(A) ⊂ Ac , es decir todos los puntos de la frontera están
fuera de A.
5. Hay conjuntos que no son ni abiertos ni cerrados, por ejemplo el intervalo A = [3, 7) ⊂ R, o el
conjunto A de la Figura 3.2 de más arriba.
EJEMPLO 3.1.16 (Conjuntos dados por des/igualdades). Veamos algunos ejemplos importantes:
y
S = bd(C) = bd(D)
D = C◦
x
C = D∪S
4. Esto último es porque el borde del disco abierto es la circunferencia (de radio 3)
bd(C) = {(x, y) : x2 + y2 = 9} = S.
5. La circunferencia S (la del item anterior o cualquier otra) no tiene interior, porque pegado a
cualquier punto de S tenemos puntos que no están en S. Entonces S◦ = 0, / tiene interior vacío.
y
y = ln(x)
0 1 e x
A = {x : ln(x) ≤ 1}
Figura 3.4
7. En muchos casos, los conjuntos definidos con < son abiertos y los definidos con ≤ o con =
son cerrados, pero hay que tener cuidado porque el dominio de las fórmulas involucradas puede
hacer que eso sea falso (como en el ejemplo anterior).
8. Si tomamos B = {(x, y, z) : x2 + y2 + z2 < 16} entonces B es una bola abierta (de radio 4) en R3 .
Si cambiamos el < por ≤ tendremos la bola cerrada (se agrega la cáscara).
10. Toda recta L ⊂ Rn es un subconjunto cerrado. Si n ≥ 2, toda recta tiene interior vacío.
11. Todo plano Π ⊂ Rn es un subconjunto cerrado. Si n ≥ 3, todo plano tiene interior vacío.
1. Un intervalo I ⊂ R es compacto si y solo si tiene la forma I = [a, b] con a < b números reales.
B = {X ∈ Rn : kX − Pk ≤ R}
es un conjunto compacto.
es un conjunto compacto.
plano x = 0
plano y = 0
K
(0, 1, 0)
plano z = 0
(1, 0, 0)
x
3. El siguiente caso a considerar es el de un plano que no sea horizontal (pero que no sea vertical
tampoco, porque sino no puede ser el gráfico de una función, como desarrollamos en el siguiente
item). Por ejemplo si f (x, y) = x + y, los puntos del gráfico de f deben verificar z = f (x, y) es
decir z = x + y. Se trata del plano por el origen x + y − z = 0.
4. Si una de las variables está ausente en la fórmula de f , es que esa variable está libre. Por
ejemplo, si f (x, y) = y, tenemos que mirar la ecuación z = f (x, y) para hacer su gráfica, o sea
z = y. Se trata de un plano a 45º respecto del piso, de ecuación y − z = 0 (dibujarlo).
5. Como mencionamos antes, un plano vertical -como por ejemplo la pared xz (de ecuación Π :
y = 0)- no puede ser el gráfico de ninguna función f = f (x, y).
Esto es porque por ejemplo, sobre (x, y) = (1, 0) hay infinitos valores de z. Entonces f (1, 0) no
estaría bien definido (recordemos que para ser función, tenemos que decir cuánto vale f en cada
punto del dominio, esa imagen tiene que ser un solo punto).
6. Toda función lineal afín como f (x, y) = ax + by + c tiene como gráfica un plano porque hay que
mirar el conjunto de ecuación z = ax + by + c, que equivalentemente es la ecuación del plano
Π : ax + by − z = −c.
y en este caso decimos que es una forma cuadrática homogénea. Para la definición vamos a pedir que
f no sea nula, o sea que a, b ó c sean no nulos.
También se dice que f es homogénea de grado 2. Esto es porque
Vamos a graficar (hacer el dibujo del gráfico de) funciones cuadráticas homogéneas. Los ejemplos más
importantes son los que siguen: paraboloide y silla de montar. Luego tenemos el cilindro parabólico,
que es un caso “degenerado” porque una de las variables está libre.
Podemos verificar que estas que mostramos a continuación son las gráficas usando un programa gra-
ficador como GeoGebra, como puede verse en este link.
Una explicación más detallada de por qué los gráficos tienen esta forma particular está más abajo en
la Sección 3.3.
z = x2 + y2
Paraboloide de revolución
Los cortes horizontales de esta figura son circunferencias de ecuación x2 + y2 = z0 , y los cortes
verticales devuelven una parábola como por ejemplo z = y2 (tomando x = 0). Podemos obtener la
gráfica de f girando la parábola alrededor del eje z (eso explica el nombre).
Si invertimos el signo y consideramos f (x, y) = −x2 −y2 la gráfica es un paraboloide pero invertido.
Esto es porque este cambio obedece a fijar x, y y cambiar z por −z, que es una reflexión respecto del
plano del piso (el plano z = 0).
Repetimos la observación del ítem previo en otros términos: aplicamos la transformación U(x, y, z) =
(x, y, −z) para pasar de la figura z = x2 + y2 a la figura z = −x2 − y2 . La transformación U es una trans-
formación ortogonal porque es una reflexión, podemos escribir su matriz si observamos que UE1 = E1 ,
UE2 = E2 , UE3 = −E3 , luego
1 0 0
U = 0 1 0 .
0 0 −1
r=3
r=2 z = 4x2 + 9y2
Paraboloide elíptico
y
x
Si x2 , y2 están acompañados por constantes positivas el gráfico es similar al del paraboloide, pero
está “achatado” en los ejes x, y. Por ejemplo f (x, y) = 4x2 + 9y2 tiene un gráfico similar al del para-
boloide pero los cortes horizontales no son circunferencias, sino elipses (por ese motivo se conoce
como paraboloide elíptico. En este caso el corte con el plano horizontal z = 1 nos da una elipse de
radio r = 2 en la dirección del eje x, y de radio r = 3 en la dirección del eje y:
La misma observación pero para el paraboloide invertido, por ejemplo la gráfica de f (x, y) = −4x2 −
9y2 es similar al paraboloide invertido, pero achatado en las direcciones de los ejes x, y.
Ahora vamos a presentar un ejemplo sustancialmente distinto del paraboloide o sus variantes compri-
mida y/o invertida: una figura conocida como la silla de montar.
z = x2 − y2
y
x
z = x2 − y2
Silla de montar
Si invertimos el signo en la silla de montar, f (x, y) = −x2 + y2 , el dibujo es simétrico respecto del
plano del piso. Esto es porque como ya explicamos, este cambio obedece a fijar x, y y cambiar z por
−z, que es una reflexión respecto del plano del piso (el plano z = 0).
EJEMPLO 3.2.7 (Cilindro parabólico). Consideremos f (x, y) = x2 . Notamos que la función no de-
pende de y; eso quiere decir que la figura tiene la misma forma para todo y (sólo depende de x). El
gráfico de f es la superficie z = x2 . Cortando esta superfice con planos verticales y = cte (planos
paralelos a la pared xz) vemos siempre la misma curva: la parábola z = x2 . La superficie se denomina
cilindro parabólico, y se obtiene deslizando esta parábola hacia la izquierda y la derecha indefinida-
mente:
z = x2
y
x Cilindro parabólico
Si invertimos el signo de la función f y tomamos f (x, y) = −x2 , su gráfico también será un cilindro
parabólico, pero en este caso estará invertido respecto del plano z = 0, con el vértice de la parábola
apuntando hacia arriba.
EJEMPLO 3.2.8. Si consideramos f (x, y) = xy, su gráfico también es un silla de montar. Esto es
porque si hacemos el cambio de variables x = u + v, y = u − v, z = z, la ecuación implícita del gráfico
z = xy se transforma en
z = (u + v)(u − v) = u2 − v2
que es la misma ecuación del ejemplo anterior (con otras letras). Una explicación más detallada de
este cambio de variables se da a continuación:
TEOREMA 3.2.9 (Forma canónica del gráfico de una función cuadrática). Sea f : R2 → R una
función cuadrática homogénea no nula.
Luego de un cambio de coordenadas ortogonal U ∈ R2×2 en el dominio de f , y una dilatación/compresión
en las direcciones de los ejes, el gráfico de f es alguno de estos cuatro:
z = u2 + v2 (paraboloide)
z = u2 − v2 (silla de montar)
En lugar de probar el teorema, vamos a mostrar cómo elegir el cambio de variables en dos ejemplos.
La idea es escribir una matriz simétrica A que nos ayuda a encontra el cambio de variables, por medio
de sus autovectores.
EJEMPLO 3.2.10. Sea f (x, y) = 6x2 + 9y2 − 4xy. Lo primero que vamos a hacer es encontrar una
matriz simétrica At = A, es decir
α β
A= ,
β γ
de manera tal que si hacemos hAX, Xi recuperamos f (x, y). Afirmamos que la matriz que necesitamos
es exactamente
6 −2
A= ,
−2 9
vamos a verificarlo. Calculamos primero
6 −2 x 6x − 2y
AX = . = .
−2 9 y −2x + 9y
Entonces, recordando que pensamos A como función de R2 en R2 , tenemos A(x, y) = (6x − 2y, −2x +
9y). Ahora calculamos el producto interno hAX, Xi:
como habíamos afirmado (notar que los lugares de la diagonal son los coeficientes de x2 , y2 respecti-
vamente, pero que el lugar fuera de la diagonal es la mitad del coeficiente de xy, porque aparece dos
veces). Ahora buscamos los autovalores y autovectores de A, por el teorema para matrices simétricas
sabemos que hay una base ortonormal B = {V1 ,V2 } de todo R2 tal que V1 ,V2 son autovectores de A.
Esa base nos da el cambio de variables, o en otras palabras, poniendo esa base como columnas ar-
mamos una matriz ortogonal U que es la transformación (el cambio de variables) ortogonal que lleva
nuestra gráfica de f a una de las 3 formas indicadas por el teorema.
Afirmamos que los autovalores de A son λ = 10, λ = 5 y que los correspondientes autoespacios
son E10 = {(−1, 2)}, E5 = {(2, 1)}, estas cuentas las puede verificar el lector. Los autoespacios son
perpendiculares, pero falta normalizar los autovectores: tomamos
√ √ √ √
V1 = (−1/ 5 , 2/ 5), V2 = (2/ 5 , 1/ 5)
para obtener la base ortonormal B = {V1 ,V2 } y una transformación ortogonal que los tiene como
columnas √ √
| | −1/ 5 2/ 5
U= = √
2/ 5
√
1/ 5
.
V1 V2
Tomamos las nuevas variables X̃ = (u, v) de la siguiente manera: definimos (u, v) = X̃ = U t X, es decir
−1 2 2 1
u = V1 · X = √ x + √ y, v = V2 · X = √ x + √ y.
5 5 5 5
Escribimos la ecuación implícita del gráfico de f , que es z = f (x, y) y recordamos que A = UDU t
donde D es la matriz diagonal de los autovalores. Ahora observamos que, por la propiedad de la
Entonces, en las nuevas variables (u, v), la ecuación implícita de la superficie se escribe con una matriz
diagonal D. Por eso, cuando desarrollemos esta última expresión DX̃ · X̃, veremos que no hay término
mixto, es decir no hay término con el producto uv:
10 0 u
z= · (u, v)
0 5 v
z = (10u, 5v) · (u, v)
z = 10u2 + 5v2 .
Esto quiere decir que luego de la transformación ortogonal U (que es una rotación y/o una simetría,
o una composición de ellas), la gráfica de f (x, y) = 6x2 + 9y2 − 4xy coincide con el conjunto z =
10u2 + 5v2 . Ahora vamos a usar que los coeficientes los podemos escribir como
√ √
10 = 102 , 5 = 52 ,
√ √
y entonces si volvemos a cambiar las variables por x1 = 10u, x2 = 5v vemos que
√ √
z = 10u2 + 5v2 = ( 10u)2 + ( 5v)2 = x12 + x22 .
Es decir, luego de esta última transformación (que se puede pensar como una dilatatación o compre-
sión en la dirección de cada uno de los dos ejes), vemos que la gráfica de f coincide con el conjunto
z = x12 + x22
EJEMPLO 3.2.11. Sea f (x, y) = xy, veamos que luego de una transformación ortogonal su gráfico
coincide con el de la silla de montar z = u2 − v2 (como ya comentamos más arriba en el Ejemplo
3.2.8). Afirmamos que la matriz que necesitamos para obtener f (x) = AX · X es
0 1/2
A= 1
/2 0
hA(x, y); (x, y)i = 1/2h(y, x); (x, y)i = 1/2(yx + xy) = xy = f (x, y).
Los autovalores de A son λ = 1/2, λ = λ = -1/2 y los correspondientes autoespacios son E1/2 = {(1, 1)},
E -1/2 = {(1, −1)}, estas cuentas las puede verificar el lector. Los autoespacios son perpendiculares,
pero falta normalizar los autovectores: tomamos
√ √ √ √
V1 = (1/ 2 , 1/ 2), V2 = (1/ 2 , -1/ 2)
para obtener la base ortonormal B = {V1 ,V2 } y una transformación ortogonal que los tiene como
columnas √ √
1/ 2 1/ 2
U= √
1/ 2 -1/ √2 .
Tomamos las nuevas variables X̃ = (u, v) de la siguiente manera: definimos (u, v) = X̃ = U t X, es decir
1 1 1 −1
u = V1 · X = √ x + √ y, v = V2 · X = √ x + √ y.
2 2 2 2
√
Comentario: notemos que salvo por el factor constante 1/ 2 (que está puesto para normalizar),
√ variables es esencialmente√u = x + y, v = x − y. Si uno despeja x, y en función de u, v
este cambio de
obtiene x = 2/2(u + v) y también u = 2/2(u − v), que salvo el factor constante es el cambio de
variable que propusimos en el Ejemplo 3.2.8. La diferencia es que aquel, más simple, no es ortogonal
porque “aplasta” un poco y en cambio este si lo es.
Siguiendo con el razonamiento para f (x, y) = AX · X, tenemos nuevamente que A = UDU t donde D
es la matriz diagonal de los autovalores de A, y U la matriz ortogonal que tiene a los autovectores
como columna. Nuevamente tenemos
Es decir, en las nuevas variables, la ecuación implícita se escribe usando una matriz diagonal. Por eso
no hay términos cruzados (los términos con el producto uv no aparecen), como se ve a continuación
si escribimos explícitamente DX̃ · X̃:
1/2 0 u
z= · (u, v)
0 −1/2 v
z = (1/2u, −1/2v) · (u, v)
z = 1/2u2 − 1/2v2 .
Esta superficie ya es una silla de montar, pero algo comprimida en las direcciones de los ejes. Para
√ √
convencernos, podemos hacer un segundo cambio de variables, llamando x1 = u/ 2, x2 = v/ 2 y
obtenemos
1 1 1 1
z = u2 − v2 = ( √ u)2 − ( √ v)2 = x12 − x22 .
2 2 2 2
Vemos que luego de comprimir un poco en la dirección de los ejes u, v, la figura que obtuvimos al
rotar el gráfico de f (x, y) = xy es la superficie dada de forma implícita por la ecuación z = x12 − x22 ,
que es la silla de montar.
A la vista de los ejemplos, podemos resumir aún más el resultado del Teorema 3.2.9, pues se ve que
los coeficientes de u2 , v2 , en la expresión nueva para el gráfico de f , son los autovalores de la matriz
A con la que construimos f :
TEOREMA 3.2.12. Sea f : R2 → R cuadrática homogénea, sea At = A ∈ R2×2 tal que f (X) = AX ·X,
donde X = (x, y) son las variables.
Si λ1 , λ2 ∈ R son los autovalores de A, entonces (luego de una transformación ortogonal en el domi-
nio) el gráfico de f es
Si recordamos los nombres que dimos para estos casos en el final del resumen de la Guía 2, vemos
que el gráfico de f es
OBSERVACIÓN 3.2.13 (Cuádricas). Estas superficies (paraboloide, silla de montar, cilindro parabó-
lico) son ejemplos de lo que se conoce como cuádricas: superficies de R3 dadas (de manera implícita)
por un polinomio de grado 2. En la sección 3.3 veremos otros ejemplos de cuádricas y haremos una
lista de todos los posibles casos.
Como ya mencionamos, cuando tenemos una función f : R2 → R, a veces es útil mirar las denomi-
nadas curvas de nivel de la función f , que consisten en igualar f a una constante y ver qué curva
obtenemos en el plano (x, y). Como estamos cortando con z = cte, podemos pensar que estamos ha-
ciendo cortes de la superficie del gráfico de f (que estaba dada por la ecuación implícita z = f (x, y))
con planos horizontales (porque esos planos tienen ecuación z = cte).
EJEMPLO 3.3.1 (Curvas de nivel del paraboloide). Consideremos la función escalar f (x, y) = x2 +
y2 . Veamos sus curvas de nivel, y cómo estas ayudan a describir la superficie dada por el gráfico de f .
Si fijamos z = R2 > 0, y miramos la curva de nivel f (x, y) = R2 , nos queda la ecuación x2 + y2 = R2 ,
que es una circunferencia centrada en el origen de radio R > 0.
Si miramos la curva de nivel de z = 0, obtenemos x2 + y2 = 0, esto sólo es posible si (x, y) = (0, 0)
entonces en este caso no obtenemos una curva sino un punto del plano (el origen).
Si miramos curvas de nivel con z0 < 0, no hay solución y nos da el conjunto vacío; por ejemplo con
z = −1 tenemos que ver el conjunto x2 + y2 = −1 que es vacío.
Resumiendo, los cortes con planos horizontales nos devuelven: nada para z negativo, el origen para
z = 0 y circunferencias cada vez más grandes (de mayor radio) a medida que cortamos con z > 0 más
grande.
Lo que queda por decidir es cómo unir estas circunferencias, para eso hacemos un corte con el
plano vertical x = 0 (que es el plano yz, la pared del fondo). Lo que vemos es la ecuación z = f (0, y)
que en este caso es z = 02 + y2 , es decir z = y2 . La graficamos, es una parábola hacia arriba:
Eso quiere decir que hay que unir las circunferencias apiladas con una parábola, y por eso la gráfica
de f (x, y) = x2 + y2 tiene la forma que mencionamos en la sección anterior: se obtiene haciendo
revolucionar la parábola z = y2 alrededor del eje z.
z=2
z=1
x y
y
x
z
z = x2 + y2
Paraboloide de revolución
x
EJEMPLO 3.3.2 (Curvas de nivel de una silla de montar). Tomamos f (x, y) = x2 − y2 , veamos sus
curvas de nivel.
Si fijamos z0 = R2 > 0, y miramos la curva de nivel f (x, y) = R2 , nos queda la ecuación x2 −y2 = R2 .
Dividimos por R2 y vemos que queda
x2 y2 x y
2
− 2 = 1 =⇒ ( )2 − ( )2 = 1.
R R R R
Haciendo el cambio de variables u = x/R, v = y/R (que consiste en comprimir un poco en la dirección
de los ejes), vemos la ecuación u2 − v2 = 1. Entonces estos cortes devuelven hipérbolas (con dos
ramas). Si miramos la curva de nivel de z = 0, obtenemos x2 − y2 = 0, que equivale a |x| = |y| y
v
u2 − v2 = 1
entonces tenemos dos posibilidades, y = x ó y = −x que son dos rectas por el origen. ¡Si, en efecto,
la silla de montar tiene dos rectas horizontales dentro, aunque no sea tan evidente a simple vista!
Si miramos curvas de nivel con z0 = −R2 < 0, el razonamiento es el mismo que para z0 > 0, la única
diferencia es que en lugar de ver la ecuación u2 − v2 = 1 luego del cambio de variables, ahora vemos
la ecuación −u2 + v2 = 1, que equivale a intercambiar u con v en la anterior. Esta es una simetría,
y entonces estas curvas de nivel también dan hipérbolas (con sus dos ramas) pero ahora tienen otra
orientacion que las de arriba.
DEFINICIÓN 3.3.3 (Superficies de nivel). Cuando tenemos una función escalar de 3 variables f :
R3 → R, su gráfico es el subconjunto de R4 dado por (x, y, z, f (x, y, z)), o si se quiere son los (x, y, z, w)
tales que w = f (x, y, z). Como es un subconjunto de R4 , no podemos esperar hacer un dibujo. Pero
podemos estudiar los cortes con algunas de las variables fijas, por ejemplo tomando w = w0 = cte.
Estos cortes se conocen como superficies de nivel de f , son superficies dadas por la ecuación implícita
f (x, y, z) = cte.
z=1
z = −1
Si f es lineal sus superficies de nivel serán planos. Por ejemplo, f (x, y, z) = 2x + y − z. Si hacemos
f (x, y, z) = 0 vemos el plano por el origen Π : 2x + y − z = 0. Mientras que 2x + y − z = 5 es un plano,
pero que no pasa por el origen. Notemos que todas las superficies de nivel de f son planos paralelos,
todos con normal N = (2, 1 − 1).
Ahora vamos a estudiar las superficies conocidas como cuádricas. Esta es una familia de ejempos
relativamente simples (y relevantes) dados por polinomios de grado 2 en las tres variables x, y, z.
Ya vimos los casos particulares del paraboloide, la silla de montar y el cilindro parabólico, cuando
teníamos superficies de la forma z = f (x, y), es decir cuando la superficie era el gráfico de una función
de dos variables (Teorema 3.2.9).
EJEMPLO 3.3.4 (Cuádricas). Miramos superficies de nivel f (x, y, z) = w0 , con f polinomio de grado
2.
f (x, y, z) = x2 + y2 + z2 . Sea R2 > 0, consideramos la superficie de nivel f (x, y, z) = R2 (estamos
tomando w = R2 ). Notamos que si X = (x, y, z), la ecuación se reescribe como
Esfera de radio R : R2 = x2 + y2 + z2 = kXk2 , luego kXk = R.
Son los puntos de R3 que distan del origen exactamente R, se trata de una superficie esférica de radio
R, o más brevemente una esfera de radio R.
z
Esfera
x2 + y2 + z2 = 1
Para describirla podemos hacer cortes con planos horizontales (mirar las curvas de nivel tomando
z = z0 = cte), notamos que r2 = 1 + z20 ≥ 1 > 0 es positivo no importa el signo de z0 . Entonces todos
los cortes horizontales son de la forma x2 + y2 = r2 , con r ≥ 1 y se trata de circunferencias, todas de
radio r ≥ 1. El radio mínimo r = 1 se consigue cuando z0 = 0, y hay simetría respecto de z, entonces
vemos circunferencias apiladas que crecen en radio a medida que nos alejamos del piso (en ambas
direcciones).
z
1
1 y
x
El nombre de la figura se explica por su perfil: para ver cómo se unen estas circunferencias hacemos
ahora un corte de x2 + y2 = 1 + z2 con el plano vertical x = 0. Vemos la ecuación y2 = 1 + z2 , que se
reeescribe como y2 − z2 = 1, y como ya sabemos, es una hipérbola (con sus dos ramas, como en la
Figura 3.6 de más arriba). Entonces el hiperboloide de una hoja se puede pensar como la superficie
que se obtiene girando esta hipérbola alrededor del eje z.
z
x2 + y2 − z2 = 1
y
x
Hiperboloide de de una hoja
x2 y2 z2 x y z
2
+ 2 − 2 = 1 =⇒ ( )2 + ( )2 − ( )2 = 1.
R R R R R R
Cono recto: x2 + y2 = z2 .
o simplemente cono. En realidad se trata de dos conos opuestos por el vértice, como indica el dibujo:
Tomando curvas de nivel, vemos que se trata de circunferencias apiladas (salvo en z = 0 donde es un
z = ±y
(corte con el plano x = 0)
y
x
Cono recto
x2 + y2 = z2
punto). Luego para ver como unirlas, notamos que el perfil (el corte con el plano vertical x = 0) nos
da la ecuación y2 = z2 , que se trata de las rectas y = z, y = −z.
Ahora veamos qué pasa si miramos g(x, y, z) = w0 con w0 < 0, es decir x2 + y2 − z2 = −R2 con
R , 0. Dividiendo por R2 y haciendo el mismo cambio de variables de antes, notamos que son todas
(compresiones de) la superficie de nivel con R = 1, que es x2 + y2 − z2 = −1. Esta es distina que el
hiperboloide de una hoja por el signo, es la superficie conocida como
Para describirla podemos tomar curvas de nivel con z = z0 = cte. Notemos que z20 − 1 puede ser
positivo, negativo o nulo, dependiendo de z0 . Separamos en casos: primero veamos donde se anula,
esto es cuando z20 = 1, y esto ocurre cuando z0 = 1 ó bien z0 = −1. Entonces los cortes con estos
dos planos horizontales nos dan (en ambos casos) la ecuación x2 + y2 = 0, que sólo tiene solución al
(x, y) = (0, 0).
Si tomamos −1 < z0 < 1, vemos que z20 < 1 y entonces z20 − 1 < 0. En este caso la ecuación x2 + y2 =
z20 − 1 no tiene solución. Esto quiere decir que los cortes con planos z = z0 , con z0 entre −1 y 1, no
cortan la superficie x2 + y2 = z2 − 1.
Por último, consideramos |z0 | > 1 (o sea debajo del −1 y por encima del 1), con esta condición z20 − 1 >
0 y entonces la curva x2 + y2 = z20 − 1 es una circunferencia (de radio cada vez mayor a medida que z
se aleja del piso (ver Figura 3.9 debajo).
Para unir estas circunferencias apiladas, miramos el perfil de la superficie dado por el corte con el
plano x = 0, vemos la ecuación 02 + y2 = z2 − 1 o equivalentemente z2 − y2 = 1. Se trata de una
hipérbola, ahora simétrica respecto del piso.
z
z2 − y2 = 1
z2 − y2 = 1
(corte con el plano x = 0)
y
x
Entonces el hiperboloide de dos hojas es la superficie que puede obtenerse haciendo girar esta hipér-
bola (las dos ramas) alrededor del eje z.
Ahora cambiamos de función. Sea f (x, y, z) = x2 +y2 , notemos que en la superficie de nivel x2 +y2 =
w0 la variable z no aparece. Eso quiere decir que z está libre, e implica que una vez hecho el dibujo
para algún z (por ejemplo, para z = 0) la superficie se obtiene dejando z libre por encima y por debajo
de ese dibujo.
Si w0 = 0 obtenemos x2 + y2 = 0, que en principio es el punto x = 0, y = 0. Pero si recordamos que
estamos en R3 y que z está libre, lo que obtenemos es el conjunto (0, 0, z), que es una recta vertical
(es el eje z).
Si w0 < 0 la superficie de nivel x2 + y2 = w0 es vacía, porque el lado izquierdo es siempre no
negativo. Notemos que no importa el valor de z (por más libre que esté), la ecuación nunca se va a
verificar.
Si w0 = R2 > 0, tenemos x2 + y2 = R2 . Di-
z
vidiendo por R2 y cambiando las variables por
x/R e y/R respectivamente obtenemos la super-
fice llamada x2 + y2 = 1
z2 − y2 = 1
y
x
a) x2 + z2 = y2 b) − x2 + y2 − z2 = 1 c) x2 + z2 = 1.
Para hacer un dibujo de estas superficies, no es necesario volver a calcular sus curvas de nivel, perfil,
etc. Porque podemos notar (en cada caso) que la superficie dada tiene una ecuación similar a alguna
de las que ya estudiamos, con la salvedad de que en estas de aquí, los roles de las variables están
intercambiados. Eso quiere decir que estas superficies de aquí se pueden obtener a partir de alguna de
las que ya estudiamos, haciendo una simetría en R3 . ¿Qué simetría? La que se obtiene al intercambiar
esas variables.
Por ejemplo: la ecuación a) se obtiene a partir de la ecuación del cono recto x2 + y2 = z2 , intercam-
biando la variable y con la variable z. Luego la superficie a) de aquí se obtiene del cono recto haciendo
una simetría alrededor del plano Π : y − z = 0 (ya que los puntos del plano, que verifican y = z, no
se modifican al intercambiar las variables). Si queremos dibujar a), notamos que en el cono recto
original, el eje de rotación es el eje z. Luego a) es un cono con eje de rotación alrededor del eje y.
Con los mismos argumentos, b) es un hiperboloide de dos hojas con eje de rotació alrededor del eje
y, mientras que c) es un cilindro alrededor del eje y.
También podemos multiplicar las variables por constantes positivas, en ese caso obtenemos superfi-
cies cuádricas que resultan variantes “aplastadas” o “estiradas” en las direcciones de los ejes, tal como
vimos en los casos del paraboloide y la silla de montar, en la Sección 3.2.
Por ejemplo la superficie dada por la ecuación z = 3x2 es un cilindro parabólico, mientras que 4x2 +
9y2 = z2 es un cono que no es recto, puesto que los cortes horizonales son elipses.
z
2
x2 2
a2
+ by2 + cz2 = 1
b
a
y
x
Elipsoide
Un último ejemplo interesante (y con nombre propio) es el de la superficie dada por la ecuación
implícita
x2 y2 z2
+ + = 1,
a2 b2 c2
que puede obtenerse a partir de la esfera, modificando (x, y, z) por x/a, y/b, z/c respectivamente.
Esta superficie cuádrica se conoce como elipsoide de radios a, b, c (cuando a = b = c obtenemos una
esfera).
Paraboloide: z = x2 + y2
Silla de montar: z = x2 − y2 .
Cilindro parabólico: z = x2 .
Esfera: x2 + y2 + z2 = 1
Cono: z2 = x2 + y2
Cilindro: x2 + y2 = 1
Cilindro hiperbólico: z2 − y2 = 1
Eso quiere decir que los ejemplos que vimos en este resumen, agotan todas las posibles superficies
cuádricas en el espacio R3 . Las funciones de la lista se conocen como las formas canónicas de los
polinomios cuadráticos en dos variables. Puede verse una representación dinámica de estas figuras,
así como sus intersecciones con distintos planos (sus curvas de nivel) en este link de Geogebra.
El método de prueba es similar al de aquel teorema, pero con algunas adiciones. No lo demostraremos,
pero podemos ver muy claramente cómo funciona esta clasificación en un ejemplo:
EJEMPLO 3.3.7. Sea g(x, y, z) = 2x2 + 2xy + 2y2 − z2 . Llevar g a su forma canónica con un cambio
de variables adecuado y describir sus superficies de nivel.
La matriz para escribir g(X) = AX · X se consigue poniendo en la diagonal los coeficientes cuadráti-
cos, y fuera de ella la mitad de los coeficientes cruzados, por ejemplo en el lugar 1 − 2 va la mitad del
coeficiente de xz, que es un 1, como no hay xz ni yz hay ceros en los lugares 1 − 3 y 2 − 3 respectiva-
mente. La matriz tiene que ser simétrica así que es:
2 01
A= 1 2 0 ,
0 0 −1
invitamos al lector a verificar que g(X) = AX · X. Los autovalores de A son 3, 1, −1 y los autovectores
(ya normalizados) son
√ √ √ √
V1 = (1/ 2, 1/ 2, 0) V2 = (-1/ 2, 1/ 2, 0) V3 = (0, 0, 1)
Las nuevas variables X̃ = (x1 , x2 , x3 ) se obtienen aplicando la tranformación ortogonal U t a las varia-
bles originales X = (x, y, z), entonces tenemos
√ √
x1 = V1 · X = x/ 2 + y/ 2y
√ √
x2 = V2 · X = −x/ 2 + y/ 2y.
x3 = V3 · X = z
√
Entonces luego de una compresión de factor 1/ 3 en la primer variable la función original es equi-
valente a
f (x, y, z) = x2 + y2 − z2 .
Inspeccionando la lista del teorema, vemos que las superficies de nivel de esta última función son
hiperboloides o un cono, entonces √ las de la superficie original también (salvo una transformación
ortogonal y un dilatación de factor 3 en la dirección del eje x).
La idea de “es chico” requiere alguna formalización mayor. Porque no es aceptable que esté sujeta a
interpretación del que hace la afirmación (o del que la lee).
Para ello vamos a decir que | f (x)−`| tiene que ser tan chico como uno quiera, siempre que acercemos
lo suficiente x a x0 . Esto se puede expresar mejor así: para cada eror posible E > 0, queremos encontrar
una D = D(E) > 0 (distancia) de manera tal que si dist(x, x0 ) < D, entonces | f (x) − `| < E. Entonces
limx→x0 f (x) = ` si para todo E > 0, existe D > 0 de manera tal que
No hay que olvidar que hay que excluir la evaluación en x0 , para ello podemos escribir x , x0 o para
ser más breves escribimos 0 < |x−x0 | < D -puesto que |x−x0 | ≥ 0 siempre, y |x−x0 | = 0 únicamente
cuando x = x0 .
En la bibliografía es usual usar letras griegas para el error y la distancia, así que la definición de límite
suele escribirse entonces como sigue:
limx→x0 f (x) = ` si para todo ε > 0 existe δ > 0 tal que
Como estamos aproximando x a x0 , es necesario que x0 esté en A o pegado a él. Luego debe ser
x0 ∈ A ∪ bd(A) = A (la clausura de A).
71
FCEN-UBA A NÁLISIS 1 A LIMENTOS Álgebra lineal y Cálculo
y 0 < |y − `| < ε
` Gr( f )
0 < |x − x0 | < δ
x0 x
Figura 4.1: La banda horizontal celeste indica los f (x) con 0 < |x − x0 | < δ
La idea es exactamente la misma, queremos que f (x) esté cerca de ` si X está cerca del punto P (y
además pedimos X , P como antes). Decimos “el límite de f cuando X tiende a P es `”.
OBSERVACIÓN 4.1.5 (Notación). Escribimos limX→X0 f (X) = ` a veces de la siguiente manera
f (X) −−−→ `.
X→X0
La idea es clara: los valores de f (X) se aproximan a ` cuando los valores de X se aproximan a X0 .
Recordemos que -si puede hacerse- la composición de dos funciones (g ◦ f )(X) = g( f (X)) se calcula
viendo primero el valor de f en x, y luego viendo el valor de g en f (X).
PROPIEDADES 4.1.7 (de la composición y el límite). Si f (X) −−−→ ` y además g(X) −−−→ L,
X→X0 X→`
entonces existe el límite de la composición y es igual a L:
(g ◦ f )(X) −−−→ L.
X→X0
Esto es porque si comenzamos cerca de X0 , los valores de Y = f (X) están cerca de `, luego los valores
de Z = g(Y ) están cerca de L.
limX→X0 f (X) = +∞
si f (X) es cada vez mayor (sin cota superior) a medida que X se aproxima a X0 . Formalmente,
f (X) −−−→ +∞ si para todo M > 0 existe δ > 0 tal que
X→X0
Vemos que el gráfico se hace cada vez más alto a medida que X se aproxima a X0 . Aquí f puede ser
una función de una o de varias variables.
La misma idea se usa para limX→X0 f (x) = −∞: decimos que
f (X) −−−→ −∞
X→X0
En este caso vemos que el gráfico se hace más bajo (hacia −∞) a medida que X → X0 (no hay cota
inferior para las imágenes de f ).
PROPIEDADES 4.1.9 (del sandwich y “cero por acotada”). Cuando queremos probar que un límite
es 0, podemos hacer uso una desigualdad del tipo
| f (t)| ≤ |g(t)|.
Si sabemos que g(t) → 0 cuando t → t0 , entonces podemos concluir que también f (t) → 0 cuando
t → t0 . Esto es porque
−|g(t)| ≤ f (t) ≤ |g(t)|
y entonces f no puede escapar de tener límite nulo en t = t0 , como se ve en la figura:
|g(t)|
f (t)
t0 t
−|g(t)|
Por ejemplo:
cuando x → 0. Luego limx→0 x sen(1/x) = 0. Aquí la función que podemos controlar fácilmente, que
es más grande que f , es la función g(x) = x.
Este es el tipo de límite donde justificamos que da 0 porque es del tipo “0 por acotada”. En este caso
la función que tiende a cero es g(x) = x, mientras que el otro factor está acotado.
Calcular limx→1+ ln(x) cos(1/ ln(x)). Afirmamos que ` = 0 porque ln(1) = 0. Sin embargo el segun-
do factor no tiene límite, por eso necesitamos justificarlo así:
Veamos algunos ejemplos importantes de esta aplicación. El lector curioso puede ver la forma que
tiene las superficies dadas por los gráficos de las siguientes funciones, en este link. Allí notarán que
el resultado que obtenemos en las cuentas debajo, no siempre es evidente a partir del dibujo.
Como limt→0 (1 + t)1/t = e, entonces si f (x, y) → 0 cuando (x, y) → (x0 , y0 ), al hacer la composición
con f podemos calcluar el límite:
−7
1. ` = lim(x,y)→(0,0) 1 + x2 + y4 x2 +y4 . Como (rb )a = rab , tenemos que
1
−7
2
+ y4 x2 +y4
` = lim(x,y)→(0,0) 1+x ,
y entonces
−7
1
2
` = lim(x,y)→(0,0) 1 + x + y4 x2 +y4
= e−7 .
y y2
2 2
1 + y ln(x) 3 ln(x)2 = 1 + y ln(x) 3·y ln(x)2
1
y2 /3
2
/3
1 + y ln(x)2 y ln(x)2 −→ e2 = e /3 .
4
=
sen(xy − x) x(y − 1)
= lim(x,y)→(3,1)
xy − x y−1
sen(xy − x)
= lim(x,y)→(3,1) · x = 1 · 3 = 3.
xy − x
En este caso compusimos con f (x, y) = xy − x = x(y − 1). Notemos que para esta función,
f (x, y) → 0 cuando (x, y) → (3, 1) (si no fuera así, el límite estaría mal calculado).
Un caso muy importante de f (x, y) → 0 que vamos a usar (cuando (x, y) → (0, 0)) es mirando la
función f (x, y) = k(x, y)k, o sus potencias como
k(x, y)k2 = x2 + y2 .
p
PROPIEDADES 4.1.11 (de la norma). Como x2 +y2 ≥ x2 , se tiene tomando raíz que |x| ≤ x2 + y2 =
k(x, y)k. Entonces
−k(x, y)k ≤ x ≤ k(x, y)k
y también
−k(x, y)k ≤ y ≤ k(x, y)k.
Entonces, si (x, y) → (0, 0) es claro que x → 0 y también y → 0, pero esta cuenta nos dice que la
norma lo hace más rápido que las coordenadas.
Por otro lado es claro que si (x, y) → (0, 0), entonces también se tiene k(x, y)k → 0.
El primer ejemplo de esto es para funciones de una variable: cuando tenemos dos límites laterales que
no coinciden. Sabemos que el límite no existe en ese caso.
`2 y = f (x)
`1
P x
Si miramos funciones de dos variables, un punto de su dominio estará en R2 . Hay muchas maneras
de acercarse a un punto P ∈ R2 .
Por ejemplo, por cualquier recta que pase por P. Esto no agota todos los caminos, pero es la primer
cosa con la que uno puede probar. Si encontramos que el limite da distinto a lo largo de dos rectas, es
porque no existe el límite doble en P.
EJEMPLO 4.1.13. Vamos resolver límites en algunos ejemplos. Nuevamente podemos ver las su-
perficies dadas por Gr( f ) en Geogebra, si clickeamos en este link.
Como ya mencionamos, no siempre es de mucha utilidad ver el gráfico, y que es necesario saber
algunas técnicas como las que explicamos a continuación para ver si un límite existe (y cuánto da).
En el applet de Geogebra también están algunas de las funciones de la Guia de TP 4.
x2 − y2
Sea f (x, y) = 2 . Queremos ver si existe lim(x,y)→(0,0) f (x, y).
x + y2
Comenzamos probando por los ejes, que pasan por el punto P = (0, 0). Probamos primer por el eje x.
Eso quiere decir que tomamos y = 0 y vemos que queda
x 2 − 02 x 2
f (x, 0) = = = 1.
x 2 + 02 x 2
Entonces f es constante en el eje x y el límite a lo largo del eje x da 1.
Ahora probamos por el eje y. Eso quiere decir que tomamos x = 0 y vemos que queda
02 − y2 −y2
f (0, y) = = = −1.
02 + y2 y2
Entonces f es constante en el eje y y el límite a lo largo da −1.
Como los límites por los dos ejes son distintos, no existe el límite de f en P = (0, 0).
xy
Sea f (x, y) = , en P = (0, 0). Probamos primer por el eje x. Eso quiere decir que tomamos
x2 + y2
y = 0 y vemos que queda
0
f (x, 0) =
= 0.
x2
Entonces f es constante en el eje x y el límite a lo largo del eje x da 0.
Ahora probamos por el eje y. Eso quiere decir que tomamos x = 0 y vemos que queda
0
f (0, y) = = 0.
y2
Entonces f es constante en el eje y y el límite a lo largo da 0.
Como los límites por los dos ejes son iguales, todavía no podemos llegar a ninguna conclusión. Pro-
bamos con una recta por el origen genérica, y = mx. Tenemos
x · mx m · x2 m · x2
f (x, mx) = = =
x2 + (mx)2 x2 + m2 x2 x2 (1 + m2 )
x2 y
Sea f (x, y) = en P = (0, 0). Por los ejes, el límite da 0 (ver la cuenta del ejemplo anterior).
x4 + y2
Por las rectas y = mx tenemos
mx3 mx3
limx→0 f (x, mx) = limx→0 = limx→0 4
x4 + m2 x2 x + m2 x2
mx3 mx 0
= limx→0 2 2 2
= limx→0 2 2
= 2 = 0,
x (x + m ) (x + m ) m
puesto que podemos suponer que m , 0 (el caso m = 0 ya lo estudiamos cuando nos acercamos por
el eje x). Entonces por cualquier recta por el origen da 0.
¿Quiere decir que el límite doble es 0? No necesariamente, ya que hay otros caminos para acercarse
al origen que no son rectas.
Por ejemplo, la parábola y = x2 . Calculamos f a lo largo de esa curva,
x2 x2 x4 1
f (x, x2 ) = 4 2 2
= 4
= .
x + (x ) 2x 2
Entonces f es constante a lo largo de esa parábola (que pasa por el origen) y así podemos afirmar que
el límite de f a lo largo de esa parábola es 1/2. Como este límite es distinto de 0 (que era lo que daba
a lo largo de, por ejemplo, el eje x), podemos afirmar que no existe el límite de f en P = (0, 0).
4x 2 y
Sea f (x, y) = en P = (0, 0). Por los ejes, el límite da 0 (ver la cuenta dos ejemplos atrás).
x2 + y2
Por las rectas y = mx tenemos
4mx3 4mx3
limx→0 f (x, mx) = limx→0 = limx→0
x 2 + m2 x 2 x 2 + m2 x 2
4mx3 4mx 0
= limx→0 2 2
= limx→0 = = 0.
x (1 + m ) (1 + m ) 1 + m2
2
Entonces por cualquier recta por el origen da 0. ¿Quiere decir que el límite doble es 0? Podemos
probar por parábolas y otras curvas. Invitamos al lector a hacerlo. Vamos a ver que a lo largo de todas
ellas el límite es 0.
¿Cómo podemos probar que el límite doble es cero? No tiene sentido probar por infinitos caminos.
Lo que vamos a hacer es probar que f (x, y) − ` (en este caso f (x, y) pues el candidato es ` = 0) es
tan pequeño como querramos, a medida que (x, y) → 0. O sea vamos a probar que el límite doble es
0 usando su definición. Para eso usamos la Propiedad 4.1.11 de la norma , y escribimos
Aquí usamos que x2 ≤ k(x, y)k2 y también que |y| ≤ k(x, y)k. El denominador, por otro lado, era
exactamente igual a k(x, y)k2 .
Entonces cancelando las normas (recordemos que no nos interesa que pasa exactamente en (x, y) =
(0, 0)), tenemos
| f (x, y) − 0| = | f (x, y)| ≤ 4k(x, y)k.
Pero sabemos que (x, y) → (0, 0), luego 4k(x, y)k → 0. Por la propiedad del sandwich, debe ser
f (x, y) → 0 cuando (x, y) → (0, 0), luego el límite si existe y es nulo, esto es
4x 2 y
lim(x,y)→(0,0) = 0.
x2 + y2
Idea: cuando tenemos un cociente de polinomios, y el límite es de la forma 0/0, es útil pensar qué
grado tiene el numerador y qué grado tiene el denominador. Si tienen el mismo grado, es bastante
probable que el límite no exista. En cambio si el grado del numerador (en el ejemplo previo, grado
3) es mayor que el del denominador (en el ejemplo previo, grado 2) entonces el numerador tiende a
cero más rápido que el denominador y eso nos dice que es bastante probable que el líimite exista y
sea nulo. Por supuesto que esta idea es sólo un indicador, que luego hay revisar en los hechos con las
técnicas que indicamos aquí.
Continuidad
DEFINICIÓN 4.1.14 (Continuidad). Cuando X0 ∈ A podemos comparar el límite con el valor al
evaluar, si coinciden decimos que f es continua en X0 . Resumiendo f es continua en X0 si
limX→X0 f (X) = `,
pero f (X0 ) , `, decimos que X0 es una discontinuidad evitable de f . Esto es porque si cambiamos el
valor de f en X0 por el número `, la función queda continua en X0 .
También decimos que X0 ∈ bd(A) \ A es una discontinuidad evitable si existe el límite
limX→X0 f (X) = `,
Curvas
α(b)
α(a)
C = im(α)
Una curva es una función de una variable α : I → Rn , donde n ≥ 2. En general nos referimos a su
imagen que es un conjunto de Rn que se parametriza con una sola variable. Por ejemplo
donde x : I → R y también y : I → R son dos funciones de una variable. Por ejemplo en el caso anterior
x(t) = cos(t), mientras que y(t) = sen(t).
Para las curvas en R3 podemos usar α(t) = (x(t), y(t), z(t)) donde cada coordenada es una función de
R en R, por ejemplo en el segundo caso de arriba x(t) = 2t, y(t) = 3t, z(t) = −t.
DEFINICIÓN 4.1.19 (Continuidad de curvas). Una curva α : I → Rn dada por
1. Si f (P) > 0, f (Q) < 0 (o alrevés), entonces existe R ∈ A tal que f (R) = 0.
2. Si f (P) < f (Q) entonces la imagen de f toma todos los valores intermedios entre f (P) y f (Q).
Explícitamente, [ f (P), f (Q)] ⊂ Im( f ).
No necesariamente el intervalo y la imagen de f son exactamente iguales, la imagen puede ser más
grande.
TEOREMA 4.1.22 (Teorema de Weierstrass). Sea K ⊂ Rn , sea f : K → R. Entonces f es acotada y
alcanza máximo y mínimo en K.
Este teorema requiere algunas explicaciones. Recordemos para empezar que un conjunto es compacto
cuando es cerrado y acotado.
M = máx{ f (x) : x ∈ K} ∈ R,
-que existe porque la imagen es compacta- existe un punto PM ∈ K tal que f (PM ) = M.
El valor máximo de f en K es M = f (PM ), mientras que el máximo se puede alcanzar en uno o más
puntos de K -el punto PM no tiene por qué ser único, ver la Figura 4.3-. Entonces el valor máximo
Gr( f )
Q
P1 P2 x
m
K
es único, pero los “máximos” de f (los puntos donde hay que evaluar para conseguirlo) pueden ser
varios.
Notemos que si bien [m, M] ⊂ im( f ), si restringimos f a K, la imagen es exactamente ese intervalo:
[m, M] = im( f |K ).
f (y) − f (x)
f 0 (x) = limy→x .
y−x
y L tan L sec
Gr( f )
dy
f (x0 )
dx
x0 x
Cuando el límite existe y da un número decimos que f es derivable en x. Para que el límite exista el
numerador debe tender a cero, luego es condición necesaria para que f sea derivable que
La afirmación recíproca no es cierta, por ejemplo la función módulo f (x) = |x| es continua en x = 0
pero no es derivable allí, ya que
f (0 + h) − f (0) h−0
limh→0+ = limh→0+ =1
h h
mientras que
f (0 + h) − f (0) −h − 0
limh→0− = limh→0− = −1.
h h
Esto dice que los límites laterales del cociente incremental de f en x = 0 son distintos, y entonces no
existe el límite del cociente incremental. Por eso f (x) = |x| no es derivable en x = 0.
dy f (x) − f (x0 )
=
dx x − x0
representa la pendiente de la recta secante que pasa por P = (x0 , f (x0 )) y por Q = (x, f (x)). Lo que
queremos es ver qué pendiente tiene la recta en el límite cuando x → x0 , y ese número (el límite de
los cocientes incrementales) es la derivada.
La recta tangente es la recta que pasa por el punto (x0 , f (x0 )) que mejor aproxima al gráfico de f
cerca de ese punto.
De la tabla (y algo de sentido común) notamos que el dominio de la derivada coincide con el de
la función, ya que para poder derivar tenemos que tener función. Por ejemplo la fórmula 1/x para la
derivada del logaritmo a priori tiene dominio todos los números no nulos, pero a posteriori (sabiendo
que la estamos pensando como la derivada de ln) tiene dominio sólo x > 0.
En algunos casos el dominio de la derivada es estrictamente más chico que el de la función original,
por ejemplo
y y y
x x x
2/3 4/3
y = |x| y=x y=x
OBSERVACIÓN 4.2.5 (Funciones derivables). De los ejemplos y la definición vemos que para cal-
cular la derivada, tiene sentido hacerlo cuando el punto x0 es interior. Entonces de aquí en más nos
concentraremos en derivar funciones f en dominios abiertos. Dado A ⊂ R abierto, diremos que f es
derivable en A si existe su derivada en todos y cada uno de los puntos x ∈ A.
PROPIEDADES 4.2.6 (Reglas de derivación-una variable). Reglas para derivar productos sumas y
composiciones. Sea A ⊂ R abierto, sean f , g derivables en A ⊂ R. Entonces
3. Si λ ∈ R entonces (λ f )0 = λ f 0 .
para todo y ∈ B.
Simplemente cambiando las letras, si puede hacerse la otra composición (en el otro orden) f ◦ g y
ambas son derivables entonces la composición es derivable y
También puede reescribirse la fórmula de la derivada de la inversa notando que y = f (x), entonces
0 1
f −1 ( f (x)) =
f 0 (x)
PROPIEDADES 4.2.7 (Derivadas). Combinando las propiedades mencionadas con las derivadas de
la Tabla (d1), obtenemos las derivadas de otras funciones que aparecen repetidamente en los ejemplos
y aplicaciones. La tabla no indica los dominios ni de f ni de f 0 , eso queda a cargo del lector:
f (x) f 0 (x)
1
tan(x) cos2 (x)
cosh(x) senh(x)
senh(x) cosh(x)
ex + e−x ex − e−x
cosh(x) = , senh(x) = .
2 2
Notar que a diferencia de las usuales, no están acotadas y tampoco cambia el signo al derivar. También
cumplen una relación similar a la pitagórica (pero con otro signo):
Notemos que senh(0) = 0; como cosh2 (x) = 1 +senh2 (x) ≥ 1 el coseno hiperbólico no se anula nunca.
TEOREMA 4.2.8 (Teoremas del cálculo diferencial en una variable). Sea f : [a, b] → R continua.
Supongamos que f es derivable en (a, b). Entonces
f (b) − f (a)
f 0 (c) = .
b−a
COROLARIO 4.2.9 (Crecimiento y decrecimiento). Sea f : I → R derivable con I un intervalo
abierto, entonces
1. Si f 0 ≥ 0 en I, f es creciente en I. Esto es
x ≤ y =⇒ f (x) ≤ f (y).
3. Si f 0 ≤ 0 en I, f es decreciente en I. Esto es
x ≤ y =⇒ f (x) ≥ f (y).
Las funciones con derivada no nula en un intervalo son inyectivas, ya que son estrictamente monó-
tonas (creciente o decreciente).
Las funciones crecientes preservan desigualdades, las decrecientes las invierten. Las que no son ni
crecientes ni decrecientes (como por ejemplo f (x) = x2 ) se llevan mal con las desigualdes.
Así sucesivamente, la derivada n-ésima la denotamos f (n) (x) (usamos el paréntesis en el exponente
para que no se confunda con la potencia usual que está relacionada con el producto).
Si queremos hacer explícito el dominio, denotamos Ck (A) al conjunto de todas las funciones que son
de clase Ck en el conjunto A ⊂ Rn .
Decimos que f es de clase C∞ si existen todas las derivadas sucesivas de todos los órdenes.
Todos los polinomios, las funciones seno y coseno, la función exponencial son de clase C∞ . La
función f (x) = x7/3 es de clase C2 pero no es de clase C3 : calculamos
7 7 4 1/3 7 4 1 −1/3
f 0 (x) = x4/3 , f 00 (x) = · x , f 000 (x) = · · x ,
3 3 3 3 3 3
0 x2 sen(1/x) − 0
f (0) = limx→0 = limx→0 x sen(1/x) = 0
x−0
donde usamos la propiedad “0 por acotada=0”. Entonces f es derivable en todo R, con derivada
0 2x sen(1/x) − cos(1/x) x , 0
f (x) =
0 x = 0.
Para ver que f < C1 (R), basta ver que la función derivada no es continua en algún punto. Afirmamos
que no es continua en x = 0. Sabemos que f 0 (0) = 0 por lo recién calculado. Por otro lado vemos que
entonces como no existe el límite de f 0 cuando x tiende a 0, f 0 no es continua y así f no es una función
de clase C1 .
Como el único problema está en x = 0, podemos decir que f es C1 en todo R sin el 0. Esto es,
f ∈ C1 (R \ {0}), pero f < C1 (R).
∂f
(x, y) = 2xy cos(y2 + 3x) − x2 y sen(y2 + 3x) · 3.
∂x
La derivada parcial respecto de y se obtiene en cambio fijando la variable x y pensando a la función
como únicamente de la variable y. Entonces en el mismo ejemplo
∂f
(x, y) = x2 cos(y2 + 3x) − x2 y sen(y2 + 3x) · 2y.
∂x
Cuando la función tiene 3 (o más variables) la definición es la misma: se fijan todas las demás
variables -se las piensa como constantes- y se deriva respecto de ella. Así por ejemplo
∂ 3 2 1
x z + ln(z2 + y3 ) = 2x3 z + 2
· 2z.
∂z (z + y3 )
En este caso como la función tiene tres variables el vector gradiente tendrá 3 coordenadas,
∂f ∂f ∂f
∇ f (x0 , y0 , z0 ) = ( (x0 , y0 , z0 ), (x0 , y0 , z0 ), (x0 , y0 , z0 ))
∂x ∂y ∂z
Si pensamos la derivada por definición, vemos que
∂f f (x, y0 ) − f (x0 , y0 )
(x0 , y0 ) = limx→x0
∂x x − x0
(fijamos y = y0 , movemos x), mientras que
∂f f (x0 , y) − f (x0 , y0 )
(x0 , y0 ) = limy→y0 .
∂y y − y0
(fijamos x = x0 , movemos y). Mismas consideraciones para funciones de más variables. Entonces las
derivadas parciales en el punto pueden existir o no, puede existir una si y la otra no, etc.
Una vez calculada una derivada parcial de f , obtenemos una nueva función con la misma cantidad de
variables. En realidad, si existen las derivadas parciales, tenemos una función para cada variable, las
denotamos
∂f ∂f ∂f
, , , etc.
∂x ∂y ∂z
Para abreviar podemos escribir
∂f ∂f
(P) = fx (P), (P) = fy (P), etc.
∂x ∂y
Se extiende esta definición a las derivadas sucesivas, decimos que f ∈ Ck (A) si existen todas las
derivadas parciales sucesivas de f hasta orden k y son todas funciones continuas.
∂f ∂f
z= (x0 , y0 )(x − x0 ) + (x0 , y0 )(y − y0 ) + f (x0 , y0 ).
∂x ∂y
(P, f (P))
Gr( f )
Π
A = Dom( f )
P = (x0 , y0 )
Este es el plano (Figura 4.5) que pasa por el punto (x0 , y0 , f (x0 , y0 )) del gráfico de f y tiene la
propiedad de ser el que mejor aproxima a dicho gráfico (cerca del punto mencionado).
z = x + y + 2 = π(x, y).
Si pensamos π como función, su gráfica es el plano, y esta función lineal aproxima a f cerca de
P = (0, 0), denotamos esto como:
La diferencia es lo que se conoce como error de la aproximación. Podemos ver una representación
gráfica de f y su plano tangente en P = (0, 0) en el applet de Geogebra (click).
Más variables: cuando la función tiene más de dos variables, no esperamos representarla gráfica-
mente. Pero las ideas de derivadas parciales son idénticas, y lo mismo ocurre con la idea de aproxi-
mación lineal. Entonces por ejemlo si f : R3 → R, su gráfico es el conjunto de R4 dado por
que se puede describir por la ecuación implícita w = f (x, y, z). Vamos a definir su plano tangente en
el punto (x0 , y0 , z0 ) ∈ Dom( f ) como el subespacio de R4 dado por la ecuación implícita
Volvamos ahora a las derivadas y su interpretación. Nuevamente trabajamos con funciones de dos
variables, pero estas ideas se pueden extender a 3 o más de ellas.
Si queremos encontrar cuánto crece f en alguna otra dirección que no sea de un eje, tomamos V =
(v1 , v2 ) de norma unitaria (porque queremos normalizar, ya que los vectores canónicos miden 1) y
definimos
donde Xt = X0 + tV .
Gr( f )
Gr( f ) ∩ Π
dist = t
X = X0 + tV
X0
Si cortamos Gr( f ) con un plano vertical Π sobre la recta L : X0 +tV (Figura 4.6), y miramos la figura
de perfil, vemos el dibujo para una función de una variable (Figura 4.4): la recta que une P con Q en
el dibujo de arriba es la recta secante a la intersección de Gr( f ) con Π.
Su pendiente indica una aproximación a la inclinación de Gr( f ) en esa dirección, y al tomar lími-
∂f
te obtenemos el número exacto de la inclinación, que es la derivada direccional ∂V (X0 ). Para cada
dirección, este número puede ser distinto (es como pararse en una montaña y mirar en todas las direc-
ciones, dependiendo de hacia donde miramos se sube más o menos, se baja, se permanece horizontal,
etc.)
∂f 1 ∂f
(x0 , y0 ) = limt→0 f (x0 + h, y0 ) − f (x0 , y0 ) = (x0 , y0 ),
∂V h ∂x
la derivada parcial respecto de x es un caso particular de derivada direccional. Similarmente, la deri-
vada parcial respecto de y es otro caso particular de derivada direccional (ahora tomando V = E2 =
(0, 1)).
Como ya mencionamos, no alcanza que existan las derivadas parciales para que una función de dos
variables sea continua, y de hecho, tampoco alcanza con que existan todas las derivadas direccionales.
Un ejemplo de una función que no es continua, pero para la cual existen todas las derivadas direccio-
nales en el origen, está dado por
x3 y
si (x, y) , (0, 0),
6
f (x, y) = x + y2
0 si (x, y) = (0, 0).
Veamos que ahora que para una función “buena” (de clase C1 ), podemos calcular todas sus derivadas
direccionales de manera bastante simple (sin calcular límites):
TEOREMA 4.2.22 (Gradiente y derivadas direccionales). Sea A ⊂ Rn abierto y sea f ∈ C1 (A). En-
tonces para todo V ∈ Rn con kV k = 1 y todo P ∈ A se tiene
∂f
(P) = h∇ f (P),V i = ∇ f (P) ·V.
∂V
El teorema anterior dice que podemos evitar calcular los límites para las demas direcciones, siempre
que f sea de clase C1 . En particular notemos que si f tiene dos variables y escribimos V = (V1 ,V2 ),
entonces
∂f
(x0 , y0 ) = v1 fx (P) + v2 fy (P).
∂V
Todas las derivadas direccionales (en el punto P) son combinación lineal de las dos derivadas
parciales (en el punto P). Si esto no es cierto para algún punto o para algún V , entonces podremos
afirmar que f no es de clase C1 .
El valor máximo de las derivadas parciales en un punto P dado es exactamente k∇ f (P)k. Todas las
demás derivadas direccionales son menores o iguales a este número.
Cuando decimos que la dirección de máximo crecimiento es la del gradiente, queremos decir que
(suponiendo que ∇ f (P) , 0) hay que tomar como dirección
1
V= ∇ f (P).
k∇ f (P)k
Si ∇ f (P) = 0, todas las derivadas direccionales son nulas, entonces en cualquier dirección se crece a
la misma velocidad.
Comenzamos listando algunas propiedaes del gradiente que son fáciles de deducir del caso de una
variable.
PROPIEDADES 4.3.1 (Reglas de derivación-varias variables). Reglas para derivar productos sumas
y composiciones. Sea A ⊂ Rn abierto, sean f , g : A → R de clase C1 . Sea P ∈ A, entonces
Dada F : R2 → R2 , podemos escribir F(x, y) = ( f1 (x, y), f2 (x, y)) donde fi : R2 → R son funciones es-
calares. Decimos que F es un campo vectorial o más brevemente que F es un campo. Otras notaciones
comunes son
F(u, v) = (x(u, v), y(u, v))
donde ahora x : R2 → R es una función escalar y lo mismo ocurre con y : R2 → R.
Si ahora F : R3 → R3 podemos escribir
DEFINICIÓN 4.3.2 (Continuidad, Ck ). Decimos que el campo F es continuo si todas las funciones
fi son continuas. Decimos que el campo es de clase Ck si todas las funciones fi son de clase Ck .
¿Qué pasa si la cantidad de variables de salida es distinta de la de llegada? Obtenemos una matriz
que no es cuadrada. Por ejemplo
1. Si f : R3 → R, hay una sola función, luego hay una sola fila y entonces
∂f ∂f ∂x
D f (P) = ∇ f (P) = ( (P), (P), (P)).
∂x ∂y ∂z
Lo mismo ocurre para funciones de dos variables: el gradiente y la diferencial coinciden.
3. Si F : R2 → R3 , entonces F(u, v) = (x(u, v), y(u, v), z(u, v)) luego al poner cada función como
fila tenemos tres filas. Y como hay dos variables tenemos dos columnas:
∂x/∂u ∂x/∂v
DF = ∂y/∂u ∂y/∂v ∈ R3×2 .
∂z/∂u ∂z/∂v
TEOREMA 4.3.4 (Regla de la cadena). Sean F, G campos de clase Ck tales que se pueda hacer la
composición F ◦ G. Entonces F ◦ G es de clase Ck y además para cada P en su dominio, vale
OBSERVACIÓN 4.3.5 (Composición y producto de matrices). Veamos algunos ejemplos para ter-
minar este resumen. Como antes, en rojo las variables de salida, y en azul las de llegada.
4. Si escribimos α(t) = (x(t), y(t)) podemos escribir f (u, v) - cambiamos el nombre de las varia-
bles de f para que no se confundan con las de α -. Entonces la última ecuación se reescribe
así:
∂f ∂f
( f ◦ α)0 = h( , ); (x0 , y0 )i,
∂u ∂v
luego
∂f 0 ∂f 0
( f ◦ α)0 = ·x + ·y .
∂u ∂v
En esta expresión hay que sobreentender que x0 , y0 están evaluados en t, mientras que las deri-
vadas parciales de f están evaluadas en (x(t), y(t)).
5. Es común en la literatura ver abusos de notación donde esta última ecuación se escribe así:
∂f 0 ∂f 0
( f ◦ α)0 = ·x + ·y .
∂x ∂y
Esto no es un problema si uno entiende del contexto que primero hay que derivar f respecto de
sus variables y luego componer con las que dependen del parámetro t.
EJEMPLO 4.3.6 (del uso de la regla de la cadena). Sin multiplicar matrices, y teniendo en cuenta
∂f 2 ∂f
(x + 3y, 2x3 − y2 ) · 3 + (x2 + 3y, 2x3 − y2 ) · (−2y).
∂x ∂y
Para una función derivable f : R → R, la derivada primera en un punto nos permitía saber qué pen-
diente tiene la gráfica de f (en ese punto).
Podíamos también aproximar el valor de f (x) -para x cercano a x0 - con el valor de la recta tangente.
Para ello recordemos que la ecuación de la recta tangente en x0 es
que también podemos escribir como `tg (x) = f (x0 ) + f 0 (x0 )(x − x0 ).
Pero también es exacta si f inicialmente era una función lineal. Ya que si f es una recta, su derivada
es constante, y entonces su recta tangente (en cualquier punto) es exactamente igual a la gráfica de f .
Cuando f no es lineal ¿cuál es la diferencia entre la recta tangente y la gráfica de f ? En otros términos
¿cuál es el error cometido cuando usamos la aproximación (5.1.1)? Este error depende de cuánto nos
alejemos de x0 . Mientras más cercanos estemos a x0 , más pequeño será el error, vamos a llamarlo
R(x). Es claro que
R(x) = f (x) − `tg (x) = f (x) − f (x0 ) − f 0 (x0 )(x − x0 ).
Cabe aclarar que esta la fórmula del error (también llamada resto de orden 1) depende de f .
También, por supuesto, depende del punto x0 . Ya que si cambiamos el punto, cambia el valor de f y
el de f 0 en x0 . Uno podría escribir algo como R( f , x0 )(x) para indicar esto, pero en general no será
necesario ya que una vez elegida la función, fijaremos el punto y estaremos trabajando con el resto
para esa f y ese punto concreto.
Dados x, x0 en un intervalo decimos que c está entre x, x0 cuando c es alguno de los puntos inter-
medios entre x y x0 .
97
FCEN-UBA A NÁLISIS 1 A LIMENTOS Álgebra lineal y Cálculo
Notemos que si x < x0 , entonces c ∈ (x, x0 ), mientras que si x > x0 , tendremos c ∈ (x0 , x). Podemos
abreviar esto escribiendo c ∈ xx0 , que podemos leerlo como que c está en el segmento entre x y x0 .
TEOREMA 5.1.1 (Fórmula del resto de orden 1). Sea f de clase C2 en un intervalo I. Entonces
existe c ∈ x x0 tal que R(x) = 1/2 f 00 (c)(x − x0 )2 . Luego fijados x, x0 ∈ I podemos escribir
En otros términos
f (x) = `tg (x) + R(x) = `tg (x) + 1/2 f 00 (c)(x − x0 )2 .
EJEMPLO 5.1.2 (Ejemplos del error de orden 1). Veamos cómo es el resto (o error) de orden 1 para
algunos casos sencillos.
Sea f (x) = sen(x), sea x0 = 0. Como f 0 (x) = cos(x), tenemos f (0) = 0, mientras que f 0 (0) = 1.
Luego la recta tangente al seno por el origen es
y = x.
Como f 00 (x) = − sen(x), el teorema nos dice que para cada x ∈ R existe c entre 0 y x tal que
El resto o error está acotado por una parábola, como muestra esta cuenta:
1 1
|R(x)| = | f (x) − `tg (x)| = | · sen(c)| · x2 ≤ x2 .
2 2
Entonces por ejemplo si |x| ≤ 1/3, entonces x2 ≤ 1/9 y entonces el error será menor o igual a 1/18.
Con esto podemos afirmar que para |x| ≤ 1/3,
sen(x) ' x,
con un error de a lo sumo 1/18 = 0, 055 < 0, 1. Por supuesto, para x más pequeño el error será menor.
Sea f (x) = ex , sea x0 = 0. Calculamos f 0 (x) = f 00 (x) = ex , entonces f (0) = f 0 (0) = 1 y así la recta
tangente a la función exponencial por el origen es
y = 1 + x.
El teorema nos dice que para cada x ∈ R existe c entre 0 y x tal que
ex = 1 + x + 1/2 · ec · x2 .
Supongamos que |x| ≤ 1/4, recordemos que c está entre 0 y x. Si x < 0 podemos afirmar que ec <
e0 = 1, pero qué pasa si x > 0? Observamos que como la exponencial es una función creciente el valor
de ec es a los sumo e0,25 < e1 = e < 3 -esta cota es muy burda pero será suficiente para este ejemplo-.
ya que |x| ≤ 1/4 implica que x2 ≤ 1/42 = 1/16. Con esto podemos afirmar que si |x| < 1/4 entonces
ex ' 1 + x
Fijada f de clase C2 y un punto x0 en su dominio, buscamos entonces una función cuadrática P que
coincida a orden 2 con f en el punto x0 ¿Qué quiere decir esto? Que pedimos
El factor 1/2 que antecede a la derivada segunda está puesto para que al derivar ese término, el 2 que
baja del cuadrado se cancele y recuperemos f 00 (x0 ).
Ahora queremos controlar el error, llamado resto de orden 2, que es simplemente la diferencia entre
la función y el polinomio:
R(x) = f (x) − P(x) = f (x) − f (x0 ) − f 0 (x0 )(x − x0 ) − 1/2 f 00 (x0 )(x − x0 )2 .
f (x) = f (x0 ) + f 0 (x0 )(x − x0 ) + 1/2 f 00 (x0 )(x − x0 )2 + 1/6 f 000 (c)(x − x0 )3 .
Una vez más, R depende de f y de x0 , y además hay que aclarar que se trata del resto de orden 2, ya
que no es lo mismo este resto que el resto de orden 1.
Vemos que en este caso el resto es pequeño porque si x está cerca de x0 , entonces |x − x0 | < 1 y
entonces |x − x0 |3 es aún más pequeño. Este resto es menor que el de orden 1, y por eso el polinomio
de orden 2 es una mejor aproximación que la recta tangente.
También vemos que si f es una función cuadrática, f 000 ≡ 0 y entonces f = P: el polinomio de
Taylor de f (en cualquier punto) es exactamente igual a f .
Veamos ahora los ejemplos de las funciones seno y exponencial en x0 = 0, pero busquemos su poli-
nomio de Taylor de orden 2 y su resto.
Sea f (x) = sen(x), sea x0 = 0. Calculamos las derivadas, tenemos f 0 (x) = cos(x), f 00 (x) = − sen(x),
f 000 (x) = − cos(x). Entonces, como cos(0) = 1 mientras que sen(0) = 0, el teorema nos dice que para
cada x, existe c entre 0 y x tal que
Vemos que el polinomio de orden 2 es P(x) = x ya que la derivada segunda es nula, así que coincide
con la recta tangente en x0 = 0.
y y = P(x) = x
y = sen(x)
−π/2
1 π/2 x
−1
Sin embargo, ahora la fórmula del resto es la de orden 2, y esto es mucho mejor porque aparece
x3 . Supongamos nuevamente (como cuando estudiamos la aproximación de orden 1) que |x| ≤ 1/3.
Entonces
1 1 1 1
|R(x)| = · | cos(c)| · |x|3 ≤ · |x|3 ≤ · 3 ' 0, 0061 < 0, 01
6 6 6 3
puesto que | cos(c)| ≤ 1 y |x| ≤ 1/3. Pero entonces en realidad la aproximación
sen(x) ' x
P(x) = 1 − 1/2 · x2 ,
y = cos(x)
−π/2
y = 1 − 1/2 · x2
Sea f (x) = ex , tomemos x0 = 0. Como todas las derivadas son ex , tenemos por el teorema de Taylor
de orden 2 que
ex = 1 + x + 1/2 · x2 + 1/6 · ec · x3
para algún c entre 0, x. En este caso el polinomio de orden 2 de la exponencial en el origen es
P(x) = 1 + x + 1/2 · x2 .
ya que |x| ≤ 1/4 implica |x| ≤ 1/43 . Esta acotación del error nos permite afirmar que si |x| ≤ 1/4,
entonces
ex ' 1 + x + 1/2 · x2
con una precisión de dos decimales.
y
y = ex
y = 1 + x + 1/2 · x2
Para hallar este polinomio de grado 2 en 2 variables, pedimos que coincida con f en P y que coincidan
todas las derivadas parciales hasta orden 2 también, es decir que P(x, y) cumpla las seis condiciones
∂P ∂f
P(x0 , y0 ) = f (x0 , y0 ), ∂x (x0 , y0 ) = ∂x (x0 , y0 )
2
∂f ∂2 P
∂P
∂y (x0 , y0 ) = ∂y (x0 , y0 ), (x , y ) = ∂∂x2f (x0 , y0 )
∂x2 0 0
2
∂2 P ∂2 P ∂2 f
(x , y ) = ∂∂y2f (x0 , y0 ),
∂y2 0 0 ∂x∂y (x0 , y0 ) = ∂x∂y (x0 , y0 )
que ahora es una función de dos variables (y nuevamente depende de f y del punto P).
Para lidiar con las derivadas parciales de f de manera ordenada, será útil introducir la matriz Hessiana
de f (también llamada matriz de la diferencial segunda de f ):
DEFINICIÓN 5.1.4 (Matriz Hessiana). Sea A ⊂ R2 abierto, sea X0 = (x0 , y0 ) y sea f ∈ C2 (A). El
Hessiano de f en el punto X0 es la matriz de las derivadas segundas, ordenadas de la siguiente manera:
∂2 f ∂2 f
(x , y )
∂x2 0 0 ∂y∂x (x0 , y0 )
H f (x0 , y0 ) = .
∂2 f ∂2 f
∂x∂y (x0 , y0 ) (x , y )
∂y2 0 0
∂2 f ∂2 f
(x0 , y0 ) = (x0 , y0 ).
∂x ∂y ∂y ∂x
Notemos que las seis condiciones que cumple el polinomio P de orden 2 de la función f se pueden
resumir ahora como
TEOREMA 5.1.6 (Fórmula de Taylor con resto de orden 2). Sea A ⊂ R2 abierto, sea f ∈ C3 (A), sea
(x0 , y0 ) ∈ A.
Dado (x, y) ∈ BR (P) ⊂ A entonces
∂f ∂f
f (x, y) = f (x0 , y0 ) + (x0 , y0 ) · (x − x0 ) + (x0 , y0 ) · (y − y0 )
∂x ∂y
2
∂ f ∂2 f
+ 1/2 · 2 (x0 , y0 ) · (x − x0 )2 + 1/2 · 2 (x0 , y0 ) · (y − y0 )2
∂x ∂y
2
∂ f
+ (x0 , y0 ) · (x − x0 ) · (y − y0 ) + R(x, y)
∂y∂x
donde R es el resto, y existe un punto C = (c1 , c2 ) ∈ A, más precisamente C ∈ PX, tal que
∂3 f 3 ∂3 f
R(x, y) = 1/6 · (x ,
0 0y ) · (x − x0 ) + 1/6 · (x0 , y0 ) · (y − y0 )3
∂x3 ∂y3
∂3 f
+ 1/2 · 2 (x0 , y0 ) · (x − x0 )2 · (y − y0 )
∂x ∂y
∂3 f
+ 1/2 · 2 (x0 , y0 ) · (x − x0 ) · (y − y0 )2
∂y ∂x
La diferencia en los coeficientes de las derivadas segundas y terceras obedece a que como f es de
clase C3 , entonces hay varias derivadas sucesivas que son idénticas
Todas las derivas de orden 2 van divididas por 2, y todas las derivadas del resto de orden tres van
divididas por 3! = 6, pero como agrupamos las idénticas, quedan esos coeficientes.
z = x + y + 2 = π(x, y),
luego π(x, y) ' f (x, y) para (x, y) cerca del origen. Tenemos una representación gráfica de esto en el
applet de Geogebra (click). Calculemos ahora el polinomio de orden 2 en el origen, con su resto de
Taylor. Para eso necesitamos las derivadas sucesivas de f , que son
2
−9y2
fxx (x, y) = ex+y−7x (196x2 − 28x − 13)
2
−9y2
fyy (x, y) = ex+y−7x (324y2 − 36y − 17)
2
−9y2
fxy (x, y) = fyx (x, y) = ex+y−7x (1 − 14x)(1 − 18y)
2
−9y2
fxxx (x, y) = ex+y−7x (−2744x3 + 588x2 + 546x − 41)
2
−9y2
fxxy (x, y) = ex+y−7x (1 − 18y)(196x2 − 28x − 13)
2
−9y2
fyyy (x, y) = ex+y−7x (−5832y3 + 872y2 + 918y − 53)
2
−9y2
fyyx (x, y) = ex+y−7x (1 − 14x)(324y2 − 36y − 17).
Las derivadas que faltan son iguales a algunas de estas, por las relaciones (5.1.2) dadas porque f es
de clase C3 en todo R2 . Escribamos primero la expresión del resto, para eso fijado X = (x, y) sabemos
que existe C = (c1 , c2 ) en el segmento que une X0 = O con X tal que
No vamos a acotar este resto en dos variables, pero es posible hacerlo sabiendo qué tan lejos vamos
del origen con X = (x, y) (ya que entonces |c1 | ≤ |x| y también |c2 | ≤ |y|. Sabemos que si X está cerca
del origen O, entonces f (x, y) ' P(x, y) con el error controlado por este resto.
Podemos escribirlo con las derivadas que ya calculamos, evaluadas en (x0 , y0 ) = (0, 0) como indica
el teorema de arriba. Tenemos f (0, 0) = 2, fx (0, 0) = 1, fy (0, 0) = 1, fxx (0, 0) = −13, fyy (0, 0) = −17
y por último fxy (0, 0) = fyx (0, 0) = 1. Entonces
luego
P(x, y) = 2 + x + y + xy − 13/2 · x2 − 17/2 · y2 .
Podemos ver que el término lineal afín del polinomio es 2 + x + y, que era exactamente el plano tan-
gente a f en el origen. También puede el lector verificar que el gráfico de P se trata de un paraboloide
invertido. Por supuesto, la aproximación del polinomio de grado 2 es mucho mejor que la del plano,
y podemos ver esto representado gráficamente en el applet de Geogebra (click).
5.2. Integración
• Corresponde a clases en videos 5.3a, 5.3b, 5.4
Una primitiva (o antiderivada) F de la función f es una función derivable en I tal que F 0 (x) = f (x)
para todo x ∈ I.
La función nula f ≡ 0 tiene como primitiva a cualquier función constante, y esas son las únicas
primitivas de la función nula.
Si F, G son dos primitivas de f entonces existe una constante c ∈ R tal que G(x) = F(x) + c para
todo x ∈ I.
Z
La integral indefinida f es la colección de todas las primitivas de f en I. Entonces si F es alguna
primitiva, tenemos que Z
f = F + c, c∈R
Z
Para toda F derivable se tiene F 0 = F + c.
La integral definida de f se calcula usando una primitiva cualquiera mediante la Regla de Barrow
Z b b
f = F(x)a = F(b) − F(a)
a
Si F es una primitiva de f entonces la función integral no es otra cosa que I(x) = F(x) − F(a).
Luego la función integral de f es una primitiva específica de f , es la única primitiva de f que se anula
en x = a.
La regla de integración por partes nos permite calcular tanto integrales indefinidas
Z Z
f 0g = f g − f g0
como definidas Z b b Z b
0
f (x)g(x)dx = f (x)g(x)a − f (x)g0 (x)dx.
a a
Esta regla es una consecuencia inmediata de la regla de derivación del producto.
Z c Z b Z c
Si a, b, c ∈ I entonces f= f+ f.
a a b
Z b Z a
Si a, b ∈ I entonces f =− f.
a Z b b
Si f ≥ 0 en [a, b] entonces f ≥ 0. Es importante aquí que a < b.
a
Z b Z b
Si f ≥ g en [a, b] entonces f≥ g.
a a
Rb
En general a f ≥ 0 no implica que f ≥ 0 en todo el intervalo, porque puede haber cancelaciones.
Rb
Por el mismo motivo a f = 0 no implica que f (x) = 0 para todo x ∈ [a, b].
donde A ≥ 0 es el área bajo el gráfico de f y sobre el eje de las x (encerrada por las rectas verticales
x = a, x = b).
y
y = f (x)
x
a b
TEOREMA 5.2.4 (Área entre curvas). Si g ≥ f en el intervalo [a, b] y ambas son integrables, el área
encerrada entre los gráficos de g y de f se calcula con la integral definida
Z b Z b Z b
(g − f ) = g− f.
a a a
y
y = g(x)
A
b x
a
y = f (x)
Si f ≤ 0 en el intervalo [a, b] entonces el área A atrapada debajo del eje x y encima del gráfico de f
se calcula como Z b Z b
A= (− f ) = − f.
a a
Podemos pensar aquí que g = 0; entonces es un caso especial del teorema anterior, ya que f ≤ g = 0
y así g − f = 0 − f = − f . También podemos pensar que si f ≤ 0, entonces la función − f es positiva
a b
x
A
y = f (x)
(su gráfico es el simétrico respecto del eje x); luego el área atrapada bajo − f y sobre el eje es la misma
que esta.
OBSERVACIÓN 5.2.5 (Curvas que se cortan). Si los gráficos de f , g se entrecruzan, primero tene-
mos que encontrar donde, y luego separar el intervalo en intervalos más pequeños donde una está
encima de la otra. Para ello se requiere hallar donde se cruzan, y estos son los x ∈ [a, b] tales que
f (x) = g(x).
y = g(x)
A2
a b x
c d
A1
A3
y = f (x)
En ejemplo gráfico que tenemos debajo, los puntos de corte en el intervalo [a, b] son x = c, x = d.
Entonces el área total es
Z c Z d Z b
A = A1 + A2 + A3 = (g − f ) + ( f − g) + (g − f ).
a c d
Si f : I → R representa una cantidad (por ejemplo, una distancia que varía con el tiempo, que es la
Cuando el intervalo de tiempo tiende a cero (∆t → 0) obtenemos la velocidad instantánea. Entonces
si f representa la distancia de un móvil en función del tiempo, f 0 representa la velocidad instantánea
de ese móvil.
Hay mucha otras aplicaciones de este modelo. Por ejemplo si f representa una población de bacterias
y t es el tiempo, la derivada representa la velocidad con la que crece (o decrece) el número de bac-
terias). O si f representa la cantidad de litros de una sustancia que pasa por una compuerta a través
del tiempo, entonces f 0 es la velocidad de ese líquido por la compuerta. También hay modelos eco-
nómicos donde f representa la cantidad de capital, y la variable puede ser el tiempo, o la cantidad de
insumo de un cierto producto que produce una ganancia de capital; en todos los casos la derivada f 0
es la velocidad de cambio.
Hay modelos donde uno puede inferir la relación entre la cantidad que uno tiene (por ejemplo la
posición del movil) y su velocidad de cambio (por ejemplo basándose en el conocimiento de la su-
perficie por la que se mueve el móvil, o por el tamaño de las compuertas, etc. Entonces uno obtiene
una relación entre f y su derivada f 0 . La pregunta es si a partir de esta relación podemos hallar algu-
na (o algunas) funciones que cumplan esta relación; esta f hallada es el modelo matemático para el
problema planteado.
EJEMPLO 5.3.1 (Bacterias). Un primer ejemplo simple es el siguiente: supongamos que sabemos
que la velocidad es siempre proporcional a la cantidad. Por ejemplo en el crecimiento de bacterias,
mientras más hay más rápido crecen. Digamos que sabemos que f 0 (x) = 3 f (x) para todo x en el in-
tervalo de tiempo que nos interesa. ¿Podemos hallar la función f que nos dice la cantidad de bacterias
en cada instante?
En este caso la poblacion es un número positivo, o sea f (x) > 0. De la relación que tenemos, podemos
escribir
f 0 (x)
=3 ∀x
f (x)
Pero entonces podemos probar integrar. Como tenemos una igualdad de funciones (a la derecha está
la función constante 3, vemos que
f 0 (x)
Z Z
dx = 3 dx = 3x + c.
f (x)
Ahora hacemos una sustitución, u = f (x). Luego du = f 0 (x)dx y así nos queda
f 0 (x) 1
Z Z
3x + c = dx = du = ln |u| = ln | f (x)| = ln f (x)
f (x) u
pues f (x) > 0. Exponenciando ambos lados vemos que debe ser
donde k > 0 es una constante a determinar. ¿Cómo la hallamos? Para eso necesitamos saber la cantidad
de bacterias en algún instante del tiempo, digamos 105 en el instante x = 1: este dato es simplemente
f (1) = 105 . Pero entonces reemplazando en la expresión que obtuvimos para f vemos que
105 = f (1) = k · e3 ,
105
luego k = e3
, y así
105
f (x) = · e3x
e3
es la función que modela la población de bacterias.
OBSERVACIÓN 5.3.2 (Notación). En general se suele usar la letra x para denotar la variable, y la
cantidad se denota con la variable y. En realidad, se trata de una función y = y(x). Entonces la relación
del ejemplo f 0 (x) = 3 f (x) se reescribe como
Esto es lo que se conoce como una ecuación diferencial de orden 1 (porque sólo involucra la derivada
primera). Como vimos, puede tener muchas soluciones, pero una vez fijada una condición inicial (en
el ejemplo, y(1) = 105 ) hay una única solución de la ecuación diferencial, que es una función que
verifica la relación.
OBSERVACIÓN 5.3.3 (Método de separación de variables). Respecto del método que usamos para
resolver la ecuación del ejemplo, este cambio de notación sugiere una estrategia que funciona en
dy
muchos casos. Escribimos y0 (x) = dx , luego la ecuación diferencial se reescribe como
dy
= 3y.
dx
Podemos operar algebraicamente sobre esta ecuación para dejar los diferenciales en el numerador, y
todo lo que tenga x de un solo lado (y todo lo que tenga y del otro lado):
dy
= 3 dx.
y
Este método se conoce como separación de variables. La justificación concreta está en cómo lo
resolvimos más arriba, cuando hicimos una sustitución. Siguiendo desde aquí, podemos integrar a
ambos lados
1 dy
Z Z Z
dy = = 3 dx.
y y
Notamos que a cada lado, se integra respecto del diferencial de la variable que sólo figura a ese lado.
Luego integrando vemos que
Exponenciando vemos que |y(x)| = e3x+c = k · e3 c como antes. Si suponemos que y(x) > 0, arribamos
Si no suponemos que y > 0 (por ejemplo si la ecuación diferencial y0 = 3y representa una cantidad
que puede cambiar de signo, como la cantidad de capital, que es negativo cuando hay deudas), enton-
ces en principio la solución es de forma y(x) = ±ke3x , y esto es lo mismo que decir que y(x) = Ae3x
donde ahora A puede ser una constante positiva o negativa.
Esta constante A se determina también con las condiciones iniciales; por ejemplo si en tiempo x = 0
el capital era −10 (deuda) entonces y(x) = −10e3x , y vemos que siempre estaremos en deuda, y la
deuda será cada vez mayor.
EJEMPLO 5.3.4 (Segunda Ley de Newton). La misma postula que la aceleración de un móvil (que
es la derivada de la velocidad, o sea la derivada segunda de la posición) es propocional a la fuerza F
que se ejerce sobre el móvil para moverlo.
Por ejemplo si P(t) denota la posición en función del tiempo, y m es la masa del objeto, la segunda
ley de Newton se escribo como la ecuación diferencial
La constante c está determinada por la velocidad inicial del móvil, porque v(t0 ) = t0 + c así que
c = v0 −t0 , donde usamos la notación v0 = v(t0 ). Entonces la velocidad es v(t) = t + v0 −t0 . Para fijar
ideas, supongamos que t0 = 1 y que v0 = 3, luego para este móvil la ecuación de su velocidad es
v(t) = t + 2.
Ahora queremos hallar la posición, para ello recordamos que p0 (t) = v(t) así que ahora tenemos la
ecuación diferencial
dp
= p0 = v = t + 2,
dt
que se reescribe como d p = (t + 2)dt. Integrando ambos lados tenemos
t2
Z Z
p= 1·dp = (t + 2)dt = + 2t + k,
2
es decir p(t) = 1/2 · t 2 + 2t + k. Nuevamente hay que determinar la constante k, para eso necesita-
mos el dato de alguna posición, por ejemplo p(t0 ) = p0 ; recordemos que teníamos t0 = 1, y ahora
supongamos que p0 = 10. Entonces
así que de aquí podemos despejar k = 10 − 3/2 = 17/2. Así que la ecuación de movimiento de nuestro
objeto es
p(t) = 1/2 · t 2 + 2t + 17/2.
Dejamos como ejercicio: resolver este problema del movimiento para una masa genérica m y una
fuerza constante genérica F. Hay que resolver es la ecuación diferencial mv0 (t) = F, para m, F cons-
tantes genéricas. Se obtiene una función cudrática con parámetros, y es interesante pensar qué ocurre
cuando los parámetros m, F varían.
EJEMPLO 5.3.5 (Un problema de mezcla). Un tanque mezclador tiene 100 litros de una solución
compuesta por 80 % de agua y 20 % de acetona. Se le comienza a agregar agua a una velocidad de
5 litros por minuto. Mientras se mezcla dentro del tanque, este deja salir por debajo líquido a una
velocidad también de 5 litros por minuto, para usar la mezcla en otro proceso. Después de 40 minutos
¿cuánta acetona habrá en el tanque?
Denotamos y = y(x) la cantidad de acetona en el tanque respecto del tiempo, sabemos que y0 = y(0) =
20 litros. La cantidad de líquido total es constante, pero no así la de acetona, que va disminuyendo.
La velocidad a la que se pierde es y0 = −LO QUE SALE (en litros por minuto).
Lo que sale por debajo es una proporción del total, el factor de proporcionalidad es
SALE 5 1
y= y = y.
TOTAL 100 20
Entonces la ecuación diferencial que modela el problema es
1
y0 = − y.
20
dy 1
La reescribimos como dx = − 20 y lo que nos lleva a
1 1
dy = − dx.
y 20
1
Integrando ambos lados, obtenemos ln |y| = − 20 x + c. Sabemos que y(x) > 0 para todo x, y también
que y0 = 20, luego
1
c = c− · 0 = ln y0 = ln(20).
20
Entonces exponenciando obtenemos y(x) = ec e−x/20 = 20e−x/20 . Luego después de 40 minutos, la
cantidad de acetona en el tanque es
20
y(40) = 20e− = 20e−2 '
40/20
' 2, 7 litros ,
7, 4
Recordemos que dado δ > 0, la bola Bδ (X0 ) es el conjunto de puntos que distan menos que δ de X0 .
Podemos usarlo en este caso para indicar cercanía con X0 . Los extremos locales de una función son
extremos con respecto a los puntos cercanos. También se usa el la palabra relativo como sinónimo de
local. Más precisamente:
DEFINICIÓN 6.1.1 (Máximos y mínimos locales). Sea f : A → R (aquí A ⊂ Rn ). Dado X0 ∈ A,
decimos que X0 es
1. mínimo local de f si existe δ > 0 tal que
Para algunas funciones sencillas, podemos identificar extremos sin mayor preámbulo que comparar
f (X0 ) con f (X) para X cercano a X0 . Veamos algunos ejemplos importantes:
113
FCEN-UBA A NÁLISIS 1 A LIMENTOS Álgebra lineal y Cálculo
Sea f (x) = x2 , como f (0) = 0 entonces f (x) = x2 > 0 = f (0) si x , 0, luego x0 = 0 es mínimo
local estricto. De hecho, es un mínimo global porque la desigualdad vale en todo el dominio A = R
de la función.
f (x) = x2 (1 − x) ≥ 0 = f (0).
Sea f (x) = x4 , con x0 = 0. Entonces f (x) = x4 > 0 = f (0) si x , 0 luego x0 = 0 es mínimo estricto
absoluto de f .
Si invertimos los signos obtendremos máximos, por ejemplo f (x) = −x2 o bien f (x) = −x4 tienen
máximo estricto en x0 = 0.
La función f (x) = x3 no tiene un extremo (ni local ni global) en x0 = 0. Esto es porque x3 cambia
de signo alrededor de f (0) = 0.
f (x, y) = x2 + y2 ≥ 0 = f (0, 0)
entonces X0 = (0, 0) es mínimo de f . Al igual que en el caso de una variable, la desigualdad es estricta
si X , (0, 0), así que es un mínimo estricto global de f .
paraboloide
Lo mismo ocurre con f (x, y) = x4 + y4 o con f (x, y) = x2 + y4 o con f (x, y) = 3x4 + 5y2 , etc.
Si invertimos los signos obtendremos un máximo, por ejemplo X0 = (0, 0) es máximo extricto de
f (x, y) = −2x2 − 3y2 . En particular los paraboloides invertidos tienen máximo extricto en su vértice.
paraboloide invertido
Veamos los casos llamados “degenerados” donde algún coeficiente es nulo. Por ejemplo sea f (x, y) =
x2 , pensemos qué ocurre en el punto X0 = (0, 0). Es claro que
f (x, y) = x2 ≥ 0 = f (0, 0)
entonces podemos afirmar que (0, 0) es mínimo global de f . Pero no es estricto porque por ejemplo
f (0, 1) = 02 = 0. De hecho f (0, y) = 0 para todo y ∈ R, la función se anula sobre el eje de las y.
Podemos afirmar que todos los puntos del eje y son mínimos (no estrictos) de f . Eso es más fácil de
visualizar si recordamos que el gráfico de f (x, y) = x2 es el cilindro parabólico:
cilindro parabólico
z
z = x2
y
x
El otro caso degenerado es cuando el coeficiente no nulo es negativo, por ejemplo f (x, y) = −y2 .
Aquí vemos que X0 = (0, 0) es máximo (no estricto), y de hecho cualquier punto del eje x lo es porque
z = −y2 y
en X0 = (1, 2). Para verlo, supongamos que (x, y) ∈ B1 (X0 ), entonces en particular |x − 1| < 1 y también
|y − 2| < 1. Respecto de x, vemos que 0 < x < 2 y entonces 11 + x > 11. Respecto de y, tenemos
que 1 < y < 3, luego 1 < y2 < 9, entonces −1 > −y2 > −9. En particular −y2 > −9 en esta bola.
Combinando las dos desigualdas para x e y que obtuvimos, vemos que
11 + x − y2 = (11 + x) − y2 > 11 − 9 = 2.
Es nos dice que el segundo factor de f (para X ∈ B1 (X0 )) es estrictamente positivo. Como el primer
factor también lo es, vemos que si (x, y) ∈ B1 (X0 ) sin tocar X0 = (1, 2), entonces
Hasta aquí, hemos observado o señalado los extremos “a mano”. Lo que queremos es indicar un
criterio que nos indique cómo hallarlos. Para eso comenzamo con una definición útil:
DEFINICIÓN 6.1.2 (Punto crítico). Sea A ⊂ Rn abierto, sea f : A → R. Decimos que X0 ∈ A es punto
crítico de f si alguna de las dos siguientes condiciones se cumple
Los puntos críticos de primera clase son aquellos donde la función no es suave. Por ejemplo
La función módulo f (x) = |x| tiene un punto crítico en x0 = 0 porque no es derivable allí. Es un
mínimo estricto.
y y y
y = x3/5
x x x
y = |x| y = x2/3
f (x) = x2/3 tiene un punto crítico en x0 = 0 porque no es derivable allí, la derivada para x , 0 es
f 0 (x) = 2/3x−1/3 . También es un mínimo estricto.
f (x) = x3/5 tiene un punto crítico en x0 = 0 porque no es derivable allí, la derivada para x , 0 es
f 0 (x) = 3/5x−2/5 . Sin embargo, x0 = 0 no es extremo de la función.
p
f (x, y) = x2 + y2 no tiene derivadas parciales en (0, 0),
x y
fx (x, y) = p , fy (x, y) = p ,
x2 + y2 x2 + y2
son sus derivadas parciales pero no están definidas en el origen. El origen es un mínimo estricto ya
que el gráfico de f es (la parte superior) del cono.
Vemos que no necesariamente en un punto crítico hay un extremo. Ahora miremos los puntos críticos
de segunda clase, donde se anulan las derivadas:
f (x, y) = x2 + y2 tiene gradiente ∇ f (x, y) = (2x, 2y), y este se anula únicamente en X0 = (0, 0).
Como ya discutimos, es un mínimo estricto.
f (x, y) = x2 − y2 tiene gradiente ∇ f (x, y) = (2x, −2y), y este se anula en X0 = (0, 0). Sin embargo
no este punto no es un extremo de f (el gráfico de f es la silla de montar y el origen es el punto de
ensilladura).
DEFINICIÓN 6.1.3 (Punto silla). También llamado punto de ensilladura, es aquel punto crítico X0
de f donde f no tiene un extremo. Es decir, un punto silla es un punto crítico de f que no es máximo
ni mínimo.
¿Por qué el énfasis en buscar los puntos críticos entonces? Por el siguiente teorema:
TEOREMA 6.1.4 (Fermat). Sea A ⊂ Rn , sea f : A → R tal que f tiene un extremo en X0 ∈ A. Entonces
X0 es un punto crítico de f .
Entonces si buscamos extremos, sabemos que necesariamente estarán en los puntos críticos de la
función. Si primero buscamos el conjunto de todos los puntos críticos de f , los extremos (si tiene)
estarán entre algunos de estos puntos. Es una manera de reducir el problema: en lugar de buscar
extremos en todos los puntos de A = Dom( f ), buscamos extremos entre los puntos críticos. Los
puntos críticos que veamos que no son extremos, son puntos silla.
Si X0 es un punto crítico, al ser f suave, debe ser por el Teorema de Fermat ∇ f (X0 ) = O. Luego el
término lineal se anula y tenemos
Suponiendo que el resto es pequeño (porque estamos con X cerca de X0 ) vemos que cerca de un punto
crítico
f (X) ' f (X0 ) + 1/2hH f (X0 )(X − X0 ), X − X0 i.
Supongamos que la matriz Hessiana de f es definida positiva. Esto era que todos sus autovalores sean
estrictamente positivos; luego de un cambio de variable adecuado vemos que el término de orden 2 es
un paraboloide (hacia arriba)
Entonces
f (X0 ) + 1/2hH f (X0 )(X − X0 ), X − X0 i = f (X0 ) + u2 + v2 > f (X0 ),
así que
f (X) ' f (X0 ) + 1/2hH f (X0 )(X − X0 ), X − X0 i > f (X0 ).
Esto nos permite concluir que si el Hessiano en el punto crítico X0 es definido positivo, entonces
M es semi-definida si (al menos) algun λi es nulo y todos los demás tienen el mismo signo.
Con la idea de la observación anterior (y algunas cosas técnicas más que no mencionaremos) se puede
probar el siguiente teorema, que nos da un criterio para decidir qué tipo de punto crítico tenemos.
TEOREMA 6.1.6 (Criterio del Hessiano). Sea X0 ∈ A ⊂ Rn punto crítico de f : A → R (de clase C2 ).
Entonces
1. Si H f (X0 ) es definido positivo, entonces X0 es un mínimo local estricto de f .
2. Si H f (X0 ) es definido negativo, entonces X0 es un máximo local estricto de f .
3. Si H f (X0 ) es indefinido, entonces X0 es un punto silla (no es extremo).
4. Si H f (X0 ) es semi-definida, el criterio no decide.
Este criterio también se conoce (en una variable) como criterio de la derivada segunda, y se puede
enunciar en 1 variable de manera idéntica, sólo que ahora el rol del Hessiano lo cumple la derivada
segunda en el punto -se puede pensar que es un caso particular del anterior, aunque aquí hay un sólo
número y no dos, por eso el caso indefinido no figura-
TEOREMA 6.1.7 (Criterio en una variable). Sea x0 ∈ I ⊂ R punto crítico de f : I → R (de clase C2 ).
Entonces
f (x) = x2 , f 0 (x) = 2x, f 00 (x) = 2. El punto crítico es x0 = 0, y como la derivada segunda es constante
y positiva, es un mínimo local estricto.
f (x) = −x2 , f 0 (x) = −2x, f 00 (x) = −2. El punto crítico es x0 = 0, y como la derivada segunda es
constante y negativa, es un máximo local estricto.
f (x) = x3 , f 0 (x) = 3x2 , f 00 (x) = 6x. El punto crítico es x0 = 0, pero no es un extremo de f como
observamos anteriormente (notemos que aquí f 00 (0) = 0).
f (x) = x4 , f 0 (x) = 4x3 , f 00 (x) = 12x. El punto crítico es x0 = 0, pero f 00 (0) = 0 así que el criterio
no nos ayuda. Ya discutimos al comienzo de esta sección que se trata de un mínimo.
f (x) = −x4 , f 0 (x) = −4x3 , f 00 (x) = −12x. El punto crítico es x0 = 0, pero f 00 (0) = 0 así que el
criterio no nos ayuda. Ya discutimos al comienzo de esta sección que se trata de un máximo.
Veamos ahora cómo funciona el criterio en dos variables. Los casos de estudio son las superficies
cuádricas:
f (x, y) = x2 + y2 , luego ∇ f (x, y) = (2x, 2y) con punto crítico X0 = (0, 0). Calculamos las derivadas
segundas y tenemos
fxx (x, y) = 2, fyy (x, y) = 2, fxy (x, y) = fyx (x, x) = 0
luego la matriz Hessiana es constante e igual a
2 0
H f (x, y) = .
0 2
En particular así es el Hessiano en el punto crítico (0, 0). Esta matriz ya está diagonalizada, sus
autovalores son λ1 = λ2 = 2, ambos estrictamente positivos. Entonces H f (0, 0) es definido positivo,
así que por el criterio del Hessiano, (0, 0) es un mínimo local estricto de f (cosa que ya sabíamos por
otros medios).
f (x, y) = −x2 − y2 , luego ∇ f (x, y) = (−2x, −2y) con punto crítico X0 = (0, 0), calculamos las
derivadas segundas y tenemos
fxx (x, y) = −2, fyy (x, y) = −2, fxy (x, y) = fyx (x, y) = 0
X0
X0
X0
Figura 6.1: Puntos críticos X0 con Hessiano definido positivo, negativo e indefinido respectivamente. Cerca del
punto X0 la superficie tiene la forma de una de estas.
En particular así es el Hessiano en el punto crítico (0, 0). Esta matriz ya está diagonalizada, sus au-
tovalores son λ1 = λ2 = −2, ambos estrictamente negativos. Entonces H f (0, 0) es definido negativo,
así que por el criterio del Hessiano, (0, 0) es un máximo local estricto de f .
f (x, y) = x2 −y2 , luego ∇ f (x, y) = (2x, −2y) con punto crítico X0 = (0, 0). Calculamos las derivadas
segundas y tenemos
En particular así es el Hessiano en el punto crítico (0, 0). Esta matriz ya está diagonalizada, sus auto-
valores tienen signos opuestos. Entonces H f (0, 0) es indefinido, así que por el criterio del Hessiano,
(0, 0) es un punto silla de f .
Veamos ahora por qué el criterio no decide cuando hay un autovalor nulo (y todos los demás tienen
el mismo signo). El problema es que con un autovalor nulo, el resto de Taylor R (que despreciamos
en la Observación 6.1.5) si juega un papel en cada caso particular.
f (x, y) = x2 − y4 , luego ∇ f (x, y) = (2x, −4y3 ) con punto crítico X0 = (0, 0). Calculamos las deri-
vadas segundas y tenemos
Los autovalores son λ1 = 2, λ2 = 0, es semi-definida. Pero esto no nos ayuda porque la función no
tiene un mínimo en (0, 0). Para verlo nos acercamos al origen por el eje y, notamos que f (0, y) =
−y4 < 0 = f (0, 0) así que 0 no es mínimo. El dibujo de la superficie z = x2 − y4 (que es el gráfico de
f ) es muy parecido al de la silla de montar. Entonces (0, 0) es punto silla de f .
En general, como sólo queremos saber qué signo tienen los autovalores (y no exactamente cuánto
valen) podemos usar el siguiente criterio
TEOREMA 6.1.8 (Criterio del determinante 2 × 2). Sea
a11 a12
M=
a21 a22
ac − b2 = det(M) = λ1 λ2
(el producto de los autovalores). Y además a11 = hME1 , E1 i. Entonces es claro que el signo del de-
terminante depende de los signos de los autovalores, y luego la entrada 1 − 1 de la matriz es un caso
particular de la cuenta hMV,V i que nos permite decidir si M es definida negativa o positiva (ver el
final del Resumen 2).
Podemos recordar el criterio del determinante en 2 × 2 con estos tres diagramas, que corresponden
respectivamente a una matriz definida positiva, una definida negativa y una indefinida:
+ 0 − 0 + 0
0 + 0 − 0 −
El criterio dice que podemos encontrar los signos de los autovalores sin necesidad de diagonalizar la
matriz ni de hallar los autovalores, y la manera de recordar el criterio es “imaginar” que la matriz está
diagonalizada, entonces estamos en alguno de estos tres casos (siempre que el determinante sea no
nulo).
fx (x, y) = ex+y · 1 · (x2 − 2y2 ) + ex+y · (2x) = ex+y · (x2 − 2y2 + 2x) = 0
fy (x, y) = ex+y · 1 · (x2 − 2y2 ) + ex+y · (−4x) = ex+y · (x2 − 2y2 − 4y) = 0.
Obtenemos dos ecuaciones que se tienen que cumplir simultáneamente. El factor con la exponencial
es nunca nulo así que lo podemos cancelar en ambas. Nos quedan las ecuaciones
x2 − y2 + 2x = 0 x2 − 2y2 − 4y = 0.
Las ecuaciones son no lineales, pero son parecidas. Entonces restando la primera de la segunda nos
queda 2x + 4y = 0 de donde deducimos que x = −2y. Luego x2 = 4y2 y reemplazando esto en la
segunda ecuación nos queda
4y2 − 2y2 − 4y = 0
es decir 2y2 − 4y = 0. Se factoriza como 2y(y − 2) = 0, así que tiene que ser y = 0 o bien y = 2.
Cuando y = 0, debe ser también x = 0 (puesto que era x = −2y). Obtenemos P1 = (0, 0). Cuando
y = 2 debe ser x = −4, obtenemos el punto P2 = (−4, 2). Luego f tiene dos puntos críticos.
Veamos de qué tipo son, para eso necesitamos calcular las derivadas segundas de f . Son
fxx (x, y) = ex+y · (x2 − 2y2 + 4x + 2), fyy (x, y) = ex+y · (x2 − 2y2 − 8y − 5),
Es claro que a11 = −6e−2 < 0, y por otro lado el cálculo del determinante arroja
El criterio del determinante nos dice que este Hessiano es definido negativo, y entonces f tiene un
máximo local estricto en P2 = (−4, 2).
Esta función no tiene ningún mínimo local, y tiene un sólo máximo local. Puede verse su gráfico
en el applet de Geogebra.
Para estudiar extremos de funciones de 3 variables, también hay un criterio para decidir los signos de
los autovalores usando el determinante, que es útil aunque algo más técnico:
TEOREMA 6.1.10 (Criterio del determinante 3 × 3). Sea
a11 a12 a13
M = a21 a22 a23
a31 a32 a33
Nuevamente, el criterio nos dice qué signos tienen los autovalores de M sin necesidad de hallarlos ni
de diagonalizar M; para recordar el criterio es útil recordar en primer lugar que
det(M) = λ1 λ2 λ3 ,
6.2. Optimización
• Corresponde a clases en video 6.4a, 6.4b
Recordemos aquí el
El mismo nos será de utilidad para justificar por qué los extremos que hallaremos serán absolutos en
los ejemplos que siguen. En esta sección discutiremos cómo modelar un problema con una función y
hallar el óptimo (la solución del problema) buscando los extremos de la función.
EJEMPLO 6.2.2 (Optimización). Queremos construir una caja con un volumen de 1000cm3 , de
manera tal que la superficie total de la caja sea mínima. ¿Qué dimensiones tienen que tener la caja?
Solución: Si la caja tiene dimensiones x, y, z (es un prisma rectangular, o sea un ladrillo), entonces la
restricción es que V = xyz = 1000. Por otro lado, la superficie de las tapas sumadas es
Antes de seguir, observamos que si x ó y tienden a 0, la superficie tiende a infinito. Y también que
ocurre lo mismo cuando x ó y tienden a infinito. Entonces la función S no tiene máximo en la región
Veamos que tiene un mínimo local, que es además mínimo global. Para ello calculamos las derivadas
parciales de S y las igualamos a cero para hallar los puntos críticos:
2000 2000
Sx (x, y) = 2y − = 0, Sy (x, y) = 2x − = 0.
x2 y2
La primer ecuación nos dice que x2 y = 1000, mientras la segunda nos dice que xy2 = 1000. Entonces
debe ser x2 y = xy2 , y como x > 0, y > 0 podemos cancelar y debe ser x = y, pero de x2 y = 1000
deducimos que x3 = 1000, luego x = 10. Como y = x también debe ser y = 10. El único punto crítico
es P = (10, 10), allí la función vale
El punto P es mínimo global de S en la región A indicada más arriba, nuestra intuición nos dice que
tiene que haber un mínimo, y como hay un único punto crítico tiene que ser en este punto.
Entonces el mínimo absoluto se alcanza cuando x = 10, y = 10, z = 10 (notar que es cuando la caja es
cúbica).
OBSERVACIÓN 6.2.3. El número del volumen V = 1000 es anecdótico. Revisando el razonamiento
y las cuentas, vemos que la caja rectangular con menor superficie (para un volumen dado) siempre
tiene todos sus lados iguales, es un cubo.
El argumento que dimos para concluir que el mínimo es absoluto es un poco impreciso, ya que
por ejemplo, la función podría tomar valores menores que 600 sin tener un mínimo local, ya que el
dominio A no es acotado (o sea que nuestra justificación no es tan buena como decíamos).
Un argumento más preciso sería: como S tiende a infinito tanto en los bordes de la región como en
infinito, podemos hallar un rectángulo R dentro de A (que contenga al punto P) de manera tal que fuera
del rectángulo (y en el borde) la función sea estrictamente mayor que 600. Restringimos la función S
al rectángulo R y buscamos el mínimo absoluto de S|R (que existe por el Teorema de Weirstrass). El
mínimo no puede estar en el borde porque allí es estrictamente mayor que en P, donde S vale 600.
Entonces el mínimo se alcanza en un punto del interior de R, y en ese punto el gradiente tiene que ser
nulo pues en particular es mínimo local. Pero como el único punto donde se anula el gradiente de S
es P, el mínimo absoluto tiene que ser P.
Ahora bien, esto de que la función a minimizar tiende a infinito en los ejes y en infinito, también es
un tanto impreciso, y deberíamos poder mostar el recinto R donde estamos seguros que debe estar el
óptimo. No vamos a hacer esto en general, pero para este ejemplo particular vamos a mostrar cómo
se puede hacer.
Será útil el siguiente cálculo auxiliar: para t > 0, la función g(t) = t + 40t tiene un mínimo absoluto
√ √
en t = 2 10, y el valor mínimo es 4 10. Esto es fácil de ver haciendo un estudio del crecimiento √
y decrecimiento de la función: como g0 (t) = 1 − 40 2 , la derivada es negativa para t ∈ (0 , 2 10) y
√ t
positiva para t > 10.
las cotas que encontramos recién nos dicen que en el borde y por fuera de R tenemos S > 600.
Buscamos el mínimo absoluto de S|R (que existe ya que S es continua y R es compacto). Tiene que
estar en el interior, porque P ∈ R◦ y alli la función vale 600 (mientras que en el borde es estrictamente
mayor). Como el mínimo tiene que estar en el interior, que es abierto, el gradiente tiene que ser nulo
allí. Como el único punto crítico que hallamos fue P, ese tiene que ser el mínimo absoluto de S|R , y
por ende es el mínimo absoluto de S|A .
EJEMPLO 6.2.4. Queremos construir de nuevo una caja pero ahora tenemos 12m2 de cartón para las
6 tapas, entonces ¿Cuáles son las dimensiones de la caja para que el volumen contenido sea máximo?
El volumen de la caja es nuevamente V = xyz donde x, y, z son las variables positivas que representan
las longitudes de los lados de la caja. La restricción para la superficie es que
De esta restricción podemos despejar una de las variables, nuevamente elegimos despejar z, como
2xy + 2(x + y)z = 12 obtenemos
12 − 2xy 6 − xy
z= = .
2(x + y) x+y
Antes de seguir vamos a hacer una observación: como debe ser z > 0 tenemos una restricción adicional
que es
6 − xy
> 0,
x+y
como x + y > 0 (pues tanto x como y lo son) debe ser 6 − xy > 0, o equivalentemente xy < 6.
Entonces la función volumen a optimizar es
6 − xy 6xy − x2 y2
V (x, y) = xy · =
x+y x+y
en el dominio
A = {(x, y) : x > 0, y > 0, xy < 6}.
Vamos a hallar los puntos críticos de V en la región A, para eso vemos dónde se anula el gradiente
x2 + 2xy − 6 = 0, y2 + 2xy − 6 = 0.
Si las restamos obtenemos x2 = y2 y como ambos son positivos debe ser x = y. Reemplazamos en la
2 2
√ y nos queda x + 2x − 6 = 0 lo que√nos√
primer ecuación dice que 3x2 = 6, luego x2 = 2 y así debe
ser x = y = 2. El único punto crítico de V es P = ( 2, 2) y allí el volumen vale
√ √ 6−2 4 √
V ( 2, 2) = 2 · √ = √ = 2 2
2 2 2
(en el último paso racionalizamos la fracción). Afirmamos que este es el máximo absoluto de la
función V en la región A. El argumento es similar al del ejemplo anterior:
Podemos calcular z √ pues lo teniamos en función √ de x, y. Entonces el volumen máximo se alcanza
cuando x = y = z = 2, y este volumen es V = 2 2.
OBSERVACIÓN 6.2.5. Nuevamente podemos observar que el óptimo se alcanza cuando los tres
lados son iguales, y la caja es un cubo. Esto es válido para cualquier restricción de superficie: la caja
que tiene mayor volumen (para una superficie dada) es cúbica.
y buscamos los puntos críticos igualandola a cero. Tenemos que buscar las raíces de
−4x2 + 3x + 1 = 0
que son x1 = −1/4, x2 = 1 (pero el segundo no está en el intervalo que nos interesa). Agregando los
bordes, los puntos críticos en nuestro intervalo son
No es necesario hacer un estudio del tipo de punto crítico, porque buscamos extremos absolutos.
Hacemos una lista del valor de f en cada punto crítico y los comparamos. El valor máximo y el valor
mínimo es lo que buscamos:
x f (x)
−1 10e−2−3 · (−1) −10e−5 ' −0, 066
−1/4 10e−1/8−3/4 · (−1/4) −5/2 · e−7/8 ' −1, 04 mín.
0 10e0 · 0 0 ' 0 máx.
Notamos que el mínimo se alcanza en el interior del intervalo [−1, 0], pero el máximo se alcanza en
un borde.
f (x, y) = x2 + y2 − 2x − 2y
fx (x, y) = 2x − 2 = 0, fy (x, y) = 2y − 2 = 0.
Encontramos el punto P = (1, 1) como único punto crítico, y vemos que está en el interior de K (que
es un disco de radio 2). Ahora queremos estudiar f |bd(K) pero a diferencia del caso de una variable,
el borde es toda una curva (son infinitos puntos).
Lo que vamos a hacer es estudiar f con esa restricción, para eso notamos que la curva
recorre el borde de K cuando t ∈ [0, 2π]. Entonces le damos a (x, y) esos valores y estaremos evaluando
f únicamente en el borde,
t 7→ f (2 cos(t), 2 sen(t)).
Llamemos g(t) a esta composición (g es una función auxiliar). Tenemos que estudiar entonces los
En este caso entonces, redujimos el problema de estudiar f en el borde de K a estudiar una función
de un variable en un intervalo compacto. Es un problema auxiliar, lo resolvemos como hicimos con
el primer ejemplo: tenemos t = 0,t = 2π como puntos críticos por estar en el borde del intervalo y
ahora buscamos también los ceros de la derivada de g en el interior del intervalo
de donde vemos que debe ser cos(t) = sen(t). Notemos que si el coseno se anula (en π/2 y también en
3π/2), la ecuación no se verifica porque el seno no se anula allí. Entonces podemos suponer que t no
es ninguno de estos dos números y dividir por cos(t) para ver que debe ser tg(t) = 1. Las soluciones
de esta ecuación son 2: tenemos t1 = π/4 y también t2 = 5π/4 (también puede verse que en esos dos
puntos de la circunferencia trigonométrica es donde el seno es igual al coseno).
Resumiendo los puntos críticos de g en el intervalo [0, 2π] son
Pero ¿a qué puntos del borde de la circunferencia corresponden estos valores de t? Es fácil de calcular,
ya que estamos recorriendo la circunferencia de radio 2 con el parámetro del arco. Reemplazamos en
la parametrización α(t) y vemos que corresponden a los puntos
√ √ √ √
p.c. = {(2, 0) ; ( 2, 2) ; (− 2, − 2) ; (2, 0)}
Estos son los puntos críticos de f |bd(K) , el punto (2, 0) aparece repetido porque la curva que usamos
para parametrizar el borde comienza y termina en el mismo lugar. Entonces tenemos que sumar estos
puntos críticos al del interior P = (1, 1) y esos son todos los puntos críticos de f |K , los extremos
absolutos tienen que estar entre ellos. Hacemos la tabla de valores y buscamos máximo y mínimo:
(x, y) f (x, y)
(1, 1) 1+1−2−2 −2 ' −2 mín.
(2, 0) 4+0−4−0 0 ' 0
√ √ √ √ √
( 2, 2) 2+2−2 2−2 2 4−4 2 ' −1, 65
√ √ √ √ √
(− 2, − 2) 2+2+2 2+2 2 4+4 2 ' 9, 65 máx.
Esta función alcanza máximo absoluto en el borde del disco de radio 2, y el mínimo absoluto en el
interior. Puede verse su gráfico en el applet de Geogebra.