0% found this document useful (0 votes)
299 views

Teoria Del Error Español

Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as DOCX, PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
299 views

Teoria Del Error Español

Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as DOCX, PDF, TXT or read online on Scribd
You are on page 1/ 30

REDUCCIÓN DE DATOS Y ANÁLISIS DE ERRORES PARA LAS CIENCIAS FÍSICAS

REDUCCIÓN DE DATOS Y ANÁLISIS DE ERRORES PARA LAS CIENCIAS FÍSICAS

THIRD EDITION

Philip R. Bevington

Late Associate Professor of Physics

Case Western Reserve University

D. Keith Robinson

Emeritus Professor of Physics


Case Western Reserve University

Boston Burr Ridge, IL Dubuque, IA Madison, WI New York

San Francisco St. Louis Bangkok Bogotá Caracas Kuala Lumpur Lisbon
London Madrid Mexico City Milan Montreal New Delhi Santiago Seoul
Singapore Sydney Taipei Toronto
McGraw-Hill Higher Education ~

A Division of The McGraw-HiU Companies

DATA REDUCTION ANO ERROR ANALYSIS FOR THE PHYSICAL SCIENCES


THIRD EDITION
Published by McGraw-Hill, a business unit ofThe McGraw-Hill Companies, Inc., 1221
Avenue of the Americas, New York, NY 10020. Copyright © 2003, 1992, 1969 by The
McGraw-Hill Companies, Inc. Ali rights reserved. No part of this publication may be
reproduced or distributed in any form or by any means, or stored in a database or
retrieval system, without the prior written consent of The McGraw-Hill Companies, lnc.,
including, but not limited to, in any network or other electronic storage or transmission,
or broadcast for distance learning.
Sorne ancillaries, including electronic and print components, may not be
available to customers outside the United States.
This book is printed on acid-free paper.
1234567890DOC/DOC098765432
ISBN 0--07-247227-8
Publisher: Kent A. Peterson Sponsoring
editor: Daryl Bruflodt Developmental
editor: Spencer J. Cotkin, Ph.D. Marketing
manager: Debra B. Hash
Senior project manager: Mary E. Powers
Senior production supervisor: Laura
Fuller Senior media project manager:
Stacy A. Patch Lead media technology
producer: Judi David Coordinator of
freelance design: Rick D. Noel Cover
designer: John Rokusek/Rokusek Design
Cover diagrams provided by: D. Keith
Robinson Compositor: GAC-Jndianapolis
Typeface: /0//2 Times Roman
Printer: R. R. Donnelley & Sons Company/Crawfordsville, IN
Library of Congress Cataloging-in-Publication Data
Bevington, Philip R., 1933-1980.
Data reduction and error analysis for the physical sciences I Philip R. Bevington, D. Keith
Robinson.-3rd
ed. p. cm.
Includes bibliographical references and
index. ISBN 0-07-247227-8
1. Multivariate analysis. 2. Error analysis (Mathematics). 3. Least squares. 4.
Data reduction. I. Robinson, D. Keith. 11. Title.
QA278 .848 2003
511 '.43--dc2 I 2002070896
CIP

www.mhhe.com
CONTENIDO
PREFACIO A LA TERCERA EDICION

En su Prefacio de 1969 a la primera edición de este libro, el difunto Philip Bevington expresó
acertadamente su propósito, "proporcionar una introducción a las técnicas de reducción de datos
y análisis de errores comúnmente empleadas por individuos que realizan investigaciones en las
ciencias físicas y presentar los detalles con suficiente detalle y amplitud para que sean útiles para
los estudiantes a lo largo de sus estudios de pregrado y posgrado. La presentación se desarrolla
desde un punto de vista práctico, incluyendo suficiente derivación para justificar los resultados,
pero enfatizando los métodos más que la teoría ". Esta tercera edición continúa la misión original
de Phil, actualizada para reflejar la disponibilidad inmediata de las computadoras modero.

Los primeros cuatro capítulos presentan los conceptos de medición de incertidumbres, análisis de
errores y distribuciones de probabilidad, con una nueva sección sobre probabilidades en
experimentos de estadística baja. El Capítulo 5 proporciona una introducción a los métodos de
Monte Carlo para simular datos experimentales, métodos que se aplican en capítulos posteriores
para generar datos para ejemplos y para estudiar y evaluar la importancia estadística de los
resultados experimentales. En los capítulos 6 al 9, el método de los mínimos cuadrados se aplica a
problemas de complejidad creciente, desde ajustes analíticos en línea recta hasta ajustes no
lineales que requieren soluciones iterativas. El capítulo 1 O proporciona una introducción a la
aplicación directa del método de máxima verosimilitud, y el capítulo 11 incluye una discusión de la
probabilidad x2, los intervalos de confianza y los coeficientes de correlación. Ejercicios

al final de los capítulos, la complejidad varía desde simples cálculos estadísticos hasta proyectos
menores como el ajuste por mínimos cuadrados y los cálculos de Monte Cario. Se proporcionan
respuestas a ejercicios seleccionados.

Se han conservado los apéndices de ediciones anteriores. El Apéndice A incluye una sección breve
sobre cálculo diferencial básico, pero está dedicado principalmente a métodos numéricos que son
útiles para analizar datos en la computadora. Los determinantes y las matrices se analizan en el
apéndice B. El apéndice C proporciona tablas y gráficos de funciones estadísticas,
complementados con rutinas de computadora en el sitio web para calcular probabilidades. El
Apéndice D establece algunas pautas para la preparación de gráficos efectivos. El Apéndice E
proporciona listados de rutinas de computadora que ilustran el texto.
RUTINAS DE COMPUTADORA

Se han conservado rutinas informáticas sencillas e ilustrativas que eran una característica útil del
libro original y se enumeran en Fortran77 en el apéndice E. Se eligió Fortran porque ha
demostrado ser el más duradero de los lenguajes durante muchas décadas. (Pascal, que se
proporcionó en la segunda edición, ha desaparecido, desplazado por C ++.) Con la ayuda de los
comentarios al principio del apéndice E, los estudiantes deberían poder leer los programas de
Fortran y seguir su lógica sin conocimientos especiales. en el idioma. Para simplificar las rutinas
enumeradas y aclarar sus principales objetivos, hemos eliminado la mayoría de las llamadas a
rutinas gráficas.

Las rutinas y programas de computadora están disponibles para descargar tanto en formato For-
tran como en C ++ desde el sitio web www.mhhe.com/bevington, junto con rutinas de apoyo para
facilitar la construcción de programas completos para la generación de Monte Cario, ajuste de
mínimos cuadrados y cálculos de probabilidad. Un archivo "Léame" en el sitio describe la
organización de los programas y proporciona instrucciones para usarlos.

EXPRESIONES DE GRATITUD

Estoy en deuda con el difunto Philip R. Bevington por su libro original, que sirvió de base para
estas revisiones. Estoy agradecido al Departamento de Física de Case Western Reserve por su
apoyo, ya mis estudiantes de laboratorio de pregrado por brindar varios de los ejemplos y mucha
inspiración. Agradezco a Spencer Cotkin y sus colegas de McGraw-Hill por su aliento.

También me gustaría agradecer a los lectores y, en particular, a los siguientes revisores,

por sus muchos comentarios y sugerencias útiles: Jingsong Zhang, Universidad de California,
Riverside; Gary Schmidt, Universidad de Arizona; Herbert Strauss, Universidad de California,
Berkeley; Daniel Suson, Texas A&M, Kingsville.

Finalmente, deseo agradecer a mi esposa Margi su notable paciencia y apoyo.

D. Keith Robinson
ACERCA DE LOS AUTORES

El difunto Philip R. Bevington era profesor de física en la Universidad Case Western Reserve. Se
graduó de la Universidad de Harvard en 1954 y recibió su Ph.D. de la Universidad de Duke en
1960. Enseñó en la Universidad de Duke durante cinco años y fue profesor asistente en la
Universidad de Stanford de 1963 a 1968 antes de llegar a la Universidad de Case Western
Reserve. Estuvo involucrado en la investigación en física de estructuras nucleares con
aceleradores Van de Graaff. Mientras estuvo en Stanford, participó activamente en aplicaciones
informáticas para la física nuclear y fue responsable del desarrollo del sistema SCANS.

D. Keith Robinson es profesor emérito de física en la Universidad Case Western Reserve en


Cleveland, Ohio. Recibió su B.Sc. en física de la Universidad de Dalhousie en Canadá en 1954 y
su D.Phil. de la Universidad de Oxford en

1960. Fue miembro del personal del Laboratorio Nacional Brookhaven desde 1960 hasta 1966
cuando se unió a CWRU. Su investigación en física de partículas experimental ha incluido
estudios de resonancias de bosones, propiedades del mesón K, interacciones antiprotón-protón
y la desintegración radiativa de hiperones. Ha estado muy involucrado en el desarrollo de
laboratorios basados en computadoras para los cursos de introducción a la física en CWRU.
1.1 ERRORES DE MEDICIÓN

Es un hecho bien establecido de la investigación científica que, la primera vez que se realiza un
experimento, los resultados a menudo guardan muy poca semejanza con la "verdad" que se busca.
A medida que se repite el experimento, con sucesivos refinamientos de la técnica y el método, los
resultados se acercan de forma gradual y asintótica a lo que podemos aceptar con cierta confianza
como una descripción fiable de los acontecimientos. A veces podemos sentir que la naturaleza es
reacia a revelar sus secretos sin un gasto considerable de esfuerzo de nuestra parte, y que los
primeros pasos en la experimentación están destinados al fracaso. Cualquiera que sea la razón, es
ciertamente cierto que para todos los experimentos físicos, existen errores e incertidumbres que
deben reducirse mediante técnicas experimentales mejoradas y mediciones repetidas, y los
errores restantes siempre deben estimarse para es-

establecer la validez de nuestros resultados.

Webster define el error como "la diferencia entre un valor observado o calculado y el valor
verdadero". Por lo general, no conocemos el valor "verdadero"; de lo contrario, no habría razón
para realizar el experimento. Sin embargo, podemos saber aproximadamente lo que debería ser,
ya sea por experimentos anteriores o por predicciones teóricas. Estas aproximaciones pueden
servir de guía pero siempre debemos determinar de manera sistemática a partir de los datos y las
condiciones experimentales en sí mismas, cuánta confianza podemos tener en nuestros resultados
experimentales.

Existe una clase de error que podemos abordar de inmediato: errores que se originan por errores
o errores en la medición o el cálculo. Afortunadamente, estos errores suelen ser evidentes como
puntos de datos obviamente incorrectos o como resultados que no están razonablemente cerca
de los valores esperados. Se clasifican como errores ilegítimos y generalmente pueden corregirse
repitiendo cuidadosamente las operaciones. Nuestro interés es en incertidumbres introducidas
por fluctuaciones aleatorias en nuestras mediciones y errores sistemáticos que limitan la precisión
y exactitud de nuestros resultados de formas más o menos definidas. Generalmente, nos
referimos a las incertidumbres como los errores en nuestros resultados, y al procedimiento para
estimarlos como análisis de errores.
Exactitud versus precisión

Es importante distinguir entre los términos exactitud y precisión. La precisión de un experimento


es una medida de qué tan bueno es el resultado del experimento con respecto al valor verdadero:
la precisión es una medida de qué tan bien se ha determinado el resultado, sin referencia a su
concordancia con el valor real. La precisión también es una medida de la reproducibilidad del
resultado en un experimento dado. La distinción entre exactitud y precisión está ilustrada por los
dos conjuntos de medidas en la Figura 1.1 donde la línea recta en cada gráfico muestra la relación
esperada entre la variable dependiente y y la variable independiente x. En ambos gráficos, la
dispersión de los puntos de datos es un reflejo de las incertidumbres en las mediciones, en
consonancia con las barras de error en los puntos. Los datos de la Figura ll (a) se han medido con
un alto grado de precisión, como lo ilustran las pequeñas barras de error, y están en excelente
acuerdo con la variación esperada de y con x, pero son claramente inexactas, desviándose de la
línea por un desplazamiento constante. Por otro lado, los puntos de datos en la Figura 1.1 (b) son
bastante imprecisos como lo ilustran las barras de error grandes, pero están dispersos alrededor
de la distribución predicha.

Es obvio que debemos considerar la exactitud y precisión simultáneamente para cualquier


experimento. Sería una pérdida de tiempo y energía determinar un resultado con alta precisión si
supiéramos que el resultado sería muy inexacto. Por el contrario, un resultado no puede
considerarse extremadamente exacto si la precisión es baja. En general, cuando citamos la
incertidumbre o el error en un resultado experimental, nos referimos a la precisión con la que se
ha determinado ese resultado. La precisión absoluta indica la magnitud de la incertidumbre en el
resultado en las mismas unidades que el resultado; La precisión relativa indica la incertidumbre en
términos de una fracción del valor del resultado.
Errores sistemáticos

La precisión de un experimento, como lo hemos definido, generalmente depende de qué tan bien
podamos controlar o compensar los errores sistemáticos, errores que harán que nuestros
resultados sean diferentes de los valores "verdaderos" con discrepancias reproducibles. Los
errores de este tipo no son fáciles de detectar y no se estudian fácilmente mediante análisis
estadístico. Pueden resultar de una calibración defectuosa del equipo o de un sesgo por parte del
observador. Deben estimarse a partir de un análisis de las condiciones y técnicas experimentales.
Una parte importante de la planificación de un experimento debe dedicarse a comprender y
reducir las fuentes de errores sistemáticos.

EJEMPLO 1.1 Un estudiante mide la superficie de una mesa con una varilla de acero y encuentra
que el promedio de sus medidas arroja un resultado de (1.982 ::: t O.OOI) m para la longitud de la
mesa. Posteriormente se entera de que la varilla de metro fue calibrada a 25 ºC

y tiene un coeficiente de expansión de 0,0005 ° c-1 • Porque sus medidas fueron

elaborados a una temperatura ambiente de 20ºC, sistemáticamente son demasiado pequeños.


Para corregir este efecto, multiplica sus resultados por 1 + 0,0005 X (20 - 25) = 0,9975 para que su

nueva determinación de la longitud es 1.977 m.

Cuando el estudiante repite el experimento, descubre un segundo error sistemático, su técnica


para leer la vara de medir era defectuosa porque no siempre leía las divisiones directamente
desde arriba. Mediante la experimentación, determina que esto dio como resultado
sistemáticamente una lectura de 2 mm menos. El resultado corregido es 1.979 m.
En este ejemplo, el primer resultado se proporcionó con una precisión bastante alta,
aproximadamente 1 parte en 2000. Las correcciones a este resultado estaban destinadas a
mejorar la precisión al compensar las fuentes conocidas de desviación del primer resultado del
mejor estimado posible. Estas correcciones no mejoraron la precisión en absoluto, pero de hecho
la empeoraron, porque las correcciones eran en sí mismas sólo estimaciones de las correcciones
exactas. Antes de citar su resultado final, el estudiante debe volver a examinar su análisis de
errores y tener en cuenta cualquier incertidumbre adicional que puedan haber sido introducidas
por estas correcciones.

Errores aleatorios

La precisión de un experimento depende de lo bien que podamos superar los errores aleatorios,
las fluctuaciones en las observaciones que producen resultados diferentes cada vez que se repite
el experimento y, por lo tanto, requieren una experimentación repetida para obtener resultados
precisos. Una precisión dada implica una precisión equivalente y, por lo tanto, también depende
en cierta medida de errores aleatorios.

El problema de reducir los errores aleatorios es esencialmente uno de mejorar la experiencia

método experimental y refinando las técnicas, así como simplemente repetir el experimento. Si los
errores aleatorios son el resultado de incertidumbres instrumentales, pueden reducirse utilizando
instrumentos de medición más fiables y precisos. Si los errores aleatorios son el resultado de
fluctuaciones estadísticas en un número limitado de mediciones, pueden reducirse haciendo más
mediciones. Hay límites prácticos para estas mejoras. En la medición de la longitud de la tabla del
ejemplo 1.1, el estudiante podría intentar mejorar la precisión de sus mediciones usando una lupa
para leer la escala, o podría intentar reducir las fluctuaciones estadísticas en sus mediciones
mediante repitiendo la medición varias veces. En ningún caso sería útil reducir los errores
aleatorios muy por debajo de los errores sistemáticos, como los introducidos por la calibración de
la varilla o la corrección por su lectura inicial defectuosa de la escala. Los límites impuestos por los
errores sistemáticos son consideraciones importantes en la planificación y realización de
experimentos.

Cifras significativas y redondeo

La precisión del dedo del pie de un resultado experimental está implícita en el número de dígitos
registrados en el resultado, aunque generalmente la incertidumbre también debe citarse
específicamente. El número de cifras significativas en un resultado se define como. sigue:

l. El dígito distinto de cero situado más a la izquierda es el más significativo.

2. Si no hay un punto decimal, el dígito distinto de cero más a la derecha es el dígito menos
significativo.
3. Si hay un punto decimal, el dígito más a la derecha es el dígito menos significativo, incluso si es
una O.

4. Todos los dígitos entre el dígito menos significativo y el más significativo se cuentan como
dígitos significativos.

Por ejemplo, los siguientes números tienen cada uno cuatro dígitos significativos: 1234,

123.400, 123.4, 1001, 1000., 10.10, 0.0001010, 100.0. Si no hay un punto decimal, hay
ambigüedades cuando el dígito más a la derecha es O. Por lo tanto, se considera que el número
1010 tiene solo tres dígitos significativos, aunque el último dígito pueda ser físicamente
significativo. Para evitar la ambigüedad, es mejor proporcionar puntos decimales o escribir dichos
números en notación científica, es decir, como un argumento en notación decimal multiplicado
por la potencia apropiada de 1 O. Por lo tanto, nuestro ejemplo de 1 O 1 O sería escrito como
1010. o 1.010 X 103 si los cuatro dígitos son significativos.

Al citar un resultado experimental, el número de cifras significativas debe ser aproximadamente


uno más que el dictado por la precisión experimental. La razón para incluir el dígito adicional es
evitar errores que podrían ser causados por errores de redondeo en cálculos posteriores. Si el
resultado de la medición del ejemplo 1.1 es L

= 1.979 m con una incertidumbre de 0.012 m, este resultado podría cotizarse como L = (1.979

± 0,012) m. Sin embargo, si el primer dígito de la incertidumbre es grande, como 0,082 m,


probablemente deberíamos citar L = (1,98 ± 0,08) m. En otras palabras, dejamos que el

La certeza define la precisión con la que cotizamos nuestro resultado.

Cuando se eliminan dígitos insignificantes de un número, el último dígito retenido debe


redondearse para obtener la mejor precisión. Para redondear un número a menos significativo

dígitos de los que se especificaron originalmente, truncamos el número como se desee y tratamos
el exceso de dígitos como una fracción decimal. Toen:

l. Si la fracción es mayor que Y2, incremente el nuevo dígito menos significativo.

2. Si la fracción es menor que Y2, no incremente.

3. Si la fracción es igual a Y2, incremente el dígito menos significativo solo si es impar.

La razón de la regla 3 es que un valor fraccionario de Y2 puede resultar de un redondeo previo al


alza de una fracción que fue ligeramente menor que Y2 o un redondeo a la baja de una fracción
que fue levemente mayor que Y2. Por ejemplo, 1,249 y 1,251 se redondean a tres cifras
significativas como 1,25. Si redondeáramos de nuevo a dos cifras significativas, ambas producirían
el mismo valor, 1,2 o 1,3, según nuestra convención. La elección de redondear hacia arriba si el
último dígito resultante es impar y redondear hacia abajo si el último dígito resultante es par,
reduce los errores sistemáticos que de otro modo se introducirían en el promedio de un grupo de
tales números. Tenga en cuenta que, en general, es aconsejable conservar todos los dígitos
disponibles en los cálculos intermedios y redondear solo los resultados finales.

1.2 INCERTIDUMBRES

Las incertidumbres en los resultados experimentales se pueden dividir en dos categorías: las que
resultan de las fluctuaciones en las mediciones y las asociadas con la descripción teórica de
nuestro resultado. Por ejemplo, si medimos la longitud de una mesa rectangular a lo largo de un
borde, sabemos que cualquier incertidumbre, además de los errores sistemáticos, está asociada
con las fluctuaciones de nuestras mediciones de un ensayo a otro. Con un número infinito de
medidas, podríamos estimar la longitud con mucha precisión, pero con un número finito de
ensayos habrá una incertidumbre finita. Si midiéramos la longitud de la tabla en posiciones
igualmente espaciadas a lo largo de la tabla, las mediciones mostrarían fluctuaciones adicionales
correspondientes a irregularidades en la tabla misma, y nuestro resultado podría expresarse como
la longitud media. Sin embargo, si tuviéramos que describir la forma de una mesa ovalada, nos
enfrentaríamos a incertidumbres tanto en la medición de la posición del borde de la mesa en
varios puntos como en la forma de la ecuación que se utilizará para describir la forma. , ya sea
circular, elíptica o lo que sea. Por tanto, en los capítulos siguientes nos ocuparemos de una
comparación de la distribución de puntos de datos medidos con la distribución predicha sobre la
base de un modelo teórico. Esta comparación ayudará a indicar si nuestro método para extraer los
resultados es válido o necesita modificaciones.

El término error sugiere una desviación del resultado de algún valor "verdadero". Usu-

Al mismo tiempo, no podemos saber cuál es el valor verdadero y solo podemos estimar los errores
inherentes al experimento. Si repetimos un experimento, los resultados pueden diferir de los del
primer intento. Expresamos esta diferencia como una discrepancia entre los dos resultados. Las
discrepancias surgen porque podemos determinar un resultado solo con una determinada
incertidumbre. Por ejemplo, cuando comparamos diferentes medidas de una constante física
estándar, o comparamos nuestro resultado con el valor aceptado, debemos referirnos a las
diferencias como discrepancias, no como errores o incertidumbres.

Porque, en general, no podremos citar el error real en un resultado, debemos desarrollar un


método consistente para determinar y citar el estimado error. Un estudio de la distribución de los
resultados de mediciones repetidas de la misma cantidad puede conducir a la comprensión de
estos errores, de modo que el error citado sea una medida de la extensión de la distribución. Sin
embargo, para algunos experimentos puede que no sea factible repetir las mediciones y, por lo
tanto, los experimentadores deben intentar estimar los errores basándose en la comprensión del
aparato y su propia habilidad para usarlo. Por ejemplo, si el estudiante del ejemplo 1.1 pudo hacer
una sola medición de la longitud de la mesa, debería examinar su metro y la mesa, y tratar de
estimar qué tan bien podría determinar la longitud. Su estimación debe ser coherente con el
resultado esperado de un estudio de mediciones repetidas: es decir, para citar una estimación del
error estándar, debe intentar estimar un rango en el que esperaría que las mediciones repetidas
caigan aproximadamente siete de cada diez veces. . Por lo tanto, podría concluir que con un metro
de acero fino y un borde de mesa bien definido, podría medir aproximadamente ± 1 mm o ± 0,001
m. Debería resistir la tentación de aumentar este error estimado, "sólo para estar seguro".

También debemos darnos cuenta de que el modelo a partir del cual calculamos los parámetros
teóricos

metros para describir los resultados de nuestro experimento pueden no ser el modelo correcto. En
los capítulos siguientes discutiremos parámetros hipotéticos y distribuciones probables de errores
pertenecientes a los estados de cosas "verdaderos", y discutiremos métodos para hacer
estimaciones experimentales de estos parámetros y las incertidumbres asociadas con estas
determinaciones.

Minimizar las incertidumbres y los mejores resultados

Nuestra preocupación por el análisis de errores no se limita únicamente a la determinación de la


precisión de nuestros resultados. En general, nos interesará obtener la máxima cantidad de
información útil a partir de los datos disponibles sin poder repetir el experimento con mejores
equipos ni reducir las incertidumbres estadísticas haciendo más mediciones. Nos ocuparemos, por
tanto, del problema de extraer de los datos las mejores estimaciones de los parámetros teóricos y
de los errores aleatorios, y querremos comprender el efecto de estos errores en nuestros
resultados, de modo que podamos determinar qué confianza tenemos. podemos colocar en
nuestros resultados finales. Es razonable esperar que los resultados más fiables que podamos
calcular a partir de un conjunto de datos dado sean aquellos para los que los errores estimados
sean los más pequeños. Por lo tanto, nuestro desarrollo de técnicas de análisis de errores ayudará
a determinar las estimaciones óptimas de los parámetros para describir los datos.

Debe tenerse en cuenta, sin embargo, que incluso nuestros mejores esfuerzos solo producirán
estimaciones de las cantidades investigadas.

1.3 DISTRIBUCIONES DE PADRES Y MUESTRAS

Si hacemos una medida x1 de una cantidad x, esperamos que nuestra observación se aproxime a la
cantidad, pero no esperamos que el punto de datos experimentales sea exactamente igual a la
cantidad. Si hacemos otra medición, esperamos observar una discrepancia entre las dos
mediciones debido a errores aleatorios, y no esperamos que ninguna de las determinaciones sea
exactamente correcta, es decir, igual a x. A medida que hacemos más y más mediciones, surgirá un
patrón a partir de los datos. Algunas de las medidas serán demasiado grandes, otras serán
demasiado pequeñas. Sin embargo, en promedio esperamos que se distribuyan alrededor del
valor correcto, asumiendo que podemos descuidar o corregir los errores sistemáticos.

Si pudiéramos hacer un número infinito de medidas, entonces podríamos describir exactamente la


distribución de los puntos de datos. Esto no es posible en la práctica, pero podemos hipotetizar la
existencia de tal distribución que determina la probabilidad de obtener una observación particular
en una sola medición. Esta distribución se llama distribución principal. De manera similar,
podemos plantear la hipótesis de que las mediciones que hemos realizado son muestras de la
distribución principal y forman la distribución muestral. En el límite de un número infinito de
mediciones, la distribución de la muestra se convierte en la distribución principal.

EJEMPLO 1.2 En un experimento de laboratorio de física, los estudiantes dejan caer una pelota 50
veces y registran el tiempo que tarda la pelota en caer 2.00 m. Un conjunto de observaciones,
corregido para errores sistemáticos, varía de aproximadamente 0,59 sa 0,70 s, y algunas de las
observaciones son idénticas. La figura 1.2 muestra un histograma o gráfico de frecuencia de estas
medidas. La altura de una barra de datos representa el número de mediciones que caen entre los
dos valores indicados por los límites superior e inferior de la barra en la abscisa del gráfico. (Ver
Apéndice D.)

Si la distribución es el resultado de errores aleatorios en la medición, entonces es muy

Es probable que se pueda describir en términos de la distribución de error normal o gaussiana, la


conocida curva en forma de campana del análisis estadístico, que discutiremos en el capítulo 2.
Una curva gaussiana, basada en la desviación estándar y media de estas medidas - mentos, se
traza como la línea continua en la Figura 1.2. Esta curva resume los datos de la distribución de la
muestra en términos del modelo gaussiano y proporciona una estimación de la distribución
principal.

Los datos medidos y la curva derivada de ellos claramente no concuerdan ex-

actly. La tosquedad del histograma experimental lo distingue a la vez de la suave curva teórica de
Gauss. Podríamos imaginar que, si los estudiantes hicieran una gran cantidad de mediciones o
combinaran varios conjuntos de mediciones para poder trazar el histograma en intervalos cada vez
más finos, en circunstancias ideales el histograma eventualmente se acercaría a una curva
gaussiana suave. Si tuvieran que calcular los parámetros de una muestra tan grande, podrían
determinar la distribución principal representada por la curva de puntos en la Figura 1.2.

Es conveniente pensar en términos de una función de densidad de probabilidad p (x), normalizada


a la unidad de área (es decir, de modo que la integral de toda la curva sea igual a 1) y definida de
tal manera que en el límite de una gran número N de observaciones, el número ll.N

de observaciones de la variable x entre x y x + ax viene dada por llN = Np (x) ax.

Las curvas salid y discontinua en la Figura 1.2 se han escalado de esta manera para que el

los valores en ordenadas corresponden directamente al número de observaciones esperadas en


cualquier rango ax de una muestra de 50 eventos y el área bajo cada curva corresponde al área
total del histograma.

Notación

Varios parámetros de la distribución principal se han definido por convención. Usamos letras
griegas para denotarlos y letras latinas para denotar estimaciones experimentales de ellos.
FIGURA 1.2

Histograma de medidas del tiempo de caída de un pasillo 2,00 m. La curva sólida de Gauss se
calculó a partir de la media (T = 0,635 s) y la desviación estándar (s = 0,020 s) estimada a partir de
estas medidas. La curva discontinua se calculó a partir de la distribución original con una media µ =
0,639 s

y desviación estándar <1 '= 0.020 s.

Para determinar los parámetros de la distribución principal, asumimos que los resultados de los
experimentos se acercan asintóticamente a las cantidades principales cuando el número de
mediciones se acerca al infinito; es decir, los parámetros de la distribución experimental son
iguales a los parámetros de la distribución principal en el límite de un número infinito de medidas.
Si especificamos que hay N observaciones en un experimento dado, entonces podemos denotar
esto por
Si hacemos N medidas y las etiquetamos x 1, x2, x3, y así sucesivamente, hasta una medida final
xN, entonces podemos identificar la suma de todas estas medidas como

donde el lado izquierdo se interpreta como la suma de las observaciones x¡ sobre el índice i de i =
1 ai = N inclusive. Porque haremos un uso frecuente de la suma sobre N medidas de varias
cantidades, simplificamos la notación omitiendo el índice siempre que estamos considerando una
suma donde el índice i va de 1 a N;

Media, mediana y moda

Con las definiciones anteriores, la media x de la distribución experimental se da como la suma de


N determinaciones X; de la cantidad x dividida por el número de determinaciones

y la media µ de la población madre se define como el límite

Por tanto, la media es equivalente al centroide o valor medio de la cantidad x.

La mediana de la población parental µ112 se define como el valor para el cual, en el límite de un
número infinito de determinaciones X;, la mitad de las observaciones será menor que la mediana y
la mitad mayor. En términos de la distribución principal, esto significa que la probabilidad es del
50% de que cualquier medida X; será más grande o más pequeño que la mediana

de modo que la línea mediana corta el área de la distribución de densidad de probabilidad a la


mitad. Debido a inconvenientes en el cálculo, la mediana no se usa a menudo como parámetro
estadístico.
La moda, o el valor más probable µmáx, de la población parental es el valor para el que la
distribución parental tiene el mayor valor. En cualquier medida experimental dada, este valor es el
que es más probable que se observe. En el límite de una gran cantidad de observaciones, este
valor probablemente ocurrirá con mayor frecuencia.

La relación de la media, la mediana y el valor más probable entre sí se ilustra en la Figura 1.3. Por
una distribución simétrica, estos parámetros serían todos iguales por la simetría de sus
definiciones. Para una distribución asimétrica como la de la Figura 1.3, la mediana generalmente
cae entre el valor más probable y la media. El valor más probable corresponde al pico de la
distribución y las áreas a ambos lados de la mediana son iguales.

Desviaciones

La desviación d¡ de cualquier medida X; de la media µ de la distribución parental se define como la


diferencia entre X; y µ:

Con fines computacionales, las desviaciones generalmente se definen con respecto a la media, en
lugar de la mediana o el valor más probable. Si µ es el valor verdadero de la cantidad, d¡ también
es el error verdadero en X;: ...
El promedio de las desviaciones d debe desaparecer en virtud de la definición de la media en la
ecuación (1.2):

La desviación media α, por tanto, se define como la media de los valores absolutos de las
desviaciones:

La desviación promedio es una medida de la dispersión de las observaciones esperadas sobre la


media. La presencia del signo del valor absoluto hace que su uso sea inconveniente para el análisis
estadístico.

Un parámetro que es más fácil de utilizar analíticamente y que puede justificarse bastante bien
sobre bases teóricas para ser una medida más apropiada de la dispersión de las observaciones es
la desviación estándar o. La varianza (} '2 se define como el límite del promedio de los cuadrados
de las desviaciones de la media µ:

y la desviación estándar <T es la raíz cuadrada de la varianza. Tenga en cuenta que la segunda
forma de la ecuación (1.8) se describe a menudo como "el promedio de los cuadrados menos el
cuadrado del promedio". La desviación estándar es la raíz cuadrada de la media de las
desviaciones y está asociada con el segundo momento de los datos sobre la media. La expresión
correspondiente para la varianza s2 de la población muestral está dada por

donde se requiere el factor N - 1, en lugar de N, en el denominador para tener en cuenta el hecho


de que el parámetro x se ha determinado a partir de los datos y no de forma independiente.
Observamos que el símbolo <T (en lugar de s) se usa a menudo para representar la mejor

estimación de la desviación estándar de la distribución principal determinada a partir de una


distribución muestral.
Significado

La media µ y la desviación estándar, así como la mediana, el valor más probable y la desviación
media, son parámetros que caracterizan la información que buscamos cuando realizamos un
experimento. A menudo deseamos describir nuestra distribución en términos de la media y la
desviación estándar. La media puede no ser exactamente igual al datum en cuestión si la
distribución principal no es simétrica con respecto a la media, pero debería tener las mismas
características. Si se desea una descripción más detallada, puede ser útil calcular momentos más
altos alrededor de la media.

En general, lo mejor que podemos decir sobre la media es que es uno de los parámetros que
especifica la distribución de probabilidad: tiene las mismas unidades que el valor "verdadero" y, de
acuerdo con la convención, lo consideraremos como ser la mejor estimación del valor "verdadero"
en las condiciones experimentales imperantes.

La varianza s2 y la desviación estándar s caracterizan las incertidumbres asociadas con nuestros


intentos experimentales de determinar los valores "verdaderos". Para un número dado de
observaciones, la incertidumbre al determinar la media de la distribución principal es proporcional
a la desviación estándar de esa distribución. La desviación estándar s es, por lo tanto, una medida
apropiada de la incertidumbre debida a las fluctuaciones en las observaciones en nuestro intento
de determinar el valor "verdadero".

Aunque, en general, la distribución resultante de errores puramente estadísticos se puede


describir bien mediante los dos parámetros, la media y la desviación estándar, debemos tener en
cuenta que, a distancias de unas pocas desviaciones estándar de la media de una distribución
experimental, los valores no estadísticos los errores pueden dominar. En casos especialmente
severos, puede ser preferible describir la extensión de la distribución en términos de la desviación
promedio, en lugar de la desviación estándar, porque esta última tiende a restar importancia a las
mediciones que están lejos de la media. También hay distribuciones para las que la varianza <loes
no existe. La desviación promedio o alguna otra cantidad debe usarse como parámetro para
indicar la extensión de la distribución en tales casos.

En las siguientes secciones, sin embargo, nos ocuparemos principalmente de las distribuciones que
resultan de errores estadísticos y para las que existe la varianza.

1.4 DESVIACIÓN MEDIA Y ESTÁNDAR DE LAS DISTRIBUCIONES

Podemos definir la mediaµ y la desviación estándar <J 'en términos de la distribución p (x) de la
población madre. La densidad de probabilidad p (x) del dedo del pie se define de manera que en el
límite de un número muy grande de observaciones, la fracción dN de observaciones del

la variable x que produce valores entre x y x + dx viene dada por dN = Np (x) dx.

La media µ es el valor esperado (x) de x, y la varianza <J'2 es el valor esperado ((x - µ) 2) del
cuadrado de las desviaciones de x de µ. La expectativa

El valor (f (x)) de cualquier función de x se define como el promedio ponderado de (x), sobre todos
los valores posibles de la variable x, con cada valor de (x) ponderado por la distribución de
densidad de probabilidad p (x ).
Distribuciones discretas

Si la función de probabilidad es una función discreta P (x) del valor observado x, reemplazamos la
suma sobre las observaciones individuales ix; en la ecuación (1.2) por una suma de los valores de
las posibles observaciones multiplicada por el número de veces que se espera que ocurran estas
observaciones. Si hay n posibles valores observables diferentes de la cantidad x, que denotamos
por xj (donde el índicej va desde 1 tonelada sin dos valores de xj iguales), deberíamos esperar de
un total de N observaciones para obtener cada NP observable ( x) veces. Entonces, la media se
puede expresar como

De manera similar, la varianza σ 'en la ecuación (1.8) se puede expresar en términos de la función
de probabilidad P (x):

En general, el valor esperado de cualquier función de (x) viene dado por

Distribuciones continuas

Si la función de densidad de probabilidad es una función p (x) de variación uniforme continua del
valor observado x, reemplazamos la suma sobre las observaciones individuales por una integral
sobre todos los valores de x multiplicado por la probabilidad p (x). La media µ se convierte en el
primer momento de la distribución principal

y la varianza se convierte en el segundo momento central del producto


El valor esperado de cualquier función de x es

¿Cuál es la conexión entre la distribución de probabilidad de la población madre y una muestra


experimental que obtenemos? Ya hemos visto que las incertidumbres de las condiciones
experimentales excluyen una determinación de los valores "verdaderos" en sí mismos. De hecho,
hay tres niveles de abstracción entre los datos y la información que buscamos:

l. A partir de nuestros puntos de datos experimentales podemos determinar una distribución de


frecuencia de muestra que describe la forma en que estos puntos de datos particulares se
distribuyen en el rango de puntos de datos posibles. Usamos i para denotar la media de los datos y
s2 para denotar la varianza muestral. La forma y la magnitud de la distribución de la muestra
varían de una muestra a otra.

2. A partir de los parámetros de la distribución de probabilidad muestral, podemos estimar los


parámetros de la distribución de probabilidad de la población madre de posibles observaciones.
Nuestro mejor estimado para la media µ es la media de la distribución muestral i, y el mejor
estimado para la varianza rr2 es la varianza muestral s2 • Incluso la forma de esta distribución
madre debe estimarse o asumirse.

3. A partir de los parámetros estimados de la distribución parental estimamos los resultados


buscados. En general, asumiremos que los parámetros estimados de la distribución principal son
equivalentes a los valores "verdaderos", pero la distribución principal estimada es una función de
las condiciones experimentales, así como de los valores "verdaderos", y estos pueden no
necesariamente separables.

Volvamos a referirnos a la Figura 1.2, que muestra un histograma de medidas de intervalo de


tiempo y dos curvas gaussianas, una curva salida basada en los parámetros

T = 0,635 sys = 0,020 s, que se determinaron experimentalmente a partir de los datos

que se muestra en el histograma y una curva de puntos basada en los parámetros µ = 0,639 sy <T =
0,020 s de la distribución principal. (Aunque, en general, no conocemos las propiedades de la
distribución principal, podrían haberse estimado con alta precisión

sión en otro experimento que implica muchas más mediciones.) Al comparar las dos curvas,
observamos una ligera diferencia entre la media experimental T y la media "verdadera" µ, y entre
sy <T.

Al considerar los datos como una muestra de la población madre con el

valores de las observaciones distribuidas de acuerdo con la población madre, podemos estimar la
forma y la dispersión de la distribución madre para obtener información útil sobre la precisión y
confiabilidad de nuestros resultados. Por tanto, consideramos la muestra media T es nuestra
mejor estimación a partir de los datos de la media µ, y consideramos que la varianza muestral s2
es nuestra mejor estimación a partir de los datos de la varianza cr2, a partir de la cual podemos
estimar la incertidumbre en nuestra estimación de µ.

RESUMEN

Errores: diferencia entre valores medidos y "verdaderos". Se aplica generalmente a la


incertidumbre en una medición. Ni pifias ni errores.

Error sistemático: inexactitud reproducible introducida por equipo, calibración o técnica


defectuosos.

Error aleatorio: indefinición del resultado introducido por precisión finita de medición o
variaciones estadísticas. Medida de fluctuación después de repetidos experimentos.
Incertidumbre: Magnitud del error que se estima que se ha cometido en la determinación de los
resultados.

Precisión: medida de lo cerca que se acerca el resultado de un experimento al "verdadero".

valor.

Precisión: medida de cuán cuidadosamente se determina el resultado sin referencia a ningún valor
"verdadero".

Personajes importantes:

l. El dígito distinto de cero más a la izquierda es el dígito más significativo.

2. Si no hay un punto decimal, el dígito distinto de cero más a la derecha es el dígito menos
significativo.

3. Si hay un punto decimal, el dígito más a la derecha es el dígito menos significativo, incluso si es
cero.

4. Todos los dígitos entre el menor y el más significativo se cuentan como dígitos significativos. "

Roundoff: Truncar el número al número especificado de dígitos significativos y tratar el exceso de


dígitos como una fracción decimal.

l. Si la fracción es mayor que Y2, incremente el nuevo dígito menos significativo.

2. Si la fracción es menor que Y2, no incremente.

3. Si la fracción es igual a Y2, incremente el dígito menos significativo solo si es impar.

Población madre: conjunto hipotético infinito de puntos de datos de los cuales se supone que los
puntos de datos experimentales son una muestra aleatoria.
Distribución parental: distribución de probabilidad de la población parental de la que

se eligen datos de muestra.

Valor esperado f (x): Promedio ponderado de una función f (x) sobre los valores reales de x:

EJERCICIOS

1.1. ¿Cuántas características significativas hay en los siguientes números?

1.2. ¿Cuál es la cifra más significativa en cada uno de los números del ejercicio 1.1? ¿Qué es lo
menos significativo?

1.3. Redondea cada uno de los números del ejercicio 1.1 a dos dígitos significativos.

1.4. Encuentre la media, la mediana y el valor más probable de x para los siguientes datos (de los
dados lanzados).
1.5. Encuentre la calificación media, mediana y más probable del siguiente conjunto de
calificaciones. Agrúpelos para encontrar el valor más probable.

1.6. Calcule la desviación estándar de los datos del ejercicio 1.4.

1.7. Calcule la desviación estándar de los datos del ejercicio 1.5.

1.8. Justifique la segunda igualdad en las ecuaciones (1.8) y (1.14).

1.9. Mida cuidadosamente en centímetros la longitud de la portada de este libro a lo largo del
borde encuadernado. Estime la incertidumbre en su medida. Cite su respuesta con su
incertidumbre en forma decimal y en notación científica.
De las muchas distribuciones de probabilidad que intervienen en el análisis de datos
experimentales, tres juegan un papel fundamental: la distribución binomial, la distribución de
Poisson y la distribución gaussiana. De estos, la distribución gaussiana, o error normal, es sin duda
la más importante en el análisis estadístico de datos. En la práctica, es útil porque parece describir
la distribución de observaciones aleatorias para muchos experimentos, así como también describir
las distribuciones obtenidas cuando intentamos estimar los parámetros de la mayoría de las otras
distribuciones de probabilidad.

La distribución de Poisson es generalmente apropiada para contar experimentos donde los datos
representan el número de elementos o eventos observados por intervalo unitario. Es importante
en el estudio de procesos aleatorios, como los asociados con la desintegración radiactiva de
partículas elementales o estados nucleares, y también se aplica a datos que se han clasificado en
rangos para formar una tabla de frecuencias o un histograma.

La distribución binomial se aplica generalmente a experimentos en los que el resultado es uno de


un pequeño número de posibles estados finales, como el número de "caras" o "cruces" en una
serie de lanzamientos de monedas, o el número de partículas dispersas hacia adelante o hacia
atrás. hacia atrás en relación con la dirección de la partícula incidente en un experimento de física
de partículas. Dado que tanto la distribución de Poisson como la de Gauss pueden considerarse
casos límite de la distribución binomial, dedicaremos cierta atención a la derivación de la
distribución binomial a partir de consideraciones básicas.

2.1 DISTRIBUCIÓN BINOMIAL

Supongamos que lanzamos una moneda al aire y la dejamos caer. Hay un 50% de probabilidad de
que caiga cara y un 50% de probabilidad de que caiga cruz. Con esto queremos decir que si
seguimos lanzando una moneda repetidamente, la fracción de veces que cae con la cara hacia
arriba se acercará asintóticamente a Y2, lo que indica que había una probabilidad de Y2 de
hacerlo. Para cualquier lanzamiento dado, la probabilidad no puede determinar si aterrizará cara
arriba o no; sólo puede describir cómo deberíamos esperar que un gran número de lanzamientos
se divida en dos posibilidades.

Suponga que lanzamos dos monedas a la vez. Ahora hay cuatro posibles

permutaciones de la forma en que pueden aterrizar: ambas cara arriba, ambas colas arriba, y dos
mezclas de caras y colas dependiendo de cuál sea cara. Debido a que cada una de estas
permutaciones es igualmente probable, la probabilidad de elegir entre ellas es Y4 o 25%. Para
encontrar la probabilidad de obtener una mezcla particular de caras y cruces, sin diferenciar entre
los dos tipos de mezclas, debemos sumar las probabilidades correspondientes a cada tipo posible.
Por tanto, la probabilidad total de encontrar una cara hacia arriba y la otra cola hacia arriba es V2.
Tenga en cuenta que la suma de las probabilidades

para todas las posibilidades (V4 + Y4 + Y4 + V4) siempre es igual a 1 porque algo es

destinado a suceder.

Extrapolemos estas ideas al caso general. Suponga que lanzamos n monedas al aire, donde n es un
número entero. Alternativamente, suponga que lanzamos una moneda n veces. ¿Cuál es la
probabilidad de que exactamente x de estas monedas caigan cara, sin dis-

¿Cuál de las monedas pertenece realmente a qué grupo? Podemos considerar que la probabilidad
Pix: n) es una función del número n de monedas lanzadas y del número x de monedas que caen
cara. Para un experimento dado en el que se lanzan n monedas, esta probabilidad P (x; n) variará
en función de x. Por supuesto, x debe ser un número entero para cualquier experimento físico,
pero podemos considerar que la probabilidad varía suavemente con x como una variable continua
para propósitos matemáticos.

Permutaciones y combinaciones

Si se lanzan n monedas, hay 2n diferentes formas posibles en las que pueden caer. Esto se deriva
del hecho de que la primera moneda tiene dos orientaciones posibles, para cada una de ellas la
segunda moneda también tiene dos de tales orientaciones, para cada una de estas la tercera
moneda también tiene dos, y así sucesivamente. Debido a que cada una de estas posibilidades es
igualmente probable, la probabilidad de que ocurra cualquiera de estas posibilidades en cualquier
lanzamiento de n monedas es 1/2 n.

¿Cuántas de estas posibilidades contribuirán a nuestras observaciones de x monedas con la cara


hacia arriba? Imagine dos casillas, una etiquetada como "cabezas" y dividida en x ranuras, y la otra
etiquetada como "colas". Consideraremos primero la cuestión de cuántas permutaciones de las
monedas dan como resultado la separación adecuada de x en una casilla yn - x en la otra; luego
consideraremos la cuestión de cuántas combinaciones de estas mutaciones deben considerarse
diferentes entre sí.

Para enumerar el número de permutaciones Pm (n, x), tomemos el

monedas una a la vez de la colección de n monedas y poner x de ellas en la caja de "cabezas".


Tenemos la opción de n monedas para la primera que recojamos. Para nuestra segunda selección,
podemos elegir entre las n - 1 monedas restantes. El rango de elección se reduce hasta que se
pueda hacer la última selección de la x-ésima moneda con sólo n - x + 1 monedas restantes. El
número total de opciones para que las monedas llenen los espacios x en el cuadro "cabezas" es el
producto de los números de opciones individuales:

Esta expansión se puede expresar más fácilmente en términos de factoriales.

Hasta ahora hemos calculado el número de permutaciones Pm (n, x) que producirán x monedas en
la casilla "cara" y n - x monedas en la casilla "cruz", con la condición de que hemos identificado en
qué moneda se colocó la casilla "cabezas" primero, que se colocó en segundo lugar, y así
sucesivamente. Es decir, hemos ordenado las x monedas en la casilla "cabezas". En nuestro cálculo
de 2n posibles permutaciones diferentes de las n monedas, solo nos interesa qué monedas
cayeron cara arriba o cara abajo, no cuál cayó primero. Por lo tanto, debemos considerar las
contribuciones como diferentes sólo si hay monedas diferentes en las dos casillas, no si las
monedas x dentro de la casilla "caras" se permutan en diferentes ordenamientos de tiempo.

El número de combinaciones diferentes C (n, x) de las permutaciones en la enumeración anterior


resulta de la combinación de x! Diferentes formas de permutar x monedas en la casilla "cabezas"
dentro de la casilla. ¡Por cada x! permutaciones, solo habrá una nueva combinación. Así, el
número de combinaciones diferentes C (n, x) es el número de permutaciones Pm (n, x) dividido
por el factor de degeneración x! de las permutaciones:

Este es el número de diferentes combinaciones posibles de n elementos tomados x a la vez,


comúnmente denominado (1) o "n sobre x".

You might also like

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy