Activ6 Complementaria Sanchez Campoy Cm

February 3, 2019 | Author: Capulerio Millares | Category: Regression Analysis, Statistics, Simulation, Analysis, Mathematical Analysis
Share Embed Donate


Short Description

master...

Description

������ ����������� ������������ � ������� �� �������� ������������ �� ����������� � ���������� ������� ������ ����� ������� ������

Actividades T ema  6 6 Complementaria

TRABAJO REALIZADO POR: CARMEN Mª SÁNCHEZ CAMPOY

PROFESORES:

RAMÓN GUTIÉRREZ SÁNCHEZ MARIA DOLORES RUIZ MEDINA

CURSO: DISEÑO ESTADÍSTICO EXPERIMENTAL Y CONTROL DE CALIDAD. APLICACIONES EN BIOCIENCIAS E INGENIERÍA

- MASTER ESTADÍSTICA APLICADA �

������ ����������� ������������ � ������� �� �������� ������������ �� ����������� � ���������� ������� ������ ����� ������� ������

ENUNCIADO Realizar traducción y resumen del Seminario del Profesor Guillas.

SPLINES BIVARIADOS PARA MODELOS DE REGRESIÓN FUNCIONAL ESPACIAL Se Considera el modelo funcional de regresión lineal donde la variable explicativa es una superficie aleatoria y la respuesta es una variable real aleatoria, en diversas situaciones en las que tanto la variable explicativa y el ruido puede ser ilimitados y dependientes. Los Splines bivariados sobre triangulaciones representan superficies aleatorias. Se utiliza esta representación para la construcción de estimadores de mínimos cuadrados de la función de regresión con un término de penalización. Bajo el supuesto de que los regresores en la muestra abarcan un gran espacio de funciones, las propiedades de aproximación de los splines bivariados producen la consistencia de los estimadores.

1. INTRODUCCIÓN Y PRELIMINARES En varios campos, como la ciencia del medio ambiente, las finanzas, la ciencia geológica y la ciencia biológica, grandes conjuntos de datos están disponibles, por ejemplo, por monitorización en tiempo real como en los satélites que circulan alrededor de la Tierra. Por lo tanto, el objeto de estudio estadístico son curvas, superficies y distribuidores, además de los puntos tradicionales, números o vectores. El análisis de datos funcionales (FDA) puede ayudar a representar y analizar los procesos aleatorios de dimensión infinita (Ramsay y Silverman 2005; Ferraty y Vieu 2006). En la regresión, cuando la variable explicativa es una función aleatoria y la respuesta es un variable real aleatoria, podemos definir el denominado modelo lineal funcional, consulte el Capítulo 15 en Ramsay y Silverman (2005) y las referencias en él. Dicho modelo puede generalizarse a la configuración bivariada. Sea Y una variable aleatoria con valores reales. Sea D  un dominio poligonal en El modelo de regresión es como sigue:

Y

=

f (X ) +ε

=

g, X

+ε =



 D

g ( s) X ( s) ds + ε 

R

2

.

���

Donde g(s) está en un espacio funcional H (normalmente =  L2 ( D ) ), ε   es una variable aleatoria real que satisface:  E (ε ) = 0  y  E ( X ( s )ε ) = 0

∀s ∈ D

Uno de los objetivos en FDA es determinar o aproximar g, la cual se define en un dominio espacial 2  D de las observaciones en X obtenidas sobre un conjunto de puntos de diseño en D  e Y. Motivado por diferentes estudios, consideramos un modelo de regresión funcional, donde la variable explicativa es una superficie aleatoria y la respuesta es una variable aleatoria real. Para expresar una superficie aleatoria en un 2  D irregular poligonal dominio D , vamos a utilizar splines bivariados que son partes de funciones polinomiales suaves sobre un dominio triangulado polinomial 2 D . Son similares a �

������ ����������� ������������ � ������� �� �������� ������������ �� ����������� � ���������� ������� ������ ����� ������� ������

splines univariados definidos en subintervalos a trozos. La teoría de tales funciones spline bivariados ha madurado recientemente, vea la monografía por Lai y Schumaker (2007). Nuestros splines bivariados son funciones de polinomios a trozos. Hay que tener en cuenta que la función bases para nuestros espacios de splines son polinomios de Bernstein-Bézier sobre triángulos que son localmente soportados y no negativos. Las funciones de base forman una partición de la unidad, una base estable y son adecuados para el cálculo. Se ha implementado nuestro aproximación utilizando splines bivariados y ejecutando simulación numérica, y la predicción con un conjunto de datos reales. Se compara con los métodos de previsión univariante para mostrar que nuestro método funciona muy bien. Hasta donde sabemos, nuestro estudio es el primer trabajo en la regresión funcional de una variable aleatoria real sobre superficies aleatorias. El trabajo se organiza de la siguiente manera. Después de presentar splines bivariadas en la sección previa, consideramos aproximaciones de funcionales lineales con un término de penalización en la siguiente sección. Entonces abordamos el caso de observaciones discretas de superficies aleatorias en la Sección 4. Con el fin de ilustrar los hallazgos en una zona irregular, en la Sección 5 se llevan a cabo simulaciones y previsiones con datos reales, para el que el dominio está delimitado por las fronteras de los EE.UU., y los puntos de muestreo son la Agencia de Protección Ambiental de EE.UU. (EPA) localizaciones de monitorización. Nuestros experimentos numéricos demuestran la eficacia y la conveniencia de utilizar splines bivariados para aproximar funciones lineales en el análisis de regresión de datos funcional.

3. APROXIMACIÓN DE FUNCIONALES LINEAL CON PENALIZACIÓN A lo largo de esta sección se presentan una serie de Teoremas y Lemas con sus correspondientes demostraciones que nos llevan a obtener las siguientes conclusiones: Suponemos que X e Y sigue el modelo de regresión (1), definido en la sección anterior. En aplicación tenemos la solución α  ∈  H    que se resuelve con el siguiente problema de minimización:

α

=

arg min E (Y  β ∈ H 





β , X 

2 )  + ρ

β

2 r 

 

2

donde  ρ  > 0 es un parámetro y  β  r  denota la semi-norma de  β  :

 β

2 r 



= E r  (β , β )  donde E r  (α , β ) =

∫ ∑ ∑  D D α D D β i 1

D

j 2

i 1

j 2

 

k =0 i + j = k  

Con  D1 , D2 posición de la derivada parcial con respecto a la primera y segunda variables. Salvo que la penalización sea igual a cero,

α no

es necesariamente igual a g.

r  d 

Desde S  (∆ ) puede ser denso en el espacio de Hilbert H como ∆ → 0 , se considera r 

un espacio spline S d  (∆ ) para una suavidad r  ≥ 0 y el grado d triangulación



 de

D

 con



suficientemente

pequeñas.

La

>

r  sobre una aproximación

Sα , ρ  ∈ S d r  (∆)  de α es: �

������ ����������� ������������ � ������� �� �������� ������������ �� ����������� � ���������� ������� ������ ����� ������� ������

Sα , ρ  = arg min E ( Y −  β , X r 



 β ∈S d  ( ∆ )

2 )   + ρ E r ( β ) m

∑ c φ  �

r  d 

Sea {φ1 ,..., φ m } una base para S  (∆ ) , entonces, Sα  =

 j

j

=

0

 j =1

  E  

 φ c X ,  ∑ i i i 1  m

2

m

+

∑ c φ 

ρ

2

i i

i =1

=



Sea  X 1 ,..., X n una sucesión de variables aleatorias funcional tal que sólo el polinomio cero es perpendicular al subespacio generado por { X 1 ,..., X n } , excepto en un evento cuya probabilidad  pn

tiende a cero cuando n → + ∞ . La estimación empírica



Sα , ρ , n ∈ S d  ( ∆)  es la solución de: 

Sα , ρ , n



= arg

min r 

 β ∈S d  ( ∆ )

n

1

∑ (Y −  β , X  ) n i

i

2

+

2

ρ β  d 

i =1

con ρ > 0 el parámetro suavizado. La solución de la minimización está dada por: m

Sα , ρ , n



=

∑c

φ 

n,i i

i =1

con vector de coeficientes cn

=

1 n =  ∑ φi ,  X l φ j , X l  n l =1

Αn 

Αn

(cn ,i , i = 1,..., m)  que satisface



cn

=

b n , donde: ɵ



  + ρ E r (φi , φ j ) 

 i , j =1,...,m

y

1 n  b n =  ∑ Yl φ j , X l   n l =1   j =1,...,m ɵ

1 n  =  ∑ ( f ( X l ) + ε l ) φ j , X l     n l =1  j=1,...,m

Mediante un serie de Teoremas y Lemas se demuestra que S α , ρ , n  se aproxima a S α , ρ  

en probabilidad.

4. APROXIMACIÓN DE FUNCIONALES LINEALES BASADO EN OBSERVACIONES DISCRETA Sea X las observaciones sobre algunos puntos diseñado sk  , k

= 1,..., N   en D .

Sea

S  X   la aproximación spline en forma de cuadrado mínimo discreto de X asumiendo que sk  , k

= 1,..., N    se

r  distribuye uniformemente sobre △ de D   con respecto a S d  (∆ ) .

Consideramos α S   que resuelve el siguiente problema de minimización:

αS Se busca aproximar Sα 



=

arg min  E (Y  β ∈ H 



∈ S d  (∆ )





β , S X 

2 )  + ρ

β

2 r 

 

de α S   tal que:



������ ����������� ������������ � ������� �� �������� ������������ �� ����������� � ���������� ������� ������ ����� ������� ������

Sα 

= arg



E ( Y min r 



 β ∈S d  ( ∆ )

 β , S X  )    + ρ β  r  2



2



Primero se analiza como α S   se aproxima a α. F ( β ) = E (Y





2 β , X )  



es una función estrictamente convexa y así FS ( β ) = E ( Y



2 2 β , S X   )  + ρ β  r 





La estimación empírica de S  X  basado en observaciones discretas de superficies

 ∈ S  (∆)  es la solución de: aleatorias  X 1 ,..., X n . La estimación empírica S d  α , ρ , n r 

 S α , ρ , n

=

n

1

arg min r 

 β ∈S d  ( ∆ )

∑( n

Yi



 β , S X 

i

)

2



2

β  d 

i =1

La solución de la minimización de la ecuación anterior está dada por:

= S α , ρ , n

m

∑ cφ  n,i i

i =1

con coeficiente vector cn



n Α

=

 (c n ,i , i = 1,..., m)  que satisface Α n cn



1 n =  ∑ φi , S X  n l =1

l

φ j , S X

= bn ɶ

,y



l

+ ρ E r (φi , φ j )  

 i, j =1,...,m

donde S  X l  es el cuadrado mínimo discreto en forma de  X l  y

1 n  b n =  ∑ Yl φ j , S X    n l =1  j =1,...,m   ɶ

l

 ∈ S  (∆) � Se pretende llegar a la demostración de la estimación empírica S d  α , ρ , n r 

5. EXPERIMENTO Y SIMULACIÓN NUMÉRICA Las Simulaciones demuestran la calidad de las propiedades asintóticas en un escenario real. Se lleva a cabo una aplicación a la concentración de ozono sobre la previsión de EE.UU. que ilustra las capacidades de pronóstico del método, muestra las habilidades de predicción del método. Se compara el método de mínimos cuadrados con pena al principal método de regresión de componentes. Tamaños de muestra moderados proporcionan pronósticos de buena calidad en ambos casos con poco esfuerzo computacional. Se ilustra la variabilidad de las previsiones debido a la elección de suavizado de penalización. Por último, se compara nuestras predicciones con los obtenidos utilizando splines de placa delgada. Las predicciones basadas en splines bivariados requieren menos tiempo de cálculo, son más precisos, y exhiben mayor robustez a las variaciones en el muestreo. Se cuenta con splines bivariados más triangulaciones para construir la superficie.



������ ����������� ������������ � ������� �� �������� ������������ �� ����������� � ���������� ������� ������ ����� ������� ������

SIMULACIÓN En primer lugar se realiza un ejemplo de simulación de un dominio completo delimitado por la frontera de EE.UU. con funciones de splines bivariados, . Se utiliza la functional lineal Y = g , X 

con g ( x, y ) = sen(2π ( x2 + y2 )) sobre el

dominio de EE.UU. (escalado) el propósito de la simulación es estimar g a partir del valor Y basado en superficies aleatorias X, añadiendo ruido de media cero y desviación estandar 0.0002, para obtener el valor del ruido Y i del funcional. Se lleva a cabo un experimento de Monte Carlo con 20 semillas aleatorias diferentes, los resultados numéricos muestran que se producen una buena aproximación del funcional lineal.

PREDICCIÓN CONCENTRACIÓN DE OZONO Basándose en la simulación anterior se quiere realizar una predicción de la concentración del nivel en tierra de ozono en el centro de Atlanta, utilizando las superficies aleatorias de todo el territorio de EE.UU. basadas en las medidas de las 969 estaciones de la EPA de los días previos. Lo que se desea es que a partir de los valores de las concentraciones en todo el territorio de EE.UU. a una hora dada en un día concreto, se pueda predecir el valor de la concentración en el centro de Atlanta en esa misma hora al día siguiente. Los pasos realizados son: Paso1: Basado en las observaciones X de las 969 estaciones EPA alrededor de EE.UU. a una hora concreta en un día señalado, se calcula mediante computación el spline de ajuste por mínimos cuadrados S  X  � con parámetro de penalización 10-2. Se donota por  f  X  la concentración de ozono en Atlanta a esa misma hora del día siguiente. Paso2:Encontramos una función spline S  A sobre la misma triangulación que resuelva el siguiente problema de minimización:

min 1

s∈S 5 ( ∆ )

1 24 N 

24 N 

∑(

 f X i



s, S X i

)

2

i =1

para N días. Paso3: Basado en los valores del ozono Z sobre EE.UU. a una hora determinada el 6 de septiembre se calcula el ajuste de penalización por mínimos cuadrados y se calcula también el producto interno de S  Z   con S  A para predecir el valor del ozono a la misma hora el 8 de septiembre. Posteriormente se realiza el mismo experimento para una triangulación menor de EE.UU. quedandose con 1/4 de todo el territorio, para aumentar la eficiencia computacional.



������ ����������� ������������ � ������� �� �������� ������������ �� ����������� � ���������� ������� ������ ����� ������� ������

Comparando las predicciones con los resultados reales, se demuestra que la técnica que splines bivariados utilizada predice muy bien los valores de concentración de ozono, para los 5 días siguientes. Especialmente en los picos de concentración



View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF