Clasificacion de Datos PDF

October 7, 2022 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Clasificacion de Datos PDF...

Description

 

CLASIFICACIÓN DE DATOS  DATOS 

 

CLASIFICACION DE DATOS  Entre las muchas elecciones hechas por analistas y diseñadores, decisiones de clasificación de datos pueden estar entre las más importantes, pero también las más difíciles de entender. Un especialista SIG debe hacer elecciones sobre sobre no solo cómo muchas cla clases ses diferentes en las que los datos deben ser categorizados, pero cuáles deben ser los rangos de valor de esas clases. Un

ajuste leve de las “pausas” en los ra ngos de valor de datos ordenados, por ejemplo, puede alterar el mapa significativamente y revela tendencias que no fueron detectadas previamente (o no están allí en realidad).

1.  Introducción

Usted puede explorar sus datos aplicando las diferentes técnicas de clasificación encontradas en los Editores de Color Graduado y Símbolo de Leyenda Graduado o tipiando sus propias clases. El propósito de la clasificación es doble: para hacer del proceso de lectura y entendimiento de un mapa más fácil y mostrar algo sobre el área que usted está mapeando que no está manifiesto. Usted querrá usar las siguientes palabras claves para la investigación de temas relacionados en el internet usando un sistema de búsqueda: clasificación en SIG, histograma de datos. Objetivos de Aprendizaje:

Al completar esta lección usted deberá: • 

Saber el criterio y las técnicas más importantes para clasificar y reclasificar datos espaciales.

• 

Aplicar estrategias de clasificación adecuadas para la comunicación efectiva de  patrones espaciales.

2.  Tipos de Datos

1

 

CLASIFICACIÓN DE DATOS  DATOS 

 

Tasa de desempleo en Connecticut, 2013 Fuente: http://www.colorado.edu/geography/gcraft/notes/cartocom/section6.html  Los 6 mapas arriba presenten el mismo conjunto de dato presentado con cantidad y límites de rangos diferentes. Observe la influencia de su decisión como cartógrafo sobre la transmisión del mensaje cartográfico, cuando elige un tipo y una cantidad de rangos que va a utilizar ut ilizar para representar un conjunto de datos. Los cartógrafos son cuidadosos cuando representan información estadística y tratan lo más  precisamente posible de representar la distribución subyacente de datos. Esto es un desafío  porque la razón de ser de desplegar los datos en un mapa es de generalizar los datos y por lo lo tanto facilitar la búsqueda de patrones pat rones espaciales. Sin embargo, generalizando y simplificando los datos, el cartógrafo puede inadvertidamente oscurecer ligeras sutilezas en la distribución de datos subyacentes o hasta transmitir un mensaje inadecuado. El cartógrafo siempre está tratando de encontrar un balance entre mantener la verdad de la distribución de datos subyacentes y generalizar los datos suficientemente para revelar  patrones espaciales intrínsecos. La generalización estadística puede ser aplicada a datos que van a ser simbolizados mediante puntos, líneas, y áreas, esta discusión será desarrollada alrededor del mapeo de áreas en mapas de coropletas. Los mapas de coropletas son una forma de cartografiado cuantitativo utilizada para la representación de fenómenos discretos asociados a unidades de enumeración (provincias, países...), a las que se aplican símbolos superficiales de acuerdo con su valor. Esto es en parte porque los mapas de coropletas son usados tan ampliamente, pero también son tan difíciles de ejecutar efectivamente. Esto es  porque los mapas de coropletas tienen una debilidad inherente —   — ellos ellos envuelven la agregación de datos dentro de unidades aéreas que no corresponden exactamente con la distribución espacial subyacente de los datos. Los datos son usualmente clasificados –  puestos  puestos en algunas categorías o grupos –  antes  antes de que pueda ser expuesta. Diferentes maneras de clasificar datos llevarán a diferentes patrones en el mapa. La clasificación es una forma de generalización cartográfica la cual reduce la complejidad de un conjunto de datos temáticos. Clasificación - empiece por diferenciar entre:

  datos categóricos (nominal, ordinal)



  datos numéricos (intervalo/proporción)



PAUTA: El color mejora la comunicación del mapa SI es usado correctamente

2

 

CLASIFICACIÓN DE DATOS  DATOS 

 

3.  Datos Categóricos

Parte del mapa de cobertura vegetal del departamento de Puno (tipos de bosques). Fuente: ZEE- Puno

Clasificaciones de datos cualitativos o categóricos (nominales, ordinales)

Se refieren a características o cualidades que no pueden ser medidas con números. No hay reglas absolutas para esta clase de clasificación, solo pautas generales. Rasgos en la misma clase o categoría deberían ser más similares que disimilares y deberían ser similarmente simbolizados. Rasgos en diferentes clases o categorías debería ser más disimilares que similares y deberían ser simbolizados diferentemente. Esté consciente de cómo otros han clasificado la información. • 

Nominal: No importa en orden en que se coloquen las categorías. Ejemplo: sexo,

raza, color de ojos, tipos de suelo, tipos de bosque, tipos de roca, etc. • 

Ordinal:  tiene un orden predeterminado. Ejemplo: Escolaridad, calidad en el

servicio, nivel de valoración, etc. 4.  Datos Cuantitativos

Se expresan mediante un número, se pueden realizar operaciones con ellas. • 

Discreta: Toma un numero finito de valores. Ejemplo: edad, numero de hermanos,

número de alumnos, etc. • 

Continua:  Toma un numero infinito de valores. Ejemplo: Temperatura,

 precipitación, peso, distancia, tiempo, etc. 

3

 

CLASIFICACIÓN DE DATOS  DATOS 

 

Mapa de provincias con casos confirmados de coronavirus Fuente: Wikimedia Commons Clasificaciones de datos numéricos

En este caso usted tiene datos ordenados con un rango medible: ej. datos cuantitativos. Los dos grandes problemas involucrados en la clasificación de datos numéricos o cuantitativos a)  el número de clases en los que usted divide sus datos  b)  la forma específica como usted divide los l os datos en esas clases Los datos cuantitativos le permiten crear mapas temáticos llamados Mapas de Coropletas. Los mapas de coropletas fueron introducidos en el siglo diecinueve. Eran usados por el Departamento de Censos en algunos atlas estadísticos en la última mitad de ese siglo y ha sido un favorito de geógrafos y cartógrafos profesionales desde entonces. El nombre es derivado de las palabras griegas chorus (lugar) y pleth (valor). El mapeo de coropletas también ha sido llamado mapeo de área o sombreado. El mapeo de coropletas puede ser  pensado como un histograma histograma tridimensional o superficie superficie estadística escalonada.

4

 

CLASIFICACIÓN DE DATOS  DATOS 

 

4.1. Número de Clases

 Número de clases: La mayoría de mapas para propósitos de presentación deberían tener  de cuatro a seis clases

¿Porqué? Mientras usted cambia el número de clases usted verá muy bien diferentes patrones, y hay un límite de cuántos el ojo humano puede determinar. La imagen arriba demuestra este problema. 1 clase vs 62 clases vs 5 clases. ¿Pueden distinguir las 62 clases en la Figura 3.03? (Fuente: MacEachren, p. 156) 4.2. Métodos de Clasificación

5

 

CLASIFICACIÓN DE DATOS  DATOS 

 

ArcGIS tiene seis métodos de clasificación:

  Divisiones Naturales (Jenks),



 



Intervalo Igual,

  Intervalo Definido,



  Cuantil,



  Desviación Estándar,



  Manual.



Exploraremos cuatro de estas. Más información está disponible bajo Ayuda en ArcMap. 4.2.1.  Histograma

Histograma: Grafico relacionando distribución y frecuencia de datos. Igual de importante que el número de clases es la manera que uno divide los datos en clases. Usted debe aprender como leer un histograma. El eje de las x (horizontal) muestra el rango de valores en el campo.

6

 

CLASIFICACIÓN DE DATOS  DATOS 

 

El eje de las y (vertical) es un conteo de rasgos. Las líneas azules verticales son divisiones de clases (también mostradas en el cuadro de Valor Divididos). 4.2.2.  Divisiones Naturales (Jenks)

El método de Divisiones Naturales es un ejemplo de un esquema ideográfico, donde los límites de las clases son definidos por la forma de la distribución de llos os datos. En Divisiones  Naturales un intento es hecho para encontrar divisiones naturales en los datos; clasificar los datos en grupos que son algo distintos el uno del otro. Uno puede hacer esto a mano usando un gráfico (o gráfico de selección) de frecuencia acumulativo y luego buscar divisiones naturales en los datos y poner divisiones de clases en esos puntos. Divisiones Naturales es un  buen default o esquema esquema de inicio. Este método identifica puntos de ruptura entre clases usando una fórmula estadística (optimización de Jenk). La medida producida por esta técnica de optimización es llamada la  bondad de ajuste de varianza (GVF). El procedimiento es uno que minimiza, en el cual se  busca la suma mas mas pequeña de desviaciones cuadradas a partir de medios de clase. Ventajas:

  toma en cuenta datos de distribución



  intuitivo



  muy flexible



   buen default para un solo mapa mapa con divisiones claras



Desventajas: •

  divisiones no son siempre obvias: considere un método de clasificación diferente

7

 

CLASIFICACIÓN DE DATOS  DATOS 

  •

  muchas divisiones obvias: considere un método de clasificación diferente



  se vuelve más tedioso mientras los conjuntos de datos se vuelven más grandes



  difícil de replicar de persona en persona, pobre para comparar algunos mapas

4.2.3.  Intervalo Igual

Intervalo Igual es un ejemplo de un esquema Arbitrario: límites de clases son puestos mediante un criterio arbitrario. El método de intervalo igual divide el rango de valores de atributo en sub-rangos de igual tamaño. Luego los rasgos son clasificados basado en aquellos sub-rangos. Los límites de clase son definidos por números redondos o divisiones regulares Ejemplos: •

  0% - 100%, 100% - 200%, …



  5 clases de 20 de rango entre 0 y 100: 1-20, 21-40, 42-60, 61-80, 81-100

El método de intervalo igual divide al rango de valores de atributo en sub-rangos de igual tamaño. Luego los rasgos son clasificados basado en aquellos sub-rangos. A menudo escogidos porque la clasificación se ve ordenada. Es simple de hacer a mano: •

  encuentre el rango de los datos (alto valor –  bajo)  bajo)



  encuentre la diferencia común de los datos (rango / número de clases)



  encuentre los límites de clase:    primer límite de clase = valor valor bajo + 1 x diferencia co común mún

o

  segundo límite de clase = valor bajo + 2 x diferencia común



  y demás



Ventajas: •



  útil cuando usted necesita comparar una serie de mapas   fácil de interpretar y entender

8

 

CLASIFICACIÓN DE DATOS  DATOS 

  •

  trabaja mejor con datos que tienen distribución rectangular (poco frecuente en fenómenos geográficos)

Desventajas: •

  no sensible a la distribución di stribución de datos (si no es rectangular)

4.2.4.  Cuantil

El método Cuantil es un esquema ideográfico. En el método de clasificación cuantil, cada clase contiene el mismo número de rasgos. Clases cuantiles son quizás las más fáciles de entender, pero pueden ser desorientadoras. Este método ordena sus observaciones desde bajo hasta alto y ubica números iguales de observaciones en cada categoría. Si sus datos incluían cien observaciones y usted deseaba dividir los datos en cinco categorías (quintiles), las veinte observaciones más bajas serian ubicadas en la primera categoría, las siguiente veinte en la segunda, y así hasta que las veinte observaciones más altas son ubicadas en la última categoría. Note que cuando los datos son divididos de esta manera, los puntos de corte de la distribución pueden ser ordenados en intervalos irregulares a lo largo del arco de distribución. El método es útil para mapear distribuciones rectangulares. También es útil para análisis exploratorio, en tiempos donde usted desea desarrollar un “sentimiento” para las

características de una distribución de datos.

Conteos de población (a diferencia de por densidad o porcentaje), por ejemplo, usualmente no son apropiados para clasificación cuantil porque solo unos pocos lugares son altamente  poblados. Usted puede sobrepasar sobrepasar esta distorsión distorsión aumentando el número de clases. Imagine la diferencia, por ejemplo, si cinco clases son usadas en el cuadro en vez de tres. Los cuantiles son más apropiados para datos que son linealmente distribuidos; en otras palabras, datos que no tienen números desproporcionados de rasgos con valores similares. Dicho de

9

 

CLASIFICACIÓN DE DATOS  DATOS 

 

otra manera, este método trabaja mejor con distribuciones rectangulares, en vez de distribuciones de pico. En este método, un número igual de valores son puestos en cada clase: Cuartiles son cuatro clases percentiles (25% cada una) Quintiles son cinco clases percentiles (20% cada ca da una) Deciles son 10 clases percentiles (10% cada una) •

  Fácil de calcular



  cree una lista de todos los valores de datos en orden ascendente



  número de valores en cada clase = número total de valores / número de clases



  empiece con el valor mas bajo, incluya el numero correcto de valores en la clase mas  baja…



  …el número correcto de valores en la segunda clase más baja, y así

Ventaja:  bueno para conjuntos conjuntos de datos torcidos SI usted quiere “atenuarlos” “atenuarlos”

Desventaja: atenúa distribución de datos: ¡esconde el hecho de que los datos están torcidos! ¡Puede por lo tanto resultar en mapas desorientadores! 4.2.5.  Desviación Estándar

En el método de Desviación Estándar, la desviación estándar de la distribución es usada para ajustar los puntos de corte arriba y abajo del promedio. Este método puede ser aplicado a distribuciones que aproximan una curva natural. Cuando usted clasifica datos usando el método de desviación estándar, usted encuentra el valor medio y luego ubica divisiones de clases arriba y debajo de la media a intervalos de ya sea 1/4, 1/2, o 1 desviaciones estándar hasta que todos los valores de datos están contenidos dentro de clases . Mas seguido el programa agregará cualesquier valores que

están más allá de tres desviaciones estándar de la media en dos clases, más altos que tres

10

 

CLASIFICACIÓN DE DATOS  DATOS 

 

desviaciones desviacion es estándar sobre la media (“> 3 Dev. Std.”) y menos que tres desviaciones estánda r  bajo la media media (“< -3 Dev. Std.”).  4.2.6.  Manual

El método de clasificación Manual es usado para revelar agrupaciones significativas en datos que métodos de clasificación estándar dejan pasar. Por ejemplo, un investigador de mercado tal vez quiera distinguir secciones censales en las cuales el ingreso promedio por hogar es más de $100,000 al año o el grupo de edad de 18 a 49, forma un cierto porcentaje de la  población. Para simbolizar estos valores específicamente, usted necesitaría poner las divisiones de clase manualm manualmente ente (“Getting to Know”, pp. 143). PAUTA: Se puede utilizar uno de los cuatro métodos presentados anteriormente para evaluar los límites de divisiones más adecuados y después pasar al modo Manual para redondear los valores y facilitar la lectura. Conclusiones

 



Escogiendo el esquema de clasificación correcto requiere: -  Exploración de datos - 

Revisión de histograma



Entender el propósito del mapa

  Cambios sutiles en la ubicación de intervalo de clasificación puede revelar o tapar



tendencias importantes Ya que un cartógrafo puede alterar grandemente el ‘mensaje’ de un mapa temático cambiando la

clasificación de los datos, es muy importante que usted desarrolle un entendimiento tanto de las características de los datos (ej. son los datos normalmente distribuidos o uniformemente distribuidos, tiene muchos valores extremos) y del propósito del mapa (ej. un mapa producido  para el mapa de espacio verde de Conservación Natural sería muy diferente que un mapa  producido para una Cámara de Comercio desde que cada grupo tuviese una perspectiva muy diferente sobre los datos). Hay muchas opciones disponibles para clasificar datos, y solo explorando las opciones podrá ver usted mismo cómo el mensaje del mapa puede ser manipulado. Resumen

Usted deberá ahora saber los criterios y técnicas té cnicas básicos para la clasificación y reclasificación de datos espaciales. Estos métodos son técnicas bases importantes para su caja de herramientas como futuro especialista GIS. Estas le permitirán comunicar rápida y efectivamente tendencias sutiles en patrones espaciales.

11

 

CLASIFICACIÓN DE DATOS  DATOS 

 

Referencias



DANE,

2013.

Total,

de

estudiantes

para

el

año

2013.

Disponible

en:

https://www.dane.gov.co/files/investigaciones/educacion/educacion_fo https://www.dane.gov .co/files/investigaciones/educacion/educacion_formal/2009/mapas/ rmal/2009/mapas/ 200 5-2013/Total_estudiantes_2013.jpg 5-2013/Total_estudiantes_2013.jpg - 

MacEachren, A. M. 1995, How Maps Work. Guilford Press, London, 513 pp. Ortiz, E., 2013. Mapa de Tipos de Bosque de Costa Rica –  Inventario  Inventario Nacional Forestal. Disponible en:  http://onfcr.org/media/uploads/images/pictures/mapa_tipos_bosque_costa_rica-3.jpg  en:



Universidad de Colorado Boulder, s.f. Issues of Statistical Generalization. Disponible en: http://www.colorado.edu/geography/gcraft/notes/cartocom/section6.html 

Literatura Recomendada



Watkins, T. An Illustration of Chloropleth Mapping - Data by States for Poland [online]. San

José

State

University,

Economics

Department.

Disponible

en:

http://www2.sjsu.edu/faculty/watkins/chlorpoland.htm  -   NASA, s.f. Explorando mapas de colores - Usando datos de ozono estratosférico. Disponible http://aura.gsfc.nasa.gov/ozoneholeposter/ColorMappingL ster/ColorMappingLesson_Spanish.pdf  esson_Spanish.pdf   http://aura.gsfc.nasa.gov/ozoneholepo - 

en:

Peterson, M.P. Between Reality and Abstraction: Non-Temporal Applications of Cartographic Animation [online]. Department of Geography / Geology, University of  Nebraska at Omaha. Omaha. Disponible en: http://maps.unom http://maps.unomaha.edu/AnimArt/article.htm aha.edu/AnimArt/article.htmll

12

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF