Modelo de Scoring
Short Description
Descripción: scoring...
Description
UNIVERSIDAD TECNOLÓGICA EQUINOCCIAL FACULTAD DE CIENCIAS DE LA INGENIERÍA
CARRERA DE INFORMÁTICA Y CIENCIAS DE LA COMPUTACIÓN
TEMA:
“DISEÑO DEL SISTEMA DE INDICADOR FINANCIERO BASADO EN EL SCORING DE COBRANZAS; PARA USO EMPRESARIAL, 2009”
TESIS
PREVIA LA OBTENCIÓN DEL TÍTULO DE INGENIERO EN INFORMÁTICA Y CIENCAS DE LA COMPUTACIÓN
AUTOR:
JOFFRE DANIEL FLORES ESCOBAR
DIRECTOR DE TESIS:
MAT. MAURICIO GARCIA
QUITO – ECUADOR
2010
Del contenido del presente trabajo se responsabiliza el autor
______________________ Daniel Flores Escobar
III
DEDICATORIA
Dedico este trabajo a mi madre por estar siempre a mi lado y quien me supo dedicar todo su esfuerzo para que sea un profesional, además de orientarme e inculcarme principios para luchar en este duro camino.
A mis hermanos Diego y Diana quienes han sido los pilares de mi vida y la fuerza para nunca dejarse vencer y siempre luchar hasta culminar cada meta impuesta.
Daniel Flores
V
AGRADECIMIENTO
Agradezco a Dios por permitirme alcanzar esta meta y ser mi luz capaz de iluminar todo momento sombrío. A mi madre y hermanos quienes me dieron su apoyo, guía y comprensión sin condición ni medida. A mis abuelitos Jorge y Rosita por estar a mi lado y ser un ejemplo de lucha y sacrificio Quiero agradecer a la Universidad Tecnológica Equinoccial por los conocimientos impartidos en sus aulas a través de sus maestro y en especial al director de este proyecto Mat. Mauricio García por su guía y aportes en este trabajo. Y a todos los que no recuerdo pero que ayudaron a que pueda culminar esta meta.
VI
ÍNDICE GENERAL
DEDICATORIA ........................................................................................................ V AGRADECIMIENTO .............................................................................................. VI ÍNDICE GENERAL ............................................................................................... VII ÍNDICE DE CONTENIDOS ................................................................................. VIII ÍNDICE DE ILUSTRACIONES .............................................................................. XI ÍNDICE DE ECUACIONES .................................................................................. XII ÍNDICE DE TABLAS............................................................................................ XIII RESUMEN ............................................................................................................. XIV SUMMARY............................................................................................................ XVI CAPÍTULO I .............................................................................................................. 1 CAPÍTULO II ........................................................................................................... 14 CAPÍTULO III ......................................................................................................... 34 CAPÍTULO IV .......................................................................................................... 57 CAPÍTULO V ........................................................................................................... 75 BIBLIOGRAFÍA ...................................................................................................... 78 ANEXOS ................................................................................................................... 80
VII
ÍNDICE DE CONTENIDOS
CAPÍTULO I .............................................................................................................. 1 1. INTRODUCCIÓN .................................................................................................. 1 1.1
PROBLEMA A RESOLVER .......................................................................... 1
1.2
MARCO TEÓRICO ....................................................................................... 2
1.3
JUSTIFICACIÓN ......................................................................................... 11
1.4
OBJETIVOS................................................................................................. 12
1.4.1
Objetivo General ................................................................................... 12
1.4.2
Objetivos Específicos ............................................................................ 12
1.5
HIPÓTESIS .................................................................................................. 13
1.6
ALCANCE ................................................................................................... 13
CAPÍTULO II ........................................................................................................... 14 2. CREDIT SCORING ............................................................................................. 14 2.1
CONCEPTOS ............................................................................................... 14
2.2
MÉTODOS EMPLEADOS EN LA CONSTRUCCIÓN DE SCORE DE
CREDITOS............................................................................................................. 21 2.3
REGRESION LOGÍSTICA .......................................................................... 23
CAPÍTULO III ......................................................................................................... 34 3. METODOLOGÍA ................................................................................................. 34 3.1
MODELAMIENTO ...................................................................................... 34
3.1.1
Selección de la muestra.......................................................................... 35
3.1.2
Definición de buenos y malos clientes ................................................... 40
3.1.3
Definición y selección de datos .............................................................. 41 VIII
3.1.4
Análisis preliminar de la Muestra ........................................................... 48
3.1.5
Análisis Multivariado ............................................................................ 50
3.1.6
Diseño del Score Card ........................................................................... 53
3.1.7
Validación del Modelo ........................................................................... 56
CAPÍTULO IV .......................................................................................................... 57 4. DESARROLLO .................................................................................................... 57 4.1
DISEÑO Y DESARROLLO ........................................................................ 57
4.2
HERRAMIENTAS DE DESARROLLO....................................................... 58
4.2.1
Microsoft .Net ....................................................................................... 58
4.2.2
SQL Server 2005 ................................................................................... 60
4.2.3
SPSS...................................................................................................... 61
4.3
DISEÑO DEL SISTEMA ............................................................................. 62
4.3.1
Web Service .......................................................................................... 62
4.3.2
Modelado del Sistema ............................................................................ 64
4.3.3
Casos de Uso ......................................................................................... 65
4.4
Creación del Web Service ............................................................................. 66
4.5
Probador Web Service .................................................................................. 70
CAPÍTULO V ........................................................................................................... 75 5. CONCLUSIONES Y RECOMENDACIONES ................................................... 75 5.1 CONCLUSIONES ............................................................................................ 75 5.2 RECOMENDACIONES ................................................................................... 76 BIBLIOGRAFÍA ...................................................................................................... 78
IX
ANEXOS ................................................................................................................... 80 1. ANEXO 1............................................................................................................... 80 2. ANEXO 2............................................................................................................... 84 3. ANEXO 3............................................................................................................... 93 4. ANEXO 4............................................................................................................. 100
X
ÍNDICE DE ILUSTRACIONES
Ilustración 1. Ejemplo de Transformación ................................................................... 10 Ilustración 2. Concepto de Score ................................................................................. 16 Ilustración 3. Técnicas Para el Desarrollo Scoring Crediticio ...................................... 22 Ilustración 4. Gráfico Función Logística ..................................................................... 25 Ilustración 5. Gráfico de Dispersión ............................................................................ 31 Ilustración 6. Gráfica Resultado Ejemplo Regresión Logística .................................... 33 Ilustración 7. Esquema de Selección de la Muestra ..................................................... 39 Ilustración 8. Distribución de los Sujetos por Rangos de Edad .................................... 48 Ilustración 9. Transformación de una variable ............................................................. 49 Ilustración 10. Diseño del Score Card Cógido Sql ....................................................... 54 Ilustración 11. Características Herramientas .Net ........................................................ 59 Ilustración 12. Sql Server 2005 ................................................................................... 60 Ilustración 13. Funcionamiento de un Web Service ..................................................... 63 Ilustración 14. Caso de Uso ......................................................................................... 66 Ilustración 15. Código .Net Creación del Web Service ................................................ 67 Ilustración 16. Creación Referencia Web .................................................................... 68 Ilustración 17. Busqueda del Servicio Web ................................................................. 69 Ilustración 18. Selección del Web Seervice ................................................................. 70 Ilustración 19. Codigo .Net Creación del Probador Web Service ................................. 71 Ilustración 20. Pantalla Probador Web Service ............................................................ 73
XI
ÍNDICE DE ECUACIONES
Ecuación 1. Regresión Logística ................................................................................... 8 Ecuación 2. Modelo General ....................................................................................... 25 Ecuación 3. Función Lineal con Parámetros ................................................................ 26 Ecuación 4. Función Logística .................................................................................... 27
XII
ÍNDICE DE TABLAS
Tabla 1. Ventajas y Desventajas del Scoring Crediticio ............................................... 19 Tabla 2. Número Registros por primeros y últimos dígitos de la Cedula ..................... 37 Tabla 3. Periodo Morosidad en Meses ......................................................................... 44 Tabla 4. Parametrización Scoring Crediticio ............................................................... 74
XIII
RESUMEN
Este trabajo se ha planteado optimizar y reducir los errores en los análisis de créditos, mediante la creación de una herramienta de evaluación crediticia (Scoring Crediticio) de otorgamiento útil para la toma de decisiones, disminuyendo el riesgo en función del historial de crédito de una persona.
En el marco de este estudio y en el transcurso de los capítulos se ha realizado una revisión y descripción del contenido de la investigación para la solución del problema planteado para cual fue objeto este tema de tesis.
Es así que reconociendo las características y particularidades de los datos obtenidos; así como el resultado que se desea obtener que esta demarcado en clasificar a un sujeto de acuerdo a su riesgo crediticio para definirlo apto o no para ser sujeto de crédito, se ha escogido la función de regresión logística para la obtención del modelo que mejor se ajusta a las características de los datos que se posee.
También que se genero una herramienta Web Service con la finalidad de que cualquier institución o persona que desee consultar el score de un sujeto, pueda acceder a la misma sin importar la plataforma ni las herramientas que posea siendo esta una herramienta flexible con el fin de independizar la arquitectura de una aplicación concreta, lógicamente, dentro de ciertas restricciones, impuestas por la naturaleza de los sistemas de información o sistemas de control automáticos.
XIV
Además el score se convierte en una herramienta que asume una probabilidad de incumplimiento, tomando en cuenta las similitudes presentadas entre los datos históricos con el fin de discriminar de una manera técnica el otorgamiento de un crédito.
Este proyecto parte fundamentalmente de la base de datos la cual debe cumplir con la característica de robustez y confiabilidad ya que para la obtención del score y para que el mismo sea predictivo se necesita de una gran cantidad de datos los cuales juegan un papel muy importante para el cálculo del mismo y además que los datos sean correctos, pero a su ves la muestra de datos obtenidos es pequeña pero que tiene todas las características fundamentales para el modelamiento del score.
XV
SUMMARY
This work is to optimize and reduce errors in credit analysis, by creating a credit assessment tool (Credit Scoring) granting useful for decision making, reducing the risk based on credit history of a person.
As part of this study and in the course of the chapters make a review and description of the research content for the solution of the problem which was the subject for this thesis topic.
Which also generated a Web Service tool for the purpose of any institution or person you want to see the score of a person, can access it regardless of platform or tools having this being a flexible tool to wean the architecture of a particular application, of course, within certain restrictions imposed by the nature of information systems and automatic control systems.
In addition, the score becomes a tool that assumes a probability of default, taking into account similarities between the historical data presented to discriminate in a technical way the granting of credit.
This project is mainly from the database which must comply with the property of robustness and reliability as to obtain the score and that it needed to be predictive of a large amount of data which play an important role in the calculation thereof and further
XVI
that the information is correct, but your see the sample data is small but has all the basic features for modeling of the score.
XVII
CAPÍTULO I
CAPÍTULO I
1. INTRODUCCIÓN
En este capítulo se presenta los objetivos principales del trabajo y su justificación, así como la descripción resumida del contenido de la tesis.
1.1
PROBLEMA A RESOLVER
La gran mayoría de los préstamos que a diario conceden las entidades financieras podrían ser otorgados mediante técnicas de clasificación, que en base a características propias del cliente, determinen la probabilidad de que en un futuro este pueda hacer frente a sus obligaciones de pago. Permitiendo clasificarle en dos grupos: el integrado por individuos con una elevada probabilidad de devolver el crédito y el de aquellos individuos que, previsiblemente, no harán frente a sus compromisos crediticios.
Así de esta manera, mediante la utilización de modelos de scoring para la evaluación del riesgo de crédito, se puede determinar la probabilidad de que una persona incurra en mora o clasificarle como un sujeto apto para acceder a un crédito.
1
1.2
MARCO TEÓRICO
Un banco es un tipo muy especial de empresa, que capta dinero del público, lo presta conjuntamente con recursos propios de la entidad a terceros, quienes pagan intereses por el uso de ese dinero. Así, usualmente, los recursos con los que un banco genera sus ingresos son, en parte propios (patrimonio o capital), y mayoritariamente ajenos (depósitos del público). Por ello, dado que la mayoría del dinero que un banco administra no le pertenece, la gestión bancaria requiere un proceso constante de evaluación y medición de los riesgos a los que se exponen los recursos de los depositantes en las operaciones de la entidad. Estos riesgos, en conjunto, se llaman Riesgo Bancario y su administración suele ser regulada por la Superintendencia de Bancos y Seguros (SBS) en el Ecuador y sus pares en todo el mundo.
Para regular el riesgo la SBS se crearon varias leyes entre las cuales tenemos la Ley General de Instituciones de Sistema Financiero que dice en el Título IV del Patrimonio Capítulo I Capital y Reservas, en el artículo 47 de esta ley en la que se indica: “Con el objeto de preservar su solvencia, las instituciones del sistema financiero deberán mantener, en todo tiempo, el conjunto de relaciones técnicas que establezca la Junta Bancaria mediante resolución de carácter general, siguiendo los estándares internacionales, especialmente los establecidos por el Comité de Basilea” 1.
1 El acuerdo de Basilea consta de 25 principios que representan los requerimientos mínimos que deben ser implementados por las autoridades bancarias para lograr un sistema de supervisión bancaria efectiva.
2
Entre los acuerdos del Comité de Basilea se encuentran dos principios fundamentales en los cuales se basa la creación y uso de los datos de las instituciones financieras en una base de datos llamada Central de Riesgo los cuales son:
Principio 15. Los supervisores bancarios deben determinar que los bancos tengan políticas, prácticas y procedimientos adecuados, que incluyan la estricta regla de CONOCE A TU CLIENTE, lo cual promueve altos estándares de ética y profesionalismo en el sector financiero. Estas medidas previenen que los bancos sean utilizados por elementos criminales, en una forma voluntaria o involuntaria.
Principio 21. Los supervisores bancarios deben de asegurarse que cada banco mantenga registros adecuados, diseñados de manera que concuerden con políticas contables consistentes, con prácticas que permitan al supervisor obtener una visión verdadera y precisa de la condición financiera del banco y de la rentabilidad de sus negocios y que el banco haga publicaciones regulares del estado financiero, que reflejen realmente su condición.
Y es por eso que la Superintendencia de Bancos y Seguros del Ecuador en una de sus normativas emitidas en marzo del 2008 para la conformación de la Central de Riesgos solicita a todos los Buros de Crédito, que los mismos deberán reportar la información crediticia de los clientes sobre la base de modelos estadísticos predictivos y no sobre la información en bruto que reportan las instituciones bancarias de los clientes.
3
Los comienzos del Credit Scoring se remontan del año 1936 cuando Fisher, introduce el concepto de discriminar objetos dentro de una población específica.
Esta idea fue desarrollada más ampliamente por Durand en 1941 donde fue aplicada en un contexto financiero para discriminar entre un “Buen” y un “Mal” pagador.
Uno de los modelos estadísticos predictivos denominado scoring crediticio fue inventado por dos matemáticos de Stanford, Bill Fair y Earl Isaac, quienes observaron que los acreedores no buscaban el historial de crédito, sino un pronóstico de aptitud de crédito del individuo. Con el desarrollo de un sistema analítico que hoy en día se conoce como el FICO Score (Fair Isaac Corporation Score) una de las herramientas más usadas a nivel mundial en relación al análisis de riesgo de créditos.
La utilización de modelos de credit scoring para la evaluación del riesgo de crédito, y ordenar a los deudores y solicitantes de financiamiento en función de su riesgo de incumplimiento, comenzó en los 70’s pero se generalizó a partir de los 90’s. Esto se ha debido tanto al desarrollo de mejores recursos estadísticos y computacionales, como por la creciente necesidad por parte de las instituciones bancarias de hacer más eficaz y eficiente la originación de financiaciones, y de tener una mejor evaluación del riesgo de su portafolio.
El scoring crediticio se refiere al uso de conocimiento sobre el desempeño y características de préstamos en el pasado para pronosticar el desempeño de préstamos en el futuro. Así, cuando un analista de crédito valora el riesgo comparando 4
mentalmente una solicitud de crédito en el presente con la experiencia que este mismo analista ha acumulado con otros clientes con solicitudes parecidas, está aplicando scoring, aunque sea un scoring implícito y subjetivo. De igual manera, cuando un micro prestamista adopta una política de no renovar préstamos a clientes que han tenido atrasos mayores a 30 días en su préstamo anterior, está aplicando scoring, aunque sea un scoring simple y unidimensional. Por eso, aunque el nombre scoring puede sonar nuevo, es una práctica antigua.
Los métodos o modelos de credit scoring, a veces denominados score-cards o classifiers, son algoritmos que de manera automática evalúan el riesgo de crédito de un solicitante de financiamiento o de alguien que ya es cliente de una entidad crediticia. Tienen una dimensión individual, ya que se enfocan en el riesgo de incumplimiento del individuo o empresa, independientemente de lo que ocurra con el resto de la cartera de préstamos
En una primera aproximación a los mismos, se los puede definir como “métodos estadísticos utilizados para clasificar a los solicitantes de crédito, o incluso a quienes ya son clientes de una entidad evaluadora, entre las clases de riesgo ‘bueno’ y ‘malo’” 2.
Aunque originalmente en los 70’s se basaban en técnicas estadísticas (en particular, el análisis discriminante), en la actualidad también están basados en técnicas matemáticas, econométricas y de inteligencia artificial. En cualquier caso, los modelos de credit
2 Hand, D.J. y W.E. Henley. (1997) “Statistical Classification Methods in Consumer Credit Scoring: A Review”, Journal of the Royal Statistical Association Series A, Vol. 160, No. 3, pp. 523-41.
. 5
scoring emplean principalmente la información del evaluado contenida en las solicitudes de crédito y/o en fuentes internas y/o externas de información.
El resultado de la evaluación se refleja en la asignación de alguna medida que permita comparar y ordenar a los evaluados en función de su riesgo, a la vez cuantifica. Por lo general, los modelos de credit scoring le asignan al evaluado un puntaje o score, o una calificación o rating. Algunos métodos los asignan a grupos, en donde cada grupo tiene un perfil de riesgo distinto; sin embargo, en la práctica esto equivale a una calificación. A su vez, estos ordenamientos de los deudores permiten obtener estimaciones más concretas del riesgo; en general se busca obtener alguna estimación de la probabilidad de incumplimiento del deudor (PD, por probabilidad de default) asociada a su score, rating o calificación.
Esta estimación se puede obtener directamente del score en el caso de los modelos econométricos, o también en función de la tasa de incumplimiento (TD, por tasa de default) histórica observada en el grupo de deudores con la misma calificación o score similar.
La utilización de modelos de credit scoring para la evaluación del riesgo de crédito, es decir, para estimar probabilidades de default y ordenar a los deudores y solicitantes de financiamiento en función de su riesgo de incumplimiento, comenzó en los 70’s pero se generalizó a partir de los 90’s. Esto se ha debido tanto al desarrollo de mejores recursos estadísticos y computacionales, como por la creciente necesidad por parte de la industria bancaria de hacer más eficaz y eficiente la originación de financiaciones, y de tener una 6
mejor evaluación del riesgo de su portafolio. Estos modelos generalmente se asocian a lo que se ha dado en llamar data mining (minería de datos), que son todos aquellos procedimientos que permiten extraer información útil y encontrar patrones de comportamiento de los datos.
Para evaluar el riesgo crediticio o la conveniencia de otorgar un crédito, hay una gran variedad de metodologías disponibles: análisis discriminante, regresión lineal, regresión logística, modelos probit, modelos logit, métodos no paramétricos de suavizado, métodos de programación matemática, modelos basados en cadenas de Markov, algoritmos de particionamiento recursivo (árboles de decisión), sistemas expertos, algoritmos genéticos, redes neuronales y, finalmente, el juicio humano, es decir, la decisión de un analista acerca de otorgar un crédito. Aunque esta última presenta la ventaja de ser más eficaz en tratar las excepciones a la experiencia pasada, los métodos de credit scoring son más eficientes a la vez que sus predicciones más objetivas y consistentes, por lo que pueden analizar y tomar decisiones sobre una gran cantidad de solicitudes de crédito en poco tiempo y a un bajo costo
Dada la relevancia en el proceso de gestión crediticia, un punto fundamental de este proyecto es determinar una variable dependiente (bueno/malo), para lo cual se estableció que el modelo estadístico de regresión logística es el más apropiado para el desarrollo de este proyecto.
Además se estableció que la regresión lineal no tiene el sustento teórico apropiado para la construcción de modelos con una variable dependiente binaria (por ejemplo, bueno o 7
malo). El término de error en una regresión lineal se asume normalmente distribuido, y este supuesto es violado cuando la variable dependiente sólo puede tomar dos valores. Además, la regresión lineal puede crear probabilidades estimadas mayores que uno y menores que cero.
Así se identificó que lo más apropiado para el desarrollo de este proyecto es el modelo de regresión logística ya que es una técnica que sirve para modelar la relación entre la variable dependiente binaria y las variables independientes. Es una forma de modelo lineal generalizado (GLM) y está dado por la fórmula:
Ecuación 1. Regresión Logística
logit(pi) = log(pi/(1 – pi))=0 + 1x1i + … + kxki
Fuente: Análisis de datos multivariantes Elaborado por: Daniel Flores
Donde pi es la probabilidad de que una observación tome un valor particular, y los i son los parámetros asociados con cada variable independiente. El modelo resultante de la regresión logística utiliza las variables independientes para predecir la probabilidad de que la variable dependiente tome un valor particular. Este modelo no se basa en el supuesto estadístico de que el término de error está distribuido normalmente ni en el supuesto de homoscedasticidad es decir que los diferentes grupos obtenidos presenten la misma varianza o dispersión (las poblaciones de Y correspondientes a diversos valores de X tienen la misma varianza. Si se cumple, todos los valores de Y que corresponden a 8
diversos valores de X serán igual de confiables cercanía o alejamiento con el cual están distribuidos los valores de Y alrededor de sus medias. Todos los valores de Y correspondientes a diversos valores de X son igualmente importantes), y produce probabilidades estimadas entre 0 y 1, las que serán asociadas a un score.
De acuerdo a lo explicado en la metodología de regresión logística, un paso importante en el proceso de desarrollo es determinar que variables independientes tienen una fuerte relación lineal con la función logit de la variable dependiente, es decir la función logit será utilizada para predecir el resultado binario, por ejemplo bueno / malo a sabiendas que existen diferentes factores que pueden inferir en el resultado. Esta función logit es un tipo de regresión en donde la variable dependiente es una variable dummy ejemplo 0 buen cliente 1 mal cliente.
En algunos casos una variable puede tener una fuerte asociación con la función logit de la variable dependiente, sin que esta relación sea lineal. Como resultado, esta relación puede no ser detectada o puede producir resultados no esperados. Transformar la variable puede servir para detectar la relación no lineal que de otra manera se perdería, o para fortalecer dicha relación. Típicas transformaciones de variables incluyen la raíz cuadrada, el cuadrado, el binario (indicador), el logaritmo y el inverso. Por ejemplo, la Ilustración 1(a) indica una relación no-lineal entre la Variable 1 y la variable dependiente. Sin embargo, después de aplicar la transformación de raíz cuadrada, mostrada en la Ilustración 1(b), la relación no lineal se convierte en lineal.
9
Ilustración 1. Ejemplo de Transformación A
B
V a r i a b l e
V a r i a b l e
D e p e n d i e n t e
D e p e n d i e n t e
Variable 1
Raíz cuadrada de Variable 1
Fuente: Introducción al análisis de regresión lineal Elaborado Por: Daniel Flores
Para este modelo, se empleará metodologías estándares y análisis de distribuciones para hacer lo siguiente:
a.
Determinar la necesidad de transformación para cada variable independiente;
b.
Determinar la transformación óptima para cada variable; y
c.
Considerar la inclusión de las variables transformados en el desarrollo de los modelos.
Este proceso asegurará que cada variable sea representada apropiadamente.
Es así que mediante esta técnica se logrará clasificar a los individuos dentro de las categorías (bueno/malo) de la variable dependiente, según la probabilidad que tenga de pertenecer a una de ellas dada la presencia de determinadas variables. 10
1.3
JUSTIFICACIÓN
El sistema financiero desempeña un papel crucial en el desarrollo de un país, que afecta tanto a la adecuada asignación de recursos en el tiempo como a la correcta valoración del riesgo. En los últimos años, la globalización de la economía de mercado ha disminuido la estabilidad y seguridad del negocio financiero, multiplicando los riesgos a los que se enfrentan estas entidades, entre ellos el riesgo de crédito, o posibilidad de que no se produzca la devolución puntual de una determinada cantidad de dinero que se prestó en el pasado.
Por eso se ha visto la necesidad de diseñar una aplicación, la cual ayudará a tener una correcta toma de decisiones con la mayor efectividad posible, basados en un sistema de Scoring de Cobranzas, ya que en el Ecuador las Instituciones Financieras y, Pequeñas y Medinas Empresas PYMES,
en los últimos tiempos viene enfrentándose a la
problemática de la morosidad, que se situó en el 5.8%3 de los sujetos de crédito en el Ecuador, en el año 2008.
En donde este diseño de scoring
basado en información historial crediticia como
montos que debe a una institución financiera, el tiempo de endeudamiento, morosidad, el número de créditos recibidos, etc. de un determinado sujeto, serán evaluados permitiendo agilizar el proceso de cobro en una empresa asignando una puntuación de forma consistente, determinado las probabilidades de que el sujeto incurra en mora.
3 Fuente: CreditReport Buro de Información Crediticia
11
1.4
OBJETIVOS
1.4.1 Objetivo General
Diseñar un modelo de Scoring, utilizando un conjunto de indicadores financieros históricos de la Central de Riesgo, categorizando a los clientes en base a su propensión para hacer un adecuado manejo de los mismos.
1.4.2 Objetivos Específicos
Presentar un modelo de score que permita identificar a un cliente con la tipología de riesgoso, para evitar perdidas en un crédito asignado.
Analizar de forma automática las características y/o condiciones que un cliente posee para catalogarse como riesgoso.
Definir un mecanismo analítico - matemático que constituya de una forma rápida, confiable, exacta y consistente para predecir el riesgo de un solicitante para cumplir con sus deudas en el futuro, es decir minimiza el riesgo de cobranzas.
12
1.5
HIPÓTESIS
Demostrar que este sistema de scoring permitirá o no determinar si una persona es sujeto de crédito.
Identificar aquellos clientes que tienen la tipología de clientes riesgosos para evitar cualquier tipo de fraude en el crédito asignado.
1.6
ALCANCE
Este sistema generará un valor numérico estadísticamente validado en base a análisis descriptivos que permita agilizar la toma de decisiones a la vez que busca reducir el nivel de pérdidas ya que se asigna puntuaciones de forma consistente, determinando las probabilidades de que una solicitud se convierta en una cuenta con buen comportamiento para predecir la recuperación del crédito.
El sistema se basará en fórmulas de evaluación de las características relevantes que se obtendrá de la información historial crediticia para predecir la recuperación del crédito. A cada característica se le asigna un valor numérico estadísticamente validado que permita obtener un puntaje mediante el cual se pondrá más afán en la cobranza de una deuda a un cliente. 13
CAPÍTULO II
CAPÍTULO II
2.
CREDIT SCORING
En este capítulo se tratará sobre las definiciones del score crediticio, los métodos empleados para la construcción y sobre la regresión logística que es el método seleccionado para el desarrollo de este proyecto.
2.1 CONCEPTOS
Los modelos de scoring crediticio nacen alrededor de los años 1950s cuando Bill Fair y Earl Isaac fundan su compañía dedicada a apoyar las actividades de importantes empresas financieras y de ventas al menudeo. Posteriormente, en los años 1960s se inicia el periodo en el que se desarrolla la industria de las tarjetas de crédito con lo cual los bancos ven una gran posibilidad de empezar utilizar modelos de scoring.
Básicamente el credit scoring es un método que se emplea para identificar diferentes grupos dentro de una población cuando no se pueden observar las características que los definen sino únicamente las relaciones con estas.
Se denomina credit scoring a un sistema que permite asignar una calificación de riesgo, una puntuación, a un demandante de crédito (cliente real o cliente potencial).
14
Los modelos de scoring crediticio son aplicaciones que permiten apoyar la toma de decisiones. Estos modelos surgen como una necesidad de poder evaluar de forma ágil y rápida las capacidades de endeudamiento de clientes ante la solicitud de un crédito. Aunque existen diversos tipos de compañías y distintos tipo de créditos, la idea general de un modelo de scoring crediticio es, por un lado, seleccionar aquellos individuos que poseen mejores condiciones económicas para retornar a la compañía el valor total del préstamo solicitado; por otra parte, los modelos de scoring crediticio permiten mitigar el riesgo en que se incurriría si se aprueba un crédito a un individuo que no cumple con una capacidad de pago y endeudamiento.
En términos más formales el “credit scoring es un método de evaluación del riesgo de crédito que emplea información histórica y técnicas estadísticas, para tratar de aislar los efectos que tienen las características de varios aplicantes sobre la reincidencia y el incumplimiento. El método arroja un puntaje o score que la institución financiera puede emplear para ranquear sus aplicaciones de crédito en términos de riesgo”4.
Y con lo mencionado anteriormente predecir el comportamiento de pago futuro de las obligaciones crediticias que contraen las personas en función de su comportamiento crediticio histórico, para lo cuál utiliza toda la información de entidades Reguladas por la Superintendencia de Bancos y Seguros SBS.
El credit scoring constituye, por tanto, un problema de clasificación propiamente dicho, pues dado un conjunto de observaciones cuya pertenencia a una determinada clase es
4 Lewis, E.M. (1990) An Introduction to Credit Scoring, San Rafeal: Athena, LIC# 90-92258.
15
conocida a priori, se busca una regla que permita clasificar nuevas observaciones en dos grupos: los que con alta probabilidad podrán hacer frente a sus obligaciones crediticias, y los que, por el contrario, resultarán fallidos.
De ahí que para esta investigación se definió que el puntaje obtenido estadísticamente se encuentre dentro de un rango de 1 a 999 siendo 1 el puntaje menor y 999 el mayor puntaje a obtener cuando un sujeto posee el mejor historial crediticio.
Ilustración 2. Concepto de Score
20 %
Bajo 999 Riesgo
60 %
Score
800 600
Buenas Malas
20 %
400 200
Alto Riesgo
Muy Buenas
Muy malas
1
Fuente: Datos de la Central de Riesgo Elaborado Por: Daniel Flores
16
Así también el grafico muestra el objetivo del cálculo que es exponer el riesgo que actualmente un sujeto representa a un prestamista. Parámetros severos como el historial de crédito, incluyendo historial de pagos, longitud de la historia de la cuenta, préstamos y otros son formulados para producir un número de tres dígitos que oscila entre 1 y 999. Este puntaje se divide en 3 categorías principales: Riesgo Bajo, Riesgo Medio y Riesgo Alto.
Además el grafico indica que el 60% de todas las personas con una puntuación de crédito de 550-900 presenta o presentó problemas con su crédito y para obtener uno necesitará de requisitos poco favorables. El 20% de los sujetos no presentan ningún problema en sus créditos obteniendo u score superior a los 700 y no presentan ningún riesgo para las instituciones bancarias al ser sujetos de crédito, y el restante 20% se encuentran con un score entre 1 y 549 los que representan un riesgo alto al ser sujeto de crédito ya que poseen créditos vencidos o en demanda judicial en la institución bancaria.
Esto hace que el sistema se base en el desempeño pasado de clientes que tienen características similares a aquellos a ser evaluados. El credit scoring termina, por tanto, siendo un predictor del riesgo, cuya fortaleza no radica en la habilidad para explicar causalidades (por qué algunos clientes incumplen y otros no) sino en la objetividad de la metodología aplicada.
17
Con el score, la institución que utilice el sistema observará un valor numérico el cual significa el riesgo y dependiendo de su valor el usuario aceptará o rechazará una solicitud de préstamo5.
Los beneficios no sólo se leen en una reducción de la subjetividad del analista inmersa en la concesión del crédito, al estar los métodos tradicionales apoyados fundamentalmente en información cualitativa mantenida en la mente del evaluador, sino que al basarse en información cuantitativa mantenida en los sistemas de cómputo de la institución financiera y por ende cuantificables a bajo costo, se pueden lograr reducciones de costos de morosidad y de evaluaciones de préstamos de tal forma que se mejore la eficiencia (mejores colocaciones) y por ende la rentabilidad.
A la par coexisten tanto ventajas como desventajas en esta metodología, dejando siempre al final la opción al prestamista de optar por un sistema de otorgamiento de créditos subjetivo (scoring implícito) en donde el analista valora el riesgo del prestatario comparando mentalmente las características de un aplicante con su experiencia acumulada de otras aplicaciones similares o por un scoring estadístico que haga uso del conocimiento cuantitativo del desempeño de clientes pasados almacenados en una base de datos con el fin de pronosticar comportamientos futuros. Esto conduce, en virtud de la seriedad académica, a exponer los pros y contras de hacer uso de esta técnica.
5 Estrictamente no todos los métodos conducen a una 'puntuación' o 'scorecard'. Algunos indican directamente la posibilidad de que un cliente sea bueno y si la aprobación del crédito vale la pena.
18
De lo que se pudo realizar el análisis las ventajas y desventajas del uso de un modelo de score se encuentran descritas en la siguiente tabla.
Tabla 1. Ventajas y Desventajas del Scoring Crediticio
VENTAJAS
DESVENTAJAS Requiere de una sólida y extensa base de
Cuantifica el riesgo como probabilidad datos Ignora toda información no existente en la Multivariable base de datos Puede ser validado
Solo destaca los casos de alto riesgo Puede necesitar de un consultor externo,
Consistente por ende genera gastos operativos Su funcionamiento requiere de un sistema Transparente transaccional
Fuente: Revisión Bibliográfica Elaborado Por: Daniel Flores
La consistencia surge de la homogeneidad en la calificación otorgada a cada grupo de clientes que comparta las mismas características, todas las solicitudes idénticas tendrán por tanto el mismo valor de riesgo predicho; el hecho de contar con un modelo matemático que arroje un valor hace que el proceso de obtención de esta probabilidad
19
sea explícito y como consecuencia de fácil comunicación tanto a nivel de alta gerencia como de analistas.
El contar con modelos estadísticos da la posibilidad de contrastación de los mismos, validando los modelos sea con información previa al periodo muestral empleado, permitiendo observar como habría funcionado scoring si hubiera estado implementado al momento de estos desembolsos o verificando, previo a la fase de implementación, la consistencia del modelo con los nuevos clientes. Esta fase suele denominarse backtesting.
Del otro lado, se tiene un conjunto de desventajas que se deben considerar antes de incurrir en un proceso de obtención e implementación de un modelo scoring para el otorgamiento de créditos. La disponibilidad de una sólida y extensa información es uno de los principales obstáculos al momento de desarrollar un modelo estadístico. Además, la cantidad de información registrada no debe sólo ser buena sino vasta para que los modelos desarrollados puedan compensar la ausencia de información financiera con mucha capacidad de pronóstico empleando un gran número de características menos significativas. La calidad de las bases de datos es fundamental, no sólo en cantidad de registros almacenados en cada variable (porcentaje bajo de clientes en blanco) sino en la confiabilidad de la información archivada. Por ejemplo, puede ser que la variable sueldo no sea un buen predictor dentro de los modelos tal vez porque los clientes tienden a mentir sobre su salario, por lo que la correlación entre sueldo y riesgo es falsa, o por que los vendedores de crédito adulteran la cifra ante la posibilidad de obtener una aprobación segura del crédito vendido por parte del analista. 20
2.2
MÉTODOS EMPLEADOS EN LA CONSTRUCCIÓN DE SCORE DE CREDITOS
Las técnicas más importantes en la construcción de modelos de score crediticio son:
Modelos Estadísticos Se consideran los siguientes métodos:
Métodos Paramétricos
Comprenden técnicas como Análisis Discriminante
(Discriminant Analysis) y Regresión Logística (Logistic Regression).
Métodos No Paramétricos. Incluye técnicas de Árboles de Decisión, K-Nearest Neighbor (K-NN) y Kernel Density.
Modelos de Computación Suave o Soft Computing Se plantean principalmente dos modelos:
Redes Neuronales Artificiales (Artificial Neural Networks, ANN).
Máquinas Vectoriales de Soporte (Support Vector Machines, SVM). Conjuntos Rugosos (Rough Sets).
Modelos Híbridos Estos métodos representan una extensión a los modelos existentes y consisten en una combinación de técnicas estadísticas o de soft computing otros modelos relacionados.
21
La ilustración 3 muestra un organigrama sobre las técnicas mas utilizadas para desarrollar un modelo de score crediticio explicados anteriormente, además de una clasificación de las técnicas influyentes en la construcción del modelo.
Ilustración 3. Técnicas Para el Desarrollo Scoring Crediticio
Modelos de Scoring Crediticio
Modelos Estadisticos
Soft Computing
Paramétricos
Análisis Discriminante
Regresion Logística
K vecinos más cercanos
No Paramétricos
Redes Neuronales
Arboles de Decisión
Densidad de Kernel
Modelos Hibrido
Fuente: Revisión Bibliográfica Elaborado Por: Daniel Flores
El organigrama presenta un resumen de la clasificación de los diferentes modelos para el desarrollo de un scoring crediticio, estos se clasifican en modelos estadísticos del cual se dividen en paramétricos (Análisis Discriminante y Logit) y tres no paramétricos (Árboles de regresión, K vecinos mas cercanos y la densidad de Kernel), además del modelo soft computing del que se deriva los modelos que utilizan redes neuronales y por último también se encuentran los modelos híbridos. 22
Los modelos paramétricos “parten de una función de distribución o clasificación conocida, y reducen el problema a estimar los parámetros que mejor ajusten las observaciones de la muestra”6. Los modelos no paramétricos, conocidos también como métodos de distribución libre pues no se encuentran sujetos a ninguna forma funcional, estos modelos presentan pocas restricciones, por lo que en ocasiones resultan, más fáciles de aplicar que los paramétricos y permiten reconstruir la función de clasificación en todo tipo de situaciones, incluidas aquellas en las que la función sea sencilla y conocida (por ejemplo, lineal).
En los modelos de soft computing del que se deriva el modelo de redes neuronales esta conformado por un conjunto de procesadores simples interconectados a los cuales se les denomina nodos, organizados en capas lo que permite el procesamiento de la información.
2.3
REGRESION LOGÍSTICA
La Regresión Logística (Logistic Regression, LR) es una técnica estadística ampliamente utilizada en los modelos de score crediticio, así como en otras áreas. Esta técnica considera un conjunto de variables independientes o predictoras y una variable dependiente con dos posibles valores (variable dicótoma) ejemplo:
Vota o no vota en unas elecciones
Diagnóstico positivo o negativo en una prueba médica
6 Martha Galicia Romero, nuevos Enfoques de Riesgo de Crédito
23
Las principales características que presenta este modelo se resumen en:
Variables binarias: Identifica la pertenencia del individuo a cada uno de los grupos analizados:
Se identifica con un 1 al individuo que pertenece al grupo cuya probabilidad de pertenencia estimará el modelo.
Se identifica con un 0 al individuo que no pertenece al grupo objeto de análisis.
Variables explicativas: Son las variables que sirven para discriminar entre los grupos y que determinan la pertenencia de un elemento a un grupo u otro. Pueden ser:
Variables cuantitativas que un campo de variación que toma todos los valores reales
Variables cualitativas con distintas alternativas u opciones posibles.
Resultado del análisis: El resultado es un valor numérico que indica la probabilidad de pertenencia de un elemento al grupo que se le asignó el valor 1, es decir, el grupo objeto de análisis.
La función logística es una función de distribución, y como se ha explicado toma los valores entre 1 y 0, tiene la forma de S como se muestra en el siguiente grafico:
24
Ilustración 4. Gráfico Función Logística
Fuente: Introducción al análisis de regresión lineal Elaborado Por: Daniel Flores
La forma general es:
Ecuación 2. Modelo General
z
1 1 e z
Fuente: Introducción al análisis de regresión lineal Elaborado Por: Daniel Flores
25
Donde Z es la probabilidad de la clase recordando que la variable dependiente posee dos valores posibles. Para el caso de un modelo de score, se consideran dos posibles resultados: un cliente con buen hábito de pago y uno moroso. Para complementar,
z
obedece al siguiente modelo matemático:
Ecuación 3. Función Lineal con Parámetros
z w1x1 w2 x2 .... wn xn Fuente: Introducción al análisis de regresión lineal Elaborado Por: Daniel Flores
Donde
Xi
(i = 1,2,..., n) es el conjunto de variables predictoras o conjunto de entrada,
es el punto de intersección y Wi es el conjunto de coeficientes o vector de pesos
W
que ajustan el modelo.
En nuestro caso las variables predictoras o
Wi
podrían ser las siguientes a modo de
ejemplo:
Monto del crédito.
Plazo del crédito.
Días de mora.
Número de Calificaciones E en la base de la Central de riesgo, etc 26
Puesto que el modelo anterior no es lineal respecto a las variables independientes, se considera la inversa de la función logística, que es el logit o logaritmo de la odds o ventaja de que un suceso ocurra, definiéndose ésta como el cociente entre la probabilidad de que ocurra un acontecimiento y la probabilidad de que no ocurra, que es su complementaria, como puede observarse en la siguiente expresión:
Ecuación 4. Función Logística
log[
p ] w1 x1 w2 x 2 ..... wn x n 1 p
Fuente: Introducción al análisis de regresión lineal Elaborado Por: Daniel Flores
En donde p es la probabilidad del resultado de interés, ejemplo: la probabilidad a priori de que un individuo tenga buen hábito de pago o la probabilidad de que un individuo pueda ser moroso o incurrir en fraude.
La formulación anterior facilita la interpretación del modelo y de sus coeficientes, que reflejan, de este modo, el cambio en el logit correspondiente a un cambio unitario en la variable independiente considerada.
27
Ejemplo:
Predecir la probabilidad de tener tarjeta de crédito basado en los ingresos de una persona.
Basado en la siguiente tabla de datos: Rango Ingresos 0-500
#Tarjetas Crédito # Casos 19 6
yi 3,16666667
500-600
0
0
0
600-700
0
0
0
700-800
15
4
3,75
800-900
32
7
4,57142857
900-1000
70
22
3,18181818
1000-1100
163
47
3,46808511
1100-1200
269
56
4,80357143
1200 - 1300
332
58
5,72413793
1300 - 1400
385
59
6,52542373
1400 - 1500
329
43
7,65116279
1500 - 1600
185
26
7,11538462
1600 - 1700
85
9
9,44444444
1700 - 1800
5
2
2,5
1800 - 1900
26
4
6,5
1900 - 2000
0
0
0
2000 - 2100
0
0
0
2100 - 2200
0
0
0
2200 - 2300
2
1
0
2300 - 2400
12
1
12
Fuente: Datos Central de Riesgo Muestra de Ejemplo Elaborado Por: Daniel Flores
28
Variable Dependiente: 1 = Posee
Poseer Tarjeta (previamente categorizada ) 0 = No posee
Variables que no son cuantitativas:
Nivel de Ingresos
Nivel de Ingresos
Variables Dummy
Alto
Medio
Bajo
Alto
1
0
0
Medio
0
1
0
Bajo
0
0
1
Sin Ingresos
0
0
0
Fuente: Tabla de Ejemplo Nivel de Ingreso Elaborado Por: Daniel Flores
Creamos tres variables dicotómicas o categóricas las cuales no van a ser numéricas siendo estas unas variables dicotómicas: basándonos en el nivel de ingresos la primera de ellas sería “Alto”. Quien lo sea tendrá valor 1 en esa variable y valor cero en las variables “Medio” y “Bajo”. Los de nivel de Ingreso Medio tendrán valor 1 en la segunda variable y cero en las otras, etc. No necesitamos crear, en cambio, una variable llamada “Sin Ingresos”: lo será quien tenga valores cero en las tres anteriores. Esta última es la categoría base de las dummy. 29
Una vez realizada esta transformación, estas variables pueden ser incorporadas en una ecuación de regresión: sus valores sólo pueden variar entre cero y uno y sus coeficientes b indicarán, en cada caso, cuanto aumentan o disminuyen los “odds” de probabilidad del evento que se procura predecir cuando una de estas variables pasa de cero a uno.
De lo explicado anteriormente la probabilidad de tener tarjeta de crédito se verá reflejada en la siguiente la función logística
=
Elaborado Por: Daniel Flores
Donde: = Probabilidad de poseer Tarjeta de Crédito = Probabilidad de no poseer Tarjeta de Crédito
Puesto que los datos se encuentran agrupados por el ingreso anual, la variable es la media del grupo.
Así por ejemplo de la tabla indicada anteriormente de 6 personas con un ingreso de entre 0 y 500 dólares su media es de 19/6, observando que hay 20 rangos de ingresos diferentes de la muestra tomada.
30
Obteniendo el siguiente grafico (Ilustración 5)
Ilustración 5. Gráfico de Dispersión 14 12 10 Y
8 6 4 2 0 0
500
1000
1500
2000
2500
3000
Ingresos
Fuente: Microsoft Excel Datos de Ejemplo Elaborado Por: Daniel Flores
Así pues arbitrariamente a manera de ejemplo se determinó que la probabilidad de poseer una tarjeta de crédito basada en los ingresos de una persona sería la siguiente:
=
exp ( 1 + 1 + exp ( 1 +
) 2
)
Fuente: Revisión Bibliográfica Elaborado Por: Daniel Flores
Donde:
es la probabilidad de que un sujeto posea una tarjeta de crédito con un ingreso 31
.
Interpretándose la misma de la siguiente manera: Cuando el ingreso es mayor existe la posibilidad de poseer mayor número de tarjetas de crédito basándonos en la media obtenida con el grupo de ejemplo.
Para lo cual previamente toco realizar una nueva reagrupación de los datos basándonos en la tabla de ejemplo anterior para no obtener valores igual a 0 y verificar que el modelo no sea rechazado.
Rango
#Tarjetas
Ingresos
Credito
0-500
# Casos
yi
19
6
3,16666667
700-800
15
4
3,75
800-900
32
7
4,57142857
900-1000
70
22
3,18181818
1000-1100
163
47
3,46808511
1100-1200
269
56
4,80357143
1200 - 1300
332
58
5,72413793
1300 - 1400
385
59
6,52542373
1400 - 1500
329
43
7,65116279
1500 - 1600
185
26
7,11538462
1600 - 1700
85
9
9,44444444
1700 - 1800
5
2
2,5
1800 - 1900
26
4
6,5
2300 - 2400
12
1
12
Fuente: Datos Central de Riesgo Muestra de Ejemplo Elaborado Por: Daniel Flores
32
Donde se obtuvo la gráfica ajustada en la que se observa la curva logística.
Ilustración 6. Gráfica Resultado Ejemplo Regresión Logística
yi 14 12 10 Y
8 6 yi
4 2 0 0
500
1000
1500
2000
2500
3000
Ingresos
Fuente: Microsoft Excel Datos de Ejemplo Elaborado Por: Daniel Flores
Con la imagen se puede demostrar que los puntos se ajustan a una curva en forma de s en la que se observa que a mayor ingreso existe mayor probabilidad de obtener o poseer mayor número de tarjetas de crédito.
33
CAPÍTULO III
CAPÍTULO III 3.
METODOLOGÍA
En este capítulo trataremos sobre la metodología utilizada para el desarrollo del modelo del scoring y las fases que incluye el modelamiento.
3.1 MODELAMIENTO
El modelo busca determinar el riesgo de no pago o incumplimiento futuro asociado a una operación crediticia, ordenando la población y dando la posibilidad de manejar ofertas comerciales diferenciadas por punto de corte. Dando adicionalmente la facilidad de utilizar múltiples puntos de corte que van desde el rechazo (punto mas bajo) hasta la aprobación inmediata (puntaje más alto otorgando rápidamente el índice de riesgo asociado a esa evaluación).
Las fases que incluyen el proceso de modelamiento son las siguientes:
1. Selección de la muestra 2. Definición de buenos y malos clientes 3. Definición y selección de datos 4. Análisis preliminar de los datos 5. Análisis multivariado 6. Diseño del scorecard 7. Validación del modelo 34
3.1.1 Selección de la muestra
Con la finalidad de desarrollar un sistema scoring es necesario contar con una muestra de clientes que tengan información historial credticia. Este requerimiento genera una dicotomía entre dos elementos de decisión.
La muestra debe incorporar información suficiente acerca de las diferentes conductas de pago de los clientes (buena y mala conducta en los extremos) a fin de identificar las mejores características que lograrán recoger estos comportamientos.
Es aquí justamente donde se genera el conflicto, dado que con esta muestra se necesita definir el criterio de bueno y malo a emplear para encontrar las características relevantes en el modelo. Para esto, en cambio, se necesitará información histórica suficiente y por lo tanto un razonable horizonte temporal.
Para el caso de esta tesis de fijará un período de 72 meses, de información de datos de la base de la Central de Riesgo donde se encuentra información consolidada de los prestamos otorgados por las instituciones reguladas por la misma, contando con información que a la vez recoja una madurez adecuada (comportamiento estable). El período de observación es el tiempo t en el que el investigador decide situarse y observar el desempeño del cliente. Es este período de desempeño o performance el que va a ser empleado para predecir el comportamiento futuro. En el punto de resultado se asigna una calificación (bueno o malo) al cliente con base en un resumen del comportamiento en el periodo de desempeño. De ahí la importancia de madurez de la 35
cartera para no calificar como bueno a un cliente que es malo, pero que no logra denotar un comportamiento porque inicia a pagar su obligación.
Integrada la información de deudores directos del Sistema Crediticio, se puedo obtener una muestra de aproximadamente un 1% de personas registradas en la base de datos integrada de la Central de Riesgo (obteniendo una muestra de las personas que tienen en su documento de identificación el dígito verificador último digito igual a 3).
Adicionalmente se obtuvo una muestra con la información de la central de riesgo de cédulas cuyo último dígito sea igual a 8, esta muestra se utilizó para la validación final del modelo (backtesting).
Para efectos de análisis se tomaron datos reportados por Instituciones Financieras Reguladas por la Superintendencia de Bancos a diferentes fechas desde enero 2002 hasta la ultima fecha de corte que se pudo obtener información reportada por las Instituciones Bancarias a la Superintendencia de Bancos y de la cual se realizará un análisis (backtesting) con la información mencionada hasta enero del 2007 hacia atrás para con esto verificar la probabilidad de predicción que posee el score.
Lo explicado en los anteriores párrafos se refleja en la siguiente tabla donde mostramos el número total registros en la base datos de la Central de Riesgos reportada por las instituciones reguladas por la Superintendencia de Bancos, divididos por el último digito de la cédula de identidad y los primeros dos dígitos de la misma, de las cuales se
36
tomaron muestras aleatorias como se indicó de las cédulas que su último digito termina en 3 y en 8.
Tabla 2. Número Registros por primeros y últimos dígitos de la Cedula
Fuente: Direccion Nacional del Registro Civil Elaborado Por: Daniel Flores
37
3.1.1.1
Período de performance
Como se mencionó anteriormente es importante escoger un período que reflejando la actual población de clientes muestre un comportamiento estable de cartera. Un indicador útil es la tasa de morosidad.
tasademorosidad
# demalosclientes # totaldeclientes
Donde:
# demalosclientes : Es el número de clientes malos # totaldeclientes : Es el total de clientes
De tal forma que el indicar representa el porcentaje de clientes cuyo crédito se encuentra en estado de vencido en relación con el total de clientes.
La tasa de morosidad se construye por período de cosecha (fecha de venta de las operaciones de crédito) y tiene por objeto mostrar en forma gráfica y por mes de colocación la relación clientes malos sobre total de clientes7, con el fin de señalar los períodos en que esta razón se estabiliza como equivalentes a un comportamiento estable de la cartera.
Un periodo se considera como estable en la medida que la razón de la cosecha t presente pequeñas variaciones en relación a la cosecha t-1 y t+1. En términos estadísticos se
7
Credit Scoring and its Aplication, Lyn Tomas, David Edelman and Jonathan Crook
38
puede argumentar que se necesita, durante la ventana temporal elegida, que la razón tasa de morosidad siga una distribución uniforme. La elección de periodos con tasas de morosidad decrecientes no implica necesariamente una mejora en el comportamiento de la cartera, puede ser que estas cosechas por ser cercanas a la fecha actual estén reflejando carteras poco maduras y por ende no comparables con otros periodos de análisis. A este tipo de estudios se los conoce como análisis de cosechas.
El siguiente esquema sintetiza la importancia del proceso de selección de la muestra, un acertado periodo de performance, con lo cual aseguramos que la definición de bueno y malo permita modelar un adecuado comportamiento de pago en el futuro.
Ilustración 7. Esquema de Selección de la Muestra
Fuente: Credi Report Buro de Información Creditica Elaboración Credit Report Buro de Información Crediticia
39
Así también que en el esquema arriba expuesto se puede observar que identificando las características del sujeto en el punto de observación basado en la información histórica que se posee se definirá si este sujeto es bueno o malo y a su vez se podrá verificar que tan predictor es el mismo al verificar su comportamiento basado en el score con información a fechas de corte de posteriores.
3.1.2 Definición de buenos y malos clientes
La implementación de un modelo credit score requiere la definición de buen y mal cliente. Establecer que un cliente es malo no implica necesariamente que todos los restantes sean buenos. En el camino se pueden encontrar al menos dos definiciones adicionales. Los 'indeterminados' o aquellos casos que no se pueden definir como buenos o como malos, y los ' experiencia insuficiente' o aquellos casos en que la cuenta, producto de su poco o corto uso, no se puede definir como buena sin caer en un juicio prematuro.
Resulta evidente que la definición escogida no va a afectar la metodología empleada para calificar al cliente. (esta asume que la definición crea una partición). Sin embargo, la forma como definamos buenos y malos sí va a tener efecto sobre los resultados del scoring.
Cuando se habla de malos se busca describir al conjunto de clientes, que dada la experiencia no quiere seleccionar para su actividad intermediadora. Para el caso de los
40
modelos de riesgo, usualmente esta definición hace alusión a esa cartera que de conocer su comportamiento no se hubiese aceptado.
De aquí se sigue que la definición de bueno y malo se basará prácticamente en el comportamiento de pago de los clientes: mora máxima histórica, mora promedio, contadores de mora (número de veces que ha caído en mora o reincidencia). Este criterio de selección es mucho más deseable pues asocia el criterio de bondad a una tasa de rendimiento, decidiendo la elección de bueno o malo con base en la máxima pérdida que se está dispuesto a asumir. Es evidente que estas definiciones pasan por un grado de subjetividad siendo tan conservadoras como lo quiera la entidad o viceversa.
3.1.3 Definición y selección de datos
Como se mencionó inicialmente una de las dificultades que puede afrontar un modelo scoring es la escasez de una buena base de datos o incluso la ausencia de esta.
Es importante, por ende, contar no sólo con una base de datos sino con un sistema de información adecuadamente construido con una lógica de almacenamiento de datos que permita contar con una codificación o representación numérica de las características cualitativas y cuantitativas que servirán para la aplicación de técnicas estadísticas. La definición y selección de los datos a incluir en el modelo requiere identificar las escalas de medida que pueden presentarse.
41
Existen dos grupos de variables a estudiar: las cualitativas y las cuantitativas.
Las primeras son aquellas que no aparecen en forma numérica, sino como categorías o atributos (género, actividad económica, vivienda) y sólo pueden ser nominales u ordinales.
Las variables cuantitativas, en cambio son aquellas cuyas categorías pueden expresarse numéricamente. Su naturaleza numérica permite un tratamiento estadístico más elaborado debido a las operaciones matemáticas que permiten. Estas variables pueden ser discretas o continuas. Las primeras son aquellas cuyas categorías sólo pueden tomar valores enteros. Por ejemplo la variable número de cargas familiares, no existe un cliente que pueda tener 2,3 cargas familiares. Las segundas son aquellas cuyas categorías pueden fraccionarse según cualquier entero, por ejemplo la variable salario.
Una vez definido los tipos de datos con los que se puede trabajar se procede a seleccionar la información en función de las características disponibles.
De lo expuesto se definió que esta tesis por tratarse de un modelo para deudores del sistema financiero ecuatoriano las variables a utilizar son las de un modelo de comportamiento, no de originación por lo tanto se han escogido las siguientes variables de alta importancia y sus combinaciones que mide el comportamiento de un determinado sujeto dentro del periodo de performance las cuales se muestran en la tabla siguiente:
42
COD_TIPO_ID C C C C C C C
COD_ID_SUJE TO 1714738331 1714738331 1714738331 1714738331 1714738331 1714738331 1714738331
NUM_OPERA FEC_OPERACI VAL_TOTAL_X VAL_TOTAL_ VAL_VENCID VAL_DEM_JU VAL_CART_C COD_CALIFIC FEC_CORTE VAL_SALDO VAL_TOTAL CION ON V NDI O DICIAL ASTIGADA ACION 01100017002529 2 9/01/2003 30/06/2009 1570,59 1570,59 1570,59 0 0 0 0 A 4938493456724018 30/06/2009 30/06/2009 16,65 16,65 16,65 0 0 0 0 A 5545119008469610 30/06/2009 30/06/2009 127,33 127,33 127,33 0 0 0 0 A 5545119008469610 30/06/2009 30/06/2009 51,42 51,42 51,42 0 0 0 0 A 01100017002529 2 9/01/2003 31/05/2009 1642,37 1642,37 1642,37 0 0 0 0 A 4938493456724018 31/05/2009 31/05/2009 16,65 16,65 16,65 0 0 0 0 A 4938493456724018 31/05/2009 31/05/2009 97,09 97,09 97,09 0 0 0 0 A
VAL_VENC_0 VAL_VENC_1 VAL_VENC_2 VAL_VENC_3 VAL_VENC_6 VAL_VENC_9 VAL_VENC_1 VAL_VENC_2 VAL_VENC_3 VAL_XVENCE VAL_XVENCE VAL_XVENCE VAL_XVENCE _1 _2 _3 _6 _9 _12 2_24 4_36 6 R R_1_3 R_3_6 R_6_12 0 0 0 0 0 0 0 0 0 72,39 73 222,73 462,78 0 0 0 0 0 0 0 0 0 16,65 0 0 0 0 0 0 0 0 0 0 0 0 17,51 35,68 55,18 18,96 0 0 0 0 0 0 0 0 0 2,14 4,02 5,43 8,97 0 0 0 0 0 0 0 0 0 70,17 70,92 217,34 456,05 0 0 0 0 0 0 0 0 0 16,65 0 0 0 0 0 0 0 0 0 0 0 0 97,09 0 0 0 VAL_XVENCE VAL_OPE_CU R_12 PO 739,69 3359,97 0 500 0 360 30,86 360 Fuente: Datos Central de Riesgo Muestra de Ejemplo Elaborado Por: Daniel Flores
43
Las mismas que están definidas por:
1.
Número de Operaciones Actuales e Históricas que posee el sujeto a calcular el scoring, esto es cuantos prestamos un sujeto obtenido a través de instituciones financieras dentro de un rango de tiempo.
2.
Cantidad de Calificaciones E que de acuerdo a la Superintendencia de Bancos esta se clasifica de la siguiente manera:
Tabla 3. Periodo Morosidad en Meses
CALIFICACION
PERIODO DE MOROSIDAD EN MESES TIPO DE RIESGO MAYOR A
HASTA
Riesgo Normal
----
Uno
Riesgo Potencial
Uno
Tres
Deficiente
Tres
Seis
Dudoso Recaudo
Seis
Nueve
Perdida
Nueve
En adelante
Fuente: Superintendencia de Bancos y Seguros Elaborado Por: Daniel Flores
3.
Saldo por vencer de 1 a 30 días.- Es el valor por vencer que consiste en la sumatoria de todos los dividendos por pagar en el plazo mencionado.
44
4.
Saldo por vencer más de 1 a 3 meses.- Es el valor por vencer que consiste en la sumatoria de todos los dividendos por pagar en el plazo mencionado
5.
Saldo por vencer más de 3 a 6 meses.- Es el valor por vencer que consiste en la sumatoria de todos los dividendos por pagar en el plazo mencionado
6.
Saldo por vencer más de 6 a 12 meses.- Es el valor por vencer que consiste en la sumatoria de todos los dividendos por pagar en el plazo mencionado
7.
Saldo por vencer más de 12 meses.- Es el valor por vencer que consiste en la sumatoria de todos los dividendos por pagar en el plazo mencionado
8.
Valor que no devenga intereses de 1 a 30 días.- Es el valor que no genera interés cuando una operación crediticia se encuentra vencida en el rango de tiempo indicado.
9.
Valor que no devenga intereses más de 1 a 3 meses.- Es el valor que no genera interés cuando una operación crediticia se encuentra vencida en el rango de tiempo indicado.
10. Valor que no devenga intereses más de 3 a 6 meses.- Es el valor que no genera interés cuando una operación crediticia se encuentra vencida en el rango de tiempo indicado.
11. Valor que no devenga intereses más de 6 a 12 meses Es el valor que no genera interés cuando una operación crediticia se encuentra vencida en el rango de tiempo indicado.
45
12. Valor que no devenga intereses más de 12 meses.- Es el valor que no genera interés cuando una operación crediticia se encuentra vencida en el rango de tiempo indicado.
13. Valor vencido de 1 a 30 días.- Es el valor total vencido que consiste en la sumatoria de todos los dividendos que están en mora en el rango de tiempo indicado.
14. Valor vencido más de 1 a 2 meses.- Es el valor total vencido que consiste en la sumatoria de todos los dividendos que están en mora en el rango de tiempo indicado.
15. Valor vencido más de 2 a 3 meses.- Es el valor total vencido que consiste en la sumatoria de todos los dividendos que están en mora en el rango de tiempo indicado.
16. Valor vencido más de 3 a 6 meses Es el valor total vencido que consiste en la sumatoria de todos los dividendos que están en mora en el rango de tiempo indicado.
17. Valor vencido más de 6 a 9 meses.- Es el valor total vencido que consiste en la sumatoria de todos los dividendos que están en mora en el rango de tiempo indicado.
18. Valor vencido más de 9 a 12 meses.- Es el valor total vencido que consiste en la sumatoria de todos los dividendos que están en mora en el rango de tiempo indicado.
19. Valor vencido más de 12 a 24 meses Es el valor total vencido que consiste en la sumatoria de todos los dividendos que están en mora en el rango de tiempo indicado.
46
20. Valor vencido más de 24 a 36 meses Es el valor total vencido que consiste en la sumatoria de todos los dividendos que están en mora en el rango de tiempo indicado.
21. Valor vencido más de 36 meses.- Es el valor total vencido que consiste en la sumatoria de todos los dividendos que están en mora en el rango de tiempo indicado.
22. Valor vencido de comisión Es el valor total vencido que consiste en la sumatoria de todos los dividendos que están en mora en el rango de tiempo indicado.
23. Valor en demanda judicial.- Es el valor de una operación que se encuentra en proceso de Demanda Judicial por parte de la institución financiera.
24. Cartera castigada.- Es el valor establecido como dudoso de recaudar por parte de la Institución Financiera.
25. Edad.- La edad en años de la persona a consultar el score, en este caso nos encontramos con un problema ya que no de todos las personas con crédito en el sistema ecuatoriano se posee la edad o a su vez depende de la calidad de la información que poseamos ya que esta puede no ser tan confiable y nos encontremos con valores inesperados como se indica en la ilustración 8.
47
Ilustración 8. Distribución de los Sujetos por Rangos de Edad
Fuente: Instituciones Financieras Ecuatorianas Elaborado Por: Daniel Flores
3.1.4 Análisis preliminar de la Muestra
En un principio todas las variables existentes en la base de datos deben ser seleccionadas, e incluso analizadas para que a partir de estas construir nuevas variables denominadas variables simples o de combinaciones de características como se describe en la ilustración 9.
48
Ilustración 9. Transformación de una variable
Z4
X2
La variable fecha de apertura de la operación se puede transformar en la fecha en la que por primera vez fue reportada en la Central De Riesgo.
Elaborado Por: Daniel Flores
Así pues la ilustración 9 explica como una variable de entrada Z4 como por ejemplo la fecha de nacimiento se puede convertir en la edad siendo esta una variable de salida X2.
Además en este análisis es necesario decidir sobre un esquema de segmentación para definir si se divide la muestra en subgrupos siempre y cuando estas tengan información especial o distintiva, en el caso de esta tesis no va a ser necesario ya que la muestra que se posee es homogénea.
49
3.1.5 Análisis Multivariado En esta etapa se validará la calidad y cantidad de información que se posee a través de un análisis exhaustivo de los mismos los cuales se dividen en:
3.1.5.1 Análisis Univariado
El objetivo de esto es validar la calidad por cada variable en la muestra seleccionada.
Este estudio cumple con los siguientes propósitos:
Verificar con la integridad de los datos Detección de valores extremos Tratamiento por datos faltantes
3.1.5.2 Análisis Bivariado
El objetivo de este análisis es evaluar la relación entre las variables independientes y las variables dependientes por ejemplo
Variable Dependiente: Variable Dicotómica (1 Si es mayor a 60 dias de vencido en un préstamo otorgado por una institución financiera o 0 en caso contrario) 50
Variables Independientes Monto del préstamo otorgado, que tipo de crédito (vivienda, consumo, microcrédito, etc), montos vencidos, etc.
Es así que a modo de ejemplo en las 2 siguientes tablas se puede identificar que se uso la combinación de las variables el valor por vencer a las cuales se les realizó una suma, el valor en mora siempre y cuando sea mayor a 2 meses, y un conteo de las operaciones las que cumplan con las dos condiciones anteriores.
De los cuales se obtuvo los coeficientes de media y comparación, permitiendo analizar el comportamiento actual y pasado, verificando que estos valores se encuentran dentro de los rangos óptimos definidos para el modelamiento del score.
Así también en la segunda tabla se realiza una combinación de variables como son los valores de cartera castigada y valores en demanda judicial a los cuales se les suma dentro de un rango de tiempo de los últimos 24 meses que se tiene en la información de la Central de Riesgo.
Y de igual manera se obtuvieron los coeficientes y se observó que los ratios o coeficientes de medida y comparación se encuentran dentro de los parámetros aceptables.
51
Ejemplo: ¿Ha tenido una o más operaciones con mora mayor o igual a 2 meses en los últimos 24 meses, pero el total de deuda por vencer es mayor o igual a 0.33333 del deuda total tomando en cuenta los últimos 3 meses? La variable se denominara rfp3_2_cd_con Bivariada (sólo buenos y malos)
Población Total
rfp3_2_cd_con BMRatio
MBRatio
Total
Malo
Tasa de Malos
%Total
Total
%Total
0 (no)
1.17
0.85
77,123
18,143
23.5%
94.6%
77,123
94.6%
1 (sí)
0.09
10.56
4,379
3,469
79.2%
5.4%
4,379
5.4%
Total de deuda en cartera castigada o demanda judicial en los últimos 24 meses. La variable se denominará deuda_castplus Bivariada (sólo buenos y malos)
Población Total
deuda_castplus BMRatio
MBRatio
Total
Malo
Tasa de Malos
%Total
Total
%Total
0
1.38
0.73
74,671
15,485
20.7%
91.6%
74,671
91.6%
0 0) set @n_rdt1s3 = @n_deuda_total_1/@n_deuda_total_3 else set @n_rdt1s3 = 0 if (@n_deuda_por_vencer_3 = 0) set @n_rfp3 = 0 else if (@n_deuda_total_3 = 0) set @n_rfp3 = 1 else if (@n_deuda_por_vencer_3/@n_deuda_total_3 > 1) set @n_rfp3 = 1 else set @n_rfp3 = @n_deuda_por_vencer_3/@n_deuda_total_3 if (@n_deuda_por_vencer_12 = 0) set @n_rfp12 = 0 else if (@n_deuda_total_12 = 0) set @n_rfp12 = 1 else if (@n_deuda_por_vencer_12/@n_deuda_total_12 > 1) set @n_rfp12 = 1 else set @n_rfp12 = @n_deuda_por_vencer_12/@n_deuda_total_12 /* Definicion de b_w_curr */ /* Constante de tolerancia usada: u$s 10 */ set @i_tol = 10 set @i_b_wcurr = 0 if (@n_deuda_judicial_1 > @i_tol) set @i_b_wcurr = 10 if (@n_deuda_castigada_1 > @i_tol) set @i_b_wcurr = 9 if (@n_deuda_vencido_99_1 > @i_tol) set @i_b_wcurr = 8 if (@n_@n_deuda_vencido_36_1 > @i_tol) set @i_b_wcurr = 7 if (@n_deuda_vencido_24_1 > @i_tol) set @i_b_wcurr = 6 if (@n_deuda_vencido_12_1 > @i_tol) set @i_b_wcurr = 5 if (@n_deuda_vencido_6_1 > @i_tol) set @i_b_wcurr = 4 if (@n_@n_deuda_vencido_3_1 > @i_tol) set @i_b_wcurr = 3 if (@n_deuda_vencido_2_1 > @i_tol) set @i_b_wcurr = 2 if (@n_deuda_vencido_1_1 > @i_tol) set @i_b_wcurr = 1 -- else /* Definicion de @n_b_avgmo */ if (@i_copen_12_mas > 0 ) set @n_b_avgmo = @i_mopen/@i_copen_12_mas else set @n_b_avgmo = 0 if (@s_CodDomicilio is null or @s_CodDomicilio ='0' or @s_CodDomicilio ='' or @s_CodDomicilio ='ý¦á¯_ú¨_Ã') --or not_number or invalid set @i_NumDomicilio =-1 else set @i_NumDomicilio = convert(float,@s_CodDomicilio) /* Definición de @s_scorecard */ if (@n_d24m2a10 = 0) set @s_scorecard = 'EC' else if (@n_d24m2a10 > 0 and @n_d_2a10 = 0) set @s_scorecard = 'PD' else if (@n_d24m2a10 > 0 and @n_d_2a10 > 0) set @s_scorecard = 'CD' else set @s_scorecard = 'ERR'
95
/* Definición de variables dummies */ if (3.7
View more...
Comments