VAR_QUAL

July 20, 2019 | Author: zscdedes | Category: Loi de probabilité, Régression logistique, Régression linéaire, Probabilité, Variance (mathématiques)

Share Embed Donate

Report this link

Short Description

Download VAR_QUAL...

Description

Ecole Doctor Doctorale ale Marchés Marchés et et Organisation Organisation : Droit ± Economi Economie e ± Gestion Formation d¶Économétrie avec Stata

Les variables qualitatives

Lionel Nesta

Plan du cours : première partie 1. Les variables qualitatives explicative explicativess 1.

Création et gestion des variables qualitatives quali tatives sous STATA

2. Les variables muettes dans le modèle MCO

2. Les modèles à variables qualitative dépendante 1.

Le modèle de probabilité linéaire

2. L¶estimation par le maximum de vraisemblance 3. La régression logistique

Plan du cours : deuxième partie 3. La régression logistique multinomiale 1.

Simple

2. Ordinale

4. Les modèles de comptage 1.

Le modèle de Poisson

2. Le modèle négatif binomial

Les variables qualitatives explicatives

1. Les variables qualitatives explicatives



Les variables qualitatives



Les variables muettes (les dummies)



Créer une variable muette avec Stata



Interprétation des coefficients dans le modèle M CO



Les effets croisés entre variables muettes et continues

Les variables qualitatives 







Il s¶agit de variables qui donnent des informations sur des caractéristiques discrètes. Le nombre de catégories prises par les variables qualitatives est en général petit. Ces valeurs peuvent être numériques mais chaque nombre indique une qualité; une caractéristiques. Une variable discrète peut avoir plusieurs modalités 

Deux modalités : homme ou femme



Trois modalités : nationalité (française, allemande, anglaise)



Plus de trois modalités : secteur (automobile, chimie, bureautique, métallurgie, etc.)

Les variables qualitatives 



Il existe plusieurs manières de coder une variable qualitative à n modalités 

Codage par une seule variable catégorielle



Codage par n - 1 variables muettes

Une variable muette ou indicatrice est une variable qualitative qui prend les valeurs 0 ou 1. 



On parle de variable binaire ou dichotomique . En Anglais, on parle de « dummy variables », ou « dummies »

Les variables qualitatives 

Codage par une seule variable catégorielle Deux modalités : On crée une variable catégorielle « genre » qui est égale à 1 si l¶individu est une femme, 2 si l¶individu est un homme . Trois modalités : On crée une variable « nationalité » qui est égale à 1 si l¶individu est français, 2 si l¶individu est allemand, 3 si l¶individu est anglais. Variable à n modalités : On crée une variable « nationalité » qui est égale à 1 si l¶individu est français, 2 si l¶individu est allemand, 3 si l¶individu est anglais, etc. 





Le codage d¶une variable catégorielle nécessité l¶utilisation d¶un label pour savoir à quelle modalité se réfère ledit numéro .

Labéliser des variables 

Labéliser les variables est intéressant, fastidieux, ennuyeux.



Conséquence importante sur l¶interprétation des résultats

label variable. Décrit une variable qualitative ou quantitative label variable asset "real capital" label define. Décrit les valeurs (modalité) d¶une variable qualitative label define firm_type 1 "biotech" 0 "Pharma" label values Applique le label défini précédemment label values type firm_type

Exemple de labellisation ************************************************************************************* *******

CREATION DES LABELS INDUSTRIES

*********

*************************************************************************************

egen industrie = group(isic_oecd) #delimit ; label define induscode

1 "Text. Habill. & Cuir"

2 "Bois" 3 "Pap. Cart. & Imprim." 4 "Coke Raffin. Nucl ." 5 "Chimie" 6 "Caoutc. Plast." 7 "Aut. Prod. min." 8 "Métaux de base" 9 "Travail des m étaux" 10 "Mach. & Equip." 11 "Bureau & Inform ." 12 "Mach. & Mat. Elec." 13 "Radio TV Telecom ." 14 "Instrum . optique" 15 "Automobile" 16 "Aut. transp ." 17 "Autres"; #delimit cr label values industrie i nduscode

Exercice 1. Téléchargez la base var_qual.dta

2. Labélisez la variable firm_type 3. Définissez un label pour la variable firm_type, sachant que la modalité 1 qualifie les grandes firmes pharmaceutiques et la modalité 2 qualifie les firmes de biotechnologie .

Les variables qualitatives muettes 



Codage par des variables muettes

Deux modalités. On crée une variable muette « femme » qui est égale à 1 si l¶individu est une femme, 0 sinon. On crée une variable muette « homme » qui est égale à 1 si l¶individu est une femme, 0 sinon. Or une des deux variables muettes est redondante. A partir du moment où femme = 0, alors homme = 1. 







Autrement dit pour une variable catégorielle à deux modalités, on a besoin d¶une seule variable muette seulement pour avoir la même information.

Les variables qualitatives muettes  

Codage par n variables muettes

Exemple avec trois modalités On crée trois variables muettes, la première étant est égale à 1 si l¶individu est français, 0 sinon (variable appelé « FRA »). la deuxième modalité est égale à 1 si l¶individu est allemand, 0 sinon (variable appelé « DEU »). la troisième modalité est égale à 1 si l¶individu est anglais, 0 sinon (variable appelé « GBR »). Or une des trois variables muettes est redondante. A partir du moment où FR A = 0, DE U = 0, alors GBR = 1. 







Pour une variable à n modalités, on crée n - 1 variables muettes, chacune représentant une modalité particulière de la variable.

Créer une variable muette sous stata 

Générer une variable muette à partir d¶une variable qualitative.   



generate DEU = 0

replace DEU = 1 if country==³GERMANY´ generate FRA = country==³FRANCE´

Générer une variable muette à partir d¶une variable qualitative.   

generate GE = 1 if taille > 100

replace GE =0 if taille < 101 generate GE = taille > 100

Créer une variable muette sous stata 



Si vous disposez d¶une variable qualitative à n modalités, il peut être fastidieux de créer n -1 variables muettes La fonction tabulate a une extension très pratique, puisqu¶elle générera autant de variables muettes qu¶il y a de modalités d¶une variable catégorielle . 

tabulate varcat, gen(v_)



tabulate country, gen(c_)



Va créer la variable muette c_ 1 pour le premier parti, c_2 pour le second, c_3 pour le troisième, etc.

Interprétation des coefficients devant les variables muettes 



Dans la régression linéaire, le coefficient estimé s¶interprète comme la variation de la variable dépendante suite à la variation d¶une unité de la variable explicative, toute chose égale par ailleurs . Soit le modèle de fonction de production de connaissance y ! E  Fv biotech  u

où « y » est le nombre de brevet produit par les firmes et « biotech » est une variable muette égale à 1 pour les firmes de biotechnologie .

Interprétation des coefficients devant les variables muettes 

Si la firme est une firme de biotechnologie, la variable muette « biotech » est égale à l¶unité, donc : Ö 1! E Ö  Fv Ö  FÖ yÖ ! E



Si la firme est une firme pharmaceutique, la variable muette « biotech » est égale à 0, donc : Ö  FÖ v 0 ! E Ö yÖ ! E

Interprétation des coefficients devant les variables muettes 

Quand

la variable explicative est muette, le coefficient s¶interprète comme variation de la variable dépendante quand la variable muette est égale à 1, relativement à une situation où la variable muette est égale à 0 . 

Pour deux modalités, je dois introduire une variable muette.



Pour trois modalités, je dois introduire deux variables muettes.



Pour n modalités, je dois introduire (n-1) variables muettes.

Exercice 1. A partir de la base var_qual .dta, régressez le modèle PAT ! E  Fv biotech  u

2. Prédisez la production de brevet pour les firmes de biotechnologie et les firmes pharmaceutiques 3. Etablissez les statiques descriptives de PAT pour chacun des types de firme avec la commande table 4.

Qu¶observez-vous

?

Interprétation des coefficients devant les variables muettes 



Pour la forme semi logarithmique (log Y), le coefficient  est interprété comme une approximation du pourcentage de variation de Y pour une variation de 1 de la variable explicative. Cette approximation est acceptable quand  est petit ( < 0.1). Quand  est grand (  0.1), alors le pourcentage exact de la différence selon les évènements 0 ou 1 est : 100 × (e ± 1)

Application 1: modèle de base La fonction de production de connaissances PAT ! f (RD,SIZE) PAT ! A  RDF1  SIZEF2  expu  pat ! E  F1  rd F2  size

u

Application 1: modèle de base

. reg pat rd size Source Model Residual Total

SS

df

MS

114 .44 7939

2

5 7.22 396 96

594 .078634

454

1 .30854 3 25

708 .52 6573

pat

Coef.

rd size _cons

.6904159 -.3995841 -.7080941

45 6

Number of obs F( 2, 454) Prob > F R-squared Adj R-squared Root MSE

1.55 37863 5

Std. Err.

= = = = = =

45 7 4 3.73 0. 0000 0. 1615 0. 157 8 1. 1439

t

P>|t|

[95% Conf. Interval]

.08 76424

7. 88

0 .000

.518180 7

.86 2651

.0731757

-5 .4 6

0.000

-.54 33891

-.255 7791

.389 3776

-1 .82

0 .070

-1.4733

.05 7 1119

Application 2: Changement de modèle La fonction de production de connaissances PAT ! f (RD,SIZE) F1

RD ¸ ¨ F PAT ! A  ©  SIZE  expu  ¹ ª SIZE º RD ¸ ¨ pat ! E  F1  log  © SIZE ¹  F2  size ª º 2

u

Application 2: Changement de modèle

. reg pat rdi size Source

SS

df

MS

Model Residual

114 .44 7939 594 .078634

2 454

5 7. 2239 696 1 .3 0854 325

Total

708 .52 6573

45 6

1.55 378 635

pat

Coef.

rdi size _cons

.6904159 .2908318 -.7080941

Std. Err. .08 76 424 .033395 .389 3776

t 7.88 8 .71 - 1.82

Number of obs F( 2, 454) Prob > F R-squared Adj R-squared Root MSE

= = = = = =

457 43.73 0 .0000 0 .1615 0 .1578 1 .1439

P>|t|

[95% Conf. Interval]

0 .000 0 .000 0 .070

.5181807 .22520 38 -1.4733

.8 62651 .35 64598 .05 71119

Application 3: Variable muette La fonction de production de connaissances PAT ! f (RD,SIZE, BIO) F1

RD ¸ ¨ F PAT ! A  © SIZE   exp F3  BIO  u  ¹ ª SIZE º rd ¸ ¨  F2  size  F3  BIO  u pat ! E  F1  © ¹ ª size º 2

Application 3: Variable muette

. reg pat rdi size biotech Source

SS

df

MS

Model Residual

214 .77 0599

3

71. 590199 7

49 3.7559 74

45 3

1.0899 6 904

Total

708 .52 6573

45 6

1.55 378 635

pat

Coef.

rdi size biotech _cons

.510 6912 .5768994

Std. Err.

Number of obs F( 3, 453) Prob > F R-squared Adj R-squared Root MSE

= = = = = =

45 7

65.68 0 .0000 0 .303 1 0 .2985 1.044

t

P>|t|

[95% Conf. Interval]

.0821529

6.22

0 .000

.34924 31

.6721 392

.042 6386

1 3.53

0.000

.49 31055

.660693 4

1.67352 3

.1744 372

9 .59

0 .000

1 .330716

2.01 6329

-5.7451 33

.633991

- 9 .0 6

0.000

-6.9910 61

-4.499204

Application 3: Variable muette Ö  FÖ 2  size  FÖ 3 Biotech : E

Patent ln(PAT )

pente ! FÖ 2

FÖ 3 EÖ  FÖ 3

pente ! FÖ 2

Ö  FÖ 2  size Pharma : E

EÖ size

Application 4: Variable d·interaction La fonction de production de connaissances PAT ! f (RD,SIZE, BIO) F1

¨ RD ¸  SIZEF  exp F  BIO  F  BIO v size  u    3 4  ¹ ª SIZE º rd ¸ ¨ ! E pat F1  ©  F 2  ze  F 3 siBIO  F 5  BIO v size  u ¹ ª size º

PAT ! A  ©

2

Application 4: Variable d·interaction . reg pat rdi size biotech size_bio Source

SS

df

MS

Model Residual

219 .20 7228 489 .319 346

4 452

54 .80180 7 1 .0825 6492

Total

708 .52 6573

456

1.55 378635

pat

Coef.

rdi size biotech size_bio _cons

.4881356 .650 3855 3.950866 -.168899 7 -6.92 359

Std. Err. .082 6 28 .05588 72 1.138292 .08 343 14 .85911 61

t

5.91 11 .64 3.47 -2.02 - 8. 0 6

Number of obs F( 4, 452) Prob > F R-squared Adj R-squared Root MSE

P>|t|

0 .000 0 .000 0.001 0 .044 0.000

= = = = = =

45 7 50.62 0.0000 0.3094 0.3033 1.0405

[95% Conf. Interval] .325 7 528 .5405545 1 .713864 -.3328 612 -8.611947

.650518 3 .76 021 65 6.18 7868 -.0049382 -5.2352 32

Application 4: Variable d·interaction Patent ln(PAT)

Ö  FÖ 2  size  FÖ 3 Biotech : E

pente ! FÖ 2

FÖ 3 EÖ  FÖ 3

pente ! FÖ 2

 FÖ 4  BIO v size 

 FÖ 4  BIO v size  Ö  FÖ 2  size Pharma : E

EÖ Size

Les modèles à variable qualitative dépendante

Le modèle de probabilité linéaire

Le modèle de probabilité linéaire 

Quand la variable qualitative dépendante est binaire ou

dichotomique (0/1), le modèle OLS est appelé modèle de probabilité linéaire (par exemple : Y=1 si l¶entreprise innove, Y=0 sinon).

Y ! F0  F1x1  F2 x 2  u 

Y ne prend que 2 valeurs (0; 1). Comment interpréter  j? Si E(u|X)=0 alors:

E(Y | X) ! F0

 F1x1  F2 x 2

Le modèle de probabilité linéaire Y suit une distribution de Bernoulli d¶espérance P. Ce modèle est donc dit MPL car son espérance conditionnelle E(Y|X) peut être interprétée comme la probabilité conditionnelle que l¶évènement se produise compte tenu des valeurs de X :



E( Y | X ) ! Pr ( Y ! 1| X)

1  E( Y | X) ! Pr (Y ! 0 | X) 

 mesure de combien est modifié la probabilité de succès quand X change d¶une unité (X=1)

(E(Y | X) (Pr (Y ! 1| X) F! ! ! (Pr (Y ! 1| X) (X (X

Les limites du modèle de prob. linéaire ( 1) L¶absence de normalité des erreurs 

OLS6 : Le terme d'erreur est indépendant des variables indépendantes et suit une loi Normale de moyenne nulle et de variance W2

u  Normal(0, W 2 ) 

Les erreurs étant le complémentaire par rapport à 1 de la probabilité conditionnelle, elles suivent une distribution de Bernoulli, et non normale.

Les limites du modèle de prob. linéaire ( 1) L¶absence de normalité des erreurs    5 .    2

   2

   5 .   y    t    i       1   s   n   e    D       1

   5 .

   0

-1

-. 5

Residuals

0

.5

Les limites du modèle de prob. linéaire (2 ) L¶hétéroscédasticité des erreurs 

OLS5 : La variance du terme d'erreur est la même, quelle que soiet les valeurs des variables indépendantes

Varu x1 , x 2 ,, x k  ! W 2 

Si le terme d¶erreur suit une distribution de Bernoulli, alors sa variance dépend de X:

Var (u) ! P(1  P) ! E(Y | X)  (1  E(Y | X))

Les limites du modèle de prob. linéaire (2 ) L¶hétéroscédasticité des erreurs    5 .

   0   s    l   a   u    d    i   s   e

      R

   5 .       -

      1       -

.4

.6

.8

Fitted values

1

1. 2

Les limites du modèle de prob. linéaire (3 ) Des prédictions aberrantes 

Par définition, une probabilité est toujours comprise entre 0 et 1, si bien que :

0 e E Y | X  e 1 

Or OLS ne garantit en rien cette condition :  

On peut imaginer des prédictions en dehors de [0;1] L¶effet marginal reste constant en permanence car P = E(Y|X) croit linéairement avec X. Ceci n¶est pas réaliste (ex: la probabilité d¶avoir un enfant en fonction du nombre d¶enfants dans la fratrie).

Les limites du modèle de prob. linéaire (3 ) Des prédictions aberrantes    3

   2

Mauvaises prédictions

  y    t    i   s   n   e    D

      1

   0

.4

.6

.8 Fitted values

1

1. 2

Les limites du modèle de prob. linéaire (4 ) Un coefficient de détermination faible





Les valeurs observées de Y sont égales à 1 ou 0, alors que les valeurs prédites appartiennent à lµensemble des réels compris enter 0 et 1 : [0;1].

Si on confronte graphiquement les valeurs prédites avec les valeurs observées, l¶ajustement linéaire apparaît systématiquement faible.

Les limites du modèle de prob. linéaire (3 ) Des prédictions aberrantes       1

   8 .   n   o    i    t   a   6 .   v   o   n   n    i   y   m    4   m .   u    D

Mauvaises prédictions qui baissent le R2

   2 .

   0

.4

.6

.8 Fitted values

1

1. 2

Les limites du modèle de probabilité linéaire 1.

L¶absence de normalité des erreurs

2.

L¶hétéroscédasticité des erreurs

3.

Les prédictions aberrantes

4.

La faible valeur du coefficient de détermination

u  Normal(0, W 2 )

Varu x1 , x 2 , , x k  ! W2

0 e E Y | X  e 1

Surmonter les limites du MPL 1.

L¶absence de normalité des erreurs  Augmenter la taille de l¶échantillon

2.

L¶hétéroscédasticité des erreurs  Effectuer des estimations robustes

3.

Les prédictions aberrantes  Effectuer des estimations contraintes ou non linéaires

4.

La faible valeur du coefficient de détermination  Ne pas utiliser le R2 pour estimer la qualité de l¶ajustement

Le MPL et ses utilisations 

1.

Malgré ses limites, le MPL est assez largement utilisé : Parce qu¶il constitue une base exploratoire dont les coefficients sont faciles à interpréter .

2. Parce qu¶il marche plutôt bien pour les valeurs des variables indépendantes qui sont proches de la moyenne des données. 3. Parce qu¶à la condition de travailler sur des grandes bases de données, il permet d¶aborder des problèmes d¶estimation que d¶autres approches ont du mal à aborder .

Le modèle LOGIT

Probabilités, chances et logit 









Nous voulons expliquer la réalisation évènement : la variable à expliquer prend deux valeurs : y={0; 1}. En fait, on va expliquer la probabilité de réalisation (ou non) de l¶évènement: P(Y=y | X)  [0 ; 1]. Il nous faudrait une transformation de P(Y) qui étendent l¶intervalle de définition . Nous allons voir que le calcul des chances permet d¶envisager cette transformation . Nous comprendrons alors les sources de la fonction logit .

Le modèle Logit ( 1) Modélisons la probabilité en nous assurant que quelles que soient les valeurs de X, P reste toujours entre 0 et 1.

P!

e

Z

1 e

Z

1 P !1

!

1 1  e Z 1

1 e

Z

avec z ! F0  Fi x i

!

1 1  eZ

 ui

Le modèle Logit (2 ) Ecrivons le ratio de chance (odds ratio) et prenons son log:

P

1 P

!

1  eZ 1  e Z

! eZ

P ¸ ¨ ln © ! z ! F0  F1x1  F2 x 2  u ¹ ª1 P º Notons deux caractéristiques importantes et désirées du modèle : 1. Malgré le fait que P soit compris entre 0 et 1, le logit est un

réel compris entre - et +  2. La probabilité n¶est pas linéaire en X

Les ratios de chance Chanceinnover

!

Probabilité innover Probabilité ne pas innover

! (odds ratio)innover

Ou plus généralement

odds ratio =

P (Y ! 1)

1  P (Y ! 1)

Plutôt que d¶expliquer Y (=1 ou =0), on va tenter d¶expliquer le ratio de chance (ou odds ratio)

Probabilités, chances et logit P(Y=1)

Odds

0.01 0.03 0.05 0.20 0.30 0.40 0.50 0.60 0.70 0.80

1/99

3/97 5/95 20/80 30/70 40/60 50/50 60/40 70/30 80/20

0.95 0.97 0.99

95/5 97/3 99/1

p(y=1) 1-p(y=1)

Ln (odds)

0,01 0,03 0,05 0,25 0,43 0,67 1,00 1,50 2,33 4,00

-4,60

19,0

2,94 3,48 4,60

32,3 99,0

-3,48 -2,94 -1,39 -0,85 -0,41

0,00 0,41 0,85 1,39

La transformation logit 





Le précédent tableau fait correspondre une liste de probabilité entre 0 et 1 et son équivalent en termes de chance au logarithme des chances . Si la probabilité varie de 0 à 1, la chance varie de 0 à l¶infini. Le log de la chance varie de ±  à +  . Remarquez que la distribution des chances et des log est symétrique.

La distribution logistique    5    2 .

   2 .

   5       1   y    t .    i   s   n   e    D       1 .

   5    0 .

   0

- 10

-5

0 Log (Odds ratio)

5

10

La méthode du maximum de vraisemblance 









Le problème est que nous n¶observons pas le ratio de chance. Encore une fois, le modèle MCO ne convient pas. Pour estimer le modèle LOGIT, on a recours à la méthode du maximum de vraisemblance. La méthode MV est une méthode d¶estimation alternative à la méthode des moindres carrés. Elle consiste à trouver la valeur des paramètres qui maximisent la vraisemblance des données. La vraisemblance en économétrie est définie comme la probabilité jointe d¶observer un échantillon, étant donné les paramètres du processus ayant généré les données.

La méthode du maximum de vraisemblance 

Supposons que nous disposons d¶un échantillon de n observations aléatoires. Soit f(Y) la probabilité que Y=1 ou 0. La probabilité jointe d¶observer les n variables de Y est donnée par la fonction de vraisemblance : f  y1 , y2 ,..., yn  !

n

 f( y) i

i !1



On doit maintenant spécifier la fonction f(.). Elle découle de la distribution des probabilités d¶un événement qui ne peut avoir que deux occurrences: un succès et un échec. Il s¶agit de la distribution binomiale : f ( yi ) ! p yi (1  p)1 yi

La fonction de vraisemblance 

En définitive, la fonction de vraisemblance s¶écrit: L y  !

n



f ( yi ) !

i !1

n



1 yi

yi

?p A ?1  p A

i !1

« e » « 1 »1 y L y, z  !  f ( yi , z) !  ¬ z ¼ z ¼ ¬   1 e 1 e ½ i !1 i !1 ½ y 1 y xF n n « e » « 1 » L y, x , F  !  f ( yi , x i , F) !  ¬ xF ¼ xF ¼ ¬   1 e 1 e ½ i !1 i !1 ½ n

n

z

yi

i

i

i

i

i

i

La fonction de vraisemblance 

Parce qu¶elle est difficile à manipuler, on utilise généralement le log . Après manipulation, la fonction log de la vraisemblance s¶écrit : LL y, z  !

n

§

yi z  

i !1

LL y, x, F  !

n

§ i !1

n

§

yi x iF 

i !1

LL y, x, F  ! 

n

n

§ i !1

§ i !1

ln «-1  e z »½ ln «1  e

-

xiF

ln «-1  e xiF »½  yi x i F

» ½



La méthode du maximum de vraisemblance 

Le problème est le suivant: étant donné la forme fonctionnelle de f(.) et les N observations, quelles valeurs des paramètres rendent l¶observation de l¶échantillon la plus vraisemblable?

La maximisation de la vraisemblance Les estimateurs obtenus en maximisant la vraisemblance sont efficaces . Ou encore en maximisant le log de la vraisemblance.

xLL n ¾ ! § y i  0 i  x i ! 0 ± xF i !1 ez ± ¿ where 0 i ! z n  1 e x ²LL ± ! § 0i 1  0i  x i x d i ± xFxFd i!1 À Cette maximisation n¶a pas de solution analytique et se

résout grâce un algorithme d¶itération dit de Newton Raphson.

L·exemple des chances d·innover 





Les entreprises de biopharmaceutique : 373 (81%) ont innover et 84 (19%) ne l¶ont pas fait. La chance d¶innover est d¶environ 4 contre 1.En effet 373/84=4.4 Pour les entreprises de biopharmaceutique, la probabilité d¶innover est quatre fois plus élevée que la probabilité de ne pas le faire .

Le modèle de régression logistique Application sur la base de données OLS Instruction 

Stata : logit

logit y x1 x2 x3 « xk 

[if] [weight] [, options]

Options : noconstant : estime le modèle sans constante robust : estime des variances robustes, même en

cas d'hétéroscédasticité 

if : permet de sélectionner les observations sur lesquelles portera la

régression  weight

: permet de pondérer les différentes observations

Interprétation des coefficients ( 1) 

Pour avoir la mesure de la variation de probabilité, il faut utiliser la formule du logit pour transformer le logit en probabilité

P!

e

x iF

1 e

x iF 

Interprétation des coefficients (2 ) 

Tapons un modèle sans variable explicative et seulement une constante: 

Tapons logit inno et nous trouvons 1,491

P!



e

1 e

1,491

! 0,81

La constante 1.491 s¶interprète comme le log ratio moyen. Calculons la probabilité moyenne d¶innover .  

Tapons : dis exp(_b[_cons])/(1+exp(_b[_cons])) Nous trouvons bien la valeur observée: 81%

Interprétation des coefficients (3 ) 







Un signe positif signifie que la probabilité de succès augmentera avec la variable correspondante . Un signe négatif signifie que la probabilité de succès diminuera avec la variable correspondante . Une des difficultés dans l¶interprétation des probabilités

est leur non linéarité: elles ne varient pas identiquement selon le niveau des variables indépendantes . C¶est pourquoi il est fréquent de calculer la probabilité au point moyen de l¶échantillon .

Interprétation des coefficients (4 ) 

Tapons logit inno rdi size spe pharma P!



e

-7.63

 0.757vrdi 0.979vsize0.367vspe3.781v pharma

1  e-7.630.757vrdi0.979vsize0.367vspe3.781v pharma

A partir du modèle, on peut calculer la probabilité conditionnelle moyenne en utilisant les valeurs moyennes de rdi, size, spe et pharma. P!

e1

.9228238

1 e

1.9228238

! 0,8724

Les effets marginaux ( 1) 





Il est souvent utile de connaître l¶effet marginal d¶une variable explicative sur la probabilité de succès d¶un évènement. Puisque la probabilité est une fonction non linéaire des variables explicatives, la variation de la probabilité due à un changement d¶une variable explicative (ou son effet marginal) ne sera pas identique selon que les autres variables sont maintenues à leur niveau moyen, ou médian, ou au premier quartile, etc. prvalue produit les probabilité prédites après un modèle logit (ou autre

modèle)       

prvalue prvalue prvalue prvalue prvalue prvalue prvalue

, , , , , ,

x(size=10) x(size=11) x(size=12) x(size=10) x(size=11) x(size=12)

rest(mean) rest(mean) rest(mean) rest(median) rest(median) rest(median)

renvoie

pour p(Y=1) : 0.1177

renvoie

pour p(Y=1) : 0.2622

renvoie

pour p(Y=1) : 0.4862

renvoie

pour p(Y=1) : 0.0309

renvoie

pour p(Y=1) : 0.0781

renvoie

pour p(Y=1) : 0.1841

Les effets marginaux (2 ) 



La commande prchange est bien utile. Elle produit l¶effet marginal de chacune des variables explicatives pour la plupart des variations de valeurs désirées . prchange [varlist] [if] [in range] ,x(variables_and_values) rest(stat)   

prchange prchange, fromto prchange , fromto x(size=10.5)

rest(mean)

fromto

Qualité de l·estimation 



Il n¶existe pas de mesure comparable au R2 de la régression linéaire. On utilise exclusivement la statistique du log de vraisemblance ( LL), cad du log de la probabilité jointe d¶observer l¶échantillon. 





Plus il y a d¶observation, plus le produit des probabilité jointe tend vers 0. Autrement dit, pour un même modèle, plus il y a d¶observations, plus LL tend vers - Pour une même nombre d¶observations, plus le modèle est explicatif, plus LL tend vers 0.

C¶est en comparant deux LL que l¶on évalue la qualité d¶un

ajustement, avec toujours un modèle contraint et un modèle non contraint.

Le McFadden Pseudo R 2 



On utilise le McFadden Pseudo R2 (1973) en première analyse pour voir la qualité de l¶ajustement. Il s¶interprète de manière analogue au R2. Toutefois, parce qu¶il reste généralement faible, son utilisation reste limitée. Le pseudo-R2 dépend des maxima de vraisemblance obtenus si le modèle n¶avait qu¶une constante (modèle contraint) et pour le modèle complet (modèle non contraint). Il est compris entre 0 et 1. Plus il est proche de 1 et mieux c¶est. 2 MF

Pseudo R

!

?ln Lc  ln Lnc A ln L nc

! 1

ln L nc ln Lc

Le rapport de vraisemblance (LR test ) 



Le ratio de vraisemblance dépend aussi des maxima de vraisemblance et suit une loi de G2. La probabilité que les variables indépendantes ne sont pas explicatives (H0) est donnée par le test du G2. Le rapport de vraisemblance compare une spécification contrainte à une autre non contrainte:

LR ! 2 ?ln Lnc

 ln Lc A



Ce rapport suit une distribution du G 2.



Une grande valeur indique que le modèle non contraint apporte une

information significative à l¶évènement que le modèle veut expliquer .

Autre utilisation du LR test 



 

  

Comme output, ST T A A présente toujours le LR test, comparant le

modèle spécifié avec un modèle sans variable explicative et seulement une constante.

On peut réaliser ce test pour comparer deux spécifications pour justifier l¶ajout de variables explicatives . Ceci est très utile lorsqu¶il s¶agit de voir si l¶ajout d¶une variable apporte de l¶information. logit [modèle contraint] est store [nom1] logit [modèle non contraint] est store [nom2] lrtest nom2 nom1

La qualité de la prévision 





On peut enfin effectuer une comparaison entre les évènements prédits correctement avec ceux prédits avec erreurs. Il faut alors faire une hypothèse: quand la probabilité prédite est supérieure à 0,5, alors la prédiction est que l¶évènement a lieu. TA Sous ST A , ceci est effectuer avec 

estat class

Autre modélisation du c hoix binaire 





Le modèle Logit ne constitue qu¶une modélisation possible, même dans le cas où la variable dépendante est une variable binaire . On utilise largement le modèle Probit comme modèle concurrentiel. Ou encore le modèle dit log-log complémentaire dans le cas des probabilité de survie, car il se prête bien à la modélisation de la fonction de hasard .

Autres modélisations de c hoix binaire 

Le modèle Probit z

Pr ( Y ! 1| X) ! * Xd ! ´ g



e

 z2

2

2T

2

Xd 

 dz ! ´g

e

 Xd

Le modèle log-log complémentaire Pr ( Y ! 1| X) ! c Xd   ! 1  exp  exp( Xd ) 

2T

2

Xd 

 dz ! ´g J t  dt

Les fonctions de vraisemblance et commandes S TATA ogit : L( y, x, F ) !

L

n

 i !1

Probit : L( y, x, F ) !

« e Xd » « 1 »1 y f ( yi , xi , F ) !  ¬ Xd  ¼ Xd ¼ ¬ i !1 -1  e ½ -1  e ½

n

n

 f ( y , x , F ) !  ?*(Xd)A i

og-log comp : L( y, x, F ) !

yi

i

i !1

L

yi

n

i

1 yi

 )A ?1  *( Xd

i !1

n

 i !1

f ( yi , xi , F ) !

n

 ?1  exp( exp(Xd))A ?exp( exp(Xd))A i !1

Exemple

logit inno rdi size spe pharma probit inno rdi size spe pharma cloglog inno rdi size spe pharma

yi

1 yi

Les fonctions de répartition       1

   8 .

   6 .   y    4 .

   2 .

   0

-4

-2

0 x

Probit Transformation Complementary log log Transformation

2

4

Logit Transformation

Comparaison des modèles rd - size ln(Actif matériel)

ln(spécialisation technologique) Dummy Pharma Constant

Observations

OLS

Logit

Probit

C log-log

0.113

0.757

0.428

0.365

[4.03]***

[3.63]***

[3.55]***

[3.24]***

0.126

0.979

0.558

0.495

[8.73]***

[7.43]***

[7.68]***

[7.32]***

0 .051

0.367

0.196

0.131

[1.03]

[0.90]

[0.87]

[0.67]

-0.447

-3.782

-2.12

-1.836

[7.56]***

[6.63]***

[6.83]***

[6.57]***

-0.407

-7.64

-4.376

-4.264

[2.39]**

[5.31]***

[5.44]***

[5.61]***

457

457

457

457

A bsolute t value in brackets (OLS) z value f or other models. * 10%, ** 5%, *** 1%

Comparaison des effets marginaux OLS

Logit

Probit

C log-log

0.113

0.085

0.093

0.102

0 .126

0.110

0.121

0.137

Spécialisation technologique

0.051

0.040

0.042

0.037

Entreprise Pharmaceutique

-0.445

-0.470

-0.466

-0.455

Intensité de recherche Actif matériel

Pour les modèles logit, probit et cloglog, les eff ets marginaux ont été évalués par une variation d¶un point autour de la moyenne, en utilisant les valeurs moyennes des autres variables .

Le modèle LOGIT multinomial

Le modèle multinomial Envisageons maintenant le cas où la variable dépendante est multinomial. Par exemple, dans la cadre des activités d¶innovation de la firme: Collabore avec université (modalité 1)  Collabore avec grande firme (modalité 2)  Collabore avec PME (modalité 3)   Ne collabore pas (modalité 4) Ou dans le cadre de la survie des firmes: Survie (modalité 1)  Banqueroute (modalité 2)  Rachat (modalité 3) 

Introduction au modèle multinomial Prenons le cas de la survie des firmes. La première possibilité est d¶envisager trois régressions logistiques indépendantes comme suit: ¨ P(Y ! 1| X) ¸ (1) (1) ! F0  F1 x1    F(1) m xm ¹  ! 1 1| X) P(Y ª º ¨ P(Y ! 2 | X) ¸ (2) (2) ! F0  F1 x1    F(2) ln © xm m ¹ 1 2 | X)  P(Y ! ª º ¨ P(Y ! 3 | X) ¸ (3) (3) ln © xm ! F0  F1 x1    F(3) m ¹  ! 1 3 | X) P(Y ª º ln ©

Où 1 = survie, 2 = banqueroute, 3 = rachat . 1. Ouvrez le fichier mlo git.dta 2. Pour chaque modalité, estimez la probabilité au point moyen de l¶échantillon, conditionnelle à : - temps g_time) (lo - la taille (log labour) - l¶âge (entry_age) - l¶indicatrice spinout (spin_out) - l¶indicatrice cohorte (cohort_*)

Introduction au modèle multinomial ¨ P(Y ! 1| X) ¸ (1) (1) (1) ! F  F x    F 0 1 1 m xm ¹ ª 1  P(Y ! 1| X) º ¨ P(Y ! 2 | X) ¸ (2) (2) (2) ln © x xm ! F  F    F 0 1 1 m ¹ ª 1  P(Y ! 2 | X) º ¨ P(Y ! 3 | X) ¸ (3) (3) (3) ln © x ! F  F    F 0 1 1 m xm ¹ ª 1  P(Y ! 3 | X) º ln ©

P(Y ! 1| X) ! 0.8771 P(Y ! 2 | X) ! 0.0398 P(Y ! 3 | X) ! 0.0679

§ P(Y ! k | X) ! 0.9848 { 1 k

Le modèle multinomial Premièrement, la somme des probabilités conditionnelles d¶occurrence d¶évènements exclusifs doit être égale à l¶unité . k

§ P Y ! j | X  ! 1 j!0

Deuxièmement, pour k modalités différentes, nous n¶avons besoin d¶estimer que (k ± 1) modalités. Donc P Y ! 0 | X  ! 1 

k

§ P Y ! j | X  j!k

Le modèle multinomial Troisièmement, le modèle multinomial est un modèle d¶estimation simultanée comparant des ratios de chance pour chaque pair de modalités. Dans le cas de trois modalités:

¨ P(Y ! 1| X) ¸ (1|0) (1|0) (1|0) ln © x xm  ! F  F   F 0 1 1 m ¹ ª P(Y ! 0 | X) º ¨ P(Y ! 2 | X) ¸ ( 2|0) ( 2|0) (2|0) ! F  F   F ln © x  0 1 1 m xm ¹ ª P(Y ! 0 | X) º ¨ P(Y ! 1| X) ¸ (1|2) (1|2) (1|2) ! F  F   F ln © x  0 1 1 m xm ¹ ª P(Y ! 2 | X) º

Le modèle logit multinomial Remarquons qu¶il y a redondance d¶information dans les trois modèles précédents. En effet : ®P Y ! 1| X  ¾ ®P Y ! 2 | X ¾ ®P Y ! 1| X  ¾  ! ln ln ¿ ¯ ¿ ¯ ¿ P P P ! ! ! Y 0 | X Y 0 | X Y 2 | X       ° À ° À ° À

ln ¯

®P Y ! 1| X  ¾ ®P Y ! 2 | X¾ ®P Y ! 1| X  ¾ 1|0  2|0  1|2  ¿ ! xF ;ln ¯ ¿ ! xF ;ln ¯ ¿ ! xF °P Y ! 0 | XÀ °P Y ! 0 | XÀ °P Y ! 2 | XÀ

ln ¯

xF

1|0 

 xF2|0  ! xF 1|2 

Quatrièmement, l¶estimation d¶un modèle multinomial revient à

estimer conjointement (k ± 1) modèles logit en posant la contrainte sur les paramètres à estimer:

F

1|0 

F

2|0 

!F

1|2 

Le modèle logit multinomial Dans une modélisation logistique à k modalités, la probabilité d¶occurrence de la modalité j s¶écrit: xF j|0  (

P Y ! j | X  !

e

j! k

§e

)

xF j|0  (

)

j! 0

Par convention, la modalité 0 est la modalité de base

Le modèle logit multinomial Notez que

 j|j

xF

®P Y ! j | X ¾ ! ln ¯ ¿ ! ln(1) ! 0 °P Y ! j | X À

e

x, Fj : !

0

xF j|0  (

P Y ! j | X  !

 j|j

j! k

§e

)

xF j|0  (

)

j! 0

xF j|0  (

e

P Y ! j | X  ! 1

j! k

§e j!1

)

xF  ( j|0 )

P Y ! 0 | X  !

1 j!k

1 §e j!1

xF j|0  (

)

Le modèle Logit binomial comme un cas particulier du logit multinomial Réécrivons la probabilité de l¶évènement Y= 1 P Y ! 1| X  !

e

xF  xF

1 e xF(1|0 )  xF(1|0 )  e e P Y ! 1| X  ! ! ! ( 1|0 ) ( 0|0 ) (1|0 ) x x x F F F       1 e e e

xF 1|0  e xF k|0  e (

§

)

(

)

k !0,1

On voit bien que le logit binomial est un cas particulier du cas multinomial où seulement deux modalités sont analysées .

La méthode du maximum de vraisemblance 

Supposons que nous disposons d¶un échantillon de n observations aléatoires. Soit f(Y) la probabilité que Y=j . La probabilité jointe d¶observer les n variables de Y est donnée par la fonction de vraisemblance : f y1 , y2 ,..., y n  !

n

 f (y ) i

i !1



On doit maintenant spécifier la fonction f(.). Elle découle de la distribution des probabilités d¶un événement qui peut avoir plusieurs modalités. Il s¶agit de la distribution multinomiale : 0

1

f (yi ) ! p 0dYi p1dYi

~ p jdY ~ p k dY !  p jdY j i

k i

k i

jK

La fonction de vraisemblance 

En définitive, la fonction de vraisemblance s¶écrit: ¨ k dY ¸ L( y) !  f yi  !  ©  p j ¹ i !1 i !1 ª j!1 º dY dY ¨« » « » ©¬ xF  ¼ ¼ n n k ¬ © 1 e j|0 ¼ v  ¬ j! k ¼ L( y) !  f yi , x i , F( ) !  © ¬ j! k xF  ¼ i !1 i !1 j!1 ¬ © ¬¬1  § exF  ¼¼ 1 e  ¬ § ¼ © - !j 1 !j 1 ½ ½ ª n

n

j i

0 i

j i

( j|0 )

( j|0 )

( j|0 )

¸ ¹ ¹ ¹ ¹ ¹ º

La fonction de vraisemblance Après manipulation, la fonction log de la vraisemblance s¶écrit ¨ ¨ « » « »¸¸ © ¬ ¼ k © ¬ ex F  ¼ ¹ ¹ n 1 © dyij v ln ¬ ¼ ¼¹¹ LL( y, x , F( j|0) ) ! § © dyi0 v ln ¬  § j k j k ! ! © ¬ ¬ x F  ¼ j!1 © x F  ¼ ¹ ¹ i !1   1 e 1 e ©© © ¬ § ¼ ¬ § ¼ ¹ ¹¹ - !j 0 ½ - !j 0 ½ºº ª ª n ¨ « j!k x F » k ¨ j ( j|0) « j!k x F » ¸ ¸ ( j|0 ) LL( y, x , F ) ! § ©  ln ¬1  § e ¼  § ©© dyi x iF  ln ¬1  § e ¼ ¹¹ ¹¹ © i !1 - j!0 ½ j!1 ª - j! 0 ½ ºº ª n k ¨ k ¨ « j! k x F » ¸ ¸ j ( j|0 ) ( j|0 ) LL( y, x , F ) ! §§ dyi x iF  k  1© § ©  ln ¬1  § e ¼ ¹¹ ¹¹ © © i !1 j!1 - j! 0 ½ºº ª j!1 ª ( j|0 )

i

( j|0 )

( j|0 )

i

i

( j|0 )

( j|0 )

i

i

( j|0 )

i

Le modèle de logit multinomial Instruction       mlogit y x1 x2 x3 « xk 

Stata : mlogit [if] [weight] [, options]

Options : noconstant : estime le modèle sans constante robust : estime des variances robustes, même en

cas d'hétéroscédasticité 

if : permet de sélectionner les observations sur lesquelles portera la

régression  weight

: permet de pondérer les différentes observations

Le modèle de logit multinomial use mlogit.dta, clear mlogit type_exit log _time log _labour entry_age entry_spin cohort_*

Bloc des description de l¶ajustement

Paramètres estimés, erreurs standards et probabilités critiques

Dans Stata, la modalité de référence est celle qui a la plus grande fréquence empirique

Interprétation des coefficients L¶interprétation des coefficients s¶effectue toujours en référence à la catégorie de base.

La probabilité de rachat décroit-elle avec le temps ? Non!! L¶interprétation correcte est: relativement à la survie, la probabilité de rachat décroit avec le temps

Interprétation des coefficients L¶interprétation des coefficients s¶effectue toujours en référence à la catégorie de base.

La probabilité de rachat est elle moins forte pour les « spinoffs » ? Non!! L¶interprétation correcte est: relativement à la survie, La probabilité de rachat est moins forte pour les « spinoffs »

Interprétation des coefficients F

1|0 

F

2|0 

!F

1|2 

F

2|0 

F

1|0 

!F

2|1

Relativement à la banqueroute, la

probabilité de rachat est plus forte pour les « spinoffs » lincom [boughtout]entry_spin ± [death]entry_spin

Croiser les références mcross fait le travail pour nous !

Attention à la nouvelle catégorie de référence !! Rachat relativement à la

banqueroute Relativement à la banqueroute, la

probabilité de rachat est plus forte pour les « spinoffs »

Croiser les références mcross fait le travail pour nous !

Et nous retrouvons notre résultat précédent

L·hy pothèse d·indépendances des états non pertinents ( IIA ) 





Le modèle repose sur l¶hypothèse que pour chaque paire de modalités les réalisations sont indépendantes des autres modalités. Autrement dit, les autres modalités sont non pertinentes ( irrelevant ). D¶un point de vue statistique, cela revient à faire l¶hypothèse d¶indépendance des termes d¶erreur entres les différentes modalités (d¶où le nom IIA: I nd epend enc e of irrelevant al te r nat ives) Une façon simple de tester la propriété IIA est alors d¶estimer le

modèle en retirant une modalité (pour retreindre les choix), et de comparer les nouveaux paramètres avec ceux du modèle complet  

Si IIA est valide, les paramètres ne changent pas significativement Si IIA n¶est pas valide, les paramètres changent significativement

L·hy pothèse d·indépendances des états non pertinents ( IIA )  

H0: La propriété IIA est valide H1: La propriété IIA n¶est pas valide 1 d * Ö  FÖ * H ! FÖ R  FÖ  « var FÖ R  var  FÖ C » F R C ½ * C



La statistique H (H car il s¶agit en fait d¶un test d¶Hausman) suit une distribution du  ² à M degré de liberté (M étant le nombre de paramètres)

Application de IIA  

H0: La propriété IIA est valide H1: La propriété IIA n¶est pas valide

mlogtest, hausman

Variable omise

Application de IIA  

H0: La propriété IIA est valide H1: La propriété IIA n¶est pas valide

mlogtest, hausman Donc on compare les paramètres du modèle « Banqueroute relativement à Rachat » estimé conjointement avec « survie relativement à rachat» avec les paramètres du modèle « Banqueroute relativement à Rachat » estimé sans « survie relativement à rachat»

Application de IIA  

H0: La propriété IIA est valide H1: La propriété IIA n¶est pas valide

mlogtest, hausman

La conclusion est que la modalité survie modifie significativement l¶arbitrage rachat ou banqueroute. En fait pour une firme, le rachat peut être vu comme une modalité de rester en activité avec une perte sur la décision économique d¶investissement notamment.

Le LOGIT multinomial ordonné

Le modèle multinomial ordonné Envisageons maintenant le cas où la variable dépendante est une variable discrète, dont la valeur indique une intensité. Typiquement, dans le cadre d¶une enquête d¶opinion (genre CIS1-4), on a des questions dont la réponse est codée par une échelle de Likert :      

Obstacles à l¶innovation (échelle de 1 à 5) Intensité de collaboration (échelle de 1 à 5) Enquête de marketing (N¶apprécie pas (1) ± Apprécie (7)) Note d¶étudiants Test d¶opinion Etc.

La structure ordonnée Ces variables décrivent des échelles verticales verticales ± quantitatives, si

bien qu¶une façon de modéliser le problème est de considérer des intervalles dans lesquels la variable latente y* peut se trouver y ! 1 si si y*n e E1 y ! 2 si y ! 3 si

E1  y*n e E2 E 2  y*n e E3 M

y ! k si

E3  y*k

où  j sont des bornes inconnues à estimer, définissant la frontière des intervalles.

La structure ordonnée On pose ensuite l¶hypothèse que la variable latente (non observée) y* est une combinaison linéaire des variables explicatives :

y*i ! x iF  u i où ui admet une fonction de répartition F( .). Les probabilités associées aux réalisations de y (y  y*) sont alors liées à la fonction de répartition de F(.). Regardons la probabilité que y = 1 : P(y P( y ! 1) ! P y*i e E1





P(y P( y ! 1) ! P x iF  u i e E1  P(y P( y ! 1) ! P u i e E1  x iF  P(y P( y ! 1) ! 0 E1  x iF  !

eE1 xiF 1 e

E1  xiF

La structure ordonnée Regardons la probabilité que y = 2 : P(y P( y ! 2) ! P y*i e E2



 P y*i e E1 

P(y P( y ! 2) ! 0 E 2  x iF   0 E1  xiF  !

e

E 2  x iF

1 e

Donc dans l¶ensemble, nous avons: P(Y P( Y ! 1) ! 0 E1  x iF  P(Y P( Y ! 2) ! 0 E 2  x iF   0 E1  x iF  P(Y P( Y ! 3) ! 0 E3  x iF   0 E 2  xiF  M P(Y P( Y ! k ) ! 1  0 E k 1  x iF 

E 2  xiF



e

E1 x i F

1 e

E1 xiF

Probabilité dans le modèle ordonné E1  xi F

E 2  x iF 

E3  x iF E k 1  x iF 

0.45

0.4

0.35

0.3

0.25

0.2

0.15

0.1

0.05

y=1 0

y=2

y=3

y=k

ui

La fonction de vraisemblance 

En définitive, la fonction de vraisemblance s¶écrit:

L(y, x, E, F) =

n

k

 «-F(E  x F)  F(E j

i=1 j=1

avec F(E 0 - x n F) ! 0 F(E k - x n F) ! 1

i

-1 j

 x iF) »½

dy j

La fonction de vraisemblance Dans le cas où ui suit une fonction logistique, la fonction log de la vraisemblance s¶écrit :

L(y, x, E, F) =

n

¨E x F¸ » « ¨©ª E jx Fi ¸¹º © 1j i ¹ k º eª ¬ e ¼  ¨ E x F¸ ¨ E x F¸ ¼ ¬ © © 1j i ¹ j i ¹º j=1 ª º¼ ¬-1  e 1  eª ½ -

 i=1

dy j

-

et donc

LL(y, x, E, F) =

n

k

§§ dy

j i

i !1 j!1

E  x F » « eE  x F e ln ¬  ¼ E  x F E  x F   ¬-1  e ¼½ 1 e j

i

j

-1j

i

i

-1j

i

Le logit multinomial ordonnée Instruction       ologit y x1 x2 x3 « xk 

Stata : ologit [if] [weight] [, options]

Options : noconstant : estime le modèle sans constante robust : estime des variances robustes, même en

cas d'hétéroscédasticité 

if : permet de sélectionner les observations sur lesquelles portera la

régression  weight

: permet de pondérer les différentes observations

Le modèle de logit multinomial use est_var_qual.dta, clear ologit innovativeness size rdi spe biotech

Qualité

de l¶ajustement

Paramètres estimés Points seuils

Interprétation des coefficients 

Un signe positif signifie une relation positive entre la variable

explicative et le rang (ou l¶ordre) 



Une des difficultés dans l¶interprétation est le rôle des variables de seuil. Notre modèle est : Score ! x iF  ui Quelle 

est la probabilité que Y = 1 : P( = 1) ?

Quelle

est la probabilité que le score soit inférieur au premier seuil ?

¾  ± e 1.95 ± P( y ! 1) ! P 270.5  u i e 268.6 ¿ 1.95 ! .1245  1 e ± P( y ! 1) ! P u i e 1.9  ± À P( y ! 1) ! P x iF  u i e E1 

Interprétation des coefficients 

Quelle

est la probabilité que Y = 2 : P( Y = 2) ?

¾ ± e 1.95 ± P( y ! 1) ! P 270.5  u i e 268.6 ¿ 1.95 ! .1245 1 e ± P( y ! 1) ! P u i e 1.9  ± À P( y ! 1) ! P x iF  u i e E1 

¾  ± e 1.95 ± P( y ! 1) ! P 270.5  u i e 269.3¿ ! .2321 1.95 1 e ± P( y ! 1) ! P u i e 1.2  ± À P( y ! 1) ! P x iF  u i e E 2 

¾ ± ± ± ± ± ¿ ± ± ± ± ± À

P( Y ! 2) ! F E 2  x iF  F E1  x iF  P( Y ! 2) ! .2321  .1245 P( Y ! 2) ! .1076

Obtenir les probabilité prédites prvalue fait le travail pour nous !

Les modèles de comptage Partie 1. Le modèle de Poisson

Les modèles de comptage Envisageons maintenant le cas où la variable dépendante est une variable discrète positive qui décrit un nombre d¶évènement. Typiquement, dans le cadre de l¶analyse de l¶innovation, on dénombre des innovations, de demande de brevets, des inventions. On pourrait utiliser les MCO mais les MCO peuvent produire des prédictions négatives. Pour les cas où les recensement sont importants (nombre de brevets par pays, et non par firme), alors les MCO peuvent être utilisés. On pourrait utiliser le modèle multinomial ordonné pour le f aible dénombrement.

Généralement on utilise les modèle de comptage, dont la variable à expliquer suit une loi de Poisson.

Le modèle de Poisson Soit Y variable aléatoire de comptage, la probabilité donnée par la distribution de Poisson que Y soit égale à un entier y i est : P Y ! yi  ! avec

eP i P iyi yi !

,

yi

! 0,1, 2,...

E Y  ! var Y  ! Pi

Pour introduire les variables explicatives dans le modèle, on conditionne i en imposant la forme log-linéaire comme suit:

Pi ! ex F ln P i ! x iF i

La distribution de Poisson 0.5 Valeur de Lambda 0.45 0.4

0. 8

1.5

2. 9

10.5

0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0

1

2

3

4

5

6

7

8

9

10 11 12 13 14 15 16 17 18 19 20

La fonction de vraisemblance La fonction de vraisemblance s¶écrit : eP i Piyi L(y, P) = yi ! i=1 n



et donc n

LL(y, x, F) = § yi x iF  e x F  ln yi ! i

i !1

Le modèle de Poisson Instruction       poisson y x 1 x2 x3 « xk



Stata : poisson [if] [weight] [, options]

Options : noconstant : estime le modèle sans constante robust : estime des variances robustes, même en

cas d'hétéroscédasticité 

if : permet de sélectionner les observations sur lesquelles portera la

régression  weight

: permet de pondérer les différentes observations

Le modèle de Poisson use est_var_qual.dta, clear poisson poisson PA T rdi size spe biotech

Bloc des description de l¶ajustement

Bloc des paramètres estimés

L·interprétation des coefficients Si les variables sont entrées en logarithme, on peut interpréter les coefficients coefficients comme des élasticités : x ln x 1 xx !  x ln x ! ; ln P i ! x i F xx x x

L¶augmentation de 1% de la taille de l¶entreprise est associée à une augmentation de 0.51% du nombre espéré de brevets

L·interprétation des coefficients Si les variables sont entrées en logarithme, on peut interpréter les coefficients coefficients comme des élasticités : x ln x 1 xx !  x ln x ! ; ln P i ! x i F xx x x

L¶augmentation de 1% de l¶investissement en R&D est associée L¶augmentation associé e à une augmentation de 0.79% du nombre espéré de brevets

L·interprétation des coefficients Si la variable explicatives n¶est pas une transformé logarithmique, logarithmi que, l¶interpré l¶interprétation tation change

L¶augmentation de 1 point du degré de spécialisation est associée à une augmentation de 0.74% du nombre espéré de brevets

L·interprétation des coefficients Pour les variables muettes, l¶interprétation est légèrement différentes

Les entreprises de biotechnologie ont un nombre espéré de brevets supérieur de 1% aux autres entreprises.

L·interprétation des coefficients Toutes les variables sont extrêmement significatives

mais hélas

E Y  { var Y 

Les modèles de comptage Partie 2. Le modèle négatif binomial

Le modèle négatif binomial Généralement, le modèle de Poisson est invalidé par la présence d¶une surdispersion des données qui violent l¶hypothèse d¶égalité des deux premiers moments de la distribution: la moyenne et la variance. Le modèle négatif binomial pallie à ce problème en ajoutant à la forme log-linéaire un terme d¶hétérogénéité non observée: ln vi

! ln P i  ln u i ! x iF  Ii y

P Y ! yi  !

e Piu i P i u i  i yi !

Le modèle négatif binomial La densité de yi (la probabilité) est obtenue en prenant l¶espérance de l¶expression par rapport à la densité de ui : g

f Y ! yi | x i  !

´

0

eP i

ui

yi

Pi u i  yi !

g u i du i avec

EE E u E1 g ui  ! e ui + E  i

En supposant que ui suit une loi Gamma de moyenne 1, la densité de yi devient :

+ E  yi  ¨ Pi ¸ f Y ! yi | x i  ! © + yi  1+ E  ª P i  E ¹º

yi

¨ E ¸ © ¹ P  E ª i º

E

La fonction de vraisemblance + E  yi  ¨ Pi ¸ L y, P , E  !  © ¹ y 1 +  + E P  E     i !1 i ª i º n

LL y, xF, E  !

n

§ i !1

yi

¨ E ¸ © ¹ P  E ª i º

E

  F  E  E ln E 

yi x iF  yi  E v ln e

xi

Où alpha est le paramètre de surdispersion

Le modèle négatif binomial Instruction       nbreg y x1 x2 x3 « xk



Stata : nbreg

[if] [weight] [, options]

Options : noconstant : estime le modèle sans constante robust : estime des variances robustes, même en

cas d'hétéroscédasticité 

if : permet de sélectionner les observations sur lesquelles portera la

régression  weight

: permet de pondérer les différentes observations observations

Le modèle de Poisson use est_var_qual.dta, clear nbreg poisson PA T rdi size spe biotech

Qualité

de l¶ajustement

Paramètres estimés Paramètre de surdispersion Test de surdispersion

L·interprétation des coefficients Si les variables sont entrées en logarithm logarithme, e, on pouvons toujours interpréter interpréter les coefficients comme des élasticités :

L¶augmentation de 1% de la taille de l¶entreprise est associée à une augmentation de 0.66% du nombre espéré de brevets

L·interprétation des coefficients Si les variables sont entrées en logarithme, on pouvons toujours interpréter les coefficients comme des élasticités :

L¶augmentation de 1% de la taille des dépenses de R&D est associée à une augmentation de 0.86% du nombre espéré de brevets

L·interprétation des coefficients Si la variable explicatives n¶est pas une transformé logarithmique, l¶interprétation change:

L¶augmentation de 1 point du degré de spécialisation est associée à une augmentation de 0.84% du nombre espéré de brevets

L·interprétation des coefficients Et pour les variables muettes :

Les entreprises de biotechnologie ont un nombre espéré de brevets supérieur de 1,56% aux autres entreprises.

Le test de surdispersion On utilise le test LR qui compare le modèle négatif binomial avec le modèle de Poisson LR ! 2 ln L NBREG -1481

 ln LPRM  ! 2 v 3055 ! 6110 -

-4536

Le résultat du test (H0: Alpha=0) rejette l¶hypothèse de nullité de alpha. Il y a de la surdispersion dans les données. Il faut donc choisir le modèle binomial négatif .

Des erreurs standard plus grandes Des valeurs z plus petites

Extensions

VAR_QUAL

Short Description

Description

Comments

We need your help!