L'ajout d'observations avec des valeurs spécifiques pour la variable

Tout d'abord, jetez un oeil à certains variables de mon dataset:

firm_id year    dyrstr  Lack    total_workers
2432    2002    1980        29
2432    2003    1980        23
2432    2005    1980    1   283
2432    2006    1980        56
2432    2007    1980        21
2433    2004    2001        42
2433    2006    2001    1   29
2433    2008    2001    1   100
2434    2002    2002        21
2434    2003    2002        55
2434    2004    2002        22
2434    2005    2002        24
2434    2006    2002        17
2434    2007    2002        40
2434    2008    2002        110
2434    2009    2002        158
2434    2010    2002        38
2435    2002    2002        80
2435    2003    2002        86
2435    2004    2002        877
2435    2005    2002        254
2435    2006    2002        71
2435    2007    2002        116
2435    2008    2002        118
2435    2009    2002        1165
2435    2010    2002        67
2436    2002    1992        24
2436    2003    1992        25
2436    2004    1992        22
2436    2005    1992        23
2436    2006    1992        21
2436    2007    1992        100
2436    2008    1992        73
2436    2009    1992        23
2436    2010    1992        40
2437    2002    2002        30
2437    2003    2002        31
2437    2004    2002        21
2437    2006    2002    1   56
2437    2007    2002        20

Les variables:

firm_id est un identificateur pour les entreprises
année est l'année de l'observation
dyrstr est l'année de création d'une entreprise
Manque est égal à 1 si il y a un manque d'observation de l'année précédente (par exemple, dans la troisième ligne du jeu de données, le Manque est égal à 1, car, pour l'entreprise, avec l'ID 2432, il n'y a pas d'observation de l'année 2004)
total_workers est le nombre de travailleurs

J'aimerais combler les lacunes, à savoir que j'aimerais créer de nouvelles observations que je vous le montre dans la suite (en ne considérant que la firme avec l'ID 2432):

firm_id year    dyrstr  Lack    total_workers
2432    2002    1980        29
*2432*  *2004* *1980*      *156*
2432    2003    1980        23
2432    2005    1980    1   283
2432    2006    1980        56
2432    2007    1980        21

La ligne où j'ai mis les valeurs des variables dans les astérisques est le nouvellement créé d'observation. Cette observation doit être une copie de l'observation précédente, mais avec quelques modifications.

firm_id devrait rester le même que dans la ligne avant
année devrait être l'année de la ligne précédente plus un
dyrstr devrait rester le même que dans la ligne avant
Manque: ici, il n'est pas question que la valeur de cette variable a
total_workers est égal à 0.5*(valeur de l'observation précédente + la valeur de jours d'observation)
toutes les autres variables de mon dataset (que je n'ai pas la liste ici) devrait rester la même que dans la ligne avant

J'ai lu quelque chose à propos de la commande expand mais help expand ne m'aide pas beaucoup. Espérons que l'un de vous peut m'aider!

Si la gamme de l'année, le même pour toutes les entreprises (c'est à dire, idéalement, vous observez toutes les entreprises de 10 ans) ou à l'année de changement de gamme de l'entreprise?
Bien que le logiciel Stata utilisateurs AFIN semblent heureux de vous aider avec ce genre de question, et je suis aussi, veuillez noter que, en général de Débordement de Pile dans les normes c'est pas une bonne question, il ne montre aucune tentative de vous fournir le code.
Désolé pour ça!
La gamme de l'année diffère d'une entreprise à l'.

InformationsquelleAutor the_economist | 2013-11-22

stata

Mes suggestions de la charnière sur l'utilisation de expand, qui à son tour nécessite juste de l'information sur le nombre d'observations à ajouter. J'ignore votre variable Lack, comme Stata lui-même peut déterminer où sont les lacunes. Ma procédure d'imputation total_workers est basée sur l'utilisation de la fonction intégrée de commande ipolate, et, donc, le travail sur les lacunes de plus de 1 an, qui n'apparaissent pas dans votre exemple. Le nombre de travailleurs estimées n'est pas nécessairement un nombre entier.

Pour d'autres méthodes d'interpolation, découvrez cipolate, csipolate, pchipolate, tous accessibles via ssc desc cipolate (ou l'équivalent).

Ce genre d'opération dépend de l'obtention de sort ordre exact, dont je ne pense pas trivial, même avec de l'expérience, de sorte à obtenir le bon code pour des problèmes similaires, être préparé pour de faux départs; poivre votre code d'essai avec list états; et de travailler sur un bon jouet exemple de jeu de données (comme vous l'obligeance de nous fournis ici).

. clear 

. input   firm_id year    dyrstr  total_workers

        firm_id       year     dyrstr  total_w~s
  1.     2432        2002    1980    29
  2.     2432        2003    1980    23
  3.     2432        2005    1980    283
  4.     2432        2006    1980    56
  5.     2432        2007    1980    21
  6.     2433        2004    2001    42
  7.     2433        2006    2001    29
  8.     2433        2008    2001    100
  9.     2434        2002    2002    21
 10.     2434        2003    2002    55
 11.     2434        2004    2002    22
 12.     2434        2005    2002    24
 13.     2434        2006    2002    17
 14.     2434        2007    2002    40
 15.     2434        2008    2002    110
 16.     2434        2009    2002    158
 17.     2434        2010    2002    38
 18.     2435        2002    2002    80
 19.     2435        2003    2002    86
 20.     2435        2004    2002    877
 21.     2435        2005    2002    254
 22.     2435        2006    2002    71
 23.     2435        2007    2002    116
 24.     2435        2008    2002    118
 25.     2435        2009    2002    1165
 26.     2435        2010    2002    67
 27.     2436        2002    1992    24
 28.     2436        2003    1992    25
 29.     2436        2004    1992    22
 30.     2436        2005    1992    23
 31.     2436        2006    1992    21
 32.     2436        2007    1992    100
 33.     2436        2008    1992    73
 34.     2436        2009    1992    23
 35.     2436        2010    1992    40
 36.     2437        2002    2002    30
 37.     2437        2003    2002    31
 38.     2437        2004    2002    21
 39.     2437        2006    2002    56
 40.     2437        2007    2002    20
 41. end 

 . scalar N = _N 

 . bysort firm_id (year) : gen gap = year - year[_n-1] 
 (6 missing values generated)

 . expand gap
 (6 missing counts ignored; observations not deleted)
 (4 observations created)

 . gen orig = _n <= scalar(N) 

 . bysort firm_id (year) : replace total_workers = . if !orig
 (4 real changes made, 4 to missing)

 . bysort firm_id (year orig) : replace year = year[_n-1] + 1 if _n > 1 & year != year[_n-1] + 1 
 (4 real changes made)

 . bysort firm_id (year): ipolate total_workers year , gen(total_workers2)

 . list, sepby(firm_id) 

      +------------------------------------------------------------+
      | firm_id   year   dyrstr   total_~s   gap   orig   total_~2 |
      |------------------------------------------------------------|
   1. |    2432   2002     1980         29     .      1         29 |
   2. |    2432   2003     1980         23     1      1         23 |
   3. |    2432   2004     1980          .     2      0        153 |
   4. |    2432   2005     1980        283     2      1        283 |
   5. |    2432   2006     1980         56     1      1         56 |
   6. |    2432   2007     1980         21     1      1         21 |
      |------------------------------------------------------------|
   7. |    2433   2004     2001         42     .      1         42 |
   8. |    2433   2005     2001          .     2      0       35.5 |
   9. |    2433   2006     2001         29     2      1         29 |
  10. |    2433   2007     2001          .     2      0       64.5 |
  11. |    2433   2008     2001        100     2      1        100 |
      |------------------------------------------------------------|
  12. |    2434   2002     2002         21     .      1         21 |
  13. |    2434   2003     2002         55     1      1         55 |
  14. |    2434   2004     2002         22     1      1         22 |
  15. |    2434   2005     2002         24     1      1         24 |
  16. |    2434   2006     2002         17     1      1         17 |
  17. |    2434   2007     2002         40     1      1         40 |
  18. |    2434   2008     2002        110     1      1        110 |
  19. |    2434   2009     2002        158     1      1        158 |
  20. |    2434   2010     2002         38     1      1         38 |
      |------------------------------------------------------------|
  21. |    2435   2002     2002         80     .      1         80 |
  22. |    2435   2003     2002         86     1      1         86 |
  23. |    2435   2004     2002        877     1      1        877 |
  24. |    2435   2005     2002        254     1      1        254 |
  25. |    2435   2006     2002         71     1      1         71 |
  26. |    2435   2007     2002        116     1      1        116 |
  27. |    2435   2008     2002        118     1      1        118 |
  28. |    2435   2009     2002       1165     1      1       1165 |
  29. |    2435   2010     2002         67     1      1         67 |
      |------------------------------------------------------------|
  30. |    2436   2002     1992         24     .      1         24 |
  31. |    2436   2003     1992         25     1      1         25 |
  32. |    2436   2004     1992         22     1      1         22 |
  33. |    2436   2005     1992         23     1      1         23 |
  34. |    2436   2006     1992         21     1      1         21 |
  35. |    2436   2007     1992        100     1      1        100 |
  36. |    2436   2008     1992         73     1      1         73 |
  37. |    2436   2009     1992         23     1      1         23 |
  38. |    2436   2010     1992         40     1      1         40 |
      |------------------------------------------------------------|
  39. |    2437   2002     2002         30     .      1         30 |
  40. |    2437   2003     2002         31     1      1         31 |
  41. |    2437   2004     2002         21     1      1         21 |
  42. |    2437   2005     2002          .     2      0       38.5 |
  43. |    2437   2006     2002         56     2      1         56 |
  44. |    2437   2007     2002         20     1      1         20 |
      +------------------------------------------------------------+

InformationsquelleAutor Nick Cox

1

Les travaux suivants, si, comme dans votre exemple de base de données, vous n'avez pas de années consécutives manquant pour une entreprise donnée. J'ai aussi assumer la variable Lack être numériques et le résultat final est un panel non équilibré (vous n'étiez pas précis sur ce point dans votre question).
```
* Expand database
expand 2 if Lack == 1, gen(x)
gsort firm_id year -x

* Substitution rules
replace year = year - 1 if x == 1
replace total_workers = (total_workers[_n-1] + total_workers[_n+1])/2 if x == 1

list, sepby(firm_id)
```
La expand ligne pourrait être réécrite comme expand Lack + 1, gen(x), mais peut-être qu'il est plus clair de cette façon.

Pour le cas plus général dans lequel vous ne ont années consécutives manquant, la suite devrait vous obtenir a commencé sous l'hypothèse que Lack spécifie le nombre d'années consécutives manquant. Par exemple, si il y a un saut de 2006 à 2009 pour une entreprise donnée, puis Lack = 2 pour l'année 2009 de l'observation.
```
* Expand database
expand Lack + 1, gen(x)
gsort firm_id year -x

* Substitution rules
replace year = year[_n-1] + 1 if x == 1
```
Maintenant, il vous suffit de venir avec une règle d'imputation pour votre total_workers:
```
replace total_workers = ...
```
Si Lack est une chaîne de caractères, de les convertir en numérique à l'aide de real.

InformationsquelleAutor Roberto Ferrer
1

Vous avez déjà reçu la réponse, mais j'ai eu à faire la même avant et utilisez toujours la cross commande comme suit. Dire que je suis à l'aide de votre jeu de données déjà & continuer avec le code suivant:
```
tempfile master year
save `master'
preserve
keep year
duplicates drop
save `year'

restore
//next two lines set me up to correct for different year ranges by firm; if year ranges were standard, this would be omitted
bys firm_id: egen minyear=min(year)
bys firm_id: egen maxyear=max(year)
keep firm_id minyear maxyear
duplicates drop
cross using `year'
merge m:1 firm_id year using `master', assert(1 3) nogen
drop if year<minyear | year>maxyear //this adjusts for years outside the earliest and latest years observed by firm; if year ranges standard, again omitted
```
Puis à partir de là, utilisez le ipolate de commande dans l'esprit de @NickCox.

Je suis particulièrement intéressé par les avantages/inconvénients quant à l'utilisation de expand et cross. (Au-delà du fait que mon utilisation ici spécifiquement des charnières sur >0 enregistrements pour chaque année observée pour la construction de la traversée du dataset, qui pourrait être éliminé si je crée le `year' tempfile différemment.)
- Les avantages et les inconvénients de expand et cross: Une version antérieure de ma réponse utilisé fillin, qui est lié à cross, mais ensuite j'ai eu à faire ce que vous faites, retirez les observations ajouté au début et à la fin de la période qui ne leur appartenait pas. Elle vient en partie de style de préférence.
- à savoir, merci!
InformationsquelleAutor SOConnell

Vous devez vous connecter pour publier un commentaire.