HINWEIS: Die IDRE Statistical Consulting Group wird die Migration der Website auf das WordPress CMS im Februar, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group, indem Sie ein Geschenk geben Stata FAQ Wie kann ich fehlende Werte in verschiedene Kategorien umkodieren Stata erlaubt uns, verschiedene Arten von numerischen fehlenden Werten zu kodieren. Es verfügt über 27 numerische fehlende Kategorien. "Quote und quotieren. Z. B. Auf dieser Seite zeigen wir, wie man fehlende Werte in verschiedene Kategorien kodiert. Zuerst erstellen wir einen Datensatz zur Veranschaulichung. In diesem Datensatz sind alle Variablen numerisch und die Variablen female und ses fehlende Werte. Die nicht fehlenden Werte für variables Weibchen sind 0 (für männlich) und 1 (für weiblich). Die nicht fehlenden Werte für die Variable ses sind 0 (niedrig), 1 (med) und 2 (hoch). Die restlichen Werte gelten als fehlende Werte. Lets sagen, dass wir -999 in eine Kategorie -99 in einen anderen und den Rest der fehlenden Werte in eine dritte Kategorie für alle Variablen. Methode 1: Verwenden von Befehl Ersetzen Wir können fehlende Werte manuell durch ".a für -999," b für -99 und. c für den Rest der fehlenden Werte ersetzen. Zum Beispiel für variable weibliche. Können wir Folgendes tun: Der obige Codebuchbefehl zeigt, dass die Variable weiblich drei Arten von fehlenden Werten und 4 fehlenden Werten hat. Methode 2: Verwenden von Befehl mvdecode Methode 1 möglicherweise nicht die beste Art, fehlende Werte in verschiedene Kategorien umzukodieren. Für eine Sache, müssen wir es tun, eine Variable zu einer Zeit. Statas mvdecode Befehl kommt praktisch für uns. Noch besser können wir mit dem Schlüsselwort alle auf alle Variablen im Datensatz verweisen. Gehen von fehlenden Wertcodes zu numerischen Werten Das andere Problem, das wir hier behandeln, ist, wie man fehlende Wertcodes wieder in numerische Werte umwandelt. Das Kommando mvencode ist mit dem Befehl mvdecode gekoppelt, den wir oben besprochen haben und der hier zu verwenden ist. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, ein Buch oder ein Softwareprodukt von der University of California ausgelegt werden. Datenverwaltung In diesem Abschnitt beschreiben wir Stata-Datendateien, diskutieren, wie Rohdaten in Stata in freien und festen Formaten gelesen werden, wie Sie neue Variablen erstellen, wie Sie ein Dataset beschriften, das die Variablen und deren Werte beschreibt und wie Stata-Systemdateien zu verwalten sind . Stata 11 führte einen Variablenmanager ein, der die Bearbeitung von Variablennamen, Labels, Typen, Formaten und Notizen sowie Wertlabels ermöglicht. Dabei steht eine intuitive grafische Benutzeroberfläche zur Verfügung, die unter D ata V ariables Manager im Menüsystem verfügbar ist. Während der Manager ist sicherlich bequem, wir noch lieber schreiben alle Befehle in einer do-Datei, um Forschung Reproduzierbarkeit zu gewährleisten. Eine nette Eigenschaft des Managers ist jedoch, dass er die Stata-Befehle erzeugt, die benötigt werden, um die Änderungen durchzuführen, so dass es als Lernwerkzeug verwendet werden kann, und, solange Sie die Sitzung protokollieren, einen Datensatz hinterlässt. 2.1 Stata-Dateien Stata-Datensätze sind rechteckige Arrays mit n Beobachtungen auf m Variablen. Im Gegensatz zu Paketen, die jeweils eine Beobachtung lesen, hält Stata alle Daten im Speicher, was einen Grund dafür ist, warum es so schnell ist. Es gibt eine Grenze von 2.047 Variablen in StataIC, 32.767 in StataSE. Sie können so viele Beobachtungen wie Ihr Computer-Speicher zu ermöglichen, vorausgesetzt, Sie gehen nicht zu weit über 2 Milliarden Fällen. (Diese Begrenzungen finden Sie in den Hilfebegrenzungen.) 2.1.1 Variablennamen Variablennamen können bis zu 32 Zeichen haben, viele Befehle jedoch nur 12, und kürzere Namen sind einfacher zu tippen. Bei den Statennamen wird die Groß - / Kleinschreibung berücksichtigt. Alter und Alter sind verschiedene Variablen Es zahlt sich aus, eine Konvention für die Benennung von Variablen zu entwickeln und daran festzuhalten. Ich bevorzuge kurze Kleinbuchstaben und neigen dazu, einzelne Wörter oder Abkürzungen anstelle von Mehrwortnamen zu verwenden, zum Beispiel ziehe ich Anstrengungen oder fpe zu familyplanningeffort oder familyPlanningEffort vor, obwohl alle vier Namen legal sind. Beachten Sie die Verwendung von Unterstrichen oder Kamel-Gehäuse, um Wörter zu trennen. 2.1.2 Variablentypen Variablen können Zahlen oder Strings enthalten. Numerische Variablen können als Ganzzahlen (Bytes, Integer oder Longs) oder als Gleitkomma (float oder double) gespeichert werden. Diese Typen unterscheiden sich im Bereich oder der Genauigkeit der Werte, die sie enthalten können, geben Sie help Datentyp für Details ein. Normalerweise müssen Sie sich nicht um den Speichermodus kümmern. Stata führt alle Berechnungen mit Hilfe von double aus, wobei der Befehl compress die wirtschaftlichste Möglichkeit findet, jede Variable in Ihrem Dataset zu speichern. Geben Sie help compress ein, um weitere Informationen zu erhalten. Sie müssen vorsichtig sein mit logischen Vergleichen mit Gleitkomma-Typen. Wenn Sie 0.1 in einem Float namens x speichern Sie überrascht sein zu lernen, dass x 0,1 ist nie wahr. Der Grund dafür ist, dass 0.1 auf verschiedene Binärzahlen gerundet wird, wenn es als Float (x) oder als Doppel (die Konstante 0.1) gespeichert wird. Dieses Problem tritt nicht mit Ganzzahlen oder Zeichenfolgen auf. String-Variablen können in Stata 12 bis zu 244 Zeichen oder bis zu zwei Milliarden Zeichen in Stata 13 haben, wobei Sie str1 verwenden können. Str2045, um Strings mit einer festen Länge von bis zu 2045 Zeichen zu definieren, und strL, um einen langen String zu definieren, der für das Speichern von Klartext oder sogar für binäre Großobjekte wie Bilder oder Textverarbeitungsdokumente geeignet ist, geben Sie help string ein, um mehr zu lernen. Strings eignen sich ideal für id-Variablen, da sie problemlos verglichen werden können. Manchmal müssen Sie möglicherweise zwischen numerischen und String-Variablen zu konvertieren. Wenn eine Variable als String gelesen wurde, aber wirklich Zahlen enthält, dann wollen Sie den Befehl destring oder die Funktion real () verwenden. Andernfalls können Sie codieren, um String-Daten in eine numerische Variable konvertieren oder decodieren, um numerische Variablen in Zeichenfolgen konvertieren. Diese Befehle beruhen auf Wertelabels, die nachfolgend beschrieben werden. 2.1.3 Fehlende Werte Wie andere statistische Pakete unterscheidet Stata fehlende Werte. Der grundlegende fehlende Wert für numerische Variablen wird durch einen Punkt dargestellt. Ab der Version 8 gibt es 26 zusätzliche fehlende Wertcodes, die mit. a bis. z bezeichnet sind. Diese Werte werden intern als sehr große Zahlen dargestellt, so dass gültige Nummern lt. Lt. A lt. Ltz Um fehlende zu überprüfen, müssen Sie schreiben var gt. (Nicht var.). Stata hat eine Funktion, die diesen Vergleich durchführen kann, fehlt (varname) und ich empfehle es, weil es zu mehr lesbaren Code führt, z. Ich bevorzuge Liste Id wenn fehlende (Alter) auf Liste id, wenn Alter gt. Fehlende Werte für Zeichenfolgenvariablen werden durch die leere Zeichenfolge, die nicht mit einer Zeichenfolge verwechselt werden soll, die alle Leerzeichen sind, bezeichnet. Die demografische Umfrage Daten oft Codes wie 88 für nicht anwendbar und 99 für nicht ermittelt. Zum Beispiel kann das Alter bei der Heirat 88 für alleinstehende Frauen und 99 für Frauen, die bekanntermaßen verheiratet sind, aber nicht über ihr Alter bei der Ehe berichten, codiert werden. Sie werden oft wollen, um diese beiden Fälle mit verschiedenen Arten von fehlenden Wert-Codes zu unterscheiden. Wenn Sie 88s auf. n (für na oder nicht anwendbar) und 99s auf. m (für fehlende) umkodieren möchten, können Sie den Code verwenden. Manchmal möchten Sie eine Variable mit fehlenden Werten, aber ohne nicht zutreffende Fälle tabellieren. Wenn Sie dies oft tun, können Sie es vorziehen, 99 als einen regulären Code zu verlassen und definieren nur 88 als fehlt. Nur vorsichtig sein, wenn Sie dann eine Regression Stata Schiffe mit einer Reihe von kleinen Datasets, geben Sie sysuse dir eine Liste. Sie können eine beliebige davon verwenden, indem Sie sysuse name eingeben. Die Stata-Website ist auch ein Repository für Datensätze, die in den Stata-Handbüchern und in einer Reihe von statistischen Büchern verwendet werden. 2.2 Lesen von Daten in Stata In diesem Abschnitt wird beschrieben, wie Rohdaten-Dateien gelesen werden. Wenn Ihre Daten aus einem anderen statistischen Paket wie SAS oder SPSS stammen, sollten Sie ein Tool wie StatTransfer (stattransfer) oder DBMSCopy (dataflux) verwenden. Stata kann SAS-Transportdateien mit dem Befehl fdause lesen (so genannt, weil dies das Format ist, das von der Food and Drug Administration benötigt wird), geben Sie help fdause ein. Stata kann auch importieren und exportieren Excel-Kalkulationstabellen, geben Hilfe importieren Excel, um mehr zu lernen, und können Daten aus relationalen Datenbanken lesen, geben Sie help odbc für eine Einführung. 2.2.1 Freies Format Wenn Ihre Daten im freien Format vorliegen, können Sie mit dem Befehl inf lile Variablen, die durch Leerzeichen, Kommas oder Tabulatoren getrennt sind, verwendet werden. Ein Beispiel für eine freie Formatdatei finden Sie unter den Daten der Familienplanung im Internet unter data. princeton. eduwws509datasets (lesen Sie die Beschreibung und klicken Sie auf effort. raw). Dies ist im Wesentlichen eine Textdatei mit vier Spalten, eine mit Ländernamen und drei mit numerischen Variablen, getrennt durch Leerzeichen. Wir können die Daten in Stata mit dem Befehl lesen Der Befehl inf ile folgt die Namen der Variablen. Da der Name des Landes ein String ist und nicht eine numerische Variable, wird der Name mit str14 vorangestellt. Die den Typ der Variablen als Zeichenfolge von bis zu 14 Zeichen festlegt. Alle anderen Variablen sind numerisch, was der Standardtyp ist. Dem Schlüsselwort folgt der Name der Datei, die eine Datei auf Ihrem Computer, ein lokales Netzwerk oder das Internet sein kann. In diesem Beispiel lesen wir die Datei direkt aus dem Internet. Und das ist alles, was es gibt. Für weitere Informationen zu diesem Befehl geben Sie infile1 ein. Um zu sehen, was wir haben, können wir ein paar Fälle auflisten. Spreadsheet-Pakete wie Excel exportieren oft Daten, die durch Tabs oder Kommas getrennt sind, mit einer Beobachtung pro Zeile. Manchmal hat die erste Zeile die Namen der Variablen. Wenn Ihre Daten in diesem Format vorliegen, können Sie sie mit dem Befehl insheet lesen. Dieser Befehl ist ein wenig einfacher als infile. Aber leider funktioniert nicht mit leer getrennten Werten. Geben Sie help insheet ein, um mehr zu erfahren. 2.2.2 Feste Format-Umfragedaten kommen häufig in festem Format mit einem oder mehreren Datensätzen pro Fall und jeder Variablen in einer festen Position in jedem Datensatz. Der einfachste Weg, um Daten mit festem Format zu lesen, ist die Verwendung des Befehls infix, um die Spalten anzugeben, in denen sich jede Variable befindet. Wie es passiert, sind die Aufwandsdaten ordentlich in Spalten aufgereiht, so dass wir sie wie folgt lesen konnten: Dies sagt, den Ländernamen aus den Spalten 4-17 zu lesen, von den Spalten 23-24 zu setzen, und so weiter. Es ist natürlich wichtig, die richtigen Spalten zu lesen. Wir haben angegeben, dass das Land eine String-Variable war, aber die Breite nicht angeben musste, was klar war, dass die Daten in den Spalten 4-17 sind. Die Option clear wird verwendet, um den vorhandenen Datensatz im Speicher zu überschreiben. Wenn Sie über eine große Anzahl von Variablen verfügen, sollten Sie die Namen und Speicherorte in einer separaten Datei eingeben, die als Dictionar y bezeichnet wird und dann über den Befehl infix aufgerufen werden kann. Versuchen Sie, das folgende Wörterbuch in eine Datei namens effort. dct zu schreiben: Wörterbücher akzeptieren nur Kommentare und diese müssen nach der ersten Zeile erscheinen. Nachdem Sie diese Datei gespeichert haben, können Sie die Daten mit dem Befehl lesen. Beachten Sie, dass Sie nun das Wörterbuch verwenden, das wiederum die Datendatei verwendet. Anstatt den Namen der Datendatei im Wörterbuch anzugeben, können Sie sie als Option für den Befehl infix angeben, indem Sie das Formular infix mit dictionaryfile verwenden. Verwenden (Datendatei). Die erste Verwendung spezifiziert das Wörterbuch und die zweite Verwendung ist eine Option, die die Datendatei spezifiziert. Dies ist besonders nützlich, wenn Sie ein Wörterbuch verwenden möchten, um mehrere Dateien im gleichen Format zu lesen. Wenn sich Ihre Beobachtungen über mehrere Datensätze oder Zeilen erstrecken, können Sie sie immer noch mit Infix lesen, solange alle Beobachtungen die gleiche Anzahl von Datensätzen haben (nicht unbedingt alle die gleiche Breite). Weitere Informationen finden Sie in der Hilfe infix. Der Befehl infile kann auch mit Festformatdaten und einem Wörterbuch verwendet werden. Dies ist ein sehr mächtiger Befehl, der Ihnen eine Reihe von Optionen nicht mit infix zur Verfügung stellt, zum Beispiel können Sie definieren, Variable Etiketten rechts im Wörterbuch, aber die Syntax ist ein bisschen komplizierter. Siehe Hilfe infile2. In den meisten Fällen werden Sie feststellen, dass Sie Free-Format-Daten mit Infile und Festformat-Daten mit infix lesen können. Weitere Informationen zu den Trade-offs finden Sie unter help infiling. Daten können auch direkt über den Eingabebefehl in Stata eingegeben werden, siehe Hilfeinformation. Oder über den integrierten Stata-Dateneditor über den D ataData Editor im Menüsystem. 2.3 Datendokumentation Nachdem Sie Ihre Daten in Stata eingelesen haben, ist es wichtig, eine Dokumentation zu erstellen. In diesem Abschnitt sehen wir, wie Sie Dataset-, Variablen - und Wertelabel erstellen und wie Sie Notizen für die Daten oder Variablen erstellen. 2.3.1 Datennetikett und Notizen Mit Stata können Sie Ihren Dataset mit dem Labeldatenbefehl und einem Label mit bis zu 80 Zeichen (244 in Stata SE) kennzeichnen. Sie können auch Notizen mit bis zu 64 KB Zeichen hinzufügen, indem Sie den Befehl notes und anschließend einen Doppelpunkt und dann den Text verwenden: Benutzer der Daten können Notizen eingeben, um Ihre Annotation zu sehen. Die sorgfältige Dokumentation Ihrer Daten zahlt sich aus. 2.3.2 Variablenetiketten und Notizen Sie können Ihre Variablen mit dem Variablenbezeichner label und anschließend mit dem Namen der Variablen und einem Label mit bis zu 80 Zeichen in Anführungszeichen versehen (und sollten). Mit dem Befehl infile können Sie diese Labels dem Wörterbuch hinzufügen, das für sie ein natürliches Heim ist. Andernfalls sollten Sie eine do-Datei mit allen Labels vorbereiten. Hier können Sie Etiketten für die drei Variablen in unserem Datensatz definieren: Mit Stata können Sie auch Notizen zu bestimmten Variablen hinzufügen, indem Sie den Befehl notes varname verwenden. Text. Beachten Sie, dass dem Befehl ein Variablenname und dann ein Doppelpunkt folgt: Typ beschreiben und dann Notizen, um unsere Arbeit so weit zu überprüfen. 2.3.3 Werteetiketten Sie können die Werte kategorialer Variablen auch beschriften. Unser Dataset hat keine kategorischen Variablen, aber können wir eine erstellen. Wir erstellen eine Kopie der Familienplanungsvariablen und gruppieren sie dann in drei Kategorien, 0-4, 5-15 und 15, die schwache, moderate und starke Programme darstellen (die Erzeugung und die Rekodierung, die in den ersten beiden Zeilen verwendet werden, werden beschrieben Im nächsten Abschnitt, wo wir auch zeigen, wie alle diese Schritte mit nur einem Befehl zu erreichen): Stata hat einen zweistufigen Ansatz zur Definition von Etiketten. Zuerst definieren Sie einen benannten Labelsatz, der ganzzahlige Codes mit Labeln von bis zu 80 Zeichen (244 in Stata SE) verknüpft, indem Sie den Befehl label define verwenden. Anschließend ordnen Sie den Labelsatz mit einer Variablen über den Befehl label values zu. Oft verwenden Sie den gleichen Namen für den Label-Satz und die Variable, wie wir in unserem Beispiel. Ein Vorteil dieser Vorgehensweise ist, dass Sie für mehrere Variablen denselben Labelsatz verwenden können. Das kanonische Beispiel ist label define yesno 1 yes 0 no. Die dann mit allen 0-1-Variablen in Ihrem Dataset verknüpft werden können, indem ein Befehl der Formular-Label-Werte Variablenname yesno für jeden verwendet wird. Wenn Sie Etiketten definieren, können Sie die Anführungszeichen weglassen, wenn das Label ein einzelnes Wort ist, aber ich ziehe es vor, sie immer für Klarheit zu verwenden. Label-Sets können mit den Optionen add oder modify geändert werden. (Liste nur Namen) oder Label-Liste (Listen Namen und Labels), und gespeichert werden, um eine do-Datei mit Label speichern. Geben Sie help label ein, um mehr über diese Optionen und Befehle zu erfahren. Sie können auch Etiketten in verschiedenen Sprachen wie unten erklärt haben. 2.3.4 Mehrsprachige Etiketten (Dieser Teilbereich kann ohne Kontinuitätsverlust übersprungen werden.) Eine Stata-Datei kann Etiketten in mehreren Sprachen speichern und Sie können sich frei von einem Satz zu einem anderen bewegen. Eine Beschränkung der mehrsprachigen Unterstützung in Version 13 und früher ist, dass Etiketten auf 7-Bit-Ascii-Zeichen beschränkt waren, so dass Sie nicht Buchstaben mit diakritischen Zeichen wie Akzente enthalten konnten. Diese Einschränkung wurde mit der Einführung der Unicode-Unterstützung in Stata 14 entfernt, so dass Sie diakritische Zeichen und andere nicht-ascii-Zeichen verwenden können, nicht nur in Labels, sondern überall in Stata. Nun, illustrieren Sie die Idee, indem Sie spanische Labels für unsere Datenmenge. Im Anschluss an die Stata-Empfehlungen werden wir die ISO-Standard-Zwei-Buchstaben-Sprachcodes, en für Englisch und es für Spanisch verwenden. Zunächst verwenden wir Etikettensprache, um die aktuelle Sprache auf en umzubenennen. Und erstellen Sie eine neue Sprache set es: Wenn Sie Desc jetzt eingeben, werden Sie feststellen, dass unsere Variablen keine Labels haben Wir konnten die englischen kopiert haben, indem Sie die Option copy verwenden. Aber das würde nicht retten uns jede Arbeit in diesem Fall. Hier sind spanische Versionen der Daten und Variablenlabels: Diese Definitionen überschreiben nicht die entsprechenden englischen Labels, sondern koexistieren mit ihnen in einem parallelen spanischen Universum. Bei Value-Labels musst du etwas vorsichtiger sein, aber du kannst den Label-Set namens effortg nicht neu definieren, da es nur die Assoziation zwischen einer Variablen und einem Satz von Labels, nicht den Labels selbst, ist, die in einer Sprache gespeichert sind. Was Sie tun müssen, ist ein neues Label-Set zu definieren, welll nennen es Mühe. Indem Sie den alten Namen und den neuen Sprachcode kombinieren und ihn dann der Variablen effortg zuordnen: Sie können den Befehl describe jetzt ausprobieren. Versuchen Sie tabulatorische Anstrengung: Als nächstes ändern wir die Sprache wieder auf Englisch und führen Sie die Tabelle erneut: Für weitere Informationen Typ Hilfe labellanguage. 2.4 Erstellen neuer Variablen Die wichtigsten Stata-Befehle zum Erstellen neuer Variablen sind generatereplace und recode. Und sie werden oft zusammen verwendet. 2.4.1 Generieren und Ersetzen Der Befehl generieren erzeugt eine neue Variable mit einem Ausdruck, der Konstanten, Variablen, Funktionen und arithmetische und logische Operatoren kombinieren kann. Lets mit einem einfachen Beispiel beginnen: hier ist, wie die Einstellung quadriert erstellen: Wenn Sie diesen Begriff in einer Regression verwenden Sie wissen, dass lineare und quadratische Termini sind sehr korreliert. Es kann eine gute Idee sein, die Variable zu zentrieren (indem Sie den Mittelwert subtrahieren), bevor Sie sie quadrieren. Hier laufen wir fließend zusammen, um die Ausgabe leise zu unterdrücken und den Mittelwert aus dem gespeicherten Ergebnis r (mean) abzurufen: Beachten Sie, dass ich einen anderen Namen für diese Variable verwendet habe. Stata wird nicht zulassen, dass Sie eine vorhandene Variable überschreiben, indem Sie generieren. Wenn Sie wirklich die Werte der alten Variablen ersetzen möchten, verwenden Sie stattdessen die Option Ersetzen. Sie können auch drop varnames verwenden, um eine oder mehrere Variablen aus dem Dataset zu löschen. 2.4.2 Operatoren und Ausdrücke Die folgende Tabelle zeigt die arithmetischen, logischen und relationalen Operatoren, die Sie in Ausdrücken verwenden können: gt größer oder gleich Heres, wie eine Indikatorvariable für Länder mit hohem Arbeitsprogramm erstellt wird: Dies ist eine allgemeine Stata idiom , Wobei die Tatsache ausgenutzt wird, daß logische Ausdrücke den Wert 1 wahr und 0 den Wert False haben. Eine gemeinsame Alternative ist, zu schreiben Die beiden Strategien liefern genau die gleiche Antwort. Beide werden falsch sein, wenn es fehlende Werte gibt, die als hoher Aufwand codiert werden, da fehlende Wertcodes sehr große Werte sind, wie in Abschnitt 2.1 oben erwähnt. Sie sollten eine gute Angewohnheit zu vermeiden, offene Vergleiche entwickeln. Meine bevorzugte Vorgehensweise ist die Verwendung, die für einen Aufwand über 14 gilt, falsch für einen Aufwand von weniger als oder gleich 14 und fehlt, wenn der Aufwand fehlt. Logische Ausdrücke können mit amp für und oder für oder kombiniert werden. Hier ist die Erstellung einer Indikatorvariable für den Aufwand zwischen 5 und 14: Hier brauchen wir uns um keine fehlenden Werte zu kümmern, sie werden durch die Klauselaufwand lt 14 ausgeschlossen. 2.4.3 Funktionen Stata hat eine große Anzahl von Funktionen, hier einige Häufig verwendete mathematische Funktionen, geben Sie help mathfun ein, um eine vollständige Liste zu sehen: den absoluten Wert von x die Exponentialfunktion von x die Ganzzahl, die durch Abschneiden von x gegen Null den natürlichen Logarithmus von x erhalten wird, wenn xgt0 die Log-Basis 10 von x (für xgt0) Das Log der Wahrscheinlichkeiten x: logit (x) ln (x (1-x)) das Maximum von x1, x2. Xn, ignoriert fehlende Werte das Minimum von x1, x2. Xn, ignoriert fehlende Werte x gerundet auf die nächste ganze Zahl die Quadratwurzel von x wenn x gt 0 Diese Funktionen werden automatisch auf alle Beobachtungen angewendet, wenn das Argument eine Variable in Ihrem Dataset ist. Stata hat auch eine Funktion zur Erzeugung von Zufallszahlen (nützlich in der Simulation), nämlich uniform (). Es hat auch einen umfangreichen Satz von Funktionen zur Berechnung von Wahrscheinlichkeitsverteilungen (benötigt für p-Werte) und deren Inversen (für kritische Werte erforderlich), einschließlich normal () für die normalen cdf und invnormal () für seine inverse, siehe Hilfe-Dichte-Funktionen für mehr Informationen. Zur Simulation normalverteilter Beobachtungen können Sie auch einige spezielle Funktionen zur Bearbeitung von Strings verwenden, siehe Hilfe-String-Funktionen. Und mit Datumsangaben, siehe Hilfe-Datum-Funktionen. 2.4.4 Recoding-Variablen Der recode-Befehl wird verwendet, um eine numerische Variable in Kategorien zu gruppieren. Angenommen, eine Fruchtbarkeitsuntersuchung hat das Alter in einzelnen Jahren für Frauen im Alter von 15 bis 49 Jahren, und Sie möchten es in 5-Jahres-Altersgruppen Code. Man könnte natürlich so etwas wie, aber dies funktioniert nur für regelmäßig beabstandeten Intervallen (und ist ein bisschen kryptisch). Das gleiche Ergebnis kann mit jedem Ausdruck in Klammern erhalten werden, ist eine Umkodierungsregel und besteht aus einer Liste oder einem Bereich von Werten, gefolgt von einem Gleichheitszeichen und einem neuen Wert. Ein Bereich, der mit einem Schrägstrich angegeben wird, enthält die beiden Grenzen, so dass 1519 15 bis 19 ist, die auch als 15 16 17 18 19 oder sogar 15 16 1719 angegeben werden können. Mit min können Sie auf den kleinsten Wert und max auf beziehen Beziehen sich auf den größten Wert, wie in min19 und 44max. Die Klammern können weggelassen werden, wenn die Regel den Formbereichswert hat, aber sie helfen gewöhnlich, den Befehl lesbarer zu machen. Werte werden der ersten Kategorie zugeordnet, wo sie fallen. Werte, die nie einer Kategorie zugeordnet sind, bleiben so, wie sie sind. Sie können else (oder) als letzte Klausel verwenden, um auf einen noch nicht zugewiesenen Wert zu verweisen. Alternativ können Sie fehlende und nonmissing verwenden, um sich auf nicht zugewiesenen fehlenden und nicht-vernachlässigten Werten zu beziehen, diese müssen die letzten beiden Klauseln sein und können nicht mit anderen kombiniert werden. In unserem Beispiel haben wir auch die gen () - Option verwendet, um eine neue Variable zu erzeugen, in diesem Fall age5, die standardmäßig die Werte der vorhandenen Variablen ersetzen soll. Ich empfehle dringend, dass Sie immer die Gen-Option verwenden oder eine Kopie der ursprünglichen Variable vor dem Umkodieren. Sie können in jeder Rekodierungsregel auch Wertelabelsätze angeben. Dies ist einfacher und weniger fehleranfällig, dass die Etiketten in einer separaten Anweisung erstellen. Mit der Option label (l abelname) können Sie den erzeugten Labels einen Namen zuordnen (der Standard ist derselbe wie der Variablenname). Hier ein Beispiel, das zeigt, wie man Familienplanungsaufwand in einem Schritt neu kodiert und beschreibt (vergleiche die vier in Abschnitt 2.4.2 beschriebenen Befehle). Es ist oft eine gute Idee, die ursprünglichen und umcodierten Variablen zu tabellieren, um zu überprüfen, ob die Transformation wie beabsichtigt funktioniert hat. (Dies ist natürlich nur möglich, wenn Sie eine neue Variable erzeugt haben). 2.5 Verwalten von Stata-Dateien Sobald Sie eine Stata-Systemdatei erstellt haben, möchten Sie sie mit dem Dateinamen speichern. ersetzen. Wobei die Ersetzungsoption wie üblich nur benötigt wird, wenn die Datei bereits vorhanden ist. Um eine in einer vorherigen Sitzung gespeicherte Stata-Datei zu laden, geben Sie den Befehl use filename ein. Wenn es temporäre Variablen gibt, die Sie in der gespeicherten Datei nicht benötigen, können Sie sie vor dem Speichern mit drop varnames löschen. Alternativ können Sie die Variablen angeben, die Sie beibehalten möchten. Bei großen Dateien, die Sie vor dem Speichern komprimieren möchten, schaut dieser Befehl die Daten an und speichert jede Variable im kleinstmöglichen Datentyp, der nicht zu einem Verlust an Genauigkeit führt. Es ist möglich, einer Stata-Datei Variablen oder Beobachtungen hinzuzufügen. Zum Hinzufügen von Variablen verwenden Sie das Merge-Kommando, das zwei (oder mehrere) Stata-Dateien benötigt, meist mit einer gemeinsamen ID, sodass Beobachtungen korrekt gekoppelt werden können. Eine typische Anwendung ist, Haushaltsinformationen zu einer einzelnen Datendatei hinzuzufügen. Geben Sie help merge ein, um mehr zu erfahren. Um Beobachtungen zu einer Datei hinzuzufügen, verwenden Sie den Befehl append, der erfordert, dass die Daten an eine Stata-Datei angehängt werden, die in der Regel dieselben Variablen wie das Dataset im Speicher enthält. Sie können zum Beispiel Daten für Patienten in einer Klinik haben und möglicherweise ähnliche Daten aus einer anderen Klinik anhängen. Geben Sie help, um weitere Informationen zu erhalten. Ein verwandter, aber spezialisierteren Befehl ist joinby. Die alle paarweise Kombinationen von Beobachtungen im Gedächtnis mit Beobachtungen in einem externen Datensatz bilden (siehe auch Kreuz). Kopie 2017 Germaacuten Rodriacuteguez, Princeton Universität
No comments:
Post a Comment