# gute Benennung
eignungstest_analyse.R
erstis_t_test.R
# schlechte Benennung
zeug.R erster_versuch.R
16 Best Practices
Dieser Abschnitt enthält einige Empfehlungen zur Verbesserung der Lesbarkeit eures R-Codes und zum Umgang mit Datensätzen.
Wenn wir anfangen, R häufiger zu verwenden und unsere Skripte mit anderen zu teilen, ist es wichtig, dass sie gut lesbar und verständlich sind. Andernfalls ist es schwierig, sich im Skript zurechtzufinden, und es kann passieren, dass man später selbst nicht mehr weiß, was im Skript gemacht wurde.
16.1 Style Guide
Im Folgenden werden einige Vorschläge aus dem einflussreichen Style Guide von Hadley Wickham vorgestellt. Wickham ist Chief Scientist bei Posit und unter anderem Autor der Pakete ggplot2 und tidyverse.
Natürlich gibt es noch viele andere Stile, um R-Code zu schreiben. Wichtiger als die Wahl eines bestimmten Stils ist die konsistente Anwendung des gewählten Stils.
16.1.1 Dateien
R-Skripte sollten so benannt werden, dass erkennbar ist, was sie beinhalten. Sie sollten auf .R enden.
16.1.2 Objekte
Objekte in einem Skript sollten klein geschrieben werden, Wörter können durch Unterstriche _
getrennt werden. Die Benennung sollte kurz und eindeutig sein, auch wenn dies nicht immer einfach ist. Auch sollten bereits in R vorhandene Begriffe (Funktionsnamen etc.) vermieden werden.
# gute Benennung
abi_schnitt
mathe_abschluss
# schlechte Benennung
mathematikabschlussnote T
16.1.3 Kommentare
Um eure Skripte lesbarer zu machen, ist es hilfreich, Kommentare mit #
einzufügen. Kommentare fassen kurz zusammen, was in eurem Skript passiert.
# Y-BOCS Skalenmittelwerte berechnen
<- rowMeans(ybocs_df[, c("frage 1", "frage 2", "frage 3", "frage 4",
ybocs_mean "frage 5", "frage 6", "frage 7", "frage 8",
"frage 9", "frage 10")])
16.1.4 Objektzuweisung
In R können neue Objekte entweder mit <-
oder mit =
erstellt werden. Wickham empfiehlt, neue Objekte ausschließlich mit <-
zu definieren und =
nur zur Spezifikation von Funktionsargumenten zu verwenden.
# Zum Beispiel so
<- 3.55
gewicht_geburt
# Nicht so
= 3.55 gewicht_geburt
16.1.5 Leerzeichen
Leerzeichen verbessern die Lesbarkeit des R-Codes. Dabei sind einige einfache Regeln zu beachten.
Vor und nach (mathematischen) Operatoren (=, +, -, <, > usw.) muss ein Leerzeichen stehen.
# Zum Beispiel so
<- mean(noten * LP, na.rm = TRUE)
schnitt
# Nicht so
<-mean(noten*LP,na.rm = TRUE) schnitt
Vor einem Komma stehen keine Leerzeichen, nach einem Komma schon.
# Zum Beispiel so
<- mean(noten * LP, na.rm = TRUE)
schnitt 5, ]
eignungstest[
# Nicht so
<- mean( noten * LP ,na.rm = TRUE )
schnitt 5,] eignungstest[
16.2 Datensätze
Bei der Arbeit mit Datensätzen müssen wir besonders sorgfältig vorgehen, damit unsere Analysen nachvollziehbar und reproduzierbar sind. Der Originaldatensatz sollte immer im Rohzustand vorliegen und niemals überschrieben werden. Alle Änderungen am Datensatz (z.B. Umkodierung oder Zusammenfassung von Variablen) sollten in einem Skript gespeichert werden. Ein geänderter Datensatz sollte als neue Datei gespeichert werden und im R-Skript einen neuen Namen erhalten.
# Original-Datensatz einlesen:
<- read.csv("eignungstest.csv")
eignungstest # Datensatz verändern
$positive_affect_1_recoded <- 5-eignungstest$positive_affect
eignungstest# veränderten Datensatz in neuer Datei speichern:
write.csv(eignungstest,
file = "eignungstest_recoded.csv")