Tp bioinfo
1. introduction
1.1 introduction x<-2 y<-3 z=x+y v<-c(1,2,3,4,5,6,7,8,9,10) v[5] 2. lecture et filtrage des données
2.1 lecture des données names(baby) nom des colonnes (bwt, weight, height, age, gestation, parity, smoke, tension) dim(baby) dimension du tableau 1236 x 8 head(baby) afficher quelques premières lignes du tableau
2.2 manipulation d’un data.frame
1. baby$age
2. baby$weight[4]
3. baby$weight[baby$parity==T]
2.3 filtrage des données
- plot(baby$age) 2 points qui indiquent « 100 ans » pas possible marquer ces 2 points par les NA (Not Available) ne pas tenir compte dans les calculs (de moyenne par ex)
- baby$age>80 valeurs booléennes qui indiquent si l’âge des mères sont supérieurs à 80 trouver 2 TRUE
- which(baby$age>80) position des points absurdes ci-dessus. CORRECTION DES DONNEES * AGE DES MERES 100 ans baby$age[400]<-NA baby$age[429]<-NA * POIDS DES BEBES normal, pas de valeurs absurdes * POIDS DES MERES (1000KG pas possible) baby$weight[which(baby$weight>800)] <- NA * TAILLE DES MERES normal, pas de valeurs aberrantes * GESTATION max 353 jours, et min 148 jours, mais c’est possible… * TENSION pas de valeurs aberrantes summary(baby) afficher valeurs max, min de chaques colonnes, nombre de NA, valeur médiane, etc.
3. distribution d’une variable hist(baby$bwt) ROLE DES OPTIONS freq=FALSE l’histogramme représentent densité de probabilité, la zone totale vaut donc 1. breaks indiquer le nombre de sous-intervalles représentés. REPARTITION DES DONNEES
Est-ce que les variables sont distribuées normalement ?
3.1 autour d’un graphe : légende, titre, unités * hist(baby$bwt, freq=FALSE, xlab="Poids des bébés en kgs", main="Répartition des poids des bébés à la naissance", ylab="Densité", col="green", breaks=50)
4. variables quantitatives
Etude les relations que l’on peut trouver entre des variables (après avoir vérifié graphiquement la