4 Introducción a R
4.1 Set de datos para trabajar
Para ésta sección vamos a trabajar con una tabla de datos que contiene información acerca de índices de diversidad de microorganismos presentes en 87 muestras de piel de 3 especies de ballena recolectadas en 3 zonas de Chile (Megaptera novaeangliae, Balaenoptera musculus, Balaenoptera physalus; Estrecho Magallanes, Chiloé, Reserva Nacional Pinguino de Humboldt).
- Usa la función
read.table()
para leer o cargar la tabla de datos a la memoria de R. La forma de cargar nuevos datos a la memoria de R, es asignar dicho set de datos a un objeto usando<-
(objeto <- datos).
data <- read.table(file = "data/IR_table1.csv", sep = ",", header = TRUE)
# Mira el panel superior derecho de RStudio
# Ahora, los datos se encuentran guardados en el objeto "data"
file = ""
, sep = ""
y header = TRUE/FALSE
son argumentos de la función read.table
. Cada vez que llamamos una función debemos usar argumentos para indicar datos de entrada y/o preferencias:
file = "data/IR_table1.csv"
para indicar archivo del cual queremos copiar datos y cargarlos a la memoria de R.sep = ","
para indicar el separador de columnas de la tabla.header = TRUE
para indicar que la tabla “IR_table1.csv” sí (“TRUE”) contiene headers o títulos de columna, de lo contrario usaríamos “FALSE”.
Puedes conocer la descripción de cualquier función y sus argumentos escribiendo “?” + “nombre de la función” en la consola de R (e.g., ?read.table
).
Cuando cargamos una tabla de datos usando la función read.table()
, ésta pasa a conformar lo que se conoce como un data frame en la memoria de R. Un data frame es una representación de los datos
en forma de tabla, donde las columnas son vectores, todos del mismo largo (igual número de filas). Un vector es el tipo de dato más básico en R, está compuesto por una serie de valores los que pueden ser números o caracteres.
- Usa la función
View()
para ver el contenido del objetodata
.
View(data)
- Prueba las siguientes funciones para inspeccionar nuestro nuevo data frame “data”:
## [1] 87 30
## [1] 87
## [1] 30
## sample_ID geo_loc_name species observed shannon
## 1 SRR6442697 Estrecho de Magallanes Megaptera novaeangliae 31 2.121629
## 2 SRR6442698 Estrecho de Magallanes Megaptera novaeangliae 33 1.499137
## 3 SRR6442699 Estrecho de Magallanes Megaptera novaeangliae 43 2.249373
## 4 SRR6442700 Estrecho de Magallanes Megaptera novaeangliae 29 1.306574
## 5 SRR6442701 Estrecho de Magallanes Megaptera novaeangliae 26 1.077438
## 6 SRR6442702 Estrecho de Magallanes Megaptera novaeangliae 21 1.131204
## richness_0 richness_20 richness_50 richness_80 diversities_inverse_simpson
## 1 31 31 31 31 6.112104
## 2 33 33 33 33 2.505873
## 3 43 43 43 43 7.388570
## 4 29 29 29 29 2.644111
## 5 26 26 26 26 1.873331
## 6 21 21 21 21 2.740500
## diversities_gini_simpson diversities_shannon diversities_fisher
## 1 0.8363902 2.121629 3.907415
## 2 0.6009375 1.499137 4.844428
## 3 0.8646558 2.249373 5.368153
## 4 0.6218011 1.306574 3.094775
## 5 0.4661914 1.077438 2.956294
## 6 0.6351030 1.131204 2.010698
## diversities_coverage evenness_camargo evenness_pielou evenness_simpson
## 1 3 0.02929889 0.6178324 0.028296778
## 2 1 0.01815948 0.4287528 0.011601264
## 3 3 0.03391424 0.5980465 0.034206345
## 4 1 0.01389960 0.3880188 0.012241256
## 5 1 0.01143026 0.3306954 0.008672827
## 6 2 0.01179407 0.3715539 0.012687499
## evenness_evar evenness_bulla dominance_dbp dominance_dmn dominance_absolute
## 1 0.08554199 0.06038316 0.3022210 0.4948605 3293
## 2 0.11572176 0.05579809 0.6138276 0.7063907 2699
## 3 0.07397473 0.05992808 0.2424974 0.4386486 3919
## 4 0.05943919 0.04011332 0.5250103 0.8384308 19071
## 5 0.08300059 0.04374973 0.7143736 0.8534960 13936
## 6 0.05585996 0.02383196 0.4903917 0.7767577 33864
## dominance_relative dominance_simpson dominance_core_abundance dominance_gini
## 1 0.3022210 0.1636098 0.5595631 0.9707011
## 2 0.6138276 0.3990625 0.8749147 0.9818405
## 3 0.2424974 0.1353442 0.5033723 0.9660858
## 4 0.5250103 0.3781989 0.9925120 0.9861004
## 5 0.7143736 0.5338086 0.9824175 0.9885697
## 6 0.4903917 0.3648970 0.9981030 0.9882059
## rarity_log_modulo_skewness rarity_low_abundance rarity_noncore_abundance
## 1 2.055226 0.009177680 0.076174743
## 2 2.060118 0.007505117 0.024789629
## 3 2.059857 0.005692717 0.282965163
## 4 2.057839 0.002890571 0.000220234
## 5 2.056901 0.004459709 0.001127742
## 6 2.049704 0.003301716 0.000086900
## rarity_rare_abundance
## 1 0.076174743
## 2 0.024789629
## 3 0.282965163
## 4 0.000220234
## 5 0.001127742
## 6 0.000086900
## sample_ID geo_loc_name species observed shannon
## 82 SRR6442787 Estrecho de Magallanes Megaptera novaeangliae 34 1.2165375
## 83 SRR6442788 Estrecho de Magallanes Megaptera novaeangliae 49 1.4508829
## 84 SRR6442789 Estrecho de Magallanes Megaptera novaeangliae 28 0.8779605
## 85 SRR6442790 Estrecho de Magallanes Megaptera novaeangliae 27 1.2337859
## 86 SRR6442792 Estrecho de Magallanes Megaptera novaeangliae 24 1.6592270
## 87 SRR6442794 Estrecho de Magallanes Megaptera novaeangliae 22 1.0682126
## richness_0 richness_20 richness_50 richness_80 diversities_inverse_simpson
## 82 34 34 34 34 2.370590
## 83 49 49 49 49 2.723141
## 84 28 28 28 28 2.132005
## 85 27 27 27 27 2.365953
## 86 24 24 24 24 3.274365
## 87 22 22 22 22 2.195027
## diversities_gini_simpson diversities_shannon diversities_fisher
## 82 0.5781641 1.2165375 3.789528
## 83 0.6327769 1.4508829 5.808398
## 84 0.5309578 0.8779605 3.261216
## 85 0.5773373 1.2337859 3.494975
## 86 0.6945973 1.6592270 3.350736
## 87 0.5444248 1.0682126 2.388742
## diversities_coverage evenness_camargo evenness_pielou evenness_simpson
## 82 1 0.01240594 0.3449839 0.010974954
## 83 1 0.01636409 0.3728032 0.012607132
## 84 1 0.01006692 0.2634774 0.009870391
## 85 1 0.01243090 0.3743468 0.010953485
## 86 1 0.01921725 0.5220890 0.015159097
## 87 1 0.01062587 0.3455833 0.010162163
## evenness_evar evenness_bulla dominance_dbp dominance_dmn dominance_absolute
## 82 0.07523218 0.02951427 0.6173890 0.7687722 18434
## 83 0.10265990 0.05934702 0.5651963 0.7234154 15132
## 84 0.10082495 0.02545193 0.5161512 0.9659794 9012
## 85 0.09603370 0.03539774 0.6129155 0.8023506 4850
## 86 0.10629033 0.05534884 0.5129630 0.6608796 2216
## 87 0.06442340 0.03291487 0.6099778 0.8939806 14562
## dominance_relative dominance_simpson dominance_core_abundance dominance_gini
## 82 0.6173890 0.4218359 0.9939380 0.9875941
## 83 0.5651963 0.3672231 0.8883203 0.9836359
## 84 0.5161512 0.4690422 0.9822451 0.9899331
## 85 0.6129155 0.4226627 0.9962088 0.9875691
## 86 0.5129630 0.3054027 0.8837963 0.9807828
## 87 0.6099778 0.4555752 0.9965652 0.9893741
## rarity_log_modulo_skewness rarity_low_abundance rarity_noncore_abundance
## 82 2.052933 0.003181727 0.000837297
## 83 2.057605 0.015164531 0.014044000
## 84 2.057562 0.006815578 0.014604811
## 85 2.059455 0.007456085 0.000884620
## 86 2.058916 0.004166667 0.001157407
## 87 2.054947 0.002303858 0.000376995
## rarity_rare_abundance
## 82 0.000837297
## 83 0.014044000
## 84 0.014604811
## 85 0.000884620
## 86 0.001157407
## 87 0.000376995
## sample_ID geo_loc_name
## NULL:SRR6442697 NULL:Estrecho de Magallanes
## NULL:SRR6442698 NULL:Estrecho de Magallanes
## NULL:SRR6442699 NULL:Estrecho de Magallanes
## NULL:SRR6442700 NULL:Estrecho de Magallanes
## NULL:SRR6442701 NULL:Estrecho de Magallanes
## NULL:SRR6442702 NULL:Estrecho de Magallanes
## NULL:SRR6442703 NULL:Estrecho de Magallanes
## NULL:SRR6442704 NULL:Estrecho de Magallanes
## NULL:SRR6442705 NULL:Estrecho de Magallanes
## NULL:SRR6442706 NULL:Estrecho de Magallanes
## NULL:SRR6442708 NULL:Estrecho de Magallanes
## NULL:SRR6442709 NULL:Estrecho de Magallanes
## NULL:SRR6442710 NULL:Estrecho de Magallanes
## NULL:SRR6442711 NULL:Estrecho de Magallanes
## NULL:SRR6442712 NULL:Estrecho de Magallanes
## NULL:SRR6442713 NULL:Estrecho de Magallanes
## NULL:SRR6442714 NULL:Estrecho de Magallanes
## NULL:SRR6442715 NULL:Estrecho de Magallanes
## NULL:SRR6442716 NULL:Estrecho de Magallanes
## NULL:SRR6442717 NULL:Chiloe
## NULL:SRR6442718 NULL:Chiloe
## NULL:SRR6442721 NULL:Chiloe
## NULL:SRR6442722 NULL:Chiloe
## NULL:SRR6442723 NULL:Chiloe
## NULL:SRR6442725 NULL:Chiloe
## NULL:SRR6442726 NULL:Chiloe
## NULL:SRR6442727 NULL:Chiloe
## NULL:SRR6442728 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442731 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442732 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442733 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442734 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442735 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442736 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442737 NULL:Chiloe
## NULL:SRR6442738 NULL:Chiloe
## NULL:SRR6442739 NULL:Chiloe
## NULL:SRR6442740 NULL:Chiloe
## NULL:SRR6442741 NULL:Chiloe
## NULL:SRR6442742 NULL:Chiloe
## NULL:SRR6442743 NULL:Chiloe
## NULL:SRR6442744 NULL:Chiloe
## NULL:SRR6442745 NULL:Chiloe
## NULL:SRR6442746 NULL:Chiloe
## NULL:SRR6442747 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442748 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442749 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442750 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442751 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442752 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442753 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442754 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442755 NULL:Chiloe
## NULL:SRR6442756 NULL:Chiloe
## NULL:SRR6442757 NULL:Chiloe
## NULL:SRR6442758 NULL:Chiloe
## NULL:SRR6442759 NULL:Chiloe
## NULL:SRR6442760 NULL:Chiloe
## NULL:SRR6442761 NULL:Chiloe
## NULL:SRR6442762 NULL:Chiloe
## NULL:SRR6442763 NULL:Chiloe
## NULL:SRR6442764 NULL:Chiloe
## NULL:SRR6442765 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442766 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442767 NULL:Estrecho de Magallanes
## NULL:SRR6442768 NULL:Reserva Nacional Pinguino de Humboldt
## NULL:SRR6442769 NULL:Estrecho de Magallanes
## NULL:SRR6442770 NULL:Estrecho de Magallanes
## NULL:SRR6442771 NULL:Estrecho de Magallanes
## NULL:SRR6442774 NULL:Estrecho de Magallanes
## NULL:SRR6442775 NULL:Estrecho de Magallanes
## NULL:SRR6442776 NULL:Estrecho de Magallanes
## NULL:SRR6442777 NULL:Estrecho de Magallanes
## NULL:SRR6442779 NULL:Estrecho de Magallanes
## NULL:SRR6442780 NULL:Estrecho de Magallanes
## NULL:SRR6442781 NULL:Estrecho de Magallanes
## NULL:SRR6442782 NULL:Estrecho de Magallanes
## NULL:SRR6442783 NULL:Estrecho de Magallanes
## NULL:SRR6442784 NULL:Estrecho de Magallanes
## NULL:SRR6442785 NULL:Estrecho de Magallanes
## NULL:SRR6442786 NULL:Estrecho de Magallanes
## NULL:SRR6442787 NULL:Estrecho de Magallanes
## NULL:SRR6442788 NULL:Estrecho de Magallanes
## NULL:SRR6442789 NULL:Estrecho de Magallanes
## NULL:SRR6442790 NULL:Estrecho de Magallanes
## NULL:SRR6442792 NULL:Estrecho de Magallanes
## NULL:SRR6442794 NULL:Estrecho de Magallanes
## species observed shannon richness_0
## NULL:Megaptera novaeangliae Min. :13.0 Min. :0.1675 Min. :13.0
## NULL:Megaptera novaeangliae 1st Qu.:28.0 1st Qu.:1.1493 1st Qu.:28.0
## NULL:Megaptera novaeangliae Median :36.0 Median :1.4509 Median :36.0
## NULL:Megaptera novaeangliae Mean :41.3 Mean :1.4610 Mean :41.3
## NULL:Megaptera novaeangliae 3rd Qu.:53.0 3rd Qu.:1.7976 3rd Qu.:53.0
## NULL:Megaptera novaeangliae Max. :84.0 Max. :3.1401 Max. :84.0
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera physalus
## NULL:Balaenoptera physalus
## NULL:Balaenoptera physalus
## NULL:Balaenoptera physalus
## NULL:Balaenoptera physalus
## NULL:Balaenoptera physalus
## NULL:Balaenoptera physalus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Balaenoptera musculus
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## NULL:Megaptera novaeangliae
## richness_20 richness_50 richness_80 diversities_inverse_simpson
## Min. :13.0 Min. :13.0 Min. :13.0 Min. : 1.052
## 1st Qu.:28.0 1st Qu.:28.0 1st Qu.:28.0 1st Qu.: 2.164
## Median :36.0 Median :36.0 Median :36.0 Median : 2.814
## Mean :41.3 Mean :41.3 Mean :41.3 Mean : 3.478
## 3rd Qu.:53.0 3rd Qu.:53.0 3rd Qu.:53.0 3rd Qu.: 4.137
## Max. :84.0 Max. :84.0 Max. :84.0 Max. :14.576
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
## diversities_gini_simpson diversities_shannon diversities_fisher
## Min. :0.04979 Min. :0.1675 Min. : 1.620
## 1st Qu.:0.53769 1st Qu.:1.1493 1st Qu.: 3.286
## Median :0.64461 Median :1.4509 Median : 4.056
## Mean :0.63208 Mean :1.4610 Mean : 5.018
## 3rd Qu.:0.75821 3rd Qu.:1.7976 3rd Qu.: 6.263
## Max. :0.93139 Max. :3.1401 Max. :13.163
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
## diversities_coverage evenness_camargo evenness_pielou evenness_simpson
## Min. :1.000 Min. :0.005441 Min. :0.04711 Min. :0.004872
## 1st Qu.:1.000 1st Qu.:0.012368 1st Qu.:0.32381 1st Qu.:0.010016
## Median :2.000 Median :0.016613 Median :0.38802 Median :0.013027
## Mean :1.701 Mean :0.018888 Mean :0.40233 Mean :0.016100
## 3rd Qu.:2.000 3rd Qu.:0.023079 3rd Qu.:0.49853 3rd Qu.:0.019151
## Max. :5.000 Max. :0.083105 Max. :0.74418 Max. :0.067482
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
## evenness_evar evenness_bulla dominance_dbp dominance_dmn
## Min. :0.05064 Min. :0.01145 Min. :0.1358 Min. :0.2602
## 1st Qu.:0.06995 1st Qu.:0.03536 1st Qu.:0.3772 1st Qu.:0.6092
## Median :0.09603 Median :0.04923 Median :0.4841 Median :0.7482
## Mean :0.10164 Mean :0.05415 Mean :0.5042 Mean :0.7221
## 3rd Qu.:0.12267 3rd Qu.:0.06665 3rd Qu.:0.6167 3rd Qu.:0.8478
## Max. :0.25815 Max. :0.19846 Max. :0.9747 Max. :0.9932
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
## dominance_absolute dominance_relative dominance_simpson
## Min. : 382 Min. :0.1358 Min. :0.06861
## 1st Qu.: 4856 1st Qu.:0.3772 1st Qu.:0.24179
## Median :13936 Median :0.4841 Median :0.35539
## Mean :16988 Mean :0.5042 Mean :0.36792
## 3rd Qu.:20533 3rd Qu.:0.6167 3rd Qu.:0.46231
## Max. :80901 Max. :0.9747 Max. :0.95021
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
## dominance_core_abundance dominance_gini rarity_log_modulo_skewness
## Min. :0.0063 Min. :0.9169 Min. :1.976
## 1st Qu.:0.4664 1st Qu.:0.9769 1st Qu.:2.054
## Median :0.9189 Median :0.9834 Median :2.058
## Mean :0.7313 Mean :0.9811 Mean :2.053
## 3rd Qu.:0.9736 3rd Qu.:0.9876 3rd Qu.:2.060
## Max. :0.9988 Max. :0.9946 Max. :2.061
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
## rarity_low_abundance rarity_noncore_abundance rarity_rare_abundance
## Min. :0.001072 Min. :0.0000869 Min. :0.0000869
## 1st Qu.:0.004414 1st Qu.:0.0017489 1st Qu.:0.0017489
## Median :0.007645 Median :0.0062500 Median :0.0062500
## Mean :0.010067 Mean :0.0630320 Mean :0.0630320
## 3rd Qu.:0.013359 3rd Qu.:0.0252855 3rd Qu.:0.0252855
## Max. :0.039322 Max. :0.9751045 Max. :0.9751045
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
##
4.2 Extraer información de tablas
Nuestra tabla de datos de estudio (data
) consta de filas y columnas (2 dimensiones), si queremos extraer algunos datos de interés, debemos especificar las “coordinadas” de los datos que queremos obtener. Primero el número(s) de fila, seguido por el número(s) de columna. Existen diferentes formas de especificar coordenadas, que nos llevaran a obtener datos de diferente clase o tipo.
- Primer elemento en la primera columna del data frame, como vector:
data[1, 1]
- Primer elemento en la sexta columna, como vector:
data[1, 6]
- Primera columna del data frame, como vector:
data[, 1]
- Primera columna del data frame, como data frame:
data[1]
- Primeros tres elementos en la séptima columna, como vector:
data[1:3, 7] # filas 1 a 3 de la columna 7
- La tercera fila del data frame, como data frame:
data[3, ]
- Equivalente a la función
head()
:
data[1:6, ]
- También puedes excluir datos usando el símbolo
-
(“todo menos…”):
data[, -1] # todo excepto la primera columna
data[-c(7:87), ] # equivalente a head(data)
La función c()
se utiliza para indicar una serie de valores o asignar una serie de valores a un vector (e.g., peso_kg <- c(60,55,64,80,74)
).
- También puedes extraer datos usando el nombre de las columnas o headers:
data["species"] # resultado como data.frame
data[, "species"] # resultado como vector
data[["species"]] # resultado como vector
data$species # resultado como vector
Puedes revisar los headers disponibles en tu data frame usando las funciones colnames(data)
o View(data)
.
RStudio cuenta con una muy útil función de autocompletado, presiona tab
(tabulador) para obtener nombres completos y correctos de funciones, columnas (headers), etc.
4.3 Factores
- La función
str()
muestra la estructura de un objeto e información acerca de la clase y contenido de cada columna:
## 'data.frame': 87 obs. of 30 variables:
## $ sample_ID : chr "SRR6442697" "SRR6442698" "SRR6442699" "SRR6442700" ...
## $ geo_loc_name : chr "Estrecho de Magallanes" "Estrecho de Magallanes" "Estrecho de Magallanes" "Estrecho de Magallanes" ...
## $ species : chr "Megaptera novaeangliae" "Megaptera novaeangliae" "Megaptera novaeangliae" "Megaptera novaeangliae" ...
## $ observed : int 31 33 43 29 26 21 37 32 28 30 ...
## $ shannon : num 2.12 1.5 2.25 1.31 1.08 ...
## $ richness_0 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ richness_20 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ richness_50 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ richness_80 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ diversities_inverse_simpson: num 6.11 2.51 7.39 2.64 1.87 ...
## $ diversities_gini_simpson : num 0.836 0.601 0.865 0.622 0.466 ...
## $ diversities_shannon : num 2.12 1.5 2.25 1.31 1.08 ...
## $ diversities_fisher : num 3.91 4.84 5.37 3.09 2.96 ...
## $ diversities_coverage : int 3 1 3 1 1 2 2 1 2 1 ...
## $ evenness_camargo : num 0.0293 0.0182 0.0339 0.0139 0.0114 ...
## $ evenness_pielou : num 0.618 0.429 0.598 0.388 0.331 ...
## $ evenness_simpson : num 0.0283 0.0116 0.03421 0.01224 0.00867 ...
## $ evenness_evar : num 0.0855 0.1157 0.074 0.0594 0.083 ...
## $ evenness_bulla : num 0.0604 0.0558 0.0599 0.0401 0.0437 ...
## $ dominance_dbp : num 0.302 0.614 0.242 0.525 0.714 ...
## $ dominance_dmn : num 0.495 0.706 0.439 0.838 0.853 ...
## $ dominance_absolute : int 3293 2699 3919 19071 13936 33864 5957 30937 10163 35049 ...
## $ dominance_relative : num 0.302 0.614 0.242 0.525 0.714 ...
## $ dominance_simpson : num 0.164 0.399 0.135 0.378 0.534 ...
## $ dominance_core_abundance : num 0.56 0.875 0.503 0.993 0.982 ...
## $ dominance_gini : num 0.971 0.982 0.966 0.986 0.989 ...
## $ rarity_log_modulo_skewness : num 2.06 2.06 2.06 2.06 2.06 ...
## $ rarity_low_abundance : num 0.00918 0.00751 0.00569 0.00289 0.00446 ...
## $ rarity_noncore_abundance : num 0.07617 0.02479 0.28297 0.00022 0.00113 ...
## $ rarity_rare_abundance : num 0.07617 0.02479 0.28297 0.00022 0.00113 ...
Como podrás ver en el output de str(data)
que las columnas sample_ID
, geo_loc_name
y species
son de una clase llamada Factor
. Factores representan datos categóricos. Son guardados en la memoria de R como números enteros (integers), los que pueden estar ordenados o desordenados.
Los factores contienen un set de valores pre-definidos, conocidos como levels. Por defecto, R ordena los levels en orden alfabético. Por ejemplo, en nuestro objeto data
la columna species
es un Factor
con 3 levels:
## NULL
## [1] 0
R asigna 1 al level “Balaenoptera musculus”, 2 al level “Balaenoptera physalus” y 3 al level “Megaptera novaeangliae”.
Algunas veces, el orden de los factores no importa, pero otras veces vamos a requerir especificar el orden porque es importante para el análisis o visualización de los datos. Una forma de re-ordenar los levels del factor species
es:
## NULL
data$species <- factor(data$species, levels = c("Megaptera novaeangliae", "Balaenoptera musculus", "Balaenoptera physalus"))
levels(data$species) # después de re-ordenar
## [1] "Megaptera novaeangliae" "Balaenoptera musculus" "Balaenoptera physalus"
4.3.1 Transformar factores
- Para transformar un
factor
a unvector
decaracteres
, puedes usar la funciónas.character()
:
as.character(data$species)
- Transformar o convertir factores cuyos niveles son números (e.g., años) a un vector numérico es un poco más complejo. La función
as.numeric()
muestra los números enteros asignados a cada level, no los niveles en si. Una manera de evitarlo es convertir los factores a caracteres, y luego a números:
year_fct <- factor(c(1990, 1983, 1977, 1998, 1990))
as.numeric(year_fct) # equivocado! sin mensajes de error...
## [1] 3 2 1 4 3
## [1] 1990 1983 1977 1998 1990
## [1] 1990 1983 1977 1998 1990
4.3.2 Renombrar factores
¿Necesitas renombrar algún elemento en tus datos? Supongamos que queremos cambiar el nombre de la especie “Megaptera novaeangliae” por el nombre común “ballena jorobada”.
species <- data$species # copiamos la columna "species" en un objeto aparte para no alterar nuestro set de datos original
head(species)
## [1] Megaptera novaeangliae Megaptera novaeangliae Megaptera novaeangliae
## [4] Megaptera novaeangliae Megaptera novaeangliae Megaptera novaeangliae
## 3 Levels: Megaptera novaeangliae ... Balaenoptera physalus
## [1] "Megaptera novaeangliae" "Balaenoptera musculus" "Balaenoptera physalus"
## [1] "ballena jorobada" "Balaenoptera musculus" "Balaenoptera physalus"
## [1] ballena jorobada ballena jorobada ballena jorobada ballena jorobada
## [5] ballena jorobada ballena jorobada
## Levels: ballena jorobada Balaenoptera musculus Balaenoptera physalus
# también puedes hacerlo para los otros dos levels
levels(species)[2] <- "ballena azul"
levels(species)[3] <- "ballena de aleta"
levels(species)
## [1] "ballena jorobada" "ballena azul" "ballena de aleta"
4.3.3 Argumento stringsAsFactors
Por defecto, al importar un data frame en R, las columnas que contienen caracteres (i.e. texto) son convertidas en factores. Dependiendo de qué queramos hacer con los datos, en algún caso podríamos necesitar que la columna se mantenga como caracter. Para ésto, la función read.table()
tiene disponible el argumento stringsAsFactors
que puede ser definido como “FALSE” (stringsAsFactors = FALSE
).
- Compara la diferencia entre la tabla de datos de estudio leída como
factor
vs.caracter
:
data <- read.table("data/IR_table1.csv", sep = ",", header = TRUE, stringsAsFactors = TRUE)
str(data)
## 'data.frame': 87 obs. of 30 variables:
## $ sample_ID : Factor w/ 87 levels "SRR6442697","SRR6442698",..: 1 2 3 4 5 6 7 8 9 10 ...
## $ geo_loc_name : Factor w/ 3 levels "Chiloe","Estrecho de Magallanes",..: 2 2 2 2 2 2 2 2 2 2 ...
## $ species : Factor w/ 3 levels "Balaenoptera musculus",..: 3 3 3 3 3 3 3 3 3 3 ...
## $ observed : int 31 33 43 29 26 21 37 32 28 30 ...
## $ shannon : num 2.12 1.5 2.25 1.31 1.08 ...
## $ richness_0 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ richness_20 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ richness_50 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ richness_80 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ diversities_inverse_simpson: num 6.11 2.51 7.39 2.64 1.87 ...
## $ diversities_gini_simpson : num 0.836 0.601 0.865 0.622 0.466 ...
## $ diversities_shannon : num 2.12 1.5 2.25 1.31 1.08 ...
## $ diversities_fisher : num 3.91 4.84 5.37 3.09 2.96 ...
## $ diversities_coverage : int 3 1 3 1 1 2 2 1 2 1 ...
## $ evenness_camargo : num 0.0293 0.0182 0.0339 0.0139 0.0114 ...
## $ evenness_pielou : num 0.618 0.429 0.598 0.388 0.331 ...
## $ evenness_simpson : num 0.0283 0.0116 0.03421 0.01224 0.00867 ...
## $ evenness_evar : num 0.0855 0.1157 0.074 0.0594 0.083 ...
## $ evenness_bulla : num 0.0604 0.0558 0.0599 0.0401 0.0437 ...
## $ dominance_dbp : num 0.302 0.614 0.242 0.525 0.714 ...
## $ dominance_dmn : num 0.495 0.706 0.439 0.838 0.853 ...
## $ dominance_absolute : int 3293 2699 3919 19071 13936 33864 5957 30937 10163 35049 ...
## $ dominance_relative : num 0.302 0.614 0.242 0.525 0.714 ...
## $ dominance_simpson : num 0.164 0.399 0.135 0.378 0.534 ...
## $ dominance_core_abundance : num 0.56 0.875 0.503 0.993 0.982 ...
## $ dominance_gini : num 0.971 0.982 0.966 0.986 0.989 ...
## $ rarity_log_modulo_skewness : num 2.06 2.06 2.06 2.06 2.06 ...
## $ rarity_low_abundance : num 0.00918 0.00751 0.00569 0.00289 0.00446 ...
## $ rarity_noncore_abundance : num 0.07617 0.02479 0.28297 0.00022 0.00113 ...
## $ rarity_rare_abundance : num 0.07617 0.02479 0.28297 0.00022 0.00113 ...
data <- read.table("data/IR_table1.csv", sep = ",", header = TRUE, stringsAsFactors = FALSE)
str(data)
## 'data.frame': 87 obs. of 30 variables:
## $ sample_ID : chr "SRR6442697" "SRR6442698" "SRR6442699" "SRR6442700" ...
## $ geo_loc_name : chr "Estrecho de Magallanes" "Estrecho de Magallanes" "Estrecho de Magallanes" "Estrecho de Magallanes" ...
## $ species : chr "Megaptera novaeangliae" "Megaptera novaeangliae" "Megaptera novaeangliae" "Megaptera novaeangliae" ...
## $ observed : int 31 33 43 29 26 21 37 32 28 30 ...
## $ shannon : num 2.12 1.5 2.25 1.31 1.08 ...
## $ richness_0 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ richness_20 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ richness_50 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ richness_80 : int 31 33 43 29 26 21 37 32 28 30 ...
## $ diversities_inverse_simpson: num 6.11 2.51 7.39 2.64 1.87 ...
## $ diversities_gini_simpson : num 0.836 0.601 0.865 0.622 0.466 ...
## $ diversities_shannon : num 2.12 1.5 2.25 1.31 1.08 ...
## $ diversities_fisher : num 3.91 4.84 5.37 3.09 2.96 ...
## $ diversities_coverage : int 3 1 3 1 1 2 2 1 2 1 ...
## $ evenness_camargo : num 0.0293 0.0182 0.0339 0.0139 0.0114 ...
## $ evenness_pielou : num 0.618 0.429 0.598 0.388 0.331 ...
## $ evenness_simpson : num 0.0283 0.0116 0.03421 0.01224 0.00867 ...
## $ evenness_evar : num 0.0855 0.1157 0.074 0.0594 0.083 ...
## $ evenness_bulla : num 0.0604 0.0558 0.0599 0.0401 0.0437 ...
## $ dominance_dbp : num 0.302 0.614 0.242 0.525 0.714 ...
## $ dominance_dmn : num 0.495 0.706 0.439 0.838 0.853 ...
## $ dominance_absolute : int 3293 2699 3919 19071 13936 33864 5957 30937 10163 35049 ...
## $ dominance_relative : num 0.302 0.614 0.242 0.525 0.714 ...
## $ dominance_simpson : num 0.164 0.399 0.135 0.378 0.534 ...
## $ dominance_core_abundance : num 0.56 0.875 0.503 0.993 0.982 ...
## $ dominance_gini : num 0.971 0.982 0.966 0.986 0.989 ...
## $ rarity_log_modulo_skewness : num 2.06 2.06 2.06 2.06 2.06 ...
## $ rarity_low_abundance : num 0.00918 0.00751 0.00569 0.00289 0.00446 ...
## $ rarity_noncore_abundance : num 0.07617 0.02479 0.28297 0.00022 0.00113 ...
## $ rarity_rare_abundance : num 0.07617 0.02479 0.28297 0.00022 0.00113 ...