In: Statistics and Probability
A study was performed among 40 boys in a school in Edinburgh to look at the presence of spermatozoa in urine samples according to age [15]. The boys entered the study at 8−11 years of age and left the study at 12−18 years of age. A 24-hour urine sample was supplied every 3 months by each boy. Table 10.28 gives the presence or absence of sperm cells in the urine samples for each boy together with the ages at entrance and exit of the study and the age at the first sperm-positive urine sample. For all parts of this question, exclude boys who exited this study without 1 sperm-positive urine sample (i.e., boys 8, 9, 14, 25, 28, 29, 30). 10.47 Provide a stem-and-leaf plot of the age at first sperm-positive urine specimen. *10.48 If we assume that all boys have no sperm cells at age 11 (11.0 years) and all have sperm cells at age 18, then estimate the probability of first developing sperm cells at ages 12 (i.e., between 12.0 and 12.9 years), 13, 14, 15, 16, and 17. *10.49 Suppose mean age at spermatogenesis = 13.67 years, with standard deviation = 0.89 years and we assume that the age at spermatogenesis follows a normal distribution. The pediatrician would like to know what is the earliest age (in months) before which 95% of boys experience spermatogenesis because he or she would like to refer boys who haven’t experienced spermatogenesis by this age to a specialist for further follow-up. Can you estimate this age from the information provided in this part of the problem? *10.50 Suppose we are uncertain whether a normal distribution provides a good fit to the distribution of age at spermatogenesis. Answer this question using the results from Problems 10.47−10.49. (Assume that the large-sample method discussed in this chapter is applicable to these data.)
Age at
Boy Entrance First positive Exit Observations
1 10.3 13.4 16.7 − − − − − − − − − − + + − − − − + + + − − 2 10.0
12.1 17.0 − − − − − − − − + − − + + − + − − + − + − − − − − + + 3
9.8 12.1 16.4 − − − − − − − − + − + + − + + + + + + − − + + − + 4
10.6 13.5 17.7 − − − − − − − − − − − + + − − − + − − − − 5 9.3 12.5
16.3 − − − − − − − − − − − − + + − − − − + − − − − − − − − 6 9.2
13.9 16.2 − − − − − − − − − − − − − − − − − + − − − − − − − 7 9.6
15.1 16.7 − − − − − − − − − − − − − − − − − − − + − − − + 8 9.2 —
12.2 − − − − − − − − − − − − 9 9.7 — 12.1 − − − − − − − − − 10 9.6
12.7 16.4 − − − − − − − − − − − − + − + + + + + − − + + − + 11 9.6
12.5 16.7 − − − − − − − − − − + − − + − + − − + + + 12 9.3 15.7
16.0 − − − − − −− − − − − − − − − − − − − − − − − + + 14 9.6 — 12.0
− − − − − − − − − 16 9.4 12.6 13.1 − − − − − − − − − − + + + + 17
10.5 12.6 17.5 − − − − − − − + − + + + + + + + + − − + − − + + 18
10.5 13.5 14.1 − − − − − − − − − − + − − 19 9.9 14.3 16.8 − − − − −
− − − − − − − − − − + − − − − − + − + 20 9.3 15.3 16.2 − − − − − −
− − − − − − − − − − − − − − − + + + 21 10.4 13.5 17.3 − − − − − − −
− + + − + − + + − + − + + + 22 9.8 12.9 16.7 − − − − − − − − − − −
+ + + + − + + + + − + + − + − − 23 10.8 14.2 17.3 − − − − − − − − −
− − − + − − + + + − + 24 10.9 13.3 17.8 − − − − − − − − + + + + − +
+ + + + − + + − − 25 10.6 — 13.8 − − − − − − − − − − − 26 10.6 14.3
16.3 − − − − − − − − − − − − − + − − − + − − − 27 10.5 12.9 17.4 −
− − − − − − − + − + + + + − − − + + − − + + + + 28 11.0 — 12.4 − −
− − − − 29 8.7 — 12.3 − − − − − − − − − − − − − − 30 10.9 — 14.5 −
− − − − − − − − − − − − 31 11.0 14.6 17.5 − − − − − − − − − − − − +
+ + + + + + + + + − + 32 10.8 14.1 17.6 − − − − − − − − − − − + + −
− + − − − − − − 33 11.3 14.4 18.2 − − − − − − − − − − − + + − + + −
− + − − − − − 34 11.4 13.8 18.3 − − − − − − − + − − − + − − − + + +
− − + − + 35 11.3 13.7 17.8 − − − − − − − + + + − + − − − + + + − +
+ 36 11.2 13.5 15.7 − − − − − − − − − + − − − − − − − − 37 11.3
14.5 16.3 − − − − − − − − − − − + − + + − − − 38 11.2 14.3 17.2 − −
− − − − − − − − − + − − + − + + + + + + − 39 11.6 13.9 14.7 − − − −
− + − − − 40 11.8 14.1 17.9 − − − − + − + − + − + + + + − − − − 41
11.4 13.3 18.2 − − − − + + + − + − − − − − + + + + + − − 42 11.5
14.0 17.9 − − − − − − − + + − − − − − − − + + − + −
14.7
The stem plot is drawn in excel by following these steps,
Step 1: Write the data values for age at First positive in excel. The screenshot is shown below,
Step 2: Select the data values then DATA > Sort > OK. then Select Sort by: First positive, Sort On: Values, Order: Smallest to Largest. The screenshot is shown below,
Step 3: Make a stem by taking integer digit of data values, The screenshot is shown below,
Step 4: Write the decimal digits next to it's interger digit. The screenshot is shown below,
10.48
From the stem and leaf plot,
Thr probability is obtained by dividing the count by total count, (for eaxample, the probability for age 12 is 9/33=0.27272)
Stem | Leaf | Count | Probability | |||||||||||
12 | 1 | 1 | 5 | 5 | 6 | 6 | 7 | 9 | 9 | 9 | 0.272727273 | |||
13 | 3 | 3 | 4 | 5 | 5 | 5 | 5 | 7 | 8 | 9 | 9 | 11 | 0.333333333 | |
14 | 0 | 1 | 1 | 2 | 3 | 3 | 3 | 4 | 5 | 6 | 10 | 0.303030303 | ||
15 | 1 | 3 | 7 | 3 | 0.090909091 | |||||||||
Total count | 33 |
2.49
The earliest age before which 95% of boys experience spermatogenesis is obtained by using the z score for 95% confidence interval as follow (Since the age at spermatogenesis follows normal distribution),
Hence before age 14.81, 95% of boys will experience spermatogenesis.
14.50
The chi square goodness of fit is used to test for the normality of the observed frequency by using following steps in excel,
Step 1: The observed frequencies are,
Age | frequency |
<12.9 | 9 |
13-13.9 | 11 |
14-114.9 | 10 |
>15 | 3 |
Step 2: Now, the expected frequencies are obtained using the excel function =NORM.DIST(x,mean,std_deviation,cummulative)
Excel function | |
Pr(X<12.9) | NORM.DIST(12.9,13.9,0.89,TRUE) |
Pr(13<X<13.9) | NORM.DIST(13.9,13.9,0.89,TRUE)-NORM.DIST(13,13.9,0.89,TRUE) |
Pr(14<X<14.9) | NORM.DIST(14.9,13.9,0.89,TRUE)-NORM.DIST(14,13.9,0.89,TRUE) |
Pr(X>15) | 1-NORM.DIST(15,13.9,0.89,TRUE) |
Age | frequency | Probability | 33*Probability(Expected value) | (observed-Expected)^2/Expected | |
<12.9 | 9 | Pr(X<12.9) | 0.193473145 | 6.38461379 | 1.071363947 |
13-13.9 | 11 | Pr(13<X<13.9) | 0.376178944 | 12.41390516 | 0.161039397 |
14-114.9 | 10 | Pr(14<X<14.9) | 0.271915872 | 8.973223766 | 0.117490599 |
>15 | 3 | Pr(X>15) | 0.067537899 | 2.228750661 | 0.266887433 |
The p-value is obtained using the excel function, =CHISQ.DIST(1.61678,3,TRUE) where degree of freedom = n - 1 = 4 - 1 = 3.
The P-value > 0.05 at 5% significance level hence the observed frequency follow normal distribution.