13
1 Phân tích sliu sdng R: Thng kê mô tNguyn Bá Thanh 1 Tng quan Đo lường Tp hp và mu Tóm tt dng sliu: trung bình, phương sai, đlch chun, sai schun Phân tích đthChuyn đi dliu 2 Thang đo lường Thông thường, hu hết các hành vi quan sát được có thđo lường bng thang ratio Các biến tâm lý thường đo bng thang interval Có hai loi biến: Biến phân loi (nominal) và biến liên tc (ordinal, interval, ratio) 3 Phân loại Liên tục ordinal interval ratio Biến

Phân tích sốliệu sửdụng R: ống kê mô tả · 2013. 7. 29. · 2 Thang đo lường 4 • Nominal—Định danh, Biến phân loại không có thứ tự.Ví dụ như

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

  • 1

    Phân tích số liệu sử dụng R:Thống kê mô tả

    Nguyễn Bá Thanh

    1

    Tổng quan

    • Đo lường• Tập hợp và mẫu• Tóm tắt dạng số liệu: trung bình, phương sai,

    độ lệch chuẩn, sai số chuẩn• Phân tích đồ thị• Chuyển đổi dữ liệu

    2

    Thang đo lường• Thông thường, hầu hết các

    hành vi quan sát được có thể đo lường bằng thang ratio

    • Các biến tâm lý thường đo bằng thang interval

    • Có hai loại biến: Biến phân loại (nominal) và biến liên tục (ordinal, interval, ratio)

    3

    Phân loại Liên tục

    ordinal

    interval

    ratio

    Biến

  • 2

    Thang đo lường

    4

    • Nominal—Định danh, Biến phân loại không có thứ tự. Ví dụ như giới tính, màu tóc, có mặt, vắng mặt

    • Ordinal—Có thứ tự nhưng không có khoảng cách giữa các điểm khác nhau trong thang. Ví dụ như giai cấp xã hội, cấp bậc, giáo dục (tiểu học, trung học, đại học…)

    • Interval— Có khoảng cách bằng nhau giữa các vị trí kế tiếp nhau trong thang, nhưng vị trí 0 có sự thay đổi. Ví dụ về đo nhiệt độ ở các thang khác nhau.

    • Ratio—Thang đo lường cao nhất, có thể điều tra mức độ liên hệ của các điểm như sự khác biệt giữa chúng. Vị trí 0 là cố định. Ví dụ đo nhiệt độ, tuổi, cân nặng, chiều cao.

    Thang Ordinal • Ordinal: Biến thứ bậc, thứ hạng

    – Không chắc chắn khoảng cách giữa các số là như nhau.– Vị trí hoàn thành trên đường đua (vị trí thứ 1, vị trí thứ 2)

    5

    1 hour 2 hours 3 hours 4 hours 5 hours 6 hours 7 hours 8 hours

    1st place 2nd place 3rd place 4th place

    Thang Interval và Ratio • Interval: Sắp xếp theo khoảng cách có trật tự• Khoảng cách giữa số 1-2 bằng khoảng cách 3-4

    – Ví dụ: Chỉ số IQ thông thường sử dụng thang interal

    • Ratio: designates an equal-interval ordering with a true zero point (i.e., the zero implies an absence of the thing being measured)– Ví dụ: số mối quan hệ thân thiết một người có

    • Số “0” có ý nghĩa là không có• Một người có 4 mối quan hệ,gấp 2 lần nguời có 2 mối quan

    hệ6

  • 3

    Thống kê: Enquiry to the unknown

    Tập hợp MẫuTham số Ước lượng

    7

    Ước lượng giá trị trung bình của tập hợpChiều cao trung bình của dân số Việt Nam = 160 cm

    Độ lệch chuẩn (standard deviation) = 5.0 cm

    8

    ht

  • 4

    Tóm tắt về dữ liệu liên tục• Đo lường xu hướng tại tâm:

    – Trung bình(mean), số trung vị (median), số mode

    • Đo lường sự phân phối của số liệu:– Phương sai, độ lệch chuẩn, sai số chuẩn– Khoảng phần tư (interquartile range)

    10

    R commandslength(x), mean(x), median(x), var(x), sd(x)summary(x)

    Ví dụ trên Rheight

  • 5

    Đồ thị đường thẳng-Strip chart

    13

    30 40 50 60 70 80

    Tính liên tục của số liệu

    Đồ thị tần số - Histogram

    14

    Histogram of height

    height

    Freq

    uenc

    y

    30 40 50 60 70 80 90

    050

    100

    150

    200

    250

    Ý nghĩa của giá trị trung bình và SD• “Dân số Việt Nam trên 30 tuổi, nặng trung bình

    55.0 kg và độ lệch chuẩn là 8,2 kg.”• Điều này có ý nghĩa gì?

    15

    • 68% dân số trên có chiều cao khoảng từ 55 +/- 8.2*1 = 46.8 đến 63.2 kg

    • 95% dân số trên có chiều cao khoảng từ 55 +/- 8.2*1.96 = 38.9 đến 71.1 kg

  • 6

    Ý nghĩa của giá trị trung bình và SD• Phân phối về khối lượng của toàn bộ dân số có

    thể được thể hiện như sau:

    16

    1SD

    1.96SD

    Số liệu dạng phân loại

    • Số liệu phân loại: – Giới tính: nam, nữ– Chủng tộc: Á, Âu, Phi

    • Số liệu bán định lượng: – Tình trạng bệnh tật: ôn hòa, khá, nghiêm trọng– Giai đoạn của bệnh ung thư: I, II, III, IV– Ưa thích: Rất không thích, không thích, không ý

    kiến, thích, rất thích

    17

    Giá trị trung bình và phương sai của tỉ lệ

    • Một người tiêu dùng i có xác suất thích sản phẩm A là pi. Đảm bảo rằng tất cả người tiêu dùng đều độc lập, với xác suất là pi = p.

    • Phương sai của pi là var(pi) = p(1-p)

    18

    • Đối với một mẫu trong n người tiêu dùng, xác suất ước lượng mức độ ưa thích đối với sản phẩm A là:

    nppppp n ...321

    Và phương sai của p là:

    nppp 1var

  • 7

    Xấp xỉ phân phối thường của một phân phối nhịthức

    • Đối với cá nhân người tiêu dùng i, xác suất thích sản phẩm A là pi. Đảm bảo rằng tất cảngười tiêu dùng là độc lập thì pi = p.

    • Phương sai của pi là var(pi) = p(1-p)

    19

    • Đối với 1 mẫu của n người tiêu dùng, xác suất ước lượng mức độ ưa thích sản phẩm A là:

    nppppp n ...321

    Và phương sai của p là:

    nppp 1var

    Độ lệch chuẩn: n

    pps 1

    Xấp xỉ phân phối thường của một phân phối nhị thức

    • 10 người, 8 người thích A. • Tỉ lệ ưa thích A: p = 0.8• Phương sai: var(p) = 0.8(0.2)/10 = 0.016• Độ lệch chuẩn của p: s = 0.126• 95% CI of p: 0.8 + 1.96(0.126) = 0.55 to 1.00

    20

    Thống kê mô tảDữ liệu liên tục

    21

  • 8

    Paired t-test• Số liệu liên tục• Phân phối chuẩn• Hai mẫu không độc lập (phụ thuộc)

    22

    Paired t-test – ví dụ• Vấn đề: Đánh giá một loại thịt dưới ánh sáng trắng và ánh sáng đỏ

    về mức độ ưa thích loại thịt. 12 người tham gia được hỏi đánh giá mức độ đỏ của thịt dưới ánh sáng đỏ và ánh sáng trắng

    23

    Kết quả:Người AS đỏ AS trắng1 20 222 18 193 19 174 22 185 17 216 20 237 19 198 16 209 21 2210 17 2011 23 2712 18 24

    Paired t-test – phân tích

    24

    Người AS đỏ AS trắng Sự khác biệt

    1 20 22 2

    2 18 19 1

    3 19 17 -2

    4 22 18 -4

    5 17 21 4

    6 20 23 3

    7 19 19 0

    8 16 20 4

    9 21 22 1

    10 17 20 3

    11 23 27 4

    12 18 24 6

    GTTB 21.0 19.2 1.83

    SD 2.8 2.1 2.82

    Sự khác biệt: 1.83,

    SD: 0.81

    Sai số chuẩn (SE): SD/sqrt(n) = 0.81/sqrt(10) = 0.81

    T-test = (1.83 – 0)/0.81 = 2.23

    P-value = 0.0459

    Kết luận: Có sự khác nhau có ý nghĩa về hiệu ứng màu sắc của ánh sáng.

  • 9

    Paired t-test – R phân tíchred < -c(20,18,19,22,17,20,19,16,21,17,23,18)white < -c(22,19,17,18,21,23,19,20,22,20,27,24)t.test(red, white, paired=TRUE)

    25

    data: red and white t = -2.2496, df = 11, p-value = 0.04592alternative hypothesis: true difference in means is not

    equal to 0 95 percent confidence interval:-3.6270234 -0.0396433 sample estimates:mean of the differences

    -1.833333

    Two-sample t-test

    26

    Mẫu Nhóm 1 Nhóm21 x1 y1 2 x2 y23 x3 y34 x4 y45 x5 y5… …n xn ynKích thước n1 n2GTTB x y

    SD sx sy

    Sự khác biệt:

    D = x – y

    Phương sai của D:

    T-statistic:

    95% khoảng tin cậy:

    Two-group comparison: Ví dụ

    ID A B

    1 3 3

    2 7 1

    3 1 2

    4 9 4

    5 3 5

    6 4 2

    7 1 2

    8 2 5

    9 6 3

    10 7 2

    27

    ID A B11 5 312 8 413 5 214 9 315 4 516 6 417 4 318 3 119 9 320 5 2

    20 người tiêu dùng đánh giá mức độ ưa thích của hộ đối với 2 món ăn tráng miệng làm từ gạo (A & B)

  • 10

    Unpaired t-test -dùng Ra

  • 11

    Giải thích số liệu Phân màn hình thành 1

    dòng 2 cộtpar(mfrow=c(1,2))hist(g1)hist(g2)

    31

    Histogram of g1

    g1

    Fre

    quen

    cy

    0 10 20 30 40 50 60

    05

    1015

    Histogram of g2

    g2

    Fre

    quen

    cy

    0 5 10 20 30

    05

    1015

    Group 1:mean(g1) = 14.3sd(g1) = 15.7

    Group 2:mean(g2) = 7.7sd(g2) = 7.8

    Phân tích lại số liệu về lysozyme log.g1

  • 12

    So sánh hai tỉ lệ - Giả thiết

    34

    Nhóm1 2

    ____________________________________________

    Kích thước mẫu n1 n2Số sự kiện e1 e2Tỉ lệ của sự kiện p1 p2

    Sai khác biệt: D = p1 – p2Sai số khác biệt: SE = [p1(1–p1)/n1 + p2(1–p2)/n2]1/2Z = D / SE95% CI: D + 1.96(SE)

    Với (n1 + n2) > 20, và nếu Z > 2, có thể từ chối giả thiết Ho.

    So sánh hai tỉ lệ- Ví dụ

    35

    GroupHeroine Cocaine

    __________________________________________

    Sample size 100 100Number of deaths 90 36Mortality rate 0.90 0.36

    Thirty-day mortality rate (%) of 100 rats who had been exposed to heroine or cocain.

    Phân tích

    Difference: D = 0.90 – 0.36 = 0.54SE (D) = [0.9(0.1)/100 + 0.36(0.64)/100]1/2

    = 0.057Z = 0.54 / 0.057 = 9.54

    95% CI:0.54 + 1.96(0.057)0.43 to 0.65

    Kết luận: Từ chối giả thiết Ho.

    So sánh 2 tỉ lệ - Revents

  • 13

    So sánh hơn 2 tỉ lệ –Phân tích Chi square

    table(sex, ethnicity)ethnicity

    sex African Asian Caucasian OthersFemale 4 43 22 0Male 4 17 8 2

    37

    females