9
1 การวางแผนการวิเคราะห์และ การประมวลผลข้อมูล ผู้ช่วยศาสตราจารย์นิคม ถนอมเสียง สาขาวิชาวิทยาการระบาดและชีวสถิติ คณะสาธารณสุขศาสตร์ มหาวิทยาลัยขอนแก่น Email: [email protected] การเขียนการวิเคราะห์ข้อมูล 1. การเตรียมข้อมูล ตรวจสอบความถูกต้องของข้อมูล ที่ได้จากแบบสอบถาม ทําการลง รหัส นําไปคีย์ข้อมูลและบันทึกข้อมูล 2 รอบ และทําการตรวจสอบ ความถูกต้องของข้อมูล (Validate) โดยใช้โปรแกรม Epidata Version 2.1b และวิเคราะห์ข้อมูลโดยโปรแกรม Stata Version 10.01 2. สถิติที่ใช้ในการศึกษา 2.1 สถิติเชิงพรรณนา เพื่ออธิบายลักษณะทั่วไปของกลุ่มตัวอย่างและ ปัจจัยต่างๆ ได้แก่ ความถีร้อยละ ค่าเฉลี่ย ส่วนเบี่ยงเบนมาตรฐาน 2.2 สถิติอนุมาน เพื่อศึกษาปัจจัยเสี่ยงต่อการรักษาซ้ําในโรงพยาบาล ของผู้ป่วยโรคปอดอุดกั้นเรื้อรัง ด้วยสถิติ Multiple Poisson Regression 2.3 กําหนดระดับนัยสําคัญทางสถิติในการศึกษาครั้งนี้ที่ระดับ 0.05 การวางแผนประมวลผลข้อมูล วิธีการที่ดําเนินการเกี่ยวกับข้อมูลเพื่อเตรียมการวิเคราะห์ - การตรวจสอบแก้ไขข้อมูลเบื้องต้น - การให้รหัสข้อมูล (coding) - การวางแผนการใช้คอมพิวเตอร์และ Software ที่เกี่ยวข้อง การตรวจสอบแก้ไขข้อมูลเบื้องต้น ความครบถ้วนของข้อมูล (completeness) ข้อมูลครบหรือไม่ , บันทึกอ่านออกหรือไม่ ความสอดคล้องของคําตอบ (consistency) ปัจจุบันท่านคุมกําเนิดหรือไม่ [ ] 1.ไม่คุมกําเนิด [ ] 2.คุมกําเนิด วิธีที่ท่านใช้คุมกําเนิด [ ] 1. ทําหมันหญิง [ ] 2. ใส่ห่วงอนามัย [] 3. ยาเม็ด [ ] 4. ยาฉีดคุมกําเนิด [ ] 5. อื่นๆ (ระบุ)…….…... คุณลักษณะของตัวอย่าง ตรงตามวัตถุประสงค์การวิจัย (characteristic of samples) การให้รหัสข้อมูล (coding) - Keep codes concise -รหัสสั้นๆ เช่น ชาย=1 หญิง=0 ไม่ใช่ 11, 00 - ไม่ควรกําหนดรหัสเป็นช่วงเช่น - น้ําหนักทารกแรกเกิด 2400 กรัม=1000-2500 3000 กรัม=2500-4000 - กําหนดรหัสเป็นตัวเลข -สั้นๆ, เรียงลําดับน้อยไปมาก -Keep the Codes Stable (Gender M,m,F,f ,1,0) -Make code that are unique -Allow codes to be sortable ------------------------------------------------------------------------------- storage display value variable name type format label variable label ------------------------------------------------------------------------------- idno int %8.0g identification number occ byte %8.0g occupation (1 = farmer 2=commerce 3=official 4=bank sex byte %8.0g gender (0=female 1=male) chol int %8.0g blood cholesterol level sysbp int %8.0g systolic blood pressure sysbp_p int %8.0g post systolic blood pressure diasbp int %8.0g diastolic blood pressure age byte %8.0g age in year fev1 byte %8.0g lung function test smoke byte %8.0g number smoking per day smoke_gr byte %8.0g smoking 0=no 1=yes height int %8.0g height in centimeter weight byte %8.0g weight in kilogram chol_p int %8.0g post blood cholesterol level coro byte %8.0g coronary heart disease (0=no 1=yes) ------------------------------------------------------------------------------- คู่มือลงรหัส

การวางแผนการวิเคราะห ์และ การ ......การวางแผนประมวลผลข อม ล วางแผนการใช

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

1

การวางแผนการวเคราะหและการประมวลผลขอมล

ผชวยศาสตราจารยนคม ถนอมเสยงสาขาวชาวทยาการระบาดและชวสถต

คณะสาธารณสขศาสตร มหาวทยาลยขอนแกนEmail: [email protected]

การเขยนการวเคราะหขอมล1. การเตรยมขอมล

ตรวจสอบความถกตองของขอมล ทไดจากแบบสอบถาม ทาการลงรหส นาไปคยขอมลและบนทกขอมล 2 รอบ และทาการตรวจสอบความถกตองของขอมล (Validate) โดยใชโปรแกรม EpidataVersion 2.1b และวเคราะหขอมลโดยโปรแกรม Stata Version 10.01

2. สถตทใชในการศกษา2.1 สถตเชงพรรณนา เพออธบายลกษณะทวไปของกลมตวอยางและ

ปจจยตางๆ ไดแก ความถ รอยละ คาเฉลย สวนเบยงเบนมาตรฐาน2.2 สถตอนมาน เพอศกษาปจจยเสยงตอการรกษาซาในโรงพยาบาล

ของผปวยโรคปอดอดกนเรอรง ดวยสถต Multiple PoissonRegression

2.3 กาหนดระดบนยสาคญทางสถตในการศกษาครงนทระดบ 0.05

การวางแผนประมวลผลขอมล

วธการทดาเนนการเกยวกบขอมลเพอเตรยมการวเคราะห- การตรวจสอบแกไขขอมลเบองตน- การใหรหสขอมล (coding)- การวางแผนการใชคอมพวเตอรและSoftware ทเกยวของ

การตรวจสอบแกไขขอมลเบองตน ความครบถวนของขอมล (completeness)

ขอมลครบหรอไม , บนทกอานออกหรอไม ความสอดคลองของคาตอบ (consistency)

ปจจบนทานคมกาเนดหรอไม [ ] 1.ไมคมกาเนด [ ] 2.คมกาเนดวธททานใชคมกาเนด[ ] 1. ทาหมนหญง [ ] 2. ใสหวงอนามย [] 3. ยาเมด[ ] 4. ยาฉดคมกาเนด [ ] 5. อนๆ (ระบ)…….…...

คณลกษณะของตวอยาง ตรงตามวตถประสงคการวจย (characteristic of samples)

การใหรหสขอมล (coding)- Keep codes concise -รหสสนๆ เชน ชาย=1 หญง=0 ไมใช 11, 00

- ไมควรกาหนดรหสเปนชวงเชน - นาหนกทารกแรกเกด 2400 กรม=1000-2500

3000 กรม=2500-4000- กาหนดรหสเปนตวเลข -สนๆ, เรยงลาดบนอยไปมาก

-Keep the Codes Stable (Gender M,m,F,f ,1,0)-Make code that are unique-Allow codes to be sortable

-------------------------------------------------------------------------------storage display value

variable name type format label variable label-------------------------------------------------------------------------------idno int %8.0g identification numberocc byte %8.0g occupation (1 = farmer

2=commerce 3=official 4=banksex byte %8.0g gender (0=female 1=male)chol int %8.0g blood cholesterol levelsysbp int %8.0g systolic blood pressuresysbp_p int %8.0g post systolic blood pressurediasbp int %8.0g diastolic blood pressureage byte %8.0g age in yearfev1 byte %8.0g lung function testsmoke byte %8.0g number smoking per daysmoke_gr byte %8.0g smoking 0=no 1=yesheight int %8.0g height in centimeterweight byte %8.0g weight in kilogramchol_p int %8.0g post blood cholesterol levelcoro byte %8.0g coronary heart disease (0=no

1=yes)-------------------------------------------------------------------------------

คมอลงรหส

2

การวางแผนประมวลผลขอมลวางแผนการใชเครองคอมพวเตอรและโปรแกรมทเกยวของ - Database and editing software เชน epidata, epiinfo etc.- Statistical software เชน STATA, R statistical (free) SPSS, SAS etc.

- Data entry to computer- Verification- Range Check- Consistency check- Missing Value and Data Check

Strategy for computer aides analysis1. Data collection -coding, form ,

data format (width, long, fixed/free format )2. Data entry -software/hardware ->file3. Data Checking -(two file) validation, range, consistency4. Data Screening -missing value, distribution, outliers5. Data analysis -appropriate statistics 6. Checking Results7. Interpretation

การวางแผนวเคราะหขอมล สงพจารณาในการวางแผนวเคราะหขอมล1. คาถามการวจย (Research Question) วตถประสงคของการ

วจย (objective) หรอสมมตฐานการวจย - Primary Outcome (end point) /Secondary outcome- Background Characteristics

2. รปแบบของการวจย (study design)3. ระดบการวดของตวแปร

วางแผนวเคราะหขอมล1. จดทาตารางหน (dummy table)2. พจารณาการใชสถตพรรณนาขอมล3. พจารณาการใชสถตเพอทดสอบสมมตฐานและ

การประมาณคา

ตารางหน (Dummy Table)- ตารางททาเตรยมไวเพอเปนแนวทางในการวเคราะห ตารางหนจะทาไวเพยงเปนรปรางใหเหนวา จะใสขอมลหรอคาสถตของตวแปรใดในสดมภและแถวใด

โครงการนยามศพทการวจยทางประชากรและสงคมในอนาคต สถาบนประชากรฯ ม.มหดล

- An empty or blank table (Sage, Dictionary of Statistics & Methodology )

ตารางหน -ขอมล พนฐาน (BackgroundTable 1 Baseline demographic characteristics, including smoking status and history.Values are expressed as means (SD); range or Median (Inter-quartile range)

mean (sd); rangemean (sd); rangeFTND score

mean (sd); rangemean (sd); rangeExhaled CO concentration (ppm)

mean (sd); rangemean (sd); rangeNo of cigarettes smoked day

mean (sd); rangemean (sd); rangeAge when started smoking (years)

mean (sd); rangemean (sd); rangeMen

mean (sd); rangemean (sd); rangeWomen

Weight (kg):

mean (sd); rangemean (sd); rangeAge (years)

nnNo of men

Active (n=200)Placebo (n=200)Variable

CO=carbon monoxide; FTND=Fagerström test for nicotine dependence.

3

Chris T Bolliger CT.,et al. Smoking reduction with oral nicotine inhalers: double blind, randomised clinical trial of efficacy and safety. BMJ. 2000 August 5; 321(7257): 329–333

ตวอยาง: ผลการวเคราะหจากตารงหน

การเตรยมตารางหน :การจดกลม1. ขอมลเชงปรมาณ

-ใชความรทางวชาการในการแบงกลม-พจารณาวตถประสงคการวจย เชน การแบงอายสตรวยเจรญพนธ,การแบง Severity ผปวย COPD

กลมอาย จานวน

คน %

<20 20-35 35-45

Faganello et al. BODE index and GOLD staging as predictors of 1-year exacerbation risk in chronic obstructive pulmonary disease. Am J Med Sci. 2010 Jan;339(1):10-4.

การเตรยมตารางหน :การจดกลม2. ขอมลเชงคณภาพ-มหลกเกณฑแนนอนในการจาแนกประเภทของกลม-กลมคาตอบควรครอบคลมทกคาตอบ-กลมคาตอบมลกษณะแตกตางกนอยางชดเจน

คาถาม: ทาอยางไรจงลดอบตเหตจราจรลงได………….คาตอบ- รกษากฎทงผขบขและผใชถนน - ปฏบตตามกฎจราจร- ทกคนควรรกฎจราจร - รกฎจราจร - ไมประมาท - ใหผขบขปฏบตตามกฎจราจร

การเตรยมตารางหน :การจดกลม

คาตอบ-ไมประมาท สวมหมวกกนนอก หมนตรวจสภาพรถ-ขชาๆ -เคารพกฎจราจร-ควรระมดระวง -อยาประมาท-ทกคนมความรเรองกฎจราจร -เพมโทษผกระทาผด-เพมความระมดระวง -ออกกฎหมายบงคบฯลฯ

การเตรยมตารางหน :การจดกลม

วธลดอบตเหตการจราจร จานวน (คน)

%

-ไมประมาท/ ระมดระวง/ ขบขชาๆ/ อยาขบเรว

-เคารพกฏจราจร/เพมโทษผกระทาผด/ออกกฏหมายบงคบ …

4

ตารางหน- ตวอยางการวเคราะหขอมล เพอทดสอบสมมตฐาน/การประมาณคา

- การทดสอบความสมพนธ Correlation ระหวางตวแปรตางๆ

Xp

X2

X1

Xp…X2X1Variable

P-value

Adjusted R2 = ... , F = ..., p-value ..., n = ...

Constant

Trigyceride

Age

Cholesterol

R2 changeR295%CIts.e.bVariable

ตารางหน- ตวอยาง การวเคราะหขอมล เพอทดสอบสมมตฐาน/การประมาณคา

- การวเคราะหสมการถดถอยพห (Multiple Regression)

Report Regression Table (Publication Manual of the American Psychological

Association sixth Edition,2010;pp 145.)

การวางแผนเลอกใชสถตในการวเคราะหขอมลสงพจารณาในการวางแผนเลอกใชสถต1. คาถามหรอวตถประสงคของการวจย (objective) หรอ

สมมตฐานการวจย2. รปแบบของการวจย (study design)3. ระดบการวดของตวแปร 4. ลกษณะการแจกแจงขอมล

5

คาถาม วตถประสงค หรอสมมตฐาน

1. พจารณาการใชสถตพรรณนา (Descriptive Statistics)เพอ อธบายกลมตวอยาง ขนาดของปญหา

2. พจารณาการใชสถตอนมาน (Inference Statistics)เพอทดสอบสมมตฐานและการประมาณคา-Parametric : Interval, Ratio Scale -Nonparametric : Nominal Ordinal Scale

: Interval, Ratio ขอมลมการแจกแจงไมปกต

สเกลการวดของตวแปร

1. นามสเกล (nominal Scale) เพศ กลมเลอด2. อนดบสเกล (Ordinal Scale) ทศนคต

ความพงพอใจ ระดบความเจบปวด3. ชวงสเกล (Interval Scale) IQ อณหภม4. อตราสวนสเกล (Ratio Scale) ชพจร

ความดนโลหต

Type of Variables

categorical data- nominal scale- ordinal scale -discrete -count

Response , Explanatory variable- response variable , dependent variable ,or Y variable- explanatory variable, independent variable or X variable

nominal

ordinalequalitativ

data discrete

data continuousvequantitati

Categorical data

สถตเชงพรรณนา (Descriptive Statistics)ขอมลตอเนอง (continuous data) เชนอาย นาหนก ความดนโลหต

- ขอมลมการแจกแจงแบบปกต : คาเฉลย สวนเบยงเบนมาตรฐาน- ขอมลมการแจกแจงแบบไมปกต (เบ: skewness) : มธยฐานinter-quartile (percentile)

ขอมลไมตอเนอง (categorical data) เชน เพศ อาชพ หมเลอด - การจดกลมตวแปรตอเนอง เชนจดกลม ความดนโลหตเปนสง ปกต ตา ฯลฯ

- สวนมากมสเกลการวดแบบนามสเกลและอนดบสเกล- นาเสนอเปน จานวน รอยละ (คาสดสวน p=ni/n)

การเลอกใช คาเฉลย หรอมธยฐานพจารณาจากการแจกแจงของขอมลขอมลมการแจกแจงแบบปกต ใชคาเฉลยขอมลมการแจกแจงแบบไมปกต ใชคามธยฐาน

การแจกแจงแบบปกต การแจกแจงแบบไมปกต (เบ: skewness)

วธตรวจสอบการแจกแจงแบบปกต- การ plot Normal probability plot- การ plot Histogram หรอ Stem & Leave plot- การทดสอบ Normality ดวย Shapiro-Wilk Test

Shapiro-Wilk W test for normal dataVariable | Obs W V z Pr > z---------+-------------------------------------------------

chol | 250 0.99483 0.938 -0.149 0.55907

p-value >.05 ขอมลมการแจกแจงแบบปกตsd > 1/2 ของ mean --> SkewedAltman,D.G. (1991). Practical Statistics for Medical Research. P36.

6

การนาเสนอ-ขอมลมการแจกแจงปกต คาเฉลย(สวนเบยงเบนมาตรฐาน)-ขอมลมการแจกแจงไมปกต มธยฐาน(interquartile range)ตวอยาง Q1, Q3

พจารณาการใชสถตเพอทดสอบสมมตฐาน1. คาถามหรอวตถประสงคของการวจย(objective) หรอสมมตฐานการวจย

2. รปแบบของการวจย (study design)พจารณาขนาดตวอยาง

3. พจารณา Assumption เชน-ระดบการวดของตวแปร -ความแปรปรวน -ลกษณะการแจกแจงขอมล

1. ทดสอบความแตกตางของคาเฉลย 1 กลม สถต One Sample t-test, Wilcoxon sign rank test

2. ทดสอบความแตกตาง 2 กลม 2.1 ขอมลอสระตอกน (Independent Data)

- Independent t-testขอกาหนด (Assumption)- ตวแปรมสเกล interval, ratio- ขอมลแตละกลม มการแจกแจงแบบปกต

กรณละเมด Assumption - Mann-Whitney U Test

ขอมลตอเนอง (Continuous Data) พจารณาการใชสถตเพอทดสอบสมมตฐาน

สถตทเลอกใช Parametric-independent t-test

1. 152. 183. 19

4. 205. 20

1. 122. 173. 18

4. 195. 14

?s

?x2

2

2

?s

?x2

1

1

คะแนนกลม Bคะแนนกลม A

21

pooled

21

n1

n1

S

xxt

Pooled Variance

7

พจารณาการใชสถตเพอทดสอบสมมตฐาน

สถตทเลอกใช Parametric-independent t-test

1. 152. 183. 19

4. 205. 20

1. 122. 173. 18

4. 195. 14

?s

?x2

2

2

?s

?x2

1

1

คะแนนกลม Bคะแนนกลม A

2

2

2

1

2

1

21

n

s

n

s

xxt

Separate Variance

พจารณาการใชสถตเพอทดสอบสมมตฐาน

สถต Non-Parametric-Mann-Whitney U-test

M1=M2

1. 152. 183. 19

4. 205. 20

1. 122. 173. 18

4. 195. 14

คะแนนกลม Bคะแนนกลม A

มธยฐาน ? มธยฐาน ?

2.2. ทดสอบความแตกตาง 2 กลม ไมอสระตอกน (Dependent Data)

ลกษณะขอมลแบบ dependent-Pretest-Post test (repeated measure) -Twins, litter mates-match pair

ทดสอบความแตกตางคาเฉลย - Paired t-test

ขอกาหนด (Assumption)- ตวแปรมสเกล interval, ratio- ขอมลความแตกตางของขอมล (di) มการแจกแจงแบบปกต

กรณละเมด Assumption - Wilcoxon matched pair sign rank

สถต Parametric-paired t-test

n/s

dt

d/

กอน หลง d1. 15 16 12. 18 20 23. 19 17 -24. 16 20 4 5. 20 20 0

สถต Non-parametric-Wilcoxon Match pairedSign Rank Test

Susan Raea, Patrick Whiteb.Swimming pool-based exercise as pulmonary rehabilitation for COPD patients in primary care: feasibility and acceptability. Primary Care Respiratory Journal (2009); 18(2): 90-94

สถต Parametric -paired t-test

8

ตวอยางการวเคราะหขอมล: เปรยบเทยบความแตกตาง 2 กลมทเปนไมอสระ

(1. ขอมลตอเนอง 2. การแจกแจงแบบปกตและไมปกต)

Alexander Yaw Debrah1, et al. (2006). Doxycycline Reduces Plasma VEGF-C/sVEGFR-3 and Improves Pathology in Lymphatic Filariasis. PLoS Pathogens |http://www.plospathogens.org“Open Access”

3. ทดสอบความแตกตางคาเฉลย > 2 กลม - ขอมลตอเนองและขอมลอสระตอกน

- One-Way ANOVA- Generalized linear model (GLM)- Kruskall-Wallis ANOVA

- ขอมลตอเนองและขอมลไมเปนอสระตอกน- Two-Way ANOVA หรอ Analysis of Variance with repeated Measure

- Generalized Estimating Equation (GEE)- Friedman ANOVA -ฯลฯ

4.1 ทดสอบความแตกตาง 2 กลม อสระตอกน ขอมลกลม(Independent Data for Categorical data)

ทดสอบความแตกตางคาสดสวน - Z test for proportion, Chi-Square test

ขอกาหนด (Assumption) - ตวแปรมสเกล nominal Scale- np & n(1-p) > 5- ไมมเซลลใดๆ มคา Expected Value < 5

กรณละเมด Assumption - Fisher Exact Methods

ขอมลกลม (Categorical data) 4.2 ทดสอบความแตกตาง 2 กลม ไมอสระตอกน ขอมลกลม(Dependent Data for Categorical data)

ลกษณะขอมลแบบ dependent-Pretest-Post test (repeated measure) -Twins, litter mates-match pair

ทดสอบความแตกตางคาสดสวน - McNemar Chi-Square test

ขอกาหนด (Assumption)- ตวแปรมสเกล nominal Scale- Number of Discordant pair (b + c > 20)

กรณละเมด Assumption - Exact Methods

Bratås O, Espnes GA, Rannestad T, Walstad R.Pulmonary rehabilitation reduces depression and enhances health-related quality of life in COPD patients--especially in patients with mild ormoderate disease. Chron Respir Dis. 2010;7(4):229-37.

5. ทดสอบความสมพนธ-Pearson correlation coefficient (interval, ratio: BivariateNormal Distribution)-Spearman rank correlation (ordinal, or ละเมดขอกาหนด)-Chi-square test: Phi Coefficient, (nominal)-Odd Ratio, Relative Risk (nominal)

9

6. สถตวเคราะหตวแปรแบบพห (Multivariate analysis)

Nominal (polychotomous)

countContinuous,

categorical

Poisson Regression

Ordinal

etc

-Multiple (Binary)

-Ordinal

-Multinomial

Logistic Regression

Multiple Regression

Model

Nominal (dichotomous, binary)Continuous,

categorical

Nominal (dichotomous, binary)Continuous,

categorical

ตวแปรตามตวแปรอสระ

7. สถตวเคราะหความเทยง (Reliability) วดความสอดคลองภายใน

KR-20 ,Alpha coefficient, item analysis วดความสอดคลอง (agreement): Kappa

Intraclass Correlation Coefficient etc

8. สถตวเคราะหความตรง (Validity)Pearson correlation coefficient Factor analysisSensitivity, Specificity, ROCKappa , Phi-Coefficient etc

Conditional proportional hazards regression**

Stuart-MaxwellCochrane Q**

Friedman testRepeated-measures ANOVA

Compare three or more matched groups

Cox proportional hazard regression**

Chi-square testKruskal-Wallis test

One-way ANOVACompare three or more unmatched groups

Conditional proportional hazards regression*

McNemar's testWilcoxon testPaired t testCompare two paired groups

Log-rank test or Mantel-Haenszel*

Fisher's test(chi-square for large samples)

Mann-Whitney testUnpaired t testCompare two unpaired groups

Z testChi-squareorBinomial test **

Wilcoxon testOne-sample ttestCompare one group to a hypothetical value

Kaplan Meier survival curve

ProportionMedian, interquartilerange

Mean, SDDescribe one group

Survival TimeBinomial(Two Possible Outcomes)

Rank, Score, or Measurement (from Non- Gaussian Population)

Measurement (from Gaussian Population)

Goal

Type of Data

Cox proportional hazard regression*

Multiple logistic regression*

Multiple linear regression*orMultiple nonlinear regression**

Predict value from several measured or binomial variables

GEE for Survival Analysis*

Generalized Estimating Equation

Generalized Estimating Equation

Predict value from several measured or binomial variables andRepeated outcome/Panel/Cluster Data

Cox proportional hazard regression*

Simple logistic regression*

Nonparametric regression**

Simple linear regressionorNonlinear regression

Predict value from another measured variable

Contingency coefficients**

Spearman correlation

Pearson correlation

Quantify association between two variables

Survival TimeBinomial(Two Possible Outcomes)

Rank, Score, or Measurement (from Non- Gaussian Population)

Measurement (from Gaussian Population)

Goal

Type of Data