View
8
Download
0
Category
Preview:
Citation preview
1
การวางแผนการวเคราะหและการประมวลผลขอมล
ผชวยศาสตราจารยนคม ถนอมเสยงสาขาวชาวทยาการระบาดและชวสถต
คณะสาธารณสขศาสตร มหาวทยาลยขอนแกนEmail: nikom@kku.ac.th
การเขยนการวเคราะหขอมล1. การเตรยมขอมล
ตรวจสอบความถกตองของขอมล ทไดจากแบบสอบถาม ทาการลงรหส นาไปคยขอมลและบนทกขอมล 2 รอบ และทาการตรวจสอบความถกตองของขอมล (Validate) โดยใชโปรแกรม EpidataVersion 2.1b และวเคราะหขอมลโดยโปรแกรม Stata Version 10.01
2. สถตทใชในการศกษา2.1 สถตเชงพรรณนา เพออธบายลกษณะทวไปของกลมตวอยางและ
ปจจยตางๆ ไดแก ความถ รอยละ คาเฉลย สวนเบยงเบนมาตรฐาน2.2 สถตอนมาน เพอศกษาปจจยเสยงตอการรกษาซาในโรงพยาบาล
ของผปวยโรคปอดอดกนเรอรง ดวยสถต Multiple PoissonRegression
2.3 กาหนดระดบนยสาคญทางสถตในการศกษาครงนทระดบ 0.05
การวางแผนประมวลผลขอมล
วธการทดาเนนการเกยวกบขอมลเพอเตรยมการวเคราะห- การตรวจสอบแกไขขอมลเบองตน- การใหรหสขอมล (coding)- การวางแผนการใชคอมพวเตอรและSoftware ทเกยวของ
การตรวจสอบแกไขขอมลเบองตน ความครบถวนของขอมล (completeness)
ขอมลครบหรอไม , บนทกอานออกหรอไม ความสอดคลองของคาตอบ (consistency)
ปจจบนทานคมกาเนดหรอไม [ ] 1.ไมคมกาเนด [ ] 2.คมกาเนดวธททานใชคมกาเนด[ ] 1. ทาหมนหญง [ ] 2. ใสหวงอนามย [] 3. ยาเมด[ ] 4. ยาฉดคมกาเนด [ ] 5. อนๆ (ระบ)…….…...
คณลกษณะของตวอยาง ตรงตามวตถประสงคการวจย (characteristic of samples)
การใหรหสขอมล (coding)- Keep codes concise -รหสสนๆ เชน ชาย=1 หญง=0 ไมใช 11, 00
- ไมควรกาหนดรหสเปนชวงเชน - นาหนกทารกแรกเกด 2400 กรม=1000-2500
3000 กรม=2500-4000- กาหนดรหสเปนตวเลข -สนๆ, เรยงลาดบนอยไปมาก
-Keep the Codes Stable (Gender M,m,F,f ,1,0)-Make code that are unique-Allow codes to be sortable
-------------------------------------------------------------------------------storage display value
variable name type format label variable label-------------------------------------------------------------------------------idno int %8.0g identification numberocc byte %8.0g occupation (1 = farmer
2=commerce 3=official 4=banksex byte %8.0g gender (0=female 1=male)chol int %8.0g blood cholesterol levelsysbp int %8.0g systolic blood pressuresysbp_p int %8.0g post systolic blood pressurediasbp int %8.0g diastolic blood pressureage byte %8.0g age in yearfev1 byte %8.0g lung function testsmoke byte %8.0g number smoking per daysmoke_gr byte %8.0g smoking 0=no 1=yesheight int %8.0g height in centimeterweight byte %8.0g weight in kilogramchol_p int %8.0g post blood cholesterol levelcoro byte %8.0g coronary heart disease (0=no
1=yes)-------------------------------------------------------------------------------
คมอลงรหส
2
การวางแผนประมวลผลขอมลวางแผนการใชเครองคอมพวเตอรและโปรแกรมทเกยวของ - Database and editing software เชน epidata, epiinfo etc.- Statistical software เชน STATA, R statistical (free) SPSS, SAS etc.
- Data entry to computer- Verification- Range Check- Consistency check- Missing Value and Data Check
Strategy for computer aides analysis1. Data collection -coding, form ,
data format (width, long, fixed/free format )2. Data entry -software/hardware ->file3. Data Checking -(two file) validation, range, consistency4. Data Screening -missing value, distribution, outliers5. Data analysis -appropriate statistics 6. Checking Results7. Interpretation
การวางแผนวเคราะหขอมล สงพจารณาในการวางแผนวเคราะหขอมล1. คาถามการวจย (Research Question) วตถประสงคของการ
วจย (objective) หรอสมมตฐานการวจย - Primary Outcome (end point) /Secondary outcome- Background Characteristics
2. รปแบบของการวจย (study design)3. ระดบการวดของตวแปร
วางแผนวเคราะหขอมล1. จดทาตารางหน (dummy table)2. พจารณาการใชสถตพรรณนาขอมล3. พจารณาการใชสถตเพอทดสอบสมมตฐานและ
การประมาณคา
ตารางหน (Dummy Table)- ตารางททาเตรยมไวเพอเปนแนวทางในการวเคราะห ตารางหนจะทาไวเพยงเปนรปรางใหเหนวา จะใสขอมลหรอคาสถตของตวแปรใดในสดมภและแถวใด
โครงการนยามศพทการวจยทางประชากรและสงคมในอนาคต สถาบนประชากรฯ ม.มหดล
- An empty or blank table (Sage, Dictionary of Statistics & Methodology )
ตารางหน -ขอมล พนฐาน (BackgroundTable 1 Baseline demographic characteristics, including smoking status and history.Values are expressed as means (SD); range or Median (Inter-quartile range)
mean (sd); rangemean (sd); rangeFTND score
mean (sd); rangemean (sd); rangeExhaled CO concentration (ppm)
mean (sd); rangemean (sd); rangeNo of cigarettes smoked day
mean (sd); rangemean (sd); rangeAge when started smoking (years)
mean (sd); rangemean (sd); rangeMen
mean (sd); rangemean (sd); rangeWomen
Weight (kg):
mean (sd); rangemean (sd); rangeAge (years)
nnNo of men
Active (n=200)Placebo (n=200)Variable
CO=carbon monoxide; FTND=Fagerström test for nicotine dependence.
3
Chris T Bolliger CT.,et al. Smoking reduction with oral nicotine inhalers: double blind, randomised clinical trial of efficacy and safety. BMJ. 2000 August 5; 321(7257): 329–333
ตวอยาง: ผลการวเคราะหจากตารงหน
การเตรยมตารางหน :การจดกลม1. ขอมลเชงปรมาณ
-ใชความรทางวชาการในการแบงกลม-พจารณาวตถประสงคการวจย เชน การแบงอายสตรวยเจรญพนธ,การแบง Severity ผปวย COPD
กลมอาย จานวน
คน %
<20 20-35 35-45
Faganello et al. BODE index and GOLD staging as predictors of 1-year exacerbation risk in chronic obstructive pulmonary disease. Am J Med Sci. 2010 Jan;339(1):10-4.
การเตรยมตารางหน :การจดกลม2. ขอมลเชงคณภาพ-มหลกเกณฑแนนอนในการจาแนกประเภทของกลม-กลมคาตอบควรครอบคลมทกคาตอบ-กลมคาตอบมลกษณะแตกตางกนอยางชดเจน
คาถาม: ทาอยางไรจงลดอบตเหตจราจรลงได………….คาตอบ- รกษากฎทงผขบขและผใชถนน - ปฏบตตามกฎจราจร- ทกคนควรรกฎจราจร - รกฎจราจร - ไมประมาท - ใหผขบขปฏบตตามกฎจราจร
การเตรยมตารางหน :การจดกลม
คาตอบ-ไมประมาท สวมหมวกกนนอก หมนตรวจสภาพรถ-ขชาๆ -เคารพกฎจราจร-ควรระมดระวง -อยาประมาท-ทกคนมความรเรองกฎจราจร -เพมโทษผกระทาผด-เพมความระมดระวง -ออกกฎหมายบงคบฯลฯ
การเตรยมตารางหน :การจดกลม
วธลดอบตเหตการจราจร จานวน (คน)
%
-ไมประมาท/ ระมดระวง/ ขบขชาๆ/ อยาขบเรว
-เคารพกฏจราจร/เพมโทษผกระทาผด/ออกกฏหมายบงคบ …
4
ตารางหน- ตวอยางการวเคราะหขอมล เพอทดสอบสมมตฐาน/การประมาณคา
- การทดสอบความสมพนธ Correlation ระหวางตวแปรตางๆ
Xp
…
X2
X1
Xp…X2X1Variable
P-value
Adjusted R2 = ... , F = ..., p-value ..., n = ...
Constant
Trigyceride
Age
Cholesterol
R2 changeR295%CIts.e.bVariable
ตารางหน- ตวอยาง การวเคราะหขอมล เพอทดสอบสมมตฐาน/การประมาณคา
- การวเคราะหสมการถดถอยพห (Multiple Regression)
Report Regression Table (Publication Manual of the American Psychological
Association sixth Edition,2010;pp 145.)
การวางแผนเลอกใชสถตในการวเคราะหขอมลสงพจารณาในการวางแผนเลอกใชสถต1. คาถามหรอวตถประสงคของการวจย (objective) หรอ
สมมตฐานการวจย2. รปแบบของการวจย (study design)3. ระดบการวดของตวแปร 4. ลกษณะการแจกแจงขอมล
5
คาถาม วตถประสงค หรอสมมตฐาน
1. พจารณาการใชสถตพรรณนา (Descriptive Statistics)เพอ อธบายกลมตวอยาง ขนาดของปญหา
2. พจารณาการใชสถตอนมาน (Inference Statistics)เพอทดสอบสมมตฐานและการประมาณคา-Parametric : Interval, Ratio Scale -Nonparametric : Nominal Ordinal Scale
: Interval, Ratio ขอมลมการแจกแจงไมปกต
สเกลการวดของตวแปร
1. นามสเกล (nominal Scale) เพศ กลมเลอด2. อนดบสเกล (Ordinal Scale) ทศนคต
ความพงพอใจ ระดบความเจบปวด3. ชวงสเกล (Interval Scale) IQ อณหภม4. อตราสวนสเกล (Ratio Scale) ชพจร
ความดนโลหต
Type of Variables
categorical data- nominal scale- ordinal scale -discrete -count
Response , Explanatory variable- response variable , dependent variable ,or Y variable- explanatory variable, independent variable or X variable
nominal
ordinalequalitativ
data discrete
data continuousvequantitati
Categorical data
สถตเชงพรรณนา (Descriptive Statistics)ขอมลตอเนอง (continuous data) เชนอาย นาหนก ความดนโลหต
- ขอมลมการแจกแจงแบบปกต : คาเฉลย สวนเบยงเบนมาตรฐาน- ขอมลมการแจกแจงแบบไมปกต (เบ: skewness) : มธยฐานinter-quartile (percentile)
ขอมลไมตอเนอง (categorical data) เชน เพศ อาชพ หมเลอด - การจดกลมตวแปรตอเนอง เชนจดกลม ความดนโลหตเปนสง ปกต ตา ฯลฯ
- สวนมากมสเกลการวดแบบนามสเกลและอนดบสเกล- นาเสนอเปน จานวน รอยละ (คาสดสวน p=ni/n)
การเลอกใช คาเฉลย หรอมธยฐานพจารณาจากการแจกแจงของขอมลขอมลมการแจกแจงแบบปกต ใชคาเฉลยขอมลมการแจกแจงแบบไมปกต ใชคามธยฐาน
การแจกแจงแบบปกต การแจกแจงแบบไมปกต (เบ: skewness)
วธตรวจสอบการแจกแจงแบบปกต- การ plot Normal probability plot- การ plot Histogram หรอ Stem & Leave plot- การทดสอบ Normality ดวย Shapiro-Wilk Test
Shapiro-Wilk W test for normal dataVariable | Obs W V z Pr > z---------+-------------------------------------------------
chol | 250 0.99483 0.938 -0.149 0.55907
p-value >.05 ขอมลมการแจกแจงแบบปกตsd > 1/2 ของ mean --> SkewedAltman,D.G. (1991). Practical Statistics for Medical Research. P36.
6
การนาเสนอ-ขอมลมการแจกแจงปกต คาเฉลย(สวนเบยงเบนมาตรฐาน)-ขอมลมการแจกแจงไมปกต มธยฐาน(interquartile range)ตวอยาง Q1, Q3
พจารณาการใชสถตเพอทดสอบสมมตฐาน1. คาถามหรอวตถประสงคของการวจย(objective) หรอสมมตฐานการวจย
2. รปแบบของการวจย (study design)พจารณาขนาดตวอยาง
3. พจารณา Assumption เชน-ระดบการวดของตวแปร -ความแปรปรวน -ลกษณะการแจกแจงขอมล
1. ทดสอบความแตกตางของคาเฉลย 1 กลม สถต One Sample t-test, Wilcoxon sign rank test
2. ทดสอบความแตกตาง 2 กลม 2.1 ขอมลอสระตอกน (Independent Data)
- Independent t-testขอกาหนด (Assumption)- ตวแปรมสเกล interval, ratio- ขอมลแตละกลม มการแจกแจงแบบปกต
กรณละเมด Assumption - Mann-Whitney U Test
ขอมลตอเนอง (Continuous Data) พจารณาการใชสถตเพอทดสอบสมมตฐาน
สถตทเลอกใช Parametric-independent t-test
1. 152. 183. 19
4. 205. 20
1. 122. 173. 18
4. 195. 14
?s
?x2
2
2
?s
?x2
1
1
คะแนนกลม Bคะแนนกลม A
21
pooled
21
n1
n1
S
xxt
Pooled Variance
7
พจารณาการใชสถตเพอทดสอบสมมตฐาน
สถตทเลอกใช Parametric-independent t-test
1. 152. 183. 19
4. 205. 20
1. 122. 173. 18
4. 195. 14
?s
?x2
2
2
?s
?x2
1
1
คะแนนกลม Bคะแนนกลม A
2
2
2
1
2
1
21
n
s
n
s
xxt
Separate Variance
พจารณาการใชสถตเพอทดสอบสมมตฐาน
สถต Non-Parametric-Mann-Whitney U-test
M1=M2
1. 152. 183. 19
4. 205. 20
1. 122. 173. 18
4. 195. 14
คะแนนกลม Bคะแนนกลม A
มธยฐาน ? มธยฐาน ?
2.2. ทดสอบความแตกตาง 2 กลม ไมอสระตอกน (Dependent Data)
ลกษณะขอมลแบบ dependent-Pretest-Post test (repeated measure) -Twins, litter mates-match pair
ทดสอบความแตกตางคาเฉลย - Paired t-test
ขอกาหนด (Assumption)- ตวแปรมสเกล interval, ratio- ขอมลความแตกตางของขอมล (di) มการแจกแจงแบบปกต
กรณละเมด Assumption - Wilcoxon matched pair sign rank
สถต Parametric-paired t-test
n/s
dt
d/
กอน หลง d1. 15 16 12. 18 20 23. 19 17 -24. 16 20 4 5. 20 20 0
สถต Non-parametric-Wilcoxon Match pairedSign Rank Test
Susan Raea, Patrick Whiteb.Swimming pool-based exercise as pulmonary rehabilitation for COPD patients in primary care: feasibility and acceptability. Primary Care Respiratory Journal (2009); 18(2): 90-94
สถต Parametric -paired t-test
8
ตวอยางการวเคราะหขอมล: เปรยบเทยบความแตกตาง 2 กลมทเปนไมอสระ
(1. ขอมลตอเนอง 2. การแจกแจงแบบปกตและไมปกต)
Alexander Yaw Debrah1, et al. (2006). Doxycycline Reduces Plasma VEGF-C/sVEGFR-3 and Improves Pathology in Lymphatic Filariasis. PLoS Pathogens |http://www.plospathogens.org“Open Access”
3. ทดสอบความแตกตางคาเฉลย > 2 กลม - ขอมลตอเนองและขอมลอสระตอกน
- One-Way ANOVA- Generalized linear model (GLM)- Kruskall-Wallis ANOVA
- ขอมลตอเนองและขอมลไมเปนอสระตอกน- Two-Way ANOVA หรอ Analysis of Variance with repeated Measure
- Generalized Estimating Equation (GEE)- Friedman ANOVA -ฯลฯ
4.1 ทดสอบความแตกตาง 2 กลม อสระตอกน ขอมลกลม(Independent Data for Categorical data)
ทดสอบความแตกตางคาสดสวน - Z test for proportion, Chi-Square test
ขอกาหนด (Assumption) - ตวแปรมสเกล nominal Scale- np & n(1-p) > 5- ไมมเซลลใดๆ มคา Expected Value < 5
กรณละเมด Assumption - Fisher Exact Methods
ขอมลกลม (Categorical data) 4.2 ทดสอบความแตกตาง 2 กลม ไมอสระตอกน ขอมลกลม(Dependent Data for Categorical data)
ลกษณะขอมลแบบ dependent-Pretest-Post test (repeated measure) -Twins, litter mates-match pair
ทดสอบความแตกตางคาสดสวน - McNemar Chi-Square test
ขอกาหนด (Assumption)- ตวแปรมสเกล nominal Scale- Number of Discordant pair (b + c > 20)
กรณละเมด Assumption - Exact Methods
Bratås O, Espnes GA, Rannestad T, Walstad R.Pulmonary rehabilitation reduces depression and enhances health-related quality of life in COPD patients--especially in patients with mild ormoderate disease. Chron Respir Dis. 2010;7(4):229-37.
5. ทดสอบความสมพนธ-Pearson correlation coefficient (interval, ratio: BivariateNormal Distribution)-Spearman rank correlation (ordinal, or ละเมดขอกาหนด)-Chi-square test: Phi Coefficient, (nominal)-Odd Ratio, Relative Risk (nominal)
9
6. สถตวเคราะหตวแปรแบบพห (Multivariate analysis)
Nominal (polychotomous)
countContinuous,
categorical
Poisson Regression
Ordinal
etc
-Multiple (Binary)
-Ordinal
-Multinomial
Logistic Regression
Multiple Regression
Model
Nominal (dichotomous, binary)Continuous,
categorical
Nominal (dichotomous, binary)Continuous,
categorical
ตวแปรตามตวแปรอสระ
7. สถตวเคราะหความเทยง (Reliability) วดความสอดคลองภายใน
KR-20 ,Alpha coefficient, item analysis วดความสอดคลอง (agreement): Kappa
Intraclass Correlation Coefficient etc
8. สถตวเคราะหความตรง (Validity)Pearson correlation coefficient Factor analysisSensitivity, Specificity, ROCKappa , Phi-Coefficient etc
Conditional proportional hazards regression**
Stuart-MaxwellCochrane Q**
Friedman testRepeated-measures ANOVA
Compare three or more matched groups
Cox proportional hazard regression**
Chi-square testKruskal-Wallis test
One-way ANOVACompare three or more unmatched groups
Conditional proportional hazards regression*
McNemar's testWilcoxon testPaired t testCompare two paired groups
Log-rank test or Mantel-Haenszel*
Fisher's test(chi-square for large samples)
Mann-Whitney testUnpaired t testCompare two unpaired groups
Z testChi-squareorBinomial test **
Wilcoxon testOne-sample ttestCompare one group to a hypothetical value
Kaplan Meier survival curve
ProportionMedian, interquartilerange
Mean, SDDescribe one group
Survival TimeBinomial(Two Possible Outcomes)
Rank, Score, or Measurement (from Non- Gaussian Population)
Measurement (from Gaussian Population)
Goal
Type of Data
Cox proportional hazard regression*
Multiple logistic regression*
Multiple linear regression*orMultiple nonlinear regression**
Predict value from several measured or binomial variables
GEE for Survival Analysis*
Generalized Estimating Equation
Generalized Estimating Equation
Predict value from several measured or binomial variables andRepeated outcome/Panel/Cluster Data
Cox proportional hazard regression*
Simple logistic regression*
Nonparametric regression**
Simple linear regressionorNonlinear regression
Predict value from another measured variable
Contingency coefficients**
Spearman correlation
Pearson correlation
Quantify association between two variables
Survival TimeBinomial(Two Possible Outcomes)
Rank, Score, or Measurement (from Non- Gaussian Population)
Measurement (from Gaussian Population)
Goal
Type of Data
Recommended