Upload
others
View
8
Download
2
Embed Size (px)
Citation preview
課程目標
• 讓同仁能熟悉利用Stata進行下列分析
– 描述性統計統計量、交叉表、統計圖
– 推論性統計相關分析、差異分析、迴歸分析
[註]此次課程講義內容皆以Stata/SE 13進行示範教學!!
Back to basic!!
統計分析的重要性
回顧並審查NEJM & Nature Medicine兩大醫學期刊的文章
整理在醫學研究中常用的統計方法與常見的統計缺失
[註]回顧2004年上半年Original Articles NEJM*91 & Nat Med*34
醫學研究常用統計方法
80/20法則
學會
•描述統計
•ANOVA
•t檢定/卡方檢定
•皮爾森相關
•迴歸分析
•存活分析
就具備九成功力!!
統計軟體比較 •2015年採購4套Stata/SE 13軟體已安裝於:
•教學部大愛7F/圖書室(二台)
•研究部協力6F/611R(一台)
•醫務部協力4F/公用電腦(一台)
不同版本的Stata
•不同版本的Stata差異在於可處理資料大小&平行運算
最大觀察值數量受限於電腦RAM的大小!!
•針對一般統計分析需求,建議購買Stata/SE!!
Outline
• Stata操作環境介紹
• 基本操作資料匯入/編碼
• 如何利用Stata進行”描述性統計分析”(基礎)
– Unit 1.統計量、交叉表
– Unit 2.統計圖 & 圖形編輯
• 如何利用Stata進行”推論性統計分析”(進階)
– Unit 3.相關分析
– Unit 4.差異分析
– Unit 5.迴歸分析
1. STATA操作環境介紹
操作視窗(1/2) 0.文字/圖形工具列
1.Review 2.Results
3.Command
4.Variables
操作視窗(2/2) • 0.文字/圖形工具列
– 方便使用者採用點選的方式執行指令
• 1.Review 凡走過必留痕跡(指令集)
– 記錄所有曾執行過的程式或指令
• 2.Results 分析結果
– 記錄執行程式的過程與結果
• 3.Command 一個口令/一個動作
– 即時撰寫及執行程式或指令
• 4.Variables 同時僅能分析一個資料檔
– 列出目前分析資料檔中所有變數名稱與屬性
工具列視窗
• 文字工具列 類似SPSS的Menu Bar
• 圖形工具列 捷徑
可透過點選方式完成統計分析或繪製統計圖形
Open
Save
Results
Log Begin
Viewer
Graph
Do-file
Editor
Data Editor
Data Editor
(Browse)
Variables
Manager
Clear –more-
condition
Break
2.基本操作
-- 資料匯入/編碼
範例資料(lbw1.dta)
Hosmer & Lemeshow(2000) 研究影響出生嬰兒低體重因素的資料
•資料筆數共189筆
•資料包含:
•嬰兒出生體重(bwt) 、是否低體重(<2500g)(low)
•媽媽的年齡(age) 、最後一次月經時體重(lwt) 、種族(race) 、抽菸(smoke) 、是否早產(ptl) 、高血壓病史(ht) 、子宮煩躁(ui) 、妊娠第一期看診次數(ftv)
從Excel匯入資料 • Step 1.開啟Import功能
– File Import Excel spreadsheet
• Step 2.選擇Excel資料檔(lbw.xls)
– 勾選Import first row as variable names
Excel Stata
Stata指令 import excel "D:\Stata\lbw.xls", sheet("Sheet1") firstrow
常見資料處理情況 1. 標註各變項的文字說明
Ex:將id標註文字說明為identification code
2. 定義變數中各數值代表意義
Ex:是否低體重(<2500g)(low) 0: No/ 1:Yes
3. 文字變項編碼
Ex:將smoke中nonsmoker及smoker分別編碼為1及2
4. 重新編碼
Ex:將nonsmoker及smoker分別編碼為0及1
5. 連續變項轉成類別變項
Ex:年齡分組(1: <30 y/o/ 2:≧30 y/o)
狀況1 & 2 •可利用Data Variables Manager修改變數Label及Value Label
Stata指令 label variable id “identification code”
label define yesno 0 "No" 1 "Yes"
label values low yesno
狀況1 & 2 •可利用Variables Manager中Manage Value Label功能定義
狀況3 & 4
1. 文字變項編碼
Ex:將smoke中nonsmoker及smoker分別編碼為1及2
2. 重新編碼
Ex:將nonsmoker及smoker分別編碼為0及1
Stata指令 encode smoke, generate(smoke1)
Stata指令 recode smoke1 (1=0) (2=1)
label define nysmoke 0 "nonsmoker" 1 "smoker"
label values smoke1 nysmoke
狀況5 連續變項轉成類別變項
Ex:年齡分組(1: <30 y/o/ 2:≧30 y/o)
Stata指令 summarize age
Stata指令 recode age (min/29=1) (30/max=2), generate(agegr)
label variable agegr "age group"
label define agr 1 "<30 y/o" 2 ">=30 y/o"
label values agegr agr
tab1 agegr
如何利用STATA進行
PART I.”描述性統計分析”?
描述統計 -- 統計量 & 統計圖
統計量集中趨勢、離散趨勢
•Mean
•Median
•Mode
•Max/Min
•Quartile(Q1,Q3)
•Range
•Standard Deviation
目的:讓分析者可以在短時間內瞭解資料的分佈狀況與訊息 Histogram
Pie Chart
Boxplot
”描述性統計分析”
-- UNIT 1-1.統計量
集中趨勢量數vs差異量數
•集中趨勢量數平均數、中位數、眾數等統計量
•差異量數全距、四分位差、標準差等統計量
A
B
μA μB
RA
RB
平均數/中位數/眾數與資料分佈(偏態)的關係
•偏態係數
–(a)左偏、(b)右偏、(c)對稱
–注意:偏態的方向描述是極端值方向
(c)
平均數=中位=眾數
平均數 中位數 眾數 眾數 中位數 平均數
(a) (b)
利用Stata計算統計量(1/2) StataStatisticsSummaries, tables and tests Summary
and descriptive statistics Summary Statistics
1. 選定變項(ex: age)
2. 勾選Standard display或Display additional statistics
1
2
利用Stata計算統計量(2/2) 針對所選取之變項可自動計算出常用之統計量!!
Standard display
Display additional statistics
”描述性統計分析”
-- UNIT 1-2.交叉表/列聯表
利用Stata統計次數分配(1/2) Stata Statistics Summaries, tables and tests Frequency
tables One-way table
1. 選定變項(ex: race)
2. 勾選細項設定(ex:納入missing 、呈現bar chart等)
1
2
利用Stata統計次數分配(2/2) 針對所選取之類別變項可自動統計出現次數!!
Default
Produce a bar chart
Stata指令
tabulate race或tab1 race
Stata指令
tabulate race, plot
利用Stata進行交叉分析(1/3)
•交叉分析利用表格的方式幫助分析者掌握
資料分佈情況(次數、百分比、統計量)
快速檢視類別變項間的相關性
Stata Statistics Summaries, tables and tests Frequency
tables Two-way table with measures of association
利用Stata進行交叉分析(2/3)
設定包括: 列、欄變項、統計檢定,比例呈現方式
1
2
3
利用Stata進行交叉分析(3/3)
不同種族孕婦吸菸比例有顯著差異(p-value<0.001*)
Stata指令
tabulate race smoke, chi2 exact row
”描述性統計分析”
-- UNIT 2.統計圖 & 圖形編輯
常見統計圖形 Bar Graph
Boxplot
Histogram
Line Graph
不同類別間之差異 單組資料之分佈
不同類別間之差異 時間變化趨勢
Pie Chart
各類別所佔比例
長條圖(Bar Graph)
Stata Graphics Bar chart相關設定
1
2
設定包括:
• Main Y軸
• Categories X軸
• Title/Legend等
長條圖(Bar Graph)
Stata Graphics Bar chart相關設定
1
2
設定X軸所需呈現類別組合
圖形title
長條圖(Bar Graph)範例
不同種族/抽菸組合下的出生嬰兒平均體重
Stata指令
graph bar (mean) bwt, over(smoke) over(race)
title(Birth weight of different smoke/race)
長條圖(Bar Graph)範例
不同種族/抽菸組合下的出生嬰兒平均體重
Stata指令
graph bar (mean) bwt, over(smoke) over(race)
title(Birth weight of different smoke/race) asyvars
直方圖(Histogram)
Stata Graphics Histogram相關設定
1
2 3
設定包括:
• Main 選擇變項、設定組數、Y軸呈現方式
• Density plot/X axis/Y axis/Title等
直方圖(Histogram)
Fit 常態分佈曲線
Y axis/X axis/Title設定
直方圖(Histogram)範例 繪出研究對象整體的年齡分佈
Stata指令
histogram age, frequency normal ytitle(Count)
xtitle(Age) title(Overall age distribution)
盒形圖(Box Plot)
Stata Graphics Box plot相關設定
1
設定包括:
• Main Y軸
• Categories X軸
• Y axis/Title等
盒形圖(Box Plot)
Stata Graphics Box plot相關設定
1
2
設定X軸所需呈現類別組合
圖形title
盒形圖(Box Plot)範例
不同種族/抽菸組合下的出生嬰兒平均體重
Stata指令
graph box bwt, over(smoke) over(race)
title(Birth weight of different race/smoke group)
折線圖(Line Graph)
Stata Graphics Twoway graph相關設定
1
設定包括:
• Plots 設定X、Y軸變項、Y軸呈現方式
• X axis/Y axis/Title等
折線圖(Line Graph)
Stata Graphics Twoway graph相關設定
1
2
3
折線圖(Line Graph)範例 繪出依id順序的出生體重趨勢變化圖形
Stata指令
twoway (line bwt id, sort), ytitle(Birth weight) xtitle(Id
sequence) title(Trend of birthweight by id sequence)
圓餅圖(Pie Chart)
Stata Graphics Pie chart相關設定
1
設定包括:
• Main 選定類別變項
• Title/Legend等
圓形圖(Pie Chart)
Stata Graphics Pie chart相關設定
1
圓餅圖(Pie Chart)範例 繪出研究對象不同種族所佔比例
Stata指令
graph pie, over(race) title(Pie chart of race)
武林秘笈 Stata公司網頁提供各類圖形範例程式語法!!
http://www.stata.com/support/faqs/graphics/gph/stata-graphs/
常見圖形編輯情況
• 圖形輸出
– 儲存成Stata圖形檔或其他類型圖檔
• 圖形編修
– 單一圖形加註文字、修改軸距、顏色、線型
– 複合圖形合併多個圖形成為同一個圖
圖形輸出
•Stata 點選Graph視窗 File Save As
•輸入檔名及選擇存檔類型
•*.gph(Stata圖檔) 、*.png、*.tif、*.pdf等
Stata指令
graph save Graph "D:\Stata\Pie.gph“
graph export "D:\Stata\Pie.tif", as(tif) replace
開啟圖形編輯器 Stata 點選Graph視窗 Edit
Start Graph Editor
圖形編修加註/修改
圖形編修複合圖形
Stata Window Do-file editor New Do-file editor
輸入指令時,若指令內容過長可加上”///”做為分隔符號
•row()及col()可控制列數和行數; xsize()及ysize()控制長寬!!
•title()加上圖形標題; note()加上圖形註解
圖形編修複合圖形
補充說明
資料整理結果
依據不同race/smoke組合,分別計算出對應組合的
•平均出生體重(meanbwt) 、體重標準差(sdbwt)、人數(n)
•Error bar (hibwt & lobwt) Mean ± SD
•給每種情況一個編號(smrace)以利繪圖!!
Do-file程式語法
Review
• Stata操作環境介紹&基本操作
• 如何利用Stata進行”描述性統計分析”(基礎)
– Unit 1.統計量、交叉表
– Unit 2.統計圖 & 圖形編輯
• 如何利用Stata進行”推論性統計分析”(進階)
– Unit 3.相關分析
– Unit 4.差異分析
– Unit 5.迴歸分析 下集分曉,敬請期待!!
資料型態與適用統計方法
欲檢定的變項/依變項(Y)
欲進行比較的組別數/自變項(X)
類別
連續 兩組 三組或以上
獨立樣本 相依樣本 獨立樣本 相依樣本
連續資料 欲檢定的情形:集中趨勢(central tendency) 相關分析
常態假設或中央極限定理成立
Independent
t-test Paired t-test ANOVA
Repeated
measures
ANOVA
皮爾森相關
Linear
regression
常態假設或中央極限定理不成立
Wilcoxon
rank-sum
test
Wilcoxon
signed-rank
test
Kruskal-
Wallis test
Friedman
test
Spearman’s
correlation
類別資料 欲檢定的情形:關聯性(association)
兩個類別 卡方檢定
(Yate修正)
McNemar’s
test 卡方檢定
Cochran’s Q
test
Logistic
regression
三類以上 卡方檢定 Cochran’s Q
test 卡方檢定
Cochran’s Q
test
Multilnomial/
Ordinal Logistic
regression
Reference • STATA基礎操作與統計模型應用(劉彩卿, 2012)
• An Introduction to Stata for Health Researchers(Svend, 2008)
感謝聆聽
Q & A
靜思語:知識要用心體會,才能變成自己的智慧。