29
TRUNG TÂM NGHIÊN CỨU CHÍNH SÁCH VÀ PHÁT TRIỂN GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

  • Upload
    seth

  • View
    104

  • Download
    0

Embed Size (px)

DESCRIPTION

GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA. TRUNG TÂM NGHIÊN CỨU CHÍNH SÁCH VÀ PHÁT TRIỂN. Biểu đồ trong Stata. Giới thiệu biểu đồ trong Stata Biểu đồ Histogram Biểu đồ 2 chiều ( Kết hợp 2 biến) – graph twoway Biểu đồ dạng ma trận – graph matrix Biểu đồ hình hộp – graph box - PowerPoint PPT Presentation

Citation preview

Page 1: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

TRUNG TÂM NGHIÊN CỨU CHÍNH SÁCH VÀ PHÁT TRIỂN

GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Page 2: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ trong Stata

• Giới thiệu biểu đồ trong Stata• Biểu đồ Histogram• Biểu đồ 2 chiều ( Kết hợp 2 biến) – graph

twoway• Biểu đồ dạng ma trận – graph matrix• Biểu đồ hình hộp – graph box• Biểu đồ hình pie – graph pie• Biểu đồ cột – graph bar

Page 3: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Giới thiệu về đồ họa trong Stata

Đồ họa luôn là phần mạnh trong StataStata có rất nhiều kiểu đồ họa khác nhau cho

bạn lượng chọn.Trong mỗi kiểu đồ họa có rất nhiều option

cho bạn lựa chọn.Bạn có thể dùng giao diện menu (Graphics)Ở đây, mình sẽ hướng dẫn giao diện tại dòng

lệnh

Page 4: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ Histogram

• Histogram dùng để biểu diễn phân bố các giá trị của biến đó trong đồ thị

• Cú pháp:histogram varname [if] [in] [weight] [, [continuous_opts |discrete_opts] options] continuous_opts: bin(#), width(#), start(#) Với các biến là

liên tục bin(#): # là số lượng cột hiển thị trên đồ họa, nếu không xác

định bin(#) thì mặc định số lượng bin được tính theo công thức sau: # = min{sqrt(N), 10 ln(N)/ln(10)} với N là số quan sát.

width(#): # độ rộng của từng cột cái này phụ thuộc vào số lượng cột

start(#): Mặc định # là giá trị nhỏ nhất của biến cần vẽ

Page 5: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ Histogram (tiếp)

discrete_opts: với các biến là rời rạc discrete: biến số liệu là biến rời rạc width(#) và start(#): cũng tương tự như lựa chọn liên tục

options:• density: chiều cao của bin (trục đứng) đơn vị trên thang

đo là mật độ (tổng diện tích các cột cộng đồ thị bằng 1) Nếu chúng ta không chọn một lựa chọn nào thì desity là mặc định được chọn.

• fraction: đơn vị thang đo là phân số tổng chiều cao của các cột cộng lại bằng 1.

• frequency: đơn vị trên thang đo là tần suất, tổng số chiều cao của các cột bằng với tổng số quan sát (observations) của biến đó.

Page 6: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ Histogram (tiếp)

options: percent: đơn vị trên thang đo là phần trăm, tổng số chiều

cao của các cột bằng 100. gap(#): Khoảng cách giữa các cột, 0 <= # <100 axis_options: xlables(), ylabels(), ytitle(), xtitle(). normal: thêm đường cong mật độ chuẩn vào đồ thị. caption(): Trích dẫn nguồn thông tin title(), subtitle: các tiêu đề note(): chú thích

Page 7: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ Histogram(tiếp)

• Kết hợp với by(): Chúng ta có thể vẽ đồ thị theo biến rời rạc nào đó bằng cách sử dụng by()

• Ví dụ: trong số liệu stock 2 final.dta, q33 – Năm sinh, q34 – Giới tính– histogram q33– histogram q33, percent ylabels(0 (1) 10),grid)

addlabels normal by(q34)– histogram q1, discrete percent addlabels xlabels(1 (1)

3, valuelabel)

Page 8: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ 2 chiều ( Kết hợp 2 biến) – graph twoway

Biểu đồ đám mây điểm (scatterplots)Biểu đồ đường thẳng (Line Plots)Biểu đồ cột (bar plots)Liên kết nhiều biểu đồ trên một trục

Page 9: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ đám mây điểm (Scatterplot)

Cú pháp:[twoway] scatter varlist [if] [in] [weight] [, options]

Biểu đồ đám mây (phân tán) scatter có thể có nhiều cách gọi tại dòng lệnh như graph two scatter …. twoway scatter …. scatter ….

Page 10: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ đám mây điểm (Scatterplot)

Bên cạnh đó biểu đồ scatter có thể kết hợp cùng với một số biểu đồ khác trong twoway như line, lfit… với cú pháp sau: twoway (scatter …) (line …) (lfit ….) … hoặc cách 2

ngăn gọn hơn. scatter …. || line …. || lfit…. || …

varlist là có dạng: y1 [y2[…]] x

Page 11: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ đám mây điểm (Scatterplot)

Một số options: msymbol(symbolstylelist):

none i a symbol that is invisible point p a small dot

smsquare_hollow sh hollow smtriangle_hollow th hollow smdiamond_hollow dh hollow smcircle_hollow oh hollow

square_hollow Sh hollow triangle_hollow Th hollow diamond_hollow Dh hollow circle_hollow Oh hollow

smplus smx x smtriangle t solid smsquare s solid smdiamond d solid smcircle o solid

x X plus + square S solid triangle T solid diamond D solid circle O solid symbolstyle (if any) description synonym

Page 12: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ đám mây điểm (Scatterplot)

mlabel(varlist): xác định giá trị của biến cần hiển thị

chúng ta cũng có thể kết hợp với by().xscale () và yscale() : nhận các giá trị: nolog –

mặc định, log – điều chỉnh theo mật độ xuất hiện các giá trị của biến trong 1 khoảng nhất định , cuối cùng là lựa chọn reverse – giá trị trên trục sẽ hiển thị từ max – min.

Ví dụ: chúng ta xem 2 ví dụ sau

Page 13: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ đá mây điểm (Scatterplot)

Ví dụ 1: Vẽ biểu đồ scatter đơn giản dùng số liệu auto scatter mpg weight // vẽ đồ thị đơn giản

Ví dụ 2: Thêm lựa chọn msymbol() scatter mpg weight msymbol(plus)

Ví dụ 3: Thêm lựa chọn mlabel() scatter mpg weight msymbol(plus) mlabel(mpg)

Ví dụ 4: thêm lựa chọn xscale để điều chỉnh khoảng cách trên trục tọa độ scatter mpg weight, xscale(log)

Page 14: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ đường thẳng(Line plot)

Cú pháp : [twoway] line varlist [if] [in] [, options]

varlist: y1 [y2[..]] x

Chúng ta sử dụng số liệu trong hệ thốngsysuse uslifeexpline le year (ở đây, chúng ta có thể gõ line hoặc twoway line, graph twoway line đều được)

Chú ý: Nhiều trường hợp, bạn phải sắp xếp biến ở trục x hoặc bạn phải có lựa chọn sort trong biểu đồ line. sysuse auto, clear

line mpg weight

Page 15: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ đường thẳng (tiếp)

Chúng ta có thể kết hợp các loại biểu đồ dạng twoway vào trong một biểu đồ (uslifeexp)gen diff = le_wm - le_bmlabel var diff "Difference“line le_wm year|| line le_bm year || line diff year || lfit diff year

Page 16: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ cột (bar plot)

Cú pháp: twoway bar yvar xvar [if] [in] [, options]

Options: vertical: Đồ thị hiển thị hình cột theo chiều thẳng

đứng. Mặc định horizontal: Đồ thị hiển thị hình cột theo chiều ngang Các lựa chọn khác của tương tự như histogram

Page 17: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ cột (bar plot) – tiếp

Ví dụ: sử dụng số liệu sp500 để vẽ biểu đồ bar giá thay đổi (biến change) theo ngày (biến date) twoway bar change date in 1/52

Page 18: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Liên kết đồ thị

Chúng ta có thể liên 2 hay nhiều đồ thị vào trong cùng một trục tạo độ

Cú pháp: có 2 cách twoway (scatter …) (line …) (lfit ….) … hoặc scatter …. || line …. || lfit…. || …

Ví dụ:twoway line close datetwoway line close date, yaxis(1) || bar change date, yaxis(2) ||

in 1/52, yscale(axis(1) r(1000 1400)) ylabel(1200(50)1400, axis(1)) yscale(axis(2) r(-50 300)) ylable(-50 0 50, axis(2)) ytick(-50(25)50, axis(2) grid) yline(1150, axis(1))

Page 19: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ matrixMa trận

Cú pháp: đây là đồ thị mở rộng của scatter 2 chiềugraph matrix varlist [if] [in] [weight] [, options]

axis(1) axis(3) axis(5) x x x v5/v1 v5/v2 v5/v3 v5/v4 y axis(5) y axis(4) v4/v1 v4/v2 v4/v3 v4/v5 v3/v1 v3/v2 v3/v4 v3/v5 y axis(3) y axis(2) v2/v1 v2/v3 v2/v4 v2/v5 v1/v2 v1/v3 v1/v4 v1/v5 y axis(1) axis(2) axis(4) x x

ví dụ: sử dụng auto

sysuse auto, clear

graph mat mpg price weight length, ms(Oh)

Page 20: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ hình hộp (Box Plot)

Có 2 kiểu biểu đồ hình hộp: graph box yvars [if] [in] [weight] [, options] graph hbox yvars [if] [in] [weight] [, options]

Ứng dụng: chủ yếu để so sánh phân phối của biến này so với biến kia.

o <- outside value

adjacent line <- lower adjacent value whiskers <- 25th percentile (lower hinge) box <- median <- 75th percentile (upper hinge) whiskers adjacent line <- upper adjacent value

o o <- outside values

The encoding and the words used to describe the encoding are

Page 21: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ hình hộp (Box Plot)

over(varname) – với varname là biến rời rạc, ví dụ biến giới tính sẽ chia đồ thị thành nhóm đồ thị là nam và nữ

Ví dụ: dãy số sau “1,4,6,12,16,23,24”graph box var

Page 22: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ hình tròn (Pie Chart)

Hiển thị các phần của hình tròn theo đơn vị phần trăm hoặc giá trị của từng biến đó (trong tổng giá trị của các biến) của mỗi biến.

Chú ý: theo cú pháp này thì các biến trong varlist phải cùng đơn vị

graph pie varlist [if] [in] [weight] [, options]

Page 23: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ hình tròn (Pie Chart)

Hiển thị các phần của hình tròn theo phần trăm hoặc giá trị của biến theo biến rời rạc trong over()

graph pie varname [if] [in] [weight], over(varname) [options]

Hiển thị các phần của hình tròn theo tần suất của biến rời rạc bên trong overgraph pie [if] [in] [weight], over(varname) [options]

Page 24: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ hình tròn (Pie Chart)

Một số option chính over(varname): biến rời rạc angle0(#): # là độ nghiêng của slice đầu tiên, mặc

định là 90 độ missing: bạn muốn hiển thị giá trị missing trên biểu

đồ

Page 25: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ hình tròn (Pie Chart)

plabel({#|_all} {sum|percent|name|"text"} [, plabel_subopts]): 1<= # <= số lượng slice xác định slice được hiển thị label.

nếu chúng ta muốn hiển thị slice 1 slice 2 và slice 4 thì chúng ta làm như sau plabel (1 percent) plabel (2 percent) plabel(4 percent) còn nếu bạn muốn hiển thị toàn bộ label thì bạn sử dụng plabel(_all percent).

plabel_subopts: format(%fmt): fmt là các định dạng mà chúng ta đã được giới

thiệu trong câu lệnh format và chỉ được dùng khi sum hoặc percent được chọn.

gap(#): dùng để hiển thị vị trí của các label trên đồ thị mặc định #=0. Nếu # < 0 thì label sẽ tiến gần về tâm đường tròn, còn # > 0 tiến ra xa tâm đường tròn.

Kết hợp với by(): cũng như hầu hết các đồ thị khác đều có thể kết hợp được với by()

Page 26: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ hình tròn (Pie Chart)

sysuse autogen price1 = price if price < 5000gen price2 = price if price <8000 & price >=5000gen price3 = price if price >=8000graph pie price1 price2 price3 // đồ thị đơn giản

loại 1graph pie price1 price2 price3, plabel(_all

percent)// thêm các nhãn cho đồ thịgraph pie price1 price2 price3, plabel(_all percent)

by( foreign, total)// Kết hợp với by()

Page 27: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ hình cột (Bar Chart)

Cú pháp:graph bar yvars [if] [in] [weight] [, options]graph hbar yvars [if] [in] [weight] [, options]

yvars:(stat): với stat là: mean median p1 p2 ... p99

sum count min maxOptions:

over( varname): varname là biến rời rạc, và bạn có thể kết hợp được nhiều over()

by(varname): cũng tương tự như over(varname) blabel():Mặc định là none, bar và total

Page 28: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Biểu đồ hình cột (Bar Chart)

sysuse autograph bar (mean) price weight, over(foreign)graph bar (mean) price weight (median) price

weight, over(foreign)// Kết hợp vẽ cả đồ thị trung bình và phương sai

graph bar (mean) price weight, over(foreign) blabel (bar) // Thêm phần trăm trên các cột

Page 29: GiỚI THIỆU PHẦN MỀM XỬ LÝ SỐ LIỆU STATA

Lưu lại đồ thị

Vẽ đồ thị

graph pie price1 price2 price3, plabel(_all percent) by(foreign, total) Lưu lại đồ thị

graph save "E:\graph1.gph“, replace Sử dụng đồ thị

graph use "E:\graph1.gph“

hoặc cách rất đơn giản là khi vẽ đồ thị xong bạn vào menu của đồ thị chọn save là ok.