15
Những nguyên tắc trình bày biểu đồ trong bài báo khoa học Nguyễn Văn Tuấn Một trong những vấn đề hay thấy trong các bài báo khoa học ở Việt Nam là cách trình bày dữ liệu bằng biểu đồ. Những biểu đồ được thiết kế quá đơn giản (phần lớn là cắt và dán từ các phần mềm máy tính) và vi phạm hầu như bất cứ nguyên tắc nào của trình bày dữ liệu mà có lẽ tác giả chưa làm quen. Trong chương này, tôi sẽ bàn qua những nguyên tắc trình bày dữ liệu trong biểu đồ. Để cảm nhận được vấn đề, có thể xem qua vài biểu đồ hay thấy trong các bài báo khoa học ở Việt Nam: Trên đây là biểu đồ mô tả kết quả. Mỗi biểu đồ thật ra chỉ có 2 con số!

Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

Nhữngnguyêntắctrìnhbàybiểuđồtrongbàibáokhoahọc

NguyễnVănTuấn

MộttrongnhữngvấnđềhaythấytrongcácbàibáokhoahọcởViệtNamlàcáchtrìnhbàydữliệubằngbiểuđồ.Nhữngbiểuđồđượcthiếtkếquáđơngiản(phầnlớnlàcắtvàdántừcácphầnmềmmáytính)vàviphạmhầunhưbấtcứnguyêntắcnàocủatrìnhbàydữliệumàcólẽtácgiảchưalàmquen.Trongchươngnày,tôisẽbànquanhữngnguyêntắctrìnhbàydữliệutrongbiểuđồ.Đểcảmnhậnđượcvấnđề,cóthểxemquavàibiểuđồhaythấytrongcácbàibáokhoahọcởViệtNam:

Trênđâylàbiểuđồmôtảkếtquả.Mỗibiểuđồthậtrachỉcó2consố!

Page 2: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

Biểuđồnàychẳngnhữngcóthểxemlànghèonànvìítsốliệu,màcòntốnkhánhiềumựcinvàcảmàu.

Page 3: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

Haibiểuđồtrêncũngnghèonànvềsốliệu,vàlượngthôngquáthấp.

Biểuđồnàyrấtkhóđọc,mộtphầnlàdophôngchữquánhỏ,mộtphầnlàdochọncácbarđểthểhiệndữliệu.Nhữngbiểuđồnhưtrìnhbàytrênthậtrakháphổbiếntrêncáctậpsankhoahọctrongnước.Cóthểnóirằngphầnlớnbiểuđồkhôngcungcấpthôngtinliênquanhaythôngtinquantrọngđểbổsungthôngđiệpchínhcủabàibáo.Đạiđasốbiểuđồđượcsoạnmộtcáchhờihợt,làmchongừoiđọccảmthấytácgiảhìnhnhưchưađầutưvàoviệcsuynghĩvàthiếtkế.Thậtra,trongthựctế,phầnlớncácbiểuđồtrêncáctậpsankhoahọcởVNlàcắtvàdántrựctiếptừcácphầnmềmnhưExcelhayphầnmềmthốngkê.Chínhvìthếmàkhiđọcnhữngbiểuđồ,cónhiềukíhiệu,cáchdiễntảrấtkhóhiểu(lẫnlộngiữatiếngAnhvàtiếngViệt).Mộtbàibáokhoahọcvớinhữngbiểuđồnhưthếrấtkhócócơmayđượcchấpnhậnchocôngbốtrêncáctậpsanquốctế.NguyêntắcsoạnbiểuđồBiểuđồlàmộtcáchtrìnhbàydữliệukhoahọcrấthữuhiệu.NgườiTrungHoatừngcócâumộthìnhảnhcógiátrịtươngđươngvớimộtvạnchữ.Thậtvậy,đốiphóvớimộtrừngsốliệuthuthậptừthínghiệm,vấnđềđặtralàlàmsaokhaithácnhữngsốliệunàymộtcáchhữuhiệunhất.Hữuhiệuởđâyphảihiểulàchuyểntảithôngtinsaochochongườixemcảmthấydễlĩnhhộinhất.Cóbacách

Page 4: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

đểthểhiệndữliệukhoahọc:dùngchữviết,bảngsốliệu,vàbiểuđồ.Chữviếtchỉcóthểsửdụngchonhữngdữliệurấtđơngiản,chứkhôngthểhiệnđượctấtcảnhữngxuhướngvàdaođộngcủadữliệu.Bảngsốliệucóthểsửdụngchotrườnghợptómlượcnhữngthôngtinmangtínhchínhxáccao.Nhưngbiểuđồcóthểsửdụngđểchuyểntảinhữngthôngđiệpvềmứcđộảnhhưởngvàxuhướngbiếnthiêncủadữliệu.Dođó,đứngtrướcquyếtđịnhchọnhìnhthứcđểthểhiệndữliệu,biểuđồphảivànênxemlàmộthìnhthứcsố1.Đểthiếtkếbiểuđồmộtcáchhữuhiệu,cầnphảilàmquenvớicáitên“EdwardTufte”,vìônglàmộtchuyêngiahàngđầuvềbiểuđồ.ÔnglàgiáosưthốngkêhọccủaĐạihọcYale,giáosưchínhtrịhọc,vàgiáosưkhoahọcmáytính(cũngtạiYale),làngườiđãcóảnhhưởngcựckìlớnđếnlĩnhvựctrìnhbàydữliệubằngbiểuđồ,quanhữngcôngtrìnhcóthểnóilàđặtnềntảngcholĩnhvựcnày(cókhiđượcđềcậpđếnnhưlàdatavisualization).Ônglàngườidámthuếchấpcănnhàmìnhchongânhàngđểvaymộtsốtiềnlàmnghiêncứuvàchoracôngtrìnhvềdatavisualizationmàsaunàyôngkhôngbaogiờhốihận(vìquáthànhcôngvềtàichính!)BáoNewYorkTimesgọiônglàLeonardoDaVinciofData.EdwardTufteđặtratriếtlívà4nguyêntắctrongtrìnhbàydữliệubằngbiểuđồ.Triếtlícủathểhiệndữliệucóthểtómlượctrongcâusauđây:“Graphicalexcellenceisthatwhichgivestotheviewerthegreatestnumberofideasintheshortesttimewiththeleastinkinthesmallestspace”(tạmdịch:triếtlícủatrìnhbàydữliệubằngbiểuđồlàcungcấpchongườixemmộtlượngthôngtincaonhấttrongmộtthờilượngnhỏnhấtvớilượngmựcinthấpnhấttrongmộtkhônggiannhỏnhất).Nhưvậy,khitrìnhbàydữliệubằngbiểuđồ,cầnphảichúýđến4khíacạnh:lượngthôngtin,thờigian,lượngmựcin,vàkhônggian.Triếtlínàycóthểxemnhưlàmộttriếtlíhàtiện,tốníttàilựcnhấtđểcónhiềuthôngtinnhất.Đểđạtđượctriếtlíđó,Tufteđặtra4nguyêntắc:

• Nóilênsựthậtvềdữliệu;• Tốiđahoátỉsốdữliệutrênmựcin;• Tốiđahoámậtđộdữliệu;và• Trìnhbàydữliệumộtcáchđầyđủ,khôngphảitrangtríbiểuđồ.

MộtsốbiểuđồminhhọadướiđâyđượctríchtừsáchcủaôngTufte.Yếutốdối(Liefactor)Tuftekhuyếncáorằngviệcthểhiệnsốliệutrênnềncủabiểuđồphảitheotỉlệthuậnvớiđịnhlượngcủatrụctungvàtrụchoành.Nếusốliệuchothấytỉlệtăngtrưởnglà30%,vàbiểuđồcũngthểhiệnconsốđó,thìkhôngcóvấnđềgì.Nhưng

Page 5: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

nếubiểuđồđượcthiếtkếlàmchomứcđộảnhhưởnglớnhơnmứcđộthậtthìđólàmộtsựgiandối.Dođó,TufteđịnhnghĩaLiefactor(tạmdịch:Yếutốdối)làtỉsốcủamứcđộảnhhưởngtrìnhbàytrênbiểuđồvớimứcđộảnhhưởngcủasốliệu.GọiLFlàyếutốdối,địnhnghĩanàycónghĩalà:

LF=ESgraph/ESdataTrongđó,ESgraplàmứcđộảnhhưởngcủabiểuđồ(effectsizeingraph),vàESdatalàmứcđộảnhhưởngcủasốliệu(effectsizeindata).BiểuđồnênđượcthiếtkếsaochoLFgầnbằng1.Nóicáchkhác,LFcàngcaothìmứcđộnóidốicàngcao.Chúngtacóthểlấymộtvídụsauđâyđểlàmvídụ.Trongbiểuđồdướiđây,tácgiảtrìnhbàynồngđộestrogenchohainhóm(Group1vàGroup2).Nhìnquabiểuđồ,chúngtacólẽrấtấntượngvìnồngđộestrogencóvẻrấtkhácbiệtgiữahainhómbệnhnhân.Nhưngnếunhìnkĩ,chúngtathấycórấtnhiềuvấnđềtrongbiểuđồnày,nhưngchúngtabànquayếutốdốitrước.

Đểxemyếutốdối,chúngtacầnphảitínhmứcđộảnhhưởngcủadữliệu.ChúýrằngNhóm1cónồngđộestrogenlà10,vànhóm2là15.Dođó,mứcđộảnhhưởngcóthểtínhbằngcáchlấygiátrịcaonhấttrừchogiátrịthấpnhất,vàchiakếtquảchogiátrịthấpnhất:

ESdata=(15–10)/10=0.5

Page 6: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

Mứcđộảnhhưởngcủabiểuđồcóthểtínhtừtrụctung.Chúýbiểuđồcó8đườngngang(bắtđầutừ0đến7),nhưngchúngtachúýtừ1đến6.Dođó,mứcđộảnhhưởngtrênbiểuđồlà:

ESgraph=(6–1)/1=5Từđó,chúngtacóthểướctínhyếutốdốilà:

LF=5/0.5–10.Biểuđồnàycóyếutốdốiquácao.Chínhyếutốnàygiảithíchtạisaochúngtacảmnhậnrằngmứcđộảnhhưởngrấtcao,nhưngtrongthựctếthìkhônghẳnnhưthế.Giớibáochíthườnghaydùngbiểuđồmộtcách…dốigian.Mộtvídụkhácvềyếutốdốicóthểxemquabiểuđồdướiđây(tríchtừmộtcuốnsáchcủaTufte).Biểuđồchothấynăm1978,mỗigallonxăngchạyđược18mile,nhưngđếnnăm1985thìmỗigallonxăngchạyđược25mile,tứclàxăngdầucàngngàycàngcóhiệusuấtkinhtếhơn.Nhưngvìcáchtrìnhbàybiểuđồthiếuthànhthật,nênlàmchochúngtacóấntượngrấttốt.Nhưngnhìnkĩthìsốliệucủanăm1978là18inchdài,cònnăm1985là27.5inch.Mứcđộảnhhưởngthậtsự(tứctừdữliệu)là:

ESdata=(27.5-18)/18=0.53.Nhưngmứcđộảnhhưởngquacáchthiếtkếbiểuđồthìrấtcao.Chúýrằngtrụchoànhchonăm1978là0.6inch,cònnăm1985là5.3inch.Dođó,mứcđộảnhhưởngảotrênbiểuđồlà:

ESgraph=(5.3–0.6)/0.6=7.83.

Nhưvậy,yếutốdốigianlàgầnbằng15!(LF=7.83/0.53=14.8).

Page 7: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

Nhưngbiểuđồdướiđâythìkhôngcóyếutốgiandối,vìyếutốdốibằng1.(Cácbạncóthểtínhđểkiểmtra).

Tỉsốdữliệutrênmựcin(Data-inkratio)Mộtnguyêntắcquantrọngtrongthiếtkếbiểuđồlàsửdụngmựcinđểtrìnhbàydữliệuchứkhôngphảiđểtrangtríchobiểuđồ.Dođó,Tufteđềnghịdùngtỉsốmựcindànhchodữliệutrêntổngsốlượngmựcinđểđánhgiámộtbiểuđồ.Nói

Page 8: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

cáchkhác,gọiDIR(data-inkratio)làtỉsốdữliệuvàmựcin:

DIR=(sốmựcdùngchodữliệu)/(tổngsốmựcdùngtrongbiểuđồ)Tỉsốnàycũngnêngầnbằng1.Tỉsốnàycũngcóthểhiểunhưlàtỉsốcủatínhiệutrênnhiễu(signalovernoiseratio).Theođó,nênxoábỏnhữngmựcinkhôngdùngchodữliệuhaythừathải.ĐểminhhoạchokháiniệmDIR,chúngtacóthểxemquabiểuđồdướiđây:

Trongbiểuđồtrên,chúngtadễdàngthấycóquánhiềumựcdànhchotrangtrí.Thứnhấtlàmàunền(màuxámnhạt)làkhôngcầnthiết.Thứhailàlegend,Time(min),cũngkhôngcầnthiết.Thứbalànhữngđườngngangcũngkhôngcầnthiết.Ngaycảcáchviết“GroupA”,“GroupB”,v.v.lặplạichữ“Group”đến4lần!Biểuđồtrêncóthểthiếtkếlạinhưsau.Ngaycảcáchthiếtkếnàycũngchưatốiưu,nhưngcóthểchấpnhậnđược.

Page 9: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

Dướiđâylàmộtvídụvềbiểuđồcóquánhiềumựcchotrangtrí:

Biểuđồnàycóquánhiềugridlinesdễlàmchongườixemmấttậptrung.Cóthểđơngiảnthành:

Page 10: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

Thậtra,nếumụctiêulàchỉramốitươngquanthìnhữngđườngngangđócũngkhôngcầnthiết,vàbiểuđồcóthểđơngiảnthành:

Ngaycảnhữngđườngranhcũngkhôngcần.Dođó,biểuđồcóthểcảitiếnthành:

Page 11: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

MậtđộdữliệuTufteđịnhnghĩamậtđộdữliệu(datadensityindexhayDDI)làsốsốliệutínhtrêndiệntíchcủabiểuđồ.NguyêntắcchunglàtốiđahoáDDI,vìmụctiêuchínhcủanhàkhoahọclàtrìnhbàydữliệucàngnhiềucàngtốt.Biểuđồdướiđâytrìnhbàysốđốitượngnghiêncứuchonhómnamvànữ.Trongthựctế,biểuđồnàyrấtvôdụngvìtấtcảchỉcó2sốliệumàthôi,nhưngchiếmrấtnhiềukhônggian.Nếuchúngtađochiềucaovàchiềungangcủabiểuđồ(cóthểtínhbằngcm)thìsẽcódiệntích.Nhưnggiảdụnhưdiệntíchcủabiểuđồlà10cm^2,thìmậtđộdữliệuchỉ2/10=0.2,tứcrấtthấp.Trongtrườnghợpnày,tácgiảkhôngcầnđếnbiểuđồ,màchỉđơngiảnmôtảbằngchữlàđủ.

Biểuđồdướiđâythểhiệnmốitươngquangiữachiềucao(trụchoành)vàtrọnglượng(trụctung).Tácgiảcòndùngmàuđểphânbiệtdữliệuchonamvànữ.Biểuđồcórấtnhiềudữliệuvàthôngtin.Đâylàbiểuđồcómậtđộdữliệucao,vàcóthểxemlàrấttốt.

Page 12: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

EdwardTuftelàmmộtnghiêncứunhỏđểsosánhmậtđộdữliệucủacáctạpchíkhoahọcphổthôngvàkhoahọcchuyênmôn.KếtquảchothấytậpsankhoahọcnhưNaturecómậtđộdữliệucaonhất(7.4)sovớiScientificAmerican(0.8)vàTimes(2.8).Bàihọcởđâylàđểtăngcaoxácsuấtcôngbốtrênnhữngtậpsanlớn,cầnchúýđếntốiưuhoámậtđộdữliệutrongbiểuđồ.NhấtquántrongcáchthểhiệndữliệuMộtnguyêntắcquantrọngkháctrongthểhiệndữliệulàtrìnhbàynhữngbiếnđổicủadữliệu,chứkhôngphảithayđổihìnhthức(nhưmàu)đểthểhiệnmộtdữliệu.Biểuđồdướiđâylàmộtvídụchosự“viphạm”nguyêntắcvừađềcập:

Page 13: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

TácgiảdùnghaimàuxanhmộtcáchluânphiênđểchỉmôtảtỉlệhútthuốcởAnh.Nămthìkhôngrõràng,đánglẽphảilà1974,1978,1982,…,1994,nhưngtácgiảđểchongườiđọcphảisuyđoán.Đólàmộtđiềuđạikịtrongphươngpháptrìnhbàydữliệu.Ngoàira,nhữngconsốphầntrăm(45%,40%,v.v.)hìnhnhưđượcđặtvàonhữngvịtrírấttuỳtiện,chứchẳngtheomộtquiluậtnàocả.Cóthểxemđâylàmộtbiểuđồrấtkém.Biểuđồnàycóthểthiếtkếlạitốthơn,nhưngtôiđểchobạnđọcsuynghĩvàthửlàm:-).Tránhbiểuđồrácrưởi(Chartjunk)Thuậtngữ“ChartJunk”cũnglàmộtsángkiếncủaEdwardTufte.Ônggọibiểuđồrácrưởilàcáchthểhiệndữliệumộtcách“hoahoè”hayloéloẹt.Đâylàcáchthểhiệndữliệucủagiớibáochíhaynghệsĩ.Nhữngngườinàyvìkhôngamhiểukhoahọc,nênhaylạmdụngnhữnghìnhảnhlàmđộcgiảthiếutậptrungvàothôngđiệpchínhcủadữliệu.Cầntránhnhữngbiểuđồrácrưởi.MộtvídụtiêubiểuvềbiểuđồrácrưởimàEdwardTuftelấyrađểlàmminhhoạlàbiểuđồdướiđây.Biểuđồtrìnhbàygiácủakimcươngtừnăm1978đến1982.Thayvìđườngbiểudiễnmàuđỏlàđủ,ngườithiếtkếbiểuđồchothêmhìnhảnhmộtcôgáitrongtưthếgợicảm.Vớibiểuđồnày,chắcchắnlàmchophầnlớnngườiđọckhôngchúývàodữliệumàchămchúnhìnvàocôgái,vàthếlàtácgiảkhôngđạtđượcmụctiêucủamình.

Page 14: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

\Biểuđồcóthểgiúpchochúngta“dấnthân”vàochủđềnghiêncứumàcókhichữkhônglàmđược.Thiếtkếbiểuđồtốtcũngđòihỏinỗlựccaonhưviếtmộtbàibáokhoahọc.Mộtbiểuđồtốtcóthểđivàolịchsửvàtồntạovớithờigianrấtlâu.Chúngtahaythấycónhiềusáchgiáokhoahaynhữngbàigiảngcónhữngbiểuđồthuộcvàohạngcổđiển,vìnhữngbiểuđồđóchuyểntảithôngtinđầyđủvàđạtnhữngchuẩnmựcvềthiếtkếbiểuđồmàtôitrìnhbàytrênđây.Dođó,cầnphảiđầutưthờigianvàcôngsứcvàocáchtrìnhbàydữliệuvàthiếtkếbiểuđồ.

Trướckhisoạnmộtbiểuđồ,cầnphảitrảlờinhữngcâuhỏisauđây:

• Ailàđộcgiảcủabiểuđồ,hayaisẽdùng?• Chọnhìnhthứcthểhiện(biểuđồthanh,biểuđồtánxạ,v.v.)• Sắpxếpdữliệuthíchhợpchotrụctungvàtrụchoành.• Thêmvàocácbiếncầnthiết.• Biêntậpnhiềulầnđểtăngmậtđộdữliệu.

Sauđólàtuânthủtheo4nguyêntắcvừamôtảtrên.Xinnhắclạiđólànguyêntắctốiưuhoáyếutốdối,tỉsốdữliệutrênmựcin,tỉsốdữliệutrêndiệntíchbiểuđồ,vàtránhnhữnghìnhthứcmàumè(rácrưởi)dễlàmchongườiđọcxarờithôngđiệpchínhcủasốliệu.Hivọngrằngnhữngnguyêntắcvàchỉdẫntrênđâysẽ

Page 15: Những nguyên tắc trình bày biểu đồ trong bài báo khoa học

giúpchocácbạncóđượcmộtbàibáokhoahọctốtvànhữngbiểuđồđivàolịchsử.