Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
MỤC LỤC
MỤC LỤC..................................................................................................................................i
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT..............................................................iii
DANH MỤC CÁC BẢNG........................................................................................................v
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ.............................................................................vi
MỞ ĐẦU...................................................................................................................................1
Chương 1: TỔNG QUAN..........................................................................................................5
1.1. TỔNG QUAN VỀ NĂNG LƯỢNG ĐIỆN......................................................................5
1.1.1. Khái niệm về điện năng .........................................................................................5
1.1.2. Thực trạng thị trường điện lực Việt Nam...............................................................5
1.1.3. Phương hướng xây dựng mô hình thị trường điện lực tại Việt Nam......................6
1.1.4. Tình hình sản xuất kinh doanh trên địa bàn tỉnh Bình Dương...............................7
1.2. KHẢO SÁT CÁC CÔNG TRÌNH, BÀI BÁO ĐÃ ĐĂNG TẢI LIÊN QUAN ĐẾN ĐỀ TÀI.............................................................................................................................7
1.2.1.Các thuật toán di truyền và tiến hóa dùng dự báo chuỗi thời gian .........................8
1.2.2. Sử dụng thuật giải di truyền đa cấp dự báo chuỗi thời gian ................................11
1.2.3. Giải thuật lai cho bài toán sắp hàng đa trình tự sinh học .....................................15
1.3. CÁC MÔ HÌNH THƯỜNG ÁP DỤNG TRONG DỰ BÁO, ĐÁNH GIÁ....................17
1.3.1. Khái niệm về dự báo, đánh giá.............................................................................17
1.3.2. Các mô hình dự báo..............................................................................................17
1.3.3. Mô hình dự báo dựa trên chuỗi thời gian.............................................................18
1.4. KẾT LUẬN CHƯƠNG..................................................................................................19
Chương 2: CƠ SỞ LÝ THUYẾT............................................................................................20
2.1. GIẢI THUẬT LUYỆN KIM (SA:SIMULATED ANNEALING) ...............................20
2.1.1. Giới thiệu chung về giải thuật luyện kim.............................................................20
2.1.2. Hàm nhiệt độ và quá trình hoạt động...................................................................24
2.1.3. Hàm chi phí và hàm mục tiêu...............................................................................27
2.1.4. Cấu trúc của lời giải lân cận.................................................................................27
2.1.5. Các bước của bài toán SA và điều kiện dừng.......................................................28
2.1.6. Ưu điểm và khuyết điểm......................................................................................29
2.2. GIẢI THUẬT DI TRUYỀN (GA: GENETIC ALGORITHMS) .................................29
2.2.1. Giới thiệu chung về giải thuật di truyền...............................................................29
2.2.2. Thực hiện giải thuật di truyền...............................................................................33
i
2.2.3. Chương trình tổng quát.........................................................................................38
2.3. CHUỖI THỜI GIAN VÀ MÔ HÌNH TỰ HỒI QUY....................................................40
2.3.1. Thế nào là chuỗi thời gian ...................................................................................40
2.3.2. Dự báo chuỗi thời gian ........................................................................................41
2.3.3. Mô hình tự hồi quy ..............................................................................................42
2.3.4. Mô hình trung bình trượt......................................................................................43
2.3.5. Quá trình tự hồi quy trung bình trượt cấp p,q: ARMA(p,q).................................43
2.4. KẾT LUẬN CHƯƠNG..................................................................................................44
Chương 3: XÂY DỰNG VÀ THỰC NGHIỆM MÔ HÌNH DỰ BÁO...................................45
3.1. PHÂN TÍCH CHỈ TIÊU ĐÁNH GIÁ HIỆU QUẢ CỦA MÔ HÌNH............................45
3.2. CẤU TRÚC BẢNG DỮ LIỆU ......................................................................................46
3.3. MÔ HÌNH ARMA .........................................................................................................46
3.3.1. Mục đích của việc kết hợp hai mô hình................................................................46
3.3.2. Mô tả giải thuật.....................................................................................................47
3.4. KẾT LUẬN CHƯƠNG..................................................................................................50
Chương 4: KẾT QUẢ THỰC NGHIỆM.................................................................................51
4.1. THỬ NGHIỆM MÔ HÌNH ARMA TRÊN CÁC CHUỖI DỮ LIỆU MẪU LẤY TỪ TIME SERIES DATA LIBRARY................................................................................51
4.1.1. Các chỉ tiêu đạt được trên mô hình ARMA.........................................................51
4.1.2. Thực nghiệm mô hình ARMA trên chuỗi dữ liệu mẫu lấy từ TS Library...........52
4.1.3. Nhận định kết quả.................................................................................................57
4.2. THỰC NGHIỆM MÔ HÌNH ARMA CHO CÁC CHUỖI DỮ LIỆU TRONG LĨNH VỰC NGÀNH ĐIỆN:.........................................................................................58
4.2.1. Dự báo nhu cầu sử dụng điện theo từng khu vực huyện, thị trong tỉnh:..............58
4.2.2. Dự báo nhu cầu sử dụng điện theo từng nhóm ngành nghề trong tỉnh:................59
KẾT LUẬN.............................................................................................................................63
KIẾN NGHỊ CÁC HƯỚNG NGHIÊN CỨU TIẾP THEO.....................................................63
DANH MỤC TÀI LIỆU THAM KHẢO................................................................................64
PHỤ LỤC ...............................................................................................................................66
ii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Viết tắt Tiếng Anh Tiếng Việt
ARMA AutoRegressive Moving Average Trung bình trượt tự hồi quy
ARIMA AutoRegressive Intergrated
Moving Average
Trung bình trượt tích hợp tự hồi qui
ES Exponential Smoothing San bằng số mũ
GA Genetic Algorithm Giải thuật di truyền
SA Simulated Annealing Giải thuật luyện kim
NN Neural Network Mạng nơ-ron
FL Fuzzy Logic Logic mờ
EVN The Electricity of Vietnam Tổng Công ty Điện lực Việt Nam
TS Time series Chuỗi thời gian
GEAs Genetic and Evolutionary
Algorithms
Thuật toán di truyền và tiến hóa
SSE Sum Squared Error Sai số tổng bình phương
RMSE Root Mean Squared Error Sai số căn của trung bình bình phương
NMSE Normalized Mean Square Error .Sai số trung bình bình phương chuẩn
TSF Time series forecasting Dự báo chuỗi thời gian
RVR Real-Valued Representation Biểu diễn giá trị thực
BIC Bayesian Information Criterion
STW Sliding Time Window Cửa sổ thời gian trượt
STWs Sliding Time Window Các cửa sổ thời gian trượt
Meta-GAs Meta-Genetic Algorithm Thuật giải di truyền đa cấp
SA-GA Simulated Annealing - Genetic
Algorithm
Thuật giải luyện kim kết hợp thuật
giải di truyền
AR AutoRegressive Tự hồi quy
iii
MA Moving Average Trung bình trượt
ARCH AutoRegressive Conditional
Heteroskedasticity
Phương sai sai số thay đổi có điều
kiện tự hồi quy
GARCH Generalized - AutoRegressive
Conditional Heteroskedasticity
Phương sai sai số thay đổi có điều
kiện tự hồi quy mở rộng
TBA Trạm biến áp
CN-XD Công nghiệp - Xây dựng
NL-TS Nông lâm - Thuỷ sản
KS-NH Khách sạn - Nhà hàng
CQ-QL Cơ quan - Quản lý
Điện TP Điện Thương phẩmĐT (Tr.đ) Đầu tư (Triệu đồng)
DANH MỤC CÁC BẢNG
Bảng 1.1: Time Series Data Library...........................................................................9
Bảng 1.2: So sánh giữa các phương pháp TSF khác nhau........................................11
Bảng 1.3: Đặt giá trị tham số thuật toán Meta-GAs.................................................14
Bảng 1.4: Mô hình ARMA tối ưu thu được bởi thuật toán Meta-GAs...................14
iv
Bảng 1.5: So sánh phương pháp Meta-GAs với các phương pháp truyền thống.....14
Bảng 2.1: So sánh tương quan giữa luyện kim vật lý và giải thuật luyện kim..........21
Bảng 2.2: So sánh giải thuật di truyền với các phương pháp truyền thống...............32
Bảng 2.3. Chọn lọc dùng bánh xe............................................................................34
Bảng 2.4. Sự tương ứng các số ngẫu nhiên và chuỗi nhiễm sắc thể.........................35
Bảng 4.1: So sánh phương pháp SA-GA với các phương pháp truyền thống..........51
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
Hình 1.1: Ví dụ về giải mã thuật toán Meta-GAs.....................................................12
Hình 1.2: The Meta-Ecolutionary Approach............................................................13
Hình 1.3: Biểu đồ mô tả mức độ ổn định của nghiệm được chọn............................16
Hình 2.1: Sơ đồ không gian lời giải.........................................................................21
v
Hình 2.2: Lưu đồ biểu diễn giải thuật luyện kim.....................................................24
Hình 2.3: Biểu diễn quá trình hoạt động của hàm nhiệt độ......................................25
Hình 2.4: Biểu diễn quan hệ giữa hàm chi phí và hàm mục tiêu..............................27
Hình 2.5: Sơ đồ tổng quát của giải thuật di truyền...................................................31
Hình 2.6: Bánh xe Roulette......................................................................................35
Hình 2.7: Lai ghép...................................................................................................36
Hình 2.8: Lai ghép biểu diễn theo cây......................................................................37
Hình 2.9: Giải thuật di truyền...................................................................................40
Hình 2.10: Phân tích chuỗi số liệu trong dự báo......................................................42
Hình 2.11: Phương pháp luận dự báo chuỗi thời gian..............................................42
Hình 3.1: Cấu trúc lời giải của phương pháp SA-GA..............................................46
Hình 3.2: Giải thuật SA-GA cho mô hình ARMA..................................................48
Hình 4.1. Giao diện chính........................................................................................52
Hình 4.2: Đồ thị biểu diễn chuỗi Passengers............................................................53
Hình 4.3: Đồ thị biểu diễn chuỗi Paper....................................................................54
Hình 4.4: Đồ thị biểu diễn chuỗi Deaths..................................................................54
Hình 4.5: Đồ thị biểu diễn chuỗi Maxtemp..............................................................55
Hình 4.6: Đồ thị biểu diễn chuỗi Chemical..............................................................55
Hình 4.7: Đồ thị biểu diễn chuỗi Prices....................................................................56
Hình 4.8: Đồ thị biểu diễn chuỗi Sunspots...............................................................57
Hình 4.9: Đồ thị biểu diễn chuỗi Kobe.....................................................................57
Hình 4.10: Đồ thị biểu diễn chuỗi TDM.................................................................59
Hình 4.11: Đồ thị biểu diễn chuỗi NLT....................................................................59
vi
Hình 4.12: Đồ thị biểu diễn chuỗi CN-XD...............................................................60
Hình 4.13: Đồ thị biểu diễn chuỗi KD-DV..............................................................61
Hình 4.14: Đồ thị biểu diễn chuỗi AS......................................................................61
Hình 4.15: Đồ thị biểu diễn chuỗi KHAC................................................................62
vii
MỞ ĐẦU
1. Đặt vấn đề
Những năm gần đây tình hình phát triển kinh tế xã hội gia tăng, nhu cầu sử dụng
nguồn năng lượng điện cũng tăng nhất là trong sản xuất và đời sống. Việc thiếu điện
sinh hoạt và sản xuất do nhiều nguyên nhân như sử dụng không tiết kiệm, thiếu
nguồn nước để vận hành nhà máy điện, không có kế hoạch cho việc cân đối giữa
cung và cầu… Do đó, dự báo nhu cầu tiêu thụ điện là bài toán hết sức cần thiết
trong quá trình vận hành, quy hoạch, phát triển, điều khiển tối ưu chế độ mạng điện
… Hầu hết các bài toán dự báo phụ tải đều dựa trên cơ sở các mô hình toán học
hoặc các mô hình thực nghiệm nhằm tìm ra các quy luật biến đổi của phụ tải điện
trong chu kỳ xét, đưa ra những kế hoạch sản xuất và tiêu thụ điện hợp lý tránh tình
trạng thiếu điện trong sản xuất và đời sống như hiện nay.
Dự báo là một khoa học và nghệ thuật tiên đoán những sự việc sẽ xảy ra trong
tương lai, trên cơ sở phân tích khoa học về các dữ liệu đã thu thập được và có thể
nói rằng không có những dự báo khoa học thì những dự định tương lai mà con
người vạch ra sẽ không có sự thuyết phục đáng kể. Khi tiến hành dự báo căn cứ vào
việc thu thập xử lý số liệu trong quá khứ và hiện tại để xác định xu hướng vận động
của các hiện tượng trong tương lai nhờ vào một số mô hình toán học.
Các phần mềm máy tính giúp xây dựng các mô hình mô tả các dữ liệu theo một
quy luật nhất định dựa trên việc xử lý các dữ liệu đầu vào. Nhờ vào các công nghệ
của khoa học máy tính mà các nhà nghiên cứu có thể phát triển các mô hình phức
tạp áp dụng vào thực tế phục vụ cho việc hỗ trợ ra quyết định trong việc quản lý,
định hướng phát triển và sử dụng năng lượng điện. Đề tài “Xây dựng phần mềm ứng
dụng vào dự báo nhu cầu sử dụng điện trên địa bàn Thị xã Thủ Dầu Một” sẽ góp
phần nhỏ tham khảo cho việc định hướng phát triển ngành điện những năm tới.
1
2. Mục tiêu của đề tài
- Khảo sát xây dựng cơ sở dữ liệu về tình hình sử dụng năng lượng điện, thống
kê, xử lý dữ liệu số kw điện hàng tháng trong những năm trước để làm dữ liệu đầu
vào cung cấp thông tin hỗ trợ ra quyết định trong việc quản lý, định hướng phát
triển và sử dụng năng lượng điện
- Nghiên cứu, phân tích chuỗi dữ liệu thời gian để xác định bản chất của chuỗi
dữ liệu, dự báo các giá trị tương lai dựa trên các cơ chế phát sinh chuỗi
- Xây dựng phần mềm trên cơ sở kết hợp giải thuật luyện kim SA (Simulated
Annealing) và giải thuật di truyền GA (Genetic Algorithms) để dự báo chuỗi dữ liệu
thời gian
- Thực nghiệm các số liệu thực tế đầu vào thống kê được trên phần mềm để đưa
ra kết quả dự báo nhu cầu sử dụng điện
- Phục vụ công tác giảng dạy và nghiên cứu khoa học trong khoa Công nghệ
Thông tin
3. Tình hình nghiên cứu có liên quan đến lĩnh vực nghiên cứu của đề tài
3.1 Các thuật toán di truyền và tiến hóa dùng dự báo chuỗi thời gian (Genetic
and Evolutionary Algorithms Time Series Forecasting) của Paulo Cortez, Miguel
Rocha, and Jose1 Neves [12]
3.2 Sử dụng thuật giải di truyền đa cấp dự báo chuỗi thời gian (A Meta-Genetic
Algorithms for Time Series Forecasting) của P.Cortez, M. Rocha, J.Neves [11]
3.3 Giải thuật lai cho bài toán sắp hàng đa trình tự sinh học [8]
Trong nước, có một số nghiên cứu liên quan đến lĩnh vực về dự báo nhưng theo
những hướng khác nhau, chưa có nghiên cứu nào theo hướng đã trình bày của đề tài
về dự báo tình hình sử dụng điện tại Thị xã Thủ Dầu Một
4. Cách tiếp cận
- Phân tích chuỗi dữ liệu thời gian nhằm hai mục đích:
2
+ Xác định bản chất của chuỗi dữ liệu
+ Dự báo các giá trị tương lai dựa trên các cơ chế phát sinh chuỗi
- Thu thập số liệu về kw điện sử dụng trên địa bàn Thị xã Dầu Một
5. Phương pháp nghiên cứu:
5.1. Phương pháp nghiên cứu lý thuyết:
- Nghiên cứu giải thuật di truyền SA (Simulated Annealing)
- Nghiên cứu giải thuật luyện kim GA (Genetic Algorithms)
- Nghiên cứu mô hình ARMA (AutoRegressive Moving Average model)
phân tích và dự báo chuỗi dữ liệu thời gian.
5.2. Phương pháp thu thập dữ liệu:
- Thu thập số liệu về kw điện sử dụng trên địa bàn Thị xã
- Phân loại các đơn vị sử dụng điện theo thuộc tính ngành nghề
5.3. Phương pháp thực nghiệm:
- Thực nghiệm số liệu thống kê được trên phần mềm để có kết quả dự báo
tình hình sử dụng điện
6. Đối tượng và phạm vi nghiên cứu
6.1. Đối tượng nghiên cứu: Nghiên cứu các thuật toán tối ưu ứng dụng xây
dựng phần mềm dự báo
6.2. Phạm vi nghiên cứu: Đề tài xây dựng phần mềm dựa trên nghiên cứu các
giải thuật tối ưu và kết hợp các giải thuật ứng dụng vào mô hình ARMA để dự báo
mức tiêu thụ điện, từ kết quả dự báo tiến hành đánh giá tình hình sử dụng điện trên
địa bàn tỉnh Bình Dương. Do các ảnh hưởng phụ đến tình hình sử dụng điện như
tình hình kinh tế, chính trị, xã hội trong nước, tình hình phát triển mới các khu công
nghiệp, trường học, tăng dân số cơ học… rất khó xác định cả về định tính lẫn định
lượng và không dễ thu thập dữ liệu một cách đầy đủ trong thời gian ngắn, nên đề tài
3
chỉ tập trung trong phạm vi nghiên cứu chuỗi thời gian dự báo chỉ số sử dụng năng
lượng điện trên cơ sở chuỗi dữ liệu của những năm trước dự báo năm tiếp theo.
7. Nội dung nghiên cứu
- Nghiên cứu các công trình có liên quan
- Nghiên cứu các giải thuật di truyền và giải thuật luyện kim, mô hình
ARMA
- Thu thập dữ liệu, phân loại sử dụng điện theo thuộc tính ngành nghề.
- Xây dựng phần mềm, cài đặt thử nghiệm và đưa ra kết quả dự báo nhu cầu
sử dụng điện trên địa bàn Thị xã Thủ Dầu Một
MỞ ĐẦU
Chương 1: TỔNG QUAN
Chương 2: CƠ SỞ LÝ THUYẾT
Chương 3: XÂY DỰNG PHẦN MỀM DỰ BÁO
Chương 4: KẾT QUẢ THỰC NGHIỆM
KẾT LUẬN
KIẾN NGHỊ CÁC HƯỚNG NGHIÊN CỨU TIẾP THEO
TÀI LIỆU THAM KHẢO
PHỤ LỤC
4
Chương 1
TỔNG QUAN
Chương một giới thiệu sơ lược về nguồn năng lượng điện, thực trạng
nguồn cung cấp điện ở Việt Nam nói chung và Bình Dương nói riêng, phương
hướng phát triển ngành điện trong nước. Đồng thời khảo sát, phân tích một số
công trình nghiên cứu có liên quan để làm nền tảng nghiên cứu của đề tài.
1.1. TỔNG QUAN VỀ NĂNG LƯỢNG ĐIỆN
1.1.1. Khái niệm về điện năng [20]
Điện là một dạng năng lượng, là dòng chuyển dời có hướng của các electron.
Tất cả vật chất đều được cấu tạo bởi các nguyên tử, trong nguyên tử khi sự cân bằng
lực giữa proton và electron bị phá vỡ bởi tác dụng của ngoại lực, các electron thoát
ra khỏi nguyên tử, sự chuyển dịch tự do của các electron cấu tạo nên dòng điện.
Điện năng là dạng năng lượng thứ cấp, điện được tạo ra bằng cách chuyển hóa
từ các nguồn năng lượng sơ cấp như dầu mỏ, nguồn nước, năng lượng nguyên tử và
từ các nguồn năng lượng sơ cấp khác. Vào những năm giữa thế kỉ XIX, Thomas
Edison đã làm thay đổi cuộc sống mọi người bằng phát minh ra bóng đèn điện. Phát
minh của Edison đã sử dụng điện năng để mang ánh sáng vào từng gia đình.
Điện năng là một loại hàng hoá đặc biệt. Quá trình kinh doanh điện năng bao
gồm 3 khâu liên hoàn: Sản xuất - Truyền tải - Phân phối điện năng xảy ra đồng thời,
không qua một khâu thương mại trung gian nào. Điện năng được sản xuất ra khi đủ
khả năng tiêu thụ vì đặc điểm của hệ thống điện là ở bất kỳ thời điểm nào cũng có
sự cân bằng giữa công suất phát ra và công suất tiêu thụ (không để tồn đọng).
1.1.2. Thực trạng thị trường điện lực Việt Nam [13]
1.1.2.1. Sản xuất và phân phối điện năng
- Về nguồn điện: Hiện tại, tổng công suất lắp đặt khả dụng 8.454 MW tập
trung chủ yếu vào các nhà máy thuộc Tập đoàn Điện lực Việt Nam (EVN: The
Electricity of VietNam)
5
- Về lưới điện: EVN đã tập trung nhiều vào việc cải tạo nâng cấp hệ thống
lưới điện truyền tải. Hiện tại lưới điện truyền tải cao áp toàn quốc bao gồm
(1531 km đường dây, 2700 Trạm biến áp (TBA) 500KV; 3839 km đường dây,
8474 TBA 220KV; 7703 km đường dây, 11004 TBA 110KV) do 4 Công ty
Truyền tải điện quản lý vận hành.
1.1.2.2. Phương thức tổ chức kinh doanh điện năng
Mô hình quản lý sản xuất kinh doanh của EVN vẫn đang thực hiện theo mô
hình Nhà nước độc quyền quản lý các khâu của quá trình: Sản xuất- Truyền tải
- Phân phối điện năng. Mô hình này dẫn đến nhiều hạn chế về quản lý cũng
như hiệu quả đầu tư, không thúc đẩy phát triển sản xuất kinh doanh điện năng.
1.1.3. Phương hướng xây dựng mô hình thị trường điện lực tại Việt Nam[13]
1.1.3.1. Định hướng phát triển hoạt động sản xuất kinh doanh điện năng
- Về nguồn điện: Tập trung xây dựng các nhà máy thuỷ điện tại hầu hết những
nơi có khả năng xây dựng.
- Về lưới điện: Sẽ phát triển nhanh hệ thống truyền tải 220kV, 500 kV nhằm
nâng cao độ tin cậy và giảm tổn thất điện năng trên lưới truyền tải; phát triển
lưới điện 110kV thành lưới điện cung cấp trực tiếp cho phụ tải.
- Về cơ cấu bộ máy tổ chức của EVN: Thực hiện đề án của Chính phủ về
việc thí điểm thành lập tập đoàn điện lực, EVN tiếp tục đẩy nhanh quá trình cổ
phần hoá các đơn vị trực thuộc trong đó có các nhà máy điện, công ty phân
phối điện năng phục vụ cho việc phát triển thị trường điện.
1.1.3.2. Mô hình thị trường điện lực Việt Nam
- Đối với EVN: Cần chủ động điều tiết nguồn phát đảm bảo cân bằng hệ thống
- Đối với các nhà máy điện: Từng bước thực hiện cổ phần hoá các nhà máy
điện, chuyển các nhà máy điện thuộc EVN thành các nhà máy điện độc lập.
6
- Đối với các công ty truyền tải: Với bản chất là độc quyền tự nhiên, do vậy
Nhà nước vẫn nắm giữ thực hiện các hoạt động truyền tải điện từ người mua duy
nhất (EVN) đến các công ty điện lực.
- Đối với các công ty phân phối điện năng: Thực hiện chuyển đổi trở thành
đơn vị độc lập với EVN dưới hình thức Công ty mẹ - Công ty con.
- Do cần đảm bảo tính phù hợp của một số hoạt động độc quyền trong mô
hình như: EVN độc quyền mua điện từ các nhà máy điện độc lập, độc quyền
bán điện cho các công ty phân phối điện năng, các công ty phân phối độc quyền
bán điện cho khách hàng, do vậy cần thiết phải có một cơ quan đứng ra kiểm
soát hoạt động này với tư cách hoàn toàn độc lập.
- Đối với khách hàng: Tiếp tục chịu mua điện từ một công ty phân phối điện
duy nhất. Tuy nhiên đối với các khách hàng cần phụ tải lớn có thể mua điện trực
tiếp từ các nhà máy điện hoặc thông qua lưới truyền tải của EVN.
1.1.4. Tình hình sản xuất kinh doanh trên địa bàn tỉnh Bình Dương (Phụ lục1)
1.2. KHẢO SÁT CÁC CÔNG TRÌNH, BÀI BÁO ĐÃ ĐĂNG TẢI LIÊN
QUAN ĐẾN ĐỀ TÀI
Trong lĩnh vực dự báo thực trạng nhu cầu sử dụng điện dùng các phương pháp
tối ưu để xử lý số liệu thống kê, nhiều mô hình có thể sử dụng trong đó mô hình
trung bình trượt tự hồi quy ARMA luôn thể hiện là một trong những phương pháp
phân tích hiệu quả nhất và thu hút được nhiều công trình nghiên cứu trong lĩnh vực
phân tích và dự báo chuỗi thời gian để đánh giá. Có nhiều nghiên cứu liên quan đến
chuỗi thời gian, đáng chú ý là một số phương pháp sau:
- Dùng các thuật toán di truyền và tiến hóa để dự báo chuỗi thời gian.
- Sử dụng thuật giải di truyền đa cấp dự báo chuỗi thời gian.
- Giải thuật lai cho bài toán sắp hàng đa trình tự sinh học.
- Dự báo chuỗi dữ liệu kinh tế vĩ mô dùng thuật giải di truyền tuyến tính.
- Dự báo chuỗi dữ liệu thời gian bởi thuật giải di truyền kết hợp với các hàm
thống kê và các hàm lượng giác.
7
Phân tích một số công trình liên quan đến lĩnh vực đề tài đang nghiên cứu, để
có cơ sở khoa học đáng tin cậy cho việc nghiên cứu, đề tài chọn ba công trình có
liên quan mật thiết nhất để phân tích và làm cơ sở nghiên cứu như sau:
1.2.1. Các thuật toán di truyền và tiến hóa dùng dự báo chuỗi thời gian
(Genetic and Evolutionary Algorithms Time Series Forecasting) của Paulo
Cortez, Miguel Rocha, and Jose1 Neves [12]
Bài báo phân tích những khái niệm cơ bản về chuỗi thời gian (TS: time
series), thuật toán di truyền và tiến hóa (GEAs: Genetic and Evolutionary
Algorithms) sau đó mô tả các mô hình khác nhau và đưa ra các kết quả thực
nghiệm. Cuối cùng, kết quả được trình bày và so sánh với các phương pháp dự báo
chuỗi thời gian truyền thống.
Một chuỗi dữ liệu thời gian là tập hợp các quan sát theo thứ tự thời gian và
được ghi lại tại một khoảng thời gian cụ thể. Một mô hình chuỗi thời gian xt giả
định rằng mô hình quá khứ sẽ tái diễn trong tương lai gần. Trong đó có sự khác biệt
giữa giá trị thực tế và giá trị dự báo gọi là sai số dự báo thể hiện bằng công thức:
Hiệu suất tổng thể của mô hình dự báo được đánh giá bởi thước đo chính
xác, cụ thể là Sum Squared Error (SSE), Root Mean Squared Error (RMSE) và
Normalized Mean Square Error (NMSE), các chỉ tiêu trên được tính toán như sau:
(1.2)
(1.4)
(1.3)
Với et là sai số dự báo (1.1)
8
l là số mẫu dự báo ; là trọng số của chuỗi dữ liệu.
Một phương pháp dự báo chuỗi thời gian (TSF: Time series forecasting) khá
thành công là phương pháp san bằng số mũ ES, dựa trên một số mẫu cơ bản phân
biệt với giá trị ngẫu nhiên bởi trung bình các giá trị trước đó. Những lợi thế của mô
hình này như sử dụng đơn giản, giảm tính toán, tính chính xác cao của dự báo, đặc
biệt với chuỗi thời gian theo mùa.
Mô hình trung bình trượt tích hợp tự hồi quy ARIMA là một phương pháp
quan trọng để dự báo chuỗi thời gian. Ưu điểm chính của phương pháp này là dựa
vào sự chính xác trên một miền rộng lớn của những chuỗi thời gian, nhưng phức tạp
hơn về khả năng sử dụng và hiệu quả tính toán so với ES. Mô hình dựa trên sự kết
hợp tuyến tính của giá trị trong quá khứ. Mô hình có thể mặc nhiên công nhận như
một mô hình trung bình trượt tự hồi quy ARMA(P, Q), được đưa ra với hình thức:
Trong đó P biểu thị bậc của AR và Q biểu thị bậc của MA, Ai và Mj là các hệ số
của AR và MA, một giá trị không đổi. Cả hai liên tục và các hệ số của mô hình
được ước tính bằng cách sử dụng phương pháp tiếp cận thống kê.
Bài báo này dùng bảng dữ liệu từ Time Series Data Library[16] ở bảng 1.1:
Bảng 1.1: Time Series Data Library [16]
Series Type Domain DescriptionPassengersPaper
Seasonal &Trended
TourismSales
Monthly international airline passengersMonthly sales of French paper
Deathsmaxtemp
SeasonalTrafficMeteorology
Monthly deaths & injuries in UK roadsMaximum temperature in Melbourne
ChemicalPrices
TrendedChemicalEconomy
Chemical concentration readingsDaily IBM common stock closing prices
Lynxkobe
NonlinearEcologyGeology
Annual number of lynxSeismogragh of the Kobe earthquake
(1.5)
9
Các thí nghiệm được trình bày trong bài báo này, một bộ tám các chuỗi thời
gian được lựa chọn (Bảng 1.1) từ Time Series Data Library lấy từ nhiều nguồn khác
nhau, có liên quan với các vấn đề thực tế. Tất cả chuỗi thời gian được phân thành
bốn loại chính gồm tất cả các chuỗi thời gian: theo mùa và xu hướng (Seasonal and
Trended), theo mùa (Seasonal), theo xu hướng (Trended) và phi tuyến (Nonlinear).
Các GEAs sử dụng một giải thuật nhị phân, một vấn đề nhất định được mã hóa
thành một tập ký tự {0,1}. Tuy nhiên, một số tác giả đã cho rằng còn có những vấn
đề mà các tham số được đưa ra bởi giá trị thực, chiến lược tối ưu là sử dụng một
biểu diễn giá trị thực (RVR: Real-Valued Representation.)
Trong bài báo này, hai cách tiếp cận để dự báo, cả hai đều dựa trên GEAs với
RVR. Trong các mô hình dự báo là sự kết hợp tuyến tính của các giá trị trước đó.
Hai mô hình được quan tâm trong bài báo này đưa ra là:
G1- Tuyến tính kết hợp dựa trên GEAs là:
gi là viết tắt gen thứ i của nhiễm sắc thể của các phần tử; n là kích thước phần tử.
G2- ARMA dựa trên GEAs là:
Một giải pháp thay thế là sử dụng chỉ tiêu Bayesian Information Criterion (BIC).
Với N là số mẫu huấn luyện và p là số lượng tham số mô hình, chỉ tiêu này
giúp chọn mô hình dự báo tối ưu.
(1.6)
(1.7)
(1.8)
10
Bảng so sánh mô hình tiến hóa và mô hình thông thường đưa ra trong
(Bảng1.2). Các giá trị sai số thử nghiệm dựa trên hai tiêu chuẩn là RMSE và
NMSE.
Bảng 1.2 : So sánh giữa các phương pháp TSF khác nhau [12]
Series ES ARIMA GEAPassengersPaperDeathsMaxtempChemicalPricesLynxKobe
16.7 (0.71%)41.0 (3.1%)145 (43%)0.917 (4.1%)0.354 (51%)7.50 (0.39%)876 (57%)3199 (105%)
17.8 (0.81%)61.0 (6.8%)144 (42%)1.068 (5.6%)0.361 (53%)7.72 (0.41%)504 (19%)582 (4%)
20.9 (1.12%)56,3 (5.8%)134 (37%)0.915 (4.1%)0.343 (48%)7.48 (0.38%)262 (5%)524 (3%)
Các kết quả của phương pháp tiến hóa rất tốt, với 6 trong 8 dòng dữ liệu
chuỗi thời gian được dự báo tốt. Trong điều kiện các loại hình khác nhau của
các chuỗi thời gian, phương pháp được đề xuất có kết quả không tốt trong 2 dòng
dữ liệu dạng theo mùa và xu hướng (Passengers, Paper), nơi mà ES chiếm ưu
thế. Trong tất cả các loại khác kết quả rất tốt, đặc biệt trong các chuỗi phi tuyến
tính (Lynx, Kobe).
Các kết quả của việc áp dụng các GEAs trong lĩnh vực TSF là đáng khích lệ.
Trong tương lai, việc lựa chọn mô hình được tự động hóa cụ thể là quá trình lựa
chọn các cửa sổ thời gian trượt (STWs: Sliding Time Window) tối ưu. Việc mở rộng
những số liệu tìm kiếm khác nhau của STWs trong không gian tìm kiếm là cách tốt
hơn. Vì đây là một nhiệm vụ tối ưu hóa, việc sử dụng GEAs có thể thuận lợi, tạo
một kiến trúc hai cấp. Ngoài ra có thể dựa vào các chương trình làm tốt hơn các mô
hình dự báo, bằng cách tích hợp các chức năng phi tuyến (ví dụ: logarit hay lượng
giác)
11
1.2.2. Sử dụng thuật giải di truyền đa cấp dự báo chuỗi thời gian (A Meta-
Genetic Algorithms for Time Series Forecasting) của P. Cortez, M. Rocha, and
J. Neves [11]
Bài báo này trình bày một phương pháp dự báo chuỗi thời gian bằng mô hình
tự hồi quy trung bình trượt ARMA sử dụng thuật giải di truyền ở 2 cấp bậc, ở cấp
thuật giải GA nhị phân sẽ tìm kiếm mô hình ARMA dự báo tối ưu và GA thập phân
sẽ giúp tìm ra bộ giá trị tham số tương ứng.
Bài báo này được phát triển từ bài báo (mục 1.2.1). Do đó hàm đánh giá mô
hình cũng tương tự bài báo trên.
Đối với các thí nghiệm được trình bày trong bài báo này, cũng gồm một bộ
tám các chuỗi thời gian nhưng chuỗi dữ liệu Lynx được thay bằng Sunspots. Việc
sử dụng cửa sổ thời gian trượt lớn có thể tăng độ phức tạp hệ thống, giảm bớt hiệu
quả của các mô hình, trong khi cửa sổ thời gian trượt nhỏ có thể chứa thông tin
không đầy đủ
Thuật giải di truyền đa cấp (Meta-Gas: Meta-Genetic Algorithm) được sử
dụng cho việc tối ưu hóa các tham số GA. Trong bài báo này, sử dụng thuật giải di
truyền 2 cấp, bao gồm cấp cao (meta-level) GA sử dụng tìm kiếm mô hình ARMA
dự báo tối ưu và cấp thấp (low-level) GA giúp tìm ra bộ tham số tương ứng.
Đại diện cho mô hình là Meta-GAs nhị phân, mỗi gen đại diện cho một hệ số
nếu giá trị của nó là 1, nếu là 0 thì nó không được xem xét (Hình 1.1)
Mô hình này được tối ưu hóa bằng cách chạy một thuật toán di truyền RVR
A4
M3
M1
A2
0000 1 0 100 1 0 11
QP
Meta-Level
Low-Level
Hình 1.1 : Ví dụ về giải mã thuật toán Meta-GAs [11]
12
cấp thấp, với mỗi gen mã hóa một hệ số của mô hình ARMA, được cho bởi phương
trình (1.9). Mỗi cá thể, được đánh giá bởi chỉ tiêu RMSE trong tập huấn luyện.
Mặt khác, các hàm mục tiêu của mỗi cá thể trong meta-level thu được bằng
cách giải mã nhiễm sắc thể của nó vào low-level GA chạy và cuối cùng tính toán
giá trị BIC của mô hình tối ưu. Hệ thống tổng thể được mô tả hình (1.2).
Các đề xuất của thuật toán Meta-GA đã được thử nghiệm trên các chuỗi dữ
liệu thời gian từ bảng (1.1).
Chuỗi dữ liệu thời gian được chia 90% giá trị đầu tiên thành tập huấn luyện và
10% giá trị sau là tập thử nghiệm. Chỉ có các tập huấn luyện được sử dụng để lựa
chọn mô hình và tối ưu hóa các thông số. Các tập thử nghiệm được sử dụng để so
sánh các phương pháp tiếp cận được đề xuất.
Meta-GA làm việc như một thủ tục tối ưu hóa thứ hai, do đó thuật toán áp
dụng một quy mô 100 cá thể, với sự tái tổ hợp di truyền cung cấp bởi lai chéo hai
điểm đột biến nhị phân
Hình 1.2 : The Meta-Ecolutionary Approach [11]
(1.9)
13
Trong cả hai mô hình GA, quy tắc là xếp hạng các giá trị hàm mục tiêu của cá
thể sau đó áp dụng chương trình bánh xe roulette. Trong việc thiết lập GA cấp thấp,
các gen của quần thể ban đầu được phân ngẫu nhiên giá trị trong khoảng [-1,1].
Kích thước dữ liệu được chọn 50 cá thể. Trong mỗi thế hệ, 40% cá thể được giữ
nguyên trạng ban đầu, 60% được tạo ra bởi các ứng dụng của các nhà khai thác di
truyền (Bảng 1.3) cho thấy tóm tắt của các giá trị tham số có liên quan và (Bảng1.4)
là mô hình tối ưu thu được thuật toán Meta-GA
Bảng 1.3: Đặt giá trị tham số thuật toán Meta-Gas [11]
Meta-Level GA Low-Level GAEncodingFitnessPopulation sizeInitializationCrossoverMutationMaximum generation
BinaryBIC100Random {0,1}Two-point (80%)Binary (20%)500
RealRMSE50Random[-1,1]Arithmetic (67%)Gaussian perturbation (33%)1000
Bảng 1.4: Mô hình ARMA tối ưu thu được bởi thuật toán Meta-Gas[11]
Series AR MA P RMSEPassengersPaperDeathsMaxtempChemicalPricesSunspotsKobe
<1, 2><1, 2><1, 11, 12><1, 7, 11, 12><1, 2><1><1, 2, 3, 9, 10><1, 2, 3, 7, 8, 9, 13>
<1, 2, 3, 9, 12><><13><><1, 2, 3, 4, 7, 11><><1, 9><1, 3, 5, 6, 12>
724481712
17.20.252.50.113720.930.040.340.007.480.0017.60.249310
So sánh các mô hình trong (Bảng 1.5). Các giá trị sai số trong bảng được
chọn theo chuẩn RMSE và NMSE (trong ngoặc). Tiêu chuẩn này giúp dễ dàng so
sánh giữa các dòng dữ liệu và phương pháp khác nhau. Mỗi mô hình được sử dụng
các giá trị tối ưu từ TS. Các thông số ES được tối ưu hóa cho các RMSE tối ưu
ES cho hiệu suất tốt hơn đối với dòng theo mùa, vì ES được phát triển đặc biệt
cho các loại chuỗi này. Tuy nhiên, chuỗi sự kiện tương lai sẽ khác khi xét hàng loạt
kiểu chuỗi khác, cụ thể là những chuỗi theo xu hướng và phi tuyến, nơi mà Meta-
14
GA tốt hơn phương pháp dự báo chuỗi thời gian thông thường. Mặc dù sử dụng
cùng một mô hình cơ bản ARMA, nhưng với sự linh hoạt cao hơn hệ thống Meta-
GA vượt hiệu suất của phương pháp ARIMA trong tất cả các chuỗi dữ liệu
Bảng 1.5: So sánh phương pháp Meta-GAs với các phương pháp truyền thống
Series ES ARIMA Meta-GAsPassengersPaperDeathsMaxtempChemicalPricesSunspotsKobe
16.5 (0.70%)49.2 (4.4%)135 (37%)0.72 (2.5%)0.35 (51%)7.54 (0.39%)28.4 (35%)3199 (105%)
17.8 (0.81%)61.0 (6.8%)144 (42%)1.07 (5.6%)0.36 (53%)7.72 (0.41%)21.4 (20%)582 (3.5%)
17.2 (0.75%)52.5 (5.0%)137 (38%)0.93 (4.3%)0.34 (48%)7.48 (0.38%)17.6 (14%)492 (2.5%)
. Thí nghiệm so sánh giữa các phương pháp thông thường, cho thấy rằng ES rất đơn
giản, ít tài nguyên tính toán, trình bày hiệu suất tốt đối với dữ liệu theo mùa. Tuy
nhiên, với những dữ liệu phi tuyến loại phương pháp này không thích hợp. Phương
pháp Meta-GA cho đến nay được áp dụng cả hai loại phi tuyến hoặc tuyến tính, đặc
biệt về những dữ liệu có thành phần xu hướng.
Nhận xét: Phương pháp này có ưu điểm có thể áp dụng cho nhiều dạng chuỗi
dữ liệu mà không cần quan tâm đến dạng của chuỗi dữ liệu vì chỉ thuần túy xử lý về
mặt số liệu. Tuy nhiên phương pháp này có một điểm bất tiện là khó có thể kết hợp
các phương pháp tối ưu khác để tăng tính hiệu quả.
1.2.3. Giải thuật lai cho bài toán sắp hàng đa trình tự sinh học [8]
Với bài toán sắp hàng đa trình tự, giải pháp giải quyết bài toán dựa trên sự kết
hợp giải thuật di truyền và kỹ thuật luyện kim được thực hiện và được xem xét như
thuật giải lai di truyền - luyện kim (SA-GA).
Kết hợp tạo giải thuật lai giữa hai giải thuật chính là giải thuật di
truyền GA và giải thuật luyện kim SA. Trong đó tận dụng ý tưởng tìm kiếm dựa
trên quần thể như của giải thuật di truyền và biến đổi trạng thái như của giải thuật
luyện kim trên các “cá thể” quá trình phát sinh các cá thể không chỉ hoàn toàn là
ngẫu nhiên mà còn dùng các phép toán lai tạo, đột biến, chọn lọc của giải thuật di
15
truyền để có thể kế thừa được các giải pháp tốt. Bên cạnh đó nhờ có bước thực
hiện ban đầu có thể tạo được quần thể ban đầu tương đối tốt và làm cơ sở cho
việc xét các bước chuyển trạng thái mới.
Quá trình sẽ thực hiện một phần song song giữa GA và SA, một số phần
tử tối ưu của giải thuật GA chuyển sang thực hiện các biến đổi theo giải thuật SA.
Trong quá trình thực hiện từ SA, một số phát sinh có độ thích nghi tốt sẽ chuyển
sang GA thực hiện lai ghép. Kết hợp hai giải thuật còn nhằm mục đích “phá vỡ”
một phần sự cứng nhắc và ít biến đổi khi giải thuật GA thực hiện giai đoạn cuối,
SA được thiết lập giúp tăng khả năng chọn các vùng không gian nghiệm rộng hơn.
Hình sau mô tả mức dao động của không gian vùng nghiệm khi kết hợp SA-GA:
Hình 1.3: Biểu đồ mô tả mức độ ổn định của nghiệm được chọn [8]
Giải thuật của SA được áp dụng
Chọn lời giải ban đầu s0 ;
Chọn nhiệt độ khởi đầu t0 > 0;
Chọn hàm thu giảm nhiệt độ α;
Repeat
Repeat
Chọn ngẫu nhiên một lời giải lân cận s của lời giải hiện tại s0;
δ = f (s)- f (s0); /*sự thay đổi sự tương đồng, mức thích nghi */
if ( δ > 0 ) then // lời giải sau tốt hơn lời giải trước
s0 = s;
else
sinh ngẫu nhiên một số x [0, 1];
if ( x < ) then
16
s0 = s;
endif
endif
unltil số_lần_lặp = nrep;
t = (t) ;
until Điều_kiện_dừng = TRUE;
Qua nghiên cứu các giải thuật trước, bài báo chọn hướng giải quyết kết hợp
giải thuật di truyền và kỹ thuật luyện kim, có sự hướng dẫn của một số thông tin
phân tích ban đầu giúp giải quyết bài toán trong không gian giới hạn và có các
bước chuyển tốt hơn. Tuy nhiên, dù có những kết quả thực nghiệm khá tốt nhưng
qua đó cho thấy cần phải kết hợp những ý nghĩa sinh học về sự tương đồng giữa
các trình tự sinh học sâu rộng hơn mới có được những heuristic và phương pháp so
sánh có kết quả giống như thực tế. Bên cạnh đó, việc chuyển sang thực thi song
song giải thuật để giảm thời gian xử lý và tăng khả năng tìm nghiệm cho bài toán.
1.3. CÁC MÔ HÌNH THƯỜNG ÁP DỤNG TRONG DỰ BÁO
1.3.1. Khái niệm về dự báo
Dự báo là khả năng nhận thức được sự vận động của các đối tượng nghiên cứu
trong tương lai dựa trên sự phân tích chuỗi thông tin quá khứ và hiện tại. Cho đến
nay, nhu cầu dự báo đã trở nên hết sức cần thiết ở tất cả các lĩnh vực. Dự báo là tiên
đoán khoa học mang tính xác suất và tính phương án trong khoảng thời gian hữu
hạn về tương lai phát triển của đối tượng nghiên cứu.
1.3.2. Các mô hình dự báo: [8]
- AR(p) Mô hình tự hồi quy (AutoRegressive model): Có chứa một hay một số
giá trị trễ của biến phụ thuộc số các biến giải thích. Giá trị ở thời điểm t của một
biến, x(t), tuỳ thuộc vào tổng tỷ trọng của các giá trị p trong quá khứ của biến {x(t-
1), x(t-2), …, x(t-p)} cộng với đại lượng ngẫu nhiên e(t):
x(t) = a0 + a1* x(t-1) + a2* x(t-2) + … + ap* x(t-p) + e(t) (1.10)
17
- MA(q) Mô hình trung bình trượt (Moving Average model): Giá trị của một
biến ở thời điểm t bằng với giá trị trung bình tỷ trọng của tổng q+1 yếu tố ngẫu
nhiên, độc lập là e(t), e(t-1), …, e(t-q):
x(t) = e(t)+ c1* e(t-1) +c2* e(t-2)+ … + cq* e(t-q) + c0 (1.11)
- ARMA(p,q) Mô hình trung bình trượt tự hồi quy (AutoRegressive Moving
Average model): là sự kết hợp của AR(p) và MA(q).
- ARIMA Mô hình trung bình trượt tích hợp tự hồi quy (AutoRegressive
Intergrated Moving Average model): thay vì quan sát tỷ suất sinh lợi sẽ là quan sát
sự thay đổi của tỷ suất sinh lợi.
- ARCH và GARCH Mô hình phương sai sai số thay đổi có điều kiện tự hồi
quy (AutoRegressive Conditional Heteroskedasticity). GARCH (Generalized
AutoRegressive Conditional Heteroskedasticity) là trường hợp tổng quát của
ARCH. Mục tiêu của mô hình này là dự báo độ lệch chuẩn và tương quan của chuỗi
thời gian tài chính. Mô hình này phù hợp với việc phân bổ tài sản
- ES Phương pháp san bằng số mũ (Exponential Smoothing method): Giá trị
dự báo mới không chỉ phụ thuộc vào giá trị giai đoạn trước mà còn phụ thuộc giá trị
dự báo của giai đoạn trước.
- NN Mạng Neural (Neural Network): Hornik, Stinchcombe và White (1988)
đã chỉ ra rằng các mạng lưới Neural có thể xấp xỉ bất kỳ phương trình nào, là công
cụ phân tích và dự báo hữu hiệu. Mô hình mạng Neural được ứng dụng rất nhiều
vào việc dự báo xếp hạng trái phiếu và dự báo tỷ suất sinh lợi trong tài chính.
- GA Giải thuật di truyền (Genetic Algorithm): Là phương pháp tối ưu để tìm
kiếm trực tiếp dựa trên kỹ thuật mô phỏng quá trình tiến hoá sinh học có sử dụng
máy tính. Phương pháp này có những ứng dụng thành công trong lãnh vực dự báo.
- FL Logic mờ (Fuzzy Logic): Được sử dụng rất nhiều trong các hệ điều khiển
mờ. Ưu điểm cơ bản của điều khiển mờ là không cần biết trước đặc tính của đối
18
tượng một cách chính xác. Mô hình sử dụng Logic mờ thường được kết hợp với giải
thuật di truyền hoặc mạng Neural để tối ưu tập các tham số trong hệ.
1.3.3. Mô hình dự báo dựa trên chuỗi thời gian
Dự báo bằng phương pháp định lượng được sử dụng khá phổ biến trên thế
giới. Nhiều quỹ đầu tư đã thiết lập hệ thống giao dịch tự động bằng phương pháp
định lượng. Hiệu quả từ phương pháp này được chứng minh tại nhiều thị trường.
Ưu điểm của phương pháp dự báo định lượng là khá khách quan, dựa vào tiêu
chí của những chỉ tiêu thống kê từ mô hình. Những đánh giá đưa ra dựa trên sự
phân tích khách quan nên giảm sự sai sót do yếu tố con người.
Các phương pháp định lượng dùng dự báo dựa trên mô hình toán học với giả
định rằng liên hệ giữa các yếu tố được thiết lập trong quá khứ sẽ lặp lại trong tương
lai. Nói cách khác phương pháp định lượng dựa trên dữ liệu quá khứ để phát hiện
chiều hướng vận động tương lai của các yếu tố theo một quy luật. Để dự báo diễn
biến trong tương lai của một biến, người ta có thể sử dụng mô hình chuỗi thời gian.
Một chuỗi thời gian là một chuỗi các giá trị quan sát X:= {x1,x2,….,xn} hay Y = {Yt:
t ∈ T} xếp thứ tự diễn biến theo thời gian, khoảng cách là các khoảng thời gian.
1.4. KẾT LUẬN CHƯƠNG:
Chương một đã giới thiệu tổng quan về năng lượng điện, mối quan hệ giữa sản
xuất và tiêu thụ điện, thực trạng nguồn năng lượng điện của nước ta nói chung và
Bình Dương nói riêng. Khảo sát các công trình nghiên cứu trước đó để có cơ sở và
hướng nghiên cứu phù hợp, nhằm dự báo mức tiêu thụ điện, giúp các cơ quan hữu
quan có chiến lược sản xuất, tiêu thụ cũng như tiết kiệm điện hợp lý nhất.
19
Chương 2
CƠ SỞ LÝ THUYẾT
Chương hai giới thiệu về giải thuật luyện kim và giải thuật di truyền để
thấy những ưu, khuyết điểm của các giải thuật này, đồng thời nghiên cứu ưu
thế của sự kết hợp hai giải thuật để sử dụng hiệu quả các giải thuật trong mô
hình dự báo trên cơ sở đó sử dụng mô hình thích hợp nhất trong dự báo nhu
cầu sử dụng điện.
2.1. GIẢI THUẬT LUYỆN KIM (SA:SIMULATED ANNEALING) [6]
[17]
2.1.1. Giới thiệu chung về giải thuật luyện kim
Tiền thân của giải thuật luyện kim là thuật toán Monte Carlo năm 1953 của
nhóm Metropolis. Giải thuật luyện kim được đề xuất bởi S. Kirkpatrick năm 1982
và công bố trước công chúng năm 1983. SA là một nhánh của phương pháp tìm
kiếm leo đồi trong bài toán cục bộ nhưng cho phép điều khiển các bước leo đồi.
Giải thuật luyện kim có nguồn gốc từ cơ học hệ thống. Giải thuật này giả lập
quá trình làm lạnh kim loại sau khi nung. SA thực thi đơn giản và tương tự quá trình
luyện kim vật lý. Trong luyện kim vật lý kim loại được đốt nóng đến nhiệt độ cao
và làm lạnh từ từ để nó kết tinh ở cấu hình năng lượng thấp (tăng kích thước của
tinh thể và làm giảm những khuyết điểm của chúng). Một kim loại được nung đến
nhiệt độ hóa lỏng sau đó giảm nhiệt từ từ, cấu trúc tinh thể sẽ được hình thành tùy
theo mức độ làm lạnh. Nếu việc làm lạnh không xẩy ra từ từ thì chất rắn không đạt
20
được trạng thái có cấu hình năng lượng thấp, sẽ đông lạnh đến trạng thái không ổn
định (cấu trúc tối ưu địa phương)
Quá trình làm lạnh có thời gian phù hợp thì cấu trúc tinh thể sẽ hình thành.
Nếu quá trình làm lạnh quá nhanh thì cấu trúc tinh thể sẽ tồn tại những điểm không
hoàn hảo. Giải thuật luyện kim giả lập quá trình làm lạnh bằng cách giảm nhiệt độ
của hệ thống một cách tuần tự cho đến khi nó hội tụ về trạng thái đông cứng. Trạng
thái đông cứng là trạng thái có mức năng lượng thấp nhất tương ứng với lời giải có
giá trị đánh giá tối ưu. SA được sử dụng để tìm cực đại hay cực tiểu để giải một bài
toán tối ưu. Khi quá trình luyện kim kết thúc, lời giải tối ưu được hội tụ về chính là
trạng thái kết tinh của bài toán.
Sơ đồ thể hiện trong một không gian lời giải thuật toán luyện kim sẽ tìm đến
tối ưu toàn cục với bước nhảy từ tối ưu địa phương.
Hình 2.1. Sơ đồ không gian lời giải [17]
Sự tương đồng giữa quá trình luyện kim vật lý và giải thuật luyện kim (Bảng 2.1)
Bảng 2.1: So sánh tương quan giữa luyện kim vật lý và giải thuật luyện kim
Quá trình luyện kim vật lý Giải thuật luyện kim
Các trạng thái hệ thống Các lời giải khả thi
Năng lượng Chi phí
Thay đổi trạng thái Giải pháp lân cận
Nhiệt độ Tham số điều khiển
Solution Space: Không gian lời giải
Initial State: Trạng thái ban đầu
Local Minimum: Tối ưu địa phương
Global Minimum: Tối ưu toàn cục
Solution Space
Global Minimum
Initial State
Local
Minimum
21
Trạng thái kết tinh Giải pháp tối ưu
Giải thuật luyện kim sử dụng một biến điều khiển toàn cục là biến nhiệt độ T.
Ban đầu T ở giá trị rất cao và sau đó được giảm dần xuống. Trong quá trình tìm
kiếm SA thay lời giải hiện thời bằng cách chọn ngẫu nhiên lời giải láng giềng với
xác suất phụ thuộc sự chênh lệch giữa giá trị hàm mục tiêu và tham số điều khiển T
Quá trình tối ưu hóa được tiếp tục cho tới cực tiểu toàn cục được tìm thấy hoặc
tổng các bước chuyển vượt quá một số tối đa các bước chuyển đã được định trước.
Sự chuyển tiếp ở một nhiệt độ kết thúc khi đạt tới trạng thái cân bằng nhiệt. Sau khi
đạt tới trạng thái cân bằng nhiệt thì nhiệt độ được giảm thấp hơn. Nếu hệ thống
không đông lạnh và cũng không tìm được cực tiểu toàn cục thì vòng lặp vẫn tiếp tục
và chỉ số k tăng. Hệ thống đông lạnh khi T tiến tới nhiệt độ Tcuối do người dùng đưa
ra. Khi sử dụng giải thuật luyện kim, các vấn đề cần được làm rõ: Không gian lời
giải, cách xác định lời giải lân cận và hàm đánh giá
Bản chất của giải thuật này cũng giống như thuật toán leo đồi nhưng khắc phục
được vấn đề “local minimum” nhờ vào cách chọn ngẫu nhiên cho phép chuyển sang
trạng thái xấu hơn. Thông thường, hệ thống sẽ chuyển sang trạng thái tối ưu tìm
được tại mỗi nhiệt độ T. Tuy nhiên, nếu không tìm được trạng thái tốt, hệ thống vẫn
có thể chuyển sang trạng thái xấu hơn dựa vào xác suất chấp nhận chuyển trạng
thái. Xác suất chấp nhận một trạng thái xấu hơn được tính bằng công thức:
(2.1)
với: - độ biến đổi hàm giá trị ; t - nhiệt độ hiện tại
Giải thuật luyện kim:
SA( S ) {
loigiaitot = S //Gán lời giải tối ưu = lời giải S
22
giatritot=BIC(S) //Gán giá trị đánh giá tối ưu = giá trị đánh giá lời giải S
Khởi tạo nhiệt độ ban đầu t=t0
Khởi tạo hệ số giảm nhiệt α
Giaidoan=0; //Khởi tạo hệ số giai đoạn luyện kim
while (giaidoan < giaidoan_toida){ // Tiến hành quá trình luyện kim
solan=0 // Số lần luyện trong 1 giai đoạn
while(solan<solan_toida){
Tạo lời giải lân cận S’
GA(S’) // Tìm bộ tham số tối ưu cho S’
Tính cost BIC cho S’ //
= BIC(S’) - BIC(S)
if ( <0 ){
S=S’
}else{
Khởi tạo một số ngẫu nhiên r
if ( r < ) {
S=S’
}
}Lưu lại lời giải tối ưu
solan++ ;
}giaidoan++; t= t* α;
23
}Trả về lời giải mô hình tối ưu sau quá trình luyện kim
}
Lưu đồ:
Đúng
Đúg
Sai
Sai
Đúng
Sai
Phát sinh Giải pháp S’
Giảm nhiệt độ
S = S’
Thỏa điều kiện dừng?
Dừng
r = Random()
Trả về mô hình Tối ưu tìm được
Dùng GA() để tìm ra bộ thông số tối ưu cho mô hình S’. Tính
cost BIC(S’)
Lặp Solan_toida ?
Nhập giải pháp ban đầu S
24
Hình 2.2 Lưu đồ biểu diễn giải thuật luyện kim
2.1.2. Hàm nhiệt độ và quá trình hoạt động
Hàm nhiệt độ:
Đầu tiên khởi tạo nhiệt độ T là T0. Qui trình phổ biến nhất là quy trình làm cân
xứng: Tnew = Told * khi <1. Thuật toán kết thúc khi T=0
Sơ đồ:
Hình 2.3: Biểu diễn quá trình hoạt động của hàm nhiệt độ [18]
Quá trình làm lạnh: Bao gồm bốn thành phần chính: Nhiệt độ ban
đầu, nhiệt độ kết thúc, quá trình làm lạnh, các bước lặp tại mỗi nhiệt độ
Nhiệt độ ban đầu
Nhiệt độ ban đầu phải đủ cao để bao quát hết các lời giải. Nếu không, lời giải
cuối cùng sẽ rất gần với lời giải đầu tiên và giải thuật chỉ giống như một bài toán
leo đồi đơn giản.
Tuy nhiên, nếu nhiệt độ ban đầu quá cao, thì việc tìm kiếm sẽ giống như tìm
kiếm ngẫu nhiên cho tới khi nhiệt độ giảm đến một mức phù hợp với giải thuật
luyện kim. Khi đó giải thuật sẽ tiến hành đúng theo hướng giải thuật luyện kim.
0T
TN T
i=T
0 T0: Nhiệt độ khởi đầu
TN: Nhiệt độ kết thúc
Ti: Nhiệt độ vòng i khi i=1…N
25
Vấn đề là phải tìm được nhiệt độ ban đầu thích hợp. Hiện tại chưa có phương
pháp nào để tìm nhiệt độ ban đầu thích hợp cho tất cả các bài toán. Nếu biết
khoảng cách lớn nhất giữa một lân cận và một lân cận khác, chúng ta có thể dùng
thông tin này để xác định nhiệt độ ban đầu.
Một cách khác là đặt nhiệt độ ban đầu thật cao và làm lạnh nhanh cho đến
khi 60% các lời giải xấu nhất được chấp nhận. Tại điểm này mới là nhiệt độ ban
đầu thực sự và quá trình làm lạnh nhanh sẽ giảm tốc độ lại.
Nhiệt độ cuối cùng
Thông thường thì nhiệt độ được giảm về 0. Tuy nhiên, điều này làm giải
thuật chạy lâu hơn, nhất là khi lịch trình làm lạnh hình học được dùng.
Trong thực nghiệm, không cần để nhiệt độ giảm về 0 vì khi nhiệt độ về 0 thì
khả năng chấp nhận chuyển sang các bước xấu hơn cũng bằng 0.
Do đó, các điều kiện dừng có thể là một nhiệt độ chậm thích hợp hay khi hệ
thống kết tinh ở nhiệt độ hiện tại (không có di chuyển được chấp nhận).
Quá trình giảm nhiệt
Khi đã có nhiệt độ ban đầu và nhiệt độ cuối cùng, ta cần xác định quá trình
làm lạnh giúp chuyển hệ thống từ nhiệt độ ban đầu về đến nhiệt độ cuối cùng. Do
đó, nhiệt độ cần giảm để điều kiện dừng xảy ra.
Lý thuyết cho rằng số lần lặp tại mỗi nhiệt độ cần đủ để giúp cho hệ thống
ổn định tại nhiệt độ đó và số lần lặp tại mỗi nhiệt độ là cấp số mũ so với khối
lượng bài toán. Ta có thể chọn:
- Một số lượng lớn lần lặp tại vài nhiệt độ.
- Một số lượng nhỏ lần lặp tại nhiều nhiệt độ.
- Cân bằng tại tất cả các nhiệt độ.
Phương pháp làm lạnh đơn giản nhất là theo phương pháp tuyến tính giản
đơn. Một phương pháp khác là giảm theo hình học, trong đó t = t*α với |α|<1.
26
Kinh nghiệm cho thấy rằng α trong khoảng 0.8-0.99, cho kết quả tốt hơn.
Tuy nhiên hệ số α càng cao thì nhiệt độ tiến đến nhiệt độ cuối cùng càng lâu.
Số lần lặp tại mỗi nhiệt độ
Vấn đề cuối cùng là xác định lặp bao nhiêu tại mỗi nhiệt độ. Phương pháp
chia đều tại tất cả các nhiệt độ là phương pháp được sử dụng nhiều nhất.
2.1.3. Hàm chi phí và hàm mục tiêu
Hàm đánh giá cost là hàm xác định chi phí được dùng để ước lượng một lời
giải đã cho. Hàm chi phí của lời giải s kí hiệu là f(s). Hàm mục tiêu Fitness được
định nghĩa:
Fitness = * 100% (2.2)
Sự giảm bớt chi phí tương đương với sự tăng hàm mục tiêu. Giá trị hàm mục
tiêu tăng khi nhiệt độ giảm thể hiện ở biểu đồ (hình 2.4)
Hình 2.4: Biểu diễn quan hệ giữa hàm chi phí và hàm mục tiêu [18]
2.1.4. Cấu trúc của lời giải lân cận
Vấn đề cần giải quyết là làm sao chuyển từ một trạng thái sang trạng thái lân
cận. Điều đó có nghĩa là cần xác định một trạng thái lân cận. Một số kết quả cho
thấy rằng các cấu trúc lân cận có tính đối xứng. Có nghĩa là nếu hệ thống có thể
27
chuyển từ trạng thái i sang trạng thái j thì hệ thống cũng có thể chuyển từ trạng thái
j sang trạng thái i.
Một điều kiện khác cần chú ý để bảo đảm tính hội tụ là tất cả các trạng thái
đều có thể chuyển đến từ những trạng thái khác. Với cấu trúc lời giải là một mảng
boolean, việc xác định lân cận có thể dùng nhiều phương pháp khác nhau như đảo
bit một hay nhiều vị trí trong mảng, đảo vị trí một hay nhiều lần các phần tử trong
mảng,...Để tăng xác suất tìm đến lời giải tối ưu, chương trình sử dụng hỗn hợp
nhiều phương pháp bằng cách chọn ngẫu nhiên một phương pháp trong một lần phát
sinh lời giải lân cận.
Giải thuật xác định lân cận:
Timlancan()
{
Chọn một số tự nhiên t ngẫu nhiên [0,2]
case t:
{
t=0: Tiến hành tìm lân cận theo neighbor_boolean_perturbation
t=1: Tiến hành tìm lân cận theo neighbor_boolean_swap_full
t=2: Tiến hành tìm lân cận theo neighbor_boolean_flip_full
}
Trả về giải pháp lân cận
}
2.1.5. Các bước của bài toán SA và điều kiện dừng
Các bước của bài toán SA: Các bài toán SA thường thực hiện theo các
bước
- Bước 1: Đầu tiên, tìm điểm xuất phát của bài toán.
- Bước 2: Liệt kê các láng giềng có thể có của lời giải hiện thời.
- Bước 3: Ước lượng hàm mục tiêu hiện thời và láng giềng vừa tìm được.
28
- Bước 4: Sinh một biến ngẫu nhiên thường là phân bố mũ có các tham số
phụ thuộc vào hiệu quả của các giá trị hàm mục tiêu và tham số T.
- Bước 5: Nếu biến ngẫu nhiên lớn hơn hoặc nhỏ hơn một ngưỡng cho trước
thì chấp nhận láng giềng vừa tìm được làm phương án hiện tại
- Bước 6: Giảm nhiệt độ T.
- Bước 7: Quay trở lại từ đầu.
Điều kiện dừng
- Thuật toán dừng khi đã tìm được một lời giải đủ tốt và T là quá nhỏ mà
xác suất tránh được là không đáng kể.
- Một tiêu chuẩn kết thúc khác là chi phí trung bình thay đổi không đáng
kể ở một vài giá trị liên tiếp nhau của T.
2.1.6. Ưu điểm và khuyết điểm
Ưu điểm:
- Giải thuật SA có thể hoạt động với các mô hình phi tuyến, hỗn loạn, có
nhiễu và nhiều ràng buộc. SA là một kỹ thuật bền vững và tổng quát.
- Giải thuật SA linh động khả năng nhanh đạt đến lời giải tối ưu.
- Giải thuật SA không phụ thuộc vào bất cứ đặc tính nào của mô hình.
- Các phương thức SA rất dễ chỉnh.
Khuyết điểm:
- Do SA là thuật toán tổng quát nên yêu cầu chuyển thành thuật toán thực dụng
- Chất lượng của lời giải và thời gian tính toán thường tỷ lệ nghịch.
- Thiết kế ràng buộc giữa các lớp và tinh chỉnh tham số thuật toán rất khó.
- Độ chính xác của số liệu khi thực hiện trong SA có ảnh hưởng kết quả đầu ra .
29
2.2. GIẢI THUẬT DI TRUYỀN (GA: GENETIC ALGORITHMS) [2] [3]
[4] [6] [7] [9] [13] [16] [17] [18]
Hiện nay và trong tương lai, trí tuệ nhân tạo (Artificial Intelligent) đã, đang và
sẽ được nghiên cứu, phát triển rất mạnh mẽ và được ứng dụng rộng rãi. Đây là một
mảng chuyên môn rất lớn trong khoa học máy tính, bao gồm nhiều lĩnh vực khác
nhau. Một trong những lĩnh vực đó là kỹ thuật tính toán thông minh (Computational
Intelligent) trong đó có giải thuật di truyền đã đem lại những phương pháp mới để
giải các bài toán mà nếu áp dụng phương pháp truyền thống sẽ gặp nhiều khó khăn.
2.2.1. Giới thiệu chung về giải thuật di truyền
Giải thuật di truyền được lập trên cơ sở lý thuyết Darwin dựa trên việc quan
sát quá trình tiến hóa trong tự nhiên. Các nguyên lý cơ bản của giải thuật di truyền
được tác giả J.H.Holland công bố lần đầu tiên vào năm 1962. Sau đó, các nền tảng
toán học của giải thuật lần đầu tiên được công bố vào năm 1975 trong cuốn sách
“Adaptation in Natural and Artificial System” cũng của tác giả J.H.Holland. Có thể
nói Holland là người đi tiên phong nghiên cứu trong lĩnh vực giải thuật di truyền
cùng với những tác giả Goldbeg, Beglay…
Giải thuật di truyền là một giải thuật dựa trên cơ chế của chọn lọc tiến hoá
trong tự nhiên: “Trong mọi thế hệ, một tập mới các sinh vật được tạo ra bằng cách
lai ghép những nhân tố thích nghi nhất với môi trường của những sinh vật trong thế
hệ cũ cùng với sự xuất hiện đột biến ngẫu nhiên của các cá thể trong thế hệ mới”.
Vận dụng cơ chế đó, giải thuật di truyền được bắt đầu với một quần thể ngẫu nhiên
có n chuỗi, rồi sao chép các chuỗi theo khuynh hướng đến cái tốt, ghép cặp và đổi
các chuỗi con thành phần, thỉnh thoảng làm đột biến giá trị bit để có số đo tốt.
2.2.1.1. Mô hình giải thuật di truyền
Theo đề xuất ban đầu của giáo sư John Holland, một vấn đề-bài toán được mã
hóa thành các chuỗi bit nhị phân với chiều dài cố định, gọi các chuỗi bit này là mã
genome ứng với mỗi cá thể, các genome đều có cùng chiều dài. Một lời giải sẽ được
biểu diễn bằng một chuỗi bit, mỗi cá thể đều được quy định bằng gen của cá thể đó.
30
Ban đầu, phát sinh một tập hợp các chuỗi bit ngẫu nhiên. Tập các cá thể này
được gọi là quần thể ban đầu (initial population). Sau đó, xác định một giá trị gọi là
độ thích nghi - Fitness. chính là độ “tốt” của lời giải hay độ cao trong tìm kiếm theo
kiểu leo đồi. Để cải thiện tính thích nghi của quần thể, có hai thao tác:
- Đầu tiên là sao chép nguyên mẫu một nhóm các cá thể tốt từ thế hệ trước đưa
sang thế hệ sau. Thao tác này đảm bảo độ thích nghi của thế hệ sau luôn được giữ ở
mức độ hợp lý. Các cá thể được chọn thường là các cá thể có độ thích nghi cao nhất.
- Thứ hai là tạo các cá thể mới bằng cách thực hiện các thao tác sinh sản trên
một số cá thể được chọn từ thế hệ trước: lai tạo (crossover) và đột biến (mutation).
Thế hệ mới tạo ra lại xử lý như thế hệ trước (xác định độ thích nghi và tạo thế
hệ mới) đến khi cá thể đạt được giải pháp mong muốn hoặc đến thời gian giới hạn.
.
Hình 2.5. Sơ đồ tổng quát của giải thuật di truyền [16]
2.2.1.2. Sơ đồ thực hiện giải thuật di truyền
Bước 1: Khởi tạo một quần thể ban đầu (các đáp án ban đầu của bài
toán).
Bước 2: Xác định giá trị hàm mục tiêu cho mỗi cá thể trong quần thể.
Bắt đầu
Phát sinh quần thể ban đầu
Xác định độ thích nghi của các cá thể
trong quần thể
Có cá thể nào đạt đến lời giải
tối ưu chưa?
Trình bày lời giải
Chọn lọc Lai tạo
Xây dựng quần thể mới
Đột biến
Xây dựng thế hệ kế tiếp
31
Bước 3: Tạo ra quần thể mới bằng cách lai ghép chéo (crossover) từ
các cá thể hiện tại có chọn lọc (selection), đồng thời tạo ra các đột biến
(mutation) trong quần thể mới theo một xác suất nhất định.
Bước 4: Các cá thể trong quần thể mới sinh ra được thay thế cho các cá
thể trong quần thể cũ.
Bước 5: Nếu điều kiện dừng thỏa thì giải thuật dừng lại và trả về cá thể
tối ưu cùng với giá trị hàm mục tiêu của nó, nếu không thì quay lại bước 2.
2.2.1.3. Giải thuật di truyền so với các phương pháp truyền thống
Đối với giải thuật di truyền, cách đơn giản là chúng ta mã hoá thành các chuỗi
bit trên tập ký tự {0,1}. Mỗi chuỗi đại diện một điểm tìm kiếm trong không gian.
GA xuất phát với một quần thể các chuỗi được khởi tạo ngẫu nhiên, sau đó sẽ sản
sinh các quần thể tiếp theo. Nhờ đó giải thuật di truyền tìm kiếm trên nhiều điểm
song song có khả năng leo lên nhiều cực trị cùng lúc, tránh bỏ qua mất cực trị toàn
cục. Đây là đặc trưng của giải thuật di truyền so với phương pháp truyền thống:
Bảng 2.2: So sánh giải thuật di truyền với các phương pháp truyền thống
Giải thuật di truyền Phương pháp truyền thống
Làm việc với sự mã hoá của tập thông số Làm việc với các giá trị của các thông số
Tìm kiếm từ một quần thể các điểm Tìm kiếm từ một điểm
Chỉ sử dụng thông tin về các tiêu chuẩntối ưu của hàm mục tiêu
Dùng các thông tin hỗ trợ nào khác
Sử dụng các luật chuyển đổi mang tínhxác suất
Sử dụng các luật chuyển đổi mang tính xácđịnh
2.2.1.4. Các ứng dụng của giải thuật di truyền.
Tối ưu hoá và máy học
- Trong lĩnh vực tối ưu hóa: có nhiều bài toán áp dụng giải thuật di truyền và
đã thành công như tối ưu hoá hàm một biến, tối ưu hóa hàm nhiều biến, bài
toán người du lịch, các bài toán kinh doanh, nhận dạng điều khiển hệ thống...
32
- Trong lĩnh vực máy học: giải thuật di truyền được sử dụng cho việc tìm hiểu
các quy luật có cấu trúc như cấu trúc IF-THEN trong môi trường nhân tạo.
Ghi ảnh y học với giải thuật di truyền
Giải thuật di truyền đơn giản đã được sử dụng để thực hiện ghi hình ảnh, như
là bộ phận của hệ thống lớn có tên là Digital Subtraction Angiography (DSA).
Trong DSA, bác sĩ sẽ cố gắng xem xét bên trong của một động mạch khả nghi bằng
cách so sánh hình ảnh x-quang, một được chụp trước khi tiêm thuốc đã nhuộm màu
vào động mạch và một được chụp sau khi tiêm thuốc. Giải thuật di truyền được tìm
kiếm sự sai biệt hình ảnh trước và sau khi tiêm.
2.2.2. Thực hiện giải thuật di truyền
2.2.2.1. Biểu diễn các cá thể
Là ánh xạ các tham số của bài toán lên một chuỗi có chiều dài xác định. Tuỳ
theo từng bài toán cụ thể mà có những cách biểu diễn khác nhau sao cho phù hợp,
thuận lợi khi giải toán. Trong đó có hai cách biểu diễn thông dụng nhất là biểu diễn
nhị phân và biểu diễn sử dụng các hoán vị.
Biểu diễn nhị phân
Mỗi cá thể tương ứng với một chuỗi bao gồm các bit 0 và 1, ý nghĩa của các
bit này phụ thuộc vào từng tình huống cụ thể. Đây là cách biểu diễn đơn giản nhất
và là cách thông dụng nhất trong các cách biểu diễn.
Biểu diễn sử dụng hoán vị
Mỗi cá thể tương ứng với một hoán vị của tập n ký hiệu nào đó. Chẳng hạn
cách biểu diễn này đã được áp dụng cho bài toán người du lịch :
Biểu diễn bằng giá trị
Biểu diễn giá trị trực tiếp có thể được dùng trong các bài toán có chứa những
giá trị phức tạp như số thực. Nếu dùng biểu diễn nhị phân cho loại bài toán này thì
rất phức tạp. Những giá trị này có thể có dạng bất kỳ liên quan đến bài toán, từ số
nguyên, số thực, ký tự cho đến các đối tượng phức tạp hơn.
33
Biểu diễn theo cây
Mã hóa theo cây được dùng chủ yếu cho các chương trình tiến hóa, cho lập
trình gen. Trong mã hóa theo cây mọi nhiễm sắc thể là một cây chứa các đối tượng
chẳng hạn như hàm hoặc lệnh trong một ngôn ngữ lập trình nào đó. Mã hóa nhiễm
sắc thể là các hàm được biểu diễn bằng cây.
2.2.2.2. Hàm mục tiêu (Fitness)
Một hàm mục tiêu sẽ lấy một chuỗi nhiễm sắc thể như là đầu vào và trả về giá
trị tượng trưng cho chuỗi nhiễm sắc thể đó để đánh giá trên vấn đề cần giải quyết.
Giá trị hàm mục tiêu là Maximum hay Minimum tùy theo bài toán sẽ quyết định xác
suất của mỗi chuỗi có thể tham gia vào các toán tử di truyền.
2.2.2.3. Toán tử tái tạo (Reproduction)
Là một quá trình trong đó các chuỗi được lựa chọn tùy thuộc vào giá trị hàm
mục tiêu. Hàm mục tiêu f(i) được gán cho mỗi cá thể trong một quần thể và những
cá thể nào có giá trị hàm mục tiêu cao sẽ đại diện cho những cá thể tốt, thích nghi
và sẽ có xác suất chọn lọc lớn.
Chọn lọc dùng bánh xe Roulette
Đây là phương pháp chọn lọc đơn giản nhất, mỗi chuỗi (cá thể) trong quần thể
chiếm một khe vòng tròn Roulette có độ rộng tỷ lệ với giá trị hàm mục tiêu. Mỗi lần
quay vòng tròn Roulette nhận một chuỗi coi như là cách lựa chọn chuỗi cho tái tạo.
Các bước thực hiện:
Tính tổng giá trị mục tiêu của các cá thể trong một dân số và gán kết quả
này vào biến Total fitness.
Ở thế hệ thứ n, lấy một số ngẫu nhiên giữa 0 và Total fitness.
Trả về số cá thể đầu tiên của một dân số mới, dựa vào giá trị mục tiêu của
nó.
Ví dụ: Giả sử ta có một dân số ban đầu với 6 chuỗi nhiễm sắc thể, tổng giá trị của
34
hàm mục tiêu là 50 như thể hiện trong bảng 2.3
Bảng 2.3. Chọn lọc dùng bánh xe [19]
STT Chuỗi Hàm mục tiêu Tỷ lệ % Total
1
2
3
4
5
6
01110
11000
00100
10010
01100
00010
10
12
5
8
9
6
20
24
10
16
18
12
8
22
27
35
44
50
Bánh xe trọng số được thể hiện trong hình 2.6
Sau đó sẽ tạo các số ngẫu nhiên trong khoảng từ (0, 50) tương ứng với việc
quay vòng tròn bánh xe, đối với mỗi số kỹ thuật chọn lựa trên vòng tròn bánh xe sẽ
được áp dụng để chọn một chuỗi nhiễm sắc thể đầu tiên với giá trị hàm mục tiêu lớn
hơn hay bằng số ngẫu nhiên. Sáu số ngẫu nhiên được tạo ra cùng với các chuỗi
được chọn thể hiện trong bảng 2.4 :
Bảng 2.4. Sự tương ứng các số ngẫu nhiên và chuỗi nhiễm sắc thể [18]
Số ngẫu nhiên 26 16 46 30 5 18
Chuỗi NST 3 2 6 4 1 2
Hình 2.6. Bánh xe Roulette [18]
12% 20%
24%
10%16%
18%
35
Ví dụ này chứng tỏ rằng các chuỗi nào có giá trị mục tiêu cao thì sẽ có nhiều
con cháu hơn trong thế hệ sau .
Giải thuật chọn lọc ngẫu nhiên cá thể theo phương pháp chọn lọc đấu vòng.
Chonchame()
{
Chọn ngẫu nhiên n phần tử
Chọn phần tử cha tối ưu lưu vào mảng cha mẹ
Chọn ngẫu nhiên n phần tử
Chọn phần tử tối ưu lưu vào mảng cha mẹ
Chọn ngẫu nhiên n phần tử
Chọn phần tử tối ưu lưu vào mảng cha mẹ
}
Chọn lọc lân cận địa phương
Lân cận địa phương là một vùng khép kín mà cá thể tương tác với các cá thể
khác nằm trong vùng đó. Theo phương pháp này, một nửa số cá thể đầu tiên được
chọn bởi một phương pháp bất kỳ nào đó, chẳng hạn như phương pháp bánh xe
Roulette. Sau đó với mỗi cá thể đã chọn, xác định một lân cận địa phương của nó và
tìm cá thể để lai ghép với nó.
Chọn lọc loại bỏ
Dùng một ngưỡng lựa chọn để xác định các cá thể được lựa chọn. Theo đó các
cá thể có giá trị hàm mục tiêu nhỏ hơn ngưỡng thì sẽ bị loại bỏ, còn các cá thể có
giá trị hàm mục tiêu lớn hơn ngưỡng thì được lựa chọn.
2.2.2.4. Toán tử lai ghép (Crossover)
Toán tử lai ghép trong biểu diễn nhị phân
Lai ghép một điểm
Đây là cách lai ghép đơn giản nhất.
Đầu tiên, một vị trí ghép chéo được lựa chọn
ngẫu nhiên (crossover site) trên hai chuỗi
Hình 2.7. Lai ghép [18]
36
được chọn ra trong quá trình tái tạo, sau đó các chuỗi này được tiến hành ghép chéo
tại vị trí này. Quá trình này sẽ tạo ra hai chuỗi mới, mỗi một chuỗi mới sẽ được lấy
từ phần bên phải của chuỗi này ghép với phần bên trái chuỗi kia tính từ vị trí ghép
chéo và tương tự cho chuỗi còn lại.
Lai ghép nhiều điểm: Phương pháp thực hiện giống như lai
ghép một điểm nhưng sẽ có nhiều điểm được chọn trong chuỗi cá thể để lai ghép.
Toán tử lai ghép trong biểu diễn bằng hoán vị
Một điểm lai ghép được chọn, phần đầu của chuỗi con được tạo thành bằng
cách lấy phần đầu của chuỗi cha mẹ thứ nhất (từ vị trí đầu đến vị trí chọn lai ghép).
Phần còn lại của chuỗi con được tạo thành bằng cách duyệt từ đầu chuỗi cha mẹ thứ
hai và đưa vào chuỗi con những giá trị chưa có.
(1 2 3 4 5 6 7 8 9) + (1 8 6 2 5 3 7 9 4) = (1 2 3 4 5 6 8 7 9) (2.3)
Toán tử lai ghép trong biểu diễn theo cây.
Hình 2.8: Lai ghép biểu diễn theo cây [18]
Lai giống theo cây trong cả hai bố mẹ điểm lai giống được chọn, các bố mẹ
được chia theo điểm ấy và hoán đổi phần dưới điểm lai giống để tạo ra con mới.
Quá trình tái tạo và lai ghép làm tăng sức mạnh cho giải thuật di truyền bởi
việc trực tiếp tìm kiếm những thông tin tốt hơn sử dụng thông tin tồn tại đã biết
Giải thuật lai: Sử dụng chọn ngẫu nhiên một trong ba phương pháp lai: Lai một
điểm, lai nhiều điểm, lai hoán vị.
Laighep(){
Chọn 2 phần tử trong mảng cha mẹ
Chọn một số tự nhiên t ngẫu nhiên [1,3]
37
case t:
{
t=1 : Tiến hành Lai một điểm
t=2 : Tiến hành Lai nhiều điểm
t=3 : Tiến hành Lai hoán vị
}
Trả về 2 phần tử con sau khi lai
2.2.2.5. Toán tử đột biến (Mutation)
Mặc dù tái tạo và ghép chéo sản sinh ra nhiều chuỗi mới nhưng nó không có
bất kỳ một thông tin mới nào trong quần thể ở cấp độ bit. Với một chuỗi các bit
mới, ta áp dụng đột biến với một xác suất thấp Pm, nó có tác dụng chuyển 1 bit từ 0
thành 1 hay ngược lại với bit này được chọn lựa một cách ngẫu nhiên.
Biểu diễn nhị phân: Chọn một số bit rồi đảo giá trị các bit đó.
Biểu diễn bằng hoán vị: Chọn hai vị trí bất kỳ rồi hoán đổi giá trị của chúng
cho nhau: (1 2 3 4 5 6 7 8 9) => (1 2 8 4 5 6 7 3 9) (2.4)
Biểu diễn bằng giá trị: Chọn một vài giá trị rồi thêm hoặc bớt một giá trị nhỏ:
(3.49; 7.63; 3.55; 7.24; 4.83) => (3.49; 7.63; 3.61; 7.18; 4.83) (2.5)
Biểu diễn theo cây: Chọn một vài nút trong cây rồi thay đổi giá trị của nút đó.
Ba toán hạng tái tạo, ghép chéo, đột biến được áp dụng lập đi lập lại để tạo ra
những chuỗi nhiễm sắc thể mới, cho đến khi vượt quá kích thước quần thể chọn ban
đầu thì dừng lại. Quá trình sẽ tiếp tục cho đến khi cá thể tối ưu được tạo ra hay điều
kiện dừng của bài toán được thoả mãn.
Giải thuật đột biến:
Dotbien(){
Chọn 1 phần tử trong mảng con
Chọn một số tự nhiên t ngẫu nhiên [1,2]
case t:
}
38
{ t=1: Tiến hành Đột biến nhị phân
t=2: Tiến hành Đột biến hoán vị
}
}
2.2.3. Chương trình tổng quát
Quần thể mới được tạo ra bằng cách lựa chọn có xác suất các cá thể thích nghi
tốt từ quần thể hiện tại. Một số trong những cá thể được chọn được đưa nguyên vẹn
vào quần thể kế tiếp. Những cá thể khác được dùng làm cơ sở để tạo ra các cá thể
con bằng cách áp dụng các tác động di truyền: lai ghép và đột biến.
Giải thuật di truyền:
GA(giatri ){ // Các cá thể là các mảng giatri
Khởi tạo ngẫu nhiên quần thể ban đầu: P
Tính giá tri thích nghi của mỗi p trong P theo công thức
với
Lưu lại bộ tham số có cost RMSE tối ưu
//Tiến hành các phép toán di truyền
while(Sothehe < Sothehe_toida){
while(Solanlai < Solanlai_toida){
Chọn lọc các cá thể cha mẹ để tiến hành lai
Lai tạo các cá thể cha mẹ tạo ra các cá thể con
Đột biến các cá thể con
Số lần lai ++
}
Tính toán giá trị thích nghi các cá thể con vào quần thể
Lưu lại giá trị thích nghi tốt và lời giải tối ưu
Số thế hệ ++;
}
Trả về giatri có độ thích nghi RMSE tối ưu
}
39
Lưu đồ :Bắt đầu
Khởi tạo quần thể P ban đầu
Tính giá trị thích nghi RMSE của từng cá thể trong P
Thỏa điều kiện dừng?
Chọn lọc cá thể cha mẹ
Lai tạo
Đột biến
Đưa các cá thể con vào quần thể
Tính giá trị thích nghi RMSE từng cá thể trong P
Dừng
Trả về bộ thông số Tối ưu tìm được
Đúng
Sai
40
Hình 2.9: Giải thuật di truyền
2.3. CHUỖI THỜI GIAN VÀ MÔ HÌNH TỰ HỒI QUY
2.3.1. Thế nào là chuỗi thời gian [5] [15]
Những dữ liệu quan sát liên tục một hiện tượng (vật lý, kinh tế…) trong một
thời gian dài tạo nên một chuỗi thời gian. Một chuỗi dữ liệu thời gian là một tập hợp
các giá trị theo một thứ tự thời gian, mỗi giá trị được ghi nhận tại một chu kỳ
thời gian nhất định. Chuỗi dữ liệu thời gian được sử dụng rộng rãi trong nhiều lĩnh
vực như tài chính, sản xuất, điều khiển,…Phân tích chuỗi thời gian bao gồm hai
bước:
Xây dựng một mô hình đại diện cho một chuỗi thời gian.
Sử dụng mô hình để dự báo (dự báo) giá trị trong tương lai.
Nếu Y là giá trị mục tiêu đang hướng tới và Yt là giá trị của Y tại thời điểm t,
hàm mục tiêu để tạo ra một mô hình có dạng:
Yt = f(Yt-1, Yt-2, Yt-3, …, Yt-n) + et (2.6)
Mục đích của phân tích là để thấy rõ mối quan hệ giữa các giá trị Y t được
quan sát đến nay để cho phép chúng ta dự báo giá trị Yt trong tương lai.
2.3.2. Dự báo chuỗi thời gian [14]
Các mô hình dự báo chuỗi thời gian là dự báo giá trị tương lai của một biến số
nào đó, bằng cách phân tích số liệu quá khứ và hiện tại của những biến số đó. Giả
định của dự báo chuỗi thời gian là sự vận động trong tương lai của biến dự báo sẽ
giữ nguyên xu thế vận động trong quá khứ và hiện tại. Như vậy, chỉ có chuỗi ổn
định mới đưa ra những dự báo tin cậy. Tính ổn định của chuỗi dữ liệu thể hiện qua
tính “dừng”, đây là điều kiện quan trọng để phân tích và dự báo chuỗi thời gian.
41
Dự báo quá khứ là dự báo hậu nghiệm và dự báo các giai đoạn trong tương lai
gọi là dự báo tiền nghiệm. Toàn bộ dự báo được phân chia làm 2 giai đoạn là dự báo
hậu nghiệm (ex-ost) và dự báo tiền nghiệm (ex-ante).
- Giai đoạn dự báo hậu nghiệm: Là thời gian từ quan sát đầu tiên sau khi chấm
dứt giai đoạn mẫu Yn+1 tới quan sát mới nhất Yn. Giai đoạn hậu nghiệm là giai đoạn
kiểm nghiệm sự chính xác tính dự báo của mô hình. Nếu như mô hình không đảm
bảo độ chính xác theo yêu cầu thì người dự báo cần tìm các giải pháp khác như tìm
kiếm mô hình thay thế hoặc mở rộng mẫu dự báo.
- Giai đoạn dự báo tiền nghiệm: Là giai đoạn dự báo tương lai. Đây chính là mục
tiêu của dự báo, nhưng vì chưa xảy ra nên không thể so sánh được. Tuy vậy, một số
tiêu chí thống kê sẽ cho chúng ta đánh giá được mức độ tin cậy của mô hình.
Hình 2.10: Phân tích chuỗi số liệu trong dự báo [14]
. Hình 2.11: Phương pháp luận dự báo chuỗi thời gian [15]
42
2.3.3. Mô hình tự hồi quy [8]
Mô hình tự hồi quy bậc p được ký hiệu là AR(p) có dạng
- Yt = biến phản ứng (phụ thuộc) tại thời điểm t
- Yt-1, Yt-2, … = biến phản ứng tại các độ trễ t-1, t-2,
- 0, 1, 2,..., p = các hệ số sẽ được ước lượng.
- et = phần sai số tại thời điểm t thể hiện ảnh hưởng của các biến không được giải
thích trong mô hình. Phù hợp với các chuỗi thời gian dừng và hệ số f0 thể hiện
mức cố định của chuỗi dữ liệu (Nếu dữ liệu xoay quanh giá trị 0 hoặc được thể
hiện bằng các độ lệch, thì không cần hệ số f0 )
- Các hệ số tự tương quan giảm từ từ xuống giá trị 0
- Các hệ số tự tương quan riêng sẽ giảm xuống giá trị 0 ngay sau khi độ trễ p
(2.7)
43
2.3.4. Mô hình trung bình trượt
Mô hình trung bình trượt bậc q ký hiệu là MA(q) được biểu diễn như sau:
(2.8)
- Yt = biến phản ứng (phụ thuộc) tại thời điểm t
- = giá trị trung bình cố định
- w1, w2, w3 = các hệ số sẽ được ước lượng.
- et = phần sai số tại thời điểm t thể hiện ảnh hưởng của các biến không
được giải thích trong mô hình.
- et-1, et-2 = các sai số ở các thời điểm trước, có dạng nhiễu trắng.
2.3.5. Quá trình tự hồi quy trung bình trượt cấp p,q: ARMA(p,q)
Cho một chuỗi dữ liệu thời gian Xt, mô hình ARMA là công cụ để phân tích,
mô tả thậm chí dự báo các giá trị tương lai của chuỗi trên. Mô hình gồm hai phần:
- Thành phần tự hồi quy AR
- Thành phần trung bình trượt MA
Mô hình được ký hiệu là ARMA(p,q) với p là bậc của thành phần tự hồi quy
AR và q là bậc của thành phần trung bình trượt MA.
Một quá trình tự hồi quy trung bình trượt cấp p,q, là một quá trình dừng thỏa:
(2.9)
Trong đó là nhiễu trắng, các đa thức hồi quy a(z) và đa thức trung bình trượt b(z)
có bậc p,q tương ứng:
(2.10)
44
(2.11)
Dạng toán tử của (2.10) là (2.12)
2.4. KẾT LUẬN CHƯƠNG
Chương hai đã trình bày và phân tích các cơ sở lý thuyết một cách khoa học về
giải thuật di truyền và giải thuật luyện kim trên cơ sở các tài liệu đáng tin cậy và từ
các bài báo đã đăng trên các tạp chí, để làm cơ sở xây dựng mô hình ARMA bằng
việc kết hợp giải thuật di truyền và giải thuật luyện kim cho ra mô hình ARMA để
thực nghiệm trên các mẫu dữ liệu trong chương ba.
Chương 3
XÂY DỰNG VÀ THỰC NGHIỆM MÔ HÌNH DỰ BÁO
Trên cơ sở lý thuyết của chương 2, chương 3 sẽ trình bày phương pháp
học mô hình 2 cấp sử dụng giải thuật di truyền kết hợp giải thuật luyện kim
xây dựng mô hình ARMA tối ưu cho chuỗi dữ liệu thời gian ở dạng số thực để
dự báo và đánh giá nhu cầu sử dụng điện.
45
3.1. PHÂN TÍCH CHỈ TIÊU ĐÁNH GIÁ HIỆU QUẢ CỦA MÔ HÌNH
Một mô hình chuỗi thời gian ( ) giả định rằng các mẫu trong quá khứ sẽ xuất
hiện trong tương lai. Sai số được tính bằng độ sai lệch giữa giá trị thực và giá trị
dự báo bởi mô hình:
(3.1)
Độ chính xác của toàn bộ mô hình được đánh giá bởi nhiều chỉ tiêu đánh giá
sai số khác nhau, đề tài này sử dụng các chỉ tiêu đánh giá thông dụng:
(3.2)
(3.3)
với: l là số lượng dự báo
là trọng số của chuỗi
Mô hình tự hồi quy trung bình trượt ARMA với hai thành phần: thành phần
hồi quy AR(p) và trung bình trượt MA(q). Mô hình được biểu diễn như sau:
(3.4)
với là giá trị dự báo tại thời điểm t ; là giá trị mẫu tại thời điểm t-i
46
là nhiễu trắng; là các hệ số AR ; là các hệ số MA
Để so sánh độ thích hợp giữa các mô hình, cần xem xét tiêu chuẩn thống kê
lựa chọn mô hình Bayesian Information Criterion (BIC):
(3.5)
Trong đó: N là số mẫu huấn luyện , p là số tham số mô hình.
3.2. CẤU TRÚC BẢNG DỮ LIỆU
Mô hình là một đối tượng có cấu trúc 2 mảng, mỗi mảng có 27 phần tử mã
hóa cho một phần tử μ, 13 phần tử AR(a1,a2,..,a13), 13 phần tử MA (m1, m2,.., m13).
- Mảng cấu hình là mảng boolean lưu giữ sự tồn tại của các tham số AR và MA.
Nếu giá trị phần tử thứ i trong mảng bằng 0 thì tham số không tồn tại và ngược lại
nếu giá trị phần tử thứ i trong mảng bằng 1 thì tham số tồn tại trong mô hình.
- Mảng giá trị lưu giữ giá trị thực từng tham số AR, MA tương ứng mảng mô hình.
Nếu mảng cấu hình phần tử i bằng 0 thì phần tử thứ i ở mảng giá trị cũng bằng 0.
Hình 3.1 Cấu trúc lời giải của phương pháp SA-GA
Các lời giải được đánh giá ở cấp cấu hình dựa trên chỉ tiêu BIC(3.5) và các bộ
tham số tối ưu được đánh giá dựa trên chỉ tiêu RMSE (3.3)
3.3. MÔ HÌNH ARMA [1] [8] [10]
T F T F... T F T...
0.3 0.0 0.5 0.0... 0.1 0.0 0.5...
μ AR1
AR2
AR13
MA1
MA2
MA13
Mảng Cấu hình
Mảng Giá trị
47
3.3.1. Mục đích của việc kết hợp hai mô hình
Kết hợp giải thuật di truyền và giải thuật luyện kim trong việc xây dựng mô
hình chuỗi dữ liệu thời gian sẽ giúp tìm ra mô hình dự báo tối ưu sau khi kết thúc
thuật toán, vì giải thuật di truyền giúp tính toán các hệ số tối ưu cho mô hình, giải
thuật luyện kim giúp tìm kiếm các mô hình lân cận. Phần mô tả giải thuật mục 3.3.2
sẽ giúp làm rõ hơn ưu điểm của sự kết hợp hai mô hình.
3.3.2. Mô tả giải thuật
Giải thuật chương trình SA-GA được xây dựng nhằm mục đích tối ưu chương
trình với 2 cấp: Tối ưu cấp mô hình và tối ưu giá trị tham số của các mô hình.
Ban đầu chọn ngẫu nhiên một mô hình, chương trình tìm mô hình bằng cách
dùng giải thuật di truyền để tính toán các hệ số tối ưu cho mô hình. Sau đó chương
trình tìm kiếm các mô hình lân cận bằng cách dùng giải thuật luyện kim. Khi tìm
được một lân cận, chương trình dùng giải thuật di truyền để tính toán bộ tham số tối
ưu. Khi quá trình luyện kim kết thúc, chương trình sẽ lưu lại mô hình tối ưu vừa tìm
được. Sau đó chương trình quay lại bước chọn ngẫu nhiên mô hình và tiến hành
luyện kim. Quá trình này sẽ được tiến hành n lần và trả về mô hình tối ưu cần tìm.
Có thể thấy rằng giải thuật của toàn chương trình được xem như một quá trình luyện
kim. Tuy nhiên với quá trình luyện kim thông thường, hàm đánh giá sẽ được sử
dụng để đánh giá một trạng thái năng lượng. Nhưng với chương trình này, phương
pháp đánh giá được cải tiến bằng cách bổ sung thêm một quá trình tối ưu bằng giải
thuật di truyền và sau đó mới tính toán hàm đánh giá (RMSE, BIC).
Ngoài ra, còn thấy sự khác biệt với giải thuật chung của giải thuật di truyền
hay luyện kim ở chỗ chương trình chọn ngẫu nhiên một trong các phương pháp lai,
đột biến, tìm lân cận để áp dụng cho một lần tiến hành xử lý.
3.3.2.1 Giải thuật chung của chương trình
48
Lưu đồ
Luyện kim
Đúng
Khởi tạo ngẫu nhiên mô hình đầu tiên
Tối ưu tham số mô hình bằng GA() và
tính RMSE, BIC
Tối ưu tham số mô hình bằng
GA() và tính RMSE, BIC
ĐK dừng SA?
Xác định lân cận mới
Chuyển trạng thái ?
Hạ nhiệt độ
Chuyển sang trạng thái mới
Lặp k
Khởi tạo thông số ban đầu
Bắt đầu
Điều kiện dừng ?
DừngTrả về mô hình
Tối ưu tìm được
Đúng
Đúng
Đúng
ĐúngSai Sai
Sai
Sai
Hình 3.2 Giải thuật SA-GA cho mô hình ARMA
49
SA-GA()
{
Chọn số lần tìm kiếm mô hình: n
Chọn số lần chạy của chương trình tìm mô hình tối ưu: m
while ( i<n){
Khởi tạo các thông số ban đầu cho GA và SA
Khởi tạo ngẫu nhiên lời giải ban đầu initial
GA(initial) // Dùng GA tối ưu mô hình lời giải ban đầu initial
best = SA(initial) // Dùng SA tìm mô hình tối ưu -> best
}
Trả về mô hình tối ưu
}
3.3.2.2. Giải thuật luyện kim (Xem hình 2.2)
Hàm SA(S) là hàm với tham số đầu vào là mô hình ở dạng mảng boolean sẽ
được tiến hành “luyện kim” để tìm kiếm các mô hình tốt hơn. Hàm đánh giá để so
sánh giữa các mô hình là :
(3.6)
với N là số mẫu huấn luyện; p là số tham số mô hình
Trong hàm SA(), để xác định sai số BIC, ta cần xác định sai số SSE. Sai số
SSE được tính toán dựa trên mô hình hoàn chỉnh. Do đó, hàm GA() được gọi sau
mỗi lần phát sinh lân cận để tối ưu các mô hình giúp các mô hình này có SSE hay
RMSE thấp có thể. Từ đó, ta sẽ xác định được sai số BIC.
Trong quá trình luyện kim, khả năng tìm đến lời giải tối ưu phụ thuộc rất lớn
vào hàm xác định lân cận. Việc xác định lân cận có thể dùng nhiều phương pháp
khác nhau như đảo bit một hay nhiều vị trí trong mảng, đảo vị trí một hay nhiều lần
50
các phần tử trong mảng,...Để tăng xác suất tìm đến lời giải tối ưu, chương trình sử
dụng hỗn hợp nhiều phương pháp bằng cách chọn ngẫu nhiên một phương pháp
trong một lần phát sinh lời giải lân cận.
3.3.2.3. Giải thuật di truyền (Xem hình 2.9)
Hàm GA(S) dùng giải thuật di truyền để tối ưu bộ tham số có sai số RMSE
nhỏ nhất tương ứng với mô hình S.
Trong bài toán tối ưu mô hình này, các cá thể là các mảng số thực. Hàm đánh
giá độ thích nghi của các cá thể dựa trên sai số:
(3.7)
(3.8)
Quá trình tiến hóa trong giải thuật di truyền trải qua các quá trình chọn lọc,
lai, đột biến. Trong hàm GA(), các quá trình tiến hóa được tiến hành như sau:
- Chọn lọc ngẫu nhiên các cá thể theo phương pháp chọn lọc đấu vòng.
- Lai tạo các phần tử trong mảng cha mẹ để tạo các cá thể con.
- Các cá thể con qua quá trình lai tạo sẽ chọn ngẫu nhiên để tiến hành đột biến.
3.4. KẾT LUẬN CHƯƠNG
Chương trình SA-GA kết hợp hai giải thuật tối ưu, giải thuật di truyền và giải
thuật luyện kim, xây dựng mô hình tự hồi quy trung bình trượt ARMA cho các
chuỗi dữ liệu theo thời gian. Bằng cách chọn lọc ngẫu nhiên các phương pháp tiến
hóa trong giải thuật di truyền và xác định lân cận trong quá trình luyện kim, chương
trình tạo ra nhiều cơ hội tiếp cận lời giải tối ưu.
với l là số lượng dự báo
51
Chương 4
KẾT QUẢ THỰC NGHIỆM
Đề tài dùng mô hình ARMA xây dựng được bằng phương pháp kết hợp
giải thuật di truyền và giải thuật luyện kim để thử nghiệm các mẫu dữ liệu
thời gian lưu trữ trong thư viện dữ liệu Time Series Data Library[15 ] và
so sánh với các phương pháp khác như ES, ARIMA, GEA, Meta-GAs cùng
chạy trên các chuỗi dữ liệu đó để thấy hiệu quả của mô hình vừa xây dựng
được. Trên cơ sở đó dùng mô hình ARMA thực nghiệm dữ liệu điện tiêu thụ
để dự báo mức tiêu thụ điện ở khu vực Thị xã Thủ Dầu Một trên các loại
ngành nghề chính
4.1. THỬ NGHIỆM MÔ HÌNH ARMA TRÊN CÁC CHUỖI DỮ
LIỆU MẪU LẤY TỪ TIME SERIES DATA LIBRARY[15]
4.1.1. Các chỉ tiêu đạt được trên mô hình ARMA
Kết quả đạt được từ việc thử nghiệm phương pháp SA-GA xây dựng được và
các phương pháp ES, ARIMA, GEA, Meta-GAs trên cùng các chuỗi dữ liệu lấy từ
Time Series Data Library [15]
Bảng 4.1: So sánh phương pháp SA-GA với các phương pháp truyền thống
Series ES ARIMA GEA Meta-GAs SA-GAPassengersPaperDeathsMaxtempChemicalPricesSunspotsKobe
16.5 (0.70%)49.2 (4.4%)135 (37%)0.72 (2.5%)0.35 (51%)7.54 (0.39%)28.4 (35%)3199 (105%)
17.8 (0.81%)61.0 (6.8%)144 (42%)1.07 (5.6%)0.36 (53%)7.72 (0.41%)21.4 (20%)582 (3.5%)
20.9 (1.12%)56,3 (5.8%)134 (37%)0.915 (4.1%)0.343 (48%)7.48 (0.38%)
524 (3%)
17.2 (0.75%)52.5 (5.0%)137 (38%)0.93 (4.3%)0.34 (48%)7.48 (0.38%)17.6 (14%)492 (2.5%)
14.6 (0.56%)42.3 (3.25%)117 (09.65%)0.70 (2.40%)0.30 (38.64%)6.86 (0.32%)16.12(11.44%)478 (2.35%)
52
Theo bảng 4.1 thấy rằng trên cùng một chuỗi dữ liệu nhưng thử nghiệm
trên các phương pháp khác nhau thì phương pháp SA-GA mới xây dựng có
các chỉ tiêu sai số thấp hơn so với bốn phương pháp khác là ES, ARIMA, GEA
và Meta-GAs. Như vậy phương pháp SA-GA đáng tin cậy, có thể dùng phương
pháp SA-GA để dự báo số kw điện tiêu thụ, trên cơ sở dự báo đó sẽ đánh giá
tình hình tiêu thụ điện trong từng địa phương và từng nhóm ngành nghề trên
địa bàn tỉnh Bình Dương.
4.1.2. Thực nghiệm mô hình ARMA trên chuỗi dữ liệu mẫu lấy
từ Time Series Library
Hình 4.1. Giao diện chính
4.1.2.1. Passengers
Kết quả Chỉ tiêu: - Sai số RMSE: 14.643- Sai số NMSE: 0.569126%
Mô hình = 1.90034-0.189016*x[-1] + 0.917602*x[-2] + 0.106209*x[-5]-0.0189013*x[-6]-0.299376*x[-7] + 0.289585*x[-8]-0.0542281*x[-9] +
53
0.319468*x[-13] + 0.0855697*e[-6] + 0.292654*e[-7]-0.117429*e[-8] +0.363931*e[-11] + 0.194262*e[-13]
Đồ thị
Hình 4.2: Đồ thị biểu diễn chuỗi Passengers
4.1.2.2. Paper
Kết quả Chỉ tiêu: - Sai số RMSE: 42.3063- Sai số NMSE: 3.25692%
Mô hình = -0.0403665*x[-1] + 1.06261*x[-2]-0.0441954*x[-6] + 0.0638381* x[-9]-0.00104988*x[-13] + 0.238682*e[-4] + 0.184251*e[-5] + 0.413249* e[-8] -0.0423617*e[-11] + 0.0567347*e[-12] + 0.0822773*e[-13]
Đồ thị
Hình 4.3: Đồ thị biểu diễn chuỗi Paper
4.1.2.3. Deaths
54
Kết quả Chỉ tiêu: - Sai số RMSE: 117.108- Sai số NMSE: 9.6589%
Mô hình = + 0.00836295*x[-3] + 0.981836*x[-13] + 0.113136*e[-1] + 0.49049*e[-2]-0.0246875*e[-3] + 0.00884703*e[-4]-0.0116508*e[-7]-0.0131873*e[-10]-0.181457*e[-13]
Đồ thị
Hình 4.4: Đồ thị biểu diễn chuỗi Deaths
4.1.2.4. Maxtemp
Kết quả Chỉ tiêu: - Sai số RMSE: 0.700592- Sai số NMSE: 2.40224%
Mô hình = -0.00698467*x[-2] + 0.622766*x[-3] + 0.156058*x[-4]-0.188719*x[-5] +0.242065*x[-7]-0.296979*x[-8] + 0.252232*x[-12] + 0.214969*x[-13] +0.126843*e[-1]-0.288518*e[-3] + 0.307476*e[-8]-0.00375709*e[-10] +0.17884*e[-13]
Đồ thị
Hình 4.5: Đồ thị biểu diễn chuỗi Maxtemp
55
4.1.2.5. Chemical
Kết quả Chỉ tiêu: - Sai số RMSE: 0.307445- Sai số NMSE: 38.6476%
Mô hình = + 0.26686*x[-1] + 0.355099*x[-5]-0.499624*x[-6] + 0.0506984*x[-7] +0.368888*x[-8]-0.138772*x[-12] + 0.59716*x[-13]-0.256873*e[-8] +0.28584*e[-12]
Đồ thị
Hình 4.6: Đồ thị biểu diễn chuỗi Chemical
4.1.2.6. Prices
Kết quả Chỉ tiêu: - Sai số RMSE: 6.86671- Sai số NMSE: 0.322725%
Mô hình = -0.159213*x[-1] + 0.54557*x[-3]-0.484725*x[-8]-0.0369451*x[-9]-0.30524*x[-10] + 0.705118*x[-11] + 0.734692*x[-13] + 0.0135602*e[-1]-0.00395194*e[-2]-0.150441*e[-3] + 0.278167*e[-4] + 0.387034*e[-7]-0.082413*e[-9]-0.0917972*e[-10] + 0.172129*e[-12]
56
Đồ thị
Hình 4.7: Đồ thị biểu diễn chuỗi Prices
4.1.2.7. Sunspots
Kết quả Chỉ tiêu: - Sai số RMSE: 16.1293- Sai số NMSE: 11.4461%
Mô hình = 8.03808 + 0.386635*x[-3] + 0.137964*x[-4] + 0.0691927*x[-7]-0.0487809*x[-9]-0.135363*x[-10] + 0.0949729*x[-11] + 0.322045*x[-13] +0.309647*e[-4] + 0.29985*e[-5] + 0.471412*e[-12] + 0.803856*e[-13]
Đồ thị
Hình 4.8: Đồ thị biểu diễn chuỗi Sunspots
4.1.2.8. Kobe
Kết quả Chỉ tiêu: - Sai số RMSE: 478.042- Sai số NMSE: 2.35715%
Mô hình = -0.0252638*x[-2] + 0.188254*x[-8] + 0.370064*x[-10]-0.725101*x[-12] +1.03819*x[-13] + 0.0157048*e[-4] + 0.0112543*e[-7]-0.176119*e[-8] +0.198903*e[-9] + 0.671035*e[-10] + 1.2475*e[-13]
57
Đồ thị
Hình 4.9: Đồ thị biểu diễn chuỗi Kobe
4.1.3. Nhận định kết quả:
- So với chỉ tiêu đạt được trong các phương pháp ES, ARIMA, GEA, Meta-
GAs trên cùng chuỗi dữ liệu lấy từ Time Series Data Library [15] phương pháp SA-
GA dùng mô hình ARMA kết hợp giải thuật di truyền và giải thuật luyện kim hiệu
quả hơn.
- Từ đó có thể nói mô hình ARMA xây dựng kết hợp giải thuật di truyền và
giải thuật luyện kim có độ tin cậy cao, có thể dùng để dự báo nhu cầu sử dụng điện
trên địa bàn Thị xã Thủ Dầu Một.
4.2. THỰC NGHIỆM MÔ HÌNH ARMA CHO CÁC CHUỖI DỮ
LIỆU TRONG LĨNH VỰC NGÀNH ĐIỆN:
Các chuỗi số liệu thực nghiệm được tiến hành xử lý như sau: 80% số liệu
được dùng làm tập huấn luyện, 20% số liệu còn lại là tập kiểm tra. Tiến hành học
mô hình với 20 lần luyện kim và 50 lần di truyền để có kết quả mục 4.2
4.2.1. Dự báo nhu cầu sử dụng điện theo từng khu vực Thị xã
Thủ Dầu Một:
Thị xã Thủ Dầu Một
Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:
58
1647071.64320048
1403752.17528789
1398831.55180441
1547628.93746529
1328058.01675001
1781038.20935707
1616637.02261042
1528871.75122128
1720145.82675389
1677077.48453076
1690404.41242526
1733122.4429459
- Sai số RMSE: 102588- Sai số NMSE: 0.2395%
Mô hình =+0.472823*x[-2]+0.495794*x[-3]+0.159769*x[-5]+ 0.0103765*x[-6]-0.182896*x[-7]-0.413159*x[-8] + 0.522186*x[-9] + 0.000542884*x[-11]-0.0649524*x[-13] + 0.151313*e[-2] + 0.00425035*e[-3]-0.0214402*e[-5]-0.120807*e[-7]-0.356758*e[-11]-0.573544*e[-13]
Đồ thị
Hình 4.10: Đồ thị biểu diễn chuỗi TDM
4.2.2. Dự báo nhu cầu sử dụng điện theo từng nhóm ngành nghề
trong tỉnh:
4.2.2.1. Nông - Lâm - Thuỷ
Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:
4220077.9227995
4235023.8319363
4211001.67328447
4328368.67312649
4258403.47603567
4390581.6301231
4300404.22503262
4328149.83069635
4225465.02776243
4308350.87271799
4163880.05906767
4311931.39241322
- Sai số RMSE: 154148- Sai số NMSE: 5.08543%
Mô hình = -0.784449 + 0.901214*x[-2] + 0.0622075*x[-3] + 0.0340525*x[-10]+ 0.301425*e[-3] + 0.00419038*e[-6]-0.399522*e[-8] + 0.0291822*e[-10]-0.0491363*e[-11] + 0.378041*e[-13]
59
Đồ thị
Hình 4.11: Đồ thị biểu diễn chuỗi NLT
4.2.2.2. Công nghiệp - Xây dựng
Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:
104340104.374983
107842464.730714
103647410.348161
108668351.772144
103213356.062378
108433518.379343
104041774.338727
108819467.589822
104328617.054091
108356322.870808
104115231.74067
108274131.912811
- Sai số RMSE: 2889790- Sai số NMSE: 1.08414%
Mô hình = 0.0234394-0.0104701*x[-1] + 0.897218*x[-2] + 0.0858275*x[-6] +0.0225736*x[-9] + 0.0691205*x[-11]-0.0657703*x[-13]-0.402949*e[-2]-0.0234279*e[-4] + 0.0166633*e[-8] + 0.138747*e[-13]
Đồ thị
Hình 4.12: Đồ thị biểu diễn chuỗi CN-XD
4.2.2.3. Kinh doanh - Dịch vụ
60
Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:
8659442.91885965
8215523.23948274
8652077.4748087
8229213.92030339
8643060.38115619
8240217.89712962
8635474.43204651
8247028.26819923
8628704.45153909
8252088.15066011
8622139.46790516
8256969.5400392
- Sai số RMSE: 86632.5- Sai số NMSE: 0.57629%
Mô hình = 2.33001 + 0.984857*x[-2] + 0.0150475*x[-3]-0.659366*e[-2]-0.00749083*e[-3] + 0.0701026*e[-6] + 0.0350512*e[-8]
Đồ thị
Hình 4.13: Đồ thị biểu diễn chuỗi KD_DV
4.2.2.4. Ánh sáng cơ quan, dân dụng
Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:
1647071.64320048
1403752.17528789
1398831.55180441
1547628.93746529
1328058.01675001
1781038.20935707
1616637.02261042
1528871.75122128
1720145.82675389
1677077.48453076
1690404.41242526
1733122.4429459
- Sai số RMSE: 1150550- Sai số NMSE: 1.79683%
Mô hình = + 0.320346*x[-1] + 0.143703*x[-2] + 0.389209*x[-3]-0.196562*x[-7]+ 0.117755*x[-8] + 0.140133*x[-9]-0.300133*x[-11] + 0.38587*x[-13] +0.0740661*e[-2]-0.146902*e[-3]-0.0169*e[-4] + 0.0241825*e[-6] +0.176944*e[-7]-0.375533*e[-8]-0.147328*e[-10] + 0.147028*e[-11] +0.216134*e[-12]-0.78267*e[-13]
61
Đồ thị
Hình 4.14: Đồ thị biểu diễn chuỗi AS
4.2.2.5. Thành phần khác
Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:
6461788.33208789
6261107.04481316
6404976.29479137
6745902.08896549
6685130.54032837
7213927.81171414
7329658.00449481
7398819.67463232
7683406.55794019
7464759.90251792
7555639.2260551
7829110.16130043
- Sai số RMSE: 388457- Sai số NMSE: 2.23097%
Mô hình = + 0.322174*x[-1] + 0.578718*x[-2] + 0.207935*x[-3] +0.001297*x[-5] + 0.0429304*x[-11]-0.150349*x[-12]-0.000155344*e[-2]-0.11849*e[-3]-0.171778*e[-4]-0.203085*e[-8] + 0.0409995*e[-9]-0.679243*e[-13]
Đồ thị
Hình 4.15: Đồ thị biểu diễn chuỗi KHAC
62
KẾT LUẬN
Đề tài đã sử dụng một số cải tiến trong phương thức tiến hóa của giải thuật di
truyền và phương thức xác định lân cận của giải thuật luyện kim để tăng hiệu quả
xác định mô hình trung bình trượt tự hồi quy ARMA cho các chuỗi dữ liệu thời gian
ứng dụng vào đánh giá nhu cầu sử dụng nguồn năng lượng điện. Sự kết hợp hai giải
thuật để xây dựng mô hình dự báo chuỗi dữ liệu thời gian, khi thực nghiệm cho kết
quả tối ưu hơn so với các phương pháp truyền thống. Việc áp dụng vào dự báo nhu
cầu sử dụng điện trên địa bàn Thị xã cũng đem lại kết quả khả quan. Tuy nhiên do
tính chất phức tạp của bài toán dự báo, nên mô hình này còn cần có thời gian điều
chỉnh, thử nghiệm và kiểm chứng nhiều trong tương lai.
63
KIẾN NGHỊ CÁC HƯỚNG NGHIÊN CỨU TIẾP THEO
Đề tài có thể được phát triển thêm theo một số hướng:
- Việc phát sinh lời giải lân cận của thuật giải luyện kim giúp cho bài toán nhanh
hội tụ về lời giải tối ưu, do đó cần nghiên cứu để tăng hiệu quả tìm kiếm lân cận.
- Xây dựng chương trình demo cho đề tài hoàn chỉnh hơn, thử nghiệm trên nhiều
chuỗi dữ liệu thời gian khác nhau thuộc lĩnh vực khác để điều chỉnh mô hình sao
cho đạt hiệu quả nhất, ít sai số, độ tin cậy cao hơn và thời gian hoàn thành nhanh
hơn, có thể sử dụng được với mọi tập dữ liệu chuỗi thời gian khác nhau để phục
vụ tốt cho công tác dự báo
DANH MỤC TÀI LIỆU THAM KHẢO
[1] Ong Nguyên Chương (2007), “Mô hình Arima với phương pháp Box -
Jenkins và ứng dụng để dự báo lạm phát của Việt Nam”, Tạp chí Khoa học,
(số 19). Đại học Kinh tế, Đại học Đà Nẵng
[2] Nguyễn Thị Thúy Hoài (2008), “Thuật giải di truyền và ứng dụng”, Tuyển
tập Báo cáo Hội nghị Sinh viên NCKH lần thứ 6, Đại học Đà Nẵng.
[3] Trương Quang Đăng Khoa, Phan Thị Thanh Bình, Nguyễn Minh Hiếu
(2007), “Tái cấu trúc lưới phân phối 3 pha để giảm tổn thất điện năng bằng
các giải thuật meta – heuristic” , Tạp chí phát triển khoa học và công nghệ,
tập 10 (số 02), Trường Đại học Bách Khoa, ĐHQG – HCM
[4] Phạm Văn Ký, Nguyễn Hữu Thiện, Phương pháp thuật giải di truyền và
tìm mặt cắt dọc tối ưu đường sắt đô thị, Trường Đại học Giao thông Vận tải
64
[5] Nguyễn Hồ Quỳnh (2004), Chuỗi thời gian: Phân tích và Nhận dạng, Nhà
xuất bản Khoa học và Kỹ thuật, Hà nội. Nguyễn Quán Thăng, Nguyễn
Tuấn Anh, Nguyễn Thế Minh, “So sánh một số phương pháp tìm kiếm tối
ưu ứng dụng trong kỹ thuật”
[6] Nguyễn Đình Thúc (2002), Lập trình tiến hóa, NXB Giáo dục, Hà nội.
[7] Bùi Quang Trung, Nguyễn Quang Minh Nhi, Lê Văn Hiếu, (2010), “Ứng
dụng mô hình ARIMA để dự báo VNINDEX”, Tuyển tập Báo cáo Hội nghị
Sinh viên Nghiên cứu Khoa học lần thứ 7, ĐH Đà Nẵng
[8] Nguyễn Ngọc Tú, Trần Văn Lăng (2007), “Giải thuật lai cho bài toán xếp
hàng đa trình tự sinh học”, Tạp chí phát triển khoa học và công nghệ, tập
10 (số 4).
[9] Aydın KIZILKAYA and Ahmet H. KAYRAN, “Estimation of The ARMA
Model Parameters Based on The Equivalent MA Approach”, Senior
Member, IEEE.
[10] P. Cortez, M. Rocha, and J. Neves (Dec 2001), “A Meta-Genetic
Algorithms for Time Series Forecasting”, In Proceedings of Workshop on
Artificial Intelligence Techniques for Financial Time Series Analysis
(AIFTSA-01), 10th Portuguese Conference on Artificial Intelligence
[11] Paulo Cortez, Miguel Rocha, and José Neves, “Genetic and Evolutionary
Algoritms for Time Series Forecasting”, Departamento de Informática
Universidade do Minho Braga - PORTUGAL
[12] Z. Michalewicz (1996). Genetic Algorithms + Data Structures = Evolution
Programs. Springer-Verlag, USA, Thirst edition.
[13] Nguyễn Thành Sơn, Các mô hình quản lý thị trường điện lực và khả năng
áp dụng tại Việt Nam, http://www.lrc.ctu.edu.vn/pdoc/13/Cacmoinhquanly.pdf
65
[14] Phòng nghiên cứu vietstock, 7-2-2011, Dự báo thị trường chứng khoán
bằng phương pháp định lượng, Niên giám Doanh nghiệp Niêm yết
http://vietstock.vn/tabid/57/NewsID/179888/ ChannelID/585 /Default.aspx
[15] R. Hyndman (2001). Time Series Data Library. Available from http://www-
personal.buseco.monash.edu.au/~hyndman/TSFL/
[16] Hoàng Kiếm (2009), Thuật giải di truyền – Genetic Algorithm,
http://www.scribd.com/doc/22824161/Thuat-giai-di-truyen
[17] Trương Thị Thuý Lan-Kiều Tuấn Dũng-Nguyễn Minh Châu, 2011, Sử dụng
thuật toán luyện kim song song giải quyết bài toán Maxsat, Thư viện điện tử
trực tuyến , http://kilobooks.com
[18] http://www.scribd.com/doc/58271683/Giai-Thuat-Di-Truyen
[19] http://viahe.talk4fun.net/cntt/it-bk/2010/11/giai-thuat-di-truyen
[20] http://viahe.talk4fun.net/cntt/it-bk/2010/11/giai-thuat-di-truyen
[21] http://vi.wikipedia.org
PHỤ LỤC
PHỤ LỤC 1: Tình hình sản xuất kinh doanh trên địa bàn tỉnh Bình
Dương
1. Về điện thương phẩm
Bảng1.1 : Tình hình sản xuất kinh doanh điện thương phẩm
Năm
Điện TP
(Triệu
kWh)
Tăng
trưởng
(%)
Tỷ trọng
CN-XD NL-TS KS-NH CQ-QL Khác
2006 2.807 23.71% 80.7% 0.05% 1.6% 16.6% 1.06%2007 3.608 28.54% 82.9% 0.03% 1.6% 14.5% 0.95%
66
2008 4.151 15.04% 82.7% 0.02% 1.8% 14.5% 0.96%2009 4.619 11.27% 82.6% 0.02% 2.0% 14.4% 1.10%2010 5.220 13.01% 83.9% 0.02% 1.8% 14.1% 1.08%
2. Tình hình đầu tư xây dựng
Bảng1.2 : Tình hình đầu tư xây dựng lưới điện
NămLưới 220kV Lưới 110kV Lưới trung thế Hạ thế Tổng mức
ĐT (Tr.đ)Km MVA Km MVA Km MVA KmTổng số 14.7 500 70.5 653 457 3 43 1.351.2702006 14.7 250 20 275 111 0.553 2 600.7802007 23 63 106 125.0502008 17 63 104 112.4502009 8.47 126 71 1.6 14 137.940Ước 2010 250 2 126 65 1.1 27 375.050
PHỤ LỤC 2: Các chuỗi dữ liệu thực nghiệm mẫu lấy từ Time Series
data Library
67
PHỤ LỤC 3: Một số bảng cấu trúc dữ liệu Điện
Bảng 3.1: Thống kê mô tả các nhóm ngành nghề trong Thị xã
68
Bảng 3.2: Thống kê số kw điện tiêu thụ ở Thị xã Thủ Dầu Một
Bảng 3.3: Thống kê số kw điện tiêu thụ thuộc các nhóm ngành nghề trong Thị
xã
69
70