77
MỤC LỤC MỤC LỤC.................................................................................................................................. i DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT.............................................................. iii DANH MỤC CÁC BẢNG........................................................................................................ v DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ.............................................................................vi MỞ ĐẦU................................................................................................................................... 1 Chương 1: TỔNG QUAN..........................................................................................................5 1.1. TỔNG QUAN VỀ NĂNG LƯỢNG ĐIỆN......................................................................5 1.1.1. Khái niệm về điện năng ......................................................................................... 5 1.1.2. Thực trạng thị trường điện lực Việt Nam............................................................... 5 1.1.3. Phương hướng xây dựng mô hình thị trường điện lực tại Việt Nam......................6 1.1.4. Tình hình sản xuất kinh doanh trên địa bàn tỉnh Bình Dương............................... 7 1.2. KHẢO SÁT CÁC CÔNG TRÌNH, BÀI BÁO ĐÃ ĐĂNG TẢI LIÊN QUAN ĐẾN ĐỀ TÀI............................................................................................................................. 7 1.2.1.Các thuật toán di truyền và tiến hóa dùng dự báo chuỗi thời gian ......................... 8 1.2.2. Sử dụng thuật giải di truyền đa cấp dự báo chuỗi thời gian ................................ 11 1.2.3. Giải thuật lai cho bài toán sắp hàng đa trình tự sinh học .....................................15 1.3. CÁC MÔ HÌNH THƯỜNG ÁP DỤNG TRONG DỰ BÁO, ĐÁNH GIÁ.................... 17 1.3.1. Khái niệm về dự báo, đánh giá............................................................................. 17 1.3.2. Các mô hình dự báo.............................................................................................. 17 1.3.3. Mô hình dự báo dựa trên chuỗi thời gian............................................................. 18 1.4. KẾT LUẬN CHƯƠNG.................................................................................................. 19 Chương 2: CƠ SỞ LÝ THUYẾT............................................................................................ 20 2.1. GIẢI THUẬT LUYỆN KIM (SA:SIMULATED ANNEALING) ............................... 20 2.1.1. Giới thiệu chung về giải thuật luyện kim............................................................. 20 2.1.2. Hàm nhiệt độ và quá trình hoạt động................................................................... 24 2.1.3. Hàm chi phí và hàm mục tiêu............................................................................... 27 2.1.4. Cấu trúc của lời giải lân cận................................................................................. 27 2.1.5. Các bước của bài toán SA và điều kiện dừng....................................................... 28 2.1.6. Ưu điểm và khuyết điểm...................................................................................... 29 2.2. GIẢI THUẬT DI TRUYỀN (GA: GENETIC ALGORITHMS) ................................. 29 2.2.1. Giới thiệu chung về giải thuật di truyền............................................................... 29 2.2.2. Thực hiện giải thuật di truyền...............................................................................33 i

MỤC LỤCi MỞ ĐẦU

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: MỤC LỤCi MỞ ĐẦU

MỤC LỤC

MỤC LỤC..................................................................................................................................i

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT..............................................................iii

DANH MỤC CÁC BẢNG........................................................................................................v

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ.............................................................................vi

MỞ ĐẦU...................................................................................................................................1

Chương 1: TỔNG QUAN..........................................................................................................5

1.1. TỔNG QUAN VỀ NĂNG LƯỢNG ĐIỆN......................................................................5

1.1.1. Khái niệm về điện năng .........................................................................................5

1.1.2. Thực trạng thị trường điện lực Việt Nam...............................................................5

1.1.3. Phương hướng xây dựng mô hình thị trường điện lực tại Việt Nam......................6

1.1.4. Tình hình sản xuất kinh doanh trên địa bàn tỉnh Bình Dương...............................7

1.2. KHẢO SÁT CÁC CÔNG TRÌNH, BÀI BÁO ĐÃ ĐĂNG TẢI LIÊN QUAN ĐẾN ĐỀ TÀI.............................................................................................................................7

1.2.1.Các thuật toán di truyền và tiến hóa dùng dự báo chuỗi thời gian .........................8

1.2.2. Sử dụng thuật giải di truyền đa cấp dự báo chuỗi thời gian ................................11

1.2.3. Giải thuật lai cho bài toán sắp hàng đa trình tự sinh học .....................................15

1.3. CÁC MÔ HÌNH THƯỜNG ÁP DỤNG TRONG DỰ BÁO, ĐÁNH GIÁ....................17

1.3.1. Khái niệm về dự báo, đánh giá.............................................................................17

1.3.2. Các mô hình dự báo..............................................................................................17

1.3.3. Mô hình dự báo dựa trên chuỗi thời gian.............................................................18

1.4. KẾT LUẬN CHƯƠNG..................................................................................................19

Chương 2: CƠ SỞ LÝ THUYẾT............................................................................................20

2.1. GIẢI THUẬT LUYỆN KIM (SA:SIMULATED ANNEALING) ...............................20

2.1.1. Giới thiệu chung về giải thuật luyện kim.............................................................20

2.1.2. Hàm nhiệt độ và quá trình hoạt động...................................................................24

2.1.3. Hàm chi phí và hàm mục tiêu...............................................................................27

2.1.4. Cấu trúc của lời giải lân cận.................................................................................27

2.1.5. Các bước của bài toán SA và điều kiện dừng.......................................................28

2.1.6. Ưu điểm và khuyết điểm......................................................................................29

2.2. GIẢI THUẬT DI TRUYỀN (GA: GENETIC ALGORITHMS) .................................29

2.2.1. Giới thiệu chung về giải thuật di truyền...............................................................29

2.2.2. Thực hiện giải thuật di truyền...............................................................................33

i

Page 2: MỤC LỤCi MỞ ĐẦU

2.2.3. Chương trình tổng quát.........................................................................................38

2.3. CHUỖI THỜI GIAN VÀ MÔ HÌNH TỰ HỒI QUY....................................................40

2.3.1. Thế nào là chuỗi thời gian ...................................................................................40

2.3.2. Dự báo chuỗi thời gian ........................................................................................41

2.3.3. Mô hình tự hồi quy ..............................................................................................42

2.3.4. Mô hình trung bình trượt......................................................................................43

2.3.5. Quá trình tự hồi quy trung bình trượt cấp p,q: ARMA(p,q).................................43

2.4. KẾT LUẬN CHƯƠNG..................................................................................................44

Chương 3: XÂY DỰNG VÀ THỰC NGHIỆM MÔ HÌNH DỰ BÁO...................................45

3.1. PHÂN TÍCH CHỈ TIÊU ĐÁNH GIÁ HIỆU QUẢ CỦA MÔ HÌNH............................45

3.2. CẤU TRÚC BẢNG DỮ LIỆU ......................................................................................46

3.3. MÔ HÌNH ARMA .........................................................................................................46

3.3.1. Mục đích của việc kết hợp hai mô hình................................................................46

3.3.2. Mô tả giải thuật.....................................................................................................47

3.4. KẾT LUẬN CHƯƠNG..................................................................................................50

Chương 4: KẾT QUẢ THỰC NGHIỆM.................................................................................51

4.1. THỬ NGHIỆM MÔ HÌNH ARMA TRÊN CÁC CHUỖI DỮ LIỆU MẪU LẤY TỪ TIME SERIES DATA LIBRARY................................................................................51

4.1.1. Các chỉ tiêu đạt được trên mô hình ARMA.........................................................51

4.1.2. Thực nghiệm mô hình ARMA trên chuỗi dữ liệu mẫu lấy từ TS Library...........52

4.1.3. Nhận định kết quả.................................................................................................57

4.2. THỰC NGHIỆM MÔ HÌNH ARMA CHO CÁC CHUỖI DỮ LIỆU TRONG LĨNH VỰC NGÀNH ĐIỆN:.........................................................................................58

4.2.1. Dự báo nhu cầu sử dụng điện theo từng khu vực huyện, thị trong tỉnh:..............58

4.2.2. Dự báo nhu cầu sử dụng điện theo từng nhóm ngành nghề trong tỉnh:................59

KẾT LUẬN.............................................................................................................................63

KIẾN NGHỊ CÁC HƯỚNG NGHIÊN CỨU TIẾP THEO.....................................................63

DANH MỤC TÀI LIỆU THAM KHẢO................................................................................64

PHỤ LỤC ...............................................................................................................................66

ii

Page 3: MỤC LỤCi MỞ ĐẦU

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Viết tắt Tiếng Anh Tiếng Việt

ARMA AutoRegressive Moving Average Trung bình trượt tự hồi quy

ARIMA AutoRegressive Intergrated

Moving Average

Trung bình trượt tích hợp tự hồi qui

ES Exponential Smoothing San bằng số mũ

GA Genetic Algorithm Giải thuật di truyền

SA Simulated Annealing Giải thuật luyện kim

NN Neural Network Mạng nơ-ron

FL Fuzzy Logic Logic mờ

EVN The Electricity of Vietnam Tổng Công ty Điện lực Việt Nam

TS Time series Chuỗi thời gian

GEAs Genetic and Evolutionary

Algorithms

Thuật toán di truyền và tiến hóa

SSE Sum Squared Error Sai số tổng bình phương

RMSE Root Mean Squared Error Sai số căn của trung bình bình phương

NMSE Normalized Mean Square Error .Sai số trung bình bình phương chuẩn

TSF Time series forecasting Dự báo chuỗi thời gian

RVR Real-Valued Representation Biểu diễn giá trị thực

BIC Bayesian Information Criterion

STW Sliding Time Window Cửa sổ thời gian trượt

STWs Sliding Time Window Các cửa sổ thời gian trượt

Meta-GAs Meta-Genetic Algorithm Thuật giải di truyền đa cấp

SA-GA Simulated Annealing - Genetic

Algorithm

Thuật giải luyện kim kết hợp thuật

giải di truyền

AR AutoRegressive Tự hồi quy

iii

Page 4: MỤC LỤCi MỞ ĐẦU

MA Moving Average Trung bình trượt

ARCH AutoRegressive Conditional

Heteroskedasticity

Phương sai sai số thay đổi có điều

kiện tự hồi quy

GARCH Generalized - AutoRegressive

Conditional Heteroskedasticity

Phương sai sai số thay đổi có điều

kiện tự hồi quy mở rộng

TBA Trạm biến áp

CN-XD Công nghiệp - Xây dựng

NL-TS Nông lâm - Thuỷ sản

KS-NH Khách sạn - Nhà hàng

CQ-QL Cơ quan - Quản lý

Điện TP Điện Thương phẩmĐT (Tr.đ) Đầu tư (Triệu đồng)

DANH MỤC CÁC BẢNG

Bảng 1.1: Time Series Data Library...........................................................................9

Bảng 1.2: So sánh giữa các phương pháp TSF khác nhau........................................11

Bảng 1.3: Đặt giá trị tham số thuật toán Meta-GAs.................................................14

Bảng 1.4: Mô hình ARMA tối ưu thu được bởi thuật toán Meta-GAs...................14

iv

Page 5: MỤC LỤCi MỞ ĐẦU

Bảng 1.5: So sánh phương pháp Meta-GAs với các phương pháp truyền thống.....14

Bảng 2.1: So sánh tương quan giữa luyện kim vật lý và giải thuật luyện kim..........21

Bảng 2.2: So sánh giải thuật di truyền với các phương pháp truyền thống...............32

Bảng 2.3. Chọn lọc dùng bánh xe............................................................................34

Bảng 2.4. Sự tương ứng các số ngẫu nhiên và chuỗi nhiễm sắc thể.........................35

Bảng 4.1: So sánh phương pháp SA-GA với các phương pháp truyền thống..........51

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

Hình 1.1: Ví dụ về giải mã thuật toán Meta-GAs.....................................................12

Hình 1.2: The Meta-Ecolutionary Approach............................................................13

Hình 1.3: Biểu đồ mô tả mức độ ổn định của nghiệm được chọn............................16

Hình 2.1: Sơ đồ không gian lời giải.........................................................................21

v

Page 6: MỤC LỤCi MỞ ĐẦU

Hình 2.2: Lưu đồ biểu diễn giải thuật luyện kim.....................................................24

Hình 2.3: Biểu diễn quá trình hoạt động của hàm nhiệt độ......................................25

Hình 2.4: Biểu diễn quan hệ giữa hàm chi phí và hàm mục tiêu..............................27

Hình 2.5: Sơ đồ tổng quát của giải thuật di truyền...................................................31

Hình 2.6: Bánh xe Roulette......................................................................................35

Hình 2.7: Lai ghép...................................................................................................36

Hình 2.8: Lai ghép biểu diễn theo cây......................................................................37

Hình 2.9: Giải thuật di truyền...................................................................................40

Hình 2.10: Phân tích chuỗi số liệu trong dự báo......................................................42

Hình 2.11: Phương pháp luận dự báo chuỗi thời gian..............................................42

Hình 3.1: Cấu trúc lời giải của phương pháp SA-GA..............................................46

Hình 3.2: Giải thuật SA-GA cho mô hình ARMA..................................................48

Hình 4.1. Giao diện chính........................................................................................52

Hình 4.2: Đồ thị biểu diễn chuỗi Passengers............................................................53

Hình 4.3: Đồ thị biểu diễn chuỗi Paper....................................................................54

Hình 4.4: Đồ thị biểu diễn chuỗi Deaths..................................................................54

Hình 4.5: Đồ thị biểu diễn chuỗi Maxtemp..............................................................55

Hình 4.6: Đồ thị biểu diễn chuỗi Chemical..............................................................55

Hình 4.7: Đồ thị biểu diễn chuỗi Prices....................................................................56

Hình 4.8: Đồ thị biểu diễn chuỗi Sunspots...............................................................57

Hình 4.9: Đồ thị biểu diễn chuỗi Kobe.....................................................................57

Hình 4.10: Đồ thị biểu diễn chuỗi TDM.................................................................59

Hình 4.11: Đồ thị biểu diễn chuỗi NLT....................................................................59

vi

Page 7: MỤC LỤCi MỞ ĐẦU

Hình 4.12: Đồ thị biểu diễn chuỗi CN-XD...............................................................60

Hình 4.13: Đồ thị biểu diễn chuỗi KD-DV..............................................................61

Hình 4.14: Đồ thị biểu diễn chuỗi AS......................................................................61

Hình 4.15: Đồ thị biểu diễn chuỗi KHAC................................................................62

vii

Page 8: MỤC LỤCi MỞ ĐẦU

MỞ ĐẦU

1. Đặt vấn đề

Những năm gần đây tình hình phát triển kinh tế xã hội gia tăng, nhu cầu sử dụng

nguồn năng lượng điện cũng tăng nhất là trong sản xuất và đời sống. Việc thiếu điện

sinh hoạt và sản xuất do nhiều nguyên nhân như sử dụng không tiết kiệm, thiếu

nguồn nước để vận hành nhà máy điện, không có kế hoạch cho việc cân đối giữa

cung và cầu… Do đó, dự báo nhu cầu tiêu thụ điện là bài toán hết sức cần thiết

trong quá trình vận hành, quy hoạch, phát triển, điều khiển tối ưu chế độ mạng điện

… Hầu hết các bài toán dự báo phụ tải đều dựa trên cơ sở các mô hình toán học

hoặc các mô hình thực nghiệm nhằm tìm ra các quy luật biến đổi của phụ tải điện

trong chu kỳ xét, đưa ra những kế hoạch sản xuất và tiêu thụ điện hợp lý tránh tình

trạng thiếu điện trong sản xuất và đời sống như hiện nay.

Dự báo là một khoa học và nghệ thuật tiên đoán những sự việc sẽ xảy ra trong

tương lai, trên cơ sở phân tích khoa học về các dữ liệu đã thu thập được và có thể

nói rằng không có những dự báo khoa học thì những dự định tương lai mà con

người vạch ra sẽ không có sự thuyết phục đáng kể. Khi tiến hành dự báo căn cứ vào

việc thu thập xử lý số liệu trong quá khứ và hiện tại để xác định xu hướng vận động

của các hiện tượng trong tương lai nhờ vào một số mô hình toán học.

Các phần mềm máy tính giúp xây dựng các mô hình mô tả các dữ liệu theo một

quy luật nhất định dựa trên việc xử lý các dữ liệu đầu vào. Nhờ vào các công nghệ

của khoa học máy tính mà các nhà nghiên cứu có thể phát triển các mô hình phức

tạp áp dụng vào thực tế phục vụ cho việc hỗ trợ ra quyết định trong việc quản lý,

định hướng phát triển và sử dụng năng lượng điện. Đề tài “Xây dựng phần mềm ứng

dụng vào dự báo nhu cầu sử dụng điện trên địa bàn Thị xã Thủ Dầu Một” sẽ góp

phần nhỏ tham khảo cho việc định hướng phát triển ngành điện những năm tới.

1

Page 9: MỤC LỤCi MỞ ĐẦU

2. Mục tiêu của đề tài

- Khảo sát xây dựng cơ sở dữ liệu về tình hình sử dụng năng lượng điện, thống

kê, xử lý dữ liệu số kw điện hàng tháng trong những năm trước để làm dữ liệu đầu

vào cung cấp thông tin hỗ trợ ra quyết định trong việc quản lý, định hướng phát

triển và sử dụng năng lượng điện

- Nghiên cứu, phân tích chuỗi dữ liệu thời gian để xác định bản chất của chuỗi

dữ liệu, dự báo các giá trị tương lai dựa trên các cơ chế phát sinh chuỗi

- Xây dựng phần mềm trên cơ sở kết hợp giải thuật luyện kim SA (Simulated

Annealing) và giải thuật di truyền GA (Genetic Algorithms) để dự báo chuỗi dữ liệu

thời gian

- Thực nghiệm các số liệu thực tế đầu vào thống kê được trên phần mềm để đưa

ra kết quả dự báo nhu cầu sử dụng điện

- Phục vụ công tác giảng dạy và nghiên cứu khoa học trong khoa Công nghệ

Thông tin

3. Tình hình nghiên cứu có liên quan đến lĩnh vực nghiên cứu của đề tài

3.1 Các thuật toán di truyền và tiến hóa dùng dự báo chuỗi thời gian (Genetic

and Evolutionary Algorithms Time Series Forecasting) của Paulo Cortez, Miguel

Rocha, and Jose1 Neves [12]

3.2 Sử dụng thuật giải di truyền đa cấp dự báo chuỗi thời gian (A Meta-Genetic

Algorithms for Time Series Forecasting) của P.Cortez, M. Rocha, J.Neves [11]

3.3 Giải thuật lai cho bài toán sắp hàng đa trình tự sinh học [8]

Trong nước, có một số nghiên cứu liên quan đến lĩnh vực về dự báo nhưng theo

những hướng khác nhau, chưa có nghiên cứu nào theo hướng đã trình bày của đề tài

về dự báo tình hình sử dụng điện tại Thị xã Thủ Dầu Một

4. Cách tiếp cận

- Phân tích chuỗi dữ liệu thời gian nhằm hai mục đích:

2

Page 10: MỤC LỤCi MỞ ĐẦU

+ Xác định bản chất của chuỗi dữ liệu

+ Dự báo các giá trị tương lai dựa trên các cơ chế phát sinh chuỗi

- Thu thập số liệu về kw điện sử dụng trên địa bàn Thị xã Dầu Một

5. Phương pháp nghiên cứu:

5.1. Phương pháp nghiên cứu lý thuyết:

- Nghiên cứu giải thuật di truyền SA (Simulated Annealing)

- Nghiên cứu giải thuật luyện kim GA (Genetic Algorithms)

- Nghiên cứu mô hình ARMA (AutoRegressive Moving Average model)

phân tích và dự báo chuỗi dữ liệu thời gian.

5.2. Phương pháp thu thập dữ liệu:

- Thu thập số liệu về kw điện sử dụng trên địa bàn Thị xã

- Phân loại các đơn vị sử dụng điện theo thuộc tính ngành nghề

5.3. Phương pháp thực nghiệm:

- Thực nghiệm số liệu thống kê được trên phần mềm để có kết quả dự báo

tình hình sử dụng điện

6. Đối tượng và phạm vi nghiên cứu

6.1. Đối tượng nghiên cứu: Nghiên cứu các thuật toán tối ưu ứng dụng xây

dựng phần mềm dự báo

6.2. Phạm vi nghiên cứu: Đề tài xây dựng phần mềm dựa trên nghiên cứu các

giải thuật tối ưu và kết hợp các giải thuật ứng dụng vào mô hình ARMA để dự báo

mức tiêu thụ điện, từ kết quả dự báo tiến hành đánh giá tình hình sử dụng điện trên

địa bàn tỉnh Bình Dương. Do các ảnh hưởng phụ đến tình hình sử dụng điện như

tình hình kinh tế, chính trị, xã hội trong nước, tình hình phát triển mới các khu công

nghiệp, trường học, tăng dân số cơ học… rất khó xác định cả về định tính lẫn định

lượng và không dễ thu thập dữ liệu một cách đầy đủ trong thời gian ngắn, nên đề tài

3

Page 11: MỤC LỤCi MỞ ĐẦU

chỉ tập trung trong phạm vi nghiên cứu chuỗi thời gian dự báo chỉ số sử dụng năng

lượng điện trên cơ sở chuỗi dữ liệu của những năm trước dự báo năm tiếp theo.

7. Nội dung nghiên cứu

- Nghiên cứu các công trình có liên quan

- Nghiên cứu các giải thuật di truyền và giải thuật luyện kim, mô hình

ARMA

- Thu thập dữ liệu, phân loại sử dụng điện theo thuộc tính ngành nghề.

- Xây dựng phần mềm, cài đặt thử nghiệm và đưa ra kết quả dự báo nhu cầu

sử dụng điện trên địa bàn Thị xã Thủ Dầu Một

MỞ ĐẦU

Chương 1: TỔNG QUAN

Chương 2: CƠ SỞ LÝ THUYẾT

Chương 3: XÂY DỰNG PHẦN MỀM DỰ BÁO

Chương 4: KẾT QUẢ THỰC NGHIỆM

KẾT LUẬN

KIẾN NGHỊ CÁC HƯỚNG NGHIÊN CỨU TIẾP THEO

TÀI LIỆU THAM KHẢO

PHỤ LỤC

4

Page 12: MỤC LỤCi MỞ ĐẦU

Chương 1

TỔNG QUAN

Chương một giới thiệu sơ lược về nguồn năng lượng điện, thực trạng

nguồn cung cấp điện ở Việt Nam nói chung và Bình Dương nói riêng, phương

hướng phát triển ngành điện trong nước. Đồng thời khảo sát, phân tích một số

công trình nghiên cứu có liên quan để làm nền tảng nghiên cứu của đề tài.

1.1. TỔNG QUAN VỀ NĂNG LƯỢNG ĐIỆN

1.1.1. Khái niệm về điện năng [20]

Điện là một dạng năng lượng, là dòng chuyển dời có hướng của các electron.

Tất cả vật chất đều được cấu tạo bởi các nguyên tử, trong nguyên tử khi sự cân bằng

lực giữa proton và electron bị phá vỡ bởi tác dụng của ngoại lực, các electron thoát

ra khỏi nguyên tử, sự chuyển dịch tự do của các electron cấu tạo nên dòng điện.

Điện năng là dạng năng lượng thứ cấp, điện được tạo ra bằng cách chuyển hóa

từ các nguồn năng lượng sơ cấp như dầu mỏ, nguồn nước, năng lượng nguyên tử và

từ các nguồn năng lượng sơ cấp khác. Vào những năm giữa thế kỉ XIX, Thomas

Edison đã làm thay đổi cuộc sống mọi người bằng phát minh ra bóng đèn điện. Phát

minh của Edison đã sử dụng điện năng để mang ánh sáng vào từng gia đình.

Điện năng là một loại hàng hoá đặc biệt. Quá trình kinh doanh điện năng bao

gồm 3 khâu liên hoàn: Sản xuất - Truyền tải - Phân phối điện năng xảy ra đồng thời,

không qua một khâu thương mại trung gian nào. Điện năng được sản xuất ra khi đủ

khả năng tiêu thụ vì đặc điểm của hệ thống điện là ở bất kỳ thời điểm nào cũng có

sự cân bằng giữa công suất phát ra và công suất tiêu thụ (không để tồn đọng).

1.1.2. Thực trạng thị trường điện lực Việt Nam [13]

1.1.2.1. Sản xuất và phân phối điện năng

- Về nguồn điện: Hiện tại, tổng công suất lắp đặt khả dụng 8.454 MW tập

trung chủ yếu vào các nhà máy thuộc Tập đoàn Điện lực Việt Nam (EVN: The

Electricity of VietNam)

5

Page 13: MỤC LỤCi MỞ ĐẦU

- Về lưới điện: EVN đã tập trung nhiều vào việc cải tạo nâng cấp hệ thống

lưới điện truyền tải. Hiện tại lưới điện truyền tải cao áp toàn quốc bao gồm

(1531 km đường dây, 2700 Trạm biến áp (TBA) 500KV; 3839 km đường dây,

8474 TBA 220KV; 7703 km đường dây, 11004 TBA 110KV) do 4 Công ty

Truyền tải điện quản lý vận hành.

1.1.2.2. Phương thức tổ chức kinh doanh điện năng

Mô hình quản lý sản xuất kinh doanh của EVN vẫn đang thực hiện theo mô

hình Nhà nước độc quyền quản lý các khâu của quá trình: Sản xuất- Truyền tải

- Phân phối điện năng. Mô hình này dẫn đến nhiều hạn chế về quản lý cũng

như hiệu quả đầu tư, không thúc đẩy phát triển sản xuất kinh doanh điện năng.

1.1.3. Phương hướng xây dựng mô hình thị trường điện lực tại Việt Nam[13]

1.1.3.1. Định hướng phát triển hoạt động sản xuất kinh doanh điện năng

- Về nguồn điện: Tập trung xây dựng các nhà máy thuỷ điện tại hầu hết những

nơi có khả năng xây dựng.

- Về lưới điện: Sẽ phát triển nhanh hệ thống truyền tải 220kV, 500 kV nhằm

nâng cao độ tin cậy và giảm tổn thất điện năng trên lưới truyền tải; phát triển

lưới điện 110kV thành lưới điện cung cấp trực tiếp cho phụ tải.

- Về cơ cấu bộ máy tổ chức của EVN: Thực hiện đề án của Chính phủ về

việc thí điểm thành lập tập đoàn điện lực, EVN tiếp tục đẩy nhanh quá trình cổ

phần hoá các đơn vị trực thuộc trong đó có các nhà máy điện, công ty phân

phối điện năng phục vụ cho việc phát triển thị trường điện.

1.1.3.2. Mô hình thị trường điện lực Việt Nam

- Đối với EVN: Cần chủ động điều tiết nguồn phát đảm bảo cân bằng hệ thống

- Đối với các nhà máy điện: Từng bước thực hiện cổ phần hoá các nhà máy

điện, chuyển các nhà máy điện thuộc EVN thành các nhà máy điện độc lập.

6

Page 14: MỤC LỤCi MỞ ĐẦU

- Đối với các công ty truyền tải: Với bản chất là độc quyền tự nhiên, do vậy

Nhà nước vẫn nắm giữ thực hiện các hoạt động truyền tải điện từ người mua duy

nhất (EVN) đến các công ty điện lực.

- Đối với các công ty phân phối điện năng: Thực hiện chuyển đổi trở thành

đơn vị độc lập với EVN dưới hình thức Công ty mẹ - Công ty con.

- Do cần đảm bảo tính phù hợp của một số hoạt động độc quyền trong mô

hình như: EVN độc quyền mua điện từ các nhà máy điện độc lập, độc quyền

bán điện cho các công ty phân phối điện năng, các công ty phân phối độc quyền

bán điện cho khách hàng, do vậy cần thiết phải có một cơ quan đứng ra kiểm

soát hoạt động này với tư cách hoàn toàn độc lập.

- Đối với khách hàng: Tiếp tục chịu mua điện từ một công ty phân phối điện

duy nhất. Tuy nhiên đối với các khách hàng cần phụ tải lớn có thể mua điện trực

tiếp từ các nhà máy điện hoặc thông qua lưới truyền tải của EVN.

1.1.4. Tình hình sản xuất kinh doanh trên địa bàn tỉnh Bình Dương (Phụ lục1)

1.2. KHẢO SÁT CÁC CÔNG TRÌNH, BÀI BÁO ĐÃ ĐĂNG TẢI LIÊN

QUAN ĐẾN ĐỀ TÀI

Trong lĩnh vực dự báo thực trạng nhu cầu sử dụng điện dùng các phương pháp

tối ưu để xử lý số liệu thống kê, nhiều mô hình có thể sử dụng trong đó mô hình

trung bình trượt tự hồi quy ARMA luôn thể hiện là một trong những phương pháp

phân tích hiệu quả nhất và thu hút được nhiều công trình nghiên cứu trong lĩnh vực

phân tích và dự báo chuỗi thời gian để đánh giá. Có nhiều nghiên cứu liên quan đến

chuỗi thời gian, đáng chú ý là một số phương pháp sau:

- Dùng các thuật toán di truyền và tiến hóa để dự báo chuỗi thời gian.

- Sử dụng thuật giải di truyền đa cấp dự báo chuỗi thời gian.

- Giải thuật lai cho bài toán sắp hàng đa trình tự sinh học.

- Dự báo chuỗi dữ liệu kinh tế vĩ mô dùng thuật giải di truyền tuyến tính.

- Dự báo chuỗi dữ liệu thời gian bởi thuật giải di truyền kết hợp với các hàm

thống kê và các hàm lượng giác.

7

Page 15: MỤC LỤCi MỞ ĐẦU

Phân tích một số công trình liên quan đến lĩnh vực đề tài đang nghiên cứu, để

có cơ sở khoa học đáng tin cậy cho việc nghiên cứu, đề tài chọn ba công trình có

liên quan mật thiết nhất để phân tích và làm cơ sở nghiên cứu như sau:

1.2.1. Các thuật toán di truyền và tiến hóa dùng dự báo chuỗi thời gian

(Genetic and Evolutionary Algorithms Time Series Forecasting) của Paulo

Cortez, Miguel Rocha, and Jose1 Neves [12]

Bài báo phân tích những khái niệm cơ bản về chuỗi thời gian (TS: time

series), thuật toán di truyền và tiến hóa (GEAs: Genetic and Evolutionary

Algorithms) sau đó mô tả các mô hình khác nhau và đưa ra các kết quả thực

nghiệm. Cuối cùng, kết quả được trình bày và so sánh với các phương pháp dự báo

chuỗi thời gian truyền thống.

Một chuỗi dữ liệu thời gian là tập hợp các quan sát theo thứ tự thời gian và

được ghi lại tại một khoảng thời gian cụ thể. Một mô hình chuỗi thời gian xt giả

định rằng mô hình quá khứ sẽ tái diễn trong tương lai gần. Trong đó có sự khác biệt

giữa giá trị thực tế và giá trị dự báo gọi là sai số dự báo thể hiện bằng công thức:

Hiệu suất tổng thể của mô hình dự báo được đánh giá bởi thước đo chính

xác, cụ thể là Sum Squared Error (SSE), Root Mean Squared Error (RMSE) và

Normalized Mean Square Error (NMSE), các chỉ tiêu trên được tính toán như sau:

(1.2)

(1.4)

(1.3)

Với et là sai số dự báo (1.1)

8

Page 16: MỤC LỤCi MỞ ĐẦU

l là số mẫu dự báo ; là trọng số của chuỗi dữ liệu.

Một phương pháp dự báo chuỗi thời gian (TSF: Time series forecasting) khá

thành công là phương pháp san bằng số mũ ES, dựa trên một số mẫu cơ bản phân

biệt với giá trị ngẫu nhiên bởi trung bình các giá trị trước đó. Những lợi thế của mô

hình này như sử dụng đơn giản, giảm tính toán, tính chính xác cao của dự báo, đặc

biệt với chuỗi thời gian theo mùa.

Mô hình trung bình trượt tích hợp tự hồi quy ARIMA là một phương pháp

quan trọng để dự báo chuỗi thời gian. Ưu điểm chính của phương pháp này là dựa

vào sự chính xác trên một miền rộng lớn của những chuỗi thời gian, nhưng phức tạp

hơn về khả năng sử dụng và hiệu quả tính toán so với ES. Mô hình dựa trên sự kết

hợp tuyến tính của giá trị trong quá khứ. Mô hình có thể mặc nhiên công nhận như

một mô hình trung bình trượt tự hồi quy ARMA(P, Q), được đưa ra với hình thức:

Trong đó P biểu thị bậc của AR và Q biểu thị bậc của MA, Ai và Mj là các hệ số

của AR và MA, một giá trị không đổi. Cả hai liên tục và các hệ số của mô hình

được ước tính bằng cách sử dụng phương pháp tiếp cận thống kê.

Bài báo này dùng bảng dữ liệu từ Time Series Data Library[16] ở bảng 1.1:

Bảng 1.1: Time Series Data Library [16]

Series Type Domain DescriptionPassengersPaper

Seasonal &Trended

TourismSales

Monthly international airline passengersMonthly sales of French paper

Deathsmaxtemp

SeasonalTrafficMeteorology

Monthly deaths & injuries in UK roadsMaximum temperature in Melbourne

ChemicalPrices

TrendedChemicalEconomy

Chemical concentration readingsDaily IBM common stock closing prices

Lynxkobe

NonlinearEcologyGeology

Annual number of lynxSeismogragh of the Kobe earthquake

(1.5)

9

Page 17: MỤC LỤCi MỞ ĐẦU

Các thí nghiệm được trình bày trong bài báo này, một bộ tám các chuỗi thời

gian được lựa chọn (Bảng 1.1) từ Time Series Data Library lấy từ nhiều nguồn khác

nhau, có liên quan với các vấn đề thực tế. Tất cả chuỗi thời gian được phân thành

bốn loại chính gồm tất cả các chuỗi thời gian: theo mùa và xu hướng (Seasonal and

Trended), theo mùa (Seasonal), theo xu hướng (Trended) và phi tuyến (Nonlinear).

Các GEAs sử dụng một giải thuật nhị phân, một vấn đề nhất định được mã hóa

thành một tập ký tự {0,1}. Tuy nhiên, một số tác giả đã cho rằng còn có những vấn

đề mà các tham số được đưa ra bởi giá trị thực, chiến lược tối ưu là sử dụng một

biểu diễn giá trị thực (RVR: Real-Valued Representation.)

Trong bài báo này, hai cách tiếp cận để dự báo, cả hai đều dựa trên GEAs với

RVR. Trong các mô hình dự báo là sự kết hợp tuyến tính của các giá trị trước đó.

Hai mô hình được quan tâm trong bài báo này đưa ra là:

G1- Tuyến tính kết hợp dựa trên GEAs là:

gi là viết tắt gen thứ i của nhiễm sắc thể của các phần tử; n là kích thước phần tử.

G2- ARMA dựa trên GEAs là:

Một giải pháp thay thế là sử dụng chỉ tiêu Bayesian Information Criterion (BIC).

Với N là số mẫu huấn luyện và p là số lượng tham số mô hình, chỉ tiêu này

giúp chọn mô hình dự báo tối ưu.

(1.6)

(1.7)

(1.8)

10

Page 18: MỤC LỤCi MỞ ĐẦU

Bảng so sánh mô hình tiến hóa và mô hình thông thường đưa ra trong

(Bảng1.2). Các giá trị sai số thử nghiệm dựa trên hai tiêu chuẩn là RMSE và

NMSE.

Bảng 1.2 : So sánh giữa các phương pháp TSF khác nhau [12]

Series ES ARIMA GEAPassengersPaperDeathsMaxtempChemicalPricesLynxKobe

16.7 (0.71%)41.0 (3.1%)145 (43%)0.917 (4.1%)0.354 (51%)7.50 (0.39%)876 (57%)3199 (105%)

17.8 (0.81%)61.0 (6.8%)144 (42%)1.068 (5.6%)0.361 (53%)7.72 (0.41%)504 (19%)582 (4%)

20.9 (1.12%)56,3 (5.8%)134 (37%)0.915 (4.1%)0.343 (48%)7.48 (0.38%)262 (5%)524 (3%)

Các kết quả của phương pháp tiến hóa rất tốt, với 6 trong 8 dòng dữ liệu

chuỗi thời gian được dự báo tốt. Trong điều kiện các loại hình khác nhau của

các chuỗi thời gian, phương pháp được đề xuất có kết quả không tốt trong 2 dòng

dữ liệu dạng theo mùa và xu hướng (Passengers, Paper), nơi mà ES chiếm ưu

thế. Trong tất cả các loại khác kết quả rất tốt, đặc biệt trong các chuỗi phi tuyến

tính (Lynx, Kobe).

Các kết quả của việc áp dụng các GEAs trong lĩnh vực TSF là đáng khích lệ.

Trong tương lai, việc lựa chọn mô hình được tự động hóa cụ thể là quá trình lựa

chọn các cửa sổ thời gian trượt (STWs: Sliding Time Window) tối ưu. Việc mở rộng

những số liệu tìm kiếm khác nhau của STWs trong không gian tìm kiếm là cách tốt

hơn. Vì đây là một nhiệm vụ tối ưu hóa, việc sử dụng GEAs có thể thuận lợi, tạo

một kiến trúc hai cấp. Ngoài ra có thể dựa vào các chương trình làm tốt hơn các mô

hình dự báo, bằng cách tích hợp các chức năng phi tuyến (ví dụ: logarit hay lượng

giác)

11

Page 19: MỤC LỤCi MỞ ĐẦU

1.2.2. Sử dụng thuật giải di truyền đa cấp dự báo chuỗi thời gian (A Meta-

Genetic Algorithms for Time Series Forecasting) của P. Cortez, M. Rocha, and

J. Neves [11]

Bài báo này trình bày một phương pháp dự báo chuỗi thời gian bằng mô hình

tự hồi quy trung bình trượt ARMA sử dụng thuật giải di truyền ở 2 cấp bậc, ở cấp

thuật giải GA nhị phân sẽ tìm kiếm mô hình ARMA dự báo tối ưu và GA thập phân

sẽ giúp tìm ra bộ giá trị tham số tương ứng.

Bài báo này được phát triển từ bài báo (mục 1.2.1). Do đó hàm đánh giá mô

hình cũng tương tự bài báo trên.

Đối với các thí nghiệm được trình bày trong bài báo này, cũng gồm một bộ

tám các chuỗi thời gian nhưng chuỗi dữ liệu Lynx được thay bằng Sunspots. Việc

sử dụng cửa sổ thời gian trượt lớn có thể tăng độ phức tạp hệ thống, giảm bớt hiệu

quả của các mô hình, trong khi cửa sổ thời gian trượt nhỏ có thể chứa thông tin

không đầy đủ

Thuật giải di truyền đa cấp (Meta-Gas: Meta-Genetic Algorithm) được sử

dụng cho việc tối ưu hóa các tham số GA. Trong bài báo này, sử dụng thuật giải di

truyền 2 cấp, bao gồm cấp cao (meta-level) GA sử dụng tìm kiếm mô hình ARMA

dự báo tối ưu và cấp thấp (low-level) GA giúp tìm ra bộ tham số tương ứng.

Đại diện cho mô hình là Meta-GAs nhị phân, mỗi gen đại diện cho một hệ số

nếu giá trị của nó là 1, nếu là 0 thì nó không được xem xét (Hình 1.1)

Mô hình này được tối ưu hóa bằng cách chạy một thuật toán di truyền RVR

A4

M3

M1

A2

0000 1 0 100 1 0 11

QP

Meta-Level

Low-Level

Hình 1.1 : Ví dụ về giải mã thuật toán Meta-GAs [11]

12

Page 20: MỤC LỤCi MỞ ĐẦU

cấp thấp, với mỗi gen mã hóa một hệ số của mô hình ARMA, được cho bởi phương

trình (1.9). Mỗi cá thể, được đánh giá bởi chỉ tiêu RMSE trong tập huấn luyện.

Mặt khác, các hàm mục tiêu của mỗi cá thể trong meta-level thu được bằng

cách giải mã nhiễm sắc thể của nó vào low-level GA chạy và cuối cùng tính toán

giá trị BIC của mô hình tối ưu. Hệ thống tổng thể được mô tả hình (1.2).

Các đề xuất của thuật toán Meta-GA đã được thử nghiệm trên các chuỗi dữ

liệu thời gian từ bảng (1.1).

Chuỗi dữ liệu thời gian được chia 90% giá trị đầu tiên thành tập huấn luyện và

10% giá trị sau là tập thử nghiệm. Chỉ có các tập huấn luyện được sử dụng để lựa

chọn mô hình và tối ưu hóa các thông số. Các tập thử nghiệm được sử dụng để so

sánh các phương pháp tiếp cận được đề xuất.

Meta-GA làm việc như một thủ tục tối ưu hóa thứ hai, do đó thuật toán áp

dụng một quy mô 100 cá thể, với sự tái tổ hợp di truyền cung cấp bởi lai chéo hai

điểm đột biến nhị phân

Hình 1.2 : The Meta-Ecolutionary Approach [11]

(1.9)

13

Page 21: MỤC LỤCi MỞ ĐẦU

Trong cả hai mô hình GA, quy tắc là xếp hạng các giá trị hàm mục tiêu của cá

thể sau đó áp dụng chương trình bánh xe roulette. Trong việc thiết lập GA cấp thấp,

các gen của quần thể ban đầu được phân ngẫu nhiên giá trị trong khoảng [-1,1].

Kích thước dữ liệu được chọn 50 cá thể. Trong mỗi thế hệ, 40% cá thể được giữ

nguyên trạng ban đầu, 60% được tạo ra bởi các ứng dụng của các nhà khai thác di

truyền (Bảng 1.3) cho thấy tóm tắt của các giá trị tham số có liên quan và (Bảng1.4)

là mô hình tối ưu thu được thuật toán Meta-GA

Bảng 1.3: Đặt giá trị tham số thuật toán Meta-Gas [11]

Meta-Level GA Low-Level GAEncodingFitnessPopulation sizeInitializationCrossoverMutationMaximum generation

BinaryBIC100Random {0,1}Two-point (80%)Binary (20%)500

RealRMSE50Random[-1,1]Arithmetic (67%)Gaussian perturbation (33%)1000

Bảng 1.4: Mô hình ARMA tối ưu thu được bởi thuật toán Meta-Gas[11]

Series AR MA P RMSEPassengersPaperDeathsMaxtempChemicalPricesSunspotsKobe

<1, 2><1, 2><1, 11, 12><1, 7, 11, 12><1, 2><1><1, 2, 3, 9, 10><1, 2, 3, 7, 8, 9, 13>

<1, 2, 3, 9, 12><><13><><1, 2, 3, 4, 7, 11><><1, 9><1, 3, 5, 6, 12>

724481712

17.20.252.50.113720.930.040.340.007.480.0017.60.249310

So sánh các mô hình trong (Bảng 1.5). Các giá trị sai số trong bảng được

chọn theo chuẩn RMSE và NMSE (trong ngoặc). Tiêu chuẩn này giúp dễ dàng so

sánh giữa các dòng dữ liệu và phương pháp khác nhau. Mỗi mô hình được sử dụng

các giá trị tối ưu từ TS. Các thông số ES được tối ưu hóa cho các RMSE tối ưu

ES cho hiệu suất tốt hơn đối với dòng theo mùa, vì ES được phát triển đặc biệt

cho các loại chuỗi này. Tuy nhiên, chuỗi sự kiện tương lai sẽ khác khi xét hàng loạt

kiểu chuỗi khác, cụ thể là những chuỗi theo xu hướng và phi tuyến, nơi mà Meta-

14

Page 22: MỤC LỤCi MỞ ĐẦU

GA tốt hơn phương pháp dự báo chuỗi thời gian thông thường. Mặc dù sử dụng

cùng một mô hình cơ bản ARMA, nhưng với sự linh hoạt cao hơn hệ thống Meta-

GA vượt hiệu suất của phương pháp ARIMA trong tất cả các chuỗi dữ liệu

Bảng 1.5: So sánh phương pháp Meta-GAs với các phương pháp truyền thống

Series ES ARIMA Meta-GAsPassengersPaperDeathsMaxtempChemicalPricesSunspotsKobe

16.5 (0.70%)49.2 (4.4%)135 (37%)0.72 (2.5%)0.35 (51%)7.54 (0.39%)28.4 (35%)3199 (105%)

17.8 (0.81%)61.0 (6.8%)144 (42%)1.07 (5.6%)0.36 (53%)7.72 (0.41%)21.4 (20%)582 (3.5%)

17.2 (0.75%)52.5 (5.0%)137 (38%)0.93 (4.3%)0.34 (48%)7.48 (0.38%)17.6 (14%)492 (2.5%)

. Thí nghiệm so sánh giữa các phương pháp thông thường, cho thấy rằng ES rất đơn

giản, ít tài nguyên tính toán, trình bày hiệu suất tốt đối với dữ liệu theo mùa. Tuy

nhiên, với những dữ liệu phi tuyến loại phương pháp này không thích hợp. Phương

pháp Meta-GA cho đến nay được áp dụng cả hai loại phi tuyến hoặc tuyến tính, đặc

biệt về những dữ liệu có thành phần xu hướng.

Nhận xét: Phương pháp này có ưu điểm có thể áp dụng cho nhiều dạng chuỗi

dữ liệu mà không cần quan tâm đến dạng của chuỗi dữ liệu vì chỉ thuần túy xử lý về

mặt số liệu. Tuy nhiên phương pháp này có một điểm bất tiện là khó có thể kết hợp

các phương pháp tối ưu khác để tăng tính hiệu quả.

1.2.3. Giải thuật lai cho bài toán sắp hàng đa trình tự sinh học [8]

Với bài toán sắp hàng đa trình tự, giải pháp giải quyết bài toán dựa trên sự kết

hợp giải thuật di truyền và kỹ thuật luyện kim được thực hiện và được xem xét như

thuật giải lai di truyền - luyện kim (SA-GA).

Kết hợp tạo giải thuật lai giữa hai giải thuật chính là giải thuật di

truyền GA và giải thuật luyện kim SA. Trong đó tận dụng ý tưởng tìm kiếm dựa

trên quần thể như của giải thuật di truyền và biến đổi trạng thái như của giải thuật

luyện kim trên các “cá thể” quá trình phát sinh các cá thể không chỉ hoàn toàn là

ngẫu nhiên mà còn dùng các phép toán lai tạo, đột biến, chọn lọc của giải thuật di

15

Page 23: MỤC LỤCi MỞ ĐẦU

truyền để có thể kế thừa được các giải pháp tốt. Bên cạnh đó nhờ có bước thực

hiện ban đầu có thể tạo được quần thể ban đầu tương đối tốt và làm cơ sở cho

việc xét các bước chuyển trạng thái mới.

Quá trình sẽ thực hiện một phần song song giữa GA và SA, một số phần

tử tối ưu của giải thuật GA chuyển sang thực hiện các biến đổi theo giải thuật SA.

Trong quá trình thực hiện từ SA, một số phát sinh có độ thích nghi tốt sẽ chuyển

sang GA thực hiện lai ghép. Kết hợp hai giải thuật còn nhằm mục đích “phá vỡ”

một phần sự cứng nhắc và ít biến đổi khi giải thuật GA thực hiện giai đoạn cuối,

SA được thiết lập giúp tăng khả năng chọn các vùng không gian nghiệm rộng hơn.

Hình sau mô tả mức dao động của không gian vùng nghiệm khi kết hợp SA-GA:

Hình 1.3: Biểu đồ mô tả mức độ ổn định của nghiệm được chọn [8]

Giải thuật của SA được áp dụng

Chọn lời giải ban đầu s0 ;

Chọn nhiệt độ khởi đầu t0 > 0;

Chọn hàm thu giảm nhiệt độ α;

Repeat

Repeat

Chọn ngẫu nhiên một lời giải lân cận s của lời giải hiện tại s0;

δ = f (s)- f (s0); /*sự thay đổi sự tương đồng, mức thích nghi */

if ( δ > 0 ) then // lời giải sau tốt hơn lời giải trước

s0 = s;

else

sinh ngẫu nhiên một số x [0, 1];

if ( x < ) then

16

Page 24: MỤC LỤCi MỞ ĐẦU

s0 = s;

endif

endif

unltil số_lần_lặp = nrep;

t = (t) ;

until Điều_kiện_dừng = TRUE;

Qua nghiên cứu các giải thuật trước, bài báo chọn hướng giải quyết kết hợp

giải thuật di truyền và kỹ thuật luyện kim, có sự hướng dẫn của một số thông tin

phân tích ban đầu giúp giải quyết bài toán trong không gian giới hạn và có các

bước chuyển tốt hơn. Tuy nhiên, dù có những kết quả thực nghiệm khá tốt nhưng

qua đó cho thấy cần phải kết hợp những ý nghĩa sinh học về sự tương đồng giữa

các trình tự sinh học sâu rộng hơn mới có được những heuristic và phương pháp so

sánh có kết quả giống như thực tế. Bên cạnh đó, việc chuyển sang thực thi song

song giải thuật để giảm thời gian xử lý và tăng khả năng tìm nghiệm cho bài toán.

1.3. CÁC MÔ HÌNH THƯỜNG ÁP DỤNG TRONG DỰ BÁO

1.3.1. Khái niệm về dự báo

Dự báo là khả năng nhận thức được sự vận động của các đối tượng nghiên cứu

trong tương lai dựa trên sự phân tích chuỗi thông tin quá khứ và hiện tại. Cho đến

nay, nhu cầu dự báo đã trở nên hết sức cần thiết ở tất cả các lĩnh vực. Dự báo là tiên

đoán khoa học mang tính xác suất và tính phương án trong khoảng thời gian hữu

hạn về tương lai phát triển của đối tượng nghiên cứu.

1.3.2. Các mô hình dự báo: [8]

- AR(p) Mô hình tự hồi quy (AutoRegressive model): Có chứa một hay một số

giá trị trễ của biến phụ thuộc số các biến giải thích. Giá trị ở thời điểm t của một

biến, x(t), tuỳ thuộc vào tổng tỷ trọng của các giá trị p trong quá khứ của biến {x(t-

1), x(t-2), …, x(t-p)} cộng với đại lượng ngẫu nhiên e(t):

x(t) = a0 + a1* x(t-1) + a2* x(t-2) + … + ap* x(t-p) + e(t) (1.10)

17

Page 25: MỤC LỤCi MỞ ĐẦU

- MA(q) Mô hình trung bình trượt (Moving Average model): Giá trị của một

biến ở thời điểm t bằng với giá trị trung bình tỷ trọng của tổng q+1 yếu tố ngẫu

nhiên, độc lập là e(t), e(t-1), …, e(t-q):

x(t) = e(t)+ c1* e(t-1) +c2* e(t-2)+ … + cq* e(t-q) + c0 (1.11)

- ARMA(p,q) Mô hình trung bình trượt tự hồi quy (AutoRegressive Moving

Average model): là sự kết hợp của AR(p) và MA(q).

- ARIMA Mô hình trung bình trượt tích hợp tự hồi quy (AutoRegressive

Intergrated Moving Average model): thay vì quan sát tỷ suất sinh lợi sẽ là quan sát

sự thay đổi của tỷ suất sinh lợi.

- ARCH và GARCH Mô hình phương sai sai số thay đổi có điều kiện tự hồi

quy (AutoRegressive Conditional Heteroskedasticity). GARCH (Generalized

AutoRegressive Conditional Heteroskedasticity) là trường hợp tổng quát của

ARCH. Mục tiêu của mô hình này là dự báo độ lệch chuẩn và tương quan của chuỗi

thời gian tài chính. Mô hình này phù hợp với việc phân bổ tài sản

- ES Phương pháp san bằng số mũ (Exponential Smoothing method): Giá trị

dự báo mới không chỉ phụ thuộc vào giá trị giai đoạn trước mà còn phụ thuộc giá trị

dự báo của giai đoạn trước.

- NN Mạng Neural (Neural Network): Hornik, Stinchcombe và White (1988)

đã chỉ ra rằng các mạng lưới Neural có thể xấp xỉ bất kỳ phương trình nào, là công

cụ phân tích và dự báo hữu hiệu. Mô hình mạng Neural được ứng dụng rất nhiều

vào việc dự báo xếp hạng trái phiếu và dự báo tỷ suất sinh lợi trong tài chính.

- GA Giải thuật di truyền (Genetic Algorithm): Là phương pháp tối ưu để tìm

kiếm trực tiếp dựa trên kỹ thuật mô phỏng quá trình tiến hoá sinh học có sử dụng

máy tính. Phương pháp này có những ứng dụng thành công trong lãnh vực dự báo.

- FL Logic mờ (Fuzzy Logic): Được sử dụng rất nhiều trong các hệ điều khiển

mờ. Ưu điểm cơ bản của điều khiển mờ là không cần biết trước đặc tính của đối

18

Page 26: MỤC LỤCi MỞ ĐẦU

tượng một cách chính xác. Mô hình sử dụng Logic mờ thường được kết hợp với giải

thuật di truyền hoặc mạng Neural để tối ưu tập các tham số trong hệ.

1.3.3. Mô hình dự báo dựa trên chuỗi thời gian

Dự báo bằng phương pháp định lượng được sử dụng khá phổ biến trên thế

giới. Nhiều quỹ đầu tư đã thiết lập hệ thống giao dịch tự động bằng phương pháp

định lượng. Hiệu quả từ phương pháp này được chứng minh tại nhiều thị trường.

Ưu điểm của phương pháp dự báo định lượng là khá khách quan, dựa vào tiêu

chí của những chỉ tiêu thống kê từ mô hình. Những đánh giá đưa ra dựa trên sự

phân tích khách quan nên giảm sự sai sót do yếu tố con người.

Các phương pháp định lượng dùng dự báo dựa trên mô hình toán học với giả

định rằng liên hệ giữa các yếu tố được thiết lập trong quá khứ sẽ lặp lại trong tương

lai. Nói cách khác phương pháp định lượng dựa trên dữ liệu quá khứ để phát hiện

chiều hướng vận động tương lai của các yếu tố theo một quy luật. Để dự báo diễn

biến trong tương lai của một biến, người ta có thể sử dụng mô hình chuỗi thời gian.

Một chuỗi thời gian là một chuỗi các giá trị quan sát X:= {x1,x2,….,xn} hay Y = {Yt:

t ∈ T} xếp thứ tự diễn biến theo thời gian, khoảng cách là các khoảng thời gian.

1.4. KẾT LUẬN CHƯƠNG:

Chương một đã giới thiệu tổng quan về năng lượng điện, mối quan hệ giữa sản

xuất và tiêu thụ điện, thực trạng nguồn năng lượng điện của nước ta nói chung và

Bình Dương nói riêng. Khảo sát các công trình nghiên cứu trước đó để có cơ sở và

hướng nghiên cứu phù hợp, nhằm dự báo mức tiêu thụ điện, giúp các cơ quan hữu

quan có chiến lược sản xuất, tiêu thụ cũng như tiết kiệm điện hợp lý nhất.

19

Page 27: MỤC LỤCi MỞ ĐẦU

Chương 2

CƠ SỞ LÝ THUYẾT

Chương hai giới thiệu về giải thuật luyện kim và giải thuật di truyền để

thấy những ưu, khuyết điểm của các giải thuật này, đồng thời nghiên cứu ưu

thế của sự kết hợp hai giải thuật để sử dụng hiệu quả các giải thuật trong mô

hình dự báo trên cơ sở đó sử dụng mô hình thích hợp nhất trong dự báo nhu

cầu sử dụng điện.

2.1. GIẢI THUẬT LUYỆN KIM (SA:SIMULATED ANNEALING) [6]

[17]

2.1.1. Giới thiệu chung về giải thuật luyện kim

Tiền thân của giải thuật luyện kim là thuật toán Monte Carlo năm 1953 của

nhóm Metropolis. Giải thuật luyện kim được đề xuất bởi S. Kirkpatrick năm 1982

và công bố trước công chúng năm 1983. SA là một nhánh của phương pháp tìm

kiếm leo đồi trong bài toán cục bộ nhưng cho phép điều khiển các bước leo đồi.

Giải thuật luyện kim có nguồn gốc từ cơ học hệ thống. Giải thuật này giả lập

quá trình làm lạnh kim loại sau khi nung. SA thực thi đơn giản và tương tự quá trình

luyện kim vật lý. Trong luyện kim vật lý kim loại được đốt nóng đến nhiệt độ cao

và làm lạnh từ từ để nó kết tinh ở cấu hình năng lượng thấp (tăng kích thước của

tinh thể và làm giảm những khuyết điểm của chúng). Một kim loại được nung đến

nhiệt độ hóa lỏng sau đó giảm nhiệt từ từ, cấu trúc tinh thể sẽ được hình thành tùy

theo mức độ làm lạnh. Nếu việc làm lạnh không xẩy ra từ từ thì chất rắn không đạt

20

Page 28: MỤC LỤCi MỞ ĐẦU

được trạng thái có cấu hình năng lượng thấp, sẽ đông lạnh đến trạng thái không ổn

định (cấu trúc tối ưu địa phương)

Quá trình làm lạnh có thời gian phù hợp thì cấu trúc tinh thể sẽ hình thành.

Nếu quá trình làm lạnh quá nhanh thì cấu trúc tinh thể sẽ tồn tại những điểm không

hoàn hảo. Giải thuật luyện kim giả lập quá trình làm lạnh bằng cách giảm nhiệt độ

của hệ thống một cách tuần tự cho đến khi nó hội tụ về trạng thái đông cứng. Trạng

thái đông cứng là trạng thái có mức năng lượng thấp nhất tương ứng với lời giải có

giá trị đánh giá tối ưu. SA được sử dụng để tìm cực đại hay cực tiểu để giải một bài

toán tối ưu. Khi quá trình luyện kim kết thúc, lời giải tối ưu được hội tụ về chính là

trạng thái kết tinh của bài toán.

Sơ đồ thể hiện trong một không gian lời giải thuật toán luyện kim sẽ tìm đến

tối ưu toàn cục với bước nhảy từ tối ưu địa phương.

Hình 2.1. Sơ đồ không gian lời giải [17]

Sự tương đồng giữa quá trình luyện kim vật lý và giải thuật luyện kim (Bảng 2.1)

Bảng 2.1: So sánh tương quan giữa luyện kim vật lý và giải thuật luyện kim

Quá trình luyện kim vật lý Giải thuật luyện kim

Các trạng thái hệ thống Các lời giải khả thi

Năng lượng Chi phí

Thay đổi trạng thái Giải pháp lân cận

Nhiệt độ Tham số điều khiển

Solution Space: Không gian lời giải

Initial State: Trạng thái ban đầu

Local Minimum: Tối ưu địa phương

Global Minimum: Tối ưu toàn cục

Solution Space

Global Minimum

Initial State

Local

Minimum

21

Page 29: MỤC LỤCi MỞ ĐẦU

Trạng thái kết tinh Giải pháp tối ưu

Giải thuật luyện kim sử dụng một biến điều khiển toàn cục là biến nhiệt độ T.

Ban đầu T ở giá trị rất cao và sau đó được giảm dần xuống. Trong quá trình tìm

kiếm SA thay lời giải hiện thời bằng cách chọn ngẫu nhiên lời giải láng giềng với

xác suất phụ thuộc sự chênh lệch giữa giá trị hàm mục tiêu và tham số điều khiển T

Quá trình tối ưu hóa được tiếp tục cho tới cực tiểu toàn cục được tìm thấy hoặc

tổng các bước chuyển vượt quá một số tối đa các bước chuyển đã được định trước.

Sự chuyển tiếp ở một nhiệt độ kết thúc khi đạt tới trạng thái cân bằng nhiệt. Sau khi

đạt tới trạng thái cân bằng nhiệt thì nhiệt độ được giảm thấp hơn. Nếu hệ thống

không đông lạnh và cũng không tìm được cực tiểu toàn cục thì vòng lặp vẫn tiếp tục

và chỉ số k tăng. Hệ thống đông lạnh khi T tiến tới nhiệt độ Tcuối do người dùng đưa

ra. Khi sử dụng giải thuật luyện kim, các vấn đề cần được làm rõ: Không gian lời

giải, cách xác định lời giải lân cận và hàm đánh giá

Bản chất của giải thuật này cũng giống như thuật toán leo đồi nhưng khắc phục

được vấn đề “local minimum” nhờ vào cách chọn ngẫu nhiên cho phép chuyển sang

trạng thái xấu hơn. Thông thường, hệ thống sẽ chuyển sang trạng thái tối ưu tìm

được tại mỗi nhiệt độ T. Tuy nhiên, nếu không tìm được trạng thái tốt, hệ thống vẫn

có thể chuyển sang trạng thái xấu hơn dựa vào xác suất chấp nhận chuyển trạng

thái. Xác suất chấp nhận một trạng thái xấu hơn được tính bằng công thức:

(2.1)

với: - độ biến đổi hàm giá trị ; t - nhiệt độ hiện tại

Giải thuật luyện kim:

SA( S ) {

loigiaitot = S //Gán lời giải tối ưu = lời giải S

22

Page 30: MỤC LỤCi MỞ ĐẦU

giatritot=BIC(S) //Gán giá trị đánh giá tối ưu = giá trị đánh giá lời giải S

Khởi tạo nhiệt độ ban đầu t=t0

Khởi tạo hệ số giảm nhiệt α

Giaidoan=0; //Khởi tạo hệ số giai đoạn luyện kim

while (giaidoan < giaidoan_toida){ // Tiến hành quá trình luyện kim

solan=0 // Số lần luyện trong 1 giai đoạn

while(solan<solan_toida){

Tạo lời giải lân cận S’

GA(S’) // Tìm bộ tham số tối ưu cho S’

Tính cost BIC cho S’ //

= BIC(S’) - BIC(S)

if ( <0 ){

S=S’

}else{

Khởi tạo một số ngẫu nhiên r

if ( r < ) {

S=S’

}

}Lưu lại lời giải tối ưu

solan++ ;

}giaidoan++; t= t* α;

23

Page 31: MỤC LỤCi MỞ ĐẦU

}Trả về lời giải mô hình tối ưu sau quá trình luyện kim

}

Lưu đồ:

Đúng

Đúg

Sai

Sai

Đúng

Sai

Phát sinh Giải pháp S’

Giảm nhiệt độ

S = S’

Thỏa điều kiện dừng?

Dừng

r = Random()

Trả về mô hình Tối ưu tìm được

Dùng GA() để tìm ra bộ thông số tối ưu cho mô hình S’. Tính

cost BIC(S’)

Lặp Solan_toida ?

Nhập giải pháp ban đầu S

24

Page 32: MỤC LỤCi MỞ ĐẦU

Hình 2.2 Lưu đồ biểu diễn giải thuật luyện kim

2.1.2. Hàm nhiệt độ và quá trình hoạt động

Hàm nhiệt độ:

Đầu tiên khởi tạo nhiệt độ T là T0. Qui trình phổ biến nhất là quy trình làm cân

xứng: Tnew = Told * khi <1. Thuật toán kết thúc khi T=0

Sơ đồ:

Hình 2.3: Biểu diễn quá trình hoạt động của hàm nhiệt độ [18]

Quá trình làm lạnh: Bao gồm bốn thành phần chính: Nhiệt độ ban

đầu, nhiệt độ kết thúc, quá trình làm lạnh, các bước lặp tại mỗi nhiệt độ

Nhiệt độ ban đầu

Nhiệt độ ban đầu phải đủ cao để bao quát hết các lời giải. Nếu không, lời giải

cuối cùng sẽ rất gần với lời giải đầu tiên và giải thuật chỉ giống như một bài toán

leo đồi đơn giản.

Tuy nhiên, nếu nhiệt độ ban đầu quá cao, thì việc tìm kiếm sẽ giống như tìm

kiếm ngẫu nhiên cho tới khi nhiệt độ giảm đến một mức phù hợp với giải thuật

luyện kim. Khi đó giải thuật sẽ tiến hành đúng theo hướng giải thuật luyện kim.

0T

TN T

i=T

0 T0: Nhiệt độ khởi đầu

TN: Nhiệt độ kết thúc

Ti: Nhiệt độ vòng i khi i=1…N

25

Page 33: MỤC LỤCi MỞ ĐẦU

Vấn đề là phải tìm được nhiệt độ ban đầu thích hợp. Hiện tại chưa có phương

pháp nào để tìm nhiệt độ ban đầu thích hợp cho tất cả các bài toán. Nếu biết

khoảng cách lớn nhất giữa một lân cận và một lân cận khác, chúng ta có thể dùng

thông tin này để xác định nhiệt độ ban đầu.

Một cách khác là đặt nhiệt độ ban đầu thật cao và làm lạnh nhanh cho đến

khi 60% các lời giải xấu nhất được chấp nhận. Tại điểm này mới là nhiệt độ ban

đầu thực sự và quá trình làm lạnh nhanh sẽ giảm tốc độ lại.

Nhiệt độ cuối cùng

Thông thường thì nhiệt độ được giảm về 0. Tuy nhiên, điều này làm giải

thuật chạy lâu hơn, nhất là khi lịch trình làm lạnh hình học được dùng.

Trong thực nghiệm, không cần để nhiệt độ giảm về 0 vì khi nhiệt độ về 0 thì

khả năng chấp nhận chuyển sang các bước xấu hơn cũng bằng 0.

Do đó, các điều kiện dừng có thể là một nhiệt độ chậm thích hợp hay khi hệ

thống kết tinh ở nhiệt độ hiện tại (không có di chuyển được chấp nhận).

Quá trình giảm nhiệt

Khi đã có nhiệt độ ban đầu và nhiệt độ cuối cùng, ta cần xác định quá trình

làm lạnh giúp chuyển hệ thống từ nhiệt độ ban đầu về đến nhiệt độ cuối cùng. Do

đó, nhiệt độ cần giảm để điều kiện dừng xảy ra.

Lý thuyết cho rằng số lần lặp tại mỗi nhiệt độ cần đủ để giúp cho hệ thống

ổn định tại nhiệt độ đó và số lần lặp tại mỗi nhiệt độ là cấp số mũ so với khối

lượng bài toán. Ta có thể chọn:

- Một số lượng lớn lần lặp tại vài nhiệt độ.

- Một số lượng nhỏ lần lặp tại nhiều nhiệt độ.

- Cân bằng tại tất cả các nhiệt độ.

Phương pháp làm lạnh đơn giản nhất là theo phương pháp tuyến tính giản

đơn. Một phương pháp khác là giảm theo hình học, trong đó t = t*α với |α|<1.

26

Page 34: MỤC LỤCi MỞ ĐẦU

Kinh nghiệm cho thấy rằng α trong khoảng 0.8-0.99, cho kết quả tốt hơn.

Tuy nhiên hệ số α càng cao thì nhiệt độ tiến đến nhiệt độ cuối cùng càng lâu.

Số lần lặp tại mỗi nhiệt độ

Vấn đề cuối cùng là xác định lặp bao nhiêu tại mỗi nhiệt độ. Phương pháp

chia đều tại tất cả các nhiệt độ là phương pháp được sử dụng nhiều nhất.

2.1.3. Hàm chi phí và hàm mục tiêu

Hàm đánh giá cost là hàm xác định chi phí được dùng để ước lượng một lời

giải đã cho. Hàm chi phí của lời giải s kí hiệu là f(s). Hàm mục tiêu Fitness được

định nghĩa:

Fitness = * 100% (2.2)

Sự giảm bớt chi phí tương đương với sự tăng hàm mục tiêu. Giá trị hàm mục

tiêu tăng khi nhiệt độ giảm thể hiện ở biểu đồ (hình 2.4)

Hình 2.4: Biểu diễn quan hệ giữa hàm chi phí và hàm mục tiêu [18]

2.1.4. Cấu trúc của lời giải lân cận

Vấn đề cần giải quyết là làm sao chuyển từ một trạng thái sang trạng thái lân

cận. Điều đó có nghĩa là cần xác định một trạng thái lân cận. Một số kết quả cho

thấy rằng các cấu trúc lân cận có tính đối xứng. Có nghĩa là nếu hệ thống có thể

27

Page 35: MỤC LỤCi MỞ ĐẦU

chuyển từ trạng thái i sang trạng thái j thì hệ thống cũng có thể chuyển từ trạng thái

j sang trạng thái i.

Một điều kiện khác cần chú ý để bảo đảm tính hội tụ là tất cả các trạng thái

đều có thể chuyển đến từ những trạng thái khác. Với cấu trúc lời giải là một mảng

boolean, việc xác định lân cận có thể dùng nhiều phương pháp khác nhau như đảo

bit một hay nhiều vị trí trong mảng, đảo vị trí một hay nhiều lần các phần tử trong

mảng,...Để tăng xác suất tìm đến lời giải tối ưu, chương trình sử dụng hỗn hợp

nhiều phương pháp bằng cách chọn ngẫu nhiên một phương pháp trong một lần phát

sinh lời giải lân cận.

Giải thuật xác định lân cận:

Timlancan()

{

Chọn một số tự nhiên t ngẫu nhiên [0,2]

case t:

{

t=0: Tiến hành tìm lân cận theo neighbor_boolean_perturbation

t=1: Tiến hành tìm lân cận theo neighbor_boolean_swap_full

t=2: Tiến hành tìm lân cận theo neighbor_boolean_flip_full

}

Trả về giải pháp lân cận

}

2.1.5. Các bước của bài toán SA và điều kiện dừng

Các bước của bài toán SA: Các bài toán SA thường thực hiện theo các

bước

- Bước 1: Đầu tiên, tìm điểm xuất phát của bài toán.

- Bước 2: Liệt kê các láng giềng có thể có của lời giải hiện thời.

- Bước 3: Ước lượng hàm mục tiêu hiện thời và láng giềng vừa tìm được.

28

Page 36: MỤC LỤCi MỞ ĐẦU

- Bước 4: Sinh một biến ngẫu nhiên thường là phân bố mũ có các tham số

phụ thuộc vào hiệu quả của các giá trị hàm mục tiêu và tham số T.

- Bước 5: Nếu biến ngẫu nhiên lớn hơn hoặc nhỏ hơn một ngưỡng cho trước

thì chấp nhận láng giềng vừa tìm được làm phương án hiện tại

- Bước 6: Giảm nhiệt độ T.

- Bước 7: Quay trở lại từ đầu.

Điều kiện dừng

- Thuật toán dừng khi đã tìm được một lời giải đủ tốt và T là quá nhỏ mà

xác suất tránh được là không đáng kể.

- Một tiêu chuẩn kết thúc khác là chi phí trung bình thay đổi không đáng

kể ở một vài giá trị liên tiếp nhau của T.

2.1.6. Ưu điểm và khuyết điểm

Ưu điểm:

- Giải thuật SA có thể hoạt động với các mô hình phi tuyến, hỗn loạn, có

nhiễu và nhiều ràng buộc. SA là một kỹ thuật bền vững và tổng quát.

- Giải thuật SA linh động khả năng nhanh đạt đến lời giải tối ưu.

- Giải thuật SA không phụ thuộc vào bất cứ đặc tính nào của mô hình.

- Các phương thức SA rất dễ chỉnh.

Khuyết điểm:

- Do SA là thuật toán tổng quát nên yêu cầu chuyển thành thuật toán thực dụng

- Chất lượng của lời giải và thời gian tính toán thường tỷ lệ nghịch.

- Thiết kế ràng buộc giữa các lớp và tinh chỉnh tham số thuật toán rất khó.

- Độ chính xác của số liệu khi thực hiện trong SA có ảnh hưởng kết quả đầu ra .

29

Page 37: MỤC LỤCi MỞ ĐẦU

2.2. GIẢI THUẬT DI TRUYỀN (GA: GENETIC ALGORITHMS) [2] [3]

[4] [6] [7] [9] [13] [16] [17] [18]

Hiện nay và trong tương lai, trí tuệ nhân tạo (Artificial Intelligent) đã, đang và

sẽ được nghiên cứu, phát triển rất mạnh mẽ và được ứng dụng rộng rãi. Đây là một

mảng chuyên môn rất lớn trong khoa học máy tính, bao gồm nhiều lĩnh vực khác

nhau. Một trong những lĩnh vực đó là kỹ thuật tính toán thông minh (Computational

Intelligent) trong đó có giải thuật di truyền đã đem lại những phương pháp mới để

giải các bài toán mà nếu áp dụng phương pháp truyền thống sẽ gặp nhiều khó khăn.

2.2.1. Giới thiệu chung về giải thuật di truyền

Giải thuật di truyền được lập trên cơ sở lý thuyết Darwin dựa trên việc quan

sát quá trình tiến hóa trong tự nhiên. Các nguyên lý cơ bản của giải thuật di truyền

được tác giả J.H.Holland công bố lần đầu tiên vào năm 1962. Sau đó, các nền tảng

toán học của giải thuật lần đầu tiên được công bố vào năm 1975 trong cuốn sách

“Adaptation in Natural and Artificial System” cũng của tác giả J.H.Holland. Có thể

nói Holland là người đi tiên phong nghiên cứu trong lĩnh vực giải thuật di truyền

cùng với những tác giả Goldbeg, Beglay…

Giải thuật di truyền là một giải thuật dựa trên cơ chế của chọn lọc tiến hoá

trong tự nhiên: “Trong mọi thế hệ, một tập mới các sinh vật được tạo ra bằng cách

lai ghép những nhân tố thích nghi nhất với môi trường của những sinh vật trong thế

hệ cũ cùng với sự xuất hiện đột biến ngẫu nhiên của các cá thể trong thế hệ mới”.

Vận dụng cơ chế đó, giải thuật di truyền được bắt đầu với một quần thể ngẫu nhiên

có n chuỗi, rồi sao chép các chuỗi theo khuynh hướng đến cái tốt, ghép cặp và đổi

các chuỗi con thành phần, thỉnh thoảng làm đột biến giá trị bit để có số đo tốt.

2.2.1.1. Mô hình giải thuật di truyền

Theo đề xuất ban đầu của giáo sư John Holland, một vấn đề-bài toán được mã

hóa thành các chuỗi bit nhị phân với chiều dài cố định, gọi các chuỗi bit này là mã

genome ứng với mỗi cá thể, các genome đều có cùng chiều dài. Một lời giải sẽ được

biểu diễn bằng một chuỗi bit, mỗi cá thể đều được quy định bằng gen của cá thể đó.

30

Page 38: MỤC LỤCi MỞ ĐẦU

Ban đầu, phát sinh một tập hợp các chuỗi bit ngẫu nhiên. Tập các cá thể này

được gọi là quần thể ban đầu (initial population). Sau đó, xác định một giá trị gọi là

độ thích nghi - Fitness. chính là độ “tốt” của lời giải hay độ cao trong tìm kiếm theo

kiểu leo đồi. Để cải thiện tính thích nghi của quần thể, có hai thao tác:

- Đầu tiên là sao chép nguyên mẫu một nhóm các cá thể tốt từ thế hệ trước đưa

sang thế hệ sau. Thao tác này đảm bảo độ thích nghi của thế hệ sau luôn được giữ ở

mức độ hợp lý. Các cá thể được chọn thường là các cá thể có độ thích nghi cao nhất.

- Thứ hai là tạo các cá thể mới bằng cách thực hiện các thao tác sinh sản trên

một số cá thể được chọn từ thế hệ trước: lai tạo (crossover) và đột biến (mutation).

Thế hệ mới tạo ra lại xử lý như thế hệ trước (xác định độ thích nghi và tạo thế

hệ mới) đến khi cá thể đạt được giải pháp mong muốn hoặc đến thời gian giới hạn.

.

Hình 2.5. Sơ đồ tổng quát của giải thuật di truyền [16]

2.2.1.2. Sơ đồ thực hiện giải thuật di truyền

Bước 1: Khởi tạo một quần thể ban đầu (các đáp án ban đầu của bài

toán).

Bước 2: Xác định giá trị hàm mục tiêu cho mỗi cá thể trong quần thể.

Bắt đầu

Phát sinh quần thể ban đầu

Xác định độ thích nghi của các cá thể

trong quần thể

Có cá thể nào đạt đến lời giải

tối ưu chưa?

Trình bày lời giải

Chọn lọc Lai tạo

Xây dựng quần thể mới

Đột biến

Xây dựng thế hệ kế tiếp

31

Page 39: MỤC LỤCi MỞ ĐẦU

Bước 3: Tạo ra quần thể mới bằng cách lai ghép chéo (crossover) từ

các cá thể hiện tại có chọn lọc (selection), đồng thời tạo ra các đột biến

(mutation) trong quần thể mới theo một xác suất nhất định.

Bước 4: Các cá thể trong quần thể mới sinh ra được thay thế cho các cá

thể trong quần thể cũ.

Bước 5: Nếu điều kiện dừng thỏa thì giải thuật dừng lại và trả về cá thể

tối ưu cùng với giá trị hàm mục tiêu của nó, nếu không thì quay lại bước 2.

2.2.1.3. Giải thuật di truyền so với các phương pháp truyền thống

Đối với giải thuật di truyền, cách đơn giản là chúng ta mã hoá thành các chuỗi

bit trên tập ký tự {0,1}. Mỗi chuỗi đại diện một điểm tìm kiếm trong không gian.

GA xuất phát với một quần thể các chuỗi được khởi tạo ngẫu nhiên, sau đó sẽ sản

sinh các quần thể tiếp theo. Nhờ đó giải thuật di truyền tìm kiếm trên nhiều điểm

song song có khả năng leo lên nhiều cực trị cùng lúc, tránh bỏ qua mất cực trị toàn

cục. Đây là đặc trưng của giải thuật di truyền so với phương pháp truyền thống:

Bảng 2.2: So sánh giải thuật di truyền với các phương pháp truyền thống

Giải thuật di truyền Phương pháp truyền thống

Làm việc với sự mã hoá của tập thông số Làm việc với các giá trị của các thông số

Tìm kiếm từ một quần thể các điểm Tìm kiếm từ một điểm

Chỉ sử dụng thông tin về các tiêu chuẩntối ưu của hàm mục tiêu

Dùng các thông tin hỗ trợ nào khác

Sử dụng các luật chuyển đổi mang tínhxác suất

Sử dụng các luật chuyển đổi mang tính xácđịnh

2.2.1.4. Các ứng dụng của giải thuật di truyền.

Tối ưu hoá và máy học

- Trong lĩnh vực tối ưu hóa: có nhiều bài toán áp dụng giải thuật di truyền và

đã thành công như tối ưu hoá hàm một biến, tối ưu hóa hàm nhiều biến, bài

toán người du lịch, các bài toán kinh doanh, nhận dạng điều khiển hệ thống...

32

Page 40: MỤC LỤCi MỞ ĐẦU

- Trong lĩnh vực máy học: giải thuật di truyền được sử dụng cho việc tìm hiểu

các quy luật có cấu trúc như cấu trúc IF-THEN trong môi trường nhân tạo.

Ghi ảnh y học với giải thuật di truyền

Giải thuật di truyền đơn giản đã được sử dụng để thực hiện ghi hình ảnh, như

là bộ phận của hệ thống lớn có tên là Digital Subtraction Angiography (DSA).

Trong DSA, bác sĩ sẽ cố gắng xem xét bên trong của một động mạch khả nghi bằng

cách so sánh hình ảnh x-quang, một được chụp trước khi tiêm thuốc đã nhuộm màu

vào động mạch và một được chụp sau khi tiêm thuốc. Giải thuật di truyền được tìm

kiếm sự sai biệt hình ảnh trước và sau khi tiêm.

2.2.2. Thực hiện giải thuật di truyền

2.2.2.1. Biểu diễn các cá thể

Là ánh xạ các tham số của bài toán lên một chuỗi có chiều dài xác định. Tuỳ

theo từng bài toán cụ thể mà có những cách biểu diễn khác nhau sao cho phù hợp,

thuận lợi khi giải toán. Trong đó có hai cách biểu diễn thông dụng nhất là biểu diễn

nhị phân và biểu diễn sử dụng các hoán vị.

Biểu diễn nhị phân

Mỗi cá thể tương ứng với một chuỗi bao gồm các bit 0 và 1, ý nghĩa của các

bit này phụ thuộc vào từng tình huống cụ thể. Đây là cách biểu diễn đơn giản nhất

và là cách thông dụng nhất trong các cách biểu diễn.

Biểu diễn sử dụng hoán vị

Mỗi cá thể tương ứng với một hoán vị của tập n ký hiệu nào đó. Chẳng hạn

cách biểu diễn này đã được áp dụng cho bài toán người du lịch :

Biểu diễn bằng giá trị

Biểu diễn giá trị trực tiếp có thể được dùng trong các bài toán có chứa những

giá trị phức tạp như số thực. Nếu dùng biểu diễn nhị phân cho loại bài toán này thì

rất phức tạp. Những giá trị này có thể có dạng bất kỳ liên quan đến bài toán, từ số

nguyên, số thực, ký tự cho đến các đối tượng phức tạp hơn.

33

Page 41: MỤC LỤCi MỞ ĐẦU

Biểu diễn theo cây

Mã hóa theo cây được dùng chủ yếu cho các chương trình tiến hóa, cho lập

trình gen. Trong mã hóa theo cây mọi nhiễm sắc thể là một cây chứa các đối tượng

chẳng hạn như hàm hoặc lệnh trong một ngôn ngữ lập trình nào đó. Mã hóa nhiễm

sắc thể là các hàm được biểu diễn bằng cây.

2.2.2.2. Hàm mục tiêu (Fitness)

Một hàm mục tiêu sẽ lấy một chuỗi nhiễm sắc thể như là đầu vào và trả về giá

trị tượng trưng cho chuỗi nhiễm sắc thể đó để đánh giá trên vấn đề cần giải quyết.

Giá trị hàm mục tiêu là Maximum hay Minimum tùy theo bài toán sẽ quyết định xác

suất của mỗi chuỗi có thể tham gia vào các toán tử di truyền.

2.2.2.3. Toán tử tái tạo (Reproduction)

Là một quá trình trong đó các chuỗi được lựa chọn tùy thuộc vào giá trị hàm

mục tiêu. Hàm mục tiêu f(i) được gán cho mỗi cá thể trong một quần thể và những

cá thể nào có giá trị hàm mục tiêu cao sẽ đại diện cho những cá thể tốt, thích nghi

và sẽ có xác suất chọn lọc lớn.

Chọn lọc dùng bánh xe Roulette

Đây là phương pháp chọn lọc đơn giản nhất, mỗi chuỗi (cá thể) trong quần thể

chiếm một khe vòng tròn Roulette có độ rộng tỷ lệ với giá trị hàm mục tiêu. Mỗi lần

quay vòng tròn Roulette nhận một chuỗi coi như là cách lựa chọn chuỗi cho tái tạo.

Các bước thực hiện:

Tính tổng giá trị mục tiêu của các cá thể trong một dân số và gán kết quả

này vào biến Total fitness.

Ở thế hệ thứ n, lấy một số ngẫu nhiên giữa 0 và Total fitness.

Trả về số cá thể đầu tiên của một dân số mới, dựa vào giá trị mục tiêu của

nó.

Ví dụ: Giả sử ta có một dân số ban đầu với 6 chuỗi nhiễm sắc thể, tổng giá trị của

34

Page 42: MỤC LỤCi MỞ ĐẦU

hàm mục tiêu là 50 như thể hiện trong bảng 2.3

Bảng 2.3. Chọn lọc dùng bánh xe [19]

STT Chuỗi Hàm mục tiêu Tỷ lệ % Total

1

2

3

4

5

6

01110

11000

00100

10010

01100

00010

10

12

5

8

9

6

20

24

10

16

18

12

8

22

27

35

44

50

Bánh xe trọng số được thể hiện trong hình 2.6

Sau đó sẽ tạo các số ngẫu nhiên trong khoảng từ (0, 50) tương ứng với việc

quay vòng tròn bánh xe, đối với mỗi số kỹ thuật chọn lựa trên vòng tròn bánh xe sẽ

được áp dụng để chọn một chuỗi nhiễm sắc thể đầu tiên với giá trị hàm mục tiêu lớn

hơn hay bằng số ngẫu nhiên. Sáu số ngẫu nhiên được tạo ra cùng với các chuỗi

được chọn thể hiện trong bảng 2.4 :

Bảng 2.4. Sự tương ứng các số ngẫu nhiên và chuỗi nhiễm sắc thể [18]

Số ngẫu nhiên 26 16 46 30 5 18

Chuỗi NST 3 2 6 4 1 2

Hình 2.6. Bánh xe Roulette [18]

12% 20%

24%

10%16%

18%

35

Page 43: MỤC LỤCi MỞ ĐẦU

Ví dụ này chứng tỏ rằng các chuỗi nào có giá trị mục tiêu cao thì sẽ có nhiều

con cháu hơn trong thế hệ sau .

Giải thuật chọn lọc ngẫu nhiên cá thể theo phương pháp chọn lọc đấu vòng.

Chonchame()

{

Chọn ngẫu nhiên n phần tử

Chọn phần tử cha tối ưu lưu vào mảng cha mẹ

Chọn ngẫu nhiên n phần tử

Chọn phần tử tối ưu lưu vào mảng cha mẹ

Chọn ngẫu nhiên n phần tử

Chọn phần tử tối ưu lưu vào mảng cha mẹ

}

Chọn lọc lân cận địa phương

Lân cận địa phương là một vùng khép kín mà cá thể tương tác với các cá thể

khác nằm trong vùng đó. Theo phương pháp này, một nửa số cá thể đầu tiên được

chọn bởi một phương pháp bất kỳ nào đó, chẳng hạn như phương pháp bánh xe

Roulette. Sau đó với mỗi cá thể đã chọn, xác định một lân cận địa phương của nó và

tìm cá thể để lai ghép với nó.

Chọn lọc loại bỏ

Dùng một ngưỡng lựa chọn để xác định các cá thể được lựa chọn. Theo đó các

cá thể có giá trị hàm mục tiêu nhỏ hơn ngưỡng thì sẽ bị loại bỏ, còn các cá thể có

giá trị hàm mục tiêu lớn hơn ngưỡng thì được lựa chọn.

2.2.2.4. Toán tử lai ghép (Crossover)

Toán tử lai ghép trong biểu diễn nhị phân

Lai ghép một điểm

Đây là cách lai ghép đơn giản nhất.

Đầu tiên, một vị trí ghép chéo được lựa chọn

ngẫu nhiên (crossover site) trên hai chuỗi

Hình 2.7. Lai ghép [18]

36

Page 44: MỤC LỤCi MỞ ĐẦU

được chọn ra trong quá trình tái tạo, sau đó các chuỗi này được tiến hành ghép chéo

tại vị trí này. Quá trình này sẽ tạo ra hai chuỗi mới, mỗi một chuỗi mới sẽ được lấy

từ phần bên phải của chuỗi này ghép với phần bên trái chuỗi kia tính từ vị trí ghép

chéo và tương tự cho chuỗi còn lại.

Lai ghép nhiều điểm: Phương pháp thực hiện giống như lai

ghép một điểm nhưng sẽ có nhiều điểm được chọn trong chuỗi cá thể để lai ghép.

Toán tử lai ghép trong biểu diễn bằng hoán vị

Một điểm lai ghép được chọn, phần đầu của chuỗi con được tạo thành bằng

cách lấy phần đầu của chuỗi cha mẹ thứ nhất (từ vị trí đầu đến vị trí chọn lai ghép).

Phần còn lại của chuỗi con được tạo thành bằng cách duyệt từ đầu chuỗi cha mẹ thứ

hai và đưa vào chuỗi con những giá trị chưa có.

(1 2 3 4 5 6 7 8 9) + (1 8 6 2 5 3 7 9 4) = (1 2 3 4 5 6 8 7 9) (2.3)

Toán tử lai ghép trong biểu diễn theo cây.

Hình 2.8: Lai ghép biểu diễn theo cây [18]

Lai giống theo cây trong cả hai bố mẹ điểm lai giống được chọn, các bố mẹ

được chia theo điểm ấy và hoán đổi phần dưới điểm lai giống để tạo ra con mới.

Quá trình tái tạo và lai ghép làm tăng sức mạnh cho giải thuật di truyền bởi

việc trực tiếp tìm kiếm những thông tin tốt hơn sử dụng thông tin tồn tại đã biết

Giải thuật lai: Sử dụng chọn ngẫu nhiên một trong ba phương pháp lai: Lai một

điểm, lai nhiều điểm, lai hoán vị.

Laighep(){

Chọn 2 phần tử trong mảng cha mẹ

Chọn một số tự nhiên t ngẫu nhiên [1,3]

37

Page 45: MỤC LỤCi MỞ ĐẦU

case t:

{

t=1 : Tiến hành Lai một điểm

t=2 : Tiến hành Lai nhiều điểm

t=3 : Tiến hành Lai hoán vị

}

Trả về 2 phần tử con sau khi lai

2.2.2.5. Toán tử đột biến (Mutation)

Mặc dù tái tạo và ghép chéo sản sinh ra nhiều chuỗi mới nhưng nó không có

bất kỳ một thông tin mới nào trong quần thể ở cấp độ bit. Với một chuỗi các bit

mới, ta áp dụng đột biến với một xác suất thấp Pm, nó có tác dụng chuyển 1 bit từ 0

thành 1 hay ngược lại với bit này được chọn lựa một cách ngẫu nhiên.

Biểu diễn nhị phân: Chọn một số bit rồi đảo giá trị các bit đó.

Biểu diễn bằng hoán vị: Chọn hai vị trí bất kỳ rồi hoán đổi giá trị của chúng

cho nhau: (1 2 3 4 5 6 7 8 9) => (1 2 8 4 5 6 7 3 9) (2.4)

Biểu diễn bằng giá trị: Chọn một vài giá trị rồi thêm hoặc bớt một giá trị nhỏ:

(3.49; 7.63; 3.55; 7.24; 4.83) => (3.49; 7.63; 3.61; 7.18; 4.83) (2.5)

Biểu diễn theo cây: Chọn một vài nút trong cây rồi thay đổi giá trị của nút đó.

Ba toán hạng tái tạo, ghép chéo, đột biến được áp dụng lập đi lập lại để tạo ra

những chuỗi nhiễm sắc thể mới, cho đến khi vượt quá kích thước quần thể chọn ban

đầu thì dừng lại. Quá trình sẽ tiếp tục cho đến khi cá thể tối ưu được tạo ra hay điều

kiện dừng của bài toán được thoả mãn.

Giải thuật đột biến:

Dotbien(){

Chọn 1 phần tử trong mảng con

Chọn một số tự nhiên t ngẫu nhiên [1,2]

case t:

}

38

Page 46: MỤC LỤCi MỞ ĐẦU

{ t=1: Tiến hành Đột biến nhị phân

t=2: Tiến hành Đột biến hoán vị

}

}

2.2.3. Chương trình tổng quát

Quần thể mới được tạo ra bằng cách lựa chọn có xác suất các cá thể thích nghi

tốt từ quần thể hiện tại. Một số trong những cá thể được chọn được đưa nguyên vẹn

vào quần thể kế tiếp. Những cá thể khác được dùng làm cơ sở để tạo ra các cá thể

con bằng cách áp dụng các tác động di truyền: lai ghép và đột biến.

Giải thuật di truyền:

GA(giatri ){ // Các cá thể là các mảng giatri

Khởi tạo ngẫu nhiên quần thể ban đầu: P

Tính giá tri thích nghi của mỗi p trong P theo công thức

với

Lưu lại bộ tham số có cost RMSE tối ưu

//Tiến hành các phép toán di truyền

while(Sothehe < Sothehe_toida){

while(Solanlai < Solanlai_toida){

Chọn lọc các cá thể cha mẹ để tiến hành lai

Lai tạo các cá thể cha mẹ tạo ra các cá thể con

Đột biến các cá thể con

Số lần lai ++

}

Tính toán giá trị thích nghi các cá thể con vào quần thể

Lưu lại giá trị thích nghi tốt và lời giải tối ưu

Số thế hệ ++;

}

Trả về giatri có độ thích nghi RMSE tối ưu

}

39

Page 47: MỤC LỤCi MỞ ĐẦU

Lưu đồ :Bắt đầu

Khởi tạo quần thể P ban đầu

Tính giá trị thích nghi RMSE của từng cá thể trong P

Thỏa điều kiện dừng?

Chọn lọc cá thể cha mẹ

Lai tạo

Đột biến

Đưa các cá thể con vào quần thể

Tính giá trị thích nghi RMSE từng cá thể trong P

Dừng

Trả về bộ thông số Tối ưu tìm được

Đúng

Sai

40

Page 48: MỤC LỤCi MỞ ĐẦU

Hình 2.9: Giải thuật di truyền

2.3. CHUỖI THỜI GIAN VÀ MÔ HÌNH TỰ HỒI QUY

2.3.1. Thế nào là chuỗi thời gian [5] [15]

Những dữ liệu quan sát liên tục một hiện tượng (vật lý, kinh tế…) trong một

thời gian dài tạo nên một chuỗi thời gian. Một chuỗi dữ liệu thời gian là một tập hợp

các giá trị theo một thứ tự thời gian, mỗi giá trị được ghi nhận tại một chu kỳ

thời gian nhất định. Chuỗi dữ liệu thời gian được sử dụng rộng rãi trong nhiều lĩnh

vực như tài chính, sản xuất, điều khiển,…Phân tích chuỗi thời gian bao gồm hai

bước:

Xây dựng một mô hình đại diện cho một chuỗi thời gian.

Sử dụng mô hình để dự báo (dự báo) giá trị trong tương lai.

Nếu Y là giá trị mục tiêu đang hướng tới và Yt là giá trị của Y tại thời điểm t,

hàm mục tiêu để tạo ra một mô hình có dạng:

Yt = f(Yt-1, Yt-2, Yt-3, …, Yt-n) + et (2.6)

Mục đích của phân tích là để thấy rõ mối quan hệ giữa các giá trị Y t được

quan sát đến nay để cho phép chúng ta dự báo giá trị Yt trong tương lai.

2.3.2. Dự báo chuỗi thời gian [14]

Các mô hình dự báo chuỗi thời gian là dự báo giá trị tương lai của một biến số

nào đó, bằng cách phân tích số liệu quá khứ và hiện tại của những biến số đó. Giả

định của dự báo chuỗi thời gian là sự vận động trong tương lai của biến dự báo sẽ

giữ nguyên xu thế vận động trong quá khứ và hiện tại. Như vậy, chỉ có chuỗi ổn

định mới đưa ra những dự báo tin cậy. Tính ổn định của chuỗi dữ liệu thể hiện qua

tính “dừng”, đây là điều kiện quan trọng để phân tích và dự báo chuỗi thời gian.

41

Page 49: MỤC LỤCi MỞ ĐẦU

Dự báo quá khứ là dự báo hậu nghiệm và dự báo các giai đoạn trong tương lai

gọi là dự báo tiền nghiệm. Toàn bộ dự báo được phân chia làm 2 giai đoạn là dự báo

hậu nghiệm (ex-ost) và dự báo tiền nghiệm (ex-ante).

- Giai đoạn dự báo hậu nghiệm: Là thời gian từ quan sát đầu tiên sau khi chấm

dứt giai đoạn mẫu Yn+1 tới quan sát mới nhất Yn. Giai đoạn hậu nghiệm là giai đoạn

kiểm nghiệm sự chính xác tính dự báo của mô hình. Nếu như mô hình không đảm

bảo độ chính xác theo yêu cầu thì người dự báo cần tìm các giải pháp khác như tìm

kiếm mô hình thay thế hoặc mở rộng mẫu dự báo.

- Giai đoạn dự báo tiền nghiệm: Là giai đoạn dự báo tương lai. Đây chính là mục

tiêu của dự báo, nhưng vì chưa xảy ra nên không thể so sánh được. Tuy vậy, một số

tiêu chí thống kê sẽ cho chúng ta đánh giá được mức độ tin cậy của mô hình.

Hình 2.10: Phân tích chuỗi số liệu trong dự báo [14]

. Hình 2.11: Phương pháp luận dự báo chuỗi thời gian [15]

42

Page 50: MỤC LỤCi MỞ ĐẦU

2.3.3. Mô hình tự hồi quy [8]

Mô hình tự hồi quy bậc p được ký hiệu là AR(p) có dạng

- Yt = biến phản ứng (phụ thuộc) tại thời điểm t

- Yt-1, Yt-2, … = biến phản ứng tại các độ trễ t-1, t-2,

- 0, 1, 2,..., p = các hệ số sẽ được ước lượng.

- et = phần sai số tại thời điểm t thể hiện ảnh hưởng của các biến không được giải

thích trong mô hình. Phù hợp với các chuỗi thời gian dừng và hệ số f0 thể hiện

mức cố định của chuỗi dữ liệu (Nếu dữ liệu xoay quanh giá trị 0 hoặc được thể

hiện bằng các độ lệch, thì không cần hệ số f0 )

- Các hệ số tự tương quan giảm từ từ xuống giá trị 0

- Các hệ số tự tương quan riêng sẽ giảm xuống giá trị 0 ngay sau khi độ trễ p

(2.7)

43

Page 51: MỤC LỤCi MỞ ĐẦU

2.3.4. Mô hình trung bình trượt

Mô hình trung bình trượt bậc q ký hiệu là MA(q) được biểu diễn như sau:

(2.8)

- Yt = biến phản ứng (phụ thuộc) tại thời điểm t

- = giá trị trung bình cố định

- w1, w2, w3 = các hệ số sẽ được ước lượng.

- et = phần sai số tại thời điểm t thể hiện ảnh hưởng của các biến không

được giải thích trong mô hình.

- et-1, et-2 = các sai số ở các thời điểm trước, có dạng nhiễu trắng.

2.3.5. Quá trình tự hồi quy trung bình trượt cấp p,q: ARMA(p,q)

Cho một chuỗi dữ liệu thời gian Xt, mô hình ARMA là công cụ để phân tích,

mô tả thậm chí dự báo các giá trị tương lai của chuỗi trên. Mô hình gồm hai phần:

- Thành phần tự hồi quy AR

- Thành phần trung bình trượt MA

Mô hình được ký hiệu là ARMA(p,q) với p là bậc của thành phần tự hồi quy

AR và q là bậc của thành phần trung bình trượt MA.

Một quá trình tự hồi quy trung bình trượt cấp p,q, là một quá trình dừng thỏa:

(2.9)

Trong đó là nhiễu trắng, các đa thức hồi quy a(z) và đa thức trung bình trượt b(z)

có bậc p,q tương ứng:

(2.10)

44

Page 52: MỤC LỤCi MỞ ĐẦU

(2.11)

Dạng toán tử của (2.10) là (2.12)

2.4. KẾT LUẬN CHƯƠNG

Chương hai đã trình bày và phân tích các cơ sở lý thuyết một cách khoa học về

giải thuật di truyền và giải thuật luyện kim trên cơ sở các tài liệu đáng tin cậy và từ

các bài báo đã đăng trên các tạp chí, để làm cơ sở xây dựng mô hình ARMA bằng

việc kết hợp giải thuật di truyền và giải thuật luyện kim cho ra mô hình ARMA để

thực nghiệm trên các mẫu dữ liệu trong chương ba.

Chương 3

XÂY DỰNG VÀ THỰC NGHIỆM MÔ HÌNH DỰ BÁO

Trên cơ sở lý thuyết của chương 2, chương 3 sẽ trình bày phương pháp

học mô hình 2 cấp sử dụng giải thuật di truyền kết hợp giải thuật luyện kim

xây dựng mô hình ARMA tối ưu cho chuỗi dữ liệu thời gian ở dạng số thực để

dự báo và đánh giá nhu cầu sử dụng điện.

45

Page 53: MỤC LỤCi MỞ ĐẦU

3.1. PHÂN TÍCH CHỈ TIÊU ĐÁNH GIÁ HIỆU QUẢ CỦA MÔ HÌNH

Một mô hình chuỗi thời gian ( ) giả định rằng các mẫu trong quá khứ sẽ xuất

hiện trong tương lai. Sai số được tính bằng độ sai lệch giữa giá trị thực và giá trị

dự báo bởi mô hình:

(3.1)

Độ chính xác của toàn bộ mô hình được đánh giá bởi nhiều chỉ tiêu đánh giá

sai số khác nhau, đề tài này sử dụng các chỉ tiêu đánh giá thông dụng:

(3.2)

(3.3)

với: l là số lượng dự báo

là trọng số của chuỗi

Mô hình tự hồi quy trung bình trượt ARMA với hai thành phần: thành phần

hồi quy AR(p) và trung bình trượt MA(q). Mô hình được biểu diễn như sau:

(3.4)

với là giá trị dự báo tại thời điểm t ; là giá trị mẫu tại thời điểm t-i

46

Page 54: MỤC LỤCi MỞ ĐẦU

là nhiễu trắng; là các hệ số AR ; là các hệ số MA

Để so sánh độ thích hợp giữa các mô hình, cần xem xét tiêu chuẩn thống kê

lựa chọn mô hình Bayesian Information Criterion (BIC):

(3.5)

Trong đó: N là số mẫu huấn luyện , p là số tham số mô hình.

3.2. CẤU TRÚC BẢNG DỮ LIỆU

Mô hình là một đối tượng có cấu trúc 2 mảng, mỗi mảng có 27 phần tử mã

hóa cho một phần tử μ, 13 phần tử AR(a1,a2,..,a13), 13 phần tử MA (m1, m2,.., m13).

- Mảng cấu hình là mảng boolean lưu giữ sự tồn tại của các tham số AR và MA.

Nếu giá trị phần tử thứ i trong mảng bằng 0 thì tham số không tồn tại và ngược lại

nếu giá trị phần tử thứ i trong mảng bằng 1 thì tham số tồn tại trong mô hình.

- Mảng giá trị lưu giữ giá trị thực từng tham số AR, MA tương ứng mảng mô hình.

Nếu mảng cấu hình phần tử i bằng 0 thì phần tử thứ i ở mảng giá trị cũng bằng 0.

Hình 3.1 Cấu trúc lời giải của phương pháp SA-GA

Các lời giải được đánh giá ở cấp cấu hình dựa trên chỉ tiêu BIC(3.5) và các bộ

tham số tối ưu được đánh giá dựa trên chỉ tiêu RMSE (3.3)

3.3. MÔ HÌNH ARMA [1] [8] [10]

T F T F... T F T...

0.3 0.0 0.5 0.0... 0.1 0.0 0.5...

μ AR1

AR2

AR13

MA1

MA2

MA13

Mảng Cấu hình

Mảng Giá trị

47

Page 55: MỤC LỤCi MỞ ĐẦU

3.3.1. Mục đích của việc kết hợp hai mô hình

Kết hợp giải thuật di truyền và giải thuật luyện kim trong việc xây dựng mô

hình chuỗi dữ liệu thời gian sẽ giúp tìm ra mô hình dự báo tối ưu sau khi kết thúc

thuật toán, vì giải thuật di truyền giúp tính toán các hệ số tối ưu cho mô hình, giải

thuật luyện kim giúp tìm kiếm các mô hình lân cận. Phần mô tả giải thuật mục 3.3.2

sẽ giúp làm rõ hơn ưu điểm của sự kết hợp hai mô hình.

3.3.2. Mô tả giải thuật

Giải thuật chương trình SA-GA được xây dựng nhằm mục đích tối ưu chương

trình với 2 cấp: Tối ưu cấp mô hình và tối ưu giá trị tham số của các mô hình.

Ban đầu chọn ngẫu nhiên một mô hình, chương trình tìm mô hình bằng cách

dùng giải thuật di truyền để tính toán các hệ số tối ưu cho mô hình. Sau đó chương

trình tìm kiếm các mô hình lân cận bằng cách dùng giải thuật luyện kim. Khi tìm

được một lân cận, chương trình dùng giải thuật di truyền để tính toán bộ tham số tối

ưu. Khi quá trình luyện kim kết thúc, chương trình sẽ lưu lại mô hình tối ưu vừa tìm

được. Sau đó chương trình quay lại bước chọn ngẫu nhiên mô hình và tiến hành

luyện kim. Quá trình này sẽ được tiến hành n lần và trả về mô hình tối ưu cần tìm.

Có thể thấy rằng giải thuật của toàn chương trình được xem như một quá trình luyện

kim. Tuy nhiên với quá trình luyện kim thông thường, hàm đánh giá sẽ được sử

dụng để đánh giá một trạng thái năng lượng. Nhưng với chương trình này, phương

pháp đánh giá được cải tiến bằng cách bổ sung thêm một quá trình tối ưu bằng giải

thuật di truyền và sau đó mới tính toán hàm đánh giá (RMSE, BIC).

Ngoài ra, còn thấy sự khác biệt với giải thuật chung của giải thuật di truyền

hay luyện kim ở chỗ chương trình chọn ngẫu nhiên một trong các phương pháp lai,

đột biến, tìm lân cận để áp dụng cho một lần tiến hành xử lý.

3.3.2.1 Giải thuật chung của chương trình

48

Page 56: MỤC LỤCi MỞ ĐẦU

Lưu đồ

Luyện kim

Đúng

Khởi tạo ngẫu nhiên mô hình đầu tiên

Tối ưu tham số mô hình bằng GA() và

tính RMSE, BIC

Tối ưu tham số mô hình bằng

GA() và tính RMSE, BIC

ĐK dừng SA?

Xác định lân cận mới

Chuyển trạng thái ?

Hạ nhiệt độ

Chuyển sang trạng thái mới

Lặp k

Khởi tạo thông số ban đầu

Bắt đầu

Điều kiện dừng ?

DừngTrả về mô hình

Tối ưu tìm được

Đúng

Đúng

Đúng

ĐúngSai Sai

Sai

Sai

Hình 3.2 Giải thuật SA-GA cho mô hình ARMA

49

Page 57: MỤC LỤCi MỞ ĐẦU

SA-GA()

{

Chọn số lần tìm kiếm mô hình: n

Chọn số lần chạy của chương trình tìm mô hình tối ưu: m

while ( i<n){

Khởi tạo các thông số ban đầu cho GA và SA

Khởi tạo ngẫu nhiên lời giải ban đầu initial

GA(initial) // Dùng GA tối ưu mô hình lời giải ban đầu initial

best = SA(initial) // Dùng SA tìm mô hình tối ưu -> best

}

Trả về mô hình tối ưu

}

3.3.2.2. Giải thuật luyện kim (Xem hình 2.2)

Hàm SA(S) là hàm với tham số đầu vào là mô hình ở dạng mảng boolean sẽ

được tiến hành “luyện kim” để tìm kiếm các mô hình tốt hơn. Hàm đánh giá để so

sánh giữa các mô hình là :

(3.6)

với N là số mẫu huấn luyện; p là số tham số mô hình

Trong hàm SA(), để xác định sai số BIC, ta cần xác định sai số SSE. Sai số

SSE được tính toán dựa trên mô hình hoàn chỉnh. Do đó, hàm GA() được gọi sau

mỗi lần phát sinh lân cận để tối ưu các mô hình giúp các mô hình này có SSE hay

RMSE thấp có thể. Từ đó, ta sẽ xác định được sai số BIC.

Trong quá trình luyện kim, khả năng tìm đến lời giải tối ưu phụ thuộc rất lớn

vào hàm xác định lân cận. Việc xác định lân cận có thể dùng nhiều phương pháp

khác nhau như đảo bit một hay nhiều vị trí trong mảng, đảo vị trí một hay nhiều lần

50

Page 58: MỤC LỤCi MỞ ĐẦU

các phần tử trong mảng,...Để tăng xác suất tìm đến lời giải tối ưu, chương trình sử

dụng hỗn hợp nhiều phương pháp bằng cách chọn ngẫu nhiên một phương pháp

trong một lần phát sinh lời giải lân cận.

3.3.2.3. Giải thuật di truyền (Xem hình 2.9)

Hàm GA(S) dùng giải thuật di truyền để tối ưu bộ tham số có sai số RMSE

nhỏ nhất tương ứng với mô hình S.

Trong bài toán tối ưu mô hình này, các cá thể là các mảng số thực. Hàm đánh

giá độ thích nghi của các cá thể dựa trên sai số:

(3.7)

(3.8)

Quá trình tiến hóa trong giải thuật di truyền trải qua các quá trình chọn lọc,

lai, đột biến. Trong hàm GA(), các quá trình tiến hóa được tiến hành như sau:

- Chọn lọc ngẫu nhiên các cá thể theo phương pháp chọn lọc đấu vòng.

- Lai tạo các phần tử trong mảng cha mẹ để tạo các cá thể con.

- Các cá thể con qua quá trình lai tạo sẽ chọn ngẫu nhiên để tiến hành đột biến.

3.4. KẾT LUẬN CHƯƠNG

Chương trình SA-GA kết hợp hai giải thuật tối ưu, giải thuật di truyền và giải

thuật luyện kim, xây dựng mô hình tự hồi quy trung bình trượt ARMA cho các

chuỗi dữ liệu theo thời gian. Bằng cách chọn lọc ngẫu nhiên các phương pháp tiến

hóa trong giải thuật di truyền và xác định lân cận trong quá trình luyện kim, chương

trình tạo ra nhiều cơ hội tiếp cận lời giải tối ưu.

với l là số lượng dự báo

51

Page 59: MỤC LỤCi MỞ ĐẦU

Chương 4

KẾT QUẢ THỰC NGHIỆM

Đề tài dùng mô hình ARMA xây dựng được bằng phương pháp kết hợp

giải thuật di truyền và giải thuật luyện kim để thử nghiệm các mẫu dữ liệu

thời gian lưu trữ trong thư viện dữ liệu Time Series Data Library[15 ] và

so sánh với các phương pháp khác như ES, ARIMA, GEA, Meta-GAs cùng

chạy trên các chuỗi dữ liệu đó để thấy hiệu quả của mô hình vừa xây dựng

được. Trên cơ sở đó dùng mô hình ARMA thực nghiệm dữ liệu điện tiêu thụ

để dự báo mức tiêu thụ điện ở khu vực Thị xã Thủ Dầu Một trên các loại

ngành nghề chính

4.1. THỬ NGHIỆM MÔ HÌNH ARMA TRÊN CÁC CHUỖI DỮ

LIỆU MẪU LẤY TỪ TIME SERIES DATA LIBRARY[15]

4.1.1. Các chỉ tiêu đạt được trên mô hình ARMA

Kết quả đạt được từ việc thử nghiệm phương pháp SA-GA xây dựng được và

các phương pháp ES, ARIMA, GEA, Meta-GAs trên cùng các chuỗi dữ liệu lấy từ

Time Series Data Library [15]

Bảng 4.1: So sánh phương pháp SA-GA với các phương pháp truyền thống

Series ES ARIMA GEA Meta-GAs SA-GAPassengersPaperDeathsMaxtempChemicalPricesSunspotsKobe

16.5 (0.70%)49.2 (4.4%)135 (37%)0.72 (2.5%)0.35 (51%)7.54 (0.39%)28.4 (35%)3199 (105%)

17.8 (0.81%)61.0 (6.8%)144 (42%)1.07 (5.6%)0.36 (53%)7.72 (0.41%)21.4 (20%)582 (3.5%)

20.9 (1.12%)56,3 (5.8%)134 (37%)0.915 (4.1%)0.343 (48%)7.48 (0.38%)

524 (3%)

17.2 (0.75%)52.5 (5.0%)137 (38%)0.93 (4.3%)0.34 (48%)7.48 (0.38%)17.6 (14%)492 (2.5%)

14.6 (0.56%)42.3 (3.25%)117 (09.65%)0.70 (2.40%)0.30 (38.64%)6.86 (0.32%)16.12(11.44%)478 (2.35%)

52

Page 60: MỤC LỤCi MỞ ĐẦU

Theo bảng 4.1 thấy rằng trên cùng một chuỗi dữ liệu nhưng thử nghiệm

trên các phương pháp khác nhau thì phương pháp SA-GA mới xây dựng có

các chỉ tiêu sai số thấp hơn so với bốn phương pháp khác là ES, ARIMA, GEA

và Meta-GAs. Như vậy phương pháp SA-GA đáng tin cậy, có thể dùng phương

pháp SA-GA để dự báo số kw điện tiêu thụ, trên cơ sở dự báo đó sẽ đánh giá

tình hình tiêu thụ điện trong từng địa phương và từng nhóm ngành nghề trên

địa bàn tỉnh Bình Dương.

4.1.2. Thực nghiệm mô hình ARMA trên chuỗi dữ liệu mẫu lấy

từ Time Series Library

Hình 4.1. Giao diện chính

4.1.2.1. Passengers

Kết quả Chỉ tiêu: - Sai số RMSE: 14.643- Sai số NMSE: 0.569126%

Mô hình = 1.90034-0.189016*x[-1] + 0.917602*x[-2] + 0.106209*x[-5]-0.0189013*x[-6]-0.299376*x[-7] + 0.289585*x[-8]-0.0542281*x[-9] +

53

Page 61: MỤC LỤCi MỞ ĐẦU

0.319468*x[-13] + 0.0855697*e[-6] + 0.292654*e[-7]-0.117429*e[-8] +0.363931*e[-11] + 0.194262*e[-13]

Đồ thị

Hình 4.2: Đồ thị biểu diễn chuỗi Passengers

4.1.2.2. Paper

Kết quả Chỉ tiêu: - Sai số RMSE: 42.3063- Sai số NMSE: 3.25692%

Mô hình = -0.0403665*x[-1] + 1.06261*x[-2]-0.0441954*x[-6] + 0.0638381* x[-9]-0.00104988*x[-13] + 0.238682*e[-4] + 0.184251*e[-5] + 0.413249* e[-8] -0.0423617*e[-11] + 0.0567347*e[-12] + 0.0822773*e[-13]

Đồ thị

Hình 4.3: Đồ thị biểu diễn chuỗi Paper

4.1.2.3. Deaths

54

Page 62: MỤC LỤCi MỞ ĐẦU

Kết quả Chỉ tiêu: - Sai số RMSE: 117.108- Sai số NMSE: 9.6589%

Mô hình = + 0.00836295*x[-3] + 0.981836*x[-13] + 0.113136*e[-1] + 0.49049*e[-2]-0.0246875*e[-3] + 0.00884703*e[-4]-0.0116508*e[-7]-0.0131873*e[-10]-0.181457*e[-13]

Đồ thị

Hình 4.4: Đồ thị biểu diễn chuỗi Deaths

4.1.2.4. Maxtemp

Kết quả Chỉ tiêu: - Sai số RMSE: 0.700592- Sai số NMSE: 2.40224%

Mô hình = -0.00698467*x[-2] + 0.622766*x[-3] + 0.156058*x[-4]-0.188719*x[-5] +0.242065*x[-7]-0.296979*x[-8] + 0.252232*x[-12] + 0.214969*x[-13] +0.126843*e[-1]-0.288518*e[-3] + 0.307476*e[-8]-0.00375709*e[-10] +0.17884*e[-13]

Đồ thị

Hình 4.5: Đồ thị biểu diễn chuỗi Maxtemp

55

Page 63: MỤC LỤCi MỞ ĐẦU

4.1.2.5. Chemical

Kết quả Chỉ tiêu: - Sai số RMSE: 0.307445- Sai số NMSE: 38.6476%

Mô hình = + 0.26686*x[-1] + 0.355099*x[-5]-0.499624*x[-6] + 0.0506984*x[-7] +0.368888*x[-8]-0.138772*x[-12] + 0.59716*x[-13]-0.256873*e[-8] +0.28584*e[-12]

Đồ thị

Hình 4.6: Đồ thị biểu diễn chuỗi Chemical

4.1.2.6. Prices

Kết quả Chỉ tiêu: - Sai số RMSE: 6.86671- Sai số NMSE: 0.322725%

Mô hình = -0.159213*x[-1] + 0.54557*x[-3]-0.484725*x[-8]-0.0369451*x[-9]-0.30524*x[-10] + 0.705118*x[-11] + 0.734692*x[-13] + 0.0135602*e[-1]-0.00395194*e[-2]-0.150441*e[-3] + 0.278167*e[-4] + 0.387034*e[-7]-0.082413*e[-9]-0.0917972*e[-10] + 0.172129*e[-12]

56

Page 64: MỤC LỤCi MỞ ĐẦU

Đồ thị

Hình 4.7: Đồ thị biểu diễn chuỗi Prices

4.1.2.7. Sunspots

Kết quả Chỉ tiêu: - Sai số RMSE: 16.1293- Sai số NMSE: 11.4461%

Mô hình = 8.03808 + 0.386635*x[-3] + 0.137964*x[-4] + 0.0691927*x[-7]-0.0487809*x[-9]-0.135363*x[-10] + 0.0949729*x[-11] + 0.322045*x[-13] +0.309647*e[-4] + 0.29985*e[-5] + 0.471412*e[-12] + 0.803856*e[-13]

Đồ thị

Hình 4.8: Đồ thị biểu diễn chuỗi Sunspots

4.1.2.8. Kobe

Kết quả Chỉ tiêu: - Sai số RMSE: 478.042- Sai số NMSE: 2.35715%

Mô hình = -0.0252638*x[-2] + 0.188254*x[-8] + 0.370064*x[-10]-0.725101*x[-12] +1.03819*x[-13] + 0.0157048*e[-4] + 0.0112543*e[-7]-0.176119*e[-8] +0.198903*e[-9] + 0.671035*e[-10] + 1.2475*e[-13]

57

Page 65: MỤC LỤCi MỞ ĐẦU

Đồ thị

Hình 4.9: Đồ thị biểu diễn chuỗi Kobe

4.1.3. Nhận định kết quả:

- So với chỉ tiêu đạt được trong các phương pháp ES, ARIMA, GEA, Meta-

GAs trên cùng chuỗi dữ liệu lấy từ Time Series Data Library [15] phương pháp SA-

GA dùng mô hình ARMA kết hợp giải thuật di truyền và giải thuật luyện kim hiệu

quả hơn.

- Từ đó có thể nói mô hình ARMA xây dựng kết hợp giải thuật di truyền và

giải thuật luyện kim có độ tin cậy cao, có thể dùng để dự báo nhu cầu sử dụng điện

trên địa bàn Thị xã Thủ Dầu Một.

4.2. THỰC NGHIỆM MÔ HÌNH ARMA CHO CÁC CHUỖI DỮ

LIỆU TRONG LĨNH VỰC NGÀNH ĐIỆN:

Các chuỗi số liệu thực nghiệm được tiến hành xử lý như sau: 80% số liệu

được dùng làm tập huấn luyện, 20% số liệu còn lại là tập kiểm tra. Tiến hành học

mô hình với 20 lần luyện kim và 50 lần di truyền để có kết quả mục 4.2

4.2.1. Dự báo nhu cầu sử dụng điện theo từng khu vực Thị xã

Thủ Dầu Một:

Thị xã Thủ Dầu Một

Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:

58

Page 66: MỤC LỤCi MỞ ĐẦU

1647071.64320048

1403752.17528789

1398831.55180441

1547628.93746529

1328058.01675001

1781038.20935707

1616637.02261042

1528871.75122128

1720145.82675389

1677077.48453076

1690404.41242526

1733122.4429459

- Sai số RMSE: 102588- Sai số NMSE: 0.2395%

Mô hình =+0.472823*x[-2]+0.495794*x[-3]+0.159769*x[-5]+ 0.0103765*x[-6]-0.182896*x[-7]-0.413159*x[-8] + 0.522186*x[-9] + 0.000542884*x[-11]-0.0649524*x[-13] + 0.151313*e[-2] + 0.00425035*e[-3]-0.0214402*e[-5]-0.120807*e[-7]-0.356758*e[-11]-0.573544*e[-13]

Đồ thị

Hình 4.10: Đồ thị biểu diễn chuỗi TDM

4.2.2. Dự báo nhu cầu sử dụng điện theo từng nhóm ngành nghề

trong tỉnh:

4.2.2.1. Nông - Lâm - Thuỷ

Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:

4220077.9227995

4235023.8319363

4211001.67328447

4328368.67312649

4258403.47603567

4390581.6301231

4300404.22503262

4328149.83069635

4225465.02776243

4308350.87271799

4163880.05906767

4311931.39241322

- Sai số RMSE: 154148- Sai số NMSE: 5.08543%

Mô hình = -0.784449 + 0.901214*x[-2] + 0.0622075*x[-3] + 0.0340525*x[-10]+ 0.301425*e[-3] + 0.00419038*e[-6]-0.399522*e[-8] + 0.0291822*e[-10]-0.0491363*e[-11] + 0.378041*e[-13]

59

Page 67: MỤC LỤCi MỞ ĐẦU

Đồ thị

Hình 4.11: Đồ thị biểu diễn chuỗi NLT

4.2.2.2. Công nghiệp - Xây dựng

Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:

104340104.374983

107842464.730714

103647410.348161

108668351.772144

103213356.062378

108433518.379343

104041774.338727

108819467.589822

104328617.054091

108356322.870808

104115231.74067

108274131.912811

- Sai số RMSE: 2889790- Sai số NMSE: 1.08414%

Mô hình = 0.0234394-0.0104701*x[-1] + 0.897218*x[-2] + 0.0858275*x[-6] +0.0225736*x[-9] + 0.0691205*x[-11]-0.0657703*x[-13]-0.402949*e[-2]-0.0234279*e[-4] + 0.0166633*e[-8] + 0.138747*e[-13]

Đồ thị

Hình 4.12: Đồ thị biểu diễn chuỗi CN-XD

4.2.2.3. Kinh doanh - Dịch vụ

60

Page 68: MỤC LỤCi MỞ ĐẦU

Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:

8659442.91885965

8215523.23948274

8652077.4748087

8229213.92030339

8643060.38115619

8240217.89712962

8635474.43204651

8247028.26819923

8628704.45153909

8252088.15066011

8622139.46790516

8256969.5400392

- Sai số RMSE: 86632.5- Sai số NMSE: 0.57629%

Mô hình = 2.33001 + 0.984857*x[-2] + 0.0150475*x[-3]-0.659366*e[-2]-0.00749083*e[-3] + 0.0701026*e[-6] + 0.0350512*e[-8]

Đồ thị

Hình 4.13: Đồ thị biểu diễn chuỗi KD_DV

4.2.2.4. Ánh sáng cơ quan, dân dụng

Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:

1647071.64320048

1403752.17528789

1398831.55180441

1547628.93746529

1328058.01675001

1781038.20935707

1616637.02261042

1528871.75122128

1720145.82675389

1677077.48453076

1690404.41242526

1733122.4429459

- Sai số RMSE: 1150550- Sai số NMSE: 1.79683%

Mô hình = + 0.320346*x[-1] + 0.143703*x[-2] + 0.389209*x[-3]-0.196562*x[-7]+ 0.117755*x[-8] + 0.140133*x[-9]-0.300133*x[-11] + 0.38587*x[-13] +0.0740661*e[-2]-0.146902*e[-3]-0.0169*e[-4] + 0.0241825*e[-6] +0.176944*e[-7]-0.375533*e[-8]-0.147328*e[-10] + 0.147028*e[-11] +0.216134*e[-12]-0.78267*e[-13]

61

Page 69: MỤC LỤCi MỞ ĐẦU

Đồ thị

Hình 4.14: Đồ thị biểu diễn chuỗi AS

4.2.2.5. Thành phần khác

Kết quả Dự báo: Năm tiếp theo (12 tháng) Chỉ tiêu:

6461788.33208789

6261107.04481316

6404976.29479137

6745902.08896549

6685130.54032837

7213927.81171414

7329658.00449481

7398819.67463232

7683406.55794019

7464759.90251792

7555639.2260551

7829110.16130043

- Sai số RMSE: 388457- Sai số NMSE: 2.23097%

Mô hình = + 0.322174*x[-1] + 0.578718*x[-2] + 0.207935*x[-3] +0.001297*x[-5] + 0.0429304*x[-11]-0.150349*x[-12]-0.000155344*e[-2]-0.11849*e[-3]-0.171778*e[-4]-0.203085*e[-8] + 0.0409995*e[-9]-0.679243*e[-13]

Đồ thị

Hình 4.15: Đồ thị biểu diễn chuỗi KHAC

62

Page 70: MỤC LỤCi MỞ ĐẦU

KẾT LUẬN

Đề tài đã sử dụng một số cải tiến trong phương thức tiến hóa của giải thuật di

truyền và phương thức xác định lân cận của giải thuật luyện kim để tăng hiệu quả

xác định mô hình trung bình trượt tự hồi quy ARMA cho các chuỗi dữ liệu thời gian

ứng dụng vào đánh giá nhu cầu sử dụng nguồn năng lượng điện. Sự kết hợp hai giải

thuật để xây dựng mô hình dự báo chuỗi dữ liệu thời gian, khi thực nghiệm cho kết

quả tối ưu hơn so với các phương pháp truyền thống. Việc áp dụng vào dự báo nhu

cầu sử dụng điện trên địa bàn Thị xã cũng đem lại kết quả khả quan. Tuy nhiên do

tính chất phức tạp của bài toán dự báo, nên mô hình này còn cần có thời gian điều

chỉnh, thử nghiệm và kiểm chứng nhiều trong tương lai.

63

Page 71: MỤC LỤCi MỞ ĐẦU

KIẾN NGHỊ CÁC HƯỚNG NGHIÊN CỨU TIẾP THEO

Đề tài có thể được phát triển thêm theo một số hướng:

- Việc phát sinh lời giải lân cận của thuật giải luyện kim giúp cho bài toán nhanh

hội tụ về lời giải tối ưu, do đó cần nghiên cứu để tăng hiệu quả tìm kiếm lân cận.

- Xây dựng chương trình demo cho đề tài hoàn chỉnh hơn, thử nghiệm trên nhiều

chuỗi dữ liệu thời gian khác nhau thuộc lĩnh vực khác để điều chỉnh mô hình sao

cho đạt hiệu quả nhất, ít sai số, độ tin cậy cao hơn và thời gian hoàn thành nhanh

hơn, có thể sử dụng được với mọi tập dữ liệu chuỗi thời gian khác nhau để phục

vụ tốt cho công tác dự báo

DANH MỤC TÀI LIỆU THAM KHẢO

[1] Ong Nguyên Chương (2007), “Mô hình Arima với phương pháp Box -

Jenkins và ứng dụng để dự báo lạm phát của Việt Nam”, Tạp chí Khoa học,

(số 19). Đại học Kinh tế, Đại học Đà Nẵng

[2] Nguyễn Thị Thúy Hoài (2008), “Thuật giải di truyền và ứng dụng”, Tuyển

tập Báo cáo Hội nghị Sinh viên NCKH lần thứ 6, Đại học Đà Nẵng.

[3] Trương Quang Đăng Khoa, Phan Thị Thanh Bình, Nguyễn Minh Hiếu

(2007), “Tái cấu trúc lưới phân phối 3 pha để giảm tổn thất điện năng bằng

các giải thuật meta – heuristic” , Tạp chí phát triển khoa học và công nghệ,

tập 10 (số 02), Trường Đại học Bách Khoa, ĐHQG – HCM

[4] Phạm Văn Ký, Nguyễn Hữu Thiện, Phương pháp thuật giải di truyền và

tìm mặt cắt dọc tối ưu đường sắt đô thị, Trường Đại học Giao thông Vận tải

64

Page 72: MỤC LỤCi MỞ ĐẦU

[5] Nguyễn Hồ Quỳnh (2004), Chuỗi thời gian: Phân tích và Nhận dạng, Nhà

xuất bản Khoa học và Kỹ thuật, Hà nội. Nguyễn Quán Thăng, Nguyễn

Tuấn Anh, Nguyễn Thế Minh, “So sánh một số phương pháp tìm kiếm tối

ưu ứng dụng trong kỹ thuật”

[6] Nguyễn Đình Thúc (2002), Lập trình tiến hóa, NXB Giáo dục, Hà nội.

[7] Bùi Quang Trung, Nguyễn Quang Minh Nhi, Lê Văn Hiếu, (2010), “Ứng

dụng mô hình ARIMA để dự báo VNINDEX”, Tuyển tập Báo cáo Hội nghị

Sinh viên Nghiên cứu Khoa học lần thứ 7, ĐH Đà Nẵng

[8] Nguyễn Ngọc Tú, Trần Văn Lăng (2007), “Giải thuật lai cho bài toán xếp

hàng đa trình tự sinh học”, Tạp chí phát triển khoa học và công nghệ, tập

10 (số 4).

[9] Aydın KIZILKAYA and Ahmet H. KAYRAN, “Estimation of The ARMA

Model Parameters Based on The Equivalent MA Approach”, Senior

Member, IEEE.

[10] P. Cortez, M. Rocha, and J. Neves (Dec 2001), “A Meta-Genetic

Algorithms for Time Series Forecasting”, In Proceedings of Workshop on

Artificial Intelligence Techniques for Financial Time Series Analysis

(AIFTSA-01), 10th Portuguese Conference on Artificial Intelligence

[11] Paulo Cortez, Miguel Rocha, and José Neves, “Genetic and Evolutionary

Algoritms for Time Series Forecasting”, Departamento de Informática

Universidade do Minho Braga - PORTUGAL

[12] Z. Michalewicz (1996). Genetic Algorithms + Data Structures = Evolution

Programs. Springer-Verlag, USA, Thirst edition.

[13] Nguyễn Thành Sơn, Các mô hình quản lý thị trường điện lực và khả năng

áp dụng tại Việt Nam, http://www.lrc.ctu.edu.vn/pdoc/13/Cacmoinhquanly.pdf

65

Page 73: MỤC LỤCi MỞ ĐẦU

[14] Phòng nghiên cứu vietstock, 7-2-2011, Dự báo thị trường chứng khoán

bằng phương pháp định lượng, Niên giám Doanh nghiệp Niêm yết

http://vietstock.vn/tabid/57/NewsID/179888/ ChannelID/585 /Default.aspx

[15] R. Hyndman (2001). Time Series Data Library. Available from http://www-

personal.buseco.monash.edu.au/~hyndman/TSFL/

[16] Hoàng Kiếm (2009), Thuật giải di truyền – Genetic Algorithm,

http://www.scribd.com/doc/22824161/Thuat-giai-di-truyen

[17] Trương Thị Thuý Lan-Kiều Tuấn Dũng-Nguyễn Minh Châu, 2011, Sử dụng

thuật toán luyện kim song song giải quyết bài toán Maxsat, Thư viện điện tử

trực tuyến , http://kilobooks.com

[18] http://www.scribd.com/doc/58271683/Giai-Thuat-Di-Truyen

[19] http://viahe.talk4fun.net/cntt/it-bk/2010/11/giai-thuat-di-truyen

[20] http://viahe.talk4fun.net/cntt/it-bk/2010/11/giai-thuat-di-truyen

[21] http://vi.wikipedia.org

PHỤ LỤC

PHỤ LỤC 1: Tình hình sản xuất kinh doanh trên địa bàn tỉnh Bình

Dương

1. Về điện thương phẩm

Bảng1.1 : Tình hình sản xuất kinh doanh điện thương phẩm

Năm

Điện TP

(Triệu

kWh)

Tăng

trưởng

(%)

Tỷ trọng

CN-XD NL-TS KS-NH CQ-QL Khác

2006 2.807 23.71% 80.7% 0.05% 1.6% 16.6% 1.06%2007 3.608 28.54% 82.9% 0.03% 1.6% 14.5% 0.95%

66

Page 74: MỤC LỤCi MỞ ĐẦU

2008 4.151 15.04% 82.7% 0.02% 1.8% 14.5% 0.96%2009 4.619 11.27% 82.6% 0.02% 2.0% 14.4% 1.10%2010 5.220 13.01% 83.9% 0.02% 1.8% 14.1% 1.08%

2. Tình hình đầu tư xây dựng

Bảng1.2 : Tình hình đầu tư xây dựng lưới điện

NămLưới 220kV Lưới 110kV Lưới trung thế Hạ thế Tổng mức

ĐT (Tr.đ)Km MVA Km MVA Km MVA KmTổng số 14.7 500 70.5 653 457 3 43 1.351.2702006 14.7 250 20 275 111 0.553 2 600.7802007 23 63 106 125.0502008 17 63 104 112.4502009 8.47 126 71 1.6 14 137.940Ước 2010 250 2 126 65 1.1 27 375.050

PHỤ LỤC 2: Các chuỗi dữ liệu thực nghiệm mẫu lấy từ Time Series

data Library

67

Page 75: MỤC LỤCi MỞ ĐẦU

PHỤ LỤC 3: Một số bảng cấu trúc dữ liệu Điện

Bảng 3.1: Thống kê mô tả các nhóm ngành nghề trong Thị xã

68

Page 76: MỤC LỤCi MỞ ĐẦU

Bảng 3.2: Thống kê số kw điện tiêu thụ ở Thị xã Thủ Dầu Một

Bảng 3.3: Thống kê số kw điện tiêu thụ thuộc các nhóm ngành nghề trong Thị

69

Page 77: MỤC LỤCi MỞ ĐẦU

70