27
TRƯỜNG KH ðề tài : GRID C Ging viên Nhóm thc hi TP H G ðI HC BÁCH KHOA TP.HCM HOA KHOA HC MÁY TÍNH ÁO CÁO SEMINAR COMPUTING & ESCIENC ------o0o------ : TS. Phm Trn Vũ in: Nguyn Trí Tài 1007 Nguyn Quyết Thng 1007 HChí Minh tháng 06 năm 2011 CE 70939 70940

BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

TRƯỜNG

KHOA

BÁO CÁO

ðề tài:

GRID C

Giảng viên

Nhóm thực hi

TP H

NG ðẠI HỌC BÁCH KHOA TP.HCM

KHOA KHOA H ỌC MÁY TÍNH

������������

BÁO CÁO SEMINAR

COMPUTING & ES CIENCE

------o0o------

: TS. Phạm Trần Vũ

c hiện: Nguyễn Trí Tài 10070939Nguyễn Quyết Thắng 10070940

TP Hồ Chí Minh tháng 06 năm 2011

CIENCE

10070939 10070940

Page 2: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

Grid và eScience

Mục lục 1. Giới thiệu về eScience .......................................................................................................................... 4

1.1. Lời mở ñầu .................................................................................................................................... 4

1.2. EScience là gì? .............................................................................................................................. 4

1.3. Dùng thuật ngữ eScience , CyberInfrastructure hay e-Research? ................................................ 6

2. Những ñộng lực thúc ñẩy sự ra ñời của eScience ................................................................................. 7

2.1. Khoa học tập trung vào dữ liệu (data-intensive) ........................................................................... 8

2.2. Nghiên cứu khoa học dựa trên việc giả lập và mô phỏng ............................................................. 8

2.3. Truy xuất từ xa ñến các công cụ và dữ liệu .................................................................................. 9

3. Cơ sở hạ tầng hiện thực cho EScience ................................................................................................ 10

3.1. Những ñặc ñiểm, tính chất mà một ứng dụng EScience cần có .................................................. 10

3.2. Mô hình EScience phát triển dựa trên hệ thống lưới .................................................................. 11

3.3. Những thử thách khi hiện thực một hệ thống EScience .............................................................. 13

3.4. Tổ chức hay cộng ñồng ảo .......................................................................................................... 14

4. Viễn cảnh eScience mang lại cho khoa học ........................................................................................ 14

5. Sơ lược một số chương trình EScience của vương quốc Anh............................................................. 14

5.1. Các dự án khởi ñầu (pilots project) của eScience ....................................................................... 15

a. RealityGrid .................................................................................................................................. 15

b. Comb-e-Chem ............................................................................................................................. 15

c. Distributed aircraft maintenance environment (DAME) ............................................................ 16

d. myGrid ........................................................................................................................................ 16

e. GridPP ......................................................................................................................................... 16

f. AstroGrid .................................................................................................................................... 17

5.2. EScience Core Programme ......................................................................................................... 17

a. Hiện thực hạ tầng mạng kết nói các EScience Centres ............................................................... 17

b. ðịnh hướng cho sự phát triển Grid middleware.......................................................................... 18

c. Interdisciplinary Research Collaboration (IRC) ......................................................................... 18

d. Danh sách các dự án hiện tại của eScience UK .......................................................................... 18

6. Ứng dụng eScience trong nghiên cứu về thiên văn ............................................................................. 19

6.1. eScience và thiên văn học ........................................................................................................... 19

Page 3: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

a. Thiên văn học .............................................................................................................................. 19

b. Dữ liệu thiên văn học .................................................................................................................. 20

c. Ứng dụng eScience trong thiên văn học ..................................................................................... 20

d. Thuật ngữ .................................................................................................................................... 20

6.2. Virtual Observatory .................................................................................................................... 21

a. Giới thiệu .................................................................................................................................... 21

b. Kiến trúc của VO ........................................................................................................................ 21

c. Virtual Observatory trên thế giới ................................................................................................ 22

6.3. Image Computing ........................................................................................................................ 23

a. Virtual Sky .................................................................................................................................. 23

6.4. Database Computing ................................................................................................................... 24

a. VOTable ...................................................................................................................................... 24

b. Khai phá dữ liệu và vấn ñề ảo hóa .............................................................................................. 26

7. Tài liệu tham khảo .............................................................................................................................. 27

Page 4: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

1. Giới thi ệu về eScience

1.1. Lời mở ñầu

Sự hiểu biết của chúng ta về thế giới cũng vì thế mà thay ñổi. Nduy chủ quan ñể ñánh giá, xem xéttriển của các ngành khoa học thựkhoa học máy tính giúp chúng ta nh

Hãy xem xét một số vấn ñề cñen va chạm với nhau? Các yếu tnhư thế nào? Một trong hàng tỷ Collider) sẽ tạo ra ñược Higgs boson, ltrụ.

Liệu khoa học thực tại có khả

Sự phát minh ra các mạng cảkhối lượng dữ liệu khổng lồ. Ngugiới tự nhiên gửi ñến cho con ngưtích khối dữ liệu khổng lồ này.

Có thể nói khoa học hiện ñại là khoa hcác chuyên gia trên tòan thế giới ñkhoa học tòan cầu ñủ sức ñáp ứng nhu c

1.2. EScience là gì?

Có nhiều ñịnh nghĩa, quan ñi

nhiều chuyên gia về eScience ñể có

Thuật ngữ EScience ñược John Taylor, tHiệp Anh ñưa ra vào năm 1999 và ñầu từ tháng 11-2000.

thế giới ngày càng trở nên sâu sắc. Cách thức con ngi. Nếu như trước ñây họat ñộng khoa học thường sử

xem xét các sự vật, hiện tượng và phỏng ñóan thế giới thì ngày nay sực nghiệm ñược nâng tầm bởi những công nghệ tiên

c máy tính giúp chúng ta nhận thức ñầy ñủ và chính xác hơn về thế giới.

của thời ñại: ðiều gì sẽ xảy ra với không gian và thu tố nào ảnh hưởng trực tiếp ñến sự thay ñổi của khí h

tỷ va chạm của các hạt trong các thí nghiệm của LHC (Higgs boson, lỗ ñen hay vật chất tối? ðâu là nguồn gốc của con ng

ả năng ñưa ra những câu trả lời thõa ñáng ?

ảm biến, các hệ thống thu thập dữ liệu lớn giúp chúng ta l. Nguồn dữ liệu này là vô cùng quý giá, chúng là những thông

n cho con người. Tuy nhiên ñể hiểu biết ñược thế giới ñòi hỏi con ng

i là khoa học dựa trên nền tảng phân tích dữ liệu. Các ngành khoa hi ñứng trước yêu cầu này phải hợp tác với nhau tạo nên m

ng nhu cầu của thời ñại.

ñiểm khác nhau về eScience. Trong báo cáo sẽ trình bày quan có ñược cái nhìn rộng hơn về khái niệm này.

c John Taylor, tổng giám ñốc của Phòng khoa học và công ghm 1999 và ñược dùng ñể mô tả một dự án với số vốn lớn tại Liên Hi

c con người cảm nhận về ử dụng rất nhiều tư

i thì ngày nay sự phát tiên tiến của ngành

thời gian khi hai lổ a khí hậu? Protein sẽ ñảo

LHC (Large Hadron a con người, của vũ

n giúp chúng ta lấy ñược một ng thông ñiệp mà thế

i con người phải phân

u. Các ngành khoa học, o nên một cộng ñồng

trình bày quan ñiểm của

c và công ghệ của Liên i Liên Hiệp Anh, bắt

Page 5: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

“e” trong eScience không phải là một từ viết tắt mà nó có mang là khó và phức tạp. EScience theo một cách có thể ñược hiểu là một kiến trúc hướng tới cái gọi là “khoa học mở”.

Theo Dr John Taylor:” EScience là thuật ngữ nói về sự hợp tác tòan cầu trong những ngành khoa học trọng ñiểm và cơ sở hạ tầng thế hệ thế hệ mới hiện thực sự hợp tác tòan cầu nói trên”.

Theo Dr Tony Hey, giám ñốc dự án của UK eScience, thì EScience chính là một hạ tầng cơ sở cho các ngành khoa học phát triển (e-Infrastructure), nhờ vào khả năng cung cấp kết nối và các dịch vụ tính toán, truy cập thông tin, ứng dụng ngày càng rộng lớn mà khoa học máy tính ñang ñem lại cho các nhà khoa học. Tony Hey cho rằng chúng ta hiện ñang tiến vào kỷ nguyên “khoa học tập trung vào dữ liệu” (data-centric science). Bản chất của ngành khoa học này là tập hợp dữ liệu, thường với số lượng lớn và từ nhiều nguồn khác nhau, rồi khai thác chúng ñể biết ñược những nội dung vốn sẽ không bao giờ xuất hiện nếu công việc này ñược làm thủ công hoặc từ việc phân tích bất kỳ một nguồn dữ liệu ñơn lẻ nào.

John Taylor, năm 2011:” eScience sẽ thay ñổi một cách tích cực cái cách mà khoa học ñang thực hiện”.

Kỷ nguyên của khoa học tập trung vào dữ liệu

Theo giáo sư Malcolm Atkinson, giám ñốc NeSC tại Edinburgh và trung tâm eScience quốc gia của

Liên Hiệp Anh: “eScience là sự phát triển có hệ thống của các phương pháp nghiên cứu ñòi hỏi nhiều sự tính toán”. Theo ông, eScience sẽ thay ñổi cách con người làm việc, giúp giải quyết các vấn ñề nhanh hơn. Con người sẽ tập trung những nỗ lực của các cộng ñồng khoa học, huy ñộng những dữ liệu ñược chia sẻ và sức mạnh tính toán ñể ñối mặt với những thách thức cấp bách. Một khi các trang web cho phép chúng ta chia sẻ thông tin, khoa học ñiện tử sẽ cho phép các nhóm nghiên cứu cộng tác ñể biến dữ liệu thành thông tin và kiến thức.

Page 6: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

Các công việc nghiên cứu phức tap, ñòi hỏi nhiều thời gian và nỗ lực

Giáo sư Jon Kleinberg, ðại học Cornell, nói: “Một xu hướng ñang ngày càng trở nên rõ ràng là khoa học máy tính không còn là ngành cung cấp công cụ máy tính cho các nhà khoa học. Nó thực sự trở thành một phần của cách thức các nhà khoa học xây dựng học thuyết và suy nghĩ về những vấn ñề của họ”. Theo ông Kleinberg, vai trò của thuật toán máy tính ñối với khoa học trong thế kỷ 21 cũng sẽ tương tự như vai trò của toán học (ñối với khoa học) trong thế kỷ 20.

Giáo sư Kleinberg nói thêm rằng kho dữ liệu khổng lồ trên Internet sẽ thay ñổi thực tiễn của những ngành khoa học liên quan ñến hành vi con người. Theo lý giải của ông, số lượng dữ liệu khổng lồ và các phương pháp phân tích mới hiện nay ñồng nghĩa với việc các nhà khoa học sẽ không còn phải lập công thức chi tiết về những học thuyết và mô hình rồi kiểm chứng chúng trên dữ liệu thực nghiệm.

Tony Blair, thủ tướng nước Anh, năm 2002: “EScience ñược ñịnh hướng làm cho việc tận dụng nguồn lực to lớn của ngành khoa học máy tính, hệ thống tài nguyên dữ liệu khoa học và những thiết bị thực nghiệm tối tân dễ dàng như Web ñể truy cập thông tin”.

Tóm lại, eScience không phải chỉ là sự truyền tải trên nền tảng băng thông rộng cũng không phải là các máy tính hiệu suất cao HPC (High Performance Computers) chạy các chương trình mô phỏng thông qua hệ thống lưới. Nói về eScience là nói về việc khai phá dữ liệu kỹ thuật số ñể phục vụ cho tất cả các họat ñộng, các nhu cầu của khoa học, nói về cơ sở hạ tầng hỗ trợ cho các ngành khoa học quy mô lớn thông qua sự hợp tác tòan cầu dựa trên nền tảng tính tóan lưới, nói về một cộng ñồng ảo ñể các nhà khoa học các chuyên gia có thể trên ñó làm việc với nhau bất kể họ ñang ở ñâu trên thế giới, nói về việc chia sẻ và truy cập tòan cầu vào hệ thống tài nguyên khoa học.

1.3. Dùng thuật ngữ eScience , CyberInfrastructure hay e-Research?

Page 7: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

Thuật ngữ EScience gần giống, nhưng không hoàn toàn, ñồng nghĩa với thuật ngữ CyberInfrastucture. Trong khi EScience xuất xứ từ UK và châu Âu, CyberInfrastucture bắt nguồn từ US. Cả hai thuật ngữ ñều ñề cập ñến việc sử dụng các công nghệ tính toán dựa trên môi trường mạng ñể hỗ trợ sự cộng tác và cải tiến các phương pháp trong nghiên cứu khoa học. Trong khi EScience chú trọng hơn ñến nghiên cứu khoa học, thì CyberInfrastructure bao gồm cả các lĩnh vực ngoài khoa học, nhấn mạnh ñến sự kết hợp giữa các nguồn tài nguyên siêu tính toán và sự cách tân.

Một số nhà nghiên cứu khác lại thích sử dụng một thuật ngữ khác: e-Research. e-Research là sự mở rộng của EScience và CyberInfrastructure, bao gồm các lĩnh vực khác như khoa học xã hội và con người. e-Research nhấn mạnh ñến việc sử dụng công nghệ thông tin ñể hỗ trợ các phương thức nghiên cứu hiện tại và tương lai.

Một số nhà nghiên cứu khác lại thích sử dụng một thuật ngữ khác: e-Research. e-Research là sự mở rộng của EScience và CyberInfrastructure, bao gồm các lĩnh vực khác như khoa học xã hội và con người. e-Research nhấn mạnh ñến việc sử dụng công nghệ thông tin ñể hỗ trợ các phương thức nghiên cứu hiện tại và tương lai.

Các ñặc ñiểm chính của e-Research bao gồm:

• Sự cộng tác. • Sử dụng công nghệ tính toán lưới.

• Tập trung vào dữ liệu.

2. Những động lực thúc đẩy sự ra đời của eScience

EScience là nhân tố cơ bản cho các phát triển trong khoa học. Khát vọng và mục tiêu của các nhà khoa học ngày càng lớn, nhưng nếu thiếu EScience, những ý tưởng ñầy cảm hứng sẽ thất bại tại chướng ngại ñầu tiên. Một lý thuyết hay giả thuyết khoa học (bước khởi ñầu trước khi tiến hành bất cứ thí nghiệm nào) cũng ñòi hỏi phải thu thập một lượng thông tin khổng lồ.

Nghiên cứu khoa học, hiển nhiên, ñòi hỏi những các nhân chuyên nghiệp từ nhiều ngành khác nhau. Tuy nhiên, cũng có các nghiên cứu ñặc biệt chỉ yêu cầu các yếu tố ñầu vào, tri thức, và kĩ năng của các nhà khoa học trên thế giới. ðiều này làm nổi bật khả năng của EScience: cho phép làm việc với khối lượng khổng lồ dữ liệu và thông tin trên thế giới.

Nếu khoa học phát triển và các phát minh mới ñược tạo ra, EScience chính là yếu tố kích thích, thúc ñẩy, ñộng lực cho sự phát triển ñó. Các nhóm nghiên cứu tại Liên Hiệp Anh vừa hoạt ñộng như các thực thể ñơn lẻ, vừa tạo thành các nhóm ñể ñáp ứng các cải tiến công nghệ cần thiết khi tri thức, hiểu biết khoa học gia tăng. Còn rất nhiều vấn ñề mà con người chưa giải quyết ñược. Ví dụ như các dịch bệnh chưa có cách chữa trị, các hiện tượng bất thường ñầy bí ẩn không thể giải thích ñược, và các rào cản chưa thể vượt qua.

EScience chính là ñộng lực cho việc giải quyết các vẫn ñề trên. EScience cung cấp cho các nhà khoa học, các nhà nghiên cứu một cấu trúc qua ñó họ có thể làm việc ñể khám phá ra các tri thức chưa ñược biết. Nếu không có khả năng lưu trữ dữ liệu, khả năng chia sẻ, liên hệ thông tin trên toàn cầu, khoa học sẽ dẫm chân tại chỗ.

Page 8: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

2.1. Khoa học tập trung vào dữ liệu (data-intensive)

Sự phát triển của khoa học kỹ thuật dẫn ñến các thiết bị nghiên cứu ngày càng có ñộ chính xác cao hơn ñiều này cũng làm cho khối lương dữ liệu mà nó sinh ra ngày càng nhiều theo ước tính thì ñến vài petabyte dữ liệu sẽ ñươc tạo ra trong các thí nghiệm của thiên văn học, y học, vật lý nguyên tử, năng lượng, môi trường.

Large Hadron Collider (LHC) là một dự án của CERN ñặt tại Geneve khi vận hành trở lại vào cuối năm 2009 có thể sinh ra một lượng dữ liệu lên ñến vài petabyte hàng năm. LHC là dự án lớn nhất từ trước ñến nay trong lĩnh vực vật lý. Mỗi thí nghiệm muốn tiến hành cẩn phải có ñến sự cộng tác của hơn 5000 nhà vật lý trên toàn thế giới. Quá trình phân tích dữ liệu thu thập ñược cũng cần phải có sự cộng tác của các nhiều tổ chức tham gia mục tiêu, là tìm ra dấu hiệu của Higgs boson.

Các thiết bị theo dõi và tiên ñoán sự cố trong công nghiêp cũng có thể tạo ra một lượng lớn dữ liệu. Các thiết bị cảm ứng dùng ñể theo dõi nhiệt ñộ, áp suất, chấn ñộng trong các mỗi ñộng cơ của hàng ngàn ñộng cơ do Rolls-Royce sản xuất cho các phi cơ của trans-Alantic có thể sinh ra hàng petabyte dữ liệu hàng năm.

2.2. Nghiên cứu khoa học dựa trên việc giả lập và mô phỏng

Mô phỏng (numerical simulation) là một hướng giải quyết các vấn ñề khoa học mà dựa chủ yếu vào việc sử dụng các siêu máy tính ñể thực hiện mô phỏng các hiện tượng tự nhiên như sự biến ñổi của khí hậu hay sự kết hợp của các lổ ñen trong thiên văn học, ñộng ñất, lũ, …

Page 9: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

Mô phỏng một dòng sông khi ñổ ra biển

Năm 2003, Japanese Earth Simulator ñã thực hiện mô phỏng khí hậu của trái ñất với một siêu máy tính có tốc ñộ xử lý lên ñến 40 teraflop/sec ñể có thể mô phỏng hơn10km theo chiều rộng và khối lượng dữ liệu sinh ra cho mỗi lần mô phỏng lên ñến vài chục terabyte.

Trong lĩnh vực hóa thì các thí nghiệm có thể thực hiện thông qua các máy tính với các tập dữ liệu sẵn có về các hóa chất và những ñặc tính của chúng thì việc tiến hành các thí nghiệm có thể thực hiện một cách nhanh chóng. Các phân tử mới có thể ñược tạo ra từ các thao tác trên máy tính thay vì tiến hành ở phòng thí nghiệm. Comb-e-Chem một trong những dự án (pilot project) thuộc EScience ñã hiện thực ý tưởng này, mục tiêu của dự án là tạo ra các kết hợp mới sau ñó sẽ xác ñịnh cấu trúc và thuộc tính của các hợp chất mới ñược tạo ra ñể tìm kiếm các công thức hóa học mới. Việc tổng hợp sẽ ñược thực hiện song song và có thể tạo ra hàng trăm nghin tổ hợp cùng lúc.

2.3. Truy xuất từ xa đến các công cụ và dữ liệu

Mô phỏng và phân tích dữ liệu ñóng vai trò ngày càng quan trọng trong các lĩnh vực khoa học ngày nay, tuy nhiên, việc tiến hành các thí nghiệm thực tế cũng không thể thiếu ñược. Ngày càng có nhiều thiết bị thí hỗ trợ nghiên cứu mới ñược phát triển, bên cạnh ñó thì hạ tầng mạng băng thông cũng ngày càng mở rộng, cho phép các nhà nghiên cứu có thể kết hợp các thiết bị này lại với nhau ñể tiến hành các thí nghiệm phức tạp ñòi hỏi sự tham gia của các chuyên gia trong nhiều lĩnh vực. Việc thiết kế, tiến hành và giám sát các thí nghiệm có thể ñược thực hiện thông qua mạng internet bằng cách truy xuất từ xa vào thiết bị.

Network for Earthquake Engineering Simulation (NEES) là chương trình do NSF phát triển dưới sự chỉ ñạo của George E. Brown Jr nhằm tìm cách giảm thiệt hại của các trận ñộng ñất thông qua việc sử dụng các công cụ ñể giả lập các trận ñộng ñất và từ ñó có thể tìm ra ñược các câu trúc cũng như vật liệu mới có thể chịu ñược các cơn chấn ñộng. NEESgrid ñược triển khai nhằm liên kết các nhà khoa học ở US có thể chia sẻ cũng như kết hợp các thiết bị thí nghiệm, nguồn dữ liệu và cả nguồn tài nguyên tính toán. NEESgrid middleware cho phép các nhóm cộng tác với nhau (bao gồm cả các thành viên ñăng nhập từ xa) lên kế hoạch, thiết kế, và tiến hành các thực nghiệm sau ñó nguồn dữ liệu thu ñược chia sẻ ñể xử lý. NEESgrid cho phép các cộng tác viên có thể ñăng nhập từ xa ñể theo dõi cũng như vận hành các thí nghiệm ñã ñược chuẩn bị sẵn, bên cạnh ñó họ cũng ñược cho phép sử dụng các tài nguyên tính toán vả các công cụ phân tích mả nguồn mở ñể xử lý nguồn dữ liệu thu ñược. NEESgrid hỗ trợ việc chi sẻ dữ liệu thông qua cung cấp nơi lưu trữ, chuẩn cho ñịnh dạng dữ liệu và metadata.

Page 10: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

Mô hình NEESgrid

3. Cơ sở hạ tầng hiện thực cho EScience

3.1. Những đặc điểm, tính chất mà một ứng dụng EScience cần có:

• Lưu trữ: Một hệ thống cần phải có khả năng lưu trữ và xử lý một lượng dữ liệu khổng lồ một cách hiệu quả với thời gian hợp lý.

• Quyền sở hữu: Các bên liên quan cần ñược bảo lưu quyền sở hữu về những nội dung và khả năng xử lý của họ. Tuy nhiên cũng cần phải cho phép người khác truy cập dưới các ñiều kiện và hoàn cảnh thích hợp.

• Nguồn gốc: Việc lưu trữ các thông tin ñáng tin cậy cho phép sử dụng lại các kết quả, thử nghiệm, hay cung cấp bằng chứng về việc có ñược các thông tin ñó.

• Trong suốt: Người dùng cần có khả năng tìm ra, truy cập và xử lý các nội dung liên quan bất cứ khi nào chúng xuất hiện trên Grid mà không cần biết nó nằm ở ñâu.

• Cộng ñồng: Phải cho phép hình thành, hoạt ñộng, và giải tán các cộng ñồng ảo với những tiêu chuẩn giới hạn thành viên và ñiều khoản hoạt ñộng.

• Kết hợp: Thông tin cần phải ñược kết hợp từ nhiều nguồn, bằng nhiều cách khác nhau theo nhu cầu của người dùng. Các mô tả về nguồn gốc, nội dung sẽ ñược dùng ñể kết hợp nên các thông tin ñầy ñủ nghĩa.

• Hội nghị: ðôi khi việc nhìn thấy các thành viên khác của một hội nghị, các mô hình,sự hiển thị của những gì ñang ñược thảo luận sẽ rất hữu dụng.

• Chú giải: Từ việc ghi nhận thông tin cho ñến xuất bản các phân tích, cần thiết phải có các chú giải ñể làm giàu thêm mô tả về các nội dung số. Các siêu nội dung này có thể áp dụng cho dữ liệu, thông tin, hay tri thức và phụ thuộc vào cách diễn giải quy ước.

• Quy trình : ðể hỗ trợ quá trình ban hành và tự ñộng hóa các xử lý, hệ thống cần mô tả về các xử lý ñó.

• Thông báo: lời nhắc về việc có các thông tin mới tới cho phép thông báo cho người dùng và bắt ñầu quá trình xử lý tự dộng.

Page 11: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

• Hỗ trợ quyết ñịnh: Các kỹ thuật viên, nhà khoa học cần ñược cung cấp các thông tin và gợi ý xác ñáng về vấn ñề của họ.

• Bảo lưu tài nguyên: Cần làm cho quá trình bảo lưu tài nguyên trở nên dễ dàng. ðiều này áp dụng cho các dụng cụ thí nghiệm, sự cộng tác (hội nghị…), và sắp xếp tài nguyên cho quá trình mô phỏng.

• An ninh: Có những yêu cầu về xác thực, mã hóa, và tính riêng tư với sự tham gia của nhiều tổ chức. Và các yêu cầu này cần ñược xử lý với sự can thiệp thấp nhất của con người.

• Tin cậy: Hệ thống trông có vể ñáng tin cậy nhưng thật ra có cần xử lý những lỗi và ngoại lệ ở nhiều mức khác nhau, bao gồm cả quy trình thực hiện.

• Video: Cả video trực tiếp và ñược lưu trữ ñều có vai trò nhất ñịnh, nhất là khi các video này ñược làm giàu thêm bởi các siêu nội dung liên quan tạm thời.

• Phòng thí nghiệm thông minh: Một ví dụ: khi các dụng cụ dò ra các mẫu (như thẻ barcode hay thẻ RFID), nhà khoa học dùng các thiết bị di ñộng ñể ghi lại, và sự hiện hình hóa có thể ñược thực thi trong phòng thí nghiệm. Các công cụ từ xa có thể cho biết sự tồn tại của chúng, kết hợp với nhau, và thông báo về nội dung mà chúng nhận ñược.

• Tri th ức: Tri thức hoạt ñộng như một bộ phận quan trọng của EScience. Ví dụ như: tìm kiếm tài liệu, con người, và các thiết kế thực nghiệm trước ñó, chú thích cho các phân tích ñược ñăng tải, và thiết lập phòng thí nghiệm cho con người.

• Sự phát tri ển: Hệ thống phải hỗ trợ sự phát triển mang tính cách mạng khi các nội dung và kỹ thuật xử mới hiện hữu.

• Quy mô: Quy mô của sự cộng tác khoa học tăng lên cùng với sự phát triển của tính toán, băng thông, khả năng lưu trữ, và ñộ phức tạp trong mối quan hệ giữa các thông tin.

3.2. Mô hình EScience phát triển dựa trên hệ thống lưới:

ðể hiện thực một hệ thống EScience với những tính chất trên ñòi hỏi phải ñầu tư xây dựng một cơ sở hạ tầng vật lý hiện ñại (Petabyte Archival Storage, Terabit Networks, Sensor Networks, Teraop Supercomputers) và một cơ sở hạ tầng phần mềm ñược thiết kế với quan niệm mới hướng tới khoa học mở và sự hợp tác tòan cầu.

Chính phủ các nước tiên tiến hiện nay ñều nhận thấy ñược tầm quan trọng của việc xây dựng một hệ thống quy mô lớn như EScience ñể nâng cao vị thế của quốc gia mình. Trong bối cảnh thế giới hiện tại, EScience ñược tập trung phát triển dựa trên nền tảng hệ thống lưới hiện có.

Page 12: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

A eScience Grid based framework

Kiến trúc mới phải hướng tới vịêc ñơn giản hóa họat ñộng nghiên cứu khoa học với sự hỗ trợ của hệ thống máy tính tính tóan lưới. Phát triển cơ sở hạ tầng phần mềm phải hướng ñến việc trong suốt hóa sự phức tạp của hệ thống vật lý ñối với các chuyên gia, các nhà khoa học ñể họ có thể tập trung vào chuyên môn khoa học của mình.

Page 13: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

Mô hình phần mềm trong suốt sự phức tạp của hạ tầng vật lý ñối với những người làm khoa học

3.3. Những thử thách khi hiện thực một hệ thống EScience

Những khó khăn khi hiện thực hệ thống EScience

(bởi Tony Hey Director of UK EScience Core Program [email protected])

Những thử thách ñể ñáp ứng yêu cầu, tiêu chí cho một mô hình tương lai:

- Phát triển hệ thống lưới ngữ nghĩa (Semantic Grid)

- Xây dựng một hệ thống tin cậy phổ biến rộng khắp (Trusted Ubiquitous Systems)

- Hệ thống phải ñáp ứng nhanh với những yêu cầu thay ñổi trong khoa học (Rapid Customized Assembly of Services)

- Hệ thống tính tóan tự ñộng vận hành (Autonomic Computing): self-managing characteristics of distributed computing resources, adapting to unpredictable changes whilst hiding intrinsic complexity to operators and users

Những khó khăn khi triển khai hệ thống vào thực tiễn họat ñộng có thể gặp phải:

- Vấn ñề hỗ trợ cho một mô hình cộng ñồng mới, cộng ñồng khoa học

- Những khó khăn trở ngại ñến từ mặt kinh tế xã hội (Socio-Economic Impact): khái niệm về khoa học mở không mới nhưng ñể tiến ñến tiêu chí ñó không phải là ñiều dễ dàng. Khoa học mở không ñồng nghĩa với khoa học phi lợi nhuận, ñi ngược lại các quy luật kinh tế xã hội.

Page 14: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

- Vấn ñề về sở hữu trí tuệ và bản quyền: ñây cũng là một trong những vấn ñề rất quan trọng cần ñược xem xét cẩn thận. Việc chia sẻ các kinh nghiệm, các kết quả nghiên cứu, các công trình trong môi trường mở phải ñảm bảo ñược lợi ích chính ñáng của người làm khoa học.

3.4. Tổ chức hay cộng đồng ảo:

Phần lớn các nghiên cứu khoa học ngày nay phải cần có sự tham gia của các nhà khoa học trong các lĩnh vực khác nhau và các trung tâm nghiên cứu ñặt ở khắp nơi trên thế giới, nên làm thế nào ñể việc cộng tác này trở nên hiệu quả và ít chịu ảnh hưởng bởi yếu tố ñịa lý là vấn ñề cấp bách cần giải quyết. Từ ñó, các cộng ñồng khoa học ảo hình thành (VO) dựa trên nền tảng của internet tốc ñộ cao. Các thành viên trong VO ở các vị trí ñịa lý khác nhau trên thế giới sẽ ñóng góp tài nguyên tính toán và cho phép truy xuất từ xa các các thiết bị thí nghiệm. Các tài nguyên của VO sẽ ñược kết dính lại với nhau như một thể thống nhất cho các thành viên trong VO sử dụng.

4. Viễn cảnh eScience mang lại cho khoa học:

• Hiện thực những ý tưởng phức tạp

Các nhà khoa học ñang và luôn luôn cố gắng tìm hiểu những gì mà họ chưa bao giờ biết, khai phá những nơi họ chưa từng chạm ñến trước ñây. EScience và những sự hỗ trợ mà nó mang lại cho khoa học sẽ tạo nên những ñộng lực cho khoa học phát triển trên một con ñường vững chắc. Chúng ta có quyền nghĩ ñến những phát minh, sáng chế, những ý tưởng ñủ sức thay ñổi thế giới và giải phóng con người.

• Cải thi ện nền giáo dục

Nếu EScience mang mục tiêu là cải thiện hình ảnh của nó và xa hơn nữa là tầm ảnh hưởng của nó trong nghiên cứu khoa học thì một ñiều tất yếu là thế hệ những sinh viên, những nghiên cứu sinh sau này sẽ ñược học tập và huấn luyện ñể sử dụng những thành tựu khoa học máy tính này. Việc cải thiện trình ñộ của thế hệ tương lai cũng như ñảm bảo cho sự phát triển của giáo dục là một ñiều tất yếu.

• Sự phát tri ển mang tính quốc tế

EScience mang lại sự thành công tất yếu trong tương lai vì những phương pháp và công nghệ ñược sử dụng và chia sẻ không phải chỉ trong phạm vi nước Anh mà là trên tòan thế giới.

5. Sơ lược một số chương trình EScience của vương quốc Anh:

Vào năm 2000 chính phủ Anh xem xét một khoảng kinh phí £98M trong 3 nằm tài trợ cho OST dùng ñể phát triển EScience. EScience ñược triển khai trong hầu hết các lĩnh vực khoa quan trọng và kinh phí ñược phân bổ cho các trung tâm: Biotechnology and Biological Sciences Research Council (BBSRC), Council for the Central Laboratory of the Research Councils (CCLRC), Engineering and Physical Sciences Research Council (EPSRC), Economic Social Research Council (ESRC), Medical Research Council (MRC), Natural Environment Research Council (NERC) và the Particle Physics and

Page 15: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

Astronomy Research Council (PPARC). ðặc biệt PPARC ñược tài trợ một khoảng £26M nhằm xây dựng một một hạ tầng cần thiết ñể có thể tham gia hỗ trợ cho LHC. Daresbury and Rutherford (CLRC) ñược cung cấp một khoảng £5M dùng ñể triển khai Grid (Grid-enable) cho các thí nghiệm của họ. Khoảng £10M dùng ñể triển khai một siêu máy tính có tốc ñộ xử lý lên ñến Teraflop dùng ñể cung cấp tài nguyên tình toán cho EScience. Phần còn lại khoảng £15M kết kết hợp với nguồn tài trợ (£20M) của các doanh nghiệp dùng ñể triển khai “eScience Core Programme”.

5.1. Các dự án khởi đầu (pilots project) của eScience

a. RealityGrid

Dự án này ñược thực hiện dưới sự lãnh ñạo của giáo sư Peter Coveney với sự tham gia của các trửơng ðại học Edinburgh, Loughborough, Manchester, and Oxford. Mục tiêu của dự án này là mô hình hóa cấu trúc phân tử của vật rắn và cung cấp một môi trường hỗ trợ việc tạo ra các vật chất mới. Các máy tính hiệu năng cao sẽ ñược sử dụng ñể xây dựng một môi trường trực quan biểu diễn các mô hình này và cung cấp các tiện ích. ðây sẽ là môi trường cho những người làm khoa học trực quan hóa cấu trúc của vật thể, so sánh với thực tế và tích hợp vào dữ liệu thực nghiệm.

b. Comb-e-Chem

Comb-e-Chem ñược thực hiện dưới sự cộng tác của các trường ðại học Southampton và Bristol, do Dr. Jeremy Frey lãnh ñạo. Comb-e-Chem chủ yếu dùng ñể tạo ra các hợp chất mới thông qua việc áp dụng các phương pháp kết hợp giữa các hóa chất với nhau. Phương pháp kết hợp ñể tìm ra các hợp chất mới từ một nguồn dữ liệu về các tính chất hóa học, dữ liệu ñược tích lũy ngày càng lớn. ðể ñạt ñược hiệu quả cao thì một platform sử dụng hạ tầng Grid ñươc sử dụng kết hợp các cấu trúc ñược sinh ra và nguồn dữ liệu tri thức ñược ñã ñược lưu trữ. Platform ñược xây dựng phải hỗ trợ việc chọn lọc dữ liệu, bao gồm việc tạo ra dữ liệu cũng như khả năng xử lý dữ liệu. Ngoài ra, Comb-e-Chem còn cung cấp giao diện ñể tương tác với người sử dụng cho phép thực hiện các bước mô hình hóa, thiết kế và thực hiện các thí nghiệm từ xa (online accessable).

Comb-e-Chem

Page 16: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

c. Distributed aircraft maintenance environment (DAME)

ðây là dự án theo dõi ñộ an toàn của các chuyến bay thông bằng cách lắp ñặt các thiết bị cảm ứng ở ñộng cơ máy bay. Các thiết bị này sẽ liên tục gửi dữ liệu về cho các trạm (Grid node) ở mặt ñất ñể tiến hành xử lý và cho biết thông tin hiện tại (real-time) của máy bay. ðây là dự án có sự tài trợ của Rolls-Royce.

DAME

d. myGrid

Dự án này có sự tham gia của nhiều thành viên nhất bao gồm các trường ðại học Manchester, Southampton, Nottingham, Newcastle, và Sheffield hợp tác với viện công nghệ sinh học Châu Âu. Mục tiêu của myGrid là phát triển một hạ tầng (infrastructure) phía bên hạ tầng của Grid (Grid infrastructure) nhằm giúp cho các nhà khoa học có thể dễ dàng sử dung các hệ thống tài nguyên ñược phân bố trên Grid. Một workbench riêng cho các nhà khoa học (e-Scientist’s workbench) sẽ ñược phát triển, workbench sẽ thay ñổi tùy theo nhu cầu của thực nghiên cứu. Vì myGrid ñược thiết kế và phát triển nhằm cho các ứng dụng về cộng nghệ sinh học nên phải cung cấp hai môi trường ứng dụng, một dùng ñể hỗ trợ quá trình phân tích dữ liệu gen, hai là dùng ñể giải thích cho các mẫu dữ liệu. GSK, AstraZeneca, IBM and SUN là các doanh nghiệp cộng tác phát triển dự án myGrid.

e. GridPP

GridPP ñược hình thành dựa trên sự hợp tác của các nhà vật lý học và các chuyên gia trong lĩnh vực khoa học máy tính của UK và CERN. GridPP phát triển từ năm 2001 hướng theo 3 mục tiêu chính, thứ nhất là phát triển một ứng dụng cho phép các nhà vật lý nguyên tử có thể chạy (run) các jobs trên Grid, hai là viết một middleware dùng ñể quản lý và phân phối các công việc tính toán (computing tasks) trên Grid bên cạnh ñó cũng phải chú trọng ñến vấn ñề bảo mật, mục tiêu còn lại của GridPP là triển khai một hạ tầng tính toán (computing infrastructure) với các sites ñặt ở UK như là một prototype về Grid cho LHC của CERN.

Page 17: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

f. AstroGrid

AstroGrid ñươc xây dựng với sự tham gia của các nhà thiên văn học và các nhà khoa học máy tính ở các trường ðại học Edinburgh, Leicester, Cambridge, Queens Belfast, UCL và Manchester. Mục tiêu của AstroGrid là xây dựng một cơ sở hạ tầng cho Grid hỗ trợ “Virtual Observatory” (VO). VO cung cấp một giao diện giống như ứng dụng trên desktop giúp cho các nhà thiên văn có thể khảo sát và ñánh dấu tài nguyên trên toàn thế giới, tìm kiếm, lưu trữ và chia sẻ dữ liệu.

5.2. EScience Core Programme

EScience Core Programme ñược phát triển như là một cơ sở hạ tầng Grid chung cho các dự án ñược miêu tả ở trên (pilot projects). Với sự cộng tác của các nhà khoa học, khoa học máy tính, và các doanh nghiệp nhằm xây dựng và phổ biến một framework có thể ñáp ứng ñược các ứng dụng trong nhiều lĩnh vực khoa học khác nhau cũng , thích hợp với các ứng dụng trong công nghiệp.

Cấu trúc của EScience Core Programme bao gồm sáu thành phần:

a. Hiện thực hạ tầng mạng kết nói các EScience Centres

Các EScience Centres ñươc phân bố trên khắp UK như hình bên dưới:

Các trung tâm EScience này rất quan trọng cho toàn dự án EScience vì nó giữ các vai trò:

• Phân bổ tài nguyên tính toàn, dữ liệu và cài ñặt các dịch vụ chuẩn (standard) và cơ bản ñể phục vụ cho UK EScience Grid.

• Thu hút nguồn ñầu tư từ cộng tác của công nghiêp ñể xây dựng Grid middleware.

• Phổ biến các kiến thức về Grid ra cộng ñồng.

Page 18: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

b. ðịnh hướng cho sự phát tri ển Grid middleware

Nhằm thuyêt phục các công ty và tổ chức tài trợ cho sự phát triển của Grid middleware bằng cách ñịnh hướng xây dựng các middleware mới sẽ có nhiều chức năng hay dịch vụ mà các doanh nghiệp có thể dử dụng.

Irving Wladawsky-Berger: “all of our systems will be enabled to work with the Grid, and all of our middleware will integrate with the software”.

Tuy nhiên, công việc quan trọng nhất của middleware này là hỗ trợ các yêu cầu nảy sinh từ các dự án pilot như khả năng tính toán, không gian lưu trữ và phải ñáp ứng ñược các chức năng của một middleware cần có. Middleware này sẽ ñược phát triển dưới dạng mã nguồn mở với sự cộng tác của cộng ñồng Globus (www.globus.org) và có sự thảo luận với IBM, Oracle, Microsoft về các vấn ñề ñặc biệt là về DBMS.

c. Interdisciplinary Research Collaboration (IRC)

IRC ñược tài trợ bởi EPSRC, BBSRC, MRC and the MoD dưới sự cộng tác của các trường ðại học Cambridge, London và Bristol. Nguồn tài trợ của IRC ñược chia ra cho nhiều dự án trong nhiều lĩnh vực như: môi trường, vật lý, y tế, …

• Advanced Grid Interfaces for Environmental EScience in the Lab and in the Field

• CoAKTinG: Collaborative Advanced Knowledge Technologies in the grid. • Grid enabled knowledge services: collaborative problem solving environments in medical

informatics • Grid-Based Medical Devices For Everyday Health • MIAS - Grid. A Medical Image and Signal Research Grid

d. Danh sách các dự án hiện tại của eScience UK:

• GRIDPP (PPARC)

• ASTROGRID (PPARC)

• Comb-e-Chem (EPSRC)

• DAME (EPSRC)

• DiscoveryNet (EPSRC)

• GEODISE (EPSRC)

• myGrid (EPSRC)

• RealityGrid (EPSRC)

• Climateprediction.com (NERC)

• Oceanographic Grid (NERC)

• Molecular Environmental Grid (NERC)

• NERC DataGrid (NERC + OST-CP)

Page 19: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

• Biomolecular Grid (BBSRC)

• Proteome Annotation Pipeline (BBSRC)

• High-Throughput Structural Biology (BBSRC)

• Global Biodiversity (BBSRC)

• Biology of Ageing (BBSRC + MRC)

• Sequence and Structure Data (MRC)

• Molecular Genetics (MRC)

• Cancer Management (MRC + PPARC)

• Clinical e-Science Framework (MRC)

• Neuroinformatics Modeling Tools (MRC)

• MIASGRID (OST-CP)

• AKTing (OST-CP)

• EquatorGrid (OST-CP)

• DIRCGrid (OST-CP)

• MB-NG (OST-CP/PPARC)

• UK EDG (OST-CP/PPARC)

• OGSA-DAI (OST-CP)

6. Ứng dụng eScience trong nghiên cứu về thiên văn

6.1. eScience và thiên văn học

a. Thiên văn học

Chương này giới thiệu một trong những ngành khoa học sử dụng eScience phục vụ cho quá trình nghiên cứu của mình, ñó là thiên văn học.

Theo Wikipedia, thiên văn học là việc nghiên cứu các vật thể vũ trụ (như sao, hành tinh, sao chổi, tinh vân, quần tinh, thiên hà) và các hiện tượng có nguồn gốc bên ngoài khí quyển trái ñất (như bức xạ nền vũ trụ). Thiên văn học nghiên cứu sự phát triển, tính chất vật lý, hóa học, khí tượng học và chuyển ñộng của các vật thể vũ trụ, cũng như sự hình thành và phát triển của vũ trụ.

Từ thế kỷ 20, lĩnh vực thiên văn học chuyên nghiệp ñược chia thành các nhánh quan sát và lý thuyết. Thiên văn học quan sát chú trọng tới việc thu thập và phân tích dữ liệu, sử dụng các nguyên tắc cơ bản của vật lý. Thiên văn học lý thuyết ñịnh hướng theo sự phát triển các mô hình máy tính hay mô hình phân tích ñể miêu tả các vật thể và hiện tượng thiên văn. Hai lĩnh vực bổ sung lẫn cho nhau, thiên văn học lý thuyết tìm cách giải thích các kết quả quan sát, và việc quan sát lại thường ñược dùng ñể xác nhận các kết quả lý thuyết.

Page 20: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

b. Dữ liệu thiên văn học

Một số tính chất của dữ liệu về thiên văn học:

- Dữ liệu thiên văn học bao gồm hình ảnh, dữ liệu thô,… ñược thu thập từ các kính thiên văn. Ngoài ra, còn có các tài liệu, và dữ liệu ñã qua xử lý. Nguồn gốc của dữ liệu cũng ñược lưu lại cẩn thận phục vụ cho quá trình nghiên cứu.

- Dữ liệu ñã ñược kiểm tra và lưu trữ tuân thủ các tiêu chuẩn về khoa học và thống kê. - Hầu hết dữ liệu ñược công bố rộng rãi và chúng luôn sẵn sàng trong một khoảng thời gian nhất

ñịnh. - Các dữ liệu ñã ñược xử lý trong quá khứ mặc dù có ñộ chính xác kém hơn, nhưng vẫn ñược sử

dụng khi nghiên cứu các tác ñộng về mặt thời gian. - Kích thước dữ liệu hiện nay vào hàng tetrabyte, và sẽ là petabyte trong thời gian sắp tới. Hầu

hết dữ liệu thiên văn ñều nằm trong các kho dữ liệu ñược quản lý bởi tổ chức cung cấp và xuất bản dữ liệu ñó. Một nhà thiên văn muốn nghiên cứu một thành phần nào ñó, họ không thể sao chép toàn bộ dữ liệu từ kho lưu trữ (vì không ñủ không gian lưu trữ hay tốn rất nhiều thời gian ñể sao chép). Thay vào ñó, họ chỉ yêu cầu một phần nhỏ thông tin (vài gigabyte).

c. Ứng dụng eScience trong thiên văn học

Việc ứng dụng eScience trong thiên văn học phải ñáp ứng ñược các ñặc trưng trên của dữ liệu thiên văn học. Một số dịch vụ sau cần ñược cung cấp bởi eScience:

- Xử lý hình ảnh. - Xử lý dữ liệu. - Web nghữ nghĩa.

Các phần sau lần lượt giới thiệu chi tiết về các kho dữ liệu và các công cụ cơ bản trên.

d. Thuật ngữ

Những thuật ngữ sau sẽ ñược sử dụng trong các phần sau của bản báo cáo này:

- Registry: - Arcminute: là một ñơn vị góc ño, có giá trị 1/60 ñộ. - Arcsecond: 1/60 arcminute. - DPOSS: Digital Palomar Observation Sky Survey. Chứa khoảng 3 tetrabyte hình ảnh và một số

dữ liệu trích xuất ñược từ ñó như các ngôi sao, thiên hà, chuẩn tinh, … và các tính chất của chúng.

- The Sloan Digital Sky Survey: một trong những nghiên cứu tham vọng và có nhiều ảnh hưởng nhất trong lịch sử thiên văn học.

Page 21: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

6.2. Virtual Observatory

a. Giới thi ệu

Virtual Observatory (viết tắt là VO), là một tập hợp các kho dữ liệu và công cụ phần mềm, sử dụng Internet ñể tạo ra các môi trường nghiên cứu khoa học mà trên ñó các dự án về thiên văn học có thể ñược thực hiện.

Mục tiêu chính là cho phép truy cập dữ liệu về thiên văn trên toàn thế giới một cách thông suốt (transparent). ðiều này cho phép các nhà khoa học truy cập, phân tích, và kết hợp dữ liệu theo cách thân thiện với người sử dụng.

VO cung cấp các portals, giao thức, và các chuẩn ñể ñồng bộ các kho dữ liệu thiên văn trên toàn thế giới thành một cơ sở dữ liệu khổng lồ chứa tài liệu, hình ảnh, dữ liệu thô, dữ liệu ñã qua xử lý, … ðiều này cho phép các nhà khoa học có thể truy xuất, phân tích, xử lý, … các dữ liệu thiên văn ñó một cách ñồng nhất mà không cần quan tâm ñến vị trí ñịa lý mà chúng ñược lưu trữ.

b. Ki ến trúc của VO

Việc xây dựng kiến trúc của VO dựa trên một số tính chất sau:

- Hầu hết dữ liệu ñều ñược truy xuất từ xa. Và các dữ liệu cần thiết có thể nằm trên nhiều kho lưu trữ khác nhau. ðiều này dẫn ñến yêu cầu cho việc truy xuất dữ liệu phải ñược thông suốt (transparent) giống như truy cập từ máy cục bộ.

- Lượng dữ liệu cần truy xuất phục vụ cho việc xử lý có thể là rất lớn. Nên những dữ liệu cần cho việc xử lý nên ñược lưu trữ gần nhau.

Kiến trúc của VO middleware dựa trên ý tưởng của web service: các nguồn thông tin có thể ñược truy xuất qua web bằng các câu truy vấn. Hình sau biểu diễn kiến trúc của VO:

Page 22: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

- Archives: mỗi archive chứa dữ liệu dạng văn bản, hình ảnh, dữ liệu thô, … Chúng cung cấp những công cụ tìm kiếm và khai phá dữ liệu (mining tools) cho phép dễ dàng tìm kiếm và trích xuất nội dung của dữ liệu trong archive ñó. Chúng cũng chứa siêu dữ liệu (metadata) về nội dung, thông tin về ñịa chỉ lưu trữ và cả những thông tin về nguồn gốc của dữ liệu.

- Web service: các archive cung cấp giao diện web service dành cho việc truy vấn, sao chép và di chuyển dữ liệu. Các service này ñược ñăng ký với các portal. Các thông tin mà các archive cung cấp bao gồm: khoảng không gian, thời gian, và ñộ phân giải của dữ liệu mà các services của archive ñó cung cấp.

- Portal: ñóng vai trò cầu nối giữa các archive và người sử dụng. Với các truy vấn từ người sử dụng, portal dựa vào thông tin mà các archive ñã ñăng ký ñể tìm các archive và service phù hợp. Và các truy vấn sẽ ñược gửi tới các services thích hợp ñể lấy về các dữ liệu mà các truy vấn yêu cầu.

Do VO ñược xây dựng trên Grid, nên một số tính chất của Grid như tính giãn nở (scalability), bảo mật, chứng thực (authentication), tính kháng lỗi (fault torelant), sao lưu dữ liệu (replication), … cũng ñược cung cấp trênVO. Và các dịch vụ của Grid như GridFTP,… cũng ñược áp dụng ñể sao chép, di chuyển một lượng lớn dữ liệu trên VO.

c. Virtual Observatory trên th ế giới

Có rất nhiều Virtual Observatory ñã ñược xây dựng trên thế giới. Bảng sau liệt kê thông tin của một số VO ñiển hình:

Virtual Observatory Nguồn

US VO http://www.us-vo.org/

European Virtual Observatory http://www.euro-vo.org/

UK Virtual Observatory http://www.astrogrid.org/

India Virtual Observatory http://vo.iucaa.ernet.in/~voi/

US National Virtual Observatory http://www.us-vo.org/

Russian Virtual Observatory http://www.inasan.rssi.ru/eng/rvo/

Japanese Virtual Observatory http://jvo.nao.ac.jp/

Hungarian Virtual Observatory http://hvo.elte.hu/en/

German Astrophysical Virtual

Observatory http://www.g-vo.org/

France Virtual Observatory http://www.france-vo.org/

Italian Virtual Observatory http://vobs.astro.it/

Page 23: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

Spanish Virtual Observatory http://svo.cab.inta-csic.es/

Australian Virtual Observatory http://aus-vo.org/

6.3. Image Computing

Hầu hết dữ liệu thiên văn ñược lưu dưới dạng hình ảnh, bao gồm cả ảnh thô và những ảnh ñã qua xử lý.

Có rất nhiều ứng dụng làm việc trên các dữ liệu thiên văn học. Trong phần này ta sẽ xem xét một ứng dụng tiêu biểu là Virtual Sky.

a. Virtual Sky

Dự án Virtual Sky cung cấp những hình ảnh liên tục của bầu trời ñêm; không chỉ là một album ảnh với nhiều ñịa ñiểm khác nhau, mà là toàn thể bầu trời với nhiều ñộ phân giải và bước sóng khác nhau.

VirtualSky ñã tích hợp toàn bộ bản ñồ DPOSS, với giao diện trực quan, dễ sử dụng sao cho mọi người ñều có thể sử dụng ñược. Người sử dụng có thể thu nhỏ ñể xem toàn bộ bầu trời trên màn hình máy tính, hoặc phóng to lên tới 1.4 arcsecond trên một pixel.

Virtual Sky liên kết hình ảnh từ nhiều nguồn khác nhau thành một giao diện hợp nhất.

i. Hiện thực Virtual Sky

Khi một kính thiên văn chụp ñược một tấm ảnh, hoặc khi một bản ñồ của bầu trời ñược vẽ ra, bầu trời ñược chiếu thành một hình phẳng. Hình ảnh từ nhiều nguồn khác nhau có thể ñược xoay hoặc phóng to/thu nhỏ ñể có thể kết hợp ñược với nhau.Virtual Sky liên kết các hình ảnh ñó bằng cách dàn hình theo một góc chiếu chuẩn. Bởi vì tất cả các hình ảnh trên cùng một lưới pixel, chúng có thể ñược sử dụng cho việc tìm kiếm trong không gian nhiều bước sóng. Sau ñó, các tấm ảnh này ñược lưu trữ vào cơ sở dữ liệu với những kích thước khác nhau (ñộ nén khác nhau), thuận tiện cho việc cung cấp qua web với các tính năng phóng to, thu nhỏ,… Tuy nhiên, ñiều này cũng gây ra hiện tượng méo hình với những hình ảnh xa tâm.

Có một lượng lớn dữ liệu tương ứng với bản ñồ bầu trời: bản ñồ DPOSS với kích thước 3 tetrbye, 2MASS với kích thước 10 tetrabyte. Những hình ảnh thu thập ở những thời gian khác nhau có thể bị trùng lặp.

ii. Parallel Computing

Việc xử lý hình ảnh của Virtual Sky bao hàm một ánh xạ giữa những hình ảnh ban ñầu với vị trí của các ñiểm trên ảnh ñã qua xử lý. Việc lấy mẫu lại (resampling) có thể ñược thực hiện theo hai cách:

- Theo thứ tự ñầu vào: mỗi pixel ñầu vào ñược chiếu vào mặt phẳng của ảnh ñích. Và việc tính toán ñược thực hiện theo việc lặp từng pixel trên ảnh nguồn.

- Theo thứ tự ñầu ra: với mỗi vị trí pixel trên ảnh ñích, vị trí của chúng trên ảnh nền ñược xác ñịnh bằng cách thực hiện ánh xạ ngược và màu sắc ñược tính toán bằng cách lấy mẫu hình ảnh nguồn.

Page 24: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

Phương pháp này có thuận lợi là làm cực tiểu hóa việc mất dữ liệu của những hình ảnh không gian. ðây cũng là phương pháp ñược áp dụng trong Virtual Sky.

6.4. Database Computing

Phân tích dữ liệu khoa học thường ñược gọi là khai phá dữ liệu (data mining) bởi vì nó tương tự như việc khai khoáng kim loại quí hoặc kim cương. Thông thường, các công ñoạn ñầu của việc khai phá dữ liệu khoa học bao gồm việc phân loại dữ liệu theo các mẫu (patterns). Trong thiên văn học, dữ liệu thô thường là hình ảnh, và mẫu là các ngôi sao hay thiên hà. Các tính chất của chúng bao gồm ñộ lớn của băng tần (magnitudes of wavebands), hình khối (sharp), và thông số hình thái, phân loại,… Sau khi phân loại, dữ liệu sẽ ñược lưu trong các hệ quản trị cơ sở dữ liệu quan hệ sẵn sàng cho việc nghiên cứu, thống kê.

ðể hình dung, dữ liệu của SDSS sau khi phân loại hoàn tất có kích thước khoảng 15 tetrabyte và giảm xuống còn khoảng 2TB trong RDBMS (cơ sở dữ liệu quan hệ).

ðịnh dạng của việc truyền các mẩu dữ liệu (database record) có thể theo chuẩn VOTable, cho phép tách siêu dữ liệu ra khỏi dữ liệu, và tốc ñộ truyền dữ liệu lớn.

a. VOTable

VOTable là một ñịnh dạng chuẩn XML ñược ñề xuất cho việc thể hiện 1 bảng dữ liệu. Theo ñó, một bảng là một tập các dòng, trong ñó mỗi dòng tuân theo một ñịnh dạng chung ñược ñịnh nghĩa trong siêu dữ liệu của bảng ñó (metadata table). Mỗi dòng là 1 chuỗi các ô trong bảng mà mỗi ô có thể là 1 loại dữ liệu cơ bản hoặc một dãy các loại dữ liệu như vậy.

VOTable ñược thiết kế như một ñịnh dạng lưu trữ và trao ñổi dữ liệu linh ñộng cho dữ liệu dạng bảng, ñặc biệt cho dữ liệu bảng của thiên văn học.

VOTable có các tính năng ñược xây dựng sẵn cho việc xử lý một lượng lớn dữ liệu trên Grid. Nó cho phép dữ liệu và siêu dữ liệu ñược lưu trữ rời nhau, với dữ liệu từ những kho lưu trữ khác nhau có thể liên kết với nhau. Các process có thể sử dụng siêu dữ liệu ñể tìm nơi chứa dữ liệu ñó, cho phép xử lý hoặc truyền dữ liệu song song. Việc trao ñổi dữ liệu giữa các process hoặc giữa các nhà nghiên cứu có thể ñược thực hiện bằng cách chỉ gửi siêu dữ liệu và dữ liệu thực chỉ cần ñược gửi khi thực sự cần thiết.

Dữ liệu trong một VOTable có thể ñược thể hiện bằng một trong các ñịnh dạng sau:

- Theo ñịnh dạng XML thuần túy sao cho các bảng nhỏ có thể ñược xử lý dễ dàng bằng các công cụ về XML.

- Theo ñịnh dạng FITS. VOTable có thể ñược sử dụng ñể tóm lược 1 file hoặc ñể mã hóa các siêu dữ liệu.

- Theo dạng nhị phân ñể dễ dàng và hiệu quả cho việc lập trình.

VOTable có thể ñược sử dụng theo nhiều cách khác nhau: như một ñịnh dạng trao ñổi và lưu trữ dữ liệu, hoặc chỉ lưu trữ siêu dữ liệu. Trong trường hợp chỉ lưu trữ siêu dữ liệu, VOTable có thể ñược gửi

Page 25: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

tới server và server này sẽ mở các kết nối ñể download dữ liệu thực. Hiện tại, cấu trúc phức tạp nhất của VOTable là mỗi ô trong bảng chứa các mảng dữ liệu nhiều chiều.

Ví dụ sau biểu diễn một VOTable chứa 3 thiên hà với vị trí, tốc ñộ, khoảng cách ước lượng và sai số của chúng. Ví dụ này chỉ ñưa ra ñể dễ hình dung nội dung của VOTable, việc tìm hiểu sâu hơn

<?xml version="1.0"?>

<VOTABLE version="1.2" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

xmlns="http://www.ivoa.net/xml/VOTable/v1.2"

xmlns:stc="http://www.ivoa.net/xml/STC/v1.30" >

<RESOURCE name="myFavouriteGalaxies">

<TABLE name="results">

<DESCRIPTION>Velocities and Distance estimations</DESCRIPTION>

<GROUP ID="J2000" utype="stc:AstroCoords">

<PARAM datatype="char" arraysize="*" ucd="pos.frame" name="cooframe"

utype="stc:AstroCoords.coord_system_id" value="UTC-ICRS-TOPO" />

<FIELDref ref="col1"/>

<FIELDref ref="col2"/>

</GROUP>

<PARAM name="Telescope" datatype="float" ucd="phys.size;instr.tel"

unit="m" value="3.6"/>

<FIELD name="RA" ID="col1" ucd="pos.eq.ra;meta.main" ref="J2000"

utype="stc:AstroCoords.Position2D.Value2.C1"

datatype="float" width="6" precision="2" unit="deg"/>

<FIELD name="Dec" ID="col2" ucd="pos.eq.dec;meta.main" ref="J2000"

utype="stc:AstroCoords.Position2D.Value2.C2"

datatype="float" width="6" precision="2" unit="deg"/>

<FIELD name="Name" ID="col3" ucd="meta.id;meta.main"

datatype="char" arraysize="8*"/>

<FIELD name="RVel" ID="col4" ucd="spect.dopplerVeloc" datatype="int"

width="5" unit="km/s"/>

<FIELD name="e_RVel" ID="col5" ucd="stat.error;spect.dopplerVeloc"

datatype="int" width="3" unit="km/s"/>

<FIELD name="R" ID="col6" ucd="pos.distance;pos.heliocentric"

datatype="float" width="4" precision="1" unit="Mpc">

<DESCRIPTION>Distance of Galaxy, assuming H=75km/s/Mpc</DESCRIPTION>

</FIELD>

Page 26: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

<DATA>

<TABLEDATA>

<TR>

<TD>010.68</TD><TD>+41.27</TD><TD>N 224</TD><TD>-297</TD><TD>5</TD><TD>0.7</TD>

</TR>

<TR>

<TD>287.43</TD><TD>-63.85</TD><TD>N 6744</TD><TD>839</TD><TD>6</TD><TD>10.4</TD>

</TR>

<TR>

<TD>023.48</TD><TD>+30.66</TD><TD>N 598</TD><TD>-182</TD><TD>3</TD><TD>0.7</TD>

</TR>

</TABLEDATA>

</DATA>

</TABLE>

</RESOURCE>

</VOTABLE>

Tham khảo tài liệu “VOTable Format Definition Version 1.2” ñể hiểu rõ hơn về cú pháp của VOTable.

b. Khai phá dữ liệu và vấn ñề ảo hóa

Cơ sở dữ liệu ñược truy xuất dựa trên các câu truy vấn, và kết quả trả về là một tập các mẫu dữ liệu (records) kết quả. Dữ liệu truyền giữa các ứng dụng là các bảng dữ liệu quan hệ, bao gồm những mẫu dữ liệu thực và siêu dữ liệu. Siêu dữ liệu ñịnh nghĩa các cột trong bảng bao gồm các thông tin như tên, ñơn vị, giá trị ràng buộc min-max, mô tả,… theo cấu trúc VOTable ñược trình bày trong phần trước.

Các module làm việc trên dòng dữ liệu (data stream) có thể làm các công việc như sau:

- Module cơ sở dữ liệu quảng bá (advertise) các bảng dữ liệu của chúng, cho phép người sử dụng ñưa vào các câu truy vấn và trả về các mẫu dữ liệu kết quả.

- Module lưu trữ ñọc và ghi các bảng vào file system. - Module liên kết (join) nhận vào 2 dòng dữ liệu và thực hiện liên kết cơ sở dữ liệu (database join). - Các giải thuật khai phá dữ liệu và thống kê như là unsupervised clustering, tạo mạng Bayes, loại

bỏ các cột chứa ít thông tin, ước lượng mật ñộ, … - Các module ảo hóa cho phép biểu diễn hình học nhiều dạng khác nhau như các hình phác hỏa 3

chiều, các trục song song, …

Khi các bảng ñược sửa ñổi hoặc bị thay ñổi về mặt cấu trúc, các siêu dữ liệu cũng phải ñược thay ñổi theo.

Page 27: BÁO CÁO SEMINARptvu/gc/2011/pub/GridandeScience-rep.pdf · 3.2. Mô hình EScience phát tri ển d ựa trên h ệ th ống l ưới ..... 11 3.3. Nh ững th ử thách khi hi

7. Tài liệu tham khảo

1. Ian Foster and Carl Kesselman, The Grid 2 Blueprint for a New Computing Infrastructure. Morgan Kauffman Publishers, 2004.

2. NSF office of Cyberinfrastructure

http://www.nsf.gov/dir/index.jsp?org=OCI

3. A group of UK eScience

http://www.escience-grid.org.uk/

4. Collaborative Research in e-Science and Open Access to Information- Paul A. David Stanford University - Matthijs den Besten Oxford e-Research Centre - Ralph Schroeder Oxford Internet Institute – Spring 2009-SIEPR Discussion Paper No. 08-21

5. Computer Challenges to emerge from eScience -Talk- Malcolm Atkinson (NeSC), Jon Crowcroft (Cambridge), Carole Goble (Manchester), John Gurd (Manchester), Tom Rodden (Nottingham),Nigel Shadbolt (Southampton), Morris Sloman (Imperial College), Ian Sommerville (Lancaster), Tony Storey (IBM)

6. The Encyclopedia Wikipedia

http://en.wikipedia.org/wiki/

7. National e-Science centre:

http://www.nesc.ac.uk/action/esi/ 8. “Grids and the Virtual Observatory”, Roy Williams. 9. “Grid – Blueprint for a new Computing Infrastructure”, 10. “VOTable Format Definition Version 1.2”, http://www.ivoa.net/Documents/VOTable/.