7
Dữ Liệu Lớn: Cơ hội lớn và thách thức lớn Hồ Tú Bảo Dữ liệu lớn là gì? Về những công nghệ nổi trội trong năm 2012 vừa qua, có thể nói đến Dữ Liệu Lớn (Big Data). Trong bài này từ ‘big data’ đôi khi được dùng xen kẽ với ‘dữ liệu lớn’ để nhấn mạnh ‘big data’ đã thành từ cửa miệng trong nhiều câu chuyện của giới khoa học, doanh nghiệp, của các nhà quản lý quốc gia... ở nhiều nơi trên thế giới. Ba lĩnh vực của công nghệ thông tin (CNTT) được cho là đang và sẽ có ảnh hưởng khắp nơi là thiết bị thông minh, điện toán đám mây dữ liệu lớn. Gần đây Tổng Giám đốc Trương Gia Bình của FPT cũng khẳng định: “Lời giải hạ tầng sẽ dựa trên công nghệ di động, điện toán đám mây và dữ liệu lớn”, và giám đốc công nghệ Nguyễn Lâm Phương cũng cho biết: “Dòng chảy của FPT là CNTT là hạ tầng của hạ tầng với các mái chèo là Mobility, Cloud Computing, Big Data…” Nói một cách đại thể thì big data là các tập dữ liệu rất lớn và/hoặc rất phức tạp những phương pháp hiện tại của CNTT chưa phân tích và xử lý tốt được chúng. Tên gọi ‘dữ liệu lớn’ làm nhiều người không biết đến khía cạnh về độ phức tạp của dữ liệu. Thật ra, hai tính chất này của dữ liệu lớn luôn đi cùng nhau, trong đó tính chất ‘rất phức tạp’ còn đặc trưng và thách thức hơn ‘kích thước lớn’ của dữ liệu. Điều này cũng có thể thấy ở chừng mực nào đấy trong định nghĩa của IBM về dữ liệu lớn với ba chữ V: Variety, Velocity và Volume. Chữ V đầu tiên chỉ sự đa dạng, sự liên kết chằng chịt của dữ liệu với nhiều cấu trúc khác nhau, từ dữ liệu quan hệ, đến dữ liệu không cấu trúc như các văn bản thô… Chữ V thứ hai chỉ tính chất chuyển động liên tục của dòng dữ liệu rất lớn cần xử lý, khác với cách truyền thống ta thu nhận và xử lý dữ liệu theo từng mẻ (batch). Chữ V thứ ba chỉ độ lớn Khai mạc hội thảo Trí tuệ Nhân tạo: Xử lý dữ liệu lớn một cách thông minh Ba lĩnh vực nhiều ảnh hưởng: Điện toán đám mây, dữ liệu lớn, và thiết bị thông minh.

Big Data IBM Vietnam

Embed Size (px)

Citation preview

Page 1: Big Data IBM Vietnam

Dữ  Liệu  Lớn: Cơ  hội  lớn  và  thách  thức  lớn    Hồ  Tú  Bảo    

Dữ  liệu  lớn  là  gì?  

Về   những   công   nghệ   nổi   trội   trong   năm  2012  vừa  qua,  có  thể  nói  đến  Dữ  Liệu  Lớn  (Big  Data).  Trong  bài  này  từ  ‘big  data’  đôi  khi  được  dùng  xen  kẽ  với  ‘dữ  liệu  lớn’  để  nhấn   mạnh   ‘big   data’   đã   thành   từ   cửa  miệng   trong   nhiều   câu   chuyện   của   giới  khoa  học,  doanh  nghiệp,  của  các  nhà  quản  lý  quốc  gia...  ở  nhiều  nơi  trên  thế  giới.  

Ba   lĩnh   vực   của   công   nghệ   thông   tin  (CNTT)   được   cho   là   đang   và   sẽ   có   ảnh  hưởng  khắp  nơi   là  thiết  bị  thông  minh,  điện  toán  đám  mây  và  dữ  liệu  lớn.  Gần  đây  Tổng  Giám  đốc  Trương  Gia  Bình  của  FPT  cũng  khẳng  định:  “Lời  giải  hạ  tầng  sẽ  dựa  trên  công  nghệ  di  động,  điện  toán  đám  mây  và  dữ  liệu  lớn”,  và  giám  đốc  công  nghệ  Nguyễn  Lâm  Phương  cũng  cho  biết:  “Dòng  chảy  của  FPT  là  CNTT  là  hạ  tầng  của  hạ  tầng  với  các  mái  chèo  là  Mobility,  Cloud  Computing,  Big  Data…”  

Nói   một   cách   đại   thể   thì   big  data   là  các   tập  dữ   liệu  rất  lớn  và/hoặc   rất   phức   tạp   mà  những   phương   pháp   hiện   tại  của   CNTT   chưa   phân   tích   và  xử   lý   tốt  được  chúng.  Tên  gọi  ‘dữ   liệu   lớn’   làm  nhiều   người  không   biết   đến   khía   cạnh   về  độ  phức   tạp  của  dữ   liệu.  Thật  ra,   hai   tính   chất   này   của   dữ  liệu   lớn   luôn   đi   cùng   nhau,  

trong  đó  tính  chất  ‘rất  phức  tạp’  còn  đặc  trưng  và  thách  thức  hơn  ‘kích  thước  lớn’  của  dữ  liệu.  Điều  này  cũng  có  thể  thấy  ở  chừng  mực  nào  đấy  trong  định  nghĩa  của  IBM  về  dữ  liệu  lớn  với  ba  chữ  V:  Variety,  Velocity  và  Volume.  Chữ  V  đầu  tiên  chỉ  sự  đa  dạng,  sự  liên  kết  chằng  chịt  của  dữ  liệu  với  nhiều  cấu  trúc  khác  nhau,  từ  dữ  liệu  quan  hệ,  đến  dữ  liệu  không  cấu  trúc  như  các  văn  bản  thô…  Chữ  V  thứ  hai  chỉ  tính  chất  chuyển  động  liên  tục  của  dòng  dữ  liệu  rất  lớn  cần  xử  lý,  khác  với  cách  truyền  thống  ta  thu  nhận  và  xử  lý  dữ  liệu  theo  từng  mẻ  (batch).  Chữ  V  thứ  ba  chỉ  độ  lớn  

Khai  mạc  hội  thảo  Trí  tuệ  Nhân  tạo:  Xử  lý  dữ  liệu  lớn  một  cách  thông  minh  

Ba  lĩnh  vực  nhiều  ảnh  hưởng:  Điện  toán  đám  mây,      dữ  liệu  lớn,  và  thiết  bị  thông  minh.  

Page 2: Big Data IBM Vietnam

của  dữ  liệu  ở  mức  terabytes  (1012),  rồi  petabytes  (1015  bytes),  và  cả  zetabytes  (1018  bytes).    

Ai  cũng  biết  dữ  liệu  là  nguồn  chứa  hầu  hết  mọi  thông  tin  của  con  người,  nhưng  những  thông  tin  này  không  lồ  lộ  ra  cho  ta  dùng  ngay  mà  ta  chỉ  có  thể  tìm  ra  chúng  khi  phân   tích  (xử   lý)  được  dữ   liệu.  Một  cách  nôm  na,  khi  dữ   liệu  càng   lớn  và  càng  phức   tạp   thì  việc  xử   lý   chúng   càng   khó,   khó   tới   mức   hiện   nay   con  người  chưa  có  cách  làm  được  tốt  việc  này.    

Dữ  liệu  lớn  từ  đâu  ra?  

Việc  lượng  dữ  liệu  lớn  đang  ngày  càng  rất  nhiều  quanh  ta  là  một  hiện  thực  khách  quan.  Dữ  liệu  lớn  có  ở  rất  nhiều  tổ  chức,  nhiều  hoạt  động  xã  hội,  kinh  doanh,  khoa  học  và  tiềm  ẩn  nhiều  giá  trị  to  lớn.  Nhưng  dữ  liệu  lớn  ấy  đến  từ  đâu?    

Chúng  đến   từ  rất  nhiều  nguồn  và  ba  nguồn  chính   là:   (1)  Các  phương   tiện   truyền  thông  xã  hội,  như  mỗi  ngày  trên  toàn  thế  giới  có  230  triệu  mẩu  tin  trao  đổi  trên  các  twitters,  có  2,7  tỷ  ý  kiến  trao  đổi  trên  các  facebooks,  và  số  video  mỗi  ngày  đưa  lên  Youtube  cần  đến  86400  giờ  để  xem  hết;  (2)  Các  máy  móc  thu  nhận  dữ  liệu,  các  thiết  bị  công  nghiệp,  các  cảm  biến  (sensors),  các  dụng  cụ  giám  sát...  như  máy  gia tốc hạt lớn của CERN (tổ chức nghiên cứu nguyên tử châu Âu) tạo  ra  40   terabytes  dữ   liệu  mỗi  giây…  (3)  Giao  dịch  kinh  doanh,  từ  số  liệu  giá  cả  sản  phẩm,  thanh  toán,  dữ  liệu  chế  tạo  và  phân  bố...  như  số  sản  phẩm  Amazon.com  bán  trong  Quý  3  năm  2011  có  giá  trị  10  tỷ  USD,  như  dãy  các  nhà  hàng  Domino  bán  pizza  trên  toàn  nước  Mỹ  đạt  1  triệu  khách  mỗi  ngày...  

Lớn  mà  không  to,  to  mà  không  lớn  Như   trên  đã  nói  độ  phức   tạp  lớn  vốn  thách  thức  nhiều  hơn  kích   thước   lớn   của   dữ   liệu.  Chẳng  hạn  mỗi  hệ   thống  như  lò   hạt   nhân,   máy   bay…   đều  gồm  hàng  trăm  nghìn  bộ  cảm  ứng,  và  các  hệ  này  hoạt  động  dựa  vào  quyết  định  được  đưa  ra   theo   kết   quả   tính   toán   và  phân   tích   những   tổ   hợp   dữ  liệu  của  các  cảm  biến  này.  Sự  tổ  hợp  các  nguồn  dữ  liệu  này  là  hết  sức  phức  tạp  dù  kích  thước  của  chúng  không  lớn.  Chẳng  hạn  một  máy  bay  với  một  trăm  nghìn  bộ  cảm  biến  trong  một  giờ  bay  chỉ  

Các  bộ  cảm  ứng  liên  tục  tạo  dữ  liệu  khi  máy  bay  hoạt  động  

Page 3: Big Data IBM Vietnam

tạo   ra  3  gigabytes  dữ   liệu   (100,000  bộ   cảm  biến  x   60  phút  x   60  giây  x   8  bytes  =  3Gb),  nhưng  chính  độ  phức  tạp  của  tổ  hợp  dữ  liệu  từ  các  bộ  cảm  biến  này  tạo  ra  tình  huống  “dữ  liệu  lớn  mà  không  to”.  

Ngược  lại  trong  nhiều  tình  huống  lượng  dữ  liệu  được  sinh  ra  đều  đặn  và  rất  lớn  về  kích  thước,  nhưng  nếu  các  dữ  liệu  này  có  cấu  trúc  đơn  giản,  có  quy  luật,  thì  đây  lại  là  tình  huống  của  “dữ  liệu  to  mà  không  lớn”.  

Các  quốc  gia  và  dữ  liệu  lớn  

 Có  thể  lấy  thí  dụ  từ  việc  Tổng  thống  Mỹ  Barack  Obama  dùng  công  nghệ  khai  phá  dữ  liệu  (data  mining)  trong  cuộc  chạy  đua  với  Mitt  Romney  vào  Nhà  Trắng  để  thấy  giá  trị  của  dữ  liệu  lớn.  Tại  trụ  sở  của  Obama  ở  Chicago,  một  đội  quân  gần  150  kỹ  thuật  viên  từ  đầu  năm  2012  đã  không  mệt  mỏi  thu  thập  và  tạo  ra  một  cơ  sở  dữ  liệu  lớn  chứa  tiểu  sử  riêng  của  các  cử  tri  tiềm  năng,  đặc  biệt  những  cử  tri  chưa  rõ  sẽ  bầu  cho  ai.  Họ  thu  thập  dữ  liệu  từ  nhiều  nguồn  khác  nhau,  nhất  là  các  nguồn  trên  mạng  như   từ   16   triệu   người   đăng   ký   vào   twitter   của   Obama   (so   với   500   nghìn   của  Romney),  và  gần  27  triệu  người  đăng  ký  vào  facebook  của  Obama  (so  với  1.8  triệu  của  Romney).  Các  dữ   liệu  này   cho  biết   nhiều   chi   tiết   như  mỗi   cử   tri  thường   đọc   sách   gì,   mua   sắm   ở  đâu,  công  ăn  việc  làm  là  gì,  bạn  bè  là   ai,   thậm   chí   mẹ   của   cử   tri   lần  trước   bầu   cho   ai…   Do   có   và   phân  tích   được   nguồn   dữ   liệu   lớn   này,  đội   quân   của  Obama   đã   có   những  vận  động  thích  hợp  với  cử  tri,  góp  phần  đáng  kể  vào  chiến  thắng  cuối  cùng.  

Ngày  29   tháng  3  năm  2012,  Văn  phòng  chính   sách  khoa  học  và   công  nghệ   thuộc  Văn  phòng  điều  hành  của  tổng  thống  Mỹ  đã  công  bố  84  chương  trình  về  dữ  liệu  lớn  thuộc  6  Bộ  của  Chính  phủ  liên  bang  Mỹ.  Những  chương  trình  này  đề  cập  đến  thách  thức  và  cơ  hội  của  cuộc  cách  mạng  dữ  liệu  lớn  và  xem  việc  đối  đầu  với  dữ  liệu  lớn  là  sứ  mệnh  của  các  cơ  quan  chính  phủ  cũng  như  của  việc  cách  tân  và  khám  phá  khoa  học.  Tóm  tắt  các  chương  trình  này  có  ở  [2],  và  ở  đây  ta  chỉ  đưa  ra  một  vài  minh  hoạ.  

Ở  Bộ  quốc  phòng,  một  kinh  phí  250  triệu  USD  hằng  năm  được  dành  cho  8  chương  trình  của  ‘sự  đánh  cuộc  lớn  với  dữ  liệu  lớn’,  nhằm  khai  thác  và  sử  dụng  dữ  liệu  lớn  bằng  những  cách  mới  để  giúp  các  hệ   thống   tự  động   ra  quyết  định,  nâng  cao  khả  năng  máy   tự  nhận  biết  và  đánh  giá   các   tình  huống  phức   tạp  để  hỗ   trợ   tác   chiến.  Chẳng   hạn   chương   trình   CINDER   (Cyber-­‐Insider   Threat)   nhằm   phát   triển   các  phương  pháp  mới  để  phát  hiện  các  hoạt  động  gián  điệp  trên  mạng  máy  tính  quân  

Đội  ngũ  kỹ  thuật  viên  của  Obama  đã  tạo  ra  và  phân  tích  một  lượng  lớn  dữ  liệu  về  cử  tri.  

Page 4: Big Data IBM Vietnam

sự.  Một  cách  nhằm  bộc  lộ  các  hoạt  động  gián  điệp  được  che  dấu  là  CINDER  sẽ  áp  dụng  rất  nhiều  mô  hình  hoạt  động  của  đối  phương  để  điều  chỉnh  các  hoạt  động  trên  mạng  máy  tính  nội  bộ.  Chương  trình  đọc  máy  (machine  reading)  nhằm  ứng  dụng  trí  tuệ  nhân  tạo  để  phát  triển  các  hệ  thống  có  thể  ‘hiểu’  và  định  được  nghĩa  của  văn  bản  thay  cho  con  người  làm  việc  này  vốn  rất  tốn  kém  và  chậm  chạp.  

Ở  Bộ  năng   lượng,  nhiều  chương   trình  được  xây  dựng  nhằm  tạo  ra  khả  năng  dẫn  đầu  về  các  kỹ  thuật  quản  lý,  hiển  thị  và  phân  tích  dữ  liệu   lớn.  Chẳng  hạn  chương  trình  ‘Toán  học  cho  việc  phân  tích  dữ  liệu  cỡ  peta’  đề  cập  các  thách  thức  toán  học  nhằm  thấu  hiểu  được  các  tập  dữ  liệu  khổng  lồ,  hoặc  tìm  ra  các  thuộc  tính  cốt  lõi  từ  dữ  liệu  và  hiểu  được  mối  quan  hệ  giữa  các  thuộc  tính  này.  Đây  cũng  là  mục  tiêu  của  nhiều  chương  trình  do  Quỹ  khoa  học  quốc  gia  (NSF)   tài   trợ  cho  nhiều  đại  học  và  viện  nghiên  cứu  nhằm  xây  dựng  các  kỹ  thuật  và  công  nghệ  nền  của  dữ  liệu  lớn.    

Còn  nhiều  chương  trình  ở  các  lĩnh  vực  khác  như  an  ninh  quốc  gia  (từ  phân  tích  và  dự  báo  các  thảm  hoạ  thiên  nhiên  đến  các  vụ  tấn  công  khủng  bố),  dịch  vụ  cho  sức  khoẻ  con  người  (ngăn  chặn  và  điều  khiển  dịch  bệnh,  chế  tạo  thuốc...),  nghiên  cứu  không  gian,  nghiên  cứu  trái  đất...  tất  cả  đều  liên  quan  đến  dữ  liệu  lớn.  

Không   riêng  Mỹ,  nhiều  nước  khác   cũng  có   các   chương   trình  khoa  học  về  dữ   liệu  lớn.  Trong  chương  trình  FIRST  của  Nhật  (the  Funding  Program  for  World-­‐leading  Innovative  R&D  on  Science  and  Technology)  nhằm  thúc  đẩy  các  nghiên  cứu  cách  tân  và  dẫn  đầu   trong  cuộc  cạnh  tranh  quốc   tế   trung  và  dài  hạn,   có  một  phần   lớn  gồm  gần  500  đề  tài  nhánh  về  phát  triển  các  phương  pháp  khai  thác  cơ  sở  dữ  liệu  rất  lớn  cho  phép  thực  hiện  và  đánh  giá  các  dịch  vụ  xã  hội  có  tính  chiến  lược.  Ngày  2  tháng  6  năm  2012,  giám  đốc  NSF  Subra  Suresh  của  Mỹ  và  bộ  trưởng  Bộ  giáo  dục,  văn  hoá,  thể  thao,  khoa  học  và  công  nghệ  (MEXT)  Hirofumi  Hirano  của  Nhật  đã  ký  một  thoả  thuận  hợp  tác  nghiên  cứu  về  dữ  liệu  lớn  và  thảm  hoạ  thiên  nhiên.    

Dữ  liệu  lớn  và  công  nghiệp  

Nhưng  chính  các  doanh  nghiệp  và  các  công  ty  công   nghiệp   là   những   nơi   đang   quan   tâm  nhiều   hơn   cả   đến   dữ   liệu   lớn.   Theo   số   liệu  ngày  15   tháng  10  năm  2012  của  các   tổ  chức  nghiên   cứu   thị   trường   toàn   cầu   Forbes   và  Gartner,  đầu  tư  của  các  doanh  nghiệp  cho  dữ  liệu  lớn  chiếm  88%  trên  tổng  đầu  tư.  Đầu  tư  như   vậy   vì   họ   nhìn   thấy   đây   là   một   trong  những  yếu  tố  rất  ảnh  hưởng  của  kinh  doanh  và  phát  triển  trong  tương  lai.    

Tỷ  lệ  các  thành  phần  tham  gia  vào  dữ  liệu  lớn  

Page 5: Big Data IBM Vietnam

Chắc   chắn  ai   cũng  đã  nghe  nói   về   các  nhà  khoa  học  đang  dùng   siêu  máy   tính  để  phân  tích  những  lượng  dữ  liệu  khổng  lồ  trong  nghiên  cứu.  Điều  khác  và  mới  là  sau  những  bước  đi   tiên   phong   của   khoa   học,   hiện   nay   những  người   làm  kinh  doanh  thông  minh  (business  intelligence)  đã  có  thể  truy  nhập  tới  các  nguồn  dữ  liệu  lớn,  và  các  doanh  nghiệp  đã  bắt  đầu  có  thể  khai  thác  dữ  liệu  lớn.    

Để  hiểu  được  tại  sao  nhiều  công  ty  quan  tâm  tới  dữ  liệu  lớn,  cần  biết  xu  hướng  là  một  số  công  ty  lớn  rất  nổi  tiếng  về  chế  tạo  thiết  bị  trong  quá  khứ  hiện  đang  chuyển  dần  thành  các  công  ty  cung  cấp  dịch  vụ,  chẳng  hạn  hướng  tới  cung  cấp  phân  tích  kinh  doanh  (business  analytics).  Một  thí  dụ  là  IBM.  Trước  kia  IBM  chế  tạo  các  máy  chủ,  máy  tính  để  bàn,  máy  tính  xách  tay,  và  thiết  bị  cho  hạ  tầng  cơ  sở.  Hiện  nay  IBM  đã  ngừng  sản  xuất  một  số   loại   thiết  bị  như  máy  tính  xách  tay  (IBM  ThinkPad)  và  thay  vào  đó  đầu  tư  hàng  tỷ  đôla  để  gây  dựng  và  nhằm  đạt  được  vị  trí  dẫn  đầu  trong  phân  tích  kinh  doanh.  IBM  đã  đầu  hơn  một  tỷ  USD  dùng  SPSS  trong  phân  tích  kinh  doanh  để  giành  được  thị  phần  bán  lẻ.  Đối  với  các  kinh  doanh  thương  mại  lớn  IBM  dùng  Cognos  để  cung  cấp  toàn  bộ  phân  tích  dịch  vụ.    

Google  là  một  đại  gia  về  dữ  liệu  lớn.  Mấy  ai  không  từng  kinh  ngạc  sao  Google  có  thể  tìm  kiếm  rất  nhanh  thông  tin  trên  không  gian  bao  la  các  trang  web  chỉ  với  mấy  từ  khoá   ta  đưa  vào.  Rõ  ràng  Google  hiểu  sâu   sắc  hơn  hầu  hết   các   công   ty  khác  việc  làm  sao  quản  lý  và  xử  lý  các  lượng  dữ  liệu  khổng  lồ.  Trên  con  đường  làm  chủ  dữ  liệu  lớn,  Google  đang  xây  công  nghệ   riêng   của   mình   để   phân   tích  nhanh   và   tương   tác   với   những   lượng  dữ  liệu  khổng   lồ:  Quản  trị  dữ   liệu  bởi  Cloud  Storage  và  phân  tích  dữ  liệu  bởi  BigQuery  (nối  với  công  cụ  hiển  thị  của  công  ty  Tableau).  

Sở  dĩ  các  công  ty  đầu  tư  cho  dữ  liệu  lớn  vì  họ  nhìn  thấy  làm  việc  làm  chủ  được  dữ  liệu   lớn   sẽ   cho   phép   giải   quyết   nhiều   vấn   đề   phức   tạp   trước   kia   không   thể   làm  được  và  có  thể  tạo  ra  các  quyết  định  và  hành  động  tốt  hơn.  Và  điều  này  cho  phép  họ  có  được  các  ưu  thế  cạnh  tranh,  điều  cốt  tử  trong  bối  cảnh  toàn  cầu  hiện  nay.  Ngoài  ra,  làm  chủ  dữ  liệu  lớn  từ  các  mạng  xã  hội  cho  phép  thấu  hiểu  các  hành  vi  phức  tạp  của  xã  hội  con  người,  và  nhiều  hy  vọng  ở  những  đột  phá  trong  khoa  học.  

Theo  dự  đoán  của  Gartner,  trong  5  năm  2012-­‐2017  thế  giới  sẽ  đầu  tư  232  tỷ  USD  cho  dữ  liệu  lớn.  Tuy  nhiên,  Gartner  cũng  dự  đoán  cho  đến  cuối  2015,  85%  công  ty  trong  bảng  xếp  hạng  500  công  ty  lớn  nhất  Hoa  Kỳ  (Fortune  500)  sẽ  thất  bại  trong  việc  khai  thác  dữ  liệu  lớn.  Đơn  giản  vì  các  phương  pháp  và  kỹ  thuật  cho  dữ  liệu  lớn  trong  ba  năm  tới  chưa  đáp  ứng  được  nhu  cầu  sử  dụng,  và  nhiều  phương  pháp  mới  đang  được  hy  vọng  sẽ  sớm  xuất  hiện.  

Một  vài  trung  tâm  dữ  liệu  khổng  lồ  của  Google  

Page 6: Big Data IBM Vietnam

 

Chìa  khoá  của  dữ  liệu  lớn  

Vậy  đâu  là  chìa  khoá  khoa  học  và  công  nghệ  của  dữ  liệu  lớn?  

Hình  bên  giới  thiệu  một  mô  hình  tổng  quát  về  khai  thác  dữ  liệu  lớn.  Mặc  dù  đang  còn  phát  triển,  ba  chìa  khoá  chính  của  khai  thác  dữ  liệu  lớn  luôn  được  xem  là:  (1)  Quản  trị  dữ  liệu,   tức  lưu  trữ,  bảo  trì  và  truy  nhập  các  nguồn  dữ  liệu  lớn;  (2)  Phân  tích  dữ  liệu,  tức  tìm  cách  hiểu  được  dữ  liệu  và  tìm  ra  các  thông  tin  hoặc  tri  thức  quý  báu  từ  dữ  liệu;  (3)  Hiển  thị  (visualization)  dữ  liệu  và  kết  quả  phân  tích  dữ  liệu.  

Phát   triển   công   cụ  quản  trị  dữ   liệu   lớn   là  một   thách   thức.   Hình  bên  chỉ  ra  các  công  cụ  quản   trị   dữ   liệu   lớn  tiêu   biểu   hiện   nay,  phân  loại  theo  hai  trục  về   dữ   liệu   có   cấu   trúc  hay  không  có  cấu  trúc,  và   mã   nguồn   mở   hay  thương   mại.   Nghiên  cứu   về   các   kỹ   thuật  hiển  thị  dữ  liệu  lớn,  về  mối  quan  hệ  phức   tạp  trong   chúng,   cũng   là  một  thách  thức  lớn  trong  lĩnh  vực  này.    

Nhưng  thách  thức  chính  của  dữ  liệu  lớn  là  các  phương  pháp  phân  tích  dữ  liệu,  và  chủ  yếu  là  các  phương  pháp  của  hai  lĩnh  vực  học  máy  và  khai  phá  dữ  liệu.  Học  máy  (machine  learning)  là  một  lĩnh  vực  của  CNTT  nhằm  làm  cho  máy  tính  có  một  số  khả  năng   học   tập   của   con   người,  chủ   yếu   là   học   để   khám  phá.  Cốt   lỗi   của   việc   tạo   ra   khả  năng   tự   học   này   của   máy   là  việc  phân  tích  các  tập  dữ  liệu  để   phát   hiện   ra   các   quy   luật,  các   mẫu   dạng,   các   mô   hình.  Lĩnh   vực   học   máy   đã   phát  triển   quãng   40   năm,   và   đặc  biệt  bùng  nổ   trong  vòng  hơn  mười  năm  qua.  Kết  hợp  ngày   Những  công  cụ  hiện  nay  của  quản  trị  dữ  liệu  lớn  (nguồn  CISCO)  

Mô  hình  tổng  quát  về  khai  thác  dữ  liệu  lớn  (nguồn  WAMDM,  Web  Group)  

Page 7: Big Data IBM Vietnam

càng  nhiều  hơn  với   thống  kê   toán  học,   các  phương  pháp  học  máy   càng  mạnh  và  hiệu  lực  hơn  khi  phân  tích  các  dữ  liệu  phức  tạp.  Khai  phá  dữ  liệu  (data  mining)  là  một  lĩnh  vực  mở  rộng  của  học  máy,  phát  triển  trong  khoảng  gần  hai  mươi  năm  qua,  tập  trung  vào  việc  đưa  các  phương  pháp  học  máy  vào  phân  tích,  khai  thác  các  tập  dữ  liệu  lớn  có  trong  các  lĩnh  vực  khác  nhau.  Những  hướng  nghiên  cứu  gần  đây  về  mô  hình  thưa,  giảm  số  chiều,  mô  hình  đồ  thị  xác  suất...  trong  hai  lĩnh  vực  này  chính  là  những  hướng  đi  tới  xử  lý  dữ  liệu  lớn.  

Chúng  ta  có  cần  quan  tâm  đến  dữ  liệu  lớn?  

Đây  là  câu  hỏi  nhiều  người  đã  đặt  ra  trong  các  seminar  khi  chúng  tôi  giới  thiệu  về  dữ  liệu  lớn  ở  Hà  Nội  và  thành  phố  Hồ  Chí  Minh.  Số  đông  người  hỏi  đều  cho  là  Việt  Nam  ta  chưa  có  những  tập  dữ  liệu  lớn.    

Câu  trả   lời   là  chúng  ta  cần  lo  ngay  cho  dữ  liệu  lớn,  vì  rất  nhiều  lý  do.  Thật  ra  các  lĩnh  vực  truyền  thông,  thương  mại,  giao  thông,  các  mạng  xã  hội...  ở  ta  cũng  có  thể  có  những  lượng  dữ  liệu  rất  lớn  nếu  ta  lưu  giữ  và  khai  thác  chúng.  Ngay  trong  nền  kinh  tế  nội  địa,  ai  phân  tích  được  những  nguồn  dữ  liệu  lớn  đều  có  cơ  hội  tìm  ra  những  lợi  thế  kinh  doanh.  Về  giao  thông  ở  các  thành  phố  lớn  như  Hồ  Chí  Minh  hay  Hà  Nội,  nếu  ta  đặt  được  nhiều  bộ  cảm  ứng  ở  rất  nhiều  điểm,  lượng  dữ  liệu  thu  được  cũng  sẽ   rất   lớn   và   phức   tạp.  Muốn   giải   quyết   bài   toán   giao   thông  đô   thị   ta   không   thể  không  có   các  dữ   liệu  này.  Cũng  vậy,  nếu  muốn  giải  bài   toán  dự  đoán   lũ   lụt  miền  Trung,  ta  phải  thu  được  dữ  liệu  rất  lớn  và  phức  tạp  về  sông  ngòi,  lượng  mưa...    Ở  đây,  có  thể  dễ  dàng  thấy  mối  liên  quan  giữa  dữ  liệu  lớn  và  siêu  máy  tính,  và  khoa  học  và  kỹ  thuật  tính  toán  [1].  

Thêm  nữa,   ta   không   thể  đứng  ngoài   xu   thế   chung   của   thế  giới,   để  không  bị   lúng  túng  khi  bắt  buộc  phải  đối  đầu  với  dữ  liệu  lớn.  Đột  phá  về  phương  pháp  phân  tích  dữ  liệu  lớn  cũng  có  thể  mở  ra  cho  ta  những  con  đường  làm  ăn  trong  ngành  CNTT  ở  trong  và  ngoài  nước.  Và  chắc  chắn  dữ  liệu  lớn  đang  là  câu  hỏi  được  chờ  đợi  trả  lời  bởi  các  công  ty  CNTT  hàng  đầu  ở  ta  như  FPT.  

Tài  liệu  tham  khảo    1. Phát   triển   khoa   học   và   kỹ   thuật   tính   toán   ở   Việt   Nam:   Bài   học   và   ý   kiến,  

http://tiasang.com.vn/Default.aspx?tabid=62&CategoryID=2&News=5916.  

2. Big Data Across the Federal Government –  The  White  House,  March  2012.  http://search.whitehouse.gov/search?affiliate=wh&query=Big+data+fact+sheet+&form_id=usasearch_box    

3. Bill  Franks,  Taming  the  Big  Data  Tidal  Wave,  Wiley,  2012.