Big Data IBM Vietnam

Dữ Liệu Lớn: Cơ hội lớn và thách thức lớn Hồ Tú Bảo

Dữ liệu lớn là gì?

Về những công nghệ nổi trội trong năm 2012 vừa qua, có thể nói đến Dữ Liệu Lớn (Big Data). Trong bài này từ ‘big data’ đôi khi được dùng xen kẽ với ‘dữ liệu lớn’ để nhấn mạnh ‘big data’ đã thành từ cửa miệng trong nhiều câu chuyện của giới khoa học, doanh nghiệp, của các nhà quản lý quốc gia... ở nhiều nơi trên thế giới.

Ba lĩnh vực của công nghệ thông tin (CNTT) được cho là đang và sẽ có ảnh hưởng khắp nơi là thiết bị thông minh, điện toán đám mây và dữ liệu lớn. Gần đây Tổng Giám đốc Trương Gia Bình của FPT cũng khẳng định: “Lời giải hạ tầng sẽ dựa trên công nghệ di động, điện toán đám mây và dữ liệu lớn”, và giám đốc công nghệ Nguyễn Lâm Phương cũng cho biết: “Dòng chảy của FPT là CNTT là hạ tầng của hạ tầng với các mái chèo là Mobility, Cloud Computing, Big Data…”

Nói một cách đại thể thì big data là các tập dữ liệu rất lớn và/hoặc rất phức tạp mà những phương pháp hiện tại của CNTT chưa phân tích và xử lý tốt được chúng. Tên gọi ‘dữ liệu lớn’ làm nhiều người không biết đến khía cạnh về độ phức tạp của dữ liệu. Thật ra, hai tính chất này của dữ liệu lớn luôn đi cùng nhau,

trong đó tính chất ‘rất phức tạp’ còn đặc trưng và thách thức hơn ‘kích thước lớn’ của dữ liệu. Điều này cũng có thể thấy ở chừng mực nào đấy trong định nghĩa của IBM về dữ liệu lớn với ba chữ V: Variety, Velocity và Volume. Chữ V đầu tiên chỉ sự đa dạng, sự liên kết chằng chịt của dữ liệu với nhiều cấu trúc khác nhau, từ dữ liệu quan hệ, đến dữ liệu không cấu trúc như các văn bản thô… Chữ V thứ hai chỉ tính chất chuyển động liên tục của dòng dữ liệu rất lớn cần xử lý, khác với cách truyền thống ta thu nhận và xử lý dữ liệu theo từng mẻ (batch). Chữ V thứ ba chỉ độ lớn

Khai mạc hội thảo Trí tuệ Nhân tạo: Xử lý dữ liệu lớn một cách thông minh

Ba lĩnh vực nhiều ảnh hưởng: Điện toán đám mây, dữ liệu lớn, và thiết bị thông minh.

của dữ liệu ở mức terabytes (1012), rồi petabytes (1015 bytes), và cả zetabytes (1018 bytes).

Ai cũng biết dữ liệu là nguồn chứa hầu hết mọi thông tin của con người, nhưng những thông tin này không lồ lộ ra cho ta dùng ngay mà ta chỉ có thể tìm ra chúng khi phân tích (xử lý) được dữ liệu. Một cách nôm na, khi dữ liệu càng lớn và càng phức tạp thì việc xử lý chúng càng khó, khó tới mức hiện nay con người chưa có cách làm được tốt việc này.

Dữ liệu lớn từ đâu ra?

Việc lượng dữ liệu lớn đang ngày càng rất nhiều quanh ta là một hiện thực khách quan. Dữ liệu lớn có ở rất nhiều tổ chức, nhiều hoạt động xã hội, kinh doanh, khoa học và tiềm ẩn nhiều giá trị to lớn. Nhưng dữ liệu lớn ấy đến từ đâu?

Chúng đến từ rất nhiều nguồn và ba nguồn chính là: (1) Các phương tiện truyền thông xã hội, như mỗi ngày trên toàn thế giới có 230 triệu mẩu tin trao đổi trên các twitters, có 2,7 tỷ ý kiến trao đổi trên các facebooks, và số video mỗi ngày đưa lên Youtube cần đến 86400 giờ để xem hết; (2) Các máy móc thu nhận dữ liệu, các thiết bị công nghiệp, các cảm biến (sensors), các dụng cụ giám sát... như máy gia tốc hạt lớn của CERN (tổ chức nghiên cứu nguyên tử châu Âu) tạo ra 40 terabytes dữ liệu mỗi giây… (3) Giao dịch kinh doanh, từ số liệu giá cả sản phẩm, thanh toán, dữ liệu chế tạo và phân bố... như số sản phẩm Amazon.com bán trong Quý 3 năm 2011 có giá trị 10 tỷ USD, như dãy các nhà hàng Domino bán pizza trên toàn nước Mỹ đạt 1 triệu khách mỗi ngày...

Lớn mà không to, to mà không lớn Như trên đã nói độ phức tạp lớn vốn thách thức nhiều hơn kích thước lớn của dữ liệu. Chẳng hạn mỗi hệ thống như lò hạt nhân, máy bay… đều gồm hàng trăm nghìn bộ cảm ứng, và các hệ này hoạt động dựa vào quyết định được đưa ra theo kết quả tính toán và phân tích những tổ hợp dữ liệu của các cảm biến này. Sự tổ hợp các nguồn dữ liệu này là hết sức phức tạp dù kích thước của chúng không lớn. Chẳng hạn một máy bay với một trăm nghìn bộ cảm biến trong một giờ bay chỉ

Các bộ cảm ứng liên tục tạo dữ liệu khi máy bay hoạt động

tạo ra 3 gigabytes dữ liệu (100,000 bộ cảm biến x 60 phút x 60 giây x 8 bytes = 3Gb), nhưng chính độ phức tạp của tổ hợp dữ liệu từ các bộ cảm biến này tạo ra tình huống “dữ liệu lớn mà không to”.

Ngược lại trong nhiều tình huống lượng dữ liệu được sinh ra đều đặn và rất lớn về kích thước, nhưng nếu các dữ liệu này có cấu trúc đơn giản, có quy luật, thì đây lại là tình huống của “dữ liệu to mà không lớn”.

Các quốc gia và dữ liệu lớn

Có thể lấy thí dụ từ việc Tổng thống Mỹ Barack Obama dùng công nghệ khai phá dữ liệu (data mining) trong cuộc chạy đua với Mitt Romney vào Nhà Trắng để thấy giá trị của dữ liệu lớn. Tại trụ sở của Obama ở Chicago, một đội quân gần 150 kỹ thuật viên từ đầu năm 2012 đã không mệt mỏi thu thập và tạo ra một cơ sở dữ liệu lớn chứa tiểu sử riêng của các cử tri tiềm năng, đặc biệt những cử tri chưa rõ sẽ bầu cho ai. Họ thu thập dữ liệu từ nhiều nguồn khác nhau, nhất là các nguồn trên mạng như từ 16 triệu người đăng ký vào twitter của Obama (so với 500 nghìn của Romney), và gần 27 triệu người đăng ký vào facebook của Obama (so với 1.8 triệu của Romney). Các dữ liệu này cho biết nhiều chi tiết như mỗi cử tri thường đọc sách gì, mua sắm ở đâu, công ăn việc làm là gì, bạn bè là ai, thậm chí mẹ của cử tri lần trước bầu cho ai… Do có và phân tích được nguồn dữ liệu lớn này, đội quân của Obama đã có những vận động thích hợp với cử tri, góp phần đáng kể vào chiến thắng cuối cùng.

Ngày 29 tháng 3 năm 2012, Văn phòng chính sách khoa học và công nghệ thuộc Văn phòng điều hành của tổng thống Mỹ đã công bố 84 chương trình về dữ liệu lớn thuộc 6 Bộ của Chính phủ liên bang Mỹ. Những chương trình này đề cập đến thách thức và cơ hội của cuộc cách mạng dữ liệu lớn và xem việc đối đầu với dữ liệu lớn là sứ mệnh của các cơ quan chính phủ cũng như của việc cách tân và khám phá khoa học. Tóm tắt các chương trình này có ở [2], và ở đây ta chỉ đưa ra một vài minh hoạ.

Ở Bộ quốc phòng, một kinh phí 250 triệu USD hằng năm được dành cho 8 chương trình của ‘sự đánh cuộc lớn với dữ liệu lớn’, nhằm khai thác và sử dụng dữ liệu lớn bằng những cách mới để giúp các hệ thống tự động ra quyết định, nâng cao khả năng máy tự nhận biết và đánh giá các tình huống phức tạp để hỗ trợ tác chiến. Chẳng hạn chương trình CINDER (Cyber-‐Insider Threat) nhằm phát triển các phương pháp mới để phát hiện các hoạt động gián điệp trên mạng máy tính quân

Đội ngũ kỹ thuật viên của Obama đã tạo ra và phân tích một lượng lớn dữ liệu về cử tri.

sự. Một cách nhằm bộc lộ các hoạt động gián điệp được che dấu là CINDER sẽ áp dụng rất nhiều mô hình hoạt động của đối phương để điều chỉnh các hoạt động trên mạng máy tính nội bộ. Chương trình đọc máy (machine reading) nhằm ứng dụng trí tuệ nhân tạo để phát triển các hệ thống có thể ‘hiểu’ và định được nghĩa của văn bản thay cho con người làm việc này vốn rất tốn kém và chậm chạp.

Ở Bộ năng lượng, nhiều chương trình được xây dựng nhằm tạo ra khả năng dẫn đầu về các kỹ thuật quản lý, hiển thị và phân tích dữ liệu lớn. Chẳng hạn chương trình ‘Toán học cho việc phân tích dữ liệu cỡ peta’ đề cập các thách thức toán học nhằm thấu hiểu được các tập dữ liệu khổng lồ, hoặc tìm ra các thuộc tính cốt lõi từ dữ liệu và hiểu được mối quan hệ giữa các thuộc tính này. Đây cũng là mục tiêu của nhiều chương trình do Quỹ khoa học quốc gia (NSF) tài trợ cho nhiều đại học và viện nghiên cứu nhằm xây dựng các kỹ thuật và công nghệ nền của dữ liệu lớn.

Còn nhiều chương trình ở các lĩnh vực khác như an ninh quốc gia (từ phân tích và dự báo các thảm hoạ thiên nhiên đến các vụ tấn công khủng bố), dịch vụ cho sức khoẻ con người (ngăn chặn và điều khiển dịch bệnh, chế tạo thuốc...), nghiên cứu không gian, nghiên cứu trái đất... tất cả đều liên quan đến dữ liệu lớn.

Không riêng Mỹ, nhiều nước khác cũng có các chương trình khoa học về dữ liệu lớn. Trong chương trình FIRST của Nhật (the Funding Program for World-‐leading Innovative R&D on Science and Technology) nhằm thúc đẩy các nghiên cứu cách tân và dẫn đầu trong cuộc cạnh tranh quốc tế trung và dài hạn, có một phần lớn gồm gần 500 đề tài nhánh về phát triển các phương pháp khai thác cơ sở dữ liệu rất lớn cho phép thực hiện và đánh giá các dịch vụ xã hội có tính chiến lược. Ngày 2 tháng 6 năm 2012, giám đốc NSF Subra Suresh của Mỹ và bộ trưởng Bộ giáo dục, văn hoá, thể thao, khoa học và công nghệ (MEXT) Hirofumi Hirano của Nhật đã ký một thoả thuận hợp tác nghiên cứu về dữ liệu lớn và thảm hoạ thiên nhiên.

Dữ liệu lớn và công nghiệp

Nhưng chính các doanh nghiệp và các công ty công nghiệp là những nơi đang quan tâm nhiều hơn cả đến dữ liệu lớn. Theo số liệu ngày 15 tháng 10 năm 2012 của các tổ chức nghiên cứu thị trường toàn cầu Forbes và Gartner, đầu tư của các doanh nghiệp cho dữ liệu lớn chiếm 88% trên tổng đầu tư. Đầu tư như vậy vì họ nhìn thấy đây là một trong những yếu tố rất ảnh hưởng của kinh doanh và phát triển trong tương lai.

Tỷ lệ các thành phần tham gia vào dữ liệu lớn

Chắc chắn ai cũng đã nghe nói về các nhà khoa học đang dùng siêu máy tính để phân tích những lượng dữ liệu khổng lồ trong nghiên cứu. Điều khác và mới là sau những bước đi tiên phong của khoa học, hiện nay những người làm kinh doanh thông minh (business intelligence) đã có thể truy nhập tới các nguồn dữ liệu lớn, và các doanh nghiệp đã bắt đầu có thể khai thác dữ liệu lớn.

Để hiểu được tại sao nhiều công ty quan tâm tới dữ liệu lớn, cần biết xu hướng là một số công ty lớn rất nổi tiếng về chế tạo thiết bị trong quá khứ hiện đang chuyển dần thành các công ty cung cấp dịch vụ, chẳng hạn hướng tới cung cấp phân tích kinh doanh (business analytics). Một thí dụ là IBM. Trước kia IBM chế tạo các máy chủ, máy tính để bàn, máy tính xách tay, và thiết bị cho hạ tầng cơ sở. Hiện nay IBM đã ngừng sản xuất một số loại thiết bị như máy tính xách tay (IBM ThinkPad) và thay vào đó đầu tư hàng tỷ đôla để gây dựng và nhằm đạt được vị trí dẫn đầu trong phân tích kinh doanh. IBM đã đầu hơn một tỷ USD dùng SPSS trong phân tích kinh doanh để giành được thị phần bán lẻ. Đối với các kinh doanh thương mại lớn IBM dùng Cognos để cung cấp toàn bộ phân tích dịch vụ.

Google là một đại gia về dữ liệu lớn. Mấy ai không từng kinh ngạc sao Google có thể tìm kiếm rất nhanh thông tin trên không gian bao la các trang web chỉ với mấy từ khoá ta đưa vào. Rõ ràng Google hiểu sâu sắc hơn hầu hết các công ty khác việc làm sao quản lý và xử lý các lượng dữ liệu khổng lồ. Trên con đường làm chủ dữ liệu lớn, Google đang xây công nghệ riêng của mình để phân tích nhanh và tương tác với những lượng dữ liệu khổng lồ: Quản trị dữ liệu bởi Cloud Storage và phân tích dữ liệu bởi BigQuery (nối với công cụ hiển thị của công ty Tableau).

Sở dĩ các công ty đầu tư cho dữ liệu lớn vì họ nhìn thấy làm việc làm chủ được dữ liệu lớn sẽ cho phép giải quyết nhiều vấn đề phức tạp trước kia không thể làm được và có thể tạo ra các quyết định và hành động tốt hơn. Và điều này cho phép họ có được các ưu thế cạnh tranh, điều cốt tử trong bối cảnh toàn cầu hiện nay. Ngoài ra, làm chủ dữ liệu lớn từ các mạng xã hội cho phép thấu hiểu các hành vi phức tạp của xã hội con người, và nhiều hy vọng ở những đột phá trong khoa học.

Theo dự đoán của Gartner, trong 5 năm 2012-‐2017 thế giới sẽ đầu tư 232 tỷ USD cho dữ liệu lớn. Tuy nhiên, Gartner cũng dự đoán cho đến cuối 2015, 85% công ty trong bảng xếp hạng 500 công ty lớn nhất Hoa Kỳ (Fortune 500) sẽ thất bại trong việc khai thác dữ liệu lớn. Đơn giản vì các phương pháp và kỹ thuật cho dữ liệu lớn trong ba năm tới chưa đáp ứng được nhu cầu sử dụng, và nhiều phương pháp mới đang được hy vọng sẽ sớm xuất hiện.

Một vài trung tâm dữ liệu khổng lồ của Google

Chìa khoá của dữ liệu lớn

Vậy đâu là chìa khoá khoa học và công nghệ của dữ liệu lớn?

Hình bên giới thiệu một mô hình tổng quát về khai thác dữ liệu lớn. Mặc dù đang còn phát triển, ba chìa khoá chính của khai thác dữ liệu lớn luôn được xem là: (1) Quản trị dữ liệu, tức lưu trữ, bảo trì và truy nhập các nguồn dữ liệu lớn; (2) Phân tích dữ liệu, tức tìm cách hiểu được dữ liệu và tìm ra các thông tin hoặc tri thức quý báu từ dữ liệu; (3) Hiển thị (visualization) dữ liệu và kết quả phân tích dữ liệu.

Phát triển công cụ quản trị dữ liệu lớn là một thách thức. Hình bên chỉ ra các công cụ quản trị dữ liệu lớn tiêu biểu hiện nay, phân loại theo hai trục về dữ liệu có cấu trúc hay không có cấu trúc, và mã nguồn mở hay thương mại. Nghiên cứu về các kỹ thuật hiển thị dữ liệu lớn, về mối quan hệ phức tạp trong chúng, cũng là một thách thức lớn trong lĩnh vực này.

Nhưng thách thức chính của dữ liệu lớn là các phương pháp phân tích dữ liệu, và chủ yếu là các phương pháp của hai lĩnh vực học máy và khai phá dữ liệu. Học máy (machine learning) là một lĩnh vực của CNTT nhằm làm cho máy tính có một số khả năng học tập của con người, chủ yếu là học để khám phá. Cốt lỗi của việc tạo ra khả năng tự học này của máy là việc phân tích các tập dữ liệu để phát hiện ra các quy luật, các mẫu dạng, các mô hình. Lĩnh vực học máy đã phát triển quãng 40 năm, và đặc biệt bùng nổ trong vòng hơn mười năm qua. Kết hợp ngày Những công cụ hiện nay của quản trị dữ liệu lớn (nguồn CISCO)

Mô hình tổng quát về khai thác dữ liệu lớn (nguồn WAMDM, Web Group)

càng nhiều hơn với thống kê toán học, các phương pháp học máy càng mạnh và hiệu lực hơn khi phân tích các dữ liệu phức tạp. Khai phá dữ liệu (data mining) là một lĩnh vực mở rộng của học máy, phát triển trong khoảng gần hai mươi năm qua, tập trung vào việc đưa các phương pháp học máy vào phân tích, khai thác các tập dữ liệu lớn có trong các lĩnh vực khác nhau. Những hướng nghiên cứu gần đây về mô hình thưa, giảm số chiều, mô hình đồ thị xác suất... trong hai lĩnh vực này chính là những hướng đi tới xử lý dữ liệu lớn.

Chúng ta có cần quan tâm đến dữ liệu lớn?

Đây là câu hỏi nhiều người đã đặt ra trong các seminar khi chúng tôi giới thiệu về dữ liệu lớn ở Hà Nội và thành phố Hồ Chí Minh. Số đông người hỏi đều cho là Việt Nam ta chưa có những tập dữ liệu lớn.

Câu trả lời là chúng ta cần lo ngay cho dữ liệu lớn, vì rất nhiều lý do. Thật ra các lĩnh vực truyền thông, thương mại, giao thông, các mạng xã hội... ở ta cũng có thể có những lượng dữ liệu rất lớn nếu ta lưu giữ và khai thác chúng. Ngay trong nền kinh tế nội địa, ai phân tích được những nguồn dữ liệu lớn đều có cơ hội tìm ra những lợi thế kinh doanh. Về giao thông ở các thành phố lớn như Hồ Chí Minh hay Hà Nội, nếu ta đặt được nhiều bộ cảm ứng ở rất nhiều điểm, lượng dữ liệu thu được cũng sẽ rất lớn và phức tạp. Muốn giải quyết bài toán giao thông đô thị ta không thể không có các dữ liệu này. Cũng vậy, nếu muốn giải bài toán dự đoán lũ lụt miền Trung, ta phải thu được dữ liệu rất lớn và phức tạp về sông ngòi, lượng mưa... Ở đây, có thể dễ dàng thấy mối liên quan giữa dữ liệu lớn và siêu máy tính, và khoa học và kỹ thuật tính toán [1].

Thêm nữa, ta không thể đứng ngoài xu thế chung của thế giới, để không bị lúng túng khi bắt buộc phải đối đầu với dữ liệu lớn. Đột phá về phương pháp phân tích dữ liệu lớn cũng có thể mở ra cho ta những con đường làm ăn trong ngành CNTT ở trong và ngoài nước. Và chắc chắn dữ liệu lớn đang là câu hỏi được chờ đợi trả lời bởi các công ty CNTT hàng đầu ở ta như FPT.

Tài liệu tham khảo 1. Phát triển khoa học và kỹ thuật tính toán ở Việt Nam: Bài học và ý kiến,

http://tiasang.com.vn/Default.aspx?tabid=62&CategoryID=2&News=5916.

2. Big Data Across the Federal Government – The White House, March 2012. http://search.whitehouse.gov/search?affiliate=wh&query=Big+data+fact+sheet+&form_id=usasearch_box

3. Bill Franks, Taming the Big Data Tidal Wave, Wiley, 2012.

Documents

Big Data IBM Vietnam