Dữ liệu và trạng thái “phức tạp chưa từng thấy”

Gia Ngọc

Theo Forbes, trên toàn cầu, hơn 2,5 tỷ tỷ byte dữ liệu được tạo ra mỗi ngày và 90% dữ liệu trên thế giới mới chỉ được tạo ra trong vài năm qua_Ảnh minh họa

Lĩnh vực dữ liệu được nhận định là đang ở trong trạng thái “phức tạp chưa từng thấy” sau một giai đoạn dài phát triển không ngừng. Theo Forbes, trên toàn cầu, hơn 2,5 tỷ tỷ byte dữ liệu được tạo ra mỗi ngày và 90% dữ liệu trên thế giới mới chỉ được tạo ra trong vài năm qua.

Dữ liệu lớn ngày càng lớn

Với sự xuất hiện của trí tuệ nhân tạo (AI) cũng như sự kỳ vọng của con người vào nó, dữ liệu - “thức ăn” cho AI - càng trở nên quan trọng, được quan tâm nghiêm túc hơn về mọi mặt, từ cách thu thập, sắp xếp cho tới quản lý thông tin.

Vài con số sau có thể giúp bất kỳ ai hình dung về quy mô dữ liệu hiện nay: mỗi ngày, đang có khoảng 300 tỷ email được trao đổi. Mỗi phút, có 400 giờ video được tải lên YouTube. Cũng trong 1 phút, Google nhận được hơn 63.000 yêu cầu tìm kiếm. Dự kiến đến năm 2025, dữ liệu thời gian thực sẽ chiếm hơn 1/4 tổng số dữ liệu.

Đó mới chỉ là dữ liệu nói chung. Dữ liệu lớn (Big Data) có sự khác biệt đáng kể. Như tên gọi, Big Data là dữ liệu rất lớn và phức tạp, tới mức không thể lưu trữ trong cơ sở dữ liệu truyền thống. Người ta thường nói đến “5V” như các đặc trưng của Big Data, gồm: Volume (khối lượng, tức lượng dữ liệu được tạo), Velocity (tốc độ, khả năng xử lý dữ liệu tốc độ cao), Variety (đa dạng về kiểu dữ liệu), Veracity (độ chính xác của dữ liệu) và Value (giá trị, khả năng mang lại thông tin hữu ích).

Khi số lượng người dùng Internet tăng lên trong suốt thập niên qua, ngay cả “người khổng lồ” như Google cũng gặp nhiều thách thức với Big Data. Do phải lưu trữ quá nhiều dữ liệu người dùng trên các máy chủ truyền thống của mình, hàng nghìn truy vấn tìm kiếm được đưa ra mỗi giây, quá trình truy xuất tiêu tốn hàng trăm megabyte và hàng tỷ lượt xử lý CPU, Google cần một hệ thống tệp mở rộng, phân tán và có khả năng chịu lỗi cao để lưu trữ và xử lý các truy vấn.

Họ đã phát triển Google File System (GFS). Kiến trúc GFS bao gồm một máy chủ chính và nhiều máy chủ khối hoặc máy phụ. Máy chính chứa siêu dữ liệu, máy khối/máy phụ lưu trữ dữ liệu theo kiểu phân tán. Bất cứ khi nào ứng dụng khách trên giao diện lập trình ứng dụng (API) muốn đọc dữ liệu, ứng dụng khách đó sẽ liên hệ với chủ, sau đó chủ này sẽ phản hồi bằng thông tin siêu dữ liệu. Máy khách sử dụng thông tin siêu dữ liệu này để gửi yêu cầu đọc/ghi tới các máy phụ để tạo phản hồi. Mỗi phần dữ liệu được sao chép trên máy chủ khối 3 lần để khi có một máy chủ khối gặp lỗi, dữ liệu vẫn truy xuất được trên các máy còn lại.

Nhiều thách thức với Big Data

Những thách thức gặp phải khi thu thập, xử lý, lưu trữ,... Big Data có rất nhiều, từ kho lưu trữ tới việc xử lý, cấu trúc, truy xuất, bảo vệ. Các thách thức này liên quan tới cả công nghệ và tiền chi cho chúng.

Với lượng dữ liệu khổng lồ được tạo ra hằng ngày, thách thức đầu tiên và có thể lớn nhất chính là lưu trữ, đặc biệt khi dữ liệu ở các định dạng khác nhau, trong các hệ thống đã được xây từ trước. Hiện nay đã xuất hiện các kiểu dữ liệu mới, dữ liệu phi cấu trúc, không thể được lưu trữ trong cơ sở dữ liệu truyền thống. Ngoài giải pháp công nghệ để lưu trữ, càng lưu trữ nhiều dữ liệu, càng tốn nhiều tiền.

Giải quyết xong khâu lưu trữ, vấn đề xử lý dữ liệu sẽ xuất hiện. Xử lý Big Data bao gồm cả việc đọc, biến đổi, trích xuất và định dạng thông tin hữu ích từ thông tin thô. Việc thống nhất định dạng để nhập và xuất khối lượng rất lớn thông tin vẫn còn là vấn đề khó khăn.

An ninh cũng là mối quan tâm lớn đối với các tổ chức. Thông tin không được mã hóa có nguy cơ bị tội phạm mạng đánh cắp hoặc làm hỏng. Việc lưu trữ dữ liệu trên đám mây cũng làm xuất hiện nhiều nguy cơ mất an toàn. Các chuyên gia bảo mật dữ liệu phải cân bằng quyền truy cập dữ liệu với việc duy trì các giao thức bảo mật nghiêm ngặt.

Có dữ liệu rồi, bạn sẽ còn đối mặt với công việc tìm và khắc phục các vấn đề về chất lượng dữ liệu. Tính chính xác của dữ liệu quyết định giá trị của nó, vì vậy người ta phải tìm mọi cách bảo đảm thông tin chính xác trong cơ sở dữ liệu ban đầu. Nếu thấy sự không chính xác, chắc chắn phải tiến hành sửa nguồn dữ liệu gốc, và phải sử dụng các phương pháp có độ chính xác cao.

Big Data tự thân nó có ý nghĩa quy mô lớn. Để mở rộng quy mô hệ thống Big Data, cần phải bảo vệ cơ sở dữ liệu, lưu vào bộ nhớ đệm, chuyển sang đám mây, tách cơ sở dữ liệu chỉ đọc và ghi... Thông thường, để mở rộng quy mô hiệu quả cần kết hợp tất cả các việc trên.

Để làm việc hiệu quả với Big Data, các công ty phải đánh giá, lựa chọn công nghệ dữ liệu. Họ đã chi hàng triệu USD cho việc này. Thị trường công nghệ dữ liệu lớn nở rộ đồng nghĩa với việc có rất nhiều công nghệ và xu hướng ra đời và việc lựa chọn công nghệ chính xác, phù hợp cũng không đơn giản.

Dữ liệu lớn ngày nay còn đòi hỏi “phân tích thời gian thực”, thực hiện phân tích dữ liệu khi hệ thống đang thu thập dữ liệu đó. Các quyết định có thể được đưa ra hiệu quả hơn và với thông tin chính xác hơn nhờ các công cụ phân tích thời gian thực sử dụng logic và toán học để cung cấp thông tin chi tiết về dữ liệu này một cách nhanh chóng. Điều này cũng là một thách thức không nhỏ về công nghệ và đầu tư.

Trước khi dữ liệu có thể sử dụng được trong quy trình kinh doanh, tính toàn vẹn, độ chính xác và cấu trúc của dữ liệu phải được xác thực. Đầu ra của quy trình xác thực dữ liệu có thể được sử dụng để phân tích sâu hơn, thậm chí để huấn luyện mô hình máy học cho AI.

Trên đây là những thách thức tất yếu sẽ gặp phải khi một công ty dấn thân vào lĩnh vực Big Data. Những vấn đề này không phải là lời khuyên nhủ ai đó đừng tốn tiền vô ích cho lĩnh vực Big Data (lợi ích của nó đã được chứng minh). Nhìn rõ các thách thức là để có sự chuẩn bị cần thiết, thực tế, bảo đảm chắc chắn hơn cho sự thành công của dự án Big Data mà đơn vị, tổ chức của mình tiến hành.

Chuyên mục: Vấn đề và bình luận