21/11/2024 | 23:07 GMT+7 | Điện thoại: 034 39429756 | Email: hososukien@gmail.com

Liệu có thổi phồng?

Nguyễn Sơn
Liệu có thổi phồng? Dữ liệu lớn được coi là nguồn tài nguyên số quan trọng, là lợi thế của tổ chức, doanh nghiệp trong chiến lược phát triển_Ảnh minh họa
Sự bùng nổ thông tin khiến khái niệm Big Data ra đời. Nhưng các công ty kinh doanh đã thổi nó lên thái quá. Chúng ta cần tỉnh táo để không lãng phí tiền của và công sức vào những công nghệ “hay, nhưng còn lâu mới cần”

Big Data - có thực sự là dữ liệu lớn?

Trong hơn 20 năm qua, chúng ta chứng kiến một cuộc bùng nổ thông tin. Thông tin tăng theo cấp số nhân, trong khi khả năng lưu trữ và xử lý của các thiết bị điện tử chỉ tăng theo cấp số cộng. Nguy cơ “thông tin mãn” trở nên nhãn tiền - lượng thông tin vượt qua mọi khả năng lưu trữ và xử lý, tức là khả năng “nuôi sống” chúng. Tất cả chúng ta đều hiểu: không thể lưu và xử lý thông tin theo kiểu cũ nữa. Lượng thông tin càng phình lên, thiết bị càng quá tải và “lâm bệnh”, các thuật toán của chúng ta càng xung đột và thậm chí “chiến tranh” với nhau. Khái niệm dữ liệu lớn ra đời, trở thành “giải pháp cho mọi giải pháp”, “người dẫn đường cho chúng ta vượt qua trùng điệp núi đồi của cuộc bùng nổ dữ liệu”. Các công ty đi đầu trong lĩnh vực này thu về những khoản lợi nhuận khổng lồ. Và họ tiếp tục nhấn thêm vào mối nguy mang tên Big Data, song song với việc mở mang công cuộc kinh doanh của chính họ.

Nhưng dữ liệu lớn có thực sự đáng sợ như họ nói không? Chúng ta hãy thử gạt bỏ cảm xúc mà các doanh nghiệp kinh doanh dữ liệu và truyền thông của họ tạo ra, để phân tích khách quan và sâu sắc về vấn đề này. 

Mười năm đã qua kể từ khi các công ty điện toán hàng đầu đồng thanh kêu lên “Big Data đang tới”. Nhưng có vẻ như là nó vẫn chưa tới. Điều này có thể thấy được bằng 3 cách: xem xét lượng dữ liệu thực có, hỏi ý kiến những chuyên gia có ảnh hưởng và tự phân tích theo những nguyên tắc căn bản. Số liệu từ các công ty lưu trữ cho thấy: tuyệt đại đa số khách hàng của họ lưu không quá 1 terabyte (1.024 gigabyte - đơn vị đo dung lượng lưu trữ). Tất nhiên có một vài khách hàng lưu nhiều dữ liệu hơn, nhưng phần lớn các dữ liệu “dôi ra” ấy là các dữ liệu thừa, chưa qua phân loại và loại bỏ. Thực tế, dữ liệu của các khách hàng, kể cả các doanh nghiệp lớn, có thể lưu vừa trong một ổ cứng thông thường. 

Thoạt tiên các công ty lưu trữ quảng cáo bán các gói lưu trữ nửa terabyte, nhưng sau 10 năm vừa qua, giờ đây họ thường hay quảng cáo bán các gói chỉ 100 gigabyte. “Thực tế các doanh nghiệp sử dụng ít hơn nhiều so với dung lượng mà họ đăng ký mua, nhưng họ vẫn có xu hướng mua gói 100 gigabyte bởi biết đâu có lúc cần. Hãy thử hình dung thế này: bạn là chủ một công ty tầm trung với khoảng 1.000 khách hàng, cứ mỗi ngày bạn có thêm một khách hàng mới với hợp đồng trên 100 hạng mục (điều quá lạc quan với bất cứ công ty thực tế nào), thì cũng mới chỉ dùng hết ít hơn 1 megabyte. Ba năm sau bạn mới dùng hết khoảng 1 gigabyte. Còn để dùng hết 1 terabyte, công ty bạn cần 1.000 năm. Ngay cả các công ty tiêu dùng với cả triệu khách hàng, dung lượng lưu trữ cũng mới đo bằng giga, chứ chưa đo bằng tera. Con số đó còn rất xa để nghĩ tới cái gọi là dữ liệu lớn” - giám đốc một công ty lưu trữ (giấu tên) cho biết. 

Là dữ liệu lớn khi được sử dụng đúng cách

Dữ liệu mà chúng ta lưu lại có thể chia làm 2 loại. Một loại đơn giản là để lưu (tạm gọi là bộ nhớ tĩnh). Loại kia là dữ liệu sử dụng (dữ liệu xử lý, dữ liệu tính toán, bộ nhớ động). 

Kho dữ liệu được hình thành dần dần, chứ không phải ngay lập tức. Chẳng hạn mỗi ngày chúng ta có thêm những đơn hàng mới, những cuốc taxi mới, những ghi chú mới, những trò chơi mới... Giả thử doanh nghiệp kinh doanh ổn định, dung lượng dữ liệu phải lưu sẽ tăng dần một cách tuyến tính. Tuy nhiên, dung lượng lưu trữ tĩnh tăng lên, chứ dung lượng xử lý động không tăng (vì ngày nào cũng gần gần giống như ngày nào). 

Tuyệt đại bộ phận các thông tin được lưu lại trong bộ nhớ tĩnh sẽ không bao giờ được lấy ra sử dụng nữa. Giới công nghệ dữ liệu cho biết, phần lớn các dữ liệu được sử dụng thường mới chỉ nhập liệu trong vòng 24 giờ. Còn các dữ liệu đã nhập từ lâu hơn 1 tuần rất hiếm khi được sử dụng. Dữ liệu nhập từ hơn 1 năm gần như chẳng bao giờ động đến. Đó là chưa kể chúng còn trở thành “thông tin ủng, ôi thiu”, tức là không chỉ hết giá trị sử dụng, mà còn gây nhầm lẫn, nhiễu loạn, thậm chí làm lộ bí mật thương mại và bị kẻ xấu lợi dụng chống lại bạn. Tuy nhiên, chúng ta vẫn cứ lưu chúng lại và gọi chúng bằng cái tên mỹ miều “dữ liệu lớn”. 

Ngoại trừ các dữ liệu cần lưu một khoảng thời gian nhất định theo quy định của pháp luật, các dữ liệu làm bằng chứng và bảo đảm giảm thiểu rủi ro thương mại, nhiều chuyên gia uy tín trong ngành khuyên chúng ta nên phân loại và xóa bỏ bớt bộ nhớ tĩnh “cho nhẹ máy và bớt thời gian tìm kiếm khi cần lôi cái gì đó từ bộ nhớ tĩnh qua bộ nhớ động”. “Hãy làm sạch đầm lầy dữ liệu” trở thành một khẩu hiệu không chỉ của những người nghi ngờ “dữ liệu lớn”, mà còn của nhiều chuyên gia công nghệ điện toán hiện nay. 

Những người thích sưu tầm dữ liệu và lưu trữ chúng thành các tệp dữ liệu lớn cũng giống như những người bị hội chứng ám ảnh tích trữ - họ cứ lo biết đâu có lúc cần, và kết quả là tích trữ một đống những vật dụng không cần thiết trong nhà, làm cuộc sống trở nên ngột ngạt. Xóa bỏ bớt các dữ liệu tĩnh không cần thiết và “ôi thiu” là một việc rất đáng làm, thay vì chạy theo sự thổi phồng thái quá của “dữ liệu lớn”. Thêm nữa, việc ứng dụng điện toán đám mây và sử dụng các phần mềm xử lý thông tin mới nhất hiệu quả hơn nhiều so với tăng dung lượng bộ nhớ. 

Vậy thì “dữ liệu lớn” có cần không? Câu trả lời là “có”. Các chính phủ điện tử, các đại công ty Meta, Google, Walmart, Grab,... không thể thiếu chúng. Các thư viện, trung tâm lưu trữ, trường đại học,... cũng rất cần. Còn lại, tuyệt đại đa số các công ty và cá nhân không cần. Chúng ta chưa chạm tới ngưỡng dữ liệu lớn và còn rất lâu nữa vẫn chưa chạm tới chúng. Hơn nữa, sự bùng nổ thông tin chưa dừng lại, nhưng tốc độ bùng nổ đang giảm đi rất đáng kể.

Để biết công ty hoặc cá nhân bạn có cần cái gọi là dữ liệu lớn hay không, hãy tuần tự trả lời 5 câu hỏi sau: bạn thực sự đang có một dung lượng dữ liệu khổng lồ lên tới hàng chục gigabyte? Nếu câu trả lời là có, bạn thực sự cần sử dụng chúng đồng thời một lúc tại một thời điểm nào đó? Nếu có, bạn thực sự cần lưu trữ tất cả thông tin khổng lồ đó trên một máy chủ? Nếu có, bạn thực sự tin rằng bạn sẽ thường xuyên tìm kiếm và sử dụng chúng? Nếu có, bạn thực sự tin rằng nó cần thiết để viết báo cáo và mang lại lợi ích cho bạn?

Nếu trong khi trả lời chuỗi câu hỏi trên, chỉ cần một câu trả lời “không” ở bất cứ bước nào, bạn có thể tự tin rằng bạn hoàn toàn không cần “dữ liệu lớn”./.