Lợi ích phóng đại, rủi ro hiện hữu?

Thanh Vân• 20/05/2025 16:20

Trong những năm gần đây, dữ liệu lớn được ca ngợi như nguồn tài nguyên số quan trọng của các tổ chức, doanh nghiệp. Việc sở hữu dữ liệu lớn được coi là lợi thế của tổ chức, doanh nghiệp trong chiến lược phát triển. Do đó, họ sẵn sàng đầu tư lớn cho hệ thống cơ sở hạ tầng thông tin để thu thập, lưu trữ và phân tích dữ liệu. Thế nhưng, nếu chỉ thấy những lợi ích của dữ liệu lớn mà không nhận ra những hạn chế của nó thì tổ chức, doanh nghiệp có thể đối mặt với những khó khăn, rủi ro không cần thiết.

Dữ liệu lớn được sử dụng trong nhiều lĩnh vực như sản xuất, tiếp thị, y tế, du lịch, giáo dục, chính trị,... nhằm xác định những thông tin cốt lõi về công chúng, xác định các quy luật thông tin

Đầu tư lớn

Trong những năm gần đây, dữ liệu lớn trở thành từ khóa quan trọng trong giới công nghệ và kinh doanh. Tin tưởng vào tiềm năng và lợi ích to lớn mà dữ liệu lớn có thể mang lại, các doanh nghiệp coi trọng đầu tư cho hệ thống máy tính và cơ sở dữ liệu nhằm thu thập, lưu trữ, phân tích dữ liệu lớn. Trên thực tế, dữ liệu lớn được sử dụng trong nhiều lĩnh vực như sản xuất, tiếp thị, y tế, du lịch, giáo dục, chính trị,... nhằm xác định những thông tin cốt lõi về công chúng, xác định các quy luật thông tin hoặc dự báo xu hướng phát triển. Vì thế, trong một bài viết trên tạp chí của Đại học Havard, khoa học dữ liệu được 2 chuyên gia Thomas H. Davenport và D.J. Patil đánh giá là loại công việc hấp dẫn nhất trong thế kỷ XXI.

Dữ liệu lớn trở nên quan trọng đến mức được coi là tài nguyên vô giá, quyết định khả năng thành công của các doanh nghiệp và tổ chức trong kỷ nguyên số. Mặc dù vậy, số lượng các tổ chức và doanh nghiệp thực sự có năng lực lưu trữ và phân tích dữ liệu lớn để tạo ra sự khác biệt không nhiều. Điều này không chỉ vì dữ liệu lớn đòi hỏi việc khoản đầu tư khổng lồ cho hệ thống dữ liệu và siêu máy tính, mà còn vì khả năng xây dựng các mô hình phân tích dữ liệu còn hạn chế. Theo nghiên cứu của Jeanne

W. Ross và các đồng sự trên tạp chí của Đại học Havard, một công ty dịch vụ tài chính đã phân tích dữ liệu lớn để xây dựng mô hình xác định địa điểm phù hợp nhất để đặt cây rút tiền mà không biết rằng, các chuyên gia tư vấn đã xây dựng các mô hình tương tự cho nhiều công ty khác, không cần dùng đến các dữ liệu lớn phức tạp.

Vấn đề đầu tiên đối với dữ liệu lớn chính là ở quy mô của dữ liệu. Các dữ liệu được thu thập và lưu trữ không có tính hệ thống, tính đồng nhất mà có tính phi cấu trúc, rời rạc, phức tạp, hỗn độn. Các dữ liệu này thường được tập hợp trong một thời gian dài và từ các nguồn khác nhau thành một nguồn tài nguyên thô. Nguồn tài nguyên này chỉ có giá trị khi người sở hữu đưa ra được thuật toán hoặc mô hình phân tích phù hợp để xử lý, phân tích và hệ thống hóa dữ liệu. Abe Ankumah - đồng sáng lập và giám đốc điều hành của công ty khai thác dữ liệu lớn Nyansa (Mỹ) - cho rằng, việc thu thập dữ liệu thì dễ nhưng việc sử dụng nó một cách hữu ích thì khó. Điều này là vì “phần lớn các công ty không có thời gian, chuyên môn hoặc nguồn lực để phân tích dữ liệu trên hệ thống của họ. Và chuyên gia công nghệ thông tin (IT) không phải là các nhà khoa học dữ liệu”.

Bên cạnh đó, khi dữ liệu nói chung và dữ liệu cá nhân nói riêng trở thành một nguồn tài nguyên quan trọng, các quốc gia ngày càng thắt chặt những quy định bảo mật, lưu trữ và khai thác dữ liệu. Việc lưu trữ nguồn dữ liệu lớn có chứa các thông tin cá nhân có thể mang lại cho công ty, tổ chức những rủi ro pháp lý hay khiến họ trở thành đối tượng của các cuộc tấn công ăn cắp dữ liệu. Các ngân hàng thường là mục tiêu số một của các hackers vì lý do này. Tháng 6-2022, Ngân hàng Flagstar (Mỹ) bị tấn công ăn cắp dữ liệu, làm lộ lọt mã số an sinh xã hội của gần 1,5 triệu khách hàng. Chính vì vậy, việc thu thập, lưu trữ dữ liệu đi liền với cam kết bảo mật dữ liệu - vốn đòi hỏi nguồn đầu tư rất lớn không chỉ về công nghệ mà cả con người.

Khi không có chuyên gia dữ liệu hoặc nhà khoa học dữ liệu, các tổ chức, doanh nghiệp sẽ buộc phải nhờ cậy đến các công ty cung cấp dịch vụ phân tích dữ liệu như Nyansa. Trong khi đó, theo Jeanne W. Ross và các đồng sự của mình trong bài viết “Bạn có thể hoàn toàn không cần dữ liệu lớn” đăng trên tạp chí của Đại học Havard, những công ty đầu tư rất nhiều cho các chuyên gia dữ liệu, hệ thống lưu trữ dữ liệu và những phần mềm phân tích dữ liệu nhưng kết quả thu lại chưa tương xứng. Điều này là do “dữ liệu lớn đã bị thổi phồng quá mức khiến các công ty nghĩ rằng, họ có thể thu được nhiều giá trị từ nó nhưng thực tế thì không”.

Rủi ro cao

Công chúng ngày càng trở nên cảnh giác hơn với việc cung cấp, tiết lộ thông tin cá nhân, lo ngại thông tin đó có thể được thu thập để phân tích xu hướng hành động, sở thích và thói quen của họ. Việc sử dụng các phần mềm, ứng dụng di động, điện thoại, đồng hồ thông minh, đặc biệt là các trang mạng xã hội khiến nguy cơ bị lộ lọt, đánh cắp các dữ liệu cá nhân trở nên hiện hữu. Các trang mạng xã hội đã sử dụng các thuật toán phân tích để xác định những nội dung công chúng yêu thích từ đó điều hướng các nội dung phù hợp hoặc đối tượng hóa các quảng cáo. Về lâu dài, cách làm này sẽ khiến công chúng bị giới hạn trong một hoặc một vài loại nội dung hoặc quan điểm.

Vụ bê bối dữ liệu Facebook - Cambridge Analytica vẫn được coi là vụ việc điển hình và lời cảnh báo về rủi ro bị xâm phạm dữ liệu cá nhân. Trong vụ việc này, khoảng 87 triệu người dùng Facebook ở các quốc gia như Mỹ, Canada, Mexico, Anh, Australia, Philippines, Indonesia,... đã bị thu thập dữ liệu. Dữ liệu được thu thập nhằm mục tiêu quảng cáo cho khách hàng và phục vụ các ứng viên chính trị của Cambridge Analytica - công ty tư nhân chuyên về khai thác dữ liệu, môi giới và phân tích dữ liệu. Thừa nhận sai lầm này, Mark Zuckerberg phải lên tiếng xin lỗi: “chúng tôi có trách nhiệm bảo vệ dữ liệu của các bạn và nếu chúng tôi không thể làm điều đó, chúng tôi không xứng đáng được phục vụ các bạn”.

Dữ liệu cá nhân được thu thập nhằm phục vụ cho việc phân tích, phán đoán hành vi hoặc xu hướng bỏ phiếu trong các cuộc bầu cử. Việc sử dụng dữ liệu cá nhân một cách không chính đáng có thể trở thành nguy cơ đối với nền dân chủ khi các ứng cử viên có xu hướng cực đoan lợi dụng hiểu biết về cử tri cho mục tiêu giành chiến thắng bằng mọi giá. Trong chiến dịch tranh cử Tổng thống Mỹ năm 2016, ứng viên Donald Trump của Đảng Cộng hòa đã sử dụng giải pháp quảng cáo chính trị do Cambridge Analytica cung cấp thông qua việc khai thác dữ liệu lớn, phân tích hành vi và quảng cáo hướng đích.

Các quảng cáo hướng đích hay quảng cáo nhắm trúng đích được tung ra căn cứ vào hành vi của các cá nhân trên mạng xã hội. Nếu một cá nhân thường xuyên đăng, xem hoặc bình luận một nội dung nào đó thì những nội dung tương tự sẽ được nhắm đến họ. Các thông điệp cũng được thiết kế phù hợp với tâm lý, nhu cầu tiếp nhận của họ, từ đó lồng ghép các kêu gọi hành động chính trị. Cách tiếp cận khôn khéo, có phần tinh vi này khiến người tiếp nhận mất cảnh giác, khả năng tư duy phản biện vốn có, mà chấp nhận thông điệp. Vô hình trung, họ trở thành nạn nhân do chính những dữ liệu cá nhân của họ bị thu thập một cách lặng lẽ từng giờ, từng phút thông qua các hành vi tương tác của họ trên mạng xã hội.

Malcolm Adams - nhà vận động cho quyền riêng tư số - chỉ ra những vấn đề lớn về quyền riêng tư mà dữ liệu lớn có thể xâm phạm. Những vấn đề này bao gồm bị ăn cắp dữ liệu cá nhân, mất khả năng ẩn danh trên mạng Internet, bị xâm phạm quyền riêng tư... Việc phân tích dữ liệu lớn không bảo đảm danh tính cá nhân được bảo mật, từ đó làm phát sinh những thông tin mà cá nhân không sẵn sàng tiết lộ như niềm tin tôn giáo, xu hướng tính dục, quan điểm chính trị. Adams cho rằng, dù các công ty, tổ chức nỗ lực để khắc phục những vấn đề này nhưng họ không thể giải quyết chúng một cách trọn vẹn. Do đó, các cá nhân cần “bảo vệ thông tin bí mật của mình để tránh rơi vào tay kẻ xấu”.

Rõ ràng, dữ liệu lớn trở thành xu hướng, hiện tượng công nghệ trong những năm vừa qua. Ngày càng nhiều tổ chức, doanh nghiệp quan tâm đến dữ liệu lớn như một nguồn tài nguyên quan trọng, có ý nghĩa thiết yếu đối với sự sống còn và phát triển của họ. Tuy nhiên, việc lưu trữ dữ liệu thì dễ trong khi việc bảo mật, phân tích và sử dụng dữ liệu lớn một cách hợp lý lại khó. Ở một mức độ nào đó, những lợi ích của dữ liệu lớn đã bị phóng đại, khiến các tổ chức chạy theo nó như một trào lưu mà không tính đến những lợi ích thiết thực. Việc hiểu những phê phán về dữ liệu lớn, vì thế, rất cần thiết để họ có cái nhìn chính xác, cân bằng hơn./.

Thanh Vân