Dữ liệu lớn

Khôi Nguyên - Tiến Thắng - Công Minh - Mỹ Hân - Thành Nam

Không chỉ là một thành phần quan trọng của cuộc Cách mạng công nghiệp lần thứ tư, dữ liệu lớn (Big Data) còn được xem là “xương sống” của hầu hết các công nghệ nền tảng tạo nên bước chuyển quan trọng này như trí tuệ nhân tạo (AI), máy học (Machine learning), robot, Internet vạn vật (IoT), chuỗi khối (Blockchain)... Dữ liệu lớn cũng giúp các nhà khoa học ở mọi lĩnh vực, các doanh nghiệp, nhà chính trị,... có những cơ sở cần thiết để đưa ra những quyết định đúng đắn, giải pháp hiệu quả, dịch vụ chất lượng hơn để nâng cao chất lượng cuộc sống của con người; đồng thời tạo ra một thị trường toàn cầu có giá trị lên đến hàng trăm tỷ USD mỗi năm

Tuy nhiên, bên cạnh những lợi ích to lớn không thể phủ nhận, sự phát triển của dữ liệu lớn theo cấp số nhân cũng tạo ra không ít lo ngại, nhất là khi hiểu biết của con người về nguồn tài nguyên khổng lồ này dường như chưa tương xứng, chưa kể đến việc nguồn lực này còn có những hạn chế về quản trị hay không được sử dụng đúng cách để phục vụ mục tiêu chung của nhân loại.

Kể từ khi khoa học máy tính ra đời vào giữa thế kỷ XX, dữ liệu thường đề cập đến thông tin được truyền hoặc lưu trữ dưới dạng điện tử_Ảnh: TL

I. TỪ DỮ LIỆU CỔ XƯA ĐẾN DỮ LIỆU LỚN

Dữ liệu

Dữ liệu là gì?

Theo cách hiểu hiện nay, dữ liệu (data) là một tổ hợp các dữ kiện, thông tin bao gồm chữ, số, hình ảnh, phép tính, quan sát hoặc mô tả về sự vật hiện tượng... Kể từ khi khoa học máy tính ra đời vào giữa thế kỷ XX, dữ liệu thường đề cập đến thông tin được truyền hoặc lưu trữ dưới dạng điện tử. Những dữ liệu này giúp con người hình dung được tổng thể về sự vật, sự việc, được sử dụng trong hầu hết các lĩnh vực khoa học và đời sống kinh tế - xã hội.

Lưu trữ và khai thác dữ liệu: Mới mà không mới

Khi đề cập tới khái niệm dữ liệu, chúng ta thường liên tưởng tới các lĩnh vực nghiên cứu - ứng dụng trong xã hội hiện đại. Tuy nhiên, trên thực tế, từ buổi sơ khai của nền văn minh nhân loại, con người đã biết sử dụng “dữ liệu” để đưa ra quyết định tốt hơn hoặc để đạt được lợi thế cạnh tranh, chẳng hạn như trong lĩnh vực quân sự. Những ví dụ sớm nhất thể hiện việc con người lưu trữ và phân tích dữ liệu là những khúc xương Isango - những chiếc que kiểm đếm, có từ năm 23000 Trước công nguyên, được phát hiện vào năm 1960 tại Uganda. Các bộ lạc thời kỳ đồ đá cũ cũng làm các vết khía trên gậy hoặc xương để theo dõi hoạt động buôn bán, so sánh các que và khía để thực hiện các phép tính thô sơ, cho phép họ đưa ra những dự đoán, chẳng hạn như nguồn cung cấp thực phẩm của họ sẽ kéo dài bao lâu.

Vào năm 2400 Trước công nguyên, các thư viện đầu tiên được hình thành, cho thấy những nỗ lực đầu tiên của con người trong việc lưu trữ dữ liệu hàng loạt. Người Ai Cập cổ đại vào khoảng năm 300 Trước công nguyên cũng cố gắng thu thập tất cả “dữ liệu” hiện có của đế chế vào thư viện Alexandria. Người ta ước tính rằng, thư viện bao gồm 40.000 đến 400.000 cuộn giấy (tương đương với khoảng 100.000 cuốn sách). Những nhà lãnh đạo cổ đại trên thế giới cũng nhận ra rằng, việc kết hợp các nguồn dữ liệu khác nhau có thể mang lại lợi thế cho họ trước các đế chế cạnh tranh khác. Chẳng hạn, quân đội La Mã cổ đại sử dụng phân tích thống kê rất chi tiết để dự đoán nguy cơ khu vực biên giới nào dễ bị kẻ thù tấn công nhất. Dựa trên những phân tích này, họ có thể triển khai quân đội của mình theo cách hiệu quả nhất và những kỹ thuật phân tích này đã mang lại lợi thế cho quân đội La Mã so với các đội quân khác.

Dữ liệu lớn

Trong nhiều thế kỷ, việc lưu trữ, phân tích dữ liệu góp phần quan trọng vào sự phát triển của hầu hết các kỹ thuật được sử dụng ngày nay và được ứng dụng trong tất cả các lĩnh vực của đời sống xã hội. Cho đến những năm 50 của thế kỷ XX, hầu hết hình thức lưu trữ đều dựa trên công cụ vật lý và thực hiện thủ công.

Các dấu mốc phát triển dữ liệu lớn

- Dữ liệu lớn bắt nguồn từ lĩnh vực quản lý cơ sở dữ liệu đã có từ trước đó, bao gồm việc lưu trữ, trích xuất và tối ưu hóa dữ liệu được lưu trữ trong hệ thống quản lý cơ sở dữ liệu. Các kỹ thuật được sử dụng trong các hệ thống này, chẳng hạn như ngôn ngữ truy vấn có cấu trúc (SQL) và trích xuất, chuyển đổi và tải dữ liệu, bắt đầu chuyên nghiệp hóa vào những năm 70 của thế kỷ XX.

- Năm 1984, Tập đoàn Teradata cho ra thị trường hệ thống xử lý dữ liệu song song DBC 1012. Đây chính là hệ thống đầu tiên phân tích và lưu trữ tới 1 terabyte (1.000 gigabyte) dữ liệu. Đến năm 2017, có hàng chục cơ sở dữ liệu dựa trên hệ thống của Teradata với dung lượng lên đến hàng petabyte (1 petabyte là 1 triệu triệu byte hoặc tương đương với giá trị văn bản của khoảng 20 triệu tủ hồ sơ). Trong đó, dữ liệu lớn nhất đã vượt qua ngưỡng 50 pentabytes. Ổ đĩa cứng cũng đạt mức dung lượng 2,5 GB vào năm 1991.

- Năm 2000, Seisint Inc. (nay là Tập đoàn LexisNexis) đã phát triển thành công khung chia sẻ dữ liệu dựa theo cấu trúc C++ để truy vấn và lưu trữ dữ liệu.

- Năm 2004, Google cho ra bài báo về quá trình có tên gọi MapReduce, sử dụng kiến trúc tương tự. MapReduce cung cấp mô hình xử lý song song, cho ra những ứng dụng liên quan để có thể xử lý nhanh lượng dữ liệu khổng lồ.

- Năm 2005, con người bắt đầu nhận ra rằng số lượng người dùng được tạo ra thông qua YouTube, Facebook và các dịch vụ trực tuyến khác là cực kỳ lớn. Cùng năm đó, Hadoop (một framework open source được tạo riêng với nhiệm vụ lưu trữ và phân tích dữ liệu lớn) đã được phát triển. Cũng trong khoảng thời gian này, NoSQL cũng bắt đầu trở nên phổ biến. Sự phát triển của các framework, ví dụ như Hadoop hoặc gần đây là Spark cũng giúp dữ liệu lớn hoạt động dễ dàng hơn và lưu trữ rẻ hơn.

Hiện nay, khối lượng Big Data tăng một cách nhanh chóng và những người sử dụng vẫn đang hằng ngày tạo ra lượng dữ liệu vô cùng lớn. Tuy nhiên, có một điều thú vị là lượng dữ liệu đó không chỉ của con người mà còn do máy móc tạo ra, thậm chí còn là chủ yếu. Với sự ra đời của IoT, việc nhiều thiết bị và đối tượng được kết nối với Internet đã tạo ra nhiều dữ liệu hơn.

Theo ước tính, vào năm 2020, tổng lượng dữ liệu được tạo, sao chép, thu thập, tiêu thụ trên thế giới là 44 zettabyte (44.000 tỷ gigabyte) và ước tính sẽ đạt khoảng 163 zenttabyte vào năm 2025. Ngay cả với những công nghệ tiên tiến nhất hiện nay cũng không thể phân tích tất cả nguồn dữ liệu khổng lồ này.

Big Data hay dữ liệu lớn là thuật ngữ chỉ các tập dữ liệu khổng lồ và phức tạp, được tạo ra và ghi lại theo thời gian từ các nguồn khác nhau như nền tảng truyền thông xã hội, nhật ký web, cảm biến, thiết bị IoT... Quy mô của Big Data đến mức khó có thể xử lý được bằng các hệ thống quản lý cơ sở dữ liệu và phương pháp truyền thống. Khi khối lượng dữ liệu khổng lồ này được chuyển hóa qua các cách thức phân tích, trích xuất thông tin hoặc thao tác bằng phần mềm ứng dụng xử lý dữ liệu sử dụng các kỹ thuật như máy học, thuật toán tối ưu hóa nâng cao..., chúng sẽ trở thành thông tin có giá trị, cung cấp những hiểu biết hữu ích để giải quyết các vấn đề liên quan hay đưa ra các quyết định sáng suốt.

Nhiều chuyên gia cũng coi dữ liệu lớn là một hiện tượng văn hóa, công nghệ và học thuật dựa trên sự tương tác của công nghệ, phân tích và niềm tin phổ biến rằng các tập dữ liệu lớn cung cấp một dạng trí tuệ và kiến thức cao hơn có thể tạo ra những hiểu biết sâu sắc mà trước đây không thể có được.

Các tệp video và âm thanh, hoạt động trên thiết bị di động, như ảnh trên Facebook, Instagram, video trên YouTube,... thuộc dữ liệu phi cấu trúc_Ảnh: TL

II. HIỂU SÂU HƠN VỀ DỮ LIỆU LỚN

Các loại dữ liệu trong dữ liệu lớn

Dữ liệu có cấu trúc

Đây là loại dữ liệu dễ dàng tìm kiếm và sắp xếp nhất, vì nó thường được hàm chứa trong các cột, hàng và các thành phần của chúng có thể được liên kết bằng những trường được định sẵn từ trước. Dữ liệu có cấu trúc có thể bám theo một mô hình dữ liệu mà người thiết kế cơ sở dữ liệu tạo ra, ví dụ như các bản thống kê bán hàng theo vùng miền, xếp theo loại mặt hàng hoặc theo khách hàng. Đối với dữ liệu có cấu trúc, các hạng mục có thể được nhóm lại để tạo thành các mối liên hệ với nhau. Điều đó giúp dữ liệu có cấu trúc dễ dàng được lưu trữ, phân tích, tìm kiếm và trở thành loại dữ liệu dễ sử dụng nhất.

Ngày nay, những loại dữ liệu được cho là có cấu trúc chỉ chiếm chưa đến 20% tổng số dữ liệu thu được.

Dữ liệu phi cấu trúc

Dữ liệu phi cấu trúc là những thông tin không được xác định trước và chưa được sắp xếp, không dễ dàng diễn giải hoặc phân tích bằng cơ sở dữ liệu hay mô hình dữ liệu tiêu chuẩn.

Dữ liệu phi cấu trúc chiếm phần lớn dữ liệu lớn và bao gồm các thông tin như ngày, số và sự kiện. Các ví dụ về dữ liệu lớn thuộc loại này bao gồm tệp video và âm thanh, hoạt động trên thiết bị di động, như ảnh trên Facebook, Instagram, video trên YouTube hoặc bất kỳ nền tảng nào khác... Nói chung, hầu hết mọi thứ mà chúng ta làm với máy tính, thiết bị di động đều tạo ra dữ liệu phi cấu trúc.

Phần khó nhất của việc phân tích dữ liệu phi cấu trúc là hướng dẫn một ứng dụng hiểu thông tin mà nó đang trích xuất. Thông thường, điều này có nghĩa là dịch nó thành một số dạng dữ liệu có cấu trúc.

Dữ liệu bán cấu trúc

Dữ liệu bán cấu trúc là sự kết hợp giữa dữ liệu có cấu trúc và phi cấu trúc. Đây có thể là dữ liệu vốn có được thu thập, chẳng hạn như thời gian, địa điểm, tem ID thiết bị hoặc địa chỉ email hoặc có thể là thẻ ngữ nghĩa được gắn vào dữ liệu sau này. Chẳng hạn, bạn chụp một bức ảnh từ điện thoại, nó sẽ tự động ghi lại thời gian chụp ảnh, dữ liệu GPS tại thời điểm chụp và ID thiết bị của bạn. Nếu bạn đang sử dụng bất kỳ loại dịch vụ web nào để lưu trữ, chẳng hạn như iCloud, thì thông tin tài khoản của bạn sẽ được đính kèm vào tệp. Như vậy, nội dung thực tế (tức là các pixel tạo nên ảnh) không được cấu trúc, nhưng lại có các thành phần cho phép dữ liệu được nhóm lại dựa trên các đặc điểm nhất định.

Đặc trưng của dữ liệu lớn

Khối lượng dữ liệu

Đây là đặc trưng của dữ liệu lớn - khối lượng dữ liệu rất lớn, có kích cỡ tăng từng ngày. Người ta ước tính, vào năm 2012, khoảng 2,5 exabyte dữ liệu được tạo ra mỗi ngày và con số này tăng gấp đôi sau mỗi 40 tháng. Hiện lượng dữ liệu được truyền qua Internet trong mỗi giây lớn hơn so với lượng dữ liệu được lưu trữ trên toàn bộ Internet vào 20 năm trước. Chẳng hạn, từ các giao dịch của khách hàng, mỗi giờ Tập đoàn bán lẻ Walmart thu thập hơn 2,5 petabyte dữ liệu.

Tốc độ

Tốc độ có thể hiểu theo 2 khía cạnh: thứ nhất, khối lượng dữ liệu gia tăng rất nhanh (ví dụ, mỗi giây có tới hàng chục triệu yêu cầu truy cập tìm kiếm trên web bán hàng của Amazon); thứ hai là tốc độ xử lý dữ liệu nhanh theo thời gian thực (real-time) - dữ liệu được xử lý ngay tức thời sau khi chúng phát sinh. Công nghệ xử lý dữ liệu lớn ngày nay cho phép dữ liệu được xử lý trước khi chúng được lưu trữ vào cơ sở dữ liệu.

Đa dạng

Ngày nay, hơn 80% lượng dữ liệu được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, bài hát, dữ liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe...). Big Data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau. Ví dụ, với các bình luận của một nhóm người dùng nào đó trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter.

Độ tin cậy/chính xác

Một trong những tính chất phức tạp nhất của dữ liệu lớn là độ tin cậy/chính xác của dữ liệu. Do dữ liệu có được từ nhiều nguồn khác nhau, đặc biệt là từ các phương tiện truyền thông xã hội, mạng xã hội ngày càng phổ biến cũng như sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng thiết bị di động, việc xác định độ tin cậy và chính xác của dữ liệu ngày một khó khăn hơn. Vì vậy, việc phân tích và loại bỏ dữ liệu thiếu chính xác là yêu cầu quan trọng của dữ liệu lớn, để những dữ liệu này không ảnh hưởng tới người dùng.

Giá trị

Giá trị là đặc trưng quan trọng nhất của dữ liệu lớn, vì khi bắt đầu triển khai xây dựng Big Data, việc đầu tiên cần phải làm là xác định được giá trị của thông tin mang lại như thế nào, khi đó mới có quyết định có nên triển khai dữ liệu lớn hay không. Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của Big Data mang lại. Ví dụ, từ khối dữ liệu phát sinh trong quá trình khám, chữa bệnh sẽ giúp dự báo về sức khỏe được chính xác hơn, từ đó giảm được chi phí điều trị và các chi phí liên quan đến y tế.

Việc hình thành và sử dụng dữ liệu lớn

Dữ liệu lớn được tạo thành từ những dữ liệu có thể đến từ các nguồn rất đa dạng như các ứng dụng trên thiết bị di động, ứng dụng dành cho máy tính để bàn, mạng xã hội, trang web, các thí nghiệm khoa học, thiết bị cảm biến và các thiết bị khác trong IoT... Tuy nhiên, đây chỉ là các dữ liệu thô.

Để có thể lưu trữ, sử dụng, khai thác được các dữ liệu này, các tổ chức còn cần thực hiện áp dụng các phân tích dữ liệu. Việc phân tích dữ liệu có liên quan đến việc kiểm tra những bộ dữ liệu để thu thập thông tin chi tiết hoặc rút ra kết luận về những nội dung chúng chứa, ví dụ như xu hướng và dự đoán về hoạt động trong tương lai. Chẳng hạn, qua phân tích dữ liệu, các doanh nghiệp có thể đưa ra quyết định kinh doanh tốt hơn như quyết định xem khi nào và ở đâu nên thực hiện chiến dịch tiếp thị hoặc giới thiệu sản phẩm, dịch vụ mới.

Ngoài ra, việc phát triển dữ liệu lớn cũng đòi hỏi phải có kết cấu hạ tầng công nghệ thông tin cần thiết, các công nghệ và bộ kỹ năng có liên quan...

Trong ngành tài chính - ngân hàng, dữ liệu lớn có thể được sử dụng để phân tích và xác định các địa điểm tập trung nhiều nhu cầu của khách hàng tiềm năng_Ảnh minh họa

III. ỨNG DỤNG ĐA DẠNG, VAI TRÒ QUAN TRỌNG

Trong khu vực doanh nghiệp

Trong ngành tài chính - ngân hàng

Dữ liệu lớn có thể được sử dụng để phân tích và xác định các địa điểm tập trung nhiều nhu cầu của khách hàng tiềm năng để đề xuất lập chi nhánh mới, dự đoán lượng tiền mặt cần thiết sẵn sàng cung ứng ở một chi nhánh tại thời điểm cụ thể, nâng cao hệ thống ngân hàng kỹ thuật số, phát hiện các gian lận và báo cáo cho các chuyên viên liên quan, giúp bảo đảm an ninh cho ngân hàng...

Trong lĩnh vực thương mại điện tử

Dữ liệu lớn giúp nhà quản lý xác định được sản phẩm nào được xem nhiều nhất để tối ưu thời gian hiển thị, tự gửi mã ưu đãi cho những sản phẩm khách hàng bỏ vào giỏ hàng nhưng không mua. Đặc biệt, việc phân tích dữ liệu lớn có thể xác định được hành vi, sở thích, sự quan tâm của khách hàng, giúp doanh nghiệp hiểu hơn về khách hàng để cung cấp các sản phẩm theo đúng xu hướng, nhu cầu thị trường...

Trong ngành bán lẻ

Ngành bán lẻ ứng dụng Big Data trong việc xây dựng mô hình chi tiêu của khách hàng, trợ giúp dự đoán cung - cầu sản phẩm. Kết hợp với các dữ liệu về thời điểm giao dịch, dữ liệu truyền thông xã hội, dự báo thời tiết để xác định chính xác nhất sản phẩm phù hợp để bảo đảm khả năng cung ứng cho khách hàng. Nhà quản lý có thể dựa vào dữ liệu về thói quen mua hàng, sở thích của khách hàng để xác định vị trí, cách bố trí sản phẩm trên kệ hàng và đưa ra những chiến lược kinh doanh mới để cải thiện việc tiếp cận của khách hàng...

Trong tiếp thị kỹ thuật số

Tiếp thị kỹ thuật số (Digital Marketing) được xem là công cụ ngày càng quan trọng đối với các doanh nghiệp. Khi ứng dụng Big Data, doanh nghiệp sử dụng Digital Marketing có thể xác định đối tượng mục tiêu trên các trang mạng xã hội dựa trên thông tin nhân khẩu học, giới tính, tuổi tác, sở thích. Bên cạnh đó, có thể cá nhân hóa các hoạt động tìm kiếm trên Google, Email Marketing, hiển thị quảng cáo phù hợp và tạo báo cáo chi tiết sau mỗi chiến dịch quảng cáo.

Trong các ngành công nghiệp

Dữ liệu lớn được các công ty phần mềm sử dụng để xây dựng mô hình dự đoán cho các sản phẩm và dịch vụ mới; phân loại các thuộc tính chính của sản phẩm/dịch vụ trong quá khứ và hiện tại, sau đó mô hình hóa mối quan hệ giữa các thuộc tính và phát triển thành phần mềm hoàn chỉnh. Big Data cũng cho phép doanh nghiệp thu thập dữ liệu từ các phương tiện truyền thông xã hội, lịch sử web, nhật ký cuộc gọi và các nguồn khác để hiểu rõ khách hàng của mình hơn qua chính hành vi thực tế của khách hàng. Dữ liệu lớn cũng góp phần lớn trong sự phát triển của máy học - một bước tiến lớn của công nghệ hiện đại. Hiện nay máy móc có thể tự học từ dữ liệu lịch sử được thu thập đầy đủ vào Big Data thay vì con người phải lập trình.

Ngoài ra, dữ liệu lớn còn cung cấp dữ liệu về thông tin sản phẩm, lịch sử phát triển của mọi lĩnh vực, ngành nghề. Qua đó, nhà quản lý có thể xác định được những điểm cần cải tiến, phát triển để đem lại sự sáng tạo cho các ngành công nghiệp.

Dữ liệu lớn cũng được xem là “xương sống” của hầu hết các công nghệ nền tảng tạo nên cuộc Cách mạng công nghiệp lần thứ tư như AI, Machine learning, robot, IoT, Blockchain... Trong đó, AI - loại “dầu mỏ” mới của cuộc cách mạng công nghiệp này - không thể phát triển nếu thiếu dữ liệu. Một ví dụ đơn giản nhất là khi chúng ta sử dụng mạng xã hội Facebook, AI tự động nhận dạng người trong ảnh và tự gắn tên người đó trong các bức ảnh, tài liệu có người đó. Để làm được việc này, AI phải có dữ liệu, càng nhiều dữ liệu càng tốt và đặc biệt phải là dữ liệu có chất lượng. Hay như ứng dụng AI có tên gọi ChatGPT không thể ra đời và có được sự thành công như hiện nay nếu không có sự “trợ giúp” của nguồn dữ liệu khổng lồ liên tục được bổ sung để ngày càng “thông minh” hơn.

Trong khu vực công

Việc phân tích thông qua các kỹ thuật quản lý dữ liệu lớn cho phép chính phủ và các tổ chức trong khu vực công cung cấp dịch vụ hiệu quả và an toàn hơn, cũng như đáp ứng nhanh hơn và chính xác hơn nhu cầu của người dân. Các chính phủ cũng có thể sử dụng dữ liệu lớn theo nhiều cách khác nhau để cải thiện chất lượng của hệ thống luật pháp, bảo đảm quốc phòng an ninh, đáp ứng nhu cầu tiếp cận các dịch vụ xã hội hay phát triển thêm các chương trình phúc lợi dành cho công dân...

Lợi ích chính của việc triển khai dữ liệu lớn trong khu vực công bao gồm:

- Giúp chính phủ và chính quyền địa phương nâng cao hiệu quả quản lý chi phí, tối ưu hóa việc cung cấp dịch vụ công, quản lý kết cấu hạ tầng một cách thông minh.

- Việc sử dụng dữ liệu lớn với trọng tâm là các công cụ phân tích dự đoán sẽ giúp chính phủ có thể phát hiện gian lận về thuế, phúc lợi; đồng thời tối đa hóa hiệu quả thu thuế cũng như các khoản đóng góp vào các chương trình an sinh xã hội thông qua những chương trình liên hệ với khách hàng được tối ưu hóa, tiết kiệm chi phí. Sử dụng các thuật toán tinh vi, việc phân tích dữ liệu lớn sẽ giúp theo dõi ngay lập tức các giao dịch tài chính đáng ngờ, cung cấp thông tin chuyên sâu về hành vi của công dân, qua đó giảm thiểu gian lận tài chính.

- Thông qua việc giám sát dữ liệu lớn có liên quan được xử lý theo thời gian thực, các chính phủ có thể ứng phó hiệu quả với các mối đe dọa an ninh, ngăn chặn hoạt động tội phạm.

- Trong giáo dục, dữ liệu lớn có thể được sử dụng để ước tính số lượng học sinh, sinh viên tuyển sinh hằng năm; quản lý hồ sơ học sinh, sinh viên; truy xuất nhanh thông tin cần thiết khi gặp các vấn đề phát sinh... Ngoài ra, Big Data cũng giúp ước tính được nhu cầu tuyển dụng cho các ngành nghề hằng năm để đề ra các phương án đào tạo nhằm đáp ứng nguồn nhân lực cho xã hội, tối ưu hóa các chương trình và khóa học để thu được nhiều giá trị nhất từ các nguồn lực sẵn có.

- Trong lĩnh vực y tế, thông qua dữ liệu lịch sử cùng với các mô hình di chuyển hiện tại, các chính phủ có thể dự báo trước các khu vực có nguy cơ bùng phát dịch bệnh, hiểu được nguyên nhân bùng phát và thực hiện các biện pháp để kiểm soát dịch bệnh. Big Data cũng không chỉ được ứng dụng để đánh giá các triệu chứng và xác định bệnh, hỗ trợ đưa ra phương hướng điều trị, mà còn giúp cải thiện quá trình chăm sóc sức khỏe, chẳng hạn như thông qua việc dự đoán thời điểm cần sự có mặt của bác sĩ, theo dõi tình trạng bệnh nhân, gửi báo cáo cho các bác sĩ liên quan...

- Việc phân tích dữ liệu về công dân trong các hệ cơ sở dữ liệu liên quan do chính phủ xây dựng, hay các dữ liệu thu thập được từ các phương tiện truyền thông xã hội cũng sẽ giúp chính phủ và các nhà hoạch định chính sách, cơ quan cung cấp dịch vụ công hiểu rõ nhu cầu, mong muốn của công dân để phát triển các dịch vụ và sáng kiến mới mang lại lợi ích cho người dân.

Một trong những nền tảng tạo nên sự phát triển ngành dịch vụ chăm sóc sức khỏe bằng AI tại Hàn Quốc đó là việc chú trọng xây dựng, khai thác dữ liệu lớn_Ảnh: The New York Times

IV. VIỆC KHAI THÁC TIỀM NĂNG DỮ LIỆU LỚN TẠI MỘT SỐ QUỐC GIA

Hàn Quốc: Xây dựng hệ thống y tế hiện đại, hiệu quả

Ngành dịch vụ chăm sóc sức khỏe bằng AI tại Hàn Quốc ước tính đạt doanh thu 257 triệu USD vào năm 2020, dự báo sẽ đạt 2,1 tỷ USD năm 2025. Một trong những nền tảng tạo nên sự phát triển này chính là việc chú trọng xây dựng, khai thác dữ liệu lớn.

Ngay từ năm 2015, đã có 90,5% số bệnh viện cơ sở và 100% số bệnh viện cấp 3 tại Hàn Quốc triển khai hệ thống dữ liệu y tế điện tử (EMR) nhằm hỗ trợ việc cung cấp các dịch vụ y tế chất lượng cao, cũng như đẩy mạnh chất lượng và tính cạnh tranh của các dịch vụ. Phần lớn các cơ sở y tế đều thiết kế hệ thống EMR với các cấu trúc và chức năng riêng biệt để phù hợp với các dịch vụ chăm sóc sức khoẻ khác nhau. Điểm chung của các hệ thống này là đều được xây dựng trên 6 kho dữ liệu chính bao gồm: dữ liệu lâm sàng, dữ liệu thanh toán, dữ liệu nghiên cứu, dữ liệu gene, dữ liệu sức khỏe do người bệnh tạo ra và dữ liệu về các yếu tố xã hội ảnh hưởng đến sức khỏe.

Trong đại dịch COVID-19, Hàn Quốc đã chứng minh năng lực của mình trong việc sử dụng Big Data nói riêng, công nghệ cao nói chung trong công tác phòng, chống dịch bệnh và cung cấp dịch vụ chăm sóc sức khỏe công cộng. Việc thu thập dữ liệu GPS từ các thiết bị điện tử, giao dịch thẻ tín dụng cũng như camera giám sát, các phần mềm truy vết thông minh,... đã giúp Hàn Quốc xây dựng được một bức tranh toàn cảnh về lịch sử di chuyển của người bệnh. Từ đó, các cơ quan chức năng có thể nhanh chóng xác định mối đe dọa, cách ly ca nhiễm và chia sẻ thông tin với công chúng một cách chính xác, an toàn. Hệ thống này cũng có đóng góp lớn trong việc theo dõi sự lây nhiễm của virus, giúp các cơ sở y tế chuẩn bị tốt hơn trong trường hợp xảy ra các đợt dịch tiếp theo.

Ngoài ra, các nghiên cứu tại Hàn Quốc cũng cho thấy, nhiều mô hình ứng dụng AI dựa trên nền tảng Big Data đã có thể vượt qua các chuyên gia về độ chính xác trong các kỹ thuật như chụp X-quang ngực, chụp ảnh đáy mắt, chụp nhũ ảnh. Thậm chí, nhiều công nghệ mới cũng có thể phát hiện các tế bào ung thư siêu nhỏ mà ngay cả các nhà nghiên cứu dày dặn kinh nghiệm cũng có thể bỏ sót.

Sử dụng dữ liệu lớn trong giáo dục tại Mỹ

Trong lĩnh vực giáo dục, với hệ thống giáo dục từ xa phát triển sớm, lượng dữ liệu được thu thập thông qua các hình thức giáo dục trực tuyến tại Mỹ có tốc độ tăng trưởng rất nhanh. Để khai thác hiệu quả lượng dữ liệu này, Bộ Giáo dục Mỹ đã sớm khởi xướng xây dựng một hệ thống cơ sở dữ liệu giáo dục quốc gia, tổng hợp thông tin từ các trường công lập trong toàn quốc phục vụ cho việc theo dõi, dự báo triển vọng ngành giáo dục và phục vụ công tác nghiên cứu.

Bên cạnh đó, các tiểu bang và nhà trường cũng chú trọng thực hiện các bước để sử dụng dữ liệu lớn trong hệ thống làm việc hằng ngày. Chẳng hạn như tại Michigan, chính quyền bang đã tập trung xây dựng một hệ thống dữ liệu xếp hạng hiệu suất dựa trên 14 chỉ số về kết quả của học sinh, trách nhiệm giải trình của trường, văn hóa học tập và giáo dục sau trung học...

Trong khi đó, các trường công lập ở Chicago sử dụng một phần mềm có tên IMPACT (Chương trình quản lý giảng dạy và Công cụ truyền thông học thuật) để quản lý thông tin học sinh, quản lý chương trình giảng dạy, quản lý dịch vụ học sinh và sổ điểm cho phụ huynh và học sinh... Bất kỳ ai có quyền truy cập vào trang web đều có thể sử dụng cơ sở dữ liệu này để chuẩn hóa kết quả kiểm tra, đánh giá điểm chuẩn, sử dụng tài nguyên giảng dạy và diễn đàn thảo luận.

Các cơ sở giáo dục đại học tại Mỹ cũng đã ứng dụng Big Data vào phân tích học. Xu thế này dự kiến sẽ tiếp tục phát triển trong giáo dục trực tuyến nhằm xác định hành vi của sinh viên, cải thiện quá trình học tập và tỷ lệ duy trì của sinh viên. Nhiều cơ sở đào tạo đã thiết lập các hệ thống quản lý khóa học/quản lý học tập (CMS/LMS) sử dụng dữ liệu lớn với 8 chức năng chính, bao gồm: theo dõi thành tích cá nhân của sinh viên; phân biệt thành tích của sinh viên theo các đặc điểm cụ thể, như chuyên ngành, năm học, sắc tộc...; phát hiện các ngoại lệ để can thiệp sớm; dự đoán tiềm năng để tất cả sinh viên đạt được thành tích tối ưu; ngăn chặn sự giảm sút số lượng sinh viên của một khóa học hoặc chương trình; xác định và phát triển các công nghệ giảng dạy hiệu quả; phân tích các kỹ thuật và công cụ đánh giá tiêu chuẩn; kiểm tra và đánh giá chương trình giảng dạy.

Tại Singapore, việc ứng dụng Big Data cũng giúp giáo viên và người học đưa ra quyết định nhanh chóng hơn trong quá trình giảng dạy và học tập, từ đó quản lý và sử dụng thời gian hiệu quả hơn. Big Data cho phép giáo viên đo lường, giám sát và phản hồi trong thời gian thực, điều chỉnh phương pháp giảng dạy để phù hợp với năng lực và nhu cầu của người học. Nhiều cơ sở đào tạo cũng đang sử dụng Big Data để dự báo xu hướng phát triển của thị trường giáo dục và việc làm nhằm đưa ra các khóa học, chương trình đáp ứng các nhu cầu mới.

Phát triển chính phủ điện tử tại Indonesia

Tại Indonesia, dữ liệu lớn đang có đóng góp đáng kể trong việc thiết lập hệ thống dịch vụ công trực tuyến, giúp chỉ số phát triển chính phủ điện tử của quốc gia này liên tiếp thăng hạng, theo đánh giá của Liên hợp quốc (xếp thứ 88 thế giới vào năm 2020, tăng 19 hạng so với năm 2018). Để có được kết quả này, Chính phủ Indonesia xác định những tiềm năng quan trọng của Big Data và AI trong việc cải thiện các chương trình chính phủ điện tử, bao gồm: hỗ trợ dự báo và phòng chống thiên tai, phòng chống các hoạt động bất hợp pháp, giảm nguy cơ tấn công mạng, tăng cường hiệu quả làm việc, thiết kế chính sách và ra quyết định, phát triển dịch vụ công...

Theo đó, Chính phủ Indonesia cung cấp cơ sở vật chất phù hợp cho việc phát triển dữ liệu với các Trung tâm Dữ liệu quốc gia (NDC); tổ chức các chương trình đào tạo kỹ năng số về AI và Big Data thông qua Học bổng Tài năng kỹ thuật số (DTS). Ngoài ra, Indonesia cũng chú trọng phát triển hệ sinh thái AI và Big Data trong cộng đồng doanh nghiệp thông qua việc cung cấp nguồn lực hỗ trợ cho Phong trào quốc gia về phát triển 1.000 công ty khởi nghiệp kỹ thuật số (Chương trình Startup Studio Indonesia - SSI) và xây dựng hệ sinh thái HUB.ID.

Năm 2022, Tập đoàn Microsoft công bố kế hoạch thành lập trung tâm dữ liệu lớn nhất tại Hyderabad (Ấn Độ)_Ảnh: Reuters

V. THỊ TRƯỜNG TRĂM TỶ USD

Mối quan tâm của nhiều “ông lớn” công nghệ

Theo các chuyên gia công nghệ, khả năng ứng dụng rộng rãi dữ liệu lớn vào hầu hết các lĩnh vực liên quan tới cuộc sống của con người trên toàn thế giới đã tạo ra nhu cầu rất lớn và không ngừng gia tăng đối với nguồn “năng lượng mới” này.

Bên cạnh đó, do khối lượng dữ liệu được tạo thông qua các thiết bị khác nhau đang tăng theo cấp số nhân, nên yêu cầu trích xuất giá trị từ dữ liệu này cũng là nhu cầu cấp thiết. Chưa kể, sự ra đời của điện toán đám mây (Cloud computing) đã giúp việc lưu trữ dữ liệu trở nên thuận tiện, linh hoạt, tiết kiệm chi phí và an toàn hơn. Các dịch vụ lưu trữ giá cả phải chăng và các dịch vụ công nghệ dữ liệu lớn hàng đầu như Apache Hadoop, Apache Spark, MongoDB, QlikView,... cũng làm tăng khả năng tiếp cận Internet và dữ liệu, qua đó làm tăng nhu cầu về dữ liệu lớn. Ngoài ra, sự xuất hiện và áp dụng IoT; sự phát triển của các ứng dụng AI hay sự gia tăng đầu tư vào các hoạt động nghiên cứu và phát triển (R&D) cũng thúc đẩy mạnh mẽ nhu cầu về dữ liệu lớn...

Để đáp ứng nhu cầu đó, năm 2022, Microsoft đã công bố kế hoạch thành lập trung tâm dữ liệu lớn nhất tại Hyderabad (Ấn Độ) nhằm khai thác thị trường kỹ thuật số đang phát triển ở Hyderabad - nơi các doanh nghiệp đang ngày càng quan tâm ứng dụng các công nghệ mới như AI và Cloud computing. Cùng với đó, Microsoft cũng công bố quan hệ đối tác toàn cầu với Teradata để tích hợp nền tảng dữ liệu Teradata Vantage với Microsoft Azure. Động thái này nhằm giúp 2 tập đoàn công nghệ hiện đại hóa khối lượng công việc phân tích dữ liệu của họ với tính bảo mật, độ tin cậy và tính linh hoạt ở quy mô lớn hơn...

Với năng lực thực tế và những phát triển mới nhất thông qua các hoạt động sáp nhập, mua lại và đầu tư, mở rộng công suất, các “ông lớn” công nghệ như IBM, Oracle, Microsoft, Hewlett Packard Enterprise Development LP,... đang được xem là những “người chơi chính” trong thị trường dữ liệu lớn toàn cầu.

Cũng trong năm 2022, LG Electronics đã tham gia Mạng lượng tử của IBM nhằm mục đích khám phá các ứng dụng của điện toán lượng tử để hỗ trợ dữ liệu lớn, AI, ô tô được kết nối thông minh, chuyển đổi kỹ thuật số, IoT và các ứng dụng robot - những ứng dụng dự kiến sẽ thúc đẩy thị trường công nghệ dữ liệu lớn toàn cầu.

Trước đó, năm 2021, IBM tiến hành việc mua lại Bluetab Solutions Group, SL để mở rộng phạm vi cung cấp dữ liệu và dịch vụ tư vấn đám mây lai của mình ở châu Âu và Mỹ Latin. Bluetab sẽ là một phần chiến lược trong hoạt động tư vấn dịch vụ dữ liệu để thúc đẩy hơn nữa chiến lược AI và đám mây lai của mình...

Thị trường trăm tỷ USD

Theo Công ty nghiên cứu thị trường Expert Market Research (EMR), sự gia tăng nhu cầu dữ liệu lớn và phân tích kinh doanh đã mang đến sự tăng trưởng đáng kể của thị trường dữ liệu lớn toàn cầu. Tính đến năm 2022, thị trường này đạt tổng giá trị lên tới 271,3 tỷ USD. Với dự báo mức tăng trưởng 14,9% mỗi năm trong vòng 5 năm tới, thị trường Big Data toàn cầu có thể đạt 624,27 tỷ USD vào năm 2028.

Trước đó, một báo cáo của EMR cũng cho biết, riêng phân tích dữ liệu lớn trong thị trường bán lẻ toàn cầu đã có tổng giá trị gần 6 tỷ USD vào năm 2021. Với xu hướng bán lẻ đang phát triển nhờ khả năng tiếp cận thông tin ngày càng tăng qua Internet và việc người tiêu dùng ngày càng chú trọng tìm kiếm các dịch vụ được cá nhân hóa, các phân tích dữ liệu lớn được triển khai để nâng cao trải nghiệm của người tiêu dùng; các khoản đầu tư ngày càng tăng vào phân tích dữ liệu lớn của các nền tảng bán lẻ trực tuyến hàng đầu..., giá trị thị trường dữ liệu phục vụ ngành bán lẻ toàn cầu có thể đạt gần 21 tỷ USD vào năm 2027, với tốc độ tăng trưởng trong giai đoạn 2023 - 2028 dự báo lên tới 23,4% mỗi năm.

Xét theo khu vực, thị trường dữ liệu lớn Bắc Mỹ đang trải qua sự phát triển nhanh chóng. Điều này chủ yếu là do các ngành công nghiệp lớn đã đẩy mạnh việc áp dụng IoT và các dịch vụ liên quan, từ đó tạo ra một lượng lớn dữ liệu hữu ích có thể khai thác được. Các công ty và tổ chức bắt đầu khai thác dữ liệu lớn để tạo ra những chiến lược quan trọng để nâng cao tính cạnh tranh. Xu hướng này cũng đang được ghi nhận tại các khu vực đang phát triển. Trong đó, Trung Quốc dự kiến sẽ là quốc gia phát triển nhanh nhất trong thị trường khu vực, tiếp theo là các quốc gia như Australia, Ấn Độ, Hàn Quốc...

Dù là lĩnh vực mới, nhưng với sự tiến bộ của công nghệ, ngành phân tích dữ liệu lớn về chăm sóc sức khỏe đã có một quá trình phát triển liên tục. Ngày càng nhiều đơn vị chăm sóc sức khỏe từ quy mô tập đoàn, mạng lưới bệnh viện lớn đến các phòng

bác sĩ gia đình đều đang chú trọng sử dụng phân tích dữ liệu lớn để tối đa hóa doanh thu và cung cấp các dịch vụ chăm sóc bệnh nhân được cá nhân hóa. Nhu cầu ngày càng tăng đối với phân tích dữ liệu lớn xuất phát từ những lợi ích mà các dịch vụ này mang lại như phát hiện gian lận hay thúc đẩy các nghiên cứu, thử nghiệm lâm sàng và xây dựng hồ sơ y tế... Được thúc đẩy bởi nhu cầu đó, theo EMR, quy mô thị trường phân tích dữ liệu lớn chăm sóc sức khỏe toàn cầu đã nhanh chóng đạt mốc gần 22,5 tỷ USD vào năm 2020 và dự kiến sẽ đạt 52 tỷ USD vào năm 2026.

Những thách thức cần vượt qua

Dù khả năng ứng dụng cũng như hiệu quả mang lại từ dữ liệu lớn là không giới hạn, triển vọng thị trường cũng rất tích cực, song để tận dụng được cơ hội này, các chuyên gia cho rằng, các tổ chức tham gia “cuộc chơi” này cần phải vượt qua một số thách thức sau:

Khả năng lãnh đạo

Các chủ thể thành công trong kỷ nguyên dữ liệu lớn không chỉ đơn giản vì họ có nhiều dữ liệu hơn hoặc tốt hơn, mà bởi họ có đội ngũ lãnh đạo có thể phát hiện ra cơ hội từ dữ liệu lớn, hiểu rõ thị trường đang phát triển như thế nào, suy nghĩ sáng tạo và đưa ra những giải pháp thực sự mới lạ... Những thành công trong thập niên tới sẽ chỉ đến với những tập thể có các nhà lãnh đạo có thể làm tất cả những điều đó, đồng thời đưa ra nhiều quyết định đúng đắn.

Chuyên gia tài năng

Khi dữ liệu trở nên rẻ hơn, phần bổ sung cho dữ liệu trở nên có giá trị hơn. Một số người quan trọng nhất trong số này là các nhà khoa học dữ liệu và các chuyên gia khác có kỹ năng làm việc với lượng lớn thông tin để làm sạch và sắp xếp các tập dữ liệu lớn, thiết lập các hệ dữ liệu mới, hiếm, định dạng có cấu trúc, biến dữ liệu thành ngôn ngữ kinh doanh để giúp các nhà lãnh đạo định hình lại những thách thức của họ theo cách mà dữ liệu lớn có thể giải quyết.

Công nghệ

Các công cụ để xử lý dữ liệu có khối lượng lớn đa dạng với tốc độ cao cần tiếp tục được cải thiện. Điều đó đòi hỏi những bộ kỹ năng mới đối với hầu hết các bộ phận công nghệ thông tin, để có thể tích hợp tất cả các nguồn dữ liệu bên trong và bên ngoài có liên quan, từ đó hiện thực hóa các chiến lược phát triển, khai thác dữ liệu lớn./.

Khôi Nguyên - Tiến Thắng - Công Minh - Mỹ Hân - Thành Nam (thực hiện)

Chuyên mục: Hồ sơ