Sự ra đời của Big Data – [Data Analyst Series]

Trong thế giới digital ngày nay, mọi người đều tạo ra dữ liệu. Từ thói quen du lịch cho đến khi tập luyện và giải trí, số lượng thiết bị kết nối Internet ngày càng tăng, từ đó lượng tương tác hàng ngày tạo ra một bộ dữ liệu khổng lồ và người ta gọi

Trong thế giới digital ngày nay, mọi người đều tạo ra dữ liệu. Từ thói quen du lịch cho đến khi tập luyện và giải trí, số lượng thiết bị kết nối Internet ngày càng tăng, từ đó lượng tương tác hàng ngày tạo ra một bộ dữ liệu khổng lồ và người ta gọi đó là Big Data.

I. Big Data là gì?

Big Data – Dữ liệu lớn đề cập đến khối lượng dữ liệu năng động, lớn và khác nhau được tạo bởi tất cả mọi người, công cụ và máy móc. Nó đòi hỏi công nghệ mới, sáng tạo và có thể mở rộng để thu thập, lưu trữ và xử lý phân tích số lượng lớn dữ liệu được thu thập để thúc đẩy những hiểu biết kinh doanh theo thời gian thực liên quan đến người tiêu dùng, rủi ro, lợi nhuận, hiệu suất, quản lý năng suất và giá trị cổ đông nâng cao.

Không có một định nghĩa nào về dữ liệu lớn nhưng có một số yếu tố nhất định trên các định nghĩa khác nhau, một trong số đó là “The V’s of Big Data”, đề cập đến 5 chữ V viết tắt của Velocity, Volumn, Variety, Veracity, Value:

1. Velocity – Vận tốc

Đây là V của vận tốc dữ liệu lớn, là tốc độ mà dữ liệu tích lũy. Dữ liệu đang được tạo ra cực kỳ nhanh và không bao giờ dừng lại. Thông qua livestream hoặc realtime, các công nghệ và cloud có thể xử lý thông tin rất nhanh.

2. Volumn – Khối lượng

Khối lượng là tỷ lệ của dữ liệu hoặc tăng lượng dữ liệu được lưu trữ.

3. Variety – Sự đa dạng

Variety là sự đa dạng của dữ liệu. Dữ liệu có cấu trúc được tổ chức dưới các hàng và cột trong cơ sở dữ liệu quan hệ, trong khi dữ liệu phi cấu trúc không được tổ chức theo cách được xác định trước như tweet, bài đăng trên blog, hình ảnh, số và video. Variety cũng phản ánh rằng dữ liệu đến từ các nguồn khác nhau; Máy móc, con người và quy trình, cả bên trong và bên ngoài cho các tổ chức, phương tiện truyền thông xã hội, công nghệ di động, công nghệ thiết bị đeo, video GEO Technologies, và nhiều, nhiều hơn nữa.

4. Veracity – Tính chính xác

Tính chính xác là chất lượng và nguồn gốc của dữ liệu và sự phù hợp của nó với các sự kiện với độ chính xác.
Các thuộc tính bao gồm tính nhất quán, đầy đủ, tính toàn vẹn và sự mơ hồ.

5. Value – Giá trị

Giá trị là khả năng biến dữ liệu thành giá trị. Lý do chính mà mọi người đầu tư thời gian để hiểu dữ liệu lớn là để lấy giá trị từ nó.

Hãy xem xét một số ví dụ:

  • Velocity: Cứ sau 60 giây, một video được tải lên YouTube, tạo ra dữ liệu. Hãy suy nghĩ về việc dữ liệu tích lũy nhanh như thế nào qua nhiều giờ, ngày và năm.
  • Volumn: Dân số thế giới là khoảng 7 tỷ người và đại đa số hiện đang sử dụng các thiết bị kỹ thuật số. Điện thoại di động, máy tính để bàn và máy tính xách tay, thiết bị đeo được, v.v. Các thiết bị này đều tạo ra, thu thập và lưu trữ dữ liệu khoảng 2,5 triệu byte mỗi ngày. Đó là tương đương với 10 triệu đĩa DVD Blu-ray.
  • Variety: Hãy nghĩ về các loại dữ liệu khác nhau. Văn bản, hình ảnh, phim, âm thanh, dữ liệu sức khỏe từ các thiết bị có thể đeo và nhiều loại dữ liệu khác nhau từ các thiết bị được kết nối với Internet vạn vật.
  • Veracity: Tám mươi phần trăm dữ liệu được coi là không cấu trúc và chúng ta phải nghĩ ra các cách để tạo ra những hiểu biết đáng tin cậy và chính xác. Dữ liệu phải được phân loại, phân tích và trực quan hóa.
  • Value: Các nhà khoa học dữ liệu, ngày nay, có được những hiểu biết sâu sắc từ dữ liệu lớn và đối phó với những thách thức mà các bộ dữ liệu lớn này tạo ra.

Quy mô của dữ liệu được thu thập rất lớn dẫn đến những công cụ phân tích dữ liệu thông thường không đủ khả năng phân tích. Tuy nhiên, các công cụ mới thay thế tận dụng sức mạnh điện toán phân tán có thể khắc phục vấn đề này. Các công cụ như Apache Spark, Hadoop và hệ sinh thái của nó cung cấp các cách để trích xuất, tải, phân tích và xử lý dữ liệu trên các tài nguyên tính toán phân tán, cung cấp những insight và knownledge. Điều này cung cấp cho các tổ chức nhiều cách hơn để kết nối với khách hàng của họ và làm phong phú các dịch vụ họ cung cấp. Vì vậy, lần tới khi bạn đeo trên chiếc smartwatch của mình, mở khóa điện thoại thông minh hoặc theo dõi tập luyện của bạn, hãy nhớ dữ liệu của bạn đang bắt đầu một hành trình có thể đi khắp thế giới, thông qua phân tích dữ liệu lớn và quay lại với bạn.

Tham khảo từ khoá học Data Analyst của IBM

Nguồn: viblo.asia

Bài viết liên quan

WebP là gì? Hướng dẫn cách để chuyển hình ảnh jpg, png qua webp

WebP là gì? WebP là một định dạng ảnh hiện đại, được phát triển bởi Google

Điểm khác biệt giữa IPv4 và IPv6 là gì?

IPv4 và IPv6 là hai phiên bản của hệ thống địa chỉ Giao thức Internet (IP). IP l

Check nameservers của tên miền xem website trỏ đúng chưa

Tìm hiểu cách check nameservers của tên miền để xác định tên miền đó đang dùn

Mình đang dùng Google Domains để check tên miền hàng ngày

Từ khi thông báo dịch vụ Google Domains bỏ mác Beta, mình mới để ý và bắt đầ