Trong bài viết này, mình sẽ giới thiệu về Dataset: chúng là gì, tại sao chúng lại quan trọng trong khoa học dữ liệu và tìm Dataset ở đâu.
1. Dataset
Một Dataset là một bộ sưu tập data có cấu trúc. Data thể hiện thông tin có thể được biểu diễn dưới dạng văn bản, số hoặc phương tiện như hình ảnh, âm thanh hoặc tệp video.
- Một Dataset được cấu trúc dưới dạng dữ liệu bảng bao gồm một tập hợp các hàng, từ đó bao gồm các cột lưu trữ thông tin. Một định dạng dữ liệu dạng bảng phổ biến là “comma separated values” hay còn gọi là CSV. Tệp CSV là một tệp văn bản được phân định trong đó mỗi dòng đại diện cho một hàng và giá trị dữ liệu được phân tách bằng dấu phẩy. Ví dụ, hãy tưởng tượng một bộ Dataset quan sát từ một trạm thời tiết. Mỗi hàng đại diện cho một quan sát tại một thời điểm nhất định, trong khi mỗi cột chứa thông tin về quan sát cụ thể đó, chẳng hạn như nhiệt độ, độ ẩm và các điều kiện thời tiết khác.
- Các cấu trúc dữ liệu phân cấp hoặc dữ liệu network thường được sử dụng để biểu thị mối quan hệ giữa dữ liệu. Dữ liệu phân cấp được tổ chức theo cấu trúc giống như cây, trong khi dữ liệu network có thể được lưu trữ dưới dạng đồ thị. Ví dụ, các kết nối giữa những người trên một trang web mạng xã hội thường được thể hiện dưới dạng biểu đồ.
- Một bộ Dataset cũng có thể bao gồm các tệp dữ liệu thô, chẳng hạn như hình ảnh hoặc âm thanh. Bộ dữ liệu MNIST khá là phổ biến cho khoa học dữ liệu, nó chứa hình ảnh các chữ số viết tay và thường được sử dụng để đào tạo các hệ thống xử lý hình ảnh.
2. Quyền sở hữu Data
Private data
Hầu hết các bộ dữ liệu được coi là riêng tư vì chúng chứa thông tin độc quyền hoặc bí mật như:
- Dữ liệu khách hàng
- Dữ liệu giá cả
- Thông tin thương mại nhạy cảm khác.
Các bộ Dataset này thường không được chia sẻ công khai.
Open data
Theo thời gian, ngày càng có nhiều tổ chức công và tư nhân bắt đầu cung cấp các bộ dataset cho công chúng là “Open data”, cung cấp nhiều thông tin miễn phí:
- Các tổ chức khoa học
- Chính phủ và thậm chí
- Các tổ chức, doanh nghiệp
Ví dụ, Liên Hợp Quốc, Chính phủ Liên bang, Thành phố trên thế giới đã công bố nhiều bộ dữ liệu trên trang web của họ, bao gồm về kinh tế, xã hội, chăm sóc sức khỏe, giao thông, môi trường, ….
Truy cập vào các Open data cho phép các nhà khoa học dữ liệu, nhà nghiên cứu, nhà phân tích và những người khác phát hiện ra những insight chưa biết và có khả năng hữu ích. Họ có thể tạo ra các ứng dụng mới cho cả mục đích thương mại và lợi ích công cộng. Họ cũng có thể thực hiện nghiên cứu mới. Open data đã đóng một vai trò quan trọng trong sự phát triển của khoa học dữ liệu, học máy và trí tuệ nhân tạo và đã cung cấp một cách để chúng ta trau dồi kỹ năng trên nhiều bộ data khác nhau.
3. Tìm dataset ở đâu
Có nhiều nguồn dữ liệu mở trên Internet:
Bạn có thể tìm thấy một danh sách toàn diện các cổng dữ liệu mở từ khắp nơi trên thế giới trên trang web Datacatalogs.org của Liên Hợp Quốc, Liên minh châu Âu và nhiều tổ chức chính phủ và liên chính phủ khác duy trì kho dữ liệu cung cấp quyền truy cập vào một loạt thông tin.
Trên Kaggle, một cộng đồng khoa học trực tuyến, bạn có thể tìm thấy và đóng góp các bộ dữ liệu có thể được mọi nguiuwf quan tâm.
Cuối cùng nhưng không kém phần quan trọng, Google cung cấp một công cụ tìm kiếm cho các bộ dữ liệu có thể giúp bạn tìm thấy các công cụ có giá trị đặc biệt cho bạn. Điều quan trọng là phải nhận ra rằng phân phối và sử dụng dữ liệu mở có thể bị hạn chế.
Tham khảo từ quyển Getting Started with Data Science của IBM
Nguồn: viblo.asia