Data Resource – A core component in Data Science

Dữ liệu ở đâu! Nên lấy dữ liệu từ nguồn nào để giải quyết vấn đề đặt ra? 😱😱 Đó là câu hỏi của nhiều bạn khi bắt tay vào một dự án khoa học dữ liệu. Thật vậy, việc tìm ra một bộ dữ liệu chính là bước đầu tiên và quan trọng nhất

Dữ liệu ở đâu! Nên lấy dữ liệu từ nguồn nào để giải quyết vấn đề đặt ra? 😱😱

Đó là câu hỏi của nhiều bạn khi bắt tay vào một dự án khoa học dữ liệu. Thật vậy, việc tìm ra một bộ dữ liệu chính là bước đầu tiên và quan trọng nhất đối với dự án. Câu hỏi trên chắc hẳn tiêu tốn thời gian của bạn rất nhiều, thậm chí có thể mất vài tháng chỉ để sưu tầm được bộ dữ liệu phù hợp với bài toán ban đầu. Bài viết này hướng đến mục tiêu hỗ trợ các bạn tìm thấy các nguồn dữ liệu hữu ích mà lại hoàn toàn FREE.

1. Kaggle

Kaggle được xem là một nền tảng được tin dùng rất nhiều trong cộng đồng khoa học dữ liệu bởi vì nguồn dữ liệu mở ở đây rất phong phú. Các chủ đề phổ biến như tài chính, ngân hàng, giáo dục, y khoa; đủ mọi lĩnh vực máy học, thị giác máy tính, xử lý ngôn ngữ tự nhiên, …; đa dạng về loại dữ liệu csv, json, SQLite, …

2. Awesome Public Datasets

Repo này mình vô tình thấy được vì nó được rất nhiều người quan tâm (46.6K stars và 8.3K lượt fork). Điều mình ấn tượng ở đây chính là cách bố cục dataset theo từng chủ đề giúp mình thuận tiện hơn trong việc tìm kiếm. Hy vọng trang này sẽ giúp bạn tối ưu hóa thời gian tìm nguồn dữ liệu.

3. UCI Machine Learning Repository

UCI Machine Learning Repository là nơi lưu trữ các bộ dữ liệu phục vụ cho việc phân tích đánh giá các thuật toán máy học. Trang này được sử dụng rộng rãi bởi những sinh viên, giảng viên và nhà nghiên cứu trên toàn thế giới như một nguồn chính của bộ dữ liệu về máy học. Bên cạnh đó, nó còn được trích dẫn hơn 1000 lần và trở thành một trong 100 “papers” được trích dẫn nhiều nhất trong tất cả các ngành khoa học máy tính.

4. Data.gov

Website này chứa rất nhiều bộ dữ liệu trong nhiều lĩnh vực khác nhau và được duy trì bởi chính phủ Mỹ. Nếu bạn đang có vấn đề về dữ liệu thì đây chính là một nguồn đáng tham khảo.

5. Web Scraping

Ngoài việc “ngồi mát ăn bát vàng”, thì bạn có thể tự mình tạo ra bộ dữ liệu của riêng mình bằng cách sử dụng kĩ thuật web scraping. Hiện tại có rất nhiều tutorial hướng dẫn chi tiết nên việc này rất đơn giản. Tuy nhiên cần lưu ý về các chính sách bảo mật hiện hành của website mà bạn dự định thu thập để trách bất cập về sau này. Nếu các bạn cảm thấy cần thiết thì mình sẽ làm một bài hướng dẫn để scape từ a đến á luôn nhé 😀

Nguồn: viblo.asia

Bài viết liên quan

WebP là gì? Hướng dẫn cách để chuyển hình ảnh jpg, png qua webp

WebP là gì? WebP là một định dạng ảnh hiện đại, được phát triển bởi Google

Điểm khác biệt giữa IPv4 và IPv6 là gì?

IPv4 và IPv6 là hai phiên bản của hệ thống địa chỉ Giao thức Internet (IP). IP l

Check nameservers của tên miền xem website trỏ đúng chưa

Tìm hiểu cách check nameservers của tên miền để xác định tên miền đó đang dùn

Mình đang dùng Google Domains để check tên miền hàng ngày

Từ khi thông báo dịch vụ Google Domains bỏ mác Beta, mình mới để ý và bắt đầ