Các thư viện Python sử dụng trong Data Science – [Data Science Series]

Trong bài viết này, mình sẽ giới thiệu một số thư viện sử dụng trong khoa học dữ liệu. Thư viện là một tập hợp các function và method cho phép bạn thực hiện nhiều hành động khác nhau mà không cần tự viết code. mình sẽ tập trung vào các thư viện Python 1.

Trong bài viết này, mình sẽ giới thiệu một số thư viện sử dụng trong khoa học dữ liệu. Thư viện là một tập hợp các function và method cho phép bạn thực hiện nhiều hành động khác nhau mà không cần tự viết code. mình sẽ tập trung vào các thư viện Python

1. Scientific Computing

  • Pandas cung cấp cấu trúc dữ liệu và công cụ để làm sạch dữ liệu, thao tác và phân tích hiệu quả. Nó cung cấp các công cụ để làm việc với các loại dữ liệu khác nhau. Công cụ chính của Pandas là một bảng hai chiều bao gồm các cột và hàng. Bảng này được gọi là “DataFrame” và được thiết kế để cung cấp lập chỉ mục dễ dàng để bạn có thể làm việc với dữ liệu của mình.
  • Thư viện Numpy dựa trên các mảng, cho phép bạn áp dụng các hàm toán học cho các mảng này.
  • Pandas thực sự được xây dựng trên các phương pháp trực quan hóa dữ liệu, trong khi đó numpy là một cách tuyệt vời để giao tiếp và kết nối dữ liệu.

2. Visualization

Phương pháp trực quan hoá dữ liệu là một cách tuyệt vời để giao tiếp với người khác và hiển thị kết quả phân tích một cách có ý nghĩa.

  • Matplotlib package là thư viện nổi tiếng nhất để trực quan hóa dữ liệu và nó là tuyệt vời để tạo ra các biểu đồ, sơ đồ. Các biểu đồ cũng có khả năng tùy biến cao.
  • Một thư viện trực quan cấp cao khác, Seaborn, dựa trên matplotlib. Seaborn giúp bạn dễ dàng tạo ra các sơ đồ như bản đồ nhiệt, chuỗi thời gian,…

3. High-Level Machine Learning and Deep Learning

  • Đối với Machine Learning, thư viện Scikit-Learn chứa các công cụ để mô hình hóa thống kê, bao gồm hồi quy, phân loại, phân cụm và các công cụ khác. Nó được xây dựng trên Numpy, Scipy và Matplotlib, và nó tương đối đơn giản để bắt đầu. Đối với cách tiếp cận High-Level này, bạn xác định mô hình và chỉ định các loại tham số bạn muốn sử dụng.
  • Với Deep Learning, Keras cho phép bạn xây dựng mô hình Deep Learning tiêu chuẩn. Giống như Scikit-Learn, giao diện High-Level cho phép bạn xây dựng các mô hình nhanh chóng và đơn giản. Nó có thể hoạt động bằng cách sử dụng các đơn vị xử lý đồ họa (GPU), nhưng đối với nhiều trường hợp Deep Learning, cần có môi trường cấp thấp hơn.

4. Deep Learning

  • Tensorflow là một low-level framework được sử dụng trong production quy mô lớn của các mô hình Deep Learning. Nó được thiết kế cho production nhưng có thể khó để thực nghiệm.
  • Pytorch được sử dụng để thực nghiệm, giúp các nhà nghiên cứu đơn giản kiểm tra ý tưởng của họ

Tham khảo từ quyển Getting Started with Data Science của IBM

Nguồn: viblo.asia

Bài viết liên quan

WebP là gì? Hướng dẫn cách để chuyển hình ảnh jpg, png qua webp

WebP là gì? WebP là một định dạng ảnh hiện đại, được phát triển bởi Google

Điểm khác biệt giữa IPv4 và IPv6 là gì?

IPv4 và IPv6 là hai phiên bản của hệ thống địa chỉ Giao thức Internet (IP). IP l

Check nameservers của tên miền xem website trỏ đúng chưa

Tìm hiểu cách check nameservers của tên miền để xác định tên miền đó đang dùn

Mình đang dùng Google Domains để check tên miền hàng ngày

Từ khi thông báo dịch vụ Google Domains bỏ mác Beta, mình mới để ý và bắt đầ