Có khá nhiều ý kiến về chủ đề này và sau đây là một câu nói khá phổ biến:
“Sự khác biệt chính giữa học máy và thống kê là mục đích của chúng. Mô hình học máy được thiết kế để đưa ra những dự đoán chính xác nhất có thể, còn mô hình thống kê được thiết kế để suy luận về mối quan hệ giữa các biến.”
Đầu tiên, chúng ta cần biết rằng thống kê và mô hình thống kê không giống nhau. Thống kê là một nghiên cứu toán học về dữ liệu. Chúng ta không thể thống kê nếu không có dữ liệu. Trong khi đó một mô hình thống kê là mô hình cho dữ liệu được sử dụng để suy ra điều gì đó về các mối quan hệ bên trong dữ liệu hoặc để tạ ra một mô hình có thể dự đoán các giá trị trong tương lai.
Như vậy có hai vấn đề cần thảo luận là: thống kê khác học máy như nào và mô hình thống kê khác mô hình học máy như nào ? Và bài viết này chỉ tập trung vào vấn đề thứ hai.
Để làm mọi thứ rõ ràng hơn thì một vài mô hình thống kê có thể đưa ra dự đoán tuy nhiên khả năng dự đoán chính xác không phải điểm mạnh của chúng.
Tương tự thế những mô hình học máy cung cấp những mức độ diễn giải khác nhau. Từ những mô hình có khả năng diễn giải cao như lasso regression cho tới ít khả năng diễn giải hơn như neural networks, nhưng chúng thường hy sinh khả năng diễn giải để đổi lại cho sức mạnh về dự đoán.
Chúng ta hãy xem xét ví dụ về hồi quy tuyến tính để hiểu rõ hơn:
Chúng ta hãy cùng xem xét một trường hợp mà chúng ta hay làm đó là huấn luyện mô hình, tức là chúng ta cho mô hình học dựa trên training data mà chúng ta không biết nó tốt như thế nào cho đến khi chúng ta sử dụng tập test, đó chính là chúng ta đang sử dụng machine learning model và mục đích của nó là đạt được kết quả tốt nhất trên tập test.
Còn đối với mô hình thống kê thì sao? chúng ta sẽ đi tìm một đường mà tối thiểu hóa lỗi bình phương trên toàn bộ dữ liệu, giả sử rằng dữ liệu tuân theo hồi quy tuyến tính và có thêm một số nhiễu. Với phương pháp này thì chúng ta không cần sử dụng đến tập train và tập test. Trong nhiều trường hợp đặc biệt là trong nghiên cứu, mục đích của mô hình thống kê là mô tả mối quan hệ giữa dữ liệu và biến kết quả chứ không phải là để đưa ra dự đoán về dữ liệu trong tương lai. Tuy vậy,mô hình thống kê vẫn có thể được sử dụng để đưa ra dự đoán và đây có thể là mục đích của chúng ta, tuy nhiên các mô hình được đánh giá sẽ không liên quan đến tập test mà thay vào đó sẽ liên quan đên việc đánh giá ý nghĩa và độ chắc chắn của các tham số mô hình. Việc cả mô hình học máy và mô hình thống kê tạo ra cùng một kết quả là nguyên nhân mà người ta hay cho rằng chúng giống nhau.
Vậy sử dụng mô hình nào thì tốt hơn?
Điều này tùy thuộc vào mục đích sử dụng của bạn. Nếu bạn muốn tạo một thuật toán có khả năng dự đoán giá nhà với độ chính xác cao, hay sử dụng dữ liệu để xác định xem ai đó có khả năng mắc một số loại bênh hay không thì học máy là một cách tiếp cận tốt. Nếu bạn đang cố gắng tìm hiểu mối quan hệ giữa các biến hoặc là suy luận từ dữ liệu thì mô hình thống kê có thể là cách tiếp cận tốt hơn.
Như vậy nếu bạn không có một nền tảng mạnh về thống kê, bạn vẫn có thể học và sử dụng machine learning một cách khá dễ dàng. Tuy nhiên khi đào sâu vào học máy để diễn giải và có những suy luận hợp lý thì kiến thức thống kê rất quan trọng.
Thanks for reading!
Tài liệu tham khảo:
Nguồn: viblo.asia