Model-Centric và Data-Centric là gì vậy?

Xin chào mọi người hôm nay mình sẽ viết 1 bài chủ đề hơi khác một chút xíu so với mọi ngày. Model centric và Data centric là gì và nó khác nhau như thế nào? Như mọi người cũng biết Data và model đều là nền tảng quan trọng trong hệ thống AI. Cả

Xin chào mọi người hôm nay mình sẽ viết 1 bài chủ đề hơi khác một chút xíu so với mọi ngày. Model centric và Data centric là gì và nó khác nhau như thế nào? Như mọi người cũng biết Data và model đều là nền tảng quan trọng trong hệ thống AI.
Cả hai thành phần này đều đóng một vai trò quan trọng trong việc phát triển một mô hình mạnh mẽ nhưng bạn nên tập trung vào thành phần nào hơn? Trong bài viết này, chúng ta sẽ xem xét các phương pháp tiếp cận tập trung vào dữ liệu (data-centric approach) so với tập trung vào mô hình (Model-centric approach) và so sánh chúng nha.

Tiếp cận theo hướng mô hình – Model-centric

Hình: tiếp cận theo hướng mô hình

Phương pháp tiếp cận theo hướng mô hình lấy mô hình làm trung tâm có nghĩa là tập trung vào việc sử dụng đúng tập hợp các thuật toán học máy, ngôn ngữ lập trình và nền tảng AI để xây dựng các mô hình học máy chất lượng cao. Điều này liên quan đến việc lựa chọn kiến trúc mô hình sao cho tốt nhất. Trong cách tiếp cận này, chúng ta thường giữ nguyên dữ liệu và cải thiện code hoặc kiến trúc mô hình. Cách tiếp cận này đã dẫn đến sự tiến bộ vượt bậc trong lĩnh vực máy học / thuật toán học sâu.

Hiện tại, đa phần các ứng dụng AI đều tập trung vào mô hình, mn đa phần chú trọng đến nghiên cứu học thuật về mô hình, cải thiện mô hình. Theo Andrew Ng, hơn 90% các bài báo nghiên cứu trong lĩnh vực AI tập trung vào mô hình. Việc này là do rất khó để taọ ra các bộ dữ liệu lớn có thể trở thành các tiêu chuẩn được công nhận chung và việc thu thập dữ liệu cũng khá là khó khăn.

Tiếp cận theo hướng dữ liệu – Data-centric

Hình: tiếp cận theo hướng dữ liệu

Phương pháp tiếp cận lấy dữ liệu làm trung tâm đối với AI là tập trung vào việc lấy đúng loại dữ liệu có thể được sử dụng để xây dựng các mô hình học máy chất lượng cao, hiệu suất cao. Không giống như AI tập trung vào mô hình, trọng tâm chuyển sang lấy dữ liệu chất lượng cao cho các mô hình đào tạo hơn là các mô hình.

Trong thời đại hiện giờ, khi mà mô hình AI đã phát triển và các công ty đa phần cũng đều có một lượng dữ liệu của riêng mình, thì dữ liệu trở thành cốt lõi của mọi quy trình ra quyết định. Một số công ty lấy dữ liệu làm trung tâm hay còn gọi là tiếp cận theo hướng dữ liệu có thể dựa vào dữ liệu để phân tích thông tin về hoạt động của công ty, doanh nghiệp để điều chỉnh chiến lược phù hợp với mình nhằm tăng lợi ích cho chính công ty. Bằng cách tiếp cận này, kết quả có thể chính xác hơn, có tổ chức và minh bạch hơn, có thể giúp tổ chức hoạt động trơn tru hơn. Cách tiếp cận này liên quan đến việc thay đổi / cải tiến bộ dữ liệu một cách có hệ thống để tăng độ chính xác của các ứng dụng học máy. Làm việc trên dữ liệu là mục tiêu trọng tâm của phương pháp này.

So sánh 2 phương pháp trên

Đối với các nhà khoa học dữ liệu và kỹ sư học máy, cách tiếp cận lấy mô hình làm trung tâm có vẻ hứng thú hơn. Điều này có thể hiểu được vì các nhà nghiên cứu có thể sử dụng kiến thức của họ để giải quyết một vấn đề cụ thể. Mặt khác, không ai muốn dành cả ngày để dán nhãn dữ liệu vì nó được coi là công việc tốn thời gian và nhàm chán :v.

Tuy nhiên, trong công nghệ máy học ngày nay, dữ liệu rất quan trọng nhưng nó thường bị bỏ qua .Kết quả là, hàng trăm giờ bị lãng phí để tinh chỉnh một mô hình dựa trên dữ liệu bị lỗi. Đó rất có thể là nguyên nhân cơ bản khiến mô hình của bạn có độ chính xác thấp hơn và nó không liên quan gì đến việc tối ưu hóa mô hình.

Model-Centric Data-Centric
Làm việc với mô hình là mục tiêu trung tâm Làm việc với dữ liệu là mục tiêu trọng tâm
Tối ưu hóa mô hình Thu thập và xử lý dữ liệu
Labels không nhất quán Tính nhất quán của dữ liệu là chìa khóa
Dữ liệu được giữ cố định sau khi chuẩn hóa Code/thuật toán được giữ cố định
Mô hình được cải tiến lặp đi lặp lại Chất lượng dữ liệu được cải thiện

Bảng: So sánh Model-centric và Data-centric

Kết luận

Theo bản thân mình thấy làm sao kết hợp hài hòa giữa dữ liệu và mô hình là cách hiệu quả nhất và tốt nhất. Vì như ở trên mình có nhắc đến không phải công ty nào cũng có lượng lớn dữ liệu để tập trung vào dữ liệu được. Vì vậy mn phải lựa chọn cải tiến chất lượng mô hình.

Cảm ơn mn đã đọc bài viết của mình ạ.

Reference

https://www.deeplearning.ai/wp-content/uploads/2021/06/MLOps-From-Model-centric-to-Data-centric-AI.pdf

https://medium.com/analytics-vidhya/moving-from-model-centric-to-data-centric-approach-1468fb5dbafb

https://neptune.ai/blog/data-centric-vs-model-centric-machine-learning#:~:text=It’s sometimes referred to as,permanent asset%2C whereas applications change

https://dida.do/blog/data-centric-machine-learning

Nguồn: viblo.asia

Bài viết liên quan

WebP là gì? Hướng dẫn cách để chuyển hình ảnh jpg, png qua webp

WebP là gì? WebP là một định dạng ảnh hiện đại, được phát triển bởi Google

Điểm khác biệt giữa IPv4 và IPv6 là gì?

IPv4 và IPv6 là hai phiên bản của hệ thống địa chỉ Giao thức Internet (IP). IP l

Check nameservers của tên miền xem website trỏ đúng chưa

Tìm hiểu cách check nameservers của tên miền để xác định tên miền đó đang dùn

Mình đang dùng Google Domains để check tên miền hàng ngày

Từ khi thông báo dịch vụ Google Domains bỏ mác Beta, mình mới để ý và bắt đầ