Chuỗi thời gian
Chuỗi thời gian (time series) là một chuỗi các điểm dữ liệu xảy ra theo thứ tự liên tiếp trong một khoảng thời gian. Một chuỗi thời gian sẽ theo dõi chuyển động của các điểm dữ liệu đã chọn (chẳng hạn như giá của chứng khoán) trong một khoảng thời gian xác định.
Ứng dụng của chuỗi thời gian trải khắp các ngành công nghiệp khác nhau như: quan sát hoạt động sóng điện trong não, đo lượng mưa, dự báo giá cổ phiếu, theo dõi doanh số bán lẻ hàng năm, người đăng ký hàng tháng, nhịp tim mỗi phút,…
Dữ liệu chuỗi thời gian là tập hợp các quan sát thu được thông qua các phép đo lặp lại theo thời gian. Dữ liệu chuỗi thời gian ở khắp mọi nơi, vì thời gian là thành phần của mọi thứ mà chúng ta có thể nhận biết được.
Các thành phần của chuỗi thời gian
Do dữ liệu chịu ảnh hưởng bởi tính chất thời gian nên chuỗi thời gian thường xuất hiện những qui luật đặc trưng như: yếu tố chu kỳ, mùa vụ và yếu tố xu hướng. Đây là những đặc trưng thường thấy và xuất hiện ở hầu hết các chuỗi thời gian.
- Yếu tố thời vụ (seasonality): là những đặc tính lặp lại theo chu kỳ. Ví dụ:
– Các sự kiện xảy ra tự nhiên, như biến động thời tiết
– Thủ tục kinh doanh hoặc hành chính, như bắt đầu hoặc kết thúc năm tài chính
– Hành vi xã hội và văn hóa, như ngày lễ hoặc lễ tôn giáo
– Các sự kiện trên lịch, chẳng hạn như số ngày thứ Hai mỗi tháng hoặc các ngày lễ thay đổi theo từng năm
Hình 1: Đồ thị về chuỗi nhiệt độ trung bình theo tháng thể hiện yếu tố mùa vụ. - Yếu tố xu hướng (trend): thể hiện đà tăng hoặc giảm của chuỗi trong tương lai. Chẳng hạn như lạm phát là xu hướng chung của các nền kinh tế, do đó giá cả trung bình luôn có xu hướng tăng và xu hướng tăng này đại diện cho sự mất giá của đồng tiền.
Hình 2: Đồ thị về yếu tố xu hướng trong chuỗi thời gian của chuỗi giá. - Các yếu tố còn lại (Residual): biến động bất thường mà chúng ta không thể dự đoán bằng cách sử dụng xu hướng hoặc tính thời vụ.
Ví dụ về dữ liệu chuỗi thời gian
Quan sát biểu đồ sự thay đổi giá cổ phiếu dưới đây:
Trong biểu đồ trên, thời gian là trục đo lường sự thay đổi giá cổ phiếu. Trong đầu tư, một chuỗi thời gian theo dõi chuyển động của các điểm dữ liệu, chẳng hạn như giá của chứng khoán trong một khoảng thời gian xác định với các điểm dữ liệu được ghi lại theo các khoảng thời gian đều đặn. Điều này có thể được theo dõi trong thời gian ngắn (chẳng hạn như giá chứng khoán vào giờ trong suốt một ngày làm việc) hoặc dài hạn (chẳng hạn như giá chứng khoán vào lúc kết thúc ngày cuối cùng của mỗi tháng trong suốt 5 năm).
Một ví dụ quen thuộc khác về dữ liệu chuỗi thời gian là theo dõi sức khỏe của bệnh nhân, chẳng hạn như trong điện tâm đồ (ECG), theo dõi hoạt động của tim để cho biết liệu nó có hoạt động bình thường hay không.
Ngoài việc được ghi lại theo các khoảng thời gian thông thường, dữ liệu chuỗi thời gian có thể được ghi lại bất cứ khi nào một sự kiện nào đó xảy ra, chẳng hạn như việc ghi logs trong lập trình. Logs sẽ lưu lại các sự kiện, quy trình, thông báo và giao tiếp giữa các ứng dụng phần mềm và hệ điều hành.
Lưu trữ dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian thường được nhập với khối lượng lớn và yêu cầu cơ sở dữ liệu chuyên dụng được thiết kế để xử lý quy mô của nó. Các thuộc tính làm cho dữ liệu chuỗi thời gian rất khác so với các dữ liệu khác là quản lý vòng đời dữ liệu, tóm tắt và quét nhiều bản ghi trên phạm vi rộng. Đây là lý do tại sao dữ liệu chuỗi thời gian được lưu trữ trong cơ sở dữ liệu được xây dựng riêng, để xử lý các chỉ số và sự kiện hoặc phép đo được đánh dấu thời gian.
Dữ liệu chuỗi thời gian được sử dụng như thế nào?
Dữ liệu chuỗi thời gian được thu thập, lưu trữ, trực quan hóa và phân tích cho các mục đích khác nhau trên các lĩnh vực khác nhau:
- Trong khai phá dữ liệu, nhận dạng mẫu và học máy, phân tích chuỗi thời gian được sử dụng để phân cụm, phân loại, truy vấn theo nội dung, phát hiện bất thường và các hoạt động dự báo.
- Trong xử lý tín hiệu, kỹ thuật điều khiển và kỹ thuật truyền thông, dữ liệu chuỗi thời gian được sử dụng để phát hiện và ước tính tín hiệu.
- Trong thống kê, kinh tế lượng, tài chính định lượng, địa chấn học, khí tượng học và địa vật lý, phân tích chuỗi thời gian được sử dụng để dự báo.
Dữ liệu chuỗi thời gian có thể được hiển thị trực quan trong các loại biểu đồ khác nhau để tạo điều kiện khai thác thông tin chuyên sâu, phân tích xu hướng và phát hiện bất thường.
Dữ liệu chuỗi thời gian được sử dụng trong phân tích chuỗi thời gian (theo lịch sử hoặc thời gian thực) và dự báo chuỗi thời gian để phát hiện và dự đoán các mẫu. Sau đây là tổng quan ngắn gọn về từng loại.
Phân tích chuỗi thời gian
Phân tích chuỗi thời gian (time series analysis) là một phương pháp phân tích một loạt các điểm dữ liệu được thu thập trong một khoảng thời gian. Trong phân tích chuỗi thời gian, các điểm dữ liệu được ghi lại theo các khoảng thời gian đều đặn trong một giai đoạn nhất định, thay vì ngắt quãng hoặc ngẫu nhiên.
Phân tích chuỗi thời gian là việc sử dụng các phương pháp thống kê để phân tích dữ liệu; trích xuất các thống kê và đặc điểm có ý nghĩa về dữ liệu. Điều này giúp xác định các xu hướng, chu kỳ và sự khác biệt theo mùa để hỗ trợ dự đoán một sự kiện trong tương lai. Các yếu tố liên quan đến phân tích chuỗi thời gian bao gồm tính ổn định (stationarity), tính thời vụ (seasonality) và tự tương quan (autocorrelation).
Phân tích chuỗi thời gian có thể để xem cách thay đổi theo thời gian của một biến nhất định (trong khi bản thân thời gian, trong dữ liệu chuỗi thời gian, thường là biến độc lập). Nó cũng có thể được sử dụng để kiểm tra mức độ thay đổi liên quan đến điểm dữ liệu đã chọn so với sự thay đổi của các biến khác trong cùng khoảng thời gian.
Để tìm hiểu thêm về việc phân tích chuỗi thời gian, các bạn có thể tham khảo thêm ở đây: https://machinelearningcoban.com/tabml_book/ch_data_processing/timeseries_data.html
Dự báo chuỗi thời gian
Dự báo chuỗi thời gian sử dụng thông tin liên quan đến các giá trị lịch sử và các mẫu liên quan để dự đoán hoạt động trong tương lai.
Như với tất cả các phương pháp dự báo khác, sự chính xác hoàn toàn của việc dự báo chuỗi thời gian không được đảm bảo. Học máy thường được sử dụng cho mục đích dự báo tương tự với các phương pháp cổ điển: Lỗi (Error), Xu hướng (Trend), Dự báo theo mùa (Seasonality Forecast – ETS), Phương pháp trung bình trượt kết hợp tự hồi quy (Autoregressive Integrated Moving Average – ARIMA) và Holt-Winters.
Để dự báo được, mô hình chuỗi thời gian (time series modeling – một phương pháp dự báo dựa trên dữ liệu chuỗi thời gian) liên quan đến việc làm việc trên dữ liệu thời gian để rút ra những tri thức giúp đưa ra quyết định. Các mô hình chuỗi thời gian là các mô hình rất hữu ích khi bạn có dữ liệu thời gian tương quan. Hầu hết các doanh nghiệp làm việc trên dữ liệu chuỗi thời gian để phân tích dự báo doanh số cho năm tới, lưu lượng truy cập trang web, vị trí cạnh tranh,…
Các phương pháp dự báo chuỗi thời gian bao gồm các mô hình phân tách, mô hình dựa trên làm mịn và các mô hình bao gồm tính thời vụ.
Dự báo chuỗi thời gian sẽ được đề cập cụ thể trong bài viết tiếp theo.
Tham khảo
Nguồn: viblo.asia