2.2.2.2. Bài toán hồi quy tuyến tính¶

Giả sử rằng dữ liệu đầu vào bao gồm các quan sát (n), là các cặp biến đầu vào và biến mục tiêu((mathbf{x}_1, y_1), (mathbf{x}_2, y_2), dots , ( mathbf{x}_n, y_n)). Hồi quy mô hình sẽ tìm một vectơ ước tính (mathbf{w} = [w_0, w_1, dots, w_p]) để giảm thiểu hàm mất mát trong biểu mẫu của mse:

Xem lại khái niệm hàm mất mát. Trong mô hình học có giám sát của machine learning, bắt đầu từ dữ liệu đầu vào, thông qua thuật toán học, chúng tôi sẽ đề xuất một hàm giả thiết (h) (hypothesis function) để mô tả mối quan hệ dữ liệu giữa biến đầu vào và biến mục tiêu.

Hình 1: Nguồn: andrew ng – Hồi quy tuyến tính đơn biến. Quan sát (mathbf{x}_i) từ đầu vào, sau khi cung cấp hàm giả thuyết (h), chúng ta nhận được giá trị dự đoán (hat{y}) trong đầu ra. Chữ (h) trong tên hàm đại diện cho từ giả thuyết, có nghĩa là giả thuyết, là một khái niệm lâu đời trong thống kê. Để mô hình chính xác, sai số giữa giá trị dự đoán (hat{y}) và giá trị thực (y) phải nhỏ hơn. Vậy làm cách nào để đo lường mức độ sai số nhỏ giữa (hat{y}) và (y)? Các thuật toán học có giám sát trong học máy sử dụng các hàm mất mát để định lượng lỗi này.

Hàm mất mát cũng là mục tiêu tối ưu khi huấn luyện mô hình. Dữ liệu đầu vào (mathbf{x}) và (y) được coi là cố định và các biến của bài toán tối ưu là các giá trị trong vectơ (mathbf{w}).

Giá trị của hàm mất mát mse là giá trị trung bình của tổng bình phương còn lại. Phần còn lại là sự khác biệt giữa giá trị thực tế và giá trị dự đoán. Việc giảm thiểu chức năng mất mát nhằm mục đích làm cho sự khác biệt giữa giá trị dự đoán và giá trị thực tế nhỏ, và giá trị thực tế còn được gọi là sự thật cơ bản. Trước khi đào tạo mô hình, chúng tôi không biết vectơ hệ số (mathbf{w}) là gì. Chúng ta chỉ có thể giả định dạng của hàm dự đoán (trong trường hợp này là một phương trình tuyến tính) và các hệ số hồi quy tương ứng. Do đó, mục đích của việc giảm thiểu hàm mất mát là tìm tham số (mathbf{w}) phù hợp nhất để mô tả một cách tổng quát mối quan hệ dữ liệu giữa biến đầu vào (mathbf{x) }) và biến đích trên biến tập huấn luyện (mathbf{y}).

Tuy nhiên, mối quan hệ này thường không mô tả được các quy luật chung của dữ liệu, do đó dẫn đến tình trạng khớp quá mức. Một trong những lý do tại sao một mô hình không thể khái quát hóa là mô hình quá phức tạp. Như thể hiện trong hình bên dưới, khi độ lớn của các hệ số bậc cao trong mô hình hồi quy có xu hướng càng lớn thì độ phức tạp càng cao:

Hình 2: Hình này cho thấy mức độ phức tạp của mô hình dưới dạng chức năng của trật tự. Phương trình phức tạp nhất là phương trình bậc ba: (y = w_0 + w_1 x + w_2 x^2 + w_3 x^3). Trong chương trình thpt ta đã biết một phương trình bậc ba thông thường sẽ có 2 điểm uốn và độ phức tạp lớn hơn một phương trình bậc hai chỉ có 1 điểm uốn. Khi (w_3 rightarrow 0) thì phương trình bậc hai quy về phương trình bậc hai: (y = w_0 + w_1 x + w_2 x^2), lúc này phương trình là một parabol và độ phức tạp giảm đi. Tiếp tục khống chế biên độ sao cho (w_2 rightarrow 0) trong phương trình bậc hai sẽ nhận được đường thẳng có dạng (y = w_0 + w_1 x) với độ phức tạp thấp nhất.

Vì vậy, việc kiểm soát kích thước của công cụ ước lượng, đặc biệt là công cụ ước lượng bậc cao, sẽ giúp giảm độ phức tạp của mô hình, từ đó khắc phục hiện tượng overfitting. Vậy làm thế nào để kiểm soát chúng, mời các bạn xem các chap sau.

Kiểm tra tiếng Anh trực tuyến

Bạn đã biết trình độ tiếng Anh hiện tại của mình chưa?
Bắt đầu làm bài kiểm tra

Nhận tư vấn lộ trình từ ACET

Hãy để lại thông tin, tư vấn viên của ACET sẽ liên lạc với bạn trong thời gian sớm nhất.