Điều này có thể gây ra các hậu quả khó lường trong tương lai khi cách làm sẽ làm các mô hình AI mắc nhiều lỗi hơn nữa.
Không chỉ các thuật toán phức tạp tinh vi, một phần không thể thiếu trong công nghệ AI ngày nay là nhập vào dữ liệu để huấn luyện các mô hình AI. Một công việc đơn giản, phần lớn được thực hiện bởi con người. Thế nhưng sự phát triển của công nghệ AI đã đạt tới mức có thể thay thế phần nào con người trong cả lĩnh vực này.
Một nghiên cứu mới nhận thấy, một lượng đáng kể những người được giao nhiệm vụ huấn luyện AI lại đang để AI làm chính công việc đó cho họ. Và điều này có thể gây ra những hệ lụy khó lường trong tương lai.
Sự trớ trêu của phương pháp huấn luyện AI hiện nay
Để đảm bảo các mô hình AI thực hiện các tác vụ cụ thể nào đó một cách chính xác và đáng tin cậy, chúng phải được huấn luyện trên một lượng dữ liệu khổng lồ. Do vậy, nhiều công ty tìm đến lực lượng lao động thời vụ trên các nền tảng như Mechanical Turk để hoàn thành công việc này.
Các công việc này thường liên quan đến nhập CAPTCHA, gắn nhãn dữ liệu và giải thích văn bản – vốn khó có thể tự động hóa mà thường phải làm thủ công. Các dữ liệu này sau đó sẽ được nạp vào các mô hình AI để huấn luyện chúng. Những người làm công việc này thường được trả công bèo bọt và luôn muốn hoàn thành càng nhiều công việc càng tốt để tối đa thu nhập của mình.
Do vậy, không khó hiểu tại sao nhiều người trong số họ đang tìm đến các công cụ như ChatGPT – vốn được xây dựng nên dựa trên nguồn dữ liệu do những người do họ nạp vào – để tối đa hóa thu nhập của mình. Nhưng bao nhiêu người đã chuyển sang sử dụng công cụ thay vì làm thủ công?
Để tìm hiểu điều này, một nhóm các nhà nghiên cứu đến từ Học viện Công nghệ Liên bang Thụy Sỹ (EPFL) đã thuê 44 người từ nền tảng lao động thời vụ Amazon Mechanical Turk để tóm tắt 16 đoạn trích từ các báo cáo nghiên cứu y tế. Sau đó họ phân tích các câu trả lời bằng cách sử dụng một mô hình AI do họ tự huấn luyện để tìm kiếm các dấu hiệu cho thấy sự can thiệp của ChatGPT, ví dụ ngôn từ kém đa dạng. Họ cũng trích xuất số lần gõ phím của người nhận công việc này nhằm xác định xem liệu họ đã tự trả lời hay dùng thao tác Copy-Paste.
Nghiên cứu này cho thấy, ước tính khoảng 33% đến 46% các lao động thời vụ sử dụng những mô hình AI như ChatGPT của OpenAI để hoàn thành công việc. Theo các tác giả của nghiên cứu này, tỷ lệ trên nhiều khả năng còn cao hơn nữa khi các mô hình như ChatGPT và các mô hình AI khác trở nên ngày càng mạnh mẽ hơn cũng như dễ tiếp cận hơn.
“ Tôi không nghĩ đây là dấu chấm hết của những nền tảng tìm việc theo đám đông. Nó chỉ thay đổi động lực của mình .” Robert West, giáo sư tại Trường EPFL, đồng tác giả của nghiên cứu này cho biết.
Các hậu quả khó lường
Tuy nhiên việc sử dụng chính các mô hình AI để huấn luyện AI lại có thể gây ra các hậu quả khó lường ví dụ gây ra tỷ lệ lỗi cao hơn – trong khi các mô hình vốn đã có xu hướng gây lỗi. Trên thực tế, các mô hình ngôn ngữ lớn thường xuyên đưa ra các thông tin sai.
Nếu chúng sản sinh ra các dữ liệu không chính xác và lại dùng các dữ liệu đó để huấn luyện các mô hình AI khác, tỷ lệ lỗi cũng như mức độ sai lệch trong những mô hình đó sẽ càng nghiêm trọng hơn và được khuếch đại theo thời gian. Điều này càng khiến cho việc tra cứu ngược nguồn gốc của thông tin sai lệch sẽ càng trở nên khó khăn hơn, Illia Shumailov, một nhà nghiên cứu về khoa học máy tính tại Đại học Oxford cho biết.
Tồi tệ hơn, cũng không dễ để sửa chữa được vấn đề này. Shumailov cho biết: “ Vấn đề là, khi bạn sử dụng dữ liệu nhân tạo, bạn sẽ mắc phải các lỗi do việc hiểu sai mô hình và các lỗi thống kê. Bạn cần đảm bảo rằng các lỗi này không làm sai lệch đầu ra của những mô hình khác và không có cách đơn giản nào để làm được điều đó .”
Nghiên cứu nhấn mạnh sự cần thiết của những cách làm mới để kiểm tra xem liệu dữ liệu được nhập vào là của con người hay AI. Nó cũng nhấn mạnh một trong những vấn đề đối với việc các công ty công nghệ đang dựa vào các lao động thời vụ giá rẻ để làm những công việc quan trọng như nạp dữ liệu vào cho các hệ thống AI.
“Tôi không nghĩ mọi thứ sẽ sụp đổ.” Ông West cho biết. “ Nhưng tôi nghĩ cộng đồng AI sẽ phải điều tra kỹ lưỡng những nhiệm vụ nào dễ tự động hóa nhất và tìm cách ngăn chặn điều này .”
Không chỉ các thuật toán phức tạp tinh vi, một phần không thể thiếu trong công nghệ AI ngày nay là nhập vào dữ liệu để huấn luyện các mô hình AI. Một công việc đơn giản, phần lớn được thực hiện bởi con người. Thế nhưng sự phát triển của công nghệ AI đã đạt tới mức có thể thay thế phần nào con người trong cả lĩnh vực này.
Một nghiên cứu mới nhận thấy, một lượng đáng kể những người được giao nhiệm vụ huấn luyện AI lại đang để AI làm chính công việc đó cho họ. Và điều này có thể gây ra những hệ lụy khó lường trong tương lai.
Sự trớ trêu của phương pháp huấn luyện AI hiện nay
Để đảm bảo các mô hình AI thực hiện các tác vụ cụ thể nào đó một cách chính xác và đáng tin cậy, chúng phải được huấn luyện trên một lượng dữ liệu khổng lồ. Do vậy, nhiều công ty tìm đến lực lượng lao động thời vụ trên các nền tảng như Mechanical Turk để hoàn thành công việc này.
Các công việc này thường liên quan đến nhập CAPTCHA, gắn nhãn dữ liệu và giải thích văn bản – vốn khó có thể tự động hóa mà thường phải làm thủ công. Các dữ liệu này sau đó sẽ được nạp vào các mô hình AI để huấn luyện chúng. Những người làm công việc này thường được trả công bèo bọt và luôn muốn hoàn thành càng nhiều công việc càng tốt để tối đa thu nhập của mình.
Do vậy, không khó hiểu tại sao nhiều người trong số họ đang tìm đến các công cụ như ChatGPT – vốn được xây dựng nên dựa trên nguồn dữ liệu do những người do họ nạp vào – để tối đa hóa thu nhập của mình. Nhưng bao nhiêu người đã chuyển sang sử dụng công cụ thay vì làm thủ công?
Để tìm hiểu điều này, một nhóm các nhà nghiên cứu đến từ Học viện Công nghệ Liên bang Thụy Sỹ (EPFL) đã thuê 44 người từ nền tảng lao động thời vụ Amazon Mechanical Turk để tóm tắt 16 đoạn trích từ các báo cáo nghiên cứu y tế. Sau đó họ phân tích các câu trả lời bằng cách sử dụng một mô hình AI do họ tự huấn luyện để tìm kiếm các dấu hiệu cho thấy sự can thiệp của ChatGPT, ví dụ ngôn từ kém đa dạng. Họ cũng trích xuất số lần gõ phím của người nhận công việc này nhằm xác định xem liệu họ đã tự trả lời hay dùng thao tác Copy-Paste.
Nghiên cứu này cho thấy, ước tính khoảng 33% đến 46% các lao động thời vụ sử dụng những mô hình AI như ChatGPT của OpenAI để hoàn thành công việc. Theo các tác giả của nghiên cứu này, tỷ lệ trên nhiều khả năng còn cao hơn nữa khi các mô hình như ChatGPT và các mô hình AI khác trở nên ngày càng mạnh mẽ hơn cũng như dễ tiếp cận hơn.
“ Tôi không nghĩ đây là dấu chấm hết của những nền tảng tìm việc theo đám đông. Nó chỉ thay đổi động lực của mình .” Robert West, giáo sư tại Trường EPFL, đồng tác giả của nghiên cứu này cho biết.
Các hậu quả khó lường
Tuy nhiên việc sử dụng chính các mô hình AI để huấn luyện AI lại có thể gây ra các hậu quả khó lường ví dụ gây ra tỷ lệ lỗi cao hơn – trong khi các mô hình vốn đã có xu hướng gây lỗi. Trên thực tế, các mô hình ngôn ngữ lớn thường xuyên đưa ra các thông tin sai.
Nếu chúng sản sinh ra các dữ liệu không chính xác và lại dùng các dữ liệu đó để huấn luyện các mô hình AI khác, tỷ lệ lỗi cũng như mức độ sai lệch trong những mô hình đó sẽ càng nghiêm trọng hơn và được khuếch đại theo thời gian. Điều này càng khiến cho việc tra cứu ngược nguồn gốc của thông tin sai lệch sẽ càng trở nên khó khăn hơn, Illia Shumailov, một nhà nghiên cứu về khoa học máy tính tại Đại học Oxford cho biết.
Tồi tệ hơn, cũng không dễ để sửa chữa được vấn đề này. Shumailov cho biết: “ Vấn đề là, khi bạn sử dụng dữ liệu nhân tạo, bạn sẽ mắc phải các lỗi do việc hiểu sai mô hình và các lỗi thống kê. Bạn cần đảm bảo rằng các lỗi này không làm sai lệch đầu ra của những mô hình khác và không có cách đơn giản nào để làm được điều đó .”
Nghiên cứu nhấn mạnh sự cần thiết của những cách làm mới để kiểm tra xem liệu dữ liệu được nhập vào là của con người hay AI. Nó cũng nhấn mạnh một trong những vấn đề đối với việc các công ty công nghệ đang dựa vào các lao động thời vụ giá rẻ để làm những công việc quan trọng như nạp dữ liệu vào cho các hệ thống AI.
“Tôi không nghĩ mọi thứ sẽ sụp đổ.” Ông West cho biết. “ Nhưng tôi nghĩ cộng đồng AI sẽ phải điều tra kỹ lưỡng những nhiệm vụ nào dễ tự động hóa nhất và tìm cách ngăn chặn điều này .”
Theo Genk