Phó Giáo sư, Trường Kinh doanh EM Lyon
Huỳnh Thiện Quốc Việt dịch
Nguồn: Comment nous sommes contributeurs des modèles d’IA à notre insu, The Conversation, ngày 21 tháng 6 năm 2023
Bạn đã bao giờ tự hỏi mục đích của các hệ thống phát hiện “rô bốt” trên các trang web, khi được yêu cầu xác định, trên một bức hình, một lối đi dành cho người đi bộ, một chốt đèn giao thông hoặc một con vật cụ thể nào đó chưa? Bên cạnh đó, hệ thống sẽ xác minh các câu trả lời được đưa ra như thế nào? Và trên hết, các dữ liệu này được sử dụng như thế nào?
Kỹ thuật này đã được tạo ra vào giữa những năm 1990, hệ thống đã được cụ thể hóa và thuật ngữ đã được các nhà nghiên cứu tại Đại học Canegie-Mellon ở Hoa Kỳ phát minh và đăng ký bản quyền vào năm 2000 trong phiên bản đầu tiên, với mục đích là xác định người dùng là con người.
Sau đó, các hệ thống theo kiểu CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart — Phép thử Turing công cộng hoàn toàn tự động để phân biệt máy tính với người) đã được Google phổ biến hóa vào năm 2009. Thiết bị CAPTCHA hoặc reCAPTCHA (tên gọi hệ thống CAPTCHA của Google) là một phần của họ các phép thử Turing. Đó là một biện pháp bảo mật bằng việc phát hiện người dùng đúng là con người. Mục tiêu chính là hạn chế quyền truy cập và tương tác của các “rô-bốt” kỹ thuật số, các chương trình máy tính tự động (còn được gọi là “bot”), bằng mọi phiếu điền trực tuyến bất kỳ thông tin nào. Ví dụ, biện pháp bảo mật ngăn chặn các nỗ lực lặp đi lặp lại để kết nối với một trang web, giải mã mật khẩu của bạn khi bạn xác thực bản thân trực tuyến, tự động điền vào một biểu mẫu, v.v..
Ví dụ về reCAPTCHA. Google |
Đầu tiên ở dạng một bản văn viết tay cần phải ghi chép lại, hoặc thêm nữa là số một đường phố cần được xác định từ một bức ảnh, các hệ thống của ngày nay sử dụng nhiều hơn khả năng nhận dạng trực quan một đối tượng trong một tập hợp các hình ảnh hoặc trong cùng một hình ảnh. Hệ thống reCAPTCHA được Google cung cấp miễn phí cho các nhà quản lý trang web, cũng như cho người dùng.
Lợi ích đối với Google
Tất nhiên, bản chất miễn phí [của hệ thống] là hữu ích. Tuy nhiên, nó cũng phục vụ lợi ích của Google. Mặc dù việc sử dụng hệ thống như một biện pháp bảo mật là điều không thể phủ nhận, nhưng việc sử dụng rộng rãi hệ thống cũng góp phần nhận dạng nội dung. Đây được gọi là giai đoạn ghi nhãn, điều cần thiết để cung cấp cho các mô hình học tập bằng AI, và đặc biệt cho kỹ thuật Học máy.
Ví dụ: ngay từ năm 2011, hệ thống reCAPTCHA đã giúp số hóa toàn bộ các kho lưu trữ của Google Books, cũng như 13 triệu bài báo từ danh mục New York Times đã có từ năm 1851. Nhưng kể từ năm 2017, các mô hình học tập đã được chứng minh là có khả năng giải các phép thử CAPTCHA ban đầu dựa trên hình ảnh của văn bản. Phiên bản thứ hai nghiêng nhiều hơn về việc sử dụng hình ảnh hoặc các mảnh hình ảnh, như hình thứ hai được minh họa trong bài viết này.
Học máy là gì và nó hoạt động như thế nào?
Các mô hình Học Máy [Machine Learning, trong tiếng Anh] là một trong các mảng được sử dụng nhiều nhất ngày nay trong lĩnh vực trí tuệ nhân tạo. Còn được gọi, một cách phổ biến, là “apprentissage machine” [học máy, trong tiếng Pháp], cách tiếp cận này cho phép luyện tập một mô hình, trong trường hợp của chúng ta là nhận diện một văn bản từ một tập hợp dữ liệu ban đầu được cung cấp cho mô hình. Từ các dữ liệu đầu vào này, mô hình sẽ xác định, theo toán học, một tập hợp các tiêu chí cho phép ước tính một xác suất của sự tương tự. Mô hình càng có một khối lượng lớn và đa dạng lớn các dữ liệu đầu vào, thì càng làm phong phú thêm định nghĩa về các tiêu chí đánh giá này. Nhưng một mô hình theo kiểu này được thiết kế để nhận diện một yếu tố cụ thể (một vật dụng, một khuôn mặt, một hành vi, một chuyển động của các quỹ tài chính, v.v.) được xác định ngay từ khi được thiết kế ban đầu.
Trong phương pháp học việc có giám sát, chính người thiết kế mô hình là người xác định các tiêu chí đánh giá, bằng cách cung cấp một tập hợp các dữ liệu luyện tập được xác định trước. Việc xác định trước này tương ứng với việc ghi nhãn các dữ liệu đầu vào. Do đó, trong quá trình luyện tập, mô hình sẽ liên kết với những dữ liệu được cung cấp với quá trình ghi nhãn cụ thể để xây dựng một ma trận các tiêu chí.
Vì thế, quá trình ghi nhãn các dữ liệu đầu vào là một yếu tố thiết yếu cho kỹ thuật luyện tập, đặc biệt là các mô hình nhận diện hình ảnh.
Một thách thức tầm cỡ trong việc luyện tập các mô hình AI
Khối lượng và sự đa dạng các dữ liệu được thu thập ngày nay là rất khổng lồ, và quá trình ghi nhãn này không thể được thực hiện một cách tự động chỉ bằng một cỗ máy. Do đó, cần có sự can thiệp của con người để xử lý và dán nhãn toàn bộ các dữ liệu này.
Đây là điều sẽ xảy ra khi sử dụng một hệ thống theo kiểu reCAPTCHA. Ví dụ, hệ thống thu thập những đóng góp của mỗi người, để dán nhãn và phân loại các hình ảnh được từng người đề xuất. Máy sẽ tiến hành xử lý trước, nhưng sự can thiệp của con người sẽ giúp xác nhận sự phân loại ban đầu này. Gia tăng tác động của sự can thiệp của con người với số lượng người sử dụng hệ thống, bằng cách thay đổi các đề xuất hình ảnh, và như thế bạn sẽ có được một hệ thống xác nhận được tối ưu hóa với chi phí thấp. Việc làm tăng tác động này của là điều cần thiết để đảm bảo càng nhiều càng tốt tính xác thực của dữ liệu được thu thập. Thật vậy, chất lượng của dữ liệu đầu vào cho các mô hình này là điều thiết yếu, và là một trong những thách thức chính hiện nay trong thiết kế và sử dụng thích đáng các mô hình trí tuệ nhân tạo.
Do đó, các quy trình dán nhãn này góp phần cải thiện các dữ liệu luyện tập cho Google Maps, công cụ tìm kiếm hình ảnh của Google hoặc hay cả cho các mô hình mà cuối cùng có thể được các phương tiện tự hành (và đặc biệt là dự án Waymo của Google) sử dụng.
Người lao động nhấp chuột
Một phần các công việc trên được người sử dụng web thực hiện hàng ngày mà không hề hay biết, như đã thấy trên đây. Tuy nhiên, cũng có một số hành động được thực hiện theo dây chuyền bởi những người được trả lương rất thấp và cho công việc cần làm, như một cuộc điều tra được Tạp chí Time công bố về những người lao động Nigeria, những người góp gần tạo ra ChatGPT, đã tiết lộ mới đây.
Giới lao động nhấp chuột này là một phần không thể thiếu đối với sự vận hành tốt của các mô hình AI này. Antonio Casilli, nhà nghiên cứu và giáo sư xã hội học tại Telecom Paris, từ lâu, đã nghiên cứu chủ đề này, đặc biệt nêu bật cách tiếp cận này và thực tiễn hoạt động của các nền tảng kỹ thuật số như Google (Alphabet), Facebook (Meta), hay cả Amazon nữa.
Antonio Casilli (1972-) |
Tuy nhiên, rất khó để xác định vai trò của người này hay người kia trong toàn bộ hệ thống và các tác nhân tham gia ngày nay.
Có vẻ như hình thức lao động vi mô có trả công này, khi mà sự đóng góp của người sử dụng hệ thống (không được trả công), là điều cần thiết để cung cấp cho các mô hình mà chúng ta đã biết, và cũng bao gồm nhiều khía cạnh đóng góp khác nhau. Như Poala Tubaro, Antonio Casilli và Marion Coville đã giải thích trong một bài báo được đăng vào năm 2020, những đóng góp này khiến một bộ phận đáng kể giới lao động kỹ thuật số bị gạt ra bên lề và lâm vào tình trạng bấp bênh.
Những lựa chọn thay thế cho các hệ thống này
Có những lựa chọn thay thế cho hệ thống reCAPTCHA, tuy nhiên hệ thống này vẫn được sử dụng rất rộng rãi. Ví dụ: chúng tôi có thể kể ra những giải pháp theo kiểu Puzzle CAPTCHA, hoặc hCAPTCHA. Tuy nhiên, các lựa chọn thay thế này thường yêu cầu hoặc một sự triển khai thực hiện của người quản lý trang web, hoặc một mức đóng góp tài chính, so với sự miễn phí của reCAPTCHA do Google cung cấp.
Về phần mình, Google cũng đang nghiên cứu phiên bản mới của giải pháp reCAPTCHA (v3). Phiên bản này sẽ giúp khắc phục tình trạng gián đoạn sự trình duyệt web do v2 áp đặt với các hộp thoại popup, bằng cách tính điểm để xác định xem liệu hành vi được quan sát thấy trên một trang web có liên kết nhiều hơn với một người hay với một bot không.
Tác giả
Benoit Loeillet |
Là chuyên gia về các phương pháp tiến hành đổi mới hợp tác, Benoit Loeillet đặc biệt quan tâm đến việc quản trị dữ liệu (công cộng, tư nhân và cá nhân) và các chiến lược tạo ra giá trị liên kết. Benoit Loeillet đã phát triển trình độ chuyên môn của mình qua nhiều năm kinh nghiệm hỗ trợ các doanh nghiệp và định chế, đặc biệt qua việc tham gia tạo ra và phát triển trang mạng TUBÀ, một hiệp hội và không gian thứ ba có trụ sở chính đặt tại Lyon. Sự trung gian của kỹ thuật số, tiếp biến văn hóa và chiếm hữu các công cụ kỹ thuật số cũng là những chủ đề rất được quan tâm.
Tuyên bố công khai
Benoit Loeillet không làm việc, không tư vấn, không sở hữu cổ phần hoặc nhận tài trợ từ bất kỳ công ty hay tổ chức nào có thể hưởng lợi từ bài viết này, và tuyên bố không có bất cứ mối quan hệ nào khác ngoài công việc mang tính học thuật.