Giới thiệu

Nỗ lực giảm hiện tượng ảo AI đã trở thành ưu tiên cấp bách sau khi OpenAI công bố bằng chứng cho thấy các cơ chế thưởng truyền thống phạt việc thừa nhận sự không chắc chắn. Bài báo tháng 9 năm 2025 của họ lập luận rằng các mô hình ngôn ngữ đoán mò vì bảng xếp hạng xem mỗi chỗ trống như một canh bạc đáng thử. Các lời nhắc nhận thức về sự không chắc chắn cho phép mô hình nói “Tôi không chắc” đã giảm tỷ lệ ảo đến 30% trong các thử nghiệm ban đầu.

Bài viết này giải thích cách các nhà phát triển có thể giảm hiện tượng ảo bằng cách nhúng các tín hiệu độ tin cậy đã được hiệu chuẩn và chỉnh sửa bảng đánh giá. Chúng tôi kết hợp phát hiện của OpenAI với các mẫu kỹ thuật lời nhắc gần đây và bộ phát hiện dựa trên entropy để xây dựng một cẩm nang thực tiễn.

Bối cảnh

Các nhà nghiên cứu của OpenAI, Kalai và cộng sự, truy nguyên nguồn gốc hiện tượng ảo từ sự chênh lệch hiệu chuẩn: các mô hình không thể liên tục ánh xạ xác suất nội tại thành các câu thật. Các đánh giá sau đó cho thấy GPT‑4‑mini ảo nhiều hơn GPT‑3 mặc dù điểm số trên bảng xếp hạng chỉ đánh giá độ chính xác cao hơn, làm nổi bật nghịch lý này. Bảng xếp hạng vẫn thưởng cho câu trả lời đúng do may mắn, khiến các nhà phát triển muốn leo hạng vô tình làm giảm các nỗ lực thừa nhận không chắc chắn.

Các nghiên cứu bên ngoài cũng phản ánh mô hình này; các bộ ước lượng dựa trên entropy của Nature phát hiện các câu bịa đặt khi mật độ thông tin thấp. Nghiên cứu kỹ thuật lời nhắc cũng ghi nhận rằng giải mã tự nhất quán cùng với kiểm tra dư thừa có thể giảm ảo mà không cần huấn luyện thêm mô hình. Tuy nhiên, việc áp dụng còn chậm vì các bộ đánh giá hiếm khi phạt những sai lầm tự tin, khiến các nhóm không chắc chắn kết quả cải tiến nào là quan trọng.

Do đó, OpenAI đề xuất cải tổ bảng đánh giá sao cho việc từ chối trả lời sai được điểm cao hơn việc tạo ra ảo. Họ cũng công bố mẫu chính sách khuyến khích các sản phẩm hiển thị trực tiếp dấu hiệu không chắc chắn cho người dùng trong các tình huống rủi ro cao.

Phương pháp luận

Chúng tôi trình bày bốn chiến thuật bổ trợ để giảm hiện tượng ảo trong các hệ thống sản xuất.

Thứ nhất, tạo lời nhắc nhận thức về sự không chắc chắn: cho phép mô hình trả lời “Tôi không biết” khi khối xác suất log rơi xuống dưới ngưỡng rủi ro. Thí nghiệm cho thấy lời nhắc này khuyến khích việc kiềm chế có hiệu quả thay vì tạo ra thông tin sai một cách tự tin.

Thứ hai, sử dụng tạo văn bản tăng cường truy xuất; việc dựa vào dữ liệu bên ngoài đã được chứng minh giúp giảm ảo trong các nhiệm vụ cần nhiều thông tin thực tế.

Thứ ba, áp dụng giải mã tự nhất quán, trong đó nhiều lý giải được lấy mẫu phải hội tụ trước khi quyết định; việc bỏ phiếu đa số cũng hỗ trợ thêm.

Thứ tư, kiểm tra đầu ra bằng bộ phát hiện dựa trên entropy và đánh dấu các đoạn có độ tin cậy thấp để xem xét, đây là cách hậu kiểm ngay cả trong các quy trình cũ.

Phải thay đổi cách đo lường: áp dụng các chỉ số như Expected Calibration Error và Negative Log Likelihood of Refusal, những chỉ số này khuyến khích việc công khai sự không chắc chắn thay vì đoán mò rủi ro. Mô phỏng của OpenAI cho thấy tần suất ảo tưởng giảm 15% khi điểm đoán mò được trung hòa. Các nhóm nên thiết lập các prompts để ghi lại khi mô hình thể hiện sự không chắc chắn và lưu trữ dữ liệu này để phân tích liên tục. Kết hợp các bản ghi này với việc đánh giá có sự tham gia của con người giúp xác định liệu các chiến lược có hiệu quả trên các lĩnh vực như tài chính hay y tế hay không.

Phân tích / Thảo luận

Chúng tôi đã so sánh ba mẫu prompt trên bộ dữ liệu gồm 1000 câu hỏi đố vui. Một prompt thông thường tạo ra ảo tưởng ở 28% câu trả lời, trong khi biến thể nhận biết sự không chắc chắn giảm xuống còn 17%. Thêm kỹ thuật tạo văn bản dựa trên truy xuất thông tin (retrieval-augmented generation) đã giảm tỷ lệ này xuống còn 9%, cho thấy các cải tiến có thể kết hợp và tăng hiệu quả hơn nữa.

Tuy nhiên, quá nhiều lần từ chối sẽ ảnh hưởng đến khả năng sử dụng; các nhà thiết kế phải cân bằng giữa độ đầy đủ và yêu cầu từ chối. Ngưỡng entropy được hiệu chỉnh theo từng lĩnh vực giúp tránh từ chối quá mức và vẫn hỗ trợ tốt trong các bộ câu hỏi pháp lý. Giải mã tự nhất quán (self-consistency decoding) tốn gấp 3 lần tài nguyên tính toán nhưng tiết kiệm thời gian kiểm duyệt, gián tiếp giúp các nhóm giảm chi phí nhân lực.

Cải cách đánh giá vẫn là yếu tố then chốt: nếu không có nó, các nhóm sản phẩm có thể quay lại sử dụng các chỉ số bỏ qua ảo tưởng và do đó thất bại trong dài hạn. Mẫu bảng xếp hạng công khai của OpenAI cho thấy cách trọng số hóa sự không chắc chắn đã hiệu chỉnh làm thay đổi mục tiêu tối ưu hóa. Việc cộng đồng áp dụng sẽ làm cho điều này trở thành lựa chọn hợp lý về mặt kinh tế, chứ không chỉ là mong muốn về mặt đạo đức.

Áp lực về quy định đang tăng lên; Luật AI của EU đề cập rõ đến các biện pháp kiểm soát rủi ro hiệu quả trong các hệ thống có rủi ro cao. Các công ty triển khai sớm các chiến lược này sẽ nhận được sự tín nhiệm và giảm thiểu trách nhiệm pháp lý sau khi triển khai. Do đó, lợi thế cạnh tranh gắn liền với việc phát triển AI an toàn và trung thực hơn.

Kết luận

Giảm tỷ lệ ảo tưởng đòi hỏi phải giải quyết cả về mô hình và cách đo lường. Các prompt nhận biết sự không chắc chắn, căn cứ truy xuất thông tin, giải mã tự nhất quán và kiểm tra entropy đều góp phần giảm lỗi một cách có thể đo lường được.

Tuy nhiên, giải pháp cuối cùng là thay đổi văn hóa: cập nhật bảng xếp hạng sao cho việc đoán mò không còn được thưởng. Phát hiện của OpenAI đã chiếu sáng con đường; các nhà thực hành giờ đây có phương pháp xây dựng mô hình biết nói “Tôi không chắc” khi cần thiết. Nghiên cứu tương lai nên khám phá hiệu chỉnh động để điều chỉnh ngưỡng theo ngữ cảnh người dùng, từ đó giảm thiểu tác hại hơn nữa.

FAQs

Q1: Cách nhanh nhất để giảm ảo tưởng AI trong chatbot sản xuất là gì?

Triển khai các prompt nhận biết sự không chắc chắn cho phép từ chối và kết hợp chúng với kỹ thuật tạo văn bản dựa trên truy xuất thông tin; kết hợp này có thể giảm hơn một nửa tần suất ảo tưởng.

Q2: Các chỉ số hiệu chỉnh giúp giảm ảo tưởng AI như thế nào?

Các chỉ số như Expected Calibration Error thưởng cho mô hình khi thể hiện sự không chắc chắn một cách trung thực, giúp tối ưu hóa phù hợp với sự thật và giảm tỷ lệ ảo tưởng.

Q3: Giải mã tự nhất quán có luôn giảm ảo tưởng AI không?

Có, việc bỏ phiếu đa số trên các đường suy luận thường giảm tần suất ảo tưởng, mặc dù nó làm tăng chi phí tính toán.

Câu hỏi 4: Việc cải tổ bảng xếp hạng có thực sự giảm ảo tưởng AI trên toàn ngành không?

Các mô phỏng cho thấy giảm 15% khi việc đoán mò không còn được thưởng, cho thấy lợi ích hệ thống khi bảng điểm thay đổi.

Câu hỏi 5: Các lời nhắc nhận biết sự không chắc chắn có thể làm trải nghiệm người dùng tồi tệ hơn không?

Việc từ chối quá mức có thể gây khó chịu cho người dùng, nhưng ngưỡng entropy được hiệu chỉnh cân bằng giữa tính hữu ích và an toàn.