Are GPT detectors accurate enough to catch AI writing reliably?

They’re decent at flagging unedited AI text, but they falter with short passages, paraphrased AI, and polished human writing. Use them as a nudge to review, not a final verdict.

How can I test the accuracy of a GPT detector myself?

Run a small study with four buckets: pure human, pure AI, human-edited AI, and obfuscated AI. Measure precision and recall, and note false positives on your own real samples.

Why did my original essay get flagged as AI?

Clean, consistent prose can look “too smooth,” and ESL patterns are sometimes misread as AI artifacts. Defend your work with drafts, timestamps, sources, and a quick chat about your process.

Can I make AI text pass as human with a few tweaks?

Often, yes. Paraphrasing, adding personal details, and varying sentence rhythm can fool detectors. That’s why scores alone shouldn’t be used to punish or reject work.

What’s a fair policy for using GPT detectors in class or hiring?

Publish that detectors are one data point among several, never a sole basis for penalties. Require corroboration, allow appeals with draft evidence, and prioritize substance over style.

Bolehkah Anda Benar-benar Mengenal Pasti Penulisan AI? Menguji Pengesan GPT (Tanpa Hilang Akal)

Pernah cuba mengesan robot dalam bilik yang sesak?

Beberapa bulan lalu, seorang rakan guru menghantar teks lewat malam kepada saya yang berbunyi, "Saya rasa separuh daripada esei saya ditulis oleh robot." Dia telah memasukkan kertas kerja pelajarnya ke dalam salah satu pengesan GPT—perkhidmatan yang mendakwa mereka boleh memberitahu sama ada teks itu datang daripada manusia atau AI seperti ChatGPT—dan bacaan itu menyala seperti pokok Krismas. Bendera merah di mana-mana. Panik. Tuduhan. Semua itu.

Tetapi inilah kelainannya: dua daripada esei yang ditandakan datang daripada kanak-kanak yang menulis seperti mereka sedang uji bakat untuk The New Yorker. Anak-anak ajaib yang sebenar. Jika anda sudah mendengar bunyi "Law & Order" dalam kepala anda, anda tidak bersendirian.

Jadi saya melakukan apa yang akan dilakukan oleh mana-mana kutu buku yang ingin tahu dengan kecenderungan terhadap keadilan: Saya menghabiskan seminggu untuk menguji pengesan GPT. Bolehkah mereka benar-benar membezakan penulisan manusia daripada penulisan AI? Bagaimanakah mereka berfungsi? Patutkah guru, editor, atau pengurus pengambilan pekerja mempercayai mereka? Dan apa yang berlaku apabila mereka salah?

Spoiler: mereka bukan pengesan pembohongan. Mereka adalah... pengesan aura. Dan aura itu lembik.

Apa yang kami maksudkan dengan "menguji ketepatan pengesan GPT"

Mari kita sediakan pentas. Apabila orang bercakap tentang menguji ketepatan pengesan GPT, mereka biasanya mahukan jawapan kepada soalan yang sangat manusiawi:

Bolehkah saya menangkap esei yang dijana AI di dalam bilik darjah atau dalam pasukan saya?

Bolehkah saya memasukkan teks dengan selamat melalui pengesan dan mengambil tindakan berdasarkan skor?

Adakah terdapat langkah-langkah untuk membuat penulisan saya "lulus" sebagai manusia—walaupun ia adalah manusia?

Niat pengguna di sini adalah sebahagiannya skeptisisme, sebahagiannya panduan kelangsungan hidup. Anda mahukan cara untuk menguji sama ada pengesan anda bagus—sebaik-baiknya sebelum ia menjejaskan gred, permohonan kerja atau reputasi seseorang.

Artikel ini ialah lawatan praktikal anda. Kita akan:

Menjelaskan cara pengesan berfikir.

Jalankan pelan ujian DIY mudah yang boleh anda ulangi.

Terokai mod kegagalan (ia sangat teruk).

Tawarkan alternatif yang lebih bijak dan adil apabila taruhannya tinggi.

Saya akan memastikan ia mudah difahami dan praktikal—dan ya, sedikit nakal—kerana ini cukup mengelirukan tanpa Ph.D. dalam statistik.

Bagaimana pengesan GPT "meneka": penjelasan ringkas dan mesra manusia

Kebanyakan pengesan sebenarnya tidak tahu dari mana teks itu datang. Mereka melakukan pengecaman corak—mencari petanda statistik yang lebih biasa dalam teks AI daripada dalam teks manusia. Anggap ia seperti Sherlock Holmes untuk susunan perkataan.

Dua petunjuk besar yang dilihat oleh pengesan:

Kebolehramalan: AI cenderung menghasilkan urutan perkataan yang lebih lancar dan sangat mungkin. Bayangkan jalan yang tidak mempunyai lubang. Manusia, sebaliknya, tersandung, menyimpang, memasukkan metafora ganjil dan kadangkala menulis seperti mereka menghantar teks di atas roller coaster.

Kepelbagaian: Manusia menulis dalam letusan—ayat pendek diikuti dengan ayat panjang, perubahan mendadak dalam rentak. AI selalunya kedengaran konsisten, seperti ia telah pergi ke sekolah pesona.

Tangkapannya? Penulis manusia yang baik boleh menjadi lancar dan boleh diramal. Dan AI boleh disuruh "Tulis seperti manusia yang minum kopi dan mempunyai perasaan." Garisan menjadi kabur.

Juga: Pengesan yang berbeza melihat isyarat yang berbeza. Sesetengah menyemak kepelbagaian sintaks, yang lain menganalisis perkataan yang jarang atau entropi ayat. Tiada satu pun daripada mereka boleh mengesan pengarang seperti mana tera air boleh. Mereka adalah ahli meteorologi forensik, bukan makmal DNA.

Yang baik, yang buruk dan yang sangat salah: Apa yang pengesan betul (dan salah)

Di mana mereka bersinar: Triage pantas. Jika anda meneliti timbunan kandungan, pengesan boleh menyerlahkan teks yang mencurigakan generik, berulang atau sangat lancar—perlu dilihat dengan lebih dekat.

Di mana mereka tersandung: Pertimbangan yang mempunyai kepentingan tinggi. Pengesan boleh menuduh secara palsu penulis yang kuat (prosa yang jelas, konsisten, tersusun dengan baik) dan memberi laluan kepada AI jika anda menggoncang tombol (menambah kesalahan taip, menyusun semula ayat atau membuat parafrasa dengan tesaurus).

Masalah "positif palsu": Manusia sebenar ditandakan sebagai AI. Ini banyak berlaku kepada penulis ESL, penulis gaya formula dan sesiapa sahaja yang menyunting karya mereka menjadi perenggan yang bersih dan seimbang. Bayangkan diberitahu bahawa karya asal anda adalah palsu kerana ia... terlalu bagus.

Intinya: pengesan bukanlah keputusan; ia adalah petunjuk. Seperti pengesan asap anda apabila anda membakar roti bakar. Ya, ada asap. Tidak, rumah itu tidak semestinya terbakar.

Cara DIY yang boleh diulangi untuk menguji ketepatan pengesan GPT

Anda tidak memerlukan kot makmal. Anda hanya memerlukan pelan. Berikut ialah protokol mudah yang boleh anda lakukan di rumah yang boleh anda gunakan untuk menguji ketepatan pengesan GPT di dalam bilik darjah, bilik berita atau syarikat anda.

Buat empat baldi teks (kira-kira 300–500 patah perkataan setiap satu):

Manusia tulen: Sesuatu yang anda tulis dari awal. Simpan draf untuk membuktikannya.

AI tulen: Minta model GPT menulis tentang topik yang sama, tanpa suntingan.

Disunting manusia: Mulakan dengan draf AI, kemudian semak seperti manusia—tambah anekdot, susun semula perenggan, masukkan butiran peribadi.

AI dikaburkan: Ambil draf AI dan jalankan melalui parafrasa, pengocok sinonim dan pemisah ayat. Dail kekacauan.

Pilih 3–5 pengesan untuk diuji. Alat yang berbeza, aura yang berbeza.

Butakan label. Minta rakan sekerja menamakan semula fail A, B, C, D supaya anda tidak berat sebelah.

Jalankan setiap sampel melalui setiap pengesan. Rekod skor mentah dan label kategori (cth., "Kemungkinan AI," "Campuran," "Manusia").

Kira asas:

Positif Benar: AI ditandakan dengan betul sebagai AI.

Negatif Benar: Manusia ditandakan dengan betul sebagai manusia.

Positif Palsu: Manusia ditandakan sebagai AI.

Negatif Palsu: AI ditandakan sebagai manusia.

Kira ketepatan, ketelitian, ingatan semula:

Ketepatan = (TP + TN) / Jumlah.

Ketelitian (untuk AI) = TP / (TP + FP). Ini memberitahu anda: apabila ia mengatakan "AI," berapa kerapkah ia betul?

Ingatan semula (untuk AI) = TP / (TP + FN). Ini memberitahu anda: berapa banyak teks AI yang sebenarnya ditangkap?

Uji tekanan dengan pelbagai gaya:

Tambahkan penulisan ESL, penulisan yang sangat teknikal dan penulisan kreatif.

Sertakan teks manusia yang dibersihkan: diperiksa tatabahasa dan diformat dengan kemas.

Cuba coretan pendek (di bawah 150 patah perkataan). Banyak pengesan tercekik dengan ringkas.

Dokumen kes pinggir. Tangkapan skrin, contoh teks dan sejarah draf anda membantu anda memahami sebab—bukan sahaja skor.

Jika ketelitian pengesan rendah, itu bermakna ia melemparkan banyak manusia yang tidak bersalah di bawah bas. Jika ingatan semula rendah, AI terlepas. Jika kedua-duanya meh... baik, pengesan itu mungkin lebih seperti Magic 8-Ball daripada mikroskop.

Contoh praktikal: apa yang berlaku apabila anda mencucuk beruang

Katakan kita bertanya kepada AI: "Tulis 400 patah perkataan tentang sama ada skuter elektrik menjadikan bandar lebih baik." Hasil: esei yang tersusun dengan baik, sederhana dengan tiada kepentingan peribadi. Sekarang kita jalankan melalui tiga pengesan. Dua berkata "Kemungkinan AI." Satu berkata "Tidak jelas."

Sekarang kita tambahkan cap jari manusia:

Kami memasukkan anekdot khusus: "Saya terhempas di atas skuter di luar kedai roti, dan seorang lelaki berkostum pisang bertanya sama ada saya OK."

Kami mempelbagaikan panjang ayat. Masukkan soalan, kurungan dan satu baris yang menarik.

Kami memasukkan butiran tempatan, seperti persimpangan dan kos tiket parkir.

Jalankan lagi. Tiba-tiba pengesan berpecah: satu masih berkata "Kemungkinan AI," satu bertukar kepada "Manusia," dan satu berkata "Campuran."

Akhirnya, kita pergi pengaburan penuh pada teks AI asal—parafrasa, pemutar sinonim, serta beberapa kesalahan taip—dan pengesan kebanyakannya mengangkat bahu: "Kelihatan manusia."

Moral: jika alat anda boleh ditipu oleh kostum pisang dan kesalahan taip, ia mungkin belum bersedia untuk menjadi hakim, juri dan algojo GPA.

Mengapa manusia yang baik ditandakan sebagai bot

Prosa yang bersih adalah mencurigakan. Jika anda menulis ayat yang ketat, diperiksa tatabahasa dengan struktur yang konsisten, anda mungkin mencetuskan penggera "terlalu lancar".

Penulis ESL dihukum. Sesetengah pengesan tersilap menganggap corak bukan asli sebagai artifak AI. Ia adalah berat sebelah yang buruk—tidak adil dan mengecewakan.

Genre formulaik mengelirukan model. Surat berita, kemas kini korporat atau esei lima perenggan mempunyai rentak yang boleh diramal. Pengesan berfikir: kebolehramalan = AI.

Jawapan pendek adalah huru-hara. Dengan sampel kecil, matematik menjadi bising dan keyakinan menjunam. Pengesan selalunya berkata "AI" kerana mereka tidak pasti.

Jika pengesan memanggil karya seseorang AI, anggap ia seperti ramalan cuaca. Bawa payung, tetapi jangan batalkan perkahwinan.

Aliran kerja yang lebih bijak dan adil apabila taruhannya tinggi

Anda boleh menyimpan pengesan dalam tali pinggang alat—tetapi jangan jadikan mereka tukul untuk setiap paku.

Minta bukti proses. Draf, tera masa, nota dan sejarah semakan mengalahkan aura. Google Docs dan Microsoft Word kedua-duanya menjejaki sejarah versi; begitu juga banyak aplikasi pengambilan nota dan platform penulisan.

Gunakan gesaan yang disasarkan. Jika anda mengesyaki AI generik, tanya susulan: "Sumber manakah yang anda gunakan untuk dakwaan ini?" atau "Huraikan pengalaman peribadi anda yang berkaitan dengan perenggan dua." AI bergelut untuk membuat improvisasi kehidupan sebenar.

Nilaikan kandungan, bukan sahaja gaya. Butiran, sumber dan analisis asal lebih penting daripada rentak ayat.

Pertimbangkan semakan lisan. Perbualan selama dua minit—“Bimbing saya melalui hujah anda”—boleh mendedahkan sama ada idea itu didiami atau disalin-tampal dari eter.

Bersikap telus. Jika anda menggunakan pengesan di dalam kelas atau pengambilan pekerja, terbitkan dasar anda, ambang anda, proses rayuan anda dan risiko positif palsu. Cahaya matahari adalah pembasmi kuman terbaik.

Jika anda mesti menggunakan pengesan, laraskannya seperti penggera asap

Tetapkan ambang konservatif. Anggap "Kemungkinan AI" sebagai bendera untuk semakan—bukan sabitan.

Memerlukan pengesahan. Dua pengesan bersetuju, ditambah ketidakkonsistenan dalam draf, ditambah sumber yang hilang? Sekarang anda mempunyai kes.

Laraskan pada korpus anda sendiri. Suapkan pengesan sampel manusia sebenar daripada pasukan atau kelas anda untuk melihat berapa kerap ia menandakan orang anda secara palsu.

Elakkan sampel kecil. Di bawah 150–200 patah perkataan, keputusan menjadi goyah. Minta petikan yang lebih panjang atau nota tambahan.

Kekalkan orang dalam gelung. Manusia yang menyemak amaran harus memahami batasan dan berat sebelah alat itu.

Bolehkah tera air AI membantu? Mungkin—jika ia benar-benar dihantar

Terdapat usaha selari yang dipanggil tera air: sistem AI membenamkan corak statistik tersembunyi dalam output mereka supaya ia boleh dikenal pasti kemudian. Secara teori, itu lebih boleh dipercayai daripada meneka selepas fakta. Dalam praktiknya, anda memerlukan kerjasama merentasi model AI, dan tanda boleh hilang melalui penyuntingan, terjemahan atau pun tangkapan skrin.

Ia adalah hala tuju yang menjanjikan untuk platform yang mengawal kedua-dua hujung paip. Bagi kita yang lain, ia belum ada di sini dalam cara yang konsisten dan universal. Jangan tahan nafas semasa menggred peperiksaan akhir.

Kata tentang keadilan, ketakutan dan masa depan

Kebangkitan pengesan GPT telah menjadikan penulisan sebagai keselamatan lapangan terbang: semua orang menanggalkan kasut mereka, malah kanak-kanak kecil. Itu tidak mampan. Kita memerlukan alat yang menyokong pembelajaran dan integriti tanpa menjadikan bilik darjah dan tempat kerja menjadi kilang syak wasangka.

Itu bermakna beralih daripada "Adakah anda menggunakan AI?" kepada "Bagaimanakah anda menggunakan AI?" Belajar untuk menggabungkan AI secara telus—sumbang saran, menggariskan, merangka, menyemak—dengan peraturan yang jelas tentang petikan dan keaslian. Ia adalah perbahasan kalkulator sekali lagi, tetapi dengan ayat dan bukannya gelombang sinus.

Di mana Sider.AI sesuai (dan di mana ia tidak sesuai)

Inilah kejutan: Sider.AI sebenarnya boleh membantu anda menjalankan jenis ujian adil yang saya gariskan di atas. Tampal sampel anda, jejak versi draf anda dan bandingkan semakan bersebelahan. Ia bukan dewan mahkamah; ia adalah bengkel. Jika anda cuba menggunakan mana-mana alat AI tunggal sebagai hakim gantung, walaupun—baiklah, semoga berjaya. Gunakannya sebagai teman untuk proses dan bukti, dan anda berada di landasan yang lebih kukuh.

Kit permulaan pantas anda: templat yang boleh anda salin hari ini

Templat log pengesanan:

ID Sampel:

Label sumber (tersembunyi sehingga pemarkahan):

Skor/label pengesan 1:

Skor/label pengesan 2:

Skor/label pengesan 3:

Nota tentang ciri (butiran, sumber, butiran peribadi):

Keputusan: Semak / Terima / Siasat

Petikan dasar untuk sukatan pelajaran atau jawatan kerja:

"Kami mungkin menggunakan pengesan AI sebagai satu input antara beberapa input. Skor sahaja tidak akan digunakan untuk memberikan penalti. Jika ditandakan, anda mungkin diminta untuk berkongsi draf, sumber atau membincangkan proses anda. Kami menghargai pembelajaran dan keaslian berbanding gilapan yang sempurna."

Gesaan perbualan apabila anda tidak pasti:

"Bimbing saya melalui cara anda menghasilkan perenggan tiga."

"Tunjukkan kepada saya draf awal atau garis besar anda—apa yang berubah?"

"Apa yang akan anda tambahkan jika anda mempunyai 10 minit lagi?"

Sudut penyelesaian masalah: sakit kepala pengesan biasa

Alat itu mengatakan semuanya adalah AI. Apa sekarang?

Laraskan dengan sampel manusia yang diketahui yang anda tulis bertahun-tahun lalu. Jika ia masih menjerit "AI," ambangnya terlalu agresif—atau alat itu mengalami hari yang buruk.

Karya asal saya telah ditandakan. Bagaimana saya mempertahankannya?

Hasilkan draf, tera masa, nota penyelidikan dan sumber. Tunjuk kepada butiran peribadi tertentu. Tawarkan untuk membincangkan proses anda. Kekalkan nada yang tenang dan faktual.

Teks AI terus lulus sebagai manusia selepas membuat parafrasa.

Pengesan tidak dibina untuk menahan pengaburan berat. Tukar pendekatan anda: cari sumber yang hilang, analisis cetek atau fakta yang tidak konsisten.

Organisasi mahukan ambang yang sukar seperti "80% AI = tiada kredit."

Tolak balik. Kongsikan kadar positif palsu daripada ujian anda sendiri. Cadangkan "barisan semakan" dan bukannya penalti automatik.

Bit sains pantas (tanpa gogal makmal)

Kebanyakan pengesan bergantung pada ukuran seperti kekeliruan (betapa "terkejut" model bahasa dengan perkataan seterusnya) dan kepelbagaian (variasi dalam panjang dan struktur ayat). AI selalunya menghasilkan teks berkekeliruan rendah, kepelbagaian rendah—mantap dan lancar. Penulisan manusia lebih tajam.

Tetapi apabila AI bertambah baik dan manusia menggunakan alat mesra AI (hello, pemeriksa tatabahasa), taburan bertindih. Itulah sebabnya pengesan hari ini tidak boleh menjanjikan kepastian, hanya kebarangkalian. Yang bagus—melainkan anda cuba menggunakan kebarangkalian sebagai bukti.

Jadi... adakah pengesan GPT tepat?

Tepat dalam apa? Dalam memberi anda dorongan untuk melihat dengan lebih dekat? Selalunya, ya. Dalam membuat keputusan HR atau akademik sendiri? Tidak boleh dipercayai. Dalam ujian terkawal, anda akan mendapati:

Mereka menangkap AI yang jelas dan tidak disunting dengan agak baik.

Mereka bergelut dengan teks pendek, AI yang disunting dengan baik dan prosa manusia yang digilap.

Mereka boleh berat sebelah terhadap penulis ESL dan genre formulaik.

Anggap mereka seperti semakan ejaan untuk syak wasangka. Membantu, tetapi tidak suci.

Pengambilan terakhir: panduan padang permainan adil anda

Gunakan pengesan sebagai sistem amaran awal, bukan tukul hakim.

Sahkan dengan draf, sumber dan perbualan pantas.

Laraskan pada data anda sendiri; dokumenkan positif dan negatif palsu.

Elakkan keputusan pada coretan pendek dan skor tunggal.

Ajar penggunaan AI yang bertanggungjawab. Tanya "bagaimana," bukan sahaja "jika."

Satu perkara terakhir: Teknologi tidak menghapuskan kepercayaan; ia merangka semulanya. Cara terbaik untuk mengekalkan penulisan manusia adalah dengan memberi ganjaran kepada bahagian yang hanya boleh dilakukan oleh manusia—rasa ingin tahu, kekhususan, suara—dan untuk membina sistem yang mengiktiraf cap jari yang bersepah dan gemilang bagi pemikiran sebenar.

Jika pengesan anda tidak dapat membezakan antara esei yang menyentuh hati dan anekdot kostum pisang, mungkin sudah tiba masanya untuk membawa manusia kembali ke dalam gelung.

Soalan Lazim

S1:Adakah pengesan GPT cukup tepat untuk menangkap penulisan AI dengan pasti? Mereka cukup baik dalam menandakan teks AI yang tidak disunting, tetapi mereka goyah dengan petikan pendek, AI yang diparafrasa dan penulisan manusia yang digilap. Gunakannya sebagai dorongan untuk menyemak, bukan keputusan akhir.

S2:Bagaimanakah saya boleh menguji ketepatan pengesan GPT sendiri? Jalankan kajian kecil dengan empat baldi: manusia tulen, AI tulen, AI yang disunting manusia dan AI yang dikaburkan. Ukur ketepatan dan ingatan semula, dan catatkan positif palsu pada sampel sebenar anda sendiri.

S3:Mengapa esei asal saya ditandakan sebagai AI? Prosa yang bersih dan konsisten boleh kelihatan "terlalu lancar," dan corak ESL kadangkala salah dibaca sebagai artifak AI. Pertahankan karya anda dengan draf, tera masa, sumber dan sembang pantas tentang proses anda.

S4:Bolehkah saya membuat teks AI lulus sebagai manusia dengan beberapa tweak? Selalunya, ya. Membuat parafrasa, menambah butiran peribadi dan mempelbagaikan rentak ayat boleh menipu pengesan. Itulah sebabnya skor sahaja tidak boleh digunakan untuk menghukum atau menolak kerja.

S5:Apakah dasar yang adil untuk menggunakan pengesan GPT di dalam kelas atau pengambilan pekerja? Terbitkan bahawa pengesan ialah satu titik data antara beberapa titik, bukan asas tunggal untuk penalti. Memerlukan pengesahan, membenarkan rayuan dengan bukti draf dan mengutamakan kandungan berbanding gaya.