Close Menu
Kenai.idKenai.id
    Facebook X (Twitter) Instagram Pinterest
    Selasa 24 Maret 2026
    Facebook X (Twitter) Instagram
    Kenai.idKenai.id
    • Berita
    • Nusantara
    • Lifestyle
    • Artikel
    • Promosi
    Kenai.idKenai.id
    Beranda » IndoToxic2024: AI Deteksi Ujaran Kebencian Indonesia
    Saintek

    IndoToxic2024: AI Deteksi Ujaran Kebencian Indonesia

    Dataset IndoToxic2024 memperkuat teknologi AI dalam identifikasi ujaran kebencian Bahasa Indonesia.
    By Ericka14 Oktober 2025Tidak ada komentar3 Mins Read
    Facebook Twitter Pinterest LinkedIn Tumblr Email
    AI
    Ilustrasi Artificial Intelligence (.inet)
    Share
    Facebook Twitter LinkedIn Pinterest Email

    Ujaran kebencian online terus meningkat di Indonesia, mendorong kebutuhan sistem AI yang efektif untuk mendeteksinya melalui dataset berkualitas seperti IndoToxic2024 sebagai landasan pelatihan deteksi ujaran kebencian.

    IndoToxic2024 memuat 43.692 entri yang dianotasi oleh 19 annotator dari latar demografis berbeda, dan model BERT (IndoBERTweet) mencapai skor macro-F1 sebesar 0,78 dalam tugas klasifikasi biner pernyataan kebencian. (Susanto et al., 2024).

    IndoToxic2024 sebagai Fondasi AI Deteksi Ujaran Kebencian

    IndoToxic2024 adalah dataset bahasa Indonesia yang kaya demografi, dirancang khusus untuk melatih model AI agar mampu mendeteksi ujaran kebencian dengan sensitivitas terhadap konteks sosial dan latar belakang annotator. Dataset ini memberi pendekatan baru untuk memperhitungkan subjektivitas dalam penilaian ujaran kebencian.

    Dataset ini digunakan sebagai basis pelatihan dan evaluasi berbagai model NLP, terutama model BERT yang disesuaikan (fine-tuning), serta untuk mengeksplorasi bagaimana informasi demografis annotator dapat memengaruhi performa deteksi dalam skenario zero-shot atau adaptif pada data baru.

    Bagaimana IndoToxic2024 Disusun

    Pembuatan dataset IndoToxic2024 dimulai dengan pengumpulan teks dari media sosial dan platform daring yang banyak dipakai di Indonesia selama periode Pemilu 2024. Para peneliti memilih teks yang menyasar kelompok rentan (misalnya, kelompok agama minoritas, LGBTQ+, orang dengan disabilitas) dan menggunakan kata kunci spesifik untuk menyaring kandidat konten.

    Setiap teks kemudian dianotasi oleh 19 annotator dari latar belakang demografis beragam (usia, jenis kelamin, lokasi, status sosial). Label diarahkan ke berbagai jenis toxic atau non-toxic, dengan anotasi yang mempertahankan perspektif per annotator, bukan hanya label mayoritas sederhana.

    Keunggulan AI dengan IndoToxic2024

    Salah satu kekuatan IndoToxic2024 adalah kemampuannya menghadirkan subjektivitas annotator ke dalam model AI — model dapat dilatih untuk mengenali sensitivitas sosial ketika seseorang bisa berbeda memandang ujaran yang sama.

    Dalam pengujian, model IndoBERTweet yang dilatih pada dataset ini berhasil mencapai skor macro-F1 = 0,78 dalam klasifikasi biner ujaran kebencian. Ini menunjukkan bahwa dataset ini memiliki kualitas yang cukup baik untuk tugas AI deteksi ujaran kebencian.

    Namun, penelitian juga menunjukkan bahwa penggunaan berlebihan dari atribut demografis dapat menyebabkan fragmentasi data (jumlah sampel tiap segmen demografis menjadi sangat kecil), yang justru menurunkan generalisasi model.

    Tantangan & Batasan dalam Deteksi AI

    Pertama, ujaran kebencian sering bersifat implisit, menggunakan sarkasme atau referensi budaya lokal, sehingga model AI bisa kesulitan mengenali nuansanya meski dataset besar. Konten semacam ini memerlukan pemahaman konteks yang lebih dalam daripada sekadar kata kunci.

    Kedua, distribusi data sangat imbalanced — kelas ujaran kebencian sering menjadi minoritas dibandingkan kelas netral/non-toxic. Untuk mengatasi ketidakseimbangan ini, penelitian telah menambahkan teknik augmentasi data seperti Easy Data Augmentation (EDA) agar kelas minoritas mendapat dukungan lebih kuat dalam pelatihan.

    Ketiga, ada risiko bias sosial: jika annotator dominan dari satu kelompok, interpretasi ujaran kebencian bisa condong ke sudut pandang mereka, dan model dapat ikut bias demikian. Pengaturan demografis annotator menjadi penting agar model tetap adil.

    Penerapan Dalam Sistem Moderasi & Kebijakan

    Hasil pelatihan model menggunakan IndoToxic2024 dapat diterapkan ke sistem moderasi otomatis di platform media sosial sebagai filter awal sebelum moderasi manual. AI bisa memprioritaskan konten berpotensi berbahaya agar segera ditinjau manusia.

    Selain itu, pemangku kebijakan (pemerintah, penyedia platform) dapat menggunakan insight dari dataset ini untuk memahami tren ujaran kebencian di Indonesia—misalnya kelompok sasaran terbanyak, gaya bahasa yang dominan, dan kawasan geografi yang rawan—sebagai dasar intervensi kebijakan dan kampanye edukasi.

    AI Deteksi Ujaran Kebencian dengan IndoToxic2024

    IndoToxic2024 menyediakan fondasi penting bagi AI untuk mendeteksi ujaran kebencian di Indonesia dengan mempertimbangkan konteks sosial dan subjektivitas. Meski tantangan seperti bias dan ketidakseimbangan tetap ada, dataset ini memperkuat kemampuan sistem AI dalam mendeteksi ujaran kebencian secara lokal.

    Jika Anda tertarik menggunakan dataset Bahasa Indonesia untuk riset NLP atau pengembangan moderasi konten, unduh dan eksplorasi IndoToxic2024 sekarang dan berkontribusi pada ekosistem AI yang lebih aman dan adil.

    AIDeteksiUjaranKebencian AIIndonesia DatasetIndonesia IndoToxic2024 UjaranKebencian
    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Ericka

    Related Posts

    Surabaya Jadi Pusat Revolusi AI Pertama di Asia

    12 November 2025

    BRIN Dorong Gim Online Bertema Kekayaan Nusantara

    1 November 2025

    Komet 3I/ATLAS Viral, BRIN Pastikan Aman bagi Bumi

    30 Oktober 2025

    Comments are closed.

    © 2026 Kenai.id by Dexpert, Inc.
    PT Sciedex Multi Press
    • Redaksi
    • Pedoman
    • Kode Etik
    • Kontak

    Type above and press Enter to search. Press Esc to cancel.