Abstract: Pesquisa sem auxílio de agências de fomento ; Trabalho de Conclusão de Curso (Graduação) ; Comentários ofensivos e o discurso de ódio têm se tornado um desafio para a moderação de conteúdo nas redes sociais virtuais, e pesquisa sobre técnicas de moderação automatizada para a língua portuguesa brasileira ainda é limitada. Neste contexto, este estudo visa contribuir para o desenvolvimento de um sistema eficiente para a detecção e classificação de comentários ofensivos em português brasileiro, utilizando técnicas de processamento de linguagem natural e aprendizado de máquina. A abordagem adotada explora um conjunto de dados composto por 4.139 comentários em português brasileiro extraídos do YouTube e propõe detectar e classificar automaticamente comentários ofensivos em português brasileiro. Foram comparados quatro algoritmos clássicos de classificação de texto — Naive Bayes, SVM, Random Forest e GBM — aplicados a vetorizadores CountVectorizer e TF-IDF. O modelo Random Forest, combinado com CountVectorizer, apresentou o melhor desempenho, alcançando 86% de acurácia e medida F1. Esse resultado evidencia a viabilidade do uso de métodos clássicos de aprendizado de máquina na moderação de conteúdo em português brasileiro. Este estudo contribui com a construção e disponibilização de uma base de dados especializada, promovendo avanços no campo da moderação automatizada e fornecendo um recurso útil para o desenvolvimento de modelos voltados ao português. Com isso, o trabalho reforça o potencial do aprendizado de máquina em promover ambientes online mais seguros e inclusivos.
No Comments.