Detecção Automática de Ataques de Phishing em Correio Eletrônico com Large Language Models (LLM)

Autores

  • José Ernesto Rodríguez Del Toro Facultad de Ciberseguridad de la Universidad de las Ciencias Informáticas. La Habana, Cuba
  • Antonio Hernández Domínguez Facultad de Ciberseguridad de la Universidad de las Ciencias Informáticas. La Habana, Cuba

Palavras-chave:

CRISP-DM, Large Language Models, Aprendizado de Máquina, Processamento de Linguagem Natural, Phishing.

Resumo

Esta pesquisa teve como objetivo treinar um modelo baseado em um Large Language Model (LLM) para a detecção de ataques de phishing por meio da análise do conteúdo de e-mails. O modelo Transformer DistilBERT foi utilizado seguindo a metodologia CRISP-DM, o que garantiu um ciclo de vida estruturado para o treinamento. O procedimento incluiu o pré-processamento do ealvaradob/phishing-dataset, sua tokenização e divisão em subconjuntos de treinamento, validação e teste. O modelo foi treinado em duas fases: fine-tuning com dados especializados e validação rigorosa utilizando métricas padronizadas (accuracy, precision, recall, F1-score). Os resultados na fase de treinamento superaram 95% em todas as métricas. Na validação final com um conjunto de dados independente (zefang-liu/phishing-email-dataset), foi alcançada uma média superior a 98%, demonstrando alta eficácia e uma margem mínima de erro. Conclui-se que o modelo atende aos requisitos funcionais para implantação em produção, fornecendo evidências sólidas para o uso de Processamento de Linguagem Natural (PLN) em aplicações de cibersegurança.

Referências

Alanezi, M. (2021). Phishing detection methods: A review. Technium: Romanian Journal of Applied Sciences and Technology, 3(9), 19–35. https://doi.org/10.47577/technium.v3i9.4973

Anti-Phishing Working Group. (2024). Phishing activity trends report 4to quarter 2024.

Cherian, T. V., Paulraj, G. J. L., Princess, J. B., & Jebadurai, I. J. (2024). A comparative analysis of machine learning and deep learning techniques for aspect-based sentiment analysis. En D. J. Hemanth (Ed.), Computational intelligence methods for sentiment analysis in natural language processing applications (pp. 23–37). Morgan Kaufmann. https://doi.org/10.1016/B978-0-443-22009-8.00006-9

CRISP-DM. (2025, 15 de enero). La metodología CRISP-DM: Desarrollo de modelos de machine learning. MyTaskPanel Consulting. https://www.mytaskpanel.com/la-metodologia-crisp-dm-desarrollo-de-modelos-de-machine-learning/

Freed, N., & Borenstein, N. S. (1996). Multipurpose Internet Mail Extensions (MIME) Part One: Format of Internet Message Bodies (Request for Comments RFC 2045). Internet Engineering Task Force. https://doi.org/10.17487/RFC2045

Gomes, V., Reis, J., & Alturas, B. (2020). Ingeniería social y los peligros del phishing. Actas del Congreso Ibérico de Sistemas y Tecnologías de la Información (CISTI), 1–6. https://rclimatol.eu/wp-content/uploads/2023/07/Articulo-CS23-Yolanda-maribel.pdf

González-Hugo, M. P., & Quevedo-Sacoto, A. S. (2025). Tendencias actuales en ataques de ingeniería social: Revisión de literatura. MQRInvestigar, 9(1), Article e203. https://doi.org/10.56048/MQR20225.9.1.2025.e203

Kamsetty, A. (2020, 6 de octubre). Hyperparameter optimization for transformers: A guide. Distributed Computing with Ray. https://medium.com/distributed-computing-with-ray/hyperparameter-optimization-for-transformers-a-guide-c4e32c6c989b

Mitnick, K. D., & Simon, W. L. (2002). The art of deception: Controlling the human element of security. Wiley.

Resnick, P. (2008). Internet message format (Request for Comments RFC 5322). Internet Engineering Task Force. https://doi.org/10.17487/RFC5322

Salloum, S., Gaber, T., Vadera, S., & Shaalan, K. (2021). Phishing email detection using natural language processing techniques: A literature survey. Procedia Computer Science, 189, 19–28. https://doi.org/10.1016/j.procs.2021.05.077

Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2020). DistilBERT, a distilled version of BERT: Smaller, faster, cheaper and lighter (arXiv:1910.01108). arXiv. https://doi.org/10.48550/arXiv.1910.01108

Verma, R., Shashidhar, N., & Hossain, N. (2012). Detecting phishing emails the natural language way. En S. Foresti, M. Yung, & F. Martinelli (Eds.), Computer security – ESORICS 2012 (pp. 824–841). Springer. https://doi.org/10.1007/978-3-642-33167-1_47

Publicado

2026-06-17

Edição

Seção

Artículos

Artigos Semelhantes

1 2 3 4 5 6 7 8 9 10 > >> 

Você também pode iniciar uma pesquisa avançada por similaridade para este artigo.