Detección automática de ataques de phishing en correo electrónico con Large Language Models (LLM)

José Ernesto Rodríguez Del Toro; Antonio Hernández Domínguez

Autores/as

José Ernesto Rodríguez Del Toro Facultad de Ciberseguridad de la Universidad de las Ciencias Informáticas. La Habana, Cuba
Antonio Hernández Domínguez Facultad de Ciberseguridad de la Universidad de las Ciencias Informáticas. La Habana, Cuba

Palabras clave:

CRISP-DM, Large Language Models, Aprendizaje Automático, Procesamiento del Lenguaje Natural, Phishing.

Resumen

Esta investigación tuvo como objetivo entrenar un modelo basado en un Large Language Model (LLM) para la detección de ataques de phishing mediante el análisis del contenido de correos electrónicos. Se empleó el modelo Transformer DistilBERT siguiendo la metodología CRISP-DM, lo que aseguró un ciclo de vida estructurado para el entrenamiento. El procedimiento incluyó el preprocesamiento del conjunto de datos ealvaradob/phishing-dataset, su tokenización y la división en subconjuntos de entrenamiento, validación y prueba. El modelo se entrenó en dos fases: una de fine-tuning sobre datos especializados y otra de validación rigurosa utilizando métricas estandarizadas (accuracy, precision, recall, F1-score). Los resultados en la fase de entrenamiento superaron el 95% en todas las métricas. En la validación final con un conjunto de datos independiente (zefang-liu/phishing-email-dataset) se alcanzó un promedio superior al 98%, demostrando alta efectividad y un margen de error mínimo. Se concluye que el modelo cumple con los requisitos funcionales para su despliegue en producción, aportando evidencia sólida para el uso de Procesamiento del Lenguaje Natural (PLN) en aplicaciones de ciberseguridad.

Citas

Alanezi, M. (2021). Phishing detection methods: A review. Technium: Romanian Journal of Applied Sciences and Technology, 3(9), 19–35. https://doi.org/10.47577/technium.v3i9.4973

Anti-Phishing Working Group. (2024). Phishing activity trends report 4to quarter 2024.

Cherian, T. V., Paulraj, G. J. L., Princess, J. B., & Jebadurai, I. J. (2024). A comparative analysis of machine learning and deep learning techniques for aspect-based sentiment analysis. En D. J. Hemanth (Ed.), Computational intelligence methods for sentiment analysis in natural language processing applications (pp. 23–37). Morgan Kaufmann. https://doi.org/10.1016/B978-0-443-22009-8.00006-9

CRISP-DM. (2025, 15 de enero). La metodología CRISP-DM: Desarrollo de modelos de machine learning. MyTaskPanel Consulting. https://www.mytaskpanel.com/la-metodologia-crisp-dm-desarrollo-de-modelos-de-machine-learning/

Freed, N., & Borenstein, N. S. (1996). Multipurpose Internet Mail Extensions (MIME) Part One: Format of Internet Message Bodies (Request for Comments RFC 2045). Internet Engineering Task Force. https://doi.org/10.17487/RFC2045

Gomes, V., Reis, J., & Alturas, B. (2020). Ingeniería social y los peligros del phishing. Actas del Congreso Ibérico de Sistemas y Tecnologías de la Información (CISTI), 1–6. https://rclimatol.eu/wp-content/uploads/2023/07/Articulo-CS23-Yolanda-maribel.pdf

González-Hugo, M. P., & Quevedo-Sacoto, A. S. (2025). Tendencias actuales en ataques de ingeniería social: Revisión de literatura. MQRInvestigar, 9(1), Article e203. https://doi.org/10.56048/MQR20225.9.1.2025.e203

Kamsetty, A. (2020, 6 de octubre). Hyperparameter optimization for transformers: A guide. Distributed Computing with Ray. https://medium.com/distributed-computing-with-ray/hyperparameter-optimization-for-transformers-a-guide-c4e32c6c989b

Mitnick, K. D., & Simon, W. L. (2002). The art of deception: Controlling the human element of security. Wiley.

Resnick, P. (2008). Internet message format (Request for Comments RFC 5322). Internet Engineering Task Force. https://doi.org/10.17487/RFC5322

Salloum, S., Gaber, T., Vadera, S., & Shaalan, K. (2021). Phishing email detection using natural language processing techniques: A literature survey. Procedia Computer Science, 189, 19–28. https://doi.org/10.1016/j.procs.2021.05.077

Sanh, V., Debut, L., Chaumond, J., & Wolf, T. (2020). DistilBERT, a distilled version of BERT: Smaller, faster, cheaper and lighter (arXiv:1910.01108). arXiv. https://doi.org/10.48550/arXiv.1910.01108

Verma, R., Shashidhar, N., & Hossain, N. (2012). Detecting phishing emails the natural language way. En S. Foresti, M. Yung, & F. Martinelli (Eds.), Computer security – ESORICS 2012 (pp. 824–841). Springer. https://doi.org/10.1007/978-3-642-33167-1_47

Detección automática de ataques de phishing en correo electrónico con Large Language Models (LLM)

Autores/as

Palabras clave:

Resumen

Citas

Descargas

Publicado

Número

Sección

Licencia

Artículos similares

Desarrollado por

maps

Enviar un artículo

indexada

Indexada II

citma

Redes2

Redes Académicas

Información

Idioma

Número actual

ClustrMaps

Navegar