PRICOPE, T.-V. (2025) “HardML: A Benchmark for Evaluating Data Science and Machine Learning Knowledge and Reasoning in AI”, Studia Universitatis Babeș-Bolyai Informatica, 69(2), pp. 59–76. doi: 10.24193/subbi.2024.2.04.