PRICOPE, T.-V. (2025). HardML: A Benchmark for Evaluating Data Science and Machine Learning Knowledge and Reasoning in AI. Studia Universitatis Babeș-Bolyai Informatica, 69(2), 59–76. https://doi.org/10.24193/subbi.2024.2.04