Η τεχνητή νοημοσύνη βασίζει την εκπαίδευσή της σε υψηλής ποιότητας δεδομένα. Το ChatGPT εκπαιδεύτηκε πάνω σε 570 gigabytes κειμένου ή περίπου 300 δισεκατομμύρια λέξεις. Παρομοίως, ο stable diffusion αλγόριθμος που βρίσκεται πίσω από το Midjourney και το DALL-E, εκπαιδεύτηκε με το LIAON-5B σετ δεδομένων που περιλαμβάνει 5.8 δισεκατομμύρια σετ εικόνων-κειμένων.
Η ποιότητα των εκπαιδευτικών δεδομένων είναι πολύ σημαντική για την AI. Δεδομένα με χαμηλή ποιότητα όπως social media posts ή θολές φωτογραφίες είναι εύκολο να βρεθούν, αλλά δεν είναι κατάλληλα.