Produced by MaxPlanckSociety
KI-Chatbots wie ChatGPT werden mit großen Textmengen aus dem Internet trainiert, doch nicht alle Inhalte sind hochwertig. Nach dem Vortraining kommt Reinforcement Learning from Human Feedback (RLHF): Menschen bewerten Antworten, belohnen gute und ignorieren schlechte. So lernt das System, bessere Dialoge zu führen.
Mehr Informationen:
► Website: https://mpg.de
Für noch mehr Informationen oder um das Video auf YouTube anzuschauen, hier klicken!