MMLU (multiples tâches de traitement du langage) : 5-shot

Connaissances : 5-shot sur NaturalQuestions et TriviaQA

Raisonnement : 0-shot sur Hellaswag, Winogrande, PIQA, SIQA, OpenbookQA, ARC-Easy, ARC-Challenge et CommonSenseQA

Compréhension écrite : 0-shot sur BooIQ et QuAC

AGI : 3-5 shot sur AGI Eval (QCM en anglais uniquement)

Mathématiques : 8-shot sur GSM8K maj@8 et 4-shot sur MATH maj@4

BBH (multiples exercices de compréhension) : 3-shot

Code : 0-shot sur HumanEval et 3-shot sur MBPP