RLHF Safety & Security Specialist / AI Content Evaluator
Atuação no treinamento e refinamento de Modelos de Linguagem de Larga Escala (LLMs) através de Reinforcement Learning from Human Feedback (RLHF). O trabalho foca em Red Teaming para identificação de vulnerabilidades (jailbreaks e injeção de prompts), além da avaliação de respostas quanto à segurança, precisão factual e alinhamento ético. Aplico critérios rigorosos de qualidade e segurança (Safety & Security Behaviors) para garantir que o modelo opere dentro das diretrizes estabelecidas