Por Ali Marques - Analista de Dados
Desde o surgimento do ChatGPT no final de 2022, a inteligência artificial (IA) tem desempenhado um papel central em várias indústrias na busca pela inovação, inclusive na educação. No entanto, quando falamos da educação pública ainda carecemos de exemplos de soluções inovadoras.
Desenvolvendo metodologias ativas com o ChatGPT
O AprendiZAP é uma ferramenta digital que tem como missão ser a melhor e mais prática ferramenta digital de aprendizagem para alunos de escolas públicas do Brasil. Atualmente oferecemos mais de 2 mil aulas de forma gratuita, mas a demanda por mais atividades, especialmente as que envolvem metodologias ativas, eram alta.
Para que fosse possível solucionar essa demanda de forma ágil, combinamos a inovação tecnológica com o impacto na educação pública: Utilizar a IA para tornar escalável o processo de criação de conteúdos, porém com a revisão de professores especialistas, de forma a manter nosso alto padrão de conteúdos.
As metodologias ativas têm o poder de envolver os estudantes como pontos centrais do aprendizado. Integrar o ChatGPT, uma ferramenta avançada de processamento de linguagem natural, à criação de metodologias ativas personalizadas tornou possível a criação de mais 8 mil atividades em poucos dias.
Colaboração entre professores e tecnologia
Uma das características cruciais do nosso projeto foi a colaboração estreita entre a tecnologia e a expertise humana. Professores experientes da rede pública não apenas revisaram e ajustaram as atividades propostas pelo ChatGPT, mas também contribuíram com insights valiosos para moldar o conteúdo de maneira a atender às necessidades reais das salas de aula.
A revisão dos materiais foi facilitada com a exportação para o Google Docs. Mas tudo tem seu preço: Ao facilitar o processo de revisão por parte dos professores, produzimos mais de 8 mil arquivos desestruturados que precisavam ser processados antes de entrarem na plataforma.
O papel do time de dados na otimização do processo
Dentre as atribuições de uma pessoa que trabalha de alguma forma na área de dados, uma das principais habilidades que desenvolvemos é a exploração e o tratamento de dados, sejam dados estruturados ou não. Por isso, o time de dados do AprendiZAP ficou responsável por viabilizar os conteúdos dos mais de 8 mil arquivos para o time de desenvolvimento. Essa etapa é comumente chamada de ETL: Extract (extração), Transform (transformação) e Load (carregamento ou disponibilização).
O objetivo principal deste tratamento dos dados consistia em extrair e dividir as seções presentes no documento da atividade. Foi um processo iterativo para entender os principais marcadores de seção (como títulos, por exemplo), que variavam entre os arquivos.
Exemplo de um conteúdo para extração de seções.
Para extrair cada seção foram usadas expressões regulares (ou regex), que consistem em padrões de caracteres usados para buscar, identificar e manipular cadeias de caracteres que se enquadrem em um determinado formato fornecido. Desta forma, foi possível fornecer ao time de desenvolvimento objetos segmentados de fácil manipulação.
Arquivo JSON final, devidamente segmentado.
Monitorando a qualidade da segmentação
Como mencionado, os arquivos divergiam quanto aos termos utilizados para designar o começo de uma seção, assim como outros documentos não seguiam a mesma ordem sequencial de seções. Como saber então se a segmentação realizada estava correta nos mais de 8 mil conteúdos? É fácil identificar se uma segmentação está correta ou não em uma amostra, mas para milhares de conteúdos a história é outra.
Implementamos uma abordagem de contagem de caracteres das seções de cada conteúdo, obtendo uma distribuição normal para cada tipo de seção. Desta forma, foi possível identificar outliers, isto é, pontos fora da curva. Por exemplo, quando uma seção apresentava mais de mil caracteres em um item, sendo que a média de caracteres em um item era de 50 caracteres, havia algo de errado.
Distribuição de caracteres por itens relativos a uma seção.
Foi nesse processo que identificamos variações de títulos, caracteres especiais, entre outras divergências, que puderam retroalimentar as especificações das expressões regulares. No final, restaram apenas alguns materiais que realmente precisavam de intervenção e correção humana. Mesmo assim, foi um trabalho minimizado para nosso time pedagógico, que precisou lidar com menos de 2% dos conteúdos gerados.
Tecnologia e educação pública: Um horizonte próximo
Nosso projeto no AprendiZAP é uma demonstração poderosa de como a tecnologia pode ser aplicada para transformar a educação pública. A colaboração entre tecnologia e especialistas humanos gerou um modelo escalável e de alta qualidade. Além disso, foi um exemplo da aplicabilidade de conhecimentos adquiridos no dia a dia de profissionais de dados. É o primeiro passo (de muitos) do uso da inteligência artificial para o impacto social na educação pública brasileira.
Comentários