A automação da avaliação de textos discursivos vai ajudar os professores?

Foto: Nothing Ahead
Publicado originalmente em IAEdPraxis: Caminhos Inteligentes para a Educação, em 1 de abril de 2025.
É uma questão matemática: 20 minutos para ler e corrigir uma redação, multiplicado por seis turmas de 25 alunos cada significa 3.000 minutos, 50 horas de correção e atribuição de notas. Uma verdadeira maratona, marcada por cansaço e autojulgamento (“ainda estou corrigindo certo?). Uma das atividades mais exigentes e menos apreciadas da profissão docente, não somente pelo esforço, mas pela necessidade de aplicar critérios consistentes de avaliação.
“Cansei de corrigir…10 para todo mundo”. O problema do “avaliador mal-humorado” foi detectado a partir de uma análise de 30 milhões de notas. Estudantes com nomes iniciando no grupo A–E tiveram 0,6 ponto a mais, em média, que estudantes do grupo U–Z. O resultado sinaliza o efeito do cansaço cognitivo de correção.
Eis que surge a Inteligência Artificial, com a promessa sedutora de realizar este trabalho exigente, complexo e demorado. Mas será mais uma expressão de “tecno-solucionismo” ou realmente uma aplicação que pode facilit
Como avaliar trabalhos e provas escritas?
Antes de explorarmos os desafios e promessas da IA para este tipo de tarefa, é importante revisarmos alguns fundamentos que constituem uma avaliação eficaz:
-
Definição de critérios claros e objetivos
-
Consistência na aplicação destes critérios
-
Retorno (feedback) construtivo e específico
-
Equilíbrio da avaliação entre forma e conteúdo
-
Consideração do contexto e do progresso individual do aluno
-
Promoção da autorreflexão e do aprendizado contínuo
Dito isso, alguns elementos do processo avaliativo obedecem a padrões recorrentes no uso da linguagem, algo que a Inteligência Artificial se presta bem. Mesmo antes da eclosão da IA Generativa, com o icônico ChatGPT, sistemas especialistas já vinham sendo utilizados. Entretanto, exigiam alto investimento de tempos e de recursos para seu treinamento, sendo limitados a textos relativamente padronizados. Possibilidades como a utilização do contexto e a perspectiva de individualização ficariam ainda mais distantes de suas capacidades.
Os Modelos de Linguagem, entretanto, ampliam o escopo de utilização. Através da análise de sentimento, podem incluir aspectos subjetivos, como o tom emocional do texto e a adequação do registro linguístico ao contexto. No plano argumentativo, podem avaliar a capacidade de persuasão e o potencial de engajamento do leitor, assim como nuances de ironia ou outras figuras de linguagem.
Ainda no campo da ideação e da especulação, as ferramentas de correção baseadas em IA potencializariam a inclusão educacional. Poderiam, por exemplo, adaptar o feedback para diferentes estilos de aprendizagem e identificar necessidades educacionais específicas. Mas o que há de realidade nessas promessas?
O que dizem as evidências científicas?
Como muitos âmbitos da IA aplicada à Educação, a correção automatizada de textos discursivos é objeto de análises a partir do senso crítico. Nesse sentido, o estudo publicado como “Can AI provide useful holistic essay scoring?” (A Inteligência Artificial pode oferecer uma avaliação holística útil de redações?, em tradução livre) comparou a correção realizada por várias versões do ChatGPT com aquelas realizadas por professores em 1.800 redações de História e Língua Inglesa. Os resultados mostraram não haver diferença significativa entre as notas atribuídas pela máquina e por avaliadores humanos, ainda que uma concordância total não tenha sido alcançada. A consistência encontrada foi julgada suficiente para “objetivos de avaliação formativa de baixo impacto”. Isto é, para primeira revisão de um trabalho ou para exercícios de classe, por exemplo.
A pesquisadora Tamara Tate, do Digital Learning Lab da Universidade da Califórnia em Irvine, líder do estudo, categorizou o resultado como “provavelmente tão bom como um professor mediano atarefado” e similar a um “professor sobrecarregado abaixo da média “, não sendo suficiente para utilização em notas finais de disciplina.
Entretanto, no momento de realização da pesquisa (2023), o modelo de ponta utilizado foi o ChatGPT 3.5, considerado bastante limitado na atualidade. Além disso, a pesquisa não utilizou o treinamento prévio, a partir de textos de exemplo e das correções associadas. Dessa forma, os resultados e conclusões da pesquisa não refletem a capacidade tecnológica atual.
Outro trabalho, mais recente, publicado no final de 2024, teve o sugestivo título “Can AI grade your essays? A comparative analysis of Large Language Models and teacher ratings in multidimensional essay scoring” (A Inteligência Artificial pode corrigir suas redações? Uma análise comparativa de Grandes Modelos de Linguagem e avaliações de professores na avaliação multidimensional de redações, em tradução livre).
Sob a premissa de que a correção manual de redações consome muito tempo dos professores, também comparou a avaliação automatizada com aquela realizada por professores de redação, em termos de performance e de confiabilidade. Como resultado, a IA se mostrou útil para reduzir a carga de trabalho docente. Contudo, a tendência de atribuir notas mais altas foi detectada, assim como a necessidade de melhoras no aspecto qualitativo. Os autores também destacaram o desempenho diferenciado do modelo o1 do ChatGPT – modelo de ponta, sem seu momento – em relação a seus concorrentes.
Em conjunto, estes resultados apontam para a viabilidade do uso da IA para correção de trabalhos escritos, em termos do alinhamento de seus resultados com a avaliação humana. Com isso sinalizam, a rapidez e eficiência na correção, com consistência na aplicação de critérios avaliativos.
Plataformas de correção automatizada
Antes de mais nada, uma observação: a revisão de textos coincide em diversos pontos com uma avaliação. Correção textual, uso da argumentação, estrutura, clareza entre outros são critérios a serem avaliados tanto numa prova ou tarefa, como em qualquer tipo de produção escrita. Contudo, é a adoção de critérios avaliativos e a atribuição de valor a como eles se manifestam o que caracteriza uma avaliação.
Comento isso pois ferramentas como Grammarly e outros auxílios de escrita baseadas em IA poderiam, em tese, ser utilizadas para uma primeira avaliação do texto, no que concerne seus aspectos da linguagem formal. Já para uma avaliação que “entre no conteúdo” seria necessário utilizar uma plataforma especializada, das quais várias surgiram recentemente.
CoGrader
“Menos tempo corrigindo, mais tempo ensinando”. A proposta da plataforma é direta ao “ajudar professores a dar retorno de qualidade em dissertações, em 80% menos de tempo”. Dessa forma, a tecnologia adotada por mais de 1.000 instituições de ensino ajudaria os professores a “focarem no que realmente importa – ajudar os alunos terem êxito através de instrução e suporte personalizado”.
O funcionamento é relativamente simples: o primeiro passo é a definição dos critérios de aprendizagem, a partir de padrões de secretarias de ensino ou de rubricas personalizadas que reflitam os objetivos de aprendizagem pretendidos.
A partir daí o sistema gera um relatório para cada trabalho, com justificativas da nota e para pontos de destaque (“glow”, brilho), melhoria (“grow”, crescer) e reflexão (“think about it”, pense a respeito). O professor pode então revisar e ajustar a devolutiva, pois ele “tem a palavra final”. Curiosamente, um dos botões disponíveis nesta etapa de ajuste é “tornar mais rígido”.
O plano gratuito permite 100 envios mensais. Já “educadores pagando do próprio bolso” podem optar pelo plano de 15 dólares, com 350 correções e mais recursos, como a correção de trabalhos redigidos a mão e a integração com ambientes virtuais de aprendizagem (Google Classroom e Canva LMS). Logicamente, também há planos institucionais, voltados para escolas, universidades e redes de ensino, de maior valor.
“wp-block-embed__wrapper”>
Essay Grader
Este serviço promete 80% de redução no tempo de correção, anunciando ser possível corrigir e dar notas para as redações de uma sala inteira em menos de dois minutos. Com texto de venda voltado aos professores, dispõe-se a “melhorar seu ensino”, através de “planos acessíveis”.
Entre seus recursos, destaca a detecção de texto gerado por IA e de plágio, uma biblioteca de rubricas e análise textual avançada. Esta última resume o trabalho dos alunos, além de detectar frases e palavras-chave, proporcionando uma visão geral do texto para o professor.
O plano gratuito disponibiliza 25 correções mensais e há planos progressivos em capacidade de 7, 15 e 35 dólares, respectivamente.
CRIA – Corretor de Redação com IA
Tecnologia legitimamente brasileira, nascida de um projeto de pesquisa e inovação da Universidade Federal de Minas Gerais, que teve como objetivo desenvolver um sistema automático de correção de redações baseado em Processamento de Linguagem Natural e mineração de textos.
Lançado como serviço, o CRIA se propõe “otimizar a performance de alunos em redação e o tempo de correção para instituições de ensino”. Este trecho evidencia seus dois públicos-alvo: primeiro, estudantes que poderão “aprimorar a qualidade da escrita por meio de prática constante e feedbacks rápidos”. E logo, as escolas que poderão obter uma “visão abrangente do desempenho de alunos e docente”.
O professor surge somente como uma peça, um usuário, “mais motivado a solicitar redações”, com o alívio de sua “carga de trabalho em volume, tempo e eficiência”.
De qualquer forma a ferramenta atende a características do sistema educacional brasileiro, tendo inclusive foco na fuga do tema em textos argumentativos. O modo de correção “ENEM” é um destaque, ainda que outros tipos de texto dissertativo (resenha crítica, carta aberta, etc.) sejam contemplados.
Os planos são baseados em créditos. Para estudantes, o plano inicial equivale a seis correções simples por mês e custa R$ 67. Já para escolas, o plano inicial contempla onze correções ENEM, ao custo de R$ 119, mas podendo chegar a R$ 1.280 reais por 125 correções ENEM (R$ 10,24, por correção).
Plataforma Go Enem
https://gomining.com.br/plataforma-go-enem/
Mais tecnologia nacional, “desenvolvida para dar aquela força ao estudante que busca NOTA 1000 na prova de redação”. Realiza análise textual, com foco nas cinco competências do Enem.
Como argumento de venda apresenta maior motivação dos alunos, devido à “devolutiva rápida dos resultados”, além de se apresentar como ferramenta de aprendizagem personalizada, incluindo relatório de evolução de escrita individualizado.
Para as instituições escolares promete “uniformidade e objetividade nas correções”, além de “redução de custos com horas de professores corretores”, o que gera “valor financeiro” e “assertividade na gestão escolar”.
Usando chatbots genéricos
Além de ferramentas especializadas, o ChatGPT e chatbots similares podem ser utilizados de forma mais manual para a correção de tarefas e provas escritas. O diferencial é que cada professor, individualmente, precisará recriar o processo através de um prompt que estabeleça o que deve ser avaliado.
Tal comando deve ser alimentado com os critérios de avaliação, que podem tomar a forma das rubricas que já abordamos aqui na newsletter ou de rubricas padronizadas como a de correção de dissertações do ENEM ou da BNCC.
Um ponto de desvantagem é que o chatbot não contará com uma base de textos e de avaliações para treinamento específico da IA. Ainda que o professor possa incluir exemplos de textos e das correções associadas ao executar o prompt, precisaraá refazer o processo quando a “conversa” se tornar longa demais.
Além disso, a forma manual exige que os trabalhos sejam anexados um a um, diferentemente da importação em batelada que as plataformas específicas dispõe. Finalmente, não há integração com ambientes virtuais de aprendizagem, exigindo que a devolutiva também seja realizada uma a uma.
Limitações e desafios
Como qualquer âmbito de aplicação da IA, há muitos “poréns” a serem considerados. Um primeiro ponto é que como qualquer tecnologia, o uso é matizado por seu contexto, incluindo a agência do usuário final, os professores, neste caso.
Como aponta a professora Dorothy Leidner, da Universidade da Virginia, o “conhecimento declarativo”, com perguntas nas quais há demarcação mais clara entre “certo” e “errado” se presta mais à avaliação automatizada, em relação a tarefas mais personalizadas, com respostas menos definitivas.
Ainda mais, elementos relacionados à linguagem, como estrutura e gramática podem ser avaliados de foram automatizada, com os professores se dedicando à criatividade, profundidade e inovação de pensamento. Segundo a opinião de Tate, a se tecnologia permitir que os professores atribuam mais tarefas escritas e que os alunos incorporem hábitos de revisão, este já seria um ganho.
Nessa perspectiva, a IA pode ser compreendida como um auxiliar, capaz de identificar as características gerais do trabalho, orientando a avaliação mais pontual realizada pelo professor. Habilidades intangíveis, como reconhecer a individualidade de cada estudante, ainda são exclusivas de bons professores. Entre a automação total e o trabalho manual há uma ampla gama de ações.
No escopo da correção propriamente dita, há o risco da perda de nuances culturais e contextuais. O treinamento, por sua vez, pode priorizar modelos de escrita padronizada (algo que acontece já com os inúmeros cursos preparatórios par a redação do ENEM), desencorajando estilos de escrita não convencionais, mas criativos.
Em relação ao uso de forma mais ampla, as considerações “de sempre” para a IA precisam ser levadas em conta:
-
proteção da privacidade dos dados de alunos;
-
respeito aos direitos autorais e uso consentido;
-
reprodução de vieses nos dados de treinamento;
-
perda da dimensão humana no processo pedagógico;
-
dependência excessiva da tecnologia, potencialmente diminuindo a capacidade de avaliação crítica do professor.
Finalmente, toda a discussão sobre avaliação de redações e outros trabalhos escritos somente tem sentido se for o aluno quem escreveu e não um chatbot de IA.
“A IA transforma este único tópico em um longo e-mail que posso fingir que escrevi.”“A IA extrai um único tópico deste longo e-mail que posso fingir que li.”Se estudantes podem usar a IA para expandir ideias simples em textos elaborados que apresentam como próprios, enquanto professores podem usar outra IA para resumir esses textos longos a pontos essenciais, evitando sua leitura, afinal o que estamos fazendo?
Entre o potencial e as limitações, há indícios de que seu uso possa estar no equilíbrio: ferramentas de IA como ferramentas auxiliares que agilizam aspectos mecânicos da correção, permitindo que professores concentrem-se na avaliação qualitativa, que exige sensibilidade contextual e compreensão do desenvolvimento individual do aluno.
Contudo, é necessário e recomendável que experimentemos de forma crítica a tecnologia, estabelecendo limites claros sobre seu papel no processo educativo, sempre considerando professor como mediador essencial da avaliação.