CPL

Sistemas de closed caption baseados em reconhecimento de voz

Na parte 1 deste artigo, em linhas gerais, vimos como funciona a transcrição de texto usando sistemas de reconhecimento de fala. Nesta segunda parte, vamos analisar os  tipos de sistema de closed caption baseados em reconhecimento de voz que se tornaram a base de produção de legendas para programas ao vivo na maioria das emissoras do Brasil: automático e por relocução.

closed caption automático

A primeira ressalva que precisa ser feita, no caso desta tecnologia, é a respeito de sua curva de desenvolvimento bastante acentuada. É bastante impressionante o aumento da precisão deste tipo de aplicação, especialmente quando se trata de um programa onde os diálogo são mais uniformes e o áudio tem melhor qualidade, como nos caso dos telejornais, por exemplo. Sua operação dispensa dispensa operador, basta colocar a fonte de áudio no sistema gerador e este se propõe a fazer, sem nenhum auxílio humano, toda a operação de geração das legendas, incluindo a pontuação, informar quando há troca de falante, fundo musical etc.

Closed caption com relocução

O segundo método, por relocução, consiste em colocar um operador que escuta o que é dito no programa, repete para o microfone do sistema, que, além de gerar o texto a partir da fala, também permite o uso de teclas de atalho para identificar falantes, informar sobre músicas e sonoridades em geral. Há a necessidade de um bom conhecimento da língua para poder fazer esta operação, porque a pontuação também é feita através de ditado para a máquina. E tudo isso tem que ser feito mantendo uma boa dicção, condição importante para uma boa precisão.

Os atrasos das legendas

É desta cadeia de escutar, repetir e a máquina processar que surge o delay na transmissão. Além disso, como vimos na primeira parte deste artigo, da comparação dos fonemas com as palavras disponíveis no sistema, surgem probabilidades de um texto “casar” com um conjunto de sons. Ocorre que nem sempre esta estatística será perfeita, especialmente nos casos de menor incidência de uso de uma palavra dentro de algum contexto, pois ela acabará tendo menor probabilidade ocorrência, podendo gerar erro. Há, assim como na estenotipia, a possibilidade de uma palavra não encontrar seu correspondente textual, ocasionando uma “substituição” que deverá lembrar  o som da frase ou palavra original.

Mesmo no caso do closed caption automático, ainda assim há o tempo de processamento da máquina, que não deixa também de ser uma fonte de delay. O fato de não ter a operação de relocução, por outro lado, não é garantia de um atraso menor, pois, sendo um sistema mais complexo, pode demandar maior tempo de processamento. Evidentemente que isso também dependerá do equipamento que roda esta aplicação. De forma geral, seria leviano fazer uma comparação genérica, pois a maneira mais precisa de avaliação passaria pela análise da solução de cada fornecedor.

Precisão e qualidade

Pense numa grade televisiva variada, com programas jornalísticos no formato clássico, mas também programas de auditório com personagens de linguajar popular cheio de regionalismos. O desempenho de um sistema automático pode até ser interessante nos telejornais. Mas ainda deixam bastante a desejar quando são obrigados a acompanhar este ritmo de fala mais cotidiana.

A grande vantagem de ter um operador é que ele pode ajustar o modo de falar de forma a obter uma melhor precisão do reconhecimento, uniformizando melhor os dados  recebidos pelo sistema.

Além disso, não vi ainda um sistema automático que consiga fazer a identificação automática do falante. Já pude observar a sinalização da troca de falante usando o “>>”, o que funciona bem, mas perde em qualidade se comparado com a utilização da identificação entre colchetes.

As informações não literais também podem ser trabalhadas com mais detalhes quando se usa um operador para fazê-lo. Existem sistemas de closed caption automático que chegam a informar fundo musical com notinha, mas também nunca vi um que fosse capaz de informar o tipo de fundo musical, descrever a música da vinheta do programa, etc.

reconhecimento de voz é o futuro

De forma geral, os resultados obtidos usando reconhecimento de fala são cada vez mais expressivos e não estou me atendo apenas ao campo do closed caption para televisão. Esta ferramenta continua entrando em nosso cotidiano por diversas portas e janelas. É uma tecnologia que apresenta desenvolvimentos cada vez maiores e seu desempenho melhora a olhos vistos e parece que ainda há muito para onde expandir.

A dúvida que fica agora é: qual ferramenta vai te dar o melhor resultado, reconhecimento de fala com relocução ou estenotipia? Este “embate do século” fica para o próximo artigo. Até lá, sigam a gente nas redes e compartilhem esta publicação com seus conhecidos que também curtem acessibilidade!

entre em contato para saber preços e informações