CPL

Sistemas de Closed Caption por Reconhecimento de Voz ou de Fala

CLosed Caption ao Vivo por Reconhecimento de Voz

Sistemas de closed caption baseados em reconhecimento de voz

Na parte 1 deste artigo, em linhas gerais, vimos como funciona a transcrição de texto usando sistemas de reconhecimento de fala. Nesta segunda parte, vamos analisar os  tipos de sistema de closed caption baseados em reconhecimento de voz que se tornaram a base de produção de legendas para programas ao vivo na maioria das emissoras do Brasil: automático e por relocução.

closed caption automático

A primeira ressalva que precisa ser feita, no caso desta tecnologia, é a respeito de sua curva de desenvolvimento bastante acentuada. É bastante impressionante o aumento da precisão deste tipo de aplicação, especialmente quando se trata de um programa onde os diálogo são mais uniformes e o áudio tem melhor qualidade, como nos caso dos telejornais, por exemplo. Sua operação dispensa dispensa operador, basta colocar a fonte de áudio no sistema gerador e este se propõe a fazer, sem nenhum auxílio humano, toda a operação de geração das legendas, incluindo a pontuação, informar quando há troca de falante, fundo musical etc.

Closed caption com relocução

O segundo método, por relocução, consiste em colocar um operador que escuta o que é dito no programa, repete para o microfone do sistema, que, além de gerar o texto a partir da fala, também permite o uso de teclas de atalho para identificar falantes, informar sobre músicas e sonoridades em geral. Há a necessidade de um bom conhecimento da língua para poder fazer esta operação, porque a pontuação também é feita através de ditado para a máquina. E tudo isso tem que ser feito mantendo uma boa dicção, condição importante para uma boa precisão.

Os atrasos das legendas

É desta cadeia de escutar, repetir e a máquina processar que surge o delay na transmissão. Além disso, como vimos na primeira parte deste artigo, da comparação dos fonemas com as palavras disponíveis no sistema, surgem probabilidades de um texto “casar” com um conjunto de sons. Ocorre que nem sempre esta estatística será perfeita, especialmente nos casos de menor incidência de uso de uma palavra dentro de algum contexto, pois ela acabará tendo menor probabilidade ocorrência, podendo gerar erro. Há, assim como na estenotipia, a possibilidade de uma palavra não encontrar seu correspondente textual, ocasionando uma “substituição” que deverá lembrar  o som da frase ou palavra original.

Mesmo no caso do closed caption automático, ainda assim há o tempo de processamento da máquina, que não deixa também de ser uma fonte de delay. O fato de não ter a operação de relocução, por outro lado, não é garantia de um atraso menor, pois, sendo um sistema mais complexo, pode demandar maior tempo de processamento. Evidentemente que isso também dependerá do equipamento que roda esta aplicação. De forma geral, seria leviano fazer uma comparação genérica, pois a maneira mais precisa de avaliação passaria pela análise da solução de cada fornecedor.

Precisão e qualidade

Pense numa grade televisiva variada, com programas jornalísticos no formato clássico, mas também programas de auditório com personagens de linguajar popular cheio de regionalismos. O desempenho de um sistema automático pode até ser interessante nos telejornais. Mas ainda deixam bastante a desejar quando são obrigados a acompanhar este ritmo de fala mais cotidiana.

A grande vantagem de ter um operador é que ele pode ajustar o modo de falar de forma a obter uma melhor precisão do reconhecimento, uniformizando melhor os dados  recebidos pelo sistema.

Além disso, não vi ainda um sistema automático que consiga fazer a identificação automática do falante. Já pude observar a sinalização da troca de falante usando o “>>”, o que funciona bem, mas perde em qualidade se comparado com a utilização da identificação entre colchetes.

As informações não literais também podem ser trabalhadas com mais detalhes quando se usa um operador para fazê-lo. Existem sistemas de closed caption automático que chegam a informar fundo musical com notinha, mas também nunca vi um que fosse capaz de informar o tipo de fundo musical, descrever a música da vinheta do programa, etc.

reconhecimento de voz é o futuro

De forma geral, os resultados obtidos usando reconhecimento de fala são cada vez mais expressivos e não estou me atendo apenas ao campo do closed caption para televisão. Esta ferramenta continua entrando em nosso cotidiano por diversas portas e janelas. É uma tecnologia que apresenta desenvolvimentos cada vez maiores e seu desempenho melhora a olhos vistos e parece que ainda há muito para onde expandir.

A dúvida que fica agora é: qual ferramenta vai te dar o melhor resultado, reconhecimento de fala com relocução ou estenotipia? Este “embate do século” fica para o próximo artigo. Até lá, sigam a gente nas redes e compartilhem esta publicação com seus conhecidos que também curtem acessibilidade!

entre em contato para saber preços e informações

Preciso fazer Closed Caption se meu filme não tem diálogos?

closed caption em filme sem som

Preciso de Closed Caption se meu filme não tem diálogos?

Às vezes um comercial, um teaser ou até mesmo curta metragens podem prescindir de diálogos e focar apenas em imagens. Nesses caso não é incomum surgir a dúvida: “mas se ninguém fala nada, por que eu tenho fazer closed caption?”

Como vimos em outros artigos, a Legenda Descritiva não é apenas a transcrição de diálogos. Ela envolve todo um sistema de informação muito mais amplo, com adaptações e informações que as legendas tradicionais não apresentam.

Imaginem o filme Tubarão sem seu fundo musical, ou um filme de terror sem sua trilha horripilante. Muitas vezes é esta sonoridade que dá o clima da cena e, sendo tão importante, mesmo que a pessoa não possa ouvir, é essencial que ela saiba qual é o clima do filme naquele momento.

Até mesmo numa situação, que por algum motivo possa ocorrer, de o filme não ter qualquer som, ser completamente mudo, cabe, ainda assim, passar esta informação, visto que o usual da linguagem audiovisual, e portanto a expectativa da pessoa com deficiência auditiva, é que algum som estará presente, o que pode causar a impressão de que ele está perdendo algum tipo de informação.

Por isso, respondendo à questão que dá título à esta publicação, SIM! Sempre será importante e sempre caberá adicionar closed caption à sua obra!

O que é Setembro Azul e por que comemorar a data?

Os surdos, assim como outras pessoas com deficiência, eram obrigados a usar uma faixa azul no regime nazista. Então como ela se tornou símbolo de uma causa tão importante e de um mês de festividades? Descubra neste artigo!

Ler mais

O que é Setembro Azul e por que comemorar a data?

Os surdos, assim como outras pessoas com deficiência, eram obrigados a usar uma faixa azul no regime nazista. Então como ela se tornou símbolo de uma causa tão importante e de um mês de festividades? Descubra neste artigo!

Ler mais

entre em contato para saber preços e informações

Closed Caption para Programas ao Vivo por Reconhecimento de fala

Closed Caption ao Vivo por Reconhecimento de Fala

Closed Caption para Programas ao Vivo por Reconhecimento de fala - parte 1

Já foi mais difícil explicar para as pessoas como funciona o Closed Caption para Programas ao Vivo por reconhecimento de fala. Sempre rolava aquela cara de espanto de saber que uma máquina podia “entender” o que era dito e escrever em seguida. Hoje essa ferramenta virou brinquedo e/ou utilitário na mão de gente pelo mundo todo com a popularidade do seu uso em celulares e outros dispositivos inteligentes.

Mas é importante, antes de saber como essa maravilhosa tecnologia funciona, desfazer algumas confusões bem comuns sobre modos e tipos de reconhecimentos.

Reconhecimento de fala ou de voz?

A primeira confusão mais comum é chamar o reconhecimento de fala como reconhecimento de voz. Ora, mas não é a mesma coisa? Na verdade, em termos de tecnologia e funcionalidade, não.

Quando usa-se o termo reconhecimento de voz, se faz referência a possibilidade de uma pessoa ser reconhecida pela sua voz, mas não necessariamente que será “entendido” o que ela falou. Assim sendo, sistemas de segurança poderiam ser baseados neste tipo de aplicação, travando ou destravando portas, funcionando como senha etc.

Por outro lado, o que nos interessa aqui, é que o computador seja capaz de entender o que dizemos e escrever em seguida da forma mais rápida possível. Esta é a aplicação do reconhecimento de fala.

O tipos de reconhecimento de fala

Entendida esta diferença, temos outra que precisa ser esclarecida: a necessidade de calibragem ou não.Os sistemas mais tradicionais, como o Via Voice, da IBM, precisavam que a pessoa que quisesse ditar para ele e obter um bom índice de acertos calibrasse o software antes de iniciar o uso, lendo textos para que o aplicativo começasse a se “acostumar” com a voz daquele locutor. A partir dali, aquele operador estava apto a trabalhar. Porém era sempre necessário calibrar cada novo usuário.

Comparando com o que temos em nossos celulares, percebemos já uma grande diferença. Em nossos telefones não precisamos fazer nenhum ajuste para começar a usar, simplesmente vamos falando e ele vai escrevendo, e continua a funcionar da mesma forma até se outra pessoa falar em nosso aparelho. Esse é o segundo caso onde não há a necessidade de calibragem.

Existem diferenças técnicas entre esses dois tipos e antigamente isso tinha grandes reflexos na precisão do texto final. Atualmente, com a grande evolução da Inteligência Artificial, o reconhecimento de fala sem calibragem chegou em níveis muito interessantes. Por isso, vamos tentar entender de forma genérica como funciona a parte da transcrição, independente de ser calibrada, de forma que, em artigos futuros, possamos discutir as soluções de mercado mais usadas no país, comparando seus recursos, vantagens, desvantagens e aplicabilidades.

De forma bem simplificada, o que acontece entre o som da fala e a escrita pode ser dividido em 3 etapas. Na primeira, o som do que é dito precisa ser convertido de alguma forma para dados de computador, para que possam ser analisados. Isso é feito através do microfone e uma placa de áudio normalmente, captando as vibrações da fala (as ondas sonoras) e transformando em informações digitais. Em seguida, esses dados são interpretados por um programa, que quebra a frase dita em fonemas e estuda as chances daquele som se parecer com alguma palavra que conste no sistema.Na terceira etapa, o aplicativo de reconhecimento de fala verifica qual foi a palavra com maior chance sucesso e a retorna em forma de texto. Tudo isso, claro, numa fração de segundos.

Só desta explicação, já dá para ter uma ideia que, assim como a estenotipia, o reconhecimento de fala para closed caption também terá seus erros, bem como seus atrasos (delays). Vamos explorá-los na parte 2 deste artigo, quando entenderemos como funciona a operação da legenda oculta baseada em voz. Até lá siga a gente nas redes e continue nos acompanhando.

entre em contato para saber preços e informações