CPL

Closed Caption para Programas ao Vivo por Reconhecimento de fala - parte 1

Já foi mais difícil explicar para as pessoas como funciona o Closed Caption para Programas ao Vivo por reconhecimento de fala. Sempre rolava aquela cara de espanto de saber que uma máquina podia “entender” o que era dito e escrever em seguida. Hoje essa ferramenta virou brinquedo e/ou utilitário na mão de gente pelo mundo todo com a popularidade do seu uso em celulares e outros dispositivos inteligentes.

Mas é importante, antes de saber como essa maravilhosa tecnologia funciona, desfazer algumas confusões bem comuns sobre modos e tipos de reconhecimentos.

Reconhecimento de fala ou de voz?

A primeira confusão mais comum é chamar o reconhecimento de fala como reconhecimento de voz. Ora, mas não é a mesma coisa? Na verdade, em termos de tecnologia e funcionalidade, não.

Quando usa-se o termo reconhecimento de voz, se faz referência a possibilidade de uma pessoa ser reconhecida pela sua voz, mas não necessariamente que será “entendido” o que ela falou. Assim sendo, sistemas de segurança poderiam ser baseados neste tipo de aplicação, travando ou destravando portas, funcionando como senha etc.

Por outro lado, o que nos interessa aqui, é que o computador seja capaz de entender o que dizemos e escrever em seguida da forma mais rápida possível. Esta é a aplicação do reconhecimento de fala.

O tipos de reconhecimento de fala

Entendida esta diferença, temos outra que precisa ser esclarecida: a necessidade de calibragem ou não.Os sistemas mais tradicionais, como o Via Voice, da IBM, precisavam que a pessoa que quisesse ditar para ele e obter um bom índice de acertos calibrasse o software antes de iniciar o uso, lendo textos para que o aplicativo começasse a se “acostumar” com a voz daquele locutor. A partir dali, aquele operador estava apto a trabalhar. Porém era sempre necessário calibrar cada novo usuário.

Comparando com o que temos em nossos celulares, percebemos já uma grande diferença. Em nossos telefones não precisamos fazer nenhum ajuste para começar a usar, simplesmente vamos falando e ele vai escrevendo, e continua a funcionar da mesma forma até se outra pessoa falar em nosso aparelho. Esse é o segundo caso onde não há a necessidade de calibragem.

Existem diferenças técnicas entre esses dois tipos e antigamente isso tinha grandes reflexos na precisão do texto final. Atualmente, com a grande evolução da Inteligência Artificial, o reconhecimento de fala sem calibragem chegou em níveis muito interessantes. Por isso, vamos tentar entender de forma genérica como funciona a parte da transcrição, independente de ser calibrada, de forma que, em artigos futuros, possamos discutir as soluções de mercado mais usadas no país, comparando seus recursos, vantagens, desvantagens e aplicabilidades.

De forma bem simplificada, o que acontece entre o som da fala e a escrita pode ser dividido em 3 etapas. Na primeira, o som do que é dito precisa ser convertido de alguma forma para dados de computador, para que possam ser analisados. Isso é feito através do microfone e uma placa de áudio normalmente, captando as vibrações da fala (as ondas sonoras) e transformando em informações digitais. Em seguida, esses dados são interpretados por um programa, que quebra a frase dita em fonemas e estuda as chances daquele som se parecer com alguma palavra que conste no sistema.Na terceira etapa, o aplicativo de reconhecimento de fala verifica qual foi a palavra com maior chance sucesso e a retorna em forma de texto. Tudo isso, claro, numa fração de segundos.

Só desta explicação, já dá para ter uma ideia que, assim como a estenotipia, o reconhecimento de fala para closed caption também terá seus erros, bem como seus atrasos (delays). Vamos explorá-los na parte 2 deste artigo, quando entenderemos como funciona a operação da legenda oculta baseada em voz. Até lá siga a gente nas redes e continue nos acompanhando.

entre em contato para saber preços e informações