Reconhecimento de voz ou estenotipia: qual é o melhor serviço?

reconhecimento de voz vs estenotipia para closed caption ao vivo

REconhecimento de voz x estenotipia

Chegou o dia do grande fight! Muita calma nessa hora! A ideia não é fazer um combate direto, mas uma análise que te dê instrumentos para poder se orientar sobre as vantagens e limitações de cada modelo de produção.

Pedindo ajuda ao especialista

Como a iniciativa deste guia é do CPL – Soluções em acessibilidade, empresa que usa reconhecimento de fala para a produção de closed caption, fui pedir ajuda internacional a um dos maiores especialistas sobre o assunto em solo yankee, Gary Robson. Infelizmente, não foi um papo ao vivo, mas podemos contar com os dados e informações disponibilizados por ele no livro The Closed Captioning Handbook para trazermos uma certa neutralidade à comparação.

Closed Caption nos EUA, solo fértil

Os EUA são um terreno fértil para observações nesta área, pois lá a ferramenta já existe e é usada há muito tempo. Com isso, eles já passaram por diversas fases, o que resultou, inclusive, numa proliferação das Captioning Houses, como muitas vezes são chamadas as empresas produtoras.

A consequência disso é que surgiram vários profissionais, tanto da operação por voz, quanto por digitação, formando associações nacionais de “voice writers” e “stenocaptioners” . Evidentemente que cada uma das organizações têm uma vasta gama de dados que comprovam que seu método é o melhor e mais eficiente.

Robson também foi buscar uma ajuda fora deste embate, recorrendo a Marty Block, um dos mais enfáticos proponentes do uso de estenotipia para closed caption, chegando a ser presidente da NCRA (uma espécie de associação nacional de estenotipistas) durante um mandato, e que se tornou CEO de uma empresa concorrente que trabalha com reconhecimento de fala.

Qual é o melhor método: a resposta de Block

Block diz que bons operadores, tanto por voz quanto por estenotipia, farão trabalhos de qualidade similar. Ele aponta, por outro lado, que levando em consideração o melhor estenotipista contra o melhor voice writer, o processo de digitação será o mais preciso.

O mais curioso, no entanto, é que Block deixa a estenotipia por não acreditar que a quantidade de stenocaptioners de ponta daria conta da imensa demanda, pois o tempo de aprendizado da técnica, para atingir níveis mínimos para uma transmissão de TV, é muito grande (anos) quando comparado ao tempo de formação de um captioner por voz. Nisso há fortes impactos de mercado, como o alto custo de mão de obra, visto à restrição de oferta de profissionais e o consequente aumento do custo do serviço.

É importante deixar claro que este livro traz estudos dos anos 2000 e que esta realidade vem mudando de forma cada vez mais favorável ao reconhecimento de voz, pois a estenotipia, apesar de também ter evoluído neste período, é uma tecnologia muito bem acabada, que parece já ter atingido seu ápice. Enquanto isso, do outro lado, gigantes da indústria como Apple, IBM e Google apostam suas fichas (e investimentos) para que esta ferramenta seja cada vez mais eficiente em todas as suas amplas possibilidades de uso.

Espero que até aqui tenha dado para se ter um panorama geral dos modelos de produção. Acho interessante aprofundarmos em questões mais específicas e cotidianas da operacionalização destes serviços. Mas faremos isso no próximo artigo. Enquanto isso, siga a gente nas redes, mande sua dúvida e comentário e até lá!

Curtiu? Compartilhe!

Reconhecimento de voz ou estenotipia: qual é o melhor serviço?

Reconhecimento de voz ou estenotipia, qual deles é melhor? Qual tem o menor preço? Vamos avaliar essas questões neste artigo. Confira!

CPLnovembro 13, 2019

Sistemas de Closed Caption por Reconhecimento de Voz ou de Fala

Conheça os diferentes tipos de sistema de closed caption baseado em reconhecimento de voz que estão dominando o mercado de acessibilidade. Leia o artigo!

CPLagosto 28, 2019

Closed Caption para Programas ao Vivo por Reconhecimento de fala

Dá para ditar para um aplicativo e ele escrever o texto? Veja como isso funciona no cado do Closed Caption para Programas ao Vivo por Reconhecimento de Fala!

CPLagosto 7, 2019

Reconhecimento de voz ou estenotipia: qual é o melhor serviço?

Reconhecimento de voz ou estenotipia, qual deles é melhor? Qual tem o menor preço? Vamos avaliar essas questões neste artigo. Confira!

CPLnovembro 13, 2019

Sistemas de Closed Caption por Reconhecimento de Voz ou de Fala

Conheça os diferentes tipos de sistema de closed caption baseado em reconhecimento de voz que estão dominando o mercado de acessibilidade. Leia o artigo!

CPLagosto 28, 2019

Closed Caption para Programas ao Vivo por Reconhecimento de fala

Dá para ditar para um aplicativo e ele escrever o texto? Veja como isso funciona no cado do Closed Caption para Programas ao Vivo por Reconhecimento de Fala!

CPLagosto 7, 2019

entre em contato para saber preços e informações

agosto 28, 2019janeiro 23, 2024

Sistemas de Closed Caption por Reconhecimento de Voz ou de Fala

CLosed Caption ao Vivo por Reconhecimento de Voz

Sistemas de closed caption baseados em reconhecimento de voz

Na parte 1 deste artigo, em linhas gerais, vimos como funciona a transcrição de texto usando sistemas de reconhecimento de fala. Nesta segunda parte, vamos analisar os tipos de sistema de closed caption baseados em reconhecimento de voz que se tornaram a base de produção de legendas para programas ao vivo na maioria das emissoras do Brasil: automático e por relocução.

closed caption automático

A primeira ressalva que precisa ser feita, no caso desta tecnologia, é a respeito de sua curva de desenvolvimento bastante acentuada. É bastante impressionante o aumento da precisão deste tipo de aplicação, especialmente quando se trata de um programa onde os diálogo são mais uniformes e o áudio tem melhor qualidade, como nos caso dos telejornais, por exemplo. Sua operação dispensa dispensa operador, basta colocar a fonte de áudio no sistema gerador e este se propõe a fazer, sem nenhum auxílio humano, toda a operação de geração das legendas, incluindo a pontuação, informar quando há troca de falante, fundo musical etc.

Closed caption com relocução

O segundo método, por relocução, consiste em colocar um operador que escuta o que é dito no programa, repete para o microfone do sistema, que, além de gerar o texto a partir da fala, também permite o uso de teclas de atalho para identificar falantes, informar sobre músicas e sonoridades em geral. Há a necessidade de um bom conhecimento da língua para poder fazer esta operação, porque a pontuação também é feita através de ditado para a máquina. E tudo isso tem que ser feito mantendo uma boa dicção, condição importante para uma boa precisão.

Os atrasos das legendas

É desta cadeia de escutar, repetir e a máquina processar que surge o delay na transmissão. Além disso, como vimos na primeira parte deste artigo, da comparação dos fonemas com as palavras disponíveis no sistema, surgem probabilidades de um texto “casar” com um conjunto de sons. Ocorre que nem sempre esta estatística será perfeita, especialmente nos casos de menor incidência de uso de uma palavra dentro de algum contexto, pois ela acabará tendo menor probabilidade ocorrência, podendo gerar erro. Há, assim como na estenotipia, a possibilidade de uma palavra não encontrar seu correspondente textual, ocasionando uma “substituição” que deverá lembrar o som da frase ou palavra original.

Mesmo no caso do closed caption automático, ainda assim há o tempo de processamento da máquina, que não deixa também de ser uma fonte de delay. O fato de não ter a operação de relocução, por outro lado, não é garantia de um atraso menor, pois, sendo um sistema mais complexo, pode demandar maior tempo de processamento. Evidentemente que isso também dependerá do equipamento que roda esta aplicação. De forma geral, seria leviano fazer uma comparação genérica, pois a maneira mais precisa de avaliação passaria pela análise da solução de cada fornecedor.

Precisão e qualidade

Pense numa grade televisiva variada, com programas jornalísticos no formato clássico, mas também programas de auditório com personagens de linguajar popular cheio de regionalismos. O desempenho de um sistema automático pode até ser interessante nos telejornais. Mas ainda deixam bastante a desejar quando são obrigados a acompanhar este ritmo de fala mais cotidiana.

A grande vantagem de ter um operador é que ele pode ajustar o modo de falar de forma a obter uma melhor precisão do reconhecimento, uniformizando melhor os dados recebidos pelo sistema.

Além disso, não vi ainda um sistema automático que consiga fazer a identificação automática do falante. Já pude observar a sinalização da troca de falante usando o “>>”, o que funciona bem, mas perde em qualidade se comparado com a utilização da identificação entre colchetes.

As informações não literais também podem ser trabalhadas com mais detalhes quando se usa um operador para fazê-lo. Existem sistemas de closed caption automático que chegam a informar fundo musical com notinha, mas também nunca vi um que fosse capaz de informar o tipo de fundo musical, descrever a música da vinheta do programa, etc.

reconhecimento de voz é o futuro

De forma geral, os resultados obtidos usando reconhecimento de fala são cada vez mais expressivos e não estou me atendo apenas ao campo do closed caption para televisão. Esta ferramenta continua entrando em nosso cotidiano por diversas portas e janelas. É uma tecnologia que apresenta desenvolvimentos cada vez maiores e seu desempenho melhora a olhos vistos e parece que ainda há muito para onde expandir.

A dúvida que fica agora é: qual ferramenta vai te dar o melhor resultado, reconhecimento de fala com relocução ou estenotipia? Este “embate do século” fica para o próximo artigo. Até lá, sigam a gente nas redes e compartilhem esta publicação com seus conhecidos que também curtem acessibilidade!

Curtiu? Compartilhe!

Reconhecimento de voz ou estenotipia: qual é o melhor serviço?

Reconhecimento de voz ou estenotipia, qual deles é melhor? Qual tem o menor preço? Vamos avaliar essas questões neste artigo. Confira!

REconhecimento de voz x estenotipia

Pedindo ajuda ao especialista

Closed Caption nos EUA, solo fértil

Qual é o melhor método: a resposta de Block

Curtiu? Compartilhe!

Serviços

sobre

contatos

Sistemas de closed caption baseados em reconhecimento de voz

closed caption automático

Closed caption com relocução

Os atrasos das legendas

Precisão e qualidade

reconhecimento de voz é o futuro

Curtiu? Compartilhe!

Serviços

sobre

contatos

Closed Caption para Programas ao Vivo por Reconhecimento de fala - parte 1

Reconhecimento de fala ou de voz?

O tipos de reconhecimento de fala

Curtiu? Compartilhe!

Serviços

sobre

contatos

closed caption para programas ao vivo por estenotipia

transcrição com estenotipia

Veja a estenotipia na prática

o código da estenotipia

Curtiu? Compartilhe!

Serviços

sobre

contatos

Recursos do Closed Caption para Programas ao Vivo

Modo de exibição

">>" um Símbolo especial

identificando o falante

Posição da legenda

Atraso da legenda

Curtiu? Compartilhe!

Serviços

sobre

contatos

Recursos do closed caption gravado em mídias

Identificação do falante

Posição das legendas

como informar músicas

Fundo musical

Cantando

Outras situações

Legendas múltiplas

informação não literal

Onomatopeias

Itálico

Curtiu? Compartilhe!

Serviços

sobre

contatos

O que é closed caption?

Para quem serve

Recursos on x off

Curtiu? Compartilhe!

Serviços

sobre

contatos