Resumenes Vol. 38 No.4 de 2006
 

DETECCIÓN DE EXTREMOS EN SEÑALES DE VOZ UTILIZANDO CARACTERÍSTICAS DE ENERGÍA Y ENTROPÍA

E. A. Rueda, Y. Torres

Resumen

En el tratamiento digital de la voz es necesario e importante conocer donde empieza y donde termina la señal de voz con exactitud, por ejemplo, en aplicaciones como las de reconocimiento de voz es necesario procesar previamente la señal; la cual consiste de segmentos de voz, silencio y otros considerados como ruido.
Se propone un algoritmo para la solución de este problema. Teniendo en cuenta los siguientes requerimientos: Robustez (funcione en ambientes adversos), Baja complejidad computacional (fácil implementación), rápido tiempo de respuesta y, exactitud a la hora de encontrar los puntos de inicio y de fin de la voz. El algoritmo se diseño en tres etapas: La primera etapa viene asociada con el requerimiento de robustez al ruido a través de la técnica de substracción espectral; en la segunda etapa se mejora la calidad de la señal de voz a través de filtros y otras técnicas; en la tercera y última etapa se encuentran los limites de la señal. Para lograrlo, lo primero que se hace es extraer los parámetros que sirven como discriminantes entre segmentos que tienen voz y los que no. Para esto se utilizan las características de energía y entropía de la señal. Finalmente, la señal es enviada a una máquina de decisión que se encarga de clasificar los segmentos voz, y no voz. Durante todo el proceso se hace una evaluación de los resultados y se compara el resultado obtenido con los reportados para las técnicas de la energía y de la entropía..

Palabras claves: Detección de voz, puntos de inicio y fin, substracción espectral.


Abstract

Currently, many applications of speech are in development. In these applications it is necessary to know exactly where the signal of speech begins and ends, or "endpoint detection". In applications like voice recognition, it is necessary to preprocess signals. The voice signal is composed of speech signal, silence and noise segments. An algorithm to solve this problem is proposed. The algorithm seeks to fulfill the following requirements: Robustness (it works in adverse noises), low complexity (easy computational implementation), fast time of response and mainly, accurate to find the beginning and end points. The proposed algorithm is designed in three stages: The first stage comes associated to the robustness requirement and uses the spectral subtraction technique for noise reduction; the second stage improves the quality and the SNR ratio of the voice signal through the application of filters and other techniques; in the third or last stage, the algorithm seeks to find the limits of speech. The algorithm extracts different parameters to make speech and non-speech discriminations. For this, energy characteristics and signal entropy are used. Finally, the signal is sent to a decision machine to classify between speech and non-speech. Throughout the algorithm, an evaluation process is made of the results to compare them to those reported for
the techniques of algorithm energy and entropy.

 

keywords: Speech detection, endpoint, spectral subtraction
Formatos Disponibles: Pdf