Common Voice Scripted Speech 24.0 - Huautla Mazatec

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 12/5/2025

Format: MP3

Size: 197.85 MB


Share

Description

A collection of scripted spoken phrases in Huautla Mazatec.

Considerations

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

[Énná] — Huautla Mazatec (mau)

Esta ficha técnica corresponde a la versión 24.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Huautla Mazatec (mau). El conjunto de datos contiene 6269 clips reprentando 10.82 horas de grabaciones (10.42 horas validadas) de 7 hablantes.

Idioma

El mazateco (ÉNNÁ) pertenece a la familia Otomangue y sub familia popoloca mazateca, esta lengua se habla los estados de Puebla, Veracruz y principalmente en el estado de Oaxaca donde se ubican la mayor parte de la población mazateca, ahí podemos encontrar, Mazateco Occidental, Mazateco Mazatlán, Mazateco del centro, Mazateco centro oriental, Mazateco Ayautla, Mazateco Chiquihuitlán, Mazateco de Jalapa, Mazateco de Ixcatlán y Mazateco de Soyaltepec. En este articulo encontraras Mazateco del centro que comprenden los municipios de Santa María Chilchotla, Huautla de Jiménez, San José Tenango, Santa María la Asunción y San Miguel Huautapec, pero específicamente el trabajo esta centrado en la variante de la localidad de Puerto Buenavista perteneciente al municipio de San José Tenango, es decir, Mazateco del centro. La división política que se menciona en este texto se extrajo del libro Norma para la escritura del mazateco.

Variantes

Información demográfica

El conjunto de datos incluye la siguiente distribución de edad y género.

Género

Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.

GéneroPorcentaje
Undefined65.0%
Female Feminine35.0%

Edad

Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.

Rango de edadPorcentaje
Twenties21.0%
Thirties43.0%
Fourties36.0%

Corpus de texto

El cuerpo del trabajo o las oraciones fueron escritas por el propio autor refiriéndose a situaciones de la vida cotidiana en el campo, en la casa, en el trabajo y en todas la actividades que se viven a diario en la comunidad.

Sistema de escritura

En este trabajo se respeto el sistema de escritura de la Norma de escritura del idioma mazateco.

Tabla de símbolos

b ch f j k l m n ñ r s t ts x y nd ng nds nch mb jm jn jñ tj kj tsj jm jn jñ tj kj tsj chj sj jm jn jñ tj kj tsj chj sj jnd jng ntj nkj ntsj nchj

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.

Nijin titjuñá
¿Jmé xi macheén?
Chitu ndí ntsjin í.
Ntjo ngajin nandá.
Naxín tijnakjare tii.

Muestras automáticas aleatorias

Jngu stsá tsakʼiere tii ngajín liji.
¿Ndiyá ʼñu lojo tjín?
Ñú kjín kjí nutsé nga kjinkʼa.
Xka yá nimá sʼejin yojojá.
Je tibʼé xuʼnda na.

Fuentes

Propia

Dominios textuales

DominioCuenta
Undefined6269

Procesamiento

Todo el corpus fue basado en vivencias de la vida diaria en el campo, la casa y en el trabajo que se realiza en una comunidad.

Postprocesamiento recomendado

Qué tipo de procesamiento le recomendarías a una persona que quiere usar estos datos?

¡Involúcrate!

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Autores de la ficha técnica

Jesús Méndez García garciajesusm28@gmail.com María Agustina Méndez García Divina Cecilia Méndez García Gladis González Jiménez Diego Orestes Méndez García

Criterios de citación

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.