Common Voice Scripted Speech 24.0 - Central Puebla Nahuatl

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 12/5/2025

Format: MP3

Size: 231.87 MB


Share

Description

A collection of scripted spoken phrases in Central Puebla Nahuatl.

Considerations

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

[nauatl, nawatl, mexikano] — Central Puebla Nahuatl (ncx)

Esta ficha técnica corresponde a la versión 24.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Central Puebla Nahuatl (ncx). El conjunto de datos contiene 9509 clips reprentando 11.77 horas de grabaciones (10.69 horas validadas) de 41 hablantes.

Idioma

Náhuatl que se utiliza mayormente en el Centro de Veracruz y Valle de Tehuacán y alrededores, además de ser entendible en Oaxaca (norte), Morelos, Tlaxcala, Estado de México y Ciudad de México.

Variantes

Información demográfica

El conjunto de datos incluye la siguiente distribución de edad y género.

Género

Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.

GéneroPorcentaje
Undefined61.0%
Male Masculine1.0%
Female Feminine38.0%

Edad

Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.

Rango de edadPorcentaje
Undefined4.0%
Twenties15.0%
Thirties63.0%
Fourties17.0%

Corpus de texto

Frases más bien cortas, de tres a cinco palabras en su mayoría y sacadas de contextos de socialización comunes.

Sistema de escritura

Escritura práctica, utilizando la pauta propuesta por el Instituto Lingüístico de Verano.

Tabla de símbolos

a b ch e f g i j k l m n o p r s t tl ts u x y

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus. Nolti. ¿Ken nanmoestikatej? Tsinokej. ¿Kenijki nanmoyestikatej? Yope kiaui, nikeleuia se kafentsi. Yopejki kiaui, nikeleuia se kafentsi. Nimitstlasojkamatilia, moxochimauitsotsin.

Muestras automáticas aleatorias

Kuali, momauitsotsin
Panpa ne amo nechyolkokoa nimotemakas mopatka.
¿Tikmati tiajkuis?
¿Nin chikiuitl non moaxka?
¿Kanin mochan?

Fuentes

Ne noneuian Ketsaltsin, saiktlami astatl Tetlikuiti Tlasemanki onpa Chiaualpan

Dominios textuales

DominioCuenta
Undefined2832
Finance212
Healthcare212
Language Fundamentals2047
Media Entertainment4700

Procesamiento

Se siguieron pautas comunes de lenguaje cotidiano y representativo.

Postprocesamiento recomendado

Enlaces comunitarios

Discusiones

Contribuir

Autores de la ficha técnica

Luis Samuel Santiago Melchor: lssm8676969@gmail.com

Criterios de citación

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.