Common Voice Scripted Speech 24.0 - Seri

License icon

License:

CC0-1.0

Shield icon

Steward:

Common Voice

Task: ASR

Release Date: 12/5/2025

Format: MP3

Size: 208.50 MB


Share

Description

A collection of scripted spoken phrases in Seri.

Considerations

Forbidden Usage

It is forbidden to attempt to determine the identity of speakers in the common Voice datasets. It is forbidden to re-host or re-share this dataset

Processes

Intended Use

This dataset is intended to be used for training and evaluating automatic speech recognition (ASR) models. It may also be used for applications relating to computer-aided language learning (CALL) and language or heritage revitalisation.

Metadata

_ — Seri (sei)

Esta ficha técnica corresponde a la versión 24.0 del conjunto de datos de voz guiada de Mozilla Common Voice para Seri (sei). El conjunto de datos contiene 8260 clips reprentando 10.43 horas de grabaciones (10.11 horas validadas) de 16 hablantes.

Idioma

El idioma seri, conocida como cmiique iitom [kw̃ĩˈkiitom] en el idioma mismo, se habla a lo largo del Golfo de California en el estado mexicano de Sonora. Desde 1970, el pueblo seri vive en un ejido decretado por el presidente mexicano, que incluye dos pueblos, Socaaix (Punta Chueca) y Haxöl Iihom (Desemboque). Hoy en día hay alrededor de 900 hablantes del idioma.

El seri es una lengua aislada, aunque claramente ha tenido una larga historia de contacto y préstamo con otras lenguas indígenas de la región del desierto de Sonora. El seri se caracteriza por patrones morfologicos con núcleo marcado. Su sintaxis muestra orden núcleo final, lo que se observa, por ejemplo, en el orden básico de palabra SOV. Los pronombres se omiten con frecuencia y la lengua hace un uso extensivo del encadenamiento de cláusulas. En lugar de adposiciones, la lengua utiliza sustantivos relacionales que están poseídos por el nominal que modifica. Su fonología no destaca mucho, pero la lengua permite grupos consonánticos complejos y muestra ensordecimiento consonántico y vocálico.

Variantes

No hay diferencias dialectales significativas en las dos comunidades donde se habla seri.

Información demográfica

El conjunto de datos incluye la siguiente distribución de edad y género.

Género

Información de género autodeclarada, el porcentaje se refiere al número de clips anotados con este género.

GéneroPorcentaje
Undefined18.0%
Female Feminine81.0%
Do Not Wish To Say1.0%

Edad

Información de edad autodeclarada, el porcentaje se refiere al número de clips anotados con este rango de edad.

Rango de edadPorcentaje
Undefined1.0%
Twenties23.0%
Thirties27.0%
Fourties49.0%

Corpus de texto

Sistema de escritura

El sistema de escritura del idioma seri se desarrolló en la década de 1950 y se ajusta lo más posible a la ortografía española, en particular al uso de la c y la qu para el fonema /k/, y el uso del acento para marcar el énfasis en posiciones no estándar. Consta de 23 letras y dos dígrafos, y se atiene estrechamente al inventario de fonemas.

Tabla de símbolos

a, aa, c, cö, e, ee, f, h, i, ii, j, jö, l, ḻ, m, n, o, oo, p, qu, r, s, t, x, xö, y, z

Muestra

A continuación se muestran cinco oraciones seleccionadas aleatoriamente del corpus.

Xicaquiziil coi pácataj x, canoaa com cösiizcam aha. Zimjöc oo caafp iha. Hatee scoos aha. Zixquisiil quih ata quih hacx iteesxo, haaco cop ipac cöyoozquim. Ziix coqueht tiquij quiix in toc cömilj.

Muestras automáticas aleatorias

Hacat caacoj zo hatámlajc ma, comcaac quih hoox cötactim, iyooctam.
Comcaac iicot miitax hizcom, ma imaziixoj iha.
¿Xcoomoj quih tislitx?
Zixquisiil cmaam quij hant thanl toocj cöquiih coi ano cöititaai ma x, psaac imiicö.
Quisiil ctam quij quisiil cmaam quij isoj iic cöitqueepe ma, cmaax pti scooztim caha.

Fuentes

Moser, Mary Beck, & Marlett, Stephen A. (Eds.). (2010). Comcáac quih yaza quih hant ihíip hac: cmiique iitom, cocsar iitom, maricáana iitom. Plaza y Valdes.

Dominios textuales

DominioCuenta
Undefined8260

Procesamiento

Postprocesamiento recomendado

¡Involúcrate!

Enlaces comunitarios

Discusiones

Contribuir

Agradecimientos

Autores de la ficha técnica

Criterios de citación

Financiamiento

Este proyecto recibió financiamiento del Open Multilingual Speech Fund gestionado por Mozilla Common Voice.

Licencia

Este conjunto de datos se publica bajo la licencia Creative Commons Zero (CC-0). Al descargar estos datos usted acepta no determinar la identidad de los hablantes en el conjunto de datos.