Metodología de Kaomojis — Curación, Clasificación y QA

Esta página explica, en términos de ingeniería, cómo Kaomojis cura, clasifica y mantiene la calidad de más de 61.000 kaomoji. No somos una simple lista de copiar-pegar: operamos diseño de datos, deduplicación, anotación multilingüe, ranking y QA de traducción como un pipeline integrado.

1. Ingesta

Las fuentes principales son kaomoji públicos que circulan en BBS y redes sociales japonesas desde hace mucho tiempo, complementados con originales creados por nuestros editores y envíos de usuarios revisados vía /request.

Un filtro automático rechaza al ingreso contenido basado en personajes, marcas o con copyright.

Todas las cadenas se normalizan con Unicode NFC.

2. Deduplicación

Cada texto se hashea con SHA-256 y se aplica una restricción UNIQUE en la base de datos.

Los casi duplicados se marcan para revisión humana.

Aproximadamente el 8% de los candidatos son rechazados como duplicados.

3. Algoritmo de categorización

Clasificación en tres capas: categoría (emoción), evento, escena.

Las etiquetas provienen de IA → revisión editorial.

Desde la Phase 122 ampliamos de 7 a 48 emociones.

4. Algoritmo de ranking

Score dinámico: copias, favoritos, tiempo de permanencia.

Actualmente copyCount tiene mayor peso.

Recalculado cada 15 minutos.

5. Pipeline multilingüe

Cada kaomoji tiene ejemplos de uso, palabras clave y notas culturales en 12 idiomas.

Los idiomas principales pasan por revisión humana.

Las palabras clave son expresiones naturales, no traducciones literales.

6. QA de traducción

scripts/audit-translations.mjs --strict semanal. Meta < 5% sin traducir.

Añadir un idioma sigue el checklist de 16 archivos.

7. Infraestructura

Stack: Astro 6 SSR + React 19 + SQLite + PM2 + Cloudflare CDN.

TTFB ~25ms.

Sitemap: 415,000+ URLs.

8. Mejora continua

Cada cambio se registra como una "Phase" — estamos en Phase 554.

Análisis GA4 + GSC 5× al día vía cron.

Tests A/B evaluados automáticamente.

Última actualización: 2026-04-15 (Phase 554)

→ About → Contact → Public REST API → Guide