Metodología de Kaomojis — Curación, Clasificación y QA
Esta página explica, en términos de ingeniería, cómo Kaomojis cura, clasifica y mantiene la calidad de más de 61.000 kaomoji. No somos una simple lista de copiar-pegar: operamos diseño de datos, deduplicación, anotación multilingüe, ranking y QA de traducción como un pipeline integrado.
1. Ingesta
Las fuentes principales son kaomoji públicos que circulan en BBS y redes sociales japonesas desde hace mucho tiempo, complementados con originales creados por nuestros editores y envíos de usuarios revisados vía /request.
Un filtro automático rechaza al ingreso contenido basado en personajes, marcas o con copyright.
Todas las cadenas se normalizan con Unicode NFC.
2. Deduplicación
Cada texto se hashea con SHA-256 y se aplica una restricción UNIQUE en la base de datos.
Los casi duplicados se marcan para revisión humana.
Aproximadamente el 8% de los candidatos son rechazados como duplicados.
3. Algoritmo de categorización
Clasificación en tres capas: categoría (emoción), evento, escena.
Las etiquetas provienen de IA → revisión editorial.
Desde la Phase 122 ampliamos de 7 a 48 emociones.
4. Algoritmo de ranking
Score dinámico: copias, favoritos, tiempo de permanencia.
Actualmente copyCount tiene mayor peso.
Recalculado cada 15 minutos.
5. Pipeline multilingüe
Cada kaomoji tiene ejemplos de uso, palabras clave y notas culturales en 12 idiomas.
Los idiomas principales pasan por revisión humana.
Las palabras clave son expresiones naturales, no traducciones literales.
6. QA de traducción
scripts/audit-translations.mjs --strict semanal. Meta < 5% sin traducir.
Añadir un idioma sigue el checklist de 16 archivos.
7. Infraestructura
Stack: Astro 6 SSR + React 19 + SQLite + PM2 + Cloudflare CDN.
TTFB ~25ms.
Sitemap: 415,000+ URLs.
8. Mejora continua
Cada cambio se registra como una "Phase" — estamos en Phase 554.
Análisis GA4 + GSC 5× al día vía cron.
Tests A/B evaluados automáticamente.
Última actualización: 2026-04-15 (Phase 554)