Методология Kaomojis — курирование, классификация и QA
Эта страница объясняет, как Kaomojis курирует, классифицирует и поддерживает качество более 48 000 каомодзи. Это не простой копипейст-сайт: мы управляем проектированием данных, дедупликацией, многоязычной аннотацией, рейтингом и QA переводов как интегрированным пайплайном.
1. Загрузка
Основные источники: публичные каомодзи, давно циркулирующие в японских BBS и соцсетях, плюс оригиналы наших редакторов и проверенные заявки /request.
При загрузке автоматический фильтр отклоняет контент с персонажами/брендами/copyright.
Все строки нормализуются Unicode NFC.
2. Дедупликация
Каждый текст хэшируется SHA-256, в БД — ограничение UNIQUE.
Почти-дубликаты отмечаются для ручного разбора.
Около 8% кандидатов отклоняются.
3. Классификация
Трёхуровневая: категория (эмоция), событие, сцена.
Черновик ИИ → редакторский обзор.
Начиная с Phase 122 расширили с 7 до 48 эмоций.
4. Рейтинг
Динамический score: копии, избранное, время на странице.
copyCount имеет наибольший вес.
Пересчёт каждые 15 минут.
5. Многоязычный пайплайн
Каждое каомодзи: примеры, ключевые слова, заметки на 12 языках.
Основные языки проходят ручную проверку.
Ключевые слова — естественные поисковые выражения, не буквальные переводы.
6. QA перевода
audit-translations.mjs --strict еженедельно. Цель < 5% непереведённого.
Добавление языка — чеклист из 16 файлов.
7. Инфраструктура
Стек: Astro 6 SSR + React 19 + SQLite + PM2 + Cloudflare CDN.
TTFB ~25 мс.
Sitemap: 415 000+ URL.
8. Непрерывное улучшение
Каждое изменение — "Phase" — в 2026-04 мы на Phase 554.
Анализ GA4 + GSC 5× в день.
A/B тесты оцениваются автоматически.
Последнее обновление: 2026-04-15 (Phase 554)