Skip to main content

Методология Kaomojis — курирование, классификация и QA

Эта страница объясняет, как Kaomojis курирует, классифицирует и поддерживает качество более 48 000 каомодзи. Это не простой копипейст-сайт: мы управляем проектированием данных, дедупликацией, многоязычной аннотацией, рейтингом и QA переводов как интегрированным пайплайном.

1. Загрузка

Основные источники: публичные каомодзи, давно циркулирующие в японских BBS и соцсетях, плюс оригиналы наших редакторов и проверенные заявки /request.

При загрузке автоматический фильтр отклоняет контент с персонажами/брендами/copyright.

Все строки нормализуются Unicode NFC.

2. Дедупликация

Каждый текст хэшируется SHA-256, в БД — ограничение UNIQUE.

Почти-дубликаты отмечаются для ручного разбора.

Около 8% кандидатов отклоняются.

3. Классификация

Трёхуровневая: категория (эмоция), событие, сцена.

Черновик ИИ → редакторский обзор.

Начиная с Phase 122 расширили с 7 до 48 эмоций.

4. Рейтинг

Динамический score: копии, избранное, время на странице.

copyCount имеет наибольший вес.

Пересчёт каждые 15 минут.

5. Многоязычный пайплайн

Каждое каомодзи: примеры, ключевые слова, заметки на 12 языках.

Основные языки проходят ручную проверку.

Ключевые слова — естественные поисковые выражения, не буквальные переводы.

6. QA перевода

audit-translations.mjs --strict еженедельно. Цель < 5% непереведённого.

Добавление языка — чеклист из 16 файлов.

7. Инфраструктура

Стек: Astro 6 SSR + React 19 + SQLite + PM2 + Cloudflare CDN.

TTFB ~25 мс.

Sitemap: 415 000+ URL.

8. Непрерывное улучшение

Каждое изменение — "Phase" — в 2026-04 мы на Phase 554.

Анализ GA4 + GSC 5× в день.

A/B тесты оцениваются автоматически.

Последнее обновление: 2026-04-15 (Phase 554)