Kaomojis 방법론 — 수집, 분류, 품질관리

이 페이지는 Kaomojis가 61,000개 이상의 카오모지를 어떻게 수집, 분류, 품질관리하는지 엔지니어링 관점에서 설명합니다. 단순한 복사·붙여넣기 사이트가 아니라 데이터 설계, 중복 제거, 다국어 주석, 랭킹, 번역 QA를 통합 파이프라인으로 운영합니다.

1. 수집

주요 출처는 일본 BBS·소셜 미디어에 오래전부터 유통된 공개 카오모지입니다. 편집자 창작과 검토된 /request 제출도 추가됩니다.

수집 시 캐릭터·상표·저작권 콘텐츠를 자동 스크리닝합니다.

모든 문자열은 Unicode NFC 정규화를 거칩니다.

각 카오모지 텍스트는 SHA-256 해시 후 DB 층의 UNIQUE 제약으로 중복 거부됩니다.

근접 중복은 사람 검토 대상으로 플래그됩니다.

후보의 약 8%가 중복으로 자동 거부됩니다.

분류는 3층 구조: 카테고리(감정), 이벤트, 장면.

AI 초안 → 편집자 검토 파이프라인.

Phase 122 이후 감정을 7종에서 48종으로 확장.

복사 수·즐겨찾기·체류 시간 기반 동적 스코어.

현재 copyCount 비중이 가장 큽니다.

15분마다 재계산됩니다.

각 카오모지에 12개 언어의 사용 예·키워드·문화 주석을 부여합니다.

주요 언어는 사람 검수.

키워드는 직역이 아닌 언어별 자연스러운 검색어.

scripts/audit-translations.mjs --strict 매주 실행. 목표 5% 미만.

새 언어 추가는 16개 파일을 커버하는 체크리스트 사용.

스택: Astro 6 SSR + React 19 + SQLite + PM2 + Cloudflare CDN.

TTFB 약 25ms.

사이트맵: 415,000+ URL, 샤딩 처리.

모든 변경은 "Phase"로 기록 — 2026-04 기준 Phase 554.

GA4 + GSC 분석 하루 5회 자동 실행.

A/B 테스트 자동 평가.

최종 업데이트: 2026-04-15 (Phase 554)