Kaomojis 方法論 — 收集、分類與品質管理
本頁以工程術語說明 Kaomojis 如何為61,000+條顏文字進行收集、分類和品質管理。我們並非簡單的複製貼上網站,而是以整合流水線執行資料設計、去重、多語言標註、排名和翻譯 QA。
1. 收集
主要來源是日本 BBS 和社群媒體上流通多年的公共顏文字。我們還透過編輯原創和 /request 使用者提交(經過審核)進行補充。
攝入時自動篩查拒絕基於角色、商標或其他版權內容。
所有字串經 Unicode NFC 歸一化處理。
2. 去重
每個顏文字文本使用 SHA-256 雜湊並在資料庫層透過 UNIQUE 約束強制執行。
近似重複標記為人工審核。
實際運營中,約 8% 的候選新增被自動拒絕為重複。
3. 分類演算法
分類採用三層結構:類別(情感)、活動、場景。
候選標籤由 AI 草稿 → 編輯審核的流水線生成。
Phase 122 以來,情感從 7 種擴展到 48 種。
4. 排名演算法
每個顏文字都有動態分數,基於複製數、收藏數、停留時間。
目前複製數權重最高。
分數每 15 分鐘重新計算。
5. 多語言元資料流水線
每個顏文字都附帶 12 種語言的使用範例、關鍵字和文化註釋。
草稿來自 AI 翻譯;主要語言經過人工審核。
關鍵字不是直譯,而是按語言的自然搜尋表達。
6. 翻譯品質審核
scripts/audit-translations.mjs --strict 每週執行。目標 < 5% 未翻譯。
新增語言遵循 `.claude/skills/adding-language` 清單。
7. 基礎設施
技術棧:Astro 6 SSR + React 19 Islands + SQLite + PM2 + Cloudflare CDN。
TTFB:約 25ms。
站點地圖:415,000+ URL,分片處理。
8. 持續改進
每次變更以 "Phase" 記錄 — 截至 2026-04 已達 Phase 554。
GA4 + GSC 分析每日自動執行。
A/B 測試由 `/ab-test` 技能自動評估。
最後更新: 2026-04-15 (Phase 554)