Kaomojis 方法論 — 收集、分類與品質管理

本頁以工程術語說明 Kaomojis 如何為61,000+條顏文字進行收集、分類和品質管理。我們並非簡單的複製貼上網站，而是以整合流水線執行資料設計、去重、多語言標註、排名和翻譯 QA。

1. 收集

主要來源是日本 BBS 和社群媒體上流通多年的公共顏文字。我們還透過編輯原創和 /request 使用者提交（經過審核）進行補充。

攝入時自動篩查拒絕基於角色、商標或其他版權內容。

所有字串經 Unicode NFC 歸一化處理。

每個顏文字文本使用 SHA-256 雜湊並在資料庫層透過 UNIQUE 約束強制執行。

近似重複標記為人工審核。

實際運營中，約 8% 的候選新增被自動拒絕為重複。

分類採用三層結構：類別（情感）、活動、場景。

候選標籤由 AI 草稿 → 編輯審核的流水線生成。

Phase 122 以來，情感從 7 種擴展到 48 種。

每個顏文字都有動態分數，基於複製數、收藏數、停留時間。

目前複製數權重最高。

分數每 15 分鐘重新計算。

每個顏文字都附帶 12 種語言的使用範例、關鍵字和文化註釋。

草稿來自 AI 翻譯；主要語言經過人工審核。

關鍵字不是直譯，而是按語言的自然搜尋表達。

scripts/audit-translations.mjs --strict 每週執行。目標 < 5% 未翻譯。

新增語言遵循 `.claude/skills/adding-language` 清單。

技術棧：Astro 6 SSR + React 19 Islands + SQLite + PM2 + Cloudflare CDN。

TTFB：約 25ms。

站點地圖：415,000+ URL，分片處理。

每次變更以 "Phase" 記錄 — 截至 2026-04 已達 Phase 554。

GA4 + GSC 分析每日自動執行。

A/B 測試由 `/ab-test` 技能自動評估。

最後更新: 2026-04-15 (Phase 554)