Skip to main content

Kaomojis 方法論 — 收集、分類與品質管理

本頁以工程術語說明 Kaomojis 如何為61,000+條顏文字進行收集、分類和品質管理。我們並非簡單的複製貼上網站,而是以整合流水線執行資料設計、去重、多語言標註、排名和翻譯 QA。

1. 收集

主要來源是日本 BBS 和社群媒體上流通多年的公共顏文字。我們還透過編輯原創和 /request 使用者提交(經過審核)進行補充。

攝入時自動篩查拒絕基於角色、商標或其他版權內容。

所有字串經 Unicode NFC 歸一化處理。

2. 去重

每個顏文字文本使用 SHA-256 雜湊並在資料庫層透過 UNIQUE 約束強制執行。

近似重複標記為人工審核。

實際運營中,約 8% 的候選新增被自動拒絕為重複。

3. 分類演算法

分類採用三層結構:類別(情感)、活動、場景。

候選標籤由 AI 草稿 → 編輯審核的流水線生成。

Phase 122 以來,情感從 7 種擴展到 48 種。

4. 排名演算法

每個顏文字都有動態分數,基於複製數、收藏數、停留時間。

目前複製數權重最高。

分數每 15 分鐘重新計算。

5. 多語言元資料流水線

每個顏文字都附帶 12 種語言的使用範例、關鍵字和文化註釋。

草稿來自 AI 翻譯;主要語言經過人工審核。

關鍵字不是直譯,而是按語言的自然搜尋表達。

6. 翻譯品質審核

scripts/audit-translations.mjs --strict 每週執行。目標 < 5% 未翻譯。

新增語言遵循 `.claude/skills/adding-language` 清單。

7. 基礎設施

技術棧:Astro 6 SSR + React 19 Islands + SQLite + PM2 + Cloudflare CDN。

TTFB:約 25ms。

站點地圖:415,000+ URL,分片處理。

8. 持續改進

每次變更以 "Phase" 記錄 — 截至 2026-04 已達 Phase 554。

GA4 + GSC 分析每日自動執行。

A/B 測試由 `/ab-test` 技能自動評估。

最後更新: 2026-04-15 (Phase 554)