功能规格：灵视塔罗（卡牌识别）

本文档详述了"灵视塔罗 (Visionary Tarot)"功能的技术与用户体验需求，使用户能够在实体塔罗牌与数字化智能解读之间架起桥梁。

🎯 目标

让用户拍摄一张实体塔罗牌阵的照片（例如桌上的三张牌阵），应用能自动识别卡牌、辨别牌位，并提供 AI 驱动的解读。

为确保低延迟和隐私保护，初始检测应在用户设备上完成。

步骤 1：目标检测（分割）
- 模型： 针对移动端优化的 YOLOv8-Nano 或 MobileNetV3-SSD（CoreML/TFLite）。
- 任务： 在摄像头画面中检测代表单张塔罗牌的矩形区域。
- 约束条件： 必须在不同光照条件（烛光、强烈日光）和不同背景（布料、木桌、地毯）下正常工作。
步骤 2：卡牌分类
- 方法： 特征嵌入（基于 CLIP）。
- 机制： 应用将使用轻量编码器为检测到的卡牌区域生成嵌入向量，并与向量数据库中预计算的"标准韦特 (Rider-Waite)"嵌入进行比对，而非使用脆弱的 78 类分类器（对不同牌面画风适应性差）。
- 优势： 使用鲁棒的视觉-语言模型方法时，可在不同牌面风格下保持高准确率。

一旦识别出卡牌和牌位，重计算将在云端完成。

挑战	应对策略
多种卡牌风格	使用多模态嵌入方法 (CLIP)，关注结构特征和图像学，而非特定的像素级精确匹配。
光照不佳/模糊	在 UI 中实现"自动对焦和闪光灯"提示，并在推理前进行图像预处理（直方图均衡化）。
复杂背景	使用实例分割将卡牌从桌布或手部中分离出来。