帮助文档 · 豆包视觉智谈

项目简介

视觉智谈 是一个基于精调后的豆包视觉大模型的对话式AI地点识别工具。你可以上传包含地标、风景或街景的图片，AI会识别并描述其中的地点信息；同时也支持多轮自由对话，无需刷新页面。

本工具采用 PicUI 图床 作为图片存储服务，需要用户提供自己的 PicUI 账户 Token 进行图片上传。

使用前准备

你需要提前准备好以下两项凭证：

豆包 API Key

火山引擎控制台 → 创建 API Key
格式：sk-xxxxxxxx...

PicUI 账户 Token

PicUI 官网 → 个人中心 → API设置
格式：1|xxxxxxxx...

获取 PicUI Token 步骤：
1. 访问 PicUI 官网并注册/登录
2. 进入 个人中心 → API 设置
3. 复制你的 Bearer Token（通常以 1| 开头）

注意： 请确保你的 PicUI 账户有足够的存储空间或上传权限。游客上传已被官方关闭，必须使用账户 Token。

界面布局说明

页面主要分为四个区域：

顶部配置栏：输入豆包 API Key 和 PicUI Token（会自动保存到浏览器本地）
中央聊天区：展示用户与 AI 的对话记录，支持滚动查看
底部输入区：上传图片、清除图片、输入文字、发送消息

操作流程

步骤 1：填入凭证

在页面顶部的两个输入框中分别填入你的 PicUI Token 和豆包 API Key。凭证会自动保存，下次打开无需重新输入。

步骤 2：上传图片

点击 “上传图片” 按钮，或直接拖拽图片到该区域。支持 JPG、PNG、WEBP 格式，大小 ≤ 20MB。

步骤 3：输入问题（可选）

在文本框中输入你想问的内容，例如：“这是哪个城市？”、“图中地标叫什么名字？”。留空则默认执行“识别地点”。

步骤 4：发送消息

点击 “发送” 按钮，或按键盘 Enter 键（换行用 Shift + Enter）。

步骤 5：查看结果

AI 会在聊天区回复识别结果，支持多轮连续对话。

步骤 6：更换或清除图片

再次上传新图片即可替换；点击 “清除图片” 按钮可移除当前图片。

对话示例

                👤 用户：（上传埃菲尔铁塔照片，不输入文字）

                🤖 AI： 这张图片展示的是法国巴黎的埃菲尔铁塔（La Tour Eiffel），它是为1889年世界博览会而建造的，现已成为巴黎乃至法国的象征。铁塔高约330米，位于塞纳河畔的战神广场。

                👤 用户： 附近还有什么著名景点？

                🤖 AI： 埃菲尔铁塔附近有战神广场、特罗卡德罗广场（适合拍摄铁塔全景）、塞纳河游船码头，以及巴黎国立高等军事学校等。

💫 AI水平

3200分约等于250-280km，该模型对西北地区的识别精度不高，识别结果仅供参考

常见问题 (FAQ)

Q：上传图片时提示“PicUI 上传失败 (401)”
A：PicUI Token 无效或已过期。请登录 PicUI 官网重新获取 Token，并确保粘贴时不含多余空格。
Q：豆包 API 返回 401 或 403 错误
A：API Key 无效、已过期，或该 Key 未开通精调使用模型的访问权限。请前往火山引擎控制台检查。
Q：页面一直显示“豆包视觉分析中...”
A：可能原因：网络问题、图片 URL 无效、API Key 额度耗尽。打开浏览器开发者工具（F12）查看 Console 和 Network 标签排查。
Q：是否支持批量上传或多图识别？
A：当前版本仅支持单张图片。如需多图识别，可在对话中多次上传（每次一张）。
Q：我的 API Key 和 Token 安全吗？
A：凭证仅保存在你的浏览器本地存储中，不会发送到任何第三方服务器。所有请求直接从你的浏览器发出，无中间代理。
Q：刷新页面后对话记录会丢失吗？
A：是的，刷新页面会清空当前对话记录。但你的 API Key 和 Token 会被保留（自动填充）。
Q：图片位置识别准确吗？
A：图片识别有AI大模型进行，不保证识别精确度，但我们会尽可能提高识别精度。

获取帮助

如果你在使用过程中遇到问题，或需要定制功能（如更换图床、修改模型参数等），可以随时联系开发者。

开发者邮箱：zhoujiodk@163.com

祝你使用愉快！