帮助文档

视觉智谈 | 使用指南与常见问题

返回应用

项目简介

视觉智谈 是一个基于精调后的豆包视觉大模型的对话式AI地点识别工具。你可以上传包含地标、风景或街景的图片,AI会识别并描述其中的地点信息;同时也支持多轮自由对话,无需刷新页面。

本工具采用 PicUI 图床 作为图片存储服务,需要用户提供自己的 PicUI 账户 Token 进行图片上传。

使用前准备

你需要提前准备好以下两项凭证:

豆包 API Key

火山引擎控制台 → 创建 API Key
格式:sk-xxxxxxxx...

PicUI 账户 Token

PicUI 官网 → 个人中心 → API设置
格式:1|xxxxxxxx...

获取 PicUI Token 步骤:
1. 访问 PicUI 官网 并注册/登录
2. 进入 个人中心API 设置
3. 复制你的 Bearer Token(通常以 1| 开头)
注意: 请确保你的 PicUI 账户有足够的存储空间或上传权限。游客上传已被官方关闭,必须使用账户 Token。

界面布局说明

页面主要分为四个区域:

  • 顶部配置栏:输入豆包 API Key 和 PicUI Token(会自动保存到浏览器本地)
  • 中央聊天区:展示用户与 AI 的对话记录,支持滚动查看
  • 底部输入区:上传图片、清除图片、输入文字、发送消息

操作流程

步骤 1:填入凭证

在页面顶部的两个输入框中分别填入你的 PicUI Token 和豆包 API Key。凭证会自动保存,下次打开无需重新输入。

步骤 2:上传图片

点击 “上传图片” 按钮,或直接拖拽图片到该区域。支持 JPG、PNG、WEBP 格式,大小 ≤ 20MB。

步骤 3:输入问题(可选)

在文本框中输入你想问的内容,例如:“这是哪个城市?”、“图中地标叫什么名字?”。留空则默认执行“识别地点”。

步骤 4:发送消息

点击 “发送” 按钮,或按键盘 Enter 键(换行用 Shift + Enter)。

步骤 5:查看结果

AI 会在聊天区回复识别结果,支持多轮连续对话。

步骤 6:更换或清除图片

再次上传新图片即可替换;点击 “清除图片” 按钮可移除当前图片。

对话示例

👤 用户:(上传埃菲尔铁塔照片,不输入文字)
🤖 AI: 这张图片展示的是法国巴黎的埃菲尔铁塔(La Tour Eiffel),它是为1889年世界博览会而建造的,现已成为巴黎乃至法国的象征。铁塔高约330米,位于塞纳河畔的战神广场。

👤 用户: 附近还有什么著名景点?
🤖 AI: 埃菲尔铁塔附近有战神广场、特罗卡德罗广场(适合拍摄铁塔全景)、塞纳河游船码头,以及巴黎国立高等军事学校等。

💫 AI水平

score

3200分约等于250-280km,该模型对西北地区的识别精度不高,识别结果仅供参考

常见问题 (FAQ)

  • Q:上传图片时提示“PicUI 上传失败 (401)”
    A:PicUI Token 无效或已过期。请登录 PicUI 官网重新获取 Token,并确保粘贴时不含多余空格。
  • Q:豆包 API 返回 401 或 403 错误
    A:API Key 无效、已过期,或该 Key 未开通精调使用模型的访问权限。请前往火山引擎控制台检查。
  • Q:页面一直显示“豆包视觉分析中...”
    A:可能原因:网络问题、图片 URL 无效、API Key 额度耗尽。打开浏览器开发者工具(F12)查看 Console 和 Network 标签排查。
  • Q:是否支持批量上传或多图识别?
    A:当前版本仅支持单张图片。如需多图识别,可在对话中多次上传(每次一张)。
  • Q:我的 API Key 和 Token 安全吗?
    A:凭证仅保存在你的浏览器本地存储中,不会发送到任何第三方服务器。所有请求直接从你的浏览器发出,无中间代理。
  • Q:刷新页面后对话记录会丢失吗?
    A:是的,刷新页面会清空当前对话记录。但你的 API Key 和 Token 会被保留(自动填充)。
  • Q:图片位置识别准确吗?
    A:图片识别有AI大模型进行,不保证识别精确度,但我们会尽可能提高识别精度。

获取帮助

如果你在使用过程中遇到问题,或需要定制功能(如更换图床、修改模型参数等),可以随时联系开发者。

开发者邮箱:zhoujiodk@163.com
祝你使用愉快!