OpenAI旗下AI对话工具
定义
ChatGPT是一种由OpenAI开发的基于自然语言处理的人工智能对话模型,能够理解并生成类似人类语言的文本。
核心技术
主要功能
适用领域
优点
局限性
应用方式

10 天前
LoRA(Low-Rank Adaptation)是一种对大模型进行“轻量级微调”的技术。

13 天前
Gemini 3 标志着AI模型从“增量优化”向“范式转变”的重大跃进。

1 个月前
2025年10月28日,PayPal宣布已与OpenAI签署合作协议,从2026年起,PayPal的数字钱包将嵌入ChatGPT,允许用户直接在该聊天机器人中完成购物支付。 PayPal首席执行官亚历克斯・克里斯表示,这项协议于上周末敲定。届时,使用PayPal服务的商家,其商品将可在ChatGPT被发现,且无需搭建集成系统,PayPal将在后台处理商家路由与支付。用户可使用PayPal钱包结账,享受买卖双方保护及纠纷解决服务,PayPal还将通过独立支付API处理ChatGPT内的银行卡支付。 此次合作PayPal将采用智能体商业协议(ACP)并结合OpenAI的“即时结账”功能。ACP是OpenAI开发的开源规范,可助力商家在AI应用中展示商品,方便用户通过AI智能体购物。OpenAI于9月推出的“即时结账”功能,能让用户在不离开ChatGPT的情况下确认订单、物流及支付信息并完成购买。 受此消息影响,PayPal盘前一度大涨超15%。此次合作标志着OpenAI在将ChatGPT拓展至电子商务领域方面迈出新一步,也被视为开启了一种由“代理式AI”驱动的全新购物模式。

1 个月前
DeepSeek OCR 介绍 DeepSeek OCR 是由中国 AI 公司 DeepSeek AI 于 2025 年 10 月 20 日发布的开源视觉语言模型(VLM),旨在探索“光学上下文压缩”(Contexts Optical Compression)的创新范式。它不是传统的 OCR(光学字符识别)工具,而是将视觉编码视为文本信息的压缩层,帮助大型语言模型(LLM)更高效地处理长文档、图像和多模态数据。 该模型的灵感来源于“一图胜千言”的理念,通过将文本转化为视觉表示,实现显著的令牌(token)减少,同时保持高准确性。 核心创新与架构 DeepSeek OCR 的核心思想是将文本作为图像处理,从而实现高效压缩: 视觉-文本压缩:传统 LLM 处理 1000 字文档可能需要数千个文本令牌,而 DeepSeek OCR 通过视觉编码器将图像压缩为更少的视觉令牌(可减少 7-20 倍),然后解码回文本。测试显示,它能保留 97% 的原始信息。 双阶段架构: DeepEncoder:视觉编码器,负责图像处理,包括文档、图表、化学分子和简单几何图形。它基于先进的视觉模型(如 Vary、GOT-OCR2.0 和 PaddleOCR 的灵感),高效提取特征。 DeepSeek-3B-MoE:解码器,使用混合专家模型(MoE,激活参数仅 5.7 亿),生成文本输出。整个模型大小约为 6.6 GB,运行速度快、内存占用低。 多功能扩展:除了基本 OCR,它支持解析图表(生成 Markdown 表格和图表)、化学公式、几何图形,甚至自然图像。深解析模式(Deep Parsing Mode)特别适用于金融图表等结构化数据。 该模型在 OmniDocBench 等基准测试中达到了端到端模型的 SOTA(最先进)性能,优于 MinerU 2.0 和 GOT-OCR2.0 等更重的模型,同时视觉令牌使用最少。 它还支持 vLLM(虚拟 LLM 推理引擎),便于批量处理。 优势与应用场景 效率提升:减少计算成本,适合处理长上下文(如聊天历史或长文档)。例如,将旧对话“低分辨率”存储为图像,模拟人类记忆衰减机制。 实用性:在 OCR 之外,它能处理复杂视觉任务,如从图像中提取结构化数据,而非简单文本复制。 开源与易用:模型托管在 Hugging Face(deepseek-ai/DeepSeek-OCR),支持 PyTorch 和 CUDA。GitHub 仓库提供完整代码和示例。 局限性:作为实验性模型,对简单矢量图形解析仍有挑战;输出有时可能出现幻觉(如中文符号混入英文响应)。 如何使用(快速入门) 安装依赖:克隆 GitHub 仓库(git clone https://github.com/deepseek-ai/DeepSeek-OCR.git),安装 Transformers 和 vLLM。 Python 示例(使用 Hugging Face): from transformers import AutoModel, AutoTokenizer from PIL import Image import torch model_name = 'deepseek-ai/DeepSeek-OCR' tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True) model = AutoModel.from_pretrained(model_name, trust_remote_code=True, torch_dtype=torch.bfloat16).cuda().eval() # 加载图像 image = Image.open("your_image.png").convert("RGB") # 提示(prompt) prompt = "<image>\nFree OCR." # 或其他任务提示,如 "<image>\nParse chart." inputs = tokenizer(prompt, return_tensors="pt").to(model.device) inputs["image"] = image # 添加图像 with torch.no_grad(): outputs = model.generate(**inputs, max_new_tokens=512) print(tokenizer.decode(outputs[0], skip_special_tokens=True)) 这将从图像中提取并输出文本。 DeepSeek OCR 代表了 OCR 从“文本提取”向“多模态压缩”转型的趋势,对于 AI 研究者和开发者来说,是一个值得关注的开源工具。

1 个月前
2025年10月14日,沃尔玛宣布与OpenAI达成一项新的合作伙伴关系: 合作内容:消费者将能够通过AI聊天机器人ChatGPT直接购买沃尔玛的商品,包括杂货(不含生鲜食品)、家庭日用品等,并实现即时结账。山姆会员店会员还可在与AI对话过程中规划膳食、补充日常必需品,并发现新的商品。顾客需先将沃尔玛账户与ChatGPT应用进行绑定,之后在购物时点击ChatGPT应用内的“购买”按钮即可完成下单。该功能计划在今年秋季晚些时候正式上线,届时也将支持第三方卖家的商品。 合作意义:此次合作将帮助零售商更深入地了解并预测客户需求,从而让线上购物体验变得更加个性化和主动化,不再仅仅是被动响应用户搜索。 双方合作基础:沃尔玛与OpenAI在其他业务领域已有合作基础,其内部团队已采用OpenAI认证课程及ChatGPT Enterprise企业版工具。 沃尔玛的AI布局:除了与OpenAI的合作,沃尔玛还推出了自研的生成式AI购物助手“Sparky”,旨在帮助顾客发现、比较商品并完成购买。未来,该功能将进一步扩展,支持自动复购、服务预约,并能理解来自文本、图像、音频和视频等多模态输入信息。

7 个月前
OpenAI在2025年4月29日为ChatGPT添加了购物功能。以下是具体信息: 运作方式 这一购物功能深度整合了第三方供应商的产品数据以及合作伙伴的实时内容。用户能够通过自然语言对话完成产品价格比较、个性化推荐以及直接购买。例如,输入“我需要一个用于露营的轻便帐篷,预算为500美元”,ChatGPT就会列出符合条件的产品,并附上价格比较链接、用户评价以及购买入口,还会自动调用合作电商平台的库存信息。 产品类别 目前,该功能仅适用于有限的一些产品类别,包括电子产品、时尚产品、美妆产品和家居用品。OpenAI计划在未来扩展到更多类别。 用户群体 该功能最初向ChatGPT Plus和团队订阅用户开放,未来将逐步扩展到免费用户。 特色之处 个性化体验:它不像传统搜索那样基于关键词匹配,而是侧重于理解用户的评价和讨论,分析产品的优缺点,并提供个性化推荐。例如,如果用户表明偏好从特定零售商处购买黑色衣服,ChatGPT会记住这一点,并相应地推荐相关产品。 无付费广告:OpenAI强调产品结果是独立挑选的,并非广告或赞助内容。该公司不会从交易中获利。 此外,OpenAI还为ChatGPT搜索添加了诸如改进引用、热门话题、自动补全以及WhatsApp搜索等新功能,进一步提升了用户体验。

7 个月前
📢 OpenAI即将发布GPT-4.1,多模态能力再升级! 据多家科技媒体报道,OpenAI计划于下周(2025年4月中旬)推出GPT-4.1,作为GPT-4o的升级版本,进一步强化多模态推理能力,并推出轻量级mini和nano版本。 🔍 关键升级点 更强的多模态处理 GPT-4.1将优化对文本、音频、图像的实时处理能力,提升跨模态交互的流畅度。 相比GPT-4o,新模型在复杂推理任务(如视频理解、语音合成等)上表现更优。 轻量化版本(mini & nano) GPT-4.1 mini 和 nano 将面向不同应用场景,降低计算资源需求,适合移动端或嵌入式设备。 配套新模型(o3 & o4 mini) OpenAI还将推出o3推理模型(满血版)和o4 mini,优化特定任务性能。 部分代码已在ChatGPT网页端被发现,表明发布临近。 ⏳ 发布时间与不确定性 原定下周发布,但OpenAI CEO Sam Altman 曾预警可能因算力限制调整计划。 同期,ChatGPT已升级长期记忆功能,可回顾用户历史对话,提供个性化服务(Plus/Pro用户已开放)。 🌍 行业影响 谷歌(Gemini AI)和微软(Copilot)近期也强化了AI记忆功能,竞争加剧。 GPT-4.1可能进一步巩固OpenAI在多模态AI领域的领先地位,推动商业应用(如智能客服、内容创作等)。 📌 总结:GPT-4.1的发布标志着OpenAI在多模态AI上的又一次突破,但具体性能提升和落地效果仍需观察。我们将持续关注官方更新! (综合自腾讯新闻、The Verge、搜狐等)

8 个月前
OpenAI近期发布了GPT-4o模型,新增的原生图像生成功能在网络上引发了广泛关注。用户可以通过上传图片并输入提示词,将其转换为吉卜力 ( Ghibli ) 风格的艺术作品。这种简单易用的创作方式迅速降低了艺术创作的门槛,使任何人都能轻松生成具有宫崎骏标志性手绘风格、柔和色调和梦幻自然元素的图片。 由于该功能的火爆,OpenAI首席执行官萨姆·奥特曼(Sam Altman)在社交媒体上表示:“看到大家如此喜爱ChatGPT的图像功能非常有趣,但我们的GPU快扛不住了。”他提到,虽然目前对生成次数进行了限制,但这只是暂时的,公司正在努力提升处理效率,免费用户将“很快”每天最多可生成三张图像。 然而,这一热潮也引发了关于版权的讨论。有网友指出,OpenAI可能未经授权使用了吉卜力工作室的作品进行训练,涉嫌侵犯版权。此前,有开发者因推出将照片转换为吉卜力风格的应用程序,收到了吉卜力工作室的律师函,要求下架相关应用。 此外,吉卜力工作室的创始人宫崎骏曾在2016年公开表达对AI生成动画的反感,认为其“令人作呕”,并称这是对生命的侮辱。 尽管存在争议,GPT-4o的这一功能无疑展示了AI在艺术创作领域的强大潜力,但也提醒我们在享受技术便利的同时,需要关注并尊重原创作品的版权和艺术家的权益。
Minimax(海螺AI)已由大模型名Minimax替换原海螺AI。现海螺AI为Minimax视频生成产品名。
海螺AI