随着人工智能技术的迅猛发展,各类强大的AI系统层出不穷。最近,Claude 2 首次亮相,成为公众可用的第二大强大人工智能系统。一周之前,OpenAI 发布了 Code Interpreter,这是迄今为止最娴熟的人工智能模式。更早前,部分AI系统还获得了图像识别能力。
然而,许多人工智能实验室并未提供详细的用户文档,用户往往依赖社交平台上的一些大V推文来获取信息。显然,这对声称关心技术正确使用的组织来说是一个奇怪的选择,但现实如此。
我不敢说这份用户指南已经非常全面,但我希望它能为你提供一些关于当前人工智能状态的指导。我每隔几个月就会为学生和感兴趣的读者编写一份人工智能入门指南,而过去几个月的更新尤其频繁。
这份指南基于我的个人经验,重点是如何选择正确的工具来完成特定任务。
主要的大型语言模型(LLM)
当我们谈论人工智能时,通常指的是大型语言模型(LLM)。大多数AI应用都由LLM提供支持,而LLM的基础模型主要由少数几家公司开发。每家公司都通过聊天机器人(Chatbot)直接提供其模型:
- OpenAI 开发了 GPT-3.5 与 GPT-4,ChatGPT 和微软的 Bing(通过 Edge 浏览器访问)都基于这些模型。
- 谷歌的 Bard 品牌旗下也有多款模型。
- Anthropic 则开发了 Claude 与 Claude 2。
还有一些其他LLM,如 Pi,但它主要针对对话优化,适合做朋友而非工作助手。此外,开源模型虽然前景广阔,但对普通用户来说并不友好,因此本文不详细介绍。
下面是一份关于当前LLM的快速参考图表:
OpenAI 系列
前四个(包括Bing)都是OpenAI的系统。目前,OpenAI主要提供GPT-3.5和GPT-4。GPT-3.5在2022年11月掀起了人工智能热潮,而GPT-4在今年春季发布,功能更加强大。GPT-4还支持插件,能够接入互联网及其他应用。Code Interpreter是ChatGPT的一个强大版本,能够运行Python程序。
谷歌 Bard
谷歌一直在测试其消费者人工智能Bard,但它背后的基础模型Palm 2令人失望。尽管如此,最近的技术改进表明谷歌仍在努力提升其底层技术。
Anthropic Claude
Anthropic 推出的Claude 2以其极长的上下文窗口著称,几乎能容纳整本书或多份PDF文件。相比其他LLM,Claude的恶意行为更少,通常只会“训斥”用户。
如何利用AI写作
最佳免费选项:Bing 与 Claude 2
付费选项:ChatGPT 4.0/带插件的 ChatGPT
目前,GPT-4 是最强大的AI写作工具,你可以通过Bing免费访问(选择“创意模式”),或者每月支付20美元订阅ChatGPT。Claude 2的表现也不逊色,且有免费选项,尽管功能受限。
这些工具已集成到常见的办公应用中。Microsoft Office 将纳入由 GPT 提供支持的Copilot,Google Docs 也将集成 Bard。这些创新对写作的影响将是深远的。
利用AI写作的方法
- 写草稿:可以生成博客文章、论文、宣传材料、演讲等。
- 改进写作:将文本粘贴给AI,让它改进内容或给出建议。
- 完成任务:像实习生一样使用AI,让它撰写电子邮件、创建销售模板等。
- 激发灵感:AI可以帮助你面对艰巨任务,提供动力。
需要注意的问题:AI容易产生“幻觉”,生成看似合理但虚假的内容。你需要对其输出进行仔细检查。
图像生成
最透明的选项:Adobe Firefly
开源选项:Stable Diffusion
最佳免费选项:Bing 或 Bing Image Creator(使用 DALL-E)
图像质量最佳:Midjourney
当前主流的图像生成工具有:
- Stable Diffusion:开源工具,适合将AI与其他图像结合。
- DALL-E:来自 OpenAI,通过Bing和Bing Image Creator使用。
- Midjourney:目前表现最佳的系统,学习曲线低。
- Adobe Firefly:内置到Adobe产品中,质量稍逊于DALL-E和Midjourney。
需要注意的问题:这些系统存在偏见,且训练数据来源不透明,可能涉及法律和道德问题。
提出创意
最佳免费选择:Bing
付费选项:ChatGPT 4.0
AI非常擅长生成点子。通过正确的提示,你可以让它变得非常有创意。创意模式下,Bing可以提供不同寻常的创意生成技术。
制作视频
最佳动画工具:D-ID 用于面部动画,Runway v2 用于文本生成视频
最佳声音克隆:ElevenLabs
AI可以生成完全由人工智能创建的角色、脚本、声音和动画,甚至可以进行深度伪造。
处理文档和数据
最佳数据处理工具:Code Interpreter
文档处理:Claude 2 适合处理大型文档,Bing 侧边栏适合处理小文档和网页。
Code Interpreter 是 GPT-4 的一种模式,可以上传文件、编写和运行代码,并进行数据分析。Claude 2 在处理PDF和复杂学术文章方面表现出色。
获取信息和学习
最佳免费选择:Bing
付费选项:Bing 或 Khanmigo
虽然AI不适合作为搜索引擎,但Bing在某些情况下可以提供更有用的答案。AI还可以用于教育,帮助解释概念和辅助学习。
最后总结
随着技术的快速发展,当前介绍的工具可能会很快过时。但请记住,AI是一种工具,并不总是适合所有任务。同时,使用AI时需要关注道德问题,避免滥用。