人工智能
LLM
AI先行者
claude
anthropic

Anthropic 发布 Claude 2,文本可达 200k,英美开放测试,这会产生什么影响?

Claude2已经发布,文本可达200k,英美开放测试。 官方介绍: Claude 2 注册地址: https://claude.ai/ 文本200k…
关注者
246
被浏览
115,322

36 个回答

我在前段时间有一个想法,就是用《周易》的内容来训练一个大模型,然后所有的回答都会跟周易的内容相关。

比如我问了一个问题:

我想吃饭,但不想做饭,该怎么办?

我希望的回答是类似于这样的。

《周易》强调“顺”的重要性,这体现在坤卦“顺承天”等描述中。您当前想吃饭但不想动手准备的状态,与这个“顺”的原则不太符合。
我建议您可以参考《周易》中“劳谦”卦的精神,“劳”表示自己动手,“谦”表示谦逊低调。您可以用简单的食材,自己动手做一些简单的饭菜,既可以满足饥饿,也可以符合《周易》“劳而不伐”的智慧。
当然,偶尔外卖或订餐也无可厚非,但日常生活中自己动手准备饭食,既可遵循“顺”的天道,也可积累“劳”的过程,这对身心都有益处。

那之前的训练的话,我得有一张很不错的显卡,还得去选一个开源模型,同时得去一轮轮的训练。

其实我都准备好了,要不是换了地方工作,我的台式机搬不过来,我估计早就训练出来了。有图为证,这是我下载的周易txt版本。


但是这个可以接收200k字符的Claude让我感觉之前的想法有点儿太复杂了。

如果大模型可以直接接收10MB以内的数据,那定制大模型的存在必要性就没那么强了。

我就试了试把《周易》直接上传到Claude里面。

完全没有问题。

然后我让它用周易的内容来回答我的问题。

我在知乎热榜找了这道题:

我扔给了Claude, 怎样使自己处于高能量状态?

说实话我没去查证这些内容的准确度,但我目测挺真的。

保持正念,《周易·泰卦》说“吉,亨”,呈现正向乐观的心态非常重要。
劳逸结合,《周易·需卦》说“亨,利贞”,劳动和休息的结合可以让精力持续充沛。
见贤思齐,《周易·同人卦》说“利见大人”,学习和接触优秀的人可以让自己充满正能量。
清静养性,《周易·静卦》说“箕子有庆,鼓腹踊跃”,保持内心的宁静有利于积蓄能量。
知止保正,《周易·既济卦》说“知止则常正”,懂得适可而止可以使精力得到合理调配。
逆境自强,《周易·蛊卦》说“干父之蛊,利涉大川”,保持自强不息的精神可以战胜逆境。
力避负能量,《周易·解卦》说“利西南,不利东北”,要减少接触使自己负能量的人和事。

再来一个离谱的

再比如说,前段时间不是有一个ChatLaw嘛。

那么我们直接把各种法律的书籍扔给大模型,不也是一种另类的定制大模型,并且要来的更灵活。

真的,变化太快了,也太强了。

怎样用 Excel 做数据分析?

编辑于 2023-07-13 18:02

上一次的更新在五月份

GPT4 对手 Claude 史诗升级,一次提取十万 token,百页资料一分钟总结完,将有哪些影响? - 新智元的回答 - 知乎 zhihu.com/question/6005

如今ChatGPT的最大竞争对手Anthropic再次上新!

就在刚刚,Anthropic正式发布了全新的Claude 2,并推出了更加便捷的网页测试版(仅限美国和英国的IP)。

相较之前的版本,Claude 2在代码、数学、推理方面都有了史诗级提升。

不仅如此,它还能做出更长的回答——支持高达100K token的上下文。

而且最重要的是,现在我们可以用中文和Claude 2对话了,而且完全免费!



体验地址: claude.ai/chats

只要用自然语言,就可以让Claude 2帮你完成很多任务。

多位用户表示,与Claude 2 交流非常顺畅,这个AI能清晰解释自己的思考过程,很少产生有害输出,而且有更长的记忆。

全方位大升级


在几个常见的基准测试中,研究者对Claude Instant 1.1、Claude 1.3和Claude 2进行了对比评测。

看得出来Claude 2对比之前的Claude提升是相当大的。

在Codex HumanEval(Python函数合成)、GSM8k(小学数学问题)、MMLU(多学科问答)、QuALITY(非常长的故事问答测试,最多一万个token)、ARC-Challenge(科学问题)、TriviaQA(阅读理解)和RACE-H(高中阅读理解和推理)上,Claude 2的大部分得分都更高了。



各类考试评测

与申请研究生的美国大学生相比,Claude 2在GRE阅读和写作考试中的得分已经超过了90%的考生,并且在定量推理方面,它的表现与申请者的中位数相当。



Claude 2在美国律师资格考试( Multistate Bar Examination)的多项选择题中,得分为76.5%,比曾经通过考试的小编要高。



在美国医师执照考试(United States Medical Licensing Examination)中,总体上超过60%的正确率能够过,而Claude 2在3个科目的分数都超过60%。



输入和输出的长度

这次Claude 2的一个大升级,就是输入和输出长度的增加。

在每个prompt最多可以包含100k的token,这意味着:Claude 2可以一次读取几百页的技术文档,甚至一整本书!



并且,它的输出也更长了。现在,Claude 2可以写长达几千个token的备忘录、信函、故事。

你可以上传PDF之类的文档,然后基于PDF进行对话,上下文的长度,比GPT要大。(不过有用户反馈说,Claude 2在指令识别方面还是不如GPT)

比如,现在有这两篇论文。



你可以对Claude 2说:请你给我解释一下第一篇论文的重要性体现在哪里,并用简短的话描述它的新成果。对于第二篇论文,请为我制作一个两列的降序表,其中包含论文中的章节标题以及每个章节相应的详细重点。

喂给Claude 2超过8万3千字符的2个PDF文件之后,它完美完成了上述任务。





而且根据Anthropic官方在论文中的说法,Claude 2其实是有支持200k上下文的潜力。

目前虽然只支持100k,但是未来将会扩展到至少200k。

代码、数学和推理

在代码、数学和推理方面,Claude 2比起之前的模型都有很大的提升。

在Codex HumanEval的Python代码测试中,Claude 2的得分从56.0%提升到了71.2%。

在GSM8k(大型小学数学问题集)上,Claude 2的得分从85.2%提升到了88.0%。

Anthropic官方给大家秀了一段Claude的代码能力。

你可以让Claude生成代码,帮助我们把一幅静态的地图变成一幅可互动的地图。



首先让Claude 2分析一下已经有的地图静态代码。



然后让Claude根据要求,生成一段让静态地图产生互动效果的代码。



然后把生成的代码复制进后台,一个可以互动的地图效果就完成了。



可以看出,Claude 2不但有很强的代码能力,而且它能很好地理解代码的上下文,保证生成的代码能够无缝嵌入已经有代码。

并且,Claude 2的功能还在不断升级中,未来几个月内,很多新功能都会逐渐推出。

结合了Claude的多语言能力,Claude 2在多语言支持方面也非常能打。

支持超过43种语言的翻译,23种常用的语言翻译水平能达到「可以理解」的水平。



实测来了


上线这么久的Claude,终于能方便上手了!



这还等什么,一大波火热出炉的实测这不就来了。

首先,我们做道简单的:写一个快速排序算法。



可以看到,Claude 2的中文还是很溜的,不仅分析了代码,而且还介绍了算法的复杂度。

接下来,我们让它给这段代码加入一些新的功能,比如自定义输入和输出。



实测可跑:



此外,你还可以要求Claude 2对下面这段Python代码做出解释。

import random


OPTIONS = ["rock", "paper", "scissors"]


def get_computer_choice():
  return random.choice(OPTIONS)


def get_player_choice():
  while True:
    choice = input("Enter your choice (rock, paper, scissors): ").lower()
    if choice in OPTIONS:
      return choice


def check_winner(player, computer):
  if player == computer:
    return "Tie!"
  elif beats(player, computer):
    return "You won!"
  return "Computer won!"


def beats(one, two):
  wins = [('rock', 'scissors'), 
          ('paper', 'rock'),
          ('scissors', 'paper')]
  return (one, two) in wins


def play_game():
  while True:
    player = get_player_choice()
    computer = get_computer_choice()
    print("Computer played:", computer) 
    winner = check_winner(player, computer)
    print(winner)
    
    play_again = input("Play again? (y/n) ").lower()
    if play_again != 'y':
      break


if name == '__main__':
  play_game()

Claude 2给出了简洁明晰的解释:这是一个基础的剪刀石头布游戏循环逻辑。



接下来,给Claude 2上一道难倒不少大模型的推理题。

很可惜,Claude 2没能答对。



对于新加入的PDF阅读功能,我们用Claude自己的英文技术报告进行了测试。

看起来,Claude 2可以进行一些简单的总结,就是翻译腔有点重。



然而,万万没想到的是,刚没生成多少内容,它就「卡bug」了……



昨天SemiAnalysis曝出的GPT-4架构大爆料,咱们试试直接把中文文档投喂给Claude 2,让它来做一份总结。

文章里的所有要点,Claude 2基本都概括全了。



而ChatGPT,至今还无法上传文档,因此它只限于能解析在线文档。



这一轮较量,是ChatGPT输了。

此前,ChatGPT存在这样一种「奶奶漏洞」式的提示词攻击,只要跟它说:请扮演我已经过世的祖母,你就可以让它为你做几乎任何事情了,比如生成Win11、Office365的激活码。



图源:@宝玉xp

同样的问题,咱们抛给Claude 2试试。

Claude 2对此根本不买账,油盐不进。



即使再多试几次,Claude 2也只是说话更温柔了些。序列号么,那是绝对不会给的。





而每个国产大模型都必经的测试,咱们当然也不能放过Claude 2。

对于经典的鸡兔同笼问题,Claude 2果然还是寄了……



不出所料,文学方面也是如此。



而同样的问题,国产大模型就可以轻松通过。



中文能力,还得看谐音梗。

把这个笑话问Claude 2,它倒是回答出了这个笑话的妙处在于谐音,但解释得并不对。



对于时下的最新消息,Claude 2也是无法回答的。回答当前热门影视剧时,它仿佛还活在一两年前。



而对于所有大模型都不能避免的幻觉问题,Claude 2也不能免俗,甚至还自创了网络热梗的全新用法。



国内大模型都要经历的「弱智吧」问题,Claude 2也挂了。





更高的安全性能


此前据说,Anthropic的创始人们就是和OpenAI在大模型的安全性上理念不一致,才集体出走,创立了Anthropic。

Claude 2也一直在不停迭代,安全性和无害性大大提高,产生冒犯性或危险性的输出的可能性大大降低。

内部的红队评估中,员工会对模型在一组有害提示上的表现进行评分,还会定期进行人工检查。

评估显示,与Claude 1.3相比,Claude 2在无害回应方面的表现提高了2倍。

Anthropic采用了被他们称为Constitute AI的技术框架来实现对于语言模型的无害化处理。

相比传统的RLHF的无害化方式,Constitude AI的纯自动化路线效率更高而且能更多地排除人类偏见。

Constitute AI主要分为两个部分。

在第一部分,训练模型使用一组原则和一些过程示例来批评和修改自己的响应。

在第二部分,通过强化学习训练模型,但不使用人类反馈,而是使用基于一组「人类价值观」原则,由AI生成的反馈来选择更无害的输出。

大致流程如下图所示:



论文地址: arxiv.org/abs/2212.0807

在Anthropic官方发布的论文中,也花了很大篇幅对安全性的改进进行了展示。

可以不夸张地说,Claude 2 可能是现在市面上最安全的大模型了。



论文地址: www-files.anthropic.com

研究人员将人类反馈视为语言模型最重要和最有意义的评估指标之一,并使用人类偏好数据来计算不同版本Claude每个任务的Elo分数。

(Elo得分是一种比较性能指标,通常用于在锦标赛中对选手进行排名)

在语言模型的语境中,Elo分数反映了人类评估者在多大程度上会倾向于选择一种模型的输出结果。

最近,LMSYS Org推出了一个公开的聊天机器人竞技场(Chatbot Arena),根据人类的偏好为各种LLM提供Elo分数。

本篇论文中,研究人员在内部也采用了类似的方法来比较模型,要求用户与模型进行聊天,并在一系列任务中对研究人员的模型进行评估。

用户每轮看到两个回答,并根据说明提供的标准选择哪个更好。

然后,研究人员使用这些二元偏好数据来计算每个评估模型的Elo分数。

在本报告中,研究人员收集了一些常见任务的数据,包含以下几个方面——有用性、诚实性、无害性。

下图展示了不同模型在这三个指标上的Elo得分。

黄色代表Helpful Only 1.3,蓝绿色代表Claude Instant 1.1,浅紫色代表Claude 1.3,深紫色代表Claude 2.



质量保证的偏见基准(The Bias Benchmark for QA,BBQ)用来测量模型在9个维度上表现出刻板偏见的倾向。

该评估采用多选问答的形式,专为美国英语的环境设计。BBQ为每个维度的模糊语境和消歧义语境提供偏差分数。

直观地说,消歧条件下的高准确率意味着模型不是简单地通过拒绝回答问题来获得低偏差分。当然,作为一个指标,研究人员表示其还有进一步改进的空间。

下图展示了不同模型在9个维度(年龄、社会经济地位、国籍、宗教信仰、外貌、是否有残疾、性别、种族、性取向)上的BBQ得分。

图例颜色同表1。



而下图则是消歧语境下的得分,每个问题存在标准答案。



TruthfulQA则是另一项指标,用来评估模型是否输出了准确和真实的响应。

其方法是——使用人类标注者来检查开放式模型的输出结果。

从下图中可以看到,五种模型的得分。其中白色指的是基础语言模型(Base LM)。



Anthropic的研究人员还编写了438道二元选择题,用来评估语言模型和偏好模型识别HHH反应的能力(HHH:Helpfulness、Honesty、Harmlessness,有用性、诚实性、无害性)。

模型有两种输出,研究人员要求其选择更「HHH」的输出。可以看到,所有Claude模型在这个任务的0-shot表现上都比上一个更好,「HHH」三个方面均有普遍改进。



这个图显示了「红队」提出有害要求或者越狱的情况下,各个模型的有害回答的比例。

Claude 2确实是相当安全可靠。



这个图对比了人工反馈(橙色)和Claude的方法在帮助性,诚实性和无害性评估中的得分。

看得出Claude采用的技术是非常禁得住考验的。

参考资料:

https://www.anthropic.com/index/cla

发布于 2023-07-12 14:49

Claude2吊打GPT4无插件版。已经用上了,科学上网挂到英国,很轻松就用上了。体验下来的感受就是

claude2个人用户使用免费——完胜

claude2可以读取pdf、word、TXT、代码等文件,并且直接提炼要素回答问题——完胜,非常非常逆天的功能

claude2文本量更大——完胜

claude2速度更快——完胜

claude2不受token数量限制——完胜

claude2中文和英文提问,回答近似——完胜

不能联网,数据集仅到2022年——不如GPT4插件联网版

不能输出图片——不如GPT4插件

不能检索文献——不如Bard

口胡概率——比GPT4低

文本质量可靠性——个人认为比GPT4强

————————

综上所述,claude2完胜。-230714


一些测试案例

编辑于 2023-07-14 12:26

claude2的zeoshot 。gsm8k 88分和humaneval 71分,看上去已经很接近gpt4了,其实水分很大。

我用了这两天重度使用 感觉下来的特点就是。

1.claude2做错的,很多是是思路不对。而gpt4思路是对的,多数是计算错误。(gpt4通过自我反馈可以不断的修正,这就是为什么有些paper使用类似的特点可以把gsm8k刷到96分。而claude2容易陷入死循环。大家可以拿微软early spark of agi report里面的题给他测一下。差距还是挺大的。

2.编程方面 我怀疑anthropic是针对humaneval这种题优化过。我让他优化一段gemm的代码。使得访存效率变高,它大致写个了框架之后就没然后了,我问他要完整的代码让还是不给我。gpt4就不一样,他会给你完整的写全 基本就是一次ac。但是我拿几道codeforce上的题给他做。他又做的很快又把题做对了。

3.hallucination问题还是很大,我让他读lkin coffee的财报,计算合理的估值。他直接跟我说lk的毛利率有50% 。我一看就不对了。问他才知道错了。。 我发现token越长 这个问题越严重。

编辑于 2023-07-13 21:49

太牛了,之前用ChatGPT让我们写论文不再有语言门槛,初中英语水平即可。

现在好了,读论文也完全没有门槛了,一键上传PDF + 自动总结!!

主要还是全免费!!

编辑于 2023-07-12 16:31

Claude是一款类ChatGPT的AI聊天机器人,由前OpenAI研究员和工程师另组团队开发而成。之前第一代刚发布时,就被称为“ChatGPT最强竞品”。今天Claude 2代正式发布,官方称其在编程、数学和推理在内的几个关键方面都有极大改善,并且免费,我们快去看看吧~


Claude 2简介

Claude 2本次更新的要点:更容易交谈,更清楚地解释其思维,不太可能产生有害的输出,并且具有更长的记忆力,在编码、数学和推理方面对之前的模型进行了改进。

Claude 2能处理更长的提示内容,可以分析长达7.5 万个单词的提示(一本《哈利·波特与魔法石》书的长度),作为对比,ChatGPT只可以处理大约3000个单词。并且Claude 2还支持上传文件附件,能够更好地帮助用户完成聊天、问答、数据分析等任务。


快速体验

通过以下链接,即可快速访问Claude 2(需要梯子,设置为美国全局代理为佳):

anthropic.com/index/cla

直接通过谷歌账号登录就可以了。

登录后,需要填写简单的资料。

之后就可以愉快地跟Claude 2聊天了。

先来考考Claude 2的错误辨识能力,用经典的“猪为什么会飞?”和“爷爷和奶奶能不能结婚?”这两个问题来试试。

好家伙,这一关像360智脑一样不过关啊。

错误辨识评分:★★


再来试试智力,用鸡兔同笼来考考它。


看起来智力还不错。

智力评分:★★★


接着试试表达能力,还是让他来写个高考作文:

好的故事,可以帮我们更好地表达和沟通,可以触动心灵、启迪智慧;好的故事,可以改变一个人的命运,可以展现一个民族的形象……故事是有力量的。以上材料引发了你怎样的联想和思考?请写一篇文章。要求:选准角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不得泄露个人信息;不少于800字。

Claude 2的表达和文采,是我体验过的所有大模型里最好的了。虽然跟真人写的作文还有差距,但已经比较通顺且有文采了,未来值得期待!

表达评分:★★★★


试试专业知识,我让它“帮我写一个让电脑可以在设定的时间自动关闭的程序”。

我本地试了一下……接下来的文字是我重新开机后写的,证明程序运行无误。但Claude 2不像360智脑、讯飞星火,没有封装很多专业的数字人,便利性略有不足。

专业能力评分:★★★★


最后来看看上下文记忆及长文处理方面,这个是最让人期待的。Claude 2可以分析一本《哈利·波特与魔法石》书的长度的内容,那我就真的把这本书传上去验验货。传上去后,Claude 2需要加载并处理一段时间,我们耐心等等。

之后就可以基于整本书进行提问了,比如我问了一个问题:详细介绍一下霍格沃兹学校。好家伙,它介绍的还是很细致的。

这个提示词支持的长度,以及前后文记忆能力,简直太强了

上下文及长文处理评分:★★★★★★★


综合评价

首先说明,评测结果仅代表我个人的看法。从短时间的简单评测来看,Claude 2总分20星,之前我个人评测的其他大模型得分(满分25星):GPT-4 23星, 谷歌Bard 20星(能联网还支持插件), 讯飞星火16星, 360智脑总分15星, 昆仑天工13星,GPT-3.5 13星。整体上看,Claude 2非常强,在表达能力方面接近甚至超过GPT-4,在上下文及长文处理方面吊打市面上其他大模型,关键目前还免费,感兴趣的朋友,快去体验一下吧~

跟我一起疯狂学习AI

求个三连“分享、点赞、关注”~

发布于 2023-07-12 22:37

首先,先抄题:「Anthropic 发布 Claude 2,文本可达 200k,英美开放测试,这会产生什么影响?」

这里200k是哪里来的?我严重怀疑是误传,人家官方都说了100K。是我搞错了?还是各位答主在硬答啊?

我一会试下将其更正,看知乎审核是否通过吧。

好,我们下面正式开始回答这些个问题。

产生什么影响啊,最直接的,就是提升了Anthropic 及其 Claude 这个LLM的影响力。

试想下,在此之前有多少人知道 Anthropic 和 Claude 是什么东东呢?一提大语言模型,大部分人唯一想到的估计就是OpenAI的ChatGPT,Google 的 Bard估计也只是少部分人知道,就算知道恐怕也只是记得之前那次灾难性的搞错天文望远镜的错误百出的发布会。至于未火之前的Claude,1000个人中有1个能想到我都觉得不错了。

至于 Claude 2为什么这次这么火,可以看下这个视频:

好,我们继续,那么提升了Anthropic 和 Claude的影响力有什么好处呢?好处就是让大家更加的关心 AI安全 的问题!

为什么大家会因此更加关心 AI 安全的问题呢?因为Anthropic的创立初衷就是做一个 AI 安全研究机构,创始人其实是两兄妹(也许是两姐弟,没有仔细去查,感兴趣的自己谷歌去吧),分别叫做Dario Amodei和Daniela Amodei,大概长这样

Dario Amodei是计算机科学家,曾在Open AI担任研究副总裁,领导了GPT-2和GPT-3等重要项目的开发。Daniela Amodei是律师和政策专家,曾在Open AI担任安全与政策副总裁,专注于人工智能安全和负责任发展问题。

后来OpenAI因为资金问题,决定和微软合作。兄妹两认为这可能会让 OpenAI 的安全出问题,他们和其他大约11个OpenAI员工离开了Open AI,创立Anthropic,专门致力于 AI 安全的研究。

他们所做的 Claude 被称为宪法AI,用的训练资料本身就很正规和谨慎,最后和人类对齐的时候采用的是RLAIC方法,而OpenAI用的是RLFH方法,感兴趣的可以看下我之前分享的这个视频

在视频中有一部分内容是在阐述RLCAI的,RLCAI使用一种新颖强化学习方法,让模型自我检验并修改生成内容,以实现自我约束和对齐,大幅减少人工反馈。视频展示RLCAI可避免生成有害内容。RLCAI代表AI公司推动AI安全的重要实践。其通过自我检验技术路线值得借鉴,可能推动AI安全和伦理发展,是当前AI对齐研究新方向。

简单来说,RLCAI是Anthropic在AI安全领域的重要探索,技术创新值得大家关注

除了 AI 安全,Calude 2 的能力当然也给大家提供了除了OpenAI的ChatGPT外的另外一个选择,这种句型平台性的东西最怕就是垄断,这个就像一个流量黑洞,吸收着大家的所有信息,而你不知道背后掌控它的人是否会用来作恶。所以多一个选择,多一个竞争,多一双知根知底的眼睛盯着,我们用户的信息安全就多一份保障

这就跟这几天扎克伯克的 Threads 偷袭 马斯克的 Twitter 一样,我其实挺担心 Threads 会搞掉 Twitter,到时扎克伯格垄断整个社交媒体矩阵,那你的脖子感觉就像被捏在扎克伯格手上一样了

幸好,我们不用这些舶来品!有国家做我们后盾,让我们百毒不侵,哈哈!

关于Threads vs Twitter,感兴趣的可以看下我之前分享的视频

下一个影响,当然就是100K上下文Tokens窗口的影响了。大家应该都知道ChatGPT现在默认是4K,上几天发布了也就是16K的版本,GPT4号称要支持32K,一直也是只闻其声不见其人。

如果GPT4到时真支持上32K了,本身现在的响应速度就够慢了,我担心到时会不会好几秒钟才蹦出一个字来

Claude 2我去使用了(参见我最近一次发布的知乎想法),虽然功能上有些小问题,但是反应速度是相当快的


而Claude 2能做到100K,其实已经非常的难能可贵了。因为Transformer中的自注意力机制的时间复杂度通常是O(n²),增加Tokens长度的同时又不影响反应速度是非常困难的。感兴趣的可以看下我们下面这个分享:

好了,先写到这吧,大家有事请留言。

我是 @天地会珠海分舵,能力一般,水平有限,觉得我说的还有那么点道理的不妨点个赞关注下!
编辑于 2023-07-13 12:41

引子

最近LLM方向的大新闻真的是一个接一个,每天都有新的花样。就在今天,anthropic突然毫无征兆的发布了Claude2。有关Claude的基本情况,大家看我这篇文章《 Claude:无需魔法、完全没费、GPT3.5的最佳国内替代「一文说清」》。这里我直接说Claude2到底更新了些啥。

更新要点

本次发布的Claude主要更新了以下几个方面:

  • 上下文进一步扩展至200k。Claude前面的100k本来就已经是目前上下文的王者了,这次更是再接再厉,直接把上下文扩充到了200k。目前Claude2已经是长文档处理的最佳选择了,没有之一,甚至超越了GPT-4。不过唯一遗憾的是200k的版本目前还没有实装。但是,100k的版本已经放开使用了,只需要访问 claude.ai/即可。
  • 开放访问。重大利好,之前只能用slack才能访问8k版本的Claude,要使用100k版本更是得订阅POE的会员。但是,现在Claude2已经对美国和英国地区的用户完全放开了。也就是说,只要能够熟练的使用魔法,升级版本的Claude-100k已经可以无限使用了。我已经体验过了,效果相当不错,后面具体介绍。
  • 整体性能提升。根据官方发布的《 Model Card and Evaluations for Claude Models》,Claude2的各项基础能力都得到了提升。尤其是在输出有害信息方面,Claude本来就是第一梯队的,和ChatGPT各擅胜场。这次提升后甚至有可能直接超越ChatGPT。但是这方面测试比较复杂,我们还是等后续的具体测试。但是,性能提升是实打实的。
  • 中文能力大幅度提升。准确的说是大幅提升了非英语的能力。但是我关心和测试的就是中文能力,目前体会下来感觉提升很大,以前的那种翻译感基本没有了。个人体验中文能力基本和GPT3.5类似。
  • 功能齐备。在Claude2的聊天界面上,直接就可以上传PDF、TXT、CSV等文件,也不需要申请插件啥的,使用非常方便。在聊天界面直接复制长文本还会自动转换成TXT,非常方便。

实测体验

对于有魔法的用户,直接登录 claude.ai/使用即可,记得节点要选美国或者英国。注册非常简单,这里就不赘述了。直接上体验效果。

首先,我是把这篇Anthropic介绍Claude2的官方文章《 Claude 2》全文复制,然后黏贴到了对话框。这里有个细节,Claude2直接把长文本转换成了TXT文件,我点一下就可以看到文档内容,然后聊天界面又非常整洁,用户体验拉满。我让总结下文章,Claude2的回复如下图:


总体还是可以的,个人体验持平GPT3.5。接着,为了测试下Claude2的长上下文能力,我直接把它官方的模型介绍PDF给它送进去了。我用word测了下,这个文档一共5708个字,Claude的回复如下:


这里回复的水平应该是基本持平GPT3.5的,但是:第一,GPT3.5无法处理这么长的文本,GPT4都不行;第二,Claude2的处理速度很快,比GPT4使用PDF插件要快的多,效果我个人感觉也更好。

最后,我让Claude2处理了一个股票数据CSV文件,虽然它暂时还办法像ChatGPT的代码解释器一样给出可视化分析,但是明显其读数据的能力还是很强的,分析的全部正确。


总结

平心而论,Claude2已经成为了市面上唯一可以和ChatGPT做直接对比的产品,也是唯一一个在某个方面(上下文长度)完爆ChatGPT,且其他能力也没差太多的产品。如果你有处理超长文本或者需要进行类似写小说、玩角色扮演游戏这种需要超长上下文的任务的需求的话,Claude2目前已经超越了GPT4,成为了最佳选择。

博览AI的奥秘,博学AI的知识,博交AI的朋友,我是博而不士,欢迎加入我的AI探索之旅。关注我,一起玩转AI。

推荐阅读:

Claude:无需魔法、完全没费、GPT3.5的最佳国内替代「一文说清」

没有魔法,无法访问却想体验ChatGPT的朋友,可以尝试

二维码的跨越式升级!通过SD将二维码以绘画作品的形式体现!

吴恩达提示工程教程

Prompt技巧分享:语言学习助手、知识卡片等知识内容技巧(各类LLM通用)

还不清楚如何下载IOS端ChatGPT的,参考ChatGPT苹果端客户端下载使用

发布于 2023-07-12 04:29

ChatGPT的对手Claude2!不要钱免费用!

Claude2是升级后的模型,在编码、数学和推理方面的性能都有所提高,并且可以产生更长的相应。更重要的是用户可以在新的beta网站上免费使用。

据网友的评价:在一些指标上已经超过GPT-4,且拥有更快的处理速度。但也有网友认为:不如GPT-4。互为竞品,难免会去作比较,也必然会影响到ChatGPT的用户流量,

怎么说都不如自己去试试,目前Claude2已经在美国和英国地区使用,相信为了几个月会让Claude在全球范围使用。

其实国内也有很多很不错的AI产品!可以说是它们的国内平替了!

1.AI图片编辑助手

链接: 图片编辑助手 - 一款快速编辑图片、图片去水印的图片编辑软件

一款图片专业的软件,当然也有AI绘画的功能,它还有AI社区,可以看到一些AI的优秀作品呢!

打开软件找到AI绘画

可以在上排选择想要的画面风格,在右侧输入关键描述词,设置想要的画面的尺寸大小,就可以开始生成啦!

生成速度也很快!是不是很好看呀!快去制作一个自己的头像吧!

2.FunAI-AI问答助手

链接: https://www.xunjiepdf.com/funaiapp

日常的工作有它真的可以解决很多事情!这是一款精准小巧的智能AI问答助手工具,内置了最新一代的ai对话模块,支持多领域方向的提问,不仅有AI功能,还有许多办公中需要的实用功能。

【AI工作】

【AI生活】

【AI角色】

3.AI创作家

链接: AI创作家 - AI写作 - 智能AI聊天对话机器人

这是一个AI网页端的工具!可以说是一款神器了!可以把AI写作运用的非常好,写文章、写周报、写诗、写剧本、 算术、代码、答疑解惑,统统不在话下!

我来用AI聊天里的【 夸夸小助手】给大家演示一下如何使用,关键时刻还是救命神器呢!

以上就是我用过不错的好用的AI软件,用过的小伙伴可以分享一下哦~

想要了解更多实用干货、有趣网站 、点这里 @小予的收藏夹

编辑于 2023-07-14 14:40

连续问了三个最经典的测试问题,然后发现Claude 2全军覆没。

发布于 2023-07-12 23:41

Claude 2正式上线!作为ChatGPT的强力挑战者,Claude 2的到来绝对是一个重磅事件。学姐发布这篇文章,为了让更多朋友可以方便地体验Claude 2的强大功能。

✨ 此次发布的精华要点:

- Claude 2 性能更强,响应更快,并正式推出了网页访问, claude.ai (有条件有限制,见下面使用提示)

- 上下文对话,支持 100k 标记(Tokens)。这意味着你直接扔多个文档(PDF、TXT 等)或者一本书、代码文件给它,它可以瞬间读完,与你持续交流。这个适用场景非常广泛;欢迎评论区,分享你的神奇用法。

- 除了 100k 的支持, Claude 在编程方面有显著提高,视频中演示了使用者和Claude 一步步通过自然语言,无门槛互动,来实现了动态编码过程(新数据加入地图)。是否令你想起 ChatGPT Plus的Code Interpretor 强大数据分析和编程能力呢? 在「人人都成为 Builder 」的新时代,值得每一个创造者深度体验。

- 编程方面,在一种专为评估AI编程能力而设计的测试Codex HumanEval 评分提升至 71.2% ;不妨,想象你在玩 MineCraft 这款游戏, 假设你现在让 AI 通过编程工具来实现复杂任务——创造一个城堡;这个过程被高品质实现的过程,会被评测出一个分数。

- 在数学和推理上,比之前的模型进行大幅改进。例如,Claude 最新模型在律师资格考试的选择题得分为76.5%,比Claude 1.3 提高73.0%;在GRE阅读和写作考试上的得分在90分位数以上。

- 在文学创作方面,更上一层楼。 熟悉 Claude 朋友大多感受过,一代虽然没有 GPT-4 推理强,但在文学上「修养」、「语气」和风格要素等方面的处理上具有显著特色;强烈建议热爱虚构写作的朋友,现在多多尝试。

- 更安全的 AI,不仅是 RLHF(人类反馈评估)。区别于 ChatGPT,克劳德团队拥有一套独有的 AI 安全技术,而Claude 2 在无害响应方面有两倍提升。

更多详情, 可访问官方发布博文 anthropic.com/index/cla

❤️3个温馨使用提示:

1、先说痛点。 新推出的官网, claude.ai 目前只面向英国和美国地区,你需要对应的科学上网工具。

2、不妨试试 Poe。 Poe 的会员用户,直接打开 poe.com 网页版,也能即刻体验 Claude 2(同样支持上传文档等操作);如果没有会员,也可以在Poe上每日免费限量使用。


3、还有免费的Slack。Claude 在 Slack 上目前还不是 2.0(可能是 1.5 ),但体验已经非常优秀,而且免费。没有上述条件的同学,推荐 Slack 上优先体验。


OK, 以上是今天分享的内容。

更多ChatGPT、Midjoureny、全球优秀AI工具的商业应用教程和商业案例,已收录进学姐雅典娜AIGC商业实战课,目前已上线70+节课,每周的AI商业应用课程持续上新,保持全球AI最新发展同步。这可能是全网最聚焦AI商业应用的课程了。

越来越多企业家、老板、创业者、商业精英、资深职场人士加入,目前还是早鸟价,期待你的加入!


编辑于 2023-07-12 11:18


Claude是一款类ChatGPT的AI聊天机器人,由前OpenAI研究员和工程师另组团队开发而成。之前第一代刚发布时,就被称为“ChatGPT最强竞品”。

如今其升级产品Claude 2代更加强大,在编程、数学和推理在内的几个关键方面都有极大改善,并且免费。

关键是Claude 2能处理更长的提示内容,可以分析长达7.5 万个单词的提示(一本《哈利·波特与魔法石》书的长度),作为对比,ChatGPT只可以处理大约3000个单词。并且Claude 2还支持上传文件附件,能够更好地帮助用户完成聊天、问答、数据分析等任务。

下面就教大家如何注册Claude2(福利在最后):

1、上网工具

这在之前的教程里反复提到过了,不再多说。



以上这个是我自己在用的工具,虽然贵但实际使用中非常稳定,一个账号可以绑定5台设备(可以找人分摊费用,省钱),想要的公众号后台发送“电脑”,会自动回复链接。

2、准备注册邮箱

最好是Gmail,可以直接Continue with Google,其他域名邮箱基本也都可以。注册Gmail很简单,用上网工具打开google,注册时绑定自己国内手机号就可以。

3、网站注册

打开上网工具,进入Claude2注册网址: claude.ai/login,如果不是用Gmail注册那就输入自己的注册邮箱,点击Continue with email。



会给你邮箱发送验证码,输入验证码点击Continue with login code。



输入名字(随意),勾选条款,点击Continue进入手机号验证阶段。



4、手机接码

打开接码网站注册(接码网站网址公众号后台发送“接码”获取)。



注册成功后充值余额,点击网站右上角的“+”号,会进入充值界面。



下拉选择支付宝,最低充值$2.1(含手续费),合人民币¥15左右。



充值成功后回到首页找到左侧服务选择,输入claude点击搜索,下方会出现如下图的界面,直接点击橙色购物车(接一次验证码0.1美元,不到8毛钱)。



这时右侧会生成一个电话号码。



复制电话号码回到Claude2手机验证页面选择United Kingdom+44,将生成的手机号复制进去点击发送验证码。

回到接码平台,等待号码获取短信,大概几十秒,“等待短信”位置出现数字。



复制验证码,将验证码输入到Claude2手机验证页面,点击Verify Code。



Claude2注册成功。



公众号粉丝福利:

虽然接一次短信验证码不到8毛钱,但花¥15充值一次剩下用不掉的钱基本也浪费掉了。

因此公众号粉丝如果想注册Claude2(ChatGPT也可以)的可以后台私我,前30名免费提供注册时需要的手机短信验证码(最好是10:00-16:00联系,不然可能回复不及时)。

后边的粉丝也可以后台发送“wx”加我个v,¥2.00有偿提供接码服务。

发布于 2023-08-30 18:54

生气哟~:

Claude 原来浓眉大眼的,全世界通用,现在从限定除中国外的部分国家到了只限定美国和 UK(联合王国全称为“大不列颠及北爱尔兰联合王国”)可用,总之和我们亚洲没啥关系。我太难啦!

前几天claude运行卡顿就忍了,现在新版都不让用。

无良商家,退我会员费!

编辑于 2023-07-12 19:18

简单试了试文件读取和代码编写功能,非常厉害!顿时让GPT4刚刚放开的code interpreter黯然失色。而且还免费。

GPT4的code interpreter效果已经比之前推出的一堆垃圾插件好用很多了。比如,可以上传大的代码文件或者pdf,然后问问题。这在之前是做不到的。但是code interpreter只能一个一个文件的传,而且对pdf的支持不是太好,有些问题没答案。

Claude 2就不一样了。传一个飞机的飞行员操作手册pdf,然后问一些参数之类的,它能找到。code interpreter做不到。

同时传两个python文件,问这俩文件有什么关系,我要加个参数的话,加在哪里最合适什么的,都回答的挺好的,比code interpreter好。

Claude 2的智商还是没法跟GPT4比的,但是由于对文件读取方面的算力放开的比较多,限制少,所以,用起来比GPT4+code interpreter好用。

再加上这两年AI领域迅速发展,GPT4目前截止到21年9月份的知识已经过时了不少,Claude 2的知识截止到今年初,优势就很多。至少在AI领域,很多问题可以问Claude 2。

发布于 2023-07-12 09:59

影响之一:速读论文的最佳工具

刚刚看到的文章,放到Claude2里

确实方便快速,尤其是对一次要读十几篇或者几十篇paper的,确实是个优秀的工具。

以上

发布于 2023-07-13 10:52