e0e4e42f1f83ff05486f29b72db18ec3.png

图文原创:亲爱的数据

你所热爱的,都值得拥有一个名字。

世界上里程碑式计算机,问世之时大多拥有自己的名字。

我认为,假如计算机的诞生是元年,下一个元年将会是“奇点”。

不是比特币,不是虚拟现实,不是AIGC(用人工智能技术来生成内容)。这些只是过程。

当然,过程足够重要,也要有名字。

很多人看到GPT-2GPT-3Switch TransformerDALL·E 2 CodexLaMDA,就头晕,看不懂。

bd289d449dc0f42f2b2881391a4b6f7a.png

它们都是模型的名字。以它们在信息技术发展史上的地位,高低得整个名字。

模型里有什么?

模型中的运算形式设计,和运算所需要的参数,都是模型的一部分。

近几年,大模型发展的有声有色,一个做得比一个大。

参数数量是模型大小的重要指标,但不是唯一指标。运算量也是指标之一。同样的参数量,你设计的运算的形式不同,计算量也不同。

运算形式设计是人类脑力精华。

参数,你可以简单理解为机器部件,部件越多,体量越大。但不见得部件越多,机器就越好,模型也一样。

参数量很直观,一度“参数比大小”成了关键。

20205月,GPT-31750亿参数。比它的兄弟GPT-1GPT-2强大的多。GPT-3 发布仅几个月后,谷歌大脑团队就发布了Swin Transformer,参数量是GPT-39倍。

但是“比大小”不是目的,“效果好”才是目的。

这些“配有姓名”的大模型,规模很关键,但是创新更关键。

贾扬清说,不是别人做出大模型之后,简单跟进说“我们可以做得更大”,更重要的是,在前人基础上,做更多创新成果。

OpenAI也只是一家搞AI创业的“小公司”,在“转身”成为公司之前,是一家公益性质的科研实验室。

公司虽小,愿景却大:“让人工智能有益于全人类”。

从此,OpenAI他们矢志不渝地朝着通用人工智能(AGI)的方向不断尝试。

AGI是最有抱负的科技方向之一,拥抱AGI必须让机器展示出人类所拥有的各项智能,亲情,爱情,友情。

但怎么前往AGI,人类毫无头绪,也有人说,毫无希望。

情况就是这么一个情况。

c89b1f57f07cab015010443eeca3b2e4.jpeg

把模型做大是不是通向人工智能的路?谁也不知道。

但是模型大了,效果确实好了。大模型的竞争从寥寥到陷入忙碌, 比方法,比技巧,比谁有效。

20223月,InstructGPT,加入了人类的评价和反馈数据,效果也很好。

参数降到了13亿,小也可以很能打。

Instruct的中文有吩咐,指令之意,就是说,按照人类的指示行事。

讲到InstructGPT,距离ChatGPT也不远了。

ChatGPT也按指令行事,方式是通过问答。

大模型超级难做,消耗无数系统工程师和算法工程师的智慧和精力,是个系统工程,而今看来,国之重器,毫不为过。

这擎天玩意让缺乏创新的模型看起来像夜市地摊上粗糙的塑料玩具。

这种规模的模型,用“做出来”这个动词已经不合适了,与其说是“开发”,不如说是“组织开发”。

d3346b360bc4d6b82bc9498094088d17.png

为此OpenAI配套了上游数据团队,和下游芯片“大军”。

InstructGPT 的技术博客,从事高质量数据收集、挖掘、清理、增强等方面的工作的人数,从40人增加到1000人。数据团队有技术含量,收入可观,说是一家科创板上市公司也不过分。

作为ChatGPT的数据公司,那怕轮次融资,投资人会爱极了。

为了开发一个模型,配套一家上市公司,真是妙。

这还没有完。

芯片方面,据谭老师截获了一个信息:

OpenAI公司为训练ChatGPT用了10万块英伟达A100GPU。”

我也问了一个业内顶级大佬,他亦认为合理。

且不说价钱,而这一型号的高端GPU已经被美国限制,国内买不到了。

ChatGPT背后的一些信息来自InstructGPT的学术论文。

InstructGPT的核心思路由之前两条研究线路所带来。

也就是说,装在ChatGPT弹匣里的银色子弹中,一颗叫“自然语言理解的大语言模型 LLM”,一颗叫“带人类反馈的强化学习 RLHF”。

贾扬清的解释是,这一系列大预语言模型多少都采取了不带太强结构的统计方法:“根据周边的词语来预测中间的词语”,或者“根据前面的文字来生成后面的词语”。

当然,还有一些银弹叫,“外人不知道”。

dedecace6ed71d67c1c4da7e34601855.png

叹服ChatGPT前沿科研的能力之余,思考它如何从一个科研成果变成人见人爱的科技产品?

OpenAI此前所推出了一种产品试用机制,用了两个工具。工具一Playground,工具二GPT-3 APIAPI必须要代码调用接口,并不是人人都可以轻而易举体验它的能力。

虽然GPT-3 API已经非常简单,代码复制粘贴也能试一下。

da9ba2fa7304346360fba56e5b40c345.png

贾扬清认为,这种产品试用让产品和市场在做小范围的磨合,尝鲜者虽少,但本质上,产品试用为后续的科研带来了大量的数据输入。

科研没有停止,科研在不断走向产品。

计算机领域有一个短语叫做 “human in the loop”,有人翻译成“人机交互”,并没有揭示核心。也有人翻译成“人机回环”。

贾扬清的解释是,将一篇科研文章变成一个软件原型(prototype)。再将用户的体验、数据的回流、标注、再训练这个闭环做得非常精准。ChatGPT 在这一个领域中体现出了高超能力。

科技产品可以粗糙,也可以精美。

ChatGPT的科研背景非常强,满身都是商业机密的ChatGPT,虽然公布出来的技术大家都懂,但是为什么他们的效果这么好?

OpenAI团队做出来一个目前为止最接近AGI的东西,似乎证明了通用人工智能是存在的。

无论是不是,它离我们想象中的AI越来越近了。

(完)

a380be0dc49ae536fce17694c27ce13c.png

One more thing

这里有一个谭老师发现的公众号,话不多说,立马推荐:

更多阅读

AI框架系列:

1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)

2.搞AI框架那帮人丨燎原火,贾扬清(二)

漫画系列

1. 解读硅谷风投A16Z“50强”数据公司榜单

2. AI算法是兄弟,AI运维不是兄弟吗?

3. 大数据的社交牛逼症是怎么得的?

4. AI for Science这事,到底“科学不科学”?

5. 想帮数学家,AI算老几? 

6. 给王心凌打Call的,原来是神奇的智能湖仓

7. 原来,知识图谱是“找关系”的摇钱树?

8. 为什么图计算能正面硬刚黑色产业薅羊毛?

9. AutoML:攒钱买个“调参侠机器人”?

10. AutoML:你爱吃的火锅底料,是机器人自动进货

11. 强化学习:人工智能下象棋,走一步,能看几步?

12. 时序数据库:好险,差一点没挤进工业制造的高端局

13. 主动学习:人工智能居然被PUA了?

14. 云计算Serverless:一支穿云箭,千军万马来相见

15. 数据中心网络数据还有5纳秒抵达战场

16. 数据中心网络“卷”AI:迟到不可怕,可怕的是别人都没迟到

17. ChatGPT大火,如何成立一家AIGC公司,然后搞钱?

DPU芯片系列:

1. 造DPU芯片,如梦幻泡影?丨虚构短篇小说

2. 永远不要投资DPU?

3. DPU加持下的阿里云如何做加密计算?

4. 哎呦CPU,您可别累着,兄弟CIPU在云上帮把手

长文系列:

1. 我怀疑京东神秘部门Y,悟出智能供应链真相了

2. 超级计算机与人工智能:大国超算,无人领航

3. 售前,航空母舰,交付,皮划艇:银行的AI模型上线有多难?

1456f85d163c6e35aa15e1f2caee17db.jpeg

最后,再介绍一下主编自己吧,

我是谭婧,科技和科普题材作者。

为了在时代中发现故事,

我围追科技大神,堵截科技公司。

偶尔写小说,画漫画。

生命短暂,不走捷径。

个人微信:18611208992

原创不易,多谢转发

还想看我的文章,就关注“亲爱的数据”。  

Logo

助力广东及东莞地区开发者,代码托管、在线学习与竞赛、技术交流与分享、资源共享、职业发展,成为松山湖开发者首选的工作与学习平台

更多推荐