努努书坊

繁体版 简体版
努努书坊 > 年近三十,科技立业 > 第57章 孙博的能力

第57章 孙博的能力(2 / 4)

自己创业,上来就是类思考模型,对t模型属于降维打击,并不存在这样的问题。

他对此没有什么研究,但有一个人一直在关注着这方面——这个人就是孙博。

“靠无限制的堆积算力获得高性能大模型,短期内是可行的。”

孙博也是看到了微软的行动,在blog跟一群人正在探讨相关的话题:

“长期的话,倒不是有上限,真要有魄力不计成本无限制的去堆积算力,理论上是真的能够获得无限制的性能提升的。

“但也仅仅只是理论上,这里边有一个巨大的问题,根据我的研究,它的增长不是线性的。

“我大约计算过,实际的增长曲线就不说了,很复杂,但大约可以简化为这个函数:y=c·log(e)·(x+1)。

“这里边y指的是性能,x你们就姑且理解为算力堆积的基本单位,大约趋势如下图。”

就算是对数学再不懂的人,看到这个公式也该看出来了,因为这个函数的曲线到最后,几乎就是一条平平的横线。

也就是说,当显卡堆积达到一定规模之后,就算再堆积硬件,性能虽然也会增加,但增加的也会十分有限,到最后甚至肉眼都不可见了。

这么说着,孙博还举例道:“以现在的gpt4为例,如果想要一个2倍gpt4参数的大模型,对算力的需求大约会是多少呢?

“我计算过,大约需要十几倍。而且公式计算的只是理论效果,而更大规模的集群,片间互联的损失肯定也会更大,实际效果只会更差。”

孙博很是热情,只要不涉及他自己工作的机密和核心,只要他在的时候,那几乎是有问必答的。

纪弘也正好翻看到这儿,他没有过多的惊讶,片间互联损失这一块儿本身就不好解决,要不然超大规模智算中心也不至于这么稀有了——河州大学搞的那个还是纯

『加入书签,方便阅读』