对话周伯文:当你真的明白了ChatGPT,你就不会想再做一个OpenAI
(相关资料图)
作者|王兆洋邮箱|wangzhaoyang@pingwest.comConnect the dots2014年,Yoshua Bengio和他在蒙特利尔大学的同事们正在研究如何把编码器-解码器用在机器翻译领域。这篇即将成为机器学习研究里程碑之一的论文,在当时有些卡壳。论文的一作,Yoshua Bengio的博士后KyungHyun Cho发现,他的模型在长句翻译上依然有很多问题。这些问题不解决,模型总显得不够强大。当时的蒙特利尔大学正在和IBM公司谈合作,后者负责对接的科学家从纽约来到蒙特利尔时,Yoshua和KyungHyun向他展示了这个进展中的研究,而后者很快指出了这个模型的一个缺失:它缺少一个对齐(alignment)的机制,也就是判断目标输出语言里的哪些词与输入语言是对齐的。在后来发表的论文中,这种对齐的思想加入了进去,长句翻译的效果得到提升,而这篇论文以及由后来联合创办OpenAI的Ilya Sutskever发表的另一篇论文一起奠定了Seq2Seq模型的基本思想,其中使用的对齐思路里,也出现了后来影响人工智能走向的注意力机制的影子,它们被认为是后来各类模型走向底层统一的源头之一。这名给Bengio提出建议的科学家是周伯文。当时周伯文已经在IBM工作10多年,在IBM著名的T. J. Watson研究中心领导自然语言理解与语音翻译团队。在2012年Geoffrey Hinton证明了神经网络的可行性后,周伯文带领他的团队成为最早一批扑到神经网络与自然语言表征相关研究的科学家。Yoshua Bengio在蒙特利尔忙着写论文的同时,周伯文在纽约也开始了基于seq2seq加上注意力机制架构做的研究,而与大多数研究方向不同,他选择了生成式写作的领域。看一看他过往的研究主题,会发现里面有一条长长的线,终端指向通用人工智能。他相信通用人工智能会实现,而且必经之路就是生成式人工智能。“凡是我不能创造的,我都没有真正理解”。周伯文在当年的一场学术会议上引用了著名科学家费曼的话,他认为,人工智能也必须会创造。很快,周伯文团队发表的生成式摘要论文引起了不少注意,但他依然觉得它和人类的行为特别是泛化方面还是差了一些。他认为当时的注意力机制存在缺陷——它们都是根据输出来判断输入中需要更加注意(pay more attention)的地方。周伯文给团队做了个比喻,就好像大学里的期末考试,如果学生通过老师在考前画重点来针对性准备复习,考试的效果当然会好,但学生通常考完就忘了。他认为,如果要做通用人工智能,要考虑的就应该是长期效果和对AI模型更充分的训练,所以不应该看输出,而只能看输入,就像人不能用未来的信息决定现在的判断。这就要设计一个更好的编码器,和更好的自然语言表征机制。最终他和团队提出了多跳自注意力(multi-hop self-attention)机制来改善编码器——若继续拿考试做比喻,就是完全不考虑会考什么,只看书,来理解哪里需要更多地赋予注意力,也就是学习自注意力,并且不能限制在单独某一科目或任务的学习上,所以要反复的看,通过多跳来理解内在的依赖关系。2016年底这篇论文完成,2017年初发表,成为第一个完全不考虑下游任务的自然语言表征模式。在那两年,有关神经网络的一切都在蓬勃的发展着。同年年底,后来被称为一切繁荣的开端的那篇论文出现了,来自谷歌的几个研究员写下《Attention is All you need》的题目,给世界带来了Transformer模型。在这篇论文中,周伯文的论文被引用,在引用角标对应的地方,多跳自注意力的名字演变成了“多头自注意力”。“这是一个很好的研究,他们在多头自注意力基础上拓展了两件事。第一就是利用强大的算力,对注意力机制叠了很多层。第二很聪明也很简单,就是把RNN抛弃了,只用位置编码,轻装上阵因此可以用更多的数据。最终证明效果很好。”周伯文对我回忆道。RNN/LSTM之前一直和Seq2Seq模型一起出现,它可以捕捉上下文的关系,但因为需要基于序列顺序来做,所以计算资源消耗巨大。尤其会出现梯度爆炸的问题。Attention is all you need,这个后来很大程度改变了学术论文起标题风格的短句,今天的关注点都在“Attention”上,但在当时的研究背景里,它更像是在有针对性的喊话:多头重要,自注意力重要,但RNN不再重要,这打破了当时所有人搭建模型时的惯例,也是和周伯文等之前研究者的论文最大的区别。这篇论文和Transformer架构彻底改变了一切,它解决了模型长距离记忆的问题。Ilya Sutskever在近期一次采访中回忆,OpenAI在论文出现第二天就立刻彻底转向了Transformer架构。而后,2020年5月OpenAI基于Transformer架构的GPT-3论文发表,2年后ChatGPT出现。之后的一切都是历史。“从注意力到自注意力,从BERT到GPT-3,核心的思想都是当不再依赖输出或待预测词的下文等未来的信息时、当可以用更多的数据来更充分训练AI模型时,我们看到了AGI的影子“。弄潮的人会更早意识到新浪潮到来,在看到GPT3后,当时已经在京东担任高级副总裁的周伯文给自己的职业生涯做了一个重要的决定:创业。2021年下半年,他向工作了4年的京东提出离职。他曾在这里一手搭建起京东的整个AI团队,领导了云与AI的整合和战略刷新,把生成式人工智能用到千人千面的个性化商品营销和爆款产品创新中,并收获了亮眼的提升数据。2020-2021年生成式人工智能还是早期探索,很少有人愿意为此而重新出发,但他看到的未来让他无法等待。人生就是“connect the dots”。周伯文喜欢乔布斯这个提法,而对他来说,把这些点连接起来的一刻到了。衔远科技的诞生一个无限的符号。左边是产品,右边是消费者。周伯文在2021年底的一天在一张A4纸上画下了这个图案,之后衔远科技诞生。Dots connected。这种基于生成式的交互智能就是ChatGPT成功背后的重要机制,但在ChatGPT还没出现的当时很少有人懂。离开大船,带来的是巨大的沉没风险,但他自己想的很清楚。“终局思考加上对技术阶段和成熟期的判断,让我在2021年决定干这件事情。”在衔远科技位于中关村的办公室,周伯文对我说。他的声音有些沙哑,今年以来他每一天的行程以小时划分,但精力依然充沛,提到技术的演进节点,不自觉会兴奋地提高音量。周伯文“展开来说,首先是技术验证,一方面是GPT3这些模型明显看出生成式的能力越来越强。另一方面是我自己早期的一系列技术和效果验证。用生成式AI来做的内容和产品创新等比人类专家的转化率提高30%。”两相结合,周伯文创办衔远科技要做的,就是用生成式人工智能去重构用户和产品的关系。“过去的模式虽然已有很多新AI技术的实践,但数智化产业在追求单点,成千上万个小的模型,解决一个个具体环节。我希望做一个基础大模型,学习商品供应链各个环节,并以消费者为中心提升关键环节效率。”但果不其然的,这个模式在一开始并没太多人理解。周伯文又再次需要做一个判断:这些技术思考和现实的商业模式之间的空隙,他是否又一次太超前了。“超前是我的常态,但我当时判断是,没有太超前。”他对我说。“我总是说,技术的突破,核心是你的愿景是什么。”周伯文的技术愿景显然指向通用人工智能,而这一次生成式人工智能的进展,让他更清晰看到通用人工智能的可能性,其中最关键的改变,就是人与人工智能的交互关系的变化。“过往大家都把人机对话认为是一种应用。我为什么要去做交互呢?我不认为它是个应用,从人类历史早期开始,从孔子与72门徒到雅典学派,人类知识的积累、沉淀、传播,其实都是通过人和人的对话、交互实现的。AI时代类似,我认为人机对话是一个学习与对齐的手段,通过交互,人可以不断地教AI,完成人和AI在复杂任务上的分工协同,并同时确保AI的目标和子目标都与人类对齐。”周伯文说。在ChatGPT出现后,这种判断成了一种共识。但在2022年初当他去清华大学提出想要做这个课题时,大家也感到新奇。周伯文离开京东后,受聘为清华大学电子工程系长聘教授、清华大学惠妍讲席教授,并设立“协同交互智能研究中心” 。他同时拥有学界和创业者的双重身份,希望通过这两种身份围绕学术与产业的协同更好的助推AI创新发展。什么才是中国的OpenAI在中关村不大的会议室里,周伯文给我展示他2021年底最早设计衔远科技的技术底座与商业模式时的幻灯片,网络投屏延迟有些高,“我们的网络资源都在训练模型,”他半开玩笑地说。这家公司正在按照他的愿景,稳步推进每一个技术细节,打造着模型和产品。用生成式人工智能去重构用户和产品的关系,周伯文最终将它们指向5D:发现,定义,设计,开发,转化(Discover,Define,Design,Develop,Distribute)。周伯文在和客户的沟通中发现,这5D基本涵盖了品牌和制造商的所有需求。这5D的任何地方不能只考虑用户或者产品,而是需要把它们链接起来看,也就是需要彼此交互。这也是与以往的不同——5D并不新鲜,它们早已存在,过往周伯文也用技术走通过每一个D,但问题是在大模型之前,模型训练和部署成本都很高。更重要的是,它们是彼此分割的,哪怕是曾经火热一时,试图解决这一问题的数据中台概念也没能改变这个事实。“当我做了数据中台后,发现这是一个伪命题,因为它是一个ad hoc(临时安排)的东西,是事后定义的。所有人用不同软件看到的数据还是不同,因为最终的入口不同。但衔远科技的大模型做成后,所有企业使将使用5D大模型来实现数智化转型,将其成为统一的入口。”他说。“生成式人工智能让5D第一次有可能用同一个AI基础模型跑起来。而且能够将5D的数据集中到一起并实现全部穿透,这类场景以前是不存在的。”“在应用落地层面, 我们研发的领衔Collaborative Innovation Platform SaaS基于大模型的多模态理解、推理与生成能力,通过深刻洞察消费者、场景、商品、品参、研发,协助企业发现商业机会与产品创新。同时,衔远科技的ProductGPT多轮对话平台为企业每个员工提供根据不同职业角色深度定制的个人助手,通过提供角色特定的技能与知识满足其特定的工作需求, 例如,衔远科技的消费者研究个人助手会提供研究市场趋势、理解消费者需求、市场调研等专业技能与相关知识。”衔远科技在今年3月1日已完成数亿元天使轮融资,由启明创投领投,经纬创投跟投。不过,在今天已经被一定程度上塑造的中国大模型商业语境里,这样的模型思路似乎会被立刻归类为“垂直模型”,人们认为它需要被建立在一个更强大的,全能的通用大模型之上,而后者才是“百模大战”的焦点。但周伯文并不这么认为。“我以前没用大模型这个词,现在大家这样理解,没办法(也要用起来),这样有好处,就是简洁。但它也会把很多东西混淆在一起。”第一是技术上,他认为,一方面只强调大就会让人们把GPT这种dense model和其他一些MOE(拼接模型,可以大很多)放一起比较,这样并没有意义。另一方面,目前模型的确需要足够大才能涌现一些能力,但未来一定会有新的办法,比如,未来训练一定要提供现在还多的高质量、高智慧密度数据,但模型的表征架构不一定就必须要数量级的增长,如果是可能是我们的表征学习还不够好;推理就更明显,一定是越小越好。“我一直认为,模型不是越大越好。我们说大模型其实关键是模型提供了预训练能力,具备了基础能力,后面怎么去用是另一个问题。”第二在商业模式上,“大”其实对应的是ROI里I的部分,但事实上没人要去比I,要比的是R,I是分母越小越好,R是分子越大越好。以及大模型本身更适合做的是长尾场景,这些往往也是低价值场景。而一些数据上的变化也开始印证这个判断。“从上个月起,ChatGPT的API 调用量明显下降,日活下降5%,而它之前突增之后也才到谷歌日活的2%。”他说。“人们不知道用它干什么,只当做是一个玩具或一个简易工具。我的判断是必须进入生产力环节,成为人们在生产生活中的刚需。”所以在衔远科技,大模型在技术底层框架上必须具备通用大模型技术的基础能力,并用科学的方法评估,但同时也需要专业的训练。“人们都在用LLM来简述OpenAI做的事情,但实际OpenAI自己的定义是——基于多头注意力机制预测下一个词训练出来的最佳的世界知识压缩器。”周伯文找到OpenAI科学家的分享对我说。也就是,一件产品诞生全过程的知识第一次可以用最佳方式压缩进一个模型。把人和消费者所有交互的数据压缩之后来预测下一个“词”,并可以学会人的场景,情感,来预测产品的参数。周伯文喜欢引用诺贝尔经济学奖得主丹尼尔·卡尼曼提出的一个理论来解释人工智能与人的关系:人们的思考方式有两类,“系统1”基于直觉和经验判断,快速、不需要大量计算,“系统2”需要语言、算法、计算、逻辑。最初人们以为商业化的AI更适合做“系统1”的工作,比如人脸识别等。ChatGPT则证明了AI做非给定任务系统2的可行性。而具体到衔远科技,可以拿亚马逊的贝索斯来比喻,他有天生的思维,有亚马逊强大的团队和数据分析能力,也就是强大的系统2,但不是所有商家都有这么强大的能力。但今天一个吃透了互动数据的模型可以让这些能力平民化。衔远科技科技就是要帮助更多的企业家成为贝索斯。据品玩了解,衔远科技正在训练的基础模型会在具备通用能力的基础上,更擅长理解人与商品,通过多轮对话方式为企业与消费者以生成式人工智能帮助从商品洞察、定位、设计、研发到营销的创新。周伯文设计的训练方法,是用约三分之二的通用人工智能的问题,比如数学推理等,再加上三分之一完全围绕着5D的知识来一起训练。周伯文认为,这是一个用全新技术驱动的全新挑战,而并不是简单地去追随做“下一个OpenAI”。“因为在OpenAI成功的一瞬间,就意味着任何在该领域跟随的其他公司都不再有是OpenAI的可能。”他说。“OpenAI是什么,是在没有前人成功的例子上,靠自己对终局的判断,一步步往前走,认为未来应该是这样,而不是那样。如果今天只是做跟随,那就不是中国的OpenAI。”????出海活动推荐印尼,一个人口近3亿的多岛国家,正迅速崛起为全球新消费市场的热门目的地。品玩Global邀请您参与将于6月20日举办的“出海印尼,新消费快速破局之道”目的地出海活动,一同探索印尼独特的文化魅力和多元的商业生态!*扫描下图二维码,即可报名!· 文章版权归未来科技力/品玩所有,未经授权不得转载。· 发送关键词 转载、合作、招聘标签:
-
2022-05-23 16:13:32
上海奉贤等区开展常态化防疫压力测试 有序开放公交、公园、公共服务场所、公共街区商区<
本报上海5月21日电 (记者刘士安、曹玲娟)上海正在奉贤等区开展常态化防疫压力测试。在21日召开的上海市疫情防控工作新闻发布会上,奉
-
2022-05-23 16:13:32
“抗疫 宅家云课堂”,吸引沪上老同志观看50万人次<
由上海市委老干部局主办,上海市老干部大学、市科技助老服务中心承办的“抗疫 宅家云课堂”系列直播讲座自4月12日启动以来,深受老同
-
2022-05-23 16:13:32
“代跑腿”买药、开通绿色通道 丰台为管控区居民提供便捷医疗服务<
“真是太感谢了,解决了我的燃眉之急!”家住假日万恒社区的杨女士对前来送药的居委会工作人员说。 自5月17日6时起,丰台区对青塔街...
-
2022-05-23 16:13:32
上海嘉定:儿童计划免疫接种全部恢复,实行预约制<
在5月22日召开的上海市新冠肺炎疫情防控新闻发布会上,嘉定区副区长王浩介绍,从4月28日开始,嘉定在防范区逐步有序恢复老年人疫苗接种
-
2022-05-23 16:13:32
乡村振兴看新疆 | 种下红樱桃 结出“致富果”<
央广网阿图什5月22日消息(记者 罗成 通讯员 杨林)乡村振兴靠产业,产业发展靠特色。新疆阿图什市阿扎克镇麦依村积极引导农民因地制
-
2023-06-16 19:29:31
对话周伯文:当你真的明白了ChatGPT,你就不会想再做一个OpenAI
作者|王兆洋邮箱|wangzhaoyang@pingwest comConnectthedots2014年,Yosh
-
2023-06-16 18:57:02
焦点速看:引擎之心回城特效_引擎之心
1、赵云引擎之心是王者荣耀与BMW品牌合作的定制皮肤。2、这款皮肤的设
-
2023-06-16 18:38:24
百事通!日本女性新穿法,上班约会两不误,洋气显瘦,快来get!
日本女性新穿法,上班约会两不误,洋气显瘦,快来get!随着时尚的不断
-
2023-06-16 18:03:06
医生我便秘鱼知百度云(医生我便秘by鱼知乐)
1、便秘与生活习惯和饮食是分不开的,平时要多吃水果蔬菜和粗粮可以预
-
2023-06-16 18:05:47
环球视点!你我的越秀|融入中医药特色,人民街这个社区养老服务中心不一般!
中医药如何助力健康晚年生活让“养老”变“享老”?在人民街综合养老服
-
2023-06-16 17:47:58
奖励一套房!杭州跳桥救人小哥最新回应:我们都不收
中国蓝新闻6月13日,31岁的外卖小哥彭清林从12米高的杭州钱塘江西兴大
-
2023-06-16 17:30:16
2023中国车谷端午嘉年华开幕时间及直播入口|世界热门
中国车谷端午嘉年华|2023武汉国际消费季6月16日晚“6·16三好节”暨中
-
2023-06-16 17:00:31
亚麻酸的功效与作用_亚麻发黄怎么清洗变白 亚麻发黄的清洗方法
导读:亚麻发黄怎么清洗变白?以下由小编为大家带来介绍。可以用淘米洗
-
2023-06-16 16:42:50
刘小林|七绝十三首
涪江挥别岷山竞自由,滔滔奔涌势难收。未从归客眼中老,总在离人梦里流
-
2023-06-16 16:15:28
南昌获评全国首批社会治安防控体系建设示范城市
近年来,我市坚持将智治作为推进市域社会治理现代化的重要手段,紧扣促
-
2023-06-16 16:12:25
英三嘉哥百科_英三嘉哥吧-每日速读
1、从某种意义上来说,是的。2、他在李毅吧和魔兽世界吧都已达到满级(
-
2023-06-16 15:39:08
科普iphone6手机名称怎么改及iOS8.1.1已知BUG汇总|世界今日讯
想不想自己的手机拥有一个第一无二的名称呢?今天小编就教大家iphone6手
-
2023-06-16 15:16:54
快消息!淮矿地产有限责任公司(关于淮矿地产有限责任公司介绍)
来为大家讲解以上的问题。淮矿地产有限责任公司,矿地产有限责任公司介
-
2023-06-16 14:53:01
清洁家园迎亚运 百千党员大扫除_今日热门
为贯彻落实迎亚运盛会全省三大提升行动动员会会议精神,实现 "办好一个
-
2023-06-16 14:51:05
焦点热文:民航临时乘机证明系统操作攻略_民航临时乘机证明系统使用方法
1、打开微信,搜索“民航临时飞行证”小程序,进入。2、点击“立即申请
-
2023-06-16 14:18:46
算力概念持续活跃 利通电子涨停_环球热议
6月16日电,午后算力概念持续活跃,利通电子涨停,城地香江一度触板,
-
2023-06-16 13:42:48
高中生闯球场后续!涨粉采访成网红,外国球迷怒斥,英足总曾重罚
一名高中生球迷在万众瞩目的工体大战中闯入球场,拥抱梅西、击掌大马丁
-
2023-06-16 13:09:51
2023昆明端午节演唱会汇总(时间+地点+门票)
昆明端午节演唱会时间表一、枯木逢春「此刻你会在我身旁」2023巡回演唱
-
2023-06-16 13:02:54
关于男子钓到大鱼单手骑车被甩翻及男子钓到大鱼单手骑车被甩翻详情 世界今日讯
音频解说1、6月15日音讯,湖南常德一名男子钓到大鱼,单手拎着骑车,不
-
2023-06-16 12:29:50
足球报:梅西来华本应实现社会商业双赢,但留下的可能是烂摊子 环球看热讯
足球报:梅西来华本应实现社会商业双赢,但留下的可能是烂摊子,足球报,
-
2023-06-16 11:59:14
百济神州辩护:自家产品疗效安全好于艾伯维!股价应声反弹涨超7%
财联社6月16日讯(编辑周新旸)百济神州(06169 HK)周五对外宣称将对侵
-
2023-06-16 11:48:36
世界微头条丨人流后多久来月经 人流后低烧怎么回事
人流后多久来月经现在很多的人都会是意外怀孕的群体,在性生活期间没有
-
2023-06-16 11:45:20
环球关注:狱友相约盗窃电瓶光缆 致800户居民断网获刑
正义网上海6月16日电(通讯员王擅文)许能(化名)出狱后与曾经的狱友李军(
-
2023-06-16 11:32:03
平安2023丨非遗文化来助阵 禁毒宣传创新意|每日热议
传统剪纸、葫芦烙画非遗面塑、雕版印刷……一场非遗文化公益集市禁毒宣
-
2023-06-16 10:52:27
【世界聚看点】“三个年”活动|来自千里之外的感谢
“太感谢了,要不是你们把人找到,我们全家真不知道还要跑多少路,操多
-
2023-06-16 11:13:38
6月16日江苏联海醋酸乙酯价格持稳-环球滚动
6月16日,江苏联海醋酸生物科技有限公司厂家开车正常,今日报价持稳,
-
2023-06-16 10:37:11
赛事预告丨宁夏回族自治区第十六届运动会群众组围棋比赛
比赛地点沙都酒店会议室▌编辑:李佳迪▌初审:张鹏航▌终审:张长春
-
2023-06-16 10:20:31
占半壁营收的沙发业务下滑 顾家家居押注定制产品、产能冲20亿
在公布2022年业绩一个半月之后,顾家家居向投资人举行了业绩说明会。6
-
2023-06-16 10:03:27
windows10dos怎么打开(dos怎么打开)
导读1、可以通过快捷键运行和搜索栏里输入命令打开,具体的操作步骤如
-
2023-06-16 09:45:40
每日信息:黑山县气象局发布大风蓝色预警【Ⅳ级/一般】【2023-06-16】
大风蓝色预警信号:预计16日8时到20时,黑山县偏南风4到6级,阵风7到8
-
特写:风吹稻香忆袁老——袁隆平逝世一周年的墓前追思
2022-05-23 16:13:29 -
北京5月21日区域核酸筛查初筛10管混采阳性
2022-05-23 16:13:29 -
北京两地由高风险降为中风险 一地降为低风险地区
2022-05-23 16:13:29 -
5月21日15时至22日15时,北京新增本土新冠肺炎病毒感染者94例
2022-05-23 16:13:29 -
108岁病人顺利出院,瑞金医院卢湾分院已收治10位百岁老人
2022-05-23 16:13:29 -
生态花园助力乡村振兴 重庆小山村展现“乡土美学”
2022-05-23 16:13:29 -
上海金山政务服务场所逐步恢复服务
2022-05-23 16:13:29