有关ChatGPT的一些非专业认知 chatgpt怎么玩

我从2020年开始做AI传播,由于是非专业出身,这几年一直在努力学习和消化,也希望让更多非专业人士能懂AI。

ChatGPT兴起后,我以最大热情去阅读论文和各种专业材料,包括反复请教大模型方向的的专家,对ChatGPT逐渐形成了一些基础认知。因为最近不少非AI专业的朋友对ChatGPT很感兴趣,今天分享出来希望能对大家有用。

一、ChatGPT不是聊天机器人

ChatGPT的内核是大语言模型(LLM,也称大模型),本质是“生成”(Generation),对话只是个表皮。所以ChatGPT用在其他领域,比如微软将其与办公软件结合(智能写邮件),与搜索引擎结合,这是再正常不过的事情。

也不要因为“生成”,而对AI开始惊讶。遮盖掉句子中的一个词,让AI进行填空也是“生成”,这种完形填空已经是AI领域里存在几十年的经典任务。只不过以前AI只需要根据上下文“猜出”中间那一个词,现在要“猜出”后面一堆的词,甚至形成一篇通顺的文章。

完形填空这个逻辑还能套用在AI作画上,遮掉一张人脸照片中的眼睛,AI可以凭借数学计算补上一双它想象出的眼睛。AI作画就是靠这样一点点地猜想,不断地做拼图,最后形成一张全新的画面。

二、ChatGPT不是突然冒出来的,而是学界持续研究的结果,是大模型路线的胜利

ChatGPT发展的根源是预训练模型的发展。预训练模型首先要归功于谷歌2017年提出transformer架构,爆发点是OpenAI在2020年提出的GPT-3,1750亿的超大参数带来了很多超乎想象的能力,AI开始能够写作文、写代码等,曾经引起科技圈的不少讨论。

预训练模型是AI的全新研究范式,能够让AI从传统任务型模型(一千个任务需要一千个模型,研发成本高),走向一个模型解决多种任务(先训练一个基础模型,然后再针对下游任务进行微调),大模型更是如此,其目标是one for all,一个模型解决所有任务,这就离通用人工智能不远了。

但不是所有人都看好大模型,暴力美学毕竟不太优雅,一些顶级AI学者在尝试其他道路,比如朱松纯一直在提倡小数据、大任务。他回国建立了北京通用人工智能研究院,其愿景和OpenAI极为相似,都是发展通用人工智能。

三、ChatGPT是伟大的AI产品,但未必是0-1的原始创新。

图灵奖得主杨立昆最近批评ChatGPT缺乏创新,虽然听起来有点酸,但也反映了一种重要的视角。对于AI研究者来说,真正的原始创新,是CNN、BP、GAN、Transformer这样的重大理论创新,他们构成AI的基石。

ChatGPT的伟大更多是工程上的,证明了大模型+HFRL(基于人类反馈的强化学习)的技术路线的成功。它既不是HFRL的提出者,那是谷歌在2017年提出来的;ChatGPT重点使用的强化学习算法PPO,也是业界的成熟算法。

杨立昆的批评其实也可以用于AlphaGo,很多人会把它当成AI的重大创新,当成AI行业的里程碑,其实它只是强化学习的一个应用,原始创新有限。(这里多说一句,腾讯跟随AlphaGo做了绝艺,那创新意义就更加有限了)

四、ChatGPT的成功背后,是OpenAI坚持走不寻常路

谷歌基于Transformer做了BERT,直接改变了自然语言理解(NLU)这个领域,引起了多数AI研究者的跟随。但OpenAI另辟蹊径,不是去做理解,而是做生成(generation),所以有了GPT(Generative Pre-trained Transformer)系列模型。

从GPT-1到GPT-3,OpenAI做了两年多时间,用大力出奇迹的办法(GPT-3训练成本高达百万甚至千万美金),证明了大模型的可行性,参数从1.17亿飙升至1750亿,也似乎证明了参数越多大,AI能力越强。也因此,在GPT-3成功后,包括谷歌在内竞相追逐做大模型,参数高达惊人的万亿、甚至10万亿规模,掀起了一场参数竞赛。

但这时候,反而是OpenAI沉寂了下来,没有再推高参数,而是又用了近两年时间,将人类反馈和强化学习引入大模型。业界虽然也有人在做类似工作,将知识融入大模型,将强化学习引入大模型…但大都是试探性的,没有大手笔和坚持不懈的投入,因为这条技术路线一直未被有效证明。

Open AI延续大力出奇迹的方法,花费重金,用人工标注大量数据,从而跑通了这条技术路线。由于论文没有公开,我们目前无从知道标注量,但数量肯定是极大的,成本是极高的。可以佐证的是,Open AI这几年只有GPT、DALL等少数几个项目,但却花费了数亿美金,之前甚至遭到不少媒体的质疑。

五、ChatGPT现在暴露出来的问题,大多不是真问题

对ChatGPT的很多批评是,它生成的内容经常是不真实的,或者是带有偏见的,ChatGPT很有可能会污染互联网。作为一个技术进步主义者,我倾向于认为这样的指责除了展现批评者的道德优越感外,意义不大。因为AI技术一大特点就是它能够快速进步,昨天的问题到今天也许有些困扰,但到了明天就不是问题。

GPT-3出来时,曾经出现过一个广泛流传的质疑,如果你问它太阳有几只眼睛,它会回答一只或两只,批评者以此来证明GPT-3缺乏常识。GPT-3也经常出现一本正经的胡说八道的现象,离题万里或者内容经不起验证。

但在ChatGPT上,这些已不是大问题,它难免还是会出错,但大体还是较为合理、有根据的,它甚至拥有了自我纠正的能力。如果经常使用ChatGPT,还会发现,ChatGPT特别会讲政治正确的话,会搞平衡,避免歧视和偏见。比如当你问A和B谁更好时,它会回答说各有优势,这就是不断训练优化的结果。按照这样的速度发展,ChatGPT的理性完备程度会超乎想象。

当然,ChatGPT还是会被不当利用,比如一些学生拿去写作业造假,但很难算是ChatGPT的错……互联网的出现,让抄袭变得轻而易举,让低质量信息泛滥,我们也许会偶尔怀旧纸质时代,但不大可能回去。ChatGPT只是一个工具,如何利用好工具,这是人类要面临的问题,而不是工具本身的问题。何况,还有以魔法来对抗魔法,既然可以有ChatGPT生成内容,那同样可以有模型来做对抗性的检测。

ChatGPT无疑会导致一些人失业——这是技术进步必然带来的副产品,已经在人类历史中多次重演。ChatGPT注定会替代某些低水平、重复性的劳动,让一些岗位消失,但也会带来一些新的、更具创造性的岗位。从农业时代进入工业时代,再从信息时代进入AI时代,人类的工作和生活注定迎来巨变,我们需要积极拥抱变化,而不是期待回到过去。

六、中国企业没有做出ChatGPT,可以骂,但不值得鞭笞

中国在AI领域缺乏原始创新、跟随美国的确是现状,要分析原因能说出一大堆,但我们不必因此就妄自菲薄。

从全球来看,AI行业已经形成了一超一强的格局,一超指美国,一强指中国,其他国家不足道矣(虽然加拿大有Hinton,英国有DeepMind),因为只有这两个国家才形成了AI的全面研究和广泛的产业应用,这和互联网行业的发展紧密相关。当然,更是因为AI行业的极致开放,AI研究没有秘密可言,这才让AI技术发展迅速,日新月异在这里不是形容词,一些榜单成绩的刷新甚至以天来计算。

我们虽然没有第一个推出ChatGPT,但并不代表我们这方面的工作处于空白或者卡脖子状态(AI和芯片全然不同)。可以确定地说,中国版的ChatGPT的推出只是时间问题,几个月或者最多一年,因为我们已经在路上了。

ChatGPT的核心是GPT系列模型,中国一些企业已经打造出GPT-3水准的大模型,重点是要再加入SFT(Supervised Fine-Tuning)和HFRL。这固然不是容易的事情,但在技术路线已经被证明的情况下,肯定可以实现,别怀疑中国人的工程能力。

……

先写到这里,最后说说个人感想。

20年我刚入AI行业时,整个行业充满了悲观的论调,深度学习撞墙,AI泡沫即将破灭,尤其是以AI四小龙流血上市、大厂裁撤AI Lab标志,AI行业仿佛岌岌可危……但ChatGPT等AIGC技术在2022年的出现,一扫阴霾,AI仿佛新生,已成全民热议的话题。

我相信这种轮回还会不断出现,AI技术目前远远没有达到成熟的程度,AI产业还极为稚嫩。但这可能就是AI的魅力,当你以为AI技术不过如此、AI产业就是这个样子的时候,某一项AI技术的突破,忽然打开了新的天空,让外人看起来石破惊天。

本文链接:https://www.dzdvip.com/44866.html 版权声明:本文内容均来源于互联网。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 395045033@qq.com,一经查实,本站将立刻删除。
(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023年2月8日 14:11
下一篇 2023年2月8日 14:12

相关推荐

  • 狼人游戏28个角色介绍 狼人潜行者是哪一方

    预言家:预言家每个黑夜可以查验一名玩家的身份,是平民阵营的领袖 女巫:女巫有一瓶解药和一瓶毒药,不可以一起使用,第一晚可以自救 猎人:猎人在死亡后可以开枪带走一名玩家,被女巫毒死时不可以开枪 白痴:白痴若是要被投票出局,免疫此次放逐,之后可以正常发言,但是不能投票 狼人:每晚可以杀死一名好人阵营的玩家,直至满足获胜条件则胜利 村民:没有特殊能力,需要通过场上信息进行投票,帮好人阵营找出所有狼人 警长制度:第一轮在宣布死亡玩家之前竞选警长,未参加竞选者有投票权,若出现平票则重新进行新一论的演说,如果再一次平票,则本局不存在警长 警长拥有1.5票的投票权,且有归票权,白天警长可以规定顺序发言或者逆序发言,警长死后可以移交警徽或者撕掉警徽如果2轮警长投票都没有投出警长,则警徽流失在没有警长的游戏局中白天发言的顺序为随机选择玩家开始顺序发言或者逆序发言。 丘比特:在游戏的第一个晚上,指定两名玩家成为情侣,也可以指定自己为情侣之一。在这之后,情侣睁眼互相认识,确认身份。在接下来的游戏中,两名情侣中的一个死去时,另一名也立即殉情死去。在白天放逐投票环节,一名情侣永远不能投票给另一名情侣。如果被连中的两名情侣,一个是狼人,另一个是好人,此时场上这对情侣与丘比特形成人狼第三方阵营,第三方阵营的胜利条件是将其余所有玩家都杀死(包括狼人和好人)。 盗贼:在游戏开始时,多加入两张普通村民卡。法官洗混身份牌并依次发牌后,留下多余的两张牌做为底牌。抽中盗贼牌的玩家在第一晚第一个睁眼,法官会向其出示两张底牌的身份信息,盗贼必须在这两张牌中选择一个身份,在接下来的游戏中盗贼即成为该身份进行整局游戏,并适用该身份的胜利条件。 白狼王:狼队领袖,白天可以自爆发动技能带走场上任意一名玩家一同出局。 守卫:一张神牌,每晚睁眼选择守护一位玩家,若该名玩家被狼人刀中则狼刀无效,该名玩家依旧存活。守卫可以自守,但不能连续两晚守同一个目标。守卫的守护和女巫的解药在一个晚上同时用在了同一个目标身上,守护和解药失效,该名玩家依旧死亡。

    2022年12月24日
    56
  • fil币是什么?怎么看待FIL货币?

    FIL数量是20亿枚,现在一枚是40美元,总市值800亿美元,单纯看这个市值,不用管实际落地情况,我就不敢玩。

    2021年5月4日
    104
  • 亚马逊产品负责人详解产品优化:流程零阻力策略

    你需要打磨出最佳的用户体验路径。永远留意那些会造成阻力的流程和功能——那些不好的产品总是忽略了这些。这很费力但是值得。并且这个过程并不如你想象的那么难。有时候,阻碍用户和你产品之间的可能只是两颗电池。

    2017年4月17日
    16
  • 如何批量采集内容?

    之前一篇文章讲解过垃圾网站的情况,其中提到了一种特殊的垃圾网站,就是利用采集插件来实现网站内容的自动化填充。 笔者以前没做过采集,近期准备做一个资源分享站,由于资源素材量过于庞大,又是自己一个人做,于是花三百块请人做了一个采集,研究后发现也不是很难,今天就分享给大家。 一、认识采集插件 想要用好采集工具首先要知道有哪些采集工具,如果你的网站是用各种开源系统建立(关于开源系统可以翻阅我以前的文章)的,一般都会有对应的采集插件,另外还有一些比较出名的采集软件。 在采集上笔者也不是专业的,今天就只分享笔者所使用的火车头采集软件,它不是以插件方式存在,而是以独立软件方式存在,只能运行在windows的系统当中。 使用火车头采集,你需要知道如何配置发布端以及如何配置采集对象。所谓的发布端就是你自己的网站,所谓的采集对象就是你要提供的具体采集对象的页面内容。 二、如何配置发布端 由于是花钱请人制作的,这个部分恰恰是笔者无法清晰阐述的地方,因为发布模块被设置了访问密码。 由于笔者是付钱请人制作的,所以有理由相信模块的制作者也是为了保护自己的劳动成果。但是同时,笔者也发现一个网站可以下载各种开源系统的发布模块。 同时在这个网站也有很多采集功能编写的学习类文章,有兴趣的朋友可以深入挖掘一下,如果不想深入挖掘的,可以看看里面是否有你使用的网站系统的发布模块。 三、如何配置采集端 这里不得不说笔者也是偷了个懒,没有自己去认真学习采集,只是在别人写好的规则基础上研究了一下。 从上列截图中可以看到,这里是采集配置的第一个地方,左侧的“1级列表页”代表我想采集的页面只有一个层级的列表,接下来就是干货了! 1、提取规则中的代码从哪里获取? · 通过浏览器打开起始网址(也就是我们要采集的内容的页面) · 在打开的页面按F12(windows电脑)调出网页调试 · 选择小箭头(mac跟windows系统有所区别,自行寻找) · 选择页面中的内容区域 仔细对比一下这里的代码跟提取规则里面的代码是否一模一样?没错,提取规则就是要将这个内容作为入口。同时提取这张缩略图以作为你自己网站发布的缩略图所用。 注:其中【参数】标签是需要提取的信息,而(*)标签代表忽略信息。 2、设置区域从哪里获取? 还是用刚才的方法,这次我们用小箭头选择整个列表页: 再来对比一下 而另外一个实际上是翻页标签,要知道这个列表有很多…

    2021年6月16日
    58
  • 做搜索引擎排名优化的6大点SEO方法总结

    做搜索引擎排名优化其中有一个最核心的环节“内容”,就像现在的自媒体一样,想要吸引用户的目光,你没有点内容真不行,其实内容为王的时代早在10多年前SEO盛行的时候就开始了,因此,SEO界流传着一句关于SEO的八字真言:“内容为王,外链为皇”!   原创 VS 伪原创   原创内容优点:搜索引擎的蜘蛛更青睐于原创文章,对蜘蛛更友好,可以加快搜索引擎收录速度。   原创内容缺点:对作者文笔要求高,灵感不是天天有,好的文案工资较高,导致公司运营成本增加!   伪原创内容优点:撰写简单,只要有点语文基础的人便可操作,降低企业运营以及时间成本!   伪原创内容缺点:蜘蛛会选取内容收录,会判断文章的原创度选择性收录,导致收录不稳定或者不收录!   如果您可以独自撰写“原创优质内容”,请关闭此页面!   下面小编将会告诉大家关于如何撰写伪原创文章!   一、素材内容来源   1、通过翻墙浏览一些国外的网站,例如:google,搜集外文的内容,复制下来再使用软件进行中文翻译。   2、OCR(文字识别工具),因为版权问题,互联网上的内容不能直接摘抄书本上的内容,可以将书本拍成照片,再用工具转化成电脑文字。   3、被搜索引擎屏蔽的网站,例如:淘宝网,因为搜索引擎本身不收录这些网站的内容,所以我们收集过来的内容在搜索引擎上都是原创。   4、与自己所属行业相关的垂直类网站,比如汽车行业网站内容可选择“汽车之家”里面的内容进行搜集。   5、微信公众号的文章,因为微信公众号的内容腾讯是不允许百度收录的,所以可以通过搜狗搜索引擎对微信公众号的文章进行采集。   二、伪原创写作方法   1、首尾自创法   将搜集好的一整篇文章,第一段和最后一段自己写原创内容,其余内容不变,只要核心内容不变就OK。   2、拆分组合法   搜集多篇相关且主题一致的文章,取A文章的第1、第5段,取B文章的第2、第6段,以此类推,将内容完整的拼凑成一篇文章。   3、段落调换法   将搜集好的一篇完整的文章,第1段与第4段调换,第2段与第5段调换,以此类推,最终变成一篇完整的文章。   4、词语替换法   将搜集好的一篇完整的文章,将文章中的词语做同义词替换,比如“我想要”替换成“我喜欢”,“他是一个笨蛋”替换成“笨蛋是他”,以此类推,最终变成一篇完整的文章。   5、伪原创工具   市面上有现成开发好的工具(为…

    2021年9月23日
    25
  • 民间关于蛇的传说(中国古代关于蛇的传说)

    中国的:女娲造人伏羲演八卦(这俩都是蛇身)修己梦蛇生大禹刘邦斩白蛇起义千年白蛇白素贞农夫与蛇人心不足蛇吞象台湾:仙剑梦蛇日本:八歧大蛇并且男梦蛇主遇贵人女梦蛇主得贵子基督神话里引诱夏娃亚当吃伊甸园里苹果的那条蛇希腊里有个美女蛇,貌似叫美杜莎六朝志怪里记载了一个关于蛇和雷神的故事。传说某山上有个伐木的,他上山时砍死了一条蛇,之后被雷公劈了一下。伐木的大难不死,跑到洞里躲起来。后来发现洞里有许多蛇,蛇王向雷公请求要惩罚伐木的,于是雷公就一个劲地对伐木的打雷。 中国自古就有许多关于蛇的传说,其中最出名的要数中国古代经典爱情故事之一的《白蛇传》。关于蛇修炼成精报恩救命恩人的美丽传说也许只是人们的杜撰,但是对于蛇,这样一种具有灵性的动物,却是很多时候被人们披上了神秘的外衣,民间传闻蛇是不能“得罪”的,并非无稽之谈。 蛇在中国民间传说中到底占有怎么的地位?这就首先不得不说华夏民族的图腾——龙了。关于龙的起源百家争鸣,众说纷纭,但是最具代表性的,是源于古代部落的冲突。一个部落战胜另外一个部落之后,会把战败部落的图腾中的一部分添加到自己的图腾上,一开始是蛇,慢慢的图腾有了鹰爪、鹿角、鱼鳞……这才成为了当今的中国龙。所有蛇是龙的本体和根源,蛇在十二生肖也有“小龙”的称号。换句话说,蛇是很神圣的,神圣的东西自古以来都不得侵犯。 还有一种民间传说,认为蛇是家院的财神,建房时在拆房过程中如果出现了蛇,就要毕恭毕敬的送走,不能打死或者伤害惊吓,这样等房子建好之后蛇还会回来住,自己家就会招财进宝。如果在路上遇到了死蛇千万不可跨过去,要绕过去,不然会给自己带来不幸。既然传闻如此,肯定先人总结了经验,至于原因为何,就很难解释。就像《易经》中的卦象,或者中国的风水学,如今都成了清华北大这样的大学的研究内容,对于无法解释的东西,更多的人选择了欣然接受,毕竟千百年来一直这样走过来了。 怎么样算是“得罪”蛇,得罪蛇之后会有怎样的不幸?《周公解梦》中说到:梦到蛇缠身会的病,梦到蛇咬人会倒霉。曾经遇到这样一个案例:一个人在田间耕地的时候发现了一条蛇,惊吓之后那人用铁锹直接将蛇斩为两段,那人在回家的路上就被车撞了。这样的案例有很多,蛇是不是真的那么神秘,不可招惹呢?如果从心理学考虑,这是由于自我的心理恐惧导致了人在主观的脆弱感而引发了客观的不幸。蛇的形象会让人产生恐惧,是一种最原始的恐惧感,人恐惧之后会在身体上…

    2022年5月2日
    25