Datawhale干货
作者:平凡@知乎,诺桑比亚大学,在读博士
(相关资料图)
今天晚上,花了一点儿时间看了两篇文章:
《Emergent Abilities of Large Language Models》[1]
《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]
这两篇讲的都是emergent behavior,即涌现现象。
大规模神经网络下的涌现现象在机器学习中使用大规模神经网络时,由于增加了参数数量、训练数据或训练步骤等因素,出现了定性上的新能力和性质,这些能力和性质在小规模神经网络中往往是不存在的。
第一篇文章举了这个例子,每个图都可以理解为一个任务,横轴是神经网络的规模,而纵轴是准确率,可以理解为模型的性能。
我们拿图一来看,在10的22次方前,这些模型基本上的性能基本上都很稳定在0附近,而在10的22以后,突然在10的24次方上获得了很大的性能提升,在其他的几个任务上都表现出类似的特征。
意想不到的效果第二篇文章更是有趣,我直接把推特一位博主的评论引用在这里:
作者发现,当我们训练用网络计算同余加法 a+b = ? (mod c) 时,网络在某个时间突然获得了 100% 准确率。分析发现,神经网络实际上“顿悟”了使用傅立叶变换来计算同余加法!这个算法可以证明是正确的, 反人类直觉的。
从这俩例子里面我的感受是,只要数据量足够且真实,且模型没有硬错误的前提下,不断的训练说不定真的能够产生一些意想不到的效果。
还有就是我觉得人类现在积累的知识并不少,但是系统的少,零星的多,如果类似ChatGPT这样的大模型可以拿所有的人类已有知识进行不断学习的话,我觉得有很大概率会让它涌现出意想不到的能力。
甚至可能把人类的生产力解放提前很多。
参考
1.https://arxiv.org/pdf/2206.07682.pdf2.https://arxiv.org/pdf/2301.05217.pdf标签:
Datawhale干货作者:平凡@知乎,诺桑比亚大学,在读博士今天晚上,...
1、中国地势最低的地方是吐鲁番的艾丁湖。2、艾丁湖湖面海拔低于海...
有很多历史资料在战火中被销毁或遗失,但是留存下来的这些史料也不...
5月27日,浙江省第四届生态运动会开幕站(舟山定海站)首个出场项目...
仪陇融媒(记者陈洪江胡威)在“六一”国际儿童节即将来临之际,嘉...
1、据说这学校舞蹈是不错的,其他一般吧。2、总体来说这学校还行,...
长期以来,美国一直都非常忌惮中国崛起,害怕中国超过美国。那作为...
1、可能有关。2、但是出汗多有生理和病理之分,如天气炎热和大运动...
1 在保险公司官网或者APP上进行操作,关闭自动扣费功能。 2 联系...
竹荪蒸肉丸子的详细做法用料竹荪15个,梅肉200g(8瘦2肥),南瓜1圈...
相信大家对哈弗h6红标和蓝标价格有什么区别,哈弗h6新款红标和蓝标...
1、山不转水转,意思是:事物都是运动的变化的发展的。2、山,水,...
而关于篮球的传承故事还要从1956年说起,当年邵克昌、邵仲安作为牌...
白化动物,是自然界中一类奇特而神秘的个体。我国古代史料中,便有...
导读莫斯科国立谢东诺夫医学院,斯科国立谢东诺夫医学院的简介很多...
1、>词曲:谢军歌手:饶天亮我时常一个人独自彷徨也时常一个人独自流...
这所学校里,“幸福”成为高频词青岛西海岸新区育才小学幸福教育成...
奥地利穷游,求住宿攻?1、青旅。2、其实某程也可以的。3、欧洲穷游...
提起珠穆朗玛峰,你的脑海会浮现怎样的画面?是这样的极目远眺?或...
2023年5月26日,哈尔滨市中级人民法院一审公开开庭审理黑龙江省民政...
GalaxyNote系列的消亡并不是什么新鲜事。GalaxyS23Ultra本身也不是...
豆来为大家解答以上的问题。止谤莫如自修说明什么道理,止谤莫如自...
渤海湾首个千亿方大气田中心平台建成
证券时报e公司讯,国家发展改革委副主任赵辰昕在发布会上表示,将加...
三亚市气象台2023年05月27日00时20分发布雷电黄色预警信号:受强对...
5月26日,景顺景颐嘉利6个月持有期债券A最新单位净值为1 1459元,...
喜欢大风天气的人的性格,什么样的人喜欢天天下雨很多人还不知道,...
“由于前期雨水较多,土壤墒情较好,所以在灌溉小麦头水时我们利用...
昆明大学生创业补贴政策咨询电话咨询工作项目:一次性创业补贴、二...
为了满足您提出的原创度要求,我会按照自己的创作风格来进行文章的...