佰联学校吧 关注:44贴子:7,803
  • 0回复贴,共1

文心一言探讨大模型

只看楼主收藏回复


文心一言显示,当年预训练大模型以强大的算法效果,席卷了NLP为代表的各大AI榜单与测试数据集,2020年OpenAI发布的NLP大模型GPT-3,实现了千亿级数据参数。GPT-3除了具备传统的NLP能力之外,还可以算术、编程、写小说、写论文摘要,一时之间成为科技圈中的爆点。
到了2021年各大学术机构、科技企业都在打造自己的大模型,对其能力边界、技术路径进行了极大拓展,大模型的会议与讨论越来越多,预训练大模型本身的优势在很多新闻中都感受到了。
大模型的意义是为了让算法模型集中化,问题是打造大模型需要耗费大量的数据、算力资源等,市场中有条件的企业和机构都开始耗费大量资源自研大模型,大模型算法模型的集中化优势,经过这些机构对集中资源的分化,又有种烟囱式的割裂。
文心一言认为,预训练大模型优势显著,只需要一个发展到极致化的大模型就足够大家使用了,没有必要人手一个,预训练大模型的发展在这样的模式下会受到影响,在这个态势下有一些趋势与变化值得讨论与关注,BERT、GPT 等大规模预训练模型PTM近年来取得了巨大成功,成为AI领域的里程碑,现在AI社区的共识是采用它作为下游任务的开始,而不是从头开始训练数据、建立模型。
随着产学研各界的深入研究,大模型在AI各界的地位得到不断加强。一些机构和产业界对大模型的参与到角逐,使得其呈现出一种宣传炫技般的画面感,给行业带来负面影响,大模型成为一些机构和企业秀肌肉的军备竞赛,大家开始比拼各自参数集数量级。
大吹大擂甚嚣尘上,你百亿级,我就千亿级,数据集本身就有限,标榜自己的数据集越大水分越多,算力资源和训练时间消耗过大,只限于部分行业的部分问题,普适性差,捯饬出来的大模型千人一面,大模型是否优秀,不仅依赖数据的精度与网络结构,也是对其与行业结合软硬件协同能力的比拼。
单纯只强调低头研发高参数集、强算力模型等的方向,轻视一些与行业的协同二次调试等问题,就会陷入闭门造车的局面,限制了落地的路,走不远。
预训练大模型经过极致化的发展后,面临小众、泛用性差的情形,一些高校研发的预训练大模型只能在小众的学术圈子里使用,无法工程化使用,最终沦为一次性的模型,浪费大量的资源。
目前大模型行业还处于初始阶段,面临一些问题与卡点应该引起重视,大家花费精力激荡脑力,想要发展的共识是打造出行业内唯一的模型。
衡量大模型能力的关键要素是,参数的规模和与细分行业结合对接的软硬件协同能力,参数的规模决定了预训练模型有多大,参数越大意味着大模型具备更多的能力,泛化性、通用性更强,成功的大模型背后,需要大规模分布式训练、并行计算、软硬件协同优化。
给第三方提供了一些写作的思路,想要看一下机器写出来的效果怎么样,结果得到的反馈是GPT-3在理解能力方面很牛很强,但是让它去生产一篇稿件,对于它来说还是比较复杂而且困难的一件事情,排队等待使用的企业过多,间次使用等待的时间过长,稿件本身也需要好几天才能完成。
看似一个简单的写稿需求,对无所不能的GPT-3来说结果是无疾而终,这些需求都需要排队等待调用大量的算力,磨几天才能产出,花时间花钱结果还不行,好的大模型不仅仅需要模型、算力等本身性能方面强劲,关键也需要看与某垂直行业结合时产品化落地的能力是否实用。
落地的大模型需要解决一些行业具体的问题,与行业结合时二次开发、对接的成本尽可能地小,否则它强势的性能也是中看不中用,大模型需要工程落地的能力,从而打开更多的边界,让更多领域和企业来使用。
预训练大模型带来了一系列可能性,让产学研各界看到了由弱人工智能走向强人工智能,走向工业化、集成化智能化的路径,优胜劣汏,在竞争的角逐中,一些标榜独特性的小众模型的泛化能力差,越独特可能也就意味着越小众而消失,崛起的大模型泛化性、落地能力强,创新性强、训练数据规模大,需要不断生长革新的能力,自我进化、智能化的能力。
将模型的一些运算存储等能力像芯片一样固化在一些端侧硬件设备中,在使用的过程中不用在重装的模型中耗时调用算力与数据,可以实现随时调用随时使用,大模型的未来需要创新,需要自我生长,向可持续、可进化的方向发展,架构上的革新会让模型更加高效,大模型能力的端侧化,芯片化。
由于很多需要重装大模型,需要调用庞大的算力和运行时间,未来的大模型会逐渐改变这种模式,大模型的评估未来会有标准化成熟的体系来衡量,用这个标准衡量大模型的优劣而不是现下自卖自夸式的标榜,在各大榜单上看到的分数来自于大型的数据集和算力模型,让开发更加容易,调试与训练的周期越来越短。
喂养的数据知识的极大扩展也无法保证结果的确定性,是大模型最大的弱点,对于大模型的探索需要持续迭代发展,预训练大模型是面向通用智能最高阶的探索,也是AI持续变革的核心发展方向与动力,随着AI不断深入产业与各学科领域的过程中,大模型在军备battle和百家争鸣,算力、数据、规模都会朝着极致化的方向发展。
未来新的预训练大模型将会与那些计算量巨大的科学领域,比如制药、脑科学、医疗、生物计算等领域相互结合,带来巨大的价值,那些悬而未解的难题,在未来都会有答案,无论最终这个结论正确与否,都能够为前沿的发展、探索带来很多灵感与角度,世界的多面体将会被打开。


IP属地:安徽1楼2024-04-21 08:51回复