企业加快智能化转型 大模型“画龙”小数据“点睛”
大模型“画龙”,小数据“点睛”
企业加快智能化转型
◎本报记者 翟冬冬
小数据、优质数据应用有其前提,即需要在大的基础模型(预训练模型)之上,通过小数据进行模型的微调,使模型更加精准地服务具体应用场景。从这个角度来讲,小数据将在未来基础模型完成下游任务时,起到关键的作用。
王金桥
中国科学院自动化研究所研究员
如今大数据已经成为人工智能的“标配”。在训练人工智能模型的过程中,如果想让其变得更加聪明,大量的、多样性的数据必不可少。但近日,著名人工智能学者吴恩达在展望人工智能下一个10年的发展方向时,表达了不同的观点。他认为,小数据、优质数据的应用或是未来趋势。
中国科学院自动化研究所研究员王金桥表示,小数据、优质数据应用有其前提,即需要在大的基础模型(预训练模型)之上,通过小数据进行模型的微调,使模型更加精准地服务具体应用场景。从这个角度来讲,小数据将在未来基础模型完成下游任务时,起到关键的作用。
多数应用场景难以获取高质量大数据
算法(模型)、算力和数据可以说已经成为推动人工智能发展的三大要素,其中数据尤为重要。在众多互联消费场景中,我们常常被精准的人工智能推送“击中”。通过对消费者消费习惯、购物偏好的分析,平台系统可以对消费者的潜在需求作出判断并加以引导,而这一切的基础,是基于大量的、丰富的数据样本。利用大数据,平台构建出了适用于该领域的专用模型,实现精准推送。
这些体验或许是普通消费者对于大数据和人工智能最直接的印象之一。吴恩达在采访中也表示,在过去10年里,面向消费者的企业由于拥有大量用户群(有时甚至高达数十亿),因此获得了非常大的数据集使得人工智能可以开展深度学习,并给企业带来了不少经济效益。但他同时强调,这种法则并不适用于其他行业。其原因在于,并不是所有场景都能产生丰富的大数据样本。
实际上,“在生活中,百分之八九十场景的问题都属于小样本问题。”王金桥表示,很多应用场景中,由于训练样本难以获取,因此只有极少量数据,缺陷检测就是其中的典型案例。缺陷检测,即采用机器视觉技术等,对某种特定缺陷进行检测和识别。这种检测在航天航空、铁路交通、智能汽车等众多领域都有应用。由于在实际的生产生活中,存在瑕疵的产品总是少数,所以缺陷检测的训练样本数量很少。
而即使对于样本丰富的场景,也存在训练数据标注愈发困难的问题。王金桥介绍,目前人工智能所使用的训练数据,还是以人工标注为主,而在海量数据面前,人工标注往往需要行业经验,一般人难以对标注区域进行识别。此外,针对每个应用需求都需要人工智能专家设计算法模型,模型越多,开发成本也会持续增加。
吴恩达也表示,在消费互联网行业中,我们只需训练少数机器学习模型就能服务10亿用户。然而在制造业中,有1万家制造商就要搭建1万个定制模型。而且要做到这点往往需要大量的人工智能专家。
从目前的行业发展趋势来看,基础模型或许是解决上述问题的一个方向。
以基础模型为“基座”用小数据微调
“近些年,行业开始重视研发基础模型或者说是通用型模型来解决上述问题。”王金桥说,先用大量数据预训练一个模型。这些模型在预训练中,见多识广是首要任务。训练中,模型会见识到该领域各式各样的数据,增长见识,以应对今后出现的各种情况。之后再在下游任务中利用具体的场景数据进行微调。
如自然语言处理(NLP)领域的大模型,如果要利用它完成如对话、问答等下游任务,只需要使用这个下游任务中数量很小的数据,在这个大模型之上进行微调,就能达到不错的效果。一些研究成果也表明,只需要原来建立专属模型5%—10%的数据样本用于大模型的数据微调,就能得到和专属模型一样的精度。
“从大模型转向小模型,实现一个模型做多个任务,可以说是目前行业发展中的一个转变。”王金桥说,这样不仅降低了开发难度,还大大减少了开发成本。以前,每个算法都需要一个深度学习专家去设计和训练,现在只需要在大模型之下进行微调,模型的设计和架构也变得相对简单。中小型企业只需要在大模型上,自己上传数据就可以完成。
此外,利用这种方法,模型的误报率也会减少。基础模型见过丰富多彩的数据和场景,在处理具体任务的时候就具备了海量知识储备,有更充足的准备去应对具体的小场景应用。
不过吴恩达在访谈中也表示,预训练只是要解决难题的一小部分,更大的难题是提供一个工具让使用者能够选择正确的数据用于微调,并用一致的方式对数据进行标记。面对大数据集的应用时,开发者的通常反应都是如果数据有噪音也没关系,所有数据照单全收,算法会对其进行平均。但是,如果研究人员能够开发出用来标记出数据不一致地方的工具,为使用者提供一种非常有针对性的方法来提高数据质量,那这将是获得高性能系统的更有效的方法。
多模态或是大模型未来发展方向
基础模型作为生产众多小模型的“基座”,性能尤为重要。其认知能力越接近人类,在此之上产生的小模型性能也将越优异。
在探索外部环境的时候,人类具备视觉、听觉、触觉等多种认知手段,并通过语言对话等形式实现互动交流。其中视觉得到的信息约占70%,听觉、触觉等获得的信息约占30%。“同样,要使得大模型的性能更加优秀,更趋近人类的认知能力,就涉及到训练中的数据融合问题。”王金桥指出,我们熟知的语言生成模型GPT-3,能够生成流畅自然的文本,并完成问答、翻译、创作小说等一系列NLP任务,甚至可以进行简单的算术运算。但其和外界交互的主要方式还是进行文本交流,缺乏图像、视频等多模态融合。
每一种信息的来源或者形式,都可以称为一种模态。如人有触觉、听觉、视觉、嗅觉;信息的媒介有语音、视频、文字等。人的认知模型可以说是一个多模态的集合。
要让基础模型的预训练更接近人类的认知模型,也需要进行多模态融合。即让模型通过机器学习的方法实现处理和理解多源模态信息的能力,如图像、视频、音频、语义之间的多模态学习。多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。
“这一两年,大模型的数量呈现爆发式增长,且有从单一模态模型转向多模态模型的趋势。”王金桥说,具备了多模态能力的基础模型,在具体应用场景中健壮性更好,在异常和危险情况下系统的生存能力更强,今后多模态基础模型或将成为未来基础模型发展的一个重要方向。
您可能也感兴趣:
为您推荐
亚琦集团专注商贸物流十六载 携手央视 打造中国民族强品牌
聚合专业投资能力 引领财富价值创造 广发证券发布易淘金App10.0版本
康师傅“急难救助车” 救灾一线一碗热面暖人心
排行
- 因个人资金需求 赛轮轮胎董事张必书拟减持不超30万股公司股份
- 正泰电器拟不超20亿元回购公司股份 回购价格上限82.08元/股
- 联环药业控股股东联环集团增持285万股 耗资约2388.3万元
- 通达股份副总经理刘志坚增持1100股 增持金额5885元
- 滨江集团控股股东滨江控股质押1.9亿股 占公司总股本比例的6.11%
- 双塔食品控股股东君兴农业质押1800万股 占公司总股本比例的1.45%
- 光线传媒控股股东光线控股质押5050万股 占公司总股本比例的1.72%
- 绿地控股第一大股东格林兰质押2.5亿股 占公司总股本比例的1.96%
- 综艺股份实际控制人昝圣达质押3000万股 占公司总股本比例的2.31%
- 渤海人寿捐赠超过14亿元保险
精彩推送
- 个人经营收款码来了!
- 信用画像,助企业顺畅融资
- 企业加快智能化转型 大模型“画龙”小数据“点睛”
- 安徽发布2022年长三角一体化重点项目清单 总投资1.2万亿元
- 2021年安徽新能源和节能环保产业“吸金”近2400亿元
- 2022年年底前山东大气污染传输通道城市钢铁产能全部退出
- 闽西南交通圈加快形成 完善福建土楼景区公路网
- 首药控股:财报前后矛盾 “影子”关联方浮现信披真实性疑雾重重
- 浙江发放1400万元旅游现金消费券 7万余家商铺可用
- 天津东疆已承接非首都功能重点项目1473个 注册资本超4000亿
- 全新仰光航线首航广州港南沙港区
- 董明珠连任格力电器董事长兼总裁
- 2021中国节能各主业板块规模与效益均创历史最好水平
- “创新雷神号”卫星成功发射 华为云“天地一体”首次组网成功
- 10送转10!力量钻石豪气高送转方案吃关注函! 还有这25股披...
- 汽车手机厂家争相“跨界” 谁能讲好智能生态故事?
- 宝石花医疗深化改革专业化整合签约 央企专业化整合取得新突破
- 中国三大运营商董事长线上参加世界移动通信大会
- 有锂就牛!2400亿暴涨 主力围猎多只锂矿股(名单)
- 首趟“蚌合欧”城际定向班列开行 皖北企业外贸物流添新通道
- 龙虎榜:1.6亿抢筹湘潭电化 外资净买3股 机构净买5股
- 沈阳推动营商环境整体建设水平进入全国一流行列
- 辽宁大连:1-2月份港口出入境船舶数量大幅增长
- 新疆哈密今年首批重大项目开工 年度计划投资217亿
- 农业农村部:查早查小,防止非法转基因种子下地
- 河北清河:打造网络“名主播”助力产业发展
- 2月金股收官!“香饽饽”超六成负收益 民生、中原、西南证券...
- 【数据看盘】三大期指多头全面占优 游资高位抢筹锂矿龙头
- 2月28日晚间上市公司利好消息一览(附名单)
- 猪粮比价为4.98∶1 国家发改委启动中央冻猪肉收储工作
- 2021年我国港口货物吞吐量155.5亿吨 同比增长6.8%
- 周一莫斯科交易所不会开放股票交易
- 多只高位股继续扩大亏钱效应 中俄概念持续发酵
- 2021年IPO承销保荐收入降1/4!中信建投投行业务问题频出如何...
- 2月多城新房成交同比下降:北京降幅最大 深圳紧随其后
- MSCI俄罗斯股指跌25%
- 生物医药板块今涨0.42% 九强生物涨12.38%居首
- 全国人大代表姚武江:释放“绿色税收”政策红利 助力企业“...
- 总投资450亿元 中车新能源产业项目吉林松原开工
- 中国累计推广新能源汽车超过900万辆
- 报告:本周求职市场进一步活跃 约半数职场人曾远程办公
- 广船国际海洋科技研究院在广州南沙揭牌成立
- A股三大指数集体收涨 数字货币概念股强势领涨
- 全球首艘液化天然气双燃料超大型原油船“远瑞洋”轮在大连交付
- 美欧对俄切断SWIFT导致数字货币概念股大涨?
- 交通运输部:2022年预计新增铁路新线3300公里以上
- 从货币超发的去向看此轮全球通胀的演进 美股到达吸收流动性...
- 物业跨界做养老能行吗?行稳致远很重要
- 五常大米如何走出“李鬼”困局?
- 俄乌局势一波三折 私募合伙人经历“漫长一周” A股“当弱不...
- 昆仑万维业绩快报:2021年海外业务收入同比增超40% 占比进一步提升
- 公募首席经济学家魏凤春:俄乌战争不改市场趋势 关注成长股...
- 俄罗斯将强制企业出售外汇资产 企业将不得不出售80%的外汇收入
- 民航局对三个入境航班发出熔断指令
- 指数午后集体翻红
- 新疆哈密今年首批风力发电设备将运往哈萨克斯坦
- 中国稀土行业协会:今日稀土价格指数为429.4 与上周五持平
- 国家统计局:中国经济总量和人均水平实现新突破
- 透过港口数据看出生机:运输开门稳 经济韧性足
- 2月份新成立基金总规模294亿 不足去年同期十分之一
- 港股午评:恒指跌逾1%创2020年4月以来新低 港口及海运股逆势领涨
- 【财联社午报】两市超3100股下跌 题材板块继续退潮 数字货...
- 引社会资本进山入林 国家将建九大林草中药材生产区
- 港股融创中国午后跌超17%
- 三亚机场出港前往北京航班均已取消
- 锂电池板块继续活跃 锂矿股领涨
- 俄铝港股跌幅扩大至13%
- 新疆“塔村”:一个有颜值的“网红”旅游村
- 工信部:今年计划再培育3000家国家级专精特新“小巨人”企业
- 应急管理部公布一批对企业主要负责人依法进行处罚的典型案例
- 青海贵南:充足电力保障畜牧产业发展
- 金融核弹 西方制裁俄罗斯打SWIFT这张牌好使吗?
- 人均GDP突破8万元超世界平均!2021年这些新突破值得铭记
- 南方锰业(1091.HK)逆势涨超5% 料去年扭亏为盈 最少赚4.5亿
- 机构集中持仓股走势偏弱 12只低估值绩优股有潜力
- 热门赛道基金走出“深V” 两大主题仍是主线
- 天力锂能过会:今年IPO过关第48家 民生证券过2单
- 全球市场波动 A股春季行情如何走?
- 围“镍”正当时? QDII“借道”布局俄罗斯资产
- 汽车之家-S涨7% 瑞信料其今年营收改善
- 恒茂高科IPO上会被否 保荐机构为西部证券
- 新冠检测板块持续走高
- 国家统计局:2021年全国农民工人均月收入4432元
- 2021年全国出生人口1062万人 人口增加48万人
- 文创“破圈”为旅游添彩
- 农业农村部:把扩种大豆油料任务落到主体、落到地块
- 信美相互人寿首席投资官徐天舒:2022年A股市场会有正收益 险...
- 中国品牌借体育赛事提升国际影响力
- 2月28日投资避雷针:外围再起变化!纳指期货低开超3% WTI原...
- 日本药企申请首个新冠口服药上市许可 这些公司与其有多年良...
- “火中取栗”式的编外首席早该取缔
- 美国、欧盟对俄SWIFT制裁 或提升人民币结算需求
- A股何时迎来春季行情?投资主线有哪些?十大券商策略来了
- 人身险产品为何需要“负面清单”
- 美西方祭“金融核弹”实留后门,或敲美元丧钟?
- 特色水果走红的启示
- 全国秋粮收购平稳有序
- “互联网+”勾画中国乡村新图景
- 更精准发挥“保险+期货”作用 破解种养风险为农解忧
- 机械化种植节本增效