周枫:教育大模型16个月落地思考

去年7月,有道发布了“子曰” 教育大模型。时至今日,已过去16个月。在这段时间里,“子曰” 化身虚拟人,走进课堂,还植入了硬件设备。有成功,亦有失败。然而,我们的团队始终奋战在大模型教育应用的第一线。值此之际,与大家分享我们的收获、教训与体会。

01

 

共识:AIGC市场潜力巨大,教育领域天然适用大模型

大模型和AIGC技术适合教育领域,这个已然成为行业共识。在我国,有1.5亿中小学生以及近5000万大学生,然而教师总数却不到2000万,平均10个学生才有一位老师。教师数量不足是教育领域长期存在的矛盾,这与医疗领域的情况颇为相似。

与以往技术相比,大模型技术更能够有效提升“教”与“学”这两个本质上属于思维活动的效率,因而从长远来看,其非常适合教育领域。

 

自两年前ChatGPT问世以来,我的观点始终是“大模型的浪潮将持续十年,应用层机会巨大”,2009年,3G正式上线,同年iPhone 3GS上市,由此正式拉开了移动互联网的序幕。在随后的十年时间里,每隔一到两年便会有革命性的应用或软件平台出现,而像抖音这样的巨量应用,则是七年后才出现。我认为大模型会呈现类似的发展趋势,对科技产业的推动作用将长达十年甚至更久。

如今,OpenAI的年化收入已经达30亿美元,国内产品豆包的日活跃用户数DAU已接近1000万,Talkie这样的娱乐应用也拥有可观的体量。如果说去年这种看法还比较小众,那么今年可能更多的人会持有类似的观点(当然,唱衰大模型的人也明显增多了,这也是很自然的事情)。

 

具体而言,在教育领域,三大场景逐渐成为关键应用点:

  • 学校场景:AI定位于“教学助手”,能够协助老师备课,解决学生作业问题以及进行学习答疑。目前,在这些方面已经涌现出不少出色的应用。其对应的商业模式为2B2G,是教育信息化业务的进一步演进。

  • 家庭场景:AI定位于“家庭教师”,属于典型的2C场景,由于妈妈们消费能力强大,家庭教育场景也成为关键场景。AI可以助力完成孩子的学习指导、对学习进度的智能督促,还能协助进行学习规划和志愿填报等任务。

  • 自学场景:AI定位于“学习伙伴”,这是与家庭场景相关联的另外一个重要的2C大场景,且更多地以学生为中心。它是传统学习App和学习硬件的大模型升级,能够帮助学生更好地进行自主学习,完成AI练习、AI答疑以及提供心理陪伴等任务。

从智能能力上分层,是审视AI应用的另外一个视角,可以直观地将大模型在教育应用中的智能能力划分为四层:

  • L1 交互问答。通过文字和语音方式实现问答交互,这属于系统的QA人工智能应用。

  • L2 人性化辅导。这一层目前普遍能够达到,具有更个性化的上下文,更自然的文字和语音交流,并且带有情绪价值输出,是新型的AI机器人,相比L1,用户价值有了大幅提升。

  • L3 主动辅导学习。更进一步,机器开始具备一定的教学能力,能够在特定场景(例如英语学习)中,有效地引导特定群体(如雅思学生或少儿)进行高效学习。这是当前很多新产品的努力目标。

  • L4 虚拟老师。作为高级形态,AI虚拟老师需要接近真人老师的全面能力,能够在一定环境下代替人类老师开展工作,这要求机器具备很强的基础AI能力,包括知识储备、长期记忆、各科解题能力、教学方法,以及应用心理学和教育学的能力,同时内置多科教学内容。当然,也需要具有很强的安全性和价值观保障。

目前L2是很多产品已经具有的能力,L3是业内不少产品团队正在努力的目标,而随着基础模型认知能力的快速提升,L4虚拟老师的实现或许并不遥远。

02

两个已经能跑通的教育大模型应用方向

自ChatGPT诞生的两年以来,众多团队对教育类的大模型应用进行了大量尝试,有道的团队也展开了公司历史上最为集中的快速试错历程。所有团队面临着“如何利用大模型改造和升级业务”这一问题。

作为商业公司,使产品实现增长并跑通商业模式是团队必须跨越的关卡。以下是我们认为已经基本跑通的两个应用方向。

首先,语言类学习是大模型可以很好支持的应用领域。大模型本来就具有强大的语言能力,还具备跨语言交互功能,十分擅长聊天,堪称天然的优秀语言教师苗子。基于此,我们大力推进了Hi Echo项目,在国外,韩国的Speak、美国的Duolingo等也在这一方面进行了诸多尝试。

在项目实施过程中,我们也获得了一些起初未曾有过的认知。一方面,我们发现对语言学习类应用,良好的视觉形象对产品有巨大的推动作用,Hi Echo的高保真虚拟人是该产品超越同类产品的重要原因。今年,我们还推出了可爱的卡通版儿童模式,同样深受孩子们的喜爱。

第二个认知,垂直化落地到具体场景非常有帮助,除了儿童版,Hi Echo还与雅思官方合作推出内容,这两个垂直内容颇为成功,提升了整体的留存率、活跃度和付费率。当前,Hi Echo实现了在不错规模下连续数月的持续盈利。

第二个应用是全科答疑,我们认为也已成功跑通。全科答疑的难度比语言学习大得多,并且基础模型在所有学科中需求最大的数学方面尚有不足,因此,在去年的时候,我们团队并不确认其一定可行。然而,通过一年持续打磨模型和产品,目前我们发现用户对基于大模型的全科答疑产品(有道“小P老师”)非常欢迎,其用户自然流量增长较快,且解决用户问题的成功率较高。

我们看到,用户对于全科答疑产品期待是多方面,要做出一个好的答疑产品,需要在大量细节上都做到位:

  • 基础答复质量:通过为模型增加针对性训练语料,以及采用RAG等知识库方法,可以使产品达到用户可接受的基础质量。同时,行业基础模型方面的不断革新,也为质量的进一步提升带来了机会。

  • 加强学习方法类功能:学习产品垂直性的一大体现,就在于用户期望产品能够“授之以渔”。因此,小P老师的题目知识点、考点分析以及同类题推荐等功能受到了用户的欢迎。

  • 用好摄像头:学习答疑与其它非教育聊天类产品相比,一大特点就是输入复杂,涉及公式、图片以及排版复杂等情况。所以,输入是否方便准确,是用户是否喜欢用该产品的一大关键。目前,多模态模型既有优势也有缺点,所以有道小P使用一套混合的方法来解决复杂输入的问题,这里未来的提升空间也很大。

除了上述两个方向,我认为还有很多可做的方向,在此简单列举一些:

  • 大学课程助教:大学学习本身的自主程度和数字化程度就比较高,所以能辅助教授执行教学辅助任务的智能助教将会非常有用。对于学生来说,可以提供练习、复习、查询、课程相关通知等一系列服务,具有较高价值。高教社与有道合作的中国大学MOOC,最新上线了课程AI助教模块,相信会越来越好用。

  • 智能备课:对于各个学段来说,老师根据所教学习群体的特点进行针对性备课,一直是教学实践过程中的重点。大模型具有较强的交互能力、知识能力和智能体能力,应该可以针对备课场景开发出好用的产品。

  • 心理陪伴:利用大模型很强的交流和情绪感知能力,可以辅助青少年心理教育,提供良好的个性化服务,同时保护学生的隐私,也能缓解这个领域人力严重不足的问题。

相信实际可行的方向会更多。

03

 

大模型在文科领域已经“超人”,在理科方面也不会太久

在很多文字类以及记忆性、直觉性强的任务方面,例如文字润色、知识问答、文秘助理等,大模型的能力已经超越人类。映射到教育大模型上,在外语学习、语文分析以及各文科(英语、语文、历史、地理)的解题和答疑方面,已经达到了相当高的质量,通过精心的产品设计,完全可以打造出一批具有前景的产品。相对来言,在数学、物理等理科方面,大模型的基础能力还较为薄弱。

那么此时,我们必然会提出一个问题:大模型的理科能力未来是否能够快速提升?又需要多久能在理科方面达到与许多文科领域一样“超人”的程度呢?

 

我的猜测是大模型在理科方面不需要太久,快则1-2年时间,也会在很多任务上达到超越人类的水平。

 

这只是一个“有一定依据的猜测”,也可能完全错误。不过,大家可以看看我的逻辑,权当娱乐。

 

大家最为熟悉的AI超越人类的故事,发生在围棋领域,实际上,机器的棋力已经远超人类最高水平棋手。下图展示了AlphaGo系列引擎的棋力Elo分值与目前世界排名第一的申真谞的对比:

 

最右侧的2017年的AlphaGo Zero得分为5185分,高出申真谞1342分。这是什么概念呢?基于Elo这个胜率指标来计算,若你与对手相差800分,胜率大约为1%,即下100场能胜一场。所以,1342分的差距意味着胜率不会高于千分之一。因此,在围棋领域,目前机器就如同神一般的超人存在。

 

那么,AlphaGo Zero这套方法是否具有代表性?它能否与大模型有所结合呢?答案是,这是目前很多工业界和学术界人士正在努力实践和证明的事情。

AlphaGo Zero是一个窄领域(棋类)内的自我学习(Self-Learning)人工智能,使用的根本性方法是增强学习(Reinforcement Learning),其基本学习过程与最初的AlphaGo有很大不同,初版AlphaGo是通过学习人类棋谱来提升自己,而AlphaGo Zero则是直接基于围棋规则,没有任何棋谱,在大量模拟棋局中通过RL增强学习算法来提升自己,从而达到超越人类的状态。实际上,增强学习方法在很多时候仅需要一套封闭的规则(下棋,或者机器人的机械运动规律,或者数学公理),以及希望到达的目标的衡量方法(奖励函数,Award Function),就可以通过大量模拟训练来不断提升水平。

 

目前,大模型训练中使用的RLHF(带人类反馈的增强学习)就是一个简化版本的增强学习,而Andrej Karpathy等人也很早就认为RLHF过于简单,限制了大模型的能力。所以各种信息都表明,将增强学习、过程反馈以及思维链等一系列在多个需要深度思考的窄领域中行之有效的方法应用到大模型训练中,应该可以快速提升模型的数理推理能力。近期大火的OpenAI o1,其基于的重要方法正是增强学习,再加上思维链。

因此,从这个角度来说,我猜测大模型的数理推理能力快速提升是可以预期的,机器能够自行证明全新的数学定理,甚至独立进行科学研究的未来可能并不遥远。

04

基于2C App和学习硬件推动教育大模型发展

回到教育大模型,除了涉及做什么学科,在什么场景应用之外,还有一个关键问题是商业模式——是2C,2B,2G,还是有其它收获商业价值的方法。

首先,2B2G逆流前进。对于很多团队而言,包括大模型“六小虎”,2B2G都是基础的商业模式。通过有远见的企业或政府采购来落地应用,是许多新技术的开端方式,对大模型也不例外。

然而,从实践来看,这一轮大模型的2B2G应用,暂时可能确实也就只能起到一个开端的作用,要支撑起很多家公司的发展甚至盈利还是比较困难的。我们的感受和很多人一样,今年比去年更加困难一些。

当然,随着一项新技术的发展成熟,2B可能最终成长为巨大的商业化通道。比如PC产业的发展,最后催生了x86服务器和云这个支撑PC产业半壁江山的2B产业。但目前大模型领域,包括教育大模型,还没有看到这样的端倪。

好消息是,2C应用更加乐观。与B和G端下单吝啬相比,大量消费者对于能够击中他们应用场景的AI产品热情高涨。从我们的观察来看,AIGC的出现,扭转了之前数年用户对新App尝试率逐年下降的趋势,用户又开始安装新App了,用户的好奇心爆棚。而且,会员收费模式早已被年轻一代接受,因此不但留存率上涨,日活涨,好产品的收入也快速上升。

AIGC本质上搭上了中国软件再度收费化的车,而上一波,则是伴随移动互联网的发展,大量PC软件领域从规模非常小的付费软件,通过免费化,实现大量安装,最后通过广告等方式赚到钱。

有道在近几个季度的AI订阅收入快速增长,今年Q2已经达到6000多万元,同比增长150%以上,这彰显了大模型与会员模式结合所带来的机遇。

除了软件之外,我们也非常看到AI硬件的在教育领域机会。我认为至少有三个理由,使得大模型和AIGC能够推动AI教育硬件得到更大规模的普及:

1、硬件提供了最大定制化体验的机会,能够让大模型的能力充分发挥,从而最好地解决用户场景问题。在大量新技术行业的初期,垂直整合通常是提供最佳用户体验的好办法,最典型的例子莫过于特斯拉,它大幅改造车辆设计,充分发挥电车技术优势,取得了成功。

在AI硬件领域也是如此,这里有一个小例子,有道词典笔团队通过与芯片厂商联动,在今年的词典笔X7与X7 Pro中实现了本地部署翻译大模型,这使得设备在没有网络时可以实现比线上神经网络翻译(NMT)更好的翻译质量,这样的定制化体验,是硬件与大模型结合的一大机遇。

2、创新形态(form-factor)带来大模型产品的巨大设计空间和良好商业模式。Meta的雷朋智能眼镜取得了很大成功,一个关键原因就是选择了“眼镜+摄像头+无显示”这样创新的形态,这一下子把眼镜做得更轻便,而且有非常有用的场景(户外和运动中随心拍摄)。那么在教育领域,本来就存在一些特定的场景和设备上的特殊性,比如低龄孩子不使用手机,这就是一个很大的特殊性。如果团队能抓住这些形态、场景、人口学特征中蕴藏的机会,那么未来可期。

3、端侧模型带来新的机会。上面已经提到,有道今年的词典笔已经把大模型装入了设备中,在离线的情况下可以运行。它带来的好处是多元的,除了提供更好的结果质量外,还有一个好处,即大模型的能力很综合,所以一个模型可以代替掉原来多个模型,比如可以提供聊天能力,这个原来是和翻译完全分开的模型,也可以提供文言文讲解这样用户喜欢的功能,现在都可以合并到一起了,虽然模型大,但最后可以节省资源,使产品变得更加简单。

ps:感谢梅初九对本文提供的有益反馈

9