您现在的位置主页 > 科技 >

值得买科技CTO王云峰:1.2亿优质训练语料 找到最优数据配比

时间:2024-03-07 10:48 来源:未知作者:小芳

  2月29日,值得买科技自研AI购物助手“小值”正式在“什么值得买”App上线。这是值得买科技基于值得买消费大模型所研发的Agent产品,能通过对话深度理解用户需求,基于全网实时消费经验、价格信息进行快速总结,提供口碑总结、商品对比、商品推荐、全网比价等服务,为存在不同决策难点的消费者提供个性化的建议,从而提升消费决策的质量和效率。

  上线一周来,值得买科技收到了许多消费者的反馈。在整体的消费购买过程中,“小值”能够帮助消费者快速地进行全网比价、产品介绍和推荐,但同样的,新上线的产品也面临着准确率、个性化功能提升等问题。

  作为业务负责人,值得买科技CTO王云峰对此非常坦然,他对记者表示,在“小值”上线之前,值得买科技在内部就已经进行了完整的内测,以完善相关功能和体验。上线后,大概有1%的消费者愿意花时间给到更加真实的使用体验反馈,而在个性化需求、结果推荐上,是消费者更加需要的体验需求。

  “我们其实已经蛮欣慰了。”王云峰感叹,在消费行业,AI大模型的个性化推荐需要更加精准的数据训练,以了解消费者的消费偏好,从而进行更好的消费决策推荐。这对于行业来说,都是未来的发展方向。

  事实上,AI大模型在电商领域的应用,虽然还无法直接改变行业的底层商业逻辑,但将在很大程度上缩短消费者的消费决策链路,消费者有望在更短的时间内完成消费购买体验。

  1.2亿优质训练语料 找到最优数据配比

  在前端页面,消费者体验到的是“小值”的对话窗口,但在背后,“小值”的呈现是大量数据的“投喂”和AI大模型的训练。

  王云峰介绍,在模型训练上,值得买科技从全网数十亿数据中,筛选1.2亿条消费相关优质训练语料,同时基于数万轮对话数据,训练整个模型的意图理解和交互能力。

  其中,在意图理解上,通过基于真实购物场景进行对话数据整理以及数据构造,训练模型对于消费意图的理解。在意图拆解上,基于消费意图建模,构建了12个针对消费领域的场景工具,对意图分解并自动生成需要执行的任务,满足用户需求。在数据增强上,增强了动态信息的来源,应用向量化技术,通过语义检索与用户问题相关的经验,支持消费领域的检索增强。

  这样的大模型训练,涉及了覆盖全网跨平台近70亿(商品10.2亿,内容57.4亿)条消费信息,每日新增2000+万条消费信息。

  1.2亿条消费相关优质训练语料是怎样的一个概念?这不仅仅是数量上的庞大,还在于整体语料的质量和在语料库中的最优配比,并且语料质量还在持续提升和迭代。

  王云峰强调:“数据积累本身就是大模型的护城河之一。”

  智能消费决策:个性化推荐、多模态识别是发展方向

  目前,“小值”上线后可以提供“评、挑、荐、省”四大服务,基于消费者行为、兴趣偏好等大数据,通过大模型提供个性化的产品推荐,同时通过AI模型进行快速准确的问题解答和选购推荐,帮助用户更好地进行消费决策。“希望通过小值的建议和推荐,帮助消费者更理解自己的真实需求,做出更合适自己的判断和选择。”王云峰介绍。

  “小值”正式上线以来,消费者的使用体验如何?根据值得买科技目前收到的消费者反馈,在购买流程上,消费者体验丝滑。但在具体的需求实现上,“小值”仍然有很大的提升空间。

  当然,这也需要不断的语料更新和模型训练,并非能够一蹴而就。从消费行业的属性来看,商品价格、品质、消费者偏好等相关消费因素都有较大的实时变动空间,在这样的情况下,如何能够为消费者提供精准推荐,并根据消费者购买决策的敏感因素进行情况介绍,都是大模型需要提升的方向。

  同时,在图片、视频等多媒体加持阶段,如何根据图片、视频进行商品识别,并以此形成完整的消费推荐链条,都需要技术层面的不断提升。

  王云峰介绍,未来,“小值”还将在三大方向持续进行优化升级:基于更细致的用户画像与更多轮次的对话,更深入地理解用户意图;加入图片等多模态识别,提升用户的使用体验;对内容库中的优质消费内容进一步提纯与优化,提升小值建议或推荐的质量。

  王云峰说道:“这些是我们计划中下一步要持续开始迭代的功能,是我们下一步的工作流程。”

  电商大模型落地 成为代理人还是好闺蜜?

  2022年底以来,生成式AI的各种应用席卷全球。面向普通用户的应用产品蓬勃涌现,不仅将AIGC推向技术前沿,更引起了大众层面的关注热潮。目前,AIGC不仅能作为创作辅助工具,协助快速生成文本、图片、视频等内容,也已在医疗、保险、教育、法律等领域落地,为各个行业带去更智能、更高效的解决方案。

  从国内电商行业来看,目前极睿科技、FancyTech等企业均推出了面向电商行业的垂直大模型。同时,阿里、京东、拼多多等也均成立了相关研发团队,虽然并未对外明确是进行大模型研发,但人工智能技术的应用已经开始在电商平台落地。

  在王云峰看来,通用大模型难以适用于消费行业,“通用大模型的能力需要全领域的均衡训练,在消费这样的垂直领域知识密度不够,无法真正为消费者的购物决策起到助手作用。”同时,在各垂类大模型中,消费行业也存在特殊性,“相比许多行业‘知识多、经验少’,大模型结合静态内容的训练就可以完成应用落地,消费行业的难点恰恰在于‘经验多、知识少’:变化的商品价格、主观的用户评价,包括每个个体不同的需求和感受,不仅影响着消费者的决策判断,也让当前‘大模型结合静态内容训练’的方式效用减弱,无法真正做到为消费者解决决策难题。”

  这也是值得买科技推出自研大模型的重要原因。

  王云峰认为,相比内容生成,小值更大的价值在于能够帮助用户进行消费决策,“是一个融合感知、分析、推荐和执行能力的AI购物助手,解决不同消费者个性化的决策难题。”

  而在理想状态中,“小值”能够和消费者进行顺畅的沟通,甚至是基于消费者个性化偏爱,在不用过多需求输入的情况下,便能进行消费决策推荐,甚至安排出行行程。

  “相比于智能导购、代理,我可能更倾向于用‘好闺蜜’来形容未来‘小值’和消费者之间的关系。”

  新质生产力:从低效变高效

  作为电商平台,值得买科技早在2023年便将AIGC纳入年度重点战略,率先开展AI在消费内容应用上的研究。当年3月,值得买科技便成立了AI Lab,后续发展成为独立的AI事业部,积极招募行业内优秀的AI人才。同时,值得买科技提前储备了一批H100算力卡,并同业内知名的大模型公司、云计算公司,以及各大高校实验室建立了合作关系,从人才、算力、模型等多重资源层面,保障公司在人工智能领域的深入探索。

  在王云峰看来,人工智能技术和行业的深度融合,能够更好地提高行业生产力。从“新质生产力”的角度来看,重点还是在质量的提升,“让生产力从原来的低效方式变得更高效,然后能够解放出更高的能力去从事更有创造力的工作。”王云峰认为:“人工智能会变成新质生产力的一个坚实的基础。”

  2024年,值得买科技在AI技术的投入上预计会是去年的两到三倍。而在整体的探索过程中,消费者在电商平台上“享受挑选”和“快速决策”的两个需求都将存在,而人工智能技术的介入,有助于更好地为消费者推荐商品,以及深入挖掘消费者的内在消费情感需求。

  “大模型本身能力的提升是行业绕不过的问题,我们预估行业大模型还得需要迭代两三代,才能达到一个相对比较理想的程度。同时,数据的积累将会成为各家平台大模型竞争的关键因素。而未来,行业间大模型的沟通和交流也有可能实现。”

  王云峰透露,除了小值之外,值得买科技也考虑将相关能力开放给更多用户群体使用,如面向B端品牌及平台方,助力行业伙伴充分利用AI能力,把握行业发展风口。

更多新闻

上一篇:外媒:Spotify指责苹果经常藐视法律和法院判决

下一篇:TCL 正式发布QD-Mini LED X11H:采用第二代六晶方芯

相关新闻