在科技巨头谷歌的内部,一场关于AI聊天机器人Bard的争论悄然展开。据DoNews4月6日报道,谷歌新推出的聊天机器人Bard引起了内部测试人员的关注,甚至吸引了众多外包人员的参与。只是,这些外包人员在评估Bard内容正确性的过程中,却遇到了前所未有的难题。
跨国AI训练数据服务公司Appen被委托帮助谷歌改进聊天机器人。尽管这些外包人员并未被告知具体任务与Bard有关,但关于新任务的内部讨论可以追溯到2月7日,即谷歌首次发布Bard当天。Appen内部文件显示,外包人员需要审查AI聊天机器人所提供的回应质量。
这些外包人员表示,他们被设定固定的时间来完成每项任务。审查提示的任务时间从60秒到几分钟不等,差异很大。只是,如果他们不熟悉聊天机器人谈论的话题,比如区块链等技术,就很难给AI的回应评分。这无疑增加了评估的难度。
事实上,这些外包人员并非第一次参与谷歌的产品评估工作。他们通常负责评估谷歌搜索算法和搜索结果中广告的相关性,还会标记有害网站,确保这些网站不会出现在搜索结果中。只是,这次的任务却让他们倍感压力。
在接受采访时,四名外包人员表示,自1月份以来,他们的大部分工作已经转向审查AI聊天机器人的提示。在评估过程中,他们对聊天机器人的表现感到失望。他们表示,由于时间紧迫,他们没有足够的时间准确评估聊天机器人对提示的响应是否正确,有时只能凭借猜测。尽管如此,他们仍然可以拿到报酬。
这一现象不禁让人思考:如何确保聊天机器人的内容正确性成为了一个亟待解决的问题。或许,谷歌在Bard的后续改进中,需要更加关注这一问题,以确保其产品的质量。
Bard内容审核案例反映出当前AI领域面临的挑战。一方面,AI技术不断发展,对内容审核的要求越来越高;另一方面,审核人员需具备较强的专业知识和判断力,以确保内容质量。内容审核行业面临着巨大的机遇。