面对海量信息如何实现内容识别

2019-08-13 15:54:33 来源：人民网-传媒频道责任编辑：肖月青　肖月青

互联网平台的出现以及移动传播体系的形成，改变了人类内容生产和分发的方式。从形态上，互联网平台代替传统媒体成为了信息聚合和分发的枢纽；从传播关系看，社会成员个体的参与愿望及信息需求，形成了当代社会信息交互的双轮驱动。反映在内容生产与分发过程中，现象之一就是互联网用户个人上传的各类内容成为了网络空间里一个海量的存在，以当前发展迅速的短视频平台为例，它们每天都有数以千万条计的短视频内容上传；现象之二是，这样海量的内容只有通过移动终端，面向用户个人的差异化信息需求，通过推送式的精准分发，才能使人们所生产的信息“各得其所”、“各尽其用”，以充分发挥不同内容的效能。

这一切的前提是内容本身是真实的，健康的。而面对每天上传到互联网平台上数以十万篇计的文章、千万条计的短视频、十亿张计的照片这样级别的海量信息，想要鉴别它们的“成色”并实现推送式的精准分发，必须充分运用人工智能技术。这也就是为什么习近平同志在2019年1月25日的中央政治局集体学习时讲话中，要求“探索将人工智能运用在新闻采集、生产、分发、接收、反馈中” 。通俗地说，就是要“互联网技术产生的问题，用互联网技术来解决”。

维护互联网平台上内容的真实性和健康性是一个国际性课题。前不久，在美国参与的“数字时代的美国新旧媒体”考察活动给了我切身体验。中国和美国这两个不同社会制度的国家，都面临着互联网平台带来的各种挑战，其中互联网内容的真实、健康和安全是最为人们关注的。在各自国家政府和社会公众的压力之下，两个国家的互联网平台都在做出努力来解决上述问题。这些努力的主要方面，就是积极利用人工智能技术，开发对互联网内容进行审核的应用。比较分析的结果是，中国的互联网平台在这一领域居于领先地位。

以国内最大的资讯分发平台今日头条及其系列产品为例，其反低俗的软件“灵犬”，经过三次迭代升级，最新版本包括识别类型和模型能力的重要升级，同时应用了“Bert” 和半监督技术，并在此基础上使用了专门的中文语料，使对存在色情低俗、暴力谩骂、标题党类问题内容的文本识别准确率提升至91%，还能支持对含有色情低俗、血腥暴力成分的图片的识别。比较而言，谷歌和脸书等平台对虚假、低俗类信息识别的技术路线更多是“重点对用户特征（包括个人级别特征和组织级别特征）、新闻特征（包括文本特征和传播特征）和网络关系（包括用户关系网、事件关系网和传播路径网）这三个要素进行自动查验” ，具体而言，更多依靠用户的反馈和标注，以及对相关因素的一致性检验，在借助人工智能和大数据对文本本身进行更加全面的识别方面投入不足，从而导致相应的技术能力无法应对以“深伪（Deepfake）”为代表的伪造信息技术的发展。有研究者指出，“瑞士科学家在一篇论文中就首次对人脸识别方法检测Deepfake的效果进行了较为全面的测评，尝试用最前沿的人脸识别系统去识别假视频，结果错误率高达95%。所以当前如果要求平台对深度伪造等合成媒体内容进行识别和标注，在技术上几乎是不可能实现的” 。这一事实告诉我们，在网络传播中反虚假、反低俗，还是要更多依靠更加先进的人工智能应用，通过大数据与算法的结合，提升对各类内容（文字、图片、视频等）的识别能力。

当前的人工智能，实质上是基于对人类处理各种事务规则的算法化，并基于大数据提供的深度学习资源而实现的。具体地说，就是人们根据对于客观事物的认识，制定处理相关事务的规则和标准，然后找到一组数学公式来模拟这个过程，也就是形成算法，再把算法开发成为软件，就可以用大数据来训练这个软件学会识别不同状态和情况，达到比较成熟的水平就可以上线运营，代替人类来工作了。客观上，在这个过程中，关键性的难点在各个环节都存在。如人们制定的标准和规则是否科学，取决于人们对相关事物本身发展规律的认识水平。按照马克思的论断，“一种科学只有在成功地运用数学时，才算达到了真正完善的地步”。这需要人们对客观规律有深刻的认识，目前在社会科学领域这显然是研究的短板。以笔者本人近年来对主流价值观如何体现为算法的研究为例，旨在面向个人推送信息以提高传播效率的算法，如何在社会成员个人对事件重要性的判断与社会主体对事件重要性的判断之间建立一致性就是一个难题。在内容审核方面，也存在标准和规则随具体场景而变化的情况，如越南战争期间著名的反战新闻照片，照片主体是一位越南小女孩衣服被汽油弹引燃而浑身赤裸奔跑，就曾经因为“裸露”，被Facebook误删。实践中，即使实现了规则和标准清晰且正确，还要能够找到可行的算法，建立较大规模的数据库，还要有算力的支持。如灵犬3.0，就投入了更大的算力。从上述过程看，利用人工智能的深度学习来解决虚假、低俗内容充斥网络空间的问题，是一个具有相当技术难度的系统工程，需要假以时日，需要付出更大的努力。

用技术识别内容如此之难，是不是我们就不要走这条路，靠人工去完成这个工作呢？很显然，在互联网传播环境下，这是不现实的。当前，互联网技术的应用，已经实现了在传播的技术条件方面对用户的普遍赋权，在中国，每天都有数以亿计的互联网用户活跃在各个网络平台上，以短视频为例，抖音等平台，每天都有千万条级别的内容上传，今日头条平台每天经审核后发布的内容就超过60万条。这是无法完全用人工去处理的。与人工审核相比，机器审核的优势在于，机器一是计算快，一秒钟能执行百亿次计算；二是存储大，可以轻松存储千亿以上汉字；三是运行稳定，不会因心情、状态、对标准的理解等因素影响处理结果。据了解，由于强化内容标注和审核的需要，今日头条的母公司“字节跳动”已经建立了近万人的审核团队。在“机器+人工”审核模式下，我国主要的互联网信息分发平台的内容安全得到了较大程度的提升，未来随着研究的深入、技术的进步，内容审核的水平还会持续提升。

面对海量信息 如何实现内容识别

面对海量信息如何实现内容识别