每天通过互联网上传的视频、图片、文字数据,用“海量”形容毫不为过——超过15亿条,而且还在呈数量级增长。
将其中涉及恐怖、暴力、色情等违法违规内容过滤出来,使其不污染、威胁网络空间,以前靠的是人工审核,现在人工智能(AI)开始走上舞台。
21日,由中国互联网协会和阿里巴巴等共同举办的“2018网络安全生态峰会”在北京开幕。AI在助力网络内容安全上扮演的重要角色成为此次峰会的热点议题之一。
AI是必然选择
可以说,面对海量互联网数据,用人工智能进行互联网数据的治理,是一个不得不做出的选择。
“相比AI技术,现有的人工审核方式无论是成本还是效率都处于显著劣势。”中国互联网协会在此次峰会上发布的《AI技术赋能网络内容安全保障研究报告》(以下简称《报告》)称。
根据《报告》,人工智能已经在网络文本内容检测、文本分类技术、视频和图片内容识别、语音内容检测等方面发挥重要作用。
例如,阿里巴巴开发的云盾内容安全系统可以基于深度学习技术,提供文字、图片、视频等多媒体的内容风险智能识别服务,有效减少涉及恐怖、暴力、色情等违法违规信息。
国家互联网应急中心高级工程师徐杰介绍,传统的网络安全治理方法涉及人工建模和提取特征,也就是描述某个事物,并构成特征向量。越是复杂的事物,特征向量的复杂程度就越呈指数增长。
“AI技术,特别是近期比较火的深度学习技术,为我们处理这些问题提供了新的可能。”徐杰说,因为深度学习技术不再需要人工去描述事物的特征,而是直接把相关事物的图片或视频交给机器去学习,由机器自己建立模型。
阿里巴巴集团资深算法专家薛晖认为,除了以上优势,AI技术也增加了网络内容治理的可靠性。因为,人工审核的经验因人而异,而且这种经验较难传承,但是AI技术无论是模型还是数据都更容易被继承。
还需要更加靠谱
尽管AI在保障网络内容安全方面已显出种种优势,但作为一种新兴的科技手段,难免还有诸多不足。
“AI本身还有一些问题,比如说AI很大程度上基于模型和算法,而模型和算法本身具有脆弱性。”移动安全联盟秘书长杨正军说,如果其模型和算法遭受攻击,就会失效。另外,AI是基于海量数据进行训练,假如数据遭到污染,或被攻击者获取,后果也不堪设想。
来自科大讯飞的技术专家李剑锋则认为,AI在网络内容治理方面存在的最大挑战,是现在AI的能力还有待提升。
李剑锋举例说,有用户发微博表达心情,内容是“黑夜总会过去,白天总会到来”。这句话反复发不出来,该用户百思不得其解。后来有朋友提醒他,是因为其中出现了“夜总会”。
“现在我们用AI技术,哪怕是一个非常简单的技术也很难做到100%正确。”李剑锋解释说,因为现在的机器学习属于统计学机器学习,包括深度学习、神经网络在内都是基于概率论,理论上不能保证100%正确。
|