facebook加赞平台--脸书刷观看量

首页 Facebook 作者：coolfensi 2022年10月13日热度：87 评论：0

时间：2022-10-13 0:10 热度：87°

责任编辑译者结合Facebook和YouTube的事例，为我们介绍了今日头条新闻的文本审查监督机制，以及今后相关技术的发展对审查的影响。

止 2018 年，每天约有2.5万亿元二进制的统计数据被建立，过去一年里聚合的统计数据占到了亚洲地区总统计数据的90%，而预计到 2022年，亚洲地区互联网互联网流量讲达到每秒钟 7.2 PB。

包括Facebook和Youtube其中的国际世界顶级UGC互联网平台，如今在此类可有可无的难题上依然十分狼狈，尤其是发展中国家最在乎的无腺文本、种族主义和跨行业文化/多词汇等难题，它俩只不过一直没能取回这份让多方令人满意的成绩单。

而国内今年比较著名的互联网文本街道社区类里，停售甚至撤除的已经远超过0曲枝，尽管它们各别都有各别的难题，比如情色文本、东凯努瓦县、文本亚莱等等，但归根到底，这还是使用者剧增带来的不断增长的文本总产量和无法跟得上的审查举措和工作效率之间的对立。

一、Facebook：用AI和INS13ZD应付海量数据文本

Facebook在整个2018年遭受过巨大的困窘，除了统计数据USB和使用者个人隐私的奥波切茨，互联网平台上的文本审查政策也受到严重批评。

但只不过，它另一面的核心难题是，另一家子公司本就是当今世界互联网文本客运量最小的互联网平台。

那么Facebook掏出的应付举措是什么？

在去年那次著名的美国参议院听证上，扎克伯格在一小时内提到AI二百余万，声称AI是互联网平台文本审查的标准答案，他的这段话是：今后的五到二十年，AI将成为当今世界上最小的SNS互联网的破坏者，在亚洲地区范围内解决其最迫切的难题，同时也帮助子公司回答有关审查、公正和人类无休止等头疼难题。

小扎自称，Facebook上99%有关ISIS和基地组织的文本，都在人们看到之前被人工智能系统标记，并且被删掉。

但AI想要和文本审查结合并落地，必须掏出一些具体的手段来。Facebook现在的审查分为文字审查、图片和视频审查，以及大量的人工配合。

文字审查方面，Facebook推出了DeepText（深度文本）引擎，利用深层神经互联网架构去理解那些帖子的文本，据称它能够以近乎人类的精确度、每秒钟同时理解数千篇文章的文责任编辑本。

相比国内的各大互联网平台的审查体系来说，它的优势除了速度更快，另一方面是Facebook作为一个亚洲地区化的街道社区，DeepText能够审查超过20多种词汇的文字。

DeepText甚至能实时通过使用者发送的文本分析使用者的想法，通过对意图、情绪和实体（人物/地点/事件）的提取，结合文本、图片，并自动移除垃圾信息的干扰，这一能力在Facebook Messenger上已经被测试验证。当然这个AI技术也并不只被用来审查一些可能发生的危险（针对青少年的犯罪），它还可以改进使用者体验，帮助广告商进行有目标的宣传活动。

Facebook为这些实时而海量数据的信息编目录、并让其被搜索是件很困难的事情，所以他们才转向了人工智能。

同时，News Feed做为短小而高频的文本素材，恰好就是众多开展深度学习活动的有效场所之一，因为每个Feed的另一面，包含了人们希望看到哪些与他们相关的文本。

而Facebook的图片和视频审查系统名为Rosetta，利用光学字符识别系统来处理图片和视频文本，每天可以实时地从超过10亿张图像和视频帧中提取信息并识别多种词汇另一面的含义。

另外，Facebook在上周刚刚开源了它们在图像识别及视觉领域的最新模型：ResNext101。这是一个在Instagram的图片标签上预训练，并在ImageNet上微调的模型。

而ResNext101更上一层楼，利用了Instagram上的35亿张图片（比 ImageNet的1400万多了200多倍）进行了预训练，并以人们为图片添加的话题标签（hashtag）为类别，研发出来的有着超强特征提取能力的图像识别模型。

在这两大系统的另一面，只不过是Facebook的人工智能研究院FAIR（Facebook Artificial Intelligence Research）在发挥功劳。

比如其物体识别技术（Object recognition），以含有数十亿参数和数百万事例训练的神经互联网为基础，给了挑战最小的图片和视频审查有力的支持。

另外它们也使用自我监督学习（SSL）探索大量统计数据，让机器可以通过分析未标记的图像、视频或音频来学习当今世界的抽象表达，这也是 FAIR 将 AI 能力规模化的努力之一。

FAIR 还在研究使用者头像的面部识别、上传照片的环境识别等，它承担 Facebook 所有 AI 相关的基础研究、应用研究和技术开发。

比如它推出的刚刚获得了国际视觉模型挑战赛冠军的Mask R-CNN ，这个系统可以将计算机视觉当今世界的物体检测与语义分割结合到了一起，不但可以检测劣质视频文本，甚至可以帮助视障人士自动替代文字。

不过，你可千万别以为当今世界上最小的SNS互联网和文本互联网平台，光靠AI和审查系统就搞定了一切。止目前，Facebook聘请了超过2万人（是的你没看错），来辅助文本筛查，并配合监测和删除争议文本。

二、YouTube：版权审查系统的升级之路

YouTube的文本审查系统名为Content ID，会监测并直接删除涉及情色、低俗和暴力等违规文本。不过，这个系统的诞生一开始仅仅是为了解决YouTube上文本的版权难题。

早年间YouTube以草根文本起家，后来出现了大量的搬运号，主要以盗版电视台的精品文本为主。虽然互联网平台的统计数据因此飙涨，但也因此陷入了旷日持久的官司里。

2007 年至 2009 年，包括维亚康姆（美国第三大传媒子公司），Mediaset （意大利的传媒集团）和英超联赛（英国最小足球联赛）等其中的组织对 YouTube 提起诉讼，声称它在使用者上传侵权文本方面毫无作为。

维亚康姆要求其作出10 亿美元赔偿金，他们声称已经在 YouTube上发现超过 15 万条版权文本片段，累计播放量超过 15 亿次。在耗时耗力的多年诉讼和公关战之后，直到2014 年，双方才最终协商解决了争议，但具体条件并未公开。

后来，Content ID的文本监测能力在不断改进后，比如使用哈希算法标记有风险视频，阻它们被次上传，也获得了显著的成效。以2017年Q4为例，互联网平台删除了800万条令人反感的视频，有670万条都由监测软件自动标记。大约75%被标记的视频，在被使用者观赏之前就被停售。

人性化的是，YouTube 于 2014 年 9 在前端增加了受限模式（Restricted Mode），用以过滤情暴文本，但是户可以自己选择开启还是关闭。依据户举报以及其它识别规则，受限模式可以直接为使用者过滤部分不当文本。

当然，YouTube的这些文本审查能力有赖于谷歌的深度学习技术Google Brain作为支持。Google Brian拥有一个收集使用者信息（如观赏历史和使用者反馈）的神经互联网，以及一个用于对所显示部分视频进行排列的神经互联网，通过引入机器学习工具，自动标记暴力、情色和低俗等极端视频，并将违规文本报告给人工审查员进行验证。

和Facebook类似的是，就算有了Google多方面的技术支持（包括资金、人才、算法、云和服务器等），YouTube的AI标记、文本审查与识别技术也并不完美。2018的时候YouTube CEO苏珊·沃西基承诺，今后会雇佣至少一万名人工审查员，以补足算法的局限。

因为更早之前英国政府和一些广告子公司发现，自己的广告被推荐到了紧挨着极端主义分子上传的视频文本的旁边，造成了许多恶劣的影响，多方政府和广告主们联名宣布将因此撤下自己在YouTube账号上的文本。

不过，Google对 YouTube 的帮助也不会仅仅限于文本审查，Google Brain的技术已经被应用在安卓系统的语音识别、Google+ 的图片搜索、以及 YouTube 的智能推荐。

所以，现在的YouTube早已从一个视频UGC街道社区，到慢慢成为拥有海量数据文本、搜索驱动的视频综合网站，到拥有了视频推送能力的应用。如今，占据使用者在 YouTube 上观赏视频总时长 70%的文本，是由推荐算法引擎驱动的。

三、头条新闻：审查系统对外开放会带来哪些变化？

如今的今日头条新闻已经拥有海量数据的使用者和多种形式的UGC文本，尽管体量上还颇有不如，但在文本审查方面遭受的挑战同脸书和Youtube已经十分类似。

头条新闻在这方面的一个创举是，经过多年的技术储备和经验积累后，它开放了内部反低俗系统的一个简化版本灵犬反低俗助手，希望普通创译者、社会公众更了解和关注反低俗。截至2019年6月，灵犬反低俗助手的外部使用人次已经超过了300万。

使用者只需要在灵犬的小程序内输入一段文字或文章链接，灵犬就可以帮助其检测文本健康指数，返回一个鉴定结果。对于使用者输入的文本（文字或者图片），灵犬会先进行提取、分词和语义识别，然后根据相关规则，输出对应的分数、评级和结论。

在文本识别领域，头条新闻同时应用了Bert和半监督技术，训练统计数据集包含920万个样本，准确率提升至91%。在图片识别领域，灵犬采用深度学习作为解决方案，在统计数据、模型、计INS13ZD等方面均做了针对性优化。

不过，今日头条新闻的人工智能实验室王长虎也提到，AI暂时还是有缺陷的，今日头条新闻现在有将近万余人的审查团队在辅助AI的审查。

比如对于低俗文本，它的定义本来就相对笼统难以精确，这项工作即使对人来说也不容易，交给机器做更难实现。

比如当今世界名画中常常出现裸体女子，如果完全交由机器判断，机器通过识别画中人物的皮肤裸露面积，就会认为这幅画是情色低俗的；而某些拍摄芭蕾舞的图片，以机器的视角来看，只不过类似于裙底偷拍。

Facebook 曾经因为裸露，误删了一张著名的越战新闻照片，文本是一位小女孩遭到汽油弹炸伤、浑身赤裸奔跑，事件发生后引起了美国新闻界的巨大争议。

但是，在当前文本创作和消费规模海量数据增长的趋势下，如果依然纯靠人工去解决所有难题，那么必然工作效率低的同时还无法满足使用者需求。

所以，AI+人工的文本审查方式在相当长的时间内都会是一种常规手段，这也是Facebook和YouTube等国际头部文本互联网平台采用的处理方式。

四、结语

今后，随着使用者和文本数量的继续增长，文本审查的挑战会越来越严峻，政策相关的监管也会越来越严格，图文的文本识别难题虽然逐步被克服，语音和视频的文本理解更加任重道远，人工和机器检测都更为不易，尤其是当需要联系具体的使用者使用场景和政治社会语境时，难度会成倍提高。

比如邓丽君的歌曲，早年被认为是低俗情色歌曲，如今早已被普遍接受并传唱大街小巷；比如内衣和内衣模特出现在购物互联网平台上，会被默认为正常，但如果频繁出现在新闻资讯互联网平台上，就可能被认为有低俗嫌疑；而正常的热舞文本，提供给成年人看，符合常规标准，但如果开启了青少年模式，这些文本就不应该出现。

这就是由于时代背景、使用场景、使用者人群不同而导致审查标准可能大幅变动的事例。

海量数据统计数据的产生、不断变化的标准，这都要求大子公司在这方面的投入必须越来越多，而这本质上就成了一场资本丰厚的对手之间的军备竞赛。

今年卡耐基梅隆大学（CMU）和 Google 合作研发的 XLNet 模型，在Bert模型的基础上更进一步，在足足 512 块 TPU 上训练了两天半时间。以 Google Cloud的计价标准，只是训练一次XLNet 模型就需要人民币一百六十多万。

若再考虑上整个模型研发过程中的不断试错和调参验证等过程，XLNet的开销简直天文数字。今后中小团队将难以竞争，这就是一个巨头独霸的竞技场。

不过好在，随着人类进入社会的数字化程度越来越高，新一代的移动互联网原住民们在享受技术带来的便利的同时，也对技术可能的负面在耐受度和适应性上不断提高。

毕竟自工业革命之后起，就有无数人曾对技术会带给社会的冲击抱有极端负面和悲观的预期，认为技术可能会加速崩坏我们数万年来自然形成的人类社会结构，但是哪一次，人类社会不又是顺利转型成功、发展出与技术相匹配的职业和生活模式、并且越走越好了呢？

专栏作家

题图来自Unsplash，基于CC0协议

╭(′▽`)╯标签走丢啦~

正文到此结束

tiktok加赞--国外抖音买粉丝平台

Instagram涨播放量 --ins推广