YouTube加播放量网站 --YouTube新闻

首页 YouTube 作者：coolfensi 2022年09月23日热度：86 评论：0

时间：2022-9-23 10:03 热度：86°

- 点选下方我国统计数据网订户我吧！-

variations申领【两只喜鹊数据挖掘两栖作战】

在音频正式成为关键传播方式，vlog、音频写手也正式成为一类业余的当今社会，怎样提升他们音频的播映量，是各阶层文本商品和服务最头秃的难题众所周知。互联网上总之有很多文本制做、领涨板块追踪、剪接基本功的撷取，但你可能将不晓得，机器学习也能在当中充分发挥大促进作用。

join into data上两位作者 Lianne 和 Justin 做了一个硬核的技术分析。他们的分析对象是 YouTube 一个新近崛起的健身写手 Sydney Cummings。

Sydney 拥有美国国家运动医学会(NASM)的私人教练证，同时也是一位跳高运动员。她的账号注册于 2016 年 5 月 17 日，累计播映量 27,031,566，目前拥有 21 万粉丝，每天都稳定更新，很有研究意义。请注意，以下研究都将通过 Python 实现。

Sydney Cummings 的标题都有一定套路，比如最近一个标题是《30 分钟手臂和强壮臀肌锻炼！燃烧 310 卡路里！》，通常涵盖时间、身体部位、消耗的卡路里以及其他关于锻炼的描述性词汇。观众点选这段音频之前，就会晓得几个信息：

30 分钟——我将在 30 分钟内完成整个训练
锻炼手臂和臀肌——我将致力于手臂和臀肌，专注于力量
燃烧 310 卡路里——我会燃烧相当多的卡路里

掌握以上关键信息是预先的准备，接下来还有六个步骤：观察数据、用自然语言处理技术对音频进行分类、选择特征、创建目标、构建决策树、阅读决策树。接下来就看看作者究竟是怎么一步一步展开研究的。

事前准备：抓取数据

其实有很多不同的方法来抓取 YouTube 数据。由于这只是个一次性项目，所以作者选择了一个只需要手工操作，不依赖额外工具的简单方法。

以下是分步步骤：

选中所有音频
右键单击最新的音频并选择Inspect
将光标悬停在每一行上，找到高亮显示了所有音频的最低级别的 HTML 代码/元素级别。
例如，如果使用 Chrome 浏览器，它看起来就像这样：

所有者：Sydney

右键单击元素并选择复制，然后选择复制元素
将复制的元素粘贴到文本文件中并保存，这里使用 JupyterLab 文本文件并将其保存为 sydney.txt
使用 Python 提取信息并清理数据。接下来就是有趣的部分了，他们将从这个数据中集中提取特征，并研究是哪些因素影响着播映量

步骤 1：观察数据

将数据导入到 Python 中是在最后一节中完成的，以下是数据集 df_videos，一共有 837 个音频。

此外，他们注意到数据有重叠，因为写手曾经多次上传同一个音频，在接下来的分析中将会忽略这部分不大的样本。

步骤 2：用 NLP 对音频进行分类

在这一步中，他们根据标题中的关键词对音频进行分类。

1. 分组标准

这个音频针对的是身体哪个部位？
这个音频的目的是增肌还是减肥？
或者还有什么其他关键词？

作者使用了自然语言工具包(NLTK)，Python 中一个常用的开源 NLP 库，来处理标题。

2. 生成关键词列表

首先，标记化音频的标题。此过程使用分隔符（如空格（" "）将标题文本字符串拆分为不同的标记（单词）。这样，计算机程序就能更好地理解文本。

这些标题中有 538 个不同的单词，以下列出了使用频率最高的标记/单词。能发现，频繁使用的就是那几个词，这也再次证明写手确实喜欢起标准格式的音频标题。

基于高频词列表，作者创建了 3 个关键字列表，可用于接下来环节对音频进行分类。

body_keywords（正文—关键词）——这标识了音频针对的身体部位，如完整身体、腹肌、腿
workout_type_keywords（健身—类型关键字）——区分锻炼类型，如有氧、伸展、力量
其他关键字——这包括常用但难以归类的关键词，如训练营、精疲力竭、纤体（toning）

3. 词干关键词列表

在形成这些关键字列表后，作者还提取了词干。这是为了确保计算机能够识别近义词。例如，ABS 是 Abdominal Exercise（腹部锻炼）的简写，单词abs和ab有相同的词干ab。

4. YouTube 标题的标记和词干

除了关键词，作者还需要标记和提取标题词干。这些过程可为进一步匹配关键字和标题列表做准备。

步骤 3：特征工程

经过头脑风暴，他们选择了两种特征——基于关键词和基于时间。

1. 基于关键词的特征

Indicator Features

由于前一步的工作，现在有 3 个关键词列表和精简的标题，能匹配它们来对音频进行分类。

按照 body_keywords 和 workout_type_keywords 分类，一个音频中有很多关键词。所以在匹配之前，作者还创建了 2 个特征：area 区域和 workout_type 健身类型。这些特征将一个音频的所有身体部位和锻炼类型连接成一个字符串。

例如，一个健身音频能同时做腹肌和腿，或者同时做有氧和力量。该音频的特征区域为腹肌+腿，健身类型为有氧+力量。

同时，作者也识别出了相似的关键字，如总共和完全、核心和腹肌，将它们归在一组。

最后，他们创建了三种不同类型的虚拟特征（dummy features）：

is _ { } _区域，识别音频是否包含特定身体部位
is_ { } _健身，确定健身类型
title_contains_{}，查看标题是否包含其他关键词

为了清楚起见，音频标题腿部力量消耗训练应该是 _leg_area = True, is_strength_workout = True， title_contains_burnout = True，而所有其他都为 False。

Frequency Features

除以上特征外，作者还创建了三个特征：num_body_areas， num_workout_types，和 num_other_keyword，用来计算一个音频标题中提到的关键词的数量。

举个例子，一个标题是腹肌和腿部有氧力量训练的 num_body_areas 和 num_workout_types 都是 2。

这些特征有助于确定音频中应包含的身体部位或锻炼类型的最佳数量。

Rate Features

最后同样关键的是，作者创建了一个特征：calories_per_min（每分钟卡路里数）看看卡路里的燃烧速度。毕竟，观众都想要一些明确的（可量化的）锻炼目标。

总之整个过程中也难免存在一些被错误分类的音频，作者也在转向时间特征前进行了手动修复，这里不再赘述。

2. 基于时间序列的特征

有了上述基于关键词的特征，作者已经发现受欢迎音频的类型。但这是否意味着写手应该一直发相同类型的音频？

为了回答这个难题，他们还创建了一些基于时间序列的特征：

num_same_workout，该特征类似 num_same_area，只是统计数据的是健身类型。例如，特征= 3，说明除了当前音频 HIIT 健身，在过去 30 天内还有 2 个 HIIT 健身音频。

3. 特征工程的具体过程

多重共线性检验Test for Multicollinearity

什么是多重共线性检验，维基百科的解释是，多重共线性(也称共线性)是一类现象，当中多元回归模型中的一个预测变量能以相当高的准确度从其他预测变量中线性预测。多重共线性不会降低模型整体的预测能力或可靠性，至少在样本数据集中是如此；它只影响单个预测因子的计算。

为什么这很关键？

成对相关( pairwise correlations)是常用的方法，但当出现多个特征(多于一对)时，可能将会同时存在共线性。

因此，作者使用了一类更复杂的方法——k折交叉验证（ K-fold cross-validation）来达到目的。

详细过程如下：

根据判断，选择一组关键特征来测试共线性。作者选择了对于YouTube音频播映量至关关键的特征，同时还添加了三个由随机数组成的特征：rand0,rand1, rand2。当比较特征之间的关系时，它们充当anchor。如果一个特征与这些随机特征相比不太关键或不太相似时，那么它就不是目标特征的关键自变量。

为k折交叉验证准备这些特征。在此过程中，他们转换分类特征（categorical features）：area和workout_type。这种转换确保每个类别级别至少有K个值。

使用当中一个特征作为目标，其余特征作为自变量，来训练预测模型。接下来，作者遍历每个特征，并使用其他特征拟合一个模型来预测它，他们用了一个简单的梯度提升模型（Gradient Boosting Model ，GBM)和K折验证，并且根据目标特征是数字的还是分类的，应用不同的模型和分数（模型预测能力评估指标）。

当目标特征是数字时，作者使用Gradient Boosting Regressor模型和均方根误差(RMSE)；当目标特征是分类特征时，则使用Gradient Boosting Classifier 模型和Accuracy（精度）。

对于每个目标，他们打印出K折验证分数(平均分)和最关键的5个自变量。

研究得分和每个目标特征的关键自变量。作者试图研究每个目标特征及其与自变量的关系。总之本文不会列举整个过程，将举两个例子。

作者发现length（音频长度）和 calories特征是相关的。这个发现很直观，因为健身的时间越长，消耗的卡路里就越多。

这种关系不难理解。

length和 calories之间存在正相关，但这种强度还不足以将它们直接归到一块。因为40-45分钟的音频消耗的热量与30-35分钟、50-55分钟，甚至与60多分钟的音频，都有重叠部分。因此，两个特征都保留。

此外，作者发现num_same_area和area_full，两个特征也是相关的，这个发现有点令人惊讶，接下来开始解密。

下图显示了num_same_area和area之间的关系。

假设我们发现更高的 num_same_area(>=10) 确实会导致更高的YouTube浏览量，但我们无法晓得这是因为area_full 还是因为 num_same_area。因此，作者放弃了 num_same_area特征，也因为相同的逻辑放弃相num_same_workouts特征。

步骤 4：创建目标

你可能将还记得，这个研究的目标是增加YouTube的播映量。是不是说明，我们能直接拿播映量作为目标呢？

但请注意！播映量呈偏态分布。播映量中值是27，641次，而最高的音频达到130万。这种不平衡会给模型的解释性带来难题。

因此，作者创建了特征views_quartile，以它作为目标。

他们将音频分为两类——高播映音频(high)和低播映音频(low)。high占总播映量的75%，也就是播映数35578及以上的音频，剩下的都归到low。

通过这种方式，作者使用预测模型来找到播映量最高的25%的音频的特征组合。

步骤 5：构建决策树

准备好了一切工作，我们根据目标views_quartile建立一个决策树模型啦！

为了避免过度拟合，作者将一个叶子节点的最小样本设置为10。为了让我们更容易理解，作者将树的最大深度设置为8层。

步骤 6：阅读决策树

在最后一步中，作者将研究并总结导致高或者低播映量的分支。他们到底发现了什么呢？

发现 1：calories_per_min是最关键的特征

没错，calories_per_min是最关键的特征。人们似乎不太关心健身类型或身体部位。

每分钟消耗的卡路里≥ 12.025属于高消耗，60%（51/(34+51) ）的音频都有较高的观看率。每分钟燃烧的卡路里少于(≤ 9.846)的音频则远没有受欢迎，只有 7.2%（12/(154+12) =）有较高的播映。而每分钟消耗卡路里在9.846到12.025之间的音频，其他因素也会产生较大促进作用。

发现 2：不同部位、多种方式锻炼并不能提升播映量

这个发现超乎作者想象，难道不是各种各样的锻炼更好吗？

当过去一个月，身体不同部位的锻炼数量(num_unique_area)很高，≥ 10时，音频的观看倾向低。即使每分钟燃烧的卡路里很高，这种情况依然成立。

结合前两个观点，78%（42/(12+42) ）的音频在以下情况下获得了更多的播映：