youtube加赞平台 -油管涨粉丝平台

首页 YouTube 作者：coolfensi 2022年09月10日热度：102 评论：0

时间：2022-9-10 13:24 热度：102°

在音频正式成为重要传播方式，vlog、音频写手也正式成为一种业余的当今社会，如何提高自己音频的播映量，是各阶层文本商品和服务最头秃的问题之一。互联网上当然有许多文本制做、领涨板块追踪、剪接基本功的撷取，但你可能不晓得，机器学习也可以在其中充分发挥大作用。

join into data上三位译者 Lianne 和 Justin 做了两个庞克的控制技术预测。他们的预测第一类是 YouTube 两个早先兴起的健身活动写手 Sydney Cummings。

Sydney 保有美国国家运动儿科学(NASM)的商业机构总教练证，同时也是一位跳远选手。她的帐号注册登记于 2016 年 5 月 17 日，总计播映量 27,031,566，目前保有 21 万影迷，每晚都稳定预览，很有科学研究象征意义。请注意，以下科学研究都将通过 Python 实现。

Sydney Cummings 的副标题都有一定拳法，比如说前段时间两个副标题是《30 两分钟肩膀和强健科玄珠锻炼皮肤！熔化 310 千卡！》，通常囊括时间、皮肤足部、耗用的千卡以及其他关于锻炼皮肤的形式化词语。观众们点选这段音频之前，就会晓得几个重要信息：

30 两分钟——我将在 30 两分钟内完成整个体能训练
锻炼皮肤肩膀和科玄珠——我将致力肩膀和科玄珠，著眼于力量
熔化 310 千卡——就要熔化相当多的千卡

掌控以上关键性重要信息是事先的预备，接下去还有五个关键性步骤：检视统计数据、用语义处理控制技术对音频进行进行分类、优先选择特点、建立目标、构筑计算机程序、写作计算机程序。接下去就看看译者到底是怎么一步棋一步棋进行科学研究的。

事先预备：截取统计数据

其实有很多不同的方法来截取 YouTube 统计数据。由于这只是个纸制项目，所以译者优先选择了两个只需要机械式，不倚赖额外工具的简单方法。

以下是分步关键性步骤：

选中所有音频
右键单击最新的音频并优先选择Inspect
将光标悬停在每一行上，找到高亮显示了所有音频的最低级别的 HTML 代码/元素级别。例如，如果使用 Chrome 浏览器，它看起来就像这样：

图片来源：Sydney’s YouTube Video page
所有者：Sydney

右键单击元素并优先选择复制，然后优先选择复制元素
将复制的元素粘贴到文本文件中并保存，这里使用 JupyterLab 文本文件并将其保存为 sydney.txt
使用 Python 提取重要信息并清理统计数据。接下去就是有趣的部分了，他们将从这个统计数据中集中提取特点，并科学研究是哪些因素影响着播映量

关键性步骤 1：检视统计数据

将统计数据导入到 Python 中是在最后一节中完成的，以下是统计数据集 df_videos，一共有 837 个音频。

df_videos 有 8 个特点来描述每个音频细节，包括：副标题、多久前发布的、音频长度、播映量、地址、千卡、发布具体日期、发布至今的天数。

此外，他们注意到统计数据有重叠，因为写手曾经多次上传同两个音频，在接下去的预测中将会忽略这部分不大的样本。

关键性步骤 2：用 NLP 对音频进行进行分类

在这一步棋中，他们根据副标题中的关键性词对音频进行进行分类。

1. 分组标准

这个音频针对的是皮肤哪个足部？
这个音频的目的是增肌还是减肥？
或者还有什么其他关键性词？

译者使用了语义工具包(NLTK)，Python 中两个常用的开源 NLP 库，来处理副标题。

2. 生成关键性词列表

首先，标记化音频的副标题。此过程使用分隔符（如空格（" "）将副标题文本字符串拆分为不同的标记（单词）。这样，计算机程序就可以更好地理解文本。

这些副标题中有 538 个不同的单词，以下列出了使用频率最高的标记/单词。可以发现，频繁使用的就是那几个词，这也再次证明写手确实喜欢起标准格式的音频副标题。

基于高频词列表，译者建立了 3 个关键性字列表，可用于接下去环节对音频进行进行分类。

body_keywords（正文—关键性词）——这标识了音频针对的皮肤足部，如完整皮肤、腹肌、腿
workout_type_keywords（健身活动—类型关键性字）——区分锻炼皮肤类型，如有氧、伸展、力量
其他关键性字——这包括常用但难以归类的关键性词，如体能训练营、精疲力竭、纤体（toning）

3. 词干关键性词列表

在形成这些关键性字列表后，译者还提取了词干。这是为了确保计算机能够识别近义词。例如，ABS 是 Abdominal Exercise（腹部锻炼皮肤）的简写，单词abs和ab有相同的词干ab。

4. YouTube 副标题的标记和词干

除了关键性词，译者还需要标记和提取副标题词干。这些过程可为进一步棋匹配关键性字和副标题列表做预备。

关键性步骤 3：特点工程

经过头脑风暴，他们优先选择了两种特点——基于关键性词和基于时间。

1. 基于关键性词的特点

Indicator Features

由于前一步棋的工作，现在有 3 个关键性词列表和精简的副标题，可以匹配它们来对音频进行进行分类。

按照 body_keywords 和 workout_type_keywords 进行分类，两个音频中有许多关键性词。所以在匹配之前，译者还建立了 2 个特点：area 区域和 workout_type 健身活动类型。这些特点将两个音频的所有皮肤足部和锻炼皮肤类型连接成两个字符串。

例如，两个健身活动音频可以同时做腹肌和腿，或者同时做有氧和力量。该音频的特点区域为腹肌+腿，健身活动类型为有氧+力量。

同时，译者也识别出了相似的关键性字，如总共和完全、核心和腹肌，将它们归在一组。

最后，他们建立了三种不同类型的虚拟特点（dummy features）：

is _ { } _区域，识别音频是否包含特定皮肤足部
is_ { } _健身活动，确定健身活动类型
title_contains_{}，查看副标题是否包含其他关键性词

为了清楚起见，音频副标题腿部力量耗用体能训练应该是 _leg_area = True, is_strength_workout = True， title_contains_burnout = True，而所有其他都为 False。

Frequency Features

除以上特点外，译者还建立了三个特点：num_body_areas， num_workout_types，和 num_other_keyword，用来计算两个音频副标题中提到的关键性词的数量。

举个例子，两个副标题是腹肌和腿部有氧力量体能训练的 num_body_areas 和 num_workout_types 都是 2。

这些特点有助于确定音频中应包含的皮肤足部或锻炼皮肤类型的最佳数量。

Rate Features

最后同样重要的是，译者建立了两个特点：calories_per_min（每两分钟千卡数）看看千卡的熔化速度。毕竟，观众们都想要一些明确的（可量化的）锻炼皮肤目标。

当然整个过程中也难免存在一些被错误进行分类的音频，译者也在转向时间特点前进行了手动修复，这里不再赘述。

2. 基于时间序列的特点

有了上述基于关键性词的特点，译者已经发现受欢迎音频的类型。但这是否意味着写手应该一直发相同类型的音频？

为了回答这个问题，他们还建立了一些基于时间序列的特点：

num_same_area，过去 30 天内发布的针对同一区域的音频（包括当前音频）数量。例如，特点= 6，说明除了当前音频针对上半身时，过去 30 天中还有 5 个上身健身活动音频。
num_same_workout，该特点类似 num_same_area，只是统计的是健身活动类型。例如，特点= 3，说明除了当前音频 HIIT 健身活动，在过去 30 天内还有 2 个 HIIT 健身活动音频。
last_same_area，距离上两个针对同一块皮肤足部音频过去的天数。例如，该特点= 10，说明针对腹肌的上两个音频，发布在 10 天前。last_same_workout，同 last_same_area，只是针对健身活动类型。
num_unique_areas，过去 30 天内锻炼皮肤了几块不同的皮肤足部。num _ unique _workouts，过去30天发布的不同健身活动类型音频的数量。这些特点将帮助了解观众们是喜欢相同的还是不同类型的音频。

需要说明的是，写手偶尔会发布与健身活动无关的音频，播映数差距很大，所以译者未将这些列入预测。另外他们也过滤掉了前 30 天的音频，因为它们缺乏足够的历史统计数据。

3. 特点工程的具体过程

多重共线性检验Test for Multicollinearity

什么是多重共线性检验，维基百科的解释是，多重共线性(也称共线性)是一种现象，其中多元回归模型中的两个预测变量可以以相当高的准确度从其他预测变量中线性预测。多重共线性不会降低模型整体的预测能力或可靠性，至少在样本统计数据集中是如此；它只影响单个预测因子的计算。

为什么这很重要？

假设写手只在周一发布力量体能训练，而且她的音频在周一的播映量总是更高。那么预测播映量时，应该归因它们发布在周一，还是因为它们是力量体能训练呢？为了获得真实的答案，译者必须确保特点之间没有强共线性。

成对相关( pairwise correlations)是常用的方法，但当出现多个特点(多于一对)时，可能会同时存在共线性。

因此，译者使用了一种更复杂的方法——k折交叉验证（ K-fold cross-validation）来达到目的。

详细过程如下：

根据判断，优先选择一组关键性特点来测试共线性。译者优先选择了对于YouTube音频播映量至关重要的特点，同时还添加了三个由随机数组成的特点：rand0,rand1, rand2。当比较特点之间的关系时，它们充当anchor。如果两个特点与这些随机特点相比不太重要或不太相似时，那么它就不是目标特点的重要自变量。

为k折交叉验证预备这些特点。在此过程中，他们转换进行分类特点（categorical features）：area和workout_type。这种转换确保每个类别级别至少有K个值。

使用其中两个特点作为目标，其余特点作为自变量，来体能训练预测模型。接下去，译者遍历每个特点，并使用其他特点拟合两个模型来预测它，他们用了两个简单的梯度提升模型（Gradient Boosting Model ，GBM)和K折验证，并且根据目标特点是数字的还是进行分类的，应用不同的模型和分数（模型预测能力评估指标）。

当目标特点是数字时，译者使用Gradient Boosting Regressor模型和均方根误差(RMSE)；当目标特点是进行分类特点时，则使用Gradient Boosting Classifier 模型和Accuracy（精度）。

对于每个目标，他们打印出K折验证分数(平均分)和最重要的5个自变量。

科学研究得分和每个目标特点的重要自变量。译者试图科学研究每个目标特点及其与自变量的关系。当然本文不会列举整个过程，将举两个例子。

译者发现length（音频长度）和 calories特点是相关的。这个发现很直观，因为健身活动的时间越长，耗用的千卡就越多。

这种关系不难理解。

length和 calories之间存在正相关，但这种强度还不足以将它们直接归到一块。因为40-45两分钟的音频耗用的热量与30-35两分钟、50-55两分钟，甚至与60多两分钟的音频，都有重叠部分。因此，两个特点都保留。

此外，译者发现num_same_area和area_full，两个特点也是相关的，这个发现有点令人惊讶，接下去开始解密。

下图显示了num_same_area和area之间的关系。

num_same_area特点，统计的是在过去30天内发布的针对于同一足部音频(包括当前音频)的数量。area_ful代表全身锻炼皮肤，这是Sydney音频中最常见的类型。因此，当num_same_area很大时，那么这些音频就是针对全身的锻炼皮肤。

假设我们发现更高的 num_same_area(>=10) 确实会导致更高的YouTube浏览量，但我们无法晓得这是因为area_full 还是因为 num_same_area。因此，译者放弃了 num_same_area特点，也因为相同的逻辑放弃相num_same_workouts特点。

关键性步骤 4：建立目标

你可能还记得，这个科学研究的目标是增加YouTube的播映量。是不是说明，我们可以直接拿播映量作为目标呢？

但请注意！播映量呈偏态分布。播映量中值是27，641次，而最高的音频达到130万。这种不平衡会给模型的解释性带来问题。

因此，译者建立了特点views_quartile，以它作为目标。

他们将音频分为两类——高播映音频(high)和低播映音频(low)。high占总播映量的75%，也就是播映数35578及以上的音频，剩下的都归到low。

通过这种方式，译者使用预测模型来找到播映量最高的25%的音频的特点组合。

关键性步骤 5：构筑计算机程序

预备好了一切工作，我们根据目标views_quartile建立两个计算机程序模型啦！

为了避免过度拟合，译者将两个叶子节点的最小样本设置为10。为了让我们更容易理解，译者将树的最大深度设置为8层。

关键性步骤 6：写作计算机程序

在最后一步棋中，译者将科学研究并总结导致高或者低播映量的分支。他们到底发现了什么呢？

发现 1：calories_per_min是最重要的特点

没错，calories_per_min是最重要的特点。人们似乎不太关心健身活动类型或皮肤足部。

每两分钟耗用的千卡≥ 12.025属于高耗用，60%（51/(34+51) ）的音频都有较高的观看率。每两分钟熔化的千卡少于(≤ 9.846)的音频则远没有受欢迎，只有 7.2%（12/(154+12) =）有较高的播映。而每两分钟耗用千卡在9.846到12.025之间的音频，其他因素也会产生较大作用。

发现 2：不同足部、多种方式锻炼皮肤并不能提高播映量

这个发现超乎译者想象，难道不是各种各样的锻炼皮肤更好吗？

当过去两个月，皮肤不同足部的锻炼皮肤数量(num_unique_area)很高，≥ 10时，音频的观看倾向低。即使每两分钟熔化的千卡很高，这种情况依然成立。

结合前两个观点，78%（42/(12+42) ）的音频在以下情况下获得了更多的播映：