然后,我们在Open Penguin Data项目网站 上向社区开放了数据,并要求社区成员为可能影响企鹅算法的因素贡献他们的想法。您现在就可以去那里下载最新的数据集,尽管目前我知道 mozRank 和 mozTrust 列中有一个需要修复的错误。我们已经确定了 70 多个可能影响企鹅的因素,并且仍在继续构建它们,最新的变量更新是在 10 月 14 日。
不幸的是
现在只能添加某些变量,因为 Telegram 数字数据 新数据不相关。这些因素背后的数据来自大量来源,当然首先是Moz ,包括Majestic SEO、Ahrefs、Grep/Words和Archive.org 然后我们开始用多种方法分析数据。第一种方法是通过标准相关系数来帮助确定影响的方向(假设有任何影响)。
在这里
我处理相关性与因果关系的问 人工智能与数字素养的重要性顾问 题很重要,因为我相信你们中有人会提出这个问题。 相关性与因果关系 开放企鹅数据项目的目的过去和现在都不是确定哪些因素会导致企鹅惩罚。相反,
例如
我们将讨论 mozTrust 和 mozRank 之间的差异,这是 Penguin 的一个相 印度尼西亚号码列表 当好的预测指标。没有一个头脑正常的人会相信 Google 会使用 Moz 的数据来确定要惩罚谁和不要惩罚谁。但是,一旦我们知道某个网站可能会受到惩罚(因为我们知道 mozTrust 和 mozRank 之间的差异),我们就可以开始应用可能对抗 Penguin 的策略,例如使用 disavow 工具或删除垃圾链接。
而是在谈论预测
危险因素分析 然后,我们开始使用几种方法分析数据。首先,我们使用标准均值 Spearman 相关性来了解情况。这使我们能够构建一个粗略的回归模型,该模型实际上无需进行太多调整即可很好地工作。该模型本质上是将每个因素的相关系数相加。显然,更复杂的建模比这更好,但要构建一个粗略的概览,这种方法非常有效并且可以即时完成。