数据分析学习之路——(十)专题分析:怎样挖掘4w篇文章中的隐藏信息

2023-11-04

说明

        随着现代社会互联网不断发展壮大的趋势,越来越多的专题网站、论坛也趁着东风连续高速发展。广大互联网用户身处这个“信息爆炸”的时代,怎样才能选出令自己感兴趣的优质内容,已成了大多数互联网用户最为关注的目的。也正是如此,对于网站运营来讲,如何持续保持高产出、高质量、高用户、高活跃,从而给网站带来流量和收益这一核心目标,是一个长期不断进行优化、迭代网站数据分析运营的过程。《人人都是产品经理》网站正是在这样的背景下快速成长起来的,如今发展成为比较全面的互联网产品等领域的学习平台。本文选取该网站所有发布的专题文章进行分析,主要进行以下方向的分析:

  • 分析网站总体内容运营方向和用户活跃程度,比如文章分类偏好、作者活跃程度、用户阅读/评论文章趋势;
  • 通过全部文章内容分析运营主题,提取关键词了解网站运营侧重方向;根据文章城市提及情况,分析各大中城市互联网产业的发展态势;
  • 通过用户阅读、点赞、评论等维度量化用户对文章的喜好程度,将文章分为几类用户的喜好类型,用以指导文章发布、网站内容运营。

        本文借鉴了专栏作者苏格兰折耳喵的文章,并自己梳理思路独立完成了这篇分析报告。

数据处理

数据获取

        使用python爬虫技术获取《人人都是产品经理》对外公开的所有发布的文章信息,时间段为2012.05.17-2018.04.05,总共41000多篇文章,包括文章id、文章标题、正文链接、正文内容、发布日期、作者姓名、作者角色、文章分类、阅读量、点赞量、收藏量、评论量等信息。

                    145050_3zYF_3642529.png

数据预处理

        获取的数据比较杂乱,而且部分字段暂时不需要用到,因此做一下处理:

  • 文章id、正文链接、作者角色、正文内容等信息对总体分析过程没有太大意义,因此过滤掉;
  • 爬取的文章分类字段带有<a></a>标签,需要用正则表达式匹配实际分类;
  • 阅读量等指标上万、上百万级的数据通过类似于1.2w、2.2m的字符来表示的,需要转化成数据。

        经过处理后的数据:

                        145150_81V2_3642529.png

总体运营分析

总体分析

        将所有文章进行分类,并统计总发文数量,做成如下数量统计图。以及饼图展示了不同分类所属的文章占总文章数量的比重。

                    145606_xMJi_3642529.png

                        145612_MzQx_3642529.png

        上图展示了业界动态、产品设计、产品运营等分类文章的总数量和占比情况。由此可看出,业界动态、产品设计、产品运营、产品经理四类文章是网站文章运营主流,占了14个分类中近75%的比例,也契合了该网站以产品学习为主的运营思路。从数量上看,这四类文章的数量都超过了5000,而且与排名第五的交互体验(数量2751)拉开了很大的差距,甚至排名第一的业界动态数量达到了11770篇,说明更多优质的内容更有可能从这几类文章中产出。根据“二八原则”,确实是更少的领域贡献了更多的内容,也体现了网站的运营方向更关注业界资讯和产品指导,对创业指导、数据分析、AI关注度较少。

趋势分析

        通过观察发文数量的历史趋势,可以总体探知网站的运营情况;文章的阅读量、点赞/评论量可以反映用户的活跃程度,也是体现网站发展情况的重要指标。

                        145655_9Ild_3642529.png

        首先关注两个异常节点——一首一尾,2012年2季度为开始发布文章时间,这个时期发文数量巨大,分析可能原因是:网站开始起步,为了吸引流量网站大量原创,也或者转载了很多文章到自己的平台,目的是引起用户的关注,让用户知道有这样一个平台。至于2018年2季度就很好解释了,因为到目前这个时期还没有结束,粗略估算一下,这个时间段的文章数量会持平。

        总体来看,整个平台文章数量是保持增长的,尤其是2012-2014三年时间整体处于稳步上升阶段,运营得不错。

                            145731_ji6w_3642529.png

        除开上述分析的两个异常节点,用户阅读量、点赞/评论数量整体呈现出初期阶段高增长,到达2015年2季度最大值,然后趋于稳定,说明网站收获了一批忠实用户,一直伴随着网站成长。根据趋势,网站发展过程中应该是淘汰了一部分非目标用户,最后留下了忠实的核心用户支撑平台的运营发展。

作者分析

        将文章作者单独列出来分析,可以了解这些作者对网站发展的贡献程度,通过用户对作者文章的关注度,也能反映作者给平台带来流量排名。

                    145800_wYNj_3642529.png

        上图是作者发文总量排名,我只选取了发文300篇以上的作者。老曹作为网站的站长,发文数量真是其他作者远远不能比的,近5k的文章量,比第2-5名4位作者的总量还要多。而人人都是产品经理这个作者作为网站官方运营账号,也贡献了较大比例的文章。因此,为了吸引更多的用户,老曹和人人都是产品经理这两个“自己人”花费了很多的精力,值得点赞!

                             145816_Pca8_3642529.png

        单从数据运营(蓝色)、数据分析(橙色)来看,整体与上述分析保持一致,更多作者的文章是倾向于产品相关,而且也是主要几位作者:诸如老曹、Nairo、米可等,给平台提供了绝大部分内容。值得一提的是,关于数据分析的文章主要是由36大数据和秦路提供的,秦路作为数据分析领域的大牛,同时也是知乎和天善的大 V。

                        145837_ZCkW_3642529.png

        这张图展示了收获赞和收藏数量靠前的作者排名。首先反映出主要几位作者更容易获得用户的青睐,这跟他们发布的优质内容有很大关系,说明这些作者在这些领域的专业性。再从赞和收藏来讲,赞的数量要比收藏要少,说明用户不轻易用点赞“这个技能”,对一篇文章的认可更愿意点赞;从前几位排名来看,Nairo、老曹等作者赞数与收藏量的比值比其他要大很多,也侧面反应他们的文章的受认可程度更高。最后说一个作者苏格兰折耳喵,本文的参考文章出自于他,可以看到,虽然他的文章数量很少,但是能够收获高赞和收藏,非常厉害。

对比分析

        对分类文章的点赞评论分析,可以了解用户群体对某几类文章的关注程度,根据用户的兴趣点再去进行内容优化。

                                145917_nxX5_3642529.png

        上图是各分类文章收到的点赞数和评论数,颜色越深点赞数越多,圆越大评论数越多。很容易看出产品经理、产品运营、产品设计、业界动态类的文章更受用户关注,而且点赞数和评论数有一定的相关性,也就是随着点赞数的增多,评论数也在增多,说明优质的文章在平台能体现出其价值。

                            145935_QXMp_3642529.png

        我选取了自己感兴趣:数据分析、AI、区块链这三类文章来研究它们的篇均阅读量。总体来看,用户刚开始比较关注,然后逐渐趋于减少的趋势,分析一下可能原因:

  • 平台是主要是涉及的是互联网产品体系,诸如AI类的文章的专业性、可读性不如其它平台;
  • 正是由于平台的用户特征,非主领域的用户粘度不高,容易流失。

        我建议为了拓展平台,可以选择某个非主领域进行研究,发展优质内容吸引用户群体。至于2017.11月区块链篇均阅读量突然出现了一个高点,应该是那段时间比特币持续增值带来的结果,而能够引爆这个点正是那段时间比特币持续走高,连续破$8000,破$10000,各新闻平台竞相报道,引起了互联网用户强烈的关注度。

周期分析

        我通过选取一段时间内的文章发布量,并对发布的时间进行对比分析,可以看出文章发布时间是有明确的周期性的。

                           150014_nhm7_3642529.png

        图中展示了2018年1季度文章发布数量与时间的关系,柱状图中浅色表示周六和周日,中间数量较少对应的时间是春节期间。因此很容易看出,绝大多数文章是在工作日发布的。

运营内容分析

关键词提取

        可以根据关键词,单独分析文章内容,作为对平台的运营方向的补充。使用Python分词工具,通过tf-idf算法给每个词赋上权重,权重越高,说明这个词的重要性越高,可以通过这些词对文章的重要程度来判断所有文章的主题倾向性。

主题分析

        将所有的词按照重要程度做可视化,可以非常直观地呈现平台的主题。

                                    173822_Wx3K_3642529.png

        可以看到,“用户”、“产品”、“设计”等跟互联网产品相关的词的重要性非常高,这些词在绝大部分文章出现的概率也很高。这样从发文内容也展示了平台运营主题,再去分析这些词,发现这些词都是近几年互联网高速发展带来的热频词汇,跟传统行业相比一眼就可以辨别。

                            173835_x2C0_3642529.png

        再将这些词与我自己做的互联网公司词表做匹配,做出词云给我们展示了平台所提及到的互联网公司的热度。诸如腾讯、阿里旗下的公司依旧显眼,因为无论是技术、产品、创新、战略,它们的产品仍然是行业标杆,总是各专业人士的分析对象。后起之秀例如抖音、滴滴、摩拜、快手等,它们是近几年在BAT等大厂的市场夹缝中通过商业模式创新快速成长起来的代表,因此也非常值得作为商业案例、产品案例来分析。

城市热度分析

                            173903_WsFg_3642529.png

        同样,通过城市词表将平台所提及的城市做热度分析。可以看到,北京、上海、深圳、广州、杭州这五个城市是平台提到最多的城市,这正表明了中国互联网发展的现状——目前几乎所有的互联网大厂都分布在这五个城市,而且处于快速发展期的中小互联网公司,甚至独角兽公司也几乎分布在这几个城市,因此要谈中国的互联网,要谈中国的互联网产品、互联网创新,必定提及北上广深杭。再进一步分析,上述城市因为互联网布局和政策支持,已然处于第一梯队,但随着城市居住、生活成本的升高,更多的从业人员选择逃离,加上地方政府支持,像成都、武汉等城市已经在快速追赶,拥有了一批优质有潜力的互联网公司,也是这些专栏作者喜欢分析的对象。

深挖数据价值

数据潜在价值

        本次一共分析了4w多篇文章,每篇文章都有相应的阅读数量、评论数量等可以量化,并且有价值的数据。一篇文章的阅读数量可以说明受众量有多大,点赞和收藏数量可以反应文章的受欢迎程度,也能够反应出文章的质量好坏。并且通过这些文章再去分析文章作者,就可以了解到那些作者能够产出优质的内容,从而指导网站的运营思路。

        本次分析深入挖掘这些数值型数据,将数据挖掘的方法在实际场景应用,可以给文章做个性化的划分,并以此为基础取长补短,重点发掘高价值文章,淘汰低价值文章。

分析思路

        我选用聚类算法,将4w多篇文章聚集为几类,并根据每个类别用户在阅读量等数据上的表现,给每个类别贴上标签表明用户对文章的喜好程度。然后再分析不同喜好程度文章分类的分布,以及探寻哪些作者更能产出优质内容,受到用户喜爱。

        每篇文章对应有价值、可量化的数据为:阅读量、点赞量、收藏量、评论量,于是在聚类的过程中可以选择这四个特征,也称之为四个维度。但是我在实现过程中发现选取四个特征,由于绝大部分数据很集中,因此聚类效果总不理想。上面分析过程曾提过点赞量和评论量有一定的相关性,因此就做了二选一,最终选择三个特征进行聚类。经过多次参数调整以及结果观察,最终我将全部文章聚集为4个分类。

文章分类

        这4个文章的用户喜好程度分类类别为:

  • 非常喜欢:高阅读量、高点赞量、高收藏量
  • 一般喜欢:低阅读量、中点赞量、中收藏量
  • 不太喜欢:低阅读量、低点赞量、高收藏量
  • 不喜欢:中阅读量、低点赞量、低收藏量

        首先我观测了所有数据,根据数据表现将这些数据分别做了等级划分,将数据大致在某个范围设定为高、中、低频,因此这里出现了中点赞量和中收藏量。

价值分析

        于是每篇文章有一个用户喜好程度的标签,通过分析用户对文章的接受程度,可以对网站的运营成果进行分析。

                        150808_GOqR_3642529.png

            150820_GR8P_3642529.png

        总体来看,自从网站运营以来,大多数的文章用户不怎么关注喜欢,同时有1/4的文章为用户非常喜欢。再结合历史趋势就一目了然了,网站刚开始运营时,几乎所有的文章都是不喜欢这一类别,分析原因是:网站成立发布文章,并没有多少用户积累,因此也许部分“优质”历史文章就被无视了,自2015年3季度开始,成果慢慢就有所展现了。这个时间节点之后,被用户所喜欢的文章增长趋势特别快,而且比例也越来越高,并一直持续。因此我认为整个网站的运营成果非常显著,而且后续还有更大的发展空间。

                150835_y1M0_3642529.png

        本图展示了各领域文章被用户的接受情况,浅蓝色为不喜欢,深蓝色为喜欢。可以看到,产品经理、产品运营、产品设计等领域数量最多;分析评测、原型设计、数据分析、用户研究几个领域用户喜欢文章占比更大,说明这些非主领域能够产出优质的内容。平台可以与这些文章作者经常联系,并保持约更多的文章,就像前面提过,再选择一个领域拓展平台 。

               150901_Umu3_3642529.png

        上图展示了用户非常喜欢的文章领域以及文章作者(发文数多于40篇)的分布情况。由左图可知,营销推广类文章用户非常喜欢的总体占比接近60%,说明这一领域的文章质量特别高,同样分析评测、原型设计、数据分析、用户研究领域用户非常喜欢占比都超过了40%,也体现出相关内容具有高价值。那么可以这样考虑:营销推广、数据分析、用户研究这几类并不是该网站重点关注的领域,随着更多科技新知识的发展,在以后的运营过程中,可以倾向性在这一两个领域发布数量更多,内容也更优质的文章,可以吸引更多的用户到平台,这样形成一个良性循环——优质的内容吸引更多的稳定、忠实的优质用户。

        要实现这个目标最关键就在于文章作者了,因为文章是人写出来的,因此发掘并留住能带来高流量的作者至关重要。图中的信息告诉我们,网易UEDC、运营直升机、秦路等作者发布了很多受到用户喜欢,对网站来说有较高价值的文章,也正是他们的文章给网站带来了部分人气和流量,所以在网站接下来的运营过程中,要想办法更多地和这些作者互动接触,想方设法留住他们并且鼓励他们产出更多好的内容,这需要网站的运营人员去做一些线上线下鼓励活动。

        接下来再分析一下用户不太关注、不太喜欢的文章分布。像大咖视频、讲座沙龙、人人专栏超过90%的内容用户都不喜欢,可以从两个方面考虑:

  • 这几个领域本身内容比较劣质,对用户来讲确实帮助不大;
  • 这几个领域非常小众,关注的群体本来就少。

           151007_1Ksb_3642529.png

        根据前面各领域的对比分析,我更倾向认为第二点是主要原因,那么针对这样的情况,我认为大可不必花费太多资源在这些不太容易出成绩的分类领域。但是对于产品经理、原型设计、营销推广这类网站主要针对的领域,它们总体不喜欢的比例在50%左右(营销推广表现好一些),应该来讲表现可圈可点,需要保持这种态势,争取把内容做得更好。而产品设计、产品运营等领域也是网站主要针对的领域,但是表现一般,总体不喜欢率为70%左右,需要采用一定的手段将比例降下来。

        针对用户不喜欢的文章,我选取了发布文章超过150篇的作者,除开老曹(前文分析过网站初期发过大量文章)可能比较特殊,其他比如DT、绝迹、欧阳俊杰、漓江等作者,发文数量很大——超过300篇,同时用户的认可度并不是很高。可能是文章内容并没有讲出什么有用的东西,也可能是由于他们的领域小众,阅读群体不高或者不感兴趣,那么是否可以建议这部分作者将发布文章的频率降下来,更多思考在文章风格,文章质量上做优化改进。如果专栏作者的文章一直不温不火,很容易导致作者没有成就感,最终离开而去其他平台,也许会带走一批常驻用户,最终影响到平台流量、平台运营。

        因此,通过将数据潜在的价值用数据、图表的方式呈现出来,更容易使网站的运营人员认识自己的平台优势在哪、劣势在哪,从而扬长避短,拓展运营思路。

总结

        要让杂乱无章的数据体现出其价值,用数据量化并做成各种总体对比图,或者趋势对比图是一套行之有效的流程化方法,本文就是在这种思维的指导下进行的分析,并总结出以下简要结论:

  • 诸如大数据、区块链领域用户的关注度(阅读量)在增加,但是活跃度(赞、评论和收藏量)不够,需要注意调整这几个领域的运营方式;
  •  部分作者发布的文章受用户不喜欢的比例很高,需要作者注意提升文章的质量。

        我很热爱数据行业,并以极大的兴趣去学习、实践,这是我第一次写一份比较全面、专业的分析报告,不足之处还请多指教!

转载于:https://my.oschina.net/nekyo/blog/1798491

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据分析学习之路——(十)专题分析:怎样挖掘4w篇文章中的隐藏信息 的相关文章

  • Python、Tkinter、更改标签颜色

    有没有一种简单的方法来更改按钮中文本的颜色 I use button text input text here 更改按下后按钮文本的内容 是否存在类似的颜色变化 button color red Use the foreground设置按钮
  • Python PAM 模块的安全问题?

    我有兴趣编写一个 PAM 模块 该模块将利用流行的 Unix 登录身份验证机制 我过去的大部分编程经验都是使用 Python 进行的 并且我正在交互的系统已经有一个 Python API 我用谷歌搜索发现pam python http pa
  • 如何打印没有类型的defaultdict变量?

    在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
  • 如何在 Sublime Text 2 的 OSX 终端中显示构建结果

    我刚刚从 TextMate 切换到 Sublime Text 2 我非常喜欢它 让我困扰的一件事是默认的构建结果显示在 ST2 的底部 我的程序产生一些很长的结果 显示它的理想方式 如在 TM2 中 是并排查看它们 如何在 Mac 操作系统
  • 如何在Windows上模拟socket.socketpair

    标准Python函数套接字 套接字对 https docs python org 3 library socket html socket socketpair不幸的是 它在 Windows 上不可用 从 Python 3 4 1 开始 我
  • 如何使用包含代码的“asyncio.sleep()”进行单元测试?

    我在编写 asyncio sleep 包含的单元测试时遇到问题 我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间 当我尝试使用普通可调用对象运行测试时 这个库非常有用 但我找不到运行包含 asyncio sleep 的测
  • SQL Alchemy 中的 NULL 安全不等式比较?

    目前 我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较 其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
  • 从 scikit-learn 导入 make_blobs [重复]

    这个问题在这里已经有答案了 我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
  • feedparser 在脚本运行期间失败,但无法在交互式 python 控制台中重现

    当我运行 eclipse 或在 iPython 中运行脚本时 它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么 但
  • 在pyyaml中表示具有相同基类的不同类的实例

    我有一些单元测试集 希望将每个测试运行的结果存储为 YAML 文件以供进一步分析 YAML 格式的转储数据在几个方面满足我的需求 但测试属于不同的套装 结果有不同的父类 这是我所拥有的示例 gt gt gt rz shorthand for
  • python 集合可以包含的值的数量是否有限制?

    我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个 这个数字会随着时间的推移慢慢增长 我担心python集的最大容量 它可以包含的元素数量有限制吗 您最大
  • ExpectedFailure 被计为错误而不是通过

    我在用着expectedFailure因为有一个我想记录的错误 我现在无法修复 但想将来再回来解决 我的理解expectedFailure是它会将测试计为通过 但在摘要中表示预期失败的数量为 x 类似于它如何处理跳过的 tets 但是 当我
  • Python - 按月对日期进行分组

    这是一个简单的问题 起初我认为很简单而忽略了它 一个小时过去了 我不太确定 所以 我有一个Python列表datetime对象 我想用图表来表示它们 x 值是年份和月份 y 值是此列表中本月发生的日期对象的数量 也许一个例子可以更好地证明这
  • Numpy 优化

    我有一个根据条件分配值的函数 我的数据集大小通常在 30 50k 范围内 我不确定这是否是使用 numpy 的正确方法 但是当数字超过 5k 时 它会变得非常慢 有没有更好的方法让它更快 import numpy as np N 5000
  • 通过数据框与函数进行交互

    如果我有这样的日期框架 氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
  • Python 3 中“map”类型的对象没有 len()

    我在使用 Python 3 时遇到问题 我得到了 Python 2 7 代码 目前我正在尝试更新它 我收到错误 类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
  • glpk.LPX 向后兼容性?

    较新版本的glpk没有LPXapi 旧包需要它 我如何使用旧包 例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
  • 在python中,如何仅搜索所选子字符串之前的一个单词

    给定文本文件中的长行列表 我只想返回紧邻其前面的子字符串 例如单词狗 描述狗的单词 例如 假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下 期望
  • 使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

    我有一个 Pandas 数据框 它有两列 一列 进程参数 列 包含字符串 另一列 值 列 包含相应的浮点值 我需要过滤出部分匹配列 过程参数 中的一组键的子数据帧 并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
  • PyAudio ErrNo 输入溢出 -9981

    我遇到了与用户相同的错误 Python 使用 Pyaudio 以 16000Hz 录制音频时出错 https stackoverflow com questions 12994981 python error audio recording

随机推荐