网易云音乐数据研究思路

作者: 云中布衣   分类:  数据研究    热度: (127℃)   时间: 2018-11-20 18:55   标签: #Python  #网络爬虫  #一些有趣的事    
作为一个网易云音乐的重度用户,一直有个想法,就是利用自己掌握的Python爬虫技术爬取网易云音乐的数据,并对其进行分析,做一些有意思的事情
在此之前大致看了网上的关于网易云音乐的数据爬取和分析思路,并没有找到什么的有意思的策略,因此索性也就不去找了,省的被别人的思路把自己的想法给束缚了,毕竟我也是一名网易音乐的重度用户,这点自信还是要有的。
先从网易云音乐的数据主体开始说吧,这个网站按照数据主体大致可以分为:
1)歌曲(包括歌曲文件、歌词、歌手、所属专辑、评论等信息);
2)歌手(包括歌手简介、发布的歌曲、发布的专辑等信息);
3)歌单(包括标签、介绍、歌曲、评论等信息);
4)此外还有音乐排行榜,用户个性化数据(听歌记录、听歌时长、听歌风格)等数据。
music163.JPG
其中歌曲是基本数据主体,歌手是比较易于形成数据研究思路的数据主体,用户个性化数据是最有研究价值的数据主体。
网易云音乐数据研究思路可以分为两个部分:数据的抓取思路和数据的分析思路

一、数据的抓取思路

数据的抓取主要以数据主体为主线,用过Python爬虫技术对music.163.com网站进行数据爬取。
初步拟定的技术方案为Python(3.7) + Selenium(3.141.0)+Firefox(63.0.1)+BeautifulSoup(4.6.3)+ threading + Mysql
分别对网站的歌曲、歌手、歌单及用户个性化数据进行爬取,并以一定的格式持久化到数据库中,作为数据分析的原始数据。

二、数据的分析思路

对抓取到的数据,比如歌曲或者歌手或者歌单评论的数量、收藏的数量、转发的数量,通过对这些量进行一些常规的大数据统计分析,排名、分布规律等。
对于歌词可以进行分词,与自然语言处理相结合,做一些有趣的事情,比如词云、比如歌词情绪的分析。
今天暂且就写这么多吧,随着后续研究的深入,有什么新的、具体的东西再补充进来。

<完 云中布衣 2018年11月20日>
56.8K

评论:

网站建设 Say:
写的不错

2018-12-03 11:06


云中布衣
2018-12-04 10:50
@网站建设:哈哈哈哈,谬赞谬赞

发表评论:

© 云中布衣 2015 | Driven by EMLOG  | SiteMap | RunTime: 10.88ms RSS  | MORE  |   | TOP

文章数量【264】 评论数量【256】 稳定运行【1238天】

Visitor IP Address【54.167.15.6】

Email:ieeflsyu#outlook.com