[导读]:本文(《Python 爬虫实践:《战狼2》豆瓣影评分析》)由来自瓦房店的用户投稿,并经由本站(快乐看电影)结合主题:豆瓣影评网,收集整理了众多资料而成。主要记述了python,python爬虫,分词等方面的信息。相信从本文您一定可以获得自己所需要的!

简介

刚接触python不久,做一个小项目来练练手。前几天看了《战狼2》,发现它在最新上映的电影里面是排行第一的,如下图所示。准备把豆瓣上对它的影评做一个分析。

目标总览

目标总览

主要做了三件事:

  • 抓取网页数据

  • 清理数据

  • 用词云进行展示

使用的python版本是3.5.

一、抓取网页数据

第一步要对网页进行访问,python中使用的是urllib库。代码如下:

fromurllibimportrequest

html_data = resp.read().decode('utf-8')

html_data是字符串类型的变量,里面存放了网页的html代码。

输入print(html_data)可以查看,如下图所示:

输入print(html_data)可以查看,如下图所示:

第二步,需要对得到的html代码进行解析,得到里面提取我们需要的数据。

在python中使用BeautifulSoup库进行html代码的解析。

(注:如果没有安装此库,则使用pip install BeautifulSoup进行安装即可!)

BeautifulSoup使用的格式如下:

BeautifulSoup(html,"html.parser")

第一个参数为需要提取数据的html,第二个参数是指定解析器,然后使用find_all()读取html标签中的内容。

但是html中有这么多的标签,该读取哪些标签呢?其实,最简单的办法是我们可以打开我们爬取网页的html代码,然后查看我们需要的数据在哪个html标签里面,再进行读取就可以了。如下图所示:

【豆瓣影评网】Python 爬虫实践:《战狼2》豆瓣影评分析

从上图中可以看出在div id=”nowplaying“标签开始是我们想要的数据,里面有电影的名称、评分、主演等信息。所以相应的代码编写如下:

frombs4 importBeautifulSoup asbs

soup = bs(html_data,'html.parser')

nowplaying_movie = soup.find_all('div',id='nowplaying')

nowplaying_movie_list = nowplaying_movie[0].find_all('li',class_='list-item')

其中nowplaying_movie_list 是一个列表,可以用print(nowplaying_movie_list[0])查看里面的内容,如下图所示:

【豆瓣影评网】Python 爬虫实践:《战狼2》豆瓣影评分析

在上图中可以看到data-subject属性里面放了电影的id号码,而在img标签的alt属性里面放了电影的名字,因此我们就通过这两个属性来得到电影的id和名称。(注:打开电影短评的网页时需要用到电影的id,所以需要对它进行解析),编写代码如下:

nowplaying_list = []

foritem innowplaying_movie_list:        

nowplaying_dict = {}

nowplaying_dict['id'] = item['data-subject']

fortag_img_item initem.find_all('img'):            

nowplaying_dict['name'] = tag_img_item['alt']

nowplaying_list.append(nowplaying_dict)

其中列表nowplaying_list中就存放了最新电影的id和名称,可以使用print(nowplaying_list)进行查看,如下图所示:

【豆瓣影评网】Python 爬虫实践:《战狼2》豆瓣影评分析

接下来接对该网址进行解析了。打开上图中的短评页面的html代码,我们发现关于评论的数据是在div标签的comment属性下面,如下图所示:

因此对此标签进行解析,代码如下:

因此对此标签进行解析,代码如下:

resp = request.urlopen(requrl)

html_data = resp.read().decode('utf-8')

soup = bs(html_data,'html.parser')

comment_div_lits = soup.find_all('div',class_='comment')

此时在comment_div_lits 列表中存放的就是div标签和comment属性下面的html代码了。在上图中还可以发现在p标签下面存放了网友对电影的评论,如下图所示:

因此对comment_div_lits 代码中的html代码继续进行解析,代码如下:

eachCommentList = [];

foritem incomment_div_lits:

ifitem.find_all('p')[0].stringisnotNone:    

eachCommentList.append(item.find_all('p')[0].string)

使用print(eachCommentList)查看eachCommentList列表中的内容,可以看到里面存里我们想要的影评。如下图所示:

好的,至此我们已经爬取了豆瓣最近播放电影的评论数据,接下来就要对数据进行清洗和词云显示了。

二、数据清洗

为了方便进行数据进行清洗,我们将列表中的数据放在一个字符串数组中,代码如下:

comments = ''

forkinrange(len(eachCommentList)):

comments = comments + (str(eachCommentList[k])).strip()

使用print(comments)进行查看,如下图所示:

可以看到所有的评论已经变成一个字符串了,但是我们发现评论中还有不少的标点符号等。这些符号对我们进行词频统计时根本没有用,因此要将它们清除。所用的方法是正则表达式。python中正则表达式是通过re模块来实现的。代码如下:

importre

filterdata = re.findall(pattern,comments)

cleaned_comments = ''.join(filterdata)

继续使用print(cleaned_comments)语句进行查看,如下图所示:

【豆瓣影评网】Python 爬虫实践:《战狼2》豆瓣影评分析

我们可以看到此时评论数据中已经没有那些标点符号了,数据变得“干净”了很多。

因此要进行词频统计,所以先要进行中文分词操作。在这里我使用的是结巴分词。如果没有安装结巴分词,可以在控制台使用pip install jieba进行安装。(注:可以使用pip list查看是否安装了这些库)。代码如下所示:

importjieba#分词包

importpandas aspd  

segment = jieba.lcut(cleaned_comments)

words_df=pd.DataFrame({'segment':segment})

因为结巴分词要用到pandas,所以我们这里加载了pandas包。可以使用words_df.head()查看分词之后的结果,如下图所示:

图片

从上图可以看到我们的数据中有“看”、“太”、“的”等虚词(停用词),而这些词在任何场景中都是高频时,并且没有实际的含义,所以我们要他们进行清除。

我把停用词放在一个stopwords.txt文件中,将我们的数据与停用词进行比对即可(注:只要在百度中输入stopwords.txt,就可以下载到该文件)。去停用词代码如下代码如下:

stopwords=pd.read_csv("stopwords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'],encoding='utf-8')#quoting=3全不引用

words_df=words_df[~words_df.segment.isin(stopwords.stopword)]

继续使用words_df.head()语句来查看结果,如下图所示,停用词已经被出去了。

接下来就要进行词频统计了,代码如下:

接下来就要进行词频统计了,代码如下:

importnumpy#numpy计算包

words_stat=words_df.groupby(by=['segment'])['segment'].agg({"计数":numpy.size})

words_stat=words_stat.reset_index().sort_values(by=["计数"],ascending=False)

用words_stat.head()进行查看,结果如下:

用words_stat.head()进行查看,结果如下:

由于我们前面只是爬取了第一页的评论,所以数据有点少,在最后给出的完整代码中,我爬取了10页的评论,所数据还是有参考价值。

三、用词云进行显示

代码如下:

importmatplotlib.pyplot asplt

%matplotlibinline

importmatplotlib

matplotlib.rcParams['figure.figsize'] = (10.0,5.0)

fromwordcloud importWordCloud#词云包

wordcloud=WordCloud(font_path="simhei.ttf",background_color="white",max_font_size=80)#指定字体类型、字体大小和字体颜色

word_frequence = {x[0]:x[1]forxinwords_stat.head(1000).values}

word_frequence_list = []

forkey inword_frequence:

temp = (key,word_frequence[key])

word_frequence_list.append(temp)

wordcloud=wordcloud.fit_words(word_frequence_list)

plt.imshow(wordcloud)

其中simhei.ttf使用来指定字体的,可以在百度上输入simhei.ttf进行下载后,放入程序的根目录即可。显示的图像如下:

图片

到此为止,整个项目的介绍就结束了。由于自己也还是个初学者,接触python不久,代码写的并不好。而且第一次写技术博客,表达的有些冗余,请大家多多包涵,有不对的地方,请大家批评指正。以后我也会将自己做的小项目以这种形式写在博客上和大家一起交流!最后贴上完整的代码。

完整代码

#coding:utf-8

__author__ = 'hang'

importwarnings

warnings.filterwarnings("ignore")

importjieba#分词包

importnumpy#numpy计算包

importcodecs#codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode

importre

importpandas aspd  

importmatplotlib.pyplot asplt

fromurllibimportrequest

frombs4importBeautifulSoupasbs

%matplotlibinline

importmatplotlib

matplotlib.rcParams['figure.figsize'] = (10.0,5.0)

fromwordcloud importWordCloud#词云包

#分析网页函数

defgetNowPlayingMovie_list():  

html_data = resp.read().decode('utf-8')

soup = bs(html_data,'html.parser')

nowplaying_movie = soup.find_all('div',id='nowplaying')

nowplaying_movie_list = nowplaying_movie[0].find_all('li',class_='list-item')

nowplaying_list = []

foritem innowplaying_movie_list:        

nowplaying_dict = {}

nowplaying_dict['id'] = item['data-subject']

fortag_img_item initem.find_all('img'):            

nowplaying_dict['name'] = tag_img_item['alt']

nowplaying_list.append(nowplaying_dict)

returnnowplaying_list

#爬取评论函数

defgetCommentsById(movieId,pageNum):

eachCommentList = [];

ifpageNum>0:

start = (pageNum-1) * 20

else:

returnFalse

print(requrl)

resp = request.urlopen(requrl)

html_data = resp.read().decode('utf-8')

soup = bs(html_data,'html.parser')

comment_div_lits = soup.find_all('div',class_='comment')

foritem incomment_div_lits:

ifitem.find_all('p')[0].stringisnotNone:    

eachCommentList.append(item.find_all('p')[0].string)

returneachCommentList

defmain():

#循环获取第一个电影的前10页评论

commentList = []

NowPlayingMovie_list = getNowPlayingMovie_list()

foriinrange(10):    

num = i + 1

commentList_temp = getCommentsById(NowPlayingMovie_list[0]['id'],num)

commentList.append(commentList_temp)

#将列表中的数据转换为字符串

comments = ''

forkinrange(len(commentList)):

comments = comments + (str(commentList[k])).strip()

#使用正则表达式去除标点符号

filterdata = re.findall(pattern,comments)

cleaned_comments = ''.join(filterdata)

#使用结巴分词进行中文分词

segment = jieba.lcut(cleaned_comments)

words_df=pd.DataFrame({'segment':segment})

#去掉停用词

stopwords=pd.read_csv("stopwords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'],

相关问答

问:国外有没有类似于猫眼 豆瓣电影这些影评网站,英语国家最好。

答:IMDB的影评最丰富,烂番茄的比较专业,亚马逊也有,主要是针对蓝光碟。

问:求推荐几个国外的影评网站,国内的豆瓣看多了没意思,想看看欧美网友对当前影视的评论。换一种文化背景,

答:第一个是Metacritic是专门收集对于音乐专辑、电影、游戏、书籍、电视节目、DVD的评论的网站。
第二个是烂番茄,它是美国一个网站,以提供电影相关评论、资讯和新闻为主。
第三个是IMDB,是一个关于电影演员、电影、电视节目、在线数据库。

问:如何在豆瓣网看电影?

答:豆瓣网每部电影下面的用户评论区,经常有人发布电影下载链接,有BT、讯雷、网盘等。以网盘为主,因为豆瓣网评论区不允许发附件,不能直接提供BT种子,一般都是转贴自其它论坛,帖子失效了,就不能下载了。
你可以到VeryCD去搜索喜欢的电影,用电驴下载。

问:给介绍几部豆瓣电影网评分比较高的几部韩国的 剧情 惊悚 / 犯罪类型的电影,谢谢了

答:杀人回忆、追击者、老男孩、熔炉、黄海、母亲这几部都在8分以上;看见恶魔、夺宝联盟、加油站袭击事件、我是杀人犯、七天、金福男杀人事件始末、亲切的金子、不可饶恕、与犯罪的战争、新世界、卑劣的街头、朋友这几部都在7-7.9分之间

问:豆瓣是中国的烂番茄网吗?

答:是的。烂番茄(Rotten Tomatoes),是美国著名的影评网站,该网站是由美国资深影迷 Senh Duong 创建于1998年、网站主要是以电影/电视剧评论外加电影相关新闻为主。

问:豆瓣电影网站,提供的影片全不全面?

答:豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务。你可以记录想看、在看和看过的电影电视剧,顺便打分、写影评。极大地方便了人们的生活。
我觉得豆瓣电影上面的影片还是很全面的,优酷,爱奇艺上面还没有的,豆瓣上面可以观看了。豆瓣电影的一级导航包括首页、我看、影讯购票、电视剧、排行榜等等,豆瓣电影的每个一级导航都是以页面呈现,能够很直观的知道每个模块都有什么内容。
我还发现豆瓣电影上面还可以买电影票,而这个就是爱奇艺和优酷两大视频网站没有的,我现在就一直在用豆瓣电影APP看电影电视剧,一般我想看的电影和电视剧在豆瓣电影上面都能找到,而且画面清晰,没有卡顿等不良现象发生,因此我还挺喜欢用豆瓣电影的。