创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
夜夜撸我喜欢 Python爬取哆啦A梦-伴我同业2豆瓣影评并生成词云图 - 初中萝莉液液酱

栏目分类

热点资讯

你的位置:初中萝莉液液酱 > 就去色姐姐 >

夜夜撸我喜欢 Python爬取哆啦A梦-伴我同业2豆瓣影评并生成词云图

发布日期:2024-10-26 11:36    点击次数:152
一、绪论

通过这篇著作夜夜撸我喜欢,你将会收成:

① 豆瓣电影数据的爬取;

② 手把手教你学会词云图的绘图;

在这里插入图片神态

二、豆瓣爬虫模范

虽然,豆瓣上头有好多其他的数据,值得咱们爬取后作念分析。然则本文咱们只是爬取驳斥信息。

待爬取网址:

https://movie.douban.com/subject/34913671/comments?status=P

由于只消一个字段,咱们径直使用re正则抒发式,贬责该问题。

在这里插入图片神态

那些爬虫小白看过来,这又是一个你们练手的好契机。

底下径直为大家敷陈爬虫模范:

三、最终后果如下

在这里插入图片神态

四、词云图制作历程

好多同学不会制作词云图,借此契机,我这里写一套空洞的历程,大家述而不作就行。

绘图词云图的空洞模范如下:

① 导入有关库; ② 读取文本文献,使用jieba库动态修改辞书; ③ 使用jieba库中的lcut()设施进行分词; ④ 读取停用词,添加罕见停用词,并去除停用词; ⑤ 词频统计; ⑥ 绘图词云图

① 导入有关库

在这里,你需要什么库,就导入什么库。

② 读取文本文献,使用jieba库动态修改辞书

这里with open()读取文本文献,我就不明释了。这里讲明一下动态修改辞书。

铁心如下:

足交porn

在这里插入图片神态

针对上述切分铁心,淌若咱们念念把“湖北广水”和“第三条街”齐当成一个完好词,而不切分开,若何办呢?此时,就需要借助add_word()设施,动态修改辞书。

铁心如下:

在这里插入图片神态

追忆:

jieba.add_word()设施,只可一个个动态添加某个词语。 假如咱们需要动态添增加个词语的技巧,就需要使用jieba.load_userdict()设施。也即是说:将所有的自界说词语,放到一个文本中,然后使用该设施,一次性动态修改辞书集。

有了上述基础,咱们径直读取文本后,动态修改辞书。

③ 使用jieba库中的lcut()设施进行分词

短短的一滑代码,很浅薄。

④ 读取停用词,添加罕见停用词,并去除停用词

读取停用词,聘用split()函数切分后,会取得一个停用词列表。接着,聘用+号将罕见停用词,添加到列表中即可。

⑤ 词频统计

这里防备series中value_counts()的使用。

⑥ 绘图词云图

五、后果图

在这里插入图片神态

从词云图大约不错看出:这又是一部催泪电影,这是一部情愫电影,奉陪咱们长大的大雄齐受室了?那咱们呢?其实咱们小技巧,就渴望着大雄和静香大要是好盆友,就在这部电影,他们受室了。这部电影应该若何演出呢?大家不错去电影院一接头竟。

到此这篇对于Python爬取哆啦A梦-伴我同业2豆瓣影评并生成词云图的著作就先容到这了夜夜撸我喜欢,更多有关Python爬取影评并生成词云图本色请搜索剧本之家曩昔的著作或不时浏览底下的有关著作但愿大家以后多多扶植剧本之家!

您可能感兴味的著作: Python爬取你好李焕英豆瓣短评生成词云的示例代码 python爬取豆瓣驳斥制作词云代码

我的网站
创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False