微博超级话题爬虫,微博词频统计+情感分析+简单分类,新增肺炎超话爬取数据
微博超级话题爬虫,微博词频统计+情感分析+简单分类,新增肺炎超话爬取数据
使用python对微博文本分析和可视化,LDA(树图)、关系图、词云、时间趋势(折线图)、热度地图、词典情感分析(饼图和3D柱状图)、词向量神经网络情感分析、tfidf聚类、词向量聚类、关键词提取、文本相似度分析等
基于在线民宿UGC数据的意见挖掘项目,包含数据挖掘和NLP相关的处理,负责数据采集、主题抽取、情感分析等任务。开发的目的是克服用户打分和评论不一致,实时对重庆地区在线民宿的满意度进行评测,使用Python实现了在线评论采集和情感可视化分析。搭建了百度地图POI查询入口,可以进行自动化的批量查询POI信息的功能;构建了基于在线民宿语料的Word2vec主题聚类模型,利用主题中心词能找出对应的主题属性字典;以用户打分作为标注,然后通过实验贝叶斯、SVM、决策树等多种分类模型,最后选用贝叶斯模型进行情感分析,将情感分类概率分布作为情感趋势,最后通过POI热力图的方式对不同地域的民宿满意度进行展示。软件版本请见链接。
一行代码使用BERT生成句向量,BERT做文本分类、文本相似度计算
最强微博爬虫,用户、话题、评论一网打尽。
Contributions last year: 0
Max continuous contributions: 0
Recent contributions: 0
Commits, issues, and pull requests will appear on your contribution graph. Only when the email address used for the commits in local configuration is associated with your GitOSC account, the commits' contribution will be counted.