【Python】B站视频评论和弹幕处理分析脚本

wufei123 2025-01-26 阅读:4 评论:0
免责声明: 本脚本仅供个人学习和研究使用,禁止用于任何商业或非法用途。 概述 本Python脚本旨在辅助人文学科研究,特别是网络平台话语分析。它能够全面收集和分析B站视频的弹幕和评论数据,尤其适用于对亚文化和社会议题相关的海量内容进行深入...

【python】b站视频评论和弹幕处理分析脚本

免责声明: 本脚本仅供个人学习和研究使用,禁止用于任何商业或非法用途。

概述

本Python脚本旨在辅助人文学科研究,特别是网络平台话语分析。它能够全面收集和分析B站视频的弹幕和评论数据,尤其适用于对亚文化和社会议题相关的海量内容进行深入研究、分析、补充和总结。

功能与原理

核心功能:

  1. 数据采集: 收集视频标题、作者、发布时间、播放量、收藏数、分享数、总弹幕数、评论数、视频描述、分类、视频链接和封面图链接等元数据。
  2. 弹幕分析: 提取100条弹幕,并进行情感评分、词性分析,记录时间戳和用户ID。
  3. 评论分析: 提取20条热门评论,并记录点赞数、情感分数、主题回复、会员ID、用户名和评论时间戳。

增强功能:

  1. 用户数据: (需提供Cookie) 获取弹幕发送者和评论用户的用户名、生日、注册时间、粉丝数和关注数等信息。
  2. IP定位: (需使用Selenium和浏览器驱动) 尝试获取评论用户的IP地址(此功能受限,成功率取决于B站的反爬机制)。
  3. 数据可视化: 将分析结果输出到Excel文件,包含情感分析中位数、词频统计、词云和条形图。

工作原理:

脚本通过B站开放API获取JSON数据,并使用BeautifulSoup解析XML数据。 SnowNLP、THULAC和jieba等自然语言处理库用于文本分词、停用词过滤、词性分析和词频统计。matplotlib用于生成图表。

快速入门

(适用于Windows和macOS系统)

  1. 安装依赖: 使用pip安装必要的Python库:

    pip3 install --no-cache-dir -r https://ghproxy.com/https://github.com/excalibra/scripts/blob/main/d-txt/requirements.txt
  2. 运行脚本: (需要先将脚本下载到本地)

    python3 get_bv_baseinfo.py

    脚本会提示您输入B站视频链接。

代码片段 (部分关键代码)

(完整代码请参考GitHub仓库)

# ... (其他代码省略) ...

class BilibiliAPI:
    @staticmethod
    def get_bv_json(video_url):
        # ... (获取视频基本信息JSON) ...

    @staticmethod
    def get_danmu_xml(bv_json):
        # ... (获取弹幕XML) ...

    @staticmethod
    def get_comment_json(bv_json):
        # ... (获取评论JSON) ...

# ... (其他代码省略) ...

class Tools:
    @staticmethod
    def calculate_sentiment_score(text):
        # ... (计算情感得分) ...

    @staticmethod
    def get_word_cloud(sheet_name, workbook):
        # ... (生成词云) ...

# ... (其他代码省略) ...

if __name__ == '__main__':
    # ... (主程序) ...

使用说明

  • 为了简化Cookie的输入,可以使用key=value格式,例如"a=a;",以跳过不必要的登录步骤。
  • IP定位功能需要使用Selenium和浏览器驱动程序,并登录您的Bilibili账户。由于B站的反爬虫机制,此功能的成功率无法保证。 请遵守B站的服务条款和机器人政策。

研究报告链接:

亚文化视角下的评论和弹幕研究:https://www.php.cn/link/e8da6d326d9dd901bce129d5bcdfde63 (完整报告会在后续补充“亚文化”和“社会问题”部分后公开。)

以上就是【Python】B站视频评论和弹幕处理分析脚本的详细内容,更多请关注知识资源分享宝库其它相关文章!

版权声明

本站内容来源于互联网搬运,
仅限用于小范围内传播学习,请在下载后24小时内删除,
如果有侵权内容、不妥之处,请第一时间联系我们删除。敬请谅解!
E-mail:dpw1001@163.com

分享:

扫一扫在手机阅读、分享本文

发表评论
热门文章
  • 华为 Mate 70 性能重回第一梯队 iPhone 16 最后一块遮羞布被掀

    华为 Mate 70 性能重回第一梯队 iPhone 16 最后一块遮羞布被掀
    华为 mate 70 或将首发麒麟新款处理器,并将此前有博主爆料其性能跑分将突破110万,这意味着 mate 70 性能将重新夺回第一梯队。也因此,苹果 iphone 16 唯一能有一战之力的性能,也要被 mate 70 拉近不少了。 据悉,华为 Mate 70 性能会大幅提升,并且销量相比 Mate 60 预计增长40% - 50%,且备货充足。如果 iPhone 16 发售日期与 Mate 70 重合,销量很可能被瞬间抢购。 不过,iPhone 16 还有一个阵地暂时难...
  • 酷凛 ID-COOLING 推出霜界 240/360 一体水冷散热器,239/279 元

    酷凛 ID-COOLING 推出霜界 240/360 一体水冷散热器,239/279 元
    本站 5 月 16 日消息,酷凛 id-cooling 近日推出霜界 240/360 一体式水冷散热器,采用黑色无光低调设计,分别定价 239/279 元。 本站整理霜界 240/360 散热器规格如下: 酷凛宣称这两款水冷散热器搭载“自研新 V7 水泵”,采用三相六极马达和改进的铜底方案,缩短了水流路径,相较上代水泵进一步提升解热能力。 霜界 240/360 散热器的水泵为定速 2800 RPM 设计,噪声 28db (A)。 两款一体式水冷散热器采用 27mm 厚冷排,...
  • 惠普新款战 99 笔记本 5 月 20 日开售:酷睿 Ultra / 锐龙 8040,4999 元起

    惠普新款战 99 笔记本 5 月 20 日开售:酷睿 Ultra / 锐龙 8040,4999 元起
    本站 5 月 14 日消息,继上线官网后,新款惠普战 99 商用笔记本现已上架,搭载酷睿 ultra / 锐龙 8040处理器,最高可选英伟达rtx 3000 ada 独立显卡,售价 4999 元起。 战 99 锐龙版 R7-8845HS / 16GB / 1TB:4999 元 R7-8845HS / 32GB / 1TB:5299 元 R7-8845HS / RTX 4050 / 32GB / 1TB:7299 元 R7 Pro-8845HS / RTX 2000 Ada...
  • python中def什么意思

    python中def什么意思
    python 中,def 关键字用于定义函数,这些函数是代码块,执行特定任务。函数语法为 def (参数列表)。函数可以通过其名字和圆括号调用。函数可以接受参数作为输入,并在函数体中使用参数名访问。函数可以使用 return 语句返回一个值,它将成为函数调用的结果。 Python 中 def 关键字 在 Python 中,def 关键字用于定义函数。函数是代码块,旨在执行特定任务。 语法 def 函数定义的语法如下: def (参数列表): # 函数体 示例 定义...
  • python中int函数的用法

    python中int函数的用法
    int() 函数将值转换为整数,支持多种类型(字符串、字节、浮点数),默认进制为 10。可以指定进制数范围在 2-36。int() 返回 int 类型的转换结果,丢弃小数点。例如,将字符串 "42" 转换为整数为 42,将浮点数 3.14 转换为整数为 3。 Python 中的 int() 函数 int() 函数用于将各种类型的值转换为整数。它接受任何可以解释为整数的值作为输入,包括字符串、字节、浮点数和十六进制表示。 用法 int(object, base=10) 其中...