Skip to content

FernandoZhuang/Emotion-recognition-of-netizens-during-the-epidemic

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

88 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Emotion-recognition-of-netizens-during-the-epidemic

Mindmap

Mindmap

Material

Paper & Tutorial

  1. Tutorials on getting started with PyTorch and TorchText for sentiment analysis.
  2. A paper list for aspect based sentiment analysis.
  3. 收集NLP领域相关的数据集、论文、开源实现,尤其是情感分析、情绪原因识别
  4. 2020 CS224N convnet for NLP
  5. 2020 CS224N convnet notes
  6. NLP Progress Sentiment Analysis
  7. The Illustrated BERT, ELMo, and co

Resolution

  1. CCF BDCI 2019 互联网新闻情感分析 复赛top1解决方案
  2. AI Challenger 2018:细粒度用户评论情感分类冠军思路总结
  3. “互联网新闻情感分析”赛题

Data Augmentation

  1. EDA 论文阅读
  2. Unsupervised Data Augmentation
  3. Data augmentation for NLP
  4. Easy Data Augmentation for NLP on Chinese

Lexical analysis

  1. HanLp
  2. Snownlp
  3. BaiduSenta
  4. 文本挖掘和预处理工具
  5. 腾讯云词法分析
  6. 科大讯飞词法分析

Pretraining

  1. Mapping a variable-length sentence to a fixed-length vector using BERT model
  2. 中文预训练BERT-wwm
  3. 中文预训练RoBERTa模型
  4. CCF-BDCI-Sentiment-Analysis-Baseline
  5. Bert base Chinese
  6. ERNIE

Hashtag

  1. Hashtag研究综述
  2. Utilizing Hashtags for Sentiment Analysis of Tweets in T hePolitical Domain

Text Classification

  1. 文本分类综述

Time Series

  1. Sentiment Analysis on Time-Series Data Using Weight Priority Method on Deep Learning
  2. [Real Time Sentiment Change Detection of Twitter Data Streams](Real Time Sentiment Change Detection of Twitter Data Streams)

Misc

  1. Using Convolutional Neural Net for Sentiment Analysis
  2. 情感分析资源大全

赛后总结

  1. datafountain-sentiment-recognition
  2. 疫情期间网民情绪识别】比赛全面复盘

数据预处理

I/O

  1. 新增三个数据类可以快速将数据读入DataFrame中, 并格式化日期
    这三个数据类为:LabeledDataset、UnlabeledDataset、Testset
    将中文标题重命名为:
    • 微博id -> ID(主键)
    • 微博发布时间 -> datetime
    • 发布人账号 -> poster
    • 微博中文内容 -> content
    • 微博图片 -> image
    • 微博视频 -> video
    • 情感倾向 -> sentiment
  2. 新增生成测试数据集的排行榜提交文件函数submit,实现了ID号后需加空格的坑人逻辑
  3. 测试集TestDataset新增fill_result函数,可以用来填充模型训练的结果
  4. 实现900K抽样并添加伪标签

数据清洗

  1. 访问数据集属性cleaned_data可以执行多进程加速的清洗步骤并获得清洗过的数据集,若cleaned_data是第二次访问,则无需执行清洗步骤,已实现的清洗步骤为:
    • 去除微博末尾的无意义的文字
    • 去除@回复中的微博名称及hashtag、【】中的内容
    • 繁体中文转简体中文

统计

  1. 属性stat_hashtags用来提取不与微博关联的所有hashtag与该hashtag出现的次数