- Tutorials on getting started with PyTorch and TorchText for sentiment analysis.
- A paper list for aspect based sentiment analysis.
- 收集NLP领域相关的数据集、论文、开源实现,尤其是情感分析、情绪原因识别
- 2020 CS224N convnet for NLP
- 2020 CS224N convnet notes
- NLP Progress Sentiment Analysis
- The Illustrated BERT, ELMo, and co
- EDA 论文阅读
- Unsupervised Data Augmentation
- Data augmentation for NLP
- Easy Data Augmentation for NLP on Chinese
- Mapping a variable-length sentence to a fixed-length vector using BERT model
- 中文预训练BERT-wwm
- 中文预训练RoBERTa模型
- CCF-BDCI-Sentiment-Analysis-Baseline
- Bert base Chinese
- ERNIE
- Sentiment Analysis on Time-Series Data Using Weight Priority Method on Deep Learning
- [Real Time Sentiment Change Detection of Twitter Data Streams](Real Time Sentiment Change Detection of Twitter Data Streams)
- 新增三个数据类可以快速将数据读入DataFrame中, 并格式化日期
这三个数据类为:LabeledDataset、UnlabeledDataset、Testset
将中文标题重命名为:- 微博id -> ID(主键)
- 微博发布时间 -> datetime
- 发布人账号 -> poster
- 微博中文内容 -> content
- 微博图片 -> image
- 微博视频 -> video
- 情感倾向 -> sentiment
- 新增生成测试数据集的排行榜提交文件函数submit,实现了ID号后需加空格的坑人逻辑
- 测试集TestDataset新增fill_result函数,可以用来填充模型训练的结果
- 实现900K抽样并添加伪标签
- 访问数据集属性cleaned_data可以执行多进程加速的清洗步骤并获得清洗过的数据集,若cleaned_data是第二次访问,则无需执行清洗步骤,已实现的清洗步骤为:
- 去除微博末尾的无意义的文字
- 去除@回复中的微博名称及hashtag、【】中的内容
- 繁体中文转简体中文
- 属性stat_hashtags用来提取不与微博关联的所有hashtag与该hashtag出现的次数