[更新中]huggingface使用+文本分类分类demo
2022-03-24 09:31:40

参考资料

  1. HuggingFace简明教程 - 哔哩哔哩_bilibili
  2. lansinuote/Huggingface_Toturials: bert-base-chinese example (github.com)

准备工作

修改dns

由于网络环境问题,有时无法直接访问huggingface服务器,此时需要修改本机的dns。方法如下:

1、临时修改网卡DNS地址

1
sudo vim /etc/resolv.conf

改为如下内容:

1
2
nameserver 8.8.8.8 #修改成你的主DNS
nameserver 8.8.4.4 #修改成你的备用DNS

修改后:wq退出,配置会实时生效,但是重启系统后会丢失配置。

2、永久修改网卡DNS

1
2
3
sudo –i
cd /etc/resolvconf/resolv.conf.d
vim base

添加如下内容

1
2
nameserver 8.8.8.8
nameserver 8.8.4.4

:wq 保存退出,这样重启后设置就不会丢失了。

Huggingface 简介及安装

​ Hugging face 是一家总部位于纽约的聊天机器人初创服务商,开发的应用在青少年中颇受欢迎,相比于其他公司,Hugging Face更加注重产品带来的情感以及环境因素。官网链接在此 https://huggingface.co/

​ 但更令它广为人知的是Hugging Face专注于NLP技术,拥有大型的开源社区。尤其是在github上开源的自然语言处理,预训练模型库 Transformers,已被下载超过一百万次,github上超过24000个star。Transformers 提供了NLP领域大量state-of-art的 预训练语言模型结构的模型和调用框架。

安装:

1
2
3
4
5
6
#安装transformers
#pip安装
pip install transformers

#或者conda安装
conda install -c huggingface transformers

Huggingface 的使用

请参考huggingface官方文档以及上述参考教程

文本分类任务domo

任务描述:

​ 仅使用THUCNews中文文本数据集中文档的标题进行文本分类。

​ 数据集格式如下:

1
2
3
4
5
6
7
8
9
10
11
12
Train(Test)\
类别1\
1.txt
2.txt
3.txt
...
n.txt
类别2\
...
...
类别n\
...