GitHub - piglaker/SpecialEdition: A NLP Project for Chinese Spell Checking Task Released on ACL2023.

Chinese Spell Check

训练纠错模型的代码对于ACL 2023 (Findings): Investigating Glyph Phonetic Information for Chinese Spell Checking: What Works and What's Next

论文中分析及Probe 指标见另一github仓库ConfusionCluster

1.Install all the requirements.

use ./scripts/sighan/generate.py to generate data in ./data/rawdata/sighan

2.bash run.sh

Start-up

python >= 3.7 创建conda环境
conda create -n ctcSE python=3.7

then 安装必要包
conda activate ctcSE
pip3 install -r requirements.txt

install nvcc 安装nvcc 略

apex 安装apex用于分布式训练
bash install_apex
or

git clone https://github.com/NVIDIA/apex  
cd apex  
pip install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" .

install pytorch for your CUDA & GPU 安装gpu version的torch
example:
conda install pytorch==1.10.1 torchvision==0.11.2 torchaudio==0.10.1 -c pytorch
or
pip install torch==1.10.1+cu111 torchvision==0.11.2+cu111 torchaudio==0.10.1 -f https://download.pytorch.org/whl/torch_stable.html

maybe forget 安装datasets库 pip install datasets==1.2.0

test env 测试环境是否正确 sh test.sh"

Data

原始训练数据来自Training Dataset 处理后：分为raw和holy，

下载并解压后分别放在如下路径：原始版本:./data/rawdata/sighan/raw
去重版本:./data/rawdata/sighan/holy

Note:

dir:

./data
./models
./logs
./models
./scripts
./utils

core:

metric
load_model
load_dataset
args_process

main:
out/err redirect

lib:
hack transformers' trainer

Name		Name	Last commit message	Last commit date
Latest commit History 73 Commits
blitz		blitz
data		data
models		models
old_main_py_back		old_main_py_back
old_train_sh_back		old_train_sh_back
routa		routa
scripts		scripts
utils		utils
Dont_forget.md		Dont_forget.md
LICENSE		LICENSE
README.md		README.md
core.py		core.py
danger_wash_ckpt.sh		danger_wash_ckpt.sh
install_apex.sh		install_apex.sh
lib.py		lib.py
main.py		main.py
para_search.sh		para_search.sh
predict.py		predict.py
predict.sh		predict.sh
run.sh		run.sh
run_ctc.sh		run_ctc.sh
story.md		story.md
test.sh		test.sh
viewCSC.html		viewCSC.html

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Chinese Spell Check

Start-up

Data

Note:

About

Releases

Packages

Languages

License

piglaker/SpecialEdition

Folders and files

Latest commit

History

Repository files navigation

Chinese Spell Check

Start-up

Data

Note:

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages