解决方案

# 逐步根据报错信息安装gcc和其他组件
# fatal error: stdio.h: No such file or directory
apt-get install gcc

# fatal error: bits/libc-header-start.h: No such file or directory
apt-get install gcc-multilib


# 在代码运行之前均要设置环境变量
# 根据conda环境名设置环境变量(lmflow为conda环境名)
export CUDA_HOME=/opt/conda/envs/lmflow
export LD_LIBRARY_PATH=/opt/conda/envs/lmflow/lib
# 不知道为啥系统找不到crti.o,需要设置这个环境变量
export LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LIBRARY_PATH

排错记录

# 安装其他依赖项
pip install -r requirements.txt

# 安装lmflow
pip install .

# 排查依赖问题,需要使用fsspec<2023.10.0
pip install fsspec==2023.9.2

# 安装cudatoolkit-dev
conda install -c conda-forge cudatoolkit-dev

# 确定torch的cuda没问题,确认cuda是11.7
python -c "import torch;print(torch.__version__)"
python -c "import torch;print(torch.cuda.is_available())"

# 逐步根据报错信息安装gcc和其他组件
# fatal error: stdio.h: No such file or directory
apt-get install gcc

# fatal error: bits/libc-header-start.h: No such file or directory
apt-get install gcc-multilib

# /usr/bin/ld: cannot find crti.o: No such file or directory
find /usr/ -name crti*
# 其实是有结果的
# /usr/libx32/crti.o
# /usr/lib32/crti.o
# /usr/lib/x86_64-linux-gnu/crti.o
# 系统没找到对应的文件,只好做个环境变量
export LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LIBRARY_PATH


# 设置环境变量
# 【注意】这个包的CUDA_HOME设置不能加bin,否则他会到.\bin\bin\nvcc里面找,就会找不到
export CUDA_HOME=/opt/conda/envs/lmflow
export LD_LIBRARY_PATH=/opt/conda/envs/lmflow/lib
# 【注意】安装完成之后不知道为啥系统找不到crti.o,需要设置这个环境变量
export LIBRARY_PATH=/usr/lib/x86_64-linux-gnu:$LIBRARY_PATH
# 设置代理防止超时
export http_proxy="http://192.168.207.251:8888"
export https_proxy="http://192.168.207.251:8888"
# 关闭wandb
wandb off

# 备注:代码运行命令
./scripts/run_finetune_with_lora.sh --model_name_or_path THUDM/chatglm3-6b-base --dataset_path ./train_data --eval_dataset_path ./eval --output_lora_path output_models/chatglm3_base_optimal
作者:admin  创建时间:2024-03-10 18:17
最后编辑:admin  更新时间:2025-01-09 17:07