星辰彩虹海🌈 - minimind-数据集处理过程(感谢作者开源) 的评论 https://www.lbxpace.com/index.php/archives/87/ zh-CN 预训练数据集处理过程class PretrainDataset(Dataset): def __init__(self, data_path, tokenizer, max_length=... Thu, 01 Jan 1970 08:00:00 +0800 Thu, 01 Jan 1970 08:00:00 +0800