modelscope 训练

模型文件路径

 ls /home/wenyn/.cache/modelscope/hub/damo/nlp_structbert_zero-shot-classification_chinese-base

训练踩坑

config里面说是zero-shot-classification

** build_dataset error log: __call__() missing 2 required positional arguments: 'hypothesis_template' and 'candidate_labels'
** build_dataset error log: __call__() missing 2 required positional arguments: 'hypothesis_template' and 'candidate_labels'

可能需要z-s-c 自动

trainer.train() 之后 dataset会变

它的config 说的dataset 还是跟Nli的，试着把任务改成nli
找到z-s-c 的dataset地方

transformers/examples/research_projects/zero-shot-distillation/README.md at main · huggingface/transformers · GitHub

在configuration
任务改成Nli，好像没有Map到key
怎样到features

image.png

训练成功后
发现反而很多Bias, 家居全是0?
原：

labels = ['家居', '旅游', '科技', '军事', '游戏', '故事']
sentence = '世界那么大，我想去看看'
print(classifier(sentence, candidate_labels=labels))
sentence = '苟利国家生死以，岂因祸福避趋之'
print(classifier(sentence, candidate_labels=labels))

{'labels': ['旅游', '故事', '游戏', '家居', '科技', '军事'], 'scores': [0.511588454246521, 0.16600897908210754, 0.11971477419137955, 0.08431538194417953, 0.06298772990703583, 0.05538470670580864]}
{'labels': ['游戏', '故事', '家居', '旅游', '军事', '科技'], 'scores': [0.24303244054317474, 0.20803643763065338, 0.17602896690368652, 0.17113320529460907, 0.11692868918180466, 0.08484029024839401]}

现：

2024-03-26 10:33:27,904 - modelscope - INFO - The key of sentence1: premise, The key of sentence2: hypothesis, The key of label: label
2024-03-26 10:33:27,913 - modelscope - INFO - The key of sentence1: premise, The key of sentence2: hypothesis, The key of label: label
Keyword arguments {'candidate_labels': ['家居', '旅游', '科技', '军事', '游戏', '故事'], 'hypothesis_template': '{}'} not recognized.
/usr/local/lib/python3.10/dist-packages/transformers/modeling_utils.py:962: FutureWarning: The `device` argument is deprecated and will be removed in v5 of Transformers.
  warnings.warn(
{'labels': ['家居'], 'scores': [1.0]}
Keyword arguments {'candidate_labels': ['家居', '旅游', '科技', '军事', '游戏', '故事'], 'hypothesis_template': '{}'} not recognized.
{'labels': ['家居'], 'scores': [1.0]}

全是0

{
  "framework": "pytorch",
  "task": "nli", #好像必须nli? 来推理做训练？
  "preprocessor": {
    "type": "sen-sim-tokenizer",  #用的nli
    "first_sequence": "premise",
    "second_sequence": "hypothesis",
    "label": "label",
    "label2id": {
      "0": 0,
      "1": 1,
      "2": 2
    }
  },
  "model": {
    "type": "structbert"
  },
  "pipeline": {
    "type": "zero-shot-classification" #看看行不行
  },
  "dataset": {
    "train": {
      "first_sequence": "premise",
      "second_sequence": "hypothesis",
      "label": "label"
    }
  },
  "train": {
    "work_dir": "/tmp",
    "max_epochs": 5,
    "dataset": {
      "train": {
        "labels": [
          "0",
          "1",
          "2"
        ],
        "first_sequence": "premise",
        "second_sequence": "hypothesis",
        "label": "label"
      }
    },
    "dataloader": {
      "batch_size_per_gpu": 32,
      "workers_per_gpu": 1
    },
    "optimizer": {
      "type": "AdamW",
      "lr": 2e-5,
      "options": {}
    },
    "lr_scheduler": {
      "type": "LinearLR",
      "start_factor": 1.0,
      "end_factor": 0.0,
      "total_iters": 10,
      "options": {
        "by_epoch": false
      }
    },
    "hooks": [
      {
        "type": "CheckpointHook",
        "interval": 1
      },
      {
        "type": "TextLoggerHook",
        "interval": 1
      },
      {
        "type": "IterTimerHook"
      },
      {
        "type": "EvaluationHook",
        "by_epoch": false,
        "interval": 100
      }
    ]
  },
  "evaluation": {
    "dataloader": {
      "batch_size_per_gpu": 16,
      "workers_per_gpu": 1,
      "shuffle": false
    },
    "metrics": [
      "Metrics.seq_cls_metric"  #要加
    ]
  }
}

除此之外，如果只是希望下载模型到本地，我们还提供了更加底层的API接口snapshot_download() 。通过这个接口可以直接下载模型，并且可指定下载模型的地址。

from modelscope.hub.snapshot_download import snapshot_download

model_dir = snapshot_download('damo/nlp_structbert_word-segmentation_chinese-base', cache_dir='path/to/local/dir')

不知道下到哪里去了，找到之后要删掉

远端不同步Bug，找不到路径？循环找路径？

好像发生过，pycharm remote 有文件，本地和docker里面的command line也没有
（docker command 要重启？）

KeyError: 'Metrics.seq_cls_metric is not in the metrics registry group default. Please make sure the correct version of ModelScope library is used.'

try:
取消Metrics

MMRotate写自己的模型运行时出现“xxxxx is not in the model registry” - 知乎 (zhihu.com)

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,635评论 6赞 515
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,543评论 3赞 399
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 168,083评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,640评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,640评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,262评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,833评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,736评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,280评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,369评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,503评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,185评论 5赞 350
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,870评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,340评论 0赞 24
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,460评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,909评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,512评论 2赞 359

modelscope 训练

模型文件路径

训练踩坑

远端不同步Bug， 找不到路径？循环找路径？

推荐阅读更多精彩内容

远端不同步Bug，找不到路径？循环找路径？