使用shell实现多进程ASR解码

对于较大的测试集，或者不支持batch解码的解码算法，我们可以使用将数据集分割成多个子集，使用shell的多进程并行化处理。

# 1. 将数据集按照行数进行分割
mkdir -p fbank/tmp # 分割后的数据都在这
split -l 10009 fbank/train_sp/format.data -d -a 2 fbank/tmp/format.data_ 
# 对format.data这个文件按照10009行为一个子集进行分割

# 2. 将这些文件分别放在fbank/train/{00,01,02,....}下面
for x in `ls fbank/tmp`; do 
{
suffix=`echo $x|awk -F'_' '{print $NF}'` # 编号
mkdir -p fbank/train/$suffix
name=`echo $x|awk -F'_' '{print $1}'` # 文件名
cp fbank/tmp/$x fbank/train/$suffix/$name
cp fbank/train_sp/utt2dur fbank/train/$suffix/
cp fbank/train_sp/global_cmvn fbank/train/$suffix
cp fbank/train_sp/text fbank/train/$suffix
}done

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Python 多进程并行编程实践: multiprocessing 模块
前言并行计算是使用并行计算机来减少单个计算问题所需要的时间，我们可以通过利用编程语言显式的说明计算中的不同部分如...
派派森森阅读 5,147评论 0赞 0
Python多进程并行编程实践
作者：邵正将PytLab，Python 中文社区专栏作者。主要从事科学计算与高性能计算领域的应用，主要语言为Pyt...
Python中文社区阅读 10,245评论 1赞 31

使用python单机多进程并行处理数据
背景最近需要在单机上处理一个数据量较大的文件，由于内存限制，只能分批次读取数据并处理。与此同时，数据处理的耗时较...
iamxyz阅读 9,562评论 0赞 0
张艺谋要在电影院开“画展”，预告片孙俪都是戏，关晓彤可期待！
今天青石的票圈出镜率最高的，莫过于张艺谋的新片终于定档了。一张满溢着水墨风的海报一次次的出现在票圈里，也就是老谋...
青石电影阅读 13,545评论 1赞 2
2018-07-18
董多娇第226天坚持分享，焦点相信，每个人在每一刻都会为自己做出一个决定与选择，是他们当时认为最合适自己的，所以任...
良知良能良知良能阅读 9,208评论 1赞 2

赞1赞

赞赏

手机看全文