可能是需要加机器,或者选择升级机型
当然,以上在正常情况下不是最好的解决办法。当初的我通过加大机型直接绕开了问题…worker失联很有可能是因为分布式运行的操作太过复杂了(或者worker分到的数据太多),导致进程计算了很久没有结果,就timeout了。
这个时候加大机型可能可以通过增加进程数量来降低计算的复杂度,所以可以
但是当数据量过大,夺大的机型都拯救不了,重点还是要提高并行度,参考血泪教训之:
https://www.jianshu.com/p/5559ee1fbaa7
可能是需要加机器,或者选择升级机型
当然,以上在正常情况下不是最好的解决办法。当初的我通过加大机型直接绕开了问题…worker失联很有可能是因为分布式运行的操作太过复杂了(或者worker分到的数据太多),导致进程计算了很久没有结果,就timeout了。
这个时候加大机型可能可以通过增加进程数量来降低计算的复杂度,所以可以
但是当数据量过大,夺大的机型都拯救不了,重点还是要提高并行度,参考血泪教训之:
https://www.jianshu.com/p/5559ee1fbaa7