1 图片说明
两张图片格式不同,1为jpg,2为png。
2.jpg是我强制重命名得到的,其原版为2.png
2 两种读取方式+显示
-
Opencv读取:
图片类型为numpy的数组,BGR三通道(png或jpg格式都是三通道。后期需要转成RGB),数据类型为uint8(后期用np.array转一下成float32),范围是0-255,HWC排列。 -
PIL读取:以PIL.Image.open(img_path).convert('RGB)为例(原因详见第4小结)
图片类型为PIL图片,图片尺寸为WH(后面numpy一转就变了),在用np.array转一下之后,图片类型编程numpy数组,RGB三通道(故不需要转),数据类型为uint8(在前面np.array转成float32的话,此地就是float32),范围是0-255,变成HWC排列。
from PIL import Image
import cv2
import matplotlib.pyplot as plt # 显示PIL.Image读取的图片
image1 = cv2.imread('images\\2.png')
print('type(image1):', type(image1)) # type(image1): <class 'numpy.ndarray'>
print(image1.shape) # (109, 992, 3)
print(image1.dtype) # uint8
cv2.imshow('image1', image1)
cv2.waitKey(0)
img00 = Image.open('images\\1.jpg').convert('RGB')
print(img00) # <PIL.Image.Image image mode=RGB size=254x469 at 0x1EEE84533C8>
print(img00.size) # (254, 469) 少了通道数,只有尺寸,顺序是W,H
print(type(img00)) # <class 'PIL.Image.Image'>
print(np.array(img00, dtype=np.float32).shape) # (469, 254, 3) # 只要用numpy一操作,立刻变成HWC
plt.figure("img0")
plt.imshow(img0)
plt.show()
3 numpy中transpose的使用
- 针对opencv示例
有两种方式,详见代码
import cv2
import numpy as np
image1 = cv2.imread('images\\2.png') # BGR HWC: (109, 992, 3)
# 从BGR到RGB:imgRGB = imgBGR[:,:,::-1]
image2 = image1[:,:,::-1].transpose(2, 0, 1) # HWC2CHW: (3, 109, 992)
image3 = np.transpose(image1[:,:,::-1], (2, 0, 1))
print(image2.shape) # (3, 109, 992)
print(image2.dtype) # uint8
print(image3.shape) # (3, 109, 992)
print(image3.dtype) # uint8
- 针对PIL.Image示例
from PIL import Image
import numpy as np
img00 = Image.open('images\\1.jpg').convert('RGB')
img11 = np.transpose(np.array(img00, dtype=np.float32)) # CWH
img22 = np.transpose(np.array(img00, dtype=np.float32), (2, 0, 1)) # CWH2CHW
print(img11.shape) # (3, 254, 469)
print(img22.shape) # (3, 469, 254)
4 数据类型转换+归一化
从uint转到float
import cv2
import numpy as np
image1 = cv2.imread('images\\2.png') # BGR HWC: (109, 992, 3)
image2 = image1 / 255.0 # 0 - 255 to 0.0 - 1.0
print(image2.dtype) # float64 如果想让它变成float32类型呢?
# 方式1
image3 = np.array(image1/255, dtype=np.float32) # dtype可控制转换后数据类型
print(image3.dtype) # float32
# 方式2,本质上和1相同
# ascontiguousarray函数将一个内存不连续存储的数组转换为内存连续存储的数组,使得运行速度更快。
image2 = np.ascontiguousarray(image1, dtype=np.float32) # uint8 to fp32
image2 /= 255.0 # 0 - 255 to 0.0 - 1.0
print(image2.dtype) # float32
5 PIL.Image读取png和jpg有什么区别
Image.open(x).convert('RGB')
使用Image.open读出图像即可,为什么还需要使用convert('RGB')转换成RGB,难道Image.open()读出的彩色图像不是RGB吗?
看代码中的image mode
img0 = Image.open('images\\1.jpg')
print(img0) # <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=254x469 at 0x201FDFDBBA8>
img00 = Image.open('images\\1.jpg').convert('RGB')
print(img00) # <PIL.Image.Image image mode=RGB size=254x469 at 0x201FD60EBA8>
# 2.jpg是我强制重命名得到的,其原版图为2.png
img1 = Image.open('images\\2.jpg') # <PIL.PngImagePlugin.PngImageFile image mode=RGBA size=992x109 at 0x201FE0745F8>
print(img1)
img2 = Image.open('images\\2.png')
print(img2) # <PIL.PngImagePlugin.PngImageFile image mode=RGBA size=992x109 at 0x201FE074AC8>
img3 = Image.open('images\\2.png').convert('RGB')
print(img3) # <PIL.Image.Image image mode=RGB size=992x109 at 0x201FD60EC18>
可以看到,对于png图像,如果不使用.convert('RGB')进行转换的话,读出来的图像是RGBA四通道的,A通道为透明通道,对深度学习模型训练来说暂时用不到。虽然jpg没有这个问题,为了统一,因此使用convert('RGB')进行通道转换。