Go语言对获取的html进行转码

一.首先我们需要下载两个包:"golang.org/x/text" ”golang.org/x/net/html",前者用来对HTML进行转码,而后者则是猜测出当前获取的HTML是哪一种编码,辅助前者完成转码。

本次Demo使用到的包:

import (
    "fmt"
    "net/http"
    "io/ioutil"
    "golang.org/x/text/transform"
    "io"
    "golang.org/x/text/encoding"
    "bufio"
    "golang.org/x/net/html/charset"
)

二.main函数:

func main(){
    resp,err := http.Get("http://www.zhenai.com/zhenghun") //获取页面返回的response
    if err != nil{
        panic(err)
    }
    defer resp.Body.Close() //记得每次都要关闭response的body哦
    if resp.StatusCode != http.StatusOK{
        fmt.Printf("Wrong status code :%d",resp.StatusCode)
        return
    }
    utf8Reader := transform.NewReader(resp.Body,Determineencoding(resp.Body).NewDecoder()) 
    //将其他编码的reader转换为常用的utf8reader
    all,err := ioutil.ReadAll(utf8Reader)
    if err != nil{
        panic(err)
    }
    fmt.Printf("%s",all)
}

三.Determineencoding函数:用来猜测HTML代码的编码格式,如gbk、utf8。

func Determineencoding(r io.Reader) encoding.Encoding  {
    bytes,err  := bufio.NewReader(r).Peek(1024)
    if err !=nil {
        panic(err)
    }
    e,_,_ := charset.DetermineEncoding(bytes,"")
    return e
}

详情见Determineencoding函数的介绍,它是根据reader的前1024个字节来猜测编码格式的。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容