编码问题&html实体转换

编码问题

hive中默认都是utf-8编码,但是有的数据格式不是utf-8编码,展示会出现问题,需要转换。
例:
%e8%bf%99%e4%b8%aa%e8%a3%85%e4%b8%8a%ef%bc%8c%e6%9d%af%e5%ad%90
在hive中需要转换,使用Hive调用Java类
string是需要转换编码的字符串
reflect('java.net.URLDecoder', 'decode', string, "utf-8")
常用编码:

utf-8 GBK (gbk) gb2313 GB18030 Unicode
0xA0+区号,0xA0+位号 \uXXXX

实体转换

html中的实体字符,暂时还未找到较好的转换函数
可以使用替换函数,全部替换成空格
例:
…•
使用替换函数
regexp_replace(string, '&[a-z0-9]*\;', ' ')

注意

;在hive中比较特殊,需要转义使用,否则会认为语句结束,报错。
\;,\073在一般函数中都可以使用,在正则中仅能使用\;

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • @synthesize和@dynamic分别有什么作用?@property有两个对应的词,一个是 @synthes...
    笔笔请求阅读 3,649评论 0 1
  • 猜想runloop内部是如何实现的?一般来讲,一个线程一次只能执行一个任务,执行完成后线程就会退出。如果我们需要一...
    笔笔请求阅读 3,199评论 0 0
  • 看到题目,是不是觉得我们又要错过了,其实不然,这只是我们之间友情的开始与延续。 我们很早就认识了,大概是在07年吧...
    麦筱七521阅读 1,855评论 0 1
  • 首先跪于垫子上,膝盖、腹股沟、耻骨在同一个平面上,双膝打开与肩同宽,脚背点地或脚趾回勾点地。 吸气,保持胸腔向前延...
    随笔s阅读 1,634评论 0 0
  • #世界欠你的一声晚安我来还#“清酒和冷粥是你,凉风和路灯是你,冷若冰霜是你,不谙世事是你,凛冬中,我站在午夜的街口...
    清伊Yui阅读 1,823评论 0 0

友情链接更多精彩内容