Java(熟练掌握后端的基础组件,如监控系统,部署系统,数据库,消息队列,RPC,负载均衡等)
熟悉常用的算法和数据结构、(操作系统、编译原理有基本的了解),清楚代码时间与空间复杂度
NLP自然语言处理(分词,词性标注、实体识别、意图识别、情感分析、语法分析、语义分析、情感分析、摘要、自然语言生成等对话系统中的相关工作)
熟悉常用的自然语言处理方法,包括但不限于HMM、CRF、word2vec;机器翻译、计算机视觉、语音识别
Python
文本挖掘技术(实现文本聚类分类,知识提取、知识图谱构建、实体消歧、语义搜索等研发工作)
熟悉主流的no sql数据库,如mongoDB、HBase、redis;
了解常见的消息系统,例如mq、kafaka
神经网络等核心算法
常用机器学习算法和工具
基于数据驱动的人工智能算法
量化平台后端引擎算法研究与系统开发工作
TCP/IP、HTTP等各种常用通讯协议
实际的CAAS或PAAS的开发,以及使用经验
负责制定网络数据抓取规则,数据的提取、清洗、入库以及汇总的开发工作;
负责传统网页、电商网站、社会化媒体网站等互联网数据的高效采集与正确解析;
网络爬虫,query分析,文本分类,topic聚类等
负责搜索爬虫的核心技术研究与开发,搜索前沿爬虫技术并实践;网页采集、Hbase等相关开发经验者优先,从结构化的和非结构化的数据中获取信息
大规模分布式互联网爬虫系统的开发和维护,提升网页抓取效率和质量。
熟悉Hadoop/Lucene/Nutch/Solr等开源工具者优先;熟悉hadoop、spark、storm等大数据分析平台
搭建自己的GIT-HUB