技能标签
专业技能
精通Python爬虫开发(Scrapy/Requests),熟悉分布式爬虫架构设计;掌握Spark大数据处理框架(ETL/数据聚合);熟练使用MySQL数据库进行数据存储与优化(SQL优化/索引设计);具备数据清洗、数据可视化及报表开发能力
工作履历(脱敏处理)
专注于数据采集与分析领域,主导设计并实现豆瓣Top250电影数据采集系统,攻克反爬虫机制,采用分布式爬虫架构提升采集效率;开发新冠疫情实时监控平台,构建数据清洗管道并完成数据可视化大屏开发;基于Spark构建数据处理流水线,实现日均百万级数据的聚合分析。熟悉Linux环境部署与运维,具备从数据采集、清洗、分析到可视化展示的全流程开发能力。
项目经验(脱敏处理)
1. 豆瓣Top250电影数据分析项目:设计分布式爬虫架构,采用Scrapy框架实现反爬虫机制(代理IP池+验证码识别),使用XPath/BeautifulSoup解析网页结构,构建MySQL数据库存储电影元数据,开发数据可视化大屏展示Top250榜单及评分趋势
2. 新冠疫情实时数据监控系统:开发基于Requests的爬虫框架,实现全国疫情数据的实时采集与存储,设计数据清洗流程处理异常数据,使用Spark进行数据聚合分析,构建可视化报表展示疫情传播趋势及防控数据
3. 多源数据整合分析平台:搭建分布式爬虫集群,整合多个数据源的结构化数据,基于Spark完成ETL处理,设计数据仓库模型并实现OLAP分析,输出可视化报表支持业务决策
驻场外包优势
服从性高
严格遵守甲方管理制度
技术扎实
1年项目实战经验
可长期驻场
接受异地项目外派
快速响应
24小时内可到岗
企业人才对接
专业IT人力外包服务
如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。
合作热线
18969108718
商务邮箱
ntit@163.com
微信扫码咨询
扫描二维码添加商务对接