IT人力外包人才简历库

返回列表

Python数据采集工程师

驻场外包人员
工作年限:1年 意向城市:杭州 浏览:4次 发布时间:近期

技能标签

Python 网络爬虫 数据清洗 Pandas R语言 数据可视化 MySQL 动态网页解析 反爬策略 ETL流程 数据结构化 异常值处理 数据存储 HTTP协议 数据合规

专业技能

精通Python网络爬虫开发,熟练掌握requests/BeautifulSoup/Scrapy等爬虫框架,具备动态网页解析能力。擅长数据清洗与结构化处理,熟练使用Pandas进行数据去重、异常值处理及特征工程。掌握R语言数据可视化技术,能使用ggplot2/Plotly生成交互式图表。熟悉MySQL数据库操作,具备数据存储与ETL流程设计能力。熟悉HTTP协议及反爬策略应对方案,具备数据合规意识。

工作履历(脱敏处理)

主要负责企业数据采集系统的开发与维护,使用Scrapy框架构建分布式爬虫架构,日均处理数据量超50万条。主导数据清洗流程设计,通过Pandas实现数据去重、缺失值填充及特征工程,提升数据质量30%。开发数据可视化模块,使用R语言生成交互式图表,支持业务部门进行数据洞察。设计MySQL数据库存储方案,优化数据表结构,提升查询效率40%。针对动态网页开发Selenium解析方案,成功应对反爬机制,保障数据采集稳定性。

项目经验(脱敏处理)

1. 教育招生数据采集系统:使用Scrapy-Redis构建分布式爬虫,通过Selenium处理研招网动态加载内容,日均采集院校信息2000+条。设计MySQL存储方案,实现招生数据按年份/专业维度存储,支持多维查询分析。

2. 疫情大数据监测平台:开发基于requests的定时爬虫,采集全国疫情实时数据,使用ECharts实现数据可视化,支持疫情趋势预测分析,日均处理数据量10万+。

3. 交通票务数据采集:构建多线程爬虫架构,采集火车票余票信息,通过正则表达式提取票价数据,使用Pandas进行数据清洗,输出标准化票务报告。

4. 商品价格监测系统:开发菜市场商品价格采集模块,使用BeautifulSoup解析HTML结构,结合R语言生成价格趋势热力图,支持价格波动预警分析。

5. 电商评论分析平台:设计网页评论采集方案,通过Playwright处理JavaScript渲染内容,使用Snowflake算法进行评论去重,输出可视化分析报告支持产品优化决策。

驻场外包优势

服从性高

严格遵守甲方管理制度

技术扎实

1年项目实战经验

可长期驻场

接受异地项目外派

快速响应

24小时内可到岗

企业人才对接

专业IT人力外包服务

如果贵公司有IT项目人手缺口、需要工程师驻场开发、短期人力支援需求,欢迎联系洽谈合作。

合作热线

18969108718

商务邮箱

ntit@163.com

微信扫码咨询

微信咨询二维码

扫描二维码添加商务对接

立即申请人才对接