姓名:高明
生日:1995/02/19
学历:硕士研究生
地区:上海
邮箱:qywtgm950120@foxmail.com
技能:Java后端开发,Python开发,自然语言处理及数据分析
博客:https://gaoming95.github.io
时间 | 学历 | 学校 | 专业 |
---|---|---|---|
2017.09 - 2020.06 |
硕士 | 上海大学 | 计算机应用技术 |
2013.09 - 2017.06 |
本科 | 湖北大学 | 计算机科学与技术 |
2014.09 - 2017.06 |
双学位 | 武汉大学 | 经济学 |
工作经历
2020/06/02-至今
上海哔哩哔哩科技有限公司 高级开发工程师 [全职]
B站指数,建站工具,效果广告,创意中心
2019/06/12-2019/9/12
华为科技有限公司 人工智能工程师 [实习]
Xbot智能助手,领域知识图谱问答系统
项目经历
B站指数项目2021/01/10-至今
项目后端负责人,负责项目的框架搭建,产品需求迭代,以及线上问题跟进
项目背景:B站指数是对标百度指标、头条算数指数的数据平台,盘点B站内容热点、品牌及UP主排名,帮助市场了解B站,反映品牌在行业中的位置和变化趋势,2021/09/10内测,2021/10/20灰度,2021/12/20上线
网站地址:https://trends.bilibili.com 未公测,且外网只披露部分功能
项目内容:
项目技术:
项目特点:
项目成果:
高能建站项目2020/06/02-至今
项目后端负责人,负责产品需求迭代,以及线上问题跟进
项目背景:商业广告自建站能力,支持代理与广告主制作落地页用户广告投放,提升B站广告点击率和转化率
网站地址:http://cm.bilibili.com/art/bricks/#/site 需广告主登录
项目内容:
项目技术:
项目难点:
项目成果:
效果广告项目2021/04/01-至今
项目后端参与者,负责产品的部分需求迭代,以及部分线上问题跟进
项目背景:商业效果广告项目,商业广告投放入口
网站地址:https://cm.bilibili.com/ad/#/home 需要广告主或代理登录
项目内容:
项目技术:
三连创意项目2020/06/02-至今
项目后端负责人,负责产品需求迭代,以及线上问题跟进
项目背景:围绕创意点击率的提升,支持代理与广告主更高效地制作创意素材,并传达B站广告创意制作的方法论与高质案例。2021/10/27内测,2020/11/4灰度,2020/11/23上线
网站地址:https://sanlian.bilibili.com 部分功能需要广告主登录
项目内容:
项目技术:
项目成果:
Xbot智能助手项目2019/06/12-2020/09/12
项目参与者,负责智能助手的框架设计、实体识别和槽位识别模型的训练和部署,以及相关测试
该项目为部门线上项目,运营商在使用公司产品时,由于功能的复杂性,希望能够减少用户的使用难度。在产品右侧提供智能助手服务,智能助手支持帮助用户执行相关操作。
根据用户提问的语义信息自动下发任务,设计并实现了基于深度学习的意图识别模型和槽位识别模型。
意图识别模型识别用户问题意图,基于文本分类任务,将问题识别为系统定义的某一项业务
槽位识别模型识别用户问题关键实体,基于命名实体识别,将完成任务所需的实体识别出来,其中还包括实体链接等
意图准确率94%,槽位识别F1值为87%
领域知识图谱问答系统2019/06/12-2020/09/12
项目参与者,负责部分实体、关系、属性的定义和AI答案抽取模型的设计
该项目为部门预研项目,解决部门文档数量多但检索效率差问题。该项目分为知识图谱和AI答案抽取两部分进行。
方案一知识图谱部分,通过人工或半人工方式定义实体、关系、属性等,抽取文档中的图谱三要素存入图数据库,利用图数据库的图检索能力,可以对图谱的三要素作简单查询。
方案二AI答案抽取部分,通过关键词或关键实体对文档构建倒排索引,对用户提问抽取关键字或者关键实体,找到对应文档,基于机器阅读理解的答案抽取模型,在候选段落中返回答案。
精准医疗-中国十万人基因组计划项目2018/01/01-2020/04/06
项目参与者,负责中文电子病历的命名实体研究,模型的搭建,论文撰写
该项目由哈尔滨工业大学牵头,课题组参与中文病历命名实体识别方法研究,为了加快Bi-LSTM网络提取病历文本特征,改进了基于ID-CNN模型进行病历实体提取,提出了一种Attention-based ID-CNNs-CRF模型用于命名实体识别,该模型融合单词嵌入、字符嵌入、词性嵌入和位置嵌入的词向量作为模型输入。其次,堆叠4个膨胀卷积块提取全局语义信息,之后,结合注意力机制增强对局部语义信息的感知,最后利用CRF获取最优的标签序列,模型效果和预测速度均优于现有的Bi-LSTM-CRF模型,研究成果An attention-based ID-CNNs-CRF model for named entity recognition on clinical electronic medical records,发表于ICANN2019(CCF C类会议),第一作者
互联网公开信息采集课题研究2021/07/01-2021/11/01
项目负责人,负责项目的整体方案设计,进度控制,代码编写,测试,交付等
与上海资信有限公司合作,共同开发一款数据采集系统用于支持企业贷款安全风控信息分析,主要采集国家企业信息信息公示系统,国家专利系统、被执行人等系统中企业、专利、被执行人信息。该系统分为数据采集系统和管理系统两部分。
管理系统:基于Spring+SpringMVC+Hibernate,实现用户数据采集任务的创建,定时启动,异常采集过程收集,异常重试,任务实时进度展示,任务完成微信(itchat)和邮件通知,采集数据展示,数据下载等功能
采集系统:基于Scrpy,Selenium、Requests、Chrome Webdriver,Appium,MySql等技术,采集网站数据。实现分布式任务处理功能,由单台服务器负责响应用户任务,向其他数据采集服务器下发任务。该系统破解了极验滑动验证码,极验3.0文字点击验证码,以及一般的防爬虫技术,并实现了基于CNN的字母数字验证码识别。
职业技能
荣誉证书
所获成果