About

个人简介

姓名:高明
生日:1995/02/19
学历:硕士研究生
地区:上海
邮箱:qywtgm950120@foxmail.com
技能:Java后端开发,Python开发,自然语言处理及数据分析
博客:https://gaoming95.github.io

  • 教育经历
时间 学历 学校 专业
2017.09 - 2020.06 硕士 上海大学 计算机应用技术
2013.09 - 2017.06 本科 湖北大学 计算机科学与技术
2014.09 - 2017.06 双学位 武汉大学 经济学
  • 工作经历

    • 2020/06/02-至今 上海哔哩哔哩科技有限公司 高级开发工程师 [全职]

      B站指数,建站工具,效果广告,创意中心

    • 2019/06/12-2019/9/12 华为科技有限公司 人工智能工程师 [实习]

      Xbot智能助手,领域知识图谱问答系统

  • 项目经历

    • B站指数项目2021/01/10-至今

      项目后端负责人,负责项目的框架搭建,产品需求迭代,以及线上问题跟进

      项目背景:B站指数是对标百度指标、头条算数指数的数据平台,盘点B站内容热点、品牌及UP主排名,帮助市场了解B站,反映品牌在行业中的位置和变化趋势,2021/09/10内测,2021/10/20灰度,2021/12/20上线

      网站地址:https://trends.bilibili.com 未公测,且外网只披露部分功能

      项目内容:

      1. 数据生产,同步各渠道数据从Hive表到ElasticSearch集群和MongoDB集群
      2. 用户管理,内网支持RBAC用户权限管理,外网支持Mid权限点管理
      3. 数据检索,支持内容检索、品牌检索、UP主检索、关键字搜索
      4. 数据干预,运营后台支持黑名单词库管理,排行榜管理,品牌管理,UP主管理等
      5. 风控管理,支持实时敏感词生效

      项目技术:

      1. Springboot,Web系统框架-五层架构
      2. ElasticSearchMongoDBMysqlRedis
      3. Cat,XXL-JOB定时任务,Databus(Kafka),Redisson,Durid,QueryDsl,Kibana+Logstash+ES
      4. Spring Http Invoker,Grpc

      项目特点:

      1. 面向所有B站用户,高QPS,高吞吐量,保持线上稳定
      2. ES集群+MongoDB,ES集群存储索引数据,硬件资源有限
      3. 平衡ES集群压力和应用服务器计算压力,将部分计算任务放在应用服务器中,降低ES集群压力,调整应用服务器垃圾回收器G1
      4. 索引按月、按年分拆,别名管理,提升查询速率
      5. 权限点支持,支持内网RBAC接口级别权限,支持外网mid接口级别权限
      6. 首页数据分页缓存,延迟双删减少缓存一致间隙

      项目成果:

      1. 线上稳定,主页搜索接口QPS达8000,其他接口QPS均超过3000
      2. 运营品牌报告,增加品牌营收(相关提升点不宜披露)

    • 高能建站项目2020/06/02-至今

      项目后端负责人,负责产品需求迭代,以及线上问题跟进

      项目背景:商业广告自建站能力,支持代理与广告主制作落地页用户广告投放,提升B站广告点击率和转化率

      网站地址:http://cm.bilibili.com/art/bricks/#/site 需广告主登录

      项目内容:

      1. 支持代理和广告主创建、发布、管理H5落地页,原生落地页和小程序落地页
      2. 支持落地页组件级别设计
      3. 支持从模板创建落地页,落地页优选,根据创意元素自动生成落地页
      4. 营销组件管理,支持表单、抽奖等组件
      5. 支持落地页点击、转化信息披露,热门模板以及优秀落地页展示

      项目技术:

      1. Spring,SpringMVC,MyBatis,Web系统框架-五层架构
      2. ClickHouse,MongoDBMysqlRedis
      3. Cat,JOOQ,XXL-JOB定时任务,RabbitMQ,Redisson,Druid,Kibana+Logstash+ES,QueryDsl
      4. Spring Http Invoker,Grpc,线程池

      项目难点:

      1. 在线落地页开放接口,支持8000QPS,保持线上稳定
      2. 落地页配置层级复杂,落地页类型较多,整体逻辑经多次迭代维护成本大

      项目成果:

      1. 在线单日落地页900万请求
      2. 功能丰富,支持组件级别的落地页制作,广告用户使用率80%
      3. 建站落地页覆盖率65%

    • 效果广告项目2021/04/01-至今

      项目后端参与者,负责产品的部分需求迭代,以及部分线上问题跟进

      项目背景:商业效果广告项目,商业广告投放入口

      网站地址:https://cm.bilibili.com/ad/#/home 需要广告主或代理登录

      项目内容:

      1. 数据展示:展示广告主创意信息,点击、消费、CPC价格等,便于广告主了解创意投放效果,做出投放调整
      2. 推广:计划、单元、创意创建、设置、发布、启动与暂停
      3. 报表内容:多维度内容对比,展示创意投放效果,展点消数据,转化数据
      4. 账户管理:应用包管理,品牌logo,资质管理
      5. 账户资金:账户资金管理与交易明细

      项目技术:

      1. Spring,SpringMVC,MyBatis
      2. ClickHouse,MongoDBMysqlRedis
      3. Cat,JOOQ,XXL-JOB定时任务,RabbitMQ,Redisson,Druid,Kibana+Logstash+ES,QueryDsl
      4. Spring Http Invoker,Grpc,线程池

    • 三连创意项目2020/06/02-至今

      项目后端负责人,负责产品需求迭代,以及线上问题跟进

      项目背景:围绕创意点击率的提升,支持代理与广告主更高效地制作创意素材,并传达B站广告创意制作的方法论与高质案例。2021/10/27内测,2020/11/4灰度,2020/11/23上线

      网站地址:https://sanlian.bilibili.com 部分功能需要广告主登录

      项目内容:

      1. 模板制图工具,支持图层级别的调整设计,支持PSD在线解析
      2. 视频GIF制作工具,支持帧级别的调整设计
      3. 作品管理,支持模板编辑、同步投放、历史等操作
      4. 资产管理,支持查看投放素材库中所有创意
      5. 热门广告,热门视频,灵感洞察,我的收藏,支持广告主创意灵感共享,支持内容模块管理

      项目技术:

      1. Springboot,Web系统框架-五层架构
      2. ClickHouse,MysqlRedis
      3. Cat,XXL-JOB定时任务,Databus(kafka),Redisson,HikariCP,Kibana+Logstash+ES
      4. Spring Http Invoker,Grpc,线程池

      项目成果:

      1. 展示B站优秀创意素材,提升广告主素材创作能力
      2. 汇总广告创意投放素材内容,提供统一管理渠道,优化投放中心整体逻辑,提升广告主创建创意能力

    • Xbot智能助手项目2019/06/12-2020/09/12

      项目参与者,负责智能助手的框架设计、实体识别和槽位识别模型的训练和部署,以及相关测试

      该项目为部门线上项目,运营商在使用公司产品时,由于功能的复杂性,希望能够减少用户的使用难度。在产品右侧提供智能助手服务,智能助手支持帮助用户执行相关操作。

      根据用户提问的语义信息自动下发任务,设计并实现了基于深度学习的意图识别模型和槽位识别模型。

      意图识别模型识别用户问题意图,基于文本分类任务,将问题识别为系统定义的某一项业务

      槽位识别模型识别用户问题关键实体,基于命名实体识别,将完成任务所需的实体识别出来,其中还包括实体链接等

      意图准确率94%,槽位识别F1值为87%


    • 领域知识图谱问答系统2019/06/12-2020/09/12

      项目参与者,负责部分实体、关系、属性的定义和AI答案抽取模型的设计

      该项目为部门预研项目,解决部门文档数量多但检索效率差问题。该项目分为知识图谱和AI答案抽取两部分进行。

      方案一知识图谱部分,通过人工或半人工方式定义实体、关系、属性等,抽取文档中的图谱三要素存入图数据库,利用图数据库的图检索能力,可以对图谱的三要素作简单查询。

      方案二AI答案抽取部分,通过关键词或关键实体对文档构建倒排索引,对用户提问抽取关键字或者关键实体,找到对应文档,基于机器阅读理解的答案抽取模型,在候选段落中返回答案。


    • 精准医疗-中国十万人基因组计划项目2018/01/01-2020/04/06

      项目参与者,负责中文电子病历的命名实体研究,模型的搭建,论文撰写

      该项目由哈尔滨工业大学牵头,课题组参与中文病历命名实体识别方法研究,为了加快Bi-LSTM网络提取病历文本特征,改进了基于ID-CNN模型进行病历实体提取,提出了一种Attention-based ID-CNNs-CRF模型用于命名实体识别,该模型融合单词嵌入、字符嵌入、词性嵌入和位置嵌入的词向量作为模型输入。其次,堆叠4个膨胀卷积块提取全局语义信息,之后,结合注意力机制增强对局部语义信息的感知,最后利用CRF获取最优的标签序列,模型效果和预测速度均优于现有的Bi-LSTM-CRF模型,研究成果An attention-based ID-CNNs-CRF model for named entity recognition on clinical electronic medical records,发表于ICANN2019CCF C类会议),第一作者


    • 互联网公开信息采集课题研究2021/07/01-2021/11/01

      项目负责人,负责项目的整体方案设计,进度控制,代码编写,测试,交付等

      与上海资信有限公司合作,共同开发一款数据采集系统用于支持企业贷款安全风控信息分析,主要采集国家企业信息信息公示系统,国家专利系统、被执行人等系统中企业、专利、被执行人信息。该系统分为数据采集系统和管理系统两部分。

      管理系统:基于Spring+SpringMVC+Hibernate,实现用户数据采集任务的创建,定时启动,异常采集过程收集,异常重试,任务实时进度展示,任务完成微信(itchat)和邮件通知,采集数据展示,数据下载等功能

      采集系统:基于Scrpy,Selenium、Requests、Chrome Webdriver,Appium,MySql等技术,采集网站数据。实现分布式任务处理功能,由单台服务器负责响应用户任务,向其他数据采集服务器下发任务。该系统破解了极验滑动验证码,极验3.0文字点击验证码,以及一般的防爬虫技术,并实现了基于CNN的字母数字验证码识别。

  • 职业技能

    • Java后端开发、Python开发
    • 了解JVM虚拟机,有JVM调优相关经验
    • 熟悉数据结构,以及相关算法
    • 阅读Java相关源码,Stream流ReentrantLock,HashMap,Spring等
    • 使用RabbitMQRedissionZookeeperCat,XXL-Job等中间件
    • 了解Mysql优化,了解ElasticSearchMongoDB,Clickhouse,Redis数据库
    • 掌握Git、Maven开发工具,了解Devops
    • 有ToC项目架构经验和搜索引擎业务相关经验
    • 了解机器学习相关算法,深度学习相关模型,tersorflow,keras等框架,熟练数据采集与分析
  • 荣誉证书

    • 上海市优秀毕业生
    • 上海大学优秀学生
    • 上海大学学业奖学金一等奖
  • 所获成果