🗒️关于我
字数 1056阅读时长 3 分钟
type
status
data
slug
summary
tags
category
password
icon

关于我

3年nlp计算机硕士,3年nlp+大模型算法工程师工作经验
永远年轻,永远热泪盈眶,永远相信梦想!

项目经历

智慧咨询项目

新闻网站上的海量新闻具有行业商机、 信息洞察等重要价值, 利用自然语言处理技术进行自动化的信息萃取,替代纯人工筛选信息,开发了基于BERT,jieba-TFIDF-SVM的文本去噪模型,基于ALBERT-TextCNN的文本分类模型,基于BERT-DGCNN的文本摘要模型,并发表一篇《DDCAMS:NLP 赋能智慧咨询业务》双一流中文核心期刊论文论文。

基于Jie-ba-TFIDF-SVM的文本去噪模型

基于BERT的文本分类模型

基于ALBERT-TextCNN的文本分类模型

基于BERT-DGCNN的文本摘要模型

基于BERT的多标签分类模型

制度审计项目

基于SentenceBERT的相似度模型

 

基于ChatGLM2-6B大模型的相似度模型

针对两个条款是否具有相关性的场景,SFT微调训练sentbert模型,chatglm,chatglm2大模型,F1值逐步优化到90%左右,并发表一篇《制度条款相关性判断方法及装置》专利。
 

基于Qwen14b大模型的制度条款比对

判断制度上下级条款是否存在审计线索的场景,SFT微调训练chatglm,chatglm2,qwen14b大模型,以及利用langchain框架,通过few-shot的方式,优化prompt,大模型生成线索的准确率由30%提升到约60%,生产效率提升了90%,达到业务可上生产环境的水平。

基于Qwen72b大模型的关键词提取模型

提取制度文件核心关键词列表的场景,利用qwen72b大模型,利用langchain框架,通过few-shot的方式,提取全文最能代表本制度的关键词列表,效率提升了约95%。
 

开发及部署经验

文本查重功能开发

基于mlflow框架的AI模型部署

基于fastAPI框架的AI模型部署

基于Docker的AI模型部署

论文和专利

论文

【1】Extracting Data Access Periodic Characteristics for Energy-aware Data Clustering and Storing in Cloud Storage Systems Journal: Concurrency and Computation: Practice and Experience (2021年05期,第二作者, SCI CCF C类)
【2】新能源专利文本术语抽取研究,小型微型计算机系统(2022年05期,第一作者, 北大中文核心 B类)
【3】融合术语信息的新能源专利机器翻译研究,中文信息学报(2021年12期,第四作者, 老师第一、三作者, 北大中文核心B类)
【4】DDCAMS:NLP赋能智慧咨询业务,科技创新与应用杂志(2023年06期,第一作者和通信作者)

专利

【1】一种基于大模型制度条款相关性判断的方法(2023年,国内已公开,第一发明人)
【2】一种基于大模型多层次思维链进行合作业务合规风险判别的方法(2024年,国内在审,主笔)
【3】一种结合量化模型筛选和大模型的制度文件审计线索自动生成方法(2024年,国内在审,主笔)
【4】一种基于大模型的审计资料关键词智能识别方法 中国移动通信集团有限公司(2024年,国内在审,主笔)
【5】一种通信工程结算物料审计的方法(2024年,主笔)

荣誉奖项

  • 全国计算机等级二级
  • 英语六级、英语口语等级B
  • 高级中学教师资格(生物)、普通话二级甲等
  • 驾驶证C1、国家三级运动员、国家励志奖学金、专业一等奖学金
  • 第五届(2020年)中国创新挑战赛暨中关村第四届新型领域专题赛优胜奖
 
Loading...