关于我

type

status

data

slug

summary

3年nlp计算机硕士，3年nlp+大模型算法工程师工作经验

永远年轻，永远热泪盈眶，永远相信梦想！

项目经历

智慧咨询项目

新闻网站上的海量新闻具有行业商机、信息洞察等重要价值，利用自然语言处理技术进行自动化的信息萃取,替代纯人工筛选信息，开发了基于BERT，jieba-TFIDF-SVM的文本去噪模型，基于ALBERT-TextCNN的文本分类模型，基于BERT-DGCNN的文本摘要模型，并发表一篇《DDCAMS:NLP 赋能智慧咨询业务》双一流中文核心期刊论文论文。

基于Jie-ba-TFIDF-SVM的文本去噪模型

基于BERT的文本分类模型

基于ALBERT-TextCNN的文本分类模型

基于BERT-DGCNN的文本摘要模型

基于BERT的多标签分类模型

制度审计项目

基于SentenceBERT的相似度模型

基于ChatGLM2-6B大模型的相似度模型

针对两个条款是否具有相关性的场景，SFT微调训练sentbert模型，chatglm，chatglm2大模型，F1值逐步优化到90%左右，并发表一篇《制度条款相关性判断方法及装置》专利。

基于Qwen14b大模型的制度条款比对

判断制度上下级条款是否存在审计线索的场景，SFT微调训练chatglm，chatglm2，qwen14b大模型，以及利用langchain框架，通过few-shot的方式，优化prompt，大模型生成线索的准确率由30%提升到约60%，生产效率提升了90%，达到业务可上生产环境的水平。

基于Qwen72b大模型的关键词提取模型

提取制度文件核心关键词列表的场景，利用qwen72b大模型，利用langchain框架，通过few-shot的方式，提取全文最能代表本制度的关键词列表，效率提升了约95%。

开发及部署经验

文本查重功能开发

基于mlflow框架的AI模型部署

基于fastAPI框架的AI模型部署

基于Docker的AI模型部署

论文和专利

论文

【1】Extracting Data Access Periodic Characteristics for Energy-aware Data Clustering and Storing in Cloud Storage Systems Journal: Concurrency and Computation: Practice and Experience (2021年05期，第二作者， SCI CCF C类)

【2】新能源专利文本术语抽取研究，小型微型计算机系统（2022年05期，第一作者，北大中文核心 B类）

【3】融合术语信息的新能源专利机器翻译研究，中文信息学报（2021年12期，第四作者，老师第一、三作者，北大中文核心B类）

【4】DDCAMS:NLP赋能智慧咨询业务，科技创新与应用杂志（2023年06期，第一作者和通信作者）

专利

【1】一种基于大模型制度条款相关性判断的方法（2023年，国内已公开，第一发明人）

【2】一种基于大模型多层次思维链进行合作业务合规风险判别的方法（2024年，国内在审，主笔）

【3】一种结合量化模型筛选和大模型的制度文件审计线索自动生成方法（2024年，国内在审，主笔）

【4】一种基于大模型的审计资料关键词智能识别方法中国移动通信集团有限公司（2024年，国内在审，主笔）

【5】一种通信工程结算物料审计的方法（2024年，主笔）

荣誉奖项

全国计算机等级二级

英语六级、英语口语等级B

高级中学教师资格(生物)、普通话二级甲等

驾驶证C1、国家三级运动员、国家励志奖学金、专业一等奖学金

第五届（2020年）中国创新挑战赛暨中关村第四届新型领域专题赛优胜奖