简介

从研究人员的主页(HTML)中提取信息，并将信息自动分为三类(您可以添加更多的类)。支持中英文页面。

可以分成的类别：

publication
education
honor

详细

从互联网文本数据中提取并分类学术行为的流程如下图所示，整个过程是线性的。在正式提取学术行为之前，首先人工标注互联网中少量的学术行为，生成训练集后，采用fastText进行训练生成模型并保存。

接下来通过Python爬虫获取HTML元数据，将HTML数据传入网页正文提取算法WNBTE中获得正文文本，其中正文提取算法通过统计HTML不同标签中文本字数的比值来判断正文所在的位置，能够有效去除冗余无关的HTML标签。随后对正文文本段落进行短语级切分，分词后传入fastText神经网络，利用已经训练好的数据模型对短语进行分类，打上标签。

项目结构

ff_classifier: 使用fasttext自动训练和预测学术行为(训练时间小于1s)
text_toolkit.py: 提取具有一定模式的字符串，如邮箱，手机号，时间等
profile_class.py: 研究人员的类
html_extract.py: 提取HTML元素
demo.py: demo

结果预览（部分）

honor 0.7774751782417297 2013 Aug. 2013, KSEM'13 Best Paper Award

----

honor 0.7579861879348755 2013 Aug. 2013, CCML'13 Outstanding Student Paper Award

----

honor 0.5015735626220703 2012 Mar.2012, Google Technology Student Expert Award

----

publication 0.7918424606323242 Hongyuan Zhu, Qi Liu*, Nicholas Jing Yuan*, Kun Zhang, Enhong Chen. Pop Music Generation: from Melody to Multi-style Arrangement. ACM Transactions on Knowledge Discovery from Data (ACM TKDD). (Accepted) [Data]

----

education 0.5010859370231628 2011 Teaching Assistant, Data Mining (Prof. Hui Xiong). Rutgers Business School, Rutgers University, Feb. 2011~May. 2011.

----

education 0.3986995816230774 2010 Development Engineer, Personalized Recommendation Team. Alibaba (China) Technology Co., Ltd. Mar.2010~Aug.2010.

----

PS

如果您想提高提取器的效率或准确性，您可以在ff_classifier/train_data.txt中添加更多的训练数据，或调整ff_classifier/ classifiere .py中的第20行训练配置。

1 2	# Line 20 self.classifier = ff.train_supervised("ff_classifier/train_data.txt", epoch=100, dim=50, lr=0.1, wordNgrams=2, minCount=0, loss="softmax")

代码地址：https://github.com/xyjigsaw/fastProfileExtractor

个人主页信息提取器

简介

详细

项目结构

结果预览（部分）

PS

大模型中的RepE表征工程

大模型也是一种优化器（LLM as Optimizer）

全栈开发与快速部署Demo

学术idea自动发现与生成

自回归语言模型（language model）Python实现

粉丝期待的三体电影宇宙（近四十部电影与电视剧集）

基于历史对比学习的时序知识图谱推理

泰拉瑞亚Terriaria快速部署Linux服务器

iPad生产力指南——编程

DeepScience：学术趋势预测与分析

留下评论取消回复

简介

详细

项目结构

结果预览（部分）

PS

相关文章

留下评论取消回复