pdf文档 AI+HR黑科技秘笈-AI赋能人力资本智能化变革 VIP文档

8.41 MB 98 页 0 下载 11 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
概览
AI+HR黑科技秘笈 A I 赋 能 人 力 资 本 智 能 化 变 革 e 成 科 技 H R 图 灵 学 院 出 品 a i . i f c h a n g e . c o m AI黑科技揭秘 顶尖科学家团队力作 AI+HR创新应用 前言 前言 献给走在数字化浪潮前沿的 HR 们, 数字经济时代已全面开启,大数据、人工智能、云计算等新科技推动经济、社会、 企业发生翻天覆地的变化,也将赋予人力资本巨大的变革力量。 企业纷纷在寻求智慧变革,人力资源部门是推动企业变革的重要动力之一, HR 也要时刻随着时代和科技的变化而 变化,找到并驾驭合适、高效的智能 化工具。 在这场浪潮中,思变的企业和 HR 们已经开始寻求变革新路径。作为人力资 本数字化平台和数字化人才战略的先行者,e 成科技将始终与您同在,携手开 启人力资本数字化新时代!” 本专栏内容由 HR 图灵学院出品,HR 图灵学院是 e 成科技打造的 HR 领域第 一 AI 专栏,希望以此为窗口,向 HR 传达专业的 AI 知识与信息,赋予人力资 本领域变革力量,以 AI 为钥,携手 HR 开启数字化变革之门!在这里,HR 们可以得到前沿技术思考、行业技术干货、全球 AI 好物、HR+AI 创新应用等。 目录 第一部分 人岗匹配 让 AI 技术提升人岗匹配效果,我们做了这些探索 解锁这项 AI 黑科技,马上实现人岗匹配自由 第二部分 人才画像 人才画像画得好,数字化 HR 有妙招 第三部分 音视频面试 AI 面试官来袭,HR 你准备好了吗? 第四部分 RPA 一文读懂 RPA、AI 与 HR 的关系 真技术还是伪 AI,HR 如何选择合适的智能工具? 第五部分 智能聊天机器人 请回答 BERT:HR 聊天机器人强大聊天技能背后的秘密 第六部分 人工智能历史 人工智能演义第一回:阿兰图灵开山鼻祖,达特茅斯豪杰聚义 人工智能演义第二回:遇险阻创始人早逝,敢坚持三剑客逆袭 人工智能演义第三回:一脉相承得失公论,两度寒冬冷暖自知 第七部分 智能职业发展规划 叮,您的智能职业发展规划师已上线 第八部分 人才盘点 看过那么多大厂经验,依然做不好人才盘点?你需要这款 AI 利器! 02-09 10-17 18-23 24-29 30-36 37-42 43-51 52-60 61-68 69-75 76-84 85-94 1 | 目录 2 第一部分 | 场景:人岗匹配 内容: 让 AI 技术提升人岗匹配效果,我们做了这些探索 解锁这项 AI 黑科技,马上实现人岗匹配自由 AI 黑科技: Embedding、知识图谱(KG)方法、自然语言处理(NLP)、非线性树模型、deep 模型、 BERT、 Word2Vec 模型等 本期和大家讨论下 “人岗匹配排序的探索与实践”。从人力资源管理的发展来看,人岗匹配大致 经历了三个阶段,“三历对照法”、“冰山挖掘法”、“全人匹配法”,而 AI 技术的引用将为企业迎 来第四个——“数据解剖法”。 AI 技术实现人岗匹配,离不开数据的处理和模型的选择与训练,看似高深、复杂的人岗匹配算 法模型背后,这一切是怎么实现的呢?本期院长就和大家探讨下不同模型在人岗匹配实践中的 创新应用。 “人岗匹配” 是企业人力资源管理的核心问题,更是所有 HR 追求的目标。毫不夸张地说,“人 岗匹配” 是人力资源的起点,也是人力资源的核心目标之一。 本质上,企业和个人是利益共同体,只有使得组织利益和个体价值得到统一,做到 “岗得其人”、“人 适其岗”,根据人不同的素质和个性将其安排在最合适的岗位上,做到 “人尽其才,物尽其用”, 才能使人才发挥最大价值,同时激活组织。 那么,HR 如何做好人岗匹配呢? 以前,在千百万份简历中筛选人才,是 HR 工作中 “解不开的劫”,每天花费大量的时间和精力 对优秀简历和职位信息人工做匹配,不仅消耗着 HR 的积极性,往往结果也不尽如人意,筛不到 合适的人才,难以满足业务部门的需求。 现在,数字经济时代的新技术给 HR 带来了更多可能,AI 技术将助力 HR 实现智能人岗匹配、 大大提升人岗匹配效率与准确率,将 HR 从机械、琐碎的招聘工作中解放出来。 第一部分 让AI技术提升人岗匹配效果,我们做了这些探索 3 第一部分 | 那么,实现 AI 人岗匹配背后的依据和逻辑又是什么呢? e 成科技基于前沿的自然语言处理技术 和深度学习模型,并结合大量数据和知识图谱,通过不断探索和反复实践,形成一套高效的人 岗匹配推荐算法系统,下面院长将详细为大家介绍这套系统及其背后的逻辑。 在人岗匹配的任务中存在 HR、职位(JD)、简历(CV)三种实体,人岗推荐系统中由 HR 发布职位, 根据发布职位来推荐简历,该场景中需要优化推荐的准确率、召回率,提升 HR 更高的工作效率, 提升岗位和简历的匹配度来减少招聘人才的成本。 在经典的机器学习排序模型中通常分为两种:复杂的人工特征工程 + 简单的模型,简单的人工 特征 + 复杂的模型。本着该原则我们对以文本为主的职位和简历对进行了匹配排序实践。 以 JD 和 CV 对为背景,该场景为经典的机器学习排序问题,目标在于预测 JD 和 CV 是否匹配, 数据集的采集则是来自我司产品 ATS 平台,HR 从系统根据 JD 推荐的 CV 来进行选择,符合要 求将要走面试程序的则标为 1,否则标为 0。 2.1 特征介绍 常见的 JD 如下图 1 所示,其中包含格式化离散数据和整段文本数据,从整段文本数据获取招聘 意图是提取 JD 特征的重点难点。 为了更好的解决该问题,我们分别引入知识图谱(KG)方法和自然语言处理(NLP)方法,其 中 KG 负责去充分提取文本中实体的关系和联系,NLP 则更好的获取 JD 本文和 CV 文本相似性 信息。因涉及个人隐私此处不展示 CV 信息。 01 特征为王 4 第一部分 | 图 1 JD 示例 在以 JD 和 CV 对是否匹配的背景下,我们将特征主要分为以下几类: JD 特征:包含地点,学历硬性要求和利用知识图谱中提取的实体特征如(职能,公司,技能, 专业,行业)等; CV 特征:包含性别,年龄,学历等基础信息和从工作经历描述文本中提取的实体信息,以及文 本类特征等。 2.2 特征处理 > 在获取 JD 和 CV 的基础特征之后我们主要将特征主要分为四种类型: ID 离散特征:比如 UID,职能 ID,公司 ID,行业 ID,技能 ID,专业 ID 等。 硬性离散类特征:除了性别,年龄,工作地点等基础类型特征,还包含有知识图谱提取的实体 之间的关系特征比如学校是否匹配,职能(工作职位对应能力)是否匹配等,此处成为 match 特征。 连续性特征:除薪资等,还包含有知识图谱提取的实体之间的 graph embedding 的 vector 相 似性值,此处成为 IDsim 特征。 Emdedding 特征:包括了 ID 离散特征的 vector,该 vector 有知识图谱的 graph embedding 方法产生(如 DeepWalk,LINE 等 )。文本 embedding 特征,该特征以 JD 和 CV 对的方式输入 DSSM 模型产生 vector。 在此基础上我们还加入了相应统计特征,统计特征主要有强特征的共现特征以及强特征之间的 多样性统计。特征之间的应用以及组合根据模型不同而展开讨论,不同模型对不同特征的表征 能力不同。 在模型方面主要可以分为两个总方向,分别是非线性树和 deep 模型的探索,在探索上主要是根 据不同模型的性质进行特征工程。 3.1 非 线 性 树 模 型 > 我 们 主 要 以 gbdt 为 主 的 树 模 型 展 开 特 征 工 程 的 探 索,gbdt 的 实 现 以 xgboost 和 lgb 为主。gbdt 模型结构如图 2 所示,gbdt 为一个 boosting 模型,通过叠加多 个弱模型来提升拟合能力,根据 xgboost 模型的优缺点我们可以充分挖掘可用特征。 我们再次整理上一节可用特征,主要有 ID 类特征(职能、行业、公司、技能、专业等);基本 信息匹配特征(年龄,工作经验,学校等)该特征为二分类特征,以 JD 和 CV 的 ID 类特征是 否匹配来构建二分类特征(如职能是否匹配等称为 match 特征),将这两类统称为硬性离散类 特 征;JD 和 CV 类 的 graph embedding 产 生 vector 对 计 算 余 弦 值 作 为 连 续 特 征(称 为 IDsim 特征),加上文本相似性特征(称为 textsim 特征)和薪资组成连续特征。值得注意的是 文 本 特 征 主 要 根 据 JD 和 CV 的 格 式 分 为 title 和 description 两 个 部 分 来 挖 掘。考 虑 到 xgboost 处理连续值的缺点我们将连续值进行分桶,桶数可由某维特征的分布来确定。将 ID 类 特征也一同加入到树模型中,这是考虑到组合特征的业务意义。分析特征重要性之后,我们根 据特征现象去做统计特征,比如出现频率统计,特征共现统计,多维特征多样性统计等操作。 相对应的 title 和 description 文本特征也可通过简单的加权命中率来构成特征加入到树模型中。 总之实验证明 ID 类特征,二分类特征,连续特征离散化,统计类特征,以及 embedding 产生 的 vector 的交叉特征都会给模型带来正向收益。 图 2 5 第一部分 | 02 模型演变 3.2 深度模型的探索 > 深度模型对比树模型更加突出了非线性的拟合能力,以及高阶特征的交叉融合功能。但是带来 的弊端就是模型的可解释性变差,根据结果反向特征工程变得困难起来。我们在 JD 和 CV 匹配 场景下分别使用了 DNN,Wide&Deep,DeepFM,等模型尝试。 同时并借鉴了 PNN、DCN、DLRM 和 DKN 网络原理正在适配适合现有数据类型的模型。本节 主要简要介绍 DNN 和 Wide&Deep,DeepFM 的使用,再阐述对现有数据的思考。 以 YouTube 的经典 NN 为开端(如图 3,引用自相应论文),现有的数据下如何去使用 DNN 达 到收益正是我们所考虑的。在现有的特征中除了上文提到的二分类特征,embedding 相似性等 特征之外我们包含知识图谱抽取的实体 embedding 和文本 embedding。文本 embedding 主 要 有 DSSM 模 型 产 生,双 塔 模 型 的 输 入 分 别 为 JD 的 title、description,CV 工 作 经 验 的 title、description,双塔输出为 JD 和 CV 是否匹配。我们以双塔的每坐塔的最后输出 vector 作为 JD 和 CV 的表征。本着论文中提到的原理我们去除了树模型中 ID 类特征,换成了 ID 对应 的 vector,保留原有的二分类和连续特征,另外在加入了文本 embedding 特征,最后的结果 不是很乐观。因此分析原因可能是某些特征缺失 ID(比如 CV 职能等)初始化为 0 导致,还存 在的原因可能是由于 ID vector 的知识结构和文本 embedding 知识结构不同导致,此处知识结 构可以理解为不同训练任务下的 embedding 空间结构。 6 第一部分 | 图 3 经历了 DNN 尝试没带来正向收益我们偏向于以线性和深度非线性结合的 Wide&Deep 结构(如 图 4)进行适配,此时我们考虑到 DNN 的实验产生的问题。 7 第一部分 | 图 4 图 5 我 们 并 未 直 接 加 入 由 知 识 图 谱 产 生 的 ID embedding 和 由 文 本 DSSM 模 型 产 生 的 文 本 embedding 的结果,我们采用 ID 类特征进行随机初始化的 embedding 在连接 match,IDsim 和 textsim 等特征作为 deep 的输入,将 match,IDsim,textsim 连接作为 wide 的输入。以 输入 ID 类特征,match 类特征,IDsim 特征,textsim 的 xgboost 模型作为 wide&deep 的比 较模型,实验证明 wide&deep 模型略优于 xgboost 模型,但是如果对此基础上 xgboost 做统 计特征则可超过 wide&deep 模型。以上可得 deep 模型非线性表征能力还是略微的比 xgboost 能力强。 经 过 wide&deep 模 型 的 实 验 基 础 上 我 们 想 更 加 利 用 交 叉 特 征 的 功 能,因 此 我 们 尝 试 了 deepFM 模型,deepFM 模型结构图如图 5 所示(引用自 deepFM 相应论文),deepFM 将 wide&deep 的 wide 部分替换成了 FM 机制提升了模型对特征的交叉组合能力。根据此模型特 征我们将 UID,图谱产生的 ID 类特征等稀疏特征输入 FM 部分,match 特征、IDsim 特征以及 textsim 特征为 dense 特征输入。结果很是令人欢喜,达到了以上实验的最优值,可能这就是 深度学习带来的魅力吧。 8 第一部分 | 在 喜 悦 的 同 时,我 们 想 现 有 的 ID 初 始 化 embedding 都 能 产 生 如 此 大 的 魅 力,利 用 graph embedding 岂不更加喜人。在 DeepFM 模型输入基础上我们将 ID 的 graph embedding 也加 入到模型的 dense feature 部分,然而实验证明并没有想当然的好 , 甚至产生了负作用。但至 少证明了特征交叉能带来收益,至于 graph embedding 的加入为啥效果不好却是值得思考和 探索的问题。 经过上面的探索我们获取了一些经验,例如交叉特征有用,用 embedding 产生的向量两两相似 性计算对树模型有用,因此我们本着上面积累的经验进行了人工构建交叉特征作为 xgboost 模 型的输入。在此基础上加入统计特征,这波操作再次给我们带来了 0.5% 的收益。 最后总结下模型方面的探索结果,以上实验说明我们还没有充分利用 graph embedding 和由 DSSM 产出的文本 embedding,也证明了 embedding 内涵的巨大作用,后期我们将加大力度 去挖掘该部分的内容。 4.1 现阶段成果 > 经过上文特征和模型的探索在此我们分方案来展示我们的实验结果,分别包含以下方案: 方案 1:ID 类特征 +match 特征 +IDsim 特征 +textsim 特征 +gbdt 方案 2:ID vector 特征 +match 特征 +IDsim 特征 +text vector 特征 +dnn 方 案 3:ID 类 特 征(随 机 初 始 化 embedding)+match 特 征 +IDsim 特 征 +textsim 特 征 +deepFM 方案 4:ID 类特征 +match 特征 +IDsim 特征 +ID vector inner(交叉)特征 +textsim 特征 + 统计特征 +gbdt 主要以这四种有效的递进关系来展示,其中多种的组合尝试就不一一列举了。效果如表格 1 中, 我们的评价指标主要为正例的准确率,召回率,F1 值和总的 AUC 值作为评价指标。 03 现阶段成果和未来展望 表 1 以上结果都为数据清洗特征工程后结果,本次数据量 JD 和 CV 对大致为 86 万,其中负例和正 例比大致为 7:1,我们将其随机分成 8:1:1 其中 8 成训练集、1 成训练集和 1 成测试集。 4.2 未来展望 > 特征为王说法不无道理,在加入深度学习探索时应该思考数据质量与数据量是否能支持,在数 据质量和量的保证下我们相信深度学习带来的魅力是巨大的。最近由 Facebook 出品的 DLRM 处理异构 embedding 的能力使我们跃跃欲试。另外由微软出品的 DKN 网络也证明了 graph embedding 所隐藏的信息量对推荐效果有很大帮助。文献 5 中结合知识图谱在电商环境下的推 荐也使得我们相信充分挖掘 embedding 信息可以带来不错的收益。 作为以技术为驱动的企业,e 成科技在 AI 技术的基础上,创新性地提出基于人才画像和岗位画 像的匹配,为人岗匹配带来革命性变革。 e 成科技作为 HR+AI 赛道的领跑者,一直专注于 AI 技术在人力资本领域创新应用,开创性地将 AI 技术与人力资本场景深度结合。基于 6 年的 AI 能力和行业经验积累,e 成科技打造了 AI 开 放平台,将 AI 能力和产品整合至 AI 开放平台,并通过开放平台将 AI 能力开放给所有企业和友商。 e 成科技 AI 开放平台是 HR 赛道首个企业自主研发的聚焦人力资本场景的一站式 AI 能力服务平 台,覆盖简历解析、人岗匹配、HR 机器人等诸多场景,通过 OpenAPI 及需求定制等形式,面 向所有自研系统大型企业、垂直招聘平台、传统 HR 行业厂商等企业用户提供智能化服务。 未来,我们将一直保持高效的创新与研发能力,将前沿的 AI 技术深度融合至人力资本场景,为 所有企业赋能。 文献引用: [1] Chen T , Guestrin C . XGBoost: A Scalable Tree BoostingSystem[J]. 2016. [2] Covington P, AdamsJ, Sargin E, et al. Deep Neural Networks for YouTube Recommendations[C].- conference on recommender systems, 2016: 191-198. [3] Cheng H, Koc L, Harmsen J, et al. Wide& Deep Learning for Recommender Systems[C]. conference on recommendersystems, 2016: 7-10. [4] Guo H, Tang R, Ye Y, et al. DeepFM: AFactorization-Machine based Neural Network for CTR Pre- diction[J]. arXiv:Information Retrieval, 2017. [5] Wang J, Huang P, Zhao H, et al.Billion-scale Commodity Embedding for E-commerce Recommen- dation in Alibaba[C].knowledge discovery and data mining, 2018: 839-848. 作者:e 成科技人岗匹配团队汪序明 (扫描二维码查看文章) 9
下载文档到本地,方便使用
共 98 页, 还有 4 页可预览, 继续阅读
文档评分
请文明评论,理性发言.