自然语言处理从入门到实战

《自然语言处理从入门到实战》

  • 出版社:中国铁道出版社
  • ISBN:9787113266912
  • 版次:1
  • 商品编码:12874424
  • 品牌:中国铁道出版社
  • 包装:平装
  • 开本:16开
  • 出版时间:2020-06-01
  • 用纸:胶版纸
  • 页数:264
基本介绍书籍目录点评信息
  • 书籍内容

    为了帮助广大爱好自然语言处理(NaturalLanguageProcessing,NLP)技术的读者朋友入门此领域,本书阐述了自然语言处理概况、领域应用、相关处理工具包、相关的机器学习及深度学习模型、文本预处理及文本表征等基础知识,以及具体的自然语言处理任务,包括文本分类、关系抽取、知识图谱、文本摘要、序列标注、机器翻译和聊天系统,同时介绍了自然语言处理技术在学术界以及工业界的发展、应用现状,并为读者们提供了部分面试参考题目。
    本书适合有一定的编程及机器学习基础,想入门自然语言处理,以及想系统了解或准备求职自然语言处理初级岗位的读者阅读。

    编辑推荐

    本书特色
    1内容安排实用实在、详略得当,符合初学者的认知规律
    本书内容涵盖了从自然语言数据处理、基础任务(如分词、词性标注、命名实体识别等)到实战性任务(如文本分类、文本摘要、聊天系统等)所必须掌握的知识,从内容结构上非常注重知识的实用性和可操作性。必须掌握的细节处不吝笔墨,辅以图表以及代码加深读者印象;对仅需要大致了解处简要介绍一些相关理论及前沿动态。这样的安排使得初学者能够掌握必备知识,了解并思考学术前沿及行业应用,符合初学者对自然语言处理知识的认知规律。
    2行文简单直白,以实例引导理论,特别适合初学者阅读
    本书行文简单直白,全程都有相应的实例作为引导,对于比较难的内容尽量以举例的形式帮助读者理解。在介绍这些知识时,并不是教条式的,填鸭式的讲解,而是尽量以平实化的语言讲解相关理论,犹如帮助一位老朋友,一步步地成为初级自然语言处理工程师。
    3设置思考题以及项目代码,激发初学者的热情与兴趣
    本书的每一章都设置有相应的思考题,并在附录中提供了相关参考答案;读者可以自测对章节内容的学习的掌握程度。此外,本书章节介绍的代码实例,相关的电子版本会随书赠予,使读者能够进行实践操作,更加深入地理解知识。这些实践内容是学习自然语言处理过程中必不可少的环节,通过思考题以及代码的操作练习,能够使读者朋友快速地入门自然语言处理。

    作者简介

    胡盼盼自然语言处理工程师,斯特拉斯堡大学计算机语言学硕士,曾任法国科学院(CNRS,Centre National de la Recherche Scientifique)算法研究员,负责过医疗知识图谱、聊天机器人、智能律师系统、文本生成系统等企业级核心项目。
  • 目录
    第一部分了解自然语言处理
    第1章自然语言处理初探
    11自然语言处理概述
    111自然语言处理早期发展史
    112新世纪的里程碑事件
    12自然语言处理的挑战
    121词义消歧
    122指代消解
    123上下文理解
    124语义与语用的不对等
    13自然语言处理的应用领域
    131医疗
    132教育
    133媒体
    134金融
    135法律
    14自然语言处理的常见工具
    141基础任务工具包
    142科学计算及机器学习框架
    143深度学习框架
    本章小结
    思考题
    第二部分自然语言处理核心技术
    第2章自然语言处理与机器学习
    21逻辑回归
    211逻辑回归基本原理
    212逻辑回归在实践中的注意要点
    213逻辑回归的优势与不足
    22朴素贝叶斯
    221朴素贝叶斯基本原理
    222朴素贝叶斯的类型
    223朴素贝叶斯的优势与不足
    23Kmeans算法
    231Kmeans算法基本原理
    232Kmeans算法实践
    233Kmeans算法的优势与不足
    24决策树
    241决策树的属性划分
    242随机森林的基本原理
    243随机森林在应用中的注意细节
    25主成分分析
    251梯度上升法解PCA
    252协方差矩阵解PCA
    253实战PCA
    本章小结
    思考题
    第3章自然语言处理与神经网络
    31神经网络初探
    311神经元结构
    312常见的激活函数
    313误差反向传播算法
    32常见的神经网络结构
    321多层感知机
    322循环神经网络的基本原理
    323卷积神经网络的基本原理
    324神经网络的优势与不足
    33神经网络算法的改进与提升
    331防止过拟合的方法
    332训练速度与精度的提高方法
    333注意力机制
    本章小结
    思考题
    第三部分自然语言处理基本任务
    第4章文本预处理
    41文本预处理的基础项目
    411文本规范化
    412语义分析
    413分词
    414文本纠错
    42关键词提取
    421基于特征统计
    422基于主题模型
    423基于图模型
    43数据不平衡的处理
    431常见方法
    432数据不平衡问题实战
    本章小结
    思考题
    第5章文本的表示技术
    51词袋模型
    511基于频次的词袋模型
    512基于TFIDF的词袋模型
    513相关工具的使用
    52Word2Vec词向量
    521Word2Vec的基本原理
    522Word2Vec模型细节及代码演示
    523应用工具训练Word2Vec
    53改进后的词表征
    531GloVe模型
    532FastText模型
    533ELMo模型
    54句向量
    541基于词向量的平均
    542沿用Word2Vec思想
    543有监督方式
    本章小结
    思考题
    第6章序列标注
    61序列标注基础
    611序列标注的应用场景
    612基线方式
    613序列标注任务的难点
    62基于概率图的模型
    621隐马尔科夫模型(HMM)
    622最大熵马尔科夫模型(MEMM)
    623条件随机场模型(CRF)
    624天气预测实例
    63基于深度学习的方式
    631数据表征形式
    632序列处理模型
    本章小结
    思考题
    第7章关系抽取
    71关系抽取基础
    711关系抽取概述
    712关系抽取的主要方法
    713深度学习与关系抽取
    714强化学习与关系抽取
    72基于半监督的关系抽取模式:Snowball系统
    721Patterns及Tuples的生成
    722Patterns及Tuples的评估
    723Snowball的实现细节
    73关系抽取工具——DeepDive
    731DeepDive概述
    732DeepDive工作流程
    733概率推断与因子图
    本章小结
    思考题
    第四部分自然语言处理高级任务
    第8章知识图谱
    81知识图谱基本概念
    811从语义网络到知识图谱
    812知识的结构化、存储及查询
    813几个开源的知识图谱
    82知识图谱的关键构建技术
    821本体匹配
    822实体链接
    823知识推理
    83知识图谱应用
    831反欺诈
    832个性化推荐
    833知识库问答
    本章小结
    思考题
    第9章文本分类
    91文本分类的常见方法
    911机器学习
    912模型融合
    913深度学习
    92文本分类的不同应用场景
    921二分类
    922多分类
    923多标签多分类
    93案例:搭建一款新闻主题分类器
    931数据预处理
    932训练与预测
    933改进
    本章小结
    思考题
    第10章文本摘要
    101抽取式摘要
    1011传统方法
    1012基于深度学习的方法
    1013抽取式摘要的训练数据问题
    102生成式摘要
    1021基础模型
    1022前沿模型中的技巧
    1023强化学习与生成式摘要
    103案例:搭建网球新闻摘要生成器
    1031基于词频统计的摘要生成器
    1032基于图模型的摘要生成器
    1033结果分析
    本章小结
    思考题
    第11章机器翻译
    111传统机器翻译
    1111源起
    1112基于规则
    1113基于大规模语料
    112统计机器翻译
    1121相关流派
    1122基于信源信道的统计机器翻译
    1123案例:外星语的翻译实战
    113神经机器翻译
    1131基本原理
    1132改进机制
    1133前沿与挑战
    本章小结
    思考题
    第12章聊天系统
    121聊天系统的类型
    1211闲聊式机器人
    1212知识问答型机器人
    1213任务型聊天机器人
    122聊天系统的关键技术
    1221检索技术
    1222意图识别和词槽填充
    1223对话管理
    1224强化学习与多轮对话
    123案例:闲聊机器人实战
    1231技术概要
    1232基本配置及数据预处理
    1233闲聊机器人模型的搭建
    1234模型训练、预测以及优化
    本章小结
    思考题
    第五部分自然语言处理求职
    第13章自然语言处理技术的现在、未来及择业
    131自然语言处理组织及人才需求介绍
    1311学术界
    1312工业界
    1313人才需求现状
    132未来与自然语言处理
    1321自然语言处理热点技术方向
    1322自然语言处理的应用畅想
    1323自然语言处理带来的行业冲击
    133面试题
    1331数据结构与算法
    1332数学基础
    1333机器学习与深度学习
    1334自然语言处理专业
    1335实际问题解决及技术领域见解
    本章小结
    思考题
    附录A思考题参考答案
    附录B面试题答案目录
    第一部分了解自然语言处理
    第1章自然语言处理初探
    11自然语言处理概述
    111自然语言处理早期发展史
    112新世纪的里程碑事件
    12自然语言处理的挑战
    121词义消歧
    122指代消解
    123上下文理解
    124语义与语用的不对等
    13自然语言处理的应用领域
    131医疗
    132教育
    133媒体
    134金融
    135法律
    14自然语言处理的常见工具
    141基础任务工具包
    142科学计算及机器学习框架
    143深度学习框架
    本章小结
    思考题
    第二部分自然语言处理核心技术
    第2章自然语言处理与机器学习
    21逻辑回归
    211逻辑回归基本原理
    212逻辑回归在实践中的注意要点
    213逻辑回归的优势与不足
    22朴素贝叶斯
    221朴素贝叶斯基本原理
    222朴素贝叶斯的类型
    223朴素贝叶斯的优势与不足
    23Kmeans算法
    231Kmeans算法基本原理
    232Kmeans算法实践
    233Kmeans算法的优势与不足
    24决策树
    241决策树的属性划分
    242随机森林的基本原理
    243随机森林在应用中的注意细节
    25主成分分析
    251梯度上升法解PCA
    252协方差矩阵解PCA
    253实战PCA
    本章小结
    思考题
    第3章自然语言处理与神经网络
    31神经网络初探
    311神经元结构
    312常见的激活函数
    313误差反向传播算法
    32常见的神经网络结构
    321多层感知机
    322循环神经网络的基本原理
    323卷积神经网络的基本原理
    324神经网络的优势与不足
    33神经网络算法的改进与提升
    331防止过拟合的方法
    332训练速度与精度的提高方法
    333注意力机制
    本章小结
    思考题
    第三部分自然语言处理基本任务
    第4章文本预处理
    41文本预处理的基础项目
    411文本规范化
    412语义分析
    413分词
    414文本纠错
    42关键词提取
    421基于特征统计
    422基于主题模型
    423基于图模型
    43数据不平衡的处理
    431常见方法
    432数据不平衡问题实战
    本章小结
    思考题
    第5章文本的表示技术
    51词袋模型
    511基于频次的词袋模型
    512基于TFIDF的词袋模型
    513相关工具的使用
    52Word2Vec词向量
    521Word2Vec的基本原理
    522Word2Vec模型细节及代码演示
    523应用工具训练Word2Vec
    53改进后的词表征
    531GloVe模型
    532FastText模型
    533ELMo模型
    54句向量
    541基于词向量的平均
    542沿用Word2Vec思想
    543有监督方式
    本章小结
    思考题
    第6章序列标注
    61序列标注基础
    611序列标注的应用场景
    612基线方式
    613序列标注任务的难点
    62基于概率图的模型
    621隐马尔科夫模型(HMM)
    622最大熵马尔科夫模型(MEMM)
    623条件随机场模型(CRF)
    624天气预测实例
    63基于深度学习的方式
    631数据表征形式
    632序列处理模型
    本章小结
    思考题
    第7章关系抽取
    71关系抽取基础
    711关系抽取概述
    712关系抽取的主要方法
    713深度学习与关系抽取
    714强化学习与关系抽取
    72基于半监督的关系抽取模式:Snowball系统
    721Patterns及Tuples的生成
    722Patterns及Tuples的评估
    723Snowball的实现细节
    73关系抽取工具——DeepDive
    731DeepDive概述
    732DeepDive工作流程
    733概率推断与因子图
    本章小结
    思考题
    第四部分自然语言处理高级任务
    第8章知识图谱
    81知识图谱基本概念
    811从语义网络到知识图谱
    812知识的结构化、存储及查询
    813几个开源的知识图谱
    82知识图谱的关键构建技术
    821本体匹配
    822实体链接
    823知识推理
    83知识图谱应用
    831反欺诈
    832个性化推荐
    833知识库问答
    本章小结
    思考题
    第9章文本分类
    91文本分类的常见方法
    911机器学习
    912模型融合
    913深度学习
    92文本分类的不同应用场景
    921二分类
    922多分类
    923多标签多分类
    93案例:搭建一款新闻主题分类器
    931数据预处理
    932训练与预测
    933改进
    本章小结
    思考题
    第10章文本摘要
    101抽取式摘要
    1011传统方法
    1012基于深度学习的方法
    1013抽取式摘要的训练数据问题
    102生成式摘要
    1021基础模型
    1022前沿模型中的技巧
    1023强化学习与生成式摘要
    103案例:搭建网球新闻摘要生成器
    1031基于词频统计的摘要生成器
    1032基于图模型的摘要生成器
    1033结果分析
    本章小结
    思考题
    第11章机器翻译
    111传统机器翻译
    1111源起
    1112基于规则
    1113基于大规模语料
    112统计机器翻译
    1121相关流派
    1122基于信源信道的统计机器翻译
    1123案例:外星语的翻译实战
    113神经机器翻译
    1131基本原理
    1132改进机制
    1133前沿与挑战
    本章小结
    思考题
    第12章聊天系统
    121聊天系统的类型
    1211闲聊式机器人
    1212知识问答型机器人
    1213任务型聊天机器人
    122聊天系统的关键技术
    1221检索技术
    1222意图识别和词槽填充
    1223对话管理
    1224强化学习与多轮对话
    123案例:闲聊机器人实战
    1231技术概要
    1232基本配置及数据预处理
    1233闲聊机器人模型的搭建
    1234模型训练、预测以及优化
    本章小结
    思考题
    第五部分自然语言处理求职
    第13章自然语言处理技术的现在、未来及择业
    131自然语言处理组织及人才需求介绍
    1311学术界
    1312工业界
    1313人才需求现状
    132未来与自然语言处理
    1321自然语言处理热点技术方向
    1322自然语言处理的应用畅想
    1323自然语言处理带来的行业冲击
    133面试题
    1331数据结构与算法
    1332数学基础
    1333机器学习与深度学习
    1334自然语言处理专业
    1335实际问题解决及技术领域见解
    本章小结
    思考题
    附录A思考题参考答案
    附录B面试题答案
微信公众号

热门文章

更多