




自然语言处理是人工智能的重要方向之一,被誉为人工智能皇冠上的“明珠”。它融合了语言学、计算机科学、机器学习等多学科内容。本书主要包含基础技术、核心技术以及模型分析三个部分。基础技术部分主要介绍自然语言处理的基础任务和底层技术,包含词汇分析、句法分析、语义分析、篇章分析和语言模型;核心技术部分主要介绍自然语言处理应用任务和相关技术,主要包括信息抽取、机器翻译、情感分析、智能 问答、文本摘要、知识图谱;模型分析部分主要介绍基于机器学习的自然语言处理模型的稳健性和可解释性问题。
作者简介:
张奇,复旦大学计算科学技术学院教授、博士生导师。主要研究方向是自然语言处理和信息检索,聚焦自然语言表示、信息抽取、鲁棒性和解释性分析等任务。兼任中国中文信息学会理事、中国中文信息学会信息检索专委会常务委员、中国人工智能青年工作委员会常务委员、SIGIR Beijing Chapter组织委员会委员等。多次担任ACL、EMNLP、COLING、全国信息检索大会等重要国际、国内会议的程序委员会主席、领域主席、讲习班主席等。近年来,承担了国家重点研发计划课题、国家自然科学基金、上海市科委等多个项目,在国际重要学术刊物和会议上发表论文150余篇,获得美国授权专利4项,作为第二译者翻译专著《现代信息检索》。获得WSDM 2014最佳论文提名奖、COLING 2018 领域主席推荐奖、NLPCC 2019杰出论文奖、COLING 2022杰出论文奖。获得上海市“... 张奇,复旦大学计算科学技术学院教授、博士生导师。主要研究方向是自然语言处理和信息检索,聚焦自然语言表示、信息抽取、鲁棒性和解释性分析等任务。兼任中国中文信息学会理事、中国中文信息学会信息检索专委会常务委员、中国人工智能青年工作委员会常务委员、SIGIR Beijing Chapter组织委员会委员等。多次担任ACL、EMNLP、COLING、全国信息检索大会等重要国际、国内会议的程序委员会主席、领域主席、讲习班主席等。近年来,承担了国家重点研发计划课题、国家自然科学基金、上海市科委等多个项目,在国际重要学术刊物和会议上发表论文150余篇,获得美国授权专利4项,作为第二译者翻译专著《现代信息检索》。获得WSDM 2014最佳论文提名奖、COLING 2018 领域主席推荐奖、NLPCC 2019杰出论文奖、COLING 2022杰出论文奖。获得上海市“晨光计划”人才计划、复旦大学“卓越2025”人才培育计划等支持,获得钱伟长中文信息处理科学技术一等奖、汉王青年创新一等奖、上海市科技进步二等奖、教育部科技进步二等奖、ACM上海新星提名奖、IBM Faculty Award等奖项。 桂韬,复旦大学自然语言处理实验室副研究员、硕士生导师。研究领域为预训练模型、信息抽取和鲁棒模型。在高水平国际学术期刊和会议上发表论文40余篇,主持国家自然科学基金、计算机学会、人工智能学会的多个基金项目。获钱伟长中文信息处理科学技术奖一等奖(2/5)、中国中文信息学会优秀博士论文奖、COLING 2018 最佳论文提名奖、NLPCC 2019 杰出论文奖,入选第七届“中国科协青年人才托举工程”、上海市启明星计划。 黄萱菁,复旦大学计算机学院教授、博士生导师。主要从事人工智能、自然语言处理和信息检索研究。兼任中国中文信息学会理事,中国计算机学会自然语言处理专委会副主任,中国人工智能学会女科技工作者委员会副主任,计算语言学学会亚太分会副主席,亚太信息检索学会指导委员会委员。近年来,承担了国家重点研发计划课题、国家自然科学基金等多个项目,在国际重要学术刊物和会议上发表论文150余篇。获钱伟长中文信息处理科学技术奖、上海市育才奖、人工智能全球女性学者、福布斯中国科技女性等多项荣誉。
目录:
第一部分 基础技术 1
第1章 绪论 2
1.1 自然语言处理的基本概念 2
1.2 自然语言处理的基本范式 10
1.3 本书内容安排 16
第2章 词汇分析 18
2.1 语言中的词汇 18
2.2 词语规范化 23
2.3 中文分词 25
2.4 词性标注 38
2.5 延伸阅读 46
2.6 习题 47
第3章 句法分析 48
3.1 句法概述 48
3.2 成分句法分析 53
3.3 依存句法分析 69
3.4 句法分析语料库 86
3.5 延伸阅读 89
3.6 习题 90
第4章 语义分析 91
4.1 语义学概述 91
4.2 语义表示 98
4.3 分布式表示 103
4.4 词义消歧 119
4.5 语义角色标注 132
4.6 延伸阅读 143
4.7 习题 144
第5章 篇章分析 145
5.1 篇章理论概述 145
5.2 话语分割 153
5.3 篇章结构分析 157
5.4 指代消解 167
5.5 延伸阅读 179
5.6 习题 180
第6章 语言模型 181
6.1 语言模型概述 181
6.2 n 元语言模型 182
6.3 神经网络语言模型 188
6.4 预训练语言模型 191
6.5 大规模语言模型 203
6.6 语言模型评测方法 210
6.7 延伸阅读 210
6.8 习题 212
第二部分 核心技术 213
第7章 信息抽取 214
7.1 信息抽取概述 214
7.2 命名实体识别 216
7.3 关系抽取 235
7.4 事件抽取 251
7.5 延伸阅读 261
7.6 习题 262
第8章 机器翻译· 263
8.1 机器翻译概述 263
8.2 基于统计的机器翻译方法 266
8.3 基于神经网络的机器翻译方法 278
8.4 机器翻译语料库 288
8.5 延伸阅读 290
8.6 习题 291
第9章 情感分析 292
9.1 情感分析概述 292
9.2 篇章级情感分析 300
9.3 句子级情感分析 307
9.4 属性级情感分析 313
9.5 延伸阅读 331
9.6 习题 331
第10章 智能问答 332
10.1 智能问答概述 332
10.2 阅读理解 336
10.3 表格问答 347
10.4 社区问答 351
10.5 开放领域问答 357
10.6 延伸阅读 363
10.7 习题 364
第11章 文本摘要 365
11.1 文本摘要概述 365
11.2 抽取式文本摘要 368
11.3 生成式文本摘要 377
11.4 文本摘要评测 388
11.5 文本摘要语料库 393
11.6 延伸阅读 394
11.7 习题 395
第12章 知识图谱 396
12.1 知识图谱概述 396
12.2 知识图谱的表示与存储 400
12.3 知识图谱的获取与构建 413
12.4 知识图谱推理 426
12.5 知识图谱问答 434
12.6 延伸阅读 446
12.7 习题 447
第三部分 模型分析 448
第13章 模型稳健性 449
13.1 稳健性概述 449
13.2 数据偏差消除 452
13.3 文本对抗攻击方法 454
13.4 文本对抗防御方法 463
13.5 模型稳健性评测基准 469
13.6 延伸阅读 477
13.7 习题 478
第14章 模型可解释性 479
14.1 可解释性概述 479
14.2 解释性分析方法 483
14.3 自然语言处理算法的解释性分析方法 492
14.4 延伸阅读 500
14.5 习题 500
参考文献 501
索引 564
点击下载