新書推薦:

《
英国海上霸权的兴衰
》
售價:HK$
107.8

《
版图之枷:军事后勤视野下的明代国家兴亡
》
售價:HK$
97.9

《
肌筋膜连接与修复
》
售價:HK$
75.9

《
礼教中的女性与生活中的女性:汉代女性形态研究
》
售價:HK$
63.8

《
无人机航拍酷炫运镜119招:从构图、拍摄到剪辑
》
售價:HK$
96.8

《
慢思考,快心流:深度开发大脑潜能的思维方式(一本精准的天才训练手册,一套超凡的心流打造功法。精进领航人小务虚脑洞再开,助你开发大脑无限潜能)
》
售價:HK$
63.8

《
《长河落日耀金戈——中国古代北方少数民族征战史例 》(以十场战争解读千年边塞历史,再现“铁马冰河入梦来”的热血豪迈)
》
售價:HK$
41.8

《
瀛波志(大都会南部边缘的乌夜与拂晓,社幻小说家的机械奇趣宇宙志。一部百科全书式小说,陆源将中文重新淬炼了一遍)
》
售價:HK$
107.8
|
內容簡介: |
文本处理是目前互联网内容应用如搜索引擎、推荐引擎的关键技术。本书涵盖了文本处理概念和技术的多个方面,包括文本预处理、搜索、字符串匹配、信息抽取、命名实体识别、分类、聚类、标签生成、摘要、问答等。本书的特点在于通过实例来理解文本处理的这些概念和技术,读者利用现有的开源工具就可以自己实现这些实例。
|
目錄:
|
第1章 开始驾驭文本 ...............................................................................1
1.1 驾驭文本重要的原因 ...............................................................................................2
1.2 预览:一个基于事实的问答系统 ...........................................................................4
1.2.1 嗨,弗兰肯斯坦医生 ...................................................................................5
1.3 理解文本很困难 .......................................................................................................8
1.4 驾驭的文本 .............................................................................................................11
1.5 文本及智能应用:搜索及其他 .............................................................................13
1.5.1 搜索和匹配 .................................................................................................13
1.5.2 抽取信息 .....................................................................................................14
1.5.3 对信息分组 .................................................................................................15
1.5.4 一个智能应用 .............................................................................................15
1.6 小结 .........................................................................................................................15
1.7 相关资源 .................................................................................................................16
第2章 驾驭文本的基础 ..........................................................................17
2.1 语言基础知识 .........................................................................................................18
2.1.1 词语及其类别 .............................................................................................19
2.1.2 短语及子句 .................................................................................................20
2.1.3 词法 .............................................................................................................21
2.2 文本处理常见工具 .................................................................................................23
2.2.1 字符串处理工具 .........................................................................................23
2.2.2 词条及切词 .................................................................................................23
2.2.3 词性标注 .....................................................................................................25
2.2.4 词干还原 .....................................................................................................27
2.2.5 句子检测 .....................................................................................................29
2.2.6 句法分析和文法 .........................................................................................31
2.2.7 序列建模 .....................................................................................................33
2.3 从常见格式文件中抽取内容并做预处理 .............................................................34
2.3.1 预处理的重要性 .........................................................................................35
2.3.2 利用Apache Tika抽取内容 ........................................................................37
2.4 小结 .........................................................................................................................39
2.5 相关资源 .................................................................................................................40
第3章 搜索 ............................................................................................41
3.1 搜索和多面示例:Amazon.com ............................................................................42
3.2 搜索概念入门 .........................................................................................................44
3.2.1 索引内容 .....................................................................................................45
3.2.2 用户输入 .....................................................................................................47
3.2.3 利用向量空间模型对文档排名 .................................................................51
3.2.4 结果展示 ......
|
|