`
thd52java
  • 浏览: 70534 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

自然语言处理的若干问题

阅读更多

一、语言模型

(一)N元语言模型

(二)语言模型性能评价

(三)数据平滑

(四)语言模型自适应方法

 

二、汉语自动分词和词性标注

(一)基本分词方法

(二)未登陆词处理方法

(三)基于多特征的命名实体模型

(四)词性标注

(五)词性标注的一致性检查和自动校对

三、句法分析

(一)统计句法分析以及句法分析的检查

(二)层次化汉语长句结构分析

(三)浅层句法分析

(四)依据句法理论与依存句法分析

四、语义消歧

(一)有监督的语义消歧

(二)基于词典的语义消歧

(三)无监督的语义消歧

(四)语义消歧系统评测

五、文本分类

(一)文本表示

(二)文本 特征选择方法

(三)特征权重计算方法

(四)分类器设计

(五)文本分类器性能评估方法

六、自动文摘和信息抽取

(一)多文档摘要

(二)单文档摘要

(三)信息抽取

七、文档聚类

(一)聚类算法

(二)聚类结果评估

八、自然语言处理的主要范畴

1.文本朗读Text to speech/语音合成Speech synthesis

2.语音识别Speech recognition

3.中文自动分词Chinese word segmentation

4.词性标注Part-of-speech tagging

5.句法分析Parsing

6.自然语言生成Natural language generation

7.文本分类Text categorization

8.信息检索Information retrieval

9.信息抽取Information extraction

10.文字校对Text-proofing

11.问答系统Question answering

12.机器翻译Machine translation

13.自动摘要Automatic summarization

14.文字蕴涵Textual entailment

九、自然语言处理研究的难点

1. 单词的边界界定

在口语中,词与词之间通常是连贯的,而界定字词边界通常使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。

2.词义的消歧

许多字词不单只有一个意思,因而我们必须选出使句意最为通顺的解释。

3.句法的模糊性

自然语言文法通常是模棱两可的,针对一个句子通常可能会剖析Parse)出多棵剖析树Parse Tree),而我们必须要仰赖语意及前后文的资讯才能在其中选择一棵最为适合的剖析树。

4.有瑕疵的或不规范的输入

例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别OCR)的错误。

5.语言行为与计划

句子常常并不只是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽说 回答“不”或者“太远了我拿不到”也是可以接受的。再者,如果一门课程去年没开设,对于提问“这门课程去年有多少学生没通过?”回答“去年没开这门课”要 比回答“没人没通过”好。

<!--EndFragment-->
1
0
分享到:
评论

相关推荐

    自然语言处理论文集合

    基于统计的自然语言处理.pdf 基于自然语言理解的自动应答技术及应用研究.pdf 基于语义的汉语句法分析系统的研究与实现.pdf 基于语料库学习的多主题自动问答系统研究.pdf 基于语法功能匹配的句法分析算法.pdf ...

    智能问答,自然语言处理相关资源与源码

    PYTHON自然语言处理_中文版.pdf Python进行NLP分析基础示例.zip Python网络数据采集.pdf Tensorflow Tensorflow 基于BM25F模型的Web文本挖掘个性化推荐研究_邵康.pdf 基于Spark的舆情分析架构研究_谭造乐.caj 问答...

    《数据结构课程设计》《机器智能》《自然语言处理》语言C++、Java、Python.zip

    C 语言是一种十分强大的语言,可以进行多种方式进行程序的设计,它是一种很有特色的高级语言通过若干个函数组成,它具备构成程序设计的 3 种基本结构顺序,选择和循环结构。C语言编辑简洁明了,运算符丰富且功能强大...

    基于自然语言处理的神经图嵌入方法《Neural Graph Embedding methods for NLP》,phd_thesis.zip

    这篇论文可中详述了他在GNN(尤其是GCN)领域的深入探索,并附有相应的源代码下载,做该方向的研究者可从他的thesis中得到大量启示,有助于深挖其中的若干关键问题。

    计算语言学讲义(02)词典

    计算语言学与词典学、词典编撰、计算机词典编撰学等若干问题。

    中国自然语言处理行业研究报告

    FPGA 具有可编程性,设计者可根据需要的... DSP 内有控制单元、运算单元、各种寄存器以及存储单元,其外围还可以连接若干存储 器和一定数量的外部设备,有软、硬件的全面功能,本身是一个微型计算机,运算能力强、 速度

    自动文本分类若干基本问题研究

    非常好的一篇研究自然语言处理中关于汉语分词的问题的论文,描述了一种具有语言无关性的显著特点的算法。

    中文信息处理中若干关键技术的研究

    随着科学技术的高速发展及名种资源数量的不断增多为了提高效率,信息处理己经成为当前最重要的研究内容,其中涉及到切词和属性选择、信息抽取、自然语言理解、自动聚类和分类、自动摘要、自动标引和主题识别、信息...

    GPT曾经也是个小菜鸡

    它用于自然语言生成和处理任务,是一种预先训练的语言模型,其目的是在许多不同的自然语言处理任务中构建一个通用的模型。 它就是初代GPT! GPT出生后常被用于: 自然语言推理:判断两个句子的关系(包含、矛盾、...

    文本情感倾向分析若干问题研究论文

    文本情感倾向性分析是自然语言处理领域研究的热点,在商业产品用户反馈分析、政府舆情分析、垃圾邮件过滤、信息安全和自动文摘等领域都有广泛的应用。情感倾向分析研究的涉及面很广,本文结合了实际的系统开发,着重...

    Python中一些自然语言工具的使用的入门教程

    那些熟悉人工语言(比如 Python)的文法 和解析的读者来说,理解自然语言模型中类似的 —— 但更深奥的 —— 层不会有太大困难。 术语表 全集(Corpora):相关文本的集合。例如,莎士比亚的作品可能被统称为一个 ...

    PROLOG_语言_李永礼,20页

    在国际上 , 它已广泛应用于如专家系统、自然语言理解、 关系数据库自动程序设计等等方面 . 本手册主要介绍马赛大学人工智能小组的新作P ROLOG一n , 它于1982年推出 , 内容包括基本思想、使用简单说明 、若干例子 ( ...

    ChatGPT的工作原理

    ChatGPT是基于人类反馈的强化学习(RLHF)和大规模预训练语言模型(LLM)结合的集成之作,通过"模仿学习+强化学习"学习范式最终表现出非常通用且强大的自然语言处理能力,不仅可以与用户针对任意话题进行高质量的...

    计算思维-计算机算法的表示和设计.pptx

    1)自然语言表示:用自然语言来描述算法。 【例】用自然语言来描述输入矩形的两个边,求矩形的面积和周长的算法。其中变量a、b存储矩形的两个边长;变量s、l分别存储矩形的面积和周长。 Step1:分别输入2个边长给a...

    VBScript 语言参考

    Select Case 语句 根据表达式的值,在若干组语句中选择一组执行。 Set 语句 将对象引用赋予变量或属性。 SetLocale 函数 设置全局区域设置,返回以前区域设置. Sgn 函数 返回表示数的符号的整数。 Sin 函数 返回...

    PL/SQL程序设计

    本章的主要内容是讨论引入PL/SQL语言的必要性和该语言的主要特点,以及了解PL/SQL语言的重要性和数据库版本问题。还要介绍一些贯穿全书的更详细的高级概念,并在本章的最后就我们在本书案例中使用的数据库表的若干...

    叫停训练GPT是否有必要,人工智能真的危险吗

    就现在的技术而言,不管是GPT还是百度的文心一言,都是基于机器学习的自然语言处理技术,虽然它可以生成文本内容、文章、诗歌,甚至还能写代码,但也只是有限的辅助作用,离产生真正的意识还十分遥远。 并且,GPT的...

    微软发布Visual ChatGPT

    近来,AI领域迎来各个领域的大突破,ChatGPT展现出强大的语言问答能力和推理能力,然而作为一个自然语言模型,它无法处理视觉信息。 与此同时,视觉基础模型如Visual Transformer或者Stable Diffusion等,则展现出...

    50+各行各业常用数据集机器学习资源

    包含了计算机视觉,自然语言处理,金融,电商,医疗,工业,农业等数据集,非常适合学习和实践。 数据集由若干属性构成,这些属性是由数据源提供的值。监视环境每次查询代理程序时,都会从数据源访存值,然后作为...

    VBScript 语言参考中文手册CHM

    Select Case 语句 根据表达式的值,在若干组语句中选择一组执行。 Set 语句 将对象引用赋予变量或属性。 SetLocale 函数 设置全局区域设置,返回以前区域设置. Sgn 函数 返回表示数的符号的整数。 Sin 函数 返回...

Global site tag (gtag.js) - Google Analytics