实验语料:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。这一学科的发展经历了20世纪40年代的基础期。1957至1970年符号与随机方法时期。以及后来的经验主义和大融合(1983-1999),直至当今的机器学习。
4.1利用re.search ( regex ,string )方法打印文本中包含:“自然语言”这个字符串的行内容;打印以“期”字结尾的句子。
4.2利用正则表达式和findall()两种方式抽取文本中的数字年份。
4.3 简答:自然语言处理的难点有哪些?自然语言处理处理的层次?
import re
year_pattern="(\d{1,4}年)"
month_pattern="(([0?][1-9])月)|(([1?][0-2])月)|([1-9]月)"
day_pattern="([0?][1-9]日)|([1?][0-9]日)|([2?][1-9]日)|([3][0-1]日)"
date_pattern="(\d{1,4}年)((([0?][1-9])月)|(([1?][0-2])月)|([1-9]月)?)(([0?][1-9]日)|([1?][0-9]日)|([2?][1-9]日)|([3][0-1]日)?)"
def get_date(val):
res=re.search(date_pattern,val)
if res:
return res.group()
return None
def findall(content):
ree = re.compile(date_pattern)
result = re.findall(ree,content)
if result: #是个list
return result
def readtxt():
youtxtpath = "./aa.txt"
with open(youtxtpath,"r") as f:
line = f.readline()
result = re.search(r"自然语言",line)
if result: #匹配到
print(line) #打印文本中包含:“自然语言”这个字符串的行内容
result = re.search(r"[,.?!].*期[,.?!]",line) #打印以“期”字结尾的句子。 标点符号有多岁自己处理
if result:
print(line)
自然语言处理的难点:错别字,新词,语言与行为不一致啊,等等。。。
自然语言处理处理的层次: 1、语音层次2、词形层次3、词汇层次4、句法层次5、语义层次6、语用层次7、语境层次
正则表达式只能用来处理所谓正规(regular)的文本,而不适合处理自然语言,比如说有人说sep 2020,有人说2020年9月,有人说9/18/2020,五花八门,有人说2020-9,但是有人写2020-9却表示一个算术式子,这用正则根本不能做到精确匹配。