NLP | NLP前置技术
NLP前置技术解析
NLP前置技术解析
安装Anaconda
推荐用Anaconda清华软件镜像站 下载
正则表达式
python中用re
模块来实现正则表达式。
通过re.search(regex, string)
这个方法,来检查string
字符串是否匹配正则表达式regex
。如果匹配到,则返回match
对象,否则返回None
。
eg1:
import re
text_string = ''
regex = ''
p_string = text_string.split('。')
for line in p_string:
if re.search(regex, line) is not None:
print(line)
一些常见匹配
.
:匹配除了换行符(\n
、\r
)以外的任意字符,相当于[^\n\r]
\d
:匹配一位数字
[ABC]
:匹配[...]
中的所有字符
[^ABC]
:匹配除了[...]
中的所有字符
[A-Z]
:匹配一个区间,所有大写字母[abc]
匹配所有小写字母
[\s\S]
:匹配所有,\s
匹配所有空白符,\S
匹配 所有非空白符(包括换行)
\w
:匹配字母、数字、下划线。相当于[A-Za-z0-9]
$
:匹配结尾
^
:匹配开始
Numpy
创建数组
import numpy as np
vector = np.array([1,2,3,4])
matrix = np.array([[1,2],[3,4],[5,6]])
获取Numpy中数组的维度
arr = np.arange(15)#[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
arr = arr.reshape(3,5)#3行5列
print(a.shape)#(3,5)
获取本地数据
import numpy as np
nfl = np.genfromtxt("D:/.../..../xxx.csv", delimiter=',')
print(nfl)
注意: Numpy数组中的数据必须是相同类型,比如布尔类型(bool)、整型(int),浮点型(foat)以及字符串类型( string). Numpy可以自动判断数组内的对象类型,我们可以通过 Numpy数组提供的 dtype属性来获取类型。