NLP | NLP前置技术

NLP前置技术解析

NLP前置技术解析

安装Anaconda

推荐用Anaconda清华软件镜像站 下载

正则表达式

python中用re模块来实现正则表达式。

通过re.search(regex, string)这个方法,来检查string字符串是否匹配正则表达式regex。如果匹配到,则返回match对象,否则返回None

正则表达式教程

eg1:

import re
text_string = ''
regex = ''
p_string = text_string.split('。')
for line in p_string:
    if re.search(regex, line) is not None:
        print(line)

一些常见匹配

.:匹配除了换行符(\n\r)以外的任意字符,相当于[^\n\r]

\d:匹配一位数字

[ABC]:匹配[...]中的所有字符

[^ABC]:匹配除了[...]中的所有字符

[A-Z]:匹配一个区间,所有大写字母[abc]匹配所有小写字母

[\s\S]:匹配所有,\s匹配所有空白符,\S匹配 所有非空白符(包括换行)

\w:匹配字母、数字、下划线。相当于[A-Za-z0-9]

$:匹配结尾

^:匹配开始

Numpy

创建数组

import numpy as np
vector = np.array([1,2,3,4])
matrix = np.array([[1,2],[3,4],[5,6]])

获取Numpy中数组的维度

arr = np.arange(15)#[0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
arr = arr.reshape(3,5)#3行5列

print(a.shape)#(3,5)

获取本地数据

import numpy as np
nfl = np.genfromtxt("D:/.../..../xxx.csv", delimiter=',')
print(nfl)

注意: Numpy数组中的数据必须是相同类型,比如布尔类型(bool)、整型(int),浮点型(foat)以及字符串类型( string). Numpy可以自动判断数组内的对象类型,我们可以通过 Numpy数组提供的 dtype属性来获取类型。

#NLP #笔记
0%