基础
数据类型
整数量数/浮点数
字符串字符串
布尔布尔值True和False
空值都不是0
元组元组类型不必统一(1“abc”0.4)
字典键-值
列表内置数据类型:列表[1,“abc”, 0.4],列表是一种有序的集合,可以随时添加和删除其中的元素
变量
python是动态变量,不仅可以是数字,还可以是任意数据类型,是引用
与之对应的是静态变量,java是静态变量
字符串
字符串可以用“或”者”括起来表示。
如果一个字符串包含很多需要转义的字符,对每一个字符都进行转义会很麻烦。为了避免这种情况,我们可以在字符串前面加个前缀r,表示这是一个原始的 字符串,里面的字符就不需要转义了。
r“\ (~ _ ~)/\”(~ _ ~)/
在多行字符串前面添加r,把这个多行字符串也变成一个原始字符串
r“Python是由“圭多”。
它是免费的,很容易学习。
让我们开始学习Python imooc !"
语法
如果年龄=20
如果年龄祝辞=18:
打印'你的年龄,年龄
打印“成人”
打印“结束”
dict
d={
“亚当”:95年,
“丽莎”:85年,
“巴特”:59
}
打印'亚当:“d(“亚当”)
打印”丽莎:“d(“丽莎”)
打印“巴特:“d(“巴特”)
注释
单行注释用#
多行注释
" "
"
编程库
1。
进口时间
打印(time.time ())
=时间。作用是time.time ())
打印(时间)
打印(time.tm_year)
" "
1563803665.310865。struct_time (tm_year=2019, tm_mon=7, tm_mday=22日tm_hour=21日tm_min=54, tm_wday tm_sec=25日=0,tm_yday=203, tm_isdst=0)
2019
" "
2。Matplotlib
绘图工具包
3。Scikit-learn
封装了大量经典以及最新的机器学习模型
4。熊猫
针对于数据处理和分析的python工具包,实现了大量便于数据读,写清洗、填充及分析功能
4.1读取文件
熊猫作为pd导入
#两个数据类型:系列,DataFrame
data_path=" C:/用户/admin/桌面/111。csv”
#读取文件
def read_file (data_path):
数据=pd。read_csv (data_path、编码=癎BK”)
数据=datas.dropna ()
返回数据
data=https://www.yisu.com/zixun/read_file (data_path)
打印(数据)
#获取某一列文字Python字典(字典)——祝辞contents_agent转化成一整段
contents_agent=数据(“asr_agent_raw”)
内容=contents_agent.values.tolist ()
5。进口jieba jieba
stopwords_file=癉:/gitProject/smartlink-sqc/smartlink-sqc-wordle/python/dict/user_dict。txt”
def seg_word(内容):
内容=contents.values.tolist ()
jieba.load_userdict (stopwords_file)
段=[]
线的内容:
试题:
之后,=jieba.lcut(线)
之后,凹陷的:
如果len(凹陷)比;1、赛格!=\ r \ n和\
u ' \ u4e00 ' & lt;=赛格& lt;=u \ u9fa5或\
u ' \ u0041 ' & lt;=赛格& lt;=u \ u005a或\
u ' \ u0061 ' & lt;=赛格& lt;=u“\ u007a”:
segment.append(凹陷)
除了:
打印(线)
继续words_df=pd。DataFrame({}“单词”:段)
stopwords=pd。read_csv (stopwords_file
index_col=False,
=3,引用
9月=皌 \”,
名称=[' stopwords '],
编码=皍tf - 8”) #引用=3全不引用
words_df=words_df [~ words_df.words.isin (stopwords.stopwords)]
返回words_df
#进行分词
words_agent=seg_word (contents_agent)
打印(words_agent)
6。NumPy,SciPy
NumPy最基础的编程库,提供一些高级的数学运算机制和高效的向量和矩阵运算功能
SciPy是子啊NumPy的基础上构建的,更为强大的科学计算包
进口NumPy np
def word_freq (words_df):
words_stat=words_df.groupby(=['文字'])(“单词”).agg({“计数”:np.size})
words_stat=words_stat.reset_index () .sort_values(=(“计数”), 提升=False)
返回words_stat
words_stat_agent=word_freq (words_agent)
#打印词频较高的前10
打印(words_stat_agent.head (10))
7。蟒蛇平台
一次性获得300多种用于科学和工程计算相关任务的python编程库的支持
人工智能——推荐算法理论应用场景
基于内容的推荐系统原理
代价函数。