前言
以下为个人理解,未必正确。欢迎大家讨论和指正。
操作题目
1、如何查看python已安装的第三方库(有两种方法)
1.在cmd下输入pip list回车
2.打开ANACONDA NAVIGATOR,选择左边的environments。之后在右边选择installed即可看到所有安装的库。(我的python是安装anaconda的时候自带的,第一次用的时候是这个方法查看安装了哪些库)
2、Mysql特定版本 group by 后用 * 出错 ,报错出现 Error 1055 应如何解决
没遇到过,不知道怎么解决。
Mysql
1、语句效率,子查询与连接后哪种效率更高?为什么?请写出具体例子。(以经典45道题为例)
连接查询效率更高。
因为子查询首先要进行一次查询,之后再以这次查询的结果作为条件进行查询。这就已经比连接方法多一次查询了。其次,子查询要创建一个临时表,会对性能产生影响。
以45题中的3.查询在 SC 表存在成绩的学生信息为例
连接查询:
select b.*
from sc a
left join student b
on a.sid = b.sid
group by b.sid;
子查询:
select *
from student
where sid in (select sid from sc);
2、left join 后的 on 条件1 and 条件2,与left join 后的 on 条件1 where 条件2,有什么区别?
这个题目的关键在于两点,第一left join会保留左表全部内容(也就是说右边可能会产生null值),第二where筛选和连接的执行顺序(先join连接,再where筛选)。
对于left join 后的 on 条件1 and 条件2,因为是left join,所以左表全部内容都会显示,右表能匹配上的内容会匹配上并且显示出来,匹配不上的部分会显示null。这时候是单纯的连接,没有进行where筛选,所以最后一条会有一个null值。
对于left join 后的 on 条件1 where 条件2,这时候是先执行left join连接再执行where筛选。在执行left join的时候,因为只有条件1的限制而没有where筛选的限制,右边null值一样会显示。但是加上where条件2语句对前面的表进行筛选的时候,只会保留符合where条件2的内容,所以这时候右边的null值因为不符合条件2会被剔除。这时候的结果与第一种情况不同,是不包含null值的。
如果这个题目是inner join,那么两种操作方式结果是一样的,因为不存在null值。
Python
一、存在一份生成的数据
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
问题:
1、该生成的数据索引列的格式类型是什么?(直接回答)
2、有哪些方式可以查看数据类型?
3、如何查看索引的数据类型?
4、df.loc[‘2013-01-01’] 可以取出对应第一条数据吗?
5、如果想要同时取 第一行和第三行数据,应该如何处理?
回答:
1、索引列的格式为DatetimeIndex,数据格式为datetime64。
2、整体格式:type()。内部数据类型:.info(),.dtypes。
3、df.index
4、可以
5、
from datetime import datetime
df.loc[[datetime.strptime('2013-01-01', '%Y-%m-%d'),datetime.strptime('2013-01-03', '%Y-%m-%d')]]
或者
df.iloc[[0,2]]
二、apply、applymap、map的区别是什么?适用场景是什么?请以上述数据搭配函数举例试验。
apply,applymap和map的主要区别在两点,第一个是适用的对象,第二个是产生作用的范围。
具体说明如下:
· apply:可应用于Series(对象)和DataFrame(对象)。应用于Series时会对Series中的每一个元素(范围)产生效果。应用于DataFrame时,会应用于DataFrame的每一行或者每一列(范围)。此时,如果axis=0(默认),则会把每一列(其实是一个Series)作为参数传入apply里的函数。如果,如果axis=1,则会把每一行(其实是一个Series)作为参数传入apply里的函数。
需要注意的是,返回每一个结果会组成一个Series,要特别注意这个Series的索引。如果是axis=0,即按列传入,返回的Series会是原本Dataframe的列名。如果axis=1,即按行传入,返回的Series会是原本Dataframe的行标签。
· map:应用在单独一个Series(对象)的每个元素中(范围)
· applymap:应用在DataFrame(对象)的每个元素中(范围)
以下为搭配函数举例:
dates = pd.date_range('20130101', periods=6)
df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
Apply应用于Series:
用于单独一行的情况(单独一行为Series对象)
df.loc['2013-01-01'].apply(lambda x:x+1)
用于单独一列的情况(单独一列也为Series对象)
df.A.apply(lambda x:x+1)
Apply应用于DataFrame:
df.apply(max)
df.apply(lambda x:x+1)
Map用于Series:
df.loc['2013-01-01'].map(lambda x:x+1)
df.A.map(lambda x:x+1)
Applymap用于DataFrame:
df.applymap(lambda x:x+1)
通过以上分析,代码及运行结果,有以下结论:
1.首先明确一个观点,DataFrame中的单独一行或者单独一列是一个Series。
2.因此,在Apply应用于DataFrame单独一行或者单独一列时,其实是应用于一个Series。此时,Apply和Map的效果是一样的。df.loc['2013-01-01'].apply(lambda x:x+1)
和df.loc['2013-01-01'].map(lambda x:x+1)
运行结果相同。df.A.apply(lambda x:x+1)
和df.A.map(lambda x:x+1)
运行结果也相同。
3.但是如果Apply是直接对应整个DataFrame发生作用,即对每一行或者每一列发生作用,那么结果与map不同。df.apply(lambda x:x+1)
与df.A.map(lambda x:x+1)
不同。
4.Apply作用于整个DataFrame时,有些情况下结果与Applymap相同,需要视具体传递的函数决定。df.apply(lambda x:x+1)
与df.applymap(lambda x:x+1)
结果相同,因为前者对每一列的每一个元素+1,后者是对全部元素+1,从结果来看是等价的。但是df.apply(max)
是特殊的,它针对DataFrame的每一列返回每一列的最大值,这个是Applymap不具备的。