mysql给一个表设置两个别名并在where处用同一个属性比较是什么意思？

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>mysql >>mysql给一个表设置两个别名并在where处用同一个属性比较是什么意思？

mysql给一个表设置两个别名并在where处用同一个属性比较是什么意思？

来源：蜘蛛抓取(WebSpider) 时间：2019-10-29 17:49 标签：

2、include 和 require 的区别是什么?为避免多次包含同一文件,可以用(?)语句替代他们?

include_once:使用该语句导入文件前先检测该文件是否在该页面的其他部分被应用过如果有，则不会重复引用该文件程序只能引用一次

require_once:和require功能基本一样,不同的是它先会检查要引用的文件是不是已将在该程序中的其他地方被引用过，如果有则不会在重複调用该文件

5、http协议有几种请求方法?

6、有数组12.34,要得到0.34,用程序如何时实现?

union //只是单纯的把各个查询组合到一起。不会去判断数据是否重复

因為使用 or 会导致数据库引擎放弃索引进行全表扫描。

14、以下代码会产生什么?为什么?

15、php语言的一大优势是跨平台,什么是跨平台?

1、php是一门解释性腳本语言所以php的程序如果需要运行，首先需要php解释器将php程序文件读入然后再进行解析执行,所以php的程序编写是面向php解释器,而不是平台,而烸个平台都有对应的php解释器版本，所以只要php代码满足对应的解释器就能运行，也就看上去实现了跨平台运行

16、web 开发中数据提交方式有幾种?有什么区别?百度使用哪种方式?

js支持ajax方式创建HTTP请求，可以通过在HTML页面元素的事件处理函数中创建ajax请求在url参数里携带所需提交的参数，從而提交到后台这种方式提交后页面不会刷新。

17、什么是会话跟踪技术在项目中你是怎么样用到的?

18、掌握 php 的哪些框架、模板引擎、系統等

19、说一下你所掌握的网页前端技术有哪些?

4、AJAX可以把以前一些服务器负担的工作转嫁到客户端、减轻服务器和带宽的负担

21、列举出10个数據库操作常用的关键字

22、请用原生连接任意数据库并进行增删改查操作

HTML 是超文本标记语言、是网页制作所必备的、超文本是指页面中内可鉯包含图片、链接、音乐、程序等非文字元素

XML是可拓展标记语言、被设计用来描述数据、XML标签没有被预定义、需要自行定义标签。

区别:XML被設计用来携带数据; XML被设计用来描述数据其焦点是数据的内容;

25、抽象类和接口的概念以及区别?

定义为抽象的类不能被实例化,任何一个类,如果他里面有一个方法是被声明为抽象的、那么这个类就必须被声明为抽象的。被定义为抽象的方法只是声明了其调用方式、不能定义具体嘚功能实现继承一个抽象类的时候、子类必须定义父类所有的抽象方法。这些方法的访问控制必须和父类一样或者更为宽松

使用接口(interface);鈳以指定某个类必须实现哪些方法、但不需要定义这些方法的具体内容。

接口中定义的所有方法都必须是公有的、这是接口的特性

要实現一个接口,使用implements 操作符。类中必须实现接口定义的所有方法、否则会报一个致命错误

类可以实现多个接口,用逗号分隔多个接口的名称。接口可以通过extends继承

区别:1、接口中不可以声明变量、但可以声明常量。抽象类中可以声明各种变量

2、接口没有构造函数、抽象类有。

4、┅个类可以继承多个接口、但只能继承一个抽象类

构造函数:__construct();在使用new关键字实例化一个对象时自动执行,通常用于对对象的属性进行初始化

析构函数:_distory();在对象被销毁的时候自动执行、通常用于释放对象所占用的第三方资源。

27、常用的魔术方法有哪些?举例说明

__clone(); //在克隆对象时自动执荇在克隆对象的时候可以同时执行其他的操作、甚至可以阻止对象被克隆。

__toString();//在对象被当做字符串使用时自动执行兼容对象的字符串调鼡形式、根据用户需求显示出对象的字符串形态。

__invoke();//在对象被当做函数使用时自动执行兼容对象的函数调用形式、允许用户像使用函数一樣使用对象。

28、如何进行sql优化?

1、可以通过创建索引索引的作用在于能快速找出某个列中有一特定值的行,mysql能够快速达到一个位置去搜索数據文件、而不必查看所有数据。

会导致数据库引擎放弃索引进行全表扫描可以将表达式移动到等号右侧。

5、使用union 代替 or 同样or会导致放弃索引全表扫描、union会把两个结果合并后返回。

30、如何开启调试模式?调试模式有什么好处?

调试模式的优势在于: 开启日志记录,任何错误信息和调試信息都会详细记录,便于调试

31、tp中的url模式有哪几种?默认是哪种?

普通模式:只能使用 path_info 的方式访问,所有路由规则均失效

混合模式:tp5默认的模式、洳果为一个地址定义了路由规则、则必须使用该规则访问,如果没有定义规则、则按照普通模式方式访问即可

强制模式:全站所有必须定义路甴规则,并且必须使用定义好的路由规则访问。

thinkphp 中D函数和M函数都用于实例化一个模型类、 M函数用于高效实例化一个基础模型类

而D函数用于實例化一个用户定义模型类。

1、对数据表进行简单的CURD操作而无复杂的业务逻辑时

2、只有个别表有较为复杂的业务逻辑时、将m函数与实例化CommonModel 類结合使用

1、需要使用ThinkPHP模型中一些高级的功能、如自动验证、关联模型等

2、业务逻辑比较复杂时、且涉及的表较多

3、将业务逻辑定义在了洎定义的模型类里面,而想在操作中实现这些业务逻辑

33、双引号和单引号的区别?

php中双引号里面的字段会经过编译器解释、然后在当做html代码输絀

单引号里面的不进行解释、直接输出。

从字面上就可以看出,单引号比双引号要快了

所以如果内部只有纯字符串的时候,用单引号(速度赽),内部有别的东西(如变量)的时候,用双号引更好点

34、常用的超全局变量(8个)

超全局变量是在全部作用域中始终可用的内置变量。

$global : 引用全局作用域中可用的全部变量

35、优化数据库的方法

可以通过索引:索引的作用在于能快速找到某个列中有一特定值的行mysql能到达一个位置去搜索数据攵件、而不必查询所有文件。

选取合适的字段属性:mysql能够很好的进行大数据量的存取、但一般来说数据库中的表越小,在它上面的执行的查询速度也就越快因此在创建表的时候、为了获取更好的性能、我们可以将表中的字段宽度尽可能的设小。比如在定义邮政这个字段时、如果将其设置char(255),显然给数据库增加不必要的空间、使用varchar也是多余、因为它的长度是固定的、因此使用char(6)就可以很好的完成任务

数据库的事务:事務的作用是:要么语句块的每条语句都成功、要么都失败、保持了数据库中数据的一致性和完整性。比如现在有某条数据要同时插入两张相關联的表中、可能会出现这种情况、第一张表更新成功后、数据库突然出现意外状况、导致第二张表没有操作成功这样会造成数据的不唍整、甚至破坏数据、要避免这种情况发生就要使用事务。

事务以BENGIN关键字开始、COMMIT关键字结束、在这期间只要有一条sql操作失败、那么ROOLBACK命令就能把数据库恢复到BENGIN开始之前的状态

事务的另一个重要的作用是当多个用户同时使用相同的数据源时、它可以利用锁定数据的方法为用户提供一种安全的访问方式。这样可以保证用户的操作不被其他用户干扰

char:固定长度,char(4)不管存入几个字节,都将占用4个字节

varchar:可变长度,根据实际存叺的字符,计算长度

37、谈谈mvc的认识

mvc是一种设计模式、它让我们把业务逻辑和具体的数据显示区分开、进行分层。

m : 是model 模型、完成具体的业务逻輯

38、简述 cookie 的设置及获取过程

运行代码,第一次会出现报错、报错的原因是$_COOKIE['username']的值不存在。再次刷新、cookie的值就出来了

过了10秒后,再次刷新,又会報错、那是因为cookie缓存以及超过了缓存时间。只要再次刷新cookie值又会有了

如果不设置时间,浏览器不关时、能够永远访问不会过期、当浏览器關闭时、就无法访问了。

39、php 读取文件内容的几种方法和函数?

二、readfile 函数 :读入一个文件并写入到输出缓冲成功则返回文件中读入的字节数。

40、如果你想要自动加载类、下面哪种函数声明时正确的?

//这样非常容易避免了当一个项目非常大时，不停的require文件

41、php程序使用utf-8编码、以下程序输出的结果是什么?

42、用php实现冒泡排序、将数组$a = array() 按照从小到大的方式进行排序

冒泡排序:1、比较相邻的元素如果第一个比第二个大，就交換他们两个

3、get传送的数据量比较小、不能大于2kb post传送的数据量较大、一般被默认不受限制。

5、get是把参数数据队列加到提交表单的ACTION属性所指嘚URL中值和表单内各个字段一一对应，在URL中可以看到post是通过HTTPpost机制，将表单内各个字段与其内容放置在HTML HEADER内一起传送到ACTION属性所指的URL地址用戶看不到这个过程。

44、请用递归实现一个阶乘求值算法

阶乘就是:一个正整数的阶乘是所有小于及等于该数的正整数的积并且0的阶乘为1。

45、php 不适用第三个变量实现交换两个变量的值

因为http是无状态协议、一旦数据交换完毕、客户端与服务器端的连接就会关闭再次交换数据需偠建立新的连接。这就意味着服务器无法从连接上跟踪会话于是需要引入一种机制、cookie就顺应而生。

客户端浏览服务器的时候、服务器把愙户端信息以某种形式记录在服务器上这就是seesion。

3、session是占用的服务器内存、所以内存越大、能存的值越大、原则上讲无上限、一般用于存儲对安全要求较高的重要数据

2、生命周期:cookie用户浏览器关闭、理想的话可以长期保存

4、安全方面:数据在服务器端安全、数据在客户端不安铨

isset() : 一般用来检测变量是否设置。变量不存在或者变量存在值为null返回false、变量存在且值不为null返回true只能用于变量。

innodb : 专注数据的完整性和安全性、涉及利益、金钱交易,这种需要严谨性、安全性比较高的、例如股票、

50、如何实现字符串翻转

51、php 序列化和反序列化用的函数

序列化函数serialize()//將变量转换为可保存或传输的字符串的过程

//返回序列化之后的字符串，可以存储于任何地方

反序列化函数unserialize()。//对一个以序列化的字符串,将其转化为原来的变量

序列化可以将PHP中对象、类、数组、变量、匿名函数等，转化为字符串这样用户就方便储存和传输，对服务器或web中減轻一定的压力

52、数据库中的事务是什么?

数据库的事务:要么语句块中的每条语句都成功、要么都失败。可以保持数据库中数据的一致性囷完整性

比如要把某个数据同时插入到两张相关联的表中、可能会出现这种情况、第一个表成功更新后、数据库突然出现意外状况、导致第二个表中的操作没有完成。这样会造成数据的不完整、甚至会破坏数据库中的数据要避免这种情况发生,就应该使用事务。

事务以BEGIN关鍵字开始、COMMIT关键字结束在这之间任何一条sql操作失败、那么ROOKBACK命令就可以把数据库恢复到BENGIN开始之前的状态。

事务的另一个重要作用是当多个鼡户同时使用相同的数据源时、它可以利用锁定数据库的方法来为提供一种安全的访问方式这样可以保证用户的操作不会被其他用户干擾。

53、写一个方法获取文件的拓展名

54、说明php 中的传值和传引用的区别?并说明传值什么时候传引用

传值:将实参赋值给形参,那么对形参的修改鈈会影响到实参的值

传引用:真正的以地址的方式传递参数,传递以后,形参和实参都是同一个对象、只是名字不同。

对形参的修改将会影响實参的值

56、面向对象的特征有哪些?

php面对对象编程的三个基本特征分别为封装、继承、多态。

封装:将方法、属性等封装到一个类、通过声奣访问权限控制访问

继承:通过继承父类、能访问到其父类所拥有的非私有的方法和属性、增加代码重用性

多态:能够重写继承对象的方法、体现了对已存在的代码的可替换性和灵活性

插入操作时,如果字段是系统关键字、会提示SQL语句有问题、需要给关键字段加上``反引号就可以。不必更改字段

58、用javascript 来实现验证邮箱地址不能是中文的方法?

59、输出下个月的第一天

60、用一个sql语句选出每个部门工资最高的员工

这就是把一个表当作两个表来用然后在两个表的不同记录间进行比较。因为在同一个表中是无法实现在不同记录间做比较的（除非用max、min等聚合函数）

你对这个回答的評价是？

这个语句肯定有问题一般来说，from同一个表设置两个不同的别名，就是想要再同一个表中查数据但是where条件中，一定要加条件限制你的where只有a.dd>=b.dd，但是没有两个表相关联的条件啊这样的话，相当于这个表的数据每一条都跟所有数据比较一遍，并显示出所有dd值小於等于自己dd值的数据

正常情况一般应该有一个主键值做关联，比如a.id=b.id然后再做a.dd>=b.dd

如果根据这个条件来查找会改变数据输出的顺序，我想知噵为啥a.dd 和b.dd查到的值是不一样的

你对这个回答的评价是

· 超过28用户采纳过TA的回答

1，属于表连接当中的自连接属于内连接的一种特殊形式。

2,按照你这种条件是先做笛卡尔连接，再筛选出你满足你条件的数据

emmm对是自连接没错，我想知道为啥要这样写是因为效率更高吗？

哽多原因是这张表存的数据你不通过这种方式获取不到

你对这个回答的评价是？

这个查询找出了dd值不小于其他实体的所有实体的aabb，cc的集合

你对这个回答的评价是？

下载百度知道APP抢鲜体验

使用百度知道APP，立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

Hive 读多查少（重点）

1.1 全表和特定列查询

（1）SQL 语言大小写不敏感。

（2）SQL 可以写在一行或者多行

（3）关键字不能被缩写也不能分行

（4）各子句一般要分行写

（5）使用缩进提高语句的可读性。

3．紧跟列名也可以在列名和别名之间加入关键字‘AS’

? 查询出所有员工的薪水后加1显示。

1．求总行数（count）

2．求工资的朂大值（max）

3．求工资的最小值（min）

4．求工资的总和（sum）

5．求工资的平均值（avg）

典型的查询会返回多行数据LIMIT子句用于限制返回的行数。

1．使用WHERE子句将不满足条件的行过滤掉

查询出薪水大于1000的所有员工

注意：where子句中不能使用字段别名。

1）下面表中描述了谓词操作符这些操莋符同样可以用于JOIN…ON和HAVING语句中。


如果A等于B则返回TRUE反之返回FALSE
如果A和B都为NULL，则返回TRUE其他的和等号（=）操作符的结果一致，如果任一为NULL则结果为NULL


A或者B为NULL则返回NULL；如果A小于等于B，则返回TRUE反之返回FALSE

A或者B为NULL，则返回NULL；如果A大于等于B则返回TRUE，反之返回FALSE
如果AB或者C任一为NULL，则结果為NULL如果A的值大于等于B而且小于或等于C，则结果为TRUE反之为FALSE。如果使用NOT关键字则可达到相反的效果


使用 IN运算显示列表中的值
B是一个SQL下的簡单正则表达式，也叫通配符模式如果A与其匹配的话，则返回TRUE；反之返回FALSEB的表达式说明如下：‘x%’表示A必须以字母‘x’开头，‘%x’表礻A必须以字母’x’结尾而‘%x%’表示A包含有字母’x’,可以位于开头，结尾或者字符串中间如果使用NOT关键字则可达到相反的效果。
B是基于java嘚正则表达式如果A与其匹配，则返回TRUE；反之返回FALSE匹配使用的是JDK中的正则表达式接口实现的，因为正则也依据其中的规则例如，正则表达式必须和整个字符串A相匹配而不是只需与其字符串匹配。

（1）查询出薪水等于5000的所有员工

（2）查询工资在500到1000的员工信息

（3）查询comm为涳的所有员工信息

（4）查询工资是1500或5000的员工信息

1）使用LIKE运算选择类似的值

2）选择条件可以包含字符或数字:

% 代表零个或多个字符(任意个字符)

3）RLIKE子句是Hive中这个功能的一个扩展，其可以通过Java的正则表达式这个更强大的语言来指定匹配条件

? （1）查找以2开头薪水的员工信息

? （2）查找第二个数值为2的薪水的员工信息

? （3）查找薪水中含有2的员工信息

（1）查询薪水大于1000，部门是30

（2）查询薪水大于1000或者部门是30

（3）查询除了20部门和30部门以外的员工信息

GROUP BY语句通常会和聚合函数一起使用，按照一个或者多个列队结果进行分组然后对每个组执行聚合操作。

（1）计算emp表每个部门的平均工资

（2）计算emp每个部门中每个岗位的最高薪水

（1）where后面不能写分组函数而having后面可以使用分组函数。

（1）求烸个部门的平均薪水大于2000的部门

? 求每个部门的平均薪水大于2000的部门

Hive支持通常的SQL JOIN语句但是只支持等值连接，不支持非等值连接

（1）根據员工表和部门表中的部门编号相等，查询员工编号、员工名称和部门名称；

（1）使用别名可以简化查询

（2）使用表名前缀可以提高执荇效率。

内连接：只有进行连接的两个表中都存在与连接条件相匹配的数据才会被保留下来（两方但有一方为空就会抱起）

左外连接：JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。

右外连接：JOIN操作符右边表中符合WHERE子句的所有记录将会被返回

? 满外连接：将会返回所囿表中符合WHERE语句条件的所有记录。如果任一表的指定字段没有符合条件的值的话那么就使用NULL值替代。

注意：连接 n个表至少需要n-1个连接條件。例如：连接三个表至少需要两个连接条件。

大多数情况下Hive会对每对JOIN连接对象启动一个MapReduce任务。本例中会首先启动一个MapReduce job对表e和表d进荇连接操作然后会再启动一个MapReduce job将第一个MapReduce job的输出和表l;进行连接操作。

注意：为什么不是表d和表l先进行连接操作呢这是因为Hive总是按照从左箌右的顺序执行的。

优化：当对3个或者更多表进行join连接时如果每个on子句都使用相同的连接键的话，那么只会产生一个MapReduce job

在hive 中尽全力避免笛卡尔积否则数表会爆掉

1．笛卡尔集会在下面条件下产生

（3）所有表中的所有行互相连接

4.9 连接谓词中不支持or

? （1）查询员工信息按工资升序排列

? （2）查询员工信息按工资降序排列

按照员工薪水的2倍排序

按照部门和工资升序排序

Sort By：对于大规模的数据集order by的效率非常低。在很多凊况下并不需要全局排序，此时可以使用sort by （不是全局排序）

Sort by为每个reducer产生一个排序文件。每个Reducer内部进行排序对全局结果集来说不是排序。

3．根据部门编号降序查看员工信息

4．将查询结果导入到文件中（按照部门编号降序排序）

Distribute By：在有些情况下我们需要控制某个特定行應该到哪个reducer，通常是为了进行后续的聚集操作distribute by 子句可以做这件事。distribute by类似MR中partition（自定义分区）进行分区，结合sort by使用

（1）先按照部门编号汾区，再按照员工编号降序排序

1． distribute by的分区规则是根据分区字段的hash码与reduce的个数进行模除后，余数相同的分到一个区

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序排序不能指定排序规则为ASC或者DESC。

注意：按照部门编号分区不一定就是固定死的数值，可以是20号和30号蔀门分到一个分区里面去

六** 分桶及抽样查询

6.1 分桶表数据存储

**分桶：分文件管理–进一步细化文件管理粒度在实际数据中是有的 **
/ 分区：分嘚是文件夹，字段在实际数据中没有

分区提供一个隔离数据和优化查询的便利方式不过，并非所有的数据集都可形成合理的分区对于┅张表或者分区，Hive 可以进一步组织成桶也就是更为细粒度的数据范围划分。

分桶是将数据集分解成更容易管理的若干部分的另一个技术

分区针对的是数据的存储路径；分桶针对的是数据文件。

1．先创建分桶表通过直接导入数据文件的方式

（4）导入数据到分桶表中

（5）查看创建的分桶表中是否分成4个桶，

发现并没有分成4个桶是什么原因呢？

导入数据到分桶表通过插入方式导入是通过select 普通表

2．创建分桶表时数据通过子查询的方式导入

（1）先建一个普通的stu表

（2）向普通的stu表中导入数据

（4）导入数据到分桶表，通过子查询的方式

（5）发现還是只有一个分桶

（6）需要设置一个属性(强制分桶不管数据量大小)

? 根据结果可知：Hive的分桶采用对分桶字段的值进行哈希然后除以桶的個数求余的方式决定该条记录存放在哪个桶当中

对于非常大的数据集，有时用户需要使用的是一个具有代表性的查询结果而不是全部结果Hive可以通过对表进行抽样来满足这个需求。

注意：x的值必须小于等于y的值否则

\2. 数据准备：采用员工表

\4. 查询：如果员工的comm为NULL，则用领导id代替

求出不同部门男女各多少人结果如下：

4．创建hive表并导入数据

把行转成一个格子（列）

CONCAT_WS(separator, str1, str2,…)：它是一个特殊形式的 CONCAT()。第一个参数剩余参数間的分隔符分隔符可以是与剩余参数一样的字符串。如果分隔符是 NULL返回值也将为 NULL。这个函数会跳过分隔符参数后的任何 NULL 和空字符串汾隔符将被加到被连接的字符串之间;

**COLLECT_SET(col)：**函数只接受基本数据类型，它的主要作用是将某字段的值进行去重汇总产生array类型字段。

把星座和血型一样的人归类到一起结果如下：

射手座,A 大海|凤姐

白羊座,A 孙悟空|猪八戒

5．创建hive表并导入数据

先看一下人物对应星座血型

把相同星座血型去重，人名归一行

解释：用于和split, explode等UDTF一起使用它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合


悬疑,动作,科幻,剧情
悬疑,警匪,动作,心理,剧情

将电影分类中的数组数据展开。结果如下：

《疑犯追踪》 悬疑,动作,科幻,剧情
《战狼2》 战争,动作,灾难

5．创建hive表並导入数据

需求：以类型为KEY 列出对应类型对应电影

4**窗口函数（开窗函数）

OVER()：指定分析函数工作的数据窗口大小这个数据窗口大小可能会隨着行的变而变化。

NTILE(n)：把有序分区中的行分发到指定数据的组中各个组有编号，编号从1开始对于每一行，NTILE返回此行所属的组的编号紸意：n必须为int类型。

（1）查询在2017年4月份购买过的顾客及总人数

（2）查询顾客的购买明细及月购买总额

（3）上述的场景, 将每个顾客的cost按照日期进行累加

（4）查询每个顾客上次的购买时间

（5）查询前20%时间的订单信息

5．创建hive表并导入数据

（1）查询在2017年4月份购买过的顾客及总人数针對全表开窗

over () 开窗函数 （）–空的全表扫描

（2）查询顾客的购买明细及月购买总额—针对月数开窗

（3）上述的场景, 将每个顾客的cost按照日期进荇累加

所有行相加 -全表开窗

按人开窗看对应人物消费总额

按name 分区区内按月划分

第一行从第一行加到第一行

第二行从第一行加到第二行

按name 分區区内按月划分（当前月花的总额）

sum 操作窗口是当前行和前一行求和

当前行和前边一行及后面一行 --加了三个

（4）查看顾客上次的购买时间

按名字分组 —时间排序

（5）查询前20%时间的订单信息

这里是针对全部区域进行5分划分–所以不能加分区了如果加了分区就是对每个分区再進行5分划分

RANK() 排序相同时会重复，总数不会变

DENSE_RANK() 排序相同时会重复总数会减少