分类导航

Python 发布时间：2022-04-02 发布网站：大佬教程 code.js-code.com

大佬教程收集整理的这篇文章主要介绍了Python数据分析案例：对全国大学综合数据分析，本可视化展示（附加2021全国大学排名爬虫源码），大佬教程大佬觉得挺不错的，现在分享给大家，也给大家做个参考。

前言@H_197_2@

软科中国大学排名以专业、客观、透明的优势赢得了高等教育领域和社会的广泛关注和认可，本次将利用Python对我国大学排名和分布情况进行一番研究。

先展示下爬虫的源码@H_197_2@

import requests
import parsel
import csv
f = open('排名.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['名次', '学校名称', '综合得分', '星级排名', '办学层次'])
url = 'http://m.gaosan.com/gaokao/265440.html'

headers = {
    'User-Agent': '@H_451_27@mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
response.encoding = response.apparent_encoding
SELEctor = parsel.SELEctor(response.text)
trs = SELEctor.css('#page tr')

for tr in trs:
    dit = {}
    @R_675_5326@ = tr.css('td:nth-child(1)::text').get()
    dit['名次'] = @R_675_5326@
    school = tr.css('td:nth-child(2)::text').get()
    dit['学校名称'] = school
    score = tr.css('td:nth-child(3)::text').get()
    dit['综合得分'] = score
    star = tr.css('td:nth-child(4)::text').get()
    dit['星级排名'] = star
    level = tr.css('td:nth-child(5)::text').get()
    dit['办学层次'] = level
    csv_writer.writerow(dit)
    print(dit)

f.close()

Python从零基础入门到实战系统教程、源码、视频，想要数据集的同学也可以点这里@H_197_2@

数据分析涉及到的内容@H_197_2@

Pandas — 数据处理
Pyecharts — 数据可视化

导入模块@H_197_2@

from pyecharts.charts import Map,Bar,Pie
from pyecharts import options as opts
import pandas as pd

Pandas数据处理@H_197_2@

读取数据

df = pd.read_csv('中国大学综合排名.csv',index_col=0)
df.head()

Python数据分析案例：对全国大学综合数据分析，本可视化展示（附加2021全国大学排名爬虫源码）

查看表格数据类型

df.dtypes

Python数据分析案例：对全国大学综合数据分析，本可视化展示（附加2021全国大学排名爬虫源码）

统计各省市大学数量

# 各省份大学数量
df_counts = df.groupby('省市').count()['排名']
df0 = df_counts.copy()
# 进行降序排列 并在当前df0上进行修改
df0.sort_values(ascending=false, inplace=TruE)
df0

Python数据分析案例：对全国大学综合数据分析，本可视化展示（附加2021全国大学排名爬虫源码）

各省市大学平均分排序@H_197_2@

# 统计每个省份大学的数量以及平均分
# 算出平均分
df_means0 = df.groupby('省市').mean()['总分']
# 取两位小数
df_means = df_means0.round(2)
# 合并上面的大学数量跟平均分
df1 = pd.concat([df_counts, df_means], axis=1)
# 改变列名
df1.columns = ['数量', '平均分']
# 通过 平均分 进行降序排列 并在当前df1上进行修改
df1.sort_values(by=['平均分'], ascending=false, inplace=TruE)
df1

Python数据分析案例：对全国大学综合数据分析，本可视化展示（附加2021全国大学排名爬虫源码）

Pyecharts数据可视化@H_197_2@

各省市大学数量和平均分柱状图(横向)

d1 = df1.index.tolist()
d2 = df1['数量'].values.tolist()
d3 = df1['平均分'].values.tolist()
bar0 = (
    Bar()
    .add_xaxis(d1)
    .add_yaxis('数量', d2)
    .add_yaxis('平均分数', d3)
    .set_global_opts(
        title_opts=opts.titleOpts(title='中国大学排名'),
        yaxis_opts=opts.AxisOpts(name='量'),
        xaxis_opts=opts.AxisOpts(name='省份'),
    )
)
bar0.render_notebook()

Python数据分析案例：对全国大学综合数据分析，本可视化展示（附加2021全国大学排名爬虫源码）

各省市大学数量和平均分柱状图(纵向)

df1.sort_values(by=['平均分'], inplace=TruE)
d1 = df1.index.tolist()
d2 = df1['数量'].values.tolist()
d3 = df1['平均分'].values.tolist()
bar1 = (
    Bar()
    .add_xaxis(d1)
    .add_yaxis('数量', d2)
    .add_yaxis('平均分数', d3)
    # 坐标轴翻转
    .reversal_axis()
    # 数值显示靠右
    .set_series_opts(label_opts=opts.LabelOpts(position='right'))
    .set_global_opts(
        title_opts=opts.titleOpts(title='中国大学排名'),
        yaxis_opts=opts.AxisOpts(name='省份'),
        xaxis_opts=opts.AxisOpts(name='量'),
    )
)
bar1.render_notebook()

Python数据分析案例：对全国大学综合数据分析，本可视化展示（附加2021全国大学排名爬虫源码）

各省市大学数量玫瑰图

弗罗伦斯·南丁格尔（Florence NighTingale），一位著名的英国护士，同时她也是一位统计学家，很多人没有想到吧？
她被号称为数据可视化的鼻祖，就是数据可视化的祖师爷，你可能也没有想到吧？
她是英国皇家统计学会的第一个女成员，也是美国统计协会的名誉会员。

克里米亚战争时期，南丁格尔发现大多数士兵不是阵亡，而是因为饥饿、营养不良、卫生条件差和野战医院的条件差才死于其战伤。
于是她向上级报告了克里米亚战争的医疗条件，同时申请一批医疗物质来改变医疗条件。由于国会议员不会阅读统计报告，所以她的申请一直得不到批准。于是她改用了极座标饼图的形式来展示战地医院的病人死亡率在不同季节的变化，重新提交这个申请报告，没想到马上就得到了批准。这是这批物质改善了战地医院的卫生条件，仅此一项改革就大大地提高了受伤战士的生存率。

后被这个图就被称为南丁格尔玫瑰图，南丁格尔也被尊称为数据可视化鼻祖

name = df_counts.index.tolist()
count = df_counts.values.tolist()
c0 = (
    Pie()
    .add(
        '',
        [list(z) for z in zip(name, count)],
        # 饼图的半径，数组的第一项是内半径，第二项是外半径
        # 默认设置成百分比，相对于容器高宽中较小的一项的一半
        radius=['20%', '60%'],
        # 让图在这个位置显示
        center=['50%', '65%'],
        # 是否展示成南丁格尔图，通过半径区分数据大小，有'radius'和'area'两种模式。
        # radius：扇区圆心角展现数据的百分比，半径展现数据的大小
        # area：所有扇区圆心角相同，仅通过半径展现数据大小
        rosetype="radius",
        # 显示标签
        label_opts=opts.LabelOpts(is_show=falsE),
    )
    .set_series_opts(label_opts=opts.LabelOpts(formatter='{B}: {C}'))
)
c0.render_notebook()

Python数据分析案例：对全国大学综合数据分析，本可视化展示（附加2021全国大学排名爬虫源码）

各省市大学数量南丁格尔玫瑰图

provinces = df0.index.tolist()
num = df0.values.tolist()
c1 = (
    Pie()
    .add('', 
         [list(z) for z in zip(provinces, num)],
         radius=['30%', '105%'],
         rosetype='area'
         )
    .set_global_opts(
        title_opts=opts.titleOpts(title='中国大学排名'),
        legend_opts=opts.LegendOpts(is_show=falsE),
        toolbox_opts=opts.ToolboxOpts()
    )
    .set_series_opts(
        label_opts=opts.LabelOpts(
            # 是否显示标签
            is_show=True,
            # 设置标签位置
            position="inside", 
            font_size=12,
            formatter='{B}: {C}',
            # 斜体
            font_style='italic',
            # 加粗
            font_weight='bold', 
            # 微软的雅黑字体
            font_family='@H_451_27@microsoft YaHei'
        )
    )
)
c1.render_notebook()

Python数据分析案例：对全国大学综合数据分析，本可视化展示（附加2021全国大学排名爬虫源码）

总结@H_197_2@

大学数量较多的省市：江苏、山东、河南、河北、北京、辽宁、陕西、四川、广东、湖南、湖北、浙江等地（只看学校数量），后期探索可根据学校排名
排名前20的大学较前一年的波动较小（这也符合常理，毕竟前几的学校都是多年沉淀下来的）
西部地区大学数量较少
本数据集不包含港、澳、台大学（网站未统计）

大佬总结

以上是大佬教程为你收集整理的Python数据分析案例：对全国大学综合数据分析，本可视化展示（附加2021全国大学排名爬虫源码）全部内容，希望文章能够帮你解决Python数据分析案例：对全国大学综合数据分析，本可视化展示（附加2021全国大学排名爬虫源码）所遇到的程序开发问题。

如果觉得大佬教程网站内容还不错，欢迎将大佬教程推荐给程序员好友。

本图文内容来源于网友网络收集整理提供，作为学习参考使用，版权属于原作者。
如您有任何意见或建议可联系处理。小编QQ：384754419，请注明来意。

标签：

上一篇: 办公室文员必备python神器，将PD... 下一篇:🎮Python游戏开发，pygam...

猜你在找的Python相关文章

Anaconda 01_安装问题 2022-04-02
python将ansible配置转为json格式实例代码 2019-10-05
对Python进行数据分析_关于Package的安装问题 2019-10-05
Python入门_条件控制(详解) 2019-10-05
python数据类型_字符串常用操作(详解) 2019-10-05
matplotlib绘制符合论文要求的图片实例(必看篇) 2019-10-05
Python中easy_install 和 pip 的安装及使用 2019-10-05
Python常见异常分类与处理方法 2019-10-05
详解使用python的logging模块在stdout输出的两种方法 2019-10-05
Python计时相关操作详解【time,datetime】 2019-10-05