【2022】1月13日随记

学习内容

Python基础语法

语法方面其实跟以前学过的C和Java之类的大同小异,一定要说的话有一些细节值得注意:

  • 行末没有分号,Pycharm中行末加分号会被划波浪线警告。虽然好像不影响运行,但是最好是记得写Python的时候不要加。
  • 用缩进替代大括号区分代码块。这方面猜想与Python解释性语言的性质有关,然而似乎不太好验证。
  • 没有明确的程序入口,通常使用__name__属性来区分文件内的代码什么时候生效。
  • 文件末尾要空一行,看起来是解释器的要求,不了解具体的用途。
  • 最后是关于两行文件头:
#!/usr/bin/env python
# -*- coding: utf-8 -*-

其中第一行用于在Linux操作系统下指定运行文件的程序(Python)和解释器路径;第二行的作用是设置读取文件的编码方式,不过Pyhton3.0以上的版本默认使用的就是UTF-8。因此总的来说在Windows下这两行写不写区别不是很大。

road

Python爬虫入门

内容是关于使用Requests模块爬取数据,并使用Python的IO操作进行简单的持久化。

主要流程:

  1. 导包(引入Requests模块)
  2. UA伪装,简单的反反爬策略,目前还没有感受到它的效果
  3. 根据实际情况选用get()post()函数发送请求
  4. 处理响应数据并持久化
import requests
​
if __name__ == "__main__":
    url = "https://grobsr.com/"
    response = requests.get(url)
    pageContent = response.text
    # 函数原型包含七个参数,这里必须显式指定第三个参数(因为它不是原型中的第三个参数)
    with open("./index.html", "w", encoding="utf-8") as filePointer:
        filePointer.write(pageContent)
​

上述代码能够顺利地爬下我自己的网站首页,这就让人浮想联翩。

不知道如果恶意爬取Wordfence防不防得住,如果它坐视不理的话写个死循环岂不是能很快就把我薅破产?考虑到资源包还是很贵的,这个不敢测试。

心得体会

其实今天该总结的内容已经总结完了,主要想说的是关于Python这个语言。以前没学的时候一直听说的是它标榜自己很”优雅“,现在学下来反而感觉这个东西狂野的。

说起来,其中的某些设计看起来就像是特别不愿意和C或者Java之类的相似,例如elif这个关键字,算上空格与else if也不过是三个字符的差距,想来在大文件下能够缩短的代码也比较有限,感觉不是很有必要。

不得不说的是从Requests模块就能看出,Python的各种库应该做得相当不错。也许使用简短的代码实现复杂的功能,就是这个语言追求的所谓”优雅“,在语法上对它进行批判反而可能是吹毛求疵了。

明天继续,数据解析

  请注意信息的时效性:文章标题下的时间是文章发布时间,光标在该处悬停可以看到最新修改时间。
  版权声明:
    若无特殊说明,本站所有内容均为原创,采用 CC BY-NC-SA 4.0 许可协议进行共享 。
    需转载请注明原文标题:【2022】1月13日随记 及链接:https://www.grobsr.com/post-2022-1-13/
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
下一篇