Python Tenth Step: Web 客户端和服务器

本文
Web 客户端和服务器
urllib 模块
- urllib.parse 模块
- urllib.request 模块
urllib2 模块
推荐使用 requests
爬虫
Web(http)服务器
Web 编程：CGI 和 WSGI
- 创建 Web服务
- WSGi

本文

http://afra55.github.io/2018/01/22/python-tenth-step/

推荐用 http://cn.python-requests.org/zh_CN/latest/

Web 客户端和服务器

HTTP（ HyperText Transfer Protocol，超文本传输）

HTTP 是 TCP/ IP 的上层协议，这意味着 HTTP 协议依靠 TCP/ IP 来进行低层的交流工作

SSL (Secure SocketLayer) 安全套接字层, 用来创建一个套接字，加密通过该套接字传传输的数据

URL (Uniform Resource Identifier) 统一资源标识符， scheme://netloc[:port]/path/[;params][?query]#fragment

urllib 模块

urllib 提供了一个高级的 Web 通信库，支持基本的 Web 协议，如 HTTP、 FTP 和 Gopher 协议，同时也支持对本地文件的访问

urllib.parse 模块

urlparse(url, scheme='', allow_fragments=True) 将 url 解析为6元组，(scheme, netloc, path, params, query, fragment)

values = urlparse("http://so.csdn.net/so/search/s.do?q=AAA啊哈&t=blog")
print(values)   # ParseResult(scheme='http', netloc='so.csdn.net', path='/so/search/s.do', params='', query='q=AAA啊哈&t=blog', fragment='')
print(urlunparse(values))   # http://so.csdn.net/so/search/s.do?q=AAA啊哈&t=blog

urlunparse() 将 urlparse 处理生成的6元组拼接成 url 并返回

urljoin(base, url, allow_fragments=True)

print(urljoin('https://docs.python.org/3/faq/index.html', 'general.html#what-is-python'))
# https://docs.python.org/3/faq/general.html#what-is-python

urljoin() 将 baseurl 的根域名和 newurl 拼合成一个完整的 URL

urllib.parse 函数	描述
quote(string, safe=’/’)	对 string 在 URL 无法使用的字符进行编码， safe 中的字符不需要编码
quote_plus(string, safe=’/’)	与 quote() 类似，除了将空格编码为 ‘+’ 号
unquote(string)	和 quote() 功能相反
unquote_plus(string)	和 quote_plus() 功能相反
urlencode(dict)	将字典的 key 和 value 进行quote_plus() 转换为有效的 CGI 查询字符串，并变为 ‘键=值’ 的格式

quote(string, safe='/', encoding=None, errors=None) 获取 url 数据，并将其编码使其可以用于 url 字符串中，那些 URL 不能使用的字符前边会被加上百分号（%）同时转换成十六进制，例如，“% xx”，其中，“ xx” 表示这个字母的 ASCII 码的十六进制值，逗号、下划线、句号、斜线和字母数字这类符号不需要转化，其他的则均需要转换

quote('abc def')    # 'abc%20def'

quote_plus(string, safe='', encoding=None, errors=None) 与quote（）类似，但是还可以将空格编码为 ‘+’号

quote_plus('abc def')   # 'abc+def'

unquote(string, encoding='utf-8', errors='replace') 和 quote() 功能相反，将所有编码为“% xx” 式的字符转换成等价的 ASCII 码值

unquote_plus(string, encoding='utf-8', errors='replace') 与 unquote() 类似，除此之外会将 ‘+’ 转换为空格

urlencode(query, doseq=False, safe='', encoding=None, errors=None, quote_via=quote_plus) 将字典的 key 和 value 进行quote_plus() 转换为有效的 CGI 查询字符串，并变为 ‘键=值’ 的格式

urllib.request 模块

urllib.request 函数	描述
urlopen(url, data=None)	打开 url，如果是 POST 请求，则通过 data 发送请求数据
urlretrieve(url, filename=None, reporthook=None)	将 url 中的文件下载到 filename 或临时文件中， reporthook 函数会获取到统计信息

urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None)

urlopen(), 打开给定 url 字符串表示的 web 连接，并返回文件类型对象。如果没有给定协议或者 scheme 或者传入文件时打开一个本地文件

urlopen() 对象方法	描述
f.read(`[bytes]`)	从 f 中读出所有子节，或 bytes 个字节
f.readline()	从 f 中读取一行
f.readlines()	以列表形式返回 f 中的所有行
f.close()	关闭 f 的 url 连接
f.fileno()	返回 f 的文件句柄
f.info()	获得 f 的 MIME 头文件
f.geturl()	返回 f 的真正url

urlretrieve(url, filename=None, reporthook=None, data=None)

urlretrieve(), 下载 url 打开的完整的 html 到本地硬盘。其返回一个二元组（filename, mime_hdrs），filename 是含有下载数据的本地文件名，mime_hdrs 是 Web 服务器响应后返回的一系列 MIME 文件头。如果提供 reporthook(blocknum, bs, size) 函数，则在每块数据下载或传输完成后调用这个函数来提供块编号、读取的块大小、块总大小

urllib2 模块

urllib2 可以处理更复杂 URL 的打开问题。例如有基本验证（登录名和密码）需求的 Web 站点。通过验证的最简单方法是使用前边章节描述的 URL 中的 net_ loc 组件

HTTP 验证示例

import urllib.request, urllib.error, urllib.parse

LOGIN = 'wesley'
PASSWD = "you'llNeverGuess"
URL = 'http://localhost'
REALM = 'Secure Archive'


def handler_version(url):
    hdlr = urllib.request.HTTPBasicAuthHandler()
    hdlr.add_password(REALM, urllib.parse.urlparse(url)[1], LOGIN, PASSWD)
    opener = urllib.request.build_opener(hdlr)
    urllib.request.install_opener(opener)
    return url


def request_version(url):
    from base64 import encodestring
    req = urllib.request.Request(url)   # 创建一个 request 对象
    b64str = encodestring(bytes('%s:%s' % (LOGIN, PASSWD), 'utf-8'))[:-1]   # 验证头信息
    req.add_header("Authorization", "Basic %s" % b64str)
    return req


for funcType in ('handler', 'request'):
    print('*** Using %s:' % funcType.upper())
    url = eval('%s_version' % funcType)(URL)
    f = urllib.request.urlopen(url)
    print(str(f.readline(), 'utf-8'))
    f.close()

爬虫

Web(http)服务器

要建立一个 Web 服务器，必须建立一个基本的服务器和一个“ 处理程序”

基础的 Web 服务器是一个模板。其角色是在客户端和服务器端完成必要的 HTTP 交互

处理程序是一些处理主要“ Web 服务” 的简单软件。它用于处理客户端的请求，并返回适当的文件，包括静态文件或动态文件。处理程序的复杂性决定了 Web 服务器的复杂程度

以下是三种不同的处理程序，都整合在 http.server 模块中:

BaseHTTPResquestHandler 除了获得客户端的请求外，没有实现其他处理工作
SimpleHTTPRequestHandler 建立在 BaseHTTPResquestHandler 的基础上，以非常直接的形式实现了标准的 GET 和 HEAD 请求
CGIHTTPRequestHandler 这个处理程序可以获取 SimpleHTTPRequestHandler，并添加了对 POST 请求的支持,其可以调用 CGI 脚本完成请求处理过程, 也可以将生成的 HTML 脚本返回给客户端

一个简单的 Web服务器示例，可以读取 GET 请求，获取 Web页面 html文件，并返回给调用的客户端:

from http.server import BaseHTTPRequestHandler, HTTPServer


class MyHandler(BaseHTTPRequestHandler):
    def do_get(self):
        try:
            f = open(self.path[1:], 'r')
            self.send_response(200)
            self.send_header('Content-type', 'text/html')
            self.end_headers()
            self.wfile.write(f.read())
            f.close()
        except IOError:
            self.send_error(404, 'File Not Found: %s' % self.path)


def main():
    server = HTTPServer(('', 8080), MyHandler)
    try:
        print('Welcome to the machine...')
        print('Press ^C once or twice to quit')
        server.serve_forever()
    except KeyboardInterrupt:
        print('^C received, shutting down server')
    finally:
        if server:
            server.socket.close()


if __name__ == '__main__':
    main()

Web 应用程序	描述
cgi	冲标准网关（CGI）获取数据
cgitb	处理 CGI 返回数据
HTMLparse	HTML, XHTML 解析器
htmlentitydefs	一些 HTML 普通实体定义
Cookie	用于 HTTP 状态管理的服务器端 cookie
cookielib	HTTP 客户端的 cookie 处理类
webbrowser	控制器：向浏览器加载文档
sgmllib	解析简单的 SGML 文件
robotparser	解析 robots.txt 文件，对 URL 做“可获得性分析”
httplib	用来创建 HTTP 客户端
urllib	通过 URL 或相关工具访问服务器

Xml 处理	描述
xml	包含许多不同解析器的 XML 包
xml.sax	用于兼容 SAX2 的 XML（SAX）解析器
xml.dom	文档对象模型(DOM)XML解析器
xml.etree	树型 xml 解析器，基于 Element 灵活容器对象
xml.parsers.expat	非验证型 Expat XML 解析器的接口
xmlrpclib	通过 HTTP 提供 XML 远程过程调用（RPC）客户端
SimpleXMLRPCServer	python XML-RPC 服务器的基本框架
DocXMLRPCServer	自描述XML-RPC 服务器的基本框架

Web 服务器	描述
BaseHTTPServer	开发 Web服务器的抽象类
SimpleHTTPServer	处理最简单的 HTTP 请求 (HEAD 和 GET)
CGIHTTPServer	像 SimpleHTTPServer 一样处理 Web文件，还能处理 CGI （HTTP POST）请求
wsgiref	定义 Web 服务器和 Python Web 应用程序间的标准接口的包

Web 编程：CGI 和 WSGI

CGI，通用网关接口

WSGI，Web服务器网关接口

创建 Web服务

创建文件 cgihttpd.py, 包含如下内容：

from http.server import CGIHTTPRequestHandler, test

test(CGIHTTPRequestHandler)     # test 默认 port 为 8000

然后使用命名行执行： python3 cgihttpd.py

在 cgihttpd.py 相同目录下创建文件夹 cgi-bin, 放入 Python CGI 脚本

将一些 HTML 文件放到启动服务器的目录中，可能要在 cgi-bin 中放些 Python CGI 脚本，然后就可以在地址栏中输入这些地址来访问 Web 站点

http://localhost:8000/hello.htm
http://localhost:8080/cgi-bin/helloA.py

可以通过以下方式在 cgi 脚本中获取表单：

form = cgi.FieldStorage()   # 获取 表单
    if 'person' in form:
        who = form['person'].value  # 获取表单中 key person 的值
    else:
        who = 'NEW USER'

print(who)  # 通过 print 返回数据

以下是使用 UTF-8 进行编码输出的示例：

print('''Content-Type: text/html; charset=UTF-8

真实数据
'''.replace('\n', '\r\n'))

目前， CGI 特别指出只允许两种表单编码：“application/x-www-form-urlencoded”和“multipart/form-dat”, 前者是默认的

cookie 通俗点来说是 Web 站点服务器要求保存在客户端（如浏览器）上的二进制数据

cookie 是以分号分隔的键值对存在的，即以分号（）分隔各个键值对，每个键值对中间都由等号（=）分开

一旦在客户端建立了 cookie， HTTP_COOKIE 环境变量会将那些 cookie 自动放到请求中发送给服务器

from os import environ


if 'HTTP_COOKIE' in environ:    # 获取 cookie
    cookies = [x.strip() for x in environ['HTTP_COOKIE'].split(';')]

设置 cookie 就是服务器向客户端发送 Set-Cookie 头文件要求客户端存储 cookie

print('Set-Cookie: cookie_key=cookie_value; path=/')

WSGi

WSGI 不是服务器，也不是用于与程序交互的 API，更不是真实的代码，而只是定义的一个接口

其目标是在 Web 服务器和 Web 框架层之间提供一个通用的 API 标准，减少之间的互操作性并形成统一的调用方式

def simple_wsgi_app(environ, start_response): 
    status = '200 OK' 
    headers = [('Content-type', 'text/plain')] 
    start_response(status, headers) 
    return ['Hello world!']

environ 变量包含一些熟悉的环境变量，如 HTTP_ HOST、 HTTP_ USER_ AGENT、 SERVER_ PROTOCOL 等。而 start_ response() 这个可调用对象必须在应用执行，生成最终会发送回客户端的响应。响应必须含有 HTTP 返回码（ 200、 300 等），以及 HTTP 响应头

详细，可以参考示例 simple_server.py:

"""BaseHTTPServer that implements the Python WSGI protocol (PEP 3333)

This is both an example of how WSGI can be implemented, and a basis for running
simple web applications on a local machine, such as might be done when testing
or debugging an application.  It has not been reviewed for security issues,
however, and we strongly recommend that you use a "real" web server for
production use.

For example usage, see the 'if __name__=="__main__"' block at the end of the
module.  See also the BaseHTTPServer module docs for other API information.
"""

from http.server import BaseHTTPRequestHandler, HTTPServer
import sys
import urllib.parse
from wsgiref.handlers import SimpleHandler
from platform import python_implementation

__version__ = "0.2"
__all__ = ['WSGIServer', 'WSGIRequestHandler', 'demo_app', 'make_server']


server_version = "WSGIServer/" + __version__
sys_version = python_implementation() + "/" + sys.version.split()[0]
software_version = server_version + ' ' + sys_version


class ServerHandler(SimpleHandler):

    server_software = software_version

    def close(self):
        try:
            self.request_handler.log_request(
                self.status.split(' ',1)[0], self.bytes_sent
            )
        finally:
            SimpleHandler.close(self)



class WSGIServer(HTTPServer):

    """BaseHTTPServer that implements the Python WSGI protocol"""

    application = None

    def server_bind(self):
        """Override server_bind to store the server name."""
        HTTPServer.server_bind(self)
        self.setup_environ()

    def setup_environ(self):
        # Set up base environment
        env = self.base_environ = {}
        env['SERVER_NAME'] = self.server_name
        env['GATEWAY_INTERFACE'] = 'CGI/1.1'
        env['SERVER_PORT'] = str(self.server_port)
        env['REMOTE_HOST']=''
        env['CONTENT_LENGTH']=''
        env['SCRIPT_NAME'] = ''

    def get_app(self):
        return self.application

    def set_app(self,application):
        self.application = application



class WSGIRequestHandler(BaseHTTPRequestHandler):

    server_version = "WSGIServer/" + __version__

    def get_environ(self):
        env = self.server.base_environ.copy()
        env['SERVER_PROTOCOL'] = self.request_version
        env['SERVER_SOFTWARE'] = self.server_version
        env['REQUEST_METHOD'] = self.command
        if '?' in self.path:
            path,query = self.path.split('?',1)
        else:
            path,query = self.path,''

        env['PATH_INFO'] = urllib.parse.unquote(path, 'iso-8859-1')
        env['QUERY_STRING'] = query

        host = self.address_string()
        if host != self.client_address[0]:
            env['REMOTE_HOST'] = host
        env['REMOTE_ADDR'] = self.client_address[0]

        if self.headers.get('content-type') is None:
            env['CONTENT_TYPE'] = self.headers.get_content_type()
        else:
            env['CONTENT_TYPE'] = self.headers['content-type']

        length = self.headers.get('content-length')
        if length:
            env['CONTENT_LENGTH'] = length

        for k, v in self.headers.items():
            k=k.replace('-','_').upper(); v=v.strip()
            if k in env:
                continue                    # skip content length, type,etc.
            if 'HTTP_'+k in env:
                env['HTTP_'+k] += ','+v     # comma-separate multiple headers
            else:
                env['HTTP_'+k] = v
        return env

    def get_stderr(self):
        return sys.stderr

    def handle(self):
        """Handle a single HTTP request"""

        self.raw_requestline = self.rfile.readline(65537)
        if len(self.raw_requestline) > 65536:
            self.requestline = ''
            self.request_version = ''
            self.command = ''
            self.send_error(414)
            return

        if not self.parse_request(): # An error code has been sent, just exit
            return

        handler = ServerHandler(
            self.rfile, self.wfile, self.get_stderr(), self.get_environ()
        )
        handler.request_handler = self      # backpointer for logging
        handler.run(self.server.get_app())



def demo_app(environ,start_response):
    from io import StringIO
    stdout = StringIO()
    print("Hello world!", file=stdout)
    print(file=stdout)
    h = sorted(environ.items())
    for k,v in h:
        print(k,'=',repr(v), file=stdout)
    start_response("200 OK", [('Content-Type','text/plain; charset=utf-8')])
    return [stdout.getvalue().encode("utf-8")]


def make_server(
    host, port, app, server_class=WSGIServer, handler_class=WSGIRequestHandler
):
    """Create a new WSGI server listening on `host` and `port` for `app`"""
    server = server_class((host, port), handler_class)
    server.set_app(app)
    return server


if __name__ == '__main__':
    with make_server('', 8000, demo_app) as httpd:
        sa = httpd.socket.getsockname()
        print("Serving HTTP on", sa[0], "port", sa[1], "...")
        import webbrowser
        webbrowser.open('http://localhost:8000/xyz?abc')
        httpd.handle_request()  # serve one request, then exit

本文