节点,红色框所示。我们先用正则表达式提取到每部电影的所有信息:
regix = '
'
class为pic的div节点包含电影的排名和电影图片信息,提取电影排名和电影图片信息的正则表:
regix = '
.*?
.*?(.*?).*?'
class为info的div标签中包含了电影的名字、导演和演员等信息,电影名字是在class为hd的div的节点内,节点内包含的是电影的名字,节点内包含的是电影的别名,上图中的褐色框部分,因此提取电影名字的正则表达式为:
regix = ' 
.*?
.*?(.*?).*?.*?div
class="info.*?class="hd".*?class="title">(.*?).*?class="other">(.*?)'
class为bd的节点内包含的是电影的导演和主演信息,其中class为“”的p节点内包含的是电影的导演和演员信息,其中还包含了
标签,上图中的紫色框部分,为了提取电影导演和演员的信息,正则表达式改写为: regix = ' 
标签,上图中的紫色框部分,为了提取电影导演和演员的信息,正则表达式改写为: regix = '
.*?
.*?(.*?).*?.*?div
class="info.*?class="hd".*?class="title">(.*?).*?class="other">(.*?).*? 
.*?
(.*?)
(.*?)
.*?
    
        
            
                
            
                
            
                
            
                
        
    
 
    
 
.*?(.*?).*?.*?div class="info.*?class="hd".*?class="title">(.*?).*?class="other">(.*?).*? 
.*?
                
                
            
        
    (.*?)
(.*?)
.*?
            
            .*?(.*?).*?.*?div class="info.*?class="hd".*?class="title">(.*?).*?class="other">(.*?).*? 
            .*?
                    
                (.*?)
(.*?)
                    50000+
                    
            5万行代码练就真实本领
                
                    17年
                    
            创办于2008年老牌培训机构
                
                    1000+
                    
            合作企业
                
                    98%
                    
            就业率
                