티스토리 뷰

C#/C# 강좌 Winform

Doridori C# 강의 2) 49.크롤링 (crawling)

꼬꼬마도리도리 2020. 9. 13. 09:23

======================================================

안녕하세요 Doridori 입니다.


이것저것 하는것도 많고 (돈 되는건 없지만 . . . ㅎㅎ)


바쁘기는 하지만 처음 시작한 C#의 경우는 제대로 마무리를 꼭 하고 싶은 마음 입니다. 


다른것도 하겠지만 틈틈히 준비 하려고 합니다. 


이슈는 예전에 됬지만 요즘 제 귀에 유독 자주 들리는 내용에 크롤링이 있어서 한번 준비해 보았습니다. 


화이팅!!

======================================================




49.크롤링 (crawling)

 

 

Source UI) 크롤링(UI).zip  (용량 관계로 Link로 연결 하였습니다.)

Soruce 1차 Source) 크롤링(Source).zip  (용량 관계로 Link로 연결 하였습니다.)

교재) 49. 크롤링 (crawling).pdf







원래는 '하고 싶은거 다해' 쪽 내용을 준비 하고 있었는데 크롤링 관련 요청 해주신 분도 계시고 기존에 이것저것 준비하던 내용중에 있던 부분이라 한번 만들어 보았습니다.


간단하게 웹을 프로그램으로 제어 한다라고 생각하면 될것 같습니다. 


간단히 웹 조작하는 부분이 뭐가 크롤링이냐 라고 하시는 분들도 계신데 걸음마는 다 그런걸로 시작하는게 아닌가 합니다. 


뭐든 본격적인 실무를 하게 되면 업무도 파악하고 스킬들이 늘어나겠죠.


입문용 기본지식을 가지게 되는것도 매우 도움이 되는 작업이 아닌가 생각 합니다. 






UI)


간단하게 사이트 Login 하는 부분, 원하는 내용 검색하는 부분, 웹쪽 debug 화면에서 크롤링에 사용할 위치들 xpath 가져오는 부분 정도를 진행 할 예정입니다.




강의)


외부 라이브러리를 가져와서 만드는 부분이라 짧고 빠르게 진행 하려고 하였으나, 역시 마음대로 안되네요 ㅎㅎ;;;


두가지를 진행 하다 보니 시간이 조금 걸렸습니다. 


(그래도 다른거보다 약간 짧은듯~ ^^;;)









Source)


셀레니움(Selenium) Lib를 가져와서 진행 부분이라 딱히 적을만한 내용이 없네요. ^^;;


뭔가 추천해드리고 싶은 스킬같은게 별로 없고 사용법만 익히시면 될것 같습니다.


=0=;;


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
using OpenQA.Selenium;
using OpenQA.Selenium.Chrome;
 
using System;
using System.Collections.Generic;
using System.ComponentModel;
using System.Data;
using System.Drawing;
using System.IO;
using System.Linq;
using System.Net;
using System.Net.NetworkInformation;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading;
using System.Threading.Tasks;
using System.Windows.Forms;
 
 
namespace winformCrawling
{
    public partial class Form1 : Form
    {
 
        private ChromeDriverService _driverService = null;
        private ChromeOptions _options = null;
        private ChromeDriver _driver = null;
 
        List<string> Lsrc = null// IMG URL (Loading 할 Image URL을 넣어 둘 배열)
        int i = 0// 현재 배열 위치
 
        public Form1()
        {
            InitializeComponent();
 
            _driverService = ChromeDriverService.CreateDefaultService();
            _driverService.HideCommandPromptWindow = true;
 
            _options = new ChromeOptions();
            _options.AddArgument("disable-gpu");
        }
 
 
        #region Login
 
        /// <summary>
        /// Login 관련 Click Event
        /// </summary>
        /// <param name="sender"></param>
        /// <param name="e"></param>
        private void btnLogin_Click(object sender, EventArgs e)
        {
 
            string id = tboxID.Text;
            string pw = tboxPW.Text;
 
            _driver = new ChromeDriver(_driverService, _options);
            _driver.Navigate().GoToUrl("https://www.daum.net");  // 웹 사이트에 접속합니다.
            _driver.Manage().Timeouts().ImplicitWait = TimeSpan.FromSeconds(10);
            
            var element = _driver.FindElementByXPath("//*[@id='inner_login']/a[1]");   // Main 로그인 버튼
            element.Click();
 
            Thread.Sleep(3000);
 
            element = _driver.FindElementByXPath("//*[@id='id']");    // ID 입력창
            element.SendKeys(id);
 
            element = _driver.FindElementByXPath("//*[@id='inputPwd']");   // PW 입력창 
 
            element.SendKeys(pw);
 
            element = _driver.FindElementByXPath("//*[@id='loginBtn']");  // 로그인 버튼
            element.Click();
        }
        
        #endregion
 
 
        #region Image 검색
 
        /// <summary>
        /// Image 검색 관련 Click Event
        /// </summary>
        /// <param name="sender"></param>
        /// <param name="e"></param>
        private void btnSearch_Click(object sender, EventArgs e)
        {
            string strURL = "https://www.google.com/search?q=" + tboxSearch.Text + "&source=lnms&tbm=isch";
 
            _driver = new ChromeDriver(_driverService, _options);
            _driver.Navigate().GoToUrl(strURL); // 웹 사이트에 접속합니다.
            _driver.Manage().Timeouts().ImplicitWait = TimeSpan.FromSeconds(10);
 
            _driver.ExecuteScript("window.scrollBy(0, 10000)");  // 창을 띄우고 스크롤 진행
 
            Lsrc = new List<string>();
 
            foreach (IWebElement item in _driver.FindElementsByClassName("rg_i"))
            {
                if (item.GetAttribute("src"!= null)
                    Lsrc.Add(item.GetAttribute("src"));
            }
 
            lblTotal.Text = "/ " + Lsrc.Count.ToString();
 
            this.Invoke(new Action(delegate ()
            {
                try
                {
                    foreach (string strsrc in Lsrc)
                    {
                        i++;
 
                        GetMapImage(Lsrc[i]);
                        tboxNow.Text = i.ToString();
                        Refresh();
                        Thread.Sleep(50);
                    }
                }
                catch (Exception)
                {
                }
            }));
        }
 
 
        /// <summary>
        /// 다음 검색 Image 
        /// </summary>
        /// <param name="sender"></param>
        /// <param name="e"></param>
        private void btnPre_Click(object sender, EventArgs e)
        {
            this.Invoke(new Action(delegate ()
            {
                i--;
 
                GetMapImage(Lsrc[i]);
                tboxNow.Text = i.ToString();
            }));
        }
 
 
        /// <summary>
        /// 이전 검색 Image
        /// </summary>
        /// <param name="sender"></param>
        /// <param name="e"></param>
        private void btnNext_Click(object sender, EventArgs e)
        {
            this.Invoke(new Action(delegate ()
            {
                i++;
 
                GetMapImage(Lsrc[i]);
                tboxNow.Text = i.ToString();
            }));
        }
 
 
        /// <summary>
        /// 선택 검색 Image
        /// </summary>
        /// <param name="sender"></param>
        /// <param name="e"></param>
        private void btnGo_Click(object sender, EventArgs e)
        {
            this.Invoke(new Action(delegate ()
            {
                i = int.Parse(tboxNow.Text);
 
                GetMapImage(Lsrc[i]);
                tboxNow.Text = i.ToString();
            }));
        }
 
 
 
        /// <summary>
        /// IMAGE URL 정규식 변환 후 PicutreBox에 IMAGE Loading
        /// </summary>
        /// <param name="base64String"></param>
        private void GetMapImage(string base64String)
        {
            try
            {
                var base64Data = Regex.Match(base64String, @"data:image/(?<type>.+?),(?<data>.+)").Groups["data"].Value;  // 정규식 검색
                var binData = Convert.FromBase64String(base64Data);
 
                using (var stream = new MemoryStream(binData))
                {
                    if (stream.Length == 0)
                    {
                        pboxMain.Load(base64String);
                        tboxNow.Text = i.ToString();
                        tboxUrl.Text = base64String;
                    }
                    else
                    {
                        var image = Image.FromStream(stream);
                        pboxMain.Image = image;
                        tboxUrl.Text = base64String;
                    }
                }
            }
            catch
            {
 
            }
        }
 
 
        #endregion
 
 
 
    }
}
 
cs








댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/11   »
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
글 보관함