독서 시간 : 3 

Linux / Unix는 개발 및 분석에 가장 많이 사용되는 플랫폼입니다. 나는 리눅스의 기본 명령에서 많은 개발자와 데이터 과학자의 투쟁을 보았지만 실제로는 매우 쉽지만 게으름이 적기 때문에 문서화하는 것을 무시한다. 이 기사를 살펴 보는 데 단 5 분이 소요됩니다.이 기사에서“데이터 과학자를위한 10 가지 Linux 명령”을 참조하십시오. 가장 큰 장점은 명령 목록 중 10 개만 가장 많이 나열한 것입니다. 나는 항상 큰 성공을위한 작은 발걸음을 믿습니다. 나는 데이터 과학자이며 그것이 가장 큰 고통의 영역이었다. 따라서 나는이 기사에서 그것들을 문서화했다. 당신이 생각하면 쉽게 표시를 예약 할 수 있습니다.

데이터 과학자를위한 10 가지 리눅스 명령 :

  1. 찾기 –

이 명령은 디렉토리에서 파일을 검색하는 데 도움이됩니다. 재귀 적으로 검색합니다. 다음은 그 구문입니다.

 

find [Directory] [regular_expression] [-options] [search_type]

➜ 등을 찾으십시오. -name '* trans *'-타입 f ./filetransfer.txt

2. grep –

파일을 찾으면. 이제 파일 내에서 패턴을 검색해야합니다. grep 명령을 사용할 수 있습니다. 이 검색을보다 효과적으로 만드는 많은 옵션이 있습니다. 하나씩 이해하십시오.

통사론: grep "WhatToSearch"파일 이름

변형 –

노트 -

 

  1. 문자열 (WhatToSearch) 및 filename 대신에 정규식을 사용할 수 있습니다.
  2. 기본적으로 grep 명령은 대소 문자를 구분합니다. 대소 문자를 구분하지 않으려면“grep -i”를 사용하십시오. 예를 들어 –

cut -d ','-f 5 filename.csv

 

grep -i "whatToSearch"파일 이름

grep 명령에 대한 자세한 정보를 얻으십시오 .

3. 컷 –

빠른 필터링에 매우 유용합니다. 열 데이터를 사용하면 최상의 결과를 얻을 수 있습니다.

cut -d 'separator'-f column_no 파일 이름cut -d ','-f 5 filename.csv

4. Wget 명령 –

원격 위치에서 무언가를 다운로드해야하는 경우이 명령을 사용하십시오. 다음은 간단한 구문입니다.

~ $ wget taget_link

5. 역사

우리는 이런 상황에 직면해야하며 우리는 어떤 명령에 대해 말했지만 그 명령은 스크린에서 사라진다. 다시 사용해야 할 때 검색합니다. 스마트 솔루션은이를위한 사용 내역 명령입니다.

~ $ 역사

6. 머리 –

종종 우리는 파일의 구조를 볼 필요가있다. 우리는 단지 파일의 일부를 인쇄하기 위해 파일을 열 필요는 없다. 일반적으로 csv / excel 유형의 파일 헤더를 볼 필요가 있습니다. 대부분의 분석 소프트웨어에서 열 이름은 file로 매핑해야합니다. 다음에이 시나리오를 사용하십시오. head 명령의 구문은 다음과 같습니다.

~ $ head -n 5 파일 이름

여기서 n의 값은 header의 행 번호를 나타냅니다.

7. 꼬리 –

head 명령과 매우 유사하지만 본질적으로 반대입니다. 기본적으로 마지막부터 인쇄됩니다. 구문은 아래를 참조하십시오.

꼬리 -n 15 파일 이름

8. awk –

학습을위한 완전한 주제입니다. 진실은 그것을 인라인으로 덮고있는 것입니다. 여기에 큰 불의가있을 것입니다. Awk는 텍스트 파일을 특수하게 처리하고 필터링합니다. this (awk)에 대한 자세한 내용은  here 참조해야한다고 생각합니다 .

9. 화장실 –

이 Linux 명령 / 쉘 명령은 데이터 과학자가 파일 아래 줄 수, 단어 수를 찾거나 추정하는 데 도움이됩니다.

예를 들어 –

$ wc -l filename.txt

여기서 wc -l은이 파일의 행 번호를 나타냅니다. 파일 내부의 단어 수를 추정하려면 다시 한 번. 방법은 다음과 같습니다

$ wc -w filename.txt

도 10. 고양이 –

목록의 끝에 있지만 목록에는 없습니다. 사실 그것은 우리에게 가장 인기있는 명령 중 하나입니다. cat 명령을 사용하여 모든 파일의 내용을 인쇄합니다. 이와 함께이 명령을 사용하여 두 파일을 하나로 병합 / 연결할 수 있습니다. cat 명령의 구문은 다음과 같습니다.

cat input1.csv input2.data> output.csv

이것은 데이터 과학자로서 저에게 가장 필요한 명령입니다. 나는 당신에게도 똑같이되기를 바랍니다. 그것은 거의 매일 80 % 리눅스 물건을 마무리합니다.

결론 –

언젠가이 작은 학습은 많은 도움이됩니다. 우리가 무언가를 배우거나 배우기로 결정할 때 일반적으로 일어나는 일. 우리는 최고의 튜토리얼을 찾기 위해 시간을 투자합니다. 우리는 일반적으로 자세한 것을 얻지 만 시작하지는 않습니다. 언젠가 우리는 시작하기는하지만 우리에게 큰 것처럼 보이기 때문에 일찍 멈 춥니 다. 이 기사는 튜토리얼 내용은 아니지만 실제로 작은 단계를 수행하는 마음가짐입니다. 이것에 대한 당신의 의견을 알려주세요. 나는이 사고 방식을 의미한다. 이 기사가 당신의 성과에 영향을 주나요? 알려주세요. 위에서 언급 한 명령과 관련하여 의문이있는 경우 다시 작성해주십시오.

데이터 과학자를위한 SQL을 배우는 가장 좋은 방법 : 1 부

이 게시물에는 제휴사 링크가 포함되어있을 수 있습니다. 자세한 내용은 공개  읽으십시오.

독서 시간 : 4 

SQL은 모든 데이터 과학자에게 가장 필수적인 기술 중 하나입니다. 기본 데이터 마이닝, 기본 SQL 지식을 통해 모든 데이터 과학자를위한 숨겨진 매개 변수와 훨씬 더 일상적인 작업을 쉽게 찾을 수 있습니다. 만약 당신이 데이터 과학의 초보자이고 데이터 과학 을위한 SQL을 배우는 가장 좋은 방법을 찾고 있다면 그것은 당신에게 가장 적합한 장소가 될 것입니다. 파티를 즐기시면 완전한 기사를 읽어보십시오. 시간이 많이 걸리지 않을 것을 약속드립니다.

데이터 과학자를위한 SQL을 배우는 가장 좋은 방법

우리는 다양한 학습 단계로 완전한 학습을 ​​설계했습니다

 

  1. 스키마 생성 (DDL)
  2. 데이터베이스에 데이터 삽입 / 업데이트
  3. 복잡한 쿼리 및 결과 예측

우리는이 기사에서 주먹과 두 번째 단계 만 끝내려고 노력할 것이다. 복잡한 쿼리와 결과 프로젝션 부분은 다음 기사에서 다룰 것입니다. 앞으로 나아 가기 전에 기사를 살펴 보는 것이 좋습니다 . 데이터 과학에서 SQL을 사용하는 것이 왜, 어떻게 중요한지 아십시오.

1. 스키마 생성 (DDL)

관계형 데이터베이스를 사용하는 데이터 과학 프로젝트를 수행하고 있다고 가정합니다. 두 가지 상황이있을 수 있음을 명심하십시오.

  1. 데이터가 없으며 외부 소스에서 데이터를 가져오고 있습니다. 이제 일부 SQL 기반 데이터베이스에 덤프해야합니다. 여기에는 스키마 생성 섹션이 필요합니다.
  2. 두 번째 상황에서는 기존 데이터베이스에 데이터가 있습니다. 당신이해야 할 일은 쿼리를 실행하는 것입니다 . 이 경우이 섹션은 더 이상 사용되지 않습니다. 복잡한 쿼리 및 결과 프로젝션 섹션으로 직접 이동할 수 있습니다.

기존 데이터베이스가 없으면 새 데이터베이스를 만들어야합니다.

데이터베이스를 생성하는 SQL 쿼리 :

데이터베이스 생성 testDB; // 여기 testDB는 데이터베이스 이름입니다

 

테이블을 생성하는 SQL 쿼리 :

CREATE TABLE test_table (

Col1 데이터 유형 제약 조건,

Col2 데이터 유형 제약 조건,

Col3 데이터 유형 제약 조건,

Col4 데이터 유형 제약

);

여기서 데이터 유형은 varchar, int 등입니다.

기타 필수 DDL 명령 –

다음과 같은 다른 중요한 DDL 명령은 거의 없습니다.

1. ALTER

2. 드롭

3. 절단

SQL의 제약 조건 –

테이블을 만들 때 제약 조건을 추가할지 여부에 대한 옵션이 있습니다. DDL 스크립트에 제약 조건을 추가하기위한 완벽한 상황입니다. NOT NULL, UNIQUE, PRIMARY KEY, FORIEGN KEY, CHECK, DEFAULT, INDEX는 SQL에서 가능한 제한 조건입니다 .

2. 데이터베이스에 데이터 삽입 / 업데이트

스키마를 성공적으로 만든 후. 데이터를로드 할 시간입니다. 이것은 SQL에서 가장 쉬운 작업 중 하나입니다. 이에 대한 직접적인 명령이 있습니다 –

INSERT INTO table_name (열 1, 열 2,… .. 등) 값 (Val 1, Val 2, …… 등);

Table의 모든 열에 값을 삽입하려는 경우 다음을 사용할 수 있습니다.

INSERT INTO table_name VALUES (Val 1, Val 2, …… 등);

삽입 후 사용자 / 개발자가 표의 값을 업데이트해야하는 경우 다음에 대한 명령은 다음과 같습니다.

업데이트 Table_name

SET Column_name = 값 

어디 조건;

3. 복잡한 쿼리 및 결과 투영

SQL을 배우는 가장 좋은 일련의 방법에서, 우리는 데이터베이스, 테이블을 작성하는 방법 및 테이블에 데이터를 삽입하는 방법을 알고있는 곳에 도달했습니다. 진짜 물을 맛볼 시간. 기본적으로 게시물의 위 부분은 데이터 과학자 / 데이터 분석가를위한 SQL 전제 조건의 미리보기를 제공하는 데 사용되었습니다.이 게시물에서는 SQL에서 가장 많이 사용되는 쿼리를 소개합니다.

고르다 -

테이블에서 데이터를보고 싶을 때이 명령을 사용합니다.이 명령에는 약간의 변형이 있습니다.

  1. 전체 테이블을 선택하려면 –

SELECT * FROM table_name;

   2. 전체 테이블에서 몇 개의 열을 선택하는 경우 –

table_name에서 SELECT column_name;

 3. 고유 값의 투영에서 –

SELECT DISTINCT column_name FROM table_name;

주문 -

이 문장은 결과 투영 순서를 설정하는 데 유용합니다. 열에서 오름차순 및 내림차순 정렬을 의미합니다. 당신은 그것을 언급하고 select 문의 일부를 끝내야합니다. 문법이 더 잘 이해하는데 도움이 될 것 같아요 –

SELECT * FROM table_name WHERE 조건 ORDER BY column_name;

여기서 ORDER BY 문 다음에 둘 이상의 열을 언급 할 수 있습니다. 열 이름 뒤에 ASC 또는 DESC를 추가하여 정렬을보다 구체적으로 만들 수 있습니다.

SELECT * FROM table_name WHERE 조건 ORDER BY column_name1 ASC, column_name2 DESC;

HAVING 절이있는 GROUP BY –

왜 그런지 모르겠지만 인터뷰에서 주로 SQL 쿼리가 요청됩니다. SQL에는 AVG (Column_name), SUM (Column_name), COUNT (Column_name) 등과 같은 집계 함수가 있습니다. 여기에서 이러한 결과를 특정 열별로 그룹화 할 수 있습니다. 여기에서는 HAVING query 명령과 통합 된 GROUP BY 쿼리에 대한 완전한 구문을 제공합니다.

SELECT AVG ( column_name 1), column_name 2
from  table_name
WHERE  조건
GROUP BY  column_name 2
HAVING  조건
ORDER BY  column_name 2;

승객이 다른 나라에서 온 항공사에 예약 표가 있다고 가정합니다. 이제 특정 여행 날짜에 모든 국가의 승객을 영사하지 않으려 고합니다. 여기서 GROUP BY 명령 을 사용하여 둘러보기를 달성 할 수 있습니다 

SELECT COUNT (passenge_id ) 국가
FROM 예약 Journydate가 = 'DD-mm-YYYY " 국가별로 기;


더 구체적으로 만들려면. 그것에 더 복잡성을 추가하자. 승객이 1000보다 크지 않은 국가 만 선택해야하는 경우 여기에 대한 쿼리가 있습니다.

SELECT COUNT (passenge_id ), 국가
로부터 예약
WHERE Journydate은 = 'DD-MM-YYYY'
국가 BY GROUP

HAVING COUNT (passenge_id )> 1000;

최종 노트

따라서 여기서는 데이터 과학에서 SQL의 필수 요소로 끝납니다. 이 기사는 5 분 안에 SQL 기술을 연마 할 수 있기 때문에 데이터 과학을위한 SQL을 배우는 가장 좋은 방법으로 언급했습니다 . 이것은 20 %의 노력으로 80 %의 결과를 줄 것입니다. 데이터 과학에서 SQL의 요구 사항을 이해하는 데 도움이 더 필요한 경우 데이터 과학을위한 SQL 사용 : 이유와 방법을 아는 문서를 참조하십시오  .

Data science Learner Newsletter의 간단한 구독으로 우리와 연결하는 것을 잊지 마십시오. 우리는 당신이 데이터 과학 세계에서 최근에 일어난 모든 것을 업데이트하도록 도와줍니다. 이 기사에 대한 피드백을 우리에게 다시 쓸 수도 있습니다. 우리는 독자의 답변을 읽는 것을 좋아합니다.

기업가로서 데이터 과학으로부터 돈을 버는 5 가지 방법 –

이 상위 5 가지 방법 중 하나를 선택할 수 있습니다. 그것은 당신의 힘에 전적으로 달려 있습니다. 나는 당신을 도와 주거나 강요하지 않을 것입니다. 그것은 완전히 개인의 강점입니다. 하지만 끝까지 읽을 것을 권합니다.

  1. 데이터 과학 (내부 아이디어)에 관한 작은 제품 개발 –

제품 및 제품 개발과 관련하여 사람들은 항상 제품이 항상 큰 것이라고 생각합니다. 사실이 아닙니다! 제품은 실제 문제를 적어도 해결하는 것입니다. 우리가 일상 생활에서 사용하는 제품 때문에이 오해가 발생하는 시간은 때때로 나무와 같습니다. 예를 들어 Google을 사용하고 검색 콘솔, YouTube , google plus 등과 같은 여러 앱의 조합을 찾습니다 . 실제로 모든 훌륭한 제품은 하나의 고유 한 가치 제공 기능에서 시작됩니다. Lean 스타트 업과 같은 책을 읽더라도 동일한 조언을 얻을 수 있습니다. 가장 좋은 방법은 기능을 개발하고 실행하고 피드백을 받고 검토 한 후 개선하는 것입니다. 이 사이클이 끝나면 두 번째 사이클을 개발하십시오.

몇 가지 제품 아이디어에 대해 이야기하겠습니다. 당신은 개발하는 방법을 쉽게 알 수 chatbot을 위한 클라우드 플랫폼을 사용하여 아마존 렉스  dialogflow 우선은 해당 지역에 대한 지역 광고에 대한 chatbot을 구축 할 수 있습니다. 넓은 지역의 경우 이미 앱이나 챗봇이 있어야하기 때문에 넓은 지역의 경우는 안됩니다. 이제 지역에서 동일한 것을 복제하는 것이 얼마나 바보 같은지 생각해야합니다. 따라서 게임 체인저는 정보의 사양과 정직성입니다. 제공된 세부 정보가 실제로 진실인지 아닌지를 로컬에서 검토하고 다시 확인할 수 있습니다. 일반적으로 이러한 대규모 광고 앱은 완전한 정확한 정보를 언급하지 않습니다. 같은 방식으로이 챗봇에 대한 추천 엔진을 자동 제안 및 추천 할 수 있습니다.

 

다른 방식으로 같은 일을한다고 믿으면 성공할 수 있습니다. 이제는 자신에게 가장 적합한 것이 무엇인지 식별하는 임무를 수행해야합니다. 이것은 하나의 사례 일뿐입니다. 당신은 열린 아이디어의 세계를 가지고 있습니다.

 2. 블로그 나 온라인 이러닝 웹 사이트 만들기 –

데이터 과학은 새로운 것입니다. 다른 모든 기술과 마찬가지로! 우리는 e- 러닝 웹 사이트의 내용을 읽는 것을 좋아합니다. 기회는 데이터 과학에 매우 적은 자원이 있다는 것입니다. 이미 존재하는 것은 좋지만 데이터 과학 분야에는 더 많은 양질의 컨텐츠가 부족합니다. 우리가 데이터 과학 학습자 에서하는 것처럼, 우리는 당신과 당신 같은 사람들을 위해 흥미롭고 가치있는 컨텐츠를 만들려고 노력하고 있습니다. 가장 중요한 부분은 우리의 열정에도 불구하고 우리가 벌고 있다는 것입니다. Adsense, 제휴사, 디지털 강좌 등 블로그에서 수익을 창출하는 방법에는 여러 가지가 있습니다. 이러한 방식으로 데이터 과학으로 수익을 창출 할 수도 있습니다.

 3. 데이터 과학에 관한 컨설팅 회사를 시작하십시오 –

당신은 이미 그것에 대해 알고있을 것입니다. 명확한 목표를 가진 작은 프로젝트부터 시작할 수 있습니다. 저의 유일한 제안은 컨설팅 프로젝트에 너무 많은 R & D를 포함하는 프로젝트로부터 자신을 구하는 것입니다. 데이터 과학의 R & D는 항상 경계에 있어야한다고 생각합니다. 고객이 R & D 과학자 엔지니어에게 자신의 급여를 지불해야한다는 것을 의미합니다. R & D 엔지니어에게 비용을 지불하는 것은 랠리가 어렵 기 때문에 PoC없이 프로젝트를 계약하고 일부 프로젝트가 프로젝트를 차단하고 있다고 가정하면 문제가 발생할 수 있습니다. 따라서 이전에 이미 수행했거나 유사한 프로젝트를 컨설팅하는 동안 해당 프로젝트 만 고려하십시오.

 4. 데이터 세트 수집 및 판매

데이터 과학은 거짓말 데이터 아래에 구축된다는 것을 알고 있습니다. 데이터 과학 코딩에 능숙하지 않은 경우 데이터 세트 수집으로 시작하여 판매 할 수 있습니다. 데이터 세트를 kaggle 과 같은 인기있는 웹 사이트에 판매 할 수 있습니다 . 데이터 과학 커뮤니티에 이러한 기여를함으로써 데이터 과학으로부터 돈을 벌 수 있습니다.

 5. 온라인으로 전 세계 데이터 과학 완성에 참여하고 –

상금으로 참여하는 데이터 과학 플랫폼은 매우 많습니다. 문제 진술에 참여하여 기계 학습 모델을 만들 수 있습니다. 결과 중심과 정확도 측정을 기반으로 많은 양의 보상이 제공됩니다. 대학생의 대부분은이 방법으로 시작하여 데이터 과학으로 돈을 벌게되며 이는 학습 단계에있을 때 더 바람직합니다.

결론 –

친구 야! 이 기사를 어떻게 찾았습니까? " 기업가로서 데이터 과학으로 수익을 창출하는 5 가지 방법 " 이 주제를 여러 각도에서 다루려고 노력했습니다. 나는 학습 단계에있는 학생의 전향을 다루려고 노력했으며 중급 및 전문가 수준의 사람들도 다루었습니다. 아이디어는 기업가로서 데이터 과학의 수입을 제안하는 것입니다. 다른 데이터 과학 기업가 아이디어를 추가하려는 경우 언급 된 방법과 별도로하십시오. 아래에 의견을 주거나 다시 작성하십시오. 또한 다음 기사에서 데이터 과학 기업가 정신에 관한 최고의 e- 러닝 비디오를 제공 할 계획입니다. 그러나 알림을 받으려면 구독하십시오.

+ Recent posts