• התכנים בפורום אינם מהווים ייעוץ מקצועי מכל סוג, לרבות ייעוץ השקעות המתחשב בצרכיו המיוחדים של כל אדם.
    השימוש בפורום כפוף לתנאי השימוש. עצם השימוש בפורום מהווה הסכמה מלאה לתנאים אלה.

Web Scraping - מה הגישה הרגולטורית לזה?

  • פותח הנושא פותח הנושא stamEhad
  • פורסם בתאריך פורסם בתאריך

stamEhad

משתמש רגיל
הצטרף ב
3/10/20
הודעות
517
דירוג
297
אני מפתח תוכנה ולאחרונה התחלתי לשחק עם scraping - בעצם לאסוף מידע מאתרי אינטרנט, לטייב אותו ולסדר אותה בצורה שתהיה נוחה לעיבוד וניתוח אנליטי

מידע שנאסף ומעובד יכול להיות שווה ערך - לדוגמא אם הייתי אוסף בכל יום את כל המודעות (מכירה והשכרת נכסים) מאתר יד2 במשך שנה, זה מידע שיכול לעניין המון אנשים.

ברמה הכי פשטנית - אולי הייתי יכול לאסוף מידע כזה או אחר (פיננסי, כלכלי, ספורט, מחירים במכולת וכו') ולהציג אותו באתר שאפתח ולהראות באתר פרסומות וכך להרוויח כמה מאות שקלים "מהצד" בחודש
[עזבו שניה את העניין של כמה זה קשה לגרום לאתר כזה להצליח להניב תשואה חיובית]

אני בטוח שלא הכל שחור ולבן... אבל האם מבחינה חוקית יש איזושהן הגבלות ידועות? למישהו יצא לחקור/להתעסק עם הנושא?
אולי יש מקורות מידע אמינים שאוכל להסתמך עליהם?

מרגיש לי שזה עולם קצת shady, כי התוכן מצד אחד לא שלך, אבל מצד שני הוא מוצג ברחבי האינטרנט...
בנוסף, אתרים מאד מנסים להגביל בוטים, גם כדי להימנע ממתקפות DDoS וכו' אבל גם כדי למנוע אוטומציות ו"גניבה" על הדאטה שלהם
 
זה בתחום האפור וזה תלוי מאוד מה מטרת השימוש של הקצירה.
יש עניין של זכויות יוצרים וגם הסכם שימוש של האתר וכו'.
ככלל אצבע לפי מה שאני מבין כל עוד זה לא אגרסיבי מדי וזה לשימוש אישי או לפחות לא למטרות רווח אז זה נסבל.
ברגע שזה לא - אז כבר יותר בעייתי ואפשר לחטוף תביעות במקרים מסוימים.
בהערת אגב, אני עושה כבר שנים סקרייפינג לשימוש אישי מאתר מסוים בארץ ולא חיפשו אותי.
 
זה בתחום האפור וזה תלוי מאוד מה מטרת השימוש של הקצירה.
יש עניין של זכויות יוצרים וגם הסכם שימוש של האתר וכו'.
ככלל אצבע לפי מה שאני מבין כל עוד זה לא אגרסיבי מדי וזה לשימוש אישי או לפחות לא למטרות רווח אז זה נסבל.
ברגע שזה לא - אז כבר יותר בעייתי ואפשר לחטוף תביעות במקרים מסוימים.
בהערת אגב, אני עושה כבר שנים סקרייפינג לשימוש אישי מאתר מסוים בארץ ולא חיפשו אותי.
אז אם המטרה שלי היא כמו שכתבתי - לנסות לייצר נכס בצורת אתר אינטרנט כזה או אחר שיניב כמה מאות שקלים בחודש
כנראה שזה יהיה בעייתי?
(אפשר לקחת את יד2 בתור דוגמא יחסית מייצגת)

אבל באופן כללי נשמע שאתה צודק, כל אתר והסכם השימוש שלו. אנסה לחפש את הסעיף הזה בכמה אתרים ואבין מה "נהוג"
 
יש קובץ שנקרא robots.txt, הוא קיים בכל אתר
שם כתוב מה מותר לך ואסור לך לקרוא.
 
יש קובץ שנקרא robots.txt, הוא קיים בכל אתר
שם כתוב מה מותר לך ואסור לך לקרוא.
לא מדויק, robots.txt היא דרך של בעלי אתרים להגדיר למנועי חיפוש מה לאנדקס או לא לאנדקס. מנועי חיפוש דוגמת גוגל או בינג יכבדו את הגדרות האתר, ולא יציגו תוצאות מדפים שהאתר מבקש לא לאנדקס. אבל זה לא מדבר על סריקת הדף ולא מגדיר מה מותר ומה אסור.
 
לא מדויק, robots.txt היא דרך של בעלי אתרים להגדיר למנועי חיפוש מה לאנדקס או לא לאנדקס. מנועי חיפוש דוגמת גוגל או בינג יכבדו את הגדרות האתר, ולא יציגו תוצאות מדפים שהאתר מבקש לא לאנדקס.
“robots.txt is a standard used by websites to indicate to visiting web crawlers and other web robots which portions of the website they are allowed to visit. This relies on voluntary compliance.”

כשמו כן הוא, קיים בשביל להנחות את כל הרובוטים.
 
“robots.txt is a standard used by websites to indicate to visiting web crawlers and other web robots which portions of the website they are allowed to visit. This relies on voluntary compliance.”

כשמו כן הוא, קיים בשביל להנחות את כל הרובוטים.
הוא לא מגדיר מה מותר ומה אסור, אלא לאלו תכנים האתר מבקש שיפנו או לא יפנו משתמשים במנועי החיפוש.
This relies on voluntary compliance
 
גם תנאי שימוש זה ״בקשה״
לא, תנאי שימוש אינו בקשה אלא דרישה עבור השימוש באותו אתר. אם אינך מכבד את התנאי האתר רשאי לתבוע אותך על הפרתו.

ובלי קשר, זה שאתר סימן בקובץ הרובוטס שדומיין מסויים הוא allowed לא אומר שמותר לך לעשות לו סקרייפינג ולהשתמש באתר אחר בתוכן שמבוסס על דאטה שאספת ממנו, וזה שהאתר מסמן disallow בקובץ הרובוטס על דומיין אחר לא אומר שאסור לך לעשות בו סקרייפינג ולהשתמש במידע ממנו.
מה שזה כן אומר זה שהאתר מבקש ממנועי חיפוש שמכבדים את הסטנדרט, להציג או לא להציג תוצאות לפי ההגדרות בקובץ.
 
לא, תנאי שימוש אינו בקשה אלא דרישה עבור השימוש באותו אתר. אם אינך מכבד את התנאי האתר רשאי לתבוע אותך על הפרתו.

ובלי קשר, זה שאתר סימן בקובץ הרובוטס שדומיין מסויים הוא allowed לא אומר שמותר לך לעשות לו סקרייפינג ולהשתמש באתר אחר בתוכן שמבוסס על דאטה שאספת ממנו, וזה שהאתר מסמן disallow בקובץ הרובוטס על דומיין אחר לא אומר שאסור לך לעשות בו סקרייפינג ולהשתמש במידע ממנו.
מה שזה כן אומר זה שהאתר מבקש ממנועי חיפוש שמכבדים את הסטנדרט, להציג או לא להציג תוצאות לפי ההגדרות בקובץ.
אם אתה יכול להציג את המידע במנוע חיפוש אתה יכול להציג אותו גם באתר אחר (שאינו ״מנוע חיפוש״), כמו שאמרתי, סוג הרובוט לא משנה.

אני באופן כללי לא הייתי מנסה להרויח כסף על חשבון דאטה של מישהו אחר בלי עורך דין

לא ממליץ ולא מייעץ
 
אם אתה יכול להציג את המידע במנוע חיפוש אתה יכול להציג אותו גם באתר אחר (שאינו ״מנוע חיפוש״), כמו שאמרתי, סוג הרובוט לא משנה.
מנוע חיפוש מציג לך שניים-שלושה משפטים מתוכן העמוד, בתוצאה שמתקבלת ממילות חיפוש שהמשתמש הקיש. זה שונה לחלוטין מלמשל להציג למשתמש את כל תוכן הכתבה (או "מספיק בשר") כשהוא באתר משלך.
ובכל אופן הנקודה שאני מנסה להעביר - "מותר" או "אסור" בפן המשפטי, לא קשור למנגנון הוולנטרי שנקרא robots.txt, שתכליתו לבקש מרובוטים לא להפנות משתמשים לדפים אותם האתר מציין שלא מיועדים לאינדוקס (לרוב אלו אינם דפים שהמשתמש יגיע אליהם באופן ישיר, אלא resources שנטענים כחלק מדפים אחרים, והאתר אינו מעוניין שיגיעו אליהם ישירות בחיפוש - למשל קבצי מדיה, מפות וכו׳).
 
מניסיון הליכים משפטיים שליוויתי, בווב סקרייפינג אתה חשוף לסיכונים עיקריים הבאים -

1. הפרה חוזית של תנאי שימוש באתרים (אם תנאי שימוש אוסרים על סקרייפינג או שימוש במידע ללא הסכמת בעל האתר)

2. הפרה של זכויות יוצרים (העתקה של טקסטים, תמונות וכו'. אולי גם של הדאטה עצמו)

3. פגיעה בפרטיות (העתקה של פרטים אישיים של משתמשים כגון, שמות, טלפונים, מיקומים גאוגרפיים וכו', ללא הסכמתם) + ניהול מאגר מידע אישי בניגוד לחוק. וכאן כן יש סיכון רגולטורי.

מה ההסתברות שינקטו נגדך הליכים? קשה לדעת. תלוי מה הנראות שלך ומה אתה עושה עם הנתונים.
 
שאלה מעניינת, יש חברות שלמות שחיות רק מזה, למשל כאלו שמעתיקות דאטה מלינקדין.
 
אז אם המטרה שלי היא כמו שכתבתי - לנסות לייצר נכס בצורת אתר אינטרנט כזה או אחר שיניב כמה מאות שקלים בחודש
כנראה שזה יהיה בעייתי?
(אפשר לקחת את יד2 בתור דוגמא יחסית מייצגת)

אבל באופן כללי נשמע שאתה צודק, כל אתר והסכם השימוש שלו. אנסה לחפש את הסעיף הזה בכמה אתרים ואבין מה "נהוג"
אני אשים שנייה את הפן החוקי בצד כי זה לדעתי פחות מעניין.
כל אתר טיפה גדול מפרסם תקנון שאוסר את זה, בפועל כולם עושים את זה - חלק גדול מהתנועה בנט זה קרולרים למיניהם.
הייתי רק מתייחס לסיכון להסתבך. לאור זה שאתה מדבר על אתר קטן שירוויח אולי כמה מאות שקלים - כנראה שהסיכון נמוך.
כל עוד לא ברור מאליו מאיפה הנתונים הגיעו ואתה לא "משתין מהמקפצה" - כנראה יהיה בסדר. מכאן זה שיקולים מדויקים יותר שלך.
 
כל עוד לא ברור מאליו מאיפה הנתונים הגיעו ואתה לא "משתין מהמקפצה" - כנראה יהיה בסדר. מכאן זה שיקולים מדויקים יותר שלך.
מחזק,
אם למשל בדוגמא של יד 2 שנתת למעקב אחרי שוק השכירות תכתוב "מספר מודעות שכירות סהכ באינטרנט" זה אולי יהיה יותר לגיט.
 

פתחו חשבון למסחר עצמאי

פסגות טרייד

ישראל: 0.06% מעסקה (מינימום ₪2 לפעולה)
ארה"ב: 1¢ למניה (מינימום $6 לפעולה)
דמי ניהול: ללא דמי ניהול
מינימום: ₪10,000
פתיחת חשבון

מיטב טרייד

ישראל: 0.08% מעסקה (מינימום ₪4.65 לפעולה)
ארה"ב: 1¢ למניה (מינימום $6 לפעולה או $5 ב-IBKR)
דמי ניהול: פטור לשנתיים, אח״כ ₪15
מינימום: ₪5,000
פתיחת חשבון

אקסלנס טרייד

ישראל: 0.07% מעסקה (מינימום ₪3 לפעולה)
ארה"ב: 1¢ למניה (מינימום $6 לפעולה או $5 ב-IBKR)
דמי ניהול: פטור לשלוש שנים, אח״כ ₪15
מינימום: ₪10,000
פתיחת חשבון
פסגות טרייד
מינימום לפתיחת חשבון: ₪10,000
ישראל: 0.06% מעסקה (מינימום ₪2 לפעולה)
ארה"ב: 1¢ למניה (מינימום $6 לפעולה)
דמי ניהול: ללא דמי ניהול
פתיחת חשבון
מיטב טרייד
מינימום לפתיחת חשבון: ₪5,000
ישראל: 0.08% מעסקה (מינימום ₪4.65 לפעולה)
ארה"ב: 1¢ למניה (מינימום $6 לפעולה או $5 ב-IBKR)
דמי ניהול: פטור לשנתיים, אח״כ ₪15
פתיחת חשבון
אקסלנס טרייד
מינימום לפתיחת חשבון: ₪10,000
ישראל: 0.07% מעסקה (מינימום ₪3 לפעולה)
ארה"ב: 1¢ למניה (מינימום $6 לפעולה או $5 ב-IBKR)
דמי ניהול: פטור לשלוש שנים, אח״כ ₪15
פתיחת חשבון
גילוי נאות: האתר מקבל תגמול בגין פתיחת חשבון דרך הקישורים. אין באמור משום ייעוץ השקעות או שיווק השקעות.
אני מפתח תוכנה ולאחרונה התחלתי לשחק עם scraping - בעצם לאסוף מידע מאתרי אינטרנט, לטייב אותו ולסדר אותה בצורה שתהיה נוחה לעיבוד וניתוח אנליטי

מידע שנאסף ומעובד יכול להיות שווה ערך - לדוגמא אם הייתי אוסף בכל יום את כל המודעות (מכירה והשכרת נכסים) מאתר יד2 במשך שנה, זה מידע שיכול לעניין המון אנשים.

ברמה הכי פשטנית - אולי הייתי יכול לאסוף מידע כזה או אחר (פיננסי, כלכלי, ספורט, מחירים במכולת וכו') ולהציג אותו באתר שאפתח ולהראות באתר פרסומות וכך להרוויח כמה מאות שקלים "מהצד" בחודש
[עזבו שניה את העניין של כמה זה קשה לגרום לאתר כזה להצליח להניב תשואה חיובית]

אני בטוח שלא הכל שחור ולבן... אבל האם מבחינה חוקית יש איזושהן הגבלות ידועות? למישהו יצא לחקור/להתעסק עם הנושא?
אולי יש מקורות מידע אמינים שאוכל להסתמך עליהם?

מרגיש לי שזה עולם קצת shady, כי התוכן מצד אחד לא שלך, אבל מצד שני הוא מוצג ברחבי האינטרנט...
בנוסף, אתרים מאד מנסים להגביל בוטים, גם כדי להימנע ממתקפות DDoS וכו' אבל גם כדי למנוע אוטומציות ו"גניבה" על הדאטה שלהם


שלום רב , אשמח לשוחח איתך על הנושא אם אפשרי . בברכה
 

נושאים דומים

Back
למעלה